JP2000250583A - 統計的言語モデル生成装置及び音声認識装置 - Google Patents

統計的言語モデル生成装置及び音声認識装置

Info

Publication number
JP2000250583A
JP2000250583A JP11054016A JP5401699A JP2000250583A JP 2000250583 A JP2000250583 A JP 2000250583A JP 11054016 A JP11054016 A JP 11054016A JP 5401699 A JP5401699 A JP 5401699A JP 2000250583 A JP2000250583 A JP 2000250583A
Authority
JP
Japan
Prior art keywords
word
language model
statistical language
model
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11054016A
Other languages
English (en)
Inventor
Jubu Cho
樹武 張
Singer Harald
ハラルド・シンガー
Yoshinori Kosaka
芳典 匂坂
Hiroshi Yamamoto
博史 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Interpreting Telecommunications Research Laboratories
Original Assignee
ATR Interpreting Telecommunications Research Laboratories
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Interpreting Telecommunications Research Laboratories filed Critical ATR Interpreting Telecommunications Research Laboratories
Priority to JP11054016A priority Critical patent/JP2000250583A/ja
Publication of JP2000250583A publication Critical patent/JP2000250583A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 トライグラム以上の統計的言語モデルであっ
ても記憶すべきパラメータが少なくてすみ、高い音声認
識率を得る。 【解決手段】 言語モデル生成部20は、学習用テキス
トデータメモリ21に格納された学習用テキストデータ
に基づいて、処理対象の単語のユニグラムと、処理対象
の単語とその単語から直前の距離1にある単語との間の
バイグラムと、処理対象の単語とその単語から直前の距
離2にある単語との間のバイグラムと、上記ユニグラム
及び2つのバイグラムを正規化するための正規化パラメ
ータとを含むモデルパラメータを有する統計的言語モデ
ルを、処理対象の単語のトライグラムと、2つのバイグ
ラムの推定値との誤差が最小となるように平滑化して学
習することにより統計的言語モデルを生成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、学習用テキストデ
ータに基づいて統計的言語モデルを生成する統計的言語
モデル生成装置、及び上記統計的言語モデルを用いて、
入力される発声音声文の音声信号を音声認識する音声認
識装置に関する。
【0002】
【従来の技術】近年、連続音声認識装置において、その
性能を高めるために言語モデルを用いる方法が研究され
ている。これは、言語モデルを用いて、次単語を予測し
探索空間を削減することにより、認識率の向上及び計算
時間の削減の効果を狙ったものである。最近盛んに用い
られている言語モデルとしてN−グラム(N−gra
m)がある。これは、大規模なテキストデータを学習
し、直前のN−1個の単語から次の単語への遷移確率を
統計的に与えるものである。複数L個の単語列w1 L=w
1,w2,…,wLの生成確率P(w1 L)は次式で表され
る。
【0003】
【数1】
【0004】ここで、wtは単語列w1 Lのうちt番目の
1つの単語を表し、wi jはi番目からj番目の単語列を
表わす。上記数1において、確率P(wt
t+1-N t-1)は、N個の単語からなる単語列wt+1-N t-1
が発声された後に単語wtが発声される確率であり、以
下同様に、確率P(A|B)は単語又は単語列Bが発声
された後に単語Aが発声される確率を意味する。また、
数1における「Π」はt=1からLまでの確率P(wt
|wt+1-N t-1)の積を意味し、以下同様である。
【0005】N−グラムは極めて単純なものでありなが
ら、構築の容易さ、統計的音響モデルとの相性の良さ、
認識率向上や計算時間の短縮の効果が大きい等の理由
で、連続音声認識には非常に有効である(例えば、従来
技術文献1「L.R.Bahl et al.,“A Maximum Likelihood
Approach to Continuous Speech Recognition”,IEEET
ransaction on Pattern Analysis and Machine Intelli
gence, pp.179-190,1983年」、従来技術文献2「P.C.Wo
odland et al.,“THE 1994 HTK Large Vocabulary Spee
ch Recognition System”,Proceedings of ICASSP’95,
Vol.1,pp.73-76,1995年」、従来技術文献3「村上ほ
か,“単語のtrigramを利用した文音声認識と自
由発話認識への拡張”,電子情報通信学会技術研究報
告,SP93−127,pp71−78,平成6年」参
照。)。
【0006】一般に、N−グラムの言語モデルは、Nを
大きくすると長い単語連鎖を取り扱うことにより次単語
の精度は高くなるが、パラメータ数が多くなり、学習デ
ータ量が少ない場合は出現頻度の低い単語に信頼できる
遷移確率を与えることはできない。例えば語彙数が5,
000語のとき、トライグラム(trigram)(N
=3)の全ての単語の遷移組は(5,000)3=1,
250億であるから、信頼できる遷移確率を求めるため
には、数千億単語以上からなる膨大なテキストデータが
必要となる。これだけの膨大なテキストデータを集める
のは事実上不可能である。逆に、Nを小さくすると、遷
移確率の信頼性は高くなるが、短い単語連鎖しか取り扱
うことができず、次単語の予測精度は低くなる。
【0007】この問題を解決するため、次のような方法
が提案されている。 (1)補間による未学習遷移確率の推定方法 この方法は、例えば、削減補間法(Deleted Interpolat
ion)(例えば、従来技術文献4「F.Jelinek et al.,
“Interpolated estimation of Markov SourceParamete
rs from Sparse Data”,Proceedings of Workshop Patt
ern Recognition in Practice,pp.381-37,1980年」参
照。)や、バックオフ平滑化法(Back-offSmoothing)
(例えば、従来技術文献5「S.M.Katz,“Estimation of
Probabilities from Sparse Data for the Language m
odel Component of a Speech Recognizer”,IEEE Trans
action on Acoustics, Speech, and Signal Processin
g,Vol.ASSP-35,No.3,pp.400-401,1987年3月」参照。)
等に代表される方法で、小さいNのN−グラム(N−g
ram)の値で遷移確率を補間することにより、学習用
テキストデータには存在しない単語遷移に対しても、遷
移確率を与えることができる。しかしながら、出現頻度
の低い単語に関しては信頼できる遷移確率を与えられな
い恐れがある。
【0008】(2)クラスN−グラムによるパラメータ
数の削減方法 この方法は、相互情報量に基づくクラスタリング(例え
ば、従来技術文献6「P.F.Brown et al.,“Class-Based
n-gram models of natural language”,Computational
Linguistics,Vol.18,No.4,pp467-479,1992年」参
照。)や、品詞(従来技術文献7「周ほか,“確率モデ
ルによる日本語の大語彙連続音声認識”,情報処理学
会,第51回全国大会講演論文集,pp.119−12
0,平成7年」参照。)等によるクラス間のN−グラム
を考えたもので、L個の単語の文生成確率P(w1 L)は
一般に次式で表される。
【0009】
【数2】
【0010】ここで、ctは単語wtの属するクラスを表
し、ci jはi番目からj番目のクラス列を表わす。上記
数2で、P(ct|ct-N+1 t+1)は、直前の(N−1)
個の単語の属するクラスから次の単語の属するクラスへ
の遷移確率を表す。クラス数が50のとき、トライグラ
ムの全てのクラス間の遷移の組は503=125,00
0であるから、数十万単語程度と単語N−グラムに比べ
てかなり小規模なテキストデータで遷移確率が求められ
ると考えられる。しかしながら、単語間の特有な連接関
係を表現することができないので、次単語の予測精度は
悪くなると考えられる。
【0011】これらの問題点を解決するために、従来例
に比較して遷移確率の予測精度及び信頼性を改善するこ
とができる統計的言語モデルを生成することができる統
計的言語モデル生成装置を、本特許出願人は、特開平9
−134192号公報において提案している。この従来
例の装置では、所定の話者の発声音声文を書き下した学
習用テキストデータに基づいて、すべての語彙を品詞毎
にクラスタリングされた品詞クラスに分類し、それらの
品詞クラス間のバイグラムを初期状態の統計的言語モデ
ルとして生成する生成手段と、上記生成手段によって生
成された初期状態の統計的言語モデルに基づいて、単語
の品詞クラスからの分離することができる第1の分離ク
ラス候補と、1つの単語と1つの単語との結合、1つの
単語と複数の単語の単語列との結合、複数の単語の単語
列と1つの単語との結合、複数の単語の単語列と、複数
の単語の単語列との結合とを含む連接単語又は連接単語
列の結合によって単語の品詞クラスから分離することが
できる第2の分離クラス候補とを検索する検索手段と、
上記検索手段によって検索された第1と第2の分離クラ
ス候補に対して、次単語の予測の難易度を表わす所定の
エントロピーを用いて、クラスを分離することによる当
該エントロピーの減少量を計算する計算手段と、上記計
算手段によって計算された上記第1と第2の分離クラス
候補に対するエントロピーの減少量の中で最大のクラス
分離を選択して、選択されたクラスの分離を実行するこ
とにより、品詞のバイグラムと可変長Nの単語のN−グ
ラムとを含む統計的言語モデルを生成する分離手段と、
上記分離手段によって生成された統計的言語モデルのク
ラス数が所定のクラス数になるまで、上記分離手段によ
って生成された統計的言語モデルを処理対象モデルとし
て、上記検索手段の処理と、上記計算手段の処理と、上
記分離手段の処理とを繰り返すことにより、所定のクラ
ス数を有する統計的言語モデルを生成する制御手段とを
備えたことを特徴としている。
【0012】
【発明が解決しようとする課題】従来例の装置で生成し
たバイグラムの統計的言語モデルでは、それほど記憶す
べきパラメータはそんなに多大にならないが、トライグ
ラム以上の統計的言語モデルでは、記憶すべきパラメー
タが膨大になり、統計的言語モデルを記憶する記憶装置
の容量が多大になるという問題点があった。
【0013】本発明の目的は以上の問題点を解決し、ト
ライグラム以上の統計的言語モデルであっても記憶すべ
きパラメータが少なくてすみ、しかも高い音声認識率を
得ることができる統計的言語モデル生成装置及び、当該
統計的言語モデル生成装置を備えた音声認識装置を提供
することにある。
【0014】
【課題を解決するための手段】本発明に係る請求項1記
載の統計的言語モデル装置は、所定の話者の発声音声文
を書き下した学習用テキストデータに基づいて、処理対
象の単語のユニグラムと、処理対象の単語とその単語か
ら直前の距離1にある単語との間のバイグラムと、処理
対象の単語とその単語から直前の距離2にある単語との
間のバイグラムと、上記ユニグラム及び2つのバイグラ
ムを正規化するための正規化パラメータとを含むモデル
パラメータを有する統計的言語モデルを、処理対象の単
語とその直前の2つの単語との観測値のトライグラム
と、上記2つのバイグラムの推定値との誤差が最小とな
るように平滑化して学習することにより、上記モデルパ
ラメータを有する統計的言語モデルを生成する生成手段
を備えたことを特徴とする。
【0015】また、本発明に係る請求項2記載の音声認
識装置は、入力される発声音声文の音声信号に基づい
て、所定の統計的言語モデルを用いて音声認識する音声
認識手段を備えた音声認識装置において、上記音声認識
手段は、請求項1記載の統計的言語モデル生成装置によ
って生成された統計的言語モデルを用いて音声認識する
ことを特徴とする。
【0016】
【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。
【0017】図1に本発明に係る一実施形態の連続音声
認識装置のブロック図を示す。本実施形態の連続音声認
識装置は、言語モデル生成部20を備え、言語モデル生
成部20は、学習用テキストデータメモリ21に格納さ
れた所定の話者の発声音声文を書き下した学習用テキス
トデータに基づいて、処理対象の単語のユニグラムと、
処理対象の単語とその単語から直前の距離1にある単語
との間のバイグラムと、処理対象の単語とその単語から
直前の距離2にある単語との間のバイグラムと、上記ユ
ニグラム及び2つのバイグラムを正規化するための正規
化パラメータとを含むモデルパラメータを有する統計的
言語モデルを、処理対象の単語とその直前の2つの単語
との観測値のトライグラムと、上記2つのバイグラムの
推定値との誤差が最小となるように平滑化して学習する
ことにより、上記モデルパラメータを有する統計的言語
モデルを生成することを特徴としている。
【0018】本実施形態では、言語モデリングの新しい
手法としてエントロピー最大手法による生起距離の異な
る単語共起関係の結合(DUAME)による統計的言語
モデル(以下、DUAMEモデルという。)を用いる。
言語のモデル化は、音声認識及び翻訳における重要な要
素である。近年、N−グラムが言語モデルの主流となっ
ているが、これは、N−グラムが言語列を離散的確率過
程と見なし、マルコフ(Markov)モデルとして効
率的にモデル化することができるという理由による。N
−グラムの利点は、モデル化が簡単なこと、そして実行
時の計算が簡単な所にある。しかしながら、このモデル
に使用できる言語制約は、連続した単語列に対してのみ
であるため、多様な言語制約の統合に対して柔軟性がな
く、また長距離の言語制約表現することが難しいという
問題点があった。この問題点を解決するために、本実施
形態では、エントロピー最大手法を用いて統計的言語モ
デルを平滑化して学習する。
【0019】ところで、本実施形態で用いるエントロピ
ー最大手法(ME)は、多数の言語制約を組合せて用い
る場合に効果的なモデリング手法である(例えば、従来
技術文献8「R. Rosenfeld et al.,”A maximum entro
py approach to adaptive statistical language model
ing”,Computer Speech and Language, pp.187-228,199
6年」や従来技術文献9「S. A. Della Pietra et a
l.,”Adaptive languagemodeling using minimum discr
iminant estimation”,In ICASSP’92, pp.I-633-635,
1992年」参照。)。エントロピー最大手法の下では、知
識リソースを各々1つの特徴セットと見なし、それを確
率関数のセットへと対応づける。エントロピー最大手法
は、エントロピーが最大となるような確率関数のセット
を求めるものである。従って、エントロピー最大手法を
用いて、それぞれ異なった知識リソースが表現している
特性を保ったままひとつの表現形式にまとめあげること
が可能である。
【0020】本実施形態では、生起距離の異なる単語共
起関係という複数の特徴をエントロピー最大手法を用い
て統合した統計的言語モデル(DUAMEモデル)を用
いる。従来のN−グラムモデルに比べると、DUAME
モデルは、柔軟な特徴を用いることができ、かつ未出現
の事象の平滑化も同じMEの枠組みの中で行えるという
メリットがある。また、生起距離1から(n−1)まで
の共起関係により、N−グラムにおける共起関係である
n個単位の列を近似することができる。このため、以下
に示すように、DUAMEモデルは大幅に少ないメモリ
でN−グラムの非常によい近似を行うことができる。
【0021】まず、最大エントロピーの原理について説
明する。
【数3】S=<x1,x2,…,xz> を所定の自然言語の任意の単位列(本実施形態におい
て、単位は単語であり、単位列は単語列である。)とし
た場合、イベント<Hi,xi>は、単位xiに先行して
起こった単位列のうち、長さ(n−1)で窓がけした単
位列である
【数4】Hi=<xi-n+1,…,xi-1> と定義される。全てのイベントからなる空間を、イベン
ト空間ε<H,x>とする。ある特定の自然言語のコー
パスにおいて、コーパスに出現するイベントを観察可能
なイベントと呼び、その他を未出現イベントセットとし
て分類することができる。
【0022】観測可能なイベントセットからは、特徴セ
ットGを抽出することができる。特徴g(hi,xi)は
イベントのもつ単位列Hi全体又は単位列Hiの一部hi
に着目することで決められ、属性セット
【数5】<g(hi,xi),ai,mi,αi> を持つ。ここで、g(hi,xi)は特徴を示し、hi
イベント窓Hiの下の文脈の着目するサブセット、xi
列のうち着目する単位、aiはその目標期待値、m iはそ
の特徴期待値、αiは特徴の確率に関する特徴重み係数
である。
【0023】イベント及び特徴の上記定義に基づいて、
ある指数分布で単位列を次式のように予測することがで
きる。
【0024】
【数6】
【0025】ここで、
【数7】 は指数分布に従った確率であり、
【数8】 はイベント<Hi,xi>において活性化された特徴重み
係数の積であり、次式を用いて正規化される。
【0026】
【数9】
【0027】各特徴g(hi,xi)には、次式で示され
る対応する期待値が存在する。
【0028】
【数10】
【0029】ここで、ph(Hi)は学習データにおい
て文脈Hiが観測された確率である。これにより、特徴
期待値は、その目標期待値の近似(次式)となることが
期待できる。
【数11】m(hi,xi)≒E(p(hi,xi))=a
(hi,xi) また、最尤となる指数分布モデルは、次式で示される最
大エントロピーモデルと同一であることが証明されてい
る(例えば、従来技術文献10「J. N. Darroch et a
l.,”Generalized iterative scaling for log-linear
models”,In TheAnnals of Mathematical Statistics,
Vol.43, pp.1470-1480, 1972年」参照。)。
【0030】
【数12】
【0031】従って、エントロピーが最大となる指数分
布を、尤度が最大のとなる指数分布m(S)で置換すれ
ば、単位列の最大エントロピーを求めることができる。
【0032】次いで、エントロピー最大手法による生起
距離の異なる単語共起関係の結合言語モデルについて説
明する。N−グラムは、一次のマルコフ(Marko
v)モデルと見なすことが可能であり、単位列の連続性
に基づいている。これに対して、エントロピー最大モデ
ルはイベントの記述に重きを置いたものであって、当該
イベントにおける活性化されたさまざまな特徴を使用す
ることができる。これは、その特徴がイベントによって
表現できるものである限り、なんら制限なしに特徴を定
義できることを意味している。事実、N−グラムの場合
と同等の特徴も存在している。この1つとして、生起距
離の異なる単語共起関係を使用するにする。この場合、
使用する特徴は次のように定義することができる。
【0033】定義:生起距離の異なる単語共起関係の特
徴は、属性
【数13】<gd(h,x),ad(h,x),m
d(h,x),αd(h,x)> を有する生起距離dの単位ペア(h,x)である。
【0034】ここで、hは限定された窓内の1つの文脈
上の単位であり、xは着目する単位(クラス、単語又は
句)、dはhとx間の距離、ad(h,x)は特徴g
d(h,x)の目標期待値、md(h,x)はその特徴期
待値、αd(h,x)はgd(h,x)の重み係数であ
る。
【0035】従って、文脈窓長nのイベント<h1
…,hn,x>に対して、高次のN−グラムをn個の異
生起距離の異なる単語共起関係の特徴を使用して次式の
ように近似することができる。
【数14】αn(h1,x)αn-1(h2,x)…α
1(hn,x)⇒αN-gram(h1,…,hn,x) 距離属性を有するこれらの特徴は互いに重複部分を持た
ず、特徴重み係数αiのその共起を表している。従っ
て、生起距離の異なる単語共起関係のエントロピー最大
モデルの一般的表現は、以下のように記述することがで
きる。
【0036】イベント<h1,…,hn,x>のときに次
式となる。
【0037】
【数15】
【0038】特に、距離=2であるイベント<h1
2,x>のときに次式となる。
【0039】
【数16】
【0040】本実施形態のDUAMEモデルは、全ての
生起距離の異なる単語共起関係(UA)の特徴の結合に
よってNグラム特徴を近似でき、また未観測のイベント
の分布を自動的に平滑化することができるため、その機
能はバックオフN−グラムに類似している。
【0041】距離nのDUAMEモデルの場合、必要な
メモリ容量はVn+n×V2+V未満であり、すなわちV
nのオーダーのメモリ容量を必要とする。ここで、Vは
語彙のサイズ(語彙数)、nは文脈上の窓の長さであっ
て、Vnは合計の文脈Z(h1,…,hn)の組み合わせ
数を表し、n×V2+Vは単位に関連する特徴重み係数
を格納するために必要なメモリ容量である。距離2のD
UAMEモデルの場合、必要なメモリ容量は3V2+V
のオーダー未満である。
【0042】すなわち、同一次元のN−グラムは、V
N+1のオーダーのメモリ容量を必要とする。従って、距
離nのエントロピー最大モデルに必要なメモリ容量は、
N−グラムモデルの場合より遥かに少ない。
【0043】さらに、本実施形態に係る統計的言語モデ
ル及びその生成処理について詳細に説明する。本実施形
態の統計的言語モデルは、単語列wj,wk,wiに対し
て処理対象の単語wiのときに、次のモデルパラメータ
を有する。 (a)α0(wi):wiのユニグラムパラメータ(観測
値); (b)α1(wj,wi):wj,wiの距離1のバイグラ
ムパラメータ(近似値又は推定値); (c)α2(wk,wi):wk,wiの距離2のバイグラ
ムパラメータ(近似値又は推定値);及び (d)z(wk,wj):正規化パラメータ。 ここで、正規化パラメータは、ユニグラム及び2つのバ
イグラムを正規化するためのパラメータである。また、
モデル生成処理において次の中間パラメータを用いる。
【0044】(e)g0(wi):単語wiが現われれば
1、そうでなければ0である中間パラメータ; (f)g1(wj,wi):距離1でwj,wiが現われれ
ば1、そうでなければ0である中間パラメータ; (g)g2(wk,wi):距離2でwk,wiが現われれ
ば1、そうでなければ0である中間パラメータ; (h)T:学習データ中の総単語数;及び (i)a(wk,wj,wi):学習データ中での単語列
k,wj,wiの出現確率。
【0045】エントロピー最大手法を用いた平滑化後の
トライグラムの確率p(wi|wk,wj)は次式で表され
る。
【0046】(i)g1(wj,wi)=1かつg
2(wk,wi)=1のとき
【数17】p(wi|wk,wj)=α1(wj,wi)×α
2(wk,wi)/z(wk,wj) (ii)g1(wj,wi)=1かつg2(wk,wi)=0の
とき
【数18】p(wi|wk,wj)=α1(wj,wi)/z
(wk,wj) (iii)g1(wj,wi)=0かつg2(wk,wi)=1
のとき
【数19】p(wi|wk,wj)=α2(wk,wi)/z
(wk,wj) (iv)g1(wj,wi)=0かつg2(wk,wi)=0の
とき
【数20】
【0047】上記の数17乃至数20に示すように、平
滑化後のトライグラムの確率p(w i|wk,wj)は、ユ
ニグラムの観測値と、2つのバイグラムの推定値とによ
り、近似的に現れていることがわかる。本実施形態で
は、この式を用いて漸近計算して、ここで、トライグラ
ムと、2つのバイグラムの推定値との誤差が最小となる
ように漸近計算して平滑化して学習することにより、本
実施形態のモデルパラメータを有する統計的言語モデル
を生成する。そして、本実施形態では、2つのバイグラ
ムのパラメータにより、トライグラムのパラメータの代
替として用いている。
【0048】図3及び図4は、図1の言語モデル生成部
20によって実行される言語モデル生成処理を示すフロ
ーチャートであり、図3及び図4を参照して、言語モデ
ル生成処理について説明する。まず、図3のステップS
1においてすべてのi,j,kに対して次式のように、
【数21】α0(wi)←1
【数22】α1(wj,wi)←1
【数23】α2(wk,wi)←1 と初期化する。次いで、ステップS2においてすべての
j、kの組み合わせに対して次式を用いてそれぞれバイ
グラムの正規化パラメータz(wk,wj)及びユニグラ
ムの正規化パラメータzuniを計算する
【0049】
【数24】
【数25】
【0050】さらに、ステップS3においてすべての
i,j,kに対して次式を用いて中間パラメータm(w
k,wj,wi)を計算する。
【0051】
【数26】
【0052】ここで、C(wk,wj,wi)は3つの単
語にてなる単語列の出現回数であり、C(wk,wj,w
i)/Tはトライグラムの確率、すなわち、トライグラ
ムa(wk,wj,wi)となる。次いで、ステップS4
においてすべてのi,j,kに対して次式を用いてそれ
ぞれm0(wi),m1(wj,wi),m2(wk,wi)を
計算する。
【0053】
【数27】
【数28】
【数29】
【0054】さらに、図4のステップS5においてすべ
てのi,j,kに対して次式を用いてそれぞれα
0(wi),α1(wi,wj),α2(wi,wk)を更新す
る。
【0055】
【数30】α0(wi)←α0(wi)×a(*,*,
i)/m0(wi
【数31】α1(wi,wj)←α1(wi,wj)×a
(*,wj,wi)/m1(wi,wj
【数32】α2(wi,wj)←α2(wi,wk)×a(w
k,*,wi)/m2(wi,wk
【0056】ここで、*はワイルドカードであり、すな
わち、任意の単語である。次いで、ステップS6におい
て次式を用いてクルバック・レイグラーの発散値D(誤
差に対応する。)を計算する。
【0057】
【数33】
【0058】そして、ステップS7において発散値Dは
所定のしきい値Dth(例えば、900)よりも小さい
か否かが判断され、NOのときは収束していないと判断
してステップS2に戻り、上記の処理を繰り返す。一
方、ステップS7でYESのときは、ステップS8にお
いてすべてのj,kの組み合わせに対して上位数24及
び数25を用いてそれぞれバイグラムの正規化パラメー
タz(wk,wj)及びユニグラムの正規化パラメータz
uniを再計算し、ステップS9において計算されたパラ
メータα0(wi),α1(wj,wi),α2(wk
i),z(wk,wj),zuniを含む統計的言語モデル
を統計的言語モデルメモリ22に格納して当該言語モデ
ル生成処理を終了する。
【0059】さらに、連続音声認識装置の構成及び動作
について以下に説明する。図1において、単語照合部4
に接続され、例えばハードディスクメモリである音素H
MMメモリ11内の音素HMMは、各状態を含んで表さ
れ、各状態はそれぞれ以下の情報を有する。 (a)状態番号 (b)受理可能なコンテキストクラス (c)先行状態、及び後続状態のリスト (d)出力確率密度分布のパラメータ (e)自己遷移確率及び後続状態への遷移確率 なお、本実施形態において用いる音素HMMは、各分布
がどの話者に由来するかを特定する必要があるため、所
定の話者混合HMMを変換して生成する。ここで、出力
確率密度関数は34次元の対角共分散行列をもつ混合ガ
ウス分布である。
【0060】また、単語照合部4に接続され、例えばハ
ードディスクなどの単語辞書メモリ12に格納される単
語辞書は、音素HMMの各単語毎にシンボルで表した読
みを示すシンボル列を格納する。
【0061】図1において、話者の発声音声はマイクロ
ホン1に入力されて音声信号に変換された後、特徴抽出
部2に入力される。特徴抽出部2は、入力された音声信
号をA/D変換した後、例えばLPC分析を実行し、対
数パワー、16次ケプストラム係数、Δ対数パワー及び
16次Δケプストラム係数を含む34次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ3を介して単語照合部4に入力される。
【0062】単語照合部4は、例えばワン−パス・ビタ
ビ復号化法を用いて、バッファメモリ3を介して入力さ
れる特徴パラメータのデータに基づいて、音素HMMと
単語辞書とを用いて単語仮説を検出し尤度を計算して出
力する。ここで、単語照合部4は、各時刻の各HMMの
状態毎に、単語内の尤度と発声開始からの尤度を計算す
る。尤度は、単語の識別番号、単語の開始時刻、先行単
語の違い毎に個別にもつ。また、計算処理量の削減のた
めに、音素HMM及び単語辞書とに基づいて計算される
総尤度のうちの低い尤度のグリッド仮説を削減する。単
語照合部4は、その結果の単語仮説と尤度の情報を発声
開始時刻からの時間情報(具体的には、例えばフレーム
番号)とともにバッファメモリ5を介して単語仮説絞込
部6に出力する。
【0063】単語仮説絞込部6は、単語照合部4からバ
ッファメモリ5を介して出力される単語仮説に基づい
て、統計的言語モデルメモリ22内の統計的言語モデル
を参照して、終了時刻が等しく開始時刻が異なる同一の
単語の単語仮説に対して、当該単語の先頭音素環境毎
に、発声開始時刻から当該単語の終了時刻に至る計算さ
れた総尤度のうちの最も高い尤度を有する1つの単語仮
説で代表させるように単語仮説の絞り込みを行った後、
絞り込み後のすべての単語仮説の単語列のうち、最大の
総尤度を有する仮説の単語列を認識結果として出力す
る。本実施形態においては、好ましくは、処理すべき当
該単語の先頭音素環境とは、当該単語より先行する単語
仮説の最終音素と、当該単語の単語仮説の最初の2つの
音素とを含む3つの音素並びをいう。
【0064】例えば、図2に示すように、(i−1)番
目の単語Wi-1の次に、音素列a1,a2,…,anからな
るi番目の単語Wiがくるときに、単語Wi-1の単語仮説
として6つの仮説Wa,Wb,Wc,Wd,We,Wf
が存在している。ここで、前者3つの単語仮説Wa,W
b,Wcの最終音素は/x/であるとし、後者3つの単
語仮説Wd,We,Wfの最終音素は/y/であるとす
る。終了時刻teと先頭音素環境が等しい仮説(図2で
は先頭音素環境が“x/a1/a2”である上から3つの
単語仮説)のうち総尤度が最も高い仮説(例えば、図2
において1番上の仮説)以外を削除する。なお、上から
4番めの仮説は先頭音素環境が違うため、すなわち、先
行する単語仮説の最終音素がxではなくyであるので、
上から4番めの仮説を削除しない。すなわち、先行する
単語仮説の最終音素毎に1つのみ仮説を残す。図2の例
では、最終音素/x/に対して1つの仮説を残し、最終
音素/y/に対して1つの仮説を残す。
【0065】以上の実施形態においては、当該単語の先
頭音素環境とは、当該単語より先行する単語仮説の最終
音素と、当該単語の単語仮説の最初の2つの音素とを含
む3つの音素並びとして定義されているが、本発明はこ
れに限らず、先行する単語仮説の最終音素と、最終音素
と連続する先行する単語仮説の少なくとも1つの音素と
を含む先行単語仮説の音素列と、当該単語の単語仮説の
最初の音素を含む音素列とを含む音素並びとしてもよ
い。
【0066】以上の実施形態において、特徴抽出部2
と、単語照合部4と、単語仮説絞込部6と、言語モデル
生成部20とは、例えば、デジタル電子計算機で構成さ
れ、バッファメモリ3,5は例えばハードディスクメモ
リで構成され、音素HMMメモリ11と単語辞書メモリ
12と学習用テキストデータ21と統計的言語モデル2
2とは、例えばハードディスクメモリなどの記憶装置に
記憶される。
【0067】以上実施形態においては、単語照合部4と
単語仮説絞込部6とを用いて音声認識を行っているが、
本発明はこれに限らず、例えば、音素HMMを参照する
音素照合部と、例えばOne Pass DPアルゴリ
ズムを用いて統計的言語モデル22を参照して単語の音
声認識を行う音声認識部とで構成してもよい。
【0068】
【実施例】さらに、本発明者は、本実施形態の言語モデ
ル生成部20を用いて行った実験及びその実験結果につ
いて説明する。本特許出願人が所有する英語旅行対話タ
スク・コーパスに基づいて、距離2のDUAMEモデル
について実験を行った。距離2の結合されたエントロピ
ー最大モデルのパープレキシティを、最尤(ML)バイ
グラム及びトライグラムモデルの場合と比較した。ま
た、学習モデルの基本単位は、可変N−グラム言語モデ
ルで学習された拡張された単語クラスとして定義した。
可変N−グラム言語モデルは、エントロピーを最小化に
基づいて、品詞クラス(POS)からクラスを分離した
(例えば,従来技術文献11「H. Masataki et al.,”V
ariable order n-gram generation by word-class spli
tting and consecutive word grouping”, In ICASSP’
96, pp.I-188-191, 1996年」や従来例の特開平9−13
4192号公報参照。)。ここで、拡張されたクラスの
最終的な数は1069である。
【0069】ここで、次式の標準的パープレキシティP
P及び次式のクルバック・レイブラー(Kullback-Leibl
er)の発散値Dをそれぞれ用いた2つの方法を使用し
て、DUAMEモデリングの収束状況を確認した。
【0070】
【数34】 PP=exp((−1/n)×lnP(X))
【数35】
【0071】図5及び図6は、この2方法の収束過程の
一例を示したものである。ここで、各N−グラムモデル
のテストセットにおけるパープレキシティは、公知のC
MU−ケンブリッジ言語モデリングツールキットを使用
して計算した。その結果を表1に示す。
【0072】
【表1】 英語旅行対話タスクにおける各種モデルのパープレキシティPP (学習セット:471,632、テストセット:23,337) ―――――――――――――――――――――――――――――――――― 制 約 数 モデル ユニグラム バイグラム トライグラム d2 UA PP ―――――――――――――――――――――――――――――――――― GTトライク゛ラム 1069 3672 207057 なし 49.5 LNトライク゛ラム 1069 63672 207057 なし 52.2 DUAME 1069 63672 なし 98798 52.1 GTハ゛イク゛ラム 1069 63672 なし なし 56.9 LNハ゛イク゛ラム 1069 63672 なし なし 58.8 ―――――――――――――――――――――――――――――――――― (注)GT:グッド・チューリング; LN:線形; DUAMEにおけるd2 UAはバイグラムである。
【0073】 表1から明らかなように、パープレキシ
ティPPに関しては距離2のエントロピー最大モデルの
方がバイグラムモデルより低く、また、線形ディスカウ
ントバックオフ法によるトライグラムに匹敵するもので
あることを示している。
【0074】以上説明したように、本実施形態によれ
ば、言語モデル生成部20は、学習用テキストデータメ
モリ21に格納された学習用テキストデータに基づい
て、処理対象の単語のユニグラムと、処理対象の単語と
その単語から直前の距離1にある単語との間のバイグラ
ムと、処理対象の単語とその単語から直前の距離2にあ
る単語との間のバイグラムと、上記ユニグラム及び2つ
のバイグラムを正規化するための正規化パラメータとを
含むモデルパラメータを有する統計的言語モデルを、処
理対象の単語のトライグラムと、2つのバイグラムの推
定値との誤差が最小となるように平滑化して学習するこ
とにより統計的言語モデルを生成する。従って、本実施
形態によれば、N−グラムモデルの統計的言語モデルに
比較してV倍少ないメモリ容量で実現することができ
(ここで、Vは語彙数である。)、学習データ中に現わ
れなかった事象に対する予測を事前知識なしに人手を介
さず自動的に平滑化して学習することができる。また、
きわめて良好な近似的な高次のN−グラムの統計的言語
モデルを得ることができる。さらに、従来例のN−グラ
ムの統計的言語モデルを使用した音声認識に比較してよ
り高い音声認識率で音声認識することができる。
【0075】
【発明の効果】以上詳述したように本発明に係る請求項
1記載の統計的言語モデル装置によれば、所定の話者の
発声音声文を書き下した学習用テキストデータに基づい
て、処理対象の単語のユニグラムと、処理対象の単語と
その単語から直前の距離1にある単語との間のバイグラ
ムと、処理対象の単語とその単語から直前の距離2にあ
る単語との間のバイグラムと、上記ユニグラム及び2つ
のバイグラムを正規化するための正規化パラメータとを
含むモデルパラメータを有する統計的言語モデルを、処
理対象の単語とその直前の2つの単語との観測値のトラ
イグラムと、上記2つのバイグラムの推定値との誤差が
最小となるように平滑化して学習することにより、上記
モデルパラメータを有する統計的言語モデルを生成する
生成手段を備える。従って、本発明によれば、N−グラ
ムモデルの統計的言語モデルに比較してV倍少ないメモ
リ容量で実現することができ(ここで、Vは語彙数であ
る。)、学習データ中に現われなかった事象に対する予
測を事前知識なしに人手を介さず自動的に平滑化して学
習することができる。また、きわめて良好な近似的な高
次のN−グラムの統計的言語モデルを得ることができ
る。さらに、従来例のN−グラムの統計的言語モデルを
使用した音声認識に比較してより高い音声認識率で音声
認識することができる。
【0076】また、本発明に係る請求項2記載の音声認
識装置によれば、入力される発声音声文の音声信号に基
づいて、所定の統計的言語モデルを用いて音声認識する
音声認識手段を備えた音声認識装置において、上記音声
認識手段は、請求項1記載の統計的言語モデル生成装置
によって生成された統計的言語モデルを用いて音声認識
する。従って、本発明によれば、N−グラムモデルの統
計的言語モデルに比較してV倍少ないメモリ容量で実現
することができ(ここで、Vは語彙数である。)、学習
データ中に現われなかった事象に対する予測を事前知識
なしに人手を介さず自動的に平滑化して学習することが
できる。また、きわめて良好な近似的な高次のN−グラ
ムの統計的言語モデルを得ることができる。さらに、従
来例のN−グラムの統計的言語モデルを使用した音声認
識に比較してより高い音声認識率で音声認識することが
できる。
【図面の簡単な説明】
【図1】 本発明に係る一実施形態である連続音声認識
装置のブロック図である。
【図2】 図1の連続音声認識装置における単語仮説絞
込部6の処理を示すタイミングチャートである。
【図3】 図1の言語モデル生成部20によって実行さ
れる言語モデル生成処理の第1の部分を示すフローチャ
ートである。
【図4】 図1の言語モデル生成部20によって実行さ
れる言語モデル生成処理の第2の部分を示すフローチャ
ートである。
【図5】 図1の連続音声認識装置の実験結果であっ
て、パープレキシティPPの収束過程の一例を示すグラ
フである。
【図6】 図1の連続音声認識装置の実験結果であっ
て、クルバック・レイグラーの発散値Dの収束過程の一
例を示すグラフである。
【符号の説明】
1…マイクロホン、 2…特徴抽出部、 3,5…バッファメモリ、 4…単語照合部、 6…単語仮説絞込部、 11…音素HMMメモリ、 12…単語辞書メモリ、 20…言語モデル生成部、 21…学習用テキストデータ、 22…統計的言語モデルメモリ。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ハラルド・シンガー 京都府相楽郡精華町大字乾谷小字三平谷5 番地 株式会社エイ・ティ・アール音声翻 訳通信研究所内 (72)発明者 匂坂 芳典 京都府相楽郡精華町大字乾谷小字三平谷5 番地 株式会社エイ・ティ・アール音声翻 訳通信研究所内 (72)発明者 山本 博史 京都府相楽郡精華町大字乾谷小字三平谷5 番地 株式会社エイ・ティ・アール音声翻 訳通信研究所内 Fターム(参考) 5B091 AA15 CB12 CC01 CC05 CC16 EA01 EA24 5D015 GG00 HH11 HH23 LL02 9A001 BB06 HH11 HH17 KK46

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 所定の話者の発声音声文を書き下した学
    習用テキストデータに基づいて、処理対象の単語のユニ
    グラムと、処理対象の単語とその単語から直前の距離1
    にある単語との間のバイグラムと、処理対象の単語とそ
    の単語から直前の距離2にある単語との間のバイグラム
    と、上記ユニグラム及び2つのバイグラムを正規化する
    ための正規化パラメータとを含むモデルパラメータを有
    する統計的言語モデルを、処理対象の単語とその直前の
    2つの単語との観測値のトライグラムと、上記2つのバ
    イグラムの推定値との誤差が最小となるように平滑化し
    て学習することにより、上記モデルパラメータを有する
    統計的言語モデルを生成する生成手段を備えたことを特
    徴とする統計的言語モデル生成装置。
  2. 【請求項2】 入力される発声音声文の音声信号に基づ
    いて、所定の統計的言語モデルを用いて音声認識する音
    声認識手段を備えた音声認識装置において、 上記音声認識手段は、請求項1記載の統計的言語モデル
    生成装置によって生成された統計的言語モデルを用いて
    音声認識することを特徴とする音声認識装置。
JP11054016A 1999-03-02 1999-03-02 統計的言語モデル生成装置及び音声認識装置 Pending JP2000250583A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11054016A JP2000250583A (ja) 1999-03-02 1999-03-02 統計的言語モデル生成装置及び音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11054016A JP2000250583A (ja) 1999-03-02 1999-03-02 統計的言語モデル生成装置及び音声認識装置

Publications (1)

Publication Number Publication Date
JP2000250583A true JP2000250583A (ja) 2000-09-14

Family

ID=12958799

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11054016A Pending JP2000250583A (ja) 1999-03-02 1999-03-02 統計的言語モデル生成装置及び音声認識装置

Country Status (1)

Country Link
JP (1) JP2000250583A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005293580A (ja) * 2004-03-26 2005-10-20 Microsoft Corp Arpa標準フォーマットによる、削除補間nグラム言語モデルの表現
JP2008046633A (ja) * 2006-08-11 2008-02-28 Harman Becker Automotive Systems Gmbh 平方根ディスカウンティングを使用した統計的言語による音声認識

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005293580A (ja) * 2004-03-26 2005-10-20 Microsoft Corp Arpa標準フォーマットによる、削除補間nグラム言語モデルの表現
JP2008046633A (ja) * 2006-08-11 2008-02-28 Harman Becker Automotive Systems Gmbh 平方根ディスカウンティングを使用した統計的言語による音声認識

Similar Documents

Publication Publication Date Title
CN109410914B (zh) 一种赣方言语音和方言点识别方法
JP3004254B2 (ja) 統計的シーケンスモデル生成装置、統計的言語モデル生成装置及び音声認識装置
JP4301102B2 (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
Jelinek et al. 25 Continuous speech recognition: Statistical methods
Bahl et al. A method for the construction of acoustic Markov models for words
JP2001249684A (ja) 音声認識装置および音声認識方法、並びに記録媒体
JPH0372997B2 (ja)
Bourlard et al. Speakerdependent connected speech recognition via dynamic programming and statistical methods
JP3364631B2 (ja) 統計的言語モデル生成装置及び音声認識装置
JP2886121B2 (ja) 統計的言語モデル生成装置及び音声認識装置
Kipyatkova et al. Recurrent neural network-based language modeling for an automatic Russian speech recognition system
D'Orta et al. Phoneme classification for real time speech recognition of Italian
JP2938866B1 (ja) 統計的言語モデル生成装置及び音声認識装置
JP4987530B2 (ja) 音声認識辞書作成装置および音声認識装置
JP2938865B1 (ja) 音声認識装置
JP2000250583A (ja) 統計的言語モデル生成装置及び音声認識装置
JP2968792B1 (ja) 統計的言語モデル生成装置及び音声認識装置
Savitha Deep recurrent neural network based audio speech recognition system
Breslin Generation and combination of complementary systems for automatic speech recognition
Smaïli et al. An hybrid language model for a continuous dictation prototype.
Wang et al. Speech utterance classification model training without manual transcriptions
JP2000356997A (ja) 統計的言語モデル生成装置及び音声認識装置
JP4689497B2 (ja) 音声認識装置
Fissore et al. The recognition algorithms
Roark A survey of discriminative language modeling approaches for large vocabulary continuous speech recognition