JP3368989B2

JP3368989B2 - 音声認識方法

Info

Publication number: JP3368989B2
Application number: JP13333994A
Authority: JP
Inventors: 喜昭野田; 茂樹嵯峨山
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1994-06-15
Filing date: 1994-06-15
Publication date: 2003-01-20
Anticipated expiration: 2018-01-20
Also published as: JPH086588A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、音素のような音声単
位の、与えられた文法の制御に従って連結可能な数多く
の各仮説について対応する音響モデルと、入力された音
声とを照合し、その照合結果を尤度関数として得、その
尤度関数から、その仮説の評価値を求め、評価値の高い
少くとも１個の仮説を残しながら入力音声に近い候補を
横形探索法により探索する音声認識方法に関する。

【０００２】

【従来の技術】図２Ａに音素を認識の単位とした音声認
識処理の手順を示す。入力音声１１は、分析処理部１２
により、特徴パラメータのベクトルデータ時系列に変換
され、探索処理部１３により文法１６の拘束条件を用い
ながら、音素モデル１５との照合が行なわれる。そし
て、最も高い評価値を持つ音素系列が認識結果１４とし
て出力される。

【０００３】分析処理部１２における信号処理として、
よく用いられるのは、線形予測分析（ＬｉｎｅａｒＰ
ｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ，ＬＰＣと呼ばれ
る）であり、特徴パラメータとしては、ＬＰＣケプスト
ラム、ＬＰＣデルタケプストラム、メルケプストラム、
対数パワーなどがある。音素モデル１５としては確率・
統計理論に基づいてモデル化された隠れマルコフモデル
（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ，以後ＨＭ
Ｍ法と呼ぶ）が主流である。このＨＭＭの詳細は、例え
ば、社団法人電子情報通信学会編，中川聖一著『確率モ
デルによる音声認識』に開示されている。

【０００４】探索処理部１３は、文法で連結することが
許される音素列である仮説についてその音素モデルに対
して、入力音声とのもっともらしさを評価し、１つずつ
仮説に音素を拡張しながら探索を進める。ここで、仮説
とは、文法に示されている音素の並び順の制約に従って
つなげられた音素列のことを表し、また、仮説への音素
の拡張とは、文法に従って仮説の音素列にさらに１つ音
素をつなげることを意味する。

【０００５】それぞれの仮説について、１．音素列、
２．トレリス計算等による、音響モデルとの照合結果で
ある尤度関数、３．入力音声に対する仮説のもっともら
しさを示す評価値、の３つの情報を記憶しておく。仮説
の識別番号をｉ、時刻をｔとすると尤度関数はｇ
_i（ｔ）と表される。探索処理部１３では、まず文法に
よって許される１つ目の音素を仮説に拡張し、その音素
に対応したＨＭＭと、分析された特徴パラメータのベク
トルデータ時系列（入力音声）とを照合し、この仮説ｉ
の各時刻ｔの尤度ｇ_i（ｔ）を求める。ＨＭＭとの照合
方法としてトレリス法、ビタービ法があり、この詳細
は、例えば、社団法人電子情報通信学会編，中川聖一著
『確率モデルによる音声認識』に開示されている。この
尤度関数ｇ_i（ｔ）から後述する方法で仮説ｉの評価値
を求め、この仮説に対し、音素列、尤度関数ｇ
_i（ｔ）、評価値を記録しておく。そして、以後の音素
の拡張が行なわれる毎に、その仮説に対する評価値を求
めながら探索処理が進められる。また、仮説の音素列に
対して、文法の制約から２種類以上の音素が拡張できる
場合は、拡張できる音素の種類の数だけ元の仮説を複製
し、それぞれの音素を拡張した仮説を作り、それらに対
する尤度計算を行なう。このように、全ての仮説の音素
列の音素数が均等となるように仮説に音素を拡張してい
く。文法により音素を延ばすことが出来なくなった仮説
は、その音素列が文法として受理された仮説として、音
素の拡張を終了する。全ての仮説で音素の拡張が出来な
くなった時、文法として許される全ての音素列（仮説）
に対し入力音声と照合を行なったことになり、探索処理
を終える。その時の最も評価値の高い仮説の音素列また
はそれに対応する単語、文を認識結果１４として出力す
る。

【０００６】上記のように、探索処理において全ての仮
説（音素列）の音素数を均等となるように仮説の音素を
延ばす探索方法は横形探索法と呼ばれる。横形探索法を
実際に行なうと、文法の許す全ての音素列に対応した仮
説について計算を行なうことになり、非常に多くの仮説
の計算を行なわなければならず、多くの処理時間を必要
とする。このため、仮説に音素を拡張する過程で、最終
的な認識結果の候補となる見込みのある仮説のみ残し、
それ以外の仮説を廃棄する方法をとる場合が多い。具体
的には、仮説の評価値により仮説を残すかどうかを判定
する。その判定方法として仮説の評価値の高いものから
順に一定個数の仮説を残す方法や、仮説の評価値のしき
い値を設け、そのしきい値よりも高い仮説のみを残す方
法、両者の方法の併用等が用いられる。このような横形
探索法において、一定の条件により、見込みのある仮説
のみを残し、それ以外の仮説を廃棄して探索を行なう方
法はビーム探索法と呼ばれる。

【０００７】ビーム探索法においては、探索の途中で仮
説の評価値に条件を与えて仮説の廃棄を行なうため、仮
説の評価値の精度、すなわち、仮説の入力音声に対する
もっともらしさを正確に評価値に反映できているか否か
が、認識精度に大きな影響を与える。仮説の評価値の精
度が高ければ、ビーム探索において厳しい条件で正解候
補の仮説を残すことができ、処理時間を大幅に短縮でき
る。

【０００８】尤度関数ｇ_i（ｔ）から仮説の評価値を求
める方法について詳細に述べる。音声の始端から前向き
に計算された尤度関数ｇ_i（ｔ）は、拡張された音素ま
での時刻ｔでの尤度である、この尤度関数は各時刻の特
徴パラメータに対する尤度をその前の時刻の尤度関数値
に加えて求められる。従って、時刻が異なれば、各時刻
の音素モデル内の状態遷移の出力確率を加算する回数が
異なるため、時刻が異なる尤度を単純に比較することは
できない。よって、尤度関数ｇ_i（ｔ）から時刻ｔに対
する最大の尤度ｍａｘｇ_i（ｔ）を求めて、それを仮説
ｉの評価値としても、時刻に対する尤度の正規化ができ
ていないため、仮説のもっともらしさを示す値になって
いない。

【０００９】以上のことを具体的に説明すると、例えば
図２Ｂに示すような木構造によって表現された文法に対
して、ＨＭＭを用いた探索処理を行なう場合を例とし、
いま探索処理が既に第４音素までの処理を終えていると
し、第５音素を拡張する場合を述べると、図２Ｂにおい
ては第１音素＃から４つの音素を含む仮説は、「＃ｉ
ｋａ」，「＃ｉｋｉ」，「＃ｉｍｉ」の
３種類である。ここで、“ ”は音素の区切りを示す記
号であり、音素＃は無音を示すものとする。

【００１０】第１音素が＃から始まり、第４音素まで拡
張された一つの仮説、「＃ｉｋｉ」では、図２Ｂか
らわかるように、第５音素として、３種類の音素ｋ，
ｏ，ｍが拡張可能である。また、第１音素が＃から始ま
り、第４音素まで拡張されたもう１つの仮説、「＃ｉ
ｋａ」は、第５音素として、２種類の音素ｍ，ｎが
拡張可能である。また、仮説「＃ｉｍｉ」は、第
４音素で完了しており、音素の拡張は行なわれない。

【００１１】音素数を一定とするビーム探索では、同じ
音素数をもつ仮説に対し、仮説の評価値を求め、一定の
条件で評価値の良い仮説のみを残す。ここでは、一定の
条件として、評価値の高い上位２つの仮説のみを残すも
のとする。上で述べたように、第５音素まで拡張された
仮説は、「＃ｉｋｉｏ」，「＃ｉｋｉ
ｋ」，「＃ｉｋｉｍ」，「＃ｉｋａ
ｍ」，「＃ｉｋａｎ」の５種類あり、それぞれ
の仮説の評価値はこの順に高いとすると、上位２つの仮
説である「＃ｉｋｉｏ」と「＃ｉｋｉ
ｋ」のみが次の音素を拡張できる仮説として残し、それ
以外の仮説を廃棄する。

【００１２】このように、仮説に音素を拡張して、一定
の条件によって残す仮説を限定し、残された仮説にさら
に音素を拡張していき、全ての仮説で音素を拡張できな
くなるまで、同様の処理を続ける。そして、音素を拡張
できなくなった全ての完了した仮説の評価値を比較し
て、評価値の最も高い仮説を認識結果として、出力す
る。

【００１３】次に、仮説の評価値の求め方として、第４
音素まで拡張された仮説「＃ｉｋｉ」に音素ｏを拡
張するときの、評価値の計算方法を図３Ａを用いて説明
する。図は、音素列と入力音声の照合であるトレリス計
算を行なって得られる尤度関数を、音素列、入力音声、
尤度の３つの軸をもつ３次元の図によって示しており、
図３Ａの尤度関数３１，３２に達する尤度軸と平行な直
線の各長さは、各時刻の尤度の高さを示している。

【００１４】既に計算されている、仮説「＃ｉｋ
ｉ」の尤度関数３１の各時刻の尤度を初期値として、ト
レリス計算により音素ｏの各時刻の尤度を求め、これを
尤度関数３１に加えることにより、音素ｏを拡張した仮
説「＃ｉｋｉｏ」の尤度関数３２を求める。ト
レリス計算の計算範囲は、「＃ｉｋｉ」までの範
囲から音素ｏの継続時間を考慮して求める。

【００１５】トレリス計算は、音響モデルを示すＨＭＭ
と入力音声を分析した特徴パラメータのベクトル時系列
データとの照合であり、時刻ｔでＨＭＭの最終状態に到
達するＨＭＭの全ての遷移に対してベクトル時系列デー
タとの確率計算を行ない、その結果時刻ｔにおける確率
値を得ることができる。ここではその確率値のｌｏｇ値
である尤度を用いる。

【００１６】図３Ａにおいて曲線３３は各音素（モデ
ル）を最も速く遷移した場合の音素列の時間経過を示
し、曲線３４は各音素（モデル）を最も長い時間かけて
遷移した場合の音素列の時間経過を示す。尤度関数３１
の時間軸方向の長さは音素列「＃ｉｋｉ」の継続時
間と対応している。１つのＨＭＭにおいて最終状態に遷
移するまでの出力確率は、それまでの状態遷移ごとにそ
の状態の出力確率が加算され、従ってループの回数が多
い程、出力確率が大となるため、尤度関数３１は、音素
ｉを最も速く遷移した時刻ｔ₁の尤度ｇ_i（ｔ₁）に対
し、音素ｉを最も遅く遷移した時刻ｔ_nの尤度ｇ_i（ｔ
_n）が大きく、尤度ｇ_i（ｔ）の各時刻での尤度は異な
り、時刻の経過に従って、そのモデル内の状態遷移ごと
の出力確率の加算回数が多くなり、ｇ_i（ｔ_n）に近ず
く。このため１つの仮説についての各時刻における尤度
関数を単純に比較することはできない。なんらかの方法
で仮説の評価値を決める必要がある。

【００１７】そこで時刻に対する尤度の正規化を含むよ
うな仮説の評価値を求める方法として、式（１）のよう
に音声の終端から後向きに推定した全ての仮説に共通な
推定尤度関数ｈ＾（ｔ）を求めておき、音声の始端から
前向きに計算した尤度関数ｇ _i（ｔ）に加え、音声区間
全体の推定尤度関数ｆ_i（ｔ）を求める方法がある。こ
の方法の詳細は、例えば「南泰浩，山田智一，鹿野
清宏，松岡達雄，“番号案内を対象とした大語い連
続音声認識アルゴリズム”，電子情報通信学会論文誌Ａ
Ｖｏｌ．Ｊ７７−ＡＮｏ．２，ｐｐ．１９０−１９
７，１９９４」に開示されている。

【００１８】ｆ_i（ｔ）＝ｇ_i（ｔ）＋ｈ＾（ｔ）（１）入力音声の終端は例えば図３Ａにおいて時刻ｔ_eであ
り、この時刻ｔ_eからその仮説の最後の音素より、図３
Ａの例では「＃ｉｋｉｏ」の仮説の最も速く遷
移した時刻ｔ₁′まで、全ての仮説に共通な推定尤度関
数値ｈ＾（ｔ₁）を後向きに推定し、また最も遅く遷移
した時刻ｔ_n′まで、全ての仮説に共通な推定尤度関数
値ｈ＾（ｔ_n）を後向きに推定し、同様に時刻ｔ₁′と
ｔ_n′との間の各時刻について後向き推定を各仮説に共
通に後向き推定尤度関数ｈ＾（ｔ）を推定すると、この
音声の終端から後向きに推定された全ての仮説に共通な
推定尤度関数ｈ＾（ｔ）は、音声の始端から前向きに計
算された尤度関数ｇ_i（ｔ）とは逆に、図に示すように
時刻に対応して尤度が単調減少している。従ってｇ
_i（ｔ）とｈ＾（ｔ）との和、つまり式（１）によって
求められた音声区間全体の推定尤度関数ｆ_i（ｔ）は、
図３Ｂに示すように時刻の正規化がなされている。よっ
て、式（２）のようにこの音声区間全体の推定尤度関数
ｆ_i（ｔ）の時刻ｔに対する最大値を求めれば、その仮
説ｉのもっともらしさを示す評価値Ｓ_iを得ることがで
き、精度の高い評価値を得ることが出来る。

【００１９】Ｓ_i＝ｍａｘｆ_i（ｔ）（２）また、音声の終端から後向きに推定した全ての仮説に共
通な推定尤度関数ｈ＾（ｔ）の計算方法としては、任意
の音素の接続を許す文法で、音声の終端から後向きにト
レリス計算を行なって求める方法がある。このようにし
て各仮説ｉについて評価値Ｓ_iを求め、その最も大きな
もの、あるいは大きなものから複数の仮説に対して、更
に音素の拡張を行うことを同様にしてゆき、拡張不能に
なった時の最も評価値が高い仮説を認識結果とする。

【００２０】

【発明が解決しようとする課題】しかし、上記の従来方
法では、後向きの推定尤度関数ｈ＾（ｔ）を得るため
に、音声の終端から計算を行なうことになり、入力音声
全体が入力されないと探索が開始できない、つまり、音
声の入力と並行して探索処理を進めることが出来ない。

【００２１】音声認識において、実時間で入力される音
声を実時間で認識処理し、できるだけ早い時間で認識結
果が得られることは、音声認識の使いやすさを良くする
ものであり、実使用での音声認識に重要である。この発
明は、実時間で認識処理を行なうために、音声入力と並
行して探索処理を実行する仮説の評価値の計算方法を用
い、しかも高精度の評価値が得られる音声認識方法を提
供することにある。

【００２２】

【課題を解決するための手段】この発明によれば、ビー
ム探索法で尤度関数ｇ_i（ｔ）から仮説の評価値を求め
る際に、音声の始端から前向きに計算された尤度関数ｇ
_i（ｔ）の時刻に対し正規化するために、音声の始端か
ら前向きに推定した全ての仮説に共通な推定尤度関数ｇ
＾（ｔ）を求め、音声の始端から前向きに計算した各仮
説の尤度関数ｇ _i（ｔ）からこの共通の前向き推定尤度
関数ｇ＾（ｔ）を差し引くことにより推定尤度関数
ｆ_i′（ｔ）を得、この推定尤度関数ｆ_i′（ｔ）は、
音素列の入力音声に対する各時刻でのもっともらしさの
みを含むので、このｆ_i′（ｔ）の最大値と対応した値
を仮説の評価値として用いる。

【００２３】この方法は、音声終端からの後向き尤度関
数を用いていないので、音声入力の完了を待つことな
く、探索処理を並行して行なうことが出来る。

【００２４】

【実施例】以下この発明の実施例を説明する。従来と同
様に入力音声を分析処理し、特徴パラメータのベクトル
データは系列に変換し、探索処理により文法の拘束条件
を用いながら、ＨＭＭとの照合を、各仮説についてそれ
を拡張するように行い、その照合結果として各拡張音素
ごとにトレリス計算により各時刻の尤度を求める。

【００２５】このトレリス計算によって得られる各時刻
ｔにおけるその仮説の尤度ｇ_i（ｔ）は、時刻ｔに対す
る尤度の正規化がされていない。そこでこの発明では、
各仮説に共通な前向きの推定尤度関数ｇ＾（ｔ）を求
め、式（３）のように、この仮説の尤度関数ｇ_i（ｔ）
からｇ＾（ｔ）を差し引くことによって正規化尤度関数
ｆ_i′（ｔ）を得る。前向きの推定尤度関数ｇ＾（ｔ）
は正解と推定される仮説の尤度関数であって時刻ｔに対
して単調に増加する。従って尤度関数ｇ_i（ｔ）が例え
ば図１Ａに示すように時刻ｔに対し、増加する関数であ
るが、前向き推定尤度関数ｇ＾（ｔ）は図１Ｂに示すよ
うに単調増加関数であって、これらの差ｆ _i′（ｔ）は
図１Ｃに示すように時刻ｔに対し正規化された尤度とな
る。このようにｆ_i′（ｔ）は、時刻の正規化が行なわ
れており、時刻ｔでのその仮説のもっともらしさのみを
示している。

【００２６】ｆ_i′（ｔ）＝ｇ_i（ｔ）−ｇ＾（ｔ）（３）よって、式（４）のように、正規化尤度関数ｆ_i′
（ｔ）の最大値Ｓ_i′を求めると、Ｓ_i′は仮説のもっ
ともらしさを示している。よって、これを仮説の評価値
とする。このようにして、時刻に対する正規化を行なっ
た高精度の仮説の評価値を求めることができる。

【００２７】Ｓ_i′＝ｍａｘｆ_i′（ｔ）（４）次に、前向きの推定尤度関数ｇ＾（ｔ）を求める方法に
ついて説明する。＜前向きの推定尤度関数の計算方法１＞各音素ＨＭＭ
は、通常３つ程度の状態をもっており、その各状態で
は、複数の確率関数の重み和の出力確率分布をもってい
る。ここで、各時刻での特徴パラメータを全ての出力確
率分布に与え、最も高い出力確率値を選択する。この出
力確率値からその対数である最大尤度を求める。時刻ｔ
での特徴パラメータＯτの出力確率値Ｐ_i（Ｏτ）の最
大値ｍａｘＰ_i（Ｏτ）を各時刻で求め、時刻進行での
この累積尤度を求め、それを各時刻ｔの前向きの推定尤
度関数ｇ＾（ｔ）とする。式では次のように表わせる。

【００２８】ｇ＾（ｔ）＝ΣｍａｘＰ_i（Ｏτ）（５） Σはτ＝０からｔまでつまり式（５）は文法の拘束を外し、全てのＨＭＭの状
態から何れのＨＭＭの状態へも遷移可能とし、かつその
遷移確率を１として入力音声との照合をビタビ法で行な
った時の各時刻での前向き最大尤度を意味しており、こ
れをｇ＾（ｔ）とする。Ｐ_i（Ｏτ）は音声認識のため
のトレリス計算の過程で可成り行われているから、その
結果を利用でき、計算量が少なくて済む。＜前向きの推定尤度関数の計算方法２＞前向きの推定尤
度関数の計算方法１においては、全ての出力確率分布か
ら得られる出力確率値の最大値から求めたが、この計算
方法２では、探索処理の過程で現在までにトレリス計算
によって既に計算済みの全ての出力確率分布の出力確率
値の最大値から求める。このようにすると探索処理過程
で文法の拘束を受けているため、これにより無関係のも
のが外され、しかもトレリス計算で既に計算されている
ためｇ＾（ｔ）のための計算をほとんど必要としない。＜前向きの推定尤度関数の計算方法３＞横形探索法の説
明で述べたように仮説に音素を拡張していき、トレリス
計算を行なうことにより尤度関数を得るが、この場合、
各仮説に対し、任意の音素の拡張を行なえるような文法
で、つまり文法に拘束を行うことなく音素を拡張してい
き、得られた尤度関数を前向きの推定尤度関数とする。
つまり後向き推定尤度関数ｈ＾（ｔ）と同様に文法に制
約されない可能性の全ての音素配列に対する前向き推定
尤度関数は最もらしい仮説に対する尤度関数に近いもの
となるから、これをｇ＾（ｔ）とする。＜前向きの推定尤度関数の計算方法４＞前向きの推定尤
度関数の計算方法３においては、任意の音素の拡張を行
なえるようにしたが、日本語特有の音素配列構造のみを
許す制約（文法）を与えて、尤度計算を行ない、得られ
た尤度関数を前向きの推定尤度関数ｇ＾（ｔ）とする。
日本語特有の音素配列構造を許す音素列とは、例えば
「ｏｍｏｓｈｉｒｏｉ」や「ｓｕｔｏｒａ
ｉｋｕ」というように子音の後には子音が来ないとい
う制約を示している。「ｓｔｒａｉｋ」という音素
の連鎖は英語での音素配列構造を満たしているが、日本
語の音素配列構造とはなっていない。＜前向きの推定尤度関数の計算方法５＞最終的に全ての
仮説の尤度関数の中で最大のものが正解であることがお
おいから各時刻においても、全ての仮説の尤度関数中の
最大のものが正解に近いと思われる。そこで探索の過程
で計算された全ての仮説の尤度関数の各時刻毎の最大値
を前向きの推定尤度関数とする。式で表現すると次のよ
うになる。

【００２９】ｇ＾（ｔ）＝ｍａｘｇ_i（ｔ）（６）上記による方法の何れかで、前向きの推定尤度関数ｇ＾
（ｔ）を計算し、これを用いることにより得られる仮説
の評価値を使って、ビーム探索を行なう。この仮説の評
価値の精度が高いため、ビーム探索の条件を厳しくして
も正確の仮説を落すことなく、探索が行なえる。また、
ビーム探索の条件を厳しくすることができるため、計算
すべき仮説の数を減らすことができ、探索処理量そのも
のを削減できる。さらに、上で述べた前向きの推定尤度
関数ｇ＾（ｔ）は、各仮説の尤度関数ｇ_i（ｔ）を計算
するのと同時刻までの音声データのみを必要とするた
め、音声の終端を待つことなく、音声の入力と並行し
て、探索処理を行なえる。

【００３０】式（３）において、ヒューリスティック力
を強くするため、つまり正解仮説を発見し易くするため
に、前向推定尤度関数ｇ＾（ｔ）に重みＷを与え、つま
りｆ _i′（ｔ）＝ｇ_i（ｔ）−Ｗｇ＾（ｔ）の演算を行
うとよい。この重みＷは実験的に求められる。例えば実
験条件を下記に示す。分析条件サンプリング周波数：１２ｋＨｚフレーム周期：８ｍ秒窓幅：３２ｍ秒プリエンファシス：０．９７特徴量：ＬＰＣケプストラム（１６次），Δケプストラム（１６次），Δ対数パワー音響モデル混合連続分布ＨＭＭ，状態数３，混合分布数４，対角化共分散行列音素モデル数：５４評価用音声データ音素バランス２１６単語話者：ＭＡＵ，ＭＨＴ，ＦＡＦ，ＦＳＵ電子協提案の１００都市名話者：男性Ａ，男性Ｂ，女性Ａ，女性Ｂ先ず全探索を行って、最適候補（最終的に最も評価値が
高くなる候補）の尤度関数を求め、先に述べた計算方法
１〜３と５とをそれぞれ用いて前向き推定尤度関数ｇ＾
（ｔ）を求め、次に最適候補の尤度関数とｇ＾（ｔ）と
の距離を単位時間当りの対数尤度差とみなして、この距
離が最小になるように重みＷを決定する。このようにし
て２１６単語及び１００都市名のタスク（各タスク男性
話者１名）の全ての単語に対して重みＷを求めた結果は
下記のようになった。

【００３１】２１６単語（ＭＡＵ）１００都市名（男性Ａ）方法１０．９１３０．９１４方法２１．０２２１．０２４方法３０．９５８０．９６２方法５０．９７４０．９８１重みＷは真値と推定値の文法の制約の違いによるものと
考えられ、１に近いほど両者の文法の制約が近いことを
示している。

【００３２】先の実験で得られた重みＷの値を用いて、
２１６単語及び１００都市名を対象とした単語認識実験
を行った結果を示す。重みＷの値としては両タスクで推
定された重みＷは近い値であるから、共通に用い、計算
方法１ではＷ＝０．９１、計算方法２ではＷ＝１．０
２、計算方法３ではＷ＝０．９６、計算方法５ではＷ＝
0.98とした。この場合の認識実験結果を、全探索を行っ
た場合と、従来の後向き推定尤度関数を用いた場合の実
験結果も合わせて図４に示す。

【００３３】この結果より、この発明によれば、従来の
後向き推定尤度関数ｈ＾（ｔ）を用いる場合と同程度の
認識精度が得られることが理解される。計算方法２及び
５では推定尤度関数ｇ＾（ｔ）を求めるために、既に計
算された出力確率あるいは尤度関数のみを用いているの
で、認識処理全体の処理量を低く抑えることができ、処
理時間も短かい。なお図４の認識処理時間は認識処理全
体の処理量に対応した時間である。なお推定尤度関数の
推定精度の良さは方法１、方法３、方法２、方法５の順
となった。

【００３４】上述において仮説の評価値としてｆ_i′
（ｔ）の最大値を用いたが、例えばその最大値となる時
刻とその前後のいくつかの時刻におけるｆ_i′（ｔ）の
平均値を仮説の評価値としてもよい、つまりｆ_i′
（ｔ）の最大値と対応したものを評価値とする。また上
述において各１個の音素を順次連結する場合に限らず、
途中で複数の連続した音素を連結する場合もある。更に
この発明は音響モデルとしてＨＭＭを用いる場合に限ら
ず、標準パターンを用い、ＤＰマッチングにより認識す
る場合などにも適用できる。ＤＰマッチング等では上述
における尤度は距離又は類似度と呼ばれることが多く、
距離の場合は小さいほど照合での適合が良いことを示
し、上述での大小関係は反対となる。

【００３５】

【発明の効果】この発明の方法の効果を以下に示す。・各仮説の尤度関数の時刻に対応する尤度の増分を打ち
消すことにより、仮説の評価値を高精度に計算すること
ができ、認識精度を向上させることができる。・高精度に仮説の評価値を求めることが出来るので、ビ
ーム探索の仮説を残すための条件を厳しくすることがで
き、探索処理そのものの処理量を削減できる。

【００３６】・仮説の評価値を計算する際に音声区間全
体のデータを必要としないので、音声入力中に並行して
探索処理を行なうことができ、認識結果待ち時間を短縮
できる。

【図面の簡単な説明】

【図１】Ａはある仮説ｉの尤度関数ｇ_i（ｔ）の例を示
す図、Ｂは共通の前向き推定尤度関数ｇ＾（ｔ）の例を
示す図、Ｃは時刻正規化された尤度関数ｆ_i′（ｔ）の
例を示す図である。

【図２】Ａは音素を認識単位とする音声認識処理の手順
を示す図、Ｂは木構造に表現された音素連結の文法例を
示す図である。

【図３】Ａはトレリス計算の結果得られた尤度関数の例
を示す図、Ｂは時刻正規化された尤度関数ｆ_i（ｔ）の
例を示す図である。

【図４】この発明方法、及び従来法による単語音声認識
の実験結果を示す図である。

フロントページの続き (56)参考文献ＤｏｕｇｌａｓＢ．Ｐａｕｌ，ＡｌｇｏｒｉｔｈｍｓｆｏｒａｎＯｐｔｉｍａｌＡ＊ＳｅａｒｃｈａｎｄＬｉｎｅａｒｉｚｉｎｇｔｈｅＳｅａｒｃｈｉｎｔｈｅＳｔａｃｋＤｅｃｏｄｅｒ，Ｐｒｏｃ．ＩＣＡＳＳＰ91，ｐ．693−696，1991年５月野田喜昭，嵯峨山茂樹，前向き尤度を用いたＡ＊ビーム探索によるＨＭＭ−ＬＲ音声認識，電子情報通信学会技術研究報告［音声］，ＳＰ94−23，ｐ．１− ７，1994年６月17日野田喜昭，嵯峨山茂樹，前向きヒューリスティック関数を用いたビーム探索によるＨＭＭ−ＬＲ連続音声認識，電子情報通信学会論文誌，Ｄ−ＩＩ，Ｖｏｌ. Ｊ79−Ｄ−ＩＩ，Ｎｏ８，ｐ．1326− 1333，1996年８月20日 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/14 G10L 15/18 G10L 15/28 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】音素のような音声単位の連結である仮説
について対応する音響モデルと、入力音声とを照合し、
その照合結果を尤度関数として得、その尤度関数からそ
の仮説の評価値を求め、評価値の高い少くとも１個の仮
説を残しながら入力音声に近い候補を横形探索法により
探索する音声認識方法において、各時刻において、探索の過程で計算された音響モデルの
出力確率値の中から最大値を選び、時刻毎にその最大値
を累積して、全ての仮説に共通な前向き推定尤度関数を
求め、各仮説の尤度関数と上記前向き推定関数との差をとり、その差の最大値と対応する値をその仮説の評価値とする
ことを特徴とする音声認識方法。
【請求項２】音素のような音声単位の連結である仮説
について対応する音響モデルと、入力音声とを照合し、
その照合結果を尤度関数として得、その尤度関数からそ
の仮説の評価値を求め、評価値の高い少くとも１個の仮
説を残しながら入力音声に近い候補を横形探索法により
探索する音声認識方法において、日本語特有の音素配列構造の制約が設けられた音素の組
合せと入力音声との照合によって、全ての仮説に共通な
前向き推定尤度関数を求め、各仮説の尤度関数と上記前向き推定関数との差をとり、その差の最大値と対応する値をその仮説の評価値とする
ことを特徴とする音声認識方法。
【請求項３】音素のような音声単位の連結である仮説
について対応する音響モデルと、入力音声とを照合し、
その照合結果を尤度関数として得、その尤度関数からそ
の仮説の評価値を求め、評価値の高い少くとも１個の仮
説を残しながら入力音声に近い候補を横形探索法により
探索する音声認識方法において、探索の過程で計算された全ての仮説の尤度関数から各時
刻の最大値を求め、その最大値と対応する前向き推定尤
度関数を計算して、全ての仮説に共通な前向き推定尤度
関数を求め、各仮説の尤度関数と上記前向き推定関数との差をとり、その差の最大値と対応する値をその仮説の評価値とする
ことを特徴とする音声認識方法。
【請求項４】上記音響モデルは、隠れマルコフモデル
であることを特徴とする請求項１又は３のいずれかに記
載の音声認識方法。