JP6006674B2

JP6006674B2 - 音響モデル選択装置とその方法とプログラム

Info

Publication number: JP6006674B2
Application number: JP2013095109A
Authority: JP
Inventors: 哲小橋川; 太一浅見; 記良鎌土; 孝典芦原
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2013-04-30
Filing date: 2013-04-30
Publication date: 2016-10-12
Anticipated expiration: 2033-04-30
Also published as: JP2014215578A

Description

本発明は、複数ある音響モデルの中から音声認識のために最適な音響モデルを選択する音響モデル選択装置とその方法とプログラムに関する。

音声認識に利用する音響モデルの候補が複数個ある場合に、最適な音響モデルの選定は、従来、それぞれの音響モデルで評価用データを音声認識して、音声認識率を比較して最も良い認識率を示す音響モデルを選択する方法で行っていた（例えば、特許文献１）。

図１１に、特許文献１に記載された音響モデル作成装置９００の機能構成を示す。図１１を参照して従来の音響モデル選択方法を簡単に説明する。なお、図１１において、複数の音響モデル１１６を作成する部分の説明については省略する。

音響モデル作成装置９００の音響モデル選択は、モデル評価部１１７、評価用データ１１８、評価用言語モデル１１９、選択部１２０、の構成で行われる。モデル評価部１１７は、複数の音響モデル１１６の各音響モデル１１６−１，…，１１６−Ｍを読み込み、各音響モデルと評価用言語モデル１１９とを用いて評価用データ１１８に対する認識率を求め、各音響モデルの評価結果を算出する。

選択部１２０は、各音響モデル１１６−１，…，１１６−Ｍの評価結果に基づき、最高の評価結果を得た音響モデルを選択して最適音響モデル１２３として出力する。

特開２００７−２４９０５１号公報

従来技術では、評価用言語モデル１１９が、認識対象音声に十分適応されていない場合、音声認識率に差が生じず、どの音響モデルが最適であるかの判断が付かない課題がある。また、音声認識率を測定するために正解ラベル（評価用データ１１８（書き起こしテキスト））を必要とする課題がある。

本発明は、この課題に鑑みてなされたものであり、音声認識精度の差が小さい場合でも適切な音響モデルの選択ができ、書き起こしテキストが無くても音響モデルの選択が行える音響モデル選択装置とその方法とプログラムを提供することを目的とする。

本発明の音響モデル選択装置は、音響尤度計算部と、尤度差計算部と、モデル選定部と、を具備する。音響尤度計算部は、音声ファイルと、当該音声ファイルに対応した疑似正解読み系列と疑似誤認識読み系列と、複数の音響モデルと、を入力として上記音声ファイルを、疑似正解読み系列と疑似誤認識読み系列から生成した文法に基づいて上記複数の音響モデルごとに文法型音声認識を行って正解尤度と誤認識尤度を出力する。尤度差計算部は、上記正解尤度と上記誤認識尤度の差を計算して尤度差として出力する。モデル選定部は、尤度差を入力として、当該尤度差の最も大きな音響モデルを選択して選択済み音響モデルとして出力する。

本発明の音響モデル選択装置によれば、最も正解に近い事が期待される読み系列である疑似正解読み系列と、誤認識が多い事が想定される読み系列である疑似誤認識読み系列と、から生成した文法に基づいて、複数の音響モデルごとに文法型音声認識を行って正解尤度と誤認識尤度とを求め、その差分の最も大きな音響モデルを選択して出力する。従って、音声認識率で評価しないので、差分が僅かな差になる可能性が低く音響モデル間の比較が容易である。また、音声認識率を求めないので書き起こしテキストも不要である。

本発明の音響モデル選択装置１００，２００の機能構成例を示す図。音響モデル選択装置１００の動作フローを示す図。複数音声ファイルを使用して音響モデルを選択する場合の音響モデル選択装置１００の動作フローを示す図。本発明の音響モデル選択装置３００の機能構成例を示す図。音響モデル選択装置３００の動作フローを示す図。本発明の音響モデル選択装置４００の機能構成例を示す図。本発明の音響モデル選択装置５００の機能構成例を示す図。音素混同行列の一部を示す図。本発明の音響モデル選択装置６００の機能構成例を示す図。本発明の音響モデル選択装置７００の機能構成例を示す図。従来の音響モデル作成装置９００の機能構成を示す図。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。

図１に、この発明の音響モデル選択装置１００の機能構成例を示す。その動作フローを図２に示す。音響モデル選択装置１００は、音響尤度計算部１１０と、尤度計算部１３０と、モデル選定部１４０と、制御部１５０と、を具備する。音響モデル選択装置１００は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。以降で説明する他の実施例についても同様である。

音響尤度計算部１１０は、音声ファイルと、当該音声ファイルに対応した疑似正解読み系列と疑似誤認識読み系列と、複数の音響モデル１２０_１，１２０_２，…，１２０_ｎとを入力として、上記音声ファイルを、疑似正解読み系列と疑似誤認識読み系列から生成した文法に基づいて複数の音響モデル１２０_＊ごとに文法型音声認識を行って正解尤度と誤認識尤度とを出力する（ステップＳ１１０）。正解尤度と誤認識尤度の計算は、全ての音響モデル１２０_＊（_＊は１〜ｎ））に対して繰り返して計算される（ステップＳ１５０のＮｏ）。この繰り返し動作の処理は制御部１５０で行う。制御部１５０は、音響モデル選択装置１００の各部の時系列動作を制御する一般的なものであり、特別な処理を行うものではない。以降の実施例において、制御部の説明は省略する。

ここで読み系列から生成された文法とは、例えば、読みから生成したＢＮＦ（Backus Normal Form）文法等のことである。最も単純な例としては、例えば一単語の「こんにちは」等であり、 k o ng n i ch i w a の音素に変換可能なものである。読み系列は、一文であっても良い。その場合には、単語間の無音（ポーズ）の有無を自動判定しても良い。

音声ファイルは複数の発声から成り、読み系列も複数の発声に対応した複数の疑似正解読み系列と疑似誤認識読み系列とが用意される。疑似正解読み系列を例えば「こんにちは」とした場合の正解尤度と、疑似誤認識読み系列を例えば「こんにゃちは」とした場合の誤認識尤度を、文法型音声認識を行って求める。

文脈型音声認識は、例えば参考文献１（Julius記述文法音声認識実行キットhttp://julius.sourceforge.jp/index.php?q=grammar-kit.html）等に記載されている周知なものである。音響尤度計算部１１０は、複数の疑似正解読み系列と疑似誤認識読み系列とから、ＢＮＦ記法に基づいて生成した文法（ＢＮＦ文法）に基づいて複数の音響モデル１２０_＊ごとに文法型音声認識を行って正解尤度と誤認識尤度とを出力する。

尤度差計算部１３０は、音響尤度計算部１１０で計算された正解尤度と誤認識尤度の差を尤度差として計算する（ステップＳ１３０）。尤度差の計算は、全ての音響モデルについて行われる（ステップＳ１５１のＮｏ）。尤度差は、音声ファイルを構成する複数の発声に対する尤度差の総和の平均値として求めても良い。

モデル選定部１４０は、尤度差計算部１３０で計算した尤度差の最も大きな音響モデルを複数の音響モデルの中から選択して選択済み音響モデルとして出力する（ステップＳ１４０）。複数の音響モデル１２０_１，１２０_２，…，１２０_ｎは、音響モデル選択装置１００を構成するコンピュータの記憶装置に記録されている。

以上説明したように音響モデル選択装置１００によれば、複数の音響モデルごとに文法型音声認識を行って正解尤度と誤認識尤度とを求め、その差分の最も大きな音響モデルを選択して出力する。従って、音声認識率で評価しないので、差分が僅かな差になる可能性が低く音響モデル間の比較が容易である。また、音声認識率を求めないので書き起こしテキストも不要である。

なお、音響モデル選択装置１００は、複数の音声ファイルを使用して音響モデルを選択するように構成することも出来る。図３に、複数の音声ファイルを使用して音響モデルを選択するように構成した場合の動作フローを示す。

音響尤度計算部１１０′（図１）は、１個の音声ファイルに含まれる複数の発話の一つに対して文法型音声認識を行って正解尤度と誤認識尤度とを出力する（ステップＳ１１０′）。尤度差計算部１３０′は、音響尤度差計算部１１０′が出力する正解尤度と誤認識尤度の差を尤度差として計算する（ステップＳ１３０′）。ステップＳ１１０′とＳ１３０′の処理は、全ての音響モデル１２０_＊について行われるまで繰り返される（ステップＳ１５１′のＮｏ）。この例は、ステップＳ１１０′とＳ１３０′を連続して処理するものであるが、図２に示したようにステップＳ１１０′とＳ１３０′のそれぞれが全ての音響モデル１２０_＊について処理するようにしても良い。

１個の音声ファイルに対する全ての音響モデル１２０_＊についての処理（ステップＳ１５１′のＹｅｓの単位で表せる処理）は、全ての音声ファイルについて終了するまで繰り返される（ステップＳ１５２のＮｏ）。この場合のモデル選定部１４０′は、音声ファイル単位の尤度差の平均値が最も大きな音響モデルを選択して、選択済み音響モデルとして出力する（ステップＳ１４０′）。複数の音声ファイルの数の情報は、音声ファイルのリスト情報として音響モデル選択装置１００に与えれば良い。その音声ファイルリスト情報の表記（図１）は省略する。
〔変形例１〕
図１に、この発明の音響モデル選択装置２００の機能構成例を示す。音響モデル選択装置２００は、音響モデル選択装置１００のモデル選定部１４０が、モデル選定部２４０に置き換わった点のみが異なる。

モデル選定部２４０は、音響尤度計算部１１０で計算した正解尤度と、尤度差計算部１３０で計算した尤度差と、を入力として、当該尤度差が所定値以上で、且つ、上記正解尤度が最も大きな音響モデルを複数の音響モデルの中から選択して、選択済み音響モデルとして出力する。ここで所定値は、例えば音響モデル全ての尤度差の平均値Ａとし、平均値Ａ以上の正解尤度の音響モデルの中から、正解尤度の最も高い音響モデルを選択する。

音響モデル選択装置２００は、尤度差だけでなく、正解尤度の最も高い音響モデルを選択するので、音響モデルの選択性能を向上させることが出来る。

図４に、この発明の音響モデル選択装置３００の機能構成例を示す。その動作フローを図５に示す。音響モデル選択装置３００は、音声認識部３１０と、疑似読み系列生成部３２０と、音響モデル選択装置１００と、制御部３５０と、を具備する。音響モデル選択装置１００は、上記実施例１で説明した音響モデル選択装置１００そのものであり、音響モデル選択装置３００は、音響モデル選択装置１００，２００に対して疑似正解読み系列と疑似誤認識読み系列を、自動的に生成するようにした点で異なる。

音声認識部３１０は、音声ファイルを入力として、当該音声ファイルを音声認識処理し、認識結果のＮベスト候補を出力する（ステップＳ３１０）。音声認識部３１０は、音響モデルと言語モデルを備えた通常の音声認識処理を行う周知なものである。Ｎベスト候補とは、音声認識結果のスコアの大きい順番に認識結果を並べたものである。

疑似読み系列生成部３２０は、音声認識部３１０が出力するＮベスト候補を入力として、音声ファイルに対応した疑似正解読み系列と疑似誤認識読み系列を生成する（ステップＳ３２０）。疑似正解読み系列は、Ｎベスト候補の１位の音声認識結果とする。疑似誤認識読み系列は、下位のＭ位の音声認識結果とする。Ｍの値は、音声認識結果候補の中で、認識率の低いものになるように予め定める。例えば、Ｎベストの数を５００とした場合、その最下位のスコアの音声認識結果を、疑似誤認識読み系列とする。

音響モデル選択装置１００は、音声ファイルと、疑似読み系列生成部３２０で生成した疑似正解読み系列と疑似誤認識読み系列と、複数の音響モデル１２０_１，１２０_２，…，１２０_ｎを入力として、上記した動作を行い選択済み音響モデルを出力する（ステップＳ１００）。このように、音響モデル選択装置３００は、音声ファイルから疑似正解読み系列と疑似誤認識読み系列とを生成するので、それらを外部から入力する必要がない。なお、音響モデル選択装置３００内の音響モデル選択装置１００は、変形例として説明した音響モデル選択装置２００であっても良い。

図６に、この発明の音響モデル選択装置４００の機能構成例を示す。音響モデル選択装置４００は、音声認識部４１０と、疑似読み系列生成部４２０と、歪み付与部４３０と、音響モデル選択装置１００と、制御部４５０と、を具備する。音響モデル選択装置４００の動作フローは、音響モデル選択装置３００と同じである。

歪み付与部４３０は、音声ファイルを入力として、当該音声ファイルに歪みを加えた歪み付与音声ファイルを出力する。歪み付与音声ファイルは、音声ファイルに雑音ファイルにより、歪みを加えた音声ファイルである。ここで歪みとは、例えば加法性雑音である。加法性雑音は、例えば所定の振幅のホワイトノイズや雑踏音等である。歪みは乗法性歪みとして与えても良いし、加法性と乗法性の両方を加えても良い。

音声認識部４１０は、音声ファイルと歪み付与部４３０で歪みが付与された歪み付与音声ファイルを入力として、音声ファイルを音声認識処理した音声認識結果と、歪み付与音声ファイルを音声認識処理した誤認識音声認識結果と、を出力する。音声認識処理部４１０は、音声ファイルと歪み付与音声ファイルの２つの音声ファイルに対して音声認識処理を行う点でのみ異なり、基本的な音声認識処理は音声認識装置３１０と同じである。

疑似読み系列生成部４２０は、音声認識部４１０が出力する音声認識結果と誤認識音声認識結果を入力として、音声認識結果から音声ファイルに対応した疑似正解読み系列を生成し、誤認識音声認識結果から歪み付与音声ファイルに対応した疑似誤認識読み系列を生成する。音響モデル選択装置１００は、参照符号から明らかなように、実施例１と２の音響モデル選択装置１００と同じものである。

この音響モデル選択装置１００は、疑似読み系列生成部４２０で生成した歪み付与音声ファイルを音声認識した疑似誤認識読み系列から生成した文法に基づいて文法型音声認識を行い誤認識尤度を計算する。従って、音響モデル選択装置４００は、確実に音声認識を誤認識する水準に誤認識尤度を設定することが出来るので、選択済み音響モデルの選択精度を向上させる効果を奏する。

図７に、この発明の音響モデル選択装置５００の機能構成例を示す。音響モデル選択装置５００は、音響モデル選択装置３００（図４）の疑似読み系列生成部３２０を、疑似読み系列生成部５２０に置き換えたものである。

疑似読み系列生成部５２０は、音声認識部３１０が出力するＮベスト候補を入力として、音声ファイルに対応した疑似正解読み系列を生成すると共に、当該疑似正解読み系列の音素を誤認識し易い音素に入れ替えて疑似誤認識読み系列を生成する。ここで誤認識し易い音素は、図８に示す音素混同行列を参照することで得ることが出来る。

図８は、音素混同行列の一部を示す図であり、１列目は入力音素であり、１行目は認識音素を表す。２列目以降は、入力音素を認識音素として認識する確率を表す。入力音素の「ａ」は、０．９０の確率で認識音素の「ａ」と認識され、誤認識され易い音素としては０.０５の確率で「ｅ」であることが分かる。この音素混同行列を参照して、疑似正解読み系列中の音素を、音素混同行列の認識音素の内、入力音素と異なる音素、例えば認識音素と異なる音素のうち最も混同し易い音素、すなわち混同する確率の高い音素に変換して疑似誤認識読み系列を生成する。

混同する確率が高い音素を選ぶ例について、図８の入力音素「ａ」を例に説明する。入力音素「ａ」は、認識音素「ａ」が最も高い認識確率、認識音素「ｅ」が２番目である。この場合、認識確率が最も高い認識音素「ａ」として認識されたものを、認識確率が２番目に高い「ｅ」に置き換える。この音素を置き換える処理を、例えば一文の内、半分程度の音素について行う。なお、音素の置き換えは、認識確率の最も低い音素に置き換えるようにしても良い。

疑似読み系列生成部５２０は、確実に誤認識する疑似誤認識読み系列を生成することが出来る。よって、音響モデル選択装置５００は、音響モデル選択装置１００における選択済み音響モデルの選択精度を向上させることが出来る。
〔変形例２〕
図９に、この発明の音響モデル選択装置６００の機能構成例を示す。音響モデル選択装置６００は、音響モデル選択装置５００（図７）の疑似読み系列生成部５２０を、疑似読み系列生成部６２０に置き換えたものである。

疑似読み系列生成部６２０は、音声認識部３１０が出力するＮベスト候補を入力として、音声ファイルに対応した疑似正解読み系列を生成すると共に、当該疑似正解読み系列の音素を、元々類似し易い音素を除いて誤認識し易い音素に置き換えた疑似誤認識読み系列を生成する。疑似読み系列生成部６２０は、疑似正解読み系列に対して、音素混同行列（図８）を参照して間違え易い音素に置き換える事で疑似誤認識読み系列を生成するが、この時に、類似の母音を持つ短母音と二重母音等のように、元々、類似性を持つ音素は置き換え対象から外すものである。

音素間類似性情報とは、例えば（ａ，ａａ），（ｉ，ｉｉ），（ｕ，ｕｕ），（ｅ，ｅｅ），（ｏ，ｏｏ），…のような短母音と二重母音である。疑似読み系列生成部６２０は、音素間類似性情報に基づいて元々類似し易い音素を除いた疑似正解読み系列の音素を、誤認識し易い音素に置き換えて疑似誤認識読み系列を生成する。

疑似読み系列生成部６２０は、元々類似し易い音素を除いて音素を入れ替えるので、疑似読み系列生成部５２０よりも処理量を削減することが出来る。音響モデル選択装置６００は、音響モデル選択装置５００よりも少ない処理量で、音響モデル選択装置５００で得られる効果に加えて元々類似し易い音素の影響を抑制することで、音響モデル選択装置１００における選択済み音響モデルの選択精度を向上させることが出来る。

図１０に、この発明の音響モデル選択装置７００の機能構成例を示す。音響モデル選択装置７００は、ベース音響モデル７１１と、適応用データベース７１２と、モデル適応部７１３と、適応音響モデル７１４_１，７１４_２，…、７１４_ｎと、音響モデル選択装置１００と、を具備する。

ベース音響モデル７１１は、複数の適応音響モデル７１４_１，７１４_２，…、７１４_ｎの基礎となる音響モデルである。モデル適応部７１３は、ベース音響モデル７１１を元に、適応用データベース７１２を用いて、適応音響モデル７１４_＊を生成する。

適応用データベース７１２には、音声ファイルと当該音声ファイルの音声を書き起こしたテキスト（適応用ラベル）の組が複数個記録されている。複数個の適応パラメータごとに、適応音響モデル７１４_＊を生成する。適応方法は、例えば最大事後確率推定（ＭＡＰ：Maximum a posteriori）とし、適応パラメータとしてＭＡＰ係数の異なる適応音響モデル７１４_＊を生成する。ＭＡＰ係数がＮ個あると適応音響モデルはＮ個生成される。

適応音響モデル７１４_１，７１４_２，…、７１４_ｎは、ベース音響モデル７１１と同じ次元数等の構造を持ち、実施例１〜４と変形例で説明した音響モデル１２０_１，１２０_２，…，１２０_ｎに相当するものである。音響モデル選択装置１００は、この同じ構造を持つ適応音響モデル７１４_＊の中から、尤度差の最も大きな音響モデルを、選択済み音響モデルとして出力する。

音響モデル選択装置７００によれば、音響モデルが同じ構造を持つため複数の音響モデルを尤度差で比較することが可能であり、構造の違いを気にせず最適な音響モデルを選択することが出来る。

以上説明したようにこの発明の音響モデル選択装置によれば、複数の音響モデルを音声認識率で評価せず尤度差で比較するので、音響モデル間の比較が容易で、且つ、書き起こしテキストも用いずに高い精度で最適な音響モデルを選択することが可能になる。なお、音響モデル選択装置３００（図４）、音響モデル選択装置４００（図６）、音響モデル選択装置５００（図７）、音響モデル選択装置６００（図９）、音響モデル選択装置７００（図１０）、のそれぞれが具備する音響モデル選択装置を音響モデル選択装置１００として説明したが、その音響モデル選択装置１００を音響モデル選択装置２００に置き換えても良い。

また、音響モデル選択装置１００〜６００は、複数の音響モデルの構造がそれぞれ異なる場合に、音響モデルの差を尤度差で比較できない場合がある。その場合は、尤度差を音響モデルの例えば次元数で正規化することで実用上問題無く、音響モデルの選択を行うことが可能である。

上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD（Digital Versatile Disc）、DVD-RAM（Random Access Memory）、CD-ROM（Compact Disc Read Only Memory）、CD-R（Recordable）/RW（ReWritable）等を、光磁気記録媒体として、MO（Magneto Optical disc）等を、半導体メモリとしてEEP-ROM（Electronically Erasable and Programmable-Read Only Memory）等を用いることが出来る。

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

音声ファイルと、当該音声ファイルに対応した疑似正解読み系列と疑似誤認識読み系列と、複数の音響モデルと、を入力として上記音声ファイルを、上記疑似正解読み系列と上記疑似誤認識読み系列から生成した文法に基づいて上記複数の音響モデルごとに文法型音声認識を行って正解尤度と誤認識尤度を出力する音響尤度計算部と、
上記正解尤度と上記誤認識尤度の差を計算して尤度差として出力する尤度差計算部と、
上記尤度差を入力として、当該尤度差の最も大きな音響モデルを、上記複数の音響モデルの中から選択して選択済み音響モデルとして出力するモデル選定部と、
を具備する音響モデル選択装置。
請求項１に記載した音響モデル選択装置において、
上記モデル選定部は、上記尤度差が所定値以上で、且つ、上記正解尤度が最も大きな音響モデルを選択して選択済み音響モデルとして出力することを特徴とする音響モデル選択装置。
音声ファイルを入力として、当該音声ファイルを音声認識処理し、音声認識結果のＮベスト候補を出力する音声認識部と、
上記Ｎベスト候補を入力として、上記音声ファイルに対応した疑似正解読み系列と疑似誤認識読み系列を生成する疑似読み系列生成部と、
上記音声ファイルと上記疑似正解読み系列と上記疑似誤認識読み系列を入力とする請求項１に記載した音響モデル選択装置と、
を具備する音響モデル選択装置。
音声ファイルを入力として、当該音声ファイルに歪みを加えた歪み付与音声ファイルを出力する歪み付与部と、
上記音声ファイルと歪み付与音声ファイルを入力として、上記音声ファイルを音声認識処理した音声認識結果と、上記歪み付与音声ファイルを音声認識した誤認識音声認識結果と、を出力する音声認識部と、
上記音声認識結果と上記誤認識音声認識結果を入力として、上記音声認識結果から上記音声ファイルに対応した疑似正解読み系列を生成し、上記誤認識音声認識結果から上記歪み付与音声ファイルに対応した疑似誤認識読み系列を生成する疑似読み系列生成部と、
上記音声ファイルと上記疑似正解読み系列と上記疑似誤認識読み系列を入力とする請求項１に記載した音響モデル選択装置と、
を具備する音響モデル選択装置。
請求項３に記載した音響モデル選択装置において、
上記疑似読み系列生成部は、上記Ｎベスト候補を入力として、上記音声ファイルに対応した疑似正解読み系列を生成すると共に、当該疑似正解読み系列の音素を誤認識し易い音素に入れ替えた疑似誤認識読み系列を生成するものであることを特徴とする音響モデル選択装置。
音響尤度計算部が、音声ファイルと、当該音声ファイルに対応した疑似正解読み系列と疑似誤認識読み系列と、複数の音響モデルと、を入力として上記音声ファイルを、上記疑似正解読み系列と上記疑似誤認識読み系列から生成した文法に基づいて上記複数の音響モデルごとに文法型音声認識を行って正解尤度と誤認識尤度を出力する音響尤度計算過程と、
尤度差計算部が、上記正解尤度と上記誤認識尤度の差を計算して尤度差として出力する尤度差計算過程と、
モデル選定部が、上記尤度差を入力として、当該尤度差の最も大きな音響モデルを、上記複数の音響モデルの中から選択して選択済み音響モデルとして出力するモデル選定過程と、
を備える音響モデル選択方法。
音声認識部が、音声ファイルを入力として、当該音声ファイルを音声認識処理し、音声認識結果のＮベスト候補を出力する音声認識過程と、
疑似読み系列生成部が、上記Ｎベスト候補を入力として、上記音声ファイルに対応した疑似正解読み系列と疑似誤認識読み系列を生成する疑似読み系列生成過程と、
請求項６に記載した上記音声ファイルと上記疑似正解読み系列と上記疑似誤認識読み系列を入力とする音響モデル選択方法と、
を備える音響モデル選択方法。
歪み付与部が、音声ファイルを入力として、当該音声ファイルに歪みを加えた歪み付与音声ファイルを出力する歪み付与過程と、
音声認識部が、上記音声ファイルと歪み付与音声ファイルを入力として、上記音声ファイルを音声認識処理した音声認識結果と、上記歪み付与音声ファイルを音声認識した誤認識音声認識結果と、を出力する音声認識過程と、
疑似読み系列生成部が、上記音声認識結果と上記誤認識音声認識結果を入力として、上記音声認識結果から上記音声ファイルに対応した疑似正解読み系列を生成し、上記誤認識音声認識結果から上記歪み付与音声ファイルに対応した疑似誤認識読み系列を生成する疑似読み系列生成過程と、
請求項６に記載した上記音声ファイルと上記疑似正解読み系列と上記疑似誤認識読み系列を入力とする音響モデル選択方法と、
を備える音響モデル選択方法。
請求項１乃至５の何れかに記載した音響モデル選択装置としてコンピュータを動作させるためのプログラム。