JP6006674B2 - 音響モデル選択装置とその方法とプログラム - Google Patents

音響モデル選択装置とその方法とプログラム Download PDF

Info

Publication number
JP6006674B2
JP6006674B2 JP2013095109A JP2013095109A JP6006674B2 JP 6006674 B2 JP6006674 B2 JP 6006674B2 JP 2013095109 A JP2013095109 A JP 2013095109A JP 2013095109 A JP2013095109 A JP 2013095109A JP 6006674 B2 JP6006674 B2 JP 6006674B2
Authority
JP
Japan
Prior art keywords
pseudo
reading sequence
acoustic model
likelihood
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013095109A
Other languages
English (en)
Other versions
JP2014215578A (ja
Inventor
哲 小橋川
哲 小橋川
太一 浅見
太一 浅見
記良 鎌土
記良 鎌土
孝典 芦原
孝典 芦原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013095109A priority Critical patent/JP6006674B2/ja
Publication of JP2014215578A publication Critical patent/JP2014215578A/ja
Application granted granted Critical
Publication of JP6006674B2 publication Critical patent/JP6006674B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、複数ある音響モデルの中から音声認識のために最適な音響モデルを選択する音響モデル選択装置とその方法とプログラムに関する。
音声認識に利用する音響モデルの候補が複数個ある場合に、最適な音響モデルの選定は、従来、それぞれの音響モデルで評価用データを音声認識して、音声認識率を比較して最も良い認識率を示す音響モデルを選択する方法で行っていた(例えば、特許文献1)。
図11に、特許文献1に記載された音響モデル作成装置900の機能構成を示す。図11を参照して従来の音響モデル選択方法を簡単に説明する。なお、図11において、複数の音響モデル116を作成する部分の説明については省略する。
音響モデル作成装置900の音響モデル選択は、モデル評価部117、評価用データ118、評価用言語モデル119、選択部120、の構成で行われる。モデル評価部117は、複数の音響モデル116の各音響モデル116−1,…,116−Mを読み込み、各音響モデルと評価用言語モデル119とを用いて評価用データ118に対する認識率を求め、各音響モデルの評価結果を算出する。
選択部120は、各音響モデル116−1,…,116−Mの評価結果に基づき、最高の評価結果を得た音響モデルを選択して最適音響モデル123として出力する。
特開2007−249051号公報
従来技術では、評価用言語モデル119が、認識対象音声に十分適応されていない場合、音声認識率に差が生じず、どの音響モデルが最適であるかの判断が付かない課題がある。また、音声認識率を測定するために正解ラベル(評価用データ118(書き起こしテキスト))を必要とする課題がある。
本発明は、この課題に鑑みてなされたものであり、音声認識精度の差が小さい場合でも適切な音響モデルの選択ができ、書き起こしテキストが無くても音響モデルの選択が行える音響モデル選択装置とその方法とプログラムを提供することを目的とする。
本発明の音響モデル選択装置は、音響尤度計算部と、尤度差計算部と、モデル選定部と、を具備する。音響尤度計算部は、音声ファイルと、当該音声ファイルに対応した疑似正解読み系列と疑似誤認識読み系列と、複数の音響モデルと、を入力として上記音声ファイルを、疑似正解読み系列と疑似誤認識読み系列から生成した文法に基づいて上記複数の音響モデルごとに文法型音声認識を行って正解尤度と誤認識尤度を出力する。尤度差計算部は、上記正解尤度と上記誤認識尤度の差を計算して尤度差として出力する。モデル選定部は、尤度差を入力として、当該尤度差の最も大きな音響モデルを選択して選択済み音響モデルとして出力する。
本発明の音響モデル選択装置によれば、最も正解に近い事が期待される読み系列である疑似正解読み系列と、誤認識が多い事が想定される読み系列である疑似誤認識読み系列と、から生成した文法に基づいて、複数の音響モデルごとに文法型音声認識を行って正解尤度と誤認識尤度とを求め、その差分の最も大きな音響モデルを選択して出力する。従って、音声認識率で評価しないので、差分が僅かな差になる可能性が低く音響モデル間の比較が容易である。また、音声認識率を求めないので書き起こしテキストも不要である。
本発明の音響モデル選択装置100,200の機能構成例を示す図。 音響モデル選択装置100の動作フローを示す図。 複数音声ファイルを使用して音響モデルを選択する場合の音響モデル選択装置100の動作フローを示す図。 本発明の音響モデル選択装置300の機能構成例を示す図。 音響モデル選択装置300の動作フローを示す図。 本発明の音響モデル選択装置400の機能構成例を示す図。 本発明の音響モデル選択装置500の機能構成例を示す図。 音素混同行列の一部を示す図。 本発明の音響モデル選択装置600の機能構成例を示す図。 本発明の音響モデル選択装置700の機能構成例を示す図。 従来の音響モデル作成装置900の機能構成を示す図。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
図1に、この発明の音響モデル選択装置100の機能構成例を示す。その動作フローを図2に示す。音響モデル選択装置100は、音響尤度計算部110と、尤度計算部130と、モデル選定部140と、制御部150と、を具備する。音響モデル選択装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。以降で説明する他の実施例についても同様である。
音響尤度計算部110は、音声ファイルと、当該音声ファイルに対応した疑似正解読み系列と疑似誤認識読み系列と、複数の音響モデル120,120,…,120とを入力として、上記音声ファイルを、疑似正解読み系列と疑似誤認識読み系列から生成した文法に基づいて複数の音響モデル120ごとに文法型音声認識を行って正解尤度と誤認識尤度とを出力する(ステップS110)。正解尤度と誤認識尤度の計算は、全ての音響モデル120は1〜n))に対して繰り返して計算される(ステップS150のNo)。この繰り返し動作の処理は制御部150で行う。制御部150は、音響モデル選択装置100の各部の時系列動作を制御する一般的なものであり、特別な処理を行うものではない。以降の実施例において、制御部の説明は省略する。
ここで読み系列から生成された文法とは、例えば、読みから生成したBNF(Backus Normal Form)文法等のことである。最も単純な例としては、例えば一単語の「こんにちは」等であり、 k o ng n i ch i w a の音素に変換可能なものである。読み系列は、一文であっても良い。その場合には、単語間の無音(ポーズ)の有無を自動判定しても良い。
音声ファイルは複数の発声から成り、読み系列も複数の発声に対応した複数の疑似正解読み系列と疑似誤認識読み系列とが用意される。疑似正解読み系列を例えば「こんにちは」とした場合の正解尤度と、疑似誤認識読み系列を例えば「こんにゃちは」とした場合の誤認識尤度を、文法型音声認識を行って求める。
文脈型音声認識は、例えば参考文献1(Julius記述文法音声認識実行キットhttp://julius.sourceforge.jp/index.php?q=grammar-kit.html)等に記載されている周知なものである。音響尤度計算部110は、複数の疑似正解読み系列と疑似誤認識読み系列とから、BNF記法に基づいて生成した文法(BNF文法)に基づいて複数の音響モデル120ごとに文法型音声認識を行って正解尤度と誤認識尤度とを出力する。
尤度差計算部130は、音響尤度計算部110で計算された正解尤度と誤認識尤度の差を尤度差として計算する(ステップS130)。尤度差の計算は、全ての音響モデルについて行われる(ステップS151のNo)。尤度差は、音声ファイルを構成する複数の発声に対する尤度差の総和の平均値として求めても良い。
モデル選定部140は、尤度差計算部130で計算した尤度差の最も大きな音響モデルを複数の音響モデルの中から選択して選択済み音響モデルとして出力する(ステップS140)。複数の音響モデル120,120,…,120は、音響モデル選択装置100を構成するコンピュータの記憶装置に記録されている。
以上説明したように音響モデル選択装置100によれば、複数の音響モデルごとに文法型音声認識を行って正解尤度と誤認識尤度とを求め、その差分の最も大きな音響モデルを選択して出力する。従って、音声認識率で評価しないので、差分が僅かな差になる可能性が低く音響モデル間の比較が容易である。また、音声認識率を求めないので書き起こしテキストも不要である。
なお、音響モデル選択装置100は、複数の音声ファイルを使用して音響モデルを選択するように構成することも出来る。図3に、複数の音声ファイルを使用して音響モデルを選択するように構成した場合の動作フローを示す。
音響尤度計算部110′(図1)は、1個の音声ファイルに含まれる複数の発話の一つに対して文法型音声認識を行って正解尤度と誤認識尤度とを出力する(ステップS110′)。尤度差計算部130′は、音響尤度差計算部110′が出力する正解尤度と誤認識尤度の差を尤度差として計算する(ステップS130′)。ステップS110′とS130′の処理は、全ての音響モデル120について行われるまで繰り返される(ステップS151′のNo)。この例は、ステップS110′とS130′を連続して処理するものであるが、図2に示したようにステップS110′とS130′のそれぞれが全ての音響モデル120について処理するようにしても良い。
1個の音声ファイルに対する全ての音響モデル120についての処理(ステップS151′のYesの単位で表せる処理)は、全ての音声ファイルについて終了するまで繰り返される(ステップS152のNo)。この場合のモデル選定部140′は、音声ファイル単位の尤度差の平均値が最も大きな音響モデルを選択して、選択済み音響モデルとして出力する(ステップS140′)。複数の音声ファイルの数の情報は、音声ファイルのリスト情報として音響モデル選択装置100に与えれば良い。その音声ファイルリスト情報の表記(図1)は省略する。
〔変形例1〕
図1に、この発明の音響モデル選択装置200の機能構成例を示す。音響モデル選択装置200は、音響モデル選択装置100のモデル選定部140が、モデル選定部240に置き換わった点のみが異なる。
モデル選定部240は、音響尤度計算部110で計算した正解尤度と、尤度差計算部130で計算した尤度差と、を入力として、当該尤度差が所定値以上で、且つ、上記正解尤度が最も大きな音響モデルを複数の音響モデルの中から選択して、選択済み音響モデルとして出力する。ここで所定値は、例えば音響モデル全ての尤度差の平均値Aとし、平均値A以上の正解尤度の音響モデルの中から、正解尤度の最も高い音響モデルを選択する。
音響モデル選択装置200は、尤度差だけでなく、正解尤度の最も高い音響モデルを選択するので、音響モデルの選択性能を向上させることが出来る。
図4に、この発明の音響モデル選択装置300の機能構成例を示す。その動作フローを図5に示す。音響モデル選択装置300は、音声認識部310と、疑似読み系列生成部320と、音響モデル選択装置100と、制御部350と、を具備する。音響モデル選択装置100は、上記実施例1で説明した音響モデル選択装置100そのものであり、音響モデル選択装置300は、音響モデル選択装置100,200に対して疑似正解読み系列と疑似誤認識読み系列を、自動的に生成するようにした点で異なる。
音声認識部310は、音声ファイルを入力として、当該音声ファイルを音声認識処理し、認識結果のNベスト候補を出力する(ステップS310)。音声認識部310は、音響モデルと言語モデルを備えた通常の音声認識処理を行う周知なものである。Nベスト候補とは、音声認識結果のスコアの大きい順番に認識結果を並べたものである。
疑似読み系列生成部320は、音声認識部310が出力するNベスト候補を入力として、音声ファイルに対応した疑似正解読み系列と疑似誤認識読み系列を生成する(ステップS320)。疑似正解読み系列は、Nベスト候補の1位の音声認識結果とする。疑似誤認識読み系列は、下位のM位の音声認識結果とする。Mの値は、音声認識結果候補の中で、認識率の低いものになるように予め定める。例えば、Nベストの数を500とした場合、その最下位のスコアの音声認識結果を、疑似誤認識読み系列とする。
音響モデル選択装置100は、音声ファイルと、疑似読み系列生成部320で生成した疑似正解読み系列と疑似誤認識読み系列と、複数の音響モデル120,120,…,120を入力として、上記した動作を行い選択済み音響モデルを出力する(ステップS100)。このように、音響モデル選択装置300は、音声ファイルから疑似正解読み系列と疑似誤認識読み系列とを生成するので、それらを外部から入力する必要がない。なお、音響モデル選択装置300内の音響モデル選択装置100は、変形例として説明した音響モデル選択装置200であっても良い。
図6に、この発明の音響モデル選択装置400の機能構成例を示す。音響モデル選択装置400は、音声認識部410と、疑似読み系列生成部420と、歪み付与部430と、音響モデル選択装置100と、制御部450と、を具備する。音響モデル選択装置400の動作フローは、音響モデル選択装置300と同じである。
歪み付与部430は、音声ファイルを入力として、当該音声ファイルに歪みを加えた歪み付与音声ファイルを出力する。歪み付与音声ファイルは、音声ファイルに雑音ファイルにより、歪みを加えた音声ファイルである。ここで歪みとは、例えば加法性雑音である。加法性雑音は、例えば所定の振幅のホワイトノイズや雑踏音等である。歪みは乗法性歪みとして与えても良いし、加法性と乗法性の両方を加えても良い。
音声認識部410は、音声ファイルと歪み付与部430で歪みが付与された歪み付与音声ファイルを入力として、音声ファイルを音声認識処理した音声認識結果と、歪み付与音声ファイルを音声認識処理した誤認識音声認識結果と、を出力する。音声認識処理部410は、音声ファイルと歪み付与音声ファイルの2つの音声ファイルに対して音声認識処理を行う点でのみ異なり、基本的な音声認識処理は音声認識装置310と同じである。
疑似読み系列生成部420は、音声認識部410が出力する音声認識結果と誤認識音声認識結果を入力として、音声認識結果から音声ファイルに対応した疑似正解読み系列を生成し、誤認識音声認識結果から歪み付与音声ファイルに対応した疑似誤認識読み系列を生成する。音響モデル選択装置100は、参照符号から明らかなように、実施例1と2の音響モデル選択装置100と同じものである。
この音響モデル選択装置100は、疑似読み系列生成部420で生成した歪み付与音声ファイルを音声認識した疑似誤認識読み系列から生成した文法に基づいて文法型音声認識を行い誤認識尤度を計算する。従って、音響モデル選択装置400は、確実に音声認識を誤認識する水準に誤認識尤度を設定することが出来るので、選択済み音響モデルの選択精度を向上させる効果を奏する。
図7に、この発明の音響モデル選択装置500の機能構成例を示す。音響モデル選択装置500は、音響モデル選択装置300(図4)の疑似読み系列生成部320を、疑似読み系列生成部520に置き換えたものである。
疑似読み系列生成部520は、音声認識部310が出力するNベスト候補を入力として、音声ファイルに対応した疑似正解読み系列を生成すると共に、当該疑似正解読み系列の音素を誤認識し易い音素に入れ替えて疑似誤認識読み系列を生成する。ここで誤認識し易い音素は、図8に示す音素混同行列を参照することで得ることが出来る。
図8は、音素混同行列の一部を示す図であり、1列目は入力音素であり、1行目は認識音素を表す。2列目以降は、入力音素を認識音素として認識する確率を表す。入力音素の「a」は、0.90の確率で認識音素の「a」と認識され、誤認識され易い音素としては0.05の確率で「e」であることが分かる。この音素混同行列を参照して、疑似正解読み系列中の音素を、音素混同行列の認識音素の内、入力音素と異なる音素、例えば認識音素と異なる音素のうち最も混同し易い音素、すなわち混同する確率の高い音素に変換して疑似誤認識読み系列を生成する。
混同する確率が高い音素を選ぶ例について、図8の入力音素「a」を例に説明する。入力音素「a」は、認識音素「a」が最も高い認識確率、認識音素「e」が2番目である。この場合、認識確率が最も高い認識音素「a」として認識されたものを、認識確率が2番目に高い「e」に置き換える。この音素を置き換える処理を、例えば一文の内、半分程度の音素について行う。なお、音素の置き換えは、認識確率の最も低い音素に置き換えるようにしても良い。
疑似読み系列生成部520は、確実に誤認識する疑似誤認識読み系列を生成することが出来る。よって、音響モデル選択装置500は、音響モデル選択装置100における選択済み音響モデルの選択精度を向上させることが出来る。
〔変形例2〕
図9に、この発明の音響モデル選択装置600の機能構成例を示す。音響モデル選択装置600は、音響モデル選択装置500(図7)の疑似読み系列生成部520を、疑似読み系列生成部620に置き換えたものである。
疑似読み系列生成部620は、音声認識部310が出力するNベスト候補を入力として、音声ファイルに対応した疑似正解読み系列を生成すると共に、当該疑似正解読み系列の音素を、元々類似し易い音素を除いて誤認識し易い音素に置き換えた疑似誤認識読み系列を生成する。疑似読み系列生成部620は、疑似正解読み系列に対して、音素混同行列(図8)を参照して間違え易い音素に置き換える事で疑似誤認識読み系列を生成するが、この時に、類似の母音を持つ短母音と二重母音等のように、元々、類似性を持つ音素は置き換え対象から外すものである。
音素間類似性情報とは、例えば(a,aa),(i,ii),(u,uu),(e,ee),(o,oo),…のような短母音と二重母音である。疑似読み系列生成部620は、音素間類似性情報に基づいて元々類似し易い音素を除いた疑似正解読み系列の音素を、誤認識し易い音素に置き換えて疑似誤認識読み系列を生成する。
疑似読み系列生成部620は、元々類似し易い音素を除いて音素を入れ替えるので、疑似読み系列生成部520よりも処理量を削減することが出来る。音響モデル選択装置600は、音響モデル選択装置500よりも少ない処理量で、音響モデル選択装置500で得られる効果に加えて元々類似し易い音素の影響を抑制することで、音響モデル選択装置100における選択済み音響モデルの選択精度を向上させることが出来る。
図10に、この発明の音響モデル選択装置700の機能構成例を示す。音響モデル選択装置700は、ベース音響モデル711と、適応用データベース712と、モデル適応部713と、適応音響モデル714,714,…、714と、音響モデル選択装置100と、を具備する。
ベース音響モデル711は、複数の適応音響モデル714,714,…、714の基礎となる音響モデルである。モデル適応部713は、ベース音響モデル711を元に、適応用データベース712を用いて、適応音響モデル714を生成する。
適応用データベース712には、音声ファイルと当該音声ファイルの音声を書き起こしたテキスト(適応用ラベル)の組が複数個記録されている。複数個の適応パラメータごとに、適応音響モデル714を生成する。適応方法は、例えば最大事後確率推定(MAP:Maximum a posteriori)とし、適応パラメータとしてMAP係数の異なる適応音響モデル714を生成する。MAP係数がN個あると適応音響モデルはN個生成される。
適応音響モデル714,714,…、714は、ベース音響モデル711と同じ次元数等の構造を持ち、実施例1〜4と変形例で説明した音響モデル120,120,…,120に相当するものである。音響モデル選択装置100は、この同じ構造を持つ適応音響モデル714の中から、尤度差の最も大きな音響モデルを、選択済み音響モデルとして出力する。
音響モデル選択装置700によれば、音響モデルが同じ構造を持つため複数の音響モデルを尤度差で比較することが可能であり、構造の違いを気にせず最適な音響モデルを選択することが出来る。
以上説明したようにこの発明の音響モデル選択装置によれば、複数の音響モデルを音声認識率で評価せず尤度差で比較するので、音響モデル間の比較が容易で、且つ、書き起こしテキストも用いずに高い精度で最適な音響モデルを選択することが可能になる。なお、音響モデル選択装置300(図4)、音響モデル選択装置400(図6)、音響モデル選択装置500(図7)、音響モデル選択装置600(図9)、音響モデル選択装置700(図10)、のそれぞれが具備する音響モデル選択装置を音響モデル選択装置100として説明したが、その音響モデル選択装置100を音響モデル選択装置200に置き換えても良い。
また、音響モデル選択装置100〜600は、複数の音響モデルの構造がそれぞれ異なる場合に、音響モデルの差を尤度差で比較できない場合がある。その場合は、尤度差を音響モデルの例えば次元数で正規化することで実用上問題無く、音響モデルの選択を行うことが可能である。
上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることが出来る。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (9)

  1. 音声ファイルと、当該音声ファイルに対応した疑似正解読み系列と疑似誤認識読み系列と、複数の音響モデルと、を入力として上記音声ファイルを、上記疑似正解読み系列と上記疑似誤認識読み系列から生成した文法に基づいて上記複数の音響モデルごとに文法型音声認識を行って正解尤度と誤認識尤度を出力する音響尤度計算部と、
    上記正解尤度と上記誤認識尤度の差を計算して尤度差として出力する尤度差計算部と、
    上記尤度差を入力として、当該尤度差の最も大きな音響モデルを、上記複数の音響モデルの中から選択して選択済み音響モデルとして出力するモデル選定部と、
    を具備する音響モデル選択装置。
  2. 請求項1に記載した音響モデル選択装置において、
    上記モデル選定部は、上記尤度差が所定値以上で、且つ、上記正解尤度が最も大きな音響モデルを選択して選択済み音響モデルとして出力することを特徴とする音響モデル選択装置。
  3. 音声ファイルを入力として、当該音声ファイルを音声認識処理し、音声認識結果のNベスト候補を出力する音声認識部と、
    上記Nベスト候補を入力として、上記音声ファイルに対応した疑似正解読み系列と疑似誤認識読み系列を生成する疑似読み系列生成部と、
    上記音声ファイルと上記疑似正解読み系列と上記疑似誤認識読み系列を入力とする請求項1に記載した音響モデル選択装置と、
    を具備する音響モデル選択装置。
  4. 音声ファイルを入力として、当該音声ファイルに歪みを加えた歪み付与音声ファイルを出力する歪み付与部と、
    上記音声ファイルと歪み付与音声ファイルを入力として、上記音声ファイルを音声認識処理した音声認識結果と、上記歪み付与音声ファイルを音声認識した誤認識音声認識結果と、を出力する音声認識部と、
    上記音声認識結果と上記誤認識音声認識結果を入力として、上記音声認識結果から上記音声ファイルに対応した疑似正解読み系列を生成し、上記誤認識音声認識結果から上記歪み付与音声ファイルに対応した疑似誤認識読み系列を生成する疑似読み系列生成部と、
    上記音声ファイルと上記疑似正解読み系列と上記疑似誤認識読み系列を入力とする請求項1に記載した音響モデル選択装置と、
    を具備する音響モデル選択装置。
  5. 請求項3に記載した音響モデル選択装置において、
    上記疑似読み系列生成部は、上記Nベスト候補を入力として、上記音声ファイルに対応した疑似正解読み系列を生成すると共に、当該疑似正解読み系列の音素を誤認識し易い音素に入れ替えた疑似誤認識読み系列を生成するものであることを特徴とする音響モデル選択装置。
  6. 音響尤度計算部が、音声ファイルと、当該音声ファイルに対応した疑似正解読み系列と疑似誤認識読み系列と、複数の音響モデルと、を入力として上記音声ファイルを、上記疑似正解読み系列と上記疑似誤認識読み系列から生成した文法に基づいて上記複数の音響モデルごとに文法型音声認識を行って正解尤度と誤認識尤度を出力する音響尤度計算過程と、
    尤度差計算部が、上記正解尤度と上記誤認識尤度の差を計算して尤度差として出力する尤度差計算過程と、
    モデル選定部が、上記尤度差を入力として、当該尤度差の最も大きな音響モデルを、上記複数の音響モデルの中から選択して選択済み音響モデルとして出力するモデル選定過程と、
    を備える音響モデル選択方法。
  7. 音声認識部が、音声ファイルを入力として、当該音声ファイルを音声認識処理し、音声認識結果のNベスト候補を出力する音声認識過程と、
    疑似読み系列生成部が、上記Nベスト候補を入力として、上記音声ファイルに対応した疑似正解読み系列と疑似誤認識読み系列を生成する疑似読み系列生成過程と、
    請求項6に記載した上記音声ファイルと上記疑似正解読み系列と上記疑似誤認識読み系列を入力とする音響モデル選択方法と、
    を備える音響モデル選択方法。
  8. 歪み付与部が、音声ファイルを入力として、当該音声ファイルに歪みを加えた歪み付与音声ファイルを出力する歪み付与過程と、
    音声認識部が、上記音声ファイルと歪み付与音声ファイルを入力として、上記音声ファイルを音声認識処理した音声認識結果と、上記歪み付与音声ファイルを音声認識した誤認識音声認識結果と、を出力する音声認識過程と、
    疑似読み系列生成部が、上記音声認識結果と上記誤認識音声認識結果を入力として、上記音声認識結果から上記音声ファイルに対応した疑似正解読み系列を生成し、上記誤認識音声認識結果から上記歪み付与音声ファイルに対応した疑似誤認識読み系列を生成する疑似読み系列生成過程と、
    請求項6に記載した上記音声ファイルと上記疑似正解読み系列と上記疑似誤認識読み系列を入力とする音響モデル選択方法と、
    を備える音響モデル選択方法。
  9. 請求項1乃至5の何れかに記載した音響モデル選択装置としてコンピュータを動作させるためのプログラム。
JP2013095109A 2013-04-30 2013-04-30 音響モデル選択装置とその方法とプログラム Active JP6006674B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013095109A JP6006674B2 (ja) 2013-04-30 2013-04-30 音響モデル選択装置とその方法とプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013095109A JP6006674B2 (ja) 2013-04-30 2013-04-30 音響モデル選択装置とその方法とプログラム

Publications (2)

Publication Number Publication Date
JP2014215578A JP2014215578A (ja) 2014-11-17
JP6006674B2 true JP6006674B2 (ja) 2016-10-12

Family

ID=51941342

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013095109A Active JP6006674B2 (ja) 2013-04-30 2013-04-30 音響モデル選択装置とその方法とプログラム

Country Status (1)

Country Link
JP (1) JP6006674B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113330185A (zh) * 2018-11-29 2021-08-31 Bp探索操作有限公司 利用机器学习使用das特征的事件检测

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09244692A (ja) * 1996-03-07 1997-09-19 Nippon Telegr & Teleph Corp <Ntt> 発声単語認証方法およびこの方法を実施する装置
JPH1083195A (ja) * 1996-09-09 1998-03-31 Oki Electric Ind Co Ltd 入力言語認識装置及び入力言語認識方法
JP2001005483A (ja) * 1999-06-21 2001-01-12 Oki Electric Ind Co Ltd 単語音声認識方法及び単語音声認識装置
JP4583772B2 (ja) * 2004-02-05 2010-11-17 日本電気株式会社 音声認識システム、音声認識方法および音声認識用プログラム
JP4295675B2 (ja) * 2004-06-03 2009-07-15 日本電信電話株式会社 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
JP4951035B2 (ja) * 2009-07-08 2012-06-13 日本電信電話株式会社 音声単位別尤度比モデル作成装置、音声単位別尤度比モデル作成方法、音声認識信頼度算出装置、音声認識信頼度算出方法、プログラム
JP5824829B2 (ja) * 2011-03-15 2015-12-02 富士通株式会社 音声認識装置、音声認識方法及び音声認識プログラム
JP5982265B2 (ja) * 2012-11-16 2016-08-31 日本電信電話株式会社 音声認識装置、音声認識方法、およびプログラム

Also Published As

Publication number Publication date
JP2014215578A (ja) 2014-11-17

Similar Documents

Publication Publication Date Title
CN106463113B (zh) 在语音辨识中预测发音
JP6580882B2 (ja) 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム
US20090083036A1 (en) Unnatural prosody detection in speech synthesis
US20110218805A1 (en) Spoken term detection apparatus, method, program, and storage medium
JP6235280B2 (ja) 音声同時処理装置、方法およびプログラム
JP6370749B2 (ja) 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム
JP2005208643A (ja) ユーザ訂正を用いた自動音声認識学習のためのシステムおよび方法
US8645139B2 (en) Apparatus and method of extending pronunciation dictionary used for speech recognition
US9905224B2 (en) System and method for automatic language model generation
JP6336219B1 (ja) 音声認識装置および音声認識方法
US20080154591A1 (en) Audio Recognition System For Generating Response Audio by Using Audio Data Extracted
JP6552999B2 (ja) テキスト補正装置、テキスト補正方法、およびプログラム
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
JP6006674B2 (ja) 音響モデル選択装置とその方法とプログラム
JP5980101B2 (ja) 音響モデル学習用テキスト作成装置とその方法とプログラム
JP5852550B2 (ja) 音響モデル生成装置とその方法とプログラム
JP5914119B2 (ja) 音響モデル性能評価装置とその方法とプログラム
JP4922377B2 (ja) 音声認識装置とその方法と、プログラム
JP6546070B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム
JP2011022476A (ja) 音声認識用の閾値管理プログラム、音声認識用の閾値管理方法、音声認識装置
JP5982265B2 (ja) 音声認識装置、音声認識方法、およびプログラム
JP5152020B2 (ja) 音声認識装置及び音声認識方法
JP6903613B2 (ja) 音声認識装置、音声認識方法及びプログラム
JP5369079B2 (ja) 音響モデル作成方法とその装置とプログラム
JP5772219B2 (ja) 音響モデル生成装置、音響モデル生成方法及び音響モデル生成用コンピュータプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150714

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160715

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160802

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160810

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160906

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160909

R150 Certificate of patent (=grant) or registration of utility model

Ref document number: 6006674

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150