JP2014098874A

JP2014098874A - 音声認識装置、音声認識方法、およびプログラム

Info

Publication number: JP2014098874A
Application number: JP2012251894A
Authority: JP
Inventors: Shoko Yamahata; 祥子山畠; Satoru Kobashigawa; 哲小橋川; Taichi Asami; 太一浅見; Yuji Aono; 裕司青野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-11-16
Filing date: 2012-11-16
Publication date: 2014-05-29
Anticipated expiration: 2032-11-16
Also published as: JP5982265B2

Abstract

【課題】認識精度で音響モデル間に大きな差がでない場合に、言語モデルの影響を排除しながら、音素識別性能の高い音響モデルを選択する。
【解決手段】音響尤度算出部１０は、複数の音響モデルと言語モデルと複数の開発音声データと開発音声データに対応する正解音素ラベルとを入力とし、音響モデル毎に開発音声データを音声認識して得られた認識音素ラベルの音響尤度である認識音素尤度を求め、音響モデル毎に正解音素ラベルの音響尤度である正解音素尤度を求める。モデル選択部２０は、正解音素尤度と認識音素尤度とに基づいて、複数の音響モデルから最良音響モデルを選択する。
【選択図】図１

Description

この発明は、音声認識技術に関し、特に、複数の音響モデルの中から認識対象の音声データに最適な音響モデルを選択する技術に関する。

複数の音響モデルから認識対象の音声データに最適な音響モデルを選択する技術の例として、非特許文献１や特許文献１に記載された方法が挙げられる。非特許文献１には、複数の音響モデルを混合し、音声データ群と各音声データに対する正解音素ラベル群からなる開発データセットに対して最も高い音声認識精度を与える音響モデルを選択する方法が記載されている。特許文献１には、認識仮説の音素ラベルに対する音響尤度が閾値以下の音響モデルを除外する方法が記載されている。

非特許文献１に記載された音響モデルの選択方法をより詳しく説明する。非特許文献１では、複数の音響モデルを用意し、様々な重みを与えて複数パターンの混合音響モデルを作成する。そして、作成された混合音響モデルを用いて音声認識を行い、最も認識精度の高い音響モデルを最良音響モデルとして選択する。

特許文献１に記載された音響モデルの選択方法をより詳しく説明する。特許文献１では、入力音声に対して複数の音響モデルを用いて認識したときに、各音響モデルが作成する認識仮説の音素ラベルに対する音響尤度の値を用いて音響モデルの選択を行う。認識仮説の音素ラベルに対する音響尤度が閾値より低くなる音響モデルを、認識で用いるものから除外する。

特開２００５−３４５７７２号公報

堤怜介他, "講演音声認識のための音響・言語モデルの検討", 電子情報通信学会技術研究報告.NLC, No.102, pp.117-122, 2002.

非特許文献１では、開発データセットに対する認識精度を用いて音響モデルの選択を行う。しかし、認識精度は言語モデルの影響も受けるため、純粋に音響モデル単独での性能評価がなされていない可能性がある。また、認識精度で音響モデル間に大きな差が出ない場合、開発データセットにとっては最良の音響モデルであっても、実際の適用先の音声データにとっては他の音響モデルの方がよい認識精度を出す可能性もある。さらに、開発データセットの正解音素ラベルに対する認識率のみで評価を行った場合には、N-bestの２位以下の認識結果に対しても１位と大差ないスコアを与えているなど、誤りを起こしやすい音響モデルであるにも関わらず、1-bestの結果が開発データセットの正解と一致することにより、その音響モデルが選択されてしまう可能性がある。

特許文献１では、音響モデルの音響尤度のみを用いることで言語モデルのスコアの影響を排除している。しかし、認識仮説の音素ラベルに対する音響尤度を用いており、認識仮説に誤りが含まれる場合には、正解音素ラベルに対する音響尤度とは異なる値が計算されてしまうおそれがある。このように、正解音素と異なる音素に対する音響尤度が用いられることで、音響モデルの選択を誤る可能性がある。

この発明はこのような点に鑑み、認識精度で音響モデル間に大きな差がでない場合に、言語モデルの影響を排除しながら、音素識別性能の高い音響モデルを選択することができる音声認識技術を提供することを目的とする。

上記の課題を解決するために、この発明の音声認識装置は、複数の音響モデルと言語モデルと複数の開発音声データと開発音声データに対応する正解音素ラベルとを入力とし、音響モデル毎に開発音声データを音声認識して得られた認識音素ラベルの音響尤度である認識音素尤度を求め、音響モデル毎に正解音素ラベルの音響尤度である正解音素尤度を求める音響尤度算出部と、正解音素尤度と認識音素尤度とに基づいて、複数の音響モデルから最良音響モデルを選択するモデル選択部と、を含む。

この発明の音声認識技術によれば、音響尤度を用いることで、音響モデルのみの認識性能を比較することができるほか、認識精度に大きな差が出ないような場合でも音響モデル間のより詳細な比較が可能である。また、正解データの音素ラベルと認識仮説の音素ラベルとを比較することで、正解の音素と不正解の音素を最も区別できる音響モデル、つまり音素識別性能の高い音響モデルを選択することができる。したがって、音素認識精度が向上する。

音声認識装置の機能構成を例示する図。第一実施形態の音声認識装置の処理フローを例示する図。第二実施形態の音声認識装置の処理フローを例示する図。第三実施形態の音声認識装置の処理フローを例示する図。第四実施形態の音声認識装置の処理フローを例示する図。第五実施形態の音声認識装置の処理フローを例示する図。第六実施形態の音声認識装置の処理フローを例示する図。

実施形態の説明に先立ち、この発明の概要について説明する。

この発明は、複数の音響モデルが用意されているが認識対象の音声データにとっていずれの音響モデルが最適か不明であるときに、音声認識デコーダと対象音声データの開発データセットとを用いて最適な音響モデルを自動選択する技術である。開発データセットは、開発音声データ群と各開発音声データに対する正解音素ラベル群とからなる。正解音素ラベルは開発音声データの書き起し文などから得ることができる。

この発明では、各音響モデルで開発音声データを認識したときの音響尤度の値を用いて最良音響モデルを決定する。音響尤度を用いて音響モデルを選択することで、開発データセットの文字認識率や単語認識率の差が小さく、認識率だけではどの音響モデルが実運用で最も精度が高くなるか判断がつかない場合に、より詳細に音響モデルの精度を評価することができる。

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

［第一実施形態］
第一実施形態の音声認識装置は、ある開発データセットに対して、正解データの音素ラベルと、各音響モデルが出力する認識仮説の音素ラベルの両方を用いて、それぞれの音素ラベルに対する音響尤度を算出する。そして、正解データの音素ラベルの音響尤度が認識仮説の音素ラベルの音響尤度以上となる音声データ数が最も多い音響モデルを最良音響モデルとして選択する。

図１を参照して、この実施形態の音声認識装置１の構成例を説明する。音声認識装置１は、音響尤度算出部１０、モデル選択部２０、音声認識部３０、音響モデル記憶部５０、言語モデル記憶部５２、開発音声データ記憶部５４、正解音素ラベル記憶部５６、認識音素ラベル尤度記憶部５８、正解音素ラベル尤度記憶部６０、最良音響モデル記憶部６２、対象音声データ記憶部６４、認識結果記憶部６６を備える。音響モデル記憶部５０は、例えば、ＲＡＭ（Random Access Memory）などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリなどの半導体メモリ素子により構成される補助記憶装置、リレーショナルデータベースやキーバリューストアなどのミドルウェア、などにより構成することができる。言語モデル記憶部５２、開発音声データ記憶部５４、正解音素ラベル記憶部５６、認識音素ラベル尤度記憶部５８、正解音素ラベル尤度記憶部６０、最良音響モデル記憶部６２、対象音声データ記憶部６４、認識結果記憶部６６は、音響モデル記憶部５０と同様に構成することができる。

図２を参照して、この実施形態の音声認識装置１の動作例を説明する。

音響モデル記憶部５０には、N(≧2)個の音響モデルAM₁,…,AM_Nが記憶されている。言語モデル記憶部５２には、言語モデルLMが記憶されている。開発音声データ記憶部５４には、K(≧2)個の開発音声データs₁,…,s_Kが記憶されている。開発音声データは、音声認識装置１の適用先となる対象音声データに含まれ得る音素および声質が網羅されていることが望ましい。具体的には、話者一人につき１時間程度の音声データがあるとよい。正解音素ラベル記憶部５６には、開発音声データ記憶部５４に記憶されている開発音声データs₁,…,s_Kそれぞれに対応する正解音素ラベルが記憶されている。正解音素ラベルは、開発音声データの発音情報、すなわちどの音素をどの順番で発音しているかを記したテキストデータである。正解音素ラベルは、開発音声データの書き起こし平文から読みの情報を取得して生成してもよい。対象音声データ記憶部６６には、音声認識装置１を適用する対象音声データが記憶されている。

音響モデル記憶部５０に記憶されているN個の音響モデルAM₁,…,AM_Nと、言語モデル記憶部５２に記憶されている言語モデルLMと、開発音声データ記憶部５４に記憶されているK個の開発音声データs₁,…,s_Kと、正解音素ラベル記憶部５６に記憶されている正解音素ラベルとが、音響尤度算出部１０へ入力される（ステップＳ１０１）。音響尤度算出部１０は、n番目の音響モデルAM_n(1≦n≦N)に対して、開発音声データs_k(1≦k≦K)毎の正解音素ラベルに対する音響尤度である正解音素尤度L_c(AM_n,s_k)を算出する（ステップＳ１０２）。開発音声データs_kの処理単位は音声データの１ファイル毎としてもよいし、１ファイル内に複数の発話が含まれる場合には１発話毎としてもよい。算出した正解音素尤度L_c(AM_n,s_k)は正解音素ラベル尤度記憶部５８に記憶される。また、音響尤度算出部１０は、n番目の音響モデルAM_nに対して、開発音声データs_k毎の認識音素ラベルに対する音響尤度である認識音素尤度L_r(AM_n,s_k)を算出する（ステップＳ１０３）。認識音素ラベルは、音響モデルAM_nと言語モデルLMを用いて開発音声データs_kを音声認識して得られた認識結果の音素列である。算出した認識音素尤度L_r(AM_n,s_k)は認識音素ラベル尤度記憶部６０に記憶される。

モデル選択部２０は、正解音素ラベル尤度記憶部５８に記憶されている正解音素尤度L_c(AM_n,s_k)と認識音素ラベル尤度記憶部６０に記憶されている認識音素尤度L_r(AM_n,s_k)とを用いて最良音響モデルを選択する。音響モデルAM_n毎に正解音素尤度L_c(AM_n,s_k)と認識音素尤度L_r(AM_n,s_k)とを比較して、L_c(AM_n,s_k)≧L_r(AM_n,s_k)となる開発音声データs_kの数c_nを集計する（ステップＳ２０１）。そして、音声データ数c_nが最大である音響モデルAM_nを最良音響モデルAM_maxとして選択する（ステップＳ２０２）。選択した最良音響モデルAM_maxは、最良音響モデル記憶部６２に記憶される。

音声認識部３０は、最良音響モデル記憶部６２に記憶されている最良音響モデルAM_maxと言語モデル記憶部５２に記憶されている言語モデルLMを用いて、対象音声データ記憶部６４に記憶されている対象音声データの音声認識を行う（ステップＳ３０１）。得られた認識結果は認識結果記憶部６６に記憶される（ステップＳ３０２）。

このように第一実施形態の音声認識装置１は、正解音素ラベルの音響尤度と認識音素ラベルの音響尤度を用いることで、認識精度に大きな差がない場合でも詳細に音響モデル間の比較を行うことができる。また、正解音素ラベルと認識音素ラベルを比較することで、音素識別性能の高い音響モデルを選択することができる。したがって、音素認識精度が向上する。

［第二実施形態］
開発音声データs_k毎に正解音素尤度L_c(AM_n,s_k)と認識音素尤度L_r(AM_n,s_k)の差分は異なる。また、正解音素尤度L_c(AM_n,s_k)と認識音素尤度L_r(AM_n,s_k)の差分L_c(AM_n,s_k)-L_r(AM_n,s_k)の値が大きい方が、音素識別性能が高くより良い音響モデルであると言える。第一実施形態では音声データ数c_nにより最良音響モデルAM_maxを判定したが、差分の大きさに関係なく音響モデルを選択するため、性能の高い音響モデルを正しく選択できない可能性があった。そこで、第二実施形態ではL_c(AM_n,s_k)≧L_r(AM_n,s_k)である音声データ数c_nではなく、音響尤度の差分L_c(AM_n,s_k)-L_r(AM_n,s_k)に基づいて最良音響モデルを選択する。

図３を参照して、この実施形態の音声認識装置２の動作例を説明する。モデル選択部の処理以外は第一実施形態と同様であるので説明は省略する。この実施形態のモデル選択部はモデル選択部２１である。

この実施形態のモデル選択部２１は、音響モデルAM_n毎に音声データs_k毎の正解音素尤度L_c(AM_n,s_k)と認識音素尤度L_r(AM_n,s_k)との差分の和S_n=Σ_k{L_c(AM_n,s_k)-L_r(AM_n,s_k)}を算出する（ステップＳ２１１）。そして、差分の和S_nが最大である音響モデルAM_nを最良音響モデルAM_maxとして選択する（ステップＳ２１２）。

このように第二実施形態の音声認識装置２は、正解音素ラベルの音響尤度が認識音素ラベルの音響尤度に対して最も高い値を出力する音響モデルを選択することができ、より適した最良音響モデルを選択することができる。

［第三実施形態］
選択対象の音響モデルAM₁,…,AM_Nで状態数や混合数などが異なっていると、出力する音響尤度のオーダーが異なる場合がある。この場合、オーダーの大きい音響モデルほど、正解音素尤度L_c(AM_n,s_k)と認識音素尤度L_r(AM_n,s_k)の差分L_c(AM_n,s_k)-L_r(AM_n,s_k)が大きくなる。第二実施形態では差分の値だけを考慮して音響モデルを選択するため、実際は最適な音響モデルではないにも関わらず、状態数や混合数の大きい音響モデルが常に選択されてしまう可能性があった。そこで第三実施形態では、正解音素尤度L_c(AM_n,s_k)および認識音素尤度L_r(AM_n,s_k)の値そのものではなく、各音素ラベルの事後確率の値を用いて比較を行う。

図４を参照して、この実施形態の音声認識装置３の動作例を説明する。音響尤度算出部以外の処理は第二実施形態と同様であるので説明は省略する。この実施形態の音響尤度算出部は音響尤度算出部１１である。

この実施形態の音響尤度算出部１１は、n番目の音響モデルAM_nと開発音声データs_kに対して、正解音素ラベルの事後確率の平均値p_c(AM_n,s_k)を求める（ステップＳ１１２）。算出した事後確率の平均値p_c(AM_n,s_k)は正解音素ラベル尤度記憶部５８に記憶される。また、音響尤度算出部１１は、n番目の音響モデルAM_nと開発音声データs_kに対して、認識音素ラベルの事後確率の平均値p_r(AM_n,s_k)を求める（ステップＳ１１３）。算出した事後確率の平均値p_r(AM_n,s_k)は認識音素ラベル尤度記憶部６０に記憶される。音素ラベルから事後確率を求める方法は、例えば「李晃伸, 河原達也, 鹿野清宏, “2パス探索アルゴリズムにおける高速な単語事後確率に基づく信頼度算出法”, 情報処理学会研究報告, Vol.103, No.518, pp.35-40, 2003.」に開示されている方法を適用することができる。

このように第三実施形態の音声認識装置３は、正解音素ラベルと認識音素ラベルの事後確率の平均値を用いて比較を行うことで、音響モデル毎の状態数や混合数などの違いによらず、より適した最良音響モデルを選択することが可能となる。

［第四実施形態］
「正解音素ラベルの音響尤度＜認識音素ラベルの音響尤度」となる正解音素の種類数、つまりその音響モデルが誤りを起こす音素の種類が多岐に渡るものは、より多くの音素で誤りを起こす可能性があり、性能の低い音響モデルであると考えられる。そこで第四実施形態では、誤りを起こす音素の種類数を利用し、音響モデル選択を行う。これにより、L_c(AM_n,s_k)≧L_r(AM_n,s_k)となる音声データ数や音響尤度の差分が、複数の音響モデル間で類似した値をとり、音響モデルの差別化が困難な場合に、より適した最良音響モデルを選択することができる。

図５を参照して、この実施形態の音声認識装置４の動作例を説明する。モデル選択部以外の処理は第一実施形態と同様であるので説明は省略する。この実施形態のモデル選択部はモデル選択部２２である。モデル選択部２２は、第二実施形態と第三実施形態の音声認識装置２〜３にも適用することが可能である。

この実施形態のモデル選択部２２は、閾値θ(c)があらかじめ定められている。閾値θ(c)は、例えば開発音声データs₁,…,s_Kの総数Kの1〜1.5%程度として定められる。モデル選択部２２は、第一実施形態と同様に、音響モデルAM_n毎に正解音素尤度L_c(AM_n,s_k)≧認識音素尤度L_r(AM_n,s_k)となる音声データ数C_nを求める（ステップＳ２０１）。次に、正解音素尤度L_c(AM_n,s_k)≧認識音素尤度L_r(AM_n,s_k)となる音声データ数c_nの最大値c_maxをとる音響モデルAM_maxと、音声データ数c_nがc_max-θ(c)以内となる音響モデルAM_nとを、明確な差分がない音響モデル群として最良音響モデル候補とする（ステップＳ２２１）。次に、最良音響モデル候補毎に正解音素尤度L_c(AM_n,s_k)＜認識音素尤度L_r(AM_n,s_k)となる正解音素の種類数v_nを求める（ステップＳ２２２）。そして、種類数v_nが最も小さい音響モデルAM_nを最良音響モデルとして出力する（ステップＳ２２３）。

モデル選択部２２を第二実施形態の音声認識装置２へ適用する場合には、以下のように構成すればよい。モデル選択部２２は、閾値θ(S)があらかじめ定められているものとする。閾値θ(S)は、例えば差分の差S_nの最大値S_maxの10%の値として定められる。モデル選択部２２は、第二実施形態と同様に、音響モデルAM_n毎に音声データs_k毎の正解音素尤度L_c(AM_n,s_k)と認識音素尤度L_r(AM_n,s_k)との差分の和S_n=Σ_k{L_c(AM_n,s_k)-L_r(AM_n,s_k)}を算出する（ステップＳ２１１）。差分の和S_nの最大値S_maxをとる音響モデルAM_maxと、差分の和S_nがS_max-θ(S)以内となる音響モデルAM_nを、明確な差分がない音響モデル群として最良音響モデル候補とする（ステップＳ２２１）。次に、最良音響モデル候補毎に正解音素尤度L_c(AM_n,s_k)＜認識音素尤度L_r(AM_n,s_k)となる正解音素の種類数v_nを求める（ステップＳ２２２）。そして、種類数v_nが最も小さい音響モデルAM_nを最良音響モデルとして出力する（ステップＳ２２３）。

このように第四実施形態の音声認識装置４は、音声データ数や音響尤度の差分が複数の音響モデル間で類似した値をとり、複数の音響モデル間での差分が明確でない場合に、誤りやすい音素の種類数が少ないものを選択することで、より性能の高い音響モデルを最良音響モデルとして選択することができる。

［第五実施形態］
認識音素ラベルは音声認識結果から生成するが、この音声認識結果は音響モデルAM_nと言語モデルLMの両方の影響を受ける。そのため、１位の認識結果候補として出力される認識結果が、必ずしも最も音響尤度の高い認識結果ではなく、ほかの認識結果候補の中に１位の認識結果よりも音響尤度が高い認識結果候補が含まれている可能性がある。認識音素ラベルは、音声データに対して音響尤度が最大となる音素列であることが望ましいため、１位の認識結果のみ用いてしまうと、音響尤度が最大となる音素列が用いられないおそれがある。そこで第五実施形態では、認識結果候補のn-best中で音響尤度が最大になるものを、認識音素尤度L_r(AM_n,s_k)の算出に用いる認識結果とする。

図６を参照して、この実施形態の音声認識装置５の動作例を説明する。音響尤度算出部以外の処理は第一実施形態と同様であるので説明は省略する。この実施形態の音響尤度算出部は音響尤度算出部１２である。音響尤度算出部１２は、第二〜四実施形態の音声認識装置２〜４のいずれにも適用することができる。

この実施形態の音響尤度算出部１２は、第一実施形態と同様に、正解音素尤度L_c(AM_n,s_k)を算出する（ステップＳ１０１）。次に、音響尤度算出部１２は、音響モデルAM_n毎に音声s_kのn-best認識結果候補を取得する（ステップＳ１０２）。そして、n-best認識結果候補それぞれについて音素ラベルを生成し音響尤度を算出する。n-best認識結果候補から算出した音響尤度が最大となる認識結果候補から生成した音素ラベルを認識音素ラベルとし、この音響尤度を認識音素尤度L_r(AM_n,s_k)とする（ステップＳ１２１）。

このように第五実施形態の音声認識装置５は、言語モデルの重みの影響をより少なくして認識音素ラベルを生成することができ、正解音素ラベルと認識音素ラベルの音響尤度の比較を適切に行うことができる。

［第六実施形態］
開発音声データの中には、音質が悪く、正解音素尤度および認識音素尤度の値の信頼性が低いものが混在しているおそれがある。このような開発音声データを音響モデルの選出に用いるとノイズとなってしまい、本来は最適であるよいモデルを最良音響モデルとして選出できない可能性がある。そこで第六実施形態では、開発音声データの音質をあらかじめ判定しておき、音質が閾値以上であると判断された音声のみを、以降の処理で用いる。

図７を参照して、この実施形態の音声認識装置６の動作例を説明する。音響尤度算出部以外の処理は第一実施形態と同様であるので説明は省略する。この実施形態の音響尤度算出部は音響尤度算出部１３である。この実施形態の音響尤度算出部は、第二〜五実施形態の音声認識装置２〜５のいずれにも適用することができる。

この実施形態の音響尤度算出部１３は、入力された開発音声データそれぞれに対してSN比の算出を行う（ステップＳ１３１）。SN比の算出は、音声区間検出を行い、音声区間と非音声区間の入力信号のパワー比に基づいて算出することができる。音声区間検出は、入力信号が閾値以上のパワーをもつ部分を音声区間とし、それ以外を非音声区間とするような、一般的に用いられる方法を適用してもよい。また例えば「石塚健太郎他, “音声区間検出技術の最近の研究動向”, 日本音響学会誌, Vol.65, No.10, 2009.」に記載された方法を適用してもよい。そして、音響尤度算出部１３は、あらかじめ定められた閾値θを用いて、算出したSN比が下位θ%の音声は不適切な音声データとして破棄し、以降の処理では用いないものとする（ステップＳ１３２）。閾値θは、例えば10%などの値を用いればよい。

このように第六実施形態の音声認識装置６は、SN比が低く音質が悪い音声データを音響モデルの選択に用いないため、ノイズの影響で最良音響モデルを誤選択する可能性を抑えることができる。

［プログラム、記録媒体］
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施例において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

また、上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１−６音声認識装置
１０−１３音響尤度算出部
２０−２２モデル選択部
３０音声認識部
５０音響モデル記憶部
５２言語モデル記憶部
５４開発音声データ記憶部
５６正解音素ラベル記憶部
５８認識音素ラベル尤度記憶部
６０正解音素ラベル裕度記憶部
６２最良音響モデル記憶部
６４対象音声データ記憶部
６６認識結果記憶部

Claims

複数の音響モデルと言語モデルと複数の開発音声データと前記開発音声データに対応する正解音素ラベルとを入力とし、音響モデル毎に前記開発音声データを音声認識して得られた認識音素ラベルの音響尤度である認識音素尤度を求め、音響モデル毎に前記正解音素ラベルの音響尤度である正解音素尤度を求める音響尤度算出部と、
前記正解音素尤度と前記認識音素尤度とに基づいて、前記複数の音響モデルから最良音響モデルを選択するモデル選択部と、
を含む音声認識装置。
請求項１に記載の音声認識装置であって、
前記モデル選択部は、前記開発音声データ毎に前記正解音素尤度と前記認識音素尤度とを比較し、前記正解音素尤度が前記認識音素尤度以上である音声データ数が最大である音響モデルを前記最良音響モデルとして選択する
ことを特徴とする音声認識装置。
請求項１に記載の音声認識装置であって、
前記モデル選択部は、前記開発音声データ毎に前記正解音素尤度と前記認識音素尤度との差分を計算し、前記差分の和が最大である音響モデルを前記最良音響モデルとして選択する
ことを特徴とする音声認識装置。
請求項３に記載の音声認識装置であって、
前記音響尤度算出部は、前記認識音素ラベルの事後確率の平均値を前記認識音素尤度として求め、前記正解音素ラベルの事後確率の平均値を前記正解音素尤度として求める
ことを特徴とする音声認識装置。
請求項１から４のいずれかに記載の音声認識装置であって、
前記モデル選択部は、前記正解音素尤度と前記認識音素尤度とあらかじめ定めた閾値とを用いて前記音響モデルから最良音響モデル候補を選択し、前記最良音響モデル候補毎に正解音素尤度が認識音素尤度未満である音素ラベルの種類を集計し、前記音素ラベルの種類の数が最小である音響モデルを前記最良音響モデルとして選択する
ことを特徴とする音声認識装置。
請求項１から５のいずれかに記載の音声認識装置であって、
前記音響尤度算出部は、前記開発音声データを音声認識して得られた複数の認識結果候補に対する音響尤度のうち最大の音響尤度を前記認識音素尤度とする
ことを特徴とする音声認識装置。
請求項１から６のいずれかに記載の音声認識装置であって、
前記音響尤度算出部は、前記開発音声データそれぞれのSN比を算出し、前記SN比があらかじめ定めた閾値以下である開発音声データを破棄する
ことを特徴とする音声認識装置。
音響尤度算出部が、複数の音響モデルと言語モデルと複数の開発音声データと前記開発音声データに対応する正解音素ラベルとを入力とし、音響モデル毎に前記開発音声データを音声認識して得られた認識音素ラベルの音響尤度である認識音素尤度を求め、音響モデル毎に前記正解音素ラベルの音響尤度である正解音素尤度を求める音響尤度算出ステップと、
モデル選択部が、前記正解音素尤度と前記認識音素尤度とに基づいて、前記複数の音響モデルから最良音響モデルを選択するモデル選択ステップと、
を含む音声認識方法。
請求項１から７のいずれかに記載の音声認識装置としてコンピュータを機能させるためのプログラム。