JP4852129B2

JP4852129B2 - 音声認識装置とその方法と、プログラム

Info

Publication number: JP4852129B2
Application number: JP2009158783A
Authority: JP
Inventors: 哲小橋川; 義和山口; 太一浅見; 浩和政瀧; 敏高橋
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2009-07-03
Filing date: 2009-07-03
Publication date: 2012-01-11
Anticipated expiration: 2029-07-03
Also published as: JP2011013543A

Description

この発明は、所定の時間間隔で音響モデルを選択して切り替えることで音声認識精度を向上させる音声認識装置と、その方法とプログラムに関する。

従来から、音声認識に要する処理時間の短縮や音声認識の精度を向上させる目的で、音響モデルを所定の時間間隔で切り替える方式の音声認識装置があり、その一例として特許文献１に開示された音声認識装置が知られている。

図９にその音声認識装置５００の機能構成を示して動作を簡単に説明する。音声認識装置５００は、音声認識文法格納部１と、文法変換部２と、音響モデル格納部３と、探索ネットワーク格納部４と、Ａ/Ｄ変換部６と、特徴量パラメータ抽出部７と、尤度計算・認識結果探索部８と、音響モデル代表尤度計算部９と、音響モデル選択部１０とを備える。

Ａ/Ｄ変換部６は、入力されるアナログ信号の音声を、例えばサンプリング周波数１６ｋＨｚで離散的なディジタル信号に変換する。特徴量パラメータ抽出部７は、離散値化された音声ディジタル信号を入力として、例えば３２０個の音声ディジタル信号を１フレーム（２０ｍｓ）としたフレーム毎に、音声特徴量Ｏ_ｔを算出する。音声特徴量Ｏ_ｔは、例えばメル周波数ケプストラム係数（ＭＦＣＣ）分析によって算出される。

探索ネットワーク格納部４には、音響モデル格納部３内の複数の音響モデルＡ，Ｂ，Ｃを用い、文法変換部２で予め作成された探索ネットワークが格納されている。探索ネットワークとは、音素、音韻、音節の如き或る音声カテゴリ毎に構成される音響モデルを、音声認識文法に記述された単語もしくは単語列にしたがって連結したものである。

尤度計算・認識結果探索部８は、フレーム毎に音声特徴量を入力として複数の探索ネットワークそれぞれの照合尤度を計算する。ここで、音声認識装置５００は、音声入力が開始してから予め指定された一定間隔毎に、そのフレーム以降に音声認識処理に用いる音響モデルの数を選択して減少させる操作を実行する。

その具体例を図１０を参照して説明する。図１０は、３種類の音響モデルが時間経過とともに選択されて行く様子を示している。横軸は経過時間をフレームで表し、縦軸は音声パワーである。音声入力が開始したフレームｔ_０では、全ての音響モデルと探索ネットワークに対して尤度が計算される。フレームｔ_０での各音響モデルの代表尤度は下線を付して示され、音響モデルＡが９９、音響モデルＢが５４、音響モデルＣが８６である。

代表尤度は閾値と比較され、例えば閾値を７０とした場合、それよりも小さな代表尤度である音響モデルＢは、以降の認識処理で除外される。フレームｔ_１では、音響モデルＣの代表尤度が６８と、閾値以下となりフレームｔ_２以降では音響モデルＡのみが音響モデルとして使用される。このように認識処理に用いる音響モデルを漸次的に絞り込むことで、音声認識の処理時間の短縮化と高精度化を図っている。

特開２００５−３４５７７２号公報（図１，図２）

しかし、従来の音響モデルを絞り込む方法では、音声入力が開始された直後において全ての音響モデルを用いた認識処理が行われるため処理時間が必要であり、全体の処理時間が長くなる課題があった。また、音声入力の開始直後とその後の話者が異なるような場合は、開始直後の音声に適合する音響モデルが選択されるので、音声入力の認識率が低下する原因になる。

この発明は、このような点に鑑みてなされたものであり、一つの音声中に複数の話者の発話が含まれる場合でも高い精度で音声認識でき、且つ処理時間も短い音声認識装置とその方法と、プログラムを提供することを目的とする。

この発明の音声認識装置は、特徴量分析部と、発話分割モデル選択部と、音声認識部とを具備する。特徴量分析部は、入力される音声ディジタル信号の音声特徴量をフレーム単位で分析する。発話分割モデル選択部は、フレーム毎の音声特徴量と性別依存の各音響モデルを代表するＧＭＭ（Gaussian Mixture Model：混合正規分布モデル）とを照合して各フレームを音声区間と非音声区間とに分類して発話区間を分割するとともに、発話区間毎に、当該発話区間に含まれるフレームと各音響モデルとの尤度から得られる各音響モデルの統計値に基づき、発話区間毎の音響モデルを選択する。音声認識部は、発話区間毎に選択された音響モデルで音声認識処理を行う。

この発明の音声認識装置は、フレーム毎に音声/非音声判定を行って発話区間を取り出し、その発話区間の音声特徴量と各音響モデルを代表するＧＭＭとを照合して尤度の高いフレーム数の多い音響モデルを発話区間毎に選択する。つまり、音声認識処理を行う前に音声ディジタル信号を発話区間に分割し、その発話区間毎に適用するのに最も適当な音響モデルが選択される。音声認識部はその最も適当な音響モデルを用いて認識処理を行うので認識精度を高めることが出来る。また、音響モデルの選択は音響モデルを代表するＧＭＭを用いて行われるので、従来技術よりも短い処理時間で済む。更に、各発話区間全体を用いて、音響モデルを選択するので、音声入力の開始直後とその後の話者が異なるような場合でも高い認識精度を維持できる。

この発明の考えを説明する図。この発明の音声認識装置１００の機能構成例を示す図。音声認識装置１００の動作フローを示す図。発話分割部２１の具体的な動作フローを示す図。音響モデル選択部２４の具体的な動作フローを示す図。この発明の音声認識装置２００の機能構成例を示す図。音声認識装置２００の動作フローを示す図。この発明の音声認識装置３００の機能構成例を示す図。特許文献１に開示された音声認識装置５００の機能構成を示す図。音声認識装置５００の動作の一例を示す図。

この発明の実施例の説明をする前に、この発明の考えについて説明する。
〔この発明の考え〕
図１にこの発明の考えを示す。図１は、上から音声信号、音声特徴量、発話分割部の出力、音響モデル選択部の出力を表す。音声特徴量は、音声信号を例えばＭＦＣＣ分析処理してフレーム毎に得られる値である。発話分割部の出力は、その音声特徴量を例えば音声ＧＭＭと無音ＨＭＭ（Hidden Mixture Model：隠れマルコフモデル）と比較し、音声ＧＭＭの方が高い尤度を示せばそのフレームを音声、無音ＨＭＭの方が高い尤度を示せば無音として、各フレームを音声区間と非音声区間に分類したものである。なお、作図の都合で、音声信号に対する１個のフレームを表す□を大きく表現している。また、音声特徴量は、隣接するフレーム同士を例えば１０ｍｓ程度の幅シフトさせて、一部がオーバーラップしたフレーム毎に求めるのが一般的であるが、そのフレームシフトの様子は省略している。

図１の例では、音声特徴量Ｏ_５〜Ｏ_１３とＯ_２２〜Ｏ_２９が発話区間（添え字の数字はフレーム番号である）、その他が非音声区間として分類され、発話区間としてＯ_５−Ｏ_１３とＯ_２２−Ｏ_2９が出力されている。この発話区間には、発話者の息継ぎ等による無音フレームが含まれることがある。図１に示す例は、発話区間にその無音フレームを含まない場合である。音響モデル選択部の出力は、各フレームの音声特徴量に対する尤度を、例えば、音響モデルＡ（男性用音響モデル）を代表するＡ−ＧＭＭ（男性ＧＭＭ）、音響モデルＢ（女性用音響モデル）を代表するＢ−ＧＭＭ（女性ＧＭＭ）と照合して求め、その尤度の高い音響モデルを当該発話区間の音響モデルとして選択したものである。ここで、（・）内は例えば音響モデルＡを男性用音響モデル、音響モデルＢを女性用音響モデルとした場合を記述している。

図１の例では、音声特徴量Ｏ_５〜Ｏ_１３の発話区間の音声認識処理に用いられる音響モデルが例えば音響モデルＡとされ、Ｏ_２２〜Ｏ_2９が音響モデルＢとされている。このように、この発明の考えによれば、音声認識処理するのに最も適当な音響モデルが発話区間毎に選択される。この発話区間毎に音響モデルを選択する処理は、各音響モデルを代表するＧＭＭの尤度値の高い音響モデルを選ぶだけなので、従来の多くの音素ＨＭＭを使用して音声認識処理を行いながら音響モデルを選択する方法よりも軽い。したがって、この発明の音声認識装置は、従来技術よりも短い処理時間で適当な音響モデルを絞り込むことが出来る。これは音声認識処理全体の処理時間の短縮に貢献する。

なお、音響モデル選択部は、発話区間毎に音響モデルを選択するので、発話分割の待ち時間が存在する。その待ち時間は、少なくとも一発話区間分は必要である。つまり、一発話分の時間を経過した後に、その発話区間に適用する音響モデルが選択される。よって、この発明の考えに基づく音声認識装置は、一発話区間分の待ち時間を許せば音声ディジタル信号を逐次的に録音する場合への対応が可能である。もちろん、既に蓄積されている音声ファイルを用いる場合は、一発話分を録音する待ち時間は不要である。また、処理量が小さな発話分割処理の後に音声認識を行うことも可能であり、高速に処理を行うことが出来る。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。

図２にこの発明の音声認識装置１００の機能構成例を示す。その動作フローを図３に示す。音声認識装置１００は、特徴量分析部２０と、発話分割部２１と、音声ＧＭＭ２２と、無音ＨＭＭ２３と、音響モデル選択部２４と、音響モデルＡ・ＧＭＭ２５と、音響モデルＮ・ＧＭＭ２６と、音声認識処理部２７と、言語モデルパラメータメモリ９４と、制御部２８とを具備する。音声認識装置１００は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

音声認識装置１００は、従来の音声認識装置５００と比較して音声認識処理（音声認識処理部２７）の前に発話分割部２１及び、音響モデル選択部２４を備える点で新しい。以降の説明では、その新しい部分を中心に説明を行う。

特徴量分析部２０は、従来技術の音声認識装置５００の特徴量パラメータ抽出部７と同じものであり、入力される音声ディジタル信号の音声特徴量Ｏ_ｔをフレーム単位で分析する（ステップＳ２０）。発話分割部２１は、フレーム毎に音声/非音声判定を行い各フレームを音声区間と非音声区間とに分類し、その音声区間をまとめて発話区間に分割して出力する（ステップＳ２１）。その分割の方法は、例えば、音声特徴量を音声ＧＭＭ２２と無音ＨＭＭ２３とに照合して求めた尤度値を比較し、音声ＧＭＭの方が高い尤度を示せばそのフレームを音声、無音ＨＭＭの方が高い尤度を示せば無音として分類した後に、経過時間である程度連続する音声区間を発話区間として分割して出力する。尤度計算には、無音ＨＭＭ２３中の複数の状態に属する混合正規分布の出力確率から得られる尤度を用いれば良い。また、無音ＨＭＭ２３の代わりに、無音データから学習した無音ＧＭＭを用いても良い。また、無音ＨＭＭ２３は、音響モデルＡ・ＧＭＭ２５〜音響モデルＮ・ＧＭＭ２６に通常含まれている無音ＨＭＭを参照するようにしても良い。なお、音声区間と非音声区間に分類する方法を、音声信号のパワーが所定値以上、例えば、背景雑音と比較して１０ｄＢ以上等か否かで分類しても良い。その場合は、音声ＧＭＭ２２と無音ＨＭＭ２３は不要である。

音響モデル選択部２４は、発話区間の各フレームの音声特徴量Ｏ_ｔを、各音響モデルを代表するＧＭＭ２５，２６のそれぞれと照合して尤度の高いフレーム数が多い音響モデルをその発話区間の音響モデルとして選択する（ステップＳ２４）。なお、ＧＭＭは、音響モデルＡ・ＧＭＭ２５と音響モデルＮ・ＧＭＭ２６との間に…で表しているように２個以上の複数個であって良い。その理由は後述する。

音声認識処理部２７は、発話区間毎に選択された音響モデルと、言語モデルパラメータメモリ９４に記憶されている言語モデルを用いて認識処理を行う（ステップＳ２７）。

図３に示した動作フローは、特徴量分析過程（ステップＳ２０）〜音声認識処理過程（ステップＳ２７）の各過程が、それぞれがバッチ処理される図である。各過程は、制御部２８によって音声ファイルの最後まで処理されるように制御される。なお、この発明の音声認識装置１００の動作は、そのバッチ処理に対して、上記したように一発話区間分の待ち時間を許した逐次処理とすることも可能である。

次にこの実施例の主要部である発話分割部２１と音響モデル選択部２４について更に詳しく説明する。

〔発話分割部〕
図４に発話分割部２１のより具体的な動作フローを示して説明する。発話分割部２１が、発話分割処理を開始すると、まず始めに初期化を行う（ステップＳ２１０）。初期化は、発話区間の開始時刻及び終了時刻や、動作制御用のカウンタのリセットのことである。

そして特徴量分析部２０からフレーム毎に音声ディジタル信号の音声特徴量を入手する（ステップＳ２１１）。その音声特徴量は、音声ＧＭＭ２２と無音ＨＭＭ２３に照合されて音声尤度Ｐ_Ｓと非音声尤度Ｐ_Ｎに変換される（ステップＳ２１２，Ｓ２１３）。

ステップＳ２１４で音声尤度Ｐ_Ｓと非音声尤度Ｐ_Ｎが比較され、音声尤度Ｐ_Ｓが高い場合（ステップＳ２１４のＹ）は、音声区間カウンタＮ_Ｓをカウントアップ（＋１）する（ステップＳ２１５）。このとき、ちょっとした息継ぎや促音（「っ」等）を無音としないように非音声区間連続カウンタＮ_Ｎcntを０にリセットする（ステップＳ２１６）。そして、Ｎ_Ｓ＝１の場合は、現在のフレーム番号を開始時刻として記録する（ステップＳ２１７）。なお、図４では、Ｎ_Ｓ＝１を検出するための判断を作図の都合により省略している。

非音声尤度Ｐ_Ｎの方が高い場合（ステップＳ２１４のＮ）は、非音声区間連続カウンタＮ_Ｎcntをカウントアップ（＋１）する（ステップＳ２１８）。発話区間の開始時刻を記録した後、音声区間カウンタＮ_Ｓと、非音声区間連続カウンタＮ_Ｎcntとは、それぞれ所定の値と比較される（ステップＳ２１９，Ｓ２２１）。

所定の値とは、発話区間を検出するための最小音声区間Sminと発話区間の終わりを検出するための終端検出連続無音区間Ｎdetである。その値は、極めて短い時間の音声区間は音声とせず、また、発話中の一瞬の息継ぎ等で発話区間が分断されないようにするためのものである。例えば、その時間は１秒程度に設定される。

この例に示す発話分割部２１はフレーム毎に処理を進める。よって、最小音声区間Ｓminと終端検出連続無音区間Ｎdetは、それぞれの時間長をフレーム時間ｔで除した値である。例えば、最小音声区間Ｓminと終端検出連続無音区間Ｎdetの時間を１秒とし、フレーム時間を２０ｍｓとした場合、ＳminとＮdetは５０である。

ステップＳ２１９において、非音声区間連続カウンタＮ_Ｎcntの値が、終端検出連続無音区間Ｎdet以上であるか否かが評価される。非音声区間連続カウンタＮ_Ｎcntの値がＮdet以上である場合、その音声区間はいったん、発話区間候補とされ、非音声区間連続カウンタＮ_Ｎcntはリセットされる（ステップＳ２２０）。そして更に、ステップＳ２２１において、音声区間カウンタＮ_Ｓの値が、最小音声区間Ｓmin以上であるか否か評価される。Ｎ_Ｓの値がＳmin以上の場合（ステップＳ２２１のＹ）、すなわち、音声区間カウンタＮ_Ｓと非音声区間カウンタＮ_Ｎcntの値が、両方の条件を満足する場合（ステップＳ２２１のＹ）は、現在のフレーム番号を終了時刻として記録する（ステップＳ２２２）。そして、音声区間カウンタＮ_Ｓをリセットする（ステップＳ２２３）。これで一つの発話区間が確定したので、開始時刻と終了時刻を発話区間として出力する（ステップＳ２２４）。

以上の動作は、音声ファイルの全ての音声データ（フレーム）が終了するまで繰り返される（ステップＳ２８のＮ）。この繰り返し動作の制御は制御部２８が行う。よって、発話分割部２１は、最小音声区間Ｓmin以上である音声区間を発話区間として出力する。図１を参照、なお、図１の発話区間の表現は、終了時の終端検出連続無音区間Ｎdetをゼロとした例である。

なお、発話区間を規定する最小音声区間Ｓminと終端検出連続無音区間Ｎdetの値を等しいものとして説明したが、それぞれを異なる任意の値にしても良い。その場合、最小音声区間Ｓminと終端検出連続無音区間Ｎdetの値によっては、短い時間幅で発話区間が出力され、必要以上に発話が分断されてしまうことが考えられる。そこで、発話分割部２１と音響モデル選択部２４との間に、発話時刻の間隔が例えば１秒程度の一定時間以内で隣接する発話区間を、連結する発話連結部２９を設けても良い。最小音声区間Ｓminと終端検出連続無音区間Ｎdetと、更に発話連結部２９とによって、より最適な音声認識の条件を見出すことが可能になり、音声認識精度を高められる効果が期待できる。

また、音声区間カウンタＮ_Ｓの値が、断続的にカウントされた場合でも、その値が最小音声区間Ｓmin以上になれば発話区間とする例を示したが、Ｎ_Ｓの値がある程度連続してカウントされてＳmin以上になった場合のみを発話区間とするようにしても良い。その場合は、非音声区間が含まれる最小音声区間Ｓmin未満の音声区間カウンタＮ_Ｓの値はリセットされる。

また、発話区間の開始時刻と終了時刻をフレーム番号で表現する例で説明を行ったが、音声ディジタル信号の始まりをスタートとした経過時間でも良い。また、音声尤度Ｐ_Ｓと非音声尤度Ｐ_Ｎを比較する例で説明を行ったが、各フレームの音声パワーが所定の閾値以上であるか否かを評価した後に、上記したステップＳ２１４〜Ｓ２８と等しい処理を行うことで発話区間を得ることも出来る。

また、音声パワーで音声/非音声を切り分ける方法に更に上記したような音声尤度Ｐ_Ｓと非音声尤度Ｐ_Ｎを比較して発話区間を検出する方法を加えても良い。そうすることで音声認識装置１００の処理速度に影響を与えないで発話区間の分割の精度をより高めることが可能である。

〔音響モデル選択部〕
図５に音響モデル選択部２４のより具体的な動作フローを示して説明する。音響モデル選択部２４は、発話区間を入力として最初に動作制御に必要なカウンタ等の初期化を行う（ステップＳ２４０）。そして、音響モデルＡを代表するＡ−ＧＭＭ（例えば男性音声を代表する男性ＧＭＭ）と音響モデルＢを代表するモデルＢ−ＧＭＭ（例えば女性音声を代表する女性ＧＭＭ）のそれぞれと、発話区間の各フレームの音声特徴量とを照合してモデルＡ尤度Ｐ_ｔＡとモデルＢ尤度Ｐ_ｔＢを得る（ステップＳ２４１）。この時、無音ＨＭＭが、最も高い尤度となっている無音フレームを無視しても良い。

ステップＳ２４２でモデルＡ尤度Ｐ_ｔＡとモデルＢ尤度Ｐ_ｔＢとは比較され、モデルＡ尤度Ｐ_ｔＡがモデルＢ尤度Ｐ_ｔＢ以上の場合（ステップＳ２４２のＹ）は、音響モデルＡのカウンタＰ_ＡＣがカウントアップ（＋１）される（ステップＳ２４３）。モデルＢ尤度Ｐ_ｔＢがモデルＡ尤度Ｐ_ｔＡ以上の場合（ステップＳ２４２のＮ）は、音響モデルＢのカウンタＰ_ＢＣがカウントアップ（＋１）される（ステップＳ２４４）。この動作は、一つの発話区間の全てのフレームについて行われる（ステップＳ２４５のＮ）。

一つの発話区間の全てのフレームについての尤度値の比較が終了する（ステップＳ２４５のＹ）と、音響モデルＡのカウンタＰ_ＡＣと音響モデルＢのカウンタＰ_ＢＣのカウント値が比較される（ステップＳ２４６）。カウンタＰ_ＡＣの値がカウンタＰ_ＢＣの値以上の場合（ステップＳ２４６のＹ）は、その発話区間の音響モデルとして音響モデルＡであるＡ−ＨＭＭが選択される（ステップＳ２４７）。カウンタＰ_ＡＣの値がカウンタＰ_ＢＣの値未満の場合（ステップＳ２４６のＮ）は、Ｂ−ＨＭＭが選択される（ステップＳ２４８）。

以上の動作は、音声ファイルの全ての音声データが終了するまで繰り返される（ステップＳ２８）。したがって、各発話区間に対してＡ−ＨＭＭとＢ−ＨＭＭのどちらかの音響モデルが選択される。

なお、カウンタＰ_ＡＣの値とカウンタＰ_ＢＣの値が等しい場合にも、その発話区間にＡ−ＨＭＭを選択する例を示したが、そのような場合にはＡ−ＨＭＭとＢ−ＨＭＭの中間の音響モデルである例えば性別非依存音響モデルを選択するようにしても良い。その場合、音響モデル選択部２４内に設けられた中間音響モデル選択手段６１（図２）が、性別非依存音響モデルを選択する。中間音響モデル選択手段６１は、フレーム数が同数の場合ばかりでなく、その差が所定数（例えば１０フレーム）以下の僅差の場合にも中間の音響モデルを選択するようにしても良い。

また、２つの音響モデルのどちらかを選択する例を示したが、最初から中間音響モデルを代表するＧＭＭに対しても音声特徴量を照合するようにしても良い。つまり、音響モデルは２種類に限られない。例えば、更に年代別の音響モデルを用意しても良い。また、複数の特定話者の音響モデルとしても良い。

また、発話区間のフレーム毎に尤度値を比較してその大小のフレーム数で、その発話区間の音響モデルを選択する例を説明したが、この他にも発話区間内のそれぞれの尤度値の累積値の大小で音響モデルを選択する方法も考えられる。

なお、前述した発話連結部２９を、音響モデル選択部２４と音声認識装置２７との間に設けても良い。その場合、発話連結部２９は時系列が連続する同一の音響モデルが選択された発話区間を連結する。

図６にこの発明の音声認識装置２００の機能構成例を示す。その動作フローを図７に示す。音声認識装置２００は、実施例１の音声認識装置１００の機能構成に更に、教師なし適応部４０と、適応後音響モデルパラメータメモリ４１と、第２音声認識処理部４２とを備える点で異なる。音声認識装置２００は、音声認識装置１００で音声認識処理した音声認識結果を適応用ラベルとして学習した音響モデルを用いて、音声認識処理を行うものである。

教師なし適応部４０は、選択された各音響モデルとその対応する発話区間に対して音声認識処理部２７の出力する音声認識結果を適応用ラベルとして音響モデル選択部２４が選択した音響モデルを適応し、適応音響モデルを生成する（ステップＳ４０、図７）。適応後音響モデルパラメータメモリ４１内の該当する音響モデルは、適応音響モデルに更新される。

第２音声認識処理部４２は、適応後音響モデルパラメータメモリ４１と言語モデルパラメータメモリ９４とを参照して音声認識結果を出力する（ステップＳ４２）。図６に示す第２音声認識処理部４２の動作は、音声認識処理部２７と同じである。なお、第２音声認識部４２に特徴量分析部２０の出力を直接入力するようにすれば、第２音声認識部４２は一般的な音声認識処理を行なうものであっても良い。

以上述べたように、音声認識装置２００によれば、発話区間毎に選択された音響モデルで音声認識した結果を適応用ラベルとして用いて選択された音響モデルを適応するので、音響モデルの精度を高めることが出来る。また、同じ音響モデルと選択された複数の発話区間の信号に基づいて適応するので比較的長時間の信号を音響モデルの適応データに用いることができるので、音響モデルの精度を高めることが出来る。そして、その精度の高い音響モデルを用いた音声認識処理を行うことが可能である。

図８にこの発明の音響認識装置３００の機能構成例を示す。音声認識装置３００は、音声認識装置１００の発話分割部２１と音響モデル選択部２４とを一体とした発話分割モデル選択部６０を備える点に特徴がある。

発話分割モデル選択部６０は、特徴量分析部２０の出力する特徴量を入力として、フレーム毎の音声特徴量と、複数の音響モデルを代表するＧＭＭと無音ＨＭＭとを照合して各フレームを音声区間と非音声区間とに分類するとともに、その音声区間と非音声区間とから発話区間を検出して当該発話区間毎に音響モデルを選択するものである。ＧＭＭは、男性ＧＭＭ、女性ＧＭＭ、性別非依存ＧＭＭ等、各種が考えられる。これらＧＭＭのそれぞれに対して音声特徴量を照合することで、発話区間の分割とそれに対する音響モデルの選択とを同時に行うことが可能である。その詳しい説明は、上記した実施例１の説明から明らかであるので省略する。

音声認識装置３００によればこの発明の音声認識装置の構成を簡単にすることが出来る。なお、発話分割モデル選択部６０内に、実施例１で説明した性別非依存音響モデルを選択する中間音響モデル選択手段６１を備えても良い。なお、同じように実施例１で説明した発話連結部２９は、音声認識装置２００と３００においても設けることが可能である。

また、実施例２で説明した教師なし適応部４０と、適応後音響モデルパラメータメモリ４１と、第２音声認識処理部４２とを音声認識装置２００においても設け、教師なし適応を行うことも可能である。

〔実験結果〕
この発明の効果を検証する目的で検証実験を行った。男女各２名の３５７０発話からなる６４個の音声ファイルを用いて連続音声認識を行い、従来の音声認識方法による音声認識結果とこの発明の方法による結果とを比較する実験を行った。従来の音声認識方法は男女並列認識とした。この発明の方法は、実施例３の音声認識装置３００の方法と、音声認識装置３００に教師なし適応を加えた方法とした。その結果を表１に示す。比較は文字認識率と文字正解精度で行った。

この発明の方が、文字認識率で２．２４％（３．４４％）、文字正解精度で２．４９（４．０％）改善される結果を示した。（・％）は、「従来法」と「実施例３＋教師なし適応」との差である。この結果に示されるように、音声認識処理を行う前に発話区間の単位でその発話区間に適用するのに最も適当な音響モデルを選択することにより、従来技術よりも高い精度で音声認識処理を行うことが確認できた。

この発明の方法及び装置は上述の実施形態に限定されるものではなく、この発明の趣旨
を逸脱しない範囲で適宜変更が可能である。なお、上記方法及び装置において説明した処
理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力
あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）/ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

入力される音声ディジタル信号の音声特徴量をフレーム単位で分析する特徴量分析部と、
上記フレーム毎の音声特徴量と性別依存の各音響モデルを代表するＧＭＭ（Gaussian Mixture Model：混合正規分布モデル）とを照合して各フレームを音声区間と非音声区間とに分類して発話区間を分割するとともに、上記発話区間毎に、当該発話区間に含まれるフレームと各音響モデルとの尤度から得られる各音響モデルの統計値に基づき、上記発話区間毎の音響モデルを選択する発話分割モデル選択部と、
上記発話区間毎に選択された音響モデルで音声認識処理を行う音声認識処理部と、
を具備する音声認識装置。
入力される音声ディジタル信号の音声特徴量をフレーム単位で分析する特徴量分析部と、
上記フレーム毎の音声特徴量と性別依存の各音響モデルを代表するＧＭＭ（Gaussian Mixture Model：混合正規分布モデル）とを照合して各フレームを音声区間と非音声区間とに分類して発話区間を分割するとともに、上記発話区間毎に、当該発話区間に含まれるフレームと各音響モデルとの尤度から得られる各音響モデルの統計値に基づき、上記発話区間毎の音響モデルを選択する発話分割モデル選択部と、
上記音声特徴量と上記選択された音響モデルを参照して上記音声特徴量に基づく音声認識処理の結果を適応用ラベルとして出力する音声認識処理部と、
上記適応用ラベルを入力として音響モデルを学習し、適応音響モデルを生成する教師なし適応部と、
上記適応音響モデルを記録する適応後音響モデルパラメータメモリと、
上記音声ディジタル信号を入力とし、上記適応後音響モデルパラメータメモリに記録された適応音響モデルを参照して音声認識処理を行う第２音声認識処理部と、
を具備する音声認識装置。
請求項１又は２に記載した音声認識装置において、
上記発話分割モデル選択部は、
上記発話区間毎に、音響モデル毎の尤度が最大となる当該発話区間に含まれるフレーム数に基づき、上記発話区間毎の音響モデルを選択することを特徴とする音声認識装置。
請求項１又は２に記載した音声認識装置において、
上記発話分割モデル選択部は、
上記発話区間毎に、音響モデル毎の当該発話区間に含まれるフレームとの尤度の累積値に基づき、上記発話区間毎の音響モデルを選択することを特徴とする音声認識装置。
請求項３に記載した音声認識装置において、
上記発話分割モデル選択部は、
音響モデルを選択する際に、フレーム数が同数若しくはフレーム数の差が所定数以下の場合は、性別非依存の音響モデルを選択する中間音響モデル選択手段を含む
ことを特徴とする音声認識装置。
請求項１乃至５の何れかに記載した音声認識装置において、
更に
時系列が連続する同じ音響モデルが選択された発話区間同士を連結する発話連結部を備えることを特徴とする音声認識装置。
特徴量分析部が、入力される音声ディジタル信号の音声特徴量をフレーム単位で分析する特徴量分析過程と、
発話分割モデル選択部が、上記フレーム毎の音声特徴量と性別依存の各音響モデルを代表するＧＭＭ（Gaussian Mixture Model：混合正規分布モデル）とを照合して各フレームを音声区間と非音声区間とに分類して発話区間を分割するとともに、上記発話区間毎に、当該発話区間に含まれるフレームと各音響モデルとの尤度から得られる各音響モデルの統計値に基づき、上記発話区間毎の音響モデルを選択する発話分割モデル選択過程と、
音声認識処理部が、上記発話区間毎に選択された音響モデルで音声認識処理を行う音声認識処理過程と、
を備える音声認識方法。
特徴量分析部が、入力される音声ディジタル信号の音声特徴量をフレーム単位で分析する特徴量分析過程と、
発話分割モデル選択部が、上記フレーム毎の音声特徴量と性別依存の各音響モデルを代表するＧＭＭ（Gaussian Mixture Model：混合正規分布モデル）とを照合して各フレームを音声区間と非音声区間とに分類して発話区間を分割するとともに、上記発話区間毎に、当該発話区間に含まれるフレームと各音響モデルとの尤度から得られる各音響モデルの統計値に基づき、上記発話区間毎の音響モデルを選択する発話分割モデル選択過程と、
音声認識処理部が、上記音声特徴量と上記選択された音響モデルを参照して上記音声特徴量に基づく音声認識処理の結果を適応用ラベルとして出力する音声認識処理部と、
教師なし適応部が、上記適応用ラベルを入力として音響モデルを学習し、適応音響モデルを生成する教師なし適応過程と、
第２音声認識処理部が、上記音声ディジタル信号を入力とし、適応後音響モデルパラメータメモリに記録された適応音響モデルを参照して音声認識処理を行う第２音声認識処理過程と、
を備える音声認識方法。
請求項１乃至６の何れかに記載した音声認識装置としてコンピュータを機能させるためのプログラム。