JP5980101B2

JP5980101B2 - 音響モデル学習用テキスト作成装置とその方法とプログラム

Info

Publication number: JP5980101B2
Application number: JP2012253587A
Authority: JP
Inventors: 済央野本; 哲小橋川; 裕司青野; 浩和政瀧
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-11-19
Filing date: 2012-11-19
Publication date: 2016-08-31
Anticipated expiration: 2032-11-19
Also published as: JP2014102345A

Description

本発明は、音響モデル学習に用いる学習用テキストを作成する音響モデル学習用テキスト作成装置とその方法とプログラムに関する。

近年における音声認識システムでは、音響モデルと言語モデルが利用される。音響モデルは、/ａ/や/ｋ/などの各音素が持つ音響的特徴を有した辞書であり、入力音声がどのような音素列かを推測するのに用いる。

音響モデルの学習には、音声とそれに対応するテキスト（音声データベース）が必要となる。精度の良い音響モデルを統計的に学習するには、大規模な音声データベースの構築が必要とされる。大量の音声とそれに対応するテキストを収集するには、高いコスト（時間や労力）を要する。

そこで、従来から音響モデルの学習効率を向上させるためのテキスト作成方法が検討されて来ている。図１０に、特許文献１に開示された音響モデル学習用ラベル作成装置９００の機能構成を示して、その動作を簡単に説明する。音響モデル学習用ラベル作成装置９００は、第１音素環境頻度計算部９２３と、第２音素環境頻度計算部９３３と、格納部９３４と、新出音素環境抽出部９３５と、テキスト選択部９３６と、蓄積部９３７などを具備する。

第１音素環境頻度計算部９２３は、音素変換部９２２から入力される音素系列をもとに、音素環境毎に出現頻度をカウントし、既存音声ＤＢ９１０の音素環境頻度を計算して出力する。第２音素環境頻度計算部９３３は、音素変換部９３２から入力される音素系列をもとに、音素環境毎に出現頻度をカウントし、元テキストＤＢ９３０の音素環境頻度を計算して出力する。

第１と第２音素環境頻度計算部９２３，９３３からそれぞれ出力される既存音声ＤＢ音素環境頻度及び元テキストＤＢ音素環境頻度は新出音素環境抽出部９３５に入力される。新出音素環境抽出部９３５は入力された既存音声ＤＢ音素環境頻度と元テキストＤＢ音素環境頻度とから、既存音声ＤＢ９１０に含まれず、元テキストＤＢ９３０に含まれている新出音素環境を抽出し、その抽出した新出音素環境を追加収録音素環境として出力する。

新出音素環境抽出部９３５から出力された追加収録音素環境はテキスト選択部９３６に入力される。テキスト選択部９３６は読み、音素系列と組とされて格納部９３４に格納されている元テキストＤＢ９３０のテキストの中から追加収録音素環境を含むテキストを選択する。テキストの選択は、テキスト毎に追加収録音素環境が含まれているか否かを判定することによって行われる。このようにして選択されたテキストは追加収録用ラベルセットとして出力される。

特開２０１１−２４８００１号公報

従来技術では、読み上げ対象となるテキストの音素数や既存音声ＤＢ９１０に含まれる音素数など、音素環境ガバレッジ（音素カバー率）の情報を用いる。つまり、学習量として頻度的に少ない音素を含むテキストを重点的に選択するといったものである。しかし、学習量が少ない音素を含む音声を大量に集めれば当該音素の認識精度が向上するとは限らない。学習量は少ないが認識性能としては十分に高い性能を示す音素のケースも考えられる。同様に、学習量としては十分に足りているが認識性能としてはまだ改善の余地があるという音素のケースも考えられる。このように、音素環境ガバレッジだけでは「学習すべき音素」を正確に抽出することが出来ない課題がある。

本発明は、この課題に鑑みてなされたものであり、「学習すべき音素」を正確に抽出することが出来る音響モデル学習用テキスト作成装置とその方法とプログラムを提供することを目的とする。

本発明の音響モデル学習用テキスト作成装置は、音声認識処理部と、認識結果集計部と、苦手音素抽出部と、追加候補テキストコーパスと、苦手音素包含テキスト選択部と、を具備する。音声認識処理部は、外部から入力される開発用音声データを、言語モデルと既存音響モデルを参照して音声認識し、認識結果テキストと音素系列情報とを出力する。認識結果集計部は、音素系列情報と開発用音声データの正解テキストとから音素認識率を計算する。苦手音素抽出部は、音素認識率が閾値以下の音素を苦手音素として抽出して苦手音素リストを生成する。追加候補テキストコーパスは、音響モデル学習用テキスト候補であるテキストを大量に記憶する。苦手音素包含テキスト選択部は、苦手音素リストを参照して追加候補テキストコーパスから苦手音素を含むテキストを選択して音響モデル学習用テキストとして出力する。

本発明の音響モデル学習用テキスト作成装置によれば、既存音声データベースを用いて学習した既存音響モデルを用いて、評価用音声データを音声認識し、認識性能が低い苦手音素を含むテキストを選択して出力するので、「学習すべき音素」を含む音響モデル学習用テキストを抽出することが出来る。

この発明の音響モデル学習用テキスト作成装置１００の機能構成例を示す図。音響モデル学習用テキスト作成装置１００の動作フローを示す図。正解音素系列情報と認識結果の音素系列情報の例を示す図。この発明の音響モデル学習用テキスト作成装置２００の機能構成例を示す図。音響モデル学習用テキスト作成装置２００の動作フローを示す図。音素包含マトリックスの例を示す図。テキスト選択部２３０の動作フローを示す図。この発明の音響モデル学習用テキスト作成装置３００の機能構成例を示す図。この発明の音響モデル学習用テキスト作成装置４００の機能構成例を示す図。特許文献１に開示された音響モデル学習用ラベル作成装置９００の機能構成を示す図。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。

図１に、この発明の音響モデル学習用テキスト作成装置１００の機構構成例を示す。その動作フローを図２に示す。音響モデル学習用テキスト作成装置１００は、音声認識処理部１０と、認識結果集計部４０と、苦手音素抽出部５０と、苦手音素包含テキスト選択部６０と、追加候補テキストコーパス７０と、制御部８０と、を具備する。音響モデル学習用テキスト作成装置１００は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。以降で説明する他の実施例についても同様である。

音声認識処理部１０は、外部から入力される開発用音声データを、言語モデル２０と既存音響モデル３０を参照して音声認識し、認識結果テキストと音素系列情報とを出力する（ステップＳ１０）。言語モデル２０は、言語の特徴を統計的手法によりモデル化したデータを格納し、連続音声認識の実行時に音声認識結果候補に対して言語的な尤もらしさを与えるものである。既存音響モデル３０は、既存の音声データベースを用いて音素が持つ音響特性を学習した音響モデルを大量に格納している。音響モデルは、混合正規分布を出力確率とした隠れマルコフモデル（ＨＭＭ）が良く用いられ、音素の三組からなるトライフォンで表現されるものである。例えば「会社（/ｋ/ａ/ｉ/ｓｈ/ａ/）」をトライフォンで表現すると「/＊-ｋ＋ａ/ｋ−ａ＋ｉ/ａ−ｉ＋ｓｈ/ｉ―ｓｈ＋ａ/ａ−ｓｈ＋＊/」の５個の音素によって、音響モデルが構成される。開発用音声データは、既存音声データベースとは異なる音声データの集合であり、既存音響モデル３０を評価するためのものである。開発用音声データは、既存音声データベースよりも少ないデータ量でも良い。

音声認識処理部１０は、開発用音声データに含まれる各音声について、言語モデル２０と既存音響モデル３０とを用いて音声認識処理を行い認識結果テキストと音素系列情報とを出力する。認識結果テキストを例えば「会社」とした場合、その音素系列情報は「/＊-ｋ＋ａ/ｋ−ａ＋ｉ/ａ−ｉ＋ｓｈ/ｉ―ｓｈ＋ａ/ａ−ｓｈ＋＊/」である。音声認識処理部１０と言語モデル２０と既存音響モデル３０とによる音声認識処理は、一般的な音声認識処理と同じである。

認識結果集計部４０は、音声認識処理部１０で音声認識した結果の音素系列情報と開発用音声データの正解テキストとから音素認識率を計算する（ステップＳ４０）。例えば、図３に示すように正解テキストを「会社」とした場合の認識結果が「外車」であったと仮定する。正解音素系列情報である音素列「/＊-ｋ＋ａ/ｋ−ａ＋ｉ/ａ−ｉ＋ｓｈ/ｉ―ｓｈ＋ａ/ａ−ｓｈ＋＊/」に対して、認識結果の音素列「/＊-ｇ＋ａ/ｋ−ａ＋ｉ/ａ−ｉ＋ｓｈ/ｉ―ｓｈ＋ａ/ａ−ｓｈ＋＊/」が対応する。

正解音素「/＊-ｋ＋ａ/」に対して認識音素「/＊-ｇ＋ａ/」が不一致（×）であり、音素「/＊-ｋ＋ａ/」の音素認識率は、音素データがこれだけだとすると０％として計算される。その他の音素の音素認識率は１００％として計算される。同様の処理を開発音声データに含まれる音素データの数だけ実施し、その結果を集計したものが各音素の音素認識率として計算される。

ここで、音素の表現を音素の三つ組からなる音素環境依存のトライフォンを用いて説明したが、周辺音素に依存しない音素環境独立のモノフォンを用いても良い。また、中心音素が合っていれば正解としても良い。

苦手音素抽出部５０は、音素認識率が閾値以下の音素を苦手音素として抽出して苦手音素リストを生成する（ステップＳ５０）。閾値は、０〜１の範囲の任意の値である。閾値が０に近いほど苦手音素と判定する認識精度が低くなる。また、１に近い値にすると苦手音素を抽出し難くなる。閾値は、全音素の音素認識率の平均値を用いても良い。又は、音声認識率の低い下位から所定の順位の音素を苦手音素として抽出して苦手音素リストを生成するようにしても良い。

苦手音素包含テキスト選択部６０は、苦手音素抽出部５０で生成した苦手音素リストをを参照して音響モデル学習用テキスト候補であるテキストとその音素系列情報とを大量に記憶した追加候補テキストコーパスから苦手音素を含むテキストを所定数以上選択して音響モデル学習用テキストとして出力する（ステップＳ６０）。ここで所定数は、予め苦手音素包含テキスト選択部６０に定数として与えておいても良い。又は、外部から与えても良い。その所定数は、例えば既存音響モデル３０の学習データのテキスト量の１０％程度のテキスト量となる値とする。

このステップＳ６０の処理は、苦手音素リストの全ての音素について終了するまで繰り返される。この繰り返し動作の制御は、制御部８０が行う。制御部８０は、音響モデル学習用テキスト作成装置１００の各部の時系列的な動作を制御する。

以上説明したようにこの発明の音響モデル学習用テキスト作成装置１００によれば、既存音響モデル３０を用いて開発用音声データを音声認識して音素認識率が低い音素をリストアップし、音素認識率の低い音素を含むテキストを追加候補テキストコーパス７０から音響モデル学習用テキストとして選択して出力する。したがって、「学習すべき音素」を含むテキストを抽出することが出来る。

図４に、この発明の音響モデル学習用テキスト作成装置２００の機能構成例を示す。その動作フローを図５に示す。音響モデル学習用テキスト作成装置２００は、音響モデル学習用テキスト作成装置１００の苦手音素抽出部５０に代えて音素抽出率算出部２１０を備える点と、苦手音素包含テキスト選択部６０に代えてテキスト選択部２３０を備える点と、音素包含マトリックス生成部２２０を備える点で異なる。音響モデル学習用テキスト作成装置１００と異なる点のみを説明する。

音素抽出率算出部２１０は、認識結果集計部４０で計算した音素毎の音素認識率を元に、どの音素を含むテキストをどれだけ選択するべきかを表す「音素テキスト抽出割合ｒａｔ＿ｐ」を計算して出力する。ｒａｔ＿ｐは例えば式（１）で計算する（ステップＳ２１０）。

ここでｃｏｒ＿ｐは音素ｐの音素認識率である。「ｐ」はある任意の音素を意味する。音素テキスト抽出割合ｒａｔ＿ｐは、音素認識率の値が低い音素ほど大きな値を示す。音素テキスト抽出割合ｒａｔ＿ｐを大きい順番にリスト化し、その音素テキスト抽出割合リストを降順にソートすることで、音素認識率の値が低い順番に音素とその音素テキスト抽出割合の値を得ることが出来る。音素テキスト抽出割合リストは、音素ｐとその音素ｐの音素認識率との組のリストである。

音素包含マトリックス生成部２２０は、追加候補テキストコーパス７０に蓄えられた各テキストにどのような音素が出現しているかをまとめた音素包含マトリックスを生成する（ステップＳ２２０）。なお、図５では、ステップＳ２２０を、音素抽出率算出過程（ステップＳ２１０）と並列で表記しているが、音素包含マトリックスはテキスト選択過程の前の段階で出来ていれば良い。音素包含マトリックスは予め生成済みであっても良い。

図６に音素包含マトリックスの例を示す。図６の１列目はテキスト、２列目以降は音素である。テキストと音素が交差する部分の数値は、当該音素の出現回数を表す。テキスト「会社」の音素列「/＊-ｋ＋ａ/ｋ−ａ＋ｉ/ａ−ｉ＋ｓｈ/ｉ―ｓｈ＋ａ/ａ−ｓｈ＋＊/」の各音素に対応する部分に１が設定され、「会社」に含まれない音素の部分には０が設定されている。音素包含マトリックスは、音素抽出率算出部２１０で算出した音素テキスト抽出割合ｒａｔ＿ｐを参照して、例えばその値の降順にテキストを配列したマトリックスにしても良い。

テキスト選択部２３０は、音素抽出率算出部２１０で算出した音素テキスト抽出割合ｒａｔ＿ｐの値に応じて音素ｐを選択し、音素包含マトリックスを参照して選択した音素ｐを含むテキストを選択する。

図７に、テキスト選択部２３０の動作フローを示してその動作を説明する。テキスト選択部２３０は、音素テキスト抽出割合リストを参照して音素ｐを選択する（ステップＳ２３１）。テキスト選択部２３０は、音素抽出率算出部２１０で計算した音素テキスト抽出割合ｒａｔ＿ｐの値が大きい順番に配列された音素テキスト抽出割合リストから、例えば降順に音素ｐを選択する。

次に、選択した音素ｐの出現回数の多いテキストを音素包含マトリックスを参照して、テキストを選択する（ステップＳ２３２）。選択したテキストは音響モデル学習用テキストとして外部に出力する（ステップＳ２３３）。そして、選択したテキストは音素包含マトリックスから削除する（ステップＳ２３４）と共に、選択したテキスト数ｅｘｔ＿ｐをインクリメントする（ステップＳ２３５）。

以上の動作は、選択したテキスト数ｅｘｔ＿ｐがテキストの選択数ｎｕｍ＿ｐに等しくなるまで繰り返される（ステップＳ２３６のＮｏ）。テキストの選択数ｎｕｍ＿ｐは外部から与えても良いし、テキスト選択部２３０に予め定数として設定しておいても良い。

ステップＳ２３１〜Ｓ２３６までの処理は、音素テキスト抽出割合リストの所定の順位の音素ｐについて終了するまで繰り返される（ステップＳ２３７のＮｏ）。この所定の順位の情報についても、テキストの選択数ｎｕｍ＿ｐと同様に外部から与えても良いし、定数として予め設定しておいても良い。

以上説明したように音響モデル学習用テキスト作成装置２００によれば、音素認識率の悪い音素の順に、且つ、その音素を多く含むテキストを音響モデル学習用テキストとして採用することが出来る。その結果、既存音響モデルの学習効率を向上させることが出来る。

音素認識率だけでは無く音素頻度情報と組み合わせて音響モデル学習用テキストを選択するようにしても良い。音素認識率が低い音素には「学習データ量としては十分だが、認識精度が低い」という場合もある。つまり、そもそも認識が難しい音素が存在することも考えられる。

その場合は、いくらデータ量を増やしたとしてもそれに見合った性能改善を期待することができない。そこで、既存音声データベースを元に作成された既存音響モデルの音素頻度情報と、音素認識率とを併せて用いることで、より効率的に音響モデル学習用テキストを選択するようにした音響モデル学習用テキスト作成装置３００が考えられる。

図８に、音響モデル学習用テキスト作成装置３００の機能構成例を示す。音響モデル学習用テキスト作成装置３００は、音響モデル学習用テキスト作成装置１００の苦手音素抽出部５０が、苦手音素抽出部３５０に置き代わった点のみが異なる。

苦手音素抽出部３５０は、認識結果集計部４０で計算した音素認識率が閾値以下の音素を苦手音素として抽出する際に、音素頻度情報も参照して苦手音素リストを生成する。音素頻度情報は、既存音声データベースに含まれる各音素の出現回数と各音素の組からなる情報である。

苦手音素抽出部３５０は、音素認識率が低く出現回数の少ない音素を苦手音素として抽出するに当たって、音素頻度情報が頻度閾値よりも小さい音素を苦手音素リストとして出力する。音響モデル学習用テキスト作成装置３００によれば、学習データ量が足りていない音素を含むテキストを優先的に音響モデル学習用テキストとして選択することが出来る。

なお、音素頻度情報は外部から与えても良いし、音響モデル学習用テキスト作成装置３００の内部に音素頻度算出部３９０を備えて、既存音声データベースに含まれる各音素の出現回数と各音素の組からなる音素頻度情報を生成するようにしても良い。

音響モデル学習用テキスト作成装置２００についても、実施例３と同様に音素頻度情報を用いた実施例が考えられる。図９に、音素頻度情報も用いるようにした音響モデル学習用テキスト作成装置４００の機能構成例を示す。

音響モデル学習用テキスト作成装置４００は、音響モデル学習用テキスト作成装置２００の音素抽出率算出部２１０が、音素抽出率算出部４１０に置き代わった点のみが異なる。音素抽出率算出部４１０は、認識結果集計部４０で計算した音素毎の音素認識率を元に、どの音素を含むテキストをどれだけ選択するべきかを表す「音素テキスト抽出割合ｒａｔ＿ｐを、式（２）に基づいて計算して出力する。

ここでｏｃｃ＿ｐは音素ｐの出現頻度である。音素頻度情報は外部から与えても良いし、音響モデル学習用テキスト作成装置３００の内部に音素頻度算出部３９０を備え、既存音声データベースに含まれる各音素の出現回数と各音素の組からなる音素頻度情報を生成するようにしても良い。

音響モデル学習用テキスト作成装置４００によれば、音素認識率の悪い音素の順に、且つ、学習データ量が足りていない音素を含むテキストを音響モデル学習用テキストとして採用することが出来る。その結果、既存音響モデルの学習効率を向上させることが出来る。

以上説明したようにこの発明の音響モデル学習用テキスト作成装置によれば、既存音声データベースを用いて学習した既存音響モデルを用いて、評価用音声データを音声認識し、認識性能が低い苦手音素を含むテキストを追加候補テキストコーパス７０から選択して出力するので、「学習すべき音素」を含む音響モデル学習用テキストを正確に抽出することが出来る。よって、限られた量の音響モデル学習用テキストでも誤認識し易い音素を効率的に減らすことが出来る効果を奏する。

また、音素頻度情報も用いるこの発明の音響モデル学習用テキスト作成装置３００，４００によれば、学習量は少ないが認識性能は十分に高い音素を含まないテキストを選択することが出来る。また、学習量は多いが認識性能が低い音素を含むテキストを選択することも可能である。

なお、音素テキスト抽出割合ｒａｔ＿ｐを求める式は、式(１)と式(２)に限定されない。音素認識率の値が低いほど、音素テキスト抽出割合ｒａｔ＿ｐの値が高くなるものであればどのような関数であっても良い。また、音素テキスト抽出割合ｒａｔ＿ｐは尤度値に基づく値としても良い。それぞれの式の分母は省略しても良い。分母をつけることによりｒａｔ＿ｐの値を正規化することができるため、その値の範囲を限定することが可能である。

上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD（Digital Versatile Disc）、DVD-RAM（Random Access Memory）、CD-ROM（Compact Disc Read Only Memory）、CD-R（Recordable）/RW（ReWritable）等を、光磁気記録媒体として、MO（Magneto Optical disc）等を、半導体メモリとしてEEP-ROM（Electronically Erasable and Programmable-Read Only Memory）等を用いることが出来る。

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

外部から入力される開発用音声データを、言語モデルと既存音響モデルを参照して音声認識し、認識結果テキストと音素系列情報とを出力する音声認識処理部と、
上記音素系列情報と上記開発用音声データの正解テキストとから音素認識率を計算する認識結果集計部と、
音素毎の上記音素認識率を元に、どの音素を含むテキストをどれだけ選択するべきかを表す音素テキスト抽出割合ｒａｔ＿ｐを計算して出力する音素抽出率算出部と、
音響モデル学習用テキスト候補であるテキストを大量に記憶した追加候補テキストコーパスと、
上記追加候補テキストコーパスに蓄えられた各テキストにどのような音素が出現しているかをまとめた音素包含マトリックスを生成する音素包含マトリックス生成部と、
上記音素テキスト抽出割合ｒａｔ＿ｐの値にしたがって音素を選択し、音素包含マトリックスを参照して選択した音素を含むテキストを選択するテキスト選択部と、
を具備する音響モデル学習用テキスト作成装置。
請求項１に記載した音響モデル学習用テキスト作成装置において、
上記音素抽出率算出部は、
外部から入力される各音素と当該音素の出現回数情報とからなる音素頻度情報と、上記音素認識率とを入力として、どの音素を含むテキストをどれだけ選択するかを表す音素テキスト抽出割合ｒａｔ＿ｐを計算して出力するものであることを特徴とする音響モデル学習用テキスト作成装置。
請求項１又は２に記載した音響モデル学習用テキスト作成装置において、
上記音素テキスト抽出割合ｒａｔ＿ｐは、上記音素認識率の値が低いほど高くなるよう計算されることを特徴とする音響モデル学習用テキスト作成装置。
外部から入力される開発用音声データを、言語モデルと既存音響モデルを参照して音声認識し、認識結果テキストと音素系列情報とを出力する音声認識処理過程と、
上記音素系列情報と上記開発用音声データの正解テキストとから音素認識率を計算する認識結果集計過程と、
音素毎の上記音素認識率を元に、どの音素を含むテキストをどれだけ選択するかを表す音素テキスト抽出割合ｒａｔ＿ｐを計算して出力する音素抽出率算出過程と、
音響モデル学習用テキスト候補であるテキストを大量に記憶した追加候補テキストコーパスに蓄えられた各テキストにどのような音素が出現しているかをまとめた音素包含マトリックスを生成する音素包含マトリックス生成過程と、
上記音素テキスト抽出割合ｒａｔ＿ｐの値にしたがって音素を選択し、音素包含マトリックスを参照して選択した音素を含むテキストを選択するテキスト選択過程と、
を備える音響モデル学習用テキスト作成方法。
請求項１乃至３の何れかに記載した音響モデル学習用テキスト作成装置としてコンピュータを機能させるためのプログラム。