JP5088701B2

JP5088701B2 - 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム

Info

Publication number: JP5088701B2
Application number: JP2008520518A
Authority: JP
Inventors: 正江森; 祥史大西
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2006-05-31
Filing date: 2007-05-30
Publication date: 2012-12-05
Anticipated expiration: 2027-05-30
Also published as: US20100063819A1; EP2026327A4; US8831943B2; WO2007142102A1; JPWO2007142102A1; EP2026327A1

Description

本発明は音声認識における言語モデル学習システム、言語モデル学習方法および言語モデル学習用プログラムに関し、識別的な基準を用いて言語モデルの学習を行うため、従来の方法よりも高精度な言語モデルを構築でき、これを音声認識システムに用いることで高精度な音声認識システムを構築できることができる、言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラムに関する。

従来の技術を用いた言語モデルの学習方法を述べる。

従来の言語モデルの学習方法においては、たとえば、非特許文献１の５７ページから６２ページに記載されているように、言語モデルをＮグラムモデル（N-gram model）で表している。Ｎグラムモデル（N-gram model）は、Ｎ個の単語からなる単語列の出現確率を、履歴となる（Ｎ−１）個の単語の単語列の次にＮ個目の単語が出現する確率で近似したものである。ここで、単語列が、単数および複数の単語または単語以下の文字列で構成されているとすると、Ｎグラムモデル（N-gram model）は、大容量のテキストデータである学習コーパス（corpus）があれば、最尤推定によって算出できる。

このような従来技術で構成される言語モデル学習手段システムの構成を図６に示す。図６によると従来の言語モデル学習システムは、テキストデータ記憶手段１０７と単語列数カウント手段１０５と言語モデルパラメータ更新手段３０１と言語モデル記憶手段１１０で構成されている。

単語列数カウント手段１０５は、テキストデータ記憶手段１０７に記憶された学習コーパス（corpus）であるテキストデータからＮ個の単語からなる単語列を全て抽出し、その単語列の種類ごとに出現回数を計算する。例えば、「of」と「the」との２単語が連鎖した単語列「of the」に対しテキストデータから「of the」が何回出現したのかを計算する。

言語モデルパラメータ更新手段３０１は、対象となる単語列の出現回数を全単語列数で割りその単語列の出現確率を計算する。すなわち、単語列「of the」の出現確率は、単語列「of the」の出現回数を２単語連鎖の総数で割ったものに相当する。音声認識の場合、デコードのプロセスで条件付確率を用いる。例えば、「of」の後に「the」の出現する確率をＰ（the｜of）とし、単語列「of the」が出現する同時確率であるＰ（of，the）とすると、ベイズの定理を用いてＰ（the｜of）＝Ｐ（of，the）／Ｐ（of）と計算することが出来る。ここで、Ｐ（of）は、単語「of」が出現する確率を表している。

「言語と計算４：確率的言語モデル」、東京大学出版会、１９９９年、北研二

従来の言語モデル学習システムの第１の問題点は、従来の言語モデル学習方法である最尤推定が、音声認識の評価尺度として使われている単語誤り率等が考慮されていないため、この従来の方法で学習を行った言語モデルに基づいて音声認識を実行しても信頼性の高い認識結果が得られない可能性があるという点である。

第２の問題点は、従来の言語モデルの学習方法である最尤学習法が、言語モデルの学習時に音響モデルの影響を考慮していないため、音響モデルと言語モデルとを双方の影響を鑑みながら同時又は逐次的に最適化することができない点である。

本発明の目的は、音声認識の評価尺度として用いられる単語誤り率などに関係がある識別的な基準で言語モデルを学習させることにある。また、本発明の他の目的は、音響モデル及び言語モデルの学習を統一された識別的な基準で実行し、言語モデルの学習時に音響モデルの認識性能を考慮し音響モデルの学習時に言語モデルの性能を考慮して音響モデル及び言語モデルの学習を行うことにより、高精度な音声認識を実現するための音響モデル及び言語モデルを構築することにある。

本発明の言語モデル学習システムは、音声認識用の言語モデルを記憶する言語モデル記憶手段と、予め記憶された学習用音声データを言語モデル記憶手段に記憶された言語モデルを用いて音声認識し認識結果を出力する認識手段と、認識結果に基づいて算出された単語間の出現順序に関する前向き確率と後ろ向き確率とから求められる各単語列の事後確率をその単語列の信頼度として計算する信頼度計算手段と、言語モデル記憶手段に記憶された言語モデルの更新後のパラメータが信頼度を最大にするようにパラメータを更新する前記言語モデルパラメータ更新手段とを備えたことを特徴とする。

このような言語モデル学習システムによれば、言語パラメータ更新手段が、音声認識の評価に用いられる基準に関係のある識別的な基準にしたがって言語モデルのパラメータを更新することで、言語モデルの学習を実行するので、信頼性の高い言語モデルを構築することができ、高精度な音声認識を実現することができる。

上記言語モデル学習システムにおいて、信頼度計算手段により算出される各単語列の信頼度として、認識結果から算出される各単語列の事後確率、各単語列に対応する音声信号の信号対雑音比、各単語列の継続時間と期待継続時間の比とを組み合わせた値を用いるようにしても同様に信頼性の高い言語モデルを構築することができる。

上記言語モデル学習システムにおいて、学習用音声データに対応する学習用テキストデータ内の全単語列数と各単語列の出現回数とを計算する単語列数カウント手段を備え、言語モデルパラメータ更新手段は、この単語列数カウント手段により算出された全単語列数と各単語列の出現回数とから各単語の出現頻度を計算し、その各単語列の出現頻度と信頼度計算手段により算出された各単語列の信頼度とに基づいて言語モデル記憶手段に記憶された言語モデルを更新してもよい。

また、言語モデルパラメータ更新手段は、信頼度計算手段により算出された信頼度が最大値でない場合に、これに対応する単語列の出現頻度を大きい値に補正して、その補正された出現頻度に基づいて言語モデル記憶手段に記憶された言語モデルのパラメータを更新してもよい。さらに、学習用テキストデータ内の単語列ω_ｊの出現回数をＮ_ｊ、学習用テキストデータに含まれるω_ｊと同じ単語数の単語列の総数をＲ、認識結果において観測時系列Ｏ_ｒが観測された場合の単語列ω_ｊの信頼度をｐ（ω_ｊ｜Ｏ_ｒ）とし、定数をＤ、更新前の言語モデルの値をｐ_ｊとすると、［数１］式にしたがって単語列ω_ｊに対応する言語モデルのパラメータＰ_ｊを算出し当該パラメータを算出値に更新してもよい。

上記言語モデル学習システムにおいて、学習用音声データと初期音響モデルと言語モデルを用いて音響モデルを更新する音響モデル学習手段をさらに備えるようにしても良い。このようにすれば、音響モデル学習手段と言語モデルパラメータ更新手段は、それぞれ音響モデルと言語モデルを統一された識別的な基準で学習する。そのため、音響モデルと言語モデルの両方を同時に最適化することができる。また、音響モデル学習手段は、相互情報量基準を用いて前記音響モデルの学習を行うようにしても良い。

本発明の言語モデル学習方法は、予め記憶された言語モデルを用いて学習用音声データを音声認識し認識結果を出力する認識工程と、この認識結果に基づいて算出された単語間の出現順序に関する前向き確率と後ろ向き確率とから求められる各単語列の事後確率をその単語列の信頼度として計算する信頼度計算工程と、この各単語列の信頼度に基づいて言語モデルの更新後のパラメータが信頼度を最大にするようにパラメータを更新する言語モデルパラメータ更新工程とを含むことを特徴とする。

上記言語モデル学習方法によれば、音声認識の評価に用いられる基準に関係のある識別的な基準にしたがって言語モデルのパラメータの更新を行うことで、上述した言語モデル学習システムと同様に、信頼性の高い言語モデルを構築することができ、高精度な音声認識を実現することができる。

本発明の言語モデル学習プログラムは、予め記憶された言語モデルを用いて学習用音声データを音声認識し認識結果を出力する認識処理と、この認識結果に基づいて算出された単語間の出現順序に関する前向き確率と後ろ向き確率とから求められる各単語列の事後確率をその単語列の信頼度として計算する信頼度計算処理と、この信頼度計算処理で算出された各単語列の信頼度に基づいて、言語モデルの更新後のパラメータが信頼度を最大にするようにパラメータを更新する言語モデルパラメータ更新処理とをコンピュータに実行させることを特徴とする。

上記言語モデル学習プログラムによれば、音声認識の評価に用いられる基準に関係のある識別的な基準にしたがって言語モデルパラメータ更新処理をコンピュータに実行させることで、上述した言語モデル学習システムと同様に、信頼性の高い言語モデルを構築することができ、高精度な音声認識を実現することができる。

本発明によれば、音声認識の認識結果における各単語列の信頼度、すなわち音声認識の評価に用いられる基準に関係のある識別的な基準に従って言語モデルのパラメータを更新し、言語モデルの学習を実行するので、高精度な音声認識を実現できる信頼性の高い言語モデルを構築することができる。

以下、図を参照しながら本発明の一実施例である言語モデル学習システム１０の構成と動作について説明する。

図１は、言語モデル学習システム１０の構成を示す機能ブロック図である。言語モデル学習システム１０は、言語モデル学習手段１００とテキストデータ記憶手段１０７と音響モデル記憶手段１０９と言語モデル記憶手段１１０と学習終了判断手段１０６とを含んでいる。

言語モデル学習手段１００は、認識手段１０１と認識結果記憶手段１０２と信頼度計算手段１０３と音響モデル記憶手段１０９と言語モデルパラメータ更新手段１０４と単語列数カウント手段１０５とを含んでいる。

テキストデータ記憶手段１０７は、言語モデルの学習のための学習用テキストデータを記憶しており、音声データ記憶部１０８は、言語モデルの学習のための学習用音声データを記憶している。このテキストデータ記憶手段１０７に記憶されたテキストデータは、音声データ記憶部１０８に記憶された音声データを書き起こしたものか、あるいは逆に、音声データがテキストデータを音読したものである。

音声データ記憶部１０８に記憶された学習用音声データは、例えば、アナログの音声信号をサンプリング周波数を４４．１ｋＨｚ、１サンプルあたり１６ビットにＡ／Ｄ変換したデータである。

音響モデル記憶手段１０９は、音響モデルを記憶している。この音響モデルは、音声の音響的特長を音素ごとに表現した確率モデルであり、例えば、ケンブリッジ大学で発行されている隠れマルコフモデル（ＨＭＭ：Hidden Markov Model）のツールキットのマニュアルである「HTKBook for HTK Version.3.3 ヤング等著（以下、「参考文献２」と称する）」の３５ページから４０ページに記載されているＨＭＭである。

言語モデル記憶部１１０は、言語モデルを記憶している。この言語モデルは、単語が出現する順番を考慮した同時出現確率である。すなわち、単語と単語との言語的なつながり易さを数値化したものである。例えば、Ｎ個の単語からなる単語列の言語モデルは、Ｐ（ｗ［１］，ｗ［２］，・・・，ｗ［Ｎ］）で表される。これは、単語ｗ［１］の次に単語ｗ［２］と続き単語ｗ［Ｎ］まで連なる単語列の出現確率を示す。これをベイズのルールで展開すると、Ｐ（ｗ［１］，ｗ［２］，・・・，ｗ［Ｎ］）＝Ｐ（ｗ［１］）Ｐ（ｗ［２］｜ｗ［１］）・・Ｐ（ｗ［Ｎ］｜ｗ［１］，ｗ［２］・・ｗ［Ｎ−１］）となる。ただし、Ｎが大きくなるとＰ（ｗ［Ｎ］｜ｗ［１］，ｗ［２］・・ｗ［Ｎ−１］）の履歴となる単語列ｗ［１］，ｗ［２］・・ｗ［Ｎ−１］の組み合わせが莫大になり学習できないため、通常の実装では履歴単語の数は３〜４とされる。このようなモデルが、Ｎグラムモデル（N-gram model）である。本実施例では、言語モデルにＮグラムモデル（N-gram model）を用いている。

認識手段１０１は、音響モデル記憶手段１０９に記憶された音響モデルと言語モデル記憶手段１１０に記憶された言語モデルとを用いて、音声データ記憶手段１０８に記憶されている学習用音声データを音声認識し認識結果を出力する。

認識手段１０１で実行される音声認識処理は、大きく分けると音響分析と探索に分けられ、音響分析は、音声データの特徴量を計算する処理であり、参考文献１の５５ページから６６ページに記載されているように、音声データに対しプリエンファシス、窓関数、ＦＦＴ（Fast Fourier Transform）、フィルターバンク、対数化、コサイン変換の順に計算を行うことでメルケプストラムやパワー、それらの時間変化量を計算する。探索は、音声データの特徴量と音響モデルとを用いて単語の音響尤度を計算し、音響尤度の高い単語を認識結果として出力する。また、探索において音響尤度のほかに言語モデルも考慮したスコア付けを行う場合も考えられる。

認識結果の出力形態は、図３に表されるような単語グラフ形式である。図３（ａ）における単語グラフは、参考文献１の３３３ページから３３７ページに記載されているＳＬＦ（HTK Standard Lattice Format）と同様に、円で表されたノード（Ｉ１〜Ｉ５）と棒線で表されたアークとから成り立つ。単語はアークに付随しており、図３（ａ）においてａ〜ｇで示している。実際に認識手段１０１から出力される単語グラフは、図３（ｂ）のようなテキストで出力され、ノードの時刻と、それぞれのアークの始終端ノードと単語、音響尤度とが出力される。

認識結果記憶手段１０２は、認識手段１０１から出力された認識結果である単語グラフを記憶する。信頼度計算手段１０３は、音声の観測時系列Ｏ_ｒに対し単語列ω_ｊが認識できたかどうかを表す値である信頼度を認識結果を基に計算する。信頼度は、音響モデルと言語モデルとがともに高精度に構築できた場合、正解単語列に対して１に近づき、不正解単語に対して０に近づく。

単語列カウント手段１０５は、テキストデータ記憶手段１０７に記憶されているテキストデータから単語列を抽出し、単語列の種類ごとにその出現回数を計算する。例えば、「of」と「the」とが連鎖した単語列「of the」が、学習用テキストデータ内に何回出現したのかを計算する。

言語モデルパラメータ更新手段１０４は、［数１］式を用いて言語モデルのパラメータを更新する。

［数１］式において、Ｎ_ｊは学習用テキストデータ内に単語列ω_ｊが出現した数を示し、Ｒは学習用テキストデータに含まれるω_ｊと同じ単語数の単語列の総数を示し、Ｄは定数であり、ｐ_ｊは更新前の言語モデルの値であり、ｐ（ω_ｊ｜Ｏ_ｒ）は認識結果において観測時系列Ｏ_ｒが観測された場合の単語列ω_ｊの信頼度を示している。

［数１］式のｐ（ω_ｊ｜Ｏ_ｒ）には言語モデルパラメータの更新における寄与度を表すパラメータを指定することができ、その場合は、ｐ（ω_ｊ｜Ｏ_ｒ）の前にパラメータをかけるか、べき乗のパラメータとすることができる。また、［数１］式の定数Ｄは、推定値の収束具合によって実験的に値を決めることができる。

ここで、この信頼度を統計的な観点で計算したものが単語事後確率である。単語事後確率は、「Frank Wessel,Ralf Schluter,Kalus Macherey,ans Herman Ney,’’Confidence Measures for Large Vocabulary Continuos Speech Recognition,’’IEEE Trans. on Speech and Audio Processing. Vol 9, No.3,March 2001（以下、「参考文献２」と称する）」に記載されている方法を用いて計算することができる。

ここで、参考文献２に従い、図３に示す認識結果に基づく単語ｃの事後確率の計算方法を説明する。認識結果に基づく単語ｃの事後確率を計算するためには、単語ｃの前向き確率αと後ろ向き確率βとを求める必要があり、言語モデルを３単語連鎖確率（tri-gram model）とした場合、前向き確率αは[数２]式で表される。

ここで、ｏ_ｃは単語ｃの特徴量であり、全区間の特徴量を表す場合はＯとする。Ｐ_Ａ（ｏ_ｃ｜ｃ）は単語ｃの音響尤度、Ｐ_Ｌ（ｃ｜ａｚ）は単語ｚ→ａ→ｃの順で構成される単語列の出現確率を表している。[数２]式に示すように、単語ｃの前向き確率αは、単語ａの始端につながる全ての単語の前向き確率と言語確率との積を全て足し合わせたものになっている。単語ｃ以外の単語の前向き確率を算出する場合、算出対象の単語より前の時刻に出現した単語の前向き確率を求めておくことで、対象の前向き確率を算出することができる。

後ろ向き確率βは［数３］式で表される。

[数３]式に示すように、単語ｃの後ろ向き確率βは、[数２]式で示す前向き確率αに比べて、ｃとｅとｚ’等の関係が前後逆になっている。

認識結果における単語ｃの事後確率Ｐ（ｃ｜ｏ_ｃ）は、［数２］及び［数３］を用いて［数４］で表される。

ここで、Σのｚは、単語ａの始端に接続された全単語の総和、ｚ’は単語ｅの終端に接続された全単語の総和を表す。Ｐ_Ａ（Ｏ）は、全ての観測時系列Ｏの音響尤度であり［数５］式で表わされる。

ここで、事後確率の計算方法の定義を見てみると、事後確率は単語ごとに求められることがわかる。認識結果における単語ｃの事後確率Ｐ（ｃ｜ｏ_ｃ）は、単語ｃが同じ区間の単語ｄまたはｈ等（図３参照）と比べて観測時系列Ｏ_ｃとどの程度マッチしたかを示す値で、０〜１の値に正規化されている。単語ｃの事後確率は、単語ｃが２つの単語で構成されていても計算可能である。

［数２］、［数３］、［数４］においては、音響モデル及び言語モデルの寄与度を表すパラメータを設定することが可能で、そのときは、Ｐ_Ａ（ｏ_ｃ｜ｃ）^ｙやＰ_Ｌ（ｃ｜αｚ）^ｘのようにべき乗のパラメータを設定する。

ｐ（ω_ｊ｜Ｏ_ｒ）を認識結果に基づく単語列ω_ｊの事後確率とした場合、［数１］は学習後の音声認識に対して単語列の事後確率を最大にするパラメータを推定する基準から得られたものであり、この基準は音響モデルの識別的な推定方法にも使われている。音響モデルの学習については第２実施例にて説明する。

［数１］式を用いて言語モデルのパラメータを更新する場合、ｐ（ω_ｊ｜Ｏ_ｒ）は、観測時系列Ｏ_ｒに対する単語列ω_ｊの信頼度であり、［数１］式は、学習用テキストデータにおける単語列ω_ｊの出現頻度から認識結果における信頼度の総和を引く定式になっている。これは、総合的に信頼度が高い単語列の場合、出現頻度から引かれる数が大きくなるため、更新後の言語モデルのパラメータは小さくなる。また、信頼度が低い単語列の場合、出現頻度から引かれる数が小さくなるため、言語モデルのパラメータは大きくなる。ここで、「信頼度が高い」とは信頼度が１の場合であり、「信頼度が低い」とは信頼度が１以外の場合である。

信頼度に事後確率を用いる場合、言語モデルのパラメータ更新は、認識手段１０１の認識性能に依存することになる。

また、本実施例においては、信頼度に事後確率を用いて言語モデルのパラメータを更新したが、前記の性質を満たす尺度であれば、信頼度にどのようなものを用いてもよく、例えば、単語列ごとの音声信号の信号雑音比（ＳＮＲ：signal-to-noise ratio）や、単語列の継続時間と期待継続時間との比などを信頼度としてもよい。

また、対象単語列の音声信号の信号対雑音比、対象単語列の継続時間と期待継続時間との比、認識結果に基づく対象単語列の事後確率とを組み合わせて信頼度として用いても良い。例えば、［数１］式の右辺の分母と分子のｐ（ω_ｊ｜Ｏ_ｒ）をそれぞれ次の［数６］式により算出されるｐ’（ω_ｊ｜Ｏ_ｒ）に置き換えてもよい。

学習終了判断手段１０６は、言語モデルの更新後、全音声データの事後確率を計算し、その和ＳＵＭ［ｔ］をとる。その後、ＳＵＭ［ｔ］から言語モデルを更新する前の単語事後確率の総和ＳＵＭ［ｔ−１］を差し引いた値をＳＵＭ［ｔ］で割ったものを学習進捗係数Ｔ_ｐとする。学習進捗係数Ｔ_ｐが、予め定められた閾値を超えている場合は、言語モデルの学習をやり直し、閾値を下回る場合は言語モデルの学習を終了する。

図２は、言語モデル学習システム１０の動作を示すフローチャートである。

Ｓｔｅｐ１にて、認識手段１０１が音響モデル記憶手段１０９に記憶された音響モデルと言語モデル記憶手段１１０に記憶された言語モデルとを用いて、音声データ記憶手段１０８に記憶されている学習用音声データを音声認識し認識結果を認識結果記憶手段１０２へ出力する。ここで用いられる音響モデルや言語モデルは前述の形式であれば、そのパラメータ値がどのような学習方法で学習されたものでもよい、さらに全くの乱数でも良い。また、出力される認識結果は、単語グラフとする。

Ｓｔｅｐ２にて、信頼度計算手段１０３が、認識結果記憶手段１０２に記憶された認識結果と言語モデル記憶手段１１０に記憶された言語モデルとを用いて各単語列の事後確率を計算する。この計算する動作は、認識手段１０１による認識結果全てに対して行われる。

Ｓｔｅｐ３にて、単語列数カウント手段１０５が、テキストデータ記憶手段に記憶された学習用テキストデータから対象となる単語列の数をカウントする。

Ｓｔｅｐ４にて、言語モデルパラメータ更新手段１０４が、信頼度計算手段１０３により算出された単語列の事後確率と、単語列数カウント手段１０５によりカウントされた数値とを［数１］式に代入して言語モデルの確率値を算出し更新する。ここで更新された言語モデルは、それを用いて音声認識を行うことが可能なものである。

Ｓｔｅｐ５にて、学習終了判断手段１０６が、言語モデルパラメータ更新手段１０４により更新された言語モデルのパラメータを用いて学習データ全てに対する単語事後確率を計算し、それを元に学習進捗係数Ｔ_ｐが閾値を下回っている場合は、言語モデル学習システム１０の動作を終了し、学習進捗係数Ｔ_ｐが閾値を上回っている場合はＳｔｅｐ１に戻る。

このような言語モデル学習システム１０によれば、言語モデルパラメータ更新手段１０４が、認識結果における単語列の信頼度、すなわち音声認識の評価に用いられる基準に関係のある識別的な基準により言語モデルのパラメータの更新を行うことにより、言語モデルの学習を実行する。そのため、高精度な音声認識を実現するための言語モデルを構築することができる。

次に、本発明の第２の実施例である言語モデル学習システム２０について図面を参照して詳細に説明する。ここで、言語モデル学習システム２０は、多くの構成が図１の言語モデル学習システム１０と共通するので、共通する構成要素には図１と同一の符号を付して説明を省略する。

図４は、言語モデル学習システム２０の構成を示す機能ブロック図である。言語モデル学習システム２０は、図１に開示した言語モデル学習システム１０の構成に加えて、音響モデル学習手段２００を含んでいる。音響モデル学習手段２００は、音声データ記憶手段１０８に記憶された学習用音声データと、音響モデル記憶手段１０９に記憶された音響モデルと、言語モデル記憶手段１１０に記憶された言語モデルとを用いてこの音響モデルの学習を行う。

音響モデル学習手段２００が実行する音響モデルの学習方法としては、例えば、スピーチコミュニケーションの１９９７年のボリューム２２の３０３ページから３１４ページに記載されている「大語彙認識のＭＭＩＥ学習 V. Veltchev, J.J. Odell, P.C. Woodland, S.J. Yang, “MMIE training of large vocabulary recognition systems,”Speech Communication vol.22, 303-314, 1997（以下、これを「参考文献３」と称する）」に記載されているような、相互情報量基準による推定を用いる。相互情報量基準による音響モデルの学習について、参考文献３の３０８ページから３０９ページを基に説明する。

音響モデル学習手段２００は、まず、音響モデルと言語モデルとを用いて音声データ記憶手段１０８に記憶された学習用音声データを音声認識する。この認識結果は、単語グラフで出力され、認識結果に基づく各単語列の事後確率を計算する。単語内の音素や状態のセグメンテーションを計算する必要があるが、その計算をビタービアルゴリズムで計算する。音素セグメンテーションの計算後、状態ごとの十分統計量を計算する。十分統計量の計算時には音素や状態ごとの事後確率を計算する必要があるが、参考文献３では単語の事後確率を用いている。十分統計量の計算は、認識結果に対してだけでなく、正解の文字列に対しても同様に実行される。認識結果と認識結果に対する十分統計量を用いて、参考文献３の３０５ページに記載されている式（４）と式（５）と３０６ページに記載されている式（８）に適用して音響モデルのパラメータを更新する。

図５は、言語モデル学習システム２０の動作を示すフローチャートである。

Ｓｔｅｐ１０１では、音響モデル学習手段２００が、音響モデル記憶手段１０９に記憶された音響モデルと言語モデル記憶手段１１０に記憶された言語モデルと音声データ記憶手段１０８に記憶されている音声データとを用いて音響モデルの学習を実行する。音響モデルの学習は前述の相互情報量を用いた学習のほかに参考文献２の６ページから８ページに記載されているＢａｕｍ＝Ｗｅｌｃｈアルゴリズムによる最尤基準による方法も考えられる。音響モデルの学習後、音響モデル記憶手段１０９に記憶された音響モデルを更新し、Ｓｔｅｐ１０２の処理へ移る。

Ｓｔｅｐ１０２では、Ｓｔｅｐ１０１で更新された音響モデルと言語モデル記憶手段１１０に記憶された言語モデルと、音声データ記憶手段１０８に記憶された学習用音声データと、テキストデータ記憶手段１０７に記憶された学習用テキストデータとを用いて、実施例１と同様に、言語モデルのパラメータの更新を行う。

Ｓｔｅｐ１０３では、学習終了判断手段１０６が、実施例１と同様に、言語モデルパラメータ更新後の認識結果に基づく各単語列の事後確率の総和ＳＵＭ［ｔ］から更新前の総和ＳＵＭ［ｔ−１］を差し引いた値を、ＳＵＭ［ｔ］で割ったものを学習進捗係数Ｔｐとし、学習進捗係数Ｔｐが予め定められた閾値を超えている場合はＳｔｅｐ１０１から学習をやり直し、閾値を下回る場合は言語モデルの学習を終了する。

ここで、第１の実施例のＳＵＭ［ｔ］と第２の実施例のＳＵＭ［ｔ］との違いは、第１の実施例では音響モデルを更新していないが、第２の実施例では音響モデルを更新している点である。また、参考文献３の３０５ページに記載されている式（４）と式（５）と３０６ページに記載されている式（８）は、導出元になる式が上述した［数１］式と同じである。

このように本第２実施例の言語モデル学習システム２０は、音響モデル学習手段２００を含み、音響モデルと言語モデルとを統一された識別的な基準で学習する。そのため、音響モデルと言語モデルの両方を同時に最適化することができ、高精度な音声認識を実現するための音響モデル及び言語モデルを構築することができる。

本発明の第１の実施例である言語モデル学習システムの構成を示すブロック図である。図１に開示した言語モデル学習システムの動作を示す流れ図である。図１に開示した認識手段から出力される認識結果である単語グラフの一例を説明するための図である。本発明の第２の実施例である言語モデル学習システムの構成を示すプロック図である。図４に開示した言語モデル学習システムの動作を示す流れ図である。従来の技術で構成される言語モデル学習システムを示すブロック図である。

符号の説明

１０、２０言語モデル学習システム
１００言語モデル学習手段
１０１認識手段
１０２認識結果記憶手段
１０３信頼度計算手段
１０４言語モデルパラメータ更新手段
１０５単語列数カウント手段
１０６学習終了判断手段
１０７テキストデータ記憶手段
１０８音声データ記憶手段
１０９音響モデル記憶手段
１１０言語モデル記憶手段
２００音響モデル学習手段

Claims

音声認識用の言語モデルを記憶する言語モデル記憶手段と、予め記憶された学習用音声データを前記言語モデル記憶手段に記憶された言語モデルを用いて音声認識し認識結果を出力する認識手段と、前記認識結果に基づいて算出された単語間の出現順序に関する前向き確率と後ろ向き確率とから求められる各単語列の事後確率をその単語列の信頼度として計算する信頼度計算手段と、前記信頼度計算手段により算出された各単語列の信頼度に基づいて、前記言語モデル記憶手段に記憶された言語モデルの更新後のパラメータが前記信頼度を最大にするように前記パラメータを更新する前記言語モデルパラメータ更新手段とを備えたことを特徴とする言語モデル学習システム。
前記信頼度計算手段は、前記認識結果に基づく各単語列の事後確率と、その単語列の音声信号の信号対雑音比と、その単語列の継続時間と期待継続時間との比とを組み合わせた値を、この単語列の信頼度として計算することを特徴とする請求項１に記載の言語モデル学習システム。
前記学習用音声データに対応する学習用テキストデータ内の全単語列数と各単語列の出現回数とを計算する単語列数カウント手段を備え、前記言語モデルパラメータ更新手段が、前記単語列数カウント手段により算出された全単語列数と各単語列の出現回数とから各単語の出現頻度を計算し、その各単語列の出現頻度と前記信頼度計算手段により算出された各単語列の信頼度とに基づいて前記言語モデル記憶手段に記憶された言語モデルのパラメータを更新することを特徴とする請求項１ないし請求項２のいずれかひとつに記載の言語モデル学習システム。
前記言語モデルパラメータ更新手段は、前記信頼度計算手段により算出された信頼度が最大値でない場合に、これに対応する単語列の前記出現頻度を大きい値に補正して、その補正された出現頻度に基づいて前記言語モデル記憶手段に記憶された言語モデルのパラメータを更新することを特徴とする請求項３に記載の言語モデル学習システム。
前記言語モデルパラメータ更新手段は、前記学習用テキストデータ内の単語列ω_ｊの出現回数をＮ_ｊ、前記学習用テキストデータに含まれるω_ｊと同じ単語数の単語列の総数をＲ、前記認識結果において観測時系列Ｏ_ｒが観測された場合の単語列ω_ｊの信頼度をｐ（ω_ｊ｜Ｏ_ｒ）とし、定数をＤ、更新前の言語モデルの値をｐ_ｊとすると、［数１］式にしたがって単語列ω_ｊに対応する言語モデルのパラメータＰ_ｊを算出し当該パラメータを算出した値に更新することを特徴とする請求項３または４に記載の言語モデル学習システム。
音声認識用の音響モデルを記憶する音響モデル記憶手段と、この音響モデルと前記学習用音声データと前記言語モデル記憶手段に記憶された言語モデルとに基づいて前記音響モデル記憶手段に記憶された音響モデルを更新する音響モデル学習手段とをさらに備えたことを特徴とする請求項１ないし請求項５のいずれかひとつに記載の言語モデル学習システム。
前記音響モデル学習手段が、相互情報量基準を用いて前記音響モデル記憶手段に記憶された音響モデルを更新することを特徴とする請求項６に記載の言語モデル学習システム。
予め記憶された言語モデルを用いて学習用音声データを音声認識し認識結果を出力する認識工程と、
前記認識結果に基づいて算出された単語間の出現順序に関する前向き確率と後ろ向き確率とから求められる各単語列の事後確率をその単語列の信頼度として計算する信頼度計算工程と、
前記信頼度計算工程で算出された各単語列の信頼度に基づいて、前記言語モデルの更新後のパラメータが前記信頼度を最大にするように前記パラメータを更新する言語モデルパラメータ更新工程とを含むことを特徴とする言語モデル学習方法。
前記信頼度計算工程では、前記認識結果に基づく各単語列の事後確率と、その単語列の音声信号の信号対雑音比と、その単語列の継続時間と期待継続時間との比とを組み合わせた値を、この単語列の信頼度として算出することを特徴とする請求項８に記載の言語モデル学習方法。
前記言語モデルのパラメータ更新工程では、前記学習用音声データに対応する学習用テキストデータ内の各単語列の出現頻度と前記信頼度計算工程で算出された各単語列の信頼度とに基づいて前記言語モデルのパラメータを更新することを特徴とする請求項８ないし請求項９のいずれかひとつに記載の言語モデル学習方法。
前記言語モデルパラメータ更新工程では、前記信頼度計算工程で算出された信頼度が最大値でない場合に、これに対応する単語列の前記出現頻度を大きい値に補正して、その補正された出現頻度に基づいて前記言語モデルのパラメータを更新することを特徴とする請求項１０に記載の言語モデル学習方法。
前記言語モデルパラメータ更新手段は、前記学習用テキストデータ内の単語列ω_ｊの出現回数をＮ_ｊ、前記学習用テキストデータに含まれるω_ｊと同じ単語数の単語列の総数をＲ、前記認識結果において観測時系列Ｏ_ｒが観測された場合の単語列ω_ｊの信頼度をｐ（ω_ｊ｜Ｏ_ｒ）とし、定数をＤ、更新前の言語モデルの値をｐ_ｊとすると、［数１］式にしたがって単語列ω_ｊに対応する言語モデルのパラメータＰ_ｊを算出し当該パラメータを更新することを特徴とする請求項１０または１１に記載の言語モデル学習方法。
予め記憶された音響モデルと前記言語モデルと前記学習用音声データとを用いて当該音響モデルを更新する音響モデル学習工程を含むことを特徴とする請求項８ないし請求項１２のいずれかひとつに記載の言語モデル学習方法。
前記音響モデル学習工程では、相互情報量基準を用いて前記音響モデルを更新することを特徴とする請求項１３に記載の言語モデル学習方法。
予め記憶された言語モデルを用いて学習用音声データを音声認識し認識結果を出力する認識処理と、
前記認識結果に基づいて算出された単語間の出現順序に関する前向き確率と後ろ向き確率とから求められる各単語列の事後確率をその単語列の信頼度として計算する信頼度計算処理と、
前記信頼度計算処理で算出された各単語列の信頼度に基づいて、前記言語モデルの更新後のパラメータが前記信頼度を最大にするように前記パラメータを更新する言語モデルパラメータ更新処理とをコンピュータに実行させることを特徴とする言語モデル学習プログラム。
前記信頼度計算処理を、前記認識結果に基づく各単語列の事後確率と、その単語列の音声信号の信号対雑音比と、その単語列の継続時間と期待継続時間との比とを組み合わせた値を、この単語列の信頼度として算出するという内容に特定したことを特徴とする請求項１５に記載の言語モデル学習プログラム。
前記言語モデルパラメータ更新処理を、前記学習用音声データに対応する学習用テキストデータ内の各単語列の出現頻度と前記信頼度計算工程で算出された各単語列の信頼度とに基づいて前記言語モデルのパラメータを更新するという内容に特定したことを特徴とする請求項１５乃至１６のいずれかひとつに記載の言語モデル学習プログラム。
前記言語モデルパラメータ更新処理を、前記信頼度計算処理で算出された信頼度が最大値でない場合に、これに対応する単語列の前記出現頻度を大きい値に補正して、その補正された出現頻度に基づいて前記言語モデルのパラメータを更新するという内容に特定したことを特徴とする請求項１７に記載の言語モデル学習プログラム。
前記言語モデルパラメータ更新処理を、前記学習用テキストデータ内の単語列ω_ｊの出現回数をＮ_ｊ、前記学習用テキストデータに含まれるω_ｊと同じ単語数の単語列の総数をＲ、前記認識結果において観測時系列Ｏ_ｒが観測された場合の単語列ω_ｊの信頼度をｐ（ω_ｊ｜Ｏ_ｒ）とし、定数をＤ、更新前の言語モデルの値をｐ_ｊとすると、［数１］式にしたがって単語列ω_ｊに対応する言語モデルのパラメータＰ_ｊを算出し当該パラメータを更新するという内容に特定したことを特徴とする請求項１７または１８に記載の言語モデル学習プログラム。
予め記憶された音響モデルと前記言語モデルと前記学習用音声データとを用いて当該音響モデルを更新する音響モデル学習処理を前記コンピュータに実行させることを請求項１５乃至１９のいずれかひとつに記載の言語モデル学習プログラム。
前記音響モデル学習処理を、相互情報量基準を用いて前記音響モデルを更新するという内容に特定したことを特徴とする請求項２０に記載の言語モデル学習プログラム。