JP5104732B2

JP5104732B2 - 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム

Info

Publication number: JP5104732B2
Application number: JP2008292132A
Authority: JP
Inventors: 祥史大西
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2008-11-14
Filing date: 2008-11-14
Publication date: 2012-12-19
Anticipated expiration: 2028-11-14
Also published as: JP2010117651A

Description

本発明は、拡張認識辞書学習装置と音声認識システムに関し、特に発声変形を含む音声に対し、認識辞書を拡張するための拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラムに関する。

本発明に関連する音声認識システムの一例が、非特許文献１に記載されている。この音声認識システムを図５のブロック図を参照して説明する。

図５に示すように、この関連技術の音声認識システムは、音声入力部５１０と、発声ラベル入力部５１１と、音響モデル記憶部５１２と、認識辞書記憶部５１３と、音声認識部５１４と、発声変形データ算出部５１５と、発声変形データ記憶部５１６と、発声変形データ分類部５１７と、認識辞書拡張部５１８と、拡張認識辞書記憶部５１９と、音声入力部５１２と、音声認識部５２２と、認識結果出力部５２３とを有する。

このような構成を有する関連技術の音声認識システムはつぎのように動作する。

まず、音声入力部５１０に学習音声が入力される。次に、音響モデル記憶部５１２が保持している音響モデルと、認識辞書記憶部５１３が保持している認識辞書と、を用いて音声認識部５１４が音声認識をする。

そして、発声変形データ算出部５１５が、上述の認識結果の音素列と、発声ラベル入力部５１１に入力された発声ラベル（学習音声に対する正解の音素列を並べた発声ラベル）と、を比較して正解音素列と認識結果音素列の対応を算出する。算出した結果は、発声変形データとして発声変形データ記憶部５１６が記憶する。

次に、発声変形データ分類部５１７で、記憶した発声変形データにおいて、学習音声に対し広く出現する発声変形と、学習音声に対し偏って出現する発声変形を分類し、それらの発声変形を組み合わせて発声変形集合とする。そして、認識辞書拡張部５１８が、この発声変形集合を用いて、認識辞書記憶部５１３が保持している認識辞書に含まれる単語の標準音素列を、発声変形の音素列で置き換え、複数の音素列を含んだ拡張認識辞書を、発声変形集合ごとに生成する。生成された拡張認識辞書は、拡張認識辞書記憶部５１９にて記憶される。

これにより、学習音声に広く出現する発声変形および偏って出現する発声変形を組み合わせた、発声変形集合ごとの拡張認識辞書を学習される。なお、発声変形音声認識装置の関連技術が特許文献１に記載されている。

そして、実際に音声認識を行う際は、新たな話者の音声に対して、システムが保持している音響モデルと、前述の学習した発声変形集合ごとの拡張認識辞書を用いて認識し、新たな話者の音声に適した認識結果をＲＯＶＥＲ法により選択することにより認識結果を出力する。ＲＯＶＥＲ法については非特許文献２にその詳細が記載されている。そしてこのように学習された拡張認識辞書を利用することにより話者性を考慮した音声認識を行うことができ、認識率の向上を図ることができる。
特開平０８−２１１８８７号公報「認識誤りの話者性を考慮した発声変形抽出と認識辞書拡張」、大西祥史、日本音響学会春季研究発表会講演論文集、２００７年３月、３-９-１、pp. ６５-６６. Jonathan G. Fiscus, "A Post-Processing System to Yield Reduced Word Error Rates: Recognizer Output Voting Error Reduction (ROVER)", Proc. IEEE ASRU Workshop pp.437-352, １９９７ Aizawa, A., "An information-theoretic perspective of tf-idf measures",Information Processing and Management, vol. ３９, pp. 45-65, ２００３.

もっとも、上述した関連技術には問題点があった。その問題点は、学習された複数の拡張認識辞書を利用する際に、演算量が大きくなることである。

その理由は、それぞれの拡張認識辞書を用いて複数の音声認識を実行し、認識結果を選択しているため、辞書の数だけ音声認識が必要となり演算量が大きくなるためである。

そこで、本発明は新たな話者に対して適した拡張認識辞書による認識結果を少ない演算量で得ることが可能な拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラムを提供することを目的とする。

本発明の第１の観点によれば、入力された学習用音声の音声認識結果から出力される音響モデル系列と、入力された正解音響モデル系列とを比較して、それらモデルの対応を発声変形データとして算出する発声変形データ算出手段と、算出された前記発声変形データにおいて、広く出現する発声変形、及び、偏って出現する発声変形を分類する発声変形データ分類手段と、分類された前記広く出現する発声変形及び前記偏って出現する発声変形を組み合わせて、複数の発声変形集合とし、それぞれの発声変形集合に含まれる発声変形により、前記発声変形集合ごとに認識辞書を拡張する認識辞書拡張手段と、特に、前記発声変形集合のそれぞれを判別するのに有効な発声変形要素、及び、当該発声変形要素と前記発声変形集合との確率加重情報量を、発声変形集合判別情報として抽出する発声変形集合判別情報抽出手段と、を有することを特徴とする拡張認識辞書学習装置が提供される。

本発明の第２の観点によれば、本発明の第１の観点により提供される拡張認識辞書学習装置を利用する、拡張認識辞書利用装置において、入力された音声認識対象音声の音声認識結果に対し、前記発声変形集合判別情報抽出手段により抽出された前記発声変形集合判別情報を適用して、発声変形仮説を生成し、生成した当該発声変形仮説と、前記音声認識結果との間の音響尤度比較を行い、発声変形仮説における音響尤度のほうが上回るものをもって、その話者に対し適した発声変形要素として抽出し、抽出された当該発声変形要素と、前記発声変形集合判別情報に含まれる確率加重情報量を用いて、その話者に対する各発声変形集合の重みを算出する、発声変形集合重み推定手段と、前記各発声変形集合に対応する前記拡張認識辞書を、前記算出された重みの重み付け和により統合することにより、適応認識辞書を生成する、認識辞書適応統合手段と、を備えることを特徴とする拡張認識辞書利用装置が提供される。

本発明の第３の観点によれば、入力された学習用音声の音声認識結果から出力される音響モデル系列と、入力された正解音響モデル系列とを比較して、それらモデルの対応を発声変形データとして算出する発声変形データ算出ステップと、算出された前記発声変形データにおいて、広く出現する発声変形、及び、偏って出現する発声変形を分類する発声変形データ分類ステップと、分類された前記広く出現する発声変形及び前記偏って出現する発声変形を組み合わせて、複数の発声変形集合とし、それぞれの発声変形集合に含まれる発声変形により、前記発声変形集合ごとに認識辞書を拡張する認識辞書拡張ステップと、特に、前記発声変形集合のそれぞれを判別するのに有効な発声変形要素、及び、当該発声変形要素と前記発声変形集合との確率加重情報量を、発声変形集合判別情報として抽出する発声変形集合判別情報抽出ステップと、を有することを特徴とする拡張認識辞書利用方法が提供される。

本発明の第４の観点によれば、入力された学習用音声の音声認識結果から出力される音響モデル系列と、入力された正解音響モデル系列とを比較して、それらモデルの対応を発声変形データとして算出する発声変形データ算出手段と、算出された前記発声変形データにおいて、広く出現する発声変形、及び、偏って出現する発声変形を分類する発声変形データ分類手段と、分類された前記広く出現する発声変形及び前記偏って出現する発声変形を組み合わせて、複数の発声変形集合とし、それぞれの発声変形集合に含まれる発声変形により、前記発声変形集合ごとに認識辞書を拡張する認識辞書拡張手段と、特に、前記発声変形集合のそれぞれを判別するのに有効な発声変形要素、及び、当該発声変形要素と前記発声変形集合との確率加重情報量を、発声変形集合判別情報として抽出する発声変形集合判別情報抽出手段と、を有する拡張認識辞書利用装置としてコンピュータを機能させるための拡張認識辞書利用プログラムが提供される。

本発明によれば、新たな話者に対して適した拡張認識辞書による認識結果を少ない演算量で得ることが可能となる。その理由は、学習しておいた拡張認識辞書の重み付けにより、新たな話者に適応された適応認識辞書を算出し用いることから、拡張認識辞書学習装置において学習した拡張認識辞書すべてについて音声認識を行う必要がなくなるためである。

次に、本発明の実施の形態について図面を参照して詳細に説明する。

図１は、本発明の実施形態の全体構成の一例を示すブロック図である。

本発明の実施形態は拡張認識辞書学習を行う拡張認識辞書学習装置１００及び拡張認識辞書の適応を行う音声認識装置１２０を有する。

拡張認識辞書学習装置１００は、ハードウェア、ソフトウェア又はこれらの組合せにより実現することができる。具体的には、拡張認識辞書学習装置１００は、パーソナルコンピュータ等である。

そして、拡張認識辞書学習装置１００は、音声入力部１１０と、発声ラベル入力部１１１と、音響モデル記憶部１１２と、認識辞書記憶部１１３と、音声認識部１１４と、発声変形データ算出部１１５と、発声変形データ記憶部１１６と、発声変形データ分類部１１７と、認識辞書拡張部１１８と、拡張認識辞書記憶部１１９と、発声変形集合判別情報抽出部１５１と、発声変形集合判別情報記憶部１５２を有する。

また、音声認識装置１２０も上述の拡張認識辞書学習装置１００と同様に、ハードウェア、ソフトウェア又はこれらの組合せにより実現することができる。具体的には、音声認識装置１２０は、パーソナルコンピュータ等である。

そして、音声認識装置１２０は、音声入力部１２１と、音響モデル記憶部１１２と、認識辞書記憶部１１３と、拡張認識辞書記憶部１１９と、音声認識部１２２と、発声変形集合判別情報記憶部１５２と、認識辞書適応部１５３と認識結果出力部１２３とを有する。

なお、図１では、音響モデル記憶部１１２、認識辞書記憶部１１３、拡張認識辞書記憶部１１９及び発声変形集合判別情報記憶部１５２を拡張認識辞書学習装置１００及び音声認識装置１２０が有するという構成を示しているが、これら各記憶部を外部の装置が有するようにしてもよい。この場合は、外部記憶装置と、拡張認識辞書学習装置１００及び音声認識装置１２０が相互にデータをやり取りすることにより本発明の実施形態として機能する。

音声入力部１１０は、学習音声の入力を受け付ける部分である。例えば、自身のコンピュータ、あるいは他のコンピュータからネットワークを通じて、音声データを受け取る。

発声ラベル入力部１１１は、学習音声に対応する発声ラベルの入力を受け付ける部分である。上述の音声入力部１１０と同様に、例えば、自身のコンピュータ、あるいは他のコンピュータからネットワークを通じて、発声ラベルデータを受け取る。ここで、発声ラベル入力部１１１が受け取る発声ラベルデータとは、学習音声に対する正解の音素列を並べた発声ラベルデータのことである。

音響モデル記憶部１１２は、例えばハードディスク装置やメモリなどである。音響モデル記憶部１１２には、音声認識に用いる音響モデルが記憶されている。

認識辞書記憶部１１３は、上述の音響モデル記憶部１１２と同様に、例えばハードディスク装置やメモリなどである。認識辞書記憶部１１３には、音声認識に用いる認識辞書が記憶されている。

音声認識部１１４は、入力された学習音声を、音響モデル記憶部１１２に記憶されている音響モデルと、認識辞書記憶部１１３に記憶されている認識辞書を用い、音声認識を行い、認識結果を出力する。

発声変形データ算出部１１５は、音声認識部１１４で出力された上述の認識結果と、入力された学習音声に対応する発声ラベルとを比較して、それらの対応を算出し、発声変形データ記憶部１１６に記憶する。

発声変形データ記憶部１１６は、上述の他の記憶部同様に、例えばハードディスク装置やメモリなどである。発声変形データ記憶部１１６は、前述の発声変形データ算出部１１５によって算出された、発声変形データを記憶する。

次に、発声変形データを、話者性に着目し、また近年の音声認識システムで一般的に用いられている音響モデルの単位である、三つ組み環境依存音素、すなわちトライフォンで算出する場合の例を説明する。

今回の例では、入力される学習音声としてＮ人の話者の発声を用いる。

最初に、拡張認識辞書学習装置１００の動作を図３のフローチャートを参照して説明する。

まず、音声入力部１１０に学習音声が入力される（ステップＳ２０１）。

次に、音響モデル記憶部１１２が保持している音響モデルと、認識辞書記憶部１１３が保持している認識辞書と、を用いて音声認識部１１４が音声認識をする。そして、音声認識部１１４で、入力される学習音声の各フレーム毎にトライフォンの系列を発声変形データ算出部１１５に対して出力する（ステップＳ２０３）。

発声ラベル入力部１１１が、受け付けた発声ラベルを発声変形データ算出部１１５に出力する。ここで、発声ラベルとは、前記学習発声に対応した正解トライフォン系列のことである（ステップＳ２０５）。

発声変形データ算出部１１５において、発声ラベル入力部１１１から受け付けた正解のトライフォン系列と、音声認識部１１４から受け付けた認識結果のトライフォン系列を、学習音声のフレームごとに並べて比較することにより、それぞれの対応をとる。そして、発声変形データ算出部１１５は、標準形と変形の各パターンについて出現フレーム数をカウントして、話者ごとに発声変形データとして、発声変形データ記憶部１１６に記憶する（ステップＳ２０７）。

発声変形データ分類部１１７は、前記発声変形データ記憶部１１６に記憶された、発声変形データから、学習音声に対し広く出現する発声変形と、学習音声に対し偏って出現する発声変形を分類する（ステップＳ２０９）。

認識辞書拡張部１１８は、認識辞書記憶部１１３に記憶されている認識辞書を、発声変形データ分類部１１７において分類した発声変形を組み合わせた発声変形集合ごとに、発声変形で置き換える。それにより、認識辞書拡張部１１８は、複数の音素列を含んだ拡張認識辞書を発声変形集合ごとに生成し、拡張認識辞書記憶部１１９に記憶する（ステップＳ２１１）。

発声変形の分類は話者ごとに発声変形のｉｄｆ値およびｔｆｉｄｆ値を算出し、ｉｄｆ値がある所定値より小さい発声変形要素を話者によらず広く出現する発声変形とし、ｔｆｉｄｆ値に基づき発声変形の話者クラスタリングを行い、各クラスタ中心ベクトルにおいてｉｄｆ値が或る所定値より大きな要素を、話者に偏って出現する発声変形とすることにより算出する。この一連の処理の詳細は、公知文献である非特許文献１に記載されており、いわゆる当業者に知られているものである。

認識辞書拡張部１１８は、認識辞書記憶部１１３に記憶された認識辞書に含まれる単語の標準音素列を、発声変形集合ごとに、発声変形の音素列で置き換えることにより、複数の音素列を含んだ拡張認識辞書を生成する（ステップＳ２１３）。ここで、発声変形集合とは、上述の発声変形データ分類部１１７で分類された、学習音声に対し広く出現する発声変形と偏って出現する発声変形を組み合わせた集合のことである。

発声変形データをトライフォンで算出した場合の詳細についても非特許文献１に記載されている。

発声変形集合判別情報抽出部１５１は、前記発声変形データ分類部１１７において算出された、発声変形集合らを判別するのに有効な発声変形要素および、その発声変形要素と発声変形集合との確率加重情報量を、発声変形集合判別情報として抽出する（ステップＳ２１５）。

発声変形集合判別情報抽出部１５１はステップＳ２１５において次のように動作する。

発声変形分類部１１７において得られた発声変形集合らＤに含まれる発声変形集合ｄ_ｊと、発声変形要素ｗ_ｉの確率値および条件付確率値を用いて算出される、下記の式（数１）で定義されるＸの値が大きいＲ個の発声変形要素ｖ_ｋを抽出する。

抽出されたｖ_ｋと、下記の式（数２）で定義される確率加重情報量δＩを発声変形判別情報として、発声変形集合判別情報記憶部１５２に記憶する。

ここで上記発声変形集合判別情報抽出の手順の意味合いについて説明する。

発声変形分類部１１７において得られた発声変形集合らＤと発声変形らＷとの相互情報量Ｉは下記の式（数３）で表現される。

このため、数１で表されるＸの値が大きい発声変形の要素は、発声変形集合との相互情報量に大きな寄与をするものとなる。即ち、Ｘの値が大きい発声変形の要素は発声変形集合らを判別するのに有効な発声変形要素であることがわかる。

確率加重情報量(ＰＷＩ：probability weighted amount of information)、および相互情報量の詳細は非特許文献３に詳細が記載されている。

最後に、発声変形集合判別情報抽出部１５１において抽出された発声変形集合判別情報を発声変形集合判別情報記憶部１５２に記憶する（ステップＳ２１７）。ここで、発声変形集合判別情報記憶部１５２はたとえばハードディスク装置やメモリなどである。

次に、音声認識装置１２２０が、拡張認識辞書を用いて音声認識を行う動作について図４のフローチャートを参照して説明する。

音声入力部１２１は、認識対象となる音声を受け付ける（ステップＳ３０１）。

音声認識部１２２は、音声入力部１２１に入力された音声を、音響モデル記憶部１１２に記憶されている音響モデルと、認識辞書記憶部１１３に記憶されている認識辞書とを用いて、音声認識を行う（ステップＳ３０３）。

認識辞書適応部１５３は、前記音声認識結果に対し、発声変形集合判別情報記憶部１５２に記憶された発声変形を適用して発声変形の仮説を生成し、これら認識結果と発声変形仮説との間の音響尤度比較を行う。そして、認識辞書適応部１５３は、発声変形仮説における音響尤度のほうが上回るものをもって、その話者に対し適した発声変形要素として抽出する。次に、抽出された発声変形要素と、発声変形集合判別情報にある確率加重情報量をもちいて、その話者に対する各発声変形集合の重みを算出する。そして、各発声変形集合に対応する拡張認識辞書を前期算出された重みを用いた重み付け和により、拡張認識辞書を統合して、適応認識辞書を生成する（ステップＳ３０５）。

認識辞書適応部１５３は、以上の処理を具体的には次のように実施する。図２を用いて詳細に説明する。

音声認識部１２２によって出力された音声認識結果音素列１５３−１に対し、前述の発声変形集合判別情報記憶部１５２に記憶されたＲ個の発声変形ｖ_ｋを適用して発声変形仮説を生成する。発声変形集合重み推定部１５３−２は、これら認識結果と発声変形仮説との間の音響尤度比較を行い、発声変形仮説における音響尤度のほうが上回るものをもって、その話者に対し適した発声変形要素として抽出する。

更に、発声変形集合重み推定部１５３−２は、抽出された発声変形らをＹとし、それに含まれる発声変形規則をｖ_ｙとし、前述の発声変形集合判別情報記憶部１５２に記憶された確率加重情報量δＩを用いて下記の式（数４）により各発声変形集合に対する重みを算出する。

ここで、数４の分母は、ｇの和が１となるように正規化することを意味する。

次に、拡張認識辞書統合部１５３−３が、算出された重みｇを用いて重み付け和により、各発声変形集合に対応する拡張認識辞書を統合して、新話者に適応した拡張辞書である適応認識辞書１５３−４を生成する。

ここで、拡張認識辞書の重み付け和は、同一表記における、発音エントリの出現確率を重み付け和により算出することにより実施する。

なお、この算出を行う際に、発音エントリの出現確率値が或る所定値より小さくなった場合に、辞書から削除する工程を含め、辞書のサイズを小さくするようにしてもよい。

音声認識部１２２は、入力された音声に対して、認識辞書適応部１５３において算出された適応認識辞書１５３−４を用いて、再度音声認識を行う（ステップＳ３０７）。あるいはまた、１発声または数発声ごとに認識辞書適応部１５３で適応された適応認識辞書に逐次更新しながら、音声認識を行うようにしてもよい。

本実施の形態によれば、拡張認識辞書すべてについて音声認識を行う必要はなく、拡張認識辞書学習装置において学習した拡張認識辞書を統合し、新たな話者に対して適した適応認識辞書を生成し利用して音声認識が行えるため、少ない演算量で認識結果を得ることが出来る。

さらにまた、事前に学習される拡張認識辞書の数が多くとも実施可能となるため、事前に多数の拡張認識辞書を学習しておき利用することにより、話者の多様性に対応することが可能となり、音声認識性能が向上する。

本発明は、例えば、発声変形を含む音声に対し、認識辞書を拡張し性能を向上できる音声認識システムや、音声認識システムをコンピュータに実現するためのプログラムといった用途に好適である。

本発明の実施形態の拡張認識辞書学習装置および音声認識装置の基本的構成を表す図である。本発明の実施形態における、認識辞書適応手段の基本的構成を表す図である。本発明の実施形態の拡張認識辞書学習装置の基本的動作を表すフローチャートである。本発明の実施形態の音声認識装置の基本的動作を表すフローチャートである。本発明の関連技術の拡張認識辞書学習装置および音声認識装置の基本的構成を表す図である。

符号の説明

１００、５００拡張認識辞書学習装置
１１０、５１０音声入力部
１１１、５１１発声ラベル入力部
１１２、５１２音響モデル記憶部
１１３、５１３認識辞書記憶部
１１４、５１４音声認識部
１１５、５１５発声変形データ算出部
１１６、５１６発声変形データ記憶部
１１７、５１７発声変形データ分類部
１１８、５１８認識辞書拡張部
１１９、５１９拡張認識辞書記憶部
１１９−１、５１９−１拡張認識辞書Ｄ１
１１９−Ｍ、５１９−Ｍ拡張認識辞書ＤＭ
１２０、５２０音声認識装置
１２１、５２１音声入力部
１２２、５２２音声認識部
１２３、５２３認識結果出力部
１５１発声変形集合判別情報抽出部
１５２発声変形集合判別情報記憶部
１５３認識辞書適応部
１５３−１認識結果音素列
１５３−２発声変形集合重み推定部
１５３−３拡張認識辞書統合部
１５３−４適応認識辞書

Claims

入力された学習用音声の音声認識結果から出力される音響モデル系列と、入力された正解音響モデル系列とを比較して、それらモデルの対応を発声変形データとして算出する発声変形データ算出手段と、
算出された前記発声変形データにおいて、広く出現する発声変形、及び、偏って出現する発声変形を分類する発声変形データ分類手段と、
分類された前記広く出現する発声変形及び前記偏って出現する発声変形を組み合わせて、複数の発声変形集合とし、それぞれの発声変形集合に含まれる発声変形により、前記発声変形集合ごとに認識辞書を拡張する認識辞書拡張手段と、
特に、前記発声変形集合のそれぞれを判別するのに有効な発声変形要素、及び、当該発声変形要素と前記発声変形集合との確率加重情報量を、発声変形集合判別情報として抽出する発声変形集合判別情報抽出手段と、
を有することを特徴とする拡張認識辞書学習装置。
請求項１に記載の拡張認識辞書学習装置において、前記発声変形集合判別情報抽出手段は、
発声変形集合のそれぞれを判別するのに有効な発声変形要素として、発声変形集合らＤに含まれる発声変形集合ｄ_ｊと、発声変形要素ｗ_ｉの確率値および条件付確率値を用いて算出される、

により定義されるＸの値が大きいＲ個の発声変形要素ｖ_ｋを抽出し、
確率加重情報量として

で定義されるδＩを算出することを特徴とする拡張認識辞書学習装置。
請求項１又は２に記載の拡張認識辞書学習装置を利用する、拡張認識辞書利用装置において、
入力された音声認識対象音声の音声認識結果に対し、前記発声変形集合判別情報抽出手段により抽出された前記発声変形集合判別情報を適用して、発声変形仮説を生成し、生成した当該発声変形仮説と、前記音声認識結果との間の音響尤度比較を行い、発声変形仮説における音響尤度のほうが上回るものをもって、その話者に対し適した発声変形要素として抽出し、抽出された当該発声変形要素と、前記発声変形集合判別情報に含まれる確率加重情報量を用いて、その話者に対する各発声変形集合の重みを算出する、発声変形集合重み推定手段と、
前記各発声変形集合に対応する前記拡張認識辞書を、前記算出された重みの重み付け和により統合することにより、適応認識辞書を生成する、認識辞書適応統合手段と、
を備えることを特徴とする拡張認識辞書利用装置。
請求項３に記載の拡張認識辞書利用装置において、
前記発声変形集合重み推定手段は、前記抽出された発声変形要素らをＹとし、当該発声変形要素らＹに含まれる発声変形規則をｖｙとしたとき、

により前記各発声変形集合に対する重みを算出することを特徴とする拡張認識辞書利用装置。
請求項３又は４に記載の拡張認識辞書利用装置において、
前記認識辞書適応統合手段の生成した前記適応認識辞書を用いて音声認識を行うことを特徴とする拡張認識辞書利用装置。
入力された学習用音声の音声認識結果から出力される音響モデル系列と、入力された正解音響モデル系列とを比較して、それらモデルの対応を発声変形データとして算出する発声変形データ算出ステップと、
算出された前記発声変形データにおいて、広く出現する発声変形、及び、偏って出現する発声変形を分類する発声変形データ分類ステップと、
分類された前記広く出現する発声変形及び前記偏って出現する発声変形を組み合わせて、複数の発声変形集合とし、それぞれの発声変形集合に含まれる発声変形により、前記発声変形集合ごとに認識辞書を拡張する認識辞書拡張ステップと、
特に、前記発声変形集合のそれぞれを判別するのに有効な発声変形要素、及び、当該発声変形要素と前記発声変形集合との確率加重情報量を、発声変形集合判別情報として抽出する発声変形集合判別情報抽出ステップと、
を有することを特徴とする拡張認識辞書利用方法。
請求項６に記載の拡張認識辞書利用方法において、前記発声変形集合判別情報抽出ステップにおいて、
発声変形集合のそれぞれを判別するのに有効な発声変形要素として、発声変形集合らＤに含まれる発声変形集合ｄ_ｊと、発声変形要素ｗ_ｉの確率値および条件付確率値を用いて算出される、

により定義されるＸの値が大きいＲ個の発声変形要素ｖ_ｋを抽出し、
確率加重情報量として

で定義されるδＩを算出することを特徴とする拡張認識辞書利用方法。
請求項６又は７に記載の拡張認識辞書利用方法において、
入力された音声認識対象音声の音声認識結果に対し、前記発声変形集合判別情報抽出ステップにより抽出された前記発声変形集合判別情報を適用して、発声変形仮説を生成し、生成した当該発声変形仮説と、前記音声認識結果との間の音響尤度比較を行い、発声変形仮説における音響尤度のほうが上回るものをもって、その話者に対し適した発声変形要素として抽出し、抽出された当該発声変形要素と、前記発声変形集合判別情報に含まれる確率加重情報量を用いて、その話者に対する各発声変形集合の重みを算出する、発声変形集合重み推定ステップと、
前記各発声変形集合に対応する前記拡張認識辞書を、前記算出された重みの重み付け和により統合することにより、適応認識辞書を生成する、認識辞書適応統合ステップと、
を備えることを特徴とする音声認識辞書利用方法。
請求項８に記載の音声認識辞書利用方法において、
前記発声変形集合重み推定ステップにおいて、前記抽出された発声変形要素らをＹとし、当該発声変形要素らＹに含まれる発声変形規則をｖｙとしたとき、

により前記各発声変形集合に対する重みを算出することを特徴とする音声認識辞書利用方法。
請求項８又は９に記載の音声認識辞書利用方法において、
前記認識辞書適応統合ステップにおいて生成した前記適応認識辞書を用いて音声認識を行うことを特徴とする音声認識辞書利用方法。
入力された学習用音声の音声認識結果から出力される音響モデル系列と、入力された正解音響モデル系列とを比較して、それらモデルの対応を発声変形データとして算出する発声変形データ算出手段と、
算出された前記発声変形データにおいて、広く出現する発声変形、及び、偏って出現する発声変形を分類する発声変形データ分類手段と、
分類された前記広く出現する発声変形及び前記偏って出現する発声変形を組み合わせて、複数の発声変形集合とし、それぞれの発声変形集合に含まれる発声変形により、前記発声変形集合ごとに認識辞書を拡張する認識辞書拡張手段と、
特に、前記発声変形集合のそれぞれを判別するのに有効な発声変形要素、及び、当該発声変形要素と前記発声変形集合との確率加重情報量を、発声変形集合判別情報として抽出する発声変形集合判別情報抽出手段と、
を有する拡張認識辞書利用装置としてコンピュータを機能させるための拡張認識辞書利用プログラム。
請求項１１に記載の拡張認識辞書利用プログラムにおいて、前記発声変形集合判別情報抽出手段は、
発声変形集合のそれぞれを判別するのに有効な発声変形要素として、発声変形集合らＤに含まれる発声変形集合ｄｊと、発声変形要素ｗｉの確率値および条件付確率値を用いて算出される、

により定義されるＸの値が大きいＲ個の発声変形要素ｖｋを抽出し、
確率加重情報量として

で定義されるδＩを算出することを特徴とする拡張認識辞書利用プログラム。
請求項１１又は１２に記載の拡張認識辞書利用プログラムにおいて、前記拡張認識辞書利用装置は、
入力された音声認識対象音声の音声認識結果に対し、前記発声変形集合判別情報抽出手段により抽出された前記発声変形集合判別情報を適用して、発声変形仮説を生成し、生成した当該発声変形仮説と、前記音声認識結果との間の音響尤度比較を行い、発声変形仮説における音響尤度のほうが上回るものをもって、その話者に対し適した発声変形要素として抽出し、抽出された当該発声変形要素と、前記発声変形集合判別情報に含まれる確率加重情報量を用いて、その話者に対する各発声変形集合の重みを算出する、発声変形集合重み推定手段と、
前記各発声変形集合に対応する前記拡張認識辞書を、前記算出された重みの重み付け和により統合することにより、適応認識辞書を生成する、認識辞書適応統合手段と、
を備えることを特徴とする拡張認識辞書利用プログラム。
請求項１３に記載の拡張認識辞書利用プログラムにおいて、
前記発声変形集合重み推定手段は、前記抽出された発声変形要素らをＹとし、当該発声変形要素らＹに含まれる発声変形規則をｖｙとしたとき、

により前記各発声変形集合に対する重みを算出することを特徴とする拡張認識辞書利用プログラム。
請求項１３又は１４に記載の拡張認識辞書利用プログラムにおいて、
前記認識辞書適応統合手段の生成した前記適応認識辞書を用いて音声認識を行うことを特徴とする拡張認識辞書利用プログラム。