JP6712540B2

JP6712540B2 - モデルパラメータ生成装置、モデルパラメータ生成方法、音声認識装置の作成方法、プログラム

Info

Publication number: JP6712540B2
Application number: JP2016229859A
Authority: JP
Inventors: 亮増村; 浩和政瀧
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-11-28
Filing date: 2016-11-28
Publication date: 2020-06-24
Anticipated expiration: 2036-11-28
Also published as: JP2018087842A

Description

本発明は、複数の発話を繰り返し音声認識する連続発話音声認識技術に関し、複数の言語モデルを使用する際の言語モデルごとの重みを決定するためのモデルパラメータ製造装置とモデルパラメータ製造方法、そのモデルパラメータを用いた音声認識装置、音声認識方法およびプログラムに関する。

講演や講義音声、また、コンタクトセンタの対話音声などは、音声検索などの単一発話音声認識ではなく、複数の発話を繰り返し音声認識する連続発話音声認識である。単一発話の音声認識では、発話間が独立であるが、連続発話音声認識では、発話間に強く依存関係がある。この連続発話音声認識で高い性能を実現するためには、発話を認識するたびに音声認識器を適応化し、次の発話に適した状態を作ることが重要といえる。

音声認識装置を少ないパラメータの制御のみで簡単に変更する枠組みとして、言語モデル混合に基づく音声認識装置がある。言語モデルは音声認識における言語な制約（単語の出現確率）を制御するものである。例えば、各言語モデルが単語ｗの確率をモデル化している場合、Ｋ個の言語モデルを混合するときは以下の式に従い単語ｗの確率を混合して算出する。

ここで、Ｋは２以上の整数、ｋは１以上Ｋ以下の整数、λ_ｋはｋ番目の言語モデルの重み、Ｐ（ｗ｜θ_ｋ）はｋ番目の言語モデルによる単語ｗの確率である。つまり、重みλ_１,…, λ_Ｋを制御することで、Ｐ（ｗ）を変えることができる。よって、連続発話音声認識では、発話を認識するたびに重みλ_１,…, λ_Ｋを変化させれば、音声認識装置を適応化できる。非特許文献１には、重みλ_１,…, λ_Ｋを決定する方法が示されている。

Mikolov Tomas, Deoras Anoop, Kombrink Stefan, Burget Lukas, Cernocky Jan, "Empirical Evaluation and Combination of Advanced Language Modeling Techniques", In Proceedings of the 12th Annual Conference of the International Speech Communication Association, INTERSPEECH 2011, pp605-608.

しかしながら、非特許文献１に示された従来技術では、前の発話の音声認識結果、もしくはこれまですべての発話の認識結果に対して最尤となるように、ＥＭアルゴリズムなどの再帰的な計算で重みλ_１,…, λ_Ｋを決定する。したがって、従来技術は、過去の発話の認識結果に対して最尤となる重みλ_１,…, λ_Ｋを決定する技術である。よって、従来技術は、これから音声認識を行う発話に対して最尤となる重みを決定する技術ではなかった。

本発明は、これから音声認識する発話に対して適切な重みλ_１,…, λ_Ｋを決定するためのモデルパラメータ製造装置、モデルパラメータ製造方法、および学習されたモデルパラメータを用いた音声認識装置、音声認識方法を提供することを目的とする。

本発明のモデルパラメータ製造装置は、Ｋ個の言語モデルを用いて音声認識を行う際に、言語モデルごとの重みを決定する混合重み決定部が用いるモデルパラメータの学習を行う。Ｋはあらかじめ定めた２以上の整数、ｎは正の整数とする。本発明のモデルパラメータ製造装置は、音声認識結果生成部、最適混合重み決定部、モデルパラメータ学習部を備える。音声認識結果生成部は、学習用連続発話の音声データが入力されると、あらかじめ定めた重みでＫ個の言語モデルを用いて音声認識を行い、発話ごとの音声認識結果を出力する。なお、モデルパラメータ製造装置が混合重み決定部も備える場合は、音声認識結果生成部は、ｎ＋１番目の発話の音声データが入力されると、Ｋ個の言語モデルと混合重み決定部が出力した重みを用いて、ｎ＋１番目の発話の音声認識結果を出力する。この混合重み決定部は、あらかじめ定めた初期モデルパラメータを用いて、ｎ番目までの発話に対する音声認識結果の中からあらかじめ定めた方法で選ばれた音声認識結果に基づいて、ｎ＋１番目の発話の音声認識に用いるＫ個の言語モデルごとの重みを出力する。最適混合重み決定部は、学習用連続発話の正解文を入力とし、発話ごとに、当該発話の正解文の単語列を用いて、当該発話の音声認識に適した言語モデルごとの重みを決定する。モデルパラメータ学習部は、音声認識結果と最適混合重み決定部が決定した重みを入力とし、前記混合重み決定部が、ｎ番目までの発話に対する音声認識結果の中からあらかじめ定めた方法で選ばれた音声認識結果に基づいて、前記最適混合重み決定部が決定したｎ＋１番目の発話の音声認識に適した言語モデルごとの重みを出力するようにモデルパラメータの学習を行う。

本発明の音声認識装置は、Ｋ個の言語モデルを用いて音声認識を行う。本発明の音声認識装置は、混合重み決定部と適応型音声認識部を備える。混合重み決定部は、モデルパラメータ製造装置によって学習されたモデルパラメータを用いて、ｎ番目までの発話に対する音声認識結果の中からあらかじめ定めた方法で選ばれた音声認識結果に基づいて、ｎ＋１番目の発話の音声認識に用いる言語モデルごとの重みを出力する。適応型音声認識部は、ｎ＋１番目の発話の音声データが入力されると、Ｋ個の言語モデルと混合重み決定部が出力した重みを用いて、ｎ＋１番目の発話の音声認識結果を出力する。

本発明のモデルパラメータ製造装置によれば、ｎ番目までの発話に対する音声認識結果の中からあらかじめ定めた方法で選ばれた音声認識結果に基づいて、正解文の単語列から得られたｎ＋１番目の発話の音声認識に適した重みを出力するように、モデルパラメータの学習を行う。したがって、本発明のモデルパラメータ製造装置は、過去の音声認識結果から、これから音声認識する発話に対して適切な重みλ_１,…, λ_Ｋを決定するためのモデルパラメータを製造できる。そして、本発明の音声認識装置は、そのモデルパラメータを用いて音声認識を行うことができる。

本発明のモデルパラメータ製造装置の機能構成例を示す図。実施例１のモデルパラメータ製造方法の処理フローを示す図。本発明の音声認識装置の機能構成例を示す図。本発明の音声認識方法の処理フローを示す図。変形例１のモデルパラメータ製造方法を示す図。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

図１に実施例１のモデルパラメータ製造装置の機能構成例を示す。図２に実施例１のモデルパラメータ製造方法の処理フローを示す。モデルパラメータ製造装置１００は、Ｋ個の言語モデルを用いて音声認識を行う際に言語モデルごとの重みを決定する混合重み決定部２１０が用いるモデルパラメータの学習を行う。Ｋはあらかじめ定めた２以上の整数、ｎは正の整数とする。モデルパラメータ製造装置１００は、音声認識結果生成部１１０、最適混合重み決定部１２０、モデルパラメータ学習部１３０、記録部１９０を備える。記録部１９０は、学習用連続発話の音声データとその正解文、およびモデルパラメータを記録する。

音声認識結果生成部１１０は、学習用連続発話の音声データを入力とし、あらかじめ定めた重みでＫ個の言語モデルを用いて音声認識を行い、発話ごとの音声認識結果を出力する（Ｓ１１０）。あらかじめ定めた重みとしては、すべての重みを１／Ｋにする例があるが、これに限定する必要はなく、言語モデルの特徴が分かっている場合はその特徴を考慮して適宜決めてもよい。なお、音声データには認識が難しい単語も含まれているので、出力される音声認識結果は誤りを含んでいる可能性もあることに注意されたい。

最適混合重み決定部１２０は、学習用連続発話の正解文を入力とし、発話ごとに、当該発話の正解文の単語列を用いて、当該発話の音声認識に適した言語モデルごとの重みλ_１,…, λ_Ｋを決定する（Ｓ１２０）。ある発話の単語列をｗ_１，…，ｗ_Ｌとする。Ｌはその発話に含まれる単語の数である。Ｋ個の言語モデルに対する最適な重みλ_１,…, λ_Ｋは、単語列ｗ_１，…，ｗ_Ｌに対して最尤となる重みλ_１,…, λ_Ｋである。なお、「単語列ｗ_１，…，ｗ_Ｌに対して最尤」とは、重みλ_１,…, λ_Ｋを決定した際の単語ｗの発生確率Ｐ（ｗ）が、単語列ｗ_１，…，ｗ_Ｌを最も生成しやすくなるように決定することを意味する。この決定には、例えばＥＭアルゴリズムを用いればよく、単語列ｗ_１，…，ｗ_Ｌに対して最尤となる重みλ_ｋは次式の再帰的な計算で求めることができる。ただし、ｋは１以上Ｋ以下の整数である。

最適混合重み決定部１２０は、正解文の単語列を用いて発話ごとに重みλ_１,…, λ_Ｋを決定しているので、最適な重みλ_１,…, λ_Ｋを決定していると言える。

音声認識の際には、音声認識の対象となっている発話の単語列は未知である。そこで、モデルパラメータ学習部１３０は、ｎ番目までの発話に対する音声認識結果に基づいて、正解文の単語列から得られたｎ＋１番目の発話の音声認識に適した重みを出力するように、モデルパラメータの学習を行う。より具体的には、モデルパラメータ学習部１３０は、音声認識結果と最適混合重み決定部１２０が決定した重みを入力とし、混合重み決定部２１０が、ｎ番目までの発話に対する音声認識結果の中からあらかじめ定めた方法で選ばれた音声認識結果に基づいて、最適混合重み決定部１２０が決定したｎ＋１番目の発話の音声認識に適した言語モデルごとの重みを出力するようにモデルパラメータの学習を行う（Ｓ１３０）。「ｎ番目までの発話に対する音声認識結果の中からあらかじめ定めた方法で選ばれた音声認識結果」の例としては、ｎ番目の発話に対する音声認識結果だけ、ｎ−ｍ＋１番目からｎ番目までのｍ個の発話に対する音声認識結果、ｎ番目までのすべての発話に対する音声認識結果などがある（ただし、ｍは２以上の整数）。多くの音声認識結果を用いれば、混合重み決定部２１０がより適切な重みλ_１,…, λ_Ｋを決定できるモデルパラメータを製造できると考えられるが、学習に要する処理量も増加する。音声認識結果を選定する方法は、これらのことを考慮して適宜決めればよい。なお、モデルパラメータのモデル構造は、ロジスティック回帰モデル、リカレントニューラルネットワークのような機械学習におけるモデルである。最終的には、記録部１９０には学習後のモデルパラメータ（製造されたモデルパラメータ）が記録される。

図３に本発明の音声認識装置の機能構成例を示す。図４に本発明の音声認識方法の処理フローを示す。音声認識装置２００は、混合重み決定部２１０、適応型音声認識部２２０、記録部２９０を備え、Ｋ個の言語モデルを用いて音声認識を行う。記録部２９０は、モデルパラメータ製造装置１００によって学習されたモデルパラメータを記録する。

混合重み決定部２１０は、モデルパラメータ製造装置１００によって学習されたモデルパラメータを用いて、ｎ番目までの発話に対する音声認識結果の中からあらかじめ定めた方法で選ばれた音声認識結果に基づいて、ｎ＋１番目の発話の音声認識に用いる言語モデルごとの重みλ_１,…, λ_Ｋを出力する（Ｓ２１０）。上述のとおり、「ｎ番目までの発話に対する音声認識結果の中からあらかじめ定めた方法で選ばれた音声認識結果」の例としては、ｎ番目の発話に対する音声認識結果だけ、ｎ−ｍ＋１番目からｎ番目までのｍ個の発話に対する音声認識結果、ｎ番目までのすべての発話に対する音声認識結果などがある。１番目の発話に対する重みλ_１,…, λ_Ｋの決定では過去の音声認識結果が存在しないので、あらかじめ定めた重みにすればよい。例えばすべての重みを１／Ｋにすればよい。ｍ個の発話に対する音声認識結果を用いる場合に、２番目からｍ番目までの発話に対する音声認識では音声認識結果の数が足りないが、存在する音声認識結果だけから言語モデルごとの重みλ_１,…, λ_Ｋを決定すればよい。

適応型音声認識部２２０は、ｎ＋１番目の発話の音声データが入力されると、Ｋ個の言語モデルと混合重み決定部が出力した重みλ_１,…, λ_Ｋを用いて、ｎ＋１番目の発話の音声認識結果を出力する（Ｓ２２０）。なお、適応型音声認識部２２０は、１番目の発話の音声データが入力されたときは、あらかじめ定めた重みλ_１,…, λ_Ｋ（例えばすべての重みが１／Ｋ）を用いて、１番目の発話の音声認識結果を出力すればよい。音声認識装置２００は、発話が続いている場合はステップＳ２１０，Ｓ２２０を繰り返す（Ｓ２３０）。

本発明のモデルパラメータ製造装置１００によれば、ｎ番目までの発話に対する音声認識結果の中からあらかじめ定めた方法で選ばれた音声認識結果に基づいて、正解文の単語列から得られたｎ＋１番目の発話の音声認識に適した重みを出力するように、モデルパラメータの学習を行う。したがって、本発明のモデルパラメータ製造装置１００は、過去の音声認識結果から、これから音声認識する発話に対して適切な重みλ_１,…, λ_Ｋを決定するためのモデルパラメータを製造できる。本発明の音声認識装置２００は、そのモデルパラメータを用いて音声認識を行うことができる。また、音声認識結果には誤りも含まれる可能性もあるが、従来技術では認識結果に誤りがあることは考慮されていなかった。一方、本発明では、モデルパラメータ学習部１３０には、誤りが含まれているかもしれない音声認識結果と最適混合重み決定部が決定した重みが入力されるので、音声認識結果に誤りが含まれている可能性も含めて適切な重みが決まるようにモデルパラメータの学習を行える。さらに、音声認識の際にはＥＭアルゴリズムのような再帰的な計算を用いないので、重みλ_１,…, λ_Ｋを決定するための計算時間を短縮できる。よって、リアルタイムな音声認識にも適用できる。

［変形例１］
図１に本変形例のモデルパラメータ製造装置の機能構成例を示す。図５に本変形例のモデルパラメータ製造方法を示す。本変形例のモデルパラメータ製造装置１０５も、Ｋ個の言語モデルを用いて音声認識を行う際に言語モデルごとの重みを決定する混合重み決定部２１０が用いるモデルパラメータの学習を行う。モデルパラメータ製造装置１０５は、混合重み決定部２１０、音声認識結果生成部１１５、最適混合重み決定部１２０、モデルパラメータ学習部１３０、記録部１９０を備える。記録部１９０は、学習用連続発話の音声データとその正解文、初期モデルパラメータおよびモデルパラメータを記録する。実施例１のモデルパラメータ製造装置１００とは、混合重み決定部２１０を備えている点と、音声認識結果生成部１１５が異なる。実施例１の音声認識結果生成部１１０はあらかじめ定めた重み（例えばすべての重みが１／Ｋ）を用いていたが、本変形例の音声認識結果生成部１１５は混合重み決定部２１０が出力した重みλ_１,…, λ_Ｋを用いる点が異なっている。音声認識装置２００は、実施例１と同じである。

混合重み決定部２１０は、音声認識装置２００が備える混合重み決定部２１０と機能は同じであるが、初期モデルパラメータを用いる点だけ異なる。具体的には、混合重み決定部２１０は、初期モデルパラメータを用いて、ｎ番目までの発話に対する音声認識結果の中からあらかじめ定めた方法で選ばれた音声認識結果に基づいて、ｎ＋１番目の発話の音声認識に用いる言語モデルごとの重みを出力する（Ｓ２１５）。初期モデルパラメータは、例えば、実施例１のモデルパラメータ製造装置で製造されたモデルパラメータとすればよい。「ｎ番目までの発話に対する音声認識結果の中からあらかじめ定めた方法で選ばれた音声認識結果」の例は実施例１と同じであり、ｎ番目の発話に対する音声認識結果だけ、ｎ−ｍ＋１番目からｎ番目までのｍ個の発話に対する音声認識結果、ｎ番目までのすべての発話に対する音声認識結果などがある。

音声認識結果生成部１１５は、ｎ＋１番目の発話の音声データが入力されると、Ｋ個の言語モデルと混合重み決定部２１０が出力した重みを用いて、ｎ＋１番目の発話の音声認識結果を出力する（Ｓ１１５）。なお、音声認識結果生成部１１５は、１番目の発話の音声データが入力されたときは、あらかじめ定めた重みλ_１,…, λ_Ｋ（例えばすべての重みが１／Ｋ）を用いて、１番目の発話の音声認識結果を出力すればよい。

最適混合重み決定部１２０とモデルパラメータ学習部１３０は、実施例１と同じである。ステップＳ２１０、Ｓ１１５，Ｓ１２０，Ｓ１３０の処理によって、初期モデルパラメータから新しいモデルパラメータを製造でき、その新しいモデルパラメータが記録部１９０に記録される。

本変形例のモデルパラメータ製造方法では、所定の条件を満たすかを確認し（Ｓ１０５）、満たさない場合は、記録部１９０に記録されている初期モデルパラメータを新しいモデルパラメータに変更した上で（Ｓ２１６）、ステップＳ２１５，Ｓ１１５，Ｓ１３０を繰り返してもよい。「所定の条件」とは、繰り返しの回数で定めてもよいし、初期モデルパラメータの変更前後での音声認識結果の違い（例えば、音声認識結果に含まれる誤りの違い）があらかじめ決めた範囲まで収束することを条件としてもよい。なお、所定の条件の確認（Ｓ１０５）、初期モデルパラメータの変更（Ｓ２１６）は、モデルパラメータ製造装置１０５が行ってもよいし、人や別の装置が行ってもよい。また、所定の条件が、１回だけステップＳ２１５，Ｓ１１５，Ｓ１２０，Ｓ１３０を行うという条件の場合は、繰り返し処理は行わない。

実施例１のモデルパラメータ製造装置１００では、音声認識結果生成部１１０はあらかじめ定めた重みで音声認識を行うので、音声認識結果生成部１１０と音声認識装置２００の音声認識結果には違い（例えば、音声認識結果に含まれる誤りの違い）がある可能性がある。モデルパラメータ製造装置１０５を用いたモデルパラメータ製造方法であれば、音声認識結果生成部１１５と音声認識装置２００の音声認識結果の違いを小さくできる。よって、音声認識結果に誤りが含まれている可能性も考慮する必要がある場合には、より適切な重みが決まるようにモデルパラメータの学習を行える。その他の効果は実施例１と同じである。

［プログラム、記録媒体］
上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１００，１０５モデルパラメータ製造装置
１１０，１１５音声認識結果生成部
１２０最適混合重み決定部
１３０モデルパラメータ学習部
１９０，２９０記録部
２００音声認識装置
２１０混合重み決定部
２２０適応型音声認識部

Claims

Ｋ個の言語モデルを用いて音声認識を行う際に前記言語モデルごとの重みを決定する混合重み決定部が用いるモデルパラメータの学習を行うモデルパラメータ生成装置であって、
Ｋはあらかじめ定めた２以上の整数、ｎは正の整数とし、
学習用連続発話の音声データが入力されると、あらかじめ定めた重みで前記言語モデルを用いて音声認識を行い、発話ごとの音声認識結果を出力する音声認識結果生成部と、
前記学習用連続発話の正解文が入力されると、発話ごとに、当該発話の前記正解文の単語列を用いて、当該発話の音声認識に適した前記言語モデルごとの重みを決定する最適混合重み決定部と、
前記音声認識結果と前記最適混合重み決定部が決定した重みを入力とし、前記混合重み決定部が、ｎ番目までの発話に対する音声認識結果の中からあらかじめ定めた方法で選ばれた音声認識結果に基づいて、前記最適混合重み決定部が決定したｎ＋１番目の発話の音声認識に適した前記言語モデルごとの重みを出力するようにモデルパラメータの学習を行うモデルパラメータ学習部
を備えたモデルパラメータ生成装置。
Ｋ個の言語モデルを用いて音声認識を行う際に前記言語モデルごとの重みを決定する混合重み決定部が用いるモデルパラメータの学習を行うモデルパラメータ生成装置であって、
Ｋはあらかじめ定めた２以上の整数、ｎは正の整数とし、
あらかじめ定めた初期モデルパラメータを用いて、ｎ番目までの発話に対する音声認識結果の中からあらかじめ定めた方法で選ばれた音声認識結果に基づいて、ｎ＋１番目の発話の音声認識に用いる前記言語モデルごとの重みを出力する前記混合重み決定部と、
ｎ＋１番目の発話の音声データが入力されると、前記Ｋ個の言語モデルと前記混合重み決定部が出力した重みを用いて、ｎ＋１番目の発話の音声認識結果を出力する音声認識結果生成部と、
前記ｎ＋１番目の発話の正解文が入力されると、発話ごとに、当該発話の前記正解文の単語列を用いて、当該発話の音声認識に適した前記言語モデルごとの重みを決定する最適混合重み決定部と、
前記音声認識結果と前記最適混合重み決定部が決定した重みを入力とし、前記混合重み決定部が、ｎ番目までの発話に対する音声認識結果の中からあらかじめ定めた方法で選ばれた音声認識結果に基づいて、前記最適混合重み決定部が決定したｎ＋１番目の発話の音声認識に適した前記言語モデルごとの重みを出力するようにモデルパラメータの学習を行うモデルパラメータ学習部
を備えたモデルパラメータ生成装置。
Ｋ個の言語モデルを用いて音声認識を行う際に前記言語モデルごとの重みを決定する混合重み決定ステップで用いるモデルパラメータの学習を行うモデルパラメータ生成方法であって、
Ｋはあらかじめ定めた２以上の整数、ｎは正の整数とし、
学習用連続発話の音声データを入力とし、あらかじめ定めた重みで前記言語モデルを用いて音声認識を行い、発話ごとの音声認識結果を出力する音声認識結果生成ステップと、
前記学習用連続発話の正解文を入力とし、発話ごとに、当該発話の前記正解文の単語列を用いて、当該発話の音声認識に適した前記Ｋ個の言語モデルごとの重みを決定する最適混合重み決定ステップと、
前記音声認識結果と前記最適混合重み決定ステップが決定した重みを入力とし、前記混合重み決定ステップが、ｎ番目までの発話に対する音声認識結果の中からあらかじめ定めた方法で選ばれた音声認識結果に基づいて、前記最適混合重み決定ステップが決定したｎ＋１番目の発話の音声認識に適した前記言語モデルごとの重みを出力するようにモデルパラメータの学習を行うモデルパラメータ学習ステップ
を実行するモデルパラメータ生成方法。
Ｋ個の言語モデルを用いて音声認識を行う際に前記言語モデルごとの重みを決定する混合重み決定ステップが用いるモデルパラメータの学習を行うモデルパラメータ生成方法であって、
Ｋはあらかじめ定めた２以上の整数、ｎは正の整数とし、
あらかじめ定めた初期モデルパラメータを用いて、ｎ番目までの発話に対する音声認識結果の中からあらかじめ定めた方法で選ばれた音声認識結果に基づいて、ｎ＋１番目の発話の音声認識に用いる前記言語モデルごとの重みを出力する前記混合重み決定ステップと、
ｎ＋１番目の発話の音声データが入力されると、前記Ｋ個の言語モデルと前記混合重み決定ステップが出力した重みを用いて、ｎ＋１番目の発話の音声認識結果を出力する音声認識結果生成ステップと、
前記ｎ＋１番目の発話の正解文が入力されると、発話ごとに、当該発話の前記正解文の単語列を用いて、当該発話の音声認識に適した前記言語モデルごとの重みを決定する最適混合重み決定ステップと、
前記音声認識結果と前記最適混合重み決定ステップが決定した重みを入力とし、前記混合重み決定ステップが、ｎ番目までの発話に対する音声認識結果の中からあらかじめ定めた方法で選ばれた音声認識結果に基づいて、前記最適混合重み決定ステップが決定したｎ＋１番目の発話の音声認識に適した前記言語モデルごとの重みを出力するようにモデルパラメータの学習を行うモデルパラメータ学習ステップ
を実行するモデルパラメータ生成方法。
請求項４記載のモデルパラメータ生成方法であって、
所定の条件を満たすまで、前記初期モデルパラメータを前記モデルパラメータ学習ステップで学習したモデルパラメータに変更しながら、前記混合重み決定ステップ、前記音声認識結果生成ステップ、前記モデルパラメータ学習ステップを繰り返す
ことを特徴とするモデルパラメータ生成方法。
Ｋはあらかじめ定めた２以上の整数、ｎは正の整数とし、
モデルパラメータを用いて、ｎ番目までの発話に対する音声認識結果の中からあらかじめ定めた方法で選ばれた音声認識結果に基づいて、ｎ＋１番目の発話の音声認識に用いるＫ個の言語モデルごとの重みを出力する混合重み決定部と、
ｎ＋１番目の発話の音声データが入力されると、前記Ｋ個の言語モデルと前記混合重み決定ステップが出力した重みを用いて、ｎ＋１番目の発話の音声認識結果を出力する適応型音声認識部
を備える音声認識装置の作成方法であって、
前記モデルパラメータを生成するために、請求項３〜５のいずれかに記載のモデルパラメータ生成方法の各ステップを実行する
ことを特徴とする音声認識装置の作成方法。
請求項３〜５のいずれかに記載のモデルパラメータ生成方法の各ステップ、または請求項６記載の音声認識装置の作成方法の各ステップをコンピュータに実行させるためのプログラム。