JP5651567B2

JP5651567B2 - 音響モデル適応装置、音響モデル適応方法、およびプログラム

Info

Publication number: JP5651567B2
Application number: JP2011223745A
Authority: JP
Inventors: 太一浅見; 哲小橋川; 山口　義和; 義和山口; 浩和政瀧; 高橋　敏; 敏高橋
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2011-10-11
Filing date: 2011-10-11
Publication date: 2015-01-14
Anticipated expiration: 2031-10-11
Also published as: JP2013083798A

Description

本発明は、音声認識に用いる音響モデルの適応を行う音響モデル適応装置、音響モデル適応方法、およびプログラムに関する。

一般に、不特定多数の話者の音声を音声認識する場合には、不特定話者音響モデルが用いられる。不特定話者音響モデルは、多くの話者において（理想的にはすべての話者において）音声と音素との対応が正しく取れるようにパラメータが設定された音響モデルである。不特定話者音響モデルのパラメータは、数百人以上の多数の話者の音声と、その発声内容を記述したテキストのペアから機械学習アルゴリズムによって決定される。

しかしながら、多数の話者の音声を学習に使ったとしても、音声認識システムを利用しうるすべての話者をカバーすることは不可能である。実際の音声認識システムでは、不特定話者音響モデルを用いても音声認識精度が他の話者よりも大きく低くなる話者（以下、苦手話者という。）が存在し、音声認識システムの利便性を低下させる問題が生じる。

特許文献１には、この問題に対処するために、音声認識システム運用中に入力された音声のうち、音声認識の信頼度がある閾値を超えている場合、当該音声とその音声認識結果テキストのペアに対して音響モデル適応アルゴリズムを適用することにより、音響モデルのパラメータを更新する方法が記載されている（以下、音声認識結果テキストを用いた音響モデル適応を「教師なし適応」という。）。信頼度が高い音声を用いることで、音声認識結果テキストに含まれる認識誤りにより適応効果が薄れることを防ぐことができる。例えば、音声認識システム運用中に入力された音声を蓄積し、一定量蓄積されたタイミングで特許文献１の方法を適用することにより、実際に入力される音声にマッチするように音響モデルのパラメータを更新することができる。

特開２０１１−７５６２２号公報

しかしながら、特許文献１に記載された方法では、音響モデルの教師なし適応に用いる音声を選択する際に、適応に用いるべきではないデータが多く選択されてしまう。適応に用いるべきではないデータとは、適応前の音響モデルのパラメータとマッチしている音声や、認識誤りを含む音声認識結果テキストなどである。高い信頼度を示す音声の多くは、適応前の音響モデルのパラメータとマッチしている。このような音声は音響モデル適応によるパラメータ修正への寄与が小さい。一方、信頼度の高い音声認識結果テキストにも少数ながら認識誤りが存在する。認識誤りを含む音声認識結果テキストを音響モデル適応に用いると音響モデル適応の効果を低下させる。このようなデータが適応に用いられることにより、音響モデルの教師なし適応の効果が抑制されてしまうという問題があった。

本発明はこのような点に鑑みてなされたものであり、パラメータ修正への寄与が大きく、かつ適応の効果を低下させにくいデータを使って、音響モデルの教師なし適応を行うことができる音響モデル適応装置を提供することを目的とする。

上記の課題を解決するために、本発明の音響モデル適応装置は、音響モデル記憶部と音声認識結果記憶部と音声認識部と音声認識結果登録部と苦手話者検出部と適応用データ選択部と音響モデル適応部を備える。音響モデル記憶部には、不特定多数の話者の音声を認識する音声認識に用いる適応前音響モデルが記憶される。音声認識結果記憶部には、音声認識結果が記憶される。音声認識部は、入力された音声から、適応前音響モデルを用いて、少なくとも音声認識結果テキストと信頼度を出力する。音声認識結果登録部は、少なくとも音声を発話した話者を特定する話者ＩＤと音声と音声認識結果テキストと信頼度からなる音声認識結果を、音声認識結果記憶部に記憶する。苦手話者検出部は、音声認識結果記憶部から、音声認識結果をすべて読み込み、予め設定された検出条件に基づいて、他の話者よりも音声認識精度が低い苦手話者の話者ＩＤを抽出する。適応用データ選択部は、音声認識結果記憶部から、話者ＩＤが苦手話者の話者ＩＤであり、かつ、信頼度が予め設定された信頼度閾値以上である音声認識結果を読み込み、少なくとも音声と音声認識結果テキストからなる適応用データを抽出する。音響モデル適応部は、適応前音響モデルと適応用データから、予め設定された適応パラメータを用いて、適応後音響モデルを出力する。

本発明によれば、蓄積された音声を用いた不特定話者音響モデルの教師なし適応において、苦手話者の音声のうち信頼度が高い音声を適応用データとして用いることによって、音響モデルの適応による認識精度向上効果を高めることができる。

また、不特定話者音響モデルの認識精度向上は、話者間の音声認識精度のばらつきを小さくするため、より多くの利用者にとって利便性の高い音声認識システムを実現することができる。

実施例１の音響モデル適応装置の構成を示すブロック図。実施例１の音響モデル適応装置の動作を示すフローチャート。実施例１の変型例の音響モデル適応装置の構成を示すブロック図。実施例１の変型例の音響モデル適応装置の動作を示すフローチャート。実施例２の音響モデル適応装置の構成を示すブロック図。実施例２の音響モデル適応装置の動作を示すフローチャート。実施例２の変型例の音響モデル適応装置の構成を示すブロック図。実施例２の変型例の音響モデル適応装置の動作を示すフローチャート。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

まず、本発明の概要について説明する。実施例１では、音声認識システムに蓄積された音声を分析し苦手話者を検出する。検出した苦手話者の音声のうち信頼度が高い音声を適応用データとして用いて不特定話者音響モデルの教師なし適応を行う。苦手話者の音声は適応前音響モデルのパラメータとマッチしていないため、音響モデル適応によるパラメータ修正への寄与を大きくすることができる。さらに、苦手話者の音声のうち信頼度が高い音声を選別することで、誤りが比較的少ない音声認識結果テキストを適応用データとして用いて、音響モデル適応の効果が抑制されにくくすることができる。

実施例１で最終的に出力される適応後音響モデルを使うと、検出した苦手話者以外の話者の音声において認識精度が大きく低下している可能性がある。そのため、実施例２では、複数の適応パラメータを用いて音響モデル適応を行い、複数の適応後音響モデル候補を生成する。生成した各音響モデル候補を用いて、蓄積された音声を再び音声認識して適応後の信頼度を算出し、適応前音響モデルからの信頼度が最も向上する音響モデル候補を適応後音響モデルとして採用する。生成された音響モデル候補のいずれを用いても信頼度がある閾値以上低下する場合には適応後音響モデルを棄却する。この処理により、蓄積された音声全体で認識精度が向上する（つまり、苦手話者以外の話者においても大きな認識精度低下がない）適応後音響モデルを出力することができる。

図１、図２を参照して、本発明の実施例１に係る音響モデル適応装置１０の動作を詳細に説明する。図１は本発明の実施例１に係る音響モデル適応装置１０の構成を示すブロック図である。図２は本発明の実施例１に係る音響モデル適応装置１０の動作を示すフローチャートである。

以下、実際に行われる手続きの順に説明してゆく。本実施例の音響モデル適応装置１０は、音声認識部１００、音声認識結果登録部２００、苦手話者検出部３００、適応用データ選択部４００、音響モデル適応部５００、音響モデル記憶部８００、音声認識結果記憶部９００を備える。

音響モデル記憶部８００には、適応前音響モデルが記憶されている。

音声認識部１００は、音声と音響モデル記憶部８００に記憶された適応前音響モデルが入力され、入力された音声に対して音声認識を行う（Ｓ１００）。音声認識と同時に信頼度を計算し、得られた音声認識結果テキストと信頼度をセットにして出力する。入力される音声は、音声文書（電話会議や講義などのような、複数の発話の連なり）としてもよいし、発話（無音区間に挟まれた、一呼吸に発生された音声区間）としてもよい。出力する信頼度は、入力された音声が音声文書である場合には音声文書認識信頼度となり、入力された音声が発話である場合には発話認識信頼度となる。音声文書認識信頼度は、例えば、「浅見太一，小橋川哲，山口義和，政瀧浩和，高橋敏，“単語の文脈一貫性と音響尤度を用いた音声ドキュメント認識信頼度の推定”，信学技報，SP，110(43)，pp.43-48，2010.」などに記載の方法で計算される。発話認識信頼度は、例えば、「特開２００５−１４８３４２号公報」などに記載の方法で計算される。なお、以上で示した信頼度の計算方法は一例であり、この他にも様々な信頼度の計算方法を利用することが可能である。

音声認識結果登録部２００は、話者ＩＤと音声と音声認識部１００が出力する音声認識結果テキストと信頼度が入力され、入力された話者ＩＤと音声と音声認識結果テキストと信頼度をセットにした音声認識結果を音声認識結果記憶部９００へ記憶する（Ｓ２００）。入力される話者ＩＤは、例えば、音声認識システムによる利用者認証時に得られる利用者ＩＤの値としてもよいし、「特開２０００−１４８１８７」に記載の既存の話者識別技術を適用して得られる値としてもよい。

苦手話者検出部３００は、予め設定された検出条件θが入力され、０個以上の話者ＩＤが含まれる苦手話者の話者ＩＤを出力する。苦手話者検出部３００が処理を実行するタイミングは、例えば、システム運用者による実行指示を受けたときとしてもよいし、予め設定された周期（毎月１日、毎週日曜日、など）としてもよいし、予め設定されたデータ量が登録されるたび（新規音声が１０００個登録されるたび、など）としてもよい。

苦手話者の検出は、音声認識結果記憶部９００に記憶されているすべての話者ＩＤについて、以下の（１）〜（４）の処理を行うことにより行われる。以下では、処理対象の話者ＩＤがＸであるものとして記述する。

（１）音声認識結果記憶部９００から、話者ＩＤ＝Ｘとなっているすべての音声認識結果に含まれる信頼度を取得する（Ｓ３０１）。以下、取得した信頼度の集合をＣｏｎｆＬｉｓｔＩＤ＿Ｘという。
（２）音声認識結果記憶部９００から、話者ＩＤ≠Ｘとなっているすべての音声認識結果に含まれる信頼度を取得する（Ｓ３０２）。以下、取得した信頼度の集合をＣｏｎｆＬｉｓｔＩＤ＿ｎｏｔＸという。
（３）ＣｏｎｆＬｉｓｔＩＤ＿ＸとＣｏｎｆＬｉｓｔＩＤ＿ｎｏｔＸから、検出条件θに基づいて話者ＩＤ＝Ｘを苦手話者の話者ＩＤとして検出するか否かを判断する。検出するか否かの判断方法は、以下のパターンＡ，Ｂのいずれを用いてもよい。
（パターンＡ）ＣｏｎｆＬｉｓｔＩＤ＿ｎｏｔＸの平均値ｍ＿ｎｏｔＸからＣｏｎｆＬｉｓｔＩＤ＿Ｘの平均値ｍ＿Ｘを減算した値が閾値θ以上であれば検出する。この場合、検出条件θは信頼度の平均の差の閾値である。θの決定方法は、例えば、音声認識結果記憶部９００に記憶されているすべての信頼度の標準偏差σを算出し、θ＝σとする方法がある。
（パターンＢ）ＣｏｎｆＬｉｓｔＩＤ＿ｎｏｔＸの平均値ｍ＿ｎｏｔＸとＣｏｎｆＬｉｓｔＩＤ＿Ｘの平均値ｍ＿Ｘに差があるかないかを検定し、有意水準θ％で「ｍ＿Ｘの方がｍ＿ｎｏｔＸより小さい」仮説が支持されれば検出する。検定方法にはｔ検定を用いる。この場合、検出条件θは検定の有意水準である。例えば、θ＝５％と設定すればよい。
（４）検出すると判断された場合、話者ＩＤ＝Ｘを苦手話者の話者ＩＤとして出力する（Ｓ３０３）。

苦手話者検出部３００の出力する苦手話者の話者ＩＤは、「他の話者よりも信頼度が低い方に偏っている話者（すなわち、認識精度が低くなっている話者）」を表す。（３）において、すべての話者ＩＤが検出されず、苦手話者の話者ＩＤがひとつも出力されなかった場合には、以降の処理は実行しない。

適応用データ選択部４００は、予め設定された信頼度閾値δと苦手話者検出部３００が出力する苦手話者の話者ＩＤが入力され、音響モデルの適応に用いる適応用データを出力する（Ｓ４００）。音声認識結果記憶部９００から、話者ＩＤが入力された苦手話者の話者ＩＤであり、かつ、信頼度が信頼度閾値δ以上の音声認識結果に含まれる音声と音声認識結果テキストをペアにして取得する。取得した音声と音声認識結果テキストのペアの集合を適応用データとして出力する。δの決定方法は、例えば、音声認識結果記憶部９００に記憶されているすべての信頼度の平均値μおよび標準偏差σを算出し、δ＝μ−σとするなどの方法がある。

適応用データ選択部４００の出力する適応用データは、適応前音響モデルのパラメータとマッチしていない話者に限定されているため、適応時のパラメータ修正への寄与が大きい。また、認識誤りが比較的少ない音声認識結果テキストが選択されているため、適応による効果が抑制されにくい。

音響モデル適応部５００は、予め設定された適応パラメータτと適応用データ選択部４００が出力する適応用データと音響モデル記憶部８００に記憶された適応前音響モデルが入力され、適応後音響モデルを出力する（Ｓ５００）。適応後音響モデルは、適応前音響モデルと適応用データに対して、入力された適応パラメータτを用いて、音響モデル適応アルゴリズムを適用することで生成される。音響モデル適応アルゴリズムは、例えば、「J.-L.Gauvain and C.-H.Lee, “Maximum a Posteriori Estimation for Multivariate Gaussian Mixture Observations of Markov Chains”,IEEE trans. on Speech and Audio processing,2(2),pp.291-298,1994.」（参考文献１）などに記載された音響モデル適応アルゴリズムを利用することができる。適応パラメータτの意味は利用する音響モデル適応アルゴリズムによって異なるが、参考文献１に記載の音響モデル適応アルゴリズムを用いる場合には、適応前音響モデルに対する適応用データの重みを表す正の数値である。この場合、例えば、τ＝５０と設定すればよい。

音響モデル適応部５００の出力する適応後音響モデルは、適応前音響モデルがマッチしていなかった苦手話者にもマッチするようにパラメータが修正された音響モデルとなっている。
［変型例］
図３、図４を参照して、本発明の実施例１の変型例に係る音響モデル適応装置１０’の動作を詳細に説明する。図３は本発明の実施例１の変型例に係る音響モデル適応装置１０’の構成を示すブロック図である。図４は本発明の実施例１の変型例に係る音響モデル適応装置１０’の動作を示すフローチャートである。

本変型例の音響モデル適応装置１０’は、音声認識部１００、音声認識結果登録部２００、苦手話者検出部３００、適応用データ選択部４００、音響モデル適応部５１０、音響モデル記憶部８００、音声認識結果記憶部９００を備える。

音響モデル適応部５１０は、実施例１の音響モデル適応部５００と同様の処理を行った後に（Ｓ５１１）、出力した適応後音響モデルを音響モデル記憶部８００に記憶する（Ｓ５１２）。続いて、音声認識結果記憶部９００に記憶されているすべての音声認識結果に含まれる音声を再び音声認識して（Ｓ５１３）、音声認識結果テキストと信頼度を更新する（Ｓ５１４）。その後、苦手話者検出部３００以降の処理を繰り返し実行する。繰り返し処理は、例えば、事前に指定された回数（通常は２〜３回）適応後音響モデルの生成が行われるか（Ｓ９９２）、苦手話者検出部３００が苦手話者の話者ＩＤを一つも出力しないか（Ｓ９９１）、のいずれかが満たされたときに処理を停止する。

次に、図５、図６を参照して、本発明の実施例２に係る音響モデル適応装置２０の動作を詳細に説明する。図５は本発明の実施例２に係る音響モデル適応装置２０の構成を示すブロック図である。図６は本発明の実施例２に係る音響モデル適応装置２０の動作を示すフローチャートである。

以下、実際に行われる手続きの順に説明してゆく。本実施例の音響モデル適応装置２０は、音声認識部１００、音声認識結果登録部２００、苦手話者検出部３００、適応用データ選択部４００、音響モデル適応部５５０、音響モデル選択部６００、音響モデル記憶部８００、音声認識結果記憶部９００を備える。

音響モデル適応部５５０は、予め設定された適応パラメータのリストと音響モデル記憶部８００に記憶された適応前音響モデルと適応用データ選択部４００が出力する適応用データが入力され、複数の適応後音響モデル候補を出力する（Ｓ５５０）。複数の適応後音響モデル候補は、入力された適応パラメータのリストに含まれる各適応パラメータを用いて、音響モデル適応アルゴリズムを適用することで、各適応パラメータに対応して生成される。音響モデル適応アルゴリズムは、実施例１の音響モデル適応部５００と同じものを利用することができる。適応パラメータのリストは、例えば、参考文献１に記載の音響モデル適応アルゴリズムを用いる場合には、１０から１００までの値を１０刻みで設定した１０個の値などと設定することができる。値の範囲を広く設定するほど、また、細かい刻み幅に設定するほど、音響モデル選択部の処理で、より精度の高いモデルを選べるようになるが、計算時間が多くかかるようになる。

音響モデル選択部６００は、予め設定された信頼度低下幅閾値εと音響モデル適応部５５０が出力する複数の適応後音響モデル候補が入力され、適応後音響モデルを出力する。まず、音声認識結果記憶部９００に記憶されているすべての信頼度の平均値である適応前信頼度平均値ＢｅｆｏｒｅＡｖｅＣｏｎｆを計算する（Ｓ６０１）。次に、入力された複数の適応後音響モデル候補のそれぞれを用いて、音声認識結果記憶部９００に記憶されているすべての音声認識結果に含まれる音声を音声認識し、同時に信頼度を計算し、適応後音響モデル候補毎に信頼度の平均値を求める（Ｓ６０２）。また、適応後音響モデル候補毎の信頼度の平均値の中から、最大値である適応後信頼度平均値ＡｆｔｅｒＡｖｅＣｏｎｆ、および適応後信頼度平均値ＡｆｔｅｒＡｖｅＣｏｎｆに対応する適応後音響モデル候補ＭａｘＡｃｏｕを選択する。続いて、適応前信頼度平均値ＢｅｆｏｒｅＡｖｅＣｏｎｆから適応後信頼度平均値ＡｆｔｅｒＡｖｅＣｏｎｆを減算することで、信頼度低下幅を求める（Ｓ６０３）。信頼度低下幅が、入力された信頼度低下幅閾値ε未満であれば、ＭａｘＡｃｏｕを適応後音響モデルとして出力し、信頼度低下幅が、信頼度低下幅閾値ε以上の場合には、何も出力せずに終了する（Ｓ６０４）。信頼度低下幅閾値εは、０以上の数値であり、例えば、事前に音声認識結果記憶部９００に記憶されているすべての信頼度の標準偏差σを求め、ε＝σなどと設定することができる。また、消極的に、信頼度が向上した場合のみ出力するようにε＝０と設定してもよい。

音響モデル選択部６００の出力する適応後音響モデルは、音声認識結果記憶部９００に記憶されている音声全体で信頼度を大きく低下させない（または、必ず向上させる）適応後音響モデルとなっている。
［変型例］
図７、図８を参照して、本発明の実施例２の変型例に係る音響モデル適応装置２０’の動作を詳細に説明する。図７は本発明の実施例２の変型例に係る音響モデル適応装置２０’の構成を示すブロック図である。図８は本発明の実施例２の変型例に係る音響モデル適応装置２０’の動作を示すフローチャートである。

本変型例の音響モデル適応装置２０’は、音声認識部１００、音声認識結果登録部２００、苦手話者検出部３００、適応用データ選択部４００、音響モデル適応部５５０、音響モデル選択部６１０、音響モデル記憶部８００、音声認識結果記憶部９００を備える。

音響モデル選択部６１０は、実施例２の音響モデル選択部６００と同様の処理を行った後に（Ｓ６１１〜Ｓ６１４）、出力した適応後音響モデルを音響モデル記憶部８００に記憶する（Ｓ６１５）。続いて、音声認識結果記憶部９００に記憶されているすべての音声認識結果に含まれる音声を再び音声認識して（Ｓ６１６）、音声認識結果テキストと信頼度を更新する（Ｓ６１７）。その後、苦手話者検出部３００以降の処理を繰り返し実行する。繰り返し処理は、例えば、事前に指定された回数（通常は２〜３回）適応後音響モデルの生成が行われるか（Ｓ９９２）、苦手話者検出部３００が苦手話者の話者ＩＤを一つも出力しないか（Ｓ９９１）、音響モデル選択部６１０が適応後音響モデルを出力しないか（Ｓ９９３）、のいずれかが満たされたときに処理を停止する。

＜プログラム、記録媒体＞
上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

本発明は、音声認識に用いる不特定話者音響モデルの教師なし適応を行うために利用することができる。

１０、１０’、２０、２０’ 音響モデル適応装置
１００音声認識部
２００音声認識結果登録部
３００苦手話者検出部
４００適応用データ選択部
５００、５１０、５５０音響モデル適応部
６００、６１０音響モデル選択部
８００音響モデル記憶部
９００音声認識結果記憶部

Claims

音響モデル記憶部に、不特定多数の話者の音声を認識する音声認識に用いる適応前音響モデルが記憶されており、
音声認識部が、入力された音声から、前記適応前音響モデルを用いて、少なくとも音声認識結果テキストと信頼度を出力する音声認識ステップと、
音声認識結果登録部が、少なくとも前記音声を発話した話者を特定する話者ＩＤと前記音声と前記音声認識結果テキストと前記信頼度からなる音声認識結果を、音声認識結果記憶部に記憶する音声認識結果登録ステップと、
苦手話者検出部が、前記音声認識結果記憶部から、前記音声認識結果をすべて読み込み、予め設定された検出条件に基づいて、他の話者よりも音声認識精度が低い苦手話者の話者ＩＤを抽出する苦手話者検出ステップと、
適応用データ選択部が、前記音声認識結果記憶部から、話者ＩＤが前記苦手話者の話者ＩＤであり、かつ、信頼度が予め設定された信頼度閾値以上である音声認識結果を読み込み、少なくとも前記音声と前記音声認識結果テキストからなる適応用データを抽出する適応用データ選択ステップと、
音響モデル適応部が、前記適応前音響モデルと前記適応用データから、予め設定された適応パラメータを用いて、適応後音響モデルを出力する音響モデル適応ステップと、
を有することを特徴とする音響モデル適応方法。
請求項１に記載の音響モデル適応方法であって、
前記検出条件は、話者ＩＤが当該話者ＩＤである音声認識結果に含まれる信頼度の平均値を、話者ＩＤが当該話者ＩＤ以外である音声認識結果に含まれる信頼度の平均値から、減算した値が、予め設定された閾値以上であれば、当該話者ＩＤを苦手話者の話者ＩＤとするものである
ことを特徴とする音響モデル適応方法。
請求項１に記載の音響モデル適応方法であって、
前記検出条件は、予め設定された有意水準で、話者ＩＤが当該話者ＩＤである音声認識結果に含まれる信頼度の平均値が、話者ＩＤが当該話者ＩＤ以外である音声認識結果に含まれる信頼度の平均値より小さいことが検定により支持されれば、当該話者ＩＤを苦手話者の話者ＩＤとするものである
ことを特徴とする音響モデル適応方法。
請求項１から３のいずれかに記載の音響モデル適応方法であって、
音響モデル選択ステップをさらに有し、
前記音響モデル適応ステップは、複数の適応パラメータが予め設定されており、前記適応前音響モデルと前記適応用データから、前記適応パラメータ毎に、複数の適応後音響モデル候補を出力し、
前記音響モデル選択ステップは、音響モデル選択部が、前記音声認識結果記憶部から、前記音声認識結果をすべて読み込み、前記音声認識結果に含まれるすべての信頼度を用いて、適応前信頼度平均値を求め、前記音声認識結果に含まれるすべての音声と前記適応後音響モデル候補を用いて、適応後信頼度平均値を求め、前記適応後信頼度平均値から前記適応前信頼度平均値を減算して信頼度低下幅を求め、前記信頼度低下幅が予め設定した信頼度低下幅閾値未満であれば、前記適応後信頼度平均値に対応する適応後音響モデル候補を適応後音響モデルとして出力する
ことを特徴とする音響モデル適応方法。
請求項１から３のいずれかに記載の音響モデル適応方法であって、
前記音響モデル適応ステップは、出力した適応後音響モデルを前記音響モデル記憶部に記憶し、前記音声認識結果記憶部から、前記音声認識結果をすべて読み込み、前記音声認識結果に含まれるすべての音声について、前記適応後音響モデルを用いて、音声認識結果テキストと信頼度を出力し、当該音声認識結果テキストと当該信頼度を前記音声認識結果記憶部に記憶し、
前記苦手話者検出ステップと前記適応用データ選択ステップと前記音響モデル適応ステップを、所定の条件を満たすまで繰り返し実行する
ことを特徴とする音響モデル適応方法。
請求項４に記載の音響モデル適応方法であって、
前記音響モデル選択ステップは、出力した適応後音響モデルを前記音響モデル記憶部に記憶し、前記音声認識結果記憶部から、前記音声認識結果をすべて読み込み、前記音声認識結果に含まれるすべての音声について、前記適応後音響モデルを用いて、音声認識結果テキストと信頼度を出力し、当該音声認識結果テキストと当該信頼度を前記音声認識結果記憶部に記憶し、
前記苦手話者検出ステップと前記適応用データ選択ステップと前記音響モデル適応ステップと音響モデル選択ステップを、所定の条件を満たすまで繰り返し実行する
ことを特徴とする音響モデル適応方法。
不特定多数の話者の音声を認識する音声認識に用いる適応前音響モデルを記憶する音響モデル記憶部と、
音声認識結果を記憶する音声認識結果記憶部と、
入力された音声から、前記適応前音響モデルを用いて、少なくとも音声認識結果テキストと信頼度を出力する音声認識部と、
少なくとも前記音声を発話した話者を特定する話者ＩＤと前記音声と前記音声認識結果テキストと前記信頼度からなる音声認識結果を、前記音声認識結果記憶部に記憶する音声認識結果登録部と、
前記音声認識結果記憶部から、前記音声認識結果をすべて読み込み、予め設定された検出条件に基づいて、他の話者よりも音声認識精度が低い苦手話者の話者ＩＤを抽出する苦手話者検出部と、
前記音声認識結果記憶部から、話者ＩＤが前記苦手話者の話者ＩＤであり、かつ、信頼度が予め設定された信頼度閾値以上である音声認識結果を読み込み、少なくとも前記音声と前記音声認識結果テキストからなる適応用データを抽出する適応用データ選択部と、
前記適応前音響モデルと前記適応用データから、予め設定された適応パラメータを用いて、適応後音響モデルを出力する音響モデル適応部と、
を備えることを特徴とする音響モデル適応装置。
請求項７に記載の音響モデル適応装置としてコンピュータを機能させるためのプログラム。