JP3920749B2

JP3920749B2 - 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置

Info

Publication number: JP3920749B2
Application number: JP2002277225A
Authority: JP
Inventors: 晋治渡部; 篤中村; 泰浩南; 修功上田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2002-09-24
Filing date: 2002-09-24
Publication date: 2007-05-30
Anticipated expiration: 2022-09-24
Also published as: JP2004117503A

Description

【０００１】
【発明の属する技術分野】
この発明は、確率統計的な音声認識に用いられる音響モデルの作成方法、その装置、そのプログラムおよびその記録媒体と、上記音響モデルを用いた音声認識装置に関する。
【０００２】
【従来の技術】
まず音声認識装置の概略を説明する（詳しくは例えば非特許文献１参照）。音声認識装置は図１に示すように主に、フレームごとに学習音声信号データ（以下単に学習データと書く）を時系列特徴量ベクトルに変換する特徴量ベクトル変換部１１と、モデルパラメータ学習及び適切なモデル構造決定を行う音響モデル作成部１２と、得られた音響モデルを用いて未知入力音声の時系列特徴量ベクトルに対しスコアを算出し、これに発音辞書や言語モデル等に対するスコアを考慮して認識結果を与える認識部１３とからなる。
【０００３】
音響モデルについて説明する。通常音声認識用音響モデルでは各音素を隠れマルコフモデル（ＨＭＭ）で表現する。図２に示すようにＨＭＭは１乃至複数の各状態Ｓ１，Ｓ２，Ｓ３に対して出力分布Ｄ１，Ｄ２，Ｄ３がそれぞれ与えられる。通常この出力分布Ｄ１，Ｄ２，Ｄ３には図２に示すように混合ガウス分布が用いられる。図２において矢印１４，１５は状態遷移を表わし、ＨＭＭ状態数は３、出力分布の混合数も３の場合である。学習データに対してはその何れの部分が何れの音素であるかを示すラベル情報が与えられている。ラベル情報により得られる学習データ中の各音素に対応するデータから、尤度を最大化するようにモデルパラメータ（ガウス分布の平均、分散、混合重み係数、状態遷移確率）を推定することをモデルパラメータの学習と呼ぶ。そのモデルパラメータを推定する最尤法は、データが十分大きいという近似のもとに成り立つ手法であるため、データが小さいとモデルパラメータの推定が不正確であるという問題がある。また、１音素あたりのＨＭＭ状態数や、出力分布の混合数をいくつに設定するかがモデル構造の決定にあたる。他にも音素カテゴリーをどのように設定するかや、ベイズ法の場合、事前分布をどう設定するかといった問題もモデル構造決定にあたる。
【０００４】
ここで従来の音響モデル作成法について図３を参照して説明する。まず、複数の与えられたモデル構造１〜Ｎに対し、仮モデル作成部１２−１〜１２−Ｎにおいて、まず最尤学習によるモデルパラメータの推定をモデルパラメータ推定部１２１で入力された特徴量ベクトル系列について行うことにより、それぞれ仮音響モデルを作成する。モデル構造の決定は、認識率を基準に評価する。上記課程で得られたそれぞれの仮音響モデルを用いて、認識部１２２でそれぞれの認識結果を出力し、さらにそれらを用いて評価部１２３でそれぞれの認識率を出力する。モデル選択部１２４でこれらＮ個の認識率を比較して認識率の高さで仮音響モデルを評価し、最も高い認識率の仮音響モデルを、音響モデル構造と決定する。このように従来法では、認識部１２２と評価部１２３で認識率を得ることによってはじめてモデル構造の評価を行うことができる。このようなモデル評価は、計算時間がかかる、認識用のデータによって結果が変わる、自動化が難しいといった問題を抱えている。
【０００５】
一方、様々なモデル構造を用意してモデルパラメータの学習を行い、それをもとに記述長、ベイズ情報量といった評価関数を計算して、それを用いてモデル構造決定を行う手法もある（例えば非特許文献２、３参照）。つまり図４に示すように、モデル作成部１２−１〜１２−Ｎではそれぞれまず入力された特徴量ベクトル系列について、そのモデル構造に対するモデルパラメータをモデルパラメータ推定部１２１で最尤学習法により推定する。次にこれら各推定したモデルパラメータについて評価関数値（非特許文献２では記述長、非特許文献３ではベイズ情報量）を評価関数計算部１２５でそれぞれ計算し、モデル選択部１２４でこれら評価関数値中の最も高い仮音響モデルを選択して、音響モデル構造と決定する。
【０００６】
このようにこれらの手法は認識部で認識結果を出力し、評価部で認識率を出力するといった操作が必要ではないため、図３に示した手法における上記の問題点を解決することができる。しかしこれらの評価関数はいずれもデータが十分大きいという近似のもとに成り立つ評価関数である。そのため、少量データのときは適切なモデル構造決定が行われないという問題が生じる。また、これらの評価関数はいずれも、音声認識用音響モデルのような潜在変数を含むモデルに対しては正確な評価関数値を与えることができないため、このような観点からも適切なモデル構造決定が行われないという問題が生じる。さらに、モデルパラメータ推定時の評価関数は尤度であり、モデルの評価関数は記述長又はベイズ情報量であり、複数の評価関数がモデル作成において使われることになり、これにより適切な音響モデルが作成されないという問題が生じる。
【０００７】
音響モデルの学習ではないが、一般にベイズ法を用いると、学習対象に対し事前知識を事前分布として導入でき、学習データが少ないときに他の学習法と比べ汎化能力が高い学習ができ、またモデル選択の自動決定も可能であることが知られている（例えば非特許文献４参照）。しかしベイズ法では事後分布の推定が重要であるが、モデルに潜在変数が含まれる場合（潜在モデル）、複雑な期待値操作が必要となるため、これを解析的に扱うことは一般的に難しい。音声認識用音響モデルに利用されるＨＭＭや混合ガウス分布モデルは、潜在モデルであるため、ベイズ法に適用するのは困難であった。
【０００８】
近年、期待値計算に変分近似を利用した、変分ベイズ法による事後分布（変分事後分布）推定に基づく学習法が提案されている（例えば非特許文献４参照）。しかし、変分ベイズ法を用いて音響モデルを作成することは提案されていない。音響モデルの作成にはモデルパラメータの学習だけでなく、コンテキスト依存ＨＭＭにおける状態共有の仕方や総状態数、および状態ごとの出力分布混合数の設定といったモデル構造選択を含んだより複雑な学習法を必要とする。
なおこの発明の実施形態中に１具体例として状態共有ＨＭＭ構造の選択を音素決定木法に基づいて行うが、この手法は例えば非特許文献５に示されている。
【０００９】
【非特許文献１】
古井貞煕著「近代科学社」出版、２００１年Ｐ．１７４−２１０
【非特許文献２】
篠田浩一、渡辺隆夫著「情報量基準を用いた状態クラスタリングによる音響モデルの作成」信学技報、ＳＰ９６−７９、１９９６年、ＰＰ．９−１５
【非特許文献３】
ダブリュ．チョウ（W.Chou），ダブリュ．ライヒル（W.Reichl）著「デイシジョンツリステートタイングベースドオンペナライズドベイジアンインフォメーションクリテリオン（Decision Tree State Tying Based on Penalized Bayesian Information Criterion）プロシ．アイシイエイエスエスピー（Proc.ICASSP）'99、第１巻、ＰＰ．３４５−３４８（１９９９）．
【非特許文献４】
上田修功著「最小モデル探索のための変分ベイズ学習」人工知能学会論文誌、１６巻、２号、ＰＰ．２９９−３０８、２００１年
【非特許文献５】
ジェイ．ジェイ．オデル（J.J.Odell）著「ザユースオブコンテックスインラージボキアブラリスピーチリコグナイション（The Use of Context in Large Vocabulary Speech Recognition）」１９９５年ピーエッチデーゼイシス，ケンブリッジユニバーシテイ（PhD thesis，Cambridge University）
【００１０】
【発明が解決しようとする課題】
この発明の目的は記述長最小化（ＭＤＬ）基準や最尤基準による手法と比べ、少量データでも性能のよいものを作ることができ、しかも計算を効率的に行うことができる音響モデル作成方法、その装置、そのプログラム及びその記録媒体と、その音響モデルを用いる音声認識装置を提供することにある。
【００１１】
【課題を解決するための手段】
この発明によれば、音響モデルのモデル構造及びベイズ的事前分布を複数用意して、学習データから変分ベイズ法により、モデルパラメータ学習とモデル構造評価関数値を算出し、これら算出されたモデル構造評価関数値をもとにモデル構造を決定してそのモデルを音響モデルとする。
【００１２】
【発明の実施の形態】
この発明による音響モデル作成装置の１実施形態の機能構成を図５に示す。学習データは特徴量ベクトル変換部１１で特徴量ベクトル系列に変換される。複数のモデル構造１〜Ｍを用意し、それぞれに対し、評価部２１−１〜２１−Ｍの事後分布推定部２１１で、変分ベイズ法を用いて、変分ベイズ評価関数をもとに特徴量ベクトル系列についてモデルパラメータ学習を行う。つまりラベル情報により得られる学習データ中の各音素に対応するデータ（特徴量ベクトル）から、変分ベイズ評価関数を最大化するようにモデルパラメータの変分事後分布を推定する。
【００１３】
これら各推定された変分事後分布をもとに再び変分ベイズ評価関数値をそれぞれの評価関数計算部２１２で計算し、これらの評価関数１〜Ｍを用いて、モデル選択部２２で音素カテゴリー全体としての評価関数が最も多くなるように各カテゴリーのモデル構造を決定し、これと、その対応するモデルパラメータの変分事後分布とを音素カテゴリーの音響モデルとする。
この発明は変分ベイズ法を用いることによりモデルパラメータ学習と、モデル構造決定に同様の評価関数を用いるため、複数の評価関数を用いる従来手法と比べて最適性がより保証される。
【００１４】
また、初期モデル構造及び事前分布に既存の音響モデルを用いて、適応用学習音響信号に対し上記の音響モデル作成処理を行うことにより、その適応用学習音声信号に適応化された音響モデルを作成することができる。
このようにして得られた音響モデルは、モデルパラメータそのものではなくそれの変分事後分布で構成される。そのため、この音響モデルと音声認識に用いる装置は、この変分事後分布と未知音声入力データからベイズ予測に基づいて音響スコアが計算される。
【００１５】
実施例
次により具体的に、つまりこの発明の実施例を説明するが、この説明に先立ち、ベイズ法を用いて音響モデルを作成しようとすると、大変であることを示し、その後、この発明の実施例を説明する。
図６に示すように入力されたラベル付き学習データに対し、必要に応じて例えば聴覚特性を考慮した波形処理（フィルタ処理）などの前処理を行い（Ｓ１）、ＬＰＣ（線形予測）分析などの相関処理をフレームごとに行い、更に必要に応じて周波数帯域の制限などスペクトル処理を施して、Ｄ次元時系列特徴量ベクトルＯ＝｛Ｏ _t∈Ｒ^D：ｔ＝１，…，Ｔ｝に変換する（Ｓ２）。ここでＴは全フレーム数を表す。特徴量としてはケプストラム、Δケプストラム、メル周波数ケプストラムなどが用いられる。
【００１６】
この時系列特徴量ベクトルＯに対し、初期モデル構造を設定する（Ｓ３）。
初期モデル構造設定では、まず初めに初期音素カテゴリーを設定する（Ｓ３−１）。初期音素カテゴリーとしては前後の音素環境を考慮した環境依存音素や環境独立音素を用いる。次に１つの音素カテゴリーを複数個のＨＭＭ状態に細分化し、その各状態に出力分布を設定する（Ｓ３−２）。さらに、ベイズ的事前分布をＨＭＭ状態遷移確率及び出力分布に対して設定する（Ｓ３−３）。
この事前分布は、統計的に信頼性の高いパラメータを与える。例えば、カテゴリーを細分化すると、つまり例えば環境依存音素の環境音素（前後の音素）数を多くして、モデル数を多くすると、それに伴い各カテゴリーに割り当てられる学習データ（特徴量ベクトル、以下同様）が不足し、統計的信頼性が低くなる。そのため、複数の環境依存音素に割り当てられる学習データを共有し、例えばトライホン（triphone：連続する３つの音素）の中心の音素が等しい学習データを、その全てのtriphoneカテゴリーに対し共通に用い、それによって得られるモデルパラメータを環境依存音素の事前分布として与える。また、各カテゴリーに含まれるＨＭＭ状態数を増加させると、それに伴い各出力分布に割り当てられる学習データが不足し、統計的信頼性が低くなる。そのため、複数のＨＭＭ状態に割り当てられる学習データを共有し、例えば隣接する状態に割り当てる学習データ、その両状態に対し共通に用い、それによって得られるモデルパラメータを事前分布として与える。また、出力分布中の混合数を増加させると、それに伴い各ガウス分布に割り当てられる学習データが不足し、統計的信頼性が低くなる。そのため、複数のガウス分布に割り当てられる学習データを共有し、それによって得られるモデルパラメータを事前分布として与える。
【００１７】
なお、不特定話者用モデルを料金話者用に適応化する話者適応タスクでは、不特定話者のモデルパラメータを事前分布として与える。雑音抑圧や音源分離による前処理によって歪んだ音声信号入力に対する適応タスクでは、歪みのない入力音声信号により作られたモデルパラメータを事前分布として与える。
このように事前分布の多様性を含めたモデルをモデル構造と呼ぶ。ベイズ学習では、このモデル構造の自由度を確率変数ｍ∈Ｍとすることにより、ｍの事後分布を導入することができる。ここでＭはｍの集合を表す。
【００１８】
次に、前記初期モデル構造からモデルパラメータ学習をベイズ学習を用いて行う（Ｓ４）。ベイズ学習で重要なのは確率変数に対する事後分布を求めることであるが、通常これを求めるのは容易ではない。例えば、ある固定されたモデル構造ｍでの、音素カテゴリーｃに関するモデルパラメータθ_cに対する事後分布ｐ（θ_c｜Ｏ，ｍ）を求めるとする。非特許文献４に示すベイズ法の手法を参考にすると、ｐ（θ_c｜Ｏ，ｍ）は、出力分布ｐ（Ｏ，Ｚ｜Θ，ｍ）と事前分布ｐ（Θ｜ｍ）から、次のように表現される。
【数１】

ここで、Θ＝｛θ_c：ｃ＝１，…，Ｃ｝、Ｃは音素カテゴリーの数であり、Θ_-cはθ_cの補集合を表し、Ｚは潜在変数の集合である。モデルパラメータは具体的にはＨＭＭ状態遷移確率や、ＨＭＭ状態中の出力分布を混合ガウス分布で表したときの混合重み係数及びガウス分布における平均、分散である。また、Ｚは具体的には、ＨＭＭ状態系列変数、つまり１音素がどのようにしていくつの状態を通るかのとり得る数や混合ガウス系列変数、つまり、１つの音素が各状態の何番目のガウス分布を通るかのあらゆる組合せの数である。ｐ（Ｏ，Ｚ｜Θ，ｍ）ｐ（Θ，｜ｍ）はモデル構造設定時に具体的な関数形を与えることができる。
式（１）の計算により得られた事後分布を用いて式（２）
【数２】

を計算してベイズ評価関数を計算し（Ｓ５）、更に各ｍについての式（２）の計算結果からそれが最大のものｍを選択する（Ｓ６）。つまり次式を求める。
ｍ＾＝ａｒｇ_m ^maxｐ（ｍ｜Ｏ）（３）
このｍ＾のモデル構造を当該音素カテゴリーの音響モデルとする。全ての音素カテゴリーについて同様の処理を行って各音響モデルを求める。
このようにすればベイズ法により音響モデルを作ることができるが、実際には式（１）の計算は多重積分などを含むため、解析的な扱いが困難である。また、モンテカルロシュミレーションにより求める方法もあるが計算時間の問題からそのようなアプローチは非現実的である。
よって、ベイズ法により音響モデルを作ることは現実的でない。
この発明では変分ベイズ法を用いて音響モデルを作成する。その実施例を図７に示す。前処理（Ｓ１）、特徴量ベクトル変数（Ｓ２）、初期モデル機能設定（Ｓ３）は図６のそれと同様である。
【００１９】
次にこの実施例では式（４）で与える変分ベイズ評価関数を基準にして変分法による近似計算でモデルパラメータの事後分布（変分事後分布）を分布推定する（Ｓ４）。
【数３】

ここで＜ｕ（ｙ）＞_p(y) は分布ｐ（ｙ）に対するｕ（ｙ）の期待値をあらわす。ｑ（Θ，Ｚ｜Ｏ，ｍ）は変分法により近似的に求まる事後分布である。Ｆ^mは変分事後分布ｑ（Θ，Ｚ｜Ｏ，ｍ）に対する汎関数である。式（４）は非特許文献４に示す積分ベイズ法の手法を参考とすると得られる。
確率変数の統計的独立性ｑ（Θ，Ｚ｜Ｏ，ｍ）＝ｑ（Ｚ｜Ｏ，ｍ）Π_c=1 ^Cｑ（θ_c｜Ｏ，ｍ）を仮定し、Ｆ^mをｑ（θ_c｜Ｏ，ｍ），ｑ（Ｚ｜Ｏ，ｍ）に関して変分法を用いて最大化することにより、固定されたｍに対する適切なｑ（θ_c｜Ｏ，ｍ），ｑ（Ｚ｜Ｏ，ｍ）を次式で表現することができる。
【数４】

ｑ（θ_c｜Ｏ，ｍ），ｑ（Ｚ｜Ｏ，ｍ）は相互に依存しているため、バウム−ウェルチアルゴリズムもしくはビタービアルゴリズムに基づく反復計算を用いて効率的に求めることができる。このようにして、ある固定されたｍに対する変分事後分布ｑ（θ_c｜Ｏ，ｍ），ｑ（Ｚ｜Ｏ，ｍ）を変分ベイズ法で、事後分布推定部２１１（図５）において求めることにより、モデルパラメータを学習する。
【００２０】
次にモデル構造決定の指標となる評価関数について考察する。ｍの事前分布を一様と仮定すると、変分事後分布ｑ（ｍ｜Ｏ）とＦ^mは次式に示す関係を持つ。
【数５】

により適切なモデル構造ｍ＾を事後確率最大化（ＭＡＰ）の意味で決定することができる。つまり、Ｆ^mはある固定されたｍにおけるｑ（Θ｜Ｏ，ｍ），ｑ（Ｚ｜Ｏ，ｍ）の最適性を与える評価汎関数であると同時に、モデル構造ｍの最適性を与える評価関数であると言える。従って、Ｆ^mを用いることにより、ＨＭＭや混合ガウス分布モデルのような潜在変数を含むモデル学習およびモデル構造の決定を、変分ベイズ評価関数を用いて統一的に議論できる。モデルパラメータ学習で得られた変分事後分布ｑ（Θ，Ｚ｜Ｏ，ｍ）を式（４）に代入して固定されたｍにおけるモデル構造決定関数である変分ベイズ評価関数を評価関数計算部２１２（図５）で計算する（Ｓ５）。
Ｆ^mを集合Ｍにおける全てのｍに対して計算することにより、モデル選択部２２（図５）で式（７）に基づき適切なモデル構造を決定する（Ｓ６）。つまりステップＳ５で求めた評価関数値が最も大きいモデル構造と、その事後分布ｑ（θ_c｜Ｏ，ｍ），ｑ（Ｚ｜Ｏ，ｍ）を最大化する事後分布とを当該音素カテゴリーｃの音響モデルとする。
全ての音素カテゴリーｃを選択したかを調べ（Ｓ７）、選択していないものがあればその１つを選択してステップＳ３に戻る（Ｓ８）。全ての音素カテゴリーについての音響モデルの決定をすると処理を終了する。
【００２１】
モデル選択部２２におけるモデル構造の決定はモデル構造の変化を木構造を用いて階層的に表現することにより、効率よく適切なモデル構造を探索することができる。以下この実施例において、木構造を用いた環境依存音素の共有に関するモデル構造決定例を示すが、木構造以外であっても、全ての組み合わせを考慮して最もＦ^mが大きくなるようにモデル構造を決定する手法や、最も細分化されたモデル構造における各状態やガウス分布をボトムアップ的に併合させ、最もＦ^mが大きくなるようにモデル構造を決定する手法を用いてもよい。また同様の議論が、環境依存音素の共有に関するモデル構造決定のみならず、１音素あたりのＨＭＭ状態数及び、ＨＭＭ状態を混合ガウス分布で表したときの混合数をいくつにするかといったモデル構造決定においても有効である。なぜなら、環境依存音素の共有問題は環境独立音素を複数の環境依存音素でクラスタリングする問題とみなすことができ、同様にＨＭＭ状態数、混合数の決定問題もそれぞれ環境依存音素、ＨＭＭ状態におけるクラスタリング問題とみなすことができるため、これらは本質的には同様のクラスタリング問題として扱うことができるからである。そのため、この３つの種類のクラスタリングを同時に行う、もしくは、それぞれ独立に行うことにより、モデル構造を決定していくことができる。
【００２２】
環境依存音素の共有問題について実施例を示す。この手法は例えば非特許文献５に示されている。まず環境独立音素カテゴリーが３つのＨＭＭ状態を含み、その各状態に含まれる出力分布が１混合ガウス分布で表される初期モデルを用意して説明を行う。またこのときの環境依存音素カテゴリーとして当該音素の直前直後の音素を考慮したtriphoneカテゴリーを用いる。ある木の節ｎに対応付けられたＨＭＭ状態集合をΩ（ｎ）とする。初めに、ルートノード（ｎ＝０）を用意する。つまりルートノードには、同一の中心音素を持つtriphone ＨＭＭ状態の集合を対応付けさせる。このとき、質問群から適切に選ばれた質問Ｑを用いて、図８に示すように集合Ω（ｎ）を質問Ｑの回答（Ｙｅｓ又はＮｏ）に応じてΩ（ｎ_Y ^Q）とΩ（ｎ_N ^Q）に分割し、それらを新たなノードｎ_Y ^Qとｎ_N ^Qに対応付ける適切な質問の選び方は後で述べる。
【００２３】
以下では分枝数を２として話を進めるが、分枝数が２以上であっても同様に話を進めることができる。この分割により新しく得られたノードに含まれる状態集合に対してそれぞれ再び質問による分割を行い、これを繰り返すことによって、図９に示すように、最終的に木構造が構築される。各リーフノードに対応付けられた状態集合を共有することによって、状態共有型ＨＭＭ構造が構築される。用いる質問群は音声学の知見により得られた、前後の音素環境に対する質問群である。質問の具体例を図１０に示す。このとき、各ノードにおける分割前後でｑ（Θ｜Ｏ，ｍ），ｑ（Ｚ｜Ｏ，ｍ）を変分ベイズ学習によりそれぞれ求め、それをもとに評価関数Ｆ^mの値をそれぞれ算出する。Ｆ^m値の変化が最も大きい質問を採用することによって適切な分割を行うことができる。これを全てのノードに対して行うことにより、Ｆ^m値で最適化された木構造を得ることができる。またＦ^mがこれ以上増減しないノードをリーフノードとすることにより木構造におけるリーフノード数を決定することができる。これにより適切なモデル構造を決定することができる。つまり各リーフノードに残った複数のtriphoneカテゴリーに対し、そのリーフノードのモデル構造をモデル構造として共通に用いる。質問を用いるのではなくΩ（０）を分割する場合の全ての分割のやり方、つまり分割に対する全組み合わせを考えその各組み合わせについて分割前後のｑ（Θ｜Ｏ，ｍ），ｑ（Ｚ｜Ｏ，ｍ）を変分ベイズ法によりそれぞれ求め、それをもとにＦ^mを算出し、Ｆ^mの変化が最も大きい分割を採用するようにしてもよい。
【００２４】
ＨＭＭ状態数、混合ガウス数の決定も同様に行うことができる。例えばＨＭＭ状態数についてみれば、各ノードにおいて、共有した学習データ集合を状態数が１のもの、それ以外のものとして分割した時の分割前後におけるＦ^mの値を求め、同様に状態数が２，３，…それぞれのものと、その他のものとにそれぞれ分割した時の各分割前後の各Ｆ^mを求め、これら分割前後におけるＦ^mの変化の最も大きな分割のやり方を採用して、これにより分割された学習データ集合をそれぞれ次のノードの学習データ集合とする。
以上のようにして、Ｆ^mを評価関数とした変分ベイズ的アプローチにより、モデルパラメータの学習と適切なモデル構造決定により音響モデルを作成することができる。前記モデル構造決定、ＨＭＭ状態数決定、混合ガウス数決定を例えば各分割条件を同時に与えることにより同時処理で決定してもよい。
【００２５】
更に必要に応じて図７中に破線で示すように、ステップＳ７で全ての音素カテゴリーを選択した場合は、処理を終了とすることなく、得られた音響モデルに基づき、モデルパラメータの学習を変分ベイズ法により行う（Ｓ９）。この場合はステップＳ４において行ったと同様のことを行うがその際に用いるモデル構造は前記モデル構造１〜Ｍではなく、ステップＳ６で得られた音響モデルについて行う。この再モデルパラメータ学習で得られたモデルパラメータの事後分布を、その音響モデルに採用する。図７では各音素カテゴリーごとにそのモデル構造とモデルパラメータの変分事後分布を決定したが、全音素カテゴリーについて図７中のステップＳ３以後を実行し、音素カテゴリー全体としての評価関数値が最大になるように、各音素カテゴリーのモデル構造を決定し、これと、その対応するモデルパラメータの変分事後分布とをその音素カテゴリーの音響モデルとし、全音素カテゴリーの音響モデルを同時に決定してもよい。
【００２６】
このようにモデルパラメータを再学習する場合は、次のようにしてもよい。つまり先にモデル構造の決定（選択）を、音素決定木法に基づいて行う例を示した場合と同様に、各ＨＭＭ状態の出力分布を単一ガウス分布とし、かつ各ＨＭＭ状態への学習データの割り当てを固定とすることにより、変分事後分布の推定に反復計算を省略して、評価関数値を求めることができ、つまり計算時間を大幅に短縮して評価関数値を求め、その後、ステップＳ９におけるモデルパラメータの再学習において、実際に用いるモデルパラメータの変分事後分布を求め、かつＨＭＭの状態あたりの出力分布の混合数を増加し、また学習データのＨＭＭ状態への割り当てを可変にする。
【００２７】
前述したように、特定話者用モデルを作る場合、つまり話者適応タスクでは、既存の不特定話者用音響モデルを初期モデル構造とし、かつそのモデルパラメータをベイズ的事前分布として、図７中のステップＳ４以後の処理を行えばよい。入力音声学習データとしては、その特定話者の音声信号を用いる。また歪みを受けている音声信号に対する認識用音響モデルを作る場合、つまり歪み音声に対する適応タスクでは歪みのない入力音声により作られた既存の音響モデルを初期モデル構造とし、かつそのモデルパラメータをベイズ的事前分布として、図７中のステップＳ４以下の処理を行えばよい。入力音声学習データとしてはその歪みを受けている音声信号を用いる。
【００２８】
次にこの発明により作成された音響モデルを用いる音声認識装置の実施例を、図１１を参照して説明する。図１２にその処理の流れを示す。
未知入力音声信号は特徴量ベクトル変換部３１でフレームごとに特徴量ベクトルｘに変換される（Ｓ１）。この場合の特徴量はモデル格納部３２に格納されている音響モデルを作成する際に用いた特徴量と同一のものとする。モデル格納部３２にはこの発明の方法により作成された音響モデルにあって、各音素カテゴリーごとにそのモデルパラメータθ_c、つまりガウス分布の平均や分散などの変分事後分布ｑ（θ_c｜Ｏ，ｍ）とモデル構造とが格納されている。実際的には、ガウス分布の平均の平均、分散の平均などが変分事後分布ｑ（θ_c｜Ｏ，ｍ）として格納されている。また各音素カテゴリーｃごとに、そのモデルパラメータθ_cとモデル構造ｍに対する音声データｘの分布ｐ（ｘ｜θ_c，ｍ）、つまりその分布の平均と分散が格納されている。
【００２９】
フレームごとの特徴量ベクトルｘについて、各音素カテゴリーｃについてモデル格納部３２内のその音響モデルを用いてベイズ予測に基づく音響スコアｓ（ｃ）を、次式によりスコア計算部３３で計算する。
ｓ（ｃ）＝∫ｄθ_cｑ（θ_c｜Ｏ，ｍ）ｐ（ｘ｜θ_c，ｍ）（８）
この積分を次のように事後確率最大化近似をしてもよい。
【数６】

このようにして計算したフレームごとの各音素カテゴリーｃごとの音響スコアｓ（ｃ）を用いて音素カテゴリー決定部３４において、例えばビダビアルゴリズムにより音素カテゴリー又はその候補を決定し（Ｓ３）、更にこれら音素カテゴリーについて単語認識部３５で、メモリ３６内の発音辞書、言語モデルを組み合わせることにより、単語列の認識結果を出力する（Ｓ４）。
この発明の有効性を実証するために、非特許文献２に示す最尤法と記述長最小化（ＭＤＬ）基準の組み合わせによるパラメータ学習、モデル構造選択法を従来法とし、これと、この発明方法とについて、学習データの変化に伴う単語認識率の推移について実験を行った。実験にあたり図１３に示す音声分析条件と図１４に示す初期ＨＭＭを用意する。事前分布パラメータは、音素決定木のルートノードにおけるtriphone ＨＭＭ状態集合に割り当てられた学習データの平均、分散により与える。図１５に学習と評価に用いたデータを示す。学習データに対して、乱数を用いてランダムに文を抜き取ることによりデータ量を変化させた。学習データの変化に伴う発明法と従来法の認識率及び木分割時の分割総数（≒モデル構造）をそれぞれ図１６、図１７に示す。従来法（１）は状態共有型ＨＭＭの構築においてルートノードのサンプル数を元に記述長を求め、ＭＤＬ基準でモデル構造を選択したものである。なおこの実験では出力分布混合数を１に保った。この発明のベイズ的基準と従来法（１）を比較すると、小規模学習データ領域（６０文以下）では発明法の認識結果が従来法（１）と比較して、最大で５０％近く上回っているのが図１９からわかる。これは発明法が、ＭＤＬ基準の適用範囲外であるような小規模学習データ領域に対しても、十分機能することを示している。実際図１６において学習データが少なくなるに従い、発明法は分割数０のモデル構造を選択するが、従来法（１）では分割数が０に近づかない。
【００３０】
一方、ＭＤＬ基準で小規模学習データ領域での上述の問題を回避するために記述長を調節したのが、従来法（２）のグラフである。ここでは記述長を、小規模学習データ領域での分割数がこの発明のベイズ法の場合と一致するように調節した。このようにほぼモデル構造を等しくした場合でも発明法が従来法と比べて１０％ほど上回っているのがわかる。これは、変分事後分布の推定や、ベイズ推測に基づく音響スコア計算における期待値操作により、過学習が緩和されたために生じた差であると考えられる。
次に、学習データを３，０００文に固定し、状態あたりの出力分布混合数を一律に変化させた際のベイズ的評価関数値と、それに伴う認識率の変化を示したグラフを図１８に示す。認識率は混合数の増加に伴って向上するが、１５混合以上になると過学習の効果により逆に劣化していく。このとき評価関数値の変化は認識率の変化とほぼ一致しており、このことから発明法が出力分布混合数の設定に対しても効果的であることがわかる。
【００３１】
図５に示したこの発明による音響モデル作成装置をコンピュータにより機能させることもできる。その場合は、例えば図７に示した方法の各ステップをコンピュータに実行させるための音響モデル作成プログラムを、ＣＤ−ＲＯＭ、磁気ディスクなどの記録媒体又は通信回線を介してコンピュータ内にダウンロードして、そのプログラムをコンピュータに実行させればよい。同様に図１１に示した音声認識装置をコンピュータに機能させてもよい。
【００３２】
【発明の効果】
以上述べたようにこの発明によれば小規模学習データでも高性能な音響モデル構造決定、音響モデルのパラメータ学習を実現することができる。
【図面の簡単な説明】
【図１】音響モデル作成と、音声認識の一般的機能構成を示す図。
【図２】隠れマルコフモデルの例を説明するための図。
【図３】音声認識により評価を行う従来の音響モデル作成装置の機能構成を示す図。
【図４】評価関数により評価を行う従来の音響モデル作成装置の機能構成を示す図。
【図５】この発明による音響モデル作成装置の機能構成例を示す図。
【図６】ベイズ法を用いる音響モデル作成方法の考えられる手法を示す流れ図。
【図７】この発明による音響モデル作成方法の例を示す流れ図。
【図８】木構造を用いるモデル構造決定の際の質問に対するＨＭＭ状態集合の分割を説明するための図。
【図９】モデル構造決定に用いた木構造の例を示す図。
【図１０】ＨＭＭ状態集合の分割に用いる質問の具体例を示す図。
【図１１】この発明による音声認識装置の機能構成例を示す図。
【図１２】この発明による音声認識方法の処理手順の例を示す流れ図。
【図１３】実験に用いた音声分析条件を示す図。
【図１４】実験に用いた初期ＨＭＭを示す図。
【図１５】実験に用いた学習・評価データを示す図。
【図１６】学習データに応じた認識率の実験結果を示す図。
【図１７】学習データに応じた分割数の実験結果を示す図。
【図１８】状態あたりの出力分布混合数を一律に変化させた場合の認識率と評価関数値の実験結果を示す図。

Claims

学習音声信号を時系列特徴量ベクトルに変換するステップと、
音響モデルのモデル構造及びベイズ的事前分布を複数用意して、これらについて、上記時系列特徴量ベクトルから変分ベイズ評価関数を最大化するように、確率変数の統計的独立性を近似した上で変分ベイズ法により、各音素カテゴリーごとのモデルパラメータの変分事後分布と、音響モデルの潜在変数の変分事後分布を指数関数型の分布として解析的に導出するステップと、
上記導出された各音素カテゴリーごとのモデルパラメータの変分事後分布と上記導出された音響モデルの潜在変数の変分事後分布をバウムーウェルチアルゴリズムもしくはビタービアルゴリズムに基づく反復計算で求めて、当該求められた各音素カテゴリーごとのモデルパラメータの変分事後分布と当該求められた音響モデルの潜在変数の変分事後分布とを用いて複数の変分ベイズ評価関数値を計算するステップと、
上記計算した複数の変分ベイズ評価関数値をもとに変分ベイズ評価関数を最大とする複数のモデル構造を決定し、その各モデル構造及び対応する上記各音素カテゴリーごとのモデルパラメータの変分事後分布と、上記音響モデルの潜在変数の変分事後分布を組として音響モデルを得るステップとを有する音声認識用音響モデル作成方法。
上記決定されたモデル構造について、上記時系列特徴量ベクトルから、変分ベイズ評価関数を最大化するように、各音素カテゴリーごとのモデルパラメータの変分事後分布と、音響モデルの潜在変数の変分事後分布を再び推定して、上記音響モデルの各音素カテゴリーごとのモデルパラメータの変分事後分布と上記音響モデルの潜在変数の変分事後分布を修正するステップを有することを特徴とする請求項１記載の音声認識用音響モデル作成方法。
上記初期モデル構造及びベイズ的事前分布に既存の音響モデルを用い、上記学習音声信号として適応用学習音声信号を用い、上記既存の音響モデルを上記適応用学習音声信号に適応させた音響モデルを作成することを特徴とする請求項１又は２記載の音声認識用音響モデル作成方法。
上記音響モデルとして状態共有型隠れマルコフモデル構造とし、各時系列特徴量ベクトルの各隠れマルコフモデル状態への割り当てを固定し、各状態の出力分布を単一ガウス分布として、上記各音素カテゴリーごとのモデルパラメータの変分事後分布と、音響モデルの潜在変数の変分事後分布の推定、上記変分ベイズ評価関数値の推定、上記モデル構造の決定を行い、
上記各音素カテゴリーごとのモデルパラメータの変分事後分布と、音響モデルの潜在変数の変分事後分布の修正ステップで、上記時系列特徴量ベクトルの割り当てを可変とし、１状態あたり複数混合ガウス分布を用いることを特徴とする請求項２記載の音声認識用音響モデル作成方法。
学習音声信号が入力され、その時系列特徴量ベクトルを出力する特徴量ベクトル変換部と、
互いに異なるモデル構造及びベイズ的事前分布がそれぞれ設定され、上記時系列特徴量ベクトルがそれぞれ入力され、変分ベイズ評価関数を最大化するように、確率変数の統計的独立性を近似した上で変分ベイズ法により、各音素カテゴリーごとのモデルパラメータの変分事後分布と、音響モデルの潜在変数の変分事後分布を指数関数型の分布として解析的に導出する複数の事後分布推定部と、
これら事後分布推定部よりの導出された各音素カテゴリーごとのモデルパラメータの変分事後分布と、導出された音響モデルの潜在変数の変分事後分布とがそれぞれ入力され、上記導出された各音素カテゴリーごとのモデルパラメータの変分事後分布と上記導出された音響モデルの潜在変数の変分事後分布をバウムーウェルチアルゴリズムもしくはビタービアルゴリズムに基づく反復計算で求めて、当該求められた各音素カテゴリーごとのモデルパラメータの変分事後分布と当該求められた音響モデルの潜在変数の変分事後分布とを用いて複数の変分ベイズ評価関数値をそれぞれ計算する複数の評価関数計算部と、
これら評価関数計算部からの変分ベイズ評価関数値が入力され、変分ベイズ評価関数値を最大とする各モデル構造を決定し、その各モデル構造と対応する上記各音素カテゴリーごとのモデルパラメータの変分事後分布と、上記音響モデルの潜在変数の変分事後分布とを組とした音響モデルを出力するモデル選択部とを具備する音声認識用音響モデル作成装置。
請求項１乃至４の何れかに記載した音声認識用音響モデル作成方法の各ステップをコンピュータに実行させるための音響モデル作成プログラム。
請求項６に記載した音響モデル作成プログラムを記録したコンピュータ読み取り可能な記録媒体。
請求項１乃至４の何れかに記載した音声認識用音響モデル作成方法によって作成された音響モデルが格納されたモデル格納部と、
未知入力音声信号の特徴量ベクトルをフレームごとに求める特徴量ベクトル変換部と、
上記特徴量ベクトルに対する、上記モデル格納部に格納されている各カテゴリーの音響スコアをそのモデルパラメータの変分事後分布を用いて計算するスコア計算部と、
その計算されたスコアから未知入力音声信号のカテゴリーを決定するカテゴリー決定部とを具備する音声認識装置。
未知入力音声信号をフレームごとにその特徴量を求めて特徴量ベクトルに変換し、
上記特徴量ごとに、上記請求項１乃至４の何れかに記載した音声認識用音響モデル作成方法により作成した音響モデルを用いて、ベイズ予測に基づく各カテゴリーごとの音響スコアを計算し、
上記特徴量ごとに得られる上記各カテゴリーごとの音響スコアの系列から上記未知入力音響信号のカテゴリーを決定する
ことを特徴とする音声認識方法。
請求項９記載の音声認識方法の各ステップをコンピュータに実行させるための音声認識プログラム。
請求項１０記載の音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体。