JP4950600B2

JP4950600B2 - 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体

Info

Publication number: JP4950600B2
Application number: JP2006240085A
Authority: JP
Inventors: 晋治渡部; 篤中村
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2006-09-05
Filing date: 2006-09-05
Publication date: 2012-06-13
Anticipated expiration: 2026-09-05
Also published as: JP2008064849A

Description

この発明は、音声認識時に使用する音響モデルを逐次的応法により作成する音響モデル作成装置、および、その装置で作成された音響モデルを用いて音声認識を行う音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体に関する。

［音声認識装置］
従来の音声認識装置の機能構成例を図１に示し、従来の音声認識装置の処理の主な流れを図２のフローチャート図に示す。音声認識装置２は主に、特徴抽出部４と単語列探索部６と音響モデル記憶部８と言語モデル記憶部１０とで構成されている。

まず、音響モデル記憶部８に例えば、音素モデルの読み込みを行う（ステップＳ２）。なお、場合によっては、音素モデルの他に、単語モデル、コンテクスト依存音素モデル等の読み込みを行う。また、言語モデル記憶部１０の読み込みを行う（ステップＳ４）。入力された認識用音声データ１は音声認識装置２に読み込まれ（ステップＳ６）、認識用音声データ１は特徴抽出部４に入力され、認識用音声データ１はフレーム（一定時間区間）ごとに音響的特徴量系列（以下、単に、特徴量系列）に変換される（ステップＳ８）。変換された音響的特徴量系列は図に示していないが、一旦、特徴量記憶部に記憶される。記憶された特徴量系列は、読み出されて、単語列探索部６に入力される。

単語列探索部６では、音響モデル記憶部８の音響モデルを用いて認識用音声データの特徴量系列に対しスコアを算出し、これに言語モデル記憶部１０の言語モデル等に対するスコアを参照して単語列探索を行う（ステップＳ１０）。また、場合によっては、音素列探索や孤立単語探索を行う。最終的に認識結果を単語列として出力し（ステップＳ１２）、場合によっては、音素列、孤立単語のみを出力する。

［音響モデル作成方法］
次に、音響モデルの作成方法について説明する。音響モデルは、音声の音響的特徴をモデル化したものであり、認識用音声データと音響モデルを参照することにより、音声データを音素や単語といったシンボルに変換する。そのため、音響モデルの作成は、音声認識装置の性能を大きく左右する。通常、音声認識用音響モデルでは、各音素をLeft to rightの隠れマルコフモデル（ＨＭＭ）で、ＨＭＭ状態の出力確率分布を混合ガウス分布モデル（ＧＭＭ）で表現する。そのため、実際に音響モデルとして記憶部に記憶されているのは、音素などの各シンボルにおける、ＨＭＭの状態遷移確率ａ，ＧＭＭの混合重み因子ｗ、及びガウス分布の平均ベクトルパラメータμ及び共分散行列パラメータΣとなる。これらを音響モデルパラメータと呼びその集合をθとする。つまり、θ＝｛ａ，ｗ，μ，Σ｝とする。音響モデルパラメータθの値を正確に求めるのが音響モデルの作成過程となり、この過程を音響モデル作成方法と呼ぶ。

近年、音響モデルは確率統計的手法により大量の音声データとその教師ラベルの情報から、音響モデルパラメータθを学習することにより作成される。通常学習データに対しては、その何れの部分が何れの音素であるかを示す教師ラベル情報が与えられている。教師ラベル情報が与えられていない場合は、実際人が聞いて教師ラベル情報を付けたり、また音声認識装置を用いることにより教師ラベル情報を付与する。以降では学習用音声データには教師ラベル情報が上記のような方法で付与されているとして説明を進める。

従来の音響モデル作成装置の機能構成例を図３に示し、従来の音響モデル作成装置の処理の主な流れを図４に示す。図３及び図４において、教師ラベル情報の付与については省略する。
音響モデル作成装置１１は、特徴抽出部４、音響モデルパラメータ学習部１２、とで構成されている。学習用音声データ１５が音響モデル作成装置１１により読み込まれる（ステップＳ２２）。読み込まれた学習用音声データ１５は、特徴抽出部４で特徴量系列に変換される（ステップＳ２４）。変換された特徴量系列は一旦、図示されていない特徴量記憶部に記憶される。記憶された特徴量系列は読み出されて、音響モデルパラメータ学習部１２に入力される。

教師ラベルが存在していなければ（ステップＳ２６）、音声認識装置、若しくは人手によって教師ラベル情報が与えられる（ステップＳ２８）
次に、音響モデルパラメータ学習部１２による音響モデルパラメータの学習について説明する。教師ラベル情報により得られる学習データ中の各音素に対応するデータから、音響モデルパラメータ（ＨＭＭの状態遷移確率ａ，ＧＭＭの混合重み因子ｗ、及びガウス分布の平均ベクトルパラメータμ及び共分散行列パラメータΣ）を推定することを音響モデルパラメータの学習と呼ぶ。パラメータを学習する手法としては最尤学習法がある。また、音響モデルパラメータの学習には他にも、ベイズ学習、識別学習、ニューラルネットワーク等がある。

音響モデルパラメータ学習部１２は、教師ラベル記憶部１４に予め用意された音声データに対応する教師ラベル情報を用いて、音響モデルパラメータの学習を行う（ステップＳ３０）。音響モデル作成装置１１で作成された音響モデルが出力される（ステップＳ３２）。また、ステップＳ２６において、教師ラベルが存在していれば、直接ステップＳ３０に進む。
音響モデルパラメータは数百万の自由度を持つため、これらを学習するためには数百時間に及ぶ大量の学習用音声データが必要となる。しかし、事前に話者、雑音、発話スタイルといった全ての音響的変動要因を含む音声データを数百万のパラメータを十分に学習するほど、大量に収集するのは不可能である。そこで、少量の学習用音声データから音響モデルパラメータを推定する手法として、適応学習が非常に重要な技術となる。

［音響モデルパラメータの変換にもとづく適応学習］
音響モデルパラメータに対しての適応学習は、パラメータあたりの学習データ量が少ない場合に初期モデルを先験知識として用い、少ないデータで学習を行う手法である。通常の学習方法との違いは学習データのみならず初期モデルを用いて音響モデルを構築する点である。このように初期モデルと学習データから新たに音響モデルを構築する学習方法を適応学習と呼ぶ。

適応学習は、初期音響モデルパラメータθ_０と新たに作られる音響モデルパラメータθの変換に注目する。例えば、Ｄ次元特徴ベクトルで表現される特徴量系列Ｏ＝｛ｏ_１，ｏ_２，…，ｏ_Ｎ｜ｏ_ｎ∈Ｒ^Ｄ｝が与えられたとき、音響モデルパラメータの推定を考えるのではなく、その変換パラメータを考えるのが変換パラメータ推定法である。ただしＮは特徴量の数を表す。つまり初期モデルのパラメータθ_０と特徴量系列Ｏから適応後の音響モデルパラメータθをθ＝ｆ（θ_０，Ｏ）として求めるときの、ｆ（・）を求め、それにより新たに音響モデルパラメータθを得る手法である。
ｆ（・）がパラメトリックに表現されるとすれば、適応学習はそのパラメータである変換パラメータＷの推定を初期モデルパラメータと適応用音声データから求めることになる。これを音響モデルパラメータの変換にもとづく適応学習と呼ぶ。

線形回帰法
適応学習の中では、音響モデル中のガウス分布の平均パラメータに対する線形回帰行列を推定する手法が非特許文献１または２に記載のように広く用いられている。線形回帰行列を用いた場合の音響モデル作成装置の機能構成例を図５に示し、この場合の音響モデル作成装置の主な処理の流れを図６に示す。
パラメータ適応部２２は、変換パラメータ推定部２４、変換パラメータ記憶部２６、モデルパラメータ変換部２８、とで構成されている。

まず、初期音響モデルパラメータθ_０が初期音響モデルパラメータ記憶部３０に読み込まれる（ステップＳ４０）。適応用音声データ２０が読み込まれ（ステップＳ４２）、特徴抽出部４に入力され、特徴量系列に変換される（ステップＳ４４）。変換された特徴量系列Ｏは一旦、特徴量記憶部５に記憶される。記憶された特徴量系列Ｏは変換パラメータ推定部２４に入力される。以下に変換パラメータ推定部２４、モデルパラメータ変換部２８の処理を説明する。
初期音響モデルパラメータθ_０中のあるガウス分布の平均ベクトルパラメータμ_０は以下の式（１）により線形変換される。
μ＝Ａμ_０＋ν （１）
ここで、ＡはＤ×Ｄの行列であり、平均ベクトルパラメータμ_０の回転、伸縮をさせる行列である。νはＤ次元ベクトルであり平均ベクトルパラメータμ_０の平行移動を表す。このとき、変換パラメータＷは（ν，Ａ）である。

変換パラメータＷは特徴量系列Ｏから期待値最大化（Expectation Maximization）アルゴリズム（以下ＥＭアルゴリズムという）を用いて繰り返し計算により効率よく求められる（ステップＳ４６）。推定すべき変換パラメータＷのパラメータ数はＤ^２＋Ｄ＝Ｄ（Ｄ＋１）とる。何故なら、Ａの要素数はＤ^２であり、νの要素数はＤであるからである。平均ベクトルのパラメータ数Ｄよりも多いが、複数のガウス分布で同一の変換パラメータを共有することにより、推定すべきパラメータ数を減らすことが可能である。推定された変換パラメータＷは一旦変換パラメータ記憶部２６に記憶される。

記憶された変換パラメータＷはモデルパラメータ変換部２８に入力される。モデルパラメータ変換部２８で、得られた変換パラメータＷと初期音響モデルパラメータθ_０中の初期平均ベクトルパラメータμ_０をもとに上記式（１）から新たな平均ベクトルパラメータμを得る（ステップＳ４８）。平均ベクトルパラメータμが音響モデルパラメータθとして出力される（Ｓステップ５０）。

［音響モデルパラメータ変換にもとづく逐次適応］
以上までは、一まとまりの特徴量系列Ｏ＝｛ｏ_１，ｏ_２，…，ｏ_ｎ，…，ｏ_Ｎ｝
に対しての適応学習を考えた。しかし、音声は雑音などの外的要因や発声のなまり等の内的要因によって、時々刻々その音響的特徴を大きく変化させている。このような変化に追随していくためには、時系列的に与えられるまとまった量の音声データに対して逐次モデルを適応させる逐次適応学習が有効である。このとき、特徴量系列を１まとまりとして捉えず、複数のまとまりが時系列的に与えられる場合の適応を考える。つまり以下の式（２）（３）のように考える。

このとき、あるまとまりｔ＋１での音響モデルパラメータθ_ｔ＋１はその前のまとまりｔにおいて得られた音響モデルパラメータθ_ｔ及び特徴量系列のまとまりＯ_ｔ＋１から求められる。つまり、以下の式（４）に示す漸化式で表現することにより、時々刻々音響モデルを求めることができる。これをパラメータ変換に基づく逐次適応法と呼ぶ。
θ_ｔ＋１＝ｆ（θ_ｔ，Ｏ_ｔ＋１）（４）
図５を参照して、図７に逐次適応法を用いた場合の音響モデルパラメータが変換される手順を示す。まず、特徴量系列Ｏ_１と音響モデルパラメータθ_０を用いてモデルパラメータ変換部２８で音響モデルパラメータθ_１が求められる。そして、今度は、音響モデルパラメータθ_１と次の特徴量系列Ｏ_２と用いて、音響モデルパラメータθ_２が求められる。このようにして、前回の音響モデルパラメータθ_ｔと今回の特徴量系列Ｏ_ｔ＋１とを用いて、今回の音響モデルパラメータθ_ｔτ１が求められる。

線形回帰法
このとき、変換パラメータ推定法の逐次適応への適用を非特許文献３に示すように考察する。先ほどは、変換パラメータＷは全ての特徴量系列から推定されたとしたが、逐次適応においては各まとまりごとにＷを推定する。それをＷ_ｔ＝｛ν_ｔ，Ａ_ｔ｝とすれば、平均パラメータの更新は上記式（１）を基に、以下の式（５）のように漸化式で表現することができる。
μ_ｔ＋１＝Ａ_ｔ＋１μ_ｔ＋ν_ｔ＋１（５）
これによって、逐次適応が実現される。
V.Digalakis,D.Ritischev,and L.Neumeyer. Speaker adaptation using constrained reestimation of Gaussian mixtures. IEEE Transactions on Speech and Audio Processing,Vol.3,pp.357-366,1995. C.J.Leggetter and P.C.Woodland,Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models. Computer Speech and Language,Vol.9,pp.171-185,1995. C.J.Leggetter and P.C.Woodland. Flexible speaker adaptation using maximum likelihood linear regression. Proc.ARPA Spoken Language Technology Workshop pp.104-109,1195.

以上の逐次適応法は得られた音響モデルパラメータθ_０、．．．、θ_ｔ＋１にどの程度推定による誤差が含まれるかが考慮されていない。そのため、学習に悪影響を及ぼすようなデータが存在した場合、学習が失敗した場合等は、その影響がそのまま認識性能に出てしまい、頑健性が低いものとなってしまう。

この発明の音響モデル作成法は、今回の適応用音声データの部分時系列の特徴量系列を抽出し、前回までの累積された特徴量系列が加味された前回求めた音響モデルパラメータの事後確率分布ｐ（θ_ｔ│Ｏ^ｔ）と、上記今回抽出した特徴量系列Ｏ_ｔ＋１とに基づき、今回の特徴量系列に適応化させた今回の音響モデルパラメータの事後確率分布ｐ（θ_ｔ＋１│Ｏ^ｔ＋１）を求める。ここで、Ｏ^ｔ＋１およびＯ^ｔは今回および前回までに累積された特徴量系列であり、θ_ｔ＋１およびθ_ｔは今回および前回の音響モデルパラメータである。更に、上記今回の音響モデルパラメータの事後確率分布ｐ（θ_ｔ＋１│Ｏ^ｔ＋１）を新たな音響モデルとする。
また、この発明の音声認識方法は、上記発明の音響モデル作成方法により、作成された音響モデルを用いて、音声認識を行う。

上記の構成により、音響モデルは前回までの累積された特徴量系列Ｏ^ｔの情報が加味され、かつ分布として作られるため、音響モデルパラメータθ_０、．．．、θ_ｔ＋１の一部に推定誤差があっても、これに影響されず、頑健な音響モデルの逐次作成が可能となる。また、この逐次作成された音響モデルを用いて、その時の音声を認識するため、認識性能が向上する。

以下に、発明を実施するための最良の形態を示す。

［分布変換にもとづく逐次適応法］
この発明では、音響モデルパラメータθ_ｔそのものの推定を考えるのではなく、音響モデルパラメータの分布を考える。つまり、以下の式（６）のように音響モデルパラメータθ_ｔを音響モデルパラメータの分布ｐ(θ_ｔ)として考える。なお以下の説明では、添え字のｔは前回の音響モデルの作成に関係するものであることを表し、ｔ＋１は今回の音響モデルの作成に関するものであることを表す。
θ_ｔ→ｐ(θ_ｔ) （６）
これにより、推定による誤差を例えばその分布の分散から考慮することができる。この発明では、さらに音響モデルパラメータの分布として累積された特徴量系列Ｏ^ｔ＝｛Ｏ_１，Ｏ_２，…，Ｏ_ｔ｝が与えられたときの事後確率分布を考える。つまり、以下の式（７）になる。
ｐ(θ_ｔ)→ｐ(θ_ｔ｜Ｏ^ｔ) （７）
ここで、ｐ（Ａ│Ｂ）は事象Ｂが起こったことを知って、それが原因Ａから起こったと考えられる確率である事後確率である。

これにより、音響モデルパラメータに累積された特徴量系列Ｏ^ｔの情報を加味することができるため、頑健性を確保することができる。従って、漸化式
ｐ(θ_ｔ＋１｜Ｏ^ｔ＋１)＝Ｆ[ｐ(θ_ｔ｜Ｏ^ｔ)] （８）
を用いて時間発展、つまり、音声の音響的特徴の変化として対応した漸化式を記述することにより、音響モデルパラメータθではなく、音響モデルパラメータの事後確率分布ｐ(θ｜Ｏ)の逐次適応を実現することができる。ここで、Ｆ[・]はｐ(θ｜Ｏ)を引数として持つ汎関数である。また、Ｆ[・]は今回まで累積された特徴量系列Ｏ^ｔ＋１のうち、少なくとも１つの特徴量系列に基づいて表現されるものである。以下の説明では、Ｆ[・]は、今回の特徴量系列Ｏ_ｔに基づいて、表現されるものとする。従って、Ｆ[・]をパラメトリックに表現し、その音響モデルパラメータの事後確率分布ｐ(θ_ｔ｜Ｏ^ｔ)を特徴量系列Ｏから適切に推定することにより上記式（８）で表現される逐次適応を実現することができる。
上記式（４）と上記式（８）を見比べてわかることは、上記式（８）はパラメータを逐次変換させるのではなく、その事後確率分布を逐次変換させていることがわかる。このとき、実際に逐次更新されるのは、事後確率分布のパラメータωである。
従って、時々刻々、事後確率分布パラメータωを求めることができる。この発明を分布変換にもとづく逐次適応法と呼ぶ。

図８にこの実施例の機能構成例を示し、図９に事後確率分布のパラメータωを逐次適応させる順序を示し、図１０この実施例の主な処理の流れを示す。また、図５と同一機能構成部分には、同一参照番号を付ける。このことは以下の説明においても同様である。
モデル適応化部５０は逐次学習部５２、事後確率分布記憶部５４、モデル更新部５６、とで構成されている。
まず、前回の事後確率分布のパラメータω_ｔがモデル適応化部５０で読み込まれる（ステップＳ６０）。次に、適応用音声データ２０が読み込まれ（ステップＳ６２）、適応用音声データ２０が特徴抽出部４に入力され、特徴量系列Ｏ_ｔ＋１に変換される（ステップＳ６４）。変換された特徴量系列Ｏ_ｔ＋１は一旦、図示していない特徴量記憶部に記憶され逐次学習部５２に入力される。

逐次学習部５２では、上記式（８）のように、前回までの累積された特徴量系列が加味された前回求めた音響モデルパラメータの事後確率分布ｐ（θ_ｔ│Ｏ^ｔ）と、上記今回抽出した特徴量系列Ｏ_ｔ＋１とに基づき、今回の特徴量系列に適応化させた今回の音響モデルパラメータの事後確率分布ｐ（θ_ｔ＋１│Ｏ^ｔ＋１）を求める（ステップＳ６８）。ここで、Ｏ_ｔ＋１は今回の特徴量系列であり、Ｏ^ｔ＋１およびＯ^ｔは今回および前回までに累積された特徴量系列であり、θ_ｔ＋１およびθ_ｔは今回および前回の音響モデルパラメータである。

以下に、逐次学習部５２による更に具体的な事後確率分布ｐ(θ_ｔ＋１｜Ｏ^ｔ＋１)の求め方を説明する。
ｐ(θ_ｔ｜Ｏ^ｔ)からｐ(θ_ｔ＋１｜Ｏ^ｔ＋１)への時間発展を記述する上記式（８）中の関数Ｆ[・]には任意の形を与えることが可能であり様々な変換を考えることができる。この実施形態では、具体的な関数系のひとつとして、確率の積の公式とベイズの定理から理論的に近似無く導出される漸化式を紹介する。はじめにｐ(θ_ｔ＋１｜Ｏ^ｔ＋１)はベイズの定理から次のように表現される。

ここでｐ(θ_ｔ＋１｜Ｏ^ｔ)はｐ(θ_ｔ｜Ｏ^ｔ)を用いると次のように表現される。
ｐ(θ_ｔ＋１｜Ｏ^ｔ)＝∫ｐ(θ_ｔ＋１｜θ_ｔ，Ｏ^ｔ)ｐ(θ_ｔ｜Ｏ^ｔ)ｄθ_ｔ（１０）
従って式（１０）を式（９）に代入することにより次式（１１）のような漸化式を導出することができる。

式（１１）を音響モデルパラメータの事後確率分布の漸化式と呼ぶ。この漸化式を用いることにより、前回まで、累積された特徴量系列Ｏ^ｔの情報が加味された音響モデルパラメータの事後確率分布ｐ(θ_ｔ｜Ｏ^ｔ)の逐次推定を逐次学習部５２で行うことが出来る。また式（１１）の積分計算はモンテカルロ法（Monte Carlo method）などの数値計算で解くことが出来る。
またここで時間発展を最初の一ステップに限る。つまりｔ→０，ｔ＋１→１とすれば以下の式（１２）のようになる。

式（１２）は、逐次的でない適応を示している。つまり、本発明は逐次適応のみならず通常の適応においてもその効果を与えることができる。

上記式（１１）による逐次適応を実現するためには、右辺は次の４つの確率分布であるｐ(Ｏ_ｔ＋１｜Ｏ^ｔ)、ｐ(θ_ｔ｜Ｏ^ｔ)、ｐ(Ｏ_ｔ＋１｜θ_ｔ＋１，Ｏ^ｔ)、ｐ(θ_ｔ＋１｜θ_ｔ，Ｏ^ｔ)に具体系を与える必要がある。ここでｐ(Ｏ_ｔ＋１｜Ｏ^ｔ)は求めたい分布であるｐ(θ_ｔ＋１｜Ｏ^ｔ＋１)の引数θ_ｔ＋１に依存しないため、規格化定数として扱うことができるため、具体形を与えなくても良い。残りの３つであるｐ(θ_ｔ｜Ｏ^ｔ)、ｐ(Ｏ_ｔ＋１｜θ_ｔ＋１，Ｏ^ｔ)、ｐ(θ_ｔ＋１｜θ_ｔ，Ｏ^ｔ)について考察を行う。
ｐ(θ_ｔ｜Ｏ^ｔ)は前述した音響モデルパラメータの事後確率分布であり、適切に初期分布を設定することにより逐次求めることが可能である。ｐ(Ｏ_ｔ＋１｜θ_ｔ＋１，Ｏ^ｔ)はＯ_ｔ＋１の出力分布であり、ＨＭＭやＧＭＭといった音響モデルの設定によって与えられるものである。最後にｐ(θ_ｔ＋１｜θ_ｔ，Ｏ^ｔ)は音響モデルパラメータθの確率的ダイナミクスである。従って、上記式（１１）の漸化式は、出力分布及び確率的ダイナミクスによって構成されている。

説明を図８に戻すと。逐次学習部５２により求められた今回の事後確率分布ｐ(θ_ｔ＋１｜Ｏ^ｔ＋１)は一旦、事後確率分布記憶部５４に記憶される。そして今回の事後確率分布ｐ(θ_ｔ＋１｜Ｏ^ｔ＋１)はモデル更新部５６に入力される。
モデル更新部５６で、音響モデル記憶部５８内の音響モデルとしての前回の事後確率分布ｐ(θ_ｔ｜Ｏ^ｔ)が、今回の音響モデルパラメータの事後確率分布ｐ(θ_ｔ＋１｜Ｏ^ｔ＋１)に新たな音響モデルとして更新する（ステップＳ７０）。

また、図９に、逐次的に、音響モデルパラメータの事後確率分布を更新する手順を示す。求められた前回の事後確率分布ｐ(θ_ｔ｜Ｏ^ｔ)は一旦、音響モデル（分布モデル）記憶部５８に一旦、記憶される。逐次学習部５２で、前回の事後確率分布ｐ(θ_ｔ｜Ｏ^ｔ)と、今回の特徴量系列Ｏ^ｔ＋１とを用いて、上記式（１１）から、今回の事後確率分布ｐ(θ_ｔ＋１｜Ｏ^ｔ＋１)を求める。このようにして、音響モデルパラメータの事後確率分布を逐次的に更新する。

実施例２は、上記式（１１）の演算処理を簡単にする実施例である。
ｐ(Ｏ_ｔ＋１｜θ_ｔ＋１，Ｏ^ｔ)及びｐ(θ_ｔ＋１｜θ_ｔ，Ｏ^ｔ)は累積された特徴量系列に直接依存する。これらを全ての累積特徴量系列から推定しようとした場合、時が経つにつれ累積データは多くなるため、その推定は大変計算量が多くなり現実的でない。そのため、この実施例２ではこれらにマルコフ過程を仮定する。このとき、ｐ(Ｏ_ｔ＋１｜θ_ｔ＋１，Ｏ^ｔ)とｐ(θ_ｔ＋１｜θ_ｔ，Ｏ^ｔ)はそれぞれ式（１３）のように近似される。
ｐ(Ｏ_ｔ＋１｜θ_ｔ＋１，Ｏ^ｔ)≒ｐ(Ｏ_ｔ＋１｜θ_ｔ＋１)，
ｐ(θ_ｔ＋１｜θ_ｔ，Ｏ^ｔ) ≒ｐ(θ_ｔ＋１｜θ_ｔ) （１３）

この近似により、逐次学習部５２は前回の音響モデルパラメータの事後確率分布ｐ（θ_ｔ│Ｏ^ｔ）と、今回の出力分布ｐ（Ｏ_ｔ＋１│θ_ｔ＋１）と、今回の確率的ダイナミクスｐ（θ_ｔ＋１│θ_ｔ）と、を用いて今回の音響モデルパラメータの事後確率分布ｐ（θ_ｔ＋１│Ｏ^ｔ＋１）を求める。具体的には以下の式（１４）のように近似される。
ｐ(θ_ｔ＋１｜Ｏ^ｔ＋１)∝ｐ(Ｏ_ｔ＋１｜θ_ｔ＋１)∫ｐ(θ_ｔ＋１｜θ_ｔ)ｐ(θ_ｔ｜Ｏ^ｔ)ｄθ_ｔ（１４）
ここで、Ａ∝ＢはＡとＢは比例しているということを表す。上記式（１４）によって、シンプルな出力分布及び確率的ダイナミクスを設定することができる。図８中の逐次学習部５２は、この式（１４）を計算することになる。

実施例１、２では、ＨＭＭの状態遷移確率ａ，ＧＭＭの混合重み因子ｗ、及びガウス分布の平均ベクトルパラメータμ及び共分散行列パラメータΣといった全ての音響モデルパラメータθの事後確率分布ｐ(θ｜Ｏ)についての処理を行った。一般に、音響モデルにおいて最も性能を左右するパラメータは平均ベクトルパラメータμであり、またそれ以外のパラメータの事後確率分布を推定対象とした場合、分布変換関数Ｆの推定すべきパラメータ数が多くなるため、少量データ適応において効果が十分でなくなる。そのため、実施例３以降は平均ベクトルパラメータμのみに焦点を当て、つまり、音響モデルパラメータθに代えて、平均ベクトルパラメータμを用いて、図８の逐次学習部５２では演算する。演算された事後確率分布ｐ(μ｜Ｏ)の時間発展について考察する。つまり、上記式（１４）において平均ベクトルパラメータμのみを考えるため時間発展は次のような式（１５）を逐次学習部５２で演算する。
ｐ(μ_ｔ＋１｜Ｏ^ｔ＋１)∝ｐ(Ｏ_ｔ＋１｜μ_ｔ＋１)∫ｐ(μ_ｔ＋１｜μ_ｔ)ｐ(μ_ｔ｜Ｏ^ｔ)ｄμ_ｔ
（１５）
その他の処理は、実施例１、２と同様の処理を行う。

実施例４では、上記式（１５）の解析解を導出し、これを用いて、逐次学習を行う。式（１５）にはさまざまな解析解が存在するが、最も単純な解析解として確率的ダイナミクスが線形で表現される場合を考える。つまり、確率的ダイナミクスとして、以下の式（１６）を仮定することが出来る。
μ_ｔ＋１＝Ａμ_ｔ＋ν＋ε_ｔ＋１（１６）
ここでε_ｔ＋１は平均０、共分散行列Ｕのガウシアンノイズである。式（１６）は、上記式（５）における線形変換が確率的に揺らいでいるといえる。このとき、確率ダイナミクスの分布具体系は、以下の式（１７）として与えられる。
ｐ(μ_ｔ＋１｜μ_ｔ)＝Ｎ(μ_ｔ＋１｜Ａμ_ｔ＋ν，Ｕ) （１７）
ここでＮ(・｜ｍ，Ｓ)は平均パラメータｍ、共分散行列パラメータＳのガウス分布である。

さらに通常のＨＭＭ，ＧＭＭで表現される音響モデルに対して一まとまりの特徴量系列Ｏ_ｔ＝｛ｏ_Ｎｔ＋１，…，ｏ_{Ｎｔ＋Ｎｔ＋１}｝が出力される出力分布ｐ（Ｏ_ｔ│μ_ｔ）は以下の式（１８）で表すことができる。

ここで、状態遷移確率ａおよび混合重み因子ｗはｐ（μ｜Ｏ）の推定に関係ないため無視した。またＨＭＭやＧＭＭの潜在変数は無視したが、これらはＥＭアルゴリズム（期待値最大化アルゴリズム）を用いることによって対処可能である。

最後に平均ベクトルパラメータの事後確率分布がガウス分布で表現されると仮定し、その平均ベクトルパラメータがμ＾_ｔ、共分散行列パラメータがＱ＾_ｔで表現されるとすると関数形は以下の式（１９）で表すことができる。

従って、式（１７）、（１８）、及び（１９）を式（１５）に代入することにより以下の式（２０）で示される解析解を導出することができる。

ここで、
Ｑ＾_ｔ＋１＝（（Ｕ＋ＡＱ＾_ｔＡ’）^−１＋ζ_ｔ＋１Σ^―１）^−１（２１）
Ｋ＾_ｔ＋１＝Ｑ＾_ｔ+１ζ_ｔ＋１Σ^―１（２２）
μ＾_ｔ＋１＝Ａμ＾_ｔ＋υ＋Ｋ＾_ｔ＋１（Ｍ_ｔ＋１／ζ_ｔ＋１−Ａμ＾_ｔ−υ）
（２３）
ただし、Ｑ＾_ｔ＋１及びＱ＾_ｔは、それぞれ今回及び前回の事後確率分布の共分散行列パラメータであり、Ｋ＾_ｔ＋１はカルマンゲインであり、Ａ、υ、及びＵはそれぞれ音響モデルパラメータ中の平均の上記確率的ダイナミクスを線形表現した時の係数、定数及びガウシアンノイズの共分散行列であり、ζ_ｔ＋１は、今回の事後占有確率値の和、Σは初期音響モデルパラメータ中の共分散行列であり、μ＾_ｔ＋１及びμ＾_ｔは今回および前回の事後確率分布の平均パラメータであり、Ｍ_ｔ＋１は今回の各時点におけるζと特徴量との積和であり、Ａ’は行列Ａの転置を表す。

このようにして、今回の事後確率分布ｐ（μ_ｔ＋１｜Ｏ^ｔ＋１）の分布パラメータω_ｔ＋１はＱ＾_ｔ＋１，μ＾_ｔ＋１となり、式（２１）（２２）（２３）から求めることができる。また、ζ_ｔ，Ｍ_ｔは十分統計量であり以下の式（２４）のように定義される。

ζ_ｔ，Ｍ_ｔはForward-backwardアルゴリズムもしくはViterbiアルゴリズムによって効率よく求めることができる。
つまり、音響モデルパラメータの事後確率分布ｐ（μ｜Ｏ）の漸化式はそのパラメータ（Ｑ＾，Ｋ＾，μ＾）の漸化式（２１）（２２）（２３）によって求めることができる。これは線形動的システムにおけるカルマンフィルタの解と類似している。しかし、カルマンフィルタの解はｏ_ｎ→ｏ_ｎ＋１のように各音声分析フレームごとの更新となっている。一方、本発明ではＯ_ｔ→Ｏ_ｔ＋１のように１まとまりのフレームごとの更新となっているのが違いとなっている。そのため、パラメータＱ＾，Ｋ＾，μ＾は、１フレームの特徴量ｏ_ｎではなく、その統計量であらわされている。従って、これを巨視的な線形動的システムと呼ぶ。

実施例４の場合の逐次学習部５２の具体的構成例を図１１に示す。逐次学習部５２は、Ｑ＾更新部５２０、Ｋ＾更新部５２２、μ＾更新部５２４、事後確率計算部５２６とで構成されている。
事後確率計算部５２６で、上記音響モデルパラメータの事後確率分布が、当該事後確率分布の平均パラメータμ＾_ｔ＋１と、当該事後確率分布の共分散行列パラメータＱ＾_ｔ＋１と、で表現されるガウス分布で表されることに基づき、上記音響モデルパラメータの上記事後確率分布が計算される。つまり上記式（２３）が計算される。

Ｑ＾更新部５２０では上記式（２１）が計算され、Ｋ＾更新部５２２では上記式（２２）が計算され、μ＾更新部５２４では上記式（２３）が計算され、事後確率計算部５２６では上記式（２０）が計算される。
従って、Ｑ＾_ｔ，Ｋ＾_ｔ，μ＾_ｔを求めるためには、線形変換パラメータＷ＝｛ν，Ａ｝、システムノイズＵ、初期パラメータＱ＾_０、及びμ＾_０の４つを設定する必要がある。ここで、Ｑ＾_０は初期音響モデルの共分散行列パラメータから与えられるものであり、μ＾_０は初期音響モデルの平均ベクトルパラメータから与えられるものである。
このうち線形変換パラメータＷ＝｛ν，Ａ｝は、今回まで累積された特徴量系列Ｏ^ｔのうち少なくとも１つの特徴量系列を用いて、推定される。よく知られた手法の一例としては上述したＥＭアルゴリズムを用いて繰り返し計算により効率よく求められる。

システムノイズＵも線形変換パラメータＷと同様に学習によって求めることができる。または、行列成分すべてを特徴量系列やその他のデータから先験的に与えることもできる。最も単純な方法は、システムノイズＵを（ｕ^０）^−１Σとしておき、システムノイズの共分散行列が出力分布の共分散行列と比例関係にあるとするとして、ｕ^０を予め与えられるパラメータとする。つまり、１つだけパラメータが導入される。これらシステムノイズＵと線形変換パラメータＷが、上記式（８）の分布変換関数Ｆにおける変換パラメータとなる。

このとき更新式は、以下の式（２５）（２６）（２７）で表され、Ｑ＾更新部５２０では上記式（２５）が計算され、Ｋ＾更新部５２２では上記式（２６）が計算され、μ＾更新部５２４では上記式（２７）が計算される。

Ｑ＾_ｔ＋１＝（（（ｕ^０）^−１Σ＋ＡＱ＾_ｔＡ’）^−１＋ζ_ｔ＋１Σ^―１）^−１
（２５）
Ｋ＾_ｔ＋１＝Ｑ＾_ｔ+１ζ_ｔ＋１Σ^―１（２６）
μ＾_ｔ＋１＝Ａμ＾_ｔ＋υ＋Ｋ＾_ｔ＋１（Ｍ_ｔ＋１／ζ_ｔ＋１−Ａμ＾_ｔ−υ）
（２７）
以上によってパラメータｕ^０によって制御される分布変換にもとづく逐次適応法を実現できる。

平行移動適応
上記式（１６）の平均ベクトルの平行移動にだけ注目することにより、推定すべきパラメータを少なくしてより少量データでの適応を実現できる。このとき、上記式（２５）（２６）（２７）における行列Ａを単位行列Ｉとする、つまり、Ａ＝Ｉとすると、Ｑ＾、Ｋ＾、μ＾は以下の式（２８）（２９）（３０）で計算される。
Ｑ＾_ｔ＋１＝（（（ｕ^０）^−１Σ＋ＡＱ＾_ｔＡ’）^−１＋ζ_ｔ＋１Σ^―１）^−１
(２８）
Ｋ＾_ｔ＋１＝Ｑ＾_ｔ+１ζ_ｔ＋１Σ^―１（２９）
μ＾_ｔ＋１＝Ａμ＾_ｔ＋υ＋Ｋ＾_ｔ＋１（Ｍ_ｔ＋１／ζ_ｔ＋１−Ａμ＾_ｔ−υ）
（３０）
この場合、Ｑ＾更新部５２０では上記式（２８）が計算され、Ｋ＾更新部５２２では上記式（２９）が計算され、μ＾更新部５２４では上記式（３０）が計算される。これにより、平行移動の逐次適応をこの実施例によって本発明に適用することができる。

以上の方法により音響モデルパラメータの事後確率分布ｐ（μ｜Ｏ）つまり、音響モデルが求まった。この実施例５では、求められた音響モデルを用いて音声認識をする、つまり音響スコアの算出の処理を説明する。
図１２に、この実施例の音声認識装置の機能構成例を示し、図１３に、音声認識の主な処理の流れを示す。
認識用音声データ１の音響的特徴量と同様な音響的特徴を持つ適応用音声データが実施例１〜４で説明した音響モデル作成装置６０に入力さる。そして、音響モデル記憶部８内の音響モデルが上述したように、更新される（ステップＳ８０）。

認識用音声データがフレームに分割されて認識用音声データｘとして、特徴抽出部４に入力され、特徴量系列Ｏに変換される。この特徴量系列Ｏは、単語列探索部６に入力される（ステップＳ８２）。
単語列探索部６で特徴量系列Ｏに対して、音響モデル記憶部８の音響モデルを用いて音響スコアを算出する。この音響スコア算出には例えば、以下の式（３１）の計算を行う。
∫ｐ(ｘ_τ｜μ_ｔ)ｐ(μ_ｔ｜Ｏ^ｔ)ｄμ_ｔ（３１）
ここでｐ(ｘ_τ｜μ_ｔ)は上記式（１８）で与えられる出力分布である。単語列探索部６による複数フレームの音響スコア算出に関しては上記式（３１）をもとに動的計画法（ＤＰ：Dynamic Programming マッチング）を行えばよい。音響スコアを最大とする単語列を認識単語列として出力する（ステップＳ８４）。なお、この場合はステップＳ８０におけるモデル更新は、音響モデルとして事後確率分布ｐ（μ_τ｜Ｏ^ｔ)の更新を行う（ステップＳ８０ａ）。上記式（３１）の積分は数値的に解くことも可能であるが、次のような２種類の解析解が存在する。

Plug-in法
Plug-in法では、積分をまともに扱うのではなく、ｐ(μ_ｔ｜Ｏ^ｔ)の事後確率最大化（ＭＡＰ）値argmaxμ_ｔｐ(μ_ｔ｜Ｏ^ｔ)は、上記式（２７）のμ＾_ｔである。つまり、以下の式（３２）になる。

従って、音響モデル作成装置６０による上記ステップＳ８０におけるモデル更新として、上記式（２７）で求まるμ＾_ｔを出力分布ｐ(ｘ_τ｜μ_ｔ)の平均ベクトルパラメータμ_ｔにそのまま代入（Plug-in）して音響モデルパラメータを更新する（ステップＳ８０ｂ）。このようにすればスコア計算を、以下の式（３３）で行うことが出来る。

つまり、平均μ＾_ｔ、共分散行列Σのガウス分布で表現する。これをPlug-in法と呼ぶ。また、その他のパラメータ、つまり、状態遷移確率ａ、混合重み因子ｗ、共分散行列Σ、はそのまま適用する。

周辺化法
周辺化法は、Plug-in法と違い積分を解析的に解く方法である。この積分をとく方法が、平均ベクトルパラメータμ_ｔについての周辺化にあたる。周辺化法は、Plug-in法と比較して、平均ベクトルパラメータの事後確率分布ｐ(μ_ｔ｜Ｏ^ｔ)の分散を考慮することになる。このようにすれば、積分計算によるスコア計算は以下の式（３４）で表せることになる。

つまり、周辺化法を利用する場合はステップＳ８０のモデル更新において、、平均ベクトルパラメータμをμ＾_ｔと置き換えて（ステップＳ８０ｂ）共に、共分散行列パラメータΣを共分散行列（Σ＋Ｑ＾_ｔ）と置き換えて（ステップＳ８０ｃ）、音響モデルパラメータを更新する。また、その他のパラメータ、つまり、状態遷移確率ａ、混合重み因子ｗ、はそのまま適用する。

［実験結果］
以下に、この発明の音響モデル作成装置を用いた実験結果を示す。ＡＳＪ（日本音響学会）読み上げ音声データベースの男性話者４４人分を用いて総状態数２，０００、状態あたりの混合数１６の不特定話者音響モデルを構築し、ＣＳＪ（日本語話し言葉コーパス）講演音声データベースの男性話者２０人に対し、教師ラベルありの逐次適応を行った。特徴量は１２次元ＭＦＣＣ（メルフレクエンシイペプストラム係数）と、そのフレームのエネルギーと、ＭＦＣＣのフレーム間差分Δと、その差分ＭＦＣＣのフレーム間差分デルタΔΔとして、語彙サイズ３万語のトライグラムを用いて大語彙連続音声認識実験を行った（不特定話者音響モデルの単語誤り率は２６．９％）。逐次適応の更新単位は１６発話とし、８ステップ（１２８発話分）の逐次適応を行った。図１４に具体的な実験結果を占めす。なお縦軸は単語誤り率を示し、横軸は、適応データ数（発話数）を示す。また、この実験はおいて、図８中の逐次学習部５２が実施例４中の上記式（２５）〜（２７）の式を計算する場合であり、ｕ^０＝１０とした。

図１４において、○印を付した線がこの発明の音響モデル作成装置を適用したものであり、×印を付した線が、従来法であり、直前のステップで得られた音響モデルを初期モデルとして、逐次適応学習を行ったものである。
この発明の場合は単語誤り率が、約２０．４％であり、従来法の場合は単語誤り率が約２４．３％である。よって、この発明の方が単語誤り率がおよそ４％改善されていることが、このグラフから、理解できる。

以上の各実施形態の他、本発明である音響モデル作成装置は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、音響モデル作成装置において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、この発明の音響モデル作成装置における処理をコンピュータによって実現する場合、音響モデル作成装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、音響モデル作成装置における処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）、ＤＶＤ−ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＣＤ−Ｒ（Ｒｅｃｏｒｄａｂｌｅ）／ＲＷ（ＲｅＷｒｉｔａｂｌｅ）等を、光磁気記録媒体として、ＭＯ（Ｍａｇｎｅｔｏ−Ｏｐｔｉｃａｌｄｉｓｃ）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（ＥｌｅｃｔｒｏｎｉｃａｌｌｙＥｒａｓａｂｌｅａｎｄＰｒｏｇｒａｍｍａｂｌｅ−ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（ＡｐｐｌｉｃａｔｉｏｎＳｅｒｖｉｃｅＰｒｏｖｉｄｅｒ）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、音響モデル作成装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

従来技術の音声認識装置２の機能構成例を示すブロック図。従来技術の音声認識装置２の主な処理の流れを示すフローチャート図。従来技術の音響モデル作成装置１１の機能構成例を示すブロック図。従来技術の音響モデル作成装置１１の主な処理の流れを示すフローチャート図。音響モデルパラメータθの変換に基づく適応をさせるパラメータ適応部２２の機能構成例を示すブロック図。音響モデルパラメータの変換に基づく適応のフローチャート図。音響モデルパラメータを逐次適応させる手順を示す図。この発明のモデル適応化部５０の機能構成例を示すブロック図。この発明の音響モデルの逐次適応の手順を示す図。この発明の音響モデルの逐次適応の主な処理の流れを示すフローチャート図。この発明の実施例４の逐次学習部５２の具体的構成例を示すブロック図。この発明の実施例５の音声認識装置を示すブロック図。この発明の実施例５の音声認識装置の主な処理の流れを示すフローチャート図。この発明の音響モデル作成装置と従来技術の音響モデル作成装置との単語誤り率を比較した図。

Claims

今回の適応用音声データの部分時系列の特徴量系列を抽出する特徴抽出部と、
前回までの累積された特徴量系列が加味された前回求めた音響モデルパラメータの事後確率分布ｐ（θ _ｔ │Ｏ ^ｔ）と、今回まで累積された特徴量系列のうち少なくとも１つの特徴量系列と、に基づき今回の音響モデルパラメータの事後確率分布ｐ（θ _ｔ＋１ │Ｏ ^ｔ＋１）を求める逐次学習部と、ここで、Ｏ ^ｔ＋１およびＯ ^ｔは今回および前回までに累積された特徴量系列であり、θ _ｔ＋１およびθ _ｔは今回および前回の音響モデルパラメータであり、
上記今回の音響モデルパラメータの事後確率分布ｐ（θ _ｔ＋１ │Ｏ ^ｔ＋１）を新たな音響モデルとするモデル更新部と、を具備し、
上記逐次学習部は、前回の音響モデルパラメータの事後確率分布ｐ（θ_ｔ│Ｏ^ｔ）と、今回の出力分布ｐ（Ｏ_ｔ＋１│θ_ｔ＋１、Ｏ^ｔ）と、今回の確率的ダイナミクスｐ（θ_ｔ＋１│θ_ｔ、Ｏ^ｔ）と、を用いて今回の音響モデルパラメータの事後確率分布ｐ（θ_ｔ＋１│Ｏ^ｔ＋１）を

として求めるものであることを特徴とする音響モデル作成装置。
今回の適応用音声データの部分時系列の特徴量系列を抽出する特徴抽出部と、
前回までの累積された特徴量系列が加味された前回求めた音響モデルパラメータの事後確率分布ｐ（θ _ｔ │Ｏ ^ｔ）と、今回まで累積された特徴量系列のうち少なくとも１つの特徴量系列と、に基づき今回の音響モデルパラメータの事後確率分布ｐ（θ _ｔ＋１ │Ｏ ^ｔ＋１）を求める逐次学習部と、ここで、Ｏ ^ｔ＋１およびＯ ^ｔは今回および前回までに累積された特徴量系列であり、θ _ｔ＋１およびθ _ｔは今回および前回の音響モデルパラメータであり、
上記今回の音響モデルパラメータの事後確率分布ｐ（θ _ｔ＋１ │Ｏ ^ｔ＋１）を新たな音響モデルとするモデル更新部と、を具備し、
上記逐次学習部は、前回の音響モデルパラメータの事後確率分布ｐ（θ_ｔ│Ｏ^ｔ）と、今回の出力分布ｐ（Ｏ_ｔ＋１│θ_ｔ＋１）と、今回の確率的ダイナミクスｐ（θ_ｔ＋１│θ_ｔ）と、を用いて今回の音響モデルパラメータの事後確率分布ｐ（θ_ｔ＋１│Ｏ^ｔ＋１）を
ｐ(θ _ｔ＋１｜Ｏ ^ｔ＋１ )∝ｐ(Ｏ _ｔ＋１｜θ _ｔ＋１ )∫ｐ(θ _ｔ＋１｜θ _ｔ )ｐ(θ _ｔ｜Ｏ ^ｔ )ｄθ _ｔ
（但しＡ∝ＢはＡとＢは比例しているということを表す）として求めるものであることを特徴とする音響モデル作成装置。
請求項２記載の音響モデル作成装置において、
上記逐次学習部は、音響モデルパラメータのうち、平均ベクトルパラメータに対して、演算するものであることを特徴とする音響モデル作成装置。
請求項３記載の音響モデル作成装置において、
上記逐次学習部は、上記音響モデルパラメータの事後確率分布が、当該事後確率分布の平均パラメータと、当該事後確率分布の共分散行列パラメータと、で表現されるガウス分布で表されることに基づき、上記今回の音響モデルパラメータの上記事後確率分布の平均パラメータと上記事後確率分布の共分散行列パラメータを計算するものであり、
上記モデル更新部は、上記逐次学習部で計算された音響モデルパラメータを用いて、前回の音響モデルパラメータを更新するものであることを特徴とする音響モデル作成装置。
請求項４記載の音響モデル作成装置において、
上記逐次学習部は、次式を演算するものであり、
Ｑ＾_ｔ＋１＝（（Ｕ＋ＡＱ＾_ｔＡ’）^−１＋ζ_ｔ＋１Σ^―１）^−１
Ｋ＾_ｔ＋１＝Ｑ＾_ｔ+１ζ_ｔ＋１Σ^―１
μ＾_ｔ＋１＝Ａμ＾_ｔ＋υ＋Ｋ＾_ｔ＋１（Ｍ_ｔ＋１／ζ_ｔ＋１−Ａμ＾_ｔ−υ）
Ｑ＾_ｔ＋１及びＱ＾_ｔは、それぞれ今回及び前回の事後確率分布の共分散行列パラメータであり、Ａ、υ、及びＵはそれぞれ音響モデルパラメータ中の平均の上記確率的ダイナミクスを線形表現した時の係数、定数及びガウシアンノイズの共分散行列であり、ζ_ｔ＋１は、今回の事後占有確率値の和、Σは初期音響モデルパラメータ中の共分散行列であり、μ＾_ｔ＋１及びμ＾_ｔは今回および前回の事後確率分布の平均パラメータであり、Ｍ_ｔ＋１は今回の各時点におけるζと特徴量との積和であり、Ａ’は行列Ａの転置を表すことを特徴とする音響モデル作成装置。
請求項５記載の音響モデル作成装置において、
上記逐次学習部の演算は上記Ｕに代えて、（ｕ^０）^−１Σとして演算するものであり、上記ｕ^０は予め与えられる定数であることを特徴とする音響モデル作成装置。
請求項６記載の音響モデル作成装置において、
上記逐次学習部の演算は行列Ａに代えて単位行列として、演算するものであることを特徴とする音響モデル作成装置。
認識用音声データの音響的特徴を持つ適応用音声データに適応化させた音響モデルを、請求項１〜７のいずれかに記載した音響モデル作成装置により作成して、音響モデルパラメータを更新する認識用モデル更新部と、
上記更新された音響モデルパラメータを用いて、上記音響的特徴を持った入力音声データに対する音声認識を行う認識部とを具備する音声認識装置。
特徴抽出手段が、今回の適応用音声データの部分時系列の特徴量系列を抽出する特徴抽出過程と、
逐次学習手段が、前回までの累積された特徴量系列が加味された前回求めた音響モデルパラメータの事後確率分布ｐ（θ _ｔ │Ｏ ^ｔ）と、今回まで累積された特徴量系列のうち少なくとも１つと、に基づき今回の音響モデルパラメータの事後確率分布ｐ（θ _ｔ＋１ │Ｏ ^ｔ＋１）を求める逐次学習過程と、ここで、Ｏ ^ｔ＋１およびＯ ^ｔは今回および前回までに累積された特徴量系列であり、θ _ｔ＋１およびθ _ｔは今回および前回の音響モデルパラメータであり、
モデル更新手段が、上記今回の音響モデルパラメータの事後確率分布ｐ（θ _ｔ＋１ │Ｏ ^ｔ＋１）を新たな音響モデルとするモデル更新過程と、を有し、
上記逐次学習過程は、前回の音響モデルパラメータの事後確率分布ｐ（θ_ｔ│Ｏ^ｔ）と、今回の出力分布ｐ（Ｏ_ｔ＋１│θ_ｔ＋１、Ｏ^ｔ）と、今回の確率的ダイナミクスｐ（θ_ｔ＋１│θ_ｔ、Ｏ^ｔ）と、を用いて今回の音響モデルパラメータの事後確率分布ｐ（θ_ｔ＋１│Ｏ^ｔ＋１）を

として求める過程であることを特徴とする音響モデル作成方法。
特徴抽出手段が、今回の適応用音声データの部分時系列の特徴量系列を抽出する特徴抽出過程と、
逐次学習手段が、前回までの累積された特徴量系列が加味された前回求めた音響モデルパラメータの事後確率分布ｐ（θ _ｔ │Ｏ ^ｔ）と、今回まで累積された特徴量系列のうち少なくとも１つと、に基づき今回の音響モデルパラメータの事後確率分布ｐ（θ _ｔ＋１ │Ｏ ^ｔ＋１）を求める逐次学習過程と、ここで、Ｏ ^ｔ＋１およびＯ ^ｔは今回および前回までに累積された特徴量系列であり、θ _ｔ＋１およびθ _ｔは今回および前回の音響モデルパラメータであり、
モデル更新手段が、上記今回の音響モデルパラメータの事後確率分布ｐ（θ _ｔ＋１ │Ｏ ^ｔ＋１）を新たな音響モデルとするモデル更新過程と、を有し、
上記逐次学習過程は、前回の音響モデルパラメータの事後確率分布ｐ（θ_ｔ│Ｏ^ｔ）と、今回の出力分布ｐ（Ｏ_ｔ＋１│θ_ｔ＋１）と、今回の確率的ダイナミクスｐ（θ_ｔ＋１│θ_ｔ）と、を用いて今回の音響モデルパラメータの事後確率分布ｐ（θ_ｔ＋１│Ｏ^ｔ＋１）を
ｐ(θ _ｔ＋１｜Ｏ ^ｔ＋１ )∝ｐ(Ｏ _ｔ＋１｜θ _ｔ＋１ )∫ｐ(θ _ｔ＋１｜θ _ｔ )ｐ(θ _ｔ｜Ｏ ^ｔ )ｄθ _ｔ
（但しＡ∝ＢはＡとＢは比例しているということを表す）として求める過程であることを特徴とする音響モデル作成方法。
請求項１０記載の音響モデル作成方法において、
上記逐次学習過程は、音響モデルパラメータのうち、平均ベクトルパラメータに対して、演算する過程であることを特徴とする音響モデル作成方法。
請求項１１記載の音響モデル作成方法において、
上記逐次学習過程は、上記音響モデルパラメータの事後確率分布が、当該事後確率分布の平均パラメータと、当該事後確率分布の共分散行列パラメータと、で表現されるガウス分布で表されることに基づき、上記今回の音響モデルパラメータの上記事後確率分布の平均パラメータと共分散行列パラメータを計算する過程であり、
上記モデル更新過程は、上記逐次学習過程で計算されたパラメータを用いて、前回の音響モデルパラメータを更新する過程であることを特徴とする音響モデル作成方法。
請求項１２記載の音響モデル作成方法において、
上記逐次学習過程は、次式を演算する過程であり、
Ｑ＾_ｔ＋１＝（（Ｕ＋ＡＱ＾_ｔＡ’）^−１＋ζ_ｔ＋１Σ^―１）^−１
Ｋ＾_ｔ＋１＝Ｑ＾_ｔ+１ζ_ｔ＋１Σ^―１
μ＾_ｔ＋１＝Ａμ＾_ｔ＋υ＋Ｋ＾_ｔ＋１（Ｍ_ｔ＋１／ζ_ｔ＋１−Ａμ＾_ｔ−υ）
ここで、Ｑ＾_ｔ＋１及びＱ＾_ｔは、それぞれ今回及び前回の事後確率分布の共分散行列パラメータであり、Ａ、υ、及びＵはそれぞれ音響モデルパラメータ中の平均の上記確率的ダイナミクスを線形表現した時の係数、定数及びガウシアンノイズの共分散行列であり、ζ_ｔ＋１は、今回の事後占有確率値の和、Σは初期音響モデルパラメータ中の共分散行列であり、μ＾_ｔ＋１及びμ＾_ｔは今回および前回の事後確率分布の平均パラメータであり、Ｍ_ｔ＋１は今回の各時点におけるζと特徴量との積和であり、Ａ’は行列Ａの転置を表すことを特徴とする音響モデル作成方法。
請求項１３記載の音響モデル作成方法において、
上記逐次学習過程の演算は上記Ｕに代えて、（ｕ^０）^−１Σを用いて、演算する過程であり、ここで、上記ｕ^０は予め与えられる定数であることを特徴とする音響モデル作成方法。
請求項１４記載の音響モデル作成方法において、
上記逐次学習過程の演算は行列Ａに代えて単位行列を用いて、演算する過程であることを特徴とする音響モデル作成方法。
認識用モデル更新手段が、認識用音声データの音響的特徴を持つ適応用音声データに適応化させた音響モデルを請求項９〜１５のいずれかに記載した音響モデル作成方法により作成して、音響モデルパラメータを更新する認識用モデル更新過程と、
認識手段が、上記更新された音響モデルパラメータを用いて、上記音響的特徴を持った入力音声データに対する音声認識を行う認識過程とを有する音声認識方法。
請求項９〜１５の何れかに記載の音響モデル作成方法の各過程をコンピュータに実行させるための音響モデル作成プログラム。
請求項１６に記載の音声認識方法の各過程をコンピュータに実行させるための音声認識プログラム。
請求項１７記載の音響モデル作成プログラムを記録したコンピュータ読み取り可能な記録媒体。
請求項１８記載の音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体。