JP2010054588A

JP2010054588A - 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体

Info

Publication number: JP2010054588A
Application number: JP2008216640A
Authority: JP
Inventors: Shinji Watabe; 晋治渡部; Atsushi Nakamura; 篤中村
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 2008-08-26
Filing date: 2008-08-26
Publication date: 2010-03-11
Anticipated expiration: 2028-08-26
Also published as: JP4881357B2

Abstract

【課題】演算量を少なく、音響モデルを作成する。
【解決手段】今回の適応用音声データの特徴量系列を抽出し、音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布をガウス分布で表現した際の、当該事後確率分布の平均ベクトルパラメータ、共分散行列パラメータに対するスケーリング因子、初期の共分散行列で表されることに基づき、前回のガウス分布の平均ベクトルパラメータの事後確率分布、今回まで累積された特徴量系列の一部を用い、今回の音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布をガウス分布で表現した際の、当該事後確率分布の平均ベクトルパラメータ及び、スケーリング因子を計算することで、今回の音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布を求め、今回の音響モデルパラメータの事後確率分布を新たな音響モデルパラメータに変換して更新する。
【選択図】図３

Description

この発明は、音声認識時に使用する音響モデルを逐次適応法により作成する音響モデル作成装置、および、その装置で作成された音響モデルを用いて音声認識を行う音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体に関する。

［音声認識］
従来の音声認識装置の機能構成例を図１に示し、従来の音声認識装置の処理の主な流れを図２に示す。音声認識装置２は主に、特徴抽出部４と単語列探索部６と音響モデル記憶部８と言語モデル記憶部１０とで構成されている。

まず、音響モデル記憶部８中の音響モデルの読み込みを行う（ステップＳ２）。なお、場合によっては、音響モデルの他に、単語モデル、コンテクスト依存音素モデル等の読み込みを行う。また、言語モデル記憶部１０の読み込みを行う（ステップＳ４）。入力された認識用音声データは音声認識装置２に読み込まれ（ステップＳ６）、認識用音声データは特徴抽出部４に入力され、認識用音声データはフレーム（一定時間区間）ごとにＭＦＣＣ（メルフィルタバンクケプストラム係数）ベクトルなどの音響的特徴量系列（以下、「特徴量系列」という。）に変換される（ステップＳ８）。変換された特徴量系列は図に示していないが、一旦、特徴量記憶部に記憶される。記憶された特徴量系列は、読み出されて、単語列探索部６に入力される。

単語列探索部６では、音響モデル記憶部８の音響モデルを用いて認識用音声データの特徴量系列に対しスコアを算出し、これに言語モデル記憶部１０の言語モデル等に対するスコアを参照して単語列探索を行う（ステップＳ１０）。また、場合によっては、音素列探索や孤立単語探索を行う。最終的に認識結果を単語列として出力し（ステップＳ１２）、場合によっては、音素列、孤立単語のみを出力する。

［音響モデル作成］
次に、音響モデルの作成方法について説明する。音響モデルは、音声の音響的特徴をモデル化したものであり、認識用音声データと音響モデルを参照することにより、音声データを音素や単語といったシンボルに変換する。そのため、音響モデルの作成は、音声認識装置の性能を大きく左右する。通常、音声認識用音響モデルでは、各音素をLeft to rightの隠れマルコフモデル（ＨＭＭ）で、ＨＭＭ状態の出力確率分布を混合ガウス分布モデル（ＧＭＭ）で表現する。そのため、実際に音響モデルとして記憶部に記憶されているのは、音素などの各シンボルにおける、ＨＭＭの状態遷移確率ａ，ＧＭＭの混合重み因子ｗ、及び音響モデル中のガウス分布の平均ベクトルパラメータμ、及び音響モデル中のガウス分布の共分散行列パラメータΣとなる。これらを音響モデルパラメータと呼びその集合をθとする。つまり、θ＝｛ａ，ｗ，μ，Σ｝とする。音響モデルパラメータθの値を正確に求めるのが音響モデルの作成過程となり、この過程を音響モデル作成方法と呼ぶ。

近年、音響モデルは確率統計的手法により大量の音声データとその教師ラベルの情報から、音響モデルパラメータθを学習することにより作成される。通常学習データに対しては、その何れの部分が何れの音素であるかを示す教師ラベル情報が与えられている。教師ラベル情報が与えられていない場合は、実際人が聞いて教師ラベル情報を付けたり、また音声認識装置を用いることにより教師ラベル情報を付与する。以降では学習用音声データには教師ラベル情報が前記のような方法で付与されているとして説明を進める。

従来の音響モデル作成装置の機能構成例を図３に示し、従来の音響モデル作成装置の処理の主な流れを図４に示す。図３及び図４において、教師ラベル情報の付与については省略する。

音響モデル作成装置１１は、特徴抽出部４、特徴量記憶部５、音響モデルパラメータ学習部１２、とで構成されている。学習用音声データが音響モデル作成装置１１により読み込まれる（ステップＳ２２）。読み込まれた学習用音声データは、特徴抽出部４で特徴量系列に変換される（ステップＳ２４）。変換された特徴量系列は特徴量記憶部５に記憶される。記憶された特徴量系列は読み出されて、音響モデルパラメータ学習部１２に入力される。教師ラベルが存在していなければ（ステップＳ２６）、音声認識装置、若しくは人手によって教師ラベル情報が与えられる（ステップＳ２８）

次に、音響モデルパラメータ学習部１２による音響モデルパラメータの学習について説明する。教師ラベル情報により得られる学習データ中の各音素に対応するデータから、音響モデルパラメータθ（ＨＭＭの状態遷移確率ａ，ＧＭＭの混合重み因子ｗ、及びＧＭＭの平均ベクトルパラメータμ及び共分散行列パラメータΣ）を推定することを音響モデルパラメータの学習と呼ぶ。パラメータを学習する手法としては最尤学習法がある。また、音響モデルパラメータの学習には他にも、ベイズ学習、識別学習、ニューラルネットワーク等がある。

音響モデルパラメータ学習部１２は、教師ラベル記憶部１４に予め用意された音声データに対応する教師ラベル情報を用いて、音響モデルパラメータの学習を行う（ステップＳ３０）。音響モデル作成装置１１で作成された音響モデルが出力される（ステップＳ３２）。また、ステップＳ２６において、教師ラベルが存在していれば、直接ステップＳ３０に進む。

音響モデルパラメータは数百万の自由度を持つため、これらを学習するためには数百時間に及ぶ大量の学習用音声データが必要となる。しかし、事前に話者、雑音、発話スタイルといった全ての音響的変動要因を含む音声データを数百万のパラメータを十分に学習するほど、大量に収集するのは不可能である。そこで、少量の学習用音声データから音響モデルパラメータを推定する手法として、適応学習が非常に重要な技術となる。

［音響モデルパラメータの変換にもとづく適応学習］
音響モデルパラメータに対しての適応学習は、パラメータあたりの学習データ量が少ない場合に初期モデルを先験知識として用い、少ないデータで学習を行う手法である。通常の学習方法との違いは学習データのみならず初期モデルを用いて音響モデルを構築する点である。このように初期モデルと学習データから新たに音響モデルを構築する学習方法を適応学習と呼ぶ。

適応学習では、一般的に初期音響モデルパラメータθ_０と新たに作られる音響モデルパラメータθの変換に注目する。例えば、Ｎ個のＤ次元特徴ベクトルで表現される特徴量系列Ｏ＝｛ｏ_１，ｏ_２，…，ｏ_Ｎ｜ｏ_ｎ∈Ｒ^Ｄ｝が与えられたとき、音響モデルパラメータθの推定を考えるのではなく、その変換パラメータを考えるのが変換パラメータ推定法である。つまり初期モデルのパラメータθ_０と特徴量系列Ｏから適応後の音響モデルパラメータθをθ＝ｆ（θ_０，Ｏ）として求めるときの、ｆ（・）を求め、それにより新たに音響モデルパラメータθを得る手法である。

ｆ（・）がパラメトリックに表現される（関係が数式で表現される。）とすれば、適応学習はｆ（・）のパラメータである変換パラメータＷ（後に具体的に説明する）の推定を初期モデルパラメータθ_０と適応用音声データＯから求めることになる。これを音響モデルパラメータの変換にもとづく適応学習と呼ぶ。

［線形回帰法］
適応学習の中では、音響モデル中のガウス分布の平均ベクトルパラメータμに対する線形回帰行列を推定する手法が広く用いられている（非特許文献１、２参照）。線形回帰行列を用いた場合の音響モデル作成装置の機能構成例を図５に示し、この場合の音響モデル作成装置の主な処理の流れを図６に示す。この手法を用いた音響モデル作成装置２１は、特徴抽出部４、特徴量記憶部５、パラメータ適応部２２、とで構成されており、パラメータ適応部２２は変換パラメータ推定部２４、変換パラメータ記憶部２６、モデルパラメータ変換部２８、とで構成されている。

まず、初期音響モデルパラメータθ_０が初期音響モデルパラメータ記憶部３０に読み込まれる（ステップＳ４０）。そして、適応用音声データ２０が読み込まれ（ステップＳ４２）、特徴抽出部４に入力され、特徴量系列Ｏに変換される（ステップＳ４４）。変換された特徴量系列Ｏは一旦、特徴量記憶部５に記憶される。記憶された特徴量系列Ｏは変換パラメータ推定部２４に入力される。以下に変換パラメータ推定部２４、モデルパラメータ変換部２８の処理を説明する。

初期音響モデルパラメータθ_０中のあるガウス分布の平均ベクトルパラメータμ_０は以下の式（１）により線形変換される。
μ＝Ａμ_０＋ν （１）
ここで、ＡはＤ×Ｄの行列であり、平均ベクトルパラメータμ_０の回転、伸縮をさせる行列である。νはＤ次元ベクトルであり平均ベクトルパラメータμ_０の平行移動をさせるベクトルを表す。このとき、変換パラメータＷ＝（ν，Ａ）である。変換パラメータＷは特徴量系列Ｏから期待値最大化（Expectation Maximization）アルゴリズム（以下ＥＭアルゴリズムという）やその一種であるＭＬＬＲ（Maximum Likelihood Linear Regression）アルゴリズムを用いて繰り返し計算により効率よく求められる（ステップＳ４６）。推定すべき変換パラメータＷのパラメータ数はＤ^２＋Ｄ＝Ｄ（Ｄ＋１）となる。何故なら、行列Ａの要素数はＤ^２であり、ベクトルνの要素数はＤであるからである。平均ベクトルのパラメータ数Ｄよりもパラメータ数が多いが、複数のガウス分布で同一の変換パラメータを共有することにより、推定すべきパラメータ数を減らすことが可能である。推定された変換パラメータＷは一旦変換パラメータ記憶部２６に記憶される。

記憶された変換パラメータＷはモデルパラメータ変換部２８に入力される。モデルパラメータ変換部２８で、得られた変換パラメータＷと（初期音響モデルパラメータθ_０中の）初期平均ベクトルパラメータμ_０をもとに前記式（１）から新たな平均ベクトルパラメータμを得る（ステップＳ４８）。平均ベクトルパラメータμが音響モデルパラメータμとして出力される（ステップＳ５０）。

［音響モデルパラメータ変換にもとづく逐次適応］
以上までは、一まとまりの特徴量系列Ｏ＝｛ｏ_１，ｏ_２，…，ｏ_ｎ，…，ｏ_Ｎ｝（ただし、Ｎはフレーム数である）に対しての適応学習を考えた。しかし、音声は雑音などの外的要因や発声のなまり等の内的要因によって、時々刻々その音響的特徴を大きく変化させている。このような変化に追随していくためには、時系列的に与えられるまとまった量の音声データに対して逐次モデルを適応させる逐次適応学習が有効である。このとき、特徴量系列を１まとまりとして捉えず、複数のまとまりが時系列的に与えられる場合の適応を考える。つまり以下の式（２）（３）のように考える。

ただし、ｔは前回の時刻、ｔ＋１は今回の時刻を示し、式（３）中のＴはｔの総数を示し、θ_ｔ＋１およびθ_ｔは今回および前回の音響モデルパラメータである。このとき、あるまとまりｔ＋１での音響モデルパラメータθ_ｔ＋１は、その前のまとまりｔにおいて得られた音響モデルパラメータθ_ｔ及び特徴量系列のまとまりＯ_ｔ＋１から求められる。つまり、以下の式（４）に示す漸化式で表現することにより、時々刻々音響モデルを求めることができる。これをパラメータ変換に基づく逐次適応法と呼ぶ。
θ_ｔ＋１＝ｆ（θ_ｔ，Ｏ_ｔ＋１）（４）

図７に、逐次適応法を用いた場合の音響モデルパラメータが変換される手順を示す。まず、特徴量系列Ｏ_１と初期音響モデルパラメータθ_０を用いてモデルパラメータ変換部２８で音響モデルパラメータθ_１が求められる。そして、今度は、音響モデルパラメータθ_１と次の特徴量系列Ｏ_２と用いて、音響モデルパラメータθ_２が求められる。このようにして、前回の音響モデルパラメータθ_ｔと今回の特徴量系列Ｏ_ｔ＋１とを用いて、今回の音響モデルパラメータθ_ｔ＋１が求められる。

［線形回帰法］
このとき、変換パラメータ推定法の逐次適応への適用を考察する（非特許文献２参照）。先ほどは、変換パラメータＷは全ての特徴量系列から推定されたとしたが、逐次適応においては各まとまりごと（ｔごと）にＷを推定する。それをＷ_ｔ＝｛ν_ｔ，Ａ_ｔ｝とすれば、パラメータ変換に基づく逐次適応法における平均パラメータの更新式（前記式（４）に示す）は前記式（１）を基に、以下の式（５）のように漸化式で表現することができる。
μ_ｔ＋１＝Ａ_ｔ＋１μ_ｔ＋ν_ｔ＋１（５）
これによって、パラメータ変換に基づく逐次適応が実現される。以下の説明では、Ａ_ｔ＋１は「今回の音響モデルパラメータ中の平均の確率的ダイナミクスを線形表現した時の係数行列」といい、ν_ｔ＋１は「今回の音響モデルパラメータ中の平均の確率的ダイナミクスを線形表現した時の係数ベクトル」という。

以上の逐次適応法は得られた音響モデルパラメータθ_０、．．．、θ_ｔ＋１にどの程度推定による誤差が含まれるかが考慮されていない。そのため、学習に悪影響を及ぼすような音声データが存在した場合、学習が失敗した場合等は、その影響がそのまま認識性能に出てしまい、頑健性が低いものとなってしまう。

［分布変換にもとづく逐次適応法］
次に、本発明の基本概念となる「分布変換にもとづく逐次適応法」について説明する。本手法では、音響モデルパラメータθ_ｔそのものの推定を考えるのではなく、音響モデルパラメータの分布ｐ（θ_ｔ）を考える（特許文献１、非特許文献３、４参照）。

これにより、推定による誤差を例えばその分布の分散から考慮することができる。さらに音響モデルパラメータの分布として累積された特徴量系列Ｏ^ｔ＝｛Ｏ_１，Ｏ_２，…，Ｏ_ｔ｝が与えられたときの事後確率分布を考える。つまり、ｐ（θ_ｔ）ではなく、ｐ（θ_ｔ│Ｏ^ｔ）を推定対象とする。ここで、Ｏ^ｔ＋１およびＯ^ｔは今回および前回までに累積された特徴量系列であることを示す。

ここで、ｐ（α│β）はある事象βが起こるという条件下で、別の事象αが起こる確率である事後確率（条件付き確率）である。つまり、ｐ（θ_ｔ│Ｏ^ｔ）は特徴量系列Ｏ^ｔが与えられた時の音響モデルパラメータがθ_ｔである事後確率であることを示す。これにより、累積された特徴量系列Ｏ^ｔの情報を音響モデルパラメータに加味することができるため、頑健性を確保することができる。従って、以下の式（８）に示す漸化式
ｐ(θ_ｔ＋１｜Ｏ^ｔ＋１)＝Ｆ[ｐ(θ_ｔ｜Ｏ^ｔ)] （８）
を用いて時間発展、つまり、音声の音響的特徴の変化として対応した漸化式を記述することにより、前記式（４）で注目した音響モデルパラメータθではなく、音響モデルパラメータの事後確率分布ｐ(θ｜Ｏ)に基づく逐次適応を実現することができる。ここで、Ｆ[・]はｐ(θ｜Ｏ)を引数として持つ汎関数である。また、Ｆ[・]は今回まで累積された特徴量系列Ｏ^ｔ＋１の一部の特徴量系列に基づいて表現されるものである。以下の説明では、Ｆ[・]は、今回まで累積された特徴量系列Ｏ^ｔ＋１に基づいて、表現されるものとする。このとき、Ｆ[・]をパラメトリックに表現し、その変換パラメータＷを例えば特徴量Ｏ_ｔから適切に推定することにより前記式（８）で表現される逐次適応を実現できる。ただし、変換パラメータの推定は、特徴量Ｏ_ｔのみではなく、特徴量系列Ｏ_１，Ｏ_２，…，Ｏ_ｔのうちの一部を用いてもよく、特徴量系列Ｏ^ｔを用いてもよい。

前記式（４）と前記式（８）を見比べてわかることは、前記式（８）はパラメータを逐次変換させるのではなく、その事後確率分布を逐次変換させていることである。また、時刻ｔでの事後確率分布ｐ（θ_ｔ│Ｏ^ｔ）のパラメータをω_ｔとすると、ｐ（θ_ｔ│Ｏ^ｔ）の逐次更新はパラメータω_ｔの逐次更新で表現できる。従って、時々刻々、事後確率分布パラメータω_ｔを求めることにより逐次適応が実現できる。従って、分布変換にもとづく逐次適応法では、事後確率分布ｐ（θ_ｔ│Ｏ^ｔ）ではなく、事後確率分布パラメータω_ｔを更新していく。

図８に当該逐次的応法を適用した場合の機能構成例を示し、図９に事後確率分布のパラメータωを逐次適応させる順序を示し、図１０に主な処理の流れを示す。図８に示す音響モデル作成装置４８は、特徴抽出部４、特徴量記憶部５、モデル適応化部５０、とで構成され、モデル適応化部５０は逐次学習部５２、事後確率分布記憶部５４、モデル更新部５６、とで構成されている。

まず、前回の事後確率分布のパラメータω_ｔがモデル適応化部５０で読み込まれる（ステップＳ６０）。次に、適応用音声データが読み込まれ（ステップＳ６２）、適応用音声データが特徴抽出部４に入力され、特徴量系列Ｏ_ｔ＋１に変換される（ステップＳ６４）。変換された特徴量系列Ｏ_ｔ＋１は一旦、特徴量記憶部５に記憶され逐次学習部５２に入力される。

逐次学習部５２では、前記式（８）のように、前回までの累積された特徴量系列が加味された前回求めた音響モデルパラメータの事後確率分布ｐ（θ_ｔ│Ｏ^ｔ）と、前記今回抽出した特徴量系列Ｏ_ｔ＋１とに基づき、今回の特徴量系列に適応化させた今回の音響モデルパラメータの事後確率分布ｐ（θ_ｔ＋１│Ｏ^ｔ＋１）を求める（ステップＳ６８）。以下に、逐次学習部５２による更に具体的な事後確率分布ｐ(θ_ｔ＋１｜Ｏ^ｔ＋１)の求め方を説明する。

ｐ(θ_ｔ｜Ｏ^ｔ)からｐ(θ_ｔ＋１｜Ｏ^ｔ＋１)への時間発展を記述する前記式（８）中の関数Ｆ[・]には任意の形を与えることが可能であり様々な変換を考えることができる。この実施形態では、具体的な関数系のひとつとして、確率の積の公式とベイズの定理から理論的に近似無く導出される漸化式を紹介する。はじめにｐ(θ_ｔ＋１｜Ｏ^ｔ＋１)はベイズの定理から次のように表現される。

ここで式（９）の右辺にあるｐ(θ_ｔ＋１｜Ｏ^ｔ)はｐ(θ_ｔ｜Ｏ^ｔ)を用いると次のように表現される。
ｐ(θ_ｔ＋１｜Ｏ^ｔ)＝∫ｐ(θ_ｔ＋１｜θ_ｔ，Ｏ^ｔ)ｐ(θ_ｔ｜Ｏ^ｔ)ｄθ_ｔ（１０）
従って式（１０）を式（９）に代入することにより次式（１１）のような漸化式を導出することができる。

式（１１）の右辺には前回（時刻ｔ）での事後確率分布ｐ（θ_ｔ│Ｏ^ｔ）が含まれており、ｐ（θ_ｔ│Ｏ^ｔ）から現在（次の時刻ｔ＋１）での事後確率ｐ（θ_ｔ＋１│Ｏ^ｔ＋１）を求める式となっている。従って、式（１１）を音響モデルパラメータの事後確率分布の漸化式と呼ぶ。この漸化式を用いることにより、前回まで累積された、特徴量系列Ｏ^ｔ＋１の情報が加味された音響モデルパラメータの事後確率分布ｐ(θ_ｔ＋１｜Ｏ^ｔ＋１)の逐次推定を逐次学習部５２で行うことが出来る。また式（１１）の積分計算はモンテカルロ法（Monte Carlo method）などの数値計算で解くことが出来る。またここで時間発展を最初の一ステップに限る。つまりｔ→０，ｔ＋１→１とすれば以下の式（１２）のようになる。

式（１２）は、逐次的ではなく、与えられた適応用データＯ_１からｐ（θ_１│Ｏ_１
）を推定する通常の適応を示している。つまり、本発明は逐次適応のみならず通常の適応においてもその効果を与えることができる。

前記式（１１）による逐次適応を実現するためには、右辺は次の４つの確率分布であるｐ(Ｏ_ｔ＋１｜Ｏ^ｔ)、ｐ(θ_ｔ｜Ｏ^ｔ)、ｐ(Ｏ_ｔ＋１｜θ_ｔ＋１，Ｏ^ｔ)、ｐ(θ_ｔ＋１｜θ_ｔ，Ｏ^ｔ)に具体系を与える必要がある。ここでｐ(Ｏ_ｔ＋１｜Ｏ^ｔ)は求めたい分布であるｐ(θ_ｔ＋１｜Ｏ^ｔ＋１)の引数θ_ｔ＋１に依存しないため、規格化定数として扱うことができるため、具体形を与えなくても良い。残りの３つであるｐ(θ_ｔ｜Ｏ^ｔ)、ｐ(Ｏ_ｔ＋１｜θ_ｔ＋１，Ｏ^ｔ)、ｐ(θ_ｔ＋１｜θ_ｔ，Ｏ^ｔ)について考察を行う。

ｐ(θ_ｔ｜Ｏ^ｔ)は前述した音響モデルパラメータの事後確率分布であり、適切に初期分布を設定することにより逐次求めることが可能である。ｐ(Ｏ_ｔ＋１｜θ_ｔ＋１，Ｏ^ｔ)はＯ_ｔ＋１の出力分布であり、ＨＭＭやＧＭＭといった音響モデルの設定によって与えられるものである。最後にｐ(θ_ｔ＋１｜θ_ｔ，Ｏ^ｔ)は音響モデルパラメータθの確率的ダイナミクスである。従って、前記式（１１）の漸化式は、初期分布、出力分布及び確率的ダイナミクスによって構成されている。

説明を図８に戻すと、逐次学習部５２により求められた今回の事後確率分布ｐ(θ_ｔ＋１｜Ｏ^ｔ＋１)は一旦、事後確率分布記憶部５４に記憶される。そして今回の事後確率分布ｐ(θ_ｔ＋１｜Ｏ^ｔ＋１)はモデル更新部５６に入力される。
モデル更新部５６で、音響モデル記憶部５８内の音響モデルとしての前回の事後確率分布ｐ(θ_ｔ｜Ｏ^ｔ)が、今回の音響モデルパラメータの事後確率分布ｐ(θ_ｔ＋１｜Ｏ^ｔ＋１)に新たな音響モデルとして更新する（ステップＳ７０）。

また、図９について説明すると、求められた前回の事後確率分布ｐ(θ_ｔ｜Ｏ^ｔ)は一旦、音響モデル（分布モデル）記憶部５８に一旦、記憶される。逐次学習部５２で、前回の事後確率分布ｐ(θ_ｔ｜Ｏ^ｔ)と、今回の特徴量系列Ｏ^ｔ＋１とを用いて、前記式（１１）から、今回の事後確率分布ｐ(θ_ｔ＋１｜Ｏ^ｔ＋１)を求める。このようにして、音響モデルパラメータの事後確率分布を逐次的に更新する。

［マルコフ過程の導入］
次に前記式（１１）の演算処理をマルコフ過程を仮定することで簡単にする手法を説明する。ｐ(Ｏ_ｔ＋１｜θ_ｔ＋１，Ｏ^ｔ)及びｐ(θ_ｔ＋１｜θ_ｔ，Ｏ^ｔ)は累積された特徴量系列に直接依存する。これらを全ての累積特徴量系列から推定しようとした場合、時が経つにつれ累積データは多くなるため、その推定は大変計算量が多くなり現実的でない。そこで、マルコフ過程を仮定すると、ｐ(Ｏ_ｔ＋１｜θ_ｔ＋１，Ｏ^ｔ)とｐ(θ_ｔ＋１｜θ_ｔ，Ｏ^ｔ)はそれぞれ式（１３）のように近似される。
ｐ(Ｏ_ｔ＋１｜θ_ｔ＋１，Ｏ^ｔ)≒ｐ(Ｏ_ｔ＋１｜θ_ｔ＋１)，
ｐ(θ_ｔ＋１｜θ_ｔ，Ｏ^ｔ) ≒ｐ(θ_ｔ＋１｜θ_ｔ) （１３）

この近似により、逐次学習部５２は前回の音響モデルパラメータの事後確率分布ｐ（θ_ｔ│Ｏ^ｔ）と、今回の出力分布ｐ（Ｏ_ｔ＋１│θ_ｔ＋１）と、今回の確率的ダイナミクスｐ（θ_ｔ＋１│θ_ｔ）と、を用いて今回の音響モデルパラメータの事後確率分布ｐ（θ_ｔ＋１│Ｏ^ｔ＋１）を求める。具体的には以下の式（１４）のように近似される。
ｐ(θ_ｔ＋１｜Ｏ^ｔ＋１)∝ｐ(Ｏ_ｔ＋１｜θ_ｔ＋１)∫ｐ(θ_ｔ＋１｜θ_ｔ)ｐ(θ_ｔ｜Ｏ^ｔ)ｄθ_ｔ（１４）
ここで、Ａ∝ＢはＡとＢは比例しているということを表す。前記式（１４）によって、シンプルな出力分布及び確率的ダイナミクスを設定することができる。図８中の逐次学習部５２は、この式（１４）を計算することになる。

［ガウス分布の平均ベクトルの考察］
以上の議論では、ＨＭＭの状態遷移確率ａ，ＧＭＭの混合重み因子ｗ、及びガウス分布の平均ベクトルパラメータμ及び共分散行列パラメータΣといった全ての音響モデルパラメータθの事後確率分布ｐ(θ｜Ｏ)についての処理を行った。一般に、音響モデルにおいて最も性能を左右するパラメータはガウス分布の平均ベクトルパラメータμであり、またそれ以外のパラメータの事後確率分布を推定対象とした場合、分布変換関数Ｆの推定すべきパラメータ数が多くなるため、少量データ適応において効果が十分でなくなる。そのため、以降ではガウス分布の平均ベクトルパラメータμのみに焦点を当て、つまり、音響モデルパラメータθに代えて、ガウス分布の平均ベクトルパラメータμを用いて、図８の逐次学習部５２では演算する。演算された事後確率分布ｐ(μ｜Ｏ)の時間発展について考察する。つまり、前記式（１４）においてガウス分布の平均ベクトルパラメータμのみを考えるため時間発展は次式（１５）を逐次学習部５２で演算する。
ｐ(μ_ｔ＋１｜Ｏ^ｔ＋１)∝ｐ(Ｏ_ｔ＋１｜μ_ｔ＋１)∫ｐ(μ_ｔ＋１｜μ_ｔ)ｐ(μ_ｔ｜Ｏ^ｔ)ｄμ_ｔ（１５）
なお、式（１５）は音響モデル中の各ガウス分布の平均ベクトルパラメータに独立に与えられる。その際の各ガウス分布のインデックスは文中では省略する。

［線形ダイナミクス］
次に、前記式（１５）の解析解を導出することを考える。これを用いて、逐次学習を行う。式（１５）にはさまざまな解析解が存在するが、最も単純な解析解として確率的ダイナミクスが線形で表現される場合を考える。つまり、確率的ダイナミクスとして、以下の式（１６）を仮定することが出来る。
μ_ｔ＋１＝Ａ_ｔ＋１μ_ｔ＋ν_ｔ＋１＋ε_ｔ＋１（１６）

ここでε_ｔ＋１は平均０、共分散行列Ｕのガウシアンノイズである。式（１６）は、前記式（５）における線形変換が確率的に揺らいでいるといえる。このとき、確率ダイナミクスの分布具体系は、以下の式（１７）として与えられる。
ｐ(μ_ｔ＋１｜μ_ｔ)＝Ｎ(μ_ｔ＋１｜Ａ_ｔ＋１μ_ｔ＋ν_ｔ＋１，Ｕ) （１７）

ここで式（１７）のＮ(ｘ｜ｍ、Ｓ)は、ｘを引き数とする平均パラメータｍ、共分散行列パラメータＳのガウス分布である。さらに通常のＨＭＭ，ＧＭＭで表現される音響モデルに対して一まとまりの特徴量系列Ｏ_ｔ＝｛ｏ_Ｎｔ＋１，…，ｏ_{Ｎｔ＋Ｎｔ＋１}｝が出力される出力分布ｐ（Ｏ_ｔ│μ_ｔ）は以下の式（１８）で表すことができる。

ここで、ζ_ｎは、対象のガウス分布に割り当てられたＯ_ｎの事後占有確率値である。また、状態遷移確率ａおよび混合重み因子ｗはｐ（μ｜Ｏ）の推定に関係ないため無視した。またＨＭＭやＧＭＭの潜在変数は無視したが、これらはＥＭアルゴリズム（期待値最大化アルゴリズム）を用いることによって対処可能である。実際、式（１８）はＥＭアルゴリズムにおける補助関数の形式で表現されている。

最後に音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布ｐ（μ_ｔ│Ｏ^ｔ）がガウス分布で表現されると仮定し、事後確率分布ｐ（μ_ｔ│Ｏ^ｔ）の平均ベクトルパラメータをμ＾_ｔとし、事後確率分布ｐ（μ_ｔ│Ｏ^ｔ）の共分散行列パラメータがＱ＾_ｔで表現されるとすると関数形は以下の式（１９）で表すことができる。
ｐ（μ_ｔ│Ｏ^ｔ）＝Ｎ（μ_ｔ│μ＾_ｔ、Ｑ＾_ｔ）（１９）

従って、式（１７）、（１８）、及び（１９）を式（１５）に代入することにより以下の式（２０）で示される解析解を導出することができる。
ｐ（μ_ｔ＋１│Ｏ^ｔ＋１）＝Ｎ（μ_ｔ＋１│μ＾_ｔ＋１、Ｑ＾_ｔ＋１）（２０）
ここで、
Ｑ＾_ｔ＋１＝（（Ｕ＋Ａ_ｔ＋１Ｑ＾_ｔＡ_ｔ＋１’）^−１＋ζ_ｔ＋１Σ^―１）^−１
（２１）
Ｋ＾_ｔ＋１＝Ｑ＾_ｔ+１ζ_ｔ＋１Σ^―１（２２）
μ＾_ｔ＋１＝Ａ_ｔ＋１μ＾_ｔ＋ν_ｔ＋１
＋Ｋ＾_ｔ＋１（Ｍ_ｔ＋１／ζ_ｔ＋１−Ａ_ｔ＋１μ＾_ｔ−ν_ｔ＋１）（２３）

ただし、μ＾_ｔ＋１は今回の事後確率分布ｐ（μ_ｔ＋１│Ｏ^ｔ＋１）をガウス分布で表現した際の平均ベクトルパラメータであり、Ｑ＾_ｔ＋１は今回の事後確率分布ｐ（μ_ｔ＋１│Ｏ^ｔ＋１）をガウス分布で表現した際の共分散行列パラメータであり、Ｋ＾_ｔ＋１はカルマンゲインであり、Ａ_ｔ＋１、ν_ｔ＋１、及びＵはそれぞれ音響モデルパラメータ中の平均の前記確率的ダイナミクスを線形表現した時の係数行列、係数ベクトル、及びガウシアンノイズの共分散行列であり、Σは初期音響モデルパラメータ中の共分散行列であり、Ａ_ｔ＋1’は行列Ａ_ｔ＋1の転置を表す。ζ_ｔ＋１は、今回の事後占有確率値の和であり、Ｍ_ｔ＋１は今回の各時点におけるζと特徴量との積和であり、ζ_ｔ，Ｍ_ｔはガウス分布の平均ベクトルパラメータの十分統計量であり以下の式（２４）のように定義される。

ζ_ｔ，Ｍ_ｔはForward-backwardアルゴリズムやViterbiアルゴリズム、ｋｍｅａｎｓ法などのアライメント手法によって効率よく求めることができる。式（２１）〜（２３）の更新を音響モデル中の全てのガウス分布に対して行うことにより、全ての事後確率分布を更新することができる。

このようにして、今回の事後確率分布ｐ（μ_ｔ＋１｜Ｏ^ｔ＋１）の分布パラメータω_ｔ＋１はＱ＾_ｔ＋１，μ＾_ｔ＋１となり（図９の音響モデルパラメータ記憶部５８の括弧書き参照）、式（２１）（２２）（２３）から求めることができる。なお、式（２２）におけるＫ＾_ｔ＋１は数式の表現のしやすさのために導入したものである。実際の計算では、式（２２）と（２３）を同時に行っても良い。その場合、Ｋ＾_ｔ＋１は求める必要がない。

つまり、音響モデルパラメータの事後確率分布ｐ（μ｜Ｏ）の漸化式はそのパラメータ（Ｑ＾，μ＾）の漸化式（２１）（２２）（２３）によって求めることができる。これは線形動的システムにおけるカルマンフィルタの解と類似している。しかし、カルマンフィルタの解はｏ_ｎ→ｏ_ｎ＋１のように各音声分析フレームごとの更新となっている。一方、本発明ではＯ_ｔ→Ｏ_ｔ＋１のように１まとまりのフレームごとの更新となっているのが違いとなっている。そのため、パラメータＱ＾，μ＾は、１フレームの特徴量ｏ_ｎではなく、その統計量であらわされている。従って、これを巨視的な線形動的システムと呼ぶ。

Ｑ＾，μ＾を用いた場合の逐次学習部５２の具体的構成例を図１１に示す。逐次学習部５２は、Ｑ＾更新部５２０、Ｋ＾更新部５２２、μ＾更新部５２４、事後確率計算部５２６とで構成されている。
Ｑ＾更新部５２０では前記式（２１）が計算され、Ｋ＾更新部５２２では前記式（２２）が計算され、μ＾更新部５２４では前記式（２３）が計算され、事後確率計算部５２６では前記式（２０）が計算される。

従って、Ｑ＾，μ＾を求めるためには、線形変換パラメータＷ_ｔ＋１＝｛ν_ｔ＋１，Ａ_ｔ＋１｝、システムノイズＵ_ｔ＋１、初期パラメータＱ＾_０、及びμ＾_０の４つを設定する必要がある。ここで、Ｑ＾_０は初期音響モデルの共分散行列パラメータから与えられるものであり、μ＾_０は初期音響モデルの平均ベクトルパラメータから与えられるものである。

このうち線形変換パラメータＷ＝｛ν_ｔ＋１，Ａ_ｔ＋１｝は、今回まで累積された特徴量系列Ｏ^ｔのうち少なくとも１つの特徴量系列を用いて、推定される。よく知られた手法の一例としては上述したＥＭアルゴリズムやＭＬＬＲアルゴリズムを用いて繰り返し計算により効率よく求められる。また、複数のガウス分布で同一の変換パラメータを共有することにより、推定すべきパラメータ数を減らすことが可能である。

システムノイズＵも線形変換パラメータＷと同様に学習によって求めることができる。または、行列成分すべてを特徴量系列やその他のデータから先験的に与えることもできる。最も単純な方法は、システムノイズＵを（ｕ^０）^−１Σとしておき、システムノイズの共分散行列が出力分布の共分散行列と比例関係にあるとするとして、ｕ^０を予め与えられるパラメータとする。つまり、１つだけパラメータが導入される。システムノイズＵと線形変換パラメータＷが、前記式（８）の分布変換関数Ｆにおける変換パラメータとなる。

このとき更新式は、以下の式（２５）（２６）（２７）で表され、Ｑ＾更新部５２０では前記式（２５）が計算され、Ｋ＾更新部５２２では前記式（２６）が計算され、μ＾更新部５２４では前記式（２７）が計算される。
Ｑ＾_ｔ＋１＝（（（ｕ^０）^−１Σ＋Ａ_ｔ＋１Ｑ＾_ｔＡ_ｔ＋１’）^−１＋ζ_ｔ＋１Σ^―１）^−１（２５）
Ｋ＾_ｔ＋１＝Ｑ＾_ｔ+１ζ_ｔ＋１Σ^―１（２６）
μ＾_ｔ＋１＝Ａ_ｔ＋１μ＾_ｔ＋ν_ｔ＋１＋Ｋ＾_ｔ＋１（Ｍ_ｔ＋１／ζ_ｔ＋１−Ａ_ｔ＋１μ＾_ｔ−ν_ｔ＋１）（２７）
以上によってパラメータｕ^０によって制御される分布変換にもとづく逐次適応法を実現できる。

［平行移動適応］
前記線形ダイナミクスの式（１６）の平均ベクトルμ_ｔの平行移動ν_ｔ＋１にだけ注目することにより、推定すべきパラメータを少なくしてより少量データでの適応を実現できる。このとき、前記式（２５）（２６）（２７）における行列Ａ_ｔ＋１を単位行列Ｉとする、つまり、Ａ_ｔ＋１＝Ｉとすると、Ｑ＾、Ｋ＾、μ＾は以下の式（２８）（２９）（３０）で計算される。

Ｑ＾_ｔ＋１＝（（（ｕ^０）^−１Σ＋Ｑ＾_ｔ’）^−１＋ζ_ｔ＋１Σ^―１）^−１（２８）
Ｋ＾_ｔ＋１＝Ｑ＾_ｔ+１ζ_ｔ＋１Σ^―１（２９）
μ＾_ｔ＋１＝μ＾_ｔ＋ν_ｔ＋１＋Ｑ＾_ｔ+１ζ_ｔ＋１Σ^―１（Ｍ_ｔ＋１／ζ_ｔ＋１−μ＾_ｔ−ν_ｔ＋１）（３０）
この場合、Ｑ＾更新部５２０では前記式（２８）が計算され、Ｋ＾更新部５２２では前記式（２９）が計算され、μ＾更新部５２４では前記式（３０）が計算される。
C.J.Leggetter and P.C.Woodland,Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models. Computer Speech and Language,Vol.9,pp.171-185,1995. C.J.Leggetter and P.C.Woodland,Maximum.Flexible speaker using maximum likehood linear regression In Proc ARPA Spoken Language Technology Work-shop,pp.104-109,1995. 渡部晋治、中村篤、確率分布の巨視的な時間発展システムに基づく逐次モデル適応．秋季音響学会講演論文集、２−２−１０，ｐｐ．７１−７２，２００６．渡部晋治、中村篤、確率分布の巨視的な時間発展系に基づくモデル適応との従来型適応との関係の考察．秋季音響学会講演論文集２−３−１２、２００７．特開２００８−６４８４９号

オンライン逐次適応タスクでは、１秒程度の非常に短い時間でのモデル更新が、実時間処理のためには必要である。しかし、分布変換に基づく適応法の更新は式式（２８）〜（３０）から分かるとおり、行列Ｑ＾_ｔやΣの演算で表現されており、この行列の積、和および逆行列演算を全てのガウス分布について行う必要があり、計算コストが非常に高く、実時間処理が困難である。例えば、通常の音響モデルは３９次元のガウス分布を数万個含むが、これに対して式（２８）〜（３０）を実行することは３９×３９の行列Ａ、Ｑ＾_ｔやΣ（ただし、Σは通常、対角行列を用いる）の積、和および逆行列をガウス分布数分（数万回）、行う必要があるため、非常に計算に時間がかかる。

また、式（２８）〜（３０）は逆行列の計算を含むため音声データによっては、計算が不安定になり逆行列が求まらなくなる。
また分布パラメータＱ＾_ｔはモデルの更新に必要なため、それらを音響モデルパラメータ記憶部５８に記憶する必要がある。しかし、Ｑ＾_ｔは非対角成分が０でない全共分散行列（ただし、対称行列）であり、それが音響モデル中のガウス分布数分存在するため、大量のメモリを消費する。例えば、音響モデルは３９次元のガウス分布数万個で表現される音響モデルが数メガバイト程度なのに対し、Ｑ＾_ｔだけで、音響モデルの１０倍以上のメモリ（数１０メガバイト）を消費する。

このように、分布変換に基づく適応法は計算量が多く、計算が不安定であり、メモリを多く消費する。従って、それらを用いて、１秒程度の非常に短いで逐次更新を行う、オンライン逐次適応タスクの実現をするのは困難であった。

この発明では、従来と比べて、計算量、メモリ量を削減させ、計算の安定性を向上させた音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体を提供する。

この発明の音響モデル作成装置は、特徴抽出部と、逐次学習部と、モデル更新部と、を具備する。特徴抽出部は、今回の適応用音声データの特徴量系列を抽出する。逐次学習部は、音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布をガウス分布で表現した際の、当該事後確率分布の平均ベクトルパラメータ、当該事後確率分布の共分散行列パラメータに対するスケーリング因子、初期音響モデルパラメータ中の共分散行列で表されることに基づき、前回までの累積された特徴量系列が加味された、前回求めた音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布及び今回まで累積された特徴量系列の一部を用いて、今回の音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布をガウス分布で表現した際の、当該事後確率分布の平均ベクトルパラメータ及び当該事後確率分布の共分散行列パラメータのスケーリング因子を計算することで、今回の音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布を求める。モデル更新部は、今回の音響モデルパラメータの事後確率分布を新たな音響モデルパラメータに変換して更新する。

この発明では、音響モデル中のあるガウス分布の平均ベクトルパラメータμ_ｔの事後確率分布ｐ（μ_ｔ│Ｏ^ｔ）に対して、その共分散行列パラメータＱ＾_ｔを、対象とする音響モデルのガウス分布の共分散行列Σと、本発明で新たに導入するスカラー変数であるスケーリング因子ｒ＾_ｔの逆数（ｒ＾_ｔ）^−１を用いて、以下の式のように掛け合わせたもので表現する。
Ｑ＾_ｔ＝（ｒ＾_ｔ）^−１Σ （３１）
これにより、式（２８）〜（３０）はスカラー演算に直すことができるため、計算量の削減および安定性の確保を実現することができる。また、記憶すべき更新パラメータが対称行列Ｑ＾_ｔからｒ＾_ｔとなるため音響モデル記憶部中のメモリ容量を削減できる。

以下に、発明を実施するための最良の形態を示す。なお、同じ機能を持つ構成部や同じ処理を行う過程には同じ番号を付し、重複説明を省略する。

まず、改めて、記号について定義する。
μ_ｔ前回の音響モデル中のガウス分布の平均ベクトルパラメータ
Σ_ｔ前回の音響モデル中のガウス分布の共分散行列パラメータ
ｐ（μ_ｔ│Ｏ^ｔ）前回の音響モデル中のガウス分布の平均ベクトルパラメータμ_ｔの事後分布確率
μ＾_ｔ音響モデル中のガウス分布の平均ベクトルパラメータμ_ｔの事後確率分布ｐ（μ_ｔ│Ｏ^ｔ）をガウス分布で表現した際の平均ベクトルパラメータ、もしくは、ｐ（μ_ｔ│Ｏ^ｔ）の平均ベクトルパラメータ
Ｑ＾_ｔ音響モデル中のガウス分布の平均ベクトルパラメータμ_ｔの事後確率分布ｐ（μ_ｔ│Ｏ^ｔ）をガウス分布で表現した際の共分散行列パラメータ、もしくは、ｐ（μ_ｔ│Ｏ^ｔ）の共分散行列パラメータ
ｒ＾_ｔ音響モデル中のガウス分布の平均ベクトルパラメータμ_ｔの事後確率分布ｐ（μ_ｔ│Ｏ^ｔ）をガウス分布で表現した際の共分散行列パラメータＱ＾_ｔに対するスケーリング因子、もしくは、ｐ（μ_ｔ│Ｏ^ｔ）の共分散行列パラメータＱ＾_ｔに対するスケーリング因子

実施例１の音響モデル作成装置の機能構成例を図１２に示し、処理の流れを図１０を用いて説明し、図１３に逐次適応法を用いた場合の音響モデルパラメータが変換される手順を示し、図１４に逐次学習部の機能構成例を示す。図１２に示すように、音響モデル作成装置１４８は、特徴抽出部４、特徴量記憶部５、モデル適応化部１５０と、で構成され、モデル適応化部１５０は逐次学習部１５２、事後確率記憶部１５４、モデル更新部１５６とで構成される。また、逐次学習部１５２は、ｒ＾更新部１５２２、μ＾更新部１５２４、事後確率計算部１５２６、とを有する。

まず、前回の事後確率分布の平均ベクトルパラメータμ＾_ｔ、スケーリング因子ｒ＾_ｔ（ｒ＾_ｔについては後述する）がモデル適応化部１５０で読み込まれる（ステップＳ６０）。そして、適応用音声データ２０が読み込まれ（ステップＳ６２）、適応用音声データが特徴抽出部４に入力され、特徴量系列Ｏ_ｔ＋１に変換される（ステップＳ６４）。変換された特徴量系列Ｏ_ｔ＋１は一旦、特徴量記憶部５に記憶され、逐次学習部１５２に入力される。

そして、逐次学習部１５２の処理としてまず、（ｉ）音響モデル中のガウス分布の平均ベクトルパラメータμ_ｔの事後確率分布ｐ（μ_ｔ│Ｏ^ｔ）が、当該事後確率分布ｐ（μ_ｔ│Ｏ^ｔ）の平均ベクトルパラメータμ＾_ｔ、事後確率分布ｐ（μ_ｔ│Ｏ^ｔ）の共分散行列パラメータＱ＾_ｔに対するスケーリング因子ｒ＾_ｔ、初期音響モデルパラメータ中の共分散行列Σ、で表現されるガウス分布で表されることに基づく。そして、（ｉｉ）前回までの累積された特徴量系列Ｏ^ｔが加味された、前回求めた音響モデル中のガウス分布の平均ベクトルパラメータμ_ｔの事後確率分布ｐ（μ_ｔ│Ｏ^ｔ）及び（ｉｉｉ）今回まで累積された特徴量系列Ｏ^ｔの一部を用いる。（ｉｖ）今回の音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布をガウス分布で表現した際の、平均ベクトルパラメータμ＾_ｔ＋１及び共分散行列のスケーリング因子ｒ＾_ｔ＋１を計算することで、今回の音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布ｐ（μ_ｔ＋１│Ｏ^ｔ＋１）を求める。

以下、詳細に説明する。また、この実施例では、計算量、安定性、メモリ量、の改善に焦点を当てるため、線形回帰適応ではなく、パラメータ数の少ない平行移動適応（前記［平行移動適応］の段落で説明）に対して議論を進める。以下、前記（ｉ）〜（ｉｖ）に分けて説明する。
前記式（２８）〜（３０）について、式（２９）に示すＫ＾_ｔ＋１を式（３０）に代入した式を以下に示す。
Ｑ＾_ｔ＋１＝（（（ｕ^０）^−１Σ＋Ｑ＾_ｔ）^−１＋ζ_ｔ＋１Σ^―１）^−１（３２）
μ＾_ｔ＋１＝μ＾_ｔ＋ν_ｔ＋１＋Ｑ＾_ｔ+１ζ_ｔ＋１Σ^―１（Ｍ_ｔ＋１／ζ_ｔ＋１−μ＾_ｔ−ν_ｔ＋１）（３３）

そして、分布パラメータ数を削減するために、前記式（３１）に示したように、音響モデルのガウス分布の平均ベクトルμ_ｔに対する事後分布の共分散行列Ｑ＾_ｔを音響モデルのガウス分布の共分散行列Σと、スケーリング因子ｒ＾_ｔまたはｒ＾_ｔの逆数（ｒ＾_ｔ）^−１を掛け合わせたもので表現する。念のため、式（３１）を以下に示す。スケーリング因子ｒ＾_ｔは実数（スカラー）で表されるパラメータである。
Ｑ＾_ｔ＝（ｒ＾_ｔ）^−１Σ （３１）
この式（３１）を式（３２）に代入するとＱ＾_ｔ＋１の更新式はそれぞれ以下のように表現できる。
Ｑ＾_ｔ＋１＝（（（μ^０）^−１Σ＋（ｒ＾_ｔ）^−１Σ）^−１＋ζ_ｔ＋１Σ^−１）^−１
＝（（（μ^０）^−１＋（ｒ＾_ｔ）^−１）^−１＋ζ_ｔ＋１）^−１Σ
（３４）

そして、式（３１）を変形した式Ｑ＾_ｔ＋１＝（ｒ＾_ｔ＋１）^−１Σの右辺と式（３４）の右辺とは等しくなるので、以下の式（３５）が成り立つ。
ｒ＾_ｔ＋１＝（（μ^０）^−１＋（ｒ＾_ｔ）^−１）^−１＋ζ_ｔ＋１（３５）
つまり、式（３２）に示すＱ＾_ｔ＋１の更新式を式（３５）に示すｒ＾_ｔ＋１に書き直すことができる。

一方、μ＾_ｔ＋１についての更新式について検討すると、前記式（３１）を式（３３）に代入すると以下の式のようになる。

ここで、上述のように、μ^０は予め定められた定数であり、ｒ＾_ｔは前回のスケーリング因子であり、ζ_ｔ＋１は今回の事後占有確率値の和であり、Ｍ_ｔ＋１は今回の各時点におけるζと特徴量との積和であり、ν_ｔ＋１は今回の音響モデルパラメータ中の平均の確率的ダイナミクスを線形表現した時の係数ベクトルである。また、スケーリング因子ｒ＾_ｔの逆数（ｒ＾_ｔ）^−１を用いている理由は、ｒ＾_ｔをそのまま用いると、式（３５）の左辺が（ｒ＾_ｔ＋１）^−１になってしまうという表現上の問題である。実装上はどちらを用いてもかまわない。また、初期値ζ_０、Ｍ_０、ｒ_０については、任意の実数値が与えられる。また、式（２０）のＱ＾_ｔに式（３１）を代入することで、以下の式（３７）が求められる。
ｐ（μ_ｔ＋１│Ｏ^ｔ＋１）＝Ｎ（μ_ｔ＋１│μ＾_ｔ＋１、（ｒ＾_ｔ＋１）^−１Σ）
（３７）

つまり、前記（ｉ）で述べたように、前記式（３７）から、音響モデル中のガウス分布の平均ベクトルパラメータμ_ｔの事後確率分布ｐ（μ_ｔ│Ｏ^ｔ）が、当該事後確率分布ｐ（μ_ｔ│Ｏ^ｔ）の平均ベクトルパラメータμ＾_ｔ、当該事後確率分布ｐ（μ_ｔ│Ｏ^ｔ）の共分散行列パラメータＱ＾_ｔに対するスケーリング因子ｒ＾_ｔ、初期音響モデルパラメータ中の共分散行列Σで表現されるガウス分布で表されることが理解されよう。

また、前記（ｉｉ）前回までの累積された特徴量系列Ｏ^ｔが加味された、前回求めた音響モデル中のガウス分布の平均ベクトルパラメータμ_ｔの事後確率分布ｐ（μ_ｔ│Ｏ^ｔ）を用いることについて説明する。前記式（３７）を演算するために前記式（３５）（３６）を用いるのであるが、式（３５）（３６）から明らかなように、前回の平均ベクトルパラメータμ＾_ｔ、前回のスケーリング因子ｒ＾_ｔを用いなければならない。また、式（３７）より前回求めた音響モデルパラメータの事後分布確率ｐ（μ_ｔ│O^ｔ）は、
ｐ（μ_ｔ│Ｏ^ｔ）＝Ｎ（μ_ｔ│μ＾_ｔ、（ｒ＾_ｔ）^−１Σ）（３７’）
により表される。従って、前回の平均ベクトルパラメータμ＾_ｔ、前回のスケーリング因子ｒ＾_ｔを用いるということは、事後分布確率ｐ（μ_ｔ│O^ｔ）を用いているということになる。

また、（ｉｉｉ）今回まで累積された特徴量系列Ｏ^ｔの一部を用いることについて説明する。今回の係数ベクトルν_ｔ＋１の推定は、上述のように、ＥＭアルゴリズムやＭＬＬＲアルゴリズムを用いて、行われる。当該推定は、Ｏ^ｔ＝Ｏ_１，Ｏ_２，…，Ｏ_ｔのうちの一部を用いる。そして、式（３７）により今回の音響モデルパラメータの事後確率分布ｐ（μ_ｔ＋１│O^ｔ＋１）を求める。

また、（ｉｖ）今回の音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布をガウス分布で表現することについて説明すると、音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布ｐ（μ_ｔ│Ｏ^ｔ）がガウス分布で表現されると仮定することで、前記式（１９）が表されるからである。

図１４について説明すると、ｒ＾更新部１５２２が前記式（３５）を演算することでｒ＾を更新し、μ＾更新部１５２４が前記式（３６）を演算することでμ＾を更新する。事後確率計算部１５２６が前記式（３７）を演算することで今回の音響モデルパラメータの事後確率分布ｐ（μ_ｔ＋１│O^ｔ＋１）を求める。また、モデル更新部１５６の記載については、実施例２で説明する。また、変形例を説明すると、前記式（３５）は好適な例であり、前記式（３５）に近い式であれば、今回のスケーリング因子ｒ＾_ｔ＋１は、前回のスケーリング因子ｒ＾_ｔ、今回の事後占有確率値の和ζ_ｔ＋１とから求めることができる。同様に、前記式（３６）は好適な例であり、前記式（３６）に近い式であれば、今回の平均ベクトルパラメータμ＾_ｔ＋１は、前回の平均ベクトルパラメータμ＾_ｔ、今回の音響モデルパラメータ中の平均の確率的ダイナミクスを線形表現した時の係数ベクトルν_ｔ＋１、今回の事後占有確率値の和ζ_ｔ＋１、今回の各時点におけるζと特徴量との積和Ｍ_ｔ＋１、今回のスケーリング因子ｒ＾_ｔ＋１とから求めることができる。

そして、モデル更新部５６は、今回の音響モデルパラメータ中の事後確率分布ｐ（μ_ｔ＋１│O^ｔ＋１）を新たな音響モデルパラメータに変換して更新する（ステップＳ７０）。

次に、この実施例の発明の効果を説明する。式（３５）、式（３６）からも分かるように、分布パラメータの共分散行列Ｑ＾_ｔは、前記式（３１）を用いることにより、ｒ＾_ｔ、Σに置き換えられ、またΣは打ち消され、式中の行列表現が取り除かれていることが分かる。また、本実施例１の更新式（３５）（３６）と従来の更新式（３２）（３３）とを見比べると、本実施例１の更新式（３５）（３６）は行列計算（積、和、逆行列）を必要としないため、計算が高速となり、安定性を確保できる。
また、式（３５）（３６）を用いることにより、逐次適応において、図９中の音響モデル記憶部５８記載のように、分布パラメータの共分散行列Ｑ＾_ｔと平均ベクトルパラメータμ＾_ｔを記録するのではなく、図１２、図１３中の音響モデル記憶部１５８記載のようにスケーリング因子ｒ＾_ｔと平均ベクトルμ＾_ｔを記録することにより、大幅にメモリ量を削減できる。

以上の方法により音響モデルパラメータの事後確率分布ｐ（μ｜Ｏ）つまり、音響モデルが求まった。この実施例２では、求められた音響モデルを用いて音声認識をする、つまり音響スコアの算出の処理を説明する。図１５に、この実施例の音声認識装置の機能構成例を示し、図１６に、音声認識の主な処理の流れを示す。

認識用音声データの音響的特徴量と同様な音響的特徴を持つ適応用音声データが実施例１で説明した音響モデル作成装置１４８に入力される。そして、音響モデル記憶部１５８内の音響モデルが上述したように、更新される（ステップＳ８０）。認識用音声データがフレームに分割されて認識用音声データｘとして、特徴抽出部４に入力され、特徴量系列Ｏに変換される。この特徴量系列Ｏは、単語列探索部６に入力される（ステップＳ８２）。

単語列探索部６で特徴量系列Ｏに対して、音響モデル記憶部８の音響モデルを用いて必要に応じて各ガウス分布の音響スコアを算出する。この音響スコア算出には例えば、以下の式（４０）の計算を行う。
∫ｐ(ｘ_τ｜μ_ｔ)ｐ(μ_ｔ｜Ｏ^ｔ)ｄμ_ｔ（４０）
ここでｐ(ｘ_τ｜μ_ｔ)は音響モデルの出力分布である。μ_ｔ以外のパラメータはここでは省略する。従って、ｐ(μ_ｔ｜Ｏ^ｔ)について検討すれば良い。単語列探索部６による複数フレームの音響スコア算出に関しては前記式（４０）をもとに動的計画法（ＤＰ：Dynamic Programming マッチング）を行えばよい。音響スコアを最大とする単語列を認識単語列として出力する（ステップＳ８４）。なお、この場合はステップＳ８０におけるモデル更新は、音響モデルとして事後確率分布ｐ（μ_τ｜Ｏ^ｔ)の更新を行う（ステップＳ８０ａ）。前記式（４０）の積分は数値的に解くことも可能であるが、次のような２種類の解析解が存在する。

［Plug-in法］
Plug-in法では、積分をまともに扱うのではなく、ｐ(μ_ｔ｜Ｏ^ｔ)の事後確率最大化（ＭＡＰ）値（以下の式（４１）の右辺）は、前記式（３６）のμ＾_ｔである事を利用する。つまり、以下の式（４１）になる。

従って、音響モデル作成装置６０による前記ステップＳ８０におけるモデル更新として、前記式（３６）で求まるμ＾_ｔを出力分布ｐ(ｘ_τ｜μ_ｔ)の平均ベクトルパラメータμ_ｔにそのまま代入（Plug-in）して音響モデルパラメータを更新する（ステップＳ８０ｂ）。このようにすればスコア計算を、以下の式（４２）で行うことが出来る。

つまり、平均μ＾_ｔ、共分散行列Σのガウス分布で表現する。これをPlug-in法と呼ぶ。また、その他のパラメータ状態遷移確率ａ、混合重み因子ｗ、共分散行列Σ、はそのまま適用する。ステップＳ８０ｂの後は、破線矢印で示すように、ステップＳ８２に移る。

［周辺化法］
周辺化法は、Plug-in法と違い積分を解析的に解く方法である。この積分をとく方法が、平均ベクトルパラメータμ_ｔについての周辺化にあたる。周辺化法は、Plug-in法と比較して、平均ベクトルパラメータの事後確率分布ｐ(μ_ｔ｜Ｏ^ｔ)の分散を考慮することになる。このようにすれば、積分計算によるスコア計算は以下の式（４３）で表せることになる。

つまり、周辺化法を利用する場合はステップＳ８０のモデル更新において、平均ベクトルパラメータμをμ＾_ｔと置き換える（ステップＳ８０ｂ）と共に、共分散行列パラメータΣ→Σ＋（ｒ＾_ｔ）^−１Σと置き換えて（ステップＳ８０ｃ）、音響モデルパラメータを更新する。また、その他のパラメータ、つまり、状態遷移確率ａ、混合重み因子ｗ、はそのまま適用する。ステップＳ８０ｃのあとは、ステップＳ８２に移る。

また、図１４に示すように、モデル更新部１５６は、破線で示すパラメータ変換部として作用する。Plug-in法を用いる場合は、μ→μ＾_ｔと置き換えて、平均ベクトルパラメータを更新し、周辺化法を用いる場合は、μ→μ＾_ｔ、Σ→Σ＋（ｒ＾_ｔ）^−１Σと置き換えて、平均ベクトルパラメータ、共分散行列パラメータを更新する。このようにすることで、分布変換に基づく逐次適応法による音響スコアを算出できる。

［実験結果］
ＡＳＪ（日本音響学会）読み上げ音声データベース１００時間分を用いてトライフォンＨＭＭの総状態数２０００、ＨＭＭ状態あたりの混合数１６の不特定話者音響モデルを構築し、日本語模擬ニュース音声に対し、逐次適応実験を行った。特徴量は１２次元ＭＦＣＣ（メルフレクエンシイペプストラム係数）と、そのフレームのエネルギーと、ＭＦＣＣのフレーム間差分Δと、その差分ＭＦＣＣのフレーム間差分デルタΔΔとして、語彙サイズ７０万語のトライアングルを用いて大語彙連続音声認識実験を行った。逐次適応を行わない通常の音声認識の場合の音声認識率は８１．３％であった。

ここで、分布パラメータに共分散行列Ｑ＾_ｔを用いた従来逐次適応では、認識率は８８．５％と大きく改善した。しかし、１発話（１秒程度）で逐次更新を行う。オンライン逐次適応タスクにおいて、従来法は実時間処理できず（リアルタイムの２倍程度）、また、Ｑ＾_ｔに用いたメモリ消費量は２７メガバイトであった。

一方、分布パラメータにスケーリング因子ｒ＾_ｔを用いた本発明では認識率は８８．５％を、従来法と同程度の性能を維持しつつ、実時間処理（リアルタイムの１倍程度）を実現した。また、ｒ＾_ｔに用いたメモリ消費量は１．３メガバイトであり、Ｑ＾_ｔを用いた場合と比較して、メモリを２０分の１程度削減できた。

以上の各実施形態の他、本発明である音響モデル作成装置は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、音響モデル作成装置において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、この発明の音響モデル作成装置における処理をコンピュータによって実現する場合、音響モデル作成装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、音響モデル作成装置における処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）、ＤＶＤ−ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＣＤ−Ｒ（Ｒｅｃｏｒｄａｂｌｅ）／ＲＷ（ＲｅＷｒｉｔａｂｌｅ）等を、光磁気記録媒体として、ＭＯ（Ｍａｇｎｅｔｏ−Ｏｐｔｉｃａｌｄｉｓｃ）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（ＥｌｅｃｔｒｏｎｉｃａｌｌｙＥｒａｓａｂｌｅａｎｄＰｒｏｇｒａｍｍａｂｌｅ−ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（ＡｐｐｌｉｃａｔｉｏｎＳｅｒｖｉｃｅＰｒｏｖｉｄｅｒ）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、音響モデル作成装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

従来の音声認識装置の機能構成例を示した図。従来の音声認識装置の処理フローを示した図。従来の音響モデル作成装置の機能構成例を示した図。従来の音響モデル作成装置の処理フローを示した図。線形回帰行列を用いた場合の音響モデル作成装置の機能構成例を示した図。図５に示す音響モデル作成装置の主な処理の流れを示したブロック図。逐次適応法を用いた場合の音響モデルパラメータが変換される手順を示した図。逐次的応法を適用した場合の音響モデル作成装置の機能構成例を示した図。事後確率分布のパラメータを逐次適応させる順序を示した図。図８に示す音響モデル作成装置の主な処理の流れを示したブロック図。従来の逐次学習部５２の機能構成例を示した図。本実施例の音響モデル作成装置の機能構成例を示した図。本実施例の事後確率分布のパラメータを逐次適応させる順序を示した図。本実施例の逐次学習部などの機能構成例を示した図。本実施例の音声認識装置の機能構成例を示した図。本実施例の音声認識装置の処理フローを示した図。

Claims

適応用音声データの特徴量系列を抽出する特徴抽出部と、
音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布をガウス分布で表現した際の、当該事後確率分布の平均ベクトルパラメータ、当該事後確率分布の共分散行列パラメータに対するスケーリング因子、初期音響モデルパラメータ中の共分散行列で表されることに基づき、前回までの累積された特徴量系列が加味された、前回求めた音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布及び今回まで累積された特徴量系列の一部を用いて、今回の音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布をガウス分布で表現した際の、当該事後確率分布の平均ベクトルパラメータ及び当該事後確率分布の共分散行列パラメータのスケーリング因子を計算することで、今回の音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布を求める逐次学習部と、
前記今回の音響モデルパラメータの事後確率分布を新たな音響モデルパラメータに変換して更新するモデル更新部と、を具備する音響モデル作成装置。
請求項１記載の音響モデル作成装置であって、
前記逐次学習部は、音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布の共分散ベクトルパラメータに対する今回のスケーリング因子ｒ＾_ｔ＋１を、前回のスケーリング因子ｒ＾_ｔ、今回の事後占有確率値の和ζ_ｔ＋１とから求め、
音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布の今回の平均ベクトルパラメータμ＾_ｔ＋１を、前回の平均ベクトルパラメータμ＾_ｔ、今回の音響モデルパラメータ中の平均の確率的ダイナミクスを線形表現した時の係数ベクトルν_ｔ＋１、今回の事後占有確率値の和ζ_ｔ＋１、今回の各時点におけるζと特徴量との積和Ｍ_ｔ＋１、今回のスケーリング因子ｒ＾_ｔ＋１とから求めることを特徴とする音響モデル作成装置。
請求項２記載の音響モデル作成装置であって、
前記逐次学習部は、今回の音響モデルパラメータのスケーリング因子ｒ＾_ｔ＋１および今回の音響モデルパラメータの平均ベクトルパラメータμ＾_ｔ＋１を以下の式により求め、

ただし、μ^０は予め定められた定数であり、ｒ＾_ｔは前回のスケーリング因子であり、ζ_ｔ＋１は今回の事後占有確率値の和であり、Ｍ_ｔ＋１は今回の各時点におけるζと特徴量との積和であり、ν_ｔ＋１は今回の音響モデルパラメータ中の平均の確率的ダイナミクスを線形表現した時の係数ベクトルであることを特徴とする音響モデル作成装置。
認識用音声データの音響的特徴を持つ適応用音声データに適応化させた音響モデルを、請求項１〜３何れかに記載した音響モデル作成装置により作成して、音響モデルを更新する認識用モデル更新部と、
前記更新された音響モデルを用いて、前記音響的特徴を持った入力音声データに対する音声認識を行う認識部とを具備する音声認識装置。
適応用音声データの特徴量系列を抽出する特徴抽出過程と、
音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布をガウス分布で表現した際の、当該事後確率分布の平均ベクトルパラメータ、当該事後確率分布の共分散行列パラメータに対するスケーリング因子、初期音響モデルパラメータ中の共分散行列で表されることに基づき、前回までの累積された特徴量系列が加味された、前回求めた音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布及び今回まで累積された特徴量系列の一部を用いて、今回の音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布をガウス分布で表現した際の、当該事後確率分布の平均ベクトルパラメータ及び当該事後確率分布の共分散行列パラメータのスケーリング因子を計算することで、今回の音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布を求める逐次学習過程と、
前記今回の音響モデルパラメータの事後確率分布を新たな音響モデルパラメータに変換して更新するモデル更新過程と、を有する音響モデル作成方法。
請求項５記載の音響モデル作成方法であって、
前記逐次学習過程は、音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布の共分散ベクトルパラメータに対する今回のスケーリング因子ｒ＾_ｔ＋１を、前回のスケーリング因子ｒ＾_ｔ、今回の事後占有確率値の和ζ_ｔ＋１とから求め、
音響モデル中のガウス分布の平均ベクトルパラメータの事後確率分布の今回の平均ベクトルパラメータμ＾_ｔ＋１を、前回の平均ベクトルパラメータμ＾_ｔ、今回の音響モデルパラメータ中の平均の確率的ダイナミクスを線形表現した時の係数ベクトルν_ｔ＋１、今回の事後占有確率値の和ζ_ｔ＋１、今回の各時点におけるζと特徴量との積和Ｍ_ｔ＋１、今回のスケーリング因子ｒ＾_ｔ＋１とから求めることを特徴とする音響モデル作成方法。
請求項６記載の音響モデル作成方法であって、
前記逐次学習過程は、今回の音響モデルパラメータのスケーリング因子ｒ＾_ｔ＋１および今回の音響モデルパラメータの平均ベクトルパラメータμ＾_ｔ＋１を以下の式により求め、

ただし、μ^０は予め定められた定数であり、ｒ＾_ｔは前回のスケーリング因子であり、ζ_ｔ＋１は今回の事後占有確率値の和であり、Ｍ_ｔ＋１は今回の各時点におけるζと特徴量との積和であり、ν_ｔ＋１は今回の音響モデルパラメータ中の平均の確率的ダイナミクスを線形表現した時の係数ベクトルであることを特徴とする音響モデル作成方法。
認識用音声データの音響的特徴を持つ適応用音声データに適応化させた音響モデルを、請求項５〜７何れかに記載した音響モデル作成方法により作成して、音響モデルを更新する認識用モデル更新過程と、
前記更新された音響モデルを用いて、前記音響的特徴を持った入力音声データに対する音声認識を行う認識過程とを有する音声認識方法。
請求項１〜３何れかに記載の音響モデル作成装置または、請求項４記載の音声認識装置としてコンピュータを動作させるプログラム。
請求項９記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。