JP4891806B2

JP4891806B2 - 適応モデル学習方法とその装置、それを用いた音声認識用音響モデル作成方法とその装置、及び音響モデルを用いた音声認識方法とその装置、及びそれら装置のプログラムと、それらプログラムの記憶媒体

Info

Publication number: JP4891806B2
Application number: JP2007046632A
Authority: JP
Inventors: 晋治渡部; 篤中村
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2007-02-27
Filing date: 2007-02-27
Publication date: 2012-03-07
Anticipated expiration: 2027-02-27
Also published as: JP2008209698A

Description

この発明は、少量の学習用データから適応モデルパラメータを推定する適応モデル学習方法とその装置、及びその適応モデル学習方法を用いた音声認識用音響モデル作成方法とその装置、及びその音声認識用音響モデル作成方法により作成された音響モデルを用いた音声認識方法とその装置、及びそれら装置のプログラムと、それらプログラムを記憶する記憶媒体に関する。

適応モデル学習方法は、例えば音声認識や画像処理等の信号処理分野で広く用いられている。ヒューマンインターフェースにおいて大きく期待される分野である音声認識装置を一例に上げて、従来の適応モデル学習方法について簡単に説明する。
音声認識装置は一般に図１０に示す様に、音響モデル学習装置４００と音声認識処理部５００とを備えて構成される。音響モデル学習装置４００は、学習用音声データを特徴量ベクトルに変換する特徴量ベクトル変換部４０２と、適応モデル学習方法を用いた音響モデル作成部４０４と、音響モデル記憶部４０６とによって構成され、学習用音声データに従って音響モデルを作成し、音響モデル記憶部４０６に学習により作成した音響モデルを記録する。

音声認識処理部５００は、被認識音声データを特徴量ベクトル変換部５０２で特徴量ベクトルに変換し、音声認識部５０４で音響モデル記憶部４０６に記録された音響モデルと、言語モデル記録部５０６に記録した言語モデル及び発話辞書５０８に記録した辞書を参照して、被認識音声データの認識結果を例えばテキストデータの形式で出力する。
ここで音響モデルの作成方法について説明する。音響モデルは、音響的特徴をモデル化したものであり、認識用音声データと音響モデルを参照することにより、音声データを音素や単語といったシンボルに変換する。そのため、音響モデルの作成は、音声認識装置の性能を大きく左右する。通常音声認識用音響モデルは、各音素をLeft to rightの隠れマルコフモデル（Hidden Markov Model:ＨＭＭと称す）であり、ＨＭＭ状態の出力確率分布を混合ガウス分布モデル（Gaussian Mixture Model：ＧＭＭと称す）で表現する。これを連続密度分布ＨＭＭ（Continous Density HMM）と呼ぶ。そのため、実際に音響モデルとして記憶部に記録されているのは、音素などの各シンボルにおけるＨＭＭの状態遷移確率ａ、ＧＭＭの混合重み因子ｗ、及びガウス分布の平均ベクトルパラメータμ及び共分散行列パラメータΣとなる。これらをモデルパラメータと呼びその集合をθとする。つまり、θ＝｛ａ，ｗ，μ，Σ｝とする。このモデルパラメータθの値を正確に求めるのが音響モデルの作成過程となり、この過程を音響モデル作成方法と呼ぶ。つまり、これを音声に限らず一般化した呼称が、適応モデル学習方法である。以降においても音声認識を一例として説明を行う。

近年、音響モデルは確率統計的手法により大量の音声データとそのラベル情報から、モデルパラメータθを学習することにより作成される。通常、学習データに対しては、その何れの部分が何れの音素であるかを示すラベル情報が与えられている。ラベル情報が与えられていない場合は、実際に人が音を聞いてラベルを付けたり、また音声認識装置を用いることによりラベル情報を付与する。以降では学習用音声データにはラベル情報が付与されているものとし、ラベル情報の付与についての説明は省略する。ラベル情報により得られる学習データ中の各音素に対応するデータから、モデルパラメータθを推定することをモデルパラメータの学習と呼ぶ。
モデルパラメータを学習する手法としては最尤学習法がある。音響モデルパラメータは数百万の自由度を持つため、これらを学習するためには数百時間に及ぶ大量の学習用音声データが必要になる。しかし、事前に話者、雑音、発話スタイルといった全ての音響的変動要因を含む音声データを大量に収集するのは不可能である。そこで、少量の学習用音声データから音響モデルパラメータを推定する手法として、適応モデル学習が非常に重要な技術となる。

近年の適応モデル学習において最も頻繁に用いられる手法は、アフィン変換パラメータの学習アプローチであり、それは例えば非特許文献１に開示されている。その適応モデル学習方法について簡単に説明する。
初期音響モデル中のあるガウス分布ｇの平均ベクトルパラメータμ_g ⁱⁿⁱに注目する。またｔ番目の適応データのＤ次元特徴量ベクトルをｏ_ｔ∈Ｒ^Ｄ、その集合をｏ^Ｔ＝｛ｏ_１，…，ｏ_ｔ，…，ｏ_Ｔ｝とする。このとき、適応後データの平均ベクトルパラメータμ_g ^adaへの変換を、前もって母集団の分布型を仮定して行い、その変換パラメータｏ^Ｔから推定することによる実現方法を考えることができる。この変換として、広く式（１）に示すアフィン変換が用いられている。

ここで、Ａは回転伸縮を表わすＤ×Ｄの線形変換行列であり、ｂは平行移動を表わすＤ次元のベクトルである。また一般的に式（１）は線形である方が解析的な扱いが容易である。

そこで、式（２）と（３）を導入することで適応後データの平均ベクトルパラメータμ_g ^adaを線形化する。

このとき推定すべきパラメータＷは、Ｄ×（Ｄ＋１）の行列であり、これをアフィン変換パラメータＷと呼ぶ。また、ξ_g ⁱⁿⁱは同次ベクトルである。
一般にアフィン変換パラメータＷのパラメータ数は、Ｄ＝４０〜５０（D×(D+1)=2000〜2500）と多いので、少量の適応データｏ^Ｔで過学習を起こすことなく推定するために、多数のガウス分布間で同じアフィン変換パラメータＷを共有する方法が取られる。つまり式（５）である。

ここでＬ（ｇ）は分布ｇを含む共有ガウス分布クラスであり、Ａ_Ｌ（ｇ），ｂ_Ｌ（ｇ），Ｗ_Ｌ（ｇ）は、そのガウス分布間で同一の変換パラメータが共有されることを表わす。従って、Ｌに含まれる全てのガウス分布は、図１１に示す様に、複数の平均ベクトルμ_g=4 ⁱⁿⁱ，μ_g=5 ⁱⁿⁱ，μ_g=6 ⁱⁿⁱ，μ_g=7 ⁱⁿⁱに対して同一の回転伸縮Ａと平行移動ｂによるアフィン変換で変換される。
このとき、共有ガウス分布クラスは、ガウス分布集合が各ノードに割り当てられる木構造として表現される。その木構造は音声学的知見やガウス分布間距離尺度を用いて構築される。このとき、クラスは木の深さやリーフノードの数、ノードに割り当てられるデータ量などを閾値として設定される。

この共有ガウス分布クラスにおけるアフィン変換パラメータＷ_Ｌ（ｇ）は、最尤（Maximum Likelihood）推定や事後確率最大化（Maximum A Posteriori）推定の枠組みで推定することができる。
音声認識の音響モデルで標準的に用いられる連続密度分布ＨＭＭ（Continous Density HMM）では、ＨＭＭやＧＭＭに潜在変数が存在するため、その推定は一般に困難であるが、例えば期待値最大化法（ＥＭアルゴリズムとも称す）によって効率よく推定することができる。

ＥＭアルゴリズムによって推定したアフィン変換パラメータ＾Ｗを用いて適応後のモデルパラメータμ_g ^adaを式（６）で求める。なお、文中の＾Ｗは数式中のＷの上に＾を付したものと同一である。以降に示す他の変数及び記号についても同じである。

次に本願出願人が他の適応モデル学習方法として特許文献１と非特許文献２に開示した方法を説明する。この方法は、平行移動ベクトルｂを方向ベクトルとスケーリングファクタとに分解し、方向ベクトルをコースクラスのパラメータ推定における学習により求め、スケーリングファクタをファインクラスのパラメータ推定における学習により求める音声認識用音響モデル作成方法である。つまり式（７）である。

ここでρ_ｆ（ｇ）δ_ｃ（ｇ）は平行移動パラメータであり、方向ベクトルδとスケーリング因子ρとに分解されている。スケーリング因子ρのパラメータ数は１であり、特徴量の次元数分ある方向ベクトルδのパラメータ数に比べて非常に小さい。そこで、移動ベクトルの推定に際し、方向ベクトルの推定においては共有ガウス分布クラスに割り当てられた十分多い適応データを用いたコースクラスパラメータ推定で求め、スケーリング因子の推定においては少量の適応データを用いたファインクラスパラメータ推定で求める。このように方向ベクトルとスケーリング因子とを個別に求めても、コースクラスとファインクラスの両クラスにおけるパラメータ推定を内包することができる。このコース/ファインクラスの設定は上記と同様にガウス分布の木構造を用意してコースクラス用とファインクラス用の２種類の閾値を与えればよい。コース/ファインクラスの設定と閾値については、詳しくは後述する。

コース/ファインクラスにおける平行移動パラメータρ_ｆ（ｇ），δ_ｃ（ｇ）は、最尤推定や事後確率最大化推定の枠組みで推定することができる。また、期待値最大化法によって効率よく推定できる点も上記したアフィン変換パラメータの推定と同じである。
ＥＭアルゴリズムによって推定した平行移動パラメータ＾ρ，＾δを用いて適応後データの平均ベクトルパラメータμ_g ^adaを式（８）で求める。

公開特許公報２００６−５３４３１号 C.J.Leggetter and P.C. Woodland. Maximum likelihood linear regression for speaker adaptation of contininuous density hidden Markov models. Computer Speech and Language,Vol.9,pp.171-185,1995. 渡部晋治、中村篤、「方向統計を用いた移動ベクトルのコース/ファイン学習に基づく音響モデル適応」春季音響学会講演論文集、1-11-24,69-70頁,2006

しかしながら、従来のアフィン変換パラメータを用いた適応モデル学習方法では、ガウス分布ｇを共有しているために分解能が低く、学習データ量に応じた細かな適応に適していない。つまり、図１１に示したように複数の平均ベクトルμ_g ⁱⁿⁱが一様に変換されてしまう課題がある。また、平行移動ベクトルにコース/ファイン学習方法を適用した従来の方法は、学習データ量に応じた微細な適応を可能とするが、平均ベクトルパラメータの変換にとって重要な要素である回転伸縮（式（１）における行列Ａ）が考慮されない課題がある。

このように適応後のモデルパラメータを微細に推定する適応モデル学習方法がなかった。
この発明は、このような問題点に鑑みてなされたものであり、従来のアフィン変換パラメータの推定方法に、コース/ファイン学習の概念を導入した新しい適応モデル学習方法とその装置、その適応モデル学習方法を用いた音声認識用音響モデル作成方法とその装置、及びその音響モデルを用いた音声認識装置、及びその音声認識用音響モデルを用いた音声認識方法、及びそれら装置のプログラムと、それらのプログラムを記憶する記憶媒体を提供することを目的とする。

この発明による適応モデル学習装置は、初期モデル記憶部と特徴量ベクトル変換部と、コース/ファインクラス設定部と、アフィン変換パラメータ学習部と、モデルパラメータ
変換部とを具備する。
初期モデル記憶部は、混合ガウス分布から成る初期モデルを記憶し、特徴量ベクトル変換部が学習データを特徴量ベクトルに変換する。
コース/ファインクラス設定部は、混合ガウス分布中の各ガウス分布のアフィン変換パ
ラメータを線形変換行列と平行移動ベクトルとに分解し、線形変換行列を複数のガウス分布内で同一のものを用いることにより粗いコースクラスｃで設定し、平行移動ベクトルをコースクラスｃ内の部分集合である少数のガウス分布内で同一のものを用いることで精密なファインクラスｆで設定して上記ガウス分布のアフィン変換パラメータをコース/ファ
イン表現する。
アフィン変換パラメータ学習部は、初期モデル記憶部から取得した初期モデルと、上記特徴量ベクトル変換部から取得した特徴量ベクトルと、上記コース/ファインクラス設定
部から取得した上記アフィン変換パラメータとから、アフィン変換パラメータの推定値を潜在モデルに対する統計的学習法によって推定する。
モデルパラメータ変換部は、アフィン変換パラメータの推定値から初期モデルを変換した適応モデルを生成する。
そして、コース/ファインクラス設定部は、初期モデルを階層分類するガウス分布階層分類手段と、アフィン変換パラメータを生成するアフィン変換パラメータ生成部と、一般化された同次ベクトルを生成する同次ベクトル生成部と、を備え、アフィン変換パラメータ生成部は、コースクラスｃ内で同一の線形変換行列Ａ _ｃとコースクラスｃに属しファインクラスｆを含むＦ個のファインクラス内の平行移動ベクトルｂ _１，…，ｂ _ｆ，…，ｂ _Ｆとを、まとめて一つの行列で表わしたアフィン変換パラメータＷ _ｃ ≡（ｂ _１，…，ｂ _ｆ，…，ｂ _Ｆ，Ａ _ｃ）として生成するものであり、同次ベクトル生成部は、上記ファインクラスｆに属するガウス分布ｇの平均ベクトルμ _ｇ ⁱⁿⁱ と、ガウス分布ｇがファインクラスｆに属することを表わす０若しくは１で表現される部分ベクトルとから成る一般化された同次ベクトル（ξ _cfg ⁱⁿⁱ ）´≡（０ … ０１０ … ０（μ _g ⁱⁿⁱ ）´）を生成するものであり、コース/ファインクラス設定部は、アフィン変換パラメータのコース/ファイン表現を、上記アフィン変換パラメータＷ _ｃと上記一般化された同次ベクトル（ξ _cfg ⁱⁿⁱ ）´との積で線形表現するものである。

また、この発明による音声認識用音響モデル作成装置は、上記した適応モデル学習装置の初期モデル記憶部に記憶される初期モデルを初期音響モデルとし、学習データを学習用音声データにしたものである。
更に、この発明による音声認識装置は、音声認識用音響モデル作成装置を用いて、被認識音声データを特徴量ベクトルに変換する特徴量ベクトル変換部と、その特徴量ベクトルと音声認識用音響モデル作成装置が作成した音響モデルとから被認識音声データを音声認識する音声認識部とを具備する。

この発明による適応モデル学習装置によれば、モデルパラメータを微細に推定した適応モデルを生成することができる。また、この発明による音声認識用音響モデル作成装置によれば、少量の学習用音声データから正確な音響モデルを推定することができる。また、この発明による音声認識装置によれば、音声の認識率を向上させることができる。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。

この発明の適応モデル学習装置１００の機能構成例を図１に、その動作フローを図２示す。実施例１の適応モデル学習装置１００は、混合ガウス分布から成る初期モデルを記憶した初期モデル記憶部１０と、学習データを特徴量ベクトルに変換する特徴量ベクトル変換部１２と、コース/ファインクラス設定部１４と、アフィン変換パラメータ学習部１６と、モデルパラメータ変換部１８とから構成される。この実施例１では、適応モデルμ_g ^adaが、適応モデル学習部１００内に設けられたモデル記憶部１９に記憶される。
特徴量ベクトル変換部１２は、学習データを特徴量ベクトルに変換する（ステップＳ１２）。コース/ファインクラス設定部１４は、初期モデル記憶部１０に記憶された複数の初期モデルの各ガウス分布のアフィン変換パラメータを線形変換行列と平均移動ベクトルとに分解し、線形変換行列を上記複数のガウス分布内で同一のものを用いることにより粗いコースクラスｃで設定し、平行移動ベクトルをコースクラスｃ内の部分集合である少数のガウス分布内で同一のものを用いることで精密なファインクラスｆで設定し、上記各ガウス分布のアフィン変換パラメータをコース/ファイン表現する（ステップＳ１４）。アフィン変換パラメータ学習部１６は、初期モデルと特徴量ベクトルとアフィン変換パラメータＷ_ｃと一般化された同次ベクトルξ_cfg ⁱⁿⁱとからアフィン変換パラメータの推定値Ｗ_ｃ ^ＭＬを潜在モデルに対する統計的学習法によって推定する（ステップＳ１６）。アフィン変換パラメータＷ_ｃと一般化された同次ベクトルξ_cfg ⁱⁿⁱについて、詳しくは後述する。モデルパラメータ変換部１８は、アフィン変換パラメータの推定値Ｗ_ｃ ^ＭＬと一般化された同次ベクトル（ξ_cfg ⁱⁿⁱ）´とから上記初期モデルを変換した適応モデルμ_g ^ada＝Ｗ_ｃ ^ＭＬξ_cfg ⁱⁿⁱを生成する（ステップＳ１８）。

〔この発明の概念〕
この発明の要部は、コース/ファインクラス設定部１４である。ここで、初期モデル記憶部１０に記憶されている混合ガウス分布の各ガウス分布のアフィン変換パラメータを式（９）に示すように、線形変換行列Ａ_ｃ（ｇ）と平行移動ベクトルｂ_ｆ（ｇ）とに分解するところにこの発明の特徴がある。
コース/ファインクラス設定部１４は、ガウス分布階層分類手段１４１とアフィン変換パラメータ生成部１４２と同次ベクトル生成部１４３とで構成される。ガウス分布階層分類部１４１ａは、混合ガウス分布の階層的な分類を行う。アフィン変換パラメータ生成部１４２は、各ガウス分布のアフィン変換パラメータを平均移動ベクトルと線形変換行列とに分解し、コース/ファイン表現したアフィン変換パラメータＷ_ｃを生成する。同次ベクトル生成部１４３は、部分ベクトルと平均ベクトルとから成る一般化された同次ベクトルξ_cfg ⁱⁿⁱを生成する。

アフィン変換パラメータのコース/ファイン表現を式（９）に示し、コース/ファインクラス設定部１４の動作を説明する。

以降においては、簡単のためｃ（ｇ），ｆ（ｇ）をｃ，ｆとして説明を行う。式（９）において、平行移動ベクトルｂｆを共有するガウス分布集合は、線形変換行列Ａ_ｃを共有するガウス分布集合の部分集合とする。このような内包関係を効率よく表現するために、予め音響モデル中の全ガウス分布を階層的に分類する必要がある。
ガウス分布集合を階層的に分類する手法としては、分布間距離（平均のユークリッド距離やマハラノビス距離）を用いたk-meansアルゴリズムがよく知られている。また、音響モデルは単語、音素、環境依存音素、ＨＭＭ状態といった階層性を持つため、そのような音素の階層性を元に階層的に分類することができる。

以上の手法を用いることにより、図３に示すように最上位のルートノード（root node）に全ガウス分布集合が属し、それよりも下位の各ノードにはそれ以下に属するガウス分布の部分集合で表わされる階層表現された木構造で表現することができる。図３では簡単のため、分岐が常に２つである２分木で８個のガウス分布を階層的に表現している。
この階層的表現の上位ノードに属するガウス分布集合をコースクラスとし、それよりも下位のノードに属するガウス分布集合をファインクラスとして、コースクラスで線形変換行列を、ファインクラスで平行移動ベクトルを共有することにより、コース/ファインクラスを設定することができる。

この上位ノードと下位ノードは例えば２種類の閾値を与えることにより設定できる。各ノードは、木の深さや、属するガウス分布の数を情報として持っている。そこで、例えばそれらを２種類の閾値として予め与えることによりコース/ファインクラスを設定することができる。図４では２種類の深さを閾値として、その浅い方をコースクラス、深い方をファインクラスとしている。
図４において、ｃ＝１のコースクラスは、ｆ＝１及びｆ＝２の２つのファインクラスを含んでいるのが分かる。ｇ＝１のガウス分布に注目すると、それはｆ＝１のファインクラスに属しており、それはさらにｃ＝１のコースクラスに属しているのが分かる。つまり、ｃ＝１のコースクラスはｆ＝１及びｆ＝２の２つのファインクラスを内包している。

以上のような階層表現を予め用意した上で、コース/ファイン表現されたアフィン変換パラメータＷ_ｃを生成する。ここで従来法のアフィン変換パラメータの推定アプローチと同様に式（９）を線形に表現する必要がある。しかし、式（９）は式（１）と異なり、Ａ及びｂが、違うクラスｃ及びｆに属するため、式（２）の表現を用いた線形化は不可能である。そこで、アフィン変換パラメータＷ_ｃと同次ベクトルξ_cfgを次のように定義する。

ここで、ｂ_１…ｂ_ｆ…ｂ_Fは、コースクラスｃに属する複数のファインクラス中の平行移動ベクトルパラメータである。Fはコースクラスｃに含まれるファインクラスの数を表わす。これらのベクトルは、上記した階層表現を用いて与えることができる。

ここで、ξ_cfg ⁱⁿⁱの内、μ_g ⁱⁿⁱより上の要素は、F個の０若しくは１で表現される部分ベクトルであり、もしガウス分布ｇがｆ番目のファインクラスに含まれる場合、部分ベクトルのｆ番目の要素が１となり、他の要素は０となる。ここで、１は０以外の数値であれば何でもよい。この部分ベクトルは、コース/ファインクラスの階層表現を表わしている。このξ_cfg ⁱⁿⁱを一般化された同次ベクトルと称する。このアフィン変換パラメータ行列と一般化された同次ベクトルは、アフィン変換パラメータ行列の列ベクトルと同次ベクトルの要素の対応が取れれば、その順番が入れ替わっても転置されてもよい。

図４に示したｇ＝１のガウス分布の一般化された同次ベクトルの部分ベクトルは（１，０）´となる。ここで´は転置を表わす。この部分ベクトルは、ガウス分布ｇがあるコースクラス中のどのファインクラスに含まれるかをビットマップで表現したものだといえる。つまり、ｇ＝１のガウス分布のアフィン変換パラメータＷ_ｃ=1は、Ｗ_ｃ=1＝（ｂ_ｆ=1，ｂ_ｆ=2，Ａ_ｃ=1）、一般化された同次ベクトルξ₁₁₁ ⁱⁿⁱは、（ξ₁₁₁ ⁱⁿⁱ）´＝（１，０，（μ₁ ⁱⁿⁱ）´）となる。同様に図４のｇ＝２〜ｇ＝５のガウス分布のアフィン変換パラメータＷ_ｃ及び一般化された同次ベクトルξ_cfg ⁱⁿⁱは、次のようになる。これらのアフィン変換パラメータＷ_ｃは、アフィン変換パラメータ生成部１４２で生成される。一般化された同次ベクトルξ_cfg ⁱⁿⁱは、同次ベクトル生成部１４３で生成される（ステップＳ１４、図２）。

ｇ＝２：Ｗ_ｃ=1＝（ｂ_ｆ=1，ｂ_ｆ=2，Ａ_ｃ=1），（ξ₁₁₂ ⁱⁿⁱ）´＝（１，０，（μ_２ ⁱⁿⁱ）´）
ｇ＝３：Ｗ_ｃ=1＝（ｂ_ｆ=1，ｂ_ｆ=2，Ａ_ｃ=1），（ξ₁₂₃ ⁱⁿⁱ）´＝（０，１，（μ_３ ⁱⁿⁱ）´）
ｇ＝４：Ｗ_ｃ=1＝（ｂ_ｆ=1，ｂ_ｆ=2，Ａ_ｃ=1），（ξ₁₂₄ ⁱⁿⁱ）´＝（０，１，（μ_４ ⁱⁿⁱ）´）
ｇ＝５：Ｗ_ｃ=1＝（ｂ_ｆ=1，ｂ_ｆ=2，Ａ_ｃ=1），（ξ₁₂₅ ⁱⁿⁱ）´＝（０，１，（μ_５ ⁱⁿⁱ）´）
以上のように表現されるので、もしコースクラス中のファインクラスの要素数が１、つまりコース/ファイン表現ではなく式（５）のような通常の共有表現の場合、一般化された同次ベクトルξ_cfg ⁱⁿⁱは、式（３）で定義された同次ベクトルξ_g ⁱⁿⁱと一致する。従って、式（１１）は、従来法を拡張した表現とみなすことができる。
これらの表現を用いると式（９）は、次のように線形の方程式として書き直すことができる。

この線形表現に基づいて、コース/ファイン表現されたアフィン変換パラメータの推定を行う。
なお、ガウス分布階層分類手段１４１が分類された階層構造が固定であれば、アフィン変換パラメータＷ_ｃと、一般化された同次ベクトルξ_cfg ⁱⁿⁱは、それぞれの生成部に予め固定値として設定しておけばよい。アフィン変換パラメータＷ_ｃと一般化された同次ベクトルξ_cfg ⁱⁿⁱが適応的に変化する例は、実施例２で説明する。

〔期待値最大化法による最尤推定解〕
連続密度分布ＨＭＭは、ＨＭＭやＧＭＭで構成されており、それらのモデルは潜在変数を含むため、そのようなモデルに対してのアフィン変換パラメータ推定法として、セグメンタルk-means法やＭＣＭＣ（Markov Chain Monte Carlo）法、期待値最大化法などの潜在モデルに対する統計的学習法が有効である。この実施例では、計算量の問題や、連続密度分布ＨＭＭのモデルパラメータの推定アルゴリズムとの親和性から期待値最大化法に基づく推定法について説明を行う。

期待値最大化法には尤度最大化（最尤法）に基づくアルゴリズムや、ＭＡＰ法、変分ベイズ法といったベイズ法に基づくアルゴリズムが存在する。それぞれ評価関数としては最尤法の場合は尤度、ＭＡＰ法の場合は事前確率分布で補正のかかった尤度、また変分ベイズ法では周辺化対数尤度が用いられる。以下では最尤法に基づく期待値最大化法について説明を行う。最尤法に基づく期待値最大化法は、完全データの出力分布に対応して潜在変数の事後確率分布で期待値を取ることにより補助関数を求めるＥ-stepと、補助関数を最大にするパラメータを求めるＭ-stepとの２つの工程を評価関数が収束するまで繰り返すものである。
その動作フローを図５に示す。Ｅ-stepは、アフィン変換パラメータ学習部１６で行われる（ステップＳ１６１）。Ｅ-stepの後にＭ-stepが、モデルパラメータ変換部１８で行われる（ステップＳ１８１）。期待値最大化法ではＭ-stepで更新されたμ_g ^adaを用いて、再びＥ-stepに戻って統計量を計算しμ_g ^adaの更新を繰り返す。この繰り返しは、例えば所定回数の繰り返し、或いはＥ-stepで計算される尤度が収束した場合に停止させる（ステップＳ１９０）。更新が繰り返されたμ_g ^adaは適応モデルとしてモデル記憶部１９に記憶される（ステップＳ２００）。
Ｅ-step（ステップＳ１６１）とＭ-step（ステップＳ１８１）を順に説明する。

〔Ｅ-step〕
連続密度分布ＨＭＭにおいて、データｏ_ｔの出力に伴い、状態ｉから状態ｊへの遷移及び混合成分ｋが出力される際の完全データの出力確率分布は次のように表わされる。

ここでａ_ijは状態ｉから状態ｊに遷移する際の遷移確率、ｗ_jkは状態ｊにおける混合成分ｋでの重み因子、Ｎ（ｏ_t｜μ_jk，Σ_jk）はガウス分布であり、平均ベクトルパラメータμ_jk，共分散行列Σ_jkを用いて次のように表現される。

このように連続密度分布ＨＭＭのパラメータ集合θは、ａ_ij，ｗ_jk，μ_jk，Σ_jkの４種類のパラメータにより構成される。このとき、データ集合ｏ^Ｔに対する補助関数Ｑは次のように定義される。

ここでｐ(z_t=｛i,j,k｝｜o^T,^-θ)は、時間ｔにおいて、i，j，ｋが出力される際の占有事後確率である。ここで、平均ベクトルに注目するため式（１３）〜（１４）に対して次のような簡略表現を用いる。

ここで、ｇは初期モデル中の全てのガウス分布に対しての指標である。このとき式（１５）は次のように表わすことができる。

ここで、推定対象μ_g ^adaに依存しない項は除いた。式（１２）を式（１７）に代入することにより、次のような補助関数を得ることができる。

ここで推定対象Ｗ_ｃに依存しない項は除いた。ζ_gとＭ_gは次のように定義される。

これらは連続密度分布ＨＭＭのガウス分布の平均を計算する際の十分統計量であり、フォワード・バックワードアルゴリズム若しくはビタービアルゴリズムで効率よく算出することができる。またその際、尤度ｐ（ｏ^Ｔ｜θ）は、隠れ変数のあらゆる組み合わせに対する総和（Σ_{all z}）として式（２０）で表現され、ＨＭＭの場合はフォワードアルゴリズム若しくはバックワードアルゴリズムの過程において効率よく算出される。

〔Ｍ-step〕
式（１８）の補助関数はＷ_ｃに関して２次形式である。従って、min-max法にもとづきＷ_ｃの最尤推定値を補助関数ＱをＷ_ｃに関して微分することにより得ることができる。つまり、

この解析解は共分散行列Σ_g ⁱⁿⁱが対角行列のときに次のように得られる。

式（２３）は、それぞれアフィン変換パラメータのコースファイン学習における０次と１次の十分統計量である。式（２２）を式（１２）に代入することにより適応後のモデルパラメータμ_g ^adaを得る。

期待値最大化法では、Ｍ-stepで更新されたμ_g ^adaを用いて、再びＥ-stepに戻って統計量を計算しμ_g ^adaの更新を繰り返す。この繰り返しは、例えば式（２０）に示した尤度が、予め決めた所定の値ε（0.01〜0.001）よりも小さくなったときに停止させてもよい。例えば、｜（前回のＥ-stepの尤度−今回のＥ-stepの尤度）/今回のＥ-stepの尤度｜＜εの条件になるまで繰り返す。

実施例１では、コース/ファインクラス設定部１４におけるアフィン変換パラメータＷ_ｃと、一般化された同次ベクトルξ_cfg ⁱⁿⁱの設定は、それぞれ固定値として一回のみ設定される例で説明を行った。Ｅ-stepで計算される統計量を、コース/ファインクラス設定部に帰還させ、アフィン変換パラメータＷ_ｃと一般化された同次ベクトル（ξ_cfg ⁱⁿⁱ）´とを再生成するようにしてもよい。その機能構成例を図１中に破線で示す。また、その動作フローを図６に示す。
期待値最大化法のＥ-stepにおいて、初期モデル記憶部１０に記憶された各ガウス分布毎の０次から高次の統計量が計算される。

ζ_ｇは、各ガウス分布の０次の統計量であり、その分布に割り当てられた仮想的なデータ数を意味する。Ｍ_ｇは、１次の統計量であり各分布のベクトル値を表わす。ν_ｇは、２次の統計量でありその分布の偏りを表わす。
そしてこれらは占有確率ζ_gtで重み付けされた特徴量ベクトルｏ_ｔのべき乗の和である。従って、各ノードに属するガウス分布集合の全統計量は、ガウス分布集合中の統計量の和を取ることにより式（２６）で表わせる。

この統計量を利用すれば、適応的にコース/ファインクラスの再設定を行うことができる。例えば、Ｅ-stepで計算された統計量に対して２種類の閾値を予め用意して、全てのノードに対してその閾値が満たされるかの判定を行なえばよい。例えば、各ノードに割り当てられたデータ量に相当すると０次の統計量ζ_ｎに対して、コースクラスに対しては１０００、ファインクラスに対しては５０という閾値を置くとする。このときコースクラスに対しては、ζ_ｎ＜１０００であるノードは全て枝刈をし、最下部のリーフノードをコースクラスとすればよい。同様にζ_ｎ＜５０であるノードを全て枝刈し、最下部のリーフノードをファインクラスとすることにより、コース/ファインクラスを設定することができる。

この閾値はζ_ｎ以外の統計量に対して設定することも可能である。例えば、分布の偏りを表わす２次の統計量ν_ｎを帰還させて、ガウス分布階層分類手段１４１内のポインタ設定部１４１ｂにおいて、ガウス分布の階層構造を再構成させてもよい。
このようなコース/ファインクラスの更新を伴う期待値最大化法の動作フローは図６のように表わせる。図５のコース/ファインクラスの更新を伴わない場合と比較して、一回目のＥ-step（ステップＳ１６１）の後に、Ｅ-stepで計算された統計量に基づいてコース/ファインクラスを再設定するステップＳ１４０と、再設定されたコース/ファインクラスを基に再びＥ-stepを処理するステップＳ１６１’が設けられている点が異なる。
このようにしてコース/ファインクラスの更新を行うと、適応モデル学習の収束が早くなる。また尤度を高くすることができる。この方法を例えば音声認識装置に応用すると音声認識率を向上させることができる。

〔音声認識用音響モデル作成装置〕
この発明の音声認識用音響モデル作成装置２００の機能構成例を図７に示す。音声認識用音響モデル作成装置２００は、図１に示した適応モデル作成装置１００を音声認識用に対応させたものである。混合ガウス分布から成る初期音響モデルを記憶する初期音響モデル記憶部６０と、適応モデル学習後の音響モデルを記憶する音響モデル記憶部６２とが、図１と異なり、他の構成は同じである。
つまり、図１に示した適応モデル学習装置の初期モデルが初期音響モデルであり、学習データが学習用音声データであり、学習後の適応モデルが音響モデルである点が異なるだけである。その動作は説明済みのものと全く同じである。したがって、図７の動作説明は省略する。

〔音声認識装置〕
この発明の音声認識装置８００の機能構成例を図８に示す。音声認識装置８００は、従来の音声認識装置９００の音響モデル学習装置４００を、この発明の音声認識用音響モデル作成装置２００に置き換えたものである。他の構成は、図１０に示した音声認識装置８００と同じである。
音声認識処理部５００は、被認識音声データを特徴量ベクトル変換部５０２で特徴量ベクトルに変換し、音声認識部５０４でこの発明による音声認識用音響モデル作成装置２００に記録された音響モデルと、言語モデル記録部５０６に記録した言語モデル及び発話辞書５０８に記録した辞書を参照して、被認識音声データの認識結果を例えばテキストデータの形式で出力する。
この発明による音声認識装置８００によれば、音声認識率を向上させることができる。その向上の程度を検証したシミュレーション結果については後述する。

〔変形例〕
実施例１で説明した共分散行列Σ_g ⁱⁿⁱは対角行列である仮定が存在した。共分散行列が対角行列でない場合は、式（２２）の段階で共分散行列の対角項の影響を無視する、又は式（２１）を数値計算法により解く手法などがある。
そこで、対角行列の近似を用いることなく解析的にコース/ファイン学習を行うことができる変形例として、分散正規化された平均ベクトルに対するアフィン変換パラメータの線形表現について説明する。

ＬＵ分解法やCholesky分解法などの行列分解法を用いると、ガウス分布の共分散行列パラメータは、式（２７）で表わせる。

ここでＵ_ｇ ⁱⁿⁱは上方三角行列である。この上方三角行列を用いて、平均ベクトルパラメータが分散正規化された場合のアフィン変換について考察する。そのコース/ファイン表現は、式（２８）で表わせる。

この場合も線形表現するために一般化された同次ベクトルξ_cfg ⁱⁿⁱを導入する。

式（２９）は式（１１）のμ_ｇ ⁱⁿⁱを、分散正規化表現Ｕ_ｇ ⁱⁿⁱμ_ｇ ⁱⁿⁱに置き換えたものである。このようにして、平均ベクトルを上記と同様に線形変換として表わすことができる。

以降、上記説明と同様に期待値最大化法によりパラメータを推定する。

〔Ｅ-step〕
式（３１）を式（１７）に代入すると補助関数は次のように書ける。

ここで推定対象Ｗ_ｃに依存しない項は除いた。ζ_gとＭ_gは式（１９）で定義された連続密度分布ＨＭＭのガウス分布の平均を計算する際の十分統計量である。

〔Ｍ-step〕
式（３２）の補助関数はＷ_ｃに関して２次形式である。従って、min-max法に基づきＷ_ｃの最尤推定値を補助関数ＱをＷ_ｃに関して微分することにより得ることができる。

式（３３）と異なり、共分散行列Σ_g ⁱⁿⁱが対角行列でなくても次のような解析解が存在する。

式（３５）はそれぞれ、分散正規化表現を用いた場合のアフィン変換パラメータのコース/ファイン学習における０次と１次の十分統計量である。
最後に式（３４）を式（３１）に代入することにより適応モデルが得られる。

〔シミュレーション結果〕
従来の適応モデル学習方法と、この発明で提案した適応モデル学習方法の単語誤り率を比較したシミュレーション結果を図９に示す。横軸は発話数であり、縦軸は単語誤り率（％）である。単語誤り率は、分母が総単語数、分子が（置換誤り＋削除誤り＋挿入誤り）である。

シミュレーション条件：ＡＳＪ（日本音響学会）読み上げ音声データベースの男性話者４４人分を用いてトライフォンＨＭＭの総状態数１０００、ＨＭＭ状態当たりの混合数の不特定話者音響モデルを構築し、ＣＳＪ（日本語話し言葉コーパス）講演音声データベースの男性話者２０人に対し、教師ラベルありの逐次対応を行った。
特徴量は、１２次元ＭＦＣＣ（Mel Frequency Cepstral Coefficient）＋Energy（パワースペクトル）＋Δ（ＭＦＣＣ時系列の一次差分値）＋ΔΔ（ＭＦＣＣ時系列の二次差分値）として、語彙サイズ３万語の３つ組確率（トライグラム）を用いて大語彙連続音声認識実験を行った（不特定話者音響モデルの単語誤り率は３７.１％）。

比較として従来のアフィン変換パラメータ推定（ＭＬＬＲ：Maximum Likelihood Linear Regression）及び平行移動ベクトルのコース/ファイン学習（ＣＦＴ-bias:Coarse Fine Training）の特性も図９に示す。この発明の方法（ＣＦＴ-ＬＲ: Coarse Fine Training- Linear Regression）は、従来法と比較してＭＬＬＲとは最大で１％、ＣＦＴ-biasとは最大で２％上回っており、全適応データ領域において従来法よりも誤り率が小さい。これは、従来のアフィン変換パラメータの推定方法に、コース/ファイン学習の概念を導入したこの発明の新しい適応モデル学習方法の効果の現れであるといえる。

なお、この適応モデル学習法の応用例として音声認識技術についてのみ説明を行ったが、この発明による適応モデル学習法の応用としては、この例に限定されない。例えば、画像処理にこの発明の適応モデル学習法が、容易に適用できることはいうまでもない。
また、以上の各実施例の他、この発明である各装置及び方法は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

また、上記各装置における処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記憶媒体に記憶しておくことができる。コンピュータで読み取り可能な記憶媒体としては、例えば、磁気記憶装置、光ディスク、光磁気記憶媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記憶装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）/ＲＷ（ReWritable）等を、光磁気記憶媒体として、ＭＯ（Magneto Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記憶したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記憶媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記憶媒体に記憶されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記憶媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、この形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

この発明の適応モデル学習装置１００の機能構成例を示す図。図１の適応モデル学習装置の動作フローを示す図。２分木を用いたガウス分布集合の階層的表現を示す図。２種類の閾値を用いたコース/ファインクラスの設定例を示す図。期待値最大化法による推定解を求めるフロー図。コース/ファインクラスの更新を伴う期待値最大化法の動作フロー図。この発明の音声認識用音響モデル学習装置２００の機能構成例を示す図。この発明の音声認識装置８００の機能構成例を示す図。適応モデル学習方法による単語誤り率を比較したシミュレーション結果を示す図。従来の音声認識装置の機能構成例を示す図。従来のアフィン変換パラメータを共有化する方法で変換されるベクトルの例を示す概念図。

Claims

混合ガウス分布から成る初期モデルを記憶した初期モデル記憶部と、
学習データを特徴量ベクトルに変換する特徴量ベクトル変換部と、
上記混合ガウス分布中の各ガウス分布のアフィン変換パラメータを線形変換行列と平行移動ベクトルとに分解し、上記線形変換行列を上記複数のガウス分布内で同一のものを用いることにより粗いコースクラスｃで設定し、上記平行移動ベクトルを上記コースクラスｃ内の部分集合である少数のガウス分布内で同一のものを用いることで精密なファインクラスｆで設定して上記各ガウス分布のアフィン変換パラメータをコース/ファイン表現す
るコース/ファインクラス設定部と、
上記初期モデル記憶部から取得した初期モデルと、上記特徴量ベクトル変換部から取得した特徴量ベクトルと、上記コース/ファインクラス設定部から取得した上記アフィン変
換パラメータとから、アフィン変換パラメータの推定値を潜在モデルに対する統計的学習法によって推定するアフィン変換パラメータ学習部と、
上記アフィン変換パラメータの推定値から上記初期モデルを変換した適応モデルを生成するモデルパラメータ変換部と、
を具備し、
上記コース/ファインクラス設定部は、
上記初期モデルを階層分類するガウス分布階層分類手段と、
上記アフィン変換パラメータを生成するアフィン変換パラメータ生成部と、
上記一般化された同次ベクトルを生成する同次ベクトル生成部と、
を備え、
上記アフィン変換パラメータ生成部は、上記コースクラスｃ内で同一の線形変換行列Ａ _ｃと上記コースクラスｃに属しファインクラスｆを含むＦ個のファインクラス内の平行移動ベクトルｂ _１，…，ｂ _ｆ，…，ｂ _Ｆとを、まとめて一つの行列で表わしたアフィン変換パラメータＷ _ｃ ≡（ｂ _１，…，ｂ _ｆ，…，ｂ _Ｆ，Ａ _ｃ）として生成するものであり、
上記同次ベクトル生成部は、上記ファインクラスｆに属するガウス分布ｇの平均ベクトルμ _ｇ ⁱⁿⁱ と、ガウス分布ｇがファインクラスｆに属することを表わす０若しくは１で表現される部分ベクトルとから成る一般化された同次ベクトル（ξ _cfg ⁱⁿⁱ ）´≡（０ … ０１０ … ０（μ _g ⁱⁿⁱ ）´）を生成するものであり、
上記コース/ファインクラス設定部は、アフィン変換パラメータのコース/ファイン表現を、上記アフィン変換パラメータＷ _ｃと上記一般化された同次ベクトル（ξ _cfg ⁱⁿⁱ ）´との積で線形表現するものであることを特徴とする適応モデル学習装置。
請求項１に記載の適応モデル学習装置において、
上記アフィン変換パラメータ学習部は、期待値最大化法に基づいて上記アフィン変換パラメータの推定値を推定するものであることを特徴とする適応モデル学習装置。
請求項１又は２に記載された適応モデル学習装置において、
上記コース/ファインクラス設定部は、
上記初期モデルを階層分類するガウス分布階層分類手段と、
上記アフィン変換パラメータを生成するアフィン変換パラメータ生成部と、
上記一般化された同次ベクトルを生成する同次ベクトル生成部と、
を備え、
上記アフィン変換パラメータ学習部は、アフィン変換パラメータの推定値を生成する際に計算する統計量を、上記コース/ファインクラス設定部に帰還させる手段も有し、
かつ、上記アフィン変換パラメータ生成部と上記同次ベクトル生成部とは、上記帰還された統計量から上記アフィン変換パラメータＷ_ｃと上記一般化された同次ベクトル（ξ_cfg ⁱⁿⁱ）´とを再生成する手段も有することを特徴とする適応モデル学習装置。
請求項１乃至３の何れかに記載された適応モデル学習装置の、
上記初期モデルが初期音響モデルであり、上記学習データが学習用音声データであることを特徴とする音声認識用音響モデル作成装置。
請求項４に記載した音声認識用音響モデル作成装置と、
被認識音声データを特徴量ベクトルに変換する特徴量ベクトル変換部と、
上記特徴量ベクトルと上記音声認識用音響モデル作成装置が作成した音響モデルとから上記被認識音声データを音声認識する音声認識部と、
を具備することを特徴とする音声認識装置。
学習データを特徴量ベクトルに変換する特徴量ベクトル変換過程と、
初期モデルである各ガウス分布のアフィン変換パラメータを線形変換行列と平行移動ベクトルとに分解し、上記線形変換行列を上記複数のガウス分布内で同一のものを用いることにより粗いコースクラスｃで設定し、上記平行移動ベクトルを上記コースクラスｃ内の部分集合である少数のガウス分布内で同一のものを用いることで精密なファインクラスｆで設定し、上記各ガウス分布のアフィン変換パラメータをコース/ファイン表現するコー
ス/ファインクラス設定過程と、
上記初期モデルと上記特徴量ベクトルと上記アフィン変換パラメータと一般化された同次ベクトルとからアフィン変換パラメータの推定値を潜在モデルに対する統計的学習法によって推定するアフィン変換パラメータ学習過程と、
上記アフィン変換パラメータの推定値から上記初期モデルを変換した適応モデルを生成するモデルパラメータ変換過程と、
を含み、
上記コース/ファインクラス設定過程は、
更に、
上記初期モデルを階層分類するガウス分布階層分類ステップと、
上記アフィン変換パラメータを生成するアフィン変換パラメータ生成過程と、
上記一般化された同次ベクトルを生成する同次ベクトル生成過程と、
を含み、
上記アフィン変換パラメータ生成過程は、上記コースクラスｃ内で同一の線形変換行列Ａ _ｃと上記コースクラスｃに属しファインクラスｆを含むＦ個のファインクラス内の平行移動ベクトルｂ _１，…，ｂ _ｆ，…，ｂ _Ｆとを、まとめて一つの行列で表わしたアフィン変換パラメータＷ _ｃ ≡（ｂ _１，…，ｂ _ｆ，…，ｂ _Ｆ，Ａ _ｃ）として生成し、
上記同次ベクトル生成過程は、上記ファインクラスｆに属するガウス分布ｇの平均ベクトルμ _ｇ ⁱⁿⁱ と、ガウス分布ｇがファインクラスｆに属することを表わす０若しくは１で表現される部分ベクトルとから成る一般化された同次ベクトル（ξ _cfg ⁱⁿⁱ ）´≡（０ … ０１０ … ０（μ _g ⁱⁿⁱ ）´）を生成し、
上記コース/ファインクラス設定過程は、アフィン変換パラメータのコース/ファイン表現を、上記アフィン変換パラメータＷ _ｃと上記一般化された同次ベクトル（ξ _cfg ⁱⁿⁱ ）´との積で線形表現する過程であることを特徴とする適応モデル学習方法。
請求項６に記載の適応モデル学習方法において、
上記アフィン変換パラメータ学習過程は、アフィン変換パラメータの推定値を生成する際に計算される統計量を上記コース/ファインクラス設定部に帰還させる過程と、
上記帰還された統計量を用いて上記アフィン変換パラメータＷ_ｃと一般化された同次ベクトル（ξ_cfg ⁱⁿⁱ）´とを再生成する過程も含むことを特徴とする適応モデル学習方法。
請求項６又は７に記載の適応モデル学習方法の、
上記初期モデルが音響モデルであり、上記学習データが学習用音声データであることを特徴とする音声認識用音響モデル作成方法。
請求項１乃至５の何れかに記載した各装置としてコンピュータを機能させるための装置プログラム。
請求項９に記載したプログラムを記憶したコンピュータで読み取り可能な記憶媒体。