JP4612435B2

JP4612435B2 - 音響モデル学習装置および音声認識装置

Info

Publication number: JP4612435B2
Application number: JP2005051814A
Authority: JP
Inventors: 晋治渡部
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2005-02-25
Filing date: 2005-02-25
Publication date: 2011-01-12
Anticipated expiration: 2025-02-25
Also published as: JP2006235389A

Description

本発明は、音響モデル作成方法と音響スコア計算方法と、それらの方法を用いた音声認識装置および音声認識方法に関するものである。

音声認識装置の概略を、図1を用いて説明する。音声認識装置は、音声特徴量抽出部９００、音響モデル学習部９１０、音響モデル記録部９２０、音声認識部９３０、辞書９４０から構成される。また、音声認識装置には学習モードと認識モードがある。学習モードでは、音声特徴量抽出部９００で入力音声データ（学習データ）をフレームごとに時系列の音声特徴量ベクトルに変換し、音響モデル学習部９１０でモデルパラメータ学習及び適切なモデル構造決定を行い、音響モデル記録部９２０に記録する。認識モードでは、音声特徴量抽出部９００で入力音声データ（未知データ）をフレームごとに時系列の音声特徴量ベクトルに変換し、音声認識部９３０で、音響モデル記録部９２０に記録された音響モデルを用いて音声特徴量ベクトルに対するスコアを算出し、辞書９４０に記録された情報を用いて発音辞書モデルや言語モデル等に対するスコアを考慮して認識結果を得る。

音響モデルについて説明する。通常音声認識用音響モデルでは、各音素をLeft to rightの隠れマルコフモデル（ＨＭＭ）で、ＨＭＭ状態の出力確率分布を混合ガウス分布モデル（ＧＭＭ）で表現する。学習データに対しては、その何れの部分が何れの音素であるかを示すラベル情報が与えられている。ラベル情報により得られる学習データ中の各音素に対応するデータから、尤度を最大化するようにモデルパラメータ（ガウス分布の平均、分散、混合重み係数、状態遷移確率）を推定することをモデルパラメータの学習と呼ぶ。モデルパラメータを学習する手法としては最尤学習法がある。また、近年では変分ベイズ学習によるモデルパラメータの事後確率分布に対する学習法も用いられている。

変分ベイズ学習を用いた音響モデル学習は特許文献１にて実現されている。ここでは、変分ベイズ学習を用いたBaum-Welchアルゴリズムによる音響モデル学習について説明を行う。図２は変分ベイズ学習を用いたBaum-Welchアルゴリズムの従来計算法での音声認識用音響モデル作成装置の機能構成例を示す図である。Baum-Welchアルゴリズムは、もともと最尤学習の枠組みであり、出力信号系列は与えられているが、状態系列・混合ガウス分布系列は与えられていない場合に、ＨＭＭ・ＧＭＭのパラメータΘを繰返し処理によって推定する方法である（非特許文献１）。これを変分ベイズ学習に適用することにより、モデルパラメータΘではなく、学習データｘが与えられたときの、ハイパーパラメータΦを持つ変分ベイズ事後確率分布ｑ（Θ｜ｘ，Φ）を推定することが可能となる。これを変分ベイズ学習版のBaum-Welchアルゴリズムと呼ぶ。変分ベイズ学習版のBaum-Welchアルゴリズムでは、まず統計量初期設定部９１１で、ハイパーパラメータΦ^０で表現されるモデルパラメータ集合Θの事前分布ｐ(Θ｜Φ^０)を設定する。その後ｐ(Θ｜Φ^０)と観測された出力信号系列ｘを手がかりに、全ての状態系列Ｓおよび混合ガウス分布系列Ｖについて変分ベイズ学習により求まる事後出現確率Ｑ（Ｓ，Ｖ｜ｘ，Φ^０）を計算する。しかし、実際に全ての状態系列に対してＱ（Ｓ，Ｖ｜ｘ，Φ）を求めるためには、膨大な計算量が必要とされる。そこで、効率的に期待値を計算する前向き・後向きアルゴリズム（ＦＢアルゴリズム）を用いる。ＦＢアルゴリズムは、モデルと出力信号が与えられた下で、時間ｔにおいて状態ｉに至る確率α^ｔ _ｊ（前向き確率）と、時刻ｔに状態ｊを出発して最終時刻Ｔに最終状態に到達する確率β^ｔ _ｊ（後向き確率）とを、あらかじめ計算して計算量の削減を図るアルゴリズムである。計算した前向き・後ろ向き確率をメモリに格納しておけば、必要なときにその都度メモリを参照すればよいため、計算量は大幅に削減できる。このＦＢアルゴリズムが含まれる計算部をＦＢ計算部（Ｅ-ｓｔｅｐ）９１２と呼ぶ。その後統計量更新部（Ｍ-ｓｔｅｐ）９１３においてハイパーパラメータΦを更新し、それを元に変分ベイズ学習により求まる事後確率分布ｑ（Θ｜ｘ，Φ）の推定を行う。さらに、得られた事後確率分布ｑ（Θ｜ｘ，Φ）を初期モデルとして学習を繰返すことで、より高い確率で学習データを出力しうる音響モデルの学習を行う。

次に、ＦＢアルゴリズムについて説明する。まず初めにＤ次元時系列特徴量ベクトル集合ｘ＝{ｘ^ｔ∈Ｒ^Ｄ｜ｔ＝１，…，Ｔ}を定義する。フレーム数をＴとする。また、状態系列集合をＳ＝{ｓ^０，ｓ^１，…，ｓ^Ｔ}、混合ガウス成分系列をＶ＝{ｖ^０，ｖ^１，…，ｖ^Ｔ}を定義する。ｔ時にＨＭＭの状態系列がｉからｊに移るときの事後遷移確率値Ｑ（ｓ^ｔ−１＝ｉ，ｓ^ｔ＝ｊ｜ｘ，Φ）≡γ^ｔ _ｉｊは、フォワード係数αおよびバックワード係数βを用いて次のように求めることができる。

ここで、ｋはＧＭＭ成分の指標を表す。また、αおよびβは次のように定義される。

ここで、α^ｔ _ｊ ^＝０およびβ^ｔ _ｊ ^＝Ｔにはフレームの境界条件を元に適切な初期値を与える。同様に、ｔ時のＨＭＭ状態ｊにおいてＧＭＭ成分ｋが存在する事後占有確率値Ｑ（ｓ^ｔ＝ｊ，ｖ^ｔ＝ｋ｜ｘ，Φ）≡ζ^ｔ _ｊｋの計算も、フォワード係数αおよびバックワード係数βを用いて次のように求めることができる。

ここで、式（１）〜（３）中のａ_ｉｊ，ｗ_ｊｋ，ｂ_ｊｋ（ｘ^ｔ）は、共分散行列が対角であることを仮定すると、ハイパーパラメータΦ≡{φ_ｉｊ、ρ_ｊｋ，ξ_ｊｋ，ν_ｊｋ，η_ｊｋ，Ｒ_ｊｋ}を用いて次のように計算することができる。

ここで、Ψ（・）は、ディガンマ関数であり、ｄは特徴量次元の指数を表す。このようにして、ＦＢアルゴリズムにより、γ^ｔ _ｉｊおよびζ^ｔ _ｊｋを計算することが可能となるが、それを求めるには事後確率分布のハイパーパラメータΦ≡{φ_ｉｊ、ρ_ｊｋ，ξ_ｊｋ，ν_ｊｋ，η_ｊｋ，Ｒ_ｊｋ}が必要となる。
事後確率分布のハイパーパラメータΦ≡{φ_ｉｊ、ρ_ｊｋ，ξ_ｊｋ，ν_ｊｋ，η_ｊｋ，Ｒ_ｊｋ}は、統計量初期設定部９１１であらかじめ設定されるものであり、Baum-Welchアルゴリズムの統計量更新部９１３（ＥＭアルゴリズムのＭ−ｓｔｅｐ）で０次の統計量γ_ｉｊ、ζ_ｊｋ、１次の統計量Μ_ｊｋ、２次の統計量Ｖ_ｊｋを用いて更新される。０次の統計量γ_ｉｊ、ζ_ｊｋ、１次の統計量Μ_ｊｋ、２次の統計量Ｖ_ｊｋは、ＦＢ計算部９１２によって求まるγ^ｔ _ｉｊ、ζ^ｔ _ｊｋを用いて次のように求めることができる。

ここで、’は行列やベクトルの転置を表す。統計量はΩで定義する（Ω≡{γ_ｉｊ，ζ_ｊｋ，Μ_ｊｋ，Ｖ_ｊｋ}）。これらの統計量と事前確率分布のハイパーパラメータΦ^０と用いると、Φは次のように求めることができる。

このようにして求まったΦを用いてＦＢ計算部に戻り、繰り返し処理によってＨＭＭ・ＧＭＭの変分ベイズ事後確率分布ｑ（Θ｜ｘ，Φ）に対しての学習を再度行う。
この処理は、τ回目の繰り返し計算によって得られるΦ^［τ］を用いて計算される変分ベイズ評価関数Ｆ（Φ^［τ］）と前回の変分ベイズ評価関数Ｆ（Φ^{［τ−１］}）の差があらかじめ定めた収束判定のしきい値ε以下になると終了する。つまり、

が成立すれば音響モデル学習が終了する。なお、εは、例えば０．１などの数値をあらかじめ決めておく。また、あらかじめ実験等により収束する繰り返し回数を調べておき、繰り返し回数が所定の回数に達したときに音響モデル学習を終了する方法もある。
また、繰り返し計算をＦＢ計算部９１２、統計量更新部９１３、評価部９１４の繰り返しで行い、収束条件を満たす場合に、評価部９１４で繰り返し処理を中止するのだから、繰り返し処理をＦＢ計算部９１２から始めるのではなく、図３に示すように統計量更新部９１３から始めることもある。この場合は式（７）から繰り返し計算を始めることになるので、統計量初期設定部９１１−２では、事後遷移確率値γ^ｔ _ｉｊ、事後占有確率値ζ^ｔ _ｊｋ（ｔ＝１，…，Ｔ）を設定する。
特開２００４−１１７５０３号公報鹿野清宏他、"音声認識システム"、オーム杜、2001、pp.25-36．

変分ベイズ学習を用いた音声認識におけるBaum-Welchアルゴリズム及びViterbiアルゴリズムでは、繰り返し処理により音響パラメータを求めるため、計算量が膨大となる。特に図２に示した従来のＦＢ計算部９１２での計算では、式（１）（２）に必要な

および、式（３）に必要な

の計算では、式（４）〜（６）をフレームごとに計算する必要があるため、多くの時間を要するという問題があった。
このような問題を解決する方法として、あらかじめフレームごとの計算に共通する項（以下、「共通項」という。）を計算して記録部に記録しておき、フレームごとの計算では記録部に記録された量を用いて計算する方法が一般的に利用される。
しかし、変分ベイズ学習の計算は大変複雑であり、特に指数関数およびその因数計算内の初等計算のみならず、Σ_ｋやΣ_ｄといった和計算が存在するため、共通項の導出が大変困難である。したがって、共通項を抽出することができず、共通項を記録部に記録して計算量を削減する方法が利用できなかった。

また、音響モデル学習から音声認識へとモードを変えると、共通項のフォーマットおよび音響スコア計算の関数形を変更する必要があるため、ソースコード上に複数の複雑な共通項のフォーマットおよび音響スコア計算の関数形が存在して、プログラムが大変複雑になっていた。

本発明では、変分ベイズ学習を用いたBaum-Welchアルゴリズム及びViterbiアルゴリズムでのフレームごとの音響モデル学習の計算および音声認識でのスコア計算において、フレームごとに計算する必要が無い量をあらかじめ計算しておき、フレームごとの計算に利用する。また、音響スコア計算で、共通項のフォーマットおよび音響スコア計算の関数形が同一となる汎用的なスコア計算関数を用いる。

本発明は、フレームごとのスコア計算において、フレームごとに計算する必要が無い量をあらかじめ計算を行っている。したがって、フレームごとのスコア計算を大幅に削減することが可能となり、本発明の目的である変分ベイズ法を用いたBaum-Welchアルゴリズム及びViterbiアルゴリズムでのフレームごとの計算を高速におこなうことができるようになる。また、音響モデル学習から音声認識へとモードを変える場合にも、共通項のフォーマットおよび音響スコア計算の関数形が同一となる汎用的なスコア計算関数を導入することにより、プログラムを簡略化できる。

［第１実施形態］
共通項の導出
本発明のポイントは、ベイズ音声認識において重要なＦＢ計算部９１２での各状態ｉ，ｊ、フレームｔごとの音響スコア計算を、どのような方法で共通項とフレームごとに計算を行う項とに分離するかである。そこで、実施形態の説明の前に、各実施形態で用いる共通項の導出方法について説明する。本発明では、以下のようなＮで関数を変更できる汎用的な関数（以下、「汎用スコア計算関数」という。）Ｌ^ｔ _ｉｊ，Ｎを適用して、計算を簡略化させることで、共通項を抽出した。

ただし、ｌｏｇは、ｅ＝２．７１８…を底とする自然対数である。この関数は、Ｎによって形を変えることができ、例えばＮ＝１のときは、

となる。ここで、Ｈ_ｉｊ、Ａ_ｊｋ、Ｃ_ｊｋはスカラー、Ｇ_ｊｋはＤ次元ベクトル、Ｂ_ｊｋはＤ×Ｄ行列であり、Λ≡{Ｈ_ｉｊ，Ａ_ｊｋ，Ｃ_ｊｋ，Ｇ_ｊｋ，Ｂ_ｊｋ}が共通項となる。この共通項Λは、３つのスカラー量、１つのベクトル、および１つの行列から構成されており、汎用スコア計算関数Ｌ^ｔ _ｉｊ，ＮのＮの値を変えることで関数が変化しても、共通項の構成（フォーマット）は変わらない。そこで、以下ではΛを汎用共通項と呼ぶ。汎用的な関数とは、音声学習モードで事後遷移確率値と事後占有確率値を求めるときに使用しうる複数の関数や、音声認識モードで音響スコアを求めるときに使用しうる複数の関数を、関数の形を決定するパラメータ（式（１０）の場合はＮ）を含む１つの関数で表現したものをいう。

以下には、関数Ｌ^ｔ _ｉｊ，Ｎを用いて汎用共通項を抽出することで、図２、図３に示した構成を、図４または図６に示すようにＦＢ計算部１１２、統計量更新部９１３、共通項計算部１１１、評価部９１４が主な構成要素となり、パラメータ記録部１１５には、統計量Ω≡{γ_ｉｊ，ζ_ｊｋ，Μ_ｊｋ，Ｖ_ｊｋ}、ハイパーパラメータΦ≡{φ_ｉｊ、ρ_ｊｋ，ξ_ｊｋ，ν_ｊｋ，η_ｊｋ，Ｒ_ｊｋ}、汎用共通項Λ≡{Ｈ_ｉｊ，Ａ_ｊｋ，Ｃ_ｊｋ，Ｇ_ｊｋ，Ｂ_ｊｋ}の３種類のデータが記録される実施形態を実現できることを証明する。
ＦＢ計算部１１２の式（１）（２）計算に必要であり、膨大な計算時間を要する

の計算では、音響スコア計算手段９１２１で行う式（４）〜（６）の計算をフレームごとに行わなければならないために、計算量が膨大となる。

に、式（４）〜（６）を代入し、対数を取ると、

となる。この式の簡略化（関数Ｌ^ｔ _ｉｊ，Ｎへの変形）していく。式（１３）中のディガンマ関数Ψ（・）や、後ほど説明するガンマ関数Γ（・）などの特殊関数は計算量が多いため、これらの計算をできるだけ避ける必要がある。そこで、フレームｔに依存せず計算できる共通項を見つけ出し、統計量初期設定部９１１−２（９１１）や統計量更新部９１３であらかじめ計算しておくことを考える。
まず、式（１３）中で加算の指標ｋ、ｄや指標ｊといった共通の指標を持つ項およびその定数因子が掛けられたもの、定数項が足されたものを共通項としてまとめると、式(１３)は次のように書き直すことができる。

ここで、ｗ_ｊｋは式（５）に定義されており、その他の項は、

である。式（１４）によって、Σ_ｋ、Σ_ｄに注意しながら共通項（Ｈ_ｉｊ，ｗ_ｊｋ，Ｕ_ｊｋ，Ｖ_ｊｋ，ｄ，Ｙ_ｊｋ、ｄ）を見つけ出すことができた。さらに式（１４）の指数関数の特性ｅｘｐ（ｒ＋ｓ）＝ｅｘｐ（ｒ）・ｅｘｐ（ｓ）を用いて共通項のうちｗ_ｊｋ，Ｕ_ｊｋ，Ｖ_ｊｋ，ｄを次のようにさらに共通化することができる。

以上の結果をまとめると、式（１３）は次のように共通項をまとめることができる。

ここで、｜・｜は行列式をあらわす。したがって、共通項Ｈ_ｉｊ、Ａ_ｊｋ、Ｃ_ｊｋ、Ｇ_ｊｋ、Ｂ_ｊｋを共通項計算部１１１であらかじめ計算し、それらをパラメータ記録部１１５に記録して、フレームごとの計算に利用することにより、ＦＢ計算部１１２のフレームごとの計算は大幅に削減することができる。
同様に、ｔ時のＨＭＭ状態ｊにおいてＧＭＭ成分ｋが存在する事後占有確率値ζ^ｔ _ｊｋの計算（式（３））に対しても、ａ_ｉｊｗ_ｊｋｂ_ｊｋ（ｘ^ｔ）の対数ｌｏｇ（ａ_ｉｊｗ_ｊｋｂ_ｊｋ（ｘ^ｔ））は式（１９）で定義されたＨ_ｉｊ、Ａ_ｊｋ、Ｃ_ｊｋ、Ｇ_ｊｋ、Ｂ_ｊｋを用いて、次のように簡略化できる。

これは、式１８において、Σ_ｋを除いたものであり、Ｌ^ｔ _{ｉｊ，Ｎ＝１}の特殊形態とみなせる。したがって、先程と同様に、式（１９）をもとにＨ_ｉｊ、Ａ_ｊｋ、Ｃ_ｊｋ、Ｇ_ｊｋ、Ｂ_ｊｋを共通項計算部１１１であらかじめ計算することにより、フレームごとの計算量を大幅に削減できる。
具体的な実施形態
具体的な実施形態を図４に示す。音響モデル学習部１１０は、統計量初期設定部９１１−２、統計量更新部９１３、共通項計算部１１１、評価部９１４、ＦＢ計算部１１２、およびパラメータ記録部１１５から構成され、音響モデル学習部１１０へは音声特徴量抽出部９００で音声データの特徴量が抽出された信号が入力される、音響モデル学習部１１０からは、音響パラメータとなるハイパーパラメータΦ≡{φ_ｉｊ、ρ_ｊｋ，ξ_ｊｋ，ν_ｊｋ，η_ｊｋ，Ｒ_ｊｋ}が出力される。統計量初期設定部９１１−２は、音声特徴量が入力されると、統計量更新部９１３で最初に計算される式（７）に必要な事後遷移確率値γ^ｔ _ｉｊ、事後占有確率値ζ^ｔ _ｊｋ（ｔ＝１，…，Ｔ）を設定し、出力する。統計量更新部９１３は、式（７）を計算して統計量Ω≡{γ_ｉｊ，ζ_ｊｋ，Μ_ｊｋ，Ｖ_ｊｋ}をパラメータ記録部１１５に記録し、式（８）を計算してハイパーパラメータΦ≡{φ_ｉｊ、ρ_ｊｋ，ξ_ｊｋ，ν_ｊｋ，η_ｊｋ，Ｒ_ｊｋ}をパラメータ記録部１１５に記録する。繰り返し計算の１フレーム目の場合は、共通項計算部１１１へ進み、式（１９）を計算して汎用共通項Λ≡{Ｈ_ｉｊ，Ａ_ｊｋ，Ｃ_ｊｋ，Ｇ_ｊｋ，Ｂ_ｊｋ}をパラメータ記録部１１５に記録する。評価部９１４は、式（９）の計算と評価によって、繰り返し処理を終了するか否かを判断する。なお、評価部９１４では、前述のように式（９）による計算と評価ではなく、あらかじめ定めた繰り返し回数に達したか否かで判断する方法もある。繰り返し処理を終了する場合には、パラメータ記録部１１５に記録されたハイパーパラメータΦ≡{φ_ｉｊ、ρ_ｊｋ，ξ_ｊｋ，ν_ｊｋ，η_ｊｋ，Ｒ_ｊｋ}を音響モデルとして記録部９２０に出力し、音響モデル学習が終了する。繰り返し処理を継続する場合には、ＦＢ計算部１１２へ進み、パラメータ記録部１１５から汎用共通項Λ≡{Ｈ_ｉｊ，Ａ_ｊｋ，Ｃ_ｊｋ，Ｇ_ｊｋ，Ｂ_ｊｋ}を読み出して音響スコア計算手段１１２１で式（１１）（２０）を計算し、その結果を利用して式（１）〜（３）を計算する。この結果を用いて統計量更新部９１３に戻り処理が繰り返される。パラメータ記録部１１５には、統計量Ω≡{γ_ｉｊ，ζ_ｊｋ，Μ_ｊｋ，Ｖ_ｊｋ}、ハイパーパラメータΦ≡{φ_ｉｊ、ρ_ｊｋ，ξ_ｊｋ，ν_ｊｋ，η_ｊｋ，Ｒ_ｊｋ}、汎用共通項Λ≡{Ｈ_ｉｊ，Ａ_ｊｋ，Ｃ_ｊｋ，Ｇ_ｊｋ，Ｂ_ｊｋ}の３種類のデータが記録される。図５に処理フローを示す。

具体的な例として１５００文の音声データで学習した場合、従来方法と本発明の方法で学習時間が１０３秒から５６秒へと短縮された。
［変形例１］
図６に第1実施形態の変形例の機能構成を示す。前述のように繰り返し処理では、統計量の初期設定の方法を変えることによって、どの処理から始めるかを変えることができる。図５の構成では、統計量初期設定部９１１で、ハイパーパラメータΦ≡{φ_ｉｊ、ρ_ｊｋ，ξ_ｊｋ，ν_ｊｋ，η_ｊｋ，Ｒ_ｊｋ}の初期値を設定する。共通項計算部１１１で式（１９）を計算して汎用共通項Λ≡{Ｈ_ｉｊ，Ａ_ｊｋ，Ｃ_ｊｋ，Ｇ_ｊｋ，Ｂ_ｊｋ}をパラメータ記録部１１５に記録し、繰り返し処理をＦＢ計算部１１２から始める。繰り返し計算が始まった後は、第１実施形態と同じである。図７に処理フローを示す。
［変形例２］
第１実施形態の方法は、Viterbiアルゴリズムを用いて音響モデルを学習する場合にも有効である。Viterbiアルゴリズムを用いる場合には、式（１）と（３）の代わりに

を計算する。この計算でも、第1実施形態の変分ベイズ版のBaum-Welchアルゴリズムと同様に、

の計算のために、あらかじめ式（１９）によって汎用共通項Λ≡{Ｈ_ｉｊ，Ａ_ｊｋ，Ｃ_ｊｋ，Ｇ_ｊｋ，Ｂ_ｊｋ}を計算しておき、式（１１）を用いることで計算時間の大幅な短縮が可能である。
［変形例３］
本手法は分布族が異なり、関数形が異なるような場合にも適切に汎用共通項Λ≡{Ｈ_ｉｊ，Ａ_ｊｋ，Ｃ_ｊｋ，Ｇ_ｊｋ，Ｂ_ｊｋ}を設定すれば、式（１０）により式を簡略化し、高速に計算することができる。たとえば対角共分散行列ではなく、通常の共分散行列を用いた場合には、変分ベイズ事後確率分布ｑ（Θ｜ｘ，Φ）の分布族が変わり、式（６）中のｂ_ｊｋが次のように変わる。

と変えるだけでよい。
つまり、汎用共通項Λ≡{Ｈ_ｉｊ，Ａ_ｊｋ，Ｃ_ｊｋ，Ｇ_ｊｋ，Ｂ_ｊｋ}の構成（フォーマット）は維持したまま、汎用共通項Λの各要素の定義と関数Ｌ^ｔ _ｉｊ，ＮのＮの値を変えることで、本手法は広く利用可能である。
変形例２と変形例３から分かるように、音響スコア計算の方法が変わっても、使用する関数が汎用スコア計算関数を利用できる限り、汎用共通項Λの構成（フォーマット）は変わらない。このことは、ソフトウェア作成上の大きな効果である。つまり、同じプログラム資源を利用して音響スコア計算関数を変更する場合でも、汎用スコア計算関数Ｌ^ｔ _ｉｊ，ＮのＮの値を変えるだけで、データベース（記録部）のフォーマットを変えたり、データをやり取りするサブルーチンのプログラムを変更したりする必要が無いため、軽微な変更で利用できる。
［第２実施形態］
共通項の導出
第1実施形態で示した方法は、認識モードでの音響スコア計算においても有効である。音声データの特徴量時系列ｘ＝{ｘ^ｔ∈Ｒ^Ｄ｜ｔ＝１，…}を未知のデータとし、与えられた音響モデルをもとに音響スコア計算を行う場合を考える。変分ベイズ学習で音響モデルを作成した場合の音響スコア計算は、各フレーム（ｔ）の各状態（ｊ）に対する音響スコアを計算し、Viterbiアルゴリズムを用いることにより行う。共分散行列が対角な時、音響スコアの具体形はStudent-t分布型の分布関数の対数形を用いて、次式のように表すことができる。

ここで、Γ（・）はガンマ関数を表す。式（２４）に対しても、汎用共通項Λ≡{Ｈ_ｉｊ，Ａ_ｊｋ，Ｃ_ｊｋ，Ｇ_ｊｋ，Ｂ_ｊｋ}を次のように定義し、

これらの共通項をあらかじめ計算しておけば、式（２４）の計算は、次式のように簡略化できる。

したがって、式（２５）に定義された汎用共通項Λ≡{Ｈ_ｉｊ，Ａ_ｊｋ，Ｃ_ｊｋ，Ｇ_ｊｋ，Ｂ_ｊｋ}をあらかじめ計算し、記録しておくことで大幅に計算量を削減することができる。
具体的な実施形態
図８に学習モードでの本発明の機能構成例を示す。図４との違いは、評価部９１４で収束していることが確認された後、パラメータ計算部２１６では式（２５）で定義された汎用共通項Λ≡{Ｈ_ｉｊ，Ａ_ｊｋ，Ｃ_ｊｋ，Ｇ_ｊｋ，Ｂ_ｊｋ}を計算し、ハイパーパラメータΦ≡{φ_ｉｊ、ρ_ｊｋ，ξ_ｊｋ，ν_ｊｋ，η_ｊｋ，Ｒ_ｊｋ}とともに式（２５）の汎用共通項Λ≡{Ｈ_ｉｊ，Ａ_ｊｋ，Ｃ_ｊｋ，Ｇ_ｊｋ，Ｂ_ｊｋ}を記録部２２０に記録することである。図９に処理フローを示す。なお、図６に示した第１実施形態の変形例１の場合も、パラメータ計算部２１６を追加し、式（２５）の汎用共通項Λ≡{Ｈ_ｉｊ，Ａ_ｊｋ，Ｃ_ｊｋ，Ｇ_ｊｋ，Ｂ_ｊｋ}を計算し、記録部２２０に記録する変更をするだけでよい。

また認識モードでの機能構成例を図１０に示す。認識モードの場合は、音声認識部２３０内の音響スコア計算部２３１で、音声特徴量抽出部９００で特徴量に変換された音声データ（未知データ）の時系列に対しての音響スコアを、記録部２２０に記録された音響モデルと汎用共通項Λ≡{Ｈ_ｉｊ，Ａ_ｊｋ，Ｃ_ｊｋ，Ｇ_ｊｋ，Ｂ_ｊｋ}を用いて式（１２）にしたがって計算する。このように、フレームごとに共通の項を記録部２２０に記録しておき、計算に必要なときに読み出すことにより計算量を大幅に削減することができる。図１１に認識モードでの処理フローを示す。

なお、式（２６）から分かるように、音声認識でも音響スコアをStudent-t分布型の分布関数の対数形を用いて計算する場合は、汎用スコア計算関数Ｌ^ｔ _ｉｊ，ＮのＮを∞とすることで音響スコア計算に使用する関数を定義することができる。また、共通項は汎用共通項Λの構成（フォーマット）をそのまま用いることができる。したがって、第１実施形態の学習モード（音響スコア計算では、汎用スコア計算関数Ｌ^ｔ _ｉｊ，ＮのＮを１とした関数を用いた。）と第２実施形態の認識モードとを組み合わせた音声認識装置の場合に、汎用スコア計算関数と汎用共通項を用いることで、共通項のフォーマットおよび音響スコア計算の関数形が同一となり、学習用と認識用の音響スコア計算を行うプログラムを共通化することができる。このように音響スコア計算を学習モードと認識モードとで共通化することで、図１０に示したように音響スコアの計算に音響スコア計算手段１１２１（図４の学習モードで使用した手段）を用いることができる。
［変形例１］
第２実施形態では学習モードの最後に、認識モードで使用する汎用共通項Λを求めた。しかし、学習モードではハイパーパラメータΦのみを記録部９２０に記録し、認識モードの音声認識の前に汎用共通項Λを求める方法もある。図１２は、認識モード中で音声認識時の音響スコア計算に用いる共通項を求める場合の機能構成例を示している。図１０との違いは、記録部９２０にはハイパーパラメータΦのみが記録されており、音声認識部２３０’内には、音響スコア計算手段２３１の他に、式（２５）にしたがって汎用共通項Λを計算する共通項計算手段２３２と汎用共通項Λを記録しておくパラメータ記録手段２３３が備えられている点である。このように構成することで、学習モードで認識モードのときに使用する共通項Λが計算されていない場合にも、認識モードでの計算を簡略化できる。図１３には、この場合の認識モードでの処理フローを示す。
［変形例２］
共通項の導出
第２実施形態では音響スコアをStudent-t分布型の分布関数の対数形を用いて解析的に求める場合を説明したが、事後確率最大化近似により音響スコアの具体形を、ガウス分布を用いて近似的に求める場合の例を以下に示す。この場合の音響スコアの計算は次のようになる。

式（２７）に対しても、汎用共通項Λ≡{Ｈ_ｉｊ，Ａ_ｊｋ，Ｃ_ｊｋ，Ｇ_ｊｋ，Ｂ_ｊｋ}を次のように定義し、

これらの共通項をあらかじめ計算しておけば、式（２７）の計算は、次式のように簡略化できる。

したがって、式（２８）に定義された汎用共通項Λ≡{Ｈ_ｉｊ，Ａ_ｊｋ，Ｃ_ｊｋ，Ｇ_ｊｋ，Ｂ_ｊｋ}をあらかじめ計算し、記録しておくことで大幅に計算量を削減することができる。
具体的な実施形態
図８に学習モードでの本発明の機能構成例を示す。第２実施形態との違いは、パラメータ計算部２１６では式（２８）で定義された汎用共通項Λ≡{Ｈ_ｉｊ，Ａ_ｊｋ，Ｃ_ｊｋ，Ｇ_ｊｋ，Ｂ_ｊｋ}を計算し、ハイパーパラメータΦ≡{φ_ｉｊ、ρ_ｊｋ，ξ_ｊｋ，ν_ｊｋ，η_ｊｋ，Ｒ_ｊｋ}とともに式（２８）の汎用共通項Λ≡{Ｈ_ｉｊ，Ａ_ｊｋ，Ｃ_ｊｋ，Ｇ_ｊｋ，Ｂ_ｊｋ}を記録部２２０に記録することである。図９に処理フローを示す。なお、図６に示した第１実施形態の変形例１の場合も、パラメータ計算部２１６を追加し、式（２８）の汎用共通項Λ≡{Ｈ_ｉｊ，Ａ_ｊｋ，Ｃ_ｊｋ，Ｇ_ｊｋ，Ｂ_ｊｋ}を計算し、記録部２２０に記録する変更をするだけでよい。

また認識モードでの機能構成例を図１０に示す。認識モードの場合は、音声認識部２３０内の音響スコア計算部２３１で、音声特徴量抽出部９００で特徴量に変換された音声データ（未知データ）の時系列に対しての音響スコアを、記録部２２０に記録された音響モデルと汎用共通項Λ≡{Ｈ_ｉｊ，Ａ_ｊｋ，Ｃ_ｊｋ，Ｇ_ｊｋ，Ｂ_ｊｋ}を用いて式（１１）にしたがって計算する。このように、フレームごとに共通の項を記録部２２０に記録しておき、計算に必要なときに読み出すことにより計算量を大幅に削減することができる。図１１に認識モードでの処理フローを示す。
［変形例３］
第２実施形態と変形例１との関係と同じように、変形例２も音声認識時の音響スコア計算に用いる共通項を認識モード中で求めるように変更することができる。図１２は、認識モード中で音声認識時の音響スコア計算に用いる共通項を求める場合の機能構成例を示している。この場合は、共通項計算手段２３２は、式（２８）にしたがって汎用共通項Λを計算する。図１３には、この場合の認識モードでの処理フローを示す。
［第３実施形態］
第１実施形態において汎用共通項Λを式（１９）で定義したが、共通項を単純に変更することは容易である。たとえば、

を以下のようにフレームｔに依存する成分と依存しない成分とに、

のように簡略化させ、共通項を

と定義することも可能である。しかし、共通項ａ_ｉｊ、Ｘ_ｊｋ、Ｙ_ｊｋ，ｄと式（１９）で定義した汎用共通項とを比較してみると、

であり、汎用共通項Λ≡{Ｈ_ｉｊ，Ａ_ｊｋ，Ｃ_ｊｋ，Ｇ_ｊｋ，Ｂ_ｊｋ}の一部を単純に変形しただけである。したがって、本質的には第１実施形態と同じである。ここで、単純な変形とは、たとえば足して２で割る（（Ａ＋Ｂ）／２）を２で割った後足す（（Ａ／２）＋（Ｂ／２））などの演算の順番を変更しただけ、たとえば行列式の計算結果と行列式の表現などの数学的な表現を変更しただけ、たとえば対数計算と指数計算を組み合わせる（Ｈをｅｘｐ（ｌｏｇＨ）と置き換える）などの逆の演算を付け足しただけの変形などを言う。
［第４実施形態］
第２実施形態のStudent-t分布型の分布関数を用いて、次式のように表すことができる。

式（３３）に対しても、

と共通項を定義すれば、

と簡略化することができる。ここで、式（３４）と式（２５）とを比較してみると、

であり、汎用共通項Λ≡{Ｈ_ｉｊ，Ａ_ｊｋ，Ｃ_ｊｋ，Ｇ_ｊｋ，Ｂ_ｊｋ}の一部を単純に変形しただけである。したがって、本質的には第２実施形態と同じである。
［変形例］
第２実施形態の変形例のガウス分布を用いて近似的に求める場合も、

を、共通項

によって、

と簡略化することも可能である。ここで、式（３８）と式（２８）とを比較すると、

であり、汎用共通項Λ≡{Ｈ_ｉｊ，Ａ_ｊｋ，Ｃ_ｊｋ，Ｇ_ｊｋ，Ｂ_ｊｋ}の一部を単純に変形しただけである。したがって、本質的には第２実施形態の変形例と同じである。

音声認識装置の概略を示す図。変分ベイズ学習を用いたBaum-Welchアルゴリズムの従来の計算法での音声認識用音響モデル作成装置の機能構成例を示す図。変分ベイズ学習を用いたBaum-Welchアルゴリズムの従来の計算法での音声認識用音響モデル作成装置の第２の機能構成例を示す図。第１実施形態の変分ベイズ版のBaum-Welchアルゴリズムを用いた音響モデル学習部を備えた音響モデル学習装置の機能構成例を示す図。第１実施形態の変分ベイズ版のBaum-Welchアルゴリズムを用いた音響モデル学習部を備えた音響モデル学習方法の処理フローを示す図。第１実施形態の変形例の機能構成を示す図。第１実施形態の変形例の処理フローを示す図。第２実施形態の学習モードでの機能構成例を示す図。第２実施形態の学習モードでの処理フローを示す図。第２実施形態の認識モードでの機能構成例を示す図。第２実施形態の認識モードでの処理フローを示す図。第２実施形態の変形例の認識モードでの機能構成例を示す図。第２実施形態の変形例の認識モードでの処理フローを示す図。

Claims

各状態の出力確率分布を混合ガウス分布でモデル化した隠れマルコフモデルでモデル化された音響モデルのパラメータを変分ベイズ学習によって推定する音響モデル学習装置であって、
時刻ｔ時に隠れマルコフモデルの状態系列が状態ｉから状態ｊに移るときの事後遷移確率値をγ^ｔ _ｉｊ、
時刻ｔ時の隠れマルコフモデルの状態ｊにおいて混合ガウス分布の成分ｋが存在する事後占有確率値をζ^ｔ _ｊｋとし、
音声学習データをフレームごとに音声特徴量に変換する音声特徴量抽出部と、
音響モデルパラメータを推定する繰り返し処理で、フレームごとの計算に共通する項（以下、「共通項」という。）をあらかじめ計算しておき、前記繰り返し処理の計算に前記共通項を使用する音響モデル学習部と、
を備え、
前記音響モデル学習部は、
事後遷移確率値と事後占有確率値の初期値を設定する初期値設定手段と、
時刻ｔのフレームの前記音声特徴量であるｘ_ｔおよび事後遷移確率値と事後占有確率値を用いて統計量の更新値を

を用いて計算し（ただし´は行列やベクトルの転置を表す）、更新済みの統計量より事後確率分布のハイパーパラメータである{φ_ｉｊ、ρ_ｊｋ、ξ_ｊｋ、ν_ｊｋ、η_ｊｋ、Ｒ_ｊ
_ｋ}の更新値を

を用いて計算する（ただし、右上に^０がつくパラメータは、更新前のハイパーパラメータ）更新手段と、
Ψをディガンマ関数とした場合に、

の少なくとも１つを隠れマルコフモデルの各状態に応じた項であるＦＢアルゴリズムを用いたフレームごとの計算で用いる共通項として計算をする共通項計算手段と
事後確率分布のハイパーパラメータの更新値が収束しているかを判断し、収束している場合には事後確率分布のハイパーパラメータを音響モデルパラメータの推定結果とする評価手段と、
事後確率分布のハイパーパラメータの更新値と前記共通項を用いてＦＢアルゴリズムを用いたフレームごとの計算を行い、事後遷移確率値と事後占有確率値を出力するＦＢ計算手段と、
前記事後確率分布のハイパーパラメータの更新値と前記共通項とを記録するパラメータ記録手段と、
を有し、
前記繰り返し処理とは、ＦＢ計算手段、更新手段、評価手段での処理を繰り返すことであることを特徴とする
音響モデル学習装置
各状態の出力確率分布を混合ガウス分布でモデル化した隠れマルコフモデルでモデル化された音響モデルのパラメータを変分ベイズ学習によって推定する音響モデル学習装置であって、
時刻ｔ時に隠れマルコフモデルの状態系列が状態ｉから状態ｊに移るときの事後遷移確率値をγ^ｔ _ｉｊ、
時刻ｔ時の隠れマルコフモデルの状態ｊにおいて混合ガウス分布の成分ｋが存在する事後占有確率値をζ^ｔ _ｊｋとし、
音声学習データをフレームごとに音声特徴量に変換する音声特徴量抽出部と、
音響モデルパラメータを推定する繰り返し処理で、フレームごとの計算に共通する項（以下、「共通項」という。）をあらかじめ計算しておき、前記繰り返し処理の計算に前記共通項を使用する音響モデル学習部と、
を備え、
前記音響モデル学習部は、
事後確率分布のハイパーパラメータである{φ_ｉｊ、ρ_ｊｋ、ξ_ｊｋ、ν_ｊｋ、η_ｊｋ
、Ｒ_ｊｋ}の初期値を設定する初期値設定手段と、
Ψをディガンマ関数とした場合に、

の少なくとも１つを隠れマルコフモデルの各状態に応じた項であるＦＢアルゴリズムを用いたフレームごとの計算で用いる共通項として計算をする（ただし´は行列やベクトルの転置を表す）共通項計算手段と
事後確率分布のハイパーパラメータの更新値と前記共通項を用いてＦＢアルゴリズムを用いたフレームごとの計算を行い、事後遷移確率値と事後占有確率値を出力するＦＢ計算手段と、
時刻ｔのフレームの前記音声特徴量であるｘ_ｔおよび事後遷移確率値と事後占有確率値を用いて統計量の更新値を

を用いて計算し（ただし´は行列やベクトルの転置を表す）、更新済みの統計量より事後確率分布のハイパーパラメータである{φ_ｉｊ、ρ_ｊｋ、ξ_ｊｋ、ν_ｊｋ、η_ｊｋ、Ｒ_ｊ
_ｋ}の更新値を

を用いて計算する（ただし、右上に^０がつくパラメータは、更新前のハイパーパラメータ）更新手段と、
事後確率分布のハイパーパラメータの更新値が収束しているかを判断し、収束している場合には事後確率分布のハイパーパラメータを音響モデルパラメータの推定結果とする評価手段と、
前記事後確率分布のハイパーパラメータの更新値と前記共通項とを記録するパラメータ記録手段と、
を有し、
前記繰り返し処理とは、ＦＢ計算手段、更新手段、評価手段での処理を繰り返すことであることを特徴とする
音響モデル学習装置
請求項１又は２記載の音響モデル学習装置であって、
前記共通項のかわりに、
Ｎを∞、前記事後確率分布のハイパーパラメータを{φ_ｉｊ、ρ_ｊｋ、ξ_ｊｋ、ν_ｊｋ
、η_ｊｋ、Ｒ_ｊｋ}、前記音声特徴量がＤ次元時系列特徴量ベクトル、Γをガンマ関数と
した場合に、

で定まるＨ_ｉｊ、Ａ_ｊｋ、Ｃ_ｊｋ、Ｇ_ｊｋ、Ｂ_ｊｋの少なくとも１つを共通項とする前記音響モデル学習部
を備える音響モデル学習装置。
請求項１又は２記載の音響モデル学習装置であって、
前記共通項のかわりに、
Ｎを１、前記事後確率分布のハイパーパラメータを{φ_ｉｊ、ρ_ｊｋ、ξ_ｊｋ、ν_ｊｋ
、η_ｊｋ、Ｒ_ｊｋ}、前記音声特徴量がＤ次元時系列特徴量ベクトルとした場合に、

で定まるＨ_ｉｊ、Ａ_ｊｋ、Ｃ_ｊｋ、Ｇ_ｊｋ、Ｂ_ｊｋの少なくとも１つを共通項とする前記音響モデル学習部
を備える音響モデル学習装置。
各状態の出力確率分布を混合ガウス分布でモデル化した隠れマルコフモデルでモデル化された変分ベイズ学習によって作成した音響モデルのパラメータを用いる音声認識装置であって、
時刻ｔ時に隠れマルコフモデルの状態系列が状態ｉから状態ｊに移るときの事後遷移確率値をγ^ｔ _ｉｊ、
時刻ｔ時の隠れマルコフモデルの状態ｊにおいて混合ガウス分布の成分ｋが存在する事後占有確率値をζ^ｔ _ｊｋとし、
音声学習データをフレームごとに学習データの音声特徴量に、音声認識対象となる未知の音声データをフレームごとに未知データの音声特徴量に、それぞれ変換する音声特徴量抽出部と、
音響モデルパラメータを推定する繰り返し処理で、フレームごとの計算に共通する項（以下、「共通項」という。）をあらかじめ計算しておき、前記繰り返し処理の計算に前記共通項を使用する音響モデル学習部と、
前記音響モデル学習部の結果を用いて音声認識を行う音声認識部と、
を備え、
前記音響モデル学習部は、
事後遷移確率値と事後占有確率値の初期値を設定する初期値設定手段と、
時刻ｔのフレームの前記学習データの音声特徴量であるｘ_ｔおよび事後遷移確率値と事後占有確率値を用いて統計量の更新値を

を用いて計算し（ただし´は行列やベクトルの転置を表す）、更新済みの統計量より事後確率分布のハイパーパラメータである{φ_ｉｊ、ρ_ｊｋ、ξ_ｊｋ、ν_ｊｋ、η_ｊｋ、Ｒ_ｊ
_ｋ}の更新値を

を用いて計算する（ただし、右上に^０がつくパラメータは、更新前のハイパーパラメータ）更新手段と、
Ψをディガンマ関数とした場合に、

の少なくとも１つを隠れマルコフモデルの各状態に応じた項であるＦＢアルゴリズムを用いたフレームごとの計算で用いる共通項として計算をする共通項計算手段と
事後確率分布のハイパーパラメータの更新値が収束しているかを判断し、収束している場合には事後確率分布のハイパーパラメータを音響モデルパラメータの推定結果とする評価手段と、
事後確率分布のハイパーパラメータの更新値と前記共通項を用いてＦＢアルゴリズムを用いたフレームごとの計算を行い、事後遷移確率値と事後占有確率値を出力するＦＢ計算手段と、
前記事後確率分布のハイパーパラメータの更新値と前記共通項とを記録するパラメータ記録手段と、
前記収束した事後確率分布のハイパーパラメータを用いて、音声認識用の共通項を計算するパラメータ計算手段と、
を有し、
前記繰り返し処理とは、ＦＢ計算手段、更新手段、評価手段での処理を繰り返すことであり、
前記音声認識部は、
前記未知データの音声特徴量と、前記音声認識用の共通項とを用いて音響スコアを計算する音響スコア計算手段
を備えることを特徴とする音声認識装置。
各状態の出力確率分布を混合ガウス分布でモデル化した隠れマルコフモデルでモデル化された変分ベイズ学習によって作成した音響モデルのパラメータを用いる音声認識装置であって、
時刻ｔ時に隠れマルコフモデルの状態系列が状態ｉから状態ｊに移るときの事後遷移確率値をγ^ｔ _ｉｊ、
時刻ｔ時の隠れマルコフモデルの状態ｊにおいて混合ガウス分布の成分ｋが存在する事後占有確率値をζ^ｔ _ｊｋとし、
音声学習データをフレームごとに学習データの音声特徴量に、音声認識対象となる未知の音声データをフレームごとに未知データの音声特徴量に、それぞれ変換する音声特徴量抽出部と、
音響モデルパラメータを推定する繰り返し処理で、フレームごとの計算に共通する項（以下、「共通項」という。）をあらかじめ計算しておき、前記繰り返し処理の計算に前記共通項を使用する音響モデル学習部と、
前記音響モデル学習部の結果を用いて音声認識を行う音声認識部と、
を備え、
前記音響モデル学習部は、
事後確率分布のハイパーパラメータである{φ_ｉｊ、ρ_ｊｋ、ξ_ｊｋ、ν_ｊｋ、η_ｊｋ
、Ｒ_ｊｋ}の初期値を設定する初期値設定手段と、
Ψをディガンマ関数とした場合に、

の少なくとも１つを隠れマルコフモデルの各状態に応じた項であるＦＢアルゴリズムを用いたフレームごとの計算で用いる共通項として計算をする（ただし´は行列やベクトルの転置を表す）共通項計算手段と
事後確率分布のハイパーパラメータの更新値と前記共通項を用いてＦＢアルゴリズムを用いたフレームごとの計算を行い、事後遷移確率値と事後占有確率値を出力するＦＢ計算手段と、
時刻ｔのフレームの前記学習データの音声特徴量であるｘ_ｔおよび事後遷移確率値と事後占有確率値を用いて統計量の更新値を

を用いて計算し（ただし´は行列やベクトルの転置を表す）、更新済みの統計量より事後確率分布のハイパーパラメータである{φ_ｉｊ、ρ_ｊｋ、ξ_ｊｋ、ν_ｊｋ、η_ｊｋ、Ｒ_ｊ
_ｋ}の更新値を

を用いて計算する（ただし、右上に^０がつくパラメータは、更新前のハイパーパラメータ）更新手段と、
事後確率分布のハイパーパラメータの更新値が収束しているかを判断し、収束している場合には事後確率分布のハイパーパラメータを音響モデルパラメータの推定結果とする評価手段と、
前記事後確率分布のハイパーパラメータの更新値と前記共通項とを記録するパラメータ記録手段と、
前記収束した事後確率分布のハイパーパラメータを用いて、音声認識用の共通項を計算するパラメータ計算手段と、
を有し、
前記繰り返し処理とは、ＦＢ計算手段、更新手段、評価手段での処理を繰り返すことであり、
前記音声認識部は、
前記未知データの音声特徴量と、前記音声認識用の共通項とを用いて音響スコアを計算する音響スコア計算手段
を備えることを特徴とする音声認識装置。
請求項５又は６記載の音声認識装置であって、
前記パラメータ計算手段は、
前記収束した事後確率分布のハイパーパラメータを{φ_ｉｊ、ρ_ｊｋ、ξ_ｊｋ、ν_ｊｋ、
η_ｊｋ、Ｒ_ｊｋ}とした場合に、

で定まるＨ_ｉｊ、Ａ_ｊｋ、Ｃ_ｊｋ、Ｇ_ｊｋ、Ｂ_ｊｋの少なくとも１つを
前記音声認識用の共通項とする
ことを特徴とする音声認識装置。
請求項５又は６記載の音声認識装置であって、
前記パラメータ計算手段は、
前記収束した事後確率分布のハイパーパラメータを{φ_ｉｊ、ρ_ｊｋ、ξ_ｊｋ、ν_ｊｋ、
η_ｊｋ、Ｒ_ｊｋ}とした場合に、

で定まるＨ_ｉｊ、Ａ_ｊｋ、Ｃ_ｊｋ、Ｇ_ｊｋ、Ｂ_ｊｋの少なくとも１つを
前記音声認識用の共通項とする
ことを特徴とする音声認識装置。