JP5738216B2

JP5738216B2 - 特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム

Info

Publication number: JP5738216B2
Application number: JP2012039818A
Authority: JP
Inventors: マークデルクロア; 小川　厚徳; 厚徳小川; 中谷　智広; 智広中谷; 中村　篤; 篤中村
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-02-27
Filing date: 2012-02-27
Publication date: 2015-06-17
Anticipated expiration: 2032-02-27
Also published as: JP2013174768A

Description

本発明は、入力データから特徴量を抽出し、その特徴量を用いて入力データを予め定義されたクラスタに分類するパターン認識において、クラスタ分類精度を向上させるための特徴量補正パラメータ推定技術に関する。例えば、音声認識の対象となる入力音声データ（以下「認識用音声データ」ともいう）から特徴量を抽出し、その特徴量を用いて認識用音声データを単語列に変換する音声認識における特徴量補正パラメータ推定装置及び特徴量補正パラメータ推定方法、並びに、特徴量補正パラメータにより補正した、認識用音声データの特徴量を用いて音声認識を行う音声認識システム及び音声認識方法、並びに、それらのプログラムに関する。

以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」、「⁻」等は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。

図１に従来の音声認識装置９の機能構成例、図２にその処理フロー例を示す。音声認識装置９は、特徴量抽出部９１、単語列探索部９２、記録部９４等から構成される。

そして、予め音響モデル及び言語モデルを記録部９４に記録している。音響モデルは、音声の音響的特徴をモデル化したものであり、音響モデルを参照することにより認識用音声データを音素や単語といったシンボルに変換する。通常、音声認識用音響モデルでは、各音素をLeft to rightのＨＭＭ（Hidden Markov Model：隠れマルコフモデル）で、ＨＭＭ状態の出力確率分布をＧＭＭ（Gaussian Mixture Model：混合ガウス分布モデル）で表現する。そのため、実際に音響モデルとして記録部９４に記録されているのは、音素などの各シンボルにおけるＨＭＭの状態遷移確率、ＧＭＭの混合重み因子、及びガウス分布の平均ベクトルμ⁻ _ｍ及び共分散行列Σ⁻ _ｍ等となる。ただし、ｍは、ＧＭＭのガウス分布のインデックスである。これらを音響モデルパラメータと呼び、その集合をΛとする。言語モデルは音素や単語といった多数のシンボル系列から構成されており、図中のＰ（Ｓ⁻ _ｊ）は言語モデルによって得られる対立候補シンボル系列Ｓ⁻ _ｊの確率（以下「言語確率」ともいう）である。なお、対立候補シンボル系列Ｓ⁻ _ｊとは音声認識結果となりうるシンボル系列であり、シンボル系列とは音素や単語等からなるシンボルの系列である。

単語列探索部９２は音響モデルと言語モデルを読み込む（ｓ９１、ｓ９２）。特徴量抽出部９１が認識用音声データを読み込み（ｓ９３）、音声の特徴量を抽出する（ｓ９４）。特徴量としては、例えば、ＭＦＣＣ（Mel Frequency Cepstral Coefficient：メル周波数ケプストラム係数）、ΔＭＦＣＣ、ΔΔＭＦＣＣ、対数パワー、Δ対数パワー等があり、これらが１０〜１００次元程度の特徴量ベクトルｏ⁻を構成する。さらに、時系列の特徴量ベクトルである特徴量ベクトル系列Ｏ⁻を以下のように表現できる。

ただし、Ｎはフレームの数、ｎは１からＮの整数である。つまり、Ｏ⁻は１からＮフレーム目までのＤ次元特徴量ベクトルで表現されるデータである。分析フレーム幅は３０ｍｓ程度、分析フレームシフト幅は１０ｍｓ程度で分析が実行される。

単語列探索部９２は、例えば、まず、音響モデルに基づき、特徴量ベクトル系列Ｏ⁻に対するＪ個の対立候補シンボル系列Ｓ⁻ _ｊを生成して、対立候補シンボル系列Ｓ⁻ _ｊ毎に音響スコアを算出する。ただし、ｊ＝１，２，…，Ｊであり、Ｊは１以上の整数である。次に、言語モデルに基づき、対立候補シンボル系列Ｓ⁻ _ｊ毎に言語スコアを算出する。さらに、音響スコアと言語スコアとを統合して、Ｊ個の対立候補シンボル系列Ｓ⁻ _ｊの中から、認識用音声データに対応する文として最も確からしい（最も音響スコアと言語スコアとを統合したスコアが高い）対立候補シンボル系列を探索し（ｓ９５）、その対立候補シンボル系列を認識結果（単語列）Ｓ＾として出力する（ｓ９６）。

音声認識装置９が実際に置かれる環境は様々である。そのため、音響モデルを学習するための音声データ（以下、「学習用音声データ」ともいう）の特徴と実際に入力される音声データ（つまり、認識用音声データ）の特徴とが、一致しないことが多い。不一致の原因は、周囲の雑音環境、話者の多様性等であり、これらが音声認識精度を劣化させる。このため、これら周囲雑音環境や話者の多様性に対して頑健（ロバスト）な音声認識技術が求められている。

ロバスト音声認識技術の代表例として、特徴量補正技術を上げることができる。図３に特徴量補正部８１を搭載した音声認識装置８の機能構成例、図４にその処理フロー例を示す。

予め特徴量補正パラメータ｛Ａ⁻ _ｋ，ｍ⁻ _ｋ｝を記録部８４に記録している。特徴量補正部８１は特徴量補正パラメータ｛Ａ⁻ _ｋ，ｍ⁻ _ｋ｝を読み込む（ｓ８１）。特徴量抽出部９１で抽出した特徴量ベクトル系列Ｏ⁻を、単語列探索部９２に送る前に、特徴量補正部８１において、予め求めておいた特徴量補正パラメータ｛Ａ⁻ _ｋ，ｍ⁻ _ｋ｝を用いて補正する（ｓ８２）。その他の処理フローは、特徴量補正部８１を搭載していない通常の音声認識装置９と同じである。この特徴量ベクトル系列Ｏ⁻の補正は、最終的な音声認識精度を向上させることを目的として行われる。すなわち特徴量補正技術のポイントは、最終的な音声認識精度を向上させるための特徴量補正パラメータ｛Ａ⁻ _ｋ，ｍ⁻ _ｋ｝をいかに推定するか、という点にある。

近年提案された特徴量補正技術の代表例として、ＭＭＩ−ＳＰＬＩＣＥ（Stereo Piecewise Linear Compensation for Environment）が挙げられる（非特許文献１参照）。ＭＭＩ−ＳＰＬＩＣＥでは、特徴量補正パラメータ推定が識別的基準の一種である最大相互情報量（Maximum Mutual Information: MMI）基準で行われる。

識別的基準で行われるパラメータ推定（以下「識別学習」ともいう）は、元々、従来は最尤基準により行われていた音響モデルパラメータ推定を改良するために開発され、その後、特徴量補正パラメータの推定にも用いられるようになってきた。音響モデルパラメータの識別学習については、例えば、特許文献１及び非特許文献２に詳述されている。最尤基準で行われるパラメータ推定（以下「最尤学習」ともいう）は、学習データに対する尤度を最大化するように行われる。これに対し、識別学習では、正しい単語列（正解）が他の単語列（不正解）よりも認識されやすくなるように（言い換えると、識別性能を最大化するように）パラメータ推定が行われる。このため、一般には、最尤学習により推定された音響モデルパラメータや特徴量補正パラメータを用いるよりも、識別学習により推定された音響モデルパラメータや特徴量補正パラメータを用いる方が、最終的な音声認識精度が向上することが多い。

以下、ＭＭＩ−ＳＰＬＩＣＥについて説明する（非特許文献１参照）。ＭＭＩ−ＳＰＬＩＣＥでは、特徴量空間は、ＧＭＭで区分化される。すなわち、あるひとつの区分化された特徴量空間は、ＧＭＭ中のあるひとつのガウス分布に確率的に対応する。また、ひとつの特徴量補正パラメータ群が、ひとつの区分化された特徴量空間（ガウス分布）に帰属する。区分化された特徴量空間の数をＫとする。そして、補正前の特徴量が各区分化された特徴量空間に帰属する事後確率を重みとして、各区分化された特徴量空間に帰属する特徴量補正パラメータ群を足し合わせることで、特徴量補正が実行される。以下、この特徴量補正処理を数式にて記述する。フレーム時刻ｔにおける補正前の特徴量ベクトルをｏ⁻ _ｔ、あるＧＭＭのｋ番目のガウス分布からｏ⁻ _ｔが出力される確率をｐ（ｏ⁻ _ｔ｜ｋ）、その重みをｐ（ｋ）とすると、補正後の特徴量ベクトルｘ⁻ _ｔは、次式で求められる。

ここで、ｐ（ｋ｜ｏ⁻ _ｔ）は、ＧＭＭのｋ番目のガウス分布の事後確率であり、次式で求められる。

ただし、ｋ’は、ＧＭＭのガウス分布のインデックスである。また、Ａ⁻ _ｋ、ｍ⁻ _ｋは、それぞれｋ番目のガウス分布に帰属する変換行列及びバイアスベクトルであり、これらがｋ番目のガウス分布に帰属する特徴量補正パラメータ群θ⁻ _ｋ＝｛Ａ⁻ _ｋ，ｍ⁻ _ｋ｝を構成する。そして、上述したように、これらの特徴量補正パラメータＡ⁻ _ｋ、ｍ⁻ _ｋをいかに推定するかが、特徴量補正技術のポイントとなる。ＭＭＩ−ＳＰＬＩＣＥでは、学習用音声データを用いて、これらの特徴量補正パラメータＡ⁻ _ｋ、ｍ⁻ _ｋの推定が、ＭＭＩ基準で行われる。ここで、ＭＭＩ目的関数は次式のように書ける。

ここで、Ｘ⁻ _ｒは学習用音声データ中の補正後の特徴量ベクトル系列、Ｓ⁻ _ｒは補正後の特徴量ベクトル系列Ｘ⁻ _ｒに対する正しいシンボル系列（以下「正解シンボル系列」という）、Ｓ⁻ _ｊは補正後の特徴量ベクトル系列Ｘ⁻ _ｒを音声認識することによって得られる対立候補シンボル系列、Ｐ（Ｓ⁻ _ｒ）及びＰ（Ｓ⁻ _ｊ）は言語モデルによってそれぞれ得られる正解シンボル系列Ｓ⁻ _ｒ及び対立候補シンボル系列Ｓ⁻ _ｊの言語確率、ｐ_Λ（Ｘ⁻ _ｒ｜Ｓ⁻ _ｒ）及びｐ_Λ（Ｘ⁻ _ｒ｜Ｓ⁻ _ｊ）はそれぞれ正解シンボル系列Ｓ⁻ _ｒ及び対立候補シンボル系列Ｓ⁻ _ｊにおいて音響モデル（ＨＭＭ）によって得られる音響スコア、ψは音響スコアに対するスケーリングパラメータ、ηは言語確率に対するスケーリングパラメータを表す。なお、通常、学習用音声データに対しては、その何れの部分が何れの音素であるかを示す正解シンボル系列が与えられている。正解シンボル系列が与えられていない場合は、人が聞いてラベルを振ったり、また音声認識装置を用いたりすることにより正解シンボル系列を付与する。以降では、学習用音声データには正解シンボル系列が上記のような方法で付与されているものとする。

また、音響スコアｐ_Λ（Ｘ⁻ _ｒ｜Ｓ⁻ _ｊ）は以下の式で書くことができる。

ここで、学習用音声データの補正後の特徴量ベクトル系列Ｘ⁻ _ｒは以下のように表現される。

ただし、Ｔは学習用音声データの特徴量ベクトル系列の長さ、ｔはフレーム番号またはそのフレームに対応する時刻（以下「フレーム時刻」という）を表し、１からＴの整数である。つまり、補正後の特徴量ベクトル系列Ｘ⁻ _ｒは１からＴフレーム目までのＤ次元特徴量ベクトルで表現されるデータである。また、｛ｎ_１：Ｔ｝は対立候補シンボル系列Ｓ⁻ _ｊに対応するＨＭＭ状態シーケンス（フレーム時刻１からＴまで）であり、Σ_{｛ｎ１：Ｔ｝}（ただし、下付添字｛ｎ１：Ｔ｝は｛ｎ_１：Ｔ｝を表す）は対立候補シンボル系列Ｓ⁻ _ｊに対応する可能なあらゆるＨＭＭ状態シーケンスの足し算、ｐ（ｘ⁻ _ｔ｜ｎ_ｔ）はフレーム時刻ｔにおけるＨＭＭ状態ｎ_ｔから特徴量ベクトルｘ⁻ _ｔが出力される確率（なお、ＨＭＭ状態は一般にＧＭＭで表現される）、ｐ（ｎ_ｔ｜ｎ_ｔ−１）はフレーム時刻ｔ−１におけるあるＨＭＭ状態ｎ_ｔ−１からフレーム時刻ｔにおけるあるＨＭＭ状態ｎ_ｔへの遷移確率である。

特徴量補正パラメータ群の集合θ⁻は、次式のように、上記のＭＭＩ目的関数を最大化するように推定される（パラメータ推定の詳細な数式は非特許文献１参照）。ただし、θ⁻＝（θ⁻ _１，θ⁻ _２，…，θ⁻ _Ｋ）であり、θ⁻ _ｋ＝（Ａ⁻ _ｋ，ｍ⁻ _ｋ）であり、ｋ＝１，２，…，Ｋであり、推定された特徴量補正パラメータ群の集合をθ＾と表現する。

このＭＭＩ−ＳＰＬＩＣＥにおける特徴量補正パラメータ推定装置７の機能構成例及び処理フローも、一般の特徴量補正パラメータ推定装置の機能構成例及び処理フローと同様に図５及び図６で示される。

特徴量補正パラメータ推定装置７は、特徴量抽出部７１、特徴量補正パラメータ計算部７２及び記憶部７３を備える。

特徴量補正パラメータ計算部７２は、記憶部７３から音響モデル及び言語モデルを読み込む（ｓ７１、ｓ７２）。さらに、学習用音声データに対する正解シンボル系列Ｓ⁻ _ｒを読み込む（ｓ７４）。

特徴量抽出部７１は、学習用音声データを読み込み（ｓ７３）、特徴量を抽出し（ｓ７５）、特徴量ベクトル系列Ｘ⁻ _ｒを特徴量補正パラメータ計算部７２に出力する。

特徴量補正パラメータ計算部７２は、特徴量ベクトル系列Ｘ⁻ _ｒを受け取り、式（５）により、特徴量補正パラメータ群の集合θ⁻を推定し（ｓ７６）、出力する（ｓ７７）。以上のようにして識別的基準（ＭＭＩ−ＳＰＬＩＣＥの場合はＭＭＩ基準）で推定される特徴量補正パラメータ群の集合θ⁻は、一般的に、最尤基準で推定されるものよりも高い認識精度を与える。

特開２００６−２０１５５３号公報

Droppo, J. and Acero, A., "Maximum mutual information SPLICE transform for seen and unseen conditions", In Proc. Interspeech'05, 2005, pp. 989-992 E. McDermott, T.J. Hazen, J.L. Roux, A. Nakamura and S. Katagiri, "Discriminative Training for Large-Vocabulary Speech Recognition Using Minimum Classification Error", IEEE Trans. ASLP, 2007, vol. 15, no. 1, p.203 - 223

特徴量補正パラメータ群の集合θ⁻を推定するための学習用音声データの特徴と認識用音声データの特徴の不一致が特に大きいときは、識別学習によるパラメータ推定が不安定になる場合がある。この場合には、識別学習により推定した特徴量補正パラメータを用いた音声認識の認識精度が、必ずしも最尤学習により推定した特徴量補正パラメータを用いた音声認識の認識精度よりも高いとは限らない。

本発明は、学習用音声データの特徴と認識用音声データの特徴の不一致の度合いを考慮して、安定して、識別学習により特徴量補正パラメータを推定する特徴量補正パラメータ推定装置及び方法を提供することを目的とする。

上記の課題を解決するために、本発明の第一の態様によれば、特徴量補正パラメータ推定装置は、学習用音声データの特徴量及び学習用音声データに対する正解シンボル系列から、認識用音声データの特徴量を補正するための特徴量補正パラメータを求める。特徴量補正パラメータ推定装置は、予め求められた音響モデル及び言語モデルが記憶される記憶部と、特徴量補正パラメータを用いて、学習用音声データの特徴量を補正する特徴量補正部と、予め定めた粒度で、補正後の特徴量を音声認識することによって得られる対立候補シンボル系列ごとに、正解シンボル系列との相違度を求めるエラーカウント計算部と、言語モデルによって得られる対立候補シンボル系列の言語確率、補正後の特徴量と対立候補シンボル系列に基づき音響モデルによって得られる音響スコア、学習用音声データの特徴と認識用音声データの特徴との不一致の度合いに応じて調整される第一マージンパラメータ、第二マージンパラメータ及び相違度に基づき、特徴量補正パラメータでｄＭＭＩ識別学習基準の目的関数を微分したときの微分値を求める補正パラメータ微分値計算部と、微分値に応じて特徴量補正パラメータを変更することで、特徴量補正パラメータを更新する補正パラメータ更新部と、を含む。特徴量補正パラメータ推定装置は、特徴量補正パラメータの更新が予め定めた条件を満たす場合には、更新後の特徴量補正パラメータを求める特徴量補正パラメータとし、当該条件を満たさない場合には、特徴量補正部、エラーカウント計算部、補正パラメータ微分値計算部及び補正パラメータ更新部の処理を繰り返す。

上記の課題を解決するために、本発明の第二の態様によれば、特徴量補正パラメータ推定方法は、学習用音声データの特徴量及び学習用音声データに対する正解シンボル系列から、認識用音声データの特徴量を補正するための特徴量補正パラメータを求める。特徴量補正パラメータ推定方法は、記憶部には予め求められた音響モデル及び言語モデルが記憶され、特徴量補正パラメータを用いて、学習用音声データの特徴量を補正する特徴量補正ステップと、予め定めた粒度で、補正後の特徴量を音声認識することによって得られる対立候補シンボル系列ごとに、正解シンボル系列との相違度を求めるエラーカウント計算ステップと、言語モデルによって得られる対立候補シンボル系列の言語確率、補正後の特徴量と対立候補シンボル系列に基づき音響モデルによって得られる音響スコア、学習用音声データの特徴と認識用音声データの特徴との不一致の度合いに応じて調整される第一マージンパラメータ、第二マージンパラメータ及び相違度に基づき、特徴量補正パラメータでｄＭＭＩ識別学習基準の目的関数を微分したときの微分値を求める補正パラメータ微分値計算ステップと、微分値に応じて特徴量補正パラメータを変更することで、特徴量補正パラメータを更新する補正パラメータ更新ステップと、を含む。特徴量補正パラメータ推定方法は、特徴量補正パラメータの更新が予め定めた条件を満たす場合には、更新後の特徴量補正パラメータを求める特徴量補正パラメータとし、当該条件を満たさない場合には、特徴量補正ステップ、エラーカウント計算ステップ、補正パラメータ微分値計算ステップ及び補正パラメータ更新ステップの処理を繰り返す。

本発明によれば、学習用音声データの特徴と認識用音声データの特徴の不一致の度合いを考慮して、安定して、識別学習により特徴量補正パラメータを推定することができる。

従来の音声認識装置９の機能構成図。従来の音声認識装置９の処理フローを示す図。従来の音声認識装置８の機能構成図。従来の音声認識装置８の処理フローを示す図。従来の特徴量補正パラメータ推定装置７の機能構成図。従来の特徴量補正パラメータ推定装置７の処理フローを示す図。ｄＭＭＩ識別学習基準の目的関数において第一マージンパラメータを調整することにより得られる効果を説明するための図。第一及び第二実施形態に係る特徴量補正パラメータ推定装置１０及び２０の機能構成図。第一及び第二実施形態に係る特徴量補正パラメータ推定装置１０及び２０の処理フローを示す図。第二実施形態の変形例に係る分散補正パラメータ推定装置２０’の機能構成図。第二実施形態の変形例に係る分散補正パラメータ推定装置２０’の処理フローを示す図。ｓｃｏｒｅと第一マージンパラメータの関係を示す図。第三実施形態に係る特徴量補正パラメータ推定装置３０の機能構成図。第三実施形態に係る特徴量補正パラメータ推定装置３０の処理フローを示す図。第四実施形態に係る音声認識システム２００の機能構成図。第四実施形態に係る音声認識システム２００の処理フローを示す図。第五実施形態に係る音声認識システム３００の機能構成図。第五実施形態に係る音声認識システム３００の処理フローを示す図。

以下、本発明の実施形態について説明する。

＜第一実施形態＞
［本実施形態のポイント］
第一実施形態では、安定して、識別学習による特徴量補正パラメータ推定を行うために、特徴量補正パラメータを推定する基準として参考文献１及び参考文献２に記述されているＭＭＩ導関数基準（differenced MMI: ｄＭＭＩ）を導入する。
（参考文献１）McDermott, E., Watanabe, S. and Nakamura, A., “Discriminative training based on an integrated view of MPE and MMI in margin and error space”, In Proc. ICASSP'10, 2010, pp. 4894 - 4897
（参考文献２）特開２０１１−４８２６２号公報

すなわち、ｄＭＭＩ−ＳＰＬＩＣＥを開発した。以下で数式を用いてｄＭＭＩ−ＳＰＬＩＣＥによる特徴量補正パラメータの推定方法について述べる。

まず、以下のΨ関数を定義する。

ここでσはマージンパラメータ、ε_ｊ，ｒは正解シンボル系列Ｓ⁻ _ｒに対する対立候補シンボル系列Ｓ⁻ _ｊの相違度（例えば、単語エラー数、音素エラー数等）を表している。すなわち、マージンパラメータσは相違度ε_ｊ，ｒに応じて特徴量補正パラメータ推定時に対立候補シンボル系列Ｓ⁻ _ｊをどれだけ重視するかをコントロールするパラメータである。マージンパラメータσは、−∞〜＋∞の値を取り得る。マージンパラメータσがマイナスの値を取れば、小さい相違度ε_ｊ，ｒを持つ対立候補シンボル系列Ｓ⁻ _ｊほど、すなわち、エラー数が少ない対立候補シンボル系列Ｓ⁻ _ｊほど重視される。逆に、マージンパラメータσがプラスの値を取れば、大きい相違度ε_ｊ，ｒを持つ対立候補シンボル系列Ｓ⁻ _ｊほど、すなわち、エラー数が多い対立候補シンボル系列Ｓ⁻ _ｊほど重視されることになる。このΨ関数を用いると、ｄＭＭＩ識別学習基準の目的関数Ｆ^ｄＭＭＩ _{Λ，σ１，σ２}（ただし、下付添字σ１，σ２は、σ_１，σ_２を表す）は次式のように書くことができる。

分子の第一マージンパラメータσ_１はマイナスの値を取る。すなわち、分子では相違度ε_ｊ，ｒが小さい対立候補シンボル系列Ｓ⁻ _ｊほど重視される。一方、分母の第二マージンパラメータσ_２はプラスの値を取る。すなわち、分母では相違度ε_ｊ，ｒが大きい対立候補シンボル系列Ｓ⁻ _ｊほど重視される。

このｄＭＭＩ識別学習基準は、σ_１及びσ_２を調整することによって、ＭＰＥ（Minimum Phone Error）識別学習基準（参考文献３参照）またはＢＭＭＩ（boosted-MMI）識別学習基準に近づく。
（参考文献３）Povey, D., Woodland, P.C., “Minimum Phone Error and I-smoothing for improved discriminative training”, In Proc. ICASSP, 2002, vol.1, pp.I-105-I-108

すなわち、ｄＭＭＩ識別学習基準は、ＭＰＥ識別学習基準及びＢＭＭＩ識別学習基準を一般化したものであると言える。ここでσ_２は、例えば、＋０．１という０に近い小さなプラスの値に設定しておけばよい（参考文献４参照）。
（参考文献４）Saon, G. and Povey, D., “Penalty function maximization for large margin HMM training”, In Proc. Interspeech, 2008, pp.920-923

よって以下ではσ_１を変えることによって、ｄＭＭＩ識別学習基準が、ＭＰＥ識別学習基準またはＢＭＭＩ識別学習基準に近づくことを示す。さらに、それが、どのような意味を持つのかを示す。

まず、σ_１を−σ_２、すなわち、０に近い小さなマイナスの値（例えば−０．１）に設定する。このとき次式に示すように、ｄＭＭＩ識別学習基準の目的関数Ｆ^ｄＭＭＩ _{Λ，σ１，σ２}はＭＰＥ識別学習基準の目的関数Ｆ^ＭＰＥ _Λのマイナス値に近づく（式（８）では理論的にσ_１，σ_２→０としているが、実装上はσ_１→−０．１，σ_２→＋０．１程度の小さな値である）。

式（８）から明らかなように、ＭＰＥ識別学習基準の目的関数Ｆ^ＭＰＥ _Λでは、相違度ε_ｊ，ｒがマージンパラメータσを介さずに、直接的に反映されている。すなわち、ＭＰＥ識別学習基準は、より厳格な識別学習基準であると言える。よって、学習用音声データの特徴と認識用音声データの特徴とが近い場合はこのＭＰＥ識別学習基準によって、高精度の特徴量補正パラメータ推定が安定して可能となり、結果的に、高精度の音声認識が可能となる。言い換えれば、学習用音声データの特徴と認識用音声データの特徴とが近い場合には、ｄＭＭＩ識別学習基準の目的関数Ｆ^ｄＭＭＩ _{Λ，σ１，σ２}の第一マージンパラメータσ_１を０に近い小さなマイナスの値に設定して、ＭＰＥ識別学習基準の目的関数Ｆ^ＭＰＥ _Λに近づけるべきである。しかし、逆に、学習用音声データの特徴と認識用音声データの特徴とが大きく異なる場合は、ＭＰＥ識別学習基準による特徴量補正パラメータ推定は不安定となる（参考文献５参照）。
（参考文献５）Woodland, P.C. and Povey, D., “Large scale discriminative training of hidden Markov models for speech recognition”, Computer Speech & Language, 2002, vol. 16, no. 1, pp. 25-47

次に、σ_１を大きなマイナスの値（理論的には−∞、実装上は、例えば、−２０）に設定する。このとき次式に示すように、ｄＭＭＩ識別学習基準の目的関数Ｆ^ｄＭＭＩ _{Λ，σ１，σ２}はＢＭＭＩ識別学習基準の目的関数Ｆ^ＢＭＭＩ _Λ，σ２に近づく。

式（９）から明らかなように、ＢＭＭＩ識別学習基準の目的関数Ｆ^ＢＭＭＩ _Λ，σ２では、分母の第二マージンパラメータσ_２のみが残る。すなわちＢＭＭＩ識別学習基準による特徴量補正パラメータ推定では、エラー数が多い（相違度ε_ｊ，ｒが大きい）対立候補シンボル系列Ｓ⁻ _ｊほど重視される（参考文献６参照）。
（参考文献６）Povey, D., Kanevsky, D., Kingsbury, B., Ramabhadran, B., Saon, G. and Visweswariah, K., “Boosted MMI for model and feature-space discriminative training”, In Proc. ICASSP, 2008, pp.4057-4060

学習用音声データの特徴と認識用音声データの特徴とが大きく異なる場合に音声認識を実行すると、エラー数が多い（相違度ε_ｊ，ｒが大きい）対立候補シンボル系列Ｓ⁻ _ｊを認識結果Ｓ＾として出力する。ＢＭＭＩ識別学習基準は、そのような学習用音声データの特徴と認識用音声データの特徴とが大きく異なる場合を想定した識別学習基準である。そのため、学習用音声データの特徴と認識用音声データの特徴とが大きく異なる場合に、高精度の特徴量補正パラメータ推定が安定して可能となる（第二マージンパラメータσ_２も推定の安定化に寄与する）。結果的に、高精度の音声認識が可能となる。言い換えれば、学習用音声データの特徴と認識用音声データの特徴とが大きく異なる場合には、ｄＭＭＩ識別学習基準の目的関数Ｆ^ｄＭＭＩ _{Λ，σ１，σ２}のσ_１を大きなマイナスの値（例えば−２０）に設定して、ＢＭＭＩ識別学習基準の目的関数Ｆ^ＢＭＭＩ _Λ，σ２に近づけるべきである。

以上のように、ｄＭＭＩ識別学習基準によれば、学習用音声データの特徴と認識用音声データの特徴との異なり具合に応じて第一マージンパラメータσ_１を調整することで、安定かつ高精度に特徴量補正パラメータ推定を実行することができる。図７にｄＭＭＩ識別学習基準の目的関数Ｆ^ｄＭＭＩ _{Λ，σ１，σ２}において第一マージンパラメータσ_１を調整することにより得られる効果を示す。なお、図中、εは０に近い小さなプラスの値を表す。

ここで、特徴量補正パラメータ群の集合θ⁻は、次式のように、上記のｄＭＭＩ識別学習基準の目的関数Ｆ^ｄＭＭＩ _{Λ，σ１，σ２}を最大化するように推定される。

ここでは、バイアスベクトルｍ⁻ _ｋの推定方法について述べる。ｄＭＭＩ識別学習基準の目的関数Ｆ^ｄＭＭＩ _{Λ，σ１，σ２}を最大化するようなバイアスベクトルｍ⁻ _ｋを求めるために、まず目的関数Ｆ^ｄＭＭＩ _{Λ，σ１，σ２}をｍ⁻ _ｋで微分する。すると次式が得られる。

ここで、対立候補シンボル系列が単語（または音素）ラティスの形態で表現される場合、ラティス上で勾配を計算することにより、式（１１）は以下のように表現される。

ここで、ｑ_ｔはフレーム時刻ｔにおけるラティスのアークを、ｎ_ｔはフレーム時刻ｔにおける音響モデル（例えば、ＨＭＭからなる音響モデル）の状態を、ｍは状態ｎ_ｔにおけるガウス分布のインデックスを表す（例えば、ＨＭＭの状態の出力確率分布はＧＭＭで表現されるものとする）。また、γ^ｄＭＭＩ _ｑｔ（ただし、下付添字ｑｔはｑ_ｔを表す）は単語（または音素）ラティスのアークｑ_ｔの事後確率であり、同じラティスについて、第一マージンパラメータσ_１または第二マージンパラメータσ_２を使って、二度、Forward-Backward algorithmを実行して計算される（参考文献１参照）。γ_ｎｔ，ｍ（ｔ）、Σ⁻ _ｎｔ，ｍ及びμ⁻ _ｎｔ，ｍ（ただし、それぞれ下付添字ｎｔはｎ_ｔを表す）は、それぞれ状態ｎ_ｔのガウス分布ｍの事後確率、共分散行列及び平均ベクトルである。これらの値の求め方は、例えば、参考文献２及び参考文献７に詳述されている。
（参考文献７）V. Valtchev, J.J. Odell, P.C. Woodland, and S.J. Young, “Lattice-based discriminative training for large vocabulary speech recognition”, In Proc. ICSLP, 1996, vol. 2, pp.605-609.

上記の式が得られれば、バイアスベクトルｍ⁻ _ｋはＲ−Ｐｒｏｐのような勾配法を用いて容易に推定することが可能である（例えば、参考文献８参照）。
（参考文献８）Riedmiller, M. and Braun, H., “A direct adaptive method for faster backpropagation learning: The RPROP algorithm”, InProc. ICNN’93, 1993. pp. 586-591

変換行列Ａ⁻ _ｋについても同様に推定することができる。このようにしてバイアスベクトルｍ⁻ _ｋ及び変換行列Ａ⁻ _ｋを推定することで、その推定を安定してさせることができる。以下の第一実施形態において、上記特徴量補正パラメータの推定方法を実現するための構成について説明する。

＜特徴量補正パラメータ推定装置１０＞
図８に第一実施形態に係る特徴量補正パラメータ推定装置１０の機能構成例、図９にその処理フローを示す。

特徴量補正パラメータ推定装置１０は、特徴量抽出部１０１、特徴量補正部１０３、エラーカウント計算部１０５、補正パラメータ微分値計算部１０７、補正パラメータ更新部１０９、収束判定部１１１及び記憶部１１３を備える。なお、記憶部１１３には、予め音響モデル及び言語モデルが記録されている。

（特徴量抽出部１０１）
特徴量抽出部１０１は、学習用音声データを読み込み（ｓ１０３）、その特徴量ベクトル系列Ｏ⁻ _ｒを抽出し（ｓ１０５）、特徴量補正部１０３に出力する。

（特徴量補正部１０３）
特徴量補正部１０３は、特徴量補正パラメータ群の集合の初期値θ^−０または更新された特徴量補正パラメータ群の集合θ^−ｉ−１と（ただし、ｉは、繰り返し回数を表すインデックスを示す）、補正前の特徴量ベクトル系列Ｏ⁻ _ｒとを受け取り、式（１）に基づき特徴量ベクトル系列Ｏ⁻ _ｒを補正し（ｓ１０６）、補正後の特徴量ベクトル系列Ｘ⁻ _ｒを求め、エラーカウント計算部１０５に出力する。ただし、θ^−０＝｛θ⁻ ₁ ^０，θ⁻ ₂ ^０，…，θ⁻ _K ^０｝であり、θ⁻ _ｋ ^０＝｛Ａ⁻ _ｋ ^０，ｍ⁻ _ｋ ^０｝である。同様に、θ^−ｉ−１＝｛θ⁻ ₁ ^ｉ−１，θ⁻ ₂ ^ｉ−１，…，θ⁻ _K ^ｉ−１｝であり、θ⁻ _ｋ ^ｉ−１＝｛Ａ⁻ _ｋ ^ｉ−１，ｍ⁻ _ｋ ^ｉ−１｝である。初期値Ａ⁻ _ｋ ^０、ｍ⁻ _ｋ ^０としては、例えば、それぞれ単位行列、ゼロベクトル（全ての要素が０のベクトル）等が考えられる。

（エラーカウント計算部１０５）
エラーカウント計算部１０５は、記憶部１１３から音響モデルと言語モデルとを読み込み（ｓ１０１、ｓ１０２）、正解シンボル系列Ｓ⁻ _ｒを読み込み（ｓ１０４）、補正後の特徴量ベクトル系列Ｘ⁻ _ｒを受け取り、補正後の特徴量ベクトル系列Ｘ⁻ _ｒを音声認識することによって得られるJ個の対立候補シンボル系列Ｓ⁻ _ｊを求める。さらに、予め定めた粒度で、対立候補シンボル系列Ｓ⁻ _ｊ毎に正解シンボル系列Ｓ⁻ _ｒとの相違度ε_ｊ，ｒを求め（ｓ１０７）、補正パラメータ微分値計算部１０７に出力する。特に、予め定めた粒度を音素以下の粒度とすれば、相互情報量最大化の枠組みで粒度の細かい相違度を用いることが可能となる。例えば、予め定めた粒度（音素や単語等）で読み込んだ正解シンボル系列Ｓ⁻ _ｒと求めた対立候補シンボル系列Ｓ⁻ _ｊとの異なる部分をカウントし、カウント値を相違度ε_ｊ，ｒとして求める。

（補正パラメータ微分値計算部１０７）
補正パラメータ微分値計算部１０７は、記憶部１１３から音響モデルと言語モデルを読み込み（ｓ１０１、ｓ１０２）、正解シンボル系列Ｓ⁻ _ｒを読み込み（ｓ１０４）、対立候補シンボル系列Ｓ⁻ _ｊと相違度ε_ｊ，ｒとを受け取り、式（７）で表される目的関数Ｆ^ｄＭＭＩ _{Λ，σ１，σ２}を求める。ただし、第一マージンパラメータσ_１の調整は、学習用音声データの特徴と認識用音声データの特徴との不一致の度合いを考慮して人手により行われるものとする。第二マージンパラメータσ_２は、例えば、＋０．１という０に近い小さなプラスの値とする。

さらに、補正パラメータ微分値計算部１０７は、目的関数Ｆ^ｄＭＭＩ _{Λ，σ１，σ２}をバイアスベクトルｍ⁻ _ｋで微分する（式（１２）参照、ｓ１０８）。また、補正パラメータ微分値計算部１０７は、目的関数Ｆ^ｄＭＭＩ _{Λ，σ１，σ２}を変換行列Ａ⁻ _ｋで微分する（ｓ１０８）。算出した微分値（∂Ｆ^ｄＭＭＩ _{Λ，σ１，σ２}／∂ｍ⁻ _ｋ）及び（∂Ｆ^ｄＭＭＩ _{Λ，σ１，σ２}／∂Ａ⁻ _ｋ）を補正パラメータ更新部１０９に出力する。

（補正パラメータ更新部１０９）
補正パラメータ更新部１０９は、微分値（∂Ｆ^ｄＭＭＩ _{Λ，σ１，σ２}／∂ｍ⁻ _ｋ）及び（∂Ｆ^ｄＭＭＩ _{Λ，σ１，σ２}／∂Ａ⁻ _ｋ）を受け取り、Ｒ−Ｐｒｏｐのような勾配法を用いて、式（７）の目的関数Ｆ^ｄＭＭＩ _{Λ，σ１，σ２}を最大化するように、式（１０）に従い、ｍ⁻ _ｋ及びＡ⁻ _ｋを同時に更新する（ｓ１０９）。あるいは、以下のようにｍ⁻ _ｋ及びＡ⁻ _ｋを個別に求め、ｍ⁻ _ｋ及びＡ⁻ _ｋを個別に（例えば交互に）更新することも可能である。

なお、ｍ＾_ｋ及びＡ＾_ｋは、それぞれ更新後のｍ⁻ _ｋ及びＡ⁻ _ｋを表す。更新後の特徴量補正パラメータ群の集合θ＾を収束判定部１１１に出力する。

（収束判定部１１１）
収束判定部１１１は、特徴量補正パラメータ群の集合θ＾を受け取り、特徴量補正パラメータの推定が収束したか否かを判定し（ｓ１１０）、収束していると判定した場合には、収束時の特徴量補正パラメータ群の集合θ＾を、特徴量補正パラメータ推定装置１０の出力値として、出力する（ｓ１１１）。収束していないと判定した場合には、特徴量補正パラメータ群の集合θ＾を特徴量補正部１０３に出力し、各部に対し、ｓ１０６〜ｓ１０９を繰り返すように制御信号を出力する。収束判定部１１１は、例えば、（１）一つ前に求めた特徴量補正パラメータと今回求めた特徴量補正パラメータとの差分が閾値以下になった場合や（２）繰り返し回数が所定の回数以上になった場合に、収束していると判定する。

＜効果＞
このような構成により、学習用音声データの特徴と認識用音声データの特徴とが近い場合には、ｄＭＭＩ識別学習基準の目的関数Ｆ^ｄＭＭＩ _{Λ，σ１，σ２}をＭＰＥ識別学習基準の目的関数Ｆ^ＭＰＥ _Λに近づけ、学習用音声データの特徴と認識用音声データの特徴とが大きく異なる場合には、ｄＭＭＩ識別学習基準の目的関数Ｆ^ｄＭＭＩ _{Λ，σ１，σ２}をＢＭＭＩ識別学習基準の目的関数Ｆ^ＢＭＭＩ _Λ，σ２に近づけることで、識別学習により特徴量補正パラメータの推定を高精度かつ安定して行うことができる。

このようにして推定された特徴量補正パラメータ群の集合θ⁻を用いて、例えば音声認識装置８の特徴量補正部８２において、特徴量ベクトル系列Ｏ⁻を補正することで、結果として、より精度の高い音声認識を行うことができる。

＜変形例＞
記憶部１１３に予め式（７）で表される目的関数Ｆ^ｄＭＭＩ _{Λ，σ１，σ２}をバイアスベクトルｍ⁻ _ｋで微分したもの（例えば式（１２）で表される）、及び、変換行列Ａ⁻ _ｋで微分したものを計算式として記憶しておいてもよい。この場合、実際の微分値は以下のようにして求める。補正パラメータ微分値計算部１０７は、計算式を記憶部から読み込み、さらに、記憶部１１３から音響モデルと言語モデルを読み込み（ｓ１０１、ｓ１０２）、正解シンボル系列Ｓ⁻ _ｒを読み込み（ｓ１０４）、対立候補シンボル系列Ｓ⁻ _ｊと相違度ε_ｊ，ｒとを受け取り、計算式に代入し、微分値（∂Ｆ^ｄＭＭＩ _{Λ，σ１，σ２}／∂ｍ⁻ _ｋ）及び（∂Ｆ^ｄＭＭＩ _{Λ，σ１，σ２}／∂Ａ⁻ _ｋ）を算出し（ｓ１０８）、補正パラメータ更新部１０９に出力する。

＜第二実施形態＞
［本実施形態のポイント］
ＭＭＩ−ＳＰＬＩＣＥを含む従来の特徴量補正技術では、上記のように補正前の特徴量ベクトルｏ⁻ _ｔを補正し、補正後の特徴量ベクトルｘ⁻ _ｔを点推定する。しかし、周囲雑音や話者の多様性の影響を完全に取り除くことは現実的には不可能であり、特徴量補正自体に不確実性が含まれる。この特徴量補正の不確実性を取り扱う方法としては、例えば、参考文献９に記載されている方法が挙げられる。
（参考文献９） Deng, L., Droppo, J. and Acero, A., “Dynamic compensation of HMM variances using the feature enhancement uncertainty computed from a parametric model of speech distortion”, IEEE Trans. SAP, 2005, vol. 13, no. 3, pp. 412-421

参考文献９記載の方法では、特徴量補正の不確実さの度合いにより、音響モデル中のガウス分布の分散パラメータを補正する。補正は、不確実さが大きいほど分散パラメータを大きくすることによって行われる。

しかし、参考文献９の方法による音響モデル中のガウス分布の分散パラメータの補正は識別的基準で行われないため、その効果は大きくない。

本実施形態は、従来の音響モデル中のガウス分布の分散パラメータの補正方法（参考文献９参照）の問題点を解消するものである。識別学習による特徴量補正パラメータの推定を安定して行う方法（第一実施形態）に組み込む形で、音響モデル中のガウス分布の分散パラメータを補正するパラメータ（以下「分散補正パラメータ」という）を識別学習により推定する。以下、そのポイントを説明する。

音響モデルはＨＭＭで表現され、ＨＭＭの状態の出力確率分布はＧＭＭで表現されるものとする。音響モデルのある状態ｎに着目する。

ここで、ｓ⁻ _ｔはクリーン音声の特徴量ベクトル、ｗ_ｎ，ｍは状態ｎ中のｍ番目のガウス分布の重み、Ｎ（ｓ⁻ _ｔ；μ⁻ _ｎ，ｍ，Σ⁻ _ｎ，ｍ）は、平均ベクトルμ⁻ _ｎ，ｍ、共分散行列Σ⁻ _ｎ，ｍのガウス分布を表す。ここでｓ⁻ _ｔが得られたときに補正された特徴量ベクトルｘ⁻ _ｔが得られる条件付確率を次式のようにガウス分布で表現する。

ここで、Ｃ⁻ _ｔはｘ⁻ _ｔの推定の不確実さを表す共分散行列であり、識別学習により推定しようとするパラメータである（以下「分散補正パラメータ」という）である。

ｘ⁻ _ｔは、上記したｄＭＭＩ−ＳＰＬＩＣＥにより次式のように求めることができる。

また、分散補正パラメータＣ⁻ _ｔを次式のように求める。

ここで、ｐ（ｋ｜ｏ⁻ _ｔ）はＧＭＭのｋ番目のガウス分布の事後確率（式（１）、（２）参照）、Ｃ⁻ _ｋはＧＭＭのｋ番目のガウス分布に帰属する分散パラメータに対するガウス分布分散補正パラメータである。式（１６）のようにして求めた分散補正パラメータＣ⁻ _ｔを用いて、音響モデルのある状態ｎのガウス分布ｍにおける元の共分散行列（分散パラメータ）Σ⁻ _ｎ，ｍを補正し、ｘ⁻ _ｔの出力確率計算を次式のように計算する。

あるいは、次式のように補正する方法も考えられる。

上記の式（１７）または式（１８）で示されるＨＭＭ状態ｎからのｘ⁻ _ｔの出力確率ｐ（ｘ⁻ _ｔ｜ｎ）をｄＭＭＩ識別学習基準の目的関数Ｆ^ｄＭＭＩ _{Λ，σ１，σ２}の式（７）に入れることができ（具体的には式（７）の音響スコアｐ_Λ（Ｘ⁻ _ｒ｜Ｓ⁻ _ｊ）に反映される、式（４）参照）、それによって、識別学習によりガウス分布分散補正パラメータＣ⁻ _ｋ及び分散補正パラメータＣ⁻ _ｔ（式（１６）参照）を求めることができる。ｄＭＭＩ識別学習基準の目的関数Ｆ^ｄＭＭＩ _{Λ，σ１，σ２}（式（７））を最大化するガウス分布分散補正パラメータＣ⁻ _ｋは、次式のように、目的関数Ｆ^ｄＭＭＩ _{Λ，σ１，σ２}をガウス分布分散補正パラメータＣ⁻ _ｋで微分し、その結果を基に、Ｒ−Ｐｒｏｐのような勾配法を用いて推定することが可能である。つまり、特徴量補正パラメータＡ⁻ _ｋ，ｍ⁻ _ｋの推定方法と同様の方法により推定可能である。

ここで、Ｄ⁻ _{ｎｔ，ｍ，ｔ}（ただし、下付添字ｎｔ，ｍ，ｔは、ｎ_ｔ，ｍ，ｔを表す）は次の式で定義される。

Σ⁻ _{ｎ，ｍ，ｔ}は、補正したガウス分布の共分散行列（分散パラメータ）で、以下の式で書くことができる、

もしくは、

である。
以上により、識別学習により分散補正パラメータを推定することが可能となる。

＜特徴量補正パラメータ推定装置２０＞
図８に第二実施形態に係る特徴量補正パラメータ推定装置２０の機能構成例、図９にその処理フローを示す。

特徴量補正パラメータ推定装置２０は、特徴量抽出部１０１、特徴量補正部１０３、分散補正パラメータ生成部２２０、エラーカウント計算部２０５、補正パラメータ微分値計算部２０７、補正パラメータ更新部２０９及び収束判定部２１１を備える。以下、第一実施形態と異なる部分についてのみ説明する。

（分散補正パラメータ生成部２２０）
分散補正パラメータ生成部２２０は、ガウス分布分散補正パラメータの集合の初期値Ｃ^−０または更新されたガウス分布分散補正パラメータの集合Ｃ^−ｉ−１と、補正前の特徴量ベクトル系列Ｏ⁻ _ｒとを受け取り、式（１６）に基づき分散補正パラメータＣ⁻ _ｔを生成し（ｓ２０５）、エラーカウント計算部２０５に出力する。ただし、Ｃ^−０＝｛Ｃ⁻ ₁ ^０，Ｃ⁻ ₂ ^０，…，Ｃ⁻ _K ^０｝であり、Ｃ^−ｉ−１＝｛Ｃ⁻ ₁ ^ｉ−１，Ｃ⁻ ₂ ^ｉ−１，…，Ｃ⁻ _K ^ｉ−１｝である。初期値Ｃ⁻ _ｋ ^０としては、例えば、式（２０）による補正を行う場合には零行列（全ての要素が０の行列）等が、式（２１）による補正を行う場合には単位行列等が考えられる。また、初期値については、式（２０）または式（２１）の計算を省くために、予め分散補正パラメータの初期値Ｃ⁻ _ｔ ^０として、式（２０）による補正を行う場合には零行列等を、式（２１）による補正を行う場合には単位行列等をエラーカウント計算部２０５に記憶しておいてもよい。

（エラーカウント計算部２０５）
エラーカウント計算部２０５は、上述したエラーカウント計算部１０５の処理を行う前に、以下の処理を行う。

エラーカウント計算部２０５では、分散補正パラメータＣ⁻ _ｔを受け取り、記憶部１１３から音響モデルと言語モデルを読み込み（ｓ１０１、ｓ１０２）、式（２０）または式（２１）に基づき共分散行列Σ⁻ _ｎ，ｍを補正する（ｓ２０６）。

エラーカウント計算部２０５は、補正した共分散行列Σ⁻ _{ｎ，ｍ，ｔ}を含む音響モデルに基づき、補正後の特徴量ベクトル系列Ｘ⁻ _ｒを音声認識することによって得られるJ個の対立候補シンボル系列Ｓ⁻ _ｊを求める。エラーカウント計算部２０５は、正解シンボル系列Ｓ⁻ _ｒを読み込み（ｓ１０４）、さらに、予め定めた粒度で、対立候補シンボル系列Ｓ⁻ _ｊごとに正解シンボル系列Ｓ⁻ _ｒとの相違度ε_ｊ，ｒを求め（ｓ１０７）、補正パラメータ微分値計算部２０７に出力する。

（補正パラメータ微分値計算部２０７）
補正パラメータ微分値計算部２０７は、記憶部１１３から音響モデルと言語モデルを読み込み（ｓ１０１、ｓ１０２）、正解シンボル系列Ｓ⁻ _ｒを読み込み（ｓ１０４）、対立候補シンボル系列Ｓ⁻ _ｊと相違度ε_ｊ，ｒとを受け取り、式（７）で表される目的関数Ｆ^ｄＭＭＩ _{Λ，σ１，σ２}の微分値を求める。

さらに、補正パラメータ微分値計算部２０７は、目的関数Ｆ^ｄＭＭＩ _{Λ，σ１，σ２}をバイアスベクトルｍ⁻ _ｋで微分する（式（１２）参照、ｓ２０８）。また、補正パラメータ微分値計算部２０７は、目的関数Ｆ^ｄＭＭＩ _{Λ，σ１，σ２}を変換行列Ａ⁻ _ｋで微分する（ｓ２０８）。さらに、補正パラメータ微分値計算部２０７は、目的関数Ｆ^ｄＭＭＩ _{Λ，σ１，σ２}をガウス分布分散補正パラメータＣ⁻ _ｋで微分する（式（１９）参照、ｓ２０８）。算出した微分値（∂Ｆ^ｄＭＭＩ _{Λ，σ１，σ２}／∂ｍ⁻ _ｋ）、（∂Ｆ^ｄＭＭＩ _{Λ，σ１，σ２}／∂Ａ⁻ _ｋ）及び（∂Ｆ^ｄＭＭＩ _{Λ，σ１，σ２}／∂Ｃ⁻ _ｋ）を補正パラメータ更新部２０９に出力する。

なお、第一実施形態の変形例同様、記憶部１１３に予め式（７）で表される目的関数Ｆ^ｄＭＭＩ _{Λ，σ１，σ２}をバイアスベクトルｍ⁻ _ｋで微分したもの（例えば式（１２）で表される）、変換行列Ａ⁻ _ｋで微分したもの、及び、ガウス分布分散補正パラメータＣ⁻ _ｋで微分したもの（例えば式（１９）で表される）を計算式として記憶しておき、それらの計算式に各値を代入して微分値を求めてもよい。

（補正パラメータ更新部２０９）
補正パラメータ更新部２０９は、微分値（∂Ｆ^ｄＭＭＩ _{Λ，σ１，σ２}／∂ｍ⁻ _ｋ）、（∂Ｆ^ｄＭＭＩ _{Λ，σ１，σ２}／∂Ａ⁻ _ｋ）及び（∂Ｆ^ｄＭＭＩ _{Λ，σ１，σ２}／∂Ｃ⁻ _ｋ）を受け取り、Ｒ−Ｐｒｏｐのような勾配法を用いて、式（７）の目的関数Ｆ^ｄＭＭＩ _{Λ，σ１，σ２}を最大化するように、ｍ⁻ _ｋ、Ａ⁻ _ｋ及びＣ⁻ _ｋを同時に更新する（ｓ２０９）。あるいは、以下のように個別にｍ⁻ _ｋ、Ａ⁻ _ｋ及びＣ⁻ _ｋを求め、ｍ⁻ _ｋ、Ａ⁻ _ｋ及びＣ⁻ _ｋを個別に更新する（例えば、「Ｃ⁻ _ｋを固定してｍ⁻ _ｋ及びＡ⁻ _ｋを同時に更新して決定し、決定したｍ⁻ _ｋ及びＡ⁻ _ｋを基にＣ⁻ _ｋを更新する」、「Ｃ⁻ _ｋを固定してｍ⁻ _ｋ及びＡ⁻ _ｋを同時に更新し、続けて、ｍ⁻ _ｋ及びＡ⁻ _ｋを固定してＣ⁻ _ｋを更新することを繰り返す」、「ｍ⁻ _ｋ、Ａ⁻ _ｋ及びＣ⁻ _ｋのうち二つを固定して残り一つを更新し、これを順に繰り返す」）ことも可能である。

なお、ｍ＾_ｋ、Ａ＾_ｋ及びＣ＾_ｋは、それぞれ更新後のｍ⁻ _ｋ、Ａ⁻ _ｋ及びＣ⁻ _ｋを表す。更新後の特徴量補正パラメータ群の集合θ＾及びガウス分布分散補正パラメータの集合Ｃ＾を収束判定部２１１に出力する。

（収束判定部２１１）
収束判定部２１１は、特徴量補正パラメータ群の集合θ＾及びガウス分布分散補正パラメータの集合Ｃ＾を受け取り、特徴量補正パラメータ及び分散補正パラメータの推定が収束したか否かを判定し（ｓ２１０）、収束していると判定した場合には、収束時の特徴量補正パラメータ群の集合θ＾及びガウス分布分散補正パラメータの集合Ｃ＾を、特徴量補正パラメータ推定装置２０の出力値として、出力する（ｓ２１１）。収束していないと判定した場合には、特徴量補正パラメータ群の集合θ＾を特徴量補正部１０３に、ガウス分布分散補正パラメータの集合Ｃ＾を分散補正パラメータ生成部２２０に出力し、各部に対し、ｓ２０５〜ｓ２０９を繰り返すように制御信号を出力する。

＜効果＞
このような構成により、第一実施形態と同様の効果を得ることができ、さらに、識別学習により安定して分散補正パラメータを推定することができる。

＜変形例＞
特徴量補正パラメータ推定装置２０は、必ずしも第一実施形態記載の方法により補正前の特徴量ベクトル系列Ｏ⁻ _ｒを特徴量補正パラメータを用いて補正しなくともよい。例えば、従来技術により特徴量補正パラメータを用いて補正してもよいし、補正せずに特徴量ベクトル系列Ｏ⁻ _ｒを用いてエラーカウント計算部２０５における処理を行ってもよい。特徴量ベクトル系列Ｏ⁻ _ｒを補正しない場合の特徴量補正パラメータ推定装置を分散補正パラメータ推定装置とも呼ぶ。分散補正パラメータ推定装置２０’の機能構成例を図１０に、その処理フローを図１１に示す。この場合、エラーカウント計算部２０５’において、補正後の特徴量ベクトル系列Ｘ⁻ _ｒに代えて、補正前の特徴量ベクトル系列Ｏ⁻ _ｒを用いて、処理を行う（ｓ１０７’）。補正パラメータ微分値計算部２０７’では、特徴量補正パラメータに係る微分値を求めずに、識別学習基準（ｄＭＭＩ基準に限らない）を基にガウス分布分散補正パラメータに係る微分値を求めるだけでもよい（ｓ２０８’）。また、補正パラメータ更新部２０９’では、特徴量補正パラメータを更新せずに、ガウス分布分散補正パラメータを更新するだけでもよい（ｓ２０９’）。収束判定部２１１’では、ガウス分布分散補正パラメータの推定が収束したか否かのみを判定してもよい（ｓ２１０’）。そして、ガウス分布分散補正パラメータを分散補正パラメータ推定装置２０’のみを出力してもよい（ｓ２１１）。このような構成によっても、識別学習により安定して分散補正パラメータを推定することができる。このようにして推定されたガウス分布分散補正パラメータの集合Ｃ⁻＝｛Ｃ⁻ _１，Ｃ⁻ _２，…，Ｃ⁻ _Ｋ｝を用いて、例えば音声認識装置８の単語探索部９２において、認識用音声データの補正前の特徴量ベクトル系列Ｏ⁻とガウス分布分散補正パラメータの集合Ｃ⁻とにより式（１６）に基づき分散補正パラメータＣ⁻ _ｔを求め、さらに、分散補正パラメータＣ⁻ _ｔを用いて音響モデルパラメータに含まれる共分散行列を式（２０）または式（２１）により補正し、補正後の共分散行列を用いることで、結果として、より精度の高い音声認識を行うことができる。

＜第三実施形態＞
［本実施形態のポイント］
第一実施形態のポイントで述べたように、識別学習により特徴量補正パラメータ推定、及び、分散補正パラメータ推定を行う際には、学習用音声データの特徴と認識用音声データの特徴との不一致の度合いに応じてあるひとつの第一マージンパラメータσ_１を調整する必要がある。本実施形態では、第一マージンパラメータσ_１を自動的に調整する。

学習用音声データの特徴と認識用音声データの特徴との不一致の度合いが大きいほど第一マージンパラメータσ_１を小さくして（マイナスに大きくして、例えば、−３．０〜−２０．０程度にして）特徴量補正パラメータ及び分散補正パラメータを推定する必要がある。逆に、不一致の度合いが小さいときはσ_１は大きくして（０に近いマイナスの値にして、例えば、−０．１〜−３．０程度にして）特徴量補正パラメータを推定する必要がある。第一及び第二実施形態では、第一マージンパラメータσ_１の調整を人手で行っていたが、本実施形態ではこれを自動的に行う。

まず、補正パラメータを推定するための学習用音声データを用いてＧＭＭを構築する。このＧＭＭは学習用音声データの特徴を表現している。次にこのＧＭＭに認識対象である認識用音声データを与え、尤度を計算する。この尤度が大きいほど学習用音声データの特徴と認識用音声データの特徴とが近いことを表し、尤度が大きい場合には、第一マージンパラメータσ_１を大きくして補正パラメータを推定する。逆にこの尤度が小さいほど学習用音声データの特徴と認識用音声データの特徴とが大きく異なることを表し、尤度が小さい場合には、第一マージンパラメータσ_１を小さくして補正パラメータを推定する。第一マージンパラメータσ_１は、例えば次の式で求める。

ここで、ｓｃｏｒｅは認識用音声データに対しての（学習用音声データを用いて構築された）ＧＭＭのスコア（尤度）、σ_１，１は第一マージンパラメータσ_１の最高値（例えば−０．１）、σ_１，０は第一マージンパラメータσ_１の最低値（例えば−２０）、αとβは実験的に設定するコントロールパラメータである。図１２は、式（２２）によるｓｃｏｒｅと第一マージンパラメータの関係を示す。

＜特徴量補正パラメータ推定装置３０＞
図１３に第三実施形態に係る特徴量補正パラメータ推定装置３０の機能構成例、図１４にその処理フローを示す。

特徴量補正パラメータ推定装置３０は、特徴量補正パラメータ推定装置１０、２０またはそれらの変形例の構成に加えて、マージンパラメータ計算部３１５を備える。本実施形態では、特徴量補正パラメータ推定装置２０の構成に加えて、マージンパラメータ計算部３１５を備える場合について説明する。以下、第二実施形態と異なる部分についてのみ説明する。

（マージンパラメータ計算部３１５）
マージンパラメータ計算部３１５は、学習用音声データ及び認識用音声データを読み込み（ｓ１０３、ｓ３０４）、学習用音声データを用いてＧＭＭを構築する。さらに、認識用音声データに対するこのＧＭＭのスコアを算出し、式（２２）に基づき第一マージンパラメータσ_１を計算し（ｓ３０５）、補正パラメータ微分値計算部２０７に出力する。ただし、式（２２）のσ_１，１、σ_１，０、α及びβは人手により予め設定しておく。なお、マージンパラメータ計算部３１５における処理は、一回目の補正パラメータ微分値計算（ｓ２０８）を行う前に行えば、どのタイミングで行ってもよい。補正パラメータ微分値計算部２０７では、第一マージンパラメータσ_１を受け取り、これを用いて第二実施形態で説明した処理を行う。

＜効果＞
学習用音声データの特徴と認識用音声データの特徴との不一致の度合いに応じて調整する必要のある第一マージンパラメータを自動的に調整することができる。結果として、高精度な音声認識を低コストで実現することが可能になる。

＜第四実施形態＞
図１５に第四実施形態に係る音声認識システム２００の機能構成例、図１６にその処理フローを示す。

音声認識システム２００は、特徴量抽出部１３１、特徴量補正部１３３、単語列探索部１３５、記憶部２０４及び特徴量補正パラメータ推定装置３０を備える。つまり、音声認識システム２００は、特徴量補正パラメータ推定装置３０を含み、認識用音声データに対し音声認識を行う。

記憶部２０４には、音響モデル、言語モデルに加え、学習用音声データ、学習用音声データに対する正解シンボル系列Ｓ⁻ _ｒ、各補正パラメータの初期値θ^−０、Ｃ^−０が予め記録されている。

特徴量補正パラメータ推定装置３０は、記憶部２０４から音響モデル及び言語モデルに加え、学習用音声データ、学習用音声データに対する正解シンボル系列Ｓ⁻ _ｒ、各補正パラメータの初期値θ^−０、Ｃ^−０を読み込む。さらに認識用音声データを読み込む。第一実施形態から第三実施形態において説明した方法により、特徴量補正パラメータ群の集合θ⁻及び分散補正パラメータの集合Ｃ⁻を推定し（ｓ２００）、記憶部２０４に格納する。

特徴量抽出部１３１、特徴量補正部１３３及び単語列探索部１３５として、前述の従来技術（特徴量抽出部９１、特徴量補正部８１及び単語列探索部９２）、または他の従来技術を用いてもよい。ただし、特徴量補正部１３３は、特徴量補正パラメータ推定装置３０で推定され、記憶部２０４に格納されている特徴量補正パラメータ群の集合θ⁻を用いて、式（１）及び式（２）により、特徴量ベクトル系列Ｏ⁻を補正する。また、単語列探索部１３５は、その内部に、図示しない分散補正パラメータ生成部を備える。分散補正パラメータ生成部は、ガウス分布分散補正パラメータの集合Ｃ⁻を記憶部３０４から受け取り、補正前の認識用音声データの特徴量ベクトル系列Ｏ⁻とを受け取り、式（１６）に基づき分散補正パラメータＣ⁻ _ｔを生成する（ｓ２０１）。さらに、音響モデルパラメータの集合Λ（に含まれる共分散行列Σ⁻）と、分散補正パラメータＣ⁻ _ｔとに基づき、式（２０）または式（２１）により共分散行列を補正する（ｓ２０２）。そして、補正後の（共分散行列を含む）音響モデルに基づき、補正後の特徴量ベクトル系列Ｘ⁻に対するＪ個の対立候補シンボル系列Ｓ⁻ _ｊを生成する。

＜効果＞
このような構成により、識別学習により高精度かつ安定して推定された特徴量補正パラメータ及び分散補正パラメータを用いて、それぞれ特徴量及び分散パラメータを補正することができ、結果として、より精度の高い音声認識を行うことができる。

＜第五実施形態＞
図１７に第五実施形態に係る音声認識システム３００の機能構成例、図１８にその処理フローを示す。

音声認識システム３００は、特徴量抽出部１３１、特徴量補正部１３３、単語列探索部１３５、記憶部３０４、マージンパラメータ計算部３０１及び補正パラメータ選択部３０２を備える。以下、第四実施形態と異なる部分についてのみ説明する。

音声認識システム３００は、特徴量補正パラメータ推定装置３０において推定された補正パラメータθ⁻、Ｃ⁻を記憶部３０４に格納しておき、これらの値を用いて、認識用音声データに対し音声認識を行うが、特徴量補正パラメータ推定装置３０自体をその内部に備えなくともよい。

なお、特徴量補正パラメータ推定装置３０は、学習用音声データ、学習用音声データに対する正解シンボル系列Ｓ⁻ _ｒ、各補正パラメータの初期値θ^−０、Ｃ^−０を予め読み込み、さらに推定用音声データを予め読み込み、第一実施形態から第三実施形態において説明した方法により、特徴量補正パラメータ群の集合θ⁻及び分散補正パラメータの集合Ｃ⁻を推定し、記憶部３０４に格納しておく。なお、学習用音声データの特徴との不一致の度合いが異なる、複数の推定用音声データを用意しておき、推定用音声データ毎に第一マージンパラメータσ_１、特徴量補正パラメータ群の集合θ⁻及び分散補正パラメータの集合Ｃ⁻の組合せを記憶部３０４に格納しておく。例えば、σ_１＝−０．１、−０．３、−３．０、−２０．０と、σ_１毎にそれぞれ対応する特徴量補正パラメータ群の集合θ⁻及び分散補正パラメータの集合Ｃ⁻を格納しておく。

記憶部３０４には、音響モデル、言語モデルに加え、学習用音声データ、第一マージンパラメータσ_１と特徴量補正パラメータ群の集合θ⁻と分散補正パラメータの集合Ｃ⁻との組合せが予め記録されている。

マージンパラメータ計算部３０１は、前述のマージンパラメータ計算部３１５と同様の処理を行う。つまり、マージンパラメータ計算部３０１は、学習用音声データ及び認識用音声データを読み込み（ｓ１０１、ｓ９３）、学習用音声データを用いてＧＭＭを構築する。さらに、認識用音声データに対するこのＧＭＭのスコアを算出し、式（２２）に基づき第一マージンパラメータσ_１を計算する（ｓ３０２）。求めた第一マージンパラメータσ_１を補正パラメータ選択部３０２に出力する。なお、学習用音声データを用いて構築されたＧＭＭは、マージンパラメータ計算部３０１で計算せずに、特徴量補正パラメータ推定装置３０から取得する構成としてもよい。この場合、学習用音声データを記憶部３０４に格納する必要はない。

補正パラメータ選択部３０２は、マージンパラメータ計算部３０１から第一マージンパラメータσ_１を受け取り、予め記憶部３０４に記憶されている第一マージンパラメータσ_１と特徴量補正パラメータ群の集合θ⁻と分散補正パラメータの集合Ｃ⁻との組合せの中から、記憶部３０４から受け取った第一マージンパラメータσ_１に近い第一マージンパラメータσ_１を持つ組合せに対応する特徴量補正パラメータ群の集合θ⁻及び分散補正パラメータの集合Ｃ⁻を選択し（ｓ３０３）、それぞれ特徴量補正部１３３及び単語列探索部１３５に出力する。特徴量補正部１３３及び単語列探索部１３５における処理は第四実施形態と同様である。

＜効果＞
このような構成により、第四実施形態と同様の効果を得ることができる。また、音声認識システム３００では、予め補正パラメータを計算しておき、認識用音声データを読み込んだ際には、第一マージンパラメータを計算すればいいだけなので（補正パラメータを推定する必要がないので）、音声認識時の処理速度を速くすることができる。また、第四実施形態では、認識用音声データ全体に対して補正パラメータを推定する必要があるため、全ての認識用音声データを読み込んだ後でしか音声認識を行うことができない。一方、第五実施形態では、補正パラメータを推定自体は既に済んでいるため、認識用音声データの一部に対して第一マージンパラメータを計算し、それに対応する補正パラメータを選択し、音声認識を行うことができる。例えば、１００発話からなる認識用音声データに対して、第四実施形態の音声認識システムでは、１００発話全てに同じ補正パラメータを適用することになるが、第五実施形態の音声認識システムでは、１００発話全てに同じ補正パラメータを適用してもよいし、１発話毎に第一マージンパラメータを計算して、補正パラメータを変えてもよい。ただし、第五実施形態の記憶部３０４に格納されている第一マージンパラメータは離散的な値となるため、第四実施形態に比較して、得られる補正パラメータも離散的な値となり、認識精度が落ちる可能性ある。精度を向上させるためには、記憶部３０４に格納されている第一マージンパラメータ及び対応する補正パラメータの個数を増やせばよい。

＜その他の変形例＞
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
上述した特徴量補正パラメータ推定装置または音声認識システムは、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置またはシステム（各種実施形態で図に示した機能構成をもつ装置）として機能させるためのプログラム、またはその処理手順（各実施形態で示したもの）の各過程をコンピュータに実行させるためのプログラムを、ＣＤ−ＲＯＭ、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。

１０，２０，３０特徴量補正パラメータ推定装置
１０１特徴量抽出部
１０３特徴量補正部
１０５エラーカウント計算部
１０７補正パラメータ微分値計算部
１０９補正パラメータ更新部
１１１収束判定部
１１３記憶部
２００，３００音声認識システム
２０４，３０４記憶部
２０５エラーカウント計算部
２０７補正パラメータ微分値計算部
２０９補正パラメータ更新部
２２０分散補正パラメータ生成部
２１１収束判定部
３０１，３１５マージンパラメータ計算部
３０２補正パラメータ選択部

Claims

学習用音声データの特徴量及び前記学習用音声データに対する正解シンボル系列から、認識用音声データの特徴量を補正するための特徴量補正パラメータを求める特徴量補正パラメータ推定装置であって、
予め求められた音響モデル及び言語モデルが記憶される記憶部と、
特徴量補正パラメータを用いて、前記学習用音声データの前記特徴量を補正する特徴量補正部と、
予め定めた粒度で、補正後の前記特徴量を音声認識することによって得られる対立候補シンボル系列ごとに、前記正解シンボル系列との相違度を求めるエラーカウント計算部と、
前記言語モデルによって得られる前記対立候補シンボル系列の言語確率、補正後の前記特徴量と前記対立候補シンボル系列に基づき前記音響モデルによって得られる音響スコア、小さい相違度を持つ対立候補シンボル系列ほど重視されるように調整する第一マージンパラメータ、大きい相違度を持つ対立候補シンボル系列ほど重視されるように調整する第二マージンパラメータ及び前記相違度に基づき、前記特徴量補正パラメータでｄＭＭＩ識別学習基準の目的関数を微分したときの微分値を求める補正パラメータ微分値計算部と、
前記微分値に応じて前記特徴量補正パラメータを変更することで、前記特徴量補正パラメータを更新する補正パラメータ更新部と、を含み、
前記特徴量補正パラメータの更新が予め定めた条件を満たす場合には、更新後の前記特徴量補正パラメータを求める特徴量補正パラメータとし、当該条件を満たさない場合には、前記特徴量補正部、エラーカウント計算部、補正パラメータ微分値計算部及び補正パラメータ更新部の処理を繰り返す、
特徴量補正パラメータ推定装置。
請求項１記載の特徴量補正パラメータ推定装置であって、
前記音響モデルには、混合ガウス分布モデルが含まれ、
前記学習用音声データの前記特徴量と、前記混合ガウス分布モデルに含まれるガウス分布に帰属する分散パラメータに対するガウス分布分散補正パラメータとを用いて、分散補正パラメータを生成する分散補正パラメータ生成部と、
前記エラーカウント計算部では、さらに、前記混合ガウス分布モデルに含まれるガウス分布の分散パラメータを、前記分散補正パラメータを用いて補正し、補正した前記分散パラメータを含む音響モデルに基づき、補正後の前記特徴量を音声認識することによって得られる対立候補シンボル系列ごとに、予め定めた粒度で、前記正解シンボル系列との相違度を求め、
前記補正パラメータ微分値計算部では、さらに、前記言語モデルによって得られる前記対立候補シンボル系列の言語確率、補正後の前記特徴量と前記対立候補シンボル系列に基づき補正後の前記音響モデルによって得られる音響スコア、小さい相違度を持つ対立候補シンボル系列ほど重視されるように調整する第一マージンパラメータ、大きい相違度を持つ対立候補シンボル系列ほど重視されるように調整する第二マージンパラメータ及び前記相違度に基づき、前記ガウス分布分散補正パラメータで前記目的関数を微分したときの微分値を求め、
前記補正パラメータ更新部では、さらに、ガウス分布分散補正パラメータで前記目的関数を微分したときの前記微分値に応じて前記ガウス分布分散補正パラメータを変更することで、前記ガウス分布分散補正パラメータを更新する、
特徴量補正パラメータ推定装置。
請求項１または請求項２記載の特徴量補正パラメータ推定装置を含み、認識用音声データに対し音声認識を行う音声認識システムであって、
前記認識用音声データに対する、前記学習用音声データに基づき構築された混合ガウス分布モデルのスコアを算出し、そのスコアが大きいほど前記第一マージンパラメータを大きく設定し、そのスコアが小さいほど前記第一マージンパラメータを小さく設定する第一マージンパラメータ計算部と、
前記認識用音声データの特徴量を抽出する特徴量抽出部と、
前記特徴量補正パラメータを用いて、前記認識用音声データの前記特徴量を補正する特徴量補正部と、
前記音響モデルまたは分散補正パラメータを用いて補正された音響モデルと、前記言語モデルとに基づき、単語列探索を行う単語列探索部と、を含み、
前記補正パラメータ微分値計算部は、第一マージンパラメータ計算部で計算された第一マージンパラメータを用いて、前記微分値を求める、
音声認識システム。
請求項１または請求項２記載の特徴量補正パラメータ推定装置において推定された特徴量補正パラメータを用いて、認識用音声データに対し音声認識を行う音声認識システムであって、
前記記憶部には、予め複数の前記第一マージンパラメータの値にそれぞれ対応する複数の前記特徴量補正パラメータが記憶され、
前記認識用音声データに対する、前記学習用音声データに基づき構築された混合ガウス分布モデルのスコアを算出し、そのスコアが大きいほど前記第一マージンパラメータを大きく設定し、そのスコアが小さいほど前記第一マージンパラメータを小さく設定する第一マージンパラメータ計算部と、
前記マージンパラメータ計算部において設定された第一マージンパラメータに近い第一マージンパラメータの値に対応する特徴量補正パラメータを前記記憶部から選択する特徴量補正パラメータ選択部と、
前記認識用音声データの特徴量を抽出する特徴量抽出部と、
特徴量補正パラメータ選択部により選択された前記特徴量補正パラメータを用いて、前記認識用音声データの前記特徴量を補正する特徴量補正部と、
前記音響モデルまたは分散補正パラメータを用いて補正された音響モデルと、前記言語モデルとに基づき、単語列探索を行う単語列探索部と、を含む、
音声認識システム。
学習用音声データの特徴量及び前記学習用音声データに対する正解シンボル系列から、認識用音声データの特徴量を補正するための特徴量補正パラメータを求める特徴量補正パラメータ推定方法であって、
記憶部には予め求められた音響モデル及び言語モデルが記憶され、
特徴量補正パラメータを用いて、前記学習用音声データの前記特徴量を補正する特徴量補正ステップと、
予め定めた粒度で、補正後の前記特徴量を音声認識することによって得られる対立候補シンボル系列ごとに、前記正解シンボル系列との相違度を求めるエラーカウント計算ステップと、
前記言語モデルによって得られる前記対立候補シンボル系列の言語確率、補正後の前記特徴量と前記対立候補シンボル系列に基づき前記音響モデルによって得られる音響スコア、小さい相違度を持つ対立候補シンボル系列ほど重視されるように調整する第一マージンパラメータ、大きい相違度を持つ対立候補シンボル系列ほど重視されるように調整する第二マージンパラメータ及び前記相違度に基づき、前記特徴量補正パラメータでｄＭＭＩ識別学習基準の目的関数を微分したときの微分値を求める補正パラメータ微分値計算ステップと、
前記微分値に応じて前記特徴量補正パラメータを変更することで、前記特徴量補正パラメータを更新する補正パラメータ更新ステップと、を含み、
前記特徴量補正パラメータの更新が予め定めた条件を満たす場合には、更新後の前記特徴量補正パラメータを求める特徴量補正パラメータとし、当該条件を満たさない場合には、前記特徴量補正ステップ、エラーカウント計算ステップ、補正パラメータ微分値計算ステップ及び補正パラメータ更新ステップの処理を繰り返す、
特徴量補正パラメータ推定方法。
請求項５記載の特徴量補正パラメータ推定方法であって、
前記音響モデルには、混合ガウス分布モデルが含まれ、
前記学習用音声データの前記特徴量と、前記混合ガウス分布モデルに含まれるガウス分布に帰属する分散パラメータに対するガウス分布分散補正パラメータとを用いて、分散補正パラメータを生成する分散補正パラメータ生成ステップと、
前記エラーカウント計算ステップでは、さらに、前記混合ガウス分布モデルに含まれるガウス分布の分散パラメータを、前記分散補正パラメータを用いて補正し、補正した前記分散パラメータを含む音響モデルに基づき、補正後の前記特徴量を音声認識することによって得られる対立候補シンボル系列ごとに、予め定めた粒度で、前記正解シンボル系列との相違度を求め、
前記補正パラメータ微分値計算ステップでは、さらに、前記言語モデルによって得られる前記対立候補シンボル系列の言語確率、補正後の前記特徴量と前記対立候補シンボル系列に基づき補正後の前記音響モデルによって得られる音響スコア、小さい相違度を持つ対立候補シンボル系列ほど重視されるように調整する第一マージンパラメータ、大きい相違度を持つ対立候補シンボル系列ほど重視されるように調整する第二マージンパラメータ及び前記相違度に基づき、前記ガウス分布分散補正パラメータで前記目的関数を微分したときの微分値を求め、
前記補正パラメータ更新ステップでは、さらに、ガウス分布分散補正パラメータで前記目的関数を微分したときの前記微分値に応じて前記ガウス分布分散補正パラメータを変更することで、前記ガウス分布分散補正パラメータを更新する、
特徴量補正パラメータ推定方法。
請求項５または請求項６記載の特徴量補正パラメータ推定方法のステップを含み、認識用音声データに対し音声認識を行う音声認識方法であって、
前記認識用音声データに対する、前記学習用音声データに基づき構築された混合ガウス分布モデルのスコアを算出し、そのスコアが大きいほど前記第一マージンパラメータを大きく設定し、そのスコアが小さいほど前記第一マージンパラメータを小さく設定する第一マージンパラメータ計算ステップと、
前記認識用音声データの特徴量を抽出する特徴量抽出ステップと、
前記特徴量補正パラメータを用いて、前記認識用音声データの前記特徴量を補正する特徴量補正ステップと、
前記音響モデルまたは分散補正パラメータを用いて補正された音響モデルと、前記言語モデルとに基づき、単語列探索を行う単語列探索ステップと、を含み、
前記補正パラメータ微分値計算ステップでは、第一マージンパラメータ計算ステップで計算された第一マージンパラメータを用いて、前記微分値を求める、
音声認識方法。
請求項５または請求項６記載の特徴量補正パラメータ推定方法において推定された特徴量補正パラメータを用いて、認識用音声データに対し音声認識を行う音声認識方法であって、
前記記憶部には、予め複数の前記第一マージンパラメータの値にそれぞれ対応する複数の前記特徴量補正パラメータが記憶され、
前記認識用音声データに対する、前記学習用音声データに基づき構築された混合ガウス分布モデルのスコアを算出し、そのスコアが大きいほど前記第一マージンパラメータを大きく設定し、そのスコアが小さいほど前記第一マージンパラメータを小さく設定する第一マージンパラメータ計算ステップと、
前記マージンパラメータ計算ステップにおいて設定された第一マージンパラメータに近い第一マージンパラメータの値に対応する特徴量補正パラメータを前記記憶ステップから選択する特徴量補正パラメータ選択ステップと、
前記認識用音声データの特徴量を抽出する特徴量抽出ステップと、
特徴量補正パラメータ選択ステップにより選択された前記特徴量補正パラメータを用いて、前記認識用音声データの前記特徴量を補正する特徴量補正ステップと、
前記音響モデルまたは分散補正パラメータを用いて補正された音響モデルと、前記言語モデルとに基づき、単語列探索を行う単語列探索ステップと、を含む、
音声認識方法。
請求項１若しくは請求項２記載の特徴量補正パラメータ推定装置、または、請求項３若しくは請求項４記載の音声認識システムとして、コンピュータを機能させるためのプログラム。