JP5079760B2

JP5079760B2 - 音響モデルパラメータ学習装置、音響モデルパラメータ学習方法、音響モデルパラメータ学習プログラム

Info

Publication number: JP5079760B2
Application number: JP2009198362A
Authority: JP
Inventors: 晋治渡部; マクダーモットエリック; 篤中村
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2009-08-28
Filing date: 2009-08-28
Publication date: 2012-11-21
Anticipated expiration: 2029-08-28
Also published as: JP2011048262A

Description

本発明は、特徴量に基づいて音声を認識するための識別的学習を行う音響モデルパラメータ学習装置、音響モデルパラメータ学習方法、音響モデルパラメータ学習プログラムに関する。

音声認識
図１に音声認識装置の機能構成例、図２に音声認識装置の処理フロー例を示す。音声認識装置７００は、特徴抽出部７３０、単語列探索部７５０、記録部（図示していない）などから構成される。そして、あらかじめ音響モデル７１０、言語モデル７２０を記録部に記録している。音響モデル７１０は、音声の音響的特徴をモデル化したものである。言語モデル７２０は音素や単語といった多数のシンボル系列から構成されている。単語列探索部７５０は音響モデル７１０と言語モデル７２０を読み込む（Ｓ７１０、Ｓ７２０）。そして、特徴抽出部７３０が認識用音声データを読み込み（Ｓ９１０）、音声の特徴量を抽出する（Ｓ７３０）。特徴量とは、例えばパワーやメルフィルタバンクケプストラム係数などで構成される時系列特徴量ベクトルである。単語列探索部７５０は、例えば、音響モデル７１０を用いて時系列特徴量ベクトルに対するスコアを算出し、これと言語モデルを構成するすべてのシンボル系列に対するスコアとを比較して単語列探索を行う（Ｓ７５０）。そして、認識結果として単語列を出力する（Ｓ９２０）。

次に音響モデル７１０について説明する。音響モデルは、音声の音響的特徴をモデル化したものであり、認識用音声データと音響モデルを参照することにより音声データを音素や単語といったシンボルに変換する。そのため、音響モデルは、音声認識装置の性能を大きく左右する。通常、音声認識用音響モデルでは、各音素をLeft to rightの隠れマルコフモデル（ＨＭＭ）でＨＭＭ状態の出力確率分布を混合ガウス分布モデル（ＧＭＭ）で表現する。そのため、実際に音響モデルとして記録部に記録されているのは、音素などの各シンボルにおけるＨＭＭの状態遷移確率ａ、ＧＭＭの混合重み因子ｗ、及びガウス分布の平均ベクトルパラメータμおよび共分散行列パラメータΣとなる。これらを音響モデルパラメータと呼びその集合をΛとする。つまり、Λ＝｛ａ，ｗ，μ，Σ｝とする。音響モデルパラメータΛの値を正確に求めるのが音響モデルの作成過程となり、この過程を音響モデル作成方法と呼ぶ。近年音響モデルは、確率統計的手法により大量の音声データとそのラベル情報から音響モデルパラメータΛを学習することにより作成される。通常学習データに対しては、その何れの部分が何れの音素であるかを示すラベル情報（教師ラベル）が与えられている。ラベル情報が与えられていない場合は、人が聞いてラベルを振ったり、また音声認識装置を用いたりすることによりラベル情報を付与する。以降では学習用音声データにはラベル情報が上記のような方法で付与されているものとする。

音響モデル作成
図３に音響モデル作成装置の機能構成例、図４に音響モデル作成装置の処理フロー例を示す。音響モデル作成装置８００は、特徴抽出部７３０、音響モデルパラメータ学習部８１０、記録部（図示していない）などで構成される。そして、特徴抽出部７３０は、学習用音声データ９３０を読み込み（Ｓ９３０）、特徴量を抽出する（Ｓ７３１）。音響モデルパラメータ学習部８１０は、学習用音声データに対する教師ラベルを読み取り（Ｓ９４０）、特徴量と教師ラベルとを比較することにより、音響モデルパラメータΛを求める（Ｓ８１０）。より具体的には、教師ラベルにより得られる学習データ中の各音素に対応するデータ（例えば、時系列特徴量ベクトル）から、尤度または識別性能を最大化するように音響モデルパラメータΛ（ＨＭＭの状態遷移確率ａ、ＧＭＭの混合重み因子ｗ、及びガウス分布の平均ベクトルパラメータμ、共分散行列パラメータΣ）を推定する。尤度を最大化する方法を最尤学習、識別性能を最大化する方法を識別学習と呼ぶ。なお、本発明では、識別性能の向上を目的とした識別学習に焦点を当てる。

音響モデルパラメータを識別的に学習する手法の従来法としては最大相互情報量学習（ＭＭＩ：Maximum Mutual Information）がある。最大相互情報量学習では、尤度を向上させる学習法以上に、正しい単語列（正解）が他の単語列（不正解）よりも認識されやすくなるように、音響モデルパラメータを識別的に推定する方法であり、一般に最尤学習に比べて認識性能は向上する。最大相互情報量学習はシンプルかつ効果的な識別学習であり、現状の音声認識技術においては代表的な識別学習の従来手法である。

最大相互情報量学習法(ＭＭＩ)にもとづく識別学習
パターン認識誤りの多くは、特徴量空間上で隣接する他シンボルとの境界周辺に位置するパターンの混同に起因する。これを抑制するために、学習の段階で正解シンボルに属する学習データが、隣接する正解以外のシンボルに属してしまうことを極力減らすようにモデルパラメータを推定することが有効である。このようにシンボル間識別能力の向上を積極的に図る枠組みは総称して識別的学習（Discriminative training）と呼ばれている。以下、識別的学習法の代表的な実現法のひとつである最大相互情報量学習（ＭＭＩ：Maximum Mutual Information）（非特許文献１）を、シンボル系列を同定するパターン認識に適用する場合（非特許文献２）を例に取り説明する。ＭＭＩ学習においては、後述のように入力パターンと正解シンボル系列の相互情報量を定式化し、その最大化を図る。相互情報量の基準の最大化と識別誤りの最小化は必ずしも一致しないが、通常の最尤学習よりもパターン認識システムの識別能力を上げる効果があることが知られている（非特許文献１）。パターン認識システムのデータ入力である特徴ベクトル系列Χを以下のように表現できる。

ただし、Ｎはフレームの数、ｎは１からＮの整数である。つまり、Χは１からＮフレーム目までのＤ次元特徴ベクトルで表現されるデータである。Χに対する正解系列が与えられている場合（学習時または評価時）、その正解系列をＳ_ｒと記述する（学習時の概要を示す図３では、正解系列は「教師ラベル」と記している）。また、認識システムに対してΧが与えられ、Χに対して一番「スコア」の高いシンボル系列Ｓ＾が認識されたとする（図１、２）。ＭＭＩ学習では、スコアは、シンボル系列Ｓ_ｋと特徴ベクトル系列Χの結合確率（joint probability）で次のように定義される。

ここで、Ｐ（Ｓ_ｋ）はシンボル系列Ｓ_ｋの事前確率であって「言語スコア」と呼ばれ、「言語モデル」によって算出される。p_Λ（Ｘ｜Ｓ_ｋ）はデータＸに対する条件付き確率密度であって「音響スコア」と呼ばれ、「音響モデル」によって算出される。Λは認識システムが持つ修正可能なシステムパラメータの集合である（上述では、音響モデルパラメータの例を説明している）。本発明の説明は音響モデルを中心にしているため、修正可能なシステムパラメータとして主に音響モデルパラメータに焦点を当てるが、本手法は原理的には言語モデルパラメータ（一般には系列の事前確率のパラメータ）に焦点を当てることも可能である。

本来、識別学習の目的関数としては、経験ベイズリスクや最小音素誤りなど様々な定義を与えることが可能である。ＭＭＩ型の目的関数においては、与えられた教師ラベル付き学習用データΧと任意のシステムパラメータΛを用いて以下のように表現される。

ここではψはあらゆるシンボル系列に共通なパラメータであり、スコアの平滑化の役割を担う。ψの値をコントロールすることによって、式（３）の分母がスコアの一番高いシンボル系列に支配されるか、もしくはあらゆるシンボル系列スコアの平均で表現されるか、と言ったスコアの調節が可能である（ここでは説明の都合により、相互情報量ではなく式（３）のようなマイナス相互情報量を用いる。この場合最適化手法によって、マイナス相互情報量式（３）の最小化を図ることにより、相互情報量最大化を実現する。つまり式（３）の最小化は相互情報量の最大化と等価である。

目的関数の微分に基づく最適化
ＭＭＩを用いた識別学習は式（３）を最小にするようにパラメータΛを修正して行くプロセスである（図３、４ではこのプロセスは「音響モデルパラメータ学習部」と記している）。学習プロセスにおいて利用される最適化手法は，Extended Baum-Welch法や凸最適化法などの様々な方法がある（非特許文献１，２，３）。なお、本発明はこれらの個々の最適化手法のいずれにおいても利用することができる手法である。
最適化手法には、次式のような目的関数のシステムパラメータΛに対する微分に基づいているものもある。

式（４）では、全体目的関数の微分は可能な全ての（Ｋ個の）シンボル系列での微分形の和で表現される。ＭＭＩ法のメリットの１つは目的関数の微分計算の容易さである。任意のシンボル系列がパラメータΛを持つ際に、ＭＭＩの目的関数の微分は次のように扱うことができる。まず目的関数の表現を次のように変える。

次に式（５）の任意シンボル系列Ｓ_ｊに関する微分を考えると、式（４）右辺の１番目の微分計算は以下のようになる。

式（４）を計算機上に実装するためには、式（４）右辺の２番目の微分計算

の具体系が必要である。しかしこの具体系は、ＨＭＭに基づく式（２）を使用する限り、ＭＭＩ以外の様々な目的関数においても同様の具体系を用いることが可能であり、この具体系は広く知られている（非特許文献２）ため、本明細書では具体系についての説明は割愛する。ここでＭＭＩの微分の容易さは大変重要な性質である。なぜなら式（６）で表現されるのは基本的に任意のシンボル系列Ｓ_ｊの事後確率である。つまり、ＭＭＩ学習法の微分の計算とシンボル系列の事後確率の計算が同等であることが言える。シンボル系列の事後確率値の計算は音声認識の分野で広く用いられており、簡潔かつ表現力の高い認識結果表現である「ラティス」（単語ネットワーク）を使用してForward-Backward Algorithmによって効率的に計算することができる（非特許文献４）。こう言った特長をもとに、音声認識業界では様々な研究・開発グループがＭＭＩを利用して効率良く音声認識システムの識別学習を実現してきた。

また、相互情報量最大化（ＭＭＩ）の枠組みで、粒度の細かい誤り率を少しでも反映させるように、ＭＭＩを拡張する方法の一つとして“Boosted MMI”という方法が提案されている（非特許文献５）。なお、粒度とは、シンボル系列の構成要素の大きさを示しており、粒度が細かい（または小さい）ものから粗い（または大きい）ものへ列挙すると、例えば、フレーム単位、音素単位、単語単位、文章単位である。

L. Bahl, P.F. Brown, P. V. de Souza, and K. L. Mercer, "Maximum Mutual Information Estimation of hidden Markov parameters for speech recognition," in Proc. IEEE ICASSP, 1986, vol. 1, pp. 49-52. E. McDermott, T.J. Hazen, J. Le Roux, A. Nakamura, and S. Katagiri, "Discriminative training for large vocabulary speech recognition using Minimum Classification Error," IEEE Transactions on Audio, Speech and Language Processing, vol. 15, no. 1, pp. 203-223, January 2007. Y. Normandin, R. Cardin, and R. De Mori, "High-Performance Connected Digit Recognition Using Maximum Mutual Information Estimation," IEEE Transactions on Speech and Audio Processing, vol. 2, no. 2, pp. 299-311, April 1994. V. Valtchev, J. J. Odell, P. C. Woodland, and S. J. Young, "Lattice-based discriminative training for large vocabulary speech recognition," in International Conference on Spoken Language Processing, 1996, vol. 2, pp. 605-609. D. Povey, D. Kanevsky, B. Kingsbury, B. Ramabhadran, G. Saon, and K. Visweswariah, "Boosted MMI for Model and Feature-Space Discriminative Training," in Proc. IEEE ICASSP, 2008, pp. 4057-4060. D. Povey and P. C. Woodland, "Minimum phone error and I-smoothing for improved discriminative traning," in Proc. IEEE ICASSP, 2002, Vol. 1, pp. 13-17.

上述のように、相互情報量最大化（ＭＭＩ）の実装は他の識別学習法に比べて容易である。しかしながら、パターン認識にとって理想的な識別学習法ではない。具体的には、相互情報量の最大化と認識誤り率最小化は異なるものであり、相互情報量を最大にするモデルは識別能力を向上させるが、認識誤り率を最小にする保証はない。相互情報量と言う目的関数は相互情報量を反映するものなので、誤り率ではなく、誤り率の近似でもない。さらに、相互情報量の目的関数を示している式（３）の粒度は理想的でない。式（３）で表現されているのは認識候補シンボル系列（分母の方）と正解シンボル系列（分子の方）の全体的な比較であって、音素誤り率や単語誤り率との関係が不明確なだけではなく、音響モデルが想定している音素や単語などの粒度と比べて粒度の大きい目的関数である。例えば式（３）のケースでは、認識結果のシンボル系列が正解系列と一致するかしないかと言ったbinaryケースは粒度の大きい相違度として定義され、一方で音声認識の評価基準として用いられる単語または音素の誤り数は粒度の細かい（細粒的な）相違度として定義される。粒度の細かい相違度は、ＭＭＩ以外の認識誤り率最小化による識別学習で良く用いられ、高い認識性能を示すことが知られている。しかし、その実装は大変困難である。一方、相互情報量の最大化では、粒度の大きい相違度を用いており、その実装は容易であるが認識性能は上記に比べて劣る。したがって、相互情報量最大化の枠組みで粒度の細かい相違度を用いることにより、実装が容易でかつ高い認識性能を示す識別学習の構築が望まれている。
危険度重み付きＭＭＩ（Boosted MMI）
非特許文献５の方法での目的関数は

となる。ここではε_ｋ，ｒは任意シンボル系列Ｓ_ｋと正解系列Ｓ_ｒとの相違度を示す。以下では、シンボル系列が正解系列と一致する場合、ε_ｒ，ｒ＝０であることを前提して説明する。ε_ｋ，ｒはシンボル系列同士でのエディットディスタンス等の距離、またはbinary的なエラー（完全に一致するかしないかを０と１で表す）等の様々な粒度での相違度の表現が可能である。例えば、音声認識ではε_ｋ，ｒとしてシンボル系列同士の単語誤り数または音素誤り数といった粒度の細かい相違度を用いることもできる。このように式（７）によって、分母のシンボル系列にはそれぞれの正解系列との様々な粒度の相違度ε_ｋ，ｒを与えることができ、それは分母の各シンボル系列に「危険度」を与えることに相当する。そして、パラメータσによってその危険度の重みをコントロールすることが可能であり、σ＝０にすると危険度重みなしのＭＭＩの目的関数（式（３））に一致する。

シンボル系列同士の相違度ε_ｋ，ｒを粒度の細かい相違度である局所的な誤り数の和として表せるのであれば、危険度重み付きＭＭＩの最適化は、ＭＭＩの事後確率計算と同様に単語か音素ラティス上でForward-Backward Algorithmを用いて行える。なぜならば危険度の重みは指数関数で表現されており，Forward-Backward Algorithmは対数領域のスコアの和を用いて算出されるため、そのままスコアに重み付きの危険度（ψσε_ｋ，ｒ）を足しこむことで反映できるからである。ψσε_ｋ，ｒをそのまま対数領域で足し込む計算が出来るおかげで、ψσε_ｋ，ｒ＝ψσ（ｅ_{ｊ，ｒ，１}＋ｅ_{ｊ，ｒ，２}＋…）のように細粒的な誤り数を分割して計算する事も容易に実装できる。単語か音素ラティス上での識別学習ではそのような分割は不可欠である。ここではｅ_{ｊ，ｒ，ｉ}はシンボル系列Ｓ_ｊと正解シンボル系列Ｓ_ｒとの全体の誤り率ε_ｊ，ｒを構成する系列内のｉ番目のシンボル（もしくは部分系列）間の局所的な誤り数である。例えば、音声認識ではε_ｊ，ｒはシンボル系列全体の音素誤り数で、ｅ_{ｊ，ｒ，ｉ}はｉ番目のシンボル（もしくは部分シンボル系列）での音素誤り数としてとれる。

最適化に使用する危険度重み付きＭＭＩのΛに対する微分は、重みなしのＭＭＩの微分（式（６））と同様に以下のように解析的に計算できる。

危険度重み付きＭＭＩでは相違度（誤り率）を指数関数の因子の形で目的関数に反映させているが、その「危険度の重み」と真の誤り数とは異なる。特に、式（７）での指数関数の使用はヒューリスティックであって、目的関数が危険度の重みを持った相互情報量であるという以外には意味ははっきりしない。単語または音素の誤り数を反映していると言っても、単語か音素の誤り数のモデルにそのままなっているわけではない。本発明の狙いは明確に単語・音素誤り数との強い関係を持った識別学習用の目的関数を用いた音響モデルパラメータ学習装置を提供することである。

本発明のポイントは、既存のＭＭＩ学習法の目的関数の微分計算を元に、認識結果のシンボル系列と正解系列の相違度（誤り数）を明確に表現した、相互情報量ではない新しい目的関数を用いて、パターン認識システムパラメータの最適化を行うことである。また、本発明の音響モデルパラメータ学習装置は、学習用音声データの特徴量、前記学習用音声データに対する教師ラベル、音響モデルパラメータの初期値、平滑化パラメータから音響モデルパラメータを求める。

本発明の音響モデルパラメータ学習装置は、記録部、エラー値カウント部、微分値算出部、音響モデルパラメータ更新部、収束判定部を備える。記録部は、危険度重み付きの目的関数と複数のシンボル系列で構成された言語モデルとを記録している。エラー値カウント部は、あらかじめ定めた粒度で、シンボル系列ごとに教師ラベルとの相違度を、危険度として求める。微分値算出部は、危険度の重みで目的関数を微分し、危険度の重みを０とした関数に、特徴量、教師ラベル、シンボル系列、初期値または更新後の音響モデルパラメータ、平滑化パラメータ、危険度を代入した値である微分値を求める。もしくは、微分値算出部は、目的関数に、特徴量、教師ラベル、シンボル系列、初期値または更新後の音響モデルパラメータ、平滑化パラメータ、危険度、危険度の重みを代入した値である第１目的関数値と、目的関数に、特徴量、教師ラベル、シンボル系列、初期値または更新後の音響モデルパラメータ、危険度、平滑化パラメータ、符号を反転させた前記危険度の重みを代入した値である第２目的関数値との差分を求める。音響モデルパラメータ更新部は、微分値もしくは差分に応じた更新量だけ音響モデルパラメータを変更することで、音響モデルパラメータを更新する。収束判定部は、音響モデルパラメータの更新があらかじめ定めた条件を満たす場合には、更新後の音響モデルパラメータを求める音響モデルパラメータとし、当該条件を満たさない場合には、微分値算出部と音響モデルパラメータ更新部の処理を繰り返す。

本発明の音響モデルパラメータ学習装置によれば、明確に単語・音素誤り数との強い関係を持った識別学習用の目的関数を用いることができる。また、相互情報量最大化の枠組みで粒度の細かい相違度を用いることができるので、実装が容易でかつ高い認識性能を示す識別学習が可能である。

音声認識装置の機能構成例を示す図。音声認識装置の処理フロー例を示す図。従来の音響モデル作成装置の機能構成例を示す図。従来の音響モデル作成装置の処理フロー例を示す図。本発明の音響モデルパラメータ学習装置の機能構成例を示す図。本発明の音響モデルパラメータ学習装置の処理フローを示す図。最尤推定法（ＭＬ）、従来識別学習法（ＭＭＩ）と本発明の方法（ｄＭＭＩ）に関する音声認識単語誤り率を示した図。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

数学的な解析
まず、本発明の数学的な解析について説明する。危険度重み付きＭＭＩの目的関数の危険度の重みσに関する微分は、式（９）のようになる。

この微分は任意の危険度の重みσに対して有効なので、σ＝０でも有効である。σ＝０での微分値を求める式は、式（９）にσ＝０を代入することにより以下のように

となる。なお、式（９）、（１０）において、

は、それぞれ言語モデルを構成するＫ個のシンボル系列についての総和を示している。

以上の解析結果から危険度重み付きＭＭＩのσに対する微分（式（１０））は、指数関数因子型の重みではなく誤り率ε_ｋ’,ｒそのものの積となっている。したがって、式（１０）の意味は危険度重み付きＭＭＩの目的関数以上に認識システムの相違度である誤り率のモデルまたは誤り率を反映した目的関数であるといえる。例えば、平滑化パラメータψを大きくとればスコアの一番高いシンボル系列Ｓ＾が支配的になり、式（１０）はＳ＾と正解系列との誤り数に等しくなる、と言う解釈を与えることができる。つまり、平滑化パラメータψによっては式（１０）が、認識システムが学習データに関して実際に起こす誤り数を近似的に表現しており、粒度の細かい相違度を減らすように識別学習が行われるため、認識誤り率最小化を保障した学習法となる。

識別学習の研究では、別のルートから式（１０）の形の目的関数が提案されている（非特許文献６）。しかし、上記のようなＭＭＩとの解析的関係付けは今まで知られていなかった。また、式（１０）の音響モデルパラメータΛに対する微分の計算は、ＭＭＩのΛに対する微分の計算（式（４），（５），（６））とは大きく異なり、困難な計算になる。式（１０）の右辺に基づいた従来の識別学習の実装法は非特許文献６にあるため詳細な説明は省略するが、端的に問題を述べると、式（１０）に現れるε_ｋ’,ｒは対数領域ではlog ε_ｋ’,ｒとして扱わなければならないので、ε_ｊ,ｒ＝（ｅ_{ｊ，ｒ，１}＋ｅ_{ｊ，ｒ，２}＋…）のように細粒的な誤り数によって分割をするとlog （ｅ_{ｊ，ｒ，１}＋ｅ_{ｊ，ｒ，２}＋…）を扱わなければならなくなる。つまり対数領域での単純な和の形で表現することができない。したがって、ＭＭＩにおける事後確率計算の実装とは違い、単語か音素ラティス上でのForward-Backward Algorithmを用いることができないため、実装が大変困難となり、従来の式（１０）に基づいた識別学習には特別な計算モジュールが必要である。

本発明のポイントは、危険度重み付きＭＭＩの危険度重みσに関する解析的微分（式（１０））の関係を元にして、危険度重み付きＭＭＩのσに対する数値的微分を用いて、式（１０）の目的関数の最適化に相当する操作を、簡易に実現する識別学習を行う事である。本発明で提案する評価関数は、式（１０）に示された微分型の式、もしくは解析的微分（式（１０））を数値微分で表現する式（１１）である。

上記の解析的微分と微分そのものの定義からσ_１＝Δσ／２、σ_２＝−Δσ／２とおくと、

という関係が成り立つ。つまり、Δσを小さくすれば、

という関係が成り立つ。したがって、式（１１）の数値微分においてσ_１−σ_２を十分小さくとれば、正確に誤り率を反映させた目的関数を実質扱うことに相当する。つまり、計算コストが軽く、特別な計算モジュールが不要であるという長所を有するが、誤り率を直接表さない危険度重み付きＭＭＩを、Δσと−Δσでそれぞれ計算し、それらに基づく数値微分を式（１１）により計算することにより、近似的に本来計算コストの高い（特別な計算モジュール要）認識誤り率を表す目的関数を扱うことができる。このようにして、目的関数の微分値が算出されれば、従来のＭＭＩで用いられるモデル更新法を利用して音響モデルパラメータの学習を実現することが可能となる。

実施形態
図５に本発明の音響モデルパラメータ学習装置の機能構成例を、図６に音響モデルパラメータ学習装置の処理フローを示す。音響モデルパラメータ学習装置１１０は、音響モデル作成装置１００に含まれる構成部である。音響モデル作成装置１００は、さらに特徴抽出部７３０、音響モデルの初期値Λ_０や平滑化パラメータψなどを記録する記録部７１８などから構成される。音響モデルパラメータ学習装置１１０は、記録部１１９、エラー値カウント部１１２、微分値算出部１１３、音響モデルパラメータ更新部１１４、収束判定部１１５を備える。記録部１１９は、危険度重み付きの目的関数１１１と複数のシンボル系列で構成された言語モデル７２０とを記録している。

特徴抽出部７３０は、学習用音声データ９３０を読み込み（Ｓ９３０）、特徴量を抽出する（Ｓ７３１）。微分値算出部１１３は、学習用音声データに対する教師ラベルを読み取る（Ｓ１４０）。エラー値カウント部１１２は、あらかじめ定めた粒度で、シンボル系列ごとに教師ラベル９４０との相違度を、危険度として求める（Ｓ１１２）。特に、あらかじめ定めた粒度を音素以下の粒度にすれば、相互情報量最大化の枠組みで粒度の細かい相違度を用いることが可能となる。

微分値算出部１１３は、危険度の重みで目的関数を微分し、危険度の重みを０とした関数に、特徴量、教師ラベル、シンボル系列、初期値または更新後の音響モデルパラメータ、平滑化パラメータ、危険度を代入した値である微分値を求める（Ｓ１１３）。なお、危険度の重みで目的関数を微分し、危険度の重みを０とした関数とは、例えば、

である。また、初期値または更新後の音響モデルパラメータとは、記録部７１８に記録された音響モデルの初期値Λ_０または後述する繰り返し処理によって更新された音響モデルパラメータΛである。

音響モデルパラメータ更新部１１４は、微分値に応じた更新量だけ音響モデルパラメータを変更することで、音響モデルパラメータを更新する（Ｓ１１４）。微分値に応じた更新量は、微分値にあらかじめ定めた定数を乗算した値とすればよい。例えば微分値の１０００分の１とすればよい。収束判定部１１５は、音響モデルパラメータの更新があらかじめ定めた条件を満たす場合には、更新後の音響モデルパラメータを求める音響モデルパラメータとし、当該条件を満たさない場合には、微分値算出部と音響モデルパラメータ更新部の処理を繰り返す（Ｓ１１５）。あらかじめ定めた条件とは、微分値や更新量が閾値以下になること、繰り返し回数が所定の回数以上になることなどである。そして、音響モデルパラメータを出力する（Ｓ７１１）。

音響モデルパラメータ学習装置１１０はこのような構成なので、明確に単語・音素誤り数との強い関係を持った識別学習用の目的関数を用いることができる。また、相互情報量最大化の枠組みで粒度の細かい相違度を用いることができるので、実装が容易でかつ高い認識性能を示す識別学習が可能である。

［変形例１］
実施例１では、微分値算出部１１３は微分値を求めた。この処理は、以下のような差分を求める処理としてもよい。具体的には、目的関数に、特徴量、教師ラベル、シンボル系列、初期値または更新後の音響モデルパラメータ、平滑化パラメータ、危険度、危険度の重みを代入した値である第１目的関数値を求める。また、目的関数に、特徴量、教師ラベル、シンボル系列、初期値または更新後の音響モデルパラメータ、危険度、平滑化パラメータ、符号を反転させた前記危険度の重みを代入した値である第２目的関数値を求める。そして、第１目的関数値と第２目的関数値との差分を求める。この場合、音響モデルパラメータ更新部１１４は、差分に応じた更新量だけ音響モデルパラメータを変更することで、音響モデルパラメータを更新する。変形例１も実質的に実施例１と同じなので、実施例１と同じ効果を得ることができる。

効果の確認
音声認識実験により誤り数（例：音声認識での単語または音素誤り数）を表さないＭＭＩよりも、数値微分型目的関数を用いる提案法が識別性能の向上をさせる効果を確認した。音声認識評価実験では従来法（ＭＭＩ）と本発明の方法を比較した。また、識別学習ではない最尤推定法（ML: Maximum Likelihood）も評価に加えている。本発明中の実装の設定としてΔσ＝0.002を使用した（式（１４））。マサチューセッツ工科大学の講演音声データベース（およそ100 時間分の音響データ）を利用して状態数2500のＨＭＭ、状態ごとに３２混合ガウス分布のＨＭＭを用意した音響モデルに対して、そのモデルパラメータをそれぞれの学習法により推定した。認識実験の際に使用した言語モデルの語彙数は１６万単語である。認識結果（単語誤り率）は図７の通りである。図７は、最尤推定法（ＭＬ）、従来識別学習法（ＭＭＩ）と本発明の方法（ｄＭＭＩ）に関する音声認識単語誤り率を示した図である。数値微分型目的関数を用いた提案法（ｄＭＭＩ，31.0%）は従来法（ＭＭＩ，32.8%）よりも1.8%認識率を改善させることができた。これより、提案法は従来のＭＭＩと同様の計算量ながらも十分な認識性能を示すことが実験的に確認できた。これは本発明の有効性を示すものである。

プログラム等
上述の処理フローは、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１００音響モデル作成装置１１０音響モデルパラメータ学習装置
１１２エラー値カウント部１１３微分値算出部
１１４音響モデルパラメータ更新部１１５収束判定部
１１９記録部７００音声認識装置
７３０特徴抽出部７５０単語列探索部
８００音響モデル作成装置８１０音響モデルパラメータ学習部

Claims

学習用音声データの特徴量、前記学習用音声データに対する教師ラベル、音響モデルパラメータの初期値、平滑化パラメータから、音響モデルパラメータを求める音響モデルパラメータ学習装置であって、
危険度重み付きの目的関数と複数のシンボル系列で構成された言語モデルとを記録した記録部と、
あらかじめ定めた粒度で、前記シンボル系列ごとに、前記教師ラベルとの相違度を危険度として求めるエラー値カウント部と、
危険度の重みで前記目的関数を微分し、危険度の重みを０とした関数に、前記特徴量、前記教師ラベル、前記シンボル系列、初期値または更新後の音響モデルパラメータ、前記平滑化パラメータ、前記危険度を代入した値である微分値を求める微分値算出部と、
前記微分値に応じた更新量だけ前記音響モデルパラメータを変更することで、音響モデルパラメータを更新する音響モデルパラメータ更新部と、
音響モデルパラメータの更新があらかじめ定めた条件を満たす場合には、更新後の音響モデルパラメータを求める音響モデルパラメータとし、当該条件を満たさない場合には、前記微分値算出部と前記音響モデルパラメータ更新部の処理を繰り返す収束判定部と、
を備える音響モデルパラメータ学習装置。
学習用音声データの特徴量、前記学習用音声データに対する教師ラベル、音響モデルパラメータの初期値、平滑化パラメータ、危険度の重みから、音響モデルパラメータを求める音響モデルパラメータ学習装置であって、
危険度重み付きの目的関数と複数のシンボル系列で構成された言語モデルとを記録した記録部と、
あらかじめ定めた粒度で、前記シンボル系列ごとに、前記教師ラベルとの相違度を危険度として求めるエラー値カウント部と、
前記目的関数に、前記特徴量、前記教師ラベル、前記シンボル系列、初期値または更新後の音響モデルパラメータ、前記平滑化パラメータ、前記危険度、前記危険度の重みを代入した値である第１目的関数値と、前記目的関数に、前記特徴量、前記教師ラベル、前記シンボル系列、初期値または更新後の音響モデルパラメータ、前記危険度、前記平滑化パラメータ、符号を反転させた前記危険度の重みを代入した値である第２目的関数値との差分を求める微分値算出部と、
前記差分に応じた更新量だけ前記音響モデルパラメータを変更することで、音響モデルパラメータを更新する音響モデルパラメータ更新部と、
音響モデルパラメータの更新があらかじめ定めた条件を満たす場合には、更新後の音響モデルパラメータを求める音響モデルパラメータとし、当該条件を満たさない場合には、前記微分値算出部と前記音響モデルパラメータ更新部の処理を繰り返す収束判定部と、
を備える音響モデルパラメータ学習装置。
請求項１または２記載の音響モデルパラメータ学習装置であって、
前記粒度が音素以下の粒度であること
を特徴とする音響モデルパラメータ学習装置。
学習用音声データの特徴量、前記学習用音声データに対する教師ラベル、音響モデルパラメータの初期値、平滑化パラメータから、音響モデルパラメータを求める音響モデルパラメータ学習方法であって、
危険度重み付きの目的関数と複数のシンボル系列で構成された言語モデルとをあらかじめ記録しておき、
あらかじめ定めた粒度で、前記シンボル系列ごとに、前記教師ラベルとの相違度を危険度として求めるエラー値カウントステップと、
危険度の重みで前記目的関数を微分し、危険度の重みを０とした関数に、前記特徴量、前記教師ラベル、前記シンボル系列、初期値または更新後の音響モデルパラメータ、前記平滑化パラメータ、前記危険度を代入した値である微分値を求める微分値算出ステップと、
前記微分値に応じた更新量だけ前記音響モデルパラメータを変更することで、音響モデルパラメータを更新する音響モデルパラメータ更新ステップと、
音響モデルパラメータの更新があらかじめ定めた条件を満たす場合には、更新後の音響モデルパラメータを求める音響モデルパラメータとし、当該条件を満たさない場合には、前記微分値算出ステップと前記音響モデルパラメータ更新ステップを繰り返す収束判定ステップと、
を有する音響モデルパラメータ学習方法。
学習用音声データの特徴量、前記学習用音声データに対する教師ラベル、音響モデルパラメータの初期値、平滑化パラメータ、危険度の重みから、音響モデルパラメータを求める音響モデルパラメータ学習方法であって、
危険度重み付きの目的関数と複数のシンボル系列で構成された言語モデルとをあらかじめ記録しておき、
あらかじめ定めた粒度で、前記シンボル系列ごとに、前記教師ラベルとの相違度を危険度として求めるエラー値カウントステップと、
前記目的関数に、前記特徴量、前記教師ラベル、前記シンボル系列、初期値または更新後の音響モデルパラメータ、前記平滑化パラメータ、前記危険度、前記危険度の重みを代入した値である第１目的関数値と、前記目的関数に、前記特徴量、前記教師ラベル、前記シンボル系列、初期値または更新後の音響モデルパラメータ、前記危険度、前記平滑化パラメータ、符号を反転させた前記危険度の重みを代入した値である第２目的関数値との差分を求める微分値算出ステップと、
前記差分に応じた更新量だけ前記音響モデルパラメータを変更することで、音響モデルパラメータを更新する音響モデルパラメータ更新ステップと、
音響モデルパラメータの更新があらかじめ定めた条件を満たす場合には、更新後の音響モデルパラメータを求める音響モデルパラメータとし、当該条件を満たさない場合には、前記微分値算出ステップと前記音響モデルパラメータ更新ステップを繰り返す収束判定ステップと、
を有する音響モデルパラメータ学習方法。
請求項４または５記載の音響モデルパラメータ学習方法であって、
前記粒度が音素以下の粒度であること
を特徴とする音響モデルパラメータ学習方法。
請求項１から３のいずれかに記載の音響モデルパラメータ学習装置としてコンピュータを動作させる音響モデルパラメータ学習プログラム。