JP5079760B2 - 音響モデルパラメータ学習装置、音響モデルパラメータ学習方法、音響モデルパラメータ学習プログラム - Google Patents

音響モデルパラメータ学習装置、音響モデルパラメータ学習方法、音響モデルパラメータ学習プログラム Download PDF

Info

Publication number
JP5079760B2
JP5079760B2 JP2009198362A JP2009198362A JP5079760B2 JP 5079760 B2 JP5079760 B2 JP 5079760B2 JP 2009198362 A JP2009198362 A JP 2009198362A JP 2009198362 A JP2009198362 A JP 2009198362A JP 5079760 B2 JP5079760 B2 JP 5079760B2
Authority
JP
Japan
Prior art keywords
acoustic model
model parameter
risk
learning
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009198362A
Other languages
English (en)
Other versions
JP2011048262A (ja
Inventor
晋治 渡部
マクダーモット エリック
篤 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009198362A priority Critical patent/JP5079760B2/ja
Publication of JP2011048262A publication Critical patent/JP2011048262A/ja
Application granted granted Critical
Publication of JP5079760B2 publication Critical patent/JP5079760B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、特徴量に基づいて音声を認識するための識別的学習を行う音響モデルパラメータ学習装置、音響モデルパラメータ学習方法、音響モデルパラメータ学習プログラムに関する。
音声認識
図1に音声認識装置の機能構成例、図2に音声認識装置の処理フロー例を示す。音声認識装置700は、特徴抽出部730、単語列探索部750、記録部(図示していない)などから構成される。そして、あらかじめ音響モデル710、言語モデル720を記録部に記録している。音響モデル710は、音声の音響的特徴をモデル化したものである。言語モデル720は音素や単語といった多数のシンボル系列から構成されている。単語列探索部750は音響モデル710と言語モデル720を読み込む(S710、S720)。そして、特徴抽出部730が認識用音声データを読み込み(S910)、音声の特徴量を抽出する(S730)。特徴量とは、例えばパワーやメルフィルタバンクケプストラム係数などで構成される時系列特徴量ベクトルである。単語列探索部750は、例えば、音響モデル710を用いて時系列特徴量ベクトルに対するスコアを算出し、これと言語モデルを構成するすべてのシンボル系列に対するスコアとを比較して単語列探索を行う(S750)。そして、認識結果として単語列を出力する(S920)。
次に音響モデル710について説明する。音響モデルは、音声の音響的特徴をモデル化したものであり、認識用音声データと音響モデルを参照することにより音声データを音素や単語といったシンボルに変換する。そのため、音響モデルは、音声認識装置の性能を大きく左右する。通常、音声認識用音響モデルでは、各音素をLeft to rightの隠れマルコフモデル(HMM)でHMM状態の出力確率分布を混合ガウス分布モデル(GMM)で表現する。そのため、実際に音響モデルとして記録部に記録されているのは、音素などの各シンボルにおけるHMMの状態遷移確率a、GMMの混合重み因子w、及びガウス分布の平均ベクトルパラメータμおよび共分散行列パラメータΣとなる。これらを音響モデルパラメータと呼びその集合をΛとする。つまり、Λ={a,w,μ,Σ}とする。音響モデルパラメータΛの値を正確に求めるのが音響モデルの作成過程となり、この過程を音響モデル作成方法と呼ぶ。近年音響モデルは、確率統計的手法により大量の音声データとそのラベル情報から音響モデルパラメータΛを学習することにより作成される。通常学習データに対しては、その何れの部分が何れの音素であるかを示すラベル情報(教師ラベル)が与えられている。ラベル情報が与えられていない場合は、人が聞いてラベルを振ったり、また音声認識装置を用いたりすることによりラベル情報を付与する。以降では学習用音声データにはラベル情報が上記のような方法で付与されているものとする。
音響モデル作成
図3に音響モデル作成装置の機能構成例、図4に音響モデル作成装置の処理フロー例を示す。音響モデル作成装置800は、特徴抽出部730、音響モデルパラメータ学習部810、記録部(図示していない)などで構成される。そして、特徴抽出部730は、学習用音声データ930を読み込み(S930)、特徴量を抽出する(S731)。音響モデルパラメータ学習部810は、学習用音声データに対する教師ラベルを読み取り(S940)、特徴量と教師ラベルとを比較することにより、音響モデルパラメータΛを求める(S810)。より具体的には、教師ラベルにより得られる学習データ中の各音素に対応するデータ(例えば、時系列特徴量ベクトル)から、尤度または識別性能を最大化するように音響モデルパラメータΛ(HMMの状態遷移確率a、GMMの混合重み因子w、及びガウス分布の平均ベクトルパラメータμ、共分散行列パラメータΣ)を推定する。尤度を最大化する方法を最尤学習、識別性能を最大化する方法を識別学習と呼ぶ。なお、本発明では、識別性能の向上を目的とした識別学習に焦点を当てる。
音響モデルパラメータを識別的に学習する手法の従来法としては最大相互情報量学習(MMI:Maximum Mutual Information)がある。最大相互情報量学習では、尤度を向上させる学習法以上に、正しい単語列(正解)が他の単語列(不正解)よりも認識されやすくなるように、音響モデルパラメータを識別的に推定する方法であり、一般に最尤学習に比べて認識性能は向上する。最大相互情報量学習はシンプルかつ効果的な識別学習であり、現状の音声認識技術においては代表的な識別学習の従来手法である。
最大相互情報量学習法(MMI)にもとづく識別学習
パターン認識誤りの多くは、特徴量空間上で隣接する他シンボルとの境界周辺に位置するパターンの混同に起因する。これを抑制するために、学習の段階で正解シンボルに属する学習データが、隣接する正解以外のシンボルに属してしまうことを極力減らすようにモデルパラメータを推定することが有効である。このようにシンボル間識別能力の向上を積極的に図る枠組みは総称して識別的学習(Discriminative training)と呼ばれている。以下、識別的学習法の代表的な実現法のひとつである最大相互情報量学習(MMI:Maximum Mutual Information)(非特許文献1)を、シンボル系列を同定するパターン認識に適用する場合(非特許文献2)を例に取り説明する。MMI学習においては、後述のように入力パターンと正解シンボル系列の相互情報量を定式化し、その最大化を図る。相互情報量の基準の最大化と識別誤りの最小化は必ずしも一致しないが、通常の最尤学習よりもパターン認識システムの識別能力を上げる効果があることが知られている(非特許文献1)。パターン認識システムのデータ入力である特徴ベクトル系列Χを以下のように表現できる。
Figure 0005079760
ただし、Nはフレームの数、nは1からNの整数である。つまり、Χは1からNフレーム目までのD次元特徴ベクトルで表現されるデータである。Χに対する正解系列が与えられている場合(学習時または評価時)、その正解系列をSと記述する(学習時の概要を示す図3では、正解系列は「教師ラベル」と記している)。また、認識システムに対してΧが与えられ、Χに対して一番「スコア」の高いシンボル系列S^が認識されたとする(図1、2)。MMI学習では、スコアは、シンボル系列Sと特徴ベクトル系列Χの結合確率(joint probability)で次のように定義される。
Figure 0005079760
ここで、P(S)はシンボル系列Sの事前確率であって「言語スコア」と呼ばれ、「言語モデル」によって算出される。pΛ(X|S)はデータXに対する条件付き確率密度であって「音響スコア」と呼ばれ、「音響モデル」によって算出される。Λは認識システムが持つ修正可能なシステムパラメータの集合である(上述では、音響モデルパラメータの例を説明している)。本発明の説明は音響モデルを中心にしているため、修正可能なシステムパラメータとして主に音響モデルパラメータに焦点を当てるが、本手法は原理的には言語モデルパラメータ(一般には系列の事前確率のパラメータ)に焦点を当てることも可能である。
本来、識別学習の目的関数としては、経験ベイズリスクや最小音素誤りなど様々な定義を与えることが可能である。MMI型の目的関数においては、与えられた教師ラベル付き学習用データΧと任意のシステムパラメータΛを用いて以下のように表現される。
Figure 0005079760
ここではψはあらゆるシンボル系列に共通なパラメータであり、スコアの平滑化の役割を担う。ψの値をコントロールすることによって、式(3)の分母がスコアの一番高いシンボル系列に支配されるか、もしくはあらゆるシンボル系列スコアの平均で表現されるか、と言ったスコアの調節が可能である(ここでは説明の都合により、相互情報量ではなく式(3)のようなマイナス相互情報量を用いる。この場合最適化手法によって、マイナス相互情報量式(3)の最小化を図ることにより、相互情報量最大化を実現する。つまり式(3)の最小化は相互情報量の最大化と等価である。
目的関数の微分に基づく最適化
MMIを用いた識別学習は式(3)を最小にするようにパラメータΛを修正して行くプロセスである(図3、4ではこのプロセスは「音響モデルパラメータ学習部」と記している)。学習プロセスにおいて利用される最適化手法は,Extended Baum-Welch法や凸最適化法などの様々な方法がある(非特許文献1,2,3)。なお、本発明はこれらの個々の最適化手法のいずれにおいても利用することができる手法である。
最適化手法には、次式のような目的関数のシステムパラメータΛに対する微分に基づいているものもある。
Figure 0005079760
式(4)では、全体目的関数の微分は可能な全ての(K個の)シンボル系列での微分形の和で表現される。MMI法のメリットの1つは目的関数の微分計算の容易さである。任意のシンボル系列がパラメータΛを持つ際に、MMIの目的関数の微分は次のように扱うことができる。まず目的関数の表現を次のように変える。
Figure 0005079760
次に式(5)の任意シンボル系列Sに関する微分を考えると、式(4)右辺の1番目の微分計算は以下のようになる。
Figure 0005079760
式(4)を計算機上に実装するためには、式(4)右辺の2番目の微分計算
Figure 0005079760
の具体系が必要である。しかしこの具体系は、HMMに基づく式(2)を使用する限り、MMI以外の様々な目的関数においても同様の具体系を用いることが可能であり、この具体系は広く知られている(非特許文献2)ため、本明細書では具体系についての説明は割愛する。ここでMMIの微分の容易さは大変重要な性質である。なぜなら式(6)で表現されるのは基本的に任意のシンボル系列Sの事後確率である。つまり、MMI学習法の微分の計算とシンボル系列の事後確率の計算が同等であることが言える。シンボル系列の事後確率値の計算は音声認識の分野で広く用いられており、簡潔かつ表現力の高い認識結果表現である「ラティス」(単語ネットワーク)を使用してForward-Backward Algorithmによって効率的に計算することができる(非特許文献4)。こう言った特長をもとに、音声認識業界では様々な研究・開発グループがMMIを利用して効率良く音声認識システムの識別学習を実現してきた。
また、相互情報量最大化(MMI)の枠組みで、粒度の細かい誤り率を少しでも反映させるように、MMIを拡張する方法の一つとして“Boosted MMI”という方法が提案されている(非特許文献5)。なお、粒度とは、シンボル系列の構成要素の大きさを示しており、粒度が細かい(または小さい)ものから粗い(または大きい)ものへ列挙すると、例えば、フレーム単位、音素単位、単語単位、文章単位である。
L. Bahl, P.F. Brown, P. V. de Souza, and K. L. Mercer, "Maximum Mutual Information Estimation of hidden Markov parameters for speech recognition," in Proc. IEEE ICASSP, 1986, vol. 1, pp. 49-52. E. McDermott, T.J. Hazen, J. Le Roux, A. Nakamura, and S. Katagiri, "Discriminative training for large vocabulary speech recognition using Minimum Classification Error," IEEE Transactions on Audio, Speech and Language Processing, vol. 15, no. 1, pp. 203-223, January 2007. Y. Normandin, R. Cardin, and R. De Mori, "High-Performance Connected Digit Recognition Using Maximum Mutual Information Estimation," IEEE Transactions on Speech and Audio Processing, vol. 2, no. 2, pp. 299-311, April 1994. V. Valtchev, J. J. Odell, P. C. Woodland, and S. J. Young, "Lattice-based discriminative training for large vocabulary speech recognition," in International Conference on Spoken Language Processing, 1996, vol. 2, pp. 605-609. D. Povey, D. Kanevsky, B. Kingsbury, B. Ramabhadran, G. Saon, and K. Visweswariah, "Boosted MMI for Model and Feature-Space Discriminative Training," in Proc. IEEE ICASSP, 2008, pp. 4057-4060. D. Povey and P. C. Woodland, "Minimum phone error and I-smoothing for improved discriminative traning," in Proc. IEEE ICASSP, 2002, Vol. 1, pp. 13-17.
上述のように、相互情報量最大化(MMI)の実装は他の識別学習法に比べて容易である。しかしながら、パターン認識にとって理想的な識別学習法ではない。具体的には、相互情報量の最大化と認識誤り率最小化は異なるものであり、相互情報量を最大にするモデルは識別能力を向上させるが、認識誤り率を最小にする保証はない。相互情報量と言う目的関数は相互情報量を反映するものなので、誤り率ではなく、誤り率の近似でもない。さらに、相互情報量の目的関数を示している式(3)の粒度は理想的でない。式(3)で表現されているのは認識候補シンボル系列(分母の方)と正解シンボル系列(分子の方)の全体的な比較であって、音素誤り率や単語誤り率との関係が不明確なだけではなく、音響モデルが想定している音素や単語などの粒度と比べて粒度の大きい目的関数である。例えば式(3)のケースでは、認識結果のシンボル系列が正解系列と一致するかしないかと言ったbinaryケースは粒度の大きい相違度として定義され、一方で音声認識の評価基準として用いられる単語または音素の誤り数は粒度の細かい(細粒的な)相違度として定義される。粒度の細かい相違度は、MMI以外の認識誤り率最小化による識別学習で良く用いられ、高い認識性能を示すことが知られている。しかし、その実装は大変困難である。一方、相互情報量の最大化では、粒度の大きい相違度を用いており、その実装は容易であるが認識性能は上記に比べて劣る。したがって、相互情報量最大化の枠組みで粒度の細かい相違度を用いることにより、実装が容易でかつ高い認識性能を示す識別学習の構築が望まれている。
危険度重み付きMMI(Boosted MMI)
非特許文献5の方法での目的関数は
Figure 0005079760
となる。ここではεk,rは任意シンボル系列Sと正解系列Sとの相違度を示す。以下では、シンボル系列が正解系列と一致する場合、εr,r=0であることを前提して説明する。εk,rはシンボル系列同士でのエディットディスタンス等の距離、またはbinary的なエラー(完全に一致するかしないかを0と1で表す)等の様々な粒度での相違度の表現が可能である。例えば、音声認識ではεk,rとしてシンボル系列同士の単語誤り数または音素誤り数といった粒度の細かい相違度を用いることもできる。このように式(7)によって、分母のシンボル系列にはそれぞれの正解系列との様々な粒度の相違度εk,rを与えることができ、それは分母の各シンボル系列に「危険度」を与えることに相当する。そして、パラメータσによってその危険度の重みをコントロールすることが可能であり、σ=0にすると危険度重みなしのMMIの目的関数(式(3))に一致する。
シンボル系列同士の相違度εk,rを粒度の細かい相違度である局所的な誤り数の和として表せるのであれば、危険度重み付きMMIの最適化は、MMIの事後確率計算と同様に単語か音素ラティス上でForward-Backward Algorithmを用いて行える。なぜならば危険度の重みは指数関数で表現されており,Forward-Backward Algorithmは対数領域のスコアの和を用いて算出されるため、そのままスコアに重み付きの危険度(ψσεk,r)を足しこむことで反映できるからである。ψσεk,rをそのまま対数領域で足し込む計算が出来るおかげで、ψσεk,r=ψσ(ej,r,1+ej,r,2+…)のように細粒的な誤り数を分割して計算する事も容易に実装できる。単語か音素ラティス上での識別学習ではそのような分割は不可欠である。ここではej,r,iはシンボル系列Sと正解シンボル系列Sとの全体の誤り率εj,rを構成する系列内のi番目のシンボル(もしくは部分系列)間の局所的な誤り数である。例えば、音声認識ではεj,rはシンボル系列全体の音素誤り数で、ej,r,iはi番目のシンボル(もしくは部分シンボル系列)での音素誤り数としてとれる。
最適化に使用する危険度重み付きMMIのΛに対する微分は、重みなしのMMIの微分(式(6))と同様に以下のように解析的に計算できる。
Figure 0005079760
危険度重み付きMMIでは相違度(誤り率)を指数関数の因子の形で目的関数に反映させているが、その「危険度の重み」と真の誤り数とは異なる。特に、式(7)での指数関数の使用はヒューリスティックであって、目的関数が危険度の重みを持った相互情報量であるという以外には意味ははっきりしない。単語または音素の誤り数を反映していると言っても、単語か音素の誤り数のモデルにそのままなっているわけではない。本発明の狙いは明確に単語・音素誤り数との強い関係を持った識別学習用の目的関数を用いた音響モデルパラメータ学習装置を提供することである。
本発明のポイントは、既存のMMI学習法の目的関数の微分計算を元に、認識結果のシンボル系列と正解系列の相違度(誤り数)を明確に表現した、相互情報量ではない新しい目的関数を用いて、パターン認識システムパラメータの最適化を行うことである。また、本発明の音響モデルパラメータ学習装置は、学習用音声データの特徴量、前記学習用音声データに対する教師ラベル、音響モデルパラメータの初期値、平滑化パラメータから音響モデルパラメータを求める。
本発明の音響モデルパラメータ学習装置は、記録部、エラー値カウント部、微分値算出部、音響モデルパラメータ更新部、収束判定部を備える。記録部は、危険度重み付きの目的関数と複数のシンボル系列で構成された言語モデルとを記録している。エラー値カウント部は、あらかじめ定めた粒度で、シンボル系列ごとに教師ラベルとの相違度を、危険度として求める。微分値算出部は、危険度の重みで目的関数を微分し、危険度の重みを0とした関数に、特徴量、教師ラベル、シンボル系列、初期値または更新後の音響モデルパラメータ、平滑化パラメータ、危険度を代入した値である微分値を求める。もしくは、微分値算出部は、目的関数に、特徴量、教師ラベル、シンボル系列、初期値または更新後の音響モデルパラメータ、平滑化パラメータ、危険度、危険度の重みを代入した値である第1目的関数値と、目的関数に、特徴量、教師ラベル、シンボル系列、初期値または更新後の音響モデルパラメータ、危険度、平滑化パラメータ、符号を反転させた前記危険度の重みを代入した値である第2目的関数値との差分を求める。音響モデルパラメータ更新部は、微分値もしくは差分に応じた更新量だけ音響モデルパラメータを変更することで、音響モデルパラメータを更新する。収束判定部は、音響モデルパラメータの更新があらかじめ定めた条件を満たす場合には、更新後の音響モデルパラメータを求める音響モデルパラメータとし、当該条件を満たさない場合には、微分値算出部と音響モデルパラメータ更新部の処理を繰り返す。
本発明の音響モデルパラメータ学習装置によれば、明確に単語・音素誤り数との強い関係を持った識別学習用の目的関数を用いることができる。また、相互情報量最大化の枠組みで粒度の細かい相違度を用いることができるので、実装が容易でかつ高い認識性能を示す識別学習が可能である。
音声認識装置の機能構成例を示す図。 音声認識装置の処理フロー例を示す図。 従来の音響モデル作成装置の機能構成例を示す図。 従来の音響モデル作成装置の処理フロー例を示す図。 本発明の音響モデルパラメータ学習装置の機能構成例を示す図。 本発明の音響モデルパラメータ学習装置の処理フローを示す図。 最尤推定法(ML)、従来識別学習法(MMI)と本発明の方法(dMMI)に関する音声認識単語誤り率を示した図。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
数学的な解析
まず、本発明の数学的な解析について説明する。危険度重み付きMMIの目的関数の危険度の重みσに関する微分は、式(9)のようになる。
Figure 0005079760
この微分は任意の危険度の重みσに対して有効なので、σ=0でも有効である。σ=0での微分値を求める式は、式(9)にσ=0を代入することにより以下のように
Figure 0005079760
となる。なお、式(9)、(10)において、
Figure 0005079760
は、それぞれ言語モデルを構成するK個のシンボル系列についての総和を示している。
以上の解析結果から危険度重み付きMMIのσに対する微分(式(10))は、指数関数因子型の重みではなく誤り率εk’,rそのものの積となっている。したがって、式(10)の意味は危険度重み付きMMIの目的関数以上に認識システムの相違度である誤り率のモデルまたは誤り率を反映した目的関数であるといえる。例えば、平滑化パラメータψを大きくとればスコアの一番高いシンボル系列S^が支配的になり、式(10)はS^と正解系列との誤り数に等しくなる、と言う解釈を与えることができる。つまり、平滑化パラメータψによっては式(10)が、認識システムが学習データに関して実際に起こす誤り数を近似的に表現しており、粒度の細かい相違度を減らすように識別学習が行われるため、認識誤り率最小化を保障した学習法となる。
識別学習の研究では、別のルートから式(10)の形の目的関数が提案されている(非特許文献6)。しかし、上記のようなMMIとの解析的関係付けは今まで知られていなかった。また、式(10)の音響モデルパラメータΛに対する微分の計算は、MMIのΛに対する微分の計算(式(4),(5),(6))とは大きく異なり、困難な計算になる。式(10)の右辺に基づいた従来の識別学習の実装法は非特許文献6にあるため詳細な説明は省略するが、端的に問題を述べると、式(10)に現れるεk’,rは対数領域ではlog εk’,rとして扱わなければならないので、εj,r=(ej,r,1+ej,r,2+…)のように細粒的な誤り数によって分割をするとlog (ej,r,1+ej,r,2+…)を扱わなければならなくなる。つまり対数領域での単純な和の形で表現することができない。したがって、MMIにおける事後確率計算の実装とは違い、単語か音素ラティス上でのForward-Backward Algorithmを用いることができないため、実装が大変困難となり、従来の式(10)に基づいた識別学習には特別な計算モジュールが必要である。
本発明のポイントは、危険度重み付きMMIの危険度重みσに関する解析的微分(式(10))の関係を元にして、危険度重み付きMMIのσに対する数値的微分を用いて、式(10)の目的関数の最適化に相当する操作を、簡易に実現する識別学習を行う事である。本発明で提案する評価関数は、式(10)に示された微分型の式、もしくは解析的微分(式(10))を数値微分で表現する式(11)である。
Figure 0005079760
上記の解析的微分と微分そのものの定義からσ=Δσ/2、σ=−Δσ/2とおくと、
Figure 0005079760
という関係が成り立つ。つまり、Δσを小さくすれば、
Figure 0005079760
という関係が成り立つ。したがって、式(11)の数値微分においてσ−σを十分小さくとれば、正確に誤り率を反映させた目的関数を実質扱うことに相当する。つまり、計算コストが軽く、特別な計算モジュールが不要であるという長所を有するが、誤り率を直接表さない危険度重み付きMMIを、Δσと−Δσでそれぞれ計算し、それらに基づく数値微分を式(11)により計算することにより、近似的に本来計算コストの高い(特別な計算モジュール要)認識誤り率を表す目的関数を扱うことができる。このようにして、目的関数の微分値が算出されれば、従来のMMIで用いられるモデル更新法を利用して音響モデルパラメータの学習を実現することが可能となる。
実施形態
図5に本発明の音響モデルパラメータ学習装置の機能構成例を、図6に音響モデルパラメータ学習装置の処理フローを示す。音響モデルパラメータ学習装置110は、音響モデル作成装置100に含まれる構成部である。音響モデル作成装置100は、さらに特徴抽出部730、音響モデルの初期値Λや平滑化パラメータψなどを記録する記録部718などから構成される。音響モデルパラメータ学習装置110は、記録部119、エラー値カウント部112、微分値算出部113、音響モデルパラメータ更新部114、収束判定部115を備える。記録部119は、危険度重み付きの目的関数111と複数のシンボル系列で構成された言語モデル720とを記録している。
特徴抽出部730は、学習用音声データ930を読み込み(S930)、特徴量を抽出する(S731)。微分値算出部113は、学習用音声データに対する教師ラベルを読み取る(S140)。エラー値カウント部112は、あらかじめ定めた粒度で、シンボル系列ごとに教師ラベル940との相違度を、危険度として求める(S112)。特に、あらかじめ定めた粒度を音素以下の粒度にすれば、相互情報量最大化の枠組みで粒度の細かい相違度を用いることが可能となる。
微分値算出部113は、危険度の重みで目的関数を微分し、危険度の重みを0とした関数に、特徴量、教師ラベル、シンボル系列、初期値または更新後の音響モデルパラメータ、平滑化パラメータ、危険度を代入した値である微分値を求める(S113)。なお、危険度の重みで目的関数を微分し、危険度の重みを0とした関数とは、例えば、
Figure 0005079760
である。また、初期値または更新後の音響モデルパラメータとは、記録部718に記録された音響モデルの初期値Λまたは後述する繰り返し処理によって更新された音響モデルパラメータΛである。
音響モデルパラメータ更新部114は、微分値に応じた更新量だけ音響モデルパラメータを変更することで、音響モデルパラメータを更新する(S114)。微分値に応じた更新量は、微分値にあらかじめ定めた定数を乗算した値とすればよい。例えば微分値の1000分の1とすればよい。収束判定部115は、音響モデルパラメータの更新があらかじめ定めた条件を満たす場合には、更新後の音響モデルパラメータを求める音響モデルパラメータとし、当該条件を満たさない場合には、微分値算出部と音響モデルパラメータ更新部の処理を繰り返す(S115)。あらかじめ定めた条件とは、微分値や更新量が閾値以下になること、繰り返し回数が所定の回数以上になることなどである。そして、音響モデルパラメータを出力する(S711)。
音響モデルパラメータ学習装置110はこのような構成なので、明確に単語・音素誤り数との強い関係を持った識別学習用の目的関数を用いることができる。また、相互情報量最大化の枠組みで粒度の細かい相違度を用いることができるので、実装が容易でかつ高い認識性能を示す識別学習が可能である。
[変形例1]
実施例1では、微分値算出部113は微分値を求めた。この処理は、以下のような差分を求める処理としてもよい。具体的には、目的関数に、特徴量、教師ラベル、シンボル系列、初期値または更新後の音響モデルパラメータ、平滑化パラメータ、危険度、危険度の重みを代入した値である第1目的関数値を求める。また、目的関数に、特徴量、教師ラベル、シンボル系列、初期値または更新後の音響モデルパラメータ、危険度、平滑化パラメータ、符号を反転させた前記危険度の重みを代入した値である第2目的関数値を求める。そして、第1目的関数値と第2目的関数値との差分を求める。この場合、音響モデルパラメータ更新部114は、差分に応じた更新量だけ音響モデルパラメータを変更することで、音響モデルパラメータを更新する。変形例1も実質的に実施例1と同じなので、実施例1と同じ効果を得ることができる。
効果の確認
音声認識実験により誤り数(例:音声認識での単語または音素誤り数)を表さないMMIよりも、数値微分型目的関数を用いる提案法が識別性能の向上をさせる効果を確認した。音声認識評価実験では従来法(MMI)と本発明の方法を比較した。また、識別学習ではない最尤推定法(ML: Maximum Likelihood)も評価に加えている。本発明中の実装の設定としてΔσ=0.002を使用した(式(14))。マサチューセッツ工科大学の講演音声データベース(およそ100 時間分の音響データ)を利用して状態数2500のHMM、状態ごとに32混合ガウス分布のHMMを用意した音響モデルに対して、そのモデルパラメータをそれぞれの学習法により推定した。認識実験の際に使用した言語モデルの語彙数は16万単語である。認識結果(単語誤り率)は図7の通りである。図7は、最尤推定法(ML)、従来識別学習法(MMI)と本発明の方法(dMMI)に関する音声認識単語誤り率を示した図である。数値微分型目的関数を用いた提案法(dMMI,31.0%)は従来法(MMI,32.8%)よりも1.8%認識率を改善させることができた。これより、提案法は従来のMMIと同様の計算量ながらも十分な認識性能を示すことが実験的に確認できた。これは本発明の有効性を示すものである。
プログラム等
上述の処理フローは、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
100 音響モデル作成装置 110 音響モデルパラメータ学習装置
112 エラー値カウント部 113 微分値算出部
114 音響モデルパラメータ更新部 115 収束判定部
119 記録部 700 音声認識装置
730 特徴抽出部 750 単語列探索部
800 音響モデル作成装置 810 音響モデルパラメータ学習部

Claims (7)

  1. 学習用音声データの特徴量、前記学習用音声データに対する教師ラベル、音響モデルパラメータの初期値、平滑化パラメータから、音響モデルパラメータを求める音響モデルパラメータ学習装置であって、
    危険度重み付きの目的関数と複数のシンボル系列で構成された言語モデルとを記録した記録部と、
    あらかじめ定めた粒度で、前記シンボル系列ごとに、前記教師ラベルとの相違度を危険度として求めるエラー値カウント部と、
    危険度の重みで前記目的関数を微分し、危険度の重みを0とした関数に、前記特徴量、前記教師ラベル、前記シンボル系列、初期値または更新後の音響モデルパラメータ、前記平滑化パラメータ、前記危険度を代入した値である微分値を求める微分値算出部と、
    前記微分値に応じた更新量だけ前記音響モデルパラメータを変更することで、音響モデルパラメータを更新する音響モデルパラメータ更新部と、
    音響モデルパラメータの更新があらかじめ定めた条件を満たす場合には、更新後の音響モデルパラメータを求める音響モデルパラメータとし、当該条件を満たさない場合には、前記微分値算出部と前記音響モデルパラメータ更新部の処理を繰り返す収束判定部と、
    を備える音響モデルパラメータ学習装置。
  2. 学習用音声データの特徴量、前記学習用音声データに対する教師ラベル、音響モデルパラメータの初期値、平滑化パラメータ、危険度の重みから、音響モデルパラメータを求める音響モデルパラメータ学習装置であって、
    危険度重み付きの目的関数と複数のシンボル系列で構成された言語モデルとを記録した記録部と、
    あらかじめ定めた粒度で、前記シンボル系列ごとに、前記教師ラベルとの相違度を危険度として求めるエラー値カウント部と、
    前記目的関数に、前記特徴量、前記教師ラベル、前記シンボル系列、初期値または更新後の音響モデルパラメータ、前記平滑化パラメータ、前記危険度、前記危険度の重みを代入した値である第1目的関数値と、前記目的関数に、前記特徴量、前記教師ラベル、前記シンボル系列、初期値または更新後の音響モデルパラメータ、前記危険度、前記平滑化パラメータ、符号を反転させた前記危険度の重みを代入した値である第2目的関数値との差分を求める微分値算出部と、
    前記差分に応じた更新量だけ前記音響モデルパラメータを変更することで、音響モデルパラメータを更新する音響モデルパラメータ更新部と、
    音響モデルパラメータの更新があらかじめ定めた条件を満たす場合には、更新後の音響モデルパラメータを求める音響モデルパラメータとし、当該条件を満たさない場合には、前記微分値算出部と前記音響モデルパラメータ更新部の処理を繰り返す収束判定部と、
    を備える音響モデルパラメータ学習装置。
  3. 請求項1または2記載の音響モデルパラメータ学習装置であって、
    前記粒度が音素以下の粒度であること
    を特徴とする音響モデルパラメータ学習装置。
  4. 学習用音声データの特徴量、前記学習用音声データに対する教師ラベル、音響モデルパラメータの初期値、平滑化パラメータから、音響モデルパラメータを求める音響モデルパラメータ学習方法であって、
    危険度重み付きの目的関数と複数のシンボル系列で構成された言語モデルとをあらかじめ記録しておき、
    あらかじめ定めた粒度で、前記シンボル系列ごとに、前記教師ラベルとの相違度を危険度として求めるエラー値カウントステップと、
    危険度の重みで前記目的関数を微分し、危険度の重みを0とした関数に、前記特徴量、前記教師ラベル、前記シンボル系列、初期値または更新後の音響モデルパラメータ、前記平滑化パラメータ、前記危険度を代入した値である微分値を求める微分値算出ステップと、
    前記微分値に応じた更新量だけ前記音響モデルパラメータを変更することで、音響モデルパラメータを更新する音響モデルパラメータ更新ステップと、
    音響モデルパラメータの更新があらかじめ定めた条件を満たす場合には、更新後の音響モデルパラメータを求める音響モデルパラメータとし、当該条件を満たさない場合には、前記微分値算出ステップと前記音響モデルパラメータ更新ステップを繰り返す収束判定ステップと、
    を有する音響モデルパラメータ学習方法。
  5. 学習用音声データの特徴量、前記学習用音声データに対する教師ラベル、音響モデルパラメータの初期値、平滑化パラメータ、危険度の重みから、音響モデルパラメータを求める音響モデルパラメータ学習方法であって、
    危険度重み付きの目的関数と複数のシンボル系列で構成された言語モデルとをあらかじめ記録しておき、
    あらかじめ定めた粒度で、前記シンボル系列ごとに、前記教師ラベルとの相違度を危険度として求めるエラー値カウントステップと、
    前記目的関数に、前記特徴量、前記教師ラベル、前記シンボル系列、初期値または更新後の音響モデルパラメータ、前記平滑化パラメータ、前記危険度、前記危険度の重みを代入した値である第1目的関数値と、前記目的関数に、前記特徴量、前記教師ラベル、前記シンボル系列、初期値または更新後の音響モデルパラメータ、前記危険度、前記平滑化パラメータ、符号を反転させた前記危険度の重みを代入した値である第2目的関数値との差分を求める微分値算出ステップと、
    前記差分に応じた更新量だけ前記音響モデルパラメータを変更することで、音響モデルパラメータを更新する音響モデルパラメータ更新ステップと、
    音響モデルパラメータの更新があらかじめ定めた条件を満たす場合には、更新後の音響モデルパラメータを求める音響モデルパラメータとし、当該条件を満たさない場合には、前記微分値算出ステップと前記音響モデルパラメータ更新ステップを繰り返す収束判定ステップと、
    を有する音響モデルパラメータ学習方法。
  6. 請求項4または5記載の音響モデルパラメータ学習方法であって、
    前記粒度が音素以下の粒度であること
    を特徴とする音響モデルパラメータ学習方法。
  7. 請求項1から3のいずれかに記載の音響モデルパラメータ学習装置としてコンピュータを動作させる音響モデルパラメータ学習プログラム。
JP2009198362A 2009-08-28 2009-08-28 音響モデルパラメータ学習装置、音響モデルパラメータ学習方法、音響モデルパラメータ学習プログラム Active JP5079760B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009198362A JP5079760B2 (ja) 2009-08-28 2009-08-28 音響モデルパラメータ学習装置、音響モデルパラメータ学習方法、音響モデルパラメータ学習プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009198362A JP5079760B2 (ja) 2009-08-28 2009-08-28 音響モデルパラメータ学習装置、音響モデルパラメータ学習方法、音響モデルパラメータ学習プログラム

Publications (2)

Publication Number Publication Date
JP2011048262A JP2011048262A (ja) 2011-03-10
JP5079760B2 true JP5079760B2 (ja) 2012-11-21

Family

ID=43834627

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009198362A Active JP5079760B2 (ja) 2009-08-28 2009-08-28 音響モデルパラメータ学習装置、音響モデルパラメータ学習方法、音響モデルパラメータ学習プログラム

Country Status (1)

Country Link
JP (1) JP5079760B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5738216B2 (ja) * 2012-02-27 2015-06-17 日本電信電話株式会社 特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム
JP5694976B2 (ja) * 2012-02-27 2015-04-01 日本電信電話株式会社 分散補正パラメータ推定装置、音声認識システム、分散補正パラメータ推定方法、音声認識方法及びプログラム
JP6121187B2 (ja) * 2013-02-13 2017-04-26 日本電信電話株式会社 音響モデル補正パラメータ推定装置、その方法及びプログラム
US10332028B2 (en) * 2015-08-25 2019-06-25 Qualcomm Incorporated Method for improving performance of a trained machine learning model

Also Published As

Publication number Publication date
JP2011048262A (ja) 2011-03-10

Similar Documents

Publication Publication Date Title
Park et al. A review of speaker diarization: Recent advances with deep learning
US7627474B2 (en) Large-vocabulary speech recognition method, apparatus, and medium based on multilayer central lexicons
WO2019151507A1 (ja) 学習装置、学習方法及び学習プログラム
US20210166679A1 (en) Self-training data selection apparatus, estimation model learning apparatus, self-training data selection method, estimation model learning method, and program
CN108520752A (zh) 一种声纹识别方法和装置
JP2014026455A (ja) メディアデータ解析装置、方法、及びプログラム
JP5079760B2 (ja) 音響モデルパラメータ学習装置、音響モデルパラメータ学習方法、音響モデルパラメータ学習プログラム
JP6121187B2 (ja) 音響モデル補正パラメータ推定装置、その方法及びプログラム
Navratil Recent advances in phonotactic language recognition using binary-decision trees.
JP4881357B2 (ja) 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
JP5288378B2 (ja) 音響モデルの話者適応装置及びそのためのコンピュータプログラム
JP6158105B2 (ja) 言語モデル作成装置、音声認識装置、その方法及びプログラム
JP5738216B2 (ja) 特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム
JP4537970B2 (ja) 言語モデル作成装置、言語モデル作成方法、そのプログラムおよびその記録媒体
JP2006201553A (ja) 識別的学習方法、装置、プログラム、音声認識装置、プログラム、これらのプログラムを記録した記録媒体
JP7279800B2 (ja) 学習装置、推定装置、それらの方法、およびプログラム
JP4705535B2 (ja) 音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラム
Seppi et al. Data pruning for template-based automatic speech recognition.
JP5308102B2 (ja) 誤り数別識別スコア・事後確率計算方法と、その方法を用いた誤り数重み付き識別学習装置とその方法と、その装置を用いた音声認識装置と、プログラムと記録媒体
JP2010250161A (ja) 相違度利用型識別的学習装置とその方法、そのプログラム
JP5694976B2 (ja) 分散補正パラメータ推定装置、音声認識システム、分散補正パラメータ推定方法、音声認識方法及びプログラム
Wiesler Optimization of discriminative models for speech and handwriting recognition
JP4801108B2 (ja) 音声認識装置、方法、プログラム及びその記録媒体
JP4801107B2 (ja) 音声認識装置、方法、プログラム及びその記録媒体
Senior et al. Learning improved linear transforms for speech recognition

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110721

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110825

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120730

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120821

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120829

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150907

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5079760

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350