JP5738216B2 - 特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム - Google Patents

特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム Download PDF

Info

Publication number
JP5738216B2
JP5738216B2 JP2012039818A JP2012039818A JP5738216B2 JP 5738216 B2 JP5738216 B2 JP 5738216B2 JP 2012039818 A JP2012039818 A JP 2012039818A JP 2012039818 A JP2012039818 A JP 2012039818A JP 5738216 B2 JP5738216 B2 JP 5738216B2
Authority
JP
Japan
Prior art keywords
correction parameter
feature amount
parameter
margin
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012039818A
Other languages
English (en)
Other versions
JP2013174768A (ja
Inventor
マーク デルクロア
マーク デルクロア
小川 厚徳
厚徳 小川
中谷 智広
智広 中谷
中村 篤
篤 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012039818A priority Critical patent/JP5738216B2/ja
Publication of JP2013174768A publication Critical patent/JP2013174768A/ja
Application granted granted Critical
Publication of JP5738216B2 publication Critical patent/JP5738216B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、入力データから特徴量を抽出し、その特徴量を用いて入力データを予め定義されたクラスタに分類するパターン認識において、クラスタ分類精度を向上させるための特徴量補正パラメータ推定技術に関する。例えば、音声認識の対象となる入力音声データ(以下「認識用音声データ」ともいう)から特徴量を抽出し、その特徴量を用いて認識用音声データを単語列に変換する音声認識における特徴量補正パラメータ推定装置及び特徴量補正パラメータ推定方法、並びに、特徴量補正パラメータにより補正した、認識用音声データの特徴量を用いて音声認識を行う音声認識システム及び音声認識方法、並びに、それらのプログラムに関する。
以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」、「」等は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
図1に従来の音声認識装置9の機能構成例、図2にその処理フロー例を示す。音声認識装置9は、特徴量抽出部91、単語列探索部92、記録部94等から構成される。
そして、予め音響モデル及び言語モデルを記録部94に記録している。音響モデルは、音声の音響的特徴をモデル化したものであり、音響モデルを参照することにより認識用音声データを音素や単語といったシンボルに変換する。通常、音声認識用音響モデルでは、各音素をLeft to rightのHMM(Hidden Markov Model:隠れマルコフモデル)で、HMM状態の出力確率分布をGMM(Gaussian Mixture Model:混合ガウス分布モデル)で表現する。そのため、実際に音響モデルとして記録部94に記録されているのは、音素などの各シンボルにおけるHMMの状態遷移確率、GMMの混合重み因子、及びガウス分布の平均ベクトルμ 及び共分散行列Σ 等となる。ただし、mは、GMMのガウス分布のインデックスである。これらを音響モデルパラメータと呼び、その集合をΛとする。言語モデルは音素や単語といった多数のシンボル系列から構成されており、図中のP(S )は言語モデルによって得られる対立候補シンボル系列S の確率(以下「言語確率」ともいう)である。なお、対立候補シンボル系列S とは音声認識結果となりうるシンボル系列であり、シンボル系列とは音素や単語等からなるシンボルの系列である。
単語列探索部92は音響モデルと言語モデルを読み込む(s91、s92)。特徴量抽出部91が認識用音声データを読み込み(s93)、音声の特徴量を抽出する(s94)。特徴量としては、例えば、MFCC(Mel Frequency Cepstral Coefficient:メル周波数ケプストラム係数)、ΔMFCC、ΔΔMFCC、対数パワー、Δ対数パワー等があり、これらが10〜100次元程度の特徴量ベクトルoを構成する。さらに、時系列の特徴量ベクトルである特徴量ベクトル系列Oを以下のように表現できる。
Figure 0005738216
ただし、Nはフレームの数、nは1からNの整数である。つまり、Oは1からNフレーム目までのD次元特徴量ベクトルで表現されるデータである。分析フレーム幅は30ms程度、分析フレームシフト幅は10ms程度で分析が実行される。
単語列探索部92は、例えば、まず、音響モデルに基づき、特徴量ベクトル系列Oに対するJ個の対立候補シンボル系列S を生成して、対立候補シンボル系列S 毎に音響スコアを算出する。ただし、j=1,2,…,Jであり、Jは1以上の整数である。次に、言語モデルに基づき、対立候補シンボル系列S 毎に言語スコアを算出する。さらに、音響スコアと言語スコアとを統合して、J個の対立候補シンボル系列S の中から、認識用音声データに対応する文として最も確からしい(最も音響スコアと言語スコアとを統合したスコアが高い)対立候補シンボル系列を探索し(s95)、その対立候補シンボル系列を認識結果(単語列)S^として出力する(s96)。
音声認識装置9が実際に置かれる環境は様々である。そのため、音響モデルを学習するための音声データ(以下、「学習用音声データ」ともいう)の特徴と実際に入力される音声データ(つまり、認識用音声データ)の特徴とが、一致しないことが多い。不一致の原因は、周囲の雑音環境、話者の多様性等であり、これらが音声認識精度を劣化させる。このため、これら周囲雑音環境や話者の多様性に対して頑健(ロバスト)な音声認識技術が求められている。
ロバスト音声認識技術の代表例として、特徴量補正技術を上げることができる。図3に特徴量補正部81を搭載した音声認識装置8の機能構成例、図4にその処理フロー例を示す。
予め特徴量補正パラメータ{A ,m }を記録部84に記録している。特徴量補正部81は特徴量補正パラメータ{A ,m }を読み込む(s81)。特徴量抽出部91で抽出した特徴量ベクトル系列Oを、単語列探索部92に送る前に、特徴量補正部81において、予め求めておいた特徴量補正パラメータ{A ,m }を用いて補正する(s82)。その他の処理フローは、特徴量補正部81を搭載していない通常の音声認識装置9と同じである。この特徴量ベクトル系列Oの補正は、最終的な音声認識精度を向上させることを目的として行われる。すなわち特徴量補正技術のポイントは、最終的な音声認識精度を向上させるための特徴量補正パラメータ{A ,m }をいかに推定するか、という点にある。
近年提案された特徴量補正技術の代表例として、MMI−SPLICE(Stereo Piecewise Linear Compensation for Environment)が挙げられる(非特許文献1参照)。MMI−SPLICEでは、特徴量補正パラメータ推定が識別的基準の一種である最大相互情報量(Maximum Mutual Information: MMI)基準で行われる。
識別的基準で行われるパラメータ推定(以下「識別学習」ともいう)は、元々、従来は最尤基準により行われていた音響モデルパラメータ推定を改良するために開発され、その後、特徴量補正パラメータの推定にも用いられるようになってきた。音響モデルパラメータの識別学習については、例えば、特許文献1及び非特許文献2に詳述されている。最尤基準で行われるパラメータ推定(以下「最尤学習」ともいう)は、学習データに対する尤度を最大化するように行われる。これに対し、識別学習では、正しい単語列(正解)が他の単語列(不正解)よりも認識されやすくなるように(言い換えると、識別性能を最大化するように)パラメータ推定が行われる。このため、一般には、最尤学習により推定された音響モデルパラメータや特徴量補正パラメータを用いるよりも、識別学習により推定された音響モデルパラメータや特徴量補正パラメータを用いる方が、最終的な音声認識精度が向上することが多い。
以下、MMI−SPLICEについて説明する(非特許文献1参照)。MMI−SPLICEでは、特徴量空間は、GMMで区分化される。すなわち、あるひとつの区分化された特徴量空間は、GMM中のあるひとつのガウス分布に確率的に対応する。また、ひとつの特徴量補正パラメータ群が、ひとつの区分化された特徴量空間(ガウス分布)に帰属する。区分化された特徴量空間の数をKとする。そして、補正前の特徴量が各区分化された特徴量空間に帰属する事後確率を重みとして、各区分化された特徴量空間に帰属する特徴量補正パラメータ群を足し合わせることで、特徴量補正が実行される。以下、この特徴量補正処理を数式にて記述する。フレーム時刻tにおける補正前の特徴量ベクトルをo 、あるGMMのk番目のガウス分布からo が出力される確率をp(o |k)、その重みをp(k)とすると、補正後の特徴量ベクトルx は、次式で求められる。
Figure 0005738216
ここで、p(k|o )は、GMMのk番目のガウス分布の事後確率であり、次式で求められる。
Figure 0005738216
ただし、k’は、GMMのガウス分布のインデックスである。また、A 、m は、それぞれk番目のガウス分布に帰属する変換行列及びバイアスベクトルであり、これらがk番目のガウス分布に帰属する特徴量補正パラメータ群θ ={A ,m }を構成する。そして、上述したように、これらの特徴量補正パラメータA 、m をいかに推定するかが、特徴量補正技術のポイントとなる。MMI−SPLICEでは、学習用音声データを用いて、これらの特徴量補正パラメータA 、m の推定が、MMI基準で行われる。ここで、MMI目的関数は次式のように書ける。
Figure 0005738216
ここで、X は学習用音声データ中の補正後の特徴量ベクトル系列、S は補正後の特徴量ベクトル系列X に対する正しいシンボル系列(以下「正解シンボル系列」という)、S は補正後の特徴量ベクトル系列X を音声認識することによって得られる対立候補シンボル系列、P(S )及びP(S )は言語モデルによってそれぞれ得られる正解シンボル系列S 及び対立候補シンボル系列S の言語確率、pΛ(X |S )及びpΛ(X |S )はそれぞれ正解シンボル系列S 及び対立候補シンボル系列S において音響モデル(HMM)によって得られる音響スコア、ψは音響スコアに対するスケーリングパラメータ、ηは言語確率に対するスケーリングパラメータを表す。なお、通常、学習用音声データに対しては、その何れの部分が何れの音素であるかを示す正解シンボル系列が与えられている。正解シンボル系列が与えられていない場合は、人が聞いてラベルを振ったり、また音声認識装置を用いたりすることにより正解シンボル系列を付与する。以降では、学習用音声データには正解シンボル系列が上記のような方法で付与されているものとする。
また、音響スコアpΛ(X |S )は以下の式で書くことができる。
Figure 0005738216
ここで、学習用音声データの補正後の特徴量ベクトル系列X は以下のように表現される。
Figure 0005738216
ただし、Tは学習用音声データの特徴量ベクトル系列の長さ、tはフレーム番号またはそのフレームに対応する時刻(以下「フレーム時刻」という)を表し、1からTの整数である。つまり、補正後の特徴量ベクトル系列X は1からTフレーム目までのD次元特徴量ベクトルで表現されるデータである。また、{n1:T}は対立候補シンボル系列S に対応するHMM状態シーケンス(フレーム時刻1からTまで)であり、Σ{n1:T}(ただし、下付添字{n1:T}は{n1:T}を表す)は対立候補シンボル系列S に対応する可能なあらゆるHMM状態シーケンスの足し算、p(x |n)はフレーム時刻tにおけるHMM状態nから特徴量ベクトルx が出力される確率(なお、HMM状態は一般にGMMで表現される)、p(n|nt−1)はフレーム時刻t−1におけるあるHMM状態nt−1からフレーム時刻tにおけるあるHMM状態nへの遷移確率である。
特徴量補正パラメータ群の集合θは、次式のように、上記のMMI目的関数を最大化するように推定される(パラメータ推定の詳細な数式は非特許文献1参照)。ただし、θ=(θ ,θ ,…,θ )であり、θ =(A ,m )であり、k=1,2,…,Kであり、推定された特徴量補正パラメータ群の集合をθ^と表現する。
Figure 0005738216
このMMI−SPLICEにおける特徴量補正パラメータ推定装置7の機能構成例及び処理フローも、一般の特徴量補正パラメータ推定装置の機能構成例及び処理フローと同様に図5及び図6で示される。
特徴量補正パラメータ推定装置7は、特徴量抽出部71、特徴量補正パラメータ計算部72及び記憶部73を備える。
特徴量補正パラメータ計算部72は、記憶部73から音響モデル及び言語モデルを読み込む(s71、s72)。さらに、学習用音声データに対する正解シンボル系列S を読み込む(s74)。
特徴量抽出部71は、学習用音声データを読み込み(s73)、特徴量を抽出し(s75)、特徴量ベクトル系列X を特徴量補正パラメータ計算部72に出力する。
特徴量補正パラメータ計算部72は、特徴量ベクトル系列X を受け取り、式(5)により、特徴量補正パラメータ群の集合θを推定し(s76)、出力する(s77)。以上のようにして識別的基準(MMI−SPLICEの場合はMMI基準)で推定される特徴量補正パラメータ群の集合θは、一般的に、最尤基準で推定されるものよりも高い認識精度を与える。
特開2006−201553号公報
Droppo, J. and Acero, A., "Maximum mutual information SPLICE transform for seen and unseen conditions", In Proc. Interspeech'05, 2005, pp. 989-992 E. McDermott, T.J. Hazen, J.L. Roux, A. Nakamura and S. Katagiri, "Discriminative Training for Large-Vocabulary Speech Recognition Using Minimum Classification Error", IEEE Trans. ASLP, 2007, vol. 15, no. 1, p.203 - 223
特徴量補正パラメータ群の集合θを推定するための学習用音声データの特徴と認識用音声データの特徴の不一致が特に大きいときは、識別学習によるパラメータ推定が不安定になる場合がある。この場合には、識別学習により推定した特徴量補正パラメータを用いた音声認識の認識精度が、必ずしも最尤学習により推定した特徴量補正パラメータを用いた音声認識の認識精度よりも高いとは限らない。
本発明は、学習用音声データの特徴と認識用音声データの特徴の不一致の度合いを考慮して、安定して、識別学習により特徴量補正パラメータを推定する特徴量補正パラメータ推定装置及び方法を提供することを目的とする。
上記の課題を解決するために、本発明の第一の態様によれば、特徴量補正パラメータ推定装置は、学習用音声データの特徴量及び学習用音声データに対する正解シンボル系列から、認識用音声データの特徴量を補正するための特徴量補正パラメータを求める。特徴量補正パラメータ推定装置は、予め求められた音響モデル及び言語モデルが記憶される記憶部と、特徴量補正パラメータを用いて、学習用音声データの特徴量を補正する特徴量補正部と、予め定めた粒度で、補正後の特徴量を音声認識することによって得られる対立候補シンボル系列ごとに、正解シンボル系列との相違度を求めるエラーカウント計算部と、言語モデルによって得られる対立候補シンボル系列の言語確率、補正後の特徴量と対立候補シンボル系列に基づき音響モデルによって得られる音響スコア、学習用音声データの特徴と認識用音声データの特徴との不一致の度合いに応じて調整される第一マージンパラメータ、第二マージンパラメータ及び相違度に基づき、特徴量補正パラメータでdMMI識別学習基準の目的関数を微分したときの微分値を求める補正パラメータ微分値計算部と、微分値に応じて特徴量補正パラメータを変更することで、特徴量補正パラメータを更新する補正パラメータ更新部と、を含む。特徴量補正パラメータ推定装置は、特徴量補正パラメータの更新が予め定めた条件を満たす場合には、更新後の特徴量補正パラメータを求める特徴量補正パラメータとし、当該条件を満たさない場合には、特徴量補正部、エラーカウント計算部、補正パラメータ微分値計算部及び補正パラメータ更新部の処理を繰り返す。
上記の課題を解決するために、本発明の第二の態様によれば、特徴量補正パラメータ推定方法は、学習用音声データの特徴量及び学習用音声データに対する正解シンボル系列から、認識用音声データの特徴量を補正するための特徴量補正パラメータを求める。特徴量補正パラメータ推定方法は、記憶部には予め求められた音響モデル及び言語モデルが記憶され、特徴量補正パラメータを用いて、学習用音声データの特徴量を補正する特徴量補正ステップと、予め定めた粒度で、補正後の特徴量を音声認識することによって得られる対立候補シンボル系列ごとに、正解シンボル系列との相違度を求めるエラーカウント計算ステップと、言語モデルによって得られる対立候補シンボル系列の言語確率、補正後の特徴量と対立候補シンボル系列に基づき音響モデルによって得られる音響スコア、学習用音声データの特徴と認識用音声データの特徴との不一致の度合いに応じて調整される第一マージンパラメータ、第二マージンパラメータ及び相違度に基づき、特徴量補正パラメータでdMMI識別学習基準の目的関数を微分したときの微分値を求める補正パラメータ微分値計算ステップと、微分値に応じて特徴量補正パラメータを変更することで、特徴量補正パラメータを更新する補正パラメータ更新ステップと、を含む。特徴量補正パラメータ推定方法は、特徴量補正パラメータの更新が予め定めた条件を満たす場合には、更新後の特徴量補正パラメータを求める特徴量補正パラメータとし、当該条件を満たさない場合には、特徴量補正ステップ、エラーカウント計算ステップ、補正パラメータ微分値計算ステップ及び補正パラメータ更新ステップの処理を繰り返す。
本発明によれば、学習用音声データの特徴と認識用音声データの特徴の不一致の度合いを考慮して、安定して、識別学習により特徴量補正パラメータを推定することができる。
従来の音声認識装置9の機能構成図。 従来の音声認識装置9の処理フローを示す図。 従来の音声認識装置8の機能構成図。 従来の音声認識装置8の処理フローを示す図。 従来の特徴量補正パラメータ推定装置7の機能構成図。 従来の特徴量補正パラメータ推定装置7の処理フローを示す図。 dMMI識別学習基準の目的関数において第一マージンパラメータを調整することにより得られる効果を説明するための図。 第一及び第二実施形態に係る特徴量補正パラメータ推定装置10及び20の機能構成図。 第一及び第二実施形態に係る特徴量補正パラメータ推定装置10及び20の処理フローを示す図。 第二実施形態の変形例に係る分散補正パラメータ推定装置20’の機能構成図。 第二実施形態の変形例に係る分散補正パラメータ推定装置20’の処理フローを示す図。 scoreと第一マージンパラメータの関係を示す図。 第三実施形態に係る特徴量補正パラメータ推定装置30の機能構成図。 第三実施形態に係る特徴量補正パラメータ推定装置30の処理フローを示す図。 第四実施形態に係る音声認識システム200の機能構成図。 第四実施形態に係る音声認識システム200の処理フローを示す図。 第五実施形態に係る音声認識システム300の機能構成図。 第五実施形態に係る音声認識システム300の処理フローを示す図。
以下、本発明の実施形態について説明する。
<第一実施形態>
[本実施形態のポイント]
第一実施形態では、安定して、識別学習による特徴量補正パラメータ推定を行うために、特徴量補正パラメータを推定する基準として参考文献1及び参考文献2に記述されているMMI導関数基準(differenced MMI: dMMI)を導入する。
(参考文献1)McDermott, E., Watanabe, S. and Nakamura, A., “Discriminative training based on an integrated view of MPE and MMI in margin and error space”, In Proc. ICASSP'10, 2010, pp. 4894 - 4897
(参考文献2)特開2011−48262号公報
すなわち、dMMI−SPLICEを開発した。以下で数式を用いてdMMI−SPLICEによる特徴量補正パラメータの推定方法について述べる。
まず、以下のΨ関数を定義する。
Figure 0005738216
ここでσはマージンパラメータ、εj,rは正解シンボル系列S に対する対立候補シンボル系列S の相違度(例えば、単語エラー数、音素エラー数等)を表している。すなわち、マージンパラメータσは相違度εj,rに応じて特徴量補正パラメータ推定時に対立候補シンボル系列S をどれだけ重視するかをコントロールするパラメータである。マージンパラメータσは、−∞〜+∞の値を取り得る。マージンパラメータσがマイナスの値を取れば、小さい相違度εj,rを持つ対立候補シンボル系列S ほど、すなわち、エラー数が少ない対立候補シンボル系列S ほど重視される。逆に、マージンパラメータσがプラスの値を取れば、大きい相違度εj,rを持つ対立候補シンボル系列S ほど、すなわち、エラー数が多い対立候補シンボル系列S ほど重視されることになる。このΨ関数を用いると、dMMI識別学習基準の目的関数FdMMI Λ,σ1,σ2(ただし、下付添字σ1,σ2は、σ1,σを表す)は次式のように書くことができる。
Figure 0005738216
分子の第一マージンパラメータσはマイナスの値を取る。すなわち、分子では相違度εj,rが小さい対立候補シンボル系列S ほど重視される。一方、分母の第二マージンパラメータσはプラスの値を取る。すなわち、分母では相違度εj,rが大きい対立候補シンボル系列S ほど重視される。
このdMMI識別学習基準は、σ及びσを調整することによって、MPE(Minimum Phone Error)識別学習基準(参考文献3参照)またはBMMI(boosted-MMI)識別学習基準に近づく。
(参考文献3)Povey, D., Woodland, P.C., “Minimum Phone Error and I-smoothing for improved discriminative training”, In Proc. ICASSP, 2002, vol.1, pp.I-105-I-108
すなわち、dMMI識別学習基準は、MPE識別学習基準及びBMMI識別学習基準を一般化したものであると言える。ここでσは、例えば、+0.1という0に近い小さなプラスの値に設定しておけばよい(参考文献4参照)。
(参考文献4)Saon, G. and Povey, D., “Penalty function maximization for large margin HMM training”, In Proc. Interspeech, 2008, pp.920-923
よって以下ではσを変えることによって、dMMI識別学習基準が、MPE識別学習基準またはBMMI識別学習基準に近づくことを示す。さらに、それが、どのような意味を持つのかを示す。
まず、σを−σ、すなわち、0に近い小さなマイナスの値(例えば−0.1)に設定する。このとき次式に示すように、dMMI識別学習基準の目的関数FdMMI Λ,σ1,σ2はMPE識別学習基準の目的関数FMPE Λのマイナス値に近づく(式(8)では理論的にσ,σ→0としているが、実装上はσ→−0.1,σ→+0.1程度の小さな値である)。
Figure 0005738216
式(8)から明らかなように、MPE識別学習基準の目的関数FMPE Λでは、相違度εj,rがマージンパラメータσを介さずに、直接的に反映されている。すなわち、MPE識別学習基準は、より厳格な識別学習基準であると言える。よって、学習用音声データの特徴と認識用音声データの特徴とが近い場合はこのMPE識別学習基準によって、高精度の特徴量補正パラメータ推定が安定して可能となり、結果的に、高精度の音声認識が可能となる。言い換えれば、学習用音声データの特徴と認識用音声データの特徴とが近い場合には、dMMI識別学習基準の目的関数FdMMI Λ,σ1,σ2の第一マージンパラメータσを0に近い小さなマイナスの値に設定して、MPE識別学習基準の目的関数FMPE Λに近づけるべきである。しかし、逆に、学習用音声データの特徴と認識用音声データの特徴とが大きく異なる場合は、MPE識別学習基準による特徴量補正パラメータ推定は不安定となる(参考文献5参照)。
(参考文献5)Woodland, P.C. and Povey, D., “Large scale discriminative training of hidden Markov models for speech recognition”, Computer Speech & Language, 2002, vol. 16, no. 1, pp. 25-47
次に、σを大きなマイナスの値(理論的には−∞、実装上は、例えば、−20)に設定する。このとき次式に示すように、dMMI識別学習基準の目的関数FdMMI Λ,σ1,σ2はBMMI識別学習基準の目的関数FBMMI Λ,σ2に近づく。
Figure 0005738216
式(9)から明らかなように、BMMI識別学習基準の目的関数FBMMI Λ,σ2では、分母の第二マージンパラメータσのみが残る。すなわちBMMI識別学習基準による特徴量補正パラメータ推定では、エラー数が多い(相違度εj,rが大きい)対立候補シンボル系列S ほど重視される(参考文献6参照)。
(参考文献6)Povey, D., Kanevsky, D., Kingsbury, B., Ramabhadran, B., Saon, G. and Visweswariah, K., “Boosted MMI for model and feature-space discriminative training”, In Proc. ICASSP, 2008, pp.4057-4060
学習用音声データの特徴と認識用音声データの特徴とが大きく異なる場合に音声認識を実行すると、エラー数が多い(相違度εj,rが大きい)対立候補シンボル系列S を認識結果S^として出力する。BMMI識別学習基準は、そのような学習用音声データの特徴と認識用音声データの特徴とが大きく異なる場合を想定した識別学習基準である。そのため、学習用音声データの特徴と認識用音声データの特徴とが大きく異なる場合に、高精度の特徴量補正パラメータ推定が安定して可能となる(第二マージンパラメータσも推定の安定化に寄与する)。結果的に、高精度の音声認識が可能となる。言い換えれば、学習用音声データの特徴と認識用音声データの特徴とが大きく異なる場合には、dMMI識別学習基準の目的関数FdMMI Λ,σ1,σ2のσを大きなマイナスの値(例えば−20)に設定して、BMMI識別学習基準の目的関数FBMMI Λ,σ2に近づけるべきである。
以上のように、dMMI識別学習基準によれば、学習用音声データの特徴と認識用音声データの特徴との異なり具合に応じて第一マージンパラメータσを調整することで、安定かつ高精度に特徴量補正パラメータ推定を実行することができる。図7にdMMI識別学習基準の目的関数FdMMI Λ,σ1,σ2において第一マージンパラメータσを調整することにより得られる効果を示す。なお、図中、εは0に近い小さなプラスの値を表す。
ここで、特徴量補正パラメータ群の集合θは、次式のように、上記のdMMI識別学習基準の目的関数FdMMI Λ,σ1,σ2を最大化するように推定される。
Figure 0005738216
ここでは、バイアスベクトルm の推定方法について述べる。dMMI識別学習基準の目的関数FdMMI Λ,σ1,σ2を最大化するようなバイアスベクトルm を求めるために、まず目的関数FdMMI Λ,σ1,σ2をm で微分する。すると次式が得られる。
Figure 0005738216
ここで、対立候補シンボル系列が単語(または音素)ラティスの形態で表現される場合、ラティス上で勾配を計算することにより、式(11)は以下のように表現される。
Figure 0005738216
ここで、qはフレーム時刻tにおけるラティスのアークを、nはフレーム時刻tにおける音響モデル(例えば、HMMからなる音響モデル)の状態を、mは状態nにおけるガウス分布のインデックスを表す(例えば、HMMの状態の出力確率分布はGMMで表現されるものとする)。また、γdMMI qt(ただし、下付添字qtはqを表す)は単語(または音素)ラティスのアークqの事後確率であり、同じラティスについて、第一マージンパラメータσまたは第二マージンパラメータσを使って、二度、Forward-Backward algorithmを実行して計算される(参考文献1参照)。γnt,m(t)、Σ nt,m及びμ nt,m(ただし、それぞれ下付添字ntはnを表す)は、それぞれ状態nのガウス分布mの事後確率、共分散行列及び平均ベクトルである。これらの値の求め方は、例えば、参考文献2及び参考文献7に詳述されている。
(参考文献7)V. Valtchev, J.J. Odell, P.C. Woodland, and S.J. Young, “Lattice-based discriminative training for large vocabulary speech recognition”, In Proc. ICSLP, 1996, vol. 2, pp.605-609.
上記の式が得られれば、バイアスベクトルm はR−Propのような勾配法を用いて容易に推定することが可能である(例えば、参考文献8参照)。
(参考文献8)Riedmiller, M. and Braun, H., “A direct adaptive method for faster backpropagation learning: The RPROP algorithm”, InProc. ICNN’93, 1993. pp. 586-591
変換行列A についても同様に推定することができる。このようにしてバイアスベクトルm 及び変換行列A を推定することで、その推定を安定してさせることができる。以下の第一実施形態において、上記特徴量補正パラメータの推定方法を実現するための構成について説明する。
<特徴量補正パラメータ推定装置10>
図8に第一実施形態に係る特徴量補正パラメータ推定装置10の機能構成例、図9にその処理フローを示す。
特徴量補正パラメータ推定装置10は、特徴量抽出部101、特徴量補正部103、エラーカウント計算部105、補正パラメータ微分値計算部107、補正パラメータ更新部109、収束判定部111及び記憶部113を備える。なお、記憶部113には、予め音響モデル及び言語モデルが記録されている。
(特徴量抽出部101)
特徴量抽出部101は、学習用音声データを読み込み(s103)、その特徴量ベクトル系列O を抽出し(s105)、特徴量補正部103に出力する。
(特徴量補正部103)
特徴量補正部103は、特徴量補正パラメータ群の集合の初期値θ−0または更新された特徴量補正パラメータ群の集合θ−i−1と(ただし、iは、繰り返し回数を表すインデックスを示す)、補正前の特徴量ベクトル系列O とを受け取り、式(1)に基づき特徴量ベクトル系列O を補正し(s106)、補正後の特徴量ベクトル系列X を求め、エラーカウント計算部105に出力する。ただし、θ−0={θ 1 ,θ 2 ,…,θ K }であり、θ ={A ,m }である。同様に、θ−i−1={θ 1 i−1,θ 2 i−1,…,θ K i−1}であり、θ i−1={A i−1,m i−1}である。初期値A 、m としては、例えば、それぞれ単位行列、ゼロベクトル(全ての要素が0のベクトル)等が考えられる。
(エラーカウント計算部105)
エラーカウント計算部105は、記憶部113から音響モデルと言語モデルとを読み込み(s101、s102)、正解シンボル系列S を読み込み(s104)、補正後の特徴量ベクトル系列X を受け取り、補正後の特徴量ベクトル系列X を音声認識することによって得られるJ個の対立候補シンボル系列S を求める。さらに、予め定めた粒度で、対立候補シンボル系列S 毎に正解シンボル系列S との相違度εj,rを求め(s107)、補正パラメータ微分値計算部107に出力する。特に、予め定めた粒度を音素以下の粒度とすれば、相互情報量最大化の枠組みで粒度の細かい相違度を用いることが可能となる。例えば、予め定めた粒度(音素や単語等)で読み込んだ正解シンボル系列S と求めた対立候補シンボル系列S との異なる部分をカウントし、カウント値を相違度εj,rとして求める。
(補正パラメータ微分値計算部107)
補正パラメータ微分値計算部107は、記憶部113から音響モデルと言語モデルを読み込み(s101、s102)、正解シンボル系列S を読み込み(s104)、対立候補シンボル系列S と相違度εj,rとを受け取り、式(7)で表される目的関数FdMMI Λ,σ1,σ2を求める。ただし、第一マージンパラメータσの調整は、学習用音声データの特徴と認識用音声データの特徴との不一致の度合いを考慮して人手により行われるものとする。第二マージンパラメータσは、例えば、+0.1という0に近い小さなプラスの値とする。
さらに、補正パラメータ微分値計算部107は、目的関数FdMMI Λ,σ1,σ2をバイアスベクトルm で微分する(式(12)参照、s108)。また、補正パラメータ微分値計算部107は、目的関数FdMMI Λ,σ1,σ2を変換行列A で微分する(s108)。算出した微分値(∂FdMMI Λ,σ1,σ2/∂m )及び(∂FdMMI Λ,σ1,σ2/∂A )を補正パラメータ更新部109に出力する。
(補正パラメータ更新部109)
補正パラメータ更新部109は、微分値(∂FdMMI Λ,σ1,σ2/∂m )及び(∂FdMMI Λ,σ1,σ2/∂A )を受け取り、R−Propのような勾配法を用いて、式(7)の目的関数FdMMI Λ,σ1,σ2を最大化するように、式(10)に従い、m 及びA を同時に更新する(s109)。あるいは、以下のようにm 及びA を個別に求め、m 及びA を個別に(例えば交互に)更新することも可能である。
Figure 0005738216
なお、m^及びA^は、それぞれ更新後のm 及びA を表す。更新後の特徴量補正パラメータ群の集合θ^を収束判定部111に出力する。
(収束判定部111)
収束判定部111は、特徴量補正パラメータ群の集合θ^を受け取り、特徴量補正パラメータの推定が収束したか否かを判定し(s110)、収束していると判定した場合には、収束時の特徴量補正パラメータ群の集合θ^を、特徴量補正パラメータ推定装置10の出力値として、出力する(s111)。収束していないと判定した場合には、特徴量補正パラメータ群の集合θ^を特徴量補正部103に出力し、各部に対し、s106〜s109を繰り返すように制御信号を出力する。収束判定部111は、例えば、(1)一つ前に求めた特徴量補正パラメータと今回求めた特徴量補正パラメータとの差分が閾値以下になった場合や(2)繰り返し回数が所定の回数以上になった場合に、収束していると判定する。
<効果>
このような構成により、学習用音声データの特徴と認識用音声データの特徴とが近い場合には、dMMI識別学習基準の目的関数FdMMI Λ,σ1,σ2をMPE識別学習基準の目的関数FMPE Λに近づけ、学習用音声データの特徴と認識用音声データの特徴とが大きく異なる場合には、dMMI識別学習基準の目的関数FdMMI Λ,σ1,σ2をBMMI識別学習基準の目的関数FBMMI Λ,σ2に近づけることで、識別学習により特徴量補正パラメータの推定を高精度かつ安定して行うことができる。
このようにして推定された特徴量補正パラメータ群の集合θを用いて、例えば音声認識装置8の特徴量補正部82において、特徴量ベクトル系列Oを補正することで、結果として、より精度の高い音声認識を行うことができる。
<変形例>
記憶部113に予め式(7)で表される目的関数FdMMI Λ,σ1,σ2をバイアスベクトルm で微分したもの(例えば式(12)で表される)、及び、変換行列A で微分したものを計算式として記憶しておいてもよい。この場合、実際の微分値は以下のようにして求める。補正パラメータ微分値計算部107は、計算式を記憶部から読み込み、さらに、記憶部113から音響モデルと言語モデルを読み込み(s101、s102)、正解シンボル系列S を読み込み(s104)、対立候補シンボル系列S と相違度εj,rとを受け取り、計算式に代入し、微分値(∂FdMMI Λ,σ1,σ2/∂m )及び(∂FdMMI Λ,σ1,σ2/∂A )を算出し(s108)、補正パラメータ更新部109に出力する。
<第二実施形態>
[本実施形態のポイント]
MMI−SPLICEを含む従来の特徴量補正技術では、上記のように補正前の特徴量ベクトルo を補正し、補正後の特徴量ベクトルx を点推定する。しかし、周囲雑音や話者の多様性の影響を完全に取り除くことは現実的には不可能であり、特徴量補正自体に不確実性が含まれる。この特徴量補正の不確実性を取り扱う方法としては、例えば、参考文献9に記載されている方法が挙げられる。
(参考文献9) Deng, L., Droppo, J. and Acero, A., “Dynamic compensation of HMM variances using the feature enhancement uncertainty computed from a parametric model of speech distortion”, IEEE Trans. SAP, 2005, vol. 13, no. 3, pp. 412-421
参考文献9記載の方法では、特徴量補正の不確実さの度合いにより、音響モデル中のガウス分布の分散パラメータを補正する。補正は、不確実さが大きいほど分散パラメータを大きくすることによって行われる。
しかし、参考文献9の方法による音響モデル中のガウス分布の分散パラメータの補正は識別的基準で行われないため、その効果は大きくない。
本実施形態は、従来の音響モデル中のガウス分布の分散パラメータの補正方法(参考文献9参照)の問題点を解消するものである。識別学習による特徴量補正パラメータの推定を安定して行う方法(第一実施形態)に組み込む形で、音響モデル中のガウス分布の分散パラメータを補正するパラメータ(以下「分散補正パラメータ」という)を識別学習により推定する。以下、そのポイントを説明する。
音響モデルはHMMで表現され、HMMの状態の出力確率分布はGMMで表現されるものとする。音響モデルのある状態nに着目する。
Figure 0005738216
ここで、s はクリーン音声の特徴量ベクトル、wn,mは状態n中のm番目のガウス分布の重み、N(s ;μ n,m,Σ n,m)は、平均ベクトルμ n,m、共分散行列Σ n,mのガウス分布を表す。ここでs が得られたときに補正された特徴量ベクトルx が得られる条件付確率を次式のようにガウス分布で表現する。
Figure 0005738216
ここで、C はx の推定の不確実さを表す共分散行列であり、識別学習により推定しようとするパラメータである(以下「分散補正パラメータ」という)である。
は、上記したdMMI−SPLICEにより次式のように求めることができる。
Figure 0005738216
また、分散補正パラメータC を次式のように求める。
Figure 0005738216
ここで、p(k|o )はGMMのk番目のガウス分布の事後確率(式(1)、(2)参照)、C はGMMのk番目のガウス分布に帰属する分散パラメータに対するガウス分布分散補正パラメータである。式(16)のようにして求めた分散補正パラメータC を用いて、音響モデルのある状態nのガウス分布mにおける元の共分散行列(分散パラメータ)Σ n,mを補正し、x の出力確率計算を次式のように計算する。
Figure 0005738216
あるいは、次式のように補正する方法も考えられる。
Figure 0005738216
上記の式(17)または式(18)で示されるHMM状態nからのx の出力確率p(x |n)をdMMI識別学習基準の目的関数FdMMI Λ,σ1,σ2の式(7)に入れることができ(具体的には式(7)の音響スコアpΛ(X |S )に反映される、式(4)参照)、それによって、識別学習によりガウス分布分散補正パラメータC 及び分散補正パラメータC (式(16)参照)を求めることができる。dMMI識別学習基準の目的関数FdMMI Λ,σ1,σ2(式(7))を最大化するガウス分布分散補正パラメータC は、次式のように、目的関数FdMMI Λ,σ1,σ2をガウス分布分散補正パラメータC で微分し、その結果を基に、R−Propのような勾配法を用いて推定することが可能である。つまり、特徴量補正パラメータA ,m の推定方法と同様の方法により推定可能である。
Figure 0005738216
ここで、D nt,m,t(ただし、下付添字nt,m,tは、n,m,tを表す)は次の式で定義される。
Figure 0005738216
Σ n,m,tは、補正したガウス分布の共分散行列(分散パラメータ)で、以下の式で書くことができる、
Figure 0005738216
もしくは、
Figure 0005738216
である。
以上により、識別学習により分散補正パラメータを推定することが可能となる。
<特徴量補正パラメータ推定装置20>
図8に第二実施形態に係る特徴量補正パラメータ推定装置20の機能構成例、図9にその処理フローを示す。
特徴量補正パラメータ推定装置20は、特徴量抽出部101、特徴量補正部103、分散補正パラメータ生成部220、エラーカウント計算部205、補正パラメータ微分値計算部207、補正パラメータ更新部209及び収束判定部211を備える。以下、第一実施形態と異なる部分についてのみ説明する。
(分散補正パラメータ生成部220)
分散補正パラメータ生成部220は、ガウス分布分散補正パラメータの集合の初期値C−0または更新されたガウス分布分散補正パラメータの集合C−i−1と、補正前の特徴量ベクトル系列O とを受け取り、式(16)に基づき分散補正パラメータC を生成し(s205)、エラーカウント計算部205に出力する。ただし、C−0={C 1 ,C 2 ,…,C K }であり、C−i−1={C 1 i−1,C 2 i−1,…,C K i−1}である。初期値C としては、例えば、式(20)による補正を行う場合には零行列(全ての要素が0の行列)等が、式(21)による補正を行う場合には単位行列等が考えられる。また、初期値については、式(20)または式(21)の計算を省くために、予め分散補正パラメータの初期値C として、式(20)による補正を行う場合には零行列等を、式(21)による補正を行う場合には単位行列等をエラーカウント計算部205に記憶しておいてもよい。
(エラーカウント計算部205)
エラーカウント計算部205は、上述したエラーカウント計算部105の処理を行う前に、以下の処理を行う。
エラーカウント計算部205では、分散補正パラメータC を受け取り、記憶部113から音響モデルと言語モデルを読み込み(s101、s102)、式(20)または式(21)に基づき共分散行列Σ n,mを補正する(s206)。
エラーカウント計算部205は、補正した共分散行列Σ n,m,tを含む音響モデルに基づき、補正後の特徴量ベクトル系列X を音声認識することによって得られるJ個の対立候補シンボル系列S を求める。エラーカウント計算部205は、正解シンボル系列S を読み込み(s104)、さらに、予め定めた粒度で、対立候補シンボル系列S ごとに正解シンボル系列S との相違度εj,rを求め(s107)、補正パラメータ微分値計算部207に出力する。
(補正パラメータ微分値計算部207)
補正パラメータ微分値計算部207は、記憶部113から音響モデルと言語モデルを読み込み(s101、s102)、正解シンボル系列S を読み込み(s104)、対立候補シンボル系列S と相違度εj,rとを受け取り、式(7)で表される目的関数FdMMI Λ,σ1,σ2の微分値を求める。
さらに、補正パラメータ微分値計算部207は、目的関数FdMMI Λ,σ1,σ2をバイアスベクトルm で微分する(式(12)参照、s208)。また、補正パラメータ微分値計算部207は、目的関数FdMMI Λ,σ1,σ2を変換行列A で微分する(s208)。さらに、補正パラメータ微分値計算部207は、目的関数FdMMI Λ,σ1,σ2をガウス分布分散補正パラメータC で微分する(式(19)参照、s208)。算出した微分値(∂FdMMI Λ,σ1,σ2/∂m )、(∂FdMMI Λ,σ1,σ2/∂A )及び(∂FdMMI Λ,σ1,σ2/∂C )を補正パラメータ更新部209に出力する。
なお、第一実施形態の変形例同様、記憶部113に予め式(7)で表される目的関数FdMMI Λ,σ1,σ2をバイアスベクトルm で微分したもの(例えば式(12)で表される)、変換行列A で微分したもの、及び、ガウス分布分散補正パラメータC で微分したもの(例えば式(19)で表される)を計算式として記憶しておき、それらの計算式に各値を代入して微分値を求めてもよい。
(補正パラメータ更新部209)
補正パラメータ更新部209は、微分値(∂FdMMI Λ,σ1,σ2/∂m )、(∂FdMMI Λ,σ1,σ2/∂A )及び(∂FdMMI Λ,σ1,σ2/∂C )を受け取り、R−Propのような勾配法を用いて、式(7)の目的関数FdMMI Λ,σ1,σ2を最大化するように、m 、A 及びC を同時に更新する(s209)。あるいは、以下のように個別にm 、A 及びC を求め、m 、A 及びC を個別に更新する(例えば、「C を固定してm 及びA を同時に更新して決定し、決定したm 及びA を基にC を更新する」、「C を固定してm 及びA を同時に更新し、続けて、m 及びA を固定してC を更新することを繰り返す」、「m 、A 及びC のうち二つを固定して残り一つを更新し、これを順に繰り返す」)ことも可能である。
Figure 0005738216
なお、m^、A^及びC^は、それぞれ更新後のm 、A 及びC を表す。更新後の特徴量補正パラメータ群の集合θ^及びガウス分布分散補正パラメータの集合C^を収束判定部211に出力する。
(収束判定部211)
収束判定部211は、特徴量補正パラメータ群の集合θ^及びガウス分布分散補正パラメータの集合C^を受け取り、特徴量補正パラメータ及び分散補正パラメータの推定が収束したか否かを判定し(s210)、収束していると判定した場合には、収束時の特徴量補正パラメータ群の集合θ^及びガウス分布分散補正パラメータの集合C^を、特徴量補正パラメータ推定装置20の出力値として、出力する(s211)。収束していないと判定した場合には、特徴量補正パラメータ群の集合θ^を特徴量補正部103に、ガウス分布分散補正パラメータの集合C^を分散補正パラメータ生成部220に出力し、各部に対し、s205〜s209を繰り返すように制御信号を出力する。
<効果>
このような構成により、第一実施形態と同様の効果を得ることができ、さらに、識別学習により安定して分散補正パラメータを推定することができる。
<変形例>
特徴量補正パラメータ推定装置20は、必ずしも第一実施形態記載の方法により補正前の特徴量ベクトル系列O を特徴量補正パラメータを用いて補正しなくともよい。例えば、従来技術により特徴量補正パラメータを用いて補正してもよいし、補正せずに特徴量ベクトル系列O を用いてエラーカウント計算部205における処理を行ってもよい。特徴量ベクトル系列O を補正しない場合の特徴量補正パラメータ推定装置を分散補正パラメータ推定装置とも呼ぶ。分散補正パラメータ推定装置20’の機能構成例を図10に、その処理フローを図11に示す。この場合、エラーカウント計算部205’において、補正後の特徴量ベクトル系列X に代えて、補正前の特徴量ベクトル系列O を用いて、処理を行う(s107’)。補正パラメータ微分値計算部207’では、特徴量補正パラメータに係る微分値を求めずに、識別学習基準(dMMI基準に限らない)を基にガウス分布分散補正パラメータに係る微分値を求めるだけでもよい(s208’)。また、補正パラメータ更新部209’では、特徴量補正パラメータを更新せずに、ガウス分布分散補正パラメータを更新するだけでもよい(s209’)。収束判定部211’では、ガウス分布分散補正パラメータの推定が収束したか否かのみを判定してもよい(s210’)。そして、ガウス分布分散補正パラメータを分散補正パラメータ推定装置20’のみを出力してもよい(s211)。このような構成によっても、識別学習により安定して分散補正パラメータを推定することができる。このようにして推定されたガウス分布分散補正パラメータの集合C={C ,C ,…,C }を用いて、例えば音声認識装置8の単語探索部92において、認識用音声データの補正前の特徴量ベクトル系列Oとガウス分布分散補正パラメータの集合Cとにより式(16)に基づき分散補正パラメータC を求め、さらに、分散補正パラメータC を用いて音響モデルパラメータに含まれる共分散行列を式(20)または式(21)により補正し、補正後の共分散行列を用いることで、結果として、より精度の高い音声認識を行うことができる。
<第三実施形態>
[本実施形態のポイント]
第一実施形態のポイントで述べたように、識別学習により特徴量補正パラメータ推定、及び、分散補正パラメータ推定を行う際には、学習用音声データの特徴と認識用音声データの特徴との不一致の度合いに応じてあるひとつの第一マージンパラメータσを調整する必要がある。本実施形態では、第一マージンパラメータσを自動的に調整する。
学習用音声データの特徴と認識用音声データの特徴との不一致の度合いが大きいほど第一マージンパラメータσを小さくして(マイナスに大きくして、例えば、−3.0〜−20.0程度にして)特徴量補正パラメータ及び分散補正パラメータを推定する必要がある。逆に、不一致の度合いが小さいときはσは大きくして(0に近いマイナスの値にして、例えば、−0.1〜−3.0程度にして)特徴量補正パラメータを推定する必要がある。第一及び第二実施形態では、第一マージンパラメータσの調整を人手で行っていたが、本実施形態ではこれを自動的に行う。
まず、補正パラメータを推定するための学習用音声データを用いてGMMを構築する。このGMMは学習用音声データの特徴を表現している。次にこのGMMに認識対象である認識用音声データを与え、尤度を計算する。この尤度が大きいほど学習用音声データの特徴と認識用音声データの特徴とが近いことを表し、尤度が大きい場合には、第一マージンパラメータσを大きくして補正パラメータを推定する。逆にこの尤度が小さいほど学習用音声データの特徴と認識用音声データの特徴とが大きく異なることを表し、尤度が小さい場合には、第一マージンパラメータσを小さくして補正パラメータを推定する。第一マージンパラメータσは、例えば次の式で求める。
Figure 0005738216
ここで、scoreは認識用音声データに対しての(学習用音声データを用いて構築された)GMMのスコア(尤度)、σ1,1は第一マージンパラメータσの最高値(例えば−0.1)、σ1,0は第一マージンパラメータσの最低値(例えば−20)、αとβは実験的に設定するコントロールパラメータである。図12は、式(22)によるscoreと第一マージンパラメータの関係を示す。
<特徴量補正パラメータ推定装置30>
図13に第三実施形態に係る特徴量補正パラメータ推定装置30の機能構成例、図14にその処理フローを示す。
特徴量補正パラメータ推定装置30は、特徴量補正パラメータ推定装置10、20またはそれらの変形例の構成に加えて、マージンパラメータ計算部315を備える。本実施形態では、特徴量補正パラメータ推定装置20の構成に加えて、マージンパラメータ計算部315を備える場合について説明する。以下、第二実施形態と異なる部分についてのみ説明する。
(マージンパラメータ計算部315)
マージンパラメータ計算部315は、学習用音声データ及び認識用音声データを読み込み(s103、s304)、学習用音声データを用いてGMMを構築する。さらに、認識用音声データに対するこのGMMのスコアを算出し、式(22)に基づき第一マージンパラメータσを計算し(s305)、補正パラメータ微分値計算部207に出力する。ただし、式(22)のσ1,1、σ1,0、α及びβは人手により予め設定しておく。なお、マージンパラメータ計算部315における処理は、一回目の補正パラメータ微分値計算(s208)を行う前に行えば、どのタイミングで行ってもよい。補正パラメータ微分値計算部207では、第一マージンパラメータσを受け取り、これを用いて第二実施形態で説明した処理を行う。
<効果>
学習用音声データの特徴と認識用音声データの特徴との不一致の度合いに応じて調整する必要のある第一マージンパラメータを自動的に調整することができる。結果として、高精度な音声認識を低コストで実現することが可能になる。
<第四実施形態>
図15に第四実施形態に係る音声認識システム200の機能構成例、図16にその処理フローを示す。
音声認識システム200は、特徴量抽出部131、特徴量補正部133、単語列探索部135、記憶部204及び特徴量補正パラメータ推定装置30を備える。つまり、音声認識システム200は、特徴量補正パラメータ推定装置30を含み、認識用音声データに対し音声認識を行う。
記憶部204には、音響モデル、言語モデルに加え、学習用音声データ、学習用音声データに対する正解シンボル系列S 、各補正パラメータの初期値θ−0、C−0が予め記録されている。
特徴量補正パラメータ推定装置30は、記憶部204から音響モデル及び言語モデルに加え、学習用音声データ、学習用音声データに対する正解シンボル系列S 、各補正パラメータの初期値θ−0、C−0を読み込む。さらに認識用音声データを読み込む。第一実施形態から第三実施形態において説明した方法により、特徴量補正パラメータ群の集合θ及び分散補正パラメータの集合Cを推定し(s200)、記憶部204に格納する。
特徴量抽出部131、特徴量補正部133及び単語列探索部135として、前述の従来技術(特徴量抽出部91、特徴量補正部81及び単語列探索部92)、または他の従来技術を用いてもよい。ただし、特徴量補正部133は、特徴量補正パラメータ推定装置30で推定され、記憶部204に格納されている特徴量補正パラメータ群の集合θを用いて、式(1)及び式(2)により、特徴量ベクトル系列Oを補正する。また、単語列探索部135は、その内部に、図示しない分散補正パラメータ生成部を備える。分散補正パラメータ生成部は、ガウス分布分散補正パラメータの集合Cを記憶部304から受け取り、補正前の認識用音声データの特徴量ベクトル系列Oとを受け取り、式(16)に基づき分散補正パラメータC を生成する(s201)。さらに、音響モデルパラメータの集合Λ(に含まれる共分散行列Σ)と、分散補正パラメータC とに基づき、式(20)または式(21)により共分散行列を補正する(s202)。そして、補正後の(共分散行列を含む)音響モデルに基づき、補正後の特徴量ベクトル系列Xに対するJ個の対立候補シンボル系列S を生成する。
<効果>
このような構成により、識別学習により高精度かつ安定して推定された特徴量補正パラメータ及び分散補正パラメータを用いて、それぞれ特徴量及び分散パラメータを補正することができ、結果として、より精度の高い音声認識を行うことができる。
<第五実施形態>
図17に第五実施形態に係る音声認識システム300の機能構成例、図18にその処理フローを示す。
音声認識システム300は、特徴量抽出部131、特徴量補正部133、単語列探索部135、記憶部304、マージンパラメータ計算部301及び補正パラメータ選択部302を備える。以下、第四実施形態と異なる部分についてのみ説明する。
音声認識システム300は、特徴量補正パラメータ推定装置30において推定された補正パラメータθ、Cを記憶部304に格納しておき、これらの値を用いて、認識用音声データに対し音声認識を行うが、特徴量補正パラメータ推定装置30自体をその内部に備えなくともよい。
なお、特徴量補正パラメータ推定装置30は、学習用音声データ、学習用音声データに対する正解シンボル系列S 、各補正パラメータの初期値θ−0、C−0を予め読み込み、さらに推定用音声データを予め読み込み、第一実施形態から第三実施形態において説明した方法により、特徴量補正パラメータ群の集合θ及び分散補正パラメータの集合Cを推定し、記憶部304に格納しておく。なお、学習用音声データの特徴との不一致の度合いが異なる、複数の推定用音声データを用意しておき、推定用音声データ毎に第一マージンパラメータσ、特徴量補正パラメータ群の集合θ及び分散補正パラメータの集合Cの組合せを記憶部304に格納しておく。例えば、σ=−0.1、−0.3、−3.0、−20.0と、σ毎にそれぞれ対応する特徴量補正パラメータ群の集合θ及び分散補正パラメータの集合Cを格納しておく。
記憶部304には、音響モデル、言語モデルに加え、学習用音声データ、第一マージンパラメータσと特徴量補正パラメータ群の集合θと分散補正パラメータの集合Cとの組合せが予め記録されている。
マージンパラメータ計算部301は、前述のマージンパラメータ計算部315と同様の処理を行う。つまり、マージンパラメータ計算部301は、学習用音声データ及び認識用音声データを読み込み(s101、s93)、学習用音声データを用いてGMMを構築する。さらに、認識用音声データに対するこのGMMのスコアを算出し、式(22)に基づき第一マージンパラメータσを計算する(s302)。求めた第一マージンパラメータσを補正パラメータ選択部302に出力する。なお、学習用音声データを用いて構築されたGMMは、マージンパラメータ計算部301で計算せずに、特徴量補正パラメータ推定装置30から取得する構成としてもよい。この場合、学習用音声データを記憶部304に格納する必要はない。
補正パラメータ選択部302は、マージンパラメータ計算部301から第一マージンパラメータσを受け取り、予め記憶部304に記憶されている第一マージンパラメータσと特徴量補正パラメータ群の集合θと分散補正パラメータの集合Cとの組合せの中から、記憶部304から受け取った第一マージンパラメータσに近い第一マージンパラメータσを持つ組合せに対応する特徴量補正パラメータ群の集合θ及び分散補正パラメータの集合Cを選択し(s303)、それぞれ特徴量補正部133及び単語列探索部135に出力する。特徴量補正部133及び単語列探索部135における処理は第四実施形態と同様である。
<効果>
このような構成により、第四実施形態と同様の効果を得ることができる。また、音声認識システム300では、予め補正パラメータを計算しておき、認識用音声データを読み込んだ際には、第一マージンパラメータを計算すればいいだけなので(補正パラメータを推定する必要がないので)、音声認識時の処理速度を速くすることができる。また、第四実施形態では、認識用音声データ全体に対して補正パラメータを推定する必要があるため、全ての認識用音声データを読み込んだ後でしか音声認識を行うことができない。一方、第五実施形態では、補正パラメータを推定自体は既に済んでいるため、認識用音声データの一部に対して第一マージンパラメータを計算し、それに対応する補正パラメータを選択し、音声認識を行うことができる。例えば、100発話からなる認識用音声データに対して、第四実施形態の音声認識システムでは、100発話全てに同じ補正パラメータを適用することになるが、第五実施形態の音声認識システムでは、100発話全てに同じ補正パラメータを適用してもよいし、1発話毎に第一マージンパラメータを計算して、補正パラメータを変えてもよい。ただし、第五実施形態の記憶部304に格納されている第一マージンパラメータは離散的な値となるため、第四実施形態に比較して、得られる補正パラメータも離散的な値となり、認識精度が落ちる可能性ある。精度を向上させるためには、記憶部304に格納されている第一マージンパラメータ及び対応する補正パラメータの個数を増やせばよい。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
上述した特徴量補正パラメータ推定装置または音声認識システムは、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置またはシステム(各種実施形態で図に示した機能構成をもつ装置)として機能させるためのプログラム、またはその処理手順(各実施形態で示したもの)の各過程をコンピュータに実行させるためのプログラムを、CD−ROM、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。
10,20,30 特徴量補正パラメータ推定装置
101 特徴量抽出部
103 特徴量補正部
105 エラーカウント計算部
107 補正パラメータ微分値計算部
109 補正パラメータ更新部
111 収束判定部
113 記憶部
200,300 音声認識システム
204,304 記憶部
205 エラーカウント計算部
207 補正パラメータ微分値計算部
209 補正パラメータ更新部
220 分散補正パラメータ生成部
211 収束判定部
301,315 マージンパラメータ計算部
302 補正パラメータ選択部

Claims (9)

  1. 学習用音声データの特徴量及び前記学習用音声データに対する正解シンボル系列から、認識用音声データの特徴量を補正するための特徴量補正パラメータを求める特徴量補正パラメータ推定装置であって、
    予め求められた音響モデル及び言語モデルが記憶される記憶部と、
    特徴量補正パラメータを用いて、前記学習用音声データの前記特徴量を補正する特徴量補正部と、
    予め定めた粒度で、補正後の前記特徴量を音声認識することによって得られる対立候補シンボル系列ごとに、前記正解シンボル系列との相違度を求めるエラーカウント計算部と、
    前記言語モデルによって得られる前記対立候補シンボル系列の言語確率、補正後の前記特徴量と前記対立候補シンボル系列に基づき前記音響モデルによって得られる音響スコア、小さい相違度を持つ対立候補シンボル系列ほど重視されるように調整する第一マージンパラメータ、大きい相違度を持つ対立候補シンボル系列ほど重視されるように調整する第二マージンパラメータ及び前記相違度に基づき、前記特徴量補正パラメータでdMMI識別学習基準の目的関数を微分したときの微分値を求める補正パラメータ微分値計算部と、
    前記微分値に応じて前記特徴量補正パラメータを変更することで、前記特徴量補正パラメータを更新する補正パラメータ更新部と、を含み、
    前記特徴量補正パラメータの更新が予め定めた条件を満たす場合には、更新後の前記特徴量補正パラメータを求める特徴量補正パラメータとし、当該条件を満たさない場合には、前記特徴量補正部、エラーカウント計算部、補正パラメータ微分値計算部及び補正パラメータ更新部の処理を繰り返す、
    特徴量補正パラメータ推定装置。
  2. 請求項1記載の特徴量補正パラメータ推定装置であって、
    前記音響モデルには、混合ガウス分布モデルが含まれ、
    前記学習用音声データの前記特徴量と、前記混合ガウス分布モデルに含まれるガウス分布に帰属する分散パラメータに対するガウス分布分散補正パラメータとを用いて、分散補正パラメータを生成する分散補正パラメータ生成部と、
    前記エラーカウント計算部では、さらに、前記混合ガウス分布モデルに含まれるガウス分布の分散パラメータを、前記分散補正パラメータを用いて補正し、補正した前記分散パラメータを含む音響モデルに基づき、補正後の前記特徴量を音声認識することによって得られる対立候補シンボル系列ごとに、予め定めた粒度で、前記正解シンボル系列との相違度を求め、
    前記補正パラメータ微分値計算部では、さらに、前記言語モデルによって得られる前記対立候補シンボル系列の言語確率、補正後の前記特徴量と前記対立候補シンボル系列に基づき補正後の前記音響モデルによって得られる音響スコア、小さい相違度を持つ対立候補シンボル系列ほど重視されるように調整する第一マージンパラメータ、大きい相違度を持つ対立候補シンボル系列ほど重視されるように調整する第二マージンパラメータ及び前記相違度に基づき、前記ガウス分布分散補正パラメータで前記目的関数を微分したときの微分値を求め、
    前記補正パラメータ更新部では、さらに、ガウス分布分散補正パラメータで前記目的関数を微分したときの前記微分値に応じて前記ガウス分布分散補正パラメータを変更することで、前記ガウス分布分散補正パラメータを更新する、
    特徴量補正パラメータ推定装置。
  3. 請求項1または請求項2記載の特徴量補正パラメータ推定装置を含み、認識用音声データに対し音声認識を行う音声認識システムであって、
    前記認識用音声データに対する、前記学習用音声データに基づき構築された混合ガウス分布モデルのスコアを算出し、そのスコアが大きいほど前記第一マージンパラメータを大きく設定し、そのスコアが小さいほど前記第一マージンパラメータを小さく設定する第一マージンパラメータ計算部と、
    前記認識用音声データの特徴量を抽出する特徴量抽出部と、
    前記特徴量補正パラメータを用いて、前記認識用音声データの前記特徴量を補正する特徴量補正部と、
    前記音響モデルまたは分散補正パラメータを用いて補正された音響モデルと、前記言語モデルとに基づき、単語列探索を行う単語列探索部と、を含み、
    前記補正パラメータ微分値計算部は、第一マージンパラメータ計算部で計算された第一マージンパラメータを用いて、前記微分値を求める、
    音声認識システム。
  4. 請求項1または請求項2記載の特徴量補正パラメータ推定装置において推定された特徴量補正パラメータを用いて、認識用音声データに対し音声認識を行う音声認識システムであって、
    前記記憶部には、予め複数の前記第一マージンパラメータの値にそれぞれ対応する複数の前記特徴量補正パラメータが記憶され、
    前記認識用音声データに対する、前記学習用音声データに基づき構築された混合ガウス分布モデルのスコアを算出し、そのスコアが大きいほど前記第一マージンパラメータを大きく設定し、そのスコアが小さいほど前記第一マージンパラメータを小さく設定する第一マージンパラメータ計算部と、
    前記マージンパラメータ計算部において設定された第一マージンパラメータに近い第一マージンパラメータの値に対応する特徴量補正パラメータを前記記憶部から選択する特徴量補正パラメータ選択部と、
    前記認識用音声データの特徴量を抽出する特徴量抽出部と、
    特徴量補正パラメータ選択部により選択された前記特徴量補正パラメータを用いて、前記認識用音声データの前記特徴量を補正する特徴量補正部と、
    前記音響モデルまたは分散補正パラメータを用いて補正された音響モデルと、前記言語モデルとに基づき、単語列探索を行う単語列探索部と、を含む、
    音声認識システム。
  5. 学習用音声データの特徴量及び前記学習用音声データに対する正解シンボル系列から、認識用音声データの特徴量を補正するための特徴量補正パラメータを求める特徴量補正パラメータ推定方法であって、
    記憶部には予め求められた音響モデル及び言語モデルが記憶され、
    特徴量補正パラメータを用いて、前記学習用音声データの前記特徴量を補正する特徴量補正ステップと、
    予め定めた粒度で、補正後の前記特徴量を音声認識することによって得られる対立候補シンボル系列ごとに、前記正解シンボル系列との相違度を求めるエラーカウント計算ステップと、
    前記言語モデルによって得られる前記対立候補シンボル系列の言語確率、補正後の前記特徴量と前記対立候補シンボル系列に基づき前記音響モデルによって得られる音響スコア、小さい相違度を持つ対立候補シンボル系列ほど重視されるように調整する第一マージンパラメータ、大きい相違度を持つ対立候補シンボル系列ほど重視されるように調整する第二マージンパラメータ及び前記相違度に基づき、前記特徴量補正パラメータでdMMI識別学習基準の目的関数を微分したときの微分値を求める補正パラメータ微分値計算ステップと、
    前記微分値に応じて前記特徴量補正パラメータを変更することで、前記特徴量補正パラメータを更新する補正パラメータ更新ステップと、を含み、
    前記特徴量補正パラメータの更新が予め定めた条件を満たす場合には、更新後の前記特徴量補正パラメータを求める特徴量補正パラメータとし、当該条件を満たさない場合には、前記特徴量補正ステップ、エラーカウント計算ステップ、補正パラメータ微分値計算ステップ及び補正パラメータ更新ステップの処理を繰り返す、
    特徴量補正パラメータ推定方法。
  6. 請求項5記載の特徴量補正パラメータ推定方法であって、
    前記音響モデルには、混合ガウス分布モデルが含まれ、
    前記学習用音声データの前記特徴量と、前記混合ガウス分布モデルに含まれるガウス分布に帰属する分散パラメータに対するガウス分布分散補正パラメータとを用いて、分散補正パラメータを生成する分散補正パラメータ生成ステップと、
    前記エラーカウント計算ステップでは、さらに、前記混合ガウス分布モデルに含まれるガウス分布の分散パラメータを、前記分散補正パラメータを用いて補正し、補正した前記分散パラメータを含む音響モデルに基づき、補正後の前記特徴量を音声認識することによって得られる対立候補シンボル系列ごとに、予め定めた粒度で、前記正解シンボル系列との相違度を求め、
    前記補正パラメータ微分値計算ステップでは、さらに、前記言語モデルによって得られる前記対立候補シンボル系列の言語確率、補正後の前記特徴量と前記対立候補シンボル系列に基づき補正後の前記音響モデルによって得られる音響スコア、小さい相違度を持つ対立候補シンボル系列ほど重視されるように調整する第一マージンパラメータ、大きい相違度を持つ対立候補シンボル系列ほど重視されるように調整する第二マージンパラメータ及び前記相違度に基づき、前記ガウス分布分散補正パラメータで前記目的関数を微分したときの微分値を求め、
    前記補正パラメータ更新ステップでは、さらに、ガウス分布分散補正パラメータで前記目的関数を微分したときの前記微分値に応じて前記ガウス分布分散補正パラメータを変更することで、前記ガウス分布分散補正パラメータを更新する、
    特徴量補正パラメータ推定方法。
  7. 請求項5または請求項6記載の特徴量補正パラメータ推定方法のステップを含み、認識用音声データに対し音声認識を行う音声認識方法であって、
    前記認識用音声データに対する、前記学習用音声データに基づき構築された混合ガウス分布モデルのスコアを算出し、そのスコアが大きいほど前記第一マージンパラメータを大きく設定し、そのスコアが小さいほど前記第一マージンパラメータを小さく設定する第一マージンパラメータ計算ステップと、
    前記認識用音声データの特徴量を抽出する特徴量抽出ステップと、
    前記特徴量補正パラメータを用いて、前記認識用音声データの前記特徴量を補正する特徴量補正ステップと、
    前記音響モデルまたは分散補正パラメータを用いて補正された音響モデルと、前記言語モデルとに基づき、単語列探索を行う単語列探索ステップと、を含み、
    前記補正パラメータ微分値計算ステップでは、第一マージンパラメータ計算ステップで計算された第一マージンパラメータを用いて、前記微分値を求める、
    音声認識方法。
  8. 請求項5または請求項6記載の特徴量補正パラメータ推定方法において推定された特徴量補正パラメータを用いて、認識用音声データに対し音声認識を行う音声認識方法であって、
    前記記憶部には、予め複数の前記第一マージンパラメータの値にそれぞれ対応する複数の前記特徴量補正パラメータが記憶され、
    前記認識用音声データに対する、前記学習用音声データに基づき構築された混合ガウス分布モデルのスコアを算出し、そのスコアが大きいほど前記第一マージンパラメータを大きく設定し、そのスコアが小さいほど前記第一マージンパラメータを小さく設定する第一マージンパラメータ計算ステップと、
    前記マージンパラメータ計算ステップにおいて設定された第一マージンパラメータに近い第一マージンパラメータの値に対応する特徴量補正パラメータを前記記憶ステップから選択する特徴量補正パラメータ選択ステップと、
    前記認識用音声データの特徴量を抽出する特徴量抽出ステップと、
    特徴量補正パラメータ選択ステップにより選択された前記特徴量補正パラメータを用いて、前記認識用音声データの前記特徴量を補正する特徴量補正ステップと、
    前記音響モデルまたは分散補正パラメータを用いて補正された音響モデルと、前記言語モデルとに基づき、単語列探索を行う単語列探索ステップと、を含む、
    音声認識方法。
  9. 請求項1若しくは請求項2記載の特徴量補正パラメータ推定装置、または、請求項3若しくは請求項4記載の音声認識システムとして、コンピュータを機能させるためのプログラム。
JP2012039818A 2012-02-27 2012-02-27 特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム Active JP5738216B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012039818A JP5738216B2 (ja) 2012-02-27 2012-02-27 特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012039818A JP5738216B2 (ja) 2012-02-27 2012-02-27 特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2013174768A JP2013174768A (ja) 2013-09-05
JP5738216B2 true JP5738216B2 (ja) 2015-06-17

Family

ID=49267711

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012039818A Active JP5738216B2 (ja) 2012-02-27 2012-02-27 特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5738216B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014153680A (ja) * 2013-02-13 2014-08-25 Nippon Telegr & Teleph Corp <Ntt> 音響モデル補正パラメータ推定装置、特徴量補正パラメータ推定装置、それらの方法及びプログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6464650B2 (ja) 2014-10-03 2019-02-06 日本電気株式会社 音声処理装置、音声処理方法、およびプログラム
JP6637078B2 (ja) * 2016-02-02 2020-01-29 日本電信電話株式会社 音響モデル学習装置、音響モデル学習方法及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070083373A1 (en) * 2005-10-11 2007-04-12 Matsushita Electric Industrial Co., Ltd. Discriminative training of HMM models using maximum margin estimation for speech recognition
JP5079760B2 (ja) * 2009-08-28 2012-11-21 日本電信電話株式会社 音響モデルパラメータ学習装置、音響モデルパラメータ学習方法、音響モデルパラメータ学習プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014153680A (ja) * 2013-02-13 2014-08-25 Nippon Telegr & Teleph Corp <Ntt> 音響モデル補正パラメータ推定装置、特徴量補正パラメータ推定装置、それらの方法及びプログラム

Also Published As

Publication number Publication date
JP2013174768A (ja) 2013-09-05

Similar Documents

Publication Publication Date Title
JP6637078B2 (ja) 音響モデル学習装置、音響モデル学習方法及びプログラム
JP4245617B2 (ja) 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
US8494847B2 (en) Weighting factor learning system and audio recognition system
WO2012001458A1 (en) Voice-tag method and apparatus based on confidence score
US8762148B2 (en) Reference pattern adaptation apparatus, reference pattern adaptation method and reference pattern adaptation program
JP6031316B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
JP5738216B2 (ja) 特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム
JP6121187B2 (ja) 音響モデル補正パラメータ推定装置、その方法及びプログラム
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
JP5079760B2 (ja) 音響モデルパラメータ学習装置、音響モデルパラメータ学習方法、音響モデルパラメータ学習プログラム
JP3920749B2 (ja) 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置
JP5694976B2 (ja) 分散補正パラメータ推定装置、音声認識システム、分散補正パラメータ推定方法、音声認識方法及びプログラム
JP4533160B2 (ja) 識別的学習方法、装置、プログラム、識別的学習プログラムを記録した記録媒体
Ko et al. Eigentriphones for context-dependent acoustic modeling
Yu et al. Unsupervised adaptation with discriminative mapping transforms
JP6324647B1 (ja) 話者適応化装置、音声認識装置および音声認識方法
JP5308102B2 (ja) 誤り数別識別スコア・事後確率計算方法と、その方法を用いた誤り数重み付き識別学習装置とその方法と、その装置を用いた音声認識装置と、プログラムと記録媒体
JP4705535B2 (ja) 音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラム
JP2010118001A (ja) 言語モデル更新装置、方法及びプログラム
JP5161174B2 (ja) 経路探索装置、音声認識装置、これらの方法及びプログラム
JP5749187B2 (ja) パラメタ推定装置、パラメタ推定方法、音声認識装置、音声認識方法及びプログラム
JP5812936B2 (ja) アクセント句境界推定装置、アクセント句境界推定方法及びプログラム
JP2005321660A (ja) 統計モデル作成方法、その装置、パターン認識方法、その装置、これらのプログラム、その記録媒体
Andrew et al. Backpropagation in sequential deep neural networks
HUANG et al. Automatic context induction for tone model integration in mandarin speech recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141017

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141028

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141211

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150414

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150421

R150 Certificate of patent (=grant) or registration of utility model

Ref document number: 5738216

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150