JP5738216B2 - 特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム - Google Patents
特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム Download PDFInfo
- Publication number
- JP5738216B2 JP5738216B2 JP2012039818A JP2012039818A JP5738216B2 JP 5738216 B2 JP5738216 B2 JP 5738216B2 JP 2012039818 A JP2012039818 A JP 2012039818A JP 2012039818 A JP2012039818 A JP 2012039818A JP 5738216 B2 JP5738216 B2 JP 5738216B2
- Authority
- JP
- Japan
- Prior art keywords
- correction parameter
- feature amount
- parameter
- margin
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
[本実施形態のポイント]
第一実施形態では、安定して、識別学習による特徴量補正パラメータ推定を行うために、特徴量補正パラメータを推定する基準として参考文献1及び参考文献2に記述されているMMI導関数基準(differenced MMI: dMMI)を導入する。
(参考文献1)McDermott, E., Watanabe, S. and Nakamura, A., “Discriminative training based on an integrated view of MPE and MMI in margin and error space”, In Proc. ICASSP'10, 2010, pp. 4894 - 4897
(参考文献2)特開2011−48262号公報
(参考文献3)Povey, D., Woodland, P.C., “Minimum Phone Error and I-smoothing for improved discriminative training”, In Proc. ICASSP, 2002, vol.1, pp.I-105-I-108
(参考文献4)Saon, G. and Povey, D., “Penalty function maximization for large margin HMM training”, In Proc. Interspeech, 2008, pp.920-923
(参考文献5)Woodland, P.C. and Povey, D., “Large scale discriminative training of hidden Markov models for speech recognition”, Computer Speech & Language, 2002, vol. 16, no. 1, pp. 25-47
(参考文献6)Povey, D., Kanevsky, D., Kingsbury, B., Ramabhadran, B., Saon, G. and Visweswariah, K., “Boosted MMI for model and feature-space discriminative training”, In Proc. ICASSP, 2008, pp.4057-4060
(参考文献7)V. Valtchev, J.J. Odell, P.C. Woodland, and S.J. Young, “Lattice-based discriminative training for large vocabulary speech recognition”, In Proc. ICSLP, 1996, vol. 2, pp.605-609.
(参考文献8)Riedmiller, M. and Braun, H., “A direct adaptive method for faster backpropagation learning: The RPROP algorithm”, InProc. ICNN’93, 1993. pp. 586-591
図8に第一実施形態に係る特徴量補正パラメータ推定装置10の機能構成例、図9にその処理フローを示す。
特徴量抽出部101は、学習用音声データを読み込み(s103)、その特徴量ベクトル系列O− rを抽出し(s105)、特徴量補正部103に出力する。
特徴量補正部103は、特徴量補正パラメータ群の集合の初期値θ−0または更新された特徴量補正パラメータ群の集合θ−i−1と(ただし、iは、繰り返し回数を表すインデックスを示す)、補正前の特徴量ベクトル系列O− rとを受け取り、式(1)に基づき特徴量ベクトル系列O− rを補正し(s106)、補正後の特徴量ベクトル系列X− rを求め、エラーカウント計算部105に出力する。ただし、θ−0={θ− 1 0,θ− 2 0,…,θ− K 0}であり、θ− k 0={A− k 0,m− k 0}である。同様に、θ−i−1={θ− 1 i−1,θ− 2 i−1,…,θ− K i−1}であり、θ− k i−1={A− k i−1,m− k i−1}である。初期値A− k 0、m− k 0としては、例えば、それぞれ単位行列、ゼロベクトル(全ての要素が0のベクトル)等が考えられる。
エラーカウント計算部105は、記憶部113から音響モデルと言語モデルとを読み込み(s101、s102)、正解シンボル系列S− rを読み込み(s104)、補正後の特徴量ベクトル系列X− rを受け取り、補正後の特徴量ベクトル系列X− rを音声認識することによって得られるJ個の対立候補シンボル系列S− jを求める。さらに、予め定めた粒度で、対立候補シンボル系列S− j毎に正解シンボル系列S− rとの相違度εj,rを求め(s107)、補正パラメータ微分値計算部107に出力する。特に、予め定めた粒度を音素以下の粒度とすれば、相互情報量最大化の枠組みで粒度の細かい相違度を用いることが可能となる。例えば、予め定めた粒度(音素や単語等)で読み込んだ正解シンボル系列S− rと求めた対立候補シンボル系列S− jとの異なる部分をカウントし、カウント値を相違度εj,rとして求める。
補正パラメータ微分値計算部107は、記憶部113から音響モデルと言語モデルを読み込み(s101、s102)、正解シンボル系列S− rを読み込み(s104)、対立候補シンボル系列S− jと相違度εj,rとを受け取り、式(7)で表される目的関数FdMMI Λ,σ1,σ2を求める。ただし、第一マージンパラメータσ1の調整は、学習用音声データの特徴と認識用音声データの特徴との不一致の度合いを考慮して人手により行われるものとする。第二マージンパラメータσ2は、例えば、+0.1という0に近い小さなプラスの値とする。
補正パラメータ更新部109は、微分値(∂FdMMI Λ,σ1,σ2/∂m− k)及び(∂FdMMI Λ,σ1,σ2/∂A− k)を受け取り、R−Propのような勾配法を用いて、式(7)の目的関数FdMMI Λ,σ1,σ2を最大化するように、式(10)に従い、m− k及びA− kを同時に更新する(s109)。あるいは、以下のようにm− k及びA− kを個別に求め、m− k及びA− kを個別に(例えば交互に)更新することも可能である。
収束判定部111は、特徴量補正パラメータ群の集合θ^を受け取り、特徴量補正パラメータの推定が収束したか否かを判定し(s110)、収束していると判定した場合には、収束時の特徴量補正パラメータ群の集合θ^を、特徴量補正パラメータ推定装置10の出力値として、出力する(s111)。収束していないと判定した場合には、特徴量補正パラメータ群の集合θ^を特徴量補正部103に出力し、各部に対し、s106〜s109を繰り返すように制御信号を出力する。収束判定部111は、例えば、(1)一つ前に求めた特徴量補正パラメータと今回求めた特徴量補正パラメータとの差分が閾値以下になった場合や(2)繰り返し回数が所定の回数以上になった場合に、収束していると判定する。
このような構成により、学習用音声データの特徴と認識用音声データの特徴とが近い場合には、dMMI識別学習基準の目的関数FdMMI Λ,σ1,σ2をMPE識別学習基準の目的関数FMPE Λに近づけ、学習用音声データの特徴と認識用音声データの特徴とが大きく異なる場合には、dMMI識別学習基準の目的関数FdMMI Λ,σ1,σ2をBMMI識別学習基準の目的関数FBMMI Λ,σ2に近づけることで、識別学習により特徴量補正パラメータの推定を高精度かつ安定して行うことができる。
記憶部113に予め式(7)で表される目的関数FdMMI Λ,σ1,σ2をバイアスベクトルm− kで微分したもの(例えば式(12)で表される)、及び、変換行列A− kで微分したものを計算式として記憶しておいてもよい。この場合、実際の微分値は以下のようにして求める。補正パラメータ微分値計算部107は、計算式を記憶部から読み込み、さらに、記憶部113から音響モデルと言語モデルを読み込み(s101、s102)、正解シンボル系列S− rを読み込み(s104)、対立候補シンボル系列S− jと相違度εj,rとを受け取り、計算式に代入し、微分値(∂FdMMI Λ,σ1,σ2/∂m− k)及び(∂FdMMI Λ,σ1,σ2/∂A− k)を算出し(s108)、補正パラメータ更新部109に出力する。
[本実施形態のポイント]
MMI−SPLICEを含む従来の特徴量補正技術では、上記のように補正前の特徴量ベクトルo− tを補正し、補正後の特徴量ベクトルx− tを点推定する。しかし、周囲雑音や話者の多様性の影響を完全に取り除くことは現実的には不可能であり、特徴量補正自体に不確実性が含まれる。この特徴量補正の不確実性を取り扱う方法としては、例えば、参考文献9に記載されている方法が挙げられる。
(参考文献9) Deng, L., Droppo, J. and Acero, A., “Dynamic compensation of HMM variances using the feature enhancement uncertainty computed from a parametric model of speech distortion”, IEEE Trans. SAP, 2005, vol. 13, no. 3, pp. 412-421
以上により、識別学習により分散補正パラメータを推定することが可能となる。
図8に第二実施形態に係る特徴量補正パラメータ推定装置20の機能構成例、図9にその処理フローを示す。
分散補正パラメータ生成部220は、ガウス分布分散補正パラメータの集合の初期値C−0または更新されたガウス分布分散補正パラメータの集合C−i−1と、補正前の特徴量ベクトル系列O− rとを受け取り、式(16)に基づき分散補正パラメータC− tを生成し(s205)、エラーカウント計算部205に出力する。ただし、C−0={C− 1 0,C− 2 0,…,C− K 0}であり、C−i−1={C− 1 i−1,C− 2 i−1,…,C− K i−1}である。初期値C− k 0としては、例えば、式(20)による補正を行う場合には零行列(全ての要素が0の行列)等が、式(21)による補正を行う場合には単位行列等が考えられる。また、初期値については、式(20)または式(21)の計算を省くために、予め分散補正パラメータの初期値C− t 0として、式(20)による補正を行う場合には零行列等を、式(21)による補正を行う場合には単位行列等をエラーカウント計算部205に記憶しておいてもよい。
エラーカウント計算部205は、上述したエラーカウント計算部105の処理を行う前に、以下の処理を行う。
補正パラメータ微分値計算部207は、記憶部113から音響モデルと言語モデルを読み込み(s101、s102)、正解シンボル系列S− rを読み込み(s104)、対立候補シンボル系列S− jと相違度εj,rとを受け取り、式(7)で表される目的関数FdMMI Λ,σ1,σ2の微分値を求める。
補正パラメータ更新部209は、微分値(∂FdMMI Λ,σ1,σ2/∂m− k)、(∂FdMMI Λ,σ1,σ2/∂A− k)及び(∂FdMMI Λ,σ1,σ2/∂C− k)を受け取り、R−Propのような勾配法を用いて、式(7)の目的関数FdMMI Λ,σ1,σ2を最大化するように、m− k、A− k及びC− kを同時に更新する(s209)。あるいは、以下のように個別にm− k、A− k及びC− kを求め、m− k、A− k及びC− kを個別に更新する(例えば、「C− kを固定してm− k及びA− kを同時に更新して決定し、決定したm− k及びA− kを基にC− kを更新する」、「C− kを固定してm− k及びA− kを同時に更新し、続けて、m− k及びA− kを固定してC− kを更新することを繰り返す」、「m− k、A− k及びC− kのうち二つを固定して残り一つを更新し、これを順に繰り返す」)ことも可能である。
収束判定部211は、特徴量補正パラメータ群の集合θ^及びガウス分布分散補正パラメータの集合C^を受け取り、特徴量補正パラメータ及び分散補正パラメータの推定が収束したか否かを判定し(s210)、収束していると判定した場合には、収束時の特徴量補正パラメータ群の集合θ^及びガウス分布分散補正パラメータの集合C^を、特徴量補正パラメータ推定装置20の出力値として、出力する(s211)。収束していないと判定した場合には、特徴量補正パラメータ群の集合θ^を特徴量補正部103に、ガウス分布分散補正パラメータの集合C^を分散補正パラメータ生成部220に出力し、各部に対し、s205〜s209を繰り返すように制御信号を出力する。
このような構成により、第一実施形態と同様の効果を得ることができ、さらに、識別学習により安定して分散補正パラメータを推定することができる。
特徴量補正パラメータ推定装置20は、必ずしも第一実施形態記載の方法により補正前の特徴量ベクトル系列O− rを特徴量補正パラメータを用いて補正しなくともよい。例えば、従来技術により特徴量補正パラメータを用いて補正してもよいし、補正せずに特徴量ベクトル系列O− rを用いてエラーカウント計算部205における処理を行ってもよい。特徴量ベクトル系列O− rを補正しない場合の特徴量補正パラメータ推定装置を分散補正パラメータ推定装置とも呼ぶ。分散補正パラメータ推定装置20’の機能構成例を図10に、その処理フローを図11に示す。この場合、エラーカウント計算部205’において、補正後の特徴量ベクトル系列X− rに代えて、補正前の特徴量ベクトル系列O− rを用いて、処理を行う(s107’)。補正パラメータ微分値計算部207’では、特徴量補正パラメータに係る微分値を求めずに、識別学習基準(dMMI基準に限らない)を基にガウス分布分散補正パラメータに係る微分値を求めるだけでもよい(s208’)。また、補正パラメータ更新部209’では、特徴量補正パラメータを更新せずに、ガウス分布分散補正パラメータを更新するだけでもよい(s209’)。収束判定部211’では、ガウス分布分散補正パラメータの推定が収束したか否かのみを判定してもよい(s210’)。そして、ガウス分布分散補正パラメータを分散補正パラメータ推定装置20’のみを出力してもよい(s211)。このような構成によっても、識別学習により安定して分散補正パラメータを推定することができる。このようにして推定されたガウス分布分散補正パラメータの集合C−={C− 1,C− 2,…,C− K}を用いて、例えば音声認識装置8の単語探索部92において、認識用音声データの補正前の特徴量ベクトル系列O−とガウス分布分散補正パラメータの集合C−とにより式(16)に基づき分散補正パラメータC− tを求め、さらに、分散補正パラメータC− tを用いて音響モデルパラメータに含まれる共分散行列を式(20)または式(21)により補正し、補正後の共分散行列を用いることで、結果として、より精度の高い音声認識を行うことができる。
[本実施形態のポイント]
第一実施形態のポイントで述べたように、識別学習により特徴量補正パラメータ推定、及び、分散補正パラメータ推定を行う際には、学習用音声データの特徴と認識用音声データの特徴との不一致の度合いに応じてあるひとつの第一マージンパラメータσ1を調整する必要がある。本実施形態では、第一マージンパラメータσ1を自動的に調整する。
図13に第三実施形態に係る特徴量補正パラメータ推定装置30の機能構成例、図14にその処理フローを示す。
マージンパラメータ計算部315は、学習用音声データ及び認識用音声データを読み込み(s103、s304)、学習用音声データを用いてGMMを構築する。さらに、認識用音声データに対するこのGMMのスコアを算出し、式(22)に基づき第一マージンパラメータσ1を計算し(s305)、補正パラメータ微分値計算部207に出力する。ただし、式(22)のσ1,1、σ1,0、α及びβは人手により予め設定しておく。なお、マージンパラメータ計算部315における処理は、一回目の補正パラメータ微分値計算(s208)を行う前に行えば、どのタイミングで行ってもよい。補正パラメータ微分値計算部207では、第一マージンパラメータσ1を受け取り、これを用いて第二実施形態で説明した処理を行う。
学習用音声データの特徴と認識用音声データの特徴との不一致の度合いに応じて調整する必要のある第一マージンパラメータを自動的に調整することができる。結果として、高精度な音声認識を低コストで実現することが可能になる。
図15に第四実施形態に係る音声認識システム200の機能構成例、図16にその処理フローを示す。
このような構成により、識別学習により高精度かつ安定して推定された特徴量補正パラメータ及び分散補正パラメータを用いて、それぞれ特徴量及び分散パラメータを補正することができ、結果として、より精度の高い音声認識を行うことができる。
図17に第五実施形態に係る音声認識システム300の機能構成例、図18にその処理フローを示す。
このような構成により、第四実施形態と同様の効果を得ることができる。また、音声認識システム300では、予め補正パラメータを計算しておき、認識用音声データを読み込んだ際には、第一マージンパラメータを計算すればいいだけなので(補正パラメータを推定する必要がないので)、音声認識時の処理速度を速くすることができる。また、第四実施形態では、認識用音声データ全体に対して補正パラメータを推定する必要があるため、全ての認識用音声データを読み込んだ後でしか音声認識を行うことができない。一方、第五実施形態では、補正パラメータを推定自体は既に済んでいるため、認識用音声データの一部に対して第一マージンパラメータを計算し、それに対応する補正パラメータを選択し、音声認識を行うことができる。例えば、100発話からなる認識用音声データに対して、第四実施形態の音声認識システムでは、100発話全てに同じ補正パラメータを適用することになるが、第五実施形態の音声認識システムでは、100発話全てに同じ補正パラメータを適用してもよいし、1発話毎に第一マージンパラメータを計算して、補正パラメータを変えてもよい。ただし、第五実施形態の記憶部304に格納されている第一マージンパラメータは離散的な値となるため、第四実施形態に比較して、得られる補正パラメータも離散的な値となり、認識精度が落ちる可能性ある。精度を向上させるためには、記憶部304に格納されている第一マージンパラメータ及び対応する補正パラメータの個数を増やせばよい。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
上述した特徴量補正パラメータ推定装置または音声認識システムは、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置またはシステム(各種実施形態で図に示した機能構成をもつ装置)として機能させるためのプログラム、またはその処理手順(各実施形態で示したもの)の各過程をコンピュータに実行させるためのプログラムを、CD−ROM、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。
101 特徴量抽出部
103 特徴量補正部
105 エラーカウント計算部
107 補正パラメータ微分値計算部
109 補正パラメータ更新部
111 収束判定部
113 記憶部
200,300 音声認識システム
204,304 記憶部
205 エラーカウント計算部
207 補正パラメータ微分値計算部
209 補正パラメータ更新部
220 分散補正パラメータ生成部
211 収束判定部
301,315 マージンパラメータ計算部
302 補正パラメータ選択部
Claims (9)
- 学習用音声データの特徴量及び前記学習用音声データに対する正解シンボル系列から、認識用音声データの特徴量を補正するための特徴量補正パラメータを求める特徴量補正パラメータ推定装置であって、
予め求められた音響モデル及び言語モデルが記憶される記憶部と、
特徴量補正パラメータを用いて、前記学習用音声データの前記特徴量を補正する特徴量補正部と、
予め定めた粒度で、補正後の前記特徴量を音声認識することによって得られる対立候補シンボル系列ごとに、前記正解シンボル系列との相違度を求めるエラーカウント計算部と、
前記言語モデルによって得られる前記対立候補シンボル系列の言語確率、補正後の前記特徴量と前記対立候補シンボル系列に基づき前記音響モデルによって得られる音響スコア、小さい相違度を持つ対立候補シンボル系列ほど重視されるように調整する第一マージンパラメータ、大きい相違度を持つ対立候補シンボル系列ほど重視されるように調整する第二マージンパラメータ及び前記相違度に基づき、前記特徴量補正パラメータでdMMI識別学習基準の目的関数を微分したときの微分値を求める補正パラメータ微分値計算部と、
前記微分値に応じて前記特徴量補正パラメータを変更することで、前記特徴量補正パラメータを更新する補正パラメータ更新部と、を含み、
前記特徴量補正パラメータの更新が予め定めた条件を満たす場合には、更新後の前記特徴量補正パラメータを求める特徴量補正パラメータとし、当該条件を満たさない場合には、前記特徴量補正部、エラーカウント計算部、補正パラメータ微分値計算部及び補正パラメータ更新部の処理を繰り返す、
特徴量補正パラメータ推定装置。 - 請求項1記載の特徴量補正パラメータ推定装置であって、
前記音響モデルには、混合ガウス分布モデルが含まれ、
前記学習用音声データの前記特徴量と、前記混合ガウス分布モデルに含まれるガウス分布に帰属する分散パラメータに対するガウス分布分散補正パラメータとを用いて、分散補正パラメータを生成する分散補正パラメータ生成部と、
前記エラーカウント計算部では、さらに、前記混合ガウス分布モデルに含まれるガウス分布の分散パラメータを、前記分散補正パラメータを用いて補正し、補正した前記分散パラメータを含む音響モデルに基づき、補正後の前記特徴量を音声認識することによって得られる対立候補シンボル系列ごとに、予め定めた粒度で、前記正解シンボル系列との相違度を求め、
前記補正パラメータ微分値計算部では、さらに、前記言語モデルによって得られる前記対立候補シンボル系列の言語確率、補正後の前記特徴量と前記対立候補シンボル系列に基づき補正後の前記音響モデルによって得られる音響スコア、小さい相違度を持つ対立候補シンボル系列ほど重視されるように調整する第一マージンパラメータ、大きい相違度を持つ対立候補シンボル系列ほど重視されるように調整する第二マージンパラメータ及び前記相違度に基づき、前記ガウス分布分散補正パラメータで前記目的関数を微分したときの微分値を求め、
前記補正パラメータ更新部では、さらに、ガウス分布分散補正パラメータで前記目的関数を微分したときの前記微分値に応じて前記ガウス分布分散補正パラメータを変更することで、前記ガウス分布分散補正パラメータを更新する、
特徴量補正パラメータ推定装置。 - 請求項1または請求項2記載の特徴量補正パラメータ推定装置を含み、認識用音声データに対し音声認識を行う音声認識システムであって、
前記認識用音声データに対する、前記学習用音声データに基づき構築された混合ガウス分布モデルのスコアを算出し、そのスコアが大きいほど前記第一マージンパラメータを大きく設定し、そのスコアが小さいほど前記第一マージンパラメータを小さく設定する第一マージンパラメータ計算部と、
前記認識用音声データの特徴量を抽出する特徴量抽出部と、
前記特徴量補正パラメータを用いて、前記認識用音声データの前記特徴量を補正する特徴量補正部と、
前記音響モデルまたは分散補正パラメータを用いて補正された音響モデルと、前記言語モデルとに基づき、単語列探索を行う単語列探索部と、を含み、
前記補正パラメータ微分値計算部は、第一マージンパラメータ計算部で計算された第一マージンパラメータを用いて、前記微分値を求める、
音声認識システム。 - 請求項1または請求項2記載の特徴量補正パラメータ推定装置において推定された特徴量補正パラメータを用いて、認識用音声データに対し音声認識を行う音声認識システムであって、
前記記憶部には、予め複数の前記第一マージンパラメータの値にそれぞれ対応する複数の前記特徴量補正パラメータが記憶され、
前記認識用音声データに対する、前記学習用音声データに基づき構築された混合ガウス分布モデルのスコアを算出し、そのスコアが大きいほど前記第一マージンパラメータを大きく設定し、そのスコアが小さいほど前記第一マージンパラメータを小さく設定する第一マージンパラメータ計算部と、
前記マージンパラメータ計算部において設定された第一マージンパラメータに近い第一マージンパラメータの値に対応する特徴量補正パラメータを前記記憶部から選択する特徴量補正パラメータ選択部と、
前記認識用音声データの特徴量を抽出する特徴量抽出部と、
特徴量補正パラメータ選択部により選択された前記特徴量補正パラメータを用いて、前記認識用音声データの前記特徴量を補正する特徴量補正部と、
前記音響モデルまたは分散補正パラメータを用いて補正された音響モデルと、前記言語モデルとに基づき、単語列探索を行う単語列探索部と、を含む、
音声認識システム。 - 学習用音声データの特徴量及び前記学習用音声データに対する正解シンボル系列から、認識用音声データの特徴量を補正するための特徴量補正パラメータを求める特徴量補正パラメータ推定方法であって、
記憶部には予め求められた音響モデル及び言語モデルが記憶され、
特徴量補正パラメータを用いて、前記学習用音声データの前記特徴量を補正する特徴量補正ステップと、
予め定めた粒度で、補正後の前記特徴量を音声認識することによって得られる対立候補シンボル系列ごとに、前記正解シンボル系列との相違度を求めるエラーカウント計算ステップと、
前記言語モデルによって得られる前記対立候補シンボル系列の言語確率、補正後の前記特徴量と前記対立候補シンボル系列に基づき前記音響モデルによって得られる音響スコア、小さい相違度を持つ対立候補シンボル系列ほど重視されるように調整する第一マージンパラメータ、大きい相違度を持つ対立候補シンボル系列ほど重視されるように調整する第二マージンパラメータ及び前記相違度に基づき、前記特徴量補正パラメータでdMMI識別学習基準の目的関数を微分したときの微分値を求める補正パラメータ微分値計算ステップと、
前記微分値に応じて前記特徴量補正パラメータを変更することで、前記特徴量補正パラメータを更新する補正パラメータ更新ステップと、を含み、
前記特徴量補正パラメータの更新が予め定めた条件を満たす場合には、更新後の前記特徴量補正パラメータを求める特徴量補正パラメータとし、当該条件を満たさない場合には、前記特徴量補正ステップ、エラーカウント計算ステップ、補正パラメータ微分値計算ステップ及び補正パラメータ更新ステップの処理を繰り返す、
特徴量補正パラメータ推定方法。 - 請求項5記載の特徴量補正パラメータ推定方法であって、
前記音響モデルには、混合ガウス分布モデルが含まれ、
前記学習用音声データの前記特徴量と、前記混合ガウス分布モデルに含まれるガウス分布に帰属する分散パラメータに対するガウス分布分散補正パラメータとを用いて、分散補正パラメータを生成する分散補正パラメータ生成ステップと、
前記エラーカウント計算ステップでは、さらに、前記混合ガウス分布モデルに含まれるガウス分布の分散パラメータを、前記分散補正パラメータを用いて補正し、補正した前記分散パラメータを含む音響モデルに基づき、補正後の前記特徴量を音声認識することによって得られる対立候補シンボル系列ごとに、予め定めた粒度で、前記正解シンボル系列との相違度を求め、
前記補正パラメータ微分値計算ステップでは、さらに、前記言語モデルによって得られる前記対立候補シンボル系列の言語確率、補正後の前記特徴量と前記対立候補シンボル系列に基づき補正後の前記音響モデルによって得られる音響スコア、小さい相違度を持つ対立候補シンボル系列ほど重視されるように調整する第一マージンパラメータ、大きい相違度を持つ対立候補シンボル系列ほど重視されるように調整する第二マージンパラメータ及び前記相違度に基づき、前記ガウス分布分散補正パラメータで前記目的関数を微分したときの微分値を求め、
前記補正パラメータ更新ステップでは、さらに、ガウス分布分散補正パラメータで前記目的関数を微分したときの前記微分値に応じて前記ガウス分布分散補正パラメータを変更することで、前記ガウス分布分散補正パラメータを更新する、
特徴量補正パラメータ推定方法。 - 請求項5または請求項6記載の特徴量補正パラメータ推定方法のステップを含み、認識用音声データに対し音声認識を行う音声認識方法であって、
前記認識用音声データに対する、前記学習用音声データに基づき構築された混合ガウス分布モデルのスコアを算出し、そのスコアが大きいほど前記第一マージンパラメータを大きく設定し、そのスコアが小さいほど前記第一マージンパラメータを小さく設定する第一マージンパラメータ計算ステップと、
前記認識用音声データの特徴量を抽出する特徴量抽出ステップと、
前記特徴量補正パラメータを用いて、前記認識用音声データの前記特徴量を補正する特徴量補正ステップと、
前記音響モデルまたは分散補正パラメータを用いて補正された音響モデルと、前記言語モデルとに基づき、単語列探索を行う単語列探索ステップと、を含み、
前記補正パラメータ微分値計算ステップでは、第一マージンパラメータ計算ステップで計算された第一マージンパラメータを用いて、前記微分値を求める、
音声認識方法。 - 請求項5または請求項6記載の特徴量補正パラメータ推定方法において推定された特徴量補正パラメータを用いて、認識用音声データに対し音声認識を行う音声認識方法であって、
前記記憶部には、予め複数の前記第一マージンパラメータの値にそれぞれ対応する複数の前記特徴量補正パラメータが記憶され、
前記認識用音声データに対する、前記学習用音声データに基づき構築された混合ガウス分布モデルのスコアを算出し、そのスコアが大きいほど前記第一マージンパラメータを大きく設定し、そのスコアが小さいほど前記第一マージンパラメータを小さく設定する第一マージンパラメータ計算ステップと、
前記マージンパラメータ計算ステップにおいて設定された第一マージンパラメータに近い第一マージンパラメータの値に対応する特徴量補正パラメータを前記記憶ステップから選択する特徴量補正パラメータ選択ステップと、
前記認識用音声データの特徴量を抽出する特徴量抽出ステップと、
特徴量補正パラメータ選択ステップにより選択された前記特徴量補正パラメータを用いて、前記認識用音声データの前記特徴量を補正する特徴量補正ステップと、
前記音響モデルまたは分散補正パラメータを用いて補正された音響モデルと、前記言語モデルとに基づき、単語列探索を行う単語列探索ステップと、を含む、
音声認識方法。 - 請求項1若しくは請求項2記載の特徴量補正パラメータ推定装置、または、請求項3若しくは請求項4記載の音声認識システムとして、コンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012039818A JP5738216B2 (ja) | 2012-02-27 | 2012-02-27 | 特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012039818A JP5738216B2 (ja) | 2012-02-27 | 2012-02-27 | 特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013174768A JP2013174768A (ja) | 2013-09-05 |
JP5738216B2 true JP5738216B2 (ja) | 2015-06-17 |
Family
ID=49267711
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012039818A Active JP5738216B2 (ja) | 2012-02-27 | 2012-02-27 | 特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5738216B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014153680A (ja) * | 2013-02-13 | 2014-08-25 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル補正パラメータ推定装置、特徴量補正パラメータ推定装置、それらの方法及びプログラム |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6464650B2 (ja) | 2014-10-03 | 2019-02-06 | 日本電気株式会社 | 音声処理装置、音声処理方法、およびプログラム |
JP6637078B2 (ja) * | 2016-02-02 | 2020-01-29 | 日本電信電話株式会社 | 音響モデル学習装置、音響モデル学習方法及びプログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070083373A1 (en) * | 2005-10-11 | 2007-04-12 | Matsushita Electric Industrial Co., Ltd. | Discriminative training of HMM models using maximum margin estimation for speech recognition |
JP5079760B2 (ja) * | 2009-08-28 | 2012-11-21 | 日本電信電話株式会社 | 音響モデルパラメータ学習装置、音響モデルパラメータ学習方法、音響モデルパラメータ学習プログラム |
-
2012
- 2012-02-27 JP JP2012039818A patent/JP5738216B2/ja active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014153680A (ja) * | 2013-02-13 | 2014-08-25 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル補正パラメータ推定装置、特徴量補正パラメータ推定装置、それらの方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2013174768A (ja) | 2013-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6637078B2 (ja) | 音響モデル学習装置、音響モデル学習方法及びプログラム | |
JP4245617B2 (ja) | 特徴量補正装置、特徴量補正方法および特徴量補正プログラム | |
US8494847B2 (en) | Weighting factor learning system and audio recognition system | |
WO2012001458A1 (en) | Voice-tag method and apparatus based on confidence score | |
US8762148B2 (en) | Reference pattern adaptation apparatus, reference pattern adaptation method and reference pattern adaptation program | |
JP6031316B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
JP5738216B2 (ja) | 特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム | |
JP6121187B2 (ja) | 音響モデル補正パラメータ推定装置、その方法及びプログラム | |
JP6027754B2 (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
JP5079760B2 (ja) | 音響モデルパラメータ学習装置、音響モデルパラメータ学習方法、音響モデルパラメータ学習プログラム | |
JP3920749B2 (ja) | 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置 | |
JP5694976B2 (ja) | 分散補正パラメータ推定装置、音声認識システム、分散補正パラメータ推定方法、音声認識方法及びプログラム | |
JP4533160B2 (ja) | 識別的学習方法、装置、プログラム、識別的学習プログラムを記録した記録媒体 | |
Ko et al. | Eigentriphones for context-dependent acoustic modeling | |
Yu et al. | Unsupervised adaptation with discriminative mapping transforms | |
JP6324647B1 (ja) | 話者適応化装置、音声認識装置および音声認識方法 | |
JP5308102B2 (ja) | 誤り数別識別スコア・事後確率計算方法と、その方法を用いた誤り数重み付き識別学習装置とその方法と、その装置を用いた音声認識装置と、プログラムと記録媒体 | |
JP4705535B2 (ja) | 音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラム | |
JP2010118001A (ja) | 言語モデル更新装置、方法及びプログラム | |
JP5161174B2 (ja) | 経路探索装置、音声認識装置、これらの方法及びプログラム | |
JP5749187B2 (ja) | パラメタ推定装置、パラメタ推定方法、音声認識装置、音声認識方法及びプログラム | |
JP5812936B2 (ja) | アクセント句境界推定装置、アクセント句境界推定方法及びプログラム | |
JP2005321660A (ja) | 統計モデル作成方法、その装置、パターン認識方法、その装置、これらのプログラム、その記録媒体 | |
Andrew et al. | Backpropagation in sequential deep neural networks | |
HUANG et al. | Automatic context induction for tone model integration in mandarin speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140108 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141017 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141028 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141211 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150414 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150421 |
|
R150 | Certificate of patent (=grant) or registration of utility model |
Ref document number: 5738216 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |