JP2014153680A - 音響モデル補正パラメータ推定装置、特徴量補正パラメータ推定装置、それらの方法及びプログラム - Google Patents
音響モデル補正パラメータ推定装置、特徴量補正パラメータ推定装置、それらの方法及びプログラム Download PDFInfo
- Publication number
- JP2014153680A JP2014153680A JP2013025865A JP2013025865A JP2014153680A JP 2014153680 A JP2014153680 A JP 2014153680A JP 2013025865 A JP2013025865 A JP 2013025865A JP 2013025865 A JP2013025865 A JP 2013025865A JP 2014153680 A JP2014153680 A JP 2014153680A
- Authority
- JP
- Japan
- Prior art keywords
- correction parameter
- acoustic model
- feature amount
- model
- correction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】音響モデル補正パラメータ学習装置100は、言語モデルによって得られる対立候補シンボル系列の言語確率、学習用音声データの特徴量と対立候補シンボル系列に基づき音響モデルによって得られる音響スコア及び相違度に基づき、平均補正パラメータで識別学習基準の目的関数を微分したときの微分値を求める補正パラメータ微分値計算部140と、微分値に応じて平均補正パラメータを変更することで、平均補正パラメータを更新する補正パラメータ更新部150と、を含む。
【選択図】図5
Description
図1に線形回帰音響モデル適応技術を搭載した音声認識装置90の機能構成例、図2にその処理フロー例を示す。音声認識装置90は、特徴量抽出部91、単語列探索部92、記憶部93、音響モデル補正部94から構成される。
記憶部93には、予め音響モデルと言語モデルが記憶されている。音響モデルは、音声の音響的特徴をモデル化したものである。言語モデルは音素や単語といった多数のシンボル系列から構成されている。通常、音声認識用音響モデルでは、各音素をLeft to rightのHMM(Hidden Markov Model:隠れマルコフモデル)で、HMM状態の出力確率分布をGMM(Gaussian Mixture Model:混合ガウス分布モデル)で表現する。そのため、実際に音響モデルとして記憶部93に記憶されているのは、音素などの各シンボルにおけるHMMの状態遷移確率、GMMの混合重み因子、及びガウス分布の平均ベクトルμm及び共分散行列(以下「分散パラメータ」ともいう)Σm等となる。ここで、MはGMMに含まれるガウス分布の総数であり、mは、GMMのガウス分布のインデックスであり、m=1,2,…,Mである。これらを音響モデルパラメータと呼び、その集合をΛとする。言語モデルは音素や単語といった多数のシンボル系列から構成されており、図中のP(Sj)は言語モデルによって得られる対立候補シンボル系列Sjの確率(以下「言語確率」ともいう)である。なお、対立候補シンボル系列Sjとは音声認識結果となりうるシンボル系列であり、シンボル系列とは音素や単語等からなるシンボルの系列である。
特徴量抽出部91は、認識用音声データを読み込み(s93)、音声の特徴量を抽出する(s95)。特徴量としては、例えば、MFCC(Mel Frequency Cepstral Coefficient)、ΔMFCC、ΔΔMFCC、対数パワー、Δ対数パワー等があり、これらが10〜100次元程度の特徴量ベクトルoを構成する。さらに、時系列の特徴量ベクトルである特徴量ベクトル系列Oを以下のように表現できる。
音響モデル補正部94は、補正前の(記憶部93に記憶された)音響モデルパラメータΛを含む音響モデルと、予め学習し記憶部93に記憶しておいた音響モデル補正パラメータθ^を読み込み(s91、s94)、音響モデル補正パラメータθ^を用いて、音響モデルパラメータΛを含む音響モデルを補正し(s96)、補正した音響モデルパラメータΛ^を単語列検索部92に送る。この例では、線形回帰音響モデル適応は以下の式(2)のように、音響モデルパラメータに含まれる平均ベクトルμ={μ1,μ2,…,μM}を補正する。
単語列探索部92は、音響モデル補正部94から取得した補正後の音響モデルパラメータΛ^に基づき、特徴量ベクトル系列Oに対するJ個の対立候補シンボル系列Sjを生成して、対立候補シンボル系列Sj毎に音響スコアを算出する。ただし、j=1,2,…,Jであり、Jは1以上の整数である。さらに、単語列探索部92は、予め言語モデルを記憶部93から読み込んでおき(s92)、この言語モデルに基づき、対立候補シンボル系列Sj毎に言語スコアを算出する。さらに、音響スコアと言語スコアとを統合して、J個の対立候補シンボル系列Sjの中から、認識用音声データに対応する文として最も確からしい(最も音響スコアと言語スコアとを統合したスコアが高い)対立候補シンボル系列を探索し(s97)、その対立候補シンボル系列を認識結果(単語列)S^として出力する(s98)。
上記の音声認識装置90では、音響モデルパラメータを、線形回帰を用いて補正する。つまり、音響モデル補正部94で用いる平均補正パラメータθ^は線形回帰パラメータである。
特徴量抽出部81は、学習用音声データを読み込み(s83)、音声の特徴量ベクトル系列Oを抽出する(s85)。特徴量抽出の具体的な処理は、上述の音声認識装置90の特徴量抽出部91と同じである。
音響モデル補正パラメータ計算部83は、記憶部93から音響モデルと言語モデルとを読み込み(s81、s82)、さらに、正解シンボル系列Srを読み込み(s84)、特徴量抽出部81で抽出した音声の特徴量Oを用いて、音響モデル補正パラメータθ=(θ1,θ2,…,θK)を推定し(s86)、出力する(s87)。音響モデル補正パラメータθは、適応データ(学習用音声データの特徴量ベクトル系列O)とその特徴量ベクトル系列Oに対応する正解シンボル系列Srとを用いて、次式のように目的関数Fθを最大化する形で推定される。
[第一実施形態のポイント]
しかし、前述の通り、MMI−LRの識別基準による音響モデルの教師なし適応方法は、適応データを音声認識した結果を正解ラベルと見做して利用するので、正解ラベル(と見做された音声認識結果)に誤りが含まれることが多く、うまくモデルパラメータを最適化できず、性能が改善しないか悪化する可能性がある。
[参考文献1] McDermott,E., Watanabe, S. and Nakamura,A., “Discriminative training based on an integrated view of MPE and MMI in margin and error space”, In Proc. ICASSP'10, 2010, pp. 4894 - 4897
[参考文献2]特願2009−198362号公報
[参考文献3]Povey, D., Woodland, P.C.,“Minimum Phone Error and I-smoothing for improved discriminative training”, In Proc. ICASSP, 2002, vol.1,pp.I-105-I-108
[参考文献4]Povey, D., Kanevsky, D.,Kingsbury, B., Ramabhadran, B., Saon, G. and Visweswariah, K., “Boosted MMI for model and feature-space discriminative training”, In Proc. ICASSP, 2008, pp.4057-4060,
ここでσ2は、例えば、+0.1という0に近い小さなプラスの値に設定しておけばよい(参考文献5)。
[参考文献5]Saon, G. and Povey, D., “Penalty function maximization for large margin HMM training”, In Proc. Interspeech, 2008, pp.920-923
例えば、σ1を大きなマイナスの値(理論的には−∞、実装上は、例えば、−50)に設定する。このとき、次式に示すように、dMMI識別学習基準の目的関数FdMMI θ,σ1,σ2はBMMI識別学習基準の目的関数FBMMI θ,σ2に近づく。
[参考文献6]Povey, D., Kanevsky, D.,Kingsbury, B., Ramabhadran, B., Saon, G. and Visweswariah, K., “Boosted MMI for model and feature-space discriminative training”, In Proc. ICASSP, 2008, pp.4057-4060
[参考文献7]E. McDermott, T.J. Hazen, J.L. Roux, A. Nakamura and S. Katagiri, “Discriminative Training for Large-Vocabulary Speech Recognition Using Minimum Classification Error”, IEEE Trans. ASLP, 2007, vol. 15, no. 1, pp. 203 - 223
γnt,m(t)、Σnt,m及びμnt,m(ただし、それぞれ下付添字ntはntを表す)は、それぞれ状態ntのガウス分布mの事後確率、共分散行列及び平均ベクトルである。これらの値の求め方は、例えば、参考文献8に詳述されている。
[参考文献8]V. Valtchev,J.J. Odell, P.C. Woodland, and S.J. Young, “Lattice-based discriminative training for large vocabulary speech recognition”, In Proc. ICSLP,1996, vol. 2, pp.605-609
[参考文献9]Riedmiller,M. and Braun, H., “A direct adaptive method for faster backpropagation learning: The RPROP algorithm”, InProc. ICNN’93, 1993, pp. 586-591
以上の原理に基づく、第一実施形態の音響モデル補正パラメータ学習装置100の構成について説明する。装置構成図を図5に、処理フローを図6に示す。
特徴量抽出部110は、学習用音声データを読み込み(s103)、その特徴量ベクトル系列Oを抽出し(s105)、音響モデル補正部120に出力する。特徴量抽出の具体的な処理は、既存の技術を用いることができる。例えば、上述の音声認識装置90の特徴量抽出部91と同じ方法により特徴量を抽出すればよい。
音響モデル記憶部170及び言語モデル記憶部180には、それぞれ予め求められた音響モデル及び言語モデルが記憶される。音響モデル及び言語モデルとしては、既存のモデルを用いればよい。例えば、記憶部93において説明した音響モデルと言語モデルを用いることができる。
音響モデル補正部120は、補正前の音響モデルΛを音響モデル記憶部170から読み込み(s101)、音響モデル補正パラメータの初期値θ0または更新された音響モデル補正パラメータθi−1(ただし、iは、繰り返し回数を表すインデックスを示す)を受け取り、式(3)により音響モデルの平均ベクトルを補正し(s106)、補正後の音響モデルΛ^を、エラーカウント計算部130に出力する。
エラーカウント計算部130は、言語モデル記憶部180から言語モデルを読み込み(s102)、この言語モデルと、音響モデル補正部120から受け取った補正後の音響モデルΛ^とを用いて、特徴量抽出部110から受け取った特徴量ベクトル系列Oを音声認識することによって得られるJ個の対立候補シンボル系列Sjを求める。さらに、エラーカウント計算部130は、入力された正解シンボル系列Srを読み込み(s104)、予め定めた粒度で、対立候補シンボル系列Sj毎に、正解シンボル系列Srとの相違度εj,rを求め(s107)、補正パラメータ微分値計算部140に出力する。特に、予め定めた粒度を音素以下の粒度とすれば、相互情報量最大化の枠組みで粒度の細かい相違度を用いることが可能となる。例えば、予め定めた粒度(音素や単語等)で読み込んだ正解シンボル系列Srと求めた対立候補シンボル系列Sjとの異なる部分をカウントし、カウント値を相違度εj,rとして求める。
補正パラメータ微分値計算部140は、言語モデル記憶部180から言語モデルを読み込み(s102)、入力された正解シンボル系列Srを読み込み(s104)、補正後の音響モデルΛ^を受け取り、エラーカウント計算部130から受け取った対立候補シンボル系列Sjと相違度εj,rとを用いて、式(9)で表される目的関数FdMMI θ,σ1,σ2を求める。
補正パラメータ更新部150は、微分値(∂FdMMI θ,σ1,σ2/∂Wk)に応じて平均補正パラメータWkを変更することで、平均補正パラメータを更新する。つまり、式(9)の目的関数FdMMI θ,σ1,σ2を最大化するように、式(11)に従い、Wk、すなわちAkおよびbkを同時に更新する(s109)。
収束判定部160は、音響モデル補正パラメータθ^を受け取り、音響モデル補正パラメータの推定が収束したか否かを判定し(s110)、収束していると判定した場合には、収束時の音響モデル補正パラメータθ^を、音響モデル補正パラメータ推定装置の出力値として、出力する(s111)。収束していないと判定した場合には、音響モデル補正パラメータθ^を音響モデル補正部120に出力し、音響モデル補正部120、エラーカウント計算部130、補正パラメータ微分値計算部140、補正パラメータ更新部150、収束判定部160の処理を繰り返すように制御信号を出力する。収束判定部160は、例えば、(1)一つ前に求めた音響モデル補正パラメータと今回求めた音響モデル補正パラメータとの差分が閾値以下になった場合や(2)繰り返し回数が所定の回数以上になった場合に、収束していると判定する。
以下の表は効果の例として、大語彙連続音声認識タスクで、話者に対する教師なし音響モデル適応の実験結果を表す。このように、本発明は従来の音響モデル適応(MLLR、MMI−LR)よりも性能を改善することがわかる。
このような構成により、正解シンボルの誤りの悪影響を弱めることができ、従来技術(MLLRやMMI−LRの識別基準に基づく音響モデル適応)よりも適切に音響モデルパラメータに対する補正パラメータを求めることができる。さらに、このようにして求めた音響モデル補正パラメータを用いて、補正した音響モデルを用いて音声認識を行うことで、従来技術に比べ、音声認識精度を改善できる。
第一実施形態では、音響モデル補正パラメータは平均補正パラメータのみを含むが、混合ガウス分布モデルに含まれるガウス分布の分散パラメータΣmを補正する分散補正パラメータも含む構成としてもよい。
音響モデル補正部120は、式(3)により、平均ベクトルを補正し、さらに、式(13)または(14)により分散パラメータΣmを補正する(s106)。なお、音響モデル適応技術を搭載した音声認識装置90の音響モデル補正部94においても対応する式(式(13)または式(14))により、分散パラメータΣmを補正する。
エラーカウント計算部130は、補正した平均ベクトルと補正した共分散行列とを含む音響モデルと言語モデルとに基づき、学習用音声データの特徴量を音声認識することによって得られる対立候補シンボル系列ごとに、予め定めた粒度で、正解シンボル系列との相違度を求める(s107)。
補正パラメータ微分値計算部140は、式(15)の右辺で用いられている目的関数FdMMI θb,σ1,σ2を求める。さらに、補正パラメータ微分値計算部140は、目的関数FdMMI θb,σ1,σ2を音響モデル補正パラメータWk、Dkでそれぞれ微分する(式(12)、(16)または(17)s108)。
補正パラメータ更新部150は、平均補正パラメータWkに対する微分値∂FdMMI θb,σ1,σ2/∂Wkに応じて平均補正パラメータWkを変更することで、平均補正パラメータを更新し、さらに、分散補正パラメータDkに対する微分値∂FdMMI θb,σ1,σ2/∂Dkに応じて分散補正パラメータDkを変更することで、分散補正パラメータDkを更新する(s109)。
収束判定部160は、平均補正パラメータ及び分散補正パラメータの更新が予め定めた条件を満たすか否かを判定し(s110)、満たす場合には、更新後の平均補正パラメータ及び分散補正パラメータをそれぞれ求める平均補正パラメータ及び分散補正パラメータとして出力し(s111)、条件を満たさない場合には、音響モデル補正部120、エラーカウント計算部130、補正パラメータ微分値計算部140及び補正パラメータ更新部150の処理を繰り返す。
音響補正パラメータをクラスタ毎に求めなくともよい。その場合、式(2)で平均ベクトルを補正し、式(13a)または式(14a)で分散パラメータを補正する。
式(3)の音響モデルパラメータの補正は式(20)のように、特徴量の補正と等しくなることを示すことができる。
目的関数FdMMI θ,σ1,σ2を特徴量補正パラメータWk fで微分すると、次式のようになる。
図7に音声認識装置70の機能構成例、図8にその処理フロー例を示す。音声認識装置70は、特徴量抽出部91、特徴量補正部71、単語列探索部72、記録部74から構成される。
特徴量補正パラメータ推定装置200の構成を図9に、処理フローを図10に示す。第一実施形態とは異なる処理についてのみ説明する。特徴量補正パラメータ推定装置200は、特徴量抽出部110、音響モデル補正部220、エラーカウント計算部230、補正パラメータ微分値計算部240、補正パラメータ更新部250、収束判定部260、音響モデル記憶部170及び言語モデル記憶部180を含む。
特徴量補正部220は、特徴量補正パラメータの初期値Wf0または更新された特徴量補正パラメータWf(i−1)と、補正前の特徴量ベクトル系列Oとを受け取り、式(20)に基づき特徴量ベクトル系列Oを補正し(s206)、補正後の特徴量ベクトル系列O^をエラーカウント計算部230に出力する。
エラーカウント計算部230は、補正前の特徴量ベクトル系列Oの代わりに補正後の特徴量ベクトル系列O^を用いる点を除いては、第一実施形態と同じである(s102、s104、s207)。
補正パラメータ微分値計算部240は、補正前の特徴量ベクトル系列Oの代わりに補正後の特徴量ベクトル系列O^を用い、補正後の音響モデルΛ^の代わりに音響モデルΛを用い、目的関数FdMMI θ,σ1,σ2を微分する際に音響モデル補正パラメータWkの代わりに特徴量補正パラメータWk fを用いる。
補正パラメータ更新部250は、微分値(∂FdMMI θ,σ1,σ2/∂Wk f)を受け取り、微分値(∂FdMMI θ,σ1,σ2/∂Wk f)に応じてWk f、すなわちAk fおよびbk fを同時に更新する(s209)。更新後の特徴量補正パラメータW^k fを収束判定部160に出力する。
収束判定部260は、音響モデル補正パラメータの代わりに特徴量補正パラメータW^k fを用いる点を除いては、第一実施形態と同じである(s210、s211)。
このような構成により、正解シンボルの誤りの悪影響を弱めることができ、従来技術よりも適切に特徴量に対する補正パラメータを求めることができる。さらに、このようにして求めた特徴量補正パラメータを用いて、認識用音声データの特徴量を補正し、補正した特徴量に基づき音声認識を行うことで、従来技術に比べ、音声認識精度を改善できる。また、特徴量補正の場合は音響モデルパラメータを更新する必要がないという利点もある。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
Claims (7)
- 音響モデルには混合ガウス分布モデルが含まれるものとし、音響モデルパラメータには前記混合ガウス分布モデルに含まれるガウス分布の平均ベクトルが含まれるものとし、学習用音声データの特徴量及び前記学習用音声データに対する正解シンボル系列から、前記平均ベクトルを補正するための平均補正パラメータを求める音響モデル補正パラメータ推定装置であって、
予め求められた前記音響モデル及び言語モデルが記憶される記憶部と、
前記記憶部に記憶された音響モデルの平均ベクトルを、平均補正パラメータを用いて補正する音響モデル補正部と、
補正した前記平均ベクトルを含む音響モデルと前記言語モデルとに基づき、前記学習用音声データの前記特徴量を音声認識することによって得られる対立候補シンボル系列ごとに、予め定めた粒度で、前記正解シンボル系列との相違度を求めるエラーカウント計算部と、
前記言語モデルによって得られる前記対立候補シンボル系列の言語確率、前記学習用音声データの前記特徴量と前記対立候補シンボル系列に基づき前記音響モデルによって得られる音響スコア及び前記相違度に基づき、前記平均補正パラメータで識別学習基準の目的関数を微分したときの微分値を求める補正パラメータ微分値計算部と、
前記微分値に応じて前記平均補正パラメータを変更することで、前記平均補正パラメータを更新する補正パラメータ更新部と、を含む、
音響モデル補正パラメータ推定装置。 - 請求項1記載の音響モデル補正パラメータ推定装置であって、
前記音響モデルパラメータには、さらに、前記混合ガウス分布モデルに含まれるガウス分布の共分散行列が含まれるものとし、
前記音響モデル補正部は、さらに、前記混合ガウス分布モデルに含まれるガウス分布の共分散行列を、分散補正パラメータを用いて補正し、
前記エラーカウント計算部は、補正した前記平均ベクトルと補正した前記共分散行列とを含む音響モデルと前記言語モデルとに基づき、前記学習用音声データの前記特徴量を音声認識することによって得られる対立候補シンボル系列ごとに、予め定めた粒度で、前記正解シンボル系列との相違度を求め、
前記補正パラメータ微分値計算部は、さらに、前記言語モデルによって得られる前記対立候補シンボル系列の言語確率、前記学習用音声データの前記特徴量と前記対立候補シンボル系列に基づき前記音響モデルによって得られる音響スコア及び前記相違度に基づき、前記分散補正パラメータで識別学習基準の目的関数を微分したときの微分値を求め、
補正パラメータ更新部は、さらに、前記分散補正パラメータに対する前記微分値に応じて前記分散補正パラメータを変更することで、前記分散補正パラメータを更新する、
音響モデル補正パラメータ推定装置。 - 学習用音声データの特徴量及び前記学習用音声データに対する正解シンボル系列から、認識用音声データの特徴量を補正するための特徴量補正パラメータを求める特徴量補正パラメータ推定装置であって、
予め求められた音響モデル及び言語モデルが記憶される記憶部と、
前記学習用音声データの前記特徴量otを特徴量補正パラメータにより補正した補正後の特徴量o^tを求める特徴量補正部と、
予め定めた粒度で、前記補正後の特徴量o^tを音声認識することによって得られる対立候補シンボル系列ごとに、前記正解シンボル系列との相違度を求めるエラーカウント計算部と、
前記言語モデルによって得られる前記対立候補シンボル系列の言語確率、前記補正後の特徴量o^tと前記対立候補シンボル系列に基づき前記音響モデルによって得られる音響スコア及び前記相違度に基づき、前記特徴量補正パラメータで識別学習基準の目的関数を微分したときの微分値を求める補正パラメータ微分値計算部と、
前記微分値に応じて前記特徴量補正パラメータを変更することで、前記特徴量補正パラメータを更新する補正パラメータ更新部と、を含む、
特徴量補正パラメータ推定装置。 - 音響モデルには混合ガウス分布モデルが含まれるものとし、音響モデルパラメータには前記混合ガウス分布モデルに含まれるガウス分布の平均ベクトルが含まれるものとし、学習用音声データの特徴量及び前記学習用音声データに対する正解シンボル系列から、前記平均ベクトルを補正するための平均補正パラメータを求める音響モデル補正パラメータ推定方法であって、
記憶部には予め求められた前記音響モデル及び言語モデルが記憶され、
前記記憶部に記憶された音響モデルの平均ベクトルを、平均補正パラメータを用いて補正する音響モデル補正ステップと、
補正した前記平均ベクトルを含む音響モデルと前記言語モデルとに基づき、前記学習用音声データの前記特徴量を音声認識することによって得られる対立候補シンボル系列ごとに、予め定めた粒度で、前記正解シンボル系列との相違度を求めるエラーカウント計算ステップと、
前記言語モデルによって得られる前記対立候補シンボル系列の言語確率、前記学習用音声データの前記特徴量と前記対立候補シンボル系列に基づき前記音響モデルによって得られる音響スコア及び前記相違度に基づき、前記平均補正パラメータで識別学習基準の目的関数を微分したときの微分値を求める補正パラメータ微分値計算ステップと、
前記微分値に応じて前記平均補正パラメータを変更することで、前記平均補正パラメータを更新する補正パラメータ更新ステップと、を含む、
音響モデル補正パラメータ推定方法。 - 請求項4記載の音響モデル補正パラメータ推定方法であって、
前記音響モデルパラメータには、さらに、前記混合ガウス分布モデルに含まれるガウス分布の共分散行列が含まれるものとし、
前記音響モデル補正ステップにおいて、さらに、前記混合ガウス分布モデルに含まれるガウス分布の共分散行列を、分散補正パラメータを用いて補正し、
前記エラーカウント計算ステップにおいて、補正した前記平均ベクトルと補正した前記共分散行列とを含む音響モデルと前記言語モデルとに基づき、前記学習用音声データの前記特徴量を音声認識することによって得られる対立候補シンボル系列ごとに、予め定めた粒度で、前記正解シンボル系列との相違度を求め、
前記補正パラメータ微分値計算ステップにおいて、さらに、前記言語モデルによって得られる前記対立候補シンボル系列の言語確率、前記学習用音声データの前記特徴量と前記対立候補シンボル系列に基づき前記音響モデルによって得られる音響スコア及び前記相違度に基づき、前記分散補正パラメータで識別学習基準の目的関数を微分したときの微分値を求め、
補正パラメータ更新ステップにおいて、さらに、前記分散補正パラメータに対する前記微分値に応じて前記分散補正パラメータを変更することで、前記分散補正パラメータを更新する、
音響モデル補正パラメータ推定方法。 - 学習用音声データの特徴量及び前記学習用音声データに対する正解シンボル系列から、認識用音声データの特徴量を補正するための特徴量補正パラメータを求める特徴量補正パラメータ推定方法であって、
記憶部には予め求められた前記音響モデル及び言語モデルが記憶され、
前記学習用音声データの前記特徴量otを特徴量補正パラメータにより補正した補正後の特徴量o^tを求める特徴量補正ステップと、
予め定めた粒度で、前記補正後の特徴量o^tを音声認識することによって得られる対立候補シンボル系列ごとに、前記正解シンボル系列との相違度を求めるエラーカウント計算ステップと、
前記言語モデルによって得られる前記対立候補シンボル系列の言語確率、前記補正後の特徴量o^tと前記対立候補シンボル系列に基づき前記音響モデルによって得られる音響スコア及び前記相違度に基づき、前記特徴量補正パラメータで識別学習基準の目的関数を微分したときの微分値を求める補正パラメータ微分値計算ステップと、
前記微分値に応じて前記特徴量補正パラメータを変更することで、前記特徴量補正パラメータを更新する補正パラメータ更新ステップと、を含む、
特徴量補正パラメータ推定方法。 - 請求項1もしくは請求項2記載の音響モデル補正パラメータ推定装置、または、請求項3記載の特徴量補正パラメータ推定装置として、コンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013025865A JP6121187B2 (ja) | 2013-02-13 | 2013-02-13 | 音響モデル補正パラメータ推定装置、その方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013025865A JP6121187B2 (ja) | 2013-02-13 | 2013-02-13 | 音響モデル補正パラメータ推定装置、その方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014153680A true JP2014153680A (ja) | 2014-08-25 |
JP6121187B2 JP6121187B2 (ja) | 2017-04-26 |
Family
ID=51575559
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013025865A Active JP6121187B2 (ja) | 2013-02-13 | 2013-02-13 | 音響モデル補正パラメータ推定装置、その方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6121187B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6128287B1 (ja) * | 2016-05-20 | 2017-05-17 | 三菱電機株式会社 | 音声認識装置および音声認識方法 |
CN111524017A (zh) * | 2019-02-01 | 2020-08-11 | 天津幸福生命科技有限公司 | 理赔数据的审核方法、装置及介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102662571B1 (ko) | 2018-03-02 | 2024-05-07 | 삼성전자주식회사 | 전자 장치, 제어 방법 및 컴퓨터 판독 가능 매체 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11212588A (ja) * | 1998-01-22 | 1999-08-06 | Hitachi Ltd | 音声処理装置、音声処理方法、及び音声処理プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2002182682A (ja) * | 2000-12-15 | 2002-06-26 | Sharp Corp | 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、音声合成装置、並びに、プログラム記録媒体 |
JP2011048262A (ja) * | 2009-08-28 | 2011-03-10 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデルパラメータ学習装置、音響モデルパラメータ学習方法、音響モデルパラメータ学習プログラム |
JP5738216B2 (ja) * | 2012-02-27 | 2015-06-17 | 日本電信電話株式会社 | 特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム |
-
2013
- 2013-02-13 JP JP2013025865A patent/JP6121187B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11212588A (ja) * | 1998-01-22 | 1999-08-06 | Hitachi Ltd | 音声処理装置、音声処理方法、及び音声処理プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2002182682A (ja) * | 2000-12-15 | 2002-06-26 | Sharp Corp | 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、音声合成装置、並びに、プログラム記録媒体 |
JP2011048262A (ja) * | 2009-08-28 | 2011-03-10 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデルパラメータ学習装置、音響モデルパラメータ学習方法、音響モデルパラメータ学習プログラム |
JP5738216B2 (ja) * | 2012-02-27 | 2015-06-17 | 日本電信電話株式会社 | 特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6128287B1 (ja) * | 2016-05-20 | 2017-05-17 | 三菱電機株式会社 | 音声認識装置および音声認識方法 |
WO2017199417A1 (ja) * | 2016-05-20 | 2017-11-23 | 三菱電機株式会社 | 音声認識装置および音声認識方法 |
CN111524017A (zh) * | 2019-02-01 | 2020-08-11 | 天津幸福生命科技有限公司 | 理赔数据的审核方法、装置及介质 |
CN111524017B (zh) * | 2019-02-01 | 2023-09-22 | 北京懿医云科技有限公司 | 理赔数据的审核方法、装置及介质 |
Also Published As
Publication number | Publication date |
---|---|
JP6121187B2 (ja) | 2017-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6637078B2 (ja) | 音響モデル学習装置、音響モデル学習方法及びプログラム | |
JP5229216B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
JP6222821B2 (ja) | 誤り修正モデル学習装置、及びプログラム | |
US8515758B2 (en) | Speech recognition including removal of irrelevant information | |
JP6506074B2 (ja) | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法及びプログラム | |
WO2012105231A1 (ja) | モデル適応化装置、モデル適応化方法およびモデル適応化用プログラム | |
JP6031316B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
WO2007105409A1 (ja) | 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム | |
US8078462B2 (en) | Apparatus for creating speaker model, and computer program product | |
JP6121187B2 (ja) | 音響モデル補正パラメータ推定装置、その方法及びプログラム | |
JP5738216B2 (ja) | 特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム | |
JP5079760B2 (ja) | 音響モデルパラメータ学習装置、音響モデルパラメータ学習方法、音響モデルパラメータ学習プログラム | |
JP6027754B2 (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
JP5288378B2 (ja) | 音響モデルの話者適応装置及びそのためのコンピュータプログラム | |
JP6158105B2 (ja) | 言語モデル作成装置、音声認識装置、その方法及びプログラム | |
Liu et al. | Discriminative training of CDHMMs for maximum relative separation margin | |
JP5694976B2 (ja) | 分散補正パラメータ推定装置、音声認識システム、分散補正パラメータ推定方法、音声認識方法及びプログラム | |
JP4705535B2 (ja) | 音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラム | |
JP6324647B1 (ja) | 話者適応化装置、音声認識装置および音声認識方法 | |
JP5812936B2 (ja) | アクセント句境界推定装置、アクセント句境界推定方法及びプログラム | |
JP5369079B2 (ja) | 音響モデル作成方法とその装置とプログラム | |
Delcroix et al. | Unsupervised discriminative adaptation using differenced maximum mutual information based linear regression | |
Mozaffari et al. | Improvement of time alignment of the speech signals to be used in voice conversion | |
Andrew et al. | Backpropagation in sequential deep neural networks | |
HUANG et al. | Automatic context induction for tone model integration in mandarin speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150114 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160202 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160315 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160906 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161031 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170328 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170329 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6121187 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |