JP2011048163A - 音響モデルの話者適応装置及びそのためのコンピュータプログラム - Google Patents

音響モデルの話者適応装置及びそのためのコンピュータプログラム Download PDF

Info

Publication number
JP2011048163A
JP2011048163A JP2009196757A JP2009196757A JP2011048163A JP 2011048163 A JP2011048163 A JP 2011048163A JP 2009196757 A JP2009196757 A JP 2009196757A JP 2009196757 A JP2009196757 A JP 2009196757A JP 2011048163 A JP2011048163 A JP 2011048163A
Authority
JP
Japan
Prior art keywords
speaker
acoustic model
objective function
frame
adaptation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009196757A
Other languages
English (en)
Other versions
JP5288378B2 (ja
Inventor
Shigeki Matsuda
繁樹 松田
Satoru Nakamura
哲 中村
Yu So
ユ ソウ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2009196757A priority Critical patent/JP5288378B2/ja
Publication of JP2011048163A publication Critical patent/JP2011048163A/ja
Application granted granted Critical
Publication of JP5288378B2 publication Critical patent/JP5288378B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】高い汎化能力を持ち、少ない適応データで話者独立な音響モデルを話者適応できる話者適応装置を提供する。
【解決手段】話者適応装置は、話者適応のための変換行列及び話者適応用データを記憶する記憶装置と、話者独立な音響モデルに変換行列を適用し、話者適応音響モデルを算出する音響モデル変換部150と、話者適応用データのうち正解データの事後確率が所定範囲に存在するフレームを選択するフレーム選択部142と、選択されたフレームを用い、ソフトマージン推定の目的関数の値を算出する目的関数算出部144、146と、最適化アルゴリズムを用い、目的関数の値を極小化するよう変換行列を更新する更新部148と、更新後の変換行列を用い、音響モデル変換部150、フレーム選択部142、目的関数算出部144,146、及び更新部150を終了条件が充足されるまで繰返し動作させる繰返し制御部154とを含む。
【選択図】 図6

Description

この発明は音声認識技術に関し、特に、話者独立な音響モデルを認識対象となる特定の話者に適応化する装置及びそのためのコンピュータプログラムに関する。
図1に、一般的な音声認識システム30の概略構成を示す。図1を参照して、音声認識システム30は、認識対象の単位の音素列ごとに予め音声コーパスを用いて学習された、HMM(Hidden Markov Model:隠れマルコフモデル)からなる音響モデル40と、認識対象の言語について予めコーパス内での単語又は単語列の出現頻度の統計をとることにより準備された言語モデル42と、音響モデル40及び言語モデル42を用いて入力音声46に対して統計的な音声認識処理を行ない、入力音声46に対して最も確率の高い認識結果48を出力するための音声認識装置44とを含む。
HMMは、1又は複数個の状態と、状態間の遷移確率と、各状態での出力値の確率を推定するための、典型的にはガウス混合モデル(GMM)とからなり、与えられた出力値の系列が、このHMMに対応する音素(又は音素列)から得られる確率(尤度)を与えるためのものである。入力される各音素(又は音素列)に対して各HMMで尤度を算出し、これらの尤度と、得られる音素系列に対応して言語モデル42から算出される単語の生起確率を考慮し、最も確率の高い単語列が認識結果として出力される。
このように音声認識においては音響モデル40は非常に重要な役割を担っている。たとえば話者の性別及び年齢によって一般的に音声の特徴量は大きく異なるため、話者の性別及び年齢に応じた音響モデルを使用することが多い。そうした音響モデルは、話者の性別、年齢によって分類した、大量の音声コーパスを学習データとした学習により作成される。学習後に、学習に用いられたものと同じデータが与えられたときには、その学習データに適合した正しい出力が得られるように、音素(又は音素列)ごとの各種パラメータの値が決定される。これらパラメータは、上記した状態間の遷移確率、各HMMのGMMを構成する正規分布の確率密度関数の平均ベクトル及び分布などである。
入力音声46が特定話者の音声であることが分かっている場合には、その話者の音声からなる学習データを用いて学習した音響モデル40を用いれば、認識結果は当然に高くなる。しかし、一般的にそのような学習のために話者の発話を大量に集めることは難しい。したがって、図2に示されるように、話者独立な音響モデル40を準備し、比較的少量の特定話者の発話データから得られた変換行列60を用いて音響モデルのパラメータを適応化し、話者適応後の音響モデル62を作成することがよく行なわれる。この適応化では、たとえば音響モデル40のGMMを構成する正規分布の平均ベクトル(図2のμ−μ等)を話者に適応した新たな平均ベクトル(μ′−μ′等)に変換するための変換行列Wを、適応学習データから線形回帰行列として求めることが行なわれる。
HMMのパラメータの学習は、最尤(ML:Maximum Likelihood)基準を用いて行なわれることが一般的である。最尤基準によるパラメータの学習では、正解候補のみが学習に用いられ、正解候補に対する尤度が最大化される。したがって、HMMの学習に用いられたデータを用いて音声認識のテストをするとその精度は高くなる。しかし、学習データと同じ入力発話が実際に与えられるわけではないので、それらに対する精度がどの程度になるのかが問題となる。学習データに対して過剰にフィットする、いわゆる過学習により、実際の発話に対する認識精度が低下してしまうこともある。このように、限られた学習データから、学習データ以外の入力に対しても正しい推定ができるような能力を汎化能力と呼ぶ。
一方、識別学習と呼ばれる学習方法がある。識別学習では、正解候補と対立候補(誤りを含む候補)とを使用し、所定の目的関数を解くことによりモデルのパラメータが推定される。対立候補としては、音声認識のNベスト候補を利用したり、デコーダから得られた単語ラティスから対立候補を抽出したりする。
識別学習の方法として、相互情報量最大化学習(MMIE)、最小分類誤り学習(MCE)、音素誤り最小化学習(MPE)などが知られている。これらの相違は、目的関数の相違として理解することができる。
MMIEは、式(1)により計算される目的関数OMMIEを最大化することにより、モデルパラメータΛを推定する。式中、Nは学習発話数、Oは第i番目の発話の特徴ベクトル時系列、Sは第i番目の発話の正解候補、^Sは正解候補を含む全ての候補を表す。(「^」は、式中では直後の文字の直上に描かれている。)
Figure 2011048163
式(1)の対数項の分子は正解候補Sに対する確率を表し、分母は正解候補を含む全ての候補^Sに対する確率の和により計算される。したがって、MMIEは正解候補に対する事後確率を最大化する基準と言い換えることができる。
MCEは、次に記載する式(3)等の式で計算される、認識誤りに強く依存するロス値を最小化することにより、直接的に認識誤りを最小化する。式(2)のd(O、Λ)は推定されるパラメータΛとi番目の発話の特徴ベクトルOとの間に定義される距離関数である。この距離関数の分子はMMIEと同様に、正解候補に対する確率を表す。一方、分母は、正解候補を含まない全ての候補に対する確率の和である。目的関数は式(4)である。式(4)を最小化することにより、学習データ全体に対して誤りが最小化される。式(3)中のγとθはそれぞれシグモイド関数の傾きとバイアスである。
Figure 2011048163
MPEは、MCEよりさらに音声認識性能に近い基準である音素正解精度を最大化する。MPEの目的関数を式(5)に示す。式(5)中の「Acc(S,^S)は音素正解精度の計算関数である。
Figure 2011048163
上記種々の目的関数の最小化には、確率的最急降下法(GPD)と呼ばれる手法(非特許文献5)、及び拡張バウムウェルチアルゴリズムと呼ばれるアルゴリズムが用いられることが多い。
識別学習による音響モデルの推定は、音声認識性能の改善効果の高さから広く用いられている。一般に識別学習は、学習データと評価データの条件が近い場合、評価データに対して十分に高い性能を得ることができる。しかし、このような条件の一致は、現実の問題において保障されない。
X.リー他、「音声認識のための大マージンHMM」、ICASSP予稿集、pp.V513−V516,2005年(X. Li, H. Jiang, and C. Liu, "Large margin HMMs for speech recognition," Proc. ICASSP, pp. V513-V516, 2005.) J.リー他、「ソフトマージン推定による概略テストリスク境界の最小化」、IEEEトランザクション・オン・オーディオ・スピーチ・アンド・ランゲージ、第15巻第8号、pp.2393−2404、2007年(J. Li, M. Yuan, and C. -H. Lee, "Approximate test risk Bound minimization through soft margin estimation," IEEE Trans. on Audio, Speech, and Language, vol. 15, no. 8, pp. 2393-2404, 2007.) C.J.レゲッター他、「連続確率密度隠れマルコフモデルの話者適応のための最大尤度線形回帰」、コンピュータ・スピーチ及び言語、第9巻、pp.171−185、1995年(C. J. Leggetter and P. C. Woodland, "Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models," Comput. Speech Lang., vol. 9, pp. 171-185, 1995.) J.ウー他、「MCEにより学習した連続確率密度隠れマルコフモデルの教師付適応のための最小分類誤り(MCE)線形回帰の研究」、IEEEトランザクション・オン・スピーチ・アンド・オーディオ・プロセッシング、第15巻第2号、pp.478−488、2007年(J. Wu and Q. Huo, "A study of minimum classication error (MCE) linear regression for supervised adaptation of MCE-trained continuous-density hidden Markov models," IEEE Trans. on Speech and Audio Proc., vol. 15, no. 2, pp. 478-488, 2007.) ビイン−ホワヌ ジアン他、「最小誤り分類のための識別学習」、IEEEトランザクション・オン・シグナル・プロセッシング、第40巻第12号、pp.3043−3054、1992年(Biing-Hwang Juang, and Shigeru Katagiri, "Discriminative Learning for Minimum Error Classification," IEEE Trans. on Signal Processing., vol. 40, no. 12, pp. 3043-3054, 1992.)
ところで、上記した誤り最小化学習は、学習データが与えられたときの誤りを最小化するようにモデルパラメータを推定する。この学習方法では、前述したとおり学習データによってモデルを評価したときの精度は高くなるが、学習データと異なるデータで評価したときの精度は低くなる。すなわち、汎化能力を考慮していない。
誤り最小化学習に対して、テストリスク最小化学習と呼ばれる学習方法がある。テストリスク最小化学習では、テストリスクR、すなわち学習データと異なる入力データが与えられたときにエラーが発生する率、を最小化することを試みる。
テストリスクRは、経験リスクRemp(学習データに対する誤り率)と、汎化項と呼ばれる、モデルの複雑さを表す値と所定のパラメータλとの積との和以下となると考えられている。ここで汎化項は、モデルが単純なとき(モデルのパラメータが少ないとき)には小さな値をとり、モデルが複雑なとき(モデルのパラメータが多いとき)には大きな値をとる。モデルが複雑なときには、学習データに対して過学習となっている可能性が高いので、テストデータに対しては誤る率がそれだけ高くなる。パラメータλは経験リスクと汎化項とのバランスをとるためのパラメータである。
このようなテストリスクを最小化するような学習を行なうことで、モデルの汎化性をコントロールすることができる。
このようにテストリスクを最小化するという考えに基づき、サポートベクターマシンの分野において提案されたマージンの概念を音声認識のための識別学習に導入する手法の研究が盛んである。たとえば非特許文献1ではマージン最大学習(LME)が提案され、非特許文献2ではソフトマージン推定(SME)が提案されている。これらにより、高い汎化能力が報告されている。このようなマージンによる汎化能力の改善は、適応データ量が限られる話者適応等において、過学習の問題を避ける為にも特に重要である。
音響モデルの話者適応における標準的手法として、非特許文献3に記載された最尤線形回帰法(MLLR)が、その話者適応能力の高さから広く用いられている。識別的アプローチを用いて線形回帰行列を推定する手法として、非特許文献4に記載された、最小分類誤り推定を用いた手法(MCELR)が提案され、MLLRよりも高い適応性能が報告されている。
このように、マージンの概念を用いたモデル学習は有望である。しかし、話者適応の場合には、少ない適応データで話者独立な音響モデルを特定の話者に適応化させなければならず、そうした局面においてマージンの概念をどのように適用できるかについては、従来考慮されていない。特に、適応データが極端に少ないときに、認識精度をできるだけ高めるためにどのように話者適応を行なうか、特にそこでマージンの概念をどのように適用すると有効か、については全く提案されていなかった。
それゆえに本発明の目的は、高い汎化能力を持ち、少ない適応データで話者独立な音響モデルを適応化させることが可能な話者適応装置及びそのためのコンピュータプログラムを提供することである。
本発明の別の目的は、高い汎化能力を持ち、少ない適応データで話者独立な音響モデルを適応化させるための線形回帰行列を求めることが可能な話者適応装置及び及びそのためのコンピュータプログラムを提供することである。
本発明の第1の局面に係る話者適応装置は、話者独立な音響モデルを、話者適応用のデータを用いた識別学習により、特定話者に適応させる話者適応装置であって、話者適応のための変換行列及び話者適応用のデータを記憶するための記憶手段と、話者独立な音響モデルに、変換行列を適用して、特定話者に適応した音響モデルを算出するための音響モデル変換手段と、記憶手段に記憶された話者適応用データに含まれるフレームのうち、特定話者に適応した音響モデルにより算出された正解データの信頼度が所定範囲に存在するフレームを選択するためのフレーム選択手段と、フレーム選択手段により選択されたフレームを用い、予め識別学習のために準備されたソフトマージン推定のための、経験リスクと汎化項との重み付き和からなる目的関数であって、変換行列の関数である目的関数の値を算出するための目的関数算出手段と、所定の最適化アルゴリズムを用い、目的関数算出手段により算出される目的関数の値を極小化するよう、変換行列を更新するための更新手段と、変換行列計算手段により更新された変換行列を新たな変換行列として、音響モデル変換手段、フレーム選択手段、目的関数算出手段、及び更新手段を所定の終了条件が充足されるまで繰返し動作させるための繰返し制御手段とを含む。
話者独立な音響モデルを特定話者のための話者適応後の音響モデルに変換するための変換行列と、話者適応のための話者的応用データとを記憶手段に記憶させておく。話者的応用データに含まれるフレームのうち、話者適応後の音響モデルを用いたデコード時の、正解データの信頼度が所定範囲にあるものを、フレーム選択手段が選択する。選択されたフレームを用いて、目的関数算出手段が所定の目的関数の値を算出する。更新手段は、目的関数の値を極小化するよう、予め定められた最適化アルゴリズムにより変換行列を更新する。音響モデル変換手段は、この変換行列により、話者独立な音響モデルを変換して話者適応後の音響モデルを算出する。繰返し制御手段は、これらの処理を所定の終了条件が充足されるまで繰返す。
このようにして得られた話者適応後の音響モデルによれば、特定話者の発話に対する音声認識精度を高めることができる。フレームの信頼度として例えばフレーム事後確率で見ると、特に低い範囲の値を持つフレームの事後確率が、上記した話者適応後の音響モデルを用いてデコードした場合にはいずれも高い値に変化することが確認できた。
好ましくは、上記信頼度は正解データのフレームの事後確率である。
より好ましくは、フレーム選択手段は、記憶手段に記憶された話者適応用データに含まれるフレームのうち、特定話者に適応した音響モデルにより算出された正解データの事後確率Pが所定のしきい値τより大きく、目的関数に含まれるソフトマージン値ρより小さな範囲に存在するフレームを選択するための手段を含む。
正解データの事後確率がしきい値τより小さいものは、学習データとして不適と考えられる。したがってそれらは適応用データから排除する。事後確率がソフトマージン値ρより大きな範囲の適応用データは、テストリスクに関係しない。したがってそれらも適応用データから排除する。このようにデータを選択することで、計算コストを下げ、適応を早期に終わらせることができる。
好ましくは、音響モデル変換手段は、話者独立な音響モデルに含まれる正規分布の各々の平均ベクトルに変換行列を適用することにより、特定話者に適応した音響モデルを算出するための手段を含む。
理論的には、平均ベクトルだけではなく、分布など、確率密度関数を構成する正規分布のパラメータを同様に話者適応させることができる。しかし、平均ベクトルにこのような話者適応を行なうことによっても、特定話者の発話に対する音響モデルの認識性能を高められることが実験により確認できた。
好ましくは、目的関数は、次の式により示され、
Figure 2011048163
ただしNは適応サンプル数、Oは第i番目の適応サンプル発話、ρはソフトマージン、Λは最適化対象のパラメータ、Oijは第i番目の適応サンプル発話の第j番目のサンプル、λは汎化項と経験リスク項との間のバランスを表す定数、l(Oij,Λ)は、最適化対象のパラメータΛ、すなわち変換行列Wに対し、第i番目の適応サンプル発話の第j番目のサンプルOijについて計算されるロス関数、d(Oij,Λ)は、適応サンプルOijと最適化対象のパラメータΛ(すなわち変換行列W)に対する、正解クラスと対立クラスとの間の距離関数を、それぞれ示す。
本発明の第2の局面に係るコンピュータプログラムは、コンピュータを、話者適応のための変換行列及び話者適応用のデータを記憶するための記憶手段と、話者独立な音響モデルに、変換行列を適用して、特定話者に適応した音響モデルを算出するための音響モデル変換手段と、記憶手段に記憶された話者適応用データに含まれるフレームのうち、特定話者に適応した音響モデルにより算出された正解データの事後確率が所定範囲に存在するフレームを選択するためのフレーム選択手段と、フレーム選択手段により選択されたフレームを用い、予め識別学習のために準備されたソフトマージン推定のための、経験リスクと汎化項との重み付き和からなる目的関数であって、変換行列の関数である目的関数の値を算出するための目的関数算出手段と、所定の最適化アルゴリズムを用い、目的関数算出手段により算出される目的関数の値を極小化するよう、変換行列を更新するための更新手段と、変換行列計算手段により更新された変換行列を新たな変換行列として、音響モデル変換手段、フレーム選択手段、目的関数算出手段、及び更新手段を所定の終了条件が充足されるまで繰返し動作させるための繰返し制御手段として機能させる。
一般的な音声認識システム30の構成を示すブロック図である。 音響モデルの話者適応を模式的に示す図である。 識別学習による識別学習の確定の困難さを説明するための図である。 識別学習におけるマージンの概念を説明するための模式図である。 ソフトマージンによる識別学習におけるマージンの大きさとリスクとの関係を説明するための図である。 本発明の第1の実施の形態に係る話者適応装置を実現するためのプログラムのメインルーチンの制御構造を示すフローチャートである。 図6に制御構造を示すプログラムにおいて、フレームセレクション処理を実現するプログラムの制御構造を示すフローチャートである。 距離関数を説明するための模式図である。 本発明の第1の実施の形態に係る話者適応装置による実験結果を示すグラフである。 本発明の第1の実施の形態に係る話者適応装置による実験結果で得られた、フレーム事後確率のヒストグラムを示す図である。 本発明の第2の実施の形態にかかる話者適応装置において、適応発話数及びインターポレーション重みと、単語正解率との関係を示すグラフである。 本発明の第1及び第2の実施の形態を実現する汎用のコンピュータシステムのハードウェア外観を示す図である。 図12に示すコンピュータシステムの内部構造のブロック図である。
以下の説明及び図面において、同じ部品には同じ参照番号を付してある。それらの名称及び機能も同一である。したがって、それらについての詳細な説明は繰返さない。
<第1の実施の形態>
最初に、この実施の形態において、図2に示す変換に用いる変換行列Wをどのように推定するかについて、その原理を説明し、その後にその原理に従った実施の形態の装置の構成及び動作について説明する。
[ソフトマージン推定による変換行列の推定]
‐ソフトマージン推定
本実施の形態では、ソフトマージン推定により変換行列を推定する。図3を参照して、2つのクラス70及び72があり、これらを識別するための識別境界を推定する場合を考える。両者を識別するための識別境界として、図3に示す識別境界80,82,84,86,88及び90のように無数の候補が存在する。識別学習では、テストリスクを最小化するために、識別境界から学習サンプルまでの距離を最大化することを目標とする。
図4を参照して、学習サンプルのクラス70及び72の間にある識別境界100を考える。この場合、クラス70及び72にそれぞれ含まれるサンプルのうち、識別境界100に最も近いサンプル110及び112と識別境界100との間の距離102及び104がマージンである。このマージンを最大化するために、所定の目的関数を最適化する。同時に、マージンを考慮したモデルのパラメータ推定を行なうことにより、モデルの汎化性能を改善する。
図5を参照して、図4のように識別境界100を推定したとしても、モデルの構造をある程度単純なものにした場合には、学習データを入力としてモデルの性能を評価しようとした場合、正しく識別されないサンプル118,114が発生したり、マージン内に位置すると判定されるサンプル110,112、116、120が発生したりすることがある。すなわち、経験リスクが存在する。経験リスクを最小化しようとするとモデルが複雑となり、汎化リスクが増大する。また、学習サンプル自体の誤りなどの場合には、図5においてサンプル122で示されるような異常なサンプルが発生することがある。このようなサンプルはマージン推定の際には学習データからリジェクトする必要がある。
そこで、本実施の形態では、以下に説明するような手法によりソフトマージン推定を行なう。
ソフトマージン推定は、マージンを最大化しつつ、マージンから外れた(識別の困難な)学習サンプルに対する経験リスクを、同時に最小化する手法である。この手法では、識別境界付近の、正しく認識された学習サンプルのみを用いてソフトマージンを推定する。式(6)にソフトマージン推定で用いられる目的関数OSMEを示す。
Figure 2011048163
式(6)の第1項は経験リスクを、第2項は汎化リスクを、それぞれ表す。式(6)中のNは学習サンプル数、Oは第i番目の学習サンプル、ρはソフトマージン、Λは最適化対象のパラメータを、それぞれ表す。式(7)などにおけるOijは第i番目の発話の第j番目のサンプルを示す。λは汎化項と経験リスク項との間のバランスを表し、システム要件及び実験に基づいてその値を定める。関数l(エル)(Oij,Λ)は、最適化対象のパラメータΛに対し、学習パラメータOijについて計算されるロス関数である。d(Oij,Λ)は、ある学習サンプルOijと最適化対象のパラメータΛに対する、正解クラスと対立クラスとの間の距離である。この距離については図8を参照して後述する。マージンを大きくした場合、汎化項は減少する一方、マージンから外れた学習サンプル量が増加し経験リスク項が増大する。逆に、マージンを小さくした場合、汎化項は増大する一方、経験リスク項は減少する。
経験リスクは、式(8)のように、ヒンジ関数を用いたフレームセレクションにより計算される。式(8)中のp(S|Oij)は第i番目の発話における第j番目のフレームに対する事後確率(フレーム事後確率)を表す。τは極端に小さなフレーム事後確率を持つフレームを異常値として除くためのしきい値である。
すなわち、式(8)にしたがうフレームセレクションにより、マージン内(識別境界からマージンρ以上はなれた領域)のサンプルについてはソフトマージンの推定には使用されず、マージン外(識別境界からの距離がマージンρ未満の領域)のサンプルのみが使用される。また、事後確率がしきい値τよりも小さなサンプルについては、学習サンプルの誤りとみなしてソフトマージンの推定には使用しない。
‐線形回帰行列の推定
続いて、SMEを用いた線形回帰行列の推定について述べる。音響モデル中の平均ベクトルは、式(9)により変換される。ここでは、平均ベクトルに対する適応についてのみ述べる。
Figure 2011048163
式(9)中のξmは第m番目のクラスのHMMモデルにおける第r番目のガウス分布の拡張平均ベクトルである。^Wは第m番目のクラスに対する線形回帰行列を表し、本実施の形態ではこの行列がSMEにより推定される。本実施の形態では、次の式(10)に示す正解候補に対する尤度g()と対立候補に対する尤度 ̄g()より計算される距離尺度dを用いた。(記号「 ̄」は式中では直後の文字の直上に記されている。)
Figure 2011048163
図8は、正解クラスと対立クラスとを説明するための図である。図8を参照して、たとえば5つのクラス230(クラスA),232(クラスB),234(クラスC),236(クラスD)及び238(クラスE)が存在したものとする。これらには、それぞれ「×」で示す中心が存在する。
クラスAに属する学習サンプル240が、図8において二重丸で示す位置にあるものとする。この場合、この学習サンプル240と、クラスA,B,C,D及びEの中心との距離d1,d2,d3,d4及びd5が計算できる。これらのうち、不正解のクラスとの距離d2,d3,d4及びd5のうちで最も小さな値に対応するクラスが対立クラスとなる。図8に示される例ではこれらのうちで最小のものはd4であり、したがってカテゴリDが対立クラス、カテゴリAが正解クラスである。
前述した距離関数d(・)として、本実施の形態では、d=−d1(学習サンプルと正解クラスの中心位置との距離)+d4(学習サンプルと対立クラスの中心位置との距離)という値を用いる。こうすることで、d(・)の値がマイナスのときにはその学習サンプルは正しく識別されていることになり、プラスのときには誤って識別されていることになる。
式(10)で定義した距離尺度と式(8)とから、次の式(11)に示すようにSMEロス関数は変換行列Wの関数となり、さらにこれを用いてロス関数の偏微分係数∂OSME(W)/∂Wが得られ、式(12)に示す確率的最急降下法(GPD)により行列Wを最適化することができる。式(12)中におけるWimは、確率的最急降下法における第m回目の繰返しにおける変換行列を示す。
Figure 2011048163
式(11)におけるεは学習係数である。ここで、式(11)のρが式(12)では消えていることに注意。
[構成]
以下に述べる第1の実施の形態に係る話者適応装置は、汎用コンピュータと、その汎用コンピュータ上で実行されるコンピュータプログラムとにより実現することができる。図6は、そのためのプログラムの制御構造を示すフローチャートである。
図6を参照して、このプログラムは、初期化処理を行なうステップ140を含む。初期化処理では、以下に述べる繰返し処理を制御するための繰返制御変数mに0を代入し、繰返制御変数mの最大値(すなわち以下の繰返し処理の繰返し回数)mMAXに20を代入し、変換対象の行列Wの初期値Wに従来技術の項で説明したMLLRにより推定された線形回帰行列を代入する。
このプログラムはさらに、ステップ140に続き、既に説明した方法により適応データの中で適応処理に使用するフレームを選択するフレームセレクションを実行するステップ142と、ステップ142で選択されたフレームデータの全てに対し、式(7)により示されるロス関数の値を算出するステップ144と、ステップ144で算出されたロスの値を用い、式(6)にしたがって目的関数OSMEの値を計算するステップ146とを含む。
このプログラムはさらに、GDPによる最適化のために、目的関数OSME(W)(mは繰返し制御変数の値であり、Wはm番目の繰返し時の変換行列を示す。)の行列Wによる偏微分係数∂OSME(W)を求め、前掲の式(11)により変換行列WをWm+1に更新するステップ148と、話者独立な音響モデルMに対し更新後の変換行列Wm+1をかけることにより、話者適応処理の第m回目の繰返しから得られる話者適応後の音響モデルMを算出するステップ150と、ステップ150に続き、繰返し制御変数mに1を加算するステップ152と、繰返し制御変数mの値が最大値mMAXと等しいか否かを判定し、等しくない場合には制御の流れをステップ142に戻すステップ154と、ステップ154における判定結果がYESのときに実行され、ステップ150で更新された話者適応モデルMを所定の出力先に出力して処理を終了するステップ156とを含む。
図7は、図6のステップ142で実行されるフレームセレクション処理を実現するプログラムのフローチャートである。図7を参照して、このプログラムは、全フレームに対して以下に説明する処理182を実行するステップ180を含む。
処理182は、音響モデル内に含まれる全音素(又は全音素列)に対応するモデルの各々に対し、そのフレームが出力される尤度を算出するステップ186を実行するステップ184と、あるフレームについてステップ184で算出された尤度のうち、正解モデルから得られた尤度の信頼度を、そのフレームについて全てのモデルで得られた尤度の和で除算することにより事後確率(信頼度)を算出する処理を全てのフレームについて実行するステップ190と、全フレームのうち、ステップ190で算出された事後確率がτより大きくマージンρより小さなもののみを選択するステップ192及び194とを含む。この処理により、適応データのうち、事後確率がτ以下のフレーム、及びマージンρ以上のものは適応データから除外され、事後確率がτより大きく、マージンρ以下のもののみが適応処理に用いられるデータとして選択される。
以上のように、SMEにより変換行列を最適化する手法をSMELRと呼ぶ。
[動作]
この話者適応装置は以下のように動作する。予め、変換行列の初期値WがMLLRにより得られているものとする。変換行列の初期値としてMLLRにより得られたものを使用することにより、SMELRの処理では少ない繰返し回数でも精度の高い話者適応を行なうことができる。適応データについては、全てフレームごとに音素ラベルが付され、音響特徴量などについても算出済でコンピュータ読取可能な記憶媒体に準備されているものとする。また、フレームマージンρ、フレームセレクションのための定数τ、経験リスクと汎化リスクとのバランスをとるための定数λについても決定されているものとする。
図6を参照して、ステップ140で初期化処理が行なわれる。すなわち、繰返し制御変数mに0が、繰返し制御変数mの最大値mMAXに20が、それぞれ代入される。最適化の対象となる変換行列の初期値Wには、MLLRにより得られた線形回帰行列WMLLRが代入される。
続いて、ステップ142で、全てのフレームのうちで、事後確率がτより大きく、フレームマージンρより小さなもののみを選択する処理が行なわれる。
具体的には、図7を参照して、全てのフレームに対して、以下の処理を行なう。すなわち、処理対象のフレーム(第i番目の発話に対する第j番目のフレームとし、フレームijと呼ぶ。)につき、フレームijの出力が得られる尤度を全ての音素別(又は音素列別)モデルから算出する(ステップ184及び186)。こうして、フレームijについて、全モデルから得られた尤度に基づき、ステップ190において、正解モデルの尤度の信頼度P(S|Oij)(Sはi番目の発話の正解を示す。)が上記した計算方法により算出される。この信頼度が定数τより大きく、フレームマージンρより小さければ(ステップ192でYES)フレームjkは選択されて後の処理に使用される(ステップ194)。この条件が満足されていなければフレームijは使用されない。
この処理を適応データ内の全てのフレームに対して行なうことで、フレームセレクションが完了する。
再び図6を参照して、ステップ142に続き、ステップ142で選択されたフレームに対して得られたロス関数の値l(Oij,Λ)を式(7)に代入することにより、ロスが算出される(ステップ144)。このロスの値を式(6)に代入することにより、目的関数OSMEの値が算出される(ステップ146)。さらに、目的関数OSMEの偏微分係数∂OSME(W)/∂Wがステップ148で算出され、この値に基づいて式(11)により新たな変換行列Wm+1が算出される。こうして得られた新たな変換行列Wm+1を元の音響モデルMに乗算することで、新たな音響モデルMm+1が得られる(ステップ150)。
続いて繰返し変数m(ここではm=0)の値に1を加算する(ステップ152)。ステップ154でこの繰返し変数mの値が最大値mMAX=20と等しいか否かを判定する。ここではm=1なので等号は成立せず、制御はステップ142に戻る。
以下、上記した処理と同じ処理(ステップ142,144,146,148,150及び152)について実行される。ステップ148では変換行列Wが算出され、ステップ150では話者適応音響モデルMが得られる。繰返し制御変数mの値は2となり(ステップ152)、再びステップ154からステップ142に制御が戻る。
こうして、繰返し制御変数の値が最大値mMAXと等しくなるまで上記した処理が繰返される。この処理が全部で20回繰返されると、ステップ152の処理の結果、繰返し制御変数mの値は20となる。ステップ154の判定結果はYESとなる。制御はステップ156に進み、ステップ150で算出された話者適応音響モデルM20が出力され(ステップ156)、処理を終了する。
こうした処理により、音響モデルを話者に適応化させるための変換行列の最適化と、適応後の音響モデルを得ることとができる。最終的に得られた話者適応音響モデルM20をその話者の音声認識に用いることにより、認識精度を高めることができる。以下、実験結果を示す。
[話者適応実験]
‐実験条件
我々は、SMELRにより話者適応された音響モデルの認識性能を調べるため、大語彙連続音声認識実験を行なった。実験に使用した音声コーパスは、新聞記事読み上げコーパス(JNAS)である。適応元の話者独立音響モデル(SI)として、男性125名、女性125名が発話した新聞記事25848文章を用い、性別に依存した 2つの音響モデルを最尤法により推定した。音響モデルの状態数は3000、混合数は4である。言語モデルには、毎日新聞記事コーパスの510M単語を用いて、単語バイグラム及び、単語トライグラムを推定した。辞書サイズは60kである。評価には、学習に用いなかった男性23名、女性23名の発話した50文を用いた。適応用文章として40文を準備した。
ベースラインとして、64個のリーフノードを持つ回帰木を用いたマルチクラス MLLRによる適応実験を行った。SMELRでは、このベースラインで得られた線形回帰行列を変換行列の初期値として変換行列及び話者適応モデルの推定を行なった。式(8)のヒンジ関数の尺度としてフレーム事後確率を用い、フレームセレクションを行った。予備実験により、ソフトマージンρは0.84、しきい値τは0.10とした。学習エポック数は20、学習係数εは3×10.6である。
実験では、SMELRにより話者適応された音響モデルを用いて行なった音声認識の単語正解率を比較した。
‐実験結果
図9に、適応文章数10、20、及び40のときの実験結果を性別毎に示す。図9において、適応文章数0のグラフ250及び270は、適応元のSIモデルによる結果である。
図9に示すように、SMELRにより変換した話者適応音響モデルを用いた結果、いずれの性別でも、いずれの発話数でも、SMELRはMLLRを上回る単語正解率を示した。SMELRは、MLLRの誤りを平均して約2.0%削減した。
図10に、適応用音声に対してSI,MLLR,及びSMELRにより得られた音響モデルによりそれぞれ算出されるフレーム事後確率のヒストグラム300、302、及び304を示す。
図10を参照して、フレーム事後確率の値が0.8以下の部分では、MLLRによるフレーム数の方がSMLERによるフレーム数を上回っている。逆に、0.8より大きな部分では、SMLERによるフレーム数がMLLRによるフレーム数を上回っている。すなわち、SMELRにより得られるフレーム事後確率は、MLLRにより得られるフレーム事後確率より高くなっていることが分かる。
<第2の実施の形態>
上記した第1の実施の形態の装置により、話者独立な音響モデルを、比較的少ない適応データで、精度よく話者適応した音響モデルに変換することができる。しかし、適応データが極端に少ないときにも同様に精度が高いとは限らない。
そこで、この第2の実施の形態では、上記した第1の実施の形態で得られたSMELRによる話者適応音響モデルと、話者独立な音響モデルとの平均ベクトルの間を、式(12)に示すようにそれぞれに重みw及びw−1を割当ててインターポレーションした話者適応音響モデルを用いる。^μはインターポレーション後の音響モデルの平均ベクトルである。
Figure 2011048163
後に説明するように、適応発話数の数により、望ましい重みwの値が変化することが分かった。
SIモデルとSMELRにより話者適応された音響モデルとの間のインターポレーションの実験結果を図11に示す。図11を参照して、適応文章数が10の場合、インターポレーション重みが0.6のときに最も高い認識精度が得られた。このとき、MLLRにより適応化した音響モデルの誤りが約3.6%削減された。また、適応文章数が20の場合は、インターポレーション重みが0.7で約4.7%の誤りを削減、適応文章数が40の場合はSIモデルを全く用いない1.0で最も高い認識精度が得られた。これらの実験結果から、モデルインタポレーションは適応文章数が少ない場合に効果的に誤りを削減することが分かる。
男性話者の場合も、女性話者の場合も、この傾向には変化がない。グラフの変化を外挿することにより、適応発話数が20より大きく40より小さいときには重みwは0.7<w<1.0の範囲のいずれかの値を用いればよいことが分かる。また適応発話数が10より大きく20より小さいときには、重みwとしては0.6<w<0.7となるように選べばよい。
適応データが少ない場合、インターポレーション重みwとして小さな値を用いることにより、過学習の影響を低減できると考えられる。
<コンピュータによる実現>
以上に説明した第1及び第2の実施の形態のいずれも、汎用コンピュータ及びその上で実行されるコンピュータプログラムにより実現することができる。図12はこの実施の形態で用いられるコンピュータシステム550の外観を示し、図13はコンピュータシステム550のブロック図である。ここで示すコンピュータシステム550は単なる例であって、他の構成も利用可能である。
図12を参照して、コンピュータシステム550は、コンピュータ560と、全てコンピュータ560に接続された、モニタ562と、キーボード566と、マウス568と、スピーカ558と、マイクロフォン590と、を含む。さらに、コンピュータ560はDVD−ROM(Digital Versatile Disk Read−Only−Memory:ディジタル多用途ディスク読出専用メモリ)ドライブ570と、半導体メモリドライブ572とを含む。
図13を参照して、コンピュータ560はさらに、DVD−ROMドライブ570と半導体メモリドライブ572とに接続されたバス586と、全てバス586に接続された、CPU576と、コンピュータ560のブートアッププログラムを記憶するROM578と、CPU576によって使用される作業領域を提供するとともにCPU576によって実行されるプログラムのための記憶領域となるRAM580と、音声データ、音響モデル、言語モデル、適応データなどを記憶するためのハードディスクドライブ574と、ネットワーク552への接続を提供するネットワークインターフェイス596とを含む。
上述の実施の形態のシステムを実現するソフトウェアは、DVD−ROM582又は半導体メモリ584等のコンピュータ読取可能な記録媒体に記録されたオブジェクトコードの形で流通し、DVD−ROMドライブ570又は半導体メモリドライブ572等の読出装置を介してコンピュータ560に提供され、ハードディスクドライブ574に記憶される。CPU576がプログラムを実行する際には、プログラムはハードディスクドライブ574から読出されてRAM580に記憶される。図示しないプログラムカウンタによって指定されたアドレスから命令がフェッチされ、その命令が実行される。CPU576はハードディスクドライブ574から処理すべきデータを読出し、処理の結果をこれもまたハードディスクドライブ574に記憶する。スピーカ558とマイクロフォン590とは、直接に本発明とは関係ないが、スピーカ558は、適応データなどの音声の再生時に必要である。発話データの収録にコンピュータシステム550を使用するときには、マイクロフォン590が必要となる。
コンピュータシステム550の一般的動作は周知であるので、詳細な説明は省略する。
ソフトウェアの流通の方法に関して、ソフトウェアは必ずしも記憶媒体上に固定されたものでなくてもよい。例えば、ソフトウェアはネットワークに接続された別のコンピュータから分配されてもよい。ソフトウェアの一部がハードディスクドライブ574に記憶され、ソフトウェアの残りの部分をネットワークを介してハードディスクドライブ574に取込み、実行の際に統合する様にしてもよい。
典型的には、現代のコンピュータはコンピュータのオペレーティングシステム(OS)によって提供される一般的な機能を利用し、所望の目的に従って制御された態様で機能を達成する。従って、OS又はサードパーティから提供されうる一般的な機能を含まず、一般的な機能の実行順序の組合せのみを指定したプログラムであっても、そのプログラムが全体として所望の目的を達成する制御構造を有する限り、そのプログラムがこの発明の範囲に包含されることは明らかである。
以上のように本発明によれば、SMELRを用いて変換行列を推定することにより、比較的少ない適応データを用いて、話者独立な音響モデルから精度高く話者適応音響モデルを推定できる。さらに、話者独立な音響モデルとの間でインターポレーションを行なうことで、適応発話数が40より小さい場合でも、最適な重みを使用することにより話者独立な音響モデル又はSMLERによる音響モデルのいずれかを単独で用いた場合よりも高い単語認識精度を得ることができる。
上記実施の形態では、音響モデル中の確率密度関数を構成する正規分布の平均ベクトルを話者適応により変換した。しかし本発明はそのような実施の形態には限定されない。たとえば、正規分布確率身度関数の分布など、他のパラメータにSMELRによる話者適応を適用することもできる。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。
30 音声認識システム30
40 音響モデル
42 言語モデル
44 音声認識装置
46 入力音声
48 認識結果
60 変換行列
62 話者適応後の音響モデル
100 識別境界

Claims (6)

  1. 話者独立な音響モデルを、話者適応用のデータを用いた識別学習により、特定話者に適応させる話者適応装置であって、
    話者適応のための変換行列及び前記話者適応用のデータを記憶するための記憶手段と、
    前記話者独立な音響モデルに、前記変換行列を適用して、前記特定話者に適応した音響モデルを算出するための音響モデル変換手段と、
    前記記憶手段に記憶された話者適応用データに含まれるフレームのうち、前記特定話者に適応した音響モデルにより算出された正解データの信頼度が所定範囲に存在するフレームを選択するためのフレーム選択手段と、
    前記フレーム選択手段により選択されたフレームを用い、予め識別学習のために準備されたソフトマージン推定のための、経験リスクと汎化項との重み付き和からなる目的関数であって、前記変換行列の関数である目的関数の値を算出するための目的関数算出手段と、
    所定の最適化アルゴリズムを用い、前記目的関数算出手段により算出される目的関数の値を極小化するよう、前記変換行列を更新するための更新手段と、
    前記変換行列計算手段により更新された変換行列を新たな変換行列として、前記音響モデル変換手段、前記フレーム選択手段、前記目的関数算出手段、及び前記更新手段を所定の終了条件が充足されるまで繰返し動作させるための繰返し制御手段とを含む、話者適応装置。
  2. 前記信頼度は正解データのフレームの事後確率である、請求項1に記載の話者適応装置。
  3. 前記フレーム選択手段は、前記記憶手段に記憶された話者適応用データに含まれるフレームのうち、前記特定話者に適応した音響モデルにより算出された正解データの事後確率Pが所定のしきい値τより大きく、前記目的関数に含まれるソフトマージン値ρより小さな範囲に存在するフレームを選択するための手段を含む、請求項2に記載の話者適応装置。
  4. 前記音響モデル変換手段は、前記話者独立な音響モデルに含まれる正規分布確率密度関数の各々の平均ベクトルに前記変換行列を適用することにより、前記特定話者に適応した音響モデルを算出するための手段を含む、請求項1から請求項3のいずれかに記載の話者適応装置。
  5. 前記目的関数は、次の式により示され、
    Figure 2011048163
    ただしNは適応サンプル数、Oは第i番目の適応サンプル発話、ρはソフトマージン、Λは最適化対象のパラメータ、Oijは第i番目の適応サンプル発話の第j番目のサンプル、λは汎化項と経験リスク項との間のバランスを表す定数、l(Oij,Λ)は、最適化対象のパラメータΛに対し、第i番目の適応サンプル発話の第j番目のサンプルOijについて計算されるロス関数、d(Oij,Λ)は、適応サンプルOijと最適化対象のパラメータΛに対する、正解クラスと対立クラスとの間の距離関数を、それぞれ示す、請求項1から請求項4のいずれかに記載の話者適応装置。
  6. コンピュータを、
    話者適応のための変換行列及び話者適応用のデータを記憶するための記憶手段と、
    話者独立な音響モデルに、前記変換行列を適用して、特定話者に適応した音響モデルを算出するための音響モデル変換手段と、
    前記記憶手段に記憶された話者適応用データに含まれるフレームのうち、前記特定話者に適応した音響モデルにより算出された正解データの信頼度が所定範囲に存在するフレームを選択するためのフレーム選択手段と、
    前記フレーム選択手段により選択されたフレームを用い、予め識別学習のために準備されたソフトマージン推定のための、経験リスクと汎化項との重み付き和からなる目的関数であって、前記変換行列の関数である目的関数の値を算出するための目的関数算出手段と、
    所定の最適化アルゴリズムを用い、前記目的関数算出手段により算出される目的関数の値を極小化するよう、前記変換行列を更新するための更新手段と、
    前記変換行列計算手段により更新された変換行列を新たな変換行列として、前記音響モデル変換手段、前記フレーム選択手段、前記目的関数算出手段、及び前記更新手段を所定の終了条件が充足されるまで繰返し動作させるための繰返し制御手段として機能させる、コンピュータプログラム。
JP2009196757A 2009-08-27 2009-08-27 音響モデルの話者適応装置及びそのためのコンピュータプログラム Active JP5288378B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009196757A JP5288378B2 (ja) 2009-08-27 2009-08-27 音響モデルの話者適応装置及びそのためのコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009196757A JP5288378B2 (ja) 2009-08-27 2009-08-27 音響モデルの話者適応装置及びそのためのコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2011048163A true JP2011048163A (ja) 2011-03-10
JP5288378B2 JP5288378B2 (ja) 2013-09-11

Family

ID=43834548

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009196757A Active JP5288378B2 (ja) 2009-08-27 2009-08-27 音響モデルの話者適応装置及びそのためのコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP5288378B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013178343A (ja) * 2012-02-28 2013-09-09 Nippon Telegr & Teleph Corp <Ntt> 事前分布計算装置、音声認識装置、事前分布計算方法、音声認識方法、プログラム
JP2017058674A (ja) * 2015-09-18 2017-03-23 三星電子株式会社Samsung Electronics Co.,Ltd. 音声認識のための装置及び方法、変換パラメータ学習のための装置及び方法、コンピュータプログラム並びに電子機器
JP2022509557A (ja) * 2019-01-22 2022-01-20 三菱電機株式会社 ロボットアームを制御するシステム及び方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104795062A (zh) * 2015-03-20 2015-07-22 中国人民解放军信息工程大学 一种基于压缩感知的说话人自适应方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11143486A (ja) * 1997-11-10 1999-05-28 Fuji Xerox Co Ltd 話者適応装置および方法
JP2006133706A (ja) * 2004-11-09 2006-05-25 Canon Inc 音声認識装置および方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11143486A (ja) * 1997-11-10 1999-05-28 Fuji Xerox Co Ltd 話者適応装置および方法
JP2006133706A (ja) * 2004-11-09 2006-05-25 Canon Inc 音声認識装置および方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JPN6013023124; Jinyu Li, et al.: '"Soft Margin Estimation of Hidden Markov Model Parameters"' Proceedings of INTERSPEECH2006-ICSLP , 200609, pp.2422-2425 *
JPN6013023127; Jinyu Li, et al.: '"Approximate Test Risk Bound MinimizationThrough Soft Margin Estimation"' IEEE TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING Vol.15, No.8, 200711, pp.2393-2404 *
JPN6013023130; Jinyu Li, et al.: '"A STUDY ON SOFT MARGIN ESTIMATION FOR LVCSR"' IEEE Workshop on ASRU2007 pp.268-271, 200712 *
JPN6013023134; Jinyu Li, et al.: '"APPROXIMATE TEST RISK MINIMIZATION THROUGH SOFT MARGIN ESTIMATION"' Proceedings of ICASSP2007 , 200704, pp.IV-653 - IV-656 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013178343A (ja) * 2012-02-28 2013-09-09 Nippon Telegr & Teleph Corp <Ntt> 事前分布計算装置、音声認識装置、事前分布計算方法、音声認識方法、プログラム
JP2017058674A (ja) * 2015-09-18 2017-03-23 三星電子株式会社Samsung Electronics Co.,Ltd. 音声認識のための装置及び方法、変換パラメータ学習のための装置及び方法、コンピュータプログラム並びに電子機器
JP2022509557A (ja) * 2019-01-22 2022-01-20 三菱電機株式会社 ロボットアームを制御するシステム及び方法
JP7154432B2 (ja) 2019-01-22 2022-10-17 三菱電機株式会社 ロボットアームを制御するシステム及び方法

Also Published As

Publication number Publication date
JP5288378B2 (ja) 2013-09-11

Similar Documents

Publication Publication Date Title
US7689419B2 (en) Updating hidden conditional random field model parameters after processing individual training samples
Shannon Optimizing expected word error rate via sampling for speech recognition
US8972253B2 (en) Deep belief network for large vocabulary continuous speech recognition
JP5229216B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP6110945B2 (ja) 自動音声認識システムにおける選択的にバイアスをかけられた線形判別分析の方法及びシステム
JP5223673B2 (ja) 音声処理装置およびプログラム、並びに、音声処理方法
US20080077404A1 (en) Speech recognition device, speech recognition method, and computer program product
JP5752060B2 (ja) 情報処理装置、大語彙連続音声認識方法及びプログラム
US20080243503A1 (en) Minimum divergence based discriminative training for pattern recognition
JP6884946B2 (ja) 音響モデルの学習装置及びそのためのコンピュータプログラム
JP6031316B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
WO2007105409A1 (ja) 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム
US8078462B2 (en) Apparatus for creating speaker model, and computer program product
Williams Knowing what you don't know: roles for confidence measures in automatic speech recognition
JP5288378B2 (ja) 音響モデルの話者適応装置及びそのためのコンピュータプログラム
JP4861912B2 (ja) 知識源を組込むための確率計算装置及びコンピュータプログラム
Becerra et al. A comparative case study of neural network training by using frame-level cost functions for automatic speech recognition purposes in Spanish
JP2000075886A (ja) 統計的言語モデル生成装置及び音声認識装置
JP5170449B2 (ja) 検出装置、音声認識装置、検出方法、及びプログラム
Hamaker Sparse Bayesian Methods for Continuous Speech Recognition
Li et al. AUC optimization based confidence measure for keyword spotting
Fabian Confidence measurement techniques in automatic speech recognition and dialog management
Abbas Confidence Scoring and Speaker Adaptation in Mobile Automatic Speech Recognition Applications
Keshet Large margin algorithms for discriminative continuous speech recognition
Pylkkönen Investigations on discriminative training in large scale acoustic model estimation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120710

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130426

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130521

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130528

R150 Certificate of patent or registration of utility model

Ref document number: 5288378

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250