JP2011048163A

JP2011048163A - 音響モデルの話者適応装置及びそのためのコンピュータプログラム

Info

Publication number: JP2011048163A
Application number: JP2009196757A
Authority: JP
Inventors: Shigeki Matsuda; 繁樹松田; Satoru Nakamura; 哲中村; Yu So; ユソウ
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2009-08-27
Filing date: 2009-08-27
Publication date: 2011-03-10
Anticipated expiration: 2029-08-27
Also published as: JP5288378B2

Abstract

【課題】高い汎化能力を持ち、少ない適応データで話者独立な音響モデルを話者適応できる話者適応装置を提供する。
【解決手段】話者適応装置は、話者適応のための変換行列及び話者適応用データを記憶する記憶装置と、話者独立な音響モデルに変換行列を適用し、話者適応音響モデルを算出する音響モデル変換部１５０と、話者適応用データのうち正解データの事後確率が所定範囲に存在するフレームを選択するフレーム選択部１４２と、選択されたフレームを用い、ソフトマージン推定の目的関数の値を算出する目的関数算出部１４４、１４６と、最適化アルゴリズムを用い、目的関数の値を極小化するよう変換行列を更新する更新部１４８と、更新後の変換行列を用い、音響モデル変換部１５０、フレーム選択部１４２、目的関数算出部１４４，１４６、及び更新部１５０を終了条件が充足されるまで繰返し動作させる繰返し制御部１５４とを含む。
【選択図】図６

Description

この発明は音声認識技術に関し、特に、話者独立な音響モデルを認識対象となる特定の話者に適応化する装置及びそのためのコンピュータプログラムに関する。

図１に、一般的な音声認識システム３０の概略構成を示す。図１を参照して、音声認識システム３０は、認識対象の単位の音素列ごとに予め音声コーパスを用いて学習された、ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ：隠れマルコフモデル）からなる音響モデル４０と、認識対象の言語について予めコーパス内での単語又は単語列の出現頻度の統計をとることにより準備された言語モデル４２と、音響モデル４０及び言語モデル４２を用いて入力音声４６に対して統計的な音声認識処理を行ない、入力音声４６に対して最も確率の高い認識結果４８を出力するための音声認識装置４４とを含む。

ＨＭＭは、１又は複数個の状態と、状態間の遷移確率と、各状態での出力値の確率を推定するための、典型的にはガウス混合モデル（ＧＭＭ）とからなり、与えられた出力値の系列が、このＨＭＭに対応する音素（又は音素列）から得られる確率（尤度）を与えるためのものである。入力される各音素（又は音素列）に対して各ＨＭＭで尤度を算出し、これらの尤度と、得られる音素系列に対応して言語モデル４２から算出される単語の生起確率を考慮し、最も確率の高い単語列が認識結果として出力される。

このように音声認識においては音響モデル４０は非常に重要な役割を担っている。たとえば話者の性別及び年齢によって一般的に音声の特徴量は大きく異なるため、話者の性別及び年齢に応じた音響モデルを使用することが多い。そうした音響モデルは、話者の性別、年齢によって分類した、大量の音声コーパスを学習データとした学習により作成される。学習後に、学習に用いられたものと同じデータが与えられたときには、その学習データに適合した正しい出力が得られるように、音素（又は音素列）ごとの各種パラメータの値が決定される。これらパラメータは、上記した状態間の遷移確率、各ＨＭＭのＧＭＭを構成する正規分布の確率密度関数の平均ベクトル及び分布などである。

入力音声４６が特定話者の音声であることが分かっている場合には、その話者の音声からなる学習データを用いて学習した音響モデル４０を用いれば、認識結果は当然に高くなる。しかし、一般的にそのような学習のために話者の発話を大量に集めることは難しい。したがって、図２に示されるように、話者独立な音響モデル４０を準備し、比較的少量の特定話者の発話データから得られた変換行列６０を用いて音響モデルのパラメータを適応化し、話者適応後の音響モデル６２を作成することがよく行なわれる。この適応化では、たとえば音響モデル４０のＧＭＭを構成する正規分布の平均ベクトル（図２のμ_１−μ_３等）を話者に適応した新たな平均ベクトル（μ′_１−μ′_３等）に変換するための変換行列Ｗを、適応学習データから線形回帰行列として求めることが行なわれる。

ＨＭＭのパラメータの学習は、最尤（ＭＬ：ＭａｘｉｍｕｍＬｉｋｅｌｉｈｏｏｄ）基準を用いて行なわれることが一般的である。最尤基準によるパラメータの学習では、正解候補のみが学習に用いられ、正解候補に対する尤度が最大化される。したがって、ＨＭＭの学習に用いられたデータを用いて音声認識のテストをするとその精度は高くなる。しかし、学習データと同じ入力発話が実際に与えられるわけではないので、それらに対する精度がどの程度になるのかが問題となる。学習データに対して過剰にフィットする、いわゆる過学習により、実際の発話に対する認識精度が低下してしまうこともある。このように、限られた学習データから、学習データ以外の入力に対しても正しい推定ができるような能力を汎化能力と呼ぶ。

一方、識別学習と呼ばれる学習方法がある。識別学習では、正解候補と対立候補（誤りを含む候補）とを使用し、所定の目的関数を解くことによりモデルのパラメータが推定される。対立候補としては、音声認識のＮベスト候補を利用したり、デコーダから得られた単語ラティスから対立候補を抽出したりする。

識別学習の方法として、相互情報量最大化学習（ＭＭＩＥ）、最小分類誤り学習（ＭＣＥ）、音素誤り最小化学習（ＭＰＥ）などが知られている。これらの相違は、目的関数の相違として理解することができる。

ＭＭＩＥは、式（１）により計算される目的関数Ｏ^ＭＭＩＥを最大化することにより、モデルパラメータΛを推定する。式中、Ｎは学習発話数、Ｏ_ｉは第ｉ番目の発話の特徴ベクトル時系列、Ｓ_ｉは第ｉ番目の発話の正解候補、＾Ｓ_ｉは正解候補を含む全ての候補を表す。（「＾」は、式中では直後の文字の直上に描かれている。）

式（１）の対数項の分子は正解候補Ｓ_ｉに対する確率を表し、分母は正解候補を含む全ての候補＾Ｓ_ｉに対する確率の和により計算される。したがって、ＭＭＩＥは正解候補に対する事後確率を最大化する基準と言い換えることができる。

ＭＣＥは、次に記載する式（３）等の式で計算される、認識誤りに強く依存するロス値を最小化することにより、直接的に認識誤りを最小化する。式（２）のｄ（Ｏ_ｉ、Λ）は推定されるパラメータΛとｉ番目の発話の特徴ベクトルＯ_ｉとの間に定義される距離関数である。この距離関数の分子はＭＭＩＥと同様に、正解候補に対する確率を表す。一方、分母は、正解候補を含まない全ての候補に対する確率の和である。目的関数は式（４）である。式（４）を最小化することにより、学習データ全体に対して誤りが最小化される。式（３）中のγとθはそれぞれシグモイド関数の傾きとバイアスである。

ＭＰＥは、ＭＣＥよりさらに音声認識性能に近い基準である音素正解精度を最大化する。ＭＰＥの目的関数を式（５）に示す。式（５）中の「Ａｃｃ（Ｓ_ｉ，＾Ｓ_ｉ）は音素正解精度の計算関数である。

上記種々の目的関数の最小化には、確率的最急降下法（ＧＰＤ）と呼ばれる手法（非特許文献５）、及び拡張バウムウェルチアルゴリズムと呼ばれるアルゴリズムが用いられることが多い。

識別学習による音響モデルの推定は、音声認識性能の改善効果の高さから広く用いられている。一般に識別学習は、学習データと評価データの条件が近い場合、評価データに対して十分に高い性能を得ることができる。しかし、このような条件の一致は、現実の問題において保障されない。

Ｘ．リー他、「音声認識のための大マージンＨＭＭ」、ＩＣＡＳＳＰ予稿集、ｐｐ．Ｖ５１３−Ｖ５１６，２００５年（X. Li, H. Jiang, and C. Liu, "Large margin HMMs for speech recognition," Proc. ICASSP, pp. V513-V516, 2005.）Ｊ．リー他、「ソフトマージン推定による概略テストリスク境界の最小化」、ＩＥＥＥトランザクション・オン・オーディオ・スピーチ・アンド・ランゲージ、第１５巻第８号、ｐｐ．２３９３−２４０４、２００７年（J. Li, M. Yuan, and C. -H. Lee, "Approximate test risk Bound minimization through soft margin estimation," IEEE Trans. on Audio, Speech, and Language, vol. 15, no. 8, pp. 2393-2404, 2007.）Ｃ．Ｊ．レゲッター他、「連続確率密度隠れマルコフモデルの話者適応のための最大尤度線形回帰」、コンピュータ・スピーチ及び言語、第９巻、ｐｐ．１７１−１８５、１９９５年（C. J. Leggetter and P. C. Woodland, "Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models," Comput. Speech Lang., vol. 9, pp. 171-185, 1995.）Ｊ．ウー他、「ＭＣＥにより学習した連続確率密度隠れマルコフモデルの教師付適応のための最小分類誤り（ＭＣＥ）線形回帰の研究」、ＩＥＥＥトランザクション・オン・スピーチ・アンド・オーディオ・プロセッシング、第１５巻第２号、ｐｐ．４７８−４８８、２００７年（J. Wu and Q. Huo, "A study of minimum classication error (MCE) linear regression for supervised adaptation of MCE-trained continuous-density hidden Markov models," IEEE Trans. on Speech and Audio Proc., vol. 15, no. 2, pp. 478-488, 2007.）ビイン−ホワヌジアン他、「最小誤り分類のための識別学習」、ＩＥＥＥトランザクション・オン・シグナル・プロセッシング、第４０巻第１２号、ｐｐ．３０４３−３０５４、１９９２年（Biing-Hwang Juang, and Shigeru Katagiri, "Discriminative Learning for Minimum Error Classification," IEEE Trans. on Signal Processing., vol. 40, no. 12, pp. 3043-3054, 1992.）

ところで、上記した誤り最小化学習は、学習データが与えられたときの誤りを最小化するようにモデルパラメータを推定する。この学習方法では、前述したとおり学習データによってモデルを評価したときの精度は高くなるが、学習データと異なるデータで評価したときの精度は低くなる。すなわち、汎化能力を考慮していない。

誤り最小化学習に対して、テストリスク最小化学習と呼ばれる学習方法がある。テストリスク最小化学習では、テストリスクＲ、すなわち学習データと異なる入力データが与えられたときにエラーが発生する率、を最小化することを試みる。

テストリスクＲは、経験リスクＲ_ｅｍｐ（学習データに対する誤り率）と、汎化項と呼ばれる、モデルの複雑さを表す値と所定のパラメータλとの積との和以下となると考えられている。ここで汎化項は、モデルが単純なとき（モデルのパラメータが少ないとき）には小さな値をとり、モデルが複雑なとき（モデルのパラメータが多いとき）には大きな値をとる。モデルが複雑なときには、学習データに対して過学習となっている可能性が高いので、テストデータに対しては誤る率がそれだけ高くなる。パラメータλは経験リスクと汎化項とのバランスをとるためのパラメータである。

このようなテストリスクを最小化するような学習を行なうことで、モデルの汎化性をコントロールすることができる。

このようにテストリスクを最小化するという考えに基づき、サポートベクターマシンの分野において提案されたマージンの概念を音声認識のための識別学習に導入する手法の研究が盛んである。たとえば非特許文献１ではマージン最大学習（ＬＭＥ）が提案され、非特許文献２ではソフトマージン推定（ＳＭＥ）が提案されている。これらにより、高い汎化能力が報告されている。このようなマージンによる汎化能力の改善は、適応データ量が限られる話者適応等において、過学習の問題を避ける為にも特に重要である。

音響モデルの話者適応における標準的手法として、非特許文献３に記載された最尤線形回帰法（ＭＬＬＲ）が、その話者適応能力の高さから広く用いられている。識別的アプローチを用いて線形回帰行列を推定する手法として、非特許文献４に記載された、最小分類誤り推定を用いた手法（ＭＣＥＬＲ）が提案され、ＭＬＬＲよりも高い適応性能が報告されている。

このように、マージンの概念を用いたモデル学習は有望である。しかし、話者適応の場合には、少ない適応データで話者独立な音響モデルを特定の話者に適応化させなければならず、そうした局面においてマージンの概念をどのように適用できるかについては、従来考慮されていない。特に、適応データが極端に少ないときに、認識精度をできるだけ高めるためにどのように話者適応を行なうか、特にそこでマージンの概念をどのように適用すると有効か、については全く提案されていなかった。

それゆえに本発明の目的は、高い汎化能力を持ち、少ない適応データで話者独立な音響モデルを適応化させることが可能な話者適応装置及びそのためのコンピュータプログラムを提供することである。

本発明の別の目的は、高い汎化能力を持ち、少ない適応データで話者独立な音響モデルを適応化させるための線形回帰行列を求めることが可能な話者適応装置及び及びそのためのコンピュータプログラムを提供することである。

本発明の第１の局面に係る話者適応装置は、話者独立な音響モデルを、話者適応用のデータを用いた識別学習により、特定話者に適応させる話者適応装置であって、話者適応のための変換行列及び話者適応用のデータを記憶するための記憶手段と、話者独立な音響モデルに、変換行列を適用して、特定話者に適応した音響モデルを算出するための音響モデル変換手段と、記憶手段に記憶された話者適応用データに含まれるフレームのうち、特定話者に適応した音響モデルにより算出された正解データの信頼度が所定範囲に存在するフレームを選択するためのフレーム選択手段と、フレーム選択手段により選択されたフレームを用い、予め識別学習のために準備されたソフトマージン推定のための、経験リスクと汎化項との重み付き和からなる目的関数であって、変換行列の関数である目的関数の値を算出するための目的関数算出手段と、所定の最適化アルゴリズムを用い、目的関数算出手段により算出される目的関数の値を極小化するよう、変換行列を更新するための更新手段と、変換行列計算手段により更新された変換行列を新たな変換行列として、音響モデル変換手段、フレーム選択手段、目的関数算出手段、及び更新手段を所定の終了条件が充足されるまで繰返し動作させるための繰返し制御手段とを含む。

話者独立な音響モデルを特定話者のための話者適応後の音響モデルに変換するための変換行列と、話者適応のための話者的応用データとを記憶手段に記憶させておく。話者的応用データに含まれるフレームのうち、話者適応後の音響モデルを用いたデコード時の、正解データの信頼度が所定範囲にあるものを、フレーム選択手段が選択する。選択されたフレームを用いて、目的関数算出手段が所定の目的関数の値を算出する。更新手段は、目的関数の値を極小化するよう、予め定められた最適化アルゴリズムにより変換行列を更新する。音響モデル変換手段は、この変換行列により、話者独立な音響モデルを変換して話者適応後の音響モデルを算出する。繰返し制御手段は、これらの処理を所定の終了条件が充足されるまで繰返す。

このようにして得られた話者適応後の音響モデルによれば、特定話者の発話に対する音声認識精度を高めることができる。フレームの信頼度として例えばフレーム事後確率で見ると、特に低い範囲の値を持つフレームの事後確率が、上記した話者適応後の音響モデルを用いてデコードした場合にはいずれも高い値に変化することが確認できた。

好ましくは、上記信頼度は正解データのフレームの事後確率である。

より好ましくは、フレーム選択手段は、記憶手段に記憶された話者適応用データに含まれるフレームのうち、特定話者に適応した音響モデルにより算出された正解データの事後確率Ｐが所定のしきい値τより大きく、目的関数に含まれるソフトマージン値ρより小さな範囲に存在するフレームを選択するための手段を含む。

正解データの事後確率がしきい値τより小さいものは、学習データとして不適と考えられる。したがってそれらは適応用データから排除する。事後確率がソフトマージン値ρより大きな範囲の適応用データは、テストリスクに関係しない。したがってそれらも適応用データから排除する。このようにデータを選択することで、計算コストを下げ、適応を早期に終わらせることができる。

好ましくは、音響モデル変換手段は、話者独立な音響モデルに含まれる正規分布の各々の平均ベクトルに変換行列を適用することにより、特定話者に適応した音響モデルを算出するための手段を含む。

理論的には、平均ベクトルだけではなく、分布など、確率密度関数を構成する正規分布のパラメータを同様に話者適応させることができる。しかし、平均ベクトルにこのような話者適応を行なうことによっても、特定話者の発話に対する音響モデルの認識性能を高められることが実験により確認できた。

好ましくは、目的関数は、次の式により示され、

ただしＮは適応サンプル数、Ｏ_ｉは第ｉ番目の適応サンプル発話、ρはソフトマージン、Λは最適化対象のパラメータ、Ｏ_ｉｊは第ｉ番目の適応サンプル発話の第ｊ番目のサンプル、λは汎化項と経験リスク項との間のバランスを表す定数、ｌ（Ｏ_ｉｊ，Λ）は、最適化対象のパラメータΛ、すなわち変換行列Ｗに対し、第ｉ番目の適応サンプル発話の第ｊ番目のサンプルＯ_ｉｊについて計算されるロス関数、ｄ（Ｏ_ｉｊ，Λ）は、適応サンプルＯ_ｉｊと最適化対象のパラメータΛ（すなわち変換行列Ｗ）に対する、正解クラスと対立クラスとの間の距離関数を、それぞれ示す。

本発明の第２の局面に係るコンピュータプログラムは、コンピュータを、話者適応のための変換行列及び話者適応用のデータを記憶するための記憶手段と、話者独立な音響モデルに、変換行列を適用して、特定話者に適応した音響モデルを算出するための音響モデル変換手段と、記憶手段に記憶された話者適応用データに含まれるフレームのうち、特定話者に適応した音響モデルにより算出された正解データの事後確率が所定範囲に存在するフレームを選択するためのフレーム選択手段と、フレーム選択手段により選択されたフレームを用い、予め識別学習のために準備されたソフトマージン推定のための、経験リスクと汎化項との重み付き和からなる目的関数であって、変換行列の関数である目的関数の値を算出するための目的関数算出手段と、所定の最適化アルゴリズムを用い、目的関数算出手段により算出される目的関数の値を極小化するよう、変換行列を更新するための更新手段と、変換行列計算手段により更新された変換行列を新たな変換行列として、音響モデル変換手段、フレーム選択手段、目的関数算出手段、及び更新手段を所定の終了条件が充足されるまで繰返し動作させるための繰返し制御手段として機能させる。

一般的な音声認識システム３０の構成を示すブロック図である。音響モデルの話者適応を模式的に示す図である。識別学習による識別学習の確定の困難さを説明するための図である。識別学習におけるマージンの概念を説明するための模式図である。ソフトマージンによる識別学習におけるマージンの大きさとリスクとの関係を説明するための図である。本発明の第１の実施の形態に係る話者適応装置を実現するためのプログラムのメインルーチンの制御構造を示すフローチャートである。図６に制御構造を示すプログラムにおいて、フレームセレクション処理を実現するプログラムの制御構造を示すフローチャートである。距離関数を説明するための模式図である。本発明の第１の実施の形態に係る話者適応装置による実験結果を示すグラフである。本発明の第１の実施の形態に係る話者適応装置による実験結果で得られた、フレーム事後確率のヒストグラムを示す図である。本発明の第２の実施の形態にかかる話者適応装置において、適応発話数及びインターポレーション重みと、単語正解率との関係を示すグラフである。本発明の第１及び第２の実施の形態を実現する汎用のコンピュータシステムのハードウェア外観を示す図である。図１２に示すコンピュータシステムの内部構造のブロック図である。

以下の説明及び図面において、同じ部品には同じ参照番号を付してある。それらの名称及び機能も同一である。したがって、それらについての詳細な説明は繰返さない。

＜第１の実施の形態＞
最初に、この実施の形態において、図２に示す変換に用いる変換行列Ｗをどのように推定するかについて、その原理を説明し、その後にその原理に従った実施の形態の装置の構成及び動作について説明する。

［ソフトマージン推定による変換行列の推定］
‐ソフトマージン推定
本実施の形態では、ソフトマージン推定により変換行列を推定する。図３を参照して、２つのクラス７０及び７２があり、これらを識別するための識別境界を推定する場合を考える。両者を識別するための識別境界として、図３に示す識別境界８０，８２，８４，８６，８８及び９０のように無数の候補が存在する。識別学習では、テストリスクを最小化するために、識別境界から学習サンプルまでの距離を最大化することを目標とする。

図４を参照して、学習サンプルのクラス７０及び７２の間にある識別境界１００を考える。この場合、クラス７０及び７２にそれぞれ含まれるサンプルのうち、識別境界１００に最も近いサンプル１１０及び１１２と識別境界１００との間の距離１０２及び１０４がマージンである。このマージンを最大化するために、所定の目的関数を最適化する。同時に、マージンを考慮したモデルのパラメータ推定を行なうことにより、モデルの汎化性能を改善する。

図５を参照して、図４のように識別境界１００を推定したとしても、モデルの構造をある程度単純なものにした場合には、学習データを入力としてモデルの性能を評価しようとした場合、正しく識別されないサンプル１１８，１１４が発生したり、マージン内に位置すると判定されるサンプル１１０，１１２、１１６、１２０が発生したりすることがある。すなわち、経験リスクが存在する。経験リスクを最小化しようとするとモデルが複雑となり、汎化リスクが増大する。また、学習サンプル自体の誤りなどの場合には、図５においてサンプル１２２で示されるような異常なサンプルが発生することがある。このようなサンプルはマージン推定の際には学習データからリジェクトする必要がある。

そこで、本実施の形態では、以下に説明するような手法によりソフトマージン推定を行なう。

ソフトマージン推定は、マージンを最大化しつつ、マージンから外れた（識別の困難な）学習サンプルに対する経験リスクを、同時に最小化する手法である。この手法では、識別境界付近の、正しく認識された学習サンプルのみを用いてソフトマージンを推定する。式（６）にソフトマージン推定で用いられる目的関数Ｏ^ＳＭＥを示す。

式（６）の第１項は経験リスクを、第２項は汎化リスクを、それぞれ表す。式（６）中のＮは学習サンプル数、Ｏ_ｉは第ｉ番目の学習サンプル、ρはソフトマージン、Λは最適化対象のパラメータを、それぞれ表す。式（７）などにおけるＯ_ｉｊは第ｉ番目の発話の第ｊ番目のサンプルを示す。λは汎化項と経験リスク項との間のバランスを表し、システム要件及び実験に基づいてその値を定める。関数ｌ（エル）（Ｏ_ｉｊ，Λ）は、最適化対象のパラメータΛに対し、学習パラメータＯ_ｉｊについて計算されるロス関数である。ｄ（Ｏ_ｉｊ，Λ）は、ある学習サンプルＯ_ｉｊと最適化対象のパラメータΛに対する、正解クラスと対立クラスとの間の距離である。この距離については図８を参照して後述する。マージンを大きくした場合、汎化項は減少する一方、マージンから外れた学習サンプル量が増加し経験リスク項が増大する。逆に、マージンを小さくした場合、汎化項は増大する一方、経験リスク項は減少する。

経験リスクは、式（８）のように、ヒンジ関数を用いたフレームセレクションにより計算される。式（８）中のｐ（Ｓ_ｉ｜Ｏ_ｉｊ）は第ｉ番目の発話における第ｊ番目のフレームに対する事後確率（フレーム事後確率）を表す。τは極端に小さなフレーム事後確率を持つフレームを異常値として除くためのしきい値である。

すなわち、式（８）にしたがうフレームセレクションにより、マージン内（識別境界からマージンρ以上はなれた領域）のサンプルについてはソフトマージンの推定には使用されず、マージン外（識別境界からの距離がマージンρ未満の領域）のサンプルのみが使用される。また、事後確率がしきい値τよりも小さなサンプルについては、学習サンプルの誤りとみなしてソフトマージンの推定には使用しない。

‐線形回帰行列の推定
続いて、ＳＭＥを用いた線形回帰行列の推定について述べる。音響モデル中の平均ベクトルは、式（９）により変換される。ここでは、平均ベクトルに対する適応についてのみ述べる。

式（９）中のξｍ_ｒは第ｍ番目のクラスのＨＭＭモデルにおける第ｒ番目のガウス分布の拡張平均ベクトルである。＾Ｗ_ｍは第ｍ番目のクラスに対する線形回帰行列を表し、本実施の形態ではこの行列がＳＭＥにより推定される。本実施の形態では、次の式（１０）に示す正解候補に対する尤度ｇ（）と対立候補に対する尤度￣ｇ（）より計算される距離尺度ｄを用いた。（記号「￣」は式中では直後の文字の直上に記されている。）

図８は、正解クラスと対立クラスとを説明するための図である。図８を参照して、たとえば５つのクラス２３０（クラスＡ），２３２（クラスＢ），２３４（クラスＣ），２３６（クラスＤ）及び２３８（クラスＥ）が存在したものとする。これらには、それぞれ「×」で示す中心が存在する。

クラスＡに属する学習サンプル２４０が、図８において二重丸で示す位置にあるものとする。この場合、この学習サンプル２４０と、クラスＡ，Ｂ，Ｃ，Ｄ及びＥの中心との距離ｄ１，ｄ２，ｄ３，ｄ４及びｄ５が計算できる。これらのうち、不正解のクラスとの距離ｄ２，ｄ３，ｄ４及びｄ５のうちで最も小さな値に対応するクラスが対立クラスとなる。図８に示される例ではこれらのうちで最小のものはｄ４であり、したがってカテゴリＤが対立クラス、カテゴリＡが正解クラスである。

前述した距離関数ｄ（・）として、本実施の形態では、ｄ＝−ｄ１（学習サンプルと正解クラスの中心位置との距離）＋ｄ４（学習サンプルと対立クラスの中心位置との距離）という値を用いる。こうすることで、ｄ（・）の値がマイナスのときにはその学習サンプルは正しく識別されていることになり、プラスのときには誤って識別されていることになる。

式（１０）で定義した距離尺度と式（８）とから、次の式（１１）に示すようにＳＭＥロス関数は変換行列Ｗの関数となり、さらにこれを用いてロス関数の偏微分係数∂Ｏ^ＳＭＥ（Ｗ_ｍ）／∂Ｗ_ｍが得られ、式（１２）に示す確率的最急降下法（ＧＰＤ）により行列Ｗを最適化することができる。式（１２）中におけるＷ_ｉｍは、確率的最急降下法における第ｍ回目の繰返しにおける変換行列を示す。

式（１１）におけるεは学習係数である。ここで、式（１１）のρが式（１２）では消えていることに注意。

［構成］
以下に述べる第１の実施の形態に係る話者適応装置は、汎用コンピュータと、その汎用コンピュータ上で実行されるコンピュータプログラムとにより実現することができる。図６は、そのためのプログラムの制御構造を示すフローチャートである。

図６を参照して、このプログラムは、初期化処理を行なうステップ１４０を含む。初期化処理では、以下に述べる繰返し処理を制御するための繰返制御変数ｍに０を代入し、繰返制御変数ｍの最大値（すなわち以下の繰返し処理の繰返し回数）ｍ_ＭＡＸに２０を代入し、変換対象の行列Ｗの初期値Ｗ_０に従来技術の項で説明したＭＬＬＲにより推定された線形回帰行列を代入する。

このプログラムはさらに、ステップ１４０に続き、既に説明した方法により適応データの中で適応処理に使用するフレームを選択するフレームセレクションを実行するステップ１４２と、ステップ１４２で選択されたフレームデータの全てに対し、式（７）により示されるロス関数の値を算出するステップ１４４と、ステップ１４４で算出されたロスの値を用い、式（６）にしたがって目的関数Ｏ^ＳＭＥの値を計算するステップ１４６とを含む。

このプログラムはさらに、ＧＤＰによる最適化のために、目的関数Ｏ^ＳＭＥ（Ｗ_ｍ）（ｍは繰返し制御変数の値であり、Ｗ_ｍはｍ番目の繰返し時の変換行列を示す。）の行列Ｗ_ｍによる偏微分係数∂Ｏ^ＳＭＥ（Ｗ_ｍ）を求め、前掲の式（１１）により変換行列Ｗ_ｍをＷ_ｍ＋１に更新するステップ１４８と、話者独立な音響モデルＭに対し更新後の変換行列Ｗ_ｍ＋１をかけることにより、話者適応処理の第ｍ回目の繰返しから得られる話者適応後の音響モデルＭ_ｍを算出するステップ１５０と、ステップ１５０に続き、繰返し制御変数ｍに１を加算するステップ１５２と、繰返し制御変数ｍの値が最大値ｍ_ＭＡＸと等しいか否かを判定し、等しくない場合には制御の流れをステップ１４２に戻すステップ１５４と、ステップ１５４における判定結果がＹＥＳのときに実行され、ステップ１５０で更新された話者適応モデルＭ_ｍを所定の出力先に出力して処理を終了するステップ１５６とを含む。

図７は、図６のステップ１４２で実行されるフレームセレクション処理を実現するプログラムのフローチャートである。図７を参照して、このプログラムは、全フレームに対して以下に説明する処理１８２を実行するステップ１８０を含む。

処理１８２は、音響モデル内に含まれる全音素（又は全音素列）に対応するモデルの各々に対し、そのフレームが出力される尤度を算出するステップ１８６を実行するステップ１８４と、あるフレームについてステップ１８４で算出された尤度のうち、正解モデルから得られた尤度の信頼度を、そのフレームについて全てのモデルで得られた尤度の和で除算することにより事後確率（信頼度）を算出する処理を全てのフレームについて実行するステップ１９０と、全フレームのうち、ステップ１９０で算出された事後確率がτより大きくマージンρより小さなもののみを選択するステップ１９２及び１９４とを含む。この処理により、適応データのうち、事後確率がτ以下のフレーム、及びマージンρ以上のものは適応データから除外され、事後確率がτより大きく、マージンρ以下のもののみが適応処理に用いられるデータとして選択される。

以上のように、ＳＭＥにより変換行列を最適化する手法をＳＭＥＬＲと呼ぶ。

［動作］
この話者適応装置は以下のように動作する。予め、変換行列の初期値Ｗ_０がＭＬＬＲにより得られているものとする。変換行列の初期値としてＭＬＬＲにより得られたものを使用することにより、ＳＭＥＬＲの処理では少ない繰返し回数でも精度の高い話者適応を行なうことができる。適応データについては、全てフレームごとに音素ラベルが付され、音響特徴量などについても算出済でコンピュータ読取可能な記憶媒体に準備されているものとする。また、フレームマージンρ、フレームセレクションのための定数τ、経験リスクと汎化リスクとのバランスをとるための定数λについても決定されているものとする。

図６を参照して、ステップ１４０で初期化処理が行なわれる。すなわち、繰返し制御変数ｍに０が、繰返し制御変数ｍの最大値ｍ_ＭＡＸに２０が、それぞれ代入される。最適化の対象となる変換行列の初期値Ｗ_０には、ＭＬＬＲにより得られた線形回帰行列Ｗ_ＭＬＬＲが代入される。

続いて、ステップ１４２で、全てのフレームのうちで、事後確率がτより大きく、フレームマージンρより小さなもののみを選択する処理が行なわれる。

具体的には、図７を参照して、全てのフレームに対して、以下の処理を行なう。すなわち、処理対象のフレーム（第ｉ番目の発話に対する第ｊ番目のフレームとし、フレーム_ｉｊと呼ぶ。）につき、フレーム_ｉｊの出力が得られる尤度を全ての音素別（又は音素列別）モデルから算出する（ステップ１８４及び１８６）。こうして、フレーム_ｉｊについて、全モデルから得られた尤度に基づき、ステップ１９０において、正解モデルの尤度の信頼度Ｐ（Ｓ_ｉ｜Ｏ_ｉｊ）（Ｓ_ｉはｉ番目の発話の正解を示す。）が上記した計算方法により算出される。この信頼度が定数τより大きく、フレームマージンρより小さければ（ステップ１９２でＹＥＳ）フレーム_ｊｋは選択されて後の処理に使用される（ステップ１９４）。この条件が満足されていなければフレーム_ｉｊは使用されない。

この処理を適応データ内の全てのフレームに対して行なうことで、フレームセレクションが完了する。

再び図６を参照して、ステップ１４２に続き、ステップ１４２で選択されたフレームに対して得られたロス関数の値ｌ（Ｏ_ｉｊ，Λ）を式（７）に代入することにより、ロスが算出される（ステップ１４４）。このロスの値を式（６）に代入することにより、目的関数Ｏ^ＳＭＥの値が算出される（ステップ１４６）。さらに、目的関数ＯＳＭＥの偏微分係数∂Ｏ^ＳＭＥ（Ｗ_ｍ）／∂Ｗ_ｍがステップ１４８で算出され、この値に基づいて式（１１）により新たな変換行列Ｗ_ｍ＋１が算出される。こうして得られた新たな変換行列Ｗ_ｍ＋１を元の音響モデルＭに乗算することで、新たな音響モデルＭ_ｍ＋１が得られる（ステップ１５０）。

続いて繰返し変数ｍ（ここではｍ＝０）の値に１を加算する（ステップ１５２）。ステップ１５４でこの繰返し変数ｍの値が最大値ｍ_ＭＡＸ＝２０と等しいか否かを判定する。ここではｍ＝１なので等号は成立せず、制御はステップ１４２に戻る。

以下、上記した処理と同じ処理（ステップ１４２，１４４，１４６，１４８，１５０及び１５２）について実行される。ステップ１４８では変換行列Ｗ_２が算出され、ステップ１５０では話者適応音響モデルＭ_２が得られる。繰返し制御変数ｍの値は２となり（ステップ１５２）、再びステップ１５４からステップ１４２に制御が戻る。

こうして、繰返し制御変数の値が最大値ｍ_ＭＡＸと等しくなるまで上記した処理が繰返される。この処理が全部で２０回繰返されると、ステップ１５２の処理の結果、繰返し制御変数ｍの値は２０となる。ステップ１５４の判定結果はＹＥＳとなる。制御はステップ１５６に進み、ステップ１５０で算出された話者適応音響モデルＭ_２０が出力され（ステップ１５６）、処理を終了する。

こうした処理により、音響モデルを話者に適応化させるための変換行列の最適化と、適応後の音響モデルを得ることとができる。最終的に得られた話者適応音響モデルＭ_２０をその話者の音声認識に用いることにより、認識精度を高めることができる。以下、実験結果を示す。

［話者適応実験］
‐実験条件
我々は、ＳＭＥＬＲにより話者適応された音響モデルの認識性能を調べるため、大語彙連続音声認識実験を行なった。実験に使用した音声コーパスは、新聞記事読み上げコーパス（ＪＮＡＳ）である。適応元の話者独立音響モデル（ＳＩ）として、男性１２５名、女性１２５名が発話した新聞記事２５８４８文章を用い、性別に依存した２つの音響モデルを最尤法により推定した。音響モデルの状態数は３０００、混合数は４である。言語モデルには、毎日新聞記事コーパスの５１０Ｍ単語を用いて、単語バイグラム及び、単語トライグラムを推定した。辞書サイズは６０ｋである。評価には、学習に用いなかった男性２３名、女性２３名の発話した５０文を用いた。適応用文章として４０文を準備した。

ベースラインとして、６４個のリーフノードを持つ回帰木を用いたマルチクラスＭＬＬＲによる適応実験を行った。ＳＭＥＬＲでは、このベースラインで得られた線形回帰行列を変換行列の初期値として変換行列及び話者適応モデルの推定を行なった。式（８）のヒンジ関数の尺度としてフレーム事後確率を用い、フレームセレクションを行った。予備実験により、ソフトマージンρは０．８４、しきい値τは０．１０とした。学習エポック数は２０、学習係数εは３×１０．６である。

実験では、ＳＭＥＬＲにより話者適応された音響モデルを用いて行なった音声認識の単語正解率を比較した。

‐実験結果
図９に、適応文章数１０、２０、及び４０のときの実験結果を性別毎に示す。図９において、適応文章数０のグラフ２５０及び２７０は、適応元のＳＩモデルによる結果である。

図９に示すように、ＳＭＥＬＲにより変換した話者適応音響モデルを用いた結果、いずれの性別でも、いずれの発話数でも、ＳＭＥＬＲはＭＬＬＲを上回る単語正解率を示した。ＳＭＥＬＲは、ＭＬＬＲの誤りを平均して約２．０％削減した。

図１０に、適応用音声に対してＳＩ，ＭＬＬＲ，及びＳＭＥＬＲにより得られた音響モデルによりそれぞれ算出されるフレーム事後確率のヒストグラム３００、３０２、及び３０４を示す。

図１０を参照して、フレーム事後確率の値が０．８以下の部分では、ＭＬＬＲによるフレーム数の方がＳＭＬＥＲによるフレーム数を上回っている。逆に、０．８より大きな部分では、ＳＭＬＥＲによるフレーム数がＭＬＬＲによるフレーム数を上回っている。すなわち、ＳＭＥＬＲにより得られるフレーム事後確率は、ＭＬＬＲにより得られるフレーム事後確率より高くなっていることが分かる。

＜第２の実施の形態＞
上記した第１の実施の形態の装置により、話者独立な音響モデルを、比較的少ない適応データで、精度よく話者適応した音響モデルに変換することができる。しかし、適応データが極端に少ないときにも同様に精度が高いとは限らない。

そこで、この第２の実施の形態では、上記した第１の実施の形態で得られたＳＭＥＬＲによる話者適応音響モデルと、話者独立な音響モデルとの平均ベクトルの間を、式（１２）に示すようにそれぞれに重みｗ及びｗ−１を割当ててインターポレーションした話者適応音響モデルを用いる。＾μはインターポレーション後の音響モデルの平均ベクトルである。

後に説明するように、適応発話数の数により、望ましい重みｗの値が変化することが分かった。

ＳＩモデルとＳＭＥＬＲにより話者適応された音響モデルとの間のインターポレーションの実験結果を図１１に示す。図１１を参照して、適応文章数が１０の場合、インターポレーション重みが０．６のときに最も高い認識精度が得られた。このとき、ＭＬＬＲにより適応化した音響モデルの誤りが約３．６％削減された。また、適応文章数が２０の場合は、インターポレーション重みが０．７で約４．７％の誤りを削減、適応文章数が４０の場合はＳＩモデルを全く用いない１．０で最も高い認識精度が得られた。これらの実験結果から、モデルインタポレーションは適応文章数が少ない場合に効果的に誤りを削減することが分かる。

男性話者の場合も、女性話者の場合も、この傾向には変化がない。グラフの変化を外挿することにより、適応発話数が２０より大きく４０より小さいときには重みｗは０．７＜ｗ＜１．０の範囲のいずれかの値を用いればよいことが分かる。また適応発話数が１０より大きく２０より小さいときには、重みｗとしては０．６＜ｗ＜０．７となるように選べばよい。

適応データが少ない場合、インターポレーション重みｗとして小さな値を用いることにより、過学習の影響を低減できると考えられる。

＜コンピュータによる実現＞
以上に説明した第１及び第２の実施の形態のいずれも、汎用コンピュータ及びその上で実行されるコンピュータプログラムにより実現することができる。図１２はこの実施の形態で用いられるコンピュータシステム５５０の外観を示し、図１３はコンピュータシステム５５０のブロック図である。ここで示すコンピュータシステム５５０は単なる例であって、他の構成も利用可能である。

図１２を参照して、コンピュータシステム５５０は、コンピュータ５６０と、全てコンピュータ５６０に接続された、モニタ５６２と、キーボード５６６と、マウス５６８と、スピーカ５５８と、マイクロフォン５９０と、を含む。さらに、コンピュータ５６０はＤＶＤ−ＲＯＭ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋＲｅａｄ−Ｏｎｌｙ−Ｍｅｍｏｒｙ：ディジタル多用途ディスク読出専用メモリ）ドライブ５７０と、半導体メモリドライブ５７２とを含む。

図１３を参照して、コンピュータ５６０はさらに、ＤＶＤ−ＲＯＭドライブ５７０と半導体メモリドライブ５７２とに接続されたバス５８６と、全てバス５８６に接続された、ＣＰＵ５７６と、コンピュータ５６０のブートアッププログラムを記憶するＲＯＭ５７８と、ＣＰＵ５７６によって使用される作業領域を提供するとともにＣＰＵ５７６によって実行されるプログラムのための記憶領域となるＲＡＭ５８０と、音声データ、音響モデル、言語モデル、適応データなどを記憶するためのハードディスクドライブ５７４と、ネットワーク５５２への接続を提供するネットワークインターフェイス５９６とを含む。

上述の実施の形態のシステムを実現するソフトウェアは、ＤＶＤ−ＲＯＭ５８２又は半導体メモリ５８４等のコンピュータ読取可能な記録媒体に記録されたオブジェクトコードの形で流通し、ＤＶＤ−ＲＯＭドライブ５７０又は半導体メモリドライブ５７２等の読出装置を介してコンピュータ５６０に提供され、ハードディスクドライブ５７４に記憶される。ＣＰＵ５７６がプログラムを実行する際には、プログラムはハードディスクドライブ５７４から読出されてＲＡＭ５８０に記憶される。図示しないプログラムカウンタによって指定されたアドレスから命令がフェッチされ、その命令が実行される。ＣＰＵ５７６はハードディスクドライブ５７４から処理すべきデータを読出し、処理の結果をこれもまたハードディスクドライブ５７４に記憶する。スピーカ５５８とマイクロフォン５９０とは、直接に本発明とは関係ないが、スピーカ５５８は、適応データなどの音声の再生時に必要である。発話データの収録にコンピュータシステム５５０を使用するときには、マイクロフォン５９０が必要となる。

コンピュータシステム５５０の一般的動作は周知であるので、詳細な説明は省略する。

ソフトウェアの流通の方法に関して、ソフトウェアは必ずしも記憶媒体上に固定されたものでなくてもよい。例えば、ソフトウェアはネットワークに接続された別のコンピュータから分配されてもよい。ソフトウェアの一部がハードディスクドライブ５７４に記憶され、ソフトウェアの残りの部分をネットワークを介してハードディスクドライブ５７４に取込み、実行の際に統合する様にしてもよい。

典型的には、現代のコンピュータはコンピュータのオペレーティングシステム（ＯＳ）によって提供される一般的な機能を利用し、所望の目的に従って制御された態様で機能を達成する。従って、ＯＳ又はサードパーティから提供されうる一般的な機能を含まず、一般的な機能の実行順序の組合せのみを指定したプログラムであっても、そのプログラムが全体として所望の目的を達成する制御構造を有する限り、そのプログラムがこの発明の範囲に包含されることは明らかである。

以上のように本発明によれば、ＳＭＥＬＲを用いて変換行列を推定することにより、比較的少ない適応データを用いて、話者独立な音響モデルから精度高く話者適応音響モデルを推定できる。さらに、話者独立な音響モデルとの間でインターポレーションを行なうことで、適応発話数が４０より小さい場合でも、最適な重みを使用することにより話者独立な音響モデル又はＳＭＬＥＲによる音響モデルのいずれかを単独で用いた場合よりも高い単語認識精度を得ることができる。

上記実施の形態では、音響モデル中の確率密度関数を構成する正規分布の平均ベクトルを話者適応により変換した。しかし本発明はそのような実施の形態には限定されない。たとえば、正規分布確率身度関数の分布など、他のパラメータにＳＭＥＬＲによる話者適応を適用することもできる。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。

３０音声認識システム３０
４０音響モデル
４２言語モデル
４４音声認識装置
４６入力音声
４８認識結果
６０変換行列
６２話者適応後の音響モデル
１００識別境界

Claims

話者独立な音響モデルを、話者適応用のデータを用いた識別学習により、特定話者に適応させる話者適応装置であって、
話者適応のための変換行列及び前記話者適応用のデータを記憶するための記憶手段と、
前記話者独立な音響モデルに、前記変換行列を適用して、前記特定話者に適応した音響モデルを算出するための音響モデル変換手段と、
前記記憶手段に記憶された話者適応用データに含まれるフレームのうち、前記特定話者に適応した音響モデルにより算出された正解データの信頼度が所定範囲に存在するフレームを選択するためのフレーム選択手段と、
前記フレーム選択手段により選択されたフレームを用い、予め識別学習のために準備されたソフトマージン推定のための、経験リスクと汎化項との重み付き和からなる目的関数であって、前記変換行列の関数である目的関数の値を算出するための目的関数算出手段と、
所定の最適化アルゴリズムを用い、前記目的関数算出手段により算出される目的関数の値を極小化するよう、前記変換行列を更新するための更新手段と、
前記変換行列計算手段により更新された変換行列を新たな変換行列として、前記音響モデル変換手段、前記フレーム選択手段、前記目的関数算出手段、及び前記更新手段を所定の終了条件が充足されるまで繰返し動作させるための繰返し制御手段とを含む、話者適応装置。
前記信頼度は正解データのフレームの事後確率である、請求項１に記載の話者適応装置。
前記フレーム選択手段は、前記記憶手段に記憶された話者適応用データに含まれるフレームのうち、前記特定話者に適応した音響モデルにより算出された正解データの事後確率Ｐが所定のしきい値τより大きく、前記目的関数に含まれるソフトマージン値ρより小さな範囲に存在するフレームを選択するための手段を含む、請求項２に記載の話者適応装置。
前記音響モデル変換手段は、前記話者独立な音響モデルに含まれる正規分布確率密度関数の各々の平均ベクトルに前記変換行列を適用することにより、前記特定話者に適応した音響モデルを算出するための手段を含む、請求項１から請求項３のいずれかに記載の話者適応装置。
前記目的関数は、次の式により示され、

ただしＮは適応サンプル数、Ｏ_ｉは第ｉ番目の適応サンプル発話、ρはソフトマージン、Λは最適化対象のパラメータ、Ｏ_ｉｊは第ｉ番目の適応サンプル発話の第ｊ番目のサンプル、λは汎化項と経験リスク項との間のバランスを表す定数、ｌ（Ｏ_ｉｊ，Λ）は、最適化対象のパラメータΛに対し、第ｉ番目の適応サンプル発話の第ｊ番目のサンプルＯ_ｉｊについて計算されるロス関数、ｄ（Ｏ_ｉｊ，Λ）は、適応サンプルＯ_ｉｊと最適化対象のパラメータΛに対する、正解クラスと対立クラスとの間の距離関数を、それぞれ示す、請求項１から請求項４のいずれかに記載の話者適応装置。
コンピュータを、
話者適応のための変換行列及び話者適応用のデータを記憶するための記憶手段と、
話者独立な音響モデルに、前記変換行列を適用して、特定話者に適応した音響モデルを算出するための音響モデル変換手段と、
前記記憶手段に記憶された話者適応用データに含まれるフレームのうち、前記特定話者に適応した音響モデルにより算出された正解データの信頼度が所定範囲に存在するフレームを選択するためのフレーム選択手段と、
前記フレーム選択手段により選択されたフレームを用い、予め識別学習のために準備されたソフトマージン推定のための、経験リスクと汎化項との重み付き和からなる目的関数であって、前記変換行列の関数である目的関数の値を算出するための目的関数算出手段と、
所定の最適化アルゴリズムを用い、前記目的関数算出手段により算出される目的関数の値を極小化するよう、前記変換行列を更新するための更新手段と、
前記変換行列計算手段により更新された変換行列を新たな変換行列として、前記音響モデル変換手段、前記フレーム選択手段、前記目的関数算出手段、及び前記更新手段を所定の終了条件が充足されるまで繰返し動作させるための繰返し制御手段として機能させる、コンピュータプログラム。