JP2014153680A

JP2014153680A - 音響モデル補正パラメータ推定装置、特徴量補正パラメータ推定装置、それらの方法及びプログラム

Info

Publication number: JP2014153680A
Application number: JP2013025865A
Authority: JP
Inventors: Marc Delcroix; マークデルクロア; Atsunori Ogawa; 厚徳小川; Sonjun Ham; ソンジュンハム; Tomohiro Nakatani; 智広中谷; Atsushi Nakamura; 篤中村
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2013-02-13
Filing date: 2013-02-13
Publication date: 2014-08-25
Anticipated expiration: 2033-02-13
Also published as: JP6121187B2

Abstract

【課題】正解シンボルの誤りの悪影響を弱める仕組みを導入し、正解シンボルの誤りが多い教師なし適応の場合でも、識別基準による音響モデル適応の精度の低下を防ぐ音響モデル補正パラメータ推定技術及び特徴量補正パラメータ推定技術を提供する。
【解決手段】音響モデル補正パラメータ学習装置１００は、言語モデルによって得られる対立候補シンボル系列の言語確率、学習用音声データの特徴量と対立候補シンボル系列に基づき音響モデルによって得られる音響スコア及び相違度に基づき、平均補正パラメータで識別学習基準の目的関数を微分したときの微分値を求める補正パラメータ微分値計算部１４０と、微分値に応じて平均補正パラメータを変更することで、平均補正パラメータを更新する補正パラメータ更新部１５０と、を含む。
【選択図】図５

Description

本発明は、入力データから特徴量を抽出し、その特徴量を用いて入力データを予め定義されたクラスタに分類するパターン認識において、クラスタ分類精度を向上させるためのクラスタ分類モデルパラメータ補正技術及び特徴量補正技術に関する。例えば、入力音声から特徴量を抽出し、その特徴量を用いて入力音声を単語列に変換する音声認識における、音響モデル補正パラメータ推定装置、特徴量補正パラメータ推定装置、それらの方法及びプログラムに関する。

音声認識装置が実際に置かれる環境は様々である。このため音響モデルを学習するための音声データと実際に入力される音声の特徴は一致しないことが多い。不一致の原因は、周囲の雑音環境、話者の多様性、等であり、これらが音声認識精度を劣化させる。このため、これら周囲雑音環境や話者の多様性に対して頑健（ロバスト）な音声認識技術が求められている。ロバストな音声認識技術として、入力音声と音響モデルとが適合しやすくなるように、入力音声から抽出した特徴ベクトルや音響モデルを補正する技術が知られている。

入力音声から抽出した特徴ベクトルを補正することでロバストな音声認識を実現する技術として、非特許文献１が知られている。この技術では、ｄＭＭＩ（differenced Maximum Mutual Information）という基準に基づいて特徴ベクトルを補正するための補正パラメータを学習する。また、非特許文献２記載されているように、周囲雑音環境に対して、雑音下音声の雑音抑圧（音声強調）処理を行う場合に、ｄＭＭＩ基準に基づく音響モデルの分散パラメータの補正パラメータを推定する技術がある。

また、音響モデルを補正する技術として、音響モデルのパラメータを、線形回帰を用いて補正する線形回帰音響モデル適応技術（非特許文献３、４）が知られている。

デルクロア・マーク，小川厚徳，渡部晋治，中谷智広，中村篤,「dMMI識別基準による特徴量変換の識別学習」,日本音響学会春季研究発表会，March 2012,pp. 121-122 デルクロア・マーク，小川厚徳，渡部晋治，中谷智広，中村篤,「dMMI識別基準による教師なし動的分散適応」,日本音響学会秋季研究発表会，September 2012,pp. 131-132 Leggetter C. J. and Woodland P. C.， "Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models", Computer Speech & Language， 1995, vol. 9， no. 2， pp. 171-185 L.F. Uebel and P.C. Woodland， "Discriminative linear transforms for speaker adaptation", in Proc. ISCA Tutorial and Research Workshop (ITRW) on Adaptation Methods for Speech Recognition， 2001， pp. 61-64.

非特許文献１のようなｄＭＭＩ基準に基づく補正パラメータの学習には、大量の学習用の音声データ（以下「学習用音声データ」ともいう）とそれに対応する正解シンボルの系列（以下「正解シンボル系列」ともいう）が必要となる。そのため、学習用音声データと正解シンボル系列からなる学習データ、特に、正解シンボル系列を準備する際に多大なコストがかかる。非特許文献２のようなｄＭＭＩ基準に基づく音響モデルの分散パラメータの動的な補正パラメータの適応技術は、音声強調処理が必要なため、話者の多様性などへの適用が困難であり、汎用性に欠ける。

一方、線形回帰パラメータの推定を最尤基準（ＭＬＬＲ(Maximum likelihood linear regression)）で行う方法（非特許文献３）または識別的基準の一種である最大相互情報量(Maximum Mutual Information : MMI)基準（ＭＭＩ−ＬＲ）で行う方法（非特許文献４）に基づく補正パラメータの適応技術は、少ない音声データで実行することができるという利点がある。また、正解シンボルを必要としない教師なし適応を行うことも可能であり、この場合は正解シンボルを人手で準備する必要がないという利点がある。

教師あり適応の場合はＭＭＩ−ＬＲはＭＬＬＲよりも性能が良いと報告されている（非特許文献４）。しかし、ＭＭＩ−ＬＲの識別基準による音響モデルの教師なし適応方法は、適応データを音声認識した結果を正解ラベルと見做して利用するので、正解ラベル（と見做された音声認識結果）に誤りが含まれることが多い。ＭＭＩ−ＬＲのような識別基準は、正解シンボルと他の認識仮説を考慮し、直接音響モデルパラメータを最適化することによって、認識性能を大きく向上させる技術であるため、正解シンボルに誤りがある場合はうまく音響モデルパラメータを最適化できず、性能が改善しないか悪化する可能性がある。

本発明は、正解シンボルの誤りの悪影響を弱める仕組みを導入し、正解シンボルの誤りが多い教師なし適応の場合でも、識別基準による音響モデル適応の精度の低下を防ぎ、識別基準による教師なし音響モデル適応を可能にする音響モデル補正パラメータ推定技術及び特徴量補正パラメータ推定技術を提供することを目的とする。

上記の課題を解決するために、本発明の第一の態様によれば、音響モデル補正パラメータ推定装置は、音響モデルには混合ガウス分布モデルが含まれるものとし、音響モデルパラメータには混合ガウス分布モデルに含まれるガウス分布の平均ベクトルが含まれるものとし、学習用音声データの特徴量及び学習用音声データに対する正解シンボル系列から、平均ベクトルを補正するための平均補正パラメータを求める。音響モデル補正パラメータ推定装置は、予め求められた音響モデル及び言語モデルが記憶される記憶部と、記憶部に記憶された音響モデルの平均ベクトルを、平均補正パラメータを用いて補正する音響モデル補正部と、補正した平均ベクトルを含む音響モデルと言語モデルとに基づき、学習用音声データの特徴量を音声認識することによって得られる対立候補シンボル系列ごとに、予め定めた粒度で、正解シンボル系列との相違度を求めるエラーカウント計算部と、言語モデルによって得られる対立候補シンボル系列の言語確率、学習用音声データの特徴量と対立候補シンボル系列に基づき音響モデルによって得られる音響スコア及び相違度に基づき、平均補正パラメータで識別学習基準の目的関数を微分したときの微分値を求める補正パラメータ微分値計算部と、微分値に応じて平均補正パラメータを変更することで、平均補正パラメータを更新する補正パラメータ更新部と、を含む。

上記の課題を解決するために、本発明の他の態様によれば、特徴量補正パラメータ推定装置は、学習用音声データの特徴量及び学習用音声データに対する正解シンボル系列から、認識用音声データの特徴量を補正するための特徴量補正パラメータを求める。特徴量補正パラメータ推定装置は、予め求められた音響モデル及び言語モデルが記憶される記憶部と、学習用音声データの特徴量ｏ_ｔを特徴量補正パラメータにより補正した補正後の特徴量ｏ＾_ｔを求める特徴量補正部と、予め定めた粒度で、補正後の特徴量ｏ＾_ｔを音声認識することによって得られる対立候補シンボル系列ごとに、正解シンボル系列との相違度を求めるエラーカウント計算部と、言語モデルによって得られる対立候補シンボル系列の言語確率、補正後の特徴量ｏ＾_ｔと対立候補シンボル系列に基づき音響モデルによって得られる音響スコア及び相違度に基づき、特徴量補正パラメータで識別学習基準の目的関数を微分したときの微分値を求める補正パラメータ微分値計算部と、微分値に応じて特徴量補正パラメータを変更することで、特徴量補正パラメータを更新する補正パラメータ更新部と、を含む。

上記の課題を解決するために、本発明の他の態様によれば、音響モデル補正パラメータ推定方法は、音響モデルには混合ガウス分布モデルが含まれるものとし、音響モデルパラメータには混合ガウス分布モデルに含まれるガウス分布の平均ベクトルが含まれるものとし、学習用音声データの特徴量及び学習用音声データに対する正解シンボル系列から、平均ベクトルを補正するための平均補正パラメータを求める。音響モデル補正パラメータ推定方法は、記憶部には予め求められた音響モデル及び言語モデルが記憶され、記憶部に記憶された音響モデルの平均ベクトルを、平均補正パラメータを用いて補正する音響モデル補正ステップと、補正した平均ベクトルを含む音響モデルと言語モデルとに基づき、学習用音声データの特徴量を音声認識することによって得られる対立候補シンボル系列ごとに、予め定めた粒度で、正解シンボル系列との相違度を求めるエラーカウント計算ステップと、言語モデルによって得られる対立候補シンボル系列の言語確率、学習用音声データの特徴量と対立候補シンボル系列に基づき音響モデルによって得られる音響スコア及び相違度に基づき、平均補正パラメータで識別学習基準の目的関数を微分したときの微分値を求める補正パラメータ微分値計算ステップと、微分値に応じて平均補正パラメータを変更することで、平均補正パラメータを更新する補正パラメータ更新ステップと、を含む。

上記の課題を解決するために、本発明の他の態様によれば、特徴量補正パラメータ推定方法は、学習用音声データの特徴量及び学習用音声データに対する正解シンボル系列から、認識用音声データの特徴量を補正するための特徴量補正パラメータを求める。特徴量補正パラメータ推定方法は、記憶部には予め求められた音響モデル及び言語モデルが記憶され、学習用音声データの特徴量ｏ_ｔを特徴量補正パラメータにより補正した補正後の特徴量ｏ＾_ｔを求める特徴量補正ステップと、予め定めた粒度で、補正後の特徴量ｏ＾_ｔを音声認識することによって得られる対立候補シンボル系列ごとに、正解シンボル系列との相違度を求めるエラーカウント計算ステップと、言語モデルによって得られる対立候補シンボル系列の言語確率、補正後の特徴量ｏ＾_ｔと対立候補シンボル系列に基づき音響モデルによって得られる音響スコア及び相違度に基づき、特徴量補正パラメータで識別学習基準の目的関数を微分したときの微分値を求める補正パラメータ微分値計算ステップと、微分値に応じて特徴量補正パラメータを変更することで、特徴量補正パラメータを更新する補正パラメータ更新ステップと、を含む。

本発明によれば、正解シンボルの誤りの悪影響を弱めることによって、従来技術よりも適切に音響モデルパラメータまたは特徴量に対する補正パラメータを求めることができるという効果を奏する。

線形回帰音響モデル適応技術を搭載した音声認識装置の機能構成例を示す図。線形回帰音響モデル適応技術を搭載した音声認識装置の処理フロー例を示す図。音響モデル補正パラメータ学習装置の機能構成例を示す図。音響モデル補正パラメータ学習装置の処理フロー例を示す図。第一実施形態に係る音響モデル補正パラメータ学習装置の構成例を示す図。第一実施形態に係る音響モデル補正パラメータ学習装置の処理フロー例を示す図。補正した特徴量に基づき音声認識を行う音声認識装置の機能構成例を示す図。補正した特徴量に基づき音声認識を行う音声認識装置の処理フロー例を示す図。第二実施形態に係る特徴量補正パラメータ学習装置の構成例を示す図。第二実施形態に係る特徴量補正パラメータ学習装置の処理フロー例を示す図。

以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」等は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。

まず、第一実施形態について説明する前に、まず、音響モデル適応技術を搭載した音声認識装置について説明する。

＜音響モデル適応技術を搭載した音声認識装置９０＞
図１に線形回帰音響モデル適応技術を搭載した音声認識装置９０の機能構成例、図２にその処理フロー例を示す。音声認識装置９０は、特徴量抽出部９１、単語列探索部９２、記憶部９３、音響モデル補正部９４から構成される。

（記憶部９３）
記憶部９３には、予め音響モデルと言語モデルが記憶されている。音響モデルは、音声の音響的特徴をモデル化したものである。言語モデルは音素や単語といった多数のシンボル系列から構成されている。通常、音声認識用音響モデルでは、各音素をLeft to rightのＨＭＭ（Hidden Markov Model：隠れマルコフモデル）で、ＨＭＭ状態の出力確率分布をＧＭＭ（Gaussian Mixture Model：混合ガウス分布モデル）で表現する。そのため、実際に音響モデルとして記憶部９３に記憶されているのは、音素などの各シンボルにおけるＨＭＭの状態遷移確率、ＧＭＭの混合重み因子、及びガウス分布の平均ベクトルμ_ｍ及び共分散行列（以下「分散パラメータ」ともいう）Σ_ｍ等となる。ここで、ＭはＧＭＭに含まれるガウス分布の総数であり、ｍは、ＧＭＭのガウス分布のインデックスであり、ｍ＝１，２，…，Ｍである。これらを音響モデルパラメータと呼び、その集合をΛとする。言語モデルは音素や単語といった多数のシンボル系列から構成されており、図中のＰ（Ｓ_ｊ）は言語モデルによって得られる対立候補シンボル系列Ｓ_ｊの確率（以下「言語確率」ともいう）である。なお、対立候補シンボル系列Ｓ_ｊとは音声認識結果となりうるシンボル系列であり、シンボル系列とは音素や単語等からなるシンボルの系列である。

（特徴量抽出部９１）
特徴量抽出部９１は、認識用音声データを読み込み（ｓ９３）、音声の特徴量を抽出する（ｓ９５）。特徴量としては、例えば、ＭＦＣＣ（Mel Frequency Cepstral Coefficient）、ΔＭＦＣＣ、ΔΔＭＦＣＣ、対数パワー、Δ対数パワー等があり、これらが１０〜１００次元程度の特徴量ベクトルｏを構成する。さらに、時系列の特徴量ベクトルである特徴量ベクトル系列Ｏを以下のように表現できる。

ただし、Ｎはフレームの数、ｎは１からＮの整数、Ｒは実数の集合である。つまり、Ｏは１からＮフレーム目までのＤ次元特徴量ベクトルで表現されるデータである。例えば、分析フレーム幅は３０ｍｓ程度、分析フレームシフト幅は１０ｍｓ程度で分析が実行される。

（音響モデル補正部９４）
音響モデル補正部９４は、補正前の（記憶部９３に記憶された）音響モデルパラメータΛを含む音響モデルと、予め学習し記憶部９３に記憶しておいた音響モデル補正パラメータθ＾を読み込み（ｓ９１、ｓ９４）、音響モデル補正パラメータθ＾を用いて、音響モデルパラメータΛを含む音響モデルを補正し（ｓ９６）、補正した音響モデルパラメータΛ＾を単語列検索部９２に送る。この例では、線形回帰音響モデル適応は以下の式（２）のように、音響モデルパラメータに含まれる平均ベクトルμ＝｛μ_１，μ_２，…，μ_Ｍ｝を補正する。

ただし、μ＾_ｍは補正後の音響モデルパラメータにおけるｍ番目のガウス分布の平均ベクトル、Ａは平均ベクトルに対する変換行列、ｂは平均ベクトルに対するバイアスベクトルである。’はベクトルまたは行列の転置を表す。今後、Ａ，ｂもしくはＷを平均補正パラメータともいう。また、式（２）は平均ベクトルμ_ｍの補正の例を示したが、分散パラメータΣ_ｍについても同様の補正を行うことができる。音響モデルパラメータを補正するためのパラメータを音響モデル補正パラメータと呼び、平均補正パラメータや分散パラメータを補正するためのパラメータ（以下「分散補正パラメータ」ともいう）は音響モデル補正パラメータに含まれるものとする。この例では、音響モデル補正パラメータθは平均補正パラメータＡ，ｂのみからなるため、平均補正パラメータＡ，ｂのことを音響モデル補正パラメータθ＝（Ａ，ｂ）ともいう。平均補正パラメータＡ，ｂを、変換行列Ａとバイアスベクトルｂとからなる行列として表現した場合をＷ＝［Ａｂ］とし、変換行列Ａとバイアスベクトルｂとからなる集合として表現した場合をθ＝（Ａ，ｂ）とする。

より詳細な補正を行うため、音響モデル補正パラメータはよく音響モデルのガウス分布のクラスタ毎に推定される。その場合は、補正後の平均ベクトルμ＾_ｍは式（３）のようになる。クラスタの作り方は、例えば非特許文献３のような方法がある。

ｋはガウス分布のクラスタのインデックス、Ａ_ｋ，ｂ_ｋはクラスタｋの平均補正パラメータである。クラスタ毎に平均補正パラメータを推定した場合、θ_ｋ＝（Ａ_ｋ，ｂ_ｋ）とし、Ｋをクラスタの総数とし、ｋ＝１，２，…，Ｋとし、θ＝（θ_１，θ_２，…，θ_Ｋ）とする。また、Ｗ_ｋ＝［Ａ_ｋｂ_ｋ］とし、Ｗ＝（Ｗ_１，Ｗ_２，…，Ｗ_Ｋ）とする。

（単語列探索部９２）
単語列探索部９２は、音響モデル補正部９４から取得した補正後の音響モデルパラメータΛ＾に基づき、特徴量ベクトル系列Ｏに対するＪ個の対立候補シンボル系列Ｓ_ｊを生成して、対立候補シンボル系列Ｓ_ｊ毎に音響スコアを算出する。ただし、ｊ＝１，２，…，Ｊであり、Ｊは１以上の整数である。さらに、単語列探索部９２は、予め言語モデルを記憶部９３から読み込んでおき（ｓ９２）、この言語モデルに基づき、対立候補シンボル系列Ｓ_ｊ毎に言語スコアを算出する。さらに、音響スコアと言語スコアとを統合して、Ｊ個の対立候補シンボル系列Ｓ_ｊの中から、認識用音声データに対応する文として最も確からしい（最も音響スコアと言語スコアとを統合したスコアが高い）対立候補シンボル系列を探索し（ｓ９７）、その対立候補シンボル系列を認識結果（単語列）Ｓ＾として出力する（ｓ９８）。

＜音響モデル補正パラメータ学習装置８０＞
上記の音声認識装置９０では、音響モデルパラメータを、線形回帰を用いて補正する。つまり、音響モデル補正部９４で用いる平均補正パラメータθ＾は線形回帰パラメータである。

線形回帰パラメータを学習する方法として、線形回帰パラメータの推定を最尤基準（ＭＬＬＲ(Maximum likelihood linear regression)）で行う方法（非特許文献３）と、識別的基準の一種である最大相互情報量(Maximum Mutual Information : MMI)基準（ＭＭＩ−ＬＲ）で行う方法（非特許文献４）が知られている。最尤基準（非特許文献３）よりも識別的基準（非特許文献４）により推定された補正パラメータを用いる方が、最終的な音声認識精度が向上することが多い。

以下では、非特許文献４の音響モデル補正パラメータ学習装置８０の具体的な処理を、図３及び図４を用いて説明する。図３に音響モデル補正パラメータ学習装置８０の機能構成例、図４にその処理フロー例を示す。音響モデル補正パラメータ学習装置８０は、特徴量抽出部８１、音響モデル補正パラメータ計算部８３及び記憶部９３を備える。音響モデル補正パラメータ学習装置８０は、学習用音声データとその学習用音声データに対する正解シンボル系列Ｓ_ｒとからなる学習データを入力とし、音響モデル補正パラメータθ＾を出力する。

（特徴量抽出部８１）
特徴量抽出部８１は、学習用音声データを読み込み（ｓ８３）、音声の特徴量ベクトル系列Ｏを抽出する（ｓ８５）。特徴量抽出の具体的な処理は、上述の音声認識装置９０の特徴量抽出部９１と同じである。

（音響モデル補正パラメータ計算部８３）
音響モデル補正パラメータ計算部８３は、記憶部９３から音響モデルと言語モデルとを読み込み（ｓ８１、ｓ８２）、さらに、正解シンボル系列Ｓ_ｒを読み込み（ｓ８４）、特徴量抽出部８１で抽出した音声の特徴量Ｏを用いて、音響モデル補正パラメータθ＝（θ_１，θ_２，…，θ_Ｋ）を推定し（ｓ８６）、出力する（ｓ８７）。音響モデル補正パラメータθは、適応データ（学習用音声データの特徴量ベクトル系列Ｏ）とその特徴量ベクトル系列Ｏに対応する正解シンボル系列Ｓ_ｒとを用いて、次式のように目的関数Ｆ_θを最大化する形で推定される。

非特許文献４では、目的関数としてＭＭＩ基準を用いるので、式（４）の代わりに式（５）を使用する。

ここで、ＭＭＩ目的関数は次式のように書ける。

ここで、Ｓ_ｊは特徴量ベクトル系列Ｏを音声認識することによって得られる対立候補シンボル系列、Ｐ（Ｓ_ｒ）及びＰ（Ｓ_ｊ）は言語モデルによってそれぞれ得られる正解シンボル系列Ｓ_ｒの言語確率及び対立候補シンボル系列Ｓ_ｊの言語確率、ｐ_Λ（Ｏ｜Ｓ_ｒ）及びｐ_Λ（Ｏ｜Ｓ_ｊ）はそれぞれ正解シンボル系列Ｓ_ｒ及び対立候補シンボル系列Ｓ_ｊにおいて音響モデル（ＨＭＭ）によって得られる音響スコア、ψは音響スコアに対するスケーリングパラメータ、ηは言語確率に対するスケーリングパラメータを表す。

また、音響スコアｐ_Λ（Ｏ｜Ｓ_ｊ）は以下の式で書くことができる。

ただし、Ｔは適応データ（学習用音声データの特徴量ベクトル系列Ｏ）の特徴量ベクトル系列の長さ、ｔはフレーム番号またはそのフレームに対応する時刻（以下「フレーム時刻」ともいう）を表し、１からＴの整数である。つまり、特徴量ベクトル系列Ｏは１からＴフレーム目までのＤ次元特徴量ベクトルで表現されるデータである（式（１）参照）。また、｛ｎ_１：Ｔ｝は対立候補シンボル系列Ｓ_ｊに対応するＨＭＭ状態シーケンス（フレーム時刻１からＴまで）であり、Σ_{｛ｎ１：Ｔ｝}（ただし、下付添字｛ｎ１：Ｔ｝は｛ｎ_１：Ｔ｝を表す）は対立候補シンボル系列Ｓ_ｊに対応する可能なあらゆるＨＭＭ状態シーケンスの足し算、ｐ（ｏ_ｔ｜ｎ_ｔ）はフレーム時刻ｔにおけるＨＭＭ状態ｎ_ｔから特徴量ベクトルｏ_ｔが出力される確率（なお、ＨＭＭ状態は一般にＧＭＭで表現される）、ｐ（ｎ_ｔ｜ｎ_ｔ−１）はフレーム時刻ｔ−１におけるあるＨＭＭ状態ｎ_ｔ−１からフレーム時刻ｔにおけるあるＨＭＭ状態ｎ_ｔへの遷移確率である。

〔第一実施形態〕
［第一実施形態のポイント］
しかし、前述の通り、ＭＭＩ−ＬＲの識別基準による音響モデルの教師なし適応方法は、適応データを音声認識した結果を正解ラベルと見做して利用するので、正解ラベル（と見做された音声認識結果）に誤りが含まれることが多く、うまくモデルパラメータを最適化できず、性能が改善しないか悪化する可能性がある。

そこで、第一実施形態では、正解シンボルの誤りを考慮し、識別学習による音響モデル補正パラメータ推定を行うために、音響モデル補正パラメータを推定する基準として参考文献１及び参考文献２に記述されているｄＭＭＩ導関数基準（differenced MMI:ｄＭＭＩ）を応用する。
［参考文献１］ McDermott，E.， Watanabe， S. and Nakamura，A.， “Discriminative training based on an integrated view of MPE and MMI in margin and error space”, In Proc. ICASSP'10， 2010, pp. 4894 - 4897
［参考文献２］特願２００９−１９８３６２号公報

すなわち、ｄＭＭＩ−ＬＲを開発した。以下で数式を用いてｄＭＭＩ−ＬＲによる音響モデル補正パラメータの推定方法について述べる。

まず、以下のΨ関数を以下のように定義する。

ここでσはマージンパラメータ、ε_ｊ,ｒは正解シンボル系列Ｓ_ｒに対する対立候補シンボル系列Ｓ_ｊの相違度（例えば、単語エラー数、音素エラー数等）を表している。すなわち、マージンパラメータσは相違度ε_ｊ，ｒに応じて音響モデル補正パラメータ推定時に対立候補シンボル系列Ｓ_ｊをどれだけ重視するかをコントロールするパラメータである。マージンパラメータσは、−∞〜＋∞の値を取り得る。マージンパラメータσがマイナスの値を取れば、小さい相違度ε_ｊ，ｒを持つ対立候補シンボル系列Ｓ_ｊほど、すなわち、エラー数が少ない対立候補シンボル系列Ｓ_ｊほど重視される。逆に、マージンパラメータσがプラスの値を取れば、大きい相違度ε_ｊ，ｒを持つ対立候補シンボル系列Ｓ_ｊほど、すなわち、エラー数が多い対立候補シンボル系列Ｓ_ｊほど重視されることになる。このΨ関数を用いると、ｄＭＭＩ識別学習基準の目的関数Ｆ^ｄＭＭＩ _{θ，σ１，σ２}（ただし、下付添字σ１、σ２は、σ_１、σ_２を表す）は次式のように書くことができる。

分子の第一マージンパラメータσ_１はマイナスの値を取る（σ_１＜０）。すなわち、分子では相違度ε_ｊ，ｒが小さい対立候補シンボル系列Ｓ_ｊほど重視される。一方、分母の第二マージンパラメータσ_２はプラスの値を取る（σ_２＞０）。すなわち、分母では相違度ε_ｊ，ｒが大きい対立候補シンボル系列Ｓ_ｊほど重視される。

このｄＭＭＩ識別学習基準は、第一マージンパラメータσ_１及び第二マージンパラメータσ_２を調整することによって、ＭＰＥ（Minimum Phone Error）識別学習基準（参考文献３）またはＢＭＭＩ（boosted-MMI）識別学習基準（参考文献４）に近づく。
［参考文献３］Povey， D.， Woodland， P.C.，“Minimum Phone Error and I-smoothing for improved discriminative training”, In Proc. ICASSP， 2002, vol.1，pp.I-105-I-108
［参考文献４］Povey， D.， Kanevsky， D.，Kingsbury， B.， Ramabhadran， B.， Saon， G. and Visweswariah， K.， “Boosted MMI for model and feature-space discriminative training”, In Proc. ICASSP， 2008, pp.4057-4060，
ここでσ_２は、例えば、＋０．１という０に近い小さなプラスの値に設定しておけばよい（参考文献５）。
［参考文献５］Saon， G. and Povey， D.， “Penalty function maximization for large margin HMM training”, In Proc. Interspeech， 2008, pp.920-923
例えば、σ_１を大きなマイナスの値（理論的には−∞、実装上は、例えば、−５０）に設定する。このとき、次式に示すように、ｄＭＭＩ識別学習基準の目的関数Ｆ^ｄＭＭＩ _{θ，σ１，σ２}はＢＭＭＩ識別学習基準の目的関数Ｆ^ＢＭＭＩ _θ，σ２に近づく。

式（１０）から明らかなように、ＢＭＭＩ識別学習基準の目的関数Ｆ^ＢＭＭＩ _θ，σ２では、分母の第二マージンパラメータσ_２のみが残る。すなわちＢＭＭＩ識別学習基準による音響モデル補正パラメータ推定では、エラー数が多い（相違度ε_ｊ，ｒが大きい）対立候補シンボル系列Ｓ_ｊほど重視される（参考文献６参照）。
［参考文献６］Povey， D.， Kanevsky， D.，Kingsbury， B.， Ramabhadran， B.， Saon， G. and Visweswariah， K.， “Boosted MMI for model and feature-space discriminative training”, In Proc. ICASSP， 2008, pp.4057-4060

ＢＭＭＩの分子は直接正解シンボルの貢献が考慮されるので、正解シンボルの誤りの影響を受けやすい。一方、ｄＭＭＩの場合、σ_１をより大きい値（例えば−１０）に設定することによって、分子では認識の対立候補シンボル系列Ｓ_ｊの貢献の足し算になる。マージンexp(ψσ_１ε_ｊ，ｒ)を重みとして、正解シンボル系列Ｓ_ｒに近い対立候補シンボル系列Ｓ_ｊ（正解シンボルＳ_ｒに対する誤りが少ない）が考慮される。そのため、分子には、正解シンボル系列Ｓ_ｒだけでなく、それに近い対立候補シンボル系列Ｓ_ｊも考慮されることによって、正解シンボルの誤りの悪影響を弱めることができる。その結果、正解シンボル系列Ｓ_ｒに誤りがあっても、音響モデル補正パラメータを識別基準により安定して精度よく推定することができる。マージンパラメータσ_１の値は、分子でどのぐらいの対立候補シンボル系列Ｓ_ｊを考慮するかを決める値である。σ_１の値はタスクの認識率などに依存する。ただし、例えば−3〜−10の間の値に設定すると良い。

ここで、音響モデル補正パラメータ群の集合θは、次式のように、上記のｄＭＭＩ識別学習基準の目的関数Ｆ^ｄＭＭＩ _{θ，σ１，σ２}を最大化するように推定される。

ここでは、Ｗ_ｋの推定方法について述べる。ｄＭＭＩ識別学習基準の目的関数Ｆ^ｄＭＭＩ _{θ，σ１，σ２}を最大化するようなＷ_ｋを求めるために、まず目的関数Ｆ^ｄＭＭＩ _{θ，σ１，σ２}をＷ_ｋで微分する。ここで、対立候補シンボル系列Ｓ_ｊが単語（または音素）ラティスの形態で表現される場合、ラティス上で勾配を計算することにより、Ｆ^ｄＭＭＩ _{θ，σ１，σ２}をＷ_ｋで微分した値は以下のように表現される。

ここで、ｑ_ｔはフレーム時刻ｔにおけるラティスのアークを、ｎ_ｔはフレーム時刻ｔにおける音響モデル（例えば、ＨＭＭからなる音響モデル）の状態を、ｍは状態ｎ_ｔにおけるガウス分布のインデックスを表す（例えば、ＨＭＭの状態の出力確率分布はＧＭＭで表現されるものとする）。また、γ^ｄＭＭＩ _ｑｔ（ただし、下付添字ｑｔはｑ_ｔを表す）は単語（または音素）ラティスのアークｑ_ｔの事後確率であり、同じラティスについて、第一マージンパラメータσ_１または第二マージンパラメータσ_２を使って、二度、Forward-Backward algorithmを実行して計算される（参考文献７参照）。
［参考文献７］E. McDermott， T.J. Hazen， J.L. Roux， A. Nakamura and S. Katagiri， “Discriminative Training for Large-Vocabulary Speech Recognition Using Minimum Classification Error”, IEEE Trans. ASLP， 2007, vol. 15， no. 1, pp. 203 - 223
γ_ｎｔ，ｍ（ｔ）、Σ_ｎｔ，ｍ及びμ_ｎｔ，ｍ（ただし、それぞれ下付添字ｎｔはｎ_ｔを表す）は、それぞれ状態ｎ_ｔのガウス分布ｍの事後確率、共分散行列及び平均ベクトルである。これらの値の求め方は、例えば、参考文献８に詳述されている。
［参考文献８］V. Valtchev，J.J. Odell， P.C. Woodland， and S.J. Young， “Lattice-based discriminative training for large vocabulary speech recognition”, In Proc. ICSLP，1996， vol. 2， pp.605-609

例えばＲ−Ｐｒｏｐ（参考文献９）のような勾配法を用いる場合は、微分値（∂Ｆ^ｄＭＭＩ _{θ，σ１，σ２}／∂Ｗ_ｋ）が０に近づくようにＷ_ｋを更新すればよい。または例えば、Extended-Baum Welchのようなアルゴリズム（参考文献３）を用いて、Ｗ_ｋを更新することもできる。このように、上記の式が得られれば、平均補正パラメータＷ_ｋは容易に推定することが可能である。
［参考文献９］Riedmiller，M. and Braun， H.， “A direct adaptive method for faster backpropagation learning: The RPROP algorithm”， InProc. ICNN’93， 1993, pp. 586-591

＜音響モデル補正パラメータ学習装置１００＞
以上の原理に基づく、第一実施形態の音響モデル補正パラメータ学習装置１００の構成について説明する。装置構成図を図５に、処理フローを図６に示す。

音響モデル補正パラメータ学習装置１００は、特徴量抽出部１１０、音響モデル補正部１２０、エラーカウント計算部１３０、補正パラメータ微分値計算部１４０、補正パラメータ更新部１５０、収束判定部１６０、音響モデル記憶部１７０及び言語モデル記憶部１８０を含む。

音響モデル補正パラメータ学習装置１００は、学習用音声データ（以下「適応用音声データ」ともいう）とその正解シンボル系列Ｓ_ｒと音響モデル補正パラメータの初期値θ^０とを受け取り、音響モデル補正パラメータを更新し、最適な音響モデル補正パラメータを求め、出力する。なお、本実施形態では、音響モデル補正パラメータは、平均補正パラメータのみからなり、クラスタ毎に求められるものとしているが、他の音響モデル補正パラメータを含んでもよいし、また、クラスタ毎に求めなくともよい。

（特徴量抽出部１１０）
特徴量抽出部１１０は、学習用音声データを読み込み（ｓ１０３）、その特徴量ベクトル系列Ｏを抽出し（ｓ１０５）、音響モデル補正部１２０に出力する。特徴量抽出の具体的な処理は、既存の技術を用いることができる。例えば、上述の音声認識装置９０の特徴量抽出部９１と同じ方法により特徴量を抽出すればよい。

（音響モデル記憶部１７０及び言語モデル記憶部１８０）
音響モデル記憶部１７０及び言語モデル記憶部１８０には、それぞれ予め求められた音響モデル及び言語モデルが記憶される。音響モデル及び言語モデルとしては、既存のモデルを用いればよい。例えば、記憶部９３において説明した音響モデルと言語モデルを用いることができる。

（音響モデル補正部１２０）
音響モデル補正部１２０は、補正前の音響モデルΛを音響モデル記憶部１７０から読み込み（ｓ１０１）、音響モデル補正パラメータの初期値θ^０または更新された音響モデル補正パラメータθ^ｉ−１（ただし、ｉは、繰り返し回数を表すインデックスを示す）を受け取り、式（３）により音響モデルの平均ベクトルを補正し（ｓ１０６）、補正後の音響モデルΛ＾を、エラーカウント計算部１３０に出力する。

ただし、θ^０＝｛θ₁ ^０，θ₂ ^０，…，θ_K ^０｝であり、θ_ｋ ^０＝｛W_ｋ ^０｝である。同様に、θ^ｉ−１＝｛θ₁ ^ｉ−１，θ₂ ^ｉ−１，…，θ_K ^ｉ−１｝であり、θ_ｋ ^ｉ−１＝｛W_ｋ ^ｉ−１｝である。初期値W_ｋ ^０を構成するA_k ⁰、b_k ⁰としては、例えば、それぞれ単位行列、ゼロベクトル（全ての要素が０のベクトル）等が考えられる。

（エラーカウント計算部１３０）
エラーカウント計算部１３０は、言語モデル記憶部１８０から言語モデルを読み込み（ｓ１０２）、この言語モデルと、音響モデル補正部１２０から受け取った補正後の音響モデルΛ＾とを用いて、特徴量抽出部１１０から受け取った特徴量ベクトル系列Ｏを音声認識することによって得られるJ個の対立候補シンボル系列Ｓ_ｊを求める。さらに、エラーカウント計算部１３０は、入力された正解シンボル系列Ｓ_ｒを読み込み（ｓ１０４）、予め定めた粒度で、対立候補シンボル系列Ｓ_ｊ毎に、正解シンボル系列Ｓ_ｒとの相違度ε_ｊ，ｒを求め（ｓ１０７）、補正パラメータ微分値計算部１４０に出力する。特に、予め定めた粒度を音素以下の粒度とすれば、相互情報量最大化の枠組みで粒度の細かい相違度を用いることが可能となる。例えば、予め定めた粒度（音素や単語等）で読み込んだ正解シンボル系列Ｓ_ｒと求めた対立候補シンボル系列Ｓ_ｊとの異なる部分をカウントし、カウント値を相違度ε_ｊ，ｒとして求める。

（補正パラメータ微分値計算部１４０）
補正パラメータ微分値計算部１４０は、言語モデル記憶部１８０から言語モデルを読み込み（ｓ１０２）、入力された正解シンボル系列Ｓ_ｒを読み込み（ｓ１０４）、補正後の音響モデルΛ＾を受け取り、エラーカウント計算部１３０から受け取った対立候補シンボル系列Ｓ_ｊと相違度ε_ｊ，ｒとを用いて、式（９）で表される目的関数Ｆ^ｄＭＭＩ _{θ，σ１，σ２}を求める。

ただし、第一マージンパラメータσ_１の調整は、学習用音声データの特徴と認識用音声データの特徴との不一致の度合いを考慮して人手により行われるものとする。第二マージンパラメータσ_２は、例えば、＋０．１という０に近い小さなプラスの値とする。

さらに、補正パラメータ微分値計算部１４０は、目的関数Ｆ^ｄＭＭＩ _{θ，σ１，σ２}を音響モデル補正パラメータＷ_ｋ＝［Ａ_ｋｂ_ｋ］で微分する（式（１２）、ｓ１０８）。

算出した微分値（∂Ｆ^ｄＭＭＩ _{θ，σ１，σ２}／∂Ｗ_ｋ）を補正パラメータ更新部１５０に出力する。

（補正パラメータ更新部１５０）
補正パラメータ更新部１５０は、微分値（∂Ｆ^ｄＭＭＩ _{θ，σ１，σ２}／∂Ｗ_ｋ）に応じて平均補正パラメータＷ_ｋを変更することで、平均補正パラメータを更新する。つまり、式（９）の目的関数Ｆ^ｄＭＭＩ _{θ，σ１，σ２}を最大化するように、式（１１）に従い、Ｗ_ｋ、すなわちＡ_ｋおよびｂ_ｋを同時に更新する（ｓ１０９）。

例えばＲ−Ｐｒｏｐ（参考文献９）のような勾配法を用いる場合は、微分値（∂Ｆ^ｄＭＭＩ _{θ，σ１，σ２}／∂Ｗ_ｋ）が０に近づくようにＷ_ｋを更新すればよい。または例えば、Extended-Baum Welchのようなアルゴリズム（参考文献３）を用いて、Ｗ_ｋを更新することもできる。更新後の音響モデル補正パラメータθ＾＝（Ｗ_１，…，Ｗ_ｋ，…，Ｗ_Ｋ）を収束判定部１６０に出力する。

（収束判定部１６０）
収束判定部１６０は、音響モデル補正パラメータθ＾を受け取り、音響モデル補正パラメータの推定が収束したか否かを判定し（ｓ１１０）、収束していると判定した場合には、収束時の音響モデル補正パラメータθ＾を、音響モデル補正パラメータ推定装置の出力値として、出力する（ｓ１１１）。収束していないと判定した場合には、音響モデル補正パラメータθ＾を音響モデル補正部１２０に出力し、音響モデル補正部１２０、エラーカウント計算部１３０、補正パラメータ微分値計算部１４０、補正パラメータ更新部１５０、収束判定部１６０の処理を繰り返すように制御信号を出力する。収束判定部１６０は、例えば、（１）一つ前に求めた音響モデル補正パラメータと今回求めた音響モデル補正パラメータとの差分が閾値以下になった場合や（２）繰り返し回数が所定の回数以上になった場合に、収束していると判定する。

＜シミュレーション結果＞
以下の表は効果の例として、大語彙連続音声認識タスクで、話者に対する教師なし音響モデル適応の実験結果を表す。このように、本発明は従来の音響モデル適応（ＭＬＬＲ、ＭＭＩ−ＬＲ）よりも性能を改善することがわかる。

＜効果＞
このような構成により、正解シンボルの誤りの悪影響を弱めることができ、従来技術（ＭＬＬＲやＭＭＩ−ＬＲの識別基準に基づく音響モデル適応）よりも適切に音響モデルパラメータに対する補正パラメータを求めることができる。さらに、このようにして求めた音響モデル補正パラメータを用いて、補正した音響モデルを用いて音声認識を行うことで、従来技術に比べ、音声認識精度を改善できる。

＜変形例＞
第一実施形態では、音響モデル補正パラメータは平均補正パラメータのみを含むが、混合ガウス分布モデルに含まれるガウス分布の分散パラメータΣ_ｍを補正する分散補正パラメータも含む構成としてもよい。

この場合、以下の式（１３）や（１４）により分散パラメータΣ_ｍを補正することで、ｄＭＭＩ基準による推定をすることができる。

もしくは、

ここで、Ｄ_ｋは分散補正パラメータである。

平均補正パラメータW_ｋ=[Ａ_ｋ、ｂ_ｋ]と分散補正パラメータＤ_ｋの同時推定は以下のように行うことができる。

ただし、θ^b＝（Ｗ_１, D_１，…，Ｗ_ｋ，D_k，…，Ｗ_K，D_K）である。式（１５）は平均と共分散パラメータの同時推定を示しているが、共分散だけ推定することも可能である。

ｄＭＭＩ識別学習基準の目的関数Ｆ^ｄＭＭＩ _{θb，σ１，σ２}(ただし、下付添字θｂは、θ^ｂを表す。)を最大化するようなＤ_ｋを求めるために、まず目的関数Ｆ^ｄＭＭＩ _{θb，σ１，σ２}をＤ_ｋで微分する。目的関数Ｆ^ｄＭＭＩ _{θb，σ１，σ２}をＤ_ｋで微分した値は、分散補正パラメータが式（１３）により補正される場合、以下のように表現される。

また、式（１５）は、分散補正パラメータが式（１４）により補正される場合、以下のように表現される。

また、平均ベクトルの変換行列Ａ_ｋと分散パラメータの変換行列（式（１３）のD_k）が同じになるように制約を加えてもよい。その場合は、平均ベクトルと分散パラメータの補正は式（１８）のように行い、音響モデル補正パラメータの推定は式（１９）で行う。

なお、A_k ^cは平均ベクトル及び分散パラメータに対する変換行列、b_k ^cは平均ベクトルに対するバイアスベクトルである。

ただし、θ^c=(A^c _1,b^c ₁,…,A^c _k,b^c _k,…,A^c _K,b^c _K）である。

変形例に係る音響モデル補正パラメータ学習装置１００の構成について、第一実施形態と異なる部分を中心に説明する。

（音響モデル補正部１２０）
音響モデル補正部１２０は、式（３）により、平均ベクトルを補正し、さらに、式（１３）または（１４）により分散パラメータΣ_ｍを補正する（ｓ１０６）。なお、音響モデル適応技術を搭載した音声認識装置９０の音響モデル補正部９４においても対応する式（式（１３）または式（１４））により、分散パラメータΣ_ｍを補正する。

（エラーカウント計算部１３０）
エラーカウント計算部１３０は、補正した平均ベクトルと補正した共分散行列とを含む音響モデルと言語モデルとに基づき、学習用音声データの特徴量を音声認識することによって得られる対立候補シンボル系列ごとに、予め定めた粒度で、正解シンボル系列との相違度を求める（ｓ１０７）。

（補正パラメータ微分値計算部１４０）
補正パラメータ微分値計算部１４０は、式（１５）の右辺で用いられている目的関数Ｆ^ｄＭＭＩ _{θｂ，σ１，σ２}を求める。さらに、補正パラメータ微分値計算部１４０は、目的関数Ｆ^ｄＭＭＩ _{θｂ，σ１，σ２}を音響モデル補正パラメータＷ_ｋ、Ｄ_ｋでそれぞれ微分する（式（１２）、（１６）または（１７）ｓ１０８）。

（補正パラメータ更新部１５０）
補正パラメータ更新部１５０は、平均補正パラメータＷ_ｋに対する微分値∂Ｆ^ｄＭＭＩ _{θｂ，σ１，σ２}／∂Ｗ_ｋに応じて平均補正パラメータＷ_ｋを変更することで、平均補正パラメータを更新し、さらに、分散補正パラメータＤ_ｋに対する微分値∂Ｆ^ｄＭＭＩ _{θｂ，σ１，σ２}／∂Ｄ_ｋに応じて分散補正パラメータＤ_ｋを変更することで、分散補正パラメータＤ_ｋを更新する（ｓ１０９）。

（収束判定部１６０）
収束判定部１６０は、平均補正パラメータ及び分散補正パラメータの更新が予め定めた条件を満たすか否かを判定し（ｓ１１０）、満たす場合には、更新後の平均補正パラメータ及び分散補正パラメータをそれぞれ求める平均補正パラメータ及び分散補正パラメータとして出力し（ｓ１１１）、条件を満たさない場合には、音響モデル補正部１２０、エラーカウント計算部１３０、補正パラメータ微分値計算部１４０及び補正パラメータ更新部１５０の処理を繰り返す。

このような構成により、適切に、平均補正パラメータに加え分散補正パラメータを求めることができる。

＜その他の変形例＞
音響補正パラメータをクラスタ毎に求めなくともよい。その場合、式（２）で平均ベクトルを補正し、式（１３ａ）または式（１４ａ）で分散パラメータを補正する。

また、本実施形態では、音響モデル補正パラメータ学習装置１００は、特徴量抽出部１１０を含むが、学習用音声データに対する特徴量を入力される場合には、特徴量抽出部１１０を含まなくともよい。

図示しない記憶部に予め目的関数Ｆ^ｄＭＭＩ _{θｂ，σ１，σ２}を音響モデル補正パラメータで微分したもの（例えば式（１２）、（１６）、（１７）で表される）を計算式として記憶しておいてもよい。この場合、実際の微分値は以下のようにして求める。補正パラメータ微分値計算部１４０は、計算式を記憶部から読み込み、さらに、言語モデル記憶部１８０から言語モデルを読み込み、正解シンボル系列Ｓ_ｒを読み込み、補正後の音響モデルΛ＾と対立候補シンボル系列Ｓ_ｊと相違度ε_ｊ，ｒとを受け取り、計算式に代入し、微分値（∂Ｆ^ｄＭＭＩ _{θｂ，σ１，σ２}／∂Ｗ_ｋ）や（∂Ｆ^ｄＭＭＩ _{θｂ，σ１，σ２}／∂Ｄ_ｋ）を算出し（ｓ１０８）、補正パラメータ更新部１０９に出力する。

〔第二実施形態〕
式（３）の音響モデルパラメータの補正は式（２０）のように、特徴量の補正と等しくなることを示すことができる。

Ａ_ｋ ^ｆは特徴量に対する変換行列、ｂ_ｋ ^ｆは特徴量に対するバイアスベクトルである。Ｗ_ｋ ^ｆ：＝［Ａ_ｋ ^ｆｂ_ｋ ^ｆ］である。
目的関数Ｆ^ｄＭＭＩ _{θ，σ１，σ２}を特徴量補正パラメータＷ_ｋ ^ｆで微分すると、次式のようになる。

第一実施形態では、音響モデルを補正することで話者適応を行う構成を前提とし、音響モデル補正パラメータを推定する構成を説明したが、式（２０）を用いると、本発明は特徴量の補正パラメータ（以下「特徴量補正パラメータ」ともいう）の推定にも応用することができる。

まず、補正した特徴量に基づき音声認識を行う音声認識装置７０について説明する。

＜音声認識装置７０＞
図７に音声認識装置７０の機能構成例、図８にその処理フロー例を示す。音声認識装置７０は、特徴量抽出部９１、特徴量補正部７１、単語列探索部７２、記録部７４から構成される。

予め音響モデル及び言語モデルを記録部７４に記録している。さらに、予め特徴量補正パラメータＷ^ｆを記録部７４に記録している。Ｗ^ｆ＝（Ｗ_１ ^ｆ，Ｗ_２ ^ｆ，…，Ｗ_Ｋ ^ｆ）とし、Ｗ_ｋ ^ｆ＝｛Ａ_ｋ ^ｆｂ_ｋ ^ｆ｝とする。なお、本実施形態では、Ｗ^ｆ＝θ、Ｗ_ｋ＝θ_ｋ ^ｆとする。

特徴量補正部７１は特徴量補正パラメータＷ^ｆを読み込む（ｓ７１）。特徴量抽出部９１で抽出した特徴量ベクトル系列Ｏを、単語列探索部７２に送る前に、特徴量補正部７１において、予め求めておいた特徴量補正パラメータＷ^ｆを用いて式（２０）により、補正する（ｓ７２）。

単語列探索部７２は、音響モデルと言語モデルを読み込む（ｓ７１、ｓ７２）。単語列探索部７２は、まず、音響モデルに基づき、特徴量補正部７１で補正された特徴量ベクトル系列Ｏ＾に対するＪ個の対立候補シンボル系列Ｓ_ｊを生成して、対立候補シンボル系列Ｓ_ｊ毎に音響スコアを算出する。次に、言語モデルに基づき、対立候補シンボル系列Ｓ_ｊ毎に言語スコアを算出する。さらに、音響スコアと言語スコアとを統合して、Ｊ個の対立候補シンボル系列Ｓ_ｊの中から、認識用音声データに対応する文として最も確からしい（最も音響スコアと言語スコアとを統合したスコアが高い）対立候補シンボル系列を探索し（ｓ７５）、その対立候補シンボル系列を認識結果（単語列）Ｓ＾として出力する（ｓ７６）。

この特徴量ベクトル系列Ｏの補正は、最終的な音声認識精度を向上させることを目的として行われる。すなわち特徴量補正技術のポイントは、最終的な音声認識精度を向上させるための特徴量補正パラメータＷ^ｆをいかに推定するか、という点にある。

本実施形態では、特徴量補正パラメータＷ^ｆを以下のように推定する。第一実施形態と異なる部分を中心に説明する。

＜特徴量補正パラメータ推定装置２００＞
特徴量補正パラメータ推定装置２００の構成を図９に、処理フローを図１０に示す。第一実施形態とは異なる処理についてのみ説明する。特徴量補正パラメータ推定装置２００は、特徴量抽出部１１０、音響モデル補正部２２０、エラーカウント計算部２３０、補正パラメータ微分値計算部２４０、補正パラメータ更新部２５０、収束判定部２６０、音響モデル記憶部１７０及び言語モデル記憶部１８０を含む。

（特徴量補正部２２０）
特徴量補正部２２０は、特徴量補正パラメータの初期値Ｗ^ｆ０または更新された特徴量補正パラメータＷ^{ｆ（ｉ−１）}と、補正前の特徴量ベクトル系列Ｏとを受け取り、式（２０）に基づき特徴量ベクトル系列Ｏを補正し（ｓ２０６）、補正後の特徴量ベクトル系列Ｏ＾をエラーカウント計算部２３０に出力する。

ただし、Ｗ^ｆ０＝｛Ｗ₁ ^ｆ０，Ｗ_２ ^ｆ０，…，Ｗ_Ｋ ^ｆ０｝であり、Ｗ_ｋ ^ｆ０＝｛Ａ_ｋ ^ｆ０ｂ_ｋ ^ｆ０｝である。初期値Ａ_ｋ ^ｆ０，ｂ_ｋ ^ｆ０としては、例えば、それぞれ単位行列、ゼロベクトル（全ての要素が０のベクトル）等が考えられる。同様に、Ｗ^{ｆ（ｉ−１）}＝｛Ｗ_１ ^{ｆ（ｉ−１）}，Ｗ_２ ^{ｆ（ｉ−１）}，…，Ｗ_Ｋ ^{ｆ（ｉ−１）}｝であり、Ｗ_ｋ ^{ｆ（ｉ−１）}＝｛Ａ_ｋ ^{ｆ（ｉ−１）} ｂ_ｋ ^{ｆ（ｉ−１）}｝である。また、本実施形態では、特徴量補正パラメータをθとも記載する。

（エラーカウント計算部２３０）
エラーカウント計算部２３０は、補正前の特徴量ベクトル系列Ｏの代わりに補正後の特徴量ベクトル系列Ｏ＾を用いる点を除いては、第一実施形態と同じである（ｓ１０２、ｓ１０４、ｓ２０７）。

（補正パラメータ微分値計算部２４０）
補正パラメータ微分値計算部２４０は、補正前の特徴量ベクトル系列Ｏの代わりに補正後の特徴量ベクトル系列Ｏ＾を用い、補正後の音響モデルΛ＾の代わりに音響モデルΛを用い、目的関数Ｆ^ｄＭＭＩ _{θ，σ１，σ２}を微分する際に音響モデル補正パラメータＷ_ｋの代わりに特徴量補正パラメータＷ_ｋ ^ｆを用いる。

よって、補正パラメータ微分値計算部２４０は、音響モデル記憶部１７０及び言語モデル記憶部１８０からそれぞれ音響モデル及び言語モデルを読み込み（ｓ１０１、ｓ１０２）、入力された正解シンボル系列Ｓ_ｒを読み込み（ｓ１０４）、エラーカウント計算部１３０から受け取った対立候補シンボル系列Ｓ_ｊと相違度ε_ｊ，ｒとを用いて、次式で表される目的関数Ｆ^ｄＭＭＩ _{θ，σ１，σ２}を求める。

ただし、第一マージンパラメータσ_１の調整は、学習用音声データの特徴と認識用音声データの特徴との不一致の度合いを考慮して人手により行われるものとする。第二マージンパラメータσ_２は、例えば、＋０．１という０に近い小さなプラスの値とする。さらに、補正パラメータ微分値計算部２４０は、目的関数Ｆ^ｄＭＭＩ _{θ，σ１，σ２}を特徴量補正パラメータＷ_ｋ ^ｆ＝［Ａ_ｋ ^ｆｂ_ｋ ^ｆ］で微分する（式（２１）、ｓ２０８）。

算出した微分値（∂Ｆ^ｄＭＭＩ _{θ，σ１，σ２}／∂Ｗ_ｋ ^ｆ）を補正パラメータ更新部２５０に出力する。

（補正パラメータ更新部２５０）
補正パラメータ更新部２５０は、微分値（∂Ｆ^ｄＭＭＩ _{θ，σ１，σ２}／∂Ｗ_ｋ ^ｆ）を受け取り、微分値（∂Ｆ^ｄＭＭＩ _{θ，σ１，σ２}／∂Ｗ_ｋ ^ｆ）に応じてＷ_ｋ ^ｆ、すなわちＡ_ｋ ^ｆおよびｂ_ｋ ^ｆを同時に更新する（ｓ２０９）。更新後の特徴量補正パラメータＷ＾_ｋ ^ｆを収束判定部１６０に出力する。

（収束判定部２６０）
収束判定部２６０は、音響モデル補正パラメータの代わりに特徴量補正パラメータＷ＾_ｋ ^ｆを用いる点を除いては、第一実施形態と同じである（ｓ２１０、ｓ２１１）。

＜効果＞
このような構成により、正解シンボルの誤りの悪影響を弱めることができ、従来技術よりも適切に特徴量に対する補正パラメータを求めることができる。さらに、このようにして求めた特徴量補正パラメータを用いて、認識用音声データの特徴量を補正し、補正した特徴量に基づき音声認識を行うことで、従来技術に比べ、音声認識精度を改善できる。また、特徴量補正の場合は音響モデルパラメータを更新する必要がないという利点もある。

＜その他の変形例＞
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

音響モデルには混合ガウス分布モデルが含まれるものとし、音響モデルパラメータには前記混合ガウス分布モデルに含まれるガウス分布の平均ベクトルが含まれるものとし、学習用音声データの特徴量及び前記学習用音声データに対する正解シンボル系列から、前記平均ベクトルを補正するための平均補正パラメータを求める音響モデル補正パラメータ推定装置であって、
予め求められた前記音響モデル及び言語モデルが記憶される記憶部と、
前記記憶部に記憶された音響モデルの平均ベクトルを、平均補正パラメータを用いて補正する音響モデル補正部と、
補正した前記平均ベクトルを含む音響モデルと前記言語モデルとに基づき、前記学習用音声データの前記特徴量を音声認識することによって得られる対立候補シンボル系列ごとに、予め定めた粒度で、前記正解シンボル系列との相違度を求めるエラーカウント計算部と、
前記言語モデルによって得られる前記対立候補シンボル系列の言語確率、前記学習用音声データの前記特徴量と前記対立候補シンボル系列に基づき前記音響モデルによって得られる音響スコア及び前記相違度に基づき、前記平均補正パラメータで識別学習基準の目的関数を微分したときの微分値を求める補正パラメータ微分値計算部と、
前記微分値に応じて前記平均補正パラメータを変更することで、前記平均補正パラメータを更新する補正パラメータ更新部と、を含む、
音響モデル補正パラメータ推定装置。
請求項１記載の音響モデル補正パラメータ推定装置であって、
前記音響モデルパラメータには、さらに、前記混合ガウス分布モデルに含まれるガウス分布の共分散行列が含まれるものとし、
前記音響モデル補正部は、さらに、前記混合ガウス分布モデルに含まれるガウス分布の共分散行列を、分散補正パラメータを用いて補正し、
前記エラーカウント計算部は、補正した前記平均ベクトルと補正した前記共分散行列とを含む音響モデルと前記言語モデルとに基づき、前記学習用音声データの前記特徴量を音声認識することによって得られる対立候補シンボル系列ごとに、予め定めた粒度で、前記正解シンボル系列との相違度を求め、
前記補正パラメータ微分値計算部は、さらに、前記言語モデルによって得られる前記対立候補シンボル系列の言語確率、前記学習用音声データの前記特徴量と前記対立候補シンボル系列に基づき前記音響モデルによって得られる音響スコア及び前記相違度に基づき、前記分散補正パラメータで識別学習基準の目的関数を微分したときの微分値を求め、
補正パラメータ更新部は、さらに、前記分散補正パラメータに対する前記微分値に応じて前記分散補正パラメータを変更することで、前記分散補正パラメータを更新する、
音響モデル補正パラメータ推定装置。
学習用音声データの特徴量及び前記学習用音声データに対する正解シンボル系列から、認識用音声データの特徴量を補正するための特徴量補正パラメータを求める特徴量補正パラメータ推定装置であって、
予め求められた音響モデル及び言語モデルが記憶される記憶部と、
前記学習用音声データの前記特徴量ｏ_ｔを特徴量補正パラメータにより補正した補正後の特徴量ｏ＾_ｔを求める特徴量補正部と、
予め定めた粒度で、前記補正後の特徴量ｏ＾_ｔを音声認識することによって得られる対立候補シンボル系列ごとに、前記正解シンボル系列との相違度を求めるエラーカウント計算部と、
前記言語モデルによって得られる前記対立候補シンボル系列の言語確率、前記補正後の特徴量ｏ＾_ｔと前記対立候補シンボル系列に基づき前記音響モデルによって得られる音響スコア及び前記相違度に基づき、前記特徴量補正パラメータで識別学習基準の目的関数を微分したときの微分値を求める補正パラメータ微分値計算部と、
前記微分値に応じて前記特徴量補正パラメータを変更することで、前記特徴量補正パラメータを更新する補正パラメータ更新部と、を含む、
特徴量補正パラメータ推定装置。
音響モデルには混合ガウス分布モデルが含まれるものとし、音響モデルパラメータには前記混合ガウス分布モデルに含まれるガウス分布の平均ベクトルが含まれるものとし、学習用音声データの特徴量及び前記学習用音声データに対する正解シンボル系列から、前記平均ベクトルを補正するための平均補正パラメータを求める音響モデル補正パラメータ推定方法であって、
記憶部には予め求められた前記音響モデル及び言語モデルが記憶され、
前記記憶部に記憶された音響モデルの平均ベクトルを、平均補正パラメータを用いて補正する音響モデル補正ステップと、
補正した前記平均ベクトルを含む音響モデルと前記言語モデルとに基づき、前記学習用音声データの前記特徴量を音声認識することによって得られる対立候補シンボル系列ごとに、予め定めた粒度で、前記正解シンボル系列との相違度を求めるエラーカウント計算ステップと、
前記言語モデルによって得られる前記対立候補シンボル系列の言語確率、前記学習用音声データの前記特徴量と前記対立候補シンボル系列に基づき前記音響モデルによって得られる音響スコア及び前記相違度に基づき、前記平均補正パラメータで識別学習基準の目的関数を微分したときの微分値を求める補正パラメータ微分値計算ステップと、
前記微分値に応じて前記平均補正パラメータを変更することで、前記平均補正パラメータを更新する補正パラメータ更新ステップと、を含む、
音響モデル補正パラメータ推定方法。
請求項４記載の音響モデル補正パラメータ推定方法であって、
前記音響モデルパラメータには、さらに、前記混合ガウス分布モデルに含まれるガウス分布の共分散行列が含まれるものとし、
前記音響モデル補正ステップにおいて、さらに、前記混合ガウス分布モデルに含まれるガウス分布の共分散行列を、分散補正パラメータを用いて補正し、
前記エラーカウント計算ステップにおいて、補正した前記平均ベクトルと補正した前記共分散行列とを含む音響モデルと前記言語モデルとに基づき、前記学習用音声データの前記特徴量を音声認識することによって得られる対立候補シンボル系列ごとに、予め定めた粒度で、前記正解シンボル系列との相違度を求め、
前記補正パラメータ微分値計算ステップにおいて、さらに、前記言語モデルによって得られる前記対立候補シンボル系列の言語確率、前記学習用音声データの前記特徴量と前記対立候補シンボル系列に基づき前記音響モデルによって得られる音響スコア及び前記相違度に基づき、前記分散補正パラメータで識別学習基準の目的関数を微分したときの微分値を求め、
補正パラメータ更新ステップにおいて、さらに、前記分散補正パラメータに対する前記微分値に応じて前記分散補正パラメータを変更することで、前記分散補正パラメータを更新する、
音響モデル補正パラメータ推定方法。
学習用音声データの特徴量及び前記学習用音声データに対する正解シンボル系列から、認識用音声データの特徴量を補正するための特徴量補正パラメータを求める特徴量補正パラメータ推定方法であって、
記憶部には予め求められた前記音響モデル及び言語モデルが記憶され、
前記学習用音声データの前記特徴量ｏ_ｔを特徴量補正パラメータにより補正した補正後の特徴量ｏ＾_ｔを求める特徴量補正ステップと、
予め定めた粒度で、前記補正後の特徴量ｏ＾_ｔを音声認識することによって得られる対立候補シンボル系列ごとに、前記正解シンボル系列との相違度を求めるエラーカウント計算ステップと、
前記言語モデルによって得られる前記対立候補シンボル系列の言語確率、前記補正後の特徴量ｏ＾_ｔと前記対立候補シンボル系列に基づき前記音響モデルによって得られる音響スコア及び前記相違度に基づき、前記特徴量補正パラメータで識別学習基準の目的関数を微分したときの微分値を求める補正パラメータ微分値計算ステップと、
前記微分値に応じて前記特徴量補正パラメータを変更することで、前記特徴量補正パラメータを更新する補正パラメータ更新ステップと、を含む、
特徴量補正パラメータ推定方法。
請求項１もしくは請求項２記載の音響モデル補正パラメータ推定装置、または、請求項３記載の特徴量補正パラメータ推定装置として、コンピュータを機能させるためのプログラム。