JP5885686B2

JP5885686B2 - 音響モデル適応化装置、音響モデル適応化方法、プログラム

Info

Publication number: JP5885686B2
Application number: JP2013032989A
Authority: JP
Inventors: 拓也吉岡; 中谷　智広; 智広中谷
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2013-02-22
Filing date: 2013-02-22
Publication date: 2016-03-15
Anticipated expiration: 2033-02-22
Also published as: JP2014164023A

Description

本発明は、音響モデルを雑音環境に適応させる音響モデル適応化装置、音響モデル適応化方法、プログラムに関する。

本明細書では、単に雑音と記述する場合、収録環境に存在する目的外の音や残響、あるいは通信路やマイクロホンの特性等、音声を劣化させる外部要因を総称するものとする。以下、図１を参照して従来の音響モデル適応化技術について、音声認識への応用を例として説明する。図１は従来の音声認識装置７の構成を示すブロック図である。図１に示すように、従来の音声認識装置７は、特徴量抽出部７１と、デコード部７２と、音響モデル記憶部７３と、言語モデル記憶部７４と、発音辞書記憶部７５とを備える。特徴量抽出部７１は、マイクロホン等によって観測された音声信号を特徴量ベクトルの時系列に変換する。特徴量ベクトルは、典型的にはメル周波数ケプストラム係数（Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔ：ＭＦＣＣ）とその動的パラメータから成る数十次元のベクトルであり、数十ミリ秒程度の短時間フレーム毎に計算される。デコード部７２は、Ｖｉｔｅｒｂｉアルゴリズム等を用いて特徴量ベクトルの時系列を音響モデル記憶部７３に記憶された音響モデル、言語モデル記憶部７４に記憶された言語モデル、および発音辞書記憶部７５に記憶された発音辞書と照合することで、観測された音声信号が表すテキスト、すなわち単語の系列を出力する。音響モデルは、言語の各構成単位（例えば、単語や音素）に対応する特徴量ベクトル、またはその時系列の確率分布を表し、例えば混合正規分布（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ：ＧＭＭ）や隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ：ＨＭＭ）、セグメントモデルによってモデル化される。音響モデルは、音声信号から抽出された特徴量ベクトルの時系列とその音声信号に対応するテキストを用いて事前に学習される。学習に用いる音声信号は、例えば、多数の話者にテキストを読み上げさせ、その音声信号を収録することで収集される。多くの場合、収録はクリーンな（雑音のない、もしくは雑音の少ない）環境で行われる。クリーンな環境で収録された音声信号から学習された音響モデルを、クリーン音響モデルと呼ぶ。

上述した音声認識装置７のような基本的な構成要素しか備えない音声認識装置では、認識対象の音声信号が雑音の存在する環境で収録された場合に、音声認識精度は著しく劣化する。これは、クリーン音響モデルが雑音環境における特徴量ベクトル、またはその時系列の確率分布を適切に表さないためである。雑音環境において高い音声認識精度を維持するためには、音響モデルの学習環境と使用環境の不一致を解消する必要がある。

＜音響モデル適応化装置＞
音響モデル適応化装置は、クリーン音響モデルを雑音環境に適応させることで学習環境と使用環境の不一致を解消、または低減する。図２を参照して従来の音響モデル適応化装置８について説明する。図２は従来の音響モデル適応化装置８の構成を示すブロック図である。音響モデル適応化装置８には、下記２種類のデータが入力される。

＜雑音によって劣化した音声信号から抽出された特徴量ベクトルの時系列＞
以後、雑音によって劣化した音声信号を劣化音声信号と呼びｙ（τ）と表す。また、劣化音声信号の特徴量ベクトルを劣化特徴量ベクトルと呼びｙ_ｔと表す。ただし、τは離散化された信号のインデクス、ｔは短時間フレームのインデクスである。さらに、観測された短時間フレームの個数をＴで表し、劣化特徴量ベクトルの時系列を（ｙ_ｔ）_{１≦ｔ≦Ｔ}と書く。このように、本明細書ではｘ_１，・・・，ｘ_ｎがなす列を（ｘ_ｉ）_{１≦ｉ≦ｎ}と書く。

＜クリーン音響モデルのパラメータ＞
本明細書では、一例として、音響モデルが次式のようにＧＭＭでモデル化される場合について説明する。後述するように、本発明は正規分布の平均ベクトルと共分散行列だけを修正するため、ＨＭＭ等正規分布に基づく音響モデルを用いる場合にも同様のアルゴリズムが適用できる。

ただし、ｘ_ｔはクリーンな環境で収録された音声信号の特徴量ベクトルであるクリーン特徴量ベクトル、ＫはＧＭＭの混合数、ｆ_ｎｏｒｍ（・）は正規分布の確率密度関数を表す。π_ｋ，μ^Ｘ _ｋ，Σ^Ｘ _ｋは、ｋ番目の要素分布のそれぞれ重み、平均ベクトル、共分散行列を表し、ＧＭＭのパラメータを構成する。なお、前述した通り、これらパラメータは学習データを用いて事前に決められる。音響モデル適応化装置８は、後述する構成に基づいて、まず、加法性雑音の特徴量ベクトルの確率分布ｐ_Ｎ（・）と乗法性雑音の特徴量ベクトルμ^Ｈからなる雑音モデルのパラメータを推定する。加法性雑音の特徴量ベクトルの確率分布は、次式のように単一正規分布で表されると仮定される。

ただし、ｎ_ｔは加法性雑音の特徴量ベクトル、μ^ＮとΣ^Ｎはそれぞれ平均ベクトルと共分散行列を表す。これらとμ^Ｈをまとめて雑音モデルのパラメータと呼ぶ。その後、クリーン音響モデルと雑音モデルを合成することで、雑音環境に適応化された音響モデルのパラメータ（π_ｋ，μ^Ｙ _ｋ，Σ^Ｙ _ｋ）_{１≦ｋ≦Ｋ}を算出し、これを出力する。雑音環境に適応化された音響モデルを適応化音響モデルと呼ぶ。

＜構成＞
上記機能を実装する図２の音響モデル適応化装置８は、雑音モデル推定部８１とモデル合成部８２とを備える。雑音モデル推定部８１は、劣化特徴量ベクトルの時系列とクリーン音響モデルのパラメータを入力として受け取り、雑音モデルのパラメータを次式にしたがって最尤推定し、これらを出力する。

ただし、ｐ_Ｙ（・）は適応化音響モデルの確率密度関数を表わし、具体的には後述する式（４）に示す劣化特徴量ベクトルの確率密度関数で与えられる。なお、式（３）では、左辺の（μ^Ｎ，Σ^Ｎ，μ^Ｈ）は推定された固定値、右辺の（μ^Ｎ，Σ^Ｎ，μ^Ｈ）は最適化対象の変数として扱われていることに注意する。モデル合成部８２は、クリーン音響モデルのパラメータと雑音モデルのパラメータを入力として受け取り、適応化音響モデルのパラメータを出力する。適応化音響モデルｐ_Ｙ（・）は、次式に示すようにＧＭＭで表される。

適応化音響モデルのパラメータ（π_ｋ，μ^Ｙ _ｋ，Σ^Ｙ _ｋ）_{１≦ｋ≦Ｋ}は様々な方法で定義することができ、クリーン音響モデルと雑音モデルのパラメータに依存して計算される。以下では、適応化音響モデルのパラメータを定義する２つの方法を例にとって説明する。

＜Vector Taylor Series (VTS)適応を用いる場合＞
要素分布ｋの平均ベクトルと共分散行列は以下の式によって計算される。

ただし、Ｉは単位行列、行列Ｘに対してＸ’はＸの転置行列を表すものとする。ベクトル関数ｆ（ｘ，ｎ，ｈ）はクリーン特徴量ベクトル、加法性雑音特徴量ベクトル、乗法性雑音特徴量ベクトルがそれぞれｘ、ｎ、ｈであるときに観測される特徴量ベクトルを与え、行列関数Ｇ（・）はｆ（・）のｘに関する偏導関数である。例えば対数メルフィルタバンクを特徴量ベクトルとして用いる場合、これらは次式で与えることができる。

あるいはＭＦＣＣを特徴量ベクトルとして用いる場合には次式を用いることができる。

ただし、Ｃは離散コサイン変換行列である。また、ベクトルｘに対してｄｉａｇ（ｘ）はｘを主対角にもつ対角行列を表し、行列Ｘに対してＸ^＋はＸの疑似逆行列を表す。式（１０）や式（１２）において、ベクトルの除算はベクトル要素毎に行われるものとする。

＜Joint Uncertainty Decoding (JUD)適応を用いる場合＞
この場合、ＧＭＭに含まれる各正規分布は、ＧＭＭの学習時に回帰クラスと呼ぶいくつかのグループに分類されている。正規分布の分類方法については、音素に基づく方法や自動クラスタリングに基づく方法等が知られている（非特許文献１参照）。要素分布ｋは回帰クラスｒに属していると仮定すると、その平均ベクトルと共分散行列は以下の式によって計算される。

ただし、μ^Ｒ _ｒは回帰クラスｒの平均ベクトルである。

＜音声認識への応用＞
図３は音響モデル適応化装置８を音声認識装置７に応用した場合の構成を示すブロック図である。図３の各処理部の動作は、前述の説明から明らかであるから省略する。

＜雑音抑圧への応用＞
音響モデル適応化装置８は、雑音抑圧にも応用できる。雑音抑圧とは、劣化特徴量ベクトルの時系列から雑音を取り除く処理を指す。図４は、音響モデル適応化装置８を従来の雑音抑圧装置９に応用した場合の構成を示すブロック図である。図４に示すように、従来の雑音抑圧装置９は、特徴量変換部９１と、音響モデル記憶部７３を備える。特徴量変換部９１は、音響モデル記憶部７３に記憶されたクリーン音響モデルと、音響モデル適応化装置８から出力された適応化音響モデルの各パラメータ、及び劣化特徴量ベクトルの時系列を入力として受け取り、ＶＴＳ−０等のアルゴリズムを用いて、雑音が抑圧されたクリーン特徴量ベクトルの時系列を出力する。

M. J. F. Gales, "The generation and use of regression class trees for MLLR adaptation," University of Cambridge, Tech. Rep., 1996, CUED/F-INFENG/TR263. L. Deng, J. Droppo, and A. Acero, "Recursive estimation of nonstationary noise using iterative stochastic approximation for robust speech recognition," IEEE Trans. Speech, Audio Process., vol. 11, no. 6, pp. 568-580, 2003. M. Afify and O. Siohan, "Sequential estimation with optimal forgetting for robust speech recognition," IEEE Trans. Speech Audio Process., vol. 12, no. 1, pp. 19-26, 2004. S. Rennie, et al., "Dynamic noise adaptation," in Proc. Int. Conf. Acoust., Speech, Signal Process., 2006, pp. 1197-1200. M. Fujimoto and S. Nakamura, "Sequential non-stationary noise tracking using particle filtering with switching dynamical system," in Proc. Int. Conf. Acoust., Speech, Signal Process., 2006, pp. I 769-I 772.

従来の音響モデル適応化技術の問題点は、雑音の特性が時間に伴って大きく変化する環境では十分な音響モデル適応化効果が得られないことである。これは、従来技術は、雑音モデルのパラメータμ^Ｎ、Σ^Ｎ、μ^Ｈが短時間フレームｔに依存しないことを仮定しているためである。この問題を緩和するための方法もいくつか提案されているが（非特許文献２、３、４、５参照）、いずれの方法もやはり雑音の特性が時間に伴ってゆっくり変化することを仮定している。このため、いずれの方法も、他話者の音声や残響等によって生じる速く変化する雑音を抑圧できない。そこで本発明では、短時間フレームごとに変化する雑音モデルのパラメータを精度よく推定することができる音響モデル適応化装置を提供することを目的とする。

本発明の音響モデル適応化装置は、雑音スペクトル推定部と、雑音モデル転移部と、モデル合成部とを含む。

雑音スペクトル推定部は、劣化音声信号を入力とし、各短時間フレームにおける雑音のパワースペクトルを推定し、雑音のパワースペクトルの時系列を出力する。雑音モデル転移部は、雑音のパワースペクトルの時系列と、劣化音声信号の特徴量ベクトルである劣化特徴量ベクトルの時系列と、クリーンな環境で収録された音声信号から学習された音響モデルであるクリーン音響モデルのパラメータを入力とし、各短時間フレームにおける雑音のパワースペクトルから雑音モデルのパラメータへの転移関数を指定する転移パラメータを最尤推定し、その推定結果に基づいて短時間フレームごとの雑音モデルのパラメータの時系列を出力する。モデル合成部は、クリーン音響モデルのパラメータと雑音モデルのパラメータの時系列を入力とし、各短時間フレームにおける適応化音響モデルのパラメータの時系列を出力する。

本発明の音響モデル適応化装置によれば、短時間フレームごとに変化する雑音モデルのパラメータを精度よく推定することができる。

従来の音声認識装置の構成を示すブロック図。従来の音響モデル適応化装置の構成を示すブロック図。音響モデル適応化装置を音声認識装置に応用した場合の構成を示すブロック図。音響モデル適応化装置を雑音抑圧装置に応用した場合の構成を示すブロック図。本発明の実施例１、２に係る音響モデル適応化装置の構成を示すブロック図。本発明の実施例１、２に係る音響モデル適応化装置の動作を示すフローチャート。本発明の実施例１に係る雑音モデル転移部の構成を示すブロック図。本発明の実施例１に係る雑音モデル転移部の動作を示すフローチャート。本発明の実施例２に係る雑音モデル転移部の構成を示すブロック図。本発明の実施例２に係る雑音モデル転移部の動作を示すフローチャート。本発明の音響モデル適応化装置をコンピュータにより実現するときの構成を例示する図。実施例１の音響モデル適応化装置を用いて雑音抑圧を行った場合の音声認識結果を示す図。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

以下、図５、６を参照して本発明の実施例１、２の音響モデル適応化装置１、２について説明する。図５は実施例１、２に係る音響モデル適応化装置１、２の構成を示すブロック図である。図６は実施例１、２に係る音響モデル適応化装置１、２の動作を示すフローチャートである。図５に示すように、実施例１、２の音響モデル適応化装置１、２は、雑音スペクトル推定部１１と、雑音モデル転移部１２または雑音モデル転移部２２と、モデル合成部１３とを備える。実施例１の音響モデル適応化装置１は雑音モデル転移部１２を、実施例２の音響モデル適応化装置２は雑音モデル転移部２２を、それぞれ備える。

本発明と従来の音響モデル適応化装置の主たる相違点は、雑音モデルのパラメータが短時間フレームに依存して変化することである。すなわち、本発明では、乗法性雑音の特徴量ベクトルはμ^Ｈ _ｔと表され、加法性雑音の特徴量ベクトルの確率分布は、次式で与えられる時変な単一正規分布で表される。

この時変な雑音モデルのパラメータの時系列（μ^Ｎ _ｔ，Σ^Ｎ _ｔ，μ^Ｈ _ｔ）_{１≦ｔ≦Ｔ}は、以下に述べる構成によって推定される。
＜入力＞
音響モデル適応化装置１、２への入力は、劣化音声信号

、及び劣化特徴量ベクトルの時系列（ｙ_ｔ）_{１≦ｔ≦Ｔ}、およびクリーン音響モデルのパラメータ（π_ｋ，μ^Ｘ _ｋ，Σ^Ｘ _ｋ）_{１≦ｋ≦Ｋ}である。ただし、Ｔ_ｔｉｍｅは観測された信号の標本数を表す。
＜雑音スペクトル推定部１１＞
まず、雑音スペクトル推定部１１に、劣化音声信号

が入力される。雑音スペクトル推定部１１は、各短時間フレームにおける雑音のパワースペクトルＮ_ｔを推定し、その時系列（Ｎ_ｔ）_{１≦ｔ≦Ｔ}を出力する（Ｓ１１）。雑音スペクトル推定部１１の具体的な構成は、アプリケーションに応じて設計される。例えば残響音声を認識する場合、後部残響は速く変化する加法性雑音と見做せるが、そのパワースペクトルは既存の後部残響推定方法を用いて推定することができる。あるいは、周囲に騒音が存在する環境で音声を認識する場合、既存の加法性雑音スペクトル推定方法を用いて雑音スペクトル推定部１１を構成できる。このように、雑音スペクトル推定部１１の具体的な構成は、アプリケーションに応じて周知の方法、あるいは独自開発された方法を用いて実装されるため、本明細書では記述を省略する。

＜雑音モデル転移部１２、２２＞
次に、雑音モデル転移部１２、２２に、雑音のパワースペクトルの時系列（Ｎ_ｔ）_{１≦ｔ≦Ｔ}、劣化特徴量ベクトルの時系列（ｙ_ｔ）_{１≦ｔ≦Ｔ}、及びクリーン音響モデルのパラメータ（π_ｋ，μ^Ｘ _ｋ，Σ^Ｘ _ｋ）_{１≦ｋ≦Ｋ}が入力される。雑音モデル転移部１２、２２は、各短時間フレームにおける雑音のパワースペクトルから雑音モデルのパラメータへの転移関数を指定する転移パラメータを最尤推定し、その推定結果に基づいて短時間フレームごとの雑音モデルのパラメータの時系列（μ^Ｎ _ｔ，Σ^Ｎ _ｔ，μ^Ｈ _ｔ）_{１≦ｔ≦Ｔ}を出力する（Ｓ１２、またはＳ２２）。ステップＳ１２、およびＳ２２は、以下に述べる原理にしたがって行われる。

＜原理＞
雑音モデル転移部１２、２２では、各短時間フレームにおける雑音モデルの各パラメータは、雑音のパワースペクトルＮ_ｔに関する転移関数ｚ（・；φ）で表されると仮定する。

ただし、φは転移関数を指定するパラメータの集合である。φに含まれる各パラメータをを転移パラメータと呼ぶ。この仮定の下で、雑音モデル転移部１２、２２は、転移パラメータを次式にしたがって最尤推定する。

ただし、ｐ^（ｔ） _Ｙ（・）は後述する式（２０）で与えられる短時間フレームｔにおける適応化音響モデルを表し、（μ^Ｎ _ｔ，Σ^Ｎ _ｔ，μ^Ｈ _ｔ）を通じてφに依存している。なお、式（１９）では、左辺のφは推定された固定値、右辺のφは最適化対象の変数として扱われる。転移パラメータの推定後、各短時間フレームにおける雑音モデルのパラメータは式（１８）によって計算される。

また、式（１８）では転移関数ｚ（・；φ）は短時間フレームｔにおける雑音パワースペクトルＮ_ｔの関数としたが、音響的なコンテキストを考慮するために、例えば転移関数を（Ｎ_ｔ−１，Ｎ_ｔ，Ｎ_ｔ＋１）の関数とすることもできる。

＜モデル合成部１３＞
最後に、モデル合成部１３は、クリーン音響モデルのパラメータと雑音モデルのパラメータの時系列を入力として受け取り、各短時間フレームにおける適応化音響モデルのパラメータの時系列を出力する（Ｓ１３）。短時間フレームｔにおける適応化音響モデルｐ^（ｔ） _Ｙ（ｙ_ｔ）は、次式に示すようにＧＭＭで表される。

適応化音響モデルのパラメータは様々な方法で定義することができ、クリーン音響モデルと雑音モデルのパラメータに依存して計算される。以下では、適応化音響モデルのパラメータを定義する２つの方法を例にとって説明する。

＜Vector Taylor Series (VTS)適応を用いる場合＞
短時間フレームｔにおける要素分布ｋの平均ベクトルと共分散行列は以下の式によって計算される。

ただし、ベクトル関数ｆ（・）と行列関数Ｇ（・）は、それぞれ式（９）と式（１０）によって定義される。

＜Joint Uncertainty Decoding (JUD)適応を用いる場合＞
この場合、ＧＭＭに含まれる各正規分布は、ＧＭＭの学習時に音声回帰クラスと呼ぶいくつかのグループに分類されている。さらに、各短時間フレームにおける雑音モデルの正規分布も、雑音回帰クラスと呼ぶいくつかのグループに分類されている。要素分布ｋは音声回帰クラスｒに、短時間フレームｔは雑音回帰クラスｓに属していると仮定すると、平均ベクトルと共分散行列は以下の式によって計算される。

ただし、μ^Ｒ _ｒは音声回帰クラスｒの平均ベクトル、μ^Ｓ _ｓは雑音回帰クラスｓの平均ベクトルである。

このように、本発明の音響モデル適応化装置によれば、短時間フレームごとに変化する雑音モデルのパラメータを精度よく推定することができる。これにより、雑音の特性が時間に伴って大きく変化する環境でも高い音響モデル適応効果を維持できる。いくつかのアプリケーションでは、雑音のパワースペクトルの変化は、雑音モデル―すなわち加法性雑音の特徴量ベクトルの確率分布や乗法性雑音の特徴量ベクトル―のパラメータの変化よりもずっと容易に検出できる。これは、パワースペクトルは調波構造や音の伝播特性の情報を保持しているのに対して、スペクトル包絡しか表さない特徴量ベクトルにはこうした情報が欠落しているためである。例えば、残響音声認識では、認識性能低下の主な要因である後部残響のパワースペクトルを、音の伝播特性に基づいて推定できる。なお、後部残響は速く変化する加法性の雑音と見做される。本発明の音響モデル適応化装置の雑音スペクトル推定部は、劣化音声信号を入力として雑音のパワースペクトルを推定するよう構成されているため、雑音の特性の変化を精度よく推定できる。雑音モデル転移部は、こうして得られた雑音のパワースペクトルを、クリーン音響モデルと劣化特徴量の時系列に適合するように雑音モデルに変換する。よって、この構成によって、短時間フレーム毎に変化する雑音モデルのパラメータを、精度良く推定できる。

以下では、本発明の雑音モデル転移部の詳細な機能構成について、具体例を挙げて説明する。ただし、本発明の実施例は下記に述べる実施例に限定されない。本発明は、上述した技術的思想の範囲内において様々な形態で実施することができる。

＜雑音モデル転移部１２＞
以下、図７、８を参照して実施例１の雑音モデル転移部１２について詳細に説明する。図７は本実施例に係る雑音モデル転移部１２の構成を示すブロック図である。図８は本実施例に係る雑音モデル転移部１２の動作を示すフローチャートである。

本実施例の音響モデル適応化装置１は、特徴量ベクトルとして対数メルフィルタバンクを用い、モデル合成部１３は上述したＶＴＳで実装されている。この雑音モデル転移部１２の機能構成例では、転移関数ｚ（・）は次式によって実装される。

ただし、ｆ_{ｌｏｇｍｅｌ}（・）はパワースペクトルを対数メルフィルタバンク特徴量に変換する関数を表す。行列Ａ、及びベクトルｂとｈは転移パラメータであり、φ＝（Ａ、ｂ、ｈ）と書ける。以下では、ｄ_ｔ＝［ｆ_{ｌｏｇｍｅｌ}（Ｎ_ｔ）’，１］’と表す。

本実施例の雑音モデル転移部１２は繰り返し処理に基づく。図７に示すように、本実施例の雑音モデル転移部１２は、初期化手段１２１と、ＭＵＸ手段１２２と、期待値計算手段１２３と、補助関数最大化手段１２４と、収束判定手段１２５とを備える。期待値計算手段１２３と補助関数最大化手段１２４はループを構成している。繰り返しのインデクスをｉと書き、ループを一巡する毎にｉの値は１ずつ増える。正確を期するため、繰り返し推定の途中で得られる転移パラメータを特に、転移パラメータの暫定値と呼ぶ。以下、各処理手段について説明する。初期化手段１２１は、転移パラメータＡ、ｂ、ｈの各初期値Ａ_０、ｂ_０、ｈ_０を設定し、これらを出力する（ＳＳ１２１）。例えば、０と１をそれぞれ零ベクトル及び壱ベクトルとして、Ａ_０＝［Ｉ、０］、ｂ＝１、ｈ＝０とすることができる。

ＭＵＸ手段１２２は、転移パラメータの初期値と、後述する更新された転移パラメータの暫定値を入力として受け取り、ループの一巡目では転移パラメータの初期値を転移パラメータの暫定値として出力し、二巡目以降では更新された転移パラメータの暫定値を転移パラメータの暫定値として出力する（ＳＳ１２２）。
期待値計算手段１２３は、一巡前のループで計算された転移パラメータの暫定値であるＡ_ｉ、ｂ_ｉ、ｈ_ｉと、雑音のパワースペクトルの時系列と、劣化特徴量ベクトルの時系列と、クリーン音響モデルのパラメータを入力として受け取り、次の３種類の変数の値を出力する（ＳＳ１２３）。

＜γ_{ｋ，ｔ，ｉ}＞
Ａ＝Ａ_ｉ、ｂ＝ｂ_ｉ、ｈ＝ｈ_ｉと仮定（つまり転移パラメータの暫定値が転移パラメータの真の値であると仮定）した場合における、クリーン特徴量ベクトルｘ_ｔがクリーン音響モデルのｋ番目の要素分布から出力された事後確率である。具体的には、この事後確率は次式によって計算される。

ただし、μ^Ｙ _{ｋ，ｔ，ｉ}とΣ^Ｙ _{ｋ，ｔ，ｉ}は、それぞれ転移パラメータの暫定値を用いて計算したμ^Ｙ _ｋ，ｔとΣ^Ｙ _ｋ，ｔの値である。
＜μ^Ｎ｜Ｙ _{ｋ，ｔ，ｉ}＞
Ａ＝Ａ_ｉ，ｂ＝ｂ_ｉ，ｈ＝ｈ_ｉと仮定（つまり転移パラメータの暫定値が転移パラメータの真の値であると仮定）した場合における、加法性雑音の特徴量ベクトルの事後分布ｐ^（ｔ） _Ｎ｜Ｙ（ｎ_ｔ｜ｙ_ｔ，ｋ）の平均ベクトルである。具体的には、この平均ベクトルは次式によって計算される。

ただし，μ^Ｎ _ｔ，ｉ，Σ^Ｎ _ｔ，ｉ，Ｇ^★ _{ｋ，ｔ，ｉ}は，それぞれ転移パラメータの暫定値を用いて計算したμ^Ｎ _ｔ，Σ^Ｎ _ｔ，Ｇ^★ _ｋ，ｔの値である。
＜Σ^Ｎ｜Ｙ _{ｋ，ｔ，ｉ}＞
Ａ＝Ａ_ｉ，ｂ＝ｂ_ｉ，ｈ＝ｈ_ｉと仮定（つまり転移パラメータの暫定値が転移パラメータの真の値であると仮定）した場合における、加法性雑音の特徴量ベクトルの事後分布ｐ^（ｔ） _Ｎ｜Ｙ（ｎ_ｔ｜ｙ_ｔ，ｋ）の共分散行列である。具体的には、この共分散行列は次式によって計算される。

ただし、Σ^Ｙ｜Ｎ _{ｋ，ｔ，ｉ}は転移パラメータの暫定値を用いて計算したΣ^Ｙ｜Ｎ _ｋ，ｔである。Σ^Ｙ｜Ｎ _ｋ，ｔの算出方法は式（３９）に後述する。補助関数最大化手段１２４は、期待値計算手段１２３で計算された上記変数値（事後確率、事後平均ベクトル、事後共分散行列）を入力として受け取り、次式の補助関数を最大化する転移パラメータを計算し、これらを更新された転移パラメータの暫定値として出力する（ＳＳ１２４）。すなわち、更新された転移パラメータの暫定値は以下のように計算される。

ただし、ｘの確率密度関数ｐ（ｘ）と関数ｆ（ｘ）に対して、〈ｆ（ｘ）〉_ｐ（ｘ）はｆ（ｘ）のｘに関する期待値を表す。また、各短時間フレームと各要素分布に対して、ｙ_ｔの条件付き確率密度関数ｐ^（ｔ） _{Ｙ｜Ｋ，Ｎ}（・｜ｋ，ｎ_ｔ）は次式で計算される。

上記最大化処理は勾配法等の汎用的な最適化アルゴリズムを用いて達成できる他、次式によっても実行できる。

ただし、行列Ｘに対して、ＤＩＡＧ（Ｘ）はＸの対角成分を並べたベクトルを表す。

収束判定手段１２５は、更新された転移パラメータの暫定値を入力として受け取り、上記繰り返し処理による転移パラメータの推定処理が収束しているか否かを判定し（ＳＳ１２５Ａ）、推定処理が収束していると判定される場合には（ＳＳ１２５ＢＹ）、Ａ＝Ａ_ｉ＋１、ｂ＝ｂ_ｉ＋１、ｈ＝ｈ_ｉ＋１として更新された転移パラメータの暫定値を転移パラメータとして確定させ、式（２９）〜（３１）を用いて雑音モデルのパラメータの時系列を算出し、これを出力する（ＳＳ１２５Ｃ）。収束していると判定されなかった場合（ＳＳ１２５ＢＮ）、サブステップＳＳ１２２にもどり、ループ処理が再開される。収束判定条件としては、例えば繰り返し回数が所定の回数に達しているか否かや、転移パラメータの暫定値の変化が所定の閾値より小さいか否か等を用いることができる。

以上、すべての短時間フレームにおける劣化特徴量ベクトルを用いて転移パラメータを推定するバッチ処理の方法について説明したが、同様の処理をｔ＝１、２、・・・に対して順に実施することでオンライン処理によって転移パラメータを推定することもできる。

＜雑音モデル転移部２２＞
以下、図９、図１０を参照して実施例２の雑音モデル転移部２２について詳細に説明する。図９は本実施例に係る雑音モデル転移部２２の構成を示すブロック図である。図１０は本実施例に係る雑音モデル転移部２２の動作を示すフローチャートである。

実施例１では、特徴量ベクトルとして対数メルフィルタバンクを用い、モデル合成部１３にＶＴＳを用いる構成について説明した。ここでは、別の実施例として、特徴量ベクトルとしてＭＦＣＣを用い、モデル合成部１３にＪＵＤを用いる構成について説明する。ただし、ここで述べる実施例２と既に説明した実施例１とでは、図７、図９に示すブロック図と図８、図１０に示すフローチャートは同一であり、処理対象のデータと各処理部の実装のみが異なる。本実施例における雑音モデル転移部２２の機能構成例では、転移関数ｚ（・）は次式によって実装される。

行列Ｂ、及びベクトルａとｈは転移パラメータであり、φ＝（ａ、Ｂ、ｈ）と書ける。図９に示すように、本実施例の雑音モデル転移部２２は、初期化手段２２１と、ＭＵＸ手段２２２と、期待値計算手段２２３と、補助関数最大化手段２２４と、収束判定手段２２５とを備える。実施例１と同様に期待値計算手段２２３と補助関数最大化手段２２４はループを構成している。

初期化手段２２１は、転移パラメータａ、Ｂ、ｃの各初期値ａ_０、Ｂ_０、ｃ_０を設定し、これらを出力する（ＳＳ２２１）。例えば、ａ＝０、Ｂ＝Ｉ、ｈ＝０とすることができる。

ＭＵＸ手段２２２は、転移パラメータの初期値と更新された転移パラメータの暫定値を入力として受け取り、ループの一巡目では転移パラメータの初期値を転移パラメータの暫定値として出力し、二巡目以降では更新された転移パラメータの暫定値を転移パラメータの暫定値として出力する（ＳＳ２２２）。

期待値計算手段２２３は、一巡前のループで計算された転移パラメータの暫定値であるａ_ｉ，Ｂ_ｉ，ｈ_ｉと、雑音のパワースペクトルの時系列と、劣化特徴量ベクトルの時系列と、クリーン音響モデルのパラメータを入力として受け取り、γ_{ｋ，ｔ，ｉ}，μ^Ｎ｜Ｙ _{ｋ，ｔ，ｉ}，Σμ^Ｎ｜Ｙ _{ｋ，ｔ，ｉ}を出力する（ＳＳ２２３）。これらの値は、それぞれ前述した式（３２）、（３３）、（３４）にしたがって計算される。ただし、式（３４）に現れるΣ^Ｙ｜Ｎ _ｋ，ｔは、式（３９）に代えて後述する式（５５）を用いて算出される。補助関数最大化手段２２４は、期待値計算手段２２３で計算された上記変数値（事後確率、平均ベクトル、共分散行列）を入力として受け取り、次式の補助関数を最大化する転移パラメータを計算し、これらを更新された転移パラメータの暫定値として出力する（ＳＳ２２４）。すなわち、更新された転移パラメータの暫定値は以下のように計算される。

ただし、各短時間フレームと各要素分布に対して、ｙ_ｔの条件付き確率密度関数ｐ^（ｔ） _{Ｙ｜Ｋ，Ｎ}（・｜ｋ，ｎ_ｔ）は次式で計算される。

上記最大化処理は勾配法等の汎用的な最適化アルゴリズムを用いて達成される。収束判定手段２２５は、更新された転移パラメータの暫定値を入力として受け取り、上記繰り返し処理による転移パラメータの推定処理が収束しているか否かを判定し（ＳＳ２２５Ａ）、推定処理が収束していると判定される場合には（ＳＳ２２５ＢＹ）、ａ＝ａ_ｉ＋１，Ｂ＝Ｂ_ｉ＋１，ｈ＝ｈ_ｉ＋１として更新された転移パラメータの暫定値を転移パラメータとして確定させ、式（４８）〜（５０）を用いて雑音モデルのパラメータの時系列を算出し、これを出力する（ＳＳ２２５Ｃ）。収束していると判定されなかった場合（ＳＳ２２５ＢＮ）、サブステップＳＳ２２２にもどり、ループ処理が再開される。収束判定条件としては、例えば繰り返し回数が所定の回数に達しているか否かや、転移パラメータの暫定値の変化が所定の閾値より小さいか否か等を用いることができる。

＜コンピュータを用いた本発明の実現＞
以下、本発明の音響モデル適応化装置をコンピュータにより実現する場合について説明する。図１１は本発明の音響モデル適応化装置をコンピュータにより実現するときの構成を例示する図である。図１１に示すように、本発明の音響モデル適応化装置を実現するコンピュータは、演算処理装置１０００、出力装置２０００、入力装置３０００、記録装置４０００などから構成される。上述した本発明の話者適応化装置は、図１１に示すコンピュータの記録装置４０００に、本発明の各構成部としてコンピュータを動作させるプログラムを読み込ませ、演算処理装置１０００、出力装置２０００、入力装置３０００、記録装置４０００等を動作させることで実現できる。

また、コンピュータにプログラムやデータを読み込ませる方法としては、プログラムやデータをコンピュータが読み取り可能な記録媒体に記録しておいて記録媒体からコンピュータに読み込ませる方法、サーバ等に記録されたプログラムやデータを電気通信回線等を通じてコンピュータに読み込ませる方法、等が挙げられる。

＜実験結果＞
図１２を参照して本発明を用いて残響音声の認識を行った実験の結果を説明する。図１２は実施例１の音響モデル適応化装置１を用いて雑音抑圧を行った場合の音声認識結果（単語誤り率）を示す図である。本実験では、前述した通り後部残響が加法性雑音に相当する。実験には２００００語のＷａｌｌＳｔｒｅｅｔＪｏｕｒｎａｌデータベースの学習データと評価データを用いた。学習データは、雑音抑圧装置のクリーン音響モデルと音声認識装置のクリーン音響モデルを学習するのに用いた。評価データセットは、残響音声を模擬するために、このデータセットに含まれる各発話と予め計測したインパルス応答を畳み込んでから使用した。評価データセットには８名の話者による発話が含まれていた。図１２に示すように、実施例１の音響モデル適応化装置１によりクリーン学習（音声認識用の音響モデルをクリーンな学習データセットを用いて作成）、マルチコンディション学習（音声認識用の音響モデルを残響を含む学習データセットを用いて作成）のいずれにおいても単語誤り率が顕著に減少しており、本発明が残響のような非定常な雑音に対しても有効であることが示された。

Claims

劣化音声信号を入力とし、各短時間フレームにおける雑音のパワースペクトルを推定し、前記雑音のパワースペクトルの時系列を出力する雑音スペクトル推定部と、
前記雑音のパワースペクトルの時系列と、前記劣化音声信号の特徴量ベクトルである劣化特徴量ベクトルの時系列と、クリーンな環境で収録された音声信号から学習された音響モデルであるクリーン音響モデルのパラメータを入力とし、各短時間フレームにおける雑音のパワースペクトルから雑音モデルのパラメータへの転移関数を指定する転移パラメータを最尤推定し、その推定結果に基づいて短時間フレームごとの雑音モデルのパラメータの時系列を出力する雑音モデル転移部と、
前記クリーン音響モデルのパラメータと前記雑音モデルのパラメータの時系列を入力とし、各短時間フレームにおける適応化音響モデルのパラメータの時系列を出力するモデル合成部と、
を含む音響モデル適応化装置。
前記雑音モデル転移部は、
前記転移パラメータの初期値を設定し、前記転移パラメータの初期値を出力する初期化手段と、
前記転移パラメータの初期値と、更新された転移パラメータの暫定値を入力とし、前記転移パラメータの初期値、または前記更新された転移パラメータの暫定値を転移パラメータの暫定値として出力するＭＵＸ手段と、
前記転移パラメータの暫定値と、前記雑音のパワースペクトルの時系列と、前記劣化特徴量ベクトルの時系列と、前記クリーン音響モデルのパラメータを入力とし、前記転移パラメータの暫定値が真の値であると仮定した場合における、クリーン音響モデルの各要素分布の事後確率、及び加法性雑音の特徴量ベクトルの事後分布の平均ベクトルと共分散行列の値を出力する期待値計算手段と、
前記事後確率と、前記平均ベクトルと、前記共分散行列を入力とし、補助関数を最大化する転移パラメータを計算して、計算された転移パラメータを更新された転移パラメータの暫定値として出力する補助関数最大化手段と、
前記更新された転移パラメータの暫定値を入力とし、前記転移パラメータの推定処理が収束しているか否かを判定し、前記推定処理が収束していると判定される場合には前記更新された転移パラメータの暫定値を用いて雑音モデルのパラメータの時系列を計算して出力する収束判定手段と、
をさらに含む請求項１に記載の音響モデル適応化装置。
前記モデル合成部が、
ＶＴＳ適応を用いて各短時間フレームにおける適応化音響モデルのパラメータの時系列を計算する
請求項１または２に記載の音響モデル適応化装置。
前記モデル合成部が、
ＪＵＤ適応を用いて各短時間フレームにおける適応化音響モデルのパラメータの時系列を計算する
請求項１または２に記載の音響モデル適応化装置。
劣化音声信号を入力とし、各短時間フレームにおける雑音のパワースペクトルを推定し、前記雑音のパワースペクトルの時系列を出力する雑音スペクトル推定ステップと、
前記雑音のパワースペクトルの時系列と、前記劣化音声信号の特徴量ベクトルである劣化特徴量ベクトルの時系列と、クリーンな環境で収録された音声信号から学習された音響モデルであるクリーン音響モデルのパラメータを入力とし、各短時間フレームにおける雑音のパワースペクトルから雑音モデルのパラメータへの転移関数を指定する転移パラメータを最尤推定し、その推定結果に基づいて短時間フレームごとの雑音モデルのパラメータの時系列を出力する雑音モデル転移ステップと、
前記クリーン音響モデルのパラメータと前記雑音モデルのパラメータの時系列を入力とし、各短時間フレームにおける適応化音響モデルのパラメータの時系列を出力するモデル合成ステップと、
を含む音響モデル適応化方法。
前記雑音モデル転移ステップは、
前記転移パラメータの初期値を設定し、前記転移パラメータの初期値を出力する初期化サブステップと、
前記転移パラメータの初期値と、更新された転移パラメータの暫定値を入力とし、前記転移パラメータの初期値、または前記更新された転移パラメータの暫定値を転移パラメータの暫定値として出力するＭＵＸサブステップと、
前記転移パラメータの暫定値と、前記雑音のパワースペクトルの時系列と、前記劣化特徴量ベクトルの時系列と、前記クリーン音響モデルのパラメータを入力とし、前記転移パラメータの暫定値が真の値であると仮定した場合における、クリーン音響モデルの各要素分布の事後確率、及び加法性雑音の特徴量ベクトルの事後分布の平均ベクトルと共分散行列の値を出力する期待値計算サブステップと、
前記事後確率と、前記平均ベクトルと、前記共分散行列を入力とし、補助関数を最大化する転移パラメータを計算して、計算された転移パラメータを更新された転移パラメータの暫定値として出力する補助関数最大化サブステップと、
前記更新された転移パラメータの暫定値を入力とし、前記転移パラメータの推定処理が収束しているか否かを判定し、前記推定処理が収束していると判定される場合には前記更新された転移パラメータの暫定値を用いて雑音モデルのパラメータの時系列を計算して出力する収束判定サブステップと、
をさらに含む請求項５に記載の音響モデル適応化方法。
前記モデル合成ステップが、
ＶＴＳ適応を用いて各短時間フレームにおける適応化音響モデルのパラメータの時系列を計算する
請求項５または６に記載の音響モデル適応化方法。
請求項５から７の何れかに記載された音響モデル適応化方法の各ステップをコンピュータに実行させるためのプログラム。