JP5885686B2 - 音響モデル適応化装置、音響モデル適応化方法、プログラム - Google Patents

音響モデル適応化装置、音響モデル適応化方法、プログラム Download PDF

Info

Publication number
JP5885686B2
JP5885686B2 JP2013032989A JP2013032989A JP5885686B2 JP 5885686 B2 JP5885686 B2 JP 5885686B2 JP 2013032989 A JP2013032989 A JP 2013032989A JP 2013032989 A JP2013032989 A JP 2013032989A JP 5885686 B2 JP5885686 B2 JP 5885686B2
Authority
JP
Japan
Prior art keywords
noise
acoustic model
parameter
model
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013032989A
Other languages
English (en)
Other versions
JP2014164023A (ja
Inventor
拓也 吉岡
拓也 吉岡
中谷 智広
智広 中谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013032989A priority Critical patent/JP5885686B2/ja
Publication of JP2014164023A publication Critical patent/JP2014164023A/ja
Application granted granted Critical
Publication of JP5885686B2 publication Critical patent/JP5885686B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、音響モデルを雑音環境に適応させる音響モデル適応化装置、音響モデル適応化方法、プログラムに関する。
本明細書では、単に雑音と記述する場合、収録環境に存在する目的外の音や残響、あるいは通信路やマイクロホンの特性等、音声を劣化させる外部要因を総称するものとする。以下、図1を参照して従来の音響モデル適応化技術について、音声認識への応用を例として説明する。図1は従来の音声認識装置7の構成を示すブロック図である。図1に示すように、従来の音声認識装置7は、特徴量抽出部71と、デコード部72と、音響モデル記憶部73と、言語モデル記憶部74と、発音辞書記憶部75とを備える。特徴量抽出部71は、マイクロホン等によって観測された音声信号を特徴量ベクトルの時系列に変換する。特徴量ベクトルは、典型的にはメル周波数ケプストラム係数(Mel−Frequency Cepstral Coefficient:MFCC)とその動的パラメータから成る数十次元のベクトルであり、数十ミリ秒程度の短時間フレーム毎に計算される。デコード部72は、Viterbiアルゴリズム等を用いて特徴量ベクトルの時系列を音響モデル記憶部73に記憶された音響モデル、言語モデル記憶部74に記憶された言語モデル、および発音辞書記憶部75に記憶された発音辞書と照合することで、観測された音声信号が表すテキスト、すなわち単語の系列を出力する。音響モデルは、言語の各構成単位(例えば、単語や音素)に対応する特徴量ベクトル、またはその時系列の確率分布を表し、例えば混合正規分布(Gaussian Mixture Model:GMM)や隠れマルコフモデル(Hidden Markov Model:HMM)、セグメントモデルによってモデル化される。音響モデルは、音声信号から抽出された特徴量ベクトルの時系列とその音声信号に対応するテキストを用いて事前に学習される。学習に用いる音声信号は、例えば、多数の話者にテキストを読み上げさせ、その音声信号を収録することで収集される。多くの場合、収録はクリーンな(雑音のない、もしくは雑音の少ない)環境で行われる。クリーンな環境で収録された音声信号から学習された音響モデルを、クリーン音響モデルと呼ぶ。
上述した音声認識装置7のような基本的な構成要素しか備えない音声認識装置では、認識対象の音声信号が雑音の存在する環境で収録された場合に、音声認識精度は著しく劣化する。これは、クリーン音響モデルが雑音環境における特徴量ベクトル、またはその時系列の確率分布を適切に表さないためである。雑音環境において高い音声認識精度を維持するためには、音響モデルの学習環境と使用環境の不一致を解消する必要がある。
<音響モデル適応化装置>
音響モデル適応化装置は、クリーン音響モデルを雑音環境に適応させることで学習環境と使用環境の不一致を解消、または低減する。図2を参照して従来の音響モデル適応化装置8について説明する。図2は従来の音響モデル適応化装置8の構成を示すブロック図である。音響モデル適応化装置8には、下記2種類のデータが入力される。
<雑音によって劣化した音声信号から抽出された特徴量ベクトルの時系列>
以後、雑音によって劣化した音声信号を劣化音声信号と呼びy(τ)と表す。また、劣化音声信号の特徴量ベクトルを劣化特徴量ベクトルと呼びyと表す。ただし、τは離散化された信号のインデクス、tは短時間フレームのインデクスである。さらに、観測された短時間フレームの個数をTで表し、劣化特徴量ベクトルの時系列を(y1≦t≦Tと書く。このように、本明細書ではx,・・・,xがなす列を(x1≦i≦nと書く。
<クリーン音響モデルのパラメータ>
本明細書では、一例として、音響モデルが次式のようにGMMでモデル化される場合について説明する。後述するように、本発明は正規分布の平均ベクトルと共分散行列だけを修正するため、HMM等正規分布に基づく音響モデルを用いる場合にも同様のアルゴリズムが適用できる。
Figure 0005885686
ただし、xはクリーンな環境で収録された音声信号の特徴量ベクトルであるクリーン特徴量ベクトル、KはGMMの混合数、fnorm(・)は正規分布の確率密度関数を表す。π,μ ,Σ は、k番目の要素分布のそれぞれ重み、平均ベクトル、共分散行列を表し、GMMのパラメータを構成する。なお、前述した通り、これらパラメータは学習データを用いて事前に決められる。音響モデル適応化装置8は、後述する構成に基づいて、まず、加法性雑音の特徴量ベクトルの確率分布p(・)と乗法性雑音の特徴量ベクトルμからなる雑音モデルのパラメータを推定する。加法性雑音の特徴量ベクトルの確率分布は、次式のように単一正規分布で表されると仮定される。
Figure 0005885686
ただし、nは加法性雑音の特徴量ベクトル、μとΣはそれぞれ平均ベクトルと共分散行列を表す。これらとμをまとめて雑音モデルのパラメータと呼ぶ。その後、クリーン音響モデルと雑音モデルを合成することで、雑音環境に適応化された音響モデルのパラメータ(π,μ ,Σ 1≦k≦Kを算出し、これを出力する。雑音環境に適応化された音響モデルを適応化音響モデルと呼ぶ。
<構成>
上記機能を実装する図2の音響モデル適応化装置8は、雑音モデル推定部81とモデル合成部82とを備える。雑音モデル推定部81は、劣化特徴量ベクトルの時系列とクリーン音響モデルのパラメータを入力として受け取り、雑音モデルのパラメータを次式にしたがって最尤推定し、これらを出力する。
Figure 0005885686
ただし、p(・)は適応化音響モデルの確率密度関数を表わし、具体的には後述する式(4)に示す劣化特徴量ベクトルの確率密度関数で与えられる。なお、式(3)では、左辺の(μ,Σ,μ)は推定された固定値、右辺の(μ,Σ,μ)は最適化対象の変数として扱われていることに注意する。モデル合成部82は、クリーン音響モデルのパラメータと雑音モデルのパラメータを入力として受け取り、適応化音響モデルのパラメータを出力する。適応化音響モデルp(・)は、次式に示すようにGMMで表される。
Figure 0005885686
適応化音響モデルのパラメータ(π,μ ,Σ 1≦k≦Kは様々な方法で定義することができ、クリーン音響モデルと雑音モデルのパラメータに依存して計算される。以下では、適応化音響モデルのパラメータを定義する2つの方法を例にとって説明する。
<Vector Taylor Series (VTS)適応を用いる場合>
要素分布kの平均ベクトルと共分散行列は以下の式によって計算される。
Figure 0005885686
ただし、Iは単位行列、行列Xに対してX’はXの転置行列を表すものとする。ベクトル関数f(x,n,h)はクリーン特徴量ベクトル、加法性雑音特徴量ベクトル、乗法性雑音特徴量ベクトルがそれぞれx、n、hであるときに観測される特徴量ベクトルを与え、行列関数G(・)はf(・)のxに関する偏導関数である。例えば対数メルフィルタバンクを特徴量ベクトルとして用いる場合、これらは次式で与えることができる。
Figure 0005885686
あるいはMFCCを特徴量ベクトルとして用いる場合には次式を用いることができる。
Figure 0005885686
ただし、Cは離散コサイン変換行列である。また、ベクトルxに対してdiag(x)はxを主対角にもつ対角行列を表し、行列Xに対してXはXの疑似逆行列を表す。式(10)や式(12)において、ベクトルの除算はベクトル要素毎に行われるものとする。
<Joint Uncertainty Decoding (JUD)適応を用いる場合>
この場合、GMMに含まれる各正規分布は、GMMの学習時に回帰クラスと呼ぶいくつかのグループに分類されている。正規分布の分類方法については、音素に基づく方法や自動クラスタリングに基づく方法等が知られている(非特許文献1参照)。要素分布kは回帰クラスrに属していると仮定すると、その平均ベクトルと共分散行列は以下の式によって計算される。
Figure 0005885686
ただし、μ は回帰クラスrの平均ベクトルである。
<音声認識への応用>
図3は音響モデル適応化装置8を音声認識装置7に応用した場合の構成を示すブロック図である。図3の各処理部の動作は、前述の説明から明らかであるから省略する。
<雑音抑圧への応用>
音響モデル適応化装置8は、雑音抑圧にも応用できる。雑音抑圧とは、劣化特徴量ベクトルの時系列から雑音を取り除く処理を指す。図4は、音響モデル適応化装置8を従来の雑音抑圧装置9に応用した場合の構成を示すブロック図である。図4に示すように、従来の雑音抑圧装置9は、特徴量変換部91と、音響モデル記憶部73を備える。特徴量変換部91は、音響モデル記憶部73に記憶されたクリーン音響モデルと、音響モデル適応化装置8から出力された適応化音響モデルの各パラメータ、及び劣化特徴量ベクトルの時系列を入力として受け取り、VTS−0等のアルゴリズムを用いて、雑音が抑圧されたクリーン特徴量ベクトルの時系列を出力する。
M. J. F. Gales, "The generation and use of regression class trees for MLLR adaptation," University of Cambridge, Tech. Rep., 1996, CUED/F-INFENG/TR263. L. Deng, J. Droppo, and A. Acero, "Recursive estimation of nonstationary noise using iterative stochastic approximation for robust speech recognition," IEEE Trans. Speech, Audio Process., vol. 11, no. 6, pp. 568-580, 2003. M. Afify and O. Siohan, "Sequential estimation with optimal forgetting for robust speech recognition," IEEE Trans. Speech Audio Process., vol. 12, no. 1, pp. 19-26, 2004. S. Rennie, et al., "Dynamic noise adaptation," in Proc. Int. Conf. Acoust., Speech, Signal Process., 2006, pp. 1197-1200. M. Fujimoto and S. Nakamura, "Sequential non-stationary noise tracking using particle filtering with switching dynamical system," in Proc. Int. Conf. Acoust., Speech, Signal Process., 2006, pp. I 769-I 772.
従来の音響モデル適応化技術の問題点は、雑音の特性が時間に伴って大きく変化する環境では十分な音響モデル適応化効果が得られないことである。これは、従来技術は、雑音モデルのパラメータμ、Σ、μが短時間フレームtに依存しないことを仮定しているためである。この問題を緩和するための方法もいくつか提案されているが(非特許文献2、3、4、5参照)、いずれの方法もやはり雑音の特性が時間に伴ってゆっくり変化することを仮定している。このため、いずれの方法も、他話者の音声や残響等によって生じる速く変化する雑音を抑圧できない。そこで本発明では、短時間フレームごとに変化する雑音モデルのパラメータを精度よく推定することができる音響モデル適応化装置を提供することを目的とする。
本発明の音響モデル適応化装置は、雑音スペクトル推定部と、雑音モデル転移部と、モデル合成部とを含む。
雑音スペクトル推定部は、劣化音声信号を入力とし、各短時間フレームにおける雑音のパワースペクトルを推定し、雑音のパワースペクトルの時系列を出力する。雑音モデル転移部は、雑音のパワースペクトルの時系列と、劣化音声信号の特徴量ベクトルである劣化特徴量ベクトルの時系列と、クリーンな環境で収録された音声信号から学習された音響モデルであるクリーン音響モデルのパラメータを入力とし、各短時間フレームにおける雑音のパワースペクトルから雑音モデルのパラメータへの転移関数を指定する転移パラメータを最尤推定し、その推定結果に基づいて短時間フレームごとの雑音モデルのパラメータの時系列を出力する。モデル合成部は、クリーン音響モデルのパラメータと雑音モデルのパラメータの時系列を入力とし、各短時間フレームにおける適応化音響モデルのパラメータの時系列を出力する。
本発明の音響モデル適応化装置によれば、短時間フレームごとに変化する雑音モデルのパラメータを精度よく推定することができる。
従来の音声認識装置の構成を示すブロック図。 従来の音響モデル適応化装置の構成を示すブロック図。 音響モデル適応化装置を音声認識装置に応用した場合の構成を示すブロック図。 音響モデル適応化装置を雑音抑圧装置に応用した場合の構成を示すブロック図。 本発明の実施例1、2に係る音響モデル適応化装置の構成を示すブロック図。 本発明の実施例1、2に係る音響モデル適応化装置の動作を示すフローチャート。 本発明の実施例1に係る雑音モデル転移部の構成を示すブロック図。 本発明の実施例1に係る雑音モデル転移部の動作を示すフローチャート。 本発明の実施例2に係る雑音モデル転移部の構成を示すブロック図。 本発明の実施例2に係る雑音モデル転移部の動作を示すフローチャート。 本発明の音響モデル適応化装置をコンピュータにより実現するときの構成を例示する図。 実施例1の音響モデル適応化装置を用いて雑音抑圧を行った場合の音声認識結果を示す図。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
以下、図5、6を参照して本発明の実施例1、2の音響モデル適応化装置1、2について説明する。図5は実施例1、2に係る音響モデル適応化装置1、2の構成を示すブロック図である。図6は実施例1、2に係る音響モデル適応化装置1、2の動作を示すフローチャートである。図5に示すように、実施例1、2の音響モデル適応化装置1、2は、雑音スペクトル推定部11と、雑音モデル転移部12または雑音モデル転移部22と、モデル合成部13とを備える。実施例1の音響モデル適応化装置1は雑音モデル転移部12を、実施例2の音響モデル適応化装置2は雑音モデル転移部22を、それぞれ備える。
本発明と従来の音響モデル適応化装置の主たる相違点は、雑音モデルのパラメータが短時間フレームに依存して変化することである。すなわち、本発明では、乗法性雑音の特徴量ベクトルはμ と表され、加法性雑音の特徴量ベクトルの確率分布は、次式で与えられる時変な単一正規分布で表される。
Figure 0005885686
この時変な雑音モデルのパラメータの時系列(μ ,Σ ,μ 1≦t≦Tは、以下に述べる構成によって推定される。
<入力>
音響モデル適応化装置1、2への入力は、劣化音声信号
Figure 0005885686
、及び劣化特徴量ベクトルの時系列(y1≦t≦T、およびクリーン音響モデルのパラメータ(π,μ ,Σ 1≦k≦Kである。ただし、Ttimeは観測された信号の標本数を表す。
<雑音スペクトル推定部11>
まず、雑音スペクトル推定部11に、劣化音声信号
Figure 0005885686
が入力される。雑音スペクトル推定部11は、各短時間フレームにおける雑音のパワースペクトルNを推定し、その時系列(N1≦t≦Tを出力する(S11)。雑音スペクトル推定部11の具体的な構成は、アプリケーションに応じて設計される。例えば残響音声を認識する場合、後部残響は速く変化する加法性雑音と見做せるが、そのパワースペクトルは既存の後部残響推定方法を用いて推定することができる。あるいは、周囲に騒音が存在する環境で音声を認識する場合、既存の加法性雑音スペクトル推定方法を用いて雑音スペクトル推定部11を構成できる。このように、雑音スペクトル推定部11の具体的な構成は、アプリケーションに応じて周知の方法、あるいは独自開発された方法を用いて実装されるため、本明細書では記述を省略する。
<雑音モデル転移部12、22>
次に、雑音モデル転移部12、22に、雑音のパワースペクトルの時系列(N1≦t≦T、劣化特徴量ベクトルの時系列(y1≦t≦T、及びクリーン音響モデルのパラメータ(π,μ ,Σ 1≦k≦Kが入力される。雑音モデル転移部12、22は、各短時間フレームにおける雑音のパワースペクトルから雑音モデルのパラメータへの転移関数を指定する転移パラメータを最尤推定し、その推定結果に基づいて短時間フレームごとの雑音モデルのパラメータの時系列(μ ,Σ ,μ 1≦t≦Tを出力する(S12、またはS22)。ステップS12、およびS22は、以下に述べる原理にしたがって行われる。
<原理>
雑音モデル転移部12、22では、各短時間フレームにおける雑音モデルの各パラメータは、雑音のパワースペクトルNに関する転移関数z(・;φ)で表されると仮定する。
Figure 0005885686
ただし、φは転移関数を指定するパラメータの集合である。φに含まれる各パラメータをを転移パラメータと呼ぶ。この仮定の下で、雑音モデル転移部12、22は、転移パラメータを次式にしたがって最尤推定する。
Figure 0005885686
ただし、p(t) (・)は後述する式(20)で与えられる短時間フレームtにおける適応化音響モデルを表し、(μ ,Σ ,μ )を通じてφに依存している。なお、式(19)では、左辺のφは推定された固定値、右辺のφは最適化対象の変数として扱われる。転移パラメータの推定後、各短時間フレームにおける雑音モデルのパラメータは式(18)によって計算される。
また、式(18)では転移関数z(・;φ)は短時間フレームtにおける雑音パワースペクトルNの関数としたが、音響的なコンテキストを考慮するために、例えば転移関数を(Nt−1,N,Nt+1)の関数とすることもできる。
<モデル合成部13>
最後に、モデル合成部13は、クリーン音響モデルのパラメータと雑音モデルのパラメータの時系列を入力として受け取り、各短時間フレームにおける適応化音響モデルのパラメータの時系列を出力する(S13)。短時間フレームtにおける適応化音響モデルp(t) (y)は、次式に示すようにGMMで表される。
Figure 0005885686
適応化音響モデルのパラメータは様々な方法で定義することができ、クリーン音響モデルと雑音モデルのパラメータに依存して計算される。以下では、適応化音響モデルのパラメータを定義する2つの方法を例にとって説明する。
<Vector Taylor Series (VTS)適応を用いる場合>
短時間フレームtにおける要素分布kの平均ベクトルと共分散行列は以下の式によって計算される。
Figure 0005885686
ただし、ベクトル関数f(・)と行列関数G(・)は、それぞれ式(9)と式(10)によって定義される。
<Joint Uncertainty Decoding (JUD)適応を用いる場合>
この場合、GMMに含まれる各正規分布は、GMMの学習時に音声回帰クラスと呼ぶいくつかのグループに分類されている。さらに、各短時間フレームにおける雑音モデルの正規分布も、雑音回帰クラスと呼ぶいくつかのグループに分類されている。要素分布kは音声回帰クラスrに、短時間フレームtは雑音回帰クラスsに属していると仮定すると、平均ベクトルと共分散行列は以下の式によって計算される。
Figure 0005885686
ただし、μ は音声回帰クラスrの平均ベクトル、μ は雑音回帰クラスsの平均ベクトルである。
このように、本発明の音響モデル適応化装置によれば、短時間フレームごとに変化する雑音モデルのパラメータを精度よく推定することができる。これにより、雑音の特性が時間に伴って大きく変化する環境でも高い音響モデル適応効果を維持できる。いくつかのアプリケーションでは、雑音のパワースペクトルの変化は、雑音モデル―すなわち加法性雑音の特徴量ベクトルの確率分布や乗法性雑音の特徴量ベクトル―のパラメータの変化よりもずっと容易に検出できる。これは、パワースペクトルは調波構造や音の伝播特性の情報を保持しているのに対して、スペクトル包絡しか表さない特徴量ベクトルにはこうした情報が欠落しているためである。例えば、残響音声認識では、認識性能低下の主な要因である後部残響のパワースペクトルを、音の伝播特性に基づいて推定できる。なお、後部残響は速く変化する加法性の雑音と見做される。本発明の音響モデル適応化装置の雑音スペクトル推定部は、劣化音声信号を入力として雑音のパワースペクトルを推定するよう構成されているため、雑音の特性の変化を精度よく推定できる。雑音モデル転移部は、こうして得られた雑音のパワースペクトルを、クリーン音響モデルと劣化特徴量の時系列に適合するように雑音モデルに変換する。よって、この構成によって、短時間フレーム毎に変化する雑音モデルのパラメータを、精度良く推定できる。
以下では、本発明の雑音モデル転移部の詳細な機能構成について、具体例を挙げて説明する。ただし、本発明の実施例は下記に述べる実施例に限定されない。本発明は、上述した技術的思想の範囲内において様々な形態で実施することができる。
<雑音モデル転移部12>
以下、図7、8を参照して実施例1の雑音モデル転移部12について詳細に説明する。図7は本実施例に係る雑音モデル転移部12の構成を示すブロック図である。図8は本実施例に係る雑音モデル転移部12の動作を示すフローチャートである。
本実施例の音響モデル適応化装置1は、特徴量ベクトルとして対数メルフィルタバンクを用い、モデル合成部13は上述したVTSで実装されている。この雑音モデル転移部12の機能構成例では、転移関数z(・)は次式によって実装される。
Figure 0005885686
ただし、flogmel(・)はパワースペクトルを対数メルフィルタバンク特徴量に変換する関数を表す。行列A、及びベクトルbとhは転移パラメータであり、φ=(A、b、h)と書ける。以下では、d=[flogmel(N)’,1]’と表す。
本実施例の雑音モデル転移部12は繰り返し処理に基づく。図7に示すように、本実施例の雑音モデル転移部12は、初期化手段121と、MUX手段122と、期待値計算手段123と、補助関数最大化手段124と、収束判定手段125とを備える。期待値計算手段123と補助関数最大化手段124はループを構成している。繰り返しのインデクスをiと書き、ループを一巡する毎にiの値は1ずつ増える。正確を期するため、繰り返し推定の途中で得られる転移パラメータを特に、転移パラメータの暫定値と呼ぶ。以下、各処理手段について説明する。初期化手段121は、転移パラメータA、b、hの各初期値A、b、hを設定し、これらを出力する(SS121)。例えば、0と1をそれぞれ零ベクトル及び壱ベクトルとして、A=[I、0]、b=1、h=0とすることができる。
MUX手段122は、転移パラメータの初期値と、後述する更新された転移パラメータの暫定値を入力として受け取り、ループの一巡目では転移パラメータの初期値を転移パラメータの暫定値として出力し、二巡目以降では更新された転移パラメータの暫定値を転移パラメータの暫定値として出力する(SS122)。
期待値計算手段123は、一巡前のループで計算された転移パラメータの暫定値であるA、b、hと、雑音のパワースペクトルの時系列と、劣化特徴量ベクトルの時系列と、クリーン音響モデルのパラメータを入力として受け取り、次の3種類の変数の値を出力する(SS123)。
<γk,t,i
A=A、b=b、h=hと仮定(つまり転移パラメータの暫定値が転移パラメータの真の値であると仮定)した場合における、クリーン特徴量ベクトルxがクリーン音響モデルのk番目の要素分布から出力された事後確率である。具体的には、この事後確率は次式によって計算される。
Figure 0005885686
ただし、μ k,t,iとΣ k,t,iは、それぞれ転移パラメータの暫定値を用いて計算したμ k,tとΣ k,tの値である。
<μN|Y k,t,i
A=A,b=b,h=hと仮定(つまり転移パラメータの暫定値が転移パラメータの真の値であると仮定)した場合における、加法性雑音の特徴量ベクトルの事後分布p(t) N|Y(n|y,k)の平均ベクトルである。具体的には、この平均ベクトルは次式によって計算される。
Figure 0005885686
ただし,μ t,i,Σ t,i,G k,t,iは,それぞれ転移パラメータの暫定値を用いて計算したμ ,Σ ,G k,tの値である。
<ΣN|Y k,t,i
A=A,b=b,h=hと仮定(つまり転移パラメータの暫定値が転移パラメータの真の値であると仮定)した場合における、加法性雑音の特徴量ベクトルの事後分布p(t) N|Y(n|y,k)の共分散行列である。具体的には、この共分散行列は次式によって計算される。
Figure 0005885686
ただし、ΣY|N k,t,iは転移パラメータの暫定値を用いて計算したΣY|N k,tである。ΣY|N k,tの算出方法は式(39)に後述する。補助関数最大化手段124は、期待値計算手段123で計算された上記変数値(事後確率、事後平均ベクトル、事後共分散行列)を入力として受け取り、次式の補助関数を最大化する転移パラメータを計算し、これらを更新された転移パラメータの暫定値として出力する(SS124)。すなわち、更新された転移パラメータの暫定値は以下のように計算される。
Figure 0005885686
ただし、xの確率密度関数p(x)と関数f(x)に対して、〈f(x)〉p(x)はf(x)のxに関する期待値を表す。また、各短時間フレームと各要素分布に対して、yの条件付き確率密度関数p(t) Y|K,N(・|k,n)は次式で計算される。
Figure 0005885686
上記最大化処理は勾配法等の汎用的な最適化アルゴリズムを用いて達成できる他、次式によっても実行できる。
Figure 0005885686
ただし、行列Xに対して、DIAG(X)はXの対角成分を並べたベクトルを表す。
Figure 0005885686
収束判定手段125は、更新された転移パラメータの暫定値を入力として受け取り、上記繰り返し処理による転移パラメータの推定処理が収束しているか否かを判定し(SS125A)、推定処理が収束していると判定される場合には(SS125BY)、A=Ai+1、b=bi+1、h=hi+1として更新された転移パラメータの暫定値を転移パラメータとして確定させ、式(29)〜(31)を用いて雑音モデルのパラメータの時系列を算出し、これを出力する(SS125C)。収束していると判定されなかった場合(SS125BN)、サブステップSS122にもどり、ループ処理が再開される。収束判定条件としては、例えば繰り返し回数が所定の回数に達しているか否かや、転移パラメータの暫定値の変化が所定の閾値より小さいか否か等を用いることができる。
以上、すべての短時間フレームにおける劣化特徴量ベクトルを用いて転移パラメータを推定するバッチ処理の方法について説明したが、同様の処理をt=1、2、・・・に対して順に実施することでオンライン処理によって転移パラメータを推定することもできる。
<雑音モデル転移部22>
以下、図9、図10を参照して実施例2の雑音モデル転移部22について詳細に説明する。図9は本実施例に係る雑音モデル転移部22の構成を示すブロック図である。図10は本実施例に係る雑音モデル転移部22の動作を示すフローチャートである。
実施例1では、特徴量ベクトルとして対数メルフィルタバンクを用い、モデル合成部13にVTSを用いる構成について説明した。ここでは、別の実施例として、特徴量ベクトルとしてMFCCを用い、モデル合成部13にJUDを用いる構成について説明する。ただし、ここで述べる実施例2と既に説明した実施例1とでは、図7、図9に示すブロック図と図8、図10に示すフローチャートは同一であり、処理対象のデータと各処理部の実装のみが異なる。本実施例における雑音モデル転移部22の機能構成例では、転移関数z(・)は次式によって実装される。
Figure 0005885686
行列B、及びベクトルaとhは転移パラメータであり、φ=(a、B、h)と書ける。図9に示すように、本実施例の雑音モデル転移部22は、初期化手段221と、MUX手段222と、期待値計算手段223と、補助関数最大化手段224と、収束判定手段225とを備える。実施例1と同様に期待値計算手段223と補助関数最大化手段224はループを構成している。
初期化手段221は、転移パラメータa、B、cの各初期値a、B、cを設定し、これらを出力する(SS221)。例えば、a=0、B=I、h=0とすることができる。
MUX手段222は、転移パラメータの初期値と更新された転移パラメータの暫定値を入力として受け取り、ループの一巡目では転移パラメータの初期値を転移パラメータの暫定値として出力し、二巡目以降では更新された転移パラメータの暫定値を転移パラメータの暫定値として出力する(SS222)。
期待値計算手段223は、一巡前のループで計算された転移パラメータの暫定値であるa,B,hと、雑音のパワースペクトルの時系列と、劣化特徴量ベクトルの時系列と、クリーン音響モデルのパラメータを入力として受け取り、γk,t,i,μN|Y k,t,i,ΣμN|Y k,t,iを出力する(SS223)。これらの値は、それぞれ前述した式(32)、(33)、(34)にしたがって計算される。ただし、式(34)に現れるΣY|N k,tは、式(39)に代えて後述する式(55)を用いて算出される。補助関数最大化手段224は、期待値計算手段223で計算された上記変数値(事後確率、平均ベクトル、共分散行列)を入力として受け取り、次式の補助関数を最大化する転移パラメータを計算し、これらを更新された転移パラメータの暫定値として出力する(SS224)。すなわち、更新された転移パラメータの暫定値は以下のように計算される。
Figure 0005885686
ただし、各短時間フレームと各要素分布に対して、yの条件付き確率密度関数p(t) Y|K,N(・|k,n)は次式で計算される。
Figure 0005885686
上記最大化処理は勾配法等の汎用的な最適化アルゴリズムを用いて達成される。収束判定手段225は、更新された転移パラメータの暫定値を入力として受け取り、上記繰り返し処理による転移パラメータの推定処理が収束しているか否かを判定し(SS225A)、推定処理が収束していると判定される場合には(SS225BY)、a=ai+1,B=Bi+1,h=hi+1として更新された転移パラメータの暫定値を転移パラメータとして確定させ、式(48)〜(50)を用いて雑音モデルのパラメータの時系列を算出し、これを出力する(SS225C)。収束していると判定されなかった場合(SS225BN)、サブステップSS222にもどり、ループ処理が再開される。収束判定条件としては、例えば繰り返し回数が所定の回数に達しているか否かや、転移パラメータの暫定値の変化が所定の閾値より小さいか否か等を用いることができる。
以上、すべての短時間フレームにおける劣化特徴量ベクトルを用いて転移パラメータを推定するバッチ処理の方法について説明したが、同様の処理をt=1、2、・・・に対して順に実施することでオンライン処理によって転移パラメータを推定することもできる。
<コンピュータを用いた本発明の実現>
以下、本発明の音響モデル適応化装置をコンピュータにより実現する場合について説明する。図11は本発明の音響モデル適応化装置をコンピュータにより実現するときの構成を例示する図である。図11に示すように、本発明の音響モデル適応化装置を実現するコンピュータは、演算処理装置1000、出力装置2000、入力装置3000、記録装置4000などから構成される。上述した本発明の話者適応化装置は、図11に示すコンピュータの記録装置4000に、本発明の各構成部としてコンピュータを動作させるプログラムを読み込ませ、演算処理装置1000、出力装置2000、入力装置3000、記録装置4000等を動作させることで実現できる。
また、コンピュータにプログラムやデータを読み込ませる方法としては、プログラムやデータをコンピュータが読み取り可能な記録媒体に記録しておいて記録媒体からコンピュータに読み込ませる方法、サーバ等に記録されたプログラムやデータを電気通信回線等を通じてコンピュータに読み込ませる方法、等が挙げられる。
<実験結果>
図12を参照して本発明を用いて残響音声の認識を行った実験の結果を説明する。図12は実施例1の音響モデル適応化装置1を用いて雑音抑圧を行った場合の音声認識結果(単語誤り率)を示す図である。本実験では、前述した通り後部残響が加法性雑音に相当する。実験には20000語のWallStreetJournalデータベースの学習データと評価データを用いた。学習データは、雑音抑圧装置のクリーン音響モデルと音声認識装置のクリーン音響モデルを学習するのに用いた。評価データセットは、残響音声を模擬するために、このデータセットに含まれる各発話と予め計測したインパルス応答を畳み込んでから使用した。評価データセットには8名の話者による発話が含まれていた。図12に示すように、実施例1の音響モデル適応化装置1によりクリーン学習(音声認識用の音響モデルをクリーンな学習データセットを用いて作成)、マルチコンディション学習(音声認識用の音響モデルを残響を含む学習データセットを用いて作成)のいずれにおいても単語誤り率が顕著に減少しており、本発明が残響のような非定常な雑音に対しても有効であることが示された。

Claims (8)

  1. 劣化音声信号を入力とし、各短時間フレームにおける雑音のパワースペクトルを推定し、前記雑音のパワースペクトルの時系列を出力する雑音スペクトル推定部と、
    前記雑音のパワースペクトルの時系列と、前記劣化音声信号の特徴量ベクトルである劣化特徴量ベクトルの時系列と、クリーンな環境で収録された音声信号から学習された音響モデルであるクリーン音響モデルのパラメータを入力とし、各短時間フレームにおける雑音のパワースペクトルから雑音モデルのパラメータへの転移関数を指定する転移パラメータを最尤推定し、その推定結果に基づいて短時間フレームごとの雑音モデルのパラメータの時系列を出力する雑音モデル転移部と、
    前記クリーン音響モデルのパラメータと前記雑音モデルのパラメータの時系列を入力とし、各短時間フレームにおける適応化音響モデルのパラメータの時系列を出力するモデル合成部と、
    を含む音響モデル適応化装置。
  2. 前記雑音モデル転移部は、
    前記転移パラメータの初期値を設定し、前記転移パラメータの初期値を出力する初期化手段と、
    前記転移パラメータの初期値と、更新された転移パラメータの暫定値を入力とし、前記転移パラメータの初期値、または前記更新された転移パラメータの暫定値を転移パラメータの暫定値として出力するMUX手段と、
    前記転移パラメータの暫定値と、前記雑音のパワースペクトルの時系列と、前記劣化特徴量ベクトルの時系列と、前記クリーン音響モデルのパラメータを入力とし、前記転移パラメータの暫定値が真の値であると仮定した場合における、クリーン音響モデルの各要素分布の事後確率、及び加法性雑音の特徴量ベクトルの事後分布の平均ベクトルと共分散行列の値を出力する期待値計算手段と、
    前記事後確率と、前記平均ベクトルと、前記共分散行列を入力とし、補助関数を最大化する転移パラメータを計算して、計算された転移パラメータを更新された転移パラメータの暫定値として出力する補助関数最大化手段と、
    前記更新された転移パラメータの暫定値を入力とし、前記転移パラメータの推定処理が収束しているか否かを判定し、前記推定処理が収束していると判定される場合には前記更新された転移パラメータの暫定値を用いて雑音モデルのパラメータの時系列を計算して出力する収束判定手段と、
    をさらに含む請求項1に記載の音響モデル適応化装置。
  3. 前記モデル合成部が、
    VTS適応を用いて各短時間フレームにおける適応化音響モデルのパラメータの時系列を計算する
    請求項1または2に記載の音響モデル適応化装置。
  4. 前記モデル合成部が、
    JUD適応を用いて各短時間フレームにおける適応化音響モデルのパラメータの時系列を計算する
    請求項1または2に記載の音響モデル適応化装置。
  5. 劣化音声信号を入力とし、各短時間フレームにおける雑音のパワースペクトルを推定し、前記雑音のパワースペクトルの時系列を出力する雑音スペクトル推定ステップと、
    前記雑音のパワースペクトルの時系列と、前記劣化音声信号の特徴量ベクトルである劣化特徴量ベクトルの時系列と、クリーンな環境で収録された音声信号から学習された音響モデルであるクリーン音響モデルのパラメータを入力とし、各短時間フレームにおける雑音のパワースペクトルから雑音モデルのパラメータへの転移関数を指定する転移パラメータを最尤推定し、その推定結果に基づいて短時間フレームごとの雑音モデルのパラメータの時系列を出力する雑音モデル転移ステップと、
    前記クリーン音響モデルのパラメータと前記雑音モデルのパラメータの時系列を入力とし、各短時間フレームにおける適応化音響モデルのパラメータの時系列を出力するモデル合成ステップと、
    を含む音響モデル適応化方法。
  6. 前記雑音モデル転移ステップは、
    前記転移パラメータの初期値を設定し、前記転移パラメータの初期値を出力する初期化サブステップと、
    前記転移パラメータの初期値と、更新された転移パラメータの暫定値を入力とし、前記転移パラメータの初期値、または前記更新された転移パラメータの暫定値を転移パラメータの暫定値として出力するMUXサブステップと、
    前記転移パラメータの暫定値と、前記雑音のパワースペクトルの時系列と、前記劣化特徴量ベクトルの時系列と、前記クリーン音響モデルのパラメータを入力とし、前記転移パラメータの暫定値が真の値であると仮定した場合における、クリーン音響モデルの各要素分布の事後確率、及び加法性雑音の特徴量ベクトルの事後分布の平均ベクトルと共分散行列の値を出力する期待値計算サブステップと、
    前記事後確率と、前記平均ベクトルと、前記共分散行列を入力とし、補助関数を最大化する転移パラメータを計算して、計算された転移パラメータを更新された転移パラメータの暫定値として出力する補助関数最大化サブステップと、
    前記更新された転移パラメータの暫定値を入力とし、前記転移パラメータの推定処理が収束しているか否かを判定し、前記推定処理が収束していると判定される場合には前記更新された転移パラメータの暫定値を用いて雑音モデルのパラメータの時系列を計算して出力する収束判定サブステップと、
    をさらに含む請求項5に記載の音響モデル適応化方法。
  7. 前記モデル合成ステップが、
    VTS適応を用いて各短時間フレームにおける適応化音響モデルのパラメータの時系列を計算する
    請求項5または6に記載の音響モデル適応化方法。
  8. 請求項5から7の何れかに記載された音響モデル適応化方法の各ステップをコンピュータに実行させるためのプログラム。
JP2013032989A 2013-02-22 2013-02-22 音響モデル適応化装置、音響モデル適応化方法、プログラム Active JP5885686B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013032989A JP5885686B2 (ja) 2013-02-22 2013-02-22 音響モデル適応化装置、音響モデル適応化方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013032989A JP5885686B2 (ja) 2013-02-22 2013-02-22 音響モデル適応化装置、音響モデル適応化方法、プログラム

Publications (2)

Publication Number Publication Date
JP2014164023A JP2014164023A (ja) 2014-09-08
JP5885686B2 true JP5885686B2 (ja) 2016-03-15

Family

ID=51614694

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013032989A Active JP5885686B2 (ja) 2013-02-22 2013-02-22 音響モデル適応化装置、音響モデル適応化方法、プログラム

Country Status (1)

Country Link
JP (1) JP5885686B2 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3452443B2 (ja) * 1996-03-25 2003-09-29 三菱電機株式会社 騒音下音声認識装置及び騒音下音声認識方法
JP5609182B2 (ja) * 2010-03-16 2014-10-22 日本電気株式会社 音声認識装置、音声認識方法および音声認識プログラム

Also Published As

Publication number Publication date
JP2014164023A (ja) 2014-09-08

Similar Documents

Publication Publication Date Title
Li et al. An overview of noise-robust automatic speech recognition
JP3457431B2 (ja) 信号識別方法
EP0886263B1 (en) Environmentally compensated speech processing
JP4245617B2 (ja) 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
JP6243858B2 (ja) 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム
JP4586577B2 (ja) 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム
JP5242782B2 (ja) 音声認識方法
US20170221479A1 (en) Noise compensation in speaker-adaptive systems
JP6748304B2 (ja) ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム
JP5713818B2 (ja) 雑音抑圧装置、方法及びプログラム
JP5670298B2 (ja) 雑音抑圧装置、方法及びプログラム
JP5997114B2 (ja) 雑音抑圧装置、雑音抑圧方法、およびプログラム
JP5740362B2 (ja) 雑音抑圧装置、方法、及びプログラム
JP5885686B2 (ja) 音響モデル適応化装置、音響モデル適応化方法、プログラム
Wang et al. Improving reverberant VTS for hands-free robust speech recognition
JP4729534B2 (ja) 残響除去装置、残響除去方法、残響除去プログラム、および、その記録媒体
JP4464797B2 (ja) 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
JP5457999B2 (ja) 雑音抑圧装置とその方法とプログラム
Han et al. Switching linear dynamic transducer for stereo data based speech feature mapping
Techini et al. Robust front-end based on MVA and HEQ post-processing for Arabic speech recognition using hidden Markov model toolkit (HTK)
Lu et al. Robust speech recognition using improved vector Taylor series algorithm for embedded systems
JP4242320B2 (ja) 音声認識方法、その装置およびプログラム、その記録媒体
JP5498452B2 (ja) 背景音抑圧装置、背景音抑圧方法、およびプログラム
Munteanu et al. Robust Romanian language automatic speech recognizer based on multistyle training
Wang et al. Model-based approaches to adaptive training in reverberant environments.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150114

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160209

R150 Certificate of patent or registration of utility model

Ref document number: 5885686

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150