JP5997114B2

JP5997114B2 - 雑音抑圧装置、雑音抑圧方法、およびプログラム

Info

Publication number: JP5997114B2
Application number: JP2013168441A
Authority: JP
Inventors: 雅清藤本; 陽太郎久保; 中谷　智広; 智広中谷
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2013-08-14
Filing date: 2013-08-14
Publication date: 2016-09-28
Anticipated expiration: 2033-08-14
Also published as: JP2015036769A

Description

本発明は、複数の音響信号が含まれる信号から、雑音信号を抑圧して所望の信号を抽出するための雑音抑圧技術に関する。

自動音声認識技術を実際の環境で利用する場合においては、処理対象とする音声信号以外の信号、つまり雑音が含まれる音響信号から、雑音を取り除き所望の音声信号のみを抽出する必要がある。自動音声認識の実際の環境での利用は今後の情報化社会の中で大きく期待されており、早急に解決されるべき問題である。

非特許文献１は、音声信号と雑音信号が混合された信号を入力とし、あらかじめ推定した音声信号、および雑音信号それぞれの確率モデルから入力信号の確率モデルを生成する．その際、入力信号の確率モデルを構成する音声信号、および雑音信号それぞれの確率モデルと、入力信号に含まれる音声信号、および雑音信号それぞれの統計量との差分をテイラー級数近似で表現する。その差分をExpectation-Maximization(EM）アルゴリズムを用いて推定し、入力信号の確率モデルを最適化する。その後、最適化された入力信号の確率モデルと音声信号の確率モデルのパラメータを用いて雑音を抑圧する。

非特許文献２は，音声信号と雑音信号が混合された信号を入力とし、統計的な性質が多峰的な分布に従う雑音信号に対処するため、入力信号より雑音信号の最小二乗推定値を抽出し、抽出した雑音信号の最小二乗推定値を用いて多峰的な分布に従う雑音信号の確率モデルをＥＭアルゴリズムにより推定する。その後、あらかじめ推定した音声信号の確率モデルと推定した雑音の確率モデルから入力信号の最適な確率モデルを生成する。その後、最適化された入力信号の確率モデルと音声信号の確率モデルのパラメータを用いて雑音を抑圧する。

P. J. Moreno, B. Raj, and R. M. Stern, "A vector Taylor series approach for environment-independent speech recognition," in Proceedings of ICASSP ’96, vol. II, pp. 733-736, May 1996. M. Fujimoto, S. Watanabe, and T. Nakatani, "A robust estimation method of noise mixture model for noise suppression," in Proceedings of Interspeech ’11, pp. 697-700, Aug. 2011.

実際の環境で自動音声認識を行うにあたり必要不可欠な技術は、入力音響信号から雑音を取り除き、高品質な音声信号を得る雑音抑圧技術である。

非特許文献１では、入力信号に含まれる雑音信号の特徴が定常的かつ、その分布（頻度分布もしくは確率分布）が単峰性であるという前提のもとで雑音抑圧を行う技術である。つまり、予め推定しておく雑音分布を表現する確率モデルは単峰性の確率モデルである。しかし、実環境における雑音信号の多くは非定常的な特徴を持ち、その分布は多峰性であることが多い。そのため、非特許文献１に記載の技術では、非定常的な雑音信号に対応できず、十分な雑音抑圧性能が得られない。

非特許文献２では、雑音信号のモデルとして、多峰的な分布に従う雑音信号の確率モデルを推定する方法が開示されている。そのため、非特許文献２に記載の技術では、非定常的な雑音信号に対応することが可能となっている。しかし、ここでは雑音信号のモデルを構成する要素分布の数を固定値(L個)と仮定し、L個の要素分布の混合分布で雑音信号の多峰的な分布が表現されるものとして、その雑音信号のモデルを構成するパラメータを推定する。雑音信号には様々な特性の信号があり、信号によってそれを表現するのに適した混合分布に含まれる要素分布の数（上述のLの値）が異なる。しかし，非特許文献２では、雑音信号の確率モデルを構成する要素分布の数が事前に決定された固定値であるため、雑音信号の統計的な性質に応じた柔軟な確率モデルの推定が困難であり，十分な雑音抑圧性能を得ることができない。

このような状況に鑑み、本発明の目的は、雑音信号の統計的な性質に応じて雑音の確率モデルの構造を適応的に推定することにより、様々な統計的な性質をもつ雑音信号を効果的に抑圧することが可能な雑音抑圧技術を提供することにある。

本発明は、音声信号と雑音信号とを含む音響信号を入力信号とし、入力信号より雑音信号を取り除いて音声信号のみを抽出する。まず、雑音信号の確率モデルが１以上の要素分布から構成されるものとし、音声信号の確率モデルを用いて、入力信号に含まれる雑音信号の分布を表現する雑音信号の確率モデルの規定パラメータである雑音事前分布のパラメータを推定する。この雑音事前分布のパラメータを用いて、入力信号に含まれる雑音信号分布を表現する雑音信号の確率モデルを構成する要素分布の個数と、当該雑音信号の確率モデルの各要素分布のパラメータと、を推定する。このように推定された要素分布の個数および要素率分布パラメータを用いて構成される雑音信号の確率モデルと音声信号の確率モデルを用いて、入力信号に含まれる雑音信号を入力信号から取り除いた信号を出力信号として得る。

本発明では、雑音事前分布のパラメータを用いて、入力信号に含まれる雑音信号の確率モデルを構成する要素分布の個数を推定することとした。これにより、入力信号に応じて雑音信号の確率モデルを構成する要素分布の個数を適応的に変えることができ、入力信号に含まれる雑音信号を効果的に抑圧することが可能となる。その結果、様々な統計的な性質をもつ雑音信号を効果的に抑圧することができる。

雑音抑圧装置の機能構成例。音響特徴抽出部および雑音事前分布推定部の機能構成例。雑音モデル推定部の機能構成例。音響特徴抽出部の処理手順例。雑音事前分布推定部の処理手順例。雑音モデル推定部の処理手順例。雑音抑圧部の機能構成例。雑音抑圧フィルタ推定部および雑音抑圧フィルタ適用部の機能構成例。雑音抑圧フィルタ推定部の処理手順例。雑音抑圧フィルタ適用部の処理手順例。雑音抑圧の実験例。

以下、図面を参照しつつ、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同一の構成要素には同一の符号を付してある。それらの名称、機能も同一であり、それらについての説明は繰り返さない。以下の説明において、ベクトルの各要素単位で行われる処理は、特に断りが無い限り、全てのベクトル、行列の全ての要素に対して適用されるものとする。

［骨子］
収音された入力信号に含まれる雑音信号を効果的に抑圧するためには、雑音信号の統計的な性質を正確にとらえ、適切な確率的モデリングの実施が必要となる。ここでの「雑音信号の統計的な性質」とは、例えば、雑音信号の分布が単峰性であるか、多峰性であるか、また、多峰性の場合にいくつの要素分布の重ねあわせで近似（表現）できるか、である。しかしながら、雑音信号の統計的な性質を事前に知ることは困難であり、特に様々な時間変化（状態遷移過程）を伴う非定常雑音の確率モデルを、与えられた入力信号のみから推定することは困難である。特に、雑音信号の確率モデルの構造（例えば、状態数や要素分布数）は、雑音信号の統計的な性質により大きく異なるため、確率モデルの適切な構造の選択、推定が極めて重要な要素となる。

それゆえに、本実施形態では、雑音信号の統計的な性質に応じた雑音信号の確率モデルの構造の推定を実施する。このような方法を用いることにより、様々な統計的な性質をもつ雑音信号の効果的な抑圧が可能となる。この例として、以下では、音声信号の確率モデルおよび雑音信号の確率モデルにＧＭＭ（Gaussian Mixture Model）を採用し、雑音信号の統計的な性質に応じて雑音信号のＧＭＭに含まれるガウス分布の数（すなわち要素分布の数）を適切に推定する。

［雑音抑圧装置１００全体の構成］
本実施形態の雑音抑圧装置１００を図１に例示する。
本実施形態の雑音抑圧装置１００は、音声信号と雑音信号とが混合された入力信号から雑音を抑圧するための特徴量を抽出する音響特徴抽出部１０４と、特徴量とＧＭＭ記憶部１０８に記憶されている音声信号の確率モデルのパラメータセットとを用いて、雑音事前分布のパラメータを推定する雑音事前分布推定部１０５と、特徴量と音声信号の確率モデルのパラメータセットと雑音事前分布のパラメータとを用いて、雑音信号の確率モデルのパラメータセットを推定する雑音モデル推定部１０６と、入力信号の複素数スペクトルと特徴量と音声信号の確率モデルのパラメータセットと雑音信号の確率モデルのパラメータセットとを用いて雑音抑圧フィルタを設計し、入力信号の雑音信号を抑圧して雑音抑圧信号を得て出力する雑音抑圧部１０７を含む。

［音響特徴抽出部１０４の構成］
図２Ａに例示するように、本実施形態の音響特徴抽出部１０４は、フレーム切出部１０４ａ、高速フーリエ変換部１０４ｂ、メルフィルタバンク分析部１０４ｃ、および対数化部１０４ｄを有し、入力信号からフレーム毎に特徴量を抽出する。音響特徴抽出部１０４は、例えば、図４に示す流れで処理を行う。まず、フレーム切出部１０４ａが、時間領域の入力信号o_τ（ただし、τは離散信号のサンプル点、o_τはサンプル点τの入力信号）の列から、時間軸方向に一定時間幅Shtで始点を移動させながら、一定時間長Frmの音響信号の列をフレームとして切り出す（Ｓ２０１：フレーム切り出し処理）。例えば、フレーム切出部１０４ａは、Frm=320個のサンプル点（16,000Hz×20ms）の音響信号o_t,nからなる列を、Sht=160個のサンプル点(16,000Hz×10ms）ずつ始点を移動させながら切り出す。その際、フレーム切出部１０４ａは、例えば以下のハミング窓のような窓関数w_nを掛け合わせて切り出す。ここでtはフレーム番号、nはフレーム内のn番目のサンプル点を表す。また、o_t,nはフレーム番号ｔのフレーム内のn番目のサンプル点の音響信号を表す。

その後、高速フーリエ変換部１０４ｂは、o_t,nの列に対してM点（Mは２のべき乗、かつFrm以上の値であり、例えば512に設定）の高速フーリエ変換処理を適用して、入力信号の複素数スペクトルSpc_t={Spc_t,0,…,Spc_t,m,…,Spc_t,M-1}（ただし、mは周波数ビンの番号）を得て出力する（Ｓ２０２）。

次に、メルフィルタバンク分析部１０４ｃおよび対数化部１０４ｄは、Spc_t,mの絶対値に対してメルフィルタバンク分析処理（Ｓ２０３）と対数化処理（Ｓ２０４）をそれぞれ適用し、入力信号のＤ次元（ただし、Dは正の整数であり、例えばD=24）の対数メルスペクトルO_t={O_t,0,…,O_t,d,…,O_t,D-1}を算出して出力する（ただし、dはベクトルの要素番号）。すなわち、音響特徴抽出部１０４の出力である特徴量の一例は、入力信号の複素数スペクトルSpc_tと、入力信号の対数メルスペクトルO_tである。入力信号の複素数スペクトルSpc_tは、雑音抑圧部１０７の入力となり、入力信号の対数メルスペクトルO_tは、雑音事前分布推定部１０５と、雑音モデル推定部１０６と、雑音抑圧部１０７との入力となる。

［雑音事前分布推定部１０５の構成］
＜原理＞
雑音事前分布を推定するにあたり、まず雑音事前分布の定義を説明する。本実施形態では、音声信号の確率モデルが無音ＧＭＭ１０９とクリーン音声ＧＭＭ１１０とからなる例について説明をする。無音ＧＭＭ１０９およびクリーン音声ＧＭＭ１１０は次式により与えられる。

上式において、jは無音ＧＭＭ１０９とクリーン音声ＧＭＭ１１０とを識別するインデックスであり、j=0は無音ＧＭＭ１０９、j=1はクリーン音声ＧＭＭ１１０を示し、kは無音ＧＭＭ１０９またはクリーン音声ＧＭＭ１１０に含まれるガウス分布の番号、Kは総ガウス分布数である(例えばK=128）。また、S_t={S_t,0,…,S_t,d,…,S_t,D-1}は音声信号の特徴量（例えば、対数メルスペクトル）であり、λ_S,jは無音ＧＭＭ１０９またはクリーン音声ＧＭＭ１１０のパラメータセットλ_S,j={w_S,j,k,μ_S,j,k,Σ_S,j,k}である。w_S,j,kは無音ＧＭＭ１０９またはクリーン音声ＧＭＭ１１０の混合重みであり、μ_S,j,k={μ_S,j,k,0,…,μ_S,j,k,d,…,μ_S,j,k,D-1}は無音ＧＭＭ１０９またはクリーン音声ＧＭＭ１１０に含まれる各ガウス分布の平均ベクトルであり、Σ_S,j,k=diag{σ_S,j,k,0,…,σ_S,j,k,d,…,σ_S,j,k,D-1}は無音ＧＭＭ１０９またはクリーン音声ＧＭＭ１１０に含まれる各ガウス分布の対角分散行列である。また、p(S_t|λ_S,j)は無音ＧＭＭ１０９またはクリーン音声ＧＭＭ１１０の尤度であり、パラメータλ_S,jからなる無音ＧＭＭ１０９またはクリーン音声ＧＭＭ１１０における音声信号S_tの尤度である。すなわち、p(S_t|λ_S,j=0)はパラメータλ_S,j=0からなる無音ＧＭＭ１０９における音声信号S_tの無音らしさの指標値であり、p(S_t|λ_S,j=1)はパラメータλ_S,j=1からなるクリーン音声ＧＭＭ１１０における音声信号S_tの音声らしさの指標値である。それぞれのパラメータは多数話者の学習用音声データを用いて事前に推定される。関数N(・|・)は、次式で与えられるガウス分布の確率密度関数である。

一方、雑音信号の確率モデルを、無音ＧＭＭ１０９およびクリーン音声ＧＭＭ１１０と同様に、次式のＧＭＭ（以下、雑音ＧＭＭと呼ぶ）で定義する。

上式において、vは雑音ＧＭＭに含まれるガウス分布の番号、Lは総ガウス分布数である(Lは１以上の整数）。つまり、本実施形態では、雑音信号の確率モデルを１個以上のガウス分布の混合分布であると仮定する。N_t={N_t,0,…,N_t,d,…,N_t,D-1}は雑音信号の特徴量（例えば、対数メルスペクトル）であり、λ_Nは雑音ＧＭＭのパラメータセットλ_N={w_N,v,μ_N,v,Σ_N,v}（ただし、v=1,...,L）であり、w_N,vは雑音ＧＭＭの混合重みであり、μ_N,v={μ_N,v,0,…,μ_N,v,d,…,μ_N,v,D-1}は雑音ＧＭＭの平均ベクトル（雑音ＧＭＭに含まれる各ガウス分布の平均からなるベクトル）であり、Σ_N,v=diag{σ_N,v,0,…,σ_N,v,d,…,σ_N,v,D-1}は雑音ＧＭＭの対角分散行列（雑音ＧＭＭに含まれる各ガウス分布の分散を対角成分とする行列）である。p(N_t|λ_N)はλ_Nを雑音パラメータとする雑音ＧＭＭにおける雑音信号N_tの尤度（雑音らしさの指標値）である。

上記のように雑音ＧＭＭを定義したとき、雑音ＧＭＭのパラメータを生成する共役事前分布（以下、雑音事前分布と呼ぶ）は次式により与えられる。

上式において、雑音事前分布のパラメータセットをΘ_N ⁽⁰⁾={μ_N ⁽⁰⁾,ξ⁽⁰⁾,η⁽⁰⁾,R_N ⁽⁰⁾}と定義する。μ_N ⁽⁰⁾={μ_N,0 ⁽⁰⁾,…,μ_N,d ⁽⁰⁾,…,μ_N,D−1 ⁽⁰⁾}は雑音事前分布のガウス分布部分（ガウス分布成分）の平均ベクトル(以下、事前平均ベクトルと呼ぶ）であり、ξ⁽⁰⁾は雑音事前分布の自由度である。関数G(・|・)は次式で与えられるガンマ分布の確率密度関数であり、η⁽⁰⁾はガンマ分布の形状パラメータ、R_N ⁽⁰⁾={r_N,0 ⁽⁰⁾,…,r_N,d ⁽⁰⁾,…,r_N,D−1 ⁽⁰⁾}はガンマ分布の尺度パラメータである。なお、式（５）に示すように、「μ_N,d ⁽⁰⁾」の上付き添え字「（０）」は、本来、下付き添え字「Ｎ，ｄ」の真上に記載すべきものであるが、表記の制約上、明細書中で「μ_N,d ⁽⁰⁾」と記載する場合がある。その他の同様な添え字についても同様な記載をする場合がある。

上式において、Γ(・)はガンマ関数を示す。雑音事前分布のパラメータセットΘ_N ⁽⁰⁾のうち、自由度ξ⁽⁰⁾と形状パラメータη⁽⁰⁾とは、それぞれ予め設定しておく定数とする。例えば、ξ⁽⁰⁾=1，η⁽⁰⁾=1とすればよい。

雑音事前分布推定部１０５は、平均ベクトルμ_N ⁽⁰⁾と尺度パラメータR_N ⁽⁰⁾とをそれぞれ推定することにより、入力信号の雑音事前分布を求める。ここで、式(6)で与えられるガンマ分布の期待値は、E[y]=η/rで与えられ、その逆数はガウス分布の分散σの期待値に相当する。すなわち、雑音事前分布のガウス分布部分（ガウス分布成分）の対角分散行列（以下、事前対角分散行列と呼ぶ）Σ_N ⁽⁰⁾=diag{σ_N,0 ⁽⁰⁾,…,σ_N,d ⁽⁰⁾,…,σ_N,D−1 ⁽⁰⁾}を推定することにより、尺度パラメータR_N ⁽⁰⁾が、

として求まる。

＜雑音事前分布のパラメータ推定＞
図２Ｂに例示するように、本実施形態の雑音事前分布推定部１０５は、制御部１０５ａ（第２制御部）、第１確率モデル生成部１０５ｃ、期待値計算部１０５ｄ、第１雑音信号推定部１０５ｅ、雑音事前分布推定部１０５ｆ、および事前分布パラメータ生成部１０５ｇを有し、音響特徴抽出部１０４で抽出した入力信号の特徴量と、ＧＭＭ記憶部１０８に記憶された音声信号の確率モデルとを用いて、雑音信号の確率モデルの基本パラメータである雑音事前分布のパラメータを推定する。雑音事前分布は、入力信号に含まれる雑音信号の分布の概形を確率密度関数で表現したものであり、雑音信号のモデルの基本的な形状を特徴づけるパラメータである。ここでの雑音事前分布のパラメータとは、例えば、上述の雑音事前分布の平均ベクトルμ_N ⁽⁰⁾と、尺度パラメータR_N ⁽⁰⁾である。

雑音事前分布推定部１０５は、例えば以下に示すＥＭアルゴリズムを用いて、事前平均ベクトルμ_N ⁽⁰⁾と事前対角分散行列Σ_N ⁽⁰⁾を推定し、推定した事前対角分散行列Σ_N ⁽⁰⁾から尺度パラメータR_N ⁽⁰⁾を求める。ＥＭアルゴリズムは、ある確率モデルのパラメータ推定に利用される方法であり、確率モデルのコスト関数(対数尤度関数）の期待値を計算するExpectation-step(E-step）と、コスト関数を最大化するMaximization-step(M-step）とを、収束条件を満たすまで繰り返すことによりパラメータを推定するものである。

雑音事前分布推定部１０５は、図５に示す流れで処理を行う。
まず、制御部１０５ａは、ＥＭアルゴリズムの繰り返しインデックスをi=0と初期化する（Ｓ３０１）。

次に、制御部１０５ａは、事前平均ベクトルμ_N ⁽⁰⁾と事前対角分散行列Σ_N ⁽⁰⁾との初期値（雑音事前分布のパラメータに対応するパラメータの初期値）を、入力信号の対数メルスペクトルO_tから次式により推定して（入力信号に依存して定めて）出力する（Ｓ３０２：初期値推定処理）。

上式において、_iμ_N ⁽⁰⁾={μ_N,i,0 ⁽⁰⁾,…,μ_N,i,d ⁽⁰⁾,…,μ_N,i,D−1 ⁽⁰⁾}と_iΣ_N ⁽⁰⁾=diag{σ_N,i,0 ⁽⁰⁾,… ,σ_N,i,d ⁽⁰⁾,…,σ_N,i,D−1 ⁽⁰⁾}とは、それぞれ、ＥＭアルゴリズムにおけるi回目の繰り返し推定における事前平均ベクトルμ_N ⁽⁰⁾と事前対角分散行列Σ_N ⁽⁰⁾とであり、Initは初期値推定に要するフレーム数である(例えばInit=10)。

第１確率モデル生成部１０５ｃは、i回目の繰り返し推定における事前平均ベクトル_iμ_N ⁽⁰⁾と事前対角分散行列_iΣ_N ⁽⁰⁾と無音ＧＭＭ１０９およびクリーン音声ＧＭＭ１１０のパラメータセットλ_S,j（音声信号の確率モデルのパラメータセット）とから、入力信号の対数メルスペクトルO_tの第１確率モデルを以下のようなＧＭＭ(以下、第１入力信号ＧＭＭと呼ぶ）で構成する（Ｓ３０３：第１確率モデル生成処理Ｓ３０３）。

上式において、p(O_t｜^λ_O,i,j)はi回目の繰り返し推定における第１入力信号ＧＭＭにおける対数メルスペクトルO_tの尤度（入力信号の尤度）であり、^λ_O,i,jはパラメータセット^λ_O,i,j={^w_O,i,j,k,^μ_O,i,j,k,^Σ_O,i,j,k}である。なお、式（９）に示すように、本来「^λ_O,i,j」の「^」は、「λ」の真上に記載すべきであるが、表記の制約上、明細書中で「^λ_O,i,j」と記載する場合がある。その他の「^」や「~」についても同様な記載をする場合がある。^w_O,i,j,kはi回目の繰り返し推定における第1入力信号ＧＭＭの混合重みであり、^μ_O,i,j,k={^μ_O,i,j,k,0,…,^μ_O,i,j,k,d,…,^μ_{O,i,j,k,D−1}}はi回目の繰り返し推定における第1入力信号ＧＭＭの平均ベクトル、^Σ_O,i,j,k=diag{^σ_O,i,j,k,0,…,^σ_O,i,j,k,d,…,^σ_O,i,j,k,D-1}はi回目の繰り返し推定における第1入力信号ＧＭＭの対角分散行列であり、次式で与えられる。

上式において、^H_i,j,k,dは関数h(・)のヤコビアンである。第１確率モデル生成部１０５ｃは、少なくともp(O_t｜^λ_O,i,j)を出力する。また、第１確率モデル生成部１０５ｃは、^w_O,i,j,k，^μ_O,i,j,k,d，およびN(O_t,d｜^μ_O,i,j,k,d,^σ_O,i,j,k,d)を出力してもよい。

期待値計算部１０５ｄは、i回目の繰り返し推定における第1入力信号ＧＭＭのコスト関数Q_O(・)の期待値を、次式により計算して出力する(Ｓ３０４：期待値計算処理／ＥＭアルゴリズムのE-step）。

上式において、O_0:T-1={O₀,…,O_t,…,O_T-1}であり、Tは、入力信号の対数メルスペクトルO_tの総フレーム数、^P_t,i,jは次式で与えられるi回目の繰り返し推定におけるフレームtの第1入力信号ＧＭＭの種別jに対する事後確率であり、^P_t,i,j,kは次式で与えられるi回目の繰り返し推定におけるフレームtの第1入力信号ＧＭＭの種別jおよびガウス分布番号kに対する事後確率である。期待値計算部１０５ｄは、さらに^P_t,i,jおよび^P_t,i,j,kを出力してもよい。

次に行われるＥＭアルゴリズムのM-stepは、第１雑音信号推定処理（Ｓ３０５）と雑音事前分布推定処理（Ｓ３０６）とから構成される。第１雑音信号推定処理（Ｓ３０５）では、第１雑音信号推定部１０５ｅが、雑音信号の第１推定対数メルスペクトル^N_t,i={^N_t,i,0,…,^N_t,i,d,…,^N_t,i,D-1}（雑音信号の推定値）を、入力信号の対数メルスペクトルO_tより次式を用いて求める。

雑音事前分布推定処理Ｓ３０６では、雑音事前分布推定部１０５ｆが、雑音信号の第１推定対数メルスペクトル^N_t,iを用いて、事前平均ベクトル_iμ_N ⁽⁰⁾と事前対角分散行列_iΣ_N ⁽⁰⁾と（雑音事前分布のパラメータに対応するパラメータ）を、次式により更新する。

次に、制御部１０５ａで、収束条件（コスト関数の期待値に基づく条件）を満たすか否かを判定し（Ｓ３０７：収束判定処理）、満たす場合は事前分布パラメータ生成処理（Ｓ３０８）に進む。満たさない場合は、制御部１０５ａがi←i+1として（すなわち、i+1を新たなiとして）(Ｓ３０８）、第１確率モデル生成処理（Ｓ３０３）に戻る。なお、「α１←α２」は、α２を新たなα１とする、言い換えるとα１にα２を代入することを意味する。収束条件は、例えば、

である。Iteは予め定めておく定数（繰り返し回数の上限値）であり、例えばIte=100とする。また、ζは予め設定しておく定数であり、例えばζ＝0.0001とする。

事前分布パラメータ生成処理（Ｓ３０８）では、事前分布パラメータ生成部１０５ｇが、雑音事前分布のパラメータセットΘ_N ⁽⁰⁾に含まれる各パラメータを以下のように生成する。

その後、雑音事前分布推定部１０５は処理を終了し、雑音事前分布のパラメータセットΘ_N ⁽⁰⁾を出力する。

式(9)のp(O_t｜^λ_O,i,j)は、i回目の繰り返し推定における雑音信号の確率モデルの基本パラメータと、ＧＭＭ記憶部１０８に記憶されている音声信号の確率モデル（無音ＧＭＭ１０９とクリーン音声ＧＭＭ１１０）のパラメータと、から構成される第１確率モデル（第１入力信号ＧＭＭ）における、入力信号O_tの尤度（もっともらしさ）を表す。また、上記収束判定処理（Ｓ３０７）は、(i−1)回目の推定における確率モデルのパラメータから構成される第１確率モデルの尤度に基づくコスト関数と、i回目の推定における確率モデルのパラメータから構成される第１確率モデルの尤度に基づくコスト関数と、の差が所定の閾値以下になるまで、雑音信号の確率モデルの基本パラメータの更新処理を繰り返すことを意味する。すなわち、上述の雑音事前分布推定部１０５は、雑音信号の確率モデルの基本パラメータと、記憶部に記憶されている音声信号の確率モデルのパラメータと、から構成される第１確率モデルにおける入力信号の尤度が最大となるように、雑音信号の確率モデルの基本パラメータを更新することにより求める。

［雑音モデル推定部１０６の構成］
＜原理＞
図３に例示するように、本実施形態の雑音モデル推定部１０６は、制御部１０６ａ、第２確率モデル生成部１０６ｂ、第２雑音信号推定部１０６ｃ（雑音信号推定部）、第１信号複製部１０６ｄ、十分統計量初期化部１０６ｅ、フレーム番号初期化部１０６ｆ、信号削除部１０６ｇ（第１パラメータ更新部）、事後パラメータ生成部１０６ｈ（第１パラメータ更新部）、クラス確率算出部１０６ｉ（クラス推定部）、クラス決定部１０６ｊ（クラス推定部）、信号追加部１０６ｋ（第２パラメータ更新部）、雑音ＧＭＭ推定部１０６ｍ（第２パラメータ更新部）、および第２信号複製部１０６ｎ（第２パラメータ更新部）を有する。この雑音モデル推定部１０６は、入力信号の対数メルスペクトルO_tと雑音事前分布推定部１０６の出力である雑音事前分布のパラメータセットΘ_N ⁽⁰⁾とから、雑音ＧＭＭの構造(ガウス分布数L）と雑音ＧＭＭのパラメータセットλ_Nとを推定する。雑音ＧＭＭのガウス分布数Lの推定は、雑音信号の対数メルスペクトルN_tを適切にクラスタリングすることにより実施する。フレームtにおける雑音信号の対数メルスペクトルN_tが、どのクラスv（v∈{1,2,…,L})に属するか（所属クラス）を示す(すなわち、雑音ＧＭＭのどのガウス分布vから生成されたかを示す）変数をz_tと定義すると、フレームt以外の所属クラス集合z_＼t={z_i:∀i,i≠t}と、全ての雑音信号の対数メルスペクトル集合N_0:T−1={N₀,…,N_t,…,N_T−1}と、雑音事前分布のパラメータセットΘ_N ⁽⁰⁾とが与えられた際に、フレームtにおける雑音信号の対数メルスペクトルN_tの所属クラスがz_t=vである確率P(z_t=v|z_＼t,N_0:T−1,Θ_N ⁽⁰⁾)は次式で与えられる。

上式において、N_＼t={N_i:∀i, i≠t}は、フレームt以外の雑音信号の対数メルスペクトルN_tの集合である。また，P(z_t=v|z_＼t)はフレームt以外の所属クラス集合z_＼tが与えられた際に、フレームtにおける雑音信号の対数メルスペクトルN_tの所属クラスがz_t=vである確率を表す。また、p(N_t|N_＼t,z_t=v,Θ_N ⁽⁰⁾)は、フレームt以外の雑音信号の対数メルスペクトル集合N_＼tと、フレームtにおける雑音信号の対数メルスペクトルN_tの所属クラスz_t=vと、雑音事前分布のパラメータセットΘ_N ⁽⁰⁾と、が与えられた際に求まる事後分布の尤度である。

ここで、フレームtにおける雑音信号の対数メルスペクトルN_tが、既存のクラス{1,…,L}のいずれかに属する場合、

と与えられる。上式において、n_vはクラスvに属するフレームt以外の雑音信号の対数メルスペクトルN _＼tの個数であり、N_＼t ^(v)={N_i:∀i,i≠t,z_i=v}はクラスvに属するフレームt以外の雑音信号の対数メルスペクトルN_＼tの集合であり、Θ_N,v={μ_N,v,ξ_v,η_v,R_N,v}は、クラスvに属するフレームt以外の雑音信号の対数メルスペクトル集合N_＼t ^(v)と雑音事前分布のパラメータセットΘ_N ⁽⁰⁾とが与えられた際の、クラスvの事後分布のパラメータセットである。また、μ_N,v={μ_N,v,0,…,μ_N,v,d,…,μ_N,v,D-1}はクラスvの事後分布の平均ベクトルであり、ξ_vはクラスvの事後分布自由度であり、η_vはクラスvの事後分布の形状パラメータであり、R_N,v={r_N,v,0,…,r_N,v,d,…,r_N,v,D-1}はクラスvの事後分布尺度パラメータである。

一方、フレームtにおける雑音信号の対数メルスペクトルN_tが、既存のクラス{1,…,L}のいずれにも属さない場合、

と与えられる。P(z_t=v|z_＼t)は既存のクラス{1,…,L}以外の新たなクラスvに所属する確率であり、p(N_t|N_＼t,z_t=v,Θ_N ⁽⁰⁾)は既存のクラス{1,…,L}以外の新たなクラスvの尤度であり、G₀(Θ_N|Θ_N ⁽⁰⁾)は式(5)の雑音事前分布p(μ_N,Σ_N|Θ_N ⁽⁰⁾)に相当する（ただし、Θ_N={μ_N,Σ_N}）。また、γは新たなクラスvが発生する確率を制御するパラメータである。ここで、新たなクラスvが発生する確率は、フレーム数Tに依存しない定数ρ(例えばρ=0.0005)であることが望ましい。例えば、定数ρを用いて、次式によりγの値を決定する。

それぞれの場合において、クラスvの分布に対する尤度p(N_t|N_＼t,z_t=v,Θ_N ⁽⁰⁾)は次式で与えられる。

上式において、関数Ｆ（・｜・）は、次式で与えられるStudentのｔ分布の確率密度関数である。

以上の展開により、フレームtにおける雑音信号の対数メルスペクトルN_tの所属クラスがz_t=vである確率P(z_t=v|z_＼t,N_0:T-1,Θ_N ⁽⁰⁾)が求まる。このようにして求められる確率P(z_t=v|z_＼t,N_0:T-1,Θ_N ⁽⁰⁾)に基づき、Gibbsサンプリング法を用いて雑音ＧＭＭのガウス分布数Lを推定し、同時に雑音ＧＭＭのパラメータセットλ_Nを推定する。

＜雑音モデルのパラメータ推定＞
雑音モデル推定部１０６は、例えばGibbsサンプリング法により、雑音ＧＭＭのガウス分布数Lと雑音ＧＭＭのパラメータセットλ_Nとを推定する。Gibbsサンプリング法は、マルコフ連鎖モンテカルロ法の一解法であり、パラメータ集合からある１点のデータを取り除いた集合から、パラメータをランダムサンプリングする。その後、サンプリングされたデータをパラメータ集合に加え、別のある１点のデータをパラメータ集合から取り除いて再度サンプリングを行う。このようなサンプリングを繰り返し行うことにより、ある信号の確率分布を推定する。

雑音モデル推定部１０６は図６に示す流れで処理を行う。
まず、制御部１０６ａは、Gibbsサンプリングの繰り返しインデックスi’と雑音ＧＭＭの分布数Lとフレームtにおける所属クラスz_tとを、それぞれi’=0，L=1，z_t=1と初期化して出力する（Ｓ４０１：初期化処理）。雑音ＧＭＭのパラメータセットλ_N={w_N,v,μ_N,v,Σ_N,v}を、雑音事前分布のパラメータセットΘ_N ⁽⁰⁾={μ_N ⁽⁰⁾,ξ⁽⁰⁾,η⁽⁰⁾,R_N ⁽⁰⁾}を用いて以下のように初期化する。すなわち、雑音ＧＭＭが１個のガウス分布で構成されているものとし、そのガウス分布の平均と分散を、雑音事前分布推定部１０５で求めた雑音事前分布のパラメータに基づいて設定する。

第２確率モデル生成部１０６ｂは、無音ＧＭＭ１０９およびクリーン音声ＧＭＭ１１０のパラメータセットλ_S,jと、雑音ＧＭＭのパラメータセットλ_Nとから、入力信号の対数メルスペクトルO_tの第２確率モデルを以下のようなＧＭＭ（以下、第２入力信号ＧＭＭと呼ぶ）で構成する（Ｓ４０２：第２確率モデル生成処理）。

上式において、p(O_t|~λ_O,j)は第２入力信号ＧＭＭにおける対数メルスペクトルO_tの尤度（入力信号の尤度）であり、~λ_O,jは第２入力信号ＧＭＭのパラメータセット~λ_O,j={~w_O,j,k,v,~μ_O,j,k,v,~Σ_O,j,k,v}である。~w_O,j,k,vは第２入力信号ＧＭＭの混合重みであり、~μ_O,j,k,v={~μ_O,j,k,v,0,…,~μ_O,j,k,v,d,…,~μ_O,j,k,v,D-1}は第２入力信号ＧＭＭの平均ベクトルであり、~Σ_O,j,k,v=diag{~σ_O,j,k,v,0,…,~σ_O,j,k,v,d,…,~σ_O,j,k,v,D-1}は第２入力信号ＧＭＭの対角分散行列であり、次式で与えられる。第２確率モデル生成部１０６ｂは、少なくともp(O_t|~λ_O,j)を出力する。また、第２確率モデル生成部１０６ｂは、~w_O,j,k,v，~μ_O,j,k,v,d，およびN(O_t,d｜~μ_O,j,k,v,d,~σ_O,j,k,v,d)を出力してもよい。

上式の関数h(・)およびg(・)は、式(10)と式(11)で定義した通りである。

次に、第２雑音信号推定部１０６ｃが、入力信号の対数メルスペクトルO_tを入力として、雑音信号の第２推定対数メルスペクトル~N_t={~N_t,0,…,~N_t,d,…,~N_t,D-1}（雑音信号の推定値）を次式により計算して出力する（Ｓ４０３：第２雑音信号推定処理）。

上式において、~P_t,jはフレームtにおける第２入力信号ＧＭＭの種別jおよびガウス分布番号kに対する事後確率であり、~P_t,j,k,vは、フレームtにおける第２入力信号ＧＭＭの種別j、ガウス分布番号k、およびvに対する事後確率である。

次に、制御部１０６ａが、i’=0であるかを判定する（Ｓ４０４：繰り返し回数判定処理）。i’=0であれば、雑音モデル推定部１０６は、第１信号複製処理（Ｓ４０５）と十分統計量初期化処理（Ｓ４０６）とを実行する。第１信号複製処理Ｓ４０５では、第１信号複製部１０６ｄが、雑音信号の第２推定対数メルスペクトル~N_tを、旧信号~N_old,t={~N_old,t,0,…,~N_old,t,d,…,~N_old,t,D-1}の初期値として複製する。十分統計量初期化処理（Ｓ４０６）では、十分統計量初期化部１０６ｅが、旧信号~N_old,tを用い、次式のように、０次，１次および２次の十分統計量s_0,v，S_1,v={s_1,v,0,…,s_1,v,d,…,s_1,v,D-1}，およびS_2,v={s_2,v,0,…,s_2,v,d,…,s_2,v,D-1}を初期化して出力する。

繰り返し回数判定処理（Ｓ４０４）においてi’=0でなければ、フレーム番号初期化部１０６ｆが、フレーム番号をt=0と初期化する（Ｓ４０７：フレーム番号初期化処理）。

次に、信号削除部１０６ｇが、クラスv=z_t（所属クラス）の十分統計量s_0,v，S_1,v，およびS_2,vから、フレームtにおける旧信号~N_old,tを以下のように削除し、十分統計量s_0,v，S_1,v，およびS_2,vを更新する（Ｓ４０８：信号削除処理）。

このとき、信号削除部１０６ｇは、s_0,v=z_t=0となったクラスvを削除し、L←L-1とする。

次に、事後パラメータ生成部１０６ｈが、クラスvの事後分布のパラメータセットΘ_N,v={μ_N,v,ξ_v,η_v,R_N,v}を、雑音事前分布のパラメータセットΘ_N ⁽⁰⁾とクラスvの十分統計量s_0,v，S_1,vおよびS_2,vを用いて次式により推定して出力する（Ｓ４０９：事後パラメータ生成処理）。

次に、クラス確率算出部１０６ｉで、フレームtにおける雑音信号の第２推定対数メルスペクトル~N_tが既存のクラス{1,…,L}および新たなクラスに属する確率を算出して出力する（Ｓ４１０：クラス確率算出処理）。まず、雑音モデル推定部１０６は、雑音信号の第２推定対数メルスペクトル~N_tと、雑音事前分布のパラメータセットΘ_N ⁽⁰⁾と、事後パラメータ生成処理（Ｓ４０９）にて推定したクラスvの事後分布のパラメータセットΘ_N,vとを用いて、式(21)〜(29)に基づき、フレームtにおける雑音信号の第２推定対数メルスペクトル~N_tの所属クラスがz_t=vである確率P(z_t=v|z_＼t,~N_0:T-1,Θ_N ⁽⁰⁾)（所属クラスの確率分布）を求める。このとき、既存のクラス{1,…,L}に属さない新たなクラスの番号はv=L+1とする。また、n_v=s_0,vである。実際には、全てのクラスにおける尤度P(z_t=v|z_＼t)p(N_t|N_＼t,z_t=v,Θ_N ⁽⁰⁾)の合計が１となるよう、次式による正規化を行い、フレームtにおける雑音信号の第２推定対数メルスペクトル~N_tの所属クラスがz_t=vである確率P(z_t=v|z_＼t,~N_0:T-1,Θ_N ⁽⁰⁾)を得る。

次に、クラス決定部１０６ｊが、フレームtにおける雑音信号の第２推定対数メルスペクトル~N_tの所属クラスz_tを決定（更新）して出力する（Ｓ４１１：クラス決定処理）。クラス決定部１０６ｊは、まず、次式のように値域が[0:1]の一様乱数発生器U_[0:1]から、乱数υを発生させる。
υ〜U_[0:1] (56)
その後、クラス決定部１０６ｊは、υから、vの昇順でP(z_t=v|z_＼t,~N_0:T-1,Θ_N ⁽⁰⁾)の値を順次減算することによりυの値を順次更新し、υの値が負となった時点のvを、フレームtにおける雑音信号の第２推定対数メルスペクトル~N_tの所属クラスz_tとして決定する。すなわち、クラス決定部１０６ｊは、v=L+1,v=L,...,v=1の順序で次式のような計算を行い、υの値が負となった時点のvを、フレームtにおける雑音信号の第２推定対数メルスペクトル~N_tの所属クラスz_tとして決定する。

このとき、z_t=L+1であれば、新たなクラスが生成されたとみなして、L←L+1とする。その時、新たなクラスの十分統計量s_0,v=L，S_1,v=L，およびS_2,v=Lを以下のように初期化する。
s_0,v=L=0 (58)
s_1,v=L,d=0 (59)
s_2,v=L,d=0 (60)

次に、信号追加部１０６ｋが、クラスv=z_tの十分統計量s_0,v，S_1,v，およびS_2,vに、フレームtにおける雑音信号の第２推定対数メルスペクトル~N_tを以下のように追加する（Ｓ４１２：信号追加処理）。

次に、制御部１０６ａが、t<T-1であるかを判定する（Ｓ４１３：フレーム番号判定処理）。t<T-1であれば、制御部１０６ａでt←t+1として(Ｓ４１４）、信号削除処理（Ｓ４０８）にもどる。そうでなければ、雑音ＧＭＭ推定処理（Ｓ４１５）に進む。

雑音ＧＭＭ推定処理（Ｓ４１５）では、雑音ＧＭＭ推定部１０６ｍが、雑音ＧＭＭのパラメータセットλ_Nを推定して出力する。雑音ＧＭＭのパラメータセットλ_Nの各パラメータは、雑音事前分布のパラメータセットΘ_N ⁽⁰⁾と、各クラスv={1,…L}の十分統計量s_0,v，S_1,v，およびS_2,vを用いて、以下のように推定される。

次に、第２信号複製部１０６ｎが、雑音信号の第２推定対数メルスペクトル~N_tを、旧信号~N_old,tとして複製する（Ｓ４１６：第２信号複製処理）。

次に、制御部１０６ａが、i’<Ite’(例えばIte’=10）であるかを判定する（Ｓ４１７：終了条件判定処理）。i’<Ite’(例えばIte’=10）であれば、制御部１０６ａでi’←i’+1として（Ｓ４１８）、第２確率モデル生成処理（Ｓ４０２）にもどる。そうでなければ、雑音モデル推定部１０６は、処理を終了し、雑音ＧＭＭのパラメータセットλ_Nを出力する。すなわち、制御部１０６ａは、ステップＳ４０２〜Ｓ４１６の処理を所定の条件を満たすまで繰り返し実行させる。

上述の式(33)は、現在の雑音信号の確率モデルのパラメータの推定値λ_Nと、記憶部に記憶されている音声信号の確率モデルのパラメータと、から構成される、第２確率モデル（第2入力信号ＧＭＭ）における入力信号O_tの尤度（もっともらしさ）を表す。

すなわち、雑音モデル推定部１０６は、下記の手順で雑音ＧＭＭのガウス分布数Lと雑音ＧＭＭのパラメータセットλ_Nとを推定する。
（１）現在の雑音信号の確率モデルのパラメータの推定値λ_Nと、ＧＭＭ記憶部１０８に記憶されている音声信号の確率モデルのパラメータと、から構成される、第２確率モデル（第２入力信号ＧＭＭ）における入力信号O_tの尤度を計算する（第２確率モデル生成処理Ｓ４０２に相当）。
（２）上記（１）で求めた第２確率モデルの尤度と入力信号の特徴量を用いて、入力信号に含まれる雑音信号の特徴量の推定値~N_tを求める（第２雑音信号推定処理Ｓ４０３に相当）。
（３）上記（２）で求めた雑音信号の特徴量の推定値~N_tを用いて、現在の雑音信号の確率モデルを構成する各クラスvの確率分布のパラメータΘ_N,vを推定する（事後パラメータ生成処理Ｓ４０９）。
（４）上記（２）で求めた雑音信号の特徴量の推定値~N_tと、上記（３）で推定した各クラスvの確率分布のパラメータΘ_N,vを用いて、フレームｔの雑音信号の特徴量の推定値~N_tが属するガウス分布のクラスvを推定する（クラス確率確率算出処理Ｓ４１０〜クラス決定処理Ｓ４１１）。
（５）上記（３）と（４）の処理を全てのフレームｔ毎に行った後、フレームｔの雑音信号の特徴量の推定値~N_tと~N_tが属するガウス分布のクラスvの推定結果に基づいて、雑音モデルを構成する各確率分布のパラメータを推定する（フレーム番号判定処理Ｓ４１３〜雑音ＧＭＭ推定処理Ｓ４１５）。

［雑音抑圧部１０７の構成］
雑音抑圧部１０７の構成は図７、図８Ａおよび図８Ｂに示す通りである。雑音抑圧部１０７は、入力信号の対数メルスペクトルＯ_ｔと、無音ＧＭＭ１０９およびクリーン音声ＧＭＭ１１０のパラメータセットλ_S,jと、雑音ＧＭＭのパラメータセットλ_Nとを受けて、雑音抑圧フィルタF_t,m ^Linを推定する雑音抑圧フィルタ推定部５０１と、入力信号の複素数スペクトルSpc_tと雑音抑圧フィルタF_t,m ^Linとを受けて雑音を抑圧して雑音抑圧信号^s_τを得る雑音抑圧フィルタ適用部５０２とを含む。本実施形態の雑音抑圧フィルタ推定部５０１は、第３確率モデル生成部５０１ａ、確率計算部５０１ｂ、雑音抑圧フィルタ推定部５０１ｃ、および雑音抑圧フィルタ変換部５０１ｄを有する。また、本実施形態の雑音抑圧フィルタ適用部５０２は、フィルタリング部５０２ａ、逆高速フーリエ変換部５０２ｂ、および波形連結部５０２ｃを有する。

＜雑音抑圧フィルタ推定部５０１の構成＞
雑音抑圧フィルタ推定部５０１は図９に示す流れで処理を行う。
まず、第３確率モデル生成部５０１ａが、無音ＧＭＭ１０９およびクリーン音声ＧＭＭ１１０のパラメータセットλ_S,jと、雑音ＧＭＭのパラメータセットλ_Nから、入力信号の対数メルスペクトルO_tの第３確率モデルを以下のようなＧＭＭ（以下、第３入力信号ＧＭＭと呼ぶ）で構成する（Ｓ６０１：第３確率モデル生成処理）。

上式において，p(O_t|λ_O,j)は第３入力信号ＧＭＭの尤度であり、λ_O,jは第３入力信号ＧＭＭのパラメータセットλ_O,j={w_O,j,k,v,μ_O,j,k,v,Σ_O,j,k,v}である。w_O,j,k,vは第３入力信号ＧＭＭの混合重みであり、μ_O,j,k,v={μ_O,j,k,v,0,…,μ_O,j,k,v,d,… ,μ_O,j,k,v,D-1}は第３入力信号ＧＭＭの平均ベクトル、Σ_O,j,k,v=diag{σ_O,j,k,v,0,…,σ_O,j,k,v,d,…,σ_O,j,k,v,D-1}は第３入力信号ＧＭＭの対角分散行列であり、次式で与えられる。

上式の関数h(・)およびg(・)は、式(10)と式(11)で定義した通りである。第３確率モデル生成部５０１ａは、少なくともp(O_t|λ_O,j)を出力する。第３確率モデル生成部５０１ａは、μ_O,j,k,v,dを出力してもよい。

次に、確率計算部５０１ｂが、フレームtにおける第３入力信号ＧＭＭの種別jに対する事後確率P_t,j、ならびにフレームtにおける第３入力信号ＧＭＭの種別j、ガウス分布番号k、およびvに対する事後確率P_t,j,k,vを、入力信号の対数メルスペクトルO_tを用いて次式のように計算して出力する（Ｓ６０２：確率計算処理）。

次に、雑音抑圧フィルタ推定部５０１ｃが、無音ＧＭＭ１０９およびクリーン音声ＧＭＭ１１０の平均μ_S,j,k,dと第３入力信号ＧＭＭの平均μ_O,j,k,v,dと事後確率P_t,jおよびP_t,j,k,vとから、メル周波数軸上での雑音抑圧フィルタW_t,d ^Melを次式のように推定して出力する（Ｓ６０３：雑音抑圧フィルタ推定処理）。

次に、雑音抑圧フィルタ変換部５０１ｄが、メル周波数軸上での雑音抑圧フィルタW_t,d ^Melを線形周波数軸上での雑音抑圧フィルタW_t,m ^Linに変換して出力する（Ｓ６０４：雑音抑圧フィルタ推定処理）。この変換では、３次スプライン補間をメル周波数軸に適用することにより、線形周波数軸上での雑音抑圧フィルタの値を推定する。

＜雑音抑圧フィルタ適用部５０２の構成＞
雑音抑圧フィルタ適用部５０２は図１０に示す流れで処理を行う。
まず、フィルタリング部５０２ａが、入力信号の複素数スペクトルSpc_tに対して雑音抑圧フィルタW_t,m ^Linを次式のように掛け合わせることにより、雑音抑圧された複素数スペクトル^Spc_t,mを得て出力する（Ｓ７０１：フィルタリング処理）。

次に、逆高速フーリエ変換部５０２ｂが、複素数スペクトル^Spc_t,mに対して逆高速フーリエ変換を適用することにより、フレームtにおける雑音抑圧音声^s_t,nを得て出力する（Ｓ７０２：逆高速フーリエ変化処理）。

次に、波形連結部５０２ｃが、各フレームの雑音抑圧音声^s_t,nを次式のように窓関数w_nを解除しながら連結して連続した雑音抑圧音声^s_τを得て出力する（Ｓ７０３：波形連結処理）。

［実験例］
本実施形態で説明した方式の効果を示すために、音声信号と雑音信号が混在する音響信号を上述の雑音抑圧装置１００に入力し、雑音抑圧を実施した例を示す。以下、実験方法および結果について説明する。

本実験では、評価用の音響信号として、IPA(Information-technology promotion agency, Japan)-98-TestSetのうち、男性23名が発声した音声データに対して、空港ロビー、駅プラットホーム、街頭にて別途収録した雑音を、それぞれSN比0dB，5dB，10dBにて計算機上で重畳したものを用いた。すなわち、雑音3種類×SN比3種類の合計9種類の音響信号を用いた。それぞれの音響信号は、サンプリング周波数16,000Hz、量子化ビット数16ビットで離散サンプリングされたモノラル信号である。このような音響信号を入力信号とし、1フレームの時間長を20ms（Frm=320サンプル点）とし、10ms（Sht=160サンプル点）ごとにフレームの始点を移動させて、音響特徴抽出部１０４の処理を行った。無音ＧＭＭ１０９およびクリーン音声ＧＭＭ１１０には、D=24次元の対数メルスペクトルを音響特徴量とする混合分布数K=128のＧＭＭを用いた。無音ＧＭＭ１０９およびクリーン音声ＧＭＭ１１０は、それぞれ、多数話者の学習用音声データを用いた学習によって得られた。

性能の評価は、評価用の音響信号の雑音抑圧を行った後に音声認識を行い、その音声認識結果を評価することで行った。その評価尺度として、次式の単語誤り率(Word error rate: WER）を用いた。

上式のNは総単語数、Dは脱落誤り単語数、Sは置換誤り単語数、Iは挿入誤り単語数であり、WERの値が小さい程音声認識性能が高いことを示す。音声認識は、有限状態トランスデューサーに基づく認識器（T. Hori, et al., “Efficient WFST-based one-pass decoding with on-the-fly hypothesis rescoring in extremely large vocabulary continuous speech recognition,” IEEE Trans. on ASLP, vol. 15, no. 4, pp. 1352-1365, May 2007.）により行い、音響モデルには話者独立のTriphone HMMを用い、各HMMの構造は3状態のLeft-to-right型HMMであり、各状態は16の正規分布を持つ。HMM全体の状態数は2,000である。音声認識の音響特徴量は、1フレームの時間長を20ms(Frm=320）とし、10ms(Sht=160サンプル点）ごとにフレームの始点を移動させて分析した12次元のMFCC(Mel-frequency cepstral coefficient）、対数パワー値、各々の1次および2次の回帰係数を含む合計39次元のベクトルである。また、言語モデルにはTri-gramを用い、語葉数は20,000単語である。

図１１は、雑音抑圧の結果である。図１１では、雑音抑圧を行っていない場合（雑音抑圧無し）、非特許文献１に開示された方法で雑音抑圧を行った場合（非特許文献１）、非特許文献２に開示された方法で雑音抑圧を行った場合（非特許文献２）、および本発明の実施形態の方法で雑音抑圧を行った場合（本発明の実施形態）の単語誤り率を、それぞれ例示している。図１１の結果から、本発明の実施形態の方法では、従来技術に比べて高い性能を得られることがわかる。

＜変形例＞
本発明は上述の実施形態に限定されるものではない。例えば、上述の実施形態のフレーム切り出し処理（Ｓ２０１）において、ハミング窓に代えて、方形窓、ハニング窓、ブラックマン窓などの窓関数を利用してもよい。また、上述の実施形態において、無音ＧＭＭ１０９およびクリーン音声ＧＭＭ１１０の代わりに、音声信号の確率モデルとして、隠れマルコフモデル(Hidden Markov model: HMM）等の他の確率モデルを用いてもよい。上述の実施形態において、無音ＧＭＭ１０９およびクリーン音声ＧＭＭ１１０の２つのＧＭＭだけでなく、より多くのＧＭＭを用いてもよい。例えば、無音ＧＭＭ、無声音ＧＭＭ、有声音ＧＭＭや音素毎のＧＭＭを用いてもよい。上述の実施形態において、雑音ＧＭＭの代わりに、雑音信号の確率モデルとしてＨＭＭ等の他の確率モデルを用いてもよい。上述の実施形態において、雑音抑圧フィルタ推定処理（Ｓ６０３）にて、重み付け平均ではなく、最大の重み、すなわち最大の事後確率P_t,jとP_t,j,k,vとの積を持つ推定結果をそのまま使用してもよい。言い換えると、最大の事後確率の積P_t,j×P_t,j,k,vに対応するj,k,vに対応するexp(μ_S,j,k,d-μ_O,j,k,v,d)をそのまま雑音抑圧フィルタW_t,d ^Melとしてもよい。この場合、他の推定結果の重みに比べて十分大きな重みを持っていることが望ましい。

＜本実施形態の実装方法＞
上記の雑音抑圧装置は、コンピュータが読み取り可能な符号によって記述されたプログラムをコンピュータに実行させることによって実現される。これらのプログラムは例えば磁気ディスクあるいはＣＤ−ＲＯＭのようなコンピュータが読み取り可能で非一時的な（non-transitory）記録媒体に記憶され、記録媒体からコンピュータにインストールするか或いは通信回線を通じてインストールされて実行される。また、上記の雑音抑圧装置の処理機能の少なくとも一部がハードウェアで実現されてもよい。各部で得られた値は、逐一記憶部に格納され、必要に応じて各部に読み込まれ、それぞれの処理に用いられる。

１００雑音抑圧装置

Claims

音声信号と雑音信号を含む音響信号である入力信号から、前記雑音信号の成分を抑圧した信号である出力信号を生成する雑音抑圧装置であって、
前記雑音信号の確率モデルが１以上の要素分布から構成されるものとし、
音声信号の確率モデルを記憶する記憶部と、
前記音声信号の確率モデルを用いて、前記入力信号に含まれる雑音信号を表す前記雑音信号の確率モデルの規定パラメータである雑音事前分布のパラメータを推定する雑音事前分布推定部と、
前記雑音事前分布のパラメータを用いて、前記入力信号に含まれる雑音信号を表す前記雑音信号の確率モデルを構成する要素分布の個数と、当該雑音信号の確率モデルの各要素分布のパラメータと、を推定する雑音モデル推定部と、
前記雑音モデル推定部で推定した要素分布の個数および要素分布パラメータを用いて構成される前記雑音信号の確率モデルと前記音声信号の確率モデルを用いて、前記入力信号に含まれる雑音信号を前記入力信号から取り除いた信号を前記出力信号として得る雑音抑圧部と、
を含む雑音抑圧装置。
請求項１に記載の雑音抑圧装置において、
前記雑音事前分布推定部は、前記雑音事前分布のパラメータと、前記音声信号の確率モデルと、から構成される第１確率モデルにおける前記入力信号の尤度が最大となるように、前記雑音事前分布のパラメータを更新することにより求め、
前記雑音モデル推定部は、
前記雑音事前分布のパラメータに依存して前記雑音信号の確率モデルを構成する各要素分布のパラメータの初期値を定め、前記雑音信号の確率モデルを構成する各要素分布のパラメータと、記憶部に記憶されている音声信号の確率モデルのパラメータと、から構成される第２確率モデルにおける前記入力信号の尤度に基づいて、前記入力信号に含まれる雑音信号が前記雑音信号の確率モデル中のどの要素分布に属するかを推定し、
その推定した結果と前記第２確率モデルにおける前記入力信号の尤度とに基づいて、前記雑音信号の確率モデルを構成する各要素分布のパラメータを更新することにより、前記雑音信号の確率モデルを構成する各要素分布のパラメータを求める
ことを特徴とする雑音抑圧装置。
請求項２に記載の雑音抑圧装置において、
前記雑音モデル推定部は、
雑音信号の確率モデルを構成する各要素分布のパラメータの推定値と、記憶部に記憶されている音声信号の確率モデルのパラメータと、から構成される、第２確率モデルにおける前記入力信号の尤度を計算する第２確率モデル生成部と、
前記第２確率モデルの尤度と前記入力信号とに基づいて、前記入力信号に含まれる雑音信号の推定値~N_tを求める雑音信号推定部と、
前記雑音信号の推定値~N_tを用いて、前記雑音信号の確率モデルを構成する各要素分布のパラメータを更新する第１パラメータ更新部と、
前記雑音信号の推定値~N_tと前記第１パラメータ更新部で更新した前記雑音信号の確率モデルを構成する各要素分布のパラメータとを用いて、前記雑音信号の推定値~N_tが属する前記雑音信号の確率モデル中の要素分布を推定するクラス推定部と、
前記雑音信号の推定値~N_tと、前記雑音信号の推定値~N_tが属する前記雑音信号の確率モデル中の要素分布の推定結果と、に基づいて、前記雑音信号の確率モデルを構成する各要素分布のパラメータを更新する第２パラメータ更新部と、
前記雑音信号の確率モデルを構成する各要素分布のパラメータの推定値の初期値を前記雑音事前分布のパラメータに依存して定め、前記第２確率モデル生成部と雑音信号推定部と第１パラメータ更新部とクラス推定部と第２パラメータ更新部との処理を、所定の条件を満たすまで繰り返し実行させる制御部と、を含む雑音抑圧装置。
請求項３に記載の雑音抑圧装置において、
前記雑音事前分布推定部は、
前記第１確率モデルにおける前記入力信号の尤度を計算する第１確率モデル生成部と、
前記第１確率モデルのコスト関数の期待値を得る期待値計算部と、
前記第１確率モデルの尤度と前記入力信号とに基づいて、前記入力信号に含まれる雑音信号の推定値^N_t,iを求める第１雑音信号推定部と、
前記雑音信号の推定値^N_t,iを用いて、前記雑音事前分布のパラメータに対応するパラメータを更新する雑音事前分布推定部と、
前記雑音事前分布のパラメータに対応するパラメータの初期値を前記入力信号に依存して定め、前記第１確率モデル生成部と前記期待値計算部と前記第１雑音信号推定部との処理を、前記コスト関数の期待値に基づく条件を満たすまで、繰り返し実行させる第２制御部と、
前記コスト関数の期待値に基づく条件を満たしたとき、前記雑音事前分布のパラメータに対応するパラメータから、前記雑音事前分布のパラメータを得る事前分布パラメータ生成部と、を含み、
前記雑音モデル推定部は、さらに
前記雑音信号の推定値~N_tを旧信号の初期値として複製する第１信号複製部と、
前記旧信号を用い、前記雑音信号の確率モデル中のクラスの十分統計量を初期化する十分統計量初期化部と、を含み、
前記制御部は、さらに前記雑音信号の推定値~N_tが属する前記雑音信号の確率モデル中のクラスである所属クラスの初期値を定め、
前記第１パラメータ更新部は、
前記所属クラスの前記十分統計量から前記旧信号を削除して十分統計量を更新する信号削除部と、
前記雑音事前分布のパラメータと前記十分統計量とを用いて、前記雑音信号の確率モデルを構成する各要素分布のパラメータを更新する事後パラメータ生成部と、を含み、
前記クラス推定部は、
前記雑音信号の推定値~N_tと前記事後パラメータ生成部で更新した前記雑音信号の確率モデルを構成する各要素分布のパラメータとを用いて、前記所属クラスの確率分布を推定するクラス確率算出部と、
前記所属クラスの確率分布を用いて前記所属クラスを更新するクラス決定部と、を含み、
前記第２パラメータ更新部は、
前記所属クラスの前記十分統計量に前記雑音信号の推定値~N_tを追加して十分統計量を更新する信号追加部と、
前記雑音事前分布のパラメータと各クラスの前記十分統計量とを用い、前記雑音信号の確率モデルを構成する各要素分布のパラメータを更新する更新部と、
前記雑音信号の推定値^~N_tを旧信号として複製する第２信号複製部と、を含む、
雑音抑圧装置。
音声信号と雑音信号を含む音響信号である入力信号から、前記雑音信号の成分を抑圧した信号である出力信号を生成する雑音抑圧方法であって、
前記雑音信号の確率モデルが１以上の確率分布から構成されるものとし、
雑音事前分布推定部が、音声信号の確率モデルを用いて、前記入力信号に含まれる雑音信号を表す前記雑音信号の確率モデルの基本パラメータである雑音事前分布のパラメータを推定する雑音事前分布推定ステップと、
雑音モデル推定部が、前記雑音事前分布のパラメータを用いて、前記入力信号に含まれる雑音信号を表す前記雑音信号の確率モデルを構成する要素分布の個数と、当該雑音信号の確率モデルの各要素分布のパラメータと、を推定する雑音モデル推定ステップと、
前記雑音モデル推定ステップで推定した要素分布の個数および要素分布パラメータを用いて構成される前記雑音信号の確率モデルと前記音声信号の確率モデルを用いて、雑音抑圧部が、前記入力信号に含まれる雑音信号を前記入力信号から取り除いた信号を前記出力信号として得る雑音抑圧ステップと、
を含む雑音抑圧方法。
請求項１から４の何れかの雑音抑圧装置としてコンピュータを機能させるためのプログラム。