JP5997114B2 - 雑音抑圧装置、雑音抑圧方法、およびプログラム - Google Patents

雑音抑圧装置、雑音抑圧方法、およびプログラム Download PDF

Info

Publication number
JP5997114B2
JP5997114B2 JP2013168441A JP2013168441A JP5997114B2 JP 5997114 B2 JP5997114 B2 JP 5997114B2 JP 2013168441 A JP2013168441 A JP 2013168441A JP 2013168441 A JP2013168441 A JP 2013168441A JP 5997114 B2 JP5997114 B2 JP 5997114B2
Authority
JP
Japan
Prior art keywords
noise
signal
probability model
parameter
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013168441A
Other languages
English (en)
Other versions
JP2015036769A (ja
Inventor
雅清 藤本
雅清 藤本
陽太郎 久保
陽太郎 久保
中谷 智広
智広 中谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013168441A priority Critical patent/JP5997114B2/ja
Publication of JP2015036769A publication Critical patent/JP2015036769A/ja
Application granted granted Critical
Publication of JP5997114B2 publication Critical patent/JP5997114B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、複数の音響信号が含まれる信号から、雑音信号を抑圧して所望の信号を抽出するための雑音抑圧技術に関する。
自動音声認識技術を実際の環境で利用する場合においては、処理対象とする音声信号以外の信号、つまり雑音が含まれる音響信号から、雑音を取り除き所望の音声信号のみを抽出する必要がある。自動音声認識の実際の環境での利用は今後の情報化社会の中で大きく期待されており、早急に解決されるべき問題である。
非特許文献1は、音声信号と雑音信号が混合された信号を入力とし、あらかじめ推定した音声信号、および雑音信号それぞれの確率モデルから入力信号の確率モデルを生成する.その際、入力信号の確率モデルを構成する音声信号、および雑音信号それぞれの確率モデルと、入力信号に含まれる音声信号、および雑音信号それぞれの統計量との差分をテイラー級数近似で表現する。その差分をExpectation-Maximization(EM)アルゴリズムを用いて推定し、入力信号の確率モデルを最適化する。その後、最適化された入力信号の確率モデルと音声信号の確率モデルのパラメータを用いて雑音を抑圧する。
非特許文献2は,音声信号と雑音信号が混合された信号を入力とし、統計的な性質が多峰的な分布に従う雑音信号に対処するため、入力信号より雑音信号の最小二乗推定値を抽出し、抽出した雑音信号の最小二乗推定値を用いて多峰的な分布に従う雑音信号の確率モデルをEMアルゴリズムにより推定する。その後、あらかじめ推定した音声信号の確率モデルと推定した雑音の確率モデルから入力信号の最適な確率モデルを生成する。その後、最適化された入力信号の確率モデルと音声信号の確率モデルのパラメータを用いて雑音を抑圧する。
P. J. Moreno, B. Raj, and R. M. Stern, "A vector Taylor series approach for environment-independent speech recognition," in Proceedings of ICASSP ’96, vol. II, pp. 733-736, May 1996. M. Fujimoto, S. Watanabe, and T. Nakatani, "A robust estimation method of noise mixture model for noise suppression," in Proceedings of Interspeech ’11, pp. 697-700, Aug. 2011.
実際の環境で自動音声認識を行うにあたり必要不可欠な技術は、入力音響信号から雑音を取り除き、高品質な音声信号を得る雑音抑圧技術である。
非特許文献1では、入力信号に含まれる雑音信号の特徴が定常的かつ、その分布(頻度分布もしくは確率分布)が単峰性であるという前提のもとで雑音抑圧を行う技術である。つまり、予め推定しておく雑音分布を表現する確率モデルは単峰性の確率モデルである。しかし、実環境における雑音信号の多くは非定常的な特徴を持ち、その分布は多峰性であることが多い。そのため、非特許文献1に記載の技術では、非定常的な雑音信号に対応できず、十分な雑音抑圧性能が得られない。
非特許文献2では、雑音信号のモデルとして、多峰的な分布に従う雑音信号の確率モデルを推定する方法が開示されている。そのため、非特許文献2に記載の技術では、非定常的な雑音信号に対応することが可能となっている。しかし、ここでは雑音信号のモデルを構成する要素分布の数を固定値(L個)と仮定し、L個の要素分布の混合分布で雑音信号の多峰的な分布が表現されるものとして、その雑音信号のモデルを構成するパラメータを推定する。雑音信号には様々な特性の信号があり、信号によってそれを表現するのに適した混合分布に含まれる要素分布の数(上述のLの値)が異なる。しかし,非特許文献2では、雑音信号の確率モデルを構成する要素分布の数が事前に決定された固定値であるため、雑音信号の統計的な性質に応じた柔軟な確率モデルの推定が困難であり,十分な雑音抑圧性能を得ることができない。
このような状況に鑑み、本発明の目的は、雑音信号の統計的な性質に応じて雑音の確率モデルの構造を適応的に推定することにより、様々な統計的な性質をもつ雑音信号を効果的に抑圧することが可能な雑音抑圧技術を提供することにある。
本発明は、音声信号と雑音信号とを含む音響信号を入力信号とし、入力信号より雑音信号を取り除いて音声信号のみを抽出する。まず、雑音信号の確率モデルが1以上の要素分布から構成されるものとし、音声信号の確率モデルを用いて、入力信号に含まれる雑音信号の分布を表現する雑音信号の確率モデルの規定パラメータである雑音事前分布のパラメータを推定する。この雑音事前分布のパラメータを用いて、入力信号に含まれる雑音信号分布を表現する雑音信号の確率モデルを構成する要素分布の個数と、当該雑音信号の確率モデルの各要素分布のパラメータと、を推定する。このように推定された要素分布の個数および要素率分布パラメータを用いて構成される雑音信号の確率モデルと音声信号の確率モデルを用いて、入力信号に含まれる雑音信号を入力信号から取り除いた信号を出力信号として得る。
本発明では、雑音事前分布のパラメータを用いて、入力信号に含まれる雑音信号の確率モデルを構成する要素分布の個数を推定することとした。これにより、入力信号に応じて雑音信号の確率モデルを構成する要素分布の個数を適応的に変えることができ、入力信号に含まれる雑音信号を効果的に抑圧することが可能となる。その結果、様々な統計的な性質をもつ雑音信号を効果的に抑圧することができる。
雑音抑圧装置の機能構成例。 音響特徴抽出部および雑音事前分布推定部の機能構成例。 雑音モデル推定部の機能構成例。 音響特徴抽出部の処理手順例。 雑音事前分布推定部の処理手順例。 雑音モデル推定部の処理手順例。 雑音抑圧部の機能構成例。 雑音抑圧フィルタ推定部および雑音抑圧フィルタ適用部の機能構成例。 雑音抑圧フィルタ推定部の処理手順例。 雑音抑圧フィルタ適用部の処理手順例。 雑音抑圧の実験例。
以下、図面を参照しつつ、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同一の構成要素には同一の符号を付してある。それらの名称、機能も同一であり、それらについての説明は繰り返さない。以下の説明において、ベクトルの各要素単位で行われる処理は、特に断りが無い限り、全てのベクトル、行列の全ての要素に対して適用されるものとする。
[骨子]
収音された入力信号に含まれる雑音信号を効果的に抑圧するためには、雑音信号の統計的な性質を正確にとらえ、適切な確率的モデリングの実施が必要となる。ここでの「雑音信号の統計的な性質」とは、例えば、雑音信号の分布が単峰性であるか、多峰性であるか、また、多峰性の場合にいくつの要素分布の重ねあわせで近似(表現)できるか、である。しかしながら、雑音信号の統計的な性質を事前に知ることは困難であり、特に様々な時間変化(状態遷移過程)を伴う非定常雑音の確率モデルを、与えられた入力信号のみから推定することは困難である。特に、雑音信号の確率モデルの構造(例えば、状態数や要素分布数)は、雑音信号の統計的な性質により大きく異なるため、確率モデルの適切な構造の選択、推定が極めて重要な要素となる。
それゆえに、本実施形態では、雑音信号の統計的な性質に応じた雑音信号の確率モデルの構造の推定を実施する。このような方法を用いることにより、様々な統計的な性質をもつ雑音信号の効果的な抑圧が可能となる。この例として、以下では、音声信号の確率モデルおよび雑音信号の確率モデルにGMM(Gaussian Mixture Model)を採用し、雑音信号の統計的な性質に応じて雑音信号のGMMに含まれるガウス分布の数(すなわち要素分布の数)を適切に推定する。
[雑音抑圧装置100全体の構成]
本実施形態の雑音抑圧装置100を図1に例示する。
本実施形態の雑音抑圧装置100は、音声信号と雑音信号とが混合された入力信号から雑音を抑圧するための特徴量を抽出する音響特徴抽出部104と、特徴量とGMM記憶部108に記憶されている音声信号の確率モデルのパラメータセットとを用いて、雑音事前分布のパラメータを推定する雑音事前分布推定部105と、特徴量と音声信号の確率モデルのパラメータセットと雑音事前分布のパラメータとを用いて、雑音信号の確率モデルのパラメータセットを推定する雑音モデル推定部106と、入力信号の複素数スペクトルと特徴量と音声信号の確率モデルのパラメータセットと雑音信号の確率モデルのパラメータセットとを用いて雑音抑圧フィルタを設計し、入力信号の雑音信号を抑圧して雑音抑圧信号を得て出力する雑音抑圧部107を含む。
[音響特徴抽出部104の構成]
図2Aに例示するように、本実施形態の音響特徴抽出部104は、フレーム切出部104a、高速フーリエ変換部104b、メルフィルタバンク分析部104c、および対数化部104dを有し、入力信号からフレーム毎に特徴量を抽出する。音響特徴抽出部104は、例えば、図4に示す流れで処理を行う。まず、フレーム切出部104aが、時間領域の入力信号oτ(ただし、τは離散信号のサンプル点、oτはサンプル点τの入力信号)の列から、時間軸方向に一定時間幅Shtで始点を移動させながら、一定時間長Frmの音響信号の列をフレームとして切り出す(S201:フレーム切り出し処理)。例えば、フレーム切出部104aは、Frm=320個のサンプル点(16,000Hz×20ms)の音響信号ot,nからなる列を、Sht=160個のサンプル点(16,000Hz×10ms)ずつ始点を移動させながら切り出す。その際、フレーム切出部104aは、例えば以下のハミング窓のような窓関数wnを掛け合わせて切り出す。ここでtはフレーム番号、nはフレーム内のn番目のサンプル点を表す。また、ot,nはフレーム番号tのフレーム内のn番目のサンプル点の音響信号を表す。
Figure 0005997114
その後、高速フーリエ変換部104bは、ot,nの列に対してM点(Mは2のべき乗、かつFrm以上の値であり、例えば512に設定)の高速フーリエ変換処理を適用して、入力信号の複素数スペクトルSpct={Spct,0,…,Spct,m,…,Spct,M-1}(ただし、mは周波数ビンの番号)を得て出力する(S202)。
次に、メルフィルタバンク分析部104cおよび対数化部104dは、Spct,mの絶対値に対してメルフィルタバンク分析処理(S203)と対数化処理(S204)をそれぞれ適用し、入力信号のD次元(ただし、Dは正の整数であり、例えばD=24)の対数メルスペクトルOt={Ot,0,…,Ot,d,…,Ot,D-1}を算出して出力する(ただし、dはベクトルの要素番号)。すなわち、音響特徴抽出部104の出力である特徴量の一例は、入力信号の複素数スペクトルSpctと、入力信号の対数メルスペクトルOtである。入力信号の複素数スペクトルSpctは、雑音抑圧部107の入力となり、入力信号の対数メルスペクトルOtは、雑音事前分布推定部105と、雑音モデル推定部106と、雑音抑圧部107との入力となる。
[雑音事前分布推定部105の構成]
<原理>
雑音事前分布を推定するにあたり、まず雑音事前分布の定義を説明する。本実施形態では、音声信号の確率モデルが無音GMM109とクリーン音声GMM110とからなる例について説明をする。無音GMM109およびクリーン音声GMM110は次式により与えられる。
Figure 0005997114

上式において、jは無音GMM109とクリーン音声GMM110とを識別するインデックスであり、j=0は無音GMM109、j=1はクリーン音声GMM110を示し、kは無音GMM109またはクリーン音声GMM110に含まれるガウス分布の番号、Kは総ガウス分布数である(例えばK=128)。また、St={St,0,…,St,d,…,St,D-1}は音声信号の特徴量(例えば、対数メルスペクトル)であり、λS,jは無音GMM109またはクリーン音声GMM110のパラメータセットλS,j={wS,j,kS,j,kS,j,k}である。wS,j,kは無音GMM109またはクリーン音声GMM110の混合重みであり、μS,j,k={μS,j,k,0,…,μS,j,k,d,…,μS,j,k,D-1}は無音GMM109またはクリーン音声GMM110に含まれる各ガウス分布の平均ベクトルであり、ΣS,j,k=diag{σS,j,k,0,…,σS,j,k,d,…,σS,j,k,D-1}は無音GMM109またはクリーン音声GMM110に含まれる各ガウス分布の対角分散行列である。また、p(StS,j)は無音GMM109またはクリーン音声GMM110の尤度であり、パラメータλS,jからなる無音GMM109またはクリーン音声GMM110における音声信号Stの尤度である。すなわち、p(StS,j=0)はパラメータλS,j=0からなる無音GMM109における音声信号Stの無音らしさの指標値であり、p(StS,j=1)はパラメータλS,j=1からなるクリーン音声GMM110における音声信号Stの音声らしさの指標値である。それぞれのパラメータは多数話者の学習用音声データを用いて事前に推定される。関数N(・|・)は、次式で与えられるガウス分布の確率密度関数である。
Figure 0005997114
一方、雑音信号の確率モデルを、無音GMM109およびクリーン音声GMM110と同様に、次式のGMM(以下、雑音GMMと呼ぶ)で定義する。
Figure 0005997114

上式において、vは雑音GMMに含まれるガウス分布の番号、Lは総ガウス分布数である(Lは1以上の整数)。つまり、本実施形態では、雑音信号の確率モデルを1個以上のガウス分布の混合分布であると仮定する。Nt={Nt,0,…,Nt,d,…,Nt,D-1}は雑音信号の特徴量(例えば、対数メルスペクトル)であり、λNは雑音GMMのパラメータセットλN={wN,vN,vN,v}(ただし、v=1,...,L)であり、wN,vは雑音GMMの混合重みであり、μN,v={μN,v,0,…,μN,v,d,…,μN,v,D-1}は雑音GMMの平均ベクトル(雑音GMMに含まれる各ガウス分布の平均からなるベクトル)であり、ΣN,v=diag{σN,v,0,…,σN,v,d,…,σN,v,D-1}は雑音GMMの対角分散行列(雑音GMMに含まれる各ガウス分布の分散を対角成分とする行列)である。p(NtN)はλNを雑音パラメータとする雑音GMMにおける雑音信号Ntの尤度(雑音らしさの指標値)である。
上記のように雑音GMMを定義したとき、雑音GMMのパラメータを生成する共役事前分布(以下、雑音事前分布と呼ぶ)は次式により与えられる。
Figure 0005997114
上式において、雑音事前分布のパラメータセットをΘN (0)={μN (0)(0)(0),RN (0)}と定義する。μN (0)={μN,0 (0),…,μN,d (0),…,μN,D−1 (0)}は雑音事前分布のガウス分布部分(ガウス分布成分)の平均ベクトル(以下、事前平均ベクトルと呼ぶ)であり、ξ(0)は雑音事前分布の自由度である。関数G(・|・)は次式で与えられるガンマ分布の確率密度関数であり、η(0)はガンマ分布の形状パラメータ、RN (0)={rN,0 (0),…,rN,d (0),…,rN,D−1 (0)}はガンマ分布の尺度パラメータである。なお、式(5)に示すように、「μN,d (0)」の上付き添え字「(0)」は、本来、下付き添え字「N,d」の真上に記載すべきものであるが、表記の制約上、明細書中で「μN,d (0)」と記載する場合がある。その他の同様な添え字についても同様な記載をする場合がある。
Figure 0005997114

上式において、Γ(・)はガンマ関数を示す。雑音事前分布のパラメータセットΘN (0)のうち、自由度ξ(0)と形状パラメータη(0)とは、それぞれ予め設定しておく定数とする。例えば、ξ(0)=1,η(0)=1とすればよい。
雑音事前分布推定部105は、平均ベクトルμN (0)と尺度パラメータRN (0)とをそれぞれ推定することにより、入力信号の雑音事前分布を求める。ここで、式(6)で与えられるガンマ分布の期待値は、E[y]=η/rで与えられ、その逆数はガウス分布の分散σの期待値に相当する。すなわち、雑音事前分布のガウス分布部分(ガウス分布成分)の対角分散行列(以下、事前対角分散行列と呼ぶ)ΣN (0)=diag{σN,0 (0),…,σN,d (0),…,σN,D−1 (0)}を推定することにより、尺度パラメータRN (0)が、
Figure 0005997114

として求まる。
<雑音事前分布のパラメータ推定>
図2Bに例示するように、本実施形態の雑音事前分布推定部105は、制御部105a(第2制御部)、第1確率モデル生成部105c、期待値計算部105d、第1雑音信号推定部105e、雑音事前分布推定部105f、および事前分布パラメータ生成部105gを有し、音響特徴抽出部104で抽出した入力信号の特徴量と、GMM記憶部108に記憶された音声信号の確率モデルとを用いて、雑音信号の確率モデルの基本パラメータである雑音事前分布のパラメータを推定する。雑音事前分布は、入力信号に含まれる雑音信号の分布の概形を確率密度関数で表現したものであり、雑音信号のモデルの基本的な形状を特徴づけるパラメータである。ここでの雑音事前分布のパラメータとは、例えば、上述の雑音事前分布の平均ベクトルμN (0)と、尺度パラメータRN (0)である。
雑音事前分布推定部105は、例えば以下に示すEMアルゴリズムを用いて、事前平均ベクトルμN (0)と事前対角分散行列ΣN (0)を推定し、推定した事前対角分散行列ΣN (0)から尺度パラメータRN (0)を求める。EMアルゴリズムは、ある確率モデルのパラメータ推定に利用される方法であり、確率モデルのコスト関数(対数尤度関数)の期待値を計算するExpectation-step(E-step)と、コスト関数を最大化するMaximization-step(M-step)とを、収束条件を満たすまで繰り返すことによりパラメータを推定するものである。
雑音事前分布推定部105は、図5に示す流れで処理を行う。
まず、制御部105aは、EMアルゴリズムの繰り返しインデックスをi=0と初期化する(S301)。
次に、制御部105aは、事前平均ベクトルμN (0)と事前対角分散行列ΣN (0)との初期値(雑音事前分布のパラメータに対応するパラメータの初期値)を、入力信号の対数メルスペクトルOtから次式により推定して(入力信号に依存して定めて)出力する(S302:初期値推定処理)。
Figure 0005997114

上式において、iμN (0)={μN,i,0 (0),…,μN,i,d (0),…,μN,i,D−1 (0)}とiΣN (0)=diag{σN,i,0 (0),… ,σN,i,d (0),…,σN,i,D−1 (0)}とは、それぞれ、EMアルゴリズムにおけるi回目の繰り返し推定における事前平均ベクトルμN (0)と事前対角分散行列ΣN (0)とであり、Initは初期値推定に要するフレーム数である(例えばInit=10)。
第1確率モデル生成部105cは、i回目の繰り返し推定における事前平均ベクトルiμN (0)と事前対角分散行列 iΣN (0)と無音GMM109およびクリーン音声GMM110のパラメータセットλS,j(音声信号の確率モデルのパラメータセット)とから、入力信号の対数メルスペクトルOtの第1確率モデルを以下のようなGMM(以下、第1入力信号GMMと呼ぶ)で構成する(S303:第1確率モデル生成処理S303)。
Figure 0005997114
上式において、p(Ot|^λO,i,j)はi回目の繰り返し推定における第1入力信号GMMにおける対数メルスペクトルOtの尤度(入力信号の尤度)であり、^λO,i,jはパラメータセット^λO,i,j={^wO,i,j,k,^μO,i,j,k,^ΣO,i,j,k}である。なお、式(9)に示すように、本来「^λO,i,j」の「^」は、「λ」の真上に記載すべきであるが、表記の制約上、明細書中で「^λO,i,j」と記載する場合がある。その他の「^」や「~」についても同様な記載をする場合がある。^wO,i,j,kはi回目の繰り返し推定における第1入力信号GMMの混合重みであり、^μO,i,j,k={^μO,i,j,k,0,…,^μO,i,j,k,d,…,^μO,i,j,k,D−1}はi回目の繰り返し推定における第1入力信号GMMの平均ベクトル、^ΣO,i,j,k=diag{^σO,i,j,k,0,…,^σO,i,j,k,d,…,^σO,i,j,k,D-1}はi回目の繰り返し推定における第1入力信号GMMの対角分散行列であり、次式で与えられる。
Figure 0005997114

上式において、^Hi,j,k,dは関数h(・)のヤコビアンである。第1確率モデル生成部105cは、少なくともp(Ot|^λO,i,j)を出力する。また、第1確率モデル生成部105cは、^wO,i,j,k,^μO,i,j,k,d,およびN(Ot,d|^μO,i,j,k,d,^σO,i,j,k,d)を出力してもよい。
期待値計算部105dは、i回目の繰り返し推定における第1入力信号GMMのコスト関数QO(・)の期待値を、次式により計算して出力する(S304:期待値計算処理/EMアルゴリズムのE-step)。
Figure 0005997114

上式において、O0:T-1={O0,…,Ot,…,OT-1}であり、Tは、入力信号の対数メルスペクトルOtの総フレーム数、^Pt,i,jは次式で与えられるi回目の繰り返し推定におけるフレームtの第1入力信号GMMの種別jに対する事後確率であり、^Pt,i,j,kは次式で与えられるi回目の繰り返し推定におけるフレームtの第1入力信号GMMの種別jおよびガウス分布番号kに対する事後確率である。期待値計算部105dは、さらに^Pt,i,jおよび^Pt,i,j,kを出力してもよい。
Figure 0005997114
次に行われるEMアルゴリズムのM-stepは、第1雑音信号推定処理(S305)と雑音事前分布推定処理(S306)とから構成される。第1雑音信号推定処理(S305)では、第1雑音信号推定部105eが、雑音信号の第1推定対数メルスペクトル^Nt,i={^Nt,i,0,…,^Nt,i,d,…,^Nt,i,D-1}(雑音信号の推定値)を、入力信号の対数メルスペクトルOtより次式を用いて求める。
Figure 0005997114
雑音事前分布推定処理S306では、雑音事前分布推定部105fが、雑音信号の第1推定対数メルスペクトル^Nt,iを用いて、事前平均ベクトルiμN (0)と事前対角分散行列iΣN (0)と(雑音事前分布のパラメータに対応するパラメータ)を、次式により更新する。
Figure 0005997114
次に、制御部105aで、収束条件(コスト関数の期待値に基づく条件)を満たすか否かを判定し(S307:収束判定処理)、満たす場合は事前分布パラメータ生成処理(S308)に進む。満たさない場合は、制御部105aがi←i+1として(すなわち、i+1を新たなiとして)(S308)、第1確率モデル生成処理(S303)に戻る。なお、「α1←α2」は、α2を新たなα1とする、言い換えるとα1にα2を代入することを意味する。収束条件は、例えば、
Figure 0005997114

である。Iteは予め定めておく定数(繰り返し回数の上限値)であり、例えばIte=100とする。また、ζは予め設定しておく定数であり、例えばζ=0.0001とする。
事前分布パラメータ生成処理(S308)では、事前分布パラメータ生成部105gが、雑音事前分布のパラメータセットΘN (0)に含まれる各パラメータを以下のように生成する。
Figure 0005997114
その後、雑音事前分布推定部105は処理を終了し、雑音事前分布のパラメータセットΘN (0)を出力する。
式(9)のp(Ot|^λO,i,j)は、i回目の繰り返し推定における雑音信号の確率モデルの基本パラメータと、GMM記憶部108に記憶されている音声信号の確率モデル(無音GMM109とクリーン音声GMM110)のパラメータと、から構成される第1確率モデル(第1入力信号GMM)における、入力信号Otの尤度(もっともらしさ)を表す。また、上記収束判定処理(S307)は、(i−1)回目の推定における確率モデルのパラメータから構成される第1確率モデルの尤度に基づくコスト関数と、i回目の推定における確率モデルのパラメータから構成される第1確率モデルの尤度に基づくコスト関数と、の差が所定の閾値以下になるまで、雑音信号の確率モデルの基本パラメータの更新処理を繰り返すことを意味する。すなわち、上述の雑音事前分布推定部105は、雑音信号の確率モデルの基本パラメータと、記憶部に記憶されている音声信号の確率モデルのパラメータと、から構成される第1確率モデルにおける入力信号の尤度が最大となるように、雑音信号の確率モデルの基本パラメータを更新することにより求める。
[雑音モデル推定部106の構成]
<原理>
図3に例示するように、本実施形態の雑音モデル推定部106は、制御部106a、第2確率モデル生成部106b、第2雑音信号推定部106c(雑音信号推定部)、第1信号複製部106d、十分統計量初期化部106e、フレーム番号初期化部106f、信号削除部106g(第1パラメータ更新部)、事後パラメータ生成部106h(第1パラメータ更新部)、クラス確率算出部106i(クラス推定部)、クラス決定部106j(クラス推定部)、信号追加部106k(第2パラメータ更新部)、雑音GMM推定部106m(第2パラメータ更新部)、および第2信号複製部106n(第2パラメータ更新部)を有する。この雑音モデル推定部106は、入力信号の対数メルスペクトルOtと雑音事前分布推定部106の出力である雑音事前分布のパラメータセットΘN (0)とから、雑音GMMの構造(ガウス分布数L)と雑音GMMのパラメータセットλNとを推定する。雑音GMMのガウス分布数Lの推定は、雑音信号の対数メルスペクトルNtを適切にクラスタリングすることにより実施する。フレームtにおける雑音信号の対数メルスペクトルNtが、どのクラスv(v∈{1,2,…,L})に属するか(所属クラス)を示す(すなわち、雑音GMMのどのガウス分布vから生成されたかを示す)変数をztと定義すると、フレームt以外の所属クラス集合z\t={zi:∀i,i≠t}と、全ての雑音信号の対数メルスペクトル集合N0:T−1={N0,…,Nt,…,NT−1}と、雑音事前分布のパラメータセットΘN (0)とが与えられた際に、フレームtにおける雑音信号の対数メルスペクトルNtの所属クラスがzt=vである確率P(zt=v|z\t,N0:T−1N (0))は次式で与えられる。
Figure 0005997114

上式において、N\t={Ni:∀i, i≠t}は、フレームt以外の雑音信号の対数メルスペクトルNtの集合である。また,P(zt=v|z\t)はフレームt以外の所属クラス集合z\tが与えられた際に、フレームtにおける雑音信号の対数メルスペクトルNtの所属クラスがzt=vである確率を表す。また、p(Nt|N\t,zt=v,ΘN (0))は、フレームt以外の雑音信号の対数メルスペクトル集合N\tと、フレームtにおける雑音信号の対数メルスペクトルNtの所属クラスzt=vと、雑音事前分布のパラメータセットΘN (0)と、が与えられた際に求まる事後分布の尤度である。
ここで、フレームtにおける雑音信号の対数メルスペクトルNtが、既存のクラス{1,…,L}のいずれかに属する場合、
Figure 0005997114

と与えられる。上式において、nvはクラスvに属するフレームt以外の雑音信号の対数メルスペクトルN \tの個数であり、N\t (v)={Ni:∀i,i≠t,zi=v}はクラスvに属するフレームt以外の雑音信号の対数メルスペクトルN\tの集合であり、ΘN,v={μN,vvv,RN,v}は、クラスvに属するフレームt以外の雑音信号の対数メルスペクトル集合N\t (v)と雑音事前分布のパラメータセットΘN (0)とが与えられた際の、クラスvの事後分布のパラメータセットである。また、μN,v={μN,v,0,…,μN,v,d,…,μN,v,D-1}はクラスvの事後分布の平均ベクトルであり、ξvはクラスvの事後分布自由度であり、ηvはクラスvの事後分布の形状パラメータであり、RN,v={rN,v,0,…,rN,v,d,…,rN,v,D-1}はクラスvの事後分布尺度パラメータである。
一方、フレームtにおける雑音信号の対数メルスペクトルNtが、既存のクラス{1,…,L}のいずれにも属さない場合、
Figure 0005997114

と与えられる。P(zt=v|z\t)は既存のクラス{1,…,L}以外の新たなクラスvに所属する確率であり、p(Nt|N\t,zt=v,ΘN (0))は既存のクラス{1,…,L}以外の新たなクラスvの尤度であり、G0NN (0))は式(5)の雑音事前分布p(μNNN (0))に相当する(ただし、ΘN={μNN})。また、γは新たなクラスvが発生する確率を制御するパラメータである。ここで、新たなクラスvが発生する確率は、フレーム数Tに依存しない定数ρ(例えばρ=0.0005)であることが望ましい。例えば、定数ρを用いて、次式によりγの値を決定する。
Figure 0005997114
それぞれの場合において、クラスvの分布に対する尤度p(Nt|N\t,zt=v,ΘN (0))は次式で与えられる。
Figure 0005997114

上式において、関数F(・|・)は、次式で与えられるStudentのt分布の確率密度関数である。
Figure 0005997114
以上の展開により、フレームtにおける雑音信号の対数メルスペクトルNtの所属クラスがzt=vである確率P(zt=v|z\t,N0:T-1N (0))が求まる。このようにして求められる確率P(zt=v|z\t,N0:T-1N (0))に基づき、Gibbsサンプリング法を用いて雑音GMMのガウス分布数Lを推定し、同時に雑音GMMのパラメータセットλNを推定する。
<雑音モデルのパラメータ推定>
雑音モデル推定部106は、例えばGibbsサンプリング法により、雑音GMMのガウス分布数Lと雑音GMMのパラメータセットλNとを推定する。Gibbsサンプリング法は、マルコフ連鎖モンテカルロ法の一解法であり、パラメータ集合からある1点のデータを取り除いた集合から、パラメータをランダムサンプリングする。その後、サンプリングされたデータをパラメータ集合に加え、別のある1点のデータをパラメータ集合から取り除いて再度サンプリングを行う。このようなサンプリングを繰り返し行うことにより、ある信号の確率分布を推定する。
雑音モデル推定部106は図6に示す流れで処理を行う。
まず、制御部106aは、Gibbsサンプリングの繰り返しインデックスi’と雑音GMMの分布数Lとフレームtにおける所属クラスztとを、それぞれi’=0,L=1,zt=1と初期化して出力する(S401:初期化処理)。雑音GMMのパラメータセットλN={wN,vN,vN,v}を、雑音事前分布のパラメータセットΘN (0)={μN (0)(0)(0),RN (0)}を用いて以下のように初期化する。すなわち、雑音GMMが1個のガウス分布で構成されているものとし、そのガウス分布の平均と分散を、雑音事前分布推定部105で求めた雑音事前分布のパラメータに基づいて設定する。
Figure 0005997114
第2確率モデル生成部106bは、無音GMM109およびクリーン音声GMM110のパラメータセットλS,jと、雑音GMMのパラメータセットλNとから、入力信号の対数メルスペクトルOtの第2確率モデルを以下のようなGMM(以下、第2入力信号GMMと呼ぶ)で構成する(S402:第2確率モデル生成処理)。
Figure 0005997114

上式において、p(Ot|~λO,j)は第2入力信号GMMにおける対数メルスペクトルOtの尤度(入力信号の尤度)であり、~λO,jは第2入力信号GMMのパラメータセット~λO,j={~wO,j,k,v,~μO,j,k,v,~ΣO,j,k,v}である。~wO,j,k,vは第2入力信号GMMの混合重みであり、~μO,j,k,v={~μO,j,k,v,0,…,~μO,j,k,v,d,…,~μO,j,k,v,D-1}は第2入力信号GMMの平均ベクトルであり、~ΣO,j,k,v=diag{~σO,j,k,v,0,…,~σO,j,k,v,d,…,~σO,j,k,v,D-1}は第2入力信号GMMの対角分散行列であり、次式で与えられる。第2確率モデル生成部106bは、少なくともp(Ot|~λO,j)を出力する。また、第2確率モデル生成部106bは、~wO,j,k,v,~μO,j,k,v,d,およびN(Ot,d|~μO,j,k,v,d,~σO,j,k,v,d)を出力してもよい。
Figure 0005997114

上式の関数h(・)およびg(・)は、式(10)と式(11)で定義した通りである。
次に、第2雑音信号推定部106cが、入力信号の対数メルスペクトルOtを入力として、雑音信号の第2推定対数メルスペクトル~Nt={~Nt,0,…,~Nt,d,…,~Nt,D-1}(雑音信号の推定値)を次式により計算して出力する(S403:第2雑音信号推定処理)。
Figure 0005997114

上式において、~Pt,jはフレームtにおける第2入力信号GMMの種別jおよびガウス分布番号kに対する事後確率であり、~Pt,j,k,vは、フレームtにおける第2入力信号GMMの種別j、ガウス分布番号k、およびvに対する事後確率である。
次に、制御部106aが、i’=0であるかを判定する(S404:繰り返し回数判定処理)。i’=0であれば、雑音モデル推定部106は、第1信号複製処理(S405)と十分統計量初期化処理(S406)とを実行する。第1信号複製処理S405では、第1信号複製部106dが、雑音信号の第2推定対数メルスペクトル~Ntを、旧信号~Nold,t={~Nold,t,0,…,~Nold,t,d,…,~Nold,t,D-1}の初期値として複製する。十分統計量初期化処理(S406)では、十分統計量初期化部106eが、旧信号~Nold,tを用い、次式のように、0次,1次および2次の十分統計量s0,v,S1,v={s1,v,0,…,s1,v,d,…,s1,v,D-1},およびS2,v={s2,v,0,…,s2,v,d,…,s2,v,D-1}を初期化して出力する。
Figure 0005997114
繰り返し回数判定処理(S404)においてi’=0でなければ、フレーム番号初期化部106fが、フレーム番号をt=0と初期化する(S407:フレーム番号初期化処理)。
次に、信号削除部106gが、クラスv=zt(所属クラス)の十分統計量s0,v,S1,v,およびS2,vから、フレームtにおける旧信号~Nold,tを以下のように削除し、十分統計量s0,v,S1,v,およびS2,vを更新する(S408:信号削除処理)。
Figure 0005997114

このとき、信号削除部106gは、s0,v=zt=0となったクラスvを削除し、L←L-1とする。
次に、事後パラメータ生成部106hが、クラスvの事後分布のパラメータセットΘN,v={μN,vvv,RN,v}を、雑音事前分布のパラメータセットΘN (0)とクラスvの十分統計量s0,v,S1,vおよびS2,vを用いて次式により推定して出力する(S409:事後パラメータ生成処理)。
Figure 0005997114
次に、クラス確率算出部106iで、フレームtにおける雑音信号の第2推定対数メルスペクトル~Ntが既存のクラス{1,…,L}および新たなクラスに属する確率を算出して出力する(S410:クラス確率算出処理)。まず、雑音モデル推定部106は、雑音信号の第2推定対数メルスペクトル~Ntと、雑音事前分布のパラメータセットΘN (0)と、事後パラメータ生成処理(S409)にて推定したクラスvの事後分布のパラメータセットΘN,vとを用いて、式(21)〜(29)に基づき、フレームtにおける雑音信号の第2推定対数メルスペクトル~Ntの所属クラスがzt=vである確率P(zt=v|z\t,~N0:T-1N (0))(所属クラスの確率分布)を求める。このとき、既存のクラス{1,…,L}に属さない新たなクラスの番号はv=L+1とする。また、nv=s0,vである。実際には、全てのクラスにおける尤度P(zt=v|z\t)p(Nt|N\t,zt=v,ΘN (0))の合計が1となるよう、次式による正規化を行い、フレームtにおける雑音信号の第2推定対数メルスペクトル~Ntの所属クラスがzt=vである確率P(zt=v|z\t,~N0:T-1N (0))を得る。
Figure 0005997114
次に、クラス決定部106jが、フレームtにおける雑音信号の第2推定対数メルスペクトル~Ntの所属クラスztを決定(更新)して出力する(S411:クラス決定処理)。クラス決定部106jは、まず、次式のように値域が[0:1]の一様乱数発生器U[0:1]から、乱数υを発生させる。
υ〜U[0:1] (56)
その後、クラス決定部106jは、υから、vの昇順でP(zt=v|z\t,~N0:T-1N (0))の値を順次減算することによりυの値を順次更新し、υの値が負となった時点のvを、フレームtにおける雑音信号の第2推定対数メルスペクトル~Ntの所属クラスztとして決定する。すなわち、クラス決定部106jは、v=L+1,v=L,...,v=1の順序で次式のような計算を行い、υの値が負となった時点のvを、フレームtにおける雑音信号の第2推定対数メルスペクトル~Ntの所属クラスztとして決定する。
Figure 0005997114

このとき、zt=L+1であれば、新たなクラスが生成されたとみなして、L←L+1とする。その時、新たなクラスの十分統計量s0,v=L,S1,v=L,およびS2,v=Lを以下のように初期化する。
s0,v=L=0 (58)
s1,v=L,d=0 (59)
s2,v=L,d=0 (60)
次に、信号追加部106kが、クラスv=ztの十分統計量s0,v,S1,v,およびS2,vに、フレームtにおける雑音信号の第2推定対数メルスペクトル~Ntを以下のように追加する(S412:信号追加処理)。
Figure 0005997114
次に、制御部106aが、t<T-1であるかを判定する(S413:フレーム番号判定処理)。t<T-1であれば、制御部106aでt←t+1として(S414)、信号削除処理(S408)にもどる。そうでなければ、雑音GMM推定処理(S415)に進む。
雑音GMM推定処理(S415)では、雑音GMM推定部106mが、雑音GMMのパラメータセットλNを推定して出力する。雑音GMMのパラメータセットλNの各パラメータは、雑音事前分布のパラメータセットΘN (0)と、各クラスv={1,…L}の十分統計量s0,v,S1,v,およびS2,vを用いて、以下のように推定される。
Figure 0005997114
次に、第2信号複製部106nが、雑音信号の第2推定対数メルスペクトル~Ntを、旧信号~Nold,tとして複製する(S416:第2信号複製処理)。
次に、制御部106aが、i’<Ite’(例えばIte’=10)であるかを判定する(S417:終了条件判定処理)。i’<Ite’(例えばIte’=10)であれば、制御部106aでi’←i’+1として(S418)、第2確率モデル生成処理(S402)にもどる。そうでなければ、雑音モデル推定部106は、処理を終了し、雑音GMMのパラメータセットλNを出力する。すなわち、制御部106aは、ステップS402〜S416の処理を所定の条件を満たすまで繰り返し実行させる。
上述の式(33)は、現在の雑音信号の確率モデルのパラメータの推定値λNと、記憶部に記憶されている音声信号の確率モデルのパラメータと、から構成される、第2確率モデル(第2入力信号GMM)における入力信号Otの尤度(もっともらしさ)を表す。
すなわち、雑音モデル推定部106は、下記の手順で雑音GMMのガウス分布数Lと雑音GMMのパラメータセットλNとを推定する。
(1)現在の雑音信号の確率モデルのパラメータの推定値λNと、GMM記憶部108に記憶されている音声信号の確率モデルのパラメータと、から構成される、第2確率モデル(第2入力信号GMM)における入力信号Otの尤度を計算する(第2確率モデル生成処理S402に相当)。
(2)上記(1)で求めた第2確率モデルの尤度と入力信号の特徴量を用いて、入力信号に含まれる雑音信号の特徴量の推定値~Ntを求める(第2雑音信号推定処理S403に相当)。
(3)上記(2)で求めた雑音信号の特徴量の推定値~Ntを用いて、現在の雑音信号の確率モデルを構成する各クラスvの確率分布のパラメータΘN,vを推定する(事後パラメータ生成処理S409)。
(4)上記(2)で求めた雑音信号の特徴量の推定値~Ntと、上記(3)で推定した各クラスvの確率分布のパラメータΘN,vを用いて、フレームtの雑音信号の特徴量の推定値~Ntが属するガウス分布のクラスvを推定する(クラス確率確率算出処理S410〜クラス決定処理S411)。
(5)上記(3)と(4)の処理を全てのフレームt毎に行った後、フレームtの雑音信号の特徴量の推定値~Ntと~Ntが属するガウス分布のクラスvの推定結果に基づいて、雑音モデルを構成する各確率分布のパラメータを推定する(フレーム番号判定処理S413〜雑音GMM推定処理S415)。
[雑音抑圧部107の構成]
雑音抑圧部107の構成は図7、図8Aおよび図8Bに示す通りである。雑音抑圧部107は、入力信号の対数メルスペクトルOと、無音GMM109およびクリーン音声GMM110のパラメータセットλS,jと、雑音GMMのパラメータセットλNとを受けて、雑音抑圧フィルタFt,m Lin を推定する雑音抑圧フィルタ推定部501と、入力信号の複素数スペクトルSpctと雑音抑圧フィルタFt,m Linとを受けて雑音を抑圧して雑音抑圧信号^sτを得る雑音抑圧フィルタ適用部502とを含む。本実施形態の雑音抑圧フィルタ推定部501は、第3確率モデル生成部501a、確率計算部501b、雑音抑圧フィルタ推定部501c、および雑音抑圧フィルタ変換部501dを有する。また、本実施形態の雑音抑圧フィルタ適用部502は、フィルタリング部502a、逆高速フーリエ変換部502b、および波形連結部502cを有する。
<雑音抑圧フィルタ推定部501の構成>
雑音抑圧フィルタ推定部501は図9に示す流れで処理を行う。
まず、第3確率モデル生成部501aが、無音GMM109およびクリーン音声GMM110のパラメータセットλS,jと、雑音GMMのパラメータセットλNから、入力信号の対数メルスペクトルOtの第3確率モデルを以下のようなGMM(以下、第3入力信号GMMと呼ぶ)で構成する(S601:第3確率モデル生成処理)。
Figure 0005997114

上式において,p(OtO,j)は第3入力信号GMMの尤度であり、λO,jは第3入力信号GMMのパラメータセットλO,j={wO,j,k,vO,j,k,vO,j,k,v}である。wO,j,k,vは第3入力信号GMMの混合重みであり、μO,j,k,v={μO,j,k,v,0,…,μO,j,k,v,d,… ,μO,j,k,v,D-1}は第3入力信号GMMの平均ベクトル、ΣO,j,k,v=diag{σO,j,k,v,0,…,σO,j,k,v,d,…,σO,j,k,v,D-1}は第3入力信号GMMの対角分散行列であり、次式で与えられる。
Figure 0005997114

上式の関数h(・)およびg(・)は、式(10)と式(11)で定義した通りである。第3確率モデル生成部501aは、少なくともp(OtO,j)を出力する。第3確率モデル生成部501aは、μO,j,k,v,dを出力してもよい。
次に、確率計算部501bが、フレームtにおける第3入力信号GMMの種別jに対する事後確率Pt,j、ならびにフレームtにおける第3入力信号GMMの種別j、ガウス分布番号k、およびvに対する事後確率Pt,j,k,vを、入力信号の対数メルスペクトルOtを用いて次式のように計算して出力する(S602:確率計算処理)。
Figure 0005997114
次に、雑音抑圧フィルタ推定部501cが、無音GMM109およびクリーン音声GMM110の平均μS,j,k,dと第3入力信号GMMの平均μO,j,k,v,dと事後確率Pt,jおよびPt,j,k,vとから、メル周波数軸上での雑音抑圧フィルタWt,d Melを次式のように推定して出力する(S603:雑音抑圧フィルタ推定処理)。
Figure 0005997114
次に、雑音抑圧フィルタ変換部501dが、メル周波数軸上での雑音抑圧フィルタWt,d Melを線形周波数軸上での雑音抑圧フィルタWt,m Linに変換して出力する(S604:雑音抑圧フィルタ推定処理)。この変換では、3次スプライン補間をメル周波数軸に適用することにより、線形周波数軸上での雑音抑圧フィルタの値を推定する。
<雑音抑圧フィルタ適用部502の構成>
雑音抑圧フィルタ適用部502は図10に示す流れで処理を行う。
まず、フィルタリング部502aが、入力信号の複素数スペクトルSpctに対して雑音抑圧フィルタWt,m Linを次式のように掛け合わせることにより、雑音抑圧された複素数スペクトル^Spct,mを得て出力する(S701:フィルタリング処理)。
Figure 0005997114
次に、逆高速フーリエ変換部502bが、複素数スペクトル^Spct,mに対して逆高速フーリエ変換を適用することにより、フレームtにおける雑音抑圧音声^st,nを得て出力する(S702:逆高速フーリエ変化処理)。
次に、波形連結部502cが、各フレームの雑音抑圧音声^st,nを次式のように窓関数wnを解除しながら連結して連続した雑音抑圧音声^sτを得て出力する(S703:波形連結処理)。
Figure 0005997114
[実験例]
本実施形態で説明した方式の効果を示すために、音声信号と雑音信号が混在する音響信号を上述の雑音抑圧装置100に入力し、雑音抑圧を実施した例を示す。以下、実験方法および結果について説明する。
本実験では、評価用の音響信号として、IPA(Information-technology promotion agency, Japan)-98-TestSetのうち、男性23名が発声した音声データに対して、空港ロビー、駅プラットホーム、街頭にて別途収録した雑音を、それぞれSN比0dB,5dB,10dBにて計算機上で重畳したものを用いた。すなわち、雑音3種類×SN比3種類の合計9種類の音響信号を用いた。それぞれの音響信号は、サンプリング周波数16,000Hz、量子化ビット数16ビットで離散サンプリングされたモノラル信号である。このような音響信号を入力信号とし、1フレームの時間長を20ms(Frm=320サンプル点)とし、10ms(Sht=160サンプル点)ごとにフレームの始点を移動させて、音響特徴抽出部104の処理を行った。無音GMM109およびクリーン音声GMM110には、D=24次元の対数メルスペクトルを音響特徴量とする混合分布数K=128のGMMを用いた。無音GMM109およびクリーン音声GMM110は、それぞれ、多数話者の学習用音声データを用いた学習によって得られた。
性能の評価は、評価用の音響信号の雑音抑圧を行った後に音声認識を行い、その音声認識結果を評価することで行った。その評価尺度として、次式の単語誤り率(Word error rate: WER)を用いた。
Figure 0005997114

上式のNは総単語数、Dは脱落誤り単語数、Sは置換誤り単語数、Iは挿入誤り単語数であり、WERの値が小さい程音声認識性能が高いことを示す。音声認識は、有限状態トランスデューサーに基づく認識器(T. Hori, et al., “Efficient WFST-based one-pass decoding with on-the-fly hypothesis rescoring in extremely large vocabulary continuous speech recognition,” IEEE Trans. on ASLP, vol. 15, no. 4, pp. 1352-1365, May 2007.)により行い、音響モデルには話者独立のTriphone HMMを用い、各HMMの構造は3状態のLeft-to-right型HMMであり、各状態は16の正規分布を持つ。HMM全体の状態数は2,000である。音声認識の音響特徴量は、1フレームの時間長を20ms(Frm=320)とし、10ms(Sht=160サンプル点)ごとにフレームの始点を移動させて分析した12次元のMFCC(Mel-frequency cepstral coefficient)、対数パワー値、各々の1次および2次の回帰係数を含む合計39次元のベクトルである。また、言語モデルにはTri-gramを用い、語葉数は20,000単語である。
図11は、雑音抑圧の結果である。図11では、雑音抑圧を行っていない場合(雑音抑圧無し)、非特許文献1に開示された方法で雑音抑圧を行った場合(非特許文献1)、非特許文献2に開示された方法で雑音抑圧を行った場合(非特許文献2)、および本発明の実施形態の方法で雑音抑圧を行った場合(本発明の実施形態)の単語誤り率を、それぞれ例示している。図11の結果から、本発明の実施形態の方法では、従来技術に比べて高い性能を得られることがわかる。
<変形例>
本発明は上述の実施形態に限定されるものではない。例えば、上述の実施形態のフレーム切り出し処理(S201)において、ハミング窓に代えて、方形窓、ハニング窓、ブラックマン窓などの窓関数を利用してもよい。また、上述の実施形態において、無音GMM109およびクリーン音声GMM110の代わりに、音声信号の確率モデルとして、隠れマルコフモデル(Hidden Markov model: HMM)等の他の確率モデルを用いてもよい。上述の実施形態において、無音GMM109およびクリーン音声GMM110の2つのGMMだけでなく、より多くのGMMを用いてもよい。例えば、無音GMM、無声音GMM、有声音GMMや音素毎のGMMを用いてもよい。上述の実施形態において、雑音GMMの代わりに、雑音信号の確率モデルとしてHMM等の他の確率モデルを用いてもよい。上述の実施形態において、雑音抑圧フィルタ推定処理(S603)にて、重み付け平均ではなく、最大の重み、すなわち最大の事後確率Pt,jとPt,j,k,vとの積を持つ推定結果をそのまま使用してもよい。言い換えると、最大の事後確率の積Pt,j×Pt,j,k,vに対応するj,k,vに対応するexp(μS,j,k,dO,j,k,v,d)をそのまま雑音抑圧フィルタWt,d Melとしてもよい。この場合、他の推定結果の重みに比べて十分大きな重みを持っていることが望ましい。
<本実施形態の実装方法>
上記の雑音抑圧装置は、コンピュータが読み取り可能な符号によって記述されたプログラムをコンピュータに実行させることによって実現される。これらのプログラムは例えば磁気ディスクあるいはCD−ROMのようなコンピュータが読み取り可能で非一時的な(non-transitory)記録媒体に記憶され、記録媒体からコンピュータにインストールするか或いは通信回線を通じてインストールされて実行される。また、上記の雑音抑圧装置の処理機能の少なくとも一部がハードウェアで実現されてもよい。各部で得られた値は、逐一記憶部に格納され、必要に応じて各部に読み込まれ、それぞれの処理に用いられる。
100 雑音抑圧装置

Claims (6)

  1. 音声信号と雑音信号を含む音響信号である入力信号から、前記雑音信号の成分を抑圧した信号である出力信号を生成する雑音抑圧装置であって、
    前記雑音信号の確率モデルが1以上の要素分布から構成されるものとし、
    音声信号の確率モデルを記憶する記憶部と、
    前記音声信号の確率モデルを用いて、前記入力信号に含まれる雑音信号を表す前記雑音信号の確率モデルの規定パラメータである雑音事前分布のパラメータを推定する雑音事前分布推定部と、
    前記雑音事前分布のパラメータを用いて、前記入力信号に含まれる雑音信号を表す前記雑音信号の確率モデルを構成する要素分布の個数と、当該雑音信号の確率モデルの各要素分布のパラメータと、を推定する雑音モデル推定部と、
    前記雑音モデル推定部で推定した要素分布の個数および要素分布パラメータを用いて構成される前記雑音信号の確率モデルと前記音声信号の確率モデルを用いて、前記入力信号に含まれる雑音信号を前記入力信号から取り除いた信号を前記出力信号として得る雑音抑圧部と、
    を含む雑音抑圧装置。
  2. 請求項1に記載の雑音抑圧装置において、
    前記雑音事前分布推定部は、前記雑音事前分布のパラメータと、前記音声信号の確率モデルと、から構成される第1確率モデルにおける前記入力信号の尤度が最大となるように、前記雑音事前分布のパラメータを更新することにより求め、
    前記雑音モデル推定部は、
    前記雑音事前分布のパラメータに依存して前記雑音信号の確率モデルを構成する各要素分布のパラメータの初期値を定め、前記雑音信号の確率モデルを構成する各要素分布のパラメータと、記憶部に記憶されている音声信号の確率モデルのパラメータと、から構成される第2確率モデルにおける前記入力信号の尤度に基づいて、前記入力信号に含まれる雑音信号が前記雑音信号の確率モデル中のどの要素分布に属するかを推定し、
    その推定した結果と前記第2確率モデルにおける前記入力信号の尤度とに基づいて、前記雑音信号の確率モデルを構成する各要素分布のパラメータを更新することにより、前記雑音信号の確率モデルを構成する各要素分布のパラメータを求める
    ことを特徴とする雑音抑圧装置。
  3. 請求項2に記載の雑音抑圧装置において、
    前記雑音モデル推定部は、
    雑音信号の確率モデルを構成する各要素分布のパラメータの推定値と、記憶部に記憶されている音声信号の確率モデルのパラメータと、から構成される、第2確率モデルにおける前記入力信号の尤度を計算する第2確率モデル生成部と、
    前記第2確率モデルの尤度と前記入力信号とに基づいて、前記入力信号に含まれる雑音信号の推定値~Ntを求める雑音信号推定部と、
    前記雑音信号の推定値~Ntを用いて、前記雑音信号の確率モデルを構成する各要素分布のパラメータを更新する第1パラメータ更新部と、
    前記雑音信号の推定値~Ntと前記第1パラメータ更新部で更新した前記雑音信号の確率モデルを構成する各要素分布のパラメータとを用いて、前記雑音信号の推定値~Ntが属する前記雑音信号の確率モデル中の要素分布を推定するクラス推定部と、
    前記雑音信号の推定値~Ntと、前記雑音信号の推定値~Ntが属する前記雑音信号の確率モデル中の要素分布の推定結果と、に基づいて、前記雑音信号の確率モデルを構成する各要素分布のパラメータを更新する第2パラメータ更新部と、
    前記雑音信号の確率モデルを構成する各要素分布のパラメータの推定値の初期値を前記雑音事前分布のパラメータに依存して定め、前記第2確率モデル生成部と雑音信号推定部と第1パラメータ更新部とクラス推定部と第2パラメータ更新部との処理を、所定の条件を満たすまで繰り返し実行させる制御部と、を含む雑音抑圧装置。
  4. 請求項3に記載の雑音抑圧装置において、
    前記雑音事前分布推定部は、
    前記第1確率モデルにおける前記入力信号の尤度を計算する第1確率モデル生成部と、
    前記第1確率モデルのコスト関数の期待値を得る期待値計算部と、
    前記第1確率モデルの尤度と前記入力信号とに基づいて、前記入力信号に含まれる雑音信号の推定値^Nt,iを求める第1雑音信号推定部と、
    前記雑音信号の推定値^Nt,iを用いて、前記雑音事前分布のパラメータに対応するパラメータを更新する雑音事前分布推定部と、
    前記雑音事前分布のパラメータに対応するパラメータの初期値を前記入力信号に依存して定め、前記第1確率モデル生成部と前記期待値計算部と前記第1雑音信号推定部との処理を、前記コスト関数の期待値に基づく条件を満たすまで、繰り返し実行させる第2制御部と、
    前記コスト関数の期待値に基づく条件を満たしたとき、前記雑音事前分布のパラメータに対応するパラメータから、前記雑音事前分布のパラメータを得る事前分布パラメータ生成部と、を含み、
    前記雑音モデル推定部は、さらに
    前記雑音信号の推定値~Ntを旧信号の初期値として複製する第1信号複製部と、
    前記旧信号を用い、前記雑音信号の確率モデル中のクラスの十分統計量を初期化する十分統計量初期化部と、を含み、
    前記制御部は、さらに前記雑音信号の推定値~Ntが属する前記雑音信号の確率モデル中のクラスである所属クラスの初期値を定め、
    前記第1パラメータ更新部は、
    前記所属クラスの前記十分統計量から前記旧信号を削除して十分統計量を更新する信号削除部と、
    前記雑音事前分布のパラメータと前記十分統計量とを用いて、前記雑音信号の確率モデルを構成する各要素分布のパラメータを更新する事後パラメータ生成部と、を含み、
    前記クラス推定部は、
    前記雑音信号の推定値~Ntと前記事後パラメータ生成部で更新した前記雑音信号の確率モデルを構成する各要素分布のパラメータとを用いて、前記所属クラスの確率分布を推定するクラス確率算出部と、
    前記所属クラスの確率分布を用いて前記所属クラスを更新するクラス決定部と、を含み、
    前記第2パラメータ更新部は、
    前記所属クラスの前記十分統計量に前記雑音信号の推定値~Ntを追加して十分統計量を更新する信号追加部と、
    前記雑音事前分布のパラメータと各クラスの前記十分統計量とを用い、前記雑音信号の確率モデルを構成する各要素分布のパラメータを更新する更新部と、
    前記雑音信号の推定値~Ntを旧信号として複製する第2信号複製部と、を含む、
    雑音抑圧装置。
  5. 音声信号と雑音信号を含む音響信号である入力信号から、前記雑音信号の成分を抑圧した信号である出力信号を生成する雑音抑圧方法であって、
    前記雑音信号の確率モデルが1以上の確率分布から構成されるものとし、
    雑音事前分布推定部が、音声信号の確率モデルを用いて、前記入力信号に含まれる雑音信号を表す前記雑音信号の確率モデルの基本パラメータである雑音事前分布のパラメータを推定する雑音事前分布推定ステップと、
    雑音モデル推定部が、前記雑音事前分布のパラメータを用いて、前記入力信号に含まれる雑音信号を表す前記雑音信号の確率モデルを構成する要素分布の個数と、当該雑音信号の確率モデルの各要素分布のパラメータと、を推定する雑音モデル推定ステップと、
    前記雑音モデル推定ステップで推定した要素分布の個数および要素分布パラメータを用いて構成される前記雑音信号の確率モデルと前記音声信号の確率モデルを用いて、雑音抑圧部が、前記入力信号に含まれる雑音信号を前記入力信号から取り除いた信号を前記出力信号として得る雑音抑圧ステップと、
    を含む雑音抑圧方法。
  6. 請求項1から4の何れかの雑音抑圧装置としてコンピュータを機能させるためのプログラム。
JP2013168441A 2013-08-14 2013-08-14 雑音抑圧装置、雑音抑圧方法、およびプログラム Active JP5997114B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013168441A JP5997114B2 (ja) 2013-08-14 2013-08-14 雑音抑圧装置、雑音抑圧方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013168441A JP5997114B2 (ja) 2013-08-14 2013-08-14 雑音抑圧装置、雑音抑圧方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2015036769A JP2015036769A (ja) 2015-02-23
JP5997114B2 true JP5997114B2 (ja) 2016-09-28

Family

ID=52687276

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013168441A Active JP5997114B2 (ja) 2013-08-14 2013-08-14 雑音抑圧装置、雑音抑圧方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP5997114B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6517124B2 (ja) * 2015-10-26 2019-05-22 日本電信電話株式会社 雑音抑圧装置、雑音抑圧方法、およびプログラム
JP6729457B2 (ja) * 2017-03-16 2020-07-22 株式会社島津製作所 データ解析装置
JP6588936B2 (ja) * 2017-03-22 2019-10-09 日本電信電話株式会社 雑音抑圧装置、その方法、及びプログラム
CN113611320B (zh) * 2021-04-07 2023-07-04 珠海市杰理科技股份有限公司 风噪抑制方法、装置、音频设备及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001202358A (ja) * 2000-01-21 2001-07-27 Nippon Telegr & Teleph Corp <Ntt> 混合モデルのベイズ推定方法および混合モデルのベイズ推定プログラムを記録した記録媒体
JP4336865B2 (ja) * 2001-03-13 2009-09-30 日本電気株式会社 音声認識装置
JP5713818B2 (ja) * 2011-06-27 2015-05-07 日本電信電話株式会社 雑音抑圧装置、方法及びプログラム

Also Published As

Publication number Publication date
JP2015036769A (ja) 2015-02-23

Similar Documents

Publication Publication Date Title
Sudhakara et al. An Improved Goodness of Pronunciation (GoP) Measure for Pronunciation Evaluation with DNN-HMM System Considering HMM Transition Probabilities.
JP6243858B2 (ja) 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム
Sajjan et al. Comparison of DTW and HMM for isolated word recognition
Das et al. Bangladeshi dialect recognition using Mel frequency cepstral coefficient, delta, delta-delta and Gaussian mixture model
JP5713818B2 (ja) 雑音抑圧装置、方法及びプログラム
JP5997114B2 (ja) 雑音抑圧装置、雑音抑圧方法、およびプログラム
JP5670298B2 (ja) 雑音抑圧装置、方法及びプログラム
JP2004226982A (ja) 隠れ軌跡隠れマルコフモデルを使用した音声認識の方法
Gales et al. Model-based approaches to handling additive noise in reverberant environments
JP7191792B2 (ja) 情報処理装置、情報処理方法およびプログラム
Nakamura et al. A mel-cepstral analysis technique restoring high frequency components from low-sampling-rate speech.
Hachkar et al. A comparison of DHMM and DTW for isolated digits recognition system of Arabic language
JP7423056B2 (ja) 推論器および推論器の学習方法
JP5740362B2 (ja) 雑音抑圧装置、方法、及びプログラム
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
JP5457999B2 (ja) 雑音抑圧装置とその方法とプログラム
WO2020049687A1 (ja) 音声処理装置、音声処理方法、およびプログラム記録媒体
KR101647059B1 (ko) 독립 벡터 분석 및 모델 기반 특징 향상을 이용한 강인한 음성 인식 방법
Ramya et al. Analysis on MAP and MLLR based speaker adaptation techniques in speech recognition
JP4571921B2 (ja) 音響モデル適応化装置、音響モデル適応化方法、音響モデル適応化プログラム及びその記録媒体
Patlar et al. Triphone based continuous speech recognition system for turkish language using hidden markov model
JP2003076393A (ja) 騒音環境下における音声推定方法および音声認識方法
JP5885686B2 (ja) 音響モデル適応化装置、音響モデル適応化方法、プログラム
JP2005321660A (ja) 統計モデル作成方法、その装置、パターン認識方法、その装置、これらのプログラム、その記録媒体
Maas et al. Combined-order hidden Markov models for reverberation-robust speech recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150629

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160624

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160705

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160715

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160816

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160825

R150 Certificate of patent or registration of utility model

Ref document number: 5997114

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150