JP5997114B2 - 雑音抑圧装置、雑音抑圧方法、およびプログラム - Google Patents
雑音抑圧装置、雑音抑圧方法、およびプログラム Download PDFInfo
- Publication number
- JP5997114B2 JP5997114B2 JP2013168441A JP2013168441A JP5997114B2 JP 5997114 B2 JP5997114 B2 JP 5997114B2 JP 2013168441 A JP2013168441 A JP 2013168441A JP 2013168441 A JP2013168441 A JP 2013168441A JP 5997114 B2 JP5997114 B2 JP 5997114B2
- Authority
- JP
- Japan
- Prior art keywords
- noise
- signal
- probability model
- parameter
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
収音された入力信号に含まれる雑音信号を効果的に抑圧するためには、雑音信号の統計的な性質を正確にとらえ、適切な確率的モデリングの実施が必要となる。ここでの「雑音信号の統計的な性質」とは、例えば、雑音信号の分布が単峰性であるか、多峰性であるか、また、多峰性の場合にいくつの要素分布の重ねあわせで近似(表現)できるか、である。しかしながら、雑音信号の統計的な性質を事前に知ることは困難であり、特に様々な時間変化(状態遷移過程)を伴う非定常雑音の確率モデルを、与えられた入力信号のみから推定することは困難である。特に、雑音信号の確率モデルの構造(例えば、状態数や要素分布数)は、雑音信号の統計的な性質により大きく異なるため、確率モデルの適切な構造の選択、推定が極めて重要な要素となる。
本実施形態の雑音抑圧装置100を図1に例示する。
本実施形態の雑音抑圧装置100は、音声信号と雑音信号とが混合された入力信号から雑音を抑圧するための特徴量を抽出する音響特徴抽出部104と、特徴量とGMM記憶部108に記憶されている音声信号の確率モデルのパラメータセットとを用いて、雑音事前分布のパラメータを推定する雑音事前分布推定部105と、特徴量と音声信号の確率モデルのパラメータセットと雑音事前分布のパラメータとを用いて、雑音信号の確率モデルのパラメータセットを推定する雑音モデル推定部106と、入力信号の複素数スペクトルと特徴量と音声信号の確率モデルのパラメータセットと雑音信号の確率モデルのパラメータセットとを用いて雑音抑圧フィルタを設計し、入力信号の雑音信号を抑圧して雑音抑圧信号を得て出力する雑音抑圧部107を含む。
図2Aに例示するように、本実施形態の音響特徴抽出部104は、フレーム切出部104a、高速フーリエ変換部104b、メルフィルタバンク分析部104c、および対数化部104dを有し、入力信号からフレーム毎に特徴量を抽出する。音響特徴抽出部104は、例えば、図4に示す流れで処理を行う。まず、フレーム切出部104aが、時間領域の入力信号oτ(ただし、τは離散信号のサンプル点、oτはサンプル点τの入力信号)の列から、時間軸方向に一定時間幅Shtで始点を移動させながら、一定時間長Frmの音響信号の列をフレームとして切り出す(S201:フレーム切り出し処理)。例えば、フレーム切出部104aは、Frm=320個のサンプル点(16,000Hz×20ms)の音響信号ot,nからなる列を、Sht=160個のサンプル点(16,000Hz×10ms)ずつ始点を移動させながら切り出す。その際、フレーム切出部104aは、例えば以下のハミング窓のような窓関数wnを掛け合わせて切り出す。ここでtはフレーム番号、nはフレーム内のn番目のサンプル点を表す。また、ot,nはフレーム番号tのフレーム内のn番目のサンプル点の音響信号を表す。
<原理>
雑音事前分布を推定するにあたり、まず雑音事前分布の定義を説明する。本実施形態では、音声信号の確率モデルが無音GMM109とクリーン音声GMM110とからなる例について説明をする。無音GMM109およびクリーン音声GMM110は次式により与えられる。
上式において、jは無音GMM109とクリーン音声GMM110とを識別するインデックスであり、j=0は無音GMM109、j=1はクリーン音声GMM110を示し、kは無音GMM109またはクリーン音声GMM110に含まれるガウス分布の番号、Kは総ガウス分布数である(例えばK=128)。また、St={St,0,…,St,d,…,St,D-1}は音声信号の特徴量(例えば、対数メルスペクトル)であり、λS,jは無音GMM109またはクリーン音声GMM110のパラメータセットλS,j={wS,j,k,μS,j,k,ΣS,j,k}である。wS,j,kは無音GMM109またはクリーン音声GMM110の混合重みであり、μS,j,k={μS,j,k,0,…,μS,j,k,d,…,μS,j,k,D-1}は無音GMM109またはクリーン音声GMM110に含まれる各ガウス分布の平均ベクトルであり、ΣS,j,k=diag{σS,j,k,0,…,σS,j,k,d,…,σS,j,k,D-1}は無音GMM109またはクリーン音声GMM110に含まれる各ガウス分布の対角分散行列である。また、p(St|λS,j)は無音GMM109またはクリーン音声GMM110の尤度であり、パラメータλS,jからなる無音GMM109またはクリーン音声GMM110における音声信号Stの尤度である。すなわち、p(St|λS,j=0)はパラメータλS,j=0からなる無音GMM109における音声信号Stの無音らしさの指標値であり、p(St|λS,j=1)はパラメータλS,j=1からなるクリーン音声GMM110における音声信号Stの音声らしさの指標値である。それぞれのパラメータは多数話者の学習用音声データを用いて事前に推定される。関数N(・|・)は、次式で与えられるガウス分布の確率密度関数である。
上式において、vは雑音GMMに含まれるガウス分布の番号、Lは総ガウス分布数である(Lは1以上の整数)。つまり、本実施形態では、雑音信号の確率モデルを1個以上のガウス分布の混合分布であると仮定する。Nt={Nt,0,…,Nt,d,…,Nt,D-1}は雑音信号の特徴量(例えば、対数メルスペクトル)であり、λNは雑音GMMのパラメータセットλN={wN,v,μN,v,ΣN,v}(ただし、v=1,...,L)であり、wN,vは雑音GMMの混合重みであり、μN,v={μN,v,0,…,μN,v,d,…,μN,v,D-1}は雑音GMMの平均ベクトル(雑音GMMに含まれる各ガウス分布の平均からなるベクトル)であり、ΣN,v=diag{σN,v,0,…,σN,v,d,…,σN,v,D-1}は雑音GMMの対角分散行列(雑音GMMに含まれる各ガウス分布の分散を対角成分とする行列)である。p(Nt|λN)はλNを雑音パラメータとする雑音GMMにおける雑音信号Ntの尤度(雑音らしさの指標値)である。
上式において、Γ(・)はガンマ関数を示す。雑音事前分布のパラメータセットΘN (0)のうち、自由度ξ(0)と形状パラメータη(0)とは、それぞれ予め設定しておく定数とする。例えば、ξ(0)=1,η(0)=1とすればよい。
として求まる。
図2Bに例示するように、本実施形態の雑音事前分布推定部105は、制御部105a(第2制御部)、第1確率モデル生成部105c、期待値計算部105d、第1雑音信号推定部105e、雑音事前分布推定部105f、および事前分布パラメータ生成部105gを有し、音響特徴抽出部104で抽出した入力信号の特徴量と、GMM記憶部108に記憶された音声信号の確率モデルとを用いて、雑音信号の確率モデルの基本パラメータである雑音事前分布のパラメータを推定する。雑音事前分布は、入力信号に含まれる雑音信号の分布の概形を確率密度関数で表現したものであり、雑音信号のモデルの基本的な形状を特徴づけるパラメータである。ここでの雑音事前分布のパラメータとは、例えば、上述の雑音事前分布の平均ベクトルμN (0)と、尺度パラメータRN (0)である。
まず、制御部105aは、EMアルゴリズムの繰り返しインデックスをi=0と初期化する(S301)。
上式において、iμN (0)={μN,i,0 (0),…,μN,i,d (0),…,μN,i,D−1 (0)}とiΣN (0)=diag{σN,i,0 (0),… ,σN,i,d (0),…,σN,i,D−1 (0)}とは、それぞれ、EMアルゴリズムにおけるi回目の繰り返し推定における事前平均ベクトルμN (0)と事前対角分散行列ΣN (0)とであり、Initは初期値推定に要するフレーム数である(例えばInit=10)。
上式において、^Hi,j,k,dは関数h(・)のヤコビアンである。第1確率モデル生成部105cは、少なくともp(Ot|^λO,i,j)を出力する。また、第1確率モデル生成部105cは、^wO,i,j,k,^μO,i,j,k,d,およびN(Ot,d|^μO,i,j,k,d,^σO,i,j,k,d)を出力してもよい。
上式において、O0:T-1={O0,…,Ot,…,OT-1}であり、Tは、入力信号の対数メルスペクトルOtの総フレーム数、^Pt,i,jは次式で与えられるi回目の繰り返し推定におけるフレームtの第1入力信号GMMの種別jに対する事後確率であり、^Pt,i,j,kは次式で与えられるi回目の繰り返し推定におけるフレームtの第1入力信号GMMの種別jおよびガウス分布番号kに対する事後確率である。期待値計算部105dは、さらに^Pt,i,jおよび^Pt,i,j,kを出力してもよい。
である。Iteは予め定めておく定数(繰り返し回数の上限値)であり、例えばIte=100とする。また、ζは予め設定しておく定数であり、例えばζ=0.0001とする。
<原理>
図3に例示するように、本実施形態の雑音モデル推定部106は、制御部106a、第2確率モデル生成部106b、第2雑音信号推定部106c(雑音信号推定部)、第1信号複製部106d、十分統計量初期化部106e、フレーム番号初期化部106f、信号削除部106g(第1パラメータ更新部)、事後パラメータ生成部106h(第1パラメータ更新部)、クラス確率算出部106i(クラス推定部)、クラス決定部106j(クラス推定部)、信号追加部106k(第2パラメータ更新部)、雑音GMM推定部106m(第2パラメータ更新部)、および第2信号複製部106n(第2パラメータ更新部)を有する。この雑音モデル推定部106は、入力信号の対数メルスペクトルOtと雑音事前分布推定部106の出力である雑音事前分布のパラメータセットΘN (0)とから、雑音GMMの構造(ガウス分布数L)と雑音GMMのパラメータセットλNとを推定する。雑音GMMのガウス分布数Lの推定は、雑音信号の対数メルスペクトルNtを適切にクラスタリングすることにより実施する。フレームtにおける雑音信号の対数メルスペクトルNtが、どのクラスv(v∈{1,2,…,L})に属するか(所属クラス)を示す(すなわち、雑音GMMのどのガウス分布vから生成されたかを示す)変数をztと定義すると、フレームt以外の所属クラス集合z\t={zi:∀i,i≠t}と、全ての雑音信号の対数メルスペクトル集合N0:T−1={N0,…,Nt,…,NT−1}と、雑音事前分布のパラメータセットΘN (0)とが与えられた際に、フレームtにおける雑音信号の対数メルスペクトルNtの所属クラスがzt=vである確率P(zt=v|z\t,N0:T−1,ΘN (0))は次式で与えられる。
上式において、N\t={Ni:∀i, i≠t}は、フレームt以外の雑音信号の対数メルスペクトルNtの集合である。また,P(zt=v|z\t)はフレームt以外の所属クラス集合z\tが与えられた際に、フレームtにおける雑音信号の対数メルスペクトルNtの所属クラスがzt=vである確率を表す。また、p(Nt|N\t,zt=v,ΘN (0))は、フレームt以外の雑音信号の対数メルスペクトル集合N\tと、フレームtにおける雑音信号の対数メルスペクトルNtの所属クラスzt=vと、雑音事前分布のパラメータセットΘN (0)と、が与えられた際に求まる事後分布の尤度である。
と与えられる。上式において、nvはクラスvに属するフレームt以外の雑音信号の対数メルスペクトルN \tの個数であり、N\t (v)={Ni:∀i,i≠t,zi=v}はクラスvに属するフレームt以外の雑音信号の対数メルスペクトルN\tの集合であり、ΘN,v={μN,v,ξv,ηv,RN,v}は、クラスvに属するフレームt以外の雑音信号の対数メルスペクトル集合N\t (v)と雑音事前分布のパラメータセットΘN (0)とが与えられた際の、クラスvの事後分布のパラメータセットである。また、μN,v={μN,v,0,…,μN,v,d,…,μN,v,D-1}はクラスvの事後分布の平均ベクトルであり、ξvはクラスvの事後分布自由度であり、ηvはクラスvの事後分布の形状パラメータであり、RN,v={rN,v,0,…,rN,v,d,…,rN,v,D-1}はクラスvの事後分布尺度パラメータである。
と与えられる。P(zt=v|z\t)は既存のクラス{1,…,L}以外の新たなクラスvに所属する確率であり、p(Nt|N\t,zt=v,ΘN (0))は既存のクラス{1,…,L}以外の新たなクラスvの尤度であり、G0(ΘN|ΘN (0))は式(5)の雑音事前分布p(μN,ΣN|ΘN (0))に相当する(ただし、ΘN={μN,ΣN})。また、γは新たなクラスvが発生する確率を制御するパラメータである。ここで、新たなクラスvが発生する確率は、フレーム数Tに依存しない定数ρ(例えばρ=0.0005)であることが望ましい。例えば、定数ρを用いて、次式によりγの値を決定する。
上式において、関数F(・|・)は、次式で与えられるStudentのt分布の確率密度関数である。
雑音モデル推定部106は、例えばGibbsサンプリング法により、雑音GMMのガウス分布数Lと雑音GMMのパラメータセットλNとを推定する。Gibbsサンプリング法は、マルコフ連鎖モンテカルロ法の一解法であり、パラメータ集合からある1点のデータを取り除いた集合から、パラメータをランダムサンプリングする。その後、サンプリングされたデータをパラメータ集合に加え、別のある1点のデータをパラメータ集合から取り除いて再度サンプリングを行う。このようなサンプリングを繰り返し行うことにより、ある信号の確率分布を推定する。
まず、制御部106aは、Gibbsサンプリングの繰り返しインデックスi’と雑音GMMの分布数Lとフレームtにおける所属クラスztとを、それぞれi’=0,L=1,zt=1と初期化して出力する(S401:初期化処理)。雑音GMMのパラメータセットλN={wN,v,μN,v,ΣN,v}を、雑音事前分布のパラメータセットΘN (0)={μN (0),ξ(0),η(0),RN (0)}を用いて以下のように初期化する。すなわち、雑音GMMが1個のガウス分布で構成されているものとし、そのガウス分布の平均と分散を、雑音事前分布推定部105で求めた雑音事前分布のパラメータに基づいて設定する。
上式において、p(Ot|~λO,j)は第2入力信号GMMにおける対数メルスペクトルOtの尤度(入力信号の尤度)であり、~λO,jは第2入力信号GMMのパラメータセット~λO,j={~wO,j,k,v,~μO,j,k,v,~ΣO,j,k,v}である。~wO,j,k,vは第2入力信号GMMの混合重みであり、~μO,j,k,v={~μO,j,k,v,0,…,~μO,j,k,v,d,…,~μO,j,k,v,D-1}は第2入力信号GMMの平均ベクトルであり、~ΣO,j,k,v=diag{~σO,j,k,v,0,…,~σO,j,k,v,d,…,~σO,j,k,v,D-1}は第2入力信号GMMの対角分散行列であり、次式で与えられる。第2確率モデル生成部106bは、少なくともp(Ot|~λO,j)を出力する。また、第2確率モデル生成部106bは、~wO,j,k,v,~μO,j,k,v,d,およびN(Ot,d|~μO,j,k,v,d,~σO,j,k,v,d)を出力してもよい。
上式の関数h(・)およびg(・)は、式(10)と式(11)で定義した通りである。
上式において、~Pt,jはフレームtにおける第2入力信号GMMの種別jおよびガウス分布番号kに対する事後確率であり、~Pt,j,k,vは、フレームtにおける第2入力信号GMMの種別j、ガウス分布番号k、およびvに対する事後確率である。
このとき、信号削除部106gは、s0,v=zt=0となったクラスvを削除し、L←L-1とする。
υ〜U[0:1] (56)
その後、クラス決定部106jは、υから、vの昇順でP(zt=v|z\t,~N0:T-1,ΘN (0))の値を順次減算することによりυの値を順次更新し、υの値が負となった時点のvを、フレームtにおける雑音信号の第2推定対数メルスペクトル~Ntの所属クラスztとして決定する。すなわち、クラス決定部106jは、v=L+1,v=L,...,v=1の順序で次式のような計算を行い、υの値が負となった時点のvを、フレームtにおける雑音信号の第2推定対数メルスペクトル~Ntの所属クラスztとして決定する。
このとき、zt=L+1であれば、新たなクラスが生成されたとみなして、L←L+1とする。その時、新たなクラスの十分統計量s0,v=L,S1,v=L,およびS2,v=Lを以下のように初期化する。
s0,v=L=0 (58)
s1,v=L,d=0 (59)
s2,v=L,d=0 (60)
(1)現在の雑音信号の確率モデルのパラメータの推定値λNと、GMM記憶部108に記憶されている音声信号の確率モデルのパラメータと、から構成される、第2確率モデル(第2入力信号GMM)における入力信号Otの尤度を計算する(第2確率モデル生成処理S402に相当)。
(2)上記(1)で求めた第2確率モデルの尤度と入力信号の特徴量を用いて、入力信号に含まれる雑音信号の特徴量の推定値~Ntを求める(第2雑音信号推定処理S403に相当)。
(3)上記(2)で求めた雑音信号の特徴量の推定値~Ntを用いて、現在の雑音信号の確率モデルを構成する各クラスvの確率分布のパラメータΘN,vを推定する(事後パラメータ生成処理S409)。
(4)上記(2)で求めた雑音信号の特徴量の推定値~Ntと、上記(3)で推定した各クラスvの確率分布のパラメータΘN,vを用いて、フレームtの雑音信号の特徴量の推定値~Ntが属するガウス分布のクラスvを推定する(クラス確率確率算出処理S410〜クラス決定処理S411)。
(5)上記(3)と(4)の処理を全てのフレームt毎に行った後、フレームtの雑音信号の特徴量の推定値~Ntと~Ntが属するガウス分布のクラスvの推定結果に基づいて、雑音モデルを構成する各確率分布のパラメータを推定する(フレーム番号判定処理S413〜雑音GMM推定処理S415)。
雑音抑圧部107の構成は図7、図8Aおよび図8Bに示す通りである。雑音抑圧部107は、入力信号の対数メルスペクトルOtと、無音GMM109およびクリーン音声GMM110のパラメータセットλS,jと、雑音GMMのパラメータセットλNとを受けて、雑音抑圧フィルタFt,m Lin を推定する雑音抑圧フィルタ推定部501と、入力信号の複素数スペクトルSpctと雑音抑圧フィルタFt,m Linとを受けて雑音を抑圧して雑音抑圧信号^sτを得る雑音抑圧フィルタ適用部502とを含む。本実施形態の雑音抑圧フィルタ推定部501は、第3確率モデル生成部501a、確率計算部501b、雑音抑圧フィルタ推定部501c、および雑音抑圧フィルタ変換部501dを有する。また、本実施形態の雑音抑圧フィルタ適用部502は、フィルタリング部502a、逆高速フーリエ変換部502b、および波形連結部502cを有する。
雑音抑圧フィルタ推定部501は図9に示す流れで処理を行う。
まず、第3確率モデル生成部501aが、無音GMM109およびクリーン音声GMM110のパラメータセットλS,jと、雑音GMMのパラメータセットλNから、入力信号の対数メルスペクトルOtの第3確率モデルを以下のようなGMM(以下、第3入力信号GMMと呼ぶ)で構成する(S601:第3確率モデル生成処理)。
上式において,p(Ot|λO,j)は第3入力信号GMMの尤度であり、λO,jは第3入力信号GMMのパラメータセットλO,j={wO,j,k,v,μO,j,k,v,ΣO,j,k,v}である。wO,j,k,vは第3入力信号GMMの混合重みであり、μO,j,k,v={μO,j,k,v,0,…,μO,j,k,v,d,… ,μO,j,k,v,D-1}は第3入力信号GMMの平均ベクトル、ΣO,j,k,v=diag{σO,j,k,v,0,…,σO,j,k,v,d,…,σO,j,k,v,D-1}は第3入力信号GMMの対角分散行列であり、次式で与えられる。
上式の関数h(・)およびg(・)は、式(10)と式(11)で定義した通りである。第3確率モデル生成部501aは、少なくともp(Ot|λO,j)を出力する。第3確率モデル生成部501aは、μO,j,k,v,dを出力してもよい。
雑音抑圧フィルタ適用部502は図10に示す流れで処理を行う。
まず、フィルタリング部502aが、入力信号の複素数スペクトルSpctに対して雑音抑圧フィルタWt,m Linを次式のように掛け合わせることにより、雑音抑圧された複素数スペクトル^Spct,mを得て出力する(S701:フィルタリング処理)。
本実施形態で説明した方式の効果を示すために、音声信号と雑音信号が混在する音響信号を上述の雑音抑圧装置100に入力し、雑音抑圧を実施した例を示す。以下、実験方法および結果について説明する。
上式のNは総単語数、Dは脱落誤り単語数、Sは置換誤り単語数、Iは挿入誤り単語数であり、WERの値が小さい程音声認識性能が高いことを示す。音声認識は、有限状態トランスデューサーに基づく認識器(T. Hori, et al., “Efficient WFST-based one-pass decoding with on-the-fly hypothesis rescoring in extremely large vocabulary continuous speech recognition,” IEEE Trans. on ASLP, vol. 15, no. 4, pp. 1352-1365, May 2007.)により行い、音響モデルには話者独立のTriphone HMMを用い、各HMMの構造は3状態のLeft-to-right型HMMであり、各状態は16の正規分布を持つ。HMM全体の状態数は2,000である。音声認識の音響特徴量は、1フレームの時間長を20ms(Frm=320)とし、10ms(Sht=160サンプル点)ごとにフレームの始点を移動させて分析した12次元のMFCC(Mel-frequency cepstral coefficient)、対数パワー値、各々の1次および2次の回帰係数を含む合計39次元のベクトルである。また、言語モデルにはTri-gramを用い、語葉数は20,000単語である。
本発明は上述の実施形態に限定されるものではない。例えば、上述の実施形態のフレーム切り出し処理(S201)において、ハミング窓に代えて、方形窓、ハニング窓、ブラックマン窓などの窓関数を利用してもよい。また、上述の実施形態において、無音GMM109およびクリーン音声GMM110の代わりに、音声信号の確率モデルとして、隠れマルコフモデル(Hidden Markov model: HMM)等の他の確率モデルを用いてもよい。上述の実施形態において、無音GMM109およびクリーン音声GMM110の2つのGMMだけでなく、より多くのGMMを用いてもよい。例えば、無音GMM、無声音GMM、有声音GMMや音素毎のGMMを用いてもよい。上述の実施形態において、雑音GMMの代わりに、雑音信号の確率モデルとしてHMM等の他の確率モデルを用いてもよい。上述の実施形態において、雑音抑圧フィルタ推定処理(S603)にて、重み付け平均ではなく、最大の重み、すなわち最大の事後確率Pt,jとPt,j,k,vとの積を持つ推定結果をそのまま使用してもよい。言い換えると、最大の事後確率の積Pt,j×Pt,j,k,vに対応するj,k,vに対応するexp(μS,j,k,d-μO,j,k,v,d)をそのまま雑音抑圧フィルタWt,d Melとしてもよい。この場合、他の推定結果の重みに比べて十分大きな重みを持っていることが望ましい。
上記の雑音抑圧装置は、コンピュータが読み取り可能な符号によって記述されたプログラムをコンピュータに実行させることによって実現される。これらのプログラムは例えば磁気ディスクあるいはCD−ROMのようなコンピュータが読み取り可能で非一時的な(non-transitory)記録媒体に記憶され、記録媒体からコンピュータにインストールするか或いは通信回線を通じてインストールされて実行される。また、上記の雑音抑圧装置の処理機能の少なくとも一部がハードウェアで実現されてもよい。各部で得られた値は、逐一記憶部に格納され、必要に応じて各部に読み込まれ、それぞれの処理に用いられる。
Claims (6)
- 音声信号と雑音信号を含む音響信号である入力信号から、前記雑音信号の成分を抑圧した信号である出力信号を生成する雑音抑圧装置であって、
前記雑音信号の確率モデルが1以上の要素分布から構成されるものとし、
音声信号の確率モデルを記憶する記憶部と、
前記音声信号の確率モデルを用いて、前記入力信号に含まれる雑音信号を表す前記雑音信号の確率モデルの規定パラメータである雑音事前分布のパラメータを推定する雑音事前分布推定部と、
前記雑音事前分布のパラメータを用いて、前記入力信号に含まれる雑音信号を表す前記雑音信号の確率モデルを構成する要素分布の個数と、当該雑音信号の確率モデルの各要素分布のパラメータと、を推定する雑音モデル推定部と、
前記雑音モデル推定部で推定した要素分布の個数および要素分布パラメータを用いて構成される前記雑音信号の確率モデルと前記音声信号の確率モデルを用いて、前記入力信号に含まれる雑音信号を前記入力信号から取り除いた信号を前記出力信号として得る雑音抑圧部と、
を含む雑音抑圧装置。 - 請求項1に記載の雑音抑圧装置において、
前記雑音事前分布推定部は、前記雑音事前分布のパラメータと、前記音声信号の確率モデルと、から構成される第1確率モデルにおける前記入力信号の尤度が最大となるように、前記雑音事前分布のパラメータを更新することにより求め、
前記雑音モデル推定部は、
前記雑音事前分布のパラメータに依存して前記雑音信号の確率モデルを構成する各要素分布のパラメータの初期値を定め、前記雑音信号の確率モデルを構成する各要素分布のパラメータと、記憶部に記憶されている音声信号の確率モデルのパラメータと、から構成される第2確率モデルにおける前記入力信号の尤度に基づいて、前記入力信号に含まれる雑音信号が前記雑音信号の確率モデル中のどの要素分布に属するかを推定し、
その推定した結果と前記第2確率モデルにおける前記入力信号の尤度とに基づいて、前記雑音信号の確率モデルを構成する各要素分布のパラメータを更新することにより、前記雑音信号の確率モデルを構成する各要素分布のパラメータを求める
ことを特徴とする雑音抑圧装置。 - 請求項2に記載の雑音抑圧装置において、
前記雑音モデル推定部は、
雑音信号の確率モデルを構成する各要素分布のパラメータの推定値と、記憶部に記憶されている音声信号の確率モデルのパラメータと、から構成される、第2確率モデルにおける前記入力信号の尤度を計算する第2確率モデル生成部と、
前記第2確率モデルの尤度と前記入力信号とに基づいて、前記入力信号に含まれる雑音信号の推定値~Ntを求める雑音信号推定部と、
前記雑音信号の推定値~Ntを用いて、前記雑音信号の確率モデルを構成する各要素分布のパラメータを更新する第1パラメータ更新部と、
前記雑音信号の推定値~Ntと前記第1パラメータ更新部で更新した前記雑音信号の確率モデルを構成する各要素分布のパラメータとを用いて、前記雑音信号の推定値~Ntが属する前記雑音信号の確率モデル中の要素分布を推定するクラス推定部と、
前記雑音信号の推定値~Ntと、前記雑音信号の推定値~Ntが属する前記雑音信号の確率モデル中の要素分布の推定結果と、に基づいて、前記雑音信号の確率モデルを構成する各要素分布のパラメータを更新する第2パラメータ更新部と、
前記雑音信号の確率モデルを構成する各要素分布のパラメータの推定値の初期値を前記雑音事前分布のパラメータに依存して定め、前記第2確率モデル生成部と雑音信号推定部と第1パラメータ更新部とクラス推定部と第2パラメータ更新部との処理を、所定の条件を満たすまで繰り返し実行させる制御部と、を含む雑音抑圧装置。 - 請求項3に記載の雑音抑圧装置において、
前記雑音事前分布推定部は、
前記第1確率モデルにおける前記入力信号の尤度を計算する第1確率モデル生成部と、
前記第1確率モデルのコスト関数の期待値を得る期待値計算部と、
前記第1確率モデルの尤度と前記入力信号とに基づいて、前記入力信号に含まれる雑音信号の推定値^Nt,iを求める第1雑音信号推定部と、
前記雑音信号の推定値^Nt,iを用いて、前記雑音事前分布のパラメータに対応するパラメータを更新する雑音事前分布推定部と、
前記雑音事前分布のパラメータに対応するパラメータの初期値を前記入力信号に依存して定め、前記第1確率モデル生成部と前記期待値計算部と前記第1雑音信号推定部との処理を、前記コスト関数の期待値に基づく条件を満たすまで、繰り返し実行させる第2制御部と、
前記コスト関数の期待値に基づく条件を満たしたとき、前記雑音事前分布のパラメータに対応するパラメータから、前記雑音事前分布のパラメータを得る事前分布パラメータ生成部と、を含み、
前記雑音モデル推定部は、さらに
前記雑音信号の推定値~Ntを旧信号の初期値として複製する第1信号複製部と、
前記旧信号を用い、前記雑音信号の確率モデル中のクラスの十分統計量を初期化する十分統計量初期化部と、を含み、
前記制御部は、さらに前記雑音信号の推定値~Ntが属する前記雑音信号の確率モデル中のクラスである所属クラスの初期値を定め、
前記第1パラメータ更新部は、
前記所属クラスの前記十分統計量から前記旧信号を削除して十分統計量を更新する信号削除部と、
前記雑音事前分布のパラメータと前記十分統計量とを用いて、前記雑音信号の確率モデルを構成する各要素分布のパラメータを更新する事後パラメータ生成部と、を含み、
前記クラス推定部は、
前記雑音信号の推定値~Ntと前記事後パラメータ生成部で更新した前記雑音信号の確率モデルを構成する各要素分布のパラメータとを用いて、前記所属クラスの確率分布を推定するクラス確率算出部と、
前記所属クラスの確率分布を用いて前記所属クラスを更新するクラス決定部と、を含み、
前記第2パラメータ更新部は、
前記所属クラスの前記十分統計量に前記雑音信号の推定値~Ntを追加して十分統計量を更新する信号追加部と、
前記雑音事前分布のパラメータと各クラスの前記十分統計量とを用い、前記雑音信号の確率モデルを構成する各要素分布のパラメータを更新する更新部と、
前記雑音信号の推定値~Ntを旧信号として複製する第2信号複製部と、を含む、
雑音抑圧装置。 - 音声信号と雑音信号を含む音響信号である入力信号から、前記雑音信号の成分を抑圧した信号である出力信号を生成する雑音抑圧方法であって、
前記雑音信号の確率モデルが1以上の確率分布から構成されるものとし、
雑音事前分布推定部が、音声信号の確率モデルを用いて、前記入力信号に含まれる雑音信号を表す前記雑音信号の確率モデルの基本パラメータである雑音事前分布のパラメータを推定する雑音事前分布推定ステップと、
雑音モデル推定部が、前記雑音事前分布のパラメータを用いて、前記入力信号に含まれる雑音信号を表す前記雑音信号の確率モデルを構成する要素分布の個数と、当該雑音信号の確率モデルの各要素分布のパラメータと、を推定する雑音モデル推定ステップと、
前記雑音モデル推定ステップで推定した要素分布の個数および要素分布パラメータを用いて構成される前記雑音信号の確率モデルと前記音声信号の確率モデルを用いて、雑音抑圧部が、前記入力信号に含まれる雑音信号を前記入力信号から取り除いた信号を前記出力信号として得る雑音抑圧ステップと、
を含む雑音抑圧方法。 - 請求項1から4の何れかの雑音抑圧装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013168441A JP5997114B2 (ja) | 2013-08-14 | 2013-08-14 | 雑音抑圧装置、雑音抑圧方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013168441A JP5997114B2 (ja) | 2013-08-14 | 2013-08-14 | 雑音抑圧装置、雑音抑圧方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015036769A JP2015036769A (ja) | 2015-02-23 |
JP5997114B2 true JP5997114B2 (ja) | 2016-09-28 |
Family
ID=52687276
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013168441A Active JP5997114B2 (ja) | 2013-08-14 | 2013-08-14 | 雑音抑圧装置、雑音抑圧方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5997114B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6517124B2 (ja) * | 2015-10-26 | 2019-05-22 | 日本電信電話株式会社 | 雑音抑圧装置、雑音抑圧方法、およびプログラム |
JP6729457B2 (ja) * | 2017-03-16 | 2020-07-22 | 株式会社島津製作所 | データ解析装置 |
JP6588936B2 (ja) * | 2017-03-22 | 2019-10-09 | 日本電信電話株式会社 | 雑音抑圧装置、その方法、及びプログラム |
CN113611320B (zh) * | 2021-04-07 | 2023-07-04 | 珠海市杰理科技股份有限公司 | 风噪抑制方法、装置、音频设备及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001202358A (ja) * | 2000-01-21 | 2001-07-27 | Nippon Telegr & Teleph Corp <Ntt> | 混合モデルのベイズ推定方法および混合モデルのベイズ推定プログラムを記録した記録媒体 |
JP4336865B2 (ja) * | 2001-03-13 | 2009-09-30 | 日本電気株式会社 | 音声認識装置 |
JP5713818B2 (ja) * | 2011-06-27 | 2015-05-07 | 日本電信電話株式会社 | 雑音抑圧装置、方法及びプログラム |
-
2013
- 2013-08-14 JP JP2013168441A patent/JP5997114B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015036769A (ja) | 2015-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sudhakara et al. | An Improved Goodness of Pronunciation (GoP) Measure for Pronunciation Evaluation with DNN-HMM System Considering HMM Transition Probabilities. | |
JP6243858B2 (ja) | 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム | |
Sajjan et al. | Comparison of DTW and HMM for isolated word recognition | |
Das et al. | Bangladeshi dialect recognition using Mel frequency cepstral coefficient, delta, delta-delta and Gaussian mixture model | |
JP5713818B2 (ja) | 雑音抑圧装置、方法及びプログラム | |
JP5997114B2 (ja) | 雑音抑圧装置、雑音抑圧方法、およびプログラム | |
JP5670298B2 (ja) | 雑音抑圧装置、方法及びプログラム | |
JP2004226982A (ja) | 隠れ軌跡隠れマルコフモデルを使用した音声認識の方法 | |
Gales et al. | Model-based approaches to handling additive noise in reverberant environments | |
JP7191792B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
Nakamura et al. | A mel-cepstral analysis technique restoring high frequency components from low-sampling-rate speech. | |
Hachkar et al. | A comparison of DHMM and DTW for isolated digits recognition system of Arabic language | |
JP7423056B2 (ja) | 推論器および推論器の学習方法 | |
JP5740362B2 (ja) | 雑音抑圧装置、方法、及びプログラム | |
JP6027754B2 (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
JP5457999B2 (ja) | 雑音抑圧装置とその方法とプログラム | |
WO2020049687A1 (ja) | 音声処理装置、音声処理方法、およびプログラム記録媒体 | |
KR101647059B1 (ko) | 독립 벡터 분석 및 모델 기반 특징 향상을 이용한 강인한 음성 인식 방법 | |
Ramya et al. | Analysis on MAP and MLLR based speaker adaptation techniques in speech recognition | |
JP4571921B2 (ja) | 音響モデル適応化装置、音響モデル適応化方法、音響モデル適応化プログラム及びその記録媒体 | |
Patlar et al. | Triphone based continuous speech recognition system for turkish language using hidden markov model | |
JP2003076393A (ja) | 騒音環境下における音声推定方法および音声認識方法 | |
JP5885686B2 (ja) | 音響モデル適応化装置、音響モデル適応化方法、プログラム | |
JP2005321660A (ja) | 統計モデル作成方法、その装置、パターン認識方法、その装置、これらのプログラム、その記録媒体 | |
Maas et al. | Combined-order hidden Markov models for reverberation-robust speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150629 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160624 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160705 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160715 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160816 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160825 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5997114 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |