JP5457999B2 - Noise suppressor, method and program thereof - Google Patents
Noise suppressor, method and program thereof Download PDFInfo
- Publication number
- JP5457999B2 JP5457999B2 JP2010273702A JP2010273702A JP5457999B2 JP 5457999 B2 JP5457999 B2 JP 5457999B2 JP 2010273702 A JP2010273702 A JP 2010273702A JP 2010273702 A JP2010273702 A JP 2010273702A JP 5457999 B2 JP5457999 B2 JP 5457999B2
- Authority
- JP
- Japan
- Prior art keywords
- noise
- gmm
- component
- residual component
- noise suppression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
この発明は、目的信号である音声信号に雑音信号が重畳した音響信号から、雑音信号を抑圧して目的信号を抽出する雑音抑圧装置と、その方法とプログラムに関する。 The present invention relates to a noise suppression device that suppresses a noise signal and extracts a target signal from an acoustic signal in which the noise signal is superimposed on an audio signal that is a target signal, and a method and a program thereof.
自動音声認識技術を実際の環境で利用する場合においては、処理対象とする目的信号(音声信号)以外の信号、つまり雑音が含まれる音響信号から雑音を取り除き、所望の目的信号のみを抽出する必要がある。その雑音抑圧性能の向上は、早急に解決されるべき課題である。 When using automatic speech recognition technology in an actual environment, it is necessary to remove noise from signals other than the target signal (speech signal) to be processed, that is, an acoustic signal containing noise, and extract only the desired target signal. There is. Improvement of the noise suppression performance is a problem to be solved as soon as possible.
非特許文献1には、予め推定した音声信号と雑音信号の確率モデルから入力信号の確率モデルを生成して確率モデルと入力信号全体の統計量との差分をテイラー展開で表現し、その差分をEMアルゴリズムを用いて推定して入力信号の確率モデルを最適化する。そして、その後、最適化された入力信号の確率モデルと音声信号の確率モデルのパラメータを用いて雑音を抑圧する方法が開示されている。
In
また、非特許文献2には、並列非線形カルマンフィルタにより雑音信号を推定して音声信号区間検出と雑音抑圧で確率モデルを共有して情報の共有を密にし、音声信号区間検出結果に応じた最適な雑音抑圧フィルタを設計する音声信号区間検出機能付き雑音抑圧方法が開示されている。 In Non-Patent Document 2, a noise signal is estimated by a parallel nonlinear Kalman filter, a probability model is shared by voice signal section detection and noise suppression, and information sharing is made dense. A noise suppression method with a speech signal section detection function for designing a noise suppression filter is disclosed.
非特許文献1に開示された技術では、収音された入力信号全体を用いてEMアルゴリズムにより入力信号の確率モデルを最適化するが、入力音響信号に含まれる雑音信号の特徴が定常的なものであるという前提のもとで雑音抑圧を行う。しかし、実環境における雑音信号の多くは非定常的な特徴を持っている。つまり、雑音信号の統計的な特徴が時間の経過に伴って変動するので、雑音の時間変動に対応できず、十分な雑音抑圧性能が得られない。
In the technique disclosed in Non-Patent
非特許文献2には、並列非線形カルマンフィルタにより非定常的な雑音信号を逐次的に推定する方法が開示されているが、雑音の潜在的な成分(パラメータ)の存在について考慮されておらず、並列非線形カルマンフィルタの逐次推定手法に適さない成分が存在しても逐次推定手法によって雑音信号を推定してしまう。その結果、雑音信号の推定誤差が増大し、十分な雑音抑圧性能が得られない場合がある。 Non-Patent Document 2 discloses a method of sequentially estimating a non-stationary noise signal using a parallel nonlinear Kalman filter, but does not take into account the presence of a potential component (parameter) of noise. Even if there is a component that is not suitable for the nonlinear Kalman filter successive estimation method, the noise signal is estimated by the successive estimation method. As a result, the estimation error of the noise signal increases, and sufficient noise suppression performance may not be obtained.
この発明は、このような点に鑑みてなされたものであり、雑音信号を、定常成分(バイアス成分)と非定常成分(残差成分)とに分解することで、高精度に雑音を推定して抑圧することが可能な雑音抑圧装置と、その方法とプログラムを提供することを目的とする。 The present invention has been made in view of such a point, and noise is estimated with high accuracy by decomposing a noise signal into a stationary component (bias component) and an unsteady component (residual component). It is an object of the present invention to provide a noise suppression device that can be suppressed, a method thereof, and a program.
この発明の雑音抑圧装置は、音響特徴抽出部と、雑音バイアス成分推定部と、雑音残差成分推定部と、雑音抑圧部と、を具備する。音響特徴抽出部は、目的信号である音声信号に雑音信号が重畳した音響信号を入力として、上記音響信号の一定時間長をフレームとしたフレーム毎に複素数スペクトルと対数メルスペクトルを音響特徴量として抽出する。雑音バイアス成分推定部は、対数メルスペクトルと、無音GMMとクリーン音声GMMのパラメータと、を入力として雑音信号の音響特徴量空間の重心であるバイアス成分を最適推定する。雑音残差成分推定部は、対数メルスペクトルとバイアス成分と、無音GMMとクリーン音声GMMのパラメータと、を入力として雑音信号とバイアス成分との差分である残差成分を最適推定する。雑音抑圧部は、対数メルスペクトルと複素数スペクトルと、バイアス成分と残差成分と、無音GMMとクリーン音声GMMのパラメータと、を入力として雑音信号を抑圧した音響信号を出力する。 The noise suppression device of the present invention includes an acoustic feature extraction unit, a noise bias component estimation unit, a noise residual component estimation unit, and a noise suppression unit. The acoustic feature extraction unit receives an acoustic signal obtained by superimposing a noise signal on the target audio signal, and extracts a complex number spectrum and a log mel spectrum as acoustic feature amounts for each frame with a certain time length of the acoustic signal as a frame. To do. The noise bias component estimator optimally estimates the bias component that is the center of gravity of the acoustic feature amount space of the noise signal with the log mel spectrum and the parameters of the silent GMM and the clean speech GMM as inputs. The noise residual component estimation unit optimally estimates a residual component that is a difference between the noise signal and the bias component by using the log mel spectrum, the bias component, and the parameters of the silent GMM and the clean speech GMM as inputs. The noise suppression unit outputs an acoustic signal in which the noise signal is suppressed with the log mel spectrum, the complex spectrum, the bias component and the residual component, and the parameters of the silence GMM and the clean speech GMM as inputs.
この発明の雑音抑圧装置は、雑音信号が重畳した音響信号を、時間変化を伴わないバイアス成分と、時間変動を伴う残差成分とに分解し、各々の成分に適した推定方法を適用して雑音を高精度に推定するので、雑音抑圧性能を高めることが出来る。 The noise suppression device according to the present invention decomposes an acoustic signal on which a noise signal is superimposed into a bias component not accompanied by a time change and a residual component accompanying a time change, and applies an estimation method suitable for each component. Since noise is estimated with high accuracy, noise suppression performance can be improved.
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。なお、以下の説明において、説明の中で使用する記号「^」、「〜」等は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。式中においては、これらの記号は本来の位置に記述している。また、各変数は特にことわりの無い限り縦ベクトルである。実施例の説明の前に、この発明の基本的な考えについて説明する。 Embodiments of the present invention will be described below with reference to the drawings. The same reference numerals are given to the same components in a plurality of drawings, and the description will not be repeated. In the following description, the symbols “^”, “˜”, etc. used in the description should be described immediately above the original character, but due to restrictions on text notation, Enter immediately before. In the formula, these symbols are written in their original positions. Each variable is a vertical vector unless otherwise specified. Prior to the description of the embodiments, the basic idea of the present invention will be described.
〔この発明の基本的な考え〕
この発明の雑音抑圧装置は、雑音信号を、時間不変の定常成分(バイアス成分)と時間変動を伴う非定常成分(残差成分)とに分解して考える。
[Basic idea of the present invention]
The noise suppression apparatus of the present invention considers a noise signal by decomposing it into a time-invariant stationary component (bias component) and a non-stationary component (residual component) with time fluctuation.
図1の横軸は1次元目の音響特徴量を表し、縦軸は2次元目の音響特徴量を表す。描写の問題から2次元の音響特徴量空間のみを示している。雑音信号をバイアス成分と残差成分の2つから構成されるものと考えると、バイアス成分μNは雑音Ntの音響特徴量空間の重心とみなすことができ、残差成分〜Ntは雑音〜Ntとバイアス成分μNとの差分であるとみなすことが出来る。 The horizontal axis in FIG. 1 represents the first-dimensional acoustic feature value, and the vertical axis represents the second-dimensional acoustic feature value. Only a two-dimensional acoustic feature space is shown due to the problem of depiction. If the noise signal is considered to be composed of two components, a bias component and a residual component, the bias component μ N can be regarded as the center of gravity of the acoustic feature amount space of the noise N t , and the residual component to N t is noise. it can be regarded as the difference between to N t and the bias component mu N.
このように考えると、あるフレームtにおける雑音の音響特徴量(例えば、24次元の対数メルスペクトルベクトル)をNtとすると、Ntは式(1)に示すように時間変化を伴わないバイアス成分μNと残差成分〜Ntとに分解することが可能である。 Considering this, if the acoustic feature of noise in a certain frame t (for example, a 24-dimensional log mel spectrum vector) is N t , N t is a bias component that does not change with time as shown in Equation (1). It can be decomposed into mu N and the residual component to N t.
そして、この発明では、残差成分の時間変化を予測誤差Utを伴って式(2)に示すような自己回帰モデルを用いて表現する。 Then, in this invention, it expressed using autoregressive model shown the time variation of the residual component in the equation with the prediction error U t (2).
ここで、Fは自己回帰係数を対角成分に持つ行列である。予測誤差Utは平均ベクトル0、対角分散行列ΣUの多次元白色雑音とする。ΣUの各対角成分は微小な値(例えば0.001)を持つものとする。
式(2)を式(1)に代入することにより対数メルスペクトルベクトルNtは、式(3)に示すようなバイアス付き自己回帰モデルで表現することが出来る。
Here, F is a matrix having autoregressive coefficients as diagonal components. The prediction error U t is a multidimensional white noise with an
By substituting Equation (2) into Equation (1), the log mel spectrum vector N t can be expressed by a biased autoregressive model as shown in Equation (3).
この発明は、式(3)に示したバイアス付き自己回帰モデルに基づいて雑音を推定し、雑音抑圧処理を行うものである。 The present invention estimates noise based on the biased autoregressive model shown in Equation (3) and performs noise suppression processing.
図2に、この発明の雑音抑圧装置100の機能構成例を示す。その動作フローを図2に示す。雑音抑圧装置100は、音響特徴抽出部10と、雑音バイアス成分推定部11と、雑音残差成分推定部12と、GMM記憶部13と、雑音抑圧部14と、を具備する。GMM記憶部13は、無音GMM130とクリーン音声GMM131とで構成される。
FIG. 2 shows a functional configuration example of the
GMM記憶部13を除く各部の機能は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
The functions of the units other than the
雑音抑圧装置100は、目的信号である音声信号に雑音信号が重畳した音響信号oτを入力信号として、時間軸方向に一定時間幅で始点を移動させながら、一定時間長の音響信号をフレームとして切り出して、1フレーム毎に雑音抑圧処理を行う。音響信号oτは、図示しないA/D変換器によって離散値化された信号であり、添え字τはその離散信号のサンプル点を表わす。1フレームは、例えば、サンプリング周波数を16KHzとした場合にFrame=320個のサンプル点(1/16KHz×320)の20msに設定される。
The
音響特徴抽出部10は、フレーム毎に複素スペクトルSpctと対数メルスペクトルOtを、音響特徴量として抽出する(ステップS10)。雑音バイアス成分推定部11は、対数メルスペクトルOtと、無音GMM130とクリーン音声GMM131のパラメータとを入力として、雑音信号の音響特徴量空間の重心であるバイアス成分μNを最適推定する(ステップS11)。
The acoustic
雑音残差成分推定部12は、対数メルスペクトルOtとバイアス成分μNと、無音GMM130とクリーン音声GMM131のパラメータとを入力として、雑音信号とバイアス成分μNとの差分である残差成分〜Ntと二乗誤差分散行列〜ΣN,tを最適推定する(ステップS12)。雑音抑圧部14は、対数メルスペクトルOtと複素数スペクトルSpctと、バイアス成分μNと残差成分〜Ntと二乗誤差分散行列〜ΣN,tと、無音GMM130とクリーン音声GMM131のパラメータと、を入力として雑音信号を抑圧した音響信号^sτを出力する(ステップS14)。
The noise residual
このように雑音抑圧装置100は、雑音信号が重畳した音響信号を、時間変化を伴わないバイアス成分と、時間変動を伴う残差成分〜Ntとに分解し、各々の成分に適した推定方法を適用するので雑音抑圧性能を向上させることが可能である。以下、雑音抑圧装置の各機能構成部の動作を詳しく説明する。
Thus
音響特徴抽出部10は、音響信号ot,nを例えばShift=160個のサンプル点ずつ始点を移動させながら切り出す。その際、例えば、式(4)に示すハミング窓のような窓関数wnを掛け合わせて切り出す。
The acoustic
ここでtはフレーム番号、nはフレーム内のn番目のサンプル点を表す。切り出し後の音響信号ot,nに対して、2のべき乗で且つフレーム以上の値のM点(例えば512)の高速フーリエ変換処理を適用して複素数スペクトルSpct={Spct,0,…,Spct,m,…,Spct,M−1}を得る。mは周波数ビン番号である。 Here, t represents the frame number, and n represents the nth sample point in the frame. A complex spectrum Spc t = {Spc t, 0 ,... Is applied to the cut-out acoustic signal o t, n by applying a fast Fourier transform process of M points (for example, 512) that is a power of 2 and a value equal to or greater than the frame. , Spc t, m ,..., Spc t, M−1 }. m is a frequency bin number.
次に、複素スペクトルSpct,mの絶対値に対してメルフィルタバンク分析処理と対数化処理を適用してL次元(例えばL=24)の対数メルスペクトルを要素に持つベクトルOt={Ot,0,…,Ot,l,…,Ot,L−1}を算出する。lはベクトルの要素番号である。 Next, a mel filter bank analysis process and a logarithmization process are applied to the absolute value of the complex spectrum Spt t, m , and a vector O t = {O having an L-dimensional (eg, L = 24) log mel spectrum as an element. t, 0 , ..., Ot, l , ..., Ot, L-1 } are calculated. l is the element number of the vector.
音響特徴抽出部10は、複素数スペクトルSpctを雑音抑圧部14、対数メルスペクトルOtを雑音バイアス成分推定部11と雑音残差成分推定部12と雑音抑圧部14に出力する。
Acoustic
〔雑音バイアス成分推定部〕
図4に、雑音バイアス成分推定部11の機能構成例を示す。その動作フローを図5に示す。雑音バイアス成分推定部11は、バイアス成分初期値推定手段110と、確率モデル生成手段111と、期待値計算処理手段112と、パラメータ更新処理手段113と、収束判定処理手段114と、を備える。
[Noise bias component estimation unit]
FIG. 4 shows a functional configuration example of the noise bias component estimation unit 11. The operation flow is shown in FIG. The noise bias component estimation unit 11 includes a bias component initial
バイアス成分初期値推定手段110は、対数メルスペクトルOtを入力として、その対数メルスペクトルOtを所定のフレーム数毎に平均化したバイアス成分初期値^μN (i=0)と、そのバイアス成分初期値^μN (i=0)の対角分散行列ΣNを推定する(ステップS110)。 The bias component initial value estimation means 110 receives the log mel spectrum O t as input, and bias component initial value ^ μ N (i = 0) obtained by averaging the log mel spectrum O t for each predetermined number of frames, and its bias component initial value ^ μ N (i = 0) to estimate the diagonal covariance matrix sigma N in (step S110).
バイアス成分初期値^μN (i=0)は、繰り返しインデックスiを初期化(ステップS110a)した後、式(5)で計算される(ステップS110b)。 The bias component initial value ^ μ N (i = 0) is calculated by equation (5) after initializing the repetition index i (step S110a) (step S110b).
ここでAは、初期値推定に要するフレーム数である(例えばA=10)。iは、i回目の繰り返し回数を示す。バイアス成分の対角分散行列ΣNを式(6)で推定する(ステップS110b)。 Here, A is the number of frames required for initial value estimation (for example, A = 10). i indicates the number of repetitions of the i-th time. Diagonal covariance matrix sigma N of bias component is estimated by equation (6) (step S110b).
対角分散行列ΣNは、繰り返しのインデックスiに非依存のパラメータである。
確率モデル生成手段111は、バイアス成分初期値^μN (i=0),ΣNと、無音GMM130とクリーン音声GMM131のパラメータを用いて対数メルスペクトルOtの確率モデルをGMMで構成する(ステップS111)。対数メルスペクトルOtの確率モデルは式(7)に示すようなGMMで構成する。
Diagonal covariance matrix sigma N is a parameter independent of the index i of the repeat.
Probabilistic model generation means 111, the bias component initial value ^ μ N (i = 0) , and sigma N, constitute a probabilistic model of the logarithmic Mel spectrum O t in GMM using the parameters of the silence GMM130 and clean speech GMM131 (step S111). The probability model of the log mel spectrum O t is composed of a GMM as shown in the equation (7).
bj Bias(i)(Ot)は、確率モデル生成手段111で生成される対数メルスペクトルOtの確率モデルであり、j=0は無音GMM130のパラメータから生成した確率モデル、j=1はクリーン音声GMM131のパラメータから生成した確率モデルであることを示す。また、関数N(・)は、式(8)で与えられる正規分布の確率密度関数である。
b j Bias (i) (O t ) is a probability model of the log mel spectrum O t generated by the probability
ここで、kはGMMに含まれる正規分布の番号、Kは総正規分布数である(例えばK=256)。また、wj,kは無音GMM130若しくはクリーン音声GMM131の混合重み、μO,j,k (i)とΣO,j,k (i)はバイアス成分^μN (i)と無音GMM130若しくはクリーン音声GMM131のパラメータから生成された対数メルスペクトルOtの確率モデルの平均ベクトルと対角分散行列である。
対数メルスペクトルOtの確率モデルμO,j,k (i)と対角分散行列ΣO,j,k (i)は次式で与えられる。
Here, k is the number of the normal distribution included in the GMM, and K is the total number of normal distributions (for example, K = 256). Further, w j, k is the mixing weight of the silent GMM 130 or the clean speech GMM 131, and μ O, j, k (i) and Σ O, j, k (i) are the bias component ^ μ N (i) and the silent GMM 130 or clean. It is the average vector and diagonal dispersion matrix of the probability model of the log mel spectrum O t generated from the parameters of the speech GMM 131.
The probability model μ O, j, k (i) of the log mel spectrum O t and the diagonal dispersion matrix Σ O, j, k (i) are given by the following equations.
ここで、μS,j,kとΣS,j,kは、それぞれ無音GMM130若しくはクリーン音声GMM131の平均ベクトルと対角分散行列である。関数log(・)とexp(・)はベクトルの要素毎に演算を行う。また、「1」は全ての要素が1の縦ベクトル、Iは単位行列、Hj、k (i)は関数h(・)のヤコビ行列である。 Here, μ S, j, k and ΣS , j, k are an average vector and a diagonal dispersion matrix of the silent GMM 130 or the clean speech GMM 131, respectively. The functions log (•) and exp (•) perform an operation for each element of the vector. “1” is a vertical vector with all elements being 1, I is a unit matrix, and H j, k (i) is a Jacobian matrix of a function h (•).
期待値計算処理手段112は、所定フレーム数毎の繰り返し推定における対数スペクトルSpctの確率モデルのコスト関数Q(・)の期待値を計算する(ステップS112)。コスト関数Q(・)の期待値は、式(12)により計算する。この計算は、EMアルゴリズムにおけるE−stepに当たる。
Expectation value
ここで、O0:T−1={O0,…,Ot,…,OT−1}であり、Tは対数メルスペクトルOtの総フレーム数、Pt,j (i)とPt,j,k (i)はそれぞれ次式で与えられるフレームtにおけるGMM種別j若しくは正規分布kに対する事後確率である。特に、Pt,j=0 (i)を音声非存在確率、Pt,j=1 (i)を音声存在確率と定義する。 Here, O 0: T−1 = {O 0 ,..., O t ,..., O T−1 }, where T is the total number of frames of the log mel spectrum O t , P t, j (i) and P t, j, k (i) are posterior probabilities for GMM type j or normal distribution k in frame t given by the following equations, respectively. In particular, P t, j = 0 (i) is defined as a speech non-existence probability, and P t, j = 1 (i) is defined as a speech existence probability.
パラメータ更新処理手段113は、コスト関数Q(・)の期待値を最大化するバイアス成分^μN (i)をニュートン法によって最適化して更新する(ステップS113)。この更新ステップは、EMアルゴリズムにおけるM−stepに当たる。
The parameter
バイアス成分^μN (i)の更新は、式(12)のコスト関数Q(・)を最大にするような^μN (i)を求めることにより行う。その方法は、通常、コスト関数Q(・)のバイアス成分^μN (i)に関する偏微分を0にすることにより求める。しかし、式(12)のコスト関数Q(・)は非線形関数で与えられるため、バイアス成分^μN (i)の解析解を求めることは困難である。
従って、パラメータ更新処理手段113は、次式のニュートン法によってバイアス成分^μN (i)を最適化する。
Updating bias component ^ mu N (i) is carried out by obtaining a ^ mu N (i) that maximizes the cost function Q a (·) in equation (12). This method is usually obtained by setting the partial derivative of the cost function Q (•) with respect to the bias component ^ μ N (i) to zero. However, since the cost function Q (·) in Expression (12) is given by a nonlinear function, it is difficult to obtain an analytical solution of the bias component ^ μ N (i) .
Therefore, the parameter
ここで、∇Q(i)と∇2Q(i)は、それぞれi回目の繰り返し推定におけるコスト関数Q(・)の勾配ベクトルとヘッセ行列である。
収束判定処理手段114は、バイアス成分^μN (i)が収束するまで確率モデル生成手段111と期待値計算処理手段112とパラメータ更新処理手段113の動作を繰り返す(ステップS114)。
収束条件の例を次式に示す。η=0.0001とする。
Here, ∇ Q (i) and ∇ 2 Q (i) are the gradient vector and Hessian of the cost function Q (•) in the i-th iterative estimation, respectively.
The convergence
An example of the convergence condition is shown in the following equation. It is assumed that η = 0.0001.
式(16)の収束条件を満たす場合はμN=^μN (i)として、雑音バイアス成分推定部11の処理を終了する(ステップS114aのYes)。満たさない場合は繰り返しのインデックスiをインクリメントして(ステップS114b)、確率モデル生成ステップS111以降の処理を繰り返す。 When the convergence condition of Expression (16) is satisfied, μ N = ^ μ N (i) is set, and the processing of the noise bias component estimation unit 11 is terminated (Yes in Step S114a). If not, the repetitive index i is incremented (step S114b), and the processing after the probability model generation step S111 is repeated.
〔雑音残差成分推定部〕
図6に、雑音残差成分推定部12の機能構成例を示す。その動作フローを図7に示す。雑音残差成分推定部12は、残差成分初期値推定手段120と、残差成分予測処理手段121と、残差成分推定処理手段122と、確率モデル生成処理手段123と、加重平均処理手段124と、期待値計算処理手段125と、パラメータ更新処理手段126と、収束判定処理手段127と、を備える。
[Noise residual component estimation unit]
FIG. 6 shows a functional configuration example of the noise residual
残差成分初期値推定手段120は、対数メルスペクトルOtと雑音バイアス成分推定部11が出力するバイアス成分μNの差である残差成分を、所定フレーム数毎に平均して残差成分の初期値を推定する(ステップS120)。残差成分の初期値は、繰り返しのインデックスiに非依存のパラメータとして次式によって推定し、全ての繰り返し推定の初期値として利用する。 The residual component initial value estimating means 120 averages the residual component, which is the difference between the log mel spectrum O t and the bias component μ N output from the noise bias component estimating unit 11, for each predetermined number of frames. An initial value is estimated (step S120). The initial value of the residual component is estimated by the following equation as a parameter independent of the iteration index i, and is used as the initial value for all iteration estimation.
また、残差成分初期値推定手段120は、自己回帰行列Fの初期値を以下のように設定する。各要素に対して、自己回帰係数の次元は例えば1次元とする。 Residual component initial value estimating means 120 sets the initial value of autoregressive matrix F as follows. For each element, the dimension of the autoregressive coefficient is, for example, one dimension.
残差成分予測処理手段121は、1フレーム前の残差成分推定値と自己回帰行列を乗じて、現在のフレームの残差成分予測値を自己回帰モデルによって予測する(ステップS121)。現在のフレームのパラメータは、次式に示すように自己回帰モデルによって予測する。
The residual component
式(20)と式(21)において、〜Nt|t−1 (i),〜ΣN,t|t−1 (i)はi回目の繰り返し推定、及びフレームtにおける残差成分〜Ntの予測値であり、t=0の場合は初期値を用いて式(22)と(23)に示すように予測処理を行う。 In Expressions (20) and (21), ˜N t | t−1 (i) , ˜Σ N, t | t−1 (i) are the i-th iterative estimation and the residual component in frame t a predicted value of t, in the case of t = 0 the prediction processing carried out as shown in equation (22) (23) using the initial value.
残差成分推定処理手段122は、対数メルスペクトルOtと雑音バイアス成分推定部11が出力するバイアス成分μNと、残差成分予測処理手段121が予測した残差成分予測値〜Nt|t−1 (i),〜ΣN,t|t−1 (i)と無音GMM130とクリーン音声GMM131のパラメータμS,j,kとΣS,j,kを入力として、それぞれのGMMに含まれる正規分布の合計数と同数の残差成分推定値候補を計算する(ステップS122)。
各GMMの推定は次式により行う。
The residual component
Each GMM is estimated by the following equation.
上式において、〜Nt,j,k (i),〜ΣN,t,j,k (i)はi回目の繰り返し推定、及びフレームtにおける残差成分〜Ntの推定値候補である。
確率モデル生成処理手段123は、残差成分推定処理手段122で計算された残差成分推定値候補〜Nt,j,k (i),〜ΣN,t,j,k (i)と、雑音バイアス成分推定部11が出力するバイアス成分μNと、無音GMM130とクリーン音声GMM131のパラメータμS,j,kとΣS,j,kを入力として、現在のフレームtにおける対数メルスペクトルのGMMパラメータ〜μO,t,j,k (i),〜ΣO,t,j,k (i)を生成する(ステップS123)。
対数メルスペクトルOtのフレームtにおけるGMMのパラメータを次式に示すように生成する。
In the above equation, ˜N t, j, k (i) , ˜Σ N, t, j, k (i) are the i-th iterative estimation and residual value candidates for the residual component ˜N t in frame t. .
The probability model
The parameters of GMM in the frame t of the log mel spectrum O t are generated as shown in the following equation.
加重平均処理手段124は、対数メルスペクトルOtと、現在のフレームにおける対数メルスペクトルのGMMパラメータを入力として、音声非存在確率/存在確率と事後確率を計算し、残差成分推定値候補を加重平均して残差成分の推定値を計算する(ステップS124)。式(31)に示すように加重平均することにより、i回目の繰り返し推定及びフレームtにおける残差成分の推定値を得る。 The weighted average processing means 124 receives the log mel spectrum O t and the GMM parameters of the log mel spectrum in the current frame as input, calculates the speech non-existence probability / existence probability and the posterior probability, and weights residual component estimation value candidates. An estimated value of the residual component is calculated by averaging (step S124). By performing weighted averaging as shown in Expression (31), an i-th iterative estimation and an estimated value of the residual component in frame t are obtained.
期待値計算処理手段125は、所定フレーム数毎の繰り返し推定における対数メルスペクトルの確率モデルのコスト関数Q(・)の期待値を、並列非線形カルマンフィルタの確率モデルで計算する(ステップS125)。この計算は、EMアルゴリズムにおけるE−stepに当たる。
フレームtにおける並列非線形カルマンフィルタの確率モデルと尤度bj MNKF(Ot)は式(35)に示すように構成される。
The expected value calculation processing means 125 calculates the expected value of the cost function Q (•) of the logarithmic mel spectrum probability model in the iterative estimation for each predetermined number of frames using the probability model of the parallel nonlinear Kalman filter (step S125). This calculation corresponds to E-step in the EM algorithm.
The probabilistic model and likelihood b j MNKF (O t ) of the parallel nonlinear Kalman filter in the frame t is configured as shown in Expression (35).
すなわち、並列非線形カルマンフィルタの確率モデルのコスト関数Q(・)の期待値は次式より得られる。 That is, the expected value of the cost function Q (•) of the probability model of the parallel nonlinear Kalman filter is obtained from the following equation.
式(36)において、並列非線形カルマンフィルタは各フレームtにて確率モデルが変化するため、計算の効率化のため、コスト関数Q(・)の期待値を以下に示すように再帰的に計算する。 In Equation (36), the parallel nonlinear Kalman filter changes the probability model at each frame t, so that the expected value of the cost function Q (•) is recursively calculated as shown below in order to improve the calculation efficiency.
フレームtにてコスト関数Q(・)の期待値を計算すると、次のフレームt+1の処理に移る(ステップS125b)。フレームt≧Tならば、i回目の繰り返し推定における並列非線形カルマンフィルタによる残差成分の推定を終了する(ステップS125cのYes)。 When the expected value of the cost function Q (•) is calculated in the frame t, the process proceeds to the next frame t + 1 (step S125b). If the frame is t ≧ T, the residual component estimation by the parallel nonlinear Kalman filter in the i-th iterative estimation is terminated (Yes in step S125c).
パラメータ更新処理手段126は、コスト関数Q(・)の期待値を最大化するように自己回帰行列^F(i)を更新する(ステップS126)。コスト関数Q(・)の期待値を最大化する自己回帰行列^F(i)は、コスト関数Q(・)の^F(i)に関する偏微分を0にすることにより求める。すなわち、自己回帰行列^F(i)は次式により与えられる。 The parameter update processing means 126 updates the autoregressive matrix ^ F (i) so as to maximize the expected value of the cost function Q (•) (step S126). The autoregressive matrix {circumflex over ( F ) } (i) that maximizes the expected value of the cost function Q (•) is obtained by setting the partial differentiation of the cost function Q (•) with respect to {circumflex over ( F)} (i) to zero. That is, the autoregressive matrix ^ F (i) is given by the following equation.
収束判定処理手段127は、自己回帰行列^F(i)が収束するまで残差成分予測処理手段121と残差成分推定処理手段122と確率モデル生成処理手段123と加重平均処理手段124と期待値計算処理手段125とパラメータ更新処理手段126の動作を繰り返す(ステップS127aのNo)。
収束条件の例を次式に示す。η=0.0001とする。
Convergence determination processing means 127 includes residual component prediction processing means 121, residual component estimation processing means 122, probability model generation processing means 123, weighted average processing means 124, and expected value until autoregressive matrix ^ F (i) converges. The operations of the
An example of the convergence condition is shown in the following equation. It is assumed that η = 0.0001.
式(39)の収束条件を満たす場合はF=^F(i)として、パラメータ更新処理手段126の処理を終了する(ステップS127aのYes)。満たさない場合は繰り返しのインデックスiをインクリメントした後にt=0として(ステップS127b)、残差成分予測処理ステップS121以降の処理を繰り返す。
When the convergence condition of Expression (39) is satisfied, F = ^ F (i) is set, and the process of the parameter
〔雑音抑圧部〕
図8に、雑音抑圧部14の機能構成例を示す。雑音抑圧部14は、雑音抑圧フィルタ推定部140と、雑音抑圧フィルタ適用部141と、を備える。雑音抑圧フィルタ推定部140は、対数メルスペクトルOtと、バイアス成分μNと、残差成分〜Nt,〜ΣN,tと、無音GMM130とクリーン音声GMM131のパラメータWj,k,μS,j,k,ΣS,j,kと、を入力として雑音抑圧フィルタWt,m Linを推定する。
(Noise suppression part)
FIG. 8 shows a functional configuration example of the
雑音抑圧フィルタ適用部141は、複素スペクトルSpctと、雑音抑圧フィルタWt,m Linを入力として雑音を抑圧した雑音抑圧信号^sτを出力する。雑音抑圧フィルタ推定部140と、雑音抑圧フィルタ適用部141の動作を詳しく説明する。
Noise suppression
〔残響抑圧フィルタ推定部〕
図9に、雑音抑圧フィルタ推定部140の機能構成例を示す。その動作フローを図10に示す。雑音抑圧フィルタ推定部140は、確率モデル生成処理手段1400と、確率計算処理手段1401と、雑音抑圧フィルタ推定処理手段1402と、雑音抑圧フィルタ変換処理手段1403と、を備える。
[Reverberation suppression filter estimation unit]
FIG. 9 shows a functional configuration example of the noise suppression
確率モデル生成処理手段1400は、雑音バイアス推定部11が出力するバイアス成分μNと、雑音残差成分推定部12が出力する残差成分〜Nt,〜ΣN,tと、無音GMM130とクリーン音声GMMのパラメータμS,j,k,ΣS,j,kと、を入力として、対数メルスペクトルOtのフレームtにおけるGMMのパラメータを以下のように生成する(ステップS1400)。
The probabilistic model generation processing means 1400 includes a bias component μ N output from the noise bias estimation unit 11, residual components output from the noise residual
確率計算処理手段1401は、対数メルスペクトルOtと、確率モデル生成処理手段140が出力するGMMパラメータと、無音GMM130とクリーン音声GMMのパラメータwj,kとを入力として、音声非存在確率/存在確率Pt,jと事後確率Pt,j,kを計算する。
音声非存在確率/存在確率Pt,jは式(43)、事後確率Pt,j,kは式(44)で計算する(ステップS1401)。
The probability calculation processing means 1401 receives the log mel spectrum O t , the GMM parameters output from the probability model generation processing means 140, and the silence w / GMM 130 and clean voice GMM parameters w j, k as inputs, and the voice non-existence probability / existence Probability P t, j and posterior probability P t, j, k are calculated.
The voice non-existence probability / presence probability P t, j is calculated by equation (43), and the posterior probability P t, j, k is calculated by equation (44) (step S1401).
雑音抑圧フィルタ推定処理手段1402は、バイアス成分μNと残差成分〜Nt,〜ΣN,tと、事後確率Pt,j,kと音声非存在確率/存在確率Pt,jと、を入力としてメル周波数軸上での雑音抑圧フィルタWt,l Melを次式により推定する(ステップS1402)。次式はベクトル要素毎の表記である。 The noise suppression filter estimation processing means 1402 includes a bias component μ N , residual components ˜N t , ˜Σ N, t , posterior probability P t, j, k , speech non-existence probability / existence probability P t, j , As an input, the noise suppression filter W t, l Mel on the mel frequency axis is estimated by the following equation (step S1402). The following expression is a notation for each vector element.
雑音抑圧フィルタ変換処理手段1403は、メル周波数軸上での雑音抑圧フィルタWt,l Melを3次スプライン補間により線形周波数軸上での雑音抑圧フィルタWt,m Linに変換する(ステップS1403)。
The noise suppression filter
〔雑音抑圧フィルタ適用部〕
図11に、雑音抑圧フィルタ適用部141の機能構成例を示す。その動作フローを図12に示す。雑音抑圧フィルタ適用部141は、フィルタリング処理手段1410と、逆高速フーリエ変換処理手段1411と、波形連結処理手段1412と、を備える。
フィルタリング処理手段1410は、複素数スペクトルSpctに雑音抑圧フィルタWt,l Melを掛け合わせることにより雑音抑圧された複素数スペクトル^St,m(式(46))を出力する(ステップS1410)。式(46)はベクトルの要素毎の標記である。
[Noise suppression filter application unit]
FIG. 11 shows a functional configuration example of the noise suppression
The filtering processing means 1410 outputs the complex spectrum SS t, m (Equation (46)) noise-suppressed by multiplying the complex spectrum Spc t by the noise suppression filter W t, l Mel (step S1410). Expression (46) is a notation for each vector element.
逆高速フーリエ変換処理手段1411は、複素数スペクトル^St,mに対して逆高速フーリエ変換を適用することにより、フレームtにおける雑音抑圧音声^st,nを得る(ステップS1411)。
波形連結処理手段1412は、各フレームの雑音抑圧音声^st,nを、次式に示すように窓関数wnを解除しながら連結して連続した雑音抑圧音声^st,nを得る(ステップS1412)。
The inverse fast Fourier
Waveform
〔評価実験結果〕
この発明の効果を確認する目的で、この発明の雑音抑圧装置の雑音抑圧性能を評価する実験を行った。先ず、実験条件を説明する。
[Results of evaluation experiment]
In order to confirm the effect of the present invention, an experiment was conducted to evaluate the noise suppression performance of the noise suppression device of the present invention. First, experimental conditions will be described.
評価用データには、IPA(Information-technology promotion agency,Japan)-98-TestSetのうち、男声23名が発声したデータ100文を用いており、これらの音声データに対して、空港ロビー、駅プラットフォーム、街頭にて別途収録した雑音をそれぞれS/N比0dB,5dB,10dBにて計算機上で重畳した。つまり、雑音3種類×S/N比3種類の9種類の評価データを作成した。 The evaluation data uses 100 sentences of 23 voices from IPA (Information-technology promotion agency, Japan) -98-TestSet. These voice data are used for airport lobby and station platform. The noise recorded separately on the street was superimposed on the computer with S / N ratios of 0 dB, 5 dB, and 10 dB, respectively. That is, nine types of evaluation data of three types of noise × three types of S / N ratios were created.
それぞれの音声データは、サンプリング周波数16KHz、量子化ビット数16ビットで離散サンプリングされたモノラル信号である。この音響信号に対し、1フレームの時間長を20ms(1フレーム=320サンプル点)とし、10ms毎にフレームの始点を移動させて音響特徴抽出部10を適用した。
Each audio data is a monaural signal discretely sampled at a sampling frequency of 16 KHz and a quantization bit number of 16 bits. The acoustic
無音GMM130、クリーン音声GMM131には、L=24次元の対数メルスペクトルを音響特徴量とする混合分布数K=256のGMMを用い、それぞれ無音信号、クリーン音声信号を用いて学習した。 As the silent GMM 130 and the clean speech GMM 131, GMMs having a mixed distribution number K = 256 having an L = 24-dimensional logarithmic mel spectrum as acoustic features are used, and learning is performed using the silent signal and the clean speech signal, respectively.
残差成分初期値推定手段120の自己回帰係数の次元は1次元とした。初期値推定に要するフレーム数はA=10とした。収束判定処理手段114と127の収束条件のパラメータはη=0.0001とした。残差成分予測処理ステップS121において、ΣUの各対角成分には0.001を与えた。
性能の評価は音声認識により行い、評価尺度は次式の単語誤り率WERで行った。
The dimension of the autoregressive coefficient of the residual component initial value estimating means 120 is one dimension. The number of frames required for initial value estimation is A = 10. The parameter of the convergence condition of the convergence determination processing means 114 and 127 is η = 0.0001. In residual component prediction processing step S121, the respective diagonal components of the sigma U gave 0.001.
The performance was evaluated by speech recognition, and the evaluation scale was the word error rate WER of the following equation.
ここで、Nは総単語数、Dは脱落誤り単語数、Sは置換誤り単語数、Iは挿入誤り単語数であり、WERの値が小さいほど音声認識性能が高いことを示す。 Here, N is the total number of words, D is the number of dropped error words, S is the number of replacement error words, and I is the number of insertion error words. The smaller the WER value, the higher the speech recognition performance.
音声認識は、有限状態トランスデューサに基づく認識器(T.hori, et al., “Efficient WFST-based one-pass decoding with on-the fly hypothesis rescoring in extremely large vocabulary continuous speech recognition,” IEEE Trans. On ALSP, vol. 15, no. 4. pp.1352-1365, May 2007.)により行い、音響モデルには話者独立のTriphon HMMを用いており、各HMMの構造は3状態のLeft-to-right型HMMであり、各状態は16の正規分布を持つ。HMM全体の状態数は3,000である。 Speech recognition is based on a finite state transducer based recognizer (T.hori, et al., “Efficient WFST-based one-pass decoding with on-the fly hypothesis rescoring in extremely large vocabulary continuous speech recognition,” IEEE Trans. On ALSP. , vol. 15, no. 4. pp.1352-1365, May 2007.) The speaker model is a triphone HMM independent of speakers, and each HMM has a three-state left-to-right structure. Each state has 16 normal distributions. The total number of HMM states is 3,000.
音声認識の音響特徴量は、1フレームの時間長を20msとし、10ms毎にフレームの始点を移動させて分析した12次元のMFCC(Mel-frequency cepstral coefficient)、対数パワー値、各々の1次及び2次の回帰係数を含む合計39次元のベクトルである。また、言語モデルにはTri-gramを用い語彙数は20,000単語である。
表1に評価結果を示す。
The acoustic feature quantity for speech recognition is a 12-dimensional MFCC (Mel-frequency cepstral coefficient), logarithmic power value, each primary and A total 39-dimensional vector including a quadratic regression coefficient. The language model is Tri-gram and the vocabulary is 20,000 words.
Table 1 shows the evaluation results.
このようにこの発明の雑音抑圧装置は、従来技術よりも優れた雑音抑圧性能を示すことが確認できた。図13に、時間領域の音声波形を示す。図13(a)は、目的信号である音声信号に空港ロビー雑音を重畳させた音響信号oτである。図13(b)は、この発明の雑音抑圧装置にその音響信号oτを入力して得られた雑音抑圧音声^sτである。雑音が効果的に抑圧されている様子が分かる。 Thus, it has been confirmed that the noise suppression device of the present invention exhibits a noise suppression performance superior to that of the prior art. FIG. 13 shows an audio waveform in the time domain. FIG. 13A shows an acoustic signal o τ in which airport lobby noise is superimposed on a voice signal that is a target signal. Figure 13 (b) is a noise reduced speech ^ s tau obtained by inputting the sound signal o tau in the noise suppressing device of the present invention. You can see how the noise is effectively suppressed.
以上述べたようにこの発明の雑音抑圧装置は、雑音信号が重畳した音響信号を、時間変化を伴わないバイアス成分と時間変動を伴う残差成分とに分解して、それぞれの成分を高精度に推定するので、雑音抑圧性能を高めることが出来る。 As described above, the noise suppression apparatus of the present invention decomposes an acoustic signal on which a noise signal is superimposed into a bias component that does not change with time and a residual component that changes with time, and each component is highly accurate. Since the estimation is performed, the noise suppression performance can be improved.
なお、説明した実施例では、窓関数wnにハミング窓を用いて説明したが、方形窓、ハニング窓、ブラックマン窓などの他の窓関数を用いても良い。また、無音GMM130とクリーン音声GMM131の代わりに、音声信号の確率モデルとしてHMM(Hidden Markov Model)等の他の確率モデルを用いても良い。また、無音GMM130とクリーン音声GMM131の2つのGMMだけでなく、より多くのGMMを用いても良い。また、自己回帰係数の次元を2以上に設定しても良い。そうすることで自己回帰係数の次数に応じて残差成分の推定性能が向上することが期待される。また、加重平均処理手段124において重み付け平均ではなく、最大の重みを持つ推定結果をそのまま用いるようにしても良い。 In the embodiment described, has been described with reference to hamming window to the window function w n, rectangular window, Hanning window, may be used other window functions, such as Blackman windows. Further, instead of the silent GMM 130 and the clean speech GMM 131, another probability model such as an HMM (Hidden Markov Model) may be used as the probability model of the speech signal. In addition to the two GMMs, the silent GMM 130 and the clean voice GMM 131, more GMMs may be used. The dimension of the autoregressive coefficient may be set to 2 or more. By doing so, it is expected that the estimation performance of the residual component is improved according to the order of the autoregressive coefficient. Further, the weighted average processing means 124 may use the estimation result having the maximum weight instead of the weighted average.
なお、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。 When the processing means in the above apparatus is realized by a computer, the processing contents of functions that each apparatus should have are described by a program. Then, by executing this program on the computer, the processing means in each apparatus is realized on the computer.
また、上記方法及び装置において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。 Further, the processes described in the above method and apparatus are not only executed in time series according to the order of description, but also may be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. Good.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。 The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used. Specifically, for example, as a magnetic recording device, a hard disk device, a flexible disk, a magnetic tape or the like, and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only) Memory), CD-R (Recordable) / RW (ReWritable), etc., magneto-optical recording media, MO (Magneto Optical disc), etc., semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. Can be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 This program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Further, the program may be distributed by storing the program in a recording device of a server computer and transferring the program from the server computer to another computer via a network.
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 Each means may be configured by executing a predetermined program on a computer, or at least a part of these processing contents may be realized by hardware.
Claims (11)
上記対数メルスペクトルと、無音GMMとクリーン音声GMMのパラメータと、を入力として上記雑音信号の音響特徴量空間の重心であるバイアス成分を最適推定する雑音バイアス成分推定部と、
上記対数メルスペクトルと上記バイアス成分と、上記無音GMMと上記クリーン音声GMMのパラメータと、を入力として上記雑音信号と上記バイアス成分との差分である残差成分を最適推定する雑音残差成分推定部と、
上記対数メルスペクトルと上記複素数スペクトルと、上記バイアス成分と上記残差成分と、上記無音GMMと上記クリーン音声GMMのパラメータと、を入力として上記雑音信号を抑圧した音響信号を出力する雑音抑圧部と、
を具備した雑音抑圧装置。 An acoustic feature extraction unit that extracts an acoustic signal in which a noise signal is superimposed on an audio signal that is a target signal, and extracts a complex spectrum and a log mel spectrum as acoustic features for each frame with a certain time length of the acoustic signal as a frame; ,
A noise bias component estimator that optimally estimates a bias component that is the center of gravity of the acoustic feature amount space of the noise signal, using the log mel spectrum, silence GMM, and clean speech GMM parameters as inputs;
A noise residual component estimator that optimally estimates a residual component that is a difference between the noise signal and the bias component by using the log mel spectrum, the bias component, and the parameters of the silent GMM and the clean speech GMM as inputs. When,
A noise suppression unit that outputs an acoustic signal in which the noise signal is suppressed with the log mel spectrum, the complex spectrum, the bias component and the residual component, the silent GMM, and the parameters of the clean speech GMM as inputs; ,
A noise suppression device comprising:
上記雑音信号を、上記バイアス成分と自己回帰モデルで表現した上記残差成分の和で表し、その雑音信号の時系列をバイアス付き自己回帰モデルで推定することを特徴とする雑音抑圧装置。 The noise suppression device according to claim 1,
A noise suppression apparatus, characterized in that the noise signal is represented by a sum of the bias component and the residual component expressed by an autoregressive model, and a time series of the noise signal is estimated by a biased autoregressive model.
上記雑音バイアス成分推定部は、
上記対数メルスペクトルを入力として、その対数メルスペクトルを所定のフレーム数毎に平均化したバイアス成分初期値と、そのバイアス成分初期値の対角分散行列を推定するバイアス成分初期値推定手段と、
上記バイアス成分初期値と、無音GMMとクリーン音声GMMのパラメータを用いて対数メルスペクトルの確率モデルをGMMで構成する確率モデル生成手段と、
上記所定のフレーム数毎の繰り返し推定における上記複素数スペクトルの確率モデルのコスト関数の期待値を計算する期待値計算処理手段と、
上記コスト関数の期待値を最大化するバイアス成分をニュートン法によって最適化して更新するパラメータ更新処理手段と、
上記バイアス成分が収束するまで上記確率モデル生成手段と期待値計算処理手段とパラメータ更新処理手段の動作を繰り返す収束判定処理手段と、
を備えることを特徴とする雑音抑圧装置。 In the noise suppression device according to claim 1 or 2,
The noise bias component estimator is
With the log mel spectrum as an input, a bias component initial value obtained by averaging the log mel spectrum every predetermined number of frames, and bias component initial value estimating means for estimating a diagonal dispersion matrix of the bias component initial value;
Probability model generation means for constructing a logarithmic mel spectrum probability model by GMM using the bias component initial value and parameters of silent GMM and clean speech GMM;
An expected value calculation processing means for calculating an expected value of the cost function of the probability model of the complex spectrum in the repeated estimation for each predetermined number of frames;
Parameter update processing means for optimizing and updating the bias component that maximizes the expected value of the cost function by the Newton method;
A convergence determination processing unit that repeats the operations of the probability model generation unit, the expected value calculation processing unit, and the parameter update processing unit until the bias component converges;
A noise suppression device comprising:
上記雑音残差成分推定部は、
上記対数メルスペクトルと上記バイアス成分の差である残差成分を所定フレーム数毎に平均化して残差成分の初期値を推定する残差成分初期値推定手段と、
1フレーム前の残差成分推定値と自己回帰行列を乗じて、現在のフレームの残差成分予測値を自己回帰モデルによって予測する残差成分予測処理手段と、
上記対数メルスペクトルと上記バイアス成分と上記残差成分予測値と、上記無音GMMと上記クリーン音声GMMのパラメータを入力として、上記それぞれのGMMに含まれる正規分布の合計数と同数の残差成分推定値候補を計算する残差成分推定処理手段と、
上記残差成分推定値候補と、上記無音GMMと上記クリーン音声GMMのパラメータを入力として現在のフレームにおける対数メルスペクトルのGMMパラメータを生成する確率モデル生成処理手段と、
上記対数メルスペクトルと現在のフレームにおける対数メルスペクトルのGMMパラメータを入力として、音声非存在確率/存在確率と事後確率とを計算し、上記残差成分推定値候補を加重平均して残差成分の推定値を計算する加重平均処理手段と、
上記所定フレーム数毎の繰り返し推定における上記対数メルスペクトルの確率モデルのコスト関数の期待値を並列非線形カルマンフィルタの確率モデルで計算する期待値計算処理手段と、
上記コスト関数の期待値を最大化するように上記自己回帰行列を更新するパラメータ更新処理手段と、
上記自己回帰行列が収束するまで上記残差成分予測処理手段と上記残差成分推定処理手段と上記確率モデル生成処理手段と上記加重平均処理手段と上記期待値計算処理手段と上記パラメータ更新処理手段の動作を繰り返す収束判定処理手段と、
を備えることを特徴とする雑音抑圧装置。 The noise suppression device according to any one of claims 1 to 3,
The noise residual component estimator is
A residual component initial value estimating means for averaging a residual component, which is a difference between the log mel spectrum and the bias component, every predetermined number of frames and estimating an initial value of the residual component;
A residual component prediction processing means for multiplying the residual component estimation value of the previous frame by the autoregressive matrix and predicting the residual component prediction value of the current frame by the autoregressive model;
The logarithmic mel spectrum, the bias component, the residual component prediction value, the silent GMM and the clean speech GMM parameters are input, and the residual component estimation is the same as the total number of normal distributions included in the respective GMMs. Residual component estimation processing means for calculating value candidates;
Probability model generation processing means for generating GMM parameters of the log mel spectrum in the current frame by using the residual component estimation value candidates, the silence GMM and the clean speech GMM parameters as inputs,
Using the log mel spectrum and the GMM parameters of the log mel spectrum in the current frame as inputs, the speech non-existence probability / presence probability and posterior probability are calculated, and the residual component estimation value candidates are weighted and averaged. A weighted average processing means for calculating an estimated value;
Expected value calculation processing means for calculating an expected value of the cost function of the logarithmic mel spectrum probability model in the iterative estimation for each predetermined number of frames using a parallel nonlinear Kalman filter probability model;
Parameter update processing means for updating the autoregressive matrix so as to maximize the expected value of the cost function;
Until the autoregressive matrix converges, the residual component prediction processing means, the residual component estimation processing means, the probability model generation processing means, the weighted average processing means, the expected value calculation processing means, and the parameter update processing means Convergence determination processing means for repeating the operation;
A noise suppression device comprising:
上記パラメータ更新処理手段は、
上記自己回帰行列を、上記残差成分の時系列とEMアルゴリズムを用いて最適化するものであることを特徴とする雑音抑圧装置。 The noise suppression device according to claim 4,
The parameter update processing means includes
A noise suppression apparatus, wherein the autoregressive matrix is optimized using a time series of the residual components and an EM algorithm.
上記対数メルスペクトルと、無音GMMとクリーン音声GMMのパラメータと、を入力として上記雑音信号の音響特徴量空間の重心であるバイアス成分を最適推定する雑音バイアス成分推定過程と、
上記対数メルスペクトルと上記バイアス成分と、上記無音GMMと上記クリーン音声GMMのパラメータと、を入力として上記雑音信号と上記バイアス成分との差分である残差成分を最適推定する雑音残差成分推定過程と、
上記対数メルスペクトルと上記複素数スペクトルと、上記バイアス成分と上記残差成分と、上記無音GMMと上記クリーン音声GMMのパラメータと、を入力として上記雑音信号を抑圧した音響信号を出力する雑音抑圧過程と、
を備えた雑音抑圧方法。 An acoustic feature extraction process in which an acoustic signal in which a noise signal is superimposed on an audio signal, which is a target signal, is input, and a complex spectrum and a log mel spectrum are extracted as acoustic features for each frame with a certain time length of the acoustic signal as a frame; ,
A noise bias component estimation process for optimally estimating a bias component, which is the center of gravity of the acoustic feature amount space of the noise signal, using the log mel spectrum, parameters of the silent GMM and the clean speech GMM as inputs;
A noise residual component estimation process for optimally estimating a residual component that is a difference between the noise signal and the bias component by using the log mel spectrum, the bias component, and the parameters of the silent GMM and the clean speech GMM as inputs. When,
A noise suppression process for outputting an acoustic signal in which the noise signal is suppressed with the log mel spectrum, the complex spectrum, the bias component, the residual component, the silence GMM, and the parameters of the clean speech GMM as inputs. ,
A noise suppression method comprising:
上記雑音信号を、上記バイアス成分と自己回帰モデルで表現した上記残差成分の和で表し、その雑音信号の時系列をバイアス付き自己回帰モデルで推定することを特徴とする雑音抑圧方法。 The noise suppression method according to claim 6,
A noise suppression method, wherein the noise signal is represented by a sum of the bias component and the residual component expressed by an autoregressive model, and a time series of the noise signal is estimated by a biased autoregressive model.
上記雑音バイアス成分推定過程は、
上記対数メルスペクトルを入力として、その対数メルスペクトルを所定のフレーム数毎に平均化したバイアス成分初期値と、そのバイアス成分初期値の対角分散行列を推定するバイアス成分初期値推定ステップと、
上記バイアス成分初期値と、無音GMMとクリーン音声GMMのパラメータを用いて対数メルスペクトルの確率モデルをGMMで構成する確率モデル生成ステップと、
上記所定のフレーム数毎の繰り返し推定における上記複素数スペクトルの確率モデルの確率モデルのコスト関数の期待値を計算する期待値計算処理ステップと、
上記コスト関数の期待値を最大化するバイアス成分をニュートン法によって最適化して更新するパラメータ更新処理ステップと、
上記バイアス成分が収束するまで上記確率モデル生成ステップと期待値計算処理ステップとパラメータ更新処理ステップの動作を繰り返す収束判定処理ステップと、
を含むことを特徴とする雑音抑圧方法。 The noise suppression method according to claim 6 or 7,
The noise bias component estimation process is as follows:
With the log mel spectrum as an input, a bias component initial value obtained by averaging the log mel spectrum every predetermined number of frames, and a bias component initial value estimating step for estimating a diagonal dispersion matrix of the bias component initial value;
A probability model generation step of configuring a logarithmic mel spectrum probability model with GMM using the bias component initial value, and parameters of silent GMM and clean speech GMM;
An expected value calculation processing step of calculating an expected value of the cost function of the probability model of the probability model of the complex spectrum in the repeated estimation for each predetermined number of frames;
A parameter update processing step for optimizing and updating the bias component that maximizes the expected value of the cost function by the Newton method;
A convergence determination processing step that repeats the operations of the probability model generation step , the expected value calculation processing step, and the parameter update processing step until the bias component converges;
Including a noise suppression method.
上記雑音残差成分推定過程は、
上記対数メルスペクトルと上記バイアス成分の差である残差成分を所定フレーム数毎に平均化して残差成分の初期値を推定する残差成分初期値推定ステップと、
1フレーム前の残差成分推定値と自己回帰行列を乗じて、現在のフレームの残差成分予測値を自己回帰モデルによって予測する残差成分予測処理ステップと、
上記対数メルスペクトルと上記バイアス成分と上記残差成分予測値と、上記無音GMMと上記クリーン音声GMMのパラメータを入力として、上記それぞれのGMMに含まれる正規分布の合計数と同数の残差成分推定値候補を計算する残差成分推定処理ステップと、
上記残差成分推定値候補と、上記無音GMMと上記クリーン音声GMMのパラメータを入力として現在のフレームにおける対数スペクトルのGMMパラメータを生成する確率モデル生成処理ステップと、
上記対数メルスペクトルと現在のフレームにおける対数メルスペクトルのGMMパラメータを入力として、音声非存在確率/存在確率と事後確率とを計算し、上記残差成分推定値候補を加重平均して残差成分の推定値を計算する加重平均処理ステップと、
上記所定フレーム数毎の繰り返し推定における上記対数メルスペクトルの確率モデルのコスト関数の期待値を並列非線形カルマンフィルタの確率モデルで計算する期待値計算処理ステップと、
上記コスト関数の期待値を最大化するように上記自己回帰行列を更新するパラメータ更新処理ステップと、
上記自己回帰行列が収束するまで上記残差成分予測処理ステップと上記残差成分推定処理ステップと上記確率モデル生成処理ステップと上記加重平均処理ステップと上記期待値計算処理ステップと上記パラメータ更新処理ステップの動作を繰り返す収束判定処理ステップと、
を含むことを特徴とする雑音抑圧方法。 The noise suppression method according to any one of claims 6 to 8,
The noise residual component estimation process is as follows:
A residual component initial value estimating step of averaging a residual component, which is a difference between the log mel spectrum and the bias component, every predetermined number of frames to estimate an initial value of the residual component;
A residual component prediction processing step of multiplying a residual component estimation value of one frame before by an autoregressive matrix and predicting a residual component prediction value of the current frame by an autoregressive model;
The logarithmic mel spectrum, the bias component, the residual component prediction value, the silent GMM and the clean speech GMM parameters are input, and the residual component estimation is the same as the total number of normal distributions included in the respective GMMs. A residual component estimation processing step for calculating value candidates;
Probability model generation processing step of generating logarithmic spectrum GMM parameters in the current frame by using the residual component estimation value candidates, the silent GMM and the clean speech GMM parameters as inputs,
Using the log mel spectrum and the GMM parameters of the log mel spectrum in the current frame as inputs, the speech non-existence probability / presence probability and posterior probability are calculated, and the residual component estimation value candidates are weighted and averaged. A weighted average processing step to calculate an estimate;
An expected value calculation processing step for calculating an expected value of the cost function of the probability model of the log mel spectrum in the iterative estimation for each predetermined number of frames with a probability model of a parallel nonlinear Kalman filter;
A parameter update processing step for updating the autoregressive matrix so as to maximize the expected value of the cost function;
Until the autoregressive matrix converges, the residual component prediction processing step , the residual component estimation processing step , the probability model generation processing step , the weighted average processing step , the expected value calculation processing step, and the parameter update processing step Convergence determination processing step that repeats the operation;
Including a noise suppression method.
上記パラメータ更新処理ステップは、
上記自己回帰行列を、上記残差成分の時系列とEMアルゴリズムを用いて最適化するステップであることを特徴とする雑音抑圧方法。 The noise suppression method according to claim 9, wherein
The parameter update process step
A noise suppression method comprising the step of optimizing the autoregressive matrix using a time series of the residual components and an EM algorithm.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010273702A JP5457999B2 (en) | 2010-12-08 | 2010-12-08 | Noise suppressor, method and program thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010273702A JP5457999B2 (en) | 2010-12-08 | 2010-12-08 | Noise suppressor, method and program thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012123185A JP2012123185A (en) | 2012-06-28 |
JP5457999B2 true JP5457999B2 (en) | 2014-04-02 |
Family
ID=46504697
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010273702A Active JP5457999B2 (en) | 2010-12-08 | 2010-12-08 | Noise suppressor, method and program thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5457999B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113421579B (en) * | 2021-06-30 | 2024-06-07 | 北京小米移动软件有限公司 | Sound processing method, device, electronic equipment and storage medium |
CN114495438B (en) * | 2022-04-15 | 2022-07-01 | 湖南北斗微芯产业发展有限公司 | Disaster early warning method, system, equipment and storage medium based on multiple sensors |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007093630A (en) * | 2005-09-05 | 2007-04-12 | Advanced Telecommunication Research Institute International | Speech emphasizing device |
JP4673828B2 (en) * | 2006-12-13 | 2011-04-20 | 日本電信電話株式会社 | Speech signal section estimation apparatus, method thereof, program thereof and recording medium |
JP2009003008A (en) * | 2007-06-19 | 2009-01-08 | Advanced Telecommunication Research Institute International | Noise-suppressing device, speech recognition device, noise-suppressing method and program |
JP4856662B2 (en) * | 2008-02-29 | 2012-01-18 | 日本電信電話株式会社 | Noise removing apparatus, method thereof, program thereof and recording medium |
-
2010
- 2010-12-08 JP JP2010273702A patent/JP5457999B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012123185A (en) | 2012-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7424426B2 (en) | Noise adaptation system of speech model, noise adaptation method, and noise adaptation program for speech recognition | |
JP6243858B2 (en) | Speech model learning method, noise suppression method, speech model learning device, noise suppression device, speech model learning program, and noise suppression program | |
JP5411936B2 (en) | Speech signal section estimation apparatus, speech signal section estimation method, program thereof, and recording medium | |
JP4586577B2 (en) | Disturbance component suppression device, computer program, and speech recognition system | |
US7552049B2 (en) | Noise adaptation system of speech model, noise adaptation method, and noise adaptation program for speech recognition | |
JP4856662B2 (en) | Noise removing apparatus, method thereof, program thereof and recording medium | |
JP5713818B2 (en) | Noise suppression device, method and program | |
JP5997114B2 (en) | Noise suppression device, noise suppression method, and program | |
JP5670298B2 (en) | Noise suppression device, method and program | |
JP2006349723A (en) | Acoustic model creating device, method, and program, speech recognition device, method, and program, and recording medium | |
JP5740362B2 (en) | Noise suppression apparatus, method, and program | |
JP7423056B2 (en) | Reasoners and how to learn them | |
JP5457999B2 (en) | Noise suppressor, method and program thereof | |
JP4964194B2 (en) | Speech recognition model creation device and method thereof, speech recognition device and method thereof, program and recording medium thereof | |
JP4950600B2 (en) | Acoustic model creation apparatus, speech recognition apparatus using the apparatus, these methods, these programs, and these recording media | |
JP4881357B2 (en) | Acoustic model creation apparatus, speech recognition apparatus using the apparatus, these methods, these programs, and these recording media | |
JP6367773B2 (en) | Speech enhancement device, speech enhancement method, and speech enhancement program | |
JP2009300716A (en) | Speech recognition device and its method, and program and its recording medium | |
Mandel et al. | Analysis-by-synthesis feature estimation for robust automatic speech recognition using spectral masks | |
JP5885686B2 (en) | Acoustic model adaptation apparatus, acoustic model adaptation method, and program | |
JP2024031314A (en) | Voice recognition device, voice recognition method, and program | |
JP2006084732A (en) | Model adapting method for speech recognition in presence of noise based upon polynomial approximation | |
JP2013044908A (en) | Background sound suppressor, background sound suppression method and program | |
Saini | HMM based Automatic Speech Recognition Analysis | |
JP2017151222A (en) | Signal analysis device, method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130213 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130924 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131022 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131210 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140107 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140110 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5457999 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |