JP5187666B2 - Noise suppression device and program - Google Patents
Noise suppression device and program Download PDFInfo
- Publication number
- JP5187666B2 JP5187666B2 JP2009001470A JP2009001470A JP5187666B2 JP 5187666 B2 JP5187666 B2 JP 5187666B2 JP 2009001470 A JP2009001470 A JP 2009001470A JP 2009001470 A JP2009001470 A JP 2009001470A JP 5187666 B2 JP5187666 B2 JP 5187666B2
- Authority
- JP
- Japan
- Prior art keywords
- noise suppression
- kurtosis
- noise
- acoustic signal
- index value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Description
本発明は、目的音と雑音との混合音から雑音を抑圧する技術に関する。 The present invention relates to a technique for suppressing noise from a mixed sound of a target sound and noise.
目的音と雑音との混合音から雑音を抑圧する技術が従来から提案されている。例えば非特許文献1には、音響信号のスペクトルから雑音スペクトルを減算するスペクトルサブトラクション(SS:spectral subtraction)法が開示されている。また、非特許文献2には、目的音(音声)が強調されるように選定されたスペクトルゲインを音響信号のスペクトルに乗算するMMSE-STSA(minimum mean square error short time spectral amplitude)法が開示されている。
Conventionally, a technique for suppressing noise from a mixed sound of target sound and noise has been proposed. For example, Non-Patent
しかし、非特許文献1や非特許文献2のように周波数領域で音響信号から雑音を抑圧する方法においては、雑音の抑圧後に時間軸上および周波数軸上に分散的に点在する成分が、耳障りなミュージカルノイズとして受聴者に知覚されるという問題がある。そこで、非特許文献3には、雑音の抑圧後にミュージカルノイズを除去する技術が開示されている。
However, in the method of suppressing noise from an acoustic signal in the frequency domain as in
しかし、雑音の抑圧後に発生するミュージカルノイズの程度は音響信号の音響的な特性に応じて相違する。したがって、音響信号のうち特定の区間に発生するミュージカルノイズが非特許文献3の技術で低減されても、音響的な特性が相違する別区間のミュージカルノイズを充分に低減できるとは限らない。以上の事情を背景として、本発明は、音響信号の音響的な特性が変化する場合でも雑音の抑圧後のミュージカルノイズを効果的に低減することをひとつの目的とする。 However, the degree of musical noise generated after noise suppression differs depending on the acoustic characteristics of the acoustic signal. Therefore, even if the musical noise generated in a specific section of the acoustic signal is reduced by the technique of Non-Patent Document 3, it is not always possible to sufficiently reduce the musical noise in another section having different acoustic characteristics. In view of the above circumstances, an object of the present invention is to effectively reduce musical noise after noise suppression even when the acoustic characteristics of an acoustic signal change.
以上の課題を解決するために、本発明に係る雑音抑圧装置は、相異なる雑音抑圧処理を音響信号に対して実行する複数の雑音抑圧手段と、音響信号の強度の度数分布における尖度が雑音抑圧処理の前後で変化した度合を示す尖度指標値を各雑音抑圧手段による雑音抑圧処理毎に算定する指標算定手段と、指標算定手段が算定した各尖度指標値に応じて各雑音抑圧手段による複数の雑音抑圧処理の何れかを選択する選択手段とを具備する。例えば、選択手段は、複数の雑音抑圧処理のうち尖度指標値の示す尖度の変化が小さい雑音抑圧処理を選択する。 In order to solve the above problems, a noise suppression device according to the present invention includes a plurality of noise suppression units that perform different noise suppression processes on an acoustic signal, and a kurtosis in the frequency distribution of the intensity of the acoustic signal. Index calculation means for calculating the kurtosis index value indicating the degree of change before and after the suppression process for each noise suppression process by each noise suppression means, and each noise suppression means according to each kurtosis index value calculated by the index calculation means Selecting means for selecting any one of a plurality of noise suppression processes. For example, the selection unit selects a noise suppression process having a small change in kurtosis indicated by the kurtosis index value among the plurality of noise suppression processes.
以上の構成においては、音響信号の強度の度数分布における尖度が雑音抑圧処理の前後で変化した度合(すなわちミュージカルノイズの発生の度合)を示す尖度指標値に応じて、選択手段が選択する雑音抑圧処理が変更されるから、音響信号の音響的な特性が変化する場合でも雑音の抑圧後のミュージカルノイズを効果的に低減できるという利点がある。 In the above configuration, the selection means selects according to the kurtosis index value indicating the degree to which the kurtosis in the frequency distribution of the intensity of the acoustic signal has changed before and after the noise suppression process (that is, the degree of occurrence of musical noise). Since the noise suppression processing is changed, there is an advantage that the musical noise after noise suppression can be effectively reduced even when the acoustic characteristics of the acoustic signal change.
本発明の好適な態様に係る雑音抑圧装置は、音響信号を時間軸上で雑音区間と目的音区間とに区分する信号区分手段と、各雑音抑圧処理に対する加重値を雑音区間と目的音区間とで変化させて各尖度指標値を加重する加重手段とを具備し、選択手段は、加重後の各尖度指標値に応じて雑音抑圧処理を選択する。以上の態様においては、各尖度指標値が近接する場合でも、雑音区間および目的音区間の各々に適した雑音抑圧処理を安定的に選択できるという利点がある。 A noise suppression apparatus according to a preferred aspect of the present invention includes a signal classification unit that classifies an acoustic signal into a noise section and a target sound section on a time axis, and a weight value for each noise suppression process is assigned to the noise section and the target sound section. And a weighting means for weighting each kurtosis index value by changing, and the selection means selects a noise suppression process according to each kurtosis index value after weighting. The above aspect has an advantage that noise suppression processing suitable for each of the noise section and the target sound section can be stably selected even when the kurtosis index values are close to each other.
音響信号のスペクトルから雑音スペクトルを減算する減算型雑音抑圧処理(例えばスペクトルサブトラクション法)は、音声が優勢な区間についてミュージカルノイズを抑制する雑音抑圧処理として好適である。一方、目的音を強調するスペクトルゲインを音響信号のスペクトルに乗算する乗算型雑音抑圧処理(例えばMMSE-STSA法やMAP法)は、雑音(特に定常的な雑音)が優勢な区間についてミュージカルノイズを抑制する雑音抑圧処理として好適である。したがって、選択手段による選択の候補となる複数の雑音抑圧処理が減算型雑音抑圧処理と乗算型雑音抑圧処理とを含む構成によれば、音響信号のうち音声が優勢な区間と雑音が優勢な区間との双方についてミュージカルノイズの発生を抑制できるという利点がある。 A subtractive noise suppression process (for example, a spectral subtraction method) that subtracts a noise spectrum from the spectrum of an acoustic signal is suitable as a noise suppression process that suppresses musical noise in a section where speech is dominant. On the other hand, multiplicative noise suppression processing (for example, the MMSE-STSA method or MAP method) that multiplies the spectrum of an acoustic signal by a spectral gain that enhances the target sound, for example, eliminates musical noise in a section where noise (especially stationary noise) is dominant. It is suitable as a noise suppression process to suppress. Therefore, according to the configuration in which the plurality of noise suppression processes that are candidates for selection by the selection unit include the subtraction type noise suppression process and the multiplication type noise suppression process, the voice dominant section and the noise dominant section of the acoustic signal There is an advantage that generation of musical noise can be suppressed.
また、以上の各態様に係る雑音抑圧装置は、雑音の抑圧に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、音響信号に対して個別に実行される複数の雑音抑圧処理と、音響信号の強度の度数分布における尖度が雑音抑圧処理の前後で変化した度合を示す尖度指標値を雑音抑圧処理毎に算定する指標算定処理と、指標算定処理で算定した各尖度変化指標に応じて複数の雑音抑圧処理の何れかを選択する選択処理とをコンピュータに実行させる。以上のプログラムによれば、本発明の各態様に係る雑音抑圧装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。 In addition, the noise suppression device according to each aspect described above is realized by hardware (electronic circuit) such as a DSP (Digital Signal Processor) dedicated to noise suppression, or a general-purpose such as a CPU (Central Processing Unit). This is also realized by cooperation between the arithmetic processing unit and the program. A program according to the present invention is a kurtosis index value indicating a degree of change in kurtosis in a frequency distribution of a plurality of noise suppression processes individually performed on an acoustic signal and before and after the noise suppression process. For each noise suppression process, and a selection process for selecting one of a plurality of noise suppression processes according to each kurtosis change index calculated in the index calculation process. According to the above program, operations and effects similar to those of the noise suppression device according to each aspect of the present invention are exhibited. The program of the present invention is provided to a user in a form stored in a computer-readable recording medium and installed in the computer, or provided from a server device in a form of distribution via a communication network and installed in the computer. Is done.
<A:第1実施形態>
図1は、本発明の第1実施形態に係る雑音抑圧装置のブロック図である。雑音抑圧装置100には、目的音と雑音との混合音の波形を表す時間領域の音響信号VINが供給される。音響信号VINの供給元(図示略)は、例えば、周囲の音響に応じた音響信号VINを生成する収音機器や、記録媒体から音響信号VINを取得して出力する再生装置である。雑音抑圧装置100は、音響信号VINの雑音を抑圧することで音響信号VOUTを生成する。音響信号VOUTは、例えばスピーカやヘッドホンなどの放音装置(図示略)に供給されて音波として再生される。
<A: First Embodiment>
FIG. 1 is a block diagram of a noise suppression apparatus according to the first embodiment of the present invention. The
雑音抑圧装置100は、演算処理装置12と記憶装置14とを含むコンピュータシステムで実現される。記憶装置14は、音響信号VINから音響信号VOUTを生成するためのプログラムや各種のデータを記憶する。半導体記録媒体や磁気記録媒体などの公知の記録媒体が記憶装置14として任意に採用される。
The
演算処理装置12は、記憶装置14に格納されたプログラムを実行することで複数の要素(周波数分析部20,抑圧処理部30,指標算定部42,選択部44,波形合成部46)として機能する。なお、音響信号VINの処理に専用される電子回路(DSP)が演算処理装置12の各要素を実現する構成や、演算処理装置12の各要素を複数の集積回路に分散的に搭載した構成も採用される。
The
図1の周波数分析部20は、図2に示すように、音響信号VINを時間軸上で区分した複数のフレームFRの各々について周波数スペクトルXm(n)を算定する。記号nは、周波数軸上に離散的に設定されたN個の周波数(周波数ビン)f1〜fNのうち第n番目の周波数fnを意味し(n=1〜N)、記号mはフレームFRの番号を意味する。周波数スペクトルXm(n)の算定には公知の技術(例えば短時間フーリエ変換)が任意に採用される。第m番目のフレームFRの周波数スペクトルXm(n)は、目的音の周波数スペクトルSm(n)と雑音の周波数スペクトルNm(n)との加算に相当する(数式(1))。
Xm(n)=Sm(n)+Nm(n) ……(1)
As shown in FIG. 2, the
Xm (n) = Sm (n) + Nm (n) (1)
図1の抑圧処理部30は、周波数分析部20が生成した周波数スペクトルXm(n)(音響信号VIN)に対して相異なる複数種の雑音抑圧処理を並列に実行する。図1に示すように、抑圧処理部30は、第1雑音抑圧部31と第2雑音抑圧部32とを含んで構成される。第1雑音抑圧部31は、各フレームFRの周波数スペクトルXm(n)に第1雑音抑圧処理を実行することでフレームFR毎に周波数スペクトルYm(n)_1を生成する。第2雑音抑圧部32は、周波数スペクトルXm(n)に第2雑音抑圧処理を実行することでフレームFR毎に周波数スペクトルYm(n)_2を生成する。
The
第1雑音抑圧処理は、音響信号VINから推定される雑音の周波数スペクトル(以下「推定雑音スペクトル」という)ψm(n)を音響信号VINの周波数スペクトルXm(n)から減算する処理である。他方、第2雑音抑圧処理は、音響信号VINの目的音が強調されるように選定されたスペクトルゲインGm(n)を音響信号VINの周波数スペクトルXm(n)に乗算する処理である。すなわち、第1雑音抑圧処理は減算型の雑音抑圧処理(スペクトルサブトラクション法)に相当し、第2雑音抑圧処理は乗算型の雑音抑圧処理に相当する。 The first noise suppression process is a process of subtracting the frequency spectrum of noise estimated from the acoustic signal VIN (hereinafter referred to as “estimated noise spectrum”) ψm (n) from the frequency spectrum Xm (n) of the acoustic signal VIN. On the other hand, the second noise suppression process is a process of multiplying the frequency spectrum Xm (n) of the acoustic signal VIN by the spectrum gain Gm (n) selected so that the target sound of the acoustic signal VIN is emphasized. That is, the first noise suppression process corresponds to a subtraction type noise suppression process (spectral subtraction method), and the second noise suppression process corresponds to a multiplication type noise suppression process.
図3は、第1雑音抑圧部31のブロック図である。図3に示すように、第1雑音抑圧部31は、雑音推定部312と減算部314とを含んで構成される。雑音推定部312は、推定雑音スペクトル(パワースペクトル)ψm(n)をフレームFR毎に推定する。推定雑音スペクトルψm(n)の生成(雑音の推定)には公知の技術が任意に採用される。例えば、雑音推定部312は、音響信号VINのうち目的音が存在しない雑音区間内の各フレームFRの周波数スペクトルXm(n)を雑音の周波数スペクトルNm(n)として以下の数式(2)の演算を実行することで推定雑音スペクトルψm(n)を生成する。数式(2)の記号Eは、複数のフレームFRにわたる平均(加算)を意味する。
ψm(n)=E{|Nm(n)|2} ……(2)
FIG. 3 is a block diagram of the first
ψm (n) = E {| Nm (n) | 2 } (2)
図3の減算部314は、周波数スペクトルXm(n)から推定雑音スペクトルψm(n)を減算することで周波数スペクトルYm(n)_1を算定する。周波数スペクトルYm(n)_1は、振幅スペクトルPm(n)1/2と周波数スペクトルXm(n)の位相θx(n)とを利用して数式(3)で表現される。
Ym(n)_1=(Pm(n))1/2・ejθx(n) ……(3)
数式(3)のパワースペクトルPm(n)は以下の数式(4a)および数式(4b)で算定される。
The
Ym (n) _1 = (Pm (n)) 1/2 · e jθx (n) (3)
The power spectrum Pm (n) of the equation (3) is calculated by the following equations (4a) and (4b).
すなわち、周波数スペクトルXm(n)の強度(パワー)|Xm(n)|2が所定値(推定雑音スペクトルψm(n)と係数αmとの乗算値)を上回る場合、パワースペクトルPm(n)は、式(4a)に示すように強度|Xm(n)|2と当該所定値(αm・ψm(n))との差分値に設定される。他方、強度|Xm(n)|2が所定値(αm・ψm(n))を下回る場合、パワースペクトルPm(n)は、式(4b)に示すように推定雑音スペクトルψm(n)と係数βmとの乗算値(βm・ψm(n))に設定される。係数αm(減算係数)および係数βm(フロアリング係数)は、必要な雑音抑圧の程度に応じて適宜に選定される。 That is, when the intensity (power) | Xm (n) | 2 of the frequency spectrum Xm (n) exceeds a predetermined value (multiplied value of the estimated noise spectrum ψm (n) and the coefficient αm), the power spectrum Pm (n) is As shown in the equation (4a), the difference value between the intensity | Xm (n) | 2 and the predetermined value (αm · ψm (n)) is set. On the other hand, when the intensity | Xm (n) | 2 is lower than a predetermined value (αm · ψm (n)), the power spectrum Pm (n) has an estimated noise spectrum ψm (n) and a coefficient as shown in the equation (4b). It is set to a multiplication value (βm · ψm (n)) with βm. The coefficient αm (subtraction coefficient) and the coefficient βm (flooring coefficient) are appropriately selected according to the required degree of noise suppression.
次に、図4は、第2雑音抑圧部32のブロック図である。図4に示すように、第2雑音抑圧部32は、雑音推定部322とゲイン算定部324と乗算部326とを含んで構成される。雑音推定部322は、雑音推定部312と同様の方法で推定雑音スペクトルψm(n)を生成する。なお、雑音推定部312が生成した推定雑音スペクトルψm(n)を第2雑音抑圧部32が流用する構成(雑音推定部322を省略した構成)も採用される。
Next, FIG. 4 is a block diagram of the second
図4のゲイン算定部324は、目的音の強調用のスペクトルゲインGm(n)をフレームFR毎に算定する。スペクトルゲインGm(n)は、周波数fnで雑音が優勢であるほどゼロに近い数値に設定される(周波数fnで目的音が優勢であるほど大きい数値に設定される)。スペクトルゲインGm(n)の算定には、以下に例示するように非特許文献2のMMSE-STSA法が好適である。具体的には、ゲイン算定部324は、以下の数式(5)を演算することでスペクトルゲインGm(n)を算定する。数式(5)の符号Γはガンマ関数を意味する。また、符号I0は、0次の変形ベッセル関数を意味し、符号I1は、1次の変形ベッセル関数を意味する。
The
数式(5)の事後SN比(posteriori SNR)γm(n)および事前SN比(priori SNR)ξm(n)は、周波数分析部20が生成した周波数スペクトルXm(n)と雑音推定部322が生成した推定雑音スペクトルψm(n)から以下の数式(6a)および数式(6b)の演算で算定される。数式(6b)の関数値F[x]は、変数xが正数である場合に当該変数xに設定され、変数xがゼロまたは負数である場合にゼロに設定される。また、数式(6b)の係数ηは、1を下回る所定の正数である。
γm(n)=|Xm(n)|2/ψm(n) ……(6a)
ξm(n)=η・|Sm-1(n)|2/ψm-1(n)+(1−η)・F[γm(n)−1] ……(6b)
The posterior signal-to-noise ratio (posteriori SNR) γm (n) and the prior signal-to-noise ratio (priori SNR) ξm (n) in Equation (5) are generated by the frequency spectrum Xm (n) generated by the
γm (n) = | Xm (n) | 2 / ψm (n) (6a)
ξm (n) = η · | Sm-1 (n) | 2 / ψm-1 (n) + (1-η) · F [γm (n) -1] (6b)
図4の乗算部326は、周波数スペクトルXm(n)とスペクトルゲインGm(n)との乗算で周波数スペクトルYm(n)_2を算定する(Ym(n)_2=Gm(n)・Xm(n))。スペクトルゲインGm(n)は目的音を強調するように設定されるから、周波数スペクトルYm(n)_2においては音響信号VINの雑音が抑圧される。以上が抑圧処理部30の具体的な構成である。
4 calculates the frequency spectrum Ym (n) _2 by multiplying the frequency spectrum Xm (n) and the spectrum gain Gm (n) (Ym (n) _2 = Gm (n) · Xm (n). )). Since the spectrum gain Gm (n) is set so as to enhance the target sound, the noise of the acoustic signal VIN is suppressed in the frequency spectrum Ym (n) _2. The specific configuration of the
ところで、周波数スペクトルYm(n)_1の時系列や周波数スペクトルYm(n)_2の時系列には、時間軸上および周波数軸上にミュージカルノイズが点在する場合がある。図1の指標算定部42は、雑音抑圧処理に起因したミュージカルノイズの発生の度合の定量的な尺度となる尖度指標値σm(σm_1,σm_2)をフレームFR毎に算定する。尖度指標値σmについて以下に詳述する。
By the way, in the time series of the frequency spectrum Ym (n) _1 and the time series of the frequency spectrum Ym (n) _2, musical noise may be scattered on the time axis and the frequency axis. The
図5の部分(A)は、雑音の抑圧前の音響信号VINのうち所定の区間における強度の度数分布(強度を確率変数とする確率密度関数)である。図5の部分(A)に示すように、音響信号VINの強度は、強度がゼロから増加するほど度数が減少するように非線形に分布する。 Part (A) of FIG. 5 is a frequency distribution of the intensity (a probability density function with intensity as a random variable) in a predetermined section of the acoustic signal VIN before noise suppression. As shown in part (A) of FIG. 5, the intensity of the acoustic signal VIN is non-linearly distributed so that the frequency decreases as the intensity increases from zero.
図5の部分(B)は、雑音の抑圧後の強度の度数分布である。図5の部分(A)と部分(B)との対比から理解されるように、音響信号VIN(雑音の抑圧前)のうちゼロに近い強度の度数が雑音の抑圧で増加するという傾向がある。すなわち、強度がゼロの近傍となる範囲内における度数分布の傾斜は雑音の抑圧後に急峻な形状に変化する。度数分布の形状(傾斜の急峻度)の尺度として尖度(kurtosis)を導入すると、雑音抑圧処理の実行後の尖度KBmは、雑音抑圧処理の実行前(音響信号VIN)の尖度KAmと比較して高い数値となる(KBm>KAm)。尖度κは、n次のモーメントから以下の数式(7)で算定される高次統計量である。
Part (B) in FIG. 5 is a frequency distribution of intensity after noise suppression. As understood from the comparison between part (A) and part (B) in FIG. 5, the frequency of the intensity close to zero in the acoustic signal VIN (before noise suppression) tends to increase due to noise suppression. . That is, the slope of the frequency distribution in the range where the intensity is near zero changes to a steep shape after noise suppression. When kurtosis is introduced as a measure of the shape of the frequency distribution (steepness of inclination), the kurtosis KBm after the noise suppression processing is executed is the kurtosis KAm before the noise suppression processing (acoustic signal VIN). Compared to a higher value (KBm> KAm). The kurtosis κ is a higher-order statistic calculated from the n-th moment by the following formula (7).
雑音の抑圧後にミュージカルノイズが多い音響信号には、ゼロの付近の強度の度数が高いという傾向がある。したがって、度数分布にて強度がゼロとなる度数が雑音の抑圧の前後で増加するほど、雑音抑圧処理に起因して発生したミュージカルノイズが多いと評価できる。すなわち、雑音の抑圧の前後にわたる尖度κの変化(KAm→KBm)が大きいほど、雑音の抑圧後に発生するミュージカルノイズは多い。 An acoustic signal having a lot of musical noise after noise suppression tends to have a high intensity frequency near zero. Therefore, it can be evaluated that the more the frequency at which the intensity becomes zero in the frequency distribution increases before and after noise suppression, the more musical noise is generated due to the noise suppression processing. That is, the greater the change in kurtosis κ before and after noise suppression (KAm → KBm), the more musical noise is generated after noise suppression.
以上の傾向から、図1の指標算定部42は、抑圧処理部30による処理の前後にわたる尖度κの変化に応じた尖度指標値σm(σm_1,σm_2)を算定する。尖度指標値σm_1は、第1雑音抑圧部31による第1雑音抑圧処理の前後で尖度κが変化した度合の尺度であり、周波数スペクトルYm(n)_1におけるミュージカルノイズの発生の度合の指標として利用される。尖度指標値σm_2は、第2雑音抑圧部32による第2雑音抑圧処理の前後で尖度κが変化した度合の尺度であり、周波数スペクトルYm(n)_2におけるミュージカルノイズの発生の度合の指標として利用される。M個の強度x1〜xMの度数分布における尖度κは例えば以下の方法で算定される。
From the above tendency, the
M個の強度x1〜xMの度数分布は、以下の数式(8)の関数Ga(x;k,θ)で近似される。
数式(8)の係数Cは、ガンマ関数Γ(k)を利用して以下のように定義される。
The frequency distribution of M intensities x1 to xM is approximated by a function Ga (x; k, θ) of the following formula (8).
The coefficient C in Expression (8) is defined as follows using the gamma function Γ (k).
2次のモーメントμ2の定義式における分布関数P(x)を数式(8)の関数Ga(x;k,θ)に置換することで以下の数式(9)が導出される。
By substituting the distribution function P (x) in the defining equation of the second moment μ2 with the function Ga (x; k, θ) of the equation (8), the following equation (9) is derived.
2次のモーメントμ2の導出と同様に、4次のモーメントμ4の定義式における分布関数P(x)を数式(8)の関数Ga(x;k,θ)に置換することで以下の数式(10)が導出される。
Similar to the derivation of the second-order moment μ2, the distribution function P (x) in the definition of the fourth-order moment μ4 is replaced with the function Ga (x; 10) is derived.
数式(9)の2次のモーメントμ2と数式(10)の4次のモーメントμ4とを数式(7)に代入すると、尖度κを定義する以下の数式(11)が導出される。
Substituting the second-order moment μ2 in Equation (9) and the fourth-order moment μ4 in Equation (10) into Equation (7) yields the following Equation (11) that defines kurtosis κ.
M個の強度x1〜xMについて数式(11)を演算することで尖度κが算定される。もっとも、尖度κを算定する方法は以上の例示に限定されない。例えば、強度x1〜xMの度数分布を所定の関数(例えば数式(8))で近似する構成は必須ではない。 The kurtosis κ is calculated by calculating Expression (11) for M intensities x1 to xM. However, the method for calculating the kurtosis κ is not limited to the above examples. For example, a configuration that approximates the frequency distribution of the intensities x1 to xM with a predetermined function (for example, Equation (8)) is not essential.
図6は、指標算定部42のブロック図である。図6の第1尖度算定部421は、音響信号VINの強度の度数分布における尖度(雑音の抑圧前の尖度)KAmを周波数スペクトルXm(n)の時系列から算定する。すなわち、第1尖度算定部421は、周波数スペクトルXm(n)の時系列から抽出されるM個の強度x1〜xMについて数式(11)の演算を実行することで尖度KAmを算定する。尖度KAmの算定に利用される強度x1〜xMは、図2に示すように、第m番目のフレームFRを最後とするτ個のフレームFRの各々の周波数スペクトルXm(n)における強度|Xm(n)|2に相当する(M=τ×N)。
FIG. 6 is a block diagram of the
図6の第2尖度算定部422は、第1雑音抑圧部31が生成する周波数スペクトルYm(n)_1の時系列から第1雑音抑圧処理の実行後の尖度KBm_1を算定する。具体的には、第2尖度算定部422は、第m番目のフレームFRを最後とするτ個のフレームFRの周波数スペクトルYm(n)_1を構成するM個の強度|Ym(n)_1|2を強度x1〜xMとして数式(11)の演算を実行することで尖度KBm_1を算定する。図6の第3尖度算定部423は、第2尖度算定部422と同様の方法で、第2雑音抑圧処理の実行後の尖度KBm_2を周波数スペクトルYm(n)_2の時系列から算定する。
The second
図6の第1指標算定部425は、第1尖度算定部421が算定した尖度KAmと第2尖度算定部422が算定した尖度KBm_1とから尖度指標値σm_1を算定する。尖度指標値σm_1は、以下の数式(12)に示すように、尖度KAmに対する尖度KBm_1の相対比(以下「尖度比」という)Rm_1を変数とする関数Faで定義される(Rm_1=KBm_1/KAm)。関数Faは、尖度指標値σm_1と尖度比Rm_1との関係を定義する単調増加関数である。
σm_1=Fa(Rm_1)
=Fa(KBm_1/KAm) ……(12)
図5を参照して前述したように、尖度比Rm_1(尖度KAmから尖度KBm_1への変化)が小さいほど、第1雑音抑圧処理で発生するミュージカルノイズが低減される。したがって、尖度指標値σm_1が小さいほど第1雑音抑圧処理の実行後のミュージカルノイズは少ないと評価できる。すなわち、尖度指標値σm_1は、第1雑音抑圧処理に起因したミュージカルノイズの発生の度合を示す指標値(尺度)に相当する。
The first
σm_1 = Fa (Rm_1)
= Fa (KBm_1 / KAm) ...... (12)
As described above with reference to FIG. 5, the smaller the kurtosis ratio Rm_1 (change from the kurtosis KAm to the kurtosis KBm_1), the more the musical noise generated in the first noise suppression process is reduced. Therefore, it can be evaluated that the smaller the kurtosis index value σm_1 is, the smaller the musical noise after the execution of the first noise suppression process is. That is, the kurtosis index value σm_1 corresponds to an index value (scale) indicating the degree of occurrence of musical noise caused by the first noise suppression process.
図6の第2指標算定部426は、第1尖度算定部421が算定した尖度KAmと第3尖度算定部423が算定した尖度KBm_2とから尖度指標値σm_2を算定する。尖度指標値σm_2は、以下の数式(13)に示すように、尖度KAmに対する尖度KBm_2の尖度比Rm_2を変数とする関数Faで定義される(Rm_2=KBm_2/KAm)。したがって、尖度指標値σm_2が小さいほど(尖度比Rm_1が示す尖度KAmから尖度KBm_1への変化が小さいほど)、第2雑音抑圧処理で発生するミュージカルノイズは少ないと評価できる。すなわち、尖度指標値σm_2は、第2雑音抑圧処理に起因したミュージカルノイズの発生の度合を示す指標値に相当する。
σm_2=Fa(Rm_2)
=Fa(KBm_2/KAm) ……(13)
6 calculates the kurtosis index value σm_2 from the kurtosis KAm calculated by the first
σm_2 = Fa (Rm_2)
= Fa (KBm_2 / KAm) (13)
図1の選択部44は、指標算定部42が算定した尖度指標値σm_1および尖度指標値σm_2に応じて第1雑音抑圧処理および第2雑音抑圧処理の何れか(第1雑音抑圧部31および第2雑音抑圧部32の何れか)をフレームFR毎に選択する。具体的には、尖度指標値σm_1および尖度指標値σm_2のうち小さい方に対応した雑音抑圧処理が選択される。すなわち、尖度指標値σm_1が尖度指標値σm_2よりも小さい場合には第1雑音抑圧処理(第1雑音抑圧部31)が選択され、尖度指標値σm_2が尖度指標値σm_1よりも小さい場合には第2雑音抑圧処理(第2雑音抑圧部32)が選択される。選択部44は、自身が選択した雑音抑圧処理で生成された周波数スペクトルYm(n)(Ym(n)_1,Ym(n)_2)をフレームFR毎に順次に波形合成部46に出力する。すなわち、選択部44は、第1雑音抑圧処理を選択したフレームFRでは周波数スペクトルYm(n)_1を出力し、第2雑音抑圧処理を選択したフレームFRでは周波数スペクトルYm(n)_2を出力する。
The
波形合成部46は、選択部44がフレームFR毎に選択した周波数スペクトルYm(n)(Ym(n)_1,Ym(n)_2)から時間領域の音響信号VOUTを合成する。すなわち、波形合成部46は、周波数スペクトルYm(n)に対する逆フーリエ変換で算定した時間領域の信号を複数のフレームFRについて時間軸上で重複させて加算することで音響信号VOUTを算定する。
The
以上の形態においては、第1雑音抑圧処理および第2雑音抑圧処理のうち尖度指標値σmが小さい方の雑音抑圧処理が音響信号VOUTの生成に選択的に使用される。したがって、第1雑音抑圧処理のみを実行する構成や第2雑音抑圧処理のみを実行する構成と比較すると、以下に詳述するように、音響信号VINの音響的な特性が変化する場合でもミュージカルノイズを有効に低減できるという効果がある。 In the above embodiment, the noise suppression process with the smaller kurtosis index value σm of the first noise suppression process and the second noise suppression process is selectively used for generating the acoustic signal VOUT. Therefore, as compared with a configuration in which only the first noise suppression processing is performed and a configuration in which only the second noise suppression processing is performed, as described in detail below, even when the acoustic characteristics of the acoustic signal VIN change, the musical noise Can be effectively reduced.
図7は、音響信号VINの雑音区間(目的音に対して雑音が優勢な区間)におけるSN比と尖度比Rm(Rm_1,Rm_2)との関係を示すグラフである。図8は、音響信号VINの目的音区間(目的音が優勢な区間)におけるSN比と尖度比Rmとの関係を示すグラフである。なお、雑音抑圧処理に適用される各係数(αm.βm,η)はSN比に応じて図9のように設定した。 FIG. 7 is a graph showing the relationship between the SN ratio and the kurtosis ratio Rm (Rm_1, Rm_2) in the noise section of the acoustic signal VIN (the section in which noise is dominant with respect to the target sound). FIG. 8 is a graph showing the relationship between the SN ratio and the kurtosis ratio Rm in the target sound section (section in which the target sound is dominant) of the acoustic signal VIN. In addition, each coefficient ((alpha) m. (Beta) m, (eta)) applied to a noise suppression process was set like FIG. 9 according to S / N ratio.
図7に示すように、雑音区間では、第2雑音抑圧処理の前後の尖度比Rm_2が第1雑音抑圧処理の前後の尖度比Rm_1よりも低い。すなわち、第1雑音抑圧処理(SS法)よりも第2雑音抑圧処理(MMSE-STSA法)の方が、雑音の抑圧後のミュージカルノイズは低減される。したがって、選択部44は、雑音区間内の各フレームFRでは第2雑音抑圧部32による第2雑音抑圧処理(周波数スペクトルYm(n)_2)を選択する。
As shown in FIG. 7, in the noise section, the kurtosis ratio Rm_2 before and after the second noise suppression process is lower than the kurtosis ratio Rm_1 before and after the first noise suppression process. That is, musical noise after noise suppression is reduced in the second noise suppression processing (MMSE-STSA method) than in the first noise suppression processing (SS method). Therefore, the
他方、図8に示すように、目的音区間では、第1雑音抑圧処理の前後の尖度比Rm_1が第2雑音抑圧処理の前後の尖度比Rm_2よりも低い。すなわち、第2雑音抑圧処理よりも第1雑音抑圧処理の方が、雑音の抑圧後のミュージカルノイズは低減される。したがって、選択部44は、目的音区間内の各フレームFRでは第1雑音抑圧部31による第1雑音抑圧処理(周波数スペクトルYm(n)_1)を選択する。
On the other hand, as shown in FIG. 8, in the target sound section, the kurtosis ratio Rm_1 before and after the first noise suppression process is lower than the kurtosis ratio Rm_2 before and after the second noise suppression process. That is, musical noise after noise suppression is reduced in the first noise suppression process than in the second noise suppression process. Therefore, the
以上のように音響信号VOUTの生成に適用される雑音抑圧処理が雑音区間と目的音区間とで変更される(すなわち音響信号VINの音響的な特性に応じて変更される)から、音響信号VINの全区間にわたって第1雑音抑圧処理を実行する構成と比較して雑音区間でのミュージカルノイズが低減され、音響信号VINの全区間にわたって第2雑音抑圧処理を実行する構成と比較して目的音区間でのミュージカルノイズが低減されるという利点がある。 As described above, since the noise suppression processing applied to the generation of the acoustic signal VOUT is changed between the noise section and the target sound section (that is, changed according to the acoustic characteristics of the acoustic signal VIN), the acoustic signal VIN is changed. The musical noise in the noise section is reduced as compared with the configuration in which the first noise suppression processing is performed over the entire section of the target sound, and the target sound section is compared with the configuration in which the second noise suppression processing is performed over the entire section of the acoustic signal VIN. There is an advantage that the musical noise at is reduced.
雑音抑圧装置100の具体的な使用の状況を例示する。まず、空調設備の動作音などの定常的な雑音が存在する空間内で発話者が収音点(例えば収音機器)の近傍を通過する場合を想定する。収音点から充分に遠い位置に発話者が存在する状態では雑音のみが収音されるから、第2雑音抑圧処理による音響信号VOUTが生成される。発話者が収音点に接近した状態では発話者による発声の有無に応じて第1雑音抑圧処理と第2雑音抑圧処理とが随時に切替わる。すなわち、発話者による発声音が支配的な区間では第1雑音抑圧処理が選択され、雑音が支配的な区間(例えば発話が休止した区間)では第2雑音抑圧処理が選択される。そして、発話者が収音点から遠ざかると(すなわち雑音が優勢になると)、第2雑音抑圧処理による音響信号VOUTの生成が実行される。
A specific usage situation of the
次に、空調設備の動作音などの定常的な雑音が存在する状態と、多数の発声音の混合音などの定常性が低い雑音が存在する状態とが随時に切替わる場合(例えば、多数の発話者が存在する展示会)を想定する。定常的な雑音が存在する状態では、図7のように尖度Rm_2が尖度Rm_1よりも低いから、第2雑音抑圧処理による音響信号VOUTの生成が選択される。他方、定常性が低い雑音が存在する状態(すなわち図7よりも図8に近い状態)では、尖度Rm_1が尖度Rm_2よりも低いから、第1雑音抑圧処理による音響信号VOUTの生成が選択される。すなわち、雑音の音響的な特性に応じて第1雑音抑圧処理または第2雑音抑圧処理が選択される。 Next, a state where stationary noise such as an operation sound of an air conditioner exists and a state where low stationary noise such as a mixed sound of many uttered sounds is switched at any time (for example, many noises) Suppose an exhibition where there is a speaker. In a state where stationary noise exists, the kurtosis Rm_2 is lower than the kurtosis Rm_1 as shown in FIG. 7, and therefore the generation of the acoustic signal VOUT by the second noise suppression process is selected. On the other hand, in a state where noise with low stationarity exists (that is, a state closer to FIG. 8 than FIG. 7), the kurtosis Rm_1 is lower than the kurtosis Rm_2, so that the generation of the acoustic signal VOUT by the first noise suppression processing is selected Is done. That is, the first noise suppression process or the second noise suppression process is selected according to the acoustic characteristics of the noise.
<B:第2実施形態>
次に、本発明の第2実施形態について説明する。なお、以下の各形態において作用や機能が第1実施形態と同等である要素については、以上と同じ符号を付して各々の詳細な説明を適宜に省略する。
<B: Second Embodiment>
Next, a second embodiment of the present invention will be described. In addition, about the element in which an effect | action and a function are equivalent to 1st Embodiment in each following form, the same code | symbol as the above is attached | subjected and each detailed description is abbreviate | omitted suitably.
図10は、第2実施形態に係る雑音抑圧装置100Aのブロック図である。図10に示すように、雑音抑圧装置100Aは、信号区分部52と加重部54とを第1実施形態の雑音抑圧装置100に追加した構成である。信号区分部52は、音響信号VINを時間軸上で雑音区間と目的音区間とに区分する。雑音区間と目的音区間との選別には公知の技術が任意に採用される。
FIG. 10 is a block diagram of a noise suppression device 100A according to the second embodiment. As illustrated in FIG. 10, the noise suppression device 100A has a configuration in which a
加重部54は、指標算定部42が算定した尖度指標値σm_1と尖度指標値σm_2とを重み付けする。すなわち、加重部54は、尖度指標値σm_1に加重値w1を乗算するとともに尖度指標値σm_2に加重値w2を乗算する。加重値w1と加重値w2とは、信号区分部52による区分の結果に応じて可変に設定される。例えば、目的音区間内の各フレームFRでは加重値w1が加重値w2よりも大きい数値に設定され、雑音区間内の各フレームFRでは加重値w2が加重値w1よりも大きい数値に設定される。
The
尖度指標値σm_1と尖度指標値σm_2とが接近する状態では両者の大小が短時間で頻繁に逆転する可能性がある。したがって、第1実施形態の構成(加重部54を省略した構成)では、第2雑音抑圧処理が選択され易い雑音区間内の僅かなフレームFRにて第1雑音抑圧処理が選択される場合や、第1雑音抑圧処理が選択され易い目的音区間内の僅かなフレームFRにて第2雑音抑圧処理が選択される場合が発生する。以上のように雑音抑圧処理が瞬間的に変更された区間では、音響信号VOUTの再生音が聴感的に不自然な音響となる可能性がある。
In the state where the kurtosis index value σm_1 and the kurtosis index value σm_2 are close to each other, there is a possibility that both magnitudes are frequently reversed in a short time. Therefore, in the configuration of the first embodiment (a configuration in which the
第2実施形態においては、尖度指標値σm_1の加重値w1と尖度指標値σm_2の加重値w2とが雑音区間と目的音区間とで変更されるから、尖度指標値σm_1と尖度指標値σm_2とが接近した状態でも、目的音区間内の各フレームFRでは第1雑音抑圧処理が選択され、雑音区間内の各フレームFRでは第2雑音抑圧処理が選択される。すなわち、雑音抑圧処理の瞬間的な変更が防止される。したがって、第1実施形態と比較して、聴感的に自然な再生音を生成することが可能である。 In the second embodiment, since the weight value w1 of the kurtosis index value σm_1 and the weight value w2 of the kurtosis index value σm_2 are changed between the noise section and the target sound section, the kurtosis index value σm_1 and the kurtosis index Even in the state where the value σm_2 is close, the first noise suppression process is selected for each frame FR in the target sound section, and the second noise suppression process is selected for each frame FR in the noise section. That is, an instantaneous change in the noise suppression process is prevented. Therefore, compared with the first embodiment, it is possible to generate an acoustically natural reproduced sound.
<C:変形例>
以上に例示した各形態には様々な変形が加えられる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から2以上の態様を任意に選択して組合せてもよい。
<C: Modification>
Various modifications can be made to each of the forms exemplified above. An example of a specific modification is as follows. Two or more aspects may be arbitrarily selected from the following examples and combined.
(1)変形例1
以上の各形態においては、第1雑音抑圧処理としてスペクトルサブトラクション法を採用するとともに第2雑音抑圧処理としてMMSE-STSA法を例示したが、選択部44による選択の候補となる雑音抑圧処理の種類は以上の例示に限定されない。
(1)
In each of the above embodiments, the spectral subtraction method is adopted as the first noise suppression processing and the MMSE-STSA method is exemplified as the second noise suppression processing. However, the types of noise suppression processing that are selection candidates by the
例えば、Hack-Yoon KIM, et al., "Speech Enhancement Based on Short-Time spectral Amplitude Estimation with Two-Channel Beamformer", IEICE Trans. Fundamentals, Vol. E79-A, No.12, December 1996に開示された雑音抑圧処理(以下「雑音抑圧処理A」という)や、向井良,"非定常スペクトルサブトラクションによる音源分離後の残留雑音除去”, 日本音響学会 2001年秋季研究発表会, 2-6-14, p. 617−618に開示された雑音抑圧処理(以下「雑音抑圧処理B」という)が第1雑音抑圧処理または第2雑音抑圧処理として採用される。 For example, disclosed in Hack-Yoon KIM, et al., “Speech Enhancement Based on Short-Time spectral Amplitude Estimation with Two-Channel Beamformer”, IEICE Trans. Fundamentals, Vol. E79-A, No. 12, December 1996 Noise suppression processing (hereinafter referred to as “noise suppression processing A”), Ryo Mukai, “Residual noise removal after sound source separation by non-stationary spectral subtraction”, Acoustical Society of Japan 2001 Autumn Meeting, 2-6-14, p The noise suppression processing disclosed in 617-618 (hereinafter referred to as “noise suppression processing B”) is employed as the first noise suppression processing or the second noise suppression processing.
雑音抑圧処理Aにおいては、複数の収音機器が生成した複数の音響信号VINの加算(目的音方向に対するビームの形成)および減算(目的音方向に対する死角の形成)で目的音と雑音とを空間的に分離し(Griffith-Jim型適応ビームフォーマ)、目的音の周波数スペクトルから雑音の周波数スペクトルを減算することで雑音抑圧後の周波数スペクトルYm(n)を生成する。他方、雑音抑圧処理Bにおいては、目的音を強調した分離信号を複数の音響信号VINの独立成分分析で生成し、分離信号から推定した雑音(残留雑音)の周波数スペクトルを分離信号の周波数スペクトルから減算することで雑音抑圧後の周波数スペクトルYm(n)を生成する。なお、複数の音響信号VINが雑音抑圧処理に使用される場合、複数の音響信号VINのうちの何れかの音響信号VINから雑音抑圧前の尖度KAmが算定される。 In the noise suppression processing A, the target sound and noise are spatially obtained by adding (forming a beam with respect to the target sound direction) and subtracting (forming a blind spot with respect to the target sound direction) of the plurality of acoustic signals VIN generated by the plurality of sound collecting devices. Are separated (Griffith-Jim type adaptive beamformer), and the frequency spectrum Ym (n) after noise suppression is generated by subtracting the frequency spectrum of the noise from the frequency spectrum of the target sound. On the other hand, in the noise suppression processing B, a separated signal in which the target sound is emphasized is generated by independent component analysis of a plurality of acoustic signals VIN, and a frequency spectrum of noise (residual noise) estimated from the separated signal is obtained from the frequency spectrum of the separated signal. The frequency spectrum Ym (n) after noise suppression is generated by subtraction. When a plurality of acoustic signals VIN are used for noise suppression processing, the kurtosis KAm before noise suppression is calculated from any one of the plurality of acoustic signals VIN.
なお、以上においては減算型の雑音抑圧処理を例示したが、乗算型の雑音抑圧処理の内容も適宜に変更される。例えば、T. Lotter and P. Vary, "Speech enhancement by MAP spectral amplitude estimation using a Super-Gaussian speech model", EURASIP Journal on Applied Signal Processing, vol.2005, no,7, p.1110-1126, July 2005に開示されたMAP(maximum a posteriori estimation)推定をスペクトルゲインGm(n)の推定に利用した乗算型の雑音抑圧処理が第1雑音抑圧処理または第2雑音抑圧処理として採用される。具体的には、以下の数式(14)の演算でスペクトルゲインGm(n)が算定される。数式(14)の係数φや係数τは、雑音の確率分布(確率密度関数)の形状を定める定数(例えばτ=2.5,φ=1)である。
Although the subtraction type noise suppression process has been exemplified above, the content of the multiplication type noise suppression process is also changed as appropriate. For example, T. Lotter and P. Vary, "Speech enhancement by MAP spectral amplitude estimation using a Super-Gaussian speech model", EURASIP Journal on Applied Signal Processing, vol. 2005, no, 7, p.1110-1126, July 2005 The multiplication type noise suppression process using the MAP (maximum a posteriori estimation) estimation disclosed in the above is used for the estimation of the spectrum gain Gm (n) as the first noise suppression process or the second noise suppression process. Specifically, the spectrum gain Gm (n) is calculated by the calculation of the following formula (14). The coefficient φ and the coefficient τ in Expression (14) are constants (for example, τ = 2.5, φ = 1) that determine the shape of the noise probability distribution (probability density function).
また、選択部44による選択の候補となる雑音抑圧処理は減算型や乗算型に限定されない。例えば、目的音を強調した音響信号(すなわち雑音を抑圧した音響信号)の周波数スペクトルYm(n)を複数の音響信号VINに対する独立成分分析で生成する処理や、目的音の方向にビームを形成する(あるいは雑音の方向に収音上の死角を形成する)ことで雑音抑圧後の周波数スペクトルYm(n)を生成する処理(ビームフォーマ)も、第1雑音抑圧処理または第2雑音抑圧処理として採用される。
Further, the noise suppression processing as a selection candidate by the
なお、選択部44による選択の候補となる複数の雑音抑圧処理で雑音の抑圧の原理が相違する必要まではない。例えば、第1雑音抑圧処理および第2雑音抑圧処理の双方を同種の減算型の雑音抑圧処理(数式(4a))とし、雑音の抑圧に適用される係数(例えば数式(4a)の係数αmや数式(4b)の係数βm)を第1雑音抑圧処理と第2雑音抑圧処理とで相違させる構成も採用される。また、第1雑音抑圧処理および第2雑音抑圧処理の双方を乗算型の雑音抑圧処理とし、雑音の抑圧に影響する係数(例えば数式(6b)の係数η)を第1雑音抑圧処理と第2雑音抑圧処理とで相違させる構成も採用される。雑音の抑圧後のミュージカルノイズを効果的に低減できる係数(αm,βm,η)は音響信号VINの音響的な特性に応じて変化するから、以上のように同種の(すなわち雑音の抑圧の原理が共通する)複数の雑音抑圧処理を選択部44による選択の候補とした構成であっても、音響信号VINの音響的な特性の変化に拘わらずミュージカルノイズを有効に低減するという所期の効果は実現される。以上の説明から理解されるように、選択部44による選択の候補となる複数の雑音抑圧処理は、実行後に発生するミュージカルノイズの度合が相違する処理であれば足り、雑音抑圧の原理の異同は不問である。
It should be noted that the principle of noise suppression is not necessarily different between a plurality of noise suppression processes that are selection candidates by the
(2)変形例2
以上の各形態においては、実際に第1雑音抑圧処理で生成された周波数スペクトルYm(n)_1から尖度KBm_1を算定したが、以下に説明するように、推定雑音スペクトルψm(n)と雑音抑圧前の周波数スペクトルXm(n)とから尖度KBm_1を推定する構成も採用される。
(2)
In each of the above embodiments, the kurtosis KBm_1 is calculated from the frequency spectrum Ym (n) _1 actually generated by the first noise suppression processing. As described below, the estimated noise spectrum ψm (n) and the noise are calculated. A configuration for estimating the kurtosis KBm_1 from the frequency spectrum Xm (n) before suppression is also employed.
いま、推定雑音スペクトルψm(n)のA倍(A・ψm(n))を図3の減算部314が周波数スペクトルXm(n)から減算する場合(数式(4a)の係数αmを所定値Aに設定した場合)を想定すると、雑音抑圧後の音響信号VOUTの強度の度数分布を近似する関数Gb(x;k,θ)は、数式(8)の強度xを強度(x+A)に置換した以下の数式(15)で表現される。
Now, when the
数式(10)と同様に、4次のモーメントμ4の定義式における分布関数P(x)に数式(15)の関数Gb(x;k,θ)を代入することで数式(16)が導出される。
Similar to equation (10), equation (16) is derived by substituting function Gb (x; k, θ) of equation (15) into distribution function P (x) in the definition equation of fourth-order moment μ4. The
数式(16)の(x+A)k-1は、以下の数式(17)のようにテイラー展開される。
(X + A) k-1 in Expression (16) is Taylor-expanded as in Expression (17) below.
数式(17)の高次項を便宜的に無視したうえで数式(16)に代入すると、4次のモーメントμ4を近似する以下の数式(18)が導出される。
When the high-order term of the equation (17) is ignored for convenience and substituted into the equation (16), the following equation (18) that approximates the fourth-order moment μ4 is derived.
2次のモーメントについても同様に、定義式の分布関数P(x)(数式(9)参照)に数式(15)の関数Gb(x;k,θ)を代入したうえで数式(17)の高次項を無視することで、以下の数式(19)が導出される。
Similarly for the second moment, after substituting the function Gb (x; k, θ) of Equation (15) into the distribution function P (x) (see Equation (9)) of the definition equation, By ignoring the higher order terms, the following equation (19) is derived.
数式(18)の4次のモーメントμ4と数式(19)の2次のモーメントμ2とを数式(7)に代入することで、雑音の抑圧後の尖度KBm_1を定義する以下の数式(20)が導出される。なお、数式(20)の導出には、ガンマ関数Γ(k)の平均k・θの正規化で導出される以下の数式(21)の関係を利用した。第2尖度算定部422は、数式(20)を実行することで尖度KBm_1(推定値)を算定する。数式(20)の所定値Aは、第1雑音抑圧処理で所望の効果(雑音の抑圧度)が実現されるように適宜に選定される。
θ=1/k ……(21)
Substituting the fourth-order moment μ4 of Equation (18) and the second-order moment μ2 of Equation (19) into Equation (7), the following Equation (20) that defines the kurtosis KBm_1 after noise suppression: Is derived. In order to derive the formula (20), the relationship of the following formula (21) derived by normalizing the average k · θ of the gamma function Γ (k) was used. The second
θ = 1 / k (21)
以上のように尖度指標値σm_1の算定に第1雑音抑圧処理の実行は不要である。そこで、第1雑音抑圧部31は、選択部44が第1雑音抑圧処理を選択したフレームFRについてのみ第1雑音抑圧処理を実際に実行する。以上の構成によれば、選択部44が第2雑音抑圧処理を選択するフレームFRについては第1雑音抑圧処理が省略されるから、第1雑音抑圧部31(演算処理装置12)の処理の負荷が軽減されるという利点がある。
As described above, it is not necessary to perform the first noise suppression process for calculating the kurtosis index value σm_1. Therefore, the first
(3)変形例3
以上の各形態においては、各フレームFRの尖度指標値σm(σm_1,σm_2)を利用してフレームFR毎に雑音抑圧処理を選択したが、尖度指標値σmを算定する周期は本発明において任意である。例えば、音響信号VINを複数のフレームFRで構成される区間(以下「単位区間」という)に区分し、単位区間毎に尖度指標値σmの算定と雑音抑圧処理の選択とを実行する構成も採用される。すなわち、指標算定部42は、各単位区間の最初のフレームFRについて尖度指標値σm(σm_1,σm_2)を算定する。選択部44は、尖度指標値σmの比較で雑音抑圧処理を選択する。選択部44が選択する雑音抑圧処理は、次回の単位区間の最初のフレームFRで新たな尖度指標値σmが算定されるまで維持される。以上の構成によれば、指標算定部42や選択部44による処理の負荷が軽減されるという利点がある。また、フレームFR毎に算定された尖度指標値σmを複数のフレームFRについて平均する構成(すなわち、尖度指標値σmの時間的な変動を平滑化する構成)も好適である。
(3) Modification 3
In each of the above embodiments, the noise suppression processing is selected for each frame FR using the kurtosis index value σm (σm_1, σm_2) of each frame FR. However, the cycle for calculating the kurtosis index value σm is set in the present invention. Is optional. For example, the acoustic signal VIN is divided into sections (hereinafter referred to as “unit sections”) composed of a plurality of frames FR, and the calculation of the kurtosis index value σm and the selection of the noise suppression processing are performed for each unit section. Adopted. That is, the
(4)変形例4
尖度指標値σm(σm_1,σm_2)を算定する方法は適宜に変更される。例えば、雑音の抑圧後のミュージカルノイズの発生の度合は、尖度比Rm(Rm_1,Rm_2)の対数値に対して特に顕著な相関を示すという傾向がある。したがって、尖度比Rmの対数値から尖度指標値σmを算定する構成も好適である。また、雑音抑圧処理の前後における尖度の変化量(差分値)に応じて尖度指標値σmを算定する構成も採用される。すなわち、尖度指標値σm_1は、第1雑音抑圧処理の実行後の尖度KBm_1と実行前の尖度KAmとの差分値(KBm_1−KAm)に応じて設定され、尖度指標値σm_2は、第2雑音抑圧処理の実行後の尖度KBm_2と実行前の尖度KAmとの差分値に応じて設定される。
(4)
The method for calculating the kurtosis index value σm (σm_1, σm_2) is appropriately changed. For example, the degree of occurrence of musical noise after noise suppression tends to show a particularly significant correlation with the logarithmic value of the kurtosis ratio Rm (Rm_1, Rm_2). Therefore, a configuration for calculating the kurtosis index value σm from the logarithmic value of the kurtosis ratio Rm is also suitable. A configuration is also employed in which the kurtosis index value σm is calculated according to the kurtosis change amount (difference value) before and after the noise suppression processing. That is, the kurtosis index value σm_1 is set according to the difference value (KBm_1−KAm) between the kurtosis KBm_1 after execution of the first noise suppression process and the kurtosis KAm before execution, and the kurtosis index value σm_2 is It is set according to the difference value between the kurtosis KBm_2 after execution of the second noise suppression process and the kurtosis KAm before execution.
また、以上の各形態では尖度指標値σmの算定に関数Faを使用したが、尖度の相対比(Rm_1,Rm_2)や尖度の変化量(KBm_1−KAm,KBm_2−KAm)を尖度指標値σm(σm_1,σm_2)として利用する構成も好適である。 In each of the above forms, the function Fa is used to calculate the kurtosis index value σm. However, the relative kurtosis ratio (Rm_1, Rm_2) and the change in kurtosis (KBm_1-KAm, KBm_2-KAm) A configuration in which the index value σm (σm_1, σm_2) is used is also suitable.
さらに、尖度指標値σmの大小とミュージカルノイズの多少(尖度κの変化の度合)との関係は変更される。例えば、数式(12)や数式(13)の関数Faを単調減少関数とした場合、尖度指標値σmが小さいほど雑音の抑圧後のミュージカルノイズは多い(すなわち尖度の変化が大きい)。したがって、選択部44は、尖度指標値σm_1および尖度指標値σm_2のうち大きい方に対応する雑音抑圧処理を選択する。すなわち、選択部44による処理は、各尖度指標値σmに応じて複数の雑音抑圧処理の何れかを選択する処理(より好適には、複数の雑音抑圧処理のうち尖度指標値σmの示す尖度の変化が小さい雑音抑圧処理を選択する処理)として包括される。
Furthermore, the relationship between the magnitude of the kurtosis index value σm and the degree of musical noise (the degree of change in kurtosis κ) is changed. For example, when the function Fa in Expression (12) or Expression (13) is a monotone decreasing function, the smaller the kurtosis index value σm, the more musical noise after noise suppression (that is, the greater the change in kurtosis). Therefore, the
(5)変形例5
以上の各形態においては、尖度KAmと尖度KBm(KBm_1,KBm_2)との相違の度合に応じて尖度指標値σmを選定した。しかし、雑音の抑圧前の尖度KAmは尖度指標値σm_1と尖度指標値σm_2とで共通するから、雑音の抑圧後の尖度KBmから尖度指標値σmを算定する構成(尖度指標値σmの算定に尖度KAmを使用しない構成)も採用される。すなわち、指標算定部42は、尖度KBm_1から尖度指標値σm_1を算定するとともに尖度KBm_2から尖度指標値σm_2を算定する。以上の構成においては、指標算定部42の構成や処理が簡素化される(具体的には第1尖度算定部421が省略される)という利点がある。
(5)
In each of the above embodiments, the kurtosis index value σm is selected according to the degree of difference between the kurtosis KAm and the kurtosis KBm (KBm_1, KBm_2). However, since the kurtosis index value σm before noise suppression is common to the kurtosis index value σm_1 and the kurtosis index value σm_2, a configuration for calculating the kurtosis index value σm from the kurtosis index value mm after noise suppression (kurtosis index A configuration in which the kurtosis KAm is not used for calculating the value σm is also employed. That is, the
(6)変形例6
第1実施形態の第1雑音抑圧処理における数式(4a)の係数αmを尖度指標値σm_1に応じて可変に制御する構成も好適である。例えば、係数αmが大きいほど第1雑音抑圧処理に起因したミュージカルノイズは増加するから、尖度指標値σm_1が大きいほど係数αmを減少させる構成が好適である。数式(4b)の係数βmについても同様に尖度指標値σm_1に応じて可変に制御される。
(6)
A configuration is also preferable in which the coefficient αm of the equation (4a) in the first noise suppression processing of the first embodiment is variably controlled according to the kurtosis index value σm_1. For example, since the musical noise resulting from the first noise suppression processing increases as the coefficient αm increases, a configuration in which the coefficient αm is decreased as the kurtosis index value σm_1 increases. Similarly, the coefficient βm of Expression (4b) is also variably controlled according to the kurtosis index value σm_1.
(7)変形例7
選択部44による選択の候補となる雑音抑圧処理の種類数は任意である。例えば、抑圧処理部30が3種類以上の雑音抑圧処理の各々を音響信号VINに対して並列に実行する構成では、雑音抑圧処理毎に指標算定部42が尖度指標値σm(3個以上)を算定し、3種類以上の雑音抑圧処理の何れかを選択部44が選択する。また、3種類以上の雑音抑圧処理を選択の候補とした場合、選択部44が2以上の雑音抑圧処理を選択する構成も採用される。選択部44が選択した2以上の雑音抑圧処理で生成された2以上の周波数スペクトルYm(n)は、例えば混合されてから波形合成部46に出力される。
(7)
The number of types of noise suppression processing that are candidates for selection by the
100……雑音抑圧装置、12……演算処理装置、14……記憶装置、20……周波数分析部、30……抑圧処理部、31……第1雑音抑圧部、312……雑音推定部、314……減算部、32……第2雑音抑圧部、322……雑音推定部、324……ゲイン算定部、326……乗算部、42……指標算定部、421……第1尖度算定部、422……第2尖度算定部、423……第3尖度算定部、425……第1指標算定部、426……第2指標算定部、44……選択部、46……波形合成部。
DESCRIPTION OF
Claims (5)
前記音響信号の強度の度数分布における尖度が雑音抑圧処理の前後で変化した度合を示す尖度指標値を前記各雑音抑圧手段による雑音抑圧処理毎に算定する指標算定手段と、
前記指標算定手段が算定した各尖度指標値に応じて前記各雑音抑圧手段による複数の雑音抑圧処理の何れかを選択する選択手段と
を具備する雑音抑圧装置。 A plurality of noise suppression means for performing different noise suppression processing on the acoustic signal;
Index calculation means for calculating the kurtosis index value indicating the degree to which the kurtosis in the frequency distribution of the intensity of the acoustic signal has changed before and after the noise suppression process for each noise suppression process by the noise suppression means;
A noise suppression apparatus comprising: selection means for selecting one of a plurality of noise suppression processes by each noise suppression means according to each kurtosis index value calculated by the index calculation means.
請求項1の雑音抑圧装置。 The noise suppression apparatus according to claim 1, wherein the selection unit selects a noise suppression process in which a change in kurtosis indicated by the kurtosis index value is small among the plurality of noise suppression processes.
前記各雑音抑圧処理に対する加重値を雑音区間と目的音区間とで変化させて前記前記各尖度指標値を加重する加重手段とを具備し、
前記選択手段は、前記加重後の各尖度指標値に応じて雑音抑圧処理を選択する
請求項1または請求項2の雑音抑圧装置。 A signal dividing means for dividing the acoustic signal into a noise section and a target sound section on a time axis;
Weighting means for weighting each kurtosis index value by changing a weighting value for each noise suppression process between a noise interval and a target sound interval;
The noise suppression apparatus according to claim 1, wherein the selection unit selects a noise suppression process according to each weighted kurtosis index value.
請求項1から請求項3の何れかの雑音抑圧装置。 The plurality of noise suppression processes include a subtraction-type noise suppression process for subtracting a noise spectrum from the spectrum of the acoustic signal, and a multiplication-type noise suppression process for multiplying the spectrum of the acoustic signal by a spectrum gain that enhances the target sound. The noise suppression device according to any one of claims 1 to 3.
音響信号の強度の度数分布における尖度が雑音抑圧処理の前後で変化した度合を示す尖度指標値を雑音抑圧処理毎に算定する指標算定処理と、
前記指標算定処理で算定した各尖度変化指標に応じて前記複数の雑音抑圧処理の何れかを選択する選択処理と
をコンピュータに実行させるプログラム。
A plurality of noise suppression processes individually performed on the acoustic signal;
An index calculation process for calculating, for each noise suppression process, a kurtosis index value indicating the degree to which the kurtosis in the frequency distribution of the intensity of the acoustic signal has changed before and after the noise suppression process;
A program that causes a computer to execute a selection process that selects any one of the plurality of noise suppression processes in accordance with each kurtosis change index calculated in the index calculation process.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009001470A JP5187666B2 (en) | 2009-01-07 | 2009-01-07 | Noise suppression device and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009001470A JP5187666B2 (en) | 2009-01-07 | 2009-01-07 | Noise suppression device and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010160246A JP2010160246A (en) | 2010-07-22 |
JP5187666B2 true JP5187666B2 (en) | 2013-04-24 |
Family
ID=42577461
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009001470A Expired - Fee Related JP5187666B2 (en) | 2009-01-07 | 2009-01-07 | Noise suppression device and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5187666B2 (en) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5728903B2 (en) * | 2010-11-26 | 2015-06-03 | ヤマハ株式会社 | Sound processing apparatus and program |
JP5942388B2 (en) * | 2011-09-07 | 2016-06-29 | ヤマハ株式会社 | Noise suppression coefficient setting device, noise suppression device, and noise suppression coefficient setting method |
JP6182895B2 (en) * | 2012-05-01 | 2017-08-23 | 株式会社リコー | Processing apparatus, processing method, program, and processing system |
JP6027804B2 (en) * | 2012-07-23 | 2016-11-16 | 日本放送協会 | Noise suppression device and program thereof |
JP6379839B2 (en) | 2014-08-11 | 2018-08-29 | 沖電気工業株式会社 | Noise suppression device, method and program |
US20180350358A1 (en) * | 2015-12-01 | 2018-12-06 | Mitsubishi Electric Corporation | Voice recognition device, voice emphasis device, voice recognition method, voice emphasis method, and navigation system |
JP2023530225A (en) * | 2020-05-29 | 2023-07-14 | フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. | Method and apparatus for processing early audio signals |
CN116964664A (en) * | 2021-03-10 | 2023-10-27 | 三菱电机株式会社 | Noise suppression device, noise suppression method, and noise suppression program |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0936763A (en) * | 1995-07-25 | 1997-02-07 | Toshiba Corp | Noise canceller |
JPH11338499A (en) * | 1998-05-28 | 1999-12-10 | Kokusai Electric Co Ltd | Noise canceller |
JP2000099096A (en) * | 1998-09-18 | 2000-04-07 | Toshiba Corp | Component separation method of voice signal, and voice encoding method using this method |
JP2000269899A (en) * | 1999-03-16 | 2000-09-29 | Kokusai Electric Co Ltd | Noise elimination device and radio communication terminal |
JP4162604B2 (en) * | 2004-01-08 | 2008-10-08 | 株式会社東芝 | Noise suppression device and noise suppression method |
-
2009
- 2009-01-07 JP JP2009001470A patent/JP5187666B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010160246A (en) | 2010-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5187666B2 (en) | Noise suppression device and program | |
JP5641186B2 (en) | Noise suppression device and program | |
CA2732723C (en) | Apparatus and method for processing an audio signal for speech enhancement using a feature extraction | |
JP5528538B2 (en) | Noise suppressor | |
JP4861645B2 (en) | Speech noise suppressor, speech noise suppression method, and noise suppression method in speech signal | |
KR101737824B1 (en) | Method and Apparatus for removing a noise signal from input signal in a noisy environment | |
JP5277887B2 (en) | Signal processing apparatus and program | |
JP5152799B2 (en) | Noise suppression device and program | |
JP5034735B2 (en) | Sound processing apparatus and program | |
JP5152800B2 (en) | Noise suppression evaluation apparatus and program | |
JP5609157B2 (en) | Coefficient setting device and noise suppression device | |
JP5942388B2 (en) | Noise suppression coefficient setting device, noise suppression device, and noise suppression coefficient setting method | |
JP5633673B2 (en) | Noise suppression device and program | |
JP5728903B2 (en) | Sound processing apparatus and program | |
JP6361148B2 (en) | Noise estimation apparatus, method and program | |
JP5772723B2 (en) | Acoustic processing apparatus and separation mask generating apparatus | |
JP2013250356A (en) | Coefficient setting device and noise suppression device | |
JP2006178333A (en) | Proximity sound separation and collection method, proximity sound separation and collecting device, proximity sound separation and collection program, and recording medium | |
JP2015169901A (en) | Acoustic processing device | |
JP5316127B2 (en) | Sound processing apparatus and program | |
JP6036141B2 (en) | Sound processor | |
JP5463924B2 (en) | Sound processor | |
JP2017138409A (en) | Noise estimation device, program and method, and voice processing device | |
JP2015169900A (en) | Noise suppression device | |
JP2014010279A (en) | Noise suppression device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111208 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20111209 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121109 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121219 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130111 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160201 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5187666 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |