JP2962572B2 - Noise removal device - Google Patents

Noise removal device

Info

Publication number
JP2962572B2
JP2962572B2 JP2313388A JP31338890A JP2962572B2 JP 2962572 B2 JP2962572 B2 JP 2962572B2 JP 2313388 A JP2313388 A JP 2313388A JP 31338890 A JP31338890 A JP 31338890A JP 2962572 B2 JP2962572 B2 JP 2962572B2
Authority
JP
Japan
Prior art keywords
power spectrum
noise
spectrum
ratio
signal input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2313388A
Other languages
Japanese (ja)
Other versions
JPH04184400A (en
Inventor
芳夫 中▲もと▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2313388A priority Critical patent/JP2962572B2/en
Publication of JPH04184400A publication Critical patent/JPH04184400A/en
Application granted granted Critical
Publication of JP2962572B2 publication Critical patent/JP2962572B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Noise Elimination (AREA)

Description

【発明の詳細な説明】 「産業上の利用分野」 この発明は、雑音と音声とが混在する信号から、雑音
成分を低減し音声成分を取り出す雑音除去装置に関する
ものである。
Description: BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a noise eliminator for reducing a noise component and extracting a voice component from a signal in which noise and voice are mixed.

「従来の技術」 従来より、音声認識装置などにおいて、自動車騒音下
などの種々の雑音環境下でも音声の特徴を安定して得る
ことを目的として、音声入力段にさまざまな雑音除去手
法を用いることが提案されている。
[Prior art] Conventionally, various types of noise reduction methods have been used in a voice input stage of a voice recognition device or the like in order to obtain stable voice characteristics even in various noise environments such as a vehicle noise. Has been proposed.

例えば、装置の信号入力器を1組とし、入力される信
号について予め目的とする音声信号を含む音声区間と音
声信号を含まない雑音区間とがわかっているときに、雑
音区間についてその平均パワースペクトルを求め、音声
区間全体にわたってこの平均パワースペクトルを差し引
いて雑音除去を行う方法がある。
For example, when one set of signal input devices of the apparatus is used, and an input signal includes a voice section including a target voice signal and a noise section including no voice signal, the average power spectrum of the noise section is obtained. , And subtracting this average power spectrum over the entire voice section to remove noise.

また、信号入力器を2組とし、信号入力器に2組に同
時に入力される信号について、音声信号と雑音とのSN比
が大きい入力信号パワースペクトルからSN比の大きい入
力信号パワースペクトルを差し引いて雑音除去を行う方
法がある。
Further, two sets of signal input devices are used, and for signals simultaneously input to the two sets of signal input devices, an input signal power spectrum having a large SN ratio is subtracted from an input signal power spectrum having a large SN ratio between a voice signal and noise. There is a method for removing noise.

「発明が解決しようとする課題」 前者の方法では、雑音パワースペクトルが時間的変動
を伴う場合に、除去しようとする雑音パワースペクトル
と実際の雑音パワースペクトルとの間に違いが生じ、音
声成分を除去してしまうなどの不適切な雑音除去をなす
場合がある。つまり雑音は一般的に、時間的に安定した
確率分布をもって発生することは保証されていない。従
って、音声区間外で求めた雑音パワースペクトルを用い
て音声区間内の雑音パワースペクトルを除去する方法
は、両者のパワースペクトルが異なった振幅値を持つ可
能性があるため、雑音除去方法として適切ではない。
[Problem to be Solved by the Invention] In the former method, when the noise power spectrum involves temporal fluctuation, a difference occurs between the noise power spectrum to be removed and the actual noise power spectrum, and the voice component is reduced. Improper noise removal such as removal may be performed. That is, it is generally not guaranteed that noise is generated with a temporally stable probability distribution. Therefore, the method of removing the noise power spectrum in the voice section using the noise power spectrum obtained outside the voice section is not appropriate as a noise removal method because both power spectra may have different amplitude values. Absent.

後者の方法では、信号入力器の配置方法により2つの
入力信号のSN比が近い値を持つような場合に、除去する
側の信号パワースペクトルの音声成分が混合するため
に、1入力による場合と同様に音声成分も除去するよう
な不適切な除去結果を生じる。また、この方法では、除
去する側の信号パワースペクトルに音声成分が混入する
ことを防ぐ目的で、一方の信号入力器を発声者から離し
て配置する対処方法が取られるが、このときには2組の
信号入力器に入力される雑音信号のパワースペクトルの
間に時間相関性が成立しなくなり、除去しようとするパ
ワースペクトルと実際の雑音パワースペクトルとの間に
違いが生じ、不適切な雑音除去をなす場合がある。
In the latter method, when the S / N ratio of the two input signals has a close value depending on the arrangement method of the signal input device, the audio component of the signal power spectrum on the side to be removed is mixed. Similarly, an inappropriate removal result such as removal of the audio component occurs. Further, in this method, in order to prevent sound components from being mixed into the signal power spectrum on the side to be removed, a measure is taken to arrange one signal input device away from the speaker. Time correlation is no longer established between the power spectra of the noise signal input to the signal input device, and a difference occurs between the power spectrum to be removed and the actual noise power spectrum, resulting in improper noise removal. There are cases.

この発明の目的は、雑音環境下で2つの音声入力器を
用いて、従来より存在する1つの信号入力器による雑音
除去装置および2つの信号入力器により雑音除去装置と
比較して、時間変化のある雑音の入力に強く、また、音
声成分の除去が生じにくく、雑音除去能力の高い、雑音
除去装置を提供することにある。
SUMMARY OF THE INVENTION It is an object of the present invention to use two voice input devices in a noise environment and to compare the time change of a conventional noise reduction device with one signal input device and a noise reduction device with two signal input devices. An object of the present invention is to provide a noise elimination device that is resistant to input of a certain noise, hardly removes voice components, and has high noise elimination ability.

「課題を解決するための手段」 この発明では、発声者の近くに位置する第1の信号入
力器と、この第1の信号入力器に近接して位置する第2
の信号入力器との2組の信号入力器を用い、それぞれの
入力信号に対し短時間信号分析を行い信号パワースペク
トルがスペクトル演算手段でそれぞれ求められ、周囲雑
音のない場合に発生者によって音声が発声されたときの
2つの入力信号のパワースペクトルの比率が比率記憶手
段に予め記憶され、除去を目的とする周囲雑音のある場
合に発声者によって音声が発声されたときの2つの入力
信号のパワースペクトルの比率が比率演算手段で求めら
れ、この比率と、先に記憶しておいたパワースペクトル
の比率とを比較することにより、周囲雑音がある場合と
ない場合とでのパワースペクトルの比率の差分から信号
パワースペクトル中の周囲雑音のパワースペクトル成分
が雑音推定演算手段で推定され、この推定雑音パワース
ペクトル成分を発声者の近くに位置する信号入力器で受
信したパワースペクトル成分から演算手段で除去され
て、雑音を除去した音声パワースペクトルが得られる。
[Means for Solving the Problems] According to the present invention, a first signal input device located near a speaker and a second signal input device located close to the first signal input device are provided.
A short time signal analysis is performed on each input signal by using two sets of signal input devices, and a signal power spectrum is respectively obtained by spectrum calculation means. When there is no ambient noise, a voice is generated by a generator. The ratio of the power spectrum of the two input signals when uttered is stored in the ratio storage means in advance, and the power of the two input signals when the voice is uttered by the speaker when there is ambient noise for the purpose of removal. The ratio of the spectrum is obtained by the ratio calculating means. By comparing this ratio with the ratio of the power spectrum stored before, the difference between the ratio of the power spectrum with and without the ambient noise is obtained. The power spectrum component of the ambient noise in the signal power spectrum is estimated by the noise estimation calculation means, and this estimated noise power spectrum component is generated. Who is removed by the operation means from the received power spectral components in the signal input unit located near, speech power spectrum is obtained to remove the noise.

つまり、発声者の位置が固定で、周囲雑音が複数の信
号入力器に対してほぼ同一に入力される場合、複数の信
号入力器のうち、発声者に最も近い信号入力器に対する
他の信号入力器のパワースペクトルの比率を観測すれ
ば、雑音が多く存在する場合とあまり存在しない場合と
ではパワースペクトルの比率が異なるため、存在しない
場合の比率と存在する場合の比率とを比較して入力信号
中の雑音パワースペクトルを推定することが可能とな
り、この推定パワースペクトルを発声者に最も近い信号
入力器のパワースペクトルから除去することにより雑音
除去された音声パワースペクトルを得るものである。
In other words, when the position of the speaker is fixed and the ambient noise is input to a plurality of signal input devices almost identically, another signal input to the signal input device closest to the speaker among the plurality of signal input devices is performed. Observing the ratio of the power spectrum of the device, the ratio of the power spectrum differs between the case where there is much noise and the case where there is not much noise. It is possible to estimate the noise power spectrum in the signal, and remove the estimated power spectrum from the power spectrum of the signal input device closest to the speaker to obtain a noise-free voice power spectrum.

「実施例」 第1図にこの発明の実施例を示す。マイクロホン1お
よび2は、いずれも同一周波数帯域の音声信号を入力す
るものであり、マイクロホン1は雑音を除去した音声信
号を取り出すことを目的とした音声信号入力器であり、
また、マイクロホン2は推定雑音パワースペクトルを生
成し、これをマイクロホン1の信号パワースペクトルよ
り除去することを目的とした音声信号入力器である。マ
イクロホン1および2の指向特性は、同一であり、例え
ば、単一指向性マイクロホンとする。この実施例では、
マイクロホン1および2は、周囲雑音の雑音源より遠く
に配置し、また、マイクロホンを発声者に近接配置した
ときはマイクロホンの位置が発声者からわずか遠くに移
動しても音圧レベルの減少効果が大きいことを利用して
雑音除去および音声区間検出を行うものであるため、マ
イクロホン1の音声対雑音比がマイクロホン2のそれよ
りも大きくなるようにする。すなわち、マイクロホン2
よりもマイクロホン1の方を発声者3に近接させて配置
するものとする。
FIG. 1 shows an embodiment of the present invention. Each of the microphones 1 and 2 inputs an audio signal in the same frequency band, and the microphone 1 is an audio signal input device for extracting an audio signal from which noise has been removed.
The microphone 2 is an audio signal input device for generating an estimated noise power spectrum and removing it from the signal power spectrum of the microphone 1. The directional characteristics of the microphones 1 and 2 are the same, for example, a unidirectional microphone. In this example,
The microphones 1 and 2 are arranged farther from the noise source of the ambient noise, and when the microphone is arranged close to the speaker, the effect of reducing the sound pressure level can be obtained even if the position of the microphone is moved slightly farther from the speaker. Since the noise removal and the voice section detection are performed using the large value, the voice-to-noise ratio of the microphone 1 is set to be larger than that of the microphone 2. That is, the microphone 2
It is assumed that the microphone 1 is arranged closer to the speaker 3 than the microphone 1 is.

発声者3と2つのマイクロホン1,2までの各距離およ
びマイクロホン1から2までの距離は、任意であるが、
両マイクロホン1,2で受信する周波数帯域内の信号につ
いて2つのマイクロホン1,2間での位相のずれが無いよ
うに配置することが望ましい。例えば、発声者3からマ
イクロホンまでの距離を40cm、マイクロホン1から2ま
での距離を5cmとし、発声者3およびマイクロホン1,2の
位置関係はこれらが一直線上に並ぶようにする。また、
2つのマイクロホン1,2間およびこれらと発声者3との
配置関係は発声者3の発声中には固定されているものと
する。
The distance between the speaker 3 and the two microphones 1 and 2 and the distance between the microphones 1 and 2 are arbitrary,
It is desirable to arrange the signals within the frequency band received by both microphones 1 and 2 so that there is no phase shift between the two microphones 1 and 2. For example, the distance from the speaker 3 to the microphone is 40 cm, the distance from the microphones 1 to 2 is 5 cm, and the positional relationship between the speaker 3 and the microphones 1 and 2 is arranged in a straight line. Also,
It is assumed that the positional relationship between the two microphones 1 and 2 and the positional relationship between the microphones 1 and 2 and the speaker 3 are fixed while the speaker 3 is speaking.

A/D変換部4および5は、それぞれマイクロホン1お
よび2の各出力アナログ波形信号を同一のサンプリング
周波数でディジタル波形信号に変換するものである。こ
のとき、サンプリング周波数はナイキストのサンプリン
グ定理からマイクロホン1および2の受信する周波数帯
域の上限値の2倍より大きいものとし、例えば、マイク
ロホン1および2の受信する周波数帯域が300Hzから4kH
zとすると、A/D変換部4および5のサンプリング周波数
は、例えば、10kHzとする。
The A / D converters 4 and 5 convert the respective output analog waveform signals of the microphones 1 and 2 into digital waveform signals at the same sampling frequency. At this time, the sampling frequency is set to be larger than twice the upper limit of the frequency band received by the microphones 1 and 2 according to the Nyquist sampling theorem. For example, the frequency band received by the microphones 1 and 2 is changed from 300 Hz to 4 kHz.
If z, the sampling frequency of the A / D converters 4 and 5 is, for example, 10 kHz.

区間検出部6は、A/D変換部4および5の出力波形を
入力して、A/D変換部4および5の出力波形に音声を含
むかどうかを検出するものである。スイッチ7および8
は、区間検出部6の検出結果から音声区間と判断された
場合にA/D変換部4および5の各出力をそれぞれスイッ
チ7および8を通じてスペクトル演算部9および10にそ
れぞれ供給する。
The section detector 6 receives the output waveforms of the A / D converters 4 and 5 and detects whether or not the output waveforms of the A / D converters 4 and 5 include voice. Switches 7 and 8
Supplies the outputs of the A / D converters 4 and 5 to the spectrum calculators 9 and 10 through the switches 7 and 8, respectively, when it is determined from the detection result of the section detector 6 that the section is a voice section.

スペクトル演算部9および10は、それぞれA/D変換部
5および5の出力波形から短時間パワースペクトルを計
算する。パワースペクトルを計算する区間長(分析フレ
ーム長)は、例えば、A/D変換部4および5のサンプリ
ング周波数10kHzに対し256サンプル毎、すなわち25.6ms
ec毎とし、パワースペクトルの計算には、例えば、高速
フーリエ変換を使用する。また、スペクトル演算部9か
らは、短時間パワースペクトル計算時に分離したA/D変
換部4の出力波形の位相情報を時間波形変換部11へ送
る。
The spectrum calculators 9 and 10 calculate short-time power spectra from the output waveforms of the A / D converters 5 and 5, respectively. The section length (analysis frame length) for calculating the power spectrum is, for example, every 256 samples for a sampling frequency of 10 kHz of the A / D converters 4 and 5, that is, 25.6 ms.
For each ec, for example, a fast Fourier transform is used to calculate the power spectrum. Further, the spectrum calculation unit 9 sends the phase information of the output waveform of the A / D conversion unit 4 separated at the time of calculating the short-time power spectrum to the time waveform conversion unit 11.

スペクトル補正部12はマイクロホン1および2とA/D
変換部4および5とを生じたマイクロホン1と2との間
のパワースペクトル形状の違いを補正するディジタルフ
ィルタである。比率演算部13は、スペクトル演算部9お
よび10で計算されたパワースペクトルの比率を計算する
ものであり、比較記憶部14は、比率演算部13の計算結果
を記憶するものである。雑音推定演算部15は、比率演算
部13の計算結果と比率記憶部14の記憶数値とから、スペ
クトル演算部10で計算されたマイクロホン2で受信され
ている音声信号中に含まれる雑音パワースペクトルの割
合を計算する。乗算部16は、雑音推定演算部15の計算結
果を、スペクトル演算部10で計算したパワースペクトル
に乗り、推定雑音パワースペクトルを出力する。減算部
17は、スペクトル演算部9で計算したパワースぺクトル
より乗算部16で出力される推定雑音パワースペクトルを
除去する。時間波形変換部11は、減算部17の出力パワー
スペクトルとA/D変換部4の出力波形の位相情報とから
雑音除去後の時間波形を得るものである。出力端子18は
時間波形変換部11の出力が出力される出力端子である。
The spectrum correction unit 12 is connected to the microphones 1 and 2 and the A / D
This is a digital filter that corrects a difference in power spectrum shape between the microphones 1 and 2 that have generated the conversion units 4 and 5. The ratio calculation unit 13 calculates the ratio of the power spectrum calculated by the spectrum calculation units 9 and 10, and the comparison storage unit 14 stores the calculation result of the ratio calculation unit 13. The noise estimation calculation unit 15 calculates the noise power spectrum included in the audio signal received by the microphone 2 calculated by the spectrum calculation unit 10 from the calculation result of the ratio calculation unit 13 and the numerical value stored in the ratio storage unit 14. Calculate the percentage. The multiplication unit 16 multiplies the calculation result of the noise estimation calculation unit 15 with the power spectrum calculated by the spectrum calculation unit 10, and outputs an estimated noise power spectrum. Subtraction unit
A filter 17 removes the estimated noise power spectrum output from the multiplier 16 from the power spectrum calculated by the spectrum calculator 9. The time waveform converter 11 obtains a time waveform after noise removal from the output power spectrum of the subtractor 17 and the phase information of the output waveform of the A / D converter 4. The output terminal 18 is an output terminal to which the output of the time waveform converter 11 is output.

この実施例での動作を説明する。まず、マイクロホン
2からの音声信号のパワースペクトルをマイクロホン1
からの音声信号のパワースペクトルへ適合させるスペク
トル補正部12のフィルタ係数は既に学習されて決定され
ているものとする。この学習方法は、例えば、除去を目
的とする周囲雑音のある環境において、マイクロホン1
および2により雑音を受信させ、スイッチ7および8に
よりA/D変換部4および5の出力をスペクトル演算部9
および10にそれぞれ入力させ、これにより得られる短時
間パワースペクトルの長時間平均値の比率を利用してス
ペクトル補正部12のフィルタ係数を学習させるものであ
る。すなわち、スペクトル演算部9および10の各1フレ
ーム当りの短時間パワースペクトルの100フレーム間の
平均値の値をそれぞれMP1(ω)、MP2(ω)とすると、
スペクトル補正部12のフィルタ係数FP(ω)は(1)式
で求められる。
The operation in this embodiment will be described. First, the power spectrum of the audio signal from the microphone 2 is
It is assumed that the filter coefficient of the spectrum correction unit 12 adapted to the power spectrum of the audio signal from the speaker has already been learned and determined. This learning method is performed, for example, in an environment where there is ambient noise for the purpose of removal.
And 2 to receive noise, and switches 7 and 8 to output the outputs of A / D converters 4 and 5 to spectrum calculator 9
And 10, and filter coefficients of the spectrum correction unit 12 are learned using the ratio of the long-term average value of the short-time power spectrum obtained thereby. That is, assuming that the average values of the short-time power spectrum of each of the spectrum calculation units 9 and 10 per 100 frames are MP 1 (ω) and MP 2 (ω), respectively.
The filter coefficient FP (ω) of the spectrum correction unit 12 is obtained by equation (1).

FP(ω)=MP1(ω)/MP2(ω) (1) ここで、ωはフーリエ変換の計算ポイントであり、例
えば、0≦ω≦5kHzの範囲である。このようにしてスペ
クトル演算部10からスペクトル演算部9へのパワースペ
クトルの適合は、スペクトル演算部10の出力にフィルタ
係数FP(ω)を乗じて求める。
FP (ω) = MP 1 (ω) / MP 2 (ω) (1) Here, ω is a calculation point of the Fourier transform, and is, for example, in a range of 0 ≦ ω ≦ 5 kHz. In this manner, the adaptation of the power spectrum from the spectrum calculation unit 10 to the spectrum calculation unit 9 is obtained by multiplying the output of the spectrum calculation unit 10 by the filter coefficient FP (ω).

次に、周囲雑音がない状態で発声者3によって発声さ
れた音声のマイクロホン1,2間のパワースペクトルの比
率を算出する。周囲雑音がない状態は、例えば、マイク
ロホン1および2を周囲雑音のない場所で使用すること
により実現できる。発声者3が任意の音声を発声する
と、音声はマイクロホン1および2により受信され、A/
D変換部4および5に送られ、ディジタル波形信号とし
て出力される。この波形から、区間検出部6により、音
声かどうかが判定される。区間検出部6の波形検出アル
ゴリズムは、例えば、A/D変換部4および5の出力波形
の短時間パワーをそれぞれK1,K2とするとき、その比率K
rを Kr=K1/K2 (2) としたとき、Krがあるしきい値Kthに対して、Kr≧Kth
なる区間について音声区間であると判定するものであ
る。この判定結果より、音声と判定された区間につい
て、区間検出部6からの信号によりスイッチ7および8
が閉じられ、A/D変換部4および5の各ディジタル波形
出力は、スペクトル演算部9および10はそれぞれ送られ
る。スペクトル演算部9および10で計算されたパワース
ペクトルは、スペクトル演算部10の出力については、ス
ペクトル補正部12により補正を受けて、それぞれ比率演
算部13に送られる。比率演算部13においては、スペクト
ル演算部9および10から送られたパワースペクトル波形
を一定時間長分、例えば、100フレーム分蓄積し、
(3)式および(4)式のように比率を求める。スペク
トル演算部9で計算されたパワースペクトルをP
1(ω)、スペクトル演算部10で計算されスペクトル補
正部12によって補正されたパワースペクトルをP2(ω)
とし、P1(ω)およびP2(ω)の各100フレーム間の平
均値をそれぞれAP1(ω)をおよびAP2(ω)とすると、
比率演算部13で求めるパワースペクトル比率R(ω)お
よび長時間パワースペクトル比率AR(ω)は、 R(ω)=P1(ω)/P2 (3) AR(ω)=AP1(ω)/AP2(ω) (4) となる。一般に、受信する音声信号のゆらぎにより、R
(ω)の値はAR(ω)の値よりも安定せずにばらつく。
この実施例では、パワースペクトル比率として、R
(ω)の代わりにAR(ω)を採用する。AR(ω)は比率
記憶部14へ送られて記憶される。
Next, the ratio of the power spectrum between the microphones 1 and 2 of the voice uttered by the speaker 3 in the absence of ambient noise is calculated. A state without ambient noise can be realized, for example, by using the microphones 1 and 2 in a place without ambient noise. When the speaker 3 utters an arbitrary voice, the voice is received by the microphones 1 and 2 and A /
The signals are sent to the D converters 4 and 5 and output as digital waveform signals. From this waveform, the section detection unit 6 determines whether or not it is a voice. For example, when the short-term power of the output waveforms of the A / D converters 4 and 5 is K 1 and K 2 respectively, the waveform detection algorithm of the section
When the r was K r = K 1 / K 2 (2), against a threshold K th there is K r, is to determine that the voice section for K r ≧ K th become section. Based on the result of the determination, the switches 7 and 8 are switched by the signal from the section detector 6 for the section determined to be voice.
Is closed, and the digital waveform outputs of the A / D converters 4 and 5 are sent to the spectrum calculators 9 and 10, respectively. The power spectra calculated by the spectrum calculators 9 and 10 are sent to the ratio calculator 13 after the output of the spectrum calculator 10 is corrected by the spectrum corrector 12. In the ratio calculator 13, the power spectrum waveforms sent from the spectrum calculators 9 and 10 are accumulated for a fixed time length, for example, 100 frames,
The ratio is obtained as in the equations (3) and (4). The power spectrum calculated by the spectrum calculator 9 is expressed as P
1 (ω), the power spectrum calculated by the spectrum calculation unit 10 and corrected by the spectrum correction unit 12 is represented by P 2 (ω)
Let AP 1 (ω) and AP 2 (ω) be the average values of P 1 (ω) and P 2 (ω) for each 100 frames, respectively.
The power spectrum ratio R (ω) and the long-term power spectrum ratio AR (ω) obtained by the ratio calculation unit 13 are as follows: R (ω) = P 1 (ω) / P 2 (3) AR (ω) = AP 1 (ω ) / AP 2 (ω) (4) Generally, the fluctuation of the received audio signal causes R
The value of (ω) varies more stably than the value of AR (ω).
In this embodiment, the power spectrum ratio is R
AR (ω) is adopted instead of (ω). AR (ω) is sent to and stored in the ratio storage unit 14.

次に、除去を目的とする周囲雑音がある状態で発音者
3によって発声された音声のマイクロホン1,2間のパワ
ースペクトルの比率を算出する。このときの2つのマイ
クロホン1,2および発声者3の配置関係は上記の周囲雑
音がない状態で発声者3に発声してもらった場合の同一
である。上記の周囲雑音がない状態での発声と同様に、
発声者3が任意の音声を発声すると、音声はマイクロホ
ン1および2により受信され、A/D変換部4および5に
よりディジタル波形信号として出力される。この波形か
ら、区間検出部6により、音声を含む区間かそうでない
かが判定され、音声と判定された区間の波形は、スイッ
チ7および8を介して、スペクトル演算部9および10に
送られる。スペクトル演算部9および10で計算されたパ
ワースペクトルは、スペクトル演算部10の出力について
のみスペクトル補正部12により補正を受けて、それぞれ
比率演算部13に送られる。
Next, the ratio of the power spectrum between the microphones 1 and 2 of the voice uttered by the speaker 3 in the presence of ambient noise for the purpose of removal is calculated. At this time, the positional relationship between the two microphones 1 and 2 and the speaker 3 is the same as when the speaker 3 is uttered without the above-mentioned ambient noise. Similar to the above utterance without ambient noise,
When the speaker 3 utters an arbitrary voice, the voice is received by the microphones 1 and 2 and is output as digital waveform signals by the A / D converters 4 and 5. From this waveform, the section detection unit 6 determines whether the section includes voice or not, and the waveform of the section determined to be voice is sent to the spectrum calculation units 9 and 10 via the switches 7 and 8. The power spectra calculated by the spectrum calculation units 9 and 10 are corrected by the spectrum correction unit 12 only for the output of the spectrum calculation unit 10 and sent to the ratio calculation unit 13 respectively.

比率演算部13では、上記の場合と同様に、スペクトル
演算部9の出力およびスペクトル補正部12の出力をそれ
ぞれPn1(ω)、Pn2(ω)としたとき、雑音のある場合
のパワースペクトル比率Q(ω)を(5)式により求め
る。
When the output of the spectrum calculator 9 and the output of the spectrum corrector 12 are Pn 1 (ω) and Pn 2 (ω), respectively, in the ratio calculator 13 in the same manner as described above, the power spectrum in the presence of noise is obtained. The ratio Q (ω) is determined by equation (5).

Q(ω)=Pn1(ω)/Pn2(ω) (5) 次に、R(ω)およびQ(ω)の計算結果をもとに、
雑音推定演算部15により、Pn2(ω)における雑音成分
を推定する。
Q (ω) = Pn 1 (ω) / Pn 2 (ω) (5) Next, based on the calculation results of R (ω) and Q (ω),
The noise component in Pn 2 (ω) is estimated by the noise estimation calculation unit 15.

マイクロホン1および2で観測される雑音のパワース
ペクトルをそれぞれN1(ω)およびN2(ω)、また、音
声のパワースペクトルをそれぞれS1(ω)およびS
2(ω)とすると、Pn1(ω)およびPn2(ω)は、 Pn1(ω)=S1(ω)+N1(ω) (6) Pn2(ω)=S2(ω)+N2(ω) (7) となる。ここで、スペクトル補正部12により、マイクロ
ホン1,2間で雑音に対するパワースペクトル補正を行っ
ていることから、 N1(ω)=N2(ω) (8) の関係が成立する。また、比率演算部13で求めるパワー
スペクトル比率R(ω)と長時間パワースペクトル比率
AR(ω)とにおいて、パワースペクトル比率が音声信号
に依存せず、発声者3とマイクロホン1および2との位
置関係だけに依存して決定されると仮定すれば、 R(ω)=AR(ω) (9) の関係が成立する。さらに(3)式においてマイクロホ
ン1および2に入力される信号は発声者3により音声信
号が主で周囲雑音信号が無視できるほど小さいものと仮
定すれば、R(ω)は、 R(ω)=S1(ω)/S2(ω) (10) と書き換えられる。そこで、(8)式,(9)式,(1
0)式の関係を(6)式,(7)式に代入し、また、 X(ω)=S2(ω)/N2(ω) (11) なるX(ω)を定義すると、(6)式および(7)式は
次のように書き換えられる。
The power spectra of the noise observed by the microphones 1 and 2 are N 1 (ω) and N 2 (ω), respectively, and the power spectra of the voice are S 1 (ω) and S
2 When (ω), Pn 1 (ω ) and Pn 2 (omega) is, Pn 1 (ω) = S 1 (ω) + N 1 (ω) (6) Pn 2 (ω) = S 2 (ω) + N 2 (ω) (7) Here, since the power spectrum correction for the noise is performed between the microphones 1 and 2 by the spectrum correction unit 12, the relationship of N 1 (ω) = N 2 (ω) (8) is established. Further, the power spectrum ratio R (ω) obtained by the ratio calculation unit 13 and the long-time power spectrum ratio
Assuming that the power spectrum ratio of AR (ω) does not depend on the audio signal but is determined only by the positional relationship between the speaker 3 and the microphones 1 and 2, R (ω) = AR ( ω) (9) holds. Further, assuming that the signals input to the microphones 1 and 2 in the expression (3) are mainly voice signals by the speaker 3, and that the ambient noise signal is negligibly small, R (ω) becomes R (ω) = S 1 (ω) / S 2 (ω) (10) Therefore, equations (8), (9), (1
By substituting the relationship of equation (0) into equations (6) and (7), and defining X (ω) such that X (ω) = S 2 (ω) / N 2 (ω) (11), Equations (6) and (7) can be rewritten as follows.

Pn1(ω)=S1(ω)+N1(ω) =AR(ω)S2(ω)+N2(ω) ={AR(ω)X(ω)+1}N2(ω) (12) Pn2(ω)=S2(ω)+N2(ω) ={X(ω)+1}N2(ω) (13) 従って、Q(ω)は、 となる。(14)式を変形すると、 となり、また、(13)式から、 N2(ω)=G(ω)Pn2(ω) (16) ただし、 が得られる。よって、(15)式,(16)式および(17)
式によりマイクロホン2の入力信号のパワースペクトル
Pn2(ω)から、比率記憶部14に記憶したAR(ω)およ
び現に入力されたマイクロホン1,2の出力のパワースペ
クトルの比率Q(ω)を使用して、その時、入力された
雑音信号パワースペクトルN2(ω)が推定されたことに
なる。ただし、マイクロホン1および2の位置関係から
以下の不等式が成立することが必要である。
Pn 1 (ω) = S 1 (ω) + N 1 (ω) = AR (ω) S 2 (ω) + N 2 (ω) = {AR (ω) X (ω) +1} N 2 (ω) (12 Pn 2 (ω) = S 2 (ω) + N 2 (ω) = {X (ω) +1} N 2 (ω) (13) Therefore, Q (ω) is Becomes By transforming equation (14), From equation (13), N 2 (ω) = G (ω) Pn 2 (ω) (16) Is obtained. Therefore, equations (15), (16) and (17)
The power spectrum of the input signal of the microphone 2 by the formula
From the Pn 2 (ω), using the AR (ω) stored in the ratio storage unit 14 and the currently input power spectrum ratio Q (ω) of the outputs of the microphones 1 and 2, the noise signal input at that time is used. This means that the power spectrum N 2 (ω) has been estimated. However, the following inequality needs to be satisfied from the positional relationship between the microphones 1 and 2.

AR(ω)≧Q(ω)≧1 (18) 理想的には、全てのωについて(18)式は成立する。
ところが、実際には雑音成分のゆらぎにより、ωによっ
ては(18)式が成立しない場合がある。よって、これら
の方程式をもとに、雑音推定演算部15では、(18)式が
成立しない場合の近似推定を含めて、以下のようなアル
ゴリズムで(15)式および(17)式の推定を行う。ま
ず、高速フーリエ変換の計算ポイントω毎に(18)式が
成立するかどうかを確認する。次に、(18)式が成立す
るものについて、(15)式の分母である、 M(ω)=AR(ω)−Q(ω) (19) を計算し、M(ω)=0となるωについては、G(ω)
=0を代入し、M(ω)>0となるωについては(15)
式および(17)式を計算してG(ω)を得る。また、雑
音パワースペクトルのゆらぎによって(18)式が成立し
ないωについては、同一フレームのパワースペクトル上
で、(18)式が成立するωについてQ(ω)の値を累計
し、その平均値Qaveを求める。ここで、 Mave(ω)=AR(ω)−Qave (20) を求め、Mave(ω)>0となるωについては、 を求め、近似的なX(ω)を算出し、(17)式に代入し
てG(ω)を得る。また、Mave(ω)≦0となるωにつ
いてはG(ω)=0とする。このようにして高速フーリ
エ変換の計算ポイントω毎にG(ω)を算出し、最後
に、事前に設定したしきい値Gthに対しG(ω)>Gthと
なるG(ω)について、G(ω)=Gthとして、雑音パ
ワースペクトルのゆらぎによりG(ω)が巨大な値をと
る場合を制限して、雑音推定演算部15でのG(ω)の計
算を完了する。
AR (ω) ≧ Q (ω) ≧ 1 (18) Ideally, equation (18) holds for all ω.
However, due to the fluctuation of noise components, Expression (18) may not be satisfied depending on ω. Therefore, based on these equations, the noise estimation calculation unit 15 estimates the equations (15) and (17) by the following algorithm, including the approximate estimation when the equation (18) does not hold. Do. First, it is confirmed whether the equation (18) holds for each calculation point ω of the fast Fourier transform. Next, for the case where the expression (18) is satisfied, M (ω) = AR (ω) −Q (ω) (19) which is the denominator of the expression (15) is calculated, and M (ω) = 0 For ω, G (ω)
= 0 when M (ω)> 0 is substituted (15)
The equation (17) is calculated to obtain G (ω). For ω for which Expression (18) does not hold due to fluctuations in the noise power spectrum, the values of Q (ω) are accumulated for ω for which Expression (18) holds on the power spectrum of the same frame, and the average value Q Ask for ave . Here, M ave (ω) = AR (ω) −Q ave (20) is obtained, and for ω satisfying M ave (ω)> 0, Is calculated, and an approximate X (ω) is calculated and substituted into the equation (17) to obtain G (ω). G (ω) = 0 for ω satisfying M ave (ω) ≦ 0. In this way, G (ω) is calculated for each calculation point ω of the fast Fourier transform, and finally, G (ω) satisfying G (ω)> Gth with respect to a preset threshold Gth is G (ω). Assuming that ω) = Gth, the case where G (ω) takes a large value due to the fluctuation of the noise power spectrum is limited, and the calculation of G (ω) in the noise estimation calculation unit 15 is completed.

このG(ω)は雑音推定演算15から乗算部16へ送られ
る。乗算部16では、G(ω)をもとに(16)式の計算が
行われ、推定雑音パワースペクトルN2(ω)が算出され
る。この算出結果は減算部17へ送られ、スペクトル演算
部9で計算したパワースペクトルPn1(ω)より推定雑
音パワースペクトルN2(ω)が減算され、つまり、 Ps1(ω)=Pn1(ω)−N2(ω) (22) なる演算が行われ、雑音除去された信号パワースペクト
ルPs1(ω)を得る。このPs1(ω)は、時間波形変換部
11へ送られ、先にスペクトル演算部9より伝送された位
相情報を利用して逆フーリエ変換されて、雑音除去後の
ディジタルの時間波形信号として出力端子18より得る。
This G (ω) is sent from the noise estimation operation 15 to the multiplier 16. In the multiplication unit 16, the calculation of the expression (16) is performed based on G (ω), and the estimated noise power spectrum N 2 (ω) is calculated. This calculation result is sent to the subtraction unit 17, where the estimated noise power spectrum N 2 (ω) is subtracted from the power spectrum Pn 1 (ω) calculated by the spectrum calculation unit 9, that is, Ps 1 (ω) = Pn 1 ( ω) −N 2 (ω) (22) is performed to obtain a noise-free signal power spectrum Ps 1 (ω). This Ps 1 (ω) is the time waveform converter
The signal is sent to 11 and subjected to inverse Fourier transform using the phase information previously transmitted from the spectrum calculator 9, and is obtained from the output terminal 18 as a digital time waveform signal after noise removal.

音声認識装置などで、特に元の時間波形信号に戻す必
要がない場合は、雑音除去後の音声パワースペクトルPs
1(ω)を得るようにしてもよい。
If it is not necessary to return the original time waveform signal to a speech recognition device, the speech power spectrum Ps after noise removal is used.
1 (ω) may be obtained.

以降、音声区間についてはこれらの雑音除去操作が行
われ、出力端子18より雑音除去後の音声波形を得る。
Thereafter, these noise removal operations are performed for the voice section, and a voice waveform after noise removal is obtained from the output terminal 18.

「発明の効果」 以上述べたように、この発明では、2組の入力器に
よって雑音の混在する音声を入力することにより、音声
に重畳する雑音パワースペクトルと同一の時間変化をす
る雑音パワースペクトルを推定することが容易となる、
1組の入力器のみ使用した従来の雑音除去方式よりも
雑音の時間変動に対して追従性が良くなり、音声パワー
スペクトルの成分を誤って除去するなどの不適切な雑音
除去を防ぐことができる、効果を有する。
[Effects of the Invention] As described above, according to the present invention, by inputting speech mixed with noise by two sets of input devices, a noise power spectrum which changes in time with the noise power spectrum superimposed on the speech can be obtained. Easy to estimate,
Compared to the conventional noise elimination method using only one set of input devices, the responsiveness to the time variation of noise is improved, and inappropriate noise elimination such as erroneous elimination of components of the audio power spectrum can be prevented. Has an effect.

【図面の簡単な説明】[Brief description of the drawings]

第1図はこの発明の実施例を示すブロック図である。 FIG. 1 is a block diagram showing an embodiment of the present invention.

───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭63−262695(JP,A) 特開 昭58−142400(JP,A) 特開 昭55−7749(JP,A) 特許2615551(JP,B2) 特公 平5−35930(JP,B2) 特公 平6−85500(JP,B2) 特公 平7−109559(JP,B2) 電子情報通信学会技術研究報告 Vo l.89,No.340,SP89−81,p41 −48 (58)調査した分野(Int.Cl.6,DB名) G10L 3/02 301 H04B 1/10 JICST科学技術文献ファイル──────────────────────────────────────────────────続 き Continuation of the front page (56) References JP-A-63-262695 (JP, A) JP-A-58-142400 (JP, A) JP-A-55-7749 (JP, A) Patent 2615551 (JP, A B2) JP 5-35930 (JP, B2) JP 6-85500 (JP, B2) JP 7-109559 (JP, B2) IEICE Technical Report Vol. 89, No. 340, SP89-81, p41 -48 (58) Fields investigated (Int. Cl. 6 , DB name) G10L 3/02 301 H04B 1/10 JICST scientific and technical literature file

Claims (1)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】同一発声者からの音声信号をその発声者に
近接した2か所の位置から同時に受信できる第1および
第2の信号入力器と、 これら第1,第2の信号入力器からの出力をそれぞれパワ
ースペクトルに変換する第1,第2のスペクトル演算手段
と、 上記第2の信号入力器の出力パワースペクトルに対する
上記第1の信号入力器の出力パワースペクトルの比率を
求める比率演算手段と、 周囲雑音が存在しない状態での収容時の上記比率を記憶
する比率記憶手段と、 上記記憶した比率と、現在計算される上記比率と、上記
第2の信号入力器の出力パワースペクトルとからその出
力パワースペクトルに重畳されている雑音パワースペク
トルを推定する雑音推定演算手段と、 この推定雑音パワースペクトルを上記第1の信号入力器
の出力パワースペクトルより除去する減算手段と、 を具備する雑音除去装置。
A first and a second signal input device capable of simultaneously receiving a voice signal from the same speaker from two positions close to the same speaker, and from the first and second signal input devices. First and second spectrum calculating means for respectively converting the output of the first signal input device into a power spectrum; and ratio calculating means for obtaining a ratio of the output power spectrum of the first signal input device to the output power spectrum of the second signal input device. And ratio storage means for storing the ratio at the time of accommodation in a state where no ambient noise is present; from the stored ratio, the ratio currently calculated, and the output power spectrum of the second signal input device. A noise estimating means for estimating a noise power spectrum superimposed on the output power spectrum; and an output power spectrum of the first signal input device for calculating the estimated noise power spectrum. Denoising anda subtraction means for removing from the spectrum.
JP2313388A 1990-11-19 1990-11-19 Noise removal device Expired - Fee Related JP2962572B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2313388A JP2962572B2 (en) 1990-11-19 1990-11-19 Noise removal device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2313388A JP2962572B2 (en) 1990-11-19 1990-11-19 Noise removal device

Publications (2)

Publication Number Publication Date
JPH04184400A JPH04184400A (en) 1992-07-01
JP2962572B2 true JP2962572B2 (en) 1999-10-12

Family

ID=18040669

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2313388A Expired - Fee Related JP2962572B2 (en) 1990-11-19 1990-11-19 Noise removal device

Country Status (1)

Country Link
JP (1) JP2962572B2 (en)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3566197B2 (en) * 2000-08-31 2004-09-15 松下電器産業株式会社 Noise suppression device and noise suppression method
AU2003242921A1 (en) * 2002-07-01 2004-01-19 Koninklijke Philips Electronics N.V. Stationary spectral power dependent audio enhancement system
US9185487B2 (en) 2006-01-30 2015-11-10 Audience, Inc. System and method for providing noise suppression utilizing null processing noise subtraction
WO2007103037A2 (en) 2006-03-01 2007-09-13 Softmax, Inc. System and method for generating a separated signal
US8321214B2 (en) * 2008-06-02 2012-11-27 Qualcomm Incorporated Systems, methods, and apparatus for multichannel signal amplitude balancing
JPWO2009150894A1 (en) * 2008-06-10 2011-11-10 日本電気株式会社 Speech recognition system, speech recognition method, and speech recognition program
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
KR101768264B1 (en) 2010-12-29 2017-08-14 텔레폰악티에볼라겟엘엠에릭슨(펍) A noise suppressing method and a noise suppressor for applying the noise suppressing method
JP6191747B2 (en) * 2016-08-16 2017-09-06 富士ゼロックス株式会社 Speech analysis apparatus and speech analysis system

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2615551B2 (en) 1985-10-07 1997-05-28 日本電気株式会社 Adaptive noise canceller

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2615551B2 (en) 1985-10-07 1997-05-28 日本電気株式会社 Adaptive noise canceller

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
電子情報通信学会技術研究報告 Vol.89,No.340,SP89−81,p41−48

Also Published As

Publication number Publication date
JPH04184400A (en) 1992-07-01

Similar Documents

Publication Publication Date Title
JP4916394B2 (en) Echo suppression device, echo suppression method, and computer program
US6377637B1 (en) Sub-band exponential smoothing noise canceling system
US6591234B1 (en) Method and apparatus for adaptively suppressing noise
US8233636B2 (en) Method, apparatus, and computer program for suppressing noise
JP3454206B2 (en) Noise suppression device and noise suppression method
US7035398B2 (en) Echo cancellation processing system
US9113241B2 (en) Noise removing apparatus and noise removing method
US8391471B2 (en) Echo suppressing apparatus, echo suppressing system, echo suppressing method and recording medium
EP0660300B1 (en) Speech recognition apparatus
US7155385B2 (en) Automatic gain control for adjusting gain during non-speech portions
WO2006123721A1 (en) Noise suppression method and device thereof
WO2007049644A1 (en) Echo suppressing method and device
JP2003534570A (en) How to suppress noise in adaptive beamformers
WO2006011104A1 (en) Audio signal dereverberation
RU2180984C2 (en) Convergence measurement technique for adaptive filters
JP2962572B2 (en) Noise removal device
WO2001024167A1 (en) Noise suppressor
US8259961B2 (en) Audio processing apparatus and program
US6965860B1 (en) Speech processing apparatus and method measuring signal to noise ratio and scaling speech and noise
JP2836271B2 (en) Noise removal device
JP3110201B2 (en) Noise removal device
JP2003250193A (en) Echo elimination method, device for executing the method, program and recording medium therefor
JP2002023790A (en) Speech feature amount extracting device
JP2007067549A (en) Sound collector, sound collecting method and program and its recording medium
CN114596874A (en) Wind noise suppression method and device based on multiple microphones

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070806

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080806

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees