JP2005107448A - Noise reduction processing method, and device, program, and recording medium for implementing same method - Google Patents
Noise reduction processing method, and device, program, and recording medium for implementing same method Download PDFInfo
- Publication number
- JP2005107448A JP2005107448A JP2003344406A JP2003344406A JP2005107448A JP 2005107448 A JP2005107448 A JP 2005107448A JP 2003344406 A JP2003344406 A JP 2003344406A JP 2003344406 A JP2003344406 A JP 2003344406A JP 2005107448 A JP2005107448 A JP 2005107448A
- Authority
- JP
- Japan
- Prior art keywords
- noise
- signal
- mixed
- power spectrum
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
この発明は、雑音低減処理方法、この方法を実施する装置、プログラム、記録媒体に関し、特に、音声通信装置の如き拡声通話装置において、目的となる音声信号と不要な雑音信号が混在する音声雑音混在信号から雑音信号を低減する雑音低減処理方法、この方法を実施する装置、プログラム、記録媒体に関する。 The present invention relates to a noise reduction processing method, an apparatus, a program, and a recording medium for performing the method, and in particular, a voice noise mixture in which a target voice signal and an unnecessary noise signal are mixed in a voice communication apparatus such as a voice communication apparatus. The present invention relates to a noise reduction processing method for reducing a noise signal from a signal, an apparatus for implementing the method, a program, and a recording medium.
図3は、送話者側を近端側とし、受話者側を遠端側とした場合の拡声通話系の模式図を示したものである。図3において、31は近端側マイクロホン、32は近端側スピーカ、33は遠端側マイクロホン、34は遠端側スピーカ、35は伝送路、36は送話者、37は受話者をそれぞれ表す。送話者36の発声した送話音声は、近端側マイクロホン31、伝送路35、遠端側スピーカ34を経て受話者37に伝わる。この拡声通話系は、通信会議やテレビ電話、拡声電話機などに広く利用が進められている。
一方、近端側マイクロホン31で受音するに際して、目的となる音声信号以外の周囲雑音が混入すると、遠端側スビーカ34から発せられる送話者音声の明瞭性が損なわれて音声品質が著しく劣化する。このために、近端側マイクロホン31と遠端側スピーカ34の間に雑音低減装置を用いて、送話信号に含まれる目的音声以外の周囲雑音を低減することが求められている。
FIG. 3 shows a schematic diagram of a loudspeaker communication system when the transmitter side is the near end side and the receiver side is the far end side. In FIG. 3, 31 is a near-end microphone, 32 is a near-end speaker, 33 is a far-end microphone, 34 is a far-end speaker, 35 is a transmission line, 36 is a transmitter, and 37 is a receiver. . The transmitted voice uttered by the
On the other hand, when ambient noise other than the target audio signal is mixed when receiving the sound by the near-end microphone 31, the clarity of the talker voice emitted from the far-end side speaker 34 is impaired, and the voice quality is significantly deteriorated. To do. For this reason, it is required to reduce ambient noise other than the target voice included in the transmitted signal by using a noise reduction device between the near-end microphone 31 and the far-end speaker 34.
従来の雑音低減処理方法としては、例えば、特許文献1に示されている方法がある。この技術の詳細は同公報に示されているので、ここにおいては図5を参照して簡単に説明するにとどめる。図示されないマイクロホンには、当該マイクロホンから離れた位置に居る話者の発声により得られる目的となる発声信号S(k)と空調雑音その他の外来音に起因して発生する不要な雑音信号N(k)とが入力信号X(k)=S(k)+N(k)として収音される。ここで、kは信号の時間表現を離散時間として表わす整数値である。入力信号X(k)は、第1の周波数領域変換部51に入力され、例えば、短時間毎の離散フーリエ変換により周波数領域信号X(ω)に変換される。ωは周波数を表わす。入力信号パワースペクトル計算部52は周波数領域信号X(ω)を入力してそのパワースペクトルPavx(ω)を計算する。雑音パワースペクトル推定部53は周波数領域信号X(ω)を入力してその内の雑音パワースペクトルPavN(ω)を推定する。損失計算部54はPavx(ω)、PavN(ω)を入力して損失値L(ω)を計算し、この結果を損失挿入部55に転送する。損失挿入部55は、損失計算部54において計算された損失値L(ω)を用いてY(ω)=L(ω)×X(ω)の計算により、雑音を低減した出力Y(ω)を出力する。時間領域変換部56はY(ω)を入力してこれを時間領域の信号に変換し、雑音を低減した時間領域の信号Y(k)を出力する。
周囲雑音が混入した入力信号の雑音を低減させる従来技術として、雑音のパワースペクトルを推定し、入力信号に雑音パワースペクトルに見合う損失値を挿入し、雑音を低減する方法がある。この方法では、雑音パワースペクトルを正確に推定し雑音低減量を大きくすると、改善SN比は高くなるが、雑音の推定誤差は必ず存在するために引き残された雑音、引き過ぎた音声信号が生じ音声信号が歪む。これらは時間的に変化するために聴感上好ましくない音を発生する問題がある。一方、処理による音声信号の歪みを抑えるために、推定雑音パワースペクトルを小さく見積もり雑音低減量を小さくすると、改善SN比が低くなり、混入した雑音を充分に低減させられないという問題がある。 As a conventional technique for reducing the noise of an input signal mixed with ambient noise, there is a method of estimating the noise power spectrum and inserting a loss value corresponding to the noise power spectrum into the input signal to reduce the noise. In this method, if the noise power spectrum is accurately estimated and the noise reduction amount is increased, the improved S / N ratio is increased, but noise estimation errors always exist, so that residual noise and excessive audio signals are generated. The audio signal is distorted. Since these change with time, there is a problem of generating unfavorable sound for hearing. On the other hand, if the estimated noise power spectrum is made small and the estimated noise reduction amount is made small in order to suppress the distortion of the audio signal due to processing, there is a problem that the improved SN ratio becomes low and the mixed noise cannot be reduced sufficiently.
この発明は、拡声通話装置において遠端側のスピーカから発せられる近端側の混入雑音を、遠端側の周囲雑音がマスカーとなりマスキングすることに着目し、近端側の雑音量が求めたマスキング閾値以上であれば、雑音量とマスキング閾値の差を補正雑音量とし、雑音量が求めたマスキング閾値以下であれば、補正雑音量を零とする補正雑音パワースペクトル計算部を設けることにより、音声信号の歪みを抑え、かつ聴感上の雑音低減を保持することによって聴感上音声品質劣化を抑える雑音低減処理方法、この方法を実施する装置、プログラム、記録媒体を提供するものである。 The present invention focuses on masking near-end side noise generated from a far-end speaker in a loudspeaker apparatus by using the near-end ambient noise as a masker and masking the amount of near-end noise. If the noise amount is equal to or greater than the threshold value, the difference between the noise amount and the masking threshold value is used as a corrected noise amount. The present invention provides a noise reduction processing method that suppresses signal quality degradation by suppressing signal distortion and maintaining auditory noise reduction, and an apparatus, a program, and a recording medium that implement this method.
請求項1:目的となる音声信号と不要な雑音信号の混在する音声雑音混在信号を入力し、雑音信号を低減した雑音低減済み信号を出力する雑音低減処理方法において、雑音低減済み信号が再生される環境における周囲雑音により形成されるマスキング閾値を推定し、推定されたマスキング閾値を超える混入雑音量だけを低減する雑音低減処理方法を構成した。 [Claim 1] In a noise reduction processing method of inputting a voice noise mixed signal in which a target voice signal and an unnecessary noise signal are mixed and outputting a noise reduced signal in which the noise signal is reduced, the noise reduced signal is reproduced. A noise reduction processing method for estimating a masking threshold value formed by ambient noise in a certain environment and reducing only an amount of mixed noise exceeding the estimated masking threshold value is constructed.
そして、請求項2:請求項1に記載される雑音低減処理方法において、入力される音声雑音混在信号を周波数領域の信号に変換し、周波数領域の信号に変換された音声雑音混在信号に対して音声雑音混在信号の信号パワースペクトルを計算し、周波数領域の信号に変換された音声雑音混在信号を用いて音声雑音混在信号の雑音パワースペクトルを計算し、一方、雑音低減済み信号が再生される環境において収音された再生環境収音信号を周波数領域の信号に変換し、周波数領域の信号に変換された再生環境収音信号を用いて再生環境収音信号の雑音パワースペクトルを計算し、再生環境収音信号の雑音パワースペクトルから周波数領域のマスキング閾値を計算し、マスキング閾値と音声雑音混在信号の雑音パワースペクトルとを比較し、マスキング閾値を超える音声雑音混在信号の補正雑音パワースペクトルを計算し、音声雑音混在信号の入力信号パワースペクトルと音声雑音混在信号の補正雑音パワースペクトルを用いて、補正音声雑音混在信号雑音の比率を予測し、これに基づいて損失値を計算し、周波数領域の信号に変換された音声雑音混在信号に対して損失値を挿入し、雑音を低減した信号を出力し、雑音を低減した信号を時間領域の音声信号に変換する雑音低減処理方法を構成した。
ここで、請求項3:目的となる音声信号と不要な雑音信号の混在する音声雑音混在信号を入力し、雑音信号を低減した雑音低減済み信号を出力する雑音低減処理装置において、雑音低減済み信号が再生される環境における周囲雑音が形成するマスキング閾値を推定し、マスキング閾値を超える混入雑音量だけを低減する雑音低減処理装置を構成した。
And, in the noise reduction processing method according to claim 2, the input voice noise mixed signal is converted into a frequency domain signal, and the voice noise mixed signal converted into the frequency domain signal is converted. Calculate the signal power spectrum of the mixed audio and noise signal, calculate the noise power spectrum of the mixed audio and noise signal using the mixed audio and noise signal converted to the frequency domain signal, and reproduce the noise-reduced signal Is converted to a frequency domain signal, and the noise power spectrum of the playback environment collected signal is calculated using the playback environment acquired signal converted to the frequency domain signal. The masking threshold in the frequency domain is calculated from the noise power spectrum of the collected signal, and the masking threshold is compared with the noise power spectrum of the mixed audio and noise signal. Calculates the corrected noise power spectrum of the mixed audio noise signal exceeding the threshold, and predicts the ratio of the corrected mixed noise signal noise using the input signal power spectrum of the mixed audio noise signal and the corrected noise power spectrum of the mixed audio noise signal Based on this, the loss value is calculated, the loss value is inserted into the audio noise mixed signal converted to the frequency domain signal, the noise reduced signal is output, and the noise reduced signal is output in the time domain. The noise reduction processing method to convert to the voice signal is constructed.
Claim 3: In a noise reduction processing apparatus for inputting a voice noise mixed signal in which a target voice signal and an unnecessary noise signal are mixed, and outputting a noise reduced signal in which the noise signal is reduced, the noise reduced signal The noise reduction processing apparatus is configured to estimate the masking threshold value formed by the ambient noise in the environment where the noise is reproduced, and to reduce only the amount of mixed noise exceeding the masking threshold value.
そして、請求項4:請求項3に記載される雑音低減処理装置において、入力される音声雑音混在信号を周波数領域の信号に変換する第1の周波数領域変換部51と、周波数領域の信号に変換された音声雑音混在信号に対して音声雑音混在信号の信号パワースペクトルを計算する音声雑音混在信号の入力信号パワ−スペクトル計算部52と、周波数領域の信号に変換された音声雑音混在信号を用いて音声雑音混在信号の雑音パワースペクトルを推定する音声雑音混在信号の雑音パワースペクトル推定部11と、雑音低減済み信号が再生される環境において収音された再生環境収音信号を周波数領域の信号に変換する第2の周波数領域変換部12と、周波数領域の信号に変換された再生環境収音信号を用いて雑音パワースペクトルを推定する再生環境収音信号の雑音パワースペクトル推定部13と、再生環境収音信号雑音パワースペクトルから周波数領域のマスキング閾値を推定するマスキング閾値推定部14と、マスキング閾値と音声雑音混在信号の雑音パワースペクトルとを比較し、マスキング閾値を超える音声雑音混在信号雑音パワースペクトルを計算する音声雑音混在信号の補正雑音パワースペクトル計算部15と、音声雑音混在信号の入力信号パワースペクトルと音声雑音混在信号の補正雑音パワースペクトルを用いて、補正音声雑音混在信号雑音の比率を予測し、これに基づいて損失値を決定する損失計算部16と、周波数
領域の信号に変換された音声雑音混在信号に対して損失値を挿入し、雑音を低減した信号を出力する損失挿入部55と、雑音を低減した信号を時間領域の信号に変換する時間領域変換部56とを具備する雑音低減処理装置を構成した。
And, in the noise reduction processing apparatus according to claim 4, the first frequency
また、請求項5:入力される音声雑音混在信号を周波数領域の信号に変換し、周波数領域の信号に変換された音声雑音混在信号に対して音声雑音混在信号の信号パワースペクトルを計算し、周波数領域の信号に変換された音声雑音混在信号を用いて音声雑音混在信号の雑音パワースペクトルを計算し、雑音低減済み信号が再生される環境において収音された再生環境収音信号を周波数領域の信号に変換し、周波数領域の信号に変換された再生環境収音信号を用いて再生環境収音信号の雑音パワースペクトルを計算し、再生環境収音信号の雑音パワースペクトルから周波数領域のマスキング閾値を計算し、マスキング閾値と音声雑音混在信号の雑音パワースペクトルとを比較し、マスキング閾値を超える音声雑音混在信号の補正雑音パワースペクトルを計算し、音声雑音混在信号の入力信号パワースペクトルと音声雑音混在信号の補正雑音パワースペクトルを用いて、補正音声雑音混在信号雑音の比率を予測し、これに基づいて損失値を計算し、周波数領域の信号に変換された音声雑音混在信号に対して損失値を挿入し、雑音を低減した信号を出力し、雑音を低減した信号を時間領域の音声信号に変換する、指令をコンピュータに対してする雑音低減処理プログラムを構成した。
更に、請求項6:請求項5に記載される雑音低減処理プログラムが記録された記録媒体を構成した。
Further, the present invention converts an input voice noise mixed signal into a frequency domain signal, calculates a signal power spectrum of the voice noise mixed signal with respect to the voice noise mixed signal converted into the frequency domain signal, Calculates the noise power spectrum of the mixed audio and noise signal using the mixed audio and noise signal converted to the signal in the domain, and uses the frequency environment signal as the playback environment collected signal collected in the environment where the noise-reduced signal is reproduced. The noise power spectrum of the playback environment sound pickup signal is calculated using the playback environment sound pickup signal converted into the frequency domain signal, and the frequency domain masking threshold is calculated from the noise power spectrum of the playback environment sound pickup signal. The masking threshold is compared with the noise power spectrum of the voice noise mixed signal, and the corrected noise power spectrum of the voice noise mixed signal exceeding the masking threshold is compared. To calculate the loss value based on this, predict the ratio of the corrected voice noise mixed signal noise using the input noise power spectrum of the mixed voice noise signal and the corrected noise power spectrum of the mixed voice noise signal, Inserts a loss value into a voice / noise mixed signal converted to a frequency domain signal, outputs a noise-reduced signal, and converts the noise-reduced signal into a time-domain voice signal. Configured a noise reduction processing program.
Further, a recording medium on which the noise reduction processing program according to claim 6 is recorded is configured.
この発明は、上述した補正雑音量を用いることで、遠端側の周囲雑音がマスキングするマスキング閾値を超える近端側の混入雑音量だけを低減させることにより、雑音推定誤差により音声信号が歪み、聴感上音声品質劣化を招くという雑音低減処理における問題を解消した。マスキング閾値以下となる近端側の混入雑音に関しては低減しないので、改善SN比を高くすることはできないが、遠端側における近端側の混入雑音は検知限界以下で聞こえることはなく、聴感上充分に雑音を低減する効果がある。また、マスキング閾値以下となる近端側の混入雑音に関しては低減しないので、雑音低減量は小さくなり、雑音推定誤差の部分を低減しなくなるので、音声信号の歪みの発生を減少することができる。即ち、この発明によれば、聴感上雑音を低減させたままで雑音低減処理による音声品質の劣化を抑えることができる。 The present invention uses the above-described correction noise amount to reduce only the near-end side mixed noise amount exceeding the masking threshold for masking the far-end side ambient noise, thereby distorting the audio signal due to the noise estimation error, The problem of noise reduction processing that caused audio quality degradation on hearing was solved. The near-end mixed noise that is lower than the masking threshold is not reduced, so the improved SN ratio cannot be increased, but the near-end mixed noise at the far end is not audible below the detection limit. There is an effect of sufficiently reducing noise. Further, since the near-end side mixed noise that is equal to or less than the masking threshold is not reduced, the amount of noise reduction is reduced and the noise estimation error portion is not reduced, so that the occurrence of distortion of the audio signal can be reduced. That is, according to the present invention, it is possible to suppress deterioration in voice quality due to noise reduction processing while reducing noise in terms of hearing.
発明を実施するための最良の形態を図1の実施例を参照して説明する。
11は雑音パワースペクトル推定部、12は第2の周波数領域変換部、13は雑音パワースペクトル推定部、14はマスキング閾値推定部、15は補正雑音パワースペクトル計算部を表わす。残りは、図5と同じの共通の記号を用いた。
この発明による雑音低減装置10の動作について説明する。まず、近端側の目的信号と不要な周囲雑音等の混入する入力信号X(k)は、第1の周波数領域変換部51において、例えば短時間ごとの離散フーリエ変換により周波数領域信号X(ω)に変換される。ここで、周波数領域に変換された信号は一般に複素数であり、X(ω)=Xr(ω)+jXi(ω)(ここで、Xr、XiはそれぞれX(ω)の実数部と虚数部)とする。周波数領域信号X〈ω)は、入力信号パワースペクトル計算部52、雑音パワースペクトル推定部11、損失挿入部55に転送される。以下、X(ω)に対する処理の流れを説明する。
The best mode for carrying out the invention will be described with reference to the embodiment of FIG.
The operation of the
入力信号パワースペクトル計算部52では、転送されてきた周波数領域信号X(ω)のパワースペクトルPx(ω)=(Xr(ω))2+(Xi(ω))2が計算される。次に、パワースペクトルPx(ω)は予め定められた時間について平均され、Pavx(ω)として損失値計算部16に転送される。時間平均は、例えば、フレーム毎の処理において、現処理フレー
ムを(・)nとし、平均時間をmフレームとすると、
Pavx、n(ω)=(1/A)ΣmγmPx、n-m(ω)
と計算される。ここで、γmは例えば、γm=(γ)mと表わされるような指数重み付けの係数で、(γ<1)、Aは(1/A)Σmγm=1とする正規化のための定数である。
The input signal power
Pav x , n (ω) = (1 / A) Σ m γ m P x , nm (ω)
Is calculated. Here, γ m is an exponential weighting coefficient expressed as, for example, γ m = (γ) m , (γ <1), and A is a normalization of (1 / A) Σ m γ m = 1. Is a constant for
雑音パワースペクトル推定部11においては転送されてきた周波数領域信号X(ω)を用いて雑音パワースペクトルPavN (ω)の推定が行われ、補正雑音パワースペクトル計算部15に送られる。雑音パワースペクトル推定には、例えば、最小値を更新してその値を雑音パワースペクトルと推定する方法を用いる。この方法は、先ず、第1の周波数領域変換部51より転送されてきた周波数領域信号X(ω)のパワースペクトルPx (ω)を求める。次に、パワースペクトルPx(ω)を予め決められた時間について平均し、Pav’x(ω)とする。次に、求めた現処理フレームの平均パワースペクトルPav’x、n(ω)と1フレーム前のPav’x、n-1(ω)を比較し、Pav’x、n(ω)の方が小さければ雑音パワースペクトルPavN、n(ω)=Pav’x、n(ω)とし、大きければPavN、n(ω)=Pav’x、n-1(ω)としてPavN、n(ω)の時間的最小値を雑音パワースペクトルPavN、n(ω)と推定する。
The noise power
一方、遠端側マイクロホンにより受音された、遠端側の目的信号ど不要な周囲雑音等の混入する入力信号Xr(k)は、雑音処理装置の第2の周波数領域変換部12に転送される。第2の周波数領域変換部12においては、例えば、短時間毎の離散フーリエ変換により周波数領域信号Xr(ω)に変換される。Xr(ω)は雑音パワースペクトル推定部13に送られる。
雑音パワースペクトル推定部13においては転送されてきたXr(ω)を用いて雑音パワースペクトルPavrN(ω)の推定が行われる。雑音パワースペクトル推定には、例えば雑音パワースペクトル推定部11と同様の最小値を更新してその値を雑音パワースペクトルと推定する方法を用いる。求めた雑音パワースペクトルPavrN(ω)はマスキング閾値推定部14に送られる。
On the other hand, the input signal X r (k), which is received by the far-end microphone and mixed with unnecessary ambient noise or the like of the far-end target signal, is transferred to the second
The noise power
マスキング閾値推定部14は受話側の周囲雑音等がマスキングする量を求める。即ち、雑音パワースペクトル推定部13より転送された雑音パワースペクトルPavrN(ω)がマスカーとなり、マスキングする閾値Pt(ω)を求める。周囲雑音をエアコンの稼動音のような定常雑音と仮定すると、マスキング閾値の計算には、例えば、境久雄編著「聴覚と音響心理」p.111−113に説明されている白色雑音による純音のマスキング曲線を用いることができる。これにより、雑音パワースペクトルPavrN(ω)がマスカーとなり、マスキングする閾値Pt(ω)を求めることができる。求めたマスキング閾値Pt(ω)は補正雑音パワースペクトル計算部15に送られる。
The masking threshold value estimation unit 14 obtains the amount that the ambient noise on the receiving side masks. That is, the noise power spectrum Pavr N (ω) transferred from the noise power
補正雑音パワースペクトル計算部15においては、マスキング閾値Pt(ω)を用いて、低減すべき補正雑音パワースペクトルP’avN(ω)を求める。処理の流れ図を図2に示す。先ず、マスキング閾値推定部14より転送されてきたマスキング閾値Pt(ω)と雑音パワースペクトル推定部11より転送されてきた雑音パワースペクトルPavN(ω)とを比較する。雑音パワースペクトルPavN(ω)が大きいときは、補正雑音パワースペクトルをP’avN(ω)=αPavN(ω)−Pt(ω)とする。ここで、αは推定した雑音パウースペクトルの分散(推定誤差)を補正するための係数である。
雑音パワースペクトルPavN(ω)が小さいときは、混入した雑音はマスキングされると考えられるので、補正雑音パワースペクトルをP’avN(ω)=0とする。補正雑音パワースペクトルP’avN(ω)は損失計算部16に送られる。
The corrected noise power
When the noise power spectrum Pav N (ω) is small, the mixed noise is considered to be masked, so the corrected noise power spectrum is set to P′av N (ω) = 0. The corrected noise power spectrum P′av N (ω) is sent to the
損失計算部16においては、補主雑音パワースペクトル計算部15より送られてきた補正雑音パワースペクトルP’avN(ω)と入力信号パワースペクトル計算部より送られ
てきた入力信号のパワースペクトルPavN(ω)とより、雑音を低減するための損失値L(ω)を求める。損失値L(ω)は、例えば、簡易なスペクトラルサブトラクション法により、Lk(ω)=√((PavN(ω))2−(P’avN、(ω))2)/(PavN(ω))2で求められる。損失値Lk(ω)は損失挿入部55に送られる。
損失痛入部で55は、損失計算部16より転送されてきた損失値Lk(ω)を周波数領域信号X(ω)に乗じて、雑音を低減した信号Y(ω)を出力する。次いで、時間領域変換部56は、この雑音を低減した信号Y(ω)を入力して時間領域の信号に変換して出力する。
In the
The
図4はこの発明の雑音低減装置を拡声通話装置に適用したところを示す図である。この発明は、近端側で混入した雑音を遠端側でのマスキング効果を考え、遠端側で低減している。これは近端側と遠端側を入れ替えても成り立つので、近端側にもこの発明による雑音低減装置を用いることで、両側の雑音を低減することができる。
この発明にかかる雑音低減装置の各ブロックの処理を、DSP(Digital Signal Processor)により行うことができる。また、コンピュータによりプログラムを実行させることにより実行することができる。この場合は、そのプログラムはCD−ROM、フレキシブルディスク、磁気ディスクその他の記録媒体に記録されたものをコンピュータ内のプログラム用メモリに取り込んで行うことになる。このプログラム用メモリには、通信によりプログラムをダウンロードさせてもよい。
FIG. 4 is a diagram showing the application of the noise reduction apparatus of the present invention to a loudspeaker. In the present invention, noise mixed on the near end side is reduced on the far end side in consideration of the masking effect on the far end side. Since this is true even if the near end side and the far end side are interchanged, the noise on both sides can be reduced by using the noise reduction device according to the present invention also on the near end side.
The processing of each block of the noise reduction device according to the present invention can be performed by a DSP (Digital Signal Processor). The program can be executed by causing the computer to execute the program. In this case, the program is recorded by being recorded on a CD-ROM, flexible disk, magnetic disk or other recording medium into a program memory in the computer. The program memory may be downloaded by communication.
10 雑音低減装置 11 雑音パワースペクトル推定部
12 周波数領域変換部 13 雑音パワースペクトル推定部
14 マスキング閾値推定部 15 補正雑音パワースペクトル計算部
16 損失計算部 31 近端側マイクロホン
32 近端側スピーカ 33 遠端側マイクロホン
34 遠端側スピーカ 35 伝送路
36 送話者 37 受話者
50 雑音低減装置 51 周波数領域変換部
52 入力信号パワースペクトル計算部 53 雑音パワースペクトル計算部
54 損失計算部 55 損失挿入部
56 時間領域変換部
DESCRIPTION OF
Claims (6)
雑音低減済み信号が再生される環境における周囲雑音により形成されるマスキング閾値を推定し、推定されたマスキング閾値を超える混入雑音量だけを低減することを特徴とする雑音低減処理方法。 In the noise reduction processing method of inputting the voice noise mixed signal in which the target voice signal and unnecessary noise signal are mixed, and outputting the noise reduced signal with reduced noise signal,
A noise reduction processing method characterized by estimating a masking threshold value formed by ambient noise in an environment where a noise-reduced signal is reproduced, and reducing only an amount of mixed noise exceeding the estimated masking threshold value.
入力される音声雑音混在信号を周波数領域の信号に変換し、
周波数領域の信号に変換された音声雑音混在信号に対して音声雑音混在信号の信号パワースペクトルを計算し、
周波数領域の信号に変換された音声雑音混在信号を用いて音声雑音混在信号の雑音パワースペクトルを計算し、
一方、雑音低減済み信号が再生される環境において収音された再生環境収音信号を周波数領域の信号に変換し、
周波数領域の信号に変換された再生環境収音信号を用いて再生環境収音信号の雑音パワースペクトルを計算し、
再生環境収音信号の雑音パワースペクトルから周波数領域のマスキング閾値を計算し、
マスキング閾値と音声雑音混在信号の雑音パワースペクトルとを比較し、マスキング閾値を超える音声雑音混在信号の補正雑音パワースペクトルを計算し、
音声雑音混在信号の入力信号パワースペクトルと音声雑音混在信号の補正雑音パワースペクトルを用いて、補正音声雑音混在信号雑音の比率を予測し、これに基づいて損失値を計算し、
周波数領域の信号に変換された音声雑音混在信号に対して損失値を挿入し、雑音を低減した信号を出力し、
雑音を低減した信号を時間領域の音声信号に変換することを特徴とする雑音低減処理方法。 The noise reduction processing method according to claim 1,
Converts input audio noise mixed signal to frequency domain signal,
Calculate the signal power spectrum of the mixed audio and noise signal for the mixed audio and noise signal converted to the frequency domain signal,
Calculate the noise power spectrum of the mixed audio and noise signal using the mixed audio and noise signal converted to the frequency domain signal,
On the other hand, the reproduction environment sound collection signal collected in the environment where the noise-reduced signal is reproduced is converted into a frequency domain signal,
Calculate the noise power spectrum of the reproduction environment sound signal using the reproduction environment sound signal converted into the frequency domain signal,
Calculate the masking threshold in the frequency domain from the noise power spectrum of the reproduction environment sound signal,
Comparing the masking threshold and the noise power spectrum of the voice noise mixed signal, calculating the corrected noise power spectrum of the voice noise mixed signal exceeding the masking threshold,
Using the input signal power spectrum of the voice noise mixed signal and the corrected noise power spectrum of the voice noise mixed signal, the ratio of the corrected voice noise mixed signal noise is predicted, and based on this, the loss value is calculated.
Insert a loss value into the audio / noise mixed signal converted to the frequency domain signal, and output a signal with reduced noise,
A noise reduction processing method characterized by converting a noise-reduced signal into a time-domain audio signal.
雑音低減済み信号が再生される環境における周囲雑音が形成するマスキング閾値を推定し、マスキング閾値を超える混入雑音量だけを低減することを特徴とする雑音低減処理装置。 In the noise reduction processing device that inputs the voice noise mixed signal in which the target voice signal and unnecessary noise signal are mixed, and outputs the noise reduced signal with reduced noise signal,
A noise reduction processing apparatus characterized by estimating a masking threshold value formed by ambient noise in an environment where a noise-reduced signal is reproduced, and reducing only an amount of mixed noise exceeding the masking threshold value.
入力される音声雑音混在信号を周波数領域の信号に変換する第1の周波数領域変換部と、
周波数領域の信号に変換された音声雑音混在信号に対して音声雑音混在信号の信号パワースペクトルを計算する音声雑音混在信号の入力信号パワ−スペクトル計算部と、
周波数領域の信号に変換された音声雑音混在信号を用いて音声雑音混在信号の雑音パワースペクトルを推定する音声雑音混在信号の雑音パワースペクトル推定部と、
雑音低減済み信号が再生される環境において収音された再生環境収音信号を周波数領域の信号に変換する第2の周波数領域変換部と、
周波数領域の信号に変換された再生環境収音信号を用いて雑音パワースペクトルを推定する再生環境収音信号の雑音パワースペクトル推定部と、
再生環境収音信号雑音パワースペクトルから周波数領域のマスキング閾値を推定するマスキング閾値推定部と、
マスキング閾値と音声雑音混在信号の雑音パワースペクトルとを比較し、マスキング閾値を超える音声雑音混在信号雑音パワースペクトルを計算する音声雑音混在信号の補正雑音パワースペクトル計算部と、
音声雑音混在信号の入力信号パワースペクトルと音声雑音混在信号の補正雑音パワースペクトルを用いて、補正音声雑音混在信号雑音の比率を予測し、これに基づいて損失値を決定する損失計算部と、
周波数領域の信号に変換された音声雑音混在信号に対して損失値を挿入し、雑音を低減した信号を出力する損失挿入部と、
雑音を低減した信号を時間領域の信号に変換する時間領域変換部とを具備することを特徴とする雑音低減処理装置。 In the noise reduction processing apparatus according to claim 3,
A first frequency domain converter that converts an input audio noise mixed signal into a frequency domain signal;
A voice noise mixed signal input signal power spectrum calculation unit for calculating a signal power spectrum of the voice noise mixed signal with respect to the voice noise mixed signal converted into the frequency domain signal;
A noise power spectrum estimator for a voice noise mixed signal that estimates a noise power spectrum of the voice noise mixed signal using the voice noise mixed signal converted into a frequency domain signal;
A second frequency domain conversion unit that converts a reproduction environment sound collection signal collected in an environment where a noise-reduced signal is reproduced, into a frequency domain signal;
A noise power spectrum estimator for a reproduction environment sound collection signal for estimating a noise power spectrum using the reproduction environment sound collection signal converted into a frequency domain signal;
A masking threshold estimator for estimating a masking threshold in the frequency domain from the reproduction environment sound pickup signal noise power spectrum;
Comparing the masking threshold and the noise power spectrum of the voice noise mixed signal and calculating the voice noise mixed signal noise power spectrum exceeding the masking threshold;
A loss calculation unit that predicts the ratio of the corrected voice noise mixed signal noise using the input signal power spectrum of the voice noise mixed signal and the corrected noise power spectrum of the voice noise mixed signal, and determines a loss value based on this,
A loss insertion unit that inserts a loss value into a voice noise mixed signal converted into a frequency domain signal and outputs a signal with reduced noise;
A noise reduction processing apparatus comprising: a time domain conversion unit that converts a noise-reduced signal into a time domain signal.
周波数領域の信号に変換された音声雑音混在信号に対して音声雑音混在信号の信号パワースペクトルを計算し、
周波数領域の信号に変換された音声雑音混在信号を用いて音声雑音混在信号の雑音パワースペクトルを計算し、
一方、雑音低減済み信号が再生される環境において収音された再生環境収音信号を周波数領域の信号に変換し、
周波数領域の信号に変換された再生環境収音信号を用いて再生環境収音信号の雑音パワースペクトルを計算し、
再生環境収音信号の雑音パワースペクトルから周波数領域のマスキング閾値を計算し、
マスキング閾値と音声雑音混在信号の雑音パワースペクトルとを比較し、マスキング閾値を超える音声雑音混在信号の補正雑音パワースペクトルを計算し、
音声雑音混在信号の入力信号パワースペクトルと音声雑音混在信号の補正雑音パワースペクトルを用いて、補正音声雑音混在信号雑音の比率を予測し、これに基づいて損失値を計算し、
周波数領域の信号に変換された音声雑音混在信号に対して損失値を挿入し、雑音を低減した信号を出力し、
雑音を低減した信号を時間領域の音声信号に変換する、
指令をコンピュータに対してする雑音低減処理プログラム。 Converts input audio noise mixed signal to frequency domain signal,
Calculate the signal power spectrum of the mixed audio and noise signal for the mixed audio and noise signal converted to the frequency domain signal,
Calculate the noise power spectrum of the mixed audio and noise signal using the mixed audio and noise signal converted to the frequency domain signal,
On the other hand, the reproduction environment sound collection signal collected in the environment where the noise-reduced signal is reproduced is converted into a frequency domain signal,
Calculate the noise power spectrum of the reproduction environment sound signal using the reproduction environment sound signal converted into the frequency domain signal,
Calculate the masking threshold in the frequency domain from the noise power spectrum of the reproduction environment sound signal,
Comparing the masking threshold and the noise power spectrum of the voice noise mixed signal, calculating the corrected noise power spectrum of the voice noise mixed signal exceeding the masking threshold,
Using the input signal power spectrum of the voice noise mixed signal and the corrected noise power spectrum of the voice noise mixed signal, the ratio of the corrected voice noise mixed signal noise is predicted, and based on this, the loss value is calculated.
Insert a loss value into the audio / noise mixed signal converted to the frequency domain signal, and output a signal with reduced noise,
Convert noise-reduced signals to time-domain audio signals,
A noise reduction processing program that gives commands to a computer.
A recording medium on which the noise reduction processing program according to claim 5 is recorded.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003344406A JP4460256B2 (en) | 2003-10-02 | 2003-10-02 | Noise reduction processing method, apparatus for implementing the method, program, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003344406A JP4460256B2 (en) | 2003-10-02 | 2003-10-02 | Noise reduction processing method, apparatus for implementing the method, program, and recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005107448A true JP2005107448A (en) | 2005-04-21 |
JP4460256B2 JP4460256B2 (en) | 2010-05-12 |
Family
ID=34538051
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003344406A Expired - Fee Related JP4460256B2 (en) | 2003-10-02 | 2003-10-02 | Noise reduction processing method, apparatus for implementing the method, program, and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4460256B2 (en) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007251917A (en) * | 2005-11-21 | 2007-09-27 | Nippon Telegr & Teleph Corp <Ntt> | Similarity calculation apparatus and method, and echo erasure apparatus and method |
KR20110088036A (en) * | 2010-01-28 | 2011-08-03 | 삼성전자주식회사 | Signal separation system and method for selecting threshold to separate sound source |
JP2013161041A (en) * | 2012-02-08 | 2013-08-19 | Nikon Corp | Signal processor, camera and signal processing program |
US10573332B2 (en) | 2013-12-19 | 2020-02-25 | Telefonaktiebolaget Lm Ericsson (Publ) | Estimation of background noise in audio signals |
CN113851151A (en) * | 2021-10-26 | 2021-12-28 | 北京融讯科创技术有限公司 | Masking threshold estimation method, device, electronic equipment and storage medium |
CN113963710A (en) * | 2021-10-19 | 2022-01-21 | 北京融讯科创技术有限公司 | Voice enhancement method and device, electronic equipment and storage medium |
CN114220448A (en) * | 2021-12-16 | 2022-03-22 | 游密科技(深圳)有限公司 | Voice signal generation method and device, computer equipment and storage medium |
CN117854514A (en) * | 2024-03-06 | 2024-04-09 | 深圳市增长点科技有限公司 | Wireless earphone communication decoding optimization method and system for sound quality fidelity |
US11996077B2 (en) | 2019-08-08 | 2024-05-28 | Nec Corporation | Noise estimation device, moving object sound detection device, noise estimation method, moving object sound detection method, and non-transitory computer-readable medium |
CN117854514B (en) * | 2024-03-06 | 2024-05-31 | 深圳市增长点科技有限公司 | Wireless earphone communication decoding optimization method and system for sound quality fidelity |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017222356A1 (en) | 2016-06-24 | 2017-12-28 | 삼성전자 주식회사 | Signal processing method and device adaptive to noise environment and terminal device employing same |
-
2003
- 2003-10-02 JP JP2003344406A patent/JP4460256B2/en not_active Expired - Fee Related
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007251917A (en) * | 2005-11-21 | 2007-09-27 | Nippon Telegr & Teleph Corp <Ntt> | Similarity calculation apparatus and method, and echo erasure apparatus and method |
JP4520970B2 (en) * | 2005-11-21 | 2010-08-11 | 日本電信電話株式会社 | Similarity calculation device, echo cancellation device, similarity calculation method, echo cancellation method |
KR20110088036A (en) * | 2010-01-28 | 2011-08-03 | 삼성전자주식회사 | Signal separation system and method for selecting threshold to separate sound source |
KR101670313B1 (en) * | 2010-01-28 | 2016-10-28 | 삼성전자주식회사 | Signal separation system and method for selecting threshold to separate sound source |
JP2013161041A (en) * | 2012-02-08 | 2013-08-19 | Nikon Corp | Signal processor, camera and signal processing program |
US10573332B2 (en) | 2013-12-19 | 2020-02-25 | Telefonaktiebolaget Lm Ericsson (Publ) | Estimation of background noise in audio signals |
US11996077B2 (en) | 2019-08-08 | 2024-05-28 | Nec Corporation | Noise estimation device, moving object sound detection device, noise estimation method, moving object sound detection method, and non-transitory computer-readable medium |
CN113963710A (en) * | 2021-10-19 | 2022-01-21 | 北京融讯科创技术有限公司 | Voice enhancement method and device, electronic equipment and storage medium |
CN113851151A (en) * | 2021-10-26 | 2021-12-28 | 北京融讯科创技术有限公司 | Masking threshold estimation method, device, electronic equipment and storage medium |
CN114220448A (en) * | 2021-12-16 | 2022-03-22 | 游密科技(深圳)有限公司 | Voice signal generation method and device, computer equipment and storage medium |
CN117854514A (en) * | 2024-03-06 | 2024-04-09 | 深圳市增长点科技有限公司 | Wireless earphone communication decoding optimization method and system for sound quality fidelity |
CN117854514B (en) * | 2024-03-06 | 2024-05-31 | 深圳市增长点科技有限公司 | Wireless earphone communication decoding optimization method and system for sound quality fidelity |
Also Published As
Publication number | Publication date |
---|---|
JP4460256B2 (en) | 2010-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106664473B (en) | Information processing apparatus, information processing method, and program | |
US8315400B2 (en) | Method and device for acoustic management control of multiple microphones | |
US8831934B2 (en) | Speech enhancement method and system | |
JP2014232331A (en) | System and method for adaptive intelligent noise suppression | |
US11152015B2 (en) | Method and apparatus for processing speech signal adaptive to noise environment | |
KR20160055871A (en) | Systems and methods for adaptive noise cancellation by adaptively shaping internal white noise to train a secondary path | |
JP4249729B2 (en) | Automatic gain control method, automatic gain control device, automatic gain control program, and recording medium recording the same | |
US9712908B2 (en) | Adaptive residual feedback suppression | |
JP4460256B2 (en) | Noise reduction processing method, apparatus for implementing the method, program, and recording medium | |
KR101253708B1 (en) | Hearing aid for screening envirronmental noise and method for screening envirronmental noise of hearing aid | |
US8804981B2 (en) | Processing audio signals | |
JP2003284183A (en) | Echo suppression apparatus, echo suppression method, and program | |
JP2003514264A (en) | Noise suppression device | |
JP4413205B2 (en) | Echo suppression method, apparatus, echo suppression program, recording medium | |
EP3830823B1 (en) | Forced gap insertion for pervasive listening | |
JPH08214391A (en) | Bone-conduction and air-conduction composite type ear microphone device | |
EP2869600B1 (en) | Adaptive residual feedback suppression | |
CN115278465A (en) | Howling suppression method and device, sound box and sound amplification system | |
JP3619461B2 (en) | Multi-channel noise suppression device, method thereof, program thereof and recording medium thereof | |
Ngo | Digital signal processing algorithms for noise reduction, dynamic range compression, and feedback cancellation in hearing aids | |
JP3628267B2 (en) | Multi-channel echo cancellation method, apparatus thereof, program thereof and recording medium thereof | |
JP4247203B2 (en) | Automatic volume control method, automatic volume control device, program, recording medium | |
JP2007151047A (en) | Voice switch method, voice switch apparatus, voice switch program and recording medium recorded with the program | |
JP2008301376A (en) | Noise canceling headphone | |
CN113347527A (en) | Acoustic path determination method and apparatus, readable storage medium and electronic device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060411 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20060411 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090413 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090428 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090625 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090804 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090930 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091027 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091104 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100202 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100212 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130219 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |