JP2004341339A - Noise restriction device - Google Patents

Noise restriction device Download PDF

Info

Publication number
JP2004341339A
JP2004341339A JP2003139248A JP2003139248A JP2004341339A JP 2004341339 A JP2004341339 A JP 2004341339A JP 2003139248 A JP2003139248 A JP 2003139248A JP 2003139248 A JP2003139248 A JP 2003139248A JP 2004341339 A JP2004341339 A JP 2004341339A
Authority
JP
Grant status
Application
Patent type
Prior art keywords
noise
band
spectrum
speech
suppression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2003139248A
Other languages
Japanese (ja)
Inventor
Satoshi Furuta
訓 古田
Original Assignee
Mitsubishi Electric Corp
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date

Links

Images

Abstract

PROBLEM TO BE SOLVED: To provide a noise restriction device which can perform noise restriction favorable in audibility and has small quality deterioration even in very noisy environment.
SOLUTION: The device is equipped with a a band division part 4 which divides the amplitude spectrum of an input speech signal into a plurality of frequency bands and outputs mean amplitude spectra by the bands, a band-classified speech/noise decision part 6 which analyzes spectrum shapes by the frequency bands, discriminates a speech, noise, and a speech-like noise similar to a speech, and outputs an estimated noise spectrum update flag, a noise spectrum estimation part 7 which determines whether estimated noise spectrums are updated by the bands according to the estimated noise spectrum update flag, and a noise restriction part 8 which selects optimum noise restriction methods by the bands according to the estimated noise spectrum update flag to perform noise restriction of the amplitude spectra, and outputs noise restricted spectra.
COPYRIGHT: (C)2005,JPO&NCIPI

Description

【0001】 [0001]
【発明の属する技術分野】 BACKGROUND OF THE INVENTION
この発明は、雑音抑圧装置に関するものである。 The present invention relates to a noise suppression apparatus.
【0002】 [0002]
【従来の技術】 BACKGROUND OF THE INVENTION
携帯電話やTV会議システム等の音声通信システムや音声認識システムは、種々の雑音を含む環境下で用いられる。 Mobile phones and TV conference systems such as voice communication systems and speech recognition systems are used in environments containing various noise. 目的信号である音声信号以外の雑音信号を抑制することにより、目的信号が強調され、音質の改善や、音声認識率の向上を図ることができる。 By suppressing the noise signal other than the voice signal is a target signal, the target signal is emphasized, it is possible to achieve sound quality improvement or, to improve the speech recognition rate.
【0003】 [0003]
雑音が混入した入力信号から雑音信号を抑圧するための様々な技術が公表されている。 Various techniques for suppressing the noise signal from the input signal noise is mixed have been published.
例えば、特許文献1に開示された従来の雑音抑圧装置は、非特許文献1に示されたスペクトルサブトラクション(Spectral Subtraction:以下、SS法という。)により雑音の抑圧を行うものである。 For example, conventional noise suppression apparatus disclosed in Patent Document 1, spectral subtraction shown in Non-Patent Document 1: performs a suppression of the noise by (Spectral Subtraction hereinafter referred SS method.). SS法では、振幅スペクトルから、別途推定した平均的な雑音スペクトルを減算することにより雑音の抑圧を行う。 The SS method carries out suppression of the noise by the amplitude spectrum, subtracting the average noise spectrum which is separately estimated.
【0004】 [0004]
また、特許文献2に開示された背景雑音除去装置では、入力信号を周波数成分に変換すると共に入力信号の音声・雑音区間判定を行う。 Further, in the background noise removal device disclosed in Patent Document 2 performs a speech-noise section determination of the input signal and converts the input signal into frequency components. 現フレームの入力信号が雑音と判定された場合には、現フレームにおいて推定した背景雑音と、過去のフレームにおいて推定された背景雑音の平均を取って推定背景雑音を更新する。 When the input signal of the current frame is determined to be noise, updates the background noise estimated in the current frame, the estimated noise by taking an average of the estimated background noise in a past frame. 一方、現フレームが音声区間と判断された場合には、周波数成分から推定背景雑音を減算して雑音抑圧信号を求める。 On the other hand, if the current frame is determined to speech interval, obtains the noise suppression signal by subtracting the estimated noise from the frequency components. この減算処理で得られた雑音抑圧信号の周波数成分を信号とし、推定された背景雑音を雑音として、全周波数帯域での信号対雑音比(SN比)と全周波数帯域を複数に分割した小領域毎のSN比を計算する。 This is a signal the frequency components of the resulting noise suppression signal in the subtraction processing, the estimated background noise as noise, signal-to-noise ratio over the entire frequency band (SN ratio) and small areas obtained by dividing the entire frequency band into a plurality to calculate the SN ratio of each. 小帯域別のSN比と全帯域のSN比の差が所定値以下の小領域については、雑音抑圧信号と推定背景雑音成分とを所定の割合で含む再更新背景雑音を生成し、雑音抑圧信号から再更新背景雑音をさらに減算して再雑音抑圧信号を求め、この信号を時間領域で表現される信号に戻して雑音抑圧信号を得る。 For small area difference is below a predetermined value of the subband by the SN ratio and the total bandwidth SN ratio, it generates a re-updating the background noise and a noise suppression signal and the estimated background noise component in a predetermined ratio, the noise suppression signal further prompted to re noise suppression signal subtracting re-update the background noise from, obtaining a noise suppression signal back into a signal represented the signal in the time domain.
【0005】 [0005]
また、非特許文献2に開示された従来の雑音抑圧方法は、特許文献1と同様にSS法を基本としている。 Further, the conventional noise suppression method disclosed in Non-Patent Document 2 basically in the same manner as SS method in Patent Document 1. 入力信号の周波数変換を行うと共に、現フレームの有音・雑音判定を行い、現フレームが有音区間である場合には入力信号スペクトルの包絡線と推定雑音スペクトルの包絡線の交点を求め、その交点をカットオフ周波数とした高域通過形フィルタ(High Pass Filter:以下、HPFと記す。)と低域通過形フィルタ(Low Pass Filter:以下、LPFと記す。)を用いて入力信号を高域成分と低域成分に分離する。 Performs frequency conversion of the input signal, performs a voice or noise determination of the current frame, if the current frame is the voiced section obtain the intersection of the envelope of the estimated noise spectrum and the envelope of the input signal spectrum, the intersection high pass type filter with cutoff frequency (high pass filter:. hereinafter referred to as HPF) and low-pass type filter (Low pass filter: hereinafter referred to as LPF.) high-frequency input signal using the separating the component and a low-frequency component. そして、低域成分では通常のFFT(Fast Fourier Transform:高速フーリエ変換)を用いたSS法による雑音抑圧方式を選択し、高域成分ではMWSE(Multi−Window Spectral Estimation)法を用いたSS法による雑音抑圧方式を選択する。 Then, low-frequency normal FFT is a component: by selecting a noise suppression method according to SS method using (Fast Fourier Transform Fast Fourier Transform), SS method using MWSE (Multi-Window Spectral Estimation) method is a high frequency component to select a noise suppression system. このように、高域と低域で特性の異なる雑音抑圧方法をとることにより、良好な雑音抑圧を行うことを可能にしている。 Thus, by taking the different noise suppression method characteristics in the high range and low range, it is made possible to perform good noise suppression.
【0006】 [0006]
【特許文献1】 [Patent Document 1]
特開2000−347688号公報【特許文献2】 JP 2000-347688 Publication [Patent Document 2]
特開平10−171497号公報【非特許文献1】 JP-A-10-171497 [Non-Patent Document 1]
S. S. F. F. Boll,”Suppression of Acoustic noise in speech using spectral subtraction”,IEEE Trans. Boll, "Suppression of Acoustic noise in speech using spectral subtraction", IEEE Trans. ASSP,April 1979,Vol. ASSP, April 1979, Vol. ASSP−27,No. ASSP-27, No. 2
【非特許文献2】 Non-Patent Document 2]
C. C. He and G. He and G. Zweig,”Adaptive Two−band Spectral Subtraction with Multi−Window Spectral Estimation”,IEEE Conference of Acoustic Speech Processing,1999,pp. Zweig, "Adaptive Two-band Spectral Subtraction with Multi-Window Spectral Estimation", IEEE Conference of Acoustic Speech Processing, 1999, pp. 793−796 793-796
【0007】 [0007]
【発明が解決しようとする課題】 [Problems that the Invention is to Solve
雑音の中には、例えば多人数の人声が混じった雑音のように、スペクトル形状が音声スペクトルに似た雑音がある。 Some of the noise, for example, as the noise was contaminated with large number of people of the human voice, there is a noise spectral shape is similar to the speech spectrum. このような雑音を音声的雑音(Speech−like noise)という。 Such a noise that the voice noise (Speech-like noise).
【0008】 [0008]
特許文献2に開示された従来の背景雑音除去装置は、全帯域SN比と各帯域SN比との差が所定の閾値以下の帯域に対し、雑音スペクトルの再減算処理を行うので大きな抑圧量が得られる利点がある。 Conventional background noise removal device disclosed in Patent Document 2, compared bandwidth difference is less than a predetermined threshold value of the entire band SN ratio and each band SN ratio, a large amount of suppression is performed again subtraction of noise spectrum there is an advantage to be obtained. しかし、再減算処理を行うかどうかは、単に全帯域SN比と各帯域SN比との差の値によって判断しており、その帯域のスペクトルが音声スペクトル的なものか、または雑音スペクトル的なものかどうかは判定していない。 However, whether to re-subtraction processing, simply it has determined the value of the difference between the full band SN ratio and each band SN ratio, its or spectral bands speech spectrum ones, or noise spectrally also whether or not it has been determined. そのため、音声的雑音が入力信号に混入している場合には以下のような問題が生じる。 Therefore, problems arise as follows when the voice noise is mixed in the input signal.
【0009】 [0009]
まず、音声的雑音を雑音として扱う場合、次のような問題がある。 First of all, when dealing with voice noise as noise, there is the following problem. SS法に基づいて雑音抑圧を行う場合、推定背景雑音スペクトルは周波数軸方向の変動が少ない方が望ましい。 When performing noise suppression based on SS method, the estimated background noise spectrum is towards variations in the frequency axis direction is small is desirable. しかし、音声的雑音は周波数軸方向の変動が大きいため、音声的雑音が雑音として推定雑音スペクトルに混入すると、推定雑音スペクトルの精度が劣化するという問題がある。 However, the audio noise because variations in the frequency axis direction is larger, the audio noise is mixed into the estimated noise spectrum as the noise, the accuracy of the estimated noise spectrum is deteriorated.
【0010】 [0010]
一方、音声的雑音を誤って「音声」と判定した場合には、音声的雑音は音声として雑音抑圧されることとなる。 On the other hand, incorrectly audible noise when it is determined that the "audio", the audio noise becomes to be noise suppression as a voice. しかし、音声的雑音は信号パワーは小さいがスペクトル形状が音声スペクトル的であることから、スペクトル減算処理を行うことにより、スペクトル振幅が比較的大きなスペクトル成分だけが孤立して残る。 However, the sound noise from that signal power is small spectral shape is a speech spectral, by performing spectrum subtraction, only spectral amplitudes are relatively large spectral components remain isolated. 特許文献2の装置のように、更に再減算処理を行うことにより、不要なスペクトル成分がさらに強調されてしまい、残留雑音に含まれる耳障りな人工的雑音(ミュージカルノイズ)が増大してしまう。 As in the apparatus of Patent Document 2, by performing a further re-subtraction processing, Clutter spectral components are further emphasized, harsh artificial noise contained in the residual noise (musical noise) increases.
【0011】 [0011]
また、特許文献2の装置を、臨場感が求められるTV会議システムのように、7kHを上限とした広帯域音声通信システムに適用する場合を考える。 Further, the apparatus of Patent Document 2, as in the TV conference system realism is required, consider the case of application to wideband speech communication system was made the upper limit 7KH. 4kHz以上の高域の音声スペクトル成分のSN比とパワーはかなり小さくなるため、音声・雑音判定において4kHz以上の音声を雑音に誤る場合がある。 Since the SN ratio and the power of the speech spectral components 4kHz or more high-frequency becomes considerably small, there is a case where incorrect or more audio 4kHz noise in a speech-noise determination. 誤って雑音と判定されると、高域の音声が大きくスペクトル減算されるので、高域においてはスペクトル振幅が比較的大きなスペクトル成分だけが残ることになる。 If it is determined that the noise erroneously, since the voice of the high frequency is increased spectral subtraction, only the remains comparatively large spectral component spectral amplitude at high frequency. これによりミュージカルノイズが発生して音質が劣化する。 This deterioration of the sound quality musical noise is generated.
【0012】 [0012]
また、非特許文献2に開示された従来の雑音抑圧装置は、入力信号スペクトルの包絡線と雑音スペクトルの包絡線との交点から定めたHPFとLPFを用いて、入力信号を低域と高域の2帯域に分離し、各帯域に応じた雑音抑圧方式を選択する構成なので、各帯域に応じた良好な雑音抑圧を行うことができる。 Further, the conventional noise suppression apparatus disclosed in Non-Patent Document 2, by using the HPF and LPF which defines the intersection of the envelope of the envelope and the noise spectrum of the input signal spectrum, the input signal high and low ranges separated into two bands of, the configuration for selecting a noise suppression method in accordance with the respective bands, it is possible to perform good noise suppression according to each band. しかし、例えば、3帯域以上の有音帯域及び雑音帯域が存在するような場合の雑音抑圧には適さない。 However, for example, it is not suitable for noise suppression in the case 3, such as bands or more voiced band and noise band are present.
【0013】 [0013]
この発明は上記のような課題を解決するためになされたもので、聴感上好ましい雑音抑圧が可能で、高雑音下でも品質劣化の少ない雑音抑圧装置を得ることを目的とする。 The present invention has been made to solve the above problems, can be perceptually preferred noise suppression, and to obtain a noise suppression apparatus little quality degradation even under high noise.
【0014】 [0014]
【課題を解決するための手段】 In order to solve the problems]
この発明に係る雑音抑圧装置は、時間領域で表される入力音声信号を周波数領域の表現に変換し、周波数成分から振幅スペクトルと位相スペクトルを生成する時間・周波数変換部と、振幅スペクトルを複数の周波数帯域に分割し、帯域毎の平均振幅スペクトルを出力する帯域分割部と、周波数帯域毎に平均振幅スペクトルのスペクトル形状を解析して音声、雑音、及び音声に類似した音声的雑音の区別を行い、スペクトル形状判定結果を出力する帯域別音声・雑音判定部と、スペクトル形状判定結果に基づいて、周波数帯域毎の推定雑音スペクトルの更新を行なうかどうかを決定する雑音スペクトル推定部と、スペクトル形状判定結果に基づいて、周波数帯域毎に最適な雑音抑圧方法を選択し、選択した方法に従って各周波数帯域の振幅スペ Noise suppression apparatus according to the present invention converts an input audio signal represented in the time domain to a frequency domain representation, and time-frequency converter that generates an amplitude spectrum and phase spectrum from the frequency component, the amplitude spectrum multiple divided into frequency bands, performs a band division unit which outputs an average amplitude spectrum of each band, voice by analyzing the spectral shape of the average amplitude spectrum for each frequency band, noise, and the distinction between speech noise similar to the sound a band-by-band speech and noise determination unit for outputting a spectral shape determination result, based on the spectral shape determination result, the noise spectrum estimation unit which determines whether to update the estimated noise spectrum for each frequency band, the spectral shape determination based on the results, it selects the optimum noise suppressing method for each frequency band, the amplitude space for each frequency band according to the selected method トルから周波数帯域毎の推定雑音スペクトルを抑圧することにより得られる雑音抑圧スペクトルを出力する雑音抑圧部と、雑音抑圧スペクトルを時間領域で表される信号に変換することにより雑音抑圧信号を生成する周波数・時間変換部とを備えたものである。 A noise suppression section for outputting a noise suppression spectrum obtained by suppressing the estimated noise spectrum for each frequency band from the torque, the frequency of generating a noise suppression signal by converting the signal represented noise suppressed spectrum in the time domain - is obtained by a time conversion unit.
【0015】 [0015]
【発明の実施の形態】 DETAILED DESCRIPTION OF THE INVENTION
以下、この発明の実施の様々な形態を説明する。 Hereinafter, describing the various embodiments of the present invention.
実施の形態1. The first embodiment.
図1は、この発明の実施の形態1による雑音抑圧装置100の構成を示すブロック図である。 Figure 1 is a block diagram showing the configuration of a noise suppression apparatus 100 according to Embodiment 1 of the present invention.
図に示すように、雑音抑圧装置100は、入力端子1、時間・周波数変換部2、雑音らしさ分析部3、帯域分割部4、帯域SN比計算部5、帯域別音声・雑音判定部6、雑音スペクトル推定部7、雑音抑圧部8、周波数・時間変換部12、出力端子13を備えている。 As shown, the noise suppression apparatus 100 includes an input terminal 1, time-frequency conversion unit 2, noise likeness analyzing unit 3, the band splitting unit 4, the band SN ratio calculating unit 5, the band-by-band speech and noise determination unit 6, noise spectrum estimation unit 7, the noise suppression unit 8, frequency-time transform unit 12, and an output terminal 13.
また、雑音抑圧部8は、雑音抑圧制御部9、スペクトル減算部10、スペクトル振幅抑圧部11を備えている。 Further, the noise suppression unit 8, the noise suppression control unit 9, the spectrum subtraction part 10, and a spectral amplitude suppression unit 11.
【0016】 [0016]
雑音抑圧装置100による雑音抑圧処理について説明する。 It explained noise suppressing process by the noise suppressing device 100.
雑音が混入した入力信号s[t]が入力端子1に入力されると、入力信号s[t]は所定のサンプリング周波数でサンプリングされ、所定の周期でフレーム分割されて時間・周波数変換部2へ入力される。 If noise is mixed with the input signal s [t] is input to the input terminal 1, an input signal s [t] is sampled at a predetermined sampling frequency, the time is a frame divided at a predetermined cycle and frequency converter 2 It is input. なお、ここではサンプリング周波数を8kHz、フレーム周期を20msとする。 Here, the sampling frequency 8 kHz, the frame period and 20 ms.
【0017】 [0017]
時間・周波数変換部2は、例えば256点の高速フーリエ変換(Fast Fourier Transform:以下、FFTを記す。)を用いてフレーム分割された入力信号s[t]を周波数解析し、振幅スペクトルS[f]と位相スペクトルP[f]とを生成して出力する。 Time-frequency conversion unit 2 is, for example fast Fourier transformation of 256 points (Fast Fourier Transform:. Hereinafter referred to FFT) frequency analysis frames divided input signal s [t] by using the amplitude spectrum S [f ] and it generates and outputs a phase spectrum P [f]. なおFFTは周知の手法であるので説明は省略する。 Note FFT description will be omitted since it is well-known techniques.
【0018】 [0018]
雑音らしさ分析部3は、入力端子1から出力されたフレーム分割された入力信号s[t]と、時間・周波数変換部2から出力された振幅スペクトルS[f]の入力を受ける。 Noise likeness analyzing unit 3, the input signal is a frame divided output from the input terminal 1 s [t], it receives an input of the amplitude spectrum S [f] output from the time-frequency conversion unit 2. 雑音らしさ分析部3は、入力された現フレームの入力信号s[t]を解析し、現フレームが音声区間であるか雑音区間であるかの状態を示す指標である雑音らしさ信号Nsttを帯域別音声・雑音判定部6へ出力する。 Noise likeness analyzing unit 3 analyzes the input signal s [t] of the current frame that is input, the noise likeness signal Nstt per-band is an index showing the whether the current frame is the noise section or a speech interval state and outputs it to the speech and noise determination unit 6. また、雑音スペクトル推定部7に雑音らしさ信号Nsttに対応した雑音スペクトル更新係数rを出力する。 Also outputs a noise spectrum update coefficient r corresponding to the noise likeness signal Nstt the noise spectrum estimation unit 7. 雑音スペクトル更新係数rは、後述する推定雑音スペクトルN[f ]の算出に用いられる。 Noise spectrum update coefficient r is used to calculate a later-described estimated noise spectrum N [f B].
【0019】 [0019]
図2に、雑音らしさ信号Nsttおよび雑音スペクトル更新係数rと、現フレームの様態との関係を示す。 Figure 2 shows the noise likeness signal Nstt and noise spectrum update coefficient r, the relationship between the aspect of the current frame. 図に示すように、雑音らしさ信号Nsttは、レベル値1〜5で出力される。 As shown, the noise likeness signal Nstt is output at level value 1-5. Nsttが4〜5の範囲にあるとき、現フレームは雑音区間であることを表し、Nsttが1〜3の範囲にあるとき現フレームは音声区間であるとする。 When Nstt is in the range of 4-5, indicating that the current frame is the noise section, the current frame when Nstt is in the range of 1-3 and a speech section. 雑音らしさ信号Nsttの算出方法としては、例えば特許文献1に開示されている雑音らしさ分析処理と同様に行うことができるので、ここでは簡単に説明する。 As a method of calculating the noise likeness signal Nstt has, for example, can be carried out similarly to the noise likeness analyzing process disclosed in Patent Document 1, it will be described briefly here.
雑音らしさ分析部3は、ローパスフィルタにより入力信号s[t]から高域雑音の影響を取り除き、ローパスフィルタ信号を得る。 Noise likeness analyzing unit 3 removes the effect of the high noise from the input signal s [t] by the low-pass filter, to obtain a low-pass filter signal. 次に、ローパスフィルタ信号の線形予測分析を行う。 Next, the linear predictive analysis of the low-pass filtered signal. 次に、得られた線形予測係数を用いて、ローパスフィルタ信号の逆フィルタ処理を行う。 Next, using the linear prediction coefficients obtained, performs inverse filtering of the low-pass filtered signal. 逆フィルタ処理の結果得られたローパス残差信号の自己相関係数の正のピーク値と、ローパス残差信号のパワーおよびフレームパワーに基づいてNsttを算出する。 A positive peak value of the autocorrelation coefficients of the low pass residual signal obtained as a result of the inverse filtering process, and calculates the Nstt based on the power and the frame power of the low pass residual signal.
【0020】 [0020]
帯域分割部4は、時間・周波数変換部2から出力された振幅スペクトルS[f]の入力を受け、振幅スペクトルS[f]を例えばバークスペクトル間隔として示される20の周波数帯域に分割する。 Band dividing unit 4 receives an input of the amplitude spectrum S [f] output from the time-frequency conversion unit 2 divides the frequency band of 20 shown an amplitude spectrum S [f], for example, as a bark spectrum interval. 帯域分割部4は、分割した帯域毎に振幅スペクトルS[f]の平均スペクトルを求め、帯域分割した振幅スペクトルSp[f ]として出力する。 Band dividing unit 4 calculates an average spectrum of the amplitude spectrum S [f] for each divided band, and outputs the amplitude spectrum Sp that band division [f B]. なお、f はバークスペクトルにおける帯域番号を表す。 Incidentally, f B represents a band number in the bark spectrum.
なお、バークスペクトルについては、Eberhard Zwicker著、「心理音響学」、西村書店、1992、74ページの表1に示されている。 It is to be noted that the bark spectrum, Eberhard Zwicker al., "Psychoacoustics", Nishimura Shoten, are shown in Table 1 on page 1992,74. バークスペクトル間隔は人間の聴感特性に対応した周波数帯域の分割方法で、低周波数領域では帯域幅が狭く、周波数が高くなるにつれて帯域幅が広くなる特性を持つ。 Bark spectrum interval division method in the frequency band corresponding to the characteristics of human perception, narrow bandwidth at a low frequency range, has a characteristic of bandwidth increases as the frequency increases. 以下、周波数帯域毎の計算処理は、断りが無い限りバークスペクトル帯域f において行うものとする。 Hereinafter, calculation processing for each frequency band shall be provided at the bark spectrum band f B unless otherwise specified.
【0021】 [0021]
帯域SN比計算部5は、帯域分割された振幅スペクトルSp[f ]と、後述する推定雑音スペクトルN[f ]の入力を受け、下記の式(1)に従って帯域SN比SNR[f ]を算出する。 Band SN ratio calculating unit 5 includes a band division amplitude spectrum Sp [f B], receives the later-described estimated noise spectrum N [f B], band SN ratio SNR [f B according to the following formula (1) ] is calculated. すなわち、帯域SN比は、各帯域の信号スペクトルパワーと雑音スペクトルパワーの比として算出される。 That is, the band SN ratio is calculated as the ratio of the signal spectrum power and the noise spectral power of each band.
【0022】 [0022]
すなわち、式(1)において、計算の結果SNR[f ]の値が負になる場合には、SNR[f ]=0とする。 That is, in equation (1), when the value of the result SNR [f B] calculation is negative, the SNR [f B] = 0.
【0023】 [0023]
帯域別音声・雑音判定部6は、帯域SN比計算部5が出力する現フレームの1つ前のフレームの帯域SN比SNR[f ]を受け、帯域別の音声・雑音判定を行い、判定結果に応じて帯域別音声・雑音判定フラグsvad[f ]を算出する。 Per-band speech and noise determination unit 6 receives the band SN ratio SNR of the previous frame of the current frame [f B] the band SN ratio calculator 5 outputs, performs band-specific speech and noise determination, determination calculating per-band speech and noise determination flag svad [f B] according to the result. 帯域別音声・雑音判定の方法として、例えば式(2)のように帯域SN比SNR[f ]と所定の閾値TH1(第1の閾値)の比較による判定を行うことができる。 As a method for per-band speech and noise determination, for example, a determination may be made by comparison of the expression band SN ratio SNR [f B] with a predetermined threshold TH1 (first threshold value) as in (2).
SNR[f ]>TH1の時svad[f ]=Voice(音声) When the SNR [f B]> TH1 svad [f B] = Voice ( voice)
SNR[f ]≦TH1の時svad[f ]=Noise(雑音) SNR Svad when [f B] ≦ TH1 [f B] = Noise ( noise)
ただし、f ={1,・・・,20} (2) However, f B = {1, ··· , 20} (2)
【0024】 [0024]
ここで、TH1は帯域別音声・雑音判定に用いる閾値であり、閾値TH1には、多数の音声SN比のサンプルから得られた好適な値として、例えばTH1=1.5dBを用いることができる。 Here, TH1 is a threshold value used for the band-by-band speech and noise determination, the threshold TH1 is, suitable values ​​obtained from samples of a large number of audio SN ratio, for example, can be used TH1 = 1.5 dB.
【0025】 [0025]
さらに、帯域別音声・雑音判定部6は、式(1)によって算出した各帯域の帯域別音声・雑音判定フラグsvad[f ]、および雑音らしさ分析部3が出力する雑音らしさ信号Nsttに基づいて、雑音帯域の連続性の判定処理を行い、判定結果に基づいて帯域毎の推定雑音スペクトル更新フラグupdate[f ](スペクトル形状判定結果)を設定する。 Further, the band-by-band speech and noise determination unit 6, the formula (1) each band band-by-band speech and noise determination flag svad of calculated by [f B], and based on the noise likeness signal Nstt the noise likeness analyzing unit 3 outputs Te performs continuity determination processing of the noise band, the estimated noise spectrum update flag update [f B] of each band based on the determination result to set the (spectral shape determination result). 図3のフローチャートを用いて、帯域別音声・雑音判定部6における、帯域毎の推定雑音スペクトル更新フラグupdate[f ]の設定処理について説明する。 With reference to the flowchart of FIG. 3, the band-by-band speech and noise determination unit 6, the setting process of the estimated noise spectrum update flag update for each band [f B] will be described.
【0026】 [0026]
まず、ステップST101では、帯域別音声・雑音判定部6は雑音らしさ分析部3が出力する雑音らしさ信号Nsttを解析する。 First, in step ST 101, the band-by-band speech and noise determination unit 6 analyzes the noise likeness signal Nstt the noise likeness analyzing unit 3 outputs. 図2に示したように、Nsttの値が1,2,3である場合には音声区間と判断し、ステップST102へ進む。 As shown in FIG. 2, it is determined that the voice section when the value of Nstt is 1,2,3, the process proceeds to step ST 102.
【0027】 [0027]
一方、Nsttの値が4,5の場合には、全帯域において雑音区間であると判断し、ステップST110へ進む。 On the other hand, when the value of Nstt of 4,5 is determined to be a noise segment in the entire band, the process proceeds to step ST110.
ステップST110では、すべての帯域の推定雑音スペクトル更新フラグupdate[f ]にNOISEを設定し出力する。 In step ST110, and it sets the estimated noise spectrum update flag update NOISE to [f B] of all bands and outputs. 後述するように、これにより、全帯域の推定雑音スペクトルN[f ]の更新が行われる。 As described later, thereby, updating the full bandwidth of the estimated noise spectrum N [f B] is performed.
【0028】 [0028]
ステップST102〜ステップST109の処理は、分割された帯域毎に行われる。 Processing of step ST102~ step ST109 is performed for each divided band. まず、ステップST102では、帯域別音声・雑音判定フラグsvad[f ]の値を判定し、svad[f ]の値が雑音(NOISE)を示す場合にはステップST103へ進み、音声(VOICE)を示す場合にはステップST105へ進む。 First, in step ST 102, determining the value of the band-by-band speech and noise determination flag svad [f B], if the value of svad [f B] indicates noise (NOISE) proceeds to step ST 103, the voice (VOICE) in the case shown the proceeds to step ST105.
【0029】 [0029]
ステップST103では、NOISEと判断された帯域数がインクリメントされる。 In step ST 103, the number of bands is determined that NOISE is incremented. 得られたカウント数をcountとする。 The resulting count to count. 次に、ステップST104では、処理中の帯域の帯域番号f が最大値20になったと判定された場合にはステップST105へ進む。 Next, in step ST 104, when the band number f B of the band being processed is determined to have reached the maximum value 20, the process proceeds to step ST105. が最大値が19以下の場合には、ステップST102へ戻る。 If f B is the maximum value of 19 or less, the process returns to step ST 102. この繰り返し処理により、雑音帯域が連続している場合に、その連続した帯域数をカウントすることができる。 By repeating this process, when the noise band is continuous, it is possible to count the number of consecutive bands.
【0030】 [0030]
ステップST105では、countの値を連続カウント閾値THc(第2の閾値)とを比較する。 In step ST105, the value of the count is compared with the continuous count threshold THc (second threshold value). 連続カウント閾値THcには、経験上得られる好適な値として例えばTHc=3を設定することができる。 The continuous count threshold THc, can be set as a suitable value obtained empirically e.g. THc = 3. countが閾値THcよりも大きい場合、すなわち、雑音帯域の連続数が閾値で定められた数よりも多い場合には、その連続した帯域すべてが雑音であると判定し、ステップST106へ進む。 If count is greater than the threshold THc, i.e., if the number of consecutive noise band is greater than the number defined by the threshold value, determines all the contiguous band to be noise, the process proceeds to step ST 106. 一方、countが閾値THc以下の場合には、雑音と判定せずステップST107へ進む。 On the other hand, if the count is less than the threshold THc, the process proceeds to step ST107 without determining the noise.
【0031】 [0031]
ステップST106では、ステップST105で雑音帯域と判定された各帯域の推定雑音スペクトル更新フラグupdate[f ]に、NOISEを設定する。 At step ST 106, the noise band and the determined estimated noise spectrum update flag update of each band [f B] at step ST105, to set the NOISE. これにより、該当する帯域については、後述する推定雑音スペクトルN[f ]の更新が行われる。 Thus, for the corresponding band is updated will be described later to estimate the noise spectrum N [f B] is performed.
推定雑音スペクトル更新フラグupdate[f ]の設定処理をcountの回数分繰り返したらステップST108へ進む。 The setting process of the estimated noise spectrum update flag update [f B] proceeds to step ST108 When the repeat count in count.
【0032】 [0032]
ステップST107では、ステップST105で雑音帯域ではないと判定された各帯域の推定雑音スペクトル更新フラグupdate[f ]に、VOICEを設定する。 At step ST 107, the estimation of each band is determined not to be noise band noise spectrum update flag update [f B] at step ST105, to set the VOICE. これにより、該当する帯域については、後述する推定雑音スペクトルN[f ]の更新は行われない。 Thus, for the corresponding band is not performed updated later estimated noise spectrum N [f B].
推定雑音スペクトル更新フラグupdate[f ]の設定処理をcountの回数分繰り返したらステップST108へ進む。 The setting process of the estimated noise spectrum update flag update [f B] proceeds to step ST108 When the repeat count in count.
【0033】 [0033]
ステップST108では、countの値を0にリセットする。 At step ST 108, it resets the value of the count to zero. 次に、ステップST109では、処理中の帯域の帯域番号f が最大値20になったと判定された場合には当処理を終了する。 Next, in step ST 109, the band number f B of the band being processed is finished the person processing when it is determined that becomes the maximum value 20. が最大値が19以下の場合には、ステップST102へ戻る。 If f B is the maximum value of 19 or less, the process returns to step ST 102. これにより、全帯域について処理が行われる。 Thus, processing is performed for all the bands.
【0034】 [0034]
ここで、図4および図5を用いて帯域別音声・雑音判定部6による推定雑音スペクトル更新フラグupdate[f ]設定処理の結果の具体例を示す。 Here, a specific example of the estimated noise spectrum update flag update [f B] of setting processing result of the band-by-band speech and noise determination unit 6 with reference to FIGS. 図4は、雑音信号が混入した音声入力信号の音声スペクトルと雑音スペクトルの例である。 Figure 4 is an example of the speech spectrum and the noise spectrum of the audio input signal noise signal is mixed. また、図5は、図4に示すスペクトル分布より得られる帯域SN比SNR[f ]と、図3の処理によって得られた推定雑音スペクトル更新フラグupdate[f ]の例である。 FIG. 5 is a band SN ratio SNR [f B] obtained from the spectral distribution shown in FIG. 4, an example of the estimated noise spectrum update flag update obtained by the process of FIG. 3 [f B]. 図5において、帯域SN比SNR[f ]が判定閾値TH1を下回る帯域が帯域幅閾値THc=3以上連続する帯域群については、推定雑音スペクトル更新フラグupdate[f ]が雑音帯域(NOISE)と設定されており、それ以外の帯域については音声帯域(VOICE)となっている。 5, the band group band band SN ratio SNR [f B] is less than the determination threshold value TH1 are consecutive bandwidth threshold THc = 3 or more, the estimated noise spectrum update flag update [f B] is the noise band (NOISE) It is set as, and has a voice band (vOICE) in the case of other bands. なお、図に示すように、音声帯域または雑音帯域として判定された連続した複数の帯域の組を帯域群とする。 Note that, as shown in the figure, a band group a set of a plurality of continuous band that is determined as an audio band or noise band.
【0035】 [0035]
次に、帯域別音声・雑音判定部6は、図3の処理で推定雑音スペクトル更新フラグupdate[f ]にNOISEが設定された帯域について、更に判定精度を高めるための処理を行う。 Then, the band-by-band speech and noise determination unit 6, the estimated noise spectrum update flag update band NOISE to [f B] was set in a process shown in FIG. 3, performing the processing for increasing the further determination accuracy.
すなわち、雑音帯域と判定された帯域群について、さらに、雑音であるか音声的雑音であるかの判定を行う。 That is, the noise band and the determined band group, further, it is determined whether the speech noise or a noise. 音声的雑音と判定された帯域については、推定雑音スペクトルN[f ]の更新が行われないように設定される。 For the determined band audio noise, updating of the estimated noise spectrum N [f B] is set so as not performed. これは、入力信号に含まれる雑音成分の平均的なスペクトル形状を保持している推定雑音スペクトルに周波数方向の変動が大きい音声的雑音が混入すると、推定雑音スペクトルの精度が劣化するからである。 This is the voice noise fluctuation is large of an average spectral shape frequency direction to estimate the noise spectrum which holds a noise component included in the input signal is mixed, the accuracy of the estimated noise spectrum is because deteriorated.
なお、図3の処理で推定雑音スペクトル更新フラグupdate[f ]にVOICEが設定された帯域群、すなわち音声帯域群については、判定精度を高める処理は行わない。 The processing by the estimated noise spectrum update flag update [f B] the VOICE is configured band groups in FIG. 3, i.e. for voice band group, the process to improve the determination accuracy is not performed.
【0036】 [0036]
ここでは、判定精度を高めるための1つの方法として、帯域群別に帯域SN比の帯域間の分散を求め、その値によって当該帯域群が雑音であるか音声的雑音であるかを判断し、推定雑音スペクトル更新フラグupdate[f ]を修正する。 Here, as one way to increase the determination accuracy, determine the variance between the band of the band group separately band SN ratio, the band group is determined whether the speech noise or a noise whose value estimated modify the noise spectrum update flag update [f B].
図5に示す一連の帯域群の通し番号をnとし、L[n]を帯域群番号nにおける帯域幅、すなわち、帯域群に含まれる帯域数とする。 The serial number of a series of band group shown in FIG. 5 and n, L [n] bandwidth in the band group number n a, i.e., the number of bands included in the band group. NOISEと判断された帯域群番号nにおける、帯域SN比の帯域間の分散SNR dev [n]は、式(3)によって求めることができる。 In the band group number n is determined to NOISE, dispersion SNR dev between band of the band SN ratio [n] can be obtained by Equation (3).
【数1】 [Number 1]
【0037】 [0037]
ここで、f (n)は帯域群nに属する帯域番号f であり、f (n )は帯域群nの帯域番号下限値、f (n )は帯域群nの帯域番号上限値である。 Here, f B (n) is the band number f B belonging to the band group n, f B (n L) is band number lower limit of the band group n, f B (n H) is band number of bands groups n which is the upper limit value. 図5で、n=2の場合を例に説明すると、帯域群2においては、f (2)={10,11,12,13}であり、f (2 )=10、f (2 )=13、L[2]=4である。 In Figure 5, when describing the case of n = 2 as an example, in the band group 2, a f B (2) = {10,11,12,13 }, f B (2 L) = 10, f B (2 H) = 13, L [2] = 4.
【0038】 [0038]
帯域別音声・雑音判定部6は、雑音と判定された全ての帯域群について、式(3)によって求められた帯域群nの帯域SN比の分散SNR dev [n]と閾値TH2(第3の閾値)を比較する。 Per-band speech and noise determination unit 6 for all band groups is determined as noise, Equation (3) dispersion SNR dev band the SN ratio of the band group n obtained by [n] and the threshold value TH2 (Third to compare the threshold). ここで、閾値TH2は雑音か音声的雑音かを決定するための所定の閾値であり、閾値TH2には、経験上得られる好適な値として例えばTH2=16.0を設定することができる。 Here, the threshold TH2 is a predetermined threshold value to determine whether noise or sound noise, the threshold TH2 may be set, for example, TH2 = 16.0 Suitable values ​​obtained empirically.
帯域SN比の分散が閾値TH2よりも小さい場合、その帯域群は周波数方向のスペクトルのばらつき(スペクトルの凹凸)が小さく定常的であることを表しており、帯域別音声・雑音判定部6は、その帯域群を雑音であると判断する。 If the variance of the band SN ratio is smaller than the threshold TH2, the band group represents the spectral variations in the frequency direction (irregularity of the spectrum) are less constant, the band-by-band speech and noise determination unit 6, determines the band group to be noise. 一方、帯域SN比の分散が閾値TH2以上である場合には、その帯域群においては周波数方向のスペクトルのばらつきが大きいことを表しており、帯域別音声・雑音判定部6は、その帯域群を音声に似たスペクトル形状の雑音、すなわち音声的雑音であると判断する。 On the other hand, if the variance of the band the SN ratio is the threshold value TH2 or more, the in-band group represents the variation in the spectrum in the frequency direction is large, the band-by-band speech and noise determination unit 6, the band group noise spectral shape similar to speech, i.e. it is determined that the voice noise.
【0039】 [0039]
帯域別音声・雑音判定部6は、音声的雑音と判断された帯域群については、帯域群に含まれるすべての帯域の推定雑音スペクトル更新フラグupdate[f ]を、NOISEから音声的雑音であることを表すSPEECHLIKE_NOISEに変更する。 Per-band speech and noise determination unit 6, the audio noise and the determined band group, all of the band of the estimated noise spectrum update flag update contained in the band group [f B], is a sound noise from NOISE to change to SPEECHLIKE_NOISE indicating that.
なお、後述する雑音抑圧方式の変更については、音声的雑音であっても、雑音帯域であるものとして取り扱う。 Note that the change of the noise suppression method described below, even speech noise, treated as a noise band.
【0040】 [0040]
雑音スペクトル推定部7は、雑音らしさ分析部3が出力する雑音スペクトル更新係数rと、帯域分割部4が出力する振幅スペクトルSp[f ]と、帯域別音声・雑音判定部6が出力する雑音スペクトル更新フラグupdate[f ]と、過去の平均的な雑音スペクトル形状を示す推定雑音スペクトルN old [f ]とを用いて、式(4)に従い、推定雑音スペクトルN[f ]の更新を行う。 Noise spectrum estimation unit 7, a noise spectrum update coefficient r which is noise likeness analyzing unit 3 outputs, the amplitude spectrum Sp [f B] where band dividing section 4 outputs, noise band-by-band speech and noise determination unit 6 outputs spectrum update flag update [f B], using the estimated noise spectrum N old showing the historical average noise spectrum shape [f B], in accordance with the equation (4), updating of the estimated noise spectrum N [f B] I do. 推定雑音スペクトルN old [f ]は、雑音スペクトル推定部7が保有するRAM等の内部記憶手段に記憶されていてもよいし、雑音スペクトル推定部7がアクセス可能な外部の記憶装置に記憶されていてもよい。 Estimated noise spectrum N old [f B] is to noise spectrum estimation unit 7 may be stored in the internal storage unit such as a RAM held, noise spectrum estimation unit 7 is stored in an external storage device accessible it may be. なお、推定雑音スペクトル更新フラグupdate[f ]がVOICEまたはSPEECHLIKE_NOISEの場合には推定雑音スペクトルN[f ]の更新は行わない。 Incidentally, the estimated noise spectrum update flag update [f B] to update the estimated noise spectrum N [f B] in the case of VOICE or SPEECHLIKE_NOISE is not performed.
update[f ]=NOISEの時N[f ]=r・N old [f ]+(1−r)・Sp[f update [f B] = when N [f B] = r · N old of NOISE [f B] + (1 -r) · Sp [f B]
update[f ]=VOICEまたはupdate[f ]=SPEECHLIKE_NOISEの時N[f ]=N old [f update [f B] = VOICE or update [f B] = time N [f B] of SPEECHLIKE_NOISE = N old [f B]
ただし、f ={1,・・・,20} (4) However, f B = {1, ··· , 20} (4)
【0041】 [0041]
雑音抑圧制御部9は、帯域別音声・雑音判定部6が出力する推定雑音スペクトル更新フラグupdate[f ]と、帯域SN比計算部5が出力する帯域SN比SNR[f ]を入力として、後述するスペクトル振幅抑圧とスペクトル減算に用いる各係数である、スペクトル減算量α[f ]とスペクトル振幅抑圧量β[f ]を計算する。 Noise suppression control unit 9, the estimated noise spectrum update flag update the per-band speech and noise determination unit 6 outputs [f B], as an input band SN ratio SNR [f B] the band SN ratio calculating unit 5 outputs a respective coefficients used for spectral amplitude suppression spectral subtraction described below, calculates the spectral subtraction amount α [f B] and the spectral amplitude suppression quantity β [f B]. それぞれ計算された係数用い、スペクトル減算部10にて振幅スペクトルS[f]から推定雑音スペクトルN[f ]を減算した後、スペクトル振幅抑圧部11で、更にスペクトル振幅抑圧することにより雑音抑圧を行い、雑音抑圧されたスペクトルSr[f]を出力する。 Using coefficients calculated respectively, after subtraction of the amplitude spectrum S [f] from the estimated noise spectrum N [f B] at the spectrum subtraction part 10, with the spectrum amplitude suppression unit 11, the noise suppression by further spectral amplitude suppression done, and outputs the noise suppression spectrum Sr [f].
【0042】 [0042]
まず、雑音抑圧制御部9における、スペクトル減算とスペクトル振幅抑圧に用いる各係数の算出方法について説明する。 First, the noise suppression control unit 9, the method for calculating the coefficients used for the spectral subtraction and the spectrum amplitude suppression will be described.
まず、式(5)に従ってスペクトル振幅抑圧量β[f ]を求める。 First, the spectral amplitude suppression quantity β [f B] according to equation (5). なお、式(5)中のGAINは帯域SN比SNR[f ]の重み係数であり所定の定数である。 Incidentally, a predetermined constant is a weighting factor equation GAIN in (5) is band SN ratio SNR [f B]. 帯域別音声・雑音判定部6が出力する推定雑音スペクトル更新フラグupdate[f ]がVOICE、すなわち音声帯域の場合には、式(5)に従ってスペクトル振幅抑圧量β[f ]を求めるが、β[f ]が0(dB)を越える場合にはβ[f ]=0(dB)とし、この場合スペクトル振幅抑圧を行わない。 Estimated noise spectrum update flag update [f B] is VOICE bandwidth by speech and noise determination unit 6 outputs, that is, when voice band is determined the spectral amplitude suppression quantity β [f B] according to equation (5), β [f B] is set to 0 when exceeding (dB) β [f B] = 0 (dB), it is not performed in this case spectral amplitude suppression.
一方、推定雑音スペクトル更新フラグupdate[f ]がNOISEまたはSPEECHLIKE_NOISE、すなわち雑音帯域もしくは音声的雑音帯域の場合には、スペクトル減算処理に伴う残留雑音成分がミュージカルノイズの原因となる。 On the other hand, the estimated noise spectrum update flag update [f B] is NOISE or SPEECHLIKE_NOISE, that is, when the noise band or voice noise band, residual noise components accompanying the spectrum subtraction causes the musical noise. そのため、スペクトル減算を行わずスペクトル振幅抑圧だけを行う必要があることから、式(5)に示すようにスペクトル振幅抑圧量β[f ]に最大抑圧量−Gmin(dB)を設定する。 Therefore, it is necessary to perform only spectral amplitude suppression without spectrum subtraction, sets the maximum suppression amount -Gmin (dB) in Equation (5) the spectrum amplitude suppression quantity as shown in β [f B].
update[f ]=VOICEの時β[f ]=Min{SNR[f ]・GAIN−Gmin,0} update [f B] = when VOICE β [f B] = Min {SNR [f B] · GAIN-Gmin, 0}
update[f ]=NOISEまたはupdate[f ]=SPEECHLIKE_NOISEの時β[f ]=−Gmin (5) update [f B] = NOISE or update [f B] = when SPEECHLIKE_NOISE β [f B] = - Gmin (5)
【0043】 [0043]
式(5)に従ってスペクトル振幅抑圧量β[f ]を求めた後、雑音抑圧制御部9は、このβ[f ]を用い、式(6)に従ってスペクトル減算量α[f ]を求める。 After obtaining the equation (5) spectral amplitude suppression quantity β [f B] according to the noise suppression control unit 9, using the β [f B], obtaining the spectral subtraction amount α [f B] according to equation (6) . 雑音抑圧制御部9は、得られたスペクトル減算量α[f ]をスペクトル減算部10へ、スペクトル振幅抑圧量β[f ]をスペクトル振幅抑圧部11へ出力する。 Noise suppression control unit 9, the spectral subtraction amount α [f B] spectral subtraction unit 10 thus obtained, and outputs the spectral amplitude suppression quantity β of [f B] to the spectrum amplitude suppression unit 11.
α[f ]=−(Gmin+β[f ]) (6) α [f B] = - ( Gmin + β [f B]) (6)
【0044】 [0044]
スペクトル減算部10は、スペクトル減算量α[f ]をパーセンテージ値であるスペクトル減算率α [f ]に変換する。 Spectral subtraction unit 10 converts the spectral subtraction amount alpha a [f B] on spectral subtraction factor α P [f B] is the percentage value. スペクトル減算部10は、式(7)に従い、雑音スペクトル推定部7から出力された推定雑音スペクトルN[f ]にスペクトル減算率α [f ]を乗じたスペクトルを時間・周波数変換部2から出力された振幅スペクトルS[f]から減算し、雑音引き去りスペクトルS [f]を出力する。 Spectral subtraction unit 10 in accordance with Equation (7), the estimated noise spectrum N [f B] on spectral subtraction factor α P [f B] a spectrum obtained by multiplying the time-frequency transform unit 2, which is output from the noise spectrum estimation unit 7 subtracted from the amplitude spectrum S [f] output from the outputs of the noise subtraction spectrum S S [f]. 雑音引き去りスペクトルS [f]が負になる場合には、入力信号の振幅スペクトルS[f]に与えられた所定の定数GL minを振幅スペクトルS[f]に乗じたものを雑音引き去りスペクトルS [f]とする埋め戻し処理を行う。 Noise subtraction spectrum S S when [f] is negative, subtraction noise those predetermined constant GL min given to the amplitude spectrum S [f] of the input signal by multiplying the amplitude spectrum S [f] spectrum S do the backfill processing and S [f].
なお、本処理においては、各帯域番号f に対応した推定雑音スペクトルN[f ]とスペクトル減算率α [f ]を、各帯域番号f に対応した振幅スペクトル成分S[f]に展開して計算を行うものとする。 In the present process, each band number f B estimated noise spectrum corresponding to the N [f B] and spectral subtraction factor α P [f B], the amplitude spectral component S [f] corresponding to each band number f B it is assumed that the calculation is performed to expand to.
S[f]>α [f ]・N[f ]の時S [f]=S[f]−α [f ]・N[f S [f]> α P [ f B] · N when S S of [f B] [f] = S [f] -α P [f B] · N [f B]
S[f]≦α [f ]・N[f ]の時S [f]=S[f]・GL min (7) S [f] ≦ α P [ f B] · N when S S of [f B] [f] = S [f] · GL min (7)
【0045】 [0045]
次に、スペクトル振幅抑圧部11は、スペクトル振幅抑圧量β[f ]をリニア値β [f ]に変換し、式(8)に従って雑音引き去りスペクトルS [f]にβ [f ]を乗じて、雑音抑圧スペクトルSr[f]を算出する。 Next, the spectrum amplitude suppression unit 11, the spectral amplitude suppression quantity beta converting [f B] a linear value beta 1 in [f B], subtraction noise according to equation (8) spectrum S S [f] to beta 1 [f B] is multiplied by the calculated noise suppressed spectrum Sr [f].
Sr[f]=β [f ]・S [f] (8) Sr [f] = β 1 [ f B] · S S [f] (8)
【0046】 [0046]
式(5)と式(6)から分かるように、推定雑音スペクトル更新フラグupdate[f ]がVOICEに設定されている音声帯域では、帯域SN比SNR[f ]が大きくなればスペクトル振幅抑圧量β[f ]が小さくなり、振幅抑圧が弱まると共に、スペクトル減算量α[f ]は大きくなり、スペクトル減算が強くなる。 As seen from equation (5) and (6), in the voice band the estimated noise spectrum update flag update [f B] is set to VOICE, spectral amplitude suppression The larger band SN ratio SNR [f B] is the amount β [f B] is reduced, the amplitude suppression weakened, spectral subtraction amount α [f B] is increased, spectral subtraction becomes stronger. 逆に、帯域SN比SNR[f ]が小さくなればスペクトル振幅抑圧量β[f ]は大きくなり、振幅抑圧が強まると共に、スペクトル減算が弱くなる。 Conversely, the spectrum amplitude suppression quantity β [f B] is increased the smaller the band SN ratio SNR [f B], with the amplitude suppression stronger, the spectrum subtraction becomes weak. これにより、SN比が高い帯域では主にスペクトル減算で雑音抑圧量を稼ぎ、SN比が低い帯域では音声スペクトル成分を保持しつつ振幅抑圧を行うことになるので、高い雑音抑圧量と音質を両立することができる。 Thus, earn noise suppression quantity mainly by spectral subtraction in a band SN ratio is high, since the SN ratio becomes possible to perform amplitude suppression while retaining speech spectrum components at low band, both high noise suppression quantity and quality can do.
【0047】 [0047]
また、推定雑音スペクトル更新フラグupdate[f ]がNOISEもしくはSPEECHLIKE_NOISEに設定されている雑音帯域または音声的雑音帯域では、スペクトル振幅抑圧量β[f ]が最大抑圧量Gminになっているので、スペクトル減算量α[f ]の値は0となり、スペクトル減算処理は行われず、雑音はそのスペクトル形状を保持したまま音量が小さくなるだけでスペクトル変形が発生しないので雑音抑圧処理音声の「自然性」が保たれる。 Further, the estimated noise spectrum update flag update [f B] is the noise band or voice noise bandwidth is set to NOISE or SPEECHLIKE_NOISE Since the spectral amplitude suppression quantity β [f B] is the largest suppression amount Gmin, spectral subtraction amount α [f B] is the value 0, the spectral subtraction process is not performed, noise "nature of the noise suppression processing speech because spectrum deformation does not occur in only the volume while keeping the spectral shape is small "it is maintained.
【0048】 [0048]
図6〜図8を用いて、音声区間における雑音抑圧処理の具体例を説明する。 With reference to FIGS. 6 to 8, a specific example of the noise suppression processing in the speech section. 図6は入力信号中の音声信号と音声的雑音信号のそれぞれのスペクトル成分を示した図である。 6 is a graph showing the respective spectral component of the audio signal and the audio noise signal in the input signal. 図7は、図6の入力信号を従来のように、音声的雑音帯域が誤って音声帯域と判断された場合の雑音抑圧処理後のスペクトルを示した図である。 7, as in the conventional input signal of FIG. 6 is a diagram showing a spectrum after the noise suppression processing in the case where the audio noise band is determined to voiceband incorrectly. 図8は、図6に示す入力信号をこの実施の形態1の雑音抑圧装置100に入力した場合の雑音抑圧処理後のスペクトルを示す図である。 Figure 8 is a diagram showing a spectrum after the noise suppression processing in the case of inputting the input signal shown in FIG. 6 in the noise suppression apparatus 100 of the first embodiment.
【0049】 [0049]
図7に示す例では、図中、SPEECHLIKE_NOISEで示された音声的雑音帯域部分が音声と誤って判定され、その判定に基づいてスペクトル減算が行われる。 In the example shown in FIG. 7, in the figure, is erroneously determined phonetic noise band portion indicated by SPEECHLIKE_NOISE is a speech, spectral subtraction is performed based on the determination. このため、図に示すように、音声的雑音帯域においてスペクトル変形が生じ、音声スペクトルの高域成分に、大きな振幅の孤立した残留スペクトル成分が発生している。 Therefore, as shown in FIG spectral deformation occurs in the audio noise band, the high-frequency component of the audio spectrum, isolated remaining spectral components of large amplitude is generated.
一方、図8に示す例では、音声的雑音帯域は音声的雑音と判定され、その判定に基づいて、スペクトル減算は行わず、スペクトルの振幅抑圧のみが行われるので、スペクトル変形は生じず、孤立した残留スペクトルは発生しない。 On the other hand, in the example shown in FIG. 8, the audio noise band is determined to be voice noise, based on the determination, spectral subtraction is not performed, only the amplitude suppression of the spectrum is performed, does not occur spectrum deformation, isolated residual spectrum does not occur. よって、良好な雑音抑圧が実現されている。 Thus, it has been realized good noise suppression.
【0050】 [0050]
また、図9〜図11を用いて、雑音区間における雑音抑圧処理の具体例を説明する。 Further, with reference to FIGS. 9 to 11, a specific example of the noise suppression processing in the noise section. 図9は音声的雑音スペクトルの例を示した図である。 Figure 9 is a diagram showing an example of a speech noise spectrum. 図10は従来のように、音声的雑音帯域が誤って音声帯域と判断された場合の雑音抑圧処理後の音声的雑音スペクトルを示す図である。 10 as in the prior art, is a diagram showing an audio noise spectrum after the noise suppression processing in the case where the audio noise band is determined to voiceband incorrectly. また、図11はこの実施の形態1の雑音抑圧装置100による雑音抑圧処理後の音声的雑音スペクトルを示す図である。 Further, FIG. 11 is a diagram showing an audio noise spectrum after the noise suppression processing by the noise suppression apparatus 100 of the first embodiment.
【0051】 [0051]
図10に示す例では、点在する音声的雑音スペクトルが音声と誤って判定され、その判定に基づいてスペクトル減算が行われる。 In the example shown in FIG. 10, the audio noise spectrum scattered is determined incorrectly speech, spectral subtraction is performed based on the determination. これにより、スペクトル変形が発生し、振幅の大きな孤立スペクトル成分が発生して音声的雑音スペクトルが強調されている。 Thus, the spectral deformation occurs, it is emphasized speech noise spectrum large isolated spectral component amplitude is generated. 一方、図11では、点在する音声的雑音スペクトルは音声的雑音として正しく判定され、その判定に基づいてスペクトル減算ではなくスペクトル振幅抑圧が行われるので、スペクトル変形は生じず、全帯域において雑音のスペクトル形状が保持されたまま信号パワーのみが減少する。 On the other hand, in FIG. 11, the audio noise spectrum that dot is correctly determined as a voice noise, because the spectral amplitude suppression rather than performed in spectral subtraction based on the determination, does not occur spectral distortion, noise in all bands only while the signal power spectrum shape is maintained is reduced. すなわち、雑音の自然性が保たれたまま音量のみが小さくなり、良好な雑音抑圧を行うことができる。 That is, only the volume pristine of the noise is maintained is reduced, it is possible to perform good noise suppression.
【0052】 [0052]
周波数・時間変換部12は、雑音抑圧スペクトルSr[f]と時間・周波数変換部2が出力する位相スペクトルP[f]を時間信号に変換し、一部、前フレームの雑音抑圧信号と重ね合わせ処理を行い、雑音抑圧信号sr[t]を出力端子13より出力する。 Frequency-time converter 12, a phase spectrum P [f] the noise suppressed spectrum Sr [f] a time-frequency conversion unit 2 outputs into a time signal, part, superimposed with noise suppression signal in the previous frame It performs processing to output from the output terminal 13 a noise suppression signal sr [t].
【0053】 [0053]
以上のように、この実施の形態1によれば、入力信号のスペクトルを周波数帯域で分割し、帯域毎にスペクトルのSN比に基づいて音声・雑音の判定を行なう。 As described above, according to the first embodiment, the spectrum is divided by the frequency band of the input signal, and determines speech and noise on the basis of the SN ratio of the spectrum for each band. さらに、雑音と判定された帯域につては、雑音区間の連続の程度を解析し、一定以上雑音帯域が続いた場合にのみ再度雑音と判定する。 Is further determined, connexion band that is determined to noise analyzes the degree of continuous noise period, and again noise only when more than a predetermined noise band was followed. さらに、雑音帯域については、連続した帯域間でのSN比の分散に基づいて、雑音と音声的雑音の区別を行なうようにした。 Furthermore, the noise band on the basis of the variance of the SN ratio between successive bands, and to perform the distinction between noise and speech noise.
これらの区別に基づいて、帯域毎に適正な雑音スペクトルを推定し、また、帯域毎のスペクトル形状に適した雑音抑圧方法を選択して雑音抑圧を行なうようにしたので、帯域毎に最適な雑音抑圧が行なわれ、聴感上好ましい音声を得ることが可能である。 Based on these distinctions, it estimates an appropriate noise spectrum for each band, also because to perform noise suppression by selecting noise suppression method suitable for the spectral shape of each band, the optimal noise for each band suppression is performed, it is possible to obtain a perceptually preferred sound.
【0054】 [0054]
音声的雑音の判定が正しくできると、周波数軸方向の変動が大きな音声的雑音のスペクトル成分が、推定雑音スペクトルに混入することが避けられるので、推定雑音スペクトルの精度劣化を防止することができる。 When the determination of the audio noise correctly, variations in the frequency axis direction is the spectral component of a larger audio noise, since is avoided be incorporated into the estimated noise spectrum, it is possible to prevent a deterioration in precision of the estimated noise spectrum.
【0055】 [0055]
また、音声的雑音の判定ができることにより、音声的雑音の帯域については雑音抑圧方法にスペクトル減算を用いず、スペクトル振幅抑圧だけを行う。 Moreover, The ability determination audio noise, without using the spectral subtraction noise suppression method for band speech noise, perform only spectral amplitude suppression. これにより、抑圧後のスペクトルに変形が生じず、スペクトル形状を保持したまま音量だけが小さくなるようにできる。 Accordingly, without causing deformation to the spectrum after suppression can so that only the volume while keeping the spectral shape is small. このため、孤立した残留スペクトル成分が発生しないので、雑音抑圧処理後の音声の自然性は保たれ、残留雑音に含まれる耳障りな人工的雑音(ミュージカルノイズ)の増大を防ぐことができる。 Therefore, since the isolated residual spectral component does not occur, naturalness of speech after the noise suppression processing is maintained, it is possible to prevent an increase in harsh artificial noise contained in the residual noise (musical noise).
【0056】 [0056]
なお、実施の形態1においては、図3に示したように帯域別音声・雑音判定部6は、雑音らしさ分析部3が出力する雑音らしさ信号Nsttの値を利用して帯域毎の推定雑音スペクトル更新フラグupdate[f ]の設定処理を行なっているが、雑音らしさ信号Nsttの値による判定処理は行なわず、帯域別音声・雑音判定フラグsvad[f ]のみを用いて処理をおこなってもよい。 In the first embodiment, the band-by-band speech and noise determination unit 6 as shown in Figure 3, the estimated noise spectrum for each band by using the value of the noise likeness signal Nstt the noise likeness analyzing unit 3 outputs While performing setting processing of the update flag update [f B], the determination process by the value of the noise likeness signal Nstt is not performed, even by performing processing using only the per-band speech and noise determination flag svad [f B] good.
また、同じく雑音らしさ分析部3が出力する雑音スペクトル更新係数rについても、図2に示したように雑音らしさ信号Nsttに対応した値を用いず、固定値を用いて推定雑音スペクトルの算出を行なうようにしてもよい。 Also, similarly for even noise spectrum update coefficient r which is noise likeness analyzing unit 3 outputs, without using a value corresponding to the noise likeness signal Nstt as shown in FIG. 2, to calculate the estimated noise spectrum using a fixed value it may be so.
【0057】 [0057]
実施の形態2. The second embodiment.
実施の形態1においては、電話等、4kHz程度までの音声帯域を対象とした音声通信システムに利用する雑音抑圧装置を考え、入力信号のサンプリング周波数として8kHzを利用した。 In the first embodiment, telephone, etc., considering the noise suppression apparatus used for voice communications system intended for audio band up to about 4 kHz, using 8kHz as the sampling frequency of the input signal. 実施の形態2では、例えばサンプリング周波数を16kHzまで拡張することにより、音声帯域が7kHzを上限とする、広帯域音声通信システムに利用できる雑音抑圧装置を考える。 In the second embodiment, for example, by extending the sampling frequency to 16 kHz, the audio band is the upper limit 7 kHz, consider a noise suppression device that can be used in broadband voice communications system.
【0058】 [0058]
4kHz以上の音声スペクトル成分のSN比は、4kHz以下の電話の音声帯域におけるSN比よりも更に小さくなる。 SN ratio of 4kHz or more audio spectral components is even smaller than the SN ratio in the voice band of the following telephone 4kHz. そのため、実施の形態1で用いた閾値TH1およびTHcとは別に4kHz以上の高域に適した閾値を用意する。 Therefore, providing a threshold separately suitable for 4kHz or more high-pass the threshold TH1 and THc used in the first embodiment.
【0059】 [0059]
すなわち、4kHz以上の高域では、帯域別音声・雑音判定に用いる閾値を4kHz以下の帯域よりも小さくし、例えばTH1 =0.5(dB)とする。 That is, in the above high-frequency 4 kHz, the threshold used for the band-by-band speech and noise determination is made smaller than the following band 4 kHz, for example a TH1 h = 0.5 (dB). これにより、音声のSN比が小さい高域の音声が、より音声として判定され易くなる。 Thus, the sound of high-range SN ratio is small voice, more likely to be determined more as sound. また、雑音帯域の連続カウント閾値を大きくし、例えばTHc =4と設定する。 Also, by increasing the continuous count threshold noise band is set, for example THc h = 4. これにより、音声帯域を判定されやすくなる。 This is easily determined voiceband.
また4kHz以上の音声が誤って雑音または音声的雑音と判断された場合でも、実施の形態2の雑音抑圧装置では、雑音、音声的雑音帯域に対してはスペクトル減算処理を行わず、スペクトル振幅抑圧処理のみ行う。 Even when it is determined that incorrectly more voice 4kHz noise or sound noise, a noise suppression apparatus of the second embodiment, the noise, without spectrum subtraction processing for audio noise band spectrum amplitude suppression perform processing only. これにより、スペクトル減算によるスペクトル変形が生じず、孤立した残留スペクトル成分は発生しないので音質が劣化することは避けられる。 Accordingly, without causing the spectral distortion due to spectral subtraction, the residual spectral components isolated is avoided that the sound quality is deteriorated does not occur.
【0060】 [0060]
以上のように、この実施の形態2によれば、広帯域音声通信システムに適用した場合でも、各閾値を各帯域に適した値に設定することにより、高域の音声に対しても適切な雑音抑圧処理を行うことができる。 As described above, according to the second embodiment, even when applied to wideband speech communication system, by the respective threshold is set to a value suitable for each band, suitable even for speech of the high frequency noise suppression processing can be performed.
また、4kHz以上の帯域の音声成分を雑音または音声的雑音と誤って判定した場合でも、スペクトル減算処理は行わずスペクトル振幅抑圧処理のみが行われることから、スペクトル減算によるスペクトル変形が生じず孤立した残留スペクトル成分は発生しないので音質の劣化を防ぐことができる。 Further, even if the erroneously determined audio component of 4kHz or more bands with noise or sound noise, since only the spectral amplitude suppression processing without performing the spectral subtraction process is performed, the spectral variations due to spectral subtraction are isolated not occur residual spectral components does not occur can be prevented degradation of sound quality.
【0061】 [0061]
実施の形態3. Embodiment 3.
実施の形態1および実施の形態2では、帯域別音声・雑音判定部6において用いられる各判定閾値は、全帯域で、あるいは帯域別に一定値に設定されていた。 In the first and second embodiments, the determination threshold value used in the band-by-band speech and noise determination unit 6 has been set to a constant value over the entire band, or by bands. 実施の形態3では、例えば雑音らしさ分析部3が出力する雑音らしさ信号Nsttの値に基づいて、各閾値を動的に変化させる。 In the third embodiment, for example, based on the value of the noise likeness signal Nstt the noise likeness analyzing unit 3 outputs, dynamically changing each threshold.
【0062】 [0062]
図12は、この発明の実施の形態3による雑音抑圧装置300の構成を示すブロック図である。 Figure 12 is a block diagram showing the configuration of a noise suppression apparatus 300 according to the third embodiment of the present invention. 図1と同一の符号は同一の構成要素を表している。 1 identical to the reference numerals represent the same components. 図に示すように、雑音抑圧装置300は、閾値変更部14を備える。 As shown, the noise suppression apparatus 300 includes a threshold value changing section 14. 実施の形態3では、閾値変更部14以外の各部は実施の形態1と同様に動作する。 In the third embodiment, each unit other than the threshold changing unit 14 operates similarly to the first embodiment.
【0063】 [0063]
閾値変更部14は、内部に、図13に示すような定数テーブルを有している。 Threshold value changing unit 14 includes, inside, has a constant table shown in FIG. 13. このテーブルは、雑音らしさ分析部3が出力する雑音らしさ信号Nsttに対応する帯域別音声・雑音判定判定用閾値TH1と雑音区間の帯域幅閾値THcとを関連付けている。 This table associates the bandwidth threshold THc of per-band speech and noise determination threshold for determining TH1 and noise section corresponding to the noise likeness signal Nstt the noise likeness analyzing unit 3 outputs. 図に示すように、雑音らしさ信号Nsttが音声と予測される値(Nstt=1,2,3)の場合には、より音声として判定され易くするために、TH1を小さくすると共にTHcを大きくする。 As shown in the figure, when the value noise likeness signal Nstt is expected to speech (Nstt = 1,2,3), in order to facilitate the determination more as a voice, to increase the THc well as reduce the TH1 . 逆に、雑音らしさ信号Nsttが雑音と予測される値(Nstt=4,5)の場合には、より雑音として判定され易くするために、TH1を大きくTHcを小さく設定している。 Conversely, if the value noise likeness signal Nstt is expected to noise (Nstt = 4,5), in order to facilitate the determination as a more noise is set to be smaller the larger THc the TH1.
【0064】 [0064]
閾値変更部14は、この内部テーブルを参照し、雑音らしさ分析部3から出力されたNsttに対応する閾値TH1及びTHcを選択し、帯域別音声・雑音判定部6に出力する。 Threshold value changing unit 14 refers to the internal table to select the threshold TH1 and THc corresponding to Nstt outputted from the noise likeness analyzing unit 3, and outputs the band-by-band speech and noise determination unit 6. 帯域別音声・雑音判定部6は、閾値変更部14から通知された閾値TH1及びTHcを用いて、実施の形態1と同様の処理を行う。 Per-band speech and noise determination unit 6, using the notified threshold TH1 and THc from the threshold changing unit 14 performs the same process as in the first embodiment.
【0065】 [0065]
以上のように、この実施の形態3によれば、雑音らしさ分析部3が出力する雑音らしさ信号Nsttの結果に応じて各判定閾値を選択することにより、帯域別音声・雑音判定処理を入力信号の状態に適した条件で行うことができる。 As described above, according to the third embodiment, by the noise likeness analyzing unit 3 to select each determination threshold according to the result of the noise likeness signal Nstt outputs, the band-by-band speech and noise determination processing an input signal it can be carried out at conditions suitable for the state. これにより、帯域別音声・雑音判定の判定精度が向上し、雑音抑圧処理後の信号の音質を更に向上させることができる。 This improves the accuracy of determining the per-band speech and noise determination, the sound quality of the noise suppression processing after the signal can be further improved.
【0066】 [0066]
なお、本実施の形態3では、閾値TH1および閾値THcの2つの閾値を動的に変更しているが、どちらか一方だけを変更するようにしてもよい。 In the third embodiment, although dynamically changes the two thresholds in the threshold TH1 and threshold THc, may be changed only one or the other.
【0067】 [0067]
また、実施の形態3においても、サンプリング周波数を例えば16kHzまで拡張することにより、音声帯域幅が7kHzの広帯域音声通信システム向けに利用することができる。 Also in the third embodiment, by extending the sampling frequency such as up to 16 kHz, it can be audio bandwidth is used for wideband speech communication system for the 7 kHz.
【0068】 [0068]
【発明の効果】 【Effect of the invention】
以上のように、この発明によれば、聴感上好ましい雑音抑圧が可能で、高雑音下でも品質劣化の少ない雑音抑圧装置を得られるという効果がある。 As described above, according to the present invention, it can be perceptually preferred noise suppression, there is an effect of obtaining a noise suppression apparatus little quality degradation even under high noise.
【図面の簡単な説明】 BRIEF DESCRIPTION OF THE DRAWINGS
【図1】この発明の実施の形態1による雑音抑圧装置の構成を示すブロック図である。 1 is a block diagram showing the configuration of a noise suppressing apparatus according to Embodiment 1 of the present invention.
【図2】雑音らしさ信号及び雑音スペクトル更新係数と、現フレームの様態との関係を示す図である。 [Figure 2] and the noise likeness signal and noise spectrum update coefficient is a diagram showing the relationship between the aspect of the current frame.
【図3】この発明の実施の形態1による、帯域別音声・雑音判定部における帯域毎の推定雑音スペクトル更新フラグの設定処理のフローチャートである。 [3] According to the first embodiment of the present invention, it is a flowchart of a setting process of the estimated noise spectrum update flag for each band in the band-by-band speech and noise determination unit.
【図4】入力信号の音声スペクトルと雑音スペクトルの例を示す図である。 4 is a diagram showing an example of a speech spectrum and the noise spectrum of the input signal.
【図5】この発明の実施の形態1による、図4に示す入力信号から得られる推定雑音スペクトル更新フラグの例を示す図である。 [5] According to the first embodiment of the present invention, it is a diagram showing an example of the estimated noise spectrum update flag obtained from the input signal shown in FIG.
【図6】音声スペクトルと音声的雑音信号のスペクトルの例を示す図である。 6 is a diagram showing an example of a spectrum of the speech spectrum and the sound noise signal.
【図7】音声的雑音信号が誤って音声と判断された場合の、雑音抑圧処理後のスペクトルの例を示す図である。 [7] when the audio noise signal is determined to voice accidentally, is a diagram illustrating an example of spectrum after the noise suppression processing.
【図8】この発明の実施の形態1による、雑音抑圧処理後のスペクトルの例を示す図である。 [8] According to the first embodiment of the present invention, it is a diagram showing an example of a spectrum after the noise suppression processing.
【図9】雑音区間における音声的雑音スペクトルの例である。 9 is an example of a speech noise spectrum in the noise section.
【図10】音声的雑音信号が誤って音声と判断された場合の、雑音抑圧処理後の音声的雑音スペクトルの例を示す図である。 [Figure 10] when the audio noise signal is determined to voice accidentally, it is a diagram illustrating an example of a speech noise spectrum after the noise suppression processing.
【図11】この発明の実施の形態1による、雑音抑圧処理後の音声的雑音スペクトルの例を示す図である。 [11] According to the first embodiment of the present invention, it is a diagram showing an example of a speech noise spectrum after the noise suppression processing.
【図12】この発明の実施の形態3による雑音抑圧装置の構成を示すブロック図である。 12 is a block diagram showing the configuration of a noise suppressing apparatus according to Embodiment 3 of the present invention.
【図13】雑音らしさ信号と各判定閾値との関係を示す図である。 13 is a diagram showing the relationship between the noise likeness signal and the determination threshold value.
【符号の説明】 DESCRIPTION OF SYMBOLS
1 入力端子、2 時間・周波数変換部、3 雑音らしさ分析部、4 帯域分割部、5 帯域SN比計算部、6 帯域別音声・雑音判定部、7 雑音スペクトル推定部、8 雑音抑圧部、9 雑音抑圧制御部、10 スペクトル減算部、11 スペクトル振幅抑圧部、12 周波数・時間変換部、13 出力端子、14閾値変更部、100,300 雑音抑圧装置。 1 input terminal, 2 hours-frequency converter, 3 noise likeness analyzing unit, 4 band division unit, 5 band SN ratio calculating unit, a voice-noise determination unit by 6 bands, 7 noise spectrum estimation unit, 8 noise suppressor, 9 noise suppression control section, 10 spectral subtraction unit, 11 spectral amplitude suppression unit, conversion unit 12 frequency-time, 13 an output terminal, 14 the threshold changing unit, 100 and 300 the noise suppressing device.

Claims (12)

  1. 時間領域で表される入力音声信号を周波数領域の表現に変換し、上記周波数成分から振幅スペクトルと位相スペクトルを生成する時間・周波数変換部と、 Converting an input audio signal represented in the time domain to a frequency domain representation, and time-frequency converter that generates an amplitude spectrum and phase spectrum from said frequency components,
    上記振幅スペクトルを複数の周波数帯域に分割し、帯域毎の平均振幅スペクトルを出力する帯域分割部と、 Dividing the amplitude spectrum into a plurality of frequency bands, a band dividing section for outputting an average amplitude spectrum for each band,
    上記周波数帯域毎に平均振幅スペクトルのスペクトル形状を解析して音声、雑音、及び音声に類似した音声的雑音の区別を行い、スペクトル形状判定結果を出力する帯域別音声・雑音判定部と、 And voice, noise, and it performs distinction of audio noise similar to the sound, the band-by-band speech and noise determination unit for outputting a spectral shape determination result by analyzing the spectral shape of the average amplitude spectrum for each said frequency band,
    上記スペクトル形状判定結果に基づいて、上記周波数帯域毎の推定雑音スペクトルの更新を行なうかどうかを決定する雑音スペクトル推定部と、 Based on the spectral shape determination result, the noise spectrum estimation unit which determines whether to update the estimated noise spectrum for each said frequency band,
    上記スペクトル形状判定結果に基づいて、上記周波数帯域毎に最適な雑音抑圧方法を選択し、選択した方法に従って各周波数帯域の振幅スペクトルから上記周波数帯域毎の推定雑音スペクトルを抑圧することにより得られる雑音抑圧スペクトルを出力する雑音抑圧部と、 Based on the spectral shape determination result, selects an optimum noise suppression method for each of the frequency bands obtained by suppressing the estimated noise spectrum for each said frequency band from the amplitude spectrum of each frequency band according to the method selected noise a noise suppression section for outputting a suppressed spectrum,
    上記雑音抑圧スペクトルを時間領域で表される信号に変換することにより雑音抑圧信号を生成する周波数・時間変換部とを備えた雑音抑圧装置。 Noise suppression device and a frequency-time conversion unit for generating a noise suppression signal by converting the signal represented the noise suppressed spectrum in the time domain.
  2. 入力音声信号の雑音らしさを分析し、上記入力音声信号が音声か雑音かを表す雑音らしさ信号と、雑音らしさに応じた雑音スペクトル更新係数を出力する雑音らしさ分析部を備え、 Analyzing the noise likeness of the input speech signal, comprising the input speech signal and the noise likeness signal representing whether speech or noise, the noise likeness analyzing unit for outputting a noise spectrum update coefficient corresponding to the noise likeness,
    帯域別音声・雑音判定部は、上記雑音らしさ信号を周波数帯域毎のスペクトル形状の解析に利用し、 Per-band speech and noise determination unit, by utilizing the noise likeness signal to the analysis of the spectral shape of each frequency band,
    雑音スペクトル推定部は、上記雑音スペクトル更新係数を用いて推定雑音スペクトルを算出し、スペクトル形状判定結果に基づいて上記推定雑音スペクトルの更新を行なうことを特徴とする請求項1記載の雑音抑圧装置。 Noise spectrum estimation unit calculates the estimated noise spectrum using the noise spectrum update coefficient, the noise suppressing apparatus according to claim 1, wherein based on the spectral shape determination result and performing the update of the estimated noise spectrum.
  3. 周波数帯域毎に、平均振幅スペクトルのパワーと推定雑音スペクトルのパワーの比で表される帯域SN比を算出する帯域SN比計算部を備え、 For each frequency band, comprising a band SN ratio calculating unit for calculating a band SN ratio expressed by power and power ratio of the estimated noise spectrum of the mean amplitude spectrum,
    帯域別音声・雑音判定部は、上記帯域SN比の値と上記帯域SN比の複数帯域における分散の値に基づいて、平均振幅スペクトルのスペクトル形状を判定することを特徴とする請求項1または請求項2記載の雑音抑圧装置。 Per-band speech and noise determination unit, based on the value of variance in multiband values ​​and the band SN ratio of the band SN ratio, according to claim 1 or claim, characterized by determining the spectral shape of the average amplitude spectrum noise suppressing device of claim 2 wherein.
  4. 帯域別音声・雑音判定部は、帯域SN比が第1の閾値以下になる周波数帯域が第2の閾値以上連続している場合には、それらの連続した帯域のスペクトル形状を雑音と判定し、それ以外の場合には音声と判定することを特徴とする請求項3記載の雑音抑圧装置。 Per-band speech and noise determination unit, if a band SN ratio frequency band of below the first threshold is continuous over the second threshold, and determine their continuous band of spectral shape noise and, noise suppressing device according to claim 3, wherein determining that speech in other cases.
  5. 帯域別音声・雑音判定部は、帯域SN比が第1の閾値以下になる周波数帯域が第2の閾値以上連続した場合に、それらの連続した帯域における帯域SN比の分散が第3の閾値より小さくなる場合には、それらの連続した帯域のスペクトル形状を雑音と判定し、 Per-band speech and noise determination unit, when the frequency band band SN ratio falls below the first threshold value continues over a second threshold value, the variance of the band SN ratio in their successive bands than the third threshold value If smaller, the their continuous band of spectral shape is determined as noise,
    一方、それらの連続した帯域における帯域SN比の分散が第3の閾値以上になる場合には、それらの連続した帯域のスペクトル形状を音声的雑音と判定することを特徴とする請求項4記載の雑音抑圧装置。 On the other hand, the dispersion of the band SN ratio in their continuous band when equal to or greater than the third threshold value, according to claim 4, wherein the determining their continuous band of spectral shape and sound noise noise suppression apparatus.
  6. 雑音スペクトル推定部は、音声的雑音と判定した帯域については、その帯域の推定雑音スペクトルの更新を行わないことを特徴とする請求項1から請求項5のうちのいずれか1項記載の雑音抑圧装置。 Noise spectrum estimating unit for band where it is determined that audio noise, noise suppression according to any one of claims 1 to 5, characterized in that does not update the estimated noise spectrum of the band apparatus.
  7. 雑音抑圧部は、スペクトル形状判定結果と帯域SN比に基づいて、複数の雑音抑圧方法による抑圧量の割合を制御する雑音抑圧制御部を備え、 Noise suppressor is based on the spectral shape determination result and bandwidth SN ratio, comprising a noise suppression control section which controls the rate of suppression amount by a plurality of noise suppression method,
    制御された割合に基づいて、各周波数帯域の振幅スペクトルから上記周波数帯域毎の雑音スペクトルを抑圧して得られる雑音抑圧スペクトルを出力することを特徴とする請求項3から請求項6のうちのいずれか1項記載の雑音抑圧装置。 Based on the controlled ratio, any of the claim 6 claim 3, characterized in that the amplitude spectrum of each frequency band and outputs the noise suppressed spectrum obtained by suppressing the noise spectrum for each said frequency band noise suppressing device of one of claims.
  8. 雑音抑圧制御部は、スペクトル形状判定結果が雑音または音声的雑音である帯域については、スペクトル減算による雑音抑圧を行なわず、スペクトル振幅抑圧による雑音抑圧のみを行なうことを特徴とする請求項7記載の雑音抑圧装置。 Noise suppression control unit for band spectral shape determination is noise or speech noise, without noise suppression by spectral subtraction, according to claim 7, characterized by performing only a noise suppression by spectral amplitude suppression noise suppression apparatus.
  9. 雑音抑圧制御部は、スペクトル形状判定結果が音声である帯域については、帯域SN比が大きくなるほど、スペクトル減算による雑音抑圧の割合を大きくし、スペクトル振幅抑圧による雑音抑圧の割合を小さくすることを特徴とする請求項7または請求項8記載の雑音抑圧装置。 Noise suppression control unit for band spectral shape determination result is a voice, the larger band SN ratio, characterized in that to increase the ratio of the noise suppression by spectral subtraction to reduce the proportion of noise suppression by spectral amplitude suppression noise suppression apparatus according to claim 7 or claim 8 wherein the.
  10. 帯域分割部は、入力音声信号の振幅スペクトルを人間の聴感特性に対応した周波数帯域に分割することを特徴とする請求項1から請求項9のうちのいずれか1項記載の雑音抑圧装置。 Band dividing unit, the noise suppression device according to any one of claims 1 to 9, characterized in that dividing the frequency band corresponding to the amplitude spectrum of the input audio signal to the characteristics of human perception.
  11. 雑音らしさ分析部が出力する雑音らしさ信号に応じた第1の閾値を選択して出力する閾値変更部を備え、 Includes a threshold changing portion which noise likeness analyzing unit first selects the threshold value output corresponding to the noise likeness signal output,
    帯域別音声・雑音判定部は、上記選択された第1の閾値を用いてスペクトル形状の判定を行なうことを特徴とする請求項4から請求項10のうちのいずれか1項記載の雑音抑圧装置。 Per-band speech and noise determination unit, a noise suppression device according to any one of claims 10 to claim 4, characterized in that the determination of the spectral shape using a first threshold value which is the selected .
  12. 雑音らしさ分析部が出力する雑音らしさ信号に応じた第2の閾値を選択して出力する閾値変更部を備え、 Includes a threshold changing portion which noise likeness analyzing unit selects the second threshold value output corresponding to the noise likeness signal output,
    帯域別音声・雑音判定部は、上記選択された第2の閾値を用いてスペクトル形状の判定を行なうことを特徴とする請求項4から請求項10のうちのいずれか1項記載の雑音抑圧装置。 Per-band speech and noise determination unit, a noise suppression device according to any one of claims 10 to claim 4, characterized in that the determination of the spectral shape using the second threshold value, which is the selected .
JP2003139248A 2003-05-16 2003-05-16 Noise restriction device Abandoned JP2004341339A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003139248A JP2004341339A (en) 2003-05-16 2003-05-16 Noise restriction device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003139248A JP2004341339A (en) 2003-05-16 2003-05-16 Noise restriction device

Publications (1)

Publication Number Publication Date
JP2004341339A true true JP2004341339A (en) 2004-12-02

Family

ID=33528391

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003139248A Abandoned JP2004341339A (en) 2003-05-16 2003-05-16 Noise restriction device

Country Status (1)

Country Link
JP (1) JP2004341339A (en)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006178333A (en) * 2004-12-24 2006-07-06 Nippon Telegr & Teleph Corp <Ntt> Proximity sound separation and collection method, proximity sound separation and collecting device, proximity sound separation and collection program, and recording medium
JP2007017818A (en) * 2005-07-11 2007-01-25 Casio Comput Co Ltd Musical sound controller, and program for musical sound control processing
JP2007053511A (en) * 2005-08-17 2007-03-01 Sony Corp Speech processing device and microphone apparatus
JP2007052150A (en) * 2005-08-17 2007-03-01 Sony Corp Noise canceler and microphone device
JP2008039694A (en) * 2006-08-09 2008-02-21 Toshiba Corp Signal count estimation system and method
JP2008116952A (en) * 2006-10-31 2008-05-22 Harman Becker Automotive Systems Gmbh Model-based enhancement of speech signal
JP2008134605A (en) * 2006-10-23 2008-06-12 Matsushita Electric Ind Co Ltd Noise suppressing device, fm receiver, and method for adjusting fm receiver
WO2010052749A1 (en) * 2008-11-04 2010-05-14 三菱電機株式会社 Noise suppression device
JP2010271712A (en) * 2009-05-22 2010-12-02 Honda Motor Co Ltd Sound data processing device and sound data processing method
JP2011530091A (en) * 2008-08-05 2011-12-15 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン Apparatus and method for processing audio signals for speech enhancement using feature extraction
WO2012038998A1 (en) * 2010-09-21 2012-03-29 三菱電機株式会社 Noise suppression device
US20120250885A1 (en) * 2011-03-30 2012-10-04 Nikon Corporation Signal-processing device, imaging apparatus, and signal-processing program
JP2013190655A (en) * 2012-03-14 2013-09-26 Fujitsu Ltd Noise estimating device, noise estimating method and computer program for noise estimation
US9117456B2 (en) 2010-11-25 2015-08-25 Fujitsu Limited Noise suppression apparatus, method, and a storage medium storing a noise suppression program

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006178333A (en) * 2004-12-24 2006-07-06 Nippon Telegr & Teleph Corp <Ntt> Proximity sound separation and collection method, proximity sound separation and collecting device, proximity sound separation and collection program, and recording medium
JP4533126B2 (en) * 2004-12-24 2010-09-01 日本電信電話株式会社 Proximity sound separation sound collecting method, proximity sound separation and collection device, proximity sound separation sound collecting program, a recording medium
JP4534883B2 (en) * 2005-07-11 2010-09-01 カシオ計算機株式会社 Program of the musical tone control apparatus and tone control process
JP2007017818A (en) * 2005-07-11 2007-01-25 Casio Comput Co Ltd Musical sound controller, and program for musical sound control processing
JP4696776B2 (en) * 2005-08-17 2011-06-08 ソニー株式会社 Audio processing apparatus and a microphone device
JP2007053511A (en) * 2005-08-17 2007-03-01 Sony Corp Speech processing device and microphone apparatus
JP2007052150A (en) * 2005-08-17 2007-03-01 Sony Corp Noise canceler and microphone device
JP2008039694A (en) * 2006-08-09 2008-02-21 Toshiba Corp Signal count estimation system and method
JP4642820B2 (en) * 2006-10-23 2011-03-02 パナソニック株式会社 Noise suppressing device, fm receiving apparatus, and fm receiver apparatus adjustment method
JP2008134605A (en) * 2006-10-23 2008-06-12 Matsushita Electric Ind Co Ltd Noise suppressing device, fm receiver, and method for adjusting fm receiver
JP2008116952A (en) * 2006-10-31 2008-05-22 Harman Becker Automotive Systems Gmbh Model-based enhancement of speech signal
US9064498B2 (en) 2008-08-05 2015-06-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing an audio signal for speech enhancement using a feature extraction
JP2011530091A (en) * 2008-08-05 2011-12-15 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン Apparatus and method for processing audio signals for speech enhancement using feature extraction
JP5300861B2 (en) * 2008-11-04 2013-09-25 三菱電機株式会社 Noise suppression apparatus
WO2010052749A1 (en) * 2008-11-04 2010-05-14 三菱電機株式会社 Noise suppression device
US8737641B2 (en) 2008-11-04 2014-05-27 Mitsubishi Electric Corporation Noise suppressor
JP2010271712A (en) * 2009-05-22 2010-12-02 Honda Motor Co Ltd Sound data processing device and sound data processing method
US8762139B2 (en) 2010-09-21 2014-06-24 Mitsubishi Electric Corporation Noise suppression device
JP5183828B2 (en) * 2010-09-21 2013-04-17 三菱電機株式会社 Noise suppression apparatus
CN103109320A (en) * 2010-09-21 2013-05-15 三菱电机株式会社 Noise suppressing means
WO2012038998A1 (en) * 2010-09-21 2012-03-29 三菱電機株式会社 Noise suppression device
US9117456B2 (en) 2010-11-25 2015-08-25 Fujitsu Limited Noise suppression apparatus, method, and a storage medium storing a noise suppression program
US9734840B2 (en) 2011-03-30 2017-08-15 Nikon Corporation Signal processing device, imaging apparatus, and signal-processing program
JP2012208406A (en) * 2011-03-30 2012-10-25 Nikon Corp Signal processor, imaging apparatus and signal processing program
CN102737644A (en) * 2011-03-30 2012-10-17 株式会社尼康 Signal-processing device, imaging apparatus, and signal-processing program
US20120250885A1 (en) * 2011-03-30 2012-10-04 Nikon Corporation Signal-processing device, imaging apparatus, and signal-processing program
CN102737644B (en) * 2011-03-30 2015-07-22 株式会社尼康 Signal-processing device, imaging apparatus, and signal-processing program
JP2013190655A (en) * 2012-03-14 2013-09-26 Fujitsu Ltd Noise estimating device, noise estimating method and computer program for noise estimation

Similar Documents

Publication Publication Date Title
US6377637B1 (en) Sub-band exponential smoothing noise canceling system
US6691090B1 (en) Speech recognition system including dimensionality reduction of baseband frequency signals
US6263307B1 (en) Adaptive weiner filtering using line spectral frequencies
US20050108004A1 (en) Voice activity detector based on spectral flatness of input signal
US20040057586A1 (en) Voice enhancement system
US20030072464A1 (en) Spectral enhancement using digital frequency warping
US20080177532A1 (en) Apparatus and methods for enhancement of speech
US20110099004A1 (en) Determining an upperband signal from a narrowband signal
US20110066429A1 (en) Voice activity detector and a method of operation
US20110081026A1 (en) Suppressing noise in an audio signal
US20060293882A1 (en) System and method for adaptive enhancement of speech signals
US8249861B2 (en) High frequency compression integration
US20090292536A1 (en) Speech enhancement with minimum gating
US6487257B1 (en) Signal noise reduction by time-domain spectral subtraction using fixed filters
US8521530B1 (en) System and method for enhancing a monaural audio signal
US20080240282A1 (en) Method and apparatus for quickly detecting a presence of abrupt noise and updating a noise estimate
WO2000041169A1 (en) Method and apparatus for adaptively suppressing noise
Lin et al. Adaptive noise estimation algorithm for speech enhancement
US20080167866A1 (en) Spectro-temporal varying approach for speech enhancement
JP2004289614A (en) Voice emphasis apparatus
JP2001134287A (en) Noise suppressing device
JP2003280696A (en) Apparatus and method for emphasizing voice
JP2001265367A (en) Voice section decision device
JP2000347688A (en) Noise suppressor
US20030065509A1 (en) Method for improving noise reduction in speech transmission in communication systems

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060112

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071022

A521 Written amendment

Effective date: 20071022

Free format text: JAPANESE INTERMEDIATE CODE: A821

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20071022

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080709

A977 Report on retrieval

Effective date: 20081014

Free format text: JAPANESE INTERMEDIATE CODE: A971007

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081021

A762 Written abandonment of application

Effective date: 20081208

Free format text: JAPANESE INTERMEDIATE CODE: A762