JP2004341339A - Noise restriction device - Google Patents

Noise restriction device Download PDF

Info

Publication number
JP2004341339A
JP2004341339A JP2003139248A JP2003139248A JP2004341339A JP 2004341339 A JP2004341339 A JP 2004341339A JP 2003139248 A JP2003139248 A JP 2003139248A JP 2003139248 A JP2003139248 A JP 2003139248A JP 2004341339 A JP2004341339 A JP 2004341339A
Authority
JP
Japan
Prior art keywords
noise
spectrum
band
speech
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2003139248A
Other languages
Japanese (ja)
Inventor
Satoshi Furuta
訓 古田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2003139248A priority Critical patent/JP2004341339A/en
Publication of JP2004341339A publication Critical patent/JP2004341339A/en
Abandoned legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a noise restriction device which can perform noise restriction favorable in audibility and has small quality deterioration even in very noisy environment. <P>SOLUTION: The device is equipped with a a band division part 4 which divides the amplitude spectrum of an input speech signal into a plurality of frequency bands and outputs mean amplitude spectra by the bands, a band-classified speech/noise decision part 6 which analyzes spectrum shapes by the frequency bands, discriminates a speech, noise, and a speech-like noise similar to a speech, and outputs an estimated noise spectrum update flag, a noise spectrum estimation part 7 which determines whether estimated noise spectrums are updated by the bands according to the estimated noise spectrum update flag, and a noise restriction part 8 which selects optimum noise restriction methods by the bands according to the estimated noise spectrum update flag to perform noise restriction of the amplitude spectra, and outputs noise restricted spectra. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
この発明は、雑音抑圧装置に関するものである。
【0002】
【従来の技術】
携帯電話やTV会議システム等の音声通信システムや音声認識システムは、種々の雑音を含む環境下で用いられる。目的信号である音声信号以外の雑音信号を抑制することにより、目的信号が強調され、音質の改善や、音声認識率の向上を図ることができる。
【0003】
雑音が混入した入力信号から雑音信号を抑圧するための様々な技術が公表されている。
例えば、特許文献1に開示された従来の雑音抑圧装置は、非特許文献1に示されたスペクトルサブトラクション(Spectral Subtraction:以下、SS法という。)により雑音の抑圧を行うものである。SS法では、振幅スペクトルから、別途推定した平均的な雑音スペクトルを減算することにより雑音の抑圧を行う。
【0004】
また、特許文献2に開示された背景雑音除去装置では、入力信号を周波数成分に変換すると共に入力信号の音声・雑音区間判定を行う。現フレームの入力信号が雑音と判定された場合には、現フレームにおいて推定した背景雑音と、過去のフレームにおいて推定された背景雑音の平均を取って推定背景雑音を更新する。一方、現フレームが音声区間と判断された場合には、周波数成分から推定背景雑音を減算して雑音抑圧信号を求める。この減算処理で得られた雑音抑圧信号の周波数成分を信号とし、推定された背景雑音を雑音として、全周波数帯域での信号対雑音比(SN比)と全周波数帯域を複数に分割した小領域毎のSN比を計算する。小帯域別のSN比と全帯域のSN比の差が所定値以下の小領域については、雑音抑圧信号と推定背景雑音成分とを所定の割合で含む再更新背景雑音を生成し、雑音抑圧信号から再更新背景雑音をさらに減算して再雑音抑圧信号を求め、この信号を時間領域で表現される信号に戻して雑音抑圧信号を得る。
【0005】
また、非特許文献2に開示された従来の雑音抑圧方法は、特許文献1と同様にSS法を基本としている。入力信号の周波数変換を行うと共に、現フレームの有音・雑音判定を行い、現フレームが有音区間である場合には入力信号スペクトルの包絡線と推定雑音スペクトルの包絡線の交点を求め、その交点をカットオフ周波数とした高域通過形フィルタ(High Pass Filter:以下、HPFと記す。)と低域通過形フィルタ(Low Pass Filter:以下、LPFと記す。)を用いて入力信号を高域成分と低域成分に分離する。そして、低域成分では通常のFFT(Fast Fourier Transform:高速フーリエ変換)を用いたSS法による雑音抑圧方式を選択し、高域成分ではMWSE(Multi−Window Spectral Estimation)法を用いたSS法による雑音抑圧方式を選択する。このように、高域と低域で特性の異なる雑音抑圧方法をとることにより、良好な雑音抑圧を行うことを可能にしている。
【0006】
【特許文献1】
特開2000−347688号公報
【特許文献2】
特開平10−171497号公報
【非特許文献1】
S.F.Boll,”Suppression of Acoustic noise in speech using spectral subtraction”,IEEE Trans.ASSP,April 1979,Vol.ASSP−27,No.2
【非特許文献2】
C.He and G.Zweig,”Adaptive Two−band Spectral Subtraction with Multi−Window Spectral Estimation”,IEEE Conference of Acoustic Speech Processing,1999,pp.793−796
【0007】
【発明が解決しようとする課題】
雑音の中には、例えば多人数の人声が混じった雑音のように、スペクトル形状が音声スペクトルに似た雑音がある。このような雑音を音声的雑音(Speech−like noise)という。
【0008】
特許文献2に開示された従来の背景雑音除去装置は、全帯域SN比と各帯域SN比との差が所定の閾値以下の帯域に対し、雑音スペクトルの再減算処理を行うので大きな抑圧量が得られる利点がある。しかし、再減算処理を行うかどうかは、単に全帯域SN比と各帯域SN比との差の値によって判断しており、その帯域のスペクトルが音声スペクトル的なものか、または雑音スペクトル的なものかどうかは判定していない。そのため、音声的雑音が入力信号に混入している場合には以下のような問題が生じる。
【0009】
まず、音声的雑音を雑音として扱う場合、次のような問題がある。SS法に基づいて雑音抑圧を行う場合、推定背景雑音スペクトルは周波数軸方向の変動が少ない方が望ましい。しかし、音声的雑音は周波数軸方向の変動が大きいため、音声的雑音が雑音として推定雑音スペクトルに混入すると、推定雑音スペクトルの精度が劣化するという問題がある。
【0010】
一方、音声的雑音を誤って「音声」と判定した場合には、音声的雑音は音声として雑音抑圧されることとなる。しかし、音声的雑音は信号パワーは小さいがスペクトル形状が音声スペクトル的であることから、スペクトル減算処理を行うことにより、スペクトル振幅が比較的大きなスペクトル成分だけが孤立して残る。特許文献2の装置のように、更に再減算処理を行うことにより、不要なスペクトル成分がさらに強調されてしまい、残留雑音に含まれる耳障りな人工的雑音(ミュージカルノイズ)が増大してしまう。
【0011】
また、特許文献2の装置を、臨場感が求められるTV会議システムのように、7kHを上限とした広帯域音声通信システムに適用する場合を考える。4kHz以上の高域の音声スペクトル成分のSN比とパワーはかなり小さくなるため、音声・雑音判定において4kHz以上の音声を雑音に誤る場合がある。誤って雑音と判定されると、高域の音声が大きくスペクトル減算されるので、高域においてはスペクトル振幅が比較的大きなスペクトル成分だけが残ることになる。これによりミュージカルノイズが発生して音質が劣化する。
【0012】
また、非特許文献2に開示された従来の雑音抑圧装置は、入力信号スペクトルの包絡線と雑音スペクトルの包絡線との交点から定めたHPFとLPFを用いて、入力信号を低域と高域の2帯域に分離し、各帯域に応じた雑音抑圧方式を選択する構成なので、各帯域に応じた良好な雑音抑圧を行うことができる。しかし、例えば、3帯域以上の有音帯域及び雑音帯域が存在するような場合の雑音抑圧には適さない。
【0013】
この発明は上記のような課題を解決するためになされたもので、聴感上好ましい雑音抑圧が可能で、高雑音下でも品質劣化の少ない雑音抑圧装置を得ることを目的とする。
【0014】
【課題を解決するための手段】
この発明に係る雑音抑圧装置は、時間領域で表される入力音声信号を周波数領域の表現に変換し、周波数成分から振幅スペクトルと位相スペクトルを生成する時間・周波数変換部と、振幅スペクトルを複数の周波数帯域に分割し、帯域毎の平均振幅スペクトルを出力する帯域分割部と、周波数帯域毎に平均振幅スペクトルのスペクトル形状を解析して音声、雑音、及び音声に類似した音声的雑音の区別を行い、スペクトル形状判定結果を出力する帯域別音声・雑音判定部と、スペクトル形状判定結果に基づいて、周波数帯域毎の推定雑音スペクトルの更新を行なうかどうかを決定する雑音スペクトル推定部と、スペクトル形状判定結果に基づいて、周波数帯域毎に最適な雑音抑圧方法を選択し、選択した方法に従って各周波数帯域の振幅スペクトルから周波数帯域毎の推定雑音スペクトルを抑圧することにより得られる雑音抑圧スペクトルを出力する雑音抑圧部と、雑音抑圧スペクトルを時間領域で表される信号に変換することにより雑音抑圧信号を生成する周波数・時間変換部とを備えたものである。
【0015】
【発明の実施の形態】
以下、この発明の実施の様々な形態を説明する。
実施の形態1.
図1は、この発明の実施の形態1による雑音抑圧装置100の構成を示すブロック図である。
図に示すように、雑音抑圧装置100は、入力端子1、時間・周波数変換部2、雑音らしさ分析部3、帯域分割部4、帯域SN比計算部5、帯域別音声・雑音判定部6、雑音スペクトル推定部7、雑音抑圧部8、周波数・時間変換部12、出力端子13を備えている。
また、雑音抑圧部8は、雑音抑圧制御部9、スペクトル減算部10、スペクトル振幅抑圧部11を備えている。
【0016】
雑音抑圧装置100による雑音抑圧処理について説明する。
雑音が混入した入力信号s[t]が入力端子1に入力されると、入力信号s[t]は所定のサンプリング周波数でサンプリングされ、所定の周期でフレーム分割されて時間・周波数変換部2へ入力される。なお、ここではサンプリング周波数を8kHz、フレーム周期を20msとする。
【0017】
時間・周波数変換部2は、例えば256点の高速フーリエ変換(Fast Fourier Transform:以下、FFTを記す。)を用いてフレーム分割された入力信号s[t]を周波数解析し、振幅スペクトルS[f]と位相スペクトルP[f]とを生成して出力する。なおFFTは周知の手法であるので説明は省略する。
【0018】
雑音らしさ分析部3は、入力端子1から出力されたフレーム分割された入力信号s[t]と、時間・周波数変換部2から出力された振幅スペクトルS[f]の入力を受ける。雑音らしさ分析部3は、入力された現フレームの入力信号s[t]を解析し、現フレームが音声区間であるか雑音区間であるかの状態を示す指標である雑音らしさ信号Nsttを帯域別音声・雑音判定部6へ出力する。また、雑音スペクトル推定部7に雑音らしさ信号Nsttに対応した雑音スペクトル更新係数rを出力する。雑音スペクトル更新係数rは、後述する推定雑音スペクトルN[f]の算出に用いられる。
【0019】
図2に、雑音らしさ信号Nsttおよび雑音スペクトル更新係数rと、現フレームの様態との関係を示す。図に示すように、雑音らしさ信号Nsttは、レベル値1〜5で出力される。Nsttが4〜5の範囲にあるとき、現フレームは雑音区間であることを表し、Nsttが1〜3の範囲にあるとき現フレームは音声区間であるとする。雑音らしさ信号Nsttの算出方法としては、例えば特許文献1に開示されている雑音らしさ分析処理と同様に行うことができるので、ここでは簡単に説明する。
雑音らしさ分析部3は、ローパスフィルタにより入力信号s[t]から高域雑音の影響を取り除き、ローパスフィルタ信号を得る。次に、ローパスフィルタ信号の線形予測分析を行う。次に、得られた線形予測係数を用いて、ローパスフィルタ信号の逆フィルタ処理を行う。逆フィルタ処理の結果得られたローパス残差信号の自己相関係数の正のピーク値と、ローパス残差信号のパワーおよびフレームパワーに基づいてNsttを算出する。
【0020】
帯域分割部4は、時間・周波数変換部2から出力された振幅スペクトルS[f]の入力を受け、振幅スペクトルS[f]を例えばバークスペクトル間隔として示される20の周波数帯域に分割する。帯域分割部4は、分割した帯域毎に振幅スペクトルS[f]の平均スペクトルを求め、帯域分割した振幅スペクトルSp[f]として出力する。なお、fはバークスペクトルにおける帯域番号を表す。
なお、バークスペクトルについては、Eberhard Zwicker著、「心理音響学」、西村書店、1992、74ページの表1に示されている。バークスペクトル間隔は人間の聴感特性に対応した周波数帯域の分割方法で、低周波数領域では帯域幅が狭く、周波数が高くなるにつれて帯域幅が広くなる特性を持つ。以下、周波数帯域毎の計算処理は、断りが無い限りバークスペクトル帯域fにおいて行うものとする。
【0021】
帯域SN比計算部5は、帯域分割された振幅スペクトルSp[f]と、後述する推定雑音スペクトルN[f]の入力を受け、下記の式(1)に従って帯域SN比SNR[f]を算出する。すなわち、帯域SN比は、各帯域の信号スペクトルパワーと雑音スペクトルパワーの比として算出される。

Figure 2004341339
【0022】
すなわち、式(1)において、計算の結果SNR[f]の値が負になる場合には、SNR[f]=0とする。
【0023】
帯域別音声・雑音判定部6は、帯域SN比計算部5が出力する現フレームの1つ前のフレームの帯域SN比SNR[f]を受け、帯域別の音声・雑音判定を行い、判定結果に応じて帯域別音声・雑音判定フラグsvad[f]を算出する。帯域別音声・雑音判定の方法として、例えば式(2)のように帯域SN比SNR[f]と所定の閾値TH1(第1の閾値)の比較による判定を行うことができる。
SNR[f]>TH1の時
svad[f]=Voice(音声)
SNR[f]≦TH1の時
svad[f]=Noise(雑音)
ただし、f={1,・・・,20} (2)
【0024】
ここで、TH1は帯域別音声・雑音判定に用いる閾値であり、閾値TH1には、多数の音声SN比のサンプルから得られた好適な値として、例えばTH1=1.5dBを用いることができる。
【0025】
さらに、帯域別音声・雑音判定部6は、式(1)によって算出した各帯域の帯域別音声・雑音判定フラグsvad[f]、および雑音らしさ分析部3が出力する雑音らしさ信号Nsttに基づいて、雑音帯域の連続性の判定処理を行い、判定結果に基づいて帯域毎の推定雑音スペクトル更新フラグupdate[f](スペクトル形状判定結果)を設定する。図3のフローチャートを用いて、帯域別音声・雑音判定部6における、帯域毎の推定雑音スペクトル更新フラグupdate[f]の設定処理について説明する。
【0026】
まず、ステップST101では、帯域別音声・雑音判定部6は雑音らしさ分析部3が出力する雑音らしさ信号Nsttを解析する。図2に示したように、Nsttの値が1,2,3である場合には音声区間と判断し、ステップST102へ進む。
【0027】
一方、Nsttの値が4,5の場合には、全帯域において雑音区間であると判断し、ステップST110へ進む。
ステップST110では、すべての帯域の推定雑音スペクトル更新フラグupdate[f]にNOISEを設定し出力する。後述するように、これにより、全帯域の推定雑音スペクトルN[f]の更新が行われる。
【0028】
ステップST102〜ステップST109の処理は、分割された帯域毎に行われる。まず、ステップST102では、帯域別音声・雑音判定フラグsvad[f]の値を判定し、svad[f]の値が雑音(NOISE)を示す場合にはステップST103へ進み、音声(VOICE)を示す場合にはステップST105へ進む。
【0029】
ステップST103では、NOISEと判断された帯域数がインクリメントされる。得られたカウント数をcountとする。次に、ステップST104では、処理中の帯域の帯域番号fが最大値20になったと判定された場合にはステップST105へ進む。fが最大値が19以下の場合には、ステップST102へ戻る。この繰り返し処理により、雑音帯域が連続している場合に、その連続した帯域数をカウントすることができる。
【0030】
ステップST105では、countの値を連続カウント閾値THc(第2の閾値)とを比較する。連続カウント閾値THcには、経験上得られる好適な値として例えばTHc=3を設定することができる。countが閾値THcよりも大きい場合、すなわち、雑音帯域の連続数が閾値で定められた数よりも多い場合には、その連続した帯域すべてが雑音であると判定し、ステップST106へ進む。一方、countが閾値THc以下の場合には、雑音と判定せずステップST107へ進む。
【0031】
ステップST106では、ステップST105で雑音帯域と判定された各帯域の推定雑音スペクトル更新フラグupdate[f]に、NOISEを設定する。これにより、該当する帯域については、後述する推定雑音スペクトルN[f]の更新が行われる。
推定雑音スペクトル更新フラグupdate[f]の設定処理をcountの回数分繰り返したらステップST108へ進む。
【0032】
ステップST107では、ステップST105で雑音帯域ではないと判定された各帯域の推定雑音スペクトル更新フラグupdate[f]に、VOICEを設定する。これにより、該当する帯域については、後述する推定雑音スペクトルN[f]の更新は行われない。
推定雑音スペクトル更新フラグupdate[f]の設定処理をcountの回数分繰り返したらステップST108へ進む。
【0033】
ステップST108では、countの値を0にリセットする。次に、ステップST109では、処理中の帯域の帯域番号fが最大値20になったと判定された場合には当処理を終了する。fが最大値が19以下の場合には、ステップST102へ戻る。これにより、全帯域について処理が行われる。
【0034】
ここで、図4および図5を用いて帯域別音声・雑音判定部6による推定雑音スペクトル更新フラグupdate[f]設定処理の結果の具体例を示す。図4は、雑音信号が混入した音声入力信号の音声スペクトルと雑音スペクトルの例である。また、図5は、図4に示すスペクトル分布より得られる帯域SN比SNR[f]と、図3の処理によって得られた推定雑音スペクトル更新フラグupdate[f]の例である。図5において、帯域SN比SNR[f]が判定閾値TH1を下回る帯域が帯域幅閾値THc=3以上連続する帯域群については、推定雑音スペクトル更新フラグupdate[f]が雑音帯域(NOISE)と設定されており、それ以外の帯域については音声帯域(VOICE)となっている。なお、図に示すように、音声帯域または雑音帯域として判定された連続した複数の帯域の組を帯域群とする。
【0035】
次に、帯域別音声・雑音判定部6は、図3の処理で推定雑音スペクトル更新フラグupdate[f]にNOISEが設定された帯域について、更に判定精度を高めるための処理を行う。
すなわち、雑音帯域と判定された帯域群について、さらに、雑音であるか音声的雑音であるかの判定を行う。音声的雑音と判定された帯域については、推定雑音スペクトルN[f]の更新が行われないように設定される。これは、入力信号に含まれる雑音成分の平均的なスペクトル形状を保持している推定雑音スペクトルに周波数方向の変動が大きい音声的雑音が混入すると、推定雑音スペクトルの精度が劣化するからである。
なお、図3の処理で推定雑音スペクトル更新フラグupdate[f]にVOICEが設定された帯域群、すなわち音声帯域群については、判定精度を高める処理は行わない。
【0036】
ここでは、判定精度を高めるための1つの方法として、帯域群別に帯域SN比の帯域間の分散を求め、その値によって当該帯域群が雑音であるか音声的雑音であるかを判断し、推定雑音スペクトル更新フラグupdate[f]を修正する。
図5に示す一連の帯域群の通し番号をnとし、L[n]を帯域群番号nにおける帯域幅、すなわち、帯域群に含まれる帯域数とする。NOISEと判断された帯域群番号nにおける、帯域SN比の帯域間の分散SNRdev[n]は、式(3)によって求めることができる。
【数1】
Figure 2004341339
【0037】
ここで、f(n)は帯域群nに属する帯域番号fであり、f(n)は帯域群nの帯域番号下限値、f(n)は帯域群nの帯域番号上限値である。図5で、n=2の場合を例に説明すると、帯域群2においては、f(2)={10,11,12,13}であり、f(2)=10、f(2)=13、L[2]=4である。
【0038】
帯域別音声・雑音判定部6は、雑音と判定された全ての帯域群について、式(3)によって求められた帯域群nの帯域SN比の分散SNRdev[n]と閾値TH2(第3の閾値)を比較する。ここで、閾値TH2は雑音か音声的雑音かを決定するための所定の閾値であり、閾値TH2には、経験上得られる好適な値として例えばTH2=16.0を設定することができる。
帯域SN比の分散が閾値TH2よりも小さい場合、その帯域群は周波数方向のスペクトルのばらつき(スペクトルの凹凸)が小さく定常的であることを表しており、帯域別音声・雑音判定部6は、その帯域群を雑音であると判断する。一方、帯域SN比の分散が閾値TH2以上である場合には、その帯域群においては周波数方向のスペクトルのばらつきが大きいことを表しており、帯域別音声・雑音判定部6は、その帯域群を音声に似たスペクトル形状の雑音、すなわち音声的雑音であると判断する。
【0039】
帯域別音声・雑音判定部6は、音声的雑音と判断された帯域群については、帯域群に含まれるすべての帯域の推定雑音スペクトル更新フラグupdate[f]を、NOISEから音声的雑音であることを表すSPEECHLIKE_NOISEに変更する。
なお、後述する雑音抑圧方式の変更については、音声的雑音であっても、雑音帯域であるものとして取り扱う。
【0040】
雑音スペクトル推定部7は、雑音らしさ分析部3が出力する雑音スペクトル更新係数rと、帯域分割部4が出力する振幅スペクトルSp[f]と、帯域別音声・雑音判定部6が出力する雑音スペクトル更新フラグupdate[f]と、過去の平均的な雑音スペクトル形状を示す推定雑音スペクトルNold[f]とを用いて、式(4)に従い、推定雑音スペクトルN[f]の更新を行う。推定雑音スペクトルNold[f]は、雑音スペクトル推定部7が保有するRAM等の内部記憶手段に記憶されていてもよいし、雑音スペクトル推定部7がアクセス可能な外部の記憶装置に記憶されていてもよい。なお、推定雑音スペクトル更新フラグupdate[f]がVOICEまたはSPEECHLIKE_NOISEの場合には推定雑音スペクトルN[f]の更新は行わない。
update[f]=NOISEの時
N[f]=r・Nold[f]+(1−r)・Sp[f
update[f]=VOICEまたは
update[f]=SPEECHLIKE_NOISEの時
N[f]=Nold[f
ただし、f={1,・・・,20} (4)
【0041】
雑音抑圧制御部9は、帯域別音声・雑音判定部6が出力する推定雑音スペクトル更新フラグupdate[f]と、帯域SN比計算部5が出力する帯域SN比SNR[f]を入力として、後述するスペクトル振幅抑圧とスペクトル減算に用いる各係数である、スペクトル減算量α[f]とスペクトル振幅抑圧量β[f]を計算する。それぞれ計算された係数用い、スペクトル減算部10にて振幅スペクトルS[f]から推定雑音スペクトルN[f]を減算した後、スペクトル振幅抑圧部11で、更にスペクトル振幅抑圧することにより雑音抑圧を行い、雑音抑圧されたスペクトルSr[f]を出力する。
【0042】
まず、雑音抑圧制御部9における、スペクトル減算とスペクトル振幅抑圧に用いる各係数の算出方法について説明する。
まず、式(5)に従ってスペクトル振幅抑圧量β[f]を求める。なお、式(5)中のGAINは帯域SN比SNR[f]の重み係数であり所定の定数である。帯域別音声・雑音判定部6が出力する推定雑音スペクトル更新フラグupdate[f]がVOICE、すなわち音声帯域の場合には、式(5)に従ってスペクトル振幅抑圧量β[f]を求めるが、β[f]が0(dB)を越える場合にはβ[f]=0(dB)とし、この場合スペクトル振幅抑圧を行わない。
一方、推定雑音スペクトル更新フラグupdate[f]がNOISEまたはSPEECHLIKE_NOISE、すなわち雑音帯域もしくは音声的雑音帯域の場合には、スペクトル減算処理に伴う残留雑音成分がミュージカルノイズの原因となる。そのため、スペクトル減算を行わずスペクトル振幅抑圧だけを行う必要があることから、式(5)に示すようにスペクトル振幅抑圧量β[f]に最大抑圧量−Gmin(dB)を設定する。
update[f]=VOICEの時
β[f]=Min{SNR[f]・GAIN−Gmin,0}
update[f]=NOISEまたは
update[f]=SPEECHLIKE_NOISEの時
β[f]=−Gmin (5)
【0043】
式(5)に従ってスペクトル振幅抑圧量β[f]を求めた後、雑音抑圧制御部9は、このβ[f]を用い、式(6)に従ってスペクトル減算量α[f]を求める。雑音抑圧制御部9は、得られたスペクトル減算量α[f]をスペクトル減算部10へ、スペクトル振幅抑圧量β[f]をスペクトル振幅抑圧部11へ出力する。
α[f]=−(Gmin+β[f]) (6)
【0044】
スペクトル減算部10は、スペクトル減算量α[f]をパーセンテージ値であるスペクトル減算率α[f]に変換する。スペクトル減算部10は、式(7)に従い、雑音スペクトル推定部7から出力された推定雑音スペクトルN[f]にスペクトル減算率α[f]を乗じたスペクトルを時間・周波数変換部2から出力された振幅スペクトルS[f]から減算し、雑音引き去りスペクトルS[f]を出力する。雑音引き去りスペクトルS[f]が負になる場合には、入力信号の振幅スペクトルS[f]に与えられた所定の定数GLminを振幅スペクトルS[f]に乗じたものを雑音引き去りスペクトルS[f]とする埋め戻し処理を行う。
なお、本処理においては、各帯域番号fに対応した推定雑音スペクトルN[f]とスペクトル減算率α[f]を、各帯域番号fに対応した振幅スペクトル成分S[f]に展開して計算を行うものとする。
S[f]>α[f]・N[f]の時
[f]=S[f]−α[f]・N[f
S[f]≦α[f]・N[f]の時
[f]=S[f]・GLmin (7)
【0045】
次に、スペクトル振幅抑圧部11は、スペクトル振幅抑圧量β[f]をリニア値β[f]に変換し、式(8)に従って雑音引き去りスペクトルS[f]にβ[f]を乗じて、雑音抑圧スペクトルSr[f]を算出する。
Sr[f]=β[f]・S[f] (8)
【0046】
式(5)と式(6)から分かるように、推定雑音スペクトル更新フラグupdate[f]がVOICEに設定されている音声帯域では、帯域SN比SNR[f]が大きくなればスペクトル振幅抑圧量β[f]が小さくなり、振幅抑圧が弱まると共に、スペクトル減算量α[f]は大きくなり、スペクトル減算が強くなる。逆に、帯域SN比SNR[f]が小さくなればスペクトル振幅抑圧量β[f]は大きくなり、振幅抑圧が強まると共に、スペクトル減算が弱くなる。これにより、SN比が高い帯域では主にスペクトル減算で雑音抑圧量を稼ぎ、SN比が低い帯域では音声スペクトル成分を保持しつつ振幅抑圧を行うことになるので、高い雑音抑圧量と音質を両立することができる。
【0047】
また、推定雑音スペクトル更新フラグupdate[f]がNOISEもしくはSPEECHLIKE_NOISEに設定されている雑音帯域または音声的雑音帯域では、スペクトル振幅抑圧量β[f]が最大抑圧量Gminになっているので、スペクトル減算量α[f]の値は0となり、スペクトル減算処理は行われず、雑音はそのスペクトル形状を保持したまま音量が小さくなるだけでスペクトル変形が発生しないので雑音抑圧処理音声の「自然性」が保たれる。
【0048】
図6〜図8を用いて、音声区間における雑音抑圧処理の具体例を説明する。図6は入力信号中の音声信号と音声的雑音信号のそれぞれのスペクトル成分を示した図である。図7は、図6の入力信号を従来のように、音声的雑音帯域が誤って音声帯域と判断された場合の雑音抑圧処理後のスペクトルを示した図である。図8は、図6に示す入力信号をこの実施の形態1の雑音抑圧装置100に入力した場合の雑音抑圧処理後のスペクトルを示す図である。
【0049】
図7に示す例では、図中、SPEECHLIKE_NOISEで示された音声的雑音帯域部分が音声と誤って判定され、その判定に基づいてスペクトル減算が行われる。このため、図に示すように、音声的雑音帯域においてスペクトル変形が生じ、音声スペクトルの高域成分に、大きな振幅の孤立した残留スペクトル成分が発生している。
一方、図8に示す例では、音声的雑音帯域は音声的雑音と判定され、その判定に基づいて、スペクトル減算は行わず、スペクトルの振幅抑圧のみが行われるので、スペクトル変形は生じず、孤立した残留スペクトルは発生しない。よって、良好な雑音抑圧が実現されている。
【0050】
また、図9〜図11を用いて、雑音区間における雑音抑圧処理の具体例を説明する。図9は音声的雑音スペクトルの例を示した図である。図10は従来のように、音声的雑音帯域が誤って音声帯域と判断された場合の雑音抑圧処理後の音声的雑音スペクトルを示す図である。また、図11はこの実施の形態1の雑音抑圧装置100による雑音抑圧処理後の音声的雑音スペクトルを示す図である。
【0051】
図10に示す例では、点在する音声的雑音スペクトルが音声と誤って判定され、その判定に基づいてスペクトル減算が行われる。これにより、スペクトル変形が発生し、振幅の大きな孤立スペクトル成分が発生して音声的雑音スペクトルが強調されている。一方、図11では、点在する音声的雑音スペクトルは音声的雑音として正しく判定され、その判定に基づいてスペクトル減算ではなくスペクトル振幅抑圧が行われるので、スペクトル変形は生じず、全帯域において雑音のスペクトル形状が保持されたまま信号パワーのみが減少する。すなわち、雑音の自然性が保たれたまま音量のみが小さくなり、良好な雑音抑圧を行うことができる。
【0052】
周波数・時間変換部12は、雑音抑圧スペクトルSr[f]と時間・周波数変換部2が出力する位相スペクトルP[f]を時間信号に変換し、一部、前フレームの雑音抑圧信号と重ね合わせ処理を行い、雑音抑圧信号sr[t]を出力端子13より出力する。
【0053】
以上のように、この実施の形態1によれば、入力信号のスペクトルを周波数帯域で分割し、帯域毎にスペクトルのSN比に基づいて音声・雑音の判定を行なう。さらに、雑音と判定された帯域につては、雑音区間の連続の程度を解析し、一定以上雑音帯域が続いた場合にのみ再度雑音と判定する。さらに、雑音帯域については、連続した帯域間でのSN比の分散に基づいて、雑音と音声的雑音の区別を行なうようにした。
これらの区別に基づいて、帯域毎に適正な雑音スペクトルを推定し、また、帯域毎のスペクトル形状に適した雑音抑圧方法を選択して雑音抑圧を行なうようにしたので、帯域毎に最適な雑音抑圧が行なわれ、聴感上好ましい音声を得ることが可能である。
【0054】
音声的雑音の判定が正しくできると、周波数軸方向の変動が大きな音声的雑音のスペクトル成分が、推定雑音スペクトルに混入することが避けられるので、推定雑音スペクトルの精度劣化を防止することができる。
【0055】
また、音声的雑音の判定ができることにより、音声的雑音の帯域については雑音抑圧方法にスペクトル減算を用いず、スペクトル振幅抑圧だけを行う。これにより、抑圧後のスペクトルに変形が生じず、スペクトル形状を保持したまま音量だけが小さくなるようにできる。このため、孤立した残留スペクトル成分が発生しないので、雑音抑圧処理後の音声の自然性は保たれ、残留雑音に含まれる耳障りな人工的雑音(ミュージカルノイズ)の増大を防ぐことができる。
【0056】
なお、実施の形態1においては、図3に示したように帯域別音声・雑音判定部6は、雑音らしさ分析部3が出力する雑音らしさ信号Nsttの値を利用して帯域毎の推定雑音スペクトル更新フラグupdate[f]の設定処理を行なっているが、雑音らしさ信号Nsttの値による判定処理は行なわず、帯域別音声・雑音判定フラグsvad[f]のみを用いて処理をおこなってもよい。
また、同じく雑音らしさ分析部3が出力する雑音スペクトル更新係数rについても、図2に示したように雑音らしさ信号Nsttに対応した値を用いず、固定値を用いて推定雑音スペクトルの算出を行なうようにしてもよい。
【0057】
実施の形態2.
実施の形態1においては、電話等、4kHz程度までの音声帯域を対象とした音声通信システムに利用する雑音抑圧装置を考え、入力信号のサンプリング周波数として8kHzを利用した。実施の形態2では、例えばサンプリング周波数を16kHzまで拡張することにより、音声帯域が7kHzを上限とする、広帯域音声通信システムに利用できる雑音抑圧装置を考える。
【0058】
4kHz以上の音声スペクトル成分のSN比は、4kHz以下の電話の音声帯域におけるSN比よりも更に小さくなる。そのため、実施の形態1で用いた閾値TH1およびTHcとは別に4kHz以上の高域に適した閾値を用意する。
【0059】
すなわち、4kHz以上の高域では、帯域別音声・雑音判定に用いる閾値を4kHz以下の帯域よりも小さくし、例えばTH1=0.5(dB)とする。これにより、音声のSN比が小さい高域の音声が、より音声として判定され易くなる。また、雑音帯域の連続カウント閾値を大きくし、例えばTHc=4と設定する。これにより、音声帯域を判定されやすくなる。
また4kHz以上の音声が誤って雑音または音声的雑音と判断された場合でも、実施の形態2の雑音抑圧装置では、雑音、音声的雑音帯域に対してはスペクトル減算処理を行わず、スペクトル振幅抑圧処理のみ行う。これにより、スペクトル減算によるスペクトル変形が生じず、孤立した残留スペクトル成分は発生しないので音質が劣化することは避けられる。
【0060】
以上のように、この実施の形態2によれば、広帯域音声通信システムに適用した場合でも、各閾値を各帯域に適した値に設定することにより、高域の音声に対しても適切な雑音抑圧処理を行うことができる。
また、4kHz以上の帯域の音声成分を雑音または音声的雑音と誤って判定した場合でも、スペクトル減算処理は行わずスペクトル振幅抑圧処理のみが行われることから、スペクトル減算によるスペクトル変形が生じず孤立した残留スペクトル成分は発生しないので音質の劣化を防ぐことができる。
【0061】
実施の形態3.
実施の形態1および実施の形態2では、帯域別音声・雑音判定部6において用いられる各判定閾値は、全帯域で、あるいは帯域別に一定値に設定されていた。実施の形態3では、例えば雑音らしさ分析部3が出力する雑音らしさ信号Nsttの値に基づいて、各閾値を動的に変化させる。
【0062】
図12は、この発明の実施の形態3による雑音抑圧装置300の構成を示すブロック図である。図1と同一の符号は同一の構成要素を表している。図に示すように、雑音抑圧装置300は、閾値変更部14を備える。実施の形態3では、閾値変更部14以外の各部は実施の形態1と同様に動作する。
【0063】
閾値変更部14は、内部に、図13に示すような定数テーブルを有している。このテーブルは、雑音らしさ分析部3が出力する雑音らしさ信号Nsttに対応する帯域別音声・雑音判定判定用閾値TH1と雑音区間の帯域幅閾値THcとを関連付けている。図に示すように、雑音らしさ信号Nsttが音声と予測される値(Nstt=1,2,3)の場合には、より音声として判定され易くするために、TH1を小さくすると共にTHcを大きくする。逆に、雑音らしさ信号Nsttが雑音と予測される値(Nstt=4,5)の場合には、より雑音として判定され易くするために、TH1を大きくTHcを小さく設定している。
【0064】
閾値変更部14は、この内部テーブルを参照し、雑音らしさ分析部3から出力されたNsttに対応する閾値TH1及びTHcを選択し、帯域別音声・雑音判定部6に出力する。帯域別音声・雑音判定部6は、閾値変更部14から通知された閾値TH1及びTHcを用いて、実施の形態1と同様の処理を行う。
【0065】
以上のように、この実施の形態3によれば、雑音らしさ分析部3が出力する雑音らしさ信号Nsttの結果に応じて各判定閾値を選択することにより、帯域別音声・雑音判定処理を入力信号の状態に適した条件で行うことができる。これにより、帯域別音声・雑音判定の判定精度が向上し、雑音抑圧処理後の信号の音質を更に向上させることができる。
【0066】
なお、本実施の形態3では、閾値TH1および閾値THcの2つの閾値を動的に変更しているが、どちらか一方だけを変更するようにしてもよい。
【0067】
また、実施の形態3においても、サンプリング周波数を例えば16kHzまで拡張することにより、音声帯域幅が7kHzの広帯域音声通信システム向けに利用することができる。
【0068】
【発明の効果】
以上のように、この発明によれば、聴感上好ましい雑音抑圧が可能で、高雑音下でも品質劣化の少ない雑音抑圧装置を得られるという効果がある。
【図面の簡単な説明】
【図1】この発明の実施の形態1による雑音抑圧装置の構成を示すブロック図である。
【図2】雑音らしさ信号及び雑音スペクトル更新係数と、現フレームの様態との関係を示す図である。
【図3】この発明の実施の形態1による、帯域別音声・雑音判定部における帯域毎の推定雑音スペクトル更新フラグの設定処理のフローチャートである。
【図4】入力信号の音声スペクトルと雑音スペクトルの例を示す図である。
【図5】この発明の実施の形態1による、図4に示す入力信号から得られる推定雑音スペクトル更新フラグの例を示す図である。
【図6】音声スペクトルと音声的雑音信号のスペクトルの例を示す図である。
【図7】音声的雑音信号が誤って音声と判断された場合の、雑音抑圧処理後のスペクトルの例を示す図である。
【図8】この発明の実施の形態1による、雑音抑圧処理後のスペクトルの例を示す図である。
【図9】雑音区間における音声的雑音スペクトルの例である。
【図10】音声的雑音信号が誤って音声と判断された場合の、雑音抑圧処理後の音声的雑音スペクトルの例を示す図である。
【図11】この発明の実施の形態1による、雑音抑圧処理後の音声的雑音スペクトルの例を示す図である。
【図12】この発明の実施の形態3による雑音抑圧装置の構成を示すブロック図である。
【図13】雑音らしさ信号と各判定閾値との関係を示す図である。
【符号の説明】
1 入力端子、2 時間・周波数変換部、3 雑音らしさ分析部、4 帯域分割部、5 帯域SN比計算部、6 帯域別音声・雑音判定部、7 雑音スペクトル推定部、8 雑音抑圧部、9 雑音抑圧制御部、10 スペクトル減算部、11 スペクトル振幅抑圧部、12 周波数・時間変換部、13 出力端子、14閾値変更部、100,300 雑音抑圧装置。[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a noise suppression device.
[0002]
[Prior art]
Speech communication systems and speech recognition systems such as mobile phones and TV conference systems are used in environments containing various noises. By suppressing noise signals other than the audio signal, which is the objective signal, the objective signal is emphasized, and the sound quality can be improved and the speech recognition rate can be improved.
[0003]
Various techniques have been disclosed for suppressing a noise signal from an input signal containing noise.
For example, the conventional noise suppression device disclosed in Patent Document 1 suppresses noise by spectral subtraction (hereinafter referred to as SS method) shown in Non-Patent Document 1. In the SS method, noise suppression is performed by subtracting a separately estimated average noise spectrum from an amplitude spectrum.
[0004]
In the background noise elimination device disclosed in Patent Document 2, an input signal is converted into a frequency component, and a speech / noise section of the input signal is determined. When the input signal of the current frame is determined to be noise, the estimated background noise is updated by averaging the background noise estimated in the current frame and the background noise estimated in the past frame. On the other hand, if the current frame is determined to be a voice section, the estimated background noise is subtracted from the frequency component to obtain a noise suppression signal. The signal-to-noise ratio (SN ratio) in the entire frequency band and the small area obtained by dividing the entire frequency band into a plurality of parts, using the frequency component of the noise suppression signal obtained by the subtraction processing as a signal and the estimated background noise as noise. Calculate the SN ratio for each. For a small region in which the difference between the SN ratio for each small band and the SN ratio of the entire band is equal to or less than a predetermined value, renewed background noise including the noise suppression signal and the estimated background noise component at a predetermined ratio is generated, and the noise suppression signal is generated. Is further subtracted from the renewed background noise to obtain a re-noise suppression signal, and this signal is returned to a signal expressed in the time domain to obtain a noise suppression signal.
[0005]
Further, the conventional noise suppression method disclosed in Non-Patent Document 2 is based on the SS method as in Patent Document 1. While performing the frequency conversion of the input signal, the voice / noise determination of the current frame is performed, and when the current frame is a voiced section, the intersection of the envelope of the input signal spectrum and the envelope of the estimated noise spectrum is obtained. Using a high-pass filter (High Pass Filter: hereinafter referred to as HPF) and a low-pass filter (Low Pass Filter: hereinafter referred to as LPF) having an intersection as a cutoff frequency, the input signal is subjected to a high-pass filter. Component and low-pass component. For the low-frequency component, a noise suppression method based on the SS method using a normal FFT (Fast Fourier Transform) is selected. Select the noise suppression method. As described above, by adopting the noise suppression method having different characteristics between the high band and the low band, it is possible to perform good noise suppression.
[0006]
[Patent Document 1]
JP 2000-347688 A
[Patent Document 2]
JP-A-10-171497
[Non-patent document 1]
S. F. Boll, "Suppression of Acoustic Noise in Speech Using Spectral Subtraction", IEEE Trans. ASSP, April 1979, Vol. ASSP-27, no. 2
[Non-patent document 2]
C. He and G. Zweig, "Adaptive Two-band Spectral Subtraction with Multi-Window Spectral Estimation", IEEE Conference of Acoustic 19th Spec. 793-796
[0007]
[Problems to be solved by the invention]
Among noises, there is noise having a spectrum shape similar to a voice spectrum, such as noise mixed with human voices of many people. Such noise is referred to as speech-like noise.
[0008]
The conventional background noise elimination device disclosed in Patent Literature 2 performs a re-subtraction process on the noise spectrum for a band in which the difference between the entire band S / N ratio and each band S / N ratio is equal to or less than a predetermined threshold. There are benefits to be gained. However, whether or not to perform the re-subtraction process is determined simply based on the value of the difference between the entire band S / N ratio and each band S / N ratio, and the spectrum of the band is similar to a voice spectrum or noise spectrum. Is not determined. Therefore, when speech noise is mixed in the input signal, the following problem occurs.
[0009]
First, when speech noise is treated as noise, there are the following problems. When noise suppression is performed based on the SS method, it is desirable that the estimated background noise spectrum has little fluctuation in the frequency axis direction. However, there is a problem that the accuracy of the estimated noise spectrum is deteriorated when the noise is mixed in the estimated noise spectrum as the noise because the noise in the frequency axis greatly fluctuates.
[0010]
On the other hand, if the speech noise is erroneously determined to be “speech”, the speech noise is suppressed as speech. However, since the speech noise has a small signal power but a spectrum shape similar to that of a speech spectrum, by performing the spectrum subtraction process, only a spectrum component having a relatively large spectrum amplitude remains isolated. By performing the re-subtraction processing further as in the device of Patent Document 2, unnecessary spectral components are further emphasized, and unpleasant artificial noise (musical noise) included in the residual noise increases.
[0011]
Also, consider a case in which the device of Patent Document 2 is applied to a wideband audio communication system with an upper limit of 7 kHz, such as a TV conference system requiring a sense of realism. Since the S / N ratio and power of a high-frequency voice spectral component of 4 kHz or more become considerably small, a voice of 4 kHz or more may be mistaken for noise in voice / noise determination. If it is erroneously determined to be noise, high-frequency speech is greatly spectrum-subtracted, so that only high-frequency spectral components having relatively large spectral amplitudes remain. As a result, musical noise is generated and the sound quality is degraded.
[0012]
Further, the conventional noise suppression device disclosed in Non-Patent Document 2 uses an HPF and an LPF determined from the intersection of the envelope of the input signal spectrum and the envelope of the noise spectrum to convert the input signal into a low band and a high band. , And a noise suppression method is selected according to each band, so that good noise suppression according to each band can be performed. However, for example, it is not suitable for noise suppression when there are three or more voiced bands and noise bands.
[0013]
SUMMARY OF THE INVENTION The present invention has been made to solve the above problems, and an object of the present invention is to provide a noise suppression device capable of suppressing noise which is desirable in terms of audibility and having less deterioration in quality even under high noise.
[0014]
[Means for Solving the Problems]
A noise suppression device according to the present invention converts an input audio signal represented in a time domain into a frequency domain expression, and generates a magnitude spectrum and a phase spectrum from frequency components. A band division unit that divides into frequency bands and outputs an average amplitude spectrum for each band, and analyzes the spectrum shape of the average amplitude spectrum for each frequency band to discriminate speech, noise, and speech-like noise similar to speech. A noise / sound determining unit for each band for outputting a spectrum shape determination result, a noise spectrum estimating unit for determining whether to update an estimated noise spectrum for each frequency band based on the spectrum shape determination result, and a spectrum shape determination Based on the results, an optimal noise suppression method is selected for each frequency band, and the amplitude spectrum of each frequency band is selected according to the selected method. A noise suppression unit that outputs a noise suppression spectrum obtained by suppressing the estimated noise spectrum for each frequency band from the noise, and a frequency that generates the noise suppression signal by converting the noise suppression spectrum into a signal represented in the time domain. -It has a time conversion unit.
[0015]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, various embodiments of the present invention will be described.
Embodiment 1 FIG.
FIG. 1 is a block diagram showing a configuration of a noise suppression device 100 according to Embodiment 1 of the present invention.
As shown in the figure, the noise suppression device 100 includes an input terminal 1, a time / frequency conversion unit 2, a noise likeness analysis unit 3, a band division unit 4, a band S / N ratio calculation unit 5, a band-specific speech / noise determination unit 6, The apparatus includes a noise spectrum estimating unit 7, a noise suppressing unit 8, a frequency / time converting unit 12, and an output terminal 13.
The noise suppression unit 8 includes a noise suppression control unit 9, a spectrum subtraction unit 10, and a spectrum amplitude suppression unit 11.
[0016]
The noise suppression processing performed by the noise suppression device 100 will be described.
When the input signal s [t] mixed with noise is input to the input terminal 1, the input signal s [t] is sampled at a predetermined sampling frequency, divided into frames at a predetermined cycle, and sent to the time / frequency converter 2. Is entered. Here, the sampling frequency is 8 kHz and the frame period is 20 ms.
[0017]
The time / frequency conversion unit 2 performs frequency analysis on the input signal s [t] that has been frame-divided using, for example, 256 points of Fast Fourier Transform (FFT), and an amplitude spectrum S [f]. ] And a phase spectrum P [f] are generated and output. Note that FFT is a well-known technique, and a description thereof will be omitted.
[0018]
The noise likeness analyzer 3 receives the frame-divided input signal s [t] output from the input terminal 1 and the amplitude spectrum S [f] output from the time / frequency converter 2. The noise likeness analysis unit 3 analyzes the input signal s [t] of the input current frame, and separates the noise likeness signal Nstt, which is an index indicating whether the current frame is a speech section or a noise section, by band. Output to the voice / noise determination unit 6. The noise spectrum estimating unit 7 also outputs a noise spectrum update coefficient r corresponding to the noise likeness signal Nstt. The noise spectrum update coefficient r is equal to an estimated noise spectrum N [f B ] Is calculated.
[0019]
FIG. 2 shows the relationship between the noise-likeness signal Nsttt and the noise spectrum update coefficient r and the state of the current frame. As shown in the figure, the noise likeness signal Nstt is output with level values 1 to 5. When Nsttt is in the range of 4 to 5, the current frame is a noise section, and when Nsttt is in the range of 1 to 3, the current frame is a speech section. A method of calculating the noise likeness signal Nsttt can be performed in the same manner as the noise likeness analysis processing disclosed in Patent Document 1, for example, and thus will be briefly described here.
The noise-likeness analysis unit 3 removes the influence of high-frequency noise from the input signal s [t] using a low-pass filter to obtain a low-pass filter signal. Next, a linear prediction analysis of the low-pass filter signal is performed. Next, inverse filtering of the low-pass filter signal is performed using the obtained linear prediction coefficients. Nstt is calculated based on the positive peak value of the auto-correlation coefficient of the low-pass residual signal obtained as a result of the inverse filter processing, the power of the low-pass residual signal, and the frame power.
[0020]
The band division unit 4 receives the input of the amplitude spectrum S [f] output from the time / frequency conversion unit 2, and divides the amplitude spectrum S [f] into, for example, 20 frequency bands indicated as Bark spectrum intervals. The band dividing unit 4 obtains an average spectrum of the amplitude spectrum S [f] for each divided band, and obtains the band-divided amplitude spectrum Sp [f]. B ] Is output. Note that f B Represents a band number in the bark spectrum.
The Bark spectrum is shown in Table 1 of Eberhard Zwicker, "Psychoacoustics", Nishimura Shoten, 1992, pp. 74. The bark spectrum interval is a method of dividing a frequency band corresponding to human hearing characteristics, and has a characteristic that a bandwidth is narrow in a low frequency region, and the bandwidth increases as the frequency increases. Hereinafter, the calculation processing for each frequency band is performed as follows, unless otherwise specified. B Shall be performed.
[0021]
The band S / N ratio calculator 5 calculates the band-divided amplitude spectrum Sp [f B ], And an estimated noise spectrum N [f B ], And the band SNR SNR [f] according to the following equation (1). B ] Is calculated. That is, the band SN ratio is calculated as a ratio between the signal spectrum power and the noise spectrum power of each band.
Figure 2004341339
[0022]
That is, in equation (1), the calculation result SNR [f B ] Is negative, the SNR [f B ] = 0.
[0023]
The band-specific speech / noise determination unit 6 determines the band SNR SNR [f of the frame immediately before the current frame output by the band SNR calculation unit 5. B ], And performs speech / noise determination for each band, and according to the determination result, a speech / noise determination flag svad [f for each band. B ] Is calculated. As a method of speech / noise determination for each band, for example, a band SN ratio SNR [f B ] And a predetermined threshold value TH1 (first threshold value).
SNR [f B ]> When TH1
svad [f B ] = Voice (voice)
SNR [f B ] ≤ TH1
svad [f B ] = Noise (noise)
Where f B = {1, ..., 20} (2)
[0024]
Here, TH1 is a threshold value used for speech / noise determination for each band. As the threshold value TH1, for example, TH1 = 1.5 dB can be used as a suitable value obtained from a large number of samples of the speech SN ratio.
[0025]
Further, the band-based voice / noise determination unit 6 calculates the band-based voice / noise determination flag svad [f for each band calculated by Expression (1). B ], And a continuity determination process of the noise band based on the noise-likeness signal Nstt output from the noise-likeness analysis unit 3, and based on the determination result, an estimated noise spectrum update flag update [f for each band. B ] (Spectral shape determination result) is set. Referring to the flowchart of FIG. 3, estimated noise spectrum update flag update [f for each band in band-based speech / noise determination unit 6. B ] Will be described.
[0026]
First, in step ST101, the band-specific speech / noise determination unit 6 analyzes the noise-likeness signal Nstt output from the noise-likeness analysis unit 3. As shown in FIG. 2, when the value of Nstt is 1, 2, or 3, it is determined that the section is a voice section, and the process proceeds to step ST102.
[0027]
On the other hand, when the value of Nsttt is 4 or 5, it is determined that all the bands are noise sections, and the process proceeds to step ST110.
In step ST110, the estimated noise spectrum update flags update [f B Is set to NOISE and output. As will be described later, this results in an estimated noise spectrum N [f B ] Is updated.
[0028]
The processing of steps ST102 to ST109 is performed for each of the divided bands. First, in step ST102, a speech / noise determination flag for each band svad [f B ] Is determined, and svad [f B ] Indicates noise (NOISE), the process proceeds to step ST103. If the value indicates voice (VOICE), the process proceeds to step ST105.
[0029]
In step ST103, the number of bands determined to be NOISE is incremented. The obtained count number is defined as count. Next, in step ST104, the band number f of the band being processed B Has reached the maximum value 20, the process proceeds to step ST105. f B Is less than or equal to 19, the process returns to step ST102. By this repetition processing, when the noise bands are continuous, the number of the continuous bands can be counted.
[0030]
In step ST105, the value of count is compared with a continuous count threshold THc (second threshold). For the continuous count threshold THc, for example, THc = 3 can be set as a suitable value obtained from experience. If count is greater than threshold THc, that is, if the number of consecutive noise bands is greater than the number determined by the threshold, it is determined that all the continuous bands are noise and the process proceeds to step ST106. On the other hand, if the count is equal to or smaller than the threshold THc, the process proceeds to step ST107 without determining that the noise is noise.
[0031]
In step ST106, the estimated noise spectrum update flag update [f for each band determined to be a noise band in step ST105. B Is set to NOISE. Thereby, for the corresponding band, an estimated noise spectrum N [f B ] Is updated.
Estimated noise spectrum update flag update [f B ] Is repeated the number of times of count, the process proceeds to step ST108.
[0032]
In step ST107, the estimated noise spectrum update flag update [f for each band determined to be not a noise band in step ST105. B ] Is set to VOICE. Thereby, for the corresponding band, an estimated noise spectrum N [f B ] Is not updated.
Estimated noise spectrum update flag update [f B ] Is repeated the number of times of count, the process proceeds to step ST108.
[0033]
In step ST108, the value of count is reset to 0. Next, in step ST109, the band number f of the band being processed B Is determined to have reached the maximum value 20, the processing is terminated. f B Is less than or equal to 19, the process returns to step ST102. As a result, processing is performed for all bands.
[0034]
Here, the estimated noise spectrum update flag update [f by the band-specific speech / noise determination unit 6 will be described with reference to FIGS. 4 and 5. B A specific example of the result of the setting process will be described. FIG. 4 is an example of a voice spectrum and a noise spectrum of a voice input signal mixed with a noise signal. FIG. 5 shows a band SN ratio SNR [f obtained from the spectrum distribution shown in FIG. B ] And the estimated noise spectrum update flag update [f obtained by the processing of FIG. B ] Is an example. In FIG. 5, the band SN ratio SNR [f B ] Is less than the determination threshold value TH1 for a band group in which the bandwidth threshold value THc = 3 or more continues, the estimated noise spectrum update flag update [f B ] Is set as a noise band (NOISE), and the other bands are voice bands (VOICE). As shown in the figure, a set of a plurality of continuous bands determined as a voice band or a noise band is defined as a band group.
[0035]
Next, the band-specific speech / noise determination unit 6 performs the estimation noise spectrum update flag update [f B For the band for which NOISE is set in [], processing for further improving the determination accuracy is performed.
That is, the band group determined to be a noise band is further determined to be noise or speech noise. For the band determined to be speech noise, the estimated noise spectrum N [f B ] Is not set. This is because the accuracy of the estimated noise spectrum is deteriorated when speech noise having large fluctuation in the frequency direction is mixed into the estimated noise spectrum holding the average spectrum shape of the noise component included in the input signal.
Note that the estimated noise spectrum update flag update [f B For the band group in which VOICE is set in [], that is, the voice band group, the processing for increasing the determination accuracy is not performed.
[0036]
Here, as one method for improving the determination accuracy, the variance of the band S / N ratio between the bands is determined for each band group, and whether the band group is noise or speech noise is determined based on the value, and the estimation is performed. Noise spectrum update flag update [f B ].
The serial number of a series of band groups shown in FIG. 5 is n, and L [n] is the bandwidth at band group number n, that is, the number of bands included in the band group. Dispersion SNR between bands of band SN ratio in band group number n determined to be NOISE dev [N] can be obtained by equation (3).
(Equation 1)
Figure 2004341339
[0037]
Where f B (N) is a band number f belonging to the band group n B And f B (N L ) Is the band number lower limit of band group n, f B (N H ) Is the band number upper limit of band group n. In FIG. 5, the case where n = 2 will be described as an example. B (2) = {10, 11, 12, 13}, and f B (2 L ) = 10, f B (2 H ) = 13 and L [2] = 4.
[0038]
The band-specific speech / noise determination unit 6 calculates the variance SNR of the band S / N ratio of the band group n obtained by Equation (3) for all the band groups determined to be noise. dev [N] is compared with a threshold value TH2 (third threshold value). Here, the threshold value TH2 is a predetermined threshold value for determining whether the noise is noise or speech noise. For the threshold value TH2, for example, TH2 = 16.0 can be set as a suitable value obtained through experience.
When the variance of the band S / N ratio is smaller than the threshold value TH2, it indicates that the band group has a small variation in spectrum in the frequency direction (unevenness of the spectrum) and is stationary. The band group is determined to be noise. On the other hand, if the variance of the band S / N ratio is equal to or larger than the threshold value TH2, it indicates that the spectrum in the frequency group has large dispersion in the band group. It is determined that the noise has a spectrum shape similar to voice, that is, voice noise.
[0039]
The band-based speech / noise determination unit 6 updates the estimated noise spectrum update flags update [f for all the bands included in the band group for the band group determined to be speech noise. B ] Is changed from NOISE to SPEECHLIKE_NOISE indicating that it is speech noise.
Regarding the change of the noise suppression method described later, even a speech noise is treated as a noise band.
[0040]
The noise spectrum estimating unit 7 includes a noise spectrum updating coefficient r output from the noise likeness analyzing unit 3 and an amplitude spectrum Sp [f output from the band dividing unit 4. B ] And a noise spectrum update flag update [f output from the band-specific speech / noise determination unit 6. B ] And an estimated noise spectrum N indicating a past average noise spectrum shape. old [F B ] And the estimated noise spectrum N [f B ] Is updated. Estimated noise spectrum N old [F B ] May be stored in an internal storage unit such as a RAM held by the noise spectrum estimating unit 7 or may be stored in an external storage device accessible by the noise spectrum estimating unit 7. Note that the estimated noise spectrum update flag update [f B ] Is VOICE or SPEECHLIQUE_NOISE, the estimated noise spectrum N [f B ] Is not updated.
update [f B ] = NOISE
N [f B ] = R · N old [F B ] + (1-r) · Sp [f B ]
update [f B ] = VOICE or
update [f B ] = When SPEECHLIQUE_NOISE
N [f B ] = N old [F B ]
Where f B = {1, ..., 20} (4)
[0041]
The noise suppression control unit 9 updates the estimated noise spectrum update flag update [f output from the band-specific speech / noise determination unit 6. B ] And the band SN ratio SNR [f output by the band SN ratio calculation unit 5] B ] As an input, a spectrum subtraction amount α [f, which is a coefficient used for spectrum amplitude suppression and spectrum subtraction described later. B ] And the spectral amplitude suppression amount β [f B ] Is calculated. Using the calculated coefficients, the spectrum subtraction unit 10 estimates the estimated noise spectrum N [f] from the amplitude spectrum S [f]. B ), The spectrum amplitude suppression unit 11 further suppresses the noise by further suppressing the spectrum amplitude, and outputs the noise-suppressed spectrum Sr [f].
[0042]
First, a method of calculating each coefficient used for spectrum subtraction and spectrum amplitude suppression in the noise suppression control unit 9 will be described.
First, the spectral amplitude suppression amount β [f B ]. Note that GAIN in equation (5) is the band SN ratio SNR [f B ] Is a predetermined constant. Estimated noise spectrum update flag update [f output by band-specific speech / noise determination unit 6 B ] Is VOICE, that is, the voice band, the spectrum amplitude suppression amount β [f B ], And β [f B ] Exceeds 0 (dB), β [f B ] = 0 (dB), and in this case, spectral amplitude suppression is not performed.
On the other hand, the estimated noise spectrum update flag update [f B ] Is NOISE or SPEECHLIKE_NOISE, that is, a noise band or a speech noise band, a residual noise component accompanying the spectrum subtraction processing causes musical noise. Therefore, it is necessary to perform only the spectral amplitude suppression without performing the spectrum subtraction. Therefore, as shown in Expression (5), the spectral amplitude suppression amount β [f B ] Is set to the maximum suppression amount -Gmin (dB).
update [f B ] = When VOICE
β [f B ] = Min {SNR [f B ] ・ GAIN-Gmin, 0}
update [f B ] = NOISE or
update [f B ] = When SPEECHLIQUE_NOISE
β [f B ] = − Gmin (5)
[0043]
According to equation (5), the spectrum amplitude suppression amount β [f B ], The noise suppression control unit 9 determines the value of β [f B And the spectral subtraction amount α [f according to the equation (6). B ]. The noise suppression control unit 9 obtains the obtained spectrum subtraction amount α [f B ] To the spectrum subtraction unit 10 and the spectrum amplitude suppression amount β [f B ] To the spectrum amplitude suppression unit 11.
α [f B ] = − (Gmin + β [f B ]) (6)
[0044]
The spectrum subtraction unit 10 calculates the spectrum subtraction amount α [f B ] Is the percentage value of the spectral subtraction rate α P [F B ]. The spectrum subtraction unit 10 calculates the estimated noise spectrum N [f output from the noise spectrum estimation unit 7 according to the equation (7). B ] Is the spectral subtraction rate α P [F B ] Is subtracted from the amplitude spectrum S [f] output from the time / frequency converter 2 to obtain a noise subtracted spectrum S S [F] is output. Noise removal spectrum S S When [f] becomes negative, a predetermined constant GL given to the amplitude spectrum S [f] of the input signal min Is multiplied by the amplitude spectrum S [f] to obtain a noise removal spectrum S S A backfilling process of [f] is performed.
In this processing, each band number f B Noise spectrum N [f corresponding to B ] And the spectral subtraction rate α P [F B ] To each band number f B It is assumed that the calculation is performed by expanding to an amplitude spectrum component S [f] corresponding to.
S [f]> α P [F B ] · N [f B ]time
S S [F] = S [f] -α P [F B ] · N [f B ]
S [f] ≦ α P [F B ] · N [f B ]time
S S [F] = S [f] · GL min (7)
[0045]
Next, the spectrum amplitude suppression unit 11 sets the spectrum amplitude suppression amount β [f B ] To the linear value β 1 [F B And the noise removal spectrum S according to equation (8). S Β in [f] 1 [F B ] To calculate the noise suppression spectrum Sr [f].
Sr [f] = β 1 [F B ] ・ S S [F] (8)
[0046]
As can be seen from Equations (5) and (6), the estimated noise spectrum update flag update [f B ] Is set to VOICE in the band SN ratio SNR [f B ] Increases, the spectrum amplitude suppression amount β [f B ], The amplitude suppression is weakened, and the spectral subtraction amount α [f B ] Becomes large, and the spectrum subtraction becomes strong. Conversely, the band SN ratio SNR [f B ] Becomes smaller, the spectrum amplitude suppression amount β [f B ] Increases, the amplitude suppression becomes stronger, and the spectrum subtraction becomes weaker. As a result, in a band with a high SN ratio, noise suppression is gained mainly by spectrum subtraction, and in a band with a low SN ratio, amplitude suppression is performed while retaining a voice spectrum component. can do.
[0047]
Also, the estimated noise spectrum update flag update [f B ] Is set to NOISE or SPEECHLIKE_NOISE, or in a speech noise band, the spectrum amplitude suppression amount β [f B ] Is the maximum suppression amount Gmin, so that the spectrum subtraction amount α [f B ] Is 0, the spectrum subtraction processing is not performed, and the noise is only reduced in volume while maintaining its spectral shape, and no spectral deformation occurs, so that the “naturalness” of the noise suppression processing voice is maintained.
[0048]
A specific example of the noise suppression processing in the voice section will be described with reference to FIGS. FIG. 6 is a diagram showing respective spectral components of a speech signal and a speech noise signal in the input signal. FIG. 7 is a diagram showing a spectrum after noise suppression processing when a speech noise band is erroneously determined to be a speech band in the input signal of FIG. 6 as in the related art. FIG. 8 is a diagram illustrating a spectrum after noise suppression processing when the input signal illustrated in FIG. 6 is input to the noise suppression device 100 according to the first embodiment.
[0049]
In the example shown in FIG. 7, the speech noise band portion indicated by SPEECHLIQUE_NOISE in the figure is erroneously determined to be speech, and spectrum subtraction is performed based on the determination. For this reason, as shown in the figure, spectrum deformation occurs in the speech noise band, and isolated residual spectrum components having a large amplitude are generated in the high frequency components of the speech spectrum.
On the other hand, in the example shown in FIG. 8, the speech noise band is determined as speech noise, and based on the determination, spectrum subtraction is not performed and only spectrum amplitude suppression is performed. No residual spectrum is generated. Therefore, good noise suppression is realized.
[0050]
Further, a specific example of the noise suppression processing in the noise section will be described with reference to FIGS. FIG. 9 is a diagram showing an example of a speech noise spectrum. FIG. 10 is a diagram showing a speech noise spectrum after noise suppression processing when a speech noise band is erroneously determined to be a speech band as in the related art. FIG. 11 is a diagram showing a speech noise spectrum after the noise suppression processing by the noise suppression device 100 according to the first embodiment.
[0051]
In the example shown in FIG. 10, the scattered speech noise spectrum is erroneously determined to be speech, and spectrum subtraction is performed based on the determination. As a result, spectrum deformation occurs, an isolated spectrum component having a large amplitude is generated, and the speech noise spectrum is emphasized. On the other hand, in FIG. 11, the scattered speech noise spectrum is correctly determined as speech noise, and spectrum amplitude suppression is performed instead of spectrum subtraction based on the decision. Only the signal power decreases while the spectral shape is maintained. That is, only the sound volume is reduced while the naturalness of noise is maintained, and good noise suppression can be performed.
[0052]
The frequency / time conversion unit 12 converts the noise suppression spectrum Sr [f] and the phase spectrum P [f] output from the time / frequency conversion unit 2 into a time signal, and partially overlaps the noise suppression signal of the previous frame. The processing is performed, and the noise suppression signal sr [t] is output from the output terminal 13.
[0053]
As described above, according to the first embodiment, the spectrum of an input signal is divided into frequency bands, and speech / noise determination is performed for each band based on the SN ratio of the spectrum. Further, for the band determined to be noise, the degree of continuity of the noise section is analyzed, and only when the noise band continues for a certain length or more, it is determined again as noise. Further, with respect to the noise band, noise and speech noise are distinguished based on the variance of the SN ratio between consecutive bands.
Based on these distinctions, an appropriate noise spectrum is estimated for each band, and a noise suppression method suitable for the spectrum shape of each band is selected to perform noise suppression. Suppression is performed, and it is possible to obtain a sound that is preferable in terms of hearing.
[0054]
If speech noise can be correctly determined, it is possible to prevent the spectral components of speech noise having large fluctuations in the frequency axis direction from being mixed into the estimated noise spectrum, thereby preventing the accuracy of the estimated noise spectrum from deteriorating.
[0055]
In addition, since speech noise can be determined, only spectrum amplitude suppression is performed for a speech noise band without using spectrum subtraction in the noise suppression method. As a result, the suppressed spectrum is not deformed, and only the sound volume can be reduced while maintaining the spectrum shape. For this reason, since no isolated residual spectral components are generated, the naturalness of the sound after the noise suppression processing is maintained, and annoying artificial noise (musical noise) included in the residual noise can be prevented from increasing.
[0056]
In Embodiment 1, as shown in FIG. 3, band-based speech / noise determination section 6 uses estimated noise spectrum Nstt output from noise-likeness analysis section 3 for estimated noise spectrum for each band. Update flag update [f B Is performed, but the determination process based on the value of the noise likeness signal Nsttt is not performed, and the speech / noise determination flag svad [f for each band is performed. B ] May be used for processing.
Also, as for the noise spectrum update coefficient r output from the noise likeness analyzer 3, the estimated noise spectrum is calculated using a fixed value instead of using the value corresponding to the noise likeness signal Nstt as shown in FIG. You may do so.
[0057]
Embodiment 2 FIG.
In the first embodiment, 8 kHz is used as a sampling frequency of an input signal in consideration of a noise suppression device used for a voice communication system for a voice band up to about 4 kHz such as a telephone. In the second embodiment, a noise suppression device that can be used in a wideband voice communication system in which the voice band is limited to 7 kHz by extending the sampling frequency to 16 kHz, for example, is considered.
[0058]
The S / N ratio of the voice spectrum component of 4 kHz or higher is even smaller than the S / N ratio in the voice band of a telephone of 4 kHz or lower. Therefore, in addition to the threshold values TH1 and THc used in the first embodiment, a threshold value suitable for a high band of 4 kHz or more is prepared.
[0059]
That is, in the high frequency range of 4 kHz or more, the threshold used for the speech / noise determination for each frequency band is set smaller than the frequency range of 4 kHz or less. h = 0.5 (dB). This makes it easier for a high-frequency voice having a low SN ratio of voice to be determined as a voice. Also, the continuous count threshold of the noise band is increased, for example, THc h = 4 is set. This makes it easier to determine the audio band.
Further, even when speech of 4 kHz or more is erroneously determined to be noise or speech noise, the noise suppression apparatus of the second embodiment does not perform spectrum subtraction processing on noise and speech noise bands, and suppresses spectrum amplitude suppression. Perform only processing. As a result, spectrum deformation due to spectrum subtraction does not occur, and no isolated residual spectrum components are generated, so that deterioration in sound quality can be avoided.
[0060]
As described above, according to the second embodiment, even when applied to a wideband speech communication system, by setting each threshold value to a value suitable for each band, an appropriate noise level can be obtained even for high-frequency speech. Suppression processing can be performed.
Further, even when a voice component in a band of 4 kHz or more is erroneously determined to be noise or voice noise, only spectral amplitude suppression processing is performed without performing spectrum subtraction processing. Since no residual spectrum component is generated, deterioration of sound quality can be prevented.
[0061]
Embodiment 3 FIG.
In the first and second embodiments, each determination threshold used in band-specific speech / noise determination unit 6 is set to a constant value for the entire band or for each band. In the third embodiment, for example, each threshold is dynamically changed based on the value of the noise likeness signal Nstt output from the noise likeness analyzer 3.
[0062]
FIG. 12 is a block diagram showing a configuration of a noise suppression device 300 according to Embodiment 3 of the present invention. 1 denote the same components. As shown in the figure, the noise suppression device 300 includes a threshold changing unit 14. In the third embodiment, each unit other than the threshold value changing unit 14 operates similarly to the first embodiment.
[0063]
The threshold value changing unit 14 internally has a constant table as shown in FIG. This table associates the band-based speech / noise determination determination threshold value TH1 corresponding to the noise-likeness signal Nstt output by the noise-likeness analysis unit 3 with the bandwidth threshold value THc of the noise section. As shown in the figure, when the noise-likeness signal Nstt is a value predicted to be speech (Nstt = 1, 2, 3), TH1 is decreased and THc is increased in order to make it more likely to be determined as speech. . Conversely, when the noise-likeness signal Nstt is a value predicted to be noise (Nstt = 4, 5), TH1 is set to be large and THc is set to be small in order to make it easier to determine as noise.
[0064]
The threshold changing unit 14 refers to the internal table, selects the thresholds TH1 and THc corresponding to Nstt output from the noise likeness analyzing unit 3, and outputs the selected thresholds TH1 and THc to the band-based speech / noise determining unit 6. The band-specific speech / noise determination unit 6 performs the same processing as in the first embodiment using the thresholds TH1 and THc notified from the threshold changing unit 14.
[0065]
As described above, according to the third embodiment, by selecting each determination threshold according to the result of the noise-likeness signal Nstt output from the noise-likeness analysis unit 3, the speech / noise determination process for each band is performed on the input signal. Can be carried out under conditions suitable for the above conditions. As a result, the accuracy of speech / noise determination for each band is improved, and the sound quality of the signal after the noise suppression processing can be further improved.
[0066]
In the third embodiment, the two thresholds TH1 and THc are dynamically changed, but only one of them may be changed.
[0067]
Also, in the third embodiment, by expanding the sampling frequency to, for example, 16 kHz, it can be used for a wideband voice communication system having a voice bandwidth of 7 kHz.
[0068]
【The invention's effect】
As described above, according to the present invention, it is possible to obtain a noise suppression device which can suppress noise which is preferable in terms of audibility and which has little quality deterioration even under high noise.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of a noise suppression device according to Embodiment 1 of the present invention.
FIG. 2 is a diagram showing a relationship between a noise-likeness signal and a noise spectrum update coefficient, and a state of a current frame.
FIG. 3 is a flowchart of a setting process of an estimated noise spectrum update flag for each band in a band-based speech / noise determination unit according to Embodiment 1 of the present invention;
FIG. 4 is a diagram illustrating an example of a speech spectrum and a noise spectrum of an input signal.
FIG. 5 is a diagram showing an example of an estimated noise spectrum update flag obtained from the input signal shown in FIG. 4 according to the first embodiment of the present invention.
FIG. 6 is a diagram illustrating an example of a speech spectrum and a spectrum of a speech noise signal.
FIG. 7 is a diagram illustrating an example of a spectrum after noise suppression processing when a speech noise signal is erroneously determined to be speech.
FIG. 8 is a diagram showing an example of a spectrum after noise suppression processing according to the first embodiment of the present invention.
FIG. 9 is an example of a speech noise spectrum in a noise section.
FIG. 10 is a diagram illustrating an example of a speech noise spectrum after noise suppression processing when a speech noise signal is erroneously determined to be speech.
FIG. 11 is a diagram showing an example of a speech noise spectrum after the noise suppression processing according to the first embodiment of the present invention.
FIG. 12 is a block diagram showing a configuration of a noise suppression device according to Embodiment 3 of the present invention.
FIG. 13 is a diagram illustrating a relationship between a noise likeness signal and each determination threshold.
[Explanation of symbols]
Reference Signs List 1 input terminal, 2 time / frequency conversion unit, 3 noise likeness analysis unit, 4 band division unit, 5 band SN ratio calculation unit, 6 band speech / noise determination unit, 7 noise spectrum estimation unit, 8 noise suppression unit, 9 Noise suppression control unit, 10 spectrum subtraction unit, 11 spectrum amplitude suppression unit, 12 frequency / time conversion unit, 13 output terminal, 14 threshold change unit, 100, 300 noise suppression device.

Claims (12)

時間領域で表される入力音声信号を周波数領域の表現に変換し、上記周波数成分から振幅スペクトルと位相スペクトルを生成する時間・周波数変換部と、
上記振幅スペクトルを複数の周波数帯域に分割し、帯域毎の平均振幅スペクトルを出力する帯域分割部と、
上記周波数帯域毎に平均振幅スペクトルのスペクトル形状を解析して音声、雑音、及び音声に類似した音声的雑音の区別を行い、スペクトル形状判定結果を出力する帯域別音声・雑音判定部と、
上記スペクトル形状判定結果に基づいて、上記周波数帯域毎の推定雑音スペクトルの更新を行なうかどうかを決定する雑音スペクトル推定部と、
上記スペクトル形状判定結果に基づいて、上記周波数帯域毎に最適な雑音抑圧方法を選択し、選択した方法に従って各周波数帯域の振幅スペクトルから上記周波数帯域毎の推定雑音スペクトルを抑圧することにより得られる雑音抑圧スペクトルを出力する雑音抑圧部と、
上記雑音抑圧スペクトルを時間領域で表される信号に変換することにより雑音抑圧信号を生成する周波数・時間変換部とを備えた雑音抑圧装置。
A time-frequency conversion unit that converts an input audio signal represented in a time domain into a frequency domain expression, and generates an amplitude spectrum and a phase spectrum from the frequency components;
A band dividing unit that divides the amplitude spectrum into a plurality of frequency bands and outputs an average amplitude spectrum for each band;
Analyzing the spectrum shape of the average amplitude spectrum for each frequency band, speech, noise, and a distinction of speech noise similar to speech, a band-based speech / noise determination unit that outputs a spectrum shape determination result,
Based on the spectrum shape determination result, a noise spectrum estimating unit that determines whether to update the estimated noise spectrum for each frequency band,
Based on the spectrum shape determination result, an optimum noise suppression method is selected for each of the frequency bands, and noise obtained by suppressing the estimated noise spectrum for each of the frequency bands from the amplitude spectrum of each frequency band according to the selected method. A noise suppression unit that outputs a suppression spectrum,
A noise suppression device comprising: a frequency / time conversion unit that generates a noise suppression signal by converting the noise suppression spectrum into a signal represented in a time domain.
入力音声信号の雑音らしさを分析し、上記入力音声信号が音声か雑音かを表す雑音らしさ信号と、雑音らしさに応じた雑音スペクトル更新係数を出力する雑音らしさ分析部を備え、
帯域別音声・雑音判定部は、上記雑音らしさ信号を周波数帯域毎のスペクトル形状の解析に利用し、
雑音スペクトル推定部は、上記雑音スペクトル更新係数を用いて推定雑音スペクトルを算出し、スペクトル形状判定結果に基づいて上記推定雑音スペクトルの更新を行なうことを特徴とする請求項1記載の雑音抑圧装置。
Analyzing the noise likeness of the input speech signal, the noise likeness signal indicating whether the input speech signal is speech or noise, and a noise likeness analysis unit that outputs a noise spectrum update coefficient according to the noise likeness,
The band-based speech / noise determination unit uses the noise likeness signal for analysis of a spectrum shape for each frequency band,
2. The noise suppression device according to claim 1, wherein the noise spectrum estimating unit calculates an estimated noise spectrum using the noise spectrum update coefficient, and updates the estimated noise spectrum based on a spectrum shape determination result.
周波数帯域毎に、平均振幅スペクトルのパワーと推定雑音スペクトルのパワーの比で表される帯域SN比を算出する帯域SN比計算部を備え、
帯域別音声・雑音判定部は、上記帯域SN比の値と上記帯域SN比の複数帯域における分散の値に基づいて、平均振幅スペクトルのスペクトル形状を判定することを特徴とする請求項1または請求項2記載の雑音抑圧装置。
For each frequency band, there is provided a band S / N ratio calculator that calculates a band S / N ratio represented by a ratio of the power of the average amplitude spectrum to the power of the estimated noise spectrum,
The speech / noise determining unit for each band determines a spectrum shape of an average amplitude spectrum based on the value of the band SN ratio and a value of variance of the band SN ratio in a plurality of bands. Item 3. The noise suppression device according to Item 2.
帯域別音声・雑音判定部は、帯域SN比が第1の閾値以下になる周波数帯域が第2の閾値以上連続している場合には、それらの連続した帯域のスペクトル形状を雑音と判定し、それ以外の場合には音声と判定することを特徴とする請求項3記載の雑音抑圧装置。The band-based speech / noise determination unit determines, when the frequency band in which the band SN ratio is equal to or smaller than the first threshold is continuous equal to or larger than the second threshold, the spectrum shape of the continuous band as noise, 4. The noise suppression device according to claim 3, wherein the noise is determined in other cases. 帯域別音声・雑音判定部は、帯域SN比が第1の閾値以下になる周波数帯域が第2の閾値以上連続した場合に、それらの連続した帯域における帯域SN比の分散が第3の閾値より小さくなる場合には、それらの連続した帯域のスペクトル形状を雑音と判定し、
一方、それらの連続した帯域における帯域SN比の分散が第3の閾値以上になる場合には、それらの連続した帯域のスペクトル形状を音声的雑音と判定することを特徴とする請求項4記載の雑音抑圧装置。
The band-based speech / noise determination unit determines that, when the frequency bands in which the band SN ratio is equal to or less than the first threshold are continuous over the second threshold, the variance of the band SN ratio in those continuous bands is larger than the third threshold. If it becomes smaller, the spectrum shape of those continuous bands is determined as noise,
On the other hand, when the variance of the band S / N ratio in these continuous bands is equal to or greater than a third threshold, the spectrum shape of these continuous bands is determined as speech noise. Noise suppression device.
雑音スペクトル推定部は、音声的雑音と判定した帯域については、その帯域の推定雑音スペクトルの更新を行わないことを特徴とする請求項1から請求項5のうちのいずれか1項記載の雑音抑圧装置。The noise suppression apparatus according to any one of claims 1 to 5, wherein the noise spectrum estimating unit does not update the estimated noise spectrum of the band determined to be speech noise. apparatus. 雑音抑圧部は、スペクトル形状判定結果と帯域SN比に基づいて、複数の雑音抑圧方法による抑圧量の割合を制御する雑音抑圧制御部を備え、
制御された割合に基づいて、各周波数帯域の振幅スペクトルから上記周波数帯域毎の雑音スペクトルを抑圧して得られる雑音抑圧スペクトルを出力することを特徴とする請求項3から請求項6のうちのいずれか1項記載の雑音抑圧装置。
The noise suppression unit includes a noise suppression control unit that controls a ratio of suppression amounts by a plurality of noise suppression methods based on the spectrum shape determination result and the band SN ratio,
The noise suppression spectrum obtained by suppressing the noise spectrum for each frequency band from the amplitude spectrum of each frequency band based on the controlled ratio is output. The noise suppression device according to claim 1.
雑音抑圧制御部は、スペクトル形状判定結果が雑音または音声的雑音である帯域については、スペクトル減算による雑音抑圧を行なわず、スペクトル振幅抑圧による雑音抑圧のみを行なうことを特徴とする請求項7記載の雑音抑圧装置。8. The noise suppression control unit according to claim 7, wherein the noise suppression control unit performs only noise suppression by spectrum amplitude suppression without performing noise suppression by spectrum subtraction for a band in which the spectrum shape determination result is noise or speech noise. Noise suppression device. 雑音抑圧制御部は、スペクトル形状判定結果が音声である帯域については、帯域SN比が大きくなるほど、スペクトル減算による雑音抑圧の割合を大きくし、スペクトル振幅抑圧による雑音抑圧の割合を小さくすることを特徴とする請求項7または請求項8記載の雑音抑圧装置。The noise suppression control unit increases the ratio of noise suppression by spectrum subtraction and decreases the ratio of noise suppression by spectrum amplitude suppression as the band SN ratio increases for a band whose spectrum shape determination result is voice. The noise suppression device according to claim 7 or 8, wherein 帯域分割部は、入力音声信号の振幅スペクトルを人間の聴感特性に対応した周波数帯域に分割することを特徴とする請求項1から請求項9のうちのいずれか1項記載の雑音抑圧装置。The noise suppression device according to any one of claims 1 to 9, wherein the band division unit divides an amplitude spectrum of the input audio signal into a frequency band corresponding to human hearing characteristics. 雑音らしさ分析部が出力する雑音らしさ信号に応じた第1の閾値を選択して出力する閾値変更部を備え、
帯域別音声・雑音判定部は、上記選択された第1の閾値を用いてスペクトル形状の判定を行なうことを特徴とする請求項4から請求項10のうちのいずれか1項記載の雑音抑圧装置。
A threshold changing unit that selects and outputs a first threshold according to the noise likelihood signal output by the noise likeness analyzing unit,
The noise suppression device according to any one of claims 4 to 10, wherein the band-based speech / noise determination unit determines the spectrum shape using the selected first threshold. .
雑音らしさ分析部が出力する雑音らしさ信号に応じた第2の閾値を選択して出力する閾値変更部を備え、
帯域別音声・雑音判定部は、上記選択された第2の閾値を用いてスペクトル形状の判定を行なうことを特徴とする請求項4から請求項10のうちのいずれか1項記載の雑音抑圧装置。
A threshold changing unit that selects and outputs a second threshold according to the noise likelihood signal output by the noise likeness analyzing unit,
The noise suppression device according to any one of claims 4 to 10, wherein the band-based speech / noise determination unit determines the spectrum shape using the selected second threshold value. .
JP2003139248A 2003-05-16 2003-05-16 Noise restriction device Abandoned JP2004341339A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003139248A JP2004341339A (en) 2003-05-16 2003-05-16 Noise restriction device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003139248A JP2004341339A (en) 2003-05-16 2003-05-16 Noise restriction device

Publications (1)

Publication Number Publication Date
JP2004341339A true JP2004341339A (en) 2004-12-02

Family

ID=33528391

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003139248A Abandoned JP2004341339A (en) 2003-05-16 2003-05-16 Noise restriction device

Country Status (1)

Country Link
JP (1) JP2004341339A (en)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006178333A (en) * 2004-12-24 2006-07-06 Nippon Telegr & Teleph Corp <Ntt> Proximity sound separation and collection method, proximity sound separation and collecting device, proximity sound separation and collection program, and recording medium
JP2007017818A (en) * 2005-07-11 2007-01-25 Casio Comput Co Ltd Musical sound controller, and program for musical sound control processing
JP2007053511A (en) * 2005-08-17 2007-03-01 Sony Corp Speech processing device and microphone apparatus
JP2007052150A (en) * 2005-08-17 2007-03-01 Sony Corp Noise canceler and microphone device
JP2008039694A (en) * 2006-08-09 2008-02-21 Toshiba Corp Signal count estimation system and method
JP2008116952A (en) * 2006-10-31 2008-05-22 Harman Becker Automotive Systems Gmbh Model-based enhancement of speech signal
JP2008134605A (en) * 2006-10-23 2008-06-12 Matsushita Electric Ind Co Ltd Noise suppressing device, fm receiver, and method for adjusting fm receiver
WO2010052749A1 (en) * 2008-11-04 2010-05-14 三菱電機株式会社 Noise suppression device
JP2010271712A (en) * 2009-05-22 2010-12-02 Honda Motor Co Ltd Sound data processing device and sound data processing method
JP2011530091A (en) * 2008-08-05 2011-12-15 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン Apparatus and method for processing an audio signal for speech enhancement using feature extraction
WO2012038998A1 (en) * 2010-09-21 2012-03-29 三菱電機株式会社 Noise suppression device
US20120250885A1 (en) * 2011-03-30 2012-10-04 Nikon Corporation Signal-processing device, imaging apparatus, and signal-processing program
JP2013190655A (en) * 2012-03-14 2013-09-26 Fujitsu Ltd Noise estimating device, noise estimating method and computer program for noise estimation
JPWO2013065088A1 (en) * 2011-11-02 2015-04-02 三菱電機株式会社 Noise suppressor
US9117456B2 (en) 2010-11-25 2015-08-25 Fujitsu Limited Noise suppression apparatus, method, and a storage medium storing a noise suppression program
WO2020153158A1 (en) * 2019-01-23 2020-07-30 日本電信電話株式会社 Determination device, method therefor, and program
CN111722185A (en) * 2020-05-15 2020-09-29 深圳市微纳感知计算技术有限公司 Characteristic sound positioning method, device and equipment

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09502814A (en) * 1993-09-14 1997-03-18 ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー Voice activity detector
JPH10171497A (en) * 1996-12-12 1998-06-26 Oki Electric Ind Co Ltd Background noise removing device
JPH10254499A (en) * 1997-03-14 1998-09-25 Nippon Telegr & Teleph Corp <Ntt> Band division type noise reducing method and device
JP2001134287A (en) * 1999-11-10 2001-05-18 Mitsubishi Electric Corp Noise suppressing device
JP2002149200A (en) * 2000-08-31 2002-05-24 Matsushita Electric Ind Co Ltd Device and method for processing voice
JP2002366200A (en) * 2001-06-06 2002-12-20 Mitsubishi Electric Corp Noise restricting device

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09502814A (en) * 1993-09-14 1997-03-18 ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー Voice activity detector
JPH10171497A (en) * 1996-12-12 1998-06-26 Oki Electric Ind Co Ltd Background noise removing device
JPH10254499A (en) * 1997-03-14 1998-09-25 Nippon Telegr & Teleph Corp <Ntt> Band division type noise reducing method and device
JP2001134287A (en) * 1999-11-10 2001-05-18 Mitsubishi Electric Corp Noise suppressing device
JP2002149200A (en) * 2000-08-31 2002-05-24 Matsushita Electric Ind Co Ltd Device and method for processing voice
JP2002366200A (en) * 2001-06-06 2002-12-20 Mitsubishi Electric Corp Noise restricting device

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006178333A (en) * 2004-12-24 2006-07-06 Nippon Telegr & Teleph Corp <Ntt> Proximity sound separation and collection method, proximity sound separation and collecting device, proximity sound separation and collection program, and recording medium
JP4533126B2 (en) * 2004-12-24 2010-09-01 日本電信電話株式会社 Proximity sound separation / collection method, proximity sound separation / collection device, proximity sound separation / collection program, recording medium
JP4534883B2 (en) * 2005-07-11 2010-09-01 カシオ計算機株式会社 Musical sound control device and musical sound control processing program
JP2007017818A (en) * 2005-07-11 2007-01-25 Casio Comput Co Ltd Musical sound controller, and program for musical sound control processing
JP4696776B2 (en) * 2005-08-17 2011-06-08 ソニー株式会社 Audio processing device and microphone device
JP2007052150A (en) * 2005-08-17 2007-03-01 Sony Corp Noise canceler and microphone device
JP2007053511A (en) * 2005-08-17 2007-03-01 Sony Corp Speech processing device and microphone apparatus
JP2008039694A (en) * 2006-08-09 2008-02-21 Toshiba Corp Signal count estimation system and method
JP2008134605A (en) * 2006-10-23 2008-06-12 Matsushita Electric Ind Co Ltd Noise suppressing device, fm receiver, and method for adjusting fm receiver
JP4642820B2 (en) * 2006-10-23 2011-03-02 パナソニック株式会社 Noise suppressor, FM receiver, and FM receiver adjustment method
JP2008116952A (en) * 2006-10-31 2008-05-22 Harman Becker Automotive Systems Gmbh Model-based enhancement of speech signal
JP2011530091A (en) * 2008-08-05 2011-12-15 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン Apparatus and method for processing an audio signal for speech enhancement using feature extraction
US9064498B2 (en) 2008-08-05 2015-06-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing an audio signal for speech enhancement using a feature extraction
WO2010052749A1 (en) * 2008-11-04 2010-05-14 三菱電機株式会社 Noise suppression device
US8737641B2 (en) 2008-11-04 2014-05-27 Mitsubishi Electric Corporation Noise suppressor
JP5300861B2 (en) * 2008-11-04 2013-09-25 三菱電機株式会社 Noise suppressor
JP2010271712A (en) * 2009-05-22 2010-12-02 Honda Motor Co Ltd Sound data processing device and sound data processing method
JP5183828B2 (en) * 2010-09-21 2013-04-17 三菱電機株式会社 Noise suppressor
CN103109320A (en) * 2010-09-21 2013-05-15 三菱电机株式会社 Noise suppression device
WO2012038998A1 (en) * 2010-09-21 2012-03-29 三菱電機株式会社 Noise suppression device
US8762139B2 (en) 2010-09-21 2014-06-24 Mitsubishi Electric Corporation Noise suppression device
US9117456B2 (en) 2010-11-25 2015-08-25 Fujitsu Limited Noise suppression apparatus, method, and a storage medium storing a noise suppression program
CN102737644A (en) * 2011-03-30 2012-10-17 株式会社尼康 Signal-processing device, imaging apparatus, and signal-processing program
JP2012208406A (en) * 2011-03-30 2012-10-25 Nikon Corp Signal processor, imaging apparatus and signal processing program
CN102737644B (en) * 2011-03-30 2015-07-22 株式会社尼康 Signal-processing device, imaging apparatus, and signal-processing program
US20120250885A1 (en) * 2011-03-30 2012-10-04 Nikon Corporation Signal-processing device, imaging apparatus, and signal-processing program
US9734840B2 (en) 2011-03-30 2017-08-15 Nikon Corporation Signal processing device, imaging apparatus, and signal-processing program
JPWO2013065088A1 (en) * 2011-11-02 2015-04-02 三菱電機株式会社 Noise suppressor
JP2013190655A (en) * 2012-03-14 2013-09-26 Fujitsu Ltd Noise estimating device, noise estimating method and computer program for noise estimation
WO2020153158A1 (en) * 2019-01-23 2020-07-30 日本電信電話株式会社 Determination device, method therefor, and program
CN111722185A (en) * 2020-05-15 2020-09-29 深圳市微纳感知计算技术有限公司 Characteristic sound positioning method, device and equipment
CN111722185B (en) * 2020-05-15 2023-10-13 深圳市微纳感知计算技术有限公司 Characteristic sound positioning method, device and equipment

Similar Documents

Publication Publication Date Title
KR100860805B1 (en) Voice enhancement system
EP2008379B1 (en) Adjustable noise suppression system
EP2546831B1 (en) Noise suppression device
US7873114B2 (en) Method and apparatus for quickly detecting a presence of abrupt noise and updating a noise estimate
US6487257B1 (en) Signal noise reduction by time-domain spectral subtraction using fixed filters
JP4423300B2 (en) Noise suppressor
JP4836720B2 (en) Noise suppressor
Lin et al. Adaptive noise estimation algorithm for speech enhancement
JP5071346B2 (en) Noise suppression device and noise suppression method
JP2004341339A (en) Noise restriction device
CN111554315B (en) Single-channel voice enhancement method and device, storage medium and terminal
JP3961290B2 (en) Noise suppressor
US20140316775A1 (en) Noise suppression device
JP2002508891A (en) Apparatus and method for reducing noise, especially in hearing aids
JPH07306695A (en) Method of reducing noise in sound signal, and method of detecting noise section
JP2000347688A (en) Noise suppressor
KR101260938B1 (en) Procedure for processing noisy speech signals, and apparatus and program therefor
JP6073456B2 (en) Speech enhancement device
JP2000330597A (en) Noise suppressing device
JP2008309955A (en) Noise suppresser
JP2004129187A (en) Automatic gain control instrument
JPH11265199A (en) Voice transmitter
JP2004020679A (en) System and method for suppressing noise
JPH09311696A (en) Automatic gain control device
JP5131149B2 (en) Noise suppression device and noise suppression method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20071022

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20071022

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071022

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080709

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081014

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081021

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20081208