JP3858668B2 - Noise removal method and apparatus - Google Patents

Noise removal method and apparatus Download PDF

Info

Publication number
JP3858668B2
JP3858668B2 JP2001339156A JP2001339156A JP3858668B2 JP 3858668 B2 JP3858668 B2 JP 3858668B2 JP 2001339156 A JP2001339156 A JP 2001339156A JP 2001339156 A JP2001339156 A JP 2001339156A JP 3858668 B2 JP3858668 B2 JP 3858668B2
Authority
JP
Japan
Prior art keywords
noise
signal
unit
noise ratio
calculation unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2001339156A
Other languages
Japanese (ja)
Other versions
JP2003140700A (en
Inventor
昭彦 杉山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2001339156A priority Critical patent/JP3858668B2/en
Publication of JP2003140700A publication Critical patent/JP2003140700A/en
Application granted granted Critical
Publication of JP3858668B2 publication Critical patent/JP3858668B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Noise Elimination (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a device and method for noise removal which can obtain a stressed voice of superior quality. SOLUTION: The device has an injected noise calculation part 55 which calculates noise to be injected from a deteriorated voice power spectrum and an estimated noise power spectrum, two adders 56 and 57 which add the obtained noise to the deteriorated voice power spectrum and estimated noise power spectrum, and a noise suppression coefficient generation part 8 which determines a suppression coefficient according to the noise-added deteriorated voice power spectrum and estimated noise power spectrum. Further, the device has a windowing processing part 22 which performs windowing processing for a signal sample extracted from two adjacent frames of a reverse Fourier transform output.

Description

【0001】
【発明の属する技術分野】
本発明は、ノイズ除去方法及び装置に関し、より詳しくは、所望の音声信号に重畳されているノイズを除去するノイズ除去方法及び装置に関する。
【0002】
【従来の技術】
ノイズ除去装置(ノイズ・サプレッサ)は、所望の音声信号に重畳されている雑音(ノイズ)を除去するものであり、時間領域から周波数領域に変換した入力信号を用いてノイズ成分のパワースペクトルを推定し、この推定パワースペクトルを入力信号から差し引くことにより、所望の音声信号に混在するノイズを抑圧するように動作する。ノイズ成分のパワースペクトルを、音声の無音区間を検出して更新することにより、非定常なノイズの抑圧にも適用することができる。
ノイズ除去装置としては、例えば、「1984年12月、アイ・イー・イー・イー・トランザクションズ・オン・アクースティクス・スピーチ・アンド・シグナル・プロセシング、第32巻、第6号(IEEE TRANSACTIONS ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, VOL.32, NO.6, PP.1109-1121, DEC, 1984)、1109〜1121ページ」(文献1)に記載されている方式がある。これは、最小平均2乗誤差短時間スペクトル振幅法として知られている。図48に、文献1に記載されたノイズ除去装置の構成を示す。
【0003】
入力端子11には、劣化音声信号(所望音声信号とノイズの混在する信号)が、時間領域サンプル値系列として供給される。劣化音声信号サンプルは、フレーム分割部1に供給され、K/2サンプル毎のフレームに分割される。ここに、Kは2以上の偶数とする。
フレームに分割された劣化音声信号サンプルは、窓がけ処理部2に供給され、窓関数w(t)との乗算が行なわれる。第nフレームの入力信号yn(t)(t=0,1,....,K/2−1)に対するw(t)で窓がけされた信号yn(t)バーは、式(1)で与えられる。
【0004】
【数1】

Figure 0003858668
【0005】
また、連続する2フレームの一部を重ね合わせ(オーバラップ)して窓がけすることも広く行なわれている。オーバラップ長としてフレーム長の50%を仮定すれば、t=0,1,....,K/2−1に対して、式(2)で得られるyn(t)バー(t=0,1,....,K/2−1)が、窓がけ処理部2の出力となる。
【0006】
【数2】
Figure 0003858668
【0007】
実数信号に対しては、左右対称窓関数が用いられる。また、窓関数は、後述する抑圧係数を1に設定したときの入力信号と出力信号が計算誤差を除いて一致するように設計される。これは、w(t)+w(t+K/2)=1となることを意味する。
以後、連続する2フレームの50%をオーバラップして窓がけする場合を例として説明を続ける。窓関数w(t)としては、例えば式(3)に示すハニング窓を用いることができる。
【0008】
【数3】
Figure 0003858668
【0009】
窓がけされた出力yn(t)バーは、フーリエ変換部3に供給され、周波数領域の劣化音声スペクトル(周波数領域信号)Yn(k)に変換される。劣化音声スペクトルYn(k)は位相と振幅に分離され、劣化音声位相スペクトルのargYn(k)は逆フーリエ変換部9に、劣化音声振幅スペクトル|Yn(k)|は音声検出部4、多重乗算部16及び多重乗算部17に供給される。
【0010】
音声検出部4は、劣化音声振幅スペクトル|Yn(k)|に基づいて音声の有無を検出し、その結果によって定められる音声検出フラグを推定雑音計算部51に伝達する。多重乗算部17は、供給された劣化音声振幅スペクトル|Yn(k)|を周波数別に2乗し、劣化音声パワースペクトルとして推定雑音計算部51と周波数別SNR(信号対雑音比)計算部6に伝達する。推定雑音計算部51は、音声検出フラグ、劣化音声パワースペクトル、及びカウンタ13から供給されるカウント値を用いて、上記劣化音声振幅スペクトルに含まれる雑音(第2の雑音)のパワースペクトルを推定し、推定雑音パワースペクトルとして周波数別SNR計算部6に伝達する。周波数別SNR計算部6は、入力された劣化音声パワースペクトルと推定雑音パワースペクトルを用いて周波数別に除算し、後天的SNR(a posteriori SNR)として推定先天的SNR計算部7と雑音抑圧係数生成部8に供給する。後天的SNRは雑音を含む強調前音声と雑音の比の推定値である。
【0011】
推定先天的SNR計算部7は、入力された後天的SNR、及び後述する雑音抑圧係数生成部8から供給された抑圧係数Gn(k)バーを用いて、真の音声対雑音比を示す先天的SNR(a priori SNR)を推定し、推定先天的SNRとして雑音抑圧係数生成部8に帰還させる。雑音抑圧係数生成部8は、入力として供給された後天的SNRと推定先天的SNRを用いて雑音抑圧係数を生成し、抑圧係数Gn(k)バーとして推定先天的SNR計算部7に帰還すると同時に多重乗算部16に伝達する。
多重乗算部16は、フーリエ変換部3から供給された劣化音声振幅スペクトル|Yn(k)|を、雑音抑圧係数生成部8から供給された抑圧係数Gn(k)バーで重みづけすることによって強調音声振幅スペクトル|Xn(k)|バーを求め、逆フーリエ変換部9に伝達する。|Xn(k)|バーは、式(4)で与えられる。
【0012】
【数4】
Figure 0003858668
【0013】
逆フーリエ変換部9は、多重乗算部16から供給された強調音声振幅スペクトル|Xn(k)|バーとフーリエ変換部3から供給された劣化音声位相スペクトルargYn(k)を乗算して、強調音声スペクトルXn(k)バーを求める。すなわち、式(5)を実行する。
【0014】
【数5】
Figure 0003858668
【0015】
そして、得られた強調音声スペクトルXn(k)バーに逆フーリエ変換を施し、1フレームがKサンプルから構成される時間領域サンプル値系列(時間領域信号)xn(t)バー(t=0,1,....,K−1)として、フレーム合成部10に伝達する。フレーム合成部10は、xn(t)バーの隣接する2フレームからK/2サンプルずつを取り出して重ね合わせ、(6)式によって強調音声xn(t)ハット(t=0,1,....,K/2−1)を得る。得られた強調音声xn(t)ハットが、フレーム合成部10の出力として、出力端子12に伝達される。
【0016】
【数6】
Figure 0003858668
【0017】
次に、図48に示したノイズ除去装置の各部の構成及び動作について、さらに説明する。
音声検出部の実現方法について、文献1は詳細に開示していない。しかし、音声検出部の実現例としては、「2000年3月、日本音響学会講演論文集、321〜322ページ」(文献2)が知られているので、以降、文献2に示されたものを従来の方法として説明する。
図49は、図48における音声検出部4の構成を示すブロック図である。音声検出部4は、閾値記憶部401、比較部402、乗算器404、対数計算部405、パワー計算部406、重みつき加算部407、重み記憶部408、論理否定回路409を有する。
【0018】
図48におけるフーリエ変換部3から供給された劣化音声振幅スペクトルは、パワー計算部406に供給される。パワー計算部406は、劣化音声振幅スペクトルのパワー|Yn(k)|2 のk=0からK−1に対する総和を計算して、対数計算部405に伝達する。対数計算部405は、入力された劣化音声スペクトルパワー|Yn(k)|2 の対数を求め、乗算器404に伝達する。乗算器404は、供給された対数値を定数倍(例えば10倍)して劣化音声パワーQn を求め、比較部402及び重みつき加算部407に供給する。すなわち、第nフレームの劣化音声パワーQn は、式(7)で与えられる。
【0019】
【数7】
Figure 0003858668
【0020】
なお、文献2に開示された音声検出部は、時間領域サンプルであるyn(t)バーを用いて、式(8)に従ってQnを求めている。
【0021】
【数8】
Figure 0003858668
【0022】
しかし、例えば、「1985年、ディジタル信号処理の理論、コロナ社、75〜76ページ」(文献3)にあるように、式(8)と式(7)が等価であることは、パーセバル(Parseval)の等式として知られている。
【0023】
比較部402には、閾値記憶部401から、閾値THn が供給されている。比較部402は、乗算器404の出力Qn と閾値THn を比較し、THn >Qn のときは有音を表す“1”を、THn ≦Qn のときは無音を表す“0”を出力する。比較部402の出力は、音声検出部4の出力である音声検出フラグとして外部に供給されると同時に、否定演算回路409に供給される。否定演算回路409の出力は、重みつき加算部制御信号905として重みつき加算部407に供給される。重みつき加算部407には、また、閾値記憶部401から閾値(THn-1 )902と、重み記憶部408から重み903が供給される。
【0024】
重みつき加算部407は、閾値記憶部401から供給される閾値(THn-1 )902を、重みつき加算部制御信号905に基づいて選択的に更新する。更新閾値THn は、閾値(THn-1 )902と劣化音声パワー(Qn )901を、重み記憶部408から供給される重み903を用いて重みつき加算することによって求められる。更新閾値THn の計算は、論理否定回路409の出力である重みつき加算部制御信号905が“1”に等しいときだけ行なわれる。すなわち、無音のときだけ、閾値THn-1 がTHn に更新される。更新によって得られた更新閾値THn は、更新閾値904として閾値記憶部401に帰還される。
【0025】
図50は、図49に示した音声検出部4に含まれるパワー計算部406の構成を示すブロック図である。パワー計算部406は、分離部4061、K個の乗算器40620 〜4062K-1 、加算器4063を有する。多重化された状態で図48におけるフーリエ変換部3から供給された劣化音声振幅スペクトル|Yn(k)|は、分離部4061において周波数別のKサンプルに分離され、それぞれ乗算器40620 〜4062K-1 に供給される。乗算器40620 〜4062K-1 は、それぞれ入力された信号を2乗し、加算器4063に伝達する。加算器4063は、入力された信号の総和を求めて出力する。
【0026】
図51は、図49に示した音声検出部4に含まれる重みつき加算部407の構成を示すブロック図である。重みつき加算部407は、乗算器4071,4073、定数乗算器4075、加算器4072,4074を有する。図49における乗算器404から劣化音声パワー(Qn )901が、図49における閾値記憶部401から閾値(THn-1 )902が、図49における重み記憶部408から重み903が、図49における論理否定回路409から重みつき加算部制御信号905が、それぞれ入力として供給される。
【0027】
値βを有する重み903は、定数乗算器4075と乗算器4073に伝達される。定数乗算器4075は入力信号を−1倍して得られた−βを、加算器4074の一方の入力として供給する。加算器4074の他方の入力としては1が供給されており、加算器4074の出力は両者の和である1−βとなる。1−βは乗算器4071の一方の入力として供給されて、他方の入力である劣化音声パワー(Qn )901と乗算され、積である(1−β)Qn が加算器4072に伝達される。
【0028】
一方、乗算器4073では、重み903として供給されたβと閾値(THn-1 )902が乗算され、積であるβTHn-1 が加算器4072に伝達される。加算器4072は、βTHn-1 と(1−β)Qn の和を、更新閾値(THn )904として出力する。
更新閾値THn の計算は、重みつき加算部制御信号905が“1”に等しいときだけ行なわれる。すなわち、重みつき加算部407の機能は、無音のときに、閾値THn -1を更新してTHn を求めることであり、式(9)によって表すことができる。
【0029】
【数9】
Figure 0003858668
【0030】
図48における多重乗算部17について説明する。図52は、多重乗算部17の構成を示すブロック図である。多重乗算部17は、K個の乗算器17010 〜1701K-1 、分離部1702,1703、多重化部1704を有する。多重化された状態で図48におけるフーリエ変換部3から供給された劣化音声振幅スペクトルは、分離部1702及び1703において周波数別のKサンプルに分離され、それぞれ乗算器17010 〜1701K-1 に供給される。乗算器17010 〜1701K-1 は、それぞれ入力された信号を2乗し、多重化部1704に伝達する。多重化部1704は、入力された信号を多重化し、劣化音声パワースペクトルとして出力する。
【0031】
図48における推定雑音計算部51について説明する。図53は、推定雑音計算部51の構成を示すブロック図である。推定雑音計算部51は、分離部502、多重化部503、K個の周波数別推定雑音計算部5140 〜514K-1 を有する。図48における音声検出部4から供給された音声検出フラグと図48におけるカウンタ13から供給されたカウント値は、周波数別推定雑音計算部5140 〜514K-1 に伝達される。図48における多重乗算部17から供給された劣化音声パワースペクトルは、分離部502に伝達される。
【0032】
分離部502は、多重化された状態で供給された劣化音声パワースペクトルをK個の周波数に対応した成分に分離して、それぞれ周波数別推定雑音計算部5140 〜514K-1 に伝達する。周波数別推定雑音計算部5140 〜514K-1 は、分離部502から供給された劣化音声パワースペクトルを用いて雑音パワースペクトルを計算し、多重化部503に伝達する。雑音パワースペクトルの計算は、カウント値と音声検出フラグの値によって制御され、予め定めた条件が満足されるときだけ実行される。多重化部503は、供給されたK個の雑音パワースペクトル値を多重化して、推定雑音パワースペクトルとして出力する。
【0033】
図54は、図53に示した推定雑音計算部51に含まれる周波数別推定雑音計算部514の構成を示すブロック図である。文献2で開示された雑音推定は、無音区間において雑音推定値を更新するものであり、雑音推定値として巡回型フィルタによる平均化を施した推定雑音の瞬時値を用いている。一方、「1998年5月、アイ・イー・イー・イー・トランザクションズ・オン・スピーチ・アンド・オーディオ・プロセシング、第6巻、第3号(IEEE TRANS-ACTIONS ON SPEECH AND AUDIO PROCESSING, VOL.6, NO.3, PP.287-292, MAY, 1998 )、287〜292ページ」(文献4)に開示された雑音推定では、推定雑音の瞬時値を平均化して用いると記述されている。これは、巡回型の代わりにトランスバーサル型フィルタ(シフトレジスタを用いた構成)を用いた平均化の実現を示唆している。どちらの実現も機能は等しいので、ここでは文献4に開示された方法について説明する。
【0034】
周波数別推定雑音計算部514は、更新判定部521、レジスタ長記憶部5941、スイッチ5044、シフトレジスタ5045、加算器5046、最小値選択部5047、除算部5048、カウンタ5049を有する。
スイッチ5044には、図53における分離部502から、周波数別劣化音声パワースペクトルが供給されている。スイッチ5044が回路を閉じたときに、周波数別劣化音声パワースペクトルは、シフトレジスタ5045に伝達される。シフトレジスタ5045は、更新判定部521から供給される制御信号に応じて、内部レジスタの記憶値を隣接レジスタにシフトする。シフトレジスタ長は、後述するレジスタ長記憶部5941に記憶されている値に等しい。シフトレジスタ5045の全レジスタ出力は、加算器5046に供給される。加算器5046は、供給された全レジスタ出力を加算して、加算結果を除算部5048に伝達する。
【0035】
一方、更新判定部521には、カウント値と音声検出フラグが供給されている。更新判定部521は、カウント値が予め設定された値に到達するまでは常に“1”を、到達した後は音声検出フラグが“0”である(無音の)ときに“1”を、それ以外のときに“0”を出力し、制御信号としてカウンタ5049、スイッチ5044、及びシフトレジスタ5045に伝達する。スイッチ5044は、更新判定部521から供給された制御信号が“1”のときに回路を閉じ、“0”のときに開く。カウンタ5049は、更新判定部521から供給された制御信号が“1”のときにカウント値を増加し、“0”のときには変更しない。シフトレジスタ5045は、更新判定部521から供給された信号が“1”のときにスイッチ5044から供給される信号サンプルを1サンプル取り込むと同時に、内部レジスタの記憶値を隣接レジスタにシフトする。
【0036】
最小値選択部5047には、カウンタ5049の出力とレジスタ長記憶部5941の出力が供給されている。最小値選択部5047は、供給されたカウント値とレジスタ長のうち、小さい方を選択して、除算部5048に伝達する。除算部5048は、加算器5046から供給された周波数別劣化音声パワースペクトルの加算値をカウント値又はレジスタ長の小さい方の値で除算し、商を周波数別推定雑音パワースペクトルλn(k)として出力する。Bn(k)(n=0,1,....,N−1)をシフトレジスタ5045に保存されている劣化音声パワースペクトルのサンプル値とすると、λn(k)は式(10)で与えられる。
【0037】
【数10】
Figure 0003858668
【0038】
ただし、Nはカウント値とレジスタ長のうち、小さい方の値である。カウント値はゼロから始まって単調に増加するので、最初はカウント値で除算が行なわれ、後にはレジスタ長で除算が行なわれる。一方、実際に値が記憶されているレジスタの数は、カウント値がレジスタ長より小さいときはカウント値に等しく、カウント値がレジスタ長より大きくなると、レジスタ長と等しくなる。したがって、加算器5046から供給された周波数別劣化音声パワースペクトルの加算値を、実際に値が記憶されているレジスタの数で除算することになる。カウント値がレジスタ長より大きいときは、シフトレジスタ5045に格納された値の平均値を求めることになる。この演算結果が周波数別推定雑音パワースペクトルとなる。
【0039】
図55は、図54に示した周波数別推定雑音計算部514に含まれる更新判定部521の構成を示すブロック図である。更新判定部521は、論理否定回路5202、比較部5203、閾値記憶部5204、論理和計算部5211を有する。
図48におけるカウンタ13から供給されるカウント値は、比較部5203に伝達される。閾値記憶部5204の出力である閾値も、比較部5203に伝達される。比較部5203は、供給されたカウント値と閾値を比較し、カウント値が閾値より小さいときに“1”を、カウント値が閾値より大きいときに“0”を、論理和計算部5211に伝達する。
【0040】
一方、供給された音声検出フラグは論理否定回路5202に伝達される。論理否定回路5202は、入力された信号の論理否定値を求め、論理和計算部5211に伝達する。すなわち、音声検出フラグが“1”である有音部では“0”を、音声検出フラグが“0”である無音部では“1”を、論理和計算部5211に伝達することになる。
その結果、論理和計算部5211の出力は、音声検出フラグが“0”である無音部のとき、又はカウント値が閾値より小さいときに“1”となって、図54におけるスイッチ5044を閉じ、カウンタ5049をカウントアップさせる。
【0041】
図48における周波数別SNR計算部6について説明する。図56は、周波数別SNR計算部6の構成を示すブロック図である。周波数別SNR計算部6は、K個の除算部6010 〜601K-1 、分離部602,603、多重化部604を有する。図48における多重乗算部17から供給される劣化音声パワースペクトルは、分離部602に伝達される。図48における推定雑音計算部51から供給される推定雑音パワースペクトルは、分離部603に伝達される。劣化音声パワースペクトルは分離部602において、推定雑音パワースペクトルは分離部603において、それぞれ周波数成分に対応したKサンプルに分離され、それぞれ除算部6010 〜601K-1 に供給される。除算部6010 〜601K-1 では、式(11)に従って、供給された劣化音声パワースペクトル|Yn(k)|2 を推定雑音パワースペクトルλn(k)で除算して周波数別SNRγn(k)を求め、多重化部604に伝達する。多重化部604は、伝達されたK個の周波数別SNRγn(k)を多重化して、後天的SNRとして出力する。
【0042】
【数11】
Figure 0003858668
【0043】
図48における推定先天的SNR計算部7について説明する。図57は、推定先天的SNR計算部7の構成を示すブロック図である。推定先天的SNR計算部7は、多重値域限定処理部701、後天的SNR記憶部702、抑圧係数記憶部703、多重乗算部704,705、重み記憶部706、多重重みつき加算部707、加算器708を有する。
図48における周波数別SNR計算部6から供給される後天的SNRγn(k)(k=0,1,....,K−1)は、加算器708の一方の端子と、後天的SNR記憶部702に伝達される。後天的SNR記憶部702は、第nフレームにおける後天的SNRγn(k)を記憶すると共に、第n−1フレームにおける後天的SNRγn-1(k)を多重乗算部705に伝達する。
【0044】
図48における雑音抑圧係数生成部8から供給される抑圧係数Gn(k)バー(k=0,1,....,K−1)は、抑圧係数記憶部703に伝達される。抑圧係数記憶部703は、第nフレームにおける抑圧係数Gn(k)バーを記憶すると共に、第n−1フレームにおける抑圧係数Gn-1(k)バーを多重乗算部704に伝達する。多重乗算部704は、供給されたGn-1(k)バーを2乗してG2 n-1(k)バーを求め、多重乗算部705に伝達する。多重乗算部705は、G2 n-1(k)バーとγn-1(k)をk=0,1,....,K−1に対して乗算してG2 n-1(k)バーγn-1(k)を求め、その結果を多重重みつき加算部707に過去の推定SNR922として伝達する。多重乗算部704及び705の構成は、既に図52を用いて説明した多重乗算部17に等しいので、詳細な説明は省略する。
【0045】
加算器708の他方の端子には−1が供給されており、加算結果γn(k)−1が多重値域限定処理部701に伝達される。多重値域限定処理部701は、加算器708から供給された加算結果γn(k)−1に値域限定演算子P[・]による演算を施し、その結果であるP[γn(k)−1]を多重重みつき加算部707に瞬時推定SNR921として伝達する。ただし、P[x]は式(12)で定められる。
【0046】
【数12】
Figure 0003858668
【0047】
多重重みつき加算部707には、また、重み記憶部706から重み923が供給されている。多重重みつき加算部707は、これらの供給された瞬時推定SNR921、過去の推定SNR922、重み923を用いて推定先天的SNR924を求める。重み923をαとし、ξn(k)ハットを推定先天的SNRとすると、ξn(k)ハットは、式(13)によって計算される。ここに、右辺第1項の初期値(n=0)を、γ-1(k)G2 -1(k)バー=1とする。
【0048】
【数13】
Figure 0003858668
【0049】
図58は、図57に示した推定先天的SNR計算部7に含まれる多重値域限定処理部701の構成を示すブロック図である。多重値域限定処理部701は、定数記憶部7011、K個の最大値選択部70120 〜7012K-1 、分離部7013、多重化部7014を有する。分離部7013には、図57における加算器708から、γn(k)−1が供給される。分離部7013は、供給されたγn(k)−1をK個の周波数別成分に分離し、それぞれ最大値選択部70120 〜7012K-1 の一方の入力に供給する。最大値選択部70120〜7012K-1の他方の入力には、定数記憶部7011からゼロが供給されている。最大値選択部70120 〜7012K-1 は、γn(k)−1をゼロと比較し、大きい方の値を多重化部7014へ伝達する。この最大値選択演算は、式(12)を実行することに相当する。多重化部7014は、これらの値を多重化して出力する。
【0050】
図59は、図57に示した推定先天的SNR計算部7に含まれる多重重みつき加算部707の構成を示すブロック図である。多重重みつき加算部707は、K個の重みつき加算部70710 〜7071K-1 、分離部7072,7074、多重化部7075を有する。
【0051】
分離部7072には、図57における多重値域限定処理部701から、P[γn(k)−1]が瞬時推定SNR921として供給される。分離部7072は、P[γn(k)−1]をK個の周波数別成分に分離し、周波数別瞬時推定SNR9210 〜921K-1 として、それぞれ重みつき加算部70710 〜7071K-1 に伝達する。分離部7074には、図57における多重乗算部705から、G2 n-1(k)バーγn-1(k)が過去の推定SNR922として供給される。分離部7074は、G2 n-1(k)バーγn-1(k)をK個の周波数別成分に分離し、過去の周波数別推定SNR9220 〜922K-1 として、それぞれ重みつき加算部70710 〜7071K-1 に伝達する。一方、重みつき加算部70710 〜7071K-1 には、重み923も供給される。重みつき加算部70710 〜7071K-1 は、式(13)によって表される重みつき加算を実行し、周波数別推定先天的SNR9240 〜924K-1 を多重化部7075に伝達する。多重化部7075は、周波数別推定先天的SNR9240 〜924K-1 を多重化し、推定先天的SNR924として出力する。
重みつき加算部70710 〜7071K-1 の構成と動作は、既に図51を用いて説明した重みつき加算部407と等しいので、詳細な説明は省略する。但し、重みつき加算の計算は常に行なわれる。
【0052】
図48における雑音抑圧係数生成部8について説明する。図60は、雑音抑圧係数生成部8の構成を示すブロック図である。雑音抑圧係数生成部8は、K個の抑圧係数検索部8010 〜801K-1 、分離部802,803、多重化部804を有する。分離部802には、図48における周波数別SNR計算部6から後天的SNRが供給される。分離部802は、供給された後天的SNRをK個の周波数別成分に分離し、それぞれ抑圧係数検索部8010 〜801K-1 に伝達する。分離部803には、図48における推定先天的SNR計算部7から推定先天的SNRが供給される。分離部803は、供給された推定先天的SNRをK個の周波数別成分に分離し、それぞれ抑圧係数検索部8010 〜801K-1 に伝達する。抑圧係数検索部8010 〜801K-1 は、供給された後天的SNRと推定先天的SNRに対応した抑圧係数を検索し、検索結果を多重化部804に伝達する。多重化部804は、供給された抑圧係数を多重化して出力する。
【0053】
図61は、図60に示した雑音抑圧係数生成部8に含まれる抑圧係数検索部8010 〜801K-1 の構成を示すブロック図である。抑圧係数検索部801は、抑圧係数テーブル8011、アドレス変換部8012,8013を有する。アドレス変換部8012には、図60における分離部802から、周波数別後天的SNRが供給される。アドレス変換部8012は、供給された周波数別後天的SNRを対応したアドレスに変換し、抑圧係数テーブル8011に伝達する。アドレス変換部8013には、図60における分離部803から、周波数別推定先天的SNRが供給される。アドレス変換部8013は、供給された周波数別推定先天的SNRを対応したアドレスに変換し、抑圧係数テーブル8011に伝達する。抑圧係数テーブル8011は、アドレス変換部8012とアドレス変換部8013から供給されたアドレスに対応した領域に格納されている抑圧係数を、周波数別抑圧係数として出力する。ここでは、特定の統計モデルに従う背景雑音を仮定して導出した抑制係数が用いられている。
【0054】
【発明が解決しようとする課題】
このように、従来のノイズ除去装置及び方法では、特定の統計モデルに従う背景雑音を仮定して導出した抑圧係数を用いて雑音抑圧を行なっていたため、その統計モデルに従わない雑音を効果的に除去することができなかった。このため、十分高い強調音声の品質を達成できなかった。
また、従来のノイズ除去装置及び方法では、逆フーリエ変換して得られた時間領域信号の隣接する2フレームから取り出した信号サンプルを重ね合わせ加算することによって、強調音声を得ていた。一方、フーリエ変換前に時間領域信号にかける窓関数は、雑音抑圧処理を行なわないときに、入力が出力において再現されるように設計されていた。このため、重ね合わせ加算の対象となった信号サンプルが、隣接するフレームにおいて異なった抑圧係数値で抑圧されると、フレーム境界において信号サンプルに不連続性を生じ、出力信号に発生する雑音によって音質が劣化してしまっていた。
【0055】
以上のように従来のノイズ除去装置及び方法には、優れた音質の強調音声を得ることができないという問題があった。
本発明はこのような課題を解決するためになされたものであり、その目的は、優れた音質の強調音声を得ることができるノイズ除去装置及び方法を提供することにある。
【0056】
【課題を解決するための手段】
このような目的を達成するために、本発明のノイズ除去方法は、入力信号に基づいて擬似的な雑音を生成し、この擬似的な雑音を注入して得られた抑圧係数を用いることを特徴とする。抑圧係数を定めるときに上述した擬似的な雑音を注入することにより、特定の統計モデルに従う背景雑音を仮定して導出した抑圧係数を、入力信号に応じて補正することができる。
【0060】
より具体的には、本発明のノイズ除去方法は、入力信号を周波数領域信号に変換し、この周波数領域信号を用いて信号対雑音比を求め、この信号対雑音比を周波数領域信号に基づいて補正し、この補正した信号対雑音比に基づいて抑圧係数を定め、この抑圧係数を用いて周波数領域信号を重みづけし、この重みづけした周波数領域信号を時間領域信号に変換することによって、入力信号からノイズを除去した出力信号を得ることを特徴とする。
【0061】
このノイズ除去方法において、信号対雑音比の補正を、入力信号の性質に応じて選択的に行なってもよい。これにより、例えば抑圧係数の導出に用いられた統計モデルに従わない雑音を含む信号が入力された場合だけ信号対雑音比を補正し、抑圧係数の補正を選択的に行うことができる。
ここで、入力信号の性質として、信号の定常性を用いてもよい。言うなれば、信号の性質、例えば平均パワーやスペクトル形状等が、時間と共にどの程度変化するかを基準として、信号対雑音比の補正を行ってもよい。
信号の定常性としては、入力信号の振幅がゼロとなるゼロ交叉の数を用いてもよいし、このゼロ交差の数と相関を示す前記周波数領域信号の高域電力を用いてもよい。
【0062】
また、入力信号を変換した周波数領域信号に基づいて周波数領域信号に含まれる雑音を推定し、この雑音と周波数領域信号とを用いて信号対雑音比の補正量を定めるようにしてもよい。
また、入力信号を変換した周波数領域信号に基づいて周波数領域信号に含まれる雑音を推定し、この雑音及び信号対雑音比を用いて加算信号を求め、この加算信号と周波数領域信号との和、及び加算信号と雑音との和を用いて信号対雑音比を再計算することによって信号対雑音比の補正を行なうようにしてもよい。
ここで、入力信号を変換した周波数領域信号を重みづけし、この重みづけした周波数領域信号に基づいて雑音を推定するようにしてもよい。
【0063】
また、上述したノイズ除去方法において、周波数領域信号に基づいて抑圧係数を補正し、この補正した抑圧係数を用いて周波数領域信号を重みづけするようにしてもよい。これにより、信号対雑音比が低いときに抑圧不足により発生する残留雑音や、信号対雑音比が高いときに過度の抑圧で発生する音声の歪みによる音質劣化を防ぐことができる。
また、上述したノイズ除去方法において、周波数領域信号を変換した時間領域信号に窓がけ処理を施してもよい。
【0074】
また、本発明のノイズ除去装置は、入力信号に窓がけ処理を施して出力する第1の窓がけ処理部と、この第1の窓がけ処理部により窓がけ処理された入力信号を周波数領域信号に変換し,振幅成分と位相成分に分離して出力する変換部と、周波数領域信号の振幅成分を用いて第1の信号対雑音比を求めて出力する第1の信号対雑音比計算部と、周波数領域信号の振幅成分に基づいて周波数領域信号に含まれる雑音を推定して出力する推定雑音計算部と、雑音と周波数領域信号の振幅成分を用いて第1の信号対雑音比を補正し,補正信号対雑音比として出力する信号対雑音比補正部と、補正信号対雑音比に基づいて抑圧係数を定めて出力する抑圧係数生成部と、抑圧係数を用いて周波数領域信号の振幅成分を重みづけして出力する第1の乗算部と、この第1の乗算部により重みづけされた周波数領域信号の振幅成分と周波数領域信号の位相成分を時間領域信号に変換して出力する逆変換部と、時間領域信号に窓がけ処理を施す第2の窓がけ処理部とを少なくとも具備することを特徴とする。
【0075】
ここで、信号対雑音比補正部は、入力信号が入力され,入力信号の振幅がゼロとなるゼロ交叉の数を計算し,その計算結果に応じた制御信号を出力する判定部と、この判定部から入力された制御信号によって補正信号対雑音比を選択的に補正前の第1の信号対雑音比と同じ値に設定するスイッチとを含む構成としてもよい。
また、信号対雑音比補正部は、変換部から入力された周波数領域信号の振幅成分の高域電力を計算し,その計算結果に応じた制御信号を出力する判定部と、この判定部から入力された制御信号によって補正信号対雑音比を選択的に補正前の第1の信号対雑音比と同じ値に設定するスイッチとを含む構成としてもよい。
【0076】
また、上述したノイズ除去装置は、周波数領域信号の振幅成分を重みづけし,得られた重みつき振幅成分を推定雑音計算部に出力し,推定雑音計算部に重みつき振幅成分に基づいて雑音を推定させる重みつき劣化音声計算部を更に具備するものであってもよい。
ここで、重みつき劣化音声計算部は、周波数領域信号の振幅成分を用いて第2の信号対雑音比を計算して出力する第2の信号対雑音比計算部と、この第2の信号対雑音比計算部から入力された第2の信号対雑音比を非線形関数によって処理して重みを求め出力する非線形処理部と、この非線形処理部から入力された重みを用いて周波数領域信号の振幅成分を重みづけし,推定雑音計算部に出力する第2の乗算部とを含む構成としてもよい。
【0077】
また、上述したノイズ除去装置は、抑圧係数生成部から入力された抑圧係数を,周波数領域信号に基づいて補正して第1の乗算部に出力し、第1の乗算部に補正した抑圧係数を用いて周波数領域信号の振幅成分を重みづけさせる抑圧係数補正部を更に具備するものであってもよい。
【0078】
【発明の実施の形態】
以下、図面を参照して、本発明の実施の形態について詳細に説明する。
【0079】
(第1の参考例
図1は、本発明のノイズ除去装置に関連する第1の参考例の全体構成を示すブロック図である。このノイズ除去装置と、図48に示した従来のノイズ除去装置とは、窓がけ処理部22、注入雑音計算部55、加算器56,57を除いて同一である。この同一部分については同一符号を付している。以下、上述の相違点を中心に詳細に説明する。
【0080】
窓がけ処理部22は、逆フーリエ変換部9から供給された時間領域サンプル値系列xn(t)バーに窓関数h(t)を乗算し、積であるh(t)xn(t)バーをフレーム合成部10に伝達する。フレーム合成部10は、h(t)xn(t)バーの隣接する2フレームからK/2サンプルずつを取り出して重ね合わせ、式(14)によって、強調音声xn(t)ハット(t=0,1,....,K/2−1)を得る。得られた強調音声xn(t)ハットが、フレーム合成部10の出力として、出力端子12に伝達される。
【0081】
【数14】
Figure 0003858668
【0082】
オーバラップが、50%ではなく、Mサンプルで、フレーム長がLサンプル(M<L)の場合は、式(15)によって、強調音声xn(t)ハットを得る。これに合わせて、フレーム分割部も修正する。
【0083】
【数15】
Figure 0003858668
【0084】
すでに述べたように、実数信号に対しては、左右対称窓関数が用いられる。また、窓関数は、抑圧係数を1に設定したときの入力信号と出力信号が計算誤差を除いて一致するように設計される。これらの条件を満たすいかなる窓関数であっても、w(t)、h(t)として使用することができる。その一例として、ハニング窓を開平した関数(ルートハニング窓)を挙げることができる。他にもこれらの条件を満たす窓関数は存在するが、詳細は省略する。
隣接する2フレームを構成するxn-1(t)バーとxn(t)バーが各フレームにおいて異なった抑圧係数値で抑圧されたとしても、xn-1(t)バーとxn(t)バーのそれぞれに上述した窓関数h(t)を乗算してフレーム境界におけるxn-1(t)バーとxn(t)バーの振幅を小さくすることによって、フレーム境界における連続性を改善し、雑音の発生を低減することができる。よって、雑音による音質劣化を抑制し、優れた音質の強調音声を得ることができる。
【0085】
注入雑音計算部55は、それぞれ多重乗算部17及び推定雑音計算部51から供給された劣化音声パワースペクトル及び推定雑音パワースペクトルを用いて、注入すべき擬似的な雑音(第1の雑音)を計算し、加算器56及び57に伝達する。加算器56は、推定雑音計算部51から供給された推定雑音パワースペクトルに注入雑音計算部55で得られた注入雑音を加算し、その和を周波数別SNR計算部6に伝達する。加算器57は、多重乗算部17から供給された劣化音声パワースペクトルに注入雑音計算部55で得られた注入雑音を加算し、その和を周波数別SNR計算部6に伝達する。
【0086】
図2は、注入雑音計算部55の構成を示すブロック図である。注入雑音計算部55は、SNR計算部551、しきい値計算部552、注入レベル計算部553を有する。図1における多重乗算部17から供給された劣化音声パワースペクトルは、SNR計算部551に伝達される。図1における推定雑音計算部51から供給された推定雑音パワースペクトルは、SNR計算部551及びしきい値計算部552に伝達される。SNR計算部551で得られたSNRとしきい値計算部552で得られたしきい値は、注入レベル計算部553に供給される。注入レベル計算部553では、供給されたSNRとしきい値に応じて、注入すべき雑音レベルを計算し、そのレベルに対応した信号を注入雑音として出力する。
【0087】
注入すべき雑音をWn(k)とすれば、Wn(k)はSNRが大きいほど小さい値をとるように設定される。このようなSNRとWn(k)の関係として、SNRが第1のしきい値TH1 よりも大きいときに第1の値W1 をとり、SNRが第2のしきい値TH2 (<TH1 )よりも小さいときに第2の値W2 (>W1 )をとり、SNRが第1のしきい値TH1 と第2のしきい値TH2 の中間の値をとるときには、SNRに対応してWn(k)が小さくなるような関数を考えることができる。最も簡単な例は、図3に示すように、SNRが第1のしきい値TH1 と第2のしきい値TH2 の中間の値をとるときには、第1の値W1 から第2の値W2 まで、直線的に変化する関数である。
【0088】
第1と第2のしきい値TH1 ,TH2 は独立に決定することができるが、第2のしきい値TH2 を第1のしきい値TH1 の定数倍に設定し、計算の簡略化をはかることもできる。同様に、独立に決定することができるWn(k)の第1と第2の値W1 ,W2 も第2の値W2 を第1の値W1 の定数倍に設定することができる。
また、Wn(k)の第1と第2の値W1 ,W2 は、推定雑音のレベルに対応して決定することができる。推定雑音レベルが高い時はWn(k)の第1と第2の値W1 ,W2 を小さくし、低い時は大きくする。このようにWn(k)の第1と第2の値W1 ,W2 を設定することで、同じSNRの値に対して、推定雑音レベルが高い時ほど容易に小さなWn(k)が設定できる。この場合、注入レベル計算部553に推定雑音パワースペクトルを供給する構成とすることは、言うまでもない。
【0089】
さらに、しきい値TH1 ,TH2 も、推定雑音のレベルに対応して決定することができる。推定雑音レベルが高い時はしきい値TH1 ,TH2 を小さくし、低い時は大きくする。このようにしきい値TH1 ,TH2 を設定することで、同じSNRの値に対して、推定雑音レベルが高い時ほど容易に小さなWn(k)が設定できる。推定雑音レベルが高い時ほどWn(k)を小さくする理由は、推定雑音レベルが高い時には、従来の抑圧係数がほぼ適切であり、雑音注入による抑圧係数の補正量が小さいからである。この結果、本来の抑圧量が小さく、残留する雑音が知覚されやすいときに、中程度の振幅を有した成分を相対的に大きく抑圧することができ、主観音質の改善を達成することができる。
【0090】
これまでの説明では、注入すべき雑音をWn(k)としており、各周波数成分に対して異なった雑音を注入する例について説明した。実際、注入雑音計算部55に供給される劣化音声パワースペクトル及び推定雑音パワースペクトルは、全周波数成分に対応した値が多重化されている。従って、SNR計算部551で得られたSNRとしきい値計算部552で得られたしきい値の数は、周波数成分の数に対応している。しかし、これらのSNRとしきい値を、すべての周波数成分に対して共通に設定しても良い。
【0091】
一例として、劣化音声パワースペクトル及び推定雑音パワースペクトルを、全周波数成分に対して加算して総和をとり、それらの比を共通SNRとし、また、推定雑音パワースペクトルの平均値を用いてしきい値を求めることができる。その際には、SNR計算部551及びしきい値計算部552では、各周波数成分に対応した値を分離してから個々の値を用いてSNRとしきい値を計算する代わりに、前記総和と平均値を用いて、全周波数成分に対して共通のSNRとしきい値を計算することになる。これらの値が、周波数別SNR計算部6に伝達される。
【0092】
周波数別SNR計算部6では、式(11)の代わりに、式(16)によって、周波数別SNRγn(k)を計算する。
【0093】
【数16】
Figure 0003858668
【0094】
式(16)を参照すると、SNR>0の領域では、|Yn(k)|2 >λn(k)なので、雑音注入時のSNRγn(k)は本来の値よりも小さくなるように修正される。一方、文献1を参照すると、SNRに対する抑圧係数の特性は、図4に示すように、SNRに対応して漸増した後、あるSNRの値において急増し、再び漸増から飽和をたどる。このため、雑音注入によってγn(k)の値が小さくなると、上記抑圧係数値が急変する近傍のSNRに対して、相対的に抑圧係数減少効果が大きくなる。従って、そのようなSNRに対応した周波数成分、具体的には中程度の振幅を有した成分が、相対的に大きく抑圧されることになる。このため、音声よりは振幅が小さいが無視できない程度の背景雑音の一部がより強く抑圧され、強調音声において雑音として知覚されにくくなる。よって、実際の背景雑音に対して、十分高い品質の強調音声を得ることができる。
【0095】
(第の実施の形態)
図5は、本発明のノイズ除去装置の第の実施の形態の全体構成を示すブロック図である。このノイズ除去装置は、図1に示したノイズ除去装置が具備する注入雑音計算部55、加算器56,57の代わりに、SNR補正部65を具備するものである。以下、これらの相違点を中心に詳細に説明する。
【0096】
SNR補正部65には、多重乗算部17、推定雑音計算部51、及び周波数別SNR計算部6から、それぞれ劣化音声パワースペクトル、推定雑音パワースペクトル、及び後天的SNRが供給されている。SNR補正部65からは、補正後天的SNRが推定先天的SNR計算部7及び雑音抑圧係数生成部8に供給される。
すなわち、図1に示したノイズ除去装置では、雑音を注入した劣化音声パワースペクトルと雑音を注入した推定雑音パワースペクトルを用いて、後天的SNRを計算していたのに対して、図5に示したノイズ除去装置では、劣化音声パワースペクトルと推定雑音パワースペクトルを用いて計算した注入雑音を用いて、計算した後天的SNRを補正する。
【0097】
図5におけるSNR補正部65について、さらに説明する。
図6は、SNR補正部65の一構成例を示すブロック図である。SNR補正部65は、K個の補正SNR計算部6540 〜654K-1 、分離部651、652、653、多重化部655を有する。
分離部651には、図5における周波数別SNR計算部6から後天的SNRが供給される。分離部651は、供給された後天的SNRをK個の周波数別成分に分離し、それぞれ補正SNR計算部6540 〜654K-1 に伝達する。分離部652には、図5における多重乗算部17から劣化音声パワースペクトルが供給される。分離部652は、供給された劣化音声パワースペクトルをK個の周波数別成分に分離し、それぞれ補正SNR計算部6540 〜654K-1 に伝達する。分離部653には、図5における推定雑音計算部51から推定雑音パワースペクトルが供給される。分離部653は、供給された推定雑音パワースペクトルをK個の周波数別成分に分離し、それぞれ補正SNR計算部6540 〜654K-1 に伝達する。補正SNR計算部6540 〜654K-1 は、供給された劣化音声パワースペクトルと推定雑音パワースペクトルに対応した補正を後天的SNRに加え、補正後天的SNRを多重化部655に伝達する。多重化部655は、供給された補正後天的SNRを多重化して出力する。
【0098】
図7は、図6に示したSNR補正部65に含まれる補正SNR計算部6540 〜654K-1 の構成を示すブロック図である。補正SNR計算部654は、しきい値計算部6541、注入雑音計算部6542、加算器6543,6544、除算部6545を有する。
【0099】
しきい値計算部6541には、図6における分離部653から推定雑音パワースペクトルが供給されており、図2におけるしきい値計算部552と同様の動作によってしきい値を計算し、注入雑音計算部6542に伝達する。注入雑音計算部6542には、図6における分離部651から後天的SNRも供給されており、図2における注入レベル計算部553と同様の動作によって注入すべき擬似的な雑音(第1の雑音,加算信号)を計算し、加算器6543及び6544に伝達する。加算器6543には、図6における分離部653から推定雑音パワースペクトルも供給されており、注入雑音計算部6542から供給された雑音との加算結果を除算部6545に伝達する。加算器6544には、図6における分離部652から劣化音声パワースペクトルも供給されており、注入雑音計算部6542から供給された雑音との加算結果を除算部6545に伝達する。除算部6545は、加算器6543の出力と加算器6544の出力から求めた商を、補正後天的SNRとして出力する。
【0100】
図8は、SNR補正部65の他の構成例を示すブロック図である。この構成例では、SNRとしきい値を、すべての周波数成分に対して共通に設定している。このため、図6に示した構成例と比較すると、新たに平均値計算部661,663、注入雑音計算部662を有し、また補正SNR計算部6540 〜654K-1 を置き換える形で補正SNR計算部6640 〜664K-1 を有している。
【0101】
平均値計算部661は、分離部651から供給された後天的SNRγn(k)のkに関する平均を求め、注入雑音計算部662へ伝達する。従って、注入雑音計算部662へ伝達される値は、一つとなる。一方、平均値計算部663は、分離部653から供給された推定雑音パワースペクトルλn(k)のkに関する平均を求め、しきい値計算部6541へ伝達する。しきい値計算部6541は、すでに説明した動作によってしきい値を求め、注入雑音計算部662へ伝達する。注入雑音計算部662は、図7における注入雑音計算部6542と同じ手順で注入すべき擬似的な雑音(第1の雑音,加算信号)を計算し、補正SNR計算部6640 〜664K-1 へ伝達する。図6に示した構成例と異なり、補正SNR計算部6640 〜664K-1 へ伝達される注入雑音は、すべて同じ値である。
【0102】
図9は、図8に示したSNR補正部66に含まれる補正SNR計算部6640 〜664K-1 の構成を示すブロック図である。補正SNR計算部664は、注入雑音計算部662から供給された注入雑音を、推定雑音パワースペクトル及び劣化音声パワースペクトルに加算し、両者の商を求めてから、補正後天的SNRとして出力する。より具体的には、次のとおりである。
すなわち、注入雑音計算部662で計算された注入雑音は、加算器6543及び6544に伝達される。加算器6543には、図8における分離部653から推定雑音パワースペクトルも供給されており、注入雑音計算部662から供給された雑音との加算結果を除算部6545に伝達する。加算器6544には、図8における分離部652から劣化音声パワースペクトルも供給されており、注入雑音計算部6542から供給された雑音との加算結果を除算部6545に伝達する。除算部6545は、加算器6543の出力と加算器6544の出力から求めた商を、補正後天的SNRとして出力する。
【0103】
図8,図9に示した構成例では、補正SNR計算部6640 〜664K-1 に対して注入雑音計算部662としきい値計算部6541を共通化することによって、補正SNR計算部6640 〜664K-1 のすべてに注入雑音計算部としきい値計算部を設ける必要がなくなるので、構成を簡素化することができる。
【0104】
以上のようにしてSNR補正部65,66で後天的SNRを補正し、その結果得られた補正後後天的SNRを用いて抑圧係数を定めることによって、図1に示したノイズ除去装置と同様に、実際の背景雑音に対して十分高い品質の強調音声を得ることができる。
【0105】
第2の参考例
図10は、本発明のノイズ除去装置に関連する第2の参考例の全体構成を示すブロック図である。このノイズ除去装置は、図1に示したノイズ除去装置において、注入雑音計算部55を注入雑音計算部58で置換した構成になっている。以下、この相違点を中心に詳細に説明する。
図10に示すノイズ除去装置では、入力信号の性質に応じて、選択的に雑音注入を適用する。このため、入力信号の性質を評価するために、フレーム分割部1の出力である時間領域の劣化音声信号が、注入雑音計算部58に供給されている。
【0106】
図11は、図10における注入雑音計算部58の構成を示すブロック図である。図2に示した注入雑音計算部55とは、ゼロ交叉計算部581とスイッチ582をさらに具備する点が異なっている。
フレーム分割部1の出力である時間領域の劣化音声信号は、ゼロ交叉計算部581に供給されている。ゼロ交叉計算部581には、SNR計算部551からSNRが、しきい値計算部552からしきい値が、それぞれ供給されている。ゼロ交叉計算部581では、供給された劣化音声信号の振幅がゼロとなるゼロ交叉を計数する。同時に、SNRとしきい値から、SNRが前記第2のしきい値TH2 より小さいか否かを評価する。SNRが前記第2のしきい値TH2 より小さいときだけ、前記ゼロ交叉の数を過去の数フレームに渡って平均化する。すなわち、劣化音声が無音と判定したときだけ、平均値を求める。このようにして得られた平均値を第3のしきい値と比較し、平均値の方が大きいときに“1”を、それ以外の場合は“0”を、制御信号としてスイッチ582に伝達する。第3のしきい値は、予め定めておくこともできるし、動作途中で変更することもできる。
【0107】
スイッチ582には、注入レベル計算部553からは注入雑音が、0と共に供給されている。スイッチ582は、ゼロ交叉計算部581から制御信号として“1”が供給されたときは注入レベル計算部553から供給された注入雑音を、“0”が供給されたときは0を選択し、注入雑音として出力する。従って、ゼロ交叉の数の平均値が第3のしきい値より大きい場合のみに、注入レベル計算部553からの注入雑音が、図10における加算器56,57に供給されることになる。
ゼロ交叉の数は、非定常な信号ほど多くなることが知られているので、非定常性が一定以上の信号に対してだけ、雑音注入を実行し、抑圧係数の補正を行うことができる。
【0108】
第3の参考例
図12は、本発明のノイズ除去装置に関連する第3の参考例の全体構成を示すブロック図である。このノイズ除去装置は、図10に示したノイズ除去装置において、注入雑音計算部58を注入雑音計算部59で置換した構成になっている。以下、この相違点を中心に詳細に説明する。
【0109】
図12に示すノイズ除去装置では、入力信号の性質に応じて選択的に雑音注入を適用する点で、図10に示したノイズ除去装置と同じである。しかし、フレーム分割部1の出力である時間領域の劣化音声信号が、注入雑音計算部59に供給されていない。その理由は、図10に示したノイズ除去装置とは異なり、入力信号の性質を評価するために、時間領域の劣化音声信号を用いないためである。その代わりに、劣化音声パワースペクトルを用いる。図10に示したノイズ除去装置では、フレーム当たりのゼロ交叉の数を用いて信号の非定常性を評価していたが、ゼロ交叉の数と高周波領域(高域)におけるパワースペクトルには相関があることが知られているので、ゼロ交叉の数に代えて劣化音声パワースペクトルを用いることができる。
【0110】
図13は、図12における注入雑音計算部59の構成を示すブロック図である。図11に示した注入雑音計算部58との違いは、ゼロ交叉計算部581が高域電力計算部591に置換されていることである。
高域電力計算部591には、SNR計算部551と共に、劣化音声パワースペクトルが供給されている。高域電力計算部591は、劣化音声パワースペクトル|Yn(k)|2 のうち、kが基準値kTHよりも大きいものの総和をとる。基準値kTHは、総和をとることによって、上述した劣化音声信号のゼロ交叉の数に対応する高域電力が得られるように、劣化音声信号その他の条件に応じて設定される。この結果、前記ゼロ交叉の数に対応する高域電力が得られるので、この高域電力を第4のしきい値と比較した結果を用いて、図11に示した注入雑音計算部58と同様にスイッチ582を制御することができる。すなわち、高域電力の値によって、注入レベル計算部553から供給された注入雑音と0を選択し、注入雑音として出力する。
【0111】
なお、劣化音声パワースペクトル|Yn(k)|2 のうち、kが基準値kTHよりも大きいものを重みづけして総和をとり、高域電力を求めるようにしてもよい。また、第4のしきい値は、予め定めておくこともできるし、動作途中で変更することもできる。
【0112】
(第の実施の形態)
図14は、本発明のノイズ除去装置の第の実施の形態の全体構成を示すブロック図である。このノイズ除去装置は、図5に示したノイズ除去装置において、SNR補正部65をSNR補正部67で置換した構成になっている。以下、この相違点を中心に詳細に説明する。
図14に示すノイズ除去装置では、図10に示したノイズ除去装置と同様に、入力信号の性質に応じて、選択的に雑音注入を適用する。このため、入力信号の性質を評価するために、フレーム分割部1の出力である時間領域の劣化音声信号が、SNR補正部67に供給されている。
【0113】
図15は、図14におけるSNR補正部67の構成例を示すブロック図である。図8に示したSNR補正部65の構成例とは、注入雑音計算部662が注入雑音計算部672に置換されている点において異なる。注入雑音計算部662とは異なり、注入雑音計算部672には、入力信号の性質を評価するために、フレーム分割部1の出力である時間領域の劣化音声信号が供給されている。
【0114】
図16は、注入雑音計算部672の構成例を示すブロック図である。注入雑音計算部672は、注入レベル計算部6721、スイッチ6722、判定部6723を有する。注入レベル計算部6721と判定部6723には、図15における平均値計算部661から後天的SNRが、また図15におけるしきい値計算部6541からしきい値が、供給されている。判定部6723にはさらに、劣化音声信号が供給されている。注入レベル計算部6721は、図2における注入レベル計算部553と同様の動作により、注入レベルを求め、スイッチ6722に伝達する。判定部6723は、前記劣化音声信号、前記後天的SNR、前記しきい値を受け、入力信号の性質に応じた、スイッチ6722の制御信号を発生する。
【0115】
ここで、判定部6723は、さらに、無音区間検出部67231、ゼロ交叉計算部67232、比較部67233から構成される。無音区間検出部67231は、前記後天的SNRと前記しきい値を受け、SNRが前記第2のしきい値TH2 より小さいときに“1”を、それ以外の場合は“0”を、ゼロ交叉計算部67232に伝達する。すなわち、劣化音声が無音と判定されると“1”を、それ以外の場合は“0”をゼロ交叉計算部67232に伝達することになる。
ゼロ交叉計算部67232は、供給された劣化音声信号の振幅がゼロとなるゼロ交叉を計数し、無音区間検出部67231から“1”を受けたときだけ、前記ゼロ交叉の数を過去の数フレームに渡って平均化する。このようにして得られた平均値は、比較部67233に伝達される。
比較部67233は、供給された前記ゼロ交叉の平均値を前記第3のしきい値と比較し、平均値の方が大きいときに“1”を、それ以外の場合は“0”を、制御信号としてスイッチ6722に伝達する。
【0116】
スイッチ6722は、判定部6723の比較部67233から“1”が供給されたときは注入レベル計算部6721から供給された注入雑音を、“0”が供給されたときは0を選択し、注入雑音として出力する。すなわち、スイッチ6722の動作は図11におけるスイッチ582の動作に等しく、非定常性が一定以上の信号に対してだけ、雑音注入を実行し、抑圧係数の補正を行うことができる。
【0117】
(第の実施の形態)
図17は、本発明のノイズ除去装置の第の実施の形態の全体構成を示すブロック図である。このノイズ除去装置は、図14に示したノイズ除去装置において、SNR補正部67をSNR補正部68で置換した構成になっている。以下、この相違点を中心に詳細に説明する。
【0118】
図17に示すノイズ除去装置では、入力信号の性質に応じて、選択的に雑音注入を適用する。その際、図14に示したノイズ除去装置とは異なり、時間領域の劣化音声信号の代わりに劣化音声パワースペクトルを用いて、入力信号の性質を評価する。すなわち、フレーム当たりのゼロ交叉数で信号の非定常性を評価していた第の実施の形態と異なり、高周波領域(高域)における劣化音声パワースペクトルを用いて信号の非定常性を評価する。このため、フレーム分割部1の出力である時間領域の劣化音声信号が、SNR補正部68に供給されていない。
図18は、図17におけるSNR補正部68の構成例を示すブロック図である。図15に示したSNR補正部67との違いは、注入雑音計算部672が注入雑音計算部682に置換されていることである。
【0119】
図19は、注入雑音計算部682の構成例を示すブロック図である。図16に示した注入雑音計算部672との違いは、ゼロ交叉計算部67232が高域電力計算部68232に置換されていることである。高域電力計算部68232には、無音区間計算部67231の出力信号と共に、劣化音声パワースペクトルが供給されている。高域電力計算部68232は、図13における高域電力計算部591と同様の動作によって、劣化音声パワースペクトル|Yn(k)|2 のうち、kが基準値kTHよりも大きいものの総和をとって、高域電力を求める。この高域電力は、比較部67233に伝達される。比較部67233は、この高域電力を前記第4のしきい値と比較した結果を用いて、スイッチ6722の制御信号を発生する。すなわち、高域電力の値によって、注入レベル計算部6721から供給された注入雑音と0を選択し、注入雑音として出力する。
【0120】
第4の参考例
図20は、本発明のノイズ除去装置に関連する第4の参考例の全体構成を示すブロック図である。このノイズ除去装置と図1に示したノイズ除去装置とは、推定雑音計算部5、重みつき劣化音声計算部14及び抑圧係数補正部15を除いて同一である。図20に示すノイズ除去装置の構成は、窓がけ処理部22及び注入雑音計算部58を除けば、「2000年4月、電子情報通信学会技術研究報告、DSP、53〜60ページ」(文献5)に開示されたものに等しい。文献5に開示された方法は、文献1に開示された従来の方法とは異なり、重みつき劣化音声スペクトルを用いて、雑音のパワースペクトルを推定することによって、正確な推定雑音を得ることができる。以下、これらの相違点を中心に詳細に説明する。
【0121】
まず、図20における重みつき劣化音声計算部14について説明する。図21は、重みつき劣化音声計算部14の構成を示すブロック図である。重みつき劣化音声計算部14は、推定雑音記憶部1401、周波数別SNR計算部1402、多重非線形処理部1405、及び多重乗算部1404を有する。推定雑音記憶部1401は、図20における推定雑音計算部5から供給される推定雑音パワースペクトルを記憶し、1フレーム前に記憶された推定雑音パワースペクトルを周波数別SNR計算部1402へ出力する。周波数別SNR計算部1402は、推定雑音記憶部1401から供給される推定雑音パワースペクトルと、図20における多重乗算部17から供給される劣化音声パワースペクトルを用いて、SNRを各周波数毎に求め、多重非線形処理部1405に出力する。多重非線形処理部1405は、周波数別SNR計算部1402から供給されるSNRを用いて重み係数ベクトルを計算し、重み係数ベクトルを多重乗算部1404に出力する。多重乗算部1404は、図20における多重乗算部17から供給される劣化音声パワースペクトルと、多重非線形処理部1405から供給される重み係数ベクトルの積を周波数毎に計算し、重みつき劣化音声パワースペクトルを図20における推定雑音計算部5に出力する。
【0122】
周波数別SNR計算部1402の構成は、既に図56を用いて説明した周波数別SNR計算部6に等しいので、詳細な説明は省略する。また、多重乗算部1404の構成は、既に図52を用いて説明した多重乗算部17に等しいので、詳細な説明は省略する。よって次に、図21における多重非線形処理部1405の構成と動作について詳しく説明する。
【0123】
図22は、重みつき劣化音声計算部14に含まれる多重非線形処理部1405の構成を示すブロック図である。多重非線形処理部1405は、分離部1495、K個の非線形処理部14850 〜1485K-1 、及び多重化部1475を有する。
分離部1495は、図21における周波数別SNR計算部1402から供給されるSNRを周波数別のSNRに分離し、非線形処理部14850 〜1485K-1 に出力する。
非線形処理部14850 〜1485K-1 は、それぞれ入力値に応じた実数値を出力する非線形関数を有する。図23に、非線形関数の例を示す。f1 を入力値としたとき、図23に示される非線形関数の出力値f2 は、式(17)で与えられる。
【0124】
【数17】
Figure 0003858668
【0125】
非線形処理部14850 〜1485K-1 は、分離部1495から供給される周波数別SNRを、上述した非線形関数によって処理して重み係数を求め、多重化部1475に出力する。すなわち、非線形処理部14850 〜1485K-1 は、SNRに応じた1から0までの重み係数を出力する。SNRが小さい時は1を、大きい時は0を出力する。
多重化部1475は、非線形処理部14850 〜1485K-1 から出力された重み係数を多重化し、その結果得られた重み係数ベクトルを図21における多重乗算部1404に出力する。
【0126】
このように、図21における多重乗算部1404で劣化音声パワースペクトルと乗算される重み係数は、SNRに応じた値になっており、SNRが大きい程、すなわち劣化音声に含まれる音声成分が大きい程、重み係数の値は小さくなる。推定雑音の更新には一般に劣化音声パワースペクトルが用いられるが、推定雑音の更新に用いる劣化音声パワースペクトルに対して、SNRに応じた重みづけを行うことで、劣化音声パワースペクトルに含まれる音声成分の影響を小さくすることができ、より精度の高い雑音推定を行うことができる。
なお、重み係数の計算に非線形関数を用いた例を示したが、非線形関数以外にも線形関数や高次多項式など、他の形で表されるSNRの関数を用いることも可能である。
【0127】
次に、図20における推定雑音計算部5について説明する。図24は、推定雑音計算部5の構成を示すブロック図である。この推定雑音計算部5と図53に示した推定雑音計算部51とは、分離部505が存在することと、周波数別推定雑音計算部5140 〜514K-1 が周波数別推定雑音計算部5040 〜504K-1 に置換されていることを除いて同一である。以下、これらの相違点を中心に詳細に説明する。
【0128】
分離部505は、図20における重みつき劣化音声計算部14から供給される重みつき劣化音声パワースペクトルを、周波数別の重みつき劣化音声パワースペクトルに分離し、それぞれ周波数別推定雑音計算部5040 〜504K-1 に出力する。周波数別推定雑音計算部5040 〜504K-1 は、分離部502から供給される周波数別劣化音声パワースペクトル、分離部505から供給される周波数別重みつき劣化音声パワースペクトル、図20における音声検出部4から供給される音声検出フラグ、及び図20におけるカウンタ13から供給されるカウント値から周波数別推定雑音パワースペクトルを計算し、多重化部503へ出力する。多重化部503は、周波数別推定雑音計算部5040 〜504K-1 から供給される周波数別推定雑音パワースペクトルを多重化し、その結果得られた推定雑音パワースペクトルを図20における加算器56と注入雑音計算部58と重みつき劣化音声計算部14へ出力する。周波数別推定雑音計算部5040 〜504K-1 の構成と動作の詳細な説明は、図25〜図27を参照しながら行う。
【0129】
図25は、図24に示した推定雑音計算部5に含まれる周波数別推定雑音計算部5040 〜504K-1 の第1の構成例を示すブロック図である。図54に示した周波数別推定雑音計算部514との相違点は、周波数別推定雑音計算部5040 〜504K-1 が推定雑音記憶部5942を有すること、更新判定部521が更新判定部520に置換されていること、及びスイッチ5044への入力が周波数別劣化音声パワースペクトルから周波数別重みつき劣化音声パワースペクトルに置換されていることである。周波数別推定雑音計算部5040 〜504K-1 は、推定雑音の計算に劣化音声パワースペクトルではなく重みつき劣化音声パワースペクトルを用いており、また、推定雑音の更新判定に、推定雑音と劣化音声パワースペクトルを用いているため、これらの相違点が発生する。
推定雑音記憶部5942は、除算部5048から供給される周波数別推定雑音パワースペクトルを記憶し、1フレーム前に記憶された周波数別推定雑音パワースペクトルを更新判定部520に出力する。更新判定部520の構成と動作の詳細な説明は、図26を参照しながら行う。
【0130】
図26は、図25に示した周波数別推定雑音計算部5040 〜504K-1 に含まれる更新判定部520の構成を示すブロック図である。図55に示した更新判定部521との相違点は、論理和計算部5211が論理和計算部5201に置換されていることと、更新判定部520が比較部5205、閾値記憶部5206及び閾値計算部5207を有することである。以下、これらの相違点を中心に詳細な動作を説明する。
閾値計算部5207は、図25における推定雑音記憶部5942から供給される周波数別推定雑音パワースペクトルに応じた値を計算し、閾値として閾値記憶部5206に出力する。最も簡単な閾値の計算方法は、周波数別推定雑音パワースペクトルの定数倍である。その他に、高次多項式や非線形関数を用いて閾値を計算することも可能である。
【0131】
閾値記憶部5206は、閾値計算部5207から出力された閾値を記憶し、1フレーム前に記憶された閾値を比較部5205へ出力する。
比較部5205は、閾値記憶部5206から供給される閾値と図24における分離部502から供給される周波数別劣化音声パワースペクトルを比較し、周波数別劣化音声パワースペクトルが閾値よりも小さければ“1”を、大きければ“0”を論理和計算部5201に出力する。すなわち、推定雑音パワースペクトルの大きさをもとに、劣化音声信号が雑音であるか否かを判別している。
論理和計算部5201は、比較部5203の出力値、論理否定回路5202の出力値、及び比較部5205の出力値の論理和を計算し、計算結果を図25におけるスイッチ5044、シフトレジスタ5045及びカウンタ5049に出力する。
【0132】
従って、初期状態や無音区間だけでなく、有音区間でも劣化音声パワーが小さい場合には、更新判定部520は“1”を出力する。すなわち、推定雑音の更新が行われる。閾値の計算は各周波数毎に行われるため、各周波数毎に推定雑音の更新を行うことができる。
【0133】
図25において、CNTをカウンタ5049のカウント値、Nをシフトレジスタ5045のレジスタ長とする。そして、Bn(k)(n=0,1,....,N−1)をシフトレジスタ5045に蓄積されている周波数別重みつき劣化音声パワースペクトルとする。このとき、除算部5048から出力される周波数別推定雑音パワースペクトルλn(k)は、式(18)で与えられる。
【0134】
【数18】
Figure 0003858668
【0135】
すなわち、λn(k)はシフトレジスタ5045に蓄積されている周波数別重みつき劣化音声パワースペクトルの平均値となる。平均値の計算は、重みつき加算部(巡回型フィルタ)を用いて行うことも可能である。次に、図27を参照しながら、λn(k)の計算に重みつき加算部を用いる構成例について説明する。
【0136】
図27は、図24に示した推定雑音計算部5に含まれる周波数別推定雑音計算部5040 〜504K-1 の第2の構成例を示すブロック図である。図25に示した周波数別推定雑音計算部504におけるシフトレジスタ5045、加算器5046、最小値選択部5047、除算部5048、カウンタ5049、レジスタ長記憶部5941、最小値選択部5047の代わりに、周波数別推定雑音計算部507は、重みつき加算部5071、重み記憶部5072を有する。
【0137】
重みつき加算部5071は、推定雑音記憶部5942から供給される1フレーム前の周波数別推定雑音パワースペクトル、スイッチ5044から供給される周波数別重みつき劣化音声パワースペクトル及び重み記憶部5072から出力される重みを用いて、周波数別推定雑音を計算し、図24における多重化部503へ出力する。すなわち、重み記憶部5072が記憶する重みをδ、周波数別重みつき劣化音声パワースペクトルを|Yn(k)|2 バーとしたとき、重みつき加算部5071から出力される周波数別推定雑音パワースペクトルλn(k)は、式(19)で与えられる。
【0138】
【数19】
Figure 0003858668
【0139】
重みつき加算部5071の構成は、既に図51を用いて説明した重みつき加算部407に等しいので、詳細な説明は省略する。但し、重みつき加算の計算は常に行なわれる。
【0140】
次に、図20における抑圧係数補正部15について説明する。図28は、図20における抑圧係数補正部15の構成を示すブロック図である。SNRが低いときに抑圧不足により発生する残留雑音や、SNRが高いときに過度の抑圧で発生する音声の歪みによる音質劣化を防ぐために、抑圧係数補正部15は、SNRに応じた抑圧係数の補正を行なう。補正の例として、SNRが低いときには抑圧係数に修正値を加えて残留雑音を抑圧し、SNRが高いときには抑圧係数に下限値を設定して音声の歪みを防止することができる。抑圧係数補正部15は、K個の周波数別抑圧係数補正部15010 〜1501K-1 、分離部1502,1503及び多重化部1504を有する。
【0141】
分離部1502は、図20における推定先天的SNR計算部7から供給される推定先天的SNRを周波数別成分に分離し、それぞれ周波数別抑圧係数補正部15010 〜1501K-1 に出力する。分離部1503は、図20における抑圧係数生成部8から供給される抑圧係数を周波数別成分に分離し、それぞれ周波数別抑圧係数補正部15010 〜1501K-1 に出力する。周波数別抑圧係数補正部15010 〜1501K-1 は、分離部1502から供給される周波数別推定先天的SNRと、分離部1503から供給される周波数別抑圧係数から、周波数別補正抑圧係数を計算し、多重化部1504へ出力する。多重化部1504は、周波数別抑圧係数補正部15010 〜1501K-1 から供給される周波数別補正抑圧係数を多重化し、補正抑圧係数として図20における多重乗算部16と推定先天的SNR計算部7へ出力する。
【0142】
図29は、図28に示した抑圧係数補正部15に含まれる周波数別抑圧係数補正部15010 〜1501K-1 の構成を示すブロック図である。周波数別抑圧係数補正部1501は、最大値選択部1591、抑圧係数下限値記憶部1592、閾値記憶部1593、比較部1594、スイッチ1595、修正値記憶部1596及び乗算器1597を有する。
比較部1594は、閾値記憶部1593から供給される閾値と、図28における分離部1502から供給される周波数別推定先天的SNRを比較し、周波数別推定先天的SNRが閾値よりも大きければ“0”を、小さければ“1”をスイッチ1595に供給する。
【0143】
スイッチ1595は、図28における分離部1503から供給される周波数別抑圧係数を、比較部1594の出力値が“1”のとき乗算器1597に出力し、比較部1594の出力値が“0”のとき、最大値選択部1591に直接供給する。
乗算器1579は、スイッチ1595の出力値と修正値記憶部1596の出力値との積を計算し、計算結果を最大値選択部1591に供給する。抑圧係数値を小さくするため、修正値は1より小さい値が普通であるが、目的によってはこの限りではない。このように、周波数別推定先天的SNRが閾値よりも小さいときに、抑圧係数の補正を行なう。SNRが小さい場合に抑圧係数の補正を行なうことで、音声成分を過剰に抑圧することなく、残留雑音量を減らすことができる。
【0144】
抑圧係数下限値記憶部1592は、記憶している抑圧係数の下限値を、最大値選択部1591に供給する。最大値選択部1591は、スイッチ1595又は乗算器1597から供給される信号と、抑圧係数下限値記憶部1592から供給される抑圧係数下限値を比較し、大きい方の値を周波数別補正抑圧係数として、図28における多重化部1504に出力する。これにより、抑圧係数は抑圧係数下限値記憶部1592が記憶する下限値よりも必ず大きい値になる。従って、過度の抑圧により発生する音声の歪みを防ぐことができる。
なお、図1、図5、図10、図12、図14、図17に示したノイズ除去装置では、抑圧係数が多重乗算部16と推定先天的SNR計算部7へ供給されていたが、図20に示したノイズ除去装置では、抑圧係数に代わって補正抑圧係数が供給されている。
【0145】
次に、図20における雑音抑圧係数生成部8について説明する。図60を用いて説明したように、抑圧係数は、供給された推定先天的SNRと後天的SNRから検索で求めることができるが、演算で求めることもできる。以下、文献1に記載されている計算式をもとに、抑圧係数の計算方法と共に、雑音抑圧係数生成部8の他の構成例について説明する。
図30は、図20における雑音抑圧係数生成部8の他の構成例を示すブロック図である。雑音抑圧係数生成部81は、MMSE STSAゲイン関数値計算部811、一般化尤度比計算部812、音声存在確率記憶部813、及び抑圧係数計算部814を有する。
【0146】
フレーム番号をn、周波数番号をkとし、γn(k)を図20における周波数別SNR計算部6から供給される周波数別後天的SNR、ξn(k)ハットを図20における推定先天的SNR計算部7から供給される周波数別推定先天的SNRとする。また、ηn(k)=ξn(k)ハット/q、vn(k)=(ηn(k)γn(k))/(1+ηn(k))とする。
MMSE STSAゲイン関数値計算部811は、図20における周波数別SNR計算部6から供給される後天的SNRγn(k)、図20における推定先天的SNR計算部7から供給される推定先天的SNRξn(k)ハット及び音声存在確率記憶部813から供給される音声存在確率qをもとに、各周波数毎にMMSESTSAゲイン関数値を計算し、抑圧係数計算部814に出力する。各周波数毎のMMSE STSAゲイン関数値Gn(k)は、式(20)で与えられる。
【0147】
【数20】
Figure 0003858668
【0148】
ここに、I0(z)は0次変形ベッセル関数、I1(z)は1次変形ベッセル関数である。変形ベッセル関数については、「1985年、数学辞典、岩波書店、374.Gページ」(文献6)に記載されている。
一般化尤度比計算部812は、図20における周波数別SNR計算部6から供給される後天的SNRγn(k)、図20における推定先天的SNR計算部7から供給される推定先天的SNRξn(k)ハット及び音声存在確率記憶部813から供給される音声存在確率qをもとに、周波数毎に一般化尤度比を計算し、抑圧係数計算部814に出力する。周波数毎の一般化尤度比Λn(k)は、式(21)で与えられる。
【0149】
【数21】
Figure 0003858668
【0150】
抑圧係数計算部814は、MMSE STSAゲイン関数値計算部811から供給されるMMSE STSAゲイン関数値Gn(k)と一般化尤度比計算部812から供給される一般化尤度比Λn(k)から周波数毎に抑圧係数を計算し、図20における抑圧係数補正部15へ出力する。周波数毎の抑圧係数Gn(k)バーは、式(22)で与えられる。
【0151】
【数22】
Figure 0003858668
【0152】
周波数別にSNRを計算する代わりに、複数の周波数から構成される帯域に共通なSNRを求めて、これを用いることも可能である。よって次に、図20における周波数別SNR計算部6の他の構成例として、帯域毎にSNRを計算する例について説明する。
図31は、周波数別SNR計算部6の他の構成例を示すブロック図である。図56に示した周波数別SNR計算部6との相違点は、帯域別SNR計算部61が帯域別パワー計算部611,612を有することである。帯域別パワー計算部611は、分離部602から供給される周波数別劣化音声パワースペクトルをもとに帯域別のパワーを計算し、除算部6010 〜601K-1 へ出力する。また、帯域別パワー計算部612は、分離部603から供給される周波数別推定雑音パワースペクトルをもとに帯域別のパワーを計算し、除算部6010 〜601K-1 へ出力する。
【0153】
図32は、帯域別SNR計算部61に含まれる帯域別パワー計算部611の構成を示すブロック図である。ここでは、帯域幅LをもつM個の帯域に等分割する例を説明する。ここに、LとMは、K=LMの関係を満たす自然数であるとする。
帯域別SNR計算部61は、M個の加算器61100〜6110M-1を有する。図31における分離部602から供給される周波数別劣化音声パワースペクトル9100 〜910K-1 (9100 〜910ML-1)は、各周波数に対応した加算器61100 〜6110M-1 へそれぞれ伝達される。例えば、帯域番号0に対応する周波数番号は0からL−1なので、周波数別劣化音声パワースペクトル9100 〜910L-1 は加算器61100へ伝達される。また、帯域番号1に対応する周波数番号はLから2L−1なので、周波数別劣化音声パワースペクトル910L 〜9102L-1は加算器61101へ伝達される。
【0154】
加算器61100 〜6110M-1 は、供給された周波数別劣化音声パワースペクトルの総和をそれぞれ計算し、帯域別劣化音声パワースペクトル9110 〜911ML-1(9110 〜911K-1 )を図31における除算部6010 〜601K-1 へ出力する。各加算器の計算結果は、それぞれの帯域番号に応じた周波数毎に帯域別劣化音声パワースペクトルとして出力される。例えば、加算器61100 の計算結果は、帯域別劣化音声パワースペクトル9110 〜911L-1 として出力される。また、加算器61101 の計算結果は、帯域別劣化音声パワースペクトル911L 〜9112L-1として出力される。
帯域別パワー計算部612の構成と動作は帯域別パワー計算部611と等価であるので、その説明は省略する。
【0155】
なお、ここでは複数の帯域に等分割する例を示したが、「1980年、聴覚と音声、電子情報通信学会、115〜118ページ」(文献7)に記載されている臨界帯域に分割する方法、「1983年、マルチレート・ディジタル・シグナル・プロセシング(Multirate Digital Signal Processing),1983,Prentice-Hall Inc.,USA」(文献8)に記載されているオクターブ帯域に分割する方法など、他の帯域分割方法を用いることも可能である。
【0156】
(第の実施の形態)
図33は、本発明のノイズ除去装置の第の実施の形態の全体構成を示すブロック図である。図20に示したノイズ除去装置との相違点は、注入雑音計算部58、加算器56,57が、SNR補正部67に置換されていることである。図20と図33の関係は、図1と図5の関係及び図10と図14の関係に等しく、SNR補正部67については図15及び14を参照して説明したので、図33に示したノイズ除去装置に関する詳細な説明は省略する。
【0157】
第5の参考例
図34は、本発明のノイズ除去装置に関連する第5の参考例の全体構成を示すブロック図である。図20に示したノイズ除去装置との相違点は、推定雑音計算部5が推定雑音計算部52に置換されていること、及び重みつき劣化音声計算部14が存在しないことである。以下、これらの相違点を中心に詳細に説明する。
【0158】
図35は、図34における推定雑音計算部52の構成を示すブロック図である。図24に示した推定雑音計算部5との相違点は、周波数別推定雑音計算部5040 〜504K-1 が周波数別推定雑音計算部5060 〜506K-1 に置換されていることと、推定雑音計算部52が入力信号に重みつき劣化音声パワースペクトルを有しないことである。これは、周波数別推定雑音計算部5040 〜504K-1 が入力信号に周波数別重みつき劣化音声パワースペクトルを必要とするのに対して、推定雑音計算部5060 〜506K-1 は、入力信号に周波数別重みつき劣化音声パワースペクトルを必要としないためである。以下、図36を参照しながら、相違点である周波数別推定雑音計算部5060 〜506K-1 の構成と動作を詳細に説明する。
【0159】
図36は、図35に示した推定雑音計算部52に含まれる周波数別推定雑音計算部5060 〜506K-1 の構成を示すブロック図である。図25に示した周波数別推定雑音計算部504との相違点は、周波数別推定雑音計算部506が、入力信号に周波数別重みつき劣化音声パワースペクトルを有していないことと、除算部5041、非線形処理部5042、及び乗算器5043を有していることである。以下、これらの相違点を中心に詳細に説明する。
【0160】
除算部5041は、図35における分離部502から供給される周波数別劣化音声パワースペクトルを、推定雑音記憶部5942から供給される1フレーム前の推定雑音パワースペクトルで除算し、除算結果を非線形処理部5042に出力する。図22に示した非線形処理部1485と同一の構成と機能を有する非線形処理部5042は、除算部5041の出力値に応じた重み係数を計算し、乗算器5043に出力する。乗算器5043は、図35における分離部502から供給される周波数別劣化音声パワースペクトルと非線形処理部5042から供給される重み係数の積を計算し、スイッチ5044へ出力する。
【0161】
乗算器5043の出力信号は、図25に示した周波数別推定雑音計算部504における周波数別重みつき劣化音声パワースペクトルと等価である。すなわち、周波数別重みつき劣化音声パワースペクトルは、周波数別推定雑音計算部506の内部において計算することも可能である。従って、図34に示したノイズ除去装置では、重みつき劣化音声計算部14を省略することが可能となる。
【0162】
(第の実施の形態)
図37は、本発明のノイズ除去装置の第の実施の形態の全体構成を示すブロック図である。図34に示したノイズ除去装置との相違点は、注入雑音計算部58、加算器56,57が、SNR補正部67に置換されていることである。図34と図37の関係は、図1と図5の関係、図10と図14の関係、及び図20と図33の関係に等しく、SNR補正部67については図15及び14を参照して説明したので、図37に示したノイズ除去装置に関する詳細な説明は省略する。
【0163】
第6の参考例
図38は、本発明のノイズ除去装置に関連する第6の参考例の全体構成を示すブロック図である。図20に示したノイズ除去装置とは、推定先天的SNR計算部71を除いて同一であるので、以下、この相違点を中心に詳細に説明する。
図39は、図38における推定先天的SNR計算部71の構成を示すブロック図である。図57に示した推定先天的SNR計算部7は後天的SNR記憶部702、抑圧係数記憶部703、多重乗算部705,704を有するのに対し、推定先天的SNR計算部71はこれらの代わりに、推定雑音記憶部712、強調音声パワースペクトル記憶部713、周波数別SNR計算部715、多重乗算部716を有する。また、推定先天的SNR計算部7は、入力信号に抑圧係数を有するが、推定先天的SNR計算部71は、抑圧係数の代わりに強調音声振幅スペクトルと推定雑音パワースペクトルを入力信号に有する。以下、推定先天的SNR計算部7と71との間に存在するこれらの相違点を中心に、詳細に説明する。
【0164】
多重乗算部716は、図38における多重乗算部16から供給される強調音声振幅スペクトル|Xn(k)|バー=Gn(k)バー・|Yn(k)|を周波数毎に2乗して強調音声パワースペクトルを求め、強調音声パワースペクトル記憶部713に出力する。多重乗算部716の構成は、既に図52を用いて説明した多重乗算部17に等しいので、詳細な説明は省略する。
強調音声パワースペクトル記憶部713は、多重乗算部716から供給される強調音声パワースペクトルを記憶し、1フレーム前に供給された強調音声パワースペクトルを周波数別SNR計算部715へ出力する。
推定雑音記憶部712は、図38における推定雑音計算部5から供給される推定雑音パワースペクトルλn(k)を記憶し、1フレーム前に供給された推定音声パワースペクトルを周波数別SNR計算部715へ出力する。
【0165】
周波数別SNR計算部715は、強調音声パワースペクトル記憶部713から供給される強調音声パワースペクトルGn-1 2(k)バー・|Yn-1(k)|2 と、推定雑音記憶部712から供給される推定雑音パワースペクトルλn-1(k)のSNRを各周波数毎に計算し、多重重みつき加算部707へ出力する。周波数別SNR計算部715の構成は、既に図56を用いて説明した周波数別SNR計算部6に等しいので、詳細な説明は省略する。
周波数別SNR計算部715の出力であるGn-1 2(k)バー・|Yn-1(k)|2 /λn-1(k)は、式(11)の関係から、図57における多重乗算部705の出力であるγn-1(k)Gn-1 2(k)バーと等価である。従って、図20に示したノイズ除去装置に含まれる推定先天的SNR計算部7を推定先天的SNR計算部71で置換することが可能となる。
【0166】
(第の実施の形態)
図40は、本発明のノイズ除去装置の第の実施の形態の全体構成を示すブロック図である。図38に示したノイズ除去装置との相違点は、注入雑音計算部58、加算器56,57が、SNR補正部67に置換されていることである。図38と図40の関係は、図1と図5の関係、図10と図14の関係、図20と図33の関係、及び図34と図37の関係に等しく、SNR補正部67については図15及び14を参照して説明したので、図40に示したノイズ除去装置に関する詳細な説明は省略する。
【0167】
第7の参考例
図41は、本発明のノイズ除去装置に関連する第7の参考例の全体構成を示すブロック図である。図20に示したノイズ除去装置との相違点は、推定雑音計算部5が推定雑音部52に、推定先天的SNR計算部7が推定先天的SNR計算部71に、それぞれ置換されていることと、重みつき劣化音声計算部14が存在しないことである。推定雑音部52の構成と動作は、図35及び図36を参照して説明したのと同様である。また、推定先天的SNR計算部71の構成と動作は、図39を参照して説明したのと同様である。従って、図41に示したノイズ除去装置は、図20に示したノイズ除去装置と等価な機能を実現する。
【0168】
(第の実施の形態)
図42は、本発明のノイズ除去装置の第の実施の形態の全体構成を示すブロック図である。図41に示したノイズ除去装置との相違点は、注入雑音計算部58、加算器56,57が、SNR補正部67に置換されていることである。図41と図42の関係は、図1と図5の関係、図10と図14の関係、図20と図33の関係、図34と図37の関係、及び図38と図40の関係に等しく、SNR補正部67については図15及び14を参照して説明したので、図42に示したノイズ除去装置に関する詳細な説明は省略する。
【0169】
第8の参考例
図43は、本発明のノイズ除去装置に関連する第8の参考例の全体構成を示すブロック図である。図20に示したノイズ除去装置との相違点は、推定雑音計算部5が推定雑音計算部53で置換されていることと、音声検出部4が存在しないことである。すなわち、雑音の推定に音声検出部を必要としない構成になっている。以下、これらの相違点を中心に詳細に説明する。
図44は、図43における推定雑音計算部53の構成を示すブロック図である。図24に示した推定雑音計算部5との相違点は、周波数別推定雑音計算部5040 〜504K-1 が周波数別推定雑音計算部5080 〜508K-1 に置換されていることと、推定雑音計算部53が入力信号に音声検出フラグを有していないことである。図45を参照しながら、周波数別推定雑音計算部5080 〜508K-1 の構成と動作を詳細に説明する。
【0170】
図45は、図44に示した推定雑音計算部53に含まれる周波数別推定雑音計算部5080 〜508K-1 の構成を示すブロック図である。図25に示した周波数別推定雑音計算部504との相違点は、更新判定部520が更新判定部522に置換されていることと、5080 〜508K-1 が入力信号に音声検出フラグを有していないことである。
図46は、図45に示した周波数別推定雑音計算部508に含まれる更新判定部522の構成を示すブロック図である。図26に示した更新判定部520との相違点は、論理和計算部5201が論理和計算部5221に置換されていること、更新判定部522が論理否定回路5202を有していないこと、入力信号に音声検出フラグを有していないことである。すなわち、更新判定部522は、推定雑音の更新に音声検出フラグを用いていない。この点が、図26に示した更新判定部520と異なる。
【0171】
論理和計算部5221は、比較部5205の出力値と比較部5203の出力値の論理和を計算し、計算結果を図45におけるスイッチ5044、シフトレジスタ5045及びカウンタ5049に出力する。すなわち、更新判定部522は、カウント値が予め設定された値に到達するまでは常に“1”を出力し、到達した後は、劣化音声パワーが閾値よりも小さいときに“1”を出力する。
図26を用いて説明した通り、比較部5205は劣化音声信号が雑音であるか否かの判定を行なっている。すなわち、比較部5205は各周波数毎に音声検出を行なっていると言える。従って、音声検出フラグを入力信号に有しない更新判定部や推定雑音計算部を実現することが可能となる。
【0172】
(第の実施の形態)
図47は、本発明のノイズ除去装置の第の実施の形態の全体構成を示すブロック図である。図43に示したノイズ除去装置との相違点は、注入雑音計算部58、加算器56,57が、SNR補正部67に置換されていることである。図43と図47の関係は、図1と図5の関係、図10と図14の関係、図20と図33の関係、図34と図37の関係、図38と図40の関係、及び図41と図42の関係に等しく、SNR補正部67については図15及び14を参照して説明したので、図47に示したノイズ除去装置に関する詳細な説明は省略する。
【0173】
図20、図33、図34、図37、図38、図40〜図43、図47に関しても、図10と図12及び図14と図17の関係に相当するような、劣化音声信号の代わりに劣化音声パワースペクトルを用いた選択的な雑音注入が可能であるが、構成は明らかなので、詳細は省略する。
【0174】
これまで説明したすべての実施の形態では、ノイズ除去の方式として、最小平均2乗誤差短時間スペクトル振幅法を仮定してきたが、その他の方法にも適用することができる。このような方法の例として、「1979年12月、プロシーディングス・オブ・ザ・アイ・イー・イー・イー、第67巻、第12号(PROCEEDINGS OF THE IEEE, VOL.67, NO.12, PP.1586-1604, DEC, 1979 )、1586〜1604ページ」(文献9)に開示されているウィーナーフィルタ法や「1979年4月、アイ・イー・イー・イー・トランザクションズ・オン・アクースティクス・スピーチ・アンド・シグナル・プロセシング、第27巻、第2号(IEEE TRANSACTIONS ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, VOL.27, NO.2, PP.113-120, APR, 1979)、113〜120ページ」(文献10)に開示されているスペクトル減算法などがあるが、これらの詳細な構成例については、説明を省略する。
【0175】
文献10に開示されているスペクトル減算法の概略動作に関しては、例えば、図43及び図47を参照することができる。図43及び図47において、多重乗算部16を多重減算部に、雑音抑圧係数生成部8を雑音抑圧量計算部に、抑圧係数補正部15を抑圧量補正部に置き換えれば、スペクトル減算法による動作を実現することができる。多重減算部において、補正された雑音抑圧量を劣化音声振幅スペクトルから減算し、得られた結果を逆フーリエ変換することによって、強調音声を得ることができる。ここでは、SNRを計算してから、SNRに基づいて雑音抑圧量を計算する例について説明したが、推定雑音計算部53で得られた推定雑音を、直接劣化音声振幅スペクトルから減算することもできる。
【0176】
【発明の効果】
以上説明したように、本発明では、入力信号に基づいて擬似的な雑音を生成し、この擬似的な雑音を注入して得られた抑圧係数を用いる。抑圧係数を定めるときに上述した擬似的な雑音を注入することにより、特定の統計モデルに従う背景雑音を仮定して導出した抑圧係数を入力信号に応じて補正し、その統計モデルに従わない雑音を効果的に除去することができる。従って、あらゆる背景雑音に対して十分高い品質の強調音声を得ることができる。
【0177】
また、本発明では、周波数領域の強調音声を変換した時間領域信号に窓がけ処理を施す。周波数領域の強調音声を変換した時間領域信号の隣接する2フレームを重ね合わせ加算する場合に、重ね合わせ加算の対象となった信号サンプルが各フレームにおいて異なった抑圧係数値で抑圧されたとしても、各フレームを窓がけ処理してフレーム境界における信号サンプルの振幅を小さくすることによって、フレーム境界における信号サンプルの連続性を改善することができる。これにより、雑音の発生を防止し、雑音による音質の劣化を低減することができる。
【図面の簡単な説明】
【図1】 本発明のノイズ除去装置に関連する第1の参考例の全体構成を示すブロック図である。
【図2】 図1に示したノイズ除去装置に含まれる注入雑音計算部の第1の構成を示すブロック図である。
【図3】 SNRと注入雑音の関係の一例を示す図である。
【図4】 SNRに対する抑圧係数の特性の一例を示す図である。
【図5】 本発明のノイズ除去装置の第の実施の形態の全体構成を示すブロック図である。
【図6】 図5に示したノイズ除去装置に含まれるSNR補正部の第1の構成を示すブロック図である。
【図7】 図6に示したSNR補正部に含まれる補正SNR計算部の構成を示すブロック図である。
【図8】 SNR補正部の第2の構成を示すブロック図である。
【図9】 図8に示したSNR補正部に含まれる補正SNR計算部の構成を示すブロック図である。
【図10】 本発明のノイズ除去装置に関連する第2の参考例の全体構成を示すブロック図である。
【図11】 注入雑音計算部の第2の構成を示すブロック図である。
【図12】 本発明のノイズ除去装置に関連する第3の参考例の全体構成を示すブロック図である。
【図13】 注入雑音計算部の第3の構成を示すブロック図である。
【図14】 本発明のノイズ除去装置の第の実施の形態の全体構成を示すブロック図である。
【図15】 SNR補正部の第3の構成を示すブロック図である。
【図16】 注入雑音計算部の第4の構成を示すブロック図である。
【図17】 本発明のノイズ除去装置の第の実施の形態の全体構成を示すブロック図である。
【図18】 SNR補正部の第4の構成を示すブロック図である。
【図19】 注入雑音計算部の第5の構成を示すブロック図である。
【図20】 本発明のノイズ除去装置に関連する第4の参考例の全体構成を示すブロック図である。
【図21】 図20に示したノイズ除去装置に含まれる重みつき劣化音声計算部の構成を示すブロック図である。
【図22】 図21に示した重みつき劣化音声計算部に含まれる多重非線形処理部の構成を示すブロック図である。
【図23】 非線形処理部における非線形関数の一例を示す図である。
【図24】 図20に示したノイズ除去装置に含まれる推定雑音計算部の第1の構成を示すブロック図である。
【図25】 図24に示した推定雑音計算部に含まれる周波数別推定雑音計算部の第1の構成を示すブロック図である。
【図26】 図25に示した周波数別推定雑音計算部に含まれる更新判定部の構成を示すブロック図である。
【図27】 周波数別推定雑音計算部の第2の構成を示すブロック図である。
【図28】 図20に示したノイズ除去装置に含まれる抑圧係数補正部の構成を示すブロック図である。
【図29】 図28に示した抑圧係数補正部に含まれる周波数別抑圧係数補正部の構成を示すブロック図である。
【図30】 雑音抑圧係数生成部の第2の構成を示すブロック図である。
【図31】 周波数別SNR計算部の第2の構成を示すブロック図である。
【図32】 図31に示した周波数別SNR計算部に含まれる帯域別パワー計算部の構成を示すブロック図である。
【図33】 本発明のノイズ除去装置の第の実施の形態の全体構成を示すブロック図である。
【図34】 本発明のノイズ除去装置に関連する第5の参考例の全体構成を示すブロック図である。
【図35】 推定雑音計算部の第2の構成を示すブロック図である。
【図36】 図35に示した推定雑音計算部に含まれる周波数別推定雑音計算部の構成を示すブロック図である。
【図37】 本発明のノイズ除去装置の第の実施の形態の全体構成を示すブロック図である。
【図38】 本発明のノイズ除去装置に関連する第6の参考例の全体構成を示すブロック図である。
【図39】 図38に示したノイズ除去装置に含まれる推定先天的SNR計算部の構成を示すブロック図である。
【図40】 本発明のノイズ除去装置の第の実施の形態の全体構成を示すブロック図である。
【図41】 本発明のノイズ除去装置に関連する第7の参考例の全体構成を示すブロック図である。
【図42】 本発明のノイズ除去装置の第の実施の形態の全体構成を示すブロック図である。
【図43】 本発明のノイズ除去装置に関連する第8の参考例の全体構成を示すブロック図である。
【図44】 推定雑音計算部の第3の構成を示すブロック図である。
【図45】 図44に示した推定雑音計算部に含まれる周波数別推定雑音計算部の構成を示すブロック図である。
【図46】 図45に示した周波数別推定雑音計算部含まれる更新判定部の構成を示すブロック図である。
【図47】 本発明のノイズ除去装置の第の実施の形態の全体構成を示すブロック図である。
【図48】 従来のノイズ除去装置の全体構成を示すブロック図である。
【図49】 従来のノイズ除去装置に含まれる音声検出部の構成を示すブロック図である。
【図50】 図49に示した音声検出部に含まれるパワー計算部の構成を示すブロック図である。
【図51】 図49に示した音声検出部に含まれる重みつき加算部の構成を示すブロック図である。
【図52】 従来のノイズ除去装置に含まれる多重乗算部の構成を示すブロック図である。
【図53】 従来のノイズ除去装置に含まれる推定雑音計算部の構成を示すブロック図である。
【図54】 図53に示した推定雑音計算部に含まれる周波数別推定雑音計算部の構成を示すブロック図である。
【図55】 図54に示した周波数別推定雑音計算部に含まれるの更新判定部の構成を示すブロック図である。
【図56】 従来のノイズ除去装置に含まれる周波数別SNR計算部の構成を示すブロック図である。
【図57】 従来のノイズ除去装置に含まれる推定先天的SNR計算部の構成を示すブロック図である。
【図58】 図57に示した推定先天的SNR計算部に含まれる多重値域限定処理部の構成を示すブロック図である。
【図59】 図57に示した推定先天的SNR計算部に含まれる多重重みつき加算部の構成を示すブロック図である。
【図60】 従来のノイズ除去装置に含まれる雑音抑圧係数生成部の構成を示すブロック図である。
【図61】 図60に示した雑音抑圧係数生成部に含まれる抑圧係数検索部の構成を示すブロック図である。
【符号の説明】
1…フレーム分割部、2,22…窓がけ処理部、3…フーリエ変換部、4…音声検出部、5,51,52,53…推定雑音計算部、6,61,715,1402…周波数別SNR計算部、7,71…推定先天的SNR計算部、8,81…雑音抑圧係数生成部、9…逆フーリエ変換部、10…フレーム合成部、11…入力端子、12…出力端子、13,5049…カウンタ、14…重みつき劣化音声計算部、15…抑圧係数補正部、16,17,704,705,716,1404…多重乗算部、55,58,59,662,672,682,6542…注入雑音計算部、56,57,708,4063,4072,4074,5046,61100 〜6110M-1 ,6543,6544…加算器、65,66,67,68…SNR補正部、401,1593,5204,5206…閾値記憶部、402,1594,5203,5205,67233…比較部、404,4075…定数乗算器、405…対数計算部、406…パワー計算部、407,5071,70710 〜7071K-1 …重みつき加算部、408,706,5072…重み記憶部、409,5202…論理否定回路、502,505,602,603,802,803,1495,1502,1503,1702,1703,4061,503,604,655,804,1475,1504,1704,6115,7014,7075…多重化部、5040 〜504K-1 ,5060 〜506K-1 ,507,5080 〜508K-1 ,5140 〜514K-1 …周波数別推定雑音計算部、520,521,522…更新判定部、551…SNR計算部、552,6541…しきい値計算部、553,6721…注入レベル計算部、581,67232…ゼロ交叉計算部、582,1595,5044,6722…スイッチ、591,68232…高域電力計算部、6010 〜601K-1 ,5041,5048,6545…除算部、611,612…周波数別パワー計算部、651,652,653,6111,7013,7072,7074…分離部、6540 〜654K-1 ,6640 〜664K-1 …補正SNR計算部、661,663…平均値計算部、701…多重値域限定処理部、702…後天的SNR記憶部、703…抑圧係数記憶部、707…多重重みつき加算部、712,1401,5942…推定雑音記憶部、713…強調音声パワースペクトル記憶部、8010 〜801K-1 …抑圧係数検索部、811…MMSE STSAゲイン関数値計算部、812…一般化尤度比計算部、813…音声存在確率記憶部、814…抑圧係数計算部、901…劣化音声パワー、902…閾値、903,923…重み、904…更新閾値、905…重みつき加算部制御信号、9100 〜910K-1 ,9100 〜910ML-1…周波数別劣化音声パワースペクトル、9110 〜911K-1 ,9110 〜911ML-1…帯域別劣化音声パワースペクトル、921…瞬時推定SNR、9210 〜921K-1 …周波数別瞬時推定SNR、922…過去の推定SNR、9220 〜922K-1 …過去の周波数別推定SNR、924…推定先天的SNR、9240 〜924K-1 …周波数別推定先天的SNR、1405…多重非線形処理部、14850 〜1485K-1 ,5042…非線形処理部、15010 〜1501K-1 …周波数別抑圧係数補正部、1591,70120 〜7012K-1 …最大値選択部、1592…抑圧係数下限値記憶部、1596…修正量記憶部、1597,17010 〜1701K-1 ,40620 〜4062K-1 ,4071,4073,5043…乗算器、5045…シフトレジスタ、5047…最小値選択部、5201,5211,5221…論理和計算部、5207…閾値計算部、5941…レジスタ長記憶部、6723,6823…判定部、7011…定数記憶部、8011…抑圧係数テーブル、8012,8013…アドレス変換部、67231…無音区間検出部。[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a noise removal method and apparatus, and more particularly, to a noise removal method and apparatus for removing noise superimposed on a desired audio signal.
[0002]
[Prior art]
The noise removal device (noise suppressor) removes noise (noise) superimposed on the desired audio signal and estimates the power spectrum of the noise component using the input signal converted from the time domain to the frequency domain. Then, the estimated power spectrum is subtracted from the input signal to operate so as to suppress noise mixed in the desired audio signal. The power spectrum of the noise component can be applied to non-stationary noise suppression by detecting and updating a silent section of speech.
For example, “December 1984, IEE Transactions on Axetics Speech and Signal Processing, Vol. 32, No. 6 (IEEE TRANSACTIONS ON ACOUSTICS , SPEECH, AND SIGNAL PROCESSING, VOL.32, NO.6, PP.1109-1121, DEC, 1984), pages 1109 to 1121 (Reference 1). This is known as the minimum mean square error short time spectral amplitude method. FIG. 48 shows the configuration of the noise removal device described in Document 1.
[0003]
The input terminal 11 is supplied with a deteriorated sound signal (a signal in which a desired sound signal and noise are mixed) as a time domain sample value series. The deteriorated speech signal samples are supplied to the frame dividing unit 1 and divided into frames for every K / 2 samples. Here, K is an even number of 2 or more.
The degraded speech signal samples divided into frames are supplied to the windowing processing unit 2 and multiplied by the window function w (t). Input signal y of the nth framen(t) signal y windowed with w (t) for (t = 0, 1,..., K / 2-1)n(t) The bar is given by equation (1).
[0004]
[Expression 1]
Figure 0003858668
[0005]
In addition, it is also widely performed to overlap a part of two consecutive frames. Assuming 50% of the frame length as the overlap length, for t = 0, 1,..., K / 2-1, y obtained by equation (2)n(t) The bar (t = 0, 1,..., K / 2-1) is the output of the windowing processing unit 2.
[0006]
[Expression 2]
Figure 0003858668
[0007]
For real signals, a symmetric window function is used. Further, the window function is designed so that the input signal and the output signal when a suppression coefficient, which will be described later, is set to 1, match except for calculation errors. This means that w (t) + w (t + K / 2) = 1.
Hereinafter, the description will be continued by taking as an example a case in which 50% of two consecutive frames overlap each other. As the window function w (t), for example, a Hanning window shown in Expression (3) can be used.
[0008]
[Equation 3]
Figure 0003858668
[0009]
Windowed output yn(t) The bar is supplied to the Fourier transform unit 3, and the degraded speech spectrum (frequency domain signal) Y in the frequency domainnconverted to (k). Deteriorated speech spectrum Yn(k) is separated into phase and amplitude, and argY of the degraded speech phase spectrumn(k) indicates to the inverse Fourier transform unit 9 that the degraded speech amplitude spectrum | Yn(k) | is supplied to the voice detector 4, the multiplex multiplier 16, and the multiplex multiplier 17.
[0010]
The voice detection unit 4 uses the deteriorated voice amplitude spectrum | Yn(k) The presence / absence of a voice is detected based on |, and a voice detection flag determined by the result is transmitted to the estimated noise calculation unit 51. Multiplex multiplier 17 supplies the deteriorated speech amplitude spectrum | Yn(k) | is squared for each frequency and transmitted to the estimated noise calculation unit 51 and the frequency-specific SNR (signal-to-noise ratio) calculation unit 6 as a degraded speech power spectrum. The estimated noise calculation unit 51 estimates the power spectrum of the noise (second noise) included in the degraded speech amplitude spectrum using the speech detection flag, the degraded speech power spectrum, and the count value supplied from the counter 13. The estimated noise power spectrum is transmitted to the frequency-specific SNR calculator 6. The frequency-specific SNR calculation unit 6 divides by frequency using the input degraded speech power spectrum and the estimated noise power spectrum, and as an acquired SNR (a posteriori SNR), the estimated innate SNR calculation unit 7 and the noise suppression coefficient generation unit 8 is supplied. The acquired SNR is an estimate of the ratio of unenhanced speech including noise to noise.
[0011]
The estimated innate SNR calculation unit 7 receives the acquired acquired SNR and the suppression coefficient G supplied from the noise suppression coefficient generation unit 8 described later.n(k) Using a bar, an a priori SNR indicating a true voice-to-noise ratio is estimated and fed back to the noise suppression coefficient generation unit 8 as an estimated innate SNR. The noise suppression coefficient generation unit 8 generates a noise suppression coefficient using the acquired SNR and the estimated innate SNR supplied as inputs, and suppresses the suppression coefficient G.n(k) The signal is fed back to the estimated innate SNR calculator 7 as a bar and simultaneously transmitted to the multiple multiplier 16.
The multiplex multiplier 16 receives the deteriorated speech amplitude spectrum | Y supplied from the Fourier transform unit 3.n(k) | is the suppression coefficient G supplied from the noise suppression coefficient generation unit 8.n(k) Enhanced speech amplitude spectrum | X by weighting with barsn(k) | The bar is obtained and transmitted to the inverse Fourier transform unit 9. | Xn(k) | The bar is given by equation (4).
[0012]
[Expression 4]
Figure 0003858668
[0013]
The inverse Fourier transform unit 9 receives the enhanced speech amplitude spectrum | X supplied from the multiple multiplication unit 16.n(k) | Deteriorated speech phase spectrum argY supplied from the bar and Fourier transform unit 3nMultiply (k) to obtain the enhanced speech spectrum Xn(k) Find the bar. That is, Expression (5) is executed.
[0014]
[Equation 5]
Figure 0003858668
[0015]
And the obtained enhanced speech spectrum Xn(k) Time-domain sample value series (time-domain signal) x in which a bar is subjected to inverse Fourier transform and one frame is composed of K samplesn(t) Bars (t = 0, 1,..., K−1) are transmitted to the frame synthesis unit 10. The frame composition unit 10n(t) K / 2 samples are taken out from two adjacent frames of the bar and superimposed, and the emphasized speech x is expressed by equation (6).n(t) A hat (t = 0, 1,..., K / 2-1) is obtained. Obtained enhanced speech xn(t) The hat is transmitted to the output terminal 12 as the output of the frame synthesis unit 10.
[0016]
[Formula 6]
Figure 0003858668
[0017]
Next, the configuration and operation of each part of the noise removal apparatus shown in FIG. 48 will be further described.
Document 1 does not disclose the method for realizing the voice detection unit in detail. However, as an implementation example of the voice detection unit, “March 2000, Proceedings of the Acoustical Society of Japan, pp. 321 to 322” (Reference 2) is known. This will be described as a conventional method.
FIG. 49 is a block diagram showing a configuration of the voice detection unit 4 in FIG. The voice detection unit 4 includes a threshold storage unit 401, a comparison unit 402, a multiplier 404, a logarithm calculation unit 405, a power calculation unit 406, a weighted addition unit 407, a weight storage unit 408, and a logic negation circuit 409.
[0018]
The deteriorated speech amplitude spectrum supplied from the Fourier transform unit 3 in FIG. 48 is supplied to the power calculation unit 406. The power calculation unit 406 calculates the power of the deteriorated speech amplitude spectrum | Yn(k) |2 Is calculated from k = 0 to K−1 and transmitted to the logarithm calculation unit 405. The logarithm calculation unit 405 inputs the deteriorated speech spectrum power | Yn(k) |2 Is obtained and transmitted to the multiplier 404. The multiplier 404 multiplies the supplied logarithmic value by a constant number (for example, 10 times) and deteriorates the voice power Q.n Is supplied to the comparison unit 402 and the weighted addition unit 407. That is, the degraded voice power Q of the nth framen Is given by equation (7).
[0019]
[Expression 7]
Figure 0003858668
[0020]
Note that the voice detection unit disclosed in Document 2 is a time domain sample yn(t) Using bar, Q according to equation (8)nSeeking.
[0021]
[Equation 8]
Figure 0003858668
[0022]
However, as shown in, for example, “1985, Digital Signal Processing Theory, Corona, pages 75 to 76” (Reference 3), the fact that Equation (8) and Equation (7) are equivalent is equivalent to Parseval. ).
[0023]
The comparison unit 402 receives the threshold value TH from the threshold value storage unit 401.nIs supplied. The comparison unit 402 outputs the output Q of the multiplier 404.nAnd threshold THnCompare THn> QnWhen “1”, “1” representing sound isn≦ QnIn the case of "0", "0" representing silence is output. The output of the comparison unit 402 is supplied to the outside as a voice detection flag that is the output of the voice detection unit 4 and simultaneously supplied to the negative operation circuit 409. The output of the negative operation circuit 409 is supplied to the weighted adder 407 as a weighted adder control signal 905. The weighted addition unit 407 also receives a threshold value (TH from the threshold storage unit 401).n-1) 902 and the weight 903 is supplied from the weight storage unit 408.
[0024]
The weighted addition unit 407 includes a threshold (TH) supplied from the threshold storage unit 401.n-1) 902 is selectively updated based on the weighted addition unit control signal 905. Update threshold THnIs the threshold (THn-1) 902 and degraded voice power (Qn) 901 is obtained by weighted addition using the weight 903 supplied from the weight storage unit 408. Update threshold THnIs calculated only when the weighted addition unit control signal 905, which is the output of the logic negation circuit 409, is equal to "1". That is, only when there is no sound, the threshold value THn-1Is THnUpdated to Update threshold TH obtained by updatingnIs returned to the threshold value storage unit 401 as the update threshold value 904.
[0025]
FIG. 50 is a block diagram showing a configuration of the power calculation unit 406 included in the voice detection unit 4 shown in FIG. The power calculation unit 406 includes a separation unit 4061 and K multipliers 4062.0 ~ 4062K-1 And an adder 4063. The deteriorated speech amplitude spectrum | Y supplied from the Fourier transform unit 3 in FIG. 48 in the multiplexed staten(k) | is separated into K samples by frequency in the separation unit 4061, and multipliers 4062 are respectively provided.0 ~ 4062K-1 To be supplied. Multiplier 40620 ~ 4062K-1 Each squares the input signal and transmits it to the adder 4063. The adder 4063 calculates and outputs the sum of the input signals.
[0026]
FIG. 51 is a block diagram illustrating a configuration of the weighted addition unit 407 included in the voice detection unit 4 illustrated in FIG. 49. The weighted addition unit 407 includes multipliers 4071 and 4073, a constant multiplier 4075, and adders 4072 and 4074. The multiplier 404 in FIG.n) 901 is the threshold (TH) from the threshold storage unit 401 in FIG.n-1) 902 is supplied as the input from the weight storage unit 408 in FIG. 49 and the weighted addition unit control signal 905 from the logical negation circuit 409 in FIG.
[0027]
The weight 903 having the value β is transmitted to the constant multiplier 4075 and the multiplier 4073. The constant multiplier 4075 supplies -β obtained by multiplying the input signal by -1 as one input of the adder 4074. 1 is supplied as the other input of the adder 4074, and the output of the adder 4074 is 1-β which is the sum of the two. 1−β is supplied as one input of the multiplier 4071, and the degraded input power (Qn) 901 multiplied by (1-β) QnIs transmitted to the adder 4072.
[0028]
On the other hand, in the multiplier 4073, β supplied as the weight 903 and the threshold value (THn-1) 902 multiplied by βTH which is the productn-1Is transmitted to the adder 4072. The adder 4072n-1And (1-β) QnIs the update threshold (THn) 904.
Update threshold THnIs calculated only when the weighted adder control signal 905 is equal to “1”. That is, the function of the weighted addition unit 407 is the threshold TH when there is no sound.n -1Update THnAnd can be expressed by equation (9).
[0029]
[Equation 9]
Figure 0003858668
[0030]
The multiple multiplier 17 in FIG. 48 will be described. FIG. 52 is a block diagram showing the configuration of the multiple multiplier 17. Multiplex multiplier 17 includes K multipliers 1701.0 ~ 1701K-1 , Separation units 1702 and 1703, and a multiplexing unit 1704. The deteriorated speech amplitude spectrum supplied from the Fourier transform unit 3 in FIG. 48 in the multiplexed state is separated into K samples for each frequency in the separation units 1702 and 1703, respectively.0 ~ 1701K-1 To be supplied. Multiplier 17010 ~ 1701K-1 Respectively squares the input signals and transmits them to the multiplexing unit 1704. The multiplexing unit 1704 multiplexes the input signal and outputs it as a degraded voice power spectrum.
[0031]
The estimated noise calculation unit 51 in FIG. 48 will be described. FIG. 53 is a block diagram illustrating a configuration of the estimated noise calculation unit 51. The estimated noise calculation unit 51 includes a separation unit 502, a multiplexing unit 503, and K frequency-specific estimated noise calculation units 514.0 ~ 514K-1 Have The voice detection flag supplied from the voice detector 4 in FIG. 48 and the count value supplied from the counter 13 in FIG.0 ~ 514K-1 Is transmitted to. The deteriorated sound power spectrum supplied from the multiplex multiplication unit 17 in FIG. 48 is transmitted to the separation unit 502.
[0032]
The separation unit 502 separates the deteriorated speech power spectrum supplied in a multiplexed state into components corresponding to K frequencies, and each frequency-based estimated noise calculation unit 514.0 ~ 514K-1 To communicate. Estimated noise calculation unit 514 by frequency0 ~ 514K-1 Calculates a noise power spectrum using the degraded speech power spectrum supplied from the separation unit 502 and transmits the noise power spectrum to the multiplexing unit 503. The calculation of the noise power spectrum is controlled by the count value and the value of the voice detection flag, and is executed only when a predetermined condition is satisfied. The multiplexing unit 503 multiplexes the supplied K noise power spectrum values, and outputs the result as an estimated noise power spectrum.
[0033]
FIG. 54 is a block diagram showing a configuration of frequency-specific estimated noise calculator 514 included in estimated noise calculator 51 shown in FIG. The noise estimation disclosed in Document 2 updates a noise estimation value in a silent section, and uses an instantaneous value of estimated noise averaged by a cyclic filter as a noise estimation value. On the other hand, “May 1998, IEE Transactions on Speech and Audio Processing, Volume 6, Issue 3 (IEEE TRANS-ACTIONS ON SPEECH AND AUDIO PROCESSING, VOL.6 , NO.3, PP.287-292, MAY, 1998), pages 287 to 292 "(reference 4), it is described that instantaneous values of estimated noise are averaged and used. This suggests the realization of averaging using a transversal filter (configuration using a shift register) instead of the cyclic type. Since both implementations have the same function, the method disclosed in Document 4 will be described here.
[0034]
The frequency-based estimated noise calculation unit 514 includes an update determination unit 521, a register length storage unit 5941, a switch 5044, a shift register 5045, an adder 5046, a minimum value selection unit 5047, a division unit 5048, and a counter 5049.
The switch 5044 is supplied with the frequency-specific degraded sound power spectrum from the separation unit 502 in FIG. When the switch 5044 closes the circuit, the frequency-specific degraded sound power spectrum is transmitted to the shift register 5045. The shift register 5045 shifts the stored value of the internal register to the adjacent register in accordance with the control signal supplied from the update determination unit 521. The shift register length is equal to a value stored in a register length storage unit 5941 described later. All register outputs of the shift register 5045 are supplied to the adder 5046. The adder 5046 adds all the supplied register outputs and transmits the addition result to the division unit 5048.
[0035]
On the other hand, the update determination unit 521 is supplied with a count value and a voice detection flag. The update determination unit 521 always sets “1” until the count value reaches a preset value, and after reaching the count value, sets “1” when the voice detection flag is “0” (silence). In other cases, “0” is output and transmitted as a control signal to the counter 5049, the switch 5044, and the shift register 5045. The switch 5044 closes the circuit when the control signal supplied from the update determination unit 521 is “1”, and opens when the control signal is “0”. The counter 5049 increases the count value when the control signal supplied from the update determination unit 521 is “1”, and does not change when the control signal is “0”. The shift register 5045 captures one sample of the signal sample supplied from the switch 5044 when the signal supplied from the update determination unit 521 is “1”, and simultaneously shifts the stored value of the internal register to the adjacent register.
[0036]
The minimum value selection unit 5047 is supplied with the output of the counter 5049 and the output of the register length storage unit 5941. The minimum value selection unit 5047 selects the smaller one of the supplied count value and register length and transmits it to the division unit 5048. The division unit 5048 divides the addition value of the degraded speech power spectrum by frequency supplied from the adder 5046 by the smaller value of the count value or the register length, and divides the quotient by the estimated noise power spectrum by frequency λ.nOutput as (k). Bn(k) Assuming that (n = 0, 1,..., N−1) is a sample value of the degraded voice power spectrum stored in the shift register 5045, λn(k) is given by equation (10).
[0037]
[Expression 10]
Figure 0003858668
[0038]
However, N is the smaller value of the count value and the register length. Since the count value starts monotonically and increases monotonically, division is first performed by the count value, and thereafter division is performed by the register length. On the other hand, the number of registers in which values are actually stored is equal to the count value when the count value is smaller than the register length, and equal to the register length when the count value is larger than the register length. Therefore, the added value of the frequency-specific degraded speech power spectrum supplied from the adder 5046 is divided by the number of registers that actually store the value. When the count value is larger than the register length, an average value of the values stored in the shift register 5045 is obtained. This calculation result becomes an estimated noise power spectrum for each frequency.
[0039]
FIG. 55 is a block diagram showing a configuration of update determination section 521 included in frequency-specific estimated noise calculation section 514 shown in FIG. The update determination unit 521 includes a logical negation circuit 5202, a comparison unit 5203, a threshold storage unit 5204, and a logical sum calculation unit 5211.
The count value supplied from the counter 13 in FIG. 48 is transmitted to the comparison unit 5203. The threshold value that is the output of the threshold value storage unit 5204 is also transmitted to the comparison unit 5203. The comparison unit 5203 compares the supplied count value with a threshold value, and transmits “1” to the logical sum calculation unit 5211 when the count value is smaller than the threshold value and “0” when the count value is larger than the threshold value. .
[0040]
On the other hand, the supplied voice detection flag is transmitted to the logic negation circuit 5202. The logical negation circuit 5202 obtains a logical negation value of the input signal and transmits the logical negation value to the logical sum calculation unit 5211. That is, “0” is transmitted to the logical part calculating unit 5211 in the sound part having the voice detection flag “1” and “1” in the silent part having the voice detection flag “0”.
As a result, the output of the logical sum calculation unit 5211 becomes “1” when the sound detection flag is a silent part whose value is “0”, or when the count value is smaller than the threshold value, and the switch 5044 in FIG. The counter 5049 is counted up.
[0041]
The frequency-specific SNR calculator 6 in FIG. 48 will be described. FIG. 56 is a block diagram showing the configuration of the frequency-specific SNR calculator 6. The frequency-specific SNR calculation unit 6 includes K division units 601.0 ~ 601K-1 , Separation units 602 and 603, and a multiplexing unit 604. The deteriorated sound power spectrum supplied from the multiple multiplier 17 in FIG. 48 is transmitted to the separator 602. The estimated noise power spectrum supplied from the estimated noise calculation unit 51 in FIG. 48 is transmitted to the separation unit 603. The degraded speech power spectrum is separated into K samples corresponding to the frequency components in the separation unit 602 and the estimated noise power spectrum is separated in the separation unit 603, respectively.0 ~ 601K-1 To be supplied. Division unit 6010 ~ 601K-1 Then, in accordance with equation (11), the supplied degraded speech power spectrum | Yn(k) |2Estimated noise power spectrum λnDivide by (k) and SNRγ by frequencyn(k) is obtained and transmitted to the multiplexing unit 604. The multiplexing unit 604 transmits the transmitted K frequency-specific SNRγ.n(k) is multiplexed and output as an acquired SNR.
[0042]
## EQU11 ##
Figure 0003858668
[0043]
The estimated innate SNR calculator 7 in FIG. 48 will be described. FIG. 57 is a block diagram showing a configuration of the estimated innate SNR calculation unit 7. The estimated innate SNR calculation unit 7 includes a multi-value range limitation processing unit 701, an acquired SNR storage unit 702, a suppression coefficient storage unit 703, multiple multiplication units 704 and 705, a weight storage unit 706, a multiple weighted addition unit 707, an adder 708.
Acquired SNRγ supplied from frequency-specific SNR calculator 6 in FIG.n(k) (k = 0, 1,..., K−1) is transmitted to one terminal of the adder 708 and the acquired SNR storage unit 702. The acquired SNR storage unit 702 stores the acquired SNRγ in the nth frame.n(k) and the acquired SNRγ in the (n−1) th frame.n-1(k) is transmitted to the multiple multiplier 705.
[0044]
Suppression coefficient G supplied from noise suppression coefficient generation unit 8 in FIG.n(k) The bars (k = 0, 1,..., K−1) are transmitted to the suppression coefficient storage unit 703. The suppression coefficient storage unit 703 stores the suppression coefficient G in the nth frame.n(k) The bar is stored and the suppression coefficient G in the (n-1) th frame.n-1(k) The bar is transmitted to the multiple multiplier 704. The multiple multiplier 704 receives the supplied Gn-1(k) Square the bar and G2 n-1(K) The bar is obtained and transmitted to the multiple multiplier 705. Multiplex multiplier 705 uses G2 n-1(K) Bar and γn-1(k) is multiplied by k = 0, 1,...2 n-1(K) Bar γn-1(k) is obtained, and the result is transmitted to the multiple weighted addition unit 707 as the past estimated SNR 922. The configuration of the multiple multipliers 704 and 705 is the same as that of the multiple multiplier unit 17 already described with reference to FIG.
[0045]
The other terminal of the adder 708 is supplied with -1, and the addition result γn(k) −1 is transmitted to the multi-value range limitation processing unit 701. The multi-value range limiting processing unit 701 adds the addition result γ supplied from the adder 708.n(k) -1 is subjected to an operation by a range limiting operator P [•], and the result P [γn(k) −1] is transmitted to the multiple weighted addition unit 707 as the instantaneous estimated SNR 921. However, P [x] is defined by Formula (12).
[0046]
[Expression 12]
Figure 0003858668
[0047]
A weight 923 is also supplied from the weight storage unit 706 to the multiple weighted addition unit 707. The multiple weighted addition unit 707 obtains an estimated innate SNR 924 using the supplied instantaneous estimated SNR 921, past estimated SNR 922, and weight 923. The weight 923 is α and ξn(k) If the hat is the estimated innate SNR, then ξn(k) The hat is calculated by equation (13). Here, the initial value (n = 0) of the first term on the right side is expressed as γ-1(K) G2 -1(k) Bar = 1.
[0048]
[Formula 13]
Figure 0003858668
[0049]
FIG. 58 is a block diagram showing a configuration of a multi-range limitation processing unit 701 included in the estimated innate SNR calculation unit 7 shown in FIG. The multi-value range limitation processing unit 701 includes a constant storage unit 7011 and K maximum value selection units 7012.0 ~ 7012K-1 A separating unit 7013 and a multiplexing unit 7014. In the separation unit 7013, the adder 708 in FIG.n(k) -1 is supplied. The separation unit 7013 is supplied with γn(k) -1 is separated into K frequency-specific components, and maximum value selection unit 7012 is provided for each.0 ~ 7012K-1 To one input. Maximum value selection unit 70120~ 7012K-1Zero is supplied from the constant storage unit 7011 to the other input. Maximum value selection unit 70120 ~ 7012K-1 Is γn(k) -1 is compared with zero, and the larger value is transmitted to the multiplexing unit 7014. This maximum value selection calculation corresponds to executing Expression (12). The multiplexing unit 7014 multiplexes these values and outputs them.
[0050]
FIG. 59 is a block diagram showing a configuration of a multi-weighted addition unit 707 included in the estimated innate SNR calculation unit 7 shown in FIG. The multiple weighted addition unit 707 includes K weighted addition units 7071.0 ~ 7071K-1 , Separating units 7072 and 7074 and a multiplexing unit 7075.
[0051]
The separation unit 7072 receives P [γ from the multi-value range limitation processing unit 701 in FIG.n(k) -1] is supplied as the instantaneous estimated SNR 921. The separation unit 7072 is configured to output P [γn(k) -1] is separated into K frequency components, and the frequency-specific instantaneous estimated SNR 9210 ~ 921K-1 As shown in FIG.0 ~ 7071K-1 To communicate. The separating unit 7074 includes G multiplier G 705 in FIG.2 n-1(K) Bar γn-1(k) is supplied as the past estimated SNR 922. Separator 7074 is G2 n-1(K) Bar γn-1(k) is separated into K frequency-specific components, and a past frequency-specific estimated SNR 922 is obtained.0 ~ 922K-1 As shown in FIG.0 ~ 7071K-1 To communicate. On the other hand, a weighted addition unit 70710 ~ 7071K-1 Is also supplied with a weight 923. Weighted adder 70710 ~ 7071K-1 Performs the weighted addition represented by equation (13) to estimate the frequency-specific estimated innate SNR 9240 ~ 924K-1 Is transmitted to the multiplexing unit 7075. Multiplexer 7075 performs frequency-specific estimated innate SNR 924.0 ~ 924K-1 Are multiplexed and output as an estimated innate SNR 924.
Weighted adder 70710 ~ 7071K-1 Since the configuration and operation of are the same as those of the weighted addition unit 407 already described with reference to FIG. 51, detailed description thereof will be omitted. However, the calculation of weighted addition is always performed.
[0052]
The noise suppression coefficient generation unit 8 in FIG. 48 will be described. FIG. 60 is a block diagram showing a configuration of the noise suppression coefficient generation unit 8. The noise suppression coefficient generation unit 8 includes K suppression coefficient search units 801.0 ~ 801K-1 , Separation units 802 and 803 and a multiplexing unit 804. The separation unit 802 is supplied with the acquired SNR from the frequency-specific SNR calculation unit 6 in FIG. The separation unit 802 separates the acquired acquired SNR into K frequency-specific components, and suppresses each of the suppression coefficient search units 801.0 ~ 801K-1 To communicate. The estimated innate SNR is supplied to the separating unit 803 from the estimated innate SNR calculator 7 in FIG. The separation unit 803 separates the supplied estimated innate SNR into K frequency-specific components, and suppresses each of the suppression coefficient search units 801.0 ~ 801K-1 To communicate. Suppression coefficient search unit 8010 ~ 801K-1 Searches for the suppression coefficient corresponding to the acquired acquired SNR and the estimated innate SNR, and transmits the search result to the multiplexing unit 804. The multiplexing unit 804 multiplexes the supplied suppression coefficient and outputs it.
[0053]
61 shows a suppression coefficient search unit 801 included in the noise suppression coefficient generation unit 8 shown in FIG.0 ~ 801K-1 It is a block diagram which shows the structure of these. The suppression coefficient search unit 801 includes a suppression coefficient table 8011 and address conversion units 8012 and 8013. The address conversion unit 8012 is supplied with the frequency-specific acquired SNR from the separation unit 802 in FIG. The address conversion unit 8012 converts the acquired frequency-specific acquired SNR into a corresponding address and transmits the converted address to the suppression coefficient table 8011. The address conversion unit 8013 is supplied with the frequency-specific estimated innate SNR from the separation unit 803 in FIG. The address conversion unit 8013 converts the supplied frequency-specific estimated innate SNR into a corresponding address and transmits the converted address to the suppression coefficient table 8011. The suppression coefficient table 8011 outputs the suppression coefficient stored in the area corresponding to the address supplied from the address conversion unit 8012 and the address conversion unit 8013 as a frequency-specific suppression coefficient. Here, a suppression coefficient derived by assuming background noise according to a specific statistical model is used.
[0054]
[Problems to be solved by the invention]
As described above, in the conventional noise removal apparatus and method, noise suppression is performed using the suppression coefficient derived assuming the background noise according to a specific statistical model, so noise that does not follow the statistical model is effectively removed. I couldn't. For this reason, sufficiently high quality of emphasized speech could not be achieved.
Further, in the conventional noise removal apparatus and method, the emphasized speech is obtained by superimposing and adding signal samples taken from two adjacent frames of the time domain signal obtained by inverse Fourier transform. On the other hand, the window function applied to the time domain signal before the Fourier transform is designed so that the input is reproduced in the output when noise suppression processing is not performed. For this reason, when a signal sample that is subject to overlay addition is suppressed with a different suppression coefficient value in an adjacent frame, a discontinuity occurs in the signal sample at the frame boundary, and the sound quality is reduced by noise generated in the output signal. Has deteriorated.
[0055]
As described above, the conventional noise removing apparatus and method have a problem that it is not possible to obtain enhanced speech with excellent sound quality.
The present invention has been made to solve such problems, and an object of the present invention is to provide a noise removal apparatus and method capable of obtaining enhanced speech with excellent sound quality.
[0056]
[Means for Solving the Problems]
In order to achieve such an object, the noise removal method of the present invention is characterized by generating pseudo noise based on an input signal and using a suppression coefficient obtained by injecting the pseudo noise. And By injecting the above-described pseudo noise when determining the suppression coefficient, it is possible to correct the suppression coefficient derived on the assumption of background noise according to a specific statistical model in accordance with the input signal.
[0060]
  More specificallyThe noise removal method of the present invention converts an input signal into a frequency domain signal, obtains a signal-to-noise ratio using the frequency domain signal, corrects the signal-to-noise ratio based on the frequency domain signal, and corrects the correction. Determine the suppression coefficient based on the signal-to-noise ratio, weight the frequency domain signal using this suppression coefficient, and transform the weighted frequency domain signal into a time domain signal to remove noise from the input signal The output signal is obtained.
[0061]
In this noise removal method, the signal-to-noise ratio may be selectively corrected according to the nature of the input signal. Thereby, for example, the signal-to-noise ratio can be corrected only when a signal including noise that does not follow the statistical model used for deriving the suppression coefficient is input, and the correction of the suppression coefficient can be selectively performed.
Here, the stationarity of the signal may be used as the property of the input signal. In other words, the signal-to-noise ratio may be corrected on the basis of how much the nature of the signal, for example, average power or spectrum shape changes with time.
As the stationarity of the signal, the number of zero crossings where the amplitude of the input signal becomes zero may be used, or the high frequency power of the frequency domain signal showing a correlation with the number of zero crossings may be used.
[0062]
Further, noise included in the frequency domain signal may be estimated based on the frequency domain signal obtained by converting the input signal, and the correction amount of the signal-to-noise ratio may be determined using the noise and the frequency domain signal.
Further, the noise included in the frequency domain signal is estimated based on the frequency domain signal obtained by converting the input signal, and an addition signal is obtained using the noise and the signal-to-noise ratio, and the sum of the addition signal and the frequency domain signal, The signal-to-noise ratio may be corrected by recalculating the signal-to-noise ratio using the sum of the added signal and noise.
Here, the frequency domain signal obtained by converting the input signal may be weighted, and noise may be estimated based on the weighted frequency domain signal.
[0063]
In the noise removal method described above, the suppression coefficient may be corrected based on the frequency domain signal, and the frequency domain signal may be weighted using the corrected suppression coefficient. As a result, it is possible to prevent deterioration in sound quality due to residual noise caused by insufficient suppression when the signal-to-noise ratio is low and sound distortion caused by excessive suppression when the signal-to-noise ratio is high.
In the noise removal method described above, a windowing process may be performed on the time domain signal obtained by converting the frequency domain signal.
[0074]
The noise removal apparatus of the present invention also includes a first windowing processing unit that performs windowing processing on an input signal and outputs the input signal, and an input signal that has been windowed by the first windowing processing unit. And a first signal-to-noise ratio calculation unit that obtains and outputs a first signal-to-noise ratio using the amplitude component of the frequency domain signal; An estimated noise calculator that estimates and outputs noise included in the frequency domain signal based on the amplitude component of the frequency domain signal, and corrects the first signal-to-noise ratio using the amplitude component of the noise and the frequency domain signal. , A signal-to-noise ratio correction unit that outputs as a correction signal-to-noise ratio, a suppression coefficient generation unit that determines and outputs a suppression coefficient based on the correction signal-to-noise ratio, and an amplitude component of the frequency domain signal using the suppression coefficient The first multiplication unit for weighting and outputting An inverse transform unit that converts the amplitude component of the frequency domain signal weighted by the first multiplication unit and the phase component of the frequency domain signal into a time domain signal and outputs the time domain signal; And at least two window processing units.
[0075]
Here, the signal-to-noise ratio correction unit calculates the number of zero crossings where the input signal is input and the amplitude of the input signal becomes zero, and outputs a control signal according to the calculation result. And a switch that selectively sets the correction signal-to-noise ratio to the same value as the first signal-to-noise ratio before correction by a control signal input from the unit.
The signal-to-noise ratio correction unit calculates a high-frequency power of the amplitude component of the frequency domain signal input from the conversion unit, and outputs a control signal according to the calculation result. The control signal may be configured to include a switch that selectively sets the correction signal-to-noise ratio to the same value as the first signal-to-noise ratio before correction.
[0076]
Further, the above-described noise removing device weights the amplitude component of the frequency domain signal, outputs the obtained weighted amplitude component to the estimated noise calculation unit, and outputs noise to the estimated noise calculation unit based on the weighted amplitude component. It may further comprise a weighted deteriorated speech calculation unit to be estimated.
Here, the weighted deteriorated speech calculation unit calculates a second signal-to-noise ratio using the amplitude component of the frequency domain signal, and outputs the second signal-to-noise ratio calculation unit. A non-linear processing unit that processes the second signal-to-noise ratio input from the noise ratio calculation unit with a non-linear function to obtain and output a weight, and an amplitude component of the frequency domain signal using the weight input from the non-linear processing unit And a second multiplication unit that outputs to the estimated noise calculation unit.
[0077]
Further, the noise removal apparatus described above corrects the suppression coefficient input from the suppression coefficient generation unit based on the frequency domain signal, outputs the correction coefficient to the first multiplication unit, and the corrected suppression coefficient to the first multiplication unit. It may further comprise a suppression coefficient correction unit that uses and weights the amplitude component of the frequency domain signal.
[0078]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
[0079]
  (FirstReference example)
  FIG. 1 shows a noise removing apparatus according to the present invention.First reference example related toIt is a block diagram which shows the whole structure. The noise removing device and the conventional noise removing device shown in FIG. 48 are the same except for the windowing processing unit 22, the injection noise calculating unit 55, and the adders 56 and 57. The same parts are denoted by the same reference numerals. Hereinafter, it demonstrates in detail focusing on the above-mentioned difference.
[0080]
The windowing processing unit 22 uses the time domain sample value series x supplied from the inverse Fourier transform unit 9.n(t) Bar is multiplied by the window function h (t), and the product h (t) xn(t) The bar is transmitted to the frame composition unit 10. The frame synthesizing unit 10 calculates h (t) xn(t) K / 2 samples are taken from two adjacent frames of the bar and superimposed, and the emphasized speech x is expressed by equation (14).n(t) A hat (t = 0, 1,..., K / 2-1) is obtained. Obtained enhanced speech xn(t) The hat is transmitted to the output terminal 12 as the output of the frame synthesis unit 10.
[0081]
[Expression 14]
Figure 0003858668
[0082]
When the overlap is not 50% but M samples and the frame length is L samples (M <L), the emphasized speech x is expressed by Equation (15).n(t) Obtain a hat. In accordance with this, the frame dividing unit is also corrected.
[0083]
[Expression 15]
Figure 0003858668
[0084]
As already mentioned, a symmetric window function is used for real signals. The window function is designed so that the input signal and the output signal when the suppression coefficient is set to 1 match except for calculation errors. Any window function that satisfies these conditions can be used as w (t) and h (t). As an example, a function (root Hanning window) obtained by opening a Hanning window can be cited. There are other window functions that satisfy these conditions, but details are omitted.
X composing two adjacent framesn-1(t) Bar and xn(t) Even if the bar is suppressed with a different suppression coefficient value in each frame, xn-1(t) Bar and xn(t) x at the frame boundary by multiplying each of the bars by the window function h (t) described above.n-1(t) Bar and xn(t) By reducing the amplitude of the bar, continuity at the frame boundary can be improved and noise generation can be reduced. Therefore, it is possible to suppress deterioration in sound quality due to noise and obtain enhanced sound with excellent sound quality.
[0085]
The injection noise calculation unit 55 calculates pseudo noise (first noise) to be injected using the degraded speech power spectrum and the estimated noise power spectrum supplied from the multiple multiplier unit 17 and the estimated noise calculation unit 51, respectively. And transmitted to the adders 56 and 57. The adder 56 adds the injection noise obtained by the injection noise calculation unit 55 to the estimated noise power spectrum supplied from the estimation noise calculation unit 51, and transmits the sum to the frequency-specific SNR calculation unit 6. The adder 57 adds the injection noise obtained by the injection noise calculation unit 55 to the deteriorated speech power spectrum supplied from the multiple multiplication unit 17 and transmits the sum to the frequency-specific SNR calculation unit 6.
[0086]
FIG. 2 is a block diagram illustrating a configuration of the injection noise calculation unit 55. The injection noise calculation unit 55 includes an SNR calculation unit 551, a threshold value calculation unit 552, and an injection level calculation unit 553. The degraded speech power spectrum supplied from the multiple multiplier 17 in FIG. 1 is transmitted to the SNR calculator 551. The estimated noise power spectrum supplied from the estimated noise calculator 51 in FIG. 1 is transmitted to the SNR calculator 551 and the threshold calculator 552. The SNR obtained by the SNR calculator 551 and the threshold obtained by the threshold calculator 552 are supplied to the injection level calculator 553. The injection level calculation unit 553 calculates a noise level to be injected according to the supplied SNR and threshold value, and outputs a signal corresponding to the level as injection noise.
[0087]
The noise to be injected is WnIf (k), Wn(k) is set to take a smaller value as the SNR is larger. Such SNR and WnAs a relation of (k), the SNR is the first threshold value TH.1The first value W when greater than1And the SNR is the second threshold value TH2(<TH1) Is less than the second value W2(> W1) And the SNR is the first threshold value TH1And the second threshold TH2When an intermediate value is taken, W corresponds to SNR.nA function that reduces (k) can be considered. In the simplest example, as shown in FIG. 3, the SNR is a first threshold value TH.1And the second threshold TH2When taking an intermediate value of the first value W1To the second value W2It is a function that changes linearly.
[0088]
First and second threshold values TH1, TH2Can be determined independently, but the second threshold TH2To the first threshold TH1It is possible to simplify the calculation by setting a constant multiple of. Similarly, W can be determined independentlynFirst and second values W of (k)1, W2Is also the second value W2Is the first value W1Can be set to a constant multiple of.
WnFirst and second values W of (k)1, W2Can be determined corresponding to the level of estimated noise. W when the estimated noise level is highnFirst and second values W of (k)1, W2Reduce the size and increase it when it is low. W like thisnFirst and second values W of (k)1, W2For the same SNR value, the smaller the estimated noise level, the smaller the Wn(k) can be set. In this case, it goes without saying that the estimated noise power spectrum is supplied to the injection level calculation unit 553.
[0089]
Furthermore, the threshold value TH1, TH2Can also be determined corresponding to the level of estimated noise. Threshold TH when the estimated noise level is high1, TH2Reduce the size and increase it when it is low. Thus, the threshold value TH1, TH2For the same SNR value, the smaller the estimated noise level, the smaller the Wn(k) can be set. W is higher when the estimated noise level is highernThe reason for reducing (k) is that when the estimated noise level is high, the conventional suppression coefficient is almost appropriate, and the correction amount of the suppression coefficient by noise injection is small. As a result, when the original suppression amount is small and residual noise is easily perceived, a component having a medium amplitude can be relatively largely suppressed, and improvement in subjective sound quality can be achieved.
[0090]
In the above description, the noise to be injected is Wn(k), and an example in which different noise is injected for each frequency component has been described. Actually, the degraded speech power spectrum and the estimated noise power spectrum supplied to the injection noise calculation unit 55 are multiplexed with values corresponding to all frequency components. Therefore, the SNR obtained by the SNR calculator 551 and the number of thresholds obtained by the threshold calculator 552 correspond to the number of frequency components. However, these SNRs and threshold values may be set in common for all frequency components.
[0091]
As an example, the deteriorated speech power spectrum and the estimated noise power spectrum are added to all frequency components to obtain a sum, the ratio thereof is set as a common SNR, and a threshold value is obtained using the average value of the estimated noise power spectrum. Can be requested. In that case, the SNR calculation unit 551 and the threshold value calculation unit 552 separate the values corresponding to each frequency component and then calculate the SNR and the threshold value using the individual values, instead of calculating the SNR and the threshold value. The value is used to calculate a common SNR and threshold for all frequency components. These values are transmitted to the frequency-specific SNR calculator 6.
[0092]
In the frequency-specific SNR calculation unit 6, instead of the equation (11), the frequency-specific SNRγ is obtained by the equation (16).n(k) is calculated.
[0093]
[Expression 16]
Figure 0003858668
[0094]
Referring to Equation (16), in the region where SNR> 0, | Yn(k) |2 > Λn(k), so SNRγ at the time of noise injectionn(k) is corrected to be smaller than the original value. On the other hand, referring to Document 1, as shown in FIG. 4, the characteristic of the suppression coefficient with respect to the SNR gradually increases corresponding to the SNR, then rapidly increases at a certain SNR value, and again reaches saturation from the gradual increase. For this reason, γnWhen the value of (k) is decreased, the suppression coefficient reduction effect is relatively increased with respect to the SNR in the vicinity where the suppression coefficient value changes suddenly. Therefore, a frequency component corresponding to such SNR, specifically, a component having a medium amplitude is relatively largely suppressed. For this reason, a part of the background noise that is smaller in amplitude than the speech but cannot be ignored is more strongly suppressed, and is less likely to be perceived as noise in the enhanced speech. Therefore, it is possible to obtain enhanced speech with sufficiently high quality against actual background noise.
[0095]
  (No.1Embodiment)
  FIG. 5 shows a first embodiment of the noise removing apparatus of the present invention.1It is a block diagram which shows the whole structure of this embodiment. This noise eliminator includes an SNR correction unit 65 instead of the injection noise calculation unit 55 and the adders 56 and 57 included in the noise eliminator shown in FIG. Hereinafter, these differences will be mainly described.
[0096]
The SNR correction unit 65 is supplied with the degraded speech power spectrum, the estimated noise power spectrum, and the acquired SNR from the multiple multiplier unit 17, the estimated noise calculation unit 51, and the frequency-specific SNR calculation unit 6, respectively. From the SNR correction unit 65, the corrected natural SNR is supplied to the estimated innate SNR calculation unit 7 and the noise suppression coefficient generation unit 8.
That is, in the noise removal apparatus shown in FIG. 1, the acquired SNR is calculated using the degraded speech power spectrum injected with noise and the estimated noise power spectrum injected with noise, whereas FIG. The noise removal apparatus corrects the calculated acquired SNR using the injection noise calculated using the deteriorated voice power spectrum and the estimated noise power spectrum.
[0097]
The SNR correction unit 65 in FIG. 5 will be further described.
FIG. 6 is a block diagram illustrating a configuration example of the SNR correction unit 65. The SNR correction unit 65 includes K correction SNR calculation units 654.0 ~ 654K-1 , Separation units 651, 652, and 653, and a multiplexing unit 655.
The separation unit 651 is supplied with the acquired SNR from the frequency-specific SNR calculation unit 6 in FIG. The separation unit 651 separates the supplied acquired SNR into K frequency-specific components, and each of the corrected SNR calculation units 6540 ~ 654K-1 To communicate. The demultiplexing unit 652 is supplied with the deteriorated voice power spectrum from the multiple multiplication unit 17 in FIG. The separation unit 652 separates the supplied deteriorated voice power spectrum into K frequency-specific components, and the corrected SNR calculation unit 654 respectively.0 ~ 654K-1 To communicate. The estimation noise power spectrum is supplied to the separation unit 653 from the estimation noise calculation unit 51 in FIG. The separation unit 653 separates the supplied estimated noise power spectrum into K frequency-specific components, and each of the corrected SNR calculation units 6540 ~ 654K-1 To communicate. Correction SNR calculation unit 6540 ~ 654K-1 Adds a correction corresponding to the supplied degraded speech power spectrum and estimated noise power spectrum to the acquired SNR, and transmits the corrected acquired SNR to the multiplexing unit 655. The multiplexing unit 655 multiplexes the supplied corrected SNR and outputs it.
[0098]
FIG. 7 shows a corrected SNR calculation unit 654 included in the SNR correction unit 65 shown in FIG.0 ~ 654K-1 It is a block diagram which shows the structure of these. The corrected SNR calculation unit 654 includes a threshold calculation unit 6541, an injection noise calculation unit 6542, adders 6543 and 6544, and a division unit 6545.
[0099]
The estimated noise power spectrum is supplied to the threshold calculation unit 6541 from the separation unit 653 in FIG. 6, and the threshold value is calculated by the same operation as the threshold calculation unit 552 in FIG. Part 6542. The injection noise calculation unit 6542 is also supplied with the acquired SNR from the separation unit 651 in FIG. 6, and pseudo noise (first noise, to be injected) by the same operation as the injection level calculation unit 553 in FIG. 2. Sum signal) is calculated and transmitted to adders 6543 and 6544. The adder 6543 is also supplied with the estimated noise power spectrum from the separation unit 653 in FIG. 6, and transmits the addition result with the noise supplied from the injection noise calculation unit 6542 to the division unit 6545. The adder 6544 is also supplied with the deteriorated voice power spectrum from the separation unit 652 in FIG. 6, and transmits the addition result with the noise supplied from the injection noise calculation unit 6542 to the division unit 6545. The division unit 6545 outputs the quotient obtained from the output of the adder 6543 and the output of the adder 6544 as the corrected SNR.
[0100]
FIG. 8 is a block diagram illustrating another configuration example of the SNR correction unit 65. In this configuration example, the SNR and the threshold value are set in common for all frequency components. Therefore, compared with the configuration example shown in FIG. 6, average value calculation units 661 and 663 and injection noise calculation unit 662 are newly provided, and corrected SNR calculation unit 6540 ~ 654K-1 The corrected SNR calculation unit 664 is replaced with0 ~ 664K-1 have.
[0101]
The average value calculation unit 661 obtains the acquired SNRγ supplied from the separation unit 651.nThe average of k in (k) is obtained and transmitted to the injection noise calculation unit 662. Therefore, the value transmitted to the injection noise calculation unit 662 is one. On the other hand, the average value calculation unit 663 includes the estimated noise power spectrum λ supplied from the separation unit 653.nThe average of (k) relating to k is obtained and transmitted to the threshold value calculation unit 6541. Threshold calculation unit 6541 obtains the threshold value by the operation already described, and transmits it to injection noise calculation unit 662. The injection noise calculation unit 662 calculates pseudo noise (first noise, addition signal) to be injected in the same procedure as the injection noise calculation unit 6542 in FIG. 7, and the corrected SNR calculation unit 664.0 ~ 664K-1 To communicate. Unlike the configuration example shown in FIG. 6, the corrected SNR calculator 6640 ~ 664K-1 The injection noise transmitted to is all the same value.
[0102]
FIG. 9 shows a corrected SNR calculation unit 664 included in the SNR correction unit 66 shown in FIG.0 ~ 664K-1 It is a block diagram which shows the structure of these. The corrected SNR calculation unit 664 adds the injection noise supplied from the injection noise calculation unit 662 to the estimated noise power spectrum and the deteriorated speech power spectrum, obtains the quotient of both, and outputs it as a corrected natural SNR. More specifically, it is as follows.
That is, the injection noise calculated by the injection noise calculation unit 662 is transmitted to the adders 6543 and 6544. The adder 6543 is also supplied with the estimated noise power spectrum from the separation unit 653 in FIG. 8, and transmits the addition result with the noise supplied from the injection noise calculation unit 662 to the division unit 6545. The adder 6544 is also supplied with the deteriorated speech power spectrum from the separation unit 652 in FIG. 8, and transmits the addition result with the noise supplied from the injection noise calculation unit 6542 to the division unit 6545. The division unit 6545 outputs the quotient obtained from the output of the adder 6543 and the output of the adder 6544 as the corrected SNR.
[0103]
In the configuration example shown in FIGS. 8 and 9, the corrected SNR calculation unit 664.0 ~ 664K-1 By using the injection noise calculation unit 662 and the threshold value calculation unit 6541 in common, the corrected SNR calculation unit 6640 ~ 664K-1 Since it is not necessary to provide an injection noise calculation unit and a threshold value calculation unit for all of the above, the configuration can be simplified.
[0104]
As described above, the acquired SNR is corrected by the SNR correctors 65 and 66, and the suppression coefficient is determined using the corrected acquired SNR obtained as a result. Therefore, it is possible to obtain emphasized speech having a sufficiently high quality with respect to actual background noise.
[0105]
  (Second reference example)
  FIG. 10 shows a noise removing apparatus according to the present invention.Second reference example related toIt is a block diagram which shows the whole structure. This noise eliminator has a configuration in which the injection noise calculator 55 is replaced with an injection noise calculator 58 in the noise eliminator shown in FIG. Hereinafter, this difference will be mainly described.
  In the noise removing apparatus shown in FIG. 10, noise injection is selectively applied according to the nature of the input signal. For this reason, in order to evaluate the nature of the input signal, the degraded speech signal in the time domain, which is the output of the frame dividing unit 1, is supplied to the injection noise calculating unit 58.
[0106]
FIG. 11 is a block diagram showing a configuration of injection noise calculation unit 58 in FIG. The injection noise calculation unit 55 shown in FIG. 2 is different from the injection noise calculation unit 55 in that a zero crossing calculation unit 581 and a switch 582 are further provided.
The time domain degraded speech signal, which is the output of the frame division unit 1, is supplied to the zero crossing calculation unit 581. The zero crossover calculation unit 581 is supplied with the SNR from the SNR calculation unit 551 and the threshold value from the threshold value calculation unit 552, respectively. The zero crossing calculation unit 581 counts zero crossings where the amplitude of the supplied deteriorated speech signal becomes zero. At the same time, from the SNR and the threshold value, the SNR becomes the second threshold value TH.2Evaluate whether it is less. SNR is the second threshold TH2Only when it is smaller, the number of zero crossings is averaged over the past several frames. That is, the average value is obtained only when it is determined that the deteriorated voice is silent. The average value thus obtained is compared with the third threshold value, and “1” is transmitted to the switch 582 as a control signal when the average value is larger and “0” otherwise. To do. The third threshold value can be determined in advance or can be changed during the operation.
[0107]
Injection noise is supplied to the switch 582 from the injection level calculation unit 553 together with zero. The switch 582 selects the injection noise supplied from the injection level calculation unit 553 when “1” is supplied as a control signal from the zero crossing calculation unit 581, and selects “0” when “0” is supplied. Output as noise. Therefore, injection noise from the injection level calculation unit 553 is supplied to the adders 56 and 57 in FIG. 10 only when the average value of the number of zero crossings is larger than the third threshold value.
Since it is known that the number of zero crossings increases as a non-stationary signal increases, noise injection can be executed only for a signal with a non-stationarity of a certain level or more to correct the suppression coefficient.
[0108]
  (Third reference example)
  FIG. 12 shows a noise removing apparatus according to the present invention.Third reference example related toIt is a block diagram which shows the whole structure. This noise eliminator has a configuration in which the injection noise calculator 58 is replaced with an injection noise calculator 59 in the noise eliminator shown in FIG. Hereinafter, this difference will be mainly described.
[0109]
The noise removing apparatus shown in FIG. 12 is the same as the noise removing apparatus shown in FIG. 10 in that noise injection is selectively applied according to the nature of the input signal. However, the degraded speech signal in the time domain, which is the output of the frame division unit 1, is not supplied to the injection noise calculation unit 59. This is because, unlike the noise removal apparatus shown in FIG. 10, the time domain degraded speech signal is not used to evaluate the nature of the input signal. Instead, a degraded voice power spectrum is used. In the noise removal apparatus shown in FIG. 10, the number of zero crossings per frame is used to evaluate the unsteadiness of the signal. However, there is a correlation between the number of zero crossings and the power spectrum in the high frequency region (high region). Since it is known, a degraded speech power spectrum can be used instead of the number of zero crossings.
[0110]
FIG. 13 is a block diagram showing the configuration of the injection noise calculation unit 59 in FIG. The difference from the injection noise calculation unit 58 shown in FIG. 11 is that the zero crossing calculation unit 581 is replaced with a high frequency power calculation unit 591.
The high frequency power calculation unit 591 is supplied with the deteriorated voice power spectrum together with the SNR calculation unit 551. The high frequency power calculator 591 calculates the degraded voice power spectrum | Yn(k) |2 K is the reference value kTHTake the sum of the larger ones. Reference value kTHIs set according to the degraded speech signal and other conditions so that high frequency power corresponding to the number of zero crossings of the degraded speech signal described above can be obtained by taking the sum. As a result, high frequency power corresponding to the number of zero crossings is obtained, and the result of comparing this high frequency power with the fourth threshold value is the same as the injection noise calculation unit 58 shown in FIG. The switch 582 can be controlled. That is, the injection noise and 0 supplied from the injection level calculation unit 553 are selected according to the value of the high frequency power and output as injection noise.
[0111]
Deteriorated voice power spectrum | Yn(k) |2 K is the reference value kTHThe higher power may be obtained by weighting the larger ones and taking the sum. Further, the fourth threshold value can be determined in advance or can be changed during the operation.
[0112]
  (No.2Embodiment)
  FIG. 14 shows a first embodiment of the noise removing apparatus of the present invention.2It is a block diagram which shows the whole structure of this embodiment. This noise removal apparatus has a configuration in which the SNR correction unit 65 is replaced with an SNR correction unit 67 in the noise removal apparatus shown in FIG. Hereinafter, this difference will be mainly described.
  In the noise removal apparatus shown in FIG. 14, similarly to the noise removal apparatus shown in FIG. 10, noise injection is selectively applied according to the nature of the input signal. For this reason, in order to evaluate the nature of the input signal, the degraded speech signal in the time domain that is the output of the frame dividing unit 1 is supplied to the SNR correction unit 67.
[0113]
FIG. 15 is a block diagram illustrating a configuration example of the SNR correction unit 67 in FIG. 8 differs from the configuration example of the SNR correction unit 65 shown in FIG. 8 in that the injection noise calculation unit 662 is replaced with an injection noise calculation unit 672. Unlike the injection noise calculation unit 662, the injection noise calculation unit 672 is supplied with a deteriorated speech signal in the time domain, which is the output of the frame division unit 1, in order to evaluate the nature of the input signal.
[0114]
FIG. 16 is a block diagram illustrating a configuration example of the injection noise calculation unit 672. Injection noise calculation unit 672 includes injection level calculation unit 6721, switch 6722, and determination unit 6723. Injection level calculation unit 6721 and determination unit 6723 are supplied with an acquired SNR from average value calculation unit 661 in FIG. 15 and a threshold value from threshold value calculation unit 6541 in FIG. The determination unit 6723 is further supplied with a degraded audio signal. The injection level calculation unit 6721 obtains the injection level by the same operation as the injection level calculation unit 553 in FIG. The determination unit 6723 receives the deteriorated voice signal, the acquired SNR, and the threshold value, and generates a control signal for the switch 6722 according to the nature of the input signal.
[0115]
Here, the determination unit 6723 further includes a silent section detection unit 67231, a zero crossing calculation unit 67232, and a comparison unit 67233. The silent section detector 67231 receives the acquired SNR and the threshold value, and the SNR is the second threshold value TH.2When the value is smaller, “1” is transmitted to the zero crossing calculation unit 67232, and “0” is transmitted to the other. That is, “1” is transmitted to the zero-crossing calculation unit 67232 when it is determined that the deteriorated speech is silent, and “0” is transmitted otherwise.
The zero crossing calculation unit 67232 counts zero crossings in which the amplitude of the supplied deteriorated speech signal becomes zero, and the number of zero crossings is obtained only in the past several frames only when “1” is received from the silent section detection unit 67231. Averaging across. The average value obtained in this way is transmitted to the comparison unit 67233.
The comparison unit 67233 compares the supplied zero-crossing average value with the third threshold value, and controls “1” when the average value is larger, and “0” otherwise. The signal is transmitted to the switch 6722 as a signal.
[0116]
The switch 6722 selects the injection noise supplied from the injection level calculation unit 6721 when “1” is supplied from the comparison unit 67233 of the determination unit 6723, and selects “0” when “0” is supplied. Output as. That is, the operation of the switch 6722 is equivalent to the operation of the switch 582 in FIG.
[0117]
  (No.3Embodiment)
  FIG. 17 shows a first embodiment of the noise removing device of the present invention.3It is a block diagram which shows the whole structure of this embodiment. This noise eliminator has a configuration in which the SNR corrector 67 is replaced with an SNR corrector 68 in the noise eliminator shown in FIG. Hereinafter, this difference will be mainly described.
[0118]
  In the noise removal apparatus shown in FIG. 17, noise injection is selectively applied according to the nature of the input signal. At that time, unlike the noise removal apparatus shown in FIG. 14, the quality of the input signal is evaluated using the degraded speech power spectrum instead of the degraded speech signal in the time domain. In other words, the non-stationarity of the signal was evaluated by the number of zero crossings per frame.2Unlike the first embodiment, signal non-stationarity is evaluated using a degraded sound power spectrum in a high frequency region (high region). For this reason, the degraded speech signal in the time domain that is the output of the frame dividing unit 1 is not supplied to the SNR correction unit 68.
  FIG. 18 is a block diagram illustrating a configuration example of the SNR correction unit 68 in FIG. The difference from the SNR correction unit 67 shown in FIG. 15 is that the injection noise calculation unit 672 is replaced with an injection noise calculation unit 682.
[0119]
FIG. 19 is a block diagram illustrating a configuration example of the injection noise calculation unit 682. A difference from the injection noise calculation unit 672 shown in FIG. 16 is that the zero crossing calculation unit 67232 is replaced with a high frequency power calculation unit 68232. The high frequency power calculation unit 68232 is supplied with the degraded speech power spectrum together with the output signal of the silent section calculation unit 67231. The high frequency power calculator 68232 performs the same operation as the high frequency power calculator 591 in FIG.n(k) |2 K is the reference value kTHThe sum of the larger ones is taken to obtain the high frequency power. The high frequency power is transmitted to the comparison unit 67233. The comparison unit 67233 generates a control signal for the switch 6722 using the result of comparing the high frequency power with the fourth threshold value. That is, the injection noise and 0 supplied from the injection level calculation unit 6721 are selected according to the value of the high frequency power, and output as injection noise.
[0120]
  (Fourth reference example)
  FIG. 20 shows a noise removing apparatus according to the present invention.4th reference example related toIt is a block diagram which shows the whole structure. The noise removal apparatus and the noise removal apparatus shown in FIG. 1 are the same except for the estimated noise calculation unit 5, the weighted deteriorated speech calculation unit 14, and the suppression coefficient correction unit 15. The configuration of the noise removing apparatus shown in FIG. 20 is “April 2000, IEICE technical report, DSP, pages 53-60” except for the windowing processing unit 22 and the injection noise calculating unit 58 (reference 5). ). Unlike the conventional method disclosed in Document 1, the method disclosed in Document 5 can obtain accurate estimated noise by estimating the power spectrum of noise using a weighted degraded speech spectrum. . Hereinafter, these differences will be mainly described.
[0121]
First, the weighted deteriorated speech calculation unit 14 in FIG. 20 will be described. FIG. 21 is a block diagram illustrating a configuration of the weighted deteriorated speech calculation unit 14. The weighted degraded speech calculation unit 14 includes an estimated noise storage unit 1401, a frequency-specific SNR calculation unit 1402, a multiple nonlinear processing unit 1405, and a multiple multiplication unit 1404. The estimated noise storage unit 1401 stores the estimated noise power spectrum supplied from the estimated noise calculation unit 5 in FIG. 20, and outputs the estimated noise power spectrum stored one frame before to the SNR calculation unit 1402 for each frequency. The frequency-specific SNR calculation unit 1402 obtains the SNR for each frequency using the estimated noise power spectrum supplied from the estimated noise storage unit 1401 and the degraded speech power spectrum supplied from the multiple multiplier unit 17 in FIG. The result is output to the multiple nonlinear processing unit 1405. The multiple nonlinear processing unit 1405 calculates a weight coefficient vector using the SNR supplied from the frequency-specific SNR calculation section 1402, and outputs the weight coefficient vector to the multiple multiplication section 1404. Multiplex multiplier 1404 calculates the product of the degraded speech power spectrum supplied from multiple multiplier 17 in FIG. 20 and the weight coefficient vector supplied from multiple nonlinear processor 1405 for each frequency, and weighted degraded speech power spectrum. Is output to the estimated noise calculator 5 in FIG.
[0122]
The configuration of the frequency-specific SNR calculation unit 1402 is the same as that of the frequency-specific SNR calculation unit 6 already described with reference to FIG. The configuration of the multiple multiplier 1404 is the same as that of the multiple multiplier 17 already described with reference to FIG. Therefore, the configuration and operation of the multiple nonlinear processing unit 1405 in FIG. 21 will be described in detail next.
[0123]
FIG. 22 is a block diagram illustrating a configuration of the multiple nonlinear processing unit 1405 included in the weighted deteriorated speech calculation unit 14. The multiple nonlinear processing unit 1405 includes a separating unit 1495 and K nonlinear processing units 1485.0 ~ 1485K-1 And a multiplexing unit 1475.
Separation section 1495 separates the SNR supplied from frequency-specific SNR calculation section 1402 in FIG.0 ~ 1485K-1 Output to.
Nonlinear processing unit 14850 ~ 1485K-1 Each have a non-linear function that outputs a real value corresponding to the input value. FIG. 23 shows an example of a nonlinear function. f1 Is an input value, the output value f of the nonlinear function shown in FIG.2 Is given by equation (17).
[0124]
[Expression 17]
Figure 0003858668
[0125]
Nonlinear processing unit 14850 ~ 1485K-1 Processes the frequency-specific SNR supplied from the separation unit 1495 by the above-described nonlinear function to obtain a weighting coefficient, and outputs the weighting factor to the multiplexing unit 1475. That is, the nonlinear processing unit 14850 ~ 1485K-1 Outputs a weighting factor from 1 to 0 according to the SNR. 1 is output when the SNR is small, and 0 is output when the SNR is large.
The multiplexing unit 1475 is a non-linear processing unit 1485.0 ~ 1485K-1 Are multiplexed, and the resulting weighting coefficient vector is output to the multiplex multiplier 1404 in FIG.
[0126]
As described above, the weighting coefficient multiplied by the degraded speech power spectrum in the multiplex multiplier 1404 in FIG. 21 has a value corresponding to the SNR, and the greater the SNR, that is, the greater the speech component included in the degraded speech. The value of the weighting factor becomes small. In general, a degraded speech power spectrum is used to update the estimated noise. However, a speech component included in the degraded speech power spectrum can be obtained by weighting the degraded speech power spectrum used to update the estimated noise according to the SNR. Can be reduced, and more accurate noise estimation can be performed.
In addition, although the example which used the nonlinear function for the calculation of a weighting coefficient was shown, it is also possible to use the function of SNR represented by other forms, such as a linear function and a high-order polynomial, besides a nonlinear function.
[0127]
Next, the estimated noise calculation unit 5 in FIG. 20 will be described. FIG. 24 is a block diagram illustrating a configuration of the estimated noise calculation unit 5. The estimated noise calculation unit 5 and the estimated noise calculation unit 51 shown in FIG. 53 are different from each other in that the separation unit 505 is present and the frequency-specific estimated noise calculation unit 514.0 ~ 514K-1 Is a frequency-based estimated noise calculation unit 504.0 ~ 504K-1 Is the same except that Hereinafter, these differences will be mainly described.
[0128]
Separating section 505 separates the weighted deteriorated sound power spectrum supplied from weighted deteriorated sound calculation section 14 in FIG. 20 into weighted deteriorated sound power spectrum for each frequency, and each frequency-based estimated noise calculation section 504.0 ~ 504K-1 Output to. Estimated noise calculation unit for each frequency 5040 ~ 504K-1 Are the frequency-specific deteriorated sound power spectrum supplied from the separation unit 502, the frequency-dependent weighted deteriorated sound power spectrum supplied from the separation unit 505, the sound detection flag supplied from the sound detection unit 4 in FIG. 20, and FIG. The frequency-specific estimated noise power spectrum is calculated from the count value supplied from the counter 13 and output to the multiplexing unit 503. The multiplexing unit 503 includes a frequency-specific estimated noise calculation unit 504.0 ~ 504K-1 The estimated noise power spectrum for each frequency supplied from the above is multiplexed, and the resulting estimated noise power spectrum is output to the adder 56, injection noise calculator 58, and weighted deteriorated voice calculator 14 in FIG. Estimated noise calculation unit for each frequency 5040 ~ 504K-1 A detailed description of the configuration and operation will be given with reference to FIGS.
[0129]
FIG. 25 shows the frequency-specific estimated noise calculation unit 504 included in the estimated noise calculation unit 5 shown in FIG.0 ~ 504K-1 It is a block diagram which shows the 1st example of a structure. The difference from the frequency-specific estimated noise calculation unit 514 shown in FIG.0 ~ 504K-1 Has the estimated noise storage unit 5942, the update determination unit 521 is replaced with the update determination unit 520, and the input to the switch 5044 is replaced from the frequency-specific deteriorated sound power spectrum to the frequency-dependent weighted deteriorated sound power spectrum. It has been done. Estimated noise calculation unit for each frequency 5040 ~ 504K-1 Uses the weighted degraded speech power spectrum instead of the degraded speech power spectrum to calculate the estimated noise, and uses the estimated noise and degraded speech power spectrum to determine the update of the estimated noise. Will occur.
The estimated noise storage unit 5942 stores the estimated noise power spectrum for each frequency supplied from the dividing unit 5048, and outputs the estimated noise power spectrum for each frequency stored one frame before to the update determining unit 520. Detailed configuration and operation of the update determination unit 520 will be described with reference to FIG.
[0130]
26 shows the frequency-specific estimated noise calculator 504 shown in FIG.0 ~ 504K-1 It is a block diagram which shows the structure of the update determination part 520 included in FIG. 55 is different from the update determination unit 521 shown in FIG. 55 in that the logical sum calculation unit 5211 is replaced with the logical sum calculation unit 5201, and the update determination unit 520 includes the comparison unit 5205, the threshold value storage unit 5206, and the threshold value calculation. A portion 5207. Hereinafter, detailed operations will be described focusing on these differences.
The threshold calculation unit 5207 calculates a value corresponding to the estimated noise power spectrum for each frequency supplied from the estimated noise storage unit 5942 in FIG. 25, and outputs the value to the threshold storage unit 5206 as a threshold value. The simplest threshold calculation method is a constant multiple of the estimated noise power spectrum for each frequency. In addition, it is possible to calculate the threshold value using a high-order polynomial or a nonlinear function.
[0131]
The threshold storage unit 5206 stores the threshold output from the threshold calculation unit 5207 and outputs the threshold stored one frame before to the comparison unit 5205.
The comparison unit 5205 compares the threshold value supplied from the threshold value storage unit 5206 with the frequency-specific deteriorated sound power spectrum supplied from the separation unit 502 in FIG. 24, and “1” if the frequency-specific deteriorated sound power spectrum is smaller than the threshold value. Is larger, “0” is output to the logical sum calculation unit 5201. That is, it is determined whether or not the degraded speech signal is noise based on the magnitude of the estimated noise power spectrum.
The logical sum calculation unit 5201 calculates the logical sum of the output value of the comparison unit 5203, the output value of the logical negation circuit 5202, and the output value of the comparison unit 5205, and the calculation result is the switch 5044, the shift register 5045, and the counter in FIG. Output to 5049.
[0132]
Therefore, the update determination unit 520 outputs “1” when the deteriorated voice power is small not only in the initial state and the silent period but also in the voiced period. That is, the estimated noise is updated. Since the threshold is calculated for each frequency, the estimated noise can be updated for each frequency.
[0133]
In FIG. 25, CNT is the count value of the counter 5049, and N is the register length of the shift register 5045. And Bn(k) Let (n = 0, 1,..., N−1) be the weighted degraded speech power spectrum by frequency stored in the shift register 5045. At this time, the frequency-specific estimated noise power spectrum λ output from the divider 5048n(k) is given by equation (18).
[0134]
[Formula 18]
Figure 0003858668
[0135]
That is, λn(k) is an average value of the frequency-dependent weighted degraded sound power spectrum stored in the shift register 5045. The average value can also be calculated using a weighted addition unit (cyclic filter). Next, referring to FIG.nA configuration example using a weighted addition unit for the calculation of (k) will be described.
[0136]
FIG. 27 shows the frequency-specific estimated noise calculator 504 included in the estimated noise calculator 5 shown in FIG.0 ~ 504K-1 It is a block diagram which shows the 2nd structural example. Instead of the shift register 5045, the adder 5046, the minimum value selection unit 5047, the division unit 5048, the counter 5049, the register length storage unit 5941, and the minimum value selection unit 5047 in the estimated noise calculation unit 504 shown in FIG. Another estimated noise calculation unit 507 includes a weighted addition unit 5071 and a weight storage unit 5072.
[0137]
The weighted addition unit 5071 outputs the estimated noise power spectrum for each frequency supplied from the estimated noise storage unit 5942 and the weighted degraded speech power spectrum for each frequency supplied from the switch 5044 and the weight storage unit 5072. The frequency-specific estimated noise is calculated using the weights, and is output to the multiplexing unit 503 in FIG. That is, the weight stored in the weight storage unit 5072 is δ, and the weighted degraded speech power spectrum by frequency is | Yn(k) |2 Bar, the estimated noise power spectrum for each frequency λ output from the weighted adder 5071n(k) is given by equation (19).
[0138]
[Equation 19]
Figure 0003858668
[0139]
Since the configuration of the weighted addition unit 5071 is the same as the weighted addition unit 407 already described with reference to FIG. 51, detailed description thereof is omitted. However, the calculation of weighted addition is always performed.
[0140]
Next, the suppression coefficient correction unit 15 in FIG. 20 will be described. FIG. 28 is a block diagram showing a configuration of the suppression coefficient correction unit 15 in FIG. In order to prevent residual noise generated due to insufficient suppression when the SNR is low and sound quality deterioration due to speech distortion generated due to excessive suppression when the SNR is high, the suppression coefficient correction unit 15 corrects the suppression coefficient according to the SNR. To do. As an example of correction, when the SNR is low, a correction value can be added to the suppression coefficient to suppress residual noise, and when the SNR is high, a lower limit value can be set for the suppression coefficient to prevent speech distortion. The suppression coefficient correction unit 15 includes K frequency-specific suppression coefficient correction units 1501.0 ~ 1501K-1 , Separation units 1502 and 1503 and a multiplexing unit 1504.
[0141]
Separation section 1502 separates the estimated innate SNR supplied from estimated innate SNR calculation section 7 in FIG. 20 into frequency-specific components, and each frequency-specific suppression coefficient correction section 1501.0 ~ 1501K-1 Output to. Separation section 1503 separates the suppression coefficient supplied from suppression coefficient generation section 8 in FIG. 20 into frequency-specific components, and each frequency-specific suppression coefficient correction section 1501.0 ~ 1501K-1 Output to. Frequency-specific suppression coefficient correction unit 15010 ~ 1501K-1 Calculates a frequency-specific corrected suppression coefficient from the frequency-specific estimated innate SNR supplied from the demultiplexing unit 1502 and the frequency-specific suppression coefficient supplied from the demultiplexing unit 1503, and outputs them to the multiplexing unit 1504. The multiplexing unit 1504 includes a frequency-specific suppression coefficient correction unit 1501.0 ~ 1501K-1 The frequency-dependent corrected suppression coefficients supplied from the above are multiplexed and output to the multiple multiplier 16 and the estimated innate SNR calculator 7 in FIG. 20 as corrected suppression coefficients.
[0142]
FIG. 29 shows a frequency-specific suppression coefficient correction unit 1501 included in the suppression coefficient correction unit 15 shown in FIG.0 ~ 1501K-1 It is a block diagram which shows the structure of these. The frequency-specific suppression coefficient correction unit 1501 includes a maximum value selection unit 1591, a suppression coefficient lower limit value storage unit 1592, a threshold storage unit 1593, a comparison unit 1594, a switch 1595, a modified value storage unit 1596, and a multiplier 1597.
The comparison unit 1594 compares the threshold supplied from the threshold storage unit 1593 with the frequency-specific estimated innate SNR supplied from the separation unit 1502 in FIG. 28. If the frequency-specific estimated innate SNR is larger than the threshold, “0” is output. "Is supplied to the switch 1595 if it is smaller.
[0143]
The switch 1595 outputs the frequency-specific suppression coefficient supplied from the separation unit 1503 in FIG. 28 to the multiplier 1597 when the output value of the comparison unit 1594 is “1”, and the output value of the comparison unit 1594 is “0”. At this time, the maximum value selection unit 1591 is directly supplied.
The multiplier 1579 calculates the product of the output value of the switch 1595 and the output value of the correction value storage unit 1596 and supplies the calculation result to the maximum value selection unit 1591. In order to reduce the suppression coefficient value, the correction value is usually a value smaller than 1, but this is not limited depending on the purpose. Thus, when the frequency-specific estimated innate SNR is smaller than the threshold value, the suppression coefficient is corrected. By correcting the suppression coefficient when the SNR is small, it is possible to reduce the amount of residual noise without excessively suppressing the speech component.
[0144]
The suppression coefficient lower limit value storage unit 1592 supplies the stored lower limit value of the suppression coefficient to the maximum value selection unit 1591. The maximum value selection unit 1591 compares the signal supplied from the switch 1595 or the multiplier 1597 with the suppression coefficient lower limit value supplied from the suppression coefficient lower limit value storage unit 1592, and uses the larger value as the frequency-specific corrected suppression coefficient. , And output to the multiplexer 1504 in FIG. As a result, the suppression coefficient is necessarily larger than the lower limit value stored in the suppression coefficient lower limit value storage unit 1592. Therefore, it is possible to prevent the distortion of the sound that occurs due to excessive suppression.
In the noise removal apparatus shown in FIGS. 1, 5, 10, 12, 14, and 17, the suppression coefficient is supplied to the multiple multiplier 16 and the estimated innate SNR calculator 7. In the noise removal apparatus shown in 20, a corrected suppression coefficient is supplied instead of the suppression coefficient.
[0145]
Next, the noise suppression coefficient generation unit 8 in FIG. 20 will be described. As described with reference to FIG. 60, the suppression coefficient can be obtained by searching from the supplied estimated innate SNR and acquired SNR, but can also be obtained by calculation. Hereinafter, based on the calculation formula described in Literature 1, another example of the configuration of the noise suppression coefficient generation unit 8 will be described together with a method of calculating the suppression coefficient.
30 is a block diagram illustrating another configuration example of the noise suppression coefficient generation unit 8 in FIG. The noise suppression coefficient generation unit 81 includes an MMSE STSA gain function value calculation unit 811, a generalized likelihood ratio calculation unit 812, a speech existence probability storage unit 813, and a suppression coefficient calculation unit 814.
[0146]
The frame number is n, the frequency number is k, and γn(k) is the frequency-specific acquired SNR supplied from the frequency-specific SNR calculation unit 6 in FIG.n(k) Let the hat be the estimated innate SNR by frequency supplied from the estimated innate SNR calculator 7 in FIG. And ηn(k) = ξn(k) Hat / q, vn(k) = (ηn(k) γn(k)) / (1 + ηn(k)).
The MMSE STSA gain function value calculation unit 811 obtains the acquired SNRγ supplied from the frequency-specific SNR calculation unit 6 in FIG.n(k), the estimated innate SNR supplied from the estimated innate SNR calculator 7 in FIG.n(k) Based on the voice presence probability q supplied from the hat and voice presence probability storage unit 813, the MMSESTSA gain function value is calculated for each frequency and output to the suppression coefficient calculation unit 814. MMSE STSA gain function value G for each frequencyn(k) is given by equation (20).
[0147]
[Expression 20]
Figure 0003858668
[0148]
Where I0(z) is the zero-order modified Bessel function, I1(z) is a first-order modified Bessel function. The modified Bessel function is described in “1985, Mathematical Dictionary, Iwanami Shoten, page 374. G” (Reference 6).
The generalized likelihood ratio calculation unit 812 obtains the acquired SNRγ supplied from the frequency-specific SNR calculation unit 6 in FIG.n(k), the estimated innate SNR supplied from the estimated innate SNR calculator 7 in FIG.n(k) Based on the voice presence probability q supplied from the hat and voice presence probability storage unit 813, the generalized likelihood ratio is calculated for each frequency and output to the suppression coefficient calculation unit 814. Generalized likelihood ratio Λ for each frequencyn(k) is given by equation (21).
[0149]
[Expression 21]
Figure 0003858668
[0150]
The suppression coefficient calculation unit 814 receives the MMSE STSA gain function value G supplied from the MMSE STSA gain function value calculation unit 811.n(k) and the generalized likelihood ratio Λ supplied from the generalized likelihood ratio calculation unit 812nThe suppression coefficient is calculated for each frequency from (k) and output to the suppression coefficient correction unit 15 in FIG. Suppression coefficient G for each frequencyn(k) The bar is given by equation (22).
[0151]
[Expression 22]
Figure 0003858668
[0152]
Instead of calculating the SNR for each frequency, it is also possible to obtain and use an SNR common to a band composed of a plurality of frequencies. Therefore, next, an example of calculating the SNR for each band will be described as another configuration example of the frequency-specific SNR calculation unit 6 in FIG.
FIG. 31 is a block diagram illustrating another configuration example of the frequency-specific SNR calculation unit 6. The difference from the frequency-specific SNR calculation unit 6 shown in FIG. 56 is that the band-specific SNR calculation unit 61 includes band-specific power calculation units 611 and 612. The band-specific power calculation unit 611 calculates the power for each band based on the frequency-specific degraded speech power spectrum supplied from the separation unit 602, and the division unit 601.0 ~ 601K-1 Output to. Further, the band-specific power calculation unit 612 calculates the power for each band based on the frequency-specific estimated noise power spectrum supplied from the separation unit 603, and the division unit 601.0 ~ 601K-1 Output to.
[0153]
FIG. 32 is a block diagram illustrating a configuration of the band-specific power calculation unit 611 included in the band-specific SNR calculation unit 61. Here, an example of equally dividing into M bands having the bandwidth L will be described. Here, L and M are natural numbers that satisfy the relationship K = LM.
The band-specific SNR calculation unit 61 includes M adders 6110.0~ 6110M-1Have Degraded voice power spectrum 910 for each frequency supplied from separation section 602 in FIG.0 ~ 910K-1 (9100 ~ 910ML-1) Is an adder 6110 corresponding to each frequency.0 ~ 6110M-1 Is transmitted to each. For example, since the frequency number corresponding to the band number 0 is 0 to L−1, the degraded sound power spectrum 910 for each frequency.0~ 910L-1 Is an adder 61100Is transmitted to. Further, since the frequency number corresponding to the band number 1 is from L to 2L−1, the degraded voice power spectrum 910 for each frequency.L~ 9102L-1Is an adder 61101Is transmitted to.
[0154]
Adder 61100 ~ 6110M-1 Respectively calculates the sum of the deteriorated speech power spectrum by frequency supplied, and the degraded speech power spectrum by band 911.0 ~ 911ML-1(9110 ~ 911K-1 ) In the division unit 601 in FIG.0 ~ 601K-1 Output to. The calculation result of each adder is output as a degraded voice power spectrum for each frequency for each frequency corresponding to each band number. For example, adder 61100 The calculation result of is the degraded voice power spectrum 911 for each band.0 ~ 911L-1 Is output as Also, adder 61101 The calculation result of is the degraded voice power spectrum 911 for each band.L ~ 9112L-1Is output as
The configuration and operation of the band-specific power calculation unit 612 are equivalent to those of the band-specific power calculation unit 611, and thus the description thereof is omitted.
[0155]
In addition, although the example which equally divides | segments into a several zone was shown here, the method divided | segmented into the critical zone | band described in "1980, hearing and a voice, IEICE, pages 115-118" (reference 7). , “1983, Multirate Digital Signal Processing, 1983, Prentice-Hall Inc., USA” (Reference 8), and other bands such as the method of dividing into octave bands. It is also possible to use a division method.
[0156]
  (No.4Embodiment)
  FIG. 33 shows the first of the noise removing apparatus of the present invention.4It is a block diagram which shows the whole structure of this embodiment. The difference from the noise removal apparatus shown in FIG. 20 is that the injection noise calculation unit 58 and the adders 56 and 57 are replaced with the SNR correction unit 67. The relationship between FIG. 20 and FIG. 33 is equal to the relationship between FIG. 1 and FIG. 5 and the relationship between FIG. 10 and FIG. 14. A detailed description of the noise removal device is omitted.
[0157]
  (Fifth reference example)
  FIG. 34 shows a noise removing apparatus according to the present invention.5th reference example related toIt is a block diagram which shows the whole structure. The difference from the noise removal apparatus shown in FIG. 20 is that the estimated noise calculation unit 5 is replaced with the estimated noise calculation unit 52 and that the weighted deteriorated speech calculation unit 14 does not exist. Hereinafter, these differences will be mainly described.
[0158]
FIG. 35 is a block diagram showing a configuration of estimated noise calculation unit 52 in FIG. The difference from the estimated noise calculation unit 5 shown in FIG.0 ~ 504K-1 Is a frequency-based estimated noise calculation unit 506.0 ~ 506K-1 And that the estimated noise calculation unit 52 does not have a weighted deteriorated speech power spectrum in the input signal. This is a frequency-specific estimated noise calculation unit 504.0 ~ 504K-1 Requires a frequency-wise weighted degraded speech power spectrum for the input signal, whereas the estimated noise calculator 5060 ~ 506K-1 This is because the input signal does not need a weighted degraded sound power spectrum for each frequency. Hereinafter, with reference to FIG. 36, the frequency-specific estimated noise calculation unit 506, which is the difference,0 ~ 506K-1 The configuration and operation will be described in detail.
[0159]
36 shows a frequency-specific estimated noise calculation unit 506 included in the estimated noise calculation unit 52 shown in FIG.0 ~ 506K-1 It is a block diagram which shows the structure of these. The difference from the frequency-specific estimated noise calculation unit 504 shown in FIG. 25 is that the frequency-specific estimated noise calculation unit 506 does not have a frequency-dependent weighted degraded speech power spectrum in the input signal, and a division unit 5041, A non-linear processing unit 5042 and a multiplier 5043. Hereinafter, these differences will be mainly described.
[0160]
The division unit 5041 divides the degraded speech power spectrum for each frequency supplied from the separation unit 502 in FIG. 35 by the estimated noise power spectrum of the previous frame supplied from the estimated noise storage unit 5942, and the division result is a non-linear processing unit. Output to 5042. A non-linear processing unit 5042 having the same configuration and function as the non-linear processing unit 1485 shown in FIG. 22 calculates a weighting factor corresponding to the output value of the division unit 5041, and outputs it to the multiplier 5043. Multiplier 5043 calculates the product of the frequency-specific degraded speech power spectrum supplied from separation unit 502 in FIG. 35 and the weighting coefficient supplied from nonlinear processing unit 5042, and outputs the product to switch 5044.
[0161]
The output signal of the multiplier 5043 is equivalent to the frequency-dependent weighted deteriorated speech power spectrum in the frequency-specific estimated noise calculator 504 shown in FIG. That is, the frequency-dependent weighted degraded speech power spectrum can be calculated inside the frequency-specific estimated noise calculation unit 506. Therefore, in the noise removal apparatus shown in FIG. 34, the weighted deteriorated speech calculation unit 14 can be omitted.
[0162]
  (No.5Embodiment)
  FIG. 37 shows the first of the noise removing apparatus of the present invention.5It is a block diagram which shows the whole structure of this embodiment. The difference from the noise removal apparatus shown in FIG. 34 is that the injection noise calculation unit 58 and the adders 56 and 57 are replaced with the SNR correction unit 67. The relationship between FIGS. 34 and 37 is equal to the relationship between FIGS. 1 and 5, the relationship between FIGS. 10 and 14, and the relationship between FIGS. 20 and 33. For the SNR correction unit 67, refer to FIGS. 15 and 14. Since it demonstrated, the detailed description regarding the noise removal apparatus shown in FIG. 37 is abbreviate | omitted.
[0163]
  (Sixth reference example)
  FIG. 38 shows a noise removing apparatus according to the present invention.6th reference example related toIt is a block diagram which shows the whole structure. Since the noise removal apparatus shown in FIG. 20 is the same except for the estimated innate SNR calculation unit 71, the difference will be described in detail below.
  FIG. 39 is a block diagram showing the configuration of the estimated innate SNR calculation unit 71 in FIG. The estimated innate SNR calculation unit 7 shown in FIG. 57 has an acquired SNR storage unit 702, a suppression coefficient storage unit 703, and multiple multiplication units 705 and 704, whereas the estimated innate SNR calculation unit 71 replaces these. , An estimated noise storage unit 712, an enhanced speech power spectrum storage unit 713, a frequency-specific SNR calculation unit 715, and a multiple multiplication unit 716. Further, the estimated innate SNR calculator 7 has a suppression coefficient in the input signal, but the estimated innate SNR calculator 71 has an enhanced speech amplitude spectrum and an estimated noise power spectrum in the input signal instead of the suppression coefficient. Hereinafter, a detailed description will be given focusing on these differences existing between the estimated innate SNR calculation units 7 and 71.
[0164]
Multiplex multiplier 716 provides enhanced speech amplitude spectrum | X supplied from multiple multiplier 16 in FIG.n(k) | Bar = Gn(k) Bar | Yn(k) | is squared for each frequency to obtain an emphasized speech power spectrum and outputs it to the enhanced speech power spectrum storage unit 713. The configuration of the multiplex multiplier 716 is the same as that of the multiplex multiplier 17 already described with reference to FIG.
The enhanced speech power spectrum storage unit 713 stores the enhanced speech power spectrum supplied from the multiple multiplier 716 and outputs the enhanced speech power spectrum supplied one frame before to the SNR calculator 715 for each frequency.
The estimated noise storage unit 712 is an estimated noise power spectrum λ supplied from the estimated noise calculation unit 5 in FIG.n(k) is stored, and the estimated speech power spectrum supplied one frame before is output to the SNR calculator 715 for each frequency.
[0165]
The frequency-specific SNR calculation unit 715 receives the enhanced speech power spectrum G supplied from the enhanced speech power spectrum storage unit 713.n-1 2(K) Bar ・ | Yn-1(k) |2 And the estimated noise power spectrum λ supplied from the estimated noise storage unit 712n-1The SNR of (k) is calculated for each frequency and output to the multiple weighted addition unit 707. Since the configuration of the frequency-specific SNR calculation unit 715 is the same as that of the frequency-specific SNR calculation unit 6 already described with reference to FIG. 56, detailed description thereof is omitted.
G, which is the output of the frequency-specific SNR calculator 715n-1 2(K) Bar ・ | Yn-1(k) |2 / Λn-1(k) is γ which is the output of the multiple multiplier 705 in FIG.n-1(k) Gn-1 2(K) Equivalent to bar. Accordingly, it is possible to replace the estimated innate SNR calculation unit 7 included in the noise removal apparatus shown in FIG.
[0166]
  (No.6Embodiment)
  FIG. 40 shows the first embodiment of the noise removing apparatus of the present invention.6It is a block diagram which shows the whole structure of this embodiment. The difference from the noise removal apparatus shown in FIG. 38 is that the injection noise calculation unit 58 and the adders 56 and 57 are replaced with the SNR correction unit 67. The relationship between FIGS. 38 and 40 is equal to the relationship between FIGS. 1 and 5, the relationship between FIGS. 10 and 14, the relationship between FIGS. 20 and 33, and the relationship between FIGS. 34 and 37. Since it demonstrated with reference to FIG.15 and 14, detailed description regarding the noise removal apparatus shown in FIG. 40 is abbreviate | omitted.
[0167]
  (Seventh reference example)
  FIG. 41 shows a noise removing apparatus according to the present invention.7th reference example related toIt is a block diagram which shows the whole structure. The difference from the noise removal apparatus shown in FIG. 20 is that the estimated noise calculator 5 is replaced with the estimated noise unit 52, and the estimated innate SNR calculator 7 is replaced with the estimated innate SNR calculator 71. That is, there is no weighted deteriorated voice calculation unit 14. The configuration and operation of the estimated noise unit 52 are the same as those described with reference to FIGS. The configuration and operation of the estimated innate SNR calculation unit 71 are the same as described with reference to FIG. Therefore, the noise removal apparatus shown in FIG. 41 realizes a function equivalent to the noise removal apparatus shown in FIG.
[0168]
  (No.7Embodiment)
  FIG. 42 shows the first embodiment of the noise removing apparatus of the present invention.7It is a block diagram which shows the whole structure of this embodiment. The difference from the noise removal apparatus shown in FIG. 41 is that the injection noise calculation unit 58 and the adders 56 and 57 are replaced with the SNR correction unit 67. The relationship between FIGS. 41 and 42 is the relationship between FIGS. 1 and 5, the relationship between FIGS. 10 and 14, the relationship between FIGS. 20 and 33, the relationship between FIGS. 34 and 37, and the relationship between FIGS. Equally, since the SNR correction unit 67 has been described with reference to FIGS. 15 and 14, a detailed description of the noise removal apparatus shown in FIG. 42 is omitted.
[0169]
  (Eighth reference example)
  FIG. 43 shows a noise removing apparatus according to the present invention.8th reference example related toIt is a block diagram which shows the whole structure. The difference from the noise removal apparatus shown in FIG. 20 is that the estimated noise calculation unit 5 is replaced with the estimated noise calculation unit 53 and that the voice detection unit 4 does not exist. That is, the voice detection unit is not required for noise estimation. Hereinafter, these differences will be mainly described.
  FIG. 44 is a block diagram showing the configuration of the estimated noise calculation unit 53 in FIG. The difference from the estimated noise calculation unit 5 shown in FIG.0 ~ 504K-1 Is a frequency-specific estimated noise calculator 508.0 ~ 508K-1 And that the estimated noise calculation unit 53 does not have a voice detection flag in the input signal. Referring to FIG. 45, the frequency-specific estimated noise calculator 5080 ~ 508K-1 The configuration and operation will be described in detail.
[0170]
45 shows a frequency-specific estimated noise calculation unit 508 included in the estimated noise calculation unit 53 shown in FIG.0 ~ 508K-1 It is a block diagram which shows the structure of these. The difference from the frequency-based estimated noise calculation unit 504 shown in FIG. 25 is that the update determination unit 520 is replaced with the update determination unit 522 and 508.0 ~ 508K-1 Is that the input signal does not have a voice detection flag.
46 is a block diagram illustrating a configuration of the update determination unit 522 included in the frequency-specific estimated noise calculation unit 508 illustrated in FIG. 26 is different from the update determination unit 520 shown in FIG. 26 in that the logical sum calculation unit 5201 is replaced with a logical sum calculation unit 5221, the update determination unit 522 does not have the logical negation circuit 5202, The signal does not have a voice detection flag. That is, the update determination unit 522 does not use the voice detection flag for updating the estimated noise. This is different from the update determination unit 520 shown in FIG.
[0171]
The logical sum calculation unit 5221 calculates the logical sum of the output value of the comparison unit 5205 and the output value of the comparison unit 5203, and outputs the calculation result to the switch 5044, the shift register 5045, and the counter 5049 in FIG. That is, the update determination unit 522 always outputs “1” until the count value reaches a preset value, and after reaching the count value, outputs “1” when the deteriorated voice power is smaller than the threshold value. .
As described with reference to FIG. 26, the comparison unit 5205 determines whether or not the deteriorated voice signal is noise. That is, it can be said that the comparison unit 5205 performs voice detection for each frequency. Therefore, it is possible to realize an update determination unit and an estimated noise calculation unit that do not have the voice detection flag in the input signal.
[0172]
  (No.8Embodiment)
  FIG. 47 shows the first of the noise removing apparatus of the present invention.8It is a block diagram which shows the whole structure of this embodiment. The difference from the noise removal apparatus shown in FIG. 43 is that the injection noise calculation unit 58 and the adders 56 and 57 are replaced with the SNR correction unit 67. 43 and 47 are the relationship between FIGS. 1 and 5, the relationship between FIGS. 10 and 14, the relationship between FIGS. 20 and 33, the relationship between FIGS. 34 and 37, the relationship between FIGS. 38 and 40, and Since the SNR correction unit 67 has been described with reference to FIGS. 15 and 14 in the same manner as in FIGS. 41 and 42, a detailed description of the noise removal apparatus shown in FIG. 47 is omitted.
[0173]
20, 33, 34, 37, 38, 40 to 43, and 47, instead of the deteriorated speech signal corresponding to the relationship between FIGS. 10 and 12 and FIGS. 14 and 17. Although it is possible to selectively inject noise using a degraded speech power spectrum, the configuration is clear and the details are omitted.
[0174]
In all the embodiments described so far, the minimum mean square error short-time spectrum amplitude method has been assumed as a noise removal method, but it can also be applied to other methods. As an example of such a method, “December 1979, Proceedings of the IEE, Vol. 67, No. 12 (PROCEEDINGS OF THE IEEE, VOL.67, NO.12, PP.1586-1604, DEC, 1979), pages 1586 to 1604 "(Reference 9) and the" Wiener filter method "published in April 1979, IEE Transactions on Axetics.・ Speech and Signal Processing, Vol. 27, No. 2 (IEEE TRANSACTIONS ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, VOL.27, NO.2, PP.113-120, APR, 1979), 113-120 There is a spectrum subtraction method disclosed in “Page” (Reference 10), and the detailed configuration example thereof will not be described.
[0175]
With regard to the schematic operation of the spectral subtraction method disclosed in Document 10, for example, FIGS. 43 and 47 can be referred to. 43 and 47, if the multiple multiplier 16 is replaced with a multiple subtractor, the noise suppression coefficient generator 8 is replaced with a noise suppression amount calculator, and the suppression coefficient corrector 15 is replaced with a suppression amount corrector, the operation based on the spectral subtraction method is performed. Can be realized. In the multiple subtraction unit, the emphasized speech can be obtained by subtracting the corrected noise suppression amount from the degraded speech amplitude spectrum and performing inverse Fourier transform on the obtained result. Here, an example has been described in which the SNR is calculated and then the noise suppression amount is calculated based on the SNR. However, the estimated noise obtained by the estimated noise calculation unit 53 can be directly subtracted from the degraded speech amplitude spectrum. .
[0176]
【The invention's effect】
As described above, in the present invention, pseudo noise is generated based on the input signal, and the suppression coefficient obtained by injecting the pseudo noise is used. By injecting the above-mentioned pseudo noise when determining the suppression coefficient, the suppression coefficient derived assuming the background noise according to a specific statistical model is corrected according to the input signal, and noise that does not follow the statistical model is corrected. It can be effectively removed. Therefore, it is possible to obtain emphasized speech with sufficiently high quality against any background noise.
[0177]
In the present invention, a windowing process is performed on the time domain signal obtained by converting the emphasized speech in the frequency domain. When two adjacent frames of a time domain signal converted from frequency domain emphasized speech are superimposed and added, even if the signal sample that is the target of the superposition addition is suppressed with a different suppression coefficient value in each frame, By windowing each frame to reduce the amplitude of the signal samples at the frame boundaries, the continuity of the signal samples at the frame boundaries can be improved. Thereby, generation | occurrence | production of noise can be prevented and deterioration of the sound quality by noise can be reduced.
[Brief description of the drawings]
FIG. 1 is a noise removal device of the present invention.First reference example related toIt is a block diagram which shows the whole structure.
FIG. 2 is a block diagram showing a first configuration of an injection noise calculation unit included in the noise removal apparatus shown in FIG. 1;
FIG. 3 is a diagram illustrating an example of a relationship between SNR and injection noise.
FIG. 4 is a diagram illustrating an example of a characteristic of a suppression coefficient with respect to an SNR.
FIG. 5 shows a first embodiment of the noise removing device of the present invention1It is a block diagram which shows the whole structure of this embodiment.
6 is a block diagram showing a first configuration of an SNR correction unit included in the noise removal device shown in FIG. 5. FIG.
7 is a block diagram showing a configuration of a corrected SNR calculation unit included in the SNR correction unit shown in FIG. 6;
FIG. 8 is a block diagram showing a second configuration of the SNR correction unit.
9 is a block diagram showing a configuration of a corrected SNR calculation unit included in the SNR correction unit shown in FIG.
FIG. 10 is a noise removal device of the present invention.Second reference example related toIt is a block diagram which shows the whole structure.
FIG. 11 is a block diagram showing a second configuration of an injection noise calculation unit.
FIG. 12 is a noise removal device of the present invention.Third reference example related toIt is a block diagram which shows the whole structure.
FIG. 13 is a block diagram showing a third configuration of an injection noise calculation unit.
FIG. 14 shows a first embodiment of the noise removing apparatus according to the present invention.2It is a block diagram which shows the whole structure of this embodiment.
FIG. 15 is a block diagram showing a third configuration of the SNR correction unit.
FIG. 16 is a block diagram showing a fourth configuration of an injection noise calculation unit.
FIG. 17 shows a first embodiment of the noise removing device of the present invention.3It is a block diagram which shows the whole structure of this embodiment.
FIG. 18 is a block diagram showing a fourth configuration of the SNR correction unit.
FIG. 19 is a block diagram showing a fifth configuration of the injection noise calculation unit.
FIG. 20 is a noise removal device of the present invention.4th reference example related toIt is a block diagram which shows the whole structure.
FIG. 21 is a block diagram illustrating a configuration of a weighted deteriorated speech calculation unit included in the noise removal device illustrated in FIG. 20;
22 is a block diagram showing a configuration of a multiple nonlinear processing unit included in the weighted deteriorated speech calculation unit shown in FIG. 21. FIG.
FIG. 23 is a diagram illustrating an example of a nonlinear function in a nonlinear processing unit.
24 is a block diagram showing a first configuration of an estimated noise calculation unit included in the noise removal apparatus shown in FIG.
25 is a block diagram showing a first configuration of a frequency-specific estimated noise calculator included in the estimated noise calculator shown in FIG. 24. FIG.
26 is a block diagram showing a configuration of an update determination unit included in the frequency-specific estimated noise calculation unit shown in FIG.
FIG. 27 is a block diagram showing a second configuration of the frequency-specific estimated noise calculator.
FIG. 28 is a block diagram illustrating a configuration of a suppression coefficient correction unit included in the noise removal device illustrated in FIG.
29 is a block diagram showing a configuration of a frequency-specific suppression coefficient correction unit included in the suppression coefficient correction unit shown in FIG. 28. FIG.
FIG. 30 is a block diagram illustrating a second configuration of the noise suppression coefficient generation unit.
FIG. 31 is a block diagram showing a second configuration of the frequency-specific SNR calculator.
32 is a block diagram illustrating a configuration of a band-specific power calculation unit included in the frequency-specific SNR calculation unit illustrated in FIG. 31;
FIG. 33 shows the first of the noise removal apparatus of the present invention.4It is a block diagram which shows the whole structure of this embodiment.
FIG. 34 is a noise removal device of the present invention.5th reference example related toIt is a block diagram which shows the whole structure.
FIG. 35 is a block diagram illustrating a second configuration of the estimated noise calculation unit.
36 is a block diagram showing a configuration of a frequency-specific estimated noise calculation unit included in the estimated noise calculation unit shown in FIG. 35;
FIG. 37 shows the first of the noise removal apparatus of the present invention.5It is a block diagram which shows the whole structure of this embodiment.
FIG. 38 shows a noise removing apparatus according to the present invention.6th reference example related toIt is a block diagram which shows the whole structure.
39 is a block diagram illustrating a configuration of an estimated innate SNR calculation unit included in the noise removal device illustrated in FIG. 38.
FIG. 40 shows a first embodiment of the noise removing apparatus according to the present invention.6It is a block diagram which shows the whole structure of this embodiment.
FIG. 41 is a noise removal device of the present invention.7th reference example related toIt is a block diagram which shows the whole structure.
FIG. 42 shows a first embodiment of the noise removing device of the present invention.7It is a block diagram which shows the whole structure of this embodiment.
FIG. 43 is a noise removal device of the present invention.8th reference example related toIt is a block diagram which shows the whole structure.
FIG. 44 is a block diagram showing a third configuration of the estimated noise calculation unit.
45 is a block diagram showing a configuration of a frequency-specific estimated noise calculator included in the estimated noise calculator shown in FIG. 44. FIG.
46 is a block diagram showing a configuration of an update determination unit included in the frequency-specific estimated noise calculation unit shown in FIG. 45. FIG.
FIG. 47 is a first diagram of the noise removal apparatus according to the present invention.8It is a block diagram which shows the whole structure of this embodiment.
FIG. 48 is a block diagram showing an overall configuration of a conventional noise removing device.
FIG. 49 is a block diagram illustrating a configuration of a voice detection unit included in a conventional noise removal device.
50 is a block diagram showing a configuration of a power calculation unit included in the voice detection unit shown in FIG. 49. FIG.
51 is a block diagram illustrating a configuration of a weighted addition unit included in the voice detection unit illustrated in FIG. 49. FIG.
FIG. 52 is a block diagram showing a configuration of a multiple multiplier included in a conventional noise removal apparatus.
FIG. 53 is a block diagram illustrating a configuration of an estimated noise calculation unit included in a conventional noise removal device.
54 is a block diagram showing a configuration of a frequency-specific estimated noise calculator included in the estimated noise calculator shown in FIG. 53. FIG.
55 is a block diagram showing a configuration of an update determination unit included in the frequency-specific estimated noise calculation unit shown in FIG. 54. FIG.
FIG. 56 is a block diagram illustrating a configuration of a frequency-specific SNR calculation unit included in a conventional noise removal apparatus.
FIG. 57 is a block diagram illustrating a configuration of an estimated innate SNR calculation unit included in a conventional noise removal device.
58 is a block diagram showing a configuration of a multi-value range limiting processing unit included in the estimated innate SNR calculation unit shown in FIG. 57. FIG.
59 is a block diagram showing a configuration of a multi-weighted addition unit included in the estimated innate SNR calculation unit shown in FIG.
FIG. 60 is a block diagram illustrating a configuration of a noise suppression coefficient generation unit included in a conventional noise removal device.
61 is a block diagram showing a configuration of a suppression coefficient search unit included in the noise suppression coefficient generation unit shown in FIG. 60. FIG.
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 1 ... Frame division part, 2,22 ... Window processing part, 3 ... Fourier transform part, 4 ... Audio | voice detection part, 5,51,52,53 ... Estimated noise calculation part, 6,61,715,1402 ... By frequency SNR calculation unit, 7, 71 ... Estimated innate SNR calculation unit, 8, 81 ... Noise suppression coefficient generation unit, 9 ... Inverse Fourier transform unit, 10 ... Frame synthesis unit, 11 ... Input terminal, 12 ... Output terminal, 13, 5049: Counter, 14: Weighted deteriorated speech calculation unit, 15: Suppression coefficient correction unit, 16, 17, 704, 705, 716, 1404 ... Multiplexing unit, 55, 58, 59, 662, 672, 682, 6542 ... Injection noise calculation unit, 56, 57, 708, 4063, 4072, 4074, 5046, 61100 ~ 6110M-1 , 6543, 6544 ... adders, 65, 66, 67, 68 ... SNR correction units, 401, 1593, 5204, 5206 ... threshold storage units, 402, 1594, 5203, 5205, 67233 ... comparison units, 404, 4075 ... constants Multiplier, 405... Logarithm calculation unit, 406... Power calculation unit, 407, 5071, 70710 ~ 7071K-1 ... weighted addition unit, 408, 706, 5072 ... weight storage unit, 409, 5202 ... logic negation circuit, 502, 505, 602, 603, 802, 803, 1495, 1502, 1503, 1702, 1703, 4061, 503 604, 655, 804, 1475, 1504, 1704, 6115, 7014, 7075 ... multiplexing unit, 5040 ~ 504K-1 5060 ~ 506K-1 , 507, 5080 ~ 508K-1 5140 ~ 514K-1 ... Estimated noise calculation unit by frequency, 520, 521, 522 ... Update determination unit, 551 ... SNR calculation unit, 552, 6541 ... Threshold calculation unit, 553, 6721 ... Injection level calculation unit, 581, 67232 ... Zero crossover calculation , 582, 1595, 5044, 6722 ... switch, 591, 68232 ... high frequency power calculation unit, 6010 ~ 601K-1 , 5041, 5048, 6545 ... division unit, 611, 612 ... power calculation unit for each frequency, 651, 652, 653, 6111, 7013, 7072, 7074 ... separation unit, 6540 ~ 654K-1 6640 ~ 664K-1 ... corrected SNR calculation unit, 661, 663 ... average value calculation unit, 701 ... multi-range limitation processing unit, 702 ... acquired SNR storage unit, 703 ... suppression coefficient storage unit, 707 ... multi-weighted addition unit, 712, 1401, 5942 ... Estimated noise storage unit, 713 ... Enhanced speech power spectrum storage unit, 8010 ~ 801K-1 ... suppression coefficient search unit, 811 ... MMSE STSA gain function value calculation unit, 812 ... generalized likelihood ratio calculation unit, 813 ... speech existence probability storage unit, 814 ... suppression coefficient calculation unit, 901 ... degraded speech power, 902 ... threshold value 903, 923, weight, 904, update threshold value, 905, weighted adder control signal, 9100 ~ 910K-1 , 9100 ~ 910ML-1... Decreased voice power spectrum by frequency, 9110 ~ 911K-1 , 9110 ~ 911ML-1... Degraded voice power spectrum by band, 921 ... Instantaneous estimated SNR, 9210 ~ 921K-1 ... Instantaneous estimated SNR by frequency, 922 ... Past estimated SNR, 9220 ~ 922K-1 ... past estimated SNR by frequency, 924 ... estimated innate SNR, 9240 ~ 924K-1 ... Estimated innate SNR by frequency, 1405 ... Multiple nonlinear processing unit, 14850 ~ 1485K-1 , 5042... Nonlinear processing unit, 15010 ~ 1501K-1 ... Frequency-specific suppression coefficient correction units, 1591, 70120 ~ 7012K-1 ... maximum value selection unit, 1592 ... suppression coefficient lower limit value storage unit, 1596 ... correction amount storage unit, 1597, 17010 ~ 1701K-1 , 40620 ~ 4062K-1 , 4071, 4073, 5043 ... multipliers, 5045 ... shift register, 5047 ... minimum value selection unit, 5201, 5211, 5221 ... logical sum calculation unit, 5207 ... threshold value calculation unit, 5941 ... register length storage unit, 6723, 6823 ... Determination unit, 7011 ... constant storage unit, 8011 ... suppression coefficient table, 8012, 8013 ... address conversion unit, 67231 ... silent section detection unit.

Claims (12)

入力信号を周波数領域信号に変換し、この周波数領域信号を用いて雑音を推定し、この雑音と前記周波数領域信号とを用いて信号対雑音比を求め、この信号対雑音比に基づいて抑圧係数を定め、この抑圧係数を用いて前記周波数領域信号を重みづけし、この重みづけした周波数領域信号を時間領域信号に変換することによって前記入力信号からノイズを除去した出力信号を得るノイズ除去方法において、
前記抑圧係数を定めるステップは、
前記雑音と前記周波数領域信号とを用いて加算信号を求め、この加算信号と前記周波数領域信号との和、及び前記加算信号と前記雑音との和を用いて信号対雑音比を再計算し、前記再計算された信号対雑音比を前記信号対雑音比に代えて用いることによって前記信号対雑音比の補正を行い、この補正した信号対雑音比に基づいて前記抑圧係数を定める
ことを特徴とするノイズ除去方法。
An input signal is converted into a frequency domain signal, noise is estimated using the frequency domain signal, a signal-to-noise ratio is obtained using the noise and the frequency domain signal, and a suppression coefficient is calculated based on the signal-to-noise ratio. In the noise removal method of obtaining an output signal obtained by removing noise from the input signal by weighting the frequency domain signal using the suppression coefficient and converting the weighted frequency domain signal into a time domain signal ,
Determining the suppression coefficient comprises:
Obtaining a sum signal using the noise and the frequency domain signal, recalculating the signal-to-noise ratio using the sum of the sum signal and the frequency domain signal, and the sum of the sum signal and the noise; The signal-to-noise ratio is corrected by using the recalculated signal-to-noise ratio instead of the signal-to-noise ratio, and the suppression coefficient is determined based on the corrected signal-to-noise ratio. To remove noise.
請求項1に記載のノイズ除去方法において、
前記加算信号は、前記信号対雑音比が低く前記雑音が大きいときに大きくなるよう求める
ことを特徴とするノイズ除去方法。
In the noise removal method of Claim 1,
The noise removal method according to claim 1, wherein the sum signal is determined to be large when the signal-to-noise ratio is low and the noise is large .
請求項1又は2のいずれかに記載のノイズ除去方法において、
前記入力信号の定常度が低いときに、前記信号対雑音比の補正を行う
ことを特徴とするノイズ除去方法。
In the noise removal method in any one of Claim 1 or 2,
A noise removing method, wherein the signal-to-noise ratio is corrected when the stationary state of the input signal is low.
請求項1〜3のいずれかに記載のノイズ除去方法において、
前記入力信号の振幅がゼロとなるゼロ交叉の数が多いときに、前記信号対雑音比の補正を行う
ことを特徴とするノイズ除去方法。
In the noise removal method in any one of Claims 1-3,
A noise removal method, wherein the signal-to-noise ratio is corrected when the number of zero crossings where the amplitude of the input signal becomes zero is large.
請求項1〜3のいずれかに記載のノイズ除去方法において、
前記入力信号を変換した前記周波数領域信号の高域電力が大きいときに、前記信号対雑音比の補正を行う
ことを特徴とするノイズ除去方法。
In the noise removal method in any one of Claims 1-3,
A noise removal method comprising correcting the signal-to-noise ratio when high frequency power of the frequency domain signal obtained by converting the input signal is large.
請求項1〜5のいずれかに記載のノイズ除去方法において、
前記雑音を推定するステップは、
前記入力信号を変換した前記周波数領域信号を、前記信号対雑音比が高いときに小さく、前記信号対雑音比が低いときに大きい重みによって重みづけし、この重みづけした周波数領域信号に基づいて雑音を推定する
ことを特徴とするノイズ除去方法。
In the noise removal method in any one of Claims 1-5,
Estimating the noise comprises:
The frequency domain signal obtained by transforming the input signal is weighted with a small weight when the signal-to-noise ratio is high and with a large weight when the signal-to-noise ratio is low, and noise is generated based on the weighted frequency-domain signal. A noise removal method characterized by estimating.
請求項1〜6のいずれかに記載のノイズ除去方法において、
前記抑圧係数を用いて前記周波数領域信号を重みづけするステップは、
前記周波数領域信号に基づいて、前記信号対雑音比が低いときは前記抑圧係数を修正し、前記修正結果又は前記抑圧係数と予め定められた下限値とを比較し、大きいほうの値を前記抑圧係数に代えることにより前記抑圧係数を補正し、この補正した抑圧係数を用いて前記周波数領域信号を重みづけする
ことを特徴とするノイズ除去方法。
In the noise removal method in any one of Claims 1-6,
The step of weighting the frequency domain signal using the suppression coefficient comprises:
Based on the frequency domain signal, the suppression coefficient is corrected when the signal-to-noise ratio is low, the correction result or the suppression coefficient is compared with a predetermined lower limit value, and the larger value is the suppression value. A noise removal method comprising: correcting the suppression coefficient by replacing with a coefficient, and weighting the frequency domain signal using the corrected suppression coefficient.
入力信号を周波数領域信号に変換し、振幅成分と位相成分に分離して出力する変換部と、
前記周波数領域信号の振幅成分を用いて第1の信号対雑音比を求めて出力する第1の信号対雑音比計算部と、
前記周波数領域信号の振幅成分に基づいて前記周波数領域信号に含まれる雑音を推定して出力する推定雑音計算部と、
前記雑音と前記周波数領域信号の振幅成分を用いて前記第1の信号対雑音比を補正し、補正信号対雑音比として出力する信号対雑音比補正部と、
前記補正信号対雑音比に基づいて抑圧係数を定めて出力する雑音抑圧係数生成部と、
前記抑圧係数を用いて前記周波数領域信号の振幅成分を重みづけして出力する第1の乗算部と、
この第1の乗算部により重みづけされた周波数領域信号の振幅成分と前記周波数領域信号の位相成分を時間領域信号に変換して出力する逆変換部と、
を少なくとも具備し、
前記信号対雑音比補正部は、前記雑音と前記周波数領域信号の振幅成分を用いて加算信号を計算して出力する注入雑音計算部を備え、前記加算信号と前記周波数領域信号との和及び前記加算信号と前記雑音との和を用いて信号対雑音比を再計算し、前記再計算された信号対雑音比を前記信号対雑音比に代えて用いることによって補正信号対雑音比として出力する
ことを特徴とするノイズ除去装置。
A conversion unit that converts an input signal into a frequency domain signal and separates and outputs an amplitude component and a phase component;
A first signal-to-noise ratio calculation unit that obtains and outputs a first signal-to-noise ratio using the amplitude component of the frequency domain signal;
An estimated noise calculator that estimates and outputs noise included in the frequency domain signal based on the amplitude component of the frequency domain signal;
A signal-to-noise ratio correction unit that corrects the first signal-to-noise ratio using the noise and the amplitude component of the frequency domain signal, and outputs the corrected signal-to-noise ratio;
A noise suppression coefficient generator that determines and outputs a suppression coefficient based on the correction signal-to-noise ratio;
A first multiplier that weights and outputs an amplitude component of the frequency domain signal using the suppression coefficient;
An inverse conversion unit that converts the amplitude component of the frequency domain signal weighted by the first multiplication unit and the phase component of the frequency domain signal into a time domain signal and outputs the time domain signal;
Comprising at least
The signal-to-noise ratio correction unit includes an injection noise calculation unit that calculates and outputs an addition signal using the noise and an amplitude component of the frequency domain signal, and the sum of the addition signal and the frequency domain signal and the Recalculate the signal-to-noise ratio using the sum of the sum signal and the noise, and output the corrected signal-to-noise ratio by using the recalculated signal-to-noise ratio instead of the signal-to-noise ratio A noise removing device characterized by the above.
請求項8に記載のノイズ除去装置において、
前記信号対雑音比補正部は、
前記入力信号が入力され、前記入力信号の振幅がゼロとなるゼロ交叉の数を計算し、そのゼロ交叉の数が大きいときは前記補正信号対雑音比を、ゼロ交叉の数が小さいときは前記第1の信号対雑音比を、前記信号対雑音比補正部から出力させるための制御信号を出力する判定部と、
この判定部から入力された前記制御信号によって、前記補正信号対雑音比を選択的に補正前の前記第1の信号対雑音比と同じ値に設定するスイッチと
を含むことを特徴とするノイズ除去装置。
The noise removal device according to claim 8, wherein
The signal-to-noise ratio correction unit is
When the input signal is input, the number of zero crossings at which the amplitude of the input signal becomes zero is calculated.When the number of zero crossings is large, the correction signal-to-noise ratio is calculated.When the number of zero crossings is small, the number of zero crossings is calculated. A determination unit that outputs a control signal for outputting the first signal-to-noise ratio from the signal-to-noise ratio correction unit;
A switch for selectively setting the correction signal-to-noise ratio to the same value as the first signal-to-noise ratio before correction according to the control signal input from the determination unit. apparatus.
請求項8に記載のノイズ除去装置において、
前記信号対雑音比補正部は、前記変換部から入力された前記周波数領域信号の振幅成分の高域電力を計算し、その計算結果に応じ、高域電力が大きいときは前記補正信号対雑音比を、小さいときは前記第1の信号対雑音比を、前記信号対雑音比補正部から出力させるための制御信号を出力する判定部と、
この判定部から入力された前記制御信号によって、前記補正信号対雑音比を選択的に補正前の前記第1の信号対雑音比と同じ値に設定するスイッチと
を含むことを特徴とするノイズ除去装置。
The noise removal device according to claim 8, wherein
The signal-to-noise ratio correction unit calculates the high frequency power of the amplitude component of the frequency domain signal input from the conversion unit, and according to the calculation result, when the high frequency power is large, the correction signal to noise ratio A determination unit that outputs a control signal for causing the first signal-to-noise ratio to be output from the signal-to-noise ratio correction unit when it is small;
A switch for selectively setting the correction signal-to-noise ratio to the same value as the first signal-to-noise ratio before correction according to the control signal input from the determination unit. apparatus.
請求項10に記載のノイズ除去装置において、
前記周波数領域信号の振幅成分を用いて第2の信号対雑音比を計算して出力する第2の信号対雑音比計算部と、
この第2の信号対雑音比計算部から入力された前記第2の信号対雑音比を非線形関数によって前記信号対雑音比が高いときに小さく、前記信号対雑音比が低いときに大きい重みを求めて出力する非線形処理部と、
この非線形処理部から入力された前記重みを用いて前記周波数領域信号の振幅成分を重みづけし、前記推定雑音計算部に出力する第2の乗算部と
を含む重み付劣化音声計算部を更に具備し、
前記推定雑音計算部は、前記周波数領域信号に代えて前記重みつき振幅成分に基づいて前記雑音を推定する
ことを特徴とするノイズ除去装置。
The noise removal device according to claim 10, wherein
A second signal-to-noise ratio calculator that calculates and outputs a second signal-to-noise ratio using the amplitude component of the frequency domain signal;
The second signal-to-noise ratio input from the second signal-to-noise ratio calculator is determined by a non-linear function to obtain a small weight when the signal-to-noise ratio is high and a large weight when the signal-to-noise ratio is low. Output a nonlinear processing unit,
A weighted degraded speech calculation unit including a second multiplication unit that weights the amplitude component of the frequency domain signal using the weight input from the nonlinear processing unit and outputs the weighted component to the estimated noise calculation unit; And
The estimated noise calculation unit estimates the noise based on the weighted amplitude component instead of the frequency domain signal.
請求項8〜11のいずれかに記載のノイズ除去装置において、
前記雑音抑圧係数生成部から前記第1の乗算部に入力される前記抑圧係数を、前記周波数領域信号に基づいて、前記第1の信号対雑音比が低いときは修正し、前記修正結果又は前記抑圧係数と予め定められた下限値を比較し、大きいほうの値を前記抑圧係数に代えることにより補正して、前記補正した抑圧係数を前記第1の乗算部に入力する抑圧係数補正部
を更に具備することを特徴とするノイズ除去装置。
In the noise removal apparatus in any one of Claims 8-11,
The suppression coefficient input from the noise suppression coefficient generation unit to the first multiplication unit is corrected based on the frequency domain signal when the first signal-to-noise ratio is low, and the correction result or the A suppression coefficient correction unit that compares the suppression coefficient with a predetermined lower limit value, corrects a larger value by replacing the suppression coefficient, and inputs the corrected suppression coefficient to the first multiplication unit; A noise removing apparatus comprising:
JP2001339156A 2001-11-05 2001-11-05 Noise removal method and apparatus Expired - Lifetime JP3858668B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001339156A JP3858668B2 (en) 2001-11-05 2001-11-05 Noise removal method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001339156A JP3858668B2 (en) 2001-11-05 2001-11-05 Noise removal method and apparatus

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2005177567A Division JP4395772B2 (en) 2005-06-17 2005-06-17 Noise removal method and apparatus

Publications (2)

Publication Number Publication Date
JP2003140700A JP2003140700A (en) 2003-05-16
JP3858668B2 true JP3858668B2 (en) 2006-12-20

Family

ID=19153548

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001339156A Expired - Lifetime JP3858668B2 (en) 2001-11-05 2001-11-05 Noise removal method and apparatus

Country Status (1)

Country Link
JP (1) JP3858668B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005321821A (en) * 2005-06-17 2005-11-17 Nec Corp Method and device for noise removal
JP2008309955A (en) * 2007-06-13 2008-12-25 Toshiba Corp Noise suppresser
CN103238183A (en) * 2011-01-19 2013-08-07 三菱电机株式会社 Noise suppression device
JP5773124B2 (en) * 2008-04-21 2015-09-02 日本電気株式会社 Signal analysis control and signal control system, apparatus, method and program

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8233636B2 (en) 2005-09-02 2012-07-31 Nec Corporation Method, apparatus, and computer program for suppressing noise
WO2007058121A1 (en) * 2005-11-15 2007-05-24 Nec Corporation Reverberation suppressing method, device, and reverberation suppressing program
US8744844B2 (en) * 2007-07-06 2014-06-03 Audience, Inc. System and method for adaptive intelligent noise suppression
WO2007123052A1 (en) * 2006-04-20 2007-11-01 Nec Corporation Adaptive array control device, method, program, adaptive array processing device, method, program
US8106827B2 (en) 2006-04-20 2012-01-31 Nec Corporation Adaptive array control device, method and program, and adaptive array processing device, method and program
JP4973655B2 (en) 2006-04-20 2012-07-11 日本電気株式会社 Adaptive array control device, method, program, and adaptive array processing device, method, program using the same
WO2007123048A1 (en) * 2006-04-20 2007-11-01 Nec Corporation Adaptive array control device, method, and program, and its applied adaptive array processing device, method, and program
WO2009038013A1 (en) * 2007-09-21 2009-03-26 Nec Corporation Noise removal system, noise removal method, and noise removal program
US8473287B2 (en) * 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
CN104662605A (en) * 2012-07-25 2015-05-27 株式会社尼康 Signal processing device, imaging device, and program
US10748551B2 (en) 2014-07-16 2020-08-18 Nec Corporation Noise suppression system, noise suppression method, and recording medium storing program

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005321821A (en) * 2005-06-17 2005-11-17 Nec Corp Method and device for noise removal
JP2008309955A (en) * 2007-06-13 2008-12-25 Toshiba Corp Noise suppresser
JP5773124B2 (en) * 2008-04-21 2015-09-02 日本電気株式会社 Signal analysis control and signal control system, apparatus, method and program
CN103238183A (en) * 2011-01-19 2013-08-07 三菱电机株式会社 Noise suppression device

Also Published As

Publication number Publication date
JP2003140700A (en) 2003-05-16

Similar Documents

Publication Publication Date Title
JP4282227B2 (en) Noise removal method and apparatus
JP5092748B2 (en) Noise suppression method and apparatus, and computer program
JP4670483B2 (en) Method and apparatus for noise suppression
KR100927897B1 (en) Noise suppression method and apparatus, and computer program
JP3858668B2 (en) Noise removal method and apparatus
JP3454206B2 (en) Noise suppression device and noise suppression method
RU2127454C1 (en) Method for noise suppression
US7286980B2 (en) Speech processing apparatus and method for enhancing speech information and suppressing noise in spectral divisions of a speech signal
JP5435204B2 (en) Noise suppression method, apparatus, and program
US20100207689A1 (en) Noise suppression device, its method, and program
WO2005124739A1 (en) Noise suppression device and noise suppression method
JP2007006525A (en) Method and apparatus for removing noise
JP4395772B2 (en) Noise removal method and apparatus
JP6064600B2 (en) Signal processing apparatus, signal processing method, and signal processing program
JP2008216721A (en) Noise suppression method, device, and program
JP5413575B2 (en) Noise suppression method, apparatus, and program
JP2003131689A (en) Noise removing method and device
US10388264B2 (en) Audio signal processing apparatus, audio signal processing method, and audio signal processing program
JP4968355B2 (en) Method and apparatus for noise suppression
JP2002140100A (en) Noise suppressing device
JP2002175099A (en) Method and device for noise suppression
JP6554853B2 (en) Noise suppression device and program

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050315

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050419

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050617

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050926

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20051101

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20051201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20051201

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20060130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060328

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060331

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060829

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060911

R150 Certificate of patent or registration of utility model

Ref document number: 3858668

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090929

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100929

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110929

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120929

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130929

Year of fee payment: 7

EXPY Cancellation because of completion of term