JP3858668B2 - Noise removal method and apparatus - Google Patents
Noise removal method and apparatus Download PDFInfo
- Publication number
- JP3858668B2 JP3858668B2 JP2001339156A JP2001339156A JP3858668B2 JP 3858668 B2 JP3858668 B2 JP 3858668B2 JP 2001339156 A JP2001339156 A JP 2001339156A JP 2001339156 A JP2001339156 A JP 2001339156A JP 3858668 B2 JP3858668 B2 JP 3858668B2
- Authority
- JP
- Japan
- Prior art keywords
- noise
- signal
- unit
- noise ratio
- calculation unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
- Noise Elimination (AREA)
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、ノイズ除去方法及び装置に関し、より詳しくは、所望の音声信号に重畳されているノイズを除去するノイズ除去方法及び装置に関する。
【0002】
【従来の技術】
ノイズ除去装置(ノイズ・サプレッサ)は、所望の音声信号に重畳されている雑音(ノイズ)を除去するものであり、時間領域から周波数領域に変換した入力信号を用いてノイズ成分のパワースペクトルを推定し、この推定パワースペクトルを入力信号から差し引くことにより、所望の音声信号に混在するノイズを抑圧するように動作する。ノイズ成分のパワースペクトルを、音声の無音区間を検出して更新することにより、非定常なノイズの抑圧にも適用することができる。
ノイズ除去装置としては、例えば、「1984年12月、アイ・イー・イー・イー・トランザクションズ・オン・アクースティクス・スピーチ・アンド・シグナル・プロセシング、第32巻、第6号(IEEE TRANSACTIONS ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, VOL.32, NO.6, PP.1109-1121, DEC, 1984)、1109〜1121ページ」(文献1)に記載されている方式がある。これは、最小平均2乗誤差短時間スペクトル振幅法として知られている。図48に、文献1に記載されたノイズ除去装置の構成を示す。
【0003】
入力端子11には、劣化音声信号(所望音声信号とノイズの混在する信号)が、時間領域サンプル値系列として供給される。劣化音声信号サンプルは、フレーム分割部1に供給され、K/2サンプル毎のフレームに分割される。ここに、Kは2以上の偶数とする。
フレームに分割された劣化音声信号サンプルは、窓がけ処理部2に供給され、窓関数w(t)との乗算が行なわれる。第nフレームの入力信号yn(t)(t=0,1,....,K/2−1)に対するw(t)で窓がけされた信号yn(t)バーは、式(1)で与えられる。
【0004】
【数1】
【0005】
また、連続する2フレームの一部を重ね合わせ(オーバラップ)して窓がけすることも広く行なわれている。オーバラップ長としてフレーム長の50%を仮定すれば、t=0,1,....,K/2−1に対して、式(2)で得られるyn(t)バー(t=0,1,....,K/2−1)が、窓がけ処理部2の出力となる。
【0006】
【数2】
【0007】
実数信号に対しては、左右対称窓関数が用いられる。また、窓関数は、後述する抑圧係数を1に設定したときの入力信号と出力信号が計算誤差を除いて一致するように設計される。これは、w(t)+w(t+K/2)=1となることを意味する。
以後、連続する2フレームの50%をオーバラップして窓がけする場合を例として説明を続ける。窓関数w(t)としては、例えば式(3)に示すハニング窓を用いることができる。
【0008】
【数3】
【0009】
窓がけされた出力yn(t)バーは、フーリエ変換部3に供給され、周波数領域の劣化音声スペクトル(周波数領域信号)Yn(k)に変換される。劣化音声スペクトルYn(k)は位相と振幅に分離され、劣化音声位相スペクトルのargYn(k)は逆フーリエ変換部9に、劣化音声振幅スペクトル|Yn(k)|は音声検出部4、多重乗算部16及び多重乗算部17に供給される。
【0010】
音声検出部4は、劣化音声振幅スペクトル|Yn(k)|に基づいて音声の有無を検出し、その結果によって定められる音声検出フラグを推定雑音計算部51に伝達する。多重乗算部17は、供給された劣化音声振幅スペクトル|Yn(k)|を周波数別に2乗し、劣化音声パワースペクトルとして推定雑音計算部51と周波数別SNR(信号対雑音比)計算部6に伝達する。推定雑音計算部51は、音声検出フラグ、劣化音声パワースペクトル、及びカウンタ13から供給されるカウント値を用いて、上記劣化音声振幅スペクトルに含まれる雑音(第2の雑音)のパワースペクトルを推定し、推定雑音パワースペクトルとして周波数別SNR計算部6に伝達する。周波数別SNR計算部6は、入力された劣化音声パワースペクトルと推定雑音パワースペクトルを用いて周波数別に除算し、後天的SNR(a posteriori SNR)として推定先天的SNR計算部7と雑音抑圧係数生成部8に供給する。後天的SNRは雑音を含む強調前音声と雑音の比の推定値である。
【0011】
推定先天的SNR計算部7は、入力された後天的SNR、及び後述する雑音抑圧係数生成部8から供給された抑圧係数Gn(k)バーを用いて、真の音声対雑音比を示す先天的SNR(a priori SNR)を推定し、推定先天的SNRとして雑音抑圧係数生成部8に帰還させる。雑音抑圧係数生成部8は、入力として供給された後天的SNRと推定先天的SNRを用いて雑音抑圧係数を生成し、抑圧係数Gn(k)バーとして推定先天的SNR計算部7に帰還すると同時に多重乗算部16に伝達する。
多重乗算部16は、フーリエ変換部3から供給された劣化音声振幅スペクトル|Yn(k)|を、雑音抑圧係数生成部8から供給された抑圧係数Gn(k)バーで重みづけすることによって強調音声振幅スペクトル|Xn(k)|バーを求め、逆フーリエ変換部9に伝達する。|Xn(k)|バーは、式(4)で与えられる。
【0012】
【数4】
【0013】
逆フーリエ変換部9は、多重乗算部16から供給された強調音声振幅スペクトル|Xn(k)|バーとフーリエ変換部3から供給された劣化音声位相スペクトルargYn(k)を乗算して、強調音声スペクトルXn(k)バーを求める。すなわち、式(5)を実行する。
【0014】
【数5】
【0015】
そして、得られた強調音声スペクトルXn(k)バーに逆フーリエ変換を施し、1フレームがKサンプルから構成される時間領域サンプル値系列(時間領域信号)xn(t)バー(t=0,1,....,K−1)として、フレーム合成部10に伝達する。フレーム合成部10は、xn(t)バーの隣接する2フレームからK/2サンプルずつを取り出して重ね合わせ、(6)式によって強調音声xn(t)ハット(t=0,1,....,K/2−1)を得る。得られた強調音声xn(t)ハットが、フレーム合成部10の出力として、出力端子12に伝達される。
【0016】
【数6】
【0017】
次に、図48に示したノイズ除去装置の各部の構成及び動作について、さらに説明する。
音声検出部の実現方法について、文献1は詳細に開示していない。しかし、音声検出部の実現例としては、「2000年3月、日本音響学会講演論文集、321〜322ページ」(文献2)が知られているので、以降、文献2に示されたものを従来の方法として説明する。
図49は、図48における音声検出部4の構成を示すブロック図である。音声検出部4は、閾値記憶部401、比較部402、乗算器404、対数計算部405、パワー計算部406、重みつき加算部407、重み記憶部408、論理否定回路409を有する。
【0018】
図48におけるフーリエ変換部3から供給された劣化音声振幅スペクトルは、パワー計算部406に供給される。パワー計算部406は、劣化音声振幅スペクトルのパワー|Yn(k)|2 のk=0からK−1に対する総和を計算して、対数計算部405に伝達する。対数計算部405は、入力された劣化音声スペクトルパワー|Yn(k)|2 の対数を求め、乗算器404に伝達する。乗算器404は、供給された対数値を定数倍(例えば10倍)して劣化音声パワーQn を求め、比較部402及び重みつき加算部407に供給する。すなわち、第nフレームの劣化音声パワーQn は、式(7)で与えられる。
【0019】
【数7】
【0020】
なお、文献2に開示された音声検出部は、時間領域サンプルであるyn(t)バーを用いて、式(8)に従ってQnを求めている。
【0021】
【数8】
【0022】
しかし、例えば、「1985年、ディジタル信号処理の理論、コロナ社、75〜76ページ」(文献3)にあるように、式(8)と式(7)が等価であることは、パーセバル(Parseval)の等式として知られている。
【0023】
比較部402には、閾値記憶部401から、閾値THn が供給されている。比較部402は、乗算器404の出力Qn と閾値THn を比較し、THn >Qn のときは有音を表す“1”を、THn ≦Qn のときは無音を表す“0”を出力する。比較部402の出力は、音声検出部4の出力である音声検出フラグとして外部に供給されると同時に、否定演算回路409に供給される。否定演算回路409の出力は、重みつき加算部制御信号905として重みつき加算部407に供給される。重みつき加算部407には、また、閾値記憶部401から閾値(THn-1 )902と、重み記憶部408から重み903が供給される。
【0024】
重みつき加算部407は、閾値記憶部401から供給される閾値(THn-1 )902を、重みつき加算部制御信号905に基づいて選択的に更新する。更新閾値THn は、閾値(THn-1 )902と劣化音声パワー(Qn )901を、重み記憶部408から供給される重み903を用いて重みつき加算することによって求められる。更新閾値THn の計算は、論理否定回路409の出力である重みつき加算部制御信号905が“1”に等しいときだけ行なわれる。すなわち、無音のときだけ、閾値THn-1 がTHn に更新される。更新によって得られた更新閾値THn は、更新閾値904として閾値記憶部401に帰還される。
【0025】
図50は、図49に示した音声検出部4に含まれるパワー計算部406の構成を示すブロック図である。パワー計算部406は、分離部4061、K個の乗算器40620 〜4062K-1 、加算器4063を有する。多重化された状態で図48におけるフーリエ変換部3から供給された劣化音声振幅スペクトル|Yn(k)|は、分離部4061において周波数別のKサンプルに分離され、それぞれ乗算器40620 〜4062K-1 に供給される。乗算器40620 〜4062K-1 は、それぞれ入力された信号を2乗し、加算器4063に伝達する。加算器4063は、入力された信号の総和を求めて出力する。
【0026】
図51は、図49に示した音声検出部4に含まれる重みつき加算部407の構成を示すブロック図である。重みつき加算部407は、乗算器4071,4073、定数乗算器4075、加算器4072,4074を有する。図49における乗算器404から劣化音声パワー(Qn )901が、図49における閾値記憶部401から閾値(THn-1 )902が、図49における重み記憶部408から重み903が、図49における論理否定回路409から重みつき加算部制御信号905が、それぞれ入力として供給される。
【0027】
値βを有する重み903は、定数乗算器4075と乗算器4073に伝達される。定数乗算器4075は入力信号を−1倍して得られた−βを、加算器4074の一方の入力として供給する。加算器4074の他方の入力としては1が供給されており、加算器4074の出力は両者の和である1−βとなる。1−βは乗算器4071の一方の入力として供給されて、他方の入力である劣化音声パワー(Qn )901と乗算され、積である(1−β)Qn が加算器4072に伝達される。
【0028】
一方、乗算器4073では、重み903として供給されたβと閾値(THn-1 )902が乗算され、積であるβTHn-1 が加算器4072に伝達される。加算器4072は、βTHn-1 と(1−β)Qn の和を、更新閾値(THn )904として出力する。
更新閾値THn の計算は、重みつき加算部制御信号905が“1”に等しいときだけ行なわれる。すなわち、重みつき加算部407の機能は、無音のときに、閾値THn -1を更新してTHn を求めることであり、式(9)によって表すことができる。
【0029】
【数9】
【0030】
図48における多重乗算部17について説明する。図52は、多重乗算部17の構成を示すブロック図である。多重乗算部17は、K個の乗算器17010 〜1701K-1 、分離部1702,1703、多重化部1704を有する。多重化された状態で図48におけるフーリエ変換部3から供給された劣化音声振幅スペクトルは、分離部1702及び1703において周波数別のKサンプルに分離され、それぞれ乗算器17010 〜1701K-1 に供給される。乗算器17010 〜1701K-1 は、それぞれ入力された信号を2乗し、多重化部1704に伝達する。多重化部1704は、入力された信号を多重化し、劣化音声パワースペクトルとして出力する。
【0031】
図48における推定雑音計算部51について説明する。図53は、推定雑音計算部51の構成を示すブロック図である。推定雑音計算部51は、分離部502、多重化部503、K個の周波数別推定雑音計算部5140 〜514K-1 を有する。図48における音声検出部4から供給された音声検出フラグと図48におけるカウンタ13から供給されたカウント値は、周波数別推定雑音計算部5140 〜514K-1 に伝達される。図48における多重乗算部17から供給された劣化音声パワースペクトルは、分離部502に伝達される。
【0032】
分離部502は、多重化された状態で供給された劣化音声パワースペクトルをK個の周波数に対応した成分に分離して、それぞれ周波数別推定雑音計算部5140 〜514K-1 に伝達する。周波数別推定雑音計算部5140 〜514K-1 は、分離部502から供給された劣化音声パワースペクトルを用いて雑音パワースペクトルを計算し、多重化部503に伝達する。雑音パワースペクトルの計算は、カウント値と音声検出フラグの値によって制御され、予め定めた条件が満足されるときだけ実行される。多重化部503は、供給されたK個の雑音パワースペクトル値を多重化して、推定雑音パワースペクトルとして出力する。
【0033】
図54は、図53に示した推定雑音計算部51に含まれる周波数別推定雑音計算部514の構成を示すブロック図である。文献2で開示された雑音推定は、無音区間において雑音推定値を更新するものであり、雑音推定値として巡回型フィルタによる平均化を施した推定雑音の瞬時値を用いている。一方、「1998年5月、アイ・イー・イー・イー・トランザクションズ・オン・スピーチ・アンド・オーディオ・プロセシング、第6巻、第3号(IEEE TRANS-ACTIONS ON SPEECH AND AUDIO PROCESSING, VOL.6, NO.3, PP.287-292, MAY, 1998 )、287〜292ページ」(文献4)に開示された雑音推定では、推定雑音の瞬時値を平均化して用いると記述されている。これは、巡回型の代わりにトランスバーサル型フィルタ(シフトレジスタを用いた構成)を用いた平均化の実現を示唆している。どちらの実現も機能は等しいので、ここでは文献4に開示された方法について説明する。
【0034】
周波数別推定雑音計算部514は、更新判定部521、レジスタ長記憶部5941、スイッチ5044、シフトレジスタ5045、加算器5046、最小値選択部5047、除算部5048、カウンタ5049を有する。
スイッチ5044には、図53における分離部502から、周波数別劣化音声パワースペクトルが供給されている。スイッチ5044が回路を閉じたときに、周波数別劣化音声パワースペクトルは、シフトレジスタ5045に伝達される。シフトレジスタ5045は、更新判定部521から供給される制御信号に応じて、内部レジスタの記憶値を隣接レジスタにシフトする。シフトレジスタ長は、後述するレジスタ長記憶部5941に記憶されている値に等しい。シフトレジスタ5045の全レジスタ出力は、加算器5046に供給される。加算器5046は、供給された全レジスタ出力を加算して、加算結果を除算部5048に伝達する。
【0035】
一方、更新判定部521には、カウント値と音声検出フラグが供給されている。更新判定部521は、カウント値が予め設定された値に到達するまでは常に“1”を、到達した後は音声検出フラグが“0”である(無音の)ときに“1”を、それ以外のときに“0”を出力し、制御信号としてカウンタ5049、スイッチ5044、及びシフトレジスタ5045に伝達する。スイッチ5044は、更新判定部521から供給された制御信号が“1”のときに回路を閉じ、“0”のときに開く。カウンタ5049は、更新判定部521から供給された制御信号が“1”のときにカウント値を増加し、“0”のときには変更しない。シフトレジスタ5045は、更新判定部521から供給された信号が“1”のときにスイッチ5044から供給される信号サンプルを1サンプル取り込むと同時に、内部レジスタの記憶値を隣接レジスタにシフトする。
【0036】
最小値選択部5047には、カウンタ5049の出力とレジスタ長記憶部5941の出力が供給されている。最小値選択部5047は、供給されたカウント値とレジスタ長のうち、小さい方を選択して、除算部5048に伝達する。除算部5048は、加算器5046から供給された周波数別劣化音声パワースペクトルの加算値をカウント値又はレジスタ長の小さい方の値で除算し、商を周波数別推定雑音パワースペクトルλn(k)として出力する。Bn(k)(n=0,1,....,N−1)をシフトレジスタ5045に保存されている劣化音声パワースペクトルのサンプル値とすると、λn(k)は式(10)で与えられる。
【0037】
【数10】
【0038】
ただし、Nはカウント値とレジスタ長のうち、小さい方の値である。カウント値はゼロから始まって単調に増加するので、最初はカウント値で除算が行なわれ、後にはレジスタ長で除算が行なわれる。一方、実際に値が記憶されているレジスタの数は、カウント値がレジスタ長より小さいときはカウント値に等しく、カウント値がレジスタ長より大きくなると、レジスタ長と等しくなる。したがって、加算器5046から供給された周波数別劣化音声パワースペクトルの加算値を、実際に値が記憶されているレジスタの数で除算することになる。カウント値がレジスタ長より大きいときは、シフトレジスタ5045に格納された値の平均値を求めることになる。この演算結果が周波数別推定雑音パワースペクトルとなる。
【0039】
図55は、図54に示した周波数別推定雑音計算部514に含まれる更新判定部521の構成を示すブロック図である。更新判定部521は、論理否定回路5202、比較部5203、閾値記憶部5204、論理和計算部5211を有する。
図48におけるカウンタ13から供給されるカウント値は、比較部5203に伝達される。閾値記憶部5204の出力である閾値も、比較部5203に伝達される。比較部5203は、供給されたカウント値と閾値を比較し、カウント値が閾値より小さいときに“1”を、カウント値が閾値より大きいときに“0”を、論理和計算部5211に伝達する。
【0040】
一方、供給された音声検出フラグは論理否定回路5202に伝達される。論理否定回路5202は、入力された信号の論理否定値を求め、論理和計算部5211に伝達する。すなわち、音声検出フラグが“1”である有音部では“0”を、音声検出フラグが“0”である無音部では“1”を、論理和計算部5211に伝達することになる。
その結果、論理和計算部5211の出力は、音声検出フラグが“0”である無音部のとき、又はカウント値が閾値より小さいときに“1”となって、図54におけるスイッチ5044を閉じ、カウンタ5049をカウントアップさせる。
【0041】
図48における周波数別SNR計算部6について説明する。図56は、周波数別SNR計算部6の構成を示すブロック図である。周波数別SNR計算部6は、K個の除算部6010 〜601K-1 、分離部602,603、多重化部604を有する。図48における多重乗算部17から供給される劣化音声パワースペクトルは、分離部602に伝達される。図48における推定雑音計算部51から供給される推定雑音パワースペクトルは、分離部603に伝達される。劣化音声パワースペクトルは分離部602において、推定雑音パワースペクトルは分離部603において、それぞれ周波数成分に対応したKサンプルに分離され、それぞれ除算部6010 〜601K-1 に供給される。除算部6010 〜601K-1 では、式(11)に従って、供給された劣化音声パワースペクトル|Yn(k)|2 を推定雑音パワースペクトルλn(k)で除算して周波数別SNRγn(k)を求め、多重化部604に伝達する。多重化部604は、伝達されたK個の周波数別SNRγn(k)を多重化して、後天的SNRとして出力する。
【0042】
【数11】
【0043】
図48における推定先天的SNR計算部7について説明する。図57は、推定先天的SNR計算部7の構成を示すブロック図である。推定先天的SNR計算部7は、多重値域限定処理部701、後天的SNR記憶部702、抑圧係数記憶部703、多重乗算部704,705、重み記憶部706、多重重みつき加算部707、加算器708を有する。
図48における周波数別SNR計算部6から供給される後天的SNRγn(k)(k=0,1,....,K−1)は、加算器708の一方の端子と、後天的SNR記憶部702に伝達される。後天的SNR記憶部702は、第nフレームにおける後天的SNRγn(k)を記憶すると共に、第n−1フレームにおける後天的SNRγn-1(k)を多重乗算部705に伝達する。
【0044】
図48における雑音抑圧係数生成部8から供給される抑圧係数Gn(k)バー(k=0,1,....,K−1)は、抑圧係数記憶部703に伝達される。抑圧係数記憶部703は、第nフレームにおける抑圧係数Gn(k)バーを記憶すると共に、第n−1フレームにおける抑圧係数Gn-1(k)バーを多重乗算部704に伝達する。多重乗算部704は、供給されたGn-1(k)バーを2乗してG2 n-1(k)バーを求め、多重乗算部705に伝達する。多重乗算部705は、G2 n-1(k)バーとγn-1(k)をk=0,1,....,K−1に対して乗算してG2 n-1(k)バーγn-1(k)を求め、その結果を多重重みつき加算部707に過去の推定SNR922として伝達する。多重乗算部704及び705の構成は、既に図52を用いて説明した多重乗算部17に等しいので、詳細な説明は省略する。
【0045】
加算器708の他方の端子には−1が供給されており、加算結果γn(k)−1が多重値域限定処理部701に伝達される。多重値域限定処理部701は、加算器708から供給された加算結果γn(k)−1に値域限定演算子P[・]による演算を施し、その結果であるP[γn(k)−1]を多重重みつき加算部707に瞬時推定SNR921として伝達する。ただし、P[x]は式(12)で定められる。
【0046】
【数12】
【0047】
多重重みつき加算部707には、また、重み記憶部706から重み923が供給されている。多重重みつき加算部707は、これらの供給された瞬時推定SNR921、過去の推定SNR922、重み923を用いて推定先天的SNR924を求める。重み923をαとし、ξn(k)ハットを推定先天的SNRとすると、ξn(k)ハットは、式(13)によって計算される。ここに、右辺第1項の初期値(n=0)を、γ-1(k)G2 -1(k)バー=1とする。
【0048】
【数13】
【0049】
図58は、図57に示した推定先天的SNR計算部7に含まれる多重値域限定処理部701の構成を示すブロック図である。多重値域限定処理部701は、定数記憶部7011、K個の最大値選択部70120 〜7012K-1 、分離部7013、多重化部7014を有する。分離部7013には、図57における加算器708から、γn(k)−1が供給される。分離部7013は、供給されたγn(k)−1をK個の周波数別成分に分離し、それぞれ最大値選択部70120 〜7012K-1 の一方の入力に供給する。最大値選択部70120〜7012K-1の他方の入力には、定数記憶部7011からゼロが供給されている。最大値選択部70120 〜7012K-1 は、γn(k)−1をゼロと比較し、大きい方の値を多重化部7014へ伝達する。この最大値選択演算は、式(12)を実行することに相当する。多重化部7014は、これらの値を多重化して出力する。
【0050】
図59は、図57に示した推定先天的SNR計算部7に含まれる多重重みつき加算部707の構成を示すブロック図である。多重重みつき加算部707は、K個の重みつき加算部70710 〜7071K-1 、分離部7072,7074、多重化部7075を有する。
【0051】
分離部7072には、図57における多重値域限定処理部701から、P[γn(k)−1]が瞬時推定SNR921として供給される。分離部7072は、P[γn(k)−1]をK個の周波数別成分に分離し、周波数別瞬時推定SNR9210 〜921K-1 として、それぞれ重みつき加算部70710 〜7071K-1 に伝達する。分離部7074には、図57における多重乗算部705から、G2 n-1(k)バーγn-1(k)が過去の推定SNR922として供給される。分離部7074は、G2 n-1(k)バーγn-1(k)をK個の周波数別成分に分離し、過去の周波数別推定SNR9220 〜922K-1 として、それぞれ重みつき加算部70710 〜7071K-1 に伝達する。一方、重みつき加算部70710 〜7071K-1 には、重み923も供給される。重みつき加算部70710 〜7071K-1 は、式(13)によって表される重みつき加算を実行し、周波数別推定先天的SNR9240 〜924K-1 を多重化部7075に伝達する。多重化部7075は、周波数別推定先天的SNR9240 〜924K-1 を多重化し、推定先天的SNR924として出力する。
重みつき加算部70710 〜7071K-1 の構成と動作は、既に図51を用いて説明した重みつき加算部407と等しいので、詳細な説明は省略する。但し、重みつき加算の計算は常に行なわれる。
【0052】
図48における雑音抑圧係数生成部8について説明する。図60は、雑音抑圧係数生成部8の構成を示すブロック図である。雑音抑圧係数生成部8は、K個の抑圧係数検索部8010 〜801K-1 、分離部802,803、多重化部804を有する。分離部802には、図48における周波数別SNR計算部6から後天的SNRが供給される。分離部802は、供給された後天的SNRをK個の周波数別成分に分離し、それぞれ抑圧係数検索部8010 〜801K-1 に伝達する。分離部803には、図48における推定先天的SNR計算部7から推定先天的SNRが供給される。分離部803は、供給された推定先天的SNRをK個の周波数別成分に分離し、それぞれ抑圧係数検索部8010 〜801K-1 に伝達する。抑圧係数検索部8010 〜801K-1 は、供給された後天的SNRと推定先天的SNRに対応した抑圧係数を検索し、検索結果を多重化部804に伝達する。多重化部804は、供給された抑圧係数を多重化して出力する。
【0053】
図61は、図60に示した雑音抑圧係数生成部8に含まれる抑圧係数検索部8010 〜801K-1 の構成を示すブロック図である。抑圧係数検索部801は、抑圧係数テーブル8011、アドレス変換部8012,8013を有する。アドレス変換部8012には、図60における分離部802から、周波数別後天的SNRが供給される。アドレス変換部8012は、供給された周波数別後天的SNRを対応したアドレスに変換し、抑圧係数テーブル8011に伝達する。アドレス変換部8013には、図60における分離部803から、周波数別推定先天的SNRが供給される。アドレス変換部8013は、供給された周波数別推定先天的SNRを対応したアドレスに変換し、抑圧係数テーブル8011に伝達する。抑圧係数テーブル8011は、アドレス変換部8012とアドレス変換部8013から供給されたアドレスに対応した領域に格納されている抑圧係数を、周波数別抑圧係数として出力する。ここでは、特定の統計モデルに従う背景雑音を仮定して導出した抑制係数が用いられている。
【0054】
【発明が解決しようとする課題】
このように、従来のノイズ除去装置及び方法では、特定の統計モデルに従う背景雑音を仮定して導出した抑圧係数を用いて雑音抑圧を行なっていたため、その統計モデルに従わない雑音を効果的に除去することができなかった。このため、十分高い強調音声の品質を達成できなかった。
また、従来のノイズ除去装置及び方法では、逆フーリエ変換して得られた時間領域信号の隣接する2フレームから取り出した信号サンプルを重ね合わせ加算することによって、強調音声を得ていた。一方、フーリエ変換前に時間領域信号にかける窓関数は、雑音抑圧処理を行なわないときに、入力が出力において再現されるように設計されていた。このため、重ね合わせ加算の対象となった信号サンプルが、隣接するフレームにおいて異なった抑圧係数値で抑圧されると、フレーム境界において信号サンプルに不連続性を生じ、出力信号に発生する雑音によって音質が劣化してしまっていた。
【0055】
以上のように従来のノイズ除去装置及び方法には、優れた音質の強調音声を得ることができないという問題があった。
本発明はこのような課題を解決するためになされたものであり、その目的は、優れた音質の強調音声を得ることができるノイズ除去装置及び方法を提供することにある。
【0056】
【課題を解決するための手段】
このような目的を達成するために、本発明のノイズ除去方法は、入力信号に基づいて擬似的な雑音を生成し、この擬似的な雑音を注入して得られた抑圧係数を用いることを特徴とする。抑圧係数を定めるときに上述した擬似的な雑音を注入することにより、特定の統計モデルに従う背景雑音を仮定して導出した抑圧係数を、入力信号に応じて補正することができる。
【0060】
より具体的には、本発明のノイズ除去方法は、入力信号を周波数領域信号に変換し、この周波数領域信号を用いて信号対雑音比を求め、この信号対雑音比を周波数領域信号に基づいて補正し、この補正した信号対雑音比に基づいて抑圧係数を定め、この抑圧係数を用いて周波数領域信号を重みづけし、この重みづけした周波数領域信号を時間領域信号に変換することによって、入力信号からノイズを除去した出力信号を得ることを特徴とする。
【0061】
このノイズ除去方法において、信号対雑音比の補正を、入力信号の性質に応じて選択的に行なってもよい。これにより、例えば抑圧係数の導出に用いられた統計モデルに従わない雑音を含む信号が入力された場合だけ信号対雑音比を補正し、抑圧係数の補正を選択的に行うことができる。
ここで、入力信号の性質として、信号の定常性を用いてもよい。言うなれば、信号の性質、例えば平均パワーやスペクトル形状等が、時間と共にどの程度変化するかを基準として、信号対雑音比の補正を行ってもよい。
信号の定常性としては、入力信号の振幅がゼロとなるゼロ交叉の数を用いてもよいし、このゼロ交差の数と相関を示す前記周波数領域信号の高域電力を用いてもよい。
【0062】
また、入力信号を変換した周波数領域信号に基づいて周波数領域信号に含まれる雑音を推定し、この雑音と周波数領域信号とを用いて信号対雑音比の補正量を定めるようにしてもよい。
また、入力信号を変換した周波数領域信号に基づいて周波数領域信号に含まれる雑音を推定し、この雑音及び信号対雑音比を用いて加算信号を求め、この加算信号と周波数領域信号との和、及び加算信号と雑音との和を用いて信号対雑音比を再計算することによって信号対雑音比の補正を行なうようにしてもよい。
ここで、入力信号を変換した周波数領域信号を重みづけし、この重みづけした周波数領域信号に基づいて雑音を推定するようにしてもよい。
【0063】
また、上述したノイズ除去方法において、周波数領域信号に基づいて抑圧係数を補正し、この補正した抑圧係数を用いて周波数領域信号を重みづけするようにしてもよい。これにより、信号対雑音比が低いときに抑圧不足により発生する残留雑音や、信号対雑音比が高いときに過度の抑圧で発生する音声の歪みによる音質劣化を防ぐことができる。
また、上述したノイズ除去方法において、周波数領域信号を変換した時間領域信号に窓がけ処理を施してもよい。
【0074】
また、本発明のノイズ除去装置は、入力信号に窓がけ処理を施して出力する第1の窓がけ処理部と、この第1の窓がけ処理部により窓がけ処理された入力信号を周波数領域信号に変換し,振幅成分と位相成分に分離して出力する変換部と、周波数領域信号の振幅成分を用いて第1の信号対雑音比を求めて出力する第1の信号対雑音比計算部と、周波数領域信号の振幅成分に基づいて周波数領域信号に含まれる雑音を推定して出力する推定雑音計算部と、雑音と周波数領域信号の振幅成分を用いて第1の信号対雑音比を補正し,補正信号対雑音比として出力する信号対雑音比補正部と、補正信号対雑音比に基づいて抑圧係数を定めて出力する抑圧係数生成部と、抑圧係数を用いて周波数領域信号の振幅成分を重みづけして出力する第1の乗算部と、この第1の乗算部により重みづけされた周波数領域信号の振幅成分と周波数領域信号の位相成分を時間領域信号に変換して出力する逆変換部と、時間領域信号に窓がけ処理を施す第2の窓がけ処理部とを少なくとも具備することを特徴とする。
【0075】
ここで、信号対雑音比補正部は、入力信号が入力され,入力信号の振幅がゼロとなるゼロ交叉の数を計算し,その計算結果に応じた制御信号を出力する判定部と、この判定部から入力された制御信号によって補正信号対雑音比を選択的に補正前の第1の信号対雑音比と同じ値に設定するスイッチとを含む構成としてもよい。
また、信号対雑音比補正部は、変換部から入力された周波数領域信号の振幅成分の高域電力を計算し,その計算結果に応じた制御信号を出力する判定部と、この判定部から入力された制御信号によって補正信号対雑音比を選択的に補正前の第1の信号対雑音比と同じ値に設定するスイッチとを含む構成としてもよい。
【0076】
また、上述したノイズ除去装置は、周波数領域信号の振幅成分を重みづけし,得られた重みつき振幅成分を推定雑音計算部に出力し,推定雑音計算部に重みつき振幅成分に基づいて雑音を推定させる重みつき劣化音声計算部を更に具備するものであってもよい。
ここで、重みつき劣化音声計算部は、周波数領域信号の振幅成分を用いて第2の信号対雑音比を計算して出力する第2の信号対雑音比計算部と、この第2の信号対雑音比計算部から入力された第2の信号対雑音比を非線形関数によって処理して重みを求め出力する非線形処理部と、この非線形処理部から入力された重みを用いて周波数領域信号の振幅成分を重みづけし,推定雑音計算部に出力する第2の乗算部とを含む構成としてもよい。
【0077】
また、上述したノイズ除去装置は、抑圧係数生成部から入力された抑圧係数を,周波数領域信号に基づいて補正して第1の乗算部に出力し、第1の乗算部に補正した抑圧係数を用いて周波数領域信号の振幅成分を重みづけさせる抑圧係数補正部を更に具備するものであってもよい。
【0078】
【発明の実施の形態】
以下、図面を参照して、本発明の実施の形態について詳細に説明する。
【0079】
(第1の参考例)
図1は、本発明のノイズ除去装置に関連する第1の参考例の全体構成を示すブロック図である。このノイズ除去装置と、図48に示した従来のノイズ除去装置とは、窓がけ処理部22、注入雑音計算部55、加算器56,57を除いて同一である。この同一部分については同一符号を付している。以下、上述の相違点を中心に詳細に説明する。
【0080】
窓がけ処理部22は、逆フーリエ変換部9から供給された時間領域サンプル値系列xn(t)バーに窓関数h(t)を乗算し、積であるh(t)xn(t)バーをフレーム合成部10に伝達する。フレーム合成部10は、h(t)xn(t)バーの隣接する2フレームからK/2サンプルずつを取り出して重ね合わせ、式(14)によって、強調音声xn(t)ハット(t=0,1,....,K/2−1)を得る。得られた強調音声xn(t)ハットが、フレーム合成部10の出力として、出力端子12に伝達される。
【0081】
【数14】
【0082】
オーバラップが、50%ではなく、Mサンプルで、フレーム長がLサンプル(M<L)の場合は、式(15)によって、強調音声xn(t)ハットを得る。これに合わせて、フレーム分割部も修正する。
【0083】
【数15】
【0084】
すでに述べたように、実数信号に対しては、左右対称窓関数が用いられる。また、窓関数は、抑圧係数を1に設定したときの入力信号と出力信号が計算誤差を除いて一致するように設計される。これらの条件を満たすいかなる窓関数であっても、w(t)、h(t)として使用することができる。その一例として、ハニング窓を開平した関数(ルートハニング窓)を挙げることができる。他にもこれらの条件を満たす窓関数は存在するが、詳細は省略する。
隣接する2フレームを構成するxn-1(t)バーとxn(t)バーが各フレームにおいて異なった抑圧係数値で抑圧されたとしても、xn-1(t)バーとxn(t)バーのそれぞれに上述した窓関数h(t)を乗算してフレーム境界におけるxn-1(t)バーとxn(t)バーの振幅を小さくすることによって、フレーム境界における連続性を改善し、雑音の発生を低減することができる。よって、雑音による音質劣化を抑制し、優れた音質の強調音声を得ることができる。
【0085】
注入雑音計算部55は、それぞれ多重乗算部17及び推定雑音計算部51から供給された劣化音声パワースペクトル及び推定雑音パワースペクトルを用いて、注入すべき擬似的な雑音(第1の雑音)を計算し、加算器56及び57に伝達する。加算器56は、推定雑音計算部51から供給された推定雑音パワースペクトルに注入雑音計算部55で得られた注入雑音を加算し、その和を周波数別SNR計算部6に伝達する。加算器57は、多重乗算部17から供給された劣化音声パワースペクトルに注入雑音計算部55で得られた注入雑音を加算し、その和を周波数別SNR計算部6に伝達する。
【0086】
図2は、注入雑音計算部55の構成を示すブロック図である。注入雑音計算部55は、SNR計算部551、しきい値計算部552、注入レベル計算部553を有する。図1における多重乗算部17から供給された劣化音声パワースペクトルは、SNR計算部551に伝達される。図1における推定雑音計算部51から供給された推定雑音パワースペクトルは、SNR計算部551及びしきい値計算部552に伝達される。SNR計算部551で得られたSNRとしきい値計算部552で得られたしきい値は、注入レベル計算部553に供給される。注入レベル計算部553では、供給されたSNRとしきい値に応じて、注入すべき雑音レベルを計算し、そのレベルに対応した信号を注入雑音として出力する。
【0087】
注入すべき雑音をWn(k)とすれば、Wn(k)はSNRが大きいほど小さい値をとるように設定される。このようなSNRとWn(k)の関係として、SNRが第1のしきい値TH1 よりも大きいときに第1の値W1 をとり、SNRが第2のしきい値TH2 (<TH1 )よりも小さいときに第2の値W2 (>W1 )をとり、SNRが第1のしきい値TH1 と第2のしきい値TH2 の中間の値をとるときには、SNRに対応してWn(k)が小さくなるような関数を考えることができる。最も簡単な例は、図3に示すように、SNRが第1のしきい値TH1 と第2のしきい値TH2 の中間の値をとるときには、第1の値W1 から第2の値W2 まで、直線的に変化する関数である。
【0088】
第1と第2のしきい値TH1 ,TH2 は独立に決定することができるが、第2のしきい値TH2 を第1のしきい値TH1 の定数倍に設定し、計算の簡略化をはかることもできる。同様に、独立に決定することができるWn(k)の第1と第2の値W1 ,W2 も第2の値W2 を第1の値W1 の定数倍に設定することができる。
また、Wn(k)の第1と第2の値W1 ,W2 は、推定雑音のレベルに対応して決定することができる。推定雑音レベルが高い時はWn(k)の第1と第2の値W1 ,W2 を小さくし、低い時は大きくする。このようにWn(k)の第1と第2の値W1 ,W2 を設定することで、同じSNRの値に対して、推定雑音レベルが高い時ほど容易に小さなWn(k)が設定できる。この場合、注入レベル計算部553に推定雑音パワースペクトルを供給する構成とすることは、言うまでもない。
【0089】
さらに、しきい値TH1 ,TH2 も、推定雑音のレベルに対応して決定することができる。推定雑音レベルが高い時はしきい値TH1 ,TH2 を小さくし、低い時は大きくする。このようにしきい値TH1 ,TH2 を設定することで、同じSNRの値に対して、推定雑音レベルが高い時ほど容易に小さなWn(k)が設定できる。推定雑音レベルが高い時ほどWn(k)を小さくする理由は、推定雑音レベルが高い時には、従来の抑圧係数がほぼ適切であり、雑音注入による抑圧係数の補正量が小さいからである。この結果、本来の抑圧量が小さく、残留する雑音が知覚されやすいときに、中程度の振幅を有した成分を相対的に大きく抑圧することができ、主観音質の改善を達成することができる。
【0090】
これまでの説明では、注入すべき雑音をWn(k)としており、各周波数成分に対して異なった雑音を注入する例について説明した。実際、注入雑音計算部55に供給される劣化音声パワースペクトル及び推定雑音パワースペクトルは、全周波数成分に対応した値が多重化されている。従って、SNR計算部551で得られたSNRとしきい値計算部552で得られたしきい値の数は、周波数成分の数に対応している。しかし、これらのSNRとしきい値を、すべての周波数成分に対して共通に設定しても良い。
【0091】
一例として、劣化音声パワースペクトル及び推定雑音パワースペクトルを、全周波数成分に対して加算して総和をとり、それらの比を共通SNRとし、また、推定雑音パワースペクトルの平均値を用いてしきい値を求めることができる。その際には、SNR計算部551及びしきい値計算部552では、各周波数成分に対応した値を分離してから個々の値を用いてSNRとしきい値を計算する代わりに、前記総和と平均値を用いて、全周波数成分に対して共通のSNRとしきい値を計算することになる。これらの値が、周波数別SNR計算部6に伝達される。
【0092】
周波数別SNR計算部6では、式(11)の代わりに、式(16)によって、周波数別SNRγn(k)を計算する。
【0093】
【数16】
【0094】
式(16)を参照すると、SNR>0の領域では、|Yn(k)|2 >λn(k)なので、雑音注入時のSNRγn(k)は本来の値よりも小さくなるように修正される。一方、文献1を参照すると、SNRに対する抑圧係数の特性は、図4に示すように、SNRに対応して漸増した後、あるSNRの値において急増し、再び漸増から飽和をたどる。このため、雑音注入によってγn(k)の値が小さくなると、上記抑圧係数値が急変する近傍のSNRに対して、相対的に抑圧係数減少効果が大きくなる。従って、そのようなSNRに対応した周波数成分、具体的には中程度の振幅を有した成分が、相対的に大きく抑圧されることになる。このため、音声よりは振幅が小さいが無視できない程度の背景雑音の一部がより強く抑圧され、強調音声において雑音として知覚されにくくなる。よって、実際の背景雑音に対して、十分高い品質の強調音声を得ることができる。
【0095】
(第1の実施の形態)
図5は、本発明のノイズ除去装置の第1の実施の形態の全体構成を示すブロック図である。このノイズ除去装置は、図1に示したノイズ除去装置が具備する注入雑音計算部55、加算器56,57の代わりに、SNR補正部65を具備するものである。以下、これらの相違点を中心に詳細に説明する。
【0096】
SNR補正部65には、多重乗算部17、推定雑音計算部51、及び周波数別SNR計算部6から、それぞれ劣化音声パワースペクトル、推定雑音パワースペクトル、及び後天的SNRが供給されている。SNR補正部65からは、補正後天的SNRが推定先天的SNR計算部7及び雑音抑圧係数生成部8に供給される。
すなわち、図1に示したノイズ除去装置では、雑音を注入した劣化音声パワースペクトルと雑音を注入した推定雑音パワースペクトルを用いて、後天的SNRを計算していたのに対して、図5に示したノイズ除去装置では、劣化音声パワースペクトルと推定雑音パワースペクトルを用いて計算した注入雑音を用いて、計算した後天的SNRを補正する。
【0097】
図5におけるSNR補正部65について、さらに説明する。
図6は、SNR補正部65の一構成例を示すブロック図である。SNR補正部65は、K個の補正SNR計算部6540 〜654K-1 、分離部651、652、653、多重化部655を有する。
分離部651には、図5における周波数別SNR計算部6から後天的SNRが供給される。分離部651は、供給された後天的SNRをK個の周波数別成分に分離し、それぞれ補正SNR計算部6540 〜654K-1 に伝達する。分離部652には、図5における多重乗算部17から劣化音声パワースペクトルが供給される。分離部652は、供給された劣化音声パワースペクトルをK個の周波数別成分に分離し、それぞれ補正SNR計算部6540 〜654K-1 に伝達する。分離部653には、図5における推定雑音計算部51から推定雑音パワースペクトルが供給される。分離部653は、供給された推定雑音パワースペクトルをK個の周波数別成分に分離し、それぞれ補正SNR計算部6540 〜654K-1 に伝達する。補正SNR計算部6540 〜654K-1 は、供給された劣化音声パワースペクトルと推定雑音パワースペクトルに対応した補正を後天的SNRに加え、補正後天的SNRを多重化部655に伝達する。多重化部655は、供給された補正後天的SNRを多重化して出力する。
【0098】
図7は、図6に示したSNR補正部65に含まれる補正SNR計算部6540 〜654K-1 の構成を示すブロック図である。補正SNR計算部654は、しきい値計算部6541、注入雑音計算部6542、加算器6543,6544、除算部6545を有する。
【0099】
しきい値計算部6541には、図6における分離部653から推定雑音パワースペクトルが供給されており、図2におけるしきい値計算部552と同様の動作によってしきい値を計算し、注入雑音計算部6542に伝達する。注入雑音計算部6542には、図6における分離部651から後天的SNRも供給されており、図2における注入レベル計算部553と同様の動作によって注入すべき擬似的な雑音(第1の雑音,加算信号)を計算し、加算器6543及び6544に伝達する。加算器6543には、図6における分離部653から推定雑音パワースペクトルも供給されており、注入雑音計算部6542から供給された雑音との加算結果を除算部6545に伝達する。加算器6544には、図6における分離部652から劣化音声パワースペクトルも供給されており、注入雑音計算部6542から供給された雑音との加算結果を除算部6545に伝達する。除算部6545は、加算器6543の出力と加算器6544の出力から求めた商を、補正後天的SNRとして出力する。
【0100】
図8は、SNR補正部65の他の構成例を示すブロック図である。この構成例では、SNRとしきい値を、すべての周波数成分に対して共通に設定している。このため、図6に示した構成例と比較すると、新たに平均値計算部661,663、注入雑音計算部662を有し、また補正SNR計算部6540 〜654K-1 を置き換える形で補正SNR計算部6640 〜664K-1 を有している。
【0101】
平均値計算部661は、分離部651から供給された後天的SNRγn(k)のkに関する平均を求め、注入雑音計算部662へ伝達する。従って、注入雑音計算部662へ伝達される値は、一つとなる。一方、平均値計算部663は、分離部653から供給された推定雑音パワースペクトルλn(k)のkに関する平均を求め、しきい値計算部6541へ伝達する。しきい値計算部6541は、すでに説明した動作によってしきい値を求め、注入雑音計算部662へ伝達する。注入雑音計算部662は、図7における注入雑音計算部6542と同じ手順で注入すべき擬似的な雑音(第1の雑音,加算信号)を計算し、補正SNR計算部6640 〜664K-1 へ伝達する。図6に示した構成例と異なり、補正SNR計算部6640 〜664K-1 へ伝達される注入雑音は、すべて同じ値である。
【0102】
図9は、図8に示したSNR補正部66に含まれる補正SNR計算部6640 〜664K-1 の構成を示すブロック図である。補正SNR計算部664は、注入雑音計算部662から供給された注入雑音を、推定雑音パワースペクトル及び劣化音声パワースペクトルに加算し、両者の商を求めてから、補正後天的SNRとして出力する。より具体的には、次のとおりである。
すなわち、注入雑音計算部662で計算された注入雑音は、加算器6543及び6544に伝達される。加算器6543には、図8における分離部653から推定雑音パワースペクトルも供給されており、注入雑音計算部662から供給された雑音との加算結果を除算部6545に伝達する。加算器6544には、図8における分離部652から劣化音声パワースペクトルも供給されており、注入雑音計算部6542から供給された雑音との加算結果を除算部6545に伝達する。除算部6545は、加算器6543の出力と加算器6544の出力から求めた商を、補正後天的SNRとして出力する。
【0103】
図8,図9に示した構成例では、補正SNR計算部6640 〜664K-1 に対して注入雑音計算部662としきい値計算部6541を共通化することによって、補正SNR計算部6640 〜664K-1 のすべてに注入雑音計算部としきい値計算部を設ける必要がなくなるので、構成を簡素化することができる。
【0104】
以上のようにしてSNR補正部65,66で後天的SNRを補正し、その結果得られた補正後後天的SNRを用いて抑圧係数を定めることによって、図1に示したノイズ除去装置と同様に、実際の背景雑音に対して十分高い品質の強調音声を得ることができる。
【0105】
(第2の参考例)
図10は、本発明のノイズ除去装置に関連する第2の参考例の全体構成を示すブロック図である。このノイズ除去装置は、図1に示したノイズ除去装置において、注入雑音計算部55を注入雑音計算部58で置換した構成になっている。以下、この相違点を中心に詳細に説明する。
図10に示すノイズ除去装置では、入力信号の性質に応じて、選択的に雑音注入を適用する。このため、入力信号の性質を評価するために、フレーム分割部1の出力である時間領域の劣化音声信号が、注入雑音計算部58に供給されている。
【0106】
図11は、図10における注入雑音計算部58の構成を示すブロック図である。図2に示した注入雑音計算部55とは、ゼロ交叉計算部581とスイッチ582をさらに具備する点が異なっている。
フレーム分割部1の出力である時間領域の劣化音声信号は、ゼロ交叉計算部581に供給されている。ゼロ交叉計算部581には、SNR計算部551からSNRが、しきい値計算部552からしきい値が、それぞれ供給されている。ゼロ交叉計算部581では、供給された劣化音声信号の振幅がゼロとなるゼロ交叉を計数する。同時に、SNRとしきい値から、SNRが前記第2のしきい値TH2 より小さいか否かを評価する。SNRが前記第2のしきい値TH2 より小さいときだけ、前記ゼロ交叉の数を過去の数フレームに渡って平均化する。すなわち、劣化音声が無音と判定したときだけ、平均値を求める。このようにして得られた平均値を第3のしきい値と比較し、平均値の方が大きいときに“1”を、それ以外の場合は“0”を、制御信号としてスイッチ582に伝達する。第3のしきい値は、予め定めておくこともできるし、動作途中で変更することもできる。
【0107】
スイッチ582には、注入レベル計算部553からは注入雑音が、0と共に供給されている。スイッチ582は、ゼロ交叉計算部581から制御信号として“1”が供給されたときは注入レベル計算部553から供給された注入雑音を、“0”が供給されたときは0を選択し、注入雑音として出力する。従って、ゼロ交叉の数の平均値が第3のしきい値より大きい場合のみに、注入レベル計算部553からの注入雑音が、図10における加算器56,57に供給されることになる。
ゼロ交叉の数は、非定常な信号ほど多くなることが知られているので、非定常性が一定以上の信号に対してだけ、雑音注入を実行し、抑圧係数の補正を行うことができる。
【0108】
(第3の参考例)
図12は、本発明のノイズ除去装置に関連する第3の参考例の全体構成を示すブロック図である。このノイズ除去装置は、図10に示したノイズ除去装置において、注入雑音計算部58を注入雑音計算部59で置換した構成になっている。以下、この相違点を中心に詳細に説明する。
【0109】
図12に示すノイズ除去装置では、入力信号の性質に応じて選択的に雑音注入を適用する点で、図10に示したノイズ除去装置と同じである。しかし、フレーム分割部1の出力である時間領域の劣化音声信号が、注入雑音計算部59に供給されていない。その理由は、図10に示したノイズ除去装置とは異なり、入力信号の性質を評価するために、時間領域の劣化音声信号を用いないためである。その代わりに、劣化音声パワースペクトルを用いる。図10に示したノイズ除去装置では、フレーム当たりのゼロ交叉の数を用いて信号の非定常性を評価していたが、ゼロ交叉の数と高周波領域(高域)におけるパワースペクトルには相関があることが知られているので、ゼロ交叉の数に代えて劣化音声パワースペクトルを用いることができる。
【0110】
図13は、図12における注入雑音計算部59の構成を示すブロック図である。図11に示した注入雑音計算部58との違いは、ゼロ交叉計算部581が高域電力計算部591に置換されていることである。
高域電力計算部591には、SNR計算部551と共に、劣化音声パワースペクトルが供給されている。高域電力計算部591は、劣化音声パワースペクトル|Yn(k)|2 のうち、kが基準値kTHよりも大きいものの総和をとる。基準値kTHは、総和をとることによって、上述した劣化音声信号のゼロ交叉の数に対応する高域電力が得られるように、劣化音声信号その他の条件に応じて設定される。この結果、前記ゼロ交叉の数に対応する高域電力が得られるので、この高域電力を第4のしきい値と比較した結果を用いて、図11に示した注入雑音計算部58と同様にスイッチ582を制御することができる。すなわち、高域電力の値によって、注入レベル計算部553から供給された注入雑音と0を選択し、注入雑音として出力する。
【0111】
なお、劣化音声パワースペクトル|Yn(k)|2 のうち、kが基準値kTHよりも大きいものを重みづけして総和をとり、高域電力を求めるようにしてもよい。また、第4のしきい値は、予め定めておくこともできるし、動作途中で変更することもできる。
【0112】
(第2の実施の形態)
図14は、本発明のノイズ除去装置の第2の実施の形態の全体構成を示すブロック図である。このノイズ除去装置は、図5に示したノイズ除去装置において、SNR補正部65をSNR補正部67で置換した構成になっている。以下、この相違点を中心に詳細に説明する。
図14に示すノイズ除去装置では、図10に示したノイズ除去装置と同様に、入力信号の性質に応じて、選択的に雑音注入を適用する。このため、入力信号の性質を評価するために、フレーム分割部1の出力である時間領域の劣化音声信号が、SNR補正部67に供給されている。
【0113】
図15は、図14におけるSNR補正部67の構成例を示すブロック図である。図8に示したSNR補正部65の構成例とは、注入雑音計算部662が注入雑音計算部672に置換されている点において異なる。注入雑音計算部662とは異なり、注入雑音計算部672には、入力信号の性質を評価するために、フレーム分割部1の出力である時間領域の劣化音声信号が供給されている。
【0114】
図16は、注入雑音計算部672の構成例を示すブロック図である。注入雑音計算部672は、注入レベル計算部6721、スイッチ6722、判定部6723を有する。注入レベル計算部6721と判定部6723には、図15における平均値計算部661から後天的SNRが、また図15におけるしきい値計算部6541からしきい値が、供給されている。判定部6723にはさらに、劣化音声信号が供給されている。注入レベル計算部6721は、図2における注入レベル計算部553と同様の動作により、注入レベルを求め、スイッチ6722に伝達する。判定部6723は、前記劣化音声信号、前記後天的SNR、前記しきい値を受け、入力信号の性質に応じた、スイッチ6722の制御信号を発生する。
【0115】
ここで、判定部6723は、さらに、無音区間検出部67231、ゼロ交叉計算部67232、比較部67233から構成される。無音区間検出部67231は、前記後天的SNRと前記しきい値を受け、SNRが前記第2のしきい値TH2 より小さいときに“1”を、それ以外の場合は“0”を、ゼロ交叉計算部67232に伝達する。すなわち、劣化音声が無音と判定されると“1”を、それ以外の場合は“0”をゼロ交叉計算部67232に伝達することになる。
ゼロ交叉計算部67232は、供給された劣化音声信号の振幅がゼロとなるゼロ交叉を計数し、無音区間検出部67231から“1”を受けたときだけ、前記ゼロ交叉の数を過去の数フレームに渡って平均化する。このようにして得られた平均値は、比較部67233に伝達される。
比較部67233は、供給された前記ゼロ交叉の平均値を前記第3のしきい値と比較し、平均値の方が大きいときに“1”を、それ以外の場合は“0”を、制御信号としてスイッチ6722に伝達する。
【0116】
スイッチ6722は、判定部6723の比較部67233から“1”が供給されたときは注入レベル計算部6721から供給された注入雑音を、“0”が供給されたときは0を選択し、注入雑音として出力する。すなわち、スイッチ6722の動作は図11におけるスイッチ582の動作に等しく、非定常性が一定以上の信号に対してだけ、雑音注入を実行し、抑圧係数の補正を行うことができる。
【0117】
(第3の実施の形態)
図17は、本発明のノイズ除去装置の第3の実施の形態の全体構成を示すブロック図である。このノイズ除去装置は、図14に示したノイズ除去装置において、SNR補正部67をSNR補正部68で置換した構成になっている。以下、この相違点を中心に詳細に説明する。
【0118】
図17に示すノイズ除去装置では、入力信号の性質に応じて、選択的に雑音注入を適用する。その際、図14に示したノイズ除去装置とは異なり、時間領域の劣化音声信号の代わりに劣化音声パワースペクトルを用いて、入力信号の性質を評価する。すなわち、フレーム当たりのゼロ交叉数で信号の非定常性を評価していた第2の実施の形態と異なり、高周波領域(高域)における劣化音声パワースペクトルを用いて信号の非定常性を評価する。このため、フレーム分割部1の出力である時間領域の劣化音声信号が、SNR補正部68に供給されていない。
図18は、図17におけるSNR補正部68の構成例を示すブロック図である。図15に示したSNR補正部67との違いは、注入雑音計算部672が注入雑音計算部682に置換されていることである。
【0119】
図19は、注入雑音計算部682の構成例を示すブロック図である。図16に示した注入雑音計算部672との違いは、ゼロ交叉計算部67232が高域電力計算部68232に置換されていることである。高域電力計算部68232には、無音区間計算部67231の出力信号と共に、劣化音声パワースペクトルが供給されている。高域電力計算部68232は、図13における高域電力計算部591と同様の動作によって、劣化音声パワースペクトル|Yn(k)|2 のうち、kが基準値kTHよりも大きいものの総和をとって、高域電力を求める。この高域電力は、比較部67233に伝達される。比較部67233は、この高域電力を前記第4のしきい値と比較した結果を用いて、スイッチ6722の制御信号を発生する。すなわち、高域電力の値によって、注入レベル計算部6721から供給された注入雑音と0を選択し、注入雑音として出力する。
【0120】
(第4の参考例)
図20は、本発明のノイズ除去装置に関連する第4の参考例の全体構成を示すブロック図である。このノイズ除去装置と図1に示したノイズ除去装置とは、推定雑音計算部5、重みつき劣化音声計算部14及び抑圧係数補正部15を除いて同一である。図20に示すノイズ除去装置の構成は、窓がけ処理部22及び注入雑音計算部58を除けば、「2000年4月、電子情報通信学会技術研究報告、DSP、53〜60ページ」(文献5)に開示されたものに等しい。文献5に開示された方法は、文献1に開示された従来の方法とは異なり、重みつき劣化音声スペクトルを用いて、雑音のパワースペクトルを推定することによって、正確な推定雑音を得ることができる。以下、これらの相違点を中心に詳細に説明する。
【0121】
まず、図20における重みつき劣化音声計算部14について説明する。図21は、重みつき劣化音声計算部14の構成を示すブロック図である。重みつき劣化音声計算部14は、推定雑音記憶部1401、周波数別SNR計算部1402、多重非線形処理部1405、及び多重乗算部1404を有する。推定雑音記憶部1401は、図20における推定雑音計算部5から供給される推定雑音パワースペクトルを記憶し、1フレーム前に記憶された推定雑音パワースペクトルを周波数別SNR計算部1402へ出力する。周波数別SNR計算部1402は、推定雑音記憶部1401から供給される推定雑音パワースペクトルと、図20における多重乗算部17から供給される劣化音声パワースペクトルを用いて、SNRを各周波数毎に求め、多重非線形処理部1405に出力する。多重非線形処理部1405は、周波数別SNR計算部1402から供給されるSNRを用いて重み係数ベクトルを計算し、重み係数ベクトルを多重乗算部1404に出力する。多重乗算部1404は、図20における多重乗算部17から供給される劣化音声パワースペクトルと、多重非線形処理部1405から供給される重み係数ベクトルの積を周波数毎に計算し、重みつき劣化音声パワースペクトルを図20における推定雑音計算部5に出力する。
【0122】
周波数別SNR計算部1402の構成は、既に図56を用いて説明した周波数別SNR計算部6に等しいので、詳細な説明は省略する。また、多重乗算部1404の構成は、既に図52を用いて説明した多重乗算部17に等しいので、詳細な説明は省略する。よって次に、図21における多重非線形処理部1405の構成と動作について詳しく説明する。
【0123】
図22は、重みつき劣化音声計算部14に含まれる多重非線形処理部1405の構成を示すブロック図である。多重非線形処理部1405は、分離部1495、K個の非線形処理部14850 〜1485K-1 、及び多重化部1475を有する。
分離部1495は、図21における周波数別SNR計算部1402から供給されるSNRを周波数別のSNRに分離し、非線形処理部14850 〜1485K-1 に出力する。
非線形処理部14850 〜1485K-1 は、それぞれ入力値に応じた実数値を出力する非線形関数を有する。図23に、非線形関数の例を示す。f1 を入力値としたとき、図23に示される非線形関数の出力値f2 は、式(17)で与えられる。
【0124】
【数17】
【0125】
非線形処理部14850 〜1485K-1 は、分離部1495から供給される周波数別SNRを、上述した非線形関数によって処理して重み係数を求め、多重化部1475に出力する。すなわち、非線形処理部14850 〜1485K-1 は、SNRに応じた1から0までの重み係数を出力する。SNRが小さい時は1を、大きい時は0を出力する。
多重化部1475は、非線形処理部14850 〜1485K-1 から出力された重み係数を多重化し、その結果得られた重み係数ベクトルを図21における多重乗算部1404に出力する。
【0126】
このように、図21における多重乗算部1404で劣化音声パワースペクトルと乗算される重み係数は、SNRに応じた値になっており、SNRが大きい程、すなわち劣化音声に含まれる音声成分が大きい程、重み係数の値は小さくなる。推定雑音の更新には一般に劣化音声パワースペクトルが用いられるが、推定雑音の更新に用いる劣化音声パワースペクトルに対して、SNRに応じた重みづけを行うことで、劣化音声パワースペクトルに含まれる音声成分の影響を小さくすることができ、より精度の高い雑音推定を行うことができる。
なお、重み係数の計算に非線形関数を用いた例を示したが、非線形関数以外にも線形関数や高次多項式など、他の形で表されるSNRの関数を用いることも可能である。
【0127】
次に、図20における推定雑音計算部5について説明する。図24は、推定雑音計算部5の構成を示すブロック図である。この推定雑音計算部5と図53に示した推定雑音計算部51とは、分離部505が存在することと、周波数別推定雑音計算部5140 〜514K-1 が周波数別推定雑音計算部5040 〜504K-1 に置換されていることを除いて同一である。以下、これらの相違点を中心に詳細に説明する。
【0128】
分離部505は、図20における重みつき劣化音声計算部14から供給される重みつき劣化音声パワースペクトルを、周波数別の重みつき劣化音声パワースペクトルに分離し、それぞれ周波数別推定雑音計算部5040 〜504K-1 に出力する。周波数別推定雑音計算部5040 〜504K-1 は、分離部502から供給される周波数別劣化音声パワースペクトル、分離部505から供給される周波数別重みつき劣化音声パワースペクトル、図20における音声検出部4から供給される音声検出フラグ、及び図20におけるカウンタ13から供給されるカウント値から周波数別推定雑音パワースペクトルを計算し、多重化部503へ出力する。多重化部503は、周波数別推定雑音計算部5040 〜504K-1 から供給される周波数別推定雑音パワースペクトルを多重化し、その結果得られた推定雑音パワースペクトルを図20における加算器56と注入雑音計算部58と重みつき劣化音声計算部14へ出力する。周波数別推定雑音計算部5040 〜504K-1 の構成と動作の詳細な説明は、図25〜図27を参照しながら行う。
【0129】
図25は、図24に示した推定雑音計算部5に含まれる周波数別推定雑音計算部5040 〜504K-1 の第1の構成例を示すブロック図である。図54に示した周波数別推定雑音計算部514との相違点は、周波数別推定雑音計算部5040 〜504K-1 が推定雑音記憶部5942を有すること、更新判定部521が更新判定部520に置換されていること、及びスイッチ5044への入力が周波数別劣化音声パワースペクトルから周波数別重みつき劣化音声パワースペクトルに置換されていることである。周波数別推定雑音計算部5040 〜504K-1 は、推定雑音の計算に劣化音声パワースペクトルではなく重みつき劣化音声パワースペクトルを用いており、また、推定雑音の更新判定に、推定雑音と劣化音声パワースペクトルを用いているため、これらの相違点が発生する。
推定雑音記憶部5942は、除算部5048から供給される周波数別推定雑音パワースペクトルを記憶し、1フレーム前に記憶された周波数別推定雑音パワースペクトルを更新判定部520に出力する。更新判定部520の構成と動作の詳細な説明は、図26を参照しながら行う。
【0130】
図26は、図25に示した周波数別推定雑音計算部5040 〜504K-1 に含まれる更新判定部520の構成を示すブロック図である。図55に示した更新判定部521との相違点は、論理和計算部5211が論理和計算部5201に置換されていることと、更新判定部520が比較部5205、閾値記憶部5206及び閾値計算部5207を有することである。以下、これらの相違点を中心に詳細な動作を説明する。
閾値計算部5207は、図25における推定雑音記憶部5942から供給される周波数別推定雑音パワースペクトルに応じた値を計算し、閾値として閾値記憶部5206に出力する。最も簡単な閾値の計算方法は、周波数別推定雑音パワースペクトルの定数倍である。その他に、高次多項式や非線形関数を用いて閾値を計算することも可能である。
【0131】
閾値記憶部5206は、閾値計算部5207から出力された閾値を記憶し、1フレーム前に記憶された閾値を比較部5205へ出力する。
比較部5205は、閾値記憶部5206から供給される閾値と図24における分離部502から供給される周波数別劣化音声パワースペクトルを比較し、周波数別劣化音声パワースペクトルが閾値よりも小さければ“1”を、大きければ“0”を論理和計算部5201に出力する。すなわち、推定雑音パワースペクトルの大きさをもとに、劣化音声信号が雑音であるか否かを判別している。
論理和計算部5201は、比較部5203の出力値、論理否定回路5202の出力値、及び比較部5205の出力値の論理和を計算し、計算結果を図25におけるスイッチ5044、シフトレジスタ5045及びカウンタ5049に出力する。
【0132】
従って、初期状態や無音区間だけでなく、有音区間でも劣化音声パワーが小さい場合には、更新判定部520は“1”を出力する。すなわち、推定雑音の更新が行われる。閾値の計算は各周波数毎に行われるため、各周波数毎に推定雑音の更新を行うことができる。
【0133】
図25において、CNTをカウンタ5049のカウント値、Nをシフトレジスタ5045のレジスタ長とする。そして、Bn(k)(n=0,1,....,N−1)をシフトレジスタ5045に蓄積されている周波数別重みつき劣化音声パワースペクトルとする。このとき、除算部5048から出力される周波数別推定雑音パワースペクトルλn(k)は、式(18)で与えられる。
【0134】
【数18】
【0135】
すなわち、λn(k)はシフトレジスタ5045に蓄積されている周波数別重みつき劣化音声パワースペクトルの平均値となる。平均値の計算は、重みつき加算部(巡回型フィルタ)を用いて行うことも可能である。次に、図27を参照しながら、λn(k)の計算に重みつき加算部を用いる構成例について説明する。
【0136】
図27は、図24に示した推定雑音計算部5に含まれる周波数別推定雑音計算部5040 〜504K-1 の第2の構成例を示すブロック図である。図25に示した周波数別推定雑音計算部504におけるシフトレジスタ5045、加算器5046、最小値選択部5047、除算部5048、カウンタ5049、レジスタ長記憶部5941、最小値選択部5047の代わりに、周波数別推定雑音計算部507は、重みつき加算部5071、重み記憶部5072を有する。
【0137】
重みつき加算部5071は、推定雑音記憶部5942から供給される1フレーム前の周波数別推定雑音パワースペクトル、スイッチ5044から供給される周波数別重みつき劣化音声パワースペクトル及び重み記憶部5072から出力される重みを用いて、周波数別推定雑音を計算し、図24における多重化部503へ出力する。すなわち、重み記憶部5072が記憶する重みをδ、周波数別重みつき劣化音声パワースペクトルを|Yn(k)|2 バーとしたとき、重みつき加算部5071から出力される周波数別推定雑音パワースペクトルλn(k)は、式(19)で与えられる。
【0138】
【数19】
【0139】
重みつき加算部5071の構成は、既に図51を用いて説明した重みつき加算部407に等しいので、詳細な説明は省略する。但し、重みつき加算の計算は常に行なわれる。
【0140】
次に、図20における抑圧係数補正部15について説明する。図28は、図20における抑圧係数補正部15の構成を示すブロック図である。SNRが低いときに抑圧不足により発生する残留雑音や、SNRが高いときに過度の抑圧で発生する音声の歪みによる音質劣化を防ぐために、抑圧係数補正部15は、SNRに応じた抑圧係数の補正を行なう。補正の例として、SNRが低いときには抑圧係数に修正値を加えて残留雑音を抑圧し、SNRが高いときには抑圧係数に下限値を設定して音声の歪みを防止することができる。抑圧係数補正部15は、K個の周波数別抑圧係数補正部15010 〜1501K-1 、分離部1502,1503及び多重化部1504を有する。
【0141】
分離部1502は、図20における推定先天的SNR計算部7から供給される推定先天的SNRを周波数別成分に分離し、それぞれ周波数別抑圧係数補正部15010 〜1501K-1 に出力する。分離部1503は、図20における抑圧係数生成部8から供給される抑圧係数を周波数別成分に分離し、それぞれ周波数別抑圧係数補正部15010 〜1501K-1 に出力する。周波数別抑圧係数補正部15010 〜1501K-1 は、分離部1502から供給される周波数別推定先天的SNRと、分離部1503から供給される周波数別抑圧係数から、周波数別補正抑圧係数を計算し、多重化部1504へ出力する。多重化部1504は、周波数別抑圧係数補正部15010 〜1501K-1 から供給される周波数別補正抑圧係数を多重化し、補正抑圧係数として図20における多重乗算部16と推定先天的SNR計算部7へ出力する。
【0142】
図29は、図28に示した抑圧係数補正部15に含まれる周波数別抑圧係数補正部15010 〜1501K-1 の構成を示すブロック図である。周波数別抑圧係数補正部1501は、最大値選択部1591、抑圧係数下限値記憶部1592、閾値記憶部1593、比較部1594、スイッチ1595、修正値記憶部1596及び乗算器1597を有する。
比較部1594は、閾値記憶部1593から供給される閾値と、図28における分離部1502から供給される周波数別推定先天的SNRを比較し、周波数別推定先天的SNRが閾値よりも大きければ“0”を、小さければ“1”をスイッチ1595に供給する。
【0143】
スイッチ1595は、図28における分離部1503から供給される周波数別抑圧係数を、比較部1594の出力値が“1”のとき乗算器1597に出力し、比較部1594の出力値が“0”のとき、最大値選択部1591に直接供給する。
乗算器1579は、スイッチ1595の出力値と修正値記憶部1596の出力値との積を計算し、計算結果を最大値選択部1591に供給する。抑圧係数値を小さくするため、修正値は1より小さい値が普通であるが、目的によってはこの限りではない。このように、周波数別推定先天的SNRが閾値よりも小さいときに、抑圧係数の補正を行なう。SNRが小さい場合に抑圧係数の補正を行なうことで、音声成分を過剰に抑圧することなく、残留雑音量を減らすことができる。
【0144】
抑圧係数下限値記憶部1592は、記憶している抑圧係数の下限値を、最大値選択部1591に供給する。最大値選択部1591は、スイッチ1595又は乗算器1597から供給される信号と、抑圧係数下限値記憶部1592から供給される抑圧係数下限値を比較し、大きい方の値を周波数別補正抑圧係数として、図28における多重化部1504に出力する。これにより、抑圧係数は抑圧係数下限値記憶部1592が記憶する下限値よりも必ず大きい値になる。従って、過度の抑圧により発生する音声の歪みを防ぐことができる。
なお、図1、図5、図10、図12、図14、図17に示したノイズ除去装置では、抑圧係数が多重乗算部16と推定先天的SNR計算部7へ供給されていたが、図20に示したノイズ除去装置では、抑圧係数に代わって補正抑圧係数が供給されている。
【0145】
次に、図20における雑音抑圧係数生成部8について説明する。図60を用いて説明したように、抑圧係数は、供給された推定先天的SNRと後天的SNRから検索で求めることができるが、演算で求めることもできる。以下、文献1に記載されている計算式をもとに、抑圧係数の計算方法と共に、雑音抑圧係数生成部8の他の構成例について説明する。
図30は、図20における雑音抑圧係数生成部8の他の構成例を示すブロック図である。雑音抑圧係数生成部81は、MMSE STSAゲイン関数値計算部811、一般化尤度比計算部812、音声存在確率記憶部813、及び抑圧係数計算部814を有する。
【0146】
フレーム番号をn、周波数番号をkとし、γn(k)を図20における周波数別SNR計算部6から供給される周波数別後天的SNR、ξn(k)ハットを図20における推定先天的SNR計算部7から供給される周波数別推定先天的SNRとする。また、ηn(k)=ξn(k)ハット/q、vn(k)=(ηn(k)γn(k))/(1+ηn(k))とする。
MMSE STSAゲイン関数値計算部811は、図20における周波数別SNR計算部6から供給される後天的SNRγn(k)、図20における推定先天的SNR計算部7から供給される推定先天的SNRξn(k)ハット及び音声存在確率記憶部813から供給される音声存在確率qをもとに、各周波数毎にMMSESTSAゲイン関数値を計算し、抑圧係数計算部814に出力する。各周波数毎のMMSE STSAゲイン関数値Gn(k)は、式(20)で与えられる。
【0147】
【数20】
【0148】
ここに、I0(z)は0次変形ベッセル関数、I1(z)は1次変形ベッセル関数である。変形ベッセル関数については、「1985年、数学辞典、岩波書店、374.Gページ」(文献6)に記載されている。
一般化尤度比計算部812は、図20における周波数別SNR計算部6から供給される後天的SNRγn(k)、図20における推定先天的SNR計算部7から供給される推定先天的SNRξn(k)ハット及び音声存在確率記憶部813から供給される音声存在確率qをもとに、周波数毎に一般化尤度比を計算し、抑圧係数計算部814に出力する。周波数毎の一般化尤度比Λn(k)は、式(21)で与えられる。
【0149】
【数21】
【0150】
抑圧係数計算部814は、MMSE STSAゲイン関数値計算部811から供給されるMMSE STSAゲイン関数値Gn(k)と一般化尤度比計算部812から供給される一般化尤度比Λn(k)から周波数毎に抑圧係数を計算し、図20における抑圧係数補正部15へ出力する。周波数毎の抑圧係数Gn(k)バーは、式(22)で与えられる。
【0151】
【数22】
【0152】
周波数別にSNRを計算する代わりに、複数の周波数から構成される帯域に共通なSNRを求めて、これを用いることも可能である。よって次に、図20における周波数別SNR計算部6の他の構成例として、帯域毎にSNRを計算する例について説明する。
図31は、周波数別SNR計算部6の他の構成例を示すブロック図である。図56に示した周波数別SNR計算部6との相違点は、帯域別SNR計算部61が帯域別パワー計算部611,612を有することである。帯域別パワー計算部611は、分離部602から供給される周波数別劣化音声パワースペクトルをもとに帯域別のパワーを計算し、除算部6010 〜601K-1 へ出力する。また、帯域別パワー計算部612は、分離部603から供給される周波数別推定雑音パワースペクトルをもとに帯域別のパワーを計算し、除算部6010 〜601K-1 へ出力する。
【0153】
図32は、帯域別SNR計算部61に含まれる帯域別パワー計算部611の構成を示すブロック図である。ここでは、帯域幅LをもつM個の帯域に等分割する例を説明する。ここに、LとMは、K=LMの関係を満たす自然数であるとする。
帯域別SNR計算部61は、M個の加算器61100〜6110M-1を有する。図31における分離部602から供給される周波数別劣化音声パワースペクトル9100 〜910K-1 (9100 〜910ML-1)は、各周波数に対応した加算器61100 〜6110M-1 へそれぞれ伝達される。例えば、帯域番号0に対応する周波数番号は0からL−1なので、周波数別劣化音声パワースペクトル9100 〜910L-1 は加算器61100へ伝達される。また、帯域番号1に対応する周波数番号はLから2L−1なので、周波数別劣化音声パワースペクトル910L 〜9102L-1は加算器61101へ伝達される。
【0154】
加算器61100 〜6110M-1 は、供給された周波数別劣化音声パワースペクトルの総和をそれぞれ計算し、帯域別劣化音声パワースペクトル9110 〜911ML-1(9110 〜911K-1 )を図31における除算部6010 〜601K-1 へ出力する。各加算器の計算結果は、それぞれの帯域番号に応じた周波数毎に帯域別劣化音声パワースペクトルとして出力される。例えば、加算器61100 の計算結果は、帯域別劣化音声パワースペクトル9110 〜911L-1 として出力される。また、加算器61101 の計算結果は、帯域別劣化音声パワースペクトル911L 〜9112L-1として出力される。
帯域別パワー計算部612の構成と動作は帯域別パワー計算部611と等価であるので、その説明は省略する。
【0155】
なお、ここでは複数の帯域に等分割する例を示したが、「1980年、聴覚と音声、電子情報通信学会、115〜118ページ」(文献7)に記載されている臨界帯域に分割する方法、「1983年、マルチレート・ディジタル・シグナル・プロセシング(Multirate Digital Signal Processing),1983,Prentice-Hall Inc.,USA」(文献8)に記載されているオクターブ帯域に分割する方法など、他の帯域分割方法を用いることも可能である。
【0156】
(第4の実施の形態)
図33は、本発明のノイズ除去装置の第4の実施の形態の全体構成を示すブロック図である。図20に示したノイズ除去装置との相違点は、注入雑音計算部58、加算器56,57が、SNR補正部67に置換されていることである。図20と図33の関係は、図1と図5の関係及び図10と図14の関係に等しく、SNR補正部67については図15及び14を参照して説明したので、図33に示したノイズ除去装置に関する詳細な説明は省略する。
【0157】
(第5の参考例)
図34は、本発明のノイズ除去装置に関連する第5の参考例の全体構成を示すブロック図である。図20に示したノイズ除去装置との相違点は、推定雑音計算部5が推定雑音計算部52に置換されていること、及び重みつき劣化音声計算部14が存在しないことである。以下、これらの相違点を中心に詳細に説明する。
【0158】
図35は、図34における推定雑音計算部52の構成を示すブロック図である。図24に示した推定雑音計算部5との相違点は、周波数別推定雑音計算部5040 〜504K-1 が周波数別推定雑音計算部5060 〜506K-1 に置換されていることと、推定雑音計算部52が入力信号に重みつき劣化音声パワースペクトルを有しないことである。これは、周波数別推定雑音計算部5040 〜504K-1 が入力信号に周波数別重みつき劣化音声パワースペクトルを必要とするのに対して、推定雑音計算部5060 〜506K-1 は、入力信号に周波数別重みつき劣化音声パワースペクトルを必要としないためである。以下、図36を参照しながら、相違点である周波数別推定雑音計算部5060 〜506K-1 の構成と動作を詳細に説明する。
【0159】
図36は、図35に示した推定雑音計算部52に含まれる周波数別推定雑音計算部5060 〜506K-1 の構成を示すブロック図である。図25に示した周波数別推定雑音計算部504との相違点は、周波数別推定雑音計算部506が、入力信号に周波数別重みつき劣化音声パワースペクトルを有していないことと、除算部5041、非線形処理部5042、及び乗算器5043を有していることである。以下、これらの相違点を中心に詳細に説明する。
【0160】
除算部5041は、図35における分離部502から供給される周波数別劣化音声パワースペクトルを、推定雑音記憶部5942から供給される1フレーム前の推定雑音パワースペクトルで除算し、除算結果を非線形処理部5042に出力する。図22に示した非線形処理部1485と同一の構成と機能を有する非線形処理部5042は、除算部5041の出力値に応じた重み係数を計算し、乗算器5043に出力する。乗算器5043は、図35における分離部502から供給される周波数別劣化音声パワースペクトルと非線形処理部5042から供給される重み係数の積を計算し、スイッチ5044へ出力する。
【0161】
乗算器5043の出力信号は、図25に示した周波数別推定雑音計算部504における周波数別重みつき劣化音声パワースペクトルと等価である。すなわち、周波数別重みつき劣化音声パワースペクトルは、周波数別推定雑音計算部506の内部において計算することも可能である。従って、図34に示したノイズ除去装置では、重みつき劣化音声計算部14を省略することが可能となる。
【0162】
(第5の実施の形態)
図37は、本発明のノイズ除去装置の第5の実施の形態の全体構成を示すブロック図である。図34に示したノイズ除去装置との相違点は、注入雑音計算部58、加算器56,57が、SNR補正部67に置換されていることである。図34と図37の関係は、図1と図5の関係、図10と図14の関係、及び図20と図33の関係に等しく、SNR補正部67については図15及び14を参照して説明したので、図37に示したノイズ除去装置に関する詳細な説明は省略する。
【0163】
(第6の参考例)
図38は、本発明のノイズ除去装置に関連する第6の参考例の全体構成を示すブロック図である。図20に示したノイズ除去装置とは、推定先天的SNR計算部71を除いて同一であるので、以下、この相違点を中心に詳細に説明する。
図39は、図38における推定先天的SNR計算部71の構成を示すブロック図である。図57に示した推定先天的SNR計算部7は後天的SNR記憶部702、抑圧係数記憶部703、多重乗算部705,704を有するのに対し、推定先天的SNR計算部71はこれらの代わりに、推定雑音記憶部712、強調音声パワースペクトル記憶部713、周波数別SNR計算部715、多重乗算部716を有する。また、推定先天的SNR計算部7は、入力信号に抑圧係数を有するが、推定先天的SNR計算部71は、抑圧係数の代わりに強調音声振幅スペクトルと推定雑音パワースペクトルを入力信号に有する。以下、推定先天的SNR計算部7と71との間に存在するこれらの相違点を中心に、詳細に説明する。
【0164】
多重乗算部716は、図38における多重乗算部16から供給される強調音声振幅スペクトル|Xn(k)|バー=Gn(k)バー・|Yn(k)|を周波数毎に2乗して強調音声パワースペクトルを求め、強調音声パワースペクトル記憶部713に出力する。多重乗算部716の構成は、既に図52を用いて説明した多重乗算部17に等しいので、詳細な説明は省略する。
強調音声パワースペクトル記憶部713は、多重乗算部716から供給される強調音声パワースペクトルを記憶し、1フレーム前に供給された強調音声パワースペクトルを周波数別SNR計算部715へ出力する。
推定雑音記憶部712は、図38における推定雑音計算部5から供給される推定雑音パワースペクトルλn(k)を記憶し、1フレーム前に供給された推定音声パワースペクトルを周波数別SNR計算部715へ出力する。
【0165】
周波数別SNR計算部715は、強調音声パワースペクトル記憶部713から供給される強調音声パワースペクトルGn-1 2(k)バー・|Yn-1(k)|2 と、推定雑音記憶部712から供給される推定雑音パワースペクトルλn-1(k)のSNRを各周波数毎に計算し、多重重みつき加算部707へ出力する。周波数別SNR計算部715の構成は、既に図56を用いて説明した周波数別SNR計算部6に等しいので、詳細な説明は省略する。
周波数別SNR計算部715の出力であるGn-1 2(k)バー・|Yn-1(k)|2 /λn-1(k)は、式(11)の関係から、図57における多重乗算部705の出力であるγn-1(k)Gn-1 2(k)バーと等価である。従って、図20に示したノイズ除去装置に含まれる推定先天的SNR計算部7を推定先天的SNR計算部71で置換することが可能となる。
【0166】
(第6の実施の形態)
図40は、本発明のノイズ除去装置の第6の実施の形態の全体構成を示すブロック図である。図38に示したノイズ除去装置との相違点は、注入雑音計算部58、加算器56,57が、SNR補正部67に置換されていることである。図38と図40の関係は、図1と図5の関係、図10と図14の関係、図20と図33の関係、及び図34と図37の関係に等しく、SNR補正部67については図15及び14を参照して説明したので、図40に示したノイズ除去装置に関する詳細な説明は省略する。
【0167】
(第7の参考例)
図41は、本発明のノイズ除去装置に関連する第7の参考例の全体構成を示すブロック図である。図20に示したノイズ除去装置との相違点は、推定雑音計算部5が推定雑音部52に、推定先天的SNR計算部7が推定先天的SNR計算部71に、それぞれ置換されていることと、重みつき劣化音声計算部14が存在しないことである。推定雑音部52の構成と動作は、図35及び図36を参照して説明したのと同様である。また、推定先天的SNR計算部71の構成と動作は、図39を参照して説明したのと同様である。従って、図41に示したノイズ除去装置は、図20に示したノイズ除去装置と等価な機能を実現する。
【0168】
(第7の実施の形態)
図42は、本発明のノイズ除去装置の第7の実施の形態の全体構成を示すブロック図である。図41に示したノイズ除去装置との相違点は、注入雑音計算部58、加算器56,57が、SNR補正部67に置換されていることである。図41と図42の関係は、図1と図5の関係、図10と図14の関係、図20と図33の関係、図34と図37の関係、及び図38と図40の関係に等しく、SNR補正部67については図15及び14を参照して説明したので、図42に示したノイズ除去装置に関する詳細な説明は省略する。
【0169】
(第8の参考例)
図43は、本発明のノイズ除去装置に関連する第8の参考例の全体構成を示すブロック図である。図20に示したノイズ除去装置との相違点は、推定雑音計算部5が推定雑音計算部53で置換されていることと、音声検出部4が存在しないことである。すなわち、雑音の推定に音声検出部を必要としない構成になっている。以下、これらの相違点を中心に詳細に説明する。
図44は、図43における推定雑音計算部53の構成を示すブロック図である。図24に示した推定雑音計算部5との相違点は、周波数別推定雑音計算部5040 〜504K-1 が周波数別推定雑音計算部5080 〜508K-1 に置換されていることと、推定雑音計算部53が入力信号に音声検出フラグを有していないことである。図45を参照しながら、周波数別推定雑音計算部5080 〜508K-1 の構成と動作を詳細に説明する。
【0170】
図45は、図44に示した推定雑音計算部53に含まれる周波数別推定雑音計算部5080 〜508K-1 の構成を示すブロック図である。図25に示した周波数別推定雑音計算部504との相違点は、更新判定部520が更新判定部522に置換されていることと、5080 〜508K-1 が入力信号に音声検出フラグを有していないことである。
図46は、図45に示した周波数別推定雑音計算部508に含まれる更新判定部522の構成を示すブロック図である。図26に示した更新判定部520との相違点は、論理和計算部5201が論理和計算部5221に置換されていること、更新判定部522が論理否定回路5202を有していないこと、入力信号に音声検出フラグを有していないことである。すなわち、更新判定部522は、推定雑音の更新に音声検出フラグを用いていない。この点が、図26に示した更新判定部520と異なる。
【0171】
論理和計算部5221は、比較部5205の出力値と比較部5203の出力値の論理和を計算し、計算結果を図45におけるスイッチ5044、シフトレジスタ5045及びカウンタ5049に出力する。すなわち、更新判定部522は、カウント値が予め設定された値に到達するまでは常に“1”を出力し、到達した後は、劣化音声パワーが閾値よりも小さいときに“1”を出力する。
図26を用いて説明した通り、比較部5205は劣化音声信号が雑音であるか否かの判定を行なっている。すなわち、比較部5205は各周波数毎に音声検出を行なっていると言える。従って、音声検出フラグを入力信号に有しない更新判定部や推定雑音計算部を実現することが可能となる。
【0172】
(第8の実施の形態)
図47は、本発明のノイズ除去装置の第8の実施の形態の全体構成を示すブロック図である。図43に示したノイズ除去装置との相違点は、注入雑音計算部58、加算器56,57が、SNR補正部67に置換されていることである。図43と図47の関係は、図1と図5の関係、図10と図14の関係、図20と図33の関係、図34と図37の関係、図38と図40の関係、及び図41と図42の関係に等しく、SNR補正部67については図15及び14を参照して説明したので、図47に示したノイズ除去装置に関する詳細な説明は省略する。
【0173】
図20、図33、図34、図37、図38、図40〜図43、図47に関しても、図10と図12及び図14と図17の関係に相当するような、劣化音声信号の代わりに劣化音声パワースペクトルを用いた選択的な雑音注入が可能であるが、構成は明らかなので、詳細は省略する。
【0174】
これまで説明したすべての実施の形態では、ノイズ除去の方式として、最小平均2乗誤差短時間スペクトル振幅法を仮定してきたが、その他の方法にも適用することができる。このような方法の例として、「1979年12月、プロシーディングス・オブ・ザ・アイ・イー・イー・イー、第67巻、第12号(PROCEEDINGS OF THE IEEE, VOL.67, NO.12, PP.1586-1604, DEC, 1979 )、1586〜1604ページ」(文献9)に開示されているウィーナーフィルタ法や「1979年4月、アイ・イー・イー・イー・トランザクションズ・オン・アクースティクス・スピーチ・アンド・シグナル・プロセシング、第27巻、第2号(IEEE TRANSACTIONS ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, VOL.27, NO.2, PP.113-120, APR, 1979)、113〜120ページ」(文献10)に開示されているスペクトル減算法などがあるが、これらの詳細な構成例については、説明を省略する。
【0175】
文献10に開示されているスペクトル減算法の概略動作に関しては、例えば、図43及び図47を参照することができる。図43及び図47において、多重乗算部16を多重減算部に、雑音抑圧係数生成部8を雑音抑圧量計算部に、抑圧係数補正部15を抑圧量補正部に置き換えれば、スペクトル減算法による動作を実現することができる。多重減算部において、補正された雑音抑圧量を劣化音声振幅スペクトルから減算し、得られた結果を逆フーリエ変換することによって、強調音声を得ることができる。ここでは、SNRを計算してから、SNRに基づいて雑音抑圧量を計算する例について説明したが、推定雑音計算部53で得られた推定雑音を、直接劣化音声振幅スペクトルから減算することもできる。
【0176】
【発明の効果】
以上説明したように、本発明では、入力信号に基づいて擬似的な雑音を生成し、この擬似的な雑音を注入して得られた抑圧係数を用いる。抑圧係数を定めるときに上述した擬似的な雑音を注入することにより、特定の統計モデルに従う背景雑音を仮定して導出した抑圧係数を入力信号に応じて補正し、その統計モデルに従わない雑音を効果的に除去することができる。従って、あらゆる背景雑音に対して十分高い品質の強調音声を得ることができる。
【0177】
また、本発明では、周波数領域の強調音声を変換した時間領域信号に窓がけ処理を施す。周波数領域の強調音声を変換した時間領域信号の隣接する2フレームを重ね合わせ加算する場合に、重ね合わせ加算の対象となった信号サンプルが各フレームにおいて異なった抑圧係数値で抑圧されたとしても、各フレームを窓がけ処理してフレーム境界における信号サンプルの振幅を小さくすることによって、フレーム境界における信号サンプルの連続性を改善することができる。これにより、雑音の発生を防止し、雑音による音質の劣化を低減することができる。
【図面の簡単な説明】
【図1】 本発明のノイズ除去装置に関連する第1の参考例の全体構成を示すブロック図である。
【図2】 図1に示したノイズ除去装置に含まれる注入雑音計算部の第1の構成を示すブロック図である。
【図3】 SNRと注入雑音の関係の一例を示す図である。
【図4】 SNRに対する抑圧係数の特性の一例を示す図である。
【図5】 本発明のノイズ除去装置の第1の実施の形態の全体構成を示すブロック図である。
【図6】 図5に示したノイズ除去装置に含まれるSNR補正部の第1の構成を示すブロック図である。
【図7】 図6に示したSNR補正部に含まれる補正SNR計算部の構成を示すブロック図である。
【図8】 SNR補正部の第2の構成を示すブロック図である。
【図9】 図8に示したSNR補正部に含まれる補正SNR計算部の構成を示すブロック図である。
【図10】 本発明のノイズ除去装置に関連する第2の参考例の全体構成を示すブロック図である。
【図11】 注入雑音計算部の第2の構成を示すブロック図である。
【図12】 本発明のノイズ除去装置に関連する第3の参考例の全体構成を示すブロック図である。
【図13】 注入雑音計算部の第3の構成を示すブロック図である。
【図14】 本発明のノイズ除去装置の第2の実施の形態の全体構成を示すブロック図である。
【図15】 SNR補正部の第3の構成を示すブロック図である。
【図16】 注入雑音計算部の第4の構成を示すブロック図である。
【図17】 本発明のノイズ除去装置の第3の実施の形態の全体構成を示すブロック図である。
【図18】 SNR補正部の第4の構成を示すブロック図である。
【図19】 注入雑音計算部の第5の構成を示すブロック図である。
【図20】 本発明のノイズ除去装置に関連する第4の参考例の全体構成を示すブロック図である。
【図21】 図20に示したノイズ除去装置に含まれる重みつき劣化音声計算部の構成を示すブロック図である。
【図22】 図21に示した重みつき劣化音声計算部に含まれる多重非線形処理部の構成を示すブロック図である。
【図23】 非線形処理部における非線形関数の一例を示す図である。
【図24】 図20に示したノイズ除去装置に含まれる推定雑音計算部の第1の構成を示すブロック図である。
【図25】 図24に示した推定雑音計算部に含まれる周波数別推定雑音計算部の第1の構成を示すブロック図である。
【図26】 図25に示した周波数別推定雑音計算部に含まれる更新判定部の構成を示すブロック図である。
【図27】 周波数別推定雑音計算部の第2の構成を示すブロック図である。
【図28】 図20に示したノイズ除去装置に含まれる抑圧係数補正部の構成を示すブロック図である。
【図29】 図28に示した抑圧係数補正部に含まれる周波数別抑圧係数補正部の構成を示すブロック図である。
【図30】 雑音抑圧係数生成部の第2の構成を示すブロック図である。
【図31】 周波数別SNR計算部の第2の構成を示すブロック図である。
【図32】 図31に示した周波数別SNR計算部に含まれる帯域別パワー計算部の構成を示すブロック図である。
【図33】 本発明のノイズ除去装置の第4の実施の形態の全体構成を示すブロック図である。
【図34】 本発明のノイズ除去装置に関連する第5の参考例の全体構成を示すブロック図である。
【図35】 推定雑音計算部の第2の構成を示すブロック図である。
【図36】 図35に示した推定雑音計算部に含まれる周波数別推定雑音計算部の構成を示すブロック図である。
【図37】 本発明のノイズ除去装置の第5の実施の形態の全体構成を示すブロック図である。
【図38】 本発明のノイズ除去装置に関連する第6の参考例の全体構成を示すブロック図である。
【図39】 図38に示したノイズ除去装置に含まれる推定先天的SNR計算部の構成を示すブロック図である。
【図40】 本発明のノイズ除去装置の第6の実施の形態の全体構成を示すブロック図である。
【図41】 本発明のノイズ除去装置に関連する第7の参考例の全体構成を示すブロック図である。
【図42】 本発明のノイズ除去装置の第7の実施の形態の全体構成を示すブロック図である。
【図43】 本発明のノイズ除去装置に関連する第8の参考例の全体構成を示すブロック図である。
【図44】 推定雑音計算部の第3の構成を示すブロック図である。
【図45】 図44に示した推定雑音計算部に含まれる周波数別推定雑音計算部の構成を示すブロック図である。
【図46】 図45に示した周波数別推定雑音計算部含まれる更新判定部の構成を示すブロック図である。
【図47】 本発明のノイズ除去装置の第8の実施の形態の全体構成を示すブロック図である。
【図48】 従来のノイズ除去装置の全体構成を示すブロック図である。
【図49】 従来のノイズ除去装置に含まれる音声検出部の構成を示すブロック図である。
【図50】 図49に示した音声検出部に含まれるパワー計算部の構成を示すブロック図である。
【図51】 図49に示した音声検出部に含まれる重みつき加算部の構成を示すブロック図である。
【図52】 従来のノイズ除去装置に含まれる多重乗算部の構成を示すブロック図である。
【図53】 従来のノイズ除去装置に含まれる推定雑音計算部の構成を示すブロック図である。
【図54】 図53に示した推定雑音計算部に含まれる周波数別推定雑音計算部の構成を示すブロック図である。
【図55】 図54に示した周波数別推定雑音計算部に含まれるの更新判定部の構成を示すブロック図である。
【図56】 従来のノイズ除去装置に含まれる周波数別SNR計算部の構成を示すブロック図である。
【図57】 従来のノイズ除去装置に含まれる推定先天的SNR計算部の構成を示すブロック図である。
【図58】 図57に示した推定先天的SNR計算部に含まれる多重値域限定処理部の構成を示すブロック図である。
【図59】 図57に示した推定先天的SNR計算部に含まれる多重重みつき加算部の構成を示すブロック図である。
【図60】 従来のノイズ除去装置に含まれる雑音抑圧係数生成部の構成を示すブロック図である。
【図61】 図60に示した雑音抑圧係数生成部に含まれる抑圧係数検索部の構成を示すブロック図である。
【符号の説明】
1…フレーム分割部、2,22…窓がけ処理部、3…フーリエ変換部、4…音声検出部、5,51,52,53…推定雑音計算部、6,61,715,1402…周波数別SNR計算部、7,71…推定先天的SNR計算部、8,81…雑音抑圧係数生成部、9…逆フーリエ変換部、10…フレーム合成部、11…入力端子、12…出力端子、13,5049…カウンタ、14…重みつき劣化音声計算部、15…抑圧係数補正部、16,17,704,705,716,1404…多重乗算部、55,58,59,662,672,682,6542…注入雑音計算部、56,57,708,4063,4072,4074,5046,61100 〜6110M-1 ,6543,6544…加算器、65,66,67,68…SNR補正部、401,1593,5204,5206…閾値記憶部、402,1594,5203,5205,67233…比較部、404,4075…定数乗算器、405…対数計算部、406…パワー計算部、407,5071,70710 〜7071K-1 …重みつき加算部、408,706,5072…重み記憶部、409,5202…論理否定回路、502,505,602,603,802,803,1495,1502,1503,1702,1703,4061,503,604,655,804,1475,1504,1704,6115,7014,7075…多重化部、5040 〜504K-1 ,5060 〜506K-1 ,507,5080 〜508K-1 ,5140 〜514K-1 …周波数別推定雑音計算部、520,521,522…更新判定部、551…SNR計算部、552,6541…しきい値計算部、553,6721…注入レベル計算部、581,67232…ゼロ交叉計算部、582,1595,5044,6722…スイッチ、591,68232…高域電力計算部、6010 〜601K-1 ,5041,5048,6545…除算部、611,612…周波数別パワー計算部、651,652,653,6111,7013,7072,7074…分離部、6540 〜654K-1 ,6640 〜664K-1 …補正SNR計算部、661,663…平均値計算部、701…多重値域限定処理部、702…後天的SNR記憶部、703…抑圧係数記憶部、707…多重重みつき加算部、712,1401,5942…推定雑音記憶部、713…強調音声パワースペクトル記憶部、8010 〜801K-1 …抑圧係数検索部、811…MMSE STSAゲイン関数値計算部、812…一般化尤度比計算部、813…音声存在確率記憶部、814…抑圧係数計算部、901…劣化音声パワー、902…閾値、903,923…重み、904…更新閾値、905…重みつき加算部制御信号、9100 〜910K-1 ,9100 〜910ML-1…周波数別劣化音声パワースペクトル、9110 〜911K-1 ,9110 〜911ML-1…帯域別劣化音声パワースペクトル、921…瞬時推定SNR、9210 〜921K-1 …周波数別瞬時推定SNR、922…過去の推定SNR、9220 〜922K-1 …過去の周波数別推定SNR、924…推定先天的SNR、9240 〜924K-1 …周波数別推定先天的SNR、1405…多重非線形処理部、14850 〜1485K-1 ,5042…非線形処理部、15010 〜1501K-1 …周波数別抑圧係数補正部、1591,70120 〜7012K-1 …最大値選択部、1592…抑圧係数下限値記憶部、1596…修正量記憶部、1597,17010 〜1701K-1 ,40620 〜4062K-1 ,4071,4073,5043…乗算器、5045…シフトレジスタ、5047…最小値選択部、5201,5211,5221…論理和計算部、5207…閾値計算部、5941…レジスタ長記憶部、6723,6823…判定部、7011…定数記憶部、8011…抑圧係数テーブル、8012,8013…アドレス変換部、67231…無音区間検出部。[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a noise removal method and apparatus, and more particularly, to a noise removal method and apparatus for removing noise superimposed on a desired audio signal.
[0002]
[Prior art]
The noise removal device (noise suppressor) removes noise (noise) superimposed on the desired audio signal and estimates the power spectrum of the noise component using the input signal converted from the time domain to the frequency domain. Then, the estimated power spectrum is subtracted from the input signal to operate so as to suppress noise mixed in the desired audio signal. The power spectrum of the noise component can be applied to non-stationary noise suppression by detecting and updating a silent section of speech.
For example, “December 1984, IEE Transactions on Axetics Speech and Signal Processing, Vol. 32, No. 6 (IEEE TRANSACTIONS ON ACOUSTICS , SPEECH, AND SIGNAL PROCESSING, VOL.32, NO.6, PP.1109-1121, DEC, 1984), pages 1109 to 1121 (Reference 1). This is known as the minimum mean square error short time spectral amplitude method. FIG. 48 shows the configuration of the noise removal device described in
[0003]
The
The degraded speech signal samples divided into frames are supplied to the
[0004]
[Expression 1]
[0005]
In addition, it is also widely performed to overlap a part of two consecutive frames. Assuming 50% of the frame length as the overlap length, for t = 0, 1,..., K / 2-1, y obtained by equation (2)n(t) The bar (t = 0, 1,..., K / 2-1) is the output of the
[0006]
[Expression 2]
[0007]
For real signals, a symmetric window function is used. Further, the window function is designed so that the input signal and the output signal when a suppression coefficient, which will be described later, is set to 1, match except for calculation errors. This means that w (t) + w (t + K / 2) = 1.
Hereinafter, the description will be continued by taking as an example a case in which 50% of two consecutive frames overlap each other. As the window function w (t), for example, a Hanning window shown in Expression (3) can be used.
[0008]
[Equation 3]
[0009]
Windowed output yn(t) The bar is supplied to the Fourier
[0010]
The voice detection unit 4 uses the deteriorated voice amplitude spectrum | Yn(k) The presence / absence of a voice is detected based on |, and a voice detection flag determined by the result is transmitted to the estimated
[0011]
The estimated innate
The
[0012]
[Expression 4]
[0013]
The inverse
[0014]
[Equation 5]
[0015]
And the obtained enhanced speech spectrum Xn(k) Time-domain sample value series (time-domain signal) x in which a bar is subjected to inverse Fourier transform and one frame is composed of K samplesn(t) Bars (t = 0, 1,..., K−1) are transmitted to the
[0016]
[Formula 6]
[0017]
Next, the configuration and operation of each part of the noise removal apparatus shown in FIG. 48 will be further described.
FIG. 49 is a block diagram showing a configuration of the voice detection unit 4 in FIG. The voice detection unit 4 includes a
[0018]
The deteriorated speech amplitude spectrum supplied from the
[0019]
[Expression 7]
[0020]
Note that the voice detection unit disclosed in
[0021]
[Equation 8]
[0022]
However, as shown in, for example, “1985, Digital Signal Processing Theory, Corona, pages 75 to 76” (Reference 3), the fact that Equation (8) and Equation (7) are equivalent is equivalent to Parseval. ).
[0023]
The
[0024]
The
[0025]
FIG. 50 is a block diagram showing a configuration of the
[0026]
FIG. 51 is a block diagram illustrating a configuration of the
[0027]
The
[0028]
On the other hand, in the
Update threshold THnIs calculated only when the weighted
[0029]
[Equation 9]
[0030]
The
[0031]
The estimated
[0032]
The
[0033]
FIG. 54 is a block diagram showing a configuration of frequency-specific
[0034]
The frequency-based estimated
The
[0035]
On the other hand, the
[0036]
The minimum
[0037]
[Expression 10]
[0038]
However, N is the smaller value of the count value and the register length. Since the count value starts monotonically and increases monotonically, division is first performed by the count value, and thereafter division is performed by the register length. On the other hand, the number of registers in which values are actually stored is equal to the count value when the count value is smaller than the register length, and equal to the register length when the count value is larger than the register length. Therefore, the added value of the frequency-specific degraded speech power spectrum supplied from the
[0039]
FIG. 55 is a block diagram showing a configuration of
The count value supplied from the counter 13 in FIG. 48 is transmitted to the
[0040]
On the other hand, the supplied voice detection flag is transmitted to the
As a result, the output of the logical
[0041]
The frequency-
[0042]
## EQU11 ##
[0043]
The estimated
Acquired SNRγ supplied from frequency-
[0044]
Suppression coefficient G supplied from noise suppression
[0045]
The other terminal of the
[0046]
[Expression 12]
[0047]
A
[0048]
[Formula 13]
[0049]
FIG. 58 is a block diagram showing a configuration of a multi-range
[0050]
FIG. 59 is a block diagram showing a configuration of a
[0051]
The
Weighted adder 70710 ~ 7071K-1 Since the configuration and operation of are the same as those of the
[0052]
The noise suppression
[0053]
61 shows a suppression
[0054]
[Problems to be solved by the invention]
As described above, in the conventional noise removal apparatus and method, noise suppression is performed using the suppression coefficient derived assuming the background noise according to a specific statistical model, so noise that does not follow the statistical model is effectively removed. I couldn't. For this reason, sufficiently high quality of emphasized speech could not be achieved.
Further, in the conventional noise removal apparatus and method, the emphasized speech is obtained by superimposing and adding signal samples taken from two adjacent frames of the time domain signal obtained by inverse Fourier transform. On the other hand, the window function applied to the time domain signal before the Fourier transform is designed so that the input is reproduced in the output when noise suppression processing is not performed. For this reason, when a signal sample that is subject to overlay addition is suppressed with a different suppression coefficient value in an adjacent frame, a discontinuity occurs in the signal sample at the frame boundary, and the sound quality is reduced by noise generated in the output signal. Has deteriorated.
[0055]
As described above, the conventional noise removing apparatus and method have a problem that it is not possible to obtain enhanced speech with excellent sound quality.
The present invention has been made to solve such problems, and an object of the present invention is to provide a noise removal apparatus and method capable of obtaining enhanced speech with excellent sound quality.
[0056]
[Means for Solving the Problems]
In order to achieve such an object, the noise removal method of the present invention is characterized by generating pseudo noise based on an input signal and using a suppression coefficient obtained by injecting the pseudo noise. And By injecting the above-described pseudo noise when determining the suppression coefficient, it is possible to correct the suppression coefficient derived on the assumption of background noise according to a specific statistical model in accordance with the input signal.
[0060]
More specificallyThe noise removal method of the present invention converts an input signal into a frequency domain signal, obtains a signal-to-noise ratio using the frequency domain signal, corrects the signal-to-noise ratio based on the frequency domain signal, and corrects the correction. Determine the suppression coefficient based on the signal-to-noise ratio, weight the frequency domain signal using this suppression coefficient, and transform the weighted frequency domain signal into a time domain signal to remove noise from the input signal The output signal is obtained.
[0061]
In this noise removal method, the signal-to-noise ratio may be selectively corrected according to the nature of the input signal. Thereby, for example, the signal-to-noise ratio can be corrected only when a signal including noise that does not follow the statistical model used for deriving the suppression coefficient is input, and the correction of the suppression coefficient can be selectively performed.
Here, the stationarity of the signal may be used as the property of the input signal. In other words, the signal-to-noise ratio may be corrected on the basis of how much the nature of the signal, for example, average power or spectrum shape changes with time.
As the stationarity of the signal, the number of zero crossings where the amplitude of the input signal becomes zero may be used, or the high frequency power of the frequency domain signal showing a correlation with the number of zero crossings may be used.
[0062]
Further, noise included in the frequency domain signal may be estimated based on the frequency domain signal obtained by converting the input signal, and the correction amount of the signal-to-noise ratio may be determined using the noise and the frequency domain signal.
Further, the noise included in the frequency domain signal is estimated based on the frequency domain signal obtained by converting the input signal, and an addition signal is obtained using the noise and the signal-to-noise ratio, and the sum of the addition signal and the frequency domain signal, The signal-to-noise ratio may be corrected by recalculating the signal-to-noise ratio using the sum of the added signal and noise.
Here, the frequency domain signal obtained by converting the input signal may be weighted, and noise may be estimated based on the weighted frequency domain signal.
[0063]
In the noise removal method described above, the suppression coefficient may be corrected based on the frequency domain signal, and the frequency domain signal may be weighted using the corrected suppression coefficient. As a result, it is possible to prevent deterioration in sound quality due to residual noise caused by insufficient suppression when the signal-to-noise ratio is low and sound distortion caused by excessive suppression when the signal-to-noise ratio is high.
In the noise removal method described above, a windowing process may be performed on the time domain signal obtained by converting the frequency domain signal.
[0074]
The noise removal apparatus of the present invention also includes a first windowing processing unit that performs windowing processing on an input signal and outputs the input signal, and an input signal that has been windowed by the first windowing processing unit. And a first signal-to-noise ratio calculation unit that obtains and outputs a first signal-to-noise ratio using the amplitude component of the frequency domain signal; An estimated noise calculator that estimates and outputs noise included in the frequency domain signal based on the amplitude component of the frequency domain signal, and corrects the first signal-to-noise ratio using the amplitude component of the noise and the frequency domain signal. , A signal-to-noise ratio correction unit that outputs as a correction signal-to-noise ratio, a suppression coefficient generation unit that determines and outputs a suppression coefficient based on the correction signal-to-noise ratio, and an amplitude component of the frequency domain signal using the suppression coefficient The first multiplication unit for weighting and outputting An inverse transform unit that converts the amplitude component of the frequency domain signal weighted by the first multiplication unit and the phase component of the frequency domain signal into a time domain signal and outputs the time domain signal; And at least two window processing units.
[0075]
Here, the signal-to-noise ratio correction unit calculates the number of zero crossings where the input signal is input and the amplitude of the input signal becomes zero, and outputs a control signal according to the calculation result. And a switch that selectively sets the correction signal-to-noise ratio to the same value as the first signal-to-noise ratio before correction by a control signal input from the unit.
The signal-to-noise ratio correction unit calculates a high-frequency power of the amplitude component of the frequency domain signal input from the conversion unit, and outputs a control signal according to the calculation result. The control signal may be configured to include a switch that selectively sets the correction signal-to-noise ratio to the same value as the first signal-to-noise ratio before correction.
[0076]
Further, the above-described noise removing device weights the amplitude component of the frequency domain signal, outputs the obtained weighted amplitude component to the estimated noise calculation unit, and outputs noise to the estimated noise calculation unit based on the weighted amplitude component. It may further comprise a weighted deteriorated speech calculation unit to be estimated.
Here, the weighted deteriorated speech calculation unit calculates a second signal-to-noise ratio using the amplitude component of the frequency domain signal, and outputs the second signal-to-noise ratio calculation unit. A non-linear processing unit that processes the second signal-to-noise ratio input from the noise ratio calculation unit with a non-linear function to obtain and output a weight, and an amplitude component of the frequency domain signal using the weight input from the non-linear processing unit And a second multiplication unit that outputs to the estimated noise calculation unit.
[0077]
Further, the noise removal apparatus described above corrects the suppression coefficient input from the suppression coefficient generation unit based on the frequency domain signal, outputs the correction coefficient to the first multiplication unit, and the corrected suppression coefficient to the first multiplication unit. It may further comprise a suppression coefficient correction unit that uses and weights the amplitude component of the frequency domain signal.
[0078]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
[0079]
(FirstReference example)
FIG. 1 shows a noise removing apparatus according to the present invention.First reference example related toIt is a block diagram which shows the whole structure. The noise removing device and the conventional noise removing device shown in FIG. 48 are the same except for the
[0080]
The
[0081]
[Expression 14]
[0082]
When the overlap is not 50% but M samples and the frame length is L samples (M <L), the emphasized speech x is expressed by Equation (15).n(t) Obtain a hat. In accordance with this, the frame dividing unit is also corrected.
[0083]
[Expression 15]
[0084]
As already mentioned, a symmetric window function is used for real signals. The window function is designed so that the input signal and the output signal when the suppression coefficient is set to 1 match except for calculation errors. Any window function that satisfies these conditions can be used as w (t) and h (t). As an example, a function (root Hanning window) obtained by opening a Hanning window can be cited. There are other window functions that satisfy these conditions, but details are omitted.
X composing two adjacent framesn-1(t) Bar and xn(t) Even if the bar is suppressed with a different suppression coefficient value in each frame, xn-1(t) Bar and xn(t) x at the frame boundary by multiplying each of the bars by the window function h (t) described above.n-1(t) Bar and xn(t) By reducing the amplitude of the bar, continuity at the frame boundary can be improved and noise generation can be reduced. Therefore, it is possible to suppress deterioration in sound quality due to noise and obtain enhanced sound with excellent sound quality.
[0085]
The injection
[0086]
FIG. 2 is a block diagram illustrating a configuration of the injection
[0087]
The noise to be injected is WnIf (k), Wn(k) is set to take a smaller value as the SNR is larger. Such SNR and WnAs a relation of (k), the SNR is the first threshold value TH.1The first value W when greater than1And the SNR is the second threshold value TH2(<TH1) Is less than the second value W2(> W1) And the SNR is the first threshold value TH1And the second threshold TH2When an intermediate value is taken, W corresponds to SNR.nA function that reduces (k) can be considered. In the simplest example, as shown in FIG. 3, the SNR is a first threshold value TH.1And the second threshold TH2When taking an intermediate value of the first value W1To the second value W2It is a function that changes linearly.
[0088]
First and second threshold values TH1, TH2Can be determined independently, but the second threshold TH2To the first threshold TH1It is possible to simplify the calculation by setting a constant multiple of. Similarly, W can be determined independentlynFirst and second values W of (k)1, W2Is also the second value W2Is the first value W1Can be set to a constant multiple of.
WnFirst and second values W of (k)1, W2Can be determined corresponding to the level of estimated noise. W when the estimated noise level is highnFirst and second values W of (k)1, W2Reduce the size and increase it when it is low. W like thisnFirst and second values W of (k)1, W2For the same SNR value, the smaller the estimated noise level, the smaller the Wn(k) can be set. In this case, it goes without saying that the estimated noise power spectrum is supplied to the injection
[0089]
Furthermore, the threshold value TH1, TH2Can also be determined corresponding to the level of estimated noise. Threshold TH when the estimated noise level is high1, TH2Reduce the size and increase it when it is low. Thus, the threshold value TH1, TH2For the same SNR value, the smaller the estimated noise level, the smaller the Wn(k) can be set. W is higher when the estimated noise level is highernThe reason for reducing (k) is that when the estimated noise level is high, the conventional suppression coefficient is almost appropriate, and the correction amount of the suppression coefficient by noise injection is small. As a result, when the original suppression amount is small and residual noise is easily perceived, a component having a medium amplitude can be relatively largely suppressed, and improvement in subjective sound quality can be achieved.
[0090]
In the above description, the noise to be injected is Wn(k), and an example in which different noise is injected for each frequency component has been described. Actually, the degraded speech power spectrum and the estimated noise power spectrum supplied to the injection
[0091]
As an example, the deteriorated speech power spectrum and the estimated noise power spectrum are added to all frequency components to obtain a sum, the ratio thereof is set as a common SNR, and a threshold value is obtained using the average value of the estimated noise power spectrum. Can be requested. In that case, the
[0092]
In the frequency-specific
[0093]
[Expression 16]
[0094]
Referring to Equation (16), in the region where SNR> 0, | Yn(k) |2 > Λn(k), so SNRγ at the time of noise injectionn(k) is corrected to be smaller than the original value. On the other hand, referring to
[0095]
(No.1Embodiment)
FIG. 5 shows a first embodiment of the noise removing apparatus of the present invention.1It is a block diagram which shows the whole structure of this embodiment. This noise eliminator includes an
[0096]
The
That is, in the noise removal apparatus shown in FIG. 1, the acquired SNR is calculated using the degraded speech power spectrum injected with noise and the estimated noise power spectrum injected with noise, whereas FIG. The noise removal apparatus corrects the calculated acquired SNR using the injection noise calculated using the deteriorated voice power spectrum and the estimated noise power spectrum.
[0097]
The
FIG. 6 is a block diagram illustrating a configuration example of the
The
[0098]
FIG. 7 shows a corrected
[0099]
The estimated noise power spectrum is supplied to the
[0100]
FIG. 8 is a block diagram illustrating another configuration example of the
[0101]
The average
[0102]
FIG. 9 shows a corrected
That is, the injection noise calculated by the injection
[0103]
In the configuration example shown in FIGS. 8 and 9, the corrected
[0104]
As described above, the acquired SNR is corrected by the
[0105]
(Second reference example)
FIG. 10 shows a noise removing apparatus according to the present invention.Second reference example related toIt is a block diagram which shows the whole structure. This noise eliminator has a configuration in which the
In the noise removing apparatus shown in FIG. 10, noise injection is selectively applied according to the nature of the input signal. For this reason, in order to evaluate the nature of the input signal, the degraded speech signal in the time domain, which is the output of the
[0106]
FIG. 11 is a block diagram showing a configuration of injection
The time domain degraded speech signal, which is the output of the
[0107]
Injection noise is supplied to the
Since it is known that the number of zero crossings increases as a non-stationary signal increases, noise injection can be executed only for a signal with a non-stationarity of a certain level or more to correct the suppression coefficient.
[0108]
(Third reference example)
FIG. 12 shows a noise removing apparatus according to the present invention.Third reference example related toIt is a block diagram which shows the whole structure. This noise eliminator has a configuration in which the
[0109]
The noise removing apparatus shown in FIG. 12 is the same as the noise removing apparatus shown in FIG. 10 in that noise injection is selectively applied according to the nature of the input signal. However, the degraded speech signal in the time domain, which is the output of the
[0110]
FIG. 13 is a block diagram showing the configuration of the injection
The high frequency
[0111]
Deteriorated voice power spectrum | Yn(k) |2 K is the reference value kTHThe higher power may be obtained by weighting the larger ones and taking the sum. Further, the fourth threshold value can be determined in advance or can be changed during the operation.
[0112]
(No.2Embodiment)
FIG. 14 shows a first embodiment of the noise removing apparatus of the present invention.2It is a block diagram which shows the whole structure of this embodiment. This noise removal apparatus has a configuration in which the
In the noise removal apparatus shown in FIG. 14, similarly to the noise removal apparatus shown in FIG. 10, noise injection is selectively applied according to the nature of the input signal. For this reason, in order to evaluate the nature of the input signal, the degraded speech signal in the time domain that is the output of the
[0113]
FIG. 15 is a block diagram illustrating a configuration example of the
[0114]
FIG. 16 is a block diagram illustrating a configuration example of the injection
[0115]
Here, the
The zero
The
[0116]
The
[0117]
(No.3Embodiment)
FIG. 17 shows a first embodiment of the noise removing device of the present invention.3It is a block diagram which shows the whole structure of this embodiment. This noise eliminator has a configuration in which the
[0118]
In the noise removal apparatus shown in FIG. 17, noise injection is selectively applied according to the nature of the input signal. At that time, unlike the noise removal apparatus shown in FIG. 14, the quality of the input signal is evaluated using the degraded speech power spectrum instead of the degraded speech signal in the time domain. In other words, the non-stationarity of the signal was evaluated by the number of zero crossings per frame.2Unlike the first embodiment, signal non-stationarity is evaluated using a degraded sound power spectrum in a high frequency region (high region). For this reason, the degraded speech signal in the time domain that is the output of the
FIG. 18 is a block diagram illustrating a configuration example of the
[0119]
FIG. 19 is a block diagram illustrating a configuration example of the injection
[0120]
(Fourth reference example)
FIG. 20 shows a noise removing apparatus according to the present invention.4th reference example related toIt is a block diagram which shows the whole structure. The noise removal apparatus and the noise removal apparatus shown in FIG. 1 are the same except for the estimated
[0121]
First, the weighted deteriorated
[0122]
The configuration of the frequency-specific
[0123]
FIG. 22 is a block diagram illustrating a configuration of the multiple
[0124]
[Expression 17]
[0125]
The
[0126]
As described above, the weighting coefficient multiplied by the degraded speech power spectrum in the
In addition, although the example which used the nonlinear function for the calculation of a weighting coefficient was shown, it is also possible to use the function of SNR represented by other forms, such as a linear function and a high-order polynomial, besides a nonlinear function.
[0127]
Next, the estimated
[0128]
Separating
[0129]
FIG. 25 shows the frequency-specific estimated
The estimated
[0130]
26 shows the frequency-specific
The
[0131]
The
The
The logical
[0132]
Therefore, the
[0133]
In FIG. 25, CNT is the count value of the
[0134]
[Formula 18]
[0135]
That is, λn(k) is an average value of the frequency-dependent weighted degraded sound power spectrum stored in the
[0136]
FIG. 27 shows the frequency-specific
[0137]
The
[0138]
[Equation 19]
[0139]
Since the configuration of the
[0140]
Next, the suppression
[0141]
[0142]
FIG. 29 shows a frequency-specific suppression
The
[0143]
The
The multiplier 1579 calculates the product of the output value of the
[0144]
The suppression coefficient lower limit
In the noise removal apparatus shown in FIGS. 1, 5, 10, 12, 14, and 17, the suppression coefficient is supplied to the
[0145]
Next, the noise suppression
30 is a block diagram illustrating another configuration example of the noise suppression
[0146]
The frame number is n, the frequency number is k, and γn(k) is the frequency-specific acquired SNR supplied from the frequency-specific
The MMSE STSA gain function
[0147]
[Expression 20]
[0148]
Where I0(z) is the zero-order modified Bessel function, I1(z) is a first-order modified Bessel function. The modified Bessel function is described in “1985, Mathematical Dictionary, Iwanami Shoten, page 374. G” (Reference 6).
The generalized likelihood
[0149]
[Expression 21]
[0150]
The suppression
[0151]
[Expression 22]
[0152]
Instead of calculating the SNR for each frequency, it is also possible to obtain and use an SNR common to a band composed of a plurality of frequencies. Therefore, next, an example of calculating the SNR for each band will be described as another configuration example of the frequency-specific
FIG. 31 is a block diagram illustrating another configuration example of the frequency-specific
[0153]
FIG. 32 is a block diagram illustrating a configuration of the band-specific
The band-specific
[0154]
The configuration and operation of the band-specific
[0155]
In addition, although the example which equally divides | segments into a several zone was shown here, the method divided | segmented into the critical zone | band described in "1980, hearing and a voice, IEICE, pages 115-118" (reference 7). , “1983, Multirate Digital Signal Processing, 1983, Prentice-Hall Inc., USA” (Reference 8), and other bands such as the method of dividing into octave bands. It is also possible to use a division method.
[0156]
(No.4Embodiment)
FIG. 33 shows the first of the noise removing apparatus of the present invention.4It is a block diagram which shows the whole structure of this embodiment. The difference from the noise removal apparatus shown in FIG. 20 is that the injection
[0157]
(Fifth reference example)
FIG. 34 shows a noise removing apparatus according to the present invention.5th reference example related toIt is a block diagram which shows the whole structure. The difference from the noise removal apparatus shown in FIG. 20 is that the estimated
[0158]
FIG. 35 is a block diagram showing a configuration of estimated
[0159]
36 shows a frequency-specific estimated
[0160]
The
[0161]
The output signal of the
[0162]
(No.5Embodiment)
FIG. 37 shows the first of the noise removing apparatus of the present invention.5It is a block diagram which shows the whole structure of this embodiment. The difference from the noise removal apparatus shown in FIG. 34 is that the injection
[0163]
(Sixth reference example)
FIG. 38 shows a noise removing apparatus according to the present invention.6th reference example related toIt is a block diagram which shows the whole structure. Since the noise removal apparatus shown in FIG. 20 is the same except for the estimated innate
FIG. 39 is a block diagram showing the configuration of the estimated innate
[0164]
The enhanced speech power
The estimated
[0165]
The frequency-specific
G, which is the output of the frequency-specific SNR calculator 715n-1 2(K) Bar ・ | Yn-1(k) |2 / Λn-1(k) is γ which is the output of the
[0166]
(No.6Embodiment)
FIG. 40 shows the first embodiment of the noise removing apparatus of the present invention.6It is a block diagram which shows the whole structure of this embodiment. The difference from the noise removal apparatus shown in FIG. 38 is that the injection
[0167]
(Seventh reference example)
FIG. 41 shows a noise removing apparatus according to the present invention.7th reference example related toIt is a block diagram which shows the whole structure. The difference from the noise removal apparatus shown in FIG. 20 is that the estimated
[0168]
(No.7Embodiment)
FIG. 42 shows the first embodiment of the noise removing apparatus of the present invention.7It is a block diagram which shows the whole structure of this embodiment. The difference from the noise removal apparatus shown in FIG. 41 is that the injection
[0169]
(Eighth reference example)
FIG. 43 shows a noise removing apparatus according to the present invention.8th reference example related toIt is a block diagram which shows the whole structure. The difference from the noise removal apparatus shown in FIG. 20 is that the estimated
FIG. 44 is a block diagram showing the configuration of the estimated
[0170]
45 shows a frequency-specific estimated
46 is a block diagram illustrating a configuration of the
[0171]
The logical
As described with reference to FIG. 26, the
[0172]
(No.8Embodiment)
FIG. 47 shows the first of the noise removing apparatus of the present invention.8It is a block diagram which shows the whole structure of this embodiment. The difference from the noise removal apparatus shown in FIG. 43 is that the injection
[0173]
20, 33, 34, 37, 38, 40 to 43, and 47, instead of the deteriorated speech signal corresponding to the relationship between FIGS. 10 and 12 and FIGS. 14 and 17. Although it is possible to selectively inject noise using a degraded speech power spectrum, the configuration is clear and the details are omitted.
[0174]
In all the embodiments described so far, the minimum mean square error short-time spectrum amplitude method has been assumed as a noise removal method, but it can also be applied to other methods. As an example of such a method, “December 1979, Proceedings of the IEE, Vol. 67, No. 12 (PROCEEDINGS OF THE IEEE, VOL.67, NO.12, PP.1586-1604, DEC, 1979), pages 1586 to 1604 "(Reference 9) and the" Wiener filter method "published in April 1979, IEE Transactions on Axetics.・ Speech and Signal Processing, Vol. 27, No. 2 (IEEE TRANSACTIONS ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, VOL.27, NO.2, PP.113-120, APR, 1979), 113-120 There is a spectrum subtraction method disclosed in “Page” (Reference 10), and the detailed configuration example thereof will not be described.
[0175]
With regard to the schematic operation of the spectral subtraction method disclosed in
[0176]
【The invention's effect】
As described above, in the present invention, pseudo noise is generated based on the input signal, and the suppression coefficient obtained by injecting the pseudo noise is used. By injecting the above-mentioned pseudo noise when determining the suppression coefficient, the suppression coefficient derived assuming the background noise according to a specific statistical model is corrected according to the input signal, and noise that does not follow the statistical model is corrected. It can be effectively removed. Therefore, it is possible to obtain emphasized speech with sufficiently high quality against any background noise.
[0177]
In the present invention, a windowing process is performed on the time domain signal obtained by converting the emphasized speech in the frequency domain. When two adjacent frames of a time domain signal converted from frequency domain emphasized speech are superimposed and added, even if the signal sample that is the target of the superposition addition is suppressed with a different suppression coefficient value in each frame, By windowing each frame to reduce the amplitude of the signal samples at the frame boundaries, the continuity of the signal samples at the frame boundaries can be improved. Thereby, generation | occurrence | production of noise can be prevented and deterioration of the sound quality by noise can be reduced.
[Brief description of the drawings]
FIG. 1 is a noise removal device of the present invention.First reference example related toIt is a block diagram which shows the whole structure.
FIG. 2 is a block diagram showing a first configuration of an injection noise calculation unit included in the noise removal apparatus shown in FIG. 1;
FIG. 3 is a diagram illustrating an example of a relationship between SNR and injection noise.
FIG. 4 is a diagram illustrating an example of a characteristic of a suppression coefficient with respect to an SNR.
FIG. 5 shows a first embodiment of the noise removing device of the present invention1It is a block diagram which shows the whole structure of this embodiment.
6 is a block diagram showing a first configuration of an SNR correction unit included in the noise removal device shown in FIG. 5. FIG.
7 is a block diagram showing a configuration of a corrected SNR calculation unit included in the SNR correction unit shown in FIG. 6;
FIG. 8 is a block diagram showing a second configuration of the SNR correction unit.
9 is a block diagram showing a configuration of a corrected SNR calculation unit included in the SNR correction unit shown in FIG.
FIG. 10 is a noise removal device of the present invention.Second reference example related toIt is a block diagram which shows the whole structure.
FIG. 11 is a block diagram showing a second configuration of an injection noise calculation unit.
FIG. 12 is a noise removal device of the present invention.Third reference example related toIt is a block diagram which shows the whole structure.
FIG. 13 is a block diagram showing a third configuration of an injection noise calculation unit.
FIG. 14 shows a first embodiment of the noise removing apparatus according to the present invention.2It is a block diagram which shows the whole structure of this embodiment.
FIG. 15 is a block diagram showing a third configuration of the SNR correction unit.
FIG. 16 is a block diagram showing a fourth configuration of an injection noise calculation unit.
FIG. 17 shows a first embodiment of the noise removing device of the present invention.3It is a block diagram which shows the whole structure of this embodiment.
FIG. 18 is a block diagram showing a fourth configuration of the SNR correction unit.
FIG. 19 is a block diagram showing a fifth configuration of the injection noise calculation unit.
FIG. 20 is a noise removal device of the present invention.4th reference example related toIt is a block diagram which shows the whole structure.
FIG. 21 is a block diagram illustrating a configuration of a weighted deteriorated speech calculation unit included in the noise removal device illustrated in FIG. 20;
22 is a block diagram showing a configuration of a multiple nonlinear processing unit included in the weighted deteriorated speech calculation unit shown in FIG. 21. FIG.
FIG. 23 is a diagram illustrating an example of a nonlinear function in a nonlinear processing unit.
24 is a block diagram showing a first configuration of an estimated noise calculation unit included in the noise removal apparatus shown in FIG.
25 is a block diagram showing a first configuration of a frequency-specific estimated noise calculator included in the estimated noise calculator shown in FIG. 24. FIG.
26 is a block diagram showing a configuration of an update determination unit included in the frequency-specific estimated noise calculation unit shown in FIG.
FIG. 27 is a block diagram showing a second configuration of the frequency-specific estimated noise calculator.
FIG. 28 is a block diagram illustrating a configuration of a suppression coefficient correction unit included in the noise removal device illustrated in FIG.
29 is a block diagram showing a configuration of a frequency-specific suppression coefficient correction unit included in the suppression coefficient correction unit shown in FIG. 28. FIG.
FIG. 30 is a block diagram illustrating a second configuration of the noise suppression coefficient generation unit.
FIG. 31 is a block diagram showing a second configuration of the frequency-specific SNR calculator.
32 is a block diagram illustrating a configuration of a band-specific power calculation unit included in the frequency-specific SNR calculation unit illustrated in FIG. 31;
FIG. 33 shows the first of the noise removal apparatus of the present invention.4It is a block diagram which shows the whole structure of this embodiment.
FIG. 34 is a noise removal device of the present invention.5th reference example related toIt is a block diagram which shows the whole structure.
FIG. 35 is a block diagram illustrating a second configuration of the estimated noise calculation unit.
36 is a block diagram showing a configuration of a frequency-specific estimated noise calculation unit included in the estimated noise calculation unit shown in FIG. 35;
FIG. 37 shows the first of the noise removal apparatus of the present invention.5It is a block diagram which shows the whole structure of this embodiment.
FIG. 38 shows a noise removing apparatus according to the present invention.6th reference example related toIt is a block diagram which shows the whole structure.
39 is a block diagram illustrating a configuration of an estimated innate SNR calculation unit included in the noise removal device illustrated in FIG. 38.
FIG. 40 shows a first embodiment of the noise removing apparatus according to the present invention.6It is a block diagram which shows the whole structure of this embodiment.
FIG. 41 is a noise removal device of the present invention.7th reference example related toIt is a block diagram which shows the whole structure.
FIG. 42 shows a first embodiment of the noise removing device of the present invention.7It is a block diagram which shows the whole structure of this embodiment.
FIG. 43 is a noise removal device of the present invention.8th reference example related toIt is a block diagram which shows the whole structure.
FIG. 44 is a block diagram showing a third configuration of the estimated noise calculation unit.
45 is a block diagram showing a configuration of a frequency-specific estimated noise calculator included in the estimated noise calculator shown in FIG. 44. FIG.
46 is a block diagram showing a configuration of an update determination unit included in the frequency-specific estimated noise calculation unit shown in FIG. 45. FIG.
FIG. 47 is a first diagram of the noise removal apparatus according to the present invention.8It is a block diagram which shows the whole structure of this embodiment.
FIG. 48 is a block diagram showing an overall configuration of a conventional noise removing device.
FIG. 49 is a block diagram illustrating a configuration of a voice detection unit included in a conventional noise removal device.
50 is a block diagram showing a configuration of a power calculation unit included in the voice detection unit shown in FIG. 49. FIG.
51 is a block diagram illustrating a configuration of a weighted addition unit included in the voice detection unit illustrated in FIG. 49. FIG.
FIG. 52 is a block diagram showing a configuration of a multiple multiplier included in a conventional noise removal apparatus.
FIG. 53 is a block diagram illustrating a configuration of an estimated noise calculation unit included in a conventional noise removal device.
54 is a block diagram showing a configuration of a frequency-specific estimated noise calculator included in the estimated noise calculator shown in FIG. 53. FIG.
55 is a block diagram showing a configuration of an update determination unit included in the frequency-specific estimated noise calculation unit shown in FIG. 54. FIG.
FIG. 56 is a block diagram illustrating a configuration of a frequency-specific SNR calculation unit included in a conventional noise removal apparatus.
FIG. 57 is a block diagram illustrating a configuration of an estimated innate SNR calculation unit included in a conventional noise removal device.
58 is a block diagram showing a configuration of a multi-value range limiting processing unit included in the estimated innate SNR calculation unit shown in FIG. 57. FIG.
59 is a block diagram showing a configuration of a multi-weighted addition unit included in the estimated innate SNR calculation unit shown in FIG.
FIG. 60 is a block diagram illustrating a configuration of a noise suppression coefficient generation unit included in a conventional noise removal device.
61 is a block diagram showing a configuration of a suppression coefficient search unit included in the noise suppression coefficient generation unit shown in FIG. 60. FIG.
[Explanation of symbols]
DESCRIPTION OF
Claims (12)
前記抑圧係数を定めるステップは、
前記雑音と前記周波数領域信号とを用いて加算信号を求め、この加算信号と前記周波数領域信号との和、及び前記加算信号と前記雑音との和を用いて信号対雑音比を再計算し、前記再計算された信号対雑音比を前記信号対雑音比に代えて用いることによって前記信号対雑音比の補正を行い、この補正した信号対雑音比に基づいて前記抑圧係数を定める
ことを特徴とするノイズ除去方法。An input signal is converted into a frequency domain signal, noise is estimated using the frequency domain signal, a signal-to-noise ratio is obtained using the noise and the frequency domain signal, and a suppression coefficient is calculated based on the signal-to-noise ratio. In the noise removal method of obtaining an output signal obtained by removing noise from the input signal by weighting the frequency domain signal using the suppression coefficient and converting the weighted frequency domain signal into a time domain signal ,
Determining the suppression coefficient comprises:
Obtaining a sum signal using the noise and the frequency domain signal, recalculating the signal-to-noise ratio using the sum of the sum signal and the frequency domain signal, and the sum of the sum signal and the noise; The signal-to-noise ratio is corrected by using the recalculated signal-to-noise ratio instead of the signal-to-noise ratio, and the suppression coefficient is determined based on the corrected signal-to-noise ratio. To remove noise.
前記加算信号は、前記信号対雑音比が低く前記雑音が大きいときに大きくなるよう求める
ことを特徴とするノイズ除去方法。In the noise removal method of Claim 1,
The noise removal method according to claim 1, wherein the sum signal is determined to be large when the signal-to-noise ratio is low and the noise is large .
前記入力信号の定常度が低いときに、前記信号対雑音比の補正を行う
ことを特徴とするノイズ除去方法。In the noise removal method in any one of Claim 1 or 2,
A noise removing method, wherein the signal-to-noise ratio is corrected when the stationary state of the input signal is low.
前記入力信号の振幅がゼロとなるゼロ交叉の数が多いときに、前記信号対雑音比の補正を行う
ことを特徴とするノイズ除去方法。In the noise removal method in any one of Claims 1-3,
A noise removal method, wherein the signal-to-noise ratio is corrected when the number of zero crossings where the amplitude of the input signal becomes zero is large.
前記入力信号を変換した前記周波数領域信号の高域電力が大きいときに、前記信号対雑音比の補正を行う
ことを特徴とするノイズ除去方法。In the noise removal method in any one of Claims 1-3,
A noise removal method comprising correcting the signal-to-noise ratio when high frequency power of the frequency domain signal obtained by converting the input signal is large.
前記雑音を推定するステップは、
前記入力信号を変換した前記周波数領域信号を、前記信号対雑音比が高いときに小さく、前記信号対雑音比が低いときに大きい重みによって重みづけし、この重みづけした周波数領域信号に基づいて雑音を推定する
ことを特徴とするノイズ除去方法。In the noise removal method in any one of Claims 1-5,
Estimating the noise comprises:
The frequency domain signal obtained by transforming the input signal is weighted with a small weight when the signal-to-noise ratio is high and with a large weight when the signal-to-noise ratio is low, and noise is generated based on the weighted frequency-domain signal. A noise removal method characterized by estimating.
前記抑圧係数を用いて前記周波数領域信号を重みづけするステップは、
前記周波数領域信号に基づいて、前記信号対雑音比が低いときは前記抑圧係数を修正し、前記修正結果又は前記抑圧係数と予め定められた下限値とを比較し、大きいほうの値を前記抑圧係数に代えることにより前記抑圧係数を補正し、この補正した抑圧係数を用いて前記周波数領域信号を重みづけする
ことを特徴とするノイズ除去方法。In the noise removal method in any one of Claims 1-6,
The step of weighting the frequency domain signal using the suppression coefficient comprises:
Based on the frequency domain signal, the suppression coefficient is corrected when the signal-to-noise ratio is low, the correction result or the suppression coefficient is compared with a predetermined lower limit value, and the larger value is the suppression value. A noise removal method comprising: correcting the suppression coefficient by replacing with a coefficient, and weighting the frequency domain signal using the corrected suppression coefficient.
前記周波数領域信号の振幅成分を用いて第1の信号対雑音比を求めて出力する第1の信号対雑音比計算部と、
前記周波数領域信号の振幅成分に基づいて前記周波数領域信号に含まれる雑音を推定して出力する推定雑音計算部と、
前記雑音と前記周波数領域信号の振幅成分を用いて前記第1の信号対雑音比を補正し、補正信号対雑音比として出力する信号対雑音比補正部と、
前記補正信号対雑音比に基づいて抑圧係数を定めて出力する雑音抑圧係数生成部と、
前記抑圧係数を用いて前記周波数領域信号の振幅成分を重みづけして出力する第1の乗算部と、
この第1の乗算部により重みづけされた周波数領域信号の振幅成分と前記周波数領域信号の位相成分を時間領域信号に変換して出力する逆変換部と、
を少なくとも具備し、
前記信号対雑音比補正部は、前記雑音と前記周波数領域信号の振幅成分を用いて加算信号を計算して出力する注入雑音計算部を備え、前記加算信号と前記周波数領域信号との和及び前記加算信号と前記雑音との和を用いて信号対雑音比を再計算し、前記再計算された信号対雑音比を前記信号対雑音比に代えて用いることによって補正信号対雑音比として出力する
ことを特徴とするノイズ除去装置。A conversion unit that converts an input signal into a frequency domain signal and separates and outputs an amplitude component and a phase component;
A first signal-to-noise ratio calculation unit that obtains and outputs a first signal-to-noise ratio using the amplitude component of the frequency domain signal;
An estimated noise calculator that estimates and outputs noise included in the frequency domain signal based on the amplitude component of the frequency domain signal;
A signal-to-noise ratio correction unit that corrects the first signal-to-noise ratio using the noise and the amplitude component of the frequency domain signal, and outputs the corrected signal-to-noise ratio;
A noise suppression coefficient generator that determines and outputs a suppression coefficient based on the correction signal-to-noise ratio;
A first multiplier that weights and outputs an amplitude component of the frequency domain signal using the suppression coefficient;
An inverse conversion unit that converts the amplitude component of the frequency domain signal weighted by the first multiplication unit and the phase component of the frequency domain signal into a time domain signal and outputs the time domain signal;
Comprising at least
The signal-to-noise ratio correction unit includes an injection noise calculation unit that calculates and outputs an addition signal using the noise and an amplitude component of the frequency domain signal, and the sum of the addition signal and the frequency domain signal and the Recalculate the signal-to-noise ratio using the sum of the sum signal and the noise, and output the corrected signal-to-noise ratio by using the recalculated signal-to-noise ratio instead of the signal-to-noise ratio A noise removing device characterized by the above.
前記信号対雑音比補正部は、
前記入力信号が入力され、前記入力信号の振幅がゼロとなるゼロ交叉の数を計算し、そのゼロ交叉の数が大きいときは前記補正信号対雑音比を、ゼロ交叉の数が小さいときは前記第1の信号対雑音比を、前記信号対雑音比補正部から出力させるための制御信号を出力する判定部と、
この判定部から入力された前記制御信号によって、前記補正信号対雑音比を選択的に補正前の前記第1の信号対雑音比と同じ値に設定するスイッチと
を含むことを特徴とするノイズ除去装置。The noise removal device according to claim 8, wherein
The signal-to-noise ratio correction unit is
When the input signal is input, the number of zero crossings at which the amplitude of the input signal becomes zero is calculated.When the number of zero crossings is large, the correction signal-to-noise ratio is calculated.When the number of zero crossings is small, the number of zero crossings is calculated. A determination unit that outputs a control signal for outputting the first signal-to-noise ratio from the signal-to-noise ratio correction unit;
A switch for selectively setting the correction signal-to-noise ratio to the same value as the first signal-to-noise ratio before correction according to the control signal input from the determination unit. apparatus.
前記信号対雑音比補正部は、前記変換部から入力された前記周波数領域信号の振幅成分の高域電力を計算し、その計算結果に応じ、高域電力が大きいときは前記補正信号対雑音比を、小さいときは前記第1の信号対雑音比を、前記信号対雑音比補正部から出力させるための制御信号を出力する判定部と、
この判定部から入力された前記制御信号によって、前記補正信号対雑音比を選択的に補正前の前記第1の信号対雑音比と同じ値に設定するスイッチと
を含むことを特徴とするノイズ除去装置。The noise removal device according to claim 8, wherein
The signal-to-noise ratio correction unit calculates the high frequency power of the amplitude component of the frequency domain signal input from the conversion unit, and according to the calculation result, when the high frequency power is large, the correction signal to noise ratio A determination unit that outputs a control signal for causing the first signal-to-noise ratio to be output from the signal-to-noise ratio correction unit when it is small;
A switch for selectively setting the correction signal-to-noise ratio to the same value as the first signal-to-noise ratio before correction according to the control signal input from the determination unit. apparatus.
前記周波数領域信号の振幅成分を用いて第2の信号対雑音比を計算して出力する第2の信号対雑音比計算部と、
この第2の信号対雑音比計算部から入力された前記第2の信号対雑音比を非線形関数によって前記信号対雑音比が高いときに小さく、前記信号対雑音比が低いときに大きい重みを求めて出力する非線形処理部と、
この非線形処理部から入力された前記重みを用いて前記周波数領域信号の振幅成分を重みづけし、前記推定雑音計算部に出力する第2の乗算部と
を含む重み付劣化音声計算部を更に具備し、
前記推定雑音計算部は、前記周波数領域信号に代えて前記重みつき振幅成分に基づいて前記雑音を推定する
ことを特徴とするノイズ除去装置。The noise removal device according to claim 10, wherein
A second signal-to-noise ratio calculator that calculates and outputs a second signal-to-noise ratio using the amplitude component of the frequency domain signal;
The second signal-to-noise ratio input from the second signal-to-noise ratio calculator is determined by a non-linear function to obtain a small weight when the signal-to-noise ratio is high and a large weight when the signal-to-noise ratio is low. Output a nonlinear processing unit,
A weighted degraded speech calculation unit including a second multiplication unit that weights the amplitude component of the frequency domain signal using the weight input from the nonlinear processing unit and outputs the weighted component to the estimated noise calculation unit; And
The estimated noise calculation unit estimates the noise based on the weighted amplitude component instead of the frequency domain signal.
前記雑音抑圧係数生成部から前記第1の乗算部に入力される前記抑圧係数を、前記周波数領域信号に基づいて、前記第1の信号対雑音比が低いときは修正し、前記修正結果又は前記抑圧係数と予め定められた下限値を比較し、大きいほうの値を前記抑圧係数に代えることにより補正して、前記補正した抑圧係数を前記第1の乗算部に入力する抑圧係数補正部
を更に具備することを特徴とするノイズ除去装置。In the noise removal apparatus in any one of Claims 8-11,
The suppression coefficient input from the noise suppression coefficient generation unit to the first multiplication unit is corrected based on the frequency domain signal when the first signal-to-noise ratio is low, and the correction result or the A suppression coefficient correction unit that compares the suppression coefficient with a predetermined lower limit value, corrects a larger value by replacing the suppression coefficient, and inputs the corrected suppression coefficient to the first multiplication unit; A noise removing apparatus comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001339156A JP3858668B2 (en) | 2001-11-05 | 2001-11-05 | Noise removal method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001339156A JP3858668B2 (en) | 2001-11-05 | 2001-11-05 | Noise removal method and apparatus |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005177567A Division JP4395772B2 (en) | 2005-06-17 | 2005-06-17 | Noise removal method and apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003140700A JP2003140700A (en) | 2003-05-16 |
JP3858668B2 true JP3858668B2 (en) | 2006-12-20 |
Family
ID=19153548
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001339156A Expired - Lifetime JP3858668B2 (en) | 2001-11-05 | 2001-11-05 | Noise removal method and apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3858668B2 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005321821A (en) * | 2005-06-17 | 2005-11-17 | Nec Corp | Method and device for noise removal |
JP2008309955A (en) * | 2007-06-13 | 2008-12-25 | Toshiba Corp | Noise suppresser |
CN103238183A (en) * | 2011-01-19 | 2013-08-07 | 三菱电机株式会社 | Noise suppression device |
JP5773124B2 (en) * | 2008-04-21 | 2015-09-02 | 日本電気株式会社 | Signal analysis control and signal control system, apparatus, method and program |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8233636B2 (en) | 2005-09-02 | 2012-07-31 | Nec Corporation | Method, apparatus, and computer program for suppressing noise |
WO2007058121A1 (en) * | 2005-11-15 | 2007-05-24 | Nec Corporation | Reverberation suppressing method, device, and reverberation suppressing program |
US8744844B2 (en) * | 2007-07-06 | 2014-06-03 | Audience, Inc. | System and method for adaptive intelligent noise suppression |
WO2007123052A1 (en) * | 2006-04-20 | 2007-11-01 | Nec Corporation | Adaptive array control device, method, program, adaptive array processing device, method, program |
US8106827B2 (en) | 2006-04-20 | 2012-01-31 | Nec Corporation | Adaptive array control device, method and program, and adaptive array processing device, method and program |
JP4973655B2 (en) | 2006-04-20 | 2012-07-11 | 日本電気株式会社 | Adaptive array control device, method, program, and adaptive array processing device, method, program using the same |
WO2007123048A1 (en) * | 2006-04-20 | 2007-11-01 | Nec Corporation | Adaptive array control device, method, and program, and its applied adaptive array processing device, method, and program |
WO2009038013A1 (en) * | 2007-09-21 | 2009-03-26 | Nec Corporation | Noise removal system, noise removal method, and noise removal program |
US8473287B2 (en) * | 2010-04-19 | 2013-06-25 | Audience, Inc. | Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system |
CN104662605A (en) * | 2012-07-25 | 2015-05-27 | 株式会社尼康 | Signal processing device, imaging device, and program |
US10748551B2 (en) | 2014-07-16 | 2020-08-18 | Nec Corporation | Noise suppression system, noise suppression method, and recording medium storing program |
-
2001
- 2001-11-05 JP JP2001339156A patent/JP3858668B2/en not_active Expired - Lifetime
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005321821A (en) * | 2005-06-17 | 2005-11-17 | Nec Corp | Method and device for noise removal |
JP2008309955A (en) * | 2007-06-13 | 2008-12-25 | Toshiba Corp | Noise suppresser |
JP5773124B2 (en) * | 2008-04-21 | 2015-09-02 | 日本電気株式会社 | Signal analysis control and signal control system, apparatus, method and program |
CN103238183A (en) * | 2011-01-19 | 2013-08-07 | 三菱电机株式会社 | Noise suppression device |
Also Published As
Publication number | Publication date |
---|---|
JP2003140700A (en) | 2003-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4282227B2 (en) | Noise removal method and apparatus | |
JP5092748B2 (en) | Noise suppression method and apparatus, and computer program | |
JP4670483B2 (en) | Method and apparatus for noise suppression | |
KR100927897B1 (en) | Noise suppression method and apparatus, and computer program | |
JP3858668B2 (en) | Noise removal method and apparatus | |
JP3454206B2 (en) | Noise suppression device and noise suppression method | |
RU2127454C1 (en) | Method for noise suppression | |
US7286980B2 (en) | Speech processing apparatus and method for enhancing speech information and suppressing noise in spectral divisions of a speech signal | |
JP5435204B2 (en) | Noise suppression method, apparatus, and program | |
US20100207689A1 (en) | Noise suppression device, its method, and program | |
WO2005124739A1 (en) | Noise suppression device and noise suppression method | |
JP2007006525A (en) | Method and apparatus for removing noise | |
JP4395772B2 (en) | Noise removal method and apparatus | |
JP6064600B2 (en) | Signal processing apparatus, signal processing method, and signal processing program | |
JP2008216721A (en) | Noise suppression method, device, and program | |
JP5413575B2 (en) | Noise suppression method, apparatus, and program | |
JP2003131689A (en) | Noise removing method and device | |
US10388264B2 (en) | Audio signal processing apparatus, audio signal processing method, and audio signal processing program | |
JP4968355B2 (en) | Method and apparatus for noise suppression | |
JP2002140100A (en) | Noise suppressing device | |
JP2002175099A (en) | Method and device for noise suppression | |
JP6554853B2 (en) | Noise suppression device and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050315 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050419 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050617 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050726 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050926 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20051101 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20051201 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051228 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20051201 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20060130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060328 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060331 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060829 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060911 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3858668 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090929 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100929 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110929 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120929 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130929 Year of fee payment: 7 |
|
EXPY | Cancellation because of completion of term |