JP2013148724A - 雑音抑圧装置、雑音抑圧方法およびプログラム - Google Patents

雑音抑圧装置、雑音抑圧方法およびプログラム Download PDF

Info

Publication number
JP2013148724A
JP2013148724A JP2012009240A JP2012009240A JP2013148724A JP 2013148724 A JP2013148724 A JP 2013148724A JP 2012009240 A JP2012009240 A JP 2012009240A JP 2012009240 A JP2012009240 A JP 2012009240A JP 2013148724 A JP2013148724 A JP 2013148724A
Authority
JP
Japan
Prior art keywords
noise
band
unit
noise suppression
band power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012009240A
Other languages
English (en)
Inventor
Kenichi Makino
堅一 牧野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2012009240A priority Critical patent/JP2013148724A/ja
Priority to US13/719,696 priority patent/US20130191118A1/en
Priority to CN201310009827.4A priority patent/CN103220440A/zh
Publication of JP2013148724A publication Critical patent/JP2013148724A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Noise Elimination (AREA)

Abstract

【課題】入力信号から雑音信号の推定を行って雑音信号を選択的に低減する際の音質の向上を図る。
【解決手段】雑音帯域パワー推定部により、帯域パワー算出部で得られた各帯域分割信号の帯域パワーと雑音判定部の判定結果から、各帯域の雑音の帯域パワーを推定する。雑音抑圧ゲイン決定部により、各帯域分割信号の帯域パワーと推定された各帯域の雑音の帯域パワーに基づいて、各帯域の雑音抑圧ゲインを決定する。雑音帯域パワー推定部は、非定常雑音における雑音変化への追従速度を定常雑音における雑音変化への追従速度より上げる。非定常雑音への追従性能を改善でき、定常雑音のみならず、非定常雑音にも効果的な雑音抑圧を実現できる。
【選択図】図4

Description

本技術は、雑音抑圧装置、雑音抑圧方法およびプログラムに関し、特に、入力信号から雑音信号の推定を行って雑音信号を選択的に低減した出力信号を得る雑音抑圧装置等に関する。
近年、VoIP(Voice over Internet Protocol)や携帯電話などの通信機器やICレコーダなど、マイクロホンで収音した人間の音声をAD(Analog to Digital)変換し、デジタル信号として伝送・記録したうえで再生を行う電子機器が広く普及している。これらの電子機器の使用時には周囲環境から発せられる音がマイクに混入し音声を聞き取る妨げとなる。
そこで、従来、携帯電話などにおいては、入力信号から雑音信号の推定を行い、雑音信号を選択的に低減する雑音抑圧技術が導入されてきた。この種の雑音抑圧技術は、例えば、非特許文献1などに開示されている。
Yariv Ephraim and David Malarah, "SpeechEnhancementUsing a Minimum Mean Square Error Short-Time Spectral Amplitude Estimator",IEEE Transactions on Accoustics, Speech, And Signal Processing,Vol. ASSP-32, No. 6, December1994 pp1109-1121.
雑音には、パワー変動を伴わない定常雑音の他に、衣ずれ音や紙のこすれ音などの摩擦雑音や風切り音といった、雑音性のスペクトル形状を持ちながらもパワー変動を伴う非定常雑音が存在する。
本技術の目的は、定常雑音のみならず、非定常雑音にも効果的な雑音抑圧を実現することにある。
本技術の概念は、
入力信号を所定フレーム長のフレームに分割してフレーム化するフレーム化部と、
上記フレーム化部で得られたフレーム化信号を複数の帯域に分割して帯域分割信号を得る帯域分割部と、
上記帯域分割部で得られた各帯域分割信号から帯域パワーを得る帯域パワー算出部と、 上記フレーム化信号の特性に基づいて、各帯域が定常雑音および非定常雑音のいずれであるか否かを判定する雑音判定部と、
上記帯域パワー算出部で得られた各帯域分割信号の帯域パワーと上記雑音判定部の判定結果から、各帯域の雑音の帯域パワーを推定する雑音帯域パワー推定部と、
上記帯域パワー算出部で得られた各帯域分割信号の帯域パワーと上記雑音帯域パワー推定部で推定された各帯域の雑音の帯域パワーに基づいて、各帯域の雑音抑圧ゲインを決定する雑音抑圧ゲイン決定部と、
上記帯域分割部で得られた各帯域分割信号に、上記雑音抑圧ゲイン決定部で決定された各帯域の雑音抑圧ゲインを適用して雑音が抑圧された帯域分割信号を得る雑音抑圧部と、
上記雑音抑圧部で得られた各帯域分割信号を帯域合成して雑音抑圧されたフレーム化信号を得る帯域合成部と、
上記帯域合成部で得られた各フレームのフレーム化信号をフレーム合成して雑音を抑圧した出力信号を得るフレーム合成部とを備え、
上記雑音帯域パワー推定部は、
上記非定常雑音における雑音変化への追従速度を上記定常雑音における雑音変化への追従速度より上げる
雑音抑圧装置にある。
この発明において、フレーム化部により、入力信号は所定時間長のフレームに分割されてフレーム化される。そして、帯域分割部により、フレーム化信号が複数の帯域に分割されて帯域分割信号が得られる。例えば、この帯域分割部では、フレーム化信号に対して高速フーリエ変換が施されて周波数領域の信号とされて、複数帯域に分割される。
帯域パワー算出部により、帯域分割部で得られた各帯域分割信号から帯域パワーが得られる。この場合、例えば、フーリエ変換で得られる複素スペクトルからパワースペクトルが算出され、パワースペクトルの帯域内の最大値あるいは平均値などが代表値、つまり帯域パワーとされる。
雑音判定部により、フレーム化信号の特性に基づいて、各帯域が定常雑音および非定常雑音のいずれであるか否かが判定される。つまり、この雑音判定部により、各帯域が、定常雑音であるか、非定常雑音であるか、あるいは音声であるかが判定される。例えば、各帯域が順次判定帯域とされ、この判定帯域の帯域分割信号の現在のフレームと過去のフレームとの帯域パワーが比較され、該帯域パワーの変動が閾値内にあるとき、この判定帯域は定常雑音と判定される。この判定は、雑音のパワーはフレーム間で一定であり、逆にパワー変動が大きい信号は雑音ではないとの仮定に基づいている。また、例えば、各帯域が順次判定帯域とされ、フレーム化信号が非定常雑音の特性を有し、判定帯域内に音声由来のピークが存在しないとき、この判定帯域は非定常雑音と判定される。
雑音帯域パワー推定部により、帯域パワー算出部で得られた各帯域分割信号の帯域パワーと雑音判定部の判定結果から、各帯域の雑音帯域パワーが推定される。この場合、非定常雑音における雑音変化への追従速度は、定常雑音における雑音変化への追従速度より上げられる。例えば、雑音帯域パワー推定部は、帯域毎に、帯域パワー算出部で得られた現在フレームの帯域パワーと1フレーム前に推定された雑音の帯域パワーとを加重加算することにより、現在フレームの推定された雑音のパワーを得、非定常雑音における現在フレームの帯域パワーの重みは、定常雑音における上記現在フレームの帯域パワーの重みより大きくされる。
雑音抑圧ゲイン決定部により、帯域パワー算出部で得られた各帯域分割信号の帯域パワーと雑音帯域パワー推定部で推定された各帯域の雑音の帯域パワーに基づいて、各帯域の雑音抑圧ゲインが決定される。そして、雑音抑圧部により、帯域分割部で得られた各帯域分割信号に、雑音抑圧ゲイン決定部で決定された各帯域の雑音抑圧ゲインが適用されて、雑音が抑圧された帯域分割信号が得られる。そして、帯域合成部により、雑音抑圧部で得られた各帯域分割信号が帯域合成されて雑音抑圧されたフレーム化信号が得られ、フレーム合成部により、帯域合成部で得られた各フレームのフレーム化信号がフレーム合成されて、雑音が抑圧された出力信号が得られる。
このように、本技術においては、雑音帯域パワー推定部で各帯域の雑音帯域パワーを推定する際に、非定常雑音における雑音変化への追従速度は、定常雑音における雑音変化への追従速度より上げられる。非定常雑音は定常雑音と比べて信号の変化の速度が速いが、非定常雑音の場合はノイズの追従速度が速められるので、こと非定常雑音への追従性能が改善される。従って、定常雑音のみならず、非定常雑音にも効果的な雑音抑圧を実現できる。
なお、本技術において、例えば、雑音抑圧ゲイン決定部は、帯域毎に、帯域パワー算出部で得られた各帯域分割信号の帯域パワーと雑音帯域パワー推定部で推定された各帯域の雑音の帯域パワーとからSNRを算出するSNR算出部と、帯域毎に、SNR算出部で算出されたSNRを平滑化するSNR平滑化部とを有する構成とされてもよい。
この場合、雑音抑圧ゲイン決定部では、SNR平滑部で平滑化された各帯域のSNRに基づいて、各帯域の雑音抑圧ゲインが決定される。また、この場合、平滑化の係数は、雑音判定部の判定結果および周波数帯域に基づいて変更される。例えば、雑音抑圧ゲイン決定部では、SNR平滑化部で平滑化された各帯域のSNRと共に、SNR算出部で算出されたSNRに基づいて、各帯域の雑音抑圧ゲインが決定される、ようにしてもよい。
また、例えば、雑音抑圧ゲイン決定部では、帯域毎に、現在のフレームの信号の帯域パワーと推定された雑音の帯域パワーの比が第1のSNRとされ、直前フレームの信号の帯域のパワーと雑音抑圧ゲインが乗算された量と直前フレームの推定された雑音の帯域パワーの比が第2のSNRとされる。そして、雑音抑圧ゲイン決定部では、第1のSNRと第2のSNRとが用いられて雑音抑圧ゲインが決定される。
このように雑音抑圧ゲイン決定部において、例えば、帯域毎に、平滑化SNRに基づいて雑音抑圧ゲインが決定されるが、その平滑化係数が雑音判定部の判定結果および帯域に基づいて変更される。例えば、各フレーム、各帯域で、非雑音と判定される場合の平滑化係数(α)は小さい値へと変更され、雑音と判定される場合の平滑化係数(α)は大きい値へと変更される。これにより、信号の時間変化が激しい区間での平滑化SNRの追従性を改善でき、また、信号の時間変化が少ない区間での平滑化SNRの無用な変化を抑制できる。そのため、各帯域の雑音抑圧ゲインの精度を高めることができ、音質の劣化を少なく抑えることができる。
また、本技術において、例えば、雑音抑圧ゲイン決定部で決定された雑音抑圧ゲインが予め設定された下限値より小さくなるとき、雑音抑圧ゲインの値をこの下限値に修正する雑音抑圧ゲイン修正部をさらに備え、雑音抑圧部は、雑音抑圧ゲイン修正部で修正された雑音抑圧ゲインを用いる、ようにされてもよい。
この場合、下限値は帯域別に設定される。例えば、非雑音の信号が音声である場合に、音声信号が含まれる確率の高い帯域については雑音抑圧ゲインの下限値が高めの値に設定される。そして、雑音抑圧ゲイン決定部で決定された雑音抑圧ゲインが下限値を下回った場合は下限値で置き換えられる。これにより、雑音抑圧ゲイン決定部で決定された雑音抑圧ゲインの誤差があっても聴感上の音質劣化が少なくされる。
また、本技術の他の概念は、
複数チャネルのそれぞれ所定フレーム長のフレームに分割してフレーム化する複数のフレーム化部と、
上記複数のフレーム化部で得られたフレーム化信号をそれぞれ複数の帯域に分割して帯域分割信号を得る複数の帯域分割部と、
上記複数の帯域分割部で得られた各帯域分割信号からそれぞれ帯域パワーを得る複数の帯域パワー算出部と、
上記複数チャネルのフレーム化信号の特性に基づいて、各帯域が定常雑音および非定常雑音のいずれであるか否かを判定する雑音判定部と、
上記複数の帯域パワー算出部で得られた各帯域分割信号の帯域パワーと上記雑音判定部の判定結果からそれぞれ各帯域の雑音の帯域パワーを推定する複数の雑音帯域パワー推定部と、
上記複数の帯域パワー算出部で得られた各帯域分割信号の帯域パワーと上記複数の雑音帯域パワー推定部で推定された各帯域の雑音の帯域パワーに基づいてそれぞれ各帯域の雑音抑圧ゲインを決定する複数の雑音抑圧ゲイン決定部と、
上記複数の帯域分割部で得られた各帯域分割信号に、上記複数の雑音抑圧ゲイン決定部で決定された各帯域の雑音抑圧ゲインを適用してそれぞれ雑音が抑圧された帯域分割信号を得る複数の雑音抑圧部と、
上記複数の雑音抑圧部で得られた各帯域分割信号を帯域合成してそれぞれ雑音抑圧されたフレーム化信号を得る複数の帯域合成部と、
上記複数の帯域合成部で得られた各フレームのフレーム化信号をフレーム合成してそれぞれ雑音を抑圧した出力信号を得るフレーム合成部とを備え、
上記雑音帯域パワー推定部は、
上記非定常雑音における雑音変化への追従速度を上記定常雑音における雑音変化への追従速度より上げる
雑音抑圧装置にある。
本技術においては、各チャネルにおいて、各帯域の雑音抑圧ゲインが決定されて、雑音抑圧処理が行われる。複数チャネルのフレーム化信号の特性に基づいて、各帯域が定常雑音および非定常雑音のいずれであるか否かが判定される。例えば、各帯域が順次判定帯域とし、判定帯域について各チャネルで定常雑音および非定常雑音のいずれであるか否かが判定され、全てのチャネルで定常雑音と判定するときこの判定帯域は定常雑音であると判定され、全てのチャネルで非定常雑音と判定するときこの判定帯域は非定常雑音であると判定される。各チャネルにおいて、フレーム毎に各帯域の雑音抑圧ゲインを決定する際には、雑音判定部の判定結果が共通に用いられる。
このように本技術においては、複数チャネル(例えば、ステレオ信号の場合の左右チャネル)における雑音の帯域パワーの推定誤差により複数チャネルの雑音抑圧ゲインに意図しない振幅差が発生することが抑制され、複数チャネルの不整合による定位の破壊が回避される。
本技術によれば、定常雑音のみならず、非定常雑音にも効果的な雑音抑圧を実現できる。
本技術の基本的な雑音低減の方針を示す図である。 雑音のみが存在するフレームにおける雑音低減の効果を説明するための図である。 雑音と音声が重複しているフレームにおける雑音低減の効果を説明するための図である。 本技術の第1の実施の形態としての雑音抑圧装置の構成例を示すブロック図である。 有声音検出部のゼロクロス幅計算部における計算動作を説明するための図である。 フレーム化信号が音声(非雑音)である場合における、信号波形(各サンプルの振幅)と、ゼロクロス幅のヒストグラムの一例を示す図である。 フレーム化信号が音声(雑音)である場合における、信号波形(各サンプルの振幅)と、ゼロクロス幅のヒストグラムの一例を示す図である。 有声帯域判定部が実行する判定処理の一例を示すフローチャートである。 非定常雑音判定部が実行するノイズテンプレートBN(rmin,b)を求める処理の一例を示すフローチャートである。 非定常雑音判定部が実行する非定常雑音フラグFnsn(u)の出力処理の一例を示すフローチャートである。 雑音・非雑音判定部の判定処理の手順を説明するためのフローチャートである。 α算出部で算出される重み係数α(k,b)の推移例を示す図である。 本技術の第2の実施の形態としての雑音抑圧装置の構成例を示すブロック図である。 雑音抑圧装置を構成する雑音抑圧ゲイン生成部の構成例を示すブロック図である。 雑音・非雑音判定部の判定処理の手順を説明するためのフローチャートである。 雑音抑圧処理をソフトウェアで行うコンピュータ装置の構成例を示す図である。
以下、発明を実施するための形態(以下、「実施の形態」とする)について説明する。なお、説明を以下の順序で行う。
1.第1の実施の形態
2.第2の実施の形態
3.変形例
図1は、本技術の基本的な雑音低減の方針を示している。雑音のみが含まれるフレームについては、全帯域一律に振幅を下げることによって、雑音低減の効果を得る。一方、音声と雑音が混合されたフレームについては、音声に由来するスペクトルの山は保存し、谷を下げる(掘る)ことによって、雑音低減の効果を得る。
また、本技術では、定常雑音の抑圧を行うスペクトラルサブトラクションの枠組に、非定常雑音の帯域パワーを推定する手段を追加する。非定常雑音は定常雑音と比べて信号の変化の速度が速いため、定常雑音と同様の方法で推定値の更新を行うのでは雑音の変化に追従できなり。そこで、当該フレームの雑音が定常雑音であるか非定常雑音であるかを判定し、非定常雑音の場合はノイズの追従速度を速めることで雑音への追従性能を改善する。
非定常雑音の帯域パワーの推定は、定常雑音の場合と同様、帯域毎に各フレームで信号の状態を監視して雑音と非雑音の判定を行い、雑音と判定されたフレームで雑音の推定値を逐次更新することによって行われる。
雑音のみが存在するフレームについては、図2に示すように、雑音から全ての帯域において雑音推定値を差し引くことで、雑音低減の効果を得るようにされる。ただし、非定常雑音の場合には、定常雑音の場合と同様の追従速度では雑音の振幅変化に追従できずに雑音推定誤差が大きくなり、それが原因で出力の残留雑音が大きくなる結果につながる。そのため、雑音推定の追従速度が上げられる。
一方、雑音と音声が重複しているフレームでは、図3に示すように、非定常スペクトル上で雑音と音声を分離することが困難であるため、スペクトルのピークを音声信号由来であると仮定し、スペクトルのピーク以外の部分、すなわち谷の部分を抑圧することによって雑音抑圧効果を狙う。これを実現するために、スペクトルのピークを検出したうえで、ピーク以外の谷の部分で雑音推定値の更新を行うようにする。この場合も、非定常雑音の場合には、雑音推定の追従速度が上げられる。
ここで、スペクトルのピーク検出を行う際、単純にピークを検出するだけでは偽のピークを検出する恐れがある。そのため、ピークの周波数軸上での間隔が一定に揃っているかチェックするなど、より確実に音声由来のピークを捉えることによって、雑音の推定精度を向上させることができる。
<1.第1の実施の形態>
[雑音抑圧装置の構成]
図4は、本技術の第1の実施の形態としての雑音抑圧装置10の構成例を示している。この雑音抑圧装置10は、信号入力端子11と、フレーム化部12と、窓がけ部13と、高速フーリエ変換部14と、雑音抑圧ゲイン生成部15を有している。また、この雑音抑圧装置10は、フーリエ係数修正部16と、逆高速フーリエ変換部17と、窓がけ部18と、オーバーラップ加算部19と、信号出力端子20を有している。
信号入力端子11は、入力信号y(n)を供給する端子である。この入力信号y(n)は、標本化周波数がfsのデジタル信号である。フレーム化部12は、信号入力端子11に供給される入力信号y(n)を、フレーム毎の処理を行うために、所定フレーム長、例えばフレーム長がNfサンプルのフレームに分割してフレーム化する。例えば、u番目のフレームの信号のn番目のサンプルは、yf(u,n)と表記される。フレーム化部12におけるフレーム化処理においては、隣接フレームをオーバーラップさせてもよい。
窓がけ部13は、フレーム化信号yf(u,n)に分析窓wana(n)による窓がけを行う。窓がけ部13は、分析窓wana(n)として、例えば、以下の(1)式で定義されるものを用いる。Nwは、窓長である。
Figure 2013148724
高速フーリエ変換部14は、窓がけ部13で窓がけされたフレーム化信号yf(u,n)に対して、高速フーリエ変換(FFT:Fast Fouriertransform)処理を施し、時間領域信号を周波数領域信号に変換する。雑音抑圧ゲイン生成部15は、フレーム化処理で得られたフレーム化信号yf(u,n)と、高速フーリエ変換処理で得られた各フーリエ係数(各周波数スペクトル)とに基づいて、各フーリエ係数に対応した雑音抑圧ゲインを生成する。この各フーリエ係数に対応した雑音抑圧ゲインは、周波数軸上のフィルタを構成する。この雑音抑圧ゲイン生成部15の詳細については、後述する。
フーリエ係数修正部16は、高速フーリエ変換処理で得られた各フーリエ係数と、雑音抑圧ゲイン生成部15で生成された各フーリエ係数に対応した雑音抑圧ゲインの積をとることで係数修正を行う。つまり、フーリエ係数修正部16は、周波数軸上で、雑音を抑圧するためのフィルタ計算を行う。
逆高速フーリエ変換部17は、係数修正された各フーリエ係数に対して、逆高速フーリエ変換(IFFT:Inverse Fast Fourier transform)処理を施す。この逆高速フーリエ変換部17は、上述の高速フーリエ変換部14とは逆の処理を行い、周波数領域信号を時間領域信号に変換する。
窓がけ部18は、逆高速フーリエ変換部17で得られた雑音抑圧されたフレーム化信号に合成窓wsyn(n)による窓がけを行う。窓がけ部18は、合成窓wsyn(n)として、例えば、以下の(2)式で定義されるものを用いる。
Figure 2013148724
なお、窓がけ部13における分析窓wana(n)および窓がけ部18における合成窓wsyn(n)の形状は任意でよい。しかし、一連の分析・合成系において、完全再構成条件を満たすものを用いることが望ましい。
オーバーラップ加算部19は、窓がけ部18で窓がけされた各フレームのフレーム化信号のフレーム境界部分について重ね合わせを行って、雑音が抑圧された出力信号を得る。信号出力端子20は、オーバーラップ加算部19で得られた出力信号を出力する。
雑音抑圧装置10の動作を簡単に説明する。信号入力端子11に入力信号y(n)が供給され、この入力信号y(n)は、フレーム化部12に供給される。このフレーム化部12では、フレーム毎に処理を行うために、入力信号y(n)がフレーム化される。つまり、このフレーム化部12では、入力信号y(n)が、所定フレーム長、例えばフレーム長がNfサンプルのフレームに分割される。フレーム毎のフレーム化信号yf(u,n)は、窓がけ部13に、順次供給される。
窓がけ部13では、後述する高速フーリエ変換部14で安定したフーリエ係数を得るために、フレーム化信号yf(u,n)に分析窓wana(n)による窓がけが行われる。このように窓がけされたフレーム化信号yf(u,n)は、高速フーリエ変換部14に供給される。この高速フーリエ変換部14では、窓がけされたフレーム化信号yf(u,n)に対して、高速フーリエ変換処理が施され、時間領域信号から周波数領域信号に変換される。高速フーリエ変換処理で得られた各フーリエ係数(各周波数スペクトル)は、フーリエ係数修正部16に供給される。
フレーム化部12で得られたフレーム毎のフレーム化信号yf(u,n)は、雑音抑圧ゲイン生成部15に供給される。また、高速フーリエ変換部14で得られたフレーム毎の各フーリエ係数は、雑音抑圧ゲイン生成部15に供給される。雑音抑圧ゲイン生成部15では、フレーム毎に、フレーム化信号yf(u,n)と各フーリエ係数とに基づいて、各フーリエ係数に対応した雑音抑圧ゲインが生成される。この各フーリエ係数に対応した雑音抑圧ゲインは、フーリエ係数修正部16に供給される。
フーリエ係数修正部16では、フレーム毎に、高速フーリエ変換部14で高速フーリエ変換処理されて得られた各フーリエ係数と、雑音抑圧ゲイン生成部15で生成された各フーリエ係数に対応した雑音抑圧ゲインの積が取られて係数修正が行われる。つまり、このフーリエ係数修正部16では、周波数軸上で、雑音を抑圧するためのフィルタ計算が行われる。係数修正された各フーリエ係数は、逆高速フーリエ変換部17に供給される。
逆高速フーリエ変換部17では、フレーム毎に、係数修正された各フーリエ係数に対して、逆高速フーリエ変換処理が施され、周波数領域信号が時間領域信号に変換される。逆高速フーリエ変換部17で得られたフレーム化信号は、窓がけ部18に供給される。この窓がけ部18では、フレーム毎に、逆高速フーリエ変換部17で得られた雑音抑圧されたフレーム化信号に合成窓wsyn(n)による窓がけが行われる。
窓がけ部18で窓がけされた各フレームのフレーム化信号は、オーバーラップ加算部19に供給される。このオーバーラップ加算部19では、各フレームのフレーム化信号のフレーム境界部分について重ね合わせが行われて、雑音が抑圧された出力信号が得られる。そして、この出力信号は、信号出力端子20に出力される。
[雑音抑圧ゲイン生成部]
雑音抑圧ゲイン生成部15の詳細を説明する。この雑音抑圧ゲイン生成部15は、基本的には、上述した非特許文献1などに開示されている雑音抑圧技術を用いて、雑音抑圧ゲインを生成する。最初に、この雑音抑圧技術の概要を以下に説明する。
この雑音抑圧技術では、第uフレーム、b番目の帯域の入力帯域信号をY(u,b)としたとき、以下の(3)式に示されるように、雑音抑圧ゲインG(u,b)が用いられて、雑音を抑圧した帯域信号X(u,b)が得られる。雑音抑圧ゲインG(u,b)は、事前SNR「ξ(u,b)」および事後SNR「γ(u,b)」から計算される。
X(u,b)=G(u,b)Y(u,b) ・・・(3)
事後SNR「γ(u,b)」は、入力信号の帯域パワーをB(u,b)、雑音の推定帯域パワーをD(u,b)とするとき、以下の(4)式により計算される。
γ(u,b)=B(u,b)/D(u,b) ・・・(4)
事前SNR「ξ(u, b)」は、重み係数(平滑化係数)αを用いて、以下の(5)式により計算される。ここで、P[・]は、以下の(6)式のように定義される演算子である。
ξ(u,b)=αG(u-1,b)γ(u-1,b)+(1-α)P[γ(u,b)-1] ・・・(5)
Figure 2013148724
雑音抑圧ゲインG(u,b)は、事前SNR「ξ(u, b)」および事後SNR「γ(u,b)」を用いて、以下の(7)式のように計算される。In(x) は第一種変形ベッセル関数である。
Figure 2013148724
雑音抑圧ゲインは事前SNRおよび事後SNRの推定値から計算されるため、推定精度は雑音抑圧の適切さに直接的な影響を及ぼす。中でも、雑音の帯域パワー推定値D(u,b)は、SNR推定値全てに影響を及ぼすため、この推定精度向上は装置全体の性能向上を目指すうえで重要な課題となる。
雑音の帯域パワーに推定誤差が無いと仮定した場合も、上述の事前SNRの計算方法((5)式参照)において、非特許文献1では、α=0.98と固定値で扱うことを推奨しており、速い信号変化に推定が追従できない。結果として、雑音抑圧ゲインG(u,b)の推定誤差が生じ、音声の冒頭がつぶれてしまうなど音質劣化の原因となる。一方、追従速度を速めるためにαに小さな値を用いると、こんどはミュージカルノイズと呼ばれる聴感上耳障りな副作用が生じ、音質が劣化してしまうという問題がある。
雑音抑圧ゲイン生成部15は、基本的には、上述した非特許文献1などに開示されている雑音抑圧技術を用いる。しかし、雑音の帯域パワーを精度良く推定するとともに、信号の状態に応じて適応的な係数変更を行うことで、最適な雑音抑圧ゲインG(u,b)の生成を行い得るものとされる。
雑音抑圧ゲイン生成部15は、帯域分割部21と、帯域パワー算出部22と、有声音検出部23と、有声帯域判定部35と、非定常雑音判定部36と、雑音・非雑音判定部27と、雑音帯域パワー推定部28を有している。また、雑音抑圧ゲイン生成部15は、事後SNR算出部29と、α算出部30と、事前SNR算出部31と、雑音抑圧ゲイン算出部32と、雑音抑圧ゲイン修正部33と、フィルタ構成部34を有している。
帯域分割部21は、高速フーリエ変換部14で高速フーリエ変換処理されて得られた各周波数スペクトル(各フーリエ係数)を、所定数Nbの周波数帯域、例えば、25の周波数帯域に分割する。表1は、帯域分割の一例を示している。バンド番号は、各帯域を識別するために付された番号である。各周波数帯域は、人間の聴覚システムが、高域ほど知覚分解能が劣化するという聴覚心理の研究から得られた知見に基づいている。
Figure 2013148724
帯域パワー算出部22は、帯域分割部21で分割された帯域毎に、周波数スペクトルから帯域パワーB(u,b)を算出する。ここで、(u,b)は、第uフレーム、b番目の帯域を示している。帯域パワー算出部22は、帯域パワーB(u,b)を算出する方法として、各周波数スペクトルからパワースペクトルをそれぞれ算出し、周波数レンジ内で最大値を求め、この最大値を代表値としてB(u,b)とする方法を用いる。なお、帯域パワー算出部22は、帯域パワーB(u,b)を算出する方法として、各周波数スペクトルからパワースペクトルをそれぞれ算出し、周波数レンジ内における平均値を求め、この平均値を代表値としてB(u,b)とする方法を用いてもよい。
有声音検出部23は、フレーム化部12で得られたフレーム化信号yf(u,n)に基づいて、フレーム毎に、有声音が含まれているか否かを示す有声音フラグFv(u)を出力する。この有声音検出部23は、ゼロクロス幅計算部24、ヒストグラム計算部25および有声音フラグ算出部26を有している。
ゼロクロス幅計算部24は、フレーム化された連続するサンプル間で符号が、例えば正から負、あるいは負から正というように逆転する箇所、または、逆の符号を有するサンプル間で0という値を有するサンプルが存在する箇所をゼロクロス点として検出する。そして、ゼロクロス幅計算部24は、図5に示すように、隣接するゼロクロス点の間のサンプル数を計算してLz(0),Lz(1),・・・,Lz(m)のようにゼロクロス幅として記録する。
ヒストグラム計算部25は、ゼロクロス幅計算部24からゼロクロス幅Lz(p)を受け取って、フレーム内における分布を調べる。例えば、10サンプルおきに20領域で統計を取る場合、ヒストグラム計算部25は、初期値として、Hz(q)=0(0≦q<20)とする。そして、ヒストグラム計算部25は、以下の(8)式のように、ヒストグラムHz(q)を得る。
Figure 2013148724
有声音フラグ算出部26は、ヒストグラム計算部25で得られた度数Hz(q)が最大値となるインデックス(階級)qpeakを求める。そして、有声音フラグ算出部26は、インデックスqpeakの度数Hz(q)を、そのインデックスqpeakのしきい値Th(q)と比較し、以下の(9)式に示すように、有声音フラグFv(u)を設定する。ここで、各インデックスは、各ゼロクロス幅レンジを示す。
Figure 2013148724
図6(a),(b)は、フレーム化信号yf(u,n)が音声(非雑音)である場合における、信号波形(各サンプルの振幅)と、ゼロクロス幅のヒストグラムの一例を示している。音声(非雑音)の場合、同様の波形が繰り返され、所定のゼロクロス幅レンジの度数が大きくなる。そのため、Hz(q)>Th(q)となり、有声音フラグFv(u)は、Fv(u)=1に設定される。ここで、しきい値Th(q)は、ゼロクロス幅レンジ(インデックス)毎に設定されており、ゼロクロス幅の小さなゼロクロス幅レンジに対応するTh(q)ほど大きな値とされている。
一方、図7(a),(b)は、フレーム化信号yf(u,n)が雑音である場合における、信号波形(各サンプルの振幅)と、ゼロクロス幅のヒストグラムの一例を示している。雑音の場合、ゼロクロス幅の小さなゼロクロス幅レンジの度数が大きくなる。そのため、Hz(q)≦Th(q)となり、有声音フラグFv(u)は、Fv(u)=0に設定される。
有声帯域判定部35は、フレーム毎に、有声音検出部23で得られた有声音フラグFv(u)と、高速フーリエ変換部14で高速フーリエ変換処理されて得られた各周波数スペクトル(各フーリエ係数)を用いて、各帯域の有声帯域フラグPv(u,b)を設定する。有声帯域判定部35は、第uフレームの入力フーリエ係数Y(u,k)の振幅を調べ、帯域毎に、帯域内に音声に由来するスペクトルのピークが存在するか否かを確認し、以下の(10)式に示すように、有声帯域フラグPv(u, b)を設定する。
Figure 2013148724
音声由来のピークが存在するかどうかは、例えば以下の(1)、(2)の条件で判定することができる。
(1)有声音フラグFv(u) がセットされている
(2)フーリエ係数の振幅の極大点の値が帯域内平均値のMt倍以上である(Mtはしきい値)
有声帯域判定部35は、図8のフローチャートに示す判定処理を、フレーム毎に、各帯域において、実行する。有声帯域判定部35は、ステップST21において、処理を開始し、その後に、ステップST22の処理に移る。このステップST22において、有声帯域判定部35は、有声音フラグFv(u)が0より大きいか否か、つまり有声音フラグFv(u)がセットされているか否かを判断する。
Fv(u)>0でなく有声音フラグFv(u)がセットされていないとき、有声帯域判定部35は、ステップST23の処理に進み、Pv(u,b)=0に設定し、ステップST24において、処理を終了する。一方、Fv(u)>0であって有声音フラグFv(u)がセットされているとき、有声帯域判定部35は、音声由来のピークが存在するか否かを判断するための処理に移る。
有声帯域判定部35は、ステップST25において、有声帯域判定部35は、k=Kbstart、Bs=0に初期化する。ここで、「Kbstart」は帯域内のフーリエ係数の最初の番号であり、「Kbend」は帯域内のフーリエ係数の最後の番号である。次に、有声帯域判定部35は、ステップST26において、Bs=Bs+|Y(u,k)|の演算を行うと共に、kの値を1だけ増加させる。そして、有声帯域判定部35は、ステップST27において、kがKbendより小さいかを判断する。kがKbendより小さいとき、有声帯域判定部35は、ステップST26に戻り、上述したと同様の処理を繰り返し、帯域内のフーリエ係数Y(u,k)の絶対値和を求める。kがKbendとなるとき、有声帯域判定部35は、ステップST28の処理に移る。
このステップST28において、有声帯域判定部35は、Bm=Bs/(Kbend−Kbstart+1)の演算を行って、帯域内平均値Bmを求める。次に、有声帯域判定部35は、ステップST29において、k=Kbstart+1とする。そして、有声帯域判定部35は、ステップST30において、フーリエ係数Y(u,k)が極大点であるか否かを判断する。つまり、有声帯域判定部35は、|Y(u,k-1)|<|Y(u,k)|かつ、|Y(u,k+1)|<|Y(u,k)|という極大点の条件を満たすか否かを判断する。
極大点の条件を満たさないとき、有声帯域判定部35は、ステップST31において、kを1だけ増加させる。そして、有声帯域判定部35は、ステップST32において、kがKbend−1より小さいか否かを判断する。kがKbend−1以下のとき、有声帯域判定部35は、ステップST30に戻り、次のフーリエ係数Y(u,k)が極大点であるか否かを判断する。ステップST32でkがKbend−1より大きくなるとき、つまり帯域内に極大点がなかったとき、有声帯域判定部35は、ステップST23の処理に進み、Pv(u, b)=0に設定し、ステップST24において、処理を終了する。
ステップST30でk番目のフーリエ係数Y(u,k)が極大点の条件を満たすとき、有声帯域判定部35は、ステップST33の処理に移る。このステップST33において、有声帯域判定部35は、極大点の値が帯域内平均値BmのMt倍以上であるか否かを判断する。つまり、有声帯域判定部35は、Bm*Mt<|Y(u,k)|の条件を満たすか否かを判断する。
この条件を満たさないとき、有声帯域判定部35は、ステップST23の処理に進み、Pv(u,b)=0に設定し、ステップST24において、処理を終了する。一方、この条件を満たすとき、有声帯域判定部35は、ステップST34の処理に進み、Pv(u,b)=1に設定し、ステップST24において、処理を終了する。
図4に戻って、非定常雑音判定部36は、有声帯域判定部35でPv(u,b)=0と判定された帯域の信号が非定常雑音の特性を持つか否かを判定する。すなわち、非定常雑音判定部36は、フレーム毎に、有声帯域判定部35で得られた有声帯域フラグPv(u,b)と、帯域パワー算出部22で算出された帯域パワーB(u,b)を用いて、非定常雑音フラグFnsn(u)を出力する。
非定常雑音判定部36は、まず、現在フレームの帯域パワーB(u,b)に関して、対象とするノイズに対応したノイズテンプレートBN(r,b)を、(1≦r≦Nr)の範囲で探索し、最も近いノイズテンプレートBN(rmin,b)を求める。図9のフローチャートは、そのノイズテンプレートBN(rmin,b)を求める処理の一例を示している。
非定常雑音判定部36は、ステップST41において、処理を開始し、その後に、ステップST42の処理に移る。このステップST42において、非定常雑音判定部36は、r=1、cmin=+∞、rmin=0にセットする。また、非定常雑音判定部36は、ステップST43において、b=1、d=0、p=0、pN=0にセットする。
次に、非定常雑音判定部36は、ステップST44において、有声帯域フラグPv(u,b)が0より大きいか否か、つまり有声帯域フラグPv(u,b)がセットされているか否かを判断する。Pv(u,b)>0でなく有声帯域フラグPv(u,b)がセットされていないとき、非定常雑音判定部36は、ステップST45の処理に移る。このステップST45において、非定常雑音判定部36は、d=d+B(u,b)・BN(r,b)、p=p+B(u,b)・B(u,b)、pN=pN+BN(r,b)・BN(r,b)の演算を行う。
このステップST45の処理の後、非定常雑音判定部36は、ステップST46の処理に移る。上述のステップST44でPv(u,b)>0であって有声帯域フラグPv(u,b)がセットされているときも、このステップST46の処理に移る。このステップST46において、非定常雑音判定部36は、bを1だけ増加させる。
次に、非定常雑音判定部36は、ステップST47において、b≦Nbであるか否かを判断する。b≦Nbであるとき、非定常雑音判定部36は、ステップST44の処理に戻って、上述したと同様の処理を繰り返す。一方、b≦Nbでないとき、非定常雑音判定部36は、ステップST48の処理に移る。このステップST48において、非定常雑音判定部36は、c=d/√(p・pN)の演算を行う。
次に、非定常雑音判定部36は、ステップST49において、c<cminであるか否かを判断する。c<cminであるとき、非定常雑音判定部36は、ステップST50において、cmin=c、rmin=c,rmim=rとする。そして、ステップST51において、rを1だけ増加させる。ステップST49でc<cminでないとき、非定常雑音判定部36は、直ちにステップST51に進み、rを1だけ増加させる。
次に、非定常雑音判定部36は、ステップS52において、r≦Nrであるか否かを判断する。r≦Nrであるとき、非定常雑音判定部36は、ステップST43に戻り、上述したと同様の動作を繰り返す。一方、r≦Nrでないとき、非定常雑音判定部36は、ステップST53において、処理を終了する。
上述の図9のフローチャートの処理により、帯域パワーB(u,b)に関して、最も近いノイズテンプレートBN(rmin,b)が求められる。
次に、非定常雑音判定部36は、当該フレームに非定常雑音が存在するか判定する。現在フレームの前後±Sフレームについて、上述で求めたテンプレートBN(rmin,b)と帯域パワーB(u+s,b)の相関l(u+s)とゲイン係数gN(u+s)を求める(−S≦s≦S)。そして、非定常雑音判定部36は、以下の(1)、(2)の条件に基づいて判定し、非定常雑音フラグFnsn(u)を出力する。
(1)相関l(u + s) がlMAX を越えていない
(2)ゲイン係数gN(u+s)の分散が閾値GNTを越えている
図10のフローチャートは、その非定常雑音フラグFnsn(u)の出力する処理の一例を示している。非定常雑音判定部36は、ステップST61において、処理を開始し、その後に、ステップST62の処理に移る。このステップST62において、非定常雑音判定部36は、s=−Sにセットする。また、非定常雑音判定部36は、ステップST63において、b=1、d=0、p=0、pN=0にセットする。
次に、非定常雑音判定部36は、ステップST64において、有声帯域フラグPv(u,b)が0より大きいか否か、つまり有声帯域フラグPv(u,b)がセットされているか否かを判断する。Pv(u,b)>0でなく有声帯域フラグPv(u,b)がセットされていないとき、非定常雑音判定部36は、ステップST65の処理に移る。このステップST65において、非定常雑音判定部36は、d=d+B(u+s,b)・BN(rmin,b)、p=p+B(u+s,b)・B(u,b)、pN=pN+BN(rmin,b)・BN(rmin,b)の演算を行う。
このステップST65の処理の後、非定常雑音判定部36は、ステップST66の処理に移る。上述のステップST64でPv(u,b)>0であって有声帯域フラグPv(u,b)がセットされているときも、このステップST66の処理に移る。このステップST66において、非定常雑音判定部36は、bを1だけ増加させる。
次に、非定常雑音判定部36は、ステップST67において、b≦Nbであるか否かを判断する。b≦Nbであるとき、非定常雑音判定部36は、ステップST64の処理に戻って、上述したと同様の処理を繰り返す。一方、b≦Nbでないとき、非定常雑音判定部36は、ステップST68の処理に移る。このステップST68において、非定常雑音判定部36は、l=d/√(p・pN)、gN(u+s)=√(p・pN)の演算を行う。
次に、非定常雑音判定部36は、ステップST69において、l<lMAXであるか否かを判断する。l<lMAXであるとき、非定常雑音判定部36は、ステップST70において、sを1だけ増加させる。そして、非定常雑音判定部36は、ステップST71において、s≦Sであるか否かを判断する。s≦Sであるとき、非定常雑音判定部36は、ステップST63に戻り、上述したと同様の動作を繰り返す。一方、s≦Sでないとき、ステップST72の処理に移る。
このステップST72において、非定常雑音判定部36は、ゲイン係数gN(u+s)の分散が閾値GNTを越えているか否かを判断する。分散が閾値GNTを越えてとき、非定常雑音判定部36は、ステップST73において、Fnsn(u)=1に設定し、その後、ステップST74において、処理を終了する。
一方、ステップST72で分散が閾値GNTを越えていないとき、非定常雑音判定部36は、ステップST75sにおいて、Fnsn(u)=0に設定し、その後、ステップST74において、処理を終了する。また、上述のステップST69でl<lMAXでないとき、非定常雑音判定部36は、ステップST75sにおいて、Fnsn(u)=0に設定し、その後、ステップST74において、処理を終了する。
上述の図10のフローチャートの処理により、第uフレームに非定常雑音が存在するか否かを示す非定常雑音フラグFnsn(u)の設定が行われる。
図4に戻って、雑音・非雑音判定部27は、フレーム毎に、各帯域の雑音帯域フラグFnz(u,b)を設定する。この場合、雑音・非雑音判定部27は、有声音検出部23からの有声音フラグFv(u)、有声帯域判定部35からの有声帯域フラグPv(u,b)、非定常雑音判定部36からの非定常雑音フラグFnsn(u)および帯域パワー算出部22からの帯域パワーB(u,b)を用いる。雑音・非雑音判定部27は、図11のフローチャートに示す判定処理を、フレーム毎に、各帯域において、実行する。
雑音・非雑音判定部27は、ステップST1において、判定処理を開始し、システムの初期化を行う。この初期化において、雑音・非雑音判定部27は、雑音候補フレーム連続カウンタCn(b)を、Cn(b)=0に初期化しておく。
次に、雑音・非雑音判定部27は、ステップST2の処理に移る。このステップST2において、雑音・非雑音判定部27は、非定常雑音フラグFnsn(u)が0より大きいか否か、つまりFnsn(u)=1であるか否かを判断する。Fnsn(u)=1でないとき、雑音・非雑音判定部27は、ステップST3の処理に移る。
このステップST3において、雑音・非雑音判定部27は、雑音・非雑音判定部27は、有声音フラグFv(u)が0より大きいか否か、つまり、Fv(u)=1であるか否かを判断する。Fv(u)=1であるとき、つまり現在フレームuが有声音であるとき、雑音・非雑音判定部27は、ステップST4において、雑音候補フレーム連続カウンタCn(b)をクリアし、Cn(b)=0とする。そして、雑音・非雑音判定部27は、現在帯域bは雑音でないと判定し、ステップST5において、雑音帯域フラグFnz(u,b)を、Fnz(u,b)=0とし、その後に、ステップST6において、判定処理を終了する。
ステップST3でFv(u)=0であるとき、つまり現在フレームuが有声音でないとき、雑音・非雑音判定部27は、ステップST7の処理に移る。このステップST7において、雑音・非雑音判定部27は、現在フレームuの帯域パワーB(u,b)と、直前フレームu−1の帯域パワーB(u-1,b)のパワー比を求める。そして、雑音・非雑音判定部27は、このステップST7において、パワー比が、低レベル側のしきい値TpL(b)と高レベル側のしきい値TpH(b)との間に収まっているか否かを判断する。
雑音・非雑音判定部27は、パワー比がしきい値間に収まっているとき、現在帯域bを雑音の候補とし、パワー比がしきい値間に収まっていないとき、現在帯域bは雑音でないと判定する。この判定は、雑音信号のパワーは一定であり、逆にパワー変動が激しい信号は雑音でないとの仮定に基づいている。
パワー比がしきい値間に収まっていないとき、つまり、現在帯域bは雑音でないと判定するとき、雑音・非雑音判定部27は、ステップST4において、雑音候補フレーム連続カウンタCn(b)をクリアし、Cn(b)=0とする。そして、雑音・非雑音判定部27は、ステップST5において、Fnz(u,b)=0とし、その後に、ステップST6において、判定処理を終了する。
一方、パワー比がしきい値間に収まっているとき、つまり、現在帯域bを雑音の候補とするとき、雑音・非雑音判定部27は、ステップST8の処理に移る。このステップST8において、雑音・非雑音判定部27は、雑音候補フレーム連続カウンタCn(b)を、1だけカウントアップする。
そして、雑音・非雑音判定部27は、ステップST9において、雑音候補フレーム連続カウンタCn(b)が、しきい値Tcを超えたか否かを判定する。Cn(b)>Tcでないとき、雑音・非雑音判定部27は、現在帯域bは雑音でないと判定し、ステップST5において、Fnz(k,b)=0とし、その後に、ステップST6において、判定処理を終了する。
一方、Cn(b)>Tcであるとき、雑音・非雑音判定部27は、ステップST10の処理に移る。このステップST10において、雑音・非雑音判定部27は、現在帯域bが雑音(定常雑音)であると判定し、雑音帯域フラグFnz(u,b)を、Fnz(u,b)=1にセットし、その後に、ステップST6において、判定処理を終了する。
また、ステップST2でFnsn(u)=1であるとき、雑音・非雑音判定部27は、ステップST11の処理に移る。このステップST11において、雑音・非雑音判定部27は、有声帯域フラグPv(u,b)が0より大きいか否か、つまりPv(u,b)=1であるか否かを判断する。
Pv(u,b)=1であるとき、雑音・非雑音判定部27は、現在帯域bは雑音でないと判定し、ステップST5において、雑音帯域フラグFnz(u,b)を、Fnz(u,b)=0とし、その後に、ステップST6において、判定処理を終了する。一方、Pv(u,b)=1でないとき、雑音・非雑音判定部27は、現在帯域bは雑音(非定常雑音)であると判定し、ステップST12において、雑音帯域フラグFnz(u,b)を、Fnz(u,b)=2とし、その後に、ステップST6において、判定処理を終了する。
上述の図11のフローチャートの判定処理では、定常雑音の判定に関しては、有声音検出部23で得られた有声音フラグFv(u)を用いてフレーム全体で一つの雑音・非雑音判定を行い、これと帯域毎の判定を組み合わせることで、最終的な判定結果としている。これは、帯域毎の信号の状態を監視して行う判定だけでは不十分な場合があるからである。例えば、帯域パワーの定常性を検出して雑音と判定しようとする場合、特に帯域分割の帯域幅が広いようなケースではトーン性の信号と雑音の区別がつかない。したがって、図11のフローチャートの判定処理を行うことで、定常雑音の判定に関して帯域毎の雑音判定精度を高めることができる。
図4に戻って、雑音帯域パワー推定部28は、フレーム毎に、各帯域の雑音帯域パワー推定値D(u,b)を推定する。雑音帯域パワー推定部28は、雑音・非雑音判定部27で設定された雑音帯域フラグFnz(u,b)に基づいて、雑音の帯域についてのみ、雑音帯域パワー推定値D(u,b)の更新を行う。つまり、雑音帯域パワー推定部28は、Fnz(u,b)=1である定常雑音帯域と、Fnz(u,b)=2である非定常雑音帯域とで、雑音帯域パワー推定値D(u,b)の更新を行う。
雑音帯域パワー推定部28における雑音帯域パワー推定値D(k,b)の更新方法の例としては、例えば、以下の(11)式に示すように、帯域パワーB(u,b)を使用し、指数重みμnzを用いて更新する方法が考えられる。この際、雑音帯域パワー推定部28は、帯域毎に、帯域パワー算出部22で得られた現在フレームの帯域パワーと1フレーム前に推定された雑音の帯域パワーとを加重加算することにより、現在フレームの推定された雑音のパワーを得るものである。この場合、定常雑音の場合と非定常雑音の場合とでは指数重みμnzの値は異なるものとされる。
Figure 2013148724
定常雑音の場合は、雑音の振幅変動が小さいため、μnz の値が小さくても十分雑音の変化に追従できる。これに対して、非定常雑音の場合は、雑音の振幅変動が大きく、μnz の値が大きいままでは変動に追従できず雑音の推定誤差が大きくなることから、雑音の低減が十分にできなかったり、音声に副作用を及ぼしたりする。そのため、雑音の特性に応じて、指数重みが切り替えられる。すなわち、非定常雑音における現在フレームの帯域パワーの重みは、定常雑音における現在フレームの帯域パワーの重みより大きくされる。
Fnz(u,b)=1で定常雑音の場合、μnz=μnz1とされる。このμnz1は、例えば、0.9から1.0程度の値で、雑音帯域パワー推定値D(k,b)が実際の雑音の変化に追従し、なおかつ、聴感上違和感が無い程度に、設定されることが望ましい。また、Fnz(u,b)=2で非定常雑音の場合、μnz=μnz2とされる。このμnz2は、μnz1よりも小さく、例えば、0.7から0.8程度の値で、比較的小さい値であることが望ましい。また、μnz1およびμnz2は、それぞれ想定している雑音の特性に応じて、雑音の変化に追従し、聴感上違和感が無い値に調節されることが望ましい。
事後SNR算出部29は、以下の(12)式に基づき、入力信号の帯域パワーB(u,b)と、雑音帯域パワーの推定値D(u,b)を用いて、フレーム毎に、各帯域の事後SNR「γ(u,b)」を算出する。なお、この(12)式は、上述した(4)式と同じものである。この事後SNR算出部29は、SNR算出部を構成している。
γ(u,b)=B(u,b)/D(u,b) ・・・(12)
事前SNR算出部31は、以下の(13)式に基づき、フレーム毎に、各帯域の事前SNR「ξ(u,b)」を算出する。この場合、事前SNR算出部31は、直前フレームおよび現在フレームの事後SNR「γ(u-1,b),γ(u,b)」と、直前フレームの雑音抑圧ゲインG′(u-1,b)と、重み係数αを用いる。なお、この(13)式は、雑音抑圧ゲインG(u-1,b)がリミッタ処理による修正後の雑音抑圧ゲインG′(u-1,b)に変わっていることを除き、上述した(5)式と同じものである。
ξ(u,b)=αG′(u-1,b)γ(u-1,b)+(1-α)P[γ(u,b)-1] ・・・(13)
α算出部30は、上述の(13)式における重み係数αを、定数ではなく、フレームと周波数帯域で変動する重み係数α(u,b)として、(14)式に基づいて、算出する。αMAX(b)およびαMIN(b)は、それぞれ、帯域ごとに設定された重み係数α(u,b)の最大値および最小値である。重み係数α(u,b)を(14)式に基づいて算出する場合、雑音と判定される帯域bにあっては、重み係数α(u,b)は最大値αMAX(b)に近づいていき、非雑音と判定される帯域bにあっては、最小値αMIN(b)となる。図12は、重み係数α(u,b)の推移例を示している。
Figure 2013148724
上述の(13)式におけるαを、上述のα(u,b)を用いた形に書き直すと、以下の(15)式のようになる。
ξ(u,b)=α(u-1,b)G′(u-1,b)γ(u-1,b)+(1-α(u,b))P[γ(u,b)-1]
・・・(15)
事前SNR算出部31は、上述の(15)式に基づき、事前SNR「ξ(u,b)」の算出を行う。上述した重み係数α(u,b)の算出の仕組みにより、音声など一般的に変化の激しい非雑音に対しては追従が早く、一方、定常性を仮定している雑音に対してはゆっくり追従するよう、事前SNR「ξ(u,b)」の計算がされるようになる。この事前SNR算出部31は、SNR平滑部を構成している。
雑音抑圧ゲイン算出部32は、事後SNR算出部29で算出された事後SNR「γ(u,b)」と事前SNR算出部31で算出された事前SNR「ξ(u,b)」とから、以下の(16)式に基づいて、フレーム毎に、各帯域の雑音抑圧ゲインG(u,b)を算出する。なお、この(16)式は、上述した(7)式と同じものである。
Figure 2013148724
雑音抑圧ゲイン修正部33は、雑音抑圧ゲイン算出部32で算出された雑音抑圧ゲインG(u,b)に、帯域毎に予め設定してある雑音抑圧ゲインの下限値GMIN(b)に基づいてリミッタをかけ、修正された雑音抑圧ゲインG′(u,b)を算出する。以下の(17)式は、雑音抑圧ゲイン修正部33におけるリミッタ処理を表している。
Figure 2013148724
この雑音抑圧ゲイン修正部33は、聴感上の雑音低減量を最大化しつつも、雑音推定における過大見積りに起因して雑音抑圧ゲインが小さくなりすぎないようにするために設けられている。ここで、下限値GMIN(b)は、対象音源の性質や聴覚心理に基づいて、帯域別に設定される。例えば、非雑音の信号が音声である場合に、音声信号が含まれる確率の高い帯域については雑音抑圧ゲインの下限値が高めの値に設定される。雑音抑圧ゲインG(u,b)が下限値GMIN(b)を下回った場合は、この下限値GMIN(b)で置き換えられる。これにより、雑音抑圧ゲインG(u,b)の誤差があっても聴感上の音質劣化が少なくされる。
フィルタ構成部34は、雑音抑圧ゲイン修正部33で修正されたフレーム毎の各帯域の雑音抑圧ゲインG′(u,b)から、フレーム毎に、各フーリエ係数に対応した雑音抑圧ゲインを算出し、周波数軸上のフィルタを構成する。算出方法は、帯域分割部21でフーリエ係数を帯域分割したのと逆写像して得られたものをそのまま用いる単純な方法でもよいが、ゲインが周波数軸上で不連続にならないように上述の方法で得られたものをさらに周波数軸上でスムージングする方法でもよい。
雑音抑圧ゲイン生成部15の動作を簡単に説明する。高速フーリエ変換部14でフレーム毎に高速フーリエ変換処理されて得られた各周波数スペクトル(各フーリエ係数)は、帯域分割部21および有声帯域判定部35に供給される。帯域分割部21では、フレーム毎に、各周波数スペクトルが、所定数Nb、例えば25の周波数帯域に分割される(表1参照)。
帯域分割部21で帯域分割されて得られた各帯域の周波数スペクトルは、フレーム毎に、帯域パワー算出部22に供給される。この帯域パワー算出部22では、フレーム毎に、各帯域の帯域パワーB(u,b)が算出される。例えば、帯域b内の各周波数スペクトルに対応したパワースペクトルがそれぞれ算出され、その最大値あるいは平均値が帯域パワーB(u,b)とされる。この帯域パワーB(u,b)は、非定常雑音判定部36、雑音・非雑音判定部27、雑音帯域パワー推定部28および事後SNR算出部29に供給される。
また、フレーム化部12で得られたフレーム化信号yf(u,n)は、有声音検出部23に供給される。この有声音検出部23では、フレーム化信号yf(u,n)に基づいて、フレーム毎に、有声音が含まれているか否かを示す有声音フラグFv(u)が得られる。有声音検出部23では、フレーム全体の雑音・非雑音の判定が行われ、非雑音と判定されるときはFv(u)=1とされ、雑音と判定されるときはFv(u)=0とされる。ここで、有声音検出部23における雑音・非雑音の判定は、フレーム化信号yf(u,n)に基づいてゼロクロス幅が検出され、このゼロクロス幅のヒストグラムが計算されることで行われる。
また、有声音検出部23で得られた有声音フラグFv(u)は、有声帯域判定部35に供給される。この有声帯域判定部35では、フレーム毎に、有声音フラグFv(u)と、高速フーリエ変換部14で得られた各周波数スペクトル(各フーリエ係数)が用いられ、各帯域の有声帯域フラグPv(u,b)が設定される。この場合、第uフレームの入力フーリエ係数Y(u,k)の振幅が調べられ、帯域毎に、帯域内に音声に由来するスペクトルのピークが存在するか否かが確認されて、有声帯域フラグPv(u, b)が設定される。
また、有声音検出部23で得られた有声音フラグFv(u)および有声帯域判定部35で得られた有声帯域フラグPv(u, b)は、非定常雑音判定部36に供給される。この非定常雑音判定部36では、有声帯域判定部35でPv(u,b)=0と判定された帯域の信号が非定常雑音の特性を持つか否かが判定される。この場合、まず、現在フレームの帯域パワーB(u,b)に関して、対象とするノイズに対応したノイズテンプレートBN(r,b)が探索されて、最も近いノイズテンプレートBN(rmin,b)が求められる。
その後、当該フレームに非定常雑音が存在するかが判定される。この場合、現在フレームの前後±Sフレームについて、上述で求めたテンプレートBN(rmin,b)と帯域パワーB(u+s,b)の相関l(u+s)とゲイン係数gN(u+s)が求められる。そして、相関l(u+s)がlMAXを越えていないか、ゲイン係数gN(u+s)の分散が閾値GNTを越えているか、の条件に基づいて判定され、非定常雑音フラグFnsn(u)が出力される。
また、有声音検出部23で得られたフレーム毎の有声音フラグFv(u)、有声帯域判定部35で得られた有声帯域フラグPv(u, b)および非定常雑音判定部36で得られた非定常雑音フラグFnsn(u)は、雑音・非雑音判定部27に供給される。この雑音・非雑音判定部27では、フレーム毎に、各フラグと、各帯域の帯域パワーB(u,b)が用いられて、各帯域の雑音帯域フラグFnz(u,b)が設定される(図11参照)。
この場合、非定常雑音フラグFnsn(u)が0であり、かつ有声音フラグFv(u)が1であってフレーム全体として非雑音と判定されているときは、全ての帯域が雑音でないと判定され、全ての帯域でFnz(u,b)=0とされる。
また、非定常雑音フラグFnsn(u)が0であるが、有声音フラグFv(u)が0であってフレーム全体として雑音と判定されているときは、帯域毎に、帯域パワーの定常性検出により雑音か非雑音かの判定が行われる。帯域パワーに定常性があって、その帯域が雑音候補と判定されるとき、その帯域の雑音候補フレーム連続カウンタCn(b)がカウントアップされる。そして、そのカウント値がしきい値Tcを超えるとき、その帯域は雑音(定常性)であると判定され、Fnz(u,b)=1とされる。
一方、帯域パワーに定常性がなく、その帯域が非雑音と判定されるとき、Fnz(u,b)=0とされる。また、帯域パワーに定常性があって、その帯域が雑音候補と判定されても、雑音候補フレーム連続カウンタCn(b)のカウント値がしきい値Tc以下のとき、その帯域は非雑音であると判定され、Fnz(u,b)=0とされる。
また、非定常雑音フラグFnsn(u)が1であるが、有声帯域フラグPv(u,b)が1であるときは、その帯域は雑音でないと判定され、Fnz(u,b)=0とされる。また、非定常雑音フラグFnsn(u)が1であり、有声帯域フラグPv(u,b)が0であるときは、その帯域は雑音(非定常雑音)であると判定され、Fnz(u,b)=2とされる。
雑音・非雑音判定部27でフレーム毎に設定された各帯域の雑音帯域フラグFnz(u,b)は雑音帯域パワー推定部28に供給される。また、帯域パワー算出部22でフレーム毎に算出された各帯域の帯域パワーB(u,b)は、雑音帯域パワー推定部28に供給される。この雑音帯域パワー推定部28では、フレーム毎に、各帯域の雑音帯域パワー推定値D(u,b)が推定される。
この雑音帯域パワー推定部28では、雑音帯域フラグFnz(u,b)に基づいて、Fnz(u,b)=1,2である帯域、つまり雑音の帯域についてのみ、雑音帯域パワー推定値D(u,b)の更新が行われる。例えば、帯域パワーB(u,b)が使用され、指数重みμnzが用いられて更新される((11)式参照)。この場合、定常雑音の場合と非定常雑音の場合とでは指数重みμnzの値は異なるものとされる。
すなわち、Fnz(u,b)=1で定常雑音の場合、μnz=μnz1とされる。このμnz1は、例えば、0.9から1.0程度の値で、雑音帯域パワー推定値D(k,b)が実際の雑音の変化に追従し、なおかつ、聴感上違和感が無い程度に、設定される。また、Fnz(u,b)=2で非定常雑音の場合、μnz=μnz2とされる。このμnz2は、μnz1よりも小さく、例えば、0.7から0.8程度の値で、比較的小さい値に設定される。これにより、非定常雑音における雑音変化への追従速度が定常雑音における雑音変化への追従速度より上げられることから、雑音の低減が十分にできなかったり、音声に副作用を及ぼしたりする、という不都合を回避可能となる。
雑音帯域パワー推定部28でフレーム毎に推定された各帯域の雑音帯域パワー推定値D(u,b)は、事後SNR算出部29に供給される。また、帯域パワー算出部22でフレーム毎に算出された各帯域の帯域パワーB(u,b)は、事後SNR算出部29に供給される。事後SNR算出部29では、フレーム毎に、帯域パワーB(u,b)と、雑音帯域パワーの推定値D(u,b)が用いられて、各帯域の事後SNR「γ(u,b)」が算出される((12)式参照)。
雑音・非雑音判定部27でフレーム毎に設定された各帯域の雑音帯域フラグFnz(u,b)は、α算出部30に供給される。このα算出部30では、フレーム毎に、各帯域の事前SNR「ξ(u,b)」の算出((15)式参照)のための重み係数α(u,b)が算出される。重み係数α(u,b)は、雑音と判定される帯域bにあっては、最大値αMAX(b)に近づいていくように更新され、非雑音と判定される帯域bにあっては、直ちに最小値αMIN(b)とされる((14)式、図12参照)。
事後SNR算出部29でフレーム毎に算出された各帯域の事後SNR「γ(u,b)」は、事前SNR算出部31に供給される。また、α算出部30でフレーム毎に算出された各帯域の重み係数α(u,b)は、事前SNR算出部31に供給される。さらに、雑音抑圧ゲイン修正部33で修正された直前フレームの各帯域の雑音抑圧ゲインG′(u,b)は、事前SNR算出部31に供給される。事前SNR算出部31では、フレーム毎に、各帯域の事前SNR「ξ(u, b)」が算出される((15)式参照)。この場合、直前フレームおよび現在フレームの事後SNR「γ(u?1,b),γ(u,b)」と、直前フレームの雑音抑圧ゲインG′(u-1,b)と、重み係数α(u,b)が用いられる。
上述したように、α算出部30で算出される各帯域の重み係数α(u,b)は、雑音と判定される帯域bにあっては、最大値αMAX(b)に近づいていくように更新され、非雑音と判定される帯域bにあっては、直ちに最小値αMIN(b)とされる。そのため、音声など一般的に変化の激しい非雑音に対しては追従が早く、一方、定常性を仮定している雑音に対してはゆっくり追従するよう、事前SNR「ξ(u,b)」が計算される。
事後SNR算出部29でフレーム毎に算出された各帯域の事後SNR「γ(u,b)」は、雑音抑圧ゲイン算出部32に供給される。また、事前SNR算出部31でフレーム毎に算出された各帯域の事前SNR「ξ(u, b)」は、雑音抑圧ゲイン算出部32に供給される。雑音抑圧ゲイン算出部32では、フレーム毎に、事後SNR「γ(u,b)」と事前SNR「ξ(u,b)」とから、各帯域の雑音抑圧ゲインG(u,b)が算出される((16)式参照)。
雑音抑圧ゲイン算出部32でフレーム毎に算出された各帯域の雑音抑圧ゲインG(u,b)は、雑音抑圧ゲイン修正部33に供給される。この雑音抑圧ゲイン修正部33では、フレーム毎に、各帯域の雑音抑圧ゲインG(u,b)に対して、帯域毎に予め設定してある雑音抑圧ゲインの下限値GMIN(b)に基づいてリミッタがかけられ、修正された雑音抑圧ゲインG′(u,b)が算出される。
雑音抑圧ゲイン修正部33でフレーム毎に修正された各帯域の雑音抑圧ゲインG′(u,b)は、フィルタ構成部34に供給される。このフィルタ構成部34では、フレーム毎に、各帯域の雑音抑圧ゲインG′(u,b)から、各フーリエ係数に対応した雑音抑圧ゲインが算出される。このようにフィルタ構成部34でフレーム毎に算出された各フーリエ係数に対応した雑音抑圧ゲインは、雑音抑圧ゲイン生成部15の出力としてフーリエ係数修正部16に供給される。
上述したように、図4に示す雑音抑圧装置10において、雑音抑圧ゲイン生成部15の雑音・非雑音判定部36では、帯域毎に、雑音か非雑音の判定がされる他、さらに雑音が定常雑音であるか非定常雑音であるかの判定も行われて、雑音帯域フラグFnz(u,b)が設定される。そして、雑音帯域パワー推定部28では、フレーム毎に、各帯域の雑音帯域パワー推定値D(u,b)が推定されるが、雑音帯域フラグFnz(u,b)に基づき、雑音の帯域についてのみ、雑音帯域パワー推定値D(u,b)の更新が行われる。
この場合、非定常雑音の場合の指数重みμnz2は定常雑音の場合の指数重みμnz1より小さく設定される。そのため、非定常雑音における雑音変化への追従速度が定常雑音における雑音変化への追従速度より上げられる。したがって、雑音が非定常雑音であった場合に、その低減が十分にできなかったり、音声に副作用を及ぼしたりする、という不都合を回避可能となる。
また、図4に示す雑音抑圧装置10において、雑音抑圧ゲイン生成部15の雑音抑圧ゲイン算出部32では、事後SNR「γ(u,b)」と事前SNR「ξ(u,b)」とから、各帯域の雑音抑圧ゲインG(u,b)が算出される。また、事前SNR算出部31では、各帯域の事前SNR「ξ(u,b)」が算出される。この場合、直前フレームおよび現在フレームの事後SNR「γ(u-1,b),γ(u,b)」と、直前フレームの雑音抑圧ゲインG′(u-1,b)と、重み係数α(u,b)が用いられる。
α算出部30で算出される各帯域の重み係数α(u,b)は、信号の状態に応じて適応的に変化させられる。つまり、重み係数α(u,b)は、雑音と判定される帯域b(Fnz(u,b)=1)にあっては最大値αMAX(b)に近づいていくように更新され、非雑音と判定される帯域b(Fnz(u,b)=0)にあっては直ちに最小値αMIN(b)とされる。そのため、音声など一般的に変化の激しい非雑音に対しては追従が早く、一方、定常性を仮定している雑音に対してはゆっくり追従するよう、事前SNR「ξ(u,b)」が計算される。
そのため、雑音抑圧ゲイン生成部15で算出される各帯域の雑音抑圧ゲインG(u,b)の精度(追従性)を高めることができる。したがって、例えば、音声信号の冒頭など信号の変化が激しい箇所で発生する音質劣化を抑制でき、定常雑音の区間など信号の変化がゆるやかな箇所ではミュージカルノイズを抑制でき、音質向上を図ることができる。
また、上述したように、図4に示す雑音抑圧装置10において、雑音抑圧ゲイン生成部15の雑音・非雑音判定部27では、有声音フラグFv(u)と、各帯域の帯域パワーB(u,b)を用いて、各帯域の雑音帯域フラグFnz(u,b)が設定される。つまり、雑音と非雑音が混合した信号においても非雑音と重複しない帯域の雑音に関しては検出できる。また、雑音帯域パワー推定部28では、雑音帯域フラグFnz(u,b)に基づいて、Fnz(u,b)=1,2である帯域、つまり雑音の帯域についてのみ、雑音帯域パワー推定値D(u,b)の更新が行われる。そのため、雑音帯域パワー推定値D(u,b)の推定における時間追従性を改善できると共に、推定精度を高めることができる。したがって、結果的に雑音抑圧ゲインの精度を高めることができ、音質向上を図ることができる。
また、上述したように、図4に示す雑音抑圧装置10において、雑音抑圧ゲイン生成部15の雑音・非雑音判定部27では、有声音フラグFv(u)と、各帯域の帯域パワーB(u,b)を用いて、各帯域の雑音帯域フラグFnz(u,b)が設定される。つまり、雑音・非雑音判定部27では、有声音フラグFv(u)によるフレーム全体での雑音・非雑音判定が行われ、これと帯域パワーの定常性検出による帯域毎の判定が組み合わせられることで、最終的な判定結果が得られる。したがって、帯域毎の雑音・非雑音の判定精度を高めることができる。
また、上述したように、図4に示す雑音抑圧装置10において、雑音抑圧ゲイン生成部15の雑音抑圧ゲイン修正部33では、修正された雑音抑圧ゲインG′(u,b)が算出される。この場合、各帯域の雑音抑圧ゲインG(u,b)に対して、帯域毎に予め設定してある雑音抑圧ゲインの下限値GMIN(b)に基づいてリミッタがかけられて、修正が行われる。したがって、聴感上の雑音低減量を最大化しつつも、推定誤差などによる音質劣化を最小限に抑えることができる。
なお、図4に示す雑音抑圧装置10において、雑音抑圧ゲイン生成部15の雑音・非雑音判定部27では、有声音フラグFv(u)と、各帯域の帯域パワーB(u,b)を用いて、各帯域の雑音帯域フラグFnz(u,b)が設定される。しかし、雑音・非雑音判定部27では、フレーム毎に、有声音フラグFv(u)あるいは各帯域の帯域パワーB(u,b)のいずれかのみを用いて、各帯域の雑音帯域フラグFnz(u,b)を設定することも考えられる。
有声音フラグFv(u)のみを用いて各帯域の雑音帯域フラグFnz(u,b)を設定する場合、雑音・非雑音判定部27では、例えば、図11のフローチャートにおいて、ステップST7の処理を除いた判定処理が行われる。一方、各帯域の帯域パワーB(u,b)のみを用いて各帯域の雑音帯域フラグFnz(k,b)を設定する場合、雑音・非雑音判定部27では、例えば、図11のフローチャートにおいて、ステップST3の処理を除いた判定処理が行われる。
<2.第2の実施の形態>
[雑音抑圧装置]
図13は、第2の実施の形態としての雑音抑圧装置10Sの構成例を示している。図4に示す雑音抑圧装置10がモノラル信号の雑音抑圧に適用した場合の構成例であるのに対して、この雑音抑圧装置10Sはステレオ信号の雑音抑圧に適用した場合の構成例である。この図13において、図4と対応する部分には、同一符号、あるいは同一符号に「L」、「R」の文字を添えて示し、適宜、その詳細説明を省略する。ステレオ信号に適用する際には、基本的にはモノラル信号の処理を各チャネルに行えばよい。しかし、ステレオ信号の場合は推定誤差などの要因により処理結果の定位が崩れてしまうなどの弊害が発生する。そのため、ステレオ信号に対応するための対策が施される。
この雑音抑圧装置10Sは、左チャネル(Lch)処理系100Lと、右チャネル(Rch)処理系100Lと、雑音抑圧ゲイン生成部15Sとから構成されている。左チャネル処理系100Lおよび右チャネル処理系100Lは、それぞれ、図4に示す雑音抑圧装置10における信号入力端子11から信号出力端子20までの処理系と同様に構成されている。
すなわち、左チャネル処理系100Lは、信号入力端子11Lと、フレーム化部12Lと、窓がけ部13Lと、高速フーリエ変換部14Lを有している。また、この左チャネル処理系100Lは、フーリエ係数修正部16Lと、逆高速フーリエ変換部17Lと、窓がけ部18Lと、オーバーラップ加算部19Lと、信号出力端子20Lを有している。
また、右チャネル処理系100Rは、信号入力端子11Rと、フレーム化部12Rと、窓がけ部13Rと、高速フーリエ変換部14Rを有している。また、この右チャネル処理系100Rは、フーリエ係数修正部16Rと、逆高速フーリエ変換部17Rと、窓がけ部18Rと、オーバーラップ加算部19Rと、信号出力端子20Rを有している。
雑音抑圧ゲイン生成部15Sは、フレーム毎に、左チャネル処理系100Lの各フーリエ係数に対応した雑音抑圧ゲインと、右チャネル処理系100Rの各フーリエ係数に対応した雑音抑圧ゲインを生成する。この雑音抑圧ゲイン生成部15Sは、左チャネル処理系100Lおよび右チャネル処理系100Rの各フーリエ係数に対応した雑音抑圧ゲインGfL(u,f),GfR(u,f)を生成する。この場合、雑音抑圧ゲイン生成部15Sは、フレーム化信号および各フーリエ係数(各周波数スペクトル)に基づいて、それぞれのチャネルの雑音抑圧ゲインGfL(u,f),GfR(u,f)を生成する。この雑音抑圧ゲイン生成部15Sの詳細については、後述する。
雑音抑圧装置10Sの動作を簡単に説明する。左チャネル処理系100Lにおいて、信号入力端子11Lに左チャネルの入力信号yL(n)が供給され、この入力信号yL(n)は、フレーム化部12Lに供給される。このフレーム化部12Lでは、フレーム毎に処理を行うために、入力信号yL(n)がフレーム化される。つまり、このフレーム化部12Lでは、入力信号yL(n)が、所定フレーム長、例えばフレーム長がNfサンプルのフレームに分割される。フレーム毎のフレーム化信号yfL(u,n)は、窓がけ部13Lに、順次供給される。
窓がけ部13Lでは、後述する高速フーリエ変換部14Lで安定したフーリエ係数を得るために、フレーム化信号yfL(u,n)に分析窓wana(n)による窓がけが行われる。このように窓がけされたフレーム化信号yfL(u,n)は、高速フーリエ変換部14Lに供給される。この高速フーリエ変換部14Lでは、窓がけされたフレーム化信号yfL(u,n)に対して、高速フーリエ変換処理が施され、時間領域信号から周波数領域信号に変換される。高速フーリエ変換処理で得られた各フーリエ係数(各周波数スペクトル)YfL(u,f)は、フーリエ係数修正部16Lに供給される。なお、(u,f)は、u番目のフレームのf番目の周波数を示している。
また、右チャネル処理系100Rにおいて、信号入力端子11Rに右チャネルの入力信号yR(n)が供給され、この入力信号yR(n)は、フレーム化部12Rに供給される。このフレーム化部12Rでは、フレーム毎に処理を行うために、入力信号yR(n)がフレーム化される。つまり、このフレーム化部12Rでは、入力信号yR(n)が、所定フレーム長、例えばフレーム長がNfサンプルのフレームに分割される。フレーム毎のフレーム化信号yfR(u,n)は、窓がけ部13Rに、順次供給される。
窓がけ部13Rでは、後述する高速フーリエ変換部14Rで安定したフーリエ係数を得るために、フレーム化信号yfR(u,n)に分析窓wana(n)による窓がけが行われる。このように窓がけされたフレーム化信号yfR(u,n)は、高速フーリエ変換部14Rに供給される。この高速フーリエ変換部14Rでは、窓がけされたフレーム化信号yfR(u,n)に対して、高速フーリエ変換処理が施され、時間領域信号から周波数領域信号に変換される。高速フーリエ変換処理で得られた各フーリエ係数(各周波数スペクトル)YfR(u,f)は、フーリエ係数修正部16Rに供給される。なお、(u,f)は、u番目のフレームのf番目の周波数を示している。
フレーム化部12L,12Rで得られたフレーム毎のフレーム化信号yfL(u,n),yfR(u,n)は、雑音抑圧ゲイン生成部15Sに供給される。また、高速フーリエ変換部14L,14Rで得られたフレーム毎のフーリエ係数YfL(u,n),YfR(u,n)は、雑音抑圧ゲイン生成部15Sに供給される。雑音抑圧ゲイン生成部15Sでは、フレーム毎に、フレーム化信号yfL(u,n),yfR(u,n)とフーリエ係数YfL(u,n),YfR(u,n)に基づいて、左右チャネルに共通の、各フーリエ係数に対応した雑音抑圧ゲインが生成される。
また、左チャネル処理系100Lにおいて、フーリエ係数修正部16Lでは、フレーム毎に、高速フーリエ変換部14Lで高速フーリエ変換処理されて得られた各フーリエ係数YfL(u,n)の修正が行われる。この場合、各フーリエ係数YfL(u,n)と、雑音抑圧ゲイン生成部15Sで生成された各フーリエ係数に対応した雑音抑圧ゲインGfL(u,f)の積が取られて係数修正が行われる。つまり、このフーリエ係数修正部16Lでは、周波数軸上で、雑音を抑圧するためのフィルタ計算が行われる。係数修正された各フーリエ係数は、逆高速フーリエ変換部17Lに供給される。
逆高速フーリエ変換部17Lでは、フレーム毎に、係数修正された各フーリエ係数に対して、逆高速フーリエ変換処理が施され、周波数領域信号が時間領域信号に変換される。逆高速フーリエ変換部17Lで得られたフレーム化信号は、窓がけ部18Lに供給される。この窓がけ部18Lでは、フレーム毎に、逆高速フーリエ変換部17Lで得られたフレーム化信号に合成窓wsyn(n)による窓がけが行われる。
窓がけ部18Lで窓がけされた各フレームのフレーム化信号は、オーバーラップ加算部19Lに供給される。このオーバーラップ加算部19Lでは、各フレームのフレーム化信号のフレーム境界部分について重ね合わせが行われて、雑音が抑圧された出力信号が得られる。そして、この出力信号は、左チャネル処理系100Lの信号出力端子20Lに出力される。
また、右チャネル処理系100Rにおいて、フーリエ係数修正部16Rでは、フレーム毎に、高速フーリエ変換部14Rで高速フーリエ変換処理されて得られた各フーリエ係数YfR(u,n)の修正が行われる。この場合、各フーリエ係数YfR(u,n)と、雑音抑圧ゲイン生成部15Sで生成された各フーリエ係数に対応した雑音抑圧ゲインGfR(u,f)の積が取られて係数修正が行われる。つまり、このフーリエ係数修正部16Rでは、周波数軸上で、雑音を抑圧するためのフィルタ計算が行われる。係数修正された各フーリエ係数は、逆高速フーリエ変換部17Rに供給される。
逆高速フーリエ変換部17Rでは、フレーム毎に、係数修正された各フーリエ係数に対して、逆高速フーリエ変換処理が施され、周波数領域信号が時間領域信号に変換される。逆高速フーリエ変換部17Rで得られたフレーム化信号は、窓がけ部18Rに供給される。この窓がけ部18Rでは、フレーム毎に、逆高速フーリエ変換部17Rで得られたフレーム化信号に合成窓wsyn(n)による窓がけが行われる。
窓がけ部18Rで窓がけされた各フレームのフレーム化信号は、オーバーラップ加算部19Rに供給される。このオーバーラップ加算部19Rでは、各フレームのフレーム化信号のフレーム境界部分について重ね合わせが行われて、雑音が抑圧された出力信号が得られる。そして、この出力信号は、右チャネル処理系100Rの信号出力端子20Rに出力される。
[雑音抑圧ゲイン生成部]
雑音抑圧ゲイン生成部15Sの詳細を説明する。図14は、雑音抑圧ゲイン生成部15Sの構成例を示している。この図14において、図4と対応する部分には、同一符号、あるいは同一符号に「L」、「R」、「S」の文字を添えて示し、適宜、その詳細説明を省略する。ここで、「L」は左チャネル側の処理部分を示し、「R」は右チャネル側の処理部分を示し、「S」は左右チャネルの共通処理部分を示す。
雑音抑圧ゲイン生成部15Sは、帯域分割部21L,21Rと、帯域パワー算出部22L,22Rと、有声音検出部23L,23Rと、有声帯域判定部35L,35Rと、非定常雑音判定部36L,36Rを有している。また、雑音抑圧ゲイン生成部15Sは、雑音・非雑音判定部27Sと、雑音帯域パワー推定部28L,28Rを有している。また、雑音抑圧ゲイン生成部15Sは、事後SNR算出部29L,29Rと、α算出部30Sと、事前SNR算出部31L,31Rと、雑音抑圧ゲイン算出部32L,32Rと、雑音抑圧ゲイン修正部33L,33Rと、フィルタ構成部34L,34Rを有している。
帯域分割部21L,21Rは、図4に示す雑音抑圧装置10における雑音抑圧ゲイン生成部15の帯域分割部21と同様に構成されている。帯域分割部21L,21Rは、高速フーリエ変換部14L,14Rで得られた各周波数スペクトル(各フーリエ係数)YfL(u,f),YfR(u,f)を、例えば、25の周波数帯域に分割する(表1参照)。帯域パワー算出部22L,22Rは、図4に示す雑音抑圧装置10における雑音抑圧ゲイン生成部15の帯域パワー算出部22と同様に構成されている。帯域パワー算出部22L,22Rは、帯域分割部21L,21Rで分割された帯域毎に、周波数スペクトルから帯域パワーBL(u,b),BR(u,b)を算出する。
有声音検出部23L,23Rは、図4に示す雑音抑圧装置10における雑音抑圧ゲイン生成部15の有声音検出部23と同様に構成されている。有声音検出部23L,23Rは、フレーム化部12L,12Rで得られたフレーム化信号yfL(u,n),yfR(u,n)に基づいて、フレーム毎に、有声音が含まれているか否かを示す有声音フラグFvL(u),FvR(u)を出力する。
有声帯域判定部35L,35Rは、図4に示す雑音抑圧装置10における雑音抑圧ゲイン生成部15の有声帯域判定部35と同様に構成されている。有声帯域判定部35L,35Rは、有声音検出部23L,23Rで得られた有声音フラグFvL(u),FvR(u)と、帯域パワー算出部22L,22Rで算出された各帯域の帯域パワーBL(u,b),BR(u,b)に基づいて、フレーム毎かつ帯域毎に、有声帯域であるか否かを示す有声帯域フラグPvL(u,b),PvR(u,b)を出力する。
非定常雑音判定部36L,36Rは、図4に示す雑音抑圧装置10における雑音抑圧ゲイン生成部15の非定常雑音判定部36と同様に構成されている。非定常雑音判定部36L,36Rは、有声帯域判定部35L,35Rで得られた有声帯域フラグPvL(u,b),PvR(u,b)と、帯域パワー算出部22L,22Rで算出された各帯域の帯域パワーBL(u,b),BR(u,b)に基づいて、フレーム毎に、非定常雑音が存在するフレームであるか否かを示す非定常雑音フラグFnsnL(u),FnsnR(u)を出力する。
雑音・非雑音判定部27Sは、図4に示す雑音抑圧装置10における雑音抑圧ゲイン生成部15の雑音・非雑音判定部27とほぼ同様に構成されている。この雑音・非雑音判定部27Sは、ステレオ対応とされており、フレーム毎に、左右チャネル共通の各帯域の雑音帯域フラグFnz(u,b)を設定する。
雑音・非雑音判定部27Sは、各帯域の雑音帯域フラグFnz(u,b)を設定する。この場合、雑音・非雑音判定部27Sは、有声音検出部23L,23Rで得られた有声音フラグFvL(k),FvR(k)と、帯域パワー算出部22L,22Rで算出された各帯域の帯域パワーBL(k,b),BR(k,b)を用いる。さらに、雑音・非雑音判定部27Sは、有声帯域判定部35L,35Rで得られた有声帯域フラグPvL(u,b),PvR(u,b)と、非定常雑音判定部36L,36Rで得られた非定常雑音フラグFnsnL(u),FnsnR(u)を用いる。雑音・非雑音判定部27Sは、図15のフローチャートに示す判定処理を、フレーム毎に、各帯域において、実行する。
雑音・非雑音判定部27Sは、ステップST111において、判定処理を開始し、システムの初期化を行う。この初期化において、雑音・非雑音判定部27Sは、雑音候補フレーム連続カウンタCn(b)を、Cn(b)=0に初期化しておく。
次に、雑音・非雑音判定部27Sは、ステップST112の処理に移る。このステップST112において、雑音・非雑音判定部27Sは、非定常雑音フラグFnsnL(u),FnsnR(u)が0より大きいか否か、つまりFnsnL(u),FnsnR(u)が1であるか否かを判断する。FnsnL(u)=1かつFnsnR(u)=1でないとき、つまり現在フレームuの少なくとも左右チャネルのいずれかに非定常雑音が存在しないとき、雑音・非雑音判定部27Sは、ステップST16の処理に移る。雑音・非雑音判定部27Sは、ステップST113の処理に移る。
このステップST113において、雑音・非雑音判定部27Sは、有声音フラグFvL(u),FvR(u)が0より大きいか否か、つまり、FvL(u),FvR(u)が1であるか否かを判断する。FvL(u)=1、かつFvR(u)=1であるとき、つまり現在フレームuが左右チャネル共に有声音であるとき、雑音・非雑音判定部27Sは、ステップST114において、雑音候補フレーム連続カウンタCn(b)をクリアし、Cn(b)=0とする。そして、雑音・非雑音判定部27Sは、現在帯域bは雑音でないと判定し、ステップST115において、雑音帯域フラグFnz(u,b)を、Fnz(u,b)=0とし、その後に、ステップST116において、判定処理を終了する。
ステップST113でFvL(u)=1、かつFvR(u)=1でないとき、つまり現在フレームuの少なくとも左右チャネルのいずれかが有声音でないとき、雑音・非雑音判定部27Sは、ステップST117の処理に移る。このステップST117において、雑音・非雑音判定部27Sは、左チャネル側の現在フレームuの帯域パワーBL(u,b)と、直前フレームu−1の帯域パワーBL(u-1,b)のパワー比を求める。また、このステップST117において、雑音・非雑音判定部27Sは、右チャネル側の現在フレームuの帯域パワーBR(u,b)と、直前フレームu−1の帯域パワーBR(u-1,b)のパワー比を求める。
そして、雑音・非雑音判定部27Sは、このステップST117において、左右チャネルのパワー比の双方が低レベル側のしきい値TpL(b)と高レベル側のしきい値TpH(b)との間に収まっているか否かを判断する。すなわち、TpL(b)<BL(u,b)/BL(u-1,b)<TpH(b)、かつTpL(b)<BR(u,b)/BR(u-1,b)<TpH(b)であるか否かを判断する。
雑音・非雑音判定部27Sは、左右チャネルのパワー比の双方がしきい値間に収まっているとき、現在帯域bを雑音の候補とし、左右チャネルのパワー比の双方がしきい値間に収まっていないとき、現在帯域bは雑音でないと判定する。この判定は、雑音信号のパワーは一定であり、逆にパワー変動が激しい信号は雑音でないとの仮定に基づいている。
左右チャネルのパワー比の双方がしきい値間に収まっていないとき、雑音・非雑音判定部27Sは、ステップST13において、雑音候補フレーム連続カウンタCn(b)をクリアし、Cn(b)=0とする。そして、雑音・非雑音判定部27Sは、現在帯域bは雑音でないと判定し、ステップST14において、Fnz(k,b)=0とし、その後に、ステップST15において、判定処理を終了する。
一方、左右チャネルのパワー比の双方がしきい値間に収まっているとき、つまり、現在帯域bを雑音の候補とするとき、雑音・非雑音判定部27Sは、ステップST118の処理に移る。このステップST118において、雑音・非雑音判定部27Sは、雑音候補フレーム連続カウンタCn(b)を、1だけカウントアップする。
そして、雑音・非雑音判定部27Sは、ステップST119において、雑音候補フレーム連続カウンタCn(b)が、しきい値Tcを超えたか否かを判定する。Cn(b)>Tcでないとき、雑音・非雑音判定部27Sは、現在帯域bは雑音でないと判定し、ステップST115において、Fnz(u,b)=0とし、その後に、ステップST116において、判定処理を終了する。
一方、Cn(b)>Tcであるとき、雑音・非雑音判定部27Sは、ステップST120の処理に移る。このステップST120において、雑音・非雑音判定部27Sは、現在帯域bが雑音であると判定し、雑音帯域フラグFnz(u,b)を、Fnz(u,b)=1にセットし、その後に、ステップST116において、判定処理を終了する。
また、ステップST112でFnsnL(u)=1かつFnsnR(u)=1であるとき、つまり現在フレームuの左右チャネルの双方に非定常雑音が存在するとき、雑音・非雑音判定部27Sは、ステップST121の処理に移る。このステップST113において、雑音・非雑音判定部27は、有声帯域フラグPvL(u,b),PvR(u,b)が0より大きいか否か、つまり、有声帯域フラグPvL(u,b),PvR(u,b)が1であるか否かを判断する。
PvL(u,b)=1かつPvR(u,b)=1であるとき、つまり左右チャネルの双方ともに有声帯域であるとき、雑音・非雑音判定部27Sは、ステップST115において、雑音帯域フラグFnz(u,b)を、Fnz(u,b)=0とし、その後に、ステップST116において、判定処理を終了する。一方、PvL(u,b),PvR(u,b)のいずれかが0であるとき、雑音・非雑音判定部27は、現在帯域bは雑音(非定常雑音)であると判定し、ステップST122において、雑音帯域フラグFnz(u,b)を、Fnz(u,b)=2とし、その後に、ステップST116において、判定処理を終了する。
図14に戻って、雑音帯域パワー推定部28L,28Rは、図4に示す雑音抑圧装置10における雑音抑圧ゲイン生成部15の雑音帯域パワー推定部28と同様に構成されている。雑音帯域パワー推定部28L,28Rは、フレーム毎に、各帯域の雑音帯域パワー推定値DL(u,b),DR(u,b)を推定する。雑音帯域パワー推定部28L,28Rは、Fnz(u,b)=1である帯域、つまり雑音の帯域についてのみ、雑音帯域パワー推定値DL(u,b),DR(u,b)の更新を行う((11)式参照)。この場合、雑音帯域パワー推定部28L,28Rは、雑音・非雑音判定部27Sで設定された左右チャネル共通の雑音帯域フラグFnz(u,b)に基づいて、処理を行う。
事後SNR算出部29L,29Rは、図4に示す雑音抑圧装置10における雑音抑圧ゲイン生成部15の事後SNR算出部29と同様に構成されている。事後SNR算出部29L,29Rは、フレーム毎に、各帯域の事後SNR「γL(u,b),γR(u,b)」を算出する((12)式参照)。この場合、事後SNR算出部29L,29Rは、入力信号の帯域パワーBL(u,b),BR(u,b)と、雑音帯域パワーの推定値DL(u,b),DR(u,b)を用いる。
事前SNR算出部31L,31Rは、図4に示す雑音抑圧装置10における雑音抑圧ゲイン生成部15の事前SNR算出部31と同様に構成されている。事前SNR算出部31L,31Rは、フレーム毎に、各帯域の事前SNR「ξL(u,b),ξR(u,b)」を算出する((15)式参照)。
ここで、事前SNR算出部31Lは、各帯域の事前SNR「ξL(u,b)」を算出する。この場合、事前SNR算出部31Lは、直前フレームおよび現在フレームの事後SNR「γL(u-1,b),γL(u,b)」と、直前フレームの雑音抑圧ゲインG′L(u-1,b)と、左右チャネル共通の重み係数α(u,b)を用いる。また、事前SNR算出部31Rは、各帯域の事前SNR「ξR(u,b)」を算出する。この場合、事前SNR算出部31Rは、直前フレームおよび現在フレームの事後SNR「γR(u-1,b),γR(u,b)」と、直前フレームの雑音抑圧ゲインG′R(u-1,b)と、左右チャネル共通の重み係数α(u,b)を用いる。
α算出部30Sは、図4に示す雑音抑圧装置10におけるα算出部30と同様に構成され、事前SNR算出部31L,31Rで用いられる左右チャネル共通の重み係数α(u,b)を算出する。このα算出部30Sは、定数ではなく、フレームと帯域で変動する重み係数α(u,b)として算出する((14)式参照)。この重み係数α(u,b)は、雑音と判定される帯域b(Fnz(u,b)=1,2)にあっては、重み係数α(k,b)は最大値αMAX(b)に近づいていき、非雑音と判定される帯域b(Fnz(u,b)=0)にあっては、最小値αMIN(b)となる。
雑音抑圧ゲイン算出部32L,32Rは、図4に示す雑音抑圧装置10における雑音抑圧ゲイン生成部15の雑音抑圧ゲイン算出部32と同様に構成されている。雑音抑圧ゲイン算出部32L,32Rは、フレーム毎に、各帯域の雑音抑圧ゲインGL(u,b),GR(u,b)を算出する((16)式参照)。この場合、雑音抑圧ゲイン算出部32L,32Rは、事後SNR「γL(u,b),γR(u,b)」と、事前SNR「ξL(u,b),ξR(u,b)」とから、各帯域の雑音抑圧ゲインGL(u,b),GR(u,b)を算出する。
雑音抑圧ゲイン修正部33L,33Rは、図4に示す雑音抑圧装置10における雑音抑圧ゲイン生成部15の雑音抑圧ゲイン修正部33と同様に構成されている。雑音抑圧ゲイン修正部33L,33Rは、フレーム毎に、雑音抑圧ゲイン算出部32L,32Rで算出された雑音抑圧ゲインGL(u,b),GR(u,b)の修正を行う。つまり、雑音抑圧ゲイン修正部33L,33Rは、修正された雑音抑圧ゲインG′L(u,b),G′R(u,b)を算出する((17)式参照)。この場合、雑音抑圧ゲイン修正部33L,33Rは、雑音抑圧ゲインGL(u,b),GR(u,b)に、帯域毎に予め設定してある雑音抑圧ゲインの下限値GMIN(b)に基づいてリミッタをかける。
フィルタ構成部34L,34Rは、図4に示す雑音抑圧装置10における雑音抑圧ゲイン生成部15のフィルタ構成部34と同様に構成されている。フィルタ構成部34L,34Rは、フレーム毎に、雑音抑圧ゲイン修正部33で修正された各帯域の雑音抑圧ゲインG′L(u,b),G′R(u,b)から、各フーリエ係数に対応した雑音抑圧ゲインGfL(u,f),GfR(u,f)を算出する。この場合、フィルタ構成部34L,34Rは、周波数軸上のフィルタを構成する。
雑音抑圧ゲイン生成部15Sの動作を簡単に説明する。高速フーリエ変換部14L,14Rでフレーム毎に高速フーリエ変換処理されて得られた各周波数スペクトル(各フーリエ係数)YfL(u,f),YfR(u,f)は、帯域分割部21L,21Rに供給される。この帯域分割部21L,21Rでは、フレーム毎に、各周波数スペクトルYfL(u,f),YfR(u,f)が、所定数Nb、例えば25の周波数帯域に分割される(表1参照)。
帯域分割部21L,21Rで帯域分割されて得られた各帯域の周波数スペクトルは、フレーム毎に、帯域パワー算出部22L,22Rに供給される。この帯域パワー算出部22L,22Rでは、フレーム毎に、各帯域の帯域パワーBL(u,b),BR(u,b)が算出される。例えば、帯域b内の各周波数スペクトルに対応したパワースペクトルがそれぞれ算出され、その最大値あるいは平均値が帯域パワーBL(u,b),BR(u,b)とされる。
また、フレーム化部12L,12Rで得られたフレーム化信号yfL(u,n),yfR(u,n)は、有声音検出部23L,23Rに供給される。この有声音検出部23L,23Rでは、フレーム化信号yfL(u,n),yfR(u,n)に基づいて、フレーム毎に、有声音が含まれているか否かを示す有声音フラグFvL(u),FvR(u)が得られる。有声音検出部23L,23Rでは、フレーム全体の雑音・非雑音の判定が行われ、非雑音と判定されるときはFvL(u),FvR(u)=1とされ、雑音と判定されるときはFvL(u),FvR(u)=0とされる。ここで、有声音検出部23L,23Rにおける雑音・非雑音の判定は、フレーム化信号yfL(u,n),yfR(u,n)に基づいてゼロクロス幅が検出され、このゼロクロス幅のヒストグラムが計算されることで行われる。
また、有声音検出部23L,23Rで得られた有声音フラグFvL(u),FvR(u)は、有声帯域判定部35L,35Rに供給される。この有声帯域判定部35L,35Rでは、フレーム毎に、有声音フラグFvL(u),FvR(u)と、高速フーリエ変換部14L,14Rで得られた各周波数スペクトル(各フーリエ係数)が用いられ、各帯域の有声帯域フラグPvL(u,b),PvR(u,b)が設定される。この場合、第uフレームの入力フーリエ係数YfL(u,k),YfR(u,k)の振幅が調べられ、帯域毎に、帯域内に音声に由来するスペクトルのピークが存在するか否かが確認されて、有声帯域フラグPvL(u,b),PvR(u,b)が設定される。
また、有声帯域判定部35L,35Rで得られた有声帯域フラグPvL(u,b),PvR(u,b)は、非定常雑音判定部36L,36Rに供給される。この非定常雑音判定部36L,36Rでは、フレーム毎に、有声帯域フラグPvL(u,b),PvR(u,b)高速フーリエ変換部14L,14Rで得られた各周波数スペクトル(各フーリエ係数)が用いられ、非定常雑音フラグFnsnL(u),FnsnR(u)が設定される。
この場合、有声帯域判定部35L,35RでPvL(u,b),PvR(u,b)=0とされた帯域の信号が非定常雑音の特性を持つか否かが判定される。この場合、まず、現在フレームの帯域パワーBL(u,b),BR(u,b)に関して、対象とするノイズに対応したノイズテンプレートBN(r,b)が探索されて、最も近いノイズテンプレートBNL(rmin,b),BNR(rmin,b)が求められる。
その後、当該フレームに非定常雑音が存在するかが判定される。この場合、現在フレームの前後±Sフレームについて、上述で求めたテンプレートBNL(rmin,b),BNR(rmin,b)と帯域パワーB(u+s,b)の相関l(u+s)とゲイン係数gN(u+s)が求められる。そして、相関l(u+s)がlMAXを越えていないか、ゲイン係数gN(u+s)の分散が閾値GNTを越えているか、の条件に基づいて判定され、非定常雑音フラグFnsnL(u),FnsnR(u)が得られる。
有声音検出部23L,23Rで得られたフレーム毎の有声音フラグFvL(k),FvR(k)は、雑音・非雑音判定部27Sに供給される。また、有声音検出部23L,23Rで得られた有声音フラグFvL(u),FvR(u)は、雑音・非雑音判定部27Sに供給される。また、有声帯域判定部35L,35Rで得られた有声帯域フラグPvL(u,b),PvR(u,b)は、雑音・非雑音判定部27Sに供給される。さらに、また、帯域パワー算出部22L,22Rで算出されたフレーム毎の各帯域の帯域パワーBL(u,b),BR(u,b)は、雑音・非雑音判定部27Sに供給される。この雑音・非雑音判定部27Sでは、フレーム毎に、各フラグと、各帯域の帯域パワーBL(u,b),BR(u,b)を用いて、左右チャネル共通の各帯域の雑音帯域フラグFnz(u,b)が、設定される(図15参照)。
この場合、FvL(u)=1、かつFvR(u)=1であって、左右チャネルの双方でフレーム全体として非雑音と判定されているときは、全ての帯域が雑音でないと判定され、全ての帯域でFnz(u,b)=0とされる。
また、FvL(u)=1、かつFvR(u)=1ではなく、左右チャネルの双方でフレーム全体として非雑音と判定されていないときは、帯域毎に、帯域パワーの定常性検出により雑音か非雑音かの判定が行われる。左右チャネルの双方で帯域パワーに定常性があって、その帯域が雑音候補と判定されるとき、その帯域の雑音候補フレーム連続カウンタCn(b)がカウントアップされる。そして、そのカウント値がしきい値Tcを超えるとき、その帯域は雑音であると判定され、Fnz(u,b)=1とされる。
一方、左右チャネルの双方、あるいはいずれかで帯域パワーに定常性がなく、その帯域が非雑音と判定されるとき、Fnz(u,b)=0とされる。また、左右チャネルの双方で帯域パワーに定常性があって、その帯域が雑音候補と判定されても、雑音候補フレーム連続カウンタCn(b)のカウント値がしきい値Tc以下のとき、その帯域は非雑音であると判定され、Fnz(u,b)=0とされる。
また、FnsnL(u)=1、かつFnsnR(u)=1でなく、PvL(u,b)=1、かつPvR(u,b)=1であるときは、その帯域は雑音でないと判定され、Fnz(u,b)=0とされる。また、FnsnL(u)=1、かつFnsnR(u)=1でなく、また、PvL(u,b)=1、かつPvR(u,b)=1でないときは、その帯域は雑音(非定常雑音)であると判定され、Fnz(u,b)=2とされる。
雑音・非雑音判定部27Sでフレーム毎に設定された左右チャネル共通の各帯域の雑音帯域フラグFnz(u,b)は、α算出部30Sに供給される。このα算出部30Sでは、フレーム毎に、各帯域の事前SNR「ξL(u,b),ξR(u,b)」の算出のための、左右チャネル共通の重み係数α(u,b)が算出される((14)式参照)。この場合、雑音と判定される帯域b(Fnz(u,b)=1,2)にあっては、重み係数α(k,b)は最大値αMAX(b)に近づいていくように更新され、非雑音と判定される帯域b(Fnz(u,b)=0)にあっては、直ちに最小値αMIN(b)とされる。
雑音・非雑音判定部27Sでフレーム毎に設定された左右チャネル共通の各帯域の雑音帯域フラグFnz(u,b)は雑音帯域パワー推定部28L,28Rに供給される。また、帯域パワー算出部22L,22Rでフレーム毎に算出された各帯域の帯域パワーBL(u,b),BR(u,b)は、雑音帯域パワー推定部28L,28Rに供給される。この雑音帯域パワー推定部28L,28Rでは、フレーム毎に、各帯域の雑音帯域パワー推定値DL(u,b),DR(u,b)が推定される。
この雑音帯域パワー推定部28L,28Rでは、雑音帯域フラグFnz(u,b)に基づいて、Fnz(u,b)=1,2である帯域、つまり雑音の帯域についてのみ、雑音帯域パワー推定値D(u,b)の更新が行われる。例えば、帯域パワーB(u,b)が使用され、指数重みμnzが用いられて更新される((11)式参照)。この場合、定常雑音の場合と非定常雑音の場合とでは指数重みμnzの値は異なるものとされる。
すなわち、Fnz(u,b)=1で定常雑音の場合、μnz=μnz1とされる。このμnz1は、例えば、0.9から1.0程度の値で、雑音帯域パワー推定値D(k,b)が実際の雑音の変化に追従し、なおかつ、聴感上違和感が無い程度に、設定される。また、Fnz(u,b)=2で非定常雑音の場合、μnz=μnz2とされる。このμnz2は、μnz1よりも小さく、例えば、0.7から0.8程度の値で、比較的小さい値に設定される。これにより、非定常雑音における雑音変化への追従速度が定常雑音における雑音変化への追従速度より上げられることから、雑音の低減が十分にできなかったり、音声に副作用を及ぼしたりする、という不都合を回避可能となる。
雑音帯域パワー推定部28L,28Rでフレーム毎に推定された各帯域の雑音帯域パワー推定値DL(u,b),DR(u,b)は、事後SNR算出部29L,29Rに供給される。また、帯域パワー算出部22L,22Rでフレーム毎に算出された各帯域の帯域パワーBL(u,b),BR(u,b)は、事後SNR算出部29L,29Rに供給される。事後SNR算出部29L,29Rでは、フレーム毎に、各帯域の事後SNR「γL(u,b),γR(u,b)」が算出される((12)式参照)。この場合、帯域パワーBL(u,b),BR(u,b)と、雑音帯域パワーの推定値DL(u,b),DR(u,b)が用いられる。
事後SNR算出部29L,29Rでフレーム毎に算出された各帯域の事後SNR「γL(u,b),γR(u,b)」は、事前SNR算出部31L,31Rに供給される。また、α算出部30Sでフレーム毎に算出された左右チャネル共通の各帯域の重み係数α(u,b)は、事前SNR算出部31L,31Rに供給される。さらに、雑音抑圧ゲイン修正部23L,23Rで修正された直前フレームの各帯域の雑音抑圧ゲインG′L(u,b),G′R(u,b)は、事前SNR算出部31L,31Rに供給される。
事前SNR算出部31L,31Rでは、各帯域の事前SNR「ξL(u, b),ξR(u, b)」が算出される((15)式参照)。事前SNR算出部31Lでは、フレーム毎に、各帯域の事前SNR「ξL(u, b)」が算出される。この場合、直前フレームおよび現在フレームの事後SNR「γL(u-1,b),γL(u,b)」と、直前フレームの雑音抑圧ゲインG′L(u-1,b)と、重み係数α(u,b)が用いられる。また、事前SNR算出部31Rでは、各帯域の事前SNR「ξR(u,b)」が算出される。この場合、フレーム毎に、直前フレームおよび現在フレームの事後SNR「γR(u-1,b),γR(u,b)」と、直前フレームの雑音抑圧ゲインG′R(u-1,b)と、重み係数α(u,b)が用いられる。
上述したように、左右チャネル共通の各帯域の重み係数α(u,b)は、雑音と判定される帯域bにあっては、最大値αMAX(b)に近づいていくように更新され、非雑音と判定される帯域bにあっては、直ちに最小値αMIN(b)とされる。そのため、音声など一般的に変化の激しい非雑音に対しては追従が早く、一方、定常性を仮定している雑音に対してはゆっくり追従するよう、事前SNR「ξL(u,b),ξR(u,b)」が計算される。
事後SNR算出部29L,29Rでフレーム毎に算出された各帯域の事後SNR「γL(u,b),γR(u,b)」は、雑音抑圧ゲイン算出部32L,32Rに供給される。また、事前SNR算出部31L,31Rでフレーム毎に算出された各帯域の事前SNR「ξL(u,b),ξR(u,b)」は、雑音抑圧ゲイン算出部32L,32Rに供給される。雑音抑圧ゲイン算出部32L,32Rでは、フレーム毎に、事後SNR「γL(u,b),γR(u,b)」と事前SNR「ξL(u,b),ξR(u,b)」とから、各帯域の雑音抑圧ゲインGL(u,b),GR(u,b)が算出される((16)式参照)。
雑音抑圧ゲイン算出部32L,32Rでフレーム毎に算出された各帯域の雑音抑圧ゲインGL(u,b),GR(u,b)は、雑音抑圧ゲイン修正部33L,33Rに供給される。この雑音抑圧ゲイン修正部33L,33Rでは、フレーム毎に、修正された雑音抑圧ゲインG′L(u,b),G′R(u,b)が算出される。この場合、各帯域の雑音抑圧ゲインGL(u,b),GR(u,b)に対して、帯域毎に予め設定してある雑音抑圧ゲインの下限値GMIN(b)に基づいてリミッタがかけられる。
雑音抑圧ゲイン修正部33L,33Rでフレーム毎に修正された各帯域の雑音抑圧ゲインG′L(u,b),G′R(u,b)は、フィルタ構成部34L,34Rに供給される。このフィルタ構成部34L,34Rでは、フレーム毎に、各帯域の雑音抑圧ゲインG′L(u,b),G′R(u,b)から、各フーリエ係数に対応した雑音抑圧ゲインGfL(u,f),GfR(u,f)が算出される。このようにフィルタ構成部34L,34Rでフレーム毎に算出された各フーリエ係数に対応した雑音抑圧ゲインは、雑音抑圧ゲイン生成部15Sの出力としてフーリエ係数修正部16L,16Rに供給される。
上述したように、図13に示す雑音抑圧装置10Sはステレオ信号に適用した場合の構成例であるが、雑音抑圧ゲイン生成部15Sは、基本的に、図4に示す雑音抑圧装置10の雑音抑圧ゲイン生成部15と同様に構成されている。したがって、図13に示す雑音抑圧装置10Sにおいても、図4に示す雑音抑圧装置10と同様の効果を得ることができる。
また、図13に示す雑音抑圧装置10Sにおいて、雑音抑圧ゲイン生成部15Sの雑音・非雑音判定部27Sでは、フレーム毎に、左右チャネル共通の各帯域の雑音帯域フラグFnz(u,b)が、設定される。この場合、有声音フラグFvL(u),FvR(u)と、各帯域の帯域パワーBL(u,b),BR(u,b)を用いられる。そして、雑音帯域パワー推定部28L,28Rでは、フレーム毎に、雑音・非雑音判定部27Sで設定された左右チャネル共通の各帯域の雑音帯域フラグFnz(u,b)が使用されて、各帯域の雑音帯域パワー推定値DL(u,b),DR(u,b)が推定される。
このように、左右チャネルの雑音・非雑音の判定を共通にし、雑音帯域パワー推定部28L,28Rで共通の判定結果が用いられる。したがって、図13に示す雑音抑圧装置10Sにおいて、雑音抑圧ゲイン生成部15Sでは、左右チャネルの雑音帯域パワー推定値DL(u,b),DR(u,b)の推定誤差により雑音抑圧ゲインGL(u,b),GR(u,b)に意図しない振幅差が発生することを抑制できる。そして、これにより、左右チャネルの不整合による定位の破壊を回避できる。
なお、図13に示す雑音抑圧装置10Sは、ステレオ信号の雑音抑圧に適用した場合の構成例である。詳細説明は省略するが、3チャネル以上の多チャンネル信号の雑音抑圧に適用する雑音抑圧装置も、各チャネルの雑音・非雑音の判定を共通にして、同様に構成できることは勿論である。
<3.変形例>
なお、上述実施の形態における雑音抑圧装置10,10Sは、ハードウェアで構成できる他、同様の処理をソフトウェアで行うこともできる。図16は、ソフトウェアで処理を行うコンピュータ装置50の構成例を示している。このコンピュータ装置50は、CPU181、ROM182、RAM183およびデータ入出力部(データI/O)184により構成されている。
ROM182には、CPU181の処理プログラム、その他の必要なデータが格納されている。RAM183は、CPU181のワークエリアとして機能する。CPU181は、ROM182に格納されている処理プログラムを必要に応じて読み出し、読み出した処理プログラムをRAM183に転送して展開し、当該展開された処理プログラムを読み出して、雑音抑圧処理を実行する。
このコンピュータ装置50においては、入力信号(モノラル信号、ステレオ信号)は、データI/O184を介して入力され、RAM183に蓄積される。このRAM183に蓄積された入力信号に対して、CPU181により、上述実施の形態と同様の雑音抑圧処理が行われる。そして、処理結果としての雑音が抑圧された出力信号は、データI/O184を介して外部に出力される。
また、本技術は、以下のような構成を取ることもできる。
(1)入力信号を所定フレーム長のフレームに分割してフレーム化するフレーム化部と、
上記フレーム化部で得られたフレーム化信号を複数の帯域に分割して帯域分割信号を得る帯域分割部と、
上記帯域分割部で得られた各帯域分割信号から帯域パワーを得る帯域パワー算出部と、
上記フレーム化信号の特性に基づいて、各帯域が定常雑音および非定常雑音のいずれであるか否かを判定する雑音判定部と、
上記帯域パワー算出部で得られた各帯域分割信号の帯域パワーと上記雑音判定部の判定結果から、各帯域の雑音の帯域パワーを推定する雑音帯域パワー推定部と、
上記帯域パワー算出部で得られた各帯域分割信号の帯域パワーと上記雑音帯域パワー推定部で推定された各帯域の雑音の帯域パワーに基づいて、各帯域の雑音抑圧ゲインを決定する雑音抑圧ゲイン決定部と、
上記帯域分割部で得られた各帯域分割信号に、上記雑音抑圧ゲイン決定部で決定された各帯域の雑音抑圧ゲインを適用して雑音が抑圧された帯域分割信号を得る雑音抑圧部と、
上記雑音抑圧部で得られた各帯域分割信号を帯域合成して雑音抑圧されたフレーム化信号を得る帯域合成部と、
上記帯域合成部で得られた各フレームのフレーム化信号をフレーム合成して雑音を抑圧した出力信号を得るフレーム合成部とを備え、
上記雑音帯域パワー推定部は、
上記非定常雑音における雑音変化への追従速度を上記定常雑音における雑音変化への追従速度より上げる
雑音抑圧装置。
(2)上記雑音帯域パワー推定部は、帯域毎に、上記帯域パワー算出部で得られた現在フレームの帯域パワーと1フレーム前に推定された雑音の帯域パワーとを加重加算することにより、現在フレームの推定された雑音のパワーを得、
上記非定常雑音における上記現在フレームの帯域パワーの重みは、上記定常雑音における上記現在フレームの帯域パワーの重みより大きくされる
前記(1)に記載の雑音抑圧装置。
(3)上記雑音判定部は、
所定の帯域が雑音であるか否かの判定に、音声に由来するスペクトルのピークが当該帯域内に存在しないことを条件として用いる
前記(1)または(2)に記載の雑音抑圧装置。
(4)上記雑音抑圧ゲイン決定部は、
帯域毎に、上記帯域パワー算出部で得られた各帯域分割信号の帯域パワーと上記雑音帯域パワー推定部で推定された各帯域の雑音の帯域パワーとからSNRを算出するSNR算出部と、
帯域毎に、上記SNR算出部で算出されたSNRを平滑化するSNR平滑化部とを有し、
上記SNR平滑部で平滑化された各帯域のSNRに基づいて、各帯域の雑音抑圧ゲインを決定し、
上記SNR平滑化部は、
平滑化の係数を、上記雑音判定部の判定結果および周波数帯域に基づいて変更する
前記(1)から(3)いずれかに記載の雑音抑圧装置。
(5)上記雑音抑圧ゲイン決定部は、
上記SNR平滑化部で平滑化された各帯域のSNRと共に、上記SNR算出部で算出されたSNRに基づいて、各帯域の雑音抑圧ゲインを決定する
前記(4)に記載の雑音抑圧装置。
(6)上記雑音抑圧ゲイン決定部は、
帯域毎に、現在のフレームの信号の帯域パワーと上記推定された雑音の帯域パワーの比を第1のSNRとし、直前フレームの信号の帯域のパワーと雑音抑圧ゲインを乗算した量と直前フレームの推定された雑音の帯域パワーの比を第2のSNRとし、上記第1のSNRと上記第2のSNRとを用いて雑音抑圧ゲインを決定する
前記(4)に記載の雑音抑圧装置。
(7)上記雑音抑圧ゲイン決定部で決定された雑音抑圧ゲインが予め設定された下限値より小さくなるとき、雑音抑圧ゲインの値を該下限値に修正する雑音抑圧ゲイン修正部をさらに備え、
上記雑音抑圧部は、上記雑音抑圧ゲイン修正部で修正された雑音抑圧ゲインを用いる
前記(4)から(6)のいずれかに記載の雑音抑圧装置。
(8)複数チャネルのそれぞれ所定フレーム長のフレームに分割してフレーム化する複数のフレーム化部と、
上記複数のフレーム化部で得られたフレーム化信号をそれぞれ複数の帯域に分割して帯域分割信号を得る複数の帯域分割部と、
上記複数の帯域分割部で得られた各帯域分割信号からそれぞれ帯域パワーを得る複数の帯域パワー算出部と、
上記複数チャネルのフレーム化信号の特性に基づいて、各帯域が定常雑音および非定常雑音のいずれであるか否かを判定する雑音判定部と、
上記複数の帯域パワー算出部で得られた各帯域分割信号の帯域パワーと上記雑音判定部の判定結果からそれぞれ各帯域の雑音の帯域パワーを推定する複数の雑音帯域パワー推定部と、
上記複数の帯域パワー算出部で得られた各帯域分割信号の帯域パワーと上記複数の雑音帯域パワー推定部で推定された各帯域の雑音の帯域パワーに基づいてそれぞれ各帯域の雑音抑圧ゲインを決定する複数の雑音抑圧ゲイン決定部と、
上記複数の帯域分割部で得られた各帯域分割信号に、上記複数の雑音抑圧ゲイン決定部で決定された各帯域の雑音抑圧ゲインを適用してそれぞれ雑音が抑圧された帯域分割信号を得る複数の雑音抑圧部と、
上記複数の雑音抑圧部で得られた各帯域分割信号を帯域合成してそれぞれ雑音抑圧されたフレーム化信号を得る複数の帯域合成部と、
上記複数の帯域合成部で得られた各フレームのフレーム化信号をフレーム合成してそれぞれ雑音を抑圧した出力信号を得るフレーム合成部とを備え、
上記雑音帯域パワー推定部は、
上記非定常雑音における雑音変化への追従速度を上記定常雑音における雑音変化への追従速度より上げる
雑音抑圧装置。
(9)上記雑音判定部は、各帯域を順次判定帯域とし、該判定帯域について各チャネルで定常雑音および非定常雑音のいずれであるか否かを判定し、全てのチャネルで定常雑音と判定するとき該判定帯域は定常雑音であると判定し、全てのチャネルで非定常雑音と判定するとき該判定帯域は非定常雑音であると判定する
前記(8)に記載の雑音抑圧装置。
(10)入力信号を所定フレーム長のフレームに分割してフレーム化するフレーム化ステップと、
上記フレーム化ステップで得られたフレーム化信号を複数の帯域に分割して帯域分割信号を得る帯域分割ステップと、
上記帯域分割ステップで得られた各帯域分割信号から帯域パワーを得る帯域パワー算出ステップと、
上記フレーム化信号の特性に基づいて、各帯域が定常雑音および非定常雑音のいずれであるか否かを判定する雑音判定ステップと、
上記帯域パワー算出ステップで得られた各帯域分割信号の帯域パワーと上記雑音判定ステップの判定結果から、各帯域の雑音の帯域パワーを推定する雑音帯域パワー推定ステップと、
上記帯域パワー算出ステップで得られた各帯域分割信号の帯域パワーと上記雑音帯域パワー推定ステップで推定された各帯域の雑音の帯域パワーに基づいて、各帯域の雑音抑圧ゲインを決定する雑音抑圧ゲイン決定ステップと、
上記帯域分割ステップで得られた各帯域分割信号に、上記雑音抑圧ゲイン決定ステップで決定された各帯域の雑音抑圧ゲインを適用して雑音が抑圧された帯域分割信号を得る雑音抑圧ステップと、
上記雑音抑圧ステップで得られた各帯域分割信号を帯域合成して雑音抑圧されたフレーム化信号を得る帯域合成ステップと、
上記帯域合成ステップで得られた各フレームのフレーム化信号をフレーム合成して雑音を抑圧した出力信号を得るフレーム合成ステップとを備え、
上記雑音帯域パワー推定ステップでは、
上記非定常雑音における雑音変化への追従速度を上記定常雑音における雑音変化への追従速度より上げる
雑音抑圧方法。
(11)コンピュータを、
入力信号を所定フレーム長のフレームに分割してフレーム化するフレーム化手段と、
上記フレーム化手段で得られたフレーム化信号を複数の帯域に分割して帯域分割信号を得る帯域分割手段と、
上記帯域分割手段で得られた各帯域分割信号から帯域パワーを得る帯域パワー算出手段と、
上記フレーム化信号の特性に基づいて、帯域毎に定常雑音および非定常雑音のいずれであるか否かを判定する雑音判手段と、
上記帯域パワー算出手段で得られた各帯域分割信号の帯域パワーと上記雑音判定手段の判定結果から、各帯域の雑音の帯域パワーを推定する雑音帯域パワー推定手段と、
上記帯域パワー算出手段で得られた各帯域分割信号の帯域パワーと上記雑音帯域パワー推定手段で推定された各帯域の雑音の帯域パワーに基づいて、各帯域の雑音抑圧ゲインを決定する雑音抑圧ゲイン決定手段と、
上記帯域分割手段で得られた各帯域分割信号に、上記雑音抑圧ゲイン決定手段で決定された各帯域の雑音抑圧ゲインを適用して雑音が抑圧された帯域分割信号を得る雑音抑圧手段と、
上記雑音抑圧手段で得られた各帯域分割信号を帯域合成して雑音抑圧されたフレーム化信号を得る帯域合成手段と、
上記帯域合成手段で得られた各フレームのフレーム化信号をフレーム合成して雑音を抑圧した出力信号を得るフレーム合成手段として機能させ、
上記雑音帯域パワー推定手段は、
上記非定常雑音における雑音変化への追従速度を上記定常雑音における雑音変化への追従速度より上げる
プログラム。
10,10S・・・雑音抑圧装置
11,11L,11R・・・信号入力端子
12,12L,12R・・・フレーム化部
13,13L,13R・・・窓がけ部
14,14L,14R・・・高速フーリエ変換部
15,15S・・・雑音抑圧ゲイン生成部
16,16L,16R・・・フーリエ係数修正部
17,17L,17R・・・逆高速フーリエ変換部
18,18L,18R・・・窓がけ部
19,19L,19R・・・オーバーラップ加算部
20,20L,20R・・・信号出力端子
21,21L,21R・・・帯域分割部
22,22L,22R・・・帯域パワー算出部
23,23L,23R・・・有声音検出部
24・・・ゼロクロス幅計算部
25・・・ヒストグラム計算部
26・・・有声音フラグ算出部
27,27S・・・雑音・非雑音判定部
28,28L,28R・・・雑音帯域パワー推定部
29,29L,29R・・・事後SNR算出部
30,30S・・・α算出部
31,31L,31R・・・事前SNR算出部
32,32L,32R・・・雑音抑圧ゲイン算出部
33,33L,33R・・・雑音抑圧ゲイン修正部
34,34L,34R・・・フィルタ構成部
35,35L,35R・・・有声帯域判定部
36,36L,36R・・・非定常雑音判定部
50・・・コンピュータ装置
100L・・・左チャネル処理系
100R・・・右チャネル処理系

Claims (11)

  1. 入力信号を所定フレーム長のフレームに分割してフレーム化するフレーム化部と、
    上記フレーム化部で得られたフレーム化信号を複数の帯域に分割して帯域分割信号を得る帯域分割部と、
    上記帯域分割部で得られた各帯域分割信号から帯域パワーを得る帯域パワー算出部と、
    上記フレーム化信号の特性に基づいて、各帯域が定常雑音および非定常雑音のいずれであるか否かを判定する雑音判定部と、
    上記帯域パワー算出部で得られた各帯域分割信号の帯域パワーと上記雑音判定部の判定結果から、各帯域の雑音の帯域パワーを推定する雑音帯域パワー推定部と、
    上記帯域パワー算出部で得られた各帯域分割信号の帯域パワーと上記雑音帯域パワー推定部で推定された各帯域の雑音の帯域パワーに基づいて、各帯域の雑音抑圧ゲインを決定する雑音抑圧ゲイン決定部と、
    上記帯域分割部で得られた各帯域分割信号に、上記雑音抑圧ゲイン決定部で決定された各帯域の雑音抑圧ゲインを適用して雑音が抑圧された帯域分割信号を得る雑音抑圧部と、
    上記雑音抑圧部で得られた各帯域分割信号を帯域合成して雑音抑圧されたフレーム化信号を得る帯域合成部と、
    上記帯域合成部で得られた各フレームのフレーム化信号をフレーム合成して雑音を抑圧した出力信号を得るフレーム合成部とを備え、
    上記雑音帯域パワー推定部は、
    上記非定常雑音における雑音変化への追従速度を上記定常雑音における雑音変化への追従速度より上げる
    雑音抑圧装置。
  2. 上記雑音帯域パワー推定部は、帯域毎に、上記帯域パワー算出部で得られた現在フレームの帯域パワーと1フレーム前に推定された雑音の帯域パワーとを加重加算することにより、現在フレームの推定された雑音のパワーを得、
    上記非定常雑音における上記現在フレームの帯域パワーの重みは、上記定常雑音における上記現在フレームの帯域パワーの重みより大きくされる
    請求項1に記載の雑音抑圧装置。
  3. 上記雑音判定部は、
    所定の帯域が雑音であるか否かの判定に、音声に由来するスペクトルのピークが当該帯域内に存在しないことを条件として用いる
    請求項1に記載の雑音抑圧装置。
  4. 上記雑音抑圧ゲイン決定部は、
    帯域毎に、上記帯域パワー算出部で得られた各帯域分割信号の帯域パワーと上記雑音帯域パワー推定部で推定された各帯域の雑音の帯域パワーとからSNRを算出するSNR算出部と、
    帯域毎に、上記SNR算出部で算出されたSNRを平滑化するSNR平滑化部とを有し、
    上記SNR平滑部で平滑化された各帯域のSNRに基づいて、各帯域の雑音抑圧ゲインを決定し、
    上記SNR平滑化部は、
    平滑化の係数を、上記雑音判定部の判定結果および周波数帯域に基づいて変更する
    請求項1に記載の雑音抑圧装置。
  5. 上記雑音抑圧ゲイン決定部は、
    上記SNR平滑化部で平滑化された各帯域のSNRと共に、上記SNR算出部で算出されたSNRに基づいて、各帯域の雑音抑圧ゲインを決定する
    請求項4に記載の雑音抑圧装置。
  6. 上記雑音抑圧ゲイン決定部は、
    帯域毎に、現在のフレームの信号の帯域パワーと上記推定された雑音の帯域パワーの比を第1のSNRとし、直前フレームの信号の帯域のパワーと雑音抑圧ゲインを乗算した量と直前フレームの推定された雑音の帯域パワーの比を第2のSNRとし、上記第1のSNRと上記第2のSNRとを用いて雑音抑圧ゲインを決定する
    請求項4に記載の雑音抑圧装置。
  7. 上記雑音抑圧ゲイン決定部で決定された雑音抑圧ゲインが予め設定された下限値より小さくなるとき、雑音抑圧ゲインの値を該下限値に修正する雑音抑圧ゲイン修正部をさらに備え、
    上記雑音抑圧部は、上記雑音抑圧ゲイン修正部で修正された雑音抑圧ゲインを用いる
    請求項4に記載の雑音抑圧装置。
  8. 複数チャネルのそれぞれ所定フレーム長のフレームに分割してフレーム化する複数のフレーム化部と、
    上記複数のフレーム化部で得られたフレーム化信号をそれぞれ複数の帯域に分割して帯域分割信号を得る複数の帯域分割部と、
    上記複数の帯域分割部で得られた各帯域分割信号からそれぞれ帯域パワーを得る複数の帯域パワー算出部と、
    上記複数チャネルのフレーム化信号の特性に基づいて、各帯域が定常雑音および非定常雑音のいずれであるか否かを判定する雑音判定部と、
    上記複数の帯域パワー算出部で得られた各帯域分割信号の帯域パワーと上記雑音判定部の判定結果からそれぞれ各帯域の雑音の帯域パワーを推定する複数の雑音帯域パワー推定部と、
    上記複数の帯域パワー算出部で得られた各帯域分割信号の帯域パワーと上記複数の雑音帯域パワー推定部で推定された各帯域の雑音の帯域パワーに基づいてそれぞれ各帯域の雑音抑圧ゲインを決定する複数の雑音抑圧ゲイン決定部と、
    上記複数の帯域分割部で得られた各帯域分割信号に、上記複数の雑音抑圧ゲイン決定部で決定された各帯域の雑音抑圧ゲインを適用してそれぞれ雑音が抑圧された帯域分割信号を得る複数の雑音抑圧部と、
    上記複数の雑音抑圧部で得られた各帯域分割信号を帯域合成してそれぞれ雑音抑圧されたフレーム化信号を得る複数の帯域合成部と、
    上記複数の帯域合成部で得られた各フレームのフレーム化信号をフレーム合成してそれぞれ雑音を抑圧した出力信号を得るフレーム合成部とを備え、
    上記雑音帯域パワー推定部は、
    上記非定常雑音における雑音変化への追従速度を上記定常雑音における雑音変化への追従速度より上げる
    雑音抑圧装置。
  9. 上記雑音判定部は、各帯域を順次判定帯域とし、該判定帯域について各チャネルで定常雑音および非定常雑音のいずれであるか否かを判定し、全てのチャネルで定常雑音と判定するとき該判定帯域は定常雑音であると判定し、全てのチャネルで非定常雑音と判定するとき該判定帯域は非定常雑音であると判定する
    請求項8に記載の雑音抑圧装置。
  10. 入力信号を所定フレーム長のフレームに分割してフレーム化するフレーム化ステップと、
    上記フレーム化ステップで得られたフレーム化信号を複数の帯域に分割して帯域分割信号を得る帯域分割ステップと、
    上記帯域分割ステップで得られた各帯域分割信号から帯域パワーを得る帯域パワー算出ステップと、
    上記フレーム化信号の特性に基づいて、各帯域が定常雑音および非定常雑音のいずれであるか否かを判定する雑音判定ステップと、
    上記帯域パワー算出ステップで得られた各帯域分割信号の帯域パワーと上記雑音判定ステップの判定結果から、各帯域の雑音の帯域パワーを推定する雑音帯域パワー推定ステップと、
    上記帯域パワー算出ステップで得られた各帯域分割信号の帯域パワーと上記雑音帯域パワー推定ステップで推定された各帯域の雑音の帯域パワーに基づいて、各帯域の雑音抑圧ゲインを決定する雑音抑圧ゲイン決定ステップと、
    上記帯域分割ステップで得られた各帯域分割信号に、上記雑音抑圧ゲイン決定ステップで決定された各帯域の雑音抑圧ゲインを適用して雑音が抑圧された帯域分割信号を得る雑音抑圧ステップと、
    上記雑音抑圧ステップで得られた各帯域分割信号を帯域合成して雑音抑圧されたフレーム化信号を得る帯域合成ステップと、
    上記帯域合成ステップで得られた各フレームのフレーム化信号をフレーム合成して雑音を抑圧した出力信号を得るフレーム合成ステップとを備え、
    上記雑音帯域パワー推定ステップでは、
    上記非定常雑音における雑音変化への追従速度を上記定常雑音における雑音変化への追従速度より上げる
    雑音抑圧方法。
  11. コンピュータを、
    入力信号を所定フレーム長のフレームに分割してフレーム化するフレーム化手段と、
    上記フレーム化手段で得られたフレーム化信号を複数の帯域に分割して帯域分割信号を得る帯域分割手段と、
    上記帯域分割手段で得られた各帯域分割信号から帯域パワーを得る帯域パワー算出手段と、
    上記フレーム化信号の特性に基づいて、帯域毎に定常雑音および非定常雑音のいずれであるか否かを判定する雑音判手段と、
    上記帯域パワー算出手段で得られた各帯域分割信号の帯域パワーと上記雑音判定手段の判定結果から、各帯域の雑音の帯域パワーを推定する雑音帯域パワー推定手段と、
    上記帯域パワー算出手段で得られた各帯域分割信号の帯域パワーと上記雑音帯域パワー推定手段で推定された各帯域の雑音の帯域パワーに基づいて、各帯域の雑音抑圧ゲインを決定する雑音抑圧ゲイン決定手段と、
    上記帯域分割手段で得られた各帯域分割信号に、上記雑音抑圧ゲイン決定手段で決定された各帯域の雑音抑圧ゲインを適用して雑音が抑圧された帯域分割信号を得る雑音抑圧手段と、
    上記雑音抑圧手段で得られた各帯域分割信号を帯域合成して雑音抑圧されたフレーム化信号を得る帯域合成手段と、
    上記帯域合成手段で得られた各フレームのフレーム化信号をフレーム合成して雑音を抑圧した出力信号を得るフレーム合成手段として機能させ、
    上記雑音帯域パワー推定手段は、
    上記非定常雑音における雑音変化への追従速度を上記定常雑音における雑音変化への追従速度より上げる
    プログラム。
JP2012009240A 2012-01-19 2012-01-19 雑音抑圧装置、雑音抑圧方法およびプログラム Pending JP2013148724A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2012009240A JP2013148724A (ja) 2012-01-19 2012-01-19 雑音抑圧装置、雑音抑圧方法およびプログラム
US13/719,696 US20130191118A1 (en) 2012-01-19 2012-12-19 Noise suppressing device, noise suppressing method, and program
CN201310009827.4A CN103220440A (zh) 2012-01-19 2013-01-11 噪声抑制装置、噪声抑制方法以及程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012009240A JP2013148724A (ja) 2012-01-19 2012-01-19 雑音抑圧装置、雑音抑圧方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2013148724A true JP2013148724A (ja) 2013-08-01

Family

ID=48797948

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012009240A Pending JP2013148724A (ja) 2012-01-19 2012-01-19 雑音抑圧装置、雑音抑圧方法およびプログラム

Country Status (3)

Country Link
US (1) US20130191118A1 (ja)
JP (1) JP2013148724A (ja)
CN (1) CN103220440A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015034898A (ja) * 2013-08-09 2015-02-19 キヤノン株式会社 音声処理装置及び撮像装置
JP2018072593A (ja) * 2016-10-31 2018-05-10 沖電気工業株式会社 雑音推定装置、プログラム及び方法
JP2018207315A (ja) * 2017-06-05 2018-12-27 キヤノン株式会社 音声処理装置及びその制御方法
JP2020134887A (ja) * 2019-02-25 2020-08-31 富士通株式会社 音信号処理プログラム、音信号処理方法及び音信号処理装置
WO2023228615A1 (ja) * 2022-05-25 2023-11-30 パナソニックIpマネジメント株式会社 音声特徴量算出方法、音声特徴量算出装置、及び、口腔機能評価装置

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6361156B2 (ja) * 2014-02-10 2018-07-25 沖電気工業株式会社 雑音推定装置、方法及びプログラム
JP6337519B2 (ja) 2014-03-03 2018-06-06 富士通株式会社 音声処理装置、雑音抑圧方法、およびプログラム
US9721580B2 (en) * 2014-03-31 2017-08-01 Google Inc. Situation dependent transient suppression
EP3155618B1 (en) 2014-06-13 2022-05-11 Oticon A/S Multi-band noise reduction system and methodology for digital audio signals
US10181329B2 (en) * 2014-09-05 2019-01-15 Intel IP Corporation Audio processing circuit and method for reducing noise in an audio signal
US9928978B1 (en) 2015-03-30 2018-03-27 Sean Butler Device monitoring prevention in power systems
US10242689B2 (en) 2015-09-17 2019-03-26 Intel IP Corporation Position-robust multiple microphone noise estimation techniques
DE102016104665A1 (de) * 2016-03-14 2017-09-14 Ask Industries Gmbh Verfahren und Vorrichtung zur Aufbereitung eines verlustbehaftet komprimierten Audiosignals
US10789967B2 (en) 2016-05-09 2020-09-29 Harman International Industries, Incorporated Noise detection and noise reduction
DK3252766T3 (da) 2016-05-30 2021-09-06 Oticon As Audiobehandlingsanordning og fremgangsmåde til estimering af signal-til-støj-forholdet for et lydsignal
US11483663B2 (en) 2016-05-30 2022-10-25 Oticon A/S Audio processing device and a method for estimating a signal-to-noise-ratio of a sound signal
US10861478B2 (en) 2016-05-30 2020-12-08 Oticon A/S Audio processing device and a method for estimating a signal-to-noise-ratio of a sound signal
US10433076B2 (en) 2016-05-30 2019-10-01 Oticon A/S Audio processing device and a method for estimating a signal-to-noise-ratio of a sound signal
AU2017286519B2 (en) * 2016-06-13 2020-05-07 Med-El Elektromedizinische Geraete Gmbh Recursive noise power estimation with noise model adaptation
US10418015B2 (en) * 2017-10-02 2019-09-17 GM Global Technology Operations LLC System for spectral shaping of vehicle noise cancellation
CN107819964B (zh) * 2017-11-10 2021-04-06 Oppo广东移动通信有限公司 提高通话质量的方法、装置、终端和计算机可读存储介质
CN108169533B (zh) * 2017-12-20 2020-08-11 郭伟 基于频谱分割变换的反馈式光纤电流互感器
CN109616135B (zh) * 2018-11-14 2021-08-03 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法、装置及存储介质
US11146607B1 (en) * 2019-05-31 2021-10-12 Dialpad, Inc. Smart noise cancellation
CN111142084B (zh) * 2019-12-11 2023-04-07 中国电子科技集团公司第四十一研究所 一种微动太赫兹谱识别检测算法
CN113516992A (zh) * 2020-08-21 2021-10-19 腾讯科技(深圳)有限公司 一种音频处理方法、装置、智能设备及存储介质
CN112863534B (zh) * 2020-12-31 2022-05-10 思必驰科技股份有限公司 噪声音频消除方法、语音识别方法
JP2022156943A (ja) * 2021-03-31 2022-10-14 富士通株式会社 雑音判定プログラム、雑音判定方法及び雑音判定装置

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL84948A0 (en) * 1987-12-25 1988-06-30 D S P Group Israel Ltd Noise reduction system
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
US6415253B1 (en) * 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
US6289309B1 (en) * 1998-12-16 2001-09-11 Sarnoff Corporation Noise spectrum tracking for speech enhancement
JP3454206B2 (ja) * 1999-11-10 2003-10-06 三菱電機株式会社 雑音抑圧装置及び雑音抑圧方法
FI116643B (fi) * 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
JP4282227B2 (ja) * 2000-12-28 2009-06-17 日本電気株式会社 ノイズ除去の方法及び装置
EP1376539B8 (en) * 2001-03-28 2010-12-15 Mitsubishi Denki Kabushiki Kaisha Noise suppressor
KR100400226B1 (ko) * 2001-10-15 2003-10-01 삼성전자주식회사 음성 부재 확률 계산 장치 및 방법과 이 장치 및 방법을이용한 잡음 제거 장치 및 방법
US7593851B2 (en) * 2003-03-21 2009-09-22 Intel Corporation Precision piecewise polynomial approximation for Ephraim-Malah filter
US7133825B2 (en) * 2003-11-28 2006-11-07 Skyworks Solutions, Inc. Computationally efficient background noise suppressor for speech coding and speech recognition
JP4520732B2 (ja) * 2003-12-03 2010-08-11 富士通株式会社 雑音低減装置、および低減方法
US7492889B2 (en) * 2004-04-23 2009-02-17 Acoustic Technologies, Inc. Noise suppression based on bark band wiener filtering and modified doblinger noise estimate
US7454332B2 (en) * 2004-06-15 2008-11-18 Microsoft Corporation Gain constrained noise suppression
EP1760696B1 (en) * 2005-09-03 2016-02-03 GN ReSound A/S Method and apparatus for improved estimation of non-stationary noise for speech enhancement
JP4863713B2 (ja) * 2005-12-29 2012-01-25 富士通株式会社 雑音抑制装置、雑音抑制方法、及びコンピュータプログラム
US7885810B1 (en) * 2007-05-10 2011-02-08 Mediatek Inc. Acoustic signal enhancement method and apparatus
CN101802909B (zh) * 2007-09-12 2013-07-10 杜比实验室特许公司 通过噪声水平估计调整进行的语音增强
US20100008520A1 (en) * 2008-07-09 2010-01-14 Yamaha Corporation Noise Suppression Estimation Device and Noise Suppression Device
US8571231B2 (en) * 2009-10-01 2013-10-29 Qualcomm Incorporated Suppressing noise in an audio signal
JP5528538B2 (ja) * 2010-03-09 2014-06-25 三菱電機株式会社 雑音抑圧装置
JP2012058358A (ja) * 2010-09-07 2012-03-22 Sony Corp 雑音抑圧装置、雑音抑圧方法およびプログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015034898A (ja) * 2013-08-09 2015-02-19 キヤノン株式会社 音声処理装置及び撮像装置
JP2018072593A (ja) * 2016-10-31 2018-05-10 沖電気工業株式会社 雑音推定装置、プログラム及び方法
JP2018207315A (ja) * 2017-06-05 2018-12-27 キヤノン株式会社 音声処理装置及びその制御方法
JP2020134887A (ja) * 2019-02-25 2020-08-31 富士通株式会社 音信号処理プログラム、音信号処理方法及び音信号処理装置
JP7156084B2 (ja) 2019-02-25 2022-10-19 富士通株式会社 音信号処理プログラム、音信号処理方法及び音信号処理装置
WO2023228615A1 (ja) * 2022-05-25 2023-11-30 パナソニックIpマネジメント株式会社 音声特徴量算出方法、音声特徴量算出装置、及び、口腔機能評価装置

Also Published As

Publication number Publication date
US20130191118A1 (en) 2013-07-25
CN103220440A (zh) 2013-07-24

Similar Documents

Publication Publication Date Title
JP2013148724A (ja) 雑音抑圧装置、雑音抑圧方法およびプログラム
JP2012058358A (ja) 雑音抑圧装置、雑音抑圧方法およびプログラム
JP3454206B2 (ja) 雑音抑圧装置及び雑音抑圧方法
US7454332B2 (en) Gain constrained noise suppression
EP2546831B1 (en) Noise suppression device
JP3591068B2 (ja) 音声信号の雑音低減方法
EP2362389B1 (en) Noise suppressor
US20120057722A1 (en) Noise removing apparatus and noise removing method
CN110739005A (zh) 一种面向瞬态噪声抑制的实时语音增强方法
CN101593522A (zh) 一种全频域数字助听方法和设备
KR20030040399A (ko) 음성 강화 시스템
WO2019205798A1 (zh) 语音增强的方法、装置及设备
WO2006123721A1 (ja) 雑音抑圧方法およびその装置
JP3588030B2 (ja) 音声区間判定装置及び音声区間判定方法
CN103544961B (zh) 语音信号处理方法及装置
JP2008065090A (ja) ノイズサプレス装置
JPWO2010046954A1 (ja) 雑音抑圧装置および音声復号化装置
CN111508514A (zh) 基于补偿相位谱的单通道语音增强算法
KR20110068637A (ko) 잡음 환경의 입력신호로부터 잡음을 제거하는 방법 및 그 장치
KR20100045933A (ko) 잡음 억압 장치 및 잡음 억압 방법
WO2019205796A1 (zh) 减少频域处理量的方法、装置及设备
JP2004341339A (ja) 雑音抑圧装置
KR101052432B1 (ko) 음성 품질 평가를 위한 발음 종속 조음 보상
JP2008116686A (ja) 雑音抑圧装置
JP2005258158A (ja) ノイズ除去装置