JP6361156B2 - 雑音推定装置、方法及びプログラム - Google Patents

雑音推定装置、方法及びプログラム Download PDF

Info

Publication number
JP6361156B2
JP6361156B2 JP2014023591A JP2014023591A JP6361156B2 JP 6361156 B2 JP6361156 B2 JP 6361156B2 JP 2014023591 A JP2014023591 A JP 2014023591A JP 2014023591 A JP2014023591 A JP 2014023591A JP 6361156 B2 JP6361156 B2 JP 6361156B2
Authority
JP
Japan
Prior art keywords
band
noise
power
posterior
snr
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014023591A
Other languages
English (en)
Other versions
JP2015152627A (ja
Inventor
大 藤枝
大 藤枝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2014023591A priority Critical patent/JP6361156B2/ja
Priority to US14/615,085 priority patent/US9548064B2/en
Publication of JP2015152627A publication Critical patent/JP2015152627A/ja
Application granted granted Critical
Publication of JP6361156B2 publication Critical patent/JP6361156B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Noise Elimination (AREA)

Description

本発明は、雑音推定装置、方法及びプログラムに関し、例えば、音声に重畳された雑音を周波数領域処理によって抑圧する雑音抑圧装置(音声強調装置ともいう)に適用し得るものである。
自然環境において雑音はいたる所に存在するため、一般に実世界で観測される音声は種々の発信元からの雑音を含む。雑音を含んで観測された入力音声から音声だけを強調させるために、様々な雑音抑圧方法が開発されている。これらのうちのほとんどは、抑圧すべき雑音を推定して、入力音声に含まれている雑音を抑圧する方法である。本発明は、雑音の推定に関するものであり、特に、周波数領域で雑音のパワーを推定しようとしたものである。
もっとも単純な従来の雑音推定方法は、音声が存在しない区間で入力スペクトルを平均する方法である。しかし、この方法は事前に音声が存在しない区間を推定しなければならない。そのため、音声が存在する区間を推定する「音声区間検出(Voice Activity Detection:VAD)」という技術も盛んに開発されているが、完全なVADは未だ達成されていない。音声区間の推定を誤ると、推定雑音が目的音声を含んでしまうため、強調音声や残留雑音を歪ませるという問題が生じる。また、この方法は雑音区間でしか雑音を推定しないため、長い音声区間があると雑音の変化に追従できないという欠点もある。
このような背景から、音声区間でも継続して雑音を推定する雑音推定方法が開発されている(非特許文献1、非特許文献2、特許文献1参照)。非特許文献1、非特許文献2及び特許文献1に記載の雑音抑圧方法を適用した雑音抑圧装置(以下、従来の雑音抑圧装置と呼ぶ)の機能的構成は、いずれも、図5に示す機能ブロック図で表すことができる。
従来の雑音抑圧装置100は、帯域分割手段101、K(Kは例えば256)個の帯域処理手段102〜102K−1及び信号復元手段103を有する。帯域処理手段102〜102K−1の添え字は帯域番号を表す。帯域分割手段101は、フィルタバンクに代表される任意の帯域分割手法又はフーリエ変換に代表される任意の周波数解析手法によって、入力音声(この明細書においては、適宜、各種信号や各種成分における「信号」や「成分」を省略して表現している)をK個の帯域に分割し、得られたK個の帯域入力音声は各帯域処理手段102〜102K−1にそれぞれ与えられる。なお、入力音声等のデジタル信号は、サンプル単位で処理される他、適宜、10ms等のフレーム単位でも処理される。
各帯域処理手段102〜102K−1はそれぞれ、担当する帯域が異なるが、同様な処理を行うものである。帯域処理手段102(102〜102K−1)は、図6に示すように、帯域雑音推定手段201及び雑音抑圧手段202を有する。帯域雑音推定手段202は、帯域ごとに雑音のパワーを推定し、得られた帯域雑音パワーを雑音抑圧手段202に与える。雑音抑圧手段202は、帯域入力音声と帯域雑音パワーを用いて、帯域入力音声中の音声成分を強調し、得られた帯域強調音声を図5の信号復元手段103に与える。信号復元手段103は、帯域分割手段101で用いた帯域分割手法又は周波数解析手法に対応する信号復元手法を用いて、帯域強調音声から時間波形を再構成し、得られた強調音声を出力する。
以下、帯域雑音推定手段201が実行する従来の雑音推定方法(非特許文献1、非特許文献2及び特許文献1に記載の雑音抑圧方法)を詳述する。以下では、簡単のために、帯域入力音声のパワーを入力パワーと呼び、帯域雑音パワーを雑音パワーと呼び、帯域番号を省略することとする。
非特許文献1に記載の雑音推定方法は、入力パワーの時間方向のピークが目的音声の存在を表す一方で、谷が平滑化した雑音パワーの推定に使えるという発見に基づいている。具体的には、現在から所定時間(T秒)過去までの入力パワーの最小値を、第1の雑音パワー推定値とする。しかし、第1の雑音パワー推定値はバイアスを有しており、真の雑音パワーよりも小さくなる性質を持つ。このバイアスは、第1の雑音パワー推定値の期待値から推定され、得られたバイアス推定値を用いて第1の雑音パワー推定値を補正して、第2の雑音パワー推定値(最終的な推定値)を得る。
非特許文献2に記載の雑音推定方法は、目的音声と雑音の複素スペクトルの分布がいずれも平均0の複素正規分布に従うという仮説に基づいて、雑音の複素スペクトルの分散の最尤推定値を雑音パワー推定値とする。この仮説に基づくと、入力音声の複素スペクトルの分布は、音声の複素スペクトルの分散と雑音の複素スペクトルの分散の和を分散とする平均0の複素正規分布となる。ここに現在の入力が劣化音声と雑音のどちらであるかに関する隠れ変数を導入して、忘却係数を伴ったオンラインEM(Expectation Maximization)アルゴリズムを適用することで、雑音の複素スペクトルの最尤推定値を算出することができる。
特許文献1に記載の雑音推定方法は、入力パワーに適切な重み係数を乗じて、得られた加重入力パワーを所定時間(T秒)分だけ記憶しておき、記憶された加重入力パワーの平均値を雑音パワー推定値とする。適切な重み係数は、現在の入力パワーを直前の雑音パワー推定値で除した事後SNR(SNRはSignal−to−Noise Ratio)によって算出される。具体的には、事後SNRが所定の値G1以下では重み係数を1とし、事後SNRがG1以上では事後SNRに反比例するように重み係数を設定し、事後SNRが所定の値G2以上では重み係数を0とする。また、重み係数が0の場合には、加重入力パワーは記憶しない。
特開2002−204175
R.Martin、"Spectral Subtraction Based on Minimum Statistics"、in Proceedings of 7th European Signal Processing Conference、1994、pp.1182−1185 M.Souden、M.Delcroix、K.Kinsoshita、T.Yoshioka、and T.Nakatani、"Noise Power Spectral Density Tracking:A Maximum Likelihood Perspective"、IEEE Signal Processing Letters、Vol.19、No.8、2012、pp.495−498
しかし、従来の雑音推定方法は、以下に述べるような課題を有している。
非特許文献1に記載の雑音推定方法は、雑音が急に大きくなった場合に、後段の雑音抑圧方法によって不快に感じる雑音が残留するという課題を有している。具体的には、雑音が大きくなってから所定時間の間は、雑音パワー推定値は小さいままである。そして、雑音が大きくなってから所定時間後に、雑音パワー推定値は急激に増大する。そのような雑音パワー推定値を用いて雑音抑圧方法を動作させると、雑音が大きくなった瞬間に残留雑音も急に大きくなり、その所定時間後に残留雑音が急に小さくなる。残留雑音の急激な音量の変化は、聴取者に聴感上の不快感を与える。
非特許文献2に記載の雑音推定方法は、雑音レベルが変化すると雑音パワー推定値が過大になったり過小になったりするという課題を有している。この雑音推定方法で用いられているオンラインEMアルゴリズムは、次のような追従の速さと最尤推定の安定性とのトレードオフを有する。すなわち、忘却係数を大きくすると安定性が増して追従が遅くなり、忘却係数を小さくすると追従が速くなって安定性が下がる。その結果、忘却係数を大きくしても小さくしても雑音パワー推定値は不正確となり、後段の雑音抑圧方法によって得られる強調音声の歪みを増大させたり残留雑音が大きくなったりする。
特許文献1に記載の雑音推定方法は、雑音パワー推定値が、誤って音声に追従してしまうことや非定常雑音に追従して不安定になることが比較的少なく、それでいて雑音が変化した場合にも比較的速やかに追従することができる。しかし、重み係数が0とならないような音声区間が続いた後の雑音区間では、雑音区間に切り替わった約T秒後に雑音パワー推定値が急激に小さくなる現象が生じる。そのような雑音パワー推定値を用いて後段の雑音抑圧方法を動作させると、当該雑音区間で残留雑音が急激に大きくなるため、聴感上不自然な強調音声になってしまう。
以上のように、従来の雑音推定方法はいずれも、雑音パワー推定値が不安定になる課題や、雑音パワー推定値が急激に変化する課題を有するものであった。
本発明は、これらの課題に鑑みてなされたものであり、雑音パワーを安定的に推定できる雑音推定装置、方法及びプログラムを提供することを目的とする。
第1の本発明は、入力音声に含まれる雑音を推定する雑音推定装置において、(1)入力音声が帯域分割されたそれぞれの帯域入力音声毎に設けられた帯域雑音推定装置を備え、(2)上記各帯域雑音推定装置が、(2−1)帯域入力パワーを算出するパワー算出手段と、(2−2)雑音の定常性をモデリングした確率モデルの情報を保持している確率モデル保持手段と、(2−3)帯域入力パワーと、当該帯域雑音推定装置から出力される帯域雑音パワー推定値と、保持されている確率モデル情報とに基づいて、帯域雑音パワーの事後確率が最大となるように瞬時帯域雑音パワー推定値を算出する事後確率最大化手段とを具備し、(3)保持されている上記確率モデル情報は、(3−1)予測事後SNRに基づいた事後SNRに関する尤度関数と、(3−2)平均事後SNRが確定した条件の下での上記事後SNRの事前確率との情報を含むことを特徴とする。
ここで、上記各帯域雑音推定装置が、上記瞬時帯域雑音パワー推定値を時間平滑化し、上記帯域雑音パワー推定値を得る平滑化手段をさらに具備することが好ましい。
第2の本発明は、入力音声に含まれる雑音を推定する雑音推定方法において、(1)入力音声が帯域分割されたそれぞれの帯域入力音声毎に設けられた、パワー算出手段、確率モデル保持手段及び事後確率最大化手段を有する帯域雑音推定装置を備え、(2−1)上記各帯域雑音推定装置のパワー算出手段はそれぞれ、帯域入力パワーを算出し、(2−2)上記各帯域雑音推定装置の確率モデル保持手段は、雑音の定常性をモデリングした確率モデルの情報であって、予測事後SNRに基づいた事後SNRに関する尤度関数と、平均事後SNRが確定した条件の下での上記事後SNRの事前確率との情報を含む確率モデルの情報を保持し、(2−3)上記各帯域雑音推定装置の事後確率最大化手段はそれぞれ、帯域入力パワーと、当該帯域雑音推定装置から出力される帯域雑音パワー推定値と、保持されている確率モデル情報とに基づいて、帯域雑音パワーの事後確率が最大となるように瞬時帯域雑音パワー推定値を算出することを特徴とする。
ここで、上記各帯域雑音推定装置にさらに設けられた平滑化手段が瞬時帯域雑音パワー推定値を時間平滑化することが好ましい。
第3の本発明の雑音推定プログラムは、コンピュータを、(1)入力音声が帯域分割されたそれぞれの帯域入力音声毎に設けられた帯域雑音推定装置であって、(2−1)帯域入力パワーを算出するパワー算出手段と、(2−2)雑音の定常性をモデリングした確率モデルの情報であって、予測事後SNRに基づいた事後SNRに関する尤度関数と、平均事後SNRが確定した条件の下での上記事後SNRの事前確率との情報を含む確率モデルの情報を保持している確率モデル保持手段と、(2−3)帯域入力パワーと、当該帯域雑音推定装置から出力される帯域雑音パワー推定値と、保持されている確率モデル情報とに基づいて、帯域雑音パワーの事後確率が最大となるように瞬時帯域雑音パワー推定値を算出する事後確率最大化手段とを具備する帯域雑音推定装置として機能させることを特徴とする。
ここで、上記コンピュータが機能させられる上記各帯域雑音推定装置が、上記瞬時帯域雑音パワー推定値を時間平滑化する平滑化手段をさらに具備することが好ましい。
本発明によれば、帯域雑音パワー推定値を安定的に推定できる雑音推定装置、方法及びプログラムを提供できる。
第1の実施形態の雑音推定装置を構築するある帯域雑音推定装置の構成を示す機能ブロック図である。 図1の帯域雑音推定装置における事後確率最大化手段の詳細構成を示す機能ブロック図である。 第2の実施形態の雑音推定装置を構築するある帯域雑音推定装置の構成を示す機能ブロック図である。 図3の帯域雑音推定装置における事後確率最大化手段の詳細構成を示す機能ブロック図である。 従来の雑音抑圧装置の構成を示す機能ブロック図である。 図5の帯域処理手段の内部構成を示す機能ブロック図である。
(A)各実施形態により本発明の目的を達成できる理由
第1の実施形態及び変形実施形態の説明に先立ち、各実施形態に至った考え方や、各実施形態により本発明の目的である雑音パワーを安定的に推定できる理由を説明する。
なお、以下でも、引き続いて、帯域入力音声のパワーを入力パワー若しくは帯域入力パワーと呼び、帯域ごとに推定された雑音のパワーを雑音パワー若しくは帯域雑音パワーと呼び、基本的には帯域番号を付さないで説明するが、以下で説明する雑音推定方法は帯域ごとに行われることに注意する。すなわち、帯域ごとに行われる処理は同様であるが、入力される帯域入力音声や出力される雑音パワー推定値は帯域ごとで異なる値となっている。
雑音推定方法において最も注意しなければならない点は、雑音推定値が目的音声を含まないようにすることである。仮に、雑音推定値が目的音声を含むと、例えば、後段の雑音抑圧処理によって得られる強調音声が歪んだり小さくなったりしてしまい、強調音声の明瞭度や単語了解度を向上させるという雑音抑圧処理の目的を果たせない。
一方、雑音推定には、非定常な雑音も推定できる性能を求められることもある。しかし、非定常雑音と音声とを区別するのは難しいため、非定常雑音を推定する性能と雑音推定値が音声を含まない性能との間にはトレードオフの関係がある。それゆえ、今までは、安定性の高い雑音推定方法は定常雑音しか推定できず、非定常雑音を推定できる雑音推定方法は雑音推定値が音声を含んでしまって安定性が低くなる、という課題があった。
そこで、各実施形態では、推定対象を定常雑音に限定することによって、より高い安定性を有する雑音推定を実現する。このために、最大事後確率(Maximum A Posteriori:MAP)推定の枠組みを用いる。ここで、雑音の定常性とは、雑音の確率分布(確率密度関数)が時間によって変化しないことを呼んでいる。
後で雑音の定常性を導入するので、時刻tにおいて、過去の雑音パワーNt−1、Nt−2、…が観測された条件の下で、現在の雑音パワーNの事後確率が最大となるように雑音パワーNを算出する問題を考える。但し、パワーは対数尺度の方が扱い易いので、これ以降は、帯域雑音対数パワー^N=10log10について考える。ここで、帯域雑音対数パワーの単位がデシベルとなるような対数変換を行っているが、対数の底はネイピア数や2でも良く、10倍しなくても良く、10以外の他の任意の定数係数を乗じても良い。
帯域雑音対数パワーNには、まだ、集音環境やマイク感度による自由度が残っている。これを正規化するために、ここでは帯域雑音対数パワーを直接扱うのでなく、帯域雑音対数パワーを帯域入力対数パワーから減じた(すなわち、雑音パワーで入力パワーを除した)事後SNRを使うこととする。
推定対象である時刻tでの事後SNR^γは、帯域入力対数パワーを^Xとおくと、(1)式で表される。雑音の定常性を導入するために、時刻tの帯域入力対数パワー^Xを所定時間だけ過去の帯域雑音対数パワー^Nt−mで減じた、(2)式で表される予測事後SNRγt|t−mを導入する。ここで、時間差mは任意であるが、直前の値(直前フレームの値)、すなわち、m=1の帯域雑音対数パワーNt−1を用いるのが最良である。さらに、(3)式で表される過去の平均事後SNR ̄γt−1を導入する。
Figure 0006361156
平均事後SNR ̄γt−1を導入する意図は、事後SNRの潜在的な分布が集音時の雑音レベルの大小の影響を受けることをモデルに組み込むためである。例えば、事後SNRが20dBや30dBとなることは、無響室のような雑音がほとんど存在しない環境ではよくあるが、工事現場のような音声がほとんど聞き取れないような劣悪な環境ではほとんど生じない。
以上の3つの事後SNRを使うと、最大化すべき事後確率は、(4)式の左辺に記述しているように、予測事後SNR^γt|t−mと過去の平均事後SNR ̄γt−1とが確定している条件下で事後SNR^γが生じる確率となり、これをベイズの定理で展開すると、(4)式の右辺が得られる。
Figure 0006361156
(4)式の最大化は事後SNR^γに対して行うので、右辺の分母は最大化には影響しない。また、右辺におけるp( ̄γt−1)は、集音時の雑音レベルの潜在的な確率を意味しているが、どのような環境で集音するかは不確定であるのが普通なので、一様分布を仮定することにする。これにより、3つの確率の乗算で表されている(4)式の右辺の分子における、前側の2つの確率の乗算値の最大化を図れば良い。さらに、MAP推定は、線形な事後確率よりも対数事後確率を最大化する方が簡単なケースが多いことも考慮する。このような考慮を加えることにより、事後SNR^γの最適値を算出する評価関数Jmap(^γ)を、(5)式で定義することとした。
Figure 0006361156
(5)式の右辺第1項は、事後SNR^γの対数尤度関数である。また、(5)式の右辺第1項は、現在(時刻t)の事後SNR^γと、現在の帯域入力対数パワー^Xを所定時間だけ過去の帯域雑音対数パワー^Nt−mで減じた事後SNR^γt|t−mの関係、言い換えると、現在の帯域雑音対数パワー^Nと、時間差mだけ過去の帯域雑音対数パワー^Nt−mが生じた場合における現在の帯域雑音対数パワーの推定値^Nt|t−mの関係を表していることから、これは雑音の定常性を表している。条件に、1単位時間だけ過去の平均事後SNR ̄γt−1が含まれているが、対数尺度では雑音の定常性の特性は、過去の平均事後SNR ̄γt−1に依らず不変と考えられる(線形尺度で雑音パワーの時間変化量を考えると、過去の平均事後SNRと比例するが、対数尺度では対数雑音パワーの時間変化率を考えているためである)。従って、(5)式は、(6)式のように書き直すことができる。
Figure 0006361156
(6)式の右辺第2項は、過去の平均事後SNR ̄γt−1を条件とした現在の事後SNR^γの対数事前確率、すなわち、平均事後SNRが ̄γt−1である集音環境における現在の事後SNR^γの出現確率を意味している。
尤度関数及び事前確率は、互いの極端な最適化を抑制し是正する働きを持つ。定常性を表す尤度関数だけを使って最適化すると、最も高い定常性が得られる^γ=^γt|t−mが解となるので事後SNRが更新されなくなる。また、先天的な出現確率を表す事前確率だけを使って最適化すると、常に事前確率が最も高くなる^γが解となるので定常性が考慮されなくなる。それに対して、(6)式によって最適化すると、定常性と先天的な出現確率の両方を満たそうとするため、極端ではない適切な解を得ることができる。
今、(6)式の最適解が^γ であるとする。現在の帯域入力(対数)パワー^Xtと共にこの最適解^γ を(1)式に適用すると、(7)式に示すように、最適解を適用した帯域雑音対数パワー^N が得られる。帯域雑音パワーNと帯域雑音対数パワー^Nとの間には、上述したように、^N=10log10という関係があり、この関係式を(7)式に代入することにより、帯域雑音パワーの推定値(最適値)N は、(8)式で表される。
Figure 0006361156
ここで、(8)式は、帯域雑音対数パワー^Nの単位がデシベルであることが前提となっているが、上述したように、対数変換を他の方法で行った場合には、底や定数倍の値などがその方法に対応した異なる式を、(8)式の代わりに使うこととなる。
ところで、(8)式の帯域雑音パワーの推定値N は、瞬時的な推定誤差を含んでいる((7)式の帯域雑音対数パワーの推定値^N も同様)。必ずしも瞬時的な推定誤差の除去は必要ではないが、時間平滑化することによって、その推定誤差の影響を軽減することができる。そのため、MAP推定によって得られた帯域雑音パワーの推定値N を帯域雑音パワーの瞬時推定値として時間平滑化し、最終的な帯域雑音パワーの推定値 ̄N を得ることとした。時間平滑化方法は限定されないが、例えば、(9)式に示すような直前所定期間の帯域雑音パワーの瞬時推定値N の平均値を求めるものであっても良く、また例えば、(10)式に示すような直前の平滑化された値 ̄N t−1と今回の帯域雑音パワーの最適値N t−1との重み付け加算値を求めるものであっても良い(αは重み付け係数)。
Figure 0006361156
以上では、帯域雑音パワーの瞬時推定値N を時間平滑化する場合を示したが、帯域雑音対数パワーの瞬時推定値^N の段階で時間平滑化を行うようにしても良い。この場合には、時間平滑化により得られた帯域雑音対数パワーの推定値に対して、上述した(8)式を適用して線形尺度に変換して、帯域雑音パワーの推定値 ̄N を得ることとなる。
次に、(6)式に示す評価関数Jmap(^γ)を規定する尤度関数と事前確率の具体的な関数形(後述する各実施形態の説明では確率モデル情報と呼んでいる)を考える。
尤度関数p(^γt|t−m|^γ)は、(1)式及び(2)式を代入することにより、p(^X−^Nt−m|^X−^N)と書くことができる。この書き換えた尤度関数をp(^Nt−m|^N)と比較すると、一方の関数の帯域雑音対数パワー^Nt−m及び^Nの符号を反転させて同じだけ平行移動させたものが他方の関数となっているから、確率密度関数の分布形状は同様であり、p(^γt|t−m|^γ)に代えてp(^Nt−m|^N)を考慮しても良いことが分かる。この関数p(^Nt−m|^N)は、現在の帯域雑音対数パワー^Nが確定した条件の下での時間差m分(mフレーム)だけ過去の帯域雑音対数パワー^Nt−mの出現確率であるから、定常性を考慮すると、^Nt−m=^Nで最も大きな確率となり、過去の帯域雑音対数パワー^Nt−mが現在の帯域雑音対数パワー^Nから離れるほど確率は小さくなるべきである(言い換えると、|^Nt−m−^N|→∞でp(^Nt−m|^N)→0となるベきである)。すなわち、帯域雑音対数パワー^Nの尤度関数p(^Nt−m|^N)として、左右対称の山形状の確率密度関数を適用すれば良い。
このような左右対称の山形状の確率密度関数の代表は正規分布である。そこで、帯域雑音対数パワー^Nの尤度関数(Nt−mの条件付き確率密度関数)p(^Nt−m|^N)を正規分布でモデリングすると、(11)式で表すことができる。(11)式において、σは正規分布の分散パラメータであり、定常性の強さを表す。例えば、σとして42を適用できる。
Figure 0006361156
また、より柔軟なモデルとして、尤度関数p(^Nt−m|^N)に、(12)式に示すような一般化正規分布を選択することも可能である。(12)式において、Γ(・)はガンマ関数であり、αとβは定常性の特性を決めるパラメータである。例えば、α=7.6、β=1.9を適用できる。
Figure 0006361156
以上の2例以外にも、^Nt−m=^Nで最も大きな確率となり、|^Nt−m−^N|→∞でp(^Nt−m|^N)→0となるような任意の確率密度関数を、尤度関数p(^Nt−m|^N)として選択することができる。
事後SNRで表現される尤度関数p(^γt|t−m|^γ)は、(11)式又は(12)式の変数(帯域雑音対数パワーの部分)^Nt−m−^Nを、(13)式のように変形することによって得ることができる。
Figure 0006361156
次に、(6)式に示す評価関数Jmap(^γ)を規定する事前確率について考察する。すなわち、過去の平均事後SNR ̄γt−1を条件とした現在の事後SNR^γの事前確率p(^γ| ̄γt−1)について考察する。
第1に、(1)式で表される現在の事後SNR^γの取り得る値の範囲について考察する。入力音声は、音声と雑音の両方を含んでいるので帯域入力対数パワー^Xは帯域雑音対数パワー^Nより小さくならないので、事後SNR^γは非負である。第2に、音声のスパース性(出現がまばらである性質)について考察する。一般に、音声の時間周波数表現はスパースであることから、帯域入力対数パワー^Xが帯域雑音対数パワー^Nと等しくなる頻度が高いため、出現確率が一番高いのは、事後SNR^γが0(dB)のときである。第3に、高SNRの出現確率について考察する。音声の大きさは有限であるから帯域入力対数パワー^Xも有限であり、一方、雑音は、音声に比してスパース性が弱いために小さな値を取り難くなるので、事前確率p(^γ| ̄γt−1)は^γ→∞で0に収束する。
以上の3つの考察より、過去の平均事後SNR ̄γt−1を条件とした現在の事後SNR^γの事前確率p(^γ| ̄γt−1)の候補の一つとして、(14)式に示す指数分布を選ぶことは自然である(但し、後述するように指数分布に限定されない)。
Figure 0006361156
(14)式において、λは分布の広がりを表すパラメータであり、λが小さいほど分布の広がりは大きい。平均事後SNR ̄γt−1が大きくなるほど現在の事後SNR^γも大きな値を取り易くなるから、パラメータλは平均事後SNR ̄γt−1に反比例するか、平均事後SNR ̄γt−1と負の相関を持つように決定する。例えば、パラメータλを(15)式に従って算出する。
Figure 0006361156
以上では、事前確率p(^γ| ̄γt−1)として指数分布を適用可能であることを説明したが、指数分布以外にも、上述した3つの考察が示す条件を満たす任意の確率密度関数を事前確率として選択することができる。例えば、ガンマ分布や片側正規分布や、より柔軟な片側一般化正規分布を適用できる。
次に、(6)式に示す評価関数Jmap(^γ)を最大化する事後SNR^γの最適解^γ を求める方法を説明する。最適解^γ は、評価関数Jmap(^γ)を最大化する現在の事後SNR^γであるから、(6)式の右辺を現在の事後SNR^γで微分した式が0となるような現在の事後SNR^γ を求めれば良い。
(6)式に示す評価関数Jmap(^γ)における尤度関数に(11)式に示す正規分布を適用し、事前確率に(14)式に示す指数分布を適用した場合、最適解^γ は、(16)式のように求めることができる。また、(6)式に示す評価関数Jmap(^γ)における尤度関数に(12)式に示す一般化正規分布を適用し、事前確率に(14)式に示す指数分布を適用した場合、最適解^γ は、(17)式のように求めることができる。(16)式及び(17)式において、max{a,b}はaとbの大きい方を選択する関数であり、第1の考察で説明した非負を実現するために導入した関数である。
Figure 0006361156
いずれの場合も、予測事後SNR^γt|t−mからある値を減じたものが最適解^γ となっている。すなわち、(16)式においては(19)式のように、(17)式においては(20)式のように係数^rを決めると、(16)式及び(17)式は共に(21)式のように表現することができる。なお、係数^rは(18)式に示すように、係数rの対数である。
Figure 0006361156
この(21)式と上述した(7)式とより、帯域雑音対数パワーの瞬時推定値^N は(22)式によって算出でき、この(22)式と、対数尺度から線形尺度への変換式(例えば、(18)式参照)とから、帯域雑音パワーの瞬時推定値N は(23)式によって算出できる。(22)式及び(23)式において、min{a,b}はaとbの小さい方を選択する関数である。
Figure 0006361156
(23)式から、帯域雑音パワーの瞬時推定値は、過去の平均事後SNRに対して最適な割合で常に増大するが、帯域入力パワーより大きくなることはないことが分かる。増大の継続と帯域入力パワーを上限としていることで、集音環境が少しずつ変化する場合や雑音が急激に小さくなった場合には速やかに追従することができる。一方、雑音が急激に大きくなった場合には、環境の変化直後は平均事後SNRが大きくなるために追従が遅れるが、雑音パワー瞬時推定値を増大させ続けることで次第に環境に適応していくことができる。
(23)式は滑らかでないmin関数を含むため、推定値に小刻みな変動が生じて聴感上不自然になる恐れがある。そのため、上述した(9)式や(10)式に示したように、これを時間平滑化することが好ましく、時間平滑化することによりさらに自然で安定な帯域雑音パワーの推定値を得ることができる。
(B)第1の実施形態
以下、本発明による雑音推定装置、方法及びプログラムの第1の実施形態を、図面を参照しながら説明する。
(B−1)第1の実施形態の構成
第1の実施形態の雑音推定装置は、異なる帯域入力音声が入力される帯域分割数の帯域雑音推定装置を有する。各帯域雑音推定装置は同様な機能的な構成を有する。ここで、各帯域雑音推定装置若しくは雑音推定装置は、ハードウェアで構成することも可能であり、また、CPUが実行するソフトウェア(帯域雑音推定プログラム若しくは雑音推定プログラム)とCPUとで実現することも可能であるが、いずれの実現方法を採用した場合であっても、同様な機能ブロック図で表すことができる。
図1は、第1の実施形態の雑音推定装置を構築する、ある一つの帯域雑音推定装置の構成を示す機能ブロック図である。
図1において、第1の実施形態の帯域雑音推定装置300は、パワー算出手段301、確率モデル保持手段302、事後確率最大化手段303及び平滑化手段304を有する。
第1の実施形態の雑音推定装置へ帯域分割されていない入力音声が入力される場合であれば、図示しない帯域分割手段によって帯域を分割し、帯域入力音声をそれぞれ帯域雑音推定装置300(300〜300K−1)へ与える。また、前段の処理装置から第1の実施形態の雑音推定装置へ帯域別の入力音声が与えられる場合であれば、入力された帯域入力音声をそれぞれ帯域雑音推定装置300(300〜300K−1)へ与える。
図示しない帯域分割手段は、従来の技術の項で説明した帯域分割手段101と同様なものであり、例えば、デジタル信号でなる入力音声をフレーム単位に帯域分割するものである。帯域分割手段は、入力音声の帯域を等分割するものであっても良く、入力音声の帯域を不等分分割するものであっても良い。不等分分割には、直交ミラーフィルタ(QMF)やウェーブレット変換等を適用することができる。
各帯域雑音推定装置300はそれぞれ、自己に割り当てられた帯域入力音声に対し、上述の考え方に従って、その帯域入力音声に含まれている雑音を推定するものである。
帯域雑音推定装置300のパワー算出手段301は、帯域入力音声のパワーを算出し、得られた帯域入力パワーを事後確率最大化手段303に与えるものである。パワーの算出方法は限定されるものではない。例えば、帯域入力音声の現在から所定時間過去までのサンプル値の2乗和や絶対値和を帯域入力パワーとする方法を適用することができる。また、帯域入力音声の値を正値に変化する他の方法をパワー算出方法として適用するようにしても良い。
確率モデル保持手段302は、事前に設計された雑音の定常性に関する確率モデルの情報(以下、単に確率モデルと呼ぶ)を保持しておくものであり、保持している確率モデルを事後確率最大化手段303に与える。第1の実施形態における確率モデルは、MAP推定に基づいたモデルであり、上述した考え方に従ったモデルである。確率モデルの設計例については、動作の説明の項で明らかにする。
事後確率最大化手段303は、現在の帯域入力パワーと、平滑化手段304から出力された所定時間だけ過去(例えば、数フレーム前)の帯域雑音パワーの推定値、及び、確率モデル保持手段302に保持されている確率モデルに基づいて、帯域雑音パワーのMAP推定を行い、得られた瞬時帯域雑音パワー推定値(帯域雑音パワー瞬時推定値)を平滑化手段304に与えるものである。
平滑化手段304は、瞬時帯域雑音パワー推定値を時間平滑化し、得られた帯域雑音パワー推定値を、事後確率最大化手段303にフィードバックすると共に、当該帯域雑音推定装置300の出力として送出するものである。平滑化方法は、限定されるものではないが、例えば、(9)式に示したように直前所定期間の瞬時帯域雑音パワー推定値の平均値を求めるものであっても良く、また例えば、(10)式に示したように直前の平滑化された値と今回の瞬時帯域雑音パワー推定値との重み付け加算値を求めるものであっても良い。
なお、第1の実施形態は、帯域別の雑音パワー推定値の組を、後段の処理部が利用する場合(例えば、雑音抑圧)を想定しているが、帯域別の雑音パワー推定値を統合した後、時間領域の信号に変換して後段の処理部へ与えるようにしても良い。
(B−2)第1の実施形態の動作
次に、第1の実施形態の雑音推定装置の動作(雑音推定方法)を説明する。
第1の実施形態の雑音推定装置に入力された入力音声は、図示しない帯域分割手段において帯域分割され、得られたK個の帯域入力音声はそれぞれ、対応する各帯域処理手段300(300〜300K−1)に与えられる。
各帯域入力音声に含まれている雑音は、帯域入力音声に対応する帯域雑音推定装置300〜300K−1によって推定され、得られた帯域雑音パワー推定値がそれぞれ、帯域雑音推定装置300〜300K−1から出力される。
各帯域雑音推定手段300内では、以下のような処理が実行される。
帯域入力音声はパワー算出手段301に与えられ、パワー算出手段301によって帯域入力音声のパワーが算出され、得られた帯域入力パワーが事後確率最大化手段303に与えられる。
事前に設計された雑音の定常性に関する確率モデル(の情報)は、確率モデル保持手段302に保持されており、その確率モデルは事後確率最大化手段303に与えられる。
第1の実施形態における確率モデルとは、上述した(6)式における尤度関数p(^γt|t−m|^γ)と事前確率p(^γ| ̄γt−m)の関数形と、これら関数のパラメータとを意味する。
第1の実施形態において、時間差mは、1単位時間、すなわちm=1とする。
尤度関数p(^γt|t−1|^γ)は、確率密度関数としてとらえた場合には現在の事後SNRが確定した条件の下で予測事後SNRが観測される確率であり、現在の事後SNRを変数とする。該尤度関数には、予測事後SNRが現在の事後SNRと等しいときに最大となり、予測事後SNRが現在の事後SNRから離れるほど0に近づくような任意の確率密度関数を選択することができるが、ここでは、例として、上述した(11)式に示した平均値が0の正規分布を適用する。正規分布は分散パラメータσを有しており、例えば、分散パラメータσとして42を適用できる。
事前確率p(^γ| ̄γt−1)は、過去の平均事後SNRの下で現在の事後SNRが観測される潜在的な確率である。該事前確率には、現在の事後SNRが非負で定義され、現在の事後SNRが0dBのときに最大となり、現在の事後SNRが大きくなるほど0に近付くような任意の確率密度関数を選択することができるが、ここでは、例として、上述した(14)式に示した指数分布を適用する。指数分布は、速度パラメータλを有している。速度パラメータλは過去の平均事後SNRにより変化する。速度パラメータλの算出方法は、過去の平均事後SNRと反比例の関係になる、又は、負の比例関係になる任意の方法を選択することができるが、一例として、上述した(15)式に従って算出されたものを適用する。
確率モデルは任意のタイミングで変更することが可能である。また、その変更は、分散パラメータσの値や(15)式の数値を更新するだけでも良く、速度パラメータλの算出方法を変更しても良く、尤度関数p(^γt|t−1|^γ)や事前確率p(^γ| ̄γt−1)の関数形を変更しても良く、時間差mを変更しても良い。
事後確率最大化手段303において、現在の帯域入力パワー、所定時間過去の帯域雑音パワー推定値、及び、確率モデル保持手段302に保持されている確率モデルに基づいて、雑音パワーのMAP推定が実行され、得られた雑音パワー瞬時推定値が平滑化手段304に与えられる。
図2は、第1の実施形態における事後確率最大化手段303の詳細構成を示す機能ブロック図である。
事後確率最大化手段303は、帯域雑音パワー推定値遅延部401、帯域入力パワー遅延部402、事後SNR算出部403、平滑化部404、係数決定部405、乗算部406及び比較部407を有する。
パワー算出手段301から与えられた帯域入力パワーは、乗算部407に与えられると共に、帯域入力パワー遅延部402を介して単位処理時間(例えば1フレーム時間)だけ遅延された後に事後SNR算出部403に与えられる。また、平滑化手段304から与えられた帯域雑音パワー推定値は、帯域雑音パワー推定値遅延部401を介して単位処理時間だけ遅延された後に事後SNR算出部403及び乗算部406に与えられる。さらに、確率モデル保持手段302から与えられた確率モデルは係数決定部405に与えられる。
事後SNR算出部403においては、前回入力された帯域入力パワーが前回算出された帯域雑音パワー推定値で除算され、これにより、前回の事後SNRが算出され、平滑部404に与えられる。
平滑化部404には、事後SNR算出部403から与えられた過去の事後SNRが少なくとも1つ以上記憶されている。そして、平滑化部404において、記憶されている過去の事後SNRが適用されて、新たに与えられた前回の事後SNRが時間平滑化され、得られた平均事後SNRが係数決定部405に与えられる。
平滑化部404による時間平滑化の方法は限定されるものではなく、任意の方法を適用することができる。時間平滑化の代表的な方法には、移動平均法と時定数フィルタ(リーク積分とも呼ばれる)があるが、ここでは、例として移動平均法を使うこととする。現在の時刻をtとして、T個の過去の事後SNRを使う場合、現在の事後SNRをγと書くことにすると、移動平均法による前回までの平均事後SNRγt−1は(24)式で定義される。例えば、Tは20とする。なお、(24)式の代わりに(25)式の更新則を使うと、加減算を(T−3)回だけ減らせて効率を向上させることができる。
Figure 0006361156
係数算出部405においては、確率モデル保持手段302から与えられた確率モデルのパラメータ(第1の実施形態の場合σ及びλ)と平滑化部404から与えられた平均事後SNR ̄γt−1とに基づいて、雑音増幅係数rが算出され、得られた雑音増幅係数rが乗算部406に与えられる。第1の実施形態では、確率モデルにおける尤度関数として正規分布を適用しているので、雑音増幅係数rは、上述した(19)式によって算出される。
乗算部406においては、帯域雑音パワー推定値遅延部401から与えられた前回の帯域雑音パワー推定値に、係数決定部405から得られた雑音増幅係数rが乗算されて帯域雑音パワー暫定推定値が算出し、得られた帯域雑音パワー暫定推定値が比較部407へ与えられる。
比較部407においては、パワー算出手段301から与えられた現在の帯域入力パワーと乗算部406から与えられた帯域雑音パワー暫定推定値とが比較され、小さい方が帯域雑音パワー瞬時推定値として選択され、得られた雑音パワー瞬時推定値が平滑化手段304へ与えられる。すなわち、(23)式の演算が比較部407によって実行されている。
図1に戻り、平滑化手段304には、事後確率最大化手段303から与えられた帯域雑音パワー瞬時推定値が少なくとも1つ以上記憶されている。そして、平滑化手段304において、記憶されている帯域雑音パワー瞬時推定値が適用されて、新たに与えられた帯域雑音パワー瞬時推定値が時間平滑化され、得られた雑音パワー推定値は事後確率最大化手段303にフィードバックされると共に当該帯域雑音推定装置300からの出力として送出される。
平滑化手段304による時間平滑化の方法も限定されるものではなく、任意の方法を適用して良い。例えば、移動平均法を適用することができる。
(B−3)第1の実施形態の効果
第1の実施形態によれば、定常な帯域雑音パワーを安定的に推定することができる。仮に、第1の実施形態の雑音推定装置を、雑音抑圧装置(図5及び図6参照)に組み込んだ場合には、強調音声の歪みを小さく抑えることができる。
(C)第2の実施形態
次に、本発明による雑音推定装置、方法及びプログラムの第2の実施形態を、図面を参照しながら説明する。
第2の実施形態の雑音推定装置も、異なる帯域入力音声が入力される帯域分割数の帯域雑音推定装置を有する。図3は、第2の実施形態の雑音推定装置を構築する、ある一つの帯域雑音推定装置の構成を示す機能ブロック図であり、第1の実施形態に係る図1との同一、対応部分には同一、対応符号を付して示している。
図3において、第2の実施形態の帯域雑音推定装置300Aも、パワー算出手段301、確率モデル保持手段302、事後確率最大化手段303A及び平滑化手段304を有し、事後確率最大化手段303Aが第1の実施形態の事後確率最大化手段303と異なっている。
図4は、第2の実施形態における事後確率最大化手段303Aの詳細構成を示す機能ブロック図であり、第1の実施形態に係る図2との同一、対応部分には同一、対応符号を付して示している。
図4において、事後確率最大化手段303Aは、帯域雑音パワー推定値遅延部401、帯域入力パワー遅延部402、事後SNR算出部403、係数決定部405、乗算部406及び比較部407を有する。
すなわち、第2の実施形態における事後確率最大化手段303Aは、第1の実施形態における事後確率最大化手段303に比較すると、平滑部404が設けられていない点が異なる。従って、事後SNR算出部403から出力される前回の事後SNRが係数決定部405に直接与えられるようになされており、係数決定部405において前回の事後SNRが適用されて雑音増幅係数rが決定される。
以上の点を除けば、第2の実施形態の帯域雑音推定装置300Aは、第1の実施形態の帯域雑音推定装置300と同様である。
前回の事後SNRを時間平滑化しないことは、第1の実施形態の説明で言及した時間平滑化の演算式である(24)式若しくは(25)式のTの部分に「1」を代入したことと同じである。これは、前回までの平均事後SNRの代表として、前回の事後SNRを選んでいることを意味する。平均事後SNRは、現在の集音環境を推測するパラメータの一つであり、時間平滑化を行わないことで情報量が減少し集音環境の推定値という意味での推定精度は低下するが、これにより生じる推定誤差は後段の平滑化手段304で低減されるので、その影響は小さい。一方で、時間平滑化しないことは処理量低減とリソース削減のメリットを生じる。
第2の実施形態によれば、より少ない処理量とリソースで定常な雑音パワーを安定的に推定することができる。
(D)他の実施形態
以上でも、種々の変形実施形態に言及したが、さらに、以下に例示するような変形実施形態を挙げることができる。
上記各実施形態においては、全ての帯域の確率モデル保持手段が同じ確率モデルの情報を保持しているものを示したが、帯域によって、確率モデルの情報が異なっていても良い。例えば、尤度関数に正規分布を適用する場合であっても、分散パラメータσとして、帯域毎に異なる値を設定するようにしても良い。また、尤度関数として、帯域毎に、正規分布を適用するか一般化正規分布を適用するかを設定するようにしても良い。さらに、事前確率の確率密度関数に指数分布を適用する場合において、パラメータλとして、帯域毎に異なる値を設定するようにしても良い。さらにまた、事前確率の確率密度関数として、帯域毎に、指数分布、ガンマ分布、片側正規分布、片側一般化正規分布等のいずれを適用するかを設定するようにしても良い。
上記各実施形態においては、帯域雑音推定装置300、300Aにおける確率モデル保持手段302が1個の確率モデル情報を保持している場合を示したが、複数の確率モデル情報を保持しておき、適用するものを選択できるようにしても良い。例えば、利用者の選択操作に応じて、適用する確率モデル情報を定めるようにしても良い。また例えば、帯域入力パワーについての予め定められている統計量を複数算出し、算出した統計量に基づいて、各統計量が属する段階の組合せ(適用条件)と確率モデル情報とを対応付けたテーブルをアクセスして適用する確率モデル情報を定めるようにしても良い。
上記各実施形態においては、分割された全ての分割帯域で雑音推定を行うように説明したが、雑音推定する分割帯域が一部であっても良い。例えば、高周波数寄りの分割帯域、低周波数寄りの分割帯域、中央の分割帯域、全分割帯域等の中から、利用者が雑音推定する分割帯域を選択できるようにしても良い。
第1の実施形態においては、各帯域雑音推定装置300が平滑化手段304を備える場合を示したが、平滑化手段304を省略するようにしても良い。
300、300〜300K−1、300A、300A〜300AK−1…帯域雑音推定手段、301…パワー算出手段、302…確率モデル保持手段、303、303A…事後確率最大化手段、304…平滑化手段、401…帯域雑音パワー推定値遅延部、402…帯域入力パワー遅延部、403…事後SNR算出部、404…平滑化部、405…係数決定部、406…乗算部、407…比較部。

Claims (15)

  1. 入力音声に含まれる雑音を推定する雑音推定装置において、
    入力音声が帯域分割されたそれぞれの帯域入力音声毎に設けられた帯域雑音推定装置を備え、
    上記各帯域雑音推定装置が、
    帯域入力パワーを算出するパワー算出手段と、
    雑音の定常性をモデリングした確率モデルの情報を保持している確率モデル保持手段と、
    帯域入力パワーと、当該帯域雑音推定装置から出力される帯域雑音パワー推定値と、保持されている確率モデル情報とに基づいて、帯域雑音パワーの事後確率が最大となるように瞬時帯域雑音パワー推定値を算出する事後確率最大化手段とを具備し、
    保持されている上記確率モデル情報は、
    予測事後SNRに基づいた事後SNRに関する尤度関数と、
    平均事後SNRが確定した条件の下での上記事後SNRの事前確率との情報を含む
    ことを特徴とする雑音推定装置。
  2. 上記各帯域雑音推定装置が、上記瞬時帯域雑音パワー推定値を時間平滑化し、上記帯域雑音パワー推定値を得る平滑化手段をさらに具備することを特徴とする請求項1に記載の雑音推定装置。
  3. 上記事後SNRは帯域入力パワーを同時刻の帯域雑音パワー推定値で除した値であり、
    上記予測事後SNRは帯域入力パワーを所定時間だけ過去の帯域雑音パワー推定値で除した値であり、
    上記平均事後SNRは、少なくとも2つ以上の過去の事後SNRから算出される時間平滑化された事後SNRである
    ことを特徴とする請求項1又は2に記載の雑音推定装置。
  4. 上記事後SNRは帯域入力パワーを同時刻の帯域雑音パワー推定値で除した値であり、
    上記予測事後SNRは帯域入力パワーを所定時間だけ過去の帯域雑音パワー推定値で除した値であり、
    上記平均事後SNRは、1つの所定時間過去の事後SNRである
    ことを特徴とする請求項1又は2に記載の雑音推定装置。
  5. 上記尤度関数は、上記事後SNRと上記予測事後SNRが等しいときに最大となり、上記事後SNRと上記予測事後SNRの差が大きくなるにつれて0に収束することを特徴とする請求項1〜4のいずれかに記載の雑音推定装置。
  6. 上記尤度関数として正規分布若しくは一般化正規分布を適用していることを特徴とする請求項5に記載の雑音推定装置。
  7. 上記事前確率は、上記事後SNRが非負に限定されていて、上記事後SNRが0のときに最大となり、上記事後SNRが大きくなるにつれて0に収束することを特徴とする請求項1〜6のいずれかに記載の雑音推定装置。
  8. 上記事前確率として指数分布を適用していることを特徴とする請求項7に記載の雑音推定装置。
  9. 上記指数分布の速度パラメータは上記平均事後SNRと負の比例関係若しくは反比例関係にあることを特徴とする請求項8に記載の雑音推定装置。
  10. 上記事後確率最大化手段は、
    上記帯域雑音パワー推定値を遅延させる帯域雑音パワー遅延部と、
    上記帯域入力パワーを遅延させる帯域入力パワー遅延部と、
    遅延された上記帯域雑音パワー推定値及び上記帯域入力パワーに基づいて、上記事後SNRを算出する事後SNR算出部と、
    上記事後SNRを時間平滑化して平均事後SNRを算出する平滑化部と、
    上記確率モデル情報と上記平均事後SNRに基づいて雑音増幅係数を決定する係数決定部と、
    遅延された上記帯域雑音パワー推定値に上記雑音増幅係数を乗ずる乗算部と、
    上記乗算部から出力された帯域雑音パワー暫定推定値と上記帯域入力パワーを比較して小さい方を選択する比較部とを具備する
    ことを特徴とする請求項1〜9のいずれかに記載の雑音推定装置。
  11. 上記事後確率最大化手段は、
    上記帯域雑音パワー推定値を遅延させる帯域雑音パワー遅延部と、
    上記帯域入力パワーを遅延させる帯域入力パワー遅延部と、
    遅延された上記帯域雑音パワー推定値及び上記帯域入力パワーに基づいて、上記事後SNRを算出する事後SNR算出部と、
    上記確率モデル情報と上記事後SNRに基づいて雑音増幅係数を決定する係数決定部と、
    遅延された上記帯域雑音パワー推定値に上記雑音増幅係数を乗ずる乗算部と、
    上記乗算部から出力された帯域雑音パワー暫定推定値と上記帯域入力パワーを比較して小さい方を選択する比較部とを具備する
    ことを特徴とする請求項1〜9のいずれかに記載の雑音推定装置。
  12. 入力音声に含まれる雑音を推定する雑音推定方法において、
    入力音声が帯域分割されたそれぞれの帯域入力音声毎に設けられた、パワー算出手段、確率モデル保持手段及び事後確率最大化手段を有する帯域雑音推定装置を備え、
    上記各帯域雑音推定装置のパワー算出手段はそれぞれ、帯域入力パワーを算出し、
    上記各帯域雑音推定装置の確率モデル保持手段は、雑音の定常性をモデリングした確率モデルの情報であって、予測事後SNRに基づいた事後SNRに関する尤度関数と、平均事後SNRが確定した条件の下での上記事後SNRの事前確率との情報を含む確率モデルの情報を保持し、
    上記各帯域雑音推定装置の事後確率最大化手段はそれぞれ、帯域入力パワーと、当該帯域雑音推定装置から出力される帯域雑音パワー推定値と、保持されている確率モデル情報とに基づいて、帯域雑音パワーの事後確率が最大となるように瞬時帯域雑音パワー推定値を算出する
    ことを特徴とする雑音推定方法。
  13. 上記各帯域雑音推定装置にさらに設けられた平滑化手段が瞬時帯域雑音パワー推定値を時間平滑化することを特徴とする請求項12に記載の雑音推定方法。
  14. コンピュータを、
    入力音声が帯域分割されたそれぞれの帯域入力音声毎に設けられた帯域雑音推定装置であって、
    帯域入力パワーを算出するパワー算出手段と、
    雑音の定常性をモデリングした確率モデルの情報であって、予測事後SNRに基づいた事後SNRに関する尤度関数と、平均事後SNRが確定した条件の下での上記事後SNRの事前確率との情報を含む確率モデルの情報を保持している確率モデル保持手段と、
    帯域入力パワーと、当該帯域雑音推定装置から出力される帯域雑音パワー推定値と、保持されている確率モデル情報とに基づいて、帯域雑音パワーの事後確率が最大となるように瞬時帯域雑音パワー推定値を算出する事後確率最大化手段とを具備する
    帯域雑音推定装置として機能させる
    ことを特徴とする雑音推定プログラム。
  15. 上記コンピュータが機能させられる上記各帯域雑音推定装置が、上記瞬時帯域雑音パワー推定値を時間平滑化する平滑化手段をさらに具備することを特徴とする請求項14に記載の雑音推定プログラム。
JP2014023591A 2014-02-10 2014-02-10 雑音推定装置、方法及びプログラム Active JP6361156B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2014023591A JP6361156B2 (ja) 2014-02-10 2014-02-10 雑音推定装置、方法及びプログラム
US14/615,085 US9548064B2 (en) 2014-02-10 2015-02-05 Noise estimation apparatus of obtaining suitable estimated value about sub-band noise power and noise estimating method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014023591A JP6361156B2 (ja) 2014-02-10 2014-02-10 雑音推定装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2015152627A JP2015152627A (ja) 2015-08-24
JP6361156B2 true JP6361156B2 (ja) 2018-07-25

Family

ID=53776123

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014023591A Active JP6361156B2 (ja) 2014-02-10 2014-02-10 雑音推定装置、方法及びプログラム

Country Status (2)

Country Link
US (1) US9548064B2 (ja)
JP (1) JP6361156B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9312826B2 (en) 2013-03-13 2016-04-12 Kopin Corporation Apparatuses and methods for acoustic channel auto-balancing during multi-channel signal extraction
US10306389B2 (en) 2013-03-13 2019-05-28 Kopin Corporation Head wearable acoustic system with noise canceling microphone geometry apparatuses and methods
US10141003B2 (en) * 2014-06-09 2018-11-27 Dolby Laboratories Licensing Corporation Noise level estimation
EP3252766B1 (en) * 2016-05-30 2021-07-07 Oticon A/s An audio processing device and a method for estimating a signal-to-noise-ratio of a sound signal
JP6379839B2 (ja) * 2014-08-11 2018-08-29 沖電気工業株式会社 雑音抑圧装置、方法及びプログラム
JP2016095751A (ja) * 2014-11-17 2016-05-26 富士通株式会社 異常機器特定プログラム、異常機器特定方法、及び、異常機器特定装置
JP6536322B2 (ja) * 2015-09-29 2019-07-03 沖電気工業株式会社 雑音推定装置、プログラム及び方法、並びに、音声処理装置
US11631421B2 (en) * 2015-10-18 2023-04-18 Solos Technology Limited Apparatuses and methods for enhanced speech recognition in variable environments
CN112889110A (zh) * 2018-10-15 2021-06-01 索尼公司 音频信号处理装置及噪声抑制方法
CN109087657B (zh) * 2018-10-17 2021-09-14 成都天奥信息科技有限公司 一种应用于超短波电台的语音增强方法
JP7380361B2 (ja) 2020-03-17 2023-11-15 沖電気工業株式会社 雑音推定装置、雑音推定プログラム、雑音推定方法、及び収音装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6604071B1 (en) * 1999-02-09 2003-08-05 At&T Corp. Speech enhancement with gain limitations based on speech activity
JP4282227B2 (ja) 2000-12-28 2009-06-17 日本電気株式会社 ノイズ除去の方法及び装置
WO2007026827A1 (ja) * 2005-09-02 2007-03-08 Japan Advanced Institute Of Science And Technology マイクロホンアレイ用ポストフィルタ
CN100499611C (zh) * 2006-03-31 2009-06-10 东南大学 无线通信系统空域最大后验概率检测方法
FR2908003B1 (fr) * 2006-10-26 2009-04-03 Parrot Sa Procede de reduction de l'echo acoustique residuel apres supression d'echo dans un dispositif"mains libres"
US8352257B2 (en) * 2007-01-04 2013-01-08 Qnx Software Systems Limited Spectro-temporal varying approach for speech enhancement
WO2008115435A1 (en) * 2007-03-19 2008-09-25 Dolby Laboratories Licensing Corporation Noise variance estimator for speech enhancement
US8560320B2 (en) * 2007-03-19 2013-10-15 Dolby Laboratories Licensing Corporation Speech enhancement employing a perceptual model
US8989403B2 (en) * 2010-03-09 2015-03-24 Mitsubishi Electric Corporation Noise suppression device
JP5387459B2 (ja) * 2010-03-11 2014-01-15 富士通株式会社 雑音推定装置、雑音低減システム、雑音推定方法、及びプログラム
JP2013148724A (ja) * 2012-01-19 2013-08-01 Sony Corp 雑音抑圧装置、雑音抑圧方法およびプログラム
US8880393B2 (en) * 2012-01-27 2014-11-04 Mitsubishi Electric Research Laboratories, Inc. Indirect model-based speech enhancement

Also Published As

Publication number Publication date
US20150230023A1 (en) 2015-08-13
US9548064B2 (en) 2017-01-17
JP2015152627A (ja) 2015-08-24

Similar Documents

Publication Publication Date Title
JP6361156B2 (ja) 雑音推定装置、方法及びプログラム
KR101120679B1 (ko) 이득-제한된 잡음 억제
CN110164467B (zh) 语音降噪的方法和装置、计算设备和计算机可读存储介质
CN111899752B (zh) 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端
CA2732723C (en) Apparatus and method for processing an audio signal for speech enhancement using a feature extraction
US8239196B1 (en) System and method for multi-channel multi-feature speech/noise classification for noise suppression
JP4469882B2 (ja) 音響信号処理方法及び装置
WO2013118192A1 (ja) 雑音抑圧装置
CN108074582B (zh) 一种噪声抑制信噪比估计方法和用户终端
WO2015078501A1 (en) Method of operating a hearing aid system and a hearing aid system
WO2022218254A1 (zh) 语音信号增强方法、装置及电子设备
Ram et al. Performance analysis of adaptive variational mode decomposition approach for speech enhancement
Rosenkranz et al. Integrating recursive minimum tracking and codebook-based noise estimation for improved reduction of non-stationary noise
WO2017128910A1 (zh) 一种语音出现概率的确定方法、装置及电子设备
JP6361148B2 (ja) 雑音推定装置、方法及びプログラム
JP6679881B2 (ja) 雑音推定装置、プログラム及び方法、並びに、音声処理装置
JP6716933B2 (ja) 雑音推定装置、プログラム及び方法、並びに、音声処理装置
JP7139822B2 (ja) 雑音推定装置、雑音推定プログラム、雑音推定方法、及び収音装置
JP2016145944A (ja) 雑音抑圧装置及びプログラム、雑音推定装置及びプログラム、並びに、snr推定装置及びプログラム
Lee et al. Spectral difference for statistical model-based speech enhancement in speech recognition
JP7380361B2 (ja) 雑音推定装置、雑音推定プログラム、雑音推定方法、及び収音装置
JP6536322B2 (ja) 雑音推定装置、プログラム及び方法、並びに、音声処理装置
JP2022160311A (ja) 雑音推定装置、雑音推定プログラム、雑音推定方法、収音装置、収音プログラム、及び収音方法
Huang et al. An Improved IMCRA Algorithm for Sleep Signal Denoising
JP6737133B2 (ja) 雑音推定装置、プログラム及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170906

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171017

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171218

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180529

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180611

R150 Certificate of patent or registration of utility model

Ref document number: 6361156

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150