JP6361156B2

JP6361156B2 - 雑音推定装置、方法及びプログラム

Info

Publication number: JP6361156B2
Application number: JP2014023591A
Authority: JP
Inventors: 大藤枝
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2014-02-10
Filing date: 2014-02-10
Publication date: 2018-07-25
Anticipated expiration: 2034-02-10
Also published as: US20150230023A1; US9548064B2; JP2015152627A

Description

本発明は、雑音推定装置、方法及びプログラムに関し、例えば、音声に重畳された雑音を周波数領域処理によって抑圧する雑音抑圧装置（音声強調装置ともいう）に適用し得るものである。

自然環境において雑音はいたる所に存在するため、一般に実世界で観測される音声は種々の発信元からの雑音を含む。雑音を含んで観測された入力音声から音声だけを強調させるために、様々な雑音抑圧方法が開発されている。これらのうちのほとんどは、抑圧すべき雑音を推定して、入力音声に含まれている雑音を抑圧する方法である。本発明は、雑音の推定に関するものであり、特に、周波数領域で雑音のパワーを推定しようとしたものである。

もっとも単純な従来の雑音推定方法は、音声が存在しない区間で入力スペクトルを平均する方法である。しかし、この方法は事前に音声が存在しない区間を推定しなければならない。そのため、音声が存在する区間を推定する「音声区間検出（ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ：ＶＡＤ）」という技術も盛んに開発されているが、完全なＶＡＤは未だ達成されていない。音声区間の推定を誤ると、推定雑音が目的音声を含んでしまうため、強調音声や残留雑音を歪ませるという問題が生じる。また、この方法は雑音区間でしか雑音を推定しないため、長い音声区間があると雑音の変化に追従できないという欠点もある。

このような背景から、音声区間でも継続して雑音を推定する雑音推定方法が開発されている（非特許文献１、非特許文献２、特許文献１参照）。非特許文献１、非特許文献２及び特許文献１に記載の雑音抑圧方法を適用した雑音抑圧装置（以下、従来の雑音抑圧装置と呼ぶ）の機能的構成は、いずれも、図５に示す機能ブロック図で表すことができる。

従来の雑音抑圧装置１００は、帯域分割手段１０１、Ｋ（Ｋは例えば２５６）個の帯域処理手段１０２_０〜１０２_Ｋ−１及び信号復元手段１０３を有する。帯域処理手段１０２_０〜１０２_Ｋ−１の添え字は帯域番号を表す。帯域分割手段１０１は、フィルタバンクに代表される任意の帯域分割手法又はフーリエ変換に代表される任意の周波数解析手法によって、入力音声（この明細書においては、適宜、各種信号や各種成分における「信号」や「成分」を省略して表現している）をＫ個の帯域に分割し、得られたＫ個の帯域入力音声は各帯域処理手段１０２_０〜１０２_Ｋ−１にそれぞれ与えられる。なお、入力音声等のデジタル信号は、サンプル単位で処理される他、適宜、１０ｍｓ等のフレーム単位でも処理される。

各帯域処理手段１０２_０〜１０２_Ｋ−１はそれぞれ、担当する帯域が異なるが、同様な処理を行うものである。帯域処理手段１０２（１０２_０〜１０２_Ｋ−１）は、図６に示すように、帯域雑音推定手段２０１及び雑音抑圧手段２０２を有する。帯域雑音推定手段２０２は、帯域ごとに雑音のパワーを推定し、得られた帯域雑音パワーを雑音抑圧手段２０２に与える。雑音抑圧手段２０２は、帯域入力音声と帯域雑音パワーを用いて、帯域入力音声中の音声成分を強調し、得られた帯域強調音声を図５の信号復元手段１０３に与える。信号復元手段１０３は、帯域分割手段１０１で用いた帯域分割手法又は周波数解析手法に対応する信号復元手法を用いて、帯域強調音声から時間波形を再構成し、得られた強調音声を出力する。

以下、帯域雑音推定手段２０１が実行する従来の雑音推定方法（非特許文献１、非特許文献２及び特許文献１に記載の雑音抑圧方法）を詳述する。以下では、簡単のために、帯域入力音声のパワーを入力パワーと呼び、帯域雑音パワーを雑音パワーと呼び、帯域番号を省略することとする。

非特許文献１に記載の雑音推定方法は、入力パワーの時間方向のピークが目的音声の存在を表す一方で、谷が平滑化した雑音パワーの推定に使えるという発見に基づいている。具体的には、現在から所定時間（Ｔ秒）過去までの入力パワーの最小値を、第１の雑音パワー推定値とする。しかし、第１の雑音パワー推定値はバイアスを有しており、真の雑音パワーよりも小さくなる性質を持つ。このバイアスは、第１の雑音パワー推定値の期待値から推定され、得られたバイアス推定値を用いて第１の雑音パワー推定値を補正して、第２の雑音パワー推定値（最終的な推定値）を得る。

非特許文献２に記載の雑音推定方法は、目的音声と雑音の複素スペクトルの分布がいずれも平均０の複素正規分布に従うという仮説に基づいて、雑音の複素スペクトルの分散の最尤推定値を雑音パワー推定値とする。この仮説に基づくと、入力音声の複素スペクトルの分布は、音声の複素スペクトルの分散と雑音の複素スペクトルの分散の和を分散とする平均０の複素正規分布となる。ここに現在の入力が劣化音声と雑音のどちらであるかに関する隠れ変数を導入して、忘却係数を伴ったオンラインＥＭ（ＥｘｐｅｃｔａｔｉｏｎＭａｘｉｍｉｚａｔｉｏｎ）アルゴリズムを適用することで、雑音の複素スペクトルの最尤推定値を算出することができる。

特許文献１に記載の雑音推定方法は、入力パワーに適切な重み係数を乗じて、得られた加重入力パワーを所定時間（Ｔ秒）分だけ記憶しておき、記憶された加重入力パワーの平均値を雑音パワー推定値とする。適切な重み係数は、現在の入力パワーを直前の雑音パワー推定値で除した事後ＳＮＲ（ＳＮＲはＳｉｇｎａｌ−ｔｏ−ＮｏｉｓｅＲａｔｉｏ）によって算出される。具体的には、事後ＳＮＲが所定の値Ｇ１以下では重み係数を１とし、事後ＳＮＲがＧ１以上では事後ＳＮＲに反比例するように重み係数を設定し、事後ＳＮＲが所定の値Ｇ２以上では重み係数を０とする。また、重み係数が０の場合には、加重入力パワーは記憶しない。

特開２００２−２０４１７５

Ｒ．Ｍａｒｔｉｎ、"ＳｐｅｃｔｒａｌＳｕｂｔｒａｃｔｉｏｎＢａｓｅｄｏｎＭｉｎｉｍｕｍＳｔａｔｉｓｔｉｃｓ"、ｉｎＰｒｏｃｅｅｄｉｎｇｓｏｆ７ｔｈＥｕｒｏｐｅａｎＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＣｏｎｆｅｒｅｎｃｅ、１９９４、ｐｐ．１１８２−１１８５Ｍ．Ｓｏｕｄｅｎ、Ｍ．Ｄｅｌｃｒｏｉｘ、Ｋ．Ｋｉｎｓｏｓｈｉｔａ、Ｔ．Ｙｏｓｈｉｏｋａ、ａｎｄＴ．Ｎａｋａｔａｎｉ、"ＮｏｉｓｅＰｏｗｅｒＳｐｅｃｔｒａｌＤｅｎｓｉｔｙＴｒａｃｋｉｎｇ：ＡＭａｘｉｍｕｍＬｉｋｅｌｉｈｏｏｄＰｅｒｓｐｅｃｔｉｖｅ"、ＩＥＥＥＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＬｅｔｔｅｒｓ、Ｖｏｌ．１９、Ｎｏ．８、２０１２、ｐｐ．４９５−４９８

しかし、従来の雑音推定方法は、以下に述べるような課題を有している。

非特許文献１に記載の雑音推定方法は、雑音が急に大きくなった場合に、後段の雑音抑圧方法によって不快に感じる雑音が残留するという課題を有している。具体的には、雑音が大きくなってから所定時間の間は、雑音パワー推定値は小さいままである。そして、雑音が大きくなってから所定時間後に、雑音パワー推定値は急激に増大する。そのような雑音パワー推定値を用いて雑音抑圧方法を動作させると、雑音が大きくなった瞬間に残留雑音も急に大きくなり、その所定時間後に残留雑音が急に小さくなる。残留雑音の急激な音量の変化は、聴取者に聴感上の不快感を与える。

非特許文献２に記載の雑音推定方法は、雑音レベルが変化すると雑音パワー推定値が過大になったり過小になったりするという課題を有している。この雑音推定方法で用いられているオンラインＥＭアルゴリズムは、次のような追従の速さと最尤推定の安定性とのトレードオフを有する。すなわち、忘却係数を大きくすると安定性が増して追従が遅くなり、忘却係数を小さくすると追従が速くなって安定性が下がる。その結果、忘却係数を大きくしても小さくしても雑音パワー推定値は不正確となり、後段の雑音抑圧方法によって得られる強調音声の歪みを増大させたり残留雑音が大きくなったりする。

特許文献１に記載の雑音推定方法は、雑音パワー推定値が、誤って音声に追従してしまうことや非定常雑音に追従して不安定になることが比較的少なく、それでいて雑音が変化した場合にも比較的速やかに追従することができる。しかし、重み係数が０とならないような音声区間が続いた後の雑音区間では、雑音区間に切り替わった約Ｔ秒後に雑音パワー推定値が急激に小さくなる現象が生じる。そのような雑音パワー推定値を用いて後段の雑音抑圧方法を動作させると、当該雑音区間で残留雑音が急激に大きくなるため、聴感上不自然な強調音声になってしまう。

以上のように、従来の雑音推定方法はいずれも、雑音パワー推定値が不安定になる課題や、雑音パワー推定値が急激に変化する課題を有するものであった。

本発明は、これらの課題に鑑みてなされたものであり、雑音パワーを安定的に推定できる雑音推定装置、方法及びプログラムを提供することを目的とする。

第１の本発明は、入力音声に含まれる雑音を推定する雑音推定装置において、（１）入力音声が帯域分割されたそれぞれの帯域入力音声毎に設けられた帯域雑音推定装置を備え、（２）上記各帯域雑音推定装置が、（２−１）帯域入力パワーを算出するパワー算出手段と、（２−２）雑音の定常性をモデリングした確率モデルの情報を保持している確率モデル保持手段と、（２−３）帯域入力パワーと、当該帯域雑音推定装置から出力される帯域雑音パワー推定値と、保持されている確率モデル情報とに基づいて、帯域雑音パワーの事後確率が最大となるように瞬時帯域雑音パワー推定値を算出する事後確率最大化手段とを具備し、（３）保持されている上記確率モデル情報は、（３−１）予測事後ＳＮＲに基づいた事後ＳＮＲに関する尤度関数と、（３−２）平均事後ＳＮＲが確定した条件の下での上記事後ＳＮＲの事前確率との情報を含むことを特徴とする。

ここで、上記各帯域雑音推定装置が、上記瞬時帯域雑音パワー推定値を時間平滑化し、上記帯域雑音パワー推定値を得る平滑化手段をさらに具備することが好ましい。

第２の本発明は、入力音声に含まれる雑音を推定する雑音推定方法において、（１）入力音声が帯域分割されたそれぞれの帯域入力音声毎に設けられた、パワー算出手段、確率モデル保持手段及び事後確率最大化手段を有する帯域雑音推定装置を備え、（２−１）上記各帯域雑音推定装置のパワー算出手段はそれぞれ、帯域入力パワーを算出し、（２−２）上記各帯域雑音推定装置の確率モデル保持手段は、雑音の定常性をモデリングした確率モデルの情報であって、予測事後ＳＮＲに基づいた事後ＳＮＲに関する尤度関数と、平均事後ＳＮＲが確定した条件の下での上記事後ＳＮＲの事前確率との情報を含む確率モデルの情報を保持し、（２−３）上記各帯域雑音推定装置の事後確率最大化手段はそれぞれ、帯域入力パワーと、当該帯域雑音推定装置から出力される帯域雑音パワー推定値と、保持されている確率モデル情報とに基づいて、帯域雑音パワーの事後確率が最大となるように瞬時帯域雑音パワー推定値を算出することを特徴とする。

ここで、上記各帯域雑音推定装置にさらに設けられた平滑化手段が瞬時帯域雑音パワー推定値を時間平滑化することが好ましい。

第３の本発明の雑音推定プログラムは、コンピュータを、（１）入力音声が帯域分割されたそれぞれの帯域入力音声毎に設けられた帯域雑音推定装置であって、（２−１）帯域入力パワーを算出するパワー算出手段と、（２−２）雑音の定常性をモデリングした確率モデルの情報であって、予測事後ＳＮＲに基づいた事後ＳＮＲに関する尤度関数と、平均事後ＳＮＲが確定した条件の下での上記事後ＳＮＲの事前確率との情報を含む確率モデルの情報を保持している確率モデル保持手段と、（２−３）帯域入力パワーと、当該帯域雑音推定装置から出力される帯域雑音パワー推定値と、保持されている確率モデル情報とに基づいて、帯域雑音パワーの事後確率が最大となるように瞬時帯域雑音パワー推定値を算出する事後確率最大化手段とを具備する帯域雑音推定装置として機能させることを特徴とする。

ここで、上記コンピュータが機能させられる上記各帯域雑音推定装置が、上記瞬時帯域雑音パワー推定値を時間平滑化する平滑化手段をさらに具備することが好ましい。

本発明によれば、帯域雑音パワー推定値を安定的に推定できる雑音推定装置、方法及びプログラムを提供できる。

第１の実施形態の雑音推定装置を構築するある帯域雑音推定装置の構成を示す機能ブロック図である。図１の帯域雑音推定装置における事後確率最大化手段の詳細構成を示す機能ブロック図である。第２の実施形態の雑音推定装置を構築するある帯域雑音推定装置の構成を示す機能ブロック図である。図３の帯域雑音推定装置における事後確率最大化手段の詳細構成を示す機能ブロック図である。従来の雑音抑圧装置の構成を示す機能ブロック図である。図５の帯域処理手段の内部構成を示す機能ブロック図である。

（Ａ）各実施形態により本発明の目的を達成できる理由
第１の実施形態及び変形実施形態の説明に先立ち、各実施形態に至った考え方や、各実施形態により本発明の目的である雑音パワーを安定的に推定できる理由を説明する。

なお、以下でも、引き続いて、帯域入力音声のパワーを入力パワー若しくは帯域入力パワーと呼び、帯域ごとに推定された雑音のパワーを雑音パワー若しくは帯域雑音パワーと呼び、基本的には帯域番号を付さないで説明するが、以下で説明する雑音推定方法は帯域ごとに行われることに注意する。すなわち、帯域ごとに行われる処理は同様であるが、入力される帯域入力音声や出力される雑音パワー推定値は帯域ごとで異なる値となっている。

雑音推定方法において最も注意しなければならない点は、雑音推定値が目的音声を含まないようにすることである。仮に、雑音推定値が目的音声を含むと、例えば、後段の雑音抑圧処理によって得られる強調音声が歪んだり小さくなったりしてしまい、強調音声の明瞭度や単語了解度を向上させるという雑音抑圧処理の目的を果たせない。

一方、雑音推定には、非定常な雑音も推定できる性能を求められることもある。しかし、非定常雑音と音声とを区別するのは難しいため、非定常雑音を推定する性能と雑音推定値が音声を含まない性能との間にはトレードオフの関係がある。それゆえ、今までは、安定性の高い雑音推定方法は定常雑音しか推定できず、非定常雑音を推定できる雑音推定方法は雑音推定値が音声を含んでしまって安定性が低くなる、という課題があった。

そこで、各実施形態では、推定対象を定常雑音に限定することによって、より高い安定性を有する雑音推定を実現する。このために、最大事後確率（ＭａｘｉｍｕｍＡＰｏｓｔｅｒｉｏｒｉ：ＭＡＰ）推定の枠組みを用いる。ここで、雑音の定常性とは、雑音の確率分布（確率密度関数）が時間によって変化しないことを呼んでいる。

後で雑音の定常性を導入するので、時刻ｔにおいて、過去の雑音パワーＮ_ｔ−１、Ｎ_ｔ−２、…が観測された条件の下で、現在の雑音パワーＮ_ｔの事後確率が最大となるように雑音パワーＮ_ｔを算出する問題を考える。但し、パワーは対数尺度の方が扱い易いので、これ以降は、帯域雑音対数パワー＾Ｎ_ｔ＝１０ｌｏｇ_１０Ｎ_ｔについて考える。ここで、帯域雑音対数パワーの単位がデシベルとなるような対数変換を行っているが、対数の底はネイピア数や２でも良く、１０倍しなくても良く、１０以外の他の任意の定数係数を乗じても良い。

帯域雑音対数パワーＮ_ｔには、まだ、集音環境やマイク感度による自由度が残っている。これを正規化するために、ここでは帯域雑音対数パワーを直接扱うのでなく、帯域雑音対数パワーを帯域入力対数パワーから減じた（すなわち、雑音パワーで入力パワーを除した）事後ＳＮＲを使うこととする。

推定対象である時刻ｔでの事後ＳＮＲ＾γ_ｔは、帯域入力対数パワーを＾Ｘ_ｔとおくと、（１）式で表される。雑音の定常性を導入するために、時刻ｔの帯域入力対数パワー＾Ｘ_ｔを所定時間だけ過去の帯域雑音対数パワー＾Ｎ_ｔ−ｍで減じた、（２）式で表される予測事後ＳＮＲγ_{ｔ｜ｔ−ｍ}を導入する。ここで、時間差ｍは任意であるが、直前の値（直前フレームの値）、すなわち、ｍ＝１の帯域雑音対数パワーＮ_ｔ−１を用いるのが最良である。さらに、（３）式で表される過去の平均事後ＳＮＲ￣γ_ｔ−１を導入する。

平均事後ＳＮＲ￣γ_ｔ−１を導入する意図は、事後ＳＮＲの潜在的な分布が集音時の雑音レベルの大小の影響を受けることをモデルに組み込むためである。例えば、事後ＳＮＲが２０ｄＢや３０ｄＢとなることは、無響室のような雑音がほとんど存在しない環境ではよくあるが、工事現場のような音声がほとんど聞き取れないような劣悪な環境ではほとんど生じない。

以上の３つの事後ＳＮＲを使うと、最大化すべき事後確率は、（４）式の左辺に記述しているように、予測事後ＳＮＲ＾γ_{ｔ｜ｔ−ｍ}と過去の平均事後ＳＮＲ￣γ_ｔ−１とが確定している条件下で事後ＳＮＲ＾γ_ｔが生じる確率となり、これをベイズの定理で展開すると、（４）式の右辺が得られる。

（４）式の最大化は事後ＳＮＲ＾γ_ｔに対して行うので、右辺の分母は最大化には影響しない。また、右辺におけるｐ（￣γ_ｔ−１）は、集音時の雑音レベルの潜在的な確率を意味しているが、どのような環境で集音するかは不確定であるのが普通なので、一様分布を仮定することにする。これにより、３つの確率の乗算で表されている（４）式の右辺の分子における、前側の２つの確率の乗算値の最大化を図れば良い。さらに、ＭＡＰ推定は、線形な事後確率よりも対数事後確率を最大化する方が簡単なケースが多いことも考慮する。このような考慮を加えることにより、事後ＳＮＲ＾γ_ｔの最適値を算出する評価関数Ｊ_ｍａｐ（＾γ_ｔ）を、（５）式で定義することとした。

（５）式の右辺第１項は、事後ＳＮＲ＾γ_ｔの対数尤度関数である。また、（５）式の右辺第１項は、現在（時刻ｔ）の事後ＳＮＲ＾γ_ｔと、現在の帯域入力対数パワー＾Ｘ_ｔを所定時間だけ過去の帯域雑音対数パワー＾Ｎ_ｔ−ｍで減じた事後ＳＮＲ＾γ_{ｔ｜ｔ−ｍ}の関係、言い換えると、現在の帯域雑音対数パワー＾Ｎ_ｔと、時間差ｍだけ過去の帯域雑音対数パワー＾Ｎ_ｔ−ｍが生じた場合における現在の帯域雑音対数パワーの推定値＾Ｎ_{ｔ｜ｔ−ｍ}の関係を表していることから、これは雑音の定常性を表している。条件に、１単位時間だけ過去の平均事後ＳＮＲ￣γ_ｔ−１が含まれているが、対数尺度では雑音の定常性の特性は、過去の平均事後ＳＮＲ￣γ_ｔ−１に依らず不変と考えられる（線形尺度で雑音パワーの時間変化量を考えると、過去の平均事後ＳＮＲと比例するが、対数尺度では対数雑音パワーの時間変化率を考えているためである）。従って、（５）式は、（６）式のように書き直すことができる。

（６）式の右辺第２項は、過去の平均事後ＳＮＲ￣γ_ｔ−１を条件とした現在の事後ＳＮＲ＾γ_ｔの対数事前確率、すなわち、平均事後ＳＮＲが￣γ_ｔ−１である集音環境における現在の事後ＳＮＲ＾γ_ｔの出現確率を意味している。

尤度関数及び事前確率は、互いの極端な最適化を抑制し是正する働きを持つ。定常性を表す尤度関数だけを使って最適化すると、最も高い定常性が得られる＾γ_ｔ＝＾γ_{ｔ｜ｔ−ｍ}が解となるので事後ＳＮＲが更新されなくなる。また、先天的な出現確率を表す事前確率だけを使って最適化すると、常に事前確率が最も高くなる＾γ_ｔが解となるので定常性が考慮されなくなる。それに対して、（６）式によって最適化すると、定常性と先天的な出現確率の両方を満たそうとするため、極端ではない適切な解を得ることができる。

今、（６）式の最適解が＾γ^＊ _ｔであるとする。現在の帯域入力（対数）パワー＾Ｘｔと共にこの最適解＾γ^＊ _ｔを（１）式に適用すると、（７）式に示すように、最適解を適用した帯域雑音対数パワー＾Ｎ^＊ _ｔが得られる。帯域雑音パワーＮ_ｔと帯域雑音対数パワー＾Ｎ_ｔとの間には、上述したように、＾Ｎ_ｔ＝１０ｌｏｇ_１０Ｎ_ｔという関係があり、この関係式を（７）式に代入することにより、帯域雑音パワーの推定値（最適値）Ｎ^＊ _ｔは、（８）式で表される。

ここで、（８）式は、帯域雑音対数パワー＾Ｎ_ｔの単位がデシベルであることが前提となっているが、上述したように、対数変換を他の方法で行った場合には、底や定数倍の値などがその方法に対応した異なる式を、（８）式の代わりに使うこととなる。

ところで、（８）式の帯域雑音パワーの推定値Ｎ^＊ _ｔは、瞬時的な推定誤差を含んでいる（（７）式の帯域雑音対数パワーの推定値＾Ｎ^＊ _ｔも同様）。必ずしも瞬時的な推定誤差の除去は必要ではないが、時間平滑化することによって、その推定誤差の影響を軽減することができる。そのため、ＭＡＰ推定によって得られた帯域雑音パワーの推定値Ｎ^＊ _ｔを帯域雑音パワーの瞬時推定値として時間平滑化し、最終的な帯域雑音パワーの推定値￣Ｎ^＊ _ｔを得ることとした。時間平滑化方法は限定されないが、例えば、（９）式に示すような直前所定期間の帯域雑音パワーの瞬時推定値Ｎ^＊ _ｔの平均値を求めるものであっても良く、また例えば、（１０）式に示すような直前の平滑化された値￣Ｎ^＊ _ｔ−１と今回の帯域雑音パワーの最適値Ｎ^＊ _ｔ−１との重み付け加算値を求めるものであっても良い（αは重み付け係数）。

以上では、帯域雑音パワーの瞬時推定値Ｎ^＊ _ｔを時間平滑化する場合を示したが、帯域雑音対数パワーの瞬時推定値＾Ｎ^＊ _ｔの段階で時間平滑化を行うようにしても良い。この場合には、時間平滑化により得られた帯域雑音対数パワーの推定値に対して、上述した（８）式を適用して線形尺度に変換して、帯域雑音パワーの推定値￣Ｎ^＊ _ｔを得ることとなる。

次に、（６）式に示す評価関数Ｊ_ｍａｐ（＾γ_ｔ）を規定する尤度関数と事前確率の具体的な関数形（後述する各実施形態の説明では確率モデル情報と呼んでいる）を考える。

尤度関数ｐ（＾γ_{ｔ｜ｔ−ｍ}｜＾γ_ｔ）は、（１）式及び(２)式を代入することにより、ｐ（＾Ｘ_ｔ−＾Ｎ_ｔ−ｍ｜＾Ｘ_ｔ−＾Ｎ_ｔ）と書くことができる。この書き換えた尤度関数をｐ（＾Ｎ_ｔ−ｍ｜＾Ｎ_ｔ）と比較すると、一方の関数の帯域雑音対数パワー＾Ｎ_ｔ−ｍ及び＾Ｎ_ｔの符号を反転させて同じだけ平行移動させたものが他方の関数となっているから、確率密度関数の分布形状は同様であり、ｐ（＾γ_{ｔ｜ｔ−ｍ}｜＾γ_ｔ）に代えてｐ（＾Ｎ_ｔ−ｍ｜＾Ｎ_ｔ）を考慮しても良いことが分かる。この関数ｐ（＾Ｎ_ｔ−ｍ｜＾Ｎ_ｔ）は、現在の帯域雑音対数パワー＾Ｎ_ｔが確定した条件の下での時間差ｍ分（ｍフレーム）だけ過去の帯域雑音対数パワー＾Ｎ_ｔ−ｍの出現確率であるから、定常性を考慮すると、＾Ｎ_ｔ−ｍ＝＾Ｎ_ｔで最も大きな確率となり、過去の帯域雑音対数パワー＾Ｎ_ｔ−ｍが現在の帯域雑音対数パワー＾Ｎ_ｔから離れるほど確率は小さくなるべきである（言い換えると、｜＾Ｎ_ｔ−ｍ−＾Ｎ_ｔ｜→∞でｐ（＾Ｎ_ｔ−ｍ｜＾Ｎ_ｔ）→０となるベきである）。すなわち、帯域雑音対数パワー＾Ｎ_ｔの尤度関数ｐ（＾Ｎ_ｔ−ｍ｜＾Ｎ_ｔ）として、左右対称の山形状の確率密度関数を適用すれば良い。

このような左右対称の山形状の確率密度関数の代表は正規分布である。そこで、帯域雑音対数パワー＾Ｎ_ｔの尤度関数（Ｎ_ｔ−ｍの条件付き確率密度関数）ｐ（＾Ｎ_ｔ−ｍ｜＾Ｎ_ｔ）を正規分布でモデリングすると、（１１）式で表すことができる。（１１）式において、σ^２は正規分布の分散パラメータであり、定常性の強さを表す。例えば、σ^２として４２を適用できる。

また、より柔軟なモデルとして、尤度関数ｐ（＾Ｎ_ｔ−ｍ｜＾Ｎ_ｔ）に、（１２）式に示すような一般化正規分布を選択することも可能である。（１２）式において、Γ（・）はガンマ関数であり、αとβは定常性の特性を決めるパラメータである。例えば、α＝７．６、β＝１．９を適用できる。

以上の２例以外にも、＾Ｎ_ｔ−ｍ＝＾Ｎ_ｔで最も大きな確率となり、｜＾Ｎ_ｔ−ｍ−＾Ｎ_ｔ｜→∞でｐ（＾Ｎ_ｔ−ｍ｜＾Ｎ_ｔ）→０となるような任意の確率密度関数を、尤度関数ｐ（＾Ｎ_ｔ−ｍ｜＾Ｎ_ｔ）として選択することができる。

事後ＳＮＲで表現される尤度関数ｐ（＾γ_{ｔ｜ｔ−ｍ}｜＾γ_ｔ）は、（１１）式又は（１２）式の変数（帯域雑音対数パワーの部分）＾Ｎ_ｔ−ｍ−＾Ｎ_ｔを、（１３）式のように変形することによって得ることができる。

次に、（６）式に示す評価関数Ｊ_ｍａｐ（＾γ_ｔ）を規定する事前確率について考察する。すなわち、過去の平均事後ＳＮＲ￣γ_ｔ−１を条件とした現在の事後ＳＮＲ＾γ_ｔの事前確率ｐ（＾γ_ｔ｜￣γ_ｔ−１）について考察する。

第１に、（１）式で表される現在の事後ＳＮＲ＾γ_ｔの取り得る値の範囲について考察する。入力音声は、音声と雑音の両方を含んでいるので帯域入力対数パワー＾Ｘ_ｔは帯域雑音対数パワー＾Ｎ_ｔより小さくならないので、事後ＳＮＲ＾γ_ｔは非負である。第２に、音声のスパース性（出現がまばらである性質）について考察する。一般に、音声の時間周波数表現はスパースであることから、帯域入力対数パワー＾Ｘ_ｔが帯域雑音対数パワー＾Ｎ_ｔと等しくなる頻度が高いため、出現確率が一番高いのは、事後ＳＮＲ＾γ_ｔが０（ｄＢ）のときである。第３に、高ＳＮＲの出現確率について考察する。音声の大きさは有限であるから帯域入力対数パワー＾Ｘ_ｔも有限であり、一方、雑音は、音声に比してスパース性が弱いために小さな値を取り難くなるので、事前確率ｐ（＾γ_ｔ｜￣γ_ｔ−１）は＾γ_ｔ→∞で０に収束する。

以上の３つの考察より、過去の平均事後ＳＮＲ￣γ_ｔ−１を条件とした現在の事後ＳＮＲ＾γ_ｔの事前確率ｐ（＾γ_ｔ｜￣γ_ｔ−１）の候補の一つとして、（１４）式に示す指数分布を選ぶことは自然である（但し、後述するように指数分布に限定されない）。

（１４）式において、λ_ｔは分布の広がりを表すパラメータであり、λ_ｔが小さいほど分布の広がりは大きい。平均事後ＳＮＲ￣γ_ｔ−１が大きくなるほど現在の事後ＳＮＲ＾γ_ｔも大きな値を取り易くなるから、パラメータλ_ｔは平均事後ＳＮＲ￣γ_ｔ−１に反比例するか、平均事後ＳＮＲ￣γ_ｔ−１と負の相関を持つように決定する。例えば、パラメータλ_ｔを（１５）式に従って算出する。

以上では、事前確率ｐ（＾γ_ｔ｜￣γ_ｔ−１）として指数分布を適用可能であることを説明したが、指数分布以外にも、上述した３つの考察が示す条件を満たす任意の確率密度関数を事前確率として選択することができる。例えば、ガンマ分布や片側正規分布や、より柔軟な片側一般化正規分布を適用できる。

次に、（６）式に示す評価関数Ｊ_ｍａｐ（＾γ_ｔ）を最大化する事後ＳＮＲ＾γ_ｔの最適解＾γ^＊ _ｔを求める方法を説明する。最適解＾γ^＊ _ｔは、評価関数Ｊ_ｍａｐ（＾γ_ｔ）を最大化する現在の事後ＳＮＲ＾γ_ｔであるから、（６）式の右辺を現在の事後ＳＮＲ＾γ_ｔで微分した式が０となるような現在の事後ＳＮＲ＾γ^＊ _ｔを求めれば良い。

（６）式に示す評価関数Ｊ_ｍａｐ（＾γ_ｔ）における尤度関数に（１１）式に示す正規分布を適用し、事前確率に（１４）式に示す指数分布を適用した場合、最適解＾γ^＊ _ｔは、（１６）式のように求めることができる。また、（６）式に示す評価関数Ｊ_ｍａｐ（＾γ_ｔ）における尤度関数に（１２）式に示す一般化正規分布を適用し、事前確率に（１４）式に示す指数分布を適用した場合、最適解＾γ^＊ _ｔは、（１７）式のように求めることができる。（１６）式及び（１７）式において、ｍａｘ｛ａ，ｂ｝はａとｂの大きい方を選択する関数であり、第１の考察で説明した非負を実現するために導入した関数である。

いずれの場合も、予測事後ＳＮＲ＾γ_{ｔ｜ｔ−ｍ}からある値を減じたものが最適解＾γ^＊ _ｔとなっている。すなわち、（１６）式においては（１９）式のように、（１７）式においては（２０）式のように係数＾ｒ_ｔを決めると、（１６）式及び（１７）式は共に（２１）式のように表現することができる。なお、係数＾ｒ_ｔは（１８）式に示すように、係数ｒ_ｔの対数である。

この（２１）式と上述した（７）式とより、帯域雑音対数パワーの瞬時推定値＾Ｎ^＊ _ｔは（２２）式によって算出でき、この（２２）式と、対数尺度から線形尺度への変換式（例えば、（１８）式参照）とから、帯域雑音パワーの瞬時推定値Ｎ^＊ _ｔは（２３）式によって算出できる。（２２）式及び（２３）式において、ｍｉｎ｛ａ，ｂ｝はａとｂの小さい方を選択する関数である。

（２３）式から、帯域雑音パワーの瞬時推定値は、過去の平均事後ＳＮＲに対して最適な割合で常に増大するが、帯域入力パワーより大きくなることはないことが分かる。増大の継続と帯域入力パワーを上限としていることで、集音環境が少しずつ変化する場合や雑音が急激に小さくなった場合には速やかに追従することができる。一方、雑音が急激に大きくなった場合には、環境の変化直後は平均事後ＳＮＲが大きくなるために追従が遅れるが、雑音パワー瞬時推定値を増大させ続けることで次第に環境に適応していくことができる。

（２３）式は滑らかでないｍｉｎ関数を含むため、推定値に小刻みな変動が生じて聴感上不自然になる恐れがある。そのため、上述した（９）式や（１０）式に示したように、これを時間平滑化することが好ましく、時間平滑化することによりさらに自然で安定な帯域雑音パワーの推定値を得ることができる。

（Ｂ）第１の実施形態
以下、本発明による雑音推定装置、方法及びプログラムの第１の実施形態を、図面を参照しながら説明する。

（Ｂ−１）第１の実施形態の構成
第１の実施形態の雑音推定装置は、異なる帯域入力音声が入力される帯域分割数の帯域雑音推定装置を有する。各帯域雑音推定装置は同様な機能的な構成を有する。ここで、各帯域雑音推定装置若しくは雑音推定装置は、ハードウェアで構成することも可能であり、また、ＣＰＵが実行するソフトウェア（帯域雑音推定プログラム若しくは雑音推定プログラム）とＣＰＵとで実現することも可能であるが、いずれの実現方法を採用した場合であっても、同様な機能ブロック図で表すことができる。

図１は、第１の実施形態の雑音推定装置を構築する、ある一つの帯域雑音推定装置の構成を示す機能ブロック図である。

図１において、第１の実施形態の帯域雑音推定装置３００は、パワー算出手段３０１、確率モデル保持手段３０２、事後確率最大化手段３０３及び平滑化手段３０４を有する。

第１の実施形態の雑音推定装置へ帯域分割されていない入力音声が入力される場合であれば、図示しない帯域分割手段によって帯域を分割し、帯域入力音声をそれぞれ帯域雑音推定装置３００（３００_０〜３００_Ｋ−１）へ与える。また、前段の処理装置から第１の実施形態の雑音推定装置へ帯域別の入力音声が与えられる場合であれば、入力された帯域入力音声をそれぞれ帯域雑音推定装置３００（３００_０〜３００_Ｋ−１）へ与える。

図示しない帯域分割手段は、従来の技術の項で説明した帯域分割手段１０１と同様なものであり、例えば、デジタル信号でなる入力音声をフレーム単位に帯域分割するものである。帯域分割手段は、入力音声の帯域を等分割するものであっても良く、入力音声の帯域を不等分分割するものであっても良い。不等分分割には、直交ミラーフィルタ（ＱＭＦ）やウェーブレット変換等を適用することができる。

各帯域雑音推定装置３００はそれぞれ、自己に割り当てられた帯域入力音声に対し、上述の考え方に従って、その帯域入力音声に含まれている雑音を推定するものである。

帯域雑音推定装置３００のパワー算出手段３０１は、帯域入力音声のパワーを算出し、得られた帯域入力パワーを事後確率最大化手段３０３に与えるものである。パワーの算出方法は限定されるものではない。例えば、帯域入力音声の現在から所定時間過去までのサンプル値の２乗和や絶対値和を帯域入力パワーとする方法を適用することができる。また、帯域入力音声の値を正値に変化する他の方法をパワー算出方法として適用するようにしても良い。

確率モデル保持手段３０２は、事前に設計された雑音の定常性に関する確率モデルの情報（以下、単に確率モデルと呼ぶ）を保持しておくものであり、保持している確率モデルを事後確率最大化手段３０３に与える。第１の実施形態における確率モデルは、ＭＡＰ推定に基づいたモデルであり、上述した考え方に従ったモデルである。確率モデルの設計例については、動作の説明の項で明らかにする。

事後確率最大化手段３０３は、現在の帯域入力パワーと、平滑化手段３０４から出力された所定時間だけ過去（例えば、数フレーム前）の帯域雑音パワーの推定値、及び、確率モデル保持手段３０２に保持されている確率モデルに基づいて、帯域雑音パワーのＭＡＰ推定を行い、得られた瞬時帯域雑音パワー推定値（帯域雑音パワー瞬時推定値）を平滑化手段３０４に与えるものである。

平滑化手段３０４は、瞬時帯域雑音パワー推定値を時間平滑化し、得られた帯域雑音パワー推定値を、事後確率最大化手段３０３にフィードバックすると共に、当該帯域雑音推定装置３００の出力として送出するものである。平滑化方法は、限定されるものではないが、例えば、（９）式に示したように直前所定期間の瞬時帯域雑音パワー推定値の平均値を求めるものであっても良く、また例えば、（１０）式に示したように直前の平滑化された値と今回の瞬時帯域雑音パワー推定値との重み付け加算値を求めるものであっても良い。

なお、第１の実施形態は、帯域別の雑音パワー推定値の組を、後段の処理部が利用する場合（例えば、雑音抑圧）を想定しているが、帯域別の雑音パワー推定値を統合した後、時間領域の信号に変換して後段の処理部へ与えるようにしても良い。

（Ｂ−２）第１の実施形態の動作
次に、第１の実施形態の雑音推定装置の動作（雑音推定方法）を説明する。

第１の実施形態の雑音推定装置に入力された入力音声は、図示しない帯域分割手段において帯域分割され、得られたＫ個の帯域入力音声はそれぞれ、対応する各帯域処理手段３００（３００_０〜３００_Ｋ−１）に与えられる。

各帯域入力音声に含まれている雑音は、帯域入力音声に対応する帯域雑音推定装置３００_０〜３００_Ｋ−１によって推定され、得られた帯域雑音パワー推定値がそれぞれ、帯域雑音推定装置３００_０〜３００_Ｋ−１から出力される。

各帯域雑音推定手段３００内では、以下のような処理が実行される。

帯域入力音声はパワー算出手段３０１に与えられ、パワー算出手段３０１によって帯域入力音声のパワーが算出され、得られた帯域入力パワーが事後確率最大化手段３０３に与えられる。

事前に設計された雑音の定常性に関する確率モデル（の情報）は、確率モデル保持手段３０２に保持されており、その確率モデルは事後確率最大化手段３０３に与えられる。

第１の実施形態における確率モデルとは、上述した（６）式における尤度関数ｐ（＾γ_{ｔ｜ｔ−ｍ}｜＾γ_ｔ）と事前確率ｐ（＾γ_ｔ｜￣γ_ｔ−ｍ）の関数形と、これら関数のパラメータとを意味する。

第１の実施形態において、時間差ｍは、１単位時間、すなわちｍ＝１とする。

尤度関数ｐ（＾γ_{ｔ｜ｔ−１}｜＾γ_ｔ）は、確率密度関数としてとらえた場合には現在の事後ＳＮＲが確定した条件の下で予測事後ＳＮＲが観測される確率であり、現在の事後ＳＮＲを変数とする。該尤度関数には、予測事後ＳＮＲが現在の事後ＳＮＲと等しいときに最大となり、予測事後ＳＮＲが現在の事後ＳＮＲから離れるほど０に近づくような任意の確率密度関数を選択することができるが、ここでは、例として、上述した（１１）式に示した平均値が０の正規分布を適用する。正規分布は分散パラメータσ^２を有しており、例えば、分散パラメータσ^２として４２を適用できる。

事前確率ｐ（＾γ_ｔ｜￣γ_ｔ−１）は、過去の平均事後ＳＮＲの下で現在の事後ＳＮＲが観測される潜在的な確率である。該事前確率には、現在の事後ＳＮＲが非負で定義され、現在の事後ＳＮＲが０ｄＢのときに最大となり、現在の事後ＳＮＲが大きくなるほど０に近付くような任意の確率密度関数を選択することができるが、ここでは、例として、上述した（１４）式に示した指数分布を適用する。指数分布は、速度パラメータλ_ｔを有している。速度パラメータλ_ｔは過去の平均事後ＳＮＲにより変化する。速度パラメータλ_ｔの算出方法は、過去の平均事後ＳＮＲと反比例の関係になる、又は、負の比例関係になる任意の方法を選択することができるが、一例として、上述した（１５）式に従って算出されたものを適用する。

確率モデルは任意のタイミングで変更することが可能である。また、その変更は、分散パラメータσ^２の値や（１５）式の数値を更新するだけでも良く、速度パラメータλ_ｔの算出方法を変更しても良く、尤度関数ｐ（＾γ_{ｔ｜ｔ−１}｜＾γ_ｔ）や事前確率ｐ（＾γ_ｔ｜￣γ_ｔ−１）の関数形を変更しても良く、時間差ｍを変更しても良い。

事後確率最大化手段３０３において、現在の帯域入力パワー、所定時間過去の帯域雑音パワー推定値、及び、確率モデル保持手段３０２に保持されている確率モデルに基づいて、雑音パワーのＭＡＰ推定が実行され、得られた雑音パワー瞬時推定値が平滑化手段３０４に与えられる。

図２は、第１の実施形態における事後確率最大化手段３０３の詳細構成を示す機能ブロック図である。

事後確率最大化手段３０３は、帯域雑音パワー推定値遅延部４０１、帯域入力パワー遅延部４０２、事後ＳＮＲ算出部４０３、平滑化部４０４、係数決定部４０５、乗算部４０６及び比較部４０７を有する。

パワー算出手段３０１から与えられた帯域入力パワーは、乗算部４０７に与えられると共に、帯域入力パワー遅延部４０２を介して単位処理時間（例えば１フレーム時間）だけ遅延された後に事後ＳＮＲ算出部４０３に与えられる。また、平滑化手段３０４から与えられた帯域雑音パワー推定値は、帯域雑音パワー推定値遅延部４０１を介して単位処理時間だけ遅延された後に事後ＳＮＲ算出部４０３及び乗算部４０６に与えられる。さらに、確率モデル保持手段３０２から与えられた確率モデルは係数決定部４０５に与えられる。

事後ＳＮＲ算出部４０３においては、前回入力された帯域入力パワーが前回算出された帯域雑音パワー推定値で除算され、これにより、前回の事後ＳＮＲが算出され、平滑部４０４に与えられる。

平滑化部４０４には、事後ＳＮＲ算出部４０３から与えられた過去の事後ＳＮＲが少なくとも１つ以上記憶されている。そして、平滑化部４０４において、記憶されている過去の事後ＳＮＲが適用されて、新たに与えられた前回の事後ＳＮＲが時間平滑化され、得られた平均事後ＳＮＲが係数決定部４０５に与えられる。

平滑化部４０４による時間平滑化の方法は限定されるものではなく、任意の方法を適用することができる。時間平滑化の代表的な方法には、移動平均法と時定数フィルタ（リーク積分とも呼ばれる）があるが、ここでは、例として移動平均法を使うこととする。現在の時刻をｔとして、Ｔ個の過去の事後ＳＮＲを使う場合、現在の事後ＳＮＲをγ_ｔと書くことにすると、移動平均法による前回までの平均事後ＳＮＲγ_ｔ−１は（２４）式で定義される。例えば、Ｔは２０とする。なお、（２４）式の代わりに（２５）式の更新則を使うと、加減算を（Ｔ−３）回だけ減らせて効率を向上させることができる。

係数算出部４０５においては、確率モデル保持手段３０２から与えられた確率モデルのパラメータ（第１の実施形態の場合σ^２及びλ_ｔ）と平滑化部４０４から与えられた平均事後ＳＮＲ￣γ_ｔ−１とに基づいて、雑音増幅係数ｒ_ｔが算出され、得られた雑音増幅係数ｒ_ｔが乗算部４０６に与えられる。第１の実施形態では、確率モデルにおける尤度関数として正規分布を適用しているので、雑音増幅係数ｒ_ｔは、上述した（１９）式によって算出される。

乗算部４０６においては、帯域雑音パワー推定値遅延部４０１から与えられた前回の帯域雑音パワー推定値に、係数決定部４０５から得られた雑音増幅係数ｒ_ｔが乗算されて帯域雑音パワー暫定推定値が算出し、得られた帯域雑音パワー暫定推定値が比較部４０７へ与えられる。

比較部４０７においては、パワー算出手段３０１から与えられた現在の帯域入力パワーと乗算部４０６から与えられた帯域雑音パワー暫定推定値とが比較され、小さい方が帯域雑音パワー瞬時推定値として選択され、得られた雑音パワー瞬時推定値が平滑化手段３０４へ与えられる。すなわち、（２３）式の演算が比較部４０７によって実行されている。

図１に戻り、平滑化手段３０４には、事後確率最大化手段３０３から与えられた帯域雑音パワー瞬時推定値が少なくとも１つ以上記憶されている。そして、平滑化手段３０４において、記憶されている帯域雑音パワー瞬時推定値が適用されて、新たに与えられた帯域雑音パワー瞬時推定値が時間平滑化され、得られた雑音パワー推定値は事後確率最大化手段３０３にフィードバックされると共に当該帯域雑音推定装置３００からの出力として送出される。

平滑化手段３０４による時間平滑化の方法も限定されるものではなく、任意の方法を適用して良い。例えば、移動平均法を適用することができる。

（Ｂ−３）第１の実施形態の効果
第１の実施形態によれば、定常な帯域雑音パワーを安定的に推定することができる。仮に、第１の実施形態の雑音推定装置を、雑音抑圧装置（図５及び図６参照）に組み込んだ場合には、強調音声の歪みを小さく抑えることができる。

（Ｃ）第２の実施形態
次に、本発明による雑音推定装置、方法及びプログラムの第２の実施形態を、図面を参照しながら説明する。

第２の実施形態の雑音推定装置も、異なる帯域入力音声が入力される帯域分割数の帯域雑音推定装置を有する。図３は、第２の実施形態の雑音推定装置を構築する、ある一つの帯域雑音推定装置の構成を示す機能ブロック図であり、第１の実施形態に係る図１との同一、対応部分には同一、対応符号を付して示している。

図３において、第２の実施形態の帯域雑音推定装置３００Ａも、パワー算出手段３０１、確率モデル保持手段３０２、事後確率最大化手段３０３Ａ及び平滑化手段３０４を有し、事後確率最大化手段３０３Ａが第１の実施形態の事後確率最大化手段３０３と異なっている。

図４は、第２の実施形態における事後確率最大化手段３０３Ａの詳細構成を示す機能ブロック図であり、第１の実施形態に係る図２との同一、対応部分には同一、対応符号を付して示している。

図４において、事後確率最大化手段３０３Ａは、帯域雑音パワー推定値遅延部４０１、帯域入力パワー遅延部４０２、事後ＳＮＲ算出部４０３、係数決定部４０５、乗算部４０６及び比較部４０７を有する。

すなわち、第２の実施形態における事後確率最大化手段３０３Ａは、第１の実施形態における事後確率最大化手段３０３に比較すると、平滑部４０４が設けられていない点が異なる。従って、事後ＳＮＲ算出部４０３から出力される前回の事後ＳＮＲが係数決定部４０５に直接与えられるようになされており、係数決定部４０５において前回の事後ＳＮＲが適用されて雑音増幅係数ｒ_ｔが決定される。

以上の点を除けば、第２の実施形態の帯域雑音推定装置３００Ａは、第１の実施形態の帯域雑音推定装置３００と同様である。

前回の事後ＳＮＲを時間平滑化しないことは、第１の実施形態の説明で言及した時間平滑化の演算式である（２４）式若しくは（２５）式のＴの部分に「１」を代入したことと同じである。これは、前回までの平均事後ＳＮＲの代表として、前回の事後ＳＮＲを選んでいることを意味する。平均事後ＳＮＲは、現在の集音環境を推測するパラメータの一つであり、時間平滑化を行わないことで情報量が減少し集音環境の推定値という意味での推定精度は低下するが、これにより生じる推定誤差は後段の平滑化手段３０４で低減されるので、その影響は小さい。一方で、時間平滑化しないことは処理量低減とリソース削減のメリットを生じる。

第２の実施形態によれば、より少ない処理量とリソースで定常な雑音パワーを安定的に推定することができる。

（Ｄ）他の実施形態
以上でも、種々の変形実施形態に言及したが、さらに、以下に例示するような変形実施形態を挙げることができる。

上記各実施形態においては、全ての帯域の確率モデル保持手段が同じ確率モデルの情報を保持しているものを示したが、帯域によって、確率モデルの情報が異なっていても良い。例えば、尤度関数に正規分布を適用する場合であっても、分散パラメータσ^２として、帯域毎に異なる値を設定するようにしても良い。また、尤度関数として、帯域毎に、正規分布を適用するか一般化正規分布を適用するかを設定するようにしても良い。さらに、事前確率の確率密度関数に指数分布を適用する場合において、パラメータλ_ｔとして、帯域毎に異なる値を設定するようにしても良い。さらにまた、事前確率の確率密度関数として、帯域毎に、指数分布、ガンマ分布、片側正規分布、片側一般化正規分布等のいずれを適用するかを設定するようにしても良い。

上記各実施形態においては、帯域雑音推定装置３００、３００Ａにおける確率モデル保持手段３０２が１個の確率モデル情報を保持している場合を示したが、複数の確率モデル情報を保持しておき、適用するものを選択できるようにしても良い。例えば、利用者の選択操作に応じて、適用する確率モデル情報を定めるようにしても良い。また例えば、帯域入力パワーについての予め定められている統計量を複数算出し、算出した統計量に基づいて、各統計量が属する段階の組合せ（適用条件）と確率モデル情報とを対応付けたテーブルをアクセスして適用する確率モデル情報を定めるようにしても良い。

上記各実施形態においては、分割された全ての分割帯域で雑音推定を行うように説明したが、雑音推定する分割帯域が一部であっても良い。例えば、高周波数寄りの分割帯域、低周波数寄りの分割帯域、中央の分割帯域、全分割帯域等の中から、利用者が雑音推定する分割帯域を選択できるようにしても良い。

第１の実施形態においては、各帯域雑音推定装置３００が平滑化手段３０４を備える場合を示したが、平滑化手段３０４を省略するようにしても良い。

３００、３００_０〜３００_Ｋ−１、３００Ａ、３００Ａ_０〜３００Ａ_Ｋ−１…帯域雑音推定手段、３０１…パワー算出手段、３０２…確率モデル保持手段、３０３、３０３Ａ…事後確率最大化手段、３０４…平滑化手段、４０１…帯域雑音パワー推定値遅延部、４０２…帯域入力パワー遅延部、４０３…事後ＳＮＲ算出部、４０４…平滑化部、４０５…係数決定部、４０６…乗算部、４０７…比較部。

Claims

入力音声に含まれる雑音を推定する雑音推定装置において、
入力音声が帯域分割されたそれぞれの帯域入力音声毎に設けられた帯域雑音推定装置を備え、
上記各帯域雑音推定装置が、
帯域入力パワーを算出するパワー算出手段と、
雑音の定常性をモデリングした確率モデルの情報を保持している確率モデル保持手段と、
帯域入力パワーと、当該帯域雑音推定装置から出力される帯域雑音パワー推定値と、保持されている確率モデル情報とに基づいて、帯域雑音パワーの事後確率が最大となるように瞬時帯域雑音パワー推定値を算出する事後確率最大化手段とを具備し、
保持されている上記確率モデル情報は、
予測事後ＳＮＲに基づいた事後ＳＮＲに関する尤度関数と、
平均事後ＳＮＲが確定した条件の下での上記事後ＳＮＲの事前確率との情報を含む
ことを特徴とする雑音推定装置。
上記各帯域雑音推定装置が、上記瞬時帯域雑音パワー推定値を時間平滑化し、上記帯域雑音パワー推定値を得る平滑化手段をさらに具備することを特徴とする請求項１に記載の雑音推定装置。
上記事後ＳＮＲは帯域入力パワーを同時刻の帯域雑音パワー推定値で除した値であり、
上記予測事後ＳＮＲは帯域入力パワーを所定時間だけ過去の帯域雑音パワー推定値で除した値であり、
上記平均事後ＳＮＲは、少なくとも２つ以上の過去の事後ＳＮＲから算出される時間平滑化された事後ＳＮＲである
ことを特徴とする請求項１又は２に記載の雑音推定装置。
上記事後ＳＮＲは帯域入力パワーを同時刻の帯域雑音パワー推定値で除した値であり、
上記予測事後ＳＮＲは帯域入力パワーを所定時間だけ過去の帯域雑音パワー推定値で除した値であり、
上記平均事後ＳＮＲは、１つの所定時間過去の事後ＳＮＲである
ことを特徴とする請求項１又は２に記載の雑音推定装置。
上記尤度関数は、上記事後ＳＮＲと上記予測事後ＳＮＲが等しいときに最大となり、上記事後ＳＮＲと上記予測事後ＳＮＲの差が大きくなるにつれて０に収束することを特徴とする請求項１〜４のいずれかに記載の雑音推定装置。
上記尤度関数として正規分布若しくは一般化正規分布を適用していることを特徴とする請求項５に記載の雑音推定装置。
上記事前確率は、上記事後ＳＮＲが非負に限定されていて、上記事後ＳＮＲが０のときに最大となり、上記事後ＳＮＲが大きくなるにつれて０に収束することを特徴とする請求項１〜６のいずれかに記載の雑音推定装置。
上記事前確率として指数分布を適用していることを特徴とする請求項７に記載の雑音推定装置。
上記指数分布の速度パラメータは上記平均事後ＳＮＲと負の比例関係若しくは反比例関係にあることを特徴とする請求項８に記載の雑音推定装置。
上記事後確率最大化手段は、
上記帯域雑音パワー推定値を遅延させる帯域雑音パワー遅延部と、
上記帯域入力パワーを遅延させる帯域入力パワー遅延部と、
遅延された上記帯域雑音パワー推定値及び上記帯域入力パワーに基づいて、上記事後ＳＮＲを算出する事後ＳＮＲ算出部と、
上記事後ＳＮＲを時間平滑化して平均事後ＳＮＲを算出する平滑化部と、
上記確率モデル情報と上記平均事後ＳＮＲに基づいて雑音増幅係数を決定する係数決定部と、
遅延された上記帯域雑音パワー推定値に上記雑音増幅係数を乗ずる乗算部と、
上記乗算部から出力された帯域雑音パワー暫定推定値と上記帯域入力パワーを比較して小さい方を選択する比較部とを具備する
ことを特徴とする請求項１〜９のいずれかに記載の雑音推定装置。
上記事後確率最大化手段は、
上記帯域雑音パワー推定値を遅延させる帯域雑音パワー遅延部と、
上記帯域入力パワーを遅延させる帯域入力パワー遅延部と、
遅延された上記帯域雑音パワー推定値及び上記帯域入力パワーに基づいて、上記事後ＳＮＲを算出する事後ＳＮＲ算出部と、
上記確率モデル情報と上記事後ＳＮＲに基づいて雑音増幅係数を決定する係数決定部と、
遅延された上記帯域雑音パワー推定値に上記雑音増幅係数を乗ずる乗算部と、
上記乗算部から出力された帯域雑音パワー暫定推定値と上記帯域入力パワーを比較して小さい方を選択する比較部とを具備する
ことを特徴とする請求項１〜９のいずれかに記載の雑音推定装置。
入力音声に含まれる雑音を推定する雑音推定方法において、
入力音声が帯域分割されたそれぞれの帯域入力音声毎に設けられた、パワー算出手段、確率モデル保持手段及び事後確率最大化手段を有する帯域雑音推定装置を備え、
上記各帯域雑音推定装置のパワー算出手段はそれぞれ、帯域入力パワーを算出し、
上記各帯域雑音推定装置の確率モデル保持手段は、雑音の定常性をモデリングした確率モデルの情報であって、予測事後ＳＮＲに基づいた事後ＳＮＲに関する尤度関数と、平均事後ＳＮＲが確定した条件の下での上記事後ＳＮＲの事前確率との情報を含む確率モデルの情報を保持し、
上記各帯域雑音推定装置の事後確率最大化手段はそれぞれ、帯域入力パワーと、当該帯域雑音推定装置から出力される帯域雑音パワー推定値と、保持されている確率モデル情報とに基づいて、帯域雑音パワーの事後確率が最大となるように瞬時帯域雑音パワー推定値を算出する
ことを特徴とする雑音推定方法。
上記各帯域雑音推定装置にさらに設けられた平滑化手段が瞬時帯域雑音パワー推定値を時間平滑化することを特徴とする請求項１２に記載の雑音推定方法。
コンピュータを、
入力音声が帯域分割されたそれぞれの帯域入力音声毎に設けられた帯域雑音推定装置であって、
帯域入力パワーを算出するパワー算出手段と、
雑音の定常性をモデリングした確率モデルの情報であって、予測事後ＳＮＲに基づいた事後ＳＮＲに関する尤度関数と、平均事後ＳＮＲが確定した条件の下での上記事後ＳＮＲの事前確率との情報を含む確率モデルの情報を保持している確率モデル保持手段と、
帯域入力パワーと、当該帯域雑音推定装置から出力される帯域雑音パワー推定値と、保持されている確率モデル情報とに基づいて、帯域雑音パワーの事後確率が最大となるように瞬時帯域雑音パワー推定値を算出する事後確率最大化手段とを具備する
帯域雑音推定装置として機能させる
ことを特徴とする雑音推定プログラム。
上記コンピュータが機能させられる上記各帯域雑音推定装置が、上記瞬時帯域雑音パワー推定値を時間平滑化する平滑化手段をさらに具備することを特徴とする請求項１４に記載の雑音推定プログラム。