JP6361148B2

JP6361148B2 - 雑音推定装置、方法及びプログラム

Info

Publication number: JP6361148B2
Application number: JP2014014533A
Authority: JP
Inventors: 大藤枝
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2014-01-29
Filing date: 2014-01-29
Publication date: 2018-07-25
Anticipated expiration: 2034-01-29
Also published as: JP2015141335A

Description

本発明は、雑音推定装置、方法及びプログラムに関し、例えば、音声に重畳された雑音を周波数領域処理によって抑圧する雑音抑圧装置（音声強調装置ともいう）に適用し得るものである。

自然環境において雑音はいたる所に存在するため、一般に実世界で観測される音声は種々の発信元からの雑音を含む。雑音を含んで観測された入力音声から音声だけを強調させるために、様々な雑音抑圧方法が開発されている。これらのうちのほとんどは、抑圧すべき雑音を推定して、入力音声に含まれている雑音を抑圧する方法である。本発明は、雑音の推定に関するものであり、特に、周波数領域で雑音のパワーを推定しようとしたものである。

もっとも単純な従来の雑音推定方法は、音声が存在しない区間で入力スペクトルを平均する方法である。しかし、この方法は事前に音声が存在しない区間を推定しなければならない。そのため、音声が存在する区間を推定する「音声区間検出（ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ：ＶＡＤ）」という技術も盛んに開発されているが、完全なＶＡＤは未だ達成されていない。音声区間の推定を誤ると、推定雑音が目的音声を含んでしまうため、強調音声や残留雑音を歪ませるという問題が生じる。また、この方法は雑音区間でしか雑音を推定しないため、長い音声区間があると雑音の変化に追従できないという欠点もある。

このような背景から、音声区間でも継続して雑音を推定する雑音推定方法が開発されている（非特許文献１、非特許文献２、特許文献１参照）。非特許文献１、非特許文献２及び特許文献１に記載の雑音抑圧方法を適用した雑音抑圧装置（以下、従来の雑音抑圧装置と呼ぶ）の機能的構成は、いずれも、図５に示す機能ブロック図で表すことができる。

従来の雑音抑圧装置１００は、帯域分割手段１０１、Ｋ（Ｋは例えば２５６）個の帯域処理手段１０２_０〜１０２_Ｋ−１及び信号復元手段１０５を有する。帯域処理手段１０２_０〜１０２_Ｋ−１の添え字は帯域番号を表す。帯域分割手段１０１は、フィルタバンクに代表される任意の帯域分割手法又はフーリエ変換に代表される任意の周波数解析手法によって、入力音声（この明細書においては、適宜、各種信号や各種成分における「信号」や「成分」を省略して表現している）をＫ個の帯域に分割し、得られたＫ個の帯域入力音声は各帯域処理手段１０２_０〜１０２_Ｋ−１にそれぞれ与えられる。なお、入力音声等のデジタル信号は、サンプル単位で処理される他、適宜、１０ｍｓ等のフレーム単位でも処理される。

各帯域処理手段１０２_０〜１０２_Ｋ−１はそれぞれ、担当する帯域が異なるが、同様な処理を行うものである。帯域処理手段１０２（１０２_０〜１０２_Ｋ−１）は、帯域雑音推定手段１０３及び雑音抑圧手段１０４を有する。帯域雑音推定手段１０４は、帯域ごとに雑音のパワーを推定し、得られた帯域雑音パワーを雑音抑圧手段１０４に与える。雑音抑圧手段１０４は、帯域入力音声と帯域雑音パワーを用いて、帯域入力音声中の音声成分を強調し、得られた帯域強調音声を信号復元手段１０５に与える。信号復元手段１０５は、帯域分割手段１０１で用いた帯域分割手法又は周波数解析手法に対応する信号復元手法を用いて、帯域強調音声から時間波形を再構成し、得られた強調音声を出力する。

以下、帯域雑音推定手段１０３が実行する従来の雑音推定方法（非特許文献１、非特許文献２及び特許文献１に記載の雑音抑圧方法）を詳述する。以下では、簡単のために、帯域入力音声のパワーを入力パワーと呼び、帯域雑音パワーを雑音パワーと呼び、帯域番号を省略することとする。

非特許文献１に記載の雑音推定方法は、入力パワーの時間方向のピークが目的音声の存在を表す一方で、谷が平滑化した雑音パワーの推定に使えるという発見に基づいている。具体的には、現在から所定時間（Ｔ秒）過去までの入力パワーの最小値を、第１の雑音パワー推定値とする。しかし、第１の雑音パワー推定値はバイアスを有しており、真の雑音パワーよりも小さくなる性質を持つ。このバイアスは、第１の雑音パワー推定値の期待値から推定され、得られたバイアス推定値を用いて第１の雑音パワー推定値を補正して、第２の雑音パワー推定値（最終的な推定値）を得る。

非特許文献２に記載の雑音推定方法は、目的音声と雑音の複素スペクトルの分布がいずれも平均０の複素正規分布に従うという仮説に基づいて、雑音の複素スペクトルの分散の最尤推定値を雑音パワー推定値とする。この仮説に基づくと、入力音声の複素スペクトルの分布は、音声の複素スペクトルの分散と雑音の複素スペクトルの分散の和を分散とする平均０の複素正規分布となる。ここに現在の入力が劣化音声と雑音のどちらであるかに関する隠れ変数を導入して、忘却係数を伴ったオンラインＥＭ（ＥｘｐｅｃｔａｔｉｏｎＭａｘｉｍｉｚａｔｉｏｎ）アルゴリズムを適用することで、雑音の複素スペクトルの最尤推定値を算出することができる。

特許文献１に記載の雑音推定方法は、入力パワーに適切な重み係数を乗じて、得られた加重入力パワーを所定時間（Ｔ秒）分だけ記憶しておき、記憶された加重入力パワーの平均値を雑音パワー推定値とする。適切な重み係数は、現在の入力パワーを直前の雑音パワー推定値で除した事後ＳＮＲ（ＳＮＲはＳｉｇｎａｌ−ｔｏ−ＮｏｉｓｅＲａｔｉｏ）によって算出される。具体的には、事後ＳＮＲが所定の値Ｇ１以下では重み係数を１とし、事後ＳＮＲがＧ１以上では事後ＳＮＲに反比例するように重み係数を設定し、事後ＳＮＲが所定の値Ｇ２以上では重み係数を０とする。また、重み係数が０の場合には、加重入力パワーは記憶しない。

特開２００２−２０４１７５

Ｒ．Ｍａｒｔｉｎ、"ＳｐｅｃｔｒａｌＳｕｂｔｒａｃｔｉｏｎＢａｓｅｄｏｎＭｉｎｉｍｕｍＳｔａｔｉｓｔｉｃｓ"、ｉｎＰｒｏｃｅｅｄｉｎｇｓｏｆ７ｔｈＥｕｒｏｐｅａｎＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＣｏｎｆｅｒｅｎｃｅ、１９９４、ｐｐ．１１８２−１１８５Ｍ．Ｓｏｕｄｅｎ、Ｍ．Ｄｅｌｃｒｏｉｘ、Ｋ．Ｋｉｎｓｏｓｈｉｔａ、Ｔ．Ｙｏｓｈｉｏｋａ、ａｎｄＴ．Ｎａｋａｔａｎｉ、"ＮｏｉｓｅＰｏｗｅｒＳｐｅｃｔｒａｌＤｅｎｓｉｔｙＴｒａｃｋｉｎｇ：ＡＭａｘｉｍｕｍＬｉｋｅｌｉｈｏｏｄＰｅｒｓｐｅｃｔｉｖｅ"、ＩＥＥＥＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＬｅｔｔｅｒｓ、Ｖｏｌ．１９、Ｎｏ．８、２０１２、ｐｐ．４９５−４９８

しかし、従来の雑音推定方法は、以下に述べるような課題を有している。

非特許文献１に記載の雑音推定方法は、雑音が急に大きくなった場合に、後段の雑音抑圧方法によって不快に感じる雑音が残留するという課題を有している。具体的には、雑音が大きくなってから所定時間の間は、雑音パワー推定値は小さいままである。そして、雑音が大きくなってから所定時間後に、雑音パワー推定値は急激に増大する。そのような雑音パワー推定値を用いて雑音抑圧方法を動作させると、雑音が大きくなった瞬間に残留雑音も急に大きくなり、その所定時間後に残留雑音が急に小さくなる。残留雑音の急激な音量の変化は、聴取者に聴感上の不快感を与える。

非特許文献２に記載の雑音推定方法は、雑音レベルが変化すると雑音パワー推定値が過大になったり過小になったりするという課題を有している。この雑音推定方法で用いられているオンラインＥＭアルゴリズムは、次のような追従の速さと最尤推定の安定性とのトレードオフを有する。すなわち、忘却係数を大きくすると安定性が増して追従が遅くなり、忘却係数を小さくすると追従が速くなって安定性が下がる。その結果、忘却係数を大きくしても小さくしても雑音パワー推定値は不正確となり、後段の雑音抑圧方法によって得られる強調音声の歪みを増大させたり残留雑音が大きくなったりする。

特許文献１に記載の雑音推定方法は、雑音パワー推定値が、誤って音声に追従してしまうことや非定常雑音に追従して不安定になることが比較的少なく、それでいて雑音が変化した場合にも比較的速やかに追従することができる。しかし、重み係数が０とならないような音声区間が続いた後の雑音区間では、雑音区間に切り替わった約Ｔ秒後に雑音パワー推定値が急激に小さくなる現象が生じる。そのような雑音パワー推定値を用いて後段の雑音抑圧方法を動作させると、当該雑音区間で残留雑音が急激に大きくなるため、聴感上不自然な強調音声になってしまう。

以上のように、従来の雑音推定方法はいずれも、雑音パワー推定値が不安定になる課題や、雑音パワー推定値が急激に変化する課題を有するものであった。

本発明は、これらの課題に鑑みてなされたものであり、雑音パワーを安定的に推定できる雑音推定装置、方法及びプログラムを提供することを目的とする。

第１の本発明は、入力音声に含まれる雑音を推定する雑音推定装置において、（１）入力音声が帯域分割されたそれぞれの帯域入力音声毎に設けられた帯域雑音推定手段を備え、（２）上記各帯域雑音推定手段が、（２−１）帯域入力パワーを算出するパワー算出手段と、（２−２）雑音の定常性をモデリングした確率モデルの情報を保持している確率モデル保持手段と、（２−３）保持されている確率モデル情報に基づいて、事後ＳＮＲの事後確率が最大となるように瞬時帯域雑音パワー推定値を算出する事後確率最大化手段とを具備することを特徴とする。

ここで、上記各帯域雑音推定手段が、上記瞬時帯域雑音パワー推定値を時間平滑化する平滑化手段をさらに具備することが好ましい。

第２の本発明は、入力音声に含まれる雑音を推定する雑音推定方法において、（１）入力音声が帯域分割されたそれぞれの帯域入力音声毎に設けられた、パワー算出手段、確率モデル保持手段及び事後確率最大化手段を有する帯域雑音推定手段を備え、（２）上記各帯域雑音推定手段における上記パワー算出手段は、帯域入力パワーを算出し、（３）上記各帯域雑音推定手段における上記確率モデル保持手段は、雑音の定常性をモデリングした確率モデルの情報を保持し、（４）上記各帯域雑音推定手段における上記事後確率最大化手段は、保持されている確率モデル情報に基づいて、事後ＳＮＲの事後確率が最大となるように瞬時帯域雑音パワー推定値を算出することを特徴とする。

ここで、上記各帯域雑音推定手段にさらに設けられた平滑化手段が瞬時帯域雑音パワー推定値を時間平滑化することが好ましい。

第３の本発明の雑音推定プログラムは、コンピュータを、（１）入力音声が帯域分割されたそれぞれの帯域入力音声毎に設けられた帯域雑音推定手段であって、（１−１）帯域入力パワーを算出するパワー算出手段と、（１−２）雑音の定常性をモデリングした確率モデルの情報を保持している確率モデル保持手段と、（１−３）保持されている確率モデル情報に基づいて、事後ＳＮＲの事後確率が最大となるように瞬時帯域雑音パワー推定値を算出する事後確率最大化手段とを具備する帯域雑音推定手段として機能させることを特徴とする。

ここで、上記コンピュータが機能させられる上記各帯域雑音推定手段が、上記瞬時帯域雑音パワー推定値を時間平滑化する平滑化手段をさらに具備することが好ましい。

本発明によれば、帯域雑音パワー推定値を安定的に推定できる雑音推定装置、方法及びプログラムを提供できる。

第１の実施形態の雑音推定装置の構成を示す機能ブロック図である。真の事後ＳＮＲと予測事後ＳＮＲの比の分布と、その分布に対して平均０の正規分布をフィッティングさせた様子を描いた説明図である。真の事後ＳＮＲの分布と、その分布に対して指数分布をフィッティングさせた様子を描いた説明図である。特許文献１に記載の雑音推定方法と第１の実施形態の雑音推定方法の比較評価結果を示す説明図である。従来の雑音抑圧装置の構成を示す機能ブロック図である。

（Ａ）各実施形態により本発明の目的を達成できる理由
第１の実施形態及び変形実施形態の説明に先立ち、各実施形態に至った考え方や、各実施形態により本発明の目的である雑音パワーを安定的に推定できる理由を説明する。

雑音推定方法において最も注意しなければならない点は、雑音推定値が音声を含まないようにすることである。仮に、雑音推定値が音声を含むと、例えば、後段の雑音抑圧処理によって得られる強調音声が歪んだり小さくなったりしてしまい、強調音声の明瞭度や単語了解度を向上させるという雑音抑圧処理の目的を果たせない。

一方、雑音推定には、非定常な雑音も推定できる性能を求められることもある。しかし、非定常雑音と音声とを区別するのは難しいため、非定常雑音を推定する性能と雑音推定値が音声を含まない性能との間にはトレードオフの関係がある。それゆえ、今までは、安定性の高い雑音推定方法は定常雑音しか推定できず、非定常雑音を推定できる雑音推定方法は雑音推定値が音声を含んでしまって安定性が低くなる、という課題があった。

そこで、各実施形態では、推定対象を定常雑音に限定することによって、より高い安定性を有する雑音推定を実現する。このために、雑音の定常性をモデリングした確率モデルを導入する。ここで、雑音の定常性とは、雑音の確率分布（確率密度関数）が時間によって変化しないことを呼んでいる。

今、雑音に定常性を仮定すると、帯域雑音パワーＮ（例えば、フレーム毎に算出する）の対数を取った帯域雑音対数パワーＬＮ（便宜上、ＬＮの単位はデシベル（ｄＢ）とする）も定常であると考えられる。ここで、現在の帯域雑音対数パワーＬＮと、現在より任意の時間（例えば、数フレーム）だけ過去の帯域雑音対数パワーＬＮ′との（１）式で表される差ＤＬＮを考えると、定常性の仮定より、現在の帯域雑音対数パワーＬＮと過去の帯域雑音対数パワーＬＮ′の確率密度関数が同じであることから、パワー差ＤＬＮは期待値０で歪みのない分布（言い換えると、中央部に頂点を有する左右対称な分布）に従うと考えられる。例えば、正規分布は、このような分布の代表例である（但し、正規分布に限定されるものではない）。仮に、パワー差ＤＬＮが分散Ｖの正規分布に従うと仮定すると、パワー差ＤＬＮの確率密度関数ｐ（ＤＬＮ）は、（２）式で表される。（２）式において、Ｎｄｉｓｔ（ｘ；ｍ，ｖ）は、変数ｘに関する正規分布関数であって、平均がｍ、分散がｖであることを表している。（２）式が雑音の定常性に関する確率モデルであると言える。

ＤＬＮ＝ＬＮ−ＬＮ′ …（１）
ｐ（ＤＬＮ）＝Ｎｄｉｓｔ（ＤＬＮ；０，Ｖ） …（２）
次に、最大事後確率（ＭａｘｉｍｕｍＡＰｏｓｔｅｒｉｏｒｉ：ＭＡＰ）推定の枠組みを用いて、現在の帯域雑音対数パワーＬＮを推定することを考える。但し、現在の帯域雑音対数パワーＬＮは、収音環境やマイクロフォン感度によって値が増減するため、直接推定するのには適していない。そこで、過去の帯域雑音対数パワーＬＮ′から現在の帯域雑音対数パワーＬＮを推定する問題を、（３）式で表される現在の事後ＳＮＲの予測値ＬＧ′から、（４）式で表される現在の事後ＳＮＲの真値ＬＧを推定する問題へと置き換える。（３）式及び（４）式において、ＬＸは現在の帯域入力対数パワーである。

ＬＧ′＝ＬＸ−ＬＮ′ …（３）
ＬＧ＝ＬＸ−ＬＮ …（４）
現在の事後ＳＮＲの予測値がＬＧ′であるという条件下で現在の事後ＳＮＲの真値がＬＧ（以下、変数と呼ぶことがある）となる事後確率ｐ（ＬＧ｜ＬＧ′）は、ベイズの定理より、（５）式のように展開できる。（５）式を、変数ＬＧについて最大化するのがＭＡＰ推定であるが、分母の確率密度関数ｐ（ＬＧ′）は、変数ＬＧと無関係であるので、ＭＡＰ推定は、(６)式で表される値Ｊｍａｐ（ＬＧ）を最大化することで達成される。

ｐ（ＬＧ｜ＬＧ′）＝ｐ（ＬＧ′｜ＬＧ）＊ｐ（ＬＧ）／ｐ（ＬＧ′） …（５）
Ｊｍａｐ（ＬＧ）＝ｐ（ＬＧ′｜ＬＧ）＊ｐ（ＬＧ） …（６）
次に、（６）式を具体化する。変数ＬＧの尤度関数ｐ（ＬＧ′｜ＬＧ）は、２つの値ＬＧ及びＬＧ′の関係式とも捉えられる。２つの値ＬＧ及びＬＧ′には、（３）式及び（４）式から（７）式に示すようにパワー差ＤＬＮで規定される関係があり、値ＬＧ′は、現在の事後ＳＮＲの予測値であって既に計算された値であるので定数と扱って良く、そのため、パワー差ＤＬＮに関する確率密度関数ｐ（ＤＬＮ）を表す（２）式から、変数ＬＧの尤度関数ｐ（ＬＧ′｜ＬＧ）は（８）式で表すことができる。

ＬＧ′−ＬＧ＝ＬＮ−ＬＮ′＝ＤＬＮ …（７）
ｐ（ＬＧ′｜ＬＧ）＝Ｎｄｉｓｔ（ＬＧ′；ＬＧ，Ｖ） …（８）
現在の事後ＳＮＲの真値ＬＧの事前分布ｐ（ＬＧ）は、事後ＳＮＲの真値ＬＧの潜在的な出現確率を意味している。事後ＳＮＲの真値ＬＧの出現確率について、３つの考察を行う。第１に、事後ＳＮＲの真値ＬＧの取り得る値の範囲について考察する。入力音声は音声と雑音の両方を含んでいるので、帯域入力対数パワーＬＸは帯域雑音対数パワーＬＮより大きくなるべきであり、従って、事後ＳＮＲの真値ＬＧは、（４）式より非負であるとする。第２に、音声のスパース性（出現がまばらである性質）について考察する。一般に、音声の時間周波数表現はスパースであると言われており、従って、出現確率が一番高いのは事後ＳＮＲの真値ＬＧが０（ｄＢ）のときである。第３に、帯域入力対数パワーＬＸの大小について考察する。音声の大きさは有限であるから帯域入力対数パワーＬＸも有限であり、一方で雑音は音声に比してスパース性が弱いために小さな値を取り難くなるので、事後ＳＮＲの真値ＬＧの事前分布ｐ（ＬＧ）は変数ＬＧを∞にしたときに０に収束する。以上の３つの考察より、事後ＳＮＲの真値ＬＧの事前分布ｐ（ＬＧ）の候補の一つとして、（９）式に示す指数分布を選ぶことは自然である（但し、後述するように指数分布に限定されない）。

ｐ（ＬＧ）＝λ＊ｅｘｐ（−λ＊ＬＧ） …（９）
(８)式及び（９）式を、上述した（６）式に適用することにより、（６）式の具体的な式が定まったので、（６）式を最大化する現在の事後ＳＮＲの真値ＬＧを計算することとする。（６）式はこのままでは扱いにくいので対数をとった後、最大値を見付けるため、右辺の導関数が０となる真値ＬＧを計算すると、（１０）式が得られる。但し、上述した第２の考察のように、真値ＬＧは非負でなければならず、従って、（１１）式を適用して真値ＬＧを非負値に制限する。（１１）式において、ｍａｘ（ａ、ｂ）はａとｂの大きい方を選択する関数である。結局、帯域雑音対数パワーＬＮは、（１１）式に（３）式及び(４)式を代入することにより、（１２）式で表すことができる。（１２）式において、ｍｉｎ（ａ、ｂ）はａとｂの小さい方を選択する関数である。

ＬＧ＝ＬＧ′−λ＊Ｖ …（１０）
ＬＧ＝ｍａｘ｛ＬＧ′−λ＊Ｖ，０｝ …（１１）
ＬＮ＝ｍｉｎ｛ＬＮ′−λ＊Ｖ，ＬＸ｝ …（１２）
（１２）式は、次のような意味を持っている。すなわち、現在のＭＡＰ推定による帯域雑音パワー推定値は、前回の帯域雑音パワー推定値を定数倍した値であるが（（１２）式は対数値に関する式になっているので加減は対数をとっていない値での乗算若しくは除算に対応する）、仮に、その定数倍された値が帯域入力パワーを上回るならば帯域入力パワーを帯域雑音パワー推定値とする、ということである。

（１２）式によれば、上述のようにして求められた帯域雑音パワー推定値は、一定の割合でしか増大しないので、音声や非定常雑音に急速に追従して聴感上不自然になることがなく、常に更新されるので大きな環境の変化に一定時間内に緩やかに追従し、常に増大しつつも帯域入力パワーより大きくなることはないので過大又は過小な値になることがない。

しかし、（１２）式は、僅か２点の瞬時値に基づいて帯域雑音パワー推定値を算出するため、小刻みな変動が生じて聴感上不自然になる恐れがある。

そのため、帯域雑音パワー推定値が本来の雑音が持つ定常性を満たすようにするために、帯域雑音パワー推定値を時間平滑化することが好ましい。すなわち、（１２）式で算出された値を瞬時帯域雑音パワー推定値として、最新の瞬時帯域雑音パワー推定値と少なくとも１つ以上の過去の瞬時帯域雑音パワー推定値を使って瞬時帯域雑音パワー推定値を平滑化し、平滑化された値を帯域雑音パワー推定値とすることが好ましい。

時間平滑化によって、（１２）式の結果をそのまま使うよりも安定で本来の定常性を満たす帯域雑音パワー推定値を得ることができる。但し、時間平滑化を実行せずに、（１２）式の結果をそのまま使うようにしても良い。

（Ｂ）第１の実施形態
以下、本発明による雑音推定装置、方法及びプログラムの第１の実施形態を、図面を参照しながら説明する。

（Ｂ−１）第１の実施形態の構成
図１は、第１の実施形態の雑音推定装置の構成を示す機能ブロック図である。ここで、第１の実施形態の雑音推定装置は、ハードウェアで構成することも可能であり、また、ＣＰＵが実行するソフトウェア（雑音推定プログラム）とＣＰＵとで実現することも可能であるが、いずれの実現方法を採用した場合であっても、機能的には図１で表すことができる。

図１において、第１の実施形態の雑音推定装置２００は、帯域分割手段２０１及びＫ個の帯域雑音推定手段２０２_０〜２０２_Ｋ−１を有する。

帯域分割手段２０１は、従来の技術の項で説明した帯域分割手段１０１と同様なものであり、例えば、デジタル信号でなる入力音声をフレーム単位に帯域分割するものである。すなわち、帯域分割手段２０１は、フィルタバンクに代表される任意の帯域分割手法又はフーリエ変換に代表される任意の周波数解析手法によって、入力音声をＫ個の帯域に分割し、それぞれ対応する各帯域処理手段１０２_０〜１０２_Ｋ−１に与えるものである。以下、帯域分割された入力音声を帯域入力音声と呼ぶ。帯域分割手段２０１は、入力音声の帯域を等分割するものであっても良く、入力音声の帯域を不等分分割するものであっても良い。不等分分割には、直交ミラーフィルタ（ＱＭＦ）やウェーブレット変換等を適用することができる。

なお、第１の実施形態は、帯域分割が行われていない入力音声が雑音推定装置２００に入力される場合であるが、前段の処理部から、帯域別の入力音声の組が与えられる場合であれば、帯域分割手段２０１を省略することができる。

各帯域雑音推定手段２０２（２０２_０〜２０２_Ｋ−１）はそれぞれ、自己に割り当てられた帯域入力音声に対し、上述の考え方に従って、その帯域入力音声に含まれている雑音を推定するものである。

各帯域雑音推定手段２０２はそれぞれ、パワー算出手段２０３、確率モデル保持手段２０４、事後確率最大化手段２０５及び平滑化手段２０６を有する。

パワー算出手段２０３は、帯域入力音声のパワーを算出し、得られた帯域入力パワーを事後確率最大化手段２０５に与えるものである。パワーの算出方法は限定されるものではない。例えば、帯域入力音声の現在から所定時間過去までのサンプル値の２乗和を帯域入力パワーとする方法を適用することができる。

確率モデル保持手段２０４は、事前に設計された雑音の定常性に関する確率モデルの情報（以下、単に確率モデルと呼ぶ）を保持しておくものであり、保持している確率モデルを事後確率最大化手段２０５に与える。第１の実施形態における確率モデルは、ＭＡＰ推定に基づいたモデルであり、上述した考え方に従ったモデルである。確率モデルの設計例については、動作の説明の項で明らかにする。

事後確率最大化手段２０５は、現在の帯域入力パワーと、平滑化手段２０６から出力された所定時間だけ過去（例えば、数フレーム前）の帯域雑音パワーの推定値、及び、確率モデル保持手段２０４に保持されている確率モデルに基づいて、帯域雑音パワーのＭＡＰ推定を行い、得られた瞬時帯域雑音パワー推定値を平滑化手段２０６に与えるものである。

平滑化手段２０６は、瞬時帯域雑音パワー推定値を時間平滑化し、得られた帯域雑音パワー推定値を、事後確率最大化手段２０５にフィードバックすると共に、当該帯域雑音推定手段２０２の出力として送出するものである。平滑化方法は、限定されるものではないが、例えば、直前所定期間の瞬時帯域雑音パワー推定値の平均値を求めるものであっても良く、また例えば、直前の平滑化された値と今回の瞬時帯域雑音パワー推定値との重み付け加算値を求めるものであっても良い。

なお、第１の実施形態は、帯域別の雑音パワー推定値の組を、後段の処理部が利用する場合（例えば、雑音抑圧）を想定しているが、帯域別の雑音パワー推定値を統合した後、時間領域の信号に変換して後段の処理部へ与えるようにしても良い。

（Ｂ−２）第１の実施形態の動作
次に、第１の実施形態の雑音推定装置２００の動作（雑音推定方法）を説明する。

第１の実施形態の雑音推定装置２００に入力された入力音声は、帯域分割手段２０１において帯域分割され、得られたＫ個の帯域入力音声はそれぞれ、対応する各帯域処理手段１０２_０〜１０２_Ｋ−１に与えられる。

各帯域入力音声に含まれている雑音は、帯域入力音声に対応する帯域雑音推定手段２０２_０〜２０２_Ｋ−１によって推定され、得られた帯域雑音パワー推定値がそれぞれ、帯域雑音推定手段２０２_０〜２０２_Ｋ−１から出力される。

各帯域雑音推定手段２０２（２０２_０〜２０２_Ｋ−１）内では、以下のような処理が実行される。

帯域入力音声はパワー算出手段２０３に与えられ、パワー算出手段２０３によって帯域入力音声のパワーが算出され、得られた帯域入力パワーが事後確率最大化手段２０５に与えられる。

事前に設計された雑音の定常性に関する確率モデルは、確率モデル保持手段２０４に保持されており、その確率モデルは事後確率最大化手段２０５に与えられる。

この第１の実施形態における確率モデルは、ＭＡＰ推定に基づいたモデルである。当該確率モデルは、現在の帯域入力パワーを現在の帯域雑音パワーで除した真の事後ＳＮＲをパラメータとしたときの現在の帯域入力パワーを所定時間過去の帯域雑音パワー推定値で除した予測事後ＳＮＲ（事後ＳＮＲの予測値）の条件付き確率（真の事後ＳＮＲに関する尤度関数）と、真の事後ＳＮＲの事前確率の確率密度関数と、パラメータとで規定されている。予測事後ＳＮＲの条件付き確率には、（８）式のように正規分布を適用することができ、より柔軟な一般化正規分布を適用するようにしても良い。なお、条件付き確率に適用される確率密度関数は、この２つに限定されることはなく、平均値を中心に対称な任意の確率密度関数を適用することができる。真の事後ＳＮＲ（事後ＳＮＲの真値）の事前確率の確率密度関数には、（１０）式のような指数分布を適用することができ、その他、ガンマ分布や片側正規分布や、より柔軟な片側一般化正規分布を適用するようにしても良い。なお、事前確率に適用される確率密度関数は、これらの４つに限定されることはなく、確率変数が正に限定される任意の確率密度関数を適用することができる。

ここでは、予測事後ＳＮＲの条件付き確率である尤度関数に正規分布を適用し、真の事後ＳＮＲの事前確率の確率密度関数に指数分布を適用した場合のパラメータを説明する。図２は、真の事後ＳＮＲと予測事後ＳＮＲの比の分布と、その分布に対して平均０の正規分布をフィッティングさせた様子を描いた説明図である。良いフィッティングが得られた分散はＶ＝σ＾２＝４１．９８４７であった（＾２は２乗を表している）。図３は、真の事後ＳＮＲの分布と、その分布に対して指数分布をフィッティングさせた様子を描いた説明図である。良いフィッティングが得られたパラメータはλ＝０．０６９６５２であった。これらの図２及び図３から、正規分布と指数分布によるモデリングが適切であることが分かる。

以上のような実データから得た分布に対する、適用することに決めた分布（正規分布、指数分布）のフィッティングによりパラメータの値を定めて、適用することに決めた分布の種類の情報と、パラメータ値とを、確率モデル保持手段２０４に確率モデルの情報として保持させる。

事後確率最大化手段２０５において、現在の帯域入力パワー、所定時間過去の帯域雑音パワー推定値、及び、確率モデル保持手段２０４からの確率モデルに基づいて、帯域雑音パワーのＭＡＰ推定が実行され、得られた瞬時帯域雑音パワー推定値が平滑化手段２０６に与えられる。

例えば、予測事後ＳＮＲの条件付き確率である尤度関数に平均０、分散Ｖの正規分布を適用し、真の事後ＳＮＲの事前確率の確率密度関数にパラメータλの指数分布を適用する場合には、（１２）式に従って、瞬時帯域雑音パワー推定値が算出される。

このようにして得られた瞬時帯域雑音パワー推定値は、平滑化手段２０６において時間平滑化され、得られた帯域雑音パワー推定値が、事後確率最大化手段２０５に所定時間過去の帯域雑音パワー推定値として利用されるためにフィードバックされると共に、当該帯域雑音推定手段２０２の出力として送出される。

（Ｂ−３）第１の実施形態の効果
第１の実施形態によれば、定常な帯域雑音パワーを安定的に推定することができる。仮に、第１の実施形態の雑音推定装置を、雑音抑圧装置（図５参照）に組み込んだ場合には、強調音声の歪みを小さく抑えることができる。

以下、特許文献１に記載の雑音推定方法と第１の実施形態の雑音推定方法との効果の相違を、比較実験により説明する。

性能を定量的に比較するために、以下に述べる４つの評価指標を適用した。第１の評価指標は、真の雑音と推定雑音の誤差との比（ＮｏｉｓｅｔｏＥｒｒｏｒｏｆＥｓｔｉｍａｔｉｏｎＮｏｉｓｅＲａｔｉｏ：ＮＥＲ）である。ＮＥＲは、真の雑音を基準とした雑音の推定精度に関する独自指標であり、ＮＥＲが大きいほど雑音の推定精度が高いと言える。第２の評価指標は、真の音声・推定雑音間の差と真の音声との比（ＤｉｆｆｅｒｅｎｃｅｂｅｔｗｅｅｎＳｐｅｅｃｈａｎｄＥｓｔｉｍａｔｉｏｎＮｏｉｓｅｔｏＳｐｅｅｃｈＲａｔｉｏ：ＤＳＲ）である。ＤＳＲは、真の音声を基準とした真の音声と推定雑音との間の差に関する独自指標であり、ＤＳＲが大きいほど音声を誤って雑音として推定してしまった量が少ないと言える。第３及び第４の評価指標はそれぞれ、２つの雑音推定方法によって得られた帯域雑音パワー推定値を適用した、雑音抑圧方法の一種であるスペクトルサブトラクション法によって得られた強調音声を評価する。第３の評価指標は、雑音低減割合（ＮｏｉｓｅＲｅｄｕｃｔｉｏｎＲａｔｅ：ＮＲＲ）と呼ばれる入力音声・真の音声間の差と強調音声・真の音声間の差との比である。ＮＲＲは、雑音をどの程度低減させたかを示す一般的な指標であり、ＮＲＲが大きいほど雑音の低減量が大きいと言える。第４の評価指標は、ケプストラム歪み（ＣｅｐｓｔｒａｌＤｉｓｔｏｒｔｉｏｎ：ＣＤ）である。ＣＤは、信号がどの程度歪んだかを表す一般的な指標であり、ＣＤが小さいほど歪みが小さいと言える。

図４は、上述した４つの評価指標に基づいた特許文献１に記載の雑音推定方法と第１の実施形態の雑音推定方法との評価結果を示す説明図である。評価指標の値が優れている方に網掛けした。道路雑音は、定常的に低周波雑音が観測されていて、近くを車が通過する場合も雑音の変化は緩やかなので、定常的な雑音と言える。このような定常な雑音の場合には、全評価指標において、第１の実施形態の雑音推定方法が特許文献１に記載の雑音推定方法より優れているという結果となった。一方、レストラン雑音は、多数の人間の声による定常的なガヤガヤという雑音の他に、レストランのＢＧＭや食器同士がぶつかって生じる非定常な雑音が含まれている。このような非定常な雑音の場合には、雑音の推定精度やＮＲＲにおいて特許文献１に記載の雑音推定方法の方が優れており、ＣＤにおいて第１の実施形態の雑音推定方法の方が優れているという結果となった。

以上より、第１の実施形態の雑音推定方法は、定常な雑音だけを適切に推定しており、その結果、強調音声の歪みを小さく抑えられることが明らかになった。

（Ｃ）他の実施形態
以上でも、種々の変形実施形態に言及したが、さらに、以下に例示するような変形実施形態を挙げることができる。

第１の実施形態においては、全ての帯域の確率モデル保持手段２０４_０〜２０４_Ｋ−１が同じ確率モデルの情報を保持しているものを示したが、帯域によって、確率モデルの情報が異なっていても良い。例えば、予測事後ＳＮＲの条件付き確率である尤度関数に正規分布を適用する場合であっても、分散Ｖとして、帯域毎に異なる値を設定するようにしても良い。また、予測事後ＳＮＲの条件付き確率である尤度関数として、帯域毎に、正規分布を適用するか一般化正規分布を適用するかを設定するようにしても良い。さらに、真の事後ＳＮＲの事前確率の確率密度関数に指数分布を適用する場合において、パラメータλとして、帯域毎に異なる値を設定するようにしても良い。さらにまた、真の事後ＳＮＲの事前確率の確率密度関数として、帯域毎に、指数分布、ガンマ分布、片側正規分布、片側一般化正規分布等のいずれを適用するかを設定するようにしても良い。

第１の実施形態においては、各帯域雑音推定手段２０２（２０２_０〜２０２_Ｋ−１）における確率モデル保持手段２０４（２０４_０〜２０４_Ｋ−１）が１個の確率モデル情報を保持している場合を示したが、複数の確率モデル情報を保持しておき、適用するものを選択できるようにしても良い。例えば、利用者の選択操作に応じて、適用する確率モデル情報を定めるようにしても良い。また例えば、帯域入力パワーについての予め定められている統計量を複数算出し、算出した統計量に基づいて、各統計量が属する段階の組合せ（適用条件）と確率モデル情報とを対応付けたテーブルをアクセスして適用する確率モデル情報を定めるようにしても良い。

第１の実施形態においては、帯域分割手段２０１が分割した全ての分割帯域で、雑音推定を行うものを示したが、雑音推定する分割帯域が一部であっても良い。例えば、高周波数寄りの分割帯域、低周波数寄りの分割帯域、中央の分割帯域、全分割帯域等の中から、利用者が雑音推定する分割帯域を選択できるようにしても良い。

第１の実施形態においては、各帯域雑音推定手段２０２が平滑化手段２０６を備える場合を示したが、平滑化手段２０６を省略するようにしても良い。

第１の実施形態では、入力音声が入力される雑音推定装置２００を示したが、既に、いずれかの装置で帯域分割された帯域入力音声が入力される雑音推定装置に、本発明の技術思想を適用することができる。

２００…雑音推定装置、２０１…帯域分割手段、２０２、２０２_０〜２０２_Ｋ−１…帯域雑音推定手段、２０３…パワー算出手段、２０４…確率モデル保持手段、２０５…事後確率最大化手段、２０６…平滑化手段。

Claims

入力音声に含まれる雑音を推定する雑音推定装置において、
入力音声が帯域分割されたそれぞれの帯域入力音声毎に設けられた帯域雑音推定手段を備え、
上記各帯域雑音推定手段が、
帯域入力パワーを算出するパワー算出手段と、
雑音の定常性をモデリングした確率モデルの情報を保持している確率モデル保持手段と、
保持されている確率モデル情報に基づいて、事後ＳＮＲの事後確率が最大となるように瞬時帯域雑音パワー推定値を算出する事後確率最大化手段とを具備する
ことを特徴とする雑音推定装置。
上記各帯域雑音推定手段が、上記瞬時帯域雑音パワー推定値を時間平滑化する平滑化手段をさらに具備することを特徴とする請求項１に記載の雑音推定装置。
上記確率モデル情報は、現在の帯域入力パワーを所定時間過去の帯域雑音パワー推定値で除した予測事後ＳＮＲに基づいた現在の帯域入力パワーを現在の帯域雑音パワーで除した真の事後ＳＮＲに関する尤度関数と、上記真の事後ＳＮＲの事前分布を規定する確率密度関数とを含むことを特徴とする請求項１又は２に記載の雑音推定装置。
上記尤度関数は、平均値に対して対称な確率密度関数でモデリングされたものであることを特徴とする請求項３に記載の雑音推定装置。
上記尤度関数は、正規分布若しくは一般化正規分布でモデリングされたものであることを特徴とする請求項４に記載の雑音推定装置。
上記真の事後ＳＮＲの事前分布をモデリングした確率密度関数は、確率変数が正に限定され、確率変数が０のときに最頻値をとり、確率変数が大きくなるにつれて０に収束するものであることを特徴とする請求項３〜５のいずれかに記載の雑音推定装置。
上記真の事後ＳＮＲの事前分布をモデリングした確率密度関数は、指数分布若しくは片側一般化正規分布でモデリングされたものであることを特徴とする請求項６に記載の雑音推定装置。
入力音声に含まれる雑音を推定する雑音推定方法において、
入力音声が帯域分割されたそれぞれの帯域入力音声毎に設けられた、パワー算出手段、確率モデル保持手段及び事後確率最大化手段を有する帯域雑音推定手段を備え、
上記各帯域雑音推定手段における上記パワー算出手段は、帯域入力パワーを算出し、
上記各帯域雑音推定手段における上記確率モデル保持手段は、雑音の定常性をモデリングした確率モデルの情報を保持し、
上記各帯域雑音推定手段における上記事後確率最大化手段は、保持されている確率モデル情報に基づいて、事後ＳＮＲの事後確率が最大となるように瞬時帯域雑音パワー推定値を算出する
ことを特徴とする雑音推定方法。
上記各帯域雑音推定手段にさらに設けられた平滑化手段が瞬時帯域雑音パワー推定値を時間平滑化することを特徴とする請求項８に記載の雑音推定方法。
コンピュータを、
入力音声が帯域分割されたそれぞれの帯域入力音声毎に設けられた帯域雑音推定手段であって、
帯域入力パワーを算出するパワー算出手段と、
雑音の定常性をモデリングした確率モデルの情報を保持している確率モデル保持手段と、
保持されている確率モデル情報に基づいて、事後ＳＮＲの事後確率が最大となるように瞬時帯域雑音パワー推定値を算出する事後確率最大化手段とを具備する
帯域雑音推定手段として機能させる
ことを特徴とする雑音推定プログラム。
上記コンピュータが機能させられる上記各帯域雑音推定手段が、上記瞬時帯域雑音パワー推定値を時間平滑化する平滑化手段をさらに具備することを特徴とする請求項１０に記載の雑音推定プログラム。