JP6679881B2

JP6679881B2 - 雑音推定装置、プログラム及び方法、並びに、音声処理装置

Info

Publication number: JP6679881B2
Application number: JP2015211019A
Authority: JP
Inventors: 大藤枝
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2015-10-27
Filing date: 2015-10-27
Publication date: 2020-04-15
Anticipated expiration: 2035-10-27
Also published as: JP2017083624A

Description

本発明は、雑音推定装置、プログラム及び方法、並びに、音声処理装置に関し、例えば、入力信号に含まれる雑音成分の推定結果を用いて、入力信号に重畳された雑音成分を抑圧する装置に適用し得る。

自然環境において雑音はいたる所に存在するため、一般に実世界で観測される音声は種々の発信元からの雑音を含む。雑音を含んで観測された入力信号から音声だけを強調させるために、様々な雑音抑圧方法が開発されている。これらのうちのほとんどは、抑圧すべき雑音を推定する方法と、雑音を抑圧するフィルタを計算する方法とを有する。従来の入力信号から雑音を抑圧する音声処理装置では、周波数領域で雑音のパワーを推定するものがある。

従来、最も単純な雑音推定方法の例として、入力スペクトルを音声が存在しない区間で平均する方法がある。しかし、このような従来の雑音推定方法は、事前に音声が存在しない区間を推定しなければならない。そのため、音声が存在する区間を推定する音声区間検出（ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ：ＶＡＤ）という技術も盛んに開発されているが、完全なＶＡＤは未だ達成されていない。雑音推定処理において、音声区間の推定を誤ると、推定雑音が目的音声を含んでしまうため、強調音声や残留雑音を歪ませるという問題が生じる。また、上述のような雑音推定方法では、雑音区間でしか雑音を推定しないため、長い音声区間があると雑音の変化に追従できないという欠点もある。

このような背景から、音声区間でも雑音の推定を継続する雑音推定方法として、従来非特許文献１、非特許文献２、及び特許文献１の記載技術がある。いずれの文献も雑音抑圧方法（音声強調方法とも言う）に関する。

非特許文献１に記載の従来の雑音推定方法は、入力パワーの時間方向のピークが目的音声の存在を表す一方で、谷が平滑化した雑音パワーの推定に使えるという発見に基づいている。具体的には、現在から所定時間（Ｔ秒）過去までの入力パワーの最小値を、第１の雑音パワー推定値とする。しかし、第１の雑音パワー推定値はバイアスを有しており、真の雑音パワーよりも小さくなる性質を持つ。このバイアスは、第１の雑音パワー推定値の期待値から推定され、得られたバイアス推定値を用いて第１の雑音パワー推定値を補正して、第２の雑音パワー推定値（最終的な推定値）を得る。

非特許文献２に記載の従来の雑音推定方法は、目的音声と雑音の複素スペクトルの分布がいずれも平均ゼロの複素正規分布に従うという仮説に基づいて、雑音の複素スペクトルの分散の最尤推定値を雑音パワー推定値とする。この仮説に基づくと、入力信号の複素スペクトルの分布は音声の複素スペクトルの分散と雑音の複素スペクトルの分散の和を分散とする平均ゼロの複素正規分布となる。ここに現在の入力が劣化音声と雑音のどちらであるかに関する隠れ変数を導入して、忘却係数を伴ったオンラインＥＭアルゴリズムを適用することで、雑音の複素スペクトルの最尤推定値を算出することができる。

特許文献１に記載の従来の雑音推定方法は、入力パワーに適切な重み係数を乗じて、得られた加重入力パワーを所定時間（Ｔ秒）分記憶しておき、記憶された加重入力パワーの平均値を雑音パワー推定値とする。適切な重み係数は、現在の入力パワーを直前の雑音パワー推定値で除した事後ＳＮＲ（Ｓｉｇｎａｌ−ｔｏ−ＮｏｉｓｅＲａｔｉｏ：信号対雑音比）によって算出される。具体的には、事後ＳＮＲが所定の値Ｇ１以下では重み係数を１とし、事後ＳＮＲがＧ１以上では事後ＳＮＲに反比例するように重み係数を設定し、事後ＳＮＲが所定の値Ｇ２以上では重み係数を０とする。また、重み係数が０の場合には、加重入力パワーは記憶しない。

特開２００２−２０４１７５号公報

Ｒ．Ｍａｒｔｉｎ，"ＳｐｅｃｔｒａｌＳｕｂｔｒａｃｔｉｏｎＢａｓｅｄｏｎＭｉｎｉｍｕｍＳｔａｔｉｓｔｉｃｓ，"ｉｎＰｒｏｃｅｅｄｉｎｇｓｏｆ７ｔｈＥｕｒｏｐｅａｎＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＣｏｎｆｅｒｅｎｃｅ，１９９４，ｐｐ．１１８２−１１８５．Ｍ．Ｓｏｕｄｅｎ，Ｍ．Ｄｅｌｃｒｏｉｘ，Ｋ．Ｋｉｎｓｏｓｈｉｔａ，Ｔ．Ｙｏｓｈｉｏｋａ，ａｎｄＴ．Ｎａｋａｔａｎｉ，"ＮｏｉｓｅＰｏｗｅｒＳｐｅｃｔｒａｌＤｅｎｓｉｔｙＴｒａｃｋｉｎｇ：ＡＭａｘｉｍｕｍＬｉｋｅｌｉｈｏｏｄＰｅｒｓｐｅｃｔｉｖｅ，"ＩＥＥＥＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＬｅｔｔｅｒｓ，Ｖｏｌ．１９，Ｎｏ．８，２０１２，ｐｐ．４９５−４９８．

しかしながら、従来の雑音推定方法には以下に述べるような問題点が存在する。

非特許文献１の方法は、雑音が急に大きくなった場合に、後段の雑音抑圧方法によって不快に感じる雑音が残留するという問題を有している。具体的には、雑音が大きくなってから所定時間の間は、雑音パワー推定値は小さいままである。そして、雑音が大きくなってから所定時間後に、雑音パワー推定値は急激に増大する。そのような雑音パワー推定値を用いて雑音抑圧方法を動作させると、雑音が大きくなった瞬間に残留雑音も急に大きくなり、その所定時間後に残留雑音が急に小さくなる。残留雑音の急激な音量の変化は、聴取者に聴感上の不快感を与える。

非特許文献２の方法は、雑音レベルが変化すると雑音パワー推定値が過大になったり過小になったりするという問題を有している。この雑音推定方法で用いられているオンラインＥＭアルゴリズムは、次のような追従の速さと最尤推定の安定性とのトレードオフを有する：忘却係数を大きくすると安定性が増して追従が遅くなり、忘却係数を小さくすると追従が速くなって安定性が下がる。その結果、忘却係数を大きくしても小さくしても雑音パワー推定値は不正確となり、後段の雑音抑圧方法によって得られる強調音声の歪みを増大させたり残留雑音が大きくなったりする。

特許文献１の方法は、雑音パワー推定値が、誤って音声に追従してしまうことや、非定常雑音に追従して不安定になることが比較的少なく、それでいて雑音が変化した場合にも比較的速やかに追従することができる。しかし、重み係数が０とならないような音声区間が続いた後の雑音区間では、雑音区間に切り替わった約Ｔ秒後に雑音パワー推定値が急激に小さくなる現象が生じる。そのような雑音パワー推定値を用いて後段の雑音抑圧方法を動作させると、当該雑音区間で残留雑音が急激に大きくなるため、聴感上不自然な強調音声になってしまう。

さらに、上述した従来の雑音推定方法は、雑音推定に係るパラメータを入力信号に適応させる機能を有していないため、雑音の特性（雑音レベルや雑音の種類）が変化した場合に雑音推定の精度が劣化してしまう。

以上のように、従来の雑音推定方法には、雑音パワー推定値が不安定になる問題や、雑音パワー推定値が急激に変化する問題や、雑音の特性に適応できないといった問題が存在する。

以上のような問題点に鑑みて、入力音声について、雑音パワーを安定的かつ適応的に推定できる雑音推定装置、プログラム及び方法、並びに、音声処理装置が望まれている。

第１の本発明は、入力音声に含まれる所定の周波数帯域の雑音を推定する雑音推定装置において、（１）所定の方式により、入力音声に含まれる所定の周波数帯域の雑音を推定して、現在の第１の雑音成分推定パワーを取得する第１の雑音推定手段と、（２）前記第１の雑音推定手段が取得した前記第１の雑音成分推定パワーに基づいて、事後確率が最大となる現在の雑音パワーを推定して、第２の雑音成分推定パワーを取得し、第２の雑音成分推定パワーに基づく値を、当該雑音推定装置の推定結果として出力する第２の雑音推定手段とを有することを特徴とする。

第２の本発明の雑音推定プログラムは、入力音声に含まれる所定の周波数帯域の雑音を推定する雑音推定装置に搭載されたコンピュータを、（１）所定の方式により、入力音声に含まれる所定の周波数帯域の雑音を推定して、現在の第１の雑音成分推定パワーを取得する第１の雑音推定手段と、（２）前記第１の雑音推定手段が取得した現在の前記第１の雑音成分推定パワーに基づいて、事後確率が最大となる現在の雑音パワーを推定して、第２の雑音成分推定パワーを取得し、第２の雑音成分推定パワーに基づく値を、当該雑音推定装置の推定結果として出力することを特徴とする雑音推定プログラム。

第３の本発明の雑音推定方法は、入力音声に含まれる所定の周波数帯域の雑音を推定する雑音推定装置において、（１）第１の雑音推定手段及び第２の雑音推定手段を有し、（２）前記第１の雑音推定手段は、所定の方式により、入力音声に含まれる所定の周波数帯域の雑音を推定して、現在の第１の雑音成分推定パワーを取得し、（３）前記第１の雑音推定手段が取得した現在の前記第２の雑音推定手段は、前記第１の雑音成分推定パワーに基づいて、事後確率が最大となる現在の雑音パワーを推定して、第２の雑音成分推定パワーを取得し、第２の雑音成分推定パワーに基づく値を、当該雑音推定装置の推定結果として出力することを特徴とする。

第４の本発明は、入力音声に含まれる雑音を抑圧する音声処理装置において、（１）入力音声が帯域分割されたそれぞれの帯域入力音声に対して、雑音パワーを推定する雑音推定手段と、（２）それぞれの前記帯域入力音声に対して、前記雑音推定手段が推定した前記雑音パワーを用いて、雑音を抑制する雑音抑制手段とを有し、（３）それぞれの前記雑音推定手段として、第１の本発明の雑音推定装置を適用したことを特徴とする。

本発明によれば、入力音声について、雑音パワーを安定的かつ適応的に推定できる。

実施形態に係る雑音推定手段（雑音推定装置）の機能的構成について示したブロック図である。実施形態に係る音声処理装置の機能的構成について示したブロック図である。実施形態に係る第１の事後確率最大化手段の機能的構成について示したブロック図である。実施形態に係る第２の事後確率最大化手段の機能的構成について示したブロック図である。

（Ａ）主たるの実施形態
以下、本発明による雑音推定装置、プログラム及び方法、並びに、音声処理装置の一実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の雑音推定装置、プログラム及び方法を音声処理装置における雑音推定手段に適用した例について説明する。

（Ａ−１）実施形態の構成
[音声処理装置の全体構成について]
まず、この実施形態の音声処理装置１００の全体構成の概要について図２を用いて説明する。

図２は、この実施形態の音声処理装置１００の全体構成について示したブロック図である。

音声処理装置１００は、音声を含む音声信号（時間領域の音声信号）である入力信号ｘ（時間領域の入力信号）について雑音抑圧を行って、抑圧後信号ｙ（時間領域の出力信号）を生成するものである。

音声処理装置１００は、周波数解析手段１０１、Ｋ個の帯域処理手段１０２−１〜１０２−Ｋ、及び波形復元手段１０３を有している。

帯域処理手段１０２−１〜１０２−Ｋは、それぞれ異なる周波数帯域の帯域処理を行うものである。帯域処理手段１０２−１〜１０２−Ｋに添えられた１〜Ｋの符号（添え字；番号）は、それぞれ周波数帯域に係る識別子（番号）を示している。

周波数解析手段１０１は、フーリエ変換に代表される任意の周波数解析手法、またはフィルタバンクに代表される任意の帯域分割手法によって、入力信号ｘ（入力音声）をＫ個の帯域に分割する。そして、周波数解析手段１０１は、得られたＫ個の帯域入力信号Ｘ_１〜Ｘ_Ｋは帯域処理手段１０２−１〜１０２−Ｋにそれぞれ与えられる（以下、必要に応じて周波数帯域の番号を表す添え字を省略する）。

帯域処理手段１０２は、Ｋ個の帯域ごとに、共通の処理を行う。帯域処理手段１０２は、パワー算出手段１０４、雑音推定手段１０５および雑音抑圧手段１０６を有している。

パワー算出手段１０４は、帯域入力信号Ｘのパワー（帯域入力パワー）を算出し、得られた入力パワーＰｘを雑音推定手段１０５に与える。

雑音推定手段１０５は、帯域ごとに雑音のパワーを推定し、得られた雑音パワーＰｎを雑音抑圧手段１０６に与える。

雑音抑圧手段１０６は、帯域入力信号Ｘと雑音パワーＰｎを用いて、帯域入力信号Ｘ中の音声成分を強調し、得られた帯域抑圧後信号Ｙを波形復元手段１０３に与える。

以下では、帯域処理手段１０２−１〜１０２−Ｋが生成する帯域抑圧後信号をＹ_１〜Ｙ_Ｋと表すものとする。

波形復元手段１０３は、周波数解析手段１０１で用いた周波数解析手法または帯域分割手法に対応する波形復元手法を用いて、帯域抑圧後信号Ｙ_１〜Ｙ_Ｋから時間波形を再構成し、得られた抑圧後信号ｙを出力する。

[雑音推定手段１０５の内部構成について]
次に、図１を用いて雑音推定手段１０５の内部構成の概要について説明する。

図１は、雑音推定手段１０５内部の機能的構成について示したブロック図である。

以下では、尤度関数と事前確率、および後述されるそれらのパラメータを確率モデルと呼ぶ。雑音推定において、確率モデルは、雑音そのもの又は加工された雑音（例えば、音声信号が重畳された雑音（入力信号のこと）や、雑音パワーで入力パワーを除したもの（事後ＳＮＲのこと）など）を確率変数と見なして設計される。

雑音推定手段１０５は、第１の事後確率最大化手段２０１と、第２の事後確率最大化手段２０２と、雑音パワー記憶手段２０３とを有する。

第１の事後確率最大化手段２０１は、入力パワーＰｘと単位時間前の雑音パワー推定値Ｐｏ’（雑音パワー記憶手段２０３から供給される雑音パワー推定値Ｐｏ’）に基づいて雑音パワー予測値Ｐｐを算出し、得られたＰｐを第２の事後確率最大化手段２０２に与える。第１の事後確率最大化手段２０１は、所定の最大事後確率推定方法（詳細については後述する）により、雑音パワー予測値Ｐｐを算出する。

第２の事後確率最大化手段２０２は、雑音パワー予測値Ｐｐに基づいて雑音パワーＰｏを推定し、得られたＰｏを雑音パワー記憶手段２０３に与えるとともに、雑音推定方法（手段）１０５の出力として後段の処理に与える。第２の事後確率最大化手段２０２は、第２の最大事後確率推定方法（詳細については後述する）により、雑音パワー予測値Ｐｏを算出する。

雑音パワー記憶手段２０３は、雑音パワーＰｏを記憶し、一単位時間後に雑音パワー推定値Ｐｏ’として第１の事後確率最大化手段２０１に与える。すなわち、雑音パワー記憶手段２０３は遅延素子のような役割を果たす。

次に、雑音推定手段１０５において行われる雑音推定処理（雑音推定方法）の概要について説明する。

雑音推定方法において最も注意しなければならない点は、雑音推定値が目的音声を含まないようにすることである。もし雑音推定値が目的音声を含むと、後段の雑音抑圧方法によって得られる強調音声が歪んだり小さくなったりしてしまい、強調音声の明瞭度や単語了解度を向上させるという雑音抑圧方法の目的を果たせなくなる。

一方、雑音推定方法には非定常な雑音も推定できる性能を求められることもある。しかし、非定常雑音と音声とを区別するのは難しいため、非定常雑音を推定する性能と雑音推定値が音声を含まない性能との間にはトレードオフが生じる。それゆえ、従来のような定常雑音と非定常雑音を同時に推定する方法は、雑音推定値が音声を含んでしまい、安定性が低下する課題があった。

そこで、雑音推定手段１０５では、推定対象を定常雑音に限定することによって、より高い安定性を有する雑音推定方法を実現する。このために、最大事後確率推定の枠組みを用いる。そして、雑音推定手段１０５では、上述の通り、第１の事後確率最大化手段２０１と、第２の事後確率最大化手段２０２という、２つの方式の異なる事後確率最大化手段を用いることで、雑音パワーを安定的、適応的かつ高精度に推定することができる。最大事後確率推定を２回行うことで、雑音パワーを安定的、適応的かつ高精度に推定することができる理由（根拠）については後述する。

[第１の事後確率最大化手段２０１の処理概要について]
まず、第１の事後確率最大化手段２０１の処理の概要（第１の最大事後確率推定方法）について説明する。以下では、第１の事後確率最大化手段２０１が行う計算処理の例について説明する。

後で雑音の定常性を導入するので、時刻ｔにおいて、過去の雑音パワーＮ_ｔ−１、Ｎ_ｔ−２、…が観測された条件の下で、現在の雑音パワーＮ_ｔの事後確率が最大となるように雑音パワーＮｔを算出する問題を考える。但し、パワーは対数尺度の方が扱い易いので、これ以降は、帯域雑音対数パワー＾Ｎ_ｔ＝１０ｌｏｇ１０Ｎ_ｔについて考える。ここで、帯域雑音対数パワーの単位がデシベルとなるような対数変換を行っているが、対数の底はネイピア数や２でも良く、１０倍しなくても良く、１０以外の他の任意の定数係数を乗じても良い。

帯域雑音対数パワーＮ_ｔには、まだ、集音環境やマイク感度による自由度が残っている。これを正規化するために、ここでは帯域雑音対数パワーを直接扱うのでなく、帯域雑音対数パワーを帯域入力対数パワーから減じた（すなわち、雑音パワーで入力パワーを除した）事後ＳＮＲを使うこととする。

推定対象である時刻ｔでの事後ＳＮＲ＾γ_ｔは、帯域入力対数パワーを＾Ｘ_ｔとおくと、（１）式で表される。雑音の定常性を導入するために、時刻_ｔの帯域入力対数パワー＾Ｘ_ｔを所定時間だけ過去の帯域雑音対数パワー＾Ｎ_ｔ−ｍで減じた、（２）式で表される予測事後ＳＮＲ＾γ_{ｔ｜ｔ−ｍ}を導入する。ここで、時間差ｍは任意であるが、直前の値（直前フレームの値）、すなわち、ｍ＝１の帯域雑音対数パワーＮ_ｔ−１を用いるのが最良である。さらに、（３）式で表される過去の平均事後ＳＮＲ￣γ_ｔ−１を導入する。

平均事後ＳＮＲ￣γ_ｔ−１を導入する意図は、事後ＳＮＲの潜在的な分布が集音時の雑音レベルの大小の影響を受けることをモデルに組み込むためである。例えば、事後ＳＮＲが２０ｄＢや３０ｄＢとなることは、無響室のような雑音がほとんど存在しない環境ではよくあるが、工事現場のような音声がほとんど聞き取れないような劣悪な環境ではほとんど生じない。

以上の３つの事後ＳＮＲを使うと、最大化すべき事後確率は、（４）式の左辺に記述しているように、予測事後ＳＮＲ＾γ_{ｔ｜ｔ−ｍ}と過去の平均事後ＳＮＲ￣γ_ｔ−１とが確定している条件下で事後ＳＮＲ＾γ_ｔが生じる確率となり、これをベイズの定理で展開すると、（４）式の右辺が得られる。

（４）式の最大化は事後ＳＮＲ＾γ_ｔに対して行うので、右辺の分母は最大化には影響しない。また、右辺におけるｐ（￣γ_ｔ−１）は、集音時の雑音レベルの潜在的な確率を意味しているが、どのような環境で集音するかは不確定であるのが普通なので、一様分布を仮定することにする。これにより、３つの確率の乗算で表されている（４）式の右辺の分子における、前側の２つの確率の乗算値の最大化を図れば良い。さらに、ＭＡＰ推定は、線形な事後確率よりも対数事後確率を最大化する方が簡単なケースが多いことも考慮する。このような考慮を加えることにより、事後ＳＮＲ＾γ_ｔの最適値を算出する評価関数Ｊｍａｐ（＾γ_ｔ）を、（５）式で定義することとした。

（５）式の右辺第１項は、事後ＳＮＲ＾γ_ｔの対数尤度関数である。また、（５）式の右辺第１項は、現在（時刻ｔ）の事後ＳＮＲ＾γ_ｔと、現在の帯域入力対数パワー＾Ｘ_ｔを所定時間だけ過去の帯域雑音対数パワー＾Ｎ_ｔ−ｍで減じた事後ＳＮＲ＾γ_{ｔ｜ｔ−ｍ}の関係、言い換えると、現在の帯域雑音対数パワー＾Ｎ_ｔと、時間差ｍだけ過去の帯域雑音対数パワー＾Ｎ_ｔ−ｍが生じた場合における現在の帯域雑音対数パワーの推定値＾Ｎ_{ｔ｜ｔ−ｍ}の関係を表していることから、これは雑音の定常性を表している。条件に、１単位時間だけ過去の平均事後ＳＮＲ￣γ_ｔ−１が含まれているが、対数尺度では雑音の定常性の特性は、過去の平均事後ＳＮＲ￣γ_ｔ−１に依らず不変と考えられる（線形尺度で雑音パワーの時間変化量を考えると、過去の平均事後ＳＮＲと比例するが、対数尺度では対数雑音パワーの時間変化率を考えているためである）。従って、（５）式は、（６）式のように書き直すことができる。

（６）式の右辺第２項は、過去の平均事後ＳＮＲ￣γ_ｔ−１を条件とした現在の事後ＳＮＲ＾γ_ｔの対数事前確率、すなわち、平均事後ＳＮＲが￣γ_ｔ−１である集音環境における現在の事後ＳＮＲ＾γ_ｔの出現確率を意味している。

尤度関数及び事前確率は、互いの極端な最適化を抑制し是正する働きを持つ。定常性を表す尤度関数だけを使って最適化すると、最も高い定常性が得られる＾γ_ｔ＝＾γ_{ｔ｜ｔ−ｍ}が解となるので事後ＳＮＲが更新されなくなる。また、先天的な出現確率を表す事前確率だけを使って最適化すると、常に事前確率が最も高くなる＾γ_ｔが解となるので定常性が考慮されなくなる。それに対して、（６）式によって最適化すると、定常性と先天的な出現確率の両方を満たそうとするため、極端ではない適切な解を得ることができる。

今、（６）式の最適解が＾γ^＊ _ｔであるとする。現在の帯域入力（対数）パワー＾Ｘ_ｔと共にこの最適解＾γ^＊ _ｔを（１）式に適用すると、（７）式に示すように、最適解を適用した帯域雑音対数パワー＾Ｎ^＊ _ｔが得られる。帯域雑音パワーＮ_ｔと帯域雑音対数パワー＾Ｎ_ｔとの間には、上述したように、＾Ｎ_ｔ＝１０ｌｏｇ１０Ｎ_ｔという関係があり、この関係式を（７）式に代入することにより、帯域雑音パワーの推定値（最適値）Ｎ^＊ _ｔは、（８）式で表される。

ここで、（８）式は、帯域雑音対数パワー＾Ｎ_ｔの単位がデシベルであることが前提となっているが、上述したように、対数変換を他の方法で行った場合には、底や定数倍の値などがその方法に対応した異なる式を、（８）式の代わりに使うこととなる。

次に、（６）式に示す評価関数Ｊｍａｐ（＾γ_ｔ）を規定する尤度関数と事前確率の具体的な関数形（後述する各実施形態の説明では確率モデル情報と呼んでいる）を考える。

尤度関数ｐ（＾γ_{ｔ｜ｔ−ｍ}｜＾γ_ｔ）は、（１）式及び(２)式を代入することにより、ｐ（＾Ｘ_ｔ−＾Ｎ_ｔ−ｍ｜＾Ｘ_ｔ−＾Ｎ_ｔ）と書くことができる。この書き換えた尤度関数をｐ（＾Ｎ_ｔ−ｍ｜＾Ｎ_ｔ）と比較すると、一方の関数の帯域雑音対数パワー＾Ｎ_ｔ−ｍ及び＾Ｎ_ｔの符号を反転させて同じだけ平行移動させたものが他方の関数となっているから、確率密度関数の分布形状は同様であり、ｐ（＾γ_{ｔ｜ｔ−ｍ}｜＾γ_ｔ）に代えてｐ（＾Ｎ_ｔ−ｍ｜＾Ｎ_ｔ）を考慮しても良いことが分かる。この関数ｐ（＾Ｎ_ｔ−ｍ｜＾Ｎ_ｔ）は、現在の帯域雑音対数パワー＾Ｎ_ｔが確定した条件の下での時間差ｍ分（ｍフレーム）だけ過去の帯域雑音対数パワー＾Ｎ_ｔ−ｍの出現確率であるから、定常性を考慮すると、＾Ｎ_ｔ−ｍ＝＾Ｎ_ｔで最も大きな確率となり、過去の帯域雑音対数パワー＾Ｎ_ｔ−ｍが現在の帯域雑音対数パワー＾Ｎ_ｔから離れるほど確率は小さくなるべきである（言い換えると、｜＾Ｎ_ｔ−ｍ−＾Ｎ_ｔ｜→∞でｐ（＾Ｎ_ｔ−ｍ｜＾Ｎ_ｔ）→０となるべきである）。すなわち、帯域雑音対数パワー＾Ｎ_ｔの尤度関数ｐ（＾Ｎ_ｔ−ｍ｜＾Ｎ_ｔ）として、左右対称の山形状の確率密度関数を適用すれば良い。

このような左右対称の山形状の確率密度関数の代表は正規分布である。そこで、帯域雑音対数パワー＾Ｎ_ｔの尤度関数（Ｎ_ｔ−ｍの条件付き確率密度関数）ｐ（＾Ｎ_ｔ−ｍ｜＾Ｎ_ｔ）を正規分布でモデリングすると、（１１）式で表すことができる。（１１）式において、σ^２は正規分布の分散パラメータであり、定常性の強さを表す。例えば、σ^２として４２を適用できる。

また、より柔軟なモデルとして、尤度関数ｐ（＾Ｎ_ｔ−ｍ｜＾Ｎ_ｔ）に、（１２）式に示すような一般化正規分布を選択することも可能である。（１２）式において、Γ（・）はガンマ関数であり、αとβは定常性の特性を決めるパラメータである。例えば、α＝７．６、β＝１．９を適用できる。

以上の２例以外にも、＾Ｎ_ｔ−ｍ＝＾Ｎ_ｔで最も大きな確率となり、｜＾Ｎ_ｔ−ｍ−＾Ｎ_ｔ｜→∞でｐ（＾Ｎ_ｔ−ｍ｜＾Ｎ_ｔ）→０となるような任意の確率密度関数を、尤度関数ｐ（＾Ｎ_ｔ−ｍ｜＾Ｎ_ｔ）として選択することができる。

事後ＳＮＲで表現される尤度関数ｐ（＾γ_{ｔ｜ｔ−ｍ}｜＾γ_ｔ）は、（１１）式又は（１２）式の変数（帯域雑音対数パワーの部分）＾Ｎ_ｔ−ｍ−＾Ｎ_ｔを、（１３）式のように変形することによって得ることができる。

次に、（６）式に示す評価関数Ｊｍａｐ（＾γ_ｔ）を規定する事前確率について考察する。すなわち、過去の平均事後ＳＮＲ￣γ_ｔ−１を条件とした現在の事後ＳＮＲ＾γ_ｔの事前確率ｐ（＾γ_ｔ｜￣γ_ｔ−１）について考察する。

第１に、（１）式で表される現在の事後ＳＮＲ＾γ_ｔの取り得る値の範囲について考察する。入力音声は、音声と雑音の両方を含んでいるので帯域入力対数パワー＾Ｘ_ｔは帯域雑音対数パワー＾Ｎ_ｔより小さくならないので、事後ＳＮＲ＾γ_ｔは非負である。第２に、音声のスパース性（出現がまばらである性質）について考察する。一般に、音声の時間周波数表現はスパースであることから、帯域入力対数パワー＾Ｘ_ｔが帯域雑音対数パワー＾Ｎ_ｔと等しくなる頻度が高いため、出現確率が一番高いのは、事後ＳＮＲ＾γ_ｔが０（ｄＢ）のときである。第３に、高ＳＮＲの出現確率について考察する。音声の大きさは有限であるから帯域入力対数パワー＾Ｘ_ｔも有限であり、一方、雑音は、音声に比してスパース性が弱いために小さな値を取り難くなるので、事前確率ｐ（＾γ_ｔ｜￣γ_ｔ−１）は＾γ_ｔ→∞で０に収束する。

以上の３つの考察より、過去の平均事後ＳＮＲ￣γ_ｔ−１を条件とした現在の事後ＳＮＲ＾γ_ｔの事前確率ｐ（＾γ_ｔ｜￣γ_ｔ−１）の候補の一つとして、（１４）式に示す指数分布を選ぶことは自然である（但し、後述するように指数分布に限定されない）。

（１４）式において、λ_ｔは分布の広がりを表すパラメータであり、λ_ｔが小さいほど分布の広がりは大きい。平均事後ＳＮＲ￣γ_ｔ−１が大きくなるほど現在の事後ＳＮＲ＾γ_ｔも大きな値を取り易くなるから、パラメータλ_ｔは平均事後ＳＮＲ￣γ_ｔ−１に反比例するか、平均事後ＳＮＲ￣γ_ｔ−１と負の相関を持つように決定する。例えば、パラメータλ_ｔを（１５）式に従って算出する。

以上では、事前確率ｐ（＾γ_ｔ｜￣γ_ｔ−１）として指数分布を適用可能であることを説明したが、指数分布以外にも、上述した３つの考察が示す条件を満たす任意の確率密度関数を事前確率として選択することができる。例えば、ガンマ分布や片側正規分布や、より柔軟な片側一般化正規分布を適用できる。

次に、（６）式に示す評価関数Ｊｍａｐ（＾γ_ｔ）を最大化する事後ＳＮＲ＾γ_ｔの最適解＾γ^＊ _ｔを求める方法を説明する。最適解＾γ^＊ _ｔは、評価関数Ｊｍａｐ（＾γ_ｔ）を最大化する現在の事後ＳＮＲ＾γ_ｔであるから、（６）式の右辺を現在の事後ＳＮＲ＾γ_ｔで微分した式が０となるような現在の事後ＳＮＲ＾γ^＊ _ｔを求めれば良い。

（６）式に示す評価関数Ｊｍａｐ（＾γ_ｔ）における尤度関数に（１１）式に示す正規分布を適用し、事前確率に（１４）式に示す指数分布を適用した場合、最適解＾γ^＊ _ｔは、（１６）式のように求めることができる。また、（６）式に示す評価関数Ｊｍａｐ（＾γ_ｔ）における尤度関数に（１２）式に示す一般化正規分布を適用し、事前確率に（１４）式に示す指数分布を適用した場合、最適解＾γ^＊ _ｔは、（１７）式のように求めることができる。（１６）式及び（１７）式において、ｍａｘ｛ａ，ｂ｝はａとｂの大きい方を選択する関数であり、第１の考察で説明した非負を実現するために導入した関数である。

いずれの場合も、予測事後ＳＮＲ＾γ_{ｔ｜ｔ−ｍ}からある値を減じたものが最適解＾γ^＊ _ｔとなっている。すなわち、（１６）式においては（１９）式のように、（１７）式においては（２０）式のように係数＾ｃ_ｔを決めると、（１６）式及び（１７）式は共に（２１）式のように表現することができる。なお、係数＾γ_ｔは（１８）式に示すように、係数γ_ｔの対数である。

この（２１）式と上述した（７）式とより、帯域雑音対数パワーの推定値＾Ｎ^＊ _ｔ（以下、この「＾Ｎ^＊ _ｔ」を「第１の推定値」とも呼ぶものとする）は（２２）式によって算出でき、この（２２）式と、対数尺度から線形尺度への変換式（例えば、（１８）式参照）とから、帯域雑音パワーの第１の推定値Ｎ^＊ _ｔは（２３）式によって算出できる。（２２）式及び（２３）式において、ｍｉｎ｛ａ，ｂ｝はａとｂの小さい方を選択する関数である。

（２３）式から、帯域雑音パワーの推定値（第１の推定値）は、過去の平均事後ＳＮＲに対して最適な割合で常に増大するが、帯域入力パワーより大きくなることはないことが分かる。増大の継続と帯域入力パワーを上限としていることで、集音環境が少しずつ変化する場合や雑音が急激に小さくなった場合には速やかに追従することができる。一方、雑音が急激に大きくなった場合には、環境の変化直後は平均事後ＳＮＲが大きくなるために追従が遅れるが、雑音パワーの推定値（第１の推定値）を増大させ続けることで次第に環境に適応していくことができる。

[第１の事後確率最大化手段２０１の内部構成について]
次に、図３を用いて第１の事後確率最大化手段２０１の内部構成について説明する。

なお、この実施形態において、確率モデルとは、上述した（６）式における尤度関数ｐ（＾γ_{ｔ｜ｔ−ｍ}｜＾γ_ｔ）と事前確率ｐ（＾γ_ｔ｜￣γ_ｔ−１）の関数形と、これら関数のパラメータとを意味するものとする。

また、この実施形態において、時間差ｍは、１単位時間、すなわちｍ＝１とする。

尤度関数ｐ（＾γ_{ｔ｜ｔ−１}｜＾γ_ｔ）は、確率密度関数としてとらえた場合には現在の事後ＳＮＲが確定した条件の下で予測事後ＳＮＲが観測される確率であり、現在の事後ＳＮＲを変数とする。該尤度関数には、予測事後ＳＮＲが現在の事後ＳＮＲと等しいときに最大となり、予測事後ＳＮＲが現在の事後ＳＮＲから離れるほど０に近づくような任意の確率密度関数を選択することができるが、ここでは、例として、上述した（１１）式に示した平均値が０の正規分布を適用する。正規分布は分散パラメータσ^２を有しており、例えば、分散パラメータσ^２として４２を適用できる。

事前確率ｐ（＾γ_ｔ｜￣γ_ｔ−１）は、過去の平均事後ＳＮＲの下で現在の事後ＳＮＲが観測される潜在的な確率である。該事前確率には、現在の事後ＳＮＲが非負で定義され、現在の事後ＳＮＲが０ｄＢのときに最大となり、現在の事後ＳＮＲが大きくなるほど０に近付くような任意の確率密度関数を選択することができるが、ここでは、例として、上述した（１４）式に示した指数分布を適用する。指数分布は、速度パラメータλ_ｔを有している。速度パラメータλ_ｔは過去の平均事後ＳＮＲにより変化する。速度パラメータλ_ｔの算出方法は、過去の平均事後ＳＮＲと反比例の関係になる、又は、負の比例関係になる任意の方法を選択することができるが、一例として、上述した（１５）式に従って算出されたものを適用する。

確率モデルは任意のタイミングで変更することが可能である。また、その変更は、分散パラメータσ^２の値や（１５）式の数値を更新するだけでも良く、速度パラメータλ_ｔの算出方法を変更しても良く、尤度関数ｐ（＾γ_{ｔ｜ｔ−１}｜＾γ_ｔ）や事前確率ｐ（＾γ_ｔ｜￣γ_ｔ−１）の関数形を変更しても良く、時間差ｍを変更しても良い。

第１の事後確率最大化手段２０１では、現在の帯域入力パワー、所定時間過去の帯域雑音パワー推定値、及び、後述する増幅係数算出手段３０４で保持されている確率モデルに基づいて、雑音パワーの推定が実行される。そして、第１の事後確率最大化手段２０１は、得られた雑音パワーの推定値（第１の推定値）を第２の事後確率最大化手段２０２に供給する。

図３は、第１の実施形態における第１の事後確率最大化手段２０１の詳細構成を示す機能ブロック図である。

第１の事後確率最大化手段２０１は、入力パワー記憶手段３０１、事後ＳＮＲ算出手段３０２、事後ＳＮＲ平滑化手段３０３、増幅係数算出手段３０４、雑音パワー増幅手段３０５及び予測雑音パワー決定手段３０６を有する。

第１の事後確率最大化手段２０１では、帯域入力パワーＰｘは、入力パワー記憶手段３０１及び予測雑音パワー決定手段３０６に供給される。また、第１の事後確率最大化手段２０１では、雑音パワー記憶手段２０３からの前回の帯域雑音パワーＰｏ’が、事後ＳＮＲ算出手段３０２及び雑音パワー増幅手段３０５に供給される。さらに、増幅係数算出手段３０４では、事前に設計された雑音の定常性に関する確率モデルの情報（以下、単に確率モデルと呼ぶ）を保持しているものとする。増幅係数算出手段３０４が保持している確率モデルは、上述のＭＡＰ推定に基づいて設計された確率モデル（上述した考え方に従ったモデル）であるものとする。

入力パワー記憶手段３０１は、与えられた帯域入力パワーＰｘを、単位処理時間（例えば１フレーム時間）だけ遅延させた後に事後ＳＮＲ算出手段３０２に供給する。

事後ＳＮＲ算出手段３０２は、前回入力された帯域入力パワーを前回算出された帯域雑音パワー推定値で除算して、前回の事後ＳＮＲを算出する。そして、事後ＳＮＲ算出手段３０２は、算出した前回の事後ＳＮＲを事後ＳＮＲ平滑化手段３０３に供給する。

事後ＳＮＲ平滑化手段３０３には、事後ＳＮＲ算出手段３０２から与えられた過去の事後ＳＮＲが少なくとも１つ以上記憶されている。そして、事後ＳＮＲ平滑化手段３０３では、記憶されている過去の事後ＳＮＲが適用されて、新たに与えられた前回の事後ＳＮＲが時間平滑化されて、平均事後ＳＮＲが得られる。事後ＳＮＲ平滑化手段３０３で得られた平均事後ＳＮＲは増幅係数算出手段３０４に供給される。

事後ＳＮＲ平滑化手段３０３による時間平滑化の方法は限定されるものではなく、任意の方法を適用することができる。時間平滑化の代表的な方法には、移動平均法と時定数フィルタ（リーク積分とも呼ばれる）があるが、ここでは、例として移動平均法を使うこととする。現在の時刻をｔとして、Ｔ個の過去の事後ＳＮＲを使う場合、現在の事後ＳＮＲをγ_ｔと書くことにすると、移動平均法による前回までの平均事後ＳＮＲγ_ｔ−１は（２４）式で定義される。例えば、Ｔは２０とする。なお、（２４）式の代わりに（２５）式の更新則を使うと、加減算を（Ｔ−３）回だけ減らせて効率を向上させることができる。

増幅係数算出手段３０４は、保持している確率モデルのパラメータ（第１の実施形態の場合σ２及びλ_ｔ）と事後ＳＮＲ平滑化手段３０３から与えられた平均事後ＳＮＲ￣γ_ｔ−１とに基づいて、雑音増幅係数ｃ_ｔを算出する。そして、増幅係数算出手段３０４は、得られた雑音増幅係数ｃ_ｔを雑音パワー増幅手段３０５に供給する。この実施形態では、確率モデルにおける尤度関数として正規分布を適用しているので、雑音増幅係数ｃ_ｔは、上述した（１９）式によって算出される。

雑音パワー増幅手段３０５は、与えられた前回の帯域雑音パワー推定値に、増幅係数算出手段３０４から得られた雑音増幅係数ｃ_ｔを乗算して帯域雑音パワー暫定推定値を算出し、得られた帯域雑音パワー暫定推定値を予測雑音パワー決定手段３０６へ供給する。

予測雑音パワー決定手段３０６は、与えられた現在の帯域入力パワーと雑音パワー増幅手段３０５から与えられた帯域雑音パワー暫定推定値とを比較し、小さい方を帯域雑音パワーの推定値（第１の推定値）として選択する。そして、予測雑音パワー決定手段３０６は、得られた（選択した）帯域雑音パワーの推定値（第１の推定値）を、後段（第２の事後確率最大化手段２０２）に供給する。すなわち、（２３）式の演算が予測雑音パワー決定手段３０６によって実行されている。

[第２の事後確率最大化手段２０２の処理概要について]
次に、第２の事後確率最大化手段が、雑音パワー予測値から雑音パワー推定値を高精度に算出できる理屈を説明する。以下では、第２の事後確率最大化手段２０２が行う計算処理の例について説明する。

定常性を利用して現在の雑音パワーＰｎを推定するために、雑音パワー予測値ＰｐからＰｎを推定する問題を考える。ただし、集音環境やマイク感度による自由度をキャンセルするために、雑音パワーの平均値￣Ｐｎを導入し、正規化雑音パワーν（ニュー）＝Ｐｎ／￣Ｐｎを導入する。同様に、直前の正規化雑音パワーはν’＝Ｐｎ’／￣Ｐｎとする。そして、直前の正規化雑音パワーν’が観測された下での正規化雑音パワーνの事後確率ｐ（ν｜ν’）を最大化する問題を考える。当該事後確率を最大化することで、正規化雑音パワーνが得られる。

まず、事後確率ｐ（ν｜ν’）をベイズの定理に基づいて展開すると式（３１）が得られる。式（３１）において、νは観測済みで確定しているので、分母は省略できる。また、事後確率よりも対数事後確率を最大化する方が簡単な場合が多いので、最大化する評価関数Ｊ（ν）を式（３２）とする。

次に、評価関数の尤度関数ｐ（ν｜ν’）と事前確率ｐ（ν）を設計する。定常雑音が平均０の正規分布に従う場合、雑音を周波数解析して得られる雑音スペクトルの各要素の雑音振幅はレイリー分布に従うことが知られている。また、レイリー分布に従う確率変数の２乗は指数分布に従うから、当該雑音振幅を２乗して得られる雑音パワーも式（３３）に示す指数分布に従う。式（３３）において、μは確率変数（正規化雑音パワー）νの平均値である。事前確率ｐ（ν）は式（３３）で与えられる。

尤度関数ｐ（ν｜ν’）は、ν’の立場で考えると、νが観測された下でν’が観測される確率である。そこで、（ν｜ν’）の確率密度関数をこの尤度関数とする。ν’もνも同じμの式（３３）に従うとすると、尤度関数ｐ（ν｜ν’）は式（３４）となる。

式（３３）と式（３４）を式（３２）に代入すると、評価関数Ｊ（ν）は式（３５）となり、Ｊ（ν）を最小化するνを得るために、Ｊ（ν）のνに関する導関数がゼロとなるような方程式を解くと、式（３６）となる。

式（３６）によると、０≦ν≦２μとなるから、雑音パワーの推定値は雑音パワーの平均値￣Ｐｎの２μ倍以下となることが保証されているので、安定的に雑音パワーを推定することができる。例えば、入力パワーが目的音声や非定常雑音の成分を含んでいる場合、当該入力パワーは真の雑音パワーより大きくなるが、雑音パワーの推定値は雑音パワーの平均値￣Ｐｎの２μ倍以下となるので、目的音声や非定常雑音の成分を誤って雑音パワーとして推定してしまうことはない。

また、パラメータμは正規化雑音パワーνの平均値であるから、μ＝１である。

[第２の事後確率最大化手段２０２の内部構成について]
次に、第２の事後確率最大化手段２０２の詳細な動作を、図４を参照しながら説明する。

図４は、第２の事後確率最大化手段２０２の詳細な構成を示すブロック図である。図４に示すように、第２の事後確率最大化手段２０２は、予測雑音パワー正規化手段４０１と、正規化雑音パワー推定手段４０２と、雑音パワー非正規化手段４０３と、雑音パワー平均手段４０４と、平均雑音パワー記憶手段４０５とを有する。

予測雑音パワー正規化手段４０１は、雑音パワー予測値Ｐｐを、後述する平均雑音パワー記憶手段４０５より与えられる一単位時間前の平均雑音パワー￣Ｐｎ’で除し、得られた正規化雑音パワー予測値ν’を正規化雑音パワー推定手段４０２に与える。

正規化雑音パワー推定手段４０２は、正規化雑音パワー予測値ν’に基づいて事後確率が最大となる現在の正規化雑音パワーνを推定し、得られたνを雑音パワー非正規化手段４０３に与える。正規化雑音パワー推定手段４０２は、ν’を式（３６）に代入してνを推定する。なお、パラメータμはμ＝１とするのが好適である。

雑音パワー非正規化手段４０３は、正規化雑音パワーνに一単位時間前の平均雑音パワー￣Ｐｎ’を乗じ、得られた雑音パワーＰｎを雑音パワー平均手段４０４に与えるとともに、第２の事後確率最大化手段２０２の出力とする（雑音パワーＰｎを、雑音パワーＰｏとして出力する）。

雑音パワー平均手段４０４は、雑音パワーＰｎの平均値を算出し、得られた平均雑音パワー￣Ｐｎを平均雑音パワー記憶手段４０５に与える。平均値の算出には、時定数フィルタ（リーク積分とも呼ばれる）や移動平均法などを用いることができるが、時定数フィルタが好適に用いられる。

平均雑音パワー記憶手段４０５は、平均雑音パワー￣Ｐｎを記憶し、一単位時間後に予測雑音パワー正規化手段４０１および雑音パワー非正規化手段４０３に与える。すなわち、平均雑音パワー記憶手段４０５は遅延素子のような役割を果たす。

（Ａ−２）実施形態の動作
次に、以上のような構成を有するこの実施形態の音声処理装置１００の動作（実施形態に係る音声処理方法）を説明する。

まず、図１を用いて、音声処理装置１００の全体動作について説明する。

周波数解析手段１０１は、入力信号ｘから、Ｋ個の帯域入力信号Ｘ_１〜Ｘ_Ｋを取得し、帯域入力信号Ｘ_１〜Ｘ_Ｋをそれぞれ帯域処理手段１０２−１〜１０２−Ｋに供給する。

そして、帯域処理手段１０２−１〜１０２−Ｋは、それぞれ帯域入力信号Ｘ_１〜Ｘ_Ｋについて雑音パワーを推定する。そして、帯域処理手段１０２−１〜１０２−Ｋは、それぞれ雑音パワーの推定結果に基づいて帯域入力信号Ｘ_１〜Ｘ_Ｋに対して雑音抑制処理を行い、帯域抑圧後信号Ｙ_１〜Ｙ_Ｋを生成し、波形復元手段１０３に供給する。

そして、波形復元手段１０３は、帯域抑圧後信号Ｙ_１〜Ｙ_Ｋから時間波形を再構成し、得られた抑圧後信号ｙを出力する。

次に、各帯域処理手段１０２内部の動作について説明する。帯域処理手段１０２−１〜１０２−Ｋは、それぞれ処理する周波数成分が異なるだけで、共通の動作を行う。

パワー算出手段１０４は、帯域入力信号Ｘのパワーを算出し、得られた入力パワーＰｘを雑音推定手段１０５に与える。

次に、図１を用いて、この実施形態の雑音推定手段１０５内部の動作について説明する。

第１の事後確率最大化手段２０１は、入力パワーＰｘと単位時間前の雑音パワー推定値Ｐｏ’に基づいて雑音パワー予測値Ｐｐを算出し、得られたＰｐを第２の事後確率最大化手段２０２に与える。

そして、第２の事後確率最大化手段２０２は、与えられた雑音パワー予測値Ｐｐに基づいて雑音パワーＰｏを推定し、得られたＰｏを雑音パワー記憶手段２０３に与えるとともに、雑音推定方法（手段）１０５の出力として後段の処理（第２の事後確率最大化手段２０２）に与える。

雑音パワー記憶手段２０３は、雑音パワーＰｏを記憶し、一単位時間後に雑音パワー推定値Ｐｏ’として第１の事後確率最大化手段２０１に与える。

次に、図３を用いて、第１の事後確率最大化手段２０１の内部の動作について説明する。

次に、図３を用いて、この実施形態の第１の事後確率最大化手段２０１の動作について説明する。

事後ＳＮＲ算出手段３０２は、前回入力された帯域入力パワーを前回算出された帯域雑音パワー推定値で除算して、前回の事後ＳＮＲを算出し、事後ＳＮＲ平滑化手段３０３に供給する。

事後ＳＮＲ平滑化手段３０３では、記憶されている過去の事後ＳＮＲが適用されて、新たに与えられた前回の事後ＳＮＲが時間平滑化されて、平均事後ＳＮＲが得られる。そして、事後ＳＮＲ平滑化手段３０３は、得られた平均事後ＳＮＲを増幅係数算出手段３０４に供給する。

増幅係数算出手段３０４は、保持している確率モデルのパラメータ（第１の実施形態の場合σ２及びλ_ｔ）と事後ＳＮＲ平滑化手段３０３から与えられた平均事後ＳＮＲ￣γ_ｔ−１とに基づいて、雑音増幅係数ｃ_ｔを算出し、雑音パワー増幅手段３０５に供給する。

予測雑音パワー決定手段３０６は、与えられた現在の帯域入力パワーと雑音パワー増幅手段３０５から与えられた帯域雑音パワー暫定推定値とを比較し、小さい方を帯域雑音パワーの推定値（第１の推定値）として、第２の事後確率最大化手段２０２に供給する。

次に、図４を用いて、この実施形態の第２の事後確率最大化手段２０２の動作について説明する。

正規化雑音パワー推定手段４０２は、正規化雑音パワー予測値ν’に基づいて事後確率が最大となる現在の正規化雑音パワーνを推定し、得られたνを雑音パワー非正規化手段４０３に与える。

雑音パワー平均手段４０４は、雑音パワーＰｎの平均値を算出し、得られた平均雑音パワー￣Ｐｎを平均雑音パワー記憶手段４０５に与える。

平均雑音パワー記憶手段４０５は、平均雑音パワー￣Ｐｎを記憶し、一単位時間後に予測雑音パワー正規化手段４０１および雑音パワー非正規化手段４０３に与える。

（Ａ−３）実施形態の効果
この実施形態によれば、以下のような効果を奏することができる。

この実施形態の雑音推定手段１０５では、第１の事後確率最大化手段２０１が、入力パワーＰｘと単位時間前の雑音パワー推定値Ｐｏ’に基づいて雑音パワー予測値Ｐｐを算出し、第２の事後確率最大化手段２０２が雑音パワー予測値Ｐｐに基づいて雑音パワーＰｏを推定している。

この実施形態の雑音推定手段１０５では、第１の事後確率最大化手段２０１及び第２の事後確率最大化手段２０２を有しているが、本来、第２の事後確率最大化手段２０２だけを用いて、入力パワーＰｘと単位時間前の雑音パワー推定値Ｐｏ’に基づき、雑音パワーＰｏを推定することもできる。

例えば、図１において、第１の事後確率最大化手段２０１を除外し、第２の事後確率最大化手段２０２に直接入力パワーＰｘを供給するようにしてもよい。この場合、第２の事後確率最大化手段２０２は、入力パワーＰｘを平均雑音パワー￣Ｐｎ’で正規化した正規化入力パワーξ’に基づいて、事後確率が最大となる現在の正規化雑音パワーνを推定することになる。また、この場合、第２の事後確率最大化手段２０２では、正規化雑音パワーνを非正規化して推定結果としての雑音パワーＰｎを取得する。さらに、この場合、第２の事後確率最大化手段２０２は、上記の（３６）式を用いて、正規化雑音パワーνを推定する。そして、上述の通り、上記の（３６）式によれば、０≦ν≦２μとなるから、雑音パワーの推定値は雑音パワーの平均値Ｐｎの２μ倍以下となることが保証されているので、第２の事後確率最大化手段２０２は、安定的に雑音パワーを推定することができる。また、第２の事後確率最大化手段２０２では、正規化入力パワーξ’に基づいて、事後確率が最大となる現在の正規化雑音パワーνを推定するため、近似する処理を行わずに、正規化雑音パワーνを取得することが可能なる。これは、上記の（３６）式を求める過程（上記の（３１）式〜（３６）式の過程）で、近似式を用いた計算を行っていないことからも明らかである。これにより、第２の事後確率最大化手段２０２では、精度よく（推定誤差の少ない）雑音パワーを推定することができる。

また、例えば、図１において、第２の事後確率最大化手段２０２を除外し、第１の事後確率最大化手段２０１の出力（雑音パワー予測値Ｐｐ）を、雑音パワーＰｏとして雑音推定手段１０５の出力とするようにしてもよい。

しかしながら、最大事後確率推定を行うためには、尤度関数と事前確率を設計しなければならない。確率モデルを設計するにはそれらの確率変数の確率密度関数（確率変数が離散的なら確率分布）がわかっている必要がある。定常雑音は、多くの場合複数の環境音が混ざったものなので、中心極限定理からガウス分布に近づく。しかし、雑音抑圧によって強調したい音声信号は通常１つであり、また音声信号は非定常であり、言語や話者などの要因によっても変化するため、１つの確率密度関数を割り当てることはできない。

以上から、入力パワーに１つの確率密度関数を割り当てる第１の事後確率最大化手段２０１や、入力パワーがガウス分布に従うものとして雑音パワーを推定する第２の事後確率最大化手段２０２では、高い精度で雑音を推定することができない。しかし、第１の事後確率最大化手段２０１には入力パワーをガウス分布に限定していないという長所があり、第２の事後確率最大化手段２０２には入力パワーがガラス分布に従っていれば高い精度で雑音を推定できるという長所がある。

そのため、この実施形態では、まず第１の事後確率最大化手段２０１を用いて入力パワーと単位時間前の雑音パワー推定値から現在の雑音パワー予測値を算出し、当該雑音パワー予測値に基づき、第２の事後確率最大化手段２０２を用いて雑音パワー推定値を得る。雑音パワー予測値は、雑音パワーの推定値の１つであるから、入力パワーよりもガウス分布に近い確率密度関数に従う。そのような雑音パワー予測値を入力することで、第２の事後確率最大化手段２０２は高い精度で雑音パワー推定値を算出することができる。

（Ｂ）他の実施形態
本発明は、上記の実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。

（Ｂ−１）上記の各実施形態では、雑音推定装置としての雑音推定手段を、音声処理装置の一部として構築する例について示したが、雑音推定装置を単体の装置として構築するようにしてもよい。また、上記の各実施形態において、１つの雑音推定装置（雑音推定手段）で１つの周波数帯の雑音パワーを推定するものとして説明したが、本発明の雑音推定装置は、複数の周波数帯の雑音パワーを推定する装置として構築するようにしてもよい。すなわち、上記の各実施形態に示す雑音推定手段を複数備える装置を、本発明の雑音推定装置として構築するようにしてもよい。

（Ｂ−２）上記の実施形態の雑音推定手段１０５では、第１の事後確率最大化手段２０１（入力パワーに１つの確率密度関数を割り当てる方式）を用いて、第２の事後確率最大化手段２０２に供給する雑音パワー予測値Ｐｐを求めているが、第１の事後確率最大化手段２０１において雑音パワー予測値Ｐｐを求める方式は上述の第１の事後確率最大化手段２０１の方式に限定されない。すなわち、雑音推定手段１０５において、第１の事後確率最大化手段２０１とは異なる方式で雑音パワー予測値Ｐｐを求めるようにしてもよい。雑音パワー予測値Ｐｐを求める方式いついては限定されないものであるが、雑音の定常性を利用して雑音パワー予測値Ｐｐを求める方式であることが望ましい。

１００…音声処理装置、１０１…周波数解析手段、１０２−１〜１０２−Ｋ、１０２…帯域処理手段、１０３…波形復元手段、１０４…パワー算出手段、１０５…雑音推定手段、１０６…雑音抑圧手段、２０１…入力パワー記憶手段、２０２…入力パワー正規化手段、２０３…事後確率最大化手段、２０４…雑音パワー非正規化手段、２０５…雑音パワー平均手段、２０６…平均雑音パワー記憶手段。

Claims

入力音声に含まれる所定の周波数帯域の雑音を推定する雑音推定装置において、
所定の方式により、入力音声に含まれる所定の周波数帯域の雑音を推定して、現在の第１の雑音成分推定パワーを取得する第１の雑音推定手段と、
前記第１の雑音推定手段が取得した前記第１の雑音成分推定パワーに基づいて、事後確率が最大となる現在の雑音パワーを推定して、第２の雑音成分推定パワーを取得し、第２の雑音成分推定パワーに基づく値を、当該雑音推定装置の推定結果として出力する第２の雑音推定手段と、
を有することを特徴とする雑音推定装置。
前記第２の雑音推定手段は、
前記入力音声を構成する所定の周波数帯域の帯域入力パワーを所定の値で正規化して正規化入力パワーを取得する入力パワー正規化手段と、
前記正規化入力パワーに基づいて事後確率が最大となる現在の正規化雑音パワーを推定する事後確率最大化手段と、
前記正規化雑音パワーを非正規化して非正規化雑音パワーを取得する雑音パワー非正規化手段と、
前記非正規化雑音パワーに基づく値を、前記入力音声に含まれる前記所定の周波数帯域の雑音パワーを推定した推定結果として出力する推定結果出力手段とを有する
ことを特徴とする請求項１に記載の雑音推定装置。
過去に前記雑音パワー非正規化手段が取得した複数の非正規化雑音パワーを平均化した平均雑音パワーを取得する雑音パワー平均手段をさらに有し、
前記入力パワー正規化手段は、前記平均雑音パワーを、前記所定の値として適用する
ことを特徴とする請求項２に記載の雑音推定装置。
前記第１の雑音推定手段は、雑音の定常性をＭＡＰ推定に基づいてモデリングした確率モデルを利用して、事後確率が最大となる現在の雑音パワーを前記第１の雑音成分推定パワーとして取得することを特徴とする請求項１〜３のいずれかに記載の雑音推定装置。
入力音声に含まれる所定の周波数帯域の雑音を推定する雑音推定装置に搭載されたコンピュータを、
所定の方式により、入力音声に含まれる所定の周波数帯域の雑音を推定して、現在の第１の雑音成分推定パワーを取得する第１の雑音推定手段と、
前記第１の雑音推定手段が取得した前記第１の雑音成分推定パワーに基づいて、事後確率が最大となる現在の雑音パワーを推定して、第２の雑音成分推定パワーを取得し、第２の雑音成分推定パワーに基づく値を、当該雑音推定装置の推定結果として出力する第２の雑音推定手段と
して機能させることを特徴とする雑音推定プログラム。
入力音声に含まれる所定の周波数帯域の雑音を推定する雑音推定装置において、
第１の雑音推定手段及び第２の雑音推定手段を有し、
前記第１の雑音推定手段は、所定の方式により、入力音声に含まれる所定の周波数帯域の雑音を推定して、現在の第１の雑音成分推定パワーを取得し、
前記第１の雑音推定手段が取得した前記第２の雑音推定手段は、前記第１の雑音成分推定パワーに基づいて、事後確率が最大となる現在の雑音パワーを推定して、第２の雑音成分推定パワーを取得し、第２の雑音成分推定パワーに基づく値を、当該雑音推定装置の推定結果として出力する、
ことを特徴とする雑音推定方法。
入力音声に含まれる雑音を抑圧する音声処理装置において、
入力音声が帯域分割されたそれぞれの帯域入力音声に対して、雑音パワーを推定する雑音推定手段と、
それぞれの前記帯域入力音声に対して、前記雑音推定手段が推定した前記雑音パワーを用いて、雑音を抑制する雑音抑制手段とを有し、
それぞれの前記雑音推定手段として、請求項１〜４のいずれかに記載の雑音推定装置を適用したこと
を特徴とする音声処理装置。