JP2022160311A

JP2022160311A - 雑音推定装置、雑音推定プログラム、雑音推定方法、収音装置、収音プログラム、及び収音方法

Info

Publication number: JP2022160311A
Application number: JP2021064978A
Authority: JP
Inventors: 大藤枝; Masaru Fujieda
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2021-04-06
Filing date: 2021-04-06
Publication date: 2022-10-19

Abstract

【課題】推定パラメータの調整なしに、入力音声の急な変化に左右されずに雑音パワーを推定する。【解決手段】本発明は、入力信号中に含まれる雑音成分を推定する雑音推定装置に関する。入力パワーの定常確率を算出する定常確率算出手段と、推定雑音パワー若しくは推定雑音パワーに基づく値と、平均入力パワーとの比が所定の定常判定範囲に収まるかを判定した環境移行判定結果を算出し、定常確率算出手段は、環境が移行したと判定した時には定常確率を所定の値とし、環境は移行していないと判定した時には入力パワーを過去の推定雑音パワーで除した事後ＳＮＲに基づき定常確率を算出する定常確率算出関数によって定常確率を算出することを特徴とする。【選択図】図１

Description

本発明は、雑音推定装置、雑音推定プログラム、雑音推定方法、収音装置、収音プログラム、及び収音方法に関し、例えば、入力信号に含まれる雑音成分の推定結果を用いて、入力信号に重畳された雑音成分を抑圧する方法に適用し得る。

自然環境において雑音はいたる所に存在するため、一般に実世界で観測される音声は種々の発信元からの雑音を含む。雑音を含んで観測された入力信号から音声だけを強調させるために、様々な雑音抑圧方法が開発されている。これらのうちのほとんどは、抑圧すべき雑音を推定する方法と、雑音を抑圧するフィルタを計算する方法とを有する。従来の入力信号から雑音を抑圧する音声処理装置では、周波数領域で雑音のパワーを推定するものがある。

従来、最も単純な雑音推定方法の例として、入力スペクトルを音声が存在しない区間で平均する方法がある。しかし、このような従来の雑音推定方法は、事前に音声が存在しない区間を推定しなければならない。そのため、音声が存在する区間を推定する音声区間検出（ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ：ＶＡＤ）という技術も盛んに開発されているが、完全なＶＡＤは未だ達成されていない。雑音推定処理において、音声区間の推定を誤ると、推定雑音が目的音声を含んでしまうため、強調音声や残留雑音を歪ませるという問題が生じる。また、上述のような雑音推定方法では、雑音区間でしか雑音を推定しないため、長い音声区間があると雑音の変化に追従できないという欠点もある。

このような背景から、音声区間でも雑音の推定を継続する雑音推定方法として、従来、非特許文献１、非特許文献２、及び特許文献１の記載技術がある。いずれの文献も雑音抑圧方法（音声強調方法とも言う）に関する。

非特許文献１に記載の従来の雑音推定方法は、入力パワーの時間方向のピークが目的音声の存在を表す一方で、谷が平滑化した雑音パワーの推定に使えるという発見に基づいている。具体的には、現在から所定時間過去までの入力パワーの最小値を、第１の推定雑音パワーとする。しかし、第１の推定雑音パワーはバイアスを有しており、真の雑音パワーよりも小さくなる性質を持つ。このバイアスは、第１の推定雑音パワーの期待値から推定され、得られたバイアス推定値を用いて第１の推定雑音パワーを補正して、第２の推定雑音パワー（最終的な推定値）を得る。

特許文献１に記載の従来の雑音推定方法は、入力パワーに適切な重み係数を乗じて、得られた加重入力パワーを所定時間分だけ記憶しておき、記憶した加重入力パワーの平均値を推定雑音パワーとする。適切な重み係数は、現在の入力パワーを直前の推定雑音パワーで除した事後ＳＮＲ（ＳＮＲはＳｉｇｎａｌ－ｔｏ－ＮｏｉｓｅＲａｔｉｏ）に基づいて算出される。具体的には、事後ＳＮＲが所定の値Ｇ１以下では重み係数を１とし、事後ＳＮＲがＧ１以上では事後ＳＮＲに反比例するように重み係数を設定し、事後ＳＮＲが所定の値Ｇ２以上では重み係数を０とする。また、重み係数が０の場合には、加重入力パワーは記憶しない。

非特許文献２に記載の従来の雑音推定方法は、目的音声と雑音の複素スペクトルの分布がいずれも平均ゼロの複素正規分布に従うという仮説に基づいて、雑音の複素スペクトルの分散の最尤推定値を推定雑音パワーとする。この仮説に基づくと、入力音声の複素スペクトルの分布は、音声の複素スペクトルの分散と雑音の複素スペクトルの分散の和を分散とする平均ゼロの複素正規分布となる。ここに現在の入力が劣化音声と雑音のどちらであるかに関する隠れ変数を導入して、忘却係数を伴ったオンラインＥＭ（ＥｘｐｅｃｔａｔｉｏｎＭａｘｉｍｉｚａｔｉｏｎ）アルゴリズムを適用することで、雑音の複素スペクトルの最尤推定値を算出する。

特開２００２－２０４１７５号公報

Ｒ．Ｍａｒｔｉｎ、"ＳｐｅｃｔｒａｌＳｕｂｔｒａｃｔｉｏｎＢａｓｅｄｏｎＭｉｎｉｍｕｍＳｔａｔｉｓｔｉｃｓ"、ｉｎＰｒｏｃｅｅｄｉｎｇｓｏｆ７ｔｈＥｕｒｏｐｅａｎＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＣｏｎｆｅｒｅｎｃｅ、１９９４、ｐｐ．１１８２－１１８５Ｍ．Ｓｏｕｄｅｎ、Ｍ．Ｄｅｌｃｒｏｉｘ、Ｋ．Ｋｉｎｓｏｓｈｉｔａ、Ｔ．Ｙｏｓｈｉｏｋａ、ａｎｄＴ．Ｎａｋａｔａｎｉ、"ＮｏｉｓｅＰｏｗｅｒＳｐｅｃｔｒａｌＤｅｎｓｉｔｙＴｒａｃｋｉｎｇ：ＡＭａｘｉｍｕｍＬｉｋｅｌｉｈｏｏｄＰｅｒｓｐｅｃｔｉｖｅ"、ＩＥＥＥＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＬｅｔｔｅｒｓ、Ｖｏｌ．１９、Ｎｏ．８、２０１２、ｐｐ．４９５－４９８

しかしながら、従来の雑音推定方法には以下に述べるような問題点が存在する。

非特許文献１の方法は、雑音が急に大きくなった場合に、推定雑音パワーが遅れて急激に大きくなるという課題を有している。具体的には、雑音が大きくなってから所定時間の間は、推定雑音パワーは小さいままである。そして、雑音が大きくなってから所定時間後に、推定雑音パワーは瞬間的に増大する。

特許文献１の方法は、音声伝送におけるパケット損失やエコー対策のためのボイススイッチなどによって入力音声が一時的に小さくなる現象が起きると、入力音声が元に戻っても推定雑音パワーはしばらく小さいままとなる課題を有している。すなわち、小さい入力音声は事後ＳＮＲがＧ１より小さくなるので雑音パワーの推定に使われ続け、推定雑音パワーが小さくなる。その状態で入力音声が大きくなると、事後ＳＮＲがＧ２より大きくなるので雑音パワーの推定に使われなくなり、推定雑音パワーは更新されなくなる。

非特許文献２の方法は、この雑音推定方法で用いられているオンラインＥＭアルゴリズムには、忘却係数を大きくすると安定性が増して追従が遅くなり、忘却係数を小さくすると追従が速くなって安定性が下がるという、追従の速さと最尤推定の安定性とのトレードオフがあるという課題を有している。該忘却係数は観測環境の雑音レベルに合わせて設定する必要があるため、実用性に乏しい。

以上のように、従来の雑音推定方法は、入力音声が急に大きくなると推定雑音パワーが不適切なタイミングで瞬間的に大きくなったり、入力音声が一時的に小さくなると推定雑音パワーが小さいままとなったり、推定パラメータを環境に合わせて調整が必要になったりする課題があった。

そのため、推定パラメータの調整なしに、入力音声の急な変化に左右されずに雑音パワーを推定できる雑音推定装置、雑音推定プログラム、雑音推定方法、収音装置、収音プログラム、及び収音方法が望まれている。

第１の本発明は、音声と雑音が混合された入力信号中に含まれる雑音成分を推定して推定雑音パワーを得る雑音推定装置において、（１）前記入力信号の入力パワーと過去の前記推定雑音パワーから前記入力パワーの定常確率を算出する定常確率算出手段と、（２）前記入力パワーを所定の第１のサンプル数だけ保持する入力バッファと前記定常確率を前記第１のサンプル数だけ保持する確率バッファを前記定常確率が所定の定常確率閾値より大きい場合に限り更新するバッファ更新手段と、（３）前記確率バッファに保持されている前記定常確率を重み係数として前記入力バッファに保持されている前記入力パワーの加重平均をとることで前記推定雑音パワーを算出する加重平均手段と、（４）前記入力パワーを所定の第２のサンプル数だけ保持して平均することで平均入力パワーを算出する入力平均手段と、（５）前記推定雑音パワー若しくは前記推定雑音パワーに基づく値と、前記平均入力パワーとの比が所定の定常判定範囲に収まるかを判定した環境移行判定結果を算出する環境移行判定手段とを備え、（６）前記定常確率算出手段は、前記環境移行判定手段が環境が移行したと判定した時には前記定常確率を所定の値とし、前記環境移行判定手段が環境は移行していないと判定した時には前記入力パワーを過去の前記推定雑音パワーで除した事後ＳＮＲに基づき前記定常確率を算出する定常確率算出関数によって前記定常確率を算出することを特徴とする。

第２の本発明の雑音推定プログラムは、音声と雑音が混合された入力信号中に含まれる雑音成分を推定して推定雑音パワーを得る雑音推定装置に搭載されたコンピュータを、（１）前記入力信号の入力パワーと過去の前記推定雑音パワーから前記入力パワーの定常確率を算出する定常確率算出手段と、（２）前記入力パワーを所定の第１のサンプル数だけ保持する入力バッファと前記定常確率を前記第１のサンプル数だけ保持する確率バッファを前記定常確率が所定の定常確率閾値より大きい場合に限り更新するバッファ更新手段と、（３）前記確率バッファに保持されている前記定常確率を重み係数として前記入力バッファに保持されている前記入力パワーの加重平均をとることで前記推定雑音パワーを算出する加重平均手段と、（４）前記入力パワーを所定の第２のサンプル数だけ保持して平均することで平均入力パワーを算出する入力平均手段と、（５）前記推定雑音パワー若しくは前記推定雑音パワーに基づく値と、前記平均入力パワーとの比が所定の定常判定範囲に収まるかを判定した環境移行判定結果を算出する環境移行判定手段として機能させ、（６）前記定常確率算出手段は、前記環境移行判定手段が環境が移行したと判定した時には前記定常確率を所定の値とし、前記環境移行判定手段が環境は移行していないと判定した時には前記入力パワーを過去の前記推定雑音パワーで除した事後ＳＮＲに基づき前記定常確率を算出する定常確率算出関数によって前記定常確率を算出することを特徴とする。

第３の本発明は、音声と雑音が混合された入力信号中に含まれる雑音成分を推定して推定雑音パワーを得る雑音推定装置が行う雑音推定方法において、（１）前記雑音推定装置は、定常確率算出手段、バッファ更新手段、加重平均手段、入力平均手段、環境移行判定手段を備え、（２）前記定常確率算出手段は、前記入力信号の入力パワーと過去の前記推定雑音パワーから前記入力パワーの定常確率を算出し、（３）前記バッファ更新手段は、前記入力パワーを所定の第１のサンプル数だけ保持する入力バッファと前記定常確率を前記第１のサンプル数だけ保持する確率バッファを前記定常確率が所定の定常確率閾値より大きい場合に限り更新し、（４）前記加重平均手段は、前記確率バッファに保持されている前記定常確率を重み係数として前記入力バッファに保持されている前記入力パワーの加重平均をとることで前記推定雑音パワーを算出し、（５）前記入力平均手段は、前記入力パワーを所定の第２のサンプル数だけ保持して平均することで平均入力パワーを算出し、（６）前記環境移行判定手段は、前記推定雑音パワー若しくは前記推定雑音パワーに基づく値と、前記平均入力パワーとの比が所定の定常判定範囲に収まるかを判定した環境移行判定結果を算出し、（７）前記定常確率算出手段は、前記環境移行判定手段が環境が移行したと判定した時には前記定常確率を所定の値とし、前記環境移行判定手段が環境は移行していないと判定した時には前記入力パワーを過去の前記推定雑音パワーで除した事後ＳＮＲに基づき前記定常確率を算出する定常確率算出関数によって前記定常確率を算出することを特徴とする。

第４の本発明は、音声と雑音が混合された入力信号から前記音声を収音する収音装置において、（１）前記入力信号に含まれる雑音成分を推定する雑音推定部と、（２）前記雑音推定部の推定結果を用いて、前記入力信号から前記音声信号を抽出して収音する収音部とを備え、（３）前記雑音推定部として、第１の本発明の雑音推定装置を適用したことを特徴とする収音装置。

第５の本発明の雑音推定プログラムは、音声と雑音が混合された入力信号から前記音声を収音する収音装置に搭載されたコンピュータを、（１）前記入力信号に含まれる雑音成分を推定する雑音推定部と、（２）前記雑音推定部の推定結果を用いて、前記入力信号から前記音声信号を抽出して収音する収音部として機能させるものであって、（３）前記雑音推定部は、第１の本発明の雑音推定装置として機能することを特徴とする。

第６の本発明は、音声と雑音が混合された入力信号から前記音声を収音する収音装置が行う収音方法において、（１）雑音推定部及び収音部を備え、（２）前記雑音推定部は、第３の本発明の雑音推定方法により前記入力信号に含まれる雑音成分を推定し、（３）前記収音部は、前記雑音推定部の推定結果を用いて、前記入力信号から前記音声信号を抽出して収音することを特徴とする。

本発明によれば、推定パラメータの調整なしに、入力音声の急な変化に左右されずに雑音パワーを推定することができる。

第１の実施形態に係る雑音推定手段の機能的構成について示したブロック図である。第１の実施形態に係る収音装置の機能的構成について示したブロック図である。第１の実施形態に係る収音装置のハードウェア構成について示したブロック図である。第１の実施形態に係る雑音推定部（雑音推定装置）の機能的構成について示したブロック図である。第１の実施形態に係る定常確率算出関数の例について示し図（グラフ）である。第１の実施形態に係る定常確率算出関数を対数尺度で設計した場合の例について示した図（グラフ）である。第３の実施形態に係る雑音抑圧部（雑音推定装置）の機能的構成について示したブロック図である。第３の実施形態に係る雑音推定手段の機能的構成について示したブロック図である。第３の実施形態に係る定常確率算出関数の例について示した図（グラフ）である。第３の実施形態に係る定常確率算出関数を対数尺度で設計した場合の例について示した図（グラフ）である。

（Ａ）第１の実施形態
以下、本発明による雑音推定装置、雑音推定プログラム、雑音推定方法、収音装置、収音プログラム及び収音方法の第１の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の雑音推定装置、雑音推定プログラム、及び雑音推定方法を、雑音推定手段に適用した例について説明する。

（Ａ－１）第１の実施形態の構成
図２は、この実施形態の収音装置１の機能的構成について示したブロック図である。なお、図２における括弧内の符号は後述する第２～第４の実施形態で用いられる符号である。

収音装置１は、マイクロホンＭにより捕捉される音響信号から、目的音を収音する収音処理を行う装置である。

この実施形態の例では、マイクロホンＭは図示しない電話端末の受話器に搭載されているものとする。この場合、マイクロホンＭにより捕捉される音響信号には、例えば、目的音としての音声（例えば、近端話者の音声）と非目的音としての雑音（例えば、背景雑音等）が含まれる。そして、この実施形態の例では、収音装置１は図示しない電話端末に搭載され、マイクロホンＭにより捕捉される音響信号から、非目的音（例えば、背景雑音等の雑音）を除去して目的音（例えば、近端話者の音声）を収音する処理を行う。

次に、収音装置１の内部構成について説明する。

この実施形態において、収音装置１は、信号入力部１０、雑音抑圧処理部２０、信号出力部３０、及び雑音推定部４０を備える。

収音装置１は、全てハードウェア（例えば、専用チップ等）により構成するようにしてもよいし一部又は全部についてソフトウェア（プログラム）として構成するようにしてもよい。収音装置１は、例えば、プロセッサ及びメモリを有するコンピュータにプログラム（実施形態の雑音推定プログラムを含む収音プログラム）をインストールすることにより構成するようにしてもよい。

信号入力部１０は、マイクロホンＭから供給されるアナログの音響信号をデジタル信号に変換してコンピュータ２００に供給する機能を担っている。以下では、マイクロホンＭにより捕捉され、信号入力部１０によりデジタル変換された音響信号を入力信号ｘと呼ぶものとする。

雑音推定部４０は、入力信号ｘに含まれる雑音（非目的音）を推定する機能を担っている。以下では、雑音推定部４０が推定した雑音（推定した雑音の信号）を「推定雑音」と呼ぶものとする。

雑音抑圧処理部２０は、雑音推定部４０が推定した推定雑音を用いて、入力信号ｘに含まれる雑音成分を抑圧した信号（以下、「雑音抑圧済信号」と呼ぶ）を出力する機能を担っている。

信号出力部３０は、当該収音装置１の収音結果（この実施形態では、雑音抑圧処理部２０が出力する雑音抑圧済信号を出力する機能を担っている。

図３は、収音装置１のハードウェア構成の例について示したブロック図である。なお、図３における括弧内の符号は後述する第２の実施形態で用いられる符号である。

図３では、収音装置１をソフトウェア（コンピュータ）を用いて構成する際の構成について示している。なお、図３において、括弧内の符号は後述する第２～第４の実施形態で用いられる符号である。

図３に示す収音装置１は、ハードウェア的な構成要素として、少なくとも信号入力部１０と、プログラム（実施形態の雑音推定プログラムを含む収音プログラム）がインストールされたコンピュータ４００を有している。

信号入力部１０は、例えば、Ｄ／Ａコンバータを用いて構成することができる。なお、コンピュータ４００自体にＤ／Ａコンバータが搭載されていれば、信号入力部１０を別途設ける必要はない。

コンピュータ４００は、信号入力部１０から供給される音響信号（デジタル音響信号）に所定の処理を施して出力する処理を行う。この実施形態では、コンピュータ４００には、少なくとも雑音抑圧処理部２０、信号出力部３０、及び雑音推定部４０に相当するプログラム（この実施形態の収音プログラム）がインストールされているものとする。なお、この実施形態の収音プログラムには、雑音推定部４０に相当する雑音推定プログラムが含まれている。

なお、コンピュータ４００は、収音プログラム専用のコンピュータとしてもよいし、他の機能（例えば、電話端末が受信した遠端信号（受話信号）を図示しないスピーカから出力する機能）のプログラムと共用される構成としてもよい。

図３に示すコンピュータ４００は、プロセッサ４０１、一次記憶部４０２、及び二次記憶部４０３を有している。一次記憶部４０２は、プロセッサ４０１の作業用メモリ（ワークメモリ）として機能する記憶手段であり、例えば、ＤＲＡＭ等の高速動作するメモリが適用される。二次記憶部４０３は、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）やプログラムデータ（実施形態に係る収音プログラムのデータを含む）等の種々のデータを記録する記憶手段であり、例えば、ＦＬＡＳＨ（登録商標）メモリやＨＤＤ等の不揮発性メモリが適用される。この実施形態のコンピュータ４００では、プロセッサ４０１が起動する際、二次記憶部４０３に記録されたＯＳやプログラム（実施形態に係る収音プログラムを含む）を読み込み、一次記憶部４０２上に展開して実行する。

なお、コンピュータ４００の具体的な構成は図３の構成に限定されないものであり、種々の構成を適用することができる。例えば、一次記憶部４０２が不揮発メモリ（例えば、ＦＬＡＳＨメモリ等）であれば、二次メモリについては除外した構成としてもよい。

次に、雑音推定部４０の内部構成について図４を用いて説明する。

図４は、雑音推定部４０の機能的構成について示したブロック図である。なお、図４における括弧内の符号は後述する第２の実施形態で用いられる符号である。

雑音推定部４０は、帯域分割手段４１と、Ｋ個のパワー算出手段４２（４２－１～４２－Ｋ）と、Ｋ個の雑音推定手段４３（４３－１～４３－Ｋ）とを有している。

そして、図１は、それぞれの雑音推定手段４３（４３－１～４３－Ｋ）の内部構成について示した説明図である。この実施形態では、雑音推定手段４３－１～４３－Ｋの内部は全て図１を用いて示すことができる構成となっているものとする。なお、図１における括弧内の符号は後述する第２の実施形態で用いられる符号である。

図１に示すように、雑音推定手段４３は、定常確率算出手段１０１、バッファ更新手段１０２、加重平均手段１０３、入力平均手段１０４、及び環境移行判定手段１０５を有している。

雑音推定部４０を構成する各要素（雑音推定手段４３を構成する各要素を含む）の詳細な機能（動作）については後述する。

（Ａ－２）第１の実施形態の動作
次に、上述した構成を有する第１の実施形態の収音装置１（雑音推定部４０）の動作を、図１を参照しながら説明する。

帯域分割手段４１は、入力信号ｘを周波数解析して周波数スペクトル（以下、「入力スペクトル」とも呼ぶ）を算出し、得られた入力スペクトルをＫ個に分割して、分割した入力スペクトル（以下、「周波数帯域信号」と呼ぶ）を、パワー算出手段４２－１～４２－Ｋ（以下、総称してパワー算出手段４２として説明する）に与える。周波数解析には、例えば、高速フーリエ変換（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ：ＦＦＴ）やウェーブレット変換やフィルタバンクなどを適用することができるが、ＦＦＴが好適である。

入力信号ｘは、例えば、電話端末のマイクにより捕捉される音響信号である。電話端末のマイクにより捕捉される音響信号には、例えば、目的音としての話者の音声と非目的音としての雑音（例えば、背景雑音等）が含まれる。

パワー算出手段４２－１～４２－Ｋは、それぞれ入力された周波数帯域信号に基づく入力パワーを算出し、雑音推定手段４３－１～４３－Ｋに与える。各パワー算出手段４２では、パワーの算出方法として、種々の算出方法を適用することができる。各パワー算出手段４２は、例えば、絶対値の２乗若しくは絶対値を入力パワーとして算出するようにしても良い。以下では、各パワー算出手段４２（４２－１～４２－Ｋ）が出力する入力パワーを、ＰＸ（ＰＸ＿１～ＰＸ＿Ｋ）と表すものとする。

各雑音推定手段４３（４３－１～４３－Ｋ）は、各パワー算出手段４２（２１～２Ｋ）から供給される入力パワーＰＸ（ＰＸ＿１～ＰＸ＿Ｋ）に含まれる雑音成分のパワーを推定し、その結果（以下、「推定雑音パワー」とも呼ぶ）を出力する。以下では、各雑音推定手段４３（４３―１～４３―Ｋ）が出力する推定雑音パワーを、ＰＮ（ＰＮ＿１～ＰＮ＿Ｋ）と表すものとする。

各雑音推定手段４３（４３ー１～４３ーＫ）が、推定雑音パワーＰＮ（ＰＮ＿１～ＰＮ＿Ｋ）を出力する際の方式（例えば、信号形式やデータ形式）や出力先については限定されないものである。例えば、雑音推定手段４３（４３ー１～４３ーＫ）は、入力パワーＰＸの目的音を強調（雑音を抑圧）する図示しない音声処理方法等に推定雑音パワーＰＮ（ＰＮ＿１～ＰＮ＿Ｋ）を供給するようにしてもよい。また、収音装置１は、上述のような音声処理方法の一部として構成するようにしてもよい。

次に、各雑音推定手段４３（４３ー１～４３ーＫ）の動作を、図１を参照しながら説明する。

以下では、雑音推定手段４３ー１～４３ーＫの動作は、処理する信号の帯域が異なること以外は同様であるため、以下では任意の雑音推定手段４３（雑音推定手段４３ー１～４３ーＫのいずれか）に、任意の帯域の入力パワーＰＸ（ＰＮ＿１～ＰＮ＿Ｋのいずれか）が供給された場合の動作について説明する。

雑音推定手段４３は、与えられた入力パワーＰＸを、定常確率算出手段１０１、バッファ更新手段１０２、および入力平均手段１０４に与える。

定常確率算出手段１０１は、入力パワーＰＸと所定のＤサンプル過去の推定雑音パワーＰＮＤと後述の環境移行判定結果Ｅに基づいて定常確率ＳＰを算出し、得られた定常確率ＳＰをバッファ更新手段１０２に与える。Ｄの具体的な数値についても後述する。

環境移行判定結果Ｅは、詳細は環境移行判定手段１０５の動作の説明で後述するが、この実施形態の例では、環境が大きく移行（背景雑音や入力信号自身が著しく小さくなったり大きくなったりした状態が長期間継続）した場合には環境が移行したと判定してＴｒｕｅが設定され、そうでない場合には環境は移行していないと判定してＦａｌｓｅが設定されるものとする。

所定の遅延サンプル数Ｄは、例えば、Ｄ＝１とするのが好適であるが、Ｄ＞１としても良い。また、所定の遅延サンプル数Ｄは、事前に決めておくことが好適であるが、途中で変更できるようにしても良い。

この実施形態の例では、環境移行判定結果ＥがＴｒｕｅの場合、定常確率ＳＰは所定の値として１．０とするものとする。なお、上記のＳＰの所定の値については任意の値を設定可能である。また、この実施形態の例では、環境移行判定結果ＥがＦａｌｓｅの場合、定常確率ＳＰは、事後ＳＮＲＧに基づいて算出されるものとする。さらに、この実施形態の例では、事後ＳＮＲは、（１）式で算出するものとする。定常確率ＳＰは、後述する定常確率算出関数によって算出するものとする。

この実施形態の例において、定常確率算出関数は、事後ＳＮＲＧに対する定常確率ＳＰの関数であり、定常確率算出手段１０１に予め設定されているものとする。また、この実施形態の例において、定義域（Ｇ）は０．０以上の実数、値域（ＳＰ）は０．０以上１．０以下の実数であるものとする。さらに、この実施形態において、定常確率算出関数の形状は山形、すなわち、所定のＧの値Ｇ０に対して、０．０≦Ｇ≦Ｇ０の区間で定常確率算出関数は広義単調増加し、Ｇ０≦Ｇの区間で定常確率算出関数は広義単調減少するものとする。

この実施形態の例において、Ｇ０は、特に限定されるものではなく、Ｇの定義域の範囲で任意の値を取ることができる。ただし、この実施形態の例において、定常確率算出関数は定常であるほど高い確率を出力する関数であるから、Ｇ０＝１．０（すなわち、ＰＸ＝ＰＮＤ）とするのが最も好適である。

定常確率算出関数の例を図５および図６に示す。

図５は、Ｇに対して滑らかに定義した定常確率算出関数の例である。

図５に示す定常確率算出関数において、ＳＰ＝１．０となるＧ（Ｇ０）は、特に限定されるものではないが、例えばＧ＝１．０とする。Ｇ→＋∞でＳＰ→０．０に漸近収束するのが好適である。

図４は、対数尺度上で設計した定常確率算出関数である。

図４に示すように、両軸とも対数尺度上で定常確率算出関数を設計することで、ＰＸ＜ＰＮＤのときとＰＸ＞ＰＮＤのときの関係がフェアになるとともに、全定義域上で定常確率算出関数を容易に定義できる。

バッファ更新手段１０２は、定常確率ＳＰが所定の定常確率閾値ＳＰ０より大きい場合に、入力パワーＰＸと定常確率ＳＰとに基づいて入力バッファＢＸと確率バッファＢＰを更新し、得られた入力バッファＢＸと確率バッファＢＰを加重平均手段１０３に与える。

また、バッファ更新手段１０２では、定常確率閾値ＳＰ０は十分小さい値（例えば、０．１以下程度）としなければならない。その理由は、加重平均手段１０３の説明にて後述する。例えば、定常確率閾値ＳＰ０は０．０１程度の値が好適である。

入力バッファＢＸは、入力パワーＰＸを過去から現在までＴ１サンプル保持するバッファである。第１のサンプル数Ｔ１は、任意の値としてよいが、用途に応じて１００ミリ秒～数秒に相当する長さとする。第１のサンプル数Ｔ１を短くすると（例えば１００ミリ秒相当）、推定対象の雑音の変化への追従が早くなるが、例えばゆっくり発話された音声を雑音として誤って推定する危険性がある。一方、第１のサンプル数Ｔ１を長くすると（例えば８秒相当）、入力信号中の定常成分を正確に推定できるが、雑音環境が急に変化した場合（例えば、静かな部屋から騒々しい戸外に出た場合、空調を一斉にＯＮ／ＯＦＦした場合など）にすぐに追従できない。したがって、第１のサンプル数Ｔ１は、２００ミリ秒～１秒に相当する長さとするのが好適である。

確率バッファＢＰは、定常確率ＳＰを過去から現在までＴ１サンプル保持するバッファである。確率バッファＢＰのバッファ長は、入力バッファＢＸのバッファ長と同じである。

バッファ更新手段１０２は、一番古い入力パワーＰＸを入力バッファＢＸから削除して新たに与えられた入力パワーＰＸを入力バッファＢＸに格納する。同様に、バッファ更新手段１０２は、一番古い定常確率ＳＰを確率バッファＢＰから削除して新たに与えられた定常確率ＳＰを確率バッファＢＰに格納する。なお、定常確率ＳＰが定常確率閾値ＳＰ０より大きい場合には、入力バッファＢＸと確率バッファＢＰは更新しない。

加重平均手段１０３は、入力バッファＢＸと確率バッファＢＰに基づいて推定雑音パワーＰＮを算出し、得られた推定雑音パワーＰＮを定常確率算出手段１０１と環境移行判定手段１０５と雑音推定手段１００の出力に与える。

加重平均手段１０３は、確率バッファＢＰに保持されている定常確率ＳＰを重み係数として、入力バッファＢＸに保持されている入力パワーＰＸの加重平均を計算することで、推定雑音パワーＰＮを算出する。すなわち、入力バッファＢＸと確率バッファＢＰのｉ番目（ｉ＝１～Ｔ１）の値をそれぞれ入力パワーＰＸ＿ｉと定常確率ＳＰ＿ｉとすると、推定雑音パワーＰＮは（２）式で算出される。

加重平均によって推定雑音パワーＰＮを算出する方法には、以下のようなメリットがある。すなわち、定常確率ＳＰが高い入力パワーＰＸには大きな重みがかけられるので、推定雑音パワーＰＮの算出に大きな影響力を持つ。一方、定常確率ＳＰが低い入力パワーＰＸには小さな重みがかけられるので、推定雑音パワーＰＮの算出への影響力は小さく、ほとんど無視される。雑音推定部４０において、定常確率ＳＰが小さい入力パワーＰＸを完全に無視してしまうと（例えば、特許文献１は、事後ＳＮＲが所定の値より大きいと無視すると）、パケットロスやボイススイッチによって入力信号が一時的に小さくなった後で戻った際に追従できない問題が生じる。そこで、雑音推定部４０では、定常確率ＳＰが小さい入力パワーＰＸを小さな影響力で考慮することで、安定した推定を継続することが可能となる。

また、バッファ更新手段１０２において、定常確率閾値ＳＰ０は小さな値としなければならないと述べた。もしＳＰ０を大きい値とすると、上述の安定した推定を継続する本発明のメリットを損なう。

環境移行判定手段１０５が環境が移行していると判定している間は、定常確率ＳＰ＿ｋには十分小さい値（例えば、０．１以下程度）が設定され続けることによって、（２）式にしたがって算出される推定雑音パワーＰＮは入力パワーＰＸの単純な平均となり、速やかに移行後の環境に追従することができる。

入力平均手段１０４は、入力パワーＰＸを過去から現在までＴ２サンプル保持して平均し、得られた平均入力パワーＡＰＸを環境移行判定手段１０５に与える。第２のサンプル数Ｔ２の値については、後述する。

環境移行判定手段１０５は、平均入力パワーＡＰＸと推定雑音パワーＰＮとの比が所定の定常判定範囲Ｒに収まっているかを判定して環境移行判定結果Ｅを設定し、得られた環境移行判定結果Ｅを定常確率算出手段１０１に与える。

定常判定範囲Ｒの処理方法（定義方法とその利用方法）は、次の２通りが考えられる。

第１の定常判定範囲Ｒの処理方法は、定常判定範囲を正の２値（Ｒ１＜Ｒ２）のベクトルと定義し、（３）式を用いて環境移行判定結果Ｅを算出する方法である。

第２の定常判定範囲Ｒの処理方法定常判定範囲を正の１値のスカラーと定義し、（４）式を用いて環境移行判定結果Ｅを算出する方法である。この場合、Ｒはデシベル尺度となる。

環境移行判定手段１０５において、上記の２通りの処理方法は、どちらを用いても問題ないが、設定の簡便さから、第２の処理方法を用いるのが好適である。その場合、定常判定範囲Ｒは例えば６デシベルとするのが好適である。

環境移行判定手段１０５の役割は、入力信号Ｘの特性が著しく変化した場合（例えば、完全な無音になった場合や、オーディオ機器の接続誤りによる異常な大音量が入った場合）に、多少の遅延をもって速やかに推定雑音パワーＰＮを入力パワーＰＸに追従させることである。入力信号Ｘの特性が著しく変化して入力パワーＰＸが著しく変化した場合、定常確率ＳＰは小さな値を取り続けることとなり、入力バッファＢＸと確率バッファＢＰとが更新されないデッドロック状態に陥る。この問題を回避するために、環境移行判定手段１０５は、入力パワーＰＸの長期平均を算出する。雑音抑圧の対象でない非定常な成分（目的成分と呼ぶ）の時間方向の割合は少ない場合が多いことから、長期平均を取ることで目的成分の影響を除去できる。そこで、環境移行判定手段１０５では、この長期平均を平均入力パワーＡＰＸとし、比較的短い期間の雑音パワーの平均の推定値である推定雑音パワーＰＮとを比較することで、環境の移行を検出することができる。したがって、環境移行判定手段１０５において、平均入力パワーＡＰＸを得るための第２のサンプル数Ｔ２は、例えば５～２０秒が好適な値である。なお、本発明とは関係なく、平均入力パワーＡＰＸを推定雑音パワーＰＮとする方法もあるが、これでは環境の小さな変化への追従性能が大きく損なわれることから、好適な方法ではない。

（Ａ－３）第１の実施形態の効果
第１の実施形態によれば、以下のような効果を奏することができる。

第１の実施の収音装置１（雑音推定手段４３Ａ）において、雑音推定に必要なパラメータは、第１のサンプル数Ｔ１と第２のサンプル数Ｔ２と遅延サンプル数Ｄだけなので、推定パラメータの調整が不要な推定雑音方法を提供することができる。

また、第１の実施の収音装置１（雑音推定手段４３Ａ）では、雑音が急に大きくなった場合にも、定常確率を重み係数とする加重平均を用いるので、確率的に変化する雑音パワーのうち低頻度で出現する小さい雑音パワーを使って少しずつ追従するので、急激に大きくなることがない。

さらに、第１の実施の収音装置１（雑音推定手段４３Ａ）では、入力音声が急に小さくなった場合は非定常とみなすので、一時的に小さくなった入力音声に過剰追従することがなく、推定雑音パワーが小さいままとなる問題は生じない。

さらにまた、第１の実施の収音装置１（雑音推定手段４３Ａ）では、入力音声に含まれる定常な雑音成分のみを推定することを目的としているため、環境に合わせて推定パラメータを調整する必要がない。

また、第１の実施の収音装置１（雑音推定手段４３Ａ）では、環境が移行して、推定雑音パワーが平均入力パワーから逸脱した値となった場合には、第１のサンプル数の間は定常確率を所定値（例えば、１．０）とすることで迅速に新しい環境に追従する。

以上のように、第１の実施の収音装置１（雑音推定手段４３Ａ）では、定常確率を重み係数とする加重平均を用いて雑音パワーを推定するので、雑音が急激に変化しても、推定雑音パワーは急激に変化せず、さらに推定雑音パワーが小さいままや大きいままとどまることなく、環境が著しく変化してもデッドロック状態に陥らず、安定して推定可能な雑音推定方法を提供することができる。

（Ｂ）第２の実施形態
以下、本発明による雑音推定装置、雑音推定プログラム、雑音推定方法、収音装置、収音プログラム及び収音方法の第２の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の雑音推定装置、雑音推定プログラム、及び雑音推定方法を、雑音推定手段に適用した例について説明する。

（Ｂ－１）第２の実施形態の構成
第２の実施形態の収音装置１Ａの構成についても上述の図１～図４を用いて示すことができる。

以下では、第２の実施形態の収音装置１Ａの構成について、第１の実施形態との差異を説明する。

第２の実施形態の収音装置１Ａでは、雑音推定部４０が雑音推定部４０Ａに置き換わっている。また、第２の実施形態の雑音推定部４０Ａでは、雑音推定手段４３（４３－１～４３－Ｋ）が雑音推定手段４３Ａ（４３Ａ－１～４３Ａ－Ｋ）に置き換わっている。さらに、第２の実施形態の雑音推定部４０Ａ（４３Ａ－１～４３Ａ－Ｋ）では、加重平均手段１０３が、加重平均手段１０３Ａに置き換わっている。

第１の実施形態の雑音推定部４０では、推定雑音パワーＰＮの推定バイアスを考慮していなかった。仮に、第１の実施形態の雑音推定部４０において、推定雑音パワーＰＮを雑音区間の入力パワーＰＸの平均として算出していれば、推定バイアスは生じない。しかし、第１の実施形態の雑音推定部４０では、推定雑音パワーＰＮを入力パワーＰＸの定常確率ＳＰによる加重平均として算出している。これにより、第１の実施形態の雑音推定部４０では、特に雑音区間における入力パワーＰＸに対して、推定バイアスを引き起こす恐れがある。

そこで、第２の実施形態の雑音推定手段４３Ａ（加重平均手段１０３Ａ）では、事前に推定バイアスを調査し、当該推定バイアスを補正しながら推定雑音パワーＰＮを推定する。

（Ｂ－２）第２の実施形態の動作
次に、上述した構成を有する第２の実施形態の収音装置１Ａの動作について、第１の実施形態との差異を説明する。

上述の通り、第２の実施形態では、雑音推定手段４３Ａを構成する加重平均手段１０３Ａの動作が第１の実施形態と異なる。上述野通り、雑音推定手段４３Ａ（加重平均手段１０３Ａ）は、事前に推定バイアスを調査し、当該推定バイアスを補正しながら推定雑音パワーＰＮを推定する点で第１の実施形態と異なっている。

加重平均手段１０３Ａにおいて、推定バイアスＢは、シミュレーションによって算出できる。この実施形態では、定常確率算出手段１０１における定常確率算出関数において、定常確率算出関数の出力（定常確率ＳＰ）が定常確率閾値ＳＰ０以上となる定義域（事後ＳＮＲＧ）を、均一または一様にランダムに用意し、用意された定義域の値の集合Ｇｔｅｓｔのすべての元に対して定常確率算出関数を計算し、得られた地域の値の集合ＳＰｔｅｓｔのすべての元と、対応するＧｔｅｓｔの元との加重平均を（２）式と同様に算出する。第２の実施形態では、このとき、得られた加重平均値が、推定バイアスＢとなる。

加重平均手段１０３Ａは、入力バッファＢＸと確率バッファＢＰと推定バイアスＢとに基づいて（５）式により推定雑音パワーＰＮを算出し、得られた推定雑音パワーＰＮを定常確率算出手段１０１と環境移行判定手段１０５と雑音推定手段１００の出力に与える。

（Ｂ－３）第２の実施形態の効果
第２の実施形態によれば、第１の実施形態の効果に加えて以下のような効果を奏することができる。

第２の実施形態の収音装置１Ａ（雑音推定手段４３Ａ）では、推定雑音パワーの推定バイアスが補正されるので、より安定的に雑音パワーを推定できる雑音推定方法を提供することができる。

（Ｃ）第３の実施形態
以下、本発明による雑音推定装置、雑音推定プログラム、雑音推定方法、収音装置、収音プログラム及び収音方法の第３の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の雑音推定装置、雑音推定プログラム、及び雑音推定方法を、雑音推定手段に適用した例について説明する。

（Ｃ－１）第３の実施形態の構成
第３の実施形態の収音装置１Ｂの構成についても上述の図２、図３を用いて示すことができる。

以下では、第３の実施形態の収音装置１Ｂの構成について、第１の実施形態との差異を中心に説明する。

第３の実施形態の収音装置１Ｂでは、雑音推定部４０が雑音推定部４０Ｂに置き換わっている。

図７は、第３の実施形態に係る雑音推定部４０Ｂの機能的構成について示したブロック図である。

図７では、上述の図４と同一部分又は対応部分には、同一符号又は対応符号を付している。なお、図７において、括弧内の符号は、後述する第４の実施形態でのみ用いられる符号である。

図７に示す通り、雑音推定部４０Ｂは、帯域分割手段４１、パワー算出手段４２及び雑音推定手段４３Ｂを有している。

雑音推定部４０Ｂでは、パワー算出手段４２及び雑音推定手段４３Ｂは、帯域（周波数）ごとに分割された要素ではなく、全ての帯域についてまとめて処理する構成となっている点で第１の実施形態と異なっている。

パワー算出手段４２については、全ての帯域についてまとめて一つの要素で処理する構成となっているだけで、実質的な信号処理は第１の実施形態と同様である。

雑音推定手段４３Ｂは、全ての帯域についてまとめて一つの要素で処理する構成となっているだけでなく、実質的な信号処理についても第１の実施形態と異なっている。

図８は、第３の実施形態に係る雑音推定手段４３Ｂの機能的な構成について示したブロック図である。なお、図８において、括弧内の符号は、後述する第４の実施形態でのみ用いられる符号である。

図８では、上述の図１と同一部分又は対応部分に同一符号又は対応符号を付している。

そして、第３の実施形態の雑音推定部４０Ｂでは、定常確率算出手段１０１、バッファ更新手段１０２、加重平均手段１０３、入力平均手段１０４、及び環境移行判定手段１０５が、それぞれ定常確率算出手段１０１Ｂ、バッファ更新手段１０２Ｂ、加重平均手段１０３Ｂ、入力平均手段１０４Ｂ、及び環境移行判定手段１０５Ｂに置き換わっている点で第１の実施形態と異なっている。また、第３の実施形態の雑音推定部４０Ｂでは、初期状態制御手段１０６及び推定雑音平均手段１０７が追加されている点で、第１の実施形態と異なっている。

（Ｃ－２）第３の実施形態の動作
次に、上述した構成を有する第３の実施形態の収音装置１Ｂの動作について、第１の実施形態との差異を中心に説明する。

上記の通り、第３の実施形態では、実質的には雑音推定手段４３Ｂが異なっているので、雑音推定手段４３Ｂの動作を中心に説明する。

帯域分割手段４１は、入力信号ｘを周波数解析して入力スペクトルを算出し、得られた入力スペクトルをＫ個に分割して、分割した周波数帯域信号を、パワー算出手段４２に与える。

パワー算出手段４２は、入力された周波数帯域信号に基づく入力パワーをＫ個の帯域ごとに算出し、入力パワーＰＸ（ＰＸ＿１～ＰＸ＿Ｋ）として雑音推定手段４３に与える。パワー算出手段４２では、パワーの算出方法として、種々の算出方法を適用することができる。パワー算出手段４２は、例えば、絶対値の２乗若しくは絶対値を入力パワーとして算出するようにしても良い。

雑音推定手段４３は、パワー算出手段４２から供給される入力パワーＰＸ（ＰＸ＿１～ＰＸ＿Ｋ）に含まれる雑音成分のパワーを推定し、その結果（推定雑音パワーＰＮ（ＰＮ＿１～ＰＮ＿Ｋ）を出力する。

雑音推定手段４３Ｂが、推定雑音パワーＰＮ（ＰＮ＿１～ＰＮ＿Ｋ）を出力する際の方式（例えば、信号形式やデータ形式）や出力先については限定されないものである。例えば、雑音推定手段４３は、入力パワーＰＸの目的音を強調（雑音を抑圧）する図示しない音声処理方法等に推定雑音パワーＰＮ（ＰＮ＿１～ＰＮ＿Ｋ）を供給するようにしてもよい。また、収音装置１は、上述のような音声処理方法の一部として構成するようにしてもよい。

雑音推定手段４３Ｂは、パワー算出手段４２から供給される入力パワーＰＸ（ＰＸ＿１～ＰＸ＿Ｋ）に含まれる雑音成分のパワーを推定し、その結果として推定雑音パワーＰＮ（ＰＮ＿１～ＰＮ＿Ｋ）を取得する。

次に、雑音推定手段４３の動作について、図８を参照しながら説明する。

雑音推定手段４３は、与えられた入力パワーＰＸ（ＰＸ＿１～ＰＸ＿Ｋ）を、定常確率算出手段１０１Ｂ、バッファ更新手段１０２Ｂ、および入力平均手段１０４Ｂに与える。

初期状態制御手段１０６は、後述の環境移行判定結果Ｅに基づいて初期状態カウンタＩＣを更新し、定常確率算出手段１０１Ｂに与える。

なお、環境移行判定結果Ｅの設定方法は第１の実施形態と同様とすることができるので詳しい説明を省略する。

初期状態制御手段１０６は、雑音推定手段４３の動作開始時と、与えられた環境移行判定結果ＥがＴｒｕｅとなった場合には、初期状態カウンタＩＣを後述の第１のサンプル数Ｔ１に設定し、そうでない場合には、初期状態カウンタＩＣを更新しない。

初期状態カウンタＩＣは、雑音推定手段４３の動作開始時には初期状態制御手段１０６によって準備されるが、それ以降は定常確率算出手段１０１Ｂより与えられる。

定常確率算出手段１０１Ｂは、帯域ｋ（ｋ＝１～Ｋ）ごとに、入力パワーＰＸ＿ｋと所定のＤサンプル過去の推定雑音パワーＰＮＤ＿ｋと後述の初期状態カウンタＩＣとに基づいて定常確率ＳＰ＿ｋを算出し、得られた定常確率ＳＰ＿ｋをバッファ更新手段１０２Ｂに与え、さらに初期状態カウンタＩＣを更新して初期状態制御手段１０６に与える。

なお、Ｄの設定方法については、第１の実施形態と同様とすることができるので、詳しい説明を省略する。

この実施形態の例において、定常確率算出手段１０１Ｂは、初期状態カウンタＩＣが０より大きい場合、定常確率ＳＰ＿ｋに所定の値として１．０を設定し、初期状態カウンタＩＣを１小さく（デクリメント）するものとする。なお、上記のＳＰ＿ｋに設定する所定の値については任意の値を設定可能である。

また、この実施形態の例において、初期状態カウンタＩＣが０の場合、定常確率ＳＰ＿ｋは、事後ＳＮＲＧ（Ｇ＿ｋ）に基づいて算出されるものとする。さらに、この実施形態の例において、事後ＳＮＲは、（６）式で算出されるものとする。さらにまた、この実施形態の例において、定常確率ＳＰ（ＳＰ＿ｋ）は、後述する定常確率算出関数によって算出するものとする。また、この実施形態の例において、初期状態カウンタＩＣは更新されないものとする。

この実施形態の例において、定常確率算出関数は、事後ＳＮＲＧ＿ｋに対する定常確率ＳＰ＿ｋの関数であり、事前に決めておくものとする。また、この実施形態の例において、定義域（Ｇ＿ｋ）は０．０以上の実数、値域（ＳＰ＿ｋ）は０．０以上１．０以下の実数であるものとする。さらに、この実施形態の例において、定常確率算出関数の形状は山形、すなわち、所定のＧ＿ｋの値Ｇ０に対して、０．０≦Ｇ＿ｋ≦Ｇ０の区間で定常確率算出関数は広義単調増加し、Ｇ０≦Ｇ＿ｋの区間で定常確率算出関数は広義単調減少する。

この実施形態の例において、Ｇ０は、特に限定されるものではなく、Ｇ＿ｋの定義域の範囲で任意の値を取ることができる。ただし、この実施形態の例において、定常確率算出関数は定常であるほど高い確率を出力する関数であるから、Ｇ０＝１．０（すなわち、ＰＸ＿ｋ＝ＰＮＤ＿ｋ）とするのが最も好適である。

この実施形態における定常確率算出関数の例についても、上述の図９、図１０を用いて示すことができる。

図９は、Ｇ＿ｋに対して滑らかに定義した定常確率算出関数の例である。

図９に示す定常確率算出関数において、ＳＰ＿ｋ＝１．０となるＧ＿ｋ（Ｇ０）は、特に限定されるものではないが、例えばＧ０＝１．０とする。図９に示す定常確率算出関数において、Ｇ＿ｋ→＋∞でＳＰ＿ｋ→０．０に漸近収束するのが好適である。

図１０は、対数尺度上で設計した定常確率算出関数の例である。

図１０に示すように、両軸とも対数尺度上で定常確率算出関数を設計することで、ＰＸ＿ｋ＜ＰＮＤ＿ｋのときとＰＸ＿ｋ＞ＰＮＤ＿ｋのときの関係がフェアになるとともに、全定義域上で定常確率算出関数を容易に定義できる。

バッファ更新手段１０２Ｂは、帯域ｋ（ｋ＝１～Ｋ）ごとに、定常確率ＳＰ＿ｋが所定の定常確率閾値ＳＰ０より大きい場合に限り、入力パワーＰＸ＿ｋと定常確率ＳＰ＿ｋとに基づいて入力バッファＢＸ＿ｋと確率バッファＢＰ＿ｋを更新し、得られた入力バッファＢＸ＿ｋと確率バッファＢＰ＿ｋを加重平均手段１０３Ｃに与える。なお、バッファ更新手段１０２Ｂにおいて、上記の比較および更新の動作は、帯域ｋ（ｋ＝１～Ｋ）ごとに独立に行う。例えば、バッファ更新手段１０２Ｂにおいて、ある時刻において、２つのバッファは、ある帯域では更新されるが、別の帯域では更新されないということもあり得る。

また、バッファ更新手段１０２Ｂでは、定常確率閾値ＳＰ０は十分小さい値(例えば、０．１以下程度)としなければならない。その理由は、加重平均手段１０３Ｃの説明にて後述する。例えば、定常確率閾値ＳＰ０は０．０１が好適である。

入力バッファＢＸ＿ｋは、入力パワーＰＸ＿ｋを過去から現在までＴ１サンプル保持するバッファである。第１のサンプル数Ｔ１は、任意の値としてよいが、用途に応じて１００ミリ秒～数秒に相当する長さとする。第１のサンプル数Ｔ１を短くすると（例えば１００ミリ秒相当）、推定対象の雑音の変化への追従が早くなるが、例えばゆっくり発話された音声を雑音として誤って推定する危険性がある。一方、第１のサンプル数Ｔ１を長くすると（例えば８秒相当）、入力信号中の定常成分を正確に推定できるが、雑音環境が急に変化した場合（例えば、静かな部屋から騒々しい戸外に出た場合、空調を一斉にＯＮ／ＯＦＦした場合など）にすぐに追従できない。したがって、第１のサンプル数Ｔ１は、２００ミリ秒～１秒に相当する長さとするのが好適である。

確率バッファＢＰ＿ｋは、定常確率ＳＰ＿ｋを過去から現在までＴ１サンプル保持するバッファである。確率バッファＢＰ＿ｋのバッファ長は、入力バッファＢＸ＿ｋのバッファ長と同じである。

バッファ更新手段１０２Ｂは、（７）式にしたがって帯域ｋ（ｋ＝１～Ｋ）ごとに、一番古い入力パワーＰＸ＿ｋを入力バッファＢＸ＿ｋから削除して新たに与えられた入力パワーＰＸ＿ｋを入力バッファＢＸに格納する。同様に、バッファ更新手段１０２Ｂは、（８）式にしたがって帯域ｋ（ｋ＝１～Ｋ）ごとに、一番古い定常確率ＳＰ＿ｋを確率バッファＢＰ＿ｋから削除して新たに与えられた定常確率ＳＰ＿ｋを確率バッファＢＰ＿ｋに格納する。なお、定常確率ＳＰ＿ｋが定常確率閾値ＳＰ０より大きい場合には、入力バッファＢＸ＿ｋと確率バッファＢＰ＿ｋは更新しない。

加重平均手段１０３Ｃは、帯域ｋ（ｋ＝１～Ｋ）ごとに、入力バッファＢＸ＿ｋと確率バッファＢＰ＿ｋに基づいて推定雑音パワーＰＮ＿ｋを算出し、得られた推定雑音パワーＰＮ＿ｋを定常確率算出手段１０１Ｂと推定雑音平均手段１０７と雑音推定手段４３Ｃの出力に与える。

また、加重平均手段１０３Ｃは、（９）式にしたがって、確率バッファＢＰ＿ｋに保持されている定常確率ＳＰ＿ｋを重み係数として、入力バッファＢＸ＿ｋに保持されている入力パワーＰＸ＿ｋの加重平均を計算することで、推定雑音パワーＰＮ＿ｋを算出する。

加重平均によって推定雑音パワーＰＮ＿ｋを算出する方法には、以下のようなメリットがある。すなわち、定常確率ＳＰ＿ｋが高い入力パワーＰＸ＿ｋには大きな重みがかけられるので、推定雑音パワーＰＮ＿ｋの算出に大きな影響力を持つ。一方、定常確率ＳＰが低い入力パワーＰＸ＿ｋには小さな重みがかけられるので、推定雑音パワーＰＮ＿ｋの算出への影響力は小さく、ほとんど無視される。ここで、定常確率ＳＰ＿ｋが小さい入力パワーＰＸ＿ｋを完全に無視してしまうと（例えば、特許文献１は、事後ＳＮＲが所定の値より大きいと無視する）、パケットロスやボイススイッチによって入力信号が一時的に小さくなった後で戻った際に追従できない問題が生じる。そこで、定常確率ＳＰ＿ｋが小さい入力パワーＰＸ＿ｋを小さな影響力で考慮することで、安定した推定を継続することが可能となる。

また、バッファ更新手段１０２Ｂにおいて、定常確率閾値ＳＰ０は所定より小さな値としなければならないと述べた。もしＳＰ０を所定より大きい値とすると、上述の安定した推定を継続する本発明のメリットを損なう。

環境移行判定手段１０５Ｂが環境が移行していると判定した場合には、初期状態制御手段１０６と定常確率算出手段１０１Ｂによって、第１のサンプル数Ｔ１の間、定常確率ＳＰ＿ｋに１．０が設定され続けることによって、（９）式にしたがって算出される推定雑音パワーＰＮ＿ｋは入力パワーＰＸ＿ｋ（入力バッファＢＸ＿ｋ）の単純な平均となり、速やかに移行後の環境に追従することができる。

入力平均手段１０４Ｂは、（１０）式にしたがって、入力パワーＰＸ＿ｋのＫ個の帯域を平均し、その帯域平均値を過去から現在までＴ２サンプル保持して平均して平均入力パワーＡＰＸを算出し、得られた平均入力パワーＡＰＸを環境移行判定手段１０５Ｂに与える。第２のサンプル数Ｔ２の値については、後述する。

推定雑音平均手段１０７は、推定雑音パワーＰＮ＿ｋのＫ個の帯域を平均し、得られた平均雑音パワーＡＰＮを環境移行判定手段１０５Ｂに与える。

環境移行判定手段１０５Ｂは、平均入力パワーＡＰＸと平均雑音パワーＡＰＮとの比が所定の定常判定範囲Ｒに収まっているかを判定して環境移行判定結果Ｅを設定し、得られた環境移行判定結果Ｅを定常確率算出手段１０１Ｂに与える。

なお、この実施形態において、定常判定範囲Ｒの処理方法（定義方法とその利用方法）については、次の２通りが考えられる。

定常判定範囲Ｒの第１の処理方法は、定常判定範囲を正の２値（Ｒ１＜Ｒ２）のベクトルと定義し、（１１）式を用いて環境移行判定結果Ｅを算出する方法である。

定常判定範囲Ｒの第２の処理方法は、定常判定範囲を正の１値のスカラーと定義し、（１２）式を用いて環境移行判定結果Ｅを算出する方法である。この場合，Ｒはデシベル尺度となる。

環境移行判定手段１０５Ｂにおいて、上記の２通りの処理方法は、どちらを用いても問題ないが，設定の簡便さから，２つ目の方法を用いるのが好適である。その場合，定常判定範囲Ｒは例えば６デシベルとするのが好適である。

環境移行判定手段１０５Ｂの役割は、入力信号ｘの特性が著しく変化した状態が継続する場合（例えば、完全な無音になった場合や、オーディオ機器の接続誤りによる異常な大音量が入った場合、またそれらの状態から通常の状態に復旧した場合）に、多少の遅延をもって速やかに推定雑音パワーＰＮ＿ｋを入力パワーＰＸ＿ｋに追従させることである。

入力信号ｘの特性が著しく変化して入力パワーＰＸ＿ｋが著しく変化した場合、定常確率ＳＰ＿ｋは小さな値を取り続けることとなり、入力バッファＢＸ＿ｋと確率バッファＢＰ＿ｋとが更新されないデッドロック状態に陥る。この問題を回避するために、環境移行判定手段１０５Ｂは、入力パワーＰＸ＿ｋの長期平均を算出する。雑音抑圧の対象でない非定常な成分（目的成分と呼ぶ）の時間方向の割合は少ない場合が多いことから、環境移行判定手段１０５Ｂでは、入力パワーＰＸ＿ｋの帯域平均値の長期平均を取ることで目的成分の影響を除去できる。

環境移行判定手段１０５Ｂでは、この長期平均を平均入力パワーＡＰＸとし、比較的短い期間の雑音パワーの平均の推定値である推定雑音パワーＰＮ＿ｋの帯域平均値と比較することで、環境の移行を検出することができる。したがって、環境移行判定手段１０５Ｂにおいて、平均入力パワーＡＰＸを得るための第２のサンプル数Ｔ２は十分長くしなければならず、例えば５～２０秒が好適な値である。

（Ｃ－３）第３の実施形態の効果
第３の実施形態によれば、以下のような効果を奏することができる。

第３の実施形態の収音装置１Ｂ（雑音推定手段４３Ｂ）では、雑音が急に大きくなった場合にも、定常確率を重み係数とする加重平均を用いるので、確率的に変化する雑音パワーのうち低頻度で出現する小さい雑音パワーを使って少しずつ追従するので、急激に大きくなることがない。

また、第３の実施形態の収音装置１Ｂ（雑音推定手段４３Ｂ）では、入力音声が急に小さくなった場合は非定常とみなすので、一時的に小さくなった入力音声に過剰追従することがなく、推定雑音パワーが小さいままとなる課題は生じない。

さらに、第３の実施形態の収音装置１Ｂ（雑音推定手段４３Ｂ）では、入力音声に含まれる定常な雑音成分のみを推定することを目的としているため、環境に合わせて推定パラメータを調整する必要がない。

さらにまた、第３の実施形態の収音装置１Ｂ（雑音推定手段４３Ｂ）では、環境が移行して、推定雑音パワーが平均入力パワーから逸脱した値となった場合には、第１のサンプル数の間は定常確率を１．０とすることで迅速に新しい環境に追従する。

以上から、第３の実施形態の収音装置１Ｂ（雑音推定手段４３Ｂ）では、推定パラメータの調整なしに、入力音声の急な変化や変化に左右されずに雑音パワーを推定できる。

（Ｄ）第４の実施形態
以下、本発明による雑音推定装置、雑音推定プログラム、雑音推定方法、収音装置、収音プログラム及び収音方法の第４の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の雑音推定装置、雑音推定プログラム、及び雑音推定方法を、雑音推定手段に適用した例について説明する。

（Ｄ－１）第４の実施形態の構成
第４の実施形態の収音装置１Ｃの構成についても上述の図２、図３を用いて示すことができる。また、第４の実施形態に係る収音装置１Ｃを構成する雑音推定手段４３Ｃの機能的構成についても図８を用いて示すことができる。

以下では、第４の実施形態の収音装置１Ｃの構成について、第３の実施形態との差異を説明する。

第４の実施形態の収音装置１Ｃでは、雑音推定部４０Ｂが雑音推定部４０Ｃに置き換わっている。また、第４の実施形態の雑音推定部４０Ｃでは、雑音推定手段４３Ｂが雑音推定手段４３Ｃに置き換わっている。さらに、第４の実施形態の雑音推定部４０Ｃでは、加重平均手段１０３Ｂが、加重平均手段１０３Ｃに置き換わっている。

第３の実施形態の雑音推定手段４３Ｂでは、推定雑音パワーＰＮ＿ｋの推定バイアスを考慮していなかった。仮に、第３の実施形態の雑音推定手段４３Ｂにおいて、推定雑音パワーＰＮ＿ｋを雑音区間の入力パワーＰＸ＿ｋの平均として算出していれば、推定バイアスは生じない。しかし、第３の実施形態の雑音推定手段４３Ｂでは、推定雑音パワーＰＮ＿ｋを入力パワーＰＸ＿ｋの定常確率ＳＰによる加重平均として算出しているため、雑音区間における入力パワーＰＸ＿ｋに対して、推定バイアスを引き起こす恐れがある。

そこで、第４の実施形態の雑音推定手段４３Ｃでは、事前に推定バイアスを調査し、当該推定バイアスを補正しながら推定雑音パワーＰＮ＿ｋを推定する。

（Ｄ－２）第４の実施形態の動作
次に、上述した構成を有する第４の実施形態の収音装置１Ｃの動作について、第３の実施形態との差異を説明する。

上記の通り、第４の実施形態の雑音推定手段４３Ｃでは、事前に推定バイアスを調査し、当該推定バイアスを補正しながら推定雑音パワーＰＮ＿ｋを推定する点で第３の実施形態と異なっている。

第４の実施形態において、推定バイアスＢは、シミュレーションによって算出するようにしてもよい。例えば、まず、定常確率算出手段１０１で用いられる定常確率算出関数において、定常確率算出関数の出力（定常確率ＳＰ）が定常確率閾値ＳＰ０以上となる定義域（事後ＳＮＲＧ）を、均一または一様にランダムに用意し、用意された定義域の値の集合Ｇｔｅｓｔのすべての元に対して定常確率算出関数を計算し、得られた値の集合ＳＰｔｅｓｔのすべての元と、対応するＧｔｅｓｔの元との加重平均を（９）式と同様に算出する。そして、（１３）式により得られた加重平均値を、推定バイアスＢとするようにしてもよい。

具体的には、加重平均手段１０３Ｃは、入力バッファＢＸ＿ｋと確率バッファＢＰ＿ｋと推定バイアスＢとに基づいて（１３）式により推定雑音パワーＰＮ＿ｋを算出し、得られた推定雑音パワーＰＮ＿ｋを定常確率算出手段１０１と推定雑音平均手段１０７と雑音推定手段１００の出力に与える。

（Ｄ－３）第４の実施形態の効果
第４の実施形態によれば、第３の実施形態の効果に加えて以下のような効果を奏することができる。

第４の実施形態の収音装置１Ｃ（雑音推定部４０Ｃ）では、推定雑音パワーの推定バイアスが補正されるので、より安定的に雑音パワーを推定できる雑音推定方法を提供することができる。

（Ｅ）他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。

（Ｅ－１）上記の実施形態では、説明を簡易とするため設置するマイクロホンは１つであるものとして説明するが、複数のマイクロホンを配置する構成としてもよいし、複数のマイクロホンＭを用いたマイクロホンアレイを配置する構成としても良い。その場合、雑音推定部（雑音推定手段）は、複数のマイクロホンからの各入力信号について雑音推定の処理を行うことになる。

（Ｅ－２）上記の各実施形態では、雑音推定部を収音装置に搭載する例について説明したが、雑音推定部が搭載される装置は限定されないものである。また、雑音推定部又は雑音推定手段を単独の装置（雑音推定装置）として構成するようにしてもよい。

したがって、上記の各実施形態において、雑音推定部（雑音推定手段）が取得した推定雑音パワーＰＮ（ＰＮ＿１～ＰＮ＿Ｋ）の出力先や出力方式（例えば、データ形式や出力インタフェース）については限定されないものであり、雑音推定部（雑音推定手段）の用途に応じた出力方式で、雑音推定部の用途に応じた出力先に出力するようにしてもよい。例えば、雑音推定部（雑音推定手段）は、コンピュータが備えるインタフェース（例えば、回路上の信号線やシリアルインタフェース等）を用いて出力するようにしてもよいし、有線又は無線による通信インタフェース（例えば、有線／無線ＬＡＮインタフェースや、種々のシリアルインタフェース等）を用いて出力するようにしてもよい。

（Ｅ－３）上記の各実施形態の収音装置、信号入力部、雑音抑圧部、及び雑音推定部において、雑音抑圧部の処理を周波数領域で行う場合には帯域分割手段を雑音抑圧部の内部に有する必要があるが、雑音推定部における帯域分割手段の構成または帯域分割手段の出力を共有するようにしても良い。例えば、信号入力部の内部に帯域分割手段を含め、当該帯域分割手段の出力を信号入力部の出力として雑音抑圧部および雑音推定部に供給するようにしても良い。

１…収音装置、Ｍ…マイクロホン、１０…信号入力部、２０…雑音抑圧処理部、３０…信号出力部、４０…雑音推定部、４１…帯域分割手段、４２、４２－１～４２－Ｋ…パワー算出手段、４３、４３－１～４３－Ｋ…雑音推定手段、１０１…定常確率算出手段、１０２…バッファ更新手段、１０３…加重平均手段、１０４…入力平均手段、１０５…環境移行判定手段。

Claims

音声と雑音が混合された入力信号中に含まれる雑音成分を推定して推定雑音パワーを得る雑音推定装置において、
前記入力信号の入力パワーと過去の前記推定雑音パワーから前記入力パワーの定常確率を算出する定常確率算出手段と、
前記入力パワーを所定の第１のサンプル数だけ保持する入力バッファと前記定常確率を前記第１のサンプル数だけ保持する確率バッファを前記定常確率が所定の定常確率閾値より大きい場合に限り更新するバッファ更新手段と、
前記確率バッファに保持されている前記定常確率を重み係数として前記入力バッファに保持されている前記入力パワーの加重平均をとることで前記推定雑音パワーを算出する加重平均手段と、
前記入力パワーを所定の第２のサンプル数だけ保持して平均することで平均入力パワーを算出する入力平均手段と、
前記推定雑音パワー若しくは前記推定雑音パワーに基づく値と、前記平均入力パワーとの比が所定の定常判定範囲に収まるかを判定した環境移行判定結果を算出する環境移行判定手段とを備え、
前記定常確率算出手段は、前記環境移行判定手段が環境が移行したと判定した時には前記定常確率を所定の値とし、前記環境移行判定手段が環境は移行していないと判定した時には前記入力パワーを過去の前記推定雑音パワーで除した事後ＳＮＲに基づき前記定常確率を算出する定常確率算出関数によって前記定常確率を算出する
ことを特徴とする雑音推定装置。
前記定常確率算出関数は、前記定常確率算出関数が最大となるピーク事後ＳＮＲを境として、前記ピーク事後ＳＮＲ以下の事後ＳＮＲに対しては広義単調増加し、前記ピーク事後ＳＮＲ以上の事後ＳＮＲに対しては広義単調減少する関数であることを特徴とする請求項１に記載の雑音推定装置。
前記入力平均手段は、前記入力パワーの全帯域の平均値を所定の第二のサンプル数だけ保持して平均することで前記平均入力パワーを算出し、
前記推定雑音パワーの全帯域を平均することで平均雑音パワーを算出する推定雑音平均手段をさらに備え、
前記環境移行判定手段は、前記平均雑音パワーと前記平均入力パワーとの比が所定の定常判定範囲に収まるかを判定し、
初回実行時と前記環境移行判定手段が環境が移行したと判定した時から前記第１のサンプル数の間は前記定常確率算出手段へ初期状態で動作するように制御する初期状態制御手段をさらに備える
ことを特徴とする請求項１又は２に記載の雑音推定装置。
前記環境移行判定手段は、環境が移行したと判定した後、前記第１のサンプル数の間は環境が移行したという判定状態を継続することを特徴とする、請求項２に記載の雑音推定装置。
前記加重平均手段は、予め算出された推定バイアスを用いて、前記定常確率を重み係数として前記入力パワーの加重平均を補正して前記推定雑音パワーとする、請求項１～４のいずれかに記載の雑音推定装置。
音声と雑音が混合された入力信号中に含まれる雑音成分を推定して推定雑音パワーを得る雑音推定装置に搭載されたコンピュータを、
前記入力信号の入力パワーと過去の前記推定雑音パワーから前記入力パワーの定常確率を算出する定常確率算出手段と、
前記入力パワーを所定の第１のサンプル数だけ保持する入力バッファと前記定常確率を前記第１のサンプル数だけ保持する確率バッファを前記定常確率が所定の定常確率閾値より大きい場合に限り更新するバッファ更新手段と、
前記確率バッファに保持されている前記定常確率を重み係数として前記入力バッファに保持されている前記入力パワーの加重平均をとることで前記推定雑音パワーを算出する加重平均手段と、
前記入力パワーを所定の第２のサンプル数だけ保持して平均することで平均入力パワーを算出する入力平均手段と、
前記推定雑音パワー若しくは前記推定雑音パワーに基づく値と、前記平均入力パワーとの比が所定の定常判定範囲に収まるかを判定した環境移行判定結果を算出する環境移行判定手段として機能させ、
前記定常確率算出手段は、前記環境移行判定手段が環境が移行したと判定した時には前記定常確率を所定の値とし、前記環境移行判定手段が環境は移行していないと判定した時には前記入力パワーを過去の前記推定雑音パワーで除した事後ＳＮＲに基づき前記定常確率を算出する定常確率算出関数によって前記定常確率を算出する
ことを特徴とする雑音推定プログラム。
音声と雑音が混合された入力信号中に含まれる雑音成分を推定して推定雑音パワーを得る雑音推定装置が行う雑音推定方法において、
前記雑音推定装置は、定常確率算出手段、バッファ更新手段、加重平均手段、入力平均手段、環境移行判定手段を備え、
前記定常確率算出手段は、前記入力信号の入力パワーと過去の前記推定雑音パワーから前記入力パワーの定常確率を算出し、
前記バッファ更新手段は、前記入力パワーを所定の第１のサンプル数だけ保持する入力バッファと前記定常確率を前記第１のサンプル数だけ保持する確率バッファを前記定常確率が所定の定常確率閾値より大きい場合に限り更新し、
前記加重平均手段は、前記確率バッファに保持されている前記定常確率を重み係数として前記入力バッファに保持されている前記入力パワーの加重平均をとることで前記推定雑音パワーを算出し、
前記入力平均手段は、前記入力パワーを所定の第２のサンプル数だけ保持して平均することで平均入力パワーを算出し、
前記環境移行判定手段は、前記推定雑音パワー若しくは前記推定雑音パワーに基づく値と、前記平均入力パワーとの比が所定の定常判定範囲に収まるかを判定した環境移行判定結果を算出し、
前記定常確率算出手段は、前記環境移行判定手段が環境が移行したと判定した時には前記定常確率を所定の値とし、前記環境移行判定手段が環境は移行していないと判定した時には前記入力パワーを過去の前記推定雑音パワーで除した事後ＳＮＲに基づき前記定常確率を算出する定常確率算出関数によって前記定常確率を算出する
ことを特徴とする雑音推定方法。
音声と雑音が混合された入力信号から前記音声を収音する収音装置において、
前記入力信号に含まれる雑音成分を推定する雑音推定部と、
前記雑音推定部の推定結果を用いて、前記入力信号から前記音声信号を抽出して収音する収音部とを備え、
前記雑音推定部として、請求項１～５のいずれかに記載の雑音推定装置を適用したこと
を特徴とする収音装置。
音声と雑音が混合された入力信号から前記音声を収音する収音装置に搭載されたコンピュータを、
前記入力信号に含まれる雑音成分を推定する雑音推定部と、
前記雑音推定部の推定結果を用いて、前記入力信号から前記音声信号を抽出して収音する収音部として機能させるものであって、
前記雑音推定部は、請求項１～５のいずれかに記載の雑音推定装置として機能する
ことを特徴とする収音プログラム。
音声と雑音が混合された入力信号から前記音声を収音する収音装置が行う収音方法において、
雑音推定部及び収音部を備え、
前記雑音推定部は、請求項７に記載の雑音推定方法により前記入力信号に含まれる雑音成分を推定し、
前記収音部は、前記雑音推定部の推定結果を用いて、前記入力信号から前記音声信号を抽出して収音する
ことを特徴とする収音方法。