JP6064370B2

JP6064370B2 - 雑音抑圧装置、方法及びプログラム

Info

Publication number: JP6064370B2
Application number: JP2012122375A
Authority: JP
Inventors: 大藤枝
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2012-05-29
Filing date: 2012-05-29
Publication date: 2017-01-25
Anticipated expiration: 2032-05-29
Also published as: JP2013246418A

Description

本発明は雑音抑圧装置、方法及びプログラムに関し、特に、音声信号に重畳された雑音を周波数領域処理によって抑圧する場合に適用し得るものである。

自然環境において雑音はいたる所に存在するため、実世界の音声は、一般に種々の発信元からの雑音を含む。雑音を含んで観測された音声の品質を向上させるために、様々な雑音抑圧方法が開発されている。雑音抑圧方法は、大別して時間領域処理と周波数領域処理の２つに分かれており、本発明が対象とするのは周波数領域処理による雑音抑圧方法である。

周波数領域処理による雑音抑圧方法で代表されるのは、スペクトル減算法（ＳｐｅｃｔｒａｌＳｕｂｔｒａｃｔｉｏｎ；スペクトル減算法は周波数減算法と呼ばれることもある：以下、ＳＳ法と呼ぶ）とウィナーフィルタである。ＳＳ法やウィナーフィルタは、処理後に出力音声に歪みが生じることが知られている。この歪みはミュージカルノイズとして言及されるものであり、雑音成分の引き過ぎと引き残しがランダムに起きることで、時間周波数領域上に時間と周波数の両方向に孤立した成分（孤立周波数成分）がランダムに発生して、キュルキュルという人工的・楽音的な雑音として知覚される。

孤立周波数成分を発生させる要因として、以下のような項目が挙げられている。

［１］音声成分と雑音成分の相互相関項の影響によって、ゲインの推定精度が劣化する。

［２］スペクトルゲインを入力信号のスペクトルと推定雑音スペクトルの比の関数とみなすと、その概形は、比の小さいところで非常に大きな傾きを持っている。

［３］音声スペクトルにおける「谷」の部分（スペクトル成分が極端に小さい部分）が考慮されていない。

要因［１］は、雑音スペクトルの推定誤差として現れ、孤立周波数成分を生じる原因となる。要因［２］は、比が小さい範囲で少し振動するとゲイン値が大きく振動して、孤立周波数成分を誘発すると考えられる。要因［３］は、入力音声スペクトルの谷にある凹凸を考慮せずに減算を行うために、孤立周波数成分が発生していると考えられる。

これらの要因を解消するために、これまでにいくつのかの技術が開発されている（特許文献１、特許文献２、特許文献３）。

特許文献１に開示されている技術では、パワースペクトルの時間平滑化によって相互相関項（上記要因［１］）の影響を低減する従来技術はスペクトルゲインの推定精度が劣るという問題を有することに言及し、これを以下の手段によって解決している。長さの異なる２つの異なる解析窓によって入力音声を解析する。解析区間の長い方はスペクトルゲインの算出に使用されるゲイン算出用解析窓であり、解析区間の短い方は雑音スペクトルの推定と出力スペクトルの算出に使用される信号用解析窓である。ゲイン算出用解析窓で得られた入力スペクトルは、スペクトルゲインの算出前に信号用解析窓と同じデータ数に圧縮されるが、この際に周波数方向の平滑化を行うことにより相互相関項の影響が低減されるとしている。

特許文献２に開示されている技術では、雑音成分のみが存在する区間における入力スペクトル（これは真の雑音スペクトルに等しい）と推定雑音スペクトルとの比ｈは１の付近に集まるが、ＳＳ法及びウィナーフィルタのスペクトルゲインはｈが１の付近で非常に急峻な特性を持っているためにスペクトルゲインの変動が大きくなることを指摘し（上記要因［２］）、これを以下の手段で解決している。次の４つの特徴
（１）ｈが小さい値の範囲（例えばｈ＜２）では、なるべく小さな値かつ、小さな傾きを有する
（２）ｈが中程度の範囲（例えば２＜ｈ＜６）では、大きな正の傾きを有する
（３）ｈが十分大きい範囲（例えばｈ＞６）では、傾きは小さくなり、１に収束する
（４）変曲点に対して非対称
を有するゲイン関数を定義して、ＳＳ法やウィナーフィルタのスペクトルゲインの代わりにこのゲイン関数を用いることで、上記要因［２］を解消する。主に、特徴（１）により、スペクトルゲインの変動が抑えられる。

特許文献３に開示されている技術では、入力スペクトルの振幅の谷にはほとんど雑音成分しか含まれないことに注目している。具体的には、解析窓ごとに平均雑音レベルβを推定し、βより小さくβに比例する圧縮雑音レベルαと、βより大きくβに比例する信号成分判定閾値γを算出し、入力スペクトルがαより小さい場合にはαを最大値としてレベルを持ち上げて、α〜βの間の場合にはαを最小値としてレベルを抑圧し、γ以上の場合には圧縮せず、β〜γの間の場合にはβ以下とγ以上がスムーズにつながるように伸張する。これにより、入力スペクトルの谷にある凹凸が圧縮雑音レベルα付近に圧縮されるので孤立周波数成分の発生を抑制することができ、かつ音声成分（γ以上の部分）は変形させないので、雑音抑圧後に発生するミュージカルノイズを大幅に抑制できるとしている。

特許第４５６８７３３号公報特開２０１１−１９１６６９号公報特開２０１０−３２８０２号公報

しかし、特許文献１の開示技術は、孤立周波数成分の発生要因に十分な追究がなされておらず、そのため特許文献１に開示されている技術では上記要因［２］と上記要因［３］によって孤立周波数成分が生じてしまい、ミュージカルノイズを大幅に抑圧することはできない。

特許文献２の開示技術において提案されているゲイン関数は、ｈ→０においてゲインが０に収束していないので（特許文献２の図１参照）、十分な雑音抑圧性能が得られない。

特許文献３の開示技術は、圧縮後の入力スペクトルには真の雑音成分よりフラットな周波数特性を持つレベルαの雑音成分が含まれた状態になるので、αに応じて雑音抑圧ゲインを適切に設定すれば十分な雑音抑圧性能が得られるが、当該文献の中にはその詳細な方法が述べられていない。

従来の技術に共通する問題は、ミュージカルノイズが発生する局所的な要因に注目していることである。相互相関項の影響などによる雑音スペクトルの推定誤差は、減算型フィルタの急峻な特性によって顕著になり、周波数と時間の両方向に孤立した通過ゲイン（孤立ゲインと呼ぶ）がランダムに発生するゲイン特性が得られる。孤立ゲインは入力スペクトルの周波数成分をランダムに通過させるため、抑圧処理の実施によって孤立周波数成分が出力スペクトルに散りばめられることになる。以上のように、上記３つの要因はどれもミュージカルノイズが発生する過程の一部でしかないため、従来技術ではミュージカルノイズの発生を完全に抑圧することはできなかった。

そのため、ミュージカルノイズを生じさせずに雑音を抑圧できる雑音抑圧装置、方法及びプログラムが望まれている。

第１の本発明は、入力音声を周波数解析した入力スペクトルから、上記入力音声に重畳されている雑音を抑圧する雑音抑圧装置において、（１）上記入力スペクトルに基づいて雑音スペクトルを推定する雑音スペクトル推定手段と、（２）推定された上記雑音スペクトルを上記入力スペクトルに応じて補正する雑音スペクトル補正手段と、（３）上記入力スペクトルと上記雑音スペクトル補正手段が出力する補正雑音スペクトルとを用いて、上記入力スペクトル中の雑音成分を抑制させるためのスペクトルゲインを算出するスペクトルゲイン算出手段と、（４）上記入力スペクトルに上記スペクトルゲインを乗じて出力スペクトルを得るフィルタリング処理手段とを備え、（５）上記雑音スペクトル補正手段は、（５−１）上記入力スペクトルを構成する音声成分と雑音成分に対して、上記音声成分が上記雑音成分に比べて十分大きい場合には、上記補正雑音スペクトルを推定された上記雑音スペクトルとほぼ同じにし、（５−２）上記音声成分が上記雑音成分に比べて小さい又は同程度の場合には、上記入力スペクトルと推定された上記雑音スペクトルとの比に応じて上記補正雑音スペクトルが小さくなるように調整し、（５−３）上記音声成分の占める割合が０に近付くと上記補正雑音スペクトルが０に収束するように、推定された上記雑音スペクトルを補正することを特徴とする。

第２の本発明は、入力音声を周波数解析した入力スペクトルから、上記入力音声に重畳されている雑音を抑圧する雑音抑圧方法において、（１）雑音スペクトル推定手段は、上記入力スペクトルに基づいて雑音スペクトルを推定し、（２）雑音スペクトル補正手段は、推定された上記雑音スペクトルを上記入力スペクトルに応じて補正し、（３）スペクトルゲイン算出手段は、上記入力スペクトルと上記雑音スペクトル補正手段が出力する補正雑音スペクトルとを用いて、上記入力スペクトル中の雑音成分を抑制させるためのスペクトルゲインを算出し、（４）フィルタリング処理手段は、上記入力スペクトルに上記スペクトルゲインを乗じて出力スペクトルを取得し、（５）上記雑音スペクトル補正手段は、上記入力スペクトルを構成する音声成分と雑音成分に対して、（５−１）上記音声成分が上記雑音成分に比べて十分大きい場合には、上記補正雑音スペクトルを推定された上記雑音スペクトルとほぼ同じにし、（５−２）上記音声成分が上記雑音成分に比べて小さい又は同程度の場合には、上記入力スペクトルと推定された上記雑音スペクトルとの比に応じて上記補正雑音スペクトルが小さくなるように調整し、（５−３）上記音声成分の占める割合が０に近付くと上記補正雑音スペクトルが０に収束するように、推定された上記雑音スペクトルを補正することを特徴とする。

第３の本発明は、入力音声を周波数解析した入力スペクトルから、上記入力音声に重畳されている雑音を抑圧する雑音抑圧プログラムであって、コンピュータを、（１）上記入力スペクトルに基づいて雑音スペクトルを推定する雑音スペクトル推定手段と、（２）推定された上記雑音スペクトルを上記入力スペクトルに応じて補正するものであって、上記入力スペクトルを構成する音声成分と雑音成分に対して、上記音声成分が上記雑音成分に比べて十分大きい場合には、上記補正雑音スペクトルを推定された上記雑音スペクトルとほぼ同じにし、上記音声成分が上記雑音成分に比べて小さい又は同程度の場合には、上記入力スペクトルと推定された上記雑音スペクトルとの比に応じて上記補正雑音スペクトルが小さくなるように調整し、上記音声成分の占める割合が０に近付くと上記補正雑音スペクトルが０に収束するように、推定された上記雑音スペクトルを補正する雑音スペクトル補正手段と、（３）上記入力スペクトルと上記雑音スペクトル補正手段が出力する補正雑音スペクトルとを用いて、上記入力スペクトル中の雑音成分を抑制させるためのスペクトルゲインを算出するスペクトルゲイン算出手段と、（４）上記入力スペクトルに上記スペクトルゲインを乗じて出力スペクトルを得るフィルタリング処理手段として機能させることを特徴とする。

本発明によれば、孤立周波数成分の発生と増幅を抑圧することにより、ミュージカルノイズを生じない雑音抑圧効果を得ることが可能である。

第１の実施形態の雑音抑圧装置の構成を示す機能ブロック図である。第１の実施形態及び従来の雑音スペクトル補正関数の概形（入出力の関係）を示すグラフである。ＳＳ法と第１の実施形態の音声対雑音比ｒとスペクトルゲインＧｓｓ（ｋ）、Ｇ（ｋ）との関係を示すグラフである。第２の実施形態における雑音スペクトル補正関数の概形（入出力の関係）を示すグラフである。第２の実施形態の音声対雑音比ｒとスペクトルゲインＧ（ｋ）との関係を、閾値ＴＨＲの２つの値０、０．１について示すグラフである。第３の実施形態における雑音スペクトル補正関数の概形（入出力の関係）を示すグラフである。第３の実施形態における雑音スペクトル補正関数の特徴量を整理して示す図表である。第４の実施形態における雑音スペクトル補正関数の概形（入出力の関係）を示すグラフである。第４の実施形態における、境界値ＢＲ（ｎ）と、その境界値での雑音スペクトル補正関数の値ＣＣ（ｎ）との対応を示す図表である。第５の実施形態の雑音抑圧装置の構成を示す機能ブロック図である。

（Ａ）第１の実施形態
以下、本発明に係る雑音抑圧装置、方法及びプログラムの第１の実施形態を、図面を参照しながら説明する。

（Ａ−１）第１の実施形態の構成
図１は、第１の実施形態の雑音抑圧装置の構成を示す機能ブロック図である。第１の実施形態の雑音抑圧装置を、ＣＰＵが実行するソフトウェア（雑音抑圧プログラム）として実現することも可能であり、また、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩＣ）、ＰＬＤ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）などの電子回路を利用して実現することも可能であるが、機能的には、図１で表すことができる。

なお、図１は、第１の実施形態の雑音抑圧装置における処理の流れを示すフローチャートと見ることもできる。

図１において、第１の実施形態の雑音抑圧装置１００は、周波数解析処理部１０１、パワー算出処理部１０２、音声区間検出処理部１０３、雑音スペクトル推定処理部１０４、雑音スペクトル補正処理部１０５、スペクトルゲイン算出処理部１０６、スペクトルゲイン時間平滑化処理部１０７、フィルタリング処理部１０８及び波形合成処理部１０９を有する。

雑音抑圧装置１００には、デジタル音声信号でなる入力音声ｘ（ｔ）が入力される。例えば、マイクロフォンが音声を捕捉して得たアナログ音声信号をＡ／Ｄ変換器でデジタル音声信号に変換したものが入力音声ｘ（ｔ）になっても良く、また、通信回線を介して転送されたデジタル音声信号が入力音声ｘ（ｔ）になっても良く（アナログ音声信号が転送されてきた場合にはＡ／Ｄ変換することを要する）、さらに、記録媒体から読み出したデジタル音声信号が入力音声ｘ（ｔ）になっても良い（アナログ音声信号が読み出された場合にはＡ／Ｄ変換することを要する）。

周波数解析処理部１０１は、入力音声ｘ（ｔ）の周波数解析を行い、入力複素スペクトルＸ（ｋ）を出力する。ここで、パラメータｔとｋはそれぞれ、時間と周波数ビンの要素番号である。デジタル信号のサンプリング周波数は限定されるものではなく、例えば、８ｋＨｚや１６ｋＨｚ、４４．１ｋＨｚなどのデジタル音声信号を入力し得る。周波数解析手法も何ら限定されるものではなく、例えば、ＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ；高速フーリエ変換）を適用することができる。

パワー算出処理部１０２は、入力複素スペクトルＸ（ｋ）のパワー又は振幅を要素ごとに計算する。パワーとするか振幅とするかによって雑音抑圧特性が多少異なるが、どちらを選択するかは、第1の実施形態の効果とは関係がないことから、どちらを選択しても構わない。ここでは、振幅をパワーと呼ぶこととする。この場合、入力複素スペクトルＸ（ｋ）の絶対値を入力スペクトルＰＸ（ｋ）とする。

音声区間検出処理部１０３は、入力音声ｘ（ｔ）が音声区間か雑音区間かを判定して、音声区間検出結果Ｖを出力する。音声区間検出結果Ｖの値は任意の２値とすれば良い。例えば、入力音声ｘ（ｔ）が音声区間である場合にはＶ＝１、雑音区間である場合にはＶ＝０とする。この判定は一般に音声区間検出（ＶＡＤ）と呼ばれていて、様々な方式が提案されており、ここではそれらの任意の方式を適用することができる。図１では、音声区間検出処理部１０３に入力音声ｘ（ｔ）を入力する場合を示しているが、適用するＶＡＤ方式によっては、他の信号を音声区間検出処理部１０３に入力するようにしても良い。例えば、入力スペクトルＰＸ（ｋ）の周波数要素ｋに関する平均値を求め、この平均値が予め設定しておいた雑音レベルに関する閾値ＴＨＶより小さいときにＶ＝０、大きいときにＶ＝１としても良い。

雑音スペクトル推定処理部１０４は、入力スペクトルＰＸ（ｋ）と過去に推定したＭｖ個の雑音スペクトルＰＮｐａｓｔ（ｋ；ｍ）（但し、ｍ＝１，２，…，Ｍｖ、また、ＰＮｐａｓｔ（ｋ；ｍ）はｍ回前に推定した雑音スペクトルを意味する）とを用いて現在の雑音スペクトルＰＮ（ｋ）を推定する。雑音スペクトル推定処理部１０４の処理は、音声区間検出結果Ｖによって制御される。Ｖ＝１の場合（すなわち入力音声ｘ（ｔ）が音声区間である場合）には、雑音スペクトルを更新せず、現在の雑音スペクトルＰＮ（ｋ）として１回前に推定した雑音スペクトルＰＮｐａｓｔ（ｋ；１）を適用する（ＰＮ（ｋ）＝ＰＮｐａｓｔ（ｋ；１））。一方、Ｖ＝０の場合（すなわち、ｘ（ｔ）が雑音区間である場合）には、ａ＊ＰＸ（ｋ）とＰＮｐａｓｔ（ｋ；ｍ）との平均値（この明細書において、「平均値」は単純平均値だけでなく、重み付け平均値を含む用語である）を算出することで、現在の雑音スペクトルＰＮ（ｋ）を推定する。ここで、減算係数ａは、大きいほど雑音抑圧性能が高くなるが同時に音声の歪みが大きくなる係数であり、ａ＝０．５〜２．０程度が妥当である。入力スペクトルＰＸ（ｋ）に減算係数ａを適用したり、過去の雑音スペクトルＰＮｐａｓｔ（ｋ；ｍ）をも利用した平均値を算出したりすることにより、音声成分を誤って雑音成分として学習することを防ぐことができる。

平均値の算出方法として、例えば、以下の２例を挙げることができる。第１に、Ｍｖ＞１として、ａ＊ＰＸ（ｋ）と全てのＰＮｐａｓｔ（ｋ；ｍ）との平均を計算する方法がある。第２に、Ｍｖ＝１とし、（１）式に示す時定数フィルタによって平均値を得る方法がある。（１）式において、ＴＣＮは、０≦ＴＣＮ≦１の範囲内の値をとる時定数と呼ばれる係数であり、ＴＣＮ＝１ならば非更新で、ＴＣＮが小さいほど更新が速くなり、ＴＣＮ＝０でＰＮ（ｋ）＝ａ＊ＰＸ（ｋ）となる。

ＰＮ（ｋ）＝ＴＣＮ＊ＰＮｐａｓｔ（ｋ；１）＋（１−ＴＣＮ）＊ａ＊ＰＸ（ｋ）
…（１）
雑音スペクトル補正処理部１０５は、入力スペクトルＰＸ（ｋ）に基づいて雑音スペクトルＰＮ（ｋ）を補正する。

雑音スペクトルＰＮ（ｋ）を補正するために、雑音スペクトル補正関数ｆＣ（ｒ）を導入する。パラメータｒには後述するように音声対雑音比が適用され、この点に鑑み、雑音スペクトル補正関数ｆＣ（ｒ）は、以下のような３つの特徴（ア）〜（ウ）を有する。

（ア）ｒに対して、単調非減少である。

（イ）ｒ＝０のとき、ｆＣ（ｒ）＝０である。

（ウ）ｒ＝∞のとき、ｆＣ（ｒ）→１である。

この第１の実施形態では、雑音スペクトル補正関数ｆＣ（ｒ）として連続で滑らかな関数を使用する。そこで、さらに以下の４つの特徴（エ）〜（キ）を追加する。

（エ）ｆＣ（ｒ）は１回微分可能であり、１階の導関数ｆＣ’（ｒ）は以下の特徴（オ）〜（キ）を有する。

（オ）ｒに対して、単調非増加である。

（カ）ｒ＝０のとき、ｆＣ’（ｒ）＝１である。

（キ）ｒ→∞のとき、ｆＣ’（ｒ）→０である。

以上のような特徴を持つ関数として、第１の実施形態では、（２）式により雑音スペクトル補正関数ｆＣ（ｒ）を定義する。（２）式におけるｅｘｐ（−ｒ）は、指数関数である。

ｆＣ（ｒ）＝１−ｅｘｐ（−ｒ） …（２）
雑音スペクトルＰＮ（ｋ）の補正は、入力スペクトルＰＸ（ｋ）と雑音スペクトルＰＮ（ｋ）との比である音声対雑音比Ｒ（ｋ）＝ＰＸ（ｋ）／ＰＮ（ｋ）を用いて行う。ここで、音声対雑音比Ｒ（ｋ）を雑音スペクトル補正関数ｆＣ（ｒ）に入力して得た値Ｃ（ｋ）＝ｆＣ（Ｒ（ｋ））を雑音スペクトル補正係数Ｃ（ｋ）と定義する。

雑音スペクトル補正処理部１０５は、雑音スペクトル補正係数Ｃ（ｋ）を用いて雑音スペクトルＰＮ（ｋ）を（３）式に従って補正し、補正雑音スペクトルＰＮＣ（ｋ）を出力する。

ＰＮＣ（ｋ）＝Ｃ（ｋ）＊ＰＮ（ｋ） …（３）
スペクトルゲイン算出処理部１０６は、入力スペクトルＰＸ（ｋ）と補正雑音スペクトルＰＮＣ（ｋ）に基づいて、スペクトルゲインＧ（ｋ）を（４）式に従って算出する。（４）式は（２）式と（３）式を用いると、（５）式のように変形することができる。雑音スペクトル補正関数ｆＣ（ｒ）について（６）式が成り立つことから、（５）式の右辺第２項は１以下の値をとり、このことから、スペクトルゲインＧ（ｋ）はＧ（ｋ）≧０となるので、スペクトルゲインＧ（ｋ）が負になることはない。

Ｇ（ｋ）＝１−ＰＮＣ（ｋ）／ＰＸ（ｋ） …（４）
Ｇ（ｋ）＝１−ｆＣ（Ｒ（ｋ））／Ｒ（ｋ） …（５）
ｆＣ（ｒ）≦ｒ …（６）
スペクトルゲイン時間平滑化処理部１０７は、スペクトルゲイン算出処理部１０６が出力したスペクトルゲインＧ（ｋ）と過去に算出した平滑化スペクトルゲインＧＳｐａｓｔ（ｋ；ｍ）（但し、ｍ＝１，２，…，Ｍｇ、また、ＧＳｐａｓｔ（ｋ；ｍ）はｍ回前に出力した平滑化スペクトルゲインを意味する）とを用いて現在の平滑化スペクトルゲインＧＳ（ｋ）を出力する。時間平滑化には任意の方式を用いることができるが、（７）式に示すような時定数フィルタを用いるのが簡単で効率的である。（７）式におけるＴＣＧは、０≦ＴＣＧ≦１の範囲内の値をとる時定数である。例えば、４５ｍｓ程度の時定数を使うのは好ましい。

ＧＳ（ｋ）＝ＴＣＧ＊ＧＳｐａｓｔ（ｋ；１）＋（１−ＴＣＧ）＊Ｇ（ｋ）…（７）
フィルタリング処理部１０８は、入力複素スペクトルＸ（ｋ）に平滑化スペクトルゲインＧＳ（ｋ）を乗じることによってフィルタリングを行い、出力複素スペクトルＹ（ｋ）を出力する。

波形合成処理部１０９は、出力複素スペクトルＹ（ｋ）を時間波形に戻して雑音が抑圧された出力信号ｙ（ｔ）を出力する。

なお、必要に応じて、デジタル信号でなる出力信号ｙ（ｔ）をアナログ信号に変換するＤ／Ａ変換部を、波形合成処理部１０９の後段に設けるようにしても良い。

（Ａ−２）第１の実施形態の動作
次に、第１の実施形態に係る雑音抑圧装置１００の動作（第１の実施形態の雑音抑圧方法）を説明する。

デジタル音声信号でなる入力音声ｘ（ｔ）が雑音抑圧装置１００に入力されると、周波数解析処理部１０１によって、入力音声ｘ（ｔ）の周波数解析が実行され、得られた入力複素スペクトルＸ（ｋ）がパワー算出処理部１０２及びフィルタリング処理部１０８に与えられる。

パワー算出処理部１０２によって、入力複素スペクトルＸ（ｋ）のパワー又は振幅が要素ごとに計算され、得られた入力スペクトルＰＸ（ｋ）が雑音スペクトル推定処理部１０４、雑音スペクトル補正処理部１０５及びスペクトルゲイン算出処理部１０６に与えられる。また、音声区間検出処理部１０３によって、入力音声ｘ（ｔ）が音声区間か雑音区間かが判定され、音声区間検出結果Ｖが雑音スペクトル推定処理部１０４に与えられる。

雑音スペクトル推定処理部１０４によって、入力スペクトルＰＸ（ｋ）と過去に推定したＭｖ個の雑音スペクトルＰＮｐａｓｔ（ｋ；ｍ）とから現在の雑音スペクトルＰＮ（ｋ）が推定され、雑音スペクトル補正処理部１０５に与えられる。そして、雑音スペクトル補正処理部１０５によって、入力スペクトルＰＸ（ｋ）に基づき、かつ、上述した特徴（ア）〜（キ）を有する、（２）式に一例を示す雑音スペクトル補正関数ｆＣ（ｒ）が適用されて、雑音スペクトルＰＮ（ｋ）が補正され、得られた補正雑音スペクトルＰＮＣ（ｋ）がスペクトルゲイン算出処理部１０６に与えられる。

スペクトルゲイン算出処理部１０６によって、入力スペクトルＰＸ（ｋ）と補正雑音スペクトルＰＮＣ（ｋ）とに基づいて、スペクトルゲインＧ（ｋ）が算出されて、スペクトルゲイン時間平滑化処理部１０７に与えられる。そして、スペクトルゲイン時間平滑化処理部１０７によって、スペクトルゲインＧ（ｋ）と過去に算出した平滑化スペクトルゲインＧＳｐａｓｔ（ｋ；ｍ）とが適用されて、現在の平滑化スペクトルゲインＧＳ（ｋ）が算出され、フィルタリング処理部１０８に与えられる。

フィルタリング処理部１０８によって、入力複素スペクトルＸ（ｋ）に平滑化スペクトルゲインＧＳ（ｋ）が乗算され、得られた出力複素スペクトルＹ（ｋ）が波形合成処理部１０９に与えられる。最後に、波形合成処理部１０９によって、出力複素スペクトルＹ（ｋ）が時間波形に戻されて雑音が抑圧された出力信号ｙ（ｔ）が得られる。

次に、第１の実施形態に係る雑音抑圧装置１００がミュージカルノイズを抑圧する仕組みを説明する。

雑音スペクトル補正関数ｆＣ（ｒ）の重要な特徴は、ｒ（＝音声対雑音比Ｒ（ｋ））が１付近でのｆＣ（ｒ）の傾きが小さいこと、及び、ｆＣ（０）＝０である。

特許文献２で明らかにされているように、音声対雑音比ｒが１付近の値を取るとき、雑音スペクトル補正関数（特許文献２中のゲイン関数）の傾きが大きいとスペクトルゲインの変動が大きくなるので、孤立ゲインを生じる原因となる。ここで、ミュージカルノイズが多分に発生するＳＳ法と比較するために、第１の実施形態における雑音スペクトル補正関数ｆＣ（ｒ）に相当するＳＳ法の関数を導出する。

ＳＳ法のスペクトルゲインは（８）式で表される。なお、（８）式におけるｍａｘ（Ａ，Ｂ）はＡ及びＢのうち大きい方を取り出す関数である。また、（８）式におけるｂは、スペクトルゲインの最小値（すなわち最大抑圧量）を調整する、０≦ｂ＜１の範囲内の定数である。定数ｂを大きくして雑音抑圧性能を犠牲にすればミュージカルノイズの発生を多少抑圧することができる。

Ｇｓｓ（ｋ）＝ｍａｘ｛１−ＰＮ（ｋ）／ＰＸ（ｋ），ｂ｝ …（８）
雑音スペクトル補正関数ｆＣ（ｒ）と係数Ｃ（ｋ）は（９）式を満たすので、同様にして、（１０）式に示すように、ＳＳ法の雑音スペクトル補正関数に相当する関数ｆＣｓｓ（ｒ）＝ｆＣｓｓ（Ｒ（ｋ））を定義する。（１０）式に（８）式を適用すると、（１１）式が得られる。なお、（１１）式におけるｍｉｎ（Ａ，Ｂ）はＡ及びＢのうち小さい方を取り出す関数である。

ｆＣ（Ｒ（ｋ））＝Ｃ（ｋ）＝Ｒ（ｋ）＊（１−Ｇ（ｋ）） …（９）
ｆＣｓｓ（Ｒ（ｋ））＝Ｒ（ｋ）＊（１−Ｇｓｓ（ｋ）） …（１０）
ｆＣｓｓ（ｒ）＝ｍｉｎ｛１，ｒ＊（１−ｂ）｝ …（１１）
図２に、雑音スペクトル補正関数の概形（入出力の関係）を示す。点線、破線及び実線はそれぞれｂ＝０のｆＣｓｓ（ｒ）、ｂ＝０．１のｆＣｓｓ（ｒ）及びｆＣ（ｒ）を表している。この図２から分かるように、第１の実施形態のｒ＝１付近での雑音スペクトル補正関数ｆＣ（ｒ）の傾きは、ＳＳ法の雑音スペクトル補正関数ｆＣｓｓ（ｒ）に比べて緩やかになっているため、孤立ゲインの発生を抑制することができる。なお、ＳＳ法でも、ｂをより大きな値に設定すれば当該関数ｆＣｓｓ（ｒ）の傾きを緩くすることができるので、孤立ゲインの発生を抑制することができるが、雑音抑圧性能が小さくなる。

図３に、ＳＳ法と第１の実施形態の音声対雑音比ｒとスペクトルゲインＧｓｓ（ｋ）、Ｇ（ｋ）との関係を示す。図３（Ａ）は、縦軸がスペクトルゲインＧｓｓ（ｋ）、Ｇ（ｋ）の値そのものであり、図３（Ｂ）は、縦軸がスペクトルゲインＧｓｓ（ｋ）、Ｇ（ｋ）の値をデシベル表記したものとなっている。

ＳＳ法のスペクトルゲインＧｓｓ（ｋ）はｂが最小値となっているが、第１の実施形態は、ｒが小さくなると共にスペクトルゲインＧ（ｋ）も小さくなって、ｂ以下のゲイン値となっていることから、第１の実施形態は孤立ゲインの発生を抑制しても高い雑音抑圧性能を保持できる。

また、特許文献３に明らかにされているように、入力スペクトルの谷の凹凸はミュージカルノイズの原因となる。入力スペクトルの谷では、ほとんど雑音成分しか含まれないために、音声対雑音比Ｒ（ｋ）はＲ（ｋ）＜１となっているはずである。第１の実施形態における雑音スペクトル補正関数ｆＣ（ｒ）は、ｒすなわち音声対雑音比Ｒ（ｋ）が０に近付くと０に収束するので、当該凹凸を知覚できないように抑圧する。それ故、ミュージカルノイズの発生を抑制することができる。

以上の特徴を有する雑音スペクトル補正関数Ｃ（ｋ）を雑音スペクトルＰＮ（ｋ）に乗じた補正雑音スペクトルＰＮＣ（ｋ）は、音声対雑音比Ｒ（ｋ）が大きい場合、すなわち、雑音成分に比べて音声成分が十分大きい場合には、雑音スペクトルＰＮ（ｋ）とほぼ等しく、音声対雑音比Ｒ（ｋ）が小さい場合、すなわち、雑音成分に比べて音声成分が同程度か小さい場合には雑音スペクトル補正関数Ｃ（ｋ）によって小さく補正され、音声対雑音比Ｒ（ｋ）がＲ（ｋ）＝０の場合、すなわち、音声成分が含まれない場合には０となる。また、（６）式の両辺にＰＮ（ｋ）を乗じることにより、（１２）式が成り立つので、補正後の雑音スペクトルが入力スペクトルより大きくなることはない。

ＰＮＣ（ｋ）≦ＰＸ（ｋ） …（１２）
（１２）式が成り立つことは、スペクトルゲインや出力スペクトルが負にならないことを意味していることから、そのような不自然さに対処するための後処理が不要となるというアルゴリズム上の利点も得られる。さらに、雑音スペクトル補正関数ｆＣ（ｒ）は無限階微分可能であることにより、上記の補正処理は極めて滑らかに行われるため、第１の実施形態のスペクトルゲインＧ（ｋ）には周波数方向の孤立ゲインが生じない。

従来技術の中には、出力スペクトルを時間方向及び周波数方向の両方向に平滑化する方法があるが、周波数方向の平滑化は音声成分のスペクトルを変形させてしまう。このために、出力信号に新たな歪みが生じるという問題があった。一方、第１の実施形態は、雑音スペクトルを適応的に抑制するかのような雑音スペクトル補正係数を乗じる方式なので、音声成分のスペクトルは変形させない。従って、出力信号の歪みも最小限に抑えることができる。

スペクトルゲインの時間平滑化は、２つの意味でミュージカルノイズを抑圧する。

第１に、音声成分と雑音成分の相互相関項の影響を軽減する。相互相関項の時間に関する期待値が０なので、時間平滑化を行うことでその影響を軽減することができる。スペクトルゲインＧ（ｋ）の算出において、雑音成分は雑音スペクトル推定処理部１０４で既に時間平滑化されているが、音声成分については手つかずとなっている。そこで、スペクトルゲインを時間平滑化することにより、スペクトルゲインの音声成分に起因する要素と雑音成分に起因する要素の両方を平滑化することができるので、相互相関項の影響を軽減することができる。

第２に、スペクトルゲインＧ（ｋ）に生じる孤立ゲインを直接平滑化して除去する。スペクトルゲインＧ（ｋ）を算出した段階では、上記の相互相関項の影響が残っているために、時間方向の孤立ゲインが生じる。孤立した成分を除去する最も簡単な方法は、孤立成分を平滑化することである。スペクトルゲインの時間平滑化は、フィルタ特性の更新、追従に遅延が生じるもののフィルタ特性自体にはあまり影響を与えないので、出力信号に歪みが生じ難い処理である。

従って、スペクトルゲインＧ（ｋ）の時間平滑化は、Ｇ（ｋ）に存在する時間方向の孤立ゲインを抑圧できる。

以上をまとめると、第１の実施形態は、まず雑音スペクトル補正によって周波数方向の孤立ゲインを抑圧し、次にスペクトルゲインの時間平滑化によって時間方向の孤立ゲインを抑圧する。これら２つの処理によって孤立ゲインは大幅に抑圧されるので、孤立周波数成分、すなわちミュージカルノイズを抑圧することができる。

（Ａ−３）第１の実施形態の効果
以上のように、第１の実施形態によれば、音声スペクトルを変形させないので出力信号の歪みを最小限に抑えることができ、スペクトルゲインの孤立ゲインを解消することにより孤立周波数成分の発生を抑圧しているので、ミュージカルノイズを発生させずに雑音を抑圧することができる。これにより、従来よりも歪みの少ない聴き心地の良い雑音抑圧信号を得ることができる。

（Ｂ）第２の実施形態
次に、本発明に係る雑音抑圧装置、方法及びプログラムの第２の実施形態を、図面を参照しながら説明する。

第２の実施形態に係る雑音抑圧装置の構成も、上述した第１の実施形態の説明で用いた図１で表すことができる。

しかし、第２の実施形態の場合、雑音スペクトル補正処理部１０５が利用する雑音スペクトル補正関数ｆＣ（ｒ）が第１の実施形態のものとは異なっている。第２の実施形態における雑音スペクトル補正関数ｆＣ（ｒ）の概形を図４に示している。第２の実施形態は、雑音抑圧量を調整できる実施形態である。

第１の実施形態の雑音抑圧装置はミュージカルノイズを発生させないが、図３（Ａ）及び図３（Ｂ）から分かるように、ｒ（＝音声対雑音比Ｒ（ｋ）＝ＰＸ（ｋ）／ＰＮ（ｋ））がおおよそ−１０〜１０ｄＢの間では、ＳＳ法に比べて雑音抑圧量があまり大きくなかった。そこで、第２の実施形態では雑音抑圧量を調整できるように、（１３−１）式及び（１３−２）式によって雑音スペクトル補正関数ｆＣ（ｒ）を定義する。

ｆＣ（ｒ）＝ｒ（ｒ≦ＴＨＲのとき） …（１３−１）
ｆＣ（ｒ）＝ＴＨＲ
＋（１−ＴＨＲ）＊（１−ｅｘｐ（−（ｒ−ＴＨＲ）／（１−ＴＨＲ）））
（ｒ＞ＴＨＲのとき） …（１３−２）
ここで、ＴＨＲは０≦ＴＨＲ≦１の範囲内の値をとる閾値である。ＴＨＲ＝０で第１の実施形態と同じとなり、ＴＨＲ＝１でＳＳ法（（１１）式参照）と同じとなる。図４は、ＴＨＲ＝０の場合（第１の実施形態参照）と、ＴＨＲ＝０．１の場合（第２の実施形態で特有な場合）について雑音スペクトル補正関数ｆＣ（ｒ）の概形を示しており、図５は、これらの２つの場合について、音声対雑音比ｒとスペクトルゲインＧ（ｋ）との関係を示している。図５（Ａ）は、縦軸がスペクトルゲインＧ（ｋ）の値そのものであり、図５（Ｂ）は、縦軸がスペクトルゲインＧ（ｋ）の値をデシベル表記したものとなっている。図４及び図５において、実線がＴＨＲ＝０の場合を、一点鎖線がＴＨＲ＝０．１の場合を示している。

図４及び図５から、第２の実施形態の場合、第１の実施形態に比べて雑音抑圧量が強くなっていることが分かる。一方、音声対雑音比Ｒ（ｋ）に対するスペクトルゲインの滑らかさは変わらないため、第１の実施形態と同様にミュージカルノイズの発生と音声成分の歪みを抑圧することができる。

以上のように、第２の実施形態によれば、雑音がより強く抑圧されたクリアな雑音抑圧信号を得ることができる。

（Ｃ）第３の実施形態
次に、本発明に係る雑音抑圧装置、方法及びプログラムの第３の実施形態を、図面を参照しながら説明する。

第３の実施形態に係る雑音抑圧装置の構成も、上述した第１や第２の実施形態の説明で用いた図１で表すことができる。

しかし、第３の実施形態の場合、雑音スペクトル補正処理部１０５が利用する雑音スペクトル補正関数ｆＣ（ｒ）が第１や第２の実施形態のものとは異なっている。第３の実施形態における雑音スペクトル補正関数ｆＣ（ｒ）の概形を図６に示している。第１の実施形態及び第２の実施形態では、雑音スペクトル補正関数ｆＣ（ｒ）を滑らかな関数によって定義していたのに対して、第３の実施形態では、音声対雑音比ｒ（＝Ｒ（ｋ））の領域を少なくとも３つ以上の区間に分けて、各区間では雑音スペクトル補正関数ｆＣ（ｒ）を直線（１次関数）で定義し、それらを各区間の境界で連続的に接続することで、雑音スペクトル補正関数ｆＣ（ｒ）を滑らかでない関数によって定義する点が異なる。以下、第３の実施形態の雑音スペクトル補正関数ｆＣ（ｒ）について詳しく述べる。

各区間の直線は、雑音スペクトル補正関数ｆＣ（ｒ）が、第１の実施形態で述べた雑音スペクトル補正関数に関する３つの特徴（ア）〜（ウ）を満たしている限りにおいて、任意に定義することができる。例えば、第１の実施形態における（２）式、又は、第２の実施形態における（１３−１）式及び（１３−２）式を、各区間で近似した１次関数を各区間の直線とするようにしても良い。また例えば、音声対雑音比ｒに対して指数関数的に増加する区間を設定し、それぞれの区間で１次のテイラー展開を行ってそれらを繋げば、第１の実施形態及び第２の実施形態と同等の特性が得られる。

（２）式で表される関数に対し、音声対雑音比ｒを指数関数的に増加する５つの区間に分けて１次のテイラー展開によって近似した例を、図６及び図７に示す。図６において、破線は（２）式で表される関数の概形を表し、実線は（２）式で表される関数の近似関数の概形を表している。図７は、（２）式で表される関数の近似関数の特徴量を整理して示す図表である。

図６からは、音声対雑音比ｒの範囲を５つの区間に分けただけでも誤差の小さな近似関数が得られることが分かる。実際には、音声対雑音比ｒが小さい部分をより正確に近似する方が好ましい。例えば、区間番号２のテイラー展開の基準点をｒ＝０．１２５として、図７のようにテイラー展開の基準点を前の区間の２倍としながら８つの区間に分ければ、十分良い近似関数が得られる。

第３の実施形態のように雑音スペクトル補正関数ｆＣ（ｒ）を定義することによって、コンピュータなどに実装する際に、第１の実施形態及び第２の実施形態と同等の特性をより、簡単な構成で実現することが可能となる。

第３の実施形態によれば、第１の実施形態及び第２の実施形態に比べてより簡単な構成で同等の特性を得ることができるので、より軽量な演算によって性能を落とすことなく雑音抑圧信号を得ることができる。

（Ｄ）第４の実施形態
次に、本発明に係る雑音抑圧装置、方法及びプログラムの第４の実施形態を、図面を参照しながら説明する。

第４の実施形態に係る雑音抑圧装置の構成も、上述した第１〜第３の実施形態の説明で用いた図１で表すことができる。

しかし、第４の実施形態の場合、雑音スペクトル補正処理部１０５が利用する雑音スペクトル補正関数ｆＣ（ｒ）が第１〜第３の実施形態のものとは異なっている。第４の実施形態における雑音スペクトル補正関数ｆＣ（ｒ）の概形を図８に示している。

第１〜第３の実施形態では、雑音スペクトル補正関数ｆＣ（ｒ）を連続関数によって定義していたのに対して、この第４の実施形態は、音声対雑音比ｒの領域を少なくとも３つ以上の区間に分けて、音声対雑音比ｒに従って雑音スペクトル補正関数ｆＣ（ｒ）の値を段階的に与えることで、雑音スペクトル補正関数ｆＣ（ｒ）を連続関数でない関数によって定義する点が第１〜第３の実施形態とは異なっている。以下、第４の実施形態の雑音スペクトル補正関数ｆＣ（ｒ）について詳しく述べる。

第４の実施形態の雑音スペクトル補正関数ｆＣ（ｒ）を定義するため、音声対雑音比ｒに対する境界値ＢＲ（ｎ）（但し、ｎ＝１，２，…，Ｎ＋１、また、Ｎ≧３）を導入し、ｎ＝１，２，…，Ｎの各境界値ＢＲ（ｎ）に対応する雑音スペクトル補正関数ｆＣ（ｒ）の値ＣＣ（ｎ）を設定する。そして、音声対雑音比ｒがＢＲ（ｎ）≦ｒ＜ＢＲ（ｎ＋１）の範囲内なら、雑音スペクトル補正関数ｆＣ（ｒ）の値を、境界値ＢＲ（ｎ）での雑音スペクトル補正関数ｆＣ（ｒ）の値ＣＣ（ｎ）にするように関数を定義する。但し、雑音スペクトル補正関数ｆＣ（ｒ）が第１の実施形態で述べた雑音スペクトル補正関数の３つの特徴（ア）〜（ウ）を満たすために、ＢＲ（１）＝０、ＣＣ（１）＝０、ＢＲ（Ｎ＋１）＝＋∞、ＣＣ（Ｎ）＝１とし、ｎ＝２，…，Ｎ−１に対して、境界値ＢＲ（ｎ）での雑音スペクトル補正関数ｆＣ（ｒ）の値ＣＣ（ｎ）が０＜ＣＣ（ｎ）＜１の範囲内の値にする。各区間の値の目安として、第１の実施形態で言及した（２）式や、第２の実施形態で言及した（１３−１）式、（１３−２）式を参考にするのは、好ましいことである。

Ｎ＝７による第４の実施形態の雑音スペクトル補正関数ｆＣ（ｒ）の実現例を図８及び図９に示している。図８は、第４の実施形態の雑音スペクトル補正関数ｆＣ（ｒ）の概形を表している。図９は、境界値ＢＲ（ｎ）と、その境界値ＢＲ（ｎ）での雑音スペクトル補正関数ｆＣ（ｒ）の値ＣＣ（ｎ）との対応を示す図表である。

第４の実施形態によれば、第１〜第３の実施形態に比べてより自由に減衰特性を設定することができ、雑音の特徴や環境に対する最適化を行うことができるので、ミュージカルノイズの発生を抑えつつより雑音抑圧性能の高い雑音抑圧信号を得ることができる。

（Ｅ）第５の実施形態
次に、本発明に係る雑音抑圧装置、方法及びプログラムの第５の実施形態を、図面を参照しながら説明する。

図１０は、第５の実施形態の雑音抑圧装置１００Ａの構成を示す機能ブロック図であり、第１の実施形態に係る図１との同一、対応部分には同一、対応符号を付して示している。

図１０において、第５の実施形態の雑音抑圧装置１００Ａは、周波数解析処理部１０１、パワー算出処理部１０２、重み係数算出処理部１１０、雑音スペクトル推定処理部１０４Ａ、雑音スペクトル補正処理部１０５、スペクトルゲイン算出処理部１０６、スペクトルゲイン時間平滑化処理部１０７、フィルタリング処理部１０８及び波形合成処理部１０９を有する。第５の実施形態は、第１の実施形態に比較して、音声信号検出処理部１０３に代わって重み係数算出処理部１１０が設けられている点、雑音スペクトル推定処理部１０４Ａが重み係数算出処理部１１０から与えられた重み係数Ｗ（ｋ）をも適用して雑音スペクトルＰＮ（ｋ）を推定している点が、第１の実施形態とは異なっている。第５の実施形態の雑音スペクトル推定処理部１０４Ａによる、重み係数算出処理部１１０が算出した重み係数を用いた雑音推定方法は公知の既存技術となっており、第５の実施形態は、第１の実施形態以外の既存技術を適用した実施形態になっている。

重み係数算出処理部１１０には、周波数解析処理部１０１から入力スペクトルＰＸ（ｋ）が与えられ、雑音スペクトル推定処理部１０４Ａから推定雑音スペクトルＰＮ（ｋ）が与えられる。重み係数算出処理部１１０は、入力スペクトルＰＸ（ｋ）と前回の推定雑音スペクトルＰＮｐａｓｔ（ｋ；１）とを用いて、今回の音声対雑音比の推定値Ｒｐａｓｔ（ｋ）＝ＰＸ（ｋ）／ＰＮｐａｓｔ（ｋ；１）を算出した後、（１４−１）式〜（１４−３）式によって、推定雑音スペクトルＰＮｐａｓｔ（ｋ；１）が入力スペクトルＰＸ（ｋ）に比較して大きいときほど大きくなる重み係数Ｗ（ｋ）を算出する。（１４−１）式〜（１４−３）式において、Ｒ１とＲ２は事前に定めておく定数であり、例えば、Ｒ１＝１、Ｒ２＝１０を適用することは好ましい態様の一つである。

Ｗ（ｋ）＝１（Ｒｐａｓｔ（ｋ）＜Ｒ１のとき） …（１４−１）
Ｗ（ｋ）＝（Ｒｐａｓｔ（ｋ）−Ｒ２）／（Ｒ１−Ｒ２）
（Ｒ１≦Ｒｐａｓｔ（ｋ）＜Ｒ２のとき） …（１４−２）
Ｗ（ｋ）＝０（Ｒ２≦Ｒｐａｓｔ（ｋ）のとき） …（１４−３）
雑音スペクトル推定処理１１０は、入力スペクトルＰＸ（ｋ）と過去に推定した雑音スペクトルＰＮｐａｓｔ（ｋ；ｍ）と重み係数Ｗ（ｋ）を用いて、雑音スペクトルＰＮ（ｋ）を推定する。具体例としては、Ｗ（ｋ）＊ＰＸ（ｋ）とＰＮｐａｓｔ（ｋ；ｍ）の平均をとる方法を挙げることができる。平均の取り方には任意の方法を適用できるが、例えば、第１の実施形態と同様に、（１５）式に示すような時定数ＴＣＮを用いた方法を適用できる。

ＰＮ（ｋ）＝ＴＣＮ＊ＰＮｐａｓｔ（ｋ；１）
＋（１−ＴＣＮ）＊Ｗ（ｋ）＊ＰＸ（ｋ） …（１５）
第５の実施形態によれば、雑音スペクトルの推定において、第１の実施形態と比べて非定常な雑音への追従特性や音声区間中の雑音の変化への追従特性が優れていることから、より雑音が適切に抑圧されたクリアな雑音抑圧信号を得ることができる。

（Ｆ）他の実施形態
上記第５の実施形態は、第１の実施形態をベースとしながら、雑音スペクトルＰＮ（ｋ）の推定方法を第１の実施形態から変更したものを示したが、第２〜第４の実施形態のいずれかをベースとしながら、雑音スペクトルＰＮ（ｋ）の推定方法をその実施形態の推定方法から、第５の実施形態で言及した方法に変更するようにしても良い。

上記各実施形態では、雑音抑圧装置にデジタル音声信号が入力されるものを示したが、入力スペクトルが雑音抑圧装置に入力される場合にも、本発明を適用することができる。例えば、対向する装置から、通信回線を介して転送されてくる信号が入力スペクトルＸ（ｋ）の場合には、それをデジタル音声信号に変換することなく、雑音抑圧装置に入力するようにしても良い。この場合の雑音抑圧装置は、図１や図１０から周波数解析処理部１０１を省略したものとなる。

上記各実施形態では、ＳＳ法をベースとした雑音抑圧装置を示したが、上記実施形態のようなＳＳ法をベースとした雑音抑圧方法と、他の雑音抑圧方法（例えば、ウィナーフィルタ、コヒーレンスフィルタ、ボイススイッチなど）のいずれか１つ以上とを併用して、雑音抑圧装置を構成するようにしても良い。

１００、１００Ａ…雑音抑圧装置、１０１…周波数解析処理部、１０２…パワー算出処理部、１０３…音声区間検出処理部、１０４、１０４Ａ…雑音スペクトル推定処理部、１０５…雑音スペクトル補正処理部、１０６…スペクトルゲイン算出処理部、１０７…スペクトルゲイン時間平滑化処理部、１０８…フィルタリング処理部、１０９…波形合成処理部、１１０…重み係数算出処理部。

Claims

入力音声を周波数解析した入力スペクトルから、上記入力音声に重畳されている雑音を抑圧する雑音抑圧装置において、
上記入力スペクトルに基づいて雑音スペクトルを推定する雑音スペクトル推定手段と、
推定された上記雑音スペクトルを上記入力スペクトルに応じて補正する雑音スペクトル補正手段と、
上記入力スペクトルと上記雑音スペクトル補正手段が出力する補正雑音スペクトルとを用いて、上記入力スペクトル中の雑音成分を抑制させるためのスペクトルゲインを算出するスペクトルゲイン算出手段と、
上記入力スペクトルに上記スペクトルゲインを乗じて出力スペクトルを得るフィルタリング処理手段とを備え、
上記雑音スペクトル補正手段は、上記入力スペクトルを構成する音声成分と雑音成分に対して、
上記音声成分が上記雑音成分に比べて十分大きい場合には、上記補正雑音スペクトルを推定された上記雑音スペクトルとほぼ同じにし、
上記音声成分が上記雑音成分に比べて小さい又は同程度の場合には、上記入力スペクトルと推定された上記雑音スペクトルとの比に応じて上記補正雑音スペクトルが小さくなるように調整し、
上記音声成分の占める割合が０に近付くと上記補正雑音スペクトルが０に収束するように、推定された上記雑音スペクトルを補正する
ことを特徴とする雑音抑圧装置。
上記雑音スペクトル推定手段は、
上記入力音声を分析して音声区間か雑音区間かを判断し、
上記入力音声が雑音区間である場合には、上記入力スペクトルに基づいて上記雑音スペクトルを推定更新して出力し、
上記入力音声が音声区間である場合には、前回の上記雑音スペクトルの推定値を出力する
ことを特徴とする請求項１に記載の雑音抑圧装置。
上記雑音スペクトル推定手段は、
上記入力スペクトルと過去の上記雑音スペクトルの推定値に基づいて当該入力音声の音声対雑音比を推定し、
推定された上記音声対雑音比によって上記雑音スペクトルの更新幅を制御しながら、上記入力スペクトルに基づいて上記雑音スペクトルを推定更新して出力する
ことを特徴とする請求項１に記載の雑音抑圧装置。
上記雑音スペクトル補正手段は、上記音声成分及び上記雑音成分に応じた所定の雑音スペクトル補正関数を用いて、推定された上記雑音スペクトルを補正し、
上記雑音スペクトル補正関数は、
上記音声成分の上記雑音成分に対する音声対雑音比の単調非減少関数であって、
上記音声対雑音比が０の場合には関数値が０となり、
上記音声対雑音比が無限に大きくなると関数値が１に収束する
ものであることを特徴とする請求項１〜３のいずれかに記載の雑音抑圧装置。
上記雑音スペクトル補正関数には上記音声対雑音比に関する１階の導関数が存在し、
上記１階の導関数は、
単調非増加関数であり、
上記音声対雑音比が０の場合には関数値が１となり、
上記音声対雑音比が無限に大きくなると関数値が０に収束する
ものであることを特徴とする請求項４に記載の雑音抑圧装置。
上記雑音スペクトル補正関数は、上記音声対雑音比に関して無限回微分可能であることを特徴とする請求項５に記載の雑音抑圧装置。
上記雑音スペクトル補正関数ｆＣ（ｒ）は、上記音声対雑音比をｒとして、ｆＣ（ｒ）＝１−ｅｘｐ（ｒ）で表現されることを特徴とする請求項６に記載の雑音抑圧装置。
上記雑音スペクトル補正関数は、上記音声対雑音比が事前に定められた所定の閾値以下の場合には上記音声対雑音比と等しい値をとることを特徴とする請求項４に記載の雑音抑圧装置。
上記雑音スペクトル補正関数には、上記音声対雑音比に関する１階の導関数が存在し、
上記１階の導関数は、
単調非増加関数であり、
上記音声対雑音比が上記閾値以下の場合には関数値が１となり、
上記音声対雑音比が無限に大きくなると関数値が０に収束する
ものであることを特徴とする請求項８に記載の雑音抑圧装置。
上記雑音スペクトル補正関数は、上記音声対雑音比が上記閾値以上の場合には、上記音声対雑音比に関して無限回微分可能であることを特徴とする請求項９に記載の雑音抑圧装置。
上記音声対雑音比ｒに対する０〜１の範囲内の所定の閾値ＴＨＲを事前に定めておき、
上記雑音スペクトル補正関数ｆＣ（ｒ）は、
ｒ≦ＴＨＲの場合にはｆＣ（ｒ）＝ｒであり、
ｒ＞ＴＨＲの場合にはｆＣ（ｒ）＝ＴＨＲ＋（１−ＴＨＲ）＊（１−ｅｘｐ（−（ｒ−ＴＨＲ）／（１−ＴＨＲ）））である
ことを特徴とする請求項１０に記載の雑音抑圧装置。
上記雑音スペクトル補正関数は、
上記音声対雑音比ｒの領域が少なくとも３つ以上の区間に分けられ、
上記各区間内においては１次関数で定義され、
上記１次関数は上記各区間の境界で連続的に接続されている
ことを特徴とする請求項４又は８に記載の雑音抑圧装置。
上記雑音スペクトル補正関数における上記各区間の上記１次関数は、ｆ（ｒ）＝１−ｅｘｐ（ｒ）で表現される関数ｆ（ｒ）を上記区間ごとに線形近似した１次関数であることを特徴とする請求項１２に記載の雑音抑圧装置。
上記音声対雑音比ｒに対する０〜１の範囲内の所定の閾値ＴＨＲを事前に定め、ｒ≦ＴＨＲの場合にはｆ（ｒ）＝ｒであり、ｒ＞ＴＨＲの場合にはｆ（ｒ）＝ＴＨＲ＋（１−ＴＨＲ）＊（１−ｅｘｐ（−（ｒ−ＴＨＲ）／（１−ＴＨＲ）））である関数ｆ（ｒ）を定義したとき、
上記雑音スペクトル補正関数における上記各区間の上記１次関数は、上記関数ｆ（ｒ）を上記区間ごとに線形近似した１次関数である
ことを特徴とする請求項１２に記載の雑音抑圧装置。
上記雑音スペクトル補正関数は、上記音声対雑音比ｒの領域が少なくとも３つ以上の区間に分けられ、上記各区間内において一定値をとることを特徴とする請求項４に記載の雑音抑圧装置。
入力音声を周波数解析した入力スペクトルから、上記入力音声に重畳されている雑音を抑圧する雑音抑圧方法において、
雑音スペクトル推定手段は、上記入力スペクトルに基づいて雑音スペクトルを推定し、
雑音スペクトル補正手段は、推定された上記雑音スペクトルを上記入力スペクトルに応じて補正し、
スペクトルゲイン算出手段は、上記入力スペクトルと上記雑音スペクトル補正手段が出力する補正雑音スペクトルとを用いて、上記入力スペクトル中の雑音成分を抑制させるためのスペクトルゲインを算出し、
フィルタリング処理手段は、上記入力スペクトルに上記スペクトルゲインを乗じて出力スペクトルを取得し
上記雑音スペクトル補正手段は、上記入力スペクトルを構成する音声成分と雑音成分に対して、
上記音声成分が上記雑音成分に比べて十分大きい場合には、上記補正雑音スペクトルを推定された上記雑音スペクトルとほぼ同じにし、
上記音声成分が上記雑音成分に比べて小さい又は同程度の場合には、上記入力スペクトルと推定された上記雑音スペクトルとの比に応じて上記補正雑音スペクトルが小さくなるように調整し、
上記音声成分の占める割合が０に近付くと上記補正雑音スペクトルが０に収束するように、推定された上記雑音スペクトルを補正する
ことを特徴とする雑音抑圧方法。
入力音声を周波数解析した入力スペクトルから、上記入力音声に重畳されている雑音を抑圧する雑音抑圧プログラムであって、
コンピュータを、
上記入力スペクトルに基づいて雑音スペクトルを推定する雑音スペクトル推定手段と、
推定された上記雑音スペクトルを上記入力スペクトルに応じて補正するものであって、上記入力スペクトルを構成する音声成分と雑音成分に対して、上記音声成分が上記雑音成分に比べて十分大きい場合には、上記補正雑音スペクトルを推定された上記雑音スペクトルとほぼ同じにし、上記音声成分が上記雑音成分に比べて小さい又は同程度の場合には、上記入力スペクトルと推定された上記雑音スペクトルとの比に応じて上記補正雑音スペクトルが小さくなるように調整し、上記音声成分の占める割合が０に近付くと上記補正雑音スペクトルが０に収束するように、推定された上記雑音スペクトルを補正する雑音スペクトル補正手段と、
上記入力スペクトルと上記雑音スペクトル補正手段が出力する補正雑音スペクトルとを用いて、上記入力スペクトル中の雑音成分を抑制させるためのスペクトルゲインを算出するスペクトルゲイン算出手段と、
上記入力スペクトルに上記スペクトルゲインを乗じて出力スペクトルを得るフィルタリング処理手段と
して機能させることを特徴とする雑音抑圧プログラム。