JP6554853B2

JP6554853B2 - 雑音抑圧装置及びプログラム

Info

Publication number: JP6554853B2
Application number: JP2015064992A
Authority: JP
Inventors: 大藤枝
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2015-03-26
Filing date: 2015-03-26
Publication date: 2019-08-07
Anticipated expiration: 2035-03-26
Also published as: JP2016184116A

Description

本発明は雑音抑圧装置及びプログラムに関し、例えば、入力信号に含まれる雑音成分を抑圧して音声成分を強調することを欲する通信端末、オーディオ機器、音声認識装置などに適用し得るものである。

自然環境において雑音はいたる所に存在するため、一般に実世界で音声を収録すると、観測信号には種々の発信元からの雑音が混入してしまう。それらの雑音は、人が聴くにしても音声の了解性を低下させ、また、音声認識装置等の音声処理装置に入力するにしても音声処理の精度（例えば音声認識率）を低下させる。そのため、入力信号に混入した雑音成分を抑圧して音声成分を強調する技術の需要は高く、これまでに様々な雑音抑圧方法（音声強調方法と呼ばれることもある）が開発されてきた。

従来技術の説明に先立って、本明細書で使用する用語を定義する。雑音抑圧装置に入力される信号を「入力信号」と呼ぶ。この入力信号を周波数解析したものを「入力周波数スペクトル」と呼び、この入力周波数スペクトルの各要素の絶対値をとったものを「入力振幅スペクトル」と呼び、入力周波数スペクトルの各要素のパワー（例えば絶対値の２乗）を算出したものを「入力パワースペクトル」と呼び、入力周波数スペクトルと入力振幅スペクトルと入力パワースペクトルとを総称して「入力スペクトル」と呼ぶ。また、雑音抑圧装置によって雑音成分が抑圧された信号の各種の周波数特性をそれぞれ、入力信号と同様に、「抑圧後周波数スペクトル」、「抑圧後振幅スペクトル」、「抑圧後パワースペクトル」、「抑圧後スペクトル」と呼ぶ。抑圧後スペクトルから復元された信号波形を「抑圧後信号」と呼ぶ。また、入力信号に含まれる雑音成分の各種の周波数特性を、入力信号と同様に、「雑音振幅スベクトル」、「雑音パワースペクトル」、「雑音スペクトル」と呼ぶ。

雑音抑圧の標準的な方法として、非特許文献１及び非特許文献２に記載されている技術を挙げることができる。非特許文献１の記載技術は、スペクトルサブトラクション（ＳＳ：ＳｐｅｃｔｒａｌＳｕｂｔｒａｃｔｉｏｎ）法と呼ばれる、入力振幅スペクトルから雑音振幅スペクトルを減算する方法である。また、非特許文献２の記載技術は、ＭＭＳＥ−ＳＴＳＡ（ＭｉｎｉｍｕｍＭｅａｎＳｑｕａｒｅＥｒｒｏｒＳｈｏｒｔＴｉｍｅＳｐｅｃｔｒａｌＡｍｐｌｉｔｕｄｅ）法と呼ばれる、音声成分が強調されるように選定されたスペクトルゲインを入力周波数スペクトルに乗算する方法である。

非特許文献１及び非特許文献２の記載方法はいずれも、事前に雑音スペクトルを推定しておく必要がある。推定された雑音スペクトルは必然的に推定誤差を含む。この推定誤差の影響によって、ＳＳ法又はＭＭＳＥ−ＳＴＳＡ法によって雑音成分が抑圧された抑圧後スペクトルには、時間方向及び周波数方向に分散的に点在する成分（孤立周波数成分）が残る。孤立周波数成分は、耳障りなミュージカルノイズとして受聴者に知覚される。

このようなミュージカルノイズを軽減するため、特許文献１及び特許文献２には、入力スペクトルの特性に応じて、相異なる２つの雑音抑圧方法を切り替える技術が記載されている。

特許文献１に記載の装置は、雑音成分が支配的に存在している区間か否かを判定する区間判定部と、第１のグループ数のグループごとに周波数帯域をまとめて雑音成分を抑圧する第１の雑音抑圧部と、第１のグループ数より多い第２のグループ数のグループごとに周波数帯域をまとめて雑音成分を抑圧する第２の雑音抑圧部とを備え、区間判定部が「雑音成分が支配的である」と判定した場合には第１の雑音抑圧部によって雑音成分を抑圧し、区間判定部が「雑音成分が支配的でない」と判定した場合には第２の雑音抑圧部によって雑音成分を抑圧するというものである。第１の雑音抑圧部は、１つのグループにグループ化される周波数帯域数が多く、グループ数が少ない（周波数解像度が低い）ので、孤立周波数成分が生じることを防ぐことができ、その結果としてミュージカルノイズを軽減することができるが、音声成分は歪んでしまう。一方、第２の雑音抑圧部は、１つのグループにグループ化される周波数帯域数が少なく、グループ数が多い（周波数解像度が高い）ので、音声成分は歪み難いが、孤立周波数成分が生じるため、雑音成分が支配的な区間ではミュージカルノイズが生じてしまう。そこで、特許文献１の記載技術は、雑音成分が支配的な区間か否かに応じて、これらの２つの雑音抑圧部を切り替えることで、ミュージカルノイズの発生と音声成分の歪みとの両方を軽減しようとしている。

特許文献２の記載の雑音抑圧装置は、音響信号（スペクトル）の強度の度数分布における尖度が、雑音抑圧処理の前後で変化した度合を示す尖度指標値を算出する尖度指標値算出部と、ＳＳ法を用いる第１の雑音抑圧部と、ＭＭＳＥ−ＳＴＳＡ法を用いる第２の雑音抑圧部とを具備している。尖度指標値は第１の雑音抑圧部と第２の雑音抑圧部との両方に対して算出される。そして、尖度指標値が雑音成分の抑圧後に生じるミュージカルノイズの量と正の相関を有することを利用して、尖度指標値をより小さくできる方の雑音抑圧部を選択する。以上のように、特許文献２の記載技術は、尖度指標値に応じて２つの雑音抑圧部を切り替えることで、ミュージカルノイズの発生を軽減しようとしている。

特開２０１０−０５５０２４号公報特開２０１０−１６０２４６号公報

Ｓ．Ｆ．Ｂｏｌｌ，"Ｓｕｐｐｒｅｓｓｉｏｎｏｆａｃｏｕｓｔｉｃｎｏｉｓｅｉｎｕｓｉｎｇｓｐｅｃｔｒａｌｓｕｂｔｒａｃｔｉｏｎ"，ＩＥＥＥＴｒａｎｓ．，Ａｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，ｖｏｌ．ＡＳＳＰ−２７，ｎｏ．２，ｐ．１１３−１２０，Ａｐｒ．１９７９Ｙ．ＥｐｈｒａｉｍａｎｄＤ．Ｍａｌａｈ，"Ｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔｕｓｉｎｇａｍｉｎｉｍｕｍｍｅａｎ−ｓｑｕａｒｅｅｒｒｏｒｓｈｏｒｔ−ｔｉｍｅｓｐｅｃｔｒａｌａｍｐｌｉｔｕｄｅｅｓｔｉｍａｔｏｒ"，ＩＥＥＥＡＳＳＰ，ｖｏｌ．ＡＳＳＰ−３２，ｎｏ．６，ｐ．１１０３−１１２１，Ｄｅｃ．１９８４

特許文献１及び特許文献２の記載技術はいずれも、全ての周波数帯域で同時に２つの雑音抑圧部間を切り替えるものとなっている。しかしながら、全ての周波数帯域で同時に２つの雑音抑圧部間を切り替えると、切り替わった瞬間に抑圧後スペクトルの特性が急激に変化するため、不自然な音響信号として受聴者に知覚されるという問題が生じ得る。

また、特許文献１の記載技術は、周波数帯域を２つにグループ化し、グループ内で共通の処理を行うものである。そうすると、隣り合う２つのグループの抑圧特性が大きく異なるため、最終的に得られる抑圧後信号は歪んでしまうという問題が生じ得る。

さらに、特許文献２の記載技術は、多かれ少なかれミュージカルノイズを生じる雑音抑圧部を切り替えているだけなので、ミュージカルノイズを完全に抑圧することはできないという問題も生じ得る。

そのため、抑圧ゲインの切り替わりを受聴者に感じさせずに、ミュージカルノイズの発生を抑えることができる雑音抑圧装置及びプログラムが望まれている。

上記課題を解決するため、第１の本発明は、入力信号に含まれる雑音成分を抑圧して目的音成分を強調する雑音抑圧装置において、（１）入力信号を周波数解析して入力スペクトルを算出する周波数解析手段と、（２）上記周波数解析手段が算出した入力スペクトルのいずれかの周波数帯域に対応し、その周波数帯域の要素における雑音成分を抑圧して抑圧後スペクトルの要素を算出する、複数の帯域別雑音抑圧手段と、（３）上記各帯域別雑音抑圧手段の内部で利用される、時間方向及び周波数方向に滑らかな特性を有する歪無ゲインを出力する歪無ゲイン供給手段とを備え、（２）上記各帯域別雑音抑圧手段は、（２−１）上記入力スペクトルの要素について算出された第１の入力パワーに基づいて第１の雑音環境情報を得る第１の雑音環境分析手段と、（２−２）上記入力スペクトルの要素について算出された第２の入力パワーに基づいて第２の雑音環境情報を得る第２の雑音環境分析手段と、（２−３）上記第１の雑音環境情報及び上記第２の雑音環境情報の少なくとも一方に基づいて、雑音パワー推定値と、上記周波数帯域の要素が目的音成分を含むか否かの目的音判定情報とを少なくとも含む統合雑音環境情報を得る情報統合手段と、（２−４）上記入力スペクトルの要素と上記統合雑音環境情報とに基づいて、雑音抑圧に適用可能な抑圧ゲインを得る抑圧ゲイン算出手段と、（２−５）上記統合雑音環境情報に基づいて、上記抑圧ゲインと上記歪無ゲインとから、最終的に雑音抑圧に用いる最終抑圧ゲインを決定する最終抑圧ゲイン決定手段と、（２−６）上記入力スペクトルの要素に上記最終抑圧ゲインを乗算して抑圧後スペクトルの要素を得る乗算手段とを備え、（２−１）上記各第１の雑音環境分析手段は、同一の上記帯域別雑音抑圧手段に設けられている上記第２の雑音環境分析手段が所定の単位時間前に出力した上記第２の雑音環境情報を用いて第１の雑音環境情報を得るものであり（２−２）上記各第２の雑音環境分析手段は、同一の上記帯域別雑音抑圧手段に設けられている上記第１の雑音環境分析手段が同一の単位時間内に出力した上記第１の雑音環境情報を用いて第２の雑音環境情報を得るものであることを特徴とする。

第２の本発明は、入力信号に含まれる雑音成分を抑圧して目的音成分を強調する雑音抑圧プログラムであって、コンピュータを、（１）入力信号を周波数解析して入力スペクトルを算出する周波数解析手段と、（２）上記周波数解析手段が算出した入力スペクトルのいずれかの周波数帯域に対応し、その周波数帯域の要素における雑音成分を抑圧して抑圧後スペクトルの要素を算出する、複数の帯域別雑音抑圧手段と、（３）上記各帯域別雑音抑圧手段の内部で利用される、時間方向及び周波数方向に滑らかな特性を有する歪無ゲインを出力する歪無ゲイン供給手段として機能させるものであり、（２）上記各帯域別雑音抑圧手段は、（２−１）上記入力スペクトルの要素について算出された第１の入力パワーに基づいて第１の雑音環境情報を得る第１の雑音環境分析手段と、（２−２）上記入力スペクトルの要素について算出された第２の入力パワーに基づいて第２の雑音環境情報を得る第２の雑音環境分析手段と、（２−３）上記第１の雑音環境情報及び上記第２の雑音環境情報の少なくとも一方に基づいて、雑音パワー推定値と、上記周波数帯域の要素が目的音成分を含むか否かの目的音判定情報とを少なくとも含む統合雑音環境情報を得る情報統合手段と、（２−４）上記入力スペクトルの要素と上記統合雑音環境情報とに基づいて、雑音抑圧に適用可能な抑圧ゲインを得る抑圧ゲイン算出手段と、（２−５）上記統合雑音環境情報に基づいて、上記抑圧ゲインと上記歪無ゲインとから、最終的に雑音抑圧に用いる最終抑圧ゲインを決定する最終抑圧ゲイン決定手段と、（２−６）上記入力スペクトルの要素に上記最終抑圧ゲインを乗算して抑圧後スペクトルの要素を得る乗算手段とを備え、（２−１）上記各第１の雑音環境分析手段は、同一の上記帯域別雑音抑圧手段に設けられている上記第２の雑音環境分析手段が所定の単位時間前に出力した上記第２の雑音環境情報を用いて第１の雑音環境情報を得るものであり（２−２）上記各第２の雑音環境分析手段は、同一の上記帯域別雑音抑圧手段に設けられている上記第１の雑音環境分析手段が同一の単位時間内に出力した上記第１の雑音環境情報を用いて第２の雑音環境情報を得るものであることを特徴とする。

本発明によれば、抑圧ゲインの切り替わりによる不自然さなしに、歪み（ミュージカルノイズを含む）を生じさせずに雑音成分を抑圧して音声成分を強調できる雑音抑圧装置及びプログラムを提供できる。

第１の実施形態の雑音抑圧装置の構成を示すブロック図である。第１の実施形態の雑音抑圧装置における第１の雑音環境分析部の詳細構成を示すブロック図である。第１の実施形態の雑音抑圧装置における第２の雑音環境分析部の詳細構成を示すブロック図である。第１の実施形態の雑音抑圧装置におけるゲイン平滑化部の平滑化方法の説明図（その１）である。第１の実施形態の雑音抑圧装置におけるゲイン平滑化部の平滑化方法の説明図（その２）である。第１の実施形態の雑音抑圧装置におけるゲイン平滑化部の平滑化方法の説明図（その３）である。第１の実施形態の雑音抑圧装置におけるゲイン平滑化部の平滑化方法の説明図（その４）である。第１の実施形態の雑音抑圧装置における第１の雑音環境分析部の各部信号波形及び判定結果を示す説明図である。第１の実施形態の雑音抑圧装置における第２の雑音環境分析部の各部信号波形及び判定結果を示す説明図である。第１の実施形態を変形した実施形態の雑音抑圧装置の構成を示すブロック図である。第２の実施形態の雑音抑圧装置の構成を示すブロック図である。第３の実施形態の雑音抑圧装置の構成を示すブロック図である。第４の実施形態の雑音抑圧装置における第１の雑音環境分析部の詳細構成を示すブロック図である。第４の実施形態の雑音抑圧装置における第１の雑音環境分析部の各部信号波形及び判定結果を示す説明図である。第４の実施形態の雑音抑圧装置における第２の雑音環境分析部の各部信号波形及び判定結果を示す説明図である。

（Ａ）各実施形態に共通する技術思想
まず、後述する複数の実施形態の雑音抑圧装置で共通する技術思想、すなわち、抑圧ゲインの切り替わりを受聴者に感じさせずにミュージカルノイズの発生を抑えられるようにした考え方を説明する。

ミュージカルノイズは、入力信号では知覚されず、抑圧後信号で知覚される。つまり、ミュージカルノイズが雑音抑圧によって生じているのは明らかであるから、ミュージカルノイズが生じる原因は抑圧ゲインにある。ミュージカルノイズは孤立周波数成分であり、孤立周波数成分を生じさせる抑圧ゲインは、時間方向と周波数方向に急激に変化する（例えば、所定時間でなる単位時間の１つ又は／及び所定帯域でなる単位周波数帯域の１つの間に十数ｄＢ以上変化するような）特性を有するはずである。逆に言えば、抑圧ゲインが時間方向と周波数方向に滑らかな特性を有していれば、ミュージカルノイズは生じない。また、滑らかな特性を有するゲインは、やや局所的な範囲（例えば、３〜１０程度の単位時間及び周波数帯域）で見れば、音量を変化させているだけと見なせる。従って、滑らかな特性を有するゲインは、ミュージカルノイズだけでなくあらゆる歪みを生じさせない。以下、時間方向と周波数方向に滑らかな特性を有するゲインを歪無ゲインと呼ぶ。

歪無ゲインは、歪みを生じさせない反面、音声成分をも減衰させてしまう。従って、音声成分を強調するためには、音声成分が存在する場合に異なる抑圧ゲインを用いる必要がある。しかし、特許文献１及び特許文献２の記載技術のように全周波数帯域で同時にゲインを切り替えると、不自然な音響信号となってしまう。そもそも音声成分は、全周波数帯域に同時に存在するわけではなく、むしろごく一部の周波数帯域だけに存在する。そこで、ゲインを切り替えるタイミングを周波数帯域ごとに適切に行うことで、不自然な音響信号となることを回避できる。

ゲインの切り替えのためには、各周波数帯域において、当該時刻の入力スペクトル要素が音声成分を含むか否か（有音か否か）を判定する必要がある。このような判定技術は一般に音声区間検出という名で知られている。抑圧後の歪みを抑えながら音声を強調するためには、周波数帯域ごとの音声区間検出には高い精度が要求される。高精度な音声区間検出の多くは「検出対象の信号」の周波数特性を用いる（例えば、零交差比も周波数特性を陽に求めるものではないが、高域通過フィルタ出カのパワーと正の相関を有するので、周波数特性を表すパラメータと言える）。しかし、ここでの「検出対象の信号」は各周波数帯域の入力スペクトル要素であるから、その周波数特性を得ることは意味をなさない。従って、ここでは入力スペクトル要素のパワーのみを用いて音声区間検出を行う必要があるが、パワーのみを用いる音声区間検出は精度が低いことが知られている。

パワーのみを用いる音声区間検出の精度が低い原因は、以下の通りである。入力された入力パワーが音声成分を含むか否かは、雑音パワーと比較することで判定できる。雑音パワーは未知ゆえに推定しなければならない。そして、雑音パワーを推定するためには、当該パワーが音声成分を含むか否か、又は、音声成分をどの程度含んでいるかを知る必要があり、論理が循環してしまう。ここで、推定する雑音パワーを瞬時値でなく所定期間（例えば０．２〜１秒）の平均値であるとすると、雑音パワーは１単位時間では大きく変化しないので、現在の雑音パワーの代わりに１単位時間前の推定雑音パワーを用いることで、当該入力パワーが音声成分を含むかどうかを判定でき、得られた判定結果に基づいて雑音パワーを推定することができる。しかし、推定雑音パワーが所定期間の平均値であっても１単位時間の遅延は無視できず、さらには平均していない真の雑音成分は小刻みに変動している。従って、当該入力パワーが１単位時間前の推定雑音パワーより大きい場合にも、確実に音声成分が含まれているとは言えず、結果として精度の高い音声区間検出が困難となる。

そこで、本発明の各実施形態では、雑音パワーや音声区間などの雑音環境を分析するモジュールを２つ用意し、モジュールごとに得られた雑音環境情報を２つのモジュール間で交換し合い、得られた２組の雑音環境情報を効果的に統合することで、上述した音声区間検出の低精度問題を克服する。各モジュールは互いが出力する雑音環境情報を必要とするため同時には実行できず、順次実行することとなる。すなわち、先に実行されるモジュールＭ１は後に実行されるモジュールＭ２が１単位時間前に出力した雑音環境情報を利用し、モジュールＭ２はモジュールＭ１が同一の単位時間内に出力した雑音環境情報を利用する。

このように２つのモジュールに情報を交換させる方法は、概ね、次のような３つのメリットを生む。第１に、モジュールＭ２はモジュールＭ１から与えられる遅延のない雑音環境情報を利用できるため、モジュールＭ２における雑音環境情報の推定精度が向上する。第２に、モジュールＭ１がモジュールＭ２から与えられる雑音環境情報は上述した通り高い推定精度を有するため、モジュールＭ１における雑音環境情報の推定精度も向上する。第３に、モジュールＭ１及びモジュールＭ２のパラメータ及び構成の少なくとも一方に違いを持たせることにより、推定の観点（すなわち、雑音環境情報の情報量）を増やすことができ、モジュールＭ１やモジュールＭ２における雑音環境情報の推定精度や、統合された雑音環境情報の推定精度が向上する。

なお、歪無ゲインは、時間方向と周波数方向に滑らかな特性を有していれば、雑音成分抑圧後の歪みを抑えることができる。しかし、歪無ゲインと音声成分に対する抑圧ゲインとの特性差が大きいと、音声成分の歪みが強調されてしまう。そこで、歪無ゲインは抑圧ゲインと関連を持つ方が良く、特に、抑圧ゲインを時間方向と周波数方向に十分平滑化した値を歪無ゲインとする方法が好適である。

（Ｂ）第１の実施形態
以下、本発明による雑音抑圧装置及びプログラムの第１の実施形態を、図面を参照しながら説明する。

（Ｂ−１）第１の実施形態の構成
図１は、第１の実施形態の雑音抑圧装置の構成を示すブロック図である。

第１の実施形態の雑音抑圧装置は、図１で示す構成部分をハードウェアで構成することも可能であり、また、ＣＰＵが実行するソフトウェア（雑音抑圧プログラム）とＣＰＵとで実現することも可能であるが、いずれの実現方法を採用した場合であっても、機能的には図１で表すことができる。

図１において、第１の実施形態の雑音抑圧装置１００は、周波数解析部１０１、帯域別雑音抑圧部１０２−１〜１０２−Ｋ、ゲイン平滑化部１０３及び波形復元部１０４を有する。

周波数解析部１０１は、入力信号を周波数解析して周波数スペクトルを算出し、得られた入力スペクトルを帯域別雑音抑圧部１０２−１〜１０２−Ｋに与えるものである。周波数解析には、例えば、高速フーリエ変換（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ：ＦＦＴ）やウェーブレット変換やフィルタバンクなどを適用することができるが、ＦＦＴが好適である。以下では、入力スペクトルは複素数で与えられるものとする。

帯域別雑音抑圧部１０２−１〜１０２−Ｋは、周波数解析部１０１によって得られるスペクトル（周波数帯域）の数（Ｋ）だけ設けられている。以下、各帯域別雑音抑圧部１０２−１〜１０２−Ｋへの入力スペクトルの各要素Ｘ_１〜Ｘ_Ｋを入力周波数要素と呼ぶこととする。

各帯域別雑音抑圧部１０２−１〜１０２−Ｋ（以下、枝番「１」〜「Ｋ」を適宜省略して説明する）は、入力される入力周波数要素は異なるが同様な構成を有する。帯域別雑音抑圧部１０２は、自己への入力周波数要素に対して後述するような雑音抑圧を行って、得られた抑圧後周波数要素Ｙ（Ｙ_１〜Ｙ_Ｋ）を波形復元部１０４に与える。

ゲイン平滑化部１０３には、全ての帯域別雑音抑圧部１０２−１〜１０２−Ｋの内部で後述するように算出された抑圧ゲインが与えられる。ゲイン平滑化部１０３は、複数の抑圧ゲインを用いて、抑圧ゲインを時間方向と周波数方向に平滑化し、各帯域別雑音抑圧部１０２−１〜１０２−Ｋ用の後述の歪無ゲインを得て帯域別雑音抑圧部１０２−１〜１０２−Ｋに返すものである。ゲイン平滑化部１０３によるゲイン平滑化の詳細については、後述する動作の項の説明で明らかにする。

波形復元部１０４は、全ての帯域別雑音抑圧部１０２−１〜１０２−Ｋから与えられた抑圧後周波数要素Ｙ_１〜Ｙ_Ｋで成る抑圧後周波数スペクトルを時間領域の信号に変換し、得られた抑圧後信号を、当該雑音抑圧装置１００の出力として次段に出力するものである。時間領域の信号への変換は、周波数解析部１０１で用いた周波数解析技術と対をなす方法を用いる。例えば、周波数解析技術がＦＦＴであれば時間領域の信号への変換には逆高速フーリエ変換（ＩｎｖｅｒｓｅＦＦＴ；ＩＦＦＴ）を用いる。

なお、次段の処理部が、周波数領域の信号を取扱うものである場合には、波形復元部１０４を省略するようにすれば良い。

各帯域別雑音抑圧部１０２はそれぞれ、第１の雑音環境分析部１１０、第２の雑音環境分析部１１１、遅延部１１２、情報統合部１１３、抑圧ゲイン算出部１１４、ゲイン選択部１１５及び乗算部１１６を有する。

帯域別雑音抑圧部１０２に与えられた入力周波数要素Ｘは、第１の雑音環境分析部１１０、第２の雑音環境分析部１１１、抑圧ゲイン算出部１１４及び乗算部１１６に与えられる。

第１の雑音環境分析部１１０は、入力周波数要素Ｘと第２の雑音環境分析部１１１から遅延部１１２を介して与えられた第２の雑音環境情報ＮＩ２とに基づいて雑音環境を推定し、得られた第１の雑音環境情報ＮＩ１を第２の雑音環境分析部１１１及び情報統合部１１３に与える。第１の雑音環境情報ＮＩ１は、音声又は雑音のパワーの推定値である第１の平滑化パワーＰ１と、入力周波数要素Ｘが音声成分を含むか否かを判定した第１の判定結果ＳＬ１とを少なくとも含む。第１の雑音環境分析部１１０の詳細な機能については後述する。

第２の雑音環境分析部１１１は、入力周波数要素Ｘと第１の雑音環境分析部１１０から与えられた第１の雑音環境情報ＮＩ１とに基づいて雑音環境を推定し、得られた第２の雑音環境情報ＮＩ２を、遅延部１１２を介して第１の雑音環境分析部１１０に与えると共に、上述した第２の雑音環境情報ＮＩ２を情報統合部１１３に与える。第２の雑音環境情報ＮＩ２は、雑音又は音声のパワーの推定値である第２の平滑化パワーＰ２と、入力周波数要素Ｘが音声成分を含むか否かを判定した第２の判定結果ＳＬ２とを少なくとも含む。第２の雑音環境分析部１１１の詳細な機能については後述する。

情報統合部１１３は、第１の雑音環境情報ＮＩ１と第２の雑音環境情報ＮＩ２とを統合し、得られた推定雑音パワーＰＮを抑圧ゲイン算出部１１４に与えると共に、得られた音声区間判定結果ＳＬをゲイン選択部１１５に与える。情報統合部１１３の詳細な機能については後述する。

抑圧ゲイン算出部１１４は、入力周波数要素Ｘと推定雑音パワーＰＮとに基づいて雑音成分を抑圧して音声成分を強調する抑圧ゲインＧＳを算出し、得られた抑圧ゲインＧＳをゲイン平滑化部１０３及びゲイン選択部１１５に与える。帯域別雑音抑圧部１０２における雑音抑圧技術として、公知の雑音抑圧技術を用いることができ、例えば、ＳＳ法やウィナーフィルタ、ＭＭＳＥ−ＳＴＳＡ法、事後確率最大化に基づく方法などを適用することができる。抑圧ゲイン算出部１１４は、適用している雑音抑圧技術によって定まる公知の算出方法を適用して抑圧ゲインＧＳを算出する。なお、第１の実施形態（他の実施形態も同様）によれば、いかなる雑音抑圧技術を用いても歪み（ミュージカルノイズを含む）を生じさせないので、処理量の少ないＳＳ法又は雑音抑圧性能の高いウィナーフィルタが好適に用いられる。

ゲイン選択部１１５は、最終抑圧ゲイン決定部として設けられたものであり、情報統合部１１３から与えられた音声区間判定結果ＳＬに基づいて、抑圧ゲイン算出部１１４からの抑圧ゲインＧＳ又はゲイン平滑化部１０３からの歪無ゲインＧＦの一方を選択し、得られた雑音抑圧に適用される最終的な抑圧ゲイン（以下、最終抑圧ゲインと呼ぶ）ＧＣを乗算部１１６に与えるものである。具体的には、ゲイン選択部１１５は、音声区間判定結果ＳＬが音声区間であれば最終抑圧ゲインＧＣとして抑圧ゲインＧＳを選択し、音声区間判定結果ＳＬが音声区間でなければ最終抑圧ゲインＧＣとして歪無ゲインＧＦを選択する。

乗算部１１６は、入力周波数要素Ｘに最終抑圧ゲインＧＣを乗じ、得られた抑圧後周波数要素Ｙを波形復元部１０４に与える。

図２は、第１の雑音環境分析部１１０の詳細構成例を示すブロック図である。図２において、第１の雑音環境分析部１１０は、第１のパワー算出部２０１、第１のパワー平滑化部２０２、第１の閾値算出部２０３及び第１の比較部２０４を有する。

第１の雑音環境分析部１１０に与えられた入力周波数要素Ｘは、第１のパワー算出部２０１に与えられ、第１の雑音環境分析部１１０に与えられた第２の雑音環境情報ＮＩ２のうち第２の判定結果ＳＬ２は、第１のパワー平滑化部２０２に与えられる。

第１のパワー算出部２０１は、入力周波数要素Ｘのパワーを算出し、得られた第１の入力パワーＰＸ１を第１のパワー平滑化部２０２及び第１の比較部２０４に与える。ここで、入力周波数要素Ｘのパワーの算出方法は限定されるものではなく、例えば、入力周波数要素Ｘの絶対値の２乗をパワーとして算出するようにしても良く、また、入力周波数要素Ｘの絶対値をパワーとして算出するようにしても良い。

第１のパワー平滑化部２０２は、第２の判定結果ＳＬ２に基づいて第１の入力パワーＰＸ１を時間方向に平滑化し、得られた第１の平滑化パワーＰ１を第１の閾値算出部２０３に与える。第１のパワー平滑化部２０２は、第２の判定結果ＳＬ２が真値（すなわち、音声区間を表す値）であるときには第１の入力パワーＰＸ１を平滑化して第１の平滑化パワーＰ１を更新し、第２の判定結果ＳＬ２が偽値（すなわち、雑音区間を表す値）であるときには第１の平滑化パワーＰ１を更新しない。従って、第１の平滑化パワーＰ１が意味するのは音声パワーの平滑化値（音声パワーの平均的な値）である。なお、平滑化方法や平滑化構成は何ら限定されるものではない。例えば、第１のパワー平滑化部２０２は、時定数が０．８秒の時定数フィルタを用いて平滑化する。

第１の閾値算出部２０３は、第１の平滑化パワーＰ１に０より大きく１以下の値をとる所定の定数係数Ｃ１（以下、第１の係数と呼ぶ）を乗じて、第１の入力パワーＰＸ１と比較する第１の閾値Ｈ１を形成して第１の比較部２０４に与える。音声パワーと雑音パワーとを切り分けるための第１の閾値Ｈ１を定めるために音声パワーの平均的な値を意味する第１の平滑化パワーＰ１に乗算される第１の係数Ｃ１の値は、限定されるものではないが、例えば０．５を適用することができる。

第１の比較部２０４は、第１の閾値Ｈ１と第１の入力パワーＰＸ１とを比較して、入力周波数要素Ｘに音声成分が含まれているか否かを判定し、第１の判定結果ＳＬ１を出力する。第１の比較部２０４は、第１の入力パワーＰＸ１が第１の閾値Ｈ１より大きければ第１の判定結果ＳＬ１として真値を出力し、そうでなければ偽値を出カする。

なお、第１の閾値Ｈ１と第１の入力パワーＰＸ１とを比較する際にハングオーバー動作を実行するようにしても良い。以下、ハングオーバー動作について説明する。第１の比較部２０４に関して、最後に真値が出力されてからの経過時間ＴＥに対する所定のハングオーバー時間ＴＨを定めておく。第１の比較部２０４は、第１の閾値Ｈ１と第１の入力パワーＰＸ１を比較した際、（ｉ）ＰＸ１＞Ｈ１である場合には真値の第１の判定結果ＳＬ１を出力すると共に経過時間ＴＥを０にクリアし、（ｉｉ）ＰＸ１≦Ｈ１かつＴＥ≦ＴＨである場合には真値の第１の判定結果ＳＬ１を出力すると共に経過時間ＴＥを１単位時間分だけインクリメントし、（ｉｉｉ）ＰＸ１≦Ｈ１かつＴＥ＞ＴＨである場合には偽値の第１の判定結果ＳＬ１を出力する。なお、好適なハングオーバー時間については後述する。

図３は、第２の雑音環境分析部１１１の詳細構成例を示すブロック図である。図３において、第２の雑音環境分析部１１１、第２のパワー算出部３０１、第２のパワー平滑化部３０２、第２の閾値算出部３０３及び第２の比較部３０４を有する。

第２の雑音環境分析部１１１に与えられた入力周波数要素Ｘは、第２のパワー算出部３０１に与えられ、第２の雑音環境分析部１１１に与えられた第１の雑音環境情報ＮＩ１のうち第１の判定結果ＳＬ１は、第２のパワー平滑化部３０２に与えられる。

第２のパワー算出部３０１は、入力周波数要素Ｘのパワーを算出し、得られた第２の入力パワーＰＸ２を第２のパワー平滑化部２０２及び第２の比較部２０４に与える。ここで、入力周波数要素Ｘのパワーの算出方法は限定されるものではなく、例えば、入力周波数要素Ｘの絶対値の２乗をパワーとして算出するようにしても良く、また、入力周波数要素Ｘの絶対値をパワーとして算出するようにしても良い。また、第２のパワー算出部３０１で用いられるパワー算出方法は、第１のパワー算出部２０１と同じとするのが好適だが、異なる方法を用いても良い。

第２のパワー平滑化部３０２は、第１の判定結果ＳＬ１に基づいて第２の入力パワーＰＸ２を時間方向に平滑化し、得られた第２の平滑化パワーＰ２を第２の閾値算出部３０３に与える。第２のパワー平滑化部３０２は、第１の判定結果ＳＬ１が偽値（すなわち、雑音区間を表す値）であるときには第２の入力パワーＰＸ２を平滑化して第２の平滑化パワーＰ２を更新し、第１の判定結果ＳＬ１が真値（すなわち、音声区間を表す値）であるときには第２の平滑化パワーＰ２を更新しない。従って、第２の平滑化パワーＰ２が意味するのは雑音パワーの平滑化値（雑音パワーの平均的な値）である。なお、平滑化方法や平滑化構成は何ら限定されるものではない。例えば、第２のパワー平滑化部は、時定数が０．２秒の時定数フィルタを用いて平滑化する。

第２の閾値算出部３０３は、第２の平滑化パワーＰ２に１以上の値をとる所定の定数係数Ｃ２（以下、第２の係数と呼ぶ）を乗じて、第２の入力パワーＰＸ２と比較する第２の閾値Ｈ２を形成して第２の比較部３０４に与える。音声パワーと雑音パワーとを切り分けるための第２の閾値Ｈ２を定めるために音声パワーの平均的な値を意味する第２の平滑化パワーＰ２に乗算される第２の係数Ｃ２の値は、限定されるものではないが、例えば２．０を適用することができる。

第２の比較部３０４は、第２の閾値Ｈ２と第２の入力パワーＰＸ２とを比較して、入力周波数要素Ｘに音声成分が含まれているか否かを判定し、第２の判定結果ＳＬ２を出力する。第２の比較部３０４は、第２の入力パワーＰＸ２が第２の閾値Ｈ２より大きければ第２の判定結果ＳＬ２として真値を出力し、そうでなければ偽値を出力する。

なお、第１の比較部２０４と同様に、第２の比較部３０４においても、第２の閾値Ｈ２と第２の入力パワーＰＸ２Ｈ２とを比較する際に、ハングオーバー動作を実行するようにしても良い。第２の比較部３０４におけるハングオーバー動作は、第１の比較部２０４におけるハングオーバー動作と同様なので、その説明を省略する。なお、好適なハングオーバー時間については後述する。

次に、第１の比較部２０４及び第２の比較部３０４のそれぞれの好適なハングオーバー時間について説明する。

第１の比較部２０４が出力した第１の判定結果ＳＬ１は、雑音パワーの平均的な値を推定するために第２のパワー平滑化部３０２に与えられる。入力周波数要素Ｘが音声成分を含んでいるのに第１の入力パワーＰＸ１を平滑化してしまう誤りを回避するために、第１の比較部２０４ではハングオーバー動作を実施して音声区間の誤棄却率を減少させることが望ましく、例えば、ハングオーバー時間を０．２秒とするのが好適である。

第２の比較部３０４が出力した第２の判定結果ＳＬ２は、音声パワーの平均的な値を推定するために第１のパワー平滑化部２０２に与えられる。入力周波数要素Ｘが音声成分を含んでいないのに第２の入力パワーＰＸ２を平滑化してしまう誤りを回避するために、第２の比較部３０４ではハングオーバー時間を短く設定するか、ハングオーバー動作を実施しないことで、音声区間の誤受理率を減少させることが望ましい。

次に、情報統合部１１３における具体的な機能を、推定雑音パワーＰＮの決定と、音声区間判定結果ＳＬの決定とに分けて詳細に説明する。

第１の実施形態においては、第２のパワー平滑化部３０２で算出される第２の平滑化パワーＰ２が雑音パワーの平均的な値の推定値を表していることから、情報統合部１１３が、第２の平滑化パワーＰ２をそのまま推定雑音パワーＰＮとして決定に算出するのが最適である。なお、第２の平滑化パワーＰ２を更に時間方向に平滑化した値を推定雑音パワーＰＮとすることも好適である。

第２の判定結果ＳＬ２は、同一の単位時間内に算出された第１の雑音環境情報ＮＩ１に基づいて音声区間を推定していることから、推定精度の点で第１の判定結果ＳＬ１に勝り、音声区間判定結果ＳＬとして第２の判定結果ＳＬ２をそのまま適用することが好適である。なお、音声区間判定結果ＳＬの決定方法はこれに限定されるものでなく、例えば、音声区間判定結果ＳＬとして第１の判定結果ＳＬ１をそのまま適用しても良く、また、第１の判定結果ＳＬ１と第２の判定結果ＳＬ２の論理和（ＳＬ１＋ＳＬ２と書くこととする）や論理積（ＳＬ１×ＳＬ２と書くこととする）を音声区間判定結果ＳＬとするようにしても良い。また、一旦得た統合結果（ＳＬ１、ＳＬ２、ＳＬ１＋ＳＬ２、又はＳＬ１×ＳＬ２）に対して、ハングオーバー動作を実行して最終的な音声区間判定結果ＳＬを得るようにしても良い。

（Ｂ−２）第１の実施形態の動作
次に、上述した構成を有する第１の実施形態の雑音抑圧装置１００の動作を説明する。まず、第１の実施形態の雑音抑圧装置１００の全体動作を説明した後、各帯域別雑音抑圧部１０２及びゲイン平滑化部１０３の動作を説明し、さらに、第１の雑音環境分析部１１０及び雑音環境分析部１１１の動作を説明する。

図１において、第１の実施形態の雑音抑圧装置１００への入力信号は周波数解析部１０１に与えられ、周波数解析部１０１において、入力信号は周波数解析されて入力周波数スペクトルが算出され、得られた入力周波数スペクトルの各要素である入力周波数要素Ｘ（Ｘ_１〜Ｘ_Ｋ）がそれぞれ帯域別雑音抑圧部１０２（１０２−１〜１０２−Ｋ）に与えられる。

各帯域別雑音抑圧部１０２においては、自己へ入力された入力周波数要素Ｘに対して雑音抑圧を行って、得られた抑圧後周波数要素Ｙが波形復元部１０４に与えられる。

波形復元部１０４において、全ての帯域別雑音抑圧部１０２−１〜１０２−Ｋから与えられた抑圧後周波数要素Ｙ_１〜Ｙ_Ｋで成る抑圧後周波数スペクトルが時間領域の信号に変換され、得られた抑圧後周波数スペクトルが、当該雑音抑圧装置１００の次段に出力される。

次に、各帯域別雑音抑圧部１０２及びゲイン平滑化部１０３の動作を説明する。

第１の雑音環境分析部１１０においては、入力周波数要素Ｘと第２の雑音環境分析部１１１から遅延部１１２を介して与えられた第２の雑音環境情報ＮＩ２とに基づいて、雑音環境が推定され、得られた第１の雑音環境情報ＮＩ１が第２の雑音環境分析部１１１及び情報統合部１１３に与えられる。

また、第２の雑音環境分析部１１１においては、入力周波数要素Ｘと第１の雑音環境分析部１１０から与えられた第１の雑音環境情報ＮＩ１とに基づいて、雑音環境が推定され、得られた第２の雑音環境情報ＮＩ２が、遅延部１１２を介して第１の雑音環境分析部１１０に与えられると共に、上述した第２の雑音環境情報ＮＩ２が情報統合部１１３に与えられる。

情報統合部１１３においては、第１の雑音環境情報ＮＩ１と第２の雑音環境情報ＮＩ２とが統合され、統合により得られた推定雑音パワーＰＮが抑圧ゲイン算出部１１４に与えられ、統合により得られた音声区間判定結果ＳＬがゲイン選択部１１５に与えられる。

抑圧ゲイン算出部１１４においては、入力周波数要素Ｘと推定雑音パワーＰＮとに基づいて、雑音成分を抑圧して音声成分を強調する抑圧ゲインＧＳが算出され、得られた抑圧ゲインＧＳがゲイン平滑化部１０３及びゲイン選択部１１５に与えられる。

ゲイン平滑化部１０３においては、各帯域別雑音抑圧部１０２の抑圧ゲイン算出部１１４から与えられた抑圧ゲインＧＳ_１〜ＧＳ_Ｋが時間方向及び周波数方向に平滑化され、得られた歪無ゲインＧＦ_１〜ＧＦ_Ｋが各帯域別雑音抑圧部１０２のゲイン選択部１１５に与えられる。ここでは便宜上、ＧＳ及びＧＦに周波数帯域を規定する枝番を付して、それぞれＧＳ_１〜ＧＳ_Ｋ及びＧＦ_１〜ＧＦ_Ｋと書くこととする。

ゲイン選択部１１５においては、音声区間判定結果ＳＬが音声区間であれば最終抑圧ゲインＧＣとして抑圧ゲインＧＳが選択され、音声区間判定結果ＳＬが音声区間でなければ最終抑圧ゲインＧＣとして歪無ゲインＧＦが選択されて、乗算部１１６に与えられる。

乗算部１１６においては、入力周波数要素Ｘに最終抑圧ゲインＧＣが乗算され、得られた抑圧後周波数要素Ｙが波形復元部１０４に与えられる。

抑圧ゲインＧＳを時間方向及び周波数方向に平滑化できる方法であれば、ゲイン平滑化部１０３における平滑化方法として任意の方法が適用できる。この平滑化方法として、まず周波数方向に平滑化した後、続いて時間方向に平滑化する方法が好適である。

好適な具体的な平滑化方法は、以下のような４つの手順ＰＲ１〜ＰＲ４を有する。すなわち、手順ＰＲ１；Ｋ個の周波数帯域を数個のグループに分け、手順ＰＲ２；グループごとに抑圧ゲインの平均値を算出し（この処理は周波数方向の平滑化処理になっている）、手順ＰＲ３；グループごとに時定数フィルタ（リーク積分とも呼ばれる）によって時間方向に平滑化し、手順ＰＲ４；線形補間によってＫ個の周波数帯域に分配する。

手順ＰＲ１におけるグループ数をＮ（但し、Ｎ＜Ｋ）個とする。各グループに含まれる周波数帯域の数は等しくして良く、また、異なっていても良い。例えば、グループに含まれる周波数帯域の数は、臨界帯域幅又は臨界帯域幅を所定の定数倍（例えば２倍）した値を、入力周波数要素の１周波数帯域の帯域幅で除し、得られた値を整数に丸めた値（例えば、四捨五入した値）に定めることが好適である。また、隣り合うグループは共通の周波数帯域を含まないようにしても良く、共通の周波数帯域を含むようにしても良いが、前者の方が好適である。グループ数Ｎは、４〜１０個が好適である。

以上では、臨界帯域幅を考慮して平滑化する例を説明したが、その理由は以下の通りである。聴覚系は、聴覚フィルタと呼ばれる中心周波数が異なる帯域のフィルタ群としてモデル化することができ、聴覚フィルタの帯域幅は臨界帯域幅と呼ばれている。臨界帯域幅、音の大きさの知覚や聴覚マスキング（ある音が、別の大きな音の存在によって聴こえなくなる現象）と強い関連がある。臨界帯域幅に沿って平滑化することは、聴覚との相性が良いため、より自然な処理音が得られることが期待できる。

手順ＰＲ２における周波数方向の平均値の算出方法には、相加平均が好適である。ここで、手順ＰＲ１におけるグループ化において、隣り合うグループが共通の周波数帯域を含む場合には、加重相加平均を用いるようにしても良い。手順ＰＲ２によって得られたゲイン（グループごとの周波数方向の平均ゲイン）をＧＡ_１〜ＧＡ_Ｎと書くこととする。

手順ＰＲ３では、グループごとのゲインＧＡ_１〜ＧＡ_Ｎに対して、時定数がｔａｕＧ（０＜ｔａｕＧ＜１）の時定数フィルタをかけることにより、これらゲインＧＡ_１〜ＧＡ_Ｎのそれぞれを時間方向に平滑化する。時定数ｔａｕＧの値として、０．４秒が好適である。あるグループｎ（ｎ＝１〜Ｎ）について適用する、時定数フィルタによるフィルタリングは（１）式で表さすことができる。（１）において、ＧＢ_ｎはゲインＧＡ_ｎを時間方向に平滑化したゲインであり、ＧＢ’_ｎは１単位時間前のＧＢ_ｎである。
ＧＢ_ｎ＝ＧＡ_ｎ＋ｔａｕＧ×（ＧＢ’_ｎ−ＧＡ_ｎ） …（１）

手順ＰＲ４において、各グループの代表の周波数帯域の番号ｋｃ_１〜ｋｃ_Ｎは、各グループに含まれる周波数帯域の通し番号群ｋａ_ｎ〜ｋｂ_ｎ（ｋａ_ｎは最小番号、ｋｂ_ｎは最大番号）の中心とする。すなわち、あるグループｎ（ｎ＝１〜Ｎ）に対して、ｋｃ_ｎ＝（ｋａ_ｎ＋ｋｂ_ｎ）／２とする。ｋｃ_ｎは小数でも構わない。ｋｃ_１≦ｋ≦ｋｃ_Ｎで表される周波数帯域ｋの歪無ゲインＧＦ_ｋは、ＧＢ_ｎを線形補間することによって与えられる。そして、両端の周波数帯域に対しては、以下のような定値が用いられる。第１グループ（最低グループ）の中心周波数帯域以下の周波数帯域、すなわち、ｋ≦ｋｃ_１の周波数帯域ｋについてはその歪無ゲインＧＦ_ｋをグループの代表ゲインＧＢ_１とし、第Ｎグループ（最高グループ）の中心周波数帯域以上の周波数帯域、すなわち、ｋ≧ｋｃ_Ｎの周波数帯域ｋについてはその歪無ゲインＧＦ_ｋをグループの代表ゲインＧＢ_Ｎとする。

図４〜図７はそれぞれ、ゲイン平滑化部１０３による上述した平滑化方法をイメージ的に示す説明図である。なお、図４〜図７において、周波数軸の目盛は臨界帯域幅に比例した間隔で示している。

図４は、入力周波数スペクトル（Ｘ_１〜Ｘ_Ｋ）のパワー（入力パワー）の単位時間ごとの変化を示している。図５は、図４に示す入力周波数スペクトルの各入力周波数要素について得られた抑圧ゲインをグループに分けた後、グループごとに抑圧ゲインの平均値を求め、そのグループごとの平均値の単位時間ごとの変化を示している。すなわち、手順ＰＲ１及びＰＲ２を実行した段階の値の単位時間ごとの変化を示している。図６は、図５に示すグループごとの平均値の時間変化に対して、時定数フィルタによって時間方向に平滑化して得た値の単位時間ごとの変化を示している。すなわち、手順ＰＲ３を実行した段階の値の単位時間ごとの変化を示している。図７は、図６に示す時間方向の平滑化が終わった後のグループ毎の代表値に基づいて、必要な全ての周波数帯域の値を補間によって得た場合の単位時間ごとの変化を示している。すなわち、手順ＰＲ４を実行した段階の値の単位時間ごとの変化を示している。

次に、第１の雑音環境分析部１１０の動作を、上述した図２に加え、図８を参照しながら説明する。図８は、第１の雑音環境分析部１１０における各部信号波形及び判定結果などを示す説明図である。

第１の雑音環境分析部１１０に与えられた入力周波数要素Ｘは、第１のパワー算出部２０１に与えられ、第１の雑音環境分析部１１０に与えられた第２の雑音環境情報ＮＩ２のうち第２の判定結果ＳＬ２（図８の上側の「×」列参照）は、第１のパワー平滑化部２０２に与えられる。

第１のパワー算出部２０１においては、入力周波数要素Ｘのパワーが算出され、得られた第１の入力パワーＰＸ１（図８の細実線参照）が第１のパワー平滑化部２０２及び第１の比較部２０４に与えられる。

第１のパワー平滑化部２０２においては、第２の判定結果ＳＬ２が真値（すなわち、音声区間を表す値）であるときには、第１の入力パワーＰＸ１が平滑化されて第１の平滑化パワーＰ１（図８の太実線参照）が更新され、第２の判定結果ＳＬ２が偽値（すなわち、雑音区間を表す値）であるときには、第１の平滑化パワーＰ１が更新されずに直前の値を維持する。このようにして得られた第１の平滑化パワーＰ１が第１の閾値算出部２０３に与えられる。

第１の閾値算出部２０３においては、第１の平滑化パワーＰ１に０より大きく１以下の値をとる第１の係数Ｃ１が乗算されて、第１の入力パワーＰＸ１と比較される第１の閾値Ｈ１（図８の破線参照）が形成されて第１の比較部２０４に与えられる。

そして、第１の比較部２０４において、第１の閾値Ｈ１と第１の入力パワーＰＸ１とが比較され、すなわち、入力周波数要素Ｘに音声成分が含まれているか否かが判定され、第１の判定結果ＳＬ１（図８の下側の「＋」列参照）として出力される。

なお、図８は、第１の閾値Ｈ１と第１の入力パワーＰＸ１とを比較する際に、上述したハングオーバー動作を実行するようにした場合を示している。

次に、第２の雑音環境分析部１１１の動作を、上述した図３に加え、図９を参照しながら説明する。図９は、第２の雑音環境分析部１１１における各部信号波形及び判定結果などを示す説明図である。

第２の雑音環境分析部１１１に与えられた入力周波数要素Ｘは、第２のパワー算出部３０１に与えられ、第２の雑音環境分析部１１１に与えられた第１の雑音環境情報ＮＩ１のうち第１の判定結果ＳＬ１（図９の下側の「＋」列参照）は、第２のパワー平滑化部３０２に与えられる。

第２のパワー算出部３０１においては、入力周波数要素Ｘのパワーが算出され、得られた第２の入力パワーＰＸ２（図９の細実線参照）が第２のパワー平滑化部２０２及び第２の比較部２０４に与えられる。

第２のパワー平滑化部３０２においては、第１の判定結果ＳＬ１（図９参照）に基づいて、第２の入力パワーＰＸ２が時間方向に平滑化され、得られた第２の平滑化パワーＰ２（図９の太実線参照）が第２の閾値算出部３０３に与えられる。

第２の閾値算出部３０３においては、第２の平滑化パワーＰ２に１以上の値をとる第２の係数Ｃ２が乗算されて、第２の入力パワーＰＸ２と比較する第２の閾値Ｈ２（図９の破線参照）が形成されて第２の比較部３０４に与えられる。

そして、第２の比較部３０４において、第２の閾値Ｈ２と第２の入力パワーＰＸ２とが比較され、すなわち、入力周波数要素Ｘに音声成分が含まれているか否かが判定され、第２の判定結果ＳＬ２（図９の上側の「×」列参照）が出力される。

（Ｂ−３）第１の実施形態の効果
第１の実施形態によれば、周波数帯域ごとに高い精度で音声成分が含まれているか否かを判定し、音声成分が含まれている場合には、従来と同様に算出した抑圧ゲインを用いて雑音成分を抑圧し（言い換えると音声成分を強調し）、音声成分が含まれていない場合には、上述した抑圧ゲインを時間方向と周波数方向に平滑化した歪無ゲインを用いて雑音成分を抑圧するようにしたので、音声区間又は雑音区間の抑圧ゲインの切り替わりによる不自然さを伴うことなく、しかも、歪み（ミュージカルノイズを含む）を生じさせずに、雑音成分を抑圧することができる。

（Ｂ−４）第１の実施形態の変形実施形態
図１０は、第１の実施形態を変形した実施形態の雑音抑圧装置１００Ａの構成を示すブロック図であり、第１の実施形態に係る図１との同一、対応部分には同一、対応符号を付して示している。

上述した第１の実施形態の雑音抑圧装置１００においては、抑圧ゲインを平滑化するゲイン平滑化部１０３を、全ての帯域別雑音抑圧部１０２−１〜１０２−Ｋの外部に設けていた。そして、ゲイン平滑化部１０３が抑圧ゲインを周波数方向及び時間方法に平滑化するものであった。上述したように、ゲイン平滑化部１０３は、抑圧ゲインを周波数方向及び時間方法に平滑化するものであれば良く、その詳細構成などは限定されないものであった。そのため、ゲイン平滑化部１０３による抑圧ゲインの平滑化は、周波数方向の平滑化及び時間方向の平滑化の順序も問われず、時間方向の平滑化を周波数方向の平滑化より先に行っても良い。

図１０に示す雑音抑圧装置１００Ａは、抑圧ゲインの平滑化を、時間方向の平滑化、周波数方向の平滑化の順に行う場合の変形実施形態であり、帯域別雑音抑圧部１０２Ａ（１０２Ａ−１〜１０２Ａ−Ｋ）内に設けられた時間平滑化部１１７が時間方向の平滑化を行い、全ての帯域別雑音抑圧部１０２Ａ−１〜１０２Ａ−Ｋの外部に設けられた周波数平滑化部１０３Ａが時間方向の平滑化が終了したゲインに対して周波数方向の平滑化を行い、得られた周波数帯域ごとの歪無ゲインを帯域別雑音抑圧部１０２Ａ−１〜１０２Ａ−Ｋに返すものである。

特許請求の範囲における「ゲイン平滑化手段」の用語は、このような時間平滑化部１１７が分散配置されている場合を含むものとする。

（Ｃ）第２の実施形態
次に、本発明による雑音抑圧装置及びプログラムの第２の実施形態を、図面を参照しながら説明する。

第１の実施形態では、抑圧ゲインを時間方向と周波数方向に平滑化することで歪無ゲインを算出していた。しかし、時間方向と周波数方向の平滑化は、それ相応の処理量が必要となる。

そこで、第２の実施形態では、歪無ゲインを所定の定数値で与えることにより、第１の実施形態より処理量を少なくした。

図１１は、第２の実施形態の雑音抑圧装置の構成を示すブロック図であり、上述した第１の実施形態に係る図１との同一、対応部分には同一、対応符号を付して示している。

図１１において、第２の実施形態の雑音抑圧装置１００Ｂは、第１の実施形態とは異なって全体構成にゲイン平滑化部１０３を含まず、帯域別雑音抑圧部１０２Ｂの中に歪無ゲイン記憶部１１８を有する。歪無ゲイン記憶部１１８が記憶している歪無ゲインはゲイン選択部１１５に与えられる。

歪無ゲイン記憶部１１８は、所定の定数値でなる歪無ゲインＧＦ（ＧＦ_１〜ＧＦ_Ｋ）が外部から与えられて（設定されて）記憶しているものである。各周波数帯域の歪無ゲインＧＦ_１〜ＧＦ_Ｋは、全て同じ値としても良く、また、異なる値としても良く、前者の方が好適である。但し、歪無ゲインＧＦ_１〜ＧＦ_Ｋを異なる値とする場合には、「歪無ゲインは（時間方向と）周波数方向に滑らかである」という特性を満たすように設定しなければならず、例えば、隣り合う周波数帯域の歪無ゲインの差を０〜１ｄＢとするのが好ましい。所定の定数値として与えられる歪無ゲインＧＦの値は、可能な限り、抑制ゲインＧＳの平均的な値に近い値にすることが好適である。例えば、雑音抑圧装置１００Ｂが、雑音の小さい環境でのみ使用されるならば歪無ゲインＧＦを小さな値（例えば０．０１）として雑音抑圧量を大きくするのが好ましく、逆に、雑音が大きい環境で使用されるならば歪無ゲインＧＦをそれほど小さくない値（例えば０．２）として雑音抑圧量を小さくすることが好ましい。

第２の実施形態のゲイン選択部１１５は、歪無ゲインの供給元が第１の実施形態とは異なるが、第１の実施形態と同様に機能する。すなわち、ゲイン選択部１１５は、音声区間判定結果ＳＬが音声区間であれば最終抑圧ゲインＧＣとして抑圧ゲインＧＳを選択し、音声区間判定結果ＳＬが音声区間でなければ最終抑圧ゲインＧＣとして歪無ゲイン記憶部１１８から読み出された歪無ゲインＧＦを選択する。

第２の実施形態によれば、歪無ゲインを予め設定するようにしたので、抑圧ゲインの平滑化処理が不要となり、より少ない処理量で、また、より簡単な構成で、音声区間又は雑音区間の抑圧ゲインの切り替わりによる不自然さを伴うことなく、しかも、歪み（ミュージカルノイズを含む）を生じさせずに、雑音成分を抑圧することができる。

以下、第２の実施形態のいくつかの変形実施形態を説明する。

以上では、歪無ゲイン記憶部１１８に記憶している歪無ゲインは１種類の場合を示したが、歪無ゲイン記憶部１１８に複数種類の歪無ゲインを記憶しておき、ユーザなどが選択し得るようにしても良い。ここで、複数種類の選択は、帯域別雑音抑圧部１０２Ｂ−１〜１０２Ｂ−Ｋ毎に行うことができるようにしても良く、また、帯域別雑音抑圧部１０２Ｂ−１〜１０２Ｂ−Ｋを複数のグループに分けてグループごとにできるようにしても良く、さらには、全ての帯域別雑音抑圧部１０２Ｂ−１〜１０２Ｂ−Ｋについて連動して一括選択できるようにしても良い。

第１の実施形態のようなゲイン平滑化部（図１参照）を備え、歪無ゲイン記憶部１１８に記憶している歪無ゲインを適用するか、ゲイン平滑化部が得た歪無ゲインを適用するかをユーザなどが選択可能とするようにしても良い。

（Ｄ）第３の実施形態
次に、本発明による雑音抑圧装置及びプログラムの第３の実施形態を、図面を参照しながら説明する。

第１の実施形態では、ゲイン選択部１１５は、情報統合部１１３から与えられた音声区間判定結果ＳＬに基づいて、抑圧ゲインＧＳ又は歪無ゲインＧＦを選択していた（切り換えていた）。しかし、切り替えるタイミングが全周波数帯域で同時でない場合にも、周波数帯域ごとのゲイン値が急激に変化すると、受聴者に多少の不自然さを知覚させる可能性がある。

そこで、第３の実施形態では、論理値である音声区間判定結果ＳＬを実数値（真値なら１．０、偽値なら０．０）として扱い、これを時間方向及び周波数方向の少なくとも一方について平滑化して音声が存在する確率的な値である音声存在確率ＳＰＰを算出し、音声存在確率ＳＰＰに基づいて、抑圧ゲインＧＳ又は歪無ゲインＧＦを合成して最終抑圧ゲイン（最終的な抑圧ゲイン）ＧＣを得ることにより、抑圧後信号の歪みを第１の実施形態以上に軽減しようとした。

（Ｄ−１）第３の実施形態の構成
図１２は、第３の実施形態の雑音抑圧装置の構成を示すブロック図であり、上述した第１の実施形態に係る図１との同一、対応部分には同一、対応符号を付して示している。

図１２及び図１の比較から明らかなように、第３の実施形態の雑音抑圧装置１００Ｃは、第１の実施形態の構成に判定結果平滑化部１０５が追加されていると共に、各帯域別雑音抑圧部（符号１０２Ｃを用いている）におけるゲイン選択部１１５がゲイン合成部１１５Ｃに置き換わっている。

判定結果平滑化部１０５は、各帯域別雑音抑圧部１０２Ｃ−１〜１０２Ｃ−Ｋから与えられた音声区間判定結果ＳＬ_１〜ＳＬ_Ｋを実数値と見なして時間方向及び周波数方向の少なくとも一方について平滑化し、得られた音声存在確率ＳＰＰ_１〜ＳＰＰ_Ｋをそれぞれ対応するゲイン合成部１１５Ｃ−１〜１１５Ｃ−Ｋに与えるものである。判定結果平滑化部１０５は、音声区間判定結果ＳＬ（ＳＬ_１〜ＳＬ_Ｋ）の真値（すなわち、音声区間を表す値）を１．０として扱い、偽値（すなわち、雑音区間を表す値）を０．０として扱って平滑化する（以下、実数値化された音声区間判定結果をＳＬｒと書くこととする）。平滑化後の値は、入力周波数要素Ｘに音声が含まれる確率（音声存在確率）と見なすことができる。

音声存在確率を得る平滑化方法には任意の方法が適用することができる。この平滑化方法として、ゲイン平滑化部１０３における平滑化方法と同様な方法を採用することは好適である。すなわち、時間方向と周波数方向の両方向に音声区間判定結果ＳＬｒを平滑化することとし、まず周波数方向に平滑化して、続いて時間方向に平滑化する。第１の実施形態のゲイン平滑化部１０３で説明した平滑化方法の具体的な手順において、手順ＰＲ１のグループ数Ｎはゲイン平滑化部１０３と同様に４〜１０個が好適であり、手順ＰＲ３の時間平滑化では０．１秒の時定数の時定数フィルタを適用することが好適である。なお、時間方向にだけ平滑化する場合には、各周波数帯域において手順ＰＲ３を実行すれば良い。この場合、判定結果平滑化部１０５を、各帯域別雑音抑圧部１０２Ｃ−１〜１０２Ｃ−Ｋのそれぞれの内部に設けることができる。周波数方向にだけ平滑化する場合には、手順ＰＲ１、手順ＰＲ２、手順ＰＲ４を順に実行すれば良い。

ゲイン合成部１１５Ｃは、最終抑圧ゲイン決定部としてゲイン選択部に代えて設けられたものである。ゲイン合成部１１５Ｃは、与えられた音声存在確率ＳＰＰに基づいて、抑圧ゲインＧＳと歪無ゲインＧＦとを合成し、得られた最終抑圧ゲインＧＣを乗算部１１６に与える。抑圧ゲインＧＳと歪無ゲインＧＦの合成方法として、ＧＣの値の範囲が、ＧＦ≦ＧＳならＧＦ≦ＧＣ≦ＧＳに、ＧＳ≦ＧＦならＧＳ≦ＧＣ≦ＧＦに収めるという制約下で任意の方法が適用することができる。例えば、抑圧ゲインＧＳと歪無ゲインＧＦの合成方法として、音声存在確率ＳＰＰを重み係数とした（２）式に示す凸結合（重み付け平均）が好適である。
ＧＣ＝ＳＰＰ×ＧＳ＋（１−ＳＰＰ）×ＧＦ …（２）

（Ｄ−２）第３の実施形態の動作
第３の実施形態の雑音抑圧装置１００Ｃの動作として、以下では、第１の実施形態とは異なる、各帯域別雑音抑圧部１０２Ｃ及び判定結果平滑部１０５の動作を説明する。

帯域別雑音抑圧部１０２Ｃにおいて、第１の雑音環境分析部１１０、第２の雑音環境分析部１１１、遅延部１１２、情報統合部１１３及び抑圧ゲイン算出部１１４は、第１の実施形態と同様に動作する。

第３の実施形態の場合、情報統合部１１３が得た音声区間判定結果ＳＬは判定結果平滑部１０５に与えられる。

判定結果平滑化部１０５において、各帯域別雑音抑圧部１０２Ｃ−１〜１０２Ｃ−Ｋから与えられた音声区間判定結果ＳＬ_１〜ＳＬ_Ｋは実数値と取り扱われて時間方向及び周波数方向の少なくとも一方について平滑化され、得られた音声存在確率ＳＰＰ_１〜ＳＰＰ_Ｋがそれぞれ対応するゲイン合成部１１５Ｃ−１〜１１５Ｃ−Ｋに与えられる。

ゲイン合成部１１５Ｃにおいては、与えられた音声存在確率ＳＰＰに基づいて、抑圧ゲインＧＳと歪無ゲインＧＦとが合成され、合成により得られた最終抑圧ゲインＧＣが乗算部１１６に与えられる。

乗算部１１６においては、入力周波数要素Ｘに最終抑圧ゲインＧＣが乗算され、得られた抑圧後周波数要素Ｙが波形復元部１０４に与えられる。すなわち、乗算部１１６の動作は、第１の実施形態と同様である。

（Ｄ−３）第３の実施形態の効果
第３の実施形態によれば、抑圧ゲインと歪無ゲインとを合成して得られた最終抑圧ゲインの特性が時間方向及び周波数方向の少なくとも一方に滑らかに変化するので、抑圧ゲインの切り替わりによる不自然さと歪み（ミュージカルノイズを含む）とを一段と軽減した雑音抑圧後の音声信号を得ることができる。

（Ｄ−４）第３の実施形態の変形実施形態
第３の実施形態では、判定結果平滑部１０５に与える音声区間判定結果ＳＬが２値の場合を示したが、判定結果平滑部１０５に与える音声区間判定結果ＳＬが３値以上であっても良い。なお、後述する「変形実施形態」の項では、第１の判定結果ＳＬ１や第２の判定結果ＳＬ２について同様な変形実施形態を説明している。

例えば、音声区間判定結果ＳＬが３値の場合、音声区間を表す値を実数１．０に対応付け、雑音区間を表す値を実数０．０に対応付け、音声区間とも雑音区間とも言い切れない中間区間を表す値を実数０．５に対応付けて平滑化を行うようにすれば良い。

情報統合部（図１の符号１１３参照）は、例えば、以下のようにして、３値の音声区間判定結果ＳＬを得ることができる。第１の雑音環境分析部１１０からの第１の判定結果ＳＬ１と、第２の雑音環境分析部１１１からの第２の判定結果ＳＬ２が共に真値のときに、情報統合部は、音声区間判定結果ＳＬの値を、３値中の音声区間を表す値にする。第１の判定結果ＳＬ１と第２の判定結果ＳＬ２が共に偽値のときに、情報統合部は、音声区間判定結果ＳＬの値を、３値中の雑音区間を表す値にする。第１の判定結果ＳＬ１と第２の判定結果ＳＬ２の値の一方が真値で他方が偽値のときに、情報統合部は、音声区間判定結果ＳＬの値を、３値中の中間区間を表す値にする。

（Ｅ）第４の実施形態
次に、本発明による雑音抑圧装置及びプログラムの第４の実施形態を、図面を参照しながら説明する。

第１の実施形態、第２の実施形態及び第３の実施形態では、第１の雑音環境分析部１１０は、推定した音声パワーの平均的な値に基づいて入力パワーに対する閾値を算出していた。しかし、入力パワーに対する最適な閾値は、音声と雑音のパワーバランスによって変化するため、上記のように算出された閾値では種々の雑音環境に十分に適応できないこともある。

そこで、第４の実施形態の第１の雑音環境分析部では、第２の雑音環境分析部（図１の符号１１１参照）で推定した雑音パワーの平均的な値を利用して事後的なＳＮＲ（ａｐｏｓｔｅｒｉｏｒｉｓｉｇｎａｌ−ｔｏ−ｎｏｉｓｅｒａｔｉｏ；入力パワーを雑音パワーで除した値で、以下、単にＳＮＲと呼ぶ）を推定し、このＳＮＲに基づいて入力周波数要素Ｘが音声成分を含むか否かを判定することとした。

（Ｅ−１）第４の実施形態の構成
第４の実施形態の雑音推定装置（以下、符号「１００Ｄ」を用いる）の全体構成も、上述した図１で表すことができる。

但し、第４の実施形態の帯域別雑音抑圧部（以下、符号「１０２Ｄ」を用いる）の構成に含まれる第１の雑音環境分析部（以下、符号「１１０Ｄ」を用いる）の詳細な構成が第１の実施形態と異なっている。そのため、以下では、主として、第１の雑音環境分析部１１０Ｄの詳細構成を説明する。

図１３は、第１の雑音環境分析部１１０Ｄの詳細構成例を示すブロック図である。図１３において、第１の雑音環境分析部１１０Ｄは、ＳＮＲ算出部４０１、ＳＮＲ平滑化部４０２、ＳＮＲ比較用閾値算出部４０３及びＳＮＲ比較部４０４を有する。

第１の雑音環境分析部１１０Ｄに与えられた入力周波数要素ＸはＳＮＲ算出部４０１に与えられ、第１の雑音環境分析部１１０Ｄに与えられた第２の雑音環境情報ＮＩ２のうち、第２の平滑化パワーＰＸ２はＳＮＲ算出部４０１に与えられ、第２の判定結果ＳＬ２はＳＮＲ平滑化部４０２に与えられる。

ＳＮＲ算出部４０１は、入力周波数要素Ｘと第２の平滑化パワーＰＸ２とに基づいてＳＮＲ値Ｒを算出し、得られたＳＮＲ値ＲをＳＮＲ平滑化部４０２及びＳＮＲ比較部４０４に与える。ＳＮＲ値Ｒを算出するためには、入力周波数要素Ｘのパワー（すなわち、入力パワー）を算出する必要がある。第２の雑音環境分析部１１１における第２のパワー算出部３０１と同じ方法で入力パワーを求めた場合には、当該入力パワーを第２の平滑化パワーＰＸ２で除すことでＳＮＲ値Ｒを算出することができる。仮に、入力パワーの算出方法が異なる場合には、第２の平滑化パワーＰＸ２の尺度を当該入力パワーの算出方法に合わせた値で当該入力パワーを除すことでＳＮＲ値Ｒを算出することができる。

ＳＮＲ平滑化部４０２は、第２の判定結果ＳＬ２に基づいて、ＳＮＲ値Ｒを時間方向に平滑化し、得られた平滑化ＳＮＲ値ＲＡをＳＮＲ用閾値算出部４０３に与える。ＳＮＲ平滑化部４０２は、第２の判定結果ＳＬ２が真値（すなわち、音声区間を表す値）であるときにはＳＮＲ値Ｒを平滑化して平滑化ＳＮＲ値ＲＡを更新し、第２の判定結果ＳＬ２が偽値（すなわち、雑音区間を表す値）であるときには平滑化ＳＮＲ値ＲＡを更新しないで維持する。従って、平滑化ＳＮＲ値ＲＡが意味するのは音声区間のＳＮＲの平滑化値（音声のＳＮＲの平均的な値）である。なお、平滑化方法や平滑化構成は何ら限定されるものではない。ＳＮＲ平滑化部４０２は、例えば、時定数が０．８秒の時定数フィルタを用いて平滑化する。

ＳＮＲ用閾値算出部４０３は、０より大きく１以下の値をとる所定の定数指数β（以下、第１の指数と呼ぶ）を予め決めておき、平滑化ＳＮＲ値ＲＡのβ乗を算出することでＳＮＲ値Ｒと比較するＳＮＲ用閾値Ｈ１Ｄを形成して、得られたＳＮＲ用閾値Ｈ１ＤをＳＮＲ比較部４０４に与える。音声パワーと雑音パワーとのいずれが優勢かを切り分けるためのＳＮＲ用閾値Ｈ１Ｄを定めるために、音声区間のＳＮＲの平均的な値を意味する平滑化ＳＮＲ値ＲＡをべき乗する際の第１の指数βの値は、限定されるものではない。例えば、第１の指数βとして０．５を適用することができる。

ＳＮＲ用比較部４０４は、ＳＮＲ用閾値Ｈ１ＤとＳＮＲ値Ｒとを比較して、入力周波数要素Ｘに音声成分が含まれているか否かを判定し、第１の判定結果（以下、第１の実施形態と同様に符号ＳＬ１を用いる）を出力する。ＳＮＲ用比較部４０４は、ＳＮＲ値ＲがＳＮＲ用閾値Ｈ１Ｄより大きければ第１の判定結果ＳＬ１として真値を出力し、そうでなければ偽値を出力する。

なお、第１の実施形態における第１の比較部２０４と同様に、第４の実施形態におけるＳＮＲ用比較部４０４においても、ＳＮＲ用閾値Ｈ１ＤとＳＮＲ値Ｒとを比較する際にハングオーバー動作を実行するようにしても良い。ＳＮＲ用比較部４０４におけるハングオーバー方法は、第１の実施形態における第１の比較部２０４におけるハングオーバー方法と同様であるので、その説明を省略する。なお、好適なハングオーバー時間は、第１の比較部２０４と同様に０．２秒である。

（Ｅ−２）第４の実施形態の動作
第４の実施形態の雑音抑圧装置１００Ｄの全体の動作は、第１の実施形態の雑音抑圧装置１００と同様であるので、その説明を省略する。

各帯域別雑音抑圧部１０２Ｄを構成する各ブロックとゲイン平滑化部１０３の動作も、第１の雑音環境分析部１１０Ｄから出力される第１の雑音環境情報ＮＩ１Ｄが、入力周波数要素Ｘが音声成分を含むか否かを判定した第１の判定結果ＳＬ１を少なくとも含む点と、第２の雑音環境分析部１１１から出力される第２の雑音環境情報ＮＩ２が、雑音のパワーの推定値である第２の平滑化パワーＰ２と入力周波数要素Ｘが音声成分を含むか否かを判定した第２の判定結果ＳＬ２とを少なくとも含む点とを除けば、第１の実施形態の第２の雑音環境分析部１１１と同様なので、その説明を省略する。

以下では、既述した実施形態と異なる第１の雑音環境分析部１１０Ｄの詳細な動作を、上述した図１３に加え、図１４を参照しながら説明する。図１４は、第１の雑音環境分析部１１０Ｄにおける各部信号波形及び判定結果などを示す説明図である。なお、図１５には、第２の雑音環境情報ＮＩ２をイメージ的に理解できるように、第２の雑音環境分析部１１１における各部信号波形及び判定結果などを示している。図１５は、上述した図９と同様な図面であるので、図中の信号の説明は省略する。

第１の雑音環境分析部１１０Ｄに与えられた入力周波数要素Ｘは、ＳＮＲ算出部４０１に与えられ、第１の雑音環境分析部１１０Ｄに与えられた第２の雑音環境情報ＮＩ２のうち第２の平滑化パワーＰＸ２（図１５参照）はＳＮＲ算出部４０１に与えられ、第１の雑音環境分析部１１０Ｄに与えられた第２の雑音環境情報ＮＩ２のうち第２の判定結果ＳＬ２（図１４及び図１５の上側の「×」列参照）はＳＮＲ平滑化部４０２に与えられる。

ＳＮＲ算出部４０１においては、入力周波数要素Ｘと第２の平滑化パワーＰＸ２とに基づいて、ＳＮＲ値Ｒ（図１４の細実線参照）が算出され、得られたＳＮＲ値ＲがＳＮＲ平滑化部４０２及びＳＮＲ比較部４０４に与えられる。

ＳＮＲ平滑化部４０２においては、第２の判定結果ＳＬ２に基づいて、ＳＮＲ値Ｒが時間方向に平滑化され、得られた平滑化ＳＮＲ値ＲＡ（図１４の太実線参照）がＳＮＲ用閾値算出部４０３に与えられる。具体的には、第２の判定結果ＳＬ２が真値のときにＳＮＲ値Ｒが平滑化されて平滑化ＳＮＲ値ＲＡが更新され、第２の判定結果ＳＬ２が偽値のときに平滑化ＳＮＲ値ＲＡが更新されずに維持される。

ＳＮＲ用閾値算出部４０３においては、平滑化ＳＮＲ値ＲＡのβ乗が算出されてＳＮＲ用閾値Ｈ１Ｄ（図１４の破線参照）が形成されてＳＮＲ比較部４０４に与えられる。

そして、ＳＮＲ比較部４０４において、ＳＮＲ用閾値Ｈ１ＤとＳＮＲ値Ｒとが比較されて、入力周波数要素Ｘに音声成分が含まれているか否かが判定され、得られた第１の判定結果ＳＬ１（図１４及び図１５の下側の「＋」列参照）が出力される。

（Ｅ−３）第４の実施形態の効果
第４の実施形態によれば、第１の雑音環境分析部においてＳＮＲを指標として入力周波数要素が音声成分を含むか否かを判定するようにしたので、入力周波数要素が音声成分を含むか否かの最終的な判定結果（上述した符号ＳＬ参照）の精度を一段と向上させることができ、これにより、抑圧ゲインの切り替わりによる不自然さと歪み（ミュージカルノイズを含む）とを一段と軽減した雑音抑圧後の音声信号を得ることができる。

（Ｆ）他の実施形態
上記各実施形態の説明においても種々変形実施形態に言及したが、さらに、以下に例示するような変形実施形態を挙げることができる。

第１〜第４の実施形態（これらの上述した変形実施形態を含む）の特徴構成を、互いに組み合わせ可能な場合には、組み合わせて、一つの雑音抑圧装置を構成するようにしても良い。

例えば、第３の実施形態における判定結果平滑化部１０５を、第２の実施形態及び第４の実施形態に導入するようにしても良い。また例えば、第４の実施形態における第１の雑音環境分析部１１０Ｄの構成を、第２の実施形態及び第３の実施形態における第１の雑音環境分析部１１０に適用するようにしても良い。

第１の実施形態においては、第１の雑音環境分析部１１０内の第１のパワー平滑化部２０２が音声パワーの平均的な値を推定し、第２の雑音環境分析部１１１内の第２のパワー平滑化部３０２が雑音パワーの平均的な値を推定するように説明したが、逆に、推定するようにしても良い。すなわち、第１のパワー平滑化部２０２が、１単位時間前の第２の判定結果ＳＬ２が偽値であるときには第１のパワーＰＸ１を平滑化して第１の平滑化パワーＰ１を更新し、第２の判定結果ＳＬ２が真値であるときには第１の平滑化パワーＰ１を更新しないことにより、音声パワーの平均的な値を推定し、第２のパワー平滑化部３０２が、同一の単位時間内の第１の判定結果ＳＬ１が真値であるときには第２のパワーＰＸ２を平滑化して第２の平滑化パワーＰ２を更新し、第１の判定結果ＳＬ１が偽値であるときには第２の平滑化パワーＰ２を更新しないことにより、雑音パワーの平均的な値を推定するようにしても良い。

また、第１の雑音環境分析部１１０内の第１のパワー平滑化部２０２と第２の雑音環境分析部１１１内の第２のパワー平滑化部３０２との両方が雑音パワーの平均的な値を推定するようにしても良い。すなわち、第１のパワー平滑化部２０２は、１単位時間前の第２の判定結果ＳＬ２が偽値であるときに第１のパワーＰＸ１を平滑化して第１の平滑化パワーＰ１を更新し、１単位時間前の第２の判定結果ＳＬ２が真値であるときには第１の平滑化パワーＰ１を更新しないで維持し、また、第２のパワー平滑化部３０２は、同一の単位時間内の第１の判定結果ＳＬ１が偽値であるときに第２のパワーＰＸ２を平滑化して第２の平滑化パワーＰ２を更新し、同一の単位時間内の第１の判定結果ＳＬ１が真値であるときには第２の平滑化パワーＰ２を更新しないで維持するようにしても良い。

第４の実施形態においては、第１の雑音環境分析部１１０Ｄと第２の雑音環境分析部１１１の機能や内部構成を逆転させるようにしても良い。すなわち、第１の雑音環境分析部は、図３に示すような構成を有し、１単位時間前の第２の雑音環境情報ＮＩ２と自己が算出する平滑化パワー等の出力とに基づいて第１の雑音環境情報ＮＩ１を算出して出力し、第２の雑音環境分析部は、図１３に示すような構成を有し、同一の単位時間内の第１の雑音環境情報ＮＩ１と自己が算出するＳＮＲ等の出力とに基づいて第２の雑音環境情報ＮＩ２を算出して出力するようにしても良い。

第１〜第３の実施形態においては、第１の雑音環境分析部１１０及び第２の雑音環境分析部１１１がそれぞれ入力パワーを別々に算出する場合を示したが、入力パワーの算出方法が同一であるならば、第１の入力パワー算出部２０１及び第２の入力パワー算出部３０１に代え、第１の雑音環境分析部１１０と第２の雑音環境分析部１１１の前に共通な入力パワー算出部を設けて、この共通な入力パワー算出部が算出した入力パワーを第１のパワー平滑化部２０２及び第２のパワー平滑化部２０３に与えるようにしても良い。また、第４の実施形態についても、同様な変形実施形態を挙げることができる。すなわち、第１の雑音環境分析部１１０Ｄと第２の雑音環境分析部１１１の前に共通な入力パワー算出部を設けて、この共通な入力パワー算出部が算出した入力パワーを、ＳＮＲ算出部４０１や第２のパワー平滑化部２０３に与えるようにしても良い。

第１〜第４の実施形態（第３の実施形態の変形実施形態を除く）においては、第１の雑音環境分析部１１０、１１０Ｄが内部で算出する第１の判定結果ＳＬ１が２値である場合を示したが、第１の判定結果ＳＬ１は２値に限定されず、３値以上の離散値又は０．０〜１．０の実数値とするようにしても良い。

例えば、第１の判定結果ＳＬ１を３値とする場合には、２つの閾値を用意し、閾値との比較対象（第１の比較部２０４では第１の入力パワー、ＳＮＲ比較部４０４ではＳＮＲ）が大きい方の閾値より大きければ第１の判定結果ＳＬ１を１とし、大きい方の閾値以下かつ小さい方の閾値より大きければ第１の判定結果ＳＬ１を０．５とし、小さい方の閾値以下であれば第１の判定結果ＳＬ１を０とするようにしても良い。また例えば、第１の判定結果ＳＬ１を０．０〜１．０の実数値とする場合には、２つの閾値Ｈ１ａ及びＨ１ｂ（但し、Ｈ１ａ＜Ｈ１ｂ）を用意して、第１の比較部２０４では（３）式に従って、ＳＮＲ比較部４０４では（４）式に従って、閾値Ｈ１ａ又はＨ１ｂとの相違に応じた第１の判定結果ＳＬ１を算出するようにしても良い。（３）式及び（４）式において、ｍａｘ｛ａ，ｂ｝はａとｂの大きい方を出力する演算子であり、ｍｉｎ｛ａ，ｂ｝はａとｂの小さい方を出力する演算子である。
ＳＬ１＝ｍａｘ｛０，ｍｉｎ｛１，（ＰＸ１−Ｈ１ａ）／（Ｈ１ｂ−Ｈ１ａ）｝…（３）
ＳＬ１＝ｍａｘ｛０，ｍｉｎ｛１，（Ｒ−Ｈ１ａ）／（Ｈ１ｂ−Ｈ１ａ）｝ …（４）

同様に、第２の雑音環境分析部１１１における第２の比較部３０４が算出する第２の判定結果ＳＬ２についても、第１の判定結果ＳＬ１と同様な変形を行うようにしても良い。この場合には、第１の判定結果ＳＬ１について書かれた（３）式におけるＳＬ１、Ｈ１ａ、Ｈ１ｂ、ＰＸ１をそれぞれＳＬ２、Ｈ２ａ、Ｈ２ｂ、ＰＸ２に置き換えるようにすれば良い。

第２の判定結果ＳＬ２が３値以上の離散値又は０．０〜１．０の実数値である場合には、第１のパワー平滑化部２０２及びＳＮＲ平滑化部４０２の動作も変更しなければならない。例えば、第２の判定結果ＳＬ２に対する所定の閾値ＨＳＬ２を定めておき、第２の判定結果ＳＬ２が閾値ＨＳＬ２以上ならば第１のパワーＰＸ１又はＳＮＲ値Ｒを平滑化して第１の平滑化パワーＰ１又は平滑化ＳＮＲ値ＲＡを更新し、第２の判定結果ＳＬ２が閾値ＨＳＬ２未満ならば第１の平滑化パワーＰ１又は平滑化ＳＮＲ値ＲＡを更新しないで維持する。この際の閾値ＨＳＬ２としては０．５が好適である。

詳述は避けるが、同様に、第１の判定結果ＳＬ１が３値以上の離散値又は０．０〜１．０の実数値である場合には、第２のパワー平滑化部３０２の動作も変更しなければならない。

第１の判定結果ＳＬ１及び第２の判定結果ＳＬ２の少なくとも一方が３値以上の離散値又は０．０〜１．０の実数値である場合には、情報統合部１１３の第１の判定結果ＳＬ１と第２の判定結果ＳＬ２の統合動作も変更しなければならない。この場合、音声区間判定結果ＳＬが真値又は偽値の２値又は０．０〜１．０の実数値を取るように任意の統合方法を用いることができる。例えば、（５）式のように第１の判定結果ＳＬ１と第２の判定結果ＳＬ２の平均値を算出して実数値の音声区間判定結果ＳＬを得る方法が好適である。但し、真値は１．０、偽値は０．０として扱う。なお、音声区間判定結果ＳＬが０．０〜１．０の実数値である場合には、第１及び第２の実施形態におけるゲイン選択部１１５に代えて、第３の実施形態で説明したようなゲイン合成部１１５Ｃを適用することを要する。
ＳＬ＝（ＳＬ１＋ＳＬ２）／２ …（５）

第１の判定結果ＳＬ１、第２の判定結果ＳＬ２又は音声区間判定結果ＳＬが３値以上の離散値又は０．０〜１．０の実数値である場合には、第１の比較部２０４又はＳＮＲ比較部４０４、第２の比較部３０４、又は、情報統合部１１３におけるハングオーバー動作も変更しなければならない。いずれの処理ブロックにおいても同じ変更が適用できるので、以下では第１の比較部２０４を例としてハングオーバー動作の変形例を説明する。

例えば、上述のように第１のパワーＰＸ１に対して２つの閾値Ｈ１ａ及びＨ１ｂが設定されていて、第１の判定結果ＳＬ１が０．０、０．５及び１．０の３値を取る場合には、最後に真値が出力されてからの経過時間ＴＥに対する所定のハングオーバー時間ＴＨを定めておいて、（ｉ）第１のパワーＰＸ１が大きい方の閾値Ｈ１ｂより大きい場合には第１の判定結果ＳＬ１を１．０にすると共に経過時間ＴＥを０にクリアし、（ｉｉ）第１のパワーＰＸ１が大きい方の閾値Ｈ１ｂ以下でしかも経過時間ＴＥがハングオーバー時間ＴＨ以下である場合には第１の判定結果ＳＬ１を１．０にすると共に経過時間ＴＥを１単位時間分だけインクリメントし、（ｉｉｉ）第１のパワーＰＸ１が小さい方の閾値Ｈ１ａより大きく、大きい方の閾値Ｈ１ｂ以下でしかも経過時間ＴＥがハングオーバー時間ＴＨを超えた場合には第１の判定結果ＳＬ１を０．５にし、（ｉｖ）第１のパワーＰＸ１が小さい方の閾値Ｈ１ａ以下でしかも経過時間ＴＥがハングオーバー時間ＴＨを超えた場合には第１の判定結果ＳＬ１を０．０にするようにすれば良い。

また例えば、上述のように第１のパワーＰＸ１に対して１つの閾値Ｈ１が設定されていて、第１の判定結果ＳＬ１が０．０〜１．０の実数値を取る場合には、最後に真値が出力されてからの経過時間ＴＥに対する所定のハングオーバー時間ＴＨを定めておき、（ｉ）第１のパワーＰＸ１が閾値Ｈ１より大きい場合には第１の判定結果ＳＬ１を１．０にすると共に経過時間ＴＥを０にクリアし、（ｉｉ）第１のパワーＰＸ１が閾値Ｈ１以下でしかも経過時間ＴＥがハングオーバー時間ＴＨ以下である場合には、第１の判定結果ＳＬ１を、ハングオーバー時間ＴＨに対する経過時間ＴＥの割合を反映させた算出式である（６）式に従って算出すると共に経過時間ＴＥを１単位時間分だけインクリメントし、（ｉｉｉ）第１のパワーＰＸ１が閾値Ｈ１以下でしかも経過時間ＴＥがハングオーバー時間ＴＨを超えた場合には第１の判定結果ＳＬ１を０．０にするようにすれば良い。
ＳＬ１＝１．０−ＴＥ／ＴＨ …（６）

上記各実施形態では、各帯域別雑音抑圧部がそれぞれ独立に機能するものを示したが、静的又は動的に影響し合うようにしても良い。例えば、全ての帯域別雑音抑圧部における第１の雑音環境分析部からの第１の判定結果を多数決や論理積や論理和などにより統合して全ての帯域別雑音抑圧部における第２の雑音環境分析部に与え、全ての帯域別雑音抑圧部における第２の雑音環境分析部からの第２の判定結果を多数決や論理積や論理和などにより統合し、遅延部を介して全ての帯域別雑音抑圧部における第１の雑音環境分析部に与えるようにしても良い。

上記各実施形態では、第１の雑音環境分析部及び第２の雑音環境分析部が完全に別個の構成になっている場合を示したが、同一の主要部（パワー平滑化部、閾値算出部、比較部）を１単位時間内に時分割で適用して、第１の雑音環境分析部及び第２の雑音環境分析部として機能させるようにしても良い。この場合には、第１の雑音環境分析部として機能する際には、第２の雑音環境分析部に関するデータ（例えば、第２の平滑化パワーＰ２や第２の係数Ｃ２等）を退避させ、第２の雑音環境分析部として機能する際には、第１の雑音環境分析部に関するデータ（例えば、第１の平滑化パワーＰ１や第１の係数Ｃ１等）を退避させるメモリなど、補助的な構成を設けることを要する。特許請求の範囲の表現はこのような同一構成を時分割で利用する場合を含むものとする。

上記各実施形態では、特徴量の平滑値に基づいて音声区間検出に用いる閾値を決定するものを示したが、他の方法によって閾値を決定するようにしても良い。例えば、雑音区間と判定された直前過去の所定期間（例えば３秒間；断続的に雑音区間が生じている場合には合算時間が３秒間）における入力パワーの最小値の所定倍を閾値とするようにしても良く、音声区間と判定された直前過去の所定期間（例えば３秒間）における入力パワーの最大値の所定倍を閾値とするようにしても良い。また、第４の実施形態のように特徴量としてＳＮＲを用いる場合であれば、音声区間と判定された直前過去の所定期間（例えば３秒間）におけるＳＮＲの最大値の所定倍を閾値とするようにしても良い。

上記各実施形態では、雑音に対比される目的音が音声である場合を示したが、本発明はこれに限定されるものではない。例えば、機械のモータ音が雑音に対比される目的音になっている場合にも、本発明の技術思想を適用することができる。

１００、１００Ａ、１００Ｂ、１００Ｃ、１００Ｄ…雑音抑圧装置、
１０１…周波数解析部、１０２−１〜１０２−Ｋ、１０２Ａ−１〜１０２Ａ−Ｋ、１０２Ｂ−１〜１０２Ｂ−Ｋ、１０２Ｃ−１〜１０２Ｃ−Ｋ…帯域別雑音抑圧部、１０３…ゲイン平滑化部、１０３Ａ…周波数平滑化部、１０４…波形復元部、１０５…判定結果平滑化部、
１１０、１１０Ｄ…第１の雑音環境分析部、１１１…第２の雑音環境分析部、１１２…遅延部、１１３…情報統合部、１１４…抑圧ゲイン算出部、１１５…ゲイン選択部、１１５Ｃ…ゲイン合成部、１１６…乗算部、１１７…時間平滑化部、１１８…歪無ゲイン記憶部、
２０１…第１のパワー算出部、２０２…第１のパワー平滑化部、２０３…第１の閾値算出部、２０４…第１の比較部、
３０１…第２のパワー算出部、３０２…第２のパワー平滑化部、３０３…第２の閾値算出部、３０４…第２の比較部、
４０１…ＳＮＲ算出部、４０２…ＳＮＲ平滑化部、４０３…ＳＮＲ比較用閾値算出部、４０４…ＳＮＲ比較部。

Claims

入力信号に含まれる雑音成分を抑圧して目的音成分を強調する雑音抑圧装置において、
入力信号を周波数解析して入力スペクトルを算出する周波数解析手段と、
上記周波数解析手段が算出した入力スペクトルのいずれかの周波数帯域に対応し、その周波数帯域の要素における雑音成分を抑圧して抑圧後スペクトルの要素を算出する、複数の帯域別雑音抑圧手段と、
上記各帯域別雑音抑圧手段の内部で利用される、時間方向及び周波数方向に滑らかな特性を有する歪無ゲインを出力する歪無ゲイン供給手段とを備え、
上記各帯域別雑音抑圧手段は、
上記入力スペクトルの要素について算出された第１の入力パワーに基づいて第１の雑音環境情報を得る第１の雑音環境分析手段と、
上記入力スペクトルの要素について算出された第２の入力パワーに基づいて第２の雑音環境情報を得る第２の雑音環境分析手段と、
上記第１の雑音環境情報及び上記第２の雑音環境情報の少なくとも一方に基づいて、雑音パワー推定値と、上記周波数帯域の要素が目的音成分を含むか否かの目的音判定情報とを少なくとも含む統合雑音環境情報を得る情報統合手段と、
上記入力スペクトルの要素と上記統合雑音環境情報とに基づいて、雑音抑圧に適用可能な抑圧ゲインを得る抑圧ゲイン算出手段と、
上記統合雑音環境情報に基づいて、上記抑圧ゲインと上記歪無ゲインとから、最終的に雑音抑圧に用いる最終抑圧ゲインを決定する最終抑圧ゲイン決定手段と、
上記入力スペクトルの要素に上記最終抑圧ゲインを乗算して抑圧後スペクトルの要素を得る乗算手段とを備え、
上記各第１の雑音環境分析手段は、同一の上記帯域別雑音抑圧手段に設けられている上記第２の雑音環境分析手段が所定の単位時間前に出力した上記第２の雑音環境情報を用いて第１の雑音環境情報を得るものであり、
上記各第２の雑音環境分析手段は、同一の上記帯域別雑音抑圧手段に設けられている上記第１の雑音環境分析手段が同一の単位時間内に出力した上記第１の雑音環境情報を用いて第２の雑音環境情報を得るものである
ことを特徴とする雑音抑圧装置。
上記歪無ゲイン供給手段は、上記各帯域別雑音抑圧手段の上記抑圧ゲイン算出手段が算出した抑庄ゲインを時間方向及び周波数方向に平滑化して上記各帯域別雑音抑圧手段用の歪無ゲインを得ることを特徴とする請求項１に記載の雑音抑圧装置。
上記歪無ゲイン供給手段は、予め設定された定数値の歪無ゲインを供給することを特徴とする請求項１に記載の雑音抑圧装置。
上記情報統合手段は、上記目的音判定情報として、目的音成分を含むか否かを表す２値の情報を得るものであり、
上記最終抑圧ゲイン決定手段は、上記統合雑音環境情報に基づいて、上記抑圧ゲイン又は上記歪無ゲインの一方を、最終抑圧ゲインとして選択する
ことを特徴とする請求項１〜３のいずれかに記載の雑音抑圧装置。
上記各帯域別雑音抑圧手段の上記情報統合手段が得た、上記統合雑音環境情報中の目的判定情報を、時間方向及び周波数方向の少なくとも一方について平滑化して目的音存在確率を得る目的音存在確率取得手段を備え、
上記最終抑圧ゲイン決定手段は、上記目的音存在確率に基づいて、上記抑圧ゲインと上記歪無ゲインとを合成して上記最終抑圧ゲインを得る
ことを特徴とする請求項１〜３のいずれかに記載の雑音抑圧装置。
上記第１の雑音環境情報は、少なくとも、目的音又は雑音パワーの推定値である第１の平滑化パワーと、上記周波数帯域の要素が目的音成分を含むか否かを判定した第１の判定結果とを含み、
上記第２の雑音環境情報は、少なくとも、雑音又は目的音パワーの推定値である第２の平滑化パワーと、上記周波数帯域の要素が目的音成分を含むか否かを判定した第２の判定結果とを含み、
上記第１の雑音環境分析手段は、
所定の単位時間前の上記第２の判定結果に基づいて平滑化の実行、停止を制御しながら、上記第１の入力パワーを平滑化して第１の平滑化パワーを算出する第１のパワー平滑化手段と、
上記第１の平滑化パワーを少なくとも適用して第１の閾値を算出する第１の閾値算出手段と、
上記第１の入力パワーを上記第１の閾値と比較して目的音区間か否かを判定し、上記第１の判定結果を得る第１の比較手段とを有し、
上記第２の雑音環境分析手段は、
同一の単位時間内の上記第１の判定結果に基づいて平滑化の実行、停止を制御しながら、上記第２の入力パワーを平滑化して第２の平滑化パワーを算出する第２のパワー平滑化手段と、
上記第２の平滑化パワーを少なくとも適用して第２の閾値を算出する第２の閾値算出手段と、
上記第２の入力パワーを上記第２の閾値と比較して目的音区間か否かを判定し、上記第２の判定結果を得る第２の比較手段とを有する
ことを特徴とする請求項１〜請求項５のいずれかに記載の雑音抑圧装置。
上記第１のパワー平滑化手段は、所定の単位時間前の上記第２の判定結果が目的音区間である場合に上記第１の入力パワーの平滑化を実行し、所定の単位時間前の上記第２の判定結果が目的音区間でない場合に上記第１の入力パワーの平滑化を停止して上記第１の平滑化パワーを維持させ、
上記第２のパワー平滑化手段は、同一の単位時間内の上記第１の判定結果が目的音区間でない場合に上記第２の入力パワーの平滑化を実行し、同一の単位時間内の上記第１の判定結果が目的音区間である場合に上記第２の入力パワーの平滑化を停止して上記第２の平滑化パワーを維持させ、
上記情報統合手段は、
上記第２の平滑化パワーを上記雑音パワー推定値とすると共に、
上記第１の判定結果、上記第２の判定結果、又は、上記第１の判定結果と上記第２の判定結果との論理和若しくは論理積を上記目的音判定情報とする
ことを特徴とする請求項６に記載の雑音抑圧装置。
上記第１の雑音環境情報は、少なくとも、上記周波数帯域の要素が目的音成分を含むか否かを判定した第１の判定結果を含み、
上記第２の雑音環境情報は、少なくとも、雑音のパワーの推定値である第２の平滑化パワーと、上記周波数帯域の要素が目的音成分を含むか否かを判定した第２の判定結果とを含み、
上記第１の雑音環境分析手段は、
上記第１の入力パワーを上記第２の平滑化パワーで除してＳＮＲ値を得るＳＮＲ算出手段と、
所定の単位時間前の上記第２の判定結果に基づいて平滑化の実行、停止を制御しながら、上記ＳＮＲ値を平滑化して平滑化ＳＮＲ値を算出するＳＮＲ平滑化手段と、
上記平滑化ＳＮＲ値を少なくとも適用してＳＮＲ比較用の閾値を算出するＳＮＲ比較用閾値算出手段と、
上記ＳＮＲ値を上記ＳＮＲ比較用閾値と比較して目的音区間か否かを判定し、上記第１の判定結果を得るＳＮＲ比較手段とを有し、
上記第２の雑音環境分析手段は、
同一の単位時間内の上記第１の判定結果に基づいて平滑化の実行、停止を制御しながら、上記第２の入力パワーを平滑化して第２の平滑化パワーを算出する第２のパワー平滑化手段と、
上記第２の平滑化パワーを少なくとも適用して第２の閾値を算出する第２の閾値算出手段と、
上記第２の入力パワーを上記第２の閾値と比較して目的音区間か否かを判定し、上記第２の判定結果を得る第２の比較手段とを有する
ことを特徴とする請求項１〜請求項５のいずれかに記載の雑音抑圧装置。
上記ＳＮＲ平滑化手段は、所定の単位時間前の上記第２の判定結果が目的音区間である場合に上記ＳＮＲ値の平滑化を実行し、所定の単位時間前の上記第２の判定結果が目的音区間でない場合に上記ＳＮＲ値の平滑化を停止して上記平滑化ＳＮＲを維持させ、
上記第２のパワー平滑化手段は、同一の単位時間内の上記第１の判定結果が目的音区間でない場合に上記第２の入力パワーの平滑化を実行し、同一の単位時間内の上記第１の判定結果が目的音区間である場合に上記第２の入力パワーの平滑化を停止して上記第２の平滑化パワーを維持させ、
上記情報統合手段は、
上記第２の平滑化パワーを上記雑音パワー推定値とし、
上記第１の判定結果、上記第２の判定結果、又は、上記第１の判定結果と上記第２の判定結果との論理和若しくは論理積を上記目的音判定情報とする
ことを特徴とする請求項８に記載の雑音抑圧装置。
入力信号に含まれる雑音成分を抑圧して目的音成分を強調する雑音抑圧プログラムであって、
コンピュータを、
入力信号を周波数解析して入力スペクトルを算出する周波数解析手段と、
上記周波数解析手段が算出した入力スペクトルのいずれかの周波数帯域に対応し、その周波数帯域の要素における雑音成分を抑圧して抑圧後スペクトルの要素を算出する、複数の帯域別雑音抑圧手段と、
上記各帯域別雑音抑圧手段の内部で利用される、時間方向及び周波数方向に滑らかな特性を有する歪無ゲインを出力する歪無ゲイン供給手段として機能させるものであり、
上記各帯域別雑音抑圧手段は、
上記入力スペクトルの要素について算出された第１の入力パワーに基づいて第１の雑音環境情報を得る第１の雑音環境分析手段と、
上記入力スペクトルの要素について算出された第２の入力パワーに基づいて第２の雑音環境情報を得る第２の雑音環境分析手段と、
上記第１の雑音環境情報及び上記第２の雑音環境情報の少なくとも一方に基づいて、雑音パワー推定値と、上記周波数帯域の要素が目的音成分を含むか否かの目的音判定情報とを少なくとも含む統合雑音環境情報を得る情報統合手段と、
上記入力スペクトルの要素と上記統合雑音環境情報とに基づいて、雑音抑圧に適用可能な抑圧ゲインを得る抑圧ゲイン算出手段と、
上記統合雑音環境情報に基づいて、上記抑圧ゲインと上記歪無ゲインとから、最終的に雑音抑圧に用いる最終抑圧ゲインを決定する最終抑圧ゲイン決定手段と、
上記入力スペクトルの要素に上記最終抑圧ゲインを乗算して抑圧後スペクトルの要素を得る乗算手段とを備え、
上記各第１の雑音環境分析手段は、同一の上記帯域別雑音抑圧手段に設けられている上記第２の雑音環境分析手段が所定の単位時間前に出力した上記第２の雑音環境情報を用いて第１の雑音環境情報を得るものであり、
上記各第２の雑音環境分析手段は、同一の上記帯域別雑音抑圧手段に設けられている上記第１の雑音環境分析手段が同一の単位時間内に出力した上記第１の雑音環境情報を用いて第２の雑音環境情報を得るものである
ことを特徴とする雑音抑圧プログラム。