JP2007212704A

JP2007212704A - 雑音スペクトル推定方法、雑音抑圧方法及び雑音抑圧装置

Info

Publication number: JP2007212704A
Application number: JP2006031909A
Authority: JP
Inventors: Michiko Kazama; 道子風間; Mikio Higashiyama; 三樹夫東山; Koji Kushida; 孝司櫛田
Original assignee: Waseda University; Yamaha Corp
Current assignee: Waseda University; Yamaha Corp
Priority date: 2006-02-09
Filing date: 2006-02-09
Publication date: 2007-08-23
Anticipated expiration: 2026-02-09
Also published as: JP4454591B2

Abstract

【課題】雑音変動追従性が良好な雑音推定を可能にする。
【解決手段】算出部５０では、現フレームの雑音スペクトルを｜Ｎ（ｋ）｜、前フレームの雑音スペクトルを｜Ｎｏ（ｋ）｜、現フレームの入力スペクトルを｜Ｘ（ｋ）｜、現フレームの５１２サンプル，４０９６サンプルの入力スペクトルをそれぞれ｜Ｘ_１（ｋ）｜，｜Ｘ_２（ｋ）｜、｜Ｘ_２（ｋ）｜，｜Ｎｏ（ｋ）｜のスペクトル包絡の相関値をρ、｜Ｎ（ｋ）｜更新制御値をｘとすると、｜Ｎ（ｋ）｜＝｜Ｎｏ（ｋ）｜・（１−ρ^ｘ）＋｜Ｘ（ｋ）｜・ρ^ｘなる式で｜Ｎ（ｋ）｜を推定する。算出部６０では｜Ｎｏ（ｋ）｜に基づき平均雑音パワーＰｎを求め、算出部６２では５１２サンプルＤｂに基づいて平均音パワーＰｂを求める。Ｐｎ＞Ｐｂ以外では｜Ｘ（ｋ）｜＝｜Ｘ_２（ｋ）｜，ｘ＝１３．５とし、Ｐｎ＞Ｐｂならば｜Ｘ（ｋ）｜＝｜Ｘ_１（ｋ）｜，ｘ＝１とし、Ｐｎ＜Ｐｂならばｘ＝７とする。
【選択図】図３

Description

この発明は、雑音抑圧等に用いるに好適な雑音スペクトル推定方法と、この雑音スペクトル推定方法及びスペクトルサブトラクション法を用いて雑音を抑圧する方法及び装置とに関するものである。

従来、音声通信技術や音声認識技術において用いられる雑音抑圧方法としては、スペクトルサブトラクション法が知られている（例えば、特許文献１〜３参照）。スペクトルサブトラクション法は、雑音が混入した音声信号から雑音のスペクトルを推定し、この推定に係る雑音のスペクトルを音声信号のスペクトルから差し引くことにより雑音が抑圧された音声信号を得るものである。
特開平１１−３０９４号公報特開２００２−１４６９４号公報特開２００３−２２３１８６号公報

従来のスペクトルサブトラクション法によると、有音声区間（音声と雑音が混在する区間）と無音声区間（音声がなく、雑音のみ存在する区間）とで同様に雑音推定が行なわれるため、主として無音声区間において新たな雑音を雑音スペクトルの推定に十分反映させることができず、十分な雑音抑圧が困難であった。このような問題点を解決するため、現フレームの音入力のスペクトル包絡と前フレームの推定雑音のスペクトル包絡との相関値を求め、相関値が大きい無音声区間では新たな雑音を雑音スペクトルの推定に十分に反映させるようにした雑音スペクトル推定方法が本願と同一出願人により先に提案された（特願２００４−１００９３５号）。

また、従来のスペクトルサブトラクション法によると、雑音スペクトルの推定に用いる音入力のフレーム長（サンプル数）と、推定に係る雑音スペクトルを減算すべき被減算側の音入力のフレーム長とが例えば５１２サンプルで等しかったため、雑音スペクトルの推定では周波数分解能が不足し、十分な雑音抑圧が困難であった。雑音スペクトルの推定に用いる音入力のフレーム長を十分な周波数分解能となるように例えば４０９６サンプルとすることも考えられるが、このようにすると、被減算側の音入力のフレーム長も４０９６サンプルとなるため、被減算側の振幅スペクトルの時間分解能が不足する事態を招く。このような問題点を解決するため、雑音スペクトルの推定に用いる音入力のフレーム長を被減算側の音入力フレーム長（例えば５１２サンプル）より長く設定（例えば４０９６サンプルに設定）することで高精度の雑音スペクトルの推定を可能にする方法が本願と同一出願人により先に提案された（特願２００５−１４４７４４号）。

図８は、本願の発明者の研究に係る雑音抑圧処理を示すもので、この処理では、上記した２つの先行出願技術が採用されている。

図８において、音入力ｘ（ｎ）（ｎ＝０，１，２…）は、入力音波形をＡ／Ｄ（アナログ／ディジタル）変換した波形データのサンプル列からなるものである。入力音波形としては、雑音付き音声信号波形のことが多いが、音声信号波形のみであったり、雑音波形のみであったりすることもある。ステップＳ１では、音入力ｘ（ｎ）を雑音抑圧用フレーム（雑音抑圧の対象となるフレーム）として比較的短いフレーム長（時間窓長）で切り出す。また、ステップＳ２では、音入力ｘ（ｎ）を雑音推定用フレーム（雑音スペクトルの推定に用いられるフレーム）として比較的長いフレーム長で切り出す。ステップＳ１，Ｓ２でのフレーム切り出しは、フレームの頭を時間的に揃えて行なわれる。

一例として、サンプリング周波数が１６ｋＨｚである場合、ステップＳ１での切り出しは、５１２サンプルの長さで行なわれ、ステップＳ２での切り出しは、４０９６サンプルの長さで行なわれる。また、Ｓ１，Ｓ２のいずれのステップでも、フレームの切り出しは、雑音抑圧用フレームの半分の周期で行なわれる。

ステップＳ３では、後述するステップＳ１１での減算処理の際にサンプル数を揃える必要があるため、ステップＳ１で切り出された短いフレームにゼロデータを付加する。上記した５１２サンプルの例では、４０９６−５１２＝３５８４サンプル分のゼロデータを短いフレーム毎に付加する。

ステップＳ４では、ゼロデータを付加した各フレームデータに高速フーリエ変換（ＦＦＴ：Fast Fourier Transform）処理を施して周波数分析を行なう。そして、周波数分析データに基づいて各フレーム毎に振幅スペクトル｜Ｘ_１（ｋ）｜（ｋ＝０，１，２…Ｎ−１：Ｎはサンプル数）及び位相スペクトルを算出する。ステップＳ５では、各長いフレームデータにＦＦＴ処理を施して周波数分析を行ない、周波数分析データに基づいて振幅スペクトル｜Ｘ_２（ｋ）｜（ｋ＝０，１，２…Ｎ−１）を算出する。

ステップＳ６では、振幅スペクトル｜Ｘ_２（ｋ）｜に平滑化処理を施す。そして、ステップＳ７では、平滑化処理を受けた振幅スペクトル｜Ｘ_２’（ｋ）｜からスペクトル包絡｜Ｘ_２”（ｋ）｜を抽出すると共に、後述のステップＳ１０で得られる推定雑音振幅スペクトル｜Ｎｏ（ｋ）｜からスペクトル包絡｜Ｎｏ’ （ｋ）｜を抽出する。スペクトル｜Ｘ_２（ｋ）｜を今回算出されたものとすると、スペクトル｜Ｎｏ（ｋ）｜は、前回算出されたものである。

ステップＳ８では、スペクトル包絡｜Ｘ_２”（ｋ）｜とスペクトル包絡｜Ｎｏ’（ｋ）｜との相関を求め、相関値ρを算出する。相関値ρの計算式については後述する。相関値ρは、０〜１の範囲内の値をとり、雑音のある有音声区間では小さく、雑音のみある無音声区間では大きくなる。

ステップＳ９では、今回算出された振幅スペクトル｜Ｘ_２（ｋ）｜と、前回算出された雑音振幅スペクトル｜Ｎｏ（ｋ）｜とを相関値ρに応じた比率で加算（混合）することにより今回用いるべき雑音振幅スペクトル｜Ｎ（ｋ）｜を所定の推定式に従って算出する。スペクトル｜Ｎ（ｋ）｜の推定式については後述する。相関値ρが小さい有音声区間では、相関値ρが大きいときに比べて、前回の雑音振幅スペクトル｜Ｎｏ（ｋ）｜の比率を高くすると共に今回の振幅スペクトル｜Ｘ_２（ｋ）｜の比率を低くすることで推定に係る雑音振幅スペクトル｜Ｎ（ｋ）｜の更新を抑制する。これに対し、相関値ρが大きい無音声区間では、相関値ρが小さいときに比べて、前回の雑音振幅スペクトル｜Ｎｏ（ｋ）｜の比率を低くすると共に今回の振幅スペクトル｜Ｘ_２（ｋ）｜の比率を高くすることで推定に係る雑音振幅スペクトル｜Ｎ（ｋ）｜の更新を促進する。

ステップＳ１０では、推定に係る雑音振幅スペクトル｜Ｎ（ｋ）｜を半フレーム相当の時間だけ遅延させて雑音振幅スペクトル｜Ｎｏ（ｋ）｜として前述のステップＳ７，Ｓ９に供給する。なお、システム起動時において、ステップＳ１０では所定の雑音振幅スペクトル初期値をステップＳ７，Ｓ９に供給する。

ステップＳ１１では、ステップＳ４で得られた今回の振幅スペクトル｜Ｘ_１（ｋ）｜からステップＳ９で得られた今回の雑音振幅スペクトル｜Ｎ（ｋ）｜を減算することにより雑音抑圧を行なう。この後、ステップＳ１１では、雑音抑圧に係る振幅スペクトルとステップＳ４で得られた対応する位相スペクトルとを合成して各フレーム毎に音声スペクトルＧ（ｋ）を作成する。

ステップＳ１２では、各フレームの音声スペクトルＧ（ｋ）に逆高速フーリエ変換（Ｉ−ＦＦＴ）処理を施して時間領域の音声信号（音声波形データのサンプル列）を得る。そして、ステップＳ１３では、各フレームの音声信号からステップＳ３での付加に係る３８５４サンプル分のゼロデータを削除する。この後、ステップＳ１３では、各フレームの音声信号に三角窓関数を乗算すると共に順次の２フレームの音声信号を半フレームずつオーバーラップさせるように加算することによりフレーム合成を行なう。この結果、雑音が抑圧された音声出力ｇ（ｎ）が得られる。

上記した雑音抑圧処理によれば、ステップＳ９において無音声区間での推定雑音スペクトルの更新を促進するようにしたので、無音声区間で十分な雑音抑圧が可能となる。また、ステップＳ２において音入力をステップＳ１に比べて長いフレームで切り出すようにしたので、ステップＳ９では長いフレームの振幅スペクトル｜Ｘ_２（ｋ）｜，｜Ｎｏ（ｋ）｜に基づいて高精度の雑音スペクトルの推定を行なうことができ、十分な雑音抑圧が可能となる。しかしながら、上記した雑音抑圧処理では、例えば空調雑音のオン／オフ等の雑音変動に対応することを考慮した場合、ステップＳ９において長いフレーム長の振幅スペクトルを用いているため、雑音のオン又はオフに対する推定雑音振幅スペクトル｜Ｎ（ｋ）｜の更新が緩慢であり、雑音変動に対する追従性が十分でない（応答速度が遅い）という問題点がある。

この発明の目的は、雑音変動に対する追従性が良好な新規な雑音スペクトル推定方法と、この雑音スペクトル推定方法及びスペクトルサブトラクション法を用いて雑音を抑圧するための新規な方法及び装置とを提供することにある。

この発明に係る雑音スペクトル推定方法は、
入力音波形のサンプル列を比較的短い第１のフレーム長で切り出して現フレームの第１のサンプル列を得るステップと、
前記入力音波形のサンプル列を比較的長い第２のフレーム長で前記現フレームより前に切り出して前フレームの第２のサンプル列を得た後、前記入力音波形のサンプル列を前記第２のフレーム長で前記現フレームに同期して切り出して現フレームの第２のサンプル列を得るステップと、
前記現フレームの第１のサンプル列を周波数分析して現フレームの第１のスペクトルを得るステップと、
前記前フレームの第２のサンプル列を周波数分析して前フレームの第２のスペクトルを得た後、前記現フレームの第２のサンプル列を周波数分析して現フレームの第２のスペクトルを得るステップと、
前記前フレームの第２のスペクトルに基づいて前フレームの雑音スペクトルを推定するステップと、
前記前フレームの雑音スペクトルに基づいて前フレーム内の平均雑音パワーを算出するステップと、
前記現フレームの第１及び第２のサンプル列のうちのいずれか一方のサンプル列に基づいて現フレーム内の平均音パワーを算出するステップと、
前記前フレームの雑音スペクトルに基づいて現フレームの雑音スペクトルを推定するステップと、
前記平均雑音パワーと前記平均音パワーとを比較し、その比較結果に応じて前記現フレームの雑音スペクトルの推定態様を制御するステップと
を含むものである。この雑音スペクトル推定方法は、以下に述べる第１〜第３の雑音スペクトル推定方法として具体化することができる。

この発明に係る第１の雑音スペクトル推定方法は、
入力音波形のサンプル列を比較的短い第１のフレーム長で切り出して現フレームの第１のサンプル列を得るステップと、
前記入力音波形のサンプル列を比較的長い第２のフレーム長で前記現フレームより前に切り出して前フレームの第２のサンプル列を得た後、前記入力音波形のサンプル列を前記第２のフレーム長で前記現フレームに同期して切り出して現フレームの第２のサンプル列を得るステップと、
前記現フレームの第１のサンプル列を周波数分析して現フレームの第１のスペクトルを得るステップと、
前記前フレームの第２のサンプル列を周波数分析して前フレームの第２のスペクトルを得た後、前記現フレームの第２のサンプル列を周波数分析して現フレームの第２のスペクトルを得るステップと、
前記前フレームの第２のスペクトルに基づいて前フレームの雑音スペクトルを推定するステップと、
前記前フレームの雑音スペクトルに基づいて前フレーム内の平均雑音パワーを算出するステップと、
前記現フレームの第１及び第２のサンプル列のうちのいずれか一方のサンプル列に基づいて現フレーム内の平均音パワーを算出するステップと、
前記平均雑音パワーと前記平均音パワーとを比較して前記平均雑音パワーの方が前記平均音パワーより大きいことを検知するステップと、
前記検知するステップで前記平均雑音パワーの方が大きいことが検知されないときは前記前フレームの雑音スペクトルと前記現フレームの第２のスペクトルとに基づいて現フレームの雑音スペクトルを推定し、前記検知するステップで前記平均雑音パワーの方が大きいことが検知されたときは前記前フレームの雑音スペクトルと前記現フレームの第１のスペクトルとに基づいて現フレームの雑音スペクトルを推定するステップと
を含むものである。

第１の雑音スペクトル推定方法によれば、前フレーム内の平均雑音パワーの方が大きいことが検知されないときは前フレームの雑音スペクトルと現フレームの第２のスペクトルとに基づいて現フレームの雑音スペクトルを推定すると共に、前フレーム内の平均雑音パワーの方が大きいことが検知されたときは前フレームの雑音スペクトルと現フレームの第１のスペクトルとに基づいて現フレームの雑音スペクトルを推定するようにしたので、前フレーム内の平均雑音パワーが現フレーム内の平均音パワー以下である時は、フレーム長が長い現フレームの第２のスペクトルを用いて精度良く雑音スペクトルの推定を行なえると共に、前フレーム内の平均雑音パワーの方が大きくなる雑音減少時には、フレーム長が短い現フレームの第１のスペクトルを用いて追従性良く雑音スペクトルの推定を行なえる。

この発明に係る第２の雑音スペクトル推定方法は、
入力音波形のサンプル列を比較的短い第１のフレーム長で切り出して現フレームの第１のサンプル列を得るステップと、
前記入力音波形のサンプル列を比較的長い第２のフレーム長で前記現フレームより前に切り出して前フレームの第２のサンプル列を得た後、前記入力音波形のサンプル列を前記第２のフレーム長で前記現フレームに同期して切り出して現フレームの第２のサンプル列を得るステップと、
前記現フレームの第１のサンプル列を周波数分析して現フレームの第１のスペクトルを得るステップと、
前記前フレームの第２のサンプル列を周波数分析して前フレームの第２のスペクトルを得た後、前記現フレームの第２のサンプル列を周波数分析して現フレームの第２のスペクトルを得るステップと、
前記前フレームの第２のスペクトルに基づいて前フレームの雑音スペクトルを推定するステップと、
前記前フレームの雑音スペクトルに基づいて前フレーム内の平均雑音パワーを算出するステップと、
前記現フレームの第１及び第２のサンプル列のうちのいずれか一方のサンプル列に基づいて現フレーム内の平均音パワーを算出するステップと、
前記平均雑音パワーと前記平均音パワーとを比較して前記平均雑音パワーの方が前記平均音パワーより大きいことを検知するステップと、
前記前フレームの雑音スペクトルと前記現フレームの第１及び第２のスペクトルのうちのいずれか一方のスペクトルとを混合して現フレームの雑音スペクトルを推定するステップと、
前記検知するステップで前記平均雑音パワーの方が大きいことが検知されるのに応答して前記前フレームの雑音スペクトルに対する前記一方のスペクトルの混合比率を増大すべく制御するステップと
を含むものである。

第２の雑音スペクトル推定方法によれば、前フレームの雑音スペクトルと現フレームの第１及び第２のスペクトルのうちのいずれか一方のスペクトルとを混合して現フレームの雑音スペクトルを推定する際に、前フレーム内の平均雑音パワーの方が大きいことが検知されるのに応答して前フレームの雑音スペクトルに対する前記一方のスペクトルの混合比率を増大すべく制御するようにしたので、前フレーム内の平均雑音パワーの方が大きくなる雑音減少時には、前記一方のスペクトルの混合比率の増大により現フレームの雑音スペクトルの更新が促進され、追従性良好な雑音スペクトルの推定が可能となる。

第２の雑音スペクトル推定方法において、前記一方のスペクトルとして前記第１のスペクトルを用いる場合は、前述した第１の雑音スペクトル推定方法と組合せるのに好適であり、このようにすると、雑音減少時に雑音スペクトルを推定する際に追従性を一層向上させることができる。また、第２の雑音スペクトル推定方法において、前記一方のスペクトルとして前記第２のスペクトルを用いる場合は、前記第２のスペクトルのフレーム長が長いので、精度良く雑音スペクトルの推定を行なうことができる。

この発明に係る第３の雑音スペクトル推定方法は、
入力音波形のサンプル列を比較的短い第１のフレーム長で切り出して現フレームの第１のサンプル列を得るステップと、
前記入力音波形のサンプル列を比較的長い第２のフレーム長で前記現フレームより前に切り出して前フレームの第２のサンプル列を得た後、前記入力音波形のサンプル列を前記第２のフレーム長で前記現フレームに同期して切り出して現フレームの第２のサンプル列を得るステップと、
前記現フレームの第１のサンプル列を周波数分析して現フレームの第１のスペクトルを得るステップと、
前記前フレームの第２のサンプル列を周波数分析して前フレームの第２のスペクトルを得た後、前記現フレームの第２のサンプル列を周波数分析して現フレームの第２のスペクトルを得るステップと、
前記前フレームの第２のスペクトルに基づいて前フレームの雑音スペクトルを推定するステップと、
前記前フレームの雑音スペクトルに基づいて前フレーム内の平均雑音パワーを算出するステップと、
前記現フレームの第１及び第２のサンプル列のうちのいずれか一方のサンプル列に基づいて現フレーム内の平均音パワーを算出するステップと、
前記平均雑音パワーと前記平均音パワーとを比較して前記平均雑音パワーの方が前記平均音パワーより小さいことを検知するステップと、
前記前フレームの雑音スペクトルと前記現フレームの第２のスペクトルとを混合して現フレームの雑音スペクトルを推定するステップと、
前記検知するステップで前記平均雑音パワーの方が小さいことが検知されるのに応答して前記前フレームの雑音スペクトルに対する前記現フレームの第２のスペクトルの混合比率を増大すべく制御するステップと
を含むものである。

第３の雑音スペクトル推定方法によれば、前フレームの雑音スペクトルと現フレームの第２のスペクトルとを混合して現フレームの雑音スペクトルを推定する際に、前フレーム内の平均雑音パワーの方が小さいことが検知されるのに応答して前フレームの雑音スペクトルに対する現フレームの第２のスペクトルの混合比率を増大すべく制御するようにしたので、前フレーム内の平均雑音パワーの方が小さくなる雑音増大時には、現フレームの第２のスペクトルの混合比率の増大により現フレームの雑音スペクトルの更新が促進され、追従性良好な雑音スペクトルの推定が可能となる。また、第３の雑音スペクトル推定方法では、前フレームの雑音スペクトルと現フレームの第２のスペクトルとを混合して現フレームの雑音スペクトルを推定しているので、フレーム長が長いスペクトルを用いて精度良く雑音スペクトルを推定することができる。

第３の雑音スペクトル推定方法において、前記現フレームの雑音スペクトルを推定するステップでは、前記前フレームの平均雑音パワーと該前フレームより前の複数フレームの平均雑音パワーとを記憶すると共に記憶に係る平均雑音パワーのうちで最小の平均雑音パワーを検知し、検知に係る最小の平均雑音パワーと前記前フレームの平均雑音パターとを比較して前記前フレームの平均雑音パワーの方が前記検知に係る最小の平均雑音パワーより小さいことを条件として前記前フレームの雑音スペクトルに対する前記現フレームの第２のスペクトルの混合比率を増大すべく制御するようにしてもよい。このようにすると、雑音増大を一層確実に検知可能となる。

この発明に係る雑音抑圧方法は、
入力音波形のサンプル列を比較的短い第１のフレーム長で切り出して現フレームの第１のサンプル列を得るステップと、
前記入力音波形のサンプル列を比較的長い第２のフレーム長で前記現フレームより前に切り出して前フレームの第２のサンプル列を得た後、前記入力音波形のサンプル列を前記第２のフレーム長で前記現フレームに同期して切り出して現フレームの第２のサンプル列を得るステップと、
前記現フレームの第１のサンプル列のフレーム長が前記現フレームの第２のサンプル列のフレーム長と等しくなるように前記現フレームの第１のサンプル列の末尾にゼロデータを付加するステップと、
前記ゼロデータが付加された現フレームの第１のサンプル列を周波数分析して現フレームの第１のスペクトルを得るステップと、
前記前フレームの第２のサンプル列を周波数分析して前フレームの第２のスペクトルを得た後、前記現フレームの第２のサンプル列を周波数分析して現フレームの第２のスペクトルを得るステップと、
前記前フレームの第２のスペクトルに基づいて前フレームの雑音スペクトルを推定するステップと、
前記前フレームの雑音スペクトルに基づいて前フレーム内の平均雑音パワーを算出するステップと、
前記現フレームの第１及び第２のサンプル列のうちのいずれか一方のサンプル列に基づいて現フレーム内の平均音パワーを算出するステップと、
前記前フレームの雑音スペクトルに基づいて現フレームの雑音スペクトルを推定するステップと、
前記平均雑音パワーと前記平均音パワーとを比較し、その比較結果に応じて前記現フレームの雑音スペクトルの推定態様を制御するステップと、
前記現フレームの第１のスペクトルから前記現フレームの雑音スペクトルを減算して雑音が抑圧された音スペクトルを得るステップと
を含むものである。この雑音抑圧方法は、以下に述べる第１〜第３の雑音抑圧方法として具体化することができる。

この発明に係る第１の雑音抑圧方法は、
入力音波形のサンプル列を比較的短い第１のフレーム長で切り出して現フレームの第１のサンプル列を得るステップと、
前記入力音波形のサンプル列を比較的長い第２のフレーム長で前記現フレームより前に切り出して前フレームの第２のサンプル列を得た後、前記入力音波形のサンプル列を前記第２のフレーム長で前記現フレームに同期して切り出して現フレームの第２のサンプル列を得るステップと、
前記現フレームの第１のサンプル列のフレーム長が前記現フレームの第２のサンプル列のフレーム長と等しくなるように前記現フレームの第１のサンプル列の末尾にゼロデータを付加するステップと、
前記ゼロデータが付加された現フレームの第１のサンプル列を周波数分析して現フレームの第１のスペクトルを得るステップと、
前記前フレームの第２のサンプル列を周波数分析して前フレームの第２のスペクトルを得た後、前記現フレームの第２のサンプル列を周波数分析して現フレームの第２のスペクトルを得るステップと、
前記前フレームの第２のスペクトルに基づいて前フレームの雑音スペクトルを推定するステップと、
前記前フレームの雑音スペクトルに基づいて前フレーム内の平均雑音パワーを算出するステップと、
前記現フレームの第１及び第２のサンプル列のうちのいずれか一方のサンプル列に基づいて現フレーム内の平均音パワーを算出するステップと、
前記平均雑音パワーと前記平均音パワーとを比較して前記平均雑音パワーの方が前記平均音パワーより大きいことを検知するステップと、
前記検知するステップで前記平均雑音パワーの方が大きいことが検知されないときは前記前フレームの雑音スペクトルと前記現フレームの第２のスペクトルとに基づいて現フレームの雑音スペクトルを推定し、前記検知するステップで前記平均雑音パワーの方が大きいことが検知されたときは前記前フレームの雑音スペクトルと前記現フレームの第１のスペクトルとに基づいて現フレームの雑音スペクトルを推定するステップと、
前記現フレームの第１のスペクトルから前記現フレームの雑音スペクトルを減算して雑音が抑圧された音スペクトルを得るステップと
を含むものである。

第１の雑音抑圧方法によれば、前述した第１の雑音スペクトル推定方法及びスペクトルサブトラクション法を用いて雑音抑圧を行なうので、雑音抑圧性能を向上させることができ、特に雑音減少時の雑音抑圧性能を向上させることができる。第１の雑音抑圧方法では、現フレームの第１のサンプル列の末尾にゼロデータを付加して現フレームの第１のサンプル列と現フレームの第２のサンプル列とでフレーム長を等しくしている。これは、現フレームの第１のスペクトルから現フレームの雑音スペクトルを減算する際にデータ長（サンプル数）を揃える必要があるためである。

この発明に係る第２の雑音抑圧方法は、
入力音波形のサンプル列を比較的短い第１のフレーム長で切り出して現フレームの第１のサンプル列を得るステップと、
前記入力音波形のサンプル列を比較的長い第２のフレーム長で前記現フレームより前に切り出して前フレームの第２のサンプル列を得た後、前記入力音波形のサンプル列を前記第２のフレーム長で前記現フレームに同期して切り出して現フレームの第２のサンプル列を得るステップと、
前記現フレームの第１のサンプル列のフレーム長が前記現フレームの第２のサンプル列のフレーム長と等しくなるように前記現フレームの第１のサンプル列の末尾にゼロデータを付加するステップと、
前記ゼロデータが付加された現フレームの第１のサンプル列を周波数分析して現フレームの第１のスペクトルを得るステップと、
前記前フレームの第２のサンプル列を周波数分析して前フレームの第２のスペクトルを得た後、前記現フレームの第２のサンプル列を周波数分析して現フレームの第２のスペクトルを得るステップと、
前記前フレームの第２のスペクトルに基づいて前フレームの雑音スペクトルを推定するステップと、
前記前フレームの雑音スペクトルに基づいて前フレーム内の平均雑音パワーを算出するステップと、
前記現フレームの第１及び第２のサンプル列のうちのいずれか一方のサンプル列に基づいて現フレーム内の平均音パワーを算出するステップと、
前記平均雑音パワーと前記平均音パワーとを比較して前記平均雑音パワーの方が前記平均音パワーより大きいことを検知するステップと、
前記前フレームの雑音スペクトルと前記現フレームの第１及び第２のスペクトルのうちのいずれか一方のスペクトルとを混合して現フレームの雑音スペクトルを推定するステップと、
前記検知するステップで前記平均雑音パワーの方が大きいことが検知されるのに応答して前記前フレームの雑音スペクトルに対する前記一方のスペクトルの混合比率を増大すべく制御するステップと、
前記現フレームの第１のスペクトルから前記現フレームの雑音スペクトルを減算して雑音が抑圧された音スペクトルを得るステップと
を含むものである。

第２の雑音抑圧方法によれば、前述した第２の雑音スペクトル推定方法及びスペクトルサブトラクション法を用いて雑音抑圧を行なうので、雑音減少時の雑音抑圧性能を向上させることができる。

この発明に係る第３の雑音抑圧方法は、
入力音波形のサンプル列を比較的短い第１のフレーム長で切り出して現フレームの第１のサンプル列を得るステップと、
前記入力音波形のサンプル列を比較的長い第２のフレーム長で前記現フレームより前に切り出して前フレームの第２のサンプル列を得た後、前記入力音波形のサンプル列を前記第２のフレーム長で前記現フレームに同期して切り出して現フレームの第２のサンプル列を得るステップと、
前記現フレームの第１のサンプル列のフレーム長が前記現フレームの第２のサンプル列のフレーム長と等しくなるように前記現フレームの第１のサンプル列の末尾にゼロデータを付加するステップと、
前記ゼロデータが付加された現フレームの第１のサンプル列を周波数分析して現フレームの第１のスペクトルを得るステップと、
前記前フレームの第２のサンプル列を周波数分析して前フレームの第２のスペクトルを得た後、前記現フレームの第２のサンプル列を周波数分析して現フレームの第２のスペクトルを得るステップと、
前記前フレームの第２のスペクトルに基づいて前フレームの雑音スペクトルを推定するステップと、
前記前フレームの雑音スペクトルに基づいて前フレーム内の平均雑音パワーを算出するステップと、
前記現フレームの第１及び第２のサンプル列のうちのいずれか一方のサンプル列に基づいて現フレーム内の平均音パワーを算出するステップと、
前記平均雑音パワーと前記平均音パワーとを比較して前記平均雑音パワーの方が前記平均音パワーより小さいことを検知するステップと、
前記前フレームの雑音スペクトルと前記現フレームの第２のスペクトルとを混合して現フレームの雑音スペクトルを推定するステップと、
前記検知するステップで前記平均雑音パワーの方が小さいことが検知されるのに応答して前記前フレームの雑音スペクトルに対する前記現フレームの第２のスペクトルの混合比率を増大すべく制御するステップと、
前記現フレームの第１のスペクトルから前記現フレームの雑音スペクトルを減算して雑音が抑圧された音スペクトルを得るステップと
を含むものである。

第３の雑音抑圧方法によれば、前述した第３の雑音スペクトル推定方法及びスペクトルサブトラクション法を用いて雑音抑圧を行なうので、雑音抑圧性能を向上させることができ、特に雑音増大時の雑音抑圧性能を向上させることができる。

この発明に係る雑音抑圧装置は、
入力音波形のサンプル列を比較的短い第１のフレーム長で切り出して現フレームの第１のサンプル列を生成する第１の切出手段と、
前記入力音波形のサンプル列を比較的長い第２のフレーム長で前記現フレームより前に切り出して前フレームの第２のサンプル列を生成した後、前記入力音波形のサンプル列を前記第２のフレーム長で前記現フレームに同期して切り出して現フレームの第２のサンプル列を生成する第２の切出手段と、
前記現フレームの第１のサンプル列のフレーム長が前記現フレームの第２のサンプル列のフレーム長と等しくなるように前記現フレームの第１のサンプル列の末尾にゼロデータを付加する付加手段と、
前記ゼロデータが付加された現フレームの第１のサンプル列を周波数分析して現フレームの第１のスペクトルを生成する第１の分析手段と、
前記前フレームの第２のサンプル列を周波数分析して前フレームの第２のスペクトルを生成した後、前記現フレームの第２のサンプル列を周波数分析して現フレームの第２のスペクトルを生成する第２の分析手段と、
前記前フレームの第２のスペクトルに基づいて前フレームの雑音スペクトルを推定する第１の推定手段と、
前記前フレームの雑音スペクトルに基づいて前フレーム内の平均雑音パワーを算出する第１の算出手段と、
前記現フレームの第１及び第２のサンプル列のうちのいずれか一方のサンプル列に基づいて現フレーム内の平均音パワーを算出する第２の算出手段と、
前記前フレームの雑音スペクトルに基づいて現フレームの雑音スペクトルを推定する第２の推定手段と、
前記平均雑音パワーと前記平均音パワーとを比較し、その比較結果に応じて前記現フレームの雑音スペクトルの推定態様を制御する制御手段と、
前記現フレームの第１のスペクトルから前記現フレームの雑音スペクトルを減算して雑音が抑圧された音スペクトルを生成する減算手段と
を備えたものである。この雑音抑圧装置は、以下に述べる第１〜第３の雑音抑圧装置として具体化することができる。

この発明に係る第１の雑音抑圧装置は、
入力音波形のサンプル列を比較的短い第１のフレーム長で切り出して現フレームの第１のサンプル列を生成する第１の切出手段と、
前記入力音波形のサンプル列を比較的長い第２のフレーム長で前記現フレームより前に切り出して前フレームの第２のサンプル列を生成した後、前記入力音波形のサンプル列を前記第２のフレーム長で前記現フレームに同期して切り出して現フレームの第２のサンプル列を生成する第２の切出手段と、
前記現フレームの第１のサンプル列のフレーム長が前記現フレームの第２のサンプル列のフレーム長と等しくなるように前記現フレームの第１のサンプル列の末尾にゼロデータを付加する付加手段と、
前記ゼロデータが付加された現フレームの第１のサンプル列を周波数分析して現フレームの第１のスペクトルを生成する第１の分析手段と、
前記前フレームの第２のサンプル列を周波数分析して前フレームの第２のスペクトルを生成した後、前記現フレームの第２のサンプル列を周波数分析して現フレームの第２のスペクトルを生成する第２の分析手段と、
前記前フレームの第２のスペクトルに基づいて前フレームの雑音スペクトルを推定する第１の推定手段と、
前記前フレームの雑音スペクトルに基づいて前フレーム内の平均雑音パワーを算出する第１の算出手段と、
前記現フレームの第１及び第２のサンプル列のうちのいずれか一方のサンプル列に基づいて現フレーム内の平均音パワーを算出する第２の算出手段と、
前記平均雑音パワーと前記平均音パワーとを比較して前記平均雑音パワーの方が前記平均音パワーより大きいことを検知する検知手段と、
前記検知手段で前記平均雑音パワーの方が大きいことが検知されないときは前記前フレームの雑音スペクトルと前記現フレームの第２のスペクトルとに基づいて現フレームの雑音スペクトルを推定し、前記検知手段で前記平均雑音パワーの方が大きいことが検知されたときは前記前フレームの雑音スペクトルと前記現フレームの第１のスペクトルとに基づいて現フレームの雑音スペクトルを推定する第２の推定手段と、
前記現フレームの第１のスペクトルから前記現フレームの雑音スペクトルを減算して雑音が抑圧された音スペクトルを生成する減算手段と
を備えたものである。

第１の雑音抑圧装置は、前述した第１の雑音抑圧方法を実行するもので、第１の雑音抑圧方法と同様の作用効果を奏する。

この発明に係る第２の雑音抑圧装置は、
入力音波形のサンプル列を比較的短い第１のフレーム長で切り出して現フレームの第１のサンプル列を生成する第１の切出手段と、
前記入力音波形のサンプル列を比較的長い第２のフレーム長で前記現フレームより前に切り出して前フレームの第２のサンプル列を生成した後、前記入力音波形のサンプル列を前記第２のフレーム長で前記現フレームに同期して切り出して現フレームの第２のサンプル列を生成する第２の切出手段と、
前記現フレームの第１のサンプル列のフレーム長が前記現フレームの第２のサンプル列のフレーム長と等しくなるように前記現フレームの第１のサンプル列の末尾にゼロデータを付加する付加手段と、
前記ゼロデータが付加された現フレームの第１のサンプル列を周波数分析して現フレームの第１のスペクトルを生成する第１の分析手段と、
前記前フレームの第２のサンプル列を周波数分析して前フレームの第２のスペクトルを生成した後、前記現フレームの第２のサンプル列を周波数分析して現フレームの第２のスペクトルを生成する第２の分析手段と、
前記前フレームの第２のスペクトルに基づいて前フレームの雑音スペクトルを推定する第１の推定手段と、
前記前フレームの雑音スペクトルに基づいて前フレーム内の平均雑音パワーを算出する第１の算出手段と、
前記現フレームの第１及び第２のサンプル列のうちのいずれか一方のサンプル列に基づいて現フレーム内の平均音パワーを算出する第２の算出手段と、
前記平均雑音パワーと前記平均音パワーとを比較して前記平均雑音パワーの方が前記平均音パワーより大きいことを検知する検知手段と、
前記前フレームの雑音スペクトルと前記現フレームの第１及び第２のスペクトルのうちのいずれか一方のスペクトルとを混合して現フレームの雑音スペクトルを推定する第２の推定手段と、
前記検知手段で前記平均雑音パワーの方が大きいことが検知されるのに応答して前記前フレームの雑音スペクトルに対する前記一方のスペクトルの混合比率を増大すべく制御する制御手段と、
前記現フレームの第１のスペクトルから前記現フレームの雑音スペクトルを減算して雑音が抑圧された音スペクトルを生成する減算手段と
を備えたものである。

第２の雑音抑圧装置は、前述した第２の雑音抑圧方法を実行するもので、第２の雑音抑圧方法と同様の作用効果を奏する。

この発明に係る第３の雑音抑圧装置は、
入力音波形のサンプル列を比較的短い第１のフレーム長で切り出して現フレームの第１のサンプル列を生成する第１の切出手段と、
前記入力音波形のサンプル列を比較的長い第２のフレーム長で前記現フレームより前に切り出して前フレームの第２のサンプル列を生成した後、前記入力音波形のサンプル列を前記第２のフレーム長で前記現フレームに同期して切り出して現フレームの第２のサンプル列を生成する第２の切出手段と、
前記現フレームの第１のサンプル列のフレーム長が前記現フレームの第２のサンプル列のフレーム長と等しくなるように前記現フレームの第１のサンプル列の末尾にゼロデータを付加する付加手段と、
前記ゼロデータが付加された現フレームの第１のサンプル列を周波数分析して現フレームの第１のスペクトルを生成する第１の分析手段と、
前記前フレームの第２のサンプル列を周波数分析して前フレームの第２のスペクトルを生成した後、前記現フレームの第２のサンプル列を周波数分析して現フレームの第２のスペクトルを生成する第２の分析手段と、
前記前フレームの第２のスペクトルに基づいて前フレームの雑音スペクトルを推定する第１の推定手段と、
前記前フレームの雑音スペクトルに基づいて前フレーム内の平均雑音パワーを算出する第１の算出手段と、
前記現フレームの第１及び第２のサンプル列のうちのいずれか一方のサンプル列に基づいて現フレーム内の平均音パワーを算出する第２の算出手段と、
前記平均雑音パワーと前記平均音パワーとを比較して前記平均雑音パワーの方が前記平均音パワーより小さいことを検知する検知手段と、
前記前フレームの雑音スペクトルと前記現フレームの第２のスペクトルとを混合して現フレームの雑音スペクトルを推定する第２の推定手段と、
前記検知手段で前記平均雑音パワーの方が小さいことが検知されるのに応答して前記前フレームの雑音スペクトルに対する前記現フレームの第２のスペクトルの混合比率を増大すべく制御する制御手段と、
前記現フレームの第１のスペクトルから前記現フレームの雑音スペクトルを減算して雑音が抑圧された音スペクトルを生成する減算手段と
を備えたものである。

第３の雑音抑圧装置は、前述した第３の雑音抑圧方法を実行するもので、第３の雑音抑圧方法と同様の作用効果を奏する。

この発明によれば、前フレーム内の平均雑音パワーと現フレーム内の平均音パワーとを比較し、平均雑音パワーの方が大きい雑音減少時には現フレームの音入力の振幅スペクトルとしてフレーム長が短い振幅スペクトルを用いたり、前フレームの雑音スペクトルに対する現フレームの音入力の振幅スペクトルの混合比率を増大させたりして雑音スペクトルの更新を促進し、平均雑音パワーの方が小さい雑音増大時には前フレームの雑音スペクトルに対する現フレームの音入力の振幅スペクトルの混合比率を増大させて雑音スペクトルの更新を促進するようにしたので、雑音変動に対する追従性が良好な雑音スペクトルの推定が可能になる効果が得られる。

また、この発明の雑音スペクトル推定方法及びスペクトルサブトラクション法を用いて雑音抑圧を行なうようにしたので、雑音減少時や雑音増大時の雑音抑圧性能が向上する効果も得られる。

図１は、この発明の一実施形態に係る雑音抑圧装置の構成を示すもので、この雑音抑圧装置は、雑音抑圧部１２及び雑音スペクトル出力部１４を備えている。

図１において、音入力ｘ（ｎ）は、図８に関して前述したと同様の入力音波形のサンプル列からなるもので、雑音抑圧部１２のフレーム切出部３２と、雑音スペクトル出力部１４のフレーム切出部１６とに共通に供給される。フレーム切出部３２は、図２に示すように音入力ｘ（ｎ）のサンプル列を比較的短いフレーム長Ｔ１（Ｍサンプル）で順次に切り出すものである。切出部３２の切出動作は、あるフレームのサンプル列Ｄ１１ｂの切り出しから次のフレームのサンプル列Ｄ２１ｂの切り出しが半フレームＴ１／２（Ｍ／２サンプル）相当の時間だけ遅れるようにして行なわれる。このことは、サンプル列Ｄ２１ｂとＤ３１ｂ、Ｄ３１ｂとＤ４１ｂ…についても同様である。図２において、Ｄ１１ｂ〜Ｄ４１ｂは、それぞれ音入力ｘ（ｎ）のサンプル列を半フレームＴ１／２（Ｍ／２サンプル）相当のタイミングＤ１〜Ｄ４で切り出したもので、いずれも雑音抑圧用フレーム（雑音抑圧の対象となるフレーム）Ｆｂとして用いられる。

フレーム切出部１６は、音入力ｘ（ｎ）のサンプル列を比較的長いフレーム長Ｔ２（Ｎサンプル）で順次に切り出すものである。切出部１６の切出動作は、あるフレームのサンプル列Ｄ１１ａの切り出しから次のフレームのサンプル列Ｄ２１ａの切り出しが半フレームＴ１／２（Ｍ／２サンプル）相当の時間だけ遅れるようにして行なわれる。このことは、サンプル列Ｄ２１ａとＤ３１ａ、Ｄ３１ａとＤ４１ａ…についても同様である。図２において、Ｄ１１ａ〜Ｄ４１ａは、それぞれ音入力ｘ（ｎ）のサンプル列をＴ１／２（Ｍ／２サンプル）相当のタイミングＤ１〜Ｄ４で切り出したもので、いずれも雑音推定用フレーム（雑音スペクトルの推定に用いられるフレーム）Ｆａとなる。雑音推定用フレームのサンプル列Ｄ１１ａの切り出しと雑音抑圧用フレームのサンプル列Ｄ１１ｂの切り出しとは、互いに同期して（時間的に頭ＨＤａ，ＨＤｂを揃えて）行なわれる。このことは、サンプル列Ｄ２１ａとＤ２１ｂ、Ｄ３１ａとＤ３１ｂ、Ｄ４１ａとＤ４１ｂ…についても同様である。

一例として、サンプリング周波数が１６ｋＨｚである場合、フレーム長Ｔ１をＭ＝５１２サンプル（３２ｍｓｅｃ）とし、フレーム長Ｔ２をＮ＝４０９６サンプル（２５６ｍｓｅｃ）とする（Ｎ＝８Ｍとする）ことができる。

ゼロデータ発生部３４は、フレーム長Ｔ１，Ｔ２の差に相当する（Ｎ−Ｍ）＝３５８４サンプルのゼロデータＤ_０を発生するものである。ゼロデータＤ_０は、加算器３６に供給され、図２に示すようにＤ１１ｂ等の各雑音抑圧用フレームのサンプル列の末尾ＴＬに付加される。これは、雑音抑圧演算部４０でのスペクトル減算処理においてデータ長（サンプル数）を揃える必要があるためである。

加算器３６から送出される各フレームデータ（ゼロデータＤ_０が付加された各切出データ）は、ＦＦＴ部３８に供給され、ＦＦＴ処理により周波数分析（周波数領域のデータに変換）される。ＦＦＴ部３８から送出される各フレームの周波数分析データＸ_１（ｋ）＝（ｋ＝０，１，２…Ｎ−１）は、雑音抑圧演算部４０に供給される。演算部４０では、各フレーム毎に周波数分析データＸ_１（ｋ）に基づいて振幅スペクトル｜Ｘ_１（ｋ）｜が算出され、各フレームの振幅スペクトル｜Ｘ_１（ｋ）｜は、雑音推定部２２に供給される。

一方、フレーム切出部１６から送出される各フレームの切出データは、ＦＦＴ部１８に供給され、ＦＦＴ処理により周波数分析される。ＦＦＴ部１８から送出される各フレームの周波数分析データＸ_２（ｋ）＝（ｋ＝０，１，２…Ｎ−１）は、振幅スペクトル演算部２０に供給される。演算部２０では、各フレーム毎に周波数分析データＸ_２（ｋ）に基づいて振幅スペクトル｜Ｘ_２（ｋ）｜が算出され、各フレームの振幅スペクトル｜Ｘ_２（ｋ）｜は、雑音推定部２２に供給される。雑音推定部２２には、フレーム切出部３２から各フレームの切出データ（各フレーム毎に５１２サンプルのデータ）も供給される。

雑音推定部２２では、ある振幅スペクトル｜Ｎ_２（ｋ）｜を現フレームの振幅スペクトルとすると、｜Ｎ_２（ｋ）｜の前のフレーム（前フレーム）の振幅スペクトルに基づいて前フレームの雑音振幅スペクトルが推定されると共に、前フレームの雑音振幅スペクトルと現フレームの振幅スペクトル｜Ｎ_２（ｋ）｜とを後述するように混合して現フレームの雑音振幅スペクトル｜Ｎ（ｋ）｜が推定される。このようにして、雑音推定部２２からは、各フレーム毎に雑音振幅スペクトル｜Ｎ（ｋ）｜が次々に送出され、各フレームの雑音振幅スペクトル｜Ｎ（ｋ）｜は、平滑化処理部２４に供給される。

平滑化処理部２４では、各フレームの雑音振幅スペクトル｜Ｎ（ｋ）｜に平滑化処理が施される。平滑化処理のアルゴリズムとしては、例えば移動平均法を用いることができる。移動平均法では、所定数の連続した周波数ポイント（所定の周波数帯域幅）における振幅の平均値を該周波数帯域の中央の周波数ポイントの振幅値として置き換える。１回の平均で使用する連続した周波数ポイントの点数（平均値を求める周波数帯域幅）は、例えば８点とすれば、平滑化された振幅スペクトル（雑音推定用振幅スペクトル）の実質的な周波数分解能は、雑音抑圧用振幅スペクトルの実質的な周波数分解能に等しくなる。この平均値算出及び振幅値の置き換えを、周波数ポイントを１ポイントずつずらして実行し、全周波数帯域にわたり平滑化した振幅スペクトルを求める。

平滑化処理部２４における平滑化処理アルゴリズムとしては、移動平均法の他に、移動メディアン法を用いることもできる。移動メディアン法では、所定数（例えば８点）の連続した周波数ポイント（所定の周波数帯域幅）の中で、振幅値の中央値を該周波数帯域の中央の周波数ポイントの振幅値として置き換える。そして、この振幅値の中央値の抽出及び振幅値の置き換えを、周波数ポイントを１ポイントずつずらして実行し、全周波数帯域にわたり平滑化した振幅スペクトルを求める。

平滑化処理部２４においては、ディップ除去処理を追加してもよい。ディップ除去処理では、平滑化処理された振幅スペクトルと平滑化処理される前の振幅スペクトルとを比較して周波数ポイント毎に大きい方の値を選択し、選択に係る値をつなぐことによりディップが除去された振幅スペクトルを得る。ディップを除去することで処理雑音の低減が可能になる。平滑化処理部２４からは、各フレーム毎に平滑化処理された（更にはディップ除去処理された）振幅スペクトル｜Ｎ’（ｋ）｜が送出され、雑音抑圧演算部４０に供給される。

演算部４０では、周波数分析データＸ_１（ｋ）に基づいて各フレーム毎に振幅スペクトル及び位相スペクトルが算出される。そして、現フレームの振幅スペクトルから現フレームの雑音振幅スペクトル｜Ｎ’（ｋ）｜を減算することにより雑音が抑圧された振幅スペクトルが生成される。この後、雑音抑圧に係る振幅スペクトルを対応する位相スペクトルと合成することにより各フレーム毎に音声スペクトルＧ（ｋ）が生成され、逆高速フーリエ変換（Ｉ−ＦＦＴ）部４２に供給される。

Ｉ−ＦＦＴ部４２は、演算部４０からの音声スペクトルＧ（ｋ）をＩ−ＦＦＴ処理により時間領域の音声信号に変換するもので、変換に係る時間領域の音声信号は、フレーム合成部４４に供給される。

フレーム合成部４４では、図２に示すように各フレームの音声信号から先に付加された（Ｎ−Ｍ）サンプルのゼロデータが削除されると共に各フレームの音声信号（Ｍサンプルのデータ）に三角窓関数が乗算される。図２において、Ｄ１ｓ〜Ｄ４ｓは、いずれも三角窓関数が乗算された音声信号であり、フレーム合成に用いられるフレームＦｓとなる。この後、図２に示すように順次の２フレームの音声信号を半フレームずつオーバーラップさせるように加算することによりフレーム合成が行なわれる。この結果、雑音が抑圧された音声出力ｇ（ｎ）がフレーム間に段差や切れ目がない連続した状態で得られる。

次に、図３を参照して雑音推定部２２の構成及び動作を説明する。スペクトル包絡抽出部５４は、図１の雑音抑圧演算部４０から供給される振幅スペクトル｜Ｘ_１（ｋ）｜に含まれる細かな凹凸特性を除去してスペクトル包絡｜Ｘ_１’（ｋ）｜を抽出するものである。これは、後述する相関値算出において振幅スペクトル｜Ｘ_１（ｋ）｜そのものを用いると、スペクトルの相関値が低くなり、「音声区間」と「雑音区間」の区別が明確でなくなるためである。すなわち、雑音は、長時間観測を繰り返してそのスペクトルを平均してみれば、そのスペクトルは、広い帯域にわたってほぼ一様となる滑らかな分布となるが、短時間で見れば多くの山谷を有するスペクトルの変動が観察される。一方、音声は、雑音とは異なり、その全体的な周波数特性は特定の周波数帯域に大きな振幅値を持っており、全周波数帯域に一様に分布していない。この実施形態では、「全周波数帯域に一様に分布する雑音」と、「ある特定の周波数帯域に大きな振幅値を持つ音声」とをスペクトル包絡の相関値の大小で区別して雑音振幅スペクトルを推定するので、雑音振幅スペクトルが持っている細かな凹凸特性を除去するようにしている。

スペクトル包絡抽出部５４では、一例として、振幅スペクトル｜Ｘ_１（ｋ）｜を時間波形と見立ててローパスフィルタ処理をすることによりスペクトル包絡を抽出する。ローパスフィルタ処理は、振幅スペクトル｜Ｘ_１（ｋ）｜を直接ローパスフィルタにかける、あるいは振幅スペクトル｜Ｘ_１（ｋ）｜に移動平均処理を施す等の方法により行なうことができる。また、スペクトル包絡抽出部５４においてスペクトル包絡｜Ｘ_１’（ｋ）｜を抽出する別の方法としては、振幅スペクトル｜Ｘ_１（ｋ）｜を更にフーリエ変換してケプストラムによって求める方法を用いることもできる。抽出部５４で抽出された各フレームのスペクトル包絡｜Ｘ_１’（ｋ）｜は、相関値算出部５６に供給される。

雑音振幅スペクトル初期値出力部４６は雑音振幅スペクトルの初期値を出力するものである。すなわち、システムの起動当初は、参照する雑音振幅スペクトルデータがないため、初期値を設定する。雑音振幅スペクトル初期値の設定方法としては、例えば、次の方法が考えられる。

（方法１）起動直後に入力され、音声の混入していない背景雑音のみのデータをフーリエ変換し、該フーリエ変換されたデータから求められる振幅スペクトルデータを雑音振幅スペクトル初期値として設定する。

（方法２）予め背景雑音に相当する振幅スペクトルデータをメモリに保持しておき、起動時にそれを読み出して雑音振幅スペクトル初期値として設定する。あるいは、予め背景雑音に相当する振幅スペクトルの包絡データをメモリに保持しておき、起動時にそれを読み出して雑音振幅スペクトル包絡データの初期値として設定する。

（方法３）ホワイトノイズやピンクノイズの振幅スペクトルデータを雑音振幅スペクトル初期値として設定する。

雑音振幅スペクトル遅延部４８は、後述する雑音振幅スペクトル算出部５０で半フレーム（Ｔ１／２）毎に求められる雑音振幅スペクトル｜Ｎ（ｋ）｜を順次入力し、半フレーム分遅延して前フレームの雑音振幅スペクトル｜Ｎｏ（ｋ）｜として順次出力するものである。システムの起動当初は雑音振幅スペクトル｜Ｎ（ｋ）｜は未だ推定されていないので、遅延部４８は、出力部４６で設定された雑音振幅スペクトル初期値を雑音振幅スペクトル｜Ｎｏ（ｋ）｜としてスペクトル包絡抽出部５２へ供給する。抽出部５２は、前述したスペクトル包絡抽出部５４と同様の方法により、雑音振幅スペクトル｜Ｎｏ（ｋ）｜のスペクトル包絡｜Ｎｏ’（ｋ）｜を抽出し、相関値算出部５６へ供給する。

相関値算出部５６は、スペクトル包絡抽出部５４で抽出された現フレームのスペクトル包絡｜Ｘ_１’（ｋ）｜と、スペクトル包絡抽出部５２で抽出された前フレームのスペクトル包絡｜Ｎｏ’（ｋ）｜との相関を求め、相関値ρを算出するものである。相関値ρは、
スペクトル包絡｜Ｘ_１’（ｋ）｜＝ｘ_ｋ（ｋ＝１，２，…，Ｋ）
スペクトル包絡｜Ｎｏ’（ｋ）｜＝ｙ_ｋ（ｋ＝１，２，…，Ｋ）
とすると、次の数１の式（１）により求められ、０〜１の範囲内の値をとる。

雑音振幅スペクトル算出部５０は、算出部５６から供給される相関値ρと、セレクタ７６から供給される更新制御値ｘと、遅延部４８から供給される前フレームの雑音振幅スペクトル｜Ｎｏ（ｋ）｜と、セレクタ６６から供給される現フレームの音入力の振幅スペクトル｜Ｘ（ｋ）｜（これは、後述するように｜Ｘ_２（ｋ）｜又は｜Ｘ_１（ｋ）｜からなる）とに基づいて次の式（２）により現フレームの雑音振幅スペクトル｜Ｎ（ｋ）｜を推定し、算出するものである。

｜Ｎ（ｋ）｜＝（１−ρ^ｘ）・｜Ｎｏ（ｋ）｜＋ρ^ｘ・｜Ｘ（ｋ）｜…（２）
式（２）は、前フレームの雑音振幅スペクトル｜Ｎｏ（ｋ）｜と現フレームの音入力の振幅スペクトル｜Ｘ（ｋ）｜とを相関値ρ及び更新制御値ｘに応じた比率で加算（混合）して現フレームの雑音振幅スペクトル｜Ｎ（ｋ）｜を推定することを示すものである。式（２）によれば、相関値ρが小さい有音声区間では、相関値ρが大きいときに比べて、雑音振幅スペクトル｜Ｎｏ（ｋ）｜の比率を高くすると共に振幅スペクトル｜Ｘ（ｋ）｜の比率を低くして加算が行なわれる。このため、音声成分が多い有音声区間では、推定に係る雑音振幅スペクトル｜Ｎ（ｋ）｜が音声成分の影響によりさほど変化しない。これに対し、相関値ρが大きい無音声区間では、相関値ρが小さいときに比べて、雑音振幅スペクトル｜Ｎｏ（ｋ）｜の比率を低くすると共に振幅スペクトル｜Ｘ（ｋ）｜の比率を高くして加算が行なわれる。このため、無音声区間では、推定に係る雑音振幅スペクトル｜Ｎ（ｋ）｜が新たな雑音成分に応じて変化し、｜Ｎ（ｋ）｜の更新が促進される。

パワー算出部６０は、遅延部４８からの前フレームの雑音振幅スペクトル｜Ｎｏ（ｋ）｜に基づいて前フレーム内の平均雑音パワーＰｎを算出するものである。平均雑音パワーＰｎは、前フレームの雑音振幅スペクトルにおける振幅値をＡ_１〜Ａ_Ｎ（Ｎ＝２０４８）とすると、（Ａ_１ ^２＋Ａ_２ ^２＋Ａ_３ ^２＋…Ａ_Ｎ ^２）／Ｎなる式で求められる。平均雑音パワーＰｎを示すパワーデータは比較部６４に比較入力Ａとして供給される。

パワー算出部６２は、図１の切出部３２からの現フレームの切出データＤｂに基づいて現フレーム内の平均音パワーＰｂを算出するものである。平均音パワーＰｂは、現フレームの切出データＤｂをＦＦＴすることにより求めた振幅スペクトルにおいて振幅値をａ_１〜ａ_Ｍ（Ｍ＝２５６）とすると、（ａ_１ ^２＋ａ_２ ^２＋ａ_３ ^２＋…ａ_Ｍ ^２）／Ｍなる式で求められる。平均音パワーＰｂを示すパワーデータは比較部６４に比較入力Ｂとして供給される。なお、周波数スペクトルでパワーを算出する場合、ＦＦＴフレーム長の半分以下のサンプル数とするのが好ましい。

比較部６４は、比較入力Ａ，Ｂ（パワーＰｎ，Ｐｂ）を比較し、Ａ＞Ｂ（Ｐｎ＞Ｐｂ）ならば比較出力Ｃ_１＝１を、Ａ＜Ｂ（Ｐｎ＜Ｐｂ）ならば比較出力Ｃ_２＝１をそれぞれ送出する。ここで、Ｃ_１＝１は、前フレーム内の平均雑音パワーＰｎの方が現フレーム内の平均音パワーＰｂより大きいので、雑音の減少を意味する。また、Ｃ_２＝１は、前フレーム内の平均雑音パワーＰｎの方が現フレーム内の平均音パワーＰｂより小さいので、雑音の増大を意味する。

セレクタ６６は、選択入力ＳＢ＝０のときは入力Ａとしての振幅スペクトル｜Ｘ_２（ｋ）｜を選択し、算出部５０に振幅スペクトル｜Ｘ（ｋ）｜として供給する。比較部６４の比較出力Ｃ_１が１になると、セレクタ６６は、Ｃ_１＝１からなる選択入力ＳＢに応じて入力Ｂとしての振幅スペクトル｜Ｘ_１（ｋ）｜を選択し、算出部５０に振幅スペクトル｜Ｘ（ｋ）｜として供給する。前述したように、振幅スペクトル｜Ｘ_２（ｋ）｜は、振幅スペクトル｜Ｘ_１（ｋ）｜に比べてサンプル数が８倍も多いので、Ａ＞Ｂ（Ｐｎ＞Ｐｂ）以外のときは、算出部５０において｜Ｘ（ｋ）｜として｜Ｘ_２（ｋ）｜を用いることで精度良く雑音スペクトルの推定を行なうことができる。しかしながら、Ａ＞Ｂ（Ｐｎ＞Ｐｂ）である雑音減少時にも振幅スペクトル｜Ｘ_２（ｋ）｜を用いると、振幅スペクトル｜Ｘ_２（ｋ）｜のフレーム長（サンプル数）が長いため、過去の推定結果の影響から脱却するのに時間がかかる。そこで、この発明では、雑音減少時には、｜Ｘ（ｋ）｜として｜Ｘ_２（ｋ）｜の代りにフレーム長の短い｜Ｘ_１（ｋ）｜を用いることで雑音減少に対する追従性を改善している。

比較部６４からの比較出力Ｃ_１＝１は、セレクタ７６に選択入力ＳＣとして供給される。セレクタ７６は、選択入力ＳＢ，ＳＣのいずれも０のときは、入力値Ａ＝１３．５を選択し、算出部５０に更新制御値ｘとして供給する。ｘ＝１３．５のときは、前述の式（２）においてρが例えば０．５であればρ^ｘの値は極めて小さな値となり、雑音振幅スペクトル｜Ｎ（ｋ）｜の更新が抑制される。この発明では、Ｃ_１＝１となる雑音減少時において、セレクタ７６で選択入力ＳＣ＝Ｃ_１＝１に応じて入力値１を選択し、算出部５０に更新制御値ｘとして供給する。この結果、算出部５０では、前述の式（２）においてｘ＝１であり且つρが例えば０．５であれば｜Ｎ（ｋ）｜＝｛｜Ｎｏ（ｋ）｜＋｜Ｘ_１（ｋ）｝／２となり、雑音振幅スペクトル｜Ｎ（ｋ）｜の更新が促進される。従って、雑音減少に対する追従性がｘ＝１としたことでも改善される。

記憶部６８は、算出部６２で算出された平均音パワーＰｂを示すパワーデータを現フレーム分とその前の３２フレーム分（合計３３フレーム分）記憶するものである。このように現フレームまでの一定期間分のパワーデータを記憶するのは、雑音増大の検出を確実にするためである。最小値検出部７０は、記憶部６８に記憶された３３フレーム分のパワーデータ中からフレーム内平均音パワーの最小値を検出するもので、検出に係る最小値のパワーＰｍを示すパワーデータを比較部７２に比較入力Ｂとして供給する。比較部７２の比較入力Ａとしては、算出部６０から前フレーム内の平均雑音パワーＰｎを示すパワーデータが供給される。

比較部７２は、比較入力Ａ，Ｂ（パワーＰｎ，Ｐｍ）を比較し、Ａ＜Ｂ（Ｐｎ＜Ｐｍ）ならば比較出力Ｃ_３＝１をＡＮＤゲート７４に一方の入力として供給する。ＡＮＤゲート７４の他方の入力としては、比較部６４からＡ＜Ｂ（Ｐｎ＜Ｐｂ）に応じて比較出力Ｃ_２＝１が供給される。ＡＮＤゲート７４では、前フレーム内の平均雑音パワーＰｎの方が現フレーム内の平均音パワーＰｂより小さく且つ前フレーム内の平均雑音パワーＰｎの方が検出部７０での検出に係る最小値のパワーＰｍより小さいときにＡＮＤ条件が成立し、出力ＡＤ＝１が発生される。この出力ＡＤ＝１の発生は、雑音の増大を意味する。

セレクタ７６は、ＡＮＤゲート７４からの出力ＡＤ＝１からなる選択入力ＳＢに応じて入力値７を選択し、算出部５０に更新制御値ｘとして供給する。このとき、算出部５０には、振幅スペクトル｜Ｘ（ｋ）｜としてセレクタ６６からフレーム長が長い振幅スペクトル｜Ｘ_２（ｋ）｜が供給されている。すなわち、算出部５０では、前述の式（２）においてｘ＝７であるので、｜Ｎ（ｋ）｜＝（１−ρ^７）・｜Ｎｏ（ｋ）｜＋ρ^７・｜Ｘ_２（ｋ）｜となり、ｘ＝１３．５の場合に比べて｜Ｎ（ｋ）｜の更新が促進される。従って、雑音増大に対する追従性が改善される。

次に、図４を参照して雑音抑圧演算部４０の構成及び動作を説明する。振幅スペクトル計算部５６及び位相スペクトル計算部５８には、図１のＦＦＴ部３８から周波数分析データＸ_１（ｋ）が共通に供給される。計算部５６は、周波数分析データＸ_１（ｋ）に基づいて次の式（３）により振幅スペクトル｜Ｘ_１（ｋ）｜を算出する。

｜Ｘ_１（ｋ）｜＝｛Ｘ_Ｒ（ｋ）^２＋Ｘ_Ｉ（ｋ）^２｝^１／２…（３）
ここで、Ｘ_Ｒ（ｋ）：Ｘ_１（ｋ）の実数部
Ｘ_Ｉ（ｋ）：Ｘ_１（ｋ）の虚数部
また、計算部５８は、周波数分析データＸ_１（ｋ）に基づいて次の式（４）により位相スペクトルθ（ｋ）を算出する。

θ（ｋ）＝ｔａｎ^−１｛Ｘ_Ｉ（ｋ）／Ｘ_Ｒ（ｋ）｝…（４）
スペクトル減算部６０は、次の式（５）に従って減算を行なう。すなわち、計算部５６で求めた現フレームの振幅スペクトル｜Ｘ_１（ｋ）｜から、図１の平滑化処理部２４から供給される現フレームの雑音振幅スペクトル｜Ｎ’（ｋ）｜を減算することにより、雑音振幅スペクトルが除去された現フレームの振幅スペクトル｜Ｙ（ｋ）｜を求める。

｜Ｙ（ｋ）｜＝｜Ｘ_１（ｋ）｜−｜Ｎ’（ｋ）｜…（５）
なお、｜Ｘ_１（ｋ）｜−｜Ｎ’（ｋ）｜が負の値となる周波数ポイントでは、引き過ぎであるので、減算値｜Ｙ（ｋ）｜を負の値のままとせずに、ゼロとするのがよい。

合成部６２は、減算部６０で求めた現フレームの振幅スペクトル｜Ｙ（ｋ）｜と、計算部５８で求めた現フレームの位相スペクトルθ（ｋ）とを合成して次の式（６）に示す複素スペクトル（雑音が抑圧された音声スペクトル）Ｇ（ｋ）を作成する。

Ｇ（ｋ）＝｜Ｙ（ｋ）｜ｅ^θ（ｋ）…（６）
作成された音声スペクトルＧ（ｋ）は、図１のＩ−ＦＦＴ部４２に供給される。

図５は、上記した雑音抑圧装置について雑音抑圧性能をテストした結果を示すものである。図５（Ａ）は、クリーンスピーチ区間Ｚ１−ノイジィスピーチ区間Ｚ２−クリーンスピーチ区間Ｚ３について入力音信号の振幅変化を示し、図５（Ｂ）は、図５（Ａ）と同様の区間Ｚ１−Ｚ２−Ｚ３について音声パワーＳＰ及び推定雑音パワーＮＰの変化を示すものである。ここで、「クリーンスピーチ区間」とは、雑音がない会話区間であり、「ノイジィスピーチ区間」とは、雑音がある会話区間である。図５（Ｂ）によれば、クリーンスピーチ区間Ｚ１からノイジィスピーチ区間Ｚ２に至る雑音増大部で推定雑音パワーＮＰが追従性良く増大すると共にノイジィスピーチ区間Ｚ２からクリーンスピーチ区間Ｚ３に至る雑音減少部で推定雑音パワーＮＰが追従性良く減少しているのがわかる。

上記した実施形態の変形例としては、前述した推定式（２）の代りに次の推定式（７）を用いてもよい。

｜Ｎ（ｋ）｜＝［１−｛ρ^ｘ／（１＋ρ^ｘ）｝^ｍ］・｜Ｎｏ（ｋ）｜＋｛ρ^ｘ／（１＋ρ^ｘ）｝^ｍ］・｜Ｘ（ｋ）｜…（７）
ここで、｜Ｎ（ｋ）｜：現フレームの雑音振幅スペクトル
｜Ｎｏ（ｋ）｜：前フレームの雑音振幅スペクトル
｜Ｘ（ｋ）｜：現フレームの音入力の振幅スペクトルであって、｜Ｘ_１（ｋ）｜又はＸ_２（ｋ）｜からなるもの
ρ：スペクトル包絡｜Ｎｏ’（ｋ）｜，｜Ｘ_１’（ｋ）｜の相関値
ｘ，ｍ：更新制御値（ｘは１以上の値、ｍは０以上の値）
式（７）は、前フレームの雑音振幅スペクトル｜Ｎｏ（ｋ）｜と、現フレームの音入力の振幅スペクトル｜Ｘ（ｋ）｜とを相関値ρ及び更新制御値ｘ，ｍに応じた比率で加算（混合）して現フレームの雑音振幅スペクトル｜Ｎ（ｋ）｜を推定することを示すものである。式（７）によれば、相関値ρが小さい有音声区間では、相関値ρが大きいときに比べて、雑音振幅スペクトル｜Ｎｏ（ｋ）｜の比率を高くすると共に振幅スペクトル｜Ｘ（ｋ）｜の比率を低くして加算が行なわれる。このため、音声成分が多い有音声区間では、推定に係る雑音振幅スペクトル｜Ｎ（ｋ）｜が音声成分の影響によりさほど変化しない。これに対し、相関値ρが大きい無音声区間では、相関値ρが小さいときに比べて、雑音振幅スペクトル｜Ｎｏ（ｋ）｜の比率を低くすると共に振幅スペクトル｜Ｘ（ｋ）｜の比率を高くして加算が行なわれる。このため、無音声区間では、推定に係る雑音振幅スペクトル｜Ｎ（ｋ）｜が新たな雑音成分に応じて変化し、｜Ｎ（ｋ）｜の更新が促進される。

式（７）において、ｘ，ｍは、｜Ｎ（ｋ）｜の更新を制御するためのそれぞれ第１，第２の更新制御値である。図６は、相関値ρに対する係数値［１−｛ρ^ｘ／（１＋ρ^ｘ）｝^ｍ］，｛ρ^ｘ／（１＋ρ^ｘ）｝^ｍの変化を第１の更新制御値ｘをパラメータとして示すもので、第２の更新制御値ｍを１とした場合である。図６によれば、例えばρ＝０．８としたときｘが大きいほど｛ρ^ｘ／（１＋ρ^ｘ）｝^ｍが小さくなり、｜Ｎ（ｋ）｜の更新が抑制されることがわかる。

図７は、相関値ρに対する係数値［１−｛ρ^ｘ／（１＋ρ^ｘ）｝^ｍ］，｛ρ^ｘ／（１＋ρ^ｘ）｝^ｍの変化を第２の更新制御値ｍをパラメータとして示すもので、第１の更新制御値ｘを２とした場合である。図７によれば、例えばρ＝０．８としたときｍが大きいほど｛ρ^ｘ／（１＋ρ^ｘ）｝^ｍが小さくなり、｜Ｎ（ｋ）｜の更新が抑制されることがわかる。

式（７）を用いてこの発明を実施する際には、図３の回路において、セレクタ７６では、選択入力ＳＢ，ＳＣのいずれも０のときは例えばｘ＝７０を算出部５０に供給し、ＳＢ＝１の時はｘ＝８を算出部５０に供給し、ＳＣ＝１のときはｘ＝２を算出部５０に供給する。別の方法としては、ＳＢ，ＳＣのいずれも０のときはｍ＝４を算出部５０に供給し、ＳＢ＝１のときはｍ＝２を算出部５０に供給し、ＳＣ＝１のときはｍ＝１を算出部５０に供給する。このようにｘ又はｍを減少させると、雑音振幅スペクトル｜Ｎ（ｋ）｜の更新が促進される。なお、ここで述べたｘを用いる方法と、ｍを用いる方法とは適宜併用してもよい。

この発明は、上記した実施形態に限定されるものではなく、種々の改変形態で実施可能である。例えば、次のような変更が可能である。

（ａ）上記した実施形態では、低相関時に現フレームの音入力の振幅スペクトル｜Ｘ（ｋ）｜の混合比率を低減するようにしたが、相関値ρが所定値以下のときは、スペクトル｜Ｘ（ｋ）｜の混合比率をゼロとする（すなわち、雑音振幅スペクトル｜Ｎ（ｋ）｜を更新しない）ようにしてもよい。

（ｂ）上記した実施形態では、雑音推定処理を所定時間間隔（Ｔ１／２時間毎）に必ず行なうようにしたが、適宜の時間毎に行なうようにしてもよい。例えば、無音声区間、微少音声区間等の雑音推定が容易な区間を実時間で検出し、該雑音推定が容易な区間でのみ雑音推定処理を行ない、それ以外の区間では雑音推定処理を行なわない（一時停止する）ことができる。また、雑音変動が少ない区間や処理負荷を減らしたい区間も雑音推定処理を行なわない（一時停止する）ことができる。これらの場合、雑音推定処理を一時停止している区間では、雑音振幅スペクトル遅延部４８に保持されている最新の（一時停止直前の）雑音振幅スペクトル｜Ｎｏ（ｋ）｜に基づいて雑音抑圧処理を行なうことができる。

（ｃ）上記した実施形態では、音入力から切り出す雑音抑圧用フレームの長さＴ１（Ｍサンプル分の時間）を、切り出しを行なう時間間隔（Ｍ／２サンプル分の時間）より長く設定したが、これはフレーム合成の際にオーバーラップ処理を行なうためであり、オーバーラップ処理を行なわない場合には、フレーム長Ｔ１を切り出し時間間隔と等しく設定してもよい。

（ｄ）上記した実施形態では、周波数分析手法としてＦＦＴを用いた場合について説明したが、この発明では、ＦＦＴ以外の周波数分析手法を用いることもできる。

（ｅ）上記した実施形態では、振幅スペクトルサブトラクション法を用いる代りに、パワースペクトルサブトラクション法を用いることもできる。この場合、音入力のパワースペクトル｜Ｘ_１（ｋ）｜^２のスペクトル包絡に基づいて雑音パワースペクトル｜Ｎ（ｋ）｜^２を推定し、音入力のパワースペクトル｜Ｘ_１（ｋ）｜^２から推定に係る雑音のパワースペクトル｜Ｎ（ｋ）｜^２を減算して雑音抑圧を行なう。雑音のパワースペクトル｜Ｎ（ｋ）｜^２の推定処理にこの発明を適用できる。

（ｆ）上記した実施形態では、振幅スペクトルサブトラクション法を用いる代りに、複素スペクトルサブトラクション法を用いることもできる。この場合、音入力の複素スペクトル（振幅情報と位相情報とに分離されていないもの）Ｘ_１（ｋ）のスペクトル包絡に基づいて雑音の複素スペクトルＮ（ｋ）を推定し、音入力の複素スペクトルＸ_１（ｋ）から推定に係る雑音の複素スペクトルＮ（ｋ）を減算して雑音抑圧を行なう。雑音の複素スペクトルＮ（ｋ）の推定処理にこの発明を適用できる。

（ｇ）上記した実施形態では、前フレーム内の平均雑音パワーＰｎが現フレーム内の平均音パワーＰｂより大きいとき、セレクタ６６でフレーム長が短い振幅スペクトル｜Ｘ_１（ｋ）｜を選択すると共にセレクタ７６で更新制御値ｘ＝１を選択するようにしたが、｜Ｘ_１（ｋ）｜の選択又はｘ＝１の選択のいずれか一方を省略することもできる。｜Ｘ_１（ｋ）｜の選択を省略した場合、算出部５０には、｜Ｘ（ｋ）｜として｜Ｘ_２（ｋ）｜を供給すればよい。

（ｈ）上記した実施形態では、切出部３２で切り出した５１２サンプルのデータに基づいてフレーム内の平均音パワーを算出部６２で算出したが、算出部６２では、切出部１６で切り出した４０９６サンプルのデータに基づいてフレーム内の平均音パワーを算出するようにしてもよい。

（ｉ）上記した実施形態では、スペクトルの時間変化により敏感な短いフレーム長の振幅スペクトル｜Ｘ_１（ｋ）｜からスペクトル包絡を抽出するようにしたので、より時間反応のよい雑音振幅スペクトルを算出できる。しかしながら、スペクトル包絡の抽出対象は、振幅スペクトル｜Ｘ_１（ｋ）｜に限らず、振幅スペクトル｜Ｘ_２（ｋ）｜でもよく、あるいはユーザが｜Ｘ_１（ｋ）｜又は｜Ｘ_２（ｋ）｜を任意に切換えできるようにしてもよい。

（ｊ）雑音増大判定処理において、記憶した過去のパワーデータに基づく処理（図３のＡＮＤゲート７４の右側入力に至る処理）は省略してもよい。また、雑音減少判定処理において、過去のパワーデータに基づく処理を採用するようにしてもよい。

（ｋ）この発明の雑音スペクトル推定方法は、雑音抑圧以外の用途にも適用することができる。また、この発明は、小型コンピュータ等を用いて実施することもできる。

この発明の一実施形態に係る雑音抑圧装置の構成を示すブロック図である。雑音抑圧装置の動作を説明するためのタイムチャートである。雑音推定部を示すブロック図である。雑音抑圧演算部を示すブロック図である。（Ａ）は、クリーンスピーチ区間及びノイジィスピーチ区間について音声信号の振幅変化を示す波形図、（Ｂ）は、（Ａ）と同様の区間について音声パワー及び推定雑音パワーの変化を示す波形図である。変形例に係る雑音推定式における相関値ρに対する２種類の係数値の変化を第１の更新制御値ｘをパラメータとして示すグラフである。変形例に係る雑音推定式における相関値ρに対する２種類の係数値の変化を第２の更新制御値ｍをパラメータとして示すグラフである。発明者の研究に係る雑音抑圧処理を示すフローチャートである。

符号の説明

１２：雑音抑圧部、１４：雑音スペクトル出力部、２２：雑音推定部、４０：雑音抑圧演算部、６０，６２：パワー算出部、６４，７２：比較部、６６，７６：セレクタ、６８：記憶部、７０：最小値検出部、７４：ＡＮＤゲート。

Claims

入力音波形のサンプル列を比較的短い第１のフレーム長で切り出して現フレームの第１のサンプル列を得るステップと、
前記入力音波形のサンプル列を比較的長い第２のフレーム長で前記現フレームより前に切り出して前フレームの第２のサンプル列を得た後、前記入力音波形のサンプル列を前記第２のフレーム長で前記現フレームに同期して切り出して現フレームの第２のサンプル列を得るステップと、
前記現フレームの第１のサンプル列を周波数分析して現フレームの第１のスペクトルを得るステップと、
前記前フレームの第２のサンプル列を周波数分析して前フレームの第２のスペクトルを得た後、前記現フレームの第２のサンプル列を周波数分析して現フレームの第２のスペクトルを得るステップと、
前記前フレームの第２のスペクトルに基づいて前フレームの雑音スペクトルを推定するステップと、
前記前フレームの雑音スペクトルに基づいて前フレーム内の平均雑音パワーを算出するステップと、
前記現フレームの第１及び第２のサンプル列のうちのいずれか一方のサンプル列に基づいて現フレーム内の平均音パワーを算出するステップと、
前記前フレームの雑音スペクトルに基づいて現フレームの雑音スペクトルを推定するステップと、
前記平均雑音パワーと前記平均音パワーとを比較し、その比較結果に応じて前記現フレームの雑音スペクトルの推定態様を制御するステップと
を含む雑音スペクトル推定方法。
入力音波形のサンプル列を比較的短い第１のフレーム長で切り出して現フレームの第１のサンプル列を得るステップと、
前記入力音波形のサンプル列を比較的長い第２のフレーム長で前記現フレームより前に切り出して前フレームの第２のサンプル列を得た後、前記入力音波形のサンプル列を前記第２のフレーム長で前記現フレームに同期して切り出して現フレームの第２のサンプル列を得るステップと、
前記現フレームの第１のサンプル列を周波数分析して現フレームの第１のスペクトルを得るステップと、
前記前フレームの第２のサンプル列を周波数分析して前フレームの第２のスペクトルを得た後、前記現フレームの第２のサンプル列を周波数分析して現フレームの第２のスペクトルを得るステップと、
前記前フレームの第２のスペクトルに基づいて前フレームの雑音スペクトルを推定するステップと、
前記前フレームの雑音スペクトルに基づいて前フレーム内の平均雑音パワーを算出するステップと、
前記現フレームの第１及び第２のサンプル列のうちのいずれか一方のサンプル列に基づいて現フレーム内の平均音パワーを算出するステップと、
前記平均雑音パワーと前記平均音パワーとを比較して前記平均雑音パワーの方が前記平均音パワーより大きいことを検知するステップと、
前記検知するステップで前記平均雑音パワーの方が大きいことが検知されないときは前記前フレームの雑音スペクトルと前記現フレームの第２のスペクトルとに基づいて現フレームの雑音スペクトルを推定し、前記検知するステップで前記平均雑音パワーの方が大きいことが検知されたときは前記前フレームの雑音スペクトルと前記現フレームの第１のスペクトルとに基づいて現フレームの雑音スペクトルを推定するステップと
を含む雑音スペクトル推定方法。
前記現フレームの雑音スペクトルを推定するステップでは、前記前フレームの雑音スペクトルと前記現フレームの第１のスペクトルとを混合して前記現フレームの雑音スペクトルを推定し、その推定の際には前記検知するステップで前記平均雑音パワーの方が大きいことが検知されるのに応答して前記前フレームの雑音スペクトルに対する前記現フレームの第１のスペクトルの混合比率を増大すべく制御することを特徴とする請求項２記載の雑音スペクトル推定方法。
入力音波形のサンプル列を比較的短い第１のフレーム長で切り出して現フレームの第１のサンプル列を得るステップと、
前記入力音波形のサンプル列を比較的長い第２のフレーム長で前記現フレームより前に切り出して前フレームの第２のサンプル列を得た後、前記入力音波形のサンプル列を前記第２のフレーム長で前記現フレームに同期して切り出して現フレームの第２のサンプル列を得るステップと、
前記現フレームの第１のサンプル列を周波数分析して現フレームの第１のスペクトルを得るステップと、
前記前フレームの第２のサンプル列を周波数分析して前フレームの第２のスペクトルを得た後、前記現フレームの第２のサンプル列を周波数分析して現フレームの第２のスペクトルを得るステップと、
前記前フレームの第２のスペクトルに基づいて前フレームの雑音スペクトルを推定するステップと、
前記前フレームの雑音スペクトルに基づいて前フレーム内の平均雑音パワーを算出するステップと、
前記現フレームの第１及び第２のサンプル列のうちのいずれか一方のサンプル列に基づいて現フレーム内の平均音パワーを算出するステップと、
前記平均雑音パワーと前記平均音パワーとを比較して前記平均雑音パワーの方が前記平均音パワーより大きいことを検知するステップと、
前記前フレームの雑音スペクトルと前記現フレームの第１及び第２のスペクトルのうちのいずれか一方のスペクトルとを混合して現フレームの雑音スペクトルを推定するステップと、
前記検知するステップで前記平均雑音パワーの方が大きいことが検知されるのに応答して前記前フレームの雑音スペクトルに対する前記一方のスペクトルの混合比率を増大すべく制御するステップと
を含む雑音スペクトル推定方法。
入力音波形のサンプル列を比較的短い第１のフレーム長で切り出して現フレームの第１のサンプル列を得るステップと、
前記入力音波形のサンプル列を比較的長い第２のフレーム長で前記現フレームより前に切り出して前フレームの第２のサンプル列を得た後、前記入力音波形のサンプル列を前記第２のフレーム長で前記現フレームに同期して切り出して現フレームの第２のサンプル列を得るステップと、
前記現フレームの第１のサンプル列を周波数分析して現フレームの第１のスペクトルを得るステップと、
前記前フレームの第２のサンプル列を周波数分析して前フレームの第２のスペクトルを得た後、前記現フレームの第２のサンプル列を周波数分析して現フレームの第２のスペクトルを得るステップと、
前記前フレームの第２のスペクトルに基づいて前フレームの雑音スペクトルを推定するステップと、
前記前フレームの雑音スペクトルに基づいて前フレーム内の平均雑音パワーを算出するステップと、
前記現フレームの第１及び第２のサンプル列のうちのいずれか一方のサンプル列に基づいて現フレーム内の平均音パワーを算出するステップと、
前記平均雑音パワーと前記平均音パワーとを比較して前記平均雑音パワーの方が前記平均音パワーより小さいことを検知するステップと、
前記前フレームの雑音スペクトルと前記現フレームの第２のスペクトルとを混合して現フレームの雑音スペクトルを推定するステップと、
前記検知するステップで前記平均雑音パワーの方が小さいことが検知されるのに応答して前記前フレームの雑音スペクトルに対する前記現フレームの第２のスペクトルの混合比率を増大すべく制御するステップと
を含む雑音スペクトル推定方法。
前記現フレームの雑音スペクトルを推定するステップでは、前記前フレームの平均雑音パワーと該前フレームより前の複数フレームの平均雑音パワーとを記憶すると共に記憶に係る平均雑音パワーのうちで最小の平均雑音パワーを検知し、検知に係る最小の平均雑音パワーと前記前フレームの平均雑音パターとを比較して前記前フレームの平均雑音パワーの方が前記検知に係る最小の平均雑音パワーより小さいことを条件として前記前フレームの雑音スペクトルに対する前記現フレームの第２のスペクトルの混合比率を増大すべく制御することを特徴とする請求項５記載の雑音スペクトル推定方法。
入力音波形のサンプル列を比較的短い第１のフレーム長で切り出して現フレームの第１のサンプル列を得るステップと、
前記入力音波形のサンプル列を比較的長い第２のフレーム長で前記現フレームより前に切り出して前フレームの第２のサンプル列を得た後、前記入力音波形のサンプル列を前記第２のフレーム長で前記現フレームに同期して切り出して現フレームの第２のサンプル列を得るステップと、
前記現フレームの第１のサンプル列のフレーム長が前記現フレームの第２のサンプル列のフレーム長と等しくなるように前記現フレームの第１のサンプル列の末尾にゼロデータを付加するステップと、
前記ゼロデータが付加された現フレームの第１のサンプル列を周波数分析して現フレームの第１のスペクトルを得るステップと、
前記前フレームの第２のサンプル列を周波数分析して前フレームの第２のスペクトルを得た後、前記現フレームの第２のサンプル列を周波数分析して現フレームの第２のスペクトルを得るステップと、
前記前フレームの第２のスペクトルに基づいて前フレームの雑音スペクトルを推定するステップと、
前記前フレームの雑音スペクトルに基づいて前フレーム内の平均雑音パワーを算出するステップと、
前記現フレームの第１及び第２のサンプル列のうちのいずれか一方のサンプル列に基づいて現フレーム内の平均音パワーを算出するステップと、
前記前フレームの雑音スペクトルに基づいて現フレームの雑音スペクトルを推定するステップと、
前記平均雑音パワーと前記平均音パワーとを比較し、その比較結果に応じて前記現フレームの雑音スペクトルの推定態様を制御するステップと、
前記現フレームの第１のスペクトルから前記現フレームの雑音スペクトルを減算して雑音が抑圧された音スペクトルを得るステップと
を含む雑音抑圧方法。
入力音波形のサンプル列を比較的短い第１のフレーム長で切り出して現フレームの第１のサンプル列を得るステップと、
前記入力音波形のサンプル列を比較的長い第２のフレーム長で前記現フレームより前に切り出して前フレームの第２のサンプル列を得た後、前記入力音波形のサンプル列を前記第２のフレーム長で前記現フレームに同期して切り出して現フレームの第２のサンプル列を得るステップと、
前記現フレームの第１のサンプル列のフレーム長が前記現フレームの第２のサンプル列のフレーム長と等しくなるように前記現フレームの第１のサンプル列の末尾にゼロデータを付加するステップと、
前記ゼロデータが付加された現フレームの第１のサンプル列を周波数分析して現フレームの第１のスペクトルを得るステップと、
前記前フレームの第２のサンプル列を周波数分析して前フレームの第２のスペクトルを得た後、前記現フレームの第２のサンプル列を周波数分析して現フレームの第２のスペクトルを得るステップと、
前記前フレームの第２のスペクトルに基づいて前フレームの雑音スペクトルを推定するステップと、
前記前フレームの雑音スペクトルに基づいて前フレーム内の平均雑音パワーを算出するステップと、
前記現フレームの第１及び第２のサンプル列のうちのいずれか一方のサンプル列に基づいて現フレーム内の平均音パワーを算出するステップと、
前記平均雑音パワーと前記平均音パワーとを比較して前記平均雑音パワーの方が前記平均音パワーより大きいことを検知するステップと、
前記検知するステップで前記平均雑音パワーの方が大きいことが検知されないときは前記前フレームの雑音スペクトルと前記現フレームの第２のスペクトルとに基づいて現フレームの雑音スペクトルを推定し、前記検知するステップで前記平均雑音パワーの方が大きいことが検知されたときは前記前フレームの雑音スペクトルと前記現フレームの第１のスペクトルとに基づいて現フレームの雑音スペクトルを推定するステップと、
前記現フレームの第１のスペクトルから前記現フレームの雑音スペクトルを減算して雑音が抑圧された音スペクトルを得るステップと
を含む雑音抑圧方法。
入力音波形のサンプル列を比較的短い第１のフレーム長で切り出して現フレームの第１のサンプル列を得るステップと、
前記入力音波形のサンプル列を比較的長い第２のフレーム長で前記現フレームより前に切り出して前フレームの第２のサンプル列を得た後、前記入力音波形のサンプル列を前記第２のフレーム長で前記現フレームに同期して切り出して現フレームの第２のサンプル列を得るステップと、
前記現フレームの第１のサンプル列のフレーム長が前記現フレームの第２のサンプル列のフレーム長と等しくなるように前記現フレームの第１のサンプル列の末尾にゼロデータを付加するステップと、
前記ゼロデータが付加された現フレームの第１のサンプル列を周波数分析して現フレームの第１のスペクトルを得るステップと、
前記前フレームの第２のサンプル列を周波数分析して前フレームの第２のスペクトルを得た後、前記現フレームの第２のサンプル列を周波数分析して現フレームの第２のスペクトルを得るステップと、
前記前フレームの第２のスペクトルに基づいて前フレームの雑音スペクトルを推定するステップと、
前記前フレームの雑音スペクトルに基づいて前フレーム内の平均雑音パワーを算出するステップと、
前記現フレームの第１及び第２のサンプル列のうちのいずれか一方のサンプル列に基づいて現フレーム内の平均音パワーを算出するステップと、
前記平均雑音パワーと前記平均音パワーとを比較して前記平均雑音パワーの方が前記平均音パワーより大きいことを検知するステップと、
前記前フレームの雑音スペクトルと前記現フレームの第１及び第２のスペクトルのうちのいずれか一方のスペクトルとを混合して現フレームの雑音スペクトルを推定するステップと、
前記検知するステップで前記平均雑音パワーの方が大きいことが検知されるのに応答して前記前フレームの雑音スペクトルに対する前記一方のスペクトルの混合比率を増大すべく制御するステップと、
前記現フレームの第１のスペクトルから前記現フレームの雑音スペクトルを減算して雑音が抑圧された音スペクトルを得るステップと
を含む雑音抑圧方法。
入力音波形のサンプル列を比較的短い第１のフレーム長で切り出して現フレームの第１のサンプル列を得るステップと、
前記入力音波形のサンプル列を比較的長い第２のフレーム長で前記現フレームより前に切り出して前フレームの第２のサンプル列を得た後、前記入力音波形のサンプル列を前記第２のフレーム長で前記現フレームに同期して切り出して現フレームの第２のサンプル列を得るステップと、
前記現フレームの第１のサンプル列のフレーム長が前記現フレームの第２のサンプル列のフレーム長と等しくなるように前記現フレームの第１のサンプル列の末尾にゼロデータを付加するステップと、
前記ゼロデータが付加された現フレームの第１のサンプル列を周波数分析して現フレームの第１のスペクトルを得るステップと、
前記前フレームの第２のサンプル列を周波数分析して前フレームの第２のスペクトルを得た後、前記現フレームの第２のサンプル列を周波数分析して現フレームの第２のスペクトルを得るステップと、
前記前フレームの第２のスペクトルに基づいて前フレームの雑音スペクトルを推定するステップと、
前記前フレームの雑音スペクトルに基づいて前フレーム内の平均雑音パワーを算出するステップと、
前記現フレームの第１及び第２のサンプル列のうちのいずれか一方のサンプル列に基づいて現フレーム内の平均音パワーを算出するステップと、
前記平均雑音パワーと前記平均音パワーとを比較して前記平均雑音パワーの方が前記平均音パワーより小さいことを検知するステップと、
前記前フレームの雑音スペクトルと前記現フレームの第２のスペクトルとを混合して現フレームの雑音スペクトルを推定するステップと、
前記検知するステップで前記平均雑音パワーの方が小さいことが検知されるのに応答して前記前フレームの雑音スペクトルに対する前記現フレームの第２のスペクトルの混合比率を増大すべく制御するステップと、
前記現フレームの第１のスペクトルから前記現フレームの雑音スペクトルを減算して雑音が抑圧された音スペクトルを得るステップと
を含む雑音抑圧方法。
入力音波形のサンプル列を比較的短い第１のフレーム長で切り出して現フレームの第１のサンプル列を生成する第１の切出手段と、
前記入力音波形のサンプル列を比較的長い第２のフレーム長で前記現フレームより前に切り出して前フレームの第２のサンプル列を生成した後、前記入力音波形のサンプル列を前記第２のフレーム長で前記現フレームに同期して切り出して現フレームの第２のサンプル列を生成する第２の切出手段と、
前記現フレームの第１のサンプル列のフレーム長が前記現フレームの第２のサンプル列のフレーム長と等しくなるように前記現フレームの第１のサンプル列の末尾にゼロデータを付加する付加手段と、
前記ゼロデータが付加された現フレームの第１のサンプル列を周波数分析して現フレームの第１のスペクトルを生成する第１の分析手段と、
前記前フレームの第２のサンプル列を周波数分析して前フレームの第２のスペクトルを生成した後、前記現フレームの第２のサンプル列を周波数分析して現フレームの第２のスペクトルを生成する第２の分析手段と、
前記前フレームの第２のスペクトルに基づいて前フレームの雑音スペクトルを推定する第１の推定手段と、
前記前フレームの雑音スペクトルに基づいて前フレーム内の平均雑音パワーを算出する第１の算出手段と、
前記現フレームの第１及び第２のサンプル列のうちのいずれか一方のサンプル列に基づいて現フレーム内の平均音パワーを算出する第２の算出手段と、
前記前フレームの雑音スペクトルに基づいて現フレームの雑音スペクトルを推定する第２の推定手段と、
前記平均雑音パワーと前記平均音パワーとを比較し、その比較結果に応じて前記現フレームの雑音スペクトルの推定態様を制御する制御手段と、
前記現フレームの第１のスペクトルから前記現フレームの雑音スペクトルを減算して雑音が抑圧された音スペクトルを生成する減算手段と
を備えた雑音抑圧装置。
入力音波形のサンプル列を比較的短い第１のフレーム長で切り出して現フレームの第１のサンプル列を生成する第１の切出手段と、
前記入力音波形のサンプル列を比較的長い第２のフレーム長で前記現フレームより前に切り出して前フレームの第２のサンプル列を生成した後、前記入力音波形のサンプル列を前記第２のフレーム長で前記現フレームに同期して切り出して現フレームの第２のサンプル列を生成する第２の切出手段と、
前記現フレームの第１のサンプル列のフレーム長が前記現フレームの第２のサンプル列のフレーム長と等しくなるように前記現フレームの第１のサンプル列の末尾にゼロデータを付加する付加手段と、
前記ゼロデータが付加された現フレームの第１のサンプル列を周波数分析して現フレームの第１のスペクトルを生成する第１の分析手段と、
前記前フレームの第２のサンプル列を周波数分析して前フレームの第２のスペクトルを生成した後、前記現フレームの第２のサンプル列を周波数分析して現フレームの第２のスペクトルを生成する第２の分析手段と、
前記前フレームの第２のスペクトルに基づいて前フレームの雑音スペクトルを推定する第１の推定手段と、
前記前フレームの雑音スペクトルに基づいて前フレーム内の平均雑音パワーを算出する第１の算出手段と、
前記現フレームの第１及び第２のサンプル列のうちのいずれか一方のサンプル列に基づいて現フレーム内の平均音パワーを算出する第２の算出手段と、
前記平均雑音パワーと前記平均音パワーとを比較して前記平均雑音パワーの方が前記平均音パワーより大きいことを検知する検知手段と、
前記検知手段で前記平均雑音パワーの方が大きいことが検知されないときは前記前フレームの雑音スペクトルと前記現フレームの第２のスペクトルとに基づいて現フレームの雑音スペクトルを推定し、前記検知手段で前記平均雑音パワーの方が大きいことが検知されたときは前記前フレームの雑音スペクトルと前記現フレームの第１のスペクトルとに基づいて現フレームの雑音スペクトルを推定する第２の推定手段と、
前記現フレームの第１のスペクトルから前記現フレームの雑音スペクトルを減算して雑音が抑圧された音スペクトルを生成する減算手段と
を備えた雑音抑圧装置。
入力音波形のサンプル列を比較的短い第１のフレーム長で切り出して現フレームの第１のサンプル列を生成する第１の切出手段と、
前記入力音波形のサンプル列を比較的長い第２のフレーム長で前記現フレームより前に切り出して前フレームの第２のサンプル列を生成した後、前記入力音波形のサンプル列を前記第２のフレーム長で前記現フレームに同期して切り出して現フレームの第２のサンプル列を生成する第２の切出手段と、
前記現フレームの第１のサンプル列のフレーム長が前記現フレームの第２のサンプル列のフレーム長と等しくなるように前記現フレームの第１のサンプル列の末尾にゼロデータを付加する付加手段と、
前記ゼロデータが付加された現フレームの第１のサンプル列を周波数分析して現フレームの第１のスペクトルを生成する第１の分析手段と、
前記前フレームの第２のサンプル列を周波数分析して前フレームの第２のスペクトルを生成した後、前記現フレームの第２のサンプル列を周波数分析して現フレームの第２のスペクトルを生成する第２の分析手段と、
前記前フレームの第２のスペクトルに基づいて前フレームの雑音スペクトルを推定する第１の推定手段と、
前記前フレームの雑音スペクトルに基づいて前フレーム内の平均雑音パワーを算出する第１の算出手段と、
前記現フレームの第１及び第２のサンプル列のうちのいずれか一方のサンプル列に基づいて現フレーム内の平均音パワーを算出する第２の算出手段と、
前記平均雑音パワーと前記平均音パワーとを比較して前記平均雑音パワーの方が前記平均音パワーより大きいことを検知する検知手段と、
前記前フレームの雑音スペクトルと前記現フレームの第１及び第２のスペクトルのうちのいずれか一方のスペクトルとを混合して現フレームの雑音スペクトルを推定する第２の推定手段と、
前記検知手段で前記平均雑音パワーの方が大きいことが検知されるのに応答して前記前フレームの雑音スペクトルに対する前記一方のスペクトルの混合比率を増大すべく制御する制御手段と、
前記現フレームの第１のスペクトルから前記現フレームの雑音スペクトルを減算して雑音が抑圧された音スペクトルを生成する減算手段と
を備えた雑音抑圧装置。
入力音波形のサンプル列を比較的短い第１のフレーム長で切り出して現フレームの第１のサンプル列を生成する第１の切出手段と、
前記入力音波形のサンプル列を比較的長い第２のフレーム長で前記現フレームより前に切り出して前フレームの第２のサンプル列を生成した後、前記入力音波形のサンプル列を前記第２のフレーム長で前記現フレームに同期して切り出して現フレームの第２のサンプル列を生成する第２の切出手段と、
前記現フレームの第１のサンプル列のフレーム長が前記現フレームの第２のサンプル列のフレーム長と等しくなるように前記現フレームの第１のサンプル列の末尾にゼロデータを付加する付加手段と、
前記ゼロデータが付加された現フレームの第１のサンプル列を周波数分析して現フレームの第１のスペクトルを生成する第１の分析手段と、
前記前フレームの第２のサンプル列を周波数分析して前フレームの第２のスペクトルを生成した後、前記現フレームの第２のサンプル列を周波数分析して現フレームの第２のスペクトルを生成する第２の分析手段と、
前記前フレームの第２のスペクトルに基づいて前フレームの雑音スペクトルを推定する第１の推定手段と、
前記前フレームの雑音スペクトルに基づいて前フレーム内の平均雑音パワーを算出する第１の算出手段と、
前記現フレームの第１及び第２のサンプル列のうちのいずれか一方のサンプル列に基づいて現フレーム内の平均音パワーを算出する第２の算出手段と、
前記平均雑音パワーと前記平均音パワーとを比較して前記平均雑音パワーの方が前記平均音パワーより小さいことを検知する検知手段と、
前記前フレームの雑音スペクトルと前記現フレームの第２のスペクトルとを混合して現フレームの雑音スペクトルを推定する第２の推定手段と、
前記検知手段で前記平均雑音パワーの方が小さいことが検知されるのに応答して前記前フレームの雑音スペクトルに対する前記現フレームの第２のスペクトルの混合比率を増大すべく制御する制御手段と、
前記現フレームの第１のスペクトルから前記現フレームの雑音スペクトルを減算して雑音が抑圧された音スペクトルを生成する減算手段と
を備えた雑音抑圧装置。