JP4434813B2

JP4434813B2 - 雑音スペクトル推定方法、雑音抑圧方法および雑音抑圧装置

Info

Publication number: JP4434813B2
Application number: JP2004100935A
Authority: JP
Inventors: 道子風間; 三樹夫東山; 徹平井
Original assignee: Waseda University; Yamaha Corp
Current assignee: Waseda University; Yamaha Corp
Priority date: 2004-03-30
Filing date: 2004-03-30
Publication date: 2010-03-17
Anticipated expiration: 2024-03-30
Also published as: JP2005284163A; US20050256705A1; CA2502980C; CA2502980A1; GB2413469A; GB2413469B; GB0506434D0; US7596495B2

Description

この発明は、雑音が混入した音声信号から、該雑音のスペクトルを推定する方法に関する。また、この発明は、該推定に基づき該雑音を抑圧した音声信号を生成する方法および装置に関する。

雑音が混入した音声信号から該雑音のスペクトルを推定する技術は、例えば音声認識技術、電話等による音声通信技術等において、雑音を抑圧する（雑音の混入した音声信号から雑音を除去し、目的とする音声信号を取り出す）のに利用される。音声信号に含まれる雑音を抑圧する技術としては、例えばスペクトルサブトラクション法がある。スペクトルサブトラクション法は、雑音が混入した音声信号から該雑音のスペクトルを推定し、雑音が混入した音声信号のスペクトルから、推定された雑音のスペクトルを差し引くことにより、雑音を抑圧するものである。

スペクトルサブトラクション技術を開示した従来技術として、下記特許文献に記載されたものがある。
特開平１１−３０９４号公報特開２００２−１４６９４号公報特開２００３−２２３１８６号公報

この発明は、雑音が混入した音声信号から、該雑音のスペクトルを推定する新規な方法を提供しようとするものである。また、この発明は、該推定に基づき該雑音を抑圧した音声信号を生成する方法および装置を提供しようとするものである。

この発明の雑音スペクトル推定方法は、雑音が混入した音声信号から、該雑音のスペクトルを推定する方法であって、現在観測されている信号区間の観測信号のスペクトルの包絡線と、前回観測された信号区間の観測信号について推定された雑音のスペクトルの包絡線との相関値を求め、該求められた相関値に応じた比率で、前記現在観測されている信号区間の観測信号のスペクトルと、前記前回観測された信号区間の観測信号について推定された雑音のスペクトルとを混合し、該混合したスペクトルを前記現在観測されている信号区間の観測信号について雑音のスペクトルとして推定するものである。

この発明の雑音スペクトル推定方法は、前記相関値が高いときは該相関値が低いときに比べて、前記現在観測されている信号区間の観測信号のスペクトルの混合比率を相対的に高くし、前記前回観測された信号区間の観測信号について推定された雑音のスペクトルの混合比率を相対的に低くし、前記相関値が低いときは該相関値が高いときに比べて、前記現在観測されている信号区間の観測信号のスペクトルの混合比率を相対的に低くし、前記前回観測された信号区間の観測信号について推定された雑音のスペクトルの混合比率を相対的に高くすることができる。

この発明の雑音スペクトル推定方法は、前記相関値が高くなるにつれて、該相関値の変化に対する、前記現在観測されている信号区間の観測信号のスペクトルの混合比率の変化を大きくすることができる。

この発明の雑音スペクトル推定方法は、前記現在観測されている信号区間の観測信号について推定される雑音のスペクトルが

Ｎ（ｋ）＝［１−｛ρ^ｌ／（１＋ρ^ｌ）｝^ｍ］・Ｎ_０（ｋ）＋｛ρ^ｌ／（１＋ρ^ｌ）｝^ｍ・Ｘ（ｋ）
但し、Ｎ（ｋ）：現在観測されている信号区間の観測信号について推定される
雑音のスペクトル
Ｎ_０（ｋ）：前回観測された信号区間の観測信号について推定された雑音
のスペクトル
Ｘ（ｋ）：現在観測されている信号区間の観測信号のスペクトル
ρ：現在観測されている信号区間の観測信号のスペクトルの包絡線と前回
観測された信号区間の観測信号について推定された雑音のスペクトル
の包絡線との相関値
ｌ，ｍ：定数（ｌは１以上の値、ｍは０以上の値）

として求められる値とすることができる。

この発明の雑音スペクトル推定方法は、前記現在観測されている信号区間の観測信号について推定される雑音のスペクトルを、次の信号区間における前回観測された信号区間の観測信号について推定された雑音のスペクトルとすることができる。

この発明の雑音スペクトル推定方法は、前記スペクトルの包絡線が振幅スペクトルの包絡線であるものとすることができる。

この発明の雑音スペクトル抑圧方法は、雑音が混入した音声信号から、該雑音の振幅スペクトルを推定し、該雑音を抑圧した音声信号を生成する方法であって、現在観測されている信号区間の観測信号をフーリエ変換して振幅スペクトルと位相スペクトルを求め、該求められた現在観測されている信号区間の観測信号の振幅スペクトルの包絡線と、前回観測された信号区間の観測信号について推定された雑音の振幅スペクトルの包絡線との相関値を求め、該求められた相関値に応じた比率で、前記現在観測されている信号区間の観測信号の振幅スペクトルと、前記前回観測された信号区間の観測信号について推定された雑音の振幅スペクトルとを混合し、該混合した振幅スペクトルを前記現在観測されている信号区間の観測信号について雑音の振幅スペクトルとして推定し、前記現在観測されている信号区間の観測信号の振幅スペクトルから該現在観測されている信号区間の観測信号について推定された雑音の振幅スペクトルを減算し、該減算により得られる振幅スペクトルと前記求められた位相スペクトルとを再合成して逆フーリエ変換し、該逆フーリエ変換で得られる信号を前記雑音を抑圧した音声信号として出力し、前記現在観測されている信号区間の観測信号について推定される雑音の振幅スペクトルを、次の信号区間における前回観測された信号区間の観測信号について推定された雑音の振幅スペクトルとするものである。

この発明の雑音抑圧装置は、雑音が混入した音声信号から、該雑音の振幅スペクトルを推定し、該雑音を抑圧した音声信号を生成する装置であって、現在観測されている信号区間の観測信号をフーリエ変換するフーリエ変換手段と、該フーリエ変換されたデータから振幅スペクトルを求める振幅スペクトル演算手段と、該フーリエ変換されたデータから位相スペクトルを求める位相スペクトル演算手段と、前記求められた現在観測されている信号区間の観測信号の振幅スペクトルの包絡線と、前回観測された信号区間の観測信号について推定された雑音の振幅スペクトルの包絡線との相関値を求める相関値演算手段と、該求められた相関値に応じた比率で、前記現在観測されている信号区間の観測信号の振幅スペクトルと、前記前回観測された信号区間の観測信号について推定された雑音の振幅スペクトルとを混合し、該混合した振幅スペクトルを前記現在観測されている信号区間の観測信号について雑音の振幅スペクトルとして推定する雑音振幅スペクトル演算手段と、前記現在観測されている信号区間の観測信号の振幅スペクトルから該現在観測されている信号区間の観測信号について推定された雑音の振幅スペクトルを減算する減算手段と、該減算により得られる振幅スペクトルと前記位相スペクトルとを再合成する再合成手段と、該再合成されたデータを逆フーリエ変換する逆フーリエ変換手段とを具備し、該逆フーリエ変換によって生成された信号を前記雑音を抑圧した音声信号として出力し、前記現在観測されている信号区間の観測信号について推定される雑音の振幅スペクトルを、次の信号区間における前回観測された信号区間の観測信号について推定された雑音の振幅スペクトルとするものである。

この発明の雑音スペクトル推定方法によれば、現在観測されている信号区間の観測信号について雑音のスペクトルを推定することができる。この発明の雑音スペクトル抑圧方法および雑音スペクトル抑圧装置によれば、この発明の雑音スペクトル推定方法を利用して、音声信号に混入している雑音を除去、抑圧し、目的とする音声信号を取り出すことができる。

（実施の形態１）
この発明の雑音スペクトル推定方法をスペクトルサブトラクション法による雑音抑圧処理に適用した実施の形態を以下説明する。図１は、この発明による雑音抑圧装置の実施の形態を示す。一点鎖線１０で囲んだ部分は、従来のスペクトルサブトラクション法による雑音抑圧装置と共通する部分である。一点鎖線１１で囲んだ部分は、この発明の方法により雑音の振幅スペクトルの推定を行う雑音振幅スペクトル推定部である。入力信号（観測信号）ｘ_０（ｎ）（ｎ＝０，１，２，…，Ｎ−１。但し、Ｎは１フレームのサンプル数）はマイク等で入力された雑音を含む音声信号（例えば音声認識のために入力された信号、電話通信で受信された音声信号等）のサンプル列である。入力信号ｘ_０（ｎ）には、背景雑音等の定常雑音が混入している。入力信号ｘ_０（ｎ）は、入力信号切り出し部１２に入力され、所定サンプル数で構成されるフレームごとに切り出される。ここでは、雑音抑圧処理終了後に最終的に出力信号を合成する際に、フレーム間に切れ目を生じさせないように、図２（ａ），（ｂ）に示すように、半フレームごとに順次ずらしてフレーム切り出しを行う。なお、１フレーム長Ｎは１２５〜５００ｍｓｅｃ程度とするのが音質上好ましい。この長さの１フレーム長は、入力信号ｘ_０（ｎ）のサンプリング周波数が約８ｋＨｚの場合、１フレームを１０２４〜４０９６サンプルで構成することに相当する。

入力信号切り出し部１２で切り出された入力信号ｘ（ｎ）は、フーリエ変換部１４で、切り出されたフレームごとに順次フーリエ変換される。該フーリエ変換により順次求められる離散フーリエ変換Ｘ（ｋ）（ｋ＝０，１，２，…，Ｎ−１）は、振幅スペクトル計算部１６と位相スペクトル計算部１８に入力される。振幅スペクトル計算部１６は、（１）式により離散フーリエ変換Ｘ（ｋ）の振幅スペクトル｜Ｘ（ｋ）｜を求める。

｜Ｘ（ｋ）｜＝｛Ｘ_Ｒ（ｋ）^２＋Ｘ_Ｉ（ｋ）^２｝^１／２ …（１）
但し、Ｘ_Ｒ（ｋ）：Ｘ（ｋ）の実数部
Ｘ_Ｉ（ｋ）：Ｘ（ｋ）の虚数部

また、位相スペクトル計算部１８は、（２）式により離散フーリエ変換Ｘ（ｋ）の位相スペクトルθ（ｋ）を求める。

θ（ｋ）＝ｔａｎ^−１｛Ｘ_Ｉ（ｋ）／Ｘ_Ｒ（ｋ）｝ …（２）

雑音振幅スペクトル推定部１１は、求められた振幅スペクトル｜Ｘ（ｋ）｜に応じて、入力信号ｘ（ｎ）に含まれる雑音信号の振幅スペクトル（雑音振幅スペクトル）｜Ｎ（ｋ）｜を、後述する手法により推定する。スペクトル減算部１５は、切り出されたフレームごとに、（３）式により、振幅スペクトル計算部１６で求めた現フレームの振幅スペクトル｜Ｘ（ｋ）｜から、雑音振幅スペクトル推定部１１で求めた現フレームの雑音振幅スペクトル｜Ｎ（ｋ）｜を減算することにより、雑音振幅スペクトルを除去した現フレームの振幅スペクトル｜Ｙ（ｋ）｜を求める。

｜Ｙ（ｋ）｜＝｜Ｘ（ｋ）｜−｜Ｎ（ｋ）｜ …（３）

再合成部１７は、スペクトル減算部１５で求めた現フレームの振幅スペクトル｜Ｙ（ｋ）｜と、位相スペクトル計算部１８で求めた現フレームの入力信号ｘ（ｎ）の位相スペクトルθ（ｋ）とを再合成して、（４）式に示す複素スペクトルデータＧ（ｋ）に戻す。

Ｇ（ｋ）＝｜Ｙ（ｋ）｜ｅ^θ（ｋ） …（４）

逆フーリエ変換部１９は、複素スペクトルデータＧ（ｋ）を逆フーリエ変換して、時間波形データｇ（ｎ）に戻す。出力信号連結部２１は、半フレーム毎に得られる（半フレームずつオーバーラップして得られる）各1フレーム長の時間波形データｇ（ｎ）にそれぞれ図２（ｃ）に示す三角窓を掛け（１フレーム長の前半の１／２フレームでゲインが０から１に直線的に上昇し、後半の１／２フレームでゲインが１から０に下降する特性のゲインを付与し）、これら三角窓を掛けられた時間波形データｇ（ｎ）を図２（ｄ）に示すように加算合成して連結することにより、出力信号ｇ_０（ｎ）を作成する。以上のようにして、入力信号ｘ_０（ｎ）から雑音を除去した出力信号ｇ_０（ｎ）（目的とする音声信号）が得られる。なお、上記の処理は、窓関数として三角窓を用いたが、これに限らず、ハニング窓、ハミング窓、台形窓等の窓関数を用いてもよい。

図１の雑音振幅スペクトル推定部１１について説明する。スペクトル包絡線抽出部２０は、振幅スペクトル｜Ｘ（ｋ）｜に含まれる細かな凹凸特性を除去して、振幅スペクトル｜Ｘ（ｋ）｜の包絡線｜Ｘ’（ｋ）｜を抽出する（つまり、振幅スペクトル｜Ｘ（ｋ）｜を平滑化する）ものである。これは、後述する相関値算出において、振幅スペクトル｜Ｘ（ｋ）｜そのものを用いると、スペクトルの相関値が低くなり、「音声区間」と「雑音区間」の区別が明確でなくなるためである。すなわち、雑音は長時間的平均でみれば、そのスペクトルは広い帯域にわたってほぼ一様となる滑らかな分布となることが期待できる。しかし、短時間でみれば多くの山谷を有するスペクトルの変動が観察される。一方、音声は、雑音とは異なり、その全体的な周波数特性は特定の周波数帯域に大きな振幅値を持っており、全周波数帯域に一様に分布していない。この実施の形態による雑音スペクトルの推定方法の特徴は、この「全周波数帯域に一様に分布する雑音」と、「ある特定の周波数帯域に大きな振幅値を持つ音声」を、スペクトルの相関値の大小で区別することにあるので、雑音の振幅スペクトルが持っている細かな凹凸特性を除去する。

スペクトル包絡線抽出部２０は、例えば、振幅スペクトル｜Ｘ（ｋ）｜を時間波形と見立ててローパスフィルタ処理をする（振幅スペクトル｜Ｘ（ｋ）｜を直接ローパスフィルタにかける、あるいは振幅スペクトル｜Ｘ（ｋ）｜を周波数軸方向に移動平均処理をする等）ことにより、包絡線を抽出する。振幅スペクトル｜Ｘ（ｋ）｜を直接ローパスフィルタにかける場合のローパスフィルタのカットオフ周波数は、高すぎても低すぎても、音声の特徴を抽出することができない。すなわち、カットオフ周波数が高すぎると、雑音のスペクトルの細かな凹凸特性を除去できない。また、カットオフ周波数が低すぎると、音声成分自体が除去されてしまう。実験によれば、ローパスフィルタのカットオフ周波数はｆｓ／３００Ｈｚ｛ｆｓ＝１６ｋＨｚサンプリングした時間数列とみなしたときの約５０Ｈｚに相当。ｆｓは入力信号ｘ（ｎ）のサンプリング周波数｝〜ｆｓ／１６Ｈｚ｛ｆｓ＝１６ｋＨｚサンプリングした時間数列とみなしたときの約１０００Ｈｚに相当）の範囲に設定した場合に、音声の特徴を良好に抽出することができた。スペクトル包絡線抽出部２０は、具体的には、ローパスフィルタのカットオフ周波数をｆｓ／３００Ｈｚとする場合は、カットオフ周波数が５０Ｈｚに相当する８次バタワース特性のローパスフィルタで構成することができる。

なお、スペクトル包絡線抽出部２０により振幅スペクトル｜Ｘ（ｋ）｜の包絡線を抽出する別の方法として、振幅スペクトル｜Ｘ（ｋ）｜をさらにフーリエ変換してケプストラムを求める方法もあり、上記の方法に限定されない。ケプストラムを用いる場合は、具体的には、例えば「ディジタル信号処理／社団法人電子情報通信学会（コロナ社）」３．３．５ケプストラム（ｐ６６〜７０）や、「ディジタル信号処理入門／城戸健一著（丸善）」８．３ケプストラムの計算（ｐ１５８〜１６２）で説明されているような計算方法により、ケプストラムの低ケフレンシー部分のみを通過させるような窓関数をかけて、スペクトル包絡線を抽出する。

雑音振幅スペクトル初期値出力部２２は雑音振幅スペクトルの初期値を出力する。すなわち、本装置の起動当初は、参照する雑音振幅スペクトルデータがないため、初期値を設定する。雑音振幅スペクトル初期値の設定方法としては、たとえは、次の方法が考えられる。
（方法１）起動直後に入力された、音声の混入していない背景雑音のみのデータをフーリエ変換し、該フーリエ変換されたデータから、前記（１）式により求められる振幅スペクトルデータを雑音振幅スペクトル初期値として設定する。
（方法２）予め背景雑音に相当する振幅スペクトルデータをメモリに保持しておき、起動時にそれを読み出して雑音振幅スペクトル初期値として設定する。あるいは、予め背景雑音に相当する振幅スペクトルデータの包絡線データをメモリに保持しておき、起動時にそれを読み出して雑音振幅スペクトル包絡線データの初期値として設定する。
（方法３）ホワイトノイズやピンクノイズの振幅スペクトルデータを雑音振幅スペクトル初期値として設定する。

雑音振幅スペクトル更新部２４は、後述する雑音振幅スペクトル算出部３０で半フレームごとに求められる雑音の振幅スペクトル｜Ｎ（ｋ）｜を順次入力し、半フレーム分遅延して、前回（半フレーム前）観測された信号区間の観測信号について推定された雑音振幅スペクトル推定値｜Ｎ_０（ｋ）｜として順次出力するものである。起動当初は雑音の振幅スペクトル｜Ｎ（ｋ）｜は未だ推定されていないので、雑音振幅スペクトル更新部２４は雑音振幅スペクトル初期値出力部２２で設定された雑音振幅スペクトルの初期値を出力する。スペクトル包絡線抽出部２６は、スペクトル包絡線抽出部２０と同様の方法により、雑音振幅スペクトル｜Ｎ_０（ｋ）｜の包絡線｜Ｎ_０’（ｋ）｜を抽出する。

相関値算出部２８は、スペクトル包絡線抽出部２０で抽出された現フレームの振幅スペクトル包絡線｜Ｘ’（ｋ）｜と、スペクトル包絡線抽出部２６で抽出された雑音振幅スペクトル包絡線｜Ｎ_０’（ｋ）｜の相関値（相関係数）ρを求める。相関値ρは、
入力信号振幅スペクトル包絡線を｜Ｘ’（ｋ）｜＝（ｘ_１，ｘ_２，…，ｘ_ｋ）
雑音振幅スペクトル包絡線を｜Ｎ_０’（ｋ）｜＝（ｙ_１，ｙ_２，…，ｙ_ｋ）
とすると、（５）式により求められる。

雑音振幅スペクトル算出部３０は、求められた相関値ρに応じて、現在観測されている信号区間の音声信号について雑音の振幅スペクトル｜Ｎ（ｋ）｜を、（６）式により求める。

｜Ｎ（ｋ）｜＝［１−｛ρ^ｌ／（１＋ρ^ｌ）｝^ｍ］・｜Ｎ_０（ｋ）｜＋｛ρ^ｌ／（１＋ρ^ｌ）｝^ｍ・｜Ｘ（ｋ）｜ …（６）
但し、｜Ｎ（ｋ）｜：現在観測されているフレームの音声信号について推定
される雑音の振幅スペクトル
｜Ｎ_０（ｋ）｜：前回（半フレーム前）観測されたフレームの音声信号
について推定された雑音の振幅スペクトル
｜Ｘ（ｋ）｜：現在観測されているフレームの音声信号のスペクトル
ρ：現在観測されているフレームの音声信号のスペクトルの包絡線と
前回観測されたフレームの音声信号について推定された雑音の
スペクトルの包絡線との相関値
ｌ，ｍ：定数（ｌは１以上の値、ｍは０以上の値）

（６）式は、前回（半フレーム前）推定した雑音の振幅スペクトル｜Ｎ_０（ｋ）｜と、今回算出した入力信号の振幅スペクトル｜Ｘ（ｋ）｜を、求められた相関値ρに応じた比率で加算して、新たな振幅スペクトル｜Ｎ（ｋ）｜を推定するものである。すなわち、相関値ρが低いときは、入力信号に含まれる音声成分が多い（つまり、有音区間）と判断されるので、前回推定した雑音の振幅スペクトル｜Ｎ_０（ｋ）｜の比率を高くし、今回算出した入力信号の振幅スペクトル｜Ｘ（ｋ）｜を比率を低くして加算する。つまり、雑音振幅スペクトル推定値｜Ｎ（ｋ）｜が音声成分の影響で変化しないようにする。これに対し、相関値ρが高いときは、入力信号に含まれる音声成分が少ない（つまり、無音区間）と判断されるので、前回推定した雑音の振幅スペクトル｜Ｎ_０（ｋ）｜の比率を低くし、今回算出した入力信号の振幅スペクトル｜Ｘ（ｋ）｜を比率を高くして加算する。つまり、雑音振幅スペクトル推定値｜Ｎ（ｋ）｜が、定常雑音の緩やかな変化に追従して変化するようにする。そして、相関値ρが限りなく１に近いときに、前回推定した雑音の振幅スペクトル｜Ｎ_０（ｋ）｜と、今回算出した入力信号の振幅スペクトル｜Ｘ（ｋ）｜を同じ比率（０．５：０．５）で加算する。このようにして、主に無音区間で雑音の振幅スペクトルが更新される。

（６）式において、ｌは、低相関値に対する感度を調整するための定数である。ｌ値による、相関値ρに対する（６）式の係数値１−｛ρ^ｌ／（１＋ρ^ｌ）｝^ｍ、｛ρ^ｌ／（１＋ρ^ｌ）｝^ｍの変化を図３に示す。なお、図３はｍ＝１とした場合のものである。図３によれば、ｌ値が大きいほど低相関時の雑音振幅スペクトル推定値の更新量が少なくなることがわかる。

（６）式において、ｍは、更新量を調整するための定数である。ｍ値による、相関値ρに対する（６）式の係数値１−｛ρ^ｌ／（１＋ρ^ｌ）｝^ｍ、｛ρ^ｌ／（１＋ρ^ｌ）｝^ｍの変化を図４に示す。なお、図４はｌ＝２とした場合のものである。図４によれば、ｍ値が大きいほど更新量が少なくなることがわかる。

図１の雑音抑圧装置を使用して雑音抑圧実験を行い、雑音抑圧効果を測定した。実験では、定常雑音としてプロジェクタから発生する雑音が存在する環境で、女声アナウンス音および男声アナウンス音を収音し、その収音信号について、図１の雑音抑圧装置による雑音抑圧処理をした場合と、何も雑音抑圧処理をしない場合のＰＥＳＱ−ＭＯＳ値をそれぞれ測定した。収音信号のサンプリング周波数を１６ｋＨｚとし、フレーム切り出しの１フレーム長を１０２４サンプルとし、図２の処理（雑音抑圧前に半フレームずつずらしてフレーム切り出しを行い、雑音抑圧後に三角窓を掛けて加算合成を行う。）を行った。雑音振幅スペクトルの演算には前記（６）式を使用し、そのｌ値、ｍ値は、それぞれｌ＝７０、ｍ＝１とした。なお、ＰＥＳＱ−ＭＯＳ値は、音声品質の評価指標で、０．５〜４．５の範囲で値をとり、値が高いほど音声品質が良いと判断される。測定結果を表１に示す。また、図５は表１の結果を図示したものである。

表１によれば、背景雑音レベルが低い場合（ＳＮ比＝２４ｄＢ）も、高い場合（ＳＮ比＝１２ｄＢ）も、また、女声アナウンスの場合も、男声アナウンスの場合も、いずれの場合も、図１の雑音抑圧装置による雑音抑圧処理をした場合の方が、何も雑音抑圧処理をしなかった場合に比べてＰＥＳＱ−ＭＯＳ値が高く、同雑音抑圧処理により音声品質が改善されることがわかった。

（変更例）
前記実施の形態では、雑音振幅スペクトルの演算に前記（６）式を使用したが、雑音振幅スペクトルの演算はこれに限るものではなく、例えば、下記（７）式により雑音振幅スペクトル｜Ｎ（ｋ）｜を求めることもできる。

｜Ｎ（ｋ）｜＝（１−ρ^ｌ）・｜Ｎ_０（ｋ）｜＋ρ^ｌ・｜Ｘ（ｋ）｜ …（７）

また、相関値ρが所定値以下の時は、現在観測されているフレームの入力信号の振幅スペクトル｜Ｘ（ｋ）｜の加算比率を０とする（すなわち、雑音振幅スペクトル推定値｜Ｎ（ｋ）｜を更新しない）こともできる。

前記実施の形態では、振幅スペクトルサブトラクション法を用いて、入力信号の振幅スペクトル｜Ｘ（ｋ）｜の包絡線に基づき雑音の振幅スペクトル｜Ｎ（ｋ）｜を推定し、入力信号の振幅スペクトル｜Ｘ（ｋ）｜から雑音の振幅スペクトル｜Ｎ（ｋ）｜を減算して雑音抑圧を行ったが、これに代えて、パワースペクトルサブトラクション法を用いて、入力信号のパワースペクトル｜Ｘ（ｋ）｜^２の包絡線に基づき雑音のパワースペクトル｜Ｎ（ｋ）｜^２を推定し、入力信号のパワースペクトル｜Ｘ（ｋ）｜^２から雑音のパワースペクトル｜Ｎ（ｋ）｜^２を減算して雑音抑圧を行うことができ、この雑音のパワースペクトル｜Ｎ（ｋ）｜^２の推定にこの発明の雑音スペクトル推定方法を適用することができる。

前記実施の形態では、入力信号の振幅スペクトル｜Ｘ（ｋ）｜の包絡線に基づき雑音の振幅スペクトル｜Ｎ（ｋ）｜を推定し、入力信号の振幅スペクトル｜Ｘ（ｋ）｜から雑音の振幅スペクトル｜Ｎ（ｋ）｜を減算して雑音抑圧を行ったが、これに代えて、入力信号の振幅情報と位相情報を分離していない複素スペクトルＸ（ｋ）そのものを用いて、該複素スペクトルＸ（ｋ）の包絡線に基づき雑音の複素スペクトルＮ（ｋ）を推定し、入力信号の複素スペクトルＸ（ｋ）から雑音の複素スペクトルＮ（ｋ）を減算して雑音抑圧を行うこともできる。

この発明の雑音スペクトル推定方法は雑音抑圧以外の用途にも適用することができる。

この発明による雑音抑圧装置の実施の形態を示すブロック図である。図１の雑音抑圧装置における入力信号の切り出しおよび出力信号の連結方法を説明するタイムチャートである。ｌ値による、相関値ρに対する（６）式の係数値１−｛ρ^ｌ／（１＋ρ^ｌ）｝^ｍ、｛ρ^ｌ／（１＋ρ^ｌ）｝^ｍの変化を示す特性図である。ｍ値による、相関値ρに対する（６）式の係数値１−｛ρ^ｌ／（１＋ρ^ｌ）｝^ｍ、｛ρ^ｌ／（１＋ρ^ｌ）｝^ｍの変化を図４に示す特性図である。図１の雑音抑圧装置による雑音抑圧効果を示す図で、表１の測定結果を線図で示したものである。

符号の説明

１４…フーリエ変換部（フーリエ変換手段）、１５…スペクトル減算部（減算手段）、１６…振幅スペクトル計算部（振幅スペクトル演算手段）、１７…再合成部（再合成手段）、１８…位相スペクトル計算部（位相スペクトル演算手段）、１９…逆フーリエ変換部（逆フーリエ変換手段）、２０，２６…スペクトル崩落線抽出部、２８…相関値算出部（相関値演算手段）、３０…雑音振幅スペクトル算出部（雑音振幅スペクトル演算手段）

Claims

雑音が混入した音声信号から、該雑音のスペクトルを推定する方法であって、
現在観測されている信号区間の観測信号のスペクトルの包絡線と、前回観測された信号区間の観測信号について推定された雑音のスペクトルの包絡線との相関値を求め、該求められた相関値に応じた比率で、前記現在観測されている信号区間の観測信号のスペクトルと、前記前回観測された信号区間の観測信号について推定された雑音のスペクトルとを混合し、該混合したスペクトルを前記現在観測されている信号区間の観測信号について雑音のスペクトルとして推定する雑音スペクトル推定方法。
前記相関値が高いときは該相関値が低いときに比べて、前記現在観測されている信号区間の観測信号のスペクトルの混合比率を相対的に高くし、前記前回観測された信号区間の観測信号について推定された雑音のスペクトルの混合比率を相対的に低くし、
前記相関値が低いときは該相関値が高いときに比べて、前記現在観測されている信号区間の観測信号のスペクトルの混合比率を相対的に低くし、前記前回観測された信号区間の観測信号について推定された雑音のスペクトルの混合比率を相対的に高くする請求項１記載の雑音スペクトル推定方法。
前記相関値が高くなるにつれて、該相関値の変化に対する、前記現在観測されている信号区間の観測信号のスペクトルの混合比率の変化を大きくする請求項２記載の雑音スペクトル推定方法。
前記現在観測されている信号区間の観測信号について推定される雑音のスペクトルが、

Ｎ（ｋ）＝［１−｛ρ^ｌ／（１＋ρ^ｌ）｝^ｍ］・Ｎ_０（ｋ）＋｛ρ^ｌ／（１＋ρ^ｌ）｝^ｍ・Ｘ（ｋ）
但し、Ｎ（ｋ）：現在観測されている信号区間の観測信号について推定される
雑音のスペクトル
Ｎ_０（ｋ）：前回観測された信号区間の観測信号について推定された雑音
のスペクトル
Ｘ（ｋ）：現在観測されている信号区間の観測信号のスペクトル
ρ：現在観測されている信号区間の観測信号のスペクトルの包絡線と前回
観測された信号区間の観測信号について推定された雑音のスペクトル
の包絡線との相関値
ｌ，ｍ：定数（ｌは１以上の値、ｍは０以上の値）

として求められる値である請求項２記載の雑音スペクトル推定方法。
前記現在観測されている信号区間の観測信号について推定される雑音のスペクトルを、次の信号区間における前回観測された信号区間の観測信号について推定された雑音のスペクトルとする請求項１から４のいずれかに記載の雑音スペクトル推定方法。
前記スペクトルの包絡線が振幅スペクトルの包絡線である請求項１から５のいずれかに記載の雑音スペクトル推定方法。
雑音が混入した音声信号から、該雑音の振幅スペクトルを推定し、該雑音を抑圧した音声信号を生成する方法であって、
現在観測されている信号区間の観測信号をフーリエ変換して振幅スペクトルと位相スペクトルを求め、
該求められた現在観測されている信号区間の観測信号の振幅スペクトルの包絡線と、前回観測された信号区間の観測信号について推定された雑音の振幅スペクトルの包絡線との相関値を求め、
該求められた相関値に応じた比率で、前記現在観測されている信号区間の観測信号の振幅スペクトルと、前記前回観測された信号区間の観測信号について推定された雑音の振幅スペクトルとを混合し、該混合した振幅スペクトルを前記現在観測されている信号区間の観測信号について雑音の振幅スペクトルとして推定し、前記現在観測されている信号区間の観測信号の振幅スペクトルから該現在観測されている信号区間の観測信号について推定された雑音の振幅スペクトルを減算し、
該減算により得られる振幅スペクトルと前記求められた位相スペクトルとを再合成して逆フーリエ変換し、
該逆フーリエ変換で得られる信号を前記雑音を抑圧した音声信号として出力し、
前記現在観測されている信号区間の観測信号について推定される雑音の振幅スペクトルを、次の信号区間における前回観測された信号区間の観測信号について推定された雑音の振幅スペクトルとする雑音抑圧方法。
雑音が混入した音声信号から、該雑音の振幅スペクトルを推定し、該雑音を抑圧した音声信号を生成する装置であって、
現在観測されている信号区間の観測信号をフーリエ変換するフーリエ変換手段と、
該フーリエ変換されたデータから振幅スペクトルを求める振幅スペクトル演算手段と、
該フーリエ変換されたデータから位相スペクトルを求める位相スペクトル演算手段と、
前記求められた現在観測されている信号区間の観測信号の振幅スペクトルの包絡線と、前回観測された信号区間の観測信号について推定された雑音の振幅スペクトルの包絡線との相関値を求める相関値演算手段と、
該求められた相関値に応じた比率で、前記現在観測されている信号区間の観測信号の振幅スペクトルと、前記前回観測された信号区間の観測信号について推定された雑音の振幅スペクトルとを混合し、該混合した振幅スペクトルを前記現在観測されている信号区間の観測信号について雑音の振幅スペクトルとして推定する雑音振幅スペクトル演算手段と、
前記現在観測されている信号区間の観測信号の振幅スペクトルから該現在観測されている信号区間の観測信号について推定された雑音の振幅スペクトルを減算する減算手段と、
該減算により得られる振幅スペクトルと前記位相スペクトルとを再合成する再合成手段と、
該再合成されたデータを逆フーリエ変換する逆フーリエ変換手段とを具備し、
該逆フーリエ変換によって生成された信号を前記雑音を抑圧した音声信号として出力し、前記現在観測されている信号区間の観測信号について推定される雑音の振幅スペクトルを、次の信号区間における前回観測された信号区間の観測信号について推定された雑音の振幅スペクトルとする雑音抑圧装置。