JP2007535698A

JP2007535698A - バーク帯域ワイナ・フィルタリング及び修正されたドブリンガ雑音評価に基づく雑音抑制

Info

Publication number: JP2007535698A
Application number: JP2007509545A
Authority: JP
Inventors: エベネザー，サミュエル・ポンヴァーマ
Original assignee: アコースティック・テクノロジーズ・インコーポレーテッド
Priority date: 2004-04-23
Filing date: 2005-04-18
Publication date: 2007-12-06
Also published as: EP1745469A2; KR100851716B1; US7492889B2; WO2005109404A2; US20050240401A1; KR20070037439A; CN101142800A; WO2005109404A3; EP1745469A4

Abstract

雑音抑制装置において、入力信号は、離散フーリエ解析によって周波数領域に変換され、バーク帯域に分割される。雑音は、それぞれの帯域（８５）において評価される。雑音を評価する回路は、雑音の間の方が音声の間よりも遅い時定数で雑音評価を更新する平滑化フィルタを含む。この雑音抑制装置は、入力信号のそれぞれのフレームの信号対雑音比と逆比例する雑音抑制ファクタ（８９）を調整する回路（８６）を更に含む。雑音評価は、それぞれの帯域において信号から減算される。離散フーリエ変換によって信号は時間領域に再変換され、重複し合成されたウィンドウが、処理の間に生じうる歪みを除去する。

Description

本発明は、音声信号処理に関し、特に、雑音（ノイズ）を低減するためにスペクトル減算を用いる回路に関する。

この出願では、「電話」とは、ライセンスを有するサービス・プロバイダからのダイアル・トーンを直接又は間接に用いる通信装置のための総称的な用語である。従って、「電話」と言えば、机上電話機（図１を参照）、コードレス電話機（図２を参照）、スピーカフォン（図３を参照）、ハンドフリー・キット（図４を参照）、携帯電話（図５を参照）などを含む。単純化のために、本発明は、電話を例として説明されるが、それよりも広い用途を有している。無線周波数のトランシーバやインターコムなど、ダイアル・トーンを用いない通信装置などがその例である。

電話システムには、多くの雑音源が存在する。原因が音響的である雑音もあれば、それ以外にも、例えば、電話網（ネットワーク）などのように電子的な雑音源もある。この出願では、「雑音」と言えば、周期的であるか、純粋にランダムであるか、その中間のどこかであるかとは関係なく、望まない音声を意味する。よって、雑音には、背景の音楽、相手以外の人間の声、タイヤの雑音、風の雑音なども含まれる。自動車は、特にやかましい環境となりうるが、そのために、本発明はハンドフリー・キットにとって特に有用な発明となる。

広く定義すると、雑音は、スピーカの音のエコーを含む。しかし、エコーの除去は、電話システムでは別個に処理されており、２つのチャネルにおける信号の比較に関係している。本発明は雑音の抑制に関するものであり、これは、本発明による装置は単一のチャネルでリアルタイムに動作する、すなわち、エコー除去の場合のように遅延を計算しないことを意味する。

普遍的に妥当するとは言えないが、従来技術では、一般に、雑音の「抑制」（suppression）を減算（subtraction）と関連付け、雑音の「低減」（reduction）を減衰（attenuation）と関連付けている。この出願では、雑音の抑制は、ある信号を別の信号から減算して雑音の量を減少させることを含む。

この技術分野の当業者であれば、アナログ信号がいったんデジタル形式に変換されるとそれ以後のすべての動作は、適切にプログラムされた１又は複数のマイクロプロセッサにおいて生じうることを理解する。例えば、「信号」という用語を用いたからとしても、アナログ信号又はデジタル信号のいずれかを必ずしも意味するものではない。メモリの中のデータも、たとえ１ビットであっても、信号でありうる。

プログラミングの意味における「効率」とは、ある機能を実行するのに要求される命令の数である。命令の数が少なければ、命令の数が多い場合よりも優れており、すなわち効率的である。機械（アセンブリ）言語以外の言語では、１行のコードには、数百の命令が含まれる場合がある。この出願では、「効率」とは機械言語の命令に関するものであり、コードのラインに関係しない。その理由は、単位時間内に実行することができる命令の数によって、ある動作を実行する又はある機能を実行するのに要する時間が決定される。

「バーク（Bark）帯域」又は「バーク・スケール」とは、人間の聴覚システムは一連の帯域通過フィルタと類似しているという一般的に受け入れられている人間の聴覚のモデルに関するものである。これらのフィルタの帯域幅は周波数と共に増加し、周波数知覚の精度は周波数が上昇すると低下する。帯域を計算する公式については、複数の異なるものが知られている。バーク・スケールは２４の帯域を含み、その中で低い方から１８の帯域だけが本発明においては用いられる。その理由は、電話システムの帯域幅は通常の人の聴覚の全範囲よりも狭いからである。しかし、他の帯域及び帯域幅は、本発明を他の応用例において実現する際に用いることができる。

従来技術においては、雑音パワーを評価することは計算的に負担が大きく、計算を完了するには高速な計算か十分な時間かのいずれかが要求された。高速な計算には高いクロック速度が要求され、特にバッテリによって給電されている装置において望まれるよりも多くの電力が必要となる。計算のための長すぎる時間が必要であると、入力信号が計算の間に著しく変化することにより誤差が生じうる。

以上を考慮すると、本発明の目的は、電話機又はそれ以外の通信装置における雑音抑制のための従来よりもより効率的なシステムを提供することである。
本発明の別の目的は、従来技術におけるシステムと同等に又は更に高い性能で動作する雑音抑制システムであって、より効率的なシステムを提供することである。

本発明の更に別の目的は、従来技術の回路よりも歪みを生じない雑音抑制回路を提供することである。

以上の目的は、本発明において実現される。本発明では、入力信号が離散フーリエ変換によって周波数領域に変換され、バーク帯域に分割される。それぞれの帯域について雑音が評価される。雑音を評価する回路は、音声の間よりも雑音の間の方がより遅い時定数で雑音評価を更新する平滑化回路を含む。この雑音抑制器は、更に、入力信号のそれぞれのフレームの信号対雑音比に逆比例する雑音抑制ファクタを調整する回路を含む。雑音評価は、それぞれの帯域において信号から減算される。逆離散フーリエ変換によって、信号を時間領域に再度変換して戻し、オーバラップし合成されたウィンドウが、処理の間に生じた歪みを除去する。

本発明のより完全な理解は、以下の説明を添付の図面を参照して読むことによって得られるはずである。
信号はアナログ又はデジタルでありうるから、ブロック図は、ハードウェア、流れ図のようなソフトウェア、又はハードウェアとソフトウェアとの混合として理解することができる。マイクロプロセッサのプログラミングは、個人的にも集団的にも、この技術分野の当業者の能力の範囲内である。

本発明は、内部電子装置が実質的に同一であるが外観が異なる多くの応用例において使用が可能である。図１には、ベース１０とキーパッド１１とディスプレイ１３とハンドセット１４とを含む机上電話機が図解されている。図１に示されているように、この電話機は、スピーカ１５とマイクロフォン１６とを含むスピーカフォンとしての能力も有している。図２に図解されているコードレス電話は、ベース２０とハンドセット２１とがコードではなくてアンテナ２３及び２４を介して無線周波数信号によって結合されている点を除くと、類似している。ハンドセット２１のための電源は、このハンドセットがクレードル２９に置かれると、ベース２０における端子２６及び２７を介して充電される内部バッテリ（図示せず）によって供給される。

図３は、企業のオフィスで見られるような会議電話機又はスピーカフォンを図解している。電話機３０は、立体的なケースの中にマイクロフォン３１とスピーカ３２とを含む。電話機３０は、マイクロフォン３４及び３５のようないくつかのマイクロフォンを含み、音声受信を向上させ、又は、米国特許第５，１３８，６５１号（Sudo）に開示されているように、エコー除去又は雑音除去のための複数の入力を提供する。

図４は、図５に図解されているセルラ電話への音声結合を提供するハンズフリー・キットとして知られているものを図解している。ハンズフリー・キットには様々な実現例があるが、一般的には、プラグ３７に付属した給電されたスピーカ３６を含み、このプラグは付属のアウトレットや車両のタバコ用ライター・ソケットに適合する。また、ハンズフリー・キットは、プラグ３９で終端するケーブル３８を含む。プラグ３９は、セルラ電話機４２のソケット４１（図５）のようなセルラ電話機の上のヘッドセット・ソケットに適合する。また、ハンズフリー・キットは、典型的には、ボリューム・コントロールなどいくつかの制御スイッチを含む。例えば、呼に応答するために「オフフック」となるためのスイッチである。更に、ハンズフリー・キットは、典型的には、キットにプラグインされるバイザ（visor）マイクロフォン（図示せず）を含む。本発明に従って構築される音声処理回路は、ハンズフリー・キットやセルラ（携帯）電話に組み込むことが可能である。

様々な形態の電話機が本発明による効果を受けることができる。図６は、セルラ電話機の主要な構成要素のブロック図である。典型的には、ブロックは、指示された機能を実現する集積回路に対応する。マイクロフォン５１とスピーカ５２とキーパッド５３とは、信号処理回路５４に結合されている。回路５４は、複数の機能を実行し、この技術分野では製造業者によって異なるいくつかの名称によって知られている。例えば、インフィニオン（Infineon）社は、回路５４を「シングル・チップ・ベースバンドＩＣ」と称する。クアルコム（QualComm）社は、回路５４を「モバイル・ステーション・モデム」と生じる。異なる製造業者からの回路は明らかにその詳細は異なっているが、一般的に、指示された機能は含まれている。

セルラ電話機は、音声周波数回路と無線周波数回路との両方を含む。デュープレクサ５５は、アンテナ５６を受信プロセッサ５７に結語する。デュープレクサ５５は、アンテナ５６をパワーアンプ５８に結合し、送信の間は、受信プロセッサ５７をパワーアンプから切り離す。送信プロセッサ５９は、回路５４からの音声信号を用いて無線周波数信号を変調する。スピーカフォンなどのセルラ型ではない応用例では、無線周波数回路は存在せず、信号プロセッサ５４はいくぶん単純化されている。エコーのキャンセル及び雑音の問題が残るが、これは、音声プロセッサ６０において処理される。本発明を含むように修正されるのは、音声プロセッサ６０である。

最近の雑音低減アルゴリズムは、ほとんどが、スペクトル減算として知られている技術に基づいている。雑音を含まない（クリーンな）音声信号が加算的で相関のない雑音を含む（ノイジーな）信号に影響を受ける場合には、この雑音を含む音声信号は、単純に、信号の和である。雑音源のパワー・スペクトル密度（ＰＳＤ）が完全にわかっている場合には、それを、ワイナ（Weiner）フィルタを用いて、雑音を含む音声信号から減算して雑音を含まない音声を生じさせることができる。例えば、J.S. Lim and A. V. Oppenheim, "Enhancement and bandwidth compression of noisy speech," Proc. IEEE, vol. 67, pp. 1586-1604, Dec. 1979を参照のこと。通常は、雑音源はわからないので、スペクトル減算アルゴリズムにおいて重要な要素は雑音を含む信号のパワー・スペクトル密度（ＰＳＤ）の評価である。

スペクトル減算を用いる雑音低減は、次の式のように書くことができる。

ここで、Ｐ_ｓ（ｆ）は音声のパワー・スペクトルであり、Ｐ_ｘ（ｆ）は雑音を含む音声であり、Ｐ_ｎ（ｆ）は雑音のパワー・スペクトルである。減算プロセスの周波数応答は次のように書くことができる。

ここで、Ｐ∧_ｎ（ｆ）は雑音評価のパワー・スペクトルであり、βはサブバンドの信号対雑音比に基づくスペクトル重み付けファクタである（なお、数式では∧はＰの上にあるが、ここでは入力上の制約によりＰの後に書かれている）。雑音を含まない音声評価は次の式によって得られる。

単一チャネルの雑音抑制システムでは、雑音を含む信号のＰＳＤは、雑音を含む信号自体から評価されるのであるが、というのは、この雑音を含む信号が唯一の使用可能な信号であるからである。ほとんどの場合に、雑音評価は正確ではない。従って、不正確な雑音評価の結果として生じる歪みを低減するプロセスにおいて、何らかの調整がなされることが必要である。この理由により、雑音抑制方法のほとんどは、スペクトル重み付けファクタを制御するパラメータβを導入することにより、低い信号対雑音比（Ｓ／Ｎ）を有する周波数が減衰され、高いＳ／Ｎ比を有する周波数は修正されないようにしている。

図７は、本発明の好適実施例によって構築された雑音抑制器に関係する音声プロセッサ６０の一部のブロック図である。雑音抑制に加えて、音声プロセッサ６０は、エコーのキャンセルや追加的なフィルタリングなどそれ以外の機能を含んでいるが、これらは本発明とは関係ない。以下の説明では、見出しの数字は、図７におけるブロックに関係する。また、第２の雑音抑制回路がライン入力６６とスピーカ出力６８との間で受信チャネルに結合することができ、これは、破線７９によって表されている。
７１．解析ウィンドウ：
雑音低減（reduction）プロセスは、情報のブロックを処理することによって実行される。ブロックのサイズは、例えば、１２８個のサンプルである。本発明のある実施例では、入力フレームのサイズは３２フレームである。従って、入力データは、処理のためにバッファされなければならない。１２８ワードのバッファ・サイズが、入力データをウィンドウ化スペクトル前に用いられる。

バッファされたデータはウィンドウ化され、周波数領域におけるブロック処理において生じた歪み（artifacts）が低減される。異なるウィンドウのオプションが利用可能である。ウィンドウの選択は、異なるファクタ、すなわち、メイン・ローブの幅と、サイド・ローブのレベルと、重複（オーバラップ）のサイズとに基づく。前処理において用いられたウィンドウのタイプは、メイン・ローブの幅とサイド・ローブのレベルとに影響を及ぼす。例えば、ハニング（Hanning）ウィンドウは、矩形のウィンドウと比較すると、メイン・ローブの幅がより広く、サイド・ローブのレベルはより低い。この技術分野ではいくつかのウィンドウ・タイプが知られており、ゲインや平滑化係数などのパラメータを適切に調整して、それらいくつかのタイプのウィンドウを用いることができる。

周波数領域処理によって生じる歪みは、用いられる重複がより少ない場合には、更に悪化する。しかし、用いられる重複が多いと、その結果として、計算上の要求が増加する。合成ウィンドウを用いることにより、再構成の段階で生じる歪みは低減する。以上のすべてのファクタを考慮して、それぞれが２５％の重複を有する台形型の解析ウィンドウと、平滑化された台形型の合成ウィンドウとが、用いられる。１２８個の点の離散フーリエ変換では、２５％の重複とは、前のフレームからの最後の３２個のサンプルが現在のフレームのための最初の（最も古い）３２のフレームとして用いられることを意味する。

重複のサイズであるＤは、（２Ｄ_ａｎａ−Ｄ_ｓｙｎ）と等しい。Ｄ_ａｎａが２４に等しく、Ｄ_ｓｙｎが１６に等しい場合には、解析ウィンドウであるＷ_ａｎａ（ｎ）は、次の式によって与えられる。

合成ウィンドウであるＷ_ｓｙｎ（ｎ）は、次の式によって与えられる。

中心区間は両方のウィンドウで同一である。完全な再構成のためには、解析ウィンドウと合成ウィンドウとは、０≦ｎ＜Ｄであるときには、次の条件を満たす。

そして、Ｄ≦ｎ＜９６であるときには、次の条件を満たす。

バッファされたデータは、次の式で表される解析ウィンドウを用いてウィンドウ化される。ただし、ｘ（ｍ，ｎ）は、フレームｍにおけるバッファされたデータである。

７２．順離散フーリエ変換（ＤＦＴ）：
ウィンドウ化された時間領域データは、次の変換方程式によって与えられる離散フーリエ変換を用いて周波数領域に変換される。ただし、ｘ_ｗ（ｍ，ｎ）はフレームｍにおけるウィンドウ化された時間領域データであり、Ｘ（ｍ，ｋ）はフレームｍにおける変換されたデータであり、ＮはＤＦＴのサイズである。

入力時間領域データは実数であるから、ＤＦＴの出力はファクタＮ／２によって正規化される。
７４．周波数領域処理：
雑音抑制回路の周波数応答が、計算され、図８のブロック図に図解されている複数の特徴を有する。以下の説明での参照番号は、図８におけるブロックを意味する。
８１．パワー・スペクトル密度（ＰＳＤ）評価：
雑音を含む音声のパワー・スペクトル密度は、次の式によって定義される１次の再帰的（recursive）フィルタを用いて近似される。

ここで、Ｐ_ｘ（ｍ，ｋ）はフレームｍにおける雑音を含む音声のパワー・スペクトル密度であり、Ｐ_ｘ（ｍ−１，ｋ）はフレームｍ−１における雑音を含む音声のパワー・スペクトル密度である。｜Ｘ（ｍ，ｋ）｜^２はフレームｍにおける雑音を含む音声のマグニチュード・スペクトルであり、ｋは周波数インデクスである。ε_Ｓはスペクトル平滑化ファクタである。
８２．バーク帯域エネルギ評価：
サブバンド・ベースの信号解析が実行され、雑音低減プロセスの間に生じたスペクトルの歪みが低減される。サブバンドは、バーク（Bark）帯域（「臨界（critical）帯域」とも称される）に基づいており、人の耳による知覚をモデル化している。狭帯域の音声スペクトルにおけるバーク帯域の帯域エッジと中心周波数とが次の表に示されている。

雑音を含む音声フレームのＤＦＴは、１７個のバーク帯域に分割される。１２８点のＤＦＴの場合の、それぞれのバーク帯域に対応するスペクトル・ビン数が次の表に示されている。

それぞれのバーク帯域における雑音を含む音声のエネルギは、次の式によって計算される。

それぞれのバーク帯域における雑音のエネルギは、次の式によって計算される。

ここで、ｆ_Ｈ（ｉ）及びｆ_Ｌ（ｉ）は、バーク帯域ｉにおける最高の周波数と最低の周波数とのそれぞれに対応するスペクトル・ビン数であり、Ｐ_ｘ（ｍ，ｋ）及びＰ_ｎ（ｍ，ｋ）は、雑音を含む音声のパワー・スペクトル密度と雑音評価とである。
８４．雑音評価：
Rainer Martinは、最小統計に基づく雑音評価の初期の主張者であった（これについては、"Spectral Subtraction Based on Minimum Statistics," Proc. 7th European Signal Processing Conf., EUSIPCO-94, September 13-16, 1994, pp. 1182-1185を参照のこと）。この方法は、音声におけるポーズ（停止、息継ぎ）を見つけて背景の雑音を評価する音声活動検出器を必要としない。このアルゴリズムは、その代わりに、有限時間ウィンドウの中のパワー・スペクトル密度の最小評価を用いて、雑音レベルを評価する。このアルゴリズムは、それぞれのスペクトル・ビンにおける雑音を含む音声信号の短期パワーの評価は時間経過と共に明確なピークと谷間とを示すという観察に基づいている。信頼できる雑音パワー評価を得るためには、データ・ウィンドウすなわちバッファ長は、最長の認識可能な音声活動に及ぶのに十分な程度の長さを有していなければならないが、同時に、雑音がほぼ安定的であるのに十分なほどに短くなければならない。雑音パワー評価Ｐ_ｎ（ｍ，ｋ）は、Ｍ個のサブバンド・パワー・サンプルのウィンドウの中の短時間パワー評価Ｐ_ｘ（ｍ，ｋ）の最小値として得られる。アルゴリズムの計算上の複雑さを低減し、遅延を短縮するためには、長さがＭである１つのウィンドウへのデータは、長さがｌであるｗ個のウィンドウに分解される。ただし、ここで、ｌ＊ｗ＝Ｍである。

最小値を求めるためにサブウィンドウ・ベースのサーチを用いるとマーティン（Martin）の雑音評価方法の計算上の複雑さは低減されるが、このサーチでは、すべてのサブバンドに対するそれぞれのサブウィンドウにおける最小値を記憶するために大量のメモリが必要となる。ゲルハルト・ドブリンガ（Gerhard Doblinger）が、最小統計をトラックする計算的に効率のよいアルゴリズムを提案している（G. Doblinger, "Computationally efficient speech enhancement by spectral minima tracking in subbands, " Proc. 4th European Con f. Speech, Communication and Technology, EUROSPEECH'95, September 18-21,1995, pp. 1513-1516を参照のこと）。このアルゴリズムの流れ図が、図９において、細いラインによって示されている。このアルゴリズムによると、雑音を含む音声のスペクトルの現在の（フレームｍの）値が前のフレーム（フレームｍ−１）の雑音評価よりも小さいならば、雑音評価は、現在の雑音を含む音声のスペクトルに更新される。そうでない場合には、現在のフレームの雑音評価は、１次の平滑化フィルタによって更新される。この１次の平滑化は、現在の雑音を含む音声のスペクトルＰ_ｘ（ｍ，ｋ）と、前のフレームの雑音を含む音声のスペクトルＰ_ｘ（ｍ−１，ｋ）と、前のフレームの雑音を含む音声Ｐ_ｘ（ｍ−１，ｋ）との関数である。図９におけるパラメータβ及びγは、背景雑音における短時間の定常攪乱（stationary disturbance）に調整するのに用いられる。このアルゴリズムにおいて用いられるβ及びγの値は、それぞれが、０．５及び０．９９５であるが、変動しうる。

ドブリンガ（Doblinger）の雑音評価方法は、メモリをそれほど要求しない単純な１次フィルタを用いて最小統計をトラックする。従って、ドブリンガの方法は、マーティンの最小統計のアルゴリズムよりも効率が優れている。しかし、ドブリンガの方法は、マーティンの方法と比較すると、両方の方法が同じ収束時間を有するとしても、音声フレームの間の雑音を過大評価している。このような雑音の過大評価は、スペクトル減算の間に音声に歪みを生じさせる。

本発明によると、ドブリンガの雑音評価方法が、図９において太いラインによって示されているようにプロセスの中に挿入された追加的なテストによって修正される。この修正によると、現在の雑音を含む音声のスペクトルが雑音評価から大きく逸脱している場合には、非常に遅い時定数を有する１次指数平均化平滑化フィルタを用いて、現在のフレームの雑音評価を更新する。このような低速の時定数フィルタの効果は、雑音評価を低減し、評価の変化を低速化するということである。

図９におけるパラメータμは、背景雑音に急激な変化が存在するときに、雑音評価の収束時間を制御する。パラメータμの値が高くなればなるほど、収束時間は遅くなり、音声の歪みは小さくなる。従って、パラメータμのチューニングは、雑音評価の収束時間と音声の歪みとの間のトレードオフである。パラメータνは、雑音評価からの雑音を含む音声のスペクトルの逸脱スレショルドを制御する。本発明のある実施例では、νの値は３である。これと異なる値を用いることも可能である。スレショルドが低くなると、収束時間が増加する。スレショルドが高くなると、歪みが増加する。１から９までの範囲が使用可能であると考えられるが、この限度は重要ではない。
８９．スペクトル・ゲインの計算：
修正されたワイナ・フィルタリング：様々な高度なスペクトル・ゲインの計算方法については、文献が存在する。例えば、Y. Ephraim and D. Malah, "Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator," IEEE Trans. Acoust. Speech, Signal Processing, vol. ASSP-32, pp. 1109-1121, Dec. 1984; Y. Ephraim and D. Malah, "Speech enhancement using a minimum mean-square error log-spectral amplitude estimator," IEEE Trans. Acoust. Speech, Signal Processing, vol. ASSP-33 (2), pp. 443-445, April 1985; and I. Cohen, "On speech enhancement under signal presence uncertainty," Proceedings of the 26th IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP-01, Salt Lake City, Utah, pp. 7-11, May 2001を参照のこと。

閉じた形式のスペクトル・ゲイン公式により、音声の実際のスペクトル振幅と音声のスペクトル振幅の評価との間の平均自乗誤差が最小化される。また、別の閉じた形式のスペクトル・ゲイン公式を用いて、音声の実際の振幅の対数と音声の評価された振幅の対数との間の平均自乗誤差が最小化される。これらのアルゴリズムは理論的な意味では最適であるかもしれないが、これらのアルゴリズムの実際の性能は、非常に雑音の多い状況においては商業的に有用とは言えない。これらのアルゴリズムは、雑音がそれほどでもない環境においても、音楽的なトーンに関しては著しい歪みを生じさせる。多くの修正されたアルゴリズムが、概要を上述した２つのものから導かれている。

この技術分野においては、一般化されたワイナ・フィルタリングに基づいて、スペクトル・ゲインを信号対雑音比の関数として計算することが知られている（L. Arslan, A. McCree, V. Viswanathan, "New methods for adaptive noise suppression," Proceedings of the 26th IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP-01, Salt Lake City, Utah, pp. 812-815, May 2001を参照のこと）。一般化されたワイナ・フィルタは、次の式で与えられる。

ただし、Ｐ∧_ｓ（ｍ，ｋ）は雑音のない音声のパワー・スペクトル評価であり、Ｐ∧_ｎ（ｍ，ｋ）は雑音評価の音声のパワー・スペクトルであり、αは雑音抑制ファクタである（なお、数式では∧はＰの上にあるが、ここでは入力上の制約によりＰの後に書かれている）。雑音のない音声スペクトルを評価するには多くの方法がある。例えば、雑音のない音声スペクトルは、線形予測符号化（linear predicative coding）モデル・スペクトルとして評価することができる。また、雑音のない音声スペクトルは、単にゲインを修正することにより、雑音を含む音声のスペクトルＰ_ｘ（ｍ，ｋ）から計算することができる。

ここで、Ｅ_ｘ（ｍ）はフレームｍにおける雑音を含む音声のエネルギであり、Ｅ_ｎ（ｍ）はフレームｍにおける雑音のエネルギである。信号対雑音比（ＳＮＲ）は、次の式を用いて計算される。

この数式を一般化されたワイナ・フィルタの公式に代入すると次の式が得られる。

ここで、ＳＮＲ（ｍ）は、フレーム番号ｍの信号対雑音比であり、α‘は（Ｅ_ｘ（ｍ）／Ｅ_ｎ（ｍ））αと等しい新たな雑音抑制ファクタである。数式１６によると、Ｈ（ｍ，ｋ）は信号対雑音比と共に変動するので、雑音を含むフレームに対してはより強い抑制を、発せられた音声フレームの間にはそれよりも弱い抑制が保証される。

バーク帯域ベースの修正されたワイナ・フィルタリング：修正されたワイナ・フィルタのソリューションは、全体のフレームｍの信号対雑音比に基づく。スペクトル・ゲインの関数が全体のフレームの信号対雑音比に基づいているので、スペクトル・ゲインの値は、音声が発せられたフレームの間は大きく、音声が発せられていないのフレームの間は小さくなる。これにより、「雑音ポンピング」が生じ、雑音がオン及びオフに切り替えられるように聞こえる。この問題を克服するためには、本発明の別の特徴に従って、バーク帯域ベースのスペクトル解析が実行される。それぞれのフレームのそれぞれの帯域における信号対雑音比は、次の式に従って計算される。

ここで、Ｅ_ｘ（ｍ，ｉ）及びＥ_ｎ（ｍ，ｉ）は、それぞれが、フレームｍにおける帯域ｉの雑音を含む音声のエネルギと雑音のエネルギとである。最終的には、バーク帯域ベースのスペクトル・ゲインの値は、修正されたワイナ・ソリューションにおけるバーク帯域ＳＮＲを用いて計算される。

ここで、ｆ_Ｌ（ｉ）及びｆ_Ｈ（ｉ）は、バーク帯域ｉにおける最高の周波数と最低の周波数とのそれぞれに対応するスペクトル・ビン数である。
スペクトル減算ベースの方法の短所の１つとして、音楽的トーンに歪みが生じることがある。雑音評価が不正確であるために、いくつかのスペクトルのピークが、スペクトル減算の後の残差（residue）として残ってしまう。これらの歪みを低減するには、雑音抑制ファクタであるα‘は、上で計算された値よりも高い値に維持されなければならない。しかし、α’の値が高いと、結果的に、発せられた音声により多くの歪みが生じる。パラメータα‘のチューニングは、音声振幅の低減と音楽的トーンの歪みとの間のトレードオフである。これにより、音声の間の雑音低減量を制御する新たな機構に至ることになる。

雑音を含むスペクトル成分に存在する信号の不確実性を用いて音声を強化するというアイデアは、この技術分野で知られている（R.J. McAulay and M. L. Malpass, "Speech enhancement using a soft-decision noise suppression filter," IEEE Trans. Acoust., Speech, Signal Processing, vol ASSP-28, pp. 137-145, April 1980を参照のこと）。雑音を含む環境において音声が存在する確率を計算した後で、その計算された確率は、雑音抑制ファクタαを調整するのに用いられる。

発せられた音声を検出する方法の１つとして、雑音を含む音声のエネルギ・スペクトルと雑音のエネルギ・スペクトルとの間の比率を計算する方法がある。この比率が非常の大きい場合には、音声が発せられていると推測することができる。本発明の別の特徴によると、音声が存在する確率が、すべてのバーク帯域について、計算される。このバーク帯域解析の結果として、音声の質を強化しながら計算的な節約が可能となる。この最初のステップは、次の式によって比率を計算することである。

ただし、Ｅ_ｘ（ｍ，ｉ）及びＥ_ｎ（ｍ，ｉ）は、上で既に定義したものと同じである。この比率をスレショルドλ_ｔｈと比較して、音声が存在するかどうかが判断される。スレショルドを超えた場合に音声は存在する。図１０を参照のこと。

音声が存在する確率は、次の式のように、１次の指数平均化（平滑化）フィルタによって計算される。

ここで、ε_ｐは確率平滑化ファクタであり、Ｉ_ｐは音声が存在するときには１に等しく、存在しないときには０に等しい。連続するフレームにおける音声の存在の相関は、フィルタによって捕捉される。

雑音抑制ファクタαは、音声存在確率とスレショルドｐ_ｔｈとを比較することによって決定される。特に、αは、スレショルドを超えない場合よりもスレショルドを超えた場合の方が低く設定される。もう一度注意しておくが、このファクタは、それぞれの帯域について計算される。

スペクトル・ゲインの制限：スペクトル・ゲインは、ゲインが例えば−２０ｄＢの最小値を下回ることがないように、制限される。このシステムは、小さなゲインでも動作するが、ゲインを最小値未満まで低減することは許容しない。なお、この値は重要ではない。ゲインを制限することによって、スペクトル・ゲインの限られた精度による固定された点の計算の結果として生じうる音楽的なトーンの歪みや音声の歪みを低減させることができる。

ゲインの下限は、スペクトル・ゲインの計算プロセスによって調整される。バーク帯域におけるエネルギがあるスレショルドＥ_ｔｈ未満である場合には、最小のゲインは−１ｄＢに設定される。あるセグメントが音声が発せられたものとして分類されると、確率はｐｔｈを超え、従って、最小ゲインは−１ｄＢに設定される。いずれの条件も満たされない場合には、最小ゲインは許容されうる最低の値である例えば−２０ｄＢに設定される。本発明のある実施例では、Ｅ_ｔｈに対する適した値は０．０１である。ｐ_ｔｈに適した値は０．１である。このプロセスは、それぞれの帯域にたいして反復され、それぞれの帯域におけるゲインが調節される。

スペクトル・ゲインの平滑化：すべてのブロック変換ベースの処理では、ウィンドウ化と重複・加算とが、周波数領域のブロックで信号を処理することによって生じる歪みを低減する技術として知られている。このような歪みの低減は、ウィンドウのメイン・ローブの幅、ウィンドウのサイド・ローブの勾配、ブロック間での重複量などのいくつかのファクタに影響を受ける。メイン・ローブの幅は、用いられているウィンドウのタイプによって影響される。例えば、ハニング（Hanning、余弦を上昇させたもの）ウィンドウは、矩形のウィンドウよりもメイン・ローブの幅が広くサイド・ローブのレベルが低い。

スペクトル・ゲインを制御することによってウィンドウは平滑化され、重複及び加算プロセスの間に重複境界において不連続を生じさせる。この不連続は、スペクトル・ゲイン関数の時間変動性に起因する。この歪みを低減するには、本発明によると、以下の技術が用いられる。すなわち、周波数軸に沿ったスペクトル・ゲインの平滑化、バーク帯域ゲインの平均化（ゲインの瞬時値を用いるのではなく）、時間軸に沿ったスペクトル・ゲインの平滑化である。
９２．周波数におけるゲイン平滑化：
周波数におけるゲインの急激な変化を回避するために、スペクトル・ゲインは、次の式によって与えられる指数平均化平滑化フィルタを用いて周波数軸に沿って平滑化される。

ここで、ε_ｇｆは周波数におけるゲイン平滑化ファクタであり、Ｈ（ｍ，ｋ）はスペクトル・ビン数ｋにおけるスペクトル・ゲインの瞬時値であり、Ｈ‘（ｍ，ｋ−１）はスペクトル・ビン数ｋ−１における平滑化されたスペクトル・ゲインであり、Ｈ‘（ｍ，ｋ）はスペクトル・ビン数ｋにおける平滑化されたスペクトル・ゲインである。
９３．平均バーク帯域ゲインの計算：
スペクトル・ゲインにおける急激な変化は、それぞれのバーク帯域におけるスペクトル・ゲインを平均化することによって、更に低減される。これにより、バーク帯域におけるすべてのスペクトル・ビンは、そのバーク帯域におけるすべてのスペクトル・ゲインの間の平均である同じスペクトル・ゲインを有することになる。帯域Ｈ‘_ａｖｇ（ｍ，ｋ）における平均のスペクトル・ゲインは、単純に、帯域の中のゲインの総和を当該帯域におけるビン数によって除算した値である。より高い周波数帯域の帯域幅はより低い周波数帯域の帯域幅よりも大きいので、スペクトル・ゲインの平均化は、より高い帯域においては、より低い帯域においてほどには、狭帯域雑音を低減することに関して効率的ではない。従って、平均化は、約１．３５ｋＨｚ未満の周波数成分を有する帯域についてだけ実行される。この限度は重要ではなく、好みや便宜やそれ以外の考慮に適するように経験的に調整が可能である。
９４．時間に関するゲイン平滑化：
急激に変化する雑音を含む環境では、低周波数の雑音フラッタ（noise flutter）が強化された出力音声に導入される。このフラッタは、ほとんどのスペクトル減算ベースの雑音低減システムの副産物である。背景雑音が急激に変化し雑音評価がそのような急激な変化に適応できる場合には、スペクトル・ゲインもまた急激に変動してフラッタを生じる。低周波数フラッタは、次の式で与えられる１次指数平均化平滑化フィルタを用いて時間においてスペクトル・ゲインＨ“（ｍ，ｋ）を平滑化することによって低減される。

ここで、ｆ（ｋ）はバーク帯域ｋの中心周波数であり、ε_ｇｔは時間における平滑化ファクタであり、ｂ（ｉ）はスペクトル・ビンｋのバーク帯域数であり、Ｈ‘（ｍ，ｋ）はフレーム・インデクスｍにおける（周波数に関して）平滑化されたスペクトル・ゲインであり、Ｈ’（ｍ−１，ｋ）はフレーム・インデクスｍ−１における（周波数に関して）平滑化されたスペクトル・ゲインであり、Ｈ‘_ａｖｇ（ｍ，ｋ）はフレーム・インデクスｍにおける（周波数に関して）平滑化され平均化されたスペクトル・ゲインである。

平滑化はパラメータε_ｇｔに対して敏感であるが、その理由は、過剰な平滑化は音声においてテールエンドのエコー（残響）又は雑音ポンピングを生じさせるからである。ゲイン平滑化の設定が高すぎると、音声振幅が著しく低減することがありうる。ε_ｇｔの値としては０．１から０．３が適切である。例が与えられている他の値と同様に、特定の値は、この動作の前に信号がどのように処理されるかに依存する。例えば、ゲインがどのように用いられるかである。
７６．逆離散フーリエ変換：
雑音を含まない音声スペクトルは、雑音を含む音声スペクトルをスペクトル・ゲイン関数とブロック７５において乗算することによって得られる。これは減算のようには見えないかもしれないが、雑音を含まない音声評価は次の式によって与えられるという結論に至った上述の初期の発展を思い出してほしい。

減算は、乗算子Ｈ（ｆ）に含まれている。
雑音を含まない音声スペクトルは、次の式で与えられる逆離散フーリエ変換を用いて時間領域に再度変換される。

ここで、Ｘ（ｍ，ｋ）Ｈ（ｍ，ｋ）は雑音を含まない音声スペクトル評価であり、ｓ（ｍ，ｎ）はフレームｍにおける時間領域の雑音を含まない評価である。
７７．合成ウィンドウ：
雑音を含まない音声は、合成ウィンドウを用いてウィンドウ化されることで、ブロックする歪みが低減される。

７８．オーバラップ及び加算：
最後に、ウィンドウ化された雑音を含まない音声が、次のように、重複（オーバラップ）され、前のフレームと加算される。

ここで、ｓ_ｗ（ｍ−１，・・・）は前のフレームのウィンドウ化された雑音を含まない音声であり、ｓ_ｗ（ｍ，ｎ）は現在のフレームのウィンドウ化された雑音を含まない音声であり、Ｄはオーバラップの量である。Ｄは、上述したように、本発明のある実施例では３２である。

本発明は、このようにして、修正されたドブリンガ雑音評価と、サブバンド・ベースのワイナ・フィルタリングと、サブバンド・ゲインの計算と、それぞれのサブバンドにおけるＳＮＲ調整されたゲインと、ゲイン平滑化と、台形型ウィンドウの２５％のオーバラップとによって、雑音の抑制を向上させる。この組合せによって、計算量は、従来技術によるほぼ５ＭＩＰＳと比較して、より低いＭＩＰＳに低減される（テキサス・インスツルメンツ社のＣ５５ｘｘプロセッサでは２ＭＩＰＳ未満であり、２ｋ未満のデータ・メモリを用いたモトローラ社のスターコア（Starcore）ＳＣ１４０においては１ＭＩＰＳ未満）。更に、音楽的なトーンの歪みもより少なく、抑制の後で残っている背景雑音についても気が付く程の変化はない。

以上で本発明について説明したが、この技術分野の当業者にとっては、本発明の範囲の中で様々な修正が可能であることは明らかである。例えば、バーク帯域モデルの使用は望ましいが必須ではない。帯域通過フィルタは、他の進行パターンに従うことができる。

机上電話機の全体図である。コードレス電話機の全体図である。会議電話機又はスピーカフォンの全体図である。ハンズフリー・キットの全体図である。セルラ電話機の全体図である。電話機の中の音声処理回路の一般的なブロック図である。本発明の好適実施例によって構築された雑音抑制器のブロック図である。本発明に従って構築された雑音計算回路のブロック図である。本発明による修正されたドブリンガ（Doblinger）雑音評価を計算するプロセスを図解する流れ図である。ノイズにおける音声の存在又は不存在を評価しそれに従ってゲイン係数を設定するプロセスを図解する流れ図である。

Claims

入力信号をそれぞれが複数のサンプルを含む複数のフレームに分割する解析回路と、雑音評価を計算する回路と、前記雑音評価を前記入力信号から減算する回路と、前記フレームを出力信号に再構成する合成回路とを含む雑音抑制回路であって、
入力信号を複数の帯域に分割する複数の帯域通過フィルタと、
それぞれの帯域におけるそれぞれのフレームの信号対雑音比と逆比例する雑音抑制ファクタを計算する手段と、
を含むことを特徴とする雑音抑制回路。
請求項１記載の雑音抑制回路において、前記帯域通過フィルタはバーク帯域を定義することを特徴とする雑音抑制回路。
請求項２記載の雑音抑制回路において、雑音評価を計算する前記回路におけるスペクトル・ゲインを制限する回路を更に含むことを特徴とする雑音抑制回路。
請求項３記載の雑音抑制回路において、音声検出器を更に含んでおり、前記スペクトル・ゲインの制限は、音声が検出されないときよりも音声が検出されるときの方が高いことを特徴とする雑音抑制回路。
請求項３記載の雑音抑制回路において、雑音評価を計算する前記回路に結合された第１の平滑化回路を更に含んでおり、前記第１の平滑化回路は前記入力信号の周波数スペクトルにおけるゲインを平滑化することを特徴とする雑音抑制回路。
請求項５記載の雑音抑制回路において、前記第１の平滑化回路は約２ｋＨｚ未満の帯域におけるゲインを平滑化することを特徴とする雑音抑制回路。
請求項１記載の雑音抑制回路において、雑音評価を計算する前記回路は、
雑音を含む音声スペクトルの雑音評価からの逸脱が所定の値よりも大きいときには、雑音を含む音声スペクトルの雑音評価からの逸脱が所定の値未満であるときよりも小さな時定数でフレームの雑音評価を更新することにより、前記雑音評価を減少させフレーム間での評価の変化を低速化する平滑化フィルタを含むことを特徴とする雑音抑制回路。
請求項７記載の雑音抑制回路において、前記フィルタは１次指数平均化平滑化フィルタであることを特徴とする雑音抑制回路。
入力信号をそれぞれが複数のサンプルを含む複数のフレームに分割する解析回路と、雑音評価を計算する回路と、前記雑音評価を前記入力信号から減算する回路と、前記フレームを出力信号に再構成する合成回路とを含む雑音抑制回路であって、
雑音評価を計算する回路の中に平滑化フィルタを含み、前記平滑化フィルタは、雑音を含む音声スペクトルの雑音評価からの逸脱が所定の値よりも大きいときには、雑音を含む音声スペクトルの雑音評価からの逸脱が所定の値未満であるときよりも小さな時定数でフレームの雑音評価を更新することにより、前記雑音評価を減少させフレーム間での評価の変化を低速化することを特徴とする雑音抑制回路。
請求項９記載の雑音抑制回路において、それぞれのフレームの信号対雑音比と逆比例する雑音抑制ファクタを調整する回路を更に含むことを特徴とする雑音抑制回路。
請求項１０記載の雑音抑制回路において、前記入力信号のそれぞれのフレームの離散フーリエ変換を計算してそれぞれのフレームを周波数領域に変換する回路を更に含むことを特徴とする雑音抑制回路。
請求項１１記載の雑音抑制回路において、離散フーリエ変換を計算する前記回路は、前記フレームを段々により高い中心周波数を有する複数の帯域に分割することを特徴とする雑音抑制回路。
請求項１２記載の雑音抑制回路において、前記帯域はバーク帯域であることを特徴とする雑音抑制回路。
受信チャネルと送信チャネルとを含む音声処理回路を有する電話機であって、前記チャネルの少なくとも一方に請求項１記載の雑音抑制回路を含むことを特徴とする電話機。
受信チャネルと送信チャネルとを含む音声処理回路を有する電話機であって、前記チャネルの少なくとも一方に請求項９記載の雑音抑制回路を含むことを特徴とする電話機。