JP4989967B2

JP4989967B2 - ノイズ低減のための方法および装置

Info

Publication number: JP4989967B2
Application number: JP2006517910A
Authority: JP
Inventors: ドクロ，シモン; スプリエット，アン; ムーネン，マルク; ボウタース，ヤン
Original assignee: Cochlear Ltd
Current assignee: Cochlear Ltd
Priority date: 2003-07-11
Filing date: 2004-07-12
Publication date: 2012-08-01
Anticipated expiration: 2024-07-12
Also published as: US7657038B2; US20070055505A1; WO2005006808A1; ATE487332T1; DE602004029899D1; JP2007525865A; EP1652404B1; EP1652404A1

Description

本発明は、発話コミュニケーションの応用において、ノイズを適応的に低減するための方法および装置に関するものである。
先行技術の開示

テレビ電話会議、ハンズフリーの電話および補聴器のような、発話コミュニケーションの応用において、バックグラウンドノイズの存在は、望ましい発話信号の了解度を著しく低減する。そのため、ノイズリダクションアルゴリズムの使用が必要である。マルチマイクロフォンシステムは、望ましい信号およびノイズ信号の一時的でスペクトルの情報に加えて、空間的な情報を使用しており、そのため、単一のマイクロフォン手段より好ましい。美観に関する理由のため、例えば補聴器の応用に対するマルチマイクロフォンの技術は、小さいサイズのアレイの使用と関係する。かなりのノイズ低減をそのようなアレイで達成することができるが、増加する感度を犠牲にして、マイクロフォンのミスマッチ、残響‥などの仮定した信号モデル中でのエラーとなる（例えば、Stadler & Rabinowitz, 'On the potential of fixed arrays for hearing aids', J. Acoust. Soc. Amer., vol. 94, no. 3, pp. 1332-1342, Sep 1993を参照のこと）。補聴器において、複数のマイクロフォンは利得や位相においてほとんど一致しない。マイクロフォン特性間の利得および位相の相違は、それぞれ、６ｄＢおよび１０°にのぼる。

広く研究された複数チャンネル適合ノイズリダクションアルゴリズムは、一般化されたサイドローブ・キャンセラ（ＧＳＣ）である（例えば、Griffiths & Jim, 'An alternative approach to linearly constrained adaptive beamforming', IEEE Trans. Antennas Propag., vol. 30, no. 1, pp. 27-34, Jan. 1982およびUS-5473701 'Adaptive microphone array'を参照のこと）。ＧＳＣは、固定ビームフォーマーおよびブロッキングマトリックスを含む、固定された空間的なプリプロセッサと、適合ノイズキャンセラ（ＡＮＣ）に基づく適合ステージと、から構成される。ＡＮＣは出力ノイズパワーを最少化するのに対し、ブロッキングマトリックスはノイズ参照信号中への発話のリークを避ける。一般的なＧＳＣは、望ましいスピーカーの位置、知られているマイクロフォンの特性および位置、および、存在しない発話信号の反射、を仮定する。これらの仮定が満たされていれば、最も少ない残留ノイズで歪みの無い強調された発話信号を得ることができる。しかしながら、実際にはこれらの仮定はしばしば乱され、その結果、いわゆる発話リークとなり、そのため、発話の歪みとなる。発話歪みを制限するために、ＡＮＣは通常ノイズの期間のみに適合される。例えば、補聴器の応用において、小さいサイズのアレイと組み合わせて使用されるときは、付加的なローバスト性の制約（Cox et al., 'Robust adaptive beamforming', IEEE Trans. Acoust. Speech and Signal Processing, vol. 35, no. 10, pp. 1365-1376, Oct. 1987を参照のこと）が、マイクロフォンのミスマッチのような仮定された信号モデルの小さなエラーの存在下でのパーフォーマンスを保証するために要求される。広く適用される方法は、二次元の不等式の制約をＡＮＣ（ＱＩＣ−ＧＳＣ）に課すことから構成される。最小２乗法（ＬＭＳ）のアップデートに対し、スケールド・プロジェクション・アルゴリズム（ＳＰＡ）は、この制約を課すために単純で効果的なテクニックである。しかしながら、ＱＩＣ−ＧＳＣの使用は、ノイズリダクションの点で劣った結果となる。

受信したマイクロフォン信号の１つにおける望ましい信号部分のミニマム・ミーン・スクウェアー・エラー（ＭＭＳＥ）を与える、複数チャンネル・ウィナー・フィルタリング（ＭＷＦ）の技術が提案されている（Doclo & Moonen, 'GSVD-based optimal filtering for single and multimicrophone speech enhancement', IEEE Trans. Signal Processing, vol. 50, no. 9, pp. 2230-2244, Sep. 2002を参照のこと）。ＧＳＣのＡＮＣとは対照的に、ＭＷＦは、それ自身の最適化の基準に発話の歪みを考慮することができ、その結果、発話歪みで重み付けした複数チャンネル・ウィナー・フィルタリング（ＳＤＷ−ＭＷＦ）を得ることができる。（ＳＤＷ−）ＭＷＦのテクニックは、珍しくも、記録された発話信号およびノイズ信号の２次の統計量に基づくものである。ローバスト性の発話検出が、そのため、再び必要となる。ＧＳＣとは対照的に、（ＳＤＷ−）ＭＷＦは、信号モデルについていかなる推測的な仮定をも行わず、その結果、小さいサイズのアレイと組み合わせて使用されるときのパーフォーマンスを保証するために、厳しいローバスト性の制約を全くあるいはほとんど必要としない。特に、複数のノイズ源や拡散したノイズのような複雑なノイズシナリオにおいて、ＧＳＣがローバスト性の制約を補完した場合でさえも、（ＳＤＷ−）ＭＷＦはＧＳＣを凌いでいる。

（ＳＤＷ−）ＭＷＦの可能性のある実施は、入力データマトリックスおよびノイズデータマトリックスの一般化されたシンギュラー・バリュー・デコンポジション（ＧＳＶＤ）に基づいている。ＱＲデコンポジション（ＱＲＤ）に基づく割安な代替品が、Rombouts & Moonen, 'QRD-based unconstrained optimal filtering for acoustic noise reduction', Signal Processing, vol. 83, no. 9, pp. 1889-1904, Sep. 2003において提案されている。また、サブバンドでの実施が、フルバンドのアプローチと比較して、かなり低コストで改良された了解度の結果となる。しかしながら、ＧＳＣおよびＱＩＣ−ＧＳＣと対照的に、（ＳＤＷ−）ＭＷＦの割安な確率グラジエントに基づく実施は、いまだ利用できない。Nordholm et al., 'Adaptive microphone array employing calibration signals: an analytical evaluation', IEEE Trans. Speech, Audio Processing, vol. 7, no. 3, pp. 241-252, May 1999において、ＭＷＦに対するＬＭＳに基づくアルゴリズムが明らかになった。しかしながら、そのアルゴリズムはキャリブレーション信号の記録を必要とする。室内の音響、マイクロフォン特性、および、望ましいスピーカーの位置は時間が経てば変化するため、頻繁な再キャリブレーションが必要となり、このアプローチを面倒で高価なものとする。また、キャリブレーション信号の必要を避けるＳＤＷ−ＭＷＦに基づくＬＭＳが、提案されている（Florencio & Malvar, 'Multichannel filtering for optimum noise reduction in microphone arrays', Int. Conf. on Acoust., Speech, and signal Proc., Salt lake City, USA, pp.197-200, May 2001を参照のこと）。このアルゴリズムは、しかしながら、必ずしも満足させることのできない、いくつかの独立した仮定を用いており、結果として低グレードのパーフォーマンスとなる。

ＧＳＣおよびＭＷＦの技術をこれからより詳細に説明する。

一般化されたサイドローブ・キャンセラー（ＧＳＣ）

図１は、固定された空間プリ・プロセッサ、すなわち、固定ビームフォーマーＡ（ｚ）とブロッキング・マトリックスＢ（ｚ）、および、ＡＮＣから構成される一般化されたサイドローブ・キャンセラーＧＳＣの概念を記載する。望ましい発話の寄与ｕ_i ^s[k]およびノイズ寄与ｕ_i ⁿ[k]を有するマイクロフォン信号Ｍが与えられると、

ビームを望ましい信号の方向へ導くことにより、固定ビームフォーマーＡ（ｚ）（例えば遅延および合計）は、発話寄与ｙ₀ ^s[k]およびノイズ寄与ｙ₀ ⁿ[k]を含む、いわゆる発話参照

を作成する。ブロッキング・マトリックスＢ（ｚ）は、ノイズ寄与ｙ_i ⁿ[k]が発話リーク寄与ｙ_i ^s[k]と比較して支配的となるように望ましい信号ソースの方向をゼロに導くことにより、いわゆるノイズ参照Ｍ−１

を作成する。のちほど、サブスクリプトのｓおよびｎは、発話および信号のノイズ寄与を参照するために使用される。発話＋ノイズの期間において、ノイズ参照ｙ_i[k], i=0...M-1は発話＋ノイズを含む。ノイズのみの期間において、ノイズ参照はノイズ成分のみからなり、すなわち、ｙ_i[k]＝ｙ_i ⁿ[k]である。ノイズ信号の二次統計は、それらがノイズのみの期間において推定できるように極めて固定されているとみなされる。

固定された空間プリ・プロセッサを設計するために、マイクロフォン特性について、スピーカーの位置およびマイクロフォンの位置さらには反響が無いものと仮定する。これらの仮定が満たされれば、ノイズ参照は、いかなる発話をも含まず、すなわち、ｙ_i ^s[k]=0, i=1,...,M-1である。しかしながら、実際には、これらの仮定はしばしば破られ（例えばマイクロフォンのミスマッチや反響）、発話がノイズ参照に漏れる。そのような発話リークの影響を限定するために、フィルタ長Ｌを有するＡＮＣフィルタ

ここで、

が、ノイズのみの期間において適合される。（時間が支配要素となる実施において、適合フィルタＷ_1:M-1およびフィルタＷ_1:M-1の入力信号は実数となる。のちほど、式が複素数の入力信号に一般化され、それらはサブバンドの実施にもまた適応することができる。）そのため、ＡＮＣフィルタＷ_1:M-1は出力ノイズパワーを最少化する、例えば、

続いて

ここで

であり、Δは発話参照がフィルタＷ_1:M-1における一般的でない盗聴を許すよう発話参照に適用される遅延である。遅延Δは通常[L/2]に設定されており、ここで、[x]はｘと同じまたはそれ以上の最も小さい整数を示す。Ｗ_1:M-1およびＹ_1:M-1中のサブスクリプト1:M-1は、適合フィルタおよび入力ベクトルの最初と最後のチャンネル成分のサブスクリプトをそれぞれ参照する。

理想的な状態（ｙ_i ^s[k]=0, i=1,...,M-1）において、ＧＳＣは、残存ノイズを最小化する一方望ましい発話信号を歪めることがない、すなわち、Z^s[k]=y₀ ^s[k-Δ]となる。しかしながら、小さいサイズのアレイと組み合わせて使用されると、仮定された信号モデル中の小さなエラー（結果としてy_i ^s[k]≠0, i=1,...,M-1となる）は、ノイズのみの領域において適用した時でさえも、かなり歪んだ出力発話信号z^s[k]を作成するのにすでに十分となり、Ｗ_1:M-1におけるローバスト性の制約が要求される。

また、固定ビームフォーマーＡ(Z)は、全ての可能性のあるモデルエラーに対し、発話参照y₀ ^s[k]中の歪みが最小となるよう設計されるべきである。結局、遅延／合計ビームフォーマーが使用される。小さいサイズのアレイにおいて、このビームフォーマーは信号モデルエラーに対する十分なローバスト性を提供し、それはノイズ感度を最小化する。ノイズ感度は、望ましい信号の利得に対する空間的なホワイトノイズの利得の比として定義され、しばしば、仮定された信号モデル中のエラーに対するアルゴリズムの感度を定量化するために使用される。実際に起きる信号モデルのエラーについて統計的な知識が与えられると、固定ビームフォーマーおよびブロック・マトリックスをさらに最適化することができる。

ＧＳＣのローバスト性を増すための一般的なアプローチは、ＧＳＣの最適化の基準（式６）を以下のように変形することで、二次元の不等式の制約（ＱＩＣ）をＡＮＣフィルタＷ_1:M-1に適用することである：

ＱＩＣはフィルタの係数Ｗ_1:M-1の過度の成長を阻害する。そのため、発話がノイズ参照中へ漏れた場合に望ましくない発話歪みを減少させる。ＱＩＣ−ＧＳＣは、それぞれのアップデートステップで、Ｗ^H _1:M-1Ｗ_1:M-1がβ²を超えた時に、二次元の制限を

でフィルタの係数をスケーリングすることで新たに得られたＡＮＣフィルタに適用する：適合スケール・プロジェクション・アルゴリズム（ＳＰＡ）を使用することで、実行することができる。最近、Tian et al.は、バリアブル・ローディングを使用して二次元の制限を実行した（'Recursive quadratic implementation for LCMP Beamforming under quadratic constraint', IEEE Trans. Signal Processing, vol. 49, no. 6, pp. 1138-1145, June 2001）。帰納的な最小２乗法（ＲＬＳ）に対し、この技術は、スケールド・プロジェクション・アルゴリズムよりも最適解（式１１）に対しより良い近似を与える。

複数チャンネル・ウィナー・フィルタリング（ＭＷＦ）

複数チャンネル・ウィナー・フィルタリング（ＭＷＦ）の技術は、受信したマイクロフォン信号の１つにおける望ましい信号部の最小平均２乗誤差（ＭＭＳＥ）の推定量を与える。ＧＳＣとは異なり、このフィルタリング技術は、信号モデルについて何らの推測的な仮定を作らずによりローバスト性を有している。特に、複数のノイズ発生源や拡散ノイズのような複雑なノイズのシナリオにおいて、ＭＷＦは、ＧＳＣがローバスト性の制約を受けている時でさえも、ＧＳＣより性能が優れている。

ＭＷＦ

は、ｉ番目（例えば１番目）のマイクロフォンでの（未知の）発話信号u_i ^s[k-Δ]の遅延させたバージョンとＭフィルタリング処理したマイクロフォン信号の合計

との間の平均２乗誤差（ＭＳＥ）を最小化し、すなわち、以下のように表すことができる：

この式から以下の式となる；

ここで、

であり、また、u_i[k]は発話成分とノイズ成分とを備える。

同様のアプローチでは、ｉ番目のマイクロフォンでの（未知の）ノイズ信号u_i ^ｎ[k-Δ]の遅延させたバージョンを推定することから構成され、その結果、以下の式となる：

である。発話成分u_i ^s[k-Δ]の推定値z[k]は、遅延させたｉ番目のマイクロフォン信号u_i[k-Δ]からu_i ⁿ[k-Δ]の推定値ｗ_1:M ^Hｕ_1:M[k]を引くことによって以下のように得られる：すなわち、

これは図２においてu_i ⁿ[k-Δ]=u₁ ⁿ[k-Δ]として記載される。

ＭＷＦの残余誤差エネルギーは以下の式と同じであり、

以下の式に分解される：

ここで、ε_d ²は発話歪みエネルギーと同じであり、ε_n ²は残余ノイズエネルギーと同じである。ＭＷＦの設計基準は、重み付け因子μをμ∈[0,∞]で内挿することによって、以下の式のように、発話歪みとノイズ・リダクションとの間のトレードオフを許すように一般化されることができる：

（式２３）の解は以下の式によって与えられる：

同様にして、（式１７）中におけるｗ_1:M-1に対する最適化の基準は、以下の式に変形でき、

結果として、以下の式が得られる：

結局、（式２６）は発話歪みで重み付けした複数チャンネル・ウィナー・フィルタ（ＳＤＷ−ＭＷＦ）として参照される。要素μ∈[0,∞]は発話歪みとノイズ・リダクションとをトレードオフする。μ＝１のとき、ＭＭＳＥの基準となる（式１２）または（式１７）が得られる。μ＞１のとき、残存ノイズのレベルは、増加した発話歪みにより減少する。μを∞にセットすることで、ノイズ・リダクションが強調され、発話歪みは完全に無視される。これに対しμを０にセットすることで、ノイズ・リダクションが全く行われない結果となる。

実際、相関マトリックス

は知られていない。発話期間の間、入力であるu_i[k]は、発話＋ノイズすなわち

から構成される。ノイズ期間間、ノイズ成分であるu_i ⁿ[k]のみが観察される。発話信号とノイズ信号とが相関しないと仮定すると、

を以下の式のように推定できる：

ここで、二次統計量

は発話＋ノイズの間評価され、二次統計量

はノイズの期間の間でのみ評価される。ＧＳＣでは、そのためローバスト性の発話検知が必要となる。（式２７）、（式２４）および（式２６）を使用して、以下のように書き直すことができる：

および

ウィナー・フィルタは、発話＋ノイズおよびノイズデータマトリックスの一般化されたシンギュラー・バリュー・デコンポジション（ＧＳＶＤ）によって、各時間点ｋで計算することができる。ＱＲデコンポジションに基づくより安価な再帰的な手段を用いることもできる。また、サブバンドでの実行は、結果としての発話理解度を増加して複雑さを減少し、補聴器の応用としてそれを好適とする。

発明の目的

本発明は、発話を強調する応用において、ノイズ特にバックグラウンド・ノイズを適応させて減少し、それにより、先行技術の解法における問題および課題を解消する、方法および装置を提供することを目的とする。

発明の要約

本発明は、
ノイズを有する少なくとも２種類（バージョン）の発話信号（音声信号）を第１のフィルタに適用する工程であって、第１のフィルタが、発話参照信号と少なくとも１つのノイズ参照信号とを出力する工程と、
少なくとも１つのノイズ参照信号の各々にフィルタリング操作を適用する工程と、
発話参照信号からフィルタリング処理したノイズ参照信号の各々を差し引く工程と、を備える方法であって、
フィルタリング操作が、少なくとも１つのノイズ参照信号中の発話リークの寄与を考慮して決定されるフィルタ係数を有するフィルタを用いて実行されることを特徴とするノイズを有する発話信号のノイズを低減するための方法に関するものである。

典型的な実施例において、ノイズを有する少なくとも２種類（バージョン）の発話信号は、ノイズを有する発話信号を取り出す少なくとも２種類のマイクロフォンからの信号である。

好ましくは、第１のフィルタは、ビームフォーマー・フィルタおよびブロッキング・マトリックス・フィルタを備える空間プリプロセッサである。

好ましい実施例において、発話参照信号はビームフォーマー・フィルタによって出力され、少なくとも１つのノイズ参照信号はブロッキング・マトリックス・フィルタによって出力される。

好ましい実施例において、発話参照信号は、差し引き工程を実施する前に遅延される。

好適には、フィルタリング操作は発話参照信号に付加的に適用され、ここで、フィルタリングされた発話参照信号は、また、発話参照信号から差し引かれる。

他の好ましい実施例において、方法はさらにフィルタの係数を定期的に適合させる工程を備える。それにより、少なくとも１つのノイズ参照信号における発話リークの寄与が考慮され、あるいは、少なくとも１つのノイズ参照信号中の発話リークの寄与および発話参照信号中の発話の寄与の両者が考慮される。

本発明は、また、発話を増加させる応用において前述のようにノイズを減少するための方法の使用に関する。

第２の目的では、本発明は、
・少なくとも２つの入力を有し、発話参照信号および少なくとも１つのノイズ参照信号を出力するために設けられた第１のフィルタと、
・そこへ発話参照信号を適用するフィルタおよびそこへ少なくとも１つのノイズ参照信号を適用するフィルタと、
・発話参照信号から、フィルタリングされた発話参照信号およびフィルタリングされたノイズ参照信号の各々を差し引くための加算手段と、を備え、
ノイズを有する発話信号におけるノイズを減少するための信号処理回路に関する。

好適には、第１のフィルタは、ビームフォーマー・フィルタおよびブロッキング・マトリックス・フィルタを備える空間プリプロセッサである。

他の実施例において、ビームフォーマー・フィルタは遅延／合計ビームフォーマーである。

本発明は、また、上述した信号処理回路を備える聴取のための装置に関する。聴取のための装置とは、補聴器（外部に装着するものまたは移植するもののいずれか）または人工耳を意味する。

図１は一般化されたサイドローブ・キャンセラの概念を示す。

図２は複数チャンネル・ウィナー・フィルタリングの等価なアプローチを示す。

図３は空間的に前処理されたＳＤＷ−ＭＷＦを示す。

図４は、複数チャンネル・フィルタｗ_ｄおよびシングルチャンネル・フィルタｅ_１-ｗ_０でのｗ_０を有するＳＰ−ＳＤＷ−ＭＷＦの分解を示す。

図５は試験のためのセットアップを示す。

図６は、第２マイクロフォンでの異なる利得ミスマッチΥ_２に対するＳＤＲＧＳＣの実行における１／μの影響を示す。

図７は、第２マイクロフォンでの異なる利得ミスマッチΥ_２に対するｗ_０を有するＳＰ−ＳＤＷ−ＭＷＦの実行における１／μの影響を示す。

図８は、第２マイクロフォンでの異なる利得ミスマッチΥ_２に対するβ２の関数としてのＱＩＣ−ＧＳＣに対するΔＳＮＲ_intellingおよびＳＤ_intellingを示す。

図９は、チャンネルあたりのフィルタ長Ｌの関数としてのＬＰフィルタを有するＴＤおよびＦＤ確率勾配（ＳＧ）アルゴリズムの複合を示す；Ｍ＝３（比較のため、標準的なＮＬＭＳＡＮＣおよびＳＰＡの複合も示される）。

図１０は、異なるＦＤ確率勾配（ＦＤ−ＳＧ）アルゴリズムの実行を示す；（ａ）は９０°における固定発話類似ノイズであり；（ｂ）は９０°におけるマルチトーカー・バブル・ノイズである。

図１１は、ｗ_０を備えないものとｗ_０を備えるものに対するＦＤ確率勾配ＳＰ−ＳＤＷ−ＭＷＦ（１／μ＝０．５）の実行におけるＬＰフィルタの影響を示す。９０°のバブル・ノイズ。

図１２は、λ＝０およびλ＝０．９９９８に対するＦＤ−ＳＧの収束挙動を示す。ノイズ源の位置は９０°から１８０°へあるいはその逆に突然変化する。

図１３は、複数ノイズ源のシナリオにおいてＬＰフィルタ（λ＝０．９９９８）を有するＳＰ−ＳＤＷ−ＭＷＦのＦＤ確率勾配の実施能力を示す。

図１４は、複数ノイズ源のシナリオにおけるＦＤＳＰＡの能力を示す。

図１５は、複数ノイズ源のシナリオにおける周波数領域ＳＰ−ＳＤＷ−ＭＷＦ（アルゴリズム２およびアルゴリズム４））のＳＮＲにより改良を示す。

図１６は、複数ノイズ源のシナリオにおける周波数領域ＳＰ−ＳＤＷ−ＭＷＦ（アルゴリズム２およびアルゴリズム４））の発話歪みを示す。

発明の詳細な説明
本発明を、以下詳細に記載する。まず第１に、本発明で提案される適合複数チャンネル・リダクション技術を、空間的に前処理された発話歪みで重み付けされた複数チャンネル・ウィナー・フィルタを参照して、記載する。

本発明の第１実施例は、発話歪み一般化ＧＳＣ（ＳＤＲ−ＧＳＣ）として参照される。新しい設計基準がＧＳＣの適合ステージに対し発展し：ＡＮＣ設計基準が、信号モデルエラーに基づく発話歪みを限定する一般化条件で補足される。ＳＤＲ−ＧＳＣにおいて、パラメータμは、発話歪みとノイズ・リダクションとの間のトレードオフを許すように組み込まれる。ノイズ・リダクションに全ての注意をはらうと、一般的なＧＳＣの結果となり、一方、発話歪みに全ての注意をはらうと、固定ビームフォーマーの出力の結果となる。低いＳＮＲを有するノイズシナリオにおいて、ＳＤＲ−ＧＳＣにおける適合性を、発話歪みに対する注意を増加されることによって、言い換えると、パラメータをμから０に減少させることによって、簡単に減少あるいは排除することができる。ＳＤＲ−ＧＳＣは、ミクロフォンのミスマッチ、残響音‥‥のような信号モデルエラーに対しＧＳＣの感度を減少させるＱＩＣ−ＧＳＣに代替可能である。ＱＩＣ−ＧＳＣと比べて、ＳＤＲ−ＧＳＣは、発話歪みの量が大きくなるとき発話歪みに重要性を置くようになる。信号モデルエラーがなければ、ＧＳＣの能力は維持される。その結果、大きなモデルエラーに対しローバスト性を保証する一方、より良いノイズ・リダクション能力が小さいモデルエラーに対し得られる。

次のステップにおいて、ＳＤＲ−ＧＳＣのノイズ・リダクション能力は、発話参照信号に特別な適合フィルタリング・オペレーションｗ_０を加えることによって、さらに改良される。この一般化された計画は、空間的に前処理された発話歪みで重み付けされた複数チャンネル・ウィナー・フィルタ（ＳＰ−ＳＤＷ−ＭＷＦ）として参照される。このＳＰ−ＳＤＷ−ＭＷＦは、図３に記載され、その特別な場合としてＭＷＦを含む。再び、パラメータμが、発話歪みとノイズ・リダクションとの間のトレードオフを許すように組み込まれる。発話歪みに全ての注意をはらうと、固定ビームフォーマーの出力となる。また、ここで、適合性を、μから０へ減少させることによって、簡単に減少あるいは排除することができる。（発話の漏れがなく、無限に長いフィルタ長に対し）、ＳＰ−ＳＤＷ−ＭＷＦは、発話歪みで重み付けされた複数チャンネル・ウィナー・フィルタ（ＳＤW−ＳＷＦ）を備えるＳＤＲ−ＧＳＣのカスケード表示に対応する。発話漏れが存在する場合、Ｗ_０を有するＳＰ−ＳＤＷ−ＭＷＦはその能力を維持しようと試み：ＳＰ−ＳＤＷ−ＭＷＦは、その後、発話漏れに基づく能力の低下を補償する特別なフィルタリング動作を含む。そのため、ＳＤＲ−ＧＳＣ（およびまたＧＳＣ）と比較して、能力はマイクロフォン・ミスマッチにより低下する。ＧＳＶＤまたはＱＲ分離に基づく、（ＳＤＷ−）ＭＷＦの繰り返し実施が存在する。また、サブバンド実施、フルバンド・アプローチと比べてかなり低い複雑性で改良された理解度の結果となる。これらの技術は、ＳＤＲ−ＧＳＣを実施することで、より一般的には、ＳＰ−ＳＤＷ−ＭＷＦを実施することで、拡張される。

本発明において、ＳＤＲ−ＧＳＣおよびＳＰ−ＳＤＷ−ＭＷＦの安価な時間領域および周波数領域の確率勾配での実施が、同様に提案されている。ＳＤＲ−ＧＳＣの設計基準、より一般的には、ＳＰ−ＳＤＷ−ＭＷＦの設計基準から始めると、時間領域での確率勾配アルゴリズムが引き出される。収束速度を増加させて計算の複雑性を減少させるために、アルゴリズムは周波数領域で実施される。高いレベルの非定常ノイズ中で使用されたとき、そこから確率的勾配アルゴリズムが受ける大きな過度のエラーを減少するために、ローパスフィルタが、発話歪みを限定する勾配の推定の部分に適用される。ローパスフィルタは、望ましい発話要素の高いレベルでの時間−変化歪みを避ける一方、時間−変化シナリオで必要なトラッキング能力を劣化させることはない。また、実験は、提案された確率的勾配アルゴリズムはＱＩＣ−ＧＳＣを超えるＳＰ−ＳＤＷ−ＭＷＦの高価を保持する一方、その計算の複雑性はＱＩＣを実施するＮＬＭＳに基づき縮尺されたプロジェクションアルゴリズムに匹敵する。ローパスフィルタを備える空間的に前処理された発話歪みで重み付けされた複数チャンネル・ウィナー・フィルタ（ＳＰ−ＳＤＷ−ＭＷＦ）確率的勾配アルゴリズムは、しかしながら、データバッファを必要とし、結果として大きなメモリーコストがかかる。メモリーコストは、（対角）相関マトリックスを使用して周波数領域で正規化項を求めることによって減少させることができ、複雑さおよびメモリーコストの両面で、市販の補聴器でＳＰ−ＳＤＷ−ＭＷＦの実行を可能とする。試験結果は、相関マトリックスを使用した確率的勾配アルゴリズムが、ローパスフィルタを備える確率的勾配アルゴリズムと同じ性能を有することを、示している。

空間的に前処理されたＳＤＷ複数チャンネル・ウィナー・フィルタ
概念

図３は空間的に前処理された発話歪みで重み付けされた複数チャンネル・ウィナー・フィルタ（ＳＰ−ＳＤＷ−ＭＷＦ）を示す。ＳＰ−ＳＤＷ−ＭＷＦは、固定された空間プリプロセッサすなわち固定ビームフォーマーＡ（ｚ）およびブロッキングマトリックスＢ（ｚ）と、適合された発話歪み重み付け複数チャンネル・ウィナー・フィルタ（ＳＤＷ−ＭＷＦ）と、から構成されている。u_i ^s[k]を望ましい発話寄与とし、u_i ⁿ[k]をノイズ寄与としたとき、Ｍ個のマイクロフォン信号

を与えると、固定ビームフォーマーＡ（ｚ）は、いわゆる発話参照

を、ビームを望ましい信号の方向に向けることで作り出し、上記発話参照は発話寄与y₀ ^s[k]およびノイズ寄与y₀ ⁿ[k]を備えている。ＭＷＦのローバスト性の効果を維持するために、固定ビームフォーマーＡ（ｚ）は、発話参照y₀ ^s[k]中の歪みが、マイクロフォンミスマッチのように、仮定した信号モデルにおけるすべての可能なエラーが最小となるよう設計すべきである。その後、遅延／合計ビームフォーマーが使用される。小さいサイズのアレイに対し、このビームフォーマーは、ノイズ感度を最小にすることで、信号モデルエラーに対し十分なローバスト性を提供する。実際に起きる信号モデルエラーについての統計的な知識を与えることで、より最適化されたフィルタ／合計ビームフォーマーＡ（ｚ）を設計することができる。ブロッキングマトリックスＢ（ｚ）は、Ｍ−１個のいわゆるノイズ参照

を、ノイズ寄与y_i ⁿ[k]が発話漏れ寄与y_i ^s[k]と比べて優性となるように、ゼロを興味のある方向に向けることによって、作り出す。ノイズ参照を作り出すシンプルな技術は、時間列のマイクロフォン信号をペアで差し引くことから構成される。さらに最適化されたノイズ参照は、例えば、興味のある方向のみに代えて興味のある方向の近くの特性の角度領域（例えば、興味のある方向近くの−２０℃から２０℃の角度領域）に対する発話漏れを最小にすることによって、作り出される。また、実際に起きる信号モデルエラーについての統計的な知識を与えることで、発話漏れを考え得る信号モデルエラーのすべてに対し最小化することができる。

以後、スーパースクリプト（上側の添え字）ｓおよびｎは、信号の発話およびノイズ寄与を参照するものとして使用される。発話＋ノイズの期間では、参照y_i[k], i=0,...,M-1は発話＋ノイズを含む。ノイズのみの期間では、y_i[k], i=0,...,M-1はノイズ要素のみから構成され、すなわち、y_i[k]=y_i ⁿ[k]である。ノイズ信号の２次統計量は非常に静止した状態と仮定でき、それらはノイズのみの期間で推定できる。

である、ＳＤＷ−ＭＷＦフィルタｗ_0:M-1は、コスト関数J(w_0:M-1)

を最小化することによって、発話参照中のノイズ寄与y₀ ⁿ[k-Δ]の推定値ｗ^H _0:M-1y_0:M-1［ｋ］提供する。
ｗ_0:M-1およびｙ_0:M-1中のサブスクリプト（下側の添え字）0:M-1は、適合フィルタおよび入力ベクトルのぞれぞれの最初と最後のチャンネル構成要素のサブスクリプトを参照する。ε_d ²の項は発話歪みエネルギーを表し、ε_n ²は残留ノイズエネルギーを示す。コスト関数（式３８）の(1/μ)ε_d ²の項は、ＳＰ−ＳＤＷ−ＭＷＦの出力での発話歪みの取り得る量を制限する。そのため、ＳＰ−ＳＤＷ−ＭＷＦは、適合ステージでの設計基準において発話歪みを明示的に考慮することで、信号モデルエラーに対するローバスト性をＤＳＣに付加する。パラメータ(1/μ)∈[0,∞]はノイズ・リダクションおよび発話歪みをトレードオフし、大きい場合は１／μであり、小さい場合は取り得る発話歪みの量である。μ＝０において、Δサンプルによって遅延された固定ビームフォーマーＡ（ｚ）の出力が得られる。適合性は、μを０まで減少することで、ＳＰ−ＳＤＷ−ＭＷＦ中で簡単に減少または排除させることができる（例えば、−１０ｄＢの大変に低い信号／ノイズ比（ＳＮＲ）を有するノイズシナリオにおいては、固定ビームフォーマーが好適である）。また、適合性はＱＩＣをｗ_0:M-1に適用することによって制限することができる。

固定ビームフォーマーＡ（ｚ）およびブロッキングマトリックスＢ（ｚ）が以下のようにセットされたとき、

受信したマイクロフォン信号u_i[k], i=1,...M上で動作するオリジナルのＳＤＷ−ＭＷＦが得られることに注意のこと。

以下に、ＳＰ−ＳＤＷ−ＭＷＦの異なるパラメータのセッティングを議論する。パラメータμのセッティングおよびフィルタｗ₀の存在あるいは不存在により、発話歪みで規則化したＧＳＣ（ＳＤＲ−ＧＳＣ）のような中間の解法と同様に、ＧＳＣ、（ＳＤＷ−）ＭＷＦが得られる。２つのケース、すなわち、フィルタｗ₀が発話参照に適用されないケース（フィルタ長さL₀=0）、および、付加的なフィルタｗ₀が使用されるケース（L₀≠0）を区別できる。

ＳＤＲ−ＧＳＣ、すなわち、ｗ ₀ なしのＳＰ−ＳＤＷ−ＭＷＦ

第１に、ｗ₀なしのケース、すなわち、L₀=0のケースを考える。（式３３）におけるｗ_1:M-1に対する解は、以下の式に換算され、

ここで、ε_d ²は発話歪みエネルギーであり、ε_n ²は残留ノイズエネルギーである。

ＧＳＣの最適化基準（式６）と比べて、正規化項

が付加されている。この正規化項は、発話がノイズ参照に漏れる、すなわち、y_i ^s[k]≠0, i=1,...M-1のとき、フィルタｗ_1:M-1によって発生する発話歪みの量を制限する。その後、L₀=0を備えるＳＰ−ＳＤＷ−ＭＷＦは、そのため、発話歪みで規則化したＧＳＣ（ＳＤＲ−ＧＳＣ）として参照される。μが小さくなると、発話歪みの起こる量は少なくなる。μ＝０においては、z[k]がΔサンプルで遅延された固定ビームフォーマーＡ（ｚ）の出力であるように、発話歪みにすべての重点を置く。μ＝∽において、ノイズ歪みにすべての重点を置き、発話歪みは考慮されない。これは基準ＧＳＣに対応する。そのため、ＳＤＲ−ＧＳＣは特別なケースとしてＧＳＣを包含する。

１／μ≠０を有する正規化項（式４３）はＧＳＣにローバスト性を付加するが、一方、発話漏れのない場合のノイズリダクション能力に悪影響を与える：
・発話漏れのない場合、すなわち、y_i ^s[k]=0, i=1,..,M-1の場合、正規化項はすべてのｗ_1:M-1に対し０と等しくなり、そのため、残留ノイズエネルギーε_n ²は効果的に最小化される。言い換えると、発話漏れのない場合、ＧＳＣの解が得られる。
・発話漏れが存在する場合、すなわち、y_i ^s[k]≠0, i=1,..,M-1の場合、適合フィルタｗ_1:M-1に対する最適化基準（式４１）において、発話歪みが明示的に考慮され、発話歪みを限定し、一方、ノイズを減少する。
交互に発話歪みを限定するために、ＱＩＣは、しばしば、フィルタｗ_1:M-1に義務を負わす。ＳＤＲ−ＧＳＣとは異なり、ＱＩＣは、存在する発話漏れy^s[k]の量とは関係なく動作する。（式１１）中の制限値β^２は、発生するであろう最大化モデルエラーに基づき選択されなければならない。結果として、ノイズリダクション性能は、モデルエラーが全く存在しないあるいは大変少ししか存在しないときでさえ、妥協される。そのため、ＱＩＣは、実験結果で示されるように、ＳＤＲ−ＧＳＣよりもより堅実である。

フィルタｗ ₀ を備えるＳＰ−ＳＤＷ−ＭＷＦ

ＳＤＷ−ＭＷＦ（式３３）は、その最適化基準において、発話歪みを明示的に考慮しているため、発話参照y₀[k]における付加フィルタｗ₀を付加することができる。ＳＤＷ−ＭＷＦ（式３３）は以下のより一般的な最適化基準として解ける：

ここで、

が（式３３）によって与えられる。

再び、μは発話歪みおよびノイズリダクションをトレードオフする。μ＝∞に対し、発話歪みε_d ²は完全に無視され、結果として０の出力信号となる。μ＝０に対し、出力信号がΔサンプルによって遅延された固定ビームフォーマーの出力に等しくなるように、発話歪みにすべての重点を置く。
また、発話漏れの存在しない場合、すなわち、y_i ^s[k]=0, i=1,...,M-1の場合、そして、無限に長いフィルタｗ_i, i=1,...,M-1に対し、ＳＰ−ＳＤＷ−ＭＷＦ（ｗ₀を備える）が、ＳＤＲ−ＧＳＣおよびＳＤＷシングルチャンネルＷＦ（ＳＤＷ−ＳＷＦ）のカスケード表示に対応することが、観察される。発話漏れが存在する場合、ＳＰ−ＳＤＷ−ＭＷＦ（ｗ₀を備える）は、その性能を維持しようと試みる：ＳＰ−ＳＤＷ−ＭＷＦは、そのため、発話漏れに基づく性能の劣化を補償する特別のフィルタリング操作を含んでいる。これは図４に記載されている。無限のフィルタ長に対し、ＳＰ−ＳＤＷ−ＭＷＦ（ｗ₀を備える）の性能が、固定ビームフォーマーＡ（ｚ）の出力で望ましい発話要素が変化せず残っている限り、マイクロフォン・ミスマッチによって影響を受けないことが照明される。

実験結果

理論的な結果が補聴器の応用に対する実験結果によって示される。第１に、セットアップおよび使用された性能測定器を記載する。次に、性能におけるＳＰ−ＳＤＷ−ＭＷＦの異なるパラメータでのセッティングの影響およびシングル・モデル・エラーに対する感度を評価する。比較はＱＩＣ−ＧＳＣに対し行われる。

図５は実験に対するセットアップを示す。３つの無指向性マイクロフォン（ノーレスＦＧ−３４５２）を備える３マイクロフォンのビハインド・ジ・エアタイプの補聴器が、部屋内のダミーヘッド上に搭載される。第１のマイクロフォンと第２のマイクロフォンとの間の空間は約１ｃｍであり、第２のマイクロフォンと第３のマイクロフォンとの間の空間は約１．５ｃｍである。部屋の残響時間Ｔ_６０ｄＢは発話で重み付けられたノイズに対し約７００ｍｓである。望ましい発話信号およびノイズ信号は無相関である。発話およびノイズ信号の両者とも、ヘッドの中央で７０ｄＢＳＰＬのレベルを有している。望ましい発話源およびノイズ源は、ヘッドから１メートル離れて位置決めされており：発話源はヘッドの正面であり（０°）、ノイズ源は発話現に対して角度θである（図５参照）。指向性のみに基づく平均性能についての発想を得るために、静止した発話およびノイズ信号、平均長期パワースペクトル密度が使用される。入力信号の総持続時間は１０秒で、そのうち５秒はノイズのみを含み、他の５秒は発話およびノイズの両者の信号を含む。評価の目的で、発話およびノイズ信号は別々に記録される。

マイクロフォン信号は、認識性を高めるために、処理に先立って予め白色とされ、出力は従って白色以外の色とする。実験において、マイクロフォンは、０°の位置における無エコー性の発話で重み付けられたノイズ信号の記録によってキャリブレーションされる。遅延／合計ビームフォーマーは、（小さいマイクロフォンの空間の場合）モデルエラーに対して大変ローバストであることが知られているため、固定ビームフォーマーとして使用される。ブロッキングマトリックスＢは、ペアで時間列に並べられたキャリブレーションされたマイクロフォン信号を差し引く。

異なるパラメータセッティング（例えばμ、ｗ₀）の性能上の影響を調査するために、フィルタ係数が（式３３）を用いて計算され、ここで、

はマイクロフォン信号のクリーンな発話寄与によって推定される。実際に、

は（式２７）を使用して近似される。性能上の近似（式２７）の影響は、与えられたデータセットに対し小さかった（言い換えると、認識性に重きを置いたＳＮＲの改良では最大でも０．５ｄＢの相違である）。ＱＩＣ−ＧＳＣは種々のロード用ＲＬＳを使用して実行される。チャンネル当たりのフィルタ長ｌLは９６と同じである。

異なるアプローチの性能を評価するために、ブロードバンドの認識性で重み付けられたＳＮＲの改良が用いられ、以下の式で定義される：

ここで、バンド重要性関数Ｉ_ｉは、認識性に対し中央周波数ｆ_i ^cを備えるｉ番目の３分の１オクターブバンドの従量制を表現し、ＳＮＲ_i,outは出力ＳＮＲ(in dB)であり、ＳＮＲ_i,inはｉ番目の３分の１オクターブバンドにおける入力ＳＮＲ(in dB)である（'ANSI S3.5-1997, American National Standard Methods for Calculation of the Speech Intelligibility Index'）。認識性で重み付けされたＳＮＲは、発話歪みを考慮しないノイズ・リダクション・アルゴリズムによってどれだけ認識性が改良されたかをしめしている。

発話歪みの量を測定するために、以下の認識性で重み付けられたスペクトル歪みの測定量を定義する：

測定量は、以下の式により測定されたＳＤ_ｉ、ｉ番目の３分の１バンドにおける平均スペクトル歪み(dB)を備えており；

ここで、Ｇ^s(f)は、ノイズリダクション・アルゴリズムの入力から出力までの発話のパワー・トランスファー関数である。空間的なプリプロセッサの影響を排除するために、性能の測定は、固定ビームフォーマーの出力に対して計算される。

ＳＰ−ＳＤＷ−ＭＷＦの性能上のμおよびｗ₀に対する異なるパラメータセッティングの影響は、５つのノイズ源シナリオで示される。５つのノイズ源は、望ましい０°のソースに対し角度７５°、１２０°、１８０°、２４０°、２８５°に位置する。仮定した信号モデルにおけるエラーに対するアルゴリズムの感度を評価するために、性能上の、マイクロフォン・ミスマッチの影響、例えば、第２のマイクロフォンの利得のミスマッチの影響が評価される。異なる可能性のある信号モデルエラーの中で、マイクロフォン・ミスマッチが、補聴器の応用においてＧＳＣの性能に大変有害であることがわかった。補聴器において、マイクロフォンは利得およびフェーズにおいてほとんどマッチしない。それぞれ６ｄＢおよび１０°のマイクロフォン特性間の利得およびフェーズの相違が報告されている。

ｗ ₀ 無しのＳＰ−ＳＤＷ−ＭＷＦ（ＳＤＲ−ＧＳＣ）

図６は、第２のマイクロフォンにおける異なる利得ミスマッチΥ_２に対しＳＤＲ−ＧＳＣ（すなわち、フィルタｗ₀無しのＳＰ−ＳＤＷ−ＭＷＦ）によって得られた１／μの関数としての改良ΔＳＮＲ_intellingおよび発話歪みＳＤ_intellingをプロットする。マイクロフォンミスマッチが無い場合、ノイズ参照への発話漏れの量は限定される。そのため、発話歪みの量は、全てのμに対し低い。残響による少量の発話歪みがなお存在するため、１／μを増加することで、特に、１／μ＞１とすることで、ノイズリダクションの量および発話漏れは若干減少する。マイクロフォンミスマッチが存在する場合、ノイズ参照への発話漏れの量は増加する。１／μ＝０（ＧＳＣ）において、発話はかなりの歪みを得る。望ましい信号のキャンセル操作により、改良ΔＳＮＲ_intellingは劣化する。１／μ＞０と設定することが、信号モデルエラーの存在しない状態での性能を妥協せずに、モデルエラーの存在する状態におけるＧＳＣの性能を改良する。与えられたセットアップに対し、０．５近辺の１／μの値が、４ｄＢまでの利得ミスマッチに対し良好な性能を保証するために適当に思える。

フィルタｗ ₀ を備えるＳＰ−ＳＤＷ−ＭＷＦ

図７は、フィルタｗ₀を備えるＳＰ−ＳＤＷ−ＭＷＦの性能測定量ΔＳＮＲ_intellingおよびＳＤ_intellingをプロットする。一般的に、１／μを減少させることで、発話歪みの量およびノイズリダクションが増加する。１／μ＝０において、ノイズリダクションにすべての重点を置く。図７に示されているように、これは、発話およびノイズ信号の全体としてのキャンセルの結果となり、そのため、性能が劣化する。モデルエラーがない場合、Ｌ_０＝０およびＬ_０≠０のセッティングは、（１／μ＝０以外で）ΔＳＮＲ_intellingと同じ結果となり、一方、ｗ₀を備えるＳＰ−ＳＤＷ−ＭＷＦに対する歪みは、付加的なシングルチャンネルＳＤＷ−ＭＷＦにより、より高くなる。Ｌ_０≠０において、性能は（Ｌ_０＝０の場合と比べて）マイクロフォンミスマッチにより劣化しない。

図８は、β^２の関数として、ＱＩＣ−ＧＳＣの改良ΔＳＮＲ_intellingおよび発話歪みＳＤ_intellingをそれぞれ示す。ＳＤＲ−ＧＳＣのように、ＱＩＣはＧＳＣのローバスト性を増加する。ＱＩＣは発話漏れの量と独立である。その結果、歪みは、利得ミスマッチを増加させると、より早く増加する。制限値βは、最大で可能な発話歪みのレベルが最も大きい可能なモデルエラーを超えないように、選択されるべきである。明らかに、これは、小さいモデルエラーに対し減少させたノイズリダクションを犠牲にしている。一方ＳＤＲ−ＧＳＣは、全てのモデルエラーに対し限定された発話歪みを保持する（図６参照）。発話漏れの量が増加するならば、発話歪みに対する重要性がより増加する。その結果、小さいモデルエラーに対しよりよいノイズリダクション性能が得られ、一方、大きなモデルエラーに対して十分なローバスト性を保証する。図７は、付加フィルタｗ₀が信号モデルエラーの存在する状態でからい改良されていることを示している。

先に議論した実施例において、一般化されたノイズリダクションの計画が達成され、ＳＤＷ−ＭＷＦに基づく固定空間プリプロセッサおよび適合ステージを備える、空間的にプリプロセスされた発話歪みに重み付けした複数チャンネルウィナー・フィルタ（ＳＰ−ＳＤＷ−ＭＷＦ）として参照される。新しい計画は特別なケースとしてＧＳＣおよびＭＷＦを包含する。また、中間の回答を発話歪みで一般化されたＧＳＣ（ＳＤＲ−ＧＳＣ）として呼ぶ。トレードオフパラメータμのセッティングおよび発話参照のフィルタｗ_０の存在または不存在に従って、ＧＳＣ、（ＳＤＷ−）ＭＷＦが得られる。ＳＰ−ＳＤＷ−ＭＷＦの異なるパラメータのセッティングが以下のように表される：
・ｗ_０なしで、ＳＰ−ＳＤＷ−ＭＷＦはＳＤＲ−ＧＳＣに対応する：ＡＮＣ設計基準が、信号モデルエラーによる発話歪みを限定する一般化項で実行される。１／μが大きくなると、歪み量は少なくなる。１／μ＝０において、ＧＳＣの解に対応する歪みは完全に無視される。ＳＤＲ−ＧＳＣはＧＳＣの感度を信号モデルエラーまで減少させるＱＩＣ−ＧＳＣに対する他の技術となる。ＱＩＣ−ＧＳＣと比べて、ＳＤＲ−ＧＳＣは、発話漏れの量が増えると、発話歪みに重点をシフトする。信号モデルエラーが存在する場合、ＧＳＣの性能は保持される。その結果、小さなモデルエラーに対してより良いノイズリダクション性能が得られ、一方大きなモデルエラーに対するローバスト性も保証される。
・ＳＰ−ＳＤＷ−ＭＷＦは発話歪みを明らかに考慮しているため、発話参照上のフィルタｗ_０が付加される。（発話漏れの存在しない状態で、無限の長さのフィルタ長に対し）、ＳＰ−ＳＤＷ−ＭＷＦは、ＳＤＷ−ＳＷＦポストフィルタを備えるＳＤＲ−ＧＳＣのカスケード表示に対応する。発話漏れの存在する状態で、ｗ_０を備えるＳＰ−ＳＤＷ−ＭＷＦはその性能を維持するよう試み：ＳＰ−ＳＤＷ−ＭＷＦは、発話漏れによる性能劣化を補償するお特別なフィルタリング操作を含む。ＳＤＲ−ＧＳＣ（およびそのためＧＳＣ）と比べて、性能はマイクロフォンミスマッチにより劣化しない。
補聴器の応用に対する実験結果は、理論結果を確認する。ＳＰ−ＳＤＷ−ＭＷＦは、実際に、信号モデルエラーに対しＧＳＣのローバスト性を増加する。広く研究されたＱＩＣ−ＧＳＣとの比較は、ＳＰ−ＳＤＷ−ＭＷＦが与えられた最大許容発話歪みに対するより良いノイズリダクション性能を達成することを、示している。

確率的勾配の実行

（ＳＤＷ−）ＭＷＦの機能的な実施が、ＧＳＶＤまたはＱＲの分離に基づいて提案されている。また、サブバンドでの実施が、フルバンドアプローチと比べてかなり低いコストで改良された了解度の結果となる。これらの技術はＳＰ−ＳＤＷ−ＭＷＦを実施するために拡張することができる。しかしながら、ＧＳＣおよびＱＩＣ−ＧＳＣと比べて、安価な確率的勾配に基づくＳＰ−ＳＤＷ−ＭＷＦの実行を行うことはできない。本発明では、ＱＩＣ−ＧＳＣを超えるマトリックスに基づくＳＰ−ＳＤＷ−ＭＷＦの高価を保存する、ＳＰ−ＳＤＷ−ＭＷＦの時間領域および周波数領域の確率的勾配の実施が提案されている。実験結果は、ＳＰ−ＳＤＷ−ＭＷＦの提案された確率的勾配に基づく実行がＳＰＡより性能が優れており、一方、それらの計算コストは限定されることを示している。

ＳＰ−ＳＤＷ−ＭＷＦのコスト関数から、時間領域での確率的勾配アルゴリズムが引き出される。収束スピードを増やし、計算の複雑性を減少するために、確率的勾配アルゴリズムが周波数領域で実施される。確率的勾配アルゴリズムは、非常に時間で変化するノイズシナリオに用いられたとき、大きな過度のエラーの損害を得るため、性能は、発話歪みを限定する勾配の推定の一部にローパスフィルタを適用することによって、改良される。ローパスフィルタは、非常に時間で変化する望ましい発話要素の歪みを避ける、一方、時間で変化するノイズシナリオで必要なトラッキング性能を劣化しない。次に、異なる周波数領域の確率的勾配アルゴリズムの性能を比較する。実験結果は、提案された確率的勾配アルゴリズムが、ＱＩＣ−ＧＳＣよりＳＰ−ＳＤＷ−ＭＷＦの高価を保持することを示している。最後に、ローパスフィルタを備える周波数領域の確率的勾配アルゴリズムのメモリーコストが、データバッファの代わりに（対角線の）相関マトリックスを使用する周波数領域での正規化項を近似することによって、減少することが示される。実験は、相関マトリックスを使用する確率的勾配アルゴリズムが、ローパスフィルタを備える確率的勾配アルゴリズムと同等の性能を有していることを示す。

確率的勾配アルゴリズム
誘導

確率的勾配アルゴリズムは、瞬間の傾きの推定値を使用して、最も急な下降アルゴリズムを近似する。コスト関数（式３８）が与えられると、最も急な下降アルゴリズムが以下のように繰り返される（今後、適合フィルタｗ_0:M-1中のサブスクリプト0:M-1および入力ベクトルｙ_0:M-1は簡単にするため除外されることに注意のこと）：

を備え、ここで、Ｎは適合フィルタに対する入力チャンネルの数を示し、Ｌはチャンネル毎にフィルタタップの数を示す。繰り返し指数ｎを時間指数ｋに置き換え、予想値Ｅ｛.｝を除外することで、以下の更新式が得られる。

発話参照において１／μ＝０およびフィルタｗ_０がない場合、（式４９）は、ノイズのみの期間（すなわち、y_i[k]=y_i ⁿ[k], i=1,..,M-1のとき）ＧＳＣで使用される更新公式まで減少する。傾きの推定値における付加項ｒ[k]は、考え得る信号モデルエラーにより発話歪みを限定する。

式（４９）はきれいな発話の相関マトリックスｙ^S[k]ｙ^S,H[k]またはＥ｛ｙ^S[k]ｙ^S,H[k]｝の知識を必要とする。実際には、この情報を利用することはできない。キャリブレーションの必要を避けるために、発話＋ノイズ信号ベクトルｙ_buf1は、処理の最中に、循環バッファＢ₁∈Ｒ_NxLbuf1に記憶される。ノイズのみの期間（すなわち、y_i[k]=y_i ⁿ[k], i=1,..,M-1のとき）中、フィルタｗは、（式４９）中の

項の以下の近似を使用して、更新され、

結果として更新公式は以下のようになる。

その後、以下の式の一般化ステップサイズρが使用され、

ここで、δは小さい正の定数である。絶対値

が、きれいな発話エネルギーｙ^S,H[k]ｙ^S[k]の正の値の推定値を保証するために、挿入される。第２バッファＢ₂∈Ｒ_MxLbuf2におけるノイズのみのベクトルｙ_buf2の付加的な記憶は、以下の式を使用して、発話＋ノイズの期間中もまたｗを適合させることを許す。

である。
簡潔さのみの理由で、ノイズのみの期間における時間領域の確率的勾配アルゴリズムの更新手続がその後考慮され、ここではｙ[k]＝ｙⁿ[k]である。第２のノイズのみのバッファＢ_２を使用した発話＋ノイズ期間中の更新操作に対する継続は複雑でなく：ノイズのみの入力ベクトルｙ[k]をｙ_bufs2[k]で置き換え、発話＋ノイズベクトルｙ_buf1[k]を入力発話＋ノイズベクトルｙ[k]で置き換えることで、式を得ることができる。
アルゴリズム（式５１）−（式５２）は、ステップサイズρが

の最大固有値であるλ_maxを有する２／λ_maxより小さい場合に、収束する。標準的なＮＬＭＳを備える（式５１）の類似性から、λ_i, i=1,..,NLを有する

のセッティング、

の固有値、または、−ＦＩＲフィルタの場合−以下の式のセッティングは、

平均平方における収束を保証する。式（５５）はステップサイズρに対する（式５２）および（式５４）の正規化を説明する。

しかしながら、一般的に以下の関係にあるため、

（式５１）における瞬間の傾き推定は、−（式４９）と比較して−以下の式によって付加的に乱される、

ここで１／μ≠０である。そのため、１／μ≠０において、更新式（式５１）−（式５４）は、（式４９）より大きい残留過剰エラーを受ける。この付加的な過剰エラーは、μの減少、ステップサイズρの増加、ベクトルｙのベクトル長ＬＮの増加に対し、増加する。高い非静止ノイズ、例えば複数話者バブルノイズに対し特に大きくなることが予想される。
μ＞１において、いくつかの独立的な仮定を行うことによって、アルゴリズム（式５１）−（式５４）から引き出されることに注意のこと。同時に、しかしながら、これらの独立的な仮定がかなりの性能の劣化の結果となり、一方、計算の複雑性をほとんど減少させないことがわかる。

周波数領域での実行

上述したように、確率的勾配アルゴリズム（式５１）−（式５４）は、異なる時間点ｋで測定されたランク１の相関マトリックスｙⁿ[k]ｙ^n,H[k]の間の大きな相違により、大きなρ’／μ、および／または、高い時間で変化するノイズに対し、大きな過剰エラーを受けることが予想される。傾きの推定は、（式５１）中の以下の式

を、以下の式で置き換えることで改良することができる：

ここで、

は発話＋ノイズの期間において更新され、

はノイズのみの期間において更新される。しかしながら、これは高価なマトリックス演算を必要とする。ブロックに基づく実行は、元来、この平均化を行う：

勾配そしてそのため

は、ｗに対する調整を行う前にｋ回以上の繰り返しで、平均化される。これは減少（すなわち係数ｋによって）された収束速度の犠牲にして達成される。

ブロックに基づく実行は、それが周波数領域で特に大きなフィルタ長に対し実行されるとき、計算上より効率がよく：線型のたたみ込みあるいは相関関係は、オーバーラップセーブまたはオーバーラップアッドに基づくＦＦＴアルゴリズムによって効率的に実現化可能である。また、周波数領域での実行では、各周波数ビンがそれ自身のステップサイズを有し、そのため、時間領域の実行と比較してより早く収束し、一方、定常状態の過剰ＭＳＥを劣化しない結果となる。

アルゴリズム１は、（式５１）−（式５４）のオーバーラップセーブに基づく周波数領域での実行を合計する。アルゴリズム１は、長さ２Ｌの（３Ｎ＋４）のＦＦＴを必要とする。ＦＦＴ変換された発話＋ノイズおよびバッファＢ_１∈Ｃ^NxLbuf1およびＢ_２∈Ｃ^NxLbuf2のそれぞれにおけるノイズのみのベクトルを記憶することによって、周波数領域のベクトルを記憶する代わりに、Ｎ回のＦＦＴ操作を省くことができる。入力信号は実数であるため、ＦＦＴ要素の半分は共役の複素数であることに注意のこと。そのため、実際には、複素ＦＦＴ要素の半分のみがメモリに記憶される。発話＋ノイズの期間に適合かするときは、以下の時間領域ベクトル

が、ノイズのみの期間において、付加的なバッファ

に記憶されるべきであり、このことは、（Ｎ＝Ｍにおいて）、時間領域のベクトルがバッファＢ_１およびＢ_２に記憶されるときと比較して、L_buf2／2ワードの付加的な記憶量の結果となる。
アルゴリズム１において、共通のトレードオフパラメータμがすべての周波数ビンにおいて使用されていることに注意のこと。あるいは、μに対する異なるセッティングを異なる周波数ビンにおいて使用することができる。例えば、ｗ_０＝０を有するＳＰ−ＳＤＷ−ＭＷＦに対し、１／μは、ＧＳＣが十分なローバスト性を有する周波数で、例えば、高い周波数の小さいサイズのアレイに対し、０にセットすることができる。これに対し、正規化項Ｒ_i[k], i=M-N,..,M-1の極まれな周波数要素は計算されることが必要で、計算の複雑性を減少させる。

アルゴリズム１：オーバーラップセーブに基づく周波数領域での確率的勾配ＳＰ−ＳＤＷ−ＭＷＦ
初期化：

マトリックスの定義：

ＮＬ入力サンプルの各新規ブロックに対し：
◆ノイズが検出された場合は：

発話＋ノイズバッファＢ_１中のデータからＹ_i[k]を作成する。
◆発話が検出された場合は：

ノイズバッファＢ_2,0およびＢ₂からｄ[k]およびＹ_i ⁿ[k]を作成する。
◆更新のための公式：

◆出力：

・ノイズが検出された場合：ｙ_out[k]=ｙ₀[k]-ｙ_out,1[k]
・発話が検出された場合：ｙ_out[k]=ｙ₀[k]-ｙ_out,2[k]

改良１：ローパスフィルタを有する確率的勾配アルゴリズム

スペクトル的に静止したノイズに対し、ブロックに基づく周波数領域の確率的勾配の実行による（式５９）の限定された（すなわちＫ＝Ｌ）平均化は、短時間の発話相関マトリックスE｛ｙ^sｙ^s,H｝の妥当な推定を提供することができる。しかしながら、実際のシナリオでは、発話信号およびノイズ信号は、しばしば、スペクトル的に非常に非静止状態であり（例えば、複数話者のバブルノイズ）、一方、それらの長時間のスペクトルおよび空間特性（例えば、ソースの位置）は、通常、時間的に非常にゆっくりと変化する。これらのシナリオに対し、短時間のスペクトルより空間的な特性を得る長時間の発話相関マトリックスE｛ｙ^sｙ^s,H｝の信頼性のある推定は、なお、Ｋ＞＞Ｌのサンプルにわたって（式５９）を平均化することによって、得られる。スペクトル的に非常に非静止のノイズは、正規化項ｒ[k]における長時間の発話相関マトリックスの推定を使用することによって、なお、空間的に抑制される。発話歪みを考慮する（すなわち、（式５１）中のｒ[k]項）勾配推定の部分をローパスフィルタでフィルタリングすることによる、確率的勾配アルゴリズムにおける（式５９）の長時間の平均化（Ｋ＞＞Ｌ）を組み込むことによる安価な方法を、以下、提案する。平均化方法を、まず第１に、時間領域のアルゴリズム（式５１）−（式５４）に対し説明し、次に、周波数領域の実行に翻訳する。
長時間のスペクトルおよび空間特性が、少なくともＫの発話＋ノイズサンプルとＫのノイズサンプルにおいて擬似静止状態であると仮定する。長時間の発話相関マトリックスE｛ｙ^sｙ^s,H｝の信頼性のある推定が、Ｋ＞＞Ｌにおいて（式５９）によって得られる。高価なマトリックスの計算を避けるため、ｒ[k]を以下の式に近似することができる。

確率的勾配アルゴリズムのフィルタ係数ｗは時間的にゆっくり変化するため、（式６２）は、特に小さいステップサイズρ’に対し、ｒ[k]と良い近似を示す。平均化操作（式６２）は、（式５１）においてローパスフィルタをｒ[k]に適用することによって行われる：

ここで、

である。これは、約

のサンプルの平均化ウィンドウＫに対応する。この一般化されたステップサイズρは、以下の式に変更される、

（式５１）と比較して、（式６３）は、3NL-1の付加的なＭＡＣおよびNLx1ベクトルｒ[k]の特別な記録装置を必要とする。

（式６３）は周波数領域に簡単に拡張できる。アルゴリズム１におけるｗ_i[K+1]に対する更新式は、（アルゴリズム２）となる：

ここで、

アルゴリズム１と比較して、（式６６）−（式６９）は、特別の2L点のＦＦＴと8NL-2N-2Lの特別のＬに対するＭＡＣサンプルと、2NLx1の実数データベクトルの付加的な記憶装置とを必要とする。K=1の時間領域でのバージョンと同様の平均化操作における時間定数を得るために、λは

と等しくなるべきである。
以下の実験結果は、確率的勾配アルゴリズムの性能が特に大きなλに対しローパスフィルタによってかなり改良されることを示している。

次に、異なる確率的勾配アルゴリズムの計算の複雑性を議論する。表１は、時間領域（ＴＤ）および周波数領域（ＦＤ）における確率的勾配（ＳＧ）に基づくアルゴリズムの、計算の複雑性を要約して示す（実数の乗加算（ＭＡＣ）、分割（Ｄ）、平方根（Ｓｑ）および絶対値（Ａｂｓ）の数として表現される）。比較は、標準化されたＮＬＭＳおよびＮＬＭＳに基づくＳＰＡと行う。１つの複素数の乗算は、４つの実数の乗算および２つの実数の加算と同等と仮定する。実数の入力ベクトルの２Ｌ点でのＦＦＴは、2Llog₂2Lの実数のＭＡＣ（２基数のＦＦＴアルゴリズムと仮定した場合）を必要とする。
表１は、フィルタｗ_０を備えていないＴＤ−ＳＧアルゴリズムおよびＳＰＡが、標準のＡＮＣより、約２倍複雑であることを示している。正規化項にローパスフィルタ（ＬＰ）を適用したときは、ＴＤ−ＳＧアルゴリズムはＡＮＣの約３倍の複雑性を有している。周波数領域での実行の複雑性の増加はほとんどない。

表示したように、図９は、Ｍ＝３に対しＬの関数でサンプリング周波数がｆ_ｓ＝１６ｋＨｚのＬＰフィルタを有する時間領域および周波数領域の確率的勾配アルゴリズムの複雑性をプロットする（秒あたりメガの操作の数（Ｍｏｐｓ）として表現される）。比較は、ＧＳＣのＮＬＭＳに基づくＡＮＣおよびＳＰＡと行う。小さいＭに対し、ＦＤ−ＮＬＭＳＡＮＣのコストと比較されるため、ＦＤＳＰＡの複雑性は記載されていない。Ｌ＞８において、周波数領域の実行は、それらの時間領域の同等物と比べてかなり低い複雑性の結果となる。ＬＰを備えるＦＤ確率論的な勾配アルゴリズムの計算の複雑性は限定され、補聴器での実行に対しＳＰＡの良い代替となる。
表１および図９において、時間領域および周波数領域でのＮＬＭＳＡＮＣおよびＮＬＭＳに基づくＳＰＡの複雑性は、適合フィルタのみがノイズのみの期間に更新されるときの複雑性を表す。適合フィルタがノイズバッファからのデータを使用して発話＋ノイズ期間にも更新される場合は、時間領域の実行は付加的にサンプル毎のＮＬＭＡＣを必要とし、周波数領域の実行は付加的に２ＦＦＴおよびＬサンプル毎の（４Ｌ（Ｍ−１）−２（Ｍ−１）＋Ｌ）のＭＡＣを必要とする。

ＳＰ−ＳＤＷ−ＭＷＦの異なるＦＤの確率的勾配の実行性能は、補聴器の応用に対する実験結果に基づいて評価される。比較は、ＦＤ−ＮＬＭＳに基づくＳＰＡと行う。比較を正当にするために、ＦＤ−ＮＬＭＳに基づくＳＰＡは、（確率的勾配アルゴリズムのように）、ノイズバッファからのデータを使用して発話＋ノイズ期間中に適用される。

セットアップは、上述した例と同等である（図５を参照）。ＦＤの確率的勾配アルゴリズムの性能は、チャンネル毎のフィルタ長Ｌ＝３２タップ、ρ’＝０．８およびγ＝０に対し、評価される。空間プリプロセッサの影響を除外するため、性能の測定は、固定ビームフォーマーの出力に対して計算される。仮定した信号モデルにおけるエラーに対するアルゴリズムの感度は、マイクロフォンミスマッチ例えば第２マイクロフォンの利得ミスマッチΥ_２＝４ｄＢに対し、説明される。

図１０（ａ）および１０（ｂ）は、９０°で静止および非静止（例えば複数話者のバブル）のそれぞれの状態のノイズソースに対するトレードオフパラメータμの関数として、ｗ_０なしの異なるＦＤの確率的勾配（ＳＧ）ＳＰ−ＳＤＷ−ＭＷＦアルゴリズム（すなわち、ＳＤＲ−ＧＳＣ）の性能を比較している。性能上における近似式（式５０）の影響を分析するために、きれいな発話を使用する、（式４９）のＦＤの実行結果も示される。このアルゴリズムは最適ＦＤ−ＳＧアルゴリズムと参照される。ローパス（ＬＰ）フィルタなしで、確率的勾配アルゴリズムは、特に大きな１／μに対し、最適ＦＤ−ＳＧアルゴリズム（式４９）より悪い性能となる。静止状態の発話のようなノイズソースに対し、ＦＤ−ＳＧアルゴリズムは、近似式（式５０）からそれほど多くの影響を受けない。複数話者のバブルのような、非常に時間に対する変化の激しいノイズのシナリオでは、ＦＤの実行におけるｒ[k]の限定された平均化は、（式４９）により達成される大きなノイズリダクションを維持するのに十分でない。ノイズリダクション性能におけるロスは、減少された収束速度を犠牲にして、ステップサイズρ’を少なくすることによって、減少することができる。例えばλ＝０．９９９のローパスフィルタ（式６６）を適用することは、すべての１／μに対する性能をかなり改良するが、ノイズシナリオ中の変化がなおトラックされる。

図１１は、λがＬＰフィルタの指数重み付け要素である場合（式６６を参照）の１／（１−λ）を関数とするバブルノイズシナリオに対し、フィルタｗ_０を有する場合と有さない場合において、ＳＮＲで改良したΔＳＮＲ_intellingおよびＳＰ−ＳＤＷ−ＭＷＦ（１／μ＝０．５）の発話歪みＳＤ_intellingをプロットする。性能はλを増加することで明らかに向上する。小さいλに対し、ｗ_０を有するＳＰ−ＳＤＷ−ＭＷＦは、ｗ_０を有さないＳＰ−ＳＤＷ−ＭＷＦと比較して、より大きな過剰エラー、（そのためより悪いΔＳＮＲ_intelling）、を受ける。これは、E｛ｙ^sｙ^s,H｝の大きな規模による。

ＬＰフィルタは、短時間の発話相関マトリックスE｛ｙ^sｙ^s,H｝の程度の悪い推定によって、および／または、より高い非静止状態の短時間の発話スペクトルによって、生じたフィルタの重み付けｗ_i[k]における変動を減少する。ステップサイズρ’における減少と比較して、ＬＰフィルタは、ノイズシナリオにおける変化のトラッキングに妥協しない。記載しているように、図１２は、ノイズソースの位置が突然９０°から１８０°に変化したときの、λ＝０およびλ＝０．９９８のそれぞれに対する、ｗ_０なしのＦＤの確率的勾配アルゴリズム（すなわちＳＤＲ−ＧＳＣ）の収束挙動をプロットしている。４ｄＢの利得のミスマッチΥ_２が第２マイクロフォンに適用された。残留ノイズエネルギーε_n ²および発話歪みエネルギーε_d ²における速い変動を避けるために、この試験において望ましいおよび干渉するノイズソースは静止した発話のようなものである。上図は、入力サンプルの数の関数としての残留ノイズエネルギーε_n ²を示し、下図は、発話＋ノイズサンプルの数の関数としての発話＋ノイズ期間における残留発話歪みε_d ²をプロットする。両者のアルゴリズム（すなわち、λ＝０およびλ＝０．９９８）とも、ほぼ同じ収束速度を有する。位置の変化が起こると、λ＝０．９９８のアルゴリズムがより速く収束する。λ＝０に対し、バッファ中のノイズベクトルが最新のものにならないため、しばらくの間、近似エラー（式５０）は大きく残る。λ＝０．９９８に対し、瞬時の大きな近似エラーの影響は、ローパスフィルタのおかげで、減少する。

図１３および図１４は、複数ノイズソースのシナリオにおいて、ＬＰフィルタ（λ＝０．９９８）を有するＦＤの確率的勾配アルゴリズムおよびＦＤ−ＮＬＭＳに基づくＳＰＡの性能を比較する。ノイズシナリオは、０°における望ましい位置に対し、７５°、１２０°、１８０°、２４０°、２８５°の角度に位置する５つの複数話者バブルソースから構成される。仮定された信号モデルにおけるエラーに対するアルゴリズムの感度を評価するため、性能上の、マイクロフォンミスマッチすなわち第２マイクロフォンの利得ミスマッチΥ_２＝４ｄＢの影響も記載した。図１３において、フィルタｗ_０を有する場合と有さない場合において、ＳＮＲで改良したΔＳＮＲ_intellingおよびＳＰ−ＳＤＷ−ＭＷＦの発話歪みＳＤ_intellingを、トレードオフパラメータ１／μの関数として記載する。図１４は、ＦＤ−ＮＬＭＳに基づくＳＰＡを使用して実行された、異なる拘束値β^２に対する、ＱＩＣ−ＧＳＣの性能

を示す。
ＳＰＡおよび確率的勾配に基づくＳＰ−ＳＤＷ−ＭＷＦは両者とも、ＧＳＣのローバスト性を増加する（すなわち、ｗ_０なしで１／μ＝０のＳＰ−ＳＤＷ−ＭＷＦ）。与えられた最大値として取り得る発話歪みＳＤ_intellingに対し、ｗ_０を有するおよび有さないＳＰ−ＳＤＷ−ＭＷＦは、ＳＰＡよりもより良好なノイズリダクション性能を達成する。ｗ_０を有するＳＰ−ＳＤＷ−ＭＷＦの性能は、（ｗ_０を有さないＳＰ−ＳＤＷ−ＭＷＦと比べて）、マイクロフォンミスマッチの影響を受けない。モデルエラーがない場合は、ｗ_０を有するＳＰ−ＳＤＷ−ＭＷＦは、ｗ_０を有さないＳＰ−ＳＤＷ−ＭＷＦより幾分悪い性能となる。これは、ｗ_０を有する場合、（１／μ）E｛ｙ^sｙ^s,H｝の推定が、（１／μ）E｛ｙ^sｙ^s,H｝の大きな規模により、正確でなくなるとの事実によって、説明できる（図１１を参照）。最後に、ＳＰ−ＳＤＷ−ＭＷＦの提案された確率的勾配の実行が、ＱＩＣ−ＧＳＣを超えるＳＰ−ＳＤＷ−ＭＷＦの効果を維持する。

改良２：相関マトリックスを使用する周波数領域での確率的勾配アルゴリズム

周波数領域における正規化項を近似することによって、（対角上の）発話およびノイズの相関マトリックスをデータバッファの代わりに使用でき、その結果、メモリーの使用量を劇的に減少でき、一方、計算上の複雑性をさらに減少する。実験結果は、この近似が、ローパスフィルタを有する確率的勾配アルゴリズムと比較して小さい（正または負の）性能の相違の結果となり、提案されたアルゴリズムはＱＩＣ−ＧＳＣを超えるＳＰ−ＳＤＷ−ＭＷＦのローバスト性の効果を維持し、一方、その計算上の複雑性およびメモリー使用量の両者は、ＱＩＣ−ＧＳＣを実行するためのＮＬＭＳに基づくＳＰＡと匹敵する、ことを示している。

（式５１）中のｒ[k]の推定が非常に悪いことが示されており、大きな過剰エラーの結果となるため、（式５９）において、平均クリーン発話相関マトリックスの推定を使用することが示唆されている。これは、ｒ[k]を以下のように計算することを認める、

ここで、

は指数重み付け要素である。静止状態のノイズに対し、小さい

すなわち

が満たされる。しかしながら、実際には、発話およびノイズ信号はスペクトル的に非常に非静止状態（例えば、複数話者バブルノイズ）であり、そのため、それらの長時間のスペクトルおよび空間特性は、通常、時間的により遅く変化する。スペクトル的に非常に非静止状態のノイズは、なお、ｒ[k]における長時間相関マトリックスの推定すなわち

を使用することで、空間的に抑制される。
計算のための高価なマトリックス操作（式７５）を避けるために、予め、ｗ[k]が時間的に遅く変化するすなわちｗ[k]≒ｗ[k]であると仮定し、その結果、（式７５）は、直接的にローパスフィルタを正規化項ｒ[k]に適用することで、マトリックスの操作の代わりにベクトルで近似することができる、（式６３）を参照のこと、

しかしながら、この仮定は、これから示すように、周波数領域での実行を実際には必要としない。

アルゴリズム２と呼ばれる周波数領域でのアルゴリズムは大きなデータバッファを必要とし、そのため、大きなデータ量の記憶装置を必要とする（良好な性能を発揮するためには、循環バッファＢ_１およびＢ_２のバッファ長が１００００．．２００００であることに注意のこと）。実質的なメモリー（および計算の複雑性）の減少は以下の２つのステップにより達成できる：
・正規化項を計算するために（式７７）の代わりに（式７５）を使用するとき、データサンプルの代わりの相関マトリックスを記憶する必要がある。結果としてのアルゴリズムの周波数領域の実行は、アルゴリズム３に要約され、ここでは、２Ｌ×２Ｌの大きさの発話およびノイズ相関マトリックスＳ_ij[k]およびＳ_ij ⁿ[k], i,j=M-N..M-1が、正規化項Ｒ_i[k]およびステップサイズΛ[k]（の部分）を計算するために使用される。これらの相関マトリックスは、発話＋ノイズ期間では望ましい信号がノイズバッファＢ_２からこれ以上構成されないため、発話＋ノイズ期間およびノイズのみの期間のそれぞれにおいて更新される。相関マトリックスが対角上でないため、この第１のステップは、しかしながら、メモリーの使用を必然的に減少するわけではなく（データバッファに対するNL_buf1対相関マトリックスに対する2(NL)²）、計算上の複雑性を増加しさえする。
・周波数領域での相関マトリックスは、アルゴリズム３中のFk^TkF^-1がI_2L/2によって良く近似できるため、対角マトリックスによって近似することができる。そのため、発話およびノイズ相関マトリックスは以下のように更新され、

メモリー使用量および計算上の複雑性のかなりの減少となり、一方、性能およびローバスト性について最小の影響しが与えない。このアルゴリズムは、アルゴリズム４として参照される。

アルゴリズム３相関マトリックス（近似なし）を有する周波数領域での実行
初期化およびマトリックスの定義

Ｆ＝２Ｌ×２Ｌの大きさのＤＦＴマトリックス

０Ｌ＝Ｌ×Ｌの大きさのゼロマトリックス、ＩＬ＝Ｌ×Ｌの大きさの単位マトリックス
Ｌサンプル（チャンネル毎）の各新規ブロックに対し：

出力信号：

発話が検出された場合：

ノイズが検出された場合：Ｙ_i[k]＝Ｙ_i ⁿ[k]

更新のための公式（ノイズのみの期間のみ）：

表２は、ＱＩＣ−ＧＳＣを実行するための周波数領域でのＮＬＭＳに基づくＳＰＡおよびＳＰ−ＳＤＷ−ＭＷＦを実行するための周波数領域での確率的勾配アルゴリズム（アルゴリズム２およびアルゴリズム４）の計算上の複雑性およびメモリー使用量を要約する。計算上の複雑性は、再び、秒当たりのメガ操作数（Ｍｏｐｓ）として表現され、一方、メモリー使用量はｋワードで表現される。以下のパラメータが使用された：Ｍ＝３、Ｌ＝３２、ｆ_ｓ＝１６ｋＨｚ、Ｌ_buf1＝１００００、（ａ）Ｎ＝Ｍ−１、（ｂ）Ｎ＝Ｍ。この表から、以下の結論を導き出せる：
・フィルタｗ_０を有するＳＰ−ＳＤＷ−ＭＷＦ（アルゴリズム２）の計算上の複雑性は、ＱＩＣ−ＧＳＣの複雑性の約２倍である（そして、フィルタｗ_０を使用しない場合はそれ以下である）。アルゴリズム４中の正規化項の近似は、さらに、計算上の複雑性を減少する。しかしながら、これは、近似は２次の項０（Ｎ^２）を導くため、唯一、入力チャンネルの小さい数に対し正しく残る。
・循環発話＋ノイズバッファＢ_１中のデータサンプルの記憶により、ＳＰ−ＳＤＷ−ＭＷＦ（アルゴリズム２）のメモリー使用量は、ＱＩＣ−ＧＳＣ（もちろんデータバッファＬ_buf1のサイズによるが）と比較して、非常に大きくなる。アルゴリズム４の正規化項の近似を使用することによって、データバッファの代わりに対角相関マトリックスを記憶することとなるため、メモリー使用量を劇的に減少させることができる。しかしながら、メモリー使用量に対し、二次の項０（Ｎ^２）が存在することに注意のこと。

実質的には、アルゴリズム２とアルゴリズム４との間に何の性能の相違も存在しないことがわかり、その結果、（対角）相関マトリックスの実行を用いるＳＰ−ＳＤＷ−ＭＷＦは、なお、ＧＳＣ（そしてＱＩＣ−ＧＳＣ）を超えるローバスト性の恩恵を維持する。同じセットアップが前述した実験においても使用される。
周波数領域での確率的勾配アルゴリズムの性能は、チャンネル毎にフィルタ長Ｌ＝３２、ρ’＝０．８、γ＝０．９５およびλ＝０．９９８に対し、評価される。考慮したすべてのアルゴリズムに対し、ノイズのみの期間においてフィルタの適合化のみ行われる。空間プリプロセッサの影響を排除するために、性能の測定は、固定ビームフォーマーの出力に対し計算される。仮定した信号モデルのエラーに対するアルゴリズムの感度は、マイクロフォンミスマッチすなわち第２マイクロフォンでの利得ミスマッチΥ_２＝４ｄＢに対し、記載される。

図１５および図１６は、トレードオフパラメータ１／μの関数として、アルゴリズム２（実線）およびアルゴリズム４（点線）を使用して実行した、ＳＮＲで改良したΔＳＮＲ_intellingおよびＳＰ−ＳＤＷ−ＭＷＦ（ｗ_０を有する）とＳＤＲ−ＧＳＣ（ｗ_０を有していない）の発話歪みＳＤ_intellingを示す。これらの図は、また、第２マイクロフォンでの利得ミスマッチΥ_２＝４ｄＢの影響を示す。これらの図から、周波数領域のみでの正規化項の近似は小さい性能の相違の結果となることが観察できる。多くのシナリオに対し、性能は、アルゴリズム２よりもアルゴリズム４の方がより良好である（すなわち、大きなＳＮＲの改良と小さな発話歪み）。

そのため、提案されたアルゴリズム４を使用してＳＰ−ＳＤＷ−ＭＷＦを実行するときでも、なお、ＧＳＣ（およびＱＩＣ−ＧＳＣ）を超えるローバスト性の効果を維持する。例えば、ＧＳＣ（すなわち、１／μ＝０を有するＳＤＲ−ＧＳＣ）は、マイクロフォンミスマッチが起きるとき、大きな発話歪み（そして小さなＳＮＲの改良）の結果となることが観察できる。ＳＤＲ−ＧＳＣおよびＳＰ−ＳＤＷ−ＭＷＦの両者は、ＧＳＣにローバスト性を付与する、すなわち、歪みは１／μを増加させることで減少する。ＳＰ−ＳＤＷ−ＭＷＦ（ｗ_０を有する）の性能は、繰り返しになるが、マイクロフォンミスマッチによってほとんど影響を受けない。

Claims

音声信号における雑音を低減させる方法であって、
少なくとも２つのバージョンの前記音声信号を第１のフィルタで受け取るステップと、
前記第１のフィルタが、所望の信号およびノイズ寄与を含む音声参照信号と、音声漏れ寄与およびノイズ寄与を含む少なくとも一つのノイズ参照信号とを出力するステップと、
前記少なくとも１つのノイズ参照信号にフィルタリング操作を行うステップと、
前記音声参照信号から前記少なくとも一つのノイズ参照信号を差し引き、低減されたノイズを有する前記音声信号の出力バージョンを提供するステップと、を含み、
前記少なくとも一つのノイズ参照信号の前記フィルタリング操作は、前記音声信号の前記出力バージョンにおける音声歪みエネルギおよび残留ノイズエネルギの加重和を最小にするよう構成されたフィルタ係数をもつ一つまたは複数のフィルタで行われ、前記音声歪みエネルギは前記音声漏れ寄与のエネルギであり、前記残留ノイズエネルギは前記音声参照信号および少なくとも一つのノイズ参照信号中のノイズ寄与のエネルギである、ノイズを低減するための方法。
少なくとも２つのマイクロホンが使用され、
前記少なくとも２つのマイクロホンで前記音声信号を受け取るステップと、
前記少なくとも２つのマイクロホンのそれぞれから前記音声信号の一つのバージョンを前記第１のフィルタに提供するステップと、
を含む、請求項１に記載のノイズを低減するための方法。
前記第１のフィルタが、ビームフォーマー・フィルタおよびブロッキング・マトリックス・フィルタを含む空間プリプロセッサ・フィルタである、請求項１または２に記載のノイズを低減するための方法。
前記音声参照信号が前記ビームフォーマー・フィルタにより出力されるステップと、
前記少なくとも一つのノイズ参照信号が前記ブロッキング・マトリックス・フィルタにより出力されるステップと、
を含む、請求項３に記載のノイズを低減するための方法。
前記音声参照信号からフィルタされた少なくとも一つのノイズ参照信号を差し引くステップを実施する前に前記音声参照信号を遅延させるステップを含む、請求項１から４のいずれか１項に記載のノイズを低減するための方法。
前記音声参照信号にフィルタリング操作を行うステップを含み、
前記音声信号の前記出力バージョンは、前記音声参照信号から前記フィルタ操作された音声参照信号および前記少なくとも一つのノイズ参照信号を差し引いて提供される、請求項１から５のいずれか１項に記載のノイズを低減するための方法。
一つまたは複数の前記音声漏れ寄与および前記所望の信号を考慮するよう前記フィルタ係数を適合させるステップを含む、請求項１から６のいずれか１項に記載のノイズを低減するための方法。
発話を増大する応用における、請求項１から７のいずれか１項に記載のノイズを低減するための方法の使用。
２つのバージョンの音声信号を受け取り、音声参照信号および少なくとも一つのノイズ参照信号を出力するよう構成された第１のフィルタを備え、
前記音声参照信号は、所望の信号およびノイズ寄与を含み、前記少なくとも一つのノイズ参照信号は、音声漏れ寄与およびノイズ寄与を含み、
前記ノイズ参照信号をフィルタするよう構成された第２のフィルタと、
前記音声参照信号から、前記少なくとも一つのフィルタされたノイズ参照信号を差し引き、ノイズが低減された前記音声信号の出力バージョンを提供するよう構成された加算器と、を備え、
前記第２のフィルタは、前記音声漏れ寄与のエネルギおよび前記音声信号の前記出力バージョンにおける前記ノイズ寄与のエネルギの加重和を最小にするよう構成されたフィルタ係数をもつ、音声信号におけるノイズを減少するための信号プロセッサ。
前記第１のフィルタが、ビームフォーマー・フィルタおよびブロッキング・マトリックス・フィルタを備える、空間プリプロセッサ・フィルタである、請求項９に記載の信号プロセッサ。
前記ビームフォーマー・フィルタが遅延／合計ビームフォーマーである、請求項１０に記載の信号プロセッサ。
補聴器で使用するための請求項９に記載の信号プロセッサ。
前記第２のフィルタが前記音声参照信号をフィルタするよう構成され、前記加算器が前記音声参照信号から前記フィルタされた音声参照信号および前記少なくとの一つのフィルタされたノイズ参照信号を差し引いて前記音声信号の前記出力バージョンを提供する、請求項９に記載の信号プロセッサ。
前記フィルタ係数を一つまたは複数の前記音声漏れ寄与および前記所望の信号を考慮するよう適合させる、請求項９に記載の信号プロセッサ。
少なくとも２つのバージョンの音声信号をフィルタするフィルタ手段を備え、
該フィルタ手段は、所望の信号およびノイズ寄与を含む音声参照信号、および音声漏れ寄与およびノイズ寄与を含む少なくとも一つのノイズ参照信号を出力するよう構成されており、
前記少なくとも一つのノイズ参照信号をフィルタするためのフィルタ手段と、
前記音声参照信号から、前記少なくとも一つのフィルタされたノイズ参照信号を差し引き、ノイズが低減された前記音声信号の出力バージョンを提供するための手段と、を備え、
前記少なくとも一つのノイズ参照信号をフィルタするフィルタ手段は、前記音声漏れ寄与のエネルギおよび前記音声信号の前記出力バージョンにおける前記ノイズ寄与のエネルギの加重和を最小にするよう構成されている、音声信号におけるノイズを減少するよう構成された信号プロセッサ。
少なくとも２つのバージョンの音声信号をフィルタするフィルタ手段が、ビームフォーマー・フィルタおよびブロッキング・マトリックス・フィルタを備える、空間プリプロセッサ・フィルタである、請求項１５に記載の信号プロセッサ。
前記音声参照信号が前記ビームフォーマー・フィルタにより出力され、前記少なくとも一つのノイズ参照信号が前記ブロッキング・マトリックス・フィルタにより出力される、請求項１６に記載の信号プロセッサ。
前記音声参照信号からフィルタされた少なくとも一つのノイズ参照信号を差し引く前に前記音声参照信号を遅延させる手段を有する、請求項１５に記載のプロセッサ。
前記音声参照信号をフィルタリングする手段と、
フィルタリングされた前記音声参照信号および前記少なくとも一つのノイズ参照信号を前記音声参照信号から差し引き、前記音声信号の出力バージョンを提供する手段と、
を備える、請求項１５に記載の信号プロセッサ。
一つまたは複数の前記音声漏れ寄与および前記所望の信号を考慮するよう前記ノイズ参照信号のフィルタリングを適合させる手段を有する、請求項１５に記載の信号プロセッサ。
請求項９から２０のいずれかに記載の信号プロセッサを備えた聴取装置。