JP4833343B2

JP4833343B2 - エコー及びノイズキャンセレーション

Info

Publication number: JP4833343B2
Application number: JP2010019147A
Authority: JP
Inventors: マオシャドン
Original assignee: Sony Interactive Entertainment Inc; Sony Computer Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2006-05-04
Filing date: 2010-01-29
Publication date: 2011-12-07
Anticipated expiration: 2027-03-30
Also published as: JP2009535997A; EP2014132A2; EP2012725A2; JP4476355B2; WO2007130766A3; EP2012725A4; WO2007130765A3; WO2007130766A2; JP2009535996A; WO2007130765A2; JP4866958B2; JP2010171985A; EP2014132A4

Description

［優先権の主張］
本出願は、本出願と譲受人が共通であって本出願と同時に係属する特許文献１の恩恵を主張し、その開示内容全体をここに援用する。本出願は、本出願と譲受人が共通であって本出願と同時に係属する特許文献２の恩恵を主張し、その開示内容全体をここに援用する。本出願はまた、本出願と譲受人が共通であって本出願と同時に係属する特許文献３の恩恵を主張し、その開示内容全体をここに援用する。本出願はまた、本出願と譲受人が共通であって本出願と同時に係属する特許文献４の恩恵を主張し、その開示内容全体をここに援用する。本出願はまた、本出願と譲受人が共通であって本出願と同時に係属する特許文献５の恩恵を主張し、その開示内容全体をここに援用する。本出願はまた、本出願と譲受人が共通であって本出願と同時に係属する特許文献６の恩恵を主張し、その開示内容全体をここに援用する。本出願はまた、本出願と譲受人が共通であって本出願と同時に係属する特許文献７の恩恵を主張し、その開示内容全体をここに援用する。本出願はまた、本出願と譲受人が共通であって本出願と同時に係属する特許文献８の恩恵を主張し、その開示内容全体をここに援用する。本出願はまた、本出願と譲受人が共通であって本出願と同時に係属する特許文献９の恩恵を主張し、その開示内容全体をここに援用する。本出願はまた、本出願と譲受人が共通であって本出願と同時に係属する特許文献１０の恩恵を主張し、その開示内容全体をここに援用する。

米国特許出願第11/381,728号,シャドンマオ, "ECHO AND NOISE CANCELATION", 2006年5月4日出願, (代理人整理番号SCEA05064US00) 米国特許出願第11/381,729号,シャドンマオ, "ULTRA SMALL MICROPHONE ARRAY", 2006年5月4日出願, (代理人整理番号SCEA05062US00) 米国特許出願第11/381,725号,シャドンマオ, "METHODS AND APPARATUS FOR TARGETED SOUND DETECTION", 2006年5月4日出願, (代理人整理番号SCEA05072US00), 米国特許出願第11/381,727号,シャドンマオ, "NOISE REMOVAL FOR ELECTRONIC DEVICE WITH FAR FIELD MICROPHONE ON CONSOLE", 2006年5月4日出願, (代理人整理番号SCEA05073US00) 米国特許出願第11/381,724号,シャドンマオ, "METHODS AND APPARATUS FOR TARGETED SOUND DETECTION AND CHARACTERIZATION", 2006年5月4日出願, (代理人整理番号SCEA05079US00) 米国特許出願第11/381,721号,シャドンマオ, "SELECTIVE SOUND SOURCE LISTENING IN CONJUNCTION WITH COMPUTER INTERACTIVE PROCESSING", 2006年5月4日出願, (代理人整理番号SCEA04005 JUMBOUS) PCT出願 PCT/US06/17483号,シャドンマオ, "SELECTIVE SOUND SOURCE LISTENING IN CONJUNCTION WITH COMPUTER INTERACTIVE PROCESSING", 2006年5月4日出願, (代理人整理番号SCEA04005 JUMBOPCT) 米国特許出願第11/418,988号,シャドンマオ, "METHODS AND APPARATUSES FOR ADJUSTING A LISTENING AREA FOR CAPTURING SOUNDS", 2006年5月4日出願, (代理人整理番号SCEA-00300) 米国特許出願第11/418,989号,シャドンマオ, "METHODS AND APPARATUSES FOR CAPTURING AN AUDIO SIGNAL BASED ON VISUAL IMAGE", 2006年5月4日出願, (代理人整理番号SCEA-00400) 米国特許出願第11/429,047号,シャドンマオ, "METHODS AND APPARATUSES FOR CAPTURING AN AUDIO SIGNAL BASED ON A LOCATION OF THE SIGNAL", 2006年5月4日出願, (代理人整理番号SCEA-00500)

[本発明の技術分野]
本発明は、音響信号処理に関し、とくに、音響信号処理におけるエコーおよびキャンセリングに関する。

インタラクティブテレビゲームコントローラなどのような多くの携帯電子装置は、双方向音響信号を扱うことができる。このような装置は、典型的にはその装置のユーザからのローカルスピーチ信号ｓ（ｔ）を受けるマイクロフォンと、ユーザが聞くことができるスピーカ信号ｘ（ｔ）を発信するスピーカとを備える。テレビゲームコントローラをより小型化するために、マイクロフォンとスピーカは、比較的近く（例えば２０ｃｍ以内など）に設置することが望ましい。これに対してユーザは、マイクロフォンからより離れたところ（例えば３メートルから５メートルなど）に位置するかもしれない。マイクロフォンはローカルスピーチ信号ｓ（ｔ）とスピーカエコー信号ｘ_１（ｔ）との両方を含む信号ｄ（ｔ）を生成する。これに加えて、マイクロフォンはバックグランドノイズｎ（ｔ）を受けるかもしれない。そのため、全体のマイクロフォン信号は、ｄ（ｔ）＝ｓ（ｔ）＋ｘ_１（ｔ）＋ｎ（ｔ）となる。比較的スピーカの近傍にあるため、マイクロフォン信号ｄ（ｔ）は、スピーカエコー信号ｘ_１（ｔ）によって、占められるかもしれない。

電気通信の応用例において、スピーカエコーは広くみられる現象であり、エコーサプレッションとエコーキャンセレーションは比較的成熟した手法である。エコーサプレッサは、回線において１方向に向かう音声信号の存在を検出した場合に作動し、他の方向に大きな損失を挿入する。通常、回線の遠端にあるエコーサプレッサが回線の近端からの音声を検出した場合に、そのエコーサプレッサがこの損失を加える。この加えられた損失により、スピーカ信号ｘ（ｔ）が、ローカルスピーチ信号ｄ（ｔ）へと再送出されることを阻止することができる。

エコーサプレッションは効果的ではあるが、多くの場合、いくつかの問題につながる。例えば、ローカルスピーチ信号ｓ（ｔ）とリモートスピーカ信号ｘ（ｔ）は、少なくとも短時間に限れば、同時に生ずることがよくある。この状況はダブルトークとも呼ばれる。リモートスピーカ信号のみが存在するような状況は、リモートシングルトークとも呼ばれる。各エコーサプレッサが回路の遠端（far-end）からの音声エネルギを検出するため、その結果、通常、同時に双方向に損失が挿入されることとなり、両側の通話がブロックされる。これを防止するため、エコーサプレッサを、近端のスピーカからの音声アクティビティのみを検出するように設定することができる。これにより、近端話者と遠端話者が同時に話しているときには、損失が挿入されなくなる（または、より小さい損失のみ挿入される）。残念ながら、これは、当初のエコーサプレッサの効果まで、一時的にうち消してしまう。

さらに、エコーサプレッサは、交互に、損失を挿入し、除去するため、新たな話者が話し始めたときにしばしば小さな遅延が生じ、その話者のスピーチの初めの方の音がクリッピングされてしまう。さらに、遠端の相手方の周囲がうるさいときには、遠端話者が話しているときには、近端話者にそのバックグラウンド音が聞こえるが、近端話者が話し始めるとエコーサプレッサがそのバックグラウンド音を抑制する。これにより、バックグラウンド音が突然無くなるため、近端のユーザは回線が切れたかのような印象を受けることになる。

上述の問題に対処するため、エコーキャンセレーション手法が開発された。エコーキャンセレーションは、アナログまたはデジタルフィルタを用いて、望ましくないノイズやエコーを入力信号から取り除き、フィルタリング処理された信号ｅ（ｔ）を生成する。エコーキャンセレーションにおいては、スピーチモデルを計算するために複雑なアルゴリズム手順が用いられる。この手順は、マイクロフォン信号ｄ（ｔ）と、リモート信号ｘ（ｔ）の一部を、エコーキャンセレーションプロセッサに入力するステップと、スピーカエコー信号ｘ_１（ｔ）を予測するステップと、そしてこれをマイクロフォン信号ｄ（ｔ）から差し引ステップとを含む。エコー予測方式は、適用（ａｄａｐｔａｔｉｏｎ）として知られるプロセスにおいて、エコーキャンセレーションプロセッサにより学習されなければならない。

このような手法の効果は、エコー抑制比（ＥＳＲ:echo supression ratio）によって測定される。これは単に、マイクロフォンが受ける真のエコーエネルギと、フィルタリング処理された信号ｘ_１（ｔ）に残る残余エコーエネルギとの比である（典型的にはデシベルで表される）。国際電気通信ユニオン（ＩＴＣ）が定めた基準によると、リモートシングルトークの場合、エコーレベルについて、少なくとも４５デシベルの減衰が必要である。ダブルトークの最中（または強いバックグラウンドノイズの最中）には、この減衰レベルは３０デシベルまで低くなってもよい。しかしながら、これらの推奨基準は、ローカルスピーチ信号を発生するユーザが、マイクロフォンに、より近いようなシステムにおいて開発されたものである。したがって録音されたＳＮ比（ターゲット音声エネルギのエコーノイズエネルギに対する比）は、大抵、５デシベルよりも良い。例えばテレビゲームコントローラのような、ユーザが３メートルから５メートルも離れており、オープンマイクロフォンから０．５メートルよりも近傍にあるラウドスピーカが大きなエコーを発生するようなアプリケーションにおいては、これらの推奨基準はあてはまらない。このようなアプリケーションにおいては、ＳＮ比は−１５デシベルから−３０デシベル未満であろう。リモートシングルトークにおいては６０デシベル以上のＥＳＲ、ダブルトークについては３５デシベル以上ＥＳＲが要求されるかもしれない。現存のエコーキャンセレーション手法ではこのような高いＥＳＲレベルを達成することができない。

したがって、当該技術分野においては前述の不利な点を克服するエコーキャンセレーションシステムおよび方法が必要とされている。

［発明の概要］
前述の不利な点を克服するため、本発明の実施形態は、スピーカとマイクロフォンを有するシステムにおけるエコーキャンセレーション方法および装置に照準を合わせる。スピーカはスピーカ信号ｘ（ｔ）を受信する。マイクロフォンは、ローカル信号ｓ（ｔ）とエコー信号ｘ_１（ｔ）を含むマイクロフォン信号ｄ（ｔ）を受け取る。エコー信号ｘ_１（ｔ）は、スピーカ信号ｘ（ｔ）に依存する。マイクロフォン信号ｄ（ｔ）は、互いに相補的なエコーキャンセレーション特性を有する第１適応フィルタ、および第２適応フィルタによって、パラレルにフィルタリング処理される。最小エコー出力ｅ_３（ｔ）は、第１適応フィルタからの出力ｅ_１（ｔ）と、第２適応フィルタからの出力ｅ_２（ｔ）か決定される。最小エコー出力のエネルギはより小さく、最小エコー出力とスピーカ信号ｘ（ｔ）との間の相関はより小さい。そして、マイクロフォン出力が、最小エコー出力ｅ_３（ｔ）を用いて生成される。オプションとして、残差エコーキャンセレーション、かつ／または、ノイズキャンセレーションが、最小エコー出力に適用されてもよい。

本発明の実施形態にかかるエコーキャンセレーション装置の概略図である。図１Ａのエコーキャンセレーション装置において用いられうる音声アクティビティ検出適応フィルタの概略図である。図１Ａのエコーキャンセレーション装置において用いられうる相互相関解析を伴う適応フィルタの概要図である。本発明の実施形態にかかるエコーキャンセレーション方法を説明するフローチャートである。本発明の実施形態にかかるエコーキャンセレーションのための別の方法を説明するフローチャートである。本発明の別の実施形態にかかるエコーキャンセレーション装置の概略図である。

［具体的な実施形態の説明］
以下の詳細な説明は、説明の目的のため、具体的な細部を含むが、本発明の範囲内において、後述の細部について多くの変形や変更が可能であることは、当該技術分野において通常の知識を有する者に理解されるところである。したがって、以下に記述される本発明の実施例の説明により、特許請求の範囲に記載されている発明が一般性を失うことなく、また、以下の説明は、特許請求の範囲に記載されている発明について制限を課すものではない。

本発明の実施形態によると、機能的に同一である二つのフィルタを有する一体型のエコーおよびノイズキャンセラの新しい構成が提案される。これらのフィルタは、直交制御と表現（ｏｒｔｈｏｇｏｎａｌｃｏｎｔｒｏｌｓａｎｄｒｅｐｒｅｓｅｎｔａｔｉｏｎｓ）を伴う。このような構成においては、雑音のあるハンドフリー音声通信において、システム全体のロバスト性（ｒｏｂｕｓｔｎｅｓｓ）を引き上げるように、二つの直交フィルタは互いに補完し合う。

特に、一体型のエコーノイズキャンセラは、別個に制御される二つのサブシステムを並行に用いる。これらのサブシステムはそれぞれ、直行制御メカニズムを伴う。エコーノイズキャンセラは、フロント・エコーキャンセラと、バックアップ・エコーキャンセラとを含む。フロント・エコーキャンセラは、ダブルトーク検出を用いる。ローカル音声に対して確実にロバストであるようにするために、フロント・エコーキャンセラは、保守的な適応アプローチをとりながらも、提供するエコーサプレッションはより小さく、スピーチ、エコーの変化への適応は遅い。バックアップ・エコーキャンセラは、相互相関を用いて、エラー信号とエコー信号との間の類似性を測定する。バックアップ・エコーキャンセラは、フィルタが迅速に更新されるように、積極的な戦略をとる。バックアップ・エコーキャンセラは、大きなエコーサプレッションを提供しながらも、過剰に適応してしまう可能性があるため、ローカル音声／ノイズに対して不安定である。これらの二つのエコーキャンセラの出力の統合は、どちらのエコーキャンセラとエコー信号との差が大きいかを測定する相互相関解析に基づいて実行される。この統合においてはまた、両方のエコーキャンセラのフィルタ安定性がチェックされる。一のフィルタが過大予測または過小予測されている場合、そのフィルタは他方のフィルタによって補完される。このようなシステムは、いかなるときでも確実に一のフィルタが正しく動作するように設計される。

本システムはオプションで、同様のアプローチをとるエコー残差ノイズ予測部を含んでもよい。エコー残差ノイズ予測部は、直行制御を伴う二つの独立なサブ予測部を並行に用いる。第１予測部は、ロバストなダブルトーク検出部に依存するエコー距離ミスマッチ（ｅｃｈｏ−ｄｉｓｔａｎｃｅ−ｍｉｓｍａｔｃｈ）に基づく。第１予測部は、比較的正確でありながら、ダブルトーク検出エラーのために不安定である。第２予測部は相互スペクトル解析（ｃｒｏｓｓ−ｓｐｅｃｔｒｕｍ−ａｎａｌｙｓｉｓ）に基づく。第２予測部の予測にはバイアスがかかっているが安定であり、ローカル音声検出に依存せず、一貫性がある。これらの二つの残差エコーの予測の統合においては、遠端通話のみの場合、またはダブルトークの場合にそれぞれ、最小／最大アプローチがとられる。

図１Ａは、本発明の一実施形態にかかるエコーキャンセレーション装置１００を用いたオーディオシステム９９を示す図である。装置１００の動作は、図２Ａに示される方法２００のフローチャート、および図２Ｂに示される方法２２０を参照することによって理解されるであろう。オーディオシステム９９は一般的に、リモート信号ｘ（ｔ）を受け取るスピーカ１０２とマイクロフォン１０４とを含む。ローカル音源１０１は、ローカルスピーチ信号ｓ（ｔ）を発する。マイクロフォン１０４は、ローカルスピーチ信号ｓ（ｔ）と、スピーカ信号ｘ（ｔ）に関連するエコー信号ｘ_１（ｔ）の両方を受け取る。マイクロフォン１０４はまた、マイクロフォン１０４が位置する環境から発生するノイズｎ（ｔ）をも受け取る。そして、マイクロフォン１０４は、マイクロフォン信号ｄ（ｔ）を生成する。マイクロフォン信号ｄ（ｔ）は、ｄ（ｔ）＝ｓ（ｔ）＋ｘ_１（ｔ）＋ｎ（ｔ）によって与えられるだろう。

エコーキャンセレーション装置１００は、一般的に、第１適応エコーキャンセレーションフィルタＥＣ（１）と第２適応エコーキャンセレーションフィルタＥＣ（２）とを含む。それぞれの適応フィルタは、マイクロフォン信号ｄ（ｔ）とスピーカ信号ｘ（ｔ）とを受け取る。図２Ａ−２Ｂに示されるように、フィルタＥＣ（１）はステップ２０２に示されるようにマイクロフォン信号ｄ（ｔ）を適応フィルタリング処理し、フィルタＥＣ（２）は、ステップ２０４に示されるように、第１フィルタＥＣ（１）と並行してマイクロフォン信号ｄ（ｔ）を適応フィルタリング処理する。ここで用いられているように、フィルタが「並行にオペレーションする」とは、実質的に同じ入力ｄ（ｔ）を受け取ることをいう。並行オペレーションは、一のフィルタの出力が、他方のフィルタの入力となるシリアルオペレーションとは、区別される。二つのフィルタＥＣ（１）、ＥＣ（２）の状態によって、一のフィルタが、主要な「フロント」フィルタの役目を果たし、他方のフィルタが「バックアップ」フィルタの役目を果たす。一のフィルタは、エコーキャンセレーションに対して慎重なアプローチをとる一方、他方のフィルタはより積極的なアプローチをとる。

フィルタＥＣ（１）、ＥＣ（２）の状態は、以下の信号モデルに関連して理解されるであろう。
ｙ（ｔ）＝ｘ（ｔ）^＊ｈ（ｎ）
ｄ（ｔ）＝ｙ_０（ｔ）＋ｓ（ｔ）
ｅ（ｔ）＝ｄ（ｔ）−ｙ（ｔ）
ここで、ｙ（ｔ）は、エコーキャンセラフィルタによって合成されたエコーである。
ｘ（ｔ）は、ラウドスピーカにおいてプレイするエコーである。
ｈ（ｎ）は、エコーキャンセラフィルタの適応フィルタ関数である。
ｄ（ｔ）は、マイクロフォンが受けた雑音の多い信号である。
ｙ_０（ｔ）は、マイクロフォンにおいて現れる、真のエコーである。
ｓ（ｔ）は、ローカル音声である。
そして、ｅ（ｔ）は、エコーキャンセラフィルタによって生成されたエコーキャンセル済み残差信号である。

二つのフィルタＥＣ（１）、ＥＣ（２）は、相補的なエコーキャンセレーション特質を有する。ここで用いられるように、「相補的エコーキャンセレーションを有する」とは、同じ入力を受け取る二つの適応フィルタにおいて、一のフィルタが入力にうまく適応していないときに、他方のフィルタが入力にうまく適応しているような場合をいう。本アプリケーションの文脈において、フィルタ関数ｈ（ｎ）が、「うまく適応している」とは、そのフィルタ関数ｈ（ｎ）が安定であり、真のエコーパスフィルタ（ｅｃｈｏ−ｐａｔｈ−ｆｉｌｔｅｒ）に収束しており、過大予測でもなく過小予測でもないときをいう。

ｈ（ｎ）が真のエコーパスフィルタに収束している（ｙ（ｔ）〜＝ｙ_０（ｔ））場合、すなわち、予測されたエコーが真のエコーと近似的に等しい場合、コヒーレンス関数αを用いて、エコーキャンセラフィルタＥＣ（１）、ＥＣ（２）の状態が定量化されるだろう。αは、ｙ（ｔ）とｅ（ｔ）の間の相互相関に関連し、式１が成り立つ。
（式１）

ここで”Ｅ”は、統計的期待値である。
式２に示す演算子は、相互相関演算を表す。
（式２）

離散的な関数ｆ_ｉとｇ_ｉについて、相互相関は式３で定義される。
（式３）

ここで、和は適切な値の整数ｊについてとられており、アスタリスクは、複数共役を表す。連続関数ｆ（ｘ）とｇ（ｘ）について、相互相関は式４で定義される。
（式４）

ここで積分は適切なｔの値についてとられる。

コヒーレンス関数αにおいて、分子は、ｅ（ｔ）とｙ（ｔ）の相互相関を表す。分母は、ｙ（ｔ）の自己相関を表し、正規化項の役目を果たす。

理想的には、ｈ（ｎ）が収束するならば、αは「０」に近いはずである（残差信号ｅ（ｔ）はｙ（ｔ）を含まないからである）。ｈ（ｎ）が収束しないならば、αは「１」に近いはずである（ｅ（ｔ）はｙ（ｔ）の強いエコーを含むからである）。ｈ（ｎ）がおかしな挙動をし、または発散するならば、αは負であるはずである（フィルタの発散のため、ｅ（ｔ）は、位相が１８０度シフトした強いエコーを含むからである）。

したがって、例えば、コヒーレンス関数αの値は、フィルタＥＣ（１）、ＥＣ（２）の状態について、四つの可能な状態を定義するために用いられてもよい。ただしこれに制限されるものではない。
（１）フィルタｈ（ｎ）が安定であり、収束し、過大予測でも過小予測でもない場合には、０＜＝α＜＝０．１
（２）フィルタｈ（ｎ）が安定ではあるが、過小予測されているときには（まだ収束していない）α＞０．２
（３）フィルタｈ（ｎ）が過大予測されているときは、α＜−０．１
（４）フィルタｈ（ｎ）が発散するときには、α＜−０．２５
これらの異なる状態について、異なるαの値の範囲が決定されうることは当業者には理解されるであろう。

フィルタの状態がよいならば（例えば状態（１））、その後に発散したときのリカバリのために、その設定が保存されてもよい。フィルタが発散し、または過小予測され、または過大予測されている場合には、フロントおよびバックアップ・エコーキャンセラはその役割を交換する。フロントフィルタがバックアップとなる一方、バックアップフィルタがフロントフィルタの役割を担う。一のフィルタが慎重な適応アプローチをとり、他方が積極的な適応アプローチをとるため、この交換により、最終的には、両方のフィルタがより早く収束し、よりダイナミックに安定する。

さらにフィルタが過小予測または過大予測されている場合、より早い収束、またはトラッキングのよりよい安定のために、適応スピードを加速させ、または減速させるように、適応ステップサイズが小さなデルタ値で増加または減少されてもよい。通常、収束を速くするためにはより大きなステップサイズが必要である。これにより、細部に関するよいトラッキングは犠牲となり、エコーサプレッション比ＥＳＲは、低くなる。小さなステップサイズを用いてよりゆっくりと収束させる場合は、より安定的であり、わずかな変化もトラックする機能を有するが、エコーディスロケーションを速くトラッキングするには適さない。

動的なステップサイズと、フロント／バックアップでのフィルタ交換を組み合わせることにより、速いトラッキング対詳細なトラッキング、安定性対収束の観点において、システム全体のバランスが良くなる。この二つが、適応システム設計において本当に重要な双子の課題である。

フィルタの一が発散した場合において、他方のフィルタがよい状態にあるならば、発散したフィルタを再初期化するために、その他方のフィルタの設定が複製されてもよい。別の方法では、発散したフィルタは、以前に保存された、よい状態のフィルタ設定を用いて復旧されて（ｒｅｃｏｖｅｒｅｄ）もよい。

例えば、エコーキャンセリング適応フィルタＥＣ（１）とＥＣ（２）は、周波数領域正規化最小二乗適応フィルタに基づいてもよい。ただし、これに制限されるものではない。各フィルタは、ハードウェア、ソフトウェア、またはハードウェアとソフトウェアの組み合わせとして実装されうる。

図１Ｂと図１Ｃは、適切な相補適応フィルタの例を示す。具体的には、図１Ｂは、音声アクティビティ検出を伴う適応エコーキャンセレーションフィルタ１２０を示す。フィルタ１２０は、第１適応フィルタＥＣ（１）として用いることができる。フィルタ１２０は、フィルタ係数ｗ_ｔによって特徴付けられる有限インパルス応答（ＦＩＲ）フィルタを有する可変フィルタ１２２を含む。可変フィルタ１２２は、マイクロフォン信号ｄ（ｔ）を受け取り、フィルタ係数ｗ_ｔの値に従ってフィルタリング処理し、フィルタリング処理された信号ｄ’（ｔ）を生成する。可変フィルタ１２４は、入力信号を、係数ｗ_ｔ1によって決定されるインパルス応答で畳み込むことにより、望ましい信号を予測する。各フィルタ係数ｗ_ｔ１は、更新アルゴリズム１２４にしたがって、量Δｗ_ｔの規則的な間隔で更新される。一例として、フィルタ信号ｄ’（ｔ）が、望ましい信号としてスピーカエコー信号ｘ_１（ｔ）を予測しようと試みるように、フィルタ係数ｗ_ｔが選択されてもよい。差分ユニット１２６は、マイクロフォン信号ｄ（ｔ）からフィルタリング処理された信号ｄ’（ｔ）を差し引いて、予測信号ｅ_１（ｔ）を供給する。予測信号ｅ_１（ｔ）は、ローカルスピーチ信号ｓ（ｔ）を予測する。フィルタリング処理された信号ｄ’（ｔ）をリモート信号ｘ（ｔ）から差し引いて、誤差信号ｅ（ｔ）を生成してもよい。誤差信号ｅ（ｔ）は、更新アルゴリズム１２４によってフィルタ係数ｗ_ｔを調整するために用いられる。適応アルゴリズム１２４は、リモート信号ｘ（ｔ）と誤差信号に基づいて、補正因子（ｃｏｒｒｅｃｔｉｏｎｆａｃｔｏｒ）を生成する。係数更新アルゴリズムの例には、最小２乗法（ＬＭＳ）と再帰最小２乗法（ＲＬＳ：ｒｅｃｕｒｓｉｖｅｌｅａｓｔｓｑｕａｒｅｓ）が含まれる。ＬＭＳ更新アルゴリズムにおいては、例えば、フィルタ係数は、式ｗ_ｔ１＋１＝ｗ_ｔ１＋μｅ（ｔ）ｘ（ｔ）に基づいて更新される。ここで、μはステップサイズである。初めは、すべてのｗ_ｔ１について、ｗ_ｔ１＝０である。この例において、量μｅ（ｔ）ｘ（ｔ）は、量Δｗ_ｔであることに注意されたい。上述のように、ステップサイズμは、適応フィルタの状態によって、動的に調整されてもよい。具体的には、フィルタが過小予測されている場合には、早く収束するように適応スピードを加速するために、ステップサイズμを、小さなデルタ量増加させてもよい。フィルタが過大予測されている場合には、この代わりに、トラッキングがよりよく安定するように適応スピードを減速させるために、適応ステップサイズμが、小さなデルタ量でそれぞれ引き下げられてもよい。

時間領域表現ｅ（ｔ）ｘ（ｔ）は、乗算である。この計算は、以下のように周波数領域において実装されてもよい。初めに、ｅ（ｔ）、ｘ（ｔ）、およびｈ（ｎ）は、時間領域から周波数領域に、例えば高速フーリエ変換（ＦＦＴ）によって変換されてもよい。
Ｅ（ｋ）＝ｆｆｔ（ｅ（ｔ））
Ｘ（ｋ）＝ｆｆｔ（ｘ（ｔ））
Ｈ（ｋ）＝ｆｆｔ（ｈ（ｎ））

実際の周波数領域におけるＬＭＳ更新アルゴリズムは、以下のようになる。
Ｈ（ｋ）＝Ｈ（ｋ）＋（μ^＊ｃｏｎｊ（Ｘ（ｋ））．^＊Ｅ（ｋ））／（Δ＋Ｘ（ｋ）^＊ｃｏｎｊ（Ｘ（ｋ））
ここで、μはフィルタ適応ステップサイズであり、動的である。
ｃｏｎｊ（ａ）は、複素数ａの複素共役を示す。
^＊は、複素乗算（ｃｏｍｐｌｅｘｍｕｌｔｉｐｌｉｃａｔｉｏｎ）を示す。
そして、Δは、分母が数量的に不安定になるのを防ぐレギュレータ（ｒｅｇｕｌａｔｏｒ）である。

上の方程式において、「ｃｏｎｊ（Ｘ（ｋ））．^＊Ｅ（ｋ）」は、「ｅ（ｔ）ｘ（ｔ）」タスクを実行する。分母において、「Ｘ（ｋ）^＊ｃｏｎｊ（Ｘ（ｋ））」は、安定性を高める目的で正規化する役割を果たす。

音声アクティブ化された検出ＶＡＤは、更新アルゴリズム１２４を調整して、リモート信号ｘ（ｔ）が存在するときに（例えば所定の閾値以上であるならば）、可変フィルタ１２２が、マイクロフォン信号ｄ（ｔ）のみを適応的にフィルタリング処理するようにしてもよい。図１Ｂに示される音声アクティブ化された検出（ダブルトーク検出と呼ばれることもある）を用いる適応フィルタは、比較的ゆっくりと適応するフィルタである。しかし、このフィルタはまた、擬陽性をほとんど生じないという点において、非常に正確である。フィルタ１２０に対する相補適応フィルタは、例えば、比較的早く適応するが、しばしば擬陽性を生じる傾向があるフィルタであるかもしれない。

一例として、図１Ｃは、図１Ｂのフィルタ１２０に対して相補的な適応フィルタ１３０を示す。適応フィルタ１３０は、フィルタ係数ｗ_ｔ２と更新アルゴリズム１３４（例えば上述のＬＭＳ更新アルゴリズム）によって特徴づけられる可変フィルタを含む。フィルタ１３２は、スピーカエコー信号ｘ_１（ｔ）を望ましい信号として予測しようと試みる。差分ユニット１３６は、フィルタリング処理された信号ｄ’（ｔ）をマイクロフォン信号ｄ（ｔ）から差し引いて、ローカルスピーチ信号ｓ（ｔ）を予測する予測信号ｅ_２（ｔ）を提供する。フィルタリング処理された信号ｄ’（ｔ）をリモート信号ｘ（ｔ）から差し引いて、誤差信号ｅ（ｔ）を発生させてもよい。誤差信号ｅ（ｔ）はフィルタ係数ｗ_ｔ２を調整するために更新アルゴリズム１３４によって用いられる。フィルタ１３０において相互相関解析ＣＣＡは、可変フィルタ１３２が、予測信号ｅ_２（ｔ）とスピーカエコー信号ｘ（ｔ）との間の相互相関を低減させようとするように、更新アルゴリズム１３４を調整する。

ｅ_２（ｔ）とｘ（ｔ）が非常に強く相関しているとき、フィルタリング処理は過小予測されているといわれ、更新アルゴリズム１３４は、Δｗ_ｔ２を増加させるように調整される。ｅ_２（ｔ）とｘ（ｔ）との間の相互相関が閾値未満であるとき、フィルタリング処理は過大予測されているといわれ、更新アルゴリズム１３４は、Δｗ_ｔ２を減少させるように調整される。

図１Ｃに示されるタイプの相互相関解析（クロススペクトラム解析ともいわれる）を用いる適応フィルタは、比較的速くフィルタを適応させる。しかし、このフィルタはまた、しばしば擬陽性を生じるという点において、不安定である。したがって、フィルタ１２０とフィルタ１３０は、相補フィルタの例となる。

再び図１Ａを参照する。インテグレータ１０６は、第１適応フィルタＥＣ（１）と第２適応フィルタＥＣ（２）に接続される。インテグレータ１０６は、第１および第２適応フィルタのそれぞれの出力ｅ_１（ｔ）、ｅ_２（ｔ）から、最小エコー出力ｅ_３（ｔ）を決定するように構成されている。最小エコー出力ｅ_３（ｔ）は、ｅ_１（ｔ）とｅ_２（ｔ）のいずれかであり、エネルギがより小さく、スピーカ信号ｘ（ｔ）との相関がより小さい方である。ｅ_１（ｔ）とｅ_２（ｔ）のうちの一方のエネルギの方がより小さいが、ｘ（ｔ）との相関は、他方がより小さい場合には、相関がより小さい方を最小エコー出力ｅ_３（ｔ）として用いる。例えば、フィルタのうちの一が過大予測されている（すなわち目標音声をキャンセルしがちであるためにエネルギ出力が小さい）とき、エネルギにかかわらず相関が小さいほうがよい。最小エネルギは、Ｅ｛ｅ_１（ｔ）｝とＥ｛ｅ_２（ｔ）｝との最小値を決定することにより決定されてもよい。ここで、Ｅ｛｝はカッコ内の量の期待値を決定する演算を示す。再び図２Ａ−２Ｂを参照する。ステップ２０６において、ｅ_１（ｔ）とｅ_２（ｔ）のどちらがスピーカ信号ｘ_１（ｔ）との相互相関が小さいか決定するために、ｅ_１（ｔ）とｅ_２（ｔ）について相互相関解析が実行されてもよい。相互相関解析は、下記の式５と式６の最小値を決定するステップを含んでもよい。
（式５）

（式６）

ここで、式７の演算子
（式７）

は、例えば、上で定義されたように演算子の両側の量について、その間の相互相関をとる演算を表現する。最小エコー出力ｅ_３（ｔ）は、マイクロフォン１０４のフィルタリング処理された出力として用いられてもよい。

いくつかの状況においては、フィルタＥＣ（１）、ＥＣ（２）のうちの一が、ローカル信号を過度にフィルタリング処理するかもしれない。そのような状況においては、そのフィルタは「発散した」といわれる。これは、特にＥＣ（２）が、例えば図１Ｃに示されるようなタイプの相互相関フィルタであるときに実際に起こりうる。この可能性に対処するために、ステップ２０８においてＥＣ（２）が発散するかどうか、決定される。一例としてインテグレータ１０６は、第２適応エコーキャンセレーションフィルタが、過度にフィルタリング処理することにより、ローカル信号ｓ（ｔ）を除去していないか、決定するように構成されてもよい。これはｅ_２（ｔ）とスピーカエコー信号ｘ_１（ｔ）との間の相互相関の期待値を調べることにより実行することができる。すなわち、式８で表される。
（式８）

典型的には、式９が成り立つ。
（式９）

しかしながら、式１０が、ある閾値（例えば約０．２）未満であるときには、ＥＣ（２）が過度にフィルタリング処理することにより、ローカル信号ｓ（ｔ）が除去されている。
（式１０）

このような状況において、インテグレータ１０６は、ｅ_１（ｔ）を最小エコー出力ｅ_３（ｔ）として選択してもよい。適応フィルタリング処理を安定させるために、ステップ２１２において、ＥＣ（２）のフィルタ係数ｗ_ｔ２が、ＥＣ（１）のフィルタ係数ｗ_ｔ１として設定されてもよい。そしてステップ２１５において、ＥＣ（２）は、０、または、以前のうまく適応したことが知られている状態に、再初期化されてもよい。例えば、フィルタ係数は、規則的な間隔で（例えば約１０秒から２０秒ごとに）保存されて、ＥＣ（２）が発散したときにこれを再初期化するために用いられてもよい。

通常、相互相関フィルタが発散しないときに、そのフィルタはうまく適応していると言われる。ＥＣ（２）とＥＣ（１）は相補的なフィルタリング特性を有するため、ＥＣ（２）がうまく適応しているとき、ＥＣ（１）は過小予測されていることになる。適応フィルタリング処理を安定化させるため、ステップ２１４に示されるように、第１適応フィルタＥＣ（１）のフィルタ係数ｗ_ｔ１が、第２適応フィルタＥＣ（２）のフィルタ係数ｗ_ｔ２と交換される。フィルタをソフトウェアに実装する際には、係数ｗ_ｔ１、ｗ_ｔ２は、メモリにおいてポインタによって特定される位置に格納されてもよい。係数ｗ_ｔ１、ｗ_ｔ２は、例えば、ｗ_ｔ１およびｗ_ｔ２へのポインタを切り替えることによって、交換されてもよい。

最小エコー出力ｅ_３（ｔ）は、いくばくかの、スピーカ信号ｘ（ｔ）からの残差エコーｘｅ（ｔ）を含むかもしれない。装置１００は、オプションで、インテグレータ１０６に接続された第１および第２エコー残差予測部ＥＲ（１）とＥＲ（２）、および、エコー残差予測部ＥＲ（１）とＥＲ（２）に接続された残差エコーキャンセレーションモジュール１０８を含んでもよい。

第１エコー残差予測部ＥＲ（１）は、最小エコー出力ｅ_３（ｔ）とスピーカ信号ｘ（ｔ）との間の相互相関解析を含む第１残差エコー予測ＥＲ_１（ｔ）を生成するように構成されてもよい。図２Ｂのステップ２２２に示されるように、最小エコー出力ｅ_３（ｔ）とスピーカ信号ｘ（ｔ）との間の相互相関解析から、例えば、式１１の値を決定することにより、第１残差エコー予測ＥＲ_１（ｔ）が決定されてもよい。
（式１１）

ここで、式１１の値は、ｅ_３（ｔ）が式１２の相互相関の期待値を最小化するときに、真である。
（式１２）

この最小化問題は、本質的に、適応により実現されるであろう。例えば、エコー残差予測部ＥＲ（１）が、初期状態においては単位フィルタ（すべて値”１”）であると仮定されたい。すべてのフレームにおいて、サーチサーフェス（ｓｅａｒｃｈｓｕｒｐｈａｃｅ）の接線方向（ｔａｎｇｅｎｔｄｉｒｅｃｔｉｏｎ）に向かうにつれて、第１残差エコー予測ＥＲ_１（ｔ）は、増加するかもしれない。これは、ニュートンソルバ（Ｎｅｗｔｏｎｓｏｌｖｅｒ）アルゴリズムによって実現されてもよい。第２残差エコー予測部ＥＲ（２）は、最小エコー出力ｅ_３（ｔ）とスピーカ信号ｘ（ｔ）との間のエコー距離ミスマッチ（ｅｃｈｏ−ｄｉｓｔａｎｃｅｍｉｓｍａｔｃｈ）を含む第２残差エコー予測ＥＲ_２（ｔ）を決定するように構成されてもよい。図２Ｂのステップ２２４に示されるように、最小エコー出力ｅ_３（ｔ）とスピーカ信号ｘ（ｔ）との間のエコー距離ミスマッチから、例えば、ａｒｇｍｉｎ（Ｅ｛（ｅ_３（ｔ））^２／（ｘ（ｔ））^２｝）を決定することにより、第２残差エコー予測ＥＲ_２（ｔ）が決定されてもよい。ここで、ｅ_３（ｔ）が商（ｅ_３（ｔ））^２／（ｘ（ｔ））^２の期待値を最小化するとき、ａｒｇｍｉｎ（Ｅ｛（ｅ_３（ｔ））^２／（ｘ（ｔ））^２｝）は真である。ここでも再び、最小化は、ニュートンソルバアルゴリズムを用いて実現されてもよい。

残差エコーキャンセレーションモジュール１０８は、二つの残差エコー予測ＥＲ_１（ｔ）とＥＲ_２（ｔ）の最小残差エコー予測ＥＲ_３（ｔ）を決定して、その最小値ＥＲ_３（ｔ）に従ってフィルタリング処理された信号ｅ_３（ｔ）を調整してもよい。一例として、最小残差エコー予測ＥＲ_３（ｔ）は、ＥＲ_１（ｔ）とＥＲ_２（ｔ）のうち、エネルギが最小であり、ｘ（ｔ）に対する相関が最小であるものであってもよい。例えば図２Ｂのステップ２２６に示されるように、ＥＲ_１（ｔ）とＥＲ_２（ｔ）のうちの最小値に設定され、ステップ２２８に示されるように、その結果であるＥＲ_３の値がｅ_３（ｔ）から差しひかれて、残差エコーキャンセルフィルタリング処理された信号ｅ_３’（ｔ）が生成される。ＥＲ_３がＥＲ_１（ｔ）に等しいならば、残差エコーｘｅ（ｔ）は、ローカルスピーチ信号ｓ（ｔ）の強度が０でないときに、最小限に除去される。ＥＲ_３（ｔ）がＥＲ_２（ｔ）に等しいならば、残差エコーｘｅ（ｔ）は、遠端のエコーｘ（ｔ）のみが存在するとき（遠端発話のみの期間）最大限に除去される。

一例として、２次のノルムＮ（１）とＮ（２）が、二つのエコー残差予測部ＥＲ（１）とＥＲ（２）のためにそれぞれ計算されてもよい。
Ｎ（１）＝‖ＥＲ（１）‖
Ｎ（２）＝‖ＥＲ（２）‖

ダブルトーク状況下においては、より小さいノルムを有するエコー残差予測部が、エコー残差ノイズを取り除くために、ｅ_３（ｔ）に適用されてもよい。シングルトーク状況下においては、より大きいノルムを有するエコー残差予測部が、エコー残差ノイズを取り除くために、ｅ_３（ｔ）に適用されてもよい。

エコーキャンセレーションにおいては、フィルタリング処理された信号ｅ_３（ｔ）、または、残差エコーキャンセルフィルタリング処理された信号ｅ_３’（ｔ）から、ノイズｎ（ｔ）が除去されてもよい。ただし、このようなノイズキャンセレーションは、望ましくないかもしれない。なぜならば、信号ｅ_３（ｔ）またはｅ_３’（ｔ）のリモート受信者は、ノイズがない状態を、マイクロフォン１０４からのすべての通信が失われた徴候であると解釈するかもしれないからである。この問題に対処するために、装置１００はオプションで、ノイズキャンセラユニット１１０を含んでもよい。ノイズキャンセレーションモジュール１１０は、例えば図２Ａ−２Ｂのステップ２１７に示されるように、マイクロフォン信号ｄ（ｔ）から予測ノイズ信号ｎ’（ｔ）を計算するように構成されてもよい。予測ノイズ信号ｎ’（ｔ）は、減衰係数αで減衰されて、低減されたノイズ信号ｎ”（ｔ）＝αｎ’（ｔ）を形成してもよい。減衰されたノイズ信号ｎ”（ｔ）は、図２Ａのステップ２１８に示されるようにｅ_３（ｔ）に加算されることにより、または、図２Ｂのステップ２３０に示されるようにｅ_３’（ｔ）に加算されることにより、マイクロフォン出力信号ｓ’（ｔ）に組み込まれてもよい。

本発明の実施形態においては、図１Ａ−１Ｃに関連して説明された装置、および図２Ａ−２Ｃに関連して説明された方法は、プログラマブルなプロセッサとメモリを有するシステム上のソフトウェアとして実装されてもよい。

本発明の実施形態によると、図１および図２Ａ−Ｂに関連して説明されたタイプの、前述のように動作する信号処理方法は、図３に示されるように、信号処理装置３００の一部として実装されてもよい。システム３００は、プロセッサ３０１とメモリ３０２（例えば、ＲＡＭ、ＤＲＡＭ、ＲＯＭなど）を含んでもよい。信号処理装置３００はさらに、並行処理が実装される場合には、複数のプロセッサ３０１を有してもよい。メモリ３０２は前述のように構成されたデータおよびコードを含む。具体的には、メモリ３０２には、プログラムコード３０４と信号データ３０６が格納されてもよい。コード３０４は、上述の、エコーキャンセリング適応フィルタＥＣ（１）、ＥＲ（２）、インテグレータ１０６、エコー残差フィルタＥＲ（１）、ＥＲ（２）、残差エコーキャンセレーションモジュール１０８、ノイズキャンセラ１１０を実装してもよい。信号データ３０６は、マイクロフォン信号ｄ（ｔ）、かつ／または、スピーカ信号ｘ（ｔ）のデジタル表現を含んでもよい。

装置３００はまた、入出力（Ｉ／Ｏ）エレメント３１１、電源（Ｐ／Ｓ）３１２、クロック（ＣＬＫ）３１３、キャッシュメモリ３１４といった、周知のサポート機能３１０を含んでもよい。装置３００は、プログラム、かつ／または、データを格納するためのディスクドライブ、ＣＤ−ＲＯＭドライブ、テープドライブといった大容量記憶装置３１５をオプションで含んでもよい。コントローラは、また、オプションで、コントローラ３００とユーザの間の対話を手助けするためのディスプレイユニット３１６と、ユーザインタフェイスユニット３１８を含んでもよい。ディスプレイユニット３１６は、ブラウン管型でもよく、またフラットパネルスクリーンでもよい。これらはテキスト、数値、グラフィックシンボル、画像を表示する。ユーザインタフェイス３１８は、キーボード、マウス、ジョイスティック、ライトペン（ｌｉｇｈｔｐｅｎ）やそのほかの装置を含んでもよい。さらに、スピーカ３２２とマイクロフォン３２４は、入出力構成エレメント３１１を介してプロセッサ３０１に接続されていてもよい。プロセッサ３０１、メモリ３０２、そしてシステム３００のほかの構成要素は、図３に示されるようにシステムバス３２０を介して互いに信号（例えば、コード・インストラクションとデータ）を交換してもよい。

ここで用いられるように、入出力という言葉は、一般的に、システム３００への、またはシステム３００からの、および周辺装置への、または周辺装置からのデータを転送する任意のプログラム、オペレーション、または装置を指す。すべてのデータ転送が、一の装置からの出力であり、他の一の装置への入力であると見なすことができるであろう。周辺装置は、キーボードやマウスなどの入力のみの装置や、プリンタなどの出力のみの装置、そして上書き可能ＣＤ−ＲＯＭなどの入力および出力装置として動作する装置を含む。周辺装置という言葉には、マウス、キーボード、プリンタ、モニタ、マイクロフォン、ゲームコントローラ、カメラ、外部Ｚｉｐドライブ、スキャナなどの外部装置と、ＣＤ−ＲＯＭドライブ、ＣＤ−Ｒドライブ、内部モデムなどの内部装置、および、フラッシュメモリ用リーダ／ライタ、ハードドライブなどのそのほかの周辺装置を含む。

プロセッサ３０１は、信号データ３０６およびメモリ３０２によって格納され、獲得されプロセッサモジュール３０１によって実行されるプログラム３０４のプログラムコード命令に応えて、信号データ３０６にデジタル信号処理を実行する。プログラム３０４のコードの一部はアセンブリ、Ｃ＋＋、Ｊａｖａ（登録商標）またはそのほかの多くの言語のような様々な異なるプログラミング言語のうちの一であってよい。プロセッサモジュール３０１は、プログラムコード３０４のようなプログラムを実行するときには特別な目的のコンピュータとなる汎用コンピュータを構成する。プログラムコード３０４は、ここでは、汎用コンピューター上で実行されるソフトウェアとして実装されるものとして説明されたが、これに代えて、アプリケーション特定集積回路（ＡＳＩＣ）のようなハードウェアを用いて、タスク管理方法が実現されることは当業者には理解されるであろう。そのように、本発明の実施形態は、全体的にまたは部分的に、ソフトウェア、ハードウェア、またはこれらの組合せによって実現されることは理解されるであろう。

ある実施形態においては、とりわけプログラムコード３０４は、図２Ａの方法２００や図２Ｂの方法２２０に共通な特徴を有する方法を実現するためのプロセッサ可読命令のセットを含んでもよい。プログラムコード３０４は、一般的に、以下のような命令を含んでもよい。すなわち、プロセッサ３０１に、相補的エコーキャンセレーション特性を有する第１および第２適応フィルタによって並行にマイクロフォン信号ｄ（ｔ）をフィルタリング処理させ、エコーキャンセル処理された出力ｅ_１（ｔ）とｅ_２（ｔ）を生成させる命令、ｅ_１（ｔ）とｅ_２（ｔ）から最小エコー出力ｅ_３（ｔ）を決定する命令、最小エコー出力を用いてマイクロフォン出力を生成する命令である。

本発明の実施形態によると、相互相関解析のみ、または音声アクティビティ検出（ダブルトーク検出）のみで可能な、よりロバストでありながら正確なエコーキャンセレーションが可能となる。このような改良されたエコーキャンセレーションによると、スピーカエコーｘ（ｔ）に大部分を占められているマイクロフォン信号ｄ（ｔ）からローカルスピーチをｓ（ｔ）を抽出することが可能となる。

本発明の実施形態は、ここで提示されたように用いられてもよく、また他のユーザ入力メカニズムと共に用いられてもよい。方位角方向や音声のボリュームを追跡したり測定したりするメカニズム、かつ／または、能動的または受動的にオブジェクトの位置を追跡するメカニズム、マシン・ビジョンを用いるメカニズム、これらの組み合わせなどである。追跡されるオブジェクトは、システムへのフィードバックを操作する補助的なコントロール装置やボタンを含んでもよい。そのようなフィードバックには、光源からの光の放射、音質の歪曲手段、その他の適切な送信機、変調器、コントロール装置、ボタン、圧力パッドなどが含まれてもよいが、これらに制限されるものではない。それは、同じ符号化状態の転送や変調に影響を及ぼしてもよく、かつ／または、システムによって追跡されている装置への命令や、その装置からの命令を転送してもよい。そのような装置は、本発明の実施形態に関連して用いられるシステムの一部であったり、またはシステムと相互作用したり、またはシステムに影響を与えたりする。

上記は、本発明の好ましい実施形態の完全な記述であるが、他の様々な変形、変更、等価物への置換が可能である。それゆえ、本発明の範囲は、上記の記述によって決定されるのではなく、以下の請求項によって決定されるべきであり、その完全な等価物もその範囲に含まれる。ここで記述された特徴は、好ましいものであるか否かに関わらず、ここで述べたいずれの特徴と組み合わされてもよい。以下の請求項においては、特に明示的に断らない限りは、各要素の数量は一以上である。ここに、添付される請求項は、所与の請求項において、「〜ための手段」との語句を用いて明示的に示される場合の他は、ミーンズ・プラス・ファンクションの制限を含むと解されてはならない。

Claims

スピーカ信号ｘ（ｔ）を受け取るスピーカと、ローカル信号ｓ（ｔ）とエコー信号ｘ_１（ｔ）とを含むマイクロフォン信号ｄ（ｔ）を受け取るマイクロフォンとを有するシステムにおけるエコーキャンセレーション方法であって、エコー信号ｘ_１（ｔ）は、スピーカ信号ｘ（ｔ）に依存しており、
前記マイクロフォン信号ｄ（ｔ）を、第２適応フィルタに対して相補的なキャンセレーション特性を有する第１適応フィルタと、前記第２適応フィルタとで並行にフィルタリング処理するステップとを備え、
前記第１適応フィルタは、有限インパルス応答フィルタを含み、
前記第２適応フィルタは、可変フィルタを含み、
前記第１適応フィルタおよび前記第２適応フィルタは、係数を更新するための周波数領域正規化最小２乗適応フィルタを含み、
前記第１および第２適応フィルタのフィルタリング特性は、該第１および第２適応フィルタのうちの一方がその入力にうまく適応していないときに、他方はその入力にうまく適応するような特性であり、
前記第１および第２適応フィルタのうちの一方がうまく適応するのは、そのフィルタ関数ｈ（ｎ）が安定しており、真のエコーパスフィルタに収束し、過大予測も過小予測もされていないときであり、
本方法はさらに、
前記第１適応フィルタからの出力ｅ_１（ｔ）と、前記第２適応フィルタからの出力ｅ_２（ｔ）とから、前記スピーカ信号ｘ（ｔ）との相関がより小さい最小エコー出力ｅ_３（ｔ）を決定するステップと、
前記最小エコー出力ｅ_３（ｔ）を用いてマイクロフォン出力を生成するステップと、
を備える方法。
前記マイクロフォン信号ｄ（ｔ）を前記第１適応フィルタと前記第２適応フィルタとで並行にフィルタリング処理するステップは、
ｘ（ｔ）の強度が閾値を超えた場合に、前記第１適応フィルタのフィルタ係数の組を適応させるステップと、
前記第２適応フィルタで、ｅ_２（ｔ）とｘ（ｔ）の相互相関を解析するステップを含む請求項１に記載の方法。
前記最小エコー出力ｅ_３（ｔ）を決定するステップは、前記第２適応フィルタが前記ローカル信号ｓ（ｔ）をフィルタリング処理により過度に除去していないか決定するステップと、
前記第２適応フィルタが前記ローカル信号ｓ（ｔ）をフィルタリング処理により過度に除去している場合に、前記第１適応フィルタの出力を前記最小エコー出力として用いるステップとを含む請求項２に記載の方法。
前記第２適応フィルタが前記ローカル信号ｓ（ｔ）をフィルタリング処理により過度に除去していないか決定するステップは、
前記第２適応フィルタの出力ｅ_２（ｔ）と、前記スピーカ信号ｘ（ｔ）との間の相互相関をとるステップと、
前記第２適応フィルタの出力ｅ_２（ｔ）と前記スピーカ信号ｘ（ｔ）との間の相互相関の期待値が所定の閾値未満であるか判定するステップと、
前記相互相関の期待値が前記閾値未満である場合に、前記第２適応フィルタが前記ローカル信号ｓ（ｔ）をフィルタリング処理により過度に除去していることを決定するステップとを含む請求項３に記載の方法。
前記第２適応フィルタが前記ローカル信号ｓ（ｔ）をフィルタリング処理により過度に除去している場合に、前記第２適応フィルタのフィルタ係数の組を前記第１エコーキャンセレーションフィルタのフィルタ係数の組で置き換えるステップをさらに含む請求項３に記載の方法。
前記最小エコー出力ｅ_３（ｔ）を用いて前記マイクロフォン出力を生成するステップは、前記最小エコー出力ｅ_３（ｔ）と前記スピーカ信号ｘ（ｔ）との間の相互相関の解析を含む第１残差予測ＥＲ_１（ｔ）を並行に決定するステップと、前記最小エコー出力ｅ_３（ｔ）と前記スピーカ信号ｘ（ｔ）との間のエコー距離ミスマッチを含む第２残差予測ＥＲ_２（ｔ）を決定するステップとを含む請求項１に記載の方法。
前記相互相関解析は、ｅ_３（ｔ）とｘ（ｔ）との間の相互相関の期待値を計算するステップを含む請求項６に記載の方法。
前記エコー距離ミスマッチは、｛ｅ_３ ^２（ｔ）／ｘ^２（ｔ）｝の期待値を計算するステップを含む請求項６に記載の方法。
前記第１残差予測ＥＲ_１（ｔ）を決定するステップは、第１残差予測部ＥＲ（１）の２次ノルムＮ（１）を計算するステップを含み、
前記第２残差予測ＥＲ_２（ｔ）を決定するステップは、第２残差予測部ＥＲ（２）の２次ノルムＮ（２）を計算するステップを含み、
本方法はさらに、ダブルトークの間、ｅ_３（ｔ）に、対応するノルムＮ（１）またはＮ（２）がより小さい前記エコー残差予測部ＥＲ（１）またはＥＲ（２）を適用するステップを含む請求項６に記載の方法。
前記第１残差予測ＥＲ_１（ｔ）を決定するステップは、第１残差予測部ＥＲ（１）の２次ノルムＮ（１）を計算するステップを含み、
前記第２残差予測ＥＲ_２（ｔ）を決定するステップは、第２残差予測部ＥＲ（２）の２次ノルムＮ（２）を計算するステップを含み、
本方法はさらに、シングルトークの間、ｅ_３（ｔ）に、対応するノルムＮ（１）またはＮ（２）がより大きい前記エコー残差予測部ＥＲ（１）またはＥＲ（２）を適用するステップを含む請求項６に記載の方法。
前記最小エコー出力ｅ_３（ｔ）を用いてマイクロフォン出力を生成するステップはさらに、最小残差エコー予測ＥＲ_３（ｔ）を決定するステップを含み、
前記最小残差エコー予測ＥＲ_３（ｔ）は、ＥＲ_１（ｔ）とＥＲ_２（ｔ）のうちの一で、エネルギが最小でありｘ（ｔ）との相関が最小である請求項６に記載の方法。
前記最小エコー出力ｅ_３（ｔ）からＥＲ_３（ｔ）を選択的に除去するステップをさらに含む請求項１１に記載の方法。
前記マイクロフォン出力からＥＲ_３（ｔ）を選択的に除去するステップは、遠端通話のみの期間に、前記マイクロフォン出力からＥＲ_３（ｔ）を最大限に除去するステップを含む請求項１２に記載の方法。
前記マイクロフォン出力からＥＲ_３（ｔ）を選択的に除去するステップは、前記ローカル信号ｓ（ｔ）の強度が０でないときに、前記マイクロフォン出力からＥＲ_３（ｔ）を最小限に除去するステップを含む請求項１２に記載の方法。
前記マイクロフォン信号ｄ（ｔ）から予測ノイズ信号ｎ’（ｔ）を計算するステップと、
前記予測ノイズ信号ｎ’（ｔ）のレベルを低減させて、低減ノイズ信号ｎ”（ｔ）を形成するステップと、
前記マイクロフォン出力信号に、前記低減ノイズ信号ｎ”（ｔ）を組み込むステップとをさらに含む請求項１に記載の方法。
スピーカとマイクロフォンを有するシステムにおいて用いられるエコーキャンセレーション装置であって、スピーカは、スピーカ信号ｘ（ｔ）を受けるように適合され、マイクロフォンは、ローカル信号ｓ（ｔ）とエコー信号ｘ_１（ｔ）とを含むマイクロフォン信号ｄ（ｔ）を受け取るように適合され、エコー信号ｘ_１（ｔ）は、スピーカ信号ｘ（ｔ）に依存しており、
本装置は、
前記スピーカと前記マイクロフォンに接続され、有限インパルス応答フィルタを含む第１適応フィルタと、
前記第１適応フィルタと並行に前記スピーカと前記マイクロフォンに接続され、可変フィルタを含む第２適応フィルタとを備え、
前記第１適応フィルタおよび前記第２適応フィルタは、係数を更新するための周波数領域正規化最小２乗適応フィルタを含み、
前記第２適応フィルタは、前記第１適応フィルタに対して相補的なエコーキャンセレーション特性を有し、
前記第１および第２適応フィルタのフィルタリング特性は、該第１および第２適応フィルタのうちの一方がその入力にうまく適応していないときに、他方はうまく適応するような特性であり、
前記第１および第２適応フィルタのうちの一方がうまく適応するのは、そのフィルタ関数ｈ（ｎ）が安定しており、真のエコーパスフィルタに収束し、過大予測も過小予測もされていないときであり、
本装置はさらに、
前記第１適応フィルタと前記第２適応フィルタに接続されたインテグレータとを備え、
前記インテグレータは、前記第１適応フィルタからの出力ｅ_１（ｔ）と、前記第２適応フィルタからの出力ｅ_２（ｔ）から、最小エコー出力ｅ_３（ｔ）を決定するように構成されており、
前記最小エコー出力ｅ_３（ｔ）と前記スピーカ信号ｘ（ｔ）との相関はより小さい装置。
前記インテグレータは、前記第２エコーキャンセレーションフィルタが前記ローカル信号ｓ（ｔ）をフィルタリング処理により過度に除去していないか決定するように構成され、前記第２適応フィルタが前記ローカル信号ｓ（ｔ）をフィルタリング処理により過度に除去している場合に、インテグレータは、最小エコー出力ｅ_３（ｔ）として前記出力ｅ_１（ｔ）を選択する請求項１６に記載の装置。
前記第１適応フィルタは、音声アクティビティ検出フィルタである請求項１６に記載の装置。
前記第２適応フィルタは、相互相関解析フィルタである請求項１６に記載の装置。
前記インテグレータに接続された第１エコー残差予測部ＥＲ（１）と、
前記インテグレータに接続された第２エコー残差予測部ＥＲ（２）とをさらに備える請求項１６に記載の装置。
前記第１エコー残差予測部ＥＲ（１）は、前記最小エコー出力ｅ_３（ｔ）と前記スピーカ信号ｘ（ｔ）との相互相関の解析を含む第１残差予測ＥＲ_１（ｔ）を生成するように構成され、
前記第２エコー残差予測部ＥＲ（２）は、前記最小エコー出力ｅ_３（ｔ）と前記スピーカ信号ｘ（ｔ）との間のエコー距離ミスマッチを含む第２残差予測ＥＲ_２（ｔ）を決定するように構成されている請求項２０に記載の装置。
前記相互相関解析は、ｅ_３（ｔ）とｘ（ｔ）との相互相関の期待値の計算を含む請求項２１に記載の装置。
前記エコー距離ミスマッチは、｛ｅ_３ ^２（ｔ）／ｘ^２（ｔ）｝の期待値の計算を含む請求項２１に記載の装置。
前記第１および第２エコー残差予測部に接続された残差エコーキャンセレーションモジュールをさらに備える装置であって、
前記残差エコーキャンセレーションモジュールは、
第１残差予測部ＥＲ（１）の２次ノルムＮ（１）を計算し、第２残差予測ＥＲ（２）の２次ノルムＮ（２）を計算するように構成され、
前記残差エコーキャンセレーションモジュールは、ダブルトークの間、対応するノルムＮ（１）またはＮ（２）がより小さい前記エコー残差予測部ＥＲ（１）またはＥＲ（２）を、ｅ_３（ｔ）に適用するように構成されている請求項２１に記載の装置。
前記第１および第２エコー残差予測部に接続された残差エコーキャンセレーションモジュールをさらに備える装置であって、
前記残差エコーキャンセレーションモジュールは、
第１残差予測部ＥＲ（１）の２次ノルムＮ（１）を計算し、第２残差予測ＥＲ（２）の２次ノルムＮ（２）を計算するように構成され、
前記残差エコーキャンセレーションモジュールは、シングルトークの間、対応するノルムＮ（１）またはＮ（２）がより大きい前記エコー残差予測部ＥＲ（１）またはＥＲ（２）を、ｅ_３（ｔ）に適用するように構成されている請求項２１に記載の装置。
前記第１および第２エコー残差予測部に接続された残差エコーキャンセレーションモジュールをさらに備える装置であって、
前記残差エコーキャンセレーションモジュールは、最小残差エコー予測ＥＲ_３（ｔ）を決定するように構成されており、
前記最小残差エコー予測ＥＲ_３（ｔ）は、ＥＲ_１（ｔ）とＥＲ_２（ｔ）のうちの一で、エネルギが最小でありｘ（ｔ）との相関が最小である請求項２１に記載の装置。
前記残差エコーキャンセレーションモジュールは、前記最小エコー出力ｅ_３（ｔ）からＥＲ_３（ｔ）を選択的に除去するように構成されている請求項２６に記載の装置。
前記残差エコーキャンセレーションモジュールは、遠端通話のみの期間に、前記マイクロフォン出力からＥＲ_３（ｔ）を最大限に除去するように構成されている請求項２７に記載の装置。
前記残差エコーキャンセレーションモジュールは、前記ローカル信号ｓ（ｔ）の強度が０でない場合に、前記マイクロフォン出力からＥＲ_３（ｔ）を最小限に除去するように構成されている請求項２７に記載の装置。
前記マイクロフォンに接続されたノイズキャンセレーションモジュールをさらに備え、前記ノイズキャンセレーションモジュールは、
マイクロフォン信号ｄ（ｔ）から予測ノイズ信号ｎ’（ｔ）を計算し、
予測ノイズ信号ｎ’（ｔ）レベルを減少させて、低減ノイズ信号ｎ”（ｔ）を形成し、
マイクロフォン出力信号に、その低減ノイズ信号ｎ”（ｔ）を取り入れるように構成されている請求項１６に記載の装置。
マイクロフォンと、
スピーカと、
前記マイクロフォンとスピーカとに接続されているプロセッサと、
前記プロセッサに接続されているメモリとを備える音響信号処理システムであって、
前記メモリは、
スピーカ信号ｘ（ｔ）を受け取るスピーカと、
ローカル信号ｓ（ｔ）と、前記スピーカ信号ｘ（ｔ）に依存するエコー信号ｘ_１（ｔ）とを含むマイクロフォン信号ｄ（ｔ）を受け取るマイクロフォンを有するシステムにおけるエコーキャンセレーション方法を実装するためのプロセッサ可読命令の組を格納し、
前記プロセッサ可読命令は、
前記マイクロフォン信号ｄ（ｔ）を、第２適応フィルタに対して相補的なキャンセレーション特性を有する第１適応フィルタと、前記第２適応フィルタとで並行にフィルタリング処理するための命令を含み、
前記第１適応フィルタは、有限インパルス応答フィルタを含み、
前記第２適応フィルタは、可変フィルタを含み、
前記第１適応フィルタおよび前記第２適応フィルタは、係数を更新するための周波数領域正規化最小２乗適応フィルタを含み、
前記第１および第２適応フィルタのフィルタリング特性は、該第１および第２適応フィルタのうちの一方がその入力にうまく適応していないときに、他方はうまく適応するような特性であり、
前記第１および第２適応フィルタのうちの一方がうまく適応するのは、そのフィルタ関数ｈ（ｎ）が安定しており、真のエコーパスフィルタに収束し、過大予測も過小予測もされていないときであり、
前記プロセッサ可読命令はさらに、
前記第１適応フィルタからの出力ｅ_１（ｔ）と前記第２適応フィルタからの出力ｅ_２（ｔ）から、スピーカ信号ｘ（ｔ）との相関がより少ない最小エコー出力ｅ_３（ｔ）を決定するための命令と、
前記最小エコー出力ｅ_３（ｔ）を用いて、マイクロフォン出力を生成するための命令と、
を含む音響信号処理システム。
プロセッサに接続されているメモリを備えるプロセッサ可読媒体であって、
前記メモリは、
スピーカ信号ｘ（ｔ）を受け取るスピーカと、
ローカル信号ｓ（ｔ）と、スピーカ信号ｘ（ｔ）に依存するエコー信号ｘ_１（ｔ）とを含むマイクロフォン信号ｄ（ｔ）を受け取るマイクロフォンを有するシステムにおけるエコーキャンセレーション方法を実装するためのプロセッサ可読命令の組を格納し、
前記プロセッサ可読命令は、
前記マイクロフォン信号ｄ（ｔ）を、第２適応フィルタに対して相補的なキャンセレーション特性を有する第１適応フィルタと、前記第２適応フィルタとで並行にフィルタリング処理するための命令を含み、
前記第１適応フィルタは、有限インパルス応答フィルタを含み、
前記第２適応フィルタは、可変フィルタを含み、
前記第１適応フィルタおよび前記第２適応フィルタは、係数を更新するための周波数領域正規化最小２乗適応フィルタを含み、
前記第１および第２適応フィルタのフィルタリング特性は、該第１および第２適応フィルタのうちの一方がその入力にうまく適応していないときに、他方はうまく適応するような特性であり、
前記第１および第２適応フィルタのうちの一方がうまく適応するのは、そのフィルタ関数ｈ（ｎ）が安定しており、真のエコーパスフィルタに収束し、過大予測も過小予測もされていないときであり、
前記プロセッサ可読命令はさらに、
前記第１適応フィルタからの出力ｅ_１（ｔ）と前記第２適応フィルタからの出力ｅ_２（ｔ）から、スピーカ信号ｘ（ｔ）との相関がより小さい最小エコー出力ｅ_３（ｔ）を決定するための命令と、
前記最小エコー出力ｅ_３（ｔ）を用いてマイクロフォン出力を生成するための命令と、
を含む媒体。