JP7003153B2

JP7003153B2 - マルチチャネル干渉除去のための装置および方法

Info

Publication number: JP7003153B2
Application number: JP2019556955A
Authority: JP
Inventors: バレロ，マリアルイス; ハーベツ，エマニュエル; アンニーバレ，パオロ; ロンバール，アンソニー; ヴィルド，モーリッツ; ルータ，マルセル
Original assignee: フラウンホーファー－ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2017-04-20
Filing date: 2018-04-19
Publication date: 2022-02-04
Anticipated expiration: 2038-04-19
Also published as: KR20200015490A; EP3613220A1; EP3613220B1; ES2950574T3; CA3060916C; US20200051581A1; CA3060916A1; EP3393140A1; CN110915233A; CN110915233B; BR112019021967A2; RU2735131C1; WO2018193028A1; KR102369613B1; JP2020519070A

Description

本発明は、オーディオ信号処理に関し、特に、マルチチャネル干渉除去の複雑度を低減させる、低複雑度のマルチチャネル干渉除去のための装置および方法に関する。

最新のハンズフリー通信デバイスは、例えば、音声強調や、部屋形状推測や、自動音声認識のために複数のマイクロフォン信号を用いる。
これらのデバイスは、音声起動アシスタント、スマートホームデバイスおよびスマートスピーカから、スマートフォン、タブレット、またはパーソナルコンピュータにまで及ぶ。
音声起動アシスタント、スマートフォン、タブレット、パーソナルコンピュータなどの多くのスマートデバイスにはスピーカが装備されている。
そのようなデバイス、例えば、少なくとも１つのスピーカも組み込まれたデバイスを考慮して、電気音響結合を低減させるために音響干渉キャンセラが各マイクロフォンの出力に適用される。

音響エコー除去（ａｃｏｕｓｔｉｃｅｃｈｏｃａｎｃｅｌｌａｔｉｏｎ（ＡＥＣ））（［１］などを参照）は、ハンズフリー通信のセットアップにおいて（１つまたは複数の）スピーカと（１つまたは複数の）マイクロフォンとの間の電気音響結合を低減させるために最も広く使用されている技術である。
そのようなセットアップが与えられた場合、マイクロフォンは、所望の近端音声以外に、音響エコーおよびバックグラウンドノイズを取得する。
ＡＥＣは、適応フィルタリング技術（［２］などを参照）を使用して、（１つまたは複数の）スピーカと（１つまたは複数の）マイクロフォンとの間の音響インパルス応答（ａｃｏｕｓｔｉｃｉｍｐｕｌｓｅｒｅｓｐｏｎｓｅ（ＡＩＲ））を推定する。
続いて、利用可能なスピーカ信号を推定ＡＩＲでフィルタリングすることにより音響エコー推定値が計算される。
最後に、推定音響エコーがマイクロフォン信号から減算されて、音響エコーが除去される。

音響エコー除去（ＡＥＣ）の特定の事例では、スピーカによって再生される遠端話者信号により電気音響結合が引き起こされる。
ただし、前述のハンズフリー通信デバイスでは、電気音響結合はデバイス自体のフィードバック、音楽、または音声アシスタントにより引き起こされることもある。
スピーカとマイクロフォンとの間の電気音響結合を低減させる最も簡単な解決策は、各マイクロフォンの出力に音響干渉キャンセラを配置することである（［３］などを参照）。

相対伝達関数は、一般に音響伝達関数（ａｃｏｕｓｔｉｃｔｒａｎｓｆｅｒｆｕｎｃｔｉｏｎ（ＡＴＦ））として表される周波数領域ＡＩＲ間の関係をモデル化する。
ＲＴＦ（ＲＴＦは相対伝達関数を意味する）は、一般にマルチマイクロフォン音声強調の状況で使用される（［５］、［８］、［１２］などを参照）。
さらに関連適用例を考察すると、プライマリチャネルの残留エコーのパワースペクトル密度、例えば、除去後に残留する音響エコー成分を推定するために［１３］、［１４］において残留エコー相対伝達関数が用いられた。
推定プロセスを強化するために、第２のマイクロフォン信号が使用される。
［１３］、［１４］の提案の方法は、除去後のプライマリ信号とセカンダリマイクロフォン信号との関係を推定し、プライマリＡＩＲの推定の誤差とセカンダリＡＩＲとの関係を提供する。
最後に、残留エコー相対伝達関数を使用して、プライマリ残留音響エコーのパワースペクトル密度が計算される。

マイクロフォンアレイ処理の具体的な適用を考慮して、音声強化アルゴリズム全体の複雑度低減、例えば、ＡＥＣと組み合わせた空間フィルタリングを目的としたいくつかの方法が提示されている。
例えば、空間フィルタの出力に配置された単一のＡＥＣの使用が［３］、［１５］で最初に研究された。
音響エコー除去とマイクロフォンアレイ処理の統合を目的としたいくつかの代替方法が［８］、［１６］、［１８］で提案されている。

マルチマイクロフォン音響干渉キャンセラの複雑度はマイクロフォンの数に比例するので、多くの最新のデバイスでは、そのような複雑度の増加が達成できない。

したがって、マルチチャネル干渉除去のための低複雑度の概念が提供されれば高い評価を得られるはずである。

本発明の目的は、マルチチャネル干渉除去のための低複雑度の概念を提供することにある。
本発明の目的は、請求項１に記載の装置、請求項１４に記載の方法、および請求項１５に記載のコンピュータプログラムにより解決される。

一実施形態により、２つ以上の修正オーディオチャネルを含む修正オーディオ信号を取得するための、２つ以上の受信オーディオチャネルを含む受信オーディオ信号におけるマルチチャネル干渉除去のための装置が提供される。

本装置は、基準信号に応じて第１の干渉信号の第１の推定値を生成するように構成されている第１のフィルタユニットを含む。

さらに、本装置は、第１の干渉信号の第１の推定値に応じて、２つ以上の受信オーディオチャネルのうちの第１の受信オーディオチャネルから２つ以上の修正オーディオチャネルのうちの第１の修正オーディオチャネルを生成するように構成されている第１の干渉キャンセラを含む。

さらに、本装置は、第１の干渉信号の第１の推定値に応じて第２の干渉信号の第２の推定値を生成するように構成されている第２のフィルタユニットを含む。

さらに、本装置は、第２の干渉信号の第２の推定値に応じて、２つ以上の受信オーディオチャネルのうちの第２の受信オーディオチャネルから２つ以上の修正オーディオチャネルのうちの第２の修正オーディオチャネルを生成するように構成されている第２の干渉キャンセラを含む。

実施形態は、相対伝達関数を使用したマルチチャネル干渉除去のための概念、例えば装置および方法を提供する。

例えばＡＥＣでは、実施形態による概念は、プライマリ音響エコー信号の推定値を使用して、残留する、すなわちセカンダリ音響エコー信号の推定値を計算する。
そのために、プライマリ音響インパルス応答（ＡＩＲ）、例えばスピーカとプライマリマイクロフォンとの間のＡＩＲと、セカンダリＡＩＲ、例えばスピーカとセカンダリマイクロフォンとの間のＡＩＲとの関係が識別される。
続いて、プライマリ音響エコー信号を推定されたＡＩＲ間の関係でフィルタリングすることによりセカンダリ音響エコー信号が計算される。
最後に、すべてのマイクロフォン信号に除去が適用される。
マイクロフォン間の距離が短い場合、比較的短いフィルタを使用してこれらの関係をモデル化することができる。よって、計算の複雑度を低減させることができる。

さらに、一実施形態による、２つ以上の修正オーディオチャネルを含む修正オーディオ信号を取得するための、２つ以上の受信オーディオチャネルを含む受信オーディオ信号におけるマルチチャネル干渉除去のための方法が提供される。

本方法は以下を含む：
―基準信号に応じて第１の干渉信号の第１の推定値を生成すること。
―第１の干渉信号の第１の推定値に応じて２つ以上の受信オーディオチャネルのうちの第１の受信オーディオチャネルから２つ以上の修正オーディオチャネルのうちの第１の修正オーディオチャネルを生成すること。
―第１の干渉信号の第１の推定値に応じて第２の干渉信号の第２の推定値を生成すること。
―および、第２の干渉信号の第２の推定値に応じて２つ以上の受信オーディオチャネルのうちの第２の受信オーディオチャネルから２つ以上の修正オーディオチャネルのうちの第２の修正オーディオチャネルを生成すること。

さらに、コンピュータプログラムが提供され、本コンピュータプログラムは、コンピュータまたは信号プロセッサで実行されると、上述した方法を実施するように構成されている。

以下において、本発明の実施形態を、図を参照してより詳細に説明する。

一実施形態によるマルチチャネル干渉除去のための装置を示す図である。別の実施形態によるマルチチャネル干渉除去のための装置を示す図である。さらなる実施形態によるマルチチャネル干渉除去のための装置を示す図である。マルチマイクロフォンＡＥＣを示す図である。一実施形態によるマルチマイクロフォンＡＥＣを示す図である。ＳＴＦＴ領域のマルチマイクロフォンＡＥＣを示す図である。一実施形態によるＳＴＦＴ領域のマルチマイクロフォンＡＥＣを示す図である。切り出されたＡＩＲを用いたシミュレーションに対応する結果を示す図である。Ｔ_６０＝０．１５ｓおよびＬ＝２５６タップでのＡＥＴＦとＲＥＴＦベースのＡＥＣの比較を示す図である。Ｔ_６０＝０．３５ｓおよびＬ＝１０２４タップでのＡＥＴＦとＲＥＴＦベースのＡＥＣの比較を示す図である。

図１ａに、一実施形態によるマルチチャネル干渉除去のための装置を示す。

本装置は、基準信号ｘ（ｔ）に応じて第１の干渉信号の第１の推定値

を生成するように構成されている第１のフィルタユニット１１２を含む。

さらに、本装置は、第１の干渉信号の第１の推定値

に応じて２つ以上の受信オーディオチャネルのうちの第１の受信オーディオチャネルｙ_１（ｔ）から２つ以上の修正オーディオチャネルのうちの第１の修正オーディオチャネルｅ_１（ｔ）を生成するように構成されている第１の干渉キャンセラ１１４を含む。

さらに、本装置は、第１の干渉信号の第１の推定値

に応じて第２の干渉信号の第２の推定値

を生成するように構成されている第２のフィルタユニット１２２を含む。

さらに、本装置は、第２の干渉信号の第２の推定値

に応じて２つ以上の受信オーディオチャネルのうちの第２の受信オーディオチャネルｙ_２（ｔ）から２つ以上の修正オーディオチャネルのうちの第２の修正オーディオチャネルｅ_２（ｔ）を生成するように構成されている第２の干渉キャンセラ１２４を含む。

実施形態は、第１の干渉信号の第１の推定値が第２の干渉信号の第２の推定値を生成するために使用され得るという発見に基づくものである。
第１の干渉信号の第１の推定値を第２の干渉信号の第２の推定値を決定するために再利用することにより、第１の干渉信号の第１の推定値を使用する代わりに基準信号を使用して第２の干渉信号の第２の推定値を生成する解決策と比較して計算の複雑度が低減される。

実施形態のいくつかは、音響エコー除去（ＡＥＣ）に関する。

一実施形態では、第１の干渉信号の第１の推定値は、例えば、第１の音響エコー信号の第１の推定値であってもよく、第２の干渉信号の第２の推定値は、第２の音響エコー信号の第２の推定値である。

第１の干渉キャンセラ１１４は、例えば、第１の修正オーディオチャネルを取得するために（例えば、第１の受信オーディオチャネルから第１の音響エコー信号の第１の推定値を減算することにより）第１の受信オーディオチャネルに対して音響エコー除去を実行するように構成されてもよい。

第２の干渉キャンセラ１２４は、例えば、第２の修正オーディオチャネルを取得するために（例えば、第２の受信オーディオチャネルから第２の音響エコー信号の第２の推定値を減算することにより）第２の受信オーディオチャネルに対して音響エコー除去を実行するように構成されてもよい。

図１ｂに、別の実施形態によるマルチチャネル干渉除去のための装置を示す。

図１ａの装置と比較して、図１ｂの装置は、第３のフィルタユニット１３２と第３の干渉キャンセラ１３４とをさらに含む。

図１ｂの実施形態では、受信オーディオ信号は３つ以上の受信オーディオチャネルを含み、修正オーディオ信号は３つ以上の修正オーディオチャネルを含む。

第３のフィルタユニット１３２は、第１の干渉信号の第１の推定値

に応じて第３の干渉信号の第３の推定値

を生成するように構成されている。

第３の干渉キャンセラ１３４は、第３の干渉信号の第３の推定値

に応じて、３つ以上の受信オーディオチャネルのうちの第３の受信オーディオチャネルｙ_３（ｔ）から３つ以上の修正オーディオチャネルのうちの第３の修正オーディオチャネルｅ_３（ｔ）を生成するように構成されている。

図１ｃに、さらなる実施形態によるマルチチャネル干渉除去のための装置を示す。

図１ａの装置と比較して、図１ｃの装置は、第３のフィルタユニット１３２と第３の干渉キャンセラ１３４とをさらに含む。

図１ｃの実施形態では、受信オーディオ信号は３つ以上の受信オーディオチャネルを含み、修正オーディオ信号は３つ以上の修正オーディオチャネルを含む。

第３のフィルタユニット１３２は、第２の干渉信号の第２の推定値

に応じて第３の干渉信号の第３の推定値

を生成するように構成されている。
よって、図１ｃの実施形態は、第３の干渉信号の第３の推定値

の生成が、第１の干渉信号の第１の推定値

に応じることに代わって、第２の干渉信号の第２の推定値

に応じて実行されるという点で図１ｂの実施形態と異なる。

に応じて、２つ以上の受信オーディオチャネルのうちの第３の受信オーディオチャネルｙ_３（ｔ）から２つ以上の修正オーディオチャネルのうちの第３の修正オーディオチャネルｅ_３（ｔ）を生成するように構成されている。

他の実施形態（図１ｃの任意選択の破線１９９を実施する）では、第３のフィルタユニット１３２は、第２の干渉信号の第２の推定値

と第１の干渉信号の第１の推定値

とに応じて第３の干渉信号の第３の推定値

を生成するように構成されている。

図２に、先行技術によるマルチマイクロフォンＡＥＣを示す。
該先行技術の手法では、第１のフィルタユニット２８２が、基準信号ｘ（ｔ）から第１の干渉信号の第１の推定値

を生成するために使用される。

次いで第１の干渉キャンセラ２８４が、第１の干渉信号の第１の推定値

に応じて２つ以上の受信オーディオチャネルのうちの第１の受信オーディオチャネルｙ_１（ｔ）から第１の修正オーディオチャネルｅ_１（ｔ）を生成する。

図２の先行技術の手法では、第２のフィルタユニット２９２が、第１のフィルタユニット２８２によっても使用された基準信号ｘ（ｔ）から第２の干渉信号の第２の推定値

を生成する。

次いで第２の干渉キャンセラ２９４が、第２の干渉信号の第２の推定値

に応じて２つ以上の受信オーディオチャネルのうちの第２の受信オーディオチャネルｙ_Ｎ（ｔ）から第２の修正オーディオチャネルｅ_Ｎ（ｔ）を生成する。

いくつかの実施形態は、図３に示されるように、相対伝達関数（ＲＴＦ）ベースの手法を使用して、図２に示されるマルチマイクロフォン音響エコー除去（ＡＥＣ）の複雑度を低減させる。相対伝達関数は［４］、［７］に記載されている。

図３に、実施形態によるマルチマイクロフォン音響エコー除去（ＡＥＣ）を示す。
図３では、第１のフィルタユニット３１２が、基準信号ｘ（ｔ）から第１の干渉信号の第１の推定値

を生成するために使用される。

次いで第１の干渉キャンセラ３１４が、第１の干渉信号の第１の推定値

図３の装置はここでは、第２のフィルタユニット３２２は、第１のフィルタユニット３１２によって生成された第１の干渉信号の第１の推定値

に応じて第２の干渉信号の第２の推定値

を生成する、という点で図２と異なる。

次いで第２の干渉キャンセラ３２４が、第２の干渉信号の第２の推定値

実施形態は、プライマリ干渉信号の推定値を使用して、残留する、すなわちセカンダリ干渉信号の推定値を計算する。
プライマリ干渉信号を推定するために、基準信号とプライマリ受信信号の関係を特徴付けるプライマリフィルタを識別する。
次に、基準信号をプライマリフィルタの推定値を用いてフィルタリングすることによりプライマリ干渉信号の推定値を取得する。
その後、セカンダリフィルタ、例えば推定プライマリ干渉信号とセカンダリ受信信号との関係を特徴付けるフィルタを識別する。
続いて、プライマリ干渉信号の推定値を推定セカンダリフィルタによってフィルタリングすることによりセカンダリ干渉信号の推定値を計算する。
最後に、電気音響結合を低減させるために除去が適用される。
マイクロフォン間の距離が短い場合、セカンダリフィルタはプライマリフィルタよりも短く（［１０］、［１９］などを参照）、これが計算の複雑度の低減につながる。

いくつかの実施形態は、音響エコー除去に使用される。
この目的で、図３は、１つのスピーカ（１つの送信機）とＮ個のマイクロフォン（受信機）と用いたハンズフリーの通信シナリオを示している。
この特定の事例では、基準信号はスピーカ信号ｘ（ｔ）であり、一般性を失うことなく、プライマリマイクロフォン信号はｙ_１（ｔ）であり、ｔは離散時間インデックスを表す。
さらに、プライマリフィルタの推定値は、

として表されており、プライマリ音響エコー（干渉）信号の推定値

、および除去後の信号

である。
確認できるように、セカンダリ音響エコー信号

が、プライマリ音響エコー信号の推定値

をセカンダリフィルタの推定値

でフィルタリングすることにより計算される。
セカンダリマイクロフォン信号にはＤ≧０サンプルの遅延が導入されることに留意されたい。
これがなされるのは、セカンダリフィルタのＤ個の非因果係数が推定されることを保証するためである。
マイクロフォンが同期される必要がある場合には、除去後のプライマリ信号もＤサンプルだけ遅延される必要がある。
対照的に、（図２に示される）従来の干渉除去方式では、基準ｘ（ｔ）信号をＮ個の推定プライマリフィルタを用いてフィルタリングすることによりＮ個の受信信号の推定値を計算する。

以下に、実施形態のいくつかによる段階的な手法を提供する：
１．）プライマリ干渉信号が基準信号を使用して推定される。
音響エコー除去の具体的な適用では、前者は音響エコー信号であり、後者はスピーカ信号である。そのために：
１．１．）基準信号とプライマリ受信機信号との関係を特徴付けるプライマリフィルタ、これは、
（ａ）単一の受信機信号、
（ｂ）受信機信号の線形結合、
のどちらかであり、例えば適応フィルタリング技術などを使用して識別される。
１．２．）基準信号はプライマリフィルタの推定値でフィルタリングされ、プライマリ干渉信号の推定値が計算される。
１．３．）干渉除去は、プライマリ受信信号からプライマリ干渉信号の推定値を減算することにより適用される。これは以下のどちらかである。
（ａ）単一の受信機信号。
（ｂ）受信機信号の線形結合。
２．）セカンダリ干渉信号は、プライマリ干渉信号の推定値に基づいて推定される。そのために：
２．１．）プライマリ干渉信号の推定値とセカンダリ受信信号との間の関係を特徴付けるセカンダリフィルタが、例えば、
ｉ．）費用関数または誤差基準（平均二乗誤差、（重み付き）最小二乗誤差など）の最適化
ｉｉ．）時間、周波数、またはサブバンド領域での適応フィルタリング技術により、セカンダリ受信機信号または除去後のセカンダリ信号、およびプライマリ干渉信号の推定値を使用して、識別される。（セカンダリフィルタは、例えば、フィルタ構成とみなされ得る。）
２．２．）セカンダリ干渉信号の推定値を計算するためにプライマリ干渉信号の推定値がセカンダリフィルタの推定値でフィルタリングされる。
２．３．）干渉除去は、セカンダリ受信機信号からセカンダリ干渉信号の推定値を減算することにより適用される。
３．）セカンダリ干渉信号ごとに２．を繰り返す。
４．）基準信号ごとに１．、２．、および３．を繰り返す。
５．）送信機はスピーカであり、受信機はマイクロフォンである。
６．）セカンダリ干渉信号の推定値をカスケード構成につながるプライマリ干渉信号の推定値として使用することができる。
７．）３つ以上の受信機の場合、受信機のサブセットを定義でき、各受信機がプライマリ受信機を有する。

さらなる実施形態は、上記のステップの一部のみを適用し、かつ／またはステップを異なる順序で適用することができる。

以下において、ＳＴＦＴ領域適応フィルタを使用する実施形態を説明する（ＳＴＦＴとはｓｈｏｒｔ－ｔｉｍｅＦｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ（短時間フーリエ変換）を意味する）。

１つのスピーカとＮ個のマイクロフォンを用いたハンズフリー通信のセットアップを考えると、第ｎのマイクロフォン信号をＳＴＦＴ領域で次のように表現することができる。
Ｙ_ｎ（ｌ，ｋ）＝Ｄ_ｎ（ｌ，ｋ）＋Ｒ_ｎ（ｌ，ｋ），ｎ∈｛１，…，Ｎ｝（１）
式中、ｌおよびｋは、それぞれ、時間フレームおよび周波数のインデックスである。
さらに、Ｒ_ｎ（ｌ，ｋ）は、近端音声およびバックグラウンドノイズを含む近端信号であり、Ｄ_ｎ（ｌ，ｋ）は、第ｎの音響エコーである。
後者は、スピーカ信号Ｘ（ｌ，ｋ）が部屋を伝播し、第ｎのマイクロフォンによって取得された結果である。
そのＳＴＦＴ領域での正確な定式化（［２０］などを参照）は、

（２）
であり、式中、ｘ（ｌ）＝［Ｘ（ｌ，０），…，Ｘ（ｌ，Ｋ－１）］^Ｔであり、上付き文字・^Ｔおよび・^Ｈは、それぞれ、転置および共役転置を表し、Ｋは、変換長である。
さらに、第ｎのＡＥＴＦの第ｂのパーティションは、ｈ_ｎ（ｂ，ｋ）＝［Ｈ_ｎ（ｂ，ｋ，０），…，Ｈ_ｎ（ｂ，ｋ，Ｋ－１）］^Ｔであり、これはすべての周波数依存性を含むベクトルＨ_ｎ（ｂ，ｋ，ｋ’）であり、ｋ’∈｛０，…，Ｋ－１｝である（ＡＥＴＦは、音響エコー伝達関数を意味する）。

［２０］において、幅広く解析されているＳＴＦＴ領域のＡＥＴＦは非因果的であることに留意されたい。さらに、Ｌ個のＡＩＲ係数を推定するために必要なパーティション、すなわち入力フレームの数は

であり、式中、Ｒは、後続の入力フレーム間のフレームシフトを表す。
ＡＥＴＦの非因果性のために、エコー信号を計算するにはＸ（ｌ，ｋ）の

個の先読みフレームが必要である。

ＳＴＦＴ解析および合成窓の周波数選択性は、周波数依存性を無視できるように十分であると仮定する。
加えて、表記を簡潔にするために、実施形態によれば、図４に示されるように、Ｂ_ｎｃ個のフレームの遅延が再生経路に導入されると仮定する。
実際には、代わりに取り込み経路が一般に遅延される。［７］、［２０］などを参照されたい。

図４の信号は、変換領域の信号である。
特に、図４の信号は、短時間フーリエ変換領域（ＳＴＦＴ領域）の信号である。

図４では、第１のフィルタユニット４８２は、基準信号Ｘ（ｌ，ｋ）から第１の干渉信号の第１の推定値

を生成するために使用される。

次いで第１の干渉キャンセラ４８４は、第１の干渉信号の第１の推定値

に応じて２つ以上の受信オーディオチャネルのうちの第１の受信オーディオチャネルＹ_１（ｌ，ｋ）から第１の修正オーディオチャネルＥ_１（ｌ，ｋ）を生成する。

図４の手法では、第２のフィルタユニット４９２は、第１のフィルタユニット４８２によっても使用された基準信号Ｘ（ｌ，ｋ）から第２の干渉信号の第２の推定値

を生成する。

次いで第２の干渉キャンセラ４９４は、第２の干渉信号の第２の推定値

に応じて２つ以上の受信オーディオチャネルのうちの第２の受信オーディオチャネルＹ_Ｎ（ｌ，ｋ）から第２の修正オーディオチャネルＥ_Ｎ（ｌ，ｋ）を生成する。

図４は、ＳＴＦＴ領域のマルチマイクロフォンＡＥＣを示している。
実際には、代わりに取り込み経路が一般に遅延される。例えば、［７］、［２０］などを参照されたい。
ここでは、畳み込み伝達関数（ｃｏｎｖｏｌｕｔｉｖｅｔｒａｎｓｆｅｒｆｕｎｃｔｉｏｎ（ＣＴＦ））近似（［７］などを参照）を使用することにより、次のように書くことが可能である。

（３）
式中、・^＊は、複素共役を表し、簡潔にするために、Ｈ_ｎ（ｂ，ｋ）＝Ｈ_ｎ（ｂ，ｋ，ｋ）である。

ＡＥＣの適応アルゴリズムは、除去後の誤差信号によって駆動され、例えば、

（４）
であり、式中、

は、推定値を表すために使用され、

であり、
ｘ（ｌ，ｋ）＝［Ｘ（ｌ，ｋ），…，Ｘ（ｌ－Ｂ＋１、ｋ）］^Ｔである。

上付き文字^Ｈは、エルミートを表す。
ＡＥＣで使用されるほとんどの適応フィルタは勾配降下型のものであり（［２］などを参照）、よって、汎用更新式は以下で与えられ、

（５）
式中、Ｍ_ｎ（ｌ，ｋ）は、適応フィルタのステップサイズ行列であり、その定式化は使用される特定の適応アルゴリズムに依存する。

以下において、実施形態による相対エコー伝達関数の使用について説明する。

計算の複雑度の制限があるため、図４に示されるマルチマイクロフォンＡＥＣの実現は常に実行可能ではない。

実施形態によれば、図５に示されるように、ＲＥＴＦベースの手法を使用して複雑度を低減させることが提案される（ＲＥＴＦは相対エコー伝達関数を意味する）。
図５に、一実施形態によるＳＴＦＴ領域のマルチマイクロフォンＡＥＣを示す。

繰り返しになるが、図５の信号は変換領域の信号である。特に、図５の信号は、短時間フーリエ変換領域（ＳＴＦＴ領域）の信号である。

図５では、第１のフィルタユニット５１２は、基準信号Ｘ（ｌ，ｋ）から第１の干渉信号の第１の推定値

を生成するために使用される。

次いで、第１の干渉キャンセラ５１４は、第１の干渉信号の第１の推定値

図５の装置は、ここで、第２のフィルタユニット５２２が第１のフィルタユニット５１２によって生成された第１の干渉信号の第１の推定値

に応じて第２の干渉信号の第２の推定値

を生成する、という点で図４と異なる。

次いで、第２の干渉キャンセラ５２４は、第２の干渉信号の第２の推定値

実施形態では、第２のフィルタユニット１２２は、例えば、第１の干渉信号の第１の推定値と第２の受信オーディオチャネルとに応じてフィルタ構成を決定するように構成され、第２のフィルタユニット１２２は、例えば、第１の干渉信号の第１の推定値とフィルタ構成とに応じて第２の干渉信号の第２の推定値を決定するように構成されてもよい。

例えば、第２のフィルタユニット１２２は、費用関数を最小化することによって、または誤差基準を最小化することにより、例えば平均二乗誤差を最小化することによりフィルタ構成を決定するように構成されている。

以下において、決定されるべきそのようなフィルタ構成は、例えば、Ａ_ｎ（ｐ，ｋ）および／またはａ_ｎ（ｋ）および／または

であればよい。
この問題の定式化は、フィルタが時間的に不変であると仮定して導出されるが、推定値は経時的に変化するものである。

そのような実施形態の特定の例を以下に示す。

一般性を失うことなく、プライマリエコー信号はＤ_１（ｌ，ｋ）として表され、（３）と同様に定義される。
周波数依存性に関する前述の仮定の下で、次のように書くことが可能であり、

（６）
式中、Ａ_ｎ（ｐ，ｋ）は、第ｎの相対エコー伝達関数（ＲＥＴＦ）の第ｐのパーティションである。

プライマリマイクロフォンとセカンダリマイクロフォンとの間の距離が比較的短いという条件で、Ａ_ｎ（ｐ，ｋ）∀ｎの非因果的パーティションは無視できると仮定することが可能である。
それにも関わらず、少数の非因果的な時間領域係数が、Ａ_ｎ（０，ｋ）によりモデル化されることに言及する価値がある。
この仮定の下では、先読みは不要であり、結果として、追加の遅延は発生しない。

最後に、ＣＴＦ近似を使用すると、

（７）
が得られ、式中、Ｐは、ＲＥＴＦパーティションの数である。

実施形態によれば、Ｄ_１（ｌ，ｋ）は確認できないため、最新技術のＡＥＣを使用して取得できる式（７）の

でＤ_１（ｌ，ｋ）を置き換えることが提案される。
Ａ_ｎ（ｐ，ｋ）∀ｐを推定するために、実施形態によれば、誤差信号は次のように最小化され、

（８）
式中、

は、ＲＥＴＦパーティションの第ｎのスタックドベクトル（ｓｔａｃｋｅｄｖｅｃｔｏｒ）であり、

である。
二次費用関数Ｊ（ｌ，ｋ）＝Ｅ｛｜Ｅ_ｎ（ｌ，ｋ）｜^２｝を最小化することにより得られる、平均二乗誤差の意味での最適フィルタは、

（９）
と等しく、式中、Ψ_１（ｌ，ｋ）は

の共分散行列であり、Ψ_１ｎ（ｌ，ｋ）は

とＹ_ｎ（ｌ，ｋ）との間の相互相関ベクトルであり、例えば、

であり、式中、Ｅ｛・｝は、数学的期待値を表す。

という仮定の下では、

であることに留意されたい。

は、推定プライマリＡＥＴＦと第ｎのセカンダリＡＥＴＦとの関係をモデル化することを意味する。

例えば、自明な事例Ｂ＝Ｐ＝１、Ｂ_ｎｃ＝０、例えば、乗法伝達関数の近似（［２１］などを参照）を考えると、これが与えられた場合、第ｎの推定ＲＥＴＦは、

（１０）
と等しく、プライマリ音響エコーキャンセラが収束（ｃｏｎｖｅｒｇｅｄ：集中）すると、（７）で定義されるＡ_ｎ（ｌ，０，ｋ）と等しくなる。

雑音の多い観測からＲＴＦを推定する問題（［４］、［７］、［２２］などを参照）と比較すると、チャネル間において相関する雑音成分による追加のバイアスがない。

さらに、スピーカ信号が既知であるため、推定プロセスを制御する音声活動検出器（ｖｏｉｃｅａｃｔｉｖｉｔｙｄｅｔｅｃｔｏｒｓ（ＶＡＤ））の実装が大幅に簡素化される。
対照的に、実際には

が

により近似されるためにダブルトーク検出器が必要であり、ゆえに、

とＲ_ｎ（ｌ，ｋ）との統計的関係に関する前述の仮定が常に成り立つわけではない。

以下において、適応ＲＥＴＦ推定を使用する実施形態を示す。

そのような実施形態では、図５の第２のフィルタユニット５２２は、例えば、ステップサイズ行列を使用して第２の時間インデックスのフィルタ構成を決定するように構成されてもよい。
例えば、図５の第２のフィルタユニット５２２は、第２の時間インデックスに時間的に先行する第１の時間インデックスのフィルタ構成と、第１の時間インデックスの第１の干渉信号の第１の推定値と、第１の時間インデックスの第２の修正オーディオチャネルのサンプルとに応じてフィルタ構成を決定するように構成されてもよい。

特定の実施形態では、第２のフィルタユニット５２２は、例えば、第２の時間インデックスのフィルタ構成を次式に従って決定するように構成されてもよく、

式中、ｌ＋１は、第２の時間インデックスを表し、ｌは、第１の時間インデックスを表し、ｋは、周波数インデックスを表し、

は、第２の時間インデックスのフィルタ構成であり、

は、第１の時間インデックスのフィルタ構成であり、

は、第１の時間インデックスの第１の干渉信号の第１の推定値であり、

は、第１の時間インデックスの第２の修正オーディオチャネルであり、Ｃ_ｎ（ｌ，ｋ）は、ステップサイズ行列（例えば、

の共分散行列の逆行列）である。

より詳細に説明すると、適応フィルタを使用して、緩やかに時間変化するＲＥＴＦを追跡することができる。

は、プライマリマイクロフォンによって取得されたエコー信号の推定値であるため、時間的に無相関であると仮定することはできない。
より正確には、ＳＴＦＴ窓が短い場合、またはＳＴＦＴ窓間のオーバーラップが大きい場合、Ψ_１（ｌ，ｋ）の非対角要素は無視できない。
これを考慮に入れて、ニュートン法（［２］などを参照）、

（１１）
が、最適フィルタへの高速で安定した収束を保証する。
（１１）では、ηは、適応プロセスを制御するために使用される固定ステップサイズである。
実際には、共分散行列Ψ_１（ｌ，ｋ）は、ある経時的に平均化することにより、例えば、一次再帰フィルタを使用して近似され、

式中、時間平均は

で表され、βは、忘却係数である。

以下では、性能評価について説明する。

提案の手法を評価するために、３セットの実験を行い、そのためのシミュレーションセットアップを次のように設計した。
エコー信号は、クリーンな音声信号をシミュレートされたＡＩＲを用いて畳み込むことにより生成される。
後者を、寸法３×４×２．５ｍ^３、残響時間Ｔ_６０＝０．１５および０．３５ｓの部屋に対して画像法（［２３］などを参照）を使用して生成した。
シミュレートされたＡＩＲの長さは、Ｆ_Ｓ＝１６ｋＨｚのサンプリング周波数でＬ＝４０９６タップであった。
ＡＩＲを、２つのマイクロフォンと１つのスピーカを備えたセットアップについて生成した。
ベースラインセットアップは、スピーカとプライマリマイクロフォンとの間の距離ｌ_１＝１０ｃｍ、マイクロフォン間の距離Δ＝１．５ｃｍを使用した。
スピーカとセカンダリマイクロフォンとの間の距離は、ｌ_２＝ｌ_１＋Δｃｍであった。性能に対するこれらのパラメータの影響も解析した。
この目的で、Δ＝３ｃｍおよびｌ_１＝２０ｃｍも評価した。

信号を、ハミング解析と、長さＫ＝５１２、７５％のオーバーラップ、よってＲ＝１２８サンプルの合成窓とを使用するＳＴＦＴ領域に変換した。
ＡＥＴＦ（５）とＲＥＴＦ（１１）の両方を推定するために使用した適応アルゴリズムはニュートン法であった。
結果として、（５）のステップサイズ行列は、Ｍ_ｎ（ｌ，ｋ）＝μΨ_ｘ（ｌ，ｋ）^－１となる。
スピーカ信号は時間的に無相関であると仮定するのが現実的であるため、その共分散行列は、以下によって簡略化され、

式中、

は、要素ごとの乗算を表し、Ｉは、Ｂ×Ｂ単位行列である。
この簡略化にもかかわらず、正規化係数は依然としてパーティション依存であることに留意されたい。

ステップサイズ係数はμ＝０．５／Ｂおよびη＝０．２２５／Ｐであり、忘却係数はβ＝０．９であった。
さらに、適応フィルタと共分散行列は音声の一時停止中に更新せず、正則化は共分散行列の非特異性を保証するために使用される。
最後に、マイクロフォン信号に白色ガウス雑音（ホワイトガウスノイズ）を付加して、固定セグメントエコー対雑音比（ＳｅｇＥＮＲ）をシミュレートした。性能の差を目立たせるために、６０ｄＢのＳｅｇＥＮＲを使用した。
以下の３セットの実験を行った。

１．Ｔ_６０＝０．１５ｓをシミュレートするために生成したＡＩＲを長さ２５６タップに切り出し、エコー信号の生成に使用した。推定プライマリＡＩＲの長さはＬ＝２５６であった。
２．Ｔ_６０＝０．１５ｓのシミュレート環境、推定プライマリＡＩＲの長さＬ＝２５６タップである。
３．Ｔ_６０＝０．３５ｓのシミュレート環境、推定プライマリＡＩＲの長さＬ＝１０２４タップである。

Ｌ個のＡＩＲ係数を完全に推定するために必要なＡＥＴＦパーティションの数は、

であり、よって少なくともＫ個の後続のフィルタ係数も部分的に推定されることに留意されたい。

すべてのシミュレーションにおいて、プライマリＡＥＴＦのＢ個のパーティションを推定し、それぞれ、異なる数のパーティションＢ_ｎｃ＜Ｂ’≦ＢおよびＰを使用してセカンダリＡＥＴＦとＲＥＴＦとを推定した。
次いで、セカンダリエコー信号は、ＳＴＦＴ領域において、セカンダリＡＥＴＦをスピーカ信号で畳み込み、ＲＥＴＦを推定プライマリエコー信号で畳み込むことにより取得される。
エコー・リターン・ロス・エンハンスメント（ｅｃｈｏｒｅｔｕｒｎｌｏｓｓｅｎｈａｎｃｅｍｅｎｔ（ＥＲＬＥ））は、セカンダリチャネルのエコー低減を測定するために使用され、

（１２）
であり、式中、｜｜・｜｜_２は、ｌ_２－ノルムであり、ｄ_２（ｌ）＝［ｄ_２（ｌＲ＋１），…，ｄ_２（ｌＲ＋Ｋ）］は、時間領域のセカンダリ音響エコーの第ｌのフレームである。

これらのシミュレーションの結果は図５～図７に示されており、ＥＲＬＥ測定値は、明確にするために６０フレームにわたって平均される。
これらの図において、提案のＲＥＴＦベースのＡＥＣは、ＡＥＴＦ推定にＢおよびＢ’＝Ｂ_ｎｃ＋Ｐ個のパーティションを使用した最新技術のＡＥＣと比較されている。
後者の条件は、やはり全体的な計算の複雑度を低減させるはずの、より少数の因果的ＣＴＦパーティションを使用したＡＥＴＦベースのＡＥＣとの比較を示すために含まれている。

図６に、切り出されたＡＩＲを用いたシミュレーションに対応する結果を示す。
特に、図６は、切り出されたＡＩＲとＬ＝２５６タップを用いたＡＥＴＦとＲＥＴＦベースのＡＥＣの比較を示している。
Ｐ＝１とＰ＝２とで得られた、左右の部分図のエコー低減は、試験対象のすべての条件について示されている。
Ｐ＝１では、ＲＥＴＦベースの手法は、Ｂ’個のパーティション、例えば、Ｐ個の因果的パーティションのみを用いたＡＥＴＦベースの手法よりも高いＥＲＬＥ値に収束することが確認できる。

さらに、性能はＢ個のパーティションを用いたＡＥＴＦベースの手法の性能よりもやや劣るにすぎない。
Ｐ＝２では、試験対象のすべての条件が同様の性能である。

Ｔ_６０＝０．１５ｓについての性能比較が図７に示されている。
特に、図７は、Ｔ_６０＝０．１５ｓおよびＬ＝２５６タップでのＡＥＴＦとＲＥＴＦベースのＡＥＣの比較を示している。
左上の部分図と右上の部分図とに示されている結果は、ベースラインセットアップのＰ＝１とＰ＝２とに対応している。
Ｐ＝１では、ＲＥＴＦベースの手法は、同数の因果的パーティションを用いたＡＥＴＦベースの手法を上回ることが確認できる。
Ｐ＝２では、ＡＥＴＦベースの手法の性能は目に見えて強化され、ＲＥＴＦベースの手法を使用することにより得られる利点は減少する。

それにもかかわらず、ＲＥＴＦベースの手法は依然としてより性能が優れており、Ｂ＝９個のパーティションを用いたＡＥＴＦベースの手法とほぼ同様である。
下の部分図には、Ｐ＝１での異なるシミュレーションセットアップについての比較が示されている。
左側の部分図には、異なるマイクロフォン間の距離での結果が示されている。
他方、右側の部分図では、スピーカとプライマリマイクロフォンとの間の様々な距離が評価されている。
試験対象のすべての条件で、これらのパラメータのいずれかを大きくするとキャンセラの性能に悪影響が及ぶことが確認できる。
マイクロフォン間距離を増やすと、提案の手法により大きな影響を及ぼし、一般に、ｌ_１はキャンセラの性能により大きな影響を及ぼすことに留意されたい。
さらに、これらのシミュレーションで使用されたパラメータについて、提案の手法は、因果的パーティションの数が等しいＡＥＴＦベースのＡＥＣを上回ることができる。

最後に、図８に示されている結果は、Ｔ_６０＝０．３５ｓでのシミュレートされたセットアップに対応している。
特に、図８は、Ｔ_６０＝０．３５ｓおよびＬ＝１０２４タップでのＡＥＴＦとＲＥＴＦベースのＡＥＣとの間の比較を示している。
Ｐ＝１個とＰ＝４個のパーティションで得られた結果が左右の部分図に示されている。

提案の方法は、両方の試験事例で、同数の因果的パーティションを用いたＡＥＴＦベースの手法を上回ることが確認できる。
さらに、Ｐ＝４では、Ｂ＝１５でのＡＥＴＦベースのＡＥＣよりも性能がやや劣るにすぎない。

要約すると、提案の手法は、等しい数の因果的パーティションを用いた最新技術のＡＥＴＦベースのＡＥＣを上回ることができることが示された。
さらに、ＲＥＴＦベースのＡＥＣを使用することにより、性能のわずかな低下を犠牲にして、推定パーティションの数を低減させることができることが実証された。

以下において、実施形態による周波数領域適応フィルタの使用について説明する。

特に、分割ブロック周波数領域適応フィルタ（ｐａｒｔｉｔｉｏｎｅｄ－ｂｌｏｃｋｆｒｅｑｕｅｎｃｙ－ｄｏｍａｉｎａｄａｐｔｉｖｅｆｉｌｔｅｒｓ（ＰＢ－ＦＤＡＦ））（［２４］などを参照）を使用して説明する。
特に、ブロック時間領域適応フィルタ（［２７］、［２８］などを参照）である周波数領域適応フィルタ（ＦＤＡＦ）（［２４］、［２６］などを参照）の効率的な実施態様は、ＳＴＦＴ領域のものとは大きく異なる。
これに関する詳細情報については、その中の参考文献を参照されたい（例えば、［２０］を参照）。

いくつかの実施形態によれば、２つ以上の受信オーディオチャネルおよび２つ以上の修正オーディオチャネルは、例えば、分割ブロック周波数領域のチャネルであってもよく、２つ以上の受信オーディオチャネルおよび２つ以上の修正オーディオチャネルの各々が複数のパーティションを含む。
基準信号ならびに第１および第２の干渉信号は、例えば、分割ブロック周波数領域の信号であってもよく、基準信号ならびに第１および第２の干渉信号の各々が複数のパーティションを含む。

いくつかの実施形態では、第２のフィルタユニット１２２；３２２；５２２は、例えば、第１の干渉信号の第１の推定値と第２の受信オーディオチャネルとに応じてフィルタ構成を決定するように構成されてもよい。
さらに、第２のフィルタユニット１２２；３２２；５２２は、例えば、第１の干渉信号の第１の推定値とフィルタ構成とに応じて第２の干渉信号の第２の推定値を決定するように構成されてもよい。
さらに、第２のフィルタユニット１２２；３２２；５２２は、例えば、第２の時間インデックスに時間的に先行する第１の時間インデックスのフィルタ構成と、第１の時間インデックスの第１の干渉信号の第１の推定値と、第１の時間インデックスの第２の修正オーディオチャネルのサンプルとに応じて第２の時間インデックスのフィルタ構成を決定するように構成されてもよい。

続いて、ＰＢ－ＦＤＡＦを使用した実施形態についてオーバーラップ保存技術（［２５］、［２９］などを参照）を使用して概説する。
マイクロフォン信号の分割ブロック周波数領域の定式化は以下のとおりであり、
Ｙ_ｎ（ｌ）＝ｄ_ｎ（ｌ）＋ｒ_ｎ（ｌ）、ｎ∈｛１，…，Ｎ｝（１３）
式中、周波数領域のエコー信号は、長さＫの巡回畳み込みの結果を線形化した後に取得され、

（１４）
式中、Ｆは、サイズＫ×Ｋの離散フーリエ変換（ｄｉｓｃｒｅｔｅＦｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ（ＤＦＴ））行列であり、第ｂのＡＩＲパーティションの周波数領域表現は次式で与えられ、
ｈ_ｎ（ｂ）＝Ｆ［ｈ_ｎ（ｂＱ），…，ｈ_ｎ（（ｂ＋１）Ｑ－１），０_１×ｖ］^Ｔ
式中、Ｑは、パーティションの長さであり、Ｖは、ゼロパディングの長さである。
さらに、入力スピーカ信号は、次の形式のＫ×Ｋ対角行列として定式化される（［２５］などを参照）。
Ｘ（ｌ，ｂ）＝ｄｉａｇ｛Ｆ［ｘ（ｌＲ－ｂＱ－Ｋ＋１），…，ｘ（ｌＲ）］^Ｔ｝

（１４）の巡回畳み込みから生じる線形成分の総数はＫ－Ｑ＋１であるが、その後の導出を簡素化するために、実施形態によれば、（１４）ではＶ＝Ｋ－Ｑ個の線形成分が選択されることに留意されたい。
ここでは、Ｖは、出力信号フレーム長であり、Ｑ＝Ｋ－Ｖは、ラップアラウンドエラーの長さであると推論することが可能になり、出力信号の一般的な周波数領域の定式化ａ∈｛ｙ，ｄ，ｒ，ｅ｝は、例えば、

に等しく、式中、時間領域の信号サンプルは、ａ_ｎ（ｔ）で表され、ｔは離散時間インデックスを表す。

表記を簡潔にするために、実施形態によれば、これは次のように定義され、

これらは、それぞれ、周波数領域入力行列のスタックド行列（ｓｔａｃｋｅｄｍａｔｒｉｃｅｓ）と、周波数領域ＡＩＲパーティションのスタックドベクトルである。

以後、（１４）を

として簡潔に定式化することが可能であり、式中、Ｇは、周波数領域の巡回畳み込み制限行列である。

後者を適用することは、逆ＤＦＴを適用し、巡回畳み込みの結果を巡回畳み込み制限窓

で乗算することにより時間領域の巡回成分を否定し、線形化の結果を周波数領域に逆変換することと等価である。
ＡＥＴＦを推定するために先読みを考慮する必要がないため、周波数領域での定式化が因果的であることを強調することが重要である。
周波数領域では、除去後の誤差信号は、

（１５）
であり、汎用ＰＢ－ＦＤＡＦ更新式は、

（１６）
であり、式中、

および、

は、巡回相関制限行列を表し、式中、

は、時間領域巡回相関制限窓であり、演算子ｄｉａｇ｛ｖ｝は、ｖの要素をその主対角に有する対角行列を生成する。

同様に、ＲＥＴＦを使用した定式化では、セカンダリエコー信号を次式として定義することができ、

（１７）
式中、一般性を失うことなく、Ｄ_１（ｌ，ｐ）＝ｄｉａｇ｛Ｆ［ｄ_１（ｌＲ－ｐＱ－Ｋ＋１），…，ｄ_１（ｌＲ）］^Ｔ｝は、プライマリ、すなわち、基準エコー信号であり、

および

は、

および

と同様に定義される。

ＳＴＦＴ領域の定式化とは対照的に、周波数領域のＡＥＴＦとＲＥＴＦは因果的であり、例えば、ｈ_ｎ（０）とａ_ｎ（０）とはいかなる非因果係数もモデル化しないことに留意されたい。
ただし、セカンダリマイクロフォンに対するプライマリマイクロフォンの相対的な位置に応じて、ＲＥＴＦを因果的または非因果的とすることができる。
ゆえに、周波数領域ＲＥＴＦの非因果性の可能性ａ_ｎ（ｐ）を考慮して、プライマリエコー信号のＰ_ｎｃ個のパーティションの先読みが必要である。

実際には、図３に示すように、時間領域または周波数領域においてセカンダリマイクロフォン信号を遅延させることで、これを克服することができる。
同期のためには、除去後のプライマリ誤差信号も遅延させる必要がある。
表記を簡潔にするために、実施形態によれば、差し当たり、Ｐ_ｎｃ＝０であると仮定する。

（８）と同様に、実施形態によれば、セカンダリエコー信号の推定値を計算するために

は

によって近似される。

（１８）

次いで除去後の誤差信号は、

（１９）
に等しくなり、費用関数

を最小化すると、周波数領域の最適なＲＥＴＦについての次式が得られる。

（２０）

ゆえに、ニュートン法は次の形式を取り、

（２１）
分割ブロック周波数領域で適応アルゴリズムを定式化する場合、以下を伴う。

（２２）

より一般的な実施形態では、第２のフィルタユニット１２２；３２２；５２２は、分割ブロック周波数領域のフィルタ構成を次式に従って決定するように構成され、

は、第２の時間インデックスのフィルタ構成であり、

は、第１の時間インデックスのフィルタ構成であり、

は、第１の時間インデックスの第１の干渉信号の第１の推定値であり、Ｃ_ｎは、ステップサイズ行列であり、ｅ_ｎ（ｌ）は、第１の時間インデックスの第２の修正オーディオチャネルであり、

は、巡回畳み込み制限行列である。

以下において、実施形態の実施態様および同期態様について考察する。

特に、実施形態による非因果的（Ｐ_ｎｃ＞０）実施態様について詳細に説明する。

ＲＥＴＦフィルタの非因果性の可能性があるため、非因果係数も（ＰＢ）周波数領域で推定ＲＥＴＦによってモデル化されるようにするために、図３に示されるように、セカンダリマイクロフォン信号を遅延させる必要がある。

そのためには以下の２つの対策がある：
―サンプルベースで、例えば時間領域において、セカンダリマイクロフォンへの入力信号をバッファする。
これにより、ユーザは可能な限り低い遅延を維持できる。
ただし、同期のために、除去後のプライマリ信号をしかるべく遅延させる必要があり、これはｅ_１（ｌ）を時間領域に逆変換する必要があることを意味する。
―周波数領域においてセカンダリマイクロフォンへの入力信号をバッファする。
ゆえに、これらをフレーム単位で遅延させる必要があり、時間領域で導入される遅延よりも高い遅延が発生する。
この選択肢の利点は、除去後にプライマリ信号を時間領域に変換する必要がないことにある。
ゆえに、マルチチャネル干渉キャンセラを、ポストプロセッサに周波数領域で直接インターフェースすることができる。

以下において、２つの可能な実施態様について詳細に説明する。

最初に、遅延されたセカンダリマイクロフォン信号を用いた実施形態について考察する。

（１７）から、すべてのセカンダリマイクロフォン信号に付加されたＰ_ｎｃ個のパーティションの遅延により、ＲＥＴＦの潜在的な非因果的ａ_ｎ（ｐ）の推定が可能になることが明らかである。
対応する実施態様は、ＤがパーティションサイズＱの整数倍であるという点で、図３に示される実施態様と同様である。
このようにして、適応フィルタの最初のＰ_ｎｃ個のパーティションを使用して、Ｑ・Ｐ_ｎｃ個の非因果的ＲＥＴＦ係数がモデル化される。
この単純な手法では、因果的および非因果的ＲＥＴＦ係数を推定するために少なくとも２つのパーティションが必要であり、この単純な事例では、最初のフィルタパーティションはａ_ｎ（－１）の非因果係数をモデル化する。

次に、対称勾配制限を伴う実施形態について考察する。

上述した方法の一改善形態では、時間領域巡回相関の

個の非因果係数と共に最大

個の因果係数を保持するために、勾配制限の修正

を考慮する。
この目的で、実施形態によれば、（１６）からの制限

は以下のように近似される。

（２３）

フィルタリング後のエイリアスのない出力を保証するには、（１４）の畳み込み制限もしかるべく修正される必要がある。

（２４）

上記の制限により、線形畳み込み出力を提供するために、巡回畳み込みの

個の過去のサンプルと最新の

個の出力サンプルとが破棄されこれにより、セカンダリエコー信号の推定値において

サンプルの遅延が発生することに留意されたい。

これらの対称制限は、

サンプルだけ巡回シフトされた、元の時間領域制限ｇおよび

に他ならない。
よって、その場合対応する周波数領域表現は、それぞれ、

およびＧ^ｓｙｍ＝ＪＧであり、式中、定数行列、

（２５）
は、周波数領域の巡回シフトに相当するものである。
実際の実施態様では、制限が通常時間領域で適用されるため、上記の行列は関心対象にはならない。

それでもなお、通常の制限の前後で周波数領域の信号を操作するために、同様の行列

を定義してもよく、（２３）と（２４）によって提供される線形係数の同じ選択を取得することができる。
例えば、ニュートン法を使用した所望の重み更新を、次式として取得することができる。

（２６）

実施形態に従って上記の式を使用することにより、線形係数の選択が

の定義によって決定されるので、柔軟性が得られる。
実際、

を非常に特殊な事例に合わせて調整することができ、例えば、

より短いシフトを実施し、非因果係数の数を、ゆえにシステム遅延を低減させることができる。

次に、ＰＢ－ＦＤＡＦを使用した実施手法の概要を示す。

使用すべき実装の選択は、適用例のシナリオに応じて異なる。
音源とマイクロフォンの相対的な位置を仮定せずに、高品質のフィルタ出力を実現するためは一定の遅延を導入する必要があることが明らかである。
次の表に、提示の実施方法を要約する。

以下では、１つのプライマリチャネルとＮ－１個のセカンダリチャネルがある特定の事例の複雑度解析について説明する。

最初に、時間領域を考察する。

続いて、加算および乗算の観点から例示的な複雑度解析を提供する。
この目的で、推定プライマリフィルタの長さをＬで表し、Ｎ－１個の推定セカンダリフィルタの長さをＰで表し、プライマリフィルタおよびセカンダリフィルタは適応フィルタリング技術を使用して推定されると仮定する。
時間領域での適応フィルタの入力信号サンプルごとの複雑度は以下のとおりであり、

式中、Ｍ∈｛Ｌ，Ｎ｝であり、更新式Ｏ（Ｕｐｄａｔｅ，Ｍ）の複雑度は、使用される適応アルゴリズムに依存し、多くの場合、フィルタ長にも依存する。
したがって、Ｎ個の適応フィルタが並列で（マイクロフォンごとに１つずつ）使用される場合、マルチマイクロフォンＡＥＣのアルゴリズム複雑度はＮＯ（ＡＦ）である。

提案の方法は、適応フィルタの長さを短縮することで、アルゴリズム複雑度を低減させることができる。
アルゴリズム複雑度の低減はその場合、以下の比率によって与えられる。

（２７）

一般に、同じ適応アルゴリズムがプライマリフィルタとセカンダリフィルタの両方の推定に使用される場合には、比率は以下によって与えられる。

（２８）

最も単純な例は、プライマリ・エコー・キャンセラとセカンダリ・エコー・キャンセラとに最小二乗平均（ｌｅａｓｔ－ｍｅａｎｓｑｕａｒｅ（ＬＭＳ））（［２］などを参照）が使用される場合、Ｏ（Ｕｐｄａｔｅ）＝１はフィルタ長に依存せず、比率は以下によって与えられる。

（２９）

プライマリフィルタとセカンダリフィルタの推定に異なる適応フィルタが使用される場合、個々のアルゴリズムの計算の複雑度が慎重に考慮される必要がある。

次に、ＳＴＦＴ領域について考察する。

以下では、加算および乗算の観点から複雑度を解析する。
この目的で、まずＳＴＦＴ領域の適応フィルタのパーティションごとの複雑度を調べると、これは、

であり、式中、Ｑ∈｛Ｐ，Ｂ｝であり、Ｏ（ＦＦＴ）≒２Ｋｌｏｇ_２（Ｋ）－４Ｋは、高速フーリエ変換（ｆａｓｔＦｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ（ＦＦＴ））の複雑度であり、Ｏ（ＣｐｌｘＭｕｌｔ）＝６Ｋは、長さＫの虚数乗法の複雑度（［３０］などを参照）であり、更新式Ｏ（Ｕｐｄａｔｅ）の複雑度は、使用される適応アルゴリズムに依存する。
したがって、Ｎ個の適応フィルタが並列で（マイクロフォンごとに１つずつ）使用される場合、パーティションごとのマルチマイクロフォンＡＥＣのアルゴリズム複雑度はＮＯ（ＡＦ）である。

提案の方法は、Ｐ＜Ｂの場合、アルゴリズム複雑度を低減させることができる。
アルゴリズム複雑度の低減はその場合、以下の比率によって与えられる。

ゆえに、同じ適応フィルタがプライマリ・エコー・キャンセラとセカンダリ・エコー・キャンセラに使用される場合、比率は以下によって与えられる。

ＡＥＴＦとＲＥＴＦの推定に異なる適応フィルタが使用される場合、個々のアルゴリズムの計算の複雑度が慎重に考慮される必要がある。

実施形態の特定の適用例は、例えば、以下の用途のＭＣ－ＡＥＣへの低複雑度の解決策を実現し得る：
―スマートフォン、タブレット、パーソナルコンピュータ。
―音声起動アシスタント、スマートスピーカおよびスマートホームデバイス。
―スマートテレビ。

いくつかの態様が装置のための文脈で説明されているが、これらの態様は、ブロックまたはデバイスが方法ステップまたは方法ステップの特徴に対応する、対応する方法の説明も表していることは明らかである。
同様に、方法ステップの文脈で説明された態様も、対応するブロックもしくは項目または対応する装置の特徴を表している。
方法ステップの一部または全部が、例えば、マイクロプロセッサ、プログラマブルコンピュータ、または電子回路などのハードウェア装置によって（またはハードウェア装置を使用して）実行されてもよい。
いくつかの実施形態では、最も重要な方法ステップのうちの１つまたは複数がそのような装置によって実行されてもよい。

特定の実施要件に応じて、本発明の実施形態を、ハードウェアまたはソフトウェアで、または少なくとも一部をハードウェアで、または少なくとも一部をソフトウェアで実施することができる。
実施態様は、それぞれの方法が行われるようにプログラマブル・コンピュータ・システムと協働する（または協働することができる）、電子的に読み取り可能な制御信号が格納されたデジタル記憶媒体、例えば、フロッピーディスク、ＤＶＤ、Ｂｌｕ－Ｒａｙ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはフラッシュメモリを使用して実行することができる。
したがって、デジタル記憶媒体はコンピュータ可読であり得る。

本発明によるいくつかの実施形態は、本明細書に記載される方法のうちの１つが行われるように、プログラマブル・コンピュータ・システムと協働することができる、電子的に読み取り可能な制御信号を有するデータキャリアを含む。

一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実現することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で動作すると、方法のうちの１つを行うように動作する。
プログラムコードは、例えば、機械可読キャリアに格納され得る。

他の実施形態は、機械可読キャリアに格納された、本明細書に記載される方法のうちの１つを行うためのコンピュータプログラムを含む。

言い換えると、本発明の方法の一実施形態は、したがって、コンピュータプログラムがコンピュータ上で動作するときに本明細書に記載される方法のうちの１つを行うためのプログラムコードを有するコンピュータプログラムである。

本発明の方法のさらなる実施形態は、したがって、本明細書に記載される方法のうちの１つを行うための、記録されたコンピュータプログラムを含むデータキャリア（またはデジタル記憶媒体、またはコンピュータ可読媒体）である。
データキャリア、デジタル記憶媒体、または記録された媒体は通常、有形および／または非一時的である。

本発明の方法のさらなる実施形態は、したがって、本明細書に記載される方法のうちの１つを行うためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。
データストリームまたは信号シーケンスは、例えば、データ通信接続を介して、例えばインターネットを介して転送されるように構成され得る。

さらなる実施形態は、本明細書に記載される方法のうちの１つを行うように構成または適合された処理手段、例えばコンピュータ、またはプログラマブル・ロジック・デバイスを含む。

さらなる実施形態は、本明細書に記載される方法のうちの１つを行うためのコンピュータプログラムがインストールされたコンピュータを含む。

本発明によるさらなる実施形態は、本明細書に記載される方法のうちの１つを行うためのコンピュータプログラムを受信機に（例えば、電子的または光学的に）転送するように構成された装置またはシステムを含む。
受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどであり得る。
装置またはシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバを含み得る。

いくつかの実施形態では、プログラマブル・ロジック・デバイス（例えば、フィールド・プログラマブル・ゲート・アレイ）を使用して、本明細書に記載される方法の機能の一部または全部が行われ得る。
いくつかの実施形態では、フィールド・プログラマブル・ゲート・アレイが、本明細書に記載される方法のうちの１つを行うためにマイクロプロセッサと協働し得る。
一般に、これらの方法は好ましくは、任意のハードウェア装置によって行われる。

本明細書に記載される装置は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータの組み合わせを使用して実施され得る。

本明細書に記載される方法は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータの組み合わせを使用して行われ得る。

上述した実施形態は、本発明の原理の単なる例示である。
当業者には本明細書に記載される構成および詳細の改変および変形が明らかになることを理解されたい。
したがって、本明細書において実施形態の記述および説明として提示された具体的な詳細によってではなく、添付の特許請求の範囲によってのみ限定されることが意図されている。

［１］Ｅ．ＨａｎｓｌｅｒおよびＧ．Ｓｃｈｍｉｄｔ、「音響エコーおよび雑音制御：実用的な手法」、米国ニュージャージー州：Ｗｉｌｅｙ、２００４年。
［２］Ｓ．Ｈａｙｋｉｎ、「適応フィルタ理論」、第４版、米国ニュージャージー州：Ｐｒｅｎｔｉｃｅ－Ｈａｌｌ、２００１年。
［３］Ｗ．Ｋｅｌｌｅｒｍａｎｎ、「音響エコー除去と適応ビームフォーミング・マイクロフォン・アレイを組み合わせるための戦略」、ＩＥＥＥＩＣＡＳＳＰ、独国ミュンヘン、１９９７年４月、２１９～２２２ページ。
［４］Ｏ．ＳｈａｌｖｉおよびＥ．Ｗｅｉｎｓｔｅｉｎ、「非定常信号を使用したシステム識別」、ＩＥＥＥＴｒａｎｓ．ＳｉｇｎａｌＰｒｏｃｅｓｓ．、第４４巻、第８号、２０５５～２０６３ページ、１９９６年。
［５］Ｓ．Ｇａｎｎｏｔ、Ｄ．Ｂｕｒｓｈｔｅｉｎ、Ｅ．Ｗｅｉｎｓｔｅｉｎ、「ビームフォーミングおよび非定常性を使用した信号強調および音声への応用」、ＩＥＥＥＴｒａｎｓ．ＳｉｇｎａｌＰｒｏｃｅｓｓ．、第４９巻、第８号、１６１４～１６２６ページ、２００１年８月。
［６］Ｉ．Ｃｏｈｅｎ、「音声信号を使用した相対伝達関数識別」、ＩＥＥＥＴｒａｎｓ．ＳｐｅｅｃｈＡｕｄｉｏＰｒｏｃｅｓｓ、第１２巻、第５号、４５１～４５９ページ、２００４年９月。
［７］Ｒ．Ｔａｌｍｏｎ、Ｉ．Ｃｏｈｅｎ、およびＳ．Ｇａｎｎｏｔ、「畳み込み伝達関数近似を使用した相対伝達関数識別」、ＩＥＥＥＴｒａｎｓ．Ａｕｄｉｏ，Ｓｐｅｅｃｈ，Ｌａｎｇ．Ｐｒｏｃｅｓｓ．、第１７巻、第４号、５４６～５５５ページ、２００９年５月。
［８］Ｇ．Ｒｅｕｖｅｎ、Ｓ．Ｇａｎｎｏｔ、およびＩ．Ｃｏｈｅｎ、「伝達関数一般化サイドローブキャンセラを使用した雑音低減と音響エコー除去の結合」、ＳｐｅｅｃｈＣｏｍｍｕｎｉｃａｔｉｏｎ、第４９巻、第７～８号、６２３～６３５ページ、２００７年８月。
［９］Ｒ．Ｔａｌｍｏｎ、Ｉ．Ｃｏｈｅｎ、およびＳ．Ｇａｎｎｏｔ、「畳み込み伝達関数一般化サイドローブキャンセラ」、ＩＥＥＥＴｒａｎｓ．Ａｕｄｉｏ，Ｓｐｅｅｃｈ，Ｌａｎｇ．Ｐｒｏｃｅｓｓ．、第１７巻、第７号、１４２０～１４３４ページ、２００９年９月。
［１０］Ｔ．ＤｖｏｒｋｉｎｄおよびＳ．Ｇａｎｎｏｔ、「残響環境における話者定位」、Ｐｒｏｃ．ｔｈｅ２２ｎｄｃｏｎｖｅｎｔｉｏｎｏｆＥｌｅｃｔｒｉｃａｌａｎｄＥｌｅｃｔｒｏｎｉｃｓＥｎｇｉｎｅｅｒｓｉｎＩｓｒａｅｌ（ＩＥＥＥＩ）、テルアビブ、イスラエル、２００２年１２月、７～７ページ。
［１１］Ｔ．Ｇ．ＤｖｏｒｋｉｎｄおよびＳ．Ｇａｎｎｏｔ、「雑音の多い残響環境における音声源の到着推定における時間差」、ＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ、第８５巻、第１号、１７７～２０４ページ、２００５年１月。
［１２］Ｘ．Ｌｉ、Ｌ．Ｇｉｒｉｎ、Ｒ．Ｈｏｒａｕｄ、およびＳ．Ｇａｎｎｏｔ、「監視された音源定位のための直接経路相対伝達関数の推定」、ＩＥＥＥＴｒａｎｓ．Ａｕｄｉｏ，Ｓｐｅｅｃｈ，Ｌａｎｇ．Ｐｒｏｃｅｓｓ．、第４巻、第１１号、２１７１～２１８６ページ、２０１６年１１月。
［１３］Ｃ．Ｙｅｍｄｊｉ、Ｍ．ＭｏｓｓｉＩｄｒｉｓｓａ、Ｎ．Ｅｖａｎｓ、Ｃ．Ｂｅａｕｇｅａｎｔ、およびＰ．Ｖａｒｙ、「ハンズフリーモバイル端末向けのデュアル・チャネル・エコー・ポストフィルタリング」、Ｐｒｏｃ．ＩＷＡＥＮＣ、独国アーヘン、２０１２年９月、１～４ページ。
［１４］Ｃ．Ｙｅｍｄｊｉ、Ｌ．Ｌｅｐａｕｌｏｕｘ、Ｎ．Ｅｖａｎｓ、およびＣ．Ｂｅａｕｇｅａｎｔ、「オーディオ信号およびオーディオ受信回路の処理方法」、米国特許公報第２０１４／０３３４６２０号、２０１４年。
［１５］Ｗ．Ｋｅｌｌｅｒｍａｎｎ、「マイクロフォンアレイの音響エコー除去と適応ビームフォーミングの統合設計」、Ｐｒｏｃ．Ｉｎｔｌ．ＷｏｒｋｓｈｏｐＡｃｏｕｓｔ．ＥｃｈｏＮｏｉｓｅＣｏｎｔｒｏｌ（ＩＷＡＥＮＣ）、英国ロンドン、１９９７年、８１～８４ページ。
［１６］Ｗ．ＨｅｒｂｏｒｄｔおよびＷ．Ｋｅｌｌｅｒｍａｎｎ、「ＧＳＡＥＣ－汎用サイドローブキャンセラに組み込まれた音響エコー除去」、Ｐｒｏｃ．ＥｕｒｏｐｅａｎＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＣｏｎｆ．（ＥＵＳＩＰＣＯ）、第３巻、タンペレ、フィンランド、２０００年９月、１８４３～１８４６ページ。
［１７］Ｗ．Ｈｅｒｂｏｒｄｔ、Ｗ．Ｋｅｌｌｅｒｍａｎｎ、およびＳ．Ｎａｋａｍｕｒａ、「ＬＣＭＶビームフォーミングと音響エコー除去の統合最適化」、Ｐｒｏｃ．ＥｕｒｏｐｅａｎＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＣｏｎｆ．（ＥＵＳＩＰＣＯ）、ウィーン、オーストリア、２００４年９月、２００３～２００６ページ。
［１８］Ｋ．－Ｄ．Ｋａｍｍｅｙｅｒ、Ｍ．Ｋａｌｌｉｎｇｅｒ、およびＡ．Ｍｅｒｔｉｎｓ、「エコーキャンセラとビームフォーマの組み合わせの新しい側面」、Ｐｒｏｃ．ＩＥＥＥＩＣＡＳＳＰ、第３巻、米国フィラデルフィア、２００５年３月、１３７～１４０ページ。
［１９］Ｙ．ＡｖａｒｇｅｌおよびＩ．Ｃｏｈｅｎ、「たすき掛け伝達関数近似を使用した短時間フーリエ変換領域での適応システム識別」、ＩＥＥＥＴｒａｎｓ．Ａｕｄｉｏ，Ｓｐｅｅｃｈ，Ｌａｎｇ．Ｐｒｏｃｅｓｓ．、第巻６、第１号、１６２～１７３ページ、２００８年１月。
［２０］「クロスバンドフィルタリング用いた短時間フーリエ変換領域でのシステム識別」、ＩＥＥＥＴｒａｎｓ．Ａｕｄｉｏ，Ｓｐｅｅｃｈ，Ｌａｎｇ．Ｐｒｏｃｅｓｓ．、第１５巻、第４号、１３０５～１３１９ページ、２００７年５月。
［２１］「短時間フーリエ変換領域での乗法伝達関数近似について」、ＩＥＥＥＳｉｇｎａｌＰｒｏｃｅｓｓ．Ｌｅｔｔ．、第１４巻、第５号、３３７～３４０ページ、２００７年５月。
［２２］Ｉ．Ｃｏｈｅｎ、「非因果的な先験的ＳＮＲ推定器を使用した音声強調」、ＩＥＥＥＳｉｇｎａｌＰｒｏｃｅｓｓ．Ｌｅｔｔ．、第１１巻、第９号、７２５～７２８ページ、２００４年９月。
［２３］Ｊ．Ｂ．ＡｌｌｅｎおよびＤ．Ａ．Ｂｅｒｋｌｅｙ、「小部屋の音響を効率的にシミュレートするための画像法」、Ｊ．Ａｃｏｕｓｔ．Ｓｏｃ．Ａｍ．、第６５巻、第４号、９４３～９５０ページ、１９７９年４月。
［２４］Ｐ．Ｃ．Ｗ．Ｓｏｍｍｅｎ、「分割周波数領域適応フィルタ」、Ｐｒｏｃ．ＡｓｉｌｏｍａｒＣｏｎｆ．ｏｎＳｉｇｎａｌｓ，ＳｙｓｔｅｍｓａｎｄＣｏｍｐｕｔｅｒｓ、１９８９年、６７７～６８１ページ。
［２５］Ｊ．Ｊ．Ｓｈｙｎｋ、「周波数領域およびマルチレート適応フィルタリング」、ＩＥＥＥＳｉｇｎａｌＰｒｏｃｅｓｓ．Ｍａｇ．、第９巻、第１号、１４～３７ページ、１９９２年１月。
［２６］Ｓ．Ｈａｙｋｉｎ、「適応フィルタ理論」、第４版、Ｐｒｅｎｔｉｃｅ－Ｈａｌｌ、２００２年。
［２７］Ｍ．Ｄｅｎｔｉｎｏ、Ｊ．ＭｃＣｏｏｌ、およびＢ．Ｗｉｄｒｏｗ、「周波数領域での適応フィルタリング」、Ｐｒｏｃ．ｏｆｔｈｅＩＥＥＥ、第６６巻、第１２号、１６５８～１６５９ページ、１９７８年１２月。
［２８］Ｇ．Ａ．Ｃｌａｒｋ、Ｓ．Ｒ．Ｐａｒｋｅｒ、およびＳ．Ｋ．Ｍｉｔｒａ、「ＦＩＲ適応デジタルフィルタの時間領域および周波数領域の実現への統一手法」、ＩＥＥＥＴｒａｎｓ．Ａｃｏｕｓｔ，Ｓｐｅｅｃｈ，ＳｉｇｎａｌＰｒｏｃｅｓｓ．、第３１巻、第５号、１０７３～１０８３ページ、１９８３年１０月。
［２９］Ａ．ＯｐｐｅｎｈｅｉｍおよびＲ．Ｗ．Ｓｃｈａｆｅｒ、「デジタル信号処理」、第２版、Ｐｒｅｎｔｉｃｅ－ＨａｌｌＩｎｃ．、ニュージャージー州イングルウッドクリフ、１９９３年。
［３０］Ｒ．Ｍ．Ｍ．Ｄｅｒｋｘ、Ｇ．Ｐ．Ｍ．Ｅｎｇｅｌｍｅｅｒｓ、およびＰ．Ｃ．Ｗ．Ｓｏｍｍｅｎ、「分割ブロック周波数領域適応フィルタの新しい制限方法」、ＩＥＥＥＴｒａｎｓ．ＳｉｇｎａｌＰｒｏｃｅｓｓ．、第５０巻、第３号、２１７７～２１８６ページ、２００２。

Claims

２つ以上の修正オーディオチャネルを含む修正オーディオ信号を取得するための、２つ以上の受信オーディオチャネルを含む受信オーディオ信号におけるマルチチャネル干渉除去のための装置であって、前記装置が、
基準信号に応じて第１の干渉信号の第１の推定値を生成するように構成されている第１のフィルタユニット（１１２；３１２；５１２）と、
前記第１の干渉信号の前記第１の推定値を用いて前記２つ以上の受信オーディオチャネルのうちの第１の受信オーディオチャネルから前記２つ以上の修正オーディオチャネルのうちの第１の修正オーディオチャネルを生成するように構成されている第１の干渉キャンセラ（１１４；３１４；５１４）と、
前記第１の干渉信号の前記第１の推定値を用いて第２の干渉信号の第２の推定値を生成するように構成されている第２のフィルタユニット（１２２；３２２；５２２）と、
前記第２の干渉信号の前記第２の推定値に応じて前記２つ以上の受信オーディオチャネルのうちの第２の受信オーディオチャネルから前記２つ以上の修正オーディオチャネルのうちの第２の修正オーディオチャネルを生成するように構成されている第２の干渉キャンセラ（１２４；３２４；５２４）と、を含み、
前記２つ以上の受信オーディオチャネルおよび前記２つ以上の修正オーディオチャネルが変換領域のチャネルであり、前記基準信号ならびに前記第１および第２の干渉信号が前記変換領域の信号である、装置。
前記第１の干渉信号の前記第１の推定値が第１の音響エコー信号の第１の推定値であり、
前記第２の干渉信号の前記第２の推定値が第２の音響エコー信号の第２の推定値であり、
前記第１の干渉キャンセラ（１１４；３１４；５１４）が、前記第１の修正オーディオチャネルを取得するために前記第１の受信オーディオチャネルに対して音響エコー除去を実行するように構成されており、
前記第２の干渉キャンセラ（１２４；３２４；５２４）が、前記第２の修正オーディオチャネルを取得するために前記第２の受信オーディオチャネルに対して音響エコー除去を実行するように構成されている、請求項１に記載の装置。
前記２つ以上の受信オーディオチャネルおよび前記２つ以上の修正オーディオチャネルが短時間フーリエ変換領域のチャネルであり、前記基準信号ならびに前記第１および第２の干渉信号が前記短時間フーリエ変換領域の信号である、請求項１または２に記載の装置。
前記第２のフィルタユニット（１２２；３２２；５２２）が、前記第１の干渉信号の前記第１の推定値と前記第２の受信オーディオチャネルとに応じてフィルタ構成を決定するように構成されており、
前記第２のフィルタユニット（１２２；３２２；５２２）が、前記第１の干渉信号の前記第１の推定値と前記フィルタ構成とに応じて前記第２の干渉信号の前記第２の推定値を決定するように構成されている、請求項１から３のいずれか一項に記載の装置。
前記第２のフィルタユニット（１２２；３２２；５２２）が、費用関数を最小化することによって、または誤差基準を最小化することによって前記フィルタ構成を決定するように構成されている、請求項４に記載の装置。
前記第２のフィルタユニット（１２２；３２２；５２２）が前記フィルタ構成

を次式に従って決定するように構成されており、

式中、Ψ_１（ｌ，ｋ）が、

の共分散行列であり、
Ψ_１ｎ（ｌ，ｋ）が、

とＹ_ｎ（ｌ，ｋ）との間の相互相関ベクトルであり、

が、前記第１の干渉信号の前記第１の推定値であり、
Ｙ_ｎ（ｌ，ｋ）が、前記第２の受信オーディオチャネルを表し、
ｌが、時間インデックスを表し、ｋが、周波数インデックスを表す、請求項４または５に記載の装置。
前記第２のフィルタユニット（１２２；３２２；５２２）が、第２の時間インデックスに時間的に先行する第１の時間インデックスの前記フィルタ構成と、前記第１の時間インデックスの前記第１の干渉信号の前記第１の推定値と、前記第１の時間インデックスの前記第２の修正オーディオチャネルのサンプルとに応じて前記第２の時間インデックスの前記フィルタ構成を決定するように構成されている、請求項１から３のいずれか一項に記載の装置。
前記第２のフィルタユニット（１２２；３２２；５２２）が前記第２の時間インデックスの前記フィルタ構成を次式に従って決定するように構成されており、

式中、ｌ＋１が、前記第２の時間インデックスを表し、ｌが、前記第１の時間インデックスを表し、ｋが、周波数インデックスを表し、

が、前記第２の時間インデックスの前記フィルタ構成であり、

が、前記第１の時間インデックスの前記フィルタ構成であり、

が、前記第１の時間インデックスの前記第１の干渉信号の前記第１の推定値であり、

が、前記第１の時間インデックスの前記第２の修正オーディオチャネルの複素共役であり、
Ｃ_ｎ（ｌ，ｋ）が、ステップサイズ行列である、請求項７に記載の装置。
前記２つ以上の受信オーディオチャネルおよび前記２つ以上の修正オーディオチャネルが、分割ブロック周波数領域のチャネルであり、前記２つ以上の受信オーディオチャネルおよび前記２つ以上の修正オーディオチャネルの各々が複数のパーティションを含み、
前記基準信号ならびに前記第１および第２の干渉信号が、前記分割ブロック周波数領域の信号であり、前記基準信号ならびに前記第１および第２の干渉信号の各々が複数のパーティションを含む、請求項１または２に記載の装置。
前記第２のフィルタユニット（１２２；３２２；５２２）が、前記第１の干渉信号の前記第１の推定値と前記第２の受信オーディオチャネルとに応じてフィルタ構成を決定するように構成されており、
前記第２のフィルタユニット（１２２；３２２；５２２）が、前記第１の干渉信号の前記第１の推定値と前記フィルタ構成とに応じて前記第２の干渉信号の前記第２の推定値を決定するように構成されており、
前記第２のフィルタユニット（１２２；３２２；５２２）が、第２の時間インデックスに時間的に先行する第１の時間インデックスの前記フィルタ構成と、前記第１の時間インデックスの前記第１の干渉信号の前記第１の推定値と、前記第１の時間インデックスの前記第２の修正オーディオチャネルのサンプルとに応じて前記第２の時間インデックスの前記フィルタ構成を決定するように構成されている、請求項９に記載の装置。
前記第２のフィルタユニット（１２２；３２２；５２２）が、前記分割ブロック周波数領域の前記フィルタ構成を次式に従って決定するように構成されており、

式中、ｌ＋１が、前記第２の時間インデックスを表し、ｌが、前記第１の時間インデックスを表し、ｋが、周波数インデックスを表し、

が、前記第２の時間インデックスの前記フィルタ構成であり、

が、前記第１の時間インデックスの前記フィルタ構成であり、

が、前記第１の時間インデックスの前記第１の干渉信号の前記第１の推定値であり、
Ｃ_ｎが、ステップサイズ行列であり、
^Ｈが、エルミートを表し、
ｅ_ｎ（ｌ）が、前記第１の時間インデックスの前記第２の修正オーディオチャネルであり、

が、巡回畳み込み制限行列である、請求項１０に記載の装置。
前記受信オーディオ信号が３つ以上の受信オーディオチャネルを含み、前記修正オーディオ信号が３つ以上の修正オーディオチャネルを含み、
前記装置が、第３のフィルタユニット（１３２）と第３の干渉キャンセラ（１３４）とをさらに含み、
前記第３のフィルタユニット（１３２）が、前記第１の干渉信号の前記第１の推定値と前記第２の干渉信号の前記第２の推定値の少なくとも一方に応じて第３の干渉信号の第３の推定値を生成するように構成されており、
第３の干渉キャンセラ（１３４）が、前記第３の干渉信号の前記第３の推定値

に応じて前記３つ以上の受信オーディオチャネルのうちの第３の受信オーディオチャネルｙ_３（ｔ）から前記３つ以上の修正オーディオチャネルのうちの第３の修正オーディオチャネルｅ_３（ｔ）を生成するように構成されている、請求項１から１１のいずれか一項に記載の装置。
２つ以上の修正オーディオチャネルを含む修正オーディオ信号を取得するための、２つ以上の受信オーディオチャネルを含む受信オーディオ信号におけるマルチチャネル干渉除去のための方法であって、前記方法が、
基準信号に応じて第１の干渉信号の第１の推定値を生成することと、
前記第１の干渉信号の前記第１の推定値を用いて前記２つ以上の受信オーディオチャネルのうちの第１の受信オーディオチャネルから前記２つ以上の修正オーディオチャネルのうちの第１の修正オーディオチャネルを生成することと、
前記第１の干渉信号の前記第１の推定値を用いて第２の干渉信号の第２の推定値を生成することと、
前記第２の干渉信号の前記第２の推定値に応じて前記２つ以上の受信オーディオチャネルのうちの第２の受信オーディオチャネルから前記２つ以上の修正オーディオチャネルのうちの第２の修正オーディオチャネルを生成することと、を含み、
前記２つ以上の受信オーディオチャネルおよび前記２つ以上の修正オーディオチャネルが変換領域のチャネルであり、前記基準信号ならびに前記第１および第２の干渉信号が前記変換領域の信号である、方法。
コンピュータまたは信号プロセッサで実行されたときに請求項１３に記載の方法を実行するためのコンピュータプログラム。