JP2010531567A

JP2010531567A - オーディオ信号を処理する装置及び方法

Info

Publication number: JP2010531567A
Application number: JP2010512824A
Authority: JP
Inventors: ライナータデン; コルネリスピーヤンス; ディヴィッドエイシーエムローファース
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2007-06-21
Filing date: 2008-06-16
Publication date: 2010-09-24
Anticipated expiration: 2028-06-16
Also published as: KR101469739B1; US8498423B2; CN101689371B; KR20100053502A; CN101689371A; EP2171714A1; JP5394373B2; EP2171714B1; US20100189274A1; WO2008155708A1

Abstract

スピーカフォンにおける音響エコーキャンセル中の非線形エコー経路に対処するのに適した方法が提供される。非線形経路は、特に、例えば携帯電話のハンズフリー動作において、増幅器及びラウドスピーカを非線形範囲で駆動することにより生じる。アイデアは、適応フィルタ及びポストプロセッサを使用する線形音響エコーキャンセルの一般に既知である一マイクロフォンアプローチを、エコーの非線形部分を別々に除去するビーム形成を使用する多マイクロフォンアプローチと一緒に組み合わせることである。

Description

本発明は、オーディオ信号を処理する装置に関する。

本発明は、更に、オーディオ信号を処理する方法に関する。

更に、本発明は、プログラム要素に関する。

更に、本発明は、コンピュータ読み取り可能媒体に関する。

オーディオ歪を抑制するシステムは、ますます重要になっている。特に、携帯電話、カーキット、オーディオ及び電話会議システム、ハンズフリー音声認識装置等のような高品質ハンズフリー電気通信システムの分野において、重要になっている。

ＷＯ２００５／０７６６６２は、オーディオ歪を抑制するのに適したシステムを開示している。このシステムは、オーディオ出力と歪められた所望のオーディオ感知マイクロフォンアレイとの間に結合されたエコーキャンセリング手段と、前記エコーキャンセリング手段及び／又は前記マイクロフォンアレイに結合されたフィルタ構成とを有する。前記フィルタ構成は、反響のような前記オーディオ歪の少なくとも一部を表すフィルタ係数を含む。前記システムは、シミュレートされたオーディ歪を表すフィルタ係数値を前記フィルタ構成のフィルタ係数にコピーする少なくとも部分的にミラーリングされた回路構成をも有する。このようなコピーされた値は、この場合、前記フィルタ構成により歪められた所望の信号における反響を抑制するのに使用されることができる。このようなシステム及びフィルタ構成は、マイクロフォンアレイにより感知されたオーディオ信号内のエコーテイル部の反響の形式でエコー歪を抑制するのに適切でありうる。

しかしながら、オーディオシステム、特にハンズフリー電気通信システムにおいてエコーキャンセルを更に改良するシステムを提供する必要性が依然として存在しうる。

本発明の目的は、効率的なエコーキャンセルオーディオシステム及びエコーキャンセル方法を提供することである。

上で規定された目的を達成するために、独立請求項に記載のオーディオ信号を処理する装置、オーディオ信号を処理する方法、プログラム要素、及びコンピュータ読み取り可能媒体が提供される。

模範的な実施例によると、オーディオ信号を処理する装置は、前処理ユニット及び後処理ユニットを有し、前記前処理ユニットは、受信された第１のオーディオ信号に基づいて第１の線形エコーキャンセル成分を示す第１のエコー信号を推定するように構成され、更に、前記受信された第１のオーディオ信号及び獲得された第２のオーディオ信号に基づいて非線形エコーキャンセル成分を示す第２のエコー信号を推定するように構成され、前記後処理ユニットが、前記第１のエコー信号及び前記第２のエコー信号を考慮に入れて前記獲得された第２のオーディオ信号と関連した一次出力信号を後処理するように構成される。

模範的な実施例によると、獲得されたオーディオ信号を処理する方法は、第１のオーディオ信号を受信するステップと、前記受信された第１のオーディオ信号に基づいて第１の線形エコーキャンセル成分を示す第１のエコー信号を推定するステップと、第２のオーディオ信号を獲得するステップと、前記受信された第１のオーディオ信号及び前記獲得された第２のオーディオ信号に基づいて非線形エコーキャンセル成分を示す第２のエコー信号を推定するステップと、前記第１のエコー信号及び前記第２のエコー信号を考慮に入れて前記獲得された第２のオーディオ信号と関連した一次出力信号を後処理するステップとを有する。特に、前記第１のエコー信号の推定は、前記獲得された第２のオーディオ信号に基づくこともでき、例えば、前記獲得された第２のオーディオ信号は、前記第１のエコー信号の推定に対する制御信号を生成する入力として使用されることができる。しかしながら、多くの場合、前記獲得された第２のオーディオ信号は、前記第１のエコー信号が算出される入力信号ではないが、前記第１のエコー信号の推定により使用される制御信号を生成する信号としてのみ使用される。これは、多くの場合、前記第２のエコー信号の推定において、前記獲得された第２のオーディオ信号が、前記第２のエコー信号が算出される信号成分であり、前記推定に対する制御信号を生成するのに使用されるだけではないので、前記第２のエコー信号の推定とは対照的でありうる。

模範的な実施例によると、プログラム要素が提供され、前記プログラム要素は、プロセッサにより実行される場合に、オーディオ信号を処理する方法を制御又は実行するように構成され、前記方法は、第１のオーディオ信号を受信するステップと、前記受信された第１のオーディオ信号に基づいて第１の線形エコーキャンセル成分を示す第１のエコー信号を推定するステップと、第２のオーディオ信号を獲得するステップと、前記受信された第１のオーディオ信号及び前記獲得された第２のオーディオ信号に基づいて非線形エコーキャンセル成分を示す第２のエコー信号を推定するステップと、前記第１のエコー信号及び前記第２のエコー信号を考慮に入れて前記獲得された第２のオーディオ信号と関連した一次出力信号を後処理するステップとを有する。

模範的な実施例によると、コンピュータプログラムが記憶されたコンピュータ読み取り可能媒体が提供され、前記コンピュータプログラムは、プロセッサにより実行される場合に、オーディオ信号を処理する方法を制御又は実行するように構成され、前記方法は、第１のオーディオ信号を受信するステップと、前記受信された第１のオーディオ信号に基づいて第１の線形エコーキャンセル成分を示す第１のエコー信号を推定するステップと、第２のオーディオ信号を獲得するステップと、前記受信された第１のオーディオ信号及び前記獲得された第２のオーディオ信号に基づいて非線形エコーキャンセル成分を示す第２のエコー信号を推定するステップと、前記第１のエコー信号及び前記第２のエコー信号を考慮に入れて前記獲得された第２のオーディオ信号と関連した一次出力信号を後処理するステップとを有する。

本発明の実施例によるオーディオ処理は、コンピュータプログラム、すなわちソフトウェアにより、又は１以上の特別な電子最適化回路、すなわちハードウェアを使用することにより、又はハイブリッド形式で、すなわちソフトウェア要素及びハードウェア要素を用いて実現されることができる。

本願明細書において、用語"非線形エコー信号"は、特に、トランスデューサチェイン内の部分により、例えばそれぞれの非線形範囲で動作するラウドスピーカにより導入されるエコー信号を示すことができる。これは、例えば、増幅器及びラウドスピーカに対して適用することができる。他の種類の非線形エコー信号は、ハウジングの機械的振動により引き起こされることができる。これら全ての要因が、例えば電話又は携帯電話、カーキット、オーディオ及び電話会議システム、ハンズフリー音声認識装置のマイクロフォン信号内の非線形に歪められたエコー成分に帰着しうる。

本願明細書において、用語"獲得されたオーディオ信号"又は"獲得されたオーディオデータ"は、特に、マイクロフォンにより、例えば電話又は携帯電話のような通信装置のマイクロフォンにより獲得されたオーディオ信号を示すことができる。特に、この用語は、この音響波から生成された電気信号を示すことができる。

本願明細書において、用語"受信されたオーディオ信号"は、特に、通信装置により受信された信号、例えば他の通信装置から前記オーディオ信号を受信する前記装置に送信された信号を示すことができる。前記受信されたオーディオ信号は、通信との関連におけるいわゆる遠端信号、すなわち、１つの通信装置からラインを介して又はアンテナ送信により第２の通信装置、いわゆる近端装置に送信されるオーディオ信号に対応することができる。

本願明細書において、用語"エコー"は、特に、第２の装置から第１の装置に送信し戻されるように意図された獲得された信号内に前記第１の装置により送信された受信された信号により導入された外乱を示すことができる。例えば、前記第１の装置及び前記第２の装置は、携帯電話のような通信装置であることができる。この場合、このような"エコー"は、特に迷惑であり、前記通信がいわゆるフリースピーチで行われる、すなわち通信している人が前記携帯電話を耳の近くで保持しない場合に問題を引き起こしうる。

獲得されたオーディオ信号の線形エコー成分及び非線形エコー成分を分離することにより、これら２つの成分に対する後処理、例えばスペクトル減算を独立に制御することが可能でありえ、これは、線形エコーに対して高いオーバサブトラクションを使用しなくてはならない問題を克服することができる。更に、前記線形エコー成分が、確立したロバストな実際的に証明された線形エコーキャンセラを使用してキャンセルされることができ、同時に追加的に非線形性に対処する解決法が、例えばビーム形成アプローチを使用することにより提供されることができることが可能でありうる。

本発明の模範的な態様の要点は、線形エコーキャンセルが、非線形エコーをも考慮に入れるエコーキャンセルと組み合わせられることができるという事実に見られることができる。このような非線形エコーキャンセルは、いわゆるビーム形成を使用することにより実行されることができる。したがって、線形及び非線形エコーを分離することが可能であることができ、これは、前記装置のポストプロセッサにおいて線形及び非線形エコーのスペクトル減算を独立に制御することを可能にすることができる。

次に、本発明の他の模範的な実施例が記載される。

以下、前記オーディオ信号を処理する装置の他の模範的な実施例が説明される。しかしながら、これらの実施例は、オーディオ信号を処理する方法、プログラム要素、及びコンピュータ読み取り可能媒体にも適用される。

前記装置の他の模範的な実施例によると、前記後処理ユニットは、前記装置が受信されたオーディオ信号を受信する時間期間にのみ前記第２のエコー信号を受け取るように構成される。

このような時間期間は、例えば、電話又は携帯電話のような電気通信装置の場合に、遠端スピーチが存在する時間期間でありうる。このように前記後処理ユニットを適合することにより、特に、遠端活動が存在する場合に、前記非線形成分又は部分が場合によりエコーを含まないので、使用される処理アルゴリズムを単純化することが可能でありうる。更に、遠端活動又は遠端スピーチが存在しない場合、すなわち近端スピーチのみが存在する場合、前記獲得されたオーディオ信号は、発話リークにより、例えば前記後処理ユニットの一部又は要素の発話リークにより作用されえない。

前記装置の他の模範的な実施例によると、前記前処理ユニットは、第１の中間エコー信号及び第２の中間エコー信号を推定する２つのフィルタユニットを有する。このような推定は、オーディオソースユニットと獲得ユニットとの間の発せられたオーディオ信号に対するエコー経路の作用を推定することにより行われうる。代替的には、前記前処理ユニットが、単一のフィルタユニットのみを有することができる。特に、前記フィルタは、適応フィルタにより形成されることができ、前記適応フィルタは、前記獲得された第２のオーディオ信号及び前記適応フィルタ自体の出力信号に基づく制御信号により制御されることができ、すなわちフィードバック機構が、前記適応フィルタを制御するように実施されることができる。

前記装置の他の模範的な実施例によると、前記前処理ユニットは、前記第１のエコー信号及び前記第２のエコー信号を推定するビーム形成ユニットを有する。特に、前記ビーム形成ユニットは、前記第１の中間エコー信号、前記第２の中間エコー信号及び前処理された獲得された第２のオーディオ信号を受信するように構成されることができる。

本願明細書において、用語"前処理された獲得されたオーディオ信号"は、特に、例えば線形エコー信号補償及び場合により後に続くビーム形成又は前記獲得された第２のオーディオ信号からの前記中間エコー信号の減算により、既に前処理された獲得されたオーディオ信号を示すことができる。

このようなビーム形成ユニットは、所望の出力オーディオ信号、すなわち減少されたエコー成分を持つ前記装置の出力オーディオ信号を生成するためにエコーキャンセルを実行するのに後で使用されることができる非線形エコー成分を決定及び／又は推定するのに適切な要素であることができる。

前記装置の他の模範的な実施例によると、前記ビーム形成ユニットは、第１のビーム形成サブユニット及び第２のビーム形成サブユニットを有する。特に、前記第１のビーム形成サブユニットは、一次出力信号及び第３の中間エコー信号を生成するように構成されることができる。オプションとして、前記第１のビーム形成サブユニットは、前記第３の中間エコー信号をフィルタリングして前記第２のエコー信号を生成する追加のフィルタユニットを有することができる。入力として、前記第１のビーム形成サブユニットは、前記前処理された獲得された第２のオーディオ信号を受信することができる。

前記装置の他の模範的な実施例によると、前記第１のビーム形成サブユニットは、更に、前記一次出力信号の出力パワーが最大化されるように制御係数の値を決定するように構成される。

前記装置の他の模範的な実施例によると、前記第２のビーム形成サブユニットは、前記第１の中間エコー信号及び前記第２の中間エコー信号を受信するように構成され、更に、前記制御係数の値を使用することにより前記第１のエコー信号を生成するように構成される。

前記第１の中間エコー信号及び前記第２の中間エコー信号を前記第２のビーム形成サブユニットにフィードすることにより、前記線形エコー成分が、いわゆる残留信号、すなわち前記第１の中間エコー信号及び前記第２の中間エコー信号がそれぞれ減算される第１の部分及び第２の部分を有することができる前記獲得された第２のオーディオ信号と同じように処理されることができることが保証されることができる。前記第２のオーディオ信号の前記第１の部分及び前記第２の部分を獲得するために、前記装置は、前記獲得された第２のオーディオ信号の前記第１の部分を獲得するように構成された第１の獲得ユニットと、前記獲得された第２のオーディオ信号の前記第２の部分を獲得するように構成された第２の獲得ユニットとを有することができる。２より多い獲得ユニットが使用されてもよいことに注意すべきである。

前記装置の他の模範的な実施例によると、前記後処理ユニットは、合計された一次出力信号及び第１のエコー信号から前記第１のエコー信号、前記第２のエコー信号をスペクトル減算することにより前記一次出力信号、前記第１のエコー信号及び前記第２のエコー信号に基づいて出力信号を生成するように構成される。特に、前記後処理ユニットは、前記一次出力信号、前記第１のエコー信号、前記第２のエコー信号及びこれらの線形結合の振幅スペクトルから利得関数を生成するように構成されることができる。このような線形結合は、特に、前記一次出力信号及び前記第１のエコー信号の合計又は前記一次出力信号と前記第２のエコー信号との間の差であることができる。このような利得関数は、特に、前記一次出力信号のスペクトル、又は前記一次出力信号及び前記第２のエコー信号の差のスペクトルに前記利得関数を乗算するのに使用されることができる。特に、前記一次出力信号は、前記利得関数を乗算される前に遅延される。前記利得関数を使用して、前記出力信号及び前記一次出力信号、又は前記一次出力信号及び前記第２のエコー信号の差が同じ位相を持つことができることが保証されることができる。

以下、オーディオ信号を処理する方法の他の模範的な実施例が説明される。しかしながら、これらの実施例は、オーディオ信号を処理する装置、プログラム要素及びコンピュータ読み取り可能媒体にも適用される。

前記方法の他の模範的な実施例によると、前記獲得された信号の処理は、スペクトル減算を含む。特に、前記スペクトル減算は、前記第１のエコー信号及び前記第２のエコー信号に対して独立に実行されることができる。

本発明の模範的な態様は、線形エコーキャンセルをビーム形成と組み合わせ、これにより場合によって線形及び非線形エコーを分離し、これが、ポストプロセッサにおいて線形及び非線形エコーのスペクトル減算を独立に制御することを可能にすることができるという事実に見られることができる。前記線形エコーは、２つの適応フィルタ及びポストプロセッサ又は後処理ユニットを使用してキャンセルされることができ、同時に非線形部分は、２以上の獲得ユニット、例えばマイクロフォンを使用して、ビーム形成を使用し、オーディオソースユニット、例えばラウドスピーカを一般化されたいわゆるサイドローブキャンセラにより抑制されることができる干渉源と見なして対処されることができる。この場合、理想的には、オーディオソースユニットの方向から来る音は、前記一般化されたサイドローブキャンセラの指向性特性により抑制されることができるので、信号経路、すなわちオーディオソースユニットと獲得ユニットとの間で信号が移動する経路の影響が非線形であっても重要ではない。除去された線形エコーは、第２の"固定"ビームフォーマを通過されることができ、ここで"固定"とは、前記第１の適応ビームフォーマと同じ係数を使用することができることを意味する。これを利用して、入力信号を所望のスピーチ信号、前記線形エコー及び前記非線形エコーに分離することが可能でありうる。これは、前記非線形部分又は非線形成分に対するスペクトル減算を独立に制御することを可能にすることができ、これは、前記線形エコーに対して高いオーバサブトラクションを使用しなければならない問題を克服することができる。この模範的な態様によるビーム形成アプローチを使用する場合、スピーカ及び／又は前記通信装置、例えば電話自体が移動する場合でさえ、前記線形エコー成分に対して少なくとも十分なエコー抑制を提供することが可能でありうる。更に、前記装置のラウドスピーカが前記所望のスピーカの角度に近い角度にある場合でさえ、十分なエコーキャンセルを提供することが可能でありうる。加えて、前記第１の適応ビームフォーマは、一次出力信号及びいわゆる基準出力又は全く若しくは少ししか発話リークを含まない中間エコー信号を提供するので、前記スピーチ信号のいわゆるカラレーション（coloration）を避けることが可能でありうる。

本発明の上記の模範的な実施例及び態様並びに他の態様は、以下に記載される実施例から明らかであり、これらの実施例を参照して説明される。

本発明は、実施例を参照して以下に更に詳細に記載されるが、本発明はこれらの実施例に限定されない。

ハンズフリー電気通信システムにおける音響エコーを概略的に示す。ポストプロセッサを持つエコーキャンセルシステムの原理を概略的に示す。ビーム形成ユニット及び適応フィルタを有する一般化されたサイドローブキャンセラの原理を概略的に示す。本発明の模範的な実施例によってオーディオ処理する装置を概略的に示す。遠端スピーチ中の出力信号を概略的に示す。

図面の図は概略的である。異なる図面において、同様の又は同一の要素は、同じ参照符号を与えられる。

以下、図１ないし３を参照すると、通信装置、例えば携帯電話におけるエコーキャンセルの基本原理が説明される。

携帯電話、カーキット、オーディオ／ビデオ電話会議システム、ハンズフリー音声認識装置、ＰＤＡ等のような高品質ハンズフリー電気通信システムに対する要望は、急速に高まっている。このようなシステムのオーディオ品質が、消費者支持及び満足に対して最大限の重要性を持つことが、システム製造者により認識されている。同じことは、聞き疲れが減少される場合に会話がより長く持続するので、より高い収益を得るネットワークオペレータにも当てはまる。ハンズフリー音響電気通信システムに含まれる非常に重要な問題は、全二重オペレーションを維持しながらの音響エコーの除去に関係し、より詳細には後で記載される。第一に、図１及び２を参照して、音響電気通信システムの一般的なセットアップが、後で音響エコーキャンセル問題が説明される前に説明される。

図１は、２つの音響電気通信装置１０１及び１０２を有する電気通信システム１００を概略的に示し、各音響電気通信装置は、ラウドスピーカ１０３及び１０４並びにマイクロフォン１０５及び１０６をそれぞれ有する。ネットワーク１０７は、これら２つの電気通信装置を連結する。更に、２人の参加者が、１０８及び１０９として概略的に描かれている。

図１を参照すると、２つの電気通信装置１０１及び１０２は、ネットワーク又は通信リンク１０７を介して互いから信号を受信し、互いに信号を送信する。図２を参照すると、各側において、他方の側から受信された信号は、（ベースバンドデジタル信号に対する復調後に）処理され、Ｄ／Ａコンバータ２１０によりデジタルからアナログ信号に変換され、第１の増幅器２１１により増幅され、次いでラウドスピーカ２０３により再生される。図２を参照すると、同時に、各側において、局所的な音響信号は、マイクロフォン２０５により記録され、第２の増幅器２１２により増幅され、Ａ／Ｄコンバータ２１３によりアナログからデジタル信号に変換され、後処理ユニット２１４により処理され、次いで（適切な変調後に）他方の側に送信される。したがって、各端末において、前記記録されたデジタル信号及び前記受信されたデジタル信号の両方が、処理に対して使用される。図から明らかなように、遠端側がハンズフリーモードで動作する場合、問題セットアップは、原理的に、対称である。以下、問題シナリオは、ハンズフリーモードで動作すると仮定される近端側の視点から考慮される。更に、適応フィルタ２１５及び制御ユニット２１６は、図２に概略的に描かれている。

ラウドスピーカ２０３は、近端通信装置の周りの環境に遠端信号を発するので、近端ユーザが前記遠端信号を聞くことができるという所望の効果に加えて、ラウドスピーカ２０３信号が、マイクロフォン２０５にも伝搬するという不所望な効果が存在する。したがって、所望の近端スピーチ信号に加えて、前記マイクロフォンにより記録された信号が、近端音響経路によりフィルタリングされた前記遠端信号を含む。未処理のマイクロフォン信号が、遠端側に送信される場合、遠端ユーザは、前記遠端ユーザ自身の声を再び聞き、すなわちエコーが存在する。遠端ラウドスピーカとマイクロフォンとの間の強い音響結合の場合、このプロセスの反復は、前記信号の"ハウリング"に帰着する。

音響エコーキャンセルの目的は、一度に１人の参加者のみが話すことができる半二重通信とは反対に、近端スピーチ信号を保持しながら近端側において生成されたエコー信号を除去し、これにより全二重通信を可能にし、ハウリングを回避することである。全二重スピーチ通信の関連する態様が、近端スピーカがアクティブな遠端スピーカを中断することができることであることに注意すべきである。両方の参加者が話すいわゆる二重トークの短い間隔の間、前記近端スピーチ信号が歪められないままであることは、あまり重要ではない。

音響エコーキャンセラの基本アイデアは、前記遠端信号及び前記マイクロフォン信号の両方を使用して前記近端マイクロフォン信号内の前記遠端エコー成分を推定することである。このエコーは、この場合、前記マイクロフォン信号から減算され、理想的には前記近端スピーチ信号のみを含む信号を生じる。きれいにされたマイクロフォン信号は、この場合、場合により雑音抑制のような他の処理の後に、前記遠端側に送信される。

ハンズフリーモードにおいて、ハンドセットモードと比較して、前記ユーザと前記装置との間に大きな距離が存在する。前記ユーザが前記遠端信号を明確に聞くことを可能にするために、前記ラウドスピーカは、大きな音圧レベルを生成しなければならない。携帯電話において、前記ラウドスピーカ及びマイクロフォンがかなり狭い間隔で配置されるという事実と組み合わせると、これは、前記近端スピーチ信号と比較して非常に強いエコー信号に帰着する。典型的なシナリオにおいて、エコー対近端スピーチ信号比は、１０ないし２５ｄＢの範囲であることができる。加えて、前記ラウドスピーカにより生成されるべき大きな音圧レベルのため、トランスデューサチェインの幾つかの（安価な）部分は、非線形の範囲で動作する。例えば、これは、前記増幅器及びラウドスピーカに当てはまる。他の種類の非線形性は、電話ハウジングの機械的振動により引き起こされる。これら全ての要因は、前記マイクロフォン信号における非線形に歪められたエコー成分に帰着する。市場で利用可能なほとんどのモバイル及び他の音響電気通信装置は、線形音響エコーキャンセラ（ＡＥＣ）を使用するので、これらは、非線形に歪められたエコーを適切に扱うことができない。しかしながら、これは、より高い品質が望ましいので、非常に重要である。

一般に、ＡＥＣは、通常は、図２を参照すると、２つの主要な部分からなる。第１の部分は、適応フィルタ２１５（通常は有限インパルス応答の形式）であり、これは、前記遠端信号から前記マイクロフォン信号まで全体的な電気機械音響インパルス応答を適応的にモデル化し、すなわち特にこれは、増幅器及びラウドスピーカ特性、並びに前記ラウドスピーカから前記マイクロフォンへの音響インパルス応答（ＡＩＲ）を含むべきである。前記適応フィルタは、（正規化された）最小二乗平均（（Ｎ）ＬＭＳ）、再帰最小二乗（ＲＬＳ）若しくはアフィン射影（ＡＰ）アルゴリズム、又は当業者に既知の他のアルゴリズムであることができる。実際に、適応フィルタは、複数の理由から前記エコーを部分的にしか除去することができない。第一に、上述のように、これは、様々な非線形性による。第二に、実際に、適応フィルタ長は、複雑さ及びメモリ制限により制限され、すなわち全てのダイナミクスを適切にモデル化するには少なすぎる係数を持つからである。したがって、前記システムは、不十分にモデル化される。最終的に、端末の周りの音響特性は、移動及び温度変化等により変化することができ、これにより前記適応フィルタに対する追跡困難性を引き起こす。これらの理由から、ＡＥＣは、しばしば、ポストプロセッサ２１４からなる第２の部分を持つ。理想的には、前記適応フィルタにより除去されないエコー成分は、前記ポストプロセッサにおいて抑制され、これは、大きな遠端エコーを依然として含んでいる周波数ビンを選択的に減衰させる時間及び周波数依存利得関数として見られることができる。ポストプロセッサの原理機能は、当業者に既知である。後処理は、ある程度は残留エコーを除去することができるが、これは、二重トーク中、特に悪い信号対エコー比の間に、非線形歪を用いて、歪を導入し、これにより全二重機能を害する。

音を空間的に分離するビーム形成の基本原理は、当業者に既知であるが、いわゆるフィルタ及び合計ビームフォーマ（ＦＳＢ）の基本情報は、図３を参照して以下に記載され、図３は、一般化されたサイドローブキャンセラ（ＧＳＣ）３２０及び前記ＧＳＣに対する入力装置として動作する２つのマイクロフォン３０５及び３０６を示す。前記ＧＳＣは、２つのマイクロフォン３０５及び３０６にそれぞれ結合された２つの適応フィルタ３２２及び３２３を有するＦＳＢ３２１を有する。すなわち、各マイクロフォン入力は、適応フィルタに結合される。更に、前記ＦＳＢは、前記２つのマイクロフォンに結合されたブロックマトリクス３２４を有する。２つのフィルタ３２２及び３２３の各々の出力は、合計され、一次出力ｚを形成し、同時に、ブロックマトリクス３２４の出力は、第２段適応フィルタ３２５に入力される雑音基準信号ｘを形成し、第２段適応フィルタ３２５の出力は、前記第２段のフィルタ信号ｙにより形成される。一次出力ｚ及びフィルタ信号ｙは、この場合、互いから減算され、一次出力ｚは、遅延素子３２６により遅延される。

手短に、ビーム形成アルゴリズムは要約されることができ、所望の信号、反響及び雑音を含む音場内の複数のマイクロフォンの入力に基づいて、前記ＦＳＢは、信号対雑音比と関連した前記マイクロフォン入力の強化バージョンである一次出力信号と、理想的には、スピーチのほかはなんでも含む雑音基準信号ｘとを生成する。実際に、もちろん、ずれ、短いフィルタ長及び他の非理想的状況により、前記一次信号は、依然として雑音を含み、前記雑音基準は、前記スピーチ信号の一部を含む。前記ビーム形成アルゴリズムは、以下のように機能する。前記フィルタは、前記一次信号の出力パワーが最大化されるように適応される。ブロックマトリクス３２４は、前記スピーチ信号をブロックするのに使用され、定常及び非定常背景雑音を含むがスピーチを含まない雑音基準ｘを生成する。

他の干渉源（干渉しているスピーカ、会議シナリオ、テレビ等）がキャンセルされなければならない状況において、前記一般化されたサイドローブキャンセラ（ＧＳＣ）構造が使用される（図３参照）。前記ＦＳＢのビーム内の所望の話者と、異なる角度における背景内の干渉する話者とを想像する。前記雑音基準及び前記一次出力は、前記干渉する話者の不所望な信号を含む。前記ＧＳＣの第２段は、所望のスピーチが存在しない場合に適応することしか許されない。これらの期間内に干渉するスピーチが存在することは有効な仮定であり、したがって、前記第２段適応フィルタは、前記一次信号においてこの干渉スピーチ成分を識別し、減算し、これは、出力信号ｒに帰着する。エコーキャンセルに使用される場合、前記第２段は、遠端活動の間のみに適応し、したがって、前記装置のラウドスピーカから前記遠端信号をキャンセルする。換言すると、このアプローチは、前記干渉源（ラウドスピーカ）の方向における前記ビームフォーマの指向性にヌル（null）を配置しようと試みる。

後で幾らか詳細に記載されるポストプロセッサにおいて、前記一次信号内の雑音は、雑音基準信号ｙを使用してスペクトル減算により減少されることができる。

ポストプロセッサは、スペクトル減算法に基づくことができ、ＦＳＢ３２１の一次出力信号ｚ及び前記第２段のフィルタ信号ｙを入力として取ることができる。入力サンプルは、フレームベースでいわゆるハニング窓により処理され、次にＦＦＴにより周波数領域に変換される。２つの得られた複素数値スペクトルは、Z(f)及びY(f)により示され、スペクトル強度は、|Z(f)|及び|Y(f)|により示され、fは、ＦＦＴ結果の周波数インデックスを示す。残留信号R(f)のスペクトルは、単純に複素スペクトルZ(f)及びY(f)を減算することにより前記ポストプロセッサにおいて計算される。前記ポストプロセッサは、この場合、以下のスペクトル減算規則を使用し、
|O(f)|=|Z(f)|-γ|Y(f)| （１）
ここで、γは、スペクトル減算の量に作用するいわゆるオーバサブトラクションパラメータである。出力スペクトル強度|O(f)|は、残留信号R(f)の位相と単純に結合される。最後に、時間領域出力信号oは、周知の重複再構成アルゴリズムを使用して複素スペクトルから構築される。

図２のような音響エコーキャンセルに対する従来の解決法の問題は、エコー経路（増幅器、スピーカ、マイクロフォンに対する伝搬）が線形であるという事実を当てにし、これが、既に上述したように例えば携帯ハンズフリー電話には当てはまらないことである。したがって、前記エコーの非線形部分は、遠端話者まで到達する。これを回避する通常の方法は、高い値まで線形抑制を設定する前記ポストプロセッサにおいて特別な減算を使用することであり、（減算に対して）多すぎる線形信号を実際に減算し、これは、非線形性のほとんどをキャンセルするが、二重トーク性能を深刻に劣化させる。

これのより良好な理解を得るために、前記非線形性がどこから生じるのか考慮しなくてはならない。ラウドスピーカ膜が、高い偏位まで駆動される場合、前記スピーカの音声コイルは、部分的に磁場を離れ、したがって、電気入力と音響出力との間の結合が減少する。正弦波は、例えば、前記音響信号において（周波数の倍数で）高調波歪を引き起こす非線形領域まで駆動される場合に、"丸められた"頂点を得る。時間で見られる場合、これは、前記非線形性が、入力信号の高振幅においてのみ生じることを意味する。通常のスピーチにおいて、これらの高振幅は、稀にしか生じないが、前記遠端話者に対してエコーとして戻る場合には、しばしば目立つ及び迷惑であるのに十分である。これは、模範的な実施例によると、非線形抑制が、常に使用される必要はないことを意味する。したがって、模範的な実施例によると、これは、実際にほとんどの時間の間に多すぎる減算を導入するので、前記線形エコーに対するオーバサブトラクションパラメータは、増大される。代わりに、非線形エコーが生じる場合のみに前記非線形エコーを減算することが望ましい。周波数領域で見られる場合、前記非線形性が、特定の周波数帯域のみを占有することがわかる。前記非線形性は、前記線形信号の高調波であるので、主により高い周波数領域において生じる。前記音声コイルの最高の偏位が、前記ラウドスピーカの機械的システムの共振周波数の周囲で生じ、これは携帯電話において１０００Ｈｚ前後であり、非線形性が予測される場合に前記周波数領域を更に減少されることが可能である。これは、この実施例によると、間違った周波数ビンにおける減算が生じないので、線形オーバサブトラクションが増大されないという模範的な実施例の第２の起こりうる利点を与える。この模範的な実施例によると、前記エコー信号の非線形部分は、独立に及び時々制限された周波数領域においてのみ制御される。

図４は、本発明の模範的な実施例によるオーディオ処理に対する装置を概略的に示す。装置４００は、前処理ユニット４０１及び後処理ユニット４０２を有する。更に、前記装置は、ライン４０４において第１のオーディオ信号を受信するラウドスピーカ４０３と、獲得ユニットとして動作する第１のマイクロフォン４０５及び第２のマイクロフォン４０６とを有する。前処理ユニット４０１は、第１の適応フィルタ４０７及び第２の適応フィルタ４０８と、第１のビーム形成サブユニット４１０及び第２のビーム形成サブユニット４１１を有するビーム形成ユニット４０９と、追加の適応フィルタ４１２とを有する。

ライン４０４は、更に、前記受信された第１のオーディオ信号を第１の及び第２の適応フィルタ４０７及び４０８に送信する。第１の適応フィルタ４０７の出力、例えば第１の中間エコー信号は、第１のマイクロフォン４０５により獲得されたオーディオ信号から減算され、獲得された第２のオーディオ信号の第１の部分を形成する。結果として生じる信号、例えば前処理された第２のオーディオ信号の第１の部分又は第１の残留信号は、第１のビーム形成サブユニット４１０の第１の入力を形成し、第１の適応フィルタ４０７に対するフィードバックを更に形成する。第２の適応フィルタ４０８の出力、例えば第１の中間エコー信号は、第２のマイクロフォン４６により獲得された信号から減算され、前記獲得された第２のオーディオ信号の第２の部分を形成する。結果として生じる信号、例えば前記前処理された第２のオーディオ信号の第２の部分又は第２の残留信号は、第１のビーム形成サブユニット４１０の第２の入力を形成し、第１の適応フィルタ４０８に対するフィードバックを更に形成する。第１の適応フィルタ４０７の出力及び第２の適応フィルタ４０８の出力、すなわち前記第１の中間エコー信号及び前記第２の中間エコー信号は、第２のビーム形成サブユニット４１１にも接続され、第２のビーム形成サブユニット４１１は、第１のエコーキャンセル成分又は信号y_linに対応する信号を生成し、前記信号は、第１の遅延素子４１３により遅延され、次いで後処理ユニット４０２にフィードされる。第１のエコーキャンセル成分y_linは、線形エコー成分に対応する。第１のビーム形成サブユニット４１０は、一次出力信号を生成し、前記一次出力信号は、第２の遅延素子４１４により遅延され、次いで第１のエコーキャンセル成分y_linに加算され、次いで後処理ユニット４０２に対する第２の入力zを形成する。更に前記第１のビーム形成は、追加の適応フィルタ４１２にフィードされる第３の中間信号を生成し、追加の適応フィルタ４１２は、第２のエコーキャンセル成分y_nlを形成し、第２のエコーキャンセル成分y_nlは、非線形エコー成分に対応し、第３の入力として後処理ユニット４０２にフィードされる。更に、前記第２のエコーキャンセル成分は、第１のビーム形成サブユニット４１０の前記遅延された一次出力信号から減算され、追加の適応フィルタ４１２を制御するのに使用される制御信号を形成する。

以下、装置４００及びエコーキャンセル装置を構築するのに使用される対応するアルゴリズムの動作が、より詳細に説明される。第一に、適応フィルタ４０７及び４０８（エコーキャンセラとも称される）は、前記ラウドスピーカと前記それぞれのマイクロフォンとの間の経路を推定する。前記エコーの一部を依然として含む前記前処理された第２のオーディオ信号の前記第１及び第２の部分は、第１のビーム形成サブユニット４１０にフィードされる。第１のビーム形成サブユニット４１０は、（望ましくは近端スピーチからなる）一次出力のパワーが最大化されるようにプログラムされる。この場合、係数は、第２のビーム形成サブユニット４１１（シャドウビーム形成サブユニット又はシャドウＦＳＢとも称される）にコピーされ、これ自体は適応的ではない。前記第１及び第２の中間エコー信号（図４の破線）は、第２のビーム形成サブユニット４１１にフィードされる。これは、前記線形エコーが、適応フィルタ４０７及び４０８の残留信号と同じように処理されることを保証するためである。２つのビーム形成サブユニット４１０及び４１１の出力信号が加算される場合、これは、前記信号を分離した利益を持たないが、前記マイクロフォン信号が合計で第１のビーム形成サブユニット４１０により処理された場合と同じ結果をもたらす。したがって、第１のステップとして、前記線形エコーは、ビーム形成の後に前記所望のスピーチ信号及び前記非線形エコーとから分離される。前記エコーの線形部分のみが前記マイクロフォン入力から減算されたので、第１のビーム形成サブユニット４１０に入る残留信号は、前記エコー経路により導入される前記非線形信号を依然として含む。したがって、第１のビーム形成サブユニット４１０の前記一次出力及び雑音基準も、非線形性を含む。これらを前記一次出力から更に除去するために、追加の適応フィルタ４１２は、前記雑音基準と前記一次出力との間に配置され、これは、相関信号を識別し、除去しようと試みる。前記一般化されたサイドローブキャンセラ（ＧＳＣ）の第２段を形成するこの追加の適応フィルタ４１２は、遠端スピーチ中に適応することのみ許され、したがって、典型的なＧＳＣアプローチとして見る場合に前記ラウドスピーカを前記"干渉するスピーカ"と見なして、前記ラウドスピーカに対して適応する。４１３及び４１４により示される遅延素子は、追加の適応フィルタ４１２により導入される遅延を補償する。

図４に示される模範的な実施例において使用される前記ポストプロセッサは、上述のものより多くの入力信号を取り、したがって１より多い信号がスペクトル減算され、これらの減算の各々は、オーバサブトラクションパラメータにより独立に制御される。前記ポストプロセッサにフィードされる信号は、
推定及びビーム形成された線形エコーy_lin、
前記第１のビーム形成サブユニットの前記一次出力及びy_linの加算から生じるビーム形成された合計マイクロフォン信号z、
前記第１のビーム形成サブユニットの前記一次出力信号において生じ、前記雑音基準に対して相関を示す非線形性を含む前記追加の適応フィルタの出力信号y_nl、
である。

ハニング窓及びＦＦＴをフレームベースで使用した後に、複素スペクトルZ(f)、Y_lin(f)及びY_nl(f)が得られる。残留位相信号R(f)のスペクトルは、前記複素スペクトルを減算することにより得られる。
R(f)=Z(f)-Y_lin(f) （遠端活動）
R(f)=Z(f)-Y_lin(f)-Y_nl(f) （遠端活動なし）

このように、前記非線形エコー信号は、遠端活動中にのみ減算される。これは、２つの理由を持つ。
１．遠端活動が存在しない場合、エコーを含まないので前記非線形部分を減算する必要が全くない。
２．近端スピーチ中にのみ、所望のスピーチが、前記ＧＳＣの前記第２段における発話リークにより影響を受けない。

遠端活動中に、R(f)が、前記第１のビーム形成サブユニットの前記位置出力のスペクトルに等しく、遠端活動が無い間に、R(f)が、前記一次出力信号及び信号y_nlの差のスペクトルに等しいことに注意すべきである。

スペクトル減算に対して直接的に前記信号を使用する代わりに、利得関数Gが、
|G(f)|=(|Z(f)|-γ_lin|Y_lin(f)|-γ_nl|Y_nl(f)|)/|R(f)|
によってこれらの信号の振幅スペクトルから決定され、これは、残留位相スペクトルR(f)に対する周波数依存利得を表す。γ_xy値は、特定の信号に対するオーバサブトラクションの量を示す。前記利得関数において強い変動が存在する場合に生じる楽音の問題を克服するために、再帰的平滑化が使用される。この後に、R(f)は|G(f)|で乗算され、これは、R(f)の位相が影響されないままにしておき、したがって、前記ポストプロセッサの出力信号が、前記入力信号と同じ位相を持つことを保証する。前記利得関数を使用した後に、時間領域における変換がおこなわれ、これは、提案されたアルゴリズムの出力信号を生じる。

図５は、遠端活動中のスペクトル領域における前記アルゴリズムの性質を概略的に示す。線５００は、前記近端スピーチ信号を描く。前記線形部分に対する１．２のオーバサブトラクション係数は、３ｋＨｚないし４ｋＨｚで生じる非線形性にのみ対処することができず、これは、線５０１により明らかに識別されることができる。線形オーバサブトラクションを４の値まで増大することは、線５０２により見られることができるように前記非線形性を明らかに減少させるが、しかしながら二重トーク中に（前記非線形性が生じる場合のみを除きずっと）起こりうる近端スピーチ信号を歪める代償を払う。前記線形オーバサブトラクションを１．２にし、（１．０の係数により、したがってオーバサブトラクション無しで）前記非線形信号の減算を導入することにより、おおよそ同じ結果を獲得し、まだ、前記近端スピーチは、非線形性の発生中の非線形抑制によってのみ作用される。

本発明の模範的な態様によって要約すると、スピーカフォンにおける音響エコーキャンセル中の非線形エコー経路に対処するのに適した方法が提供される。非線形経路は、特に、例えば携帯電話のハンズフリー動作において、前記増幅器及びラウドスピーカを非線形範囲で駆動することにより生じる。この模範的な態様のアイデアは、適応フィルタ及びポストプロセッサを使用する線形音響エコーキャンセルの一般に既知の一マイクロフォンアプローチを、前記エコーの非線形部分を別々に除去するビーム形成を使用する多マイクロフォンアプローチと一緒に組み合わせることである。

用語"有する"が、他の要素又はフィーチャを除外せず、"１つの"（"a"又は"an"）が複数を除外しないことに注意すべきである。また、異なる実施例又は態様に関連して記載された要素は、組み合わせられることもできる。請求項内の参照符号が、前記請求項の範囲を限定するように解釈されるべきでないことも注意すべきである。

Claims

オーディオ信号を処理する装置において、前記装置が、
前処理ユニットと、
後処理ユニットと、
を有し、
前記前処理ユニットが、受信された第１のオーディオ信号に基づいて第１の線形エコーキャンセル成分を示す第１のエコー信号を推定し、更に、前記受信された第１のオーディオ信号及び獲得された第２のオーディオ信号に基づいて非線形エコーキャンセル成分を示す第２のエコー信号を推定し、
前記後処理ユニットが、前記第１のエコー信号及び前記第２のエコー信号を考慮に入れて前記獲得された第２のオーディオ信号と関連した一次出力信号を処理する、
装置。
前記後処理ユニットが、前記第１のエコー信号及び前記第２のエコー信号を互いに独立に考慮に入れることにより前記一次出力信号を処理する、
請求項１に記載の装置。
前記後処理ユニットは、前記装置が受信された第１のオーディオ信号を受信する時間期間内にのみ前記第２のエコー信号を取る、
請求項１に記載の装置。
前記獲得された第２のオーディオ信号を獲得する少なくとも１つの獲得ユニット、
を更に有する、請求項１に記載の装置。
前記装置が、オーディオソースユニットを更に有し、
前記オーディオソースユニットが、前記受信された第１のオーディオ信号に対応するオーディオ信号を発する、
請求項１に記載の装置。
前記前処理ユニットが、第１の中間エコー信号及び第２の中間エコー信号を推定する２つのフィルタユニットを有する、
請求項１に記載の装置。
前記前処理ユニットが、
前記第１のエコー信号及び前記第２のエコー信号を推定するビーム形成ユニット、
を有する、
請求項１に記載の装置。
前記ビーム形成ユニットが、前記第１の中間エコー信号、前記第２の中間エコー信号及び前処理された獲得された第２のオーディオ信号を受信する、
請求項７に記載の装置。
前記ビーム形成ユニットが、第１のビーム形成サブユニット及び第２のビーム形成サブユニットを有する、
請求項８に記載の装置。
前記第１のビーム形成サブユニットが、前記一次出力信号及び第３の中間エコー信号を生成する、
請求項９に記載の装置。
前記第１のビーム形成サブユニットが、前記第３の中間エコー信号をフィルタリングして前記第２のエコー信号を生成する追加のフィルタユニットを有する、
請求項１０に記載の装置。
前記第１のビーム形成サブユニットは、前記一次出力信号の出力パワーが最大化されるように制御係数の値を決定する、
請求項１０に記載の装置。
前記第２のビーム形成サブユニットが、前記第１の中間エコー信号及び前記第２の中間エコー信号を受信し、前記制御係数の値を使用することにより前記第１のエコー信号を生成する、
請求項１２に記載の装置。
前記後処理ユニットが、合計された前記一次出力信号及び前記第１のエコー信号から前記第１のエコー信号、前記第２のエコー信号をスペクトル減算することにより前記一次出力信号、前記第１のエコー信号及び前記第２のエコー信号に基づいて出力信号を生成する、
請求項１０に記載の装置。
前記後処理ユニットが、前記一次出力信号と、前記第１のエコー信号と、前記第２のエコー信号と、前記一次出力信号、前記第１のエコー信号及び前記第２のエコー信号の線形結合との振幅スペクトルから利得関数を生成する、
請求項１４に記載の装置。
前記後処理ユニットが、前記一次出力信号のスペクトル、又は前記一次出力信号及び前記第２のエコー信号の差のスペクトルに前記利得関数を乗算する、
請求項１５に記載の装置。
オーディオ信号を処理する方法において、
第１のオーディオ信号を受信するステップと、
前記受信された第１のオーディオ信号に基づいて第１の線形エコーキャンセル成分を示す第１のエコー信号を推定するステップと、
第２のオーディオ信号を獲得するステップと、
前記受信された第１のオーディオ信号及び前記獲得された第２のオーディオ信号に基づいて非線形エコーキャンセル成分を示す第２のエコー信号を推定するステップと、
前記第１のエコー信号及び前記第２のエコー信号を考慮に入れて前記獲得された第２のオーディオ信号と関連した一次出力信号を処理するステップと、
を有する方法。
前記獲得された第２のオーディオ信号の処理が、スペクトル減算を含む、
請求項１７に記載の方法。
前記スペクトル減算が、前記第１のエコー信号及び前記第２のエコー信号に対して独立に実行される、
請求項１８に記載の方法。
プロセッサにより実行される場合に、オーディオ信号を処理する方法を制御又は実行するプログラム要素において、前記方法が、
第１のオーディオ信号を受信するステップと、
前記受信された第１のオーディオ信号に基づいて第１の線形エコーキャンセル成分を示す第１のエコー信号を推定するステップと、
第２のオーディオ信号を獲得するステップと、
前記受信された第１のオーディオ信号及び前記獲得された第２のオーディオ信号に基づいて非線形エコーキャンセル成分を示す第２のエコー信号を推定するステップと、
前記第１のエコー信号及び前記第２のエコー信号を考慮に入れて前記獲得された第２のオーディオ信号と関連した一次出力信号を処理するステップと、
を有する、プログラム要素。
プロセッサにより実行される場合に、オーディオ信号を処理する方法を制御又は実行するコンピュータプログラムが記憶されたコンピュータ読み取り可能媒体において、前記方法が、
第１のオーディオ信号を受信するステップと、
前記受信された第１のオーディオ信号に基づいて第１の線形エコーキャンセル成分を示す第１のエコー信号を推定するステップと、
第２のオーディオ信号を獲得するステップと、
前記受信された第１のオーディオ信号及び前記獲得された第２のオーディオ信号に基づいて非線形エコーキャンセル成分を示す第２のエコー信号を推定するステップと、
前記第１のエコー信号及び前記第２のエコー信号を考慮に入れて前記獲得された第２のオーディオ信号と関連した一次出力信号を処理するステップと、
を有する、コンピュータ読み取り可能媒体。