JP5165365B2

JP5165365B2 - エコー消去フィルタの制御

Info

Publication number: JP5165365B2
Application number: JP2007334684A
Authority: JP
Inventors: アレクサンドル・ゲラン; ジャン−リュク・ガルシア
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2006-12-28
Filing date: 2007-12-26
Publication date: 2013-03-21
Anticipated expiration: 2027-12-26
Also published as: EP1940139A3; US20080159552A1; EP1940139B1; US8150027B2; JP2008167441A; EP1940139A2

Description

本発明は、エコー消去フィルタの制御に関する。

多数の通信システムおよびシステム機器では、エコーに伴う問題、即ち音響信号が放出されると同時にその全体または一部がエミッタに取得され、その後エミッタに対してエコーの形で再生される数多くの状況が発生している。

このタイプの状況は、音響信号を放出するラウドスピーカと、当該ラウドスピーカの範囲内に位置するコンパクトタイプ機器や「ハンズフリー」タイプ機器等、マイクロホンを備える機器とが通信を行う際に発生する。ラウドスピーカとマイクロホンとが近接している故に、マイクロホンは、ラウドスピーカから放出される信号を取得する傾向がある。したがって、遠方の送話者(distant talker)は、通信チェーンで導入されたラグの分だけ遅れた自分自身の声を聞くことになる。

この問題を緩和するために、各端末ではエコー消去フィルタが使用されている。一般に、エコーは、放出信号に基づいて推定され、マイクロホン信号から除去(deduct)される。

実際、このような処理は、マイクロホン信号に適用される適応フィルタによって実施される。一般に、適応フィルタリングは、時間にわたるフィルタの係数展開(evolution of coefficient)の式を求める段階を含み、その式は収束基準を満たす必要がある。エコー消去では、例えばいわゆるLMS(Least Mean Square:最小二乗平均)やNLMS(Normalized LMS:正規化LMS)アルゴリズム、あるいはSimon S.Haykinの論文「Adaptive Filter Theory」、Prentice Hall(2001年9月)に具体的に記載されるような当業者によく知られる他のアルゴリズム等、いくつかのアルゴリズムが使用される。

エコーを適切な形でフィルタリングし、再生される信号の劣化を招かないようにするには、エコーの有無に応じて異なる形でエコー消去フィルタを制御する必要がある。より厳密に言えば、エコーだけが存在する(echo-only)期間のみフィルタのパラメータ修正を許可する一方、エコーが存在しない状況ならびにいわゆるダブルトーク状況、即ちマイクロホン信号にエコー成分と有効信号(useful signal)成分とが含まれる状況では、フィルタのパラメータ修正を拒否することが必要となる。

これらの状況を区別することは複雑な問題である。実際、エコーが存在しない期間を検出することは、その期間中はラウドスピーカ上に信号が存在しないため比較的容易であるが、エコーだけが存在する状況をダブルトーク状況と区別することは、非常に困難である。また、適応型エコー消去アルゴリズムの性能は、それらのフェーズを区別する能力に拠るところが非常に大きい。

既存の解決策は、放出される信号の特性と、マイクロホン信号について評価される同じ特性とを比較することに基づいている。

端末2が概略的に示される図1を参照して従来のシステムの一例について説明する。当該端末には、例えばヘルツ波や任意の適当な通信ネットワーク等を利用した従来の様式で音響信号が送られる。

端末は、音声信号等の信号x(n)をネットワークから受信する。当該信号x(n)は、ラウドスピーカ6上にブロードキャストされる。ラウドスピーカ6から放出される信号は、端末2の環境に対応するように音響チャネルHで変換される。

端末2では、例えば送話者から放出された音声信号にラウドスピーカから放出された音の一部、即ち音響エコーが追加された音声信号に対応する有効信号pu(n)から構成される局所信号y(n)を、マイクロホン8が記録する。当該エコーは、ラウドスピーカ6からブロードキャストされた信号と音響チャネルHとの畳み込みから得られる結果であり、端末の寸法、使用される材料、環境、および他のパラメータに依存する。

次いで、マイクロホン8によって取得された信号y(n)は、適応型エコー消去フィルタ10に戻される。当該フィルタ10は、推定エコー(estimated echo)

を生成するのに使用され、当該推定エコーは、ミキサ12においてマイクロホン信号から除去される。

本明細書に記載の例では、端末2は、エコーとマイクロホン信号との差が小さくなるようにフィルタ10の係数が修正される、ミキサ12に由来する従来のフィードバックループを含む。

適応フィルタ10は、

で標示されており、長さLのフィルタであり、その係数

は、時間にわたって適応化(adapt)され、時間索引nで索引付けされる。当該フィルタは、疑似エコー

を生成する。残留エコーe(n)は、ミキサ12内のマイクロホン信号y(n)から

を取り除いた結果である。ここから、次式が得られる。

この例では、次式に示すとおり、いわゆるLMSアルゴリズムが残留エコーパワーの最小化基準として使用される。

上式で、

は、n時点における適応フィルタのL個の係数のベクトルであり、X(n)=[x(n),x(n-1),...,x(n-L+1)]^Tは、ラウドスピーカ6に放出される信号に関する最後のL個のサンプルのベクトルである。項μは、収束速度を制御する「適応ステップサイズ(adaptation stepsize)」と呼ばれる因数である。

μは、フィルタの安定性を制御する上で重要な役割を果たす。エコーだけが存在する状況では、フィルタは、速やかに収束するように適応化することができる。エコーが存在しない状況では、係数の適応化によって適応フィルタの不適応(maladaptation)が発生し、最終的に知覚可能な程度までエコーが増加する恐れがある故に、係数の適応化は望ましくない。同様に、音声だけが存在する(speech-only)状況であれダブルトークの状況であれ局所の送話者(local talker)がアクティブになった場合には、直ちにエコー消去フィルタ10の適応化を停止(freeze)することが妥当である。

逆のケースでは、フィルタ10は、有効音声(useful speech)を抑制しようと試み、フィルタ10の不適応が発生する。これにより、フィルタの発散リスクだけでなく有効信号の大幅な劣化がもたらされ、エコーの再現やエコーの増幅が生じることさえある。

端末2は、ダブルトーク検出モジュールまたはDTDとも呼ばれる、フィルタ10を制御するモジュール14も備える。当該モジュール14は、信号x(n)およびy(n)を分析して、特にダブルトーク期間中にフィルタ10の適応化を停止することが可能となる判定を抽出する。

図1を参照しながら説明したシステムは、放出信号と受信信号の直接比較を使用するものである。しかしながら、このシステムでは音響チャネルHによる修正が発生することから、最適制御が可能になるわけではない。

ダブルトーク状況の検出を改善するために、適応型エコー消去フィルタを制御するいくつかの方法では、チャネル特性が分析される。そのようなケースは、P.Ahgrenの論文「On system identification and acoustic echo cancellation」、Thesis UPPSALA Universitet(2004年4月)に具体的に記載されており、ここでは、

および

の2つのフィルタが使用される。かかるシステムの図が図2に示されている。

図2では、図1を参照しながら説明したのと同様の要素には同様の参照符号が付されている。図2に示される端末2は、音響チャネルHによって分離された適応フィルタ10およびミキサ12ならびにラウドスピーカ6およびマイクロホン8を備えている。

本実施形態では、ダブルトーク検出モジュール14も示されている。ただし、端末2は、第2の適応フィルタ16を備える。マイクロホン信号が処理される方向に対して、フィルタ10はダブルトーク検出モジュール14の上流に位置し、フィルタ16は当該モジュール14の下流に位置する。

フィルタ10は、ミキサ12によって計算される疑似エコーとマイクロホン信号の間の残差が小さくなるように従来の様式で実施された、ネガティブフィードバックループを利用して連続的に適応化される。

フィルタ16もフィードバックループに従って適応化されるが、この場合の適応化は、ダブルトーク検出モジュール14の判定で駆動される。モジュール14が局所音声の存在を検出した場合は、例えばフィルタ16、あるいは局所音声が存在する蓋然性に応じて適応化速度を緩めることが可能となる他の軟判定(soft decision)を停止するように決定することができる。フィルタ16は、エコー

を推定する働きをし、当該エコーはその後ミキサ18によってマイクロホン信号から取り除かれる。

エコーだけが存在する期間中は音響チャネルHが突然変動することはなく、フィルタ10の係数展開は、係数が収束するにつれて遅くなる。ダブルトークが発生した場合には、連続的に適応化されるフィルタ10の係数は、有効音声の存在によって大幅に修正される。

これらの係数の変動が速く大きいときは、ダブルトーク状況が発生している蓋然性がかなり高くなる。

実施を容易にするために、適応フィルタ

の係数の最大値のみを対象に分散が計算される。

ここで、

は、連続的に適応化されるフィルタ10の係数が存在することを表す。この論文では、分散γを固定閾値と比較することが提案されている。それ故、エコーが存在する場合は、強分散によって有効音声信号の存在が示され、したがって潜在的なダブルトーク期間が示されることになる。したがって、フィルタ10の係数

は、係数展開が停止された第2のフィルタ16にはそれ以上コピーされることはない。

しかしながら、かかるシステムを用いた場合にも、音響チャネルの変動とダブルトーク状況の発生とを区別することはできない。

これらの現象はいずれも、マイクロホン信号から取り除かれる疑似エコーの計算に使用される適応フィルタ16の係数展開に同じ影響を及ぼす。
米国特許第5,734,715号 Simon S.Haykinの論文「Adaptive Filter Theory」、Prentice Hall(2001年9月) P.Ahgrenの論文「On system identification and acoustic echo cancellation」、Thesis UPPSALA Universitet(2004年4月)

したがって、既存の方法およびシステムは、ダブルトーク状況の検出が不完全であることから、特にエコー消去フィルタの制御に関しては、完全には満足のいく方法およびシステムではない。

本発明の目的の1つは、エコー消去フィルタを制御する方法およびデバイスを利用して上記の状況を改善することである。

したがって、本発明の一目的は、エコー消去フィルタを制御する方法であって、
- 放出される音響信号とマイクロホン信号との間の音響チャネルを表す、適応フィルタの係数を判定する段階と、
- 前記適応フィルタの前記係数を時間平滑化する(temporal smoothing)段階と、
- 平滑化された前記係数とともに放出される前記音響信号をフィルタリングすることによって推定エコーを判定する段階と、
- 前記推定エコーの特性を推定する段階と、
- 前記マイクロホン信号に関する同じ特性を推定する段階と、
- 前記マイクロホン信号内にエコー信号以外の信号が存在するかどうかを評価するために、前記推定エコーの前記特性と、前記マイクロホン信号の前記特性とを比較する段階と、
- 前記比較に応じて前記マイクロホン信号内のエコーを消去するように前記フィルタを制御する段階と
を含む方法を提供することである。

推定エコーの特性を使用することにより、エコーの存在と、エコー信号以外の信号の存在とを評価する上でより関連性の高い分析を行うことが可能となり、したがって、潜在的なダブルトーク状況を検出することが可能となる。

さらに、前記方法は、音響チャネルを考慮に入れながら放出信号と受信信号との相互比較を行う。

また、前記方法を用いると、音響チャネルの推定を直接達成することが可能となり、当該チャネルの経時的な変動の平滑化によって前記方法を音響チャネルの高速な変動に対して耐性の高いものにする。

特定の一実施形態では、前記推定エコーの特性を推定する前記段階と、前記マイクロホン信号の特性を推定する前記段階とはそれぞれ、自動回帰モデルを含む。自動回帰モデルを使用することにより、信号展開をより効率的な形で追跡することが可能となる。

有利なことに、前記マイクロホン信号の前記自動回帰モデルは、前記推定エコーの前記自動回帰モデルに関するパラメータの前記マイクロホン信号への適用を含む。したがって、前記マイクロホン信号の前記ARモデルの前記パラメータ同士を識別する必要はなく、前記特性同士を比較する前記段階は、前記マイクロホン信号に適用される前記推定エコーのモデルの関連性を評価することによって実行される。

特定の一実施形態では、前記推定エコーの特性を推定する前記段階は、対応する前記自動回帰モデルによる前記推定エコーの予測で発生する予測残差を判定する段階をさらに含み、前記マイクロホン信号の特性を推定する前記段階は、前記自動回帰モデルによる前記マイクロホン信号の予測で発生する予測残差を判定する段階をさらに含む。したがって、これらの残差を直接比較することができ、その結果、前記推定エコーと前記マイクロホン信号との間の類似性を特徴付けることが可能となる。類似性の程度は、例えば前記予測残差のエネルギー同士を比較することによって評価することができる。

一変形形態では、前記推定エコーの前記特性と、前記マイクロホン信号の前記特性とを比較する前記段階は、前記マイクロホン信号が前記放出信号に対応するエコー信号だけを含む蓋然性を表す指標(indicator)を形成する段階を含む。したがって、当該指標を用いることによって潜在的なダブルトーク期間を検出することが可能となる。

有利なことに、消去フィルタを制御する前記段階は、前記マイクロホン信号内に前記エコー信号以外の信号が存在するかどうかに応じて前記フィルタの変動を管理(supervise)する段階を含む。これによって、特に潜在的なダブルトークが発生した場合に前記適応フィルタを停止することが可能となる。

本発明の別の目的は、エコー消去フィルタおよびシステムを制御する対応するプログラムおよびデバイス、ならびにそのようなデバイスを含む端末を提供することである。

本発明は、例示として提供される本明細書を添付の図面と併せて読めばより良く理解されるであろう。

ここで図3を参照して、本発明の方法の概要を説明する。

この方法は、端末がラウドスピーカを介して音響信号x(n)を放出するレベルで実施される。当該端末は、マイクロホン信号または受信信号と呼ばれる別の音響信号y(n)も受信し、放出される音響信号のエコーを含む傾向がある。

この方法は、音響チャネルHの推定段階21を含む、推定エコーの判定段階20から開始する。

本明細書に記載の実施形態では、段階21は、放出される音響信号x(n)に基づく第1の疑似エコーの推定段階22を含む。この推定段階22は、例えば放出信号に適応フィルタを適用する段階と、当該フィルタのパラメータをネガティブフィードバックループによって修正する段階とを含む。ネガティブフィードバックループは、マイクロホン信号に基づく従来の様式で実施され、マイクロホン信号と疑似エコーの間の残差が小さくなるように実施される。

したがって、推定段階22によって、適応フィルタの係数を用いて音響チャネルHの第1の推定値を取得することができる。

推定段階22の後に、平均音響チャネル(mean acoustic channel)の推定段階、即ち適応フィルタの係数の変動の時間平滑化段階24が続く。したがって、段階22の完了後は、平均音響チャネルの評価を利用することができる。

この方法は、放出される音響信号と、時間平滑化された第1の適応フィルタの係数とに基づいて実施される第2の疑似エコーの推定段階26に進む。

より厳密に言えば、当該第2の疑似エコーは、平滑化された係数を含むフィルタを放出信号x(n)に適用することによって取得される。したがって、時間平滑化された音響チャネルHの推定値を用いて計算されたエコーが取得される。

次いで、この方法は、第2の疑似エコーの特性を推定する段階28と、マイクロホン信号に関する同じ特性を推定する段階30とを含む。本明細書に記載の実施形態では、使用される特性は、自動回帰モデル(auto-regressive model)によって取得される音響特性である。

段階32の過程で第2の疑似エコーとマイクロホン信号の特性同士が比較され、その結果、ピュアエコー(pure-echo)状況、即ちマイクロホン信号がエコー成分だけを含む状況にある蓋然性を示す指標が形成されることになる。当該指標は、段階34の間にエコー消去フィルタを制御するのに使用される。

次に図4を参照して、本発明の方法を実施するデバイスの詳細について説明する。

図1および2を参照して説明した場合と同様に、このデバイスまたは端末2は、音響チャネルHによってマイクロホン8と分離されたラウドスピーカ6を備える。

さらに、端末2は、放出信号x(n)ならびに受信信号y(n)を入力として受け取るエコー消去フィルタ36も備える。

端末2は、エコー消去フィルタを制御するモジュールまたはダブルトーク検出モジュール(DTD)38を備える。

当該モジュール38は、ラウドスピーカ6宛ての放出信号x(n)と、マイクロホン8によって取得されるマイクロホン信号y(n)とを入力として受け取る、推定エコー判定ユニット40を備える。

本明細書に記載の実施形態では、ユニット40は第1に、前述の段階22を実施する第1の疑似エコーの推定器42を備える。当該推定器42は、音響チャネルHの伝達関数を推定し、その変動を時間にわたって追跡するために、適応フィルタリングを実行する。推定器42の実施は、いわゆるLMS(最小二乗平均)またはNLMS(正規化LMS)アルゴリズムやAPA(Affine Projection Algorithm:アフィン射影アルゴリズム)、あるいはこれらと等価な他の任意のアルゴリズム等、従来のタイプの適応アルゴリズムに依存する。

有利なことに、推定器42は、マイクロホン信号y(n)と第1の疑似エコーとの差を小さくするためのフィードバックループを備える。この差は残留エコーと呼ばれ、ミキサ43によって従来の様式で計算される。

本実施形態では、推定器42に関して選択される適応アルゴリズムは、NLMSであり、その適応式を上記と同じ表記法を利用して以下に示す。

したがって、第1の疑似エコーz₁(n)は、適応化されたフィルタH1で放出信号x(n)をフィルタリングすることによって生成される。適応フィルタの概要について前述したように、H₁(n)=[h_1,0(n),h_1,1(n),...,h_1,L-1(n)]^Tは、n時点におけるフィルタH1のL個の係数のベクトルを示す。したがって、疑似エコーは次式で表される。

ミキサ43から伝達される残留エコーe₁(n)は、疑似エコーが取り除かれたマイクロホン信号と等しくなる。即ち、
e₁(n)=y(n)-z₁(n)
となる。

有利なことに、推定器42のフィルタ適応化管理は、フィルタ適応化管理を可能にする可変適応ステップサイズμの式を含む。したがって、この技法では、放出信号x(n)およびマイクロホン信号y(n)のエネルギーレベルならびに以下の振る舞いに応じて、収束項μを[μ_min,μ_max]の間隔で展開することが提案されている。
・ μ(n)→エコーだけが存在する期間のμ_max:

に収束する。
・ μ(n)→有効音声だけが存在するフェーズのμ_min:

を安定させる。
・ダブルトークフェーズのμ(n)∈[μ_min,μ_max]:エコーよりも有効音声の方が優勢である場合は、μ(n)→μ_minとする必要があり、逆の場合は、μ(n)→μ_maxとする必要がある。

上記の傾向を満足させる式を定義するには、エコーのエネルギーが有効音声のエネルギーよりも全体的に低くなるという仮定をおくことが妥当である。所望の振る舞いを満足するμの式は、次式のように定義される。ここで、(a,b,c)は、端末の特性に依存するパラメータである。n時点で考慮される信号のパワーは、σ²(n)で標示される。したがって、μは、次式で表される。

上記の仮定が成立する限りにおいて、

におけるエコーの寄与は、有効音声のそれに比べて小さくなり、上式(20)から所望の振る舞いを得ることができる。

ダブルトーク状況では、フィルタH1の適応化を無効にしなければならず、項μは0に固定される。

もちろん、P.Scalart、P.Duhamel、およびA.Benamarの米国特許第5,734,715号「Process and device for adaptive identification and adaptive echo canceller relating thereto」(1998年3月発行)に記載されているような他の適応化管理法も可能である。

ユニット40は、時間平滑化段階24を実施する積分器44も備える。

当該積分器44は、推定器42のフィルタの係数に関する時間平滑化を実行する。具体的には、所与の音響構成において、音響結合によるエネルギーの大部分がラウドスピーカ6とマイクロホン8との間の直接経路ならびに端末2の構造に関連する第1の反射に由来するものと見なされる。したがって、音響チャネルHに対応する修正は、比較的安定である。

また、推定器42のフィルタH1が適応化を受けているときは、当該フィルタH1が不適応状態から開始した場合は適応化状態に達するまでそれ自体の係数の展開幅が非常に大きくなるが、当該フィルタH1が収束している場合はそれ自体の係数の展開幅は非常に小さくなる。

このような平滑化を用いることにより、音響チャネルHの推定値に対応するフィルタリング係数を取得することが可能となり、このフィルタリング係数は、特にエコー消去フィルタの係数の不適応が発生する端末のレベルで音声が出現する場合には、フィルタH1の係数から得られるものに比べて妨害の影響が少なくなる。

この例では、次の再帰式を利用して上記の時間平滑化が達成される。
H₂(n)=α・H₂(n-1)+(1-α)H₁(n)

平滑化量αは、一定となるように選択され、α=0.96と等しい。この値は、音響チャネルの変動の追跡とダブルトークの発生との間の妥協点を保証する上で十分な値と判断された。

もちろん、時間積分は上記の指数平滑法に限定されるものではなく、他の式が使用されてもよい。

したがって、推定器42および積分器44は、前述の方法の段階21を実施する平均音響チャネルの推定値を伝達する。

平滑化された係数は、推定器46のフィルタH2において、前述の段階26を実施する第2の疑似エコーを形成するのに使用される。

当該推定器46は、それ自体の係数が平滑化されたH₂(n)=[h_2,0(n),h_2,1(n),...,h_2,L-1(n)]^TのフィルタH2に基づき、次式に従って第2の疑似エコーz₂(n)を生成する。

第2の疑似エコーz₂(n)は、ユニット40の出力、即ち放出信号x(n)に関する推定エコーを形成する。

次に、モジュール38は、スペクトル包絡線特性等、第2の疑似エコーの特性を推定するユニット48を備える。

ユニット48は、前述の段階28を実施するものであり、この例では、信号のスペクトル包絡線を推定することが可能となるARモデルと呼ばれる自動回帰モデルの計算を含む。別法として、ユニット48は、第2の疑似エコーの基本周波数の計算、または第2の疑似エコーに特有の特性を抽出することが可能となる他の任意の手続きを実施する。

これらの特性は、放出信号x(n)ではなく疑似エコーに基づいて判定され、音響チャネルHの推定値が考慮に入れられる。より厳密に言えば、これらの特性については、音響信号のスペクトル色の推定値が考慮に入れられる。

さらに、2つの疑似エコーを使用することによって、即時修正の手間を省くことが可能となり、ハイパワースパイクの間にも音響チャネルのロバスト推定を達成することが可能となる。

この例では、ユニット48は、次式に従ってオーダーPにおける第2の疑似エコーz₂(n)のARモデルを計算する。

e_z2(n)は、予測残差であり、係数(α_i)_1≦i≦Pは、e_z2(n)のパワーE{e_z2(n)²}を最小限に抑えるように計算される。

z₂(n)を音声信号とするならば、当該音声信号はせいぜい数十ミリ秒程度の短い期間しか定常でない。したがって、係数(α_i)_1≦i≦Pは、定期的に更新しなければならない。これらの係数は、各種の適応フィルタリングアルゴリズム(LMSやNLMSあるいはブロックNLMS)を含めたいくつかのアルゴリズムを用いて、あるいはLevinson-Durbinアルゴリズムを用いてYule-Walker方程式を解くことによって計算することができる。いわゆるブロックNLMSおよびLevinson-Durbinアルゴリズムは、信号が定常であることが想定される期間のフレームについて計算を実行する。例えば、ユニット48は、20msのフレームに関してLevinson-Durbinアルゴリズムを使用する。

サンプリング周波数が8000Hzと等しい場合には、スペクトル包絡線をモデル化する上で10未満のオーダーpで十分であることが一般に認められている。

したがって、信号e_z2(n)および係数(α_i)_1≦i≦Pはいずれも第2の疑似エコーz₂(n)の特性を表すので、どちらを使用してもよい。この例では、信号e_z2(n)が使用される。

さらに、モジュール38は、マイクロホン信号y(n)に関する同じ特性を推定するユニット50を備える。

当該モジュール50は、モジュール48によって実施された動作と同じ動作をマイクロホン信号に関して実行することによって、前述の方法の段階30を実施する。

モジュール48によって計算されるARモデルが推定エコー信号のスペクトル包絡線を表す限りにおいて、有利な一実施形態は、当該モデルを再利用することによって当該モデルを図4に示される信号y(n)にも適用できるようにする段階を含む。したがって、モジュール50は、次式に従って音響信号の特性を残差e_y(n)の形で伝達する。

したがって、マイクロホン信号y(n)がエコーだけを含む場合には、ARモデルが適応化され、残差e_z2(n)およびe_y(n)は「同等(comparable)」となる。一方、雑音や有効音声等の別の信号がマイクロホン信号に追加されている場合には、ARモデルが適応化されず、各残差は「相違(different)」となる。

次いで、残差e_z2(n)およびe_y(n)は、比較およびエコー消去フィルタの制御ためにユニット52に送信される。

したがって、当該ユニット52は、有効信号が存在する蓋然性、即ちマイクロホン信号内にエコー信号以外の信号が存在する蓋然性を判定するために、第2の疑似エコーおよびマイクロホン信号の特性を表す情報を入力として受け取る。

マイクロホン信号がエコーのみから構成される場合には、推定エコーの特性とマイクロホン信号の特性は理論上類似することになる。一方、端末のレベルで例えば雑音や送信すべき有効音声等の追加的な信号が存在する場合には、マイクロホン信号に関して計算された特性は、第2の疑似エコーに関して計算された特性ともはや同等ではなくなる。

使用される特性のタイプに応じて、1つまたは複数の分析規則を用いてマイクロホン信号内にエコー以外の信号が存在するかどうかを判定することが可能となる。エコー以外の信号が存在する場合には、ダブルトーク期間となる傾向がある期間が検出される。次いで、ユニット52は、特にエコー消去フィルタ36の適応化を停止して不適応の発生を回避するようにエコー消去システムを制御する。

前述のように、この例では、ユニット52は、ダブルトークの有無を判定するために残差信号e_z2(n)およびe_y(n)を入力として取得する。本実施形態では、ユニット52は、それらの残差信号のパワーE{e_z2(n)²}およびE{e_y(n)²}を比較するように適応される。これらの量は、様々な手法で推定することができ、特に計算時間の点で低コストとなる技法である、次式に示す指数平滑法を用いて推定することができる。

の推定

上式で、λは、1に近い値をとり、例えばλ=0.9961となり、この値がサンプリング周波数8000Hzに対する時間定数32msに対応する。

エコーだけが存在する期間では、2つの残差信号e_z2(n)およびe_y(n)のパワーは同等となる。

ダブルトーク期間では、有効音声信号に追加されるエコー信号のスペクトル包絡線は、エコーだけが存在する期間のスペクトル包絡線と相違する。また、残差e_y(n)は、推定エコーに基づいて定義されたARモデルでモデル化されない区域のエネルギーを含んでおり、その結果e_y(n)のパワーは、e_z2(n)のパワーよりも大きくなるはずである。

したがって、比較は、パワー

と、パワー

の比η(n)に基づいて実施され、n時点の式は次式のとおりとなる。

η(n)を閾値Tと比較する以下の単純な規則を用いることによって、ダブルトーク期間となる傾向がある期間を検出することが可能となる。
・ η(n)<Tの場合は、ダブルトークのリスクが存在し、
・そうでない場合は、ダブルトークは存在しない。

Tの値は、経験的に固定することができるが、許容される誤警報率に応じて決定されなければならない。この例では検出閾値が固定されるが、適応化規則を想定することができる。また、従来の音声アクティビティ検出器(voice activity detector)で遭遇するようなダブルトーク(「ハングオーバ」)のリスクの判定を維持するシステムを想定することも可能である。

さらに、タイムアウトを用いることにより、フィルタの適応化当初の数秒間は制御ユニット52を短絡させ、適応化が停止されないようにすることも可能となる。当該タイムアウトは、ステップサイズをゼロに設定する段階または係数をゼロにリセットする段階を含む、適応フィルタの処理が開始された時点と適応フィルタの管理が実施された後にアクティブとなる。

コマンドは、ユニット52からエコー消去フィルタ36に放出される。当該フィルタは、ダブルトーク状況が発生し得るかどうかに応じて変更する必要がある任意のタイプのフィルタであってよい。当該フィルタは適応型であっても適応型でなくてもよく、非線形処理を含んでいても含んでいなくてもよい。

この例では、局所音声が存在しないことがモジュール52によって判定された場合には、連続的に適応化されたフィルタ42の係数H1が単にフィルタ36に送信されるだけである。逆に、局所音声が存在することがモジュール52によって判定された場合には、フィルタ36の更新は行われず、それ自体の係数の値は維持(frozen)される。

もちろん、他の手法でフィルタ36を制御することも可能であり、特に、ダブルトーク検出モジュール52の判定に従って適応化が停止されまたは許可されるフィルタ42およびフィルタ46とは独立した適応フィルタを使用することも可能である。

図5Aから図5Dは、口頭対話に適用した音響エコー消去の枠組みで、図3の方法および図4のシステムを利用して取得される結果を表している。

サンプリング周波数は8000Hzである。音響チャネルは既知のものであり、その長さは512ポイントであり、適応フィルタ42の長さはL=256である。エコー対雑音比、即ちエコーのパワーと有効音声のパワーの比は、-3dB程度である。

図5Aの曲線はエコー信号z(n)を、図5Bの曲線は有効音声pu(n)を、図5Cの曲線はマイクロホン信号y(n)をそれぞれ表す。

図5Dの曲線は、潜在的なダブルトーク期間を検出するのに使用される比ηを表す。図5Cおよび図5Dでは、斜線区域がダブルトーク期間に対応する。

ここで、図5Dの曲線は、エコーだけが存在する期間では量ηが1に近付くことを示している。エコーが存在しない期間ではηの展開は重要でない故に、ここではマスキングしてある。ダブルトーク期間では量ηが減少し、1よりもかなり小さくなり、その結果、端末2のレベルでのエコー以外の信号の存在を検出することが可能となる。もちろん、システム感度は閾値を用いてパラメータ化することができる。その場合には、例えば閾値の値として0.5を選択することができ、これに伴いダブルトーク期間の間は適応ステップサイズがゼロに設定されることになる。
・ η(n)<0.5の場合は、ダブルトークの可能性があり、
・そうでない場合は、ピュアエコーの可能性がある。

この基準を用いることにより、最も高エネルギーとなる潜在的なダブルトーク区域を検出することが可能となり、したがって適応フィルタの発散を引き起こす傾向が最も強い区域を検出することが可能となる。

もちろん、他の実施形態も可能である。特に、一変形形態では、推定エコーの判定は、時間平滑化を伴わない単一の適応フィルタリング段階を実施する。その場合には、推定エコーの特性は、適応フィルタからの出力信号に関して直接評価される。

時間平滑化以外の手法で平均音響チャネルを取得することも可能である。例えば、最小二乗法をかなりの時間枠にわたって使用し、既に時間にわたって平均された音響チャネルの伝達関数の評価を取得することも可能である。

さらに、本発明は、それ自体がコンピュータによって実行されたときに本発明の方法が実施されることになるコード命令を含む、ソフトウェアまたはソフトウェアの一部を利用して実施することができる。かかるソフトウェアは、具体的にはマイクロプロセッサまたはデジタル信号プロセッサ(DSP)のメモリに記憶することができる。

電話機等のデバイスに統合されることが企図されたプログラムコンポーネント等の専用コンポーネントを使用することも可能である。

従来技術のデバイスを示す図である。従来技術のデバイスを示す図である。本発明による方法の流れ図である。本発明によるデバイスを示す図である。本発明の方法過程の信号展開図である。本発明の方法過程の信号展開図である。本発明の方法過程の信号展開図である。本発明の方法過程の信号展開図である。

符号の説明

2；端末
6；ラウドスピーカ
8；マイクロホン
14；ダブルトーク検出モジュール
36；エコー消去フィルタ
38；ダブルトーク検出モジュール(DTD)
40；推定エコー判定ユニット
42；適応フィルタ
44；積分器
46；推定器
48；第2の疑似エコーの特性を推定するユニット
50；マイクロホン信号に関する同じ特性を推定するユニット
52；ダブルトーク検出モジュール

Claims

エコー消去フィルタ(36)を制御する方法であって、
放出される音響信号とマイクロホン信号との間の音響チャネルを表す、適応フィルタ(42)の係数(H1)を判定する段階(22)と、
前記適応フィルタの前記係数を時間平滑化する段階(24)と、
フィルタ(H2)から構成された推定器により、前記平滑化された前記係数とともに放出される前記音響信号(x(n))をフィルタリングすることによって推定エコー(z₂(n))を判定する段階(26)と、
前記推定エコーの特性を推定する段階(28)と、
前記マイクロホン信号(y(n))に関する同じ特性を推定する段階(30)と、
前記マイクロホン信号内にエコー信号(z(n))以外の信号(pu(n))が存在するかどうかを評価するために、前記推定エコーの前記特性と、前記マイクロホン信号の前記特性とを比較する段階(32)と、
前記比較に応じて前記マイクロホン信号内のエコーを消去するように前記フィルタを制御する段階(34)と
を含む方法。
前記推定エコーの特性を推定する前記段階と、前記マイクロホン信号の特性を推定する前記段階とはそれぞれ、自動回帰モデル(AR)を含む、請求項1に記載の方法。
前記マイクロホン信号の前記自動回帰モデルは、前記推定エコーの前記自動回帰モデルに関するパラメータの前記マイクロホン信号への適用を含む、請求項2に記載の方法。
前記推定エコーの特性を推定する前記段階は、対応する前記自動回帰モデルによる前記推定エコーの予測で発生する予測残差(e_z2(n))を判定する段階をさらに含み、前記マイクロホン信号の特性を推定する前記段階は、対応する前記自動回帰モデルによる前記マイクロホン信号の予測で発生する予測残差(e_y(n))を判定する段階をさらに含む、請求項2および3のいずれか一項に記載の方法。
前記推定エコーの前記特性と、前記マイクロホン信号の前記特性とを比較する前記段階は、前記マイクロホン信号が前記放出信号に対応するエコー信号だけを含む蓋然性を表す指標(η(n))を形成する段階を含む、請求項1から4のいずれか一項に記載の方法。
消去フィルタを制御する前記段階は、前記マイクロホン信号内に前記エコー信号以外の信号が存在するかどうかに応じて前記フィルタの変動を管理する段階を含む、請求項1から5のいずれか一項に記載の方法。
エコー消去フィルタを制御するデバイス用のプログラムであって、エコー消去フィルタを制御するデバイスのコンピュータによってそれ自体が実行されたときに請求項1から6のいずれか一項に記載の方法が実行されることになる命令または命令の一部分を含むプログラム。
エコー消去フィルタを制御するデバイス(38)であって、
放出される音響信号とマイクロホン信号との間の音響チャネルを表す、適応フィルタの係数(H1)を判定する手段(42)と、
前記適応フィルタの前記係数を時間平滑化する手段(44)と、
フィルタ(H2)を有し、前記平滑化された前記係数とともに放出される音響信号(x(n))を前記フィルタによりフィルタリングすることによって推定エコー(z₂(n))を判定する手段(46)と、
前記推定エコーの特性を推定する手段(48)と、
前記マイクロホン信号(y(n))に関する同じ特性を推定する手段(50)と、
前記マイクロホン信号内にエコー信号(z(n))以外の信号(pu(n))が存在するかどうかを評価するために、前記推定エコーの前記特性と、前記マイクロホン信号の前記特性とを比較する手段(52)と、
前記比較に応じて前記マイクロホン信号に関する前記エコー消去フィルタを制御する手段(52)と
を備えるデバイス。
放出信号(x(n))をブロードキャストするラウドスピーカ(6)と、マイクロホン信号(y(n))を取得することが可能なマイクロホン(8)との間の音響チャネルを提示する少なくとも1つの端末(2)を備える通信システムであって、前記端末(2)は、前記放出信号と前記マイクロホン信号との間のエコー消去フィルタ(36)と、請求項8に記載のエコー消去フィルタを制御するデバイス(38)とを備える、通信システム。
放出信号(x(n))をブロードキャストするラウドスピーカ(6)と、マイクロホン信号(y(n))を取得することが可能なマイクロホン(8)との間の音響チャネルを提示し、前記放出信号と前記マイクロホン信号との間のエコー消去フィルタ(36)と、請求項8に記載のエコー消去フィルタを制御するデバイス(38)とを備える通信端末(2)。