JP2016502779A - 音響エコー除去のためのシステムおよび方法 - Google Patents

音響エコー除去のためのシステムおよび方法 Download PDF

Info

Publication number
JP2016502779A
JP2016502779A JP2015539713A JP2015539713A JP2016502779A JP 2016502779 A JP2016502779 A JP 2016502779A JP 2015539713 A JP2015539713 A JP 2015539713A JP 2015539713 A JP2015539713 A JP 2015539713A JP 2016502779 A JP2016502779 A JP 2016502779A
Authority
JP
Japan
Prior art keywords
echo
signal
utterance
acoustic
delay
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015539713A
Other languages
English (en)
Other versions
JP6291501B2 (ja
Inventor
ワイス,フェリックス,イマニュエル
ベルジン,リバロル
ライアー,アナス,ナガラジャ
ガナパティラジュ,アラビンド
ブラック,ケビン,チャールズ
チェルバラジャ,スリナス
Original Assignee
インタラクティブ・インテリジェンス・インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インタラクティブ・インテリジェンス・インコーポレイテッド filed Critical インタラクティブ・インテリジェンス・インコーポレイテッド
Publication of JP2016502779A publication Critical patent/JP2016502779A/ja
Application granted granted Critical
Publication of JP6291501B2 publication Critical patent/JP6291501B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B3/00Line transmission systems
    • H04B3/02Details
    • H04B3/20Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other
    • H04B3/23Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other using a replica of transmitted signal in the time domain, e.g. echo cancellers
    • H04B3/234Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other using a replica of transmitted signal in the time domain, e.g. echo cancellers using double talk detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B3/00Line transmission systems
    • H04B3/02Details
    • H04B3/20Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other
    • H04B3/23Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other using a replica of transmitted signal in the time domain, e.g. echo cancellers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Abstract

音響エコー除去のためのシステムおよび方法が提示される。エコーキャンセラは、たとえば、変化する環境にある複数の話者による長距離電話会議などの状況において生じる場合がある音響およびハイブリッドエコーの低減を実施する。エコー除去は、少なくとも1つの実施形態において、類似性測定、履歴値からのエコー除去パラメータの統計的判定、周波数領域操作、ダブルトーク検出、パケット損失検出、信号検出、および雑音減算に基づいてもよい。【選択図】図7

Description

本発明は、一般的には、遠隔通信システムおよび方法、ならびに、通信ネットワークに関する。より詳細には、本発明は、通信ネットワークにわたるエコーをなくすことに関する。
音響エコー除去のためのシステムおよび方法が提示される。エコーキャンセラは、たとえば、変化する環境にある複数の話者による長距離電話会議などの状況において生じる場合がある音響およびハイブリッドエコーの低減を実施する。エコー除去は、少なくとも1つの実施形態において、類似性測定、履歴値からのエコー除去パラメータの統計的判定、周波数領域操作、ダブルトーク検出、パケット損失検出、信号検出、および雑音減算に基づいてもよい。
一実施形態において、音響入力のための手段と、上記音響入力から音響信号を生成するための手段と、上記音響信号を送信するための手段と、上記音響信号を周波数領域に変換するための手段と、類似性測定を実施するための手段と、遅延推定を実施するための手段と、エコーパラメータ推定を実施するための手段と、統計的エコー検証を実施するための手段と、発話を検出するための手段と、ダブルトークを検出するための手段とを備える、音響エコーを除去するためのシステムが説明される。
別の実施形態において、音響エコー除去のための方法であって、エコーモデルパラメータを初期化するステップと、発話に関する音響を分析するステップと、発話が検出されているか否かを判定するステップであって、発話が検出されていない場合、上記発話に関する音響の分析を継続する、ステップと、発話が検出されている場合、エコー遅延を推定して上記エコーモデルを検証するステップと、エコーが存在するか否かを判定するステップであって、エコーが存在しない場合、プロセスを継続する前に発話に関する音響の分析を継続して、ステップcからプロセスを反復する、ステップと、ダブルトークが存在するか否かを判定するステップであって、ダブルトークが存在する場合、ダブルトークを有するエコーに関するパラメータを計算し、ダブルトークが存在しない場合、通常のエコーに関するパラメータを計算する、ステップと、エコー減算を実施するステップと、エコーを追跡して上記エコーモデルを更新するステップと、依然としてエコーが存在するか否かを判定するステップであって、エコーが存在しない場合、上記方法を新たに開始し、エコーが存在する場合、ステップf)で開始して上記方法を反復する、ステップとを含む、方法が説明される。
別の実施形態において、音響入力のための手段と、上記音響入力から音響信号を生成するための手段と、上記音響信号を送信するための手段と、上記音響信号を時間領域から周波数領域に変換するための手段と、類似性測定および遅延推定、統計的エコー検証、ならびにエコーパラメータ推定のうちの1つまたは複数を実施するための手段と、発話を検出するための手段と、ダブルトークを検出するための手段とを備える、通信ネットワークにわたる音響エコーを除去するためのシステムが説明される。
別の実施形態において、音響信号を変換するステップと、エコーモデルパラメータを初期化するステップと、発話に関する上記音響信号を分析するステップと、発話の存在を検出するステップと、エコー遅延を推定して上記エコーモデルを検証するステップと、エコーの存在を検出するステップと、ダブルトークの存在を検出するステップと、ダブルトークを有するエコーおよびエコーのうちの少なくとも1つに関するパラメータを計算するステップと、音響信号からエコーを減算するステップと、上記エコーモデルを更新するステップと、エコーの存在が低減されるか否かを判定するステップとを含む、音響エコー除去のための方法が説明される。
エコーの一実施形態を示す図である。 エコーキャンセラシステムの動作の一実施形態を示す図である。 修正エコーキャンセラシステムの動作の一実施形態を示す図である。 類似性測定の一実施形態を示す図である。 類似性モジュールの構成要素の一実施形態を示す図である。 ヒストグラムの一実施形態の図である。 エコー除去プロセスの一実施形態を示す流れ図である。 収束時間の一実施形態の図である。 低〜0収束時間でのエコー除去の一実施形態の図である。 VoIPネットワークにわたるエコーの一実施形態を示す図である。
本発明の原理の理解を促進する目的のために、ここで、図面に示されている実施形態が参照され、これを説明するために特定の文言が使用される。それにもかかわらず、それによって本発明の範囲の限定は意図されていないことは理解されよう。当業者に通常想起されるような、説明されている実施形態における任意の変更およびさらなる修正、ならびに、本明細書に記載されているような本発明の原理の任意のさらなる応用が企図されている。
電話会議などの環境において電話呼を正確に送達するためにエコーをなくすことが所望される。電話会議などの電話呼の間にハンズフリーデバイスを使用することによって、エコーが発生する可能性がある。たとえば、遠端発呼者からの発話がスピーカフォン、またはハンズフリー携帯電話から発せられ、その後、部屋の表面から反射することによって、それ自体が反復する。この結果、エコーがもたらされる。エコーはその後、遠端マイクロフォンによって拾われる場合がある。遠端発呼者が自身の音声のエコーを聞くというフィードバックループが形成される場合がある。海外の参加者を含む電話会議などのいくつかの状況においては、1秒よりも長い遅延がもたらされている。
呼からエコーを削除または除去するのに失敗すると、多くの場合、通話品質が著しく劣化する結果になり得る。音響およびハイブリッド環境には変動し制御できないという性質があり、その結果として、長い遅延、エコー効果の時間依存性、エコーテール、周波数依存エコー、およびエコー歪などの、複雑なエコーパターンがもたらされる可能性がある。たとえば、以前のエコー除去手段は、一般に、ネットワーク構成に基づいて発生する可能性がある非常にレベルの低いエコーを検出することができない。
フィードバックを止め、明瞭な通信を可能にするために、音響エコー除去のデジタル信号処理技法が使用され得る。VoIPネットワークなどのネットワークは、信号が最小から中程度の劣化を被ることによって、雑音が多くなることが多い。エコー除去のための手段は、雑音の存在下で動作すべきである。上記手段はまた、これらのネットワークにおいて発生する待ち時間およびパケット損失の効果を考慮に入れることが可能でもあるべきである。最後に、エコーキャンセラによって実施される動作は、信号の処理に対して顕著な遅延を一切付加することなく、効率的であるべきである。
エコーキャンセラ(EC)は、たとえば、VoIPおよび公衆交換電話網(PSTN)などの通信ネットワークにわたって、または、電話機などのエンドポイントにおいて受信される信号からエコーをなくす信号処理動作として動作し得る。一般的に、ECは、変化する環境にある話者たちによる電話会議などの設定において生じる音響およびハイブリッドエコーの低減を実施する。音響エコーは、近端話者から送信される信号が、遠端話者のマイクロフォンによって拾われ、遠端話者の信号の一部として近端話者に戻るときに発生する。近端および遠端という用語は、通常、通信ネットワークの両端において動作しているものであり得る、論議中のECに対して定義される。もう1つのエコー源は、PSTNの配線特性の変動に起因する遠端からの電気エネルギーの反射であるハイブリッドエコーであり得る。
エコー除去のほとんどの既存の方法は、遅延を求めるために、時間領域方法を使用するか、または、2つの信号の離散コサイン変換の相互相関を使用するかのいずれかである。少なくとも1つの実施形態において、ECは、信号雑音および長い遅延の存在下でこれをよりロバストにする有効なフィルタパラメータの統計的判定を実施する。
エコー除去は、いくつかのシステムにおいて、専用マイクロプロセッサ、たとえば、Texas Instruments TMS320C8xによって実行され得る。これは、このアルゴリズムが1秒あたり1千万以上の命令という量の計算を必要とするためである。しかしながら、VoIPネットワークにおいては、システム全体がサーバまたはコンピュータ内に存在するため、マイクロプロセッサを使用することはできない。VoIPネットワークに関して、たとえば、VoIPネットワークが、エコー信号と関連付けられる通常の遅延の上に、それ自体の遅延を付加するか否か、劣化を増大させるおそれがある、低ビットレートコーデックによって導入される信号圧縮アーティファクト、および、パケット損失をもたらすおそれがある、IPネットワークの固有の信頼性の欠如などの問題を考えなければならない。単一のサーバ上で複数インスタンス(たとえば、数百の全二重電話呼)のエコーキャンセラを同時に取り扱うことも望ましい。
当業者は本開示から、本明細書に開示されている様々な方法は、非常に多くの異なる形態のデータ処理機器によって実施されてもよいことを認識しよう。機器は、非限定的なほんの一例を挙げると、(1または複数の)適切なソフトウェアプログラムを実行するためのデジタルマイクロプロセッサおよび関連メモリを含んでもよい。本明細書に開示する実施形態を実施するのに使用されるハードウェア、ファームウェアおよびソフトウェアの特定の形態は、本発明にとって重要ではない。
図1は、全体的に100において示す通信ネットワークにおけるエコーの一実施形態を示す図である。通信ネットワークの一例は、限定ではないが、VoIPネットワークを含んでもよい。送信される近端信号がTXとして表される。エコーが付加されている、受信される遠端信号125がRXとして表される。ネットワーク110を通じて遠端信号120が進む該ネットワーク110は、音響エコー115をも送信する。TX105がネットワーク110を通じて進むとき、エコー115は遠端話者のマイクロフォンによって生成され、遠端話者の信号の一部として近端話者に送信される。受信される遠端発話に加えてエコー信号が存在することから、ダブルトークがもたらされ得る。したがって、受信信号125はエコー115を含む。
図2は、全体的に200において示すエコーキャンセラシステムの一般的な動作の一実施形態を示す図である。近端信号210は、y(n)によって表され得、一方で、遠端信号250は、x(n)+r(n)によって表され得る。近端信号210は、音響入力205においてによって生成され得、その一例は人間の発話であってもよい。望ましくないエコー216はr(n)として表され得るエコーキャンセラは、送信信号y(n)210および受信信号x(n)+r(n)250を使用してr(n)を推定し、それによって、エコーキャンセラはそれを除去することができる。信号は、話者215からエコー経路230を介して進んだ後、マイクロフォンx(n)255において望ましくないエコー216と重ね合わされ得る。遠隔デバイス260は、マイクロフォン255およびスピーカ215を含んでもよい。遠隔デバイス260はシステムにわたるエコーを生成する場合がある。
近端信号y(n)210は、エコーキャンセラ200のための基準信号として利用可能であり得る。これは、エコーキャンセラ200によって、
Figure 2016502779
として表されるエコー225の推定値を生成するために使用され得る。エコー削除段階245の間に、推定エコーが遠端信号+エコーから減算されて、送信される遠端信号240、すなわちu(n)がもたらされる。したがって、エコー推定器または図示されるようなNLMS適応フィルタ220が
Figure 2016502779
を推定するためにx(n)+r(n)を考える必要があるとき、送信される遠端信号240、すなわちu(n)は、
Figure 2016502779
として表すことができる。理想的には、
Figure 2016502779
として表される任意の残差信号は、信号が、エコー除去後に、その一例が受信機であってもよい音響出力235に達したときに非常に小さいか、または聞こえないべきである。
正規化最小二乗平均(NLMS)適応フィルタ220は、最小二乗平均(LMS)アルゴリズムの変形であるアルゴリズムを利用することができ、入力信号210の累乗を考慮に入れることができる。LMSアルゴリズムは、最急降下の勾配ベースの方法を使用する適応的アルゴリズムであり得る。適応フィルタは、その係数を調整して、その出力と未知のシステムのそれとの間の平均二乗誤差を最小化する。エコー除去は、サンプルごとに時間領域において実施される。
元々送信された信号が送信信号または受信信号に再現する場合に、エコー遅延が発生する。VoIPネットワークのエコー遅延は、様々な要因に起因して非常に大きくなる場合がある。ネットワーク経路265は、エコー遅延の長さに関与する1つのそのような要因の一例であり得る。ネットワーク経路265が長くなっていることは、エコー遅延が長くなっていることを意味し得る。1秒を超える遅延が観測されている。時間領域実施態様において、そのような長いエコー遅延によって、エコーを除去するためにNLMSフィルタ220は、非常に多数のタップを有する必要があることになる。そのような長いフィルタは、過度に費用がかかり推定するのが実際的ではない計算量を必要とする。
図3は、全体的に300において示す修正エコーキャンセラシステムの一実施形態を示す図である。このシステムにおいて、図2に示すようなNLMS適応フィルタ220は、高速フーリエ変換(FFT)モジュール305aおよび305b、類似性測定および遅延推定モジュール310、統計的エコー検証モジュール315、およびエコーパラメータ推定モジュール320を含んでもよい他の構成要素に置き換えられる。図面はエコーパラメータ推定モジュール310、統計的エコー検証モジュール315、および類似性測定および遅延推定モジュール310を単一のモジュール306にともにグループ化されるものとして示しているが、これは明瞭にするために行われており、それらはそのようにともにグループ化される必要はない。本発明におけるすべての動作は、以前に図2において使用されていたような時間領域の代わりに、高速フーリエ変換(FFT)モジュール305a、305bを使用して、信号を変換することによって、周波数領域において実施される。
類似性測定および遅延推定モジュール310は、従来のNLMSアルゴリズムよりも少ない動作を実施する類似性測定を利用する。これは、図2におけるような1秒を超える遅延を取り扱うことが可能であるようにするために、NLMS適応フィルタを使用するときに必要になるサンプルごとの多大な乗算および加算に代わるものである。
エコー遅延は、送信信号が受信信号に再現するのにかかる時間を指し得る。遅延の推定は、1秒よりも長い遅延を有するエコーを検出することができ、システムの機能が単一のコンピュータでの多くの全二重呼に対してエコー除去を実施することを可能にするアルゴリズムを使用して実施される。エコーを認識するために、少なくとも1つの実施形態において、周波数領域において遠端信号の最近のフレームが保持される。これらのフレームはNによって表され、ここでN=100、約1.5秒の音響信号のブロックを表し得る。周波数領域で表される近端信号の最近のフレームが保持される。K、ここでK=5、によって表されるこれらのフレームは、約80ミリ秒(ms)の音響信号のブロックを表し得る。近端信号および遠端信号からの最近のK個のフレームN−Kの比較が、以下のように試験される。
Figure 2016502779
ここで、i=1,...,N−K
Diff(i)がi=Iについての閾値を下回る場合、エコーが存在し、ここで、iは1からN−Kまで変化するインデックスを表し、mも、この総和に使用されるインデックスを表す。
図4は、全体的に400において示す類似性測定の一実施形態を示す図である。エコー追跡挙動およびウィンドウが、統計モデルによって、観測されるエコードリフトおよび待ち時間の補正に基づいて動的に求められ得る。遅延が分かっていない場合、少なくとも1つの実施形態において、この探索はNフレーム410に及び得る。非限定例において、Nを100フレームとする。これは約1.5秒の信号を含み得る。エコー遅延415が分かると、処理を低減するために、元のNフレーム全体の代わりに、遅延の周囲の領域が探索される。Dがエコー遅延を表すと仮定すると、制限された探索領域は[D−M,...,D+M]まで低減され、ここで、Mは探索間隔を定義し、10に等しい。これは、約160msの信号を含む。少なくとも1つの実施形態において、エコー遅延が見つかると、その値は±160msの間隔において変動し得ると仮定される。したがって、計算負荷を1/3に低減することができる。
類似性測定および探索領域の低減のプロセスは、周波数領域において実施され、それによって、探索される各要素は、正規化振幅周波数ベクトルを表し得る。本開示に含まれる所与のサンプル値は、電話通信に使用される8kHzのサンプリングレートを有する信号に対して機能する特定の実施態様に特異的であることが留意されるべきである。これらの値は、他のサンプリングレートに対しては調整されることになる。少なくとも1つの実施形態において、正規化振幅周波数ベクトルは、128個のビンにおいて表され得る。遠端発話(RX)405、ここでRXはエコーと混合した遠端信号からのKフレームと、近端発話(TX)410からのNフレームとの間の差420が測定され、合計される。jによって表されるような各フレームについて、差の式は以下によってDとして定義することができる。
Figure 2016502779
式中、X(k)およびX(k)はそれぞれ、フレームjの近端信号Xおよび遠端信号Yの、ビンKにおける振幅値である。一般性を損なうことなく、この式は以下のように書き換えることができる。
Figure 2016502779
この第2の式において、Dの値は、和がより小さい要素に分割されていることを除いて、第1の式におけるものと同じである。これらの部分和は、以下の式によって表すことができる。
Figure 2016502779
異なる実施形態においては異なる数の要素が存在し得るが、この事例においては32の増分が使用される。1から128に及ぶ第1の式において記載されている和に代わる、nからn+32に及ぶ上述したような部分和が、少なくとも1つの実施形態において使用されてもよい。
少なくとも1つの実施形態において、類似性測度Sは、以下のように、部分和を累算することによって4フレームごとに計算されてもよい。
S=Σn=1,33,65,97j,n
遅延の計算に使用される類似性測度はその後、たとえば、4フレームごとに更新される。128回に代わって32回の減算が都度行われるため、この小さい遅延によって、計算負荷を1/4に低減することが可能になる。
一実施形態において、帯域のサイズは、128の値について、合計4帯域で32であってもよい。帯域サイズは、同じ128の合計値について8のサイズで16帯域が選択され得るように変更されてもよい。ネットワーク内で観測されるエコーのタイプに応じて、スペクトル帯域が重なる場合がある。エコー帯域のサイズは、所望のシステム性能に基づいて増減してもよい。帯域は必ずしも隣接している必要はない。たとえば、第Nの帯域ごとのようなストライドも使用されてもよい。これは以下の式に示されている。
Figure 2016502779
Figure 2016502779
図5は、全体的に500において示す、図3からの類似性モジュール310の構成要素の一実施形態を示す図である。類似性モジュールは、RX505aおよびTX505b信号を周波数領域に変換することができる。少なくとも1つの実施形態において、変換は、128ビンFETを使用して実施される。2つのスペクトルが、それらの信号レベルが異なる場合において正規化される(すなわち、両方のスペクトルベクトルの成分の和が1に等しくされる)510a、510b。ダブルトークが存在しない倍、TX信号のエネルギーはRX信号のエネルギーよりも大きい。類似性計算515において所望されない信号内のスペクトル領域を一切なくすためにバンドパスフィルタリングが実施される。その後、類似性値520がモジュールから出力される。少なくとも1つの実施形態において、類似性値、または測度520は、5つのRXおよびTXフレームにわたって平均される2つのスペクトルベクトル間の距離(たとえば、128ビン)として定義される。0.6を下回る値、ここで0.6は固定閾値であるが、少なくとも1つの実施形態においてエコーを示し得る。
類似性モジュールは、フレームk、k+2、k+5について、diff(i)がこれらのフレームの特定の閾値を下回るため、エコーの存在を報告し得る。類似性モジュールはまた、フレームk+1、k+3、k+4について、diff(i)がこれらのフレームの特定の閾値よりも大きいため、エコーが存在しないことも報告し得る。
これらの振動はエコーであるとは考えられないものであり得る。エコーの存在を検証するために、統計的エコー検証モデル315における統計的手法は、少なくとも1つの実施形態において、連続するN個について、「類似性測定およびエコー遅延推定」モジュールKによって与えられる推定遅延の場合、これらのN個の遅延が75%よりも大きい比K/Nと正確に同じ値を有する場合、エコーがあるという過程に基づいてもよい。
現在のデータから最も可能性の高い仮説を引き出すためにヒストグラムが分析され、モデルパラメータのより正確な推定が可能になる。本明細書に記載する手法によって、各帯域または帯域グループについてヒストグラムを保持することによって、ただの平均遅延の代わりに、個々の周波数帯域または帯域グループにおいてエコー遅延を求めることができる。多様な分布のヒストグラムを分析することによって、複数のエコーを引き出し、首尾よく削除することができる。フィルタパラメータの変化を追跡するために履歴値が選択されることを所与として、時間変動エコーも処理することができる。一実施形態において、最近の20フレーム(320ms)についてモデルパラメータの統計が循環バッファ内に記憶され、最近のデータが利用可能になるので、最も古い値が削除される。図6において、例示的な遅延分布のヒストグラムが提供される。ヒストグラムは、20個の推定遅延の分布、および、エコーが存在するか否かが判断されるプロセスを示す。このヒストグラムは一例として提供され、限定であるようには意図されない。20個の遅延605のうち15個が11〜15msであることが分かるため、受信信号は、12.5msの遅延を有するエコーを含み得る。同様に、一実施形態において、20個の推定遅延のうち6個が同じビン内に入る場合、エコーはないか、またはRX信号内にエコーはもはや存在しないと判定することができる。たとえば、20個の遅延のうち2個が1〜5ms、610にあることが分かる。これは、エコーがないか、またはもはや存在しないことを示し得る。
少なくとも1つの実施形態において、遠端信号に適用されるべきフィルタリングの性質は、信号内に存在するエコーに類似し得るように定義される必要がある。フィルタは、スピーカ、マイクロフォン、および部屋の音響属性のモデルであり得る。システムは周波数領域において動作するため、エコーパラメータ推定320(図3)中に、フィルタ特性をシミュレートするために、エコーパラメータが保持され得る。
エコー帰還損失は、送信信号(TX)レベルと、受信信号(RX)中に存在するエコーレベルとの間の比として記述することができる。これはデシベル(dB)単位で表される。周波数ビンあたりのエコー帰還損失が分かると、エコー削除のために近端信号(TX)を、エコーに類似するようにするために適切に重み付けすることが可能になり、周波数領域において正規化伝達関数も評価しなければならない。
エコーの合理的な推定値を得るために信号を修正するのに使用されるフィルタは、少なくとも1つの実施形態において、エコー帰還損失および正規化伝達関数によって特徴付けられる。フレーム番号kの遠端信号のFFTはYによって表され得、エコー帰還損失はERLによって表され得、遠端信号と近端信号との間の正規化伝達関数は
Figure 2016502779
によって表され得る。デジタル信号処理を使用して、以下の式によって表されるERLがdB単位で評価される。
ERL=20log10(X/Y
式中、Xは近端信号のFFTである。したがって、修正またはフィルタリングされた遠端信号は以下の式によって与えられる。
Figure 2016502779
遅延Dが考慮に入れられる場合、出力Uは以下のように表され得る。
Figure 2016502779
時間領域信号uが逆高速フーリエ変換(IFFT)によって得られる。
u=IFFT(U)
この演算の結果として、重ね合わされて先行するブロックに付加されて出力信号を形成する256個のサンプルの信号ブロックがもたらされる。
図3は付加的に、エコーキャンセラ300の少なくとも1つの実施形態に適用されるものとしての発話検出モジュールを示す。この適用は、種々のエコーパラメータを評価すべきか否かが判定され得る前に実施されなければならない。3つの発話検出器、すなわち、RX発話検出器330、TX発話検出器335、およびダブルトーク検出器340が図3に示されている。発話検出は、連続したフレームのスペクトルの変動性および推定信号電力に基づく。検出器は一般に、信号レベルが特定の閾値よりも大きい場合、発話が存在すると仮定するのが合理的であるという原理をもとに設計される。信号レベルを、複数のフレームにわたるスペクトルの変動と組み合わせることによって、システムの確度およびロバスト性を増大させることが可能である。
RX発話検出器330は、エコーと遠端発話者との間で区別しない。RX発話は、遠端発話者が話していること、または、エコーが存在することを意味し得る。エコーのレベルは相対的に低いものであり得るため、RX発話検出器は、他の2つの発話検出器よりも感度が高くてもよい。RX発話が存在する場合、遠端発話レベルが遠端発話閾値よりも高いこと、または、遠端発話スペクトル変動がスペクトル変動閾値よりも大きいことを仮定することができる。これらの閾値の値は、発話検出器が、背景雑音に対する誤トリガを最小限に抑えながら、低いエコーに対してトリガするように選択されなければならない。閾値が小さすぎる場合、背景雑音がマイクロフォンによって拾われ、誤検出がもたらされる場合がある。閾値が大きすぎる場合、発話の一部またはエコーの一部が検出されない場合がある。
TX発話検出器335は、エコーの存在についての探索を実施することができる。探索は、近端発話者の活動によってトリガされ得る。近端発話が存在する場合、近端発話レベルが近端発話閾値よりも高いこと、または、近端発話スペクトル変動がスペクトル変動閾値よりも大きいことを仮定することができる。この閾値は、遠端発話の閾値よりも高い値を有し得る。
ダブルトーク検出器340は、遠端および近端野療法の発話が存在するか否かを判定することができる。もはや有効であると期待されない類似性計算に基づいてパラメータが変化しないように、エコーの存在下でダブルトークを正確に検出することが必要である。ダブルトーク検出によって、少なくとも1つの実施形態において、発話が存在するときに削除されるエコーの量を制御することが可能である。エコーを超える3dBの信号が、通常、ダブルトークの指標として考慮される。遠端発話が存在し、近端発話が存在し、かつ、遠端発話のレベルがエコーレベルに3dBを加えた値よりも大きい場合、ダブルトークが存在すると仮定される。
エコーの音量が大きいため検出の信頼性が低減するおそれがある状況を考慮に入れるため、TXと適当な遅延を有するRXとの間の類似性を測定するための類似性測定もシステム内に追加される。たとえば、電話会議において第1の発話者が話しているときなどに、2つの明瞭に異なるエコーレベルが存在する場合がある。発話者1は大きい音量で話しているものであり得、したがって、それらは高いエコーレベルを有し得る。発話者2はより小さい音量で話しているものであり得、したがって声が小さくなる結果として、エコーレベルが、発話者1が有し得るよりも小さくなり得る。したがって、ダブルトークの存在下では、類似性値は、エコーのみがある場合により高い。少なくとも1つの実施形態において、3dBの制約に加えて0.65〜0.85の類似性値のヒステリシスが、ダブルトークの検証に使用される。
図7に示すように、全体的に700において示す、エコー除去のためのプロセス700の一実施形態が提供される。プロセスは、システム300(図3)の要素のいずれかまたはすべてにおいて動作可能であってもよい。エコー除去自体は以下のような、周波数領域における、近端信号と推定エコーとの間の減算として定義され得る。
Figure 2016502779
式中、
Figure 2016502779
ステップ705において、エコーモデルパラメータが初期化される。たとえば、初期化は、信号が、FFTを使用して時間領域から周波数領域へと変換されることによってトリガされてもよい。制御はステップ710に引き継がれて、プロセス700は継続する。
ステップ710において、発話の存在について音響が分析される。制御はステップ715に引き継がれて、プロセス700は継続する。
ステップ715において、発話が検出されたか否かが判定される。発話が検出されたと判定される場合、制御はステップ720に引き継がれて、プロセス700は継続する。発話が検出されなかったと判定される場合、制御はステップ710に戻って引き継がれて、プロセス700は継続する。
ステップ715における判定は、任意の適切な基準に基づいて行われてもよい。たとえば、発話検出は、(図3において上述したような)TX発話検出器、RX発話検出器、およびダブルトーク検出器によって実施される。検出器は一般に、信号レベルが特定の閾値よりも大きい場合、発話が存在すると仮定するのが合理的であるという原理をもとに設計される。これらの閾値の値は、エコーキャンセラの一般的な使用事例から収集されるデータの分析から慎重に選択されなければならない。閾値が小さすぎる場合、背景雑音がマイクロフォンによって拾い上げられ、誤検出がもたらされる場合がある。閾値が大きすぎる場合、発話の一部またはエコーの一部が検出されない場合がある。近端発話が存在する場合、近端発話レベルが近端発話閾値よりも高いこと、または、近端発話スペクトル変動がスペクトル変動閾値よりも大きいことを仮定することができる。遠端発話が存在する場合、遠端発話レベルが遠端発話閾値よりも高いこと、または、遠端発話スペクトル変動がスペクトル変動閾値よりも大きいことを仮定することができる。この閾値は、近端発話の閾値よりも高い値を有し得る。
ステップ720において、エコー遅延が推定され、エコーモデルが検証される。たとえば、上述したようなアルゴリズムが使用されて、遅延が推定される。エコーモデルの検証は統計的であり、連続するN個について、これらのN個の遅延のうち、「類似性測定およびエコー遅延推定」モジュールKによって与えられる推定遅延が75%よりも大きい比K/Nと正確に同じ値を有する場合、エコーがあるという仮定に基づいてもよい。制御はステップ725に引き継がれて、プロセス700は継続する。
ステップ725において、エコーが存在するか否かが判定される。エコーが存在すると判定される場合、制御はステップ730に引き継がれて、プロセス700は継続する。エコーが存在しないと判定される場合、制御はステップ710に戻って引き継がれて、プロセス700は継続する。
ステップ725における判定は、任意の適切な基準に基づいて行われてもよい。たとえば、上述したような統計的分析とともに、上述したようなアルゴリズムが使用されて、エコーが検出されるか否かが判定されてもよい。
ステップ730において、ダブルトークが存在するか否かが判定される。ダブルトークが存在すると判定される場合、制御はステップ735に引き継がれて、プロセス700は継続する。ダブルトークが存在しないと判定される場合、制御はステップ740に引き継がれて、プロセス700は継続する。
ステップ730における判定は、任意の適切な基準に基づいて行われてもよい。たとえば、ダブルトークの間、遠端の人が発話しているときに信号の任意の劣化を回避するために、推定エコー
Figure 2016502779
に減衰係数α、ここで0<α<1、が乗算されてもよく、このとき、出力は以下によって定義される。
Figure 2016502779
定数αは、ダブルトークの間に削除されるエコーの量を制御することができる。α=0の場合、ダブルトークの間にエコーはまったく削除されず、これは概して、ほとんどのシステムにおけるダブルトークの間に当てはまる。ダブルトークの間のα=0.5および他のときの1のシステム値によって、システムにわたるより良好な制御が可能になる。少なくとも1つの実施形態において、エコーレベルの上の3dBの信号レベルがダブルトークの指標として考慮される。遠端発話が存在し、近端発話が存在し、かつ、遠端発話のレベルがエコーレベル+3dBよりも大きい場合、ダブルトークが存在すると仮定される。ダブルトークの間に削除されるエコーの量を変更する理由は、エコー削除後に信号内で聞こえるアーティファクトを回避または低減するためである。
ステップ735において、ダブルトークの存在下におけるエコーについてのパラメータが計算される。制御はその後ステップ745に引き継がれて、プロセス700は継続する。
ステップ740において、ダブルトークの不在下におけるエコーについてのパラメータが計算される。制御はその後ステップ745に引き継がれて、プロセス700は継続する。
ステップ745において、エコー減算が実施される。遅延が正確に求められると、RX信号に伝達関数を適用することによって、エコーが除去される。伝達関数は周波数(スペクトル)領域におけるTX信号とRX信号との比であり、(TX/RX)として表すことができる。
この比はヒストグラムから、最も可能性の高い遅延値に対応するものを選択することによって得られる。図6は、全体的に600において示すヒストグラムの一実施形態である。少なくとも1つの実施形態において、エコー除去は、長い遅延および複数のエコーに対してより効果的である統計的手法を使用して、周波数領域において実施される。周波数領域において実施することによって、フィルタ係数を計算するための多大な計算を利用する適応フィルタリング、および、フィルタ係数に収束するための整定時間に加えての、エコーを完全に削除するための他の非線形演算の必要がなくなる。制御はステップ750に引き継がれて、プロセス700は継続する。
ステップ750において、エコーが追跡されて、エコーモデルが更新される。制御はステップ755に引き継がれて、プロセス700は継続する。
ステップ755において、エコーが依然として存在するか否かが判定される。エコーが依然として存在すると判定される場合、制御はステップ730に戻って引き継がれて、プロセス700は継続する。エコーが存在しないと判定される場合、制御はステップ705に戻って引き継がれて、プロセス700は継続する。
ステップ755における判定は、上述したような方法のように、任意の適切な基準に基づいて行われてもよい。制御がステップ705に戻って引き継がれると、エコーモデルにおけるパラメータがリセットされ、プロセスは継続する。
少なくとも1つの実施形態において、エコー除去は、自動音声認識(ASR)を利用する対話型音声応答(IVR)システムにおいて必要とされる。発呼者に対して再生されているプロンプトからのエコーがASRエンジン内の発話検出器をトリガしてしまうのを防止するために、エコー除去が重要な役割を果たす。エコーが存在する場合、誤った割り込みが繰り返される結果となり、したがってユーザ体験が不満足なものになってしまう。そのようなエコーは、除去されない場合、システムによって、誤った対話をトリガする可能性があるユーザからの応答として理解される可能性がある。
図8は、全体的に800において示すエコーキャンセラにおける収束時間805の一実施形態の図である。収束中、エコー信号810のレベルは依然として相対的に高いため、これがASRエンジンの発話検出器をトリガする可能性があり、エコーがユーザからの応答と混同される。これが発生するのを防止するために、一実施形態において、エコーキャンセラの出力が、エコーの存在を検出するのに必要とされる予測フレーム数(収束時間)だけ遅延される。エコーが検出される場合、エコーは、その後ASRエンジンに出力される、バッファリングされているフレームから遡及的に削除される。本発明における収束時間は短いため、導入される遅延が、音声会話のユーザ体験を著しく損なうことはない。遅延の知覚をさらに低減するために、少なくとも1つの実施形態は、ASRエンジン内の発話検出器からの情報の代わりに、エコーキャンセラの状態情報から本発明によって導出される発話活動信号に基づいてプロンプト(「割り込み」)を停止する。別の実施形態において、エコーが遡及的に削除されたバッファが、後続の発話フレームに対する遅延を低減またはなくすために、リアルタイムよりも速く下流の消費者(ASRエンジンなど)に供給されてもよい。
図9は、全体的に900において示す、低〜0収束時間でのエコー除去の一実施形態の例示的な図である。出力全体が、図示されているようにより均一になり得る。少なくとも1つの実施形態において、収束時間を反映するTの値は150msに等しい。
少なくとも1つの実施形態において、PSTNネットワークにわたる音響エコーは一般に、500msよりも長い遅延を示さない。しかしながら、VoIPネットワークにおいて、遅延はそれよりも長くなる可能性がある。図10は、全体的に1000において示す、VoIPネットワークにわたるエコー、および、2つの電話機1005a、1005b間の通信の一実施形態を示す。音響信号はネットワーク1015を通過して、電話機1005aと電話機1005bとの間を進む。ネットワーク1015はまた、限定ではないが、コンピュータ1010a、1010bのような、他のデバイスにも接続されてもよい。デバイスの他の例は、サーバ、ファクシミリ機などを含んでもよい。ネットワークは、パケット損失1025、遅延1030、およびジッタ1035のような、音響に対するそれ自体の外乱1020を導入する。
遅延1030は、データビットがネットワークにわたって一点からもう一点へと進むのにかかり得る時間量を指定する。いくつかの他の遅延源は、処理遅延、待ち行列遅延、送信遅延、および伝搬遅延を含み得る。処理遅延は、ルータがパケットを処理するのにかかる時間であり得る。待ち行列遅延は、パケットがルーティング待ち行列において過ごす時間であり得る。送信遅延は、パケットをリンク上に押し出すのにかかる時間であり得る。伝搬遅延は、信号がその宛先に達するための時間であり得る。合計遅延を表すこれらすべての遅延の和が、実際のエコー遅延に付加されて、ネットワークにわたる最終的なエコー遅延が形成され得る。引き起こされる合計遅延は1秒を優に超える場合がある。本発明は、1秒よりもはるかに長い遅延に対処することができる。
ネットワーク1015によって導入される別の外乱が、ジッタ1035によって引き起こされる。少なくとも1つの実施形態において、ジッタ1035は、エコーキャンセラアルゴリズムによって分かる遅延に大幅な変動を導入する可能性がある、ネットワークにわたる待ち時間の変動の測度となる。ジッタ1035によって導入されるこれらの遅延の突然の変動は対処するのが困難であり、それによってアルゴリズムが一時的にエコーを見失ってしまう可能性がある。エコー遅延の探索間隔メカニズムによって、非常に長い遅延を有するエコーの処理、および、エコーが見つかった後にジッタ1035の影響を補償する制約された探索が可能になる。エコーが見つかった場合、エコーの探索は±250msの間隔にわたって行われ得る。ジッタ1035またはネットワーク1015にわたる待ち時間の変動が±250msよりも大きい場合、エコー遅延の探索は1.5秒の間隔内に再開することになる。
ネットワークによって引き起こされるもう1つの一般的な信号劣化はパケット損失1030である。パケット損失1030は、ネットワーク1015にわたって進む1つまたは複数のデータパケットがそれらの宛先に達することができないときに発生し得る。パケット損失1030は、多経路フェーディング、チャネル混雑によるパケットドロップ、または輸送中に拒絶されるパケット破損に起因する、ネットワークにわたる信号劣化などのいくつかの要因によって引き起こされる可能性がある。
パケット損失1030に対処するために、エコー検出プロセスはロバストである必要があり、単一の類似性測定のみに依拠することはできない。少なくとも1つの実施形態において、ヒストグラム方法による統計の使用によって、いくつかのデータフレームにわたって蓄積された情報に基づいて意思決定が実施されるため、システムはパケット損失に対してロバストになる。パケット損失によって影響を受け得る探索ウィンドウ内のいくつかのフレームは、一般的に、システムがエコーを見失う点まで統計を変化させることはない。
少なくとも1つの実施形態において、種々の履歴における類似性およびモデルパラメータ計算は、先行する瞬間において重なり合っているフレームに対して以前の部分値を利用する。エコーが存在する場合にのみ、正確な遅延値が計算される。エコーが求められており、エコー特性が経時的に変化しないと、ロックされている遅延推定値を用いて依然としてエコー除去が実施される必要はあるが、遅延判定に必要とされる計算は繰り返されない。エコー特性が経時的に変化する場合、ECは遅延推定値をロック解除して、新たな一連のモデルパラメータが評価される。エコーが消失することによって、モデルパラメータがリセットさせられることになり、エコーキャンセラは動作の数を自動的に低減することになる。これらの最適化によって、ECによって実施される計算動作の数が相当に低減する。
他の実施形態において、複数のエコーが受信信号(RX)中に存在する場合、遅延ヒストグラムは複数のピークを有する。これらの別個のエコーに対する推定値が作成され得、それらが同じように順に減算され得る。エコー帯域が重なり合っていると、エコー除去の、他のエコー除去による歪を回避するために、別個の伝達関数が融合される必要があり得る。
少なくとも1つの実施形態において、近端信号および遠端信号が特定の領域に集中したスペクトル濃度を有する場合、類似性計算は、対象の帯域に焦点を当てることによって最適化され得る。これによって、遠端チャネル全体にわたる類似性計算の反復性が高いことによる計算オーバヘッドが大幅に低減し、これは、長い遅延の探索が行われるときに非常に重要になり得る態様である。
本発明が図面および上記の説明において詳細に図示および説明されてきたが、これは例示と考えられるべきであり、文字通りに限定されると考えられるべきではなく、好ましい実施形態のみが図示および説明されていること、ならびに、本明細書においてかつ/または添付の特許請求の範囲によって説明されているような本発明の精神の範疇に入るすべての均等形態、変形形態、および変更形態が保護されることが所望されていることが理解される。
したがって、本発明の適切な範囲は、すべてのそのような変更形態および図面に示され明細書に記載されているものと均等なすべての関係を包含するように、添付の特許請求の範囲の最も広い解釈のみによって判断されるべきである。
本明細書において2つの非常に狭い特許請求の範囲が提示されているが、本発明の範囲は、その特許請求の範囲によって提示されているよりもはるかに広いことが認識されるべきである。本出願からの優先権の利益を主張する特許出願において、より広い特許請求の範囲が提出されることが意図されている。

Claims (63)

  1. a.音響入力のための手段と、
    b.前記音響入力から音響信号を生成するための手段と、
    c.前記音響信号を送信するための手段と、
    d.前記音響信号を周波数領域に変換するための手段と、
    e.類似性測定を実施するための手段と、
    f.遅延推定を実施するための手段と、
    g.エコーパラメータ推定を実施するための手段と、
    h.統計的エコー検証を実施するための手段と、
    i.発話を検出するための手段と、
    j.ダブルトークを検出するための手段と
    を備える、音響エコーを除去するためのシステム。
  2. 前記音響入力のための手段は、受信機を含んでもよい、請求項1に記載のシステム。
  3. 前記音響信号を変換するための前記手段は、高速フーリエ変換を実施することが可能である、請求項1に記載のシステム。
  4. 前記類似性測定を実施するための手段は、
    a.信号を前記周波数領域に変換するための手段、
    b.スペクトルを正規化するための手段、および
    c.バンドパスフィルタリングを実施するための手段
    の1つ以上をさらに備える、請求項1に記載のシステム。
  5. 前記信号を前記周波数領域に変換するための手段は、高速フーリエ変換を使用して動作することが可能である、請求項4に記載のシステム。
  6. 前記高速フーリエ変換は、128個のビンを使用して動作する、請求項5に記載の高速フーリエ変換。
  7. 前記遅延推定を実施するための手段は、第1の信号および第2の信号から最近のフレームを試験および比較することが可能である、請求項1に記載のシステム。
  8. 前記第1の信号は近端信号を含み、前記第2の信号は遠端信号を含む、請求項7に記載のシステム。
  9. 前記エコーパラメータ推定を実施するための手段は、ヒストグラムを含む、請求項1に記載のシステム。
  10. 前記発話を検出するための手段は、連続するフレームのスペクトルおよび推定信号電力に基づく変動性であることが可能である、請求項1に記載のシステム。
  11. 前記ダブルトークを検出するための手段は、
    a.発話が存在するとき削除されるエコーの量を制御するための手段と、
    b.遠端発話および近端発話の存在を判定するための手段と、
    c.類似性測度を分析するための手段と
    をさらに備える、請求項1に記載のシステム。
  12. 音響エコー除去のための方法であって、
    a.エコーモデルパラメータを初期化するステップと、
    b.発話に関する音響を分析するステップと、
    c.発話が検出されているか否かを判定するステップであって、発話が検出されていない場合、前記発話に関する音響の分析を継続する、ステップと、
    d.発話が検出されている場合、エコー遅延を推定してエコーモデルを検証するステップと、
    e.エコーが存在するか否かを判定するステップであって、エコーが存在しない場合、プロセスを継続する前に発話に関する音響の分析を継続して、ステップ(c)からプロセスを反復する、ステップと、
    f.ダブルトークが存在するか否かを判定するステップであって、ダブルトークが存在する場合、ダブルトークを有するエコーに関するパラメータを計算し、ダブルトークが存在しない場合、通常のエコーに関するパラメータを計算する、ステップと、
    g.エコー減算を実施するステップと、
    h.エコーを追跡して前記エコーモデルを更新するステップと、
    i.依然としてエコーが存在するか否かを判定するステップであって、
    i.エコーが存在しない場合、前記方法を新たに開始し、
    ii.エコーが存在する場合、ステップf)で開始して前記方法を反復する、ステップと
    を含む、方法。
  13. 前記エコーモデルパラメータを初期化するステップは、音響信号の変換によってトリガされる、請求項12に記載の方法。
  14. 前記前記変換は、時間領域から周波数領域へと行われる、請求項13に記載の方法。
  15. 前記変換は、高速フーリエ変換を使用して実施される、請求項14に記載の方法。
  16. 前記発話に関する音響を分析するステップは、前記音響信号レベルが閾値を満たすか否かを判定するステップをさらに含む、請求項12に記載の方法。
  17. 前記音響信号レベルが前記閾値よりも大きい場合、発話が存在すると判定するステップをさらに含む、請求項16に記載の方法。
  18. 前記発話に関する音響を分析するステップは、連続するフレームのスペクトルの変動性および推定信号電力を分析するステップをさらに含む、請求項12に記載の方法。
  19. 前記発話が検出されているか否かを判定するステップは、近端発話検出器、遠端発話検出器、およびダブルトーク検出器のうちの1つまたは複数によって実施される、請求項12に記載の方法。
  20. 前記エコー遅延を推定しエコーモデルを検証するステップは、
    a.前記音響の各フレームの距離を測定し合計するステップと、
    b.前記エコー遅延を数学的に推定するステップと、
    c.統計的方法を使用して前記推定値を検証するステップと
    をさらに含む、請求項12に記載の方法。
  21. 前記エコーの前記推定は、前記類似性測度の数学的表現、すなわち、
    Figure 2016502779
    式中、i=1,...,N−K
    を使用して実施される、請求項20に記載の方法。
  22. 前記エコーが存在するか否かを判定するステップは、前記類似性測度が閾値を満たす場合にエコーが存在すると判定するステップをさらに含む、請求項12に記載の方法。
  23. 前記ダブルトークが存在するか否かを判定するステップは、前記エコーレベルを上回る信号レベルが存在し、近端発話が存在し、かつ遠端発話が存在することを判定するステップをさらに含む、請求項12に記載の方法。
  24. 前記信号レベルは3dBである、請求項23に記載の信号レベル。
  25. 前記エコー減算を実施するステップは、前記遠端信号に伝達関数を適用するステップをさらに含む、請求項12に記載の方法。
  26. 前記伝達関数は、スペクトル領域における前記近端信号と遠端信号との比の関数、および、ヒストグラムの分析によって求められる、請求項25に記載の方法。
  27. 前記ヒストグラムの分析は、
    a.いくつかのフレームについて、モデルパラメータの統計を循環バッファ内に記憶するステップと、
    b.周波数帯域を使用してエコー遅延を求めるステップと、
    c.多様な分布の前記ヒストグラムを分析するステップと
    d.多様な分布が存在するエコーを抽出するステップと
    を含む、請求項26に記載の方法。
  28. 前記方法は、自動音声認識を利用する対話型音声応答システムに適用される、請求項12に記載の方法。
  29. エコーが検出される場合、前記エコーをバッファリングされているフレームから遡及的に削除するステップをさらに含む、請求項12に記載の方法。
  30. 前記方法はVoIPネットワークにおいて実施される、請求項12に記載の方法。
  31. 複数のエコーについての推定値が作成され、減算される、請求項12に記載の方法。
  32. a.音響入力のための手段と、
    b.前記音響入力から音響信号を生成するための手段と、
    c.前記音響信号を送信するための手段と、
    d.前記音響信号を時間領域から周波数領域に変換するための手段と、
    e.類似性測定および遅延推定、統計的エコー検証、ならびにエコーパラメータ推定のうちの1つまたは複数を実施するための手段と、
    f.発話を検出するための手段と、
    g.ダブルトークを検出するための手段と
    を備える、通信ネットワークにわたる音響エコーを除去するためのシステム。
  33. 前記音響入力のための手段は、受信機を含んでもよい、請求項32に記載のシステム。
  34. 前記音響信号を変換するための前記手段は、高速フーリエ変換を実施することが可能である、請求項32に記載のシステム。
  35. 前記類似性測定を実施するための手段は、
    a.信号を前記周波数領域に変換するための手段、
    b.スペクトルを正規化するための手段、および
    c.バンドパスフィルタリングを実施するための手段
    の1つ以上をさらに備える、請求項32に記載のシステム。
  36. 前記信号を前記周波数領域に変換するための手段は、高速フーリエ変換を使用して動作することが可能である、請求項35に記載のシステム。
  37. 前記高速フーリエ変換は、128個のビンを使用して動作する、請求項36に記載の高速フーリエ変換。
  38. 前記遅延推定を実施するための手段は、第1の信号および第2の信号から最近のフレームを試験および比較することが可能である、請求項32に記載のシステム。
  39. 前記第1の信号は近端信号を含み、前記第2の信号は遠端信号を含む、請求項38に記載のシステム。
  40. 前記エコーパラメータ推定を実施するための手段は、ヒストグラムを含む、請求項32に記載のシステム。
  41. 前記発話を検出するための手段は、連続するフレームのスペクトルおよび推定信号電力に基づく変動性であることが可能である、請求項32に記載のシステム。
  42. 前記ダブルトークを検出するための手段は、
    a.発話が存在するとき削除されるエコーの量を制御するための手段と、
    b.遠端発話および近端発話の存在を判定するための手段と、
    c.類似性測度を分析するための手段と
    をさらに備える、請求項32に記載のシステム。
  43. a.音響信号を変換するステップと、
    b.エコーモデルパラメータを初期化するステップと、
    c.発話に関する前記音響信号を分析するステップと、
    d.発話の存在を検出するステップと、
    e.エコー遅延を推定して前記エコーモデルを検証するステップと、
    f.エコーの存在を検出するステップと、
    g.ダブルトークの存在を検出するステップと、
    h.ダブルトークを有するエコーおよびエコーのうちの少なくとも1つに関するパラメータを計算するステップと、
    i.前記音響信号から前記エコーを減算するステップと、
    j.前記エコーモデルを更新するステップと、
    k.前記エコーの存在が低減されるか否かを判定するステップと
    を含む、音響エコー除去のための方法。
  44. ステップ(k)は、エコーが低減されるべきであると判定される場合、請求項43に記載の方法を反復するステップをさらに含む、請求項43に記載の方法。
  45. ステップ(k)は、エコーが低減されるべきでないと判定される場合、請求項43に記載の方法をステップ(f)から反復するステップをさらに含む、請求項43に記載の方法。
  46. 前記前記変換は、時間領域から周波数領域へと実施される、請求項43に記載の方法。
  47. 前記変換は、高速フーリエ変換を使用して実施される、請求項46に記載の方法。
  48. 前記発話に関する音響を分析するステップは、前記音響信号レベルが閾値を満たすか否かを判定するステップをさらに含む、請求項12に記載の方法。
  49. 前記音響信号レベルが前記閾値よりも大きい場合、発話が存在すると判定するステップをさらに含む、請求項16に記載の方法。
  50. 前記発話に関する音響を分析するステップは、連続するフレームのスペクトルの変動性および推定信号電力を分析するステップをさらに含む、請求項43に記載の方法。
  51. 前記発話の存在を検出するステップは、近端発話検出器、遠端発話検出器、およびダブルトーク検出器のうちの1つまたは複数によって実施される、請求項43に記載の方法。
  52. 前記エコー遅延を推定しエコーモデルを検証するステップは、
    a.前記音響の各フレームの距離を測定し合計するステップと、
    b.前記エコー遅延を数学的に推定するステップと、
    c.統計的方法を使用して前記推定値を検証するステップと
    をさらに含む、請求項43に記載の方法。
  53. 前記エコーの前記推定は、前記類似性測度の数学的表現、すなわち、
    Figure 2016502779
    式中、i=1,...,N−K
    を使用して実施される、請求項52に記載の方法。
  54. 前記エコーが存在するか否かを判定するステップは、前記類似性測度が閾値を満たす場合にエコーが存在すると判定するステップをさらに含む、請求項53に記載の方法。
  55. 前記ダブルトークの存在を検出するステップは、前記エコーレベルを上回る信号レベルが存在し、近端発話が存在し、かつ遠端発話が存在することを判定するステップをさらに含む、請求項43に記載の方法。
  56. 前記信号レベルは3dBである、請求項55に記載の信号レベル。
  57. 前記エコーを減算するステップは、前記遠端信号に伝達関数を適用するステップをさらに含む、請求項43に記載の方法。
  58. 前記伝達関数は、スペクトル領域における前記近端信号と遠端信号との比の関数、および、ヒストグラムの分析によって求められる、請求項57に記載の伝達関数。
  59. 前記ヒストグラムの分析は、
    a.いくつかのフレームについて、モデルパラメータの統計を循環バッファ内に記憶するステップと、
    b.周波数帯域を使用してエコー遅延を求めるステップと、
    c.多様な分布の前記ヒストグラムを分析するステップと
    d.多様な分布が存在するエコーを抽出するステップと
    を含む、請求項58に記載の方法。
  60. 前記方法は、自動音声認識を利用する対話型音声応答システムに適用される、請求項43に記載の方法。
  61. エコーが検出される場合、前記エコーをバッファリングされているフレームから遡及的に削除するステップをさらに含む、請求項43に記載の方法。
  62. 前記方法はVoIPネットワークにおいて実施される、請求項43に記載の方法。
  63. 複数のエコーについての推定値が作成され、減算される、請求項43に記載の方法。
JP2015539713A 2012-10-23 2013-10-22 音響エコー除去のためのシステムおよび方法 Active JP6291501B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261717156P 2012-10-23 2012-10-23
US61/717,156 2012-10-23
PCT/US2013/066144 WO2014066367A1 (en) 2012-10-23 2013-10-22 System and method for acoustic echo cancellation

Publications (2)

Publication Number Publication Date
JP2016502779A true JP2016502779A (ja) 2016-01-28
JP6291501B2 JP6291501B2 (ja) 2018-03-14

Family

ID=50485330

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015539713A Active JP6291501B2 (ja) 2012-10-23 2013-10-22 音響エコー除去のためのシステムおよび方法

Country Status (9)

Country Link
US (1) US9628141B2 (ja)
EP (1) EP2912833B1 (ja)
JP (1) JP6291501B2 (ja)
AU (3) AU2013334829B2 (ja)
BR (1) BR112015007306B1 (ja)
CA (2) CA3073412C (ja)
CL (1) CL2015001037A1 (ja)
NZ (1) NZ706162A (ja)
WO (1) WO2014066367A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018019396A (ja) * 2016-07-26 2018-02-01 Line株式会社 音質改善方法、音質改善方法を実行させるためのコンピュータプログラム、および電子機器
WO2019008733A1 (ja) * 2017-07-07 2019-01-10 ヤマハ株式会社 遠隔会話装置、ヘッドセット、遠隔会話システム、遠隔会話方法
JPWO2018163328A1 (ja) * 2017-03-08 2019-11-07 三菱電機株式会社 音響信号処理装置、音響信号処理方法、及びハンズフリー通話装置

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103051818B (zh) * 2012-12-20 2014-10-29 歌尔声学股份有限公司 一种用于小型免提语音通讯系统中的回声消除装置和方法
US9270830B2 (en) 2013-08-06 2016-02-23 Telefonaktiebolaget L M Ericsson (Publ) Echo canceller for VOIP networks
US9420114B2 (en) * 2013-08-06 2016-08-16 Telefonaktiebolaget Lm Ericsson (Publ) Echo canceller for VOIP networks
US9100090B2 (en) 2013-12-20 2015-08-04 Csr Technology Inc. Acoustic echo cancellation (AEC) for a close-coupled speaker and microphone system
US10149263B2 (en) 2014-10-29 2018-12-04 FreeWave Technologies, Inc. Techniques for transmitting/receiving portions of received signal to identify preamble portion and to determine signal-distorting characteristics
US9819446B2 (en) 2014-10-29 2017-11-14 FreeWave Technologies, Inc. Dynamic and flexible channel selection in a wireless communication system
US10033511B2 (en) 2014-10-29 2018-07-24 FreeWave Technologies, Inc. Synchronization of co-located radios in a dynamic time division duplex system for interference mitigation
US9787354B2 (en) * 2014-10-29 2017-10-10 FreeWave Technologies, Inc. Pre-distortion of receive signal for interference mitigation in broadband transceivers
JP6279172B2 (ja) * 2015-11-16 2018-02-14 三菱電機株式会社 エコーキャンセラ装置及び通話装置
US10225395B2 (en) * 2015-12-09 2019-03-05 Whatsapp Inc. Techniques to dynamically engage echo cancellation
DE102016119471A1 (de) * 2016-10-12 2018-04-12 Deutsche Telekom Ag Verfahren und Vorrichtungen zur Echoreduzierung und zur Funktionsprüfung von Echokompensatoren
CN109215672B (zh) * 2017-07-05 2021-11-16 苏州谦问万答吧教育科技有限公司 一种声音信息的处理方法、装置及设备
CN108198551A (zh) * 2018-01-15 2018-06-22 深圳前海黑鲸科技有限公司 回声消除延时的处理方法及装置
KR20200033617A (ko) 2018-09-20 2020-03-30 현대자동차주식회사 차량용 음성 인식 장치 및 그 제어 방법
CN110687523B (zh) * 2019-08-29 2023-07-11 中国科学技术大学 一种障碍物检测系统、方法及存储介质
CN111402868B (zh) * 2020-03-17 2023-10-24 阿波罗智联(北京)科技有限公司 语音识别方法、装置、电子设备及计算机可读存储介质
US11122160B1 (en) * 2020-07-08 2021-09-14 Lenovo (Singapore) Pte. Ltd. Detecting and correcting audio echo
CN111933166B (zh) * 2020-07-31 2024-01-26 广州视源电子科技股份有限公司 回声抑制方法、装置、存储介质和电子设备
CN113724722B (zh) * 2021-08-18 2023-12-26 杭州网易智企科技有限公司 回声延迟估计方法、装置、存储介质和计算设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009207021A (ja) * 2008-02-29 2009-09-10 Yamaha Corp 音響エコーキャンセラ
JP2010503325A (ja) * 2006-09-19 2010-01-28 アルカテル−ルーセント ユーエスエー インコーポレーテッド パケットベースのエコー除去および抑制
US20100057454A1 (en) * 2008-09-04 2010-03-04 Qualcomm Incorporated System and method for echo cancellation
JP2010118793A (ja) * 2008-11-11 2010-05-27 Oki Electric Ind Co Ltd 伝搬遅延時間推定器、プログラム及び方法、並びにエコーキャンセラ
US7792281B1 (en) * 2005-12-13 2010-09-07 Mindspeed Technologies, Inc. Delay estimation and audio signal identification using perceptually matched spectral evolution

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5450484A (en) * 1993-03-01 1995-09-12 Dialogic Corporation Voice detection
SG71035A1 (en) * 1997-08-01 2000-03-21 Bitwave Pte Ltd Acoustic echo canceller
DE19831320A1 (de) 1998-07-13 2000-01-27 Ericsson Telefon Ab L M Digitales adaptives Filter und akustischer Echokompensator
US6792107B2 (en) 2001-01-26 2004-09-14 Lucent Technologies Inc. Double-talk detector suitable for a telephone-enabled PC
US7236929B2 (en) * 2001-05-09 2007-06-26 Plantronics, Inc. Echo suppression and speech detection techniques for telephony applications
US7155018B1 (en) * 2002-04-16 2006-12-26 Microsoft Corporation System and method facilitating acoustic echo cancellation convergence detection
GB2389286A (en) * 2002-05-28 2003-12-03 Mitel Knowledge Corp Echo cancellation
JP4155774B2 (ja) 2002-08-28 2008-09-24 富士通株式会社 エコー抑制システム及び方法
US7420937B2 (en) 2002-12-23 2008-09-02 Broadcom Corporation Selectively adaptable far-end echo cancellation in a packet voice system
EP1443498B1 (en) * 2003-01-24 2008-03-19 Sony Ericsson Mobile Communications AB Noise reduction and audio-visual speech activity detection
JP4403776B2 (ja) 2003-11-05 2010-01-27 沖電気工業株式会社 エコーキャンセラ
EP1853087B1 (en) 2005-02-21 2014-07-30 Fujitsu Ltd. Echo canceller
US7852950B2 (en) 2005-02-25 2010-12-14 Broadcom Corporation Methods and apparatuses for canceling correlated noise in a multi-carrier communication system
US7856098B1 (en) 2005-09-15 2010-12-21 Mindspeed Technologies, Inc. Echo cancellation and control in discrete cosine transform domain
CN1984102A (zh) * 2005-12-13 2007-06-20 华为技术有限公司 一种电学回声消除装置和方法
JP4916394B2 (ja) 2007-07-03 2012-04-11 富士通株式会社 エコー抑圧装置、エコー抑圧方法及びコンピュータプログラム
US8310937B2 (en) 2008-05-28 2012-11-13 Centurylink Intellectual Property Llc Voice packet dynamic echo cancellation system
JP5332733B2 (ja) 2009-03-03 2013-11-06 沖電気工業株式会社 エコーキャンセラ
US8824666B2 (en) 2009-03-09 2014-09-02 Empire Technology Development Llc Noise cancellation for phone conversation
US20110013766A1 (en) 2009-07-15 2011-01-20 Dyba Roman A Method and apparatus having echo cancellation and tone detection for a voice/tone composite signal
RU2011103938A (ru) * 2011-02-03 2012-08-10 ЭлЭсАй Корпорейшн (US) Управление акустическими эхо-сигналами на основе временной области

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7792281B1 (en) * 2005-12-13 2010-09-07 Mindspeed Technologies, Inc. Delay estimation and audio signal identification using perceptually matched spectral evolution
JP2010503325A (ja) * 2006-09-19 2010-01-28 アルカテル−ルーセント ユーエスエー インコーポレーテッド パケットベースのエコー除去および抑制
JP2009207021A (ja) * 2008-02-29 2009-09-10 Yamaha Corp 音響エコーキャンセラ
US20100057454A1 (en) * 2008-09-04 2010-03-04 Qualcomm Incorporated System and method for echo cancellation
JP2010118793A (ja) * 2008-11-11 2010-05-27 Oki Electric Ind Co Ltd 伝搬遅延時間推定器、プログラム及び方法、並びにエコーキャンセラ

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018019396A (ja) * 2016-07-26 2018-02-01 Line株式会社 音質改善方法、音質改善方法を実行させるためのコンピュータプログラム、および電子機器
JP7017873B2 (ja) 2016-07-26 2022-02-09 Line株式会社 音質改善方法、音質改善方法を実行させるためのコンピュータプログラム、および電子機器
JPWO2018163328A1 (ja) * 2017-03-08 2019-11-07 三菱電機株式会社 音響信号処理装置、音響信号処理方法、及びハンズフリー通話装置
WO2019008733A1 (ja) * 2017-07-07 2019-01-10 ヤマハ株式会社 遠隔会話装置、ヘッドセット、遠隔会話システム、遠隔会話方法
US11259116B2 (en) 2017-07-07 2022-02-22 Yamaha Corporation Sound processing method, remote conversation method, sound processing device, remote conversation device, headset, and remote conversation system

Also Published As

Publication number Publication date
WO2014066367A8 (en) 2014-07-31
JP6291501B2 (ja) 2018-03-14
CL2015001037A1 (es) 2015-08-21
EP2912833B1 (en) 2017-06-21
CA3073412C (en) 2022-05-24
AU2017203053B2 (en) 2017-07-13
AU2013334829A1 (en) 2015-04-09
AU2017203053A1 (en) 2017-06-01
CA3073412A1 (en) 2014-05-01
WO2014066367A1 (en) 2014-05-01
US9628141B2 (en) 2017-04-18
NZ706162A (en) 2018-07-27
AU2017245314A1 (en) 2017-11-02
CA2888894C (en) 2021-08-17
AU2013334829B2 (en) 2017-06-15
EP2912833A4 (en) 2016-06-22
CA2888894A1 (en) 2014-05-01
BR112015007306A2 (pt) 2020-04-22
BR112015007306B1 (pt) 2022-10-18
AU2017245314B2 (en) 2019-04-11
EP2912833A1 (en) 2015-09-02
US20140112467A1 (en) 2014-04-24

Similar Documents

Publication Publication Date Title
JP6291501B2 (ja) 音響エコー除去のためのシステムおよび方法
EP1998539B1 (en) Double talk detection method based on spectral acoustic properties
JP5450567B2 (ja) クリアな信号の取得のための方法及びシステム
US6792107B2 (en) Double-talk detector suitable for a telephone-enabled PC
US8098813B2 (en) Communication system
US8014519B2 (en) Cross-correlation based echo canceller controllers
US20020054685A1 (en) System for suppressing acoustic echoes and interferences in multi-channel audio systems
US8019075B2 (en) Hybrid echo canceller controllers
US8081753B2 (en) Hybrid echo canceller controllers
US8831210B2 (en) Method and system for detection of onset of near-end signal in an echo cancellation system
KR20220157475A (ko) 반향 잔류 억제
KR100431965B1 (ko) 시변 적응알고리즘이 적용된 음향반향 제거장치 및 그 방법
Nguyen Ngoc et al. Implementation of the LMS and NLMS algorithms for Acoustic Echo Cancellationin teleconference systemusing MATLAB

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160307

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170327

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170404

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170703

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171003

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171229

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180209

R150 Certificate of patent or registration of utility model

Ref document number: 6291501

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250