JP6422886B2 - エコー抑圧 - Google Patents

エコー抑圧 Download PDF

Info

Publication number
JP6422886B2
JP6422886B2 JP2015549852A JP2015549852A JP6422886B2 JP 6422886 B2 JP6422886 B2 JP 6422886B2 JP 2015549852 A JP2015549852 A JP 2015549852A JP 2015549852 A JP2015549852 A JP 2015549852A JP 6422886 B2 JP6422886 B2 JP 6422886B2
Authority
JP
Japan
Prior art keywords
echo
model
audio signal
estimate
received audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015549852A
Other languages
English (en)
Other versions
JP2016503263A5 (ja
JP2016503263A (ja
Inventor
アーグレン,パー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2016503263A publication Critical patent/JP2016503263A/ja
Publication of JP2016503263A5 publication Critical patent/JP2016503263A5/ja
Application granted granted Critical
Publication of JP6422886B2 publication Critical patent/JP6422886B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/002Damping circuit arrangements for transducers, e.g. motional feedback circuits
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B3/00Line transmission systems
    • H04B3/02Details
    • H04B3/20Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Telephone Function (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

デバイスは、周囲環境からオーディオ信号を受信するために使用することができるオーディオ入力装置を有することができる。このデバイスはまた、周囲環境にオーディオ信号を出力するために使用することができるオーディオ出力装置を有することができる。例えば、デバイスは、オーディオ信号を出力するための1以上のスピーカと、オーディオ信号を受信するための1以上のマイクロフォンと、を有することができる。デバイスの1以上のスピーカから出力されるオーディオ信号は、1以上のマイクロフォンにより受信されるオーディオ信号における「エコー」として受信され得る。受信オーディオ信号におけるこのエコーは望ましくない場合があり得る。例えば、デバイスは、音声通話又はビデオ通話等の、ネットワークを介した別のユーザ・デバイスとの通信イベントにおいて使用されるユーザ・デバイス(携帯電話機、タブレット、ラップトップ、PC等)であり得る。通話の遠端信号は、ユーザ・デバイスにおいて、スピーカから出力され得、そのデバイスにおいてマイクロフォンにより受信されるオーディオ信号におけるエコーとして受信され得る。そのようなエコーは、通話のユーザを乱すことがあり、通話の知覚品質は、エコーのため低減され得る。詳細には、エコーは、マイクロフォンにより受信され、通話における遠端に送信されることが意図されている近端オーディオ信号の干渉を生じさせることがある。したがって、エコー・キャンセル及び/又はエコー抑圧を受信オーディオ信号に適用して、それにより、受信オーディオ信号におけるエコーを抑圧することができる。受信オーディオ信号におけるエコーのパワーは、ユーザ・デバイスの構成に応じて変わり得る。例えば、ユーザ・デバイスは携帯電話機であり得、その場合、受信オーディオ信号におけるエコーのパワーは、通常、携帯電話機が「ハンズ・フリー」モードで動作していないときと比べて、携帯電話機が「ハンズ・フリー」モードで動作しているときの方が、高いであろう。
エコー・キャンセル(又は、「エコー減算(echo subtraction)」)技術は、スピーカから出力されるオーディオ信号の知識に基づいて、マイクロフォンにおいて受信されるオーディオ信号に含まれるエコー信号を推定することを目的としている。次いで、エコー信号の推定値を、受信オーディオ信号から減算することができ、それにより、受信オーディオ信号からエコーの少なくとも一部を取り除くことができる。エコー抑圧を使用して、周波数依存の抑圧を受信オーディオ信号に適用し、それにより、受信オーディオ信号におけるエコーを抑圧する。エコー抑圧が効果的に実施されるために、エコー抑圧部は、受信オーディオ信号におけるエコーのパワーの正確な推定値を有する必要がある。
この概要は、発明を実施するための形態において以下でさらに説明されるコンセプトのうち選択したものを簡略化した形で紹介するために提供される。この概要は、特許請求される主題の主要な特徴又は必要不可欠な特徴を特定することを意図するものではないし、特許請求される主題の範囲を限定するために使用されることを意図するものでもない。
受信オーディオ信号におけるエコーを抑圧する方法が提供される。エコー抑圧の一部として、エコーのエコー・パス(echo path)が、2つの異なるモデルを用いてモデル化される。2つのモデルのうちの第1のモデルは、有限インパルス応答(FIR)ベースのモデルである。第1のモデルは、受信オーディオ信号におけるエコーの少なくとも第1の成分のエコー・パワーの第1のモデル推定値を決定するために使用される。第2のモデルは、受信オーディオ信号におけるエコーの少なくとも第2の成分のエコー・パワーの第2のモデル推定値を決定するために使用される。エコー・パワーの第1のモデル推定値及び第2のモデル推定値は、エコーのエコー・パワーの結合推定値を決定するために結合される。エコーのエコー・パワーの結合推定値を使用して、エコー抑圧を受信オーディオ信号に適用し、それにより、受信オーディオ信号におけるエコーを抑圧する。
当該方法は、通話(例えば、ユーザ・デバイス間でオーディオ・データを送信するためにボイス・オーバー・インターネット・プロトコル(VoIP)を実施する通話)において使用することができる。この場合、出力オーディオ信号は、通話の遠端から受信される遠端信号であり得、受信信号は、結果として生じるエコーと、通話の遠端に送信するための近端信号と、を含む。
通信システムの概略図。 ユーザ・デバイスの概略ブロック図。 エコー抑圧において使用するためのユーザ・デバイスのモジュールを示す機能図。 エコーを抑圧するプロセスのフローチャート。 エコー信号のインパルス応答を表すグラフ。
エコー抑圧が効果的に実施されるために、エコー抑圧部は、受信オーディオ信号におけるエコーのパワーの正確な推定値を有する必要がある。エコー・パワーを推定する1つの方法は、時間領域又はパワー周波数領域のいずれかでFIRフィルタを適用することである。このフィルタが、次いで、時間領域又はパワー周波数領域のいずれかで適応され得る。長いエコー・パスに関して、これは、FIRフィルタ適応及び対応するエコー・パワー推定が、長いエコー・パスのために計算的に複雑になる、という欠点を有する。なぜならば、FIRフィルタ適応及び対応するエコー・パワー推定の複雑さは、推定されるパワー・コンテンツを有することになるエコーのエコー・パスの長さに比例するからである。
したがって、本明細書で説明する方法に従うと、複数のモデル(例えば、2つのモデル)が、エコー・パスをモデル化するために使用される。異なるモデルは、受信オーディオ信号におけるエコーの異なる成分をモデル化することができる。これにより、エコーにおける各成分の異なるタイプに適するように、各モデルを選択することが可能となる。例えば、第1のモデルは、受信オーディオ信号におけるエコーの早期反射成分をモデル化することができるのに対し、第2のモデルは、受信オーディオ信号におけるエコーの後期反射成分をモデル化することができる。図5は、エコー信号のインパルス応答の強さ|h(t)|を表すグラフである。スピーカとマイクロフォンとの間の直接パス(direct path)に対応する強い応答が存在し、スピーカとマイクロフォンとの間のエコー信号の早期反射(例えば、壁等の表面からの1回又は2回の反射)に対応する複数の強い応答が存在することが分かる。図5に示されるように、エコーの早期反射成分は、直接パスと、表面に対するエコーの最初の数回の反射と、に対応する。図5において、後期反射は、複数の異なる識別可能な反射ではなく、入り混じって一緒に残響となっていく傾向にあることがまたわかる。エコーの異なる成分は、異なる特性を有する(例えば、早期反射は、明らかなピークを有するのに対し、後期反射は、入り混じって一緒に残響になる)ので、エコー・パスの異なるモデルを使用して、エコーの異なる成分をモデル化することができる。このように、モデルによりモデル化されるエコーの特定の成分の特性に適するように、異なるモデルを選択することができる。後期反射は、指数関数モデルを用いて良好にモデル化することができるのに対し、早期反射は、指数関数モデルを用いて良好にモデル化される傾向にない。一例において、2つのモデルが存在する:(i)エコー・パスの早期反射部分をモデル化するために使用されるFIRベースのモデルと、(ii)エコー・パスの後期反射部分をモデル化するために使用される指数関数モデルと、である。FIRベースのモデルは、エコーのエコー・パス(特に、エコーの早期反射成分に関して)をモデル化する際に、指数関数モデルよりも正確なものであり得る。しかしながら、エコー・パスの長さが増すにつれ、FIRモデルの複雑さは、指数関数モデルの複雑さよりも増す。指数関数モデルは、非常に低い計算複雑性を有するので、非常に低い計算複雑性で非常に長いエコー・パスをモデル化する際の使用に適している。
本明細書で説明するように、オーディオ信号を出力するラウドスピーカと、出力オーディオ信号から生じるエコーを含むオーディオ信号を受信するマイクロフォンと、の間のエコー・パスのインパルス応答を近似するために適応されるFIRフィルタからの出力を用いて、エコーの少なくとも早期反射成分のパワーを推定することができる。
エコー・パワーを推定することができるエコー信号を推定するために、FIRフィルタが使用され得、エコー抑圧方法において使用され得る。しかしながら、エコー・パワーを推定するために、FIRフィルタが使用され得るだけであり、実際のエコー信号を推定するわけではない。実際のエコー信号を推定するためにFIRフィルタが使用される場合と比べて、エコー・パワーを推定するためにFIRフィルタが使用される場合の方が、FIRフィルタにおける正確性の要件がずっと低いので、これは効果的であり得る。したがって、FIRフィルタから、(エコー信号ではなく)エコー・パワーを推定することにより、エコー抑圧は、VoIPクライアントにおける(例えば、ラウドスピーカからの)プレイアウト(playout)と(例えば、マイクロフォンにおける)記録サイドとの間のクロック・ドリフト、エコー・パスにおける非線形性、及びエコー・パスにおける変化等の問題に対して、よりロバストである。本明細書で説明する実施形態において、FIRフィルタは、位相情報を含む時間領域データを用いて適応される。
図1は、第1のユーザ・デバイス104に関連付けられている第1のユーザ102(「ユーザA」)と、第2のユーザ・デバイス110に関連付けられている第2のユーザ108(「ユーザB」)と、を含む通信システム100を示している。他の実施形態では、通信システム100は、任意の数のユーザ及び関連ユーザ・デバイスを含んでもよい。ユーザ・デバイス104及びユーザ・デバイス110は、通信システム100において、ネットワーク106を介して通信することができ、それにより、ユーザ102及びユーザ108は、ネットワーク106を介して、互いと通信することが可能になる。図1に示す通信システム100は、パケットベースの通信システムであるが、他のタイプの通信システムが使用されてもよい。ネットワーク106は、例えば、インターネットであり得る。ユーザ・デバイス104及びユーザ・デバイス110の各々は、例えば、携帯電話機、タブレット、ラップトップ、パーソナル・コンピュータ(「PC」)(例えば、Windows(登録商標) PC、Mac OS(登録商標) PC、及びLinux(登録商標) PCを含む)、ゲーム・デバイス、テレビジョン、携帯情報端末(「PDA」)、又は、ネットワーク106に接続することができる他の組み込みデバイスであり得る。ユーザ・デバイス104は、ユーザ・デバイス104のユーザ102から情報を受け取り、ユーザ102に情報を出力するよう構成されている。ユーザ・デバイス104は、ディスプレイ及びスピーカ等の出力手段を備える。ユーザ・デバイス104はまた、キーパッド、タッチ・スクリーン、オーディオ信号を受信するためのマイクロフォン、及び/又はビデオ信号の画像をキャプチャするためのカメラ等の入力手段を備える。ユーザ・デバイス104は、ネットワーク106に接続される。
ユーザ・デバイス104は、通信システム100に関連付けられたソフトウェア・プロバイダにより提供される通信クライアントのインスタンス(instance)を実行する。通信クライアントは、ユーザ・デバイス104内のローカル・プロセッサ上で実行されるソフトウェア・プログラムである。クライアントは、ユーザ・デバイス104が通信システム100を介してデータを送受信するために、ユーザ・デバイス104において必要とされる処理を実行する。
ユーザ・デバイス110は、ユーザ・デバイス104に対応し、ユーザ・デバイス104において実行される通信クライアントに対応する通信クライアントを、ローカル・プロセッサ上で実行する。ユーザ・デバイス110におけるクライアントは、ユーザ・デバイス104におけるクライアントが、ユーザ102がネットワーク106を介して通信することを可能にするのに必要とされる処理を実行するのと同様に、ユーザ108がネットワーク106を介して通信することを可能にするのに必要とされる処理を実行する。ユーザ・デバイス104及びユーザ・デバイス110は、通信システム100におけるエンドポイントである。図1は、明瞭さのために、2人のユーザ(102及び108)及び2つのユーザ・デバイス(104及び110)しか示していないが、より多くのユーザ及びより多くのユーザ・デバイスが、通信システム100に含まれてもよく、それぞれのユーザ・デバイス上で実行されるそれぞれの通信クライアントを用いて、通信システム100を介して通信してもよい。
図2は、通信システム100を介して通信するための通信クライアント・インスタンス206が実行されるユーザ・デバイス104の詳細な図を示している。ユーザ・デバイス104は、中央処理装置(「CPU」)又は「処理モジュール」202を備える。CPU202には、タッチ・スクリーンとして実装することができるディスプレイ208、及びオーディオ信号を出力するためのスピーカ(又は、「ラウドスピーカ」)210等の出力デバイス;オーディオ信号を受信するためのマイクロフォン212、画像データを受信するためのカメラ216、及びキーパッド218等の入力デバイス;データを記憶するためのメモリ214;及び、ネットワーク106と通信するためのモデム等のネットワーク・インタフェース220が接続される。ユーザ・デバイス104は、図2に示す要素以外の他の要素を備えてもよい。ディスプレイ208、スピーカ210、マイクロフォン212、メモリ214、カメラ216、キーパッド218、及びネットワーク・インタフェース220は、図2に示すユーザ・デバイス104に一体化され得る。代替的なユーザ・デバイスでは、ディスプレイ208、スピーカ210、マイクロフォン212、メモリ214、カメラ216、キーパッド218、及びネットワーク・インタフェース220のうちの1以上が、ユーザ・デバイス104に一体化されなくてもよく、それぞれのインタフェースを介してCPU202に接続されてもよい。そのようなインタフェースの一例は、USBインタフェースである。ネットワーク・インタフェース220を介したネットワーク106へのユーザ・デバイス104の接続が、無線接続である場合、ネットワーク・インタフェース220は、ネットワーク106に信号を無線で送信し、ネットワーク106から信号を無線で受信するためのアンテナを含み得る。
図2はまた、CPU202上で実行されるオペレーティング・システム(「OS」)204を示している。通信システム100のクライアント・インスタンス206のソフトウェアが、OS204の上で実行されている。オペレーティング・システム204は、コンピュータのハードウェア・リソースを管理し、ネットワーク・インタフェース220を介してネットワーク106に/から送信されているデータを処理する。クライアント206は、オペレーティング・システム204と通信し、通信システムを介した接続を管理する。クライアント206は、ユーザ102に情報を提示しユーザ104から情報を受け取るために使用されるクライアント・ユーザ・インタフェースを有する。このように、クライアント206は、ユーザ102が通信システム100を介して通信することを可能にするのに必要とされる処理を実行する。
図3及び図4を参照して、エコーを抑圧する方法について説明する。図3は、エコー抑圧プロセスがどのように実施されるかを示す、ユーザ・デバイス104の一部の機能図であり、図4は、エコーを抑圧するプロセスのフローチャートである。
図3に示されるように、ユーザ・デバイス104は、スピーカ210、マイクロフォン212、モデル化モジュール302、及びエコー抑圧モジュール314を備える。モデル化モジュール302は、FIRフィルタ・モジュール304、第1のパワー推定モジュール306、指数フィルタ・モジュール308、第2のパワー推定モジュール310、及び結合モジュール312を含む。スピーカ210から出力されるべき信号x(t)は、スピーカ210の入力に結合される。本明細書で説明する実施形態では、(図において参照番号210により示される)1つのスピーカしか存在しないが、他の実施形態では、出力されるべき信号が(スピーカから出力するために)結合される2以上のスピーカが存在してもよいことに留意すべきである。同様に、本明細書で説明する実施形態では、(図において参照番号212により示される)1つのマイクロフォンしか存在しないが、他の実施形態では、周囲環境からオーディオ信号を受信する2以上のマイクロフォンが存在してもよい。スピーカ210から出力されるべき信号はまた、モデル化モジュール302にも結合される。詳細には、スピーカ210から出力されるべき信号は、FIRフィルタ・モジュール304の第1の入力に結合され、指数フィルタ・モジュール308の第1の入力に結合される。マイクロフォン212の出力は、モデル化モジュール302に結合される。詳細には、マイクロフォン212の出力は、FIRフィルタ・モジュール304の第2の入力に結合され、指数フィルタ・モジュール308の第2の入力に結合され、第1のパワー推定モジュール306の第1の入力に結合され、第2のパワー推定モジュール310の第1の入力に結合される。マイクロフォン212の出力はまた、エコー抑圧モジュール314の第1の入力に結合される。FIRフィルタ・モジュール304の出力は、第1のパワー推定モジュール306の第2の入力に結合される。指数フィルタ・モジュール308の出力は、第2のパワー推定モジュール310の第2の入力に結合される。第1のパワー推定モジュール306の出力は、結合モジュール312の第1の入力に結合される。第2のパワー推定モジュール310の出力は、結合モジュール312の第2の入力に結合される。モデル化モジュール302の出力は、エコー抑圧モジュール314の第2の入力に結合される。詳細には、結合モジュール312の出力は、エコー抑圧モジュール314の第2の入力に結合される。エコー抑圧モジュール314の出力を使用して、ユーザ・デバイス104におけるさらなる処理のために、(エコー抑圧が適用された)受信信号を供給する。
ステップS402において、スピーカ210から出力されるべき信号が受信される。例えば、出力されるべき信号は、ユーザ102とユーザ108との間の通話中に通信システム100を介してユーザ・デバイス110からユーザ・デバイス104で受信される遠端信号であり得る。受信信号に対して実行されるのに必要とされる任意の処理(例えば、音声コーデックを用いた復号化、脱パケット化等)は、当技術分野では知られているように、スピーカ210から出力されるべき適切な信号x(t)に達するために、(例えば、クライアント206により)実行される。信号x(t)はデジタル信号である。スピーカ210から信号を出力する前の、ユーザ・デバイス104における信号の処理の少なくとも一部は、デジタル領域で実行される。当技術分野では知られているように、ラウドスピーカ210からのプレイアウトの前に、デジタル・アナログ・コンバータ(DAC)が、デジタル信号x(t)に適用される。同様に、デジタル信号y(t)に達するために、アナログ・デジタル・コンバータ(ADC)が、マイクロフォン212によりキャプチャされた信号に適用される。
他の実施形態において、出力されるべき信号は、通話において通信システム100を介してではなく、どこかから受信されることもある。例えば、出力されるべき信号は、メモリ214に記憶されているかもしれず、ステップS402は、メモリ214から信号を取り出すことを含み得る。
ステップS404において、オーディオ信号x(t)が、スピーカ210から出力される。このように、オーディオ信号x(t)が、ユーザ102に出力される。
ステップS406において、マイクロフォン212は、オーディオ信号を受信する。図3に示されるように、受信オーディオ信号は、所望信号又は「プライマリ信号」である近端信号を含み得る。近端信号は、マイクロフォン212が受信するものとユーザ102が意図している信号である。しかしながら、受信オーディオ信号はまた、ステップS404においてスピーカ210から出力されたオーディオ信号から生じるエコー信号も含む。受信オーディオ信号はまた、背景雑音等の雑音も含む。したがって、総受信オーディオ信号y(t)は、近端信号、エコー、及び雑音の合計により与えられ得る。エコー及び雑音は、近端信号の干渉として働く。
FIRフィルタ・モジュール304は、出力オーディオ信号x(t)及び受信オーディオ信号y(t)を、入力として受け取る。ステップS408において、FIRフィルタ・モジュール304は、受信オーディオ信号y(t)におけるエコーのエコー・パスh(t)をモデル化するために、出力オーディオ信号x(t)及び受信オーディオ信号y(t)に基づいて、時間領域でFIRフィルタ推定値
Figure 0006422886
を動的に適応させる。「エコー・パスh(t)のインパルス応答」は、本明細書において、「エコー・パスh(t)」とも呼ばれる。FIRフィルタ・モジュール304を使用して、受信オーディオ信号y(t)におけるエコーの早期反射成分をモデル化する。そうするために、エコー・パスをモデル化するためにFIRフィルタ・モジュール304により使用されるFIRフィルタの長さは、有限長Lを有する。この長さLは、エコーの早期反射成分をモデル化するのに十分な長さであるが、エコーの後期反射成分(図5参照)を完全にモデル化するわけではない。このように、FIRフィルタ・モジュール304により使用されるFIRモデルの長さは、受信オーディオ信号y(t)におけるエコーの完全なエコー・パスと同じくらい長くある必要はない。これは、FIRモデルの複雑さが大きくなり過ぎないことを確実にすることができる。
おおよそ線形なエコー・パスに関して、エコー・パスh(t)は、例えば、式
Figure 0006422886
に従って、受信オーディオ信号におけるエコーが、スピーカ210から出力されたオーディオ信号x(t)にどのように関連するかを記述するものである。ここで、yecho(t)は、受信オーディオ信号y(t)におけるエコーであり、Ntrueは、マイクロフォン212により受信される出力信号x(t)のサンプルの数であり、h(t)は、エコー・パスh(t)を記述する重みである。エコー・パスh(t)は、時間及び周波数とともに変わり得るものであり、本明細書において、h(t)又はh(t,f)と呼ばれ得る。エコー・パスh(t)は、(i)スピーカ210及びマイクロフォン212周囲の現在の環境状態(例えば、スピーカ210からマイクロフォン212へのオーディオ信号の通路に物理的障害物があるかどうか、空気圧、温度、風等)、及び(ii)信号が出力及び/又は受信されるときに信号を変え得るスピーカ210及び/又はマイクロフォン212の特性、に依存し得る。
FIRフィルタ・モジュール304は、出力オーディオ信号x(t)の現在の値と、出力オーディオ信号x(t)の有限個(N個)の以前の値と、の重み付け合計を決定することにより、受信オーディオ信号におけるエコーのエコー・パスh(t)の早期反射成分をモデル化する。FIRフィルタ・モジュール304は、したがって、エコー・パスの早期反射成分の推定値
Figure 0006422886
を決定する際に出力オーディオ信号x(t)の値を考慮に入れる有限長(時間)を有するN次FIRフィルタを実装する。このように、FIRフィルタ・モジュール304は、FIRフィルタ推定値
Figure 0006422886
を動的に適応させる。出力オーディオ信号x(t)の観点で、受信オーディオ信号y(t)におけるエコーを定義する以下の式により、オペレーションが記述される。
Figure 0006422886
したがって、出力オーディオ信号x(t)のN+1個のサンプルとともに、それぞれのN+1個の重み
Figure 0006422886
が使用される。N+1個の重み
Figure 0006422886
のセットは、本明細書において、単に、エコー・パスの推定値
Figure 0006422886
と呼ばれる。すなわち、エコー・パスの推定値
Figure 0006422886
は、N+1個の値を有するベクトルである。ここで、FIRフィルタ・モジュール304は、信号x(t)のN+1個の値(例えば、N+1個のフレーム)を考慮に入れるN次FIRフィルタを実装する。
エコーが受信オーディオ信号の支配部であるとき、すなわち、
Figure 0006422886
であるとき、FIRフィルタ推定値
Figure 0006422886
をより適応させやすいことが理解できるであろう。例えば、いくつかの実施形態において、近端信号のパワーがエコーのパワーよりも大きいとき(例えば、ユーザ102が喋っているとき)を検出することが可能であり得るが、これは、FIR推定値
Figure 0006422886
が適応されない場合である。しかしながら、近端信号のパワーが受信オーディオ信号y(t)におけるエコーのパワーよりも小さいとき(例えば、ユーザ102が喋っていないとき)、FIR推定値
Figure 0006422886
が適応される。
しかしながら、エコーが受信オーディオ信号の支配部でないときでも、FIRフィルタ推定値
Figure 0006422886
を適応させることが可能であり得る。
FIRフィルタ推定値
Figure 0006422886
が、FIRフィルタ・モジュール304から第1のパワー推定モジュール306に渡される。第1のパワー推定モジュール306は、以下で説明するように、少なくとも2つの方法のうちの1つにより、受信オーディオ信号におけるエコーの早期反射成分のエコー・パワーを推定する。
1つの方法では、ステップS410において、第1のパワー推定モジュール306は、ステップS408において決定されたフィルタ推定値
Figure 0006422886
と、入力信号x(t)と、に基づいて、受信オーディオ信号におけるエコーの早期反射成分のエコー・パワーを推定する。ステップS410は、受信オーディオ信号y(t)におけるエコー信号yecho(t)を推定することを推定することを含まなくてよい。エコーの早期反射成分のエコー・パワーは、時間及び周波数の関数として推定される。エコー抑圧においては、良好なエコー抑圧を実現するために、エコー・パワー推定の正確性がかなり低くても十分である。本明細書で説明する方法に従うと、パワー応答は、問題に対してより影響を受けにくい方法で計算することができる。さらに、パワー応答は、実際のエコー・パスが推定される方法とは異なる方法で推定することができる。例えば、周波数fに関するパワー応答は、その周波数fに関するFIRフィルタの推定値を用いて計算することができる。代替的に又は追加的に、周波数fに関するFIRフィルタの推定値を使用して、異なる周波数ν(ν≠f)に関するパワー応答を計算してもよい。すなわち、この方法は、それが適用される1つの周波数領域とは異なる別の周波数領域に関して計算される外挿エコー・パス・パワー応答(extrapolated echo path power response)を使用することを含んでもよい。この点で、パワー応答は、FIRフィルタ推定値に基づいて計算されるが、特定の周波数に関するパワー応答を決定するために、何らかの外挿(extrapolation)が必要とされ得る。すなわち、所定の周波数領域に関して得られるFIRフィルタ推定値を使用して、別の周波数領域に関する予想(又は、外挿)パワー応答推定値を計算することができる、すなわち、エコー・パワーを推定するために使用されるパワー応答は、必ずしもFIRフィルタのパワー応答ではないが、これはまた、FIRフィルタに基づいて計算される(例えば、異なる周波数領域に関する)パワー応答であり得る。
ステップS410は、エコーの早期反射成分のエコー・パワー
Figure 0006422886
を推定することを含み得る。そのエコー・パワーの推定値は、時間t及び周波数fに関する値を有するスカラ指数ビン(scalar power bin)であり、特定の周波数及び時間について、以下の式に従って計算される。
Figure 0006422886
このように、時間変動するVoIPのエコー・パスh(t)を近似するためにスピーカ信号x(t)及びマイクロフォン信号y(t)を用いて適応されているFIRフィルタ推定値
Figure 0006422886
を、出力オーディオ信号サンプルx(t)とともに使用して、時間t及び周波数fにおける、エコー信号の早期反射成分のパワー
Figure 0006422886
を推定する。
第2の方法では、ステップS410において、第1のパワー推定モジュール306は、FIRフィルタ推定値
Figure 0006422886
から、少なくとも1つのパワー応答を決定する。パワー応答情報は、FIRフィルタ推定値
Figure 0006422886
を解析することにより決定される。パワー応答(又は、「周波数応答」)は、周波数の関数として、エコー・パスh(t)のパワー応答のインジケーションを与える。本明細書において、エコー・パスは、h(t)で示されているが、これは単純さのためであり、エコー・パスh(t)及びエコー・パスの推定値
Figure 0006422886
は、時間及び周波数両方の関数であることを再度繰り返すことに留意されたい。
次いで、さらにステップS410において、第1のパワー推定モジュール306は、決定された1以上の決定されたパワー応答に基づいて、受信オーディオ信号におけるエコーの早期反射成分のエコー・パワーを推定する。実際上、ステップS410は、受信オーディオ信号y(t)におけるエコー信号yecho(t)を推定することを含まなくてよい。エコーの早期反射成分のエコー・パワーは、時間及び周波数の関数として推定される。
詳細には、FIRフィルタ推定値
Figure 0006422886
は、時間領域で長さLを有する。ステップS410は、FIRフィルタ推定値
Figure 0006422886
を、それぞれがL/Pの長さを有する、時間領域の複数(P個)のパーティションに分割することを含む。FIRフィルタ推定値
Figure 0006422886
のパーティションの各々は、パーティションの各々について周波数領域のそれぞれのパワー応答
Figure 0006422886
を決定するために、周波数領域に変換されて、2乗される。したがって、
Figure 0006422886
が、パーティションpの周波数応答であることが理解できよう。
ステップS410は、出力オーディオ信号の複数のフレームのそれぞれのパワーの複数の測定値の重み付け合計を実行することにより、受信オーディオ信号におけるエコーのエコー・パワーを推定することを含む。ここで、合計における重みは、パワー応答
Figure 0006422886
のそれぞれにより与えられる。
したがって、フレームkに関する、受信オーディオ信号におけるエコーの早期反射成分のエコー・パワー
Figure 0006422886
の推定値は、ステップ410において、以下の式に従って推定することができる。
Figure 0006422886
ここで、|X(k−p,f)|は、フレームk−pに関する、ラウドスピーカ信号のパワー・スペクトル密度である。フレーム・インデックスkは、時間の尺度であり、そのようなものとして、
Figure 0006422886
は、エコー・パワーの推定値
Figure 0006422886
及び、その逆を与えるために、フレーム・インデックスではなく、時間の関数に書き換えることができる。上記の式が正しくなるよう、
Figure 0006422886
及び|X(k−p,f)|を計算するために使用される、フィルタ・パーティションの長さ及びラウドスピーカ信号の長さは、巡回畳み込み効果(circular convolution effect)を最小限にするために、注意深く選択されるべきであることに留意されたい。この選択は、hのパーティションの長さ及びラウドスピーカ入力信号フレームの長さが、フィルタ推定値hを適応させるために使用され、エコー・パワーが推定されることになるマイクロフォン信号の長さに対して適切にマッチされることが確実になるよう実行される。各パーティションの長さがPであり、各ラウドスピーカ(X)のフレーム長がMであり、各マイクロフォン信号のフレーム長がNである場合、巡回畳み込み効果を回避することができる一般的な要件は、N+P−1<Mである。本明細書で説明する方法は、この選択とは無関係に機能する。なぜならば、巡回畳み込み効果は、この方法において無視されるからである。
このように、時間変動するVoIPのエコー・パスh(t)を近似するためにスピーカ信号x(t)及びマイクロフォン信号y(t)を用いて適応されているFIRフィルタ推定値
Figure 0006422886
を、出力オーディオ信号x(t)とともに使用して、パワー応答
Figure 0006422886
を決定し、次いで、パワー応答
Figure 0006422886
を使用して、時間t及び周波数fにおけるエコー信号の早期反射成分のパワー
Figure 0006422886
を推定する。
一般に、線形モデル(例えば、FIRモデル)を使用して、エコー・パスの早期反射部分をモデル化し、次いで、これを使用して、早期反射に対応するエコー・パワーをモデル化する。これを行う多くの方法が存在するが、本開示の範囲は、上記で提供した例に限定されるものではない。早期反射からのエコー・パワー推定値が、時間及び周波数の関数として推定され得る。
第1のパワー推定モジュール306が、上述した方法のうちのいずれかに従って、これを決定すると、エコーの早期反射成分のエコー・パワーの推定値
Figure 0006422886
が、第1のパワー推定モジュール306から出力され、結合モジュール312により受信される。
指数フィルタ・モジュール308は、出力オーディオ信号x(t)及び受信オーディオ信号y(t)を、入力として受け取る。ステップS412において、指数フィルタ・モジュール308を使用して、受信オーディオ信号y(t)におけるエコーの、少なくとも後期反射成分をモデル化する。図5から分かるように、エコーの後期反射成分(主として残響を構成する)は、指数関数モデルを用いてモデル化されるのに良く適している。
ステップS412は、出力オーディオ信号x(t)と、受信オーディオ信号におけるエコーyecho(t)と、に基づいて、指数関数モデルの減衰ファクタ(decay factor)の推定値
Figure 0006422886
を決定することを含む。推定された減衰ファクタ
Figure 0006422886
は、周波数の関数であるが、これはまた、時間とともに変わり得る。減衰ファクタの推定値は動的に適応される。ステップS408におけるFIRモデルの適応に関して上述したのと同様に、エコーが受信オーディオ信号の支配部であるとき、すなわち、
Figure 0006422886
であるとき、減衰ファクタの推定値をより適応させやすい。
何らかの推定方法を用いて、減衰ファクタ
Figure 0006422886
を推定することができる(推定方法の一例は、エコーの早期反射成分のためのモデルを構成するFIRフィルタのパワー応答のテール(tail)の対数に直線をフィットさせることによるものである)。他の技術を使用して、減衰ファクタの推定値
Figure 0006422886
を決定してもよいことは明らかであろう。
指数関数モデルの減衰ファクタの推定値
Figure 0006422886
が、指数フィルタ・モジュール308から第2のパワー推定モジュール310に渡される。ステップS414において、第2のパワー推定モジュール310は、指数関数モデルの減衰ファクタの推定値
Figure 0006422886
を使用して、エコーのエコー・パワーの第2のモデル推定値を決定する。詳細には、第2のパワー推定モジュール310は、指数関数モデルの減衰ファクタの推定値
Figure 0006422886
を使用して、受信オーディオ信号y(t)におけるエコーの後期反射成分のエコー・パワー
Figure 0006422886
を決定する。kはフレーム・インデックスであり、したがって、時間のインジケーションを与える。
例えば、第2のパワー推定モジュール310は、式
Figure 0006422886
に従って、エコーの後期成分のパワー
Figure 0006422886
を推定することができる。ここで、
Figure 0006422886
は、早期反射のモデルの最後の部分のパワー寄与(power contribution)の推定値である。
Figure 0006422886
は、特定の時間における(すなわち、特定のフレームについての)、指数関数的減衰モデルの推定された減衰ファクタである。
Figure 0006422886
は、指数関数的減衰であり、重み付け関数ではない。この式は、指数関数的に減衰するパワーの回帰(recursion)を決定する。上記の式が正確に正しくなるよう、減衰ファクタ
Figure 0006422886
は、一定でなければならない。
Figure 0006422886
における上付きiは、
Figure 0006422886
のi乗であることを意味する。実際、
Figure 0006422886
は、時間とともに変わり得る。この場合、
Figure 0006422886
が、時間とともにゆっくり変わるだけであることを仮定する上記の式を使用することができる。
上述したように、
Figure 0006422886
は、早期反射のモデルの「最後の部分」のパワー寄与の推定値である。すなわち、
Figure 0006422886
は、フレームk−1に関する、FIRベースのモデルを用いて決定された受信オーディオ信号におけるエコーの早期反射のパワーの推定値の最後の部分のエコー・パワーの推定値であり、この最後の部分は、エコーの早期反射成分における反射の最後に対応する。このように、指数関数モデルは、(例えば、図5に示す早期反射成分と後期反射成分との境界における)エコーの早期反射成分の最後を使用し、次いで、エコーの後期反射成分を決定するために、このエコー成分が、時間とともに指数関数的に減衰することを仮定する。
例えば、受信オーディオ信号におけるエコーの早期反射成分のパワーの推定値が、式
Figure 0006422886
に従って決定される上述した場合において、(フレームkに対応する時間tにおける)早期反射のモデルの最後の部分のパワー寄与の推定値
Figure 0006422886
は、
Figure 0006422886
として計算することができる。ここで、
Figure 0006422886
は、FIRフィルタ・モデルにより考慮に入れられる、最後のパーティション(P−1)のパワー応答であり、|X(k−P+1,f)|は、出力オーディオ信号の現フレームkよりP−1個前のフレームのパワーの測定値である。現フレームkよりP−1個前のフレームを見返すことは、FIRフィルタが考慮に入れる時間に遡ることである。これより長いエコー・パスを有するエコーを考慮に入れるために、指数関数モデルが使用され、それにより、現フレームkよりP−1個前のフレームのエコーの値は、指数関数的に減衰すると仮定される。
第2のパワー推定モジュール310が、上述した方法のうちのいずれかに従って、これを決定すると、エコーの後期反射成分のエコー・パワーの推定値
Figure 0006422886
が、第2のパワー推定モジュール310から出力され、結合モジュール312により受信される。
ステップS416において、結合モジュール312は、エコーの早期反射成分のエコー・パワーの推定値
Figure 0006422886
と、エコーの後期反射成分のエコー・パワーの推定値
Figure 0006422886
と、を結合して、エコー・パワーの結合推定値
Figure 0006422886
を決定する。エコー・パワーの結合推定値
Figure 0006422886
は、エコーの(全ての成分を構成し得る)早期反射成分及び後期反射成分を考慮に入れた、受信オーディオ信号におけるエコーのエコー・パワーの推定値を与える。すなわち、エコー・パワーの結合推定値は、受信オーディオ信号における総エコーの推定値を与える。エコーの早期反射成分のエコー・パワーの推定値
Figure 0006422886
と、エコーの後期反射成分のエコー・パワーの推定値
Figure 0006422886
と、の結合は、これら2つの推定値の合計として実行され得る。すなわち、エコー・パワーの結合推定値
Figure 0006422886
は、式
Figure 0006422886
に従って決定され得る。
受信オーディオ信号におけるエコーのエコー・パワーの結合推定値
Figure 0006422886
が、結合モジュール312からエコー抑圧モジュール314に渡される。エコー抑圧モジュール314はまた、マイクロフォン212からオーディオ信号y(t)も受信する。ステップS418において、エコー抑圧モジュール314は、エコー・パワーの推定値
Figure 0006422886
を使用して、エコー抑圧を受信オーディオ信号y(t)に適用し、それにより、受信オーディオ信号におけるエコーを抑圧する。エコー・パワーの推定値
Figure 0006422886
は、周波数に依存し、エコー抑圧モジュール314により適用される抑圧もまた、周波数に依存する。上述したように、フレーム・インデックスkは、時間の尺度であり、そのようなものとして、
Figure 0006422886
を与えるために、
Figure 0006422886
は、時間の観点で書き換えることができる。
エコー抑圧部の目的は、例えば、VoIPクライアントにおけるマイクロフォン信号内に存在するラウドスピーカ・エコーを、マイクロフォン212により受信される近端音(非エコー音)の存在内で目立たない/乱さないよう十分低いレベルに抑圧することである。適切な量のエコー抑圧を選択できるようにするために、(例えば、周波数及び時間の関数としての)エコー・パワーの良好な推定値が必要とされ、上述したように、これが、パワー結合モジュール312により、エコー抑圧モジュール314に提供される。エコー抑圧モジュール314は、時間及び周波数の両方に応じて変わる信号依存の抑圧を、受信オーディオ信号y(t)に適用するよう設計される。エコー抑圧方法は、当技術分野において知られている。さらに、エコー抑圧モジュール314により適用されるエコー抑圧方法は、様々な方法で実装することができる。そのようなものとして、エコー抑圧方法の正確な詳細については、したがって、本明細書において詳細に説明しない。
エコー抑圧モジュール314は、ユーザ・デバイス104におけるさらなる処理のために、エコーが抑圧された受信信号を出力する。例えば、エコー抑圧モジュール314から出力される信号は、クライアント206により処理(例えば、符号化及びパケット化)することができ、次いで、ユーザ102とユーザ108との間の通話において、ネットワーク106を介して、ユーザ・デバイス110に送信することができる。追加的に又は代替的に、エコー抑圧モジュール314から出力される信号は、他の目的のために、ユーザ・デバイス104により使用されてもよい。例えば、信号は、メモリ214に記憶されてもよいし、ユーザ・デバイス104において実行されているアプリケーションへの入力として使用されてもよい。
したがって、(例えば、VoIPクライアント206による使用のために)エコー抑圧エフェクト/フィルタを計算及び適用する目的で、マイクロフォン212により受信された周波数帯域のラウドスピーカのエコー信号のパワーを推定するためにエコー・パスをモデル化する2つの異なるモデル(例えば、FIRフィルタ・モジュール304及び指数フィルタ・モジュール308)の使用について、本明細書で説明した。本明細書で説明した例において、1つのFIRベースのモデルと、1つの指数関数モデルと、からなるハイブリッド・モデルを使用して、受信オーディオ信号におけるエコーのエコー・パワーを推定する。FIRモデルは、エコーの早期反射成分をモデル化するために使用される。エコーの早期反射成分は、表面に対するエコーの最初の数回の反射に対応し、指数減衰に対しては適切に近似できないものである。指数関数モデルは、エコーの後期反射成分をモデル化するために使用される。エコーの後期反射成分は、重ね合わされた複数のエコー反射に対応し、通常は指数減衰に対してよく近似できるものである。
上述した実施形態において、エコー抑圧は、VoIPシステムにおいて実施される(例えば、受信オーディオ信号は、ユーザ102とユーザ108との間の通話中に通信システム100を介してユーザ・デバイス110に送信されるユーザ102の音声を含み得る)。しかしながら、本明細書で説明したエコー抑圧方法は、エコー抑圧が適用されるべき任意の適切なシステムにおいて適用することができる。
上述した実施形態において、図に示されるように、エコー・キャンセル(又は、「エコー減算」)は、受信オーディオ信号y(t)に適用されない。すなわち、ユーザ・デバイス104内にはエコー・キャンセル・モジュールは存在せず、エコー抑圧は、エコー・キャンセルを受信オーディオ信号y(t)に適用する従来のステップなく、受信オーディオ信号y(t)に適用される。
しかしながら、他の実施形態では、エコー・キャンセル・モジュールにより、エコー・キャンセルが、受信オーディオ信号y(t)に適用されてもよい。詳細には、エコー抑圧モジュール314により適用されるエコー抑圧が、受信オーディオ信号y(t)の処理において、エコー・キャンセルのダウンストリームで(すなわち、後で)、適用されてもよい。エコー・キャンセル・モジュールは、受信オーディオ信号からエコー信号の推定値を減算するが、エコー信号の推定における不正確性に起因して、残差エコーが、受信オーディオ信号に残っている可能性が非常に高い。次いで、エコー抑圧モジュール314により抑圧されるのが、残差エコーである。このエコー抑圧は、エコー・キャンセルが適用されない実施形態において本明細書で説明したのと同じ方法で適用することができる。エコー減算が用いられる場合、その結果が、エコー抑圧において考慮に入れられる。
本明細書で説明した方法は、ユーザ・デバイス104においてコンピュータ・プログラム製品(例えば、クライアント206)を実行することにより、実施することができる。すなわち、コンピュータ・プログラム製品は、受信オーディオ信号y(t)におけるエコーを抑圧するよう構成され得る。ここで、コンピュータ・プログラム製品は、コンピュータ読み取り可能記憶媒体上で具現化され(例えば、メモリ214に記憶され)、CPU202上で実行されたときに、本明細書で説明した方法のうちいずれかのオペレーションを実行するよう構成される。
上述した方法において、2つのモデルが使用される。エコーの早期反射成分をモデル化するFIRベースのモデルと、エコーの後期反射成分をモデル化する指数関数モデルと、である。しかしながら、他の方法において、任意の数(2以上)のモデルを使用して、エコーのそれぞれの成分をモデル化してもよい。異なるモデルによりモデル化されるエコーの成分は、異なるモデルが互いと同じエコーのコンポーネントをモデル化してもよい、あるいはモデル化しなくてもよいように、オーバラップしてもよいし、あるいはオーバラップしなくてもよい。モデルのうちの異なるモデルは、エコーの異なる成分をモデル化するのに適し得る。各モデルは、モデル化するために使用されるエコーの特定の成分に適するように選択することができる。これは、FIRベースのモデルがエコーの早期反射成分をモデル化するのに適しているのに対し、指数関数モデルがエコーの後期反射成分をモデル化するのに適している上記で提供した例からよく理解できるであろう。
別の例において、3つのモデルが存在してもよい。3つのモデルは、それぞれ、(i)(図5に示した)エコーの直接音成分、(ii)直接音成分を除いたエコーの早期反射成分、及び(iii)エコーの後期反射成分、をモデル化するのに適しており、それらをモデル化するために使用される。例えば、3つのモデルは、それぞれ、(i)直接音成分の高度に正確なモデルを提供するように、フィルタ・タップ間の微細な時間間隔(fine time spacing)を有する第1のFIRフィルタを用いた第1のFIRベースのモデル、(ii)第1のFIRベースのモデルほど正確ではないが、直接音成分のパスよりも長いエコー・パスに関して複雑さがより低い、直接音成分を除いたエコーの早期反射成分のモデルを提供するように、第1のFIRフィルタの微細な時間間隔よりも粗いフィルタ・タップ間の時間間隔を有する第2のFIRフィルタを用いた第2のFIRベースのモデル、及び(iii)エコーの後期反射成分に対して、3つのモデルのうち最低の正確さを提供するが、長さを有するエコー・パスに関する最低の複雑さもまた提供する指数関数モデル、とすることができる。
一般に、本明細書で説明した機能(例えば、図3に示した機能モジュール及び図4に示した機能ステップ)のいずれも、ソフトウェア、ファームウェア、ハードウェア(例えば、固定論理回路)、又はそれらの実装の組合せを用いて実装することができる。図3及び図4に別々に示したモジュール及びステップは、別々のモジュール又はステップとして実装されてもよいし、別々のモジュール又はステップとして実装されなくてもよい。例えば、エコー抑圧モジュール314は、パワー推定モジュール306及びパワー推定モジュール310並びに結合モジュール112の機能を実行してもよい。本明細書で使用される「モジュール」、「機能」、「コンポーネント」、及び「ロジック」という用語は、一般に、ソフトウェア、ファームウェア、ハードウェア、又はそれらの組合せを表す。ソフトウェア実装の場合、モジュール、機能、又はロジックは、プロセッサ(例えば、1以上のCPU)上で実行されたときに特定のタスクを実行するプログラム・コードを表す。プログラム・コードは、1以上のコンピュータ読み取り可能メモリ・デバイスに記憶することができる。本明細書で説明した技術の特徴は、プラットフォームに依存しない、すなわち、本明細書で説明した技術は、様々なプロセッサを有する様々な商用コンピューティング・プラットフォーム上で実施できることを意味する。
例えば、ユーザ・デバイスはまた、ユーザ・デバイスのハードウェアに、例えば、プロセッサの機能ブロック等のオペレーションを実行させるエンティティ(例えば、ソフトウェア)を含んでもよい。例えば、ユーザ・デバイスは、ユーザ・デバイス、より具体的には、ユーザ・デバイスのオペレーティング・システム及び関連ハードウェアにオペレーションを実行させる命令を保持するよう構成され得るコンピュータ読み取り可能媒体を含んでもよい。したがって、そのような命令は、オペレーションを実行するオペレーティング・システム及び関連ハードウェアを構成するよう機能し、このようにして、機能を実行するオペレーティング・システム及び関連ハードウェアの変形(transformation)をもたらす。命令は、様々な異なる構成を通して、コンピュータ読み取り可能媒体により、ユーザ・デバイスに提供されてもよい。
コンピュータ読み取り可能媒体の1つのそのような構成は、信号搬送媒体であり、したがって、例えば、ネットワークを介して、命令を(例えば、搬送波として)コンピューティング・デバイスに送信するよう構成される。コンピュータ読み取り可能媒体は、コンピュータ読み取り可能記憶媒体として構成されてもよく、したがって、信号搬送媒体ではない。コンピュータ読み取り可能記憶媒体の例は、ランダム・アクセス・メモリ(RAM)、読み取り専用メモリ(ROM)、光ディスク、フラッシュ・メモリ、ハード・ディスク・メモリ、及び、命令及び他のデータを記憶するために磁気技術、光技術、及び他の技術を使用することができる他のメモリ・デバイスを含む。
構造的特徴及び/又は方法論的動作に特有の言葉で主題を説明したが、添付の特許請求の範囲において定められる主題は、上述した特定の特徴又は動作に必ずしも限定されないことを理解すべきである。むしろ、上述した特定の特徴及び動作は、請求項を実施する例示的な形態として開示されたものである。

Claims (10)

  1. エコーを抑圧する方法であって、
    オーディオ信号を出力するステップと、
    オーディオ信号を受信するステップであって、前記の受信されたオーディオ信号は、前記の出力されたオーディオ信号から生じるエコーを含む、ステップと、
    複数のモデルを使用して、前記の受信されたオーディオ信号における前記エコーのエコー・パスをモデル化するモデル化ステップであって、前記複数のモデルのうち第1のモデルは、有限インパルス応答ベースのモデルであり、前記複数のモデルのうち第2のモデルは、前記第1のモデルとは異なる、モデル化ステップと、
    前記第1のモデルを使用して、前記の受信されたオーディオ信号における前記エコーの少なくとも第1の成分のエコー・パワーの第1のモデル推定値を決定するステップと、
    前記第2のモデルを使用して、前記の受信されたオーディオ信号における前記エコーの少なくとも第2の成分のエコー・パワーの第2のモデル推定値を決定するステップと、
    前記エコー・パワーの前記第1のモデル推定値及び前記第2のモデル推定値を結合して、前記の受信されたオーディオ信号における前記エコーのエコー・パワーの結合推定値を決定するステップであって、前記結合推定値は、前記第1のモデル推定値及び前記第2のモデル推定値の合計である、ステップと、
    前記エコー・パワーの前記結合推定値を使用して、エコー抑圧を前記の受信されたオーディオ信号に適用することにより、前記の受信されたオーディオ信号における前記エコーを抑圧するステップと、
    を含む、方法。
  2. 前記第1のモデル及び前記第2のモデルは、前記の受信されたオーディオ信号における前記エコーの異なる成分をモデル化し、前記第1のモデルは、前記の受信されたオーディオ信号における前記エコーの早期反射成分をモデル化し、前記第2のモデルは、前記の受信されたオーディオ信号における前記エコーの後期反射成分をモデル化する、請求項1記載の方法。
  3. 前記の受信されたオーディオ信号における前記エコーの前記エコー・パスをモデル化するに際し、前記第1のモデルは、前記第2のモデルより正確であり、前記エコー・パスの長さが増すにつれ、前記第1のモデルの複雑さは前記第2のモデルの複雑さに比べて増す、請求項1又は2記載の方法。
  4. 前記モデル化ステップは、前記の出力されたオーディオ信号及び前記の受信されたオーディオ信号に基づいて、時間領域で有限インパルス応答フィルタ推定値
    Figure 0006422886

    を動的に適応させるステップを含む、請求項1乃至3いずれか一項記載の方法。
  5. 前記有限インパルス応答フィルタ推定値
    Figure 0006422886

    を使用して、式
    Figure 0006422886

    に従って、前記の受信されたオーディオ信号における前記エコーの前記第1の成分の前記エコー・パワー
    Figure 0006422886

    の前記第1のモデル推定値を決定し、前記の出力されたオーディオ信号x(t)のN+1個のサンプルが考慮に入れられ、
    Figure 0006422886

    は、前記有限インパルス応答フィルタ推定値
    Figure 0006422886

    を記述するN+1個の重みのセットである、請求項4記載の方法。
  6. 前記有限インパルス応答フィルタ推定値
    Figure 0006422886

    を使用して、決定された前記有限インパルス応答フィルタ推定値
    Figure 0006422886

    から、複数のパワー応答を決定することにより、前記の受信されたオーディオ信号における前記エコーの前記第1の成分の前記エコー・パワーの前記第1のモデル推定値を決定し、前記複数のパワー応答は、
    前記有限インパルス応答フィルタ推定値
    Figure 0006422886

    を時間領域の複数のP個のパーティションに分割し、
    前記パーティションの各々について、周波数領域のそれぞれのパワー応答
    Figure 0006422886

    を決定するために、前記有限インパルス応答フィルタ推定値
    Figure 0006422886

    の前記パーティションの各々を変換して2乗する
    ことにより決定される、請求項4記載の方法。
  7. フレームkに関する、前記の受信されたオーディオ信号における前記エコーの前記第1の成分の前記エコー・パワー
    Figure 0006422886

    の前記第1のモデル推定値
    Figure 0006422886

    は、式
    Figure 0006422886

    に従って決定され、|X(k−p,f)|は、フレームk−pに関する、前記の出力されたオーディオ信号のパワー・スペクトル密度である、請求項6記載の方法。
  8. 前記第2のモデルは、指数関数モデルであり、前記方法は、
    前記の出力されたオーディオ信号及び前記の受信されたオーディオ信号に基づいて、前記指数関数モデルの減衰ファクタ推定値
    Figure 0006422886

    を決定するステップをさらに含み、
    前記第2のモデルを使用して、式
    Figure 0006422886

    に従って、フレームkに関する、前記の受信されたオーディオ信号における前記エコーの前記第2の成分の前記エコー・パワー
    Figure 0006422886

    の前記第2のモデル推定値
    Figure 0006422886

    を決定し、
    Figure 0006422886

    は、フレームk−1に関する、前記第1のモデルを使用して決定された前記の受信されたオーディオ信号における前記エコーの前記第1の成分の一部の前記エコー・パワーの推定値であり、前記一部は、前記エコーの早期反射成分における反射の最後に対応する、請求項3記載の方法。
  9. エコー抑圧を実施するよう構成されるデバイスであって、
    オーディオ信号を出力するよう構成されるオーディオ出力装置と、
    オーディオ信号を受信するよう構成されるオーディオ入力装置であって、前記の受信されたオーディオ信号は、前記の出力されたオーディオ信号から生じるエコーを含む、オーディオ入力装置と、
    複数のモデルを使用して、前記の受信されたオーディオ信号における前記エコーのエコー・パスをモデル化するよう構成されるモデル化モジュールであって、前記複数のモデルのうち第1のモデルは、有限インパルス応答ベースのモデルであり、前記複数のモデルのうち第2のモデルは、前記第1のモデルとは異なり、前記モデル化モジュールは、前記第1のモデルを使用して、前記の受信されたオーディオ信号における前記エコーの少なくとも第1の成分のエコー・パワーの第1のモデル推定値を決定し、前記第2のモデルを使用して、前記の受信されたオーディオ信号における前記エコーの少なくとも第2の成分のエコー・パワーの第2のモデル推定値を決定するよう構成され、前記モデル化モジュールは、前記エコー・パワーの前記第1のモデル推定値及び前記第2のモデル推定値を結合して、前記の受信されたオーディオ信号における前記エコーのエコー・パワーの結合推定値を決定するよう構成される結合モジュールであって、前記結合推定値は、前記第1のモデル推定値及び前記第2のモデル推定値の合計である、結合モジュールを含む、モデル化モジュールと、
    前記エコー・パワーの前記結合推定値を使用して、エコー抑圧を前記の受信されたオーディオ信号に適用することにより、前記の受信されたオーディオ信号における前記エコーを抑圧するよう構成されるエコー抑圧モジュールと、
    を備えた、デバイス。
  10. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサによる実行に応じて、前記少なくとも1つのプロセッサに複数の動作を実行させることにより、受信されたオーディオ信号におけるエコーを抑圧するよう構成されるコンピュータ・プログラムを含む1以上のコンピュータ読み取り可能記憶媒体であって、前記複数の動作は、
    オーディオ信号を出力する動作と、
    オーディオ信号を受信する動作であって、前記の受信されたオーディオ信号は、前記の出力されたオーディオ信号から生じるエコーを含む、動作と、
    複数のモデルを使用して、前記の受信されたオーディオ信号における前記エコーのエコー・パスをモデル化する動作であって、前記複数のモデルのうち第1のモデルは、有限インパルス応答ベースのモデルであり、前記複数のモデルのうち第2のモデルは、前記第1のモデルとは異なる、動作と、
    前記第1のモデルを使用して、前記の受信されたオーディオ信号における前記エコーの少なくとも第1の成分のエコー・パワーの第1のモデル推定値を決定する動作と、
    前記第2のモデルを使用して、前記の受信されたオーディオ信号における前記エコーの少なくとも第2の成分のエコー・パワーの第2のモデル推定値を決定する動作と、
    前記エコー・パワーの前記第1のモデル推定値及び前記第2のモデル推定値を結合して、前記の受信されたオーディオ信号における前記エコーのエコー・パワーの結合推定値を決定する動作であって、前記結合推定値は、前記第1のモデル推定値及び前記第2のモデル推定値の合計である、動作と、
    前記エコー・パワーの前記結合推定値を使用して、エコー抑圧を前記の受信されたオーディオ信号に適用することにより、前記の受信されたオーディオ信号における前記エコーを抑圧する動作と、
    を含む、1以上のコンピュータ読み取り可能記憶媒体と、
    を備えた、システム。
JP2015549852A 2012-12-21 2013-12-21 エコー抑圧 Active JP6422886B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
GB1223238.5 2012-12-21
GB1223238.5A GB2510331A (en) 2012-12-21 2012-12-21 Echo suppression in an audio signal
US13/789,532 2013-03-07
US13/789,532 US9154873B2 (en) 2012-12-21 2013-03-07 Echo suppression
PCT/US2013/077355 WO2014100794A1 (en) 2012-12-21 2013-12-21 Echo suppression

Publications (3)

Publication Number Publication Date
JP2016503263A JP2016503263A (ja) 2016-02-01
JP2016503263A5 JP2016503263A5 (ja) 2017-01-12
JP6422886B2 true JP6422886B2 (ja) 2018-11-14

Family

ID=47682458

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015549852A Active JP6422886B2 (ja) 2012-12-21 2013-12-21 エコー抑圧

Country Status (7)

Country Link
US (1) US9154873B2 (ja)
EP (1) EP2920950B1 (ja)
JP (1) JP6422886B2 (ja)
KR (1) KR102170172B1 (ja)
CN (1) CN104969537B (ja)
GB (1) GB2510331A (ja)
WO (1) WO2014100794A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2512022A (en) 2012-12-21 2014-09-24 Microsoft Corp Echo suppression
GB2509493A (en) 2012-12-21 2014-07-09 Microsoft Corp Suppressing Echo in a received audio signal by estimating the echo power in the received audio signal based on an FIR filter estimate
US10056092B2 (en) * 2014-09-12 2018-08-21 Nuance Communications, Inc. Residual interference suppression
CN108028876B (zh) * 2015-09-25 2019-07-23 美高森美半导体(美国)股份有限公司 声学回音路径改变检测装置和方法
DE102015222105A1 (de) * 2015-11-10 2017-05-11 Volkswagen Aktiengesellschaft Audiosignalverarbeitung in einem Fahrzeug
CN108702424B (zh) * 2016-06-30 2021-04-20 谷歌有限责任公司 用于声学回声消除的方法、存储介质及电子设备
WO2018102976A1 (en) 2016-12-06 2018-06-14 Harman International Industries, Incorporated Method and device for equalizing audio signals
CN106849976A (zh) * 2016-12-28 2017-06-13 深圳天珑无线科技有限公司 一种免提通话时回声消除方法及通信终端
US10481831B2 (en) * 2017-10-02 2019-11-19 Nuance Communications, Inc. System and method for combined non-linear and late echo suppression
CN109003620A (zh) * 2018-05-24 2018-12-14 北京潘达互娱科技有限公司 一种回音消除方法、装置、电子设备及存储介质
CN109587362B (zh) * 2018-12-24 2020-06-26 龙马智芯(珠海横琴)科技有限公司 回声抑制的处理方法和装置
CN111835383B (zh) * 2019-04-17 2022-04-01 达发科技(苏州)有限公司 回音与近端串扰消除系统
US10650839B2 (en) * 2019-06-20 2020-05-12 Intel Corporation Infinite impulse response acoustic echo cancellation in the frequency domain
JP2022151366A (ja) * 2021-03-26 2022-10-07 株式会社トランストロン エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム
CN113178203B (zh) * 2021-04-23 2022-11-04 歌尔股份有限公司 一种回声消除方法、系统、音频设备及可读存储介质
CN113763978B (zh) * 2021-04-25 2024-05-03 腾讯科技(深圳)有限公司 语音信号处理方法、装置、电子设备以及存储介质

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5473686A (en) 1994-02-01 1995-12-05 Tandy Corporation Echo cancellation apparatus
SE511073C2 (sv) 1997-09-10 1999-08-02 Ericsson Telefon Ab L M Sätt och anordning för ekoestimering och undertryckning i telefonsystem
US6256383B1 (en) * 1997-11-07 2001-07-03 Legerity, Inc. IIR filter of adaptive balance circuit for long tail echo cancellation
US6570985B1 (en) 1998-01-09 2003-05-27 Ericsson Inc. Echo canceler adaptive filter optimization
US7423983B1 (en) 1999-09-20 2008-09-09 Broadcom Corporation Voice and data exchange over a packet based network
US6549587B1 (en) 1999-09-20 2003-04-15 Broadcom Corporation Voice and data exchange over a packet based network with timing recovery
JP3566158B2 (ja) * 1999-12-07 2004-09-15 三菱電機株式会社 エコーキャンセラ装置
US7672447B1 (en) 2000-06-01 2010-03-02 Telefonaktiebolaget Lm Ericsson (Publ) Frequency domain echo canceller
US7046658B1 (en) 2000-06-23 2006-05-16 At & T Corp. Method and system for customer selected direct dialed voice-over-internet protocol (VOIP)
US7068780B1 (en) * 2000-08-30 2006-06-27 Conexant, Inc. Hybrid echo canceller
JP4568439B2 (ja) 2001-01-22 2010-10-27 パナソニック株式会社 エコー抑圧装置
US6785382B2 (en) 2001-02-12 2004-08-31 Signalworks, Inc. System and method for controlling a filter to enhance speakerphone performance
EP1393461B1 (en) 2001-05-17 2006-07-19 STMicroelectronics Asia Pacific Pte Ltd. Echo canceller and a method of cancelling echo
US6950842B2 (en) 2002-01-23 2005-09-27 Analog Devices, Inc. Echo canceller having an adaptive filter with a dynamically adjustable step size
US6914978B2 (en) 2002-08-16 2005-07-05 Ambit Microsystems Corp. Pulse dialing system for VoIP modem
US7082123B2 (en) 2002-08-21 2006-07-25 Ambit Microsystems Corp. Silent redial system for VoIP modem
US7062040B2 (en) 2002-09-20 2006-06-13 Agere Systems Inc. Suppression of echo signals and the like
US7027591B2 (en) 2002-10-16 2006-04-11 Ericsson Inc. Integrated noise cancellation and residual echo suppression
US7162420B2 (en) 2002-12-10 2007-01-09 Liberato Technologies, Llc System and method for noise reduction having first and second adaptive filters
US7319748B2 (en) * 2003-01-08 2008-01-15 Nxp B.V. Device and method for suppressing echo in telephones
US6947549B2 (en) * 2003-02-19 2005-09-20 The Hong Kong Polytechnic University Echo canceller
US7099458B2 (en) 2003-12-12 2006-08-29 Motorola, Inc. Downlink activity and double talk probability detector and method for an echo canceler circuit
US9509854B2 (en) * 2004-10-13 2016-11-29 Koninklijke Philips N.V. Echo cancellation
US7894598B2 (en) 2004-12-14 2011-02-22 Nuance Communications, Inc. System for limiting receive audio
ATE445966T1 (de) 2006-05-08 2009-10-15 Harman Becker Automotive Sys Echoverringerung für zeitvariante systeme
EP1879293B1 (en) 2006-07-10 2019-02-20 Harman Becker Automotive Systems GmbH Partitioned fast convolution in the time and frequency domain
US7983373B2 (en) 2007-02-07 2011-07-19 Vintomie Networks B.V., Llc Clock distribution for 10GBase-T analog front end
JP4978352B2 (ja) 2007-07-11 2012-07-18 ヤマハ株式会社 エコーキャンセラ
US8374851B2 (en) 2007-07-30 2013-02-12 Texas Instruments Incorporated Voice activity detector and method
EP2048659B1 (en) * 2007-10-08 2011-08-17 Harman Becker Automotive Systems GmbH Gain and spectral shape adjustment in audio signal processing
US8275139B2 (en) 2008-03-26 2012-09-25 Ittiam Systems (P) Ltd. Linear full duplex system and method for acoustic echo cancellation
JP5125690B2 (ja) 2008-03-31 2013-01-23 ヤマハ株式会社 音響エコー除去装置
CN101262530B (zh) * 2008-04-29 2011-12-07 中兴通讯股份有限公司 一种消除移动终端回音的装置
US8634569B2 (en) 2010-01-08 2014-01-21 Conexant Systems, Inc. Systems and methods for echo cancellation and echo suppression
NO332437B1 (no) * 2010-01-18 2012-09-17 Cisco Systems Int Sarl Apparat og fremgangsmate for a supprimere et akustisk ekko
US9185233B2 (en) * 2010-05-25 2015-11-10 Intel Deutschland Gmbh Audio communication device and method using fixed echo cancellation filter coefficients
EP2444967A1 (en) * 2010-10-25 2012-04-25 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Echo suppression comprising modeling of late reverberation components
BR112013016222B1 (pt) 2011-02-03 2020-12-15 Telefonaktiebolaget L M Ericsson (Publ) Método de estimar a potência de eco, método de supressão de eco, estimador de potência de eco harmônico, cancelador de eco, e, equipamento de usuário
US8804977B2 (en) 2011-03-18 2014-08-12 Dolby Laboratories Licensing Corporation Nonlinear reference signal processing for echo suppression
US9065895B2 (en) * 2012-02-22 2015-06-23 Broadcom Corporation Non-linear echo cancellation
GB2512022A (en) 2012-12-21 2014-09-24 Microsoft Corp Echo suppression
GB2509493A (en) 2012-12-21 2014-07-09 Microsoft Corp Suppressing Echo in a received audio signal by estimating the echo power in the received audio signal based on an FIR filter estimate

Also Published As

Publication number Publication date
EP2920950B1 (en) 2016-09-21
CN104969537B (zh) 2017-01-18
CN104969537A (zh) 2015-10-07
GB201223238D0 (en) 2013-02-06
KR20150097686A (ko) 2015-08-26
US9154873B2 (en) 2015-10-06
WO2014100794A1 (en) 2014-06-26
KR102170172B1 (ko) 2020-10-26
US20140177859A1 (en) 2014-06-26
GB2510331A (en) 2014-08-06
JP2016503263A (ja) 2016-02-01
EP2920950A1 (en) 2015-09-23

Similar Documents

Publication Publication Date Title
JP6422886B2 (ja) エコー抑圧
JP6422885B2 (ja) エコー抑圧
US9277059B2 (en) Echo removal
KR102190833B1 (ko) 에코 억제
JP6422884B2 (ja) エコー抑圧
EP2987313B1 (en) Echo removal
KR100949910B1 (ko) 스펙트럼 차감을 이용한 음향학적 반향 제거 방법 및 장치

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161124

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161124

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180412

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180918

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181017

R150 Certificate of patent or registration of utility model

Ref document number: 6422886

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250