JP7003153B2 - マルチチャネル干渉除去のための装置および方法 - Google Patents

マルチチャネル干渉除去のための装置および方法 Download PDF

Info

Publication number
JP7003153B2
JP7003153B2 JP2019556955A JP2019556955A JP7003153B2 JP 7003153 B2 JP7003153 B2 JP 7003153B2 JP 2019556955 A JP2019556955 A JP 2019556955A JP 2019556955 A JP2019556955 A JP 2019556955A JP 7003153 B2 JP7003153 B2 JP 7003153B2
Authority
JP
Japan
Prior art keywords
signal
interference
interference signal
time index
channels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019556955A
Other languages
English (en)
Other versions
JP2020519070A (ja
Inventor
バレロ,マリア ルイス
ハーベツ,エマニュエル
アンニーバレ,パオロ
ロンバール,アンソニー
ヴィルド,モーリッツ
ルータ,マルセル
Original Assignee
フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2020519070A publication Critical patent/JP2020519070A/ja
Application granted granted Critical
Publication of JP7003153B2 publication Critical patent/JP7003153B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/45Prevention of acoustic reaction, i.e. acoustic oscillatory feedback
    • H04R25/453Prevention of acoustic reaction, i.e. acoustic oscillatory feedback electronically
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)
  • Noise Elimination (AREA)
  • Automatic Analysis And Handling Materials Therefor (AREA)

Description

本発明は、オーディオ信号処理に関し、特に、マルチチャネル干渉除去の複雑度を低減させる、低複雑度のマルチチャネル干渉除去のための装置および方法に関する。
最新のハンズフリー通信デバイスは、例えば、音声強調や、部屋形状推測や、自動音声認識のために複数のマイクロフォン信号を用いる。
これらのデバイスは、音声起動アシスタント、スマートホームデバイスおよびスマートスピーカから、スマートフォン、タブレット、またはパーソナルコンピュータにまで及ぶ。
音声起動アシスタント、スマートフォン、タブレット、パーソナルコンピュータなどの多くのスマートデバイスにはスピーカが装備されている。
そのようなデバイス、例えば、少なくとも1つのスピーカも組み込まれたデバイスを考慮して、電気音響結合を低減させるために音響干渉キャンセラが各マイクロフォンの出力に適用される。
音響エコー除去(acoustic echo cancellation(AEC))([1]などを参照)は、ハンズフリー通信のセットアップにおいて(1つまたは複数の)スピーカと(1つまたは複数の)マイクロフォンとの間の電気音響結合を低減させるために最も広く使用されている技術である。
そのようなセットアップが与えられた場合、マイクロフォンは、所望の近端音声以外に、音響エコーおよびバックグラウンドノイズを取得する。
AECは、適応フィルタリング技術([2]などを参照)を使用して、(1つまたは複数の)スピーカと(1つまたは複数の)マイクロフォンとの間の音響インパルス応答(acoustic impulse response(AIR))を推定する。
続いて、利用可能なスピーカ信号を推定AIRでフィルタリングすることにより音響エコー推定値が計算される。
最後に、推定音響エコーがマイクロフォン信号から減算されて、音響エコーが除去される。
音響エコー除去(AEC)の特定の事例では、スピーカによって再生される遠端話者信号により電気音響結合が引き起こされる。
ただし、前述のハンズフリー通信デバイスでは、電気音響結合はデバイス自体のフィードバック、音楽、または音声アシスタントにより引き起こされることもある。
スピーカとマイクロフォンとの間の電気音響結合を低減させる最も簡単な解決策は、各マイクロフォンの出力に音響干渉キャンセラを配置することである([3]などを参照)。
相対伝達関数は、一般に音響伝達関数(acoustic transfer function(ATF))として表される周波数領域AIR間の関係をモデル化する。
RTF(RTFは相対伝達関数を意味する)は、一般にマルチマイクロフォン音声強調の状況で使用される([5]、[8]、[12]などを参照)。
さらに関連適用例を考察すると、プライマリチャネルの残留エコーのパワースペクトル密度、例えば、除去後に残留する音響エコー成分を推定するために[13]、[14]において残留エコー相対伝達関数が用いられた。
推定プロセスを強化するために、第2のマイクロフォン信号が使用される。
[13]、[14]の提案の方法は、除去後のプライマリ信号とセカンダリマイクロフォン信号との関係を推定し、プライマリAIRの推定の誤差とセカンダリAIRとの関係を提供する。
最後に、残留エコー相対伝達関数を使用して、プライマリ残留音響エコーのパワースペクトル密度が計算される。
マイクロフォンアレイ処理の具体的な適用を考慮して、音声強化アルゴリズム全体の複雑度低減、例えば、AECと組み合わせた空間フィルタリングを目的としたいくつかの方法が提示されている。
例えば、空間フィルタの出力に配置された単一のAECの使用が[3]、[15]で最初に研究された。
音響エコー除去とマイクロフォンアレイ処理の統合を目的としたいくつかの代替方法が[8]、[16]、[18]で提案されている。
マルチマイクロフォン音響干渉キャンセラの複雑度はマイクロフォンの数に比例するので、多くの最新のデバイスでは、そのような複雑度の増加が達成できない。
したがって、マルチチャネル干渉除去のための低複雑度の概念が提供されれば高い評価を得られるはずである。
本発明の目的は、マルチチャネル干渉除去のための低複雑度の概念を提供することにある。
本発明の目的は、請求項1に記載の装置、請求項14に記載の方法、および請求項15に記載のコンピュータプログラムにより解決される。
一実施形態により、2つ以上の修正オーディオチャネルを含む修正オーディオ信号を取得するための、2つ以上の受信オーディオチャネルを含む受信オーディオ信号におけるマルチチャネル干渉除去のための装置が提供される。
本装置は、基準信号に応じて第1の干渉信号の第1の推定値を生成するように構成されている第1のフィルタユニットを含む。
さらに、本装置は、第1の干渉信号の第1の推定値に応じて、2つ以上の受信オーディオチャネルのうちの第1の受信オーディオチャネルから2つ以上の修正オーディオチャネルのうちの第1の修正オーディオチャネルを生成するように構成されている第1の干渉キャンセラを含む。
さらに、本装置は、第1の干渉信号の第1の推定値に応じて第2の干渉信号の第2の推定値を生成するように構成されている第2のフィルタユニットを含む。
さらに、本装置は、第2の干渉信号の第2の推定値に応じて、2つ以上の受信オーディオチャネルのうちの第2の受信オーディオチャネルから2つ以上の修正オーディオチャネルのうちの第2の修正オーディオチャネルを生成するように構成されている第2の干渉キャンセラを含む。
実施形態は、相対伝達関数を使用したマルチチャネル干渉除去のための概念、例えば装置および方法を提供する。
例えばAECでは、実施形態による概念は、プライマリ音響エコー信号の推定値を使用して、残留する、すなわちセカンダリ音響エコー信号の推定値を計算する。
そのために、プライマリ音響インパルス応答(AIR)、例えばスピーカとプライマリマイクロフォンとの間のAIRと、セカンダリAIR、例えばスピーカとセカンダリマイクロフォンとの間のAIRとの関係が識別される。
続いて、プライマリ音響エコー信号を推定されたAIR間の関係でフィルタリングすることによりセカンダリ音響エコー信号が計算される。
最後に、すべてのマイクロフォン信号に除去が適用される。
マイクロフォン間の距離が短い場合、比較的短いフィルタを使用してこれらの関係をモデル化することができる。よって、計算の複雑度を低減させることができる。
さらに、一実施形態による、2つ以上の修正オーディオチャネルを含む修正オーディオ信号を取得するための、2つ以上の受信オーディオチャネルを含む受信オーディオ信号におけるマルチチャネル干渉除去のための方法が提供される。
本方法は以下を含む:
―基準信号に応じて第1の干渉信号の第1の推定値を生成すること。
―第1の干渉信号の第1の推定値に応じて2つ以上の受信オーディオチャネルのうちの第1の受信オーディオチャネルから2つ以上の修正オーディオチャネルのうちの第1の修正オーディオチャネルを生成すること。
―第1の干渉信号の第1の推定値に応じて第2の干渉信号の第2の推定値を生成すること。
―および、第2の干渉信号の第2の推定値に応じて2つ以上の受信オーディオチャネルのうちの第2の受信オーディオチャネルから2つ以上の修正オーディオチャネルのうちの第2の修正オーディオチャネルを生成すること。
さらに、コンピュータプログラムが提供され、本コンピュータプログラムは、コンピュータまたは信号プロセッサで実行されると、上述した方法を実施するように構成されている。
以下において、本発明の実施形態を、図を参照してより詳細に説明する。
一実施形態によるマルチチャネル干渉除去のための装置を示す図である。 別の実施形態によるマルチチャネル干渉除去のための装置を示す図である。 さらなる実施形態によるマルチチャネル干渉除去のための装置を示す図である。 マルチマイクロフォンAECを示す図である。 一実施形態によるマルチマイクロフォンAECを示す図である。 STFT領域のマルチマイクロフォンAECを示す図である。 一実施形態によるSTFT領域のマルチマイクロフォンAECを示す図である。 切り出されたAIRを用いたシミュレーションに対応する結果を示す図である。 60=0.15sおよびL=256タップでのAETFとRETFベースのAECの比較を示す図である。 60=0.35sおよびL=1024タップでのAETFとRETFベースのAECの比較を示す図である。
図1aに、一実施形態によるマルチチャネル干渉除去のための装置を示す。
本装置は、基準信号x(t)に応じて第1の干渉信号の第1の推定値
Figure 0007003153000001
を生成するように構成されている第1のフィルタユニット112を含む。
さらに、本装置は、第1の干渉信号の第1の推定値
Figure 0007003153000002
に応じて2つ以上の受信オーディオチャネルのうちの第1の受信オーディオチャネルy(t)から2つ以上の修正オーディオチャネルのうちの第1の修正オーディオチャネルe(t)を生成するように構成されている第1の干渉キャンセラ114を含む。
さらに、本装置は、第1の干渉信号の第1の推定値
Figure 0007003153000003
に応じて第2の干渉信号の第2の推定値
Figure 0007003153000004
を生成するように構成されている第2のフィルタユニット122を含む。
さらに、本装置は、第2の干渉信号の第2の推定値
Figure 0007003153000005
に応じて2つ以上の受信オーディオチャネルのうちの第2の受信オーディオチャネルy(t)から2つ以上の修正オーディオチャネルのうちの第2の修正オーディオチャネルe(t)を生成するように構成されている第2の干渉キャンセラ124を含む。
実施形態は、第1の干渉信号の第1の推定値が第2の干渉信号の第2の推定値を生成するために使用され得るという発見に基づくものである。
第1の干渉信号の第1の推定値を第2の干渉信号の第2の推定値を決定するために再利用することにより、第1の干渉信号の第1の推定値を使用する代わりに基準信号を使用して第2の干渉信号の第2の推定値を生成する解決策と比較して計算の複雑度が低減される。
実施形態のいくつかは、音響エコー除去(AEC)に関する。
一実施形態では、第1の干渉信号の第1の推定値は、例えば、第1の音響エコー信号の第1の推定値であってもよく、第2の干渉信号の第2の推定値は、第2の音響エコー信号の第2の推定値である。
第1の干渉キャンセラ114は、例えば、第1の修正オーディオチャネルを取得するために(例えば、第1の受信オーディオチャネルから第1の音響エコー信号の第1の推定値を減算することにより)第1の受信オーディオチャネルに対して音響エコー除去を実行するように構成されてもよい。
第2の干渉キャンセラ124は、例えば、第2の修正オーディオチャネルを取得するために(例えば、第2の受信オーディオチャネルから第2の音響エコー信号の第2の推定値を減算することにより)第2の受信オーディオチャネルに対して音響エコー除去を実行するように構成されてもよい。
図1bに、別の実施形態によるマルチチャネル干渉除去のための装置を示す。
図1aの装置と比較して、図1bの装置は、第3のフィルタユニット132と第3の干渉キャンセラ134とをさらに含む。
図1bの実施形態では、受信オーディオ信号は3つ以上の受信オーディオチャネルを含み、修正オーディオ信号は3つ以上の修正オーディオチャネルを含む。
第3のフィルタユニット132は、第1の干渉信号の第1の推定値
Figure 0007003153000006
に応じて第3の干渉信号の第3の推定値
Figure 0007003153000007
を生成するように構成されている。
第3の干渉キャンセラ134は、第3の干渉信号の第3の推定値
Figure 0007003153000008
に応じて、3つ以上の受信オーディオチャネルのうちの第3の受信オーディオチャネルy(t)から3つ以上の修正オーディオチャネルのうちの第3の修正オーディオチャネルe(t)を生成するように構成されている。
図1cに、さらなる実施形態によるマルチチャネル干渉除去のための装置を示す。
図1aの装置と比較して、図1cの装置は、第3のフィルタユニット132と第3の干渉キャンセラ134とをさらに含む。
図1cの実施形態では、受信オーディオ信号は3つ以上の受信オーディオチャネルを含み、修正オーディオ信号は3つ以上の修正オーディオチャネルを含む。
第3のフィルタユニット132は、第2の干渉信号の第2の推定値
Figure 0007003153000009
に応じて第3の干渉信号の第3の推定値
Figure 0007003153000010
を生成するように構成されている。
よって、図1cの実施形態は、第3の干渉信号の第3の推定値
Figure 0007003153000011
の生成が、第1の干渉信号の第1の推定値
Figure 0007003153000012
に応じることに代わって、第2の干渉信号の第2の推定値
Figure 0007003153000013
に応じて実行されるという点で図1bの実施形態と異なる。
第3の干渉キャンセラ134は、第3の干渉信号の第3の推定値
Figure 0007003153000014
に応じて、2つ以上の受信オーディオチャネルのうちの第3の受信オーディオチャネルy(t)から2つ以上の修正オーディオチャネルのうちの第3の修正オーディオチャネルe(t)を生成するように構成されている。
他の実施形態(図1cの任意選択の破線199を実施する)では、第3のフィルタユニット132は、第2の干渉信号の第2の推定値
Figure 0007003153000015
と第1の干渉信号の第1の推定値
Figure 0007003153000016
とに応じて第3の干渉信号の第3の推定値
Figure 0007003153000017
を生成するように構成されている。
図2に、先行技術によるマルチマイクロフォンAECを示す。
該先行技術の手法では、第1のフィルタユニット282が、基準信号x(t)から第1の干渉信号の第1の推定値
Figure 0007003153000018
を生成するために使用される。
次いで第1の干渉キャンセラ284が、第1の干渉信号の第1の推定値
Figure 0007003153000019
に応じて2つ以上の受信オーディオチャネルのうちの第1の受信オーディオチャネルy(t)から第1の修正オーディオチャネルe(t)を生成する。
図2の先行技術の手法では、第2のフィルタユニット292が、第1のフィルタユニット282によっても使用された基準信号x(t)から第2の干渉信号の第2の推定値
Figure 0007003153000020
を生成する。
次いで第2の干渉キャンセラ294が、第2の干渉信号の第2の推定値
Figure 0007003153000021
に応じて2つ以上の受信オーディオチャネルのうちの第2の受信オーディオチャネルy(t)から第2の修正オーディオチャネルe(t)を生成する。
いくつかの実施形態は、図3に示されるように、相対伝達関数(RTF)ベースの手法を使用して、図2に示されるマルチマイクロフォン音響エコー除去(AEC)の複雑度を低減させる。相対伝達関数は[4]、[7]に記載されている。
図3に、実施形態によるマルチマイクロフォン音響エコー除去(AEC)を示す。
図3では、第1のフィルタユニット312が、基準信号x(t)から第1の干渉信号の第1の推定値
Figure 0007003153000022
を生成するために使用される。
次いで第1の干渉キャンセラ314が、第1の干渉信号の第1の推定値
Figure 0007003153000023
に応じて2つ以上の受信オーディオチャネルのうちの第1の受信オーディオチャネルy(t)から第1の修正オーディオチャネルe(t)を生成する。
図3の装置はここでは、第2のフィルタユニット322は、第1のフィルタユニット312によって生成された第1の干渉信号の第1の推定値
Figure 0007003153000024
に応じて第2の干渉信号の第2の推定値
Figure 0007003153000025
を生成する、という点で図2と異なる。
次いで第2の干渉キャンセラ324が、第2の干渉信号の第2の推定値
Figure 0007003153000026
に応じて2つ以上の受信オーディオチャネルのうちの第2の受信オーディオチャネルy(t)から第2の修正オーディオチャネルe(t)を生成する。
いくつかの実施形態は、図3に示されるように、相対伝達関数(RTF)ベースの手法を使用して、図2に示されるマルチマイクロフォン音響エコー除去(AEC)の複雑度を低減させる。相対伝達関数は[4]、[7]に記載されている。
実施形態は、プライマリ干渉信号の推定値を使用して、残留する、すなわちセカンダリ干渉信号の推定値を計算する。
プライマリ干渉信号を推定するために、基準信号とプライマリ受信信号の関係を特徴付けるプライマリフィルタを識別する。
次に、基準信号をプライマリフィルタの推定値を用いてフィルタリングすることによりプライマリ干渉信号の推定値を取得する。
その後、セカンダリフィルタ、例えば推定プライマリ干渉信号とセカンダリ受信信号との関係を特徴付けるフィルタを識別する。
続いて、プライマリ干渉信号の推定値を推定セカンダリフィルタによってフィルタリングすることによりセカンダリ干渉信号の推定値を計算する。
最後に、電気音響結合を低減させるために除去が適用される。
マイクロフォン間の距離が短い場合、セカンダリフィルタはプライマリフィルタよりも短く([10]、[19]などを参照)、これが計算の複雑度の低減につながる。
いくつかの実施形態は、音響エコー除去に使用される。
この目的で、図3は、1つのスピーカ(1つの送信機)とN個のマイクロフォン(受信機)と用いたハンズフリーの通信シナリオを示している。
この特定の事例では、基準信号はスピーカ信号x(t)であり、一般性を失うことなく、プライマリマイクロフォン信号はy(t)であり、tは離散時間インデックスを表す。
さらに、プライマリフィルタの推定値は、
Figure 0007003153000027
として表されており、プライマリ音響エコー(干渉)信号の推定値
Figure 0007003153000028
、および除去後の信号
Figure 0007003153000029
である。
確認できるように、セカンダリ音響エコー信号
Figure 0007003153000030
が、プライマリ音響エコー信号の推定値
Figure 0007003153000031
をセカンダリフィルタの推定値
Figure 0007003153000032
でフィルタリングすることにより計算される。
セカンダリマイクロフォン信号にはD≧0サンプルの遅延が導入されることに留意されたい。
これがなされるのは、セカンダリフィルタのD個の非因果係数が推定されることを保証するためである。
マイクロフォンが同期される必要がある場合には、除去後のプライマリ信号もDサンプルだけ遅延される必要がある。
対照的に、(図2に示される)従来の干渉除去方式では、基準x(t)信号をN個の推定プライマリフィルタを用いてフィルタリングすることによりN個の受信信号の推定値を計算する。
以下に、実施形態のいくつかによる段階的な手法を提供する:
1.)プライマリ干渉信号が基準信号を使用して推定される。
音響エコー除去の具体的な適用では、前者は音響エコー信号であり、後者はスピーカ信号である。そのために:
1.1.)基準信号とプライマリ受信機信号との関係を特徴付けるプライマリフィルタ、これは、
(a)単一の受信機信号、
(b)受信機信号の線形結合、
のどちらかであり、例えば適応フィルタリング技術などを使用して識別される。
1.2.)基準信号はプライマリフィルタの推定値でフィルタリングされ、プライマリ干渉信号の推定値が計算される。
1.3.)干渉除去は、プライマリ受信信号からプライマリ干渉信号の推定値を減算することにより適用される。これは以下のどちらかである。
(a)単一の受信機信号。
(b)受信機信号の線形結合。
2.)セカンダリ干渉信号は、プライマリ干渉信号の推定値に基づいて推定される。そのために:
2.1.)プライマリ干渉信号の推定値とセカンダリ受信信号との間の関係を特徴付けるセカンダリフィルタが、例えば、
i.)費用関数または誤差基準(平均二乗誤差、(重み付き)最小二乗誤差など)の最適化
ii.)時間、周波数、またはサブバンド領域での適応フィルタリング技術により、セカンダリ受信機信号または除去後のセカンダリ信号、およびプライマリ干渉信号の推定値を使用して、識別される。(セカンダリフィルタは、例えば、フィルタ構成とみなされ得る。)
2.2.)セカンダリ干渉信号の推定値を計算するためにプライマリ干渉信号の推定値がセカンダリフィルタの推定値でフィルタリングされる。
2.3.)干渉除去は、セカンダリ受信機信号からセカンダリ干渉信号の推定値を減算することにより適用される。
3.)セカンダリ干渉信号ごとに2.を繰り返す。
4.)基準信号ごとに1.、2.、および3.を繰り返す。
5.)送信機はスピーカであり、受信機はマイクロフォンである。
6.)セカンダリ干渉信号の推定値をカスケード構成につながるプライマリ干渉信号の推定値として使用することができる。
7.)3つ以上の受信機の場合、受信機のサブセットを定義でき、各受信機がプライマリ受信機を有する。
さらなる実施形態は、上記のステップの一部のみを適用し、かつ/またはステップを異なる順序で適用することができる。
以下において、STFT領域適応フィルタを使用する実施形態を説明する(STFTとはshort-time Fourier transform(短時間フーリエ変換)を意味する)。
1つのスピーカとN個のマイクロフォンを用いたハンズフリー通信のセットアップを考えると、第nのマイクロフォン信号をSTFT領域で次のように表現することができる。
(l,k)=D(l,k)+R(l,k),n∈{1,…,N} (1)
式中、lおよびkは、それぞれ、時間フレームおよび周波数のインデックスである。
さらに、R(l,k)は、近端音声およびバックグラウンドノイズを含む近端信号であり、D(l,k)は、第nの音響エコーである。
後者は、スピーカ信号X(l,k)が部屋を伝播し、第nのマイクロフォンによって取得された結果である。
そのSTFT領域での正確な定式化([20]などを参照)は、
Figure 0007003153000033
(2)
であり、式中、x(l)=[X(l,0),…,X(l,K-1)]であり、上付き文字・および・は、それぞれ、転置および共役転置を表し、Kは、変換長である。
さらに、第nのAETFの第bのパーティションは、h(b,k)=[H(b,k,0),…,H(b,k,K-1)]であり、これはすべての周波数依存性を含むベクトルH(b,k,k’)であり、k’∈{0,…,K-1}である(AETFは、音響エコー伝達関数を意味する)。
[20]において、幅広く解析されているSTFT領域のAETFは非因果的であることに留意されたい。さらに、L個のAIR係数を推定するために必要なパーティション、すなわち入力フレームの数は
Figure 0007003153000034
であり、式中、Rは、後続の入力フレーム間のフレームシフトを表す。
AETFの非因果性のために、エコー信号を計算するにはX(l,k)の
Figure 0007003153000035
個の先読みフレームが必要である。
STFT解析および合成窓の周波数選択性は、周波数依存性を無視できるように十分であると仮定する。
加えて、表記を簡潔にするために、実施形態によれば、図4に示されるように、Bnc個のフレームの遅延が再生経路に導入されると仮定する。
実際には、代わりに取り込み経路が一般に遅延される。[7]、[20]などを参照されたい。
図4の信号は、変換領域の信号である。
特に、図4の信号は、短時間フーリエ変換領域(STFT領域)の信号である。
図4では、第1のフィルタユニット482は、基準信号X(l,k)から第1の干渉信号の第1の推定値
Figure 0007003153000036
を生成するために使用される。
次いで第1の干渉キャンセラ484は、第1の干渉信号の第1の推定値
Figure 0007003153000037
に応じて2つ以上の受信オーディオチャネルのうちの第1の受信オーディオチャネルY(l,k)から第1の修正オーディオチャネルE(l,k)を生成する。
図4の手法では、第2のフィルタユニット492は、第1のフィルタユニット482によっても使用された基準信号X(l,k)から第2の干渉信号の第2の推定値
Figure 0007003153000038
を生成する。
次いで第2の干渉キャンセラ494は、第2の干渉信号の第2の推定値
Figure 0007003153000039
に応じて2つ以上の受信オーディオチャネルのうちの第2の受信オーディオチャネルY(l,k)から第2の修正オーディオチャネルE(l,k)を生成する。
図4は、STFT領域のマルチマイクロフォンAECを示している。
実際には、代わりに取り込み経路が一般に遅延される。例えば、[7]、[20]などを参照されたい。
ここでは、畳み込み伝達関数(convolutive transfer function(CTF))近似([7]などを参照)を使用することにより、次のように書くことが可能である。
Figure 0007003153000040
(3)
式中、・は、複素共役を表し、簡潔にするために、H(b,k)=H(b,k,k)である。

AECの適応アルゴリズムは、除去後の誤差信号によって駆動され、例えば、
Figure 0007003153000041
(4)
であり、式中、
Figure 0007003153000042
は、推定値を表すために使用され、
Figure 0007003153000043
であり、
x(l,k)=[X(l,k),…,X(l-B+1、k)]である。

上付き文字は、エルミートを表す。
AECで使用されるほとんどの適応フィルタは勾配降下型のものであり([2]などを参照)、よって、汎用更新式は以下で与えられ、
Figure 0007003153000044
(5)
式中、M(l,k)は、適応フィルタのステップサイズ行列であり、その定式化は使用される特定の適応アルゴリズムに依存する。
以下において、実施形態による相対エコー伝達関数の使用について説明する。
計算の複雑度の制限があるため、図4に示されるマルチマイクロフォンAECの実現は常に実行可能ではない。
実施形態によれば、図5に示されるように、RETFベースの手法を使用して複雑度を低減させることが提案される(RETFは相対エコー伝達関数を意味する)。
図5に、一実施形態によるSTFT領域のマルチマイクロフォンAECを示す。
繰り返しになるが、図5の信号は変換領域の信号である。特に、図5の信号は、短時間フーリエ変換領域(STFT領域)の信号である。
図5では、第1のフィルタユニット512は、基準信号X(l,k)から第1の干渉信号の第1の推定値
Figure 0007003153000045
を生成するために使用される。
次いで、第1の干渉キャンセラ514は、第1の干渉信号の第1の推定値
Figure 0007003153000046
に応じて2つ以上の受信オーディオチャネルのうちの第1の受信オーディオチャネルY(l,k)から第1の修正オーディオチャネルE(l,k)を生成する。
図5の装置は、ここで、第2のフィルタユニット522が第1のフィルタユニット512によって生成された第1の干渉信号の第1の推定値
Figure 0007003153000047
に応じて第2の干渉信号の第2の推定値
Figure 0007003153000048
を生成する、という点で図4と異なる。
次いで、第2の干渉キャンセラ524は、第2の干渉信号の第2の推定値
Figure 0007003153000049
に応じて2つ以上の受信オーディオチャネルのうちの第2の受信オーディオチャネルY(l,k)から第2の修正オーディオチャネルE(l,k)を生成する。
実施形態では、第2のフィルタユニット122は、例えば、第1の干渉信号の第1の推定値と第2の受信オーディオチャネルとに応じてフィルタ構成を決定するように構成され、第2のフィルタユニット122は、例えば、第1の干渉信号の第1の推定値とフィルタ構成とに応じて第2の干渉信号の第2の推定値を決定するように構成されてもよい。
例えば、第2のフィルタユニット122は、費用関数を最小化することによって、または誤差基準を最小化することにより、例えば平均二乗誤差を最小化することによりフィルタ構成を決定するように構成されている。
以下において、決定されるべきそのようなフィルタ構成は、例えば、A(p,k)および/またはa(k)および/または
Figure 0007003153000050
であればよい。
この問題の定式化は、フィルタが時間的に不変であると仮定して導出されるが、推定値は経時的に変化するものである。
そのような実施形態の特定の例を以下に示す。
一般性を失うことなく、プライマリエコー信号はD(l,k)として表され、(3)と同様に定義される。
周波数依存性に関する前述の仮定の下で、次のように書くことが可能であり、
Figure 0007003153000051
(6)
式中、A(p,k)は、第nの相対エコー伝達関数(RETF)の第pのパーティションである。
プライマリマイクロフォンとセカンダリマイクロフォンとの間の距離が比較的短いという条件で、A(p,k)∀nの非因果的パーティションは無視できると仮定することが可能である。
それにも関わらず、少数の非因果的な時間領域係数が、A(0,k)によりモデル化されることに言及する価値がある。
この仮定の下では、先読みは不要であり、結果として、追加の遅延は発生しない。
最後に、CTF近似を使用すると、
Figure 0007003153000052
(7)
が得られ、式中、Pは、RETFパーティションの数である。
実施形態によれば、D(l,k)は確認できないため、最新技術のAECを使用して取得できる式(7)の
Figure 0007003153000053
でD(l,k)を置き換えることが提案される。
(p,k)∀pを推定するために、実施形態によれば、誤差信号は次のように最小化され、
Figure 0007003153000054
(8)
式中、
Figure 0007003153000055
は、RETFパーティションの第nのスタックドベクトル(stacked vector)であり、
Figure 0007003153000056
である。
二次費用関数J(l,k)=E{|E(l,k)|}を最小化することにより得られる、平均二乗誤差の意味での最適フィルタは、
Figure 0007003153000057
(9)
と等しく、式中、Ψ(l,k)は
Figure 0007003153000058
の共分散行列であり、Ψ1n(l,k)は
Figure 0007003153000059
とY(l,k)との間の相互相関ベクトルであり、例えば、
Figure 0007003153000060

であり、式中、E{・}は、数学的期待値を表す。
Figure 0007003153000061
という仮定の下では、
Figure 0007003153000062
であることに留意されたい。
Figure 0007003153000063
は、推定プライマリAETFと第nのセカンダリAETFとの関係をモデル化することを意味する。
例えば、自明な事例B=P=1、Bnc=0、例えば、乗法伝達関数の近似([21]などを参照)を考えると、これが与えられた場合、第nの推定RETFは、
Figure 0007003153000064
(10)
と等しく、プライマリ音響エコーキャンセラが収束(converged:集中)すると、(7)で定義されるA(l,0,k)と等しくなる。
雑音の多い観測からRTFを推定する問題([4]、[7]、[22]などを参照)と比較すると、チャネル間において相関する雑音成分による追加のバイアスがない。
さらに、スピーカ信号が既知であるため、推定プロセスを制御する音声活動検出器(voice activity detectors (VAD))の実装が大幅に簡素化される。
対照的に、実際には
Figure 0007003153000065

Figure 0007003153000066
により近似されるためにダブルトーク検出器が必要であり、ゆえに、
Figure 0007003153000067
とR(l,k)との統計的関係に関する前述の仮定が常に成り立つわけではない。
以下において、適応RETF推定を使用する実施形態を示す。
そのような実施形態では、図5の第2のフィルタユニット522は、例えば、ステップサイズ行列を使用して第2の時間インデックスのフィルタ構成を決定するように構成されてもよい。
例えば、図5の第2のフィルタユニット522は、第2の時間インデックスに時間的に先行する第1の時間インデックスのフィルタ構成と、第1の時間インデックスの第1の干渉信号の第1の推定値と、第1の時間インデックスの第2の修正オーディオチャネルのサンプルとに応じてフィルタ構成を決定するように構成されてもよい。
特定の実施形態では、第2のフィルタユニット522は、例えば、第2の時間インデックスのフィルタ構成を次式に従って決定するように構成されてもよく、
Figure 0007003153000068
式中、l+1は、第2の時間インデックスを表し、lは、第1の時間インデックスを表し、kは、周波数インデックスを表し、
Figure 0007003153000069
は、第2の時間インデックスのフィルタ構成であり、
Figure 0007003153000070
は、第1の時間インデックスのフィルタ構成であり、
Figure 0007003153000071
は、第1の時間インデックスの第1の干渉信号の第1の推定値であり、
Figure 0007003153000072
は、第1の時間インデックスの第2の修正オーディオチャネルであり、C(l,k)は、ステップサイズ行列(例えば、
Figure 0007003153000073
の共分散行列の逆行列)である。
より詳細に説明すると、適応フィルタを使用して、緩やかに時間変化するRETFを追跡することができる。
Figure 0007003153000074
は、プライマリマイクロフォンによって取得されたエコー信号の推定値であるため、時間的に無相関であると仮定することはできない。
より正確には、STFT窓が短い場合、またはSTFT窓間のオーバーラップが大きい場合、Ψ(l,k)の非対角要素は無視できない。
これを考慮に入れて、ニュートン法([2]などを参照)、
Figure 0007003153000075
(11)
が、最適フィルタへの高速で安定した収束を保証する。
(11)では、ηは、適応プロセスを制御するために使用される固定ステップサイズである。
実際には、共分散行列Ψ(l,k)は、ある経時的に平均化することにより、例えば、一次再帰フィルタを使用して近似され、
Figure 0007003153000076

式中、時間平均は
Figure 0007003153000077
で表され、βは、忘却係数である。
以下では、性能評価について説明する。
提案の手法を評価するために、3セットの実験を行い、そのためのシミュレーションセットアップを次のように設計した。
エコー信号は、クリーンな音声信号をシミュレートされたAIRを用いて畳み込むことにより生成される。
後者を、寸法3×4×2.5m、残響時間T60=0.15および0.35sの部屋に対して画像法([23]などを参照)を使用して生成した。
シミュレートされたAIRの長さは、F=16kHzのサンプリング周波数でL=4096タップであった。
AIRを、2つのマイクロフォンと1つのスピーカを備えたセットアップについて生成した。
ベースラインセットアップは、スピーカとプライマリマイクロフォンとの間の距離l=10cm、マイクロフォン間の距離Δ=1.5cmを使用した。
スピーカとセカンダリマイクロフォンとの間の距離は、l=l+Δcmであった。性能に対するこれらのパラメータの影響も解析した。
この目的で、Δ=3cmおよびl=20cmも評価した。
信号を、ハミング解析と、長さK=512、75%のオーバーラップ、よってR=128サンプルの合成窓とを使用するSTFT領域に変換した。
AETF(5)とRETF(11)の両方を推定するために使用した適応アルゴリズムはニュートン法であった。
結果として、(5)のステップサイズ行列は、M(l,k)=μΨ(l,k)-1となる。
スピーカ信号は時間的に無相関であると仮定するのが現実的であるため、その共分散行列は、以下によって簡略化され、
Figure 0007003153000078
式中、
Figure 0007003153000079
は、要素ごとの乗算を表し、Iは、B×B単位行列である。
この簡略化にもかかわらず、正規化係数は依然としてパーティション依存であることに留意されたい。
ステップサイズ係数はμ=0.5/Bおよびη=0.225/Pであり、忘却係数はβ=0.9であった。
さらに、適応フィルタと共分散行列は音声の一時停止中に更新せず、正則化は共分散行列の非特異性を保証するために使用される。
最後に、マイクロフォン信号に白色ガウス雑音(ホワイトガウスノイズ)を付加して、固定セグメントエコー対雑音比(SegENR)をシミュレートした。性能の差を目立たせるために、60dBのSegENRを使用した。
以下の3セットの実験を行った。
1.T60=0.15sをシミュレートするために生成したAIRを長さ256タップに切り出し、エコー信号の生成に使用した。推定プライマリAIRの長さはL=256であった。
2.T60=0.15sのシミュレート環境、推定プライマリAIRの長さL=256タップである。
3.T60=0.35sのシミュレート環境、推定プライマリAIRの長さL=1024タップである。
L個のAIR係数を完全に推定するために必要なAETFパーティションの数は、
Figure 0007003153000080
であり、よって少なくともK個の後続のフィルタ係数も部分的に推定されることに留意されたい。
すべてのシミュレーションにおいて、プライマリAETFのB個のパーティションを推定し、それぞれ、異なる数のパーティションBnc<B’≦BおよびPを使用してセカンダリAETFとRETFとを推定した。
次いで、セカンダリエコー信号は、STFT領域において、セカンダリAETFをスピーカ信号で畳み込み、RETFを推定プライマリエコー信号で畳み込むことにより取得される。
エコー・リターン・ロス・エンハンスメント(echo return loss enhancement(ERLE))は、セカンダリチャネルのエコー低減を測定するために使用され、
Figure 0007003153000081
(12)
であり、式中、||・||は、l-ノルムであり、d(l)=[d(lR+1),…,d(lR+K)]は、時間領域のセカンダリ音響エコーの第lのフレームである。
これらのシミュレーションの結果は図5~図7に示されており、ERLE測定値は、明確にするために60フレームにわたって平均される。
これらの図において、提案のRETFベースのAECは、AETF推定にBおよびB’=Bnc+P個のパーティションを使用した最新技術のAECと比較されている。
後者の条件は、やはり全体的な計算の複雑度を低減させるはずの、より少数の因果的CTFパーティションを使用したAETFベースのAECとの比較を示すために含まれている。
図6に、切り出されたAIRを用いたシミュレーションに対応する結果を示す。
特に、図6は、切り出されたAIRとL=256タップを用いたAETFとRETFベースのAECの比較を示している。
P=1とP=2とで得られた、左右の部分図のエコー低減は、試験対象のすべての条件について示されている。
P=1では、RETFベースの手法は、B’個のパーティション、例えば、P個の因果的パーティションのみを用いたAETFベースの手法よりも高いERLE値に収束することが確認できる。
さらに、性能はB個のパーティションを用いたAETFベースの手法の性能よりもやや劣るにすぎない。
P=2では、試験対象のすべての条件が同様の性能である。
60=0.15sについての性能比較が図7に示されている。
特に、図7は、T60=0.15sおよびL=256タップでのAETFとRETFベースのAECの比較を示している。
左上の部分図と右上の部分図とに示されている結果は、ベースラインセットアップのP=1とP=2とに対応している。
P=1では、RETFベースの手法は、同数の因果的パーティションを用いたAETFベースの手法を上回ることが確認できる。
P=2では、AETFベースの手法の性能は目に見えて強化され、RETFベースの手法を使用することにより得られる利点は減少する。
それにもかかわらず、RETFベースの手法は依然としてより性能が優れており、B=9個のパーティションを用いたAETFベースの手法とほぼ同様である。
下の部分図には、P=1での異なるシミュレーションセットアップについての比較が示されている。
左側の部分図には、異なるマイクロフォン間の距離での結果が示されている。
他方、右側の部分図では、スピーカとプライマリマイクロフォンとの間の様々な距離が評価されている。
試験対象のすべての条件で、これらのパラメータのいずれかを大きくするとキャンセラの性能に悪影響が及ぶことが確認できる。
マイクロフォン間距離を増やすと、提案の手法により大きな影響を及ぼし、一般に、lはキャンセラの性能により大きな影響を及ぼすことに留意されたい。
さらに、これらのシミュレーションで使用されたパラメータについて、提案の手法は、因果的パーティションの数が等しいAETFベースのAECを上回ることができる。
最後に、図8に示されている結果は、T60=0.35sでのシミュレートされたセットアップに対応している。
特に、図8は、T60=0.35sおよびL=1024タップでのAETFとRETFベースのAECとの間の比較を示している。
P=1個とP=4個のパーティションで得られた結果が左右の部分図に示されている。
提案の方法は、両方の試験事例で、同数の因果的パーティションを用いたAETFベースの手法を上回ることが確認できる。
さらに、P=4では、B=15でのAETFベースのAECよりも性能がやや劣るにすぎない。
要約すると、提案の手法は、等しい数の因果的パーティションを用いた最新技術のAETFベースのAECを上回ることができることが示された。
さらに、RETFベースのAECを使用することにより、性能のわずかな低下を犠牲にして、推定パーティションの数を低減させることができることが実証された。
以下において、実施形態による周波数領域適応フィルタの使用について説明する。
特に、分割ブロック周波数領域適応フィルタ(partitioned-block frequency-domain adaptive filters(PB-FDAF))([24]などを参照)を使用して説明する。
特に、ブロック時間領域適応フィルタ([27]、[28]などを参照)である周波数領域適応フィルタ(FDAF)([24]、[26]などを参照)の効率的な実施態様は、STFT領域のものとは大きく異なる。
これに関する詳細情報については、その中の参考文献を参照されたい(例えば、[20]を参照)。
いくつかの実施形態によれば、2つ以上の受信オーディオチャネルおよび2つ以上の修正オーディオチャネルは、例えば、分割ブロック周波数領域のチャネルであってもよく、2つ以上の受信オーディオチャネルおよび2つ以上の修正オーディオチャネルの各々が複数のパーティションを含む。
基準信号ならびに第1および第2の干渉信号は、例えば、分割ブロック周波数領域の信号であってもよく、基準信号ならびに第1および第2の干渉信号の各々が複数のパーティションを含む。
いくつかの実施形態では、第2のフィルタユニット122;322;522は、例えば、第1の干渉信号の第1の推定値と第2の受信オーディオチャネルとに応じてフィルタ構成を決定するように構成されてもよい。
さらに、第2のフィルタユニット122;322;522は、例えば、第1の干渉信号の第1の推定値とフィルタ構成とに応じて第2の干渉信号の第2の推定値を決定するように構成されてもよい。
さらに、第2のフィルタユニット122;322;522は、例えば、第2の時間インデックスに時間的に先行する第1の時間インデックスのフィルタ構成と、第1の時間インデックスの第1の干渉信号の第1の推定値と、第1の時間インデックスの第2の修正オーディオチャネルのサンプルとに応じて第2の時間インデックスのフィルタ構成を決定するように構成されてもよい。
続いて、PB-FDAFを使用した実施形態についてオーバーラップ保存技術([25]、[29]などを参照)を使用して概説する。
マイクロフォン信号の分割ブロック周波数領域の定式化は以下のとおりであり、
(l)=d(l)+r(l)、n∈{1,…,N} (13)
式中、周波数領域のエコー信号は、長さKの巡回畳み込みの結果を線形化した後に取得され、
Figure 0007003153000082
(14)
式中、Fは、サイズK×Kの離散フーリエ変換(discrete Fourier transform (DFT))行列であり、第bのAIRパーティションの周波数領域表現は次式で与えられ、
(b)=F[h(bQ),…,h((b+1)Q-1),0×v]
式中、Qは、パーティションの長さであり、Vは、ゼロパディングの長さである。
さらに、入力スピーカ信号は、次の形式のK×K対角行列として定式化される([25]などを参照)。
X(l,b)=diag{F[x(lR-bQ-K+1),…,x(lR)]
(14)の巡回畳み込みから生じる線形成分の総数はK-Q+1であるが、その後の導出を簡素化するために、実施形態によれば、(14)ではV=K-Q個の線形成分が選択されることに留意されたい。
ここでは、Vは、出力信号フレーム長であり、Q=K-Vは、ラップアラウンドエラーの長さであると推論することが可能になり、出力信号の一般的な周波数領域の定式化a∈{y,d,r,e}は、例えば、
Figure 0007003153000083
に等しく、式中、時間領域の信号サンプルは、a(t)で表され、tは離散時間インデックスを表す。
表記を簡潔にするために、実施形態によれば、これは次のように定義され、
Figure 0007003153000084
これらは、それぞれ、周波数領域入力行列のスタックド行列(stacked matrices)と、周波数領域AIRパーティションのスタックドベクトルである。

以後、(14)を
Figure 0007003153000085
として簡潔に定式化することが可能であり、式中、Gは、周波数領域の巡回畳み込み制限行列である。
後者を適用することは、逆DFTを適用し、巡回畳み込みの結果を巡回畳み込み制限窓
Figure 0007003153000086
で乗算することにより時間領域の巡回成分を否定し、線形化の結果を周波数領域に逆変換することと等価である。
AETFを推定するために先読みを考慮する必要がないため、周波数領域での定式化が因果的であることを強調することが重要である。
周波数領域では、除去後の誤差信号は、
Figure 0007003153000087
(15)
であり、汎用PB-FDAF更新式は、
Figure 0007003153000088
(16)
であり、式中、
Figure 0007003153000089
および、
Figure 0007003153000090
は、巡回相関制限行列を表し、式中、
Figure 0007003153000091
は、時間領域巡回相関制限窓であり、演算子diag{v}は、vの要素をその主対角に有する対角行列を生成する。
同様に、RETFを使用した定式化では、セカンダリエコー信号を次式として定義することができ、
Figure 0007003153000092
(17)
式中、一般性を失うことなく、D(l,p)=diag{F[d(lR-pQ-K+1),…,d(lR)]}は、プライマリ、すなわち、基準エコー信号であり、
Figure 0007003153000093
および
Figure 0007003153000094
は、
Figure 0007003153000095
および
Figure 0007003153000096
と同様に定義される。
STFT領域の定式化とは対照的に、周波数領域のAETFとRETFは因果的であり、例えば、h(0)とa(0)とはいかなる非因果係数もモデル化しないことに留意されたい。
ただし、セカンダリマイクロフォンに対するプライマリマイクロフォンの相対的な位置に応じて、RETFを因果的または非因果的とすることができる。
ゆえに、周波数領域RETFの非因果性の可能性a(p)を考慮して、プライマリエコー信号のPnc個のパーティションの先読みが必要である。
実際には、図3に示すように、時間領域または周波数領域においてセカンダリマイクロフォン信号を遅延させることで、これを克服することができる。
同期のためには、除去後のプライマリ誤差信号も遅延させる必要がある。
表記を簡潔にするために、実施形態によれば、差し当たり、Pnc=0であると仮定する。
(8)と同様に、実施形態によれば、セカンダリエコー信号の推定値を計算するために
Figure 0007003153000097

Figure 0007003153000098
によって近似される。
Figure 0007003153000099
(18)
次いで除去後の誤差信号は、
Figure 0007003153000100
(19)
に等しくなり、費用関数
Figure 0007003153000101
を最小化すると、周波数領域の最適なRETFについての次式が得られる。
Figure 0007003153000102
(20)
ゆえに、ニュートン法は次の形式を取り、
Figure 0007003153000103
(21)
分割ブロック周波数領域で適応アルゴリズムを定式化する場合、以下を伴う。
Figure 0007003153000104
(22)
より一般的な実施形態では、第2のフィルタユニット122;322;522は、分割ブロック周波数領域のフィルタ構成を次式に従って決定するように構成され、
Figure 0007003153000105
式中、l+1は、第2の時間インデックスを表し、lは、第1の時間インデックスを表し、kは、周波数インデックスを表し、
Figure 0007003153000106
は、第2の時間インデックスのフィルタ構成であり、
Figure 0007003153000107
は、第1の時間インデックスのフィルタ構成であり、
Figure 0007003153000108
は、第1の時間インデックスの第1の干渉信号の第1の推定値であり、Cは、ステップサイズ行列であり、e(l)は、第1の時間インデックスの第2の修正オーディオチャネルであり、
Figure 0007003153000109
は、巡回畳み込み制限行列である。
以下において、実施形態の実施態様および同期態様について考察する。
特に、実施形態による非因果的(Pnc>0)実施態様について詳細に説明する。
RETFフィルタの非因果性の可能性があるため、非因果係数も(PB)周波数領域で推定RETFによってモデル化されるようにするために、図3に示されるように、セカンダリマイクロフォン信号を遅延させる必要がある。
そのためには以下の2つの対策がある:
―サンプルベースで、例えば時間領域において、セカンダリマイクロフォンへの入力信号をバッファする。
これにより、ユーザは可能な限り低い遅延を維持できる。
ただし、同期のために、除去後のプライマリ信号をしかるべく遅延させる必要があり、これはe(l)を時間領域に逆変換する必要があることを意味する。
―周波数領域においてセカンダリマイクロフォンへの入力信号をバッファする。
ゆえに、これらをフレーム単位で遅延させる必要があり、時間領域で導入される遅延よりも高い遅延が発生する。
この選択肢の利点は、除去後にプライマリ信号を時間領域に変換する必要がないことにある。
ゆえに、マルチチャネル干渉キャンセラを、ポストプロセッサに周波数領域で直接インターフェースすることができる。
以下において、2つの可能な実施態様について詳細に説明する。
最初に、遅延されたセカンダリマイクロフォン信号を用いた実施形態について考察する。
(17)から、すべてのセカンダリマイクロフォン信号に付加されたPnc個のパーティションの遅延により、RETFの潜在的な非因果的a(p)の推定が可能になることが明らかである。
対応する実施態様は、DがパーティションサイズQの整数倍であるという点で、図3に示される実施態様と同様である。
このようにして、適応フィルタの最初のPnc個のパーティションを使用して、Q・Pnc個の非因果的RETF係数がモデル化される。
この単純な手法では、因果的および非因果的RETF係数を推定するために少なくとも2つのパーティションが必要であり、この単純な事例では、最初のフィルタパーティションはa(-1)の非因果係数をモデル化する。
次に、対称勾配制限を伴う実施形態について考察する。
上述した方法の一改善形態では、時間領域巡回相関の
Figure 0007003153000110
個の非因果係数と共に最大
Figure 0007003153000111
個の因果係数を保持するために、勾配制限の修正
Figure 0007003153000112
を考慮する。
この目的で、実施形態によれば、(16)からの制限
Figure 0007003153000113
は以下のように近似される。
Figure 0007003153000114
(23)
フィルタリング後のエイリアスのない出力を保証するには、(14)の畳み込み制限もしかるべく修正される必要がある。
Figure 0007003153000115
(24)
上記の制限により、線形畳み込み出力を提供するために、巡回畳み込みの
Figure 0007003153000116
個の過去のサンプルと最新の
Figure 0007003153000117
個の出力サンプルとが破棄されこれにより、セカンダリエコー信号の推定値において
Figure 0007003153000118
サンプルの遅延が発生することに留意されたい。
これらの対称制限は、
Figure 0007003153000119
サンプルだけ巡回シフトされた、元の時間領域制限gおよび
Figure 0007003153000120
に他ならない。
よって、その場合対応する周波数領域表現は、それぞれ、
Figure 0007003153000121
およびGsym=JGであり、式中、定数行列、
Figure 0007003153000122
(25)
は、周波数領域の巡回シフトに相当するものである。
実際の実施態様では、制限が通常時間領域で適用されるため、上記の行列は関心対象にはならない。
それでもなお、通常の制限の前後で周波数領域の信号を操作するために、同様の行列
Figure 0007003153000123
を定義してもよく、(23)と(24)によって提供される線形係数の同じ選択を取得することができる。
例えば、ニュートン法を使用した所望の重み更新を、次式として取得することができる。
Figure 0007003153000124
(26)
実施形態に従って上記の式を使用することにより、線形係数の選択が
Figure 0007003153000125
の定義によって決定されるので、柔軟性が得られる。
実際、
Figure 0007003153000126
を非常に特殊な事例に合わせて調整することができ、例えば、
Figure 0007003153000127
より短いシフトを実施し、非因果係数の数を、ゆえにシステム遅延を低減させることができる。
次に、PB-FDAFを使用した実施手法の概要を示す。
使用すべき実装の選択は、適用例のシナリオに応じて異なる。
音源とマイクロフォンの相対的な位置を仮定せずに、高品質のフィルタ出力を実現するためは一定の遅延を導入する必要があることが明らかである。
次の表に、提示の実施方法を要約する。
Figure 0007003153000128
以下では、1つのプライマリチャネルとN-1個のセカンダリチャネルがある特定の事例の複雑度解析について説明する。
最初に、時間領域を考察する。
続いて、加算および乗算の観点から例示的な複雑度解析を提供する。
この目的で、推定プライマリフィルタの長さをLで表し、N-1個の推定セカンダリフィルタの長さをPで表し、プライマリフィルタおよびセカンダリフィルタは適応フィルタリング技術を使用して推定されると仮定する。
時間領域での適応フィルタの入力信号サンプルごとの複雑度は以下のとおりであり、
Figure 0007003153000129
式中、M∈{L,N}であり、更新式O(Update,M)の複雑度は、使用される適応アルゴリズムに依存し、多くの場合、フィルタ長にも依存する。
したがって、N個の適応フィルタが並列で(マイクロフォンごとに1つずつ)使用される場合、マルチマイクロフォンAECのアルゴリズム複雑度はNO(AF)である。
提案の方法は、適応フィルタの長さを短縮することで、アルゴリズム複雑度を低減させることができる。
アルゴリズム複雑度の低減はその場合、以下の比率によって与えられる。
Figure 0007003153000130
(27)
一般に、同じ適応アルゴリズムがプライマリフィルタとセカンダリフィルタの両方の推定に使用される場合には、比率は以下によって与えられる。
Figure 0007003153000131
(28)
最も単純な例は、プライマリ・エコー・キャンセラとセカンダリ・エコー・キャンセラとに最小二乗平均(least-mean square(LMS))([2]などを参照)が使用される場合、O(Update)=1はフィルタ長に依存せず、比率は以下によって与えられる。
Figure 0007003153000132
(29)
プライマリフィルタとセカンダリフィルタの推定に異なる適応フィルタが使用される場合、個々のアルゴリズムの計算の複雑度が慎重に考慮される必要がある。
次に、STFT領域について考察する。
以下では、加算および乗算の観点から複雑度を解析する。
この目的で、まずSTFT領域の適応フィルタのパーティションごとの複雑度を調べると、これは、
Figure 0007003153000133
であり、式中、Q∈{P,B}であり、O(FFT)≒2Klog(K)-4Kは、高速フーリエ変換(fast Fourier transform(FFT))の複雑度であり、O(CplxMult)=6Kは、長さKの虚数乗法の複雑度([30]などを参照)であり、更新式O(Update)の複雑度は、使用される適応アルゴリズムに依存する。
したがって、N個の適応フィルタが並列で(マイクロフォンごとに1つずつ)使用される場合、パーティションごとのマルチマイクロフォンAECのアルゴリズム複雑度はNO(AF)である。
提案の方法は、P<Bの場合、アルゴリズム複雑度を低減させることができる。
アルゴリズム複雑度の低減はその場合、以下の比率によって与えられる。
Figure 0007003153000134
ゆえに、同じ適応フィルタがプライマリ・エコー・キャンセラとセカンダリ・エコー・キャンセラに使用される場合、比率は以下によって与えられる。
Figure 0007003153000135
AETFとRETFの推定に異なる適応フィルタが使用される場合、個々のアルゴリズムの計算の複雑度が慎重に考慮される必要がある。
実施形態の特定の適用例は、例えば、以下の用途のMC-AECへの低複雑度の解決策を実現し得る:
―スマートフォン、タブレット、パーソナルコンピュータ。
―音声起動アシスタント、スマートスピーカおよびスマートホームデバイス。
―スマートテレビ。
いくつかの態様が装置のための文脈で説明されているが、これらの態様は、ブロックまたはデバイスが方法ステップまたは方法ステップの特徴に対応する、対応する方法の説明も表していることは明らかである。
同様に、方法ステップの文脈で説明された態様も、対応するブロックもしくは項目または対応する装置の特徴を表している。
方法ステップの一部または全部が、例えば、マイクロプロセッサ、プログラマブルコンピュータ、または電子回路などのハードウェア装置によって(またはハードウェア装置を使用して)実行されてもよい。
いくつかの実施形態では、最も重要な方法ステップのうちの1つまたは複数がそのような装置によって実行されてもよい。
特定の実施要件に応じて、本発明の実施形態を、ハードウェアまたはソフトウェアで、または少なくとも一部をハードウェアで、または少なくとも一部をソフトウェアで実施することができる。
実施態様は、それぞれの方法が行われるようにプログラマブル・コンピュータ・システムと協働する(または協働することができる)、電子的に読み取り可能な制御信号が格納されたデジタル記憶媒体、例えば、フロッピーディスク、DVD、Blu-Ray、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリを使用して実行することができる。
したがって、デジタル記憶媒体はコンピュータ可読であり得る。
本発明によるいくつかの実施形態は、本明細書に記載される方法のうちの1つが行われるように、プログラマブル・コンピュータ・システムと協働することができる、電子的に読み取り可能な制御信号を有するデータキャリアを含む。
一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実現することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で動作すると、方法のうちの1つを行うように動作する。
プログラムコードは、例えば、機械可読キャリアに格納され得る。
他の実施形態は、機械可読キャリアに格納された、本明細書に記載される方法のうちの1つを行うためのコンピュータプログラムを含む。
言い換えると、本発明の方法の一実施形態は、したがって、コンピュータプログラムがコンピュータ上で動作するときに本明細書に記載される方法のうちの1つを行うためのプログラムコードを有するコンピュータプログラムである。
本発明の方法のさらなる実施形態は、したがって、本明細書に記載される方法のうちの1つを行うための、記録されたコンピュータプログラムを含むデータキャリア(またはデジタル記憶媒体、またはコンピュータ可読媒体)である。
データキャリア、デジタル記憶媒体、または記録された媒体は通常、有形および/または非一時的である。
本発明の方法のさらなる実施形態は、したがって、本明細書に記載される方法のうちの1つを行うためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。
データストリームまたは信号シーケンスは、例えば、データ通信接続を介して、例えばインターネットを介して転送されるように構成され得る。
さらなる実施形態は、本明細書に記載される方法のうちの1つを行うように構成または適合された処理手段、例えばコンピュータ、またはプログラマブル・ロジック・デバイスを含む。
さらなる実施形態は、本明細書に記載される方法のうちの1つを行うためのコンピュータプログラムがインストールされたコンピュータを含む。
本発明によるさらなる実施形態は、本明細書に記載される方法のうちの1つを行うためのコンピュータプログラムを受信機に(例えば、電子的または光学的に)転送するように構成された装置またはシステムを含む。
受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどであり得る。
装置またはシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバを含み得る。
いくつかの実施形態では、プログラマブル・ロジック・デバイス(例えば、フィールド・プログラマブル・ゲート・アレイ)を使用して、本明細書に記載される方法の機能の一部または全部が行われ得る。
いくつかの実施形態では、フィールド・プログラマブル・ゲート・アレイが、本明細書に記載される方法のうちの1つを行うためにマイクロプロセッサと協働し得る。
一般に、これらの方法は好ましくは、任意のハードウェア装置によって行われる。
本明細書に記載される装置は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータの組み合わせを使用して実施され得る。
本明細書に記載される方法は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータの組み合わせを使用して行われ得る。
上述した実施形態は、本発明の原理の単なる例示である。
当業者には本明細書に記載される構成および詳細の改変および変形が明らかになることを理解されたい。
したがって、本明細書において実施形態の記述および説明として提示された具体的な詳細によってではなく、添付の特許請求の範囲によってのみ限定されることが意図されている。
[1]E.HanslerおよびG.Schmidt、「音響エコーおよび雑音制御:実用的な手法」、米国ニュージャージー州:Wiley、2004年。
[2]S.Haykin、「適応フィルタ理論」、第4版、米国ニュージャージー州:Prentice-Hall、2001年。
[3]W.Kellermann、「音響エコー除去と適応ビームフォーミング・マイクロフォン・アレイを組み合わせるための戦略」、IEEE ICASSP、独国ミュンヘン、1997年4月、219~222ページ。
[4]O.ShalviおよびE.Weinstein、「非定常信号を使用したシステム識別」、IEEE Trans.Signal Process.、第44巻、第8号、2055~2063ページ、1996年。
[5]S.Gannot、D.Burshtein、E.Weinstein、「ビームフォーミングおよび非定常性を使用した信号強調および音声への応用」、IEEE Trans.Signal Process.、第49巻、第8号、1614~1626ページ、2001年8月。
[6]I.Cohen、「音声信号を使用した相対伝達関数識別」、IEEE Trans.Speech Audio Process、第12巻、第5号、451~459ページ、2004年9月。
[7]R.Talmon、I.Cohen、およびS.Gannot、「畳み込み伝達関数近似を使用した相対伝達関数識別」、IEEE Trans.Audio,Speech,Lang.Process.、第17巻、第4号、546~555ページ、2009年5月。
[8]G.Reuven、S.Gannot、およびI.Cohen、「伝達関数一般化サイドローブキャンセラを使用した雑音低減と音響エコー除去の結合」、Speech Communication、第49巻、第7~8号、623~635ページ、2007年8月。
[9]R.Talmon、I.Cohen、およびS.Gannot、「畳み込み伝達関数一般化サイドローブキャンセラ」、IEEE Trans.Audio,Speech,Lang.Process.、第17巻、第7号、1420~1434ページ、2009年9月。
[10]T.DvorkindおよびS.Gannot、「残響環境における話者定位」、Proc.the 22nd convention of Electrical and Electronics Engineers in Israel(IEEEI)、テルアビブ、イスラエル、2002年12月、7~7ページ。
[11]T.G.DvorkindおよびS.Gannot、「雑音の多い残響環境における音声源の到着推定における時間差」、Signal Processing、第85巻、第1号、177~204ページ、2005年1月。
[12]X.Li、L.Girin、R.Horaud、およびS.Gannot、「監視された音源定位のための直接経路相対伝達関数の推定」、IEEE Trans.Audio,Speech,Lang.Process.、第4巻、第11号、2171~2186ページ、2016年11月。
[13]C.Yemdji、M.Mossi Idrissa、N.Evans、C.Beaugeant、およびP.Vary、「ハンズフリーモバイル端末向けのデュアル・チャネル・エコー・ポストフィルタリング」、Proc.IWAENC、独国アーヘン、2012年9月、1~4ページ。
[14]C.Yemdji、L.Lepauloux、N.Evans、およびC.Beaugeant、「オーディオ信号およびオーディオ受信回路の処理方法」、米国特許公報第2014/0334620号、2014年。
[15]W.Kellermann、「マイクロフォンアレイの音響エコー除去と適応ビームフォーミングの統合設計」、Proc.Intl.Workshop Acoust.Echo Noise Control(IWAENC)、英国ロンドン、1997年、81~84ページ。
[16]W.HerbordtおよびW.Kellermann、「GSAEC-汎用サイドローブキャンセラに組み込まれた音響エコー除去」、Proc.European Signal Processing Conf.(EUSIPCO)、第3巻、タンペレ、フィンランド、2000年9月、1843~1846ページ。
[17]W.Herbordt、W.Kellermann、およびS.Nakamura、「LCMVビームフォーミングと音響エコー除去の統合最適化」、Proc.European Signal Processing Conf.(EUSIPCO)、ウィーン、オーストリア、2004年9月、2003~2006ページ。
[18]K.-D.Kammeyer、M.Kallinger、およびA.Mertins、「エコーキャンセラとビームフォーマの組み合わせの新しい側面」、Proc.IEEE ICASSP、第3巻、米国フィラデルフィア、2005年3月、137~140ページ。
[19]Y.AvargelおよびI.Cohen、「たすき掛け伝達関数近似を使用した短時間フーリエ変換領域での適応システム識別」、IEEE Trans.Audio,Speech,Lang.Process.、第巻6、第1号、162~173ページ、2008年1月。
[20]「クロスバンドフィルタリング用いた短時間フーリエ変換領域でのシステム識別」、IEEE Trans.Audio,Speech,Lang.Process.、第15巻、第4号、1305~1319ページ、2007年5月。
[21]「短時間フーリエ変換領域での乗法伝達関数近似について」、IEEE Signal Process.Lett.、第14巻、第5号、337~340ページ、2007年5月。
[22]I.Cohen、「非因果的な先験的SNR推定器を使用した音声強調」、IEEE Signal Process.Lett.、第11巻、第9号、725~728ページ、2004年9月。
[23]J.B.AllenおよびD.A.Berkley、「小部屋の音響を効率的にシミュレートするための画像法」、J.Acoust.Soc.Am.、第65巻、第4号、943~950ページ、1979年4月。
[24]P.C.W.Sommen、「分割周波数領域適応フィルタ」、Proc.Asilomar Conf.on Signals,Systems and Computers、1989年、677~681ページ。
[25]J.J.Shynk、「周波数領域およびマルチレート適応フィルタリング」、IEEE Signal Process.Mag.、第9巻、第1号、14~37ページ、1992年1月。
[26]S.Haykin、「適応フィルタ理論」、第4版、Prentice-Hall、2002年。
[27]M.Dentino、J.McCool、およびB.Widrow、「周波数領域での適応フィルタリング」、Proc.of the IEEE、第66巻、第12号、1658~1659ページ、1978年12月。
[28]G.A.Clark、S.R.Parker、およびS.K.Mitra、「FIR適応デジタルフィルタの時間領域および周波数領域の実現への統一手法」、IEEE Trans.Acoust,Speech,Signal Process.、第31巻、第5号、1073~1083ページ、1983年10月。
[29]A.OppenheimおよびR.W.Schafer、「デジタル信号処理」、第2版、Prentice-Hall Inc.、ニュージャージー州イングルウッドクリフ、1993年。
[30]R.M.M.Derkx、G.P.M.Engelmeers、およびP.C.W.Sommen、「分割ブロック周波数領域適応フィルタの新しい制限方法」、IEEE Trans.Signal Process.、第50巻、第3号、2177~2186ページ、2002。

Claims (14)

  1. 2つ以上の修正オーディオチャネルを含む修正オーディオ信号を取得するための、2つ以上の受信オーディオチャネルを含む受信オーディオ信号におけるマルチチャネル干渉除去のための装置であって、前記装置が、
    基準信号に応じて第1の干渉信号の第1の推定値を生成するように構成されている第1のフィルタユニット(112;312;512)と、
    前記第1の干渉信号の前記第1の推定値を用いて前記2つ以上の受信オーディオチャネルのうちの第1の受信オーディオチャネルから前記2つ以上の修正オーディオチャネルのうちの第1の修正オーディオチャネルを生成するように構成されている第1の干渉キャンセラ(114;314;514)と、
    前記第1の干渉信号の前記第1の推定値を用いて第2の干渉信号の第2の推定値を生成するように構成されている第2のフィルタユニット(122;322;522)と、
    前記第2の干渉信号の前記第2の推定値に応じて前記2つ以上の受信オーディオチャネルのうちの第2の受信オーディオチャネルから前記2つ以上の修正オーディオチャネルのうちの第2の修正オーディオチャネルを生成するように構成されている第2の干渉キャンセラ(124;324;524)と、を含み、
    前記2つ以上の受信オーディオチャネルおよび前記2つ以上の修正オーディオチャネルが変換領域のチャネルであり、前記基準信号ならびに前記第1および第2の干渉信号が前記変換領域の信号である、装置。
  2. 前記第1の干渉信号の前記第1の推定値が第1の音響エコー信号の第1の推定値であり、
    前記第2の干渉信号の前記第2の推定値が第2の音響エコー信号の第2の推定値であり、
    前記第1の干渉キャンセラ(114;314;514)が、前記第1の修正オーディオチャネルを取得するために前記第1の受信オーディオチャネルに対して音響エコー除去を実行するように構成されており、
    前記第2の干渉キャンセラ(124;324;524)が、前記第2の修正オーディオチャネルを取得するために前記第2の受信オーディオチャネルに対して音響エコー除去を実行するように構成されている、請求項1に記載の装置。
  3. 前記2つ以上の受信オーディオチャネルおよび前記2つ以上の修正オーディオチャネルが短時間フーリエ変換領域のチャネルであり、前記基準信号ならびに前記第1および第2の干渉信号が前記短時間フーリエ変換領域の信号である、請求項1または2に記載の装置。
  4. 前記第2のフィルタユニット(122;322;522)が、前記第1の干渉信号の前記第1の推定値と前記第2の受信オーディオチャネルとに応じてフィルタ構成を決定するように構成されており、
    前記第2のフィルタユニット(122;322;522)が、前記第1の干渉信号の前記第1の推定値と前記フィルタ構成とに応じて前記第2の干渉信号の前記第2の推定値を決定するように構成されている、請求項1から3のいずれか一項に記載の装置。
  5. 前記第2のフィルタユニット(122;322;522)が、費用関数を最小化することによって、または誤差基準を最小化することによって前記フィルタ構成を決定するように構成されている、請求項4に記載の装置。
  6. 前記第2のフィルタユニット(122;322;522)が前記フィルタ構成
    Figure 0007003153000136
    を次式に従って決定するように構成されており、
    Figure 0007003153000137

    式中、Ψ(l,k)が、
    Figure 0007003153000138
    の共分散行列であり、
    Ψ1n(l,k)が、
    Figure 0007003153000139
    とY(l,k)との間の相互相関ベクトルであり、
    Figure 0007003153000140
    が、前記第1の干渉信号の前記第1の推定値であり、
    (l,k)が、前記第2の受信オーディオチャネルを表し、
    lが、時間インデックスを表し、kが、周波数インデックスを表す、請求項4または5に記載の装置。
  7. 前記第2のフィルタユニット(122;322;522)が、第2の時間インデックスに時間的に先行する第1の時間インデックスの前記フィルタ構成と、前記第1の時間インデックスの前記第1の干渉信号の前記第1の推定値と、前記第1の時間インデックスの前記第2の修正オーディオチャネルのサンプルとに応じて前記第2の時間インデックスの前記フィルタ構成を決定するように構成されている、請求項1から3のいずれか一項に記載の装置。
  8. 前記第2のフィルタユニット(122;322;522)が前記第2の時間インデックスの前記フィルタ構成を次式に従って決定するように構成されており、
    Figure 0007003153000141
    式中、l+1が、前記第2の時間インデックスを表し、lが、前記第1の時間インデックスを表し、kが、周波数インデックスを表し、
    Figure 0007003153000142
    が、前記第2の時間インデックスの前記フィルタ構成であり、
    Figure 0007003153000143
    が、前記第1の時間インデックスの前記フィルタ構成であり、
    Figure 0007003153000144
    が、前記第1の時間インデックスの前記第1の干渉信号の前記第1の推定値であり、
    Figure 0007003153000145
    が、前記第1の時間インデックスの前記第2の修正オーディオチャネルの複素共役であり、
    (l,k)が、ステップサイズ行列である、請求項7に記載の装置。
  9. 前記2つ以上の受信オーディオチャネルおよび前記2つ以上の修正オーディオチャネルが、分割ブロック周波数領域のチャネルであり、前記2つ以上の受信オーディオチャネルおよび前記2つ以上の修正オーディオチャネルの各々が複数のパーティションを含み、
    前記基準信号ならびに前記第1および第2の干渉信号が、前記分割ブロック周波数領域の信号であり、前記基準信号ならびに前記第1および第2の干渉信号の各々が複数のパーティションを含む、請求項1または2に記載の装置。
  10. 前記第2のフィルタユニット(122;322;522)が、前記第1の干渉信号の前記第1の推定値と前記第2の受信オーディオチャネルとに応じてフィルタ構成を決定するように構成されており、
    前記第2のフィルタユニット(122;322;522)が、前記第1の干渉信号の前記第1の推定値と前記フィルタ構成とに応じて前記第2の干渉信号の前記第2の推定値を決定するように構成されており、
    前記第2のフィルタユニット(122;322;522)が、第2の時間インデックスに時間的に先行する第1の時間インデックスの前記フィルタ構成と、前記第1の時間インデックスの前記第1の干渉信号の前記第1の推定値と、前記第1の時間インデックスの前記第2の修正オーディオチャネルのサンプルとに応じて前記第2の時間インデックスの前記フィルタ構成を決定するように構成されている、請求項9に記載の装置。
  11. 前記第2のフィルタユニット(122;322;522)が、前記分割ブロック周波数領域の前記フィルタ構成を次式に従って決定するように構成されており、
    Figure 0007003153000146
    式中、l+1が、前記第2の時間インデックスを表し、lが、前記第1の時間インデックスを表し、kが、周波数インデックスを表し、
    Figure 0007003153000147
    が、前記第2の時間インデックスの前記フィルタ構成であり、
    Figure 0007003153000148
    が、前記第1の時間インデックスの前記フィルタ構成であり、
    Figure 0007003153000149
    が、前記第1の時間インデックスの前記第1の干渉信号の前記第1の推定値であり、
    が、ステップサイズ行列であり、
    が、エルミートを表し、
    (l)が、前記第1の時間インデックスの前記第2の修正オーディオチャネルであり、
    Figure 0007003153000150
    が、巡回畳み込み制限行列である、請求項10に記載の装置。
  12. 前記受信オーディオ信号が3つ以上の受信オーディオチャネルを含み、前記修正オーディオ信号が3つ以上の修正オーディオチャネルを含み、
    前記装置が、第3のフィルタユニット(132)と第3の干渉キャンセラ(134)とをさらに含み、
    前記第3のフィルタユニット(132)が、前記第1の干渉信号の前記第1の推定値と前記第2の干渉信号の前記第2の推定値の少なくとも一方に応じて第3の干渉信号の第3の推定値を生成するように構成されており、
    第3の干渉キャンセラ(134)が、前記第3の干渉信号の前記第3の推定値
    Figure 0007003153000151
    に応じて前記3つ以上の受信オーディオチャネルのうちの第3の受信オーディオチャネルy(t)から前記3つ以上の修正オーディオチャネルのうちの第3の修正オーディオチャネルe(t)を生成するように構成されている、請求項1から11のいずれか一項に記載の装置。
  13. 2つ以上の修正オーディオチャネルを含む修正オーディオ信号を取得するための、2つ以上の受信オーディオチャネルを含む受信オーディオ信号におけるマルチチャネル干渉除去のための方法であって、前記方法が、
    基準信号に応じて第1の干渉信号の第1の推定値を生成することと、
    前記第1の干渉信号の前記第1の推定値を用いて前記2つ以上の受信オーディオチャネルのうちの第1の受信オーディオチャネルから前記2つ以上の修正オーディオチャネルのうちの第1の修正オーディオチャネルを生成することと、
    前記第1の干渉信号の前記第1の推定値を用いて第2の干渉信号の第2の推定値を生成することと、
    前記第2の干渉信号の前記第2の推定値に応じて前記2つ以上の受信オーディオチャネルのうちの第2の受信オーディオチャネルから前記2つ以上の修正オーディオチャネルのうちの第2の修正オーディオチャネルを生成することと、を含み、
    前記2つ以上の受信オーディオチャネルおよび前記2つ以上の修正オーディオチャネルが変換領域のチャネルであり、前記基準信号ならびに前記第1および第2の干渉信号が前記変換領域の信号である、方法。
  14. コンピュータまたは信号プロセッサで実行されたときに請求項13に記載の方法を実行するためのコンピュータプログラム。
JP2019556955A 2017-04-20 2018-04-19 マルチチャネル干渉除去のための装置および方法 Active JP7003153B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP17167304 2017-04-20
EP17167304.9 2017-04-20
EP17196416.6 2017-10-13
EP17196416.6A EP3393140A1 (en) 2017-04-20 2017-10-13 Apparatus and method for multichannel interference cancellation
PCT/EP2018/060006 WO2018193028A1 (en) 2017-04-20 2018-04-19 Apparatus and method for multichannel interference cancellation

Publications (2)

Publication Number Publication Date
JP2020519070A JP2020519070A (ja) 2020-06-25
JP7003153B2 true JP7003153B2 (ja) 2022-02-04

Family

ID=60190566

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019556955A Active JP7003153B2 (ja) 2017-04-20 2018-04-19 マルチチャネル干渉除去のための装置および方法

Country Status (10)

Country Link
US (1) US20200051581A1 (ja)
EP (2) EP3393140A1 (ja)
JP (1) JP7003153B2 (ja)
KR (1) KR102369613B1 (ja)
CN (1) CN110915233B (ja)
BR (1) BR112019021967A2 (ja)
CA (1) CA3060916C (ja)
ES (1) ES2950574T3 (ja)
RU (1) RU2735131C1 (ja)
WO (1) WO2018193028A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10867615B2 (en) 2019-01-25 2020-12-15 Comcast Cable Communications, Llc Voice recognition with timing information for noise cancellation
EP3771226A1 (en) * 2019-07-23 2021-01-27 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Acoustic echo cancellation unit
US11107488B1 (en) * 2019-10-24 2021-08-31 Amazon Technologies, Inc. Reduced reference canceller
CN111312269B (zh) * 2019-12-13 2023-01-24 天津职业技术师范大学(中国职业培训指导教师进修中心) 一种智能音箱中的快速回声消除方法
CN111599372B (zh) * 2020-04-02 2023-03-21 云知声智能科技股份有限公司 一种稳定的在线多通道语音去混响方法及系统
CN112397080B (zh) * 2020-10-30 2023-02-28 浙江大华技术股份有限公司 回声消除方法及装置、语音设备及计算机可读存储介质
TWI778502B (zh) * 2021-01-22 2022-09-21 威聯通科技股份有限公司 回聲延時估計方法及回聲延時估計系統

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015019185A (ja) 2013-07-10 2015-01-29 日本電信電話株式会社 音声スイッチ装置、音声スイッチ方法、及びそのプログラム
JP2015136105A (ja) 2013-12-27 2015-07-27 ジーエヌ リザウンド エー/エスGn Resound A/S フィードバック抑制

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5828756A (en) * 1994-11-22 1998-10-27 Lucent Technologies Inc. Stereophonic acoustic echo cancellation using non-linear transformations
WO1997023068A2 (en) * 1995-12-15 1997-06-26 Philips Electronic N.V. An adaptive noise cancelling arrangement, a noise reduction system and a transceiver
US6263078B1 (en) * 1999-01-07 2001-07-17 Signalworks, Inc. Acoustic echo canceller with fast volume control compensation
US7062038B1 (en) * 2002-12-17 2006-06-13 Cisco Technology, Inc. System and method of using two coefficient banks in an adaptive echo canceller
EP2574082A1 (en) * 2011-09-20 2013-03-27 Oticon A/S Control of an adaptive feedback cancellation system based on probe signal injection
US9768829B2 (en) * 2012-05-11 2017-09-19 Intel Deutschland Gmbh Methods for processing audio signals and circuit arrangements therefor
US20140016794A1 (en) * 2012-07-13 2014-01-16 Conexant Systems, Inc. Echo cancellation system and method with multiple microphones and multiple speakers
US9100466B2 (en) 2013-05-13 2015-08-04 Intel IP Corporation Method for processing an audio signal and audio receiving circuit
DK2890154T3 (en) * 2013-12-27 2018-02-05 Gn Resound As Hearing aid with feedback suppression
US9997151B1 (en) * 2016-01-20 2018-06-12 Amazon Technologies, Inc. Multichannel acoustic echo cancellation for wireless applications

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015019185A (ja) 2013-07-10 2015-01-29 日本電信電話株式会社 音声スイッチ装置、音声スイッチ方法、及びそのプログラム
JP2015136105A (ja) 2013-12-27 2015-07-27 ジーエヌ リザウンド エー/エスGn Resound A/S フィードバック抑制

Also Published As

Publication number Publication date
KR20200015490A (ko) 2020-02-12
BR112019021967A2 (pt) 2020-05-05
WO2018193028A1 (en) 2018-10-25
EP3613220A1 (en) 2020-02-26
KR102369613B1 (ko) 2022-03-03
RU2735131C1 (ru) 2020-10-28
CA3060916A1 (en) 2018-10-25
US20200051581A1 (en) 2020-02-13
JP2020519070A (ja) 2020-06-25
CN110915233A (zh) 2020-03-24
CN110915233B (zh) 2022-06-24
EP3613220B1 (en) 2023-05-10
ES2950574T3 (es) 2023-10-11
EP3393140A1 (en) 2018-10-24
CA3060916C (en) 2023-05-02

Similar Documents

Publication Publication Date Title
JP7003153B2 (ja) マルチチャネル干渉除去のための装置および方法
KR101331388B1 (ko) 음향 에코를 제거하기 위한 컴퓨터 구현 프로세스 및 시스템
Kuech et al. State-space architecture of the partitioned-block-based acoustic echo controller
JP5671147B2 (ja) 後期残響成分のモデリングを含むエコー抑制
TWI458331B (zh) 用於計算回聲抑制濾波器的控制資訊的裝置和方法,以及用於計算延遲值的裝置和方法
US5568558A (en) Adaptive noise cancellation device
Valero et al. Multi-microphone acoustic echo cancellation using relative echo transfer functions
Gilloire et al. State of the art in acoustic echo cancellation
JP4581114B2 (ja) 適応型ビーム形成器
Valero et al. A state-space partitioned-block adaptive filter for echo cancellation using inter-band correlations in the Kalman gain computation
CN109379501A (zh) 一种用于回声消除的滤波方法及装置、设备、介质
US11315543B2 (en) Pole-zero blocking matrix for low-delay far-field beamforming
Kühl et al. Kalman filter based system identification exploiting the decorrelation effects of linear prediction
Valero et al. On the spatial coherence of residual echoes after STFT-domain multi-microphone acoustic echo cancellation
Valero et al. Coherence-aware stereophonic residual echo estimation
Ruiz et al. Distributed combined acoustic echo cancellation and noise reduction using GEVD-based distributed adaptive node specific signal estimation with prior knowledge
EP4016977A1 (en) Apparatus and method for filtered-reference acoustic echo cancellation
Kar et al. An improved order estimation of MSF for stereophonic acoustic echo cancellation
Schwartz et al. Efficient Joint Bemforming and Acoustic Echo Cancellation Structure for Conference Call Scenarios
US20230395090A1 (en) Method and device for variable pitch echo cancellation
Mobeen et al. Comparison analysis of multi-channel echo cancellation using adaptive filters
Enzner et al. Uncertainty modeling in acoustic echo control
Vijayakumar A subband Kalman filter for echo cancellation
Dinakaran SINGLE CHANNEL SPEECH DEREVERBERATION FOR ACOUSTIC SIGNALS
Tandon Low-complexity adaptive filtering algorithms based on the minimum L [infinity]-norm method

Legal Events

Date Code Title Description
A529 Written submission of copy of amendment under article 34 pct

Free format text: JAPANESE INTERMEDIATE CODE: A529

Effective date: 20191216

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191216

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210202

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210421

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210730

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211228

R150 Certificate of patent or registration of utility model

Ref document number: 7003153

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150