JP7003153B2 - マルチチャネル干渉除去のための装置および方法 - Google Patents
マルチチャネル干渉除去のための装置および方法 Download PDFInfo
- Publication number
- JP7003153B2 JP7003153B2 JP2019556955A JP2019556955A JP7003153B2 JP 7003153 B2 JP7003153 B2 JP 7003153B2 JP 2019556955 A JP2019556955 A JP 2019556955A JP 2019556955 A JP2019556955 A JP 2019556955A JP 7003153 B2 JP7003153 B2 JP 7003153B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- interference
- interference signal
- time index
- channels
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 79
- 230000008030 elimination Effects 0.000 title claims description 17
- 238000003379 elimination reaction Methods 0.000 title claims description 17
- 238000005192 partition Methods 0.000 claims description 37
- 239000011159 matrix material Substances 0.000 claims description 24
- 230000005236 sound signal Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 230000000670 limiting effect Effects 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 5
- 239000013598 vector Substances 0.000 claims description 5
- 230000003044 adaptive effect Effects 0.000 description 39
- 230000006870 function Effects 0.000 description 29
- 238000012546 transfer Methods 0.000 description 26
- 230000001364 causal effect Effects 0.000 description 23
- 238000004422 calculation algorithm Methods 0.000 description 16
- 238000001914 filtration Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 16
- 238000013459 approach Methods 0.000 description 14
- 238000009472 formulation Methods 0.000 description 8
- 239000000203 mixture Substances 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000000875 corresponding effect Effects 0.000 description 7
- 230000003111 delayed effect Effects 0.000 description 7
- 230000036961 partial effect Effects 0.000 description 7
- 238000004088 simulation Methods 0.000 description 7
- 230000008878 coupling Effects 0.000 description 5
- 238000010168 coupling process Methods 0.000 description 5
- 238000005859 coupling reaction Methods 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 125000004122 cyclic group Chemical group 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000002829 reductive effect Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 206010071578 autoimmune retinopathy Diseases 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000000969 carrier Substances 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 241000473391 Archosargus rhomboidalis Species 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 241000712899 Lymphocytic choriomeningitis mammarenavirus Species 0.000 description 1
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/02—Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M9/00—Arrangements for interconnection not involving centralised switching
- H04M9/08—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
- H04M9/082—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/12—Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/04—Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/45—Prevention of acoustic reaction, i.e. acoustic oscillatory feedback
- H04R25/453—Prevention of acoustic reaction, i.e. acoustic oscillatory feedback electronically
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephone Function (AREA)
- Noise Elimination (AREA)
- Automatic Analysis And Handling Materials Therefor (AREA)
Description
これらのデバイスは、音声起動アシスタント、スマートホームデバイスおよびスマートスピーカから、スマートフォン、タブレット、またはパーソナルコンピュータにまで及ぶ。
音声起動アシスタント、スマートフォン、タブレット、パーソナルコンピュータなどの多くのスマートデバイスにはスピーカが装備されている。
そのようなデバイス、例えば、少なくとも1つのスピーカも組み込まれたデバイスを考慮して、電気音響結合を低減させるために音響干渉キャンセラが各マイクロフォンの出力に適用される。
そのようなセットアップが与えられた場合、マイクロフォンは、所望の近端音声以外に、音響エコーおよびバックグラウンドノイズを取得する。
AECは、適応フィルタリング技術([2]などを参照)を使用して、(1つまたは複数の)スピーカと(1つまたは複数の)マイクロフォンとの間の音響インパルス応答(acoustic impulse response(AIR))を推定する。
続いて、利用可能なスピーカ信号を推定AIRでフィルタリングすることにより音響エコー推定値が計算される。
最後に、推定音響エコーがマイクロフォン信号から減算されて、音響エコーが除去される。
ただし、前述のハンズフリー通信デバイスでは、電気音響結合はデバイス自体のフィードバック、音楽、または音声アシスタントにより引き起こされることもある。
スピーカとマイクロフォンとの間の電気音響結合を低減させる最も簡単な解決策は、各マイクロフォンの出力に音響干渉キャンセラを配置することである([3]などを参照)。
RTF(RTFは相対伝達関数を意味する)は、一般にマルチマイクロフォン音声強調の状況で使用される([5]、[8]、[12]などを参照)。
さらに関連適用例を考察すると、プライマリチャネルの残留エコーのパワースペクトル密度、例えば、除去後に残留する音響エコー成分を推定するために[13]、[14]において残留エコー相対伝達関数が用いられた。
推定プロセスを強化するために、第2のマイクロフォン信号が使用される。
[13]、[14]の提案の方法は、除去後のプライマリ信号とセカンダリマイクロフォン信号との関係を推定し、プライマリAIRの推定の誤差とセカンダリAIRとの関係を提供する。
最後に、残留エコー相対伝達関数を使用して、プライマリ残留音響エコーのパワースペクトル密度が計算される。
例えば、空間フィルタの出力に配置された単一のAECの使用が[3]、[15]で最初に研究された。
音響エコー除去とマイクロフォンアレイ処理の統合を目的としたいくつかの代替方法が[8]、[16]、[18]で提案されている。
本発明の目的は、請求項1に記載の装置、請求項14に記載の方法、および請求項15に記載のコンピュータプログラムにより解決される。
そのために、プライマリ音響インパルス応答(AIR)、例えばスピーカとプライマリマイクロフォンとの間のAIRと、セカンダリAIR、例えばスピーカとセカンダリマイクロフォンとの間のAIRとの関係が識別される。
続いて、プライマリ音響エコー信号を推定されたAIR間の関係でフィルタリングすることによりセカンダリ音響エコー信号が計算される。
最後に、すべてのマイクロフォン信号に除去が適用される。
マイクロフォン間の距離が短い場合、比較的短いフィルタを使用してこれらの関係をモデル化することができる。よって、計算の複雑度を低減させることができる。
―基準信号に応じて第1の干渉信号の第1の推定値を生成すること。
―第1の干渉信号の第1の推定値に応じて2つ以上の受信オーディオチャネルのうちの第1の受信オーディオチャネルから2つ以上の修正オーディオチャネルのうちの第1の修正オーディオチャネルを生成すること。
―第1の干渉信号の第1の推定値に応じて第2の干渉信号の第2の推定値を生成すること。
―および、第2の干渉信号の第2の推定値に応じて2つ以上の受信オーディオチャネルのうちの第2の受信オーディオチャネルから2つ以上の修正オーディオチャネルのうちの第2の修正オーディオチャネルを生成すること。
に応じて2つ以上の受信オーディオチャネルのうちの第1の受信オーディオチャネルy1(t)から2つ以上の修正オーディオチャネルのうちの第1の修正オーディオチャネルe1(t)を生成するように構成されている第1の干渉キャンセラ114を含む。
に応じて2つ以上の受信オーディオチャネルのうちの第2の受信オーディオチャネルy2(t)から2つ以上の修正オーディオチャネルのうちの第2の修正オーディオチャネルe2(t)を生成するように構成されている第2の干渉キャンセラ124を含む。
第1の干渉信号の第1の推定値を第2の干渉信号の第2の推定値を決定するために再利用することにより、第1の干渉信号の第1の推定値を使用する代わりに基準信号を使用して第2の干渉信号の第2の推定値を生成する解決策と比較して計算の複雑度が低減される。
に応じて、3つ以上の受信オーディオチャネルのうちの第3の受信オーディオチャネルy3(t)から3つ以上の修正オーディオチャネルのうちの第3の修正オーディオチャネルe3(t)を生成するように構成されている。
に応じて第3の干渉信号の第3の推定値
を生成するように構成されている。
よって、図1cの実施形態は、第3の干渉信号の第3の推定値
の生成が、第1の干渉信号の第1の推定値
に応じることに代わって、第2の干渉信号の第2の推定値
に応じて実行されるという点で図1bの実施形態と異なる。
に応じて、2つ以上の受信オーディオチャネルのうちの第3の受信オーディオチャネルy3(t)から2つ以上の修正オーディオチャネルのうちの第3の修正オーディオチャネルe3(t)を生成するように構成されている。
と第1の干渉信号の第1の推定値
とに応じて第3の干渉信号の第3の推定値
を生成するように構成されている。
に応じて2つ以上の受信オーディオチャネルのうちの第1の受信オーディオチャネルy1(t)から第1の修正オーディオチャネルe1(t)を生成する。
に応じて2つ以上の受信オーディオチャネルのうちの第2の受信オーディオチャネルyN(t)から第2の修正オーディオチャネルeN(t)を生成する。
に応じて2つ以上の受信オーディオチャネルのうちの第1の受信オーディオチャネルy1(t)から第1の修正オーディオチャネルe1(t)を生成する。
に応じて第2の干渉信号の第2の推定値
を生成する、という点で図2と異なる。
に応じて2つ以上の受信オーディオチャネルのうちの第2の受信オーディオチャネルyN(t)から第2の修正オーディオチャネルeN(t)を生成する。
プライマリ干渉信号を推定するために、基準信号とプライマリ受信信号の関係を特徴付けるプライマリフィルタを識別する。
次に、基準信号をプライマリフィルタの推定値を用いてフィルタリングすることによりプライマリ干渉信号の推定値を取得する。
その後、セカンダリフィルタ、例えば推定プライマリ干渉信号とセカンダリ受信信号との関係を特徴付けるフィルタを識別する。
続いて、プライマリ干渉信号の推定値を推定セカンダリフィルタによってフィルタリングすることによりセカンダリ干渉信号の推定値を計算する。
最後に、電気音響結合を低減させるために除去が適用される。
マイクロフォン間の距離が短い場合、セカンダリフィルタはプライマリフィルタよりも短く([10]、[19]などを参照)、これが計算の複雑度の低減につながる。
この目的で、図3は、1つのスピーカ(1つの送信機)とN個のマイクロフォン(受信機)と用いたハンズフリーの通信シナリオを示している。
この特定の事例では、基準信号はスピーカ信号x(t)であり、一般性を失うことなく、プライマリマイクロフォン信号はy1(t)であり、tは離散時間インデックスを表す。
さらに、プライマリフィルタの推定値は、
として表されており、プライマリ音響エコー(干渉)信号の推定値
、および除去後の信号
である。
確認できるように、セカンダリ音響エコー信号
が、プライマリ音響エコー信号の推定値
をセカンダリフィルタの推定値
でフィルタリングすることにより計算される。
セカンダリマイクロフォン信号にはD≧0サンプルの遅延が導入されることに留意されたい。
これがなされるのは、セカンダリフィルタのD個の非因果係数が推定されることを保証するためである。
マイクロフォンが同期される必要がある場合には、除去後のプライマリ信号もDサンプルだけ遅延される必要がある。
対照的に、(図2に示される)従来の干渉除去方式では、基準x(t)信号をN個の推定プライマリフィルタを用いてフィルタリングすることによりN個の受信信号の推定値を計算する。
1.)プライマリ干渉信号が基準信号を使用して推定される。
音響エコー除去の具体的な適用では、前者は音響エコー信号であり、後者はスピーカ信号である。そのために:
1.1.)基準信号とプライマリ受信機信号との関係を特徴付けるプライマリフィルタ、これは、
(a)単一の受信機信号、
(b)受信機信号の線形結合、
のどちらかであり、例えば適応フィルタリング技術などを使用して識別される。
1.2.)基準信号はプライマリフィルタの推定値でフィルタリングされ、プライマリ干渉信号の推定値が計算される。
1.3.)干渉除去は、プライマリ受信信号からプライマリ干渉信号の推定値を減算することにより適用される。これは以下のどちらかである。
(a)単一の受信機信号。
(b)受信機信号の線形結合。
2.)セカンダリ干渉信号は、プライマリ干渉信号の推定値に基づいて推定される。そのために:
2.1.)プライマリ干渉信号の推定値とセカンダリ受信信号との間の関係を特徴付けるセカンダリフィルタが、例えば、
i.)費用関数または誤差基準(平均二乗誤差、(重み付き)最小二乗誤差など)の最適化
ii.)時間、周波数、またはサブバンド領域での適応フィルタリング技術により、セカンダリ受信機信号または除去後のセカンダリ信号、およびプライマリ干渉信号の推定値を使用して、識別される。(セカンダリフィルタは、例えば、フィルタ構成とみなされ得る。)
2.2.)セカンダリ干渉信号の推定値を計算するためにプライマリ干渉信号の推定値がセカンダリフィルタの推定値でフィルタリングされる。
2.3.)干渉除去は、セカンダリ受信機信号からセカンダリ干渉信号の推定値を減算することにより適用される。
3.)セカンダリ干渉信号ごとに2.を繰り返す。
4.)基準信号ごとに1.、2.、および3.を繰り返す。
5.)送信機はスピーカであり、受信機はマイクロフォンである。
6.)セカンダリ干渉信号の推定値をカスケード構成につながるプライマリ干渉信号の推定値として使用することができる。
7.)3つ以上の受信機の場合、受信機のサブセットを定義でき、各受信機がプライマリ受信機を有する。
Yn(l,k)=Dn(l,k)+Rn(l,k),n∈{1,…,N} (1)
式中、lおよびkは、それぞれ、時間フレームおよび周波数のインデックスである。
さらに、Rn(l,k)は、近端音声およびバックグラウンドノイズを含む近端信号であり、Dn(l,k)は、第nの音響エコーである。
後者は、スピーカ信号X(l,k)が部屋を伝播し、第nのマイクロフォンによって取得された結果である。
そのSTFT領域での正確な定式化([20]などを参照)は、
(2)
であり、式中、x(l)=[X(l,0),…,X(l,K-1)]Tであり、上付き文字・Tおよび・Hは、それぞれ、転置および共役転置を表し、Kは、変換長である。
さらに、第nのAETFの第bのパーティションは、hn(b,k)=[Hn(b,k,0),…,Hn(b,k,K-1)]Tであり、これはすべての周波数依存性を含むベクトルHn(b,k,k’)であり、k’∈{0,…,K-1}である(AETFは、音響エコー伝達関数を意味する)。
であり、式中、Rは、後続の入力フレーム間のフレームシフトを表す。
AETFの非因果性のために、エコー信号を計算するにはX(l,k)の
個の先読みフレームが必要である。
加えて、表記を簡潔にするために、実施形態によれば、図4に示されるように、Bnc個のフレームの遅延が再生経路に導入されると仮定する。
実際には、代わりに取り込み経路が一般に遅延される。[7]、[20]などを参照されたい。
特に、図4の信号は、短時間フーリエ変換領域(STFT領域)の信号である。
に応じて2つ以上の受信オーディオチャネルのうちの第1の受信オーディオチャネルY1(l,k)から第1の修正オーディオチャネルE1(l,k)を生成する。
に応じて2つ以上の受信オーディオチャネルのうちの第2の受信オーディオチャネルYN(l,k)から第2の修正オーディオチャネルEN(l,k)を生成する。
実際には、代わりに取り込み経路が一般に遅延される。例えば、[7]、[20]などを参照されたい。
ここでは、畳み込み伝達関数(convolutive transfer function(CTF))近似([7]などを参照)を使用することにより、次のように書くことが可能である。
(3)
式中、・*は、複素共役を表し、簡潔にするために、Hn(b,k)=Hn(b,k,k)である。
AECの適応アルゴリズムは、除去後の誤差信号によって駆動され、例えば、
(4)
であり、式中、
は、推定値を表すために使用され、
であり、
x(l,k)=[X(l,k),…,X(l-B+1、k)]Tである。
上付き文字Hは、エルミートを表す。
AECで使用されるほとんどの適応フィルタは勾配降下型のものであり([2]などを参照)、よって、汎用更新式は以下で与えられ、
(5)
式中、Mn(l,k)は、適応フィルタのステップサイズ行列であり、その定式化は使用される特定の適応アルゴリズムに依存する。
図5に、一実施形態によるSTFT領域のマルチマイクロフォンAECを示す。
に応じて2つ以上の受信オーディオチャネルのうちの第1の受信オーディオチャネルY1(l,k)から第1の修正オーディオチャネルE1(l,k)を生成する。
に応じて第2の干渉信号の第2の推定値
を生成する、という点で図4と異なる。
に応じて2つ以上の受信オーディオチャネルのうちの第2の受信オーディオチャネルYN(l,k)から第2の修正オーディオチャネルEN(l,k)を生成する。
であればよい。
この問題の定式化は、フィルタが時間的に不変であると仮定して導出されるが、推定値は経時的に変化するものである。
周波数依存性に関する前述の仮定の下で、次のように書くことが可能であり、
(6)
式中、An(p,k)は、第nの相対エコー伝達関数(RETF)の第pのパーティションである。
それにも関わらず、少数の非因果的な時間領域係数が、An(0,k)によりモデル化されることに言及する価値がある。
この仮定の下では、先読みは不要であり、結果として、追加の遅延は発生しない。
でD1(l,k)を置き換えることが提案される。
An(p,k)∀pを推定するために、実施形態によれば、誤差信号は次のように最小化され、
(8)
式中、
は、RETFパーティションの第nのスタックドベクトル(stacked vector)であり、
である。
二次費用関数J(l,k)=E{|En(l,k)|2}を最小化することにより得られる、平均二乗誤差の意味での最適フィルタは、
(9)
と等しく、式中、Ψ1(l,k)は
の共分散行列であり、Ψ1n(l,k)は
とYn(l,k)との間の相互相関ベクトルであり、例えば、
であり、式中、E{・}は、数学的期待値を表す。
という仮定の下では、
であることに留意されたい。
は、推定プライマリAETFと第nのセカンダリAETFとの関係をモデル化することを意味する。
(10)
と等しく、プライマリ音響エコーキャンセラが収束(converged:集中)すると、(7)で定義されるAn(l,0,k)と等しくなる。
対照的に、実際には
が
により近似されるためにダブルトーク検出器が必要であり、ゆえに、
とRn(l,k)との統計的関係に関する前述の仮定が常に成り立つわけではない。
例えば、図5の第2のフィルタユニット522は、第2の時間インデックスに時間的に先行する第1の時間インデックスのフィルタ構成と、第1の時間インデックスの第1の干渉信号の第1の推定値と、第1の時間インデックスの第2の修正オーディオチャネルのサンプルとに応じてフィルタ構成を決定するように構成されてもよい。
式中、l+1は、第2の時間インデックスを表し、lは、第1の時間インデックスを表し、kは、周波数インデックスを表し、
は、第2の時間インデックスのフィルタ構成であり、
は、第1の時間インデックスのフィルタ構成であり、
は、第1の時間インデックスの第1の干渉信号の第1の推定値であり、
は、第1の時間インデックスの第2の修正オーディオチャネルであり、Cn(l,k)は、ステップサイズ行列(例えば、
の共分散行列の逆行列)である。
は、プライマリマイクロフォンによって取得されたエコー信号の推定値であるため、時間的に無相関であると仮定することはできない。
より正確には、STFT窓が短い場合、またはSTFT窓間のオーバーラップが大きい場合、Ψ1(l,k)の非対角要素は無視できない。
これを考慮に入れて、ニュートン法([2]などを参照)、
(11)
が、最適フィルタへの高速で安定した収束を保証する。
(11)では、ηは、適応プロセスを制御するために使用される固定ステップサイズである。
実際には、共分散行列Ψ1(l,k)は、ある経時的に平均化することにより、例えば、一次再帰フィルタを使用して近似され、
式中、時間平均は
で表され、βは、忘却係数である。
エコー信号は、クリーンな音声信号をシミュレートされたAIRを用いて畳み込むことにより生成される。
後者を、寸法3×4×2.5m3、残響時間T60=0.15および0.35sの部屋に対して画像法([23]などを参照)を使用して生成した。
シミュレートされたAIRの長さは、FS=16kHzのサンプリング周波数でL=4096タップであった。
AIRを、2つのマイクロフォンと1つのスピーカを備えたセットアップについて生成した。
ベースラインセットアップは、スピーカとプライマリマイクロフォンとの間の距離l1=10cm、マイクロフォン間の距離Δ=1.5cmを使用した。
スピーカとセカンダリマイクロフォンとの間の距離は、l2=l1+Δcmであった。性能に対するこれらのパラメータの影響も解析した。
この目的で、Δ=3cmおよびl1=20cmも評価した。
AETF(5)とRETF(11)の両方を推定するために使用した適応アルゴリズムはニュートン法であった。
結果として、(5)のステップサイズ行列は、Mn(l,k)=μΨx(l,k)-1となる。
スピーカ信号は時間的に無相関であると仮定するのが現実的であるため、その共分散行列は、以下によって簡略化され、
式中、
は、要素ごとの乗算を表し、Iは、B×B単位行列である。
この簡略化にもかかわらず、正規化係数は依然としてパーティション依存であることに留意されたい。
さらに、適応フィルタと共分散行列は音声の一時停止中に更新せず、正則化は共分散行列の非特異性を保証するために使用される。
最後に、マイクロフォン信号に白色ガウス雑音(ホワイトガウスノイズ)を付加して、固定セグメントエコー対雑音比(SegENR)をシミュレートした。性能の差を目立たせるために、60dBのSegENRを使用した。
以下の3セットの実験を行った。
2.T60=0.15sのシミュレート環境、推定プライマリAIRの長さL=256タップである。
3.T60=0.35sのシミュレート環境、推定プライマリAIRの長さL=1024タップである。
次いで、セカンダリエコー信号は、STFT領域において、セカンダリAETFをスピーカ信号で畳み込み、RETFを推定プライマリエコー信号で畳み込むことにより取得される。
エコー・リターン・ロス・エンハンスメント(echo return loss enhancement(ERLE))は、セカンダリチャネルのエコー低減を測定するために使用され、
(12)
であり、式中、||・||2は、l2-ノルムであり、d2(l)=[d2(lR+1),…,d2(lR+K)]は、時間領域のセカンダリ音響エコーの第lのフレームである。
これらの図において、提案のRETFベースのAECは、AETF推定にBおよびB’=Bnc+P個のパーティションを使用した最新技術のAECと比較されている。
後者の条件は、やはり全体的な計算の複雑度を低減させるはずの、より少数の因果的CTFパーティションを使用したAETFベースのAECとの比較を示すために含まれている。
特に、図6は、切り出されたAIRとL=256タップを用いたAETFとRETFベースのAECの比較を示している。
P=1とP=2とで得られた、左右の部分図のエコー低減は、試験対象のすべての条件について示されている。
P=1では、RETFベースの手法は、B’個のパーティション、例えば、P個の因果的パーティションのみを用いたAETFベースの手法よりも高いERLE値に収束することが確認できる。
P=2では、試験対象のすべての条件が同様の性能である。
特に、図7は、T60=0.15sおよびL=256タップでのAETFとRETFベースのAECの比較を示している。
左上の部分図と右上の部分図とに示されている結果は、ベースラインセットアップのP=1とP=2とに対応している。
P=1では、RETFベースの手法は、同数の因果的パーティションを用いたAETFベースの手法を上回ることが確認できる。
P=2では、AETFベースの手法の性能は目に見えて強化され、RETFベースの手法を使用することにより得られる利点は減少する。
下の部分図には、P=1での異なるシミュレーションセットアップについての比較が示されている。
左側の部分図には、異なるマイクロフォン間の距離での結果が示されている。
他方、右側の部分図では、スピーカとプライマリマイクロフォンとの間の様々な距離が評価されている。
試験対象のすべての条件で、これらのパラメータのいずれかを大きくするとキャンセラの性能に悪影響が及ぶことが確認できる。
マイクロフォン間距離を増やすと、提案の手法により大きな影響を及ぼし、一般に、l1はキャンセラの性能により大きな影響を及ぼすことに留意されたい。
さらに、これらのシミュレーションで使用されたパラメータについて、提案の手法は、因果的パーティションの数が等しいAETFベースのAECを上回ることができる。
特に、図8は、T60=0.35sおよびL=1024タップでのAETFとRETFベースのAECとの間の比較を示している。
P=1個とP=4個のパーティションで得られた結果が左右の部分図に示されている。
さらに、P=4では、B=15でのAETFベースのAECよりも性能がやや劣るにすぎない。
さらに、RETFベースのAECを使用することにより、性能のわずかな低下を犠牲にして、推定パーティションの数を低減させることができることが実証された。
特に、ブロック時間領域適応フィルタ([27]、[28]などを参照)である周波数領域適応フィルタ(FDAF)([24]、[26]などを参照)の効率的な実施態様は、STFT領域のものとは大きく異なる。
これに関する詳細情報については、その中の参考文献を参照されたい(例えば、[20]を参照)。
基準信号ならびに第1および第2の干渉信号は、例えば、分割ブロック周波数領域の信号であってもよく、基準信号ならびに第1および第2の干渉信号の各々が複数のパーティションを含む。
さらに、第2のフィルタユニット122;322;522は、例えば、第1の干渉信号の第1の推定値とフィルタ構成とに応じて第2の干渉信号の第2の推定値を決定するように構成されてもよい。
さらに、第2のフィルタユニット122;322;522は、例えば、第2の時間インデックスに時間的に先行する第1の時間インデックスのフィルタ構成と、第1の時間インデックスの第1の干渉信号の第1の推定値と、第1の時間インデックスの第2の修正オーディオチャネルのサンプルとに応じて第2の時間インデックスのフィルタ構成を決定するように構成されてもよい。
マイクロフォン信号の分割ブロック周波数領域の定式化は以下のとおりであり、
Yn(l)=dn(l)+rn(l)、n∈{1,…,N} (13)
式中、周波数領域のエコー信号は、長さKの巡回畳み込みの結果を線形化した後に取得され、
(14)
式中、Fは、サイズK×Kの離散フーリエ変換(discrete Fourier transform (DFT))行列であり、第bのAIRパーティションの周波数領域表現は次式で与えられ、
hn(b)=F[hn(bQ),…,hn((b+1)Q-1),01×v]T
式中、Qは、パーティションの長さであり、Vは、ゼロパディングの長さである。
さらに、入力スピーカ信号は、次の形式のK×K対角行列として定式化される([25]などを参照)。
X(l,b)=diag{F[x(lR-bQ-K+1),…,x(lR)]T}
ここでは、Vは、出力信号フレーム長であり、Q=K-Vは、ラップアラウンドエラーの長さであると推論することが可能になり、出力信号の一般的な周波数領域の定式化a∈{y,d,r,e}は、例えば、
に等しく、式中、時間領域の信号サンプルは、an(t)で表され、tは離散時間インデックスを表す。
これらは、それぞれ、周波数領域入力行列のスタックド行列(stacked matrices)と、周波数領域AIRパーティションのスタックドベクトルである。
で乗算することにより時間領域の巡回成分を否定し、線形化の結果を周波数領域に逆変換することと等価である。
AETFを推定するために先読みを考慮する必要がないため、周波数領域での定式化が因果的であることを強調することが重要である。
周波数領域では、除去後の誤差信号は、
(15)
であり、汎用PB-FDAF更新式は、
(16)
であり、式中、
および、
は、巡回相関制限行列を表し、式中、
は、時間領域巡回相関制限窓であり、演算子diag{v}は、vの要素をその主対角に有する対角行列を生成する。
(17)
式中、一般性を失うことなく、D1(l,p)=diag{F[d1(lR-pQ-K+1),…,d1(lR)]T}は、プライマリ、すなわち、基準エコー信号であり、
および
は、
および
と同様に定義される。
ただし、セカンダリマイクロフォンに対するプライマリマイクロフォンの相対的な位置に応じて、RETFを因果的または非因果的とすることができる。
ゆえに、周波数領域RETFの非因果性の可能性an(p)を考慮して、プライマリエコー信号のPnc個のパーティションの先読みが必要である。
同期のためには、除去後のプライマリ誤差信号も遅延させる必要がある。
表記を簡潔にするために、実施形態によれば、差し当たり、Pnc=0であると仮定する。
式中、l+1は、第2の時間インデックスを表し、lは、第1の時間インデックスを表し、kは、周波数インデックスを表し、
は、第2の時間インデックスのフィルタ構成であり、
は、第1の時間インデックスのフィルタ構成であり、
は、第1の時間インデックスの第1の干渉信号の第1の推定値であり、Cnは、ステップサイズ行列であり、en(l)は、第1の時間インデックスの第2の修正オーディオチャネルであり、
は、巡回畳み込み制限行列である。
―サンプルベースで、例えば時間領域において、セカンダリマイクロフォンへの入力信号をバッファする。
これにより、ユーザは可能な限り低い遅延を維持できる。
ただし、同期のために、除去後のプライマリ信号をしかるべく遅延させる必要があり、これはe1(l)を時間領域に逆変換する必要があることを意味する。
―周波数領域においてセカンダリマイクロフォンへの入力信号をバッファする。
ゆえに、これらをフレーム単位で遅延させる必要があり、時間領域で導入される遅延よりも高い遅延が発生する。
この選択肢の利点は、除去後にプライマリ信号を時間領域に変換する必要がないことにある。
ゆえに、マルチチャネル干渉キャンセラを、ポストプロセッサに周波数領域で直接インターフェースすることができる。
対応する実施態様は、DがパーティションサイズQの整数倍であるという点で、図3に示される実施態様と同様である。
このようにして、適応フィルタの最初のPnc個のパーティションを使用して、Q・Pnc個の非因果的RETF係数がモデル化される。
この単純な手法では、因果的および非因果的RETF係数を推定するために少なくとも2つのパーティションが必要であり、この単純な事例では、最初のフィルタパーティションはan(-1)の非因果係数をモデル化する。
個の非因果係数と共に最大
個の因果係数を保持するために、勾配制限の修正
を考慮する。
この目的で、実施形態によれば、(16)からの制限
は以下のように近似される。
(23)
個の過去のサンプルと最新の
個の出力サンプルとが破棄されこれにより、セカンダリエコー信号の推定値において
サンプルの遅延が発生することに留意されたい。
サンプルだけ巡回シフトされた、元の時間領域制限gおよび
に他ならない。
よって、その場合対応する周波数領域表現は、それぞれ、
およびGsym=JGであり、式中、定数行列、
(25)
は、周波数領域の巡回シフトに相当するものである。
実際の実施態様では、制限が通常時間領域で適用されるため、上記の行列は関心対象にはならない。
を定義してもよく、(23)と(24)によって提供される線形係数の同じ選択を取得することができる。
例えば、ニュートン法を使用した所望の重み更新を、次式として取得することができる。
(26)
の定義によって決定されるので、柔軟性が得られる。
実際、
を非常に特殊な事例に合わせて調整することができ、例えば、
より短いシフトを実施し、非因果係数の数を、ゆえにシステム遅延を低減させることができる。
音源とマイクロフォンの相対的な位置を仮定せずに、高品質のフィルタ出力を実現するためは一定の遅延を導入する必要があることが明らかである。
次の表に、提示の実施方法を要約する。
この目的で、推定プライマリフィルタの長さをLで表し、N-1個の推定セカンダリフィルタの長さをPで表し、プライマリフィルタおよびセカンダリフィルタは適応フィルタリング技術を使用して推定されると仮定する。
時間領域での適応フィルタの入力信号サンプルごとの複雑度は以下のとおりであり、
式中、M∈{L,N}であり、更新式O(Update,M)の複雑度は、使用される適応アルゴリズムに依存し、多くの場合、フィルタ長にも依存する。
したがって、N個の適応フィルタが並列で(マイクロフォンごとに1つずつ)使用される場合、マルチマイクロフォンAECのアルゴリズム複雑度はNO(AF)である。
(29)
この目的で、まずSTFT領域の適応フィルタのパーティションごとの複雑度を調べると、これは、
であり、式中、Q∈{P,B}であり、O(FFT)≒2Klog2(K)-4Kは、高速フーリエ変換(fast Fourier transform(FFT))の複雑度であり、O(CplxMult)=6Kは、長さKの虚数乗法の複雑度([30]などを参照)であり、更新式O(Update)の複雑度は、使用される適応アルゴリズムに依存する。
したがって、N個の適応フィルタが並列で(マイクロフォンごとに1つずつ)使用される場合、パーティションごとのマルチマイクロフォンAECのアルゴリズム複雑度はNO(AF)である。
―スマートフォン、タブレット、パーソナルコンピュータ。
―音声起動アシスタント、スマートスピーカおよびスマートホームデバイス。
―スマートテレビ。
同様に、方法ステップの文脈で説明された態様も、対応するブロックもしくは項目または対応する装置の特徴を表している。
方法ステップの一部または全部が、例えば、マイクロプロセッサ、プログラマブルコンピュータ、または電子回路などのハードウェア装置によって(またはハードウェア装置を使用して)実行されてもよい。
いくつかの実施形態では、最も重要な方法ステップのうちの1つまたは複数がそのような装置によって実行されてもよい。
実施態様は、それぞれの方法が行われるようにプログラマブル・コンピュータ・システムと協働する(または協働することができる)、電子的に読み取り可能な制御信号が格納されたデジタル記憶媒体、例えば、フロッピーディスク、DVD、Blu-Ray、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリを使用して実行することができる。
したがって、デジタル記憶媒体はコンピュータ可読であり得る。
プログラムコードは、例えば、機械可読キャリアに格納され得る。
データキャリア、デジタル記憶媒体、または記録された媒体は通常、有形および/または非一時的である。
データストリームまたは信号シーケンスは、例えば、データ通信接続を介して、例えばインターネットを介して転送されるように構成され得る。
受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどであり得る。
装置またはシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバを含み得る。
いくつかの実施形態では、フィールド・プログラマブル・ゲート・アレイが、本明細書に記載される方法のうちの1つを行うためにマイクロプロセッサと協働し得る。
一般に、これらの方法は好ましくは、任意のハードウェア装置によって行われる。
当業者には本明細書に記載される構成および詳細の改変および変形が明らかになることを理解されたい。
したがって、本明細書において実施形態の記述および説明として提示された具体的な詳細によってではなく、添付の特許請求の範囲によってのみ限定されることが意図されている。
[2]S.Haykin、「適応フィルタ理論」、第4版、米国ニュージャージー州:Prentice-Hall、2001年。
[3]W.Kellermann、「音響エコー除去と適応ビームフォーミング・マイクロフォン・アレイを組み合わせるための戦略」、IEEE ICASSP、独国ミュンヘン、1997年4月、219~222ページ。
[4]O.ShalviおよびE.Weinstein、「非定常信号を使用したシステム識別」、IEEE Trans.Signal Process.、第44巻、第8号、2055~2063ページ、1996年。
[5]S.Gannot、D.Burshtein、E.Weinstein、「ビームフォーミングおよび非定常性を使用した信号強調および音声への応用」、IEEE Trans.Signal Process.、第49巻、第8号、1614~1626ページ、2001年8月。
[6]I.Cohen、「音声信号を使用した相対伝達関数識別」、IEEE Trans.Speech Audio Process、第12巻、第5号、451~459ページ、2004年9月。
[7]R.Talmon、I.Cohen、およびS.Gannot、「畳み込み伝達関数近似を使用した相対伝達関数識別」、IEEE Trans.Audio,Speech,Lang.Process.、第17巻、第4号、546~555ページ、2009年5月。
[8]G.Reuven、S.Gannot、およびI.Cohen、「伝達関数一般化サイドローブキャンセラを使用した雑音低減と音響エコー除去の結合」、Speech Communication、第49巻、第7~8号、623~635ページ、2007年8月。
[9]R.Talmon、I.Cohen、およびS.Gannot、「畳み込み伝達関数一般化サイドローブキャンセラ」、IEEE Trans.Audio,Speech,Lang.Process.、第17巻、第7号、1420~1434ページ、2009年9月。
[10]T.DvorkindおよびS.Gannot、「残響環境における話者定位」、Proc.the 22nd convention of Electrical and Electronics Engineers in Israel(IEEEI)、テルアビブ、イスラエル、2002年12月、7~7ページ。
[11]T.G.DvorkindおよびS.Gannot、「雑音の多い残響環境における音声源の到着推定における時間差」、Signal Processing、第85巻、第1号、177~204ページ、2005年1月。
[12]X.Li、L.Girin、R.Horaud、およびS.Gannot、「監視された音源定位のための直接経路相対伝達関数の推定」、IEEE Trans.Audio,Speech,Lang.Process.、第4巻、第11号、2171~2186ページ、2016年11月。
[13]C.Yemdji、M.Mossi Idrissa、N.Evans、C.Beaugeant、およびP.Vary、「ハンズフリーモバイル端末向けのデュアル・チャネル・エコー・ポストフィルタリング」、Proc.IWAENC、独国アーヘン、2012年9月、1~4ページ。
[14]C.Yemdji、L.Lepauloux、N.Evans、およびC.Beaugeant、「オーディオ信号およびオーディオ受信回路の処理方法」、米国特許公報第2014/0334620号、2014年。
[15]W.Kellermann、「マイクロフォンアレイの音響エコー除去と適応ビームフォーミングの統合設計」、Proc.Intl.Workshop Acoust.Echo Noise Control(IWAENC)、英国ロンドン、1997年、81~84ページ。
[16]W.HerbordtおよびW.Kellermann、「GSAEC-汎用サイドローブキャンセラに組み込まれた音響エコー除去」、Proc.European Signal Processing Conf.(EUSIPCO)、第3巻、タンペレ、フィンランド、2000年9月、1843~1846ページ。
[17]W.Herbordt、W.Kellermann、およびS.Nakamura、「LCMVビームフォーミングと音響エコー除去の統合最適化」、Proc.European Signal Processing Conf.(EUSIPCO)、ウィーン、オーストリア、2004年9月、2003~2006ページ。
[18]K.-D.Kammeyer、M.Kallinger、およびA.Mertins、「エコーキャンセラとビームフォーマの組み合わせの新しい側面」、Proc.IEEE ICASSP、第3巻、米国フィラデルフィア、2005年3月、137~140ページ。
[19]Y.AvargelおよびI.Cohen、「たすき掛け伝達関数近似を使用した短時間フーリエ変換領域での適応システム識別」、IEEE Trans.Audio,Speech,Lang.Process.、第巻6、第1号、162~173ページ、2008年1月。
[20]「クロスバンドフィルタリング用いた短時間フーリエ変換領域でのシステム識別」、IEEE Trans.Audio,Speech,Lang.Process.、第15巻、第4号、1305~1319ページ、2007年5月。
[21]「短時間フーリエ変換領域での乗法伝達関数近似について」、IEEE Signal Process.Lett.、第14巻、第5号、337~340ページ、2007年5月。
[22]I.Cohen、「非因果的な先験的SNR推定器を使用した音声強調」、IEEE Signal Process.Lett.、第11巻、第9号、725~728ページ、2004年9月。
[23]J.B.AllenおよびD.A.Berkley、「小部屋の音響を効率的にシミュレートするための画像法」、J.Acoust.Soc.Am.、第65巻、第4号、943~950ページ、1979年4月。
[24]P.C.W.Sommen、「分割周波数領域適応フィルタ」、Proc.Asilomar Conf.on Signals,Systems and Computers、1989年、677~681ページ。
[25]J.J.Shynk、「周波数領域およびマルチレート適応フィルタリング」、IEEE Signal Process.Mag.、第9巻、第1号、14~37ページ、1992年1月。
[26]S.Haykin、「適応フィルタ理論」、第4版、Prentice-Hall、2002年。
[27]M.Dentino、J.McCool、およびB.Widrow、「周波数領域での適応フィルタリング」、Proc.of the IEEE、第66巻、第12号、1658~1659ページ、1978年12月。
[28]G.A.Clark、S.R.Parker、およびS.K.Mitra、「FIR適応デジタルフィルタの時間領域および周波数領域の実現への統一手法」、IEEE Trans.Acoust,Speech,Signal Process.、第31巻、第5号、1073~1083ページ、1983年10月。
[29]A.OppenheimおよびR.W.Schafer、「デジタル信号処理」、第2版、Prentice-Hall Inc.、ニュージャージー州イングルウッドクリフ、1993年。
[30]R.M.M.Derkx、G.P.M.Engelmeers、およびP.C.W.Sommen、「分割ブロック周波数領域適応フィルタの新しい制限方法」、IEEE Trans.Signal Process.、第50巻、第3号、2177~2186ページ、2002。
Claims (14)
- 2つ以上の修正オーディオチャネルを含む修正オーディオ信号を取得するための、2つ以上の受信オーディオチャネルを含む受信オーディオ信号におけるマルチチャネル干渉除去のための装置であって、前記装置が、
基準信号に応じて第1の干渉信号の第1の推定値を生成するように構成されている第1のフィルタユニット(112;312;512)と、
前記第1の干渉信号の前記第1の推定値を用いて前記2つ以上の受信オーディオチャネルのうちの第1の受信オーディオチャネルから前記2つ以上の修正オーディオチャネルのうちの第1の修正オーディオチャネルを生成するように構成されている第1の干渉キャンセラ(114;314;514)と、
前記第1の干渉信号の前記第1の推定値を用いて第2の干渉信号の第2の推定値を生成するように構成されている第2のフィルタユニット(122;322;522)と、
前記第2の干渉信号の前記第2の推定値に応じて前記2つ以上の受信オーディオチャネルのうちの第2の受信オーディオチャネルから前記2つ以上の修正オーディオチャネルのうちの第2の修正オーディオチャネルを生成するように構成されている第2の干渉キャンセラ(124;324;524)と、を含み、
前記2つ以上の受信オーディオチャネルおよび前記2つ以上の修正オーディオチャネルが変換領域のチャネルであり、前記基準信号ならびに前記第1および第2の干渉信号が前記変換領域の信号である、装置。 - 前記第1の干渉信号の前記第1の推定値が第1の音響エコー信号の第1の推定値であり、
前記第2の干渉信号の前記第2の推定値が第2の音響エコー信号の第2の推定値であり、
前記第1の干渉キャンセラ(114;314;514)が、前記第1の修正オーディオチャネルを取得するために前記第1の受信オーディオチャネルに対して音響エコー除去を実行するように構成されており、
前記第2の干渉キャンセラ(124;324;524)が、前記第2の修正オーディオチャネルを取得するために前記第2の受信オーディオチャネルに対して音響エコー除去を実行するように構成されている、請求項1に記載の装置。 - 前記2つ以上の受信オーディオチャネルおよび前記2つ以上の修正オーディオチャネルが短時間フーリエ変換領域のチャネルであり、前記基準信号ならびに前記第1および第2の干渉信号が前記短時間フーリエ変換領域の信号である、請求項1または2に記載の装置。
- 前記第2のフィルタユニット(122;322;522)が、前記第1の干渉信号の前記第1の推定値と前記第2の受信オーディオチャネルとに応じてフィルタ構成を決定するように構成されており、
前記第2のフィルタユニット(122;322;522)が、前記第1の干渉信号の前記第1の推定値と前記フィルタ構成とに応じて前記第2の干渉信号の前記第2の推定値を決定するように構成されている、請求項1から3のいずれか一項に記載の装置。 - 前記第2のフィルタユニット(122;322;522)が、費用関数を最小化することによって、または誤差基準を最小化することによって前記フィルタ構成を決定するように構成されている、請求項4に記載の装置。
- 前記第2のフィルタユニット(122;322;522)が、第2の時間インデックスに時間的に先行する第1の時間インデックスの前記フィルタ構成と、前記第1の時間インデックスの前記第1の干渉信号の前記第1の推定値と、前記第1の時間インデックスの前記第2の修正オーディオチャネルのサンプルとに応じて前記第2の時間インデックスの前記フィルタ構成を決定するように構成されている、請求項1から3のいずれか一項に記載の装置。
- 前記第2のフィルタユニット(122;322;522)が前記第2の時間インデックスの前記フィルタ構成を次式に従って決定するように構成されており、
式中、l+1が、前記第2の時間インデックスを表し、lが、前記第1の時間インデックスを表し、kが、周波数インデックスを表し、
が、前記第2の時間インデックスの前記フィルタ構成であり、
が、前記第1の時間インデックスの前記フィルタ構成であり、
が、前記第1の時間インデックスの前記第1の干渉信号の前記第1の推定値であり、
が、前記第1の時間インデックスの前記第2の修正オーディオチャネルの複素共役であり、
Cn(l,k)が、ステップサイズ行列である、請求項7に記載の装置。 - 前記2つ以上の受信オーディオチャネルおよび前記2つ以上の修正オーディオチャネルが、分割ブロック周波数領域のチャネルであり、前記2つ以上の受信オーディオチャネルおよび前記2つ以上の修正オーディオチャネルの各々が複数のパーティションを含み、
前記基準信号ならびに前記第1および第2の干渉信号が、前記分割ブロック周波数領域の信号であり、前記基準信号ならびに前記第1および第2の干渉信号の各々が複数のパーティションを含む、請求項1または2に記載の装置。 - 前記第2のフィルタユニット(122;322;522)が、前記第1の干渉信号の前記第1の推定値と前記第2の受信オーディオチャネルとに応じてフィルタ構成を決定するように構成されており、
前記第2のフィルタユニット(122;322;522)が、前記第1の干渉信号の前記第1の推定値と前記フィルタ構成とに応じて前記第2の干渉信号の前記第2の推定値を決定するように構成されており、
前記第2のフィルタユニット(122;322;522)が、第2の時間インデックスに時間的に先行する第1の時間インデックスの前記フィルタ構成と、前記第1の時間インデックスの前記第1の干渉信号の前記第1の推定値と、前記第1の時間インデックスの前記第2の修正オーディオチャネルのサンプルとに応じて前記第2の時間インデックスの前記フィルタ構成を決定するように構成されている、請求項9に記載の装置。 - 前記第2のフィルタユニット(122;322;522)が、前記分割ブロック周波数領域の前記フィルタ構成を次式に従って決定するように構成されており、
式中、l+1が、前記第2の時間インデックスを表し、lが、前記第1の時間インデックスを表し、kが、周波数インデックスを表し、
が、前記第2の時間インデックスの前記フィルタ構成であり、
が、前記第1の時間インデックスの前記フィルタ構成であり、
が、前記第1の時間インデックスの前記第1の干渉信号の前記第1の推定値であり、
Cnが、ステップサイズ行列であり、
Hが、エルミートを表し、
en(l)が、前記第1の時間インデックスの前記第2の修正オーディオチャネルであり、
が、巡回畳み込み制限行列である、請求項10に記載の装置。 - 前記受信オーディオ信号が3つ以上の受信オーディオチャネルを含み、前記修正オーディオ信号が3つ以上の修正オーディオチャネルを含み、
前記装置が、第3のフィルタユニット(132)と第3の干渉キャンセラ(134)とをさらに含み、
前記第3のフィルタユニット(132)が、前記第1の干渉信号の前記第1の推定値と前記第2の干渉信号の前記第2の推定値の少なくとも一方に応じて第3の干渉信号の第3の推定値を生成するように構成されており、
第3の干渉キャンセラ(134)が、前記第3の干渉信号の前記第3の推定値
に応じて前記3つ以上の受信オーディオチャネルのうちの第3の受信オーディオチャネルy3(t)から前記3つ以上の修正オーディオチャネルのうちの第3の修正オーディオチャネルe3(t)を生成するように構成されている、請求項1から11のいずれか一項に記載の装置。 - 2つ以上の修正オーディオチャネルを含む修正オーディオ信号を取得するための、2つ以上の受信オーディオチャネルを含む受信オーディオ信号におけるマルチチャネル干渉除去のための方法であって、前記方法が、
基準信号に応じて第1の干渉信号の第1の推定値を生成することと、
前記第1の干渉信号の前記第1の推定値を用いて前記2つ以上の受信オーディオチャネルのうちの第1の受信オーディオチャネルから前記2つ以上の修正オーディオチャネルのうちの第1の修正オーディオチャネルを生成することと、
前記第1の干渉信号の前記第1の推定値を用いて第2の干渉信号の第2の推定値を生成することと、
前記第2の干渉信号の前記第2の推定値に応じて前記2つ以上の受信オーディオチャネルのうちの第2の受信オーディオチャネルから前記2つ以上の修正オーディオチャネルのうちの第2の修正オーディオチャネルを生成することと、を含み、
前記2つ以上の受信オーディオチャネルおよび前記2つ以上の修正オーディオチャネルが変換領域のチャネルであり、前記基準信号ならびに前記第1および第2の干渉信号が前記変換領域の信号である、方法。 - コンピュータまたは信号プロセッサで実行されたときに請求項13に記載の方法を実行するためのコンピュータプログラム。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP17167304 | 2017-04-20 | ||
EP17167304.9 | 2017-04-20 | ||
EP17196416.6 | 2017-10-13 | ||
EP17196416.6A EP3393140A1 (en) | 2017-04-20 | 2017-10-13 | Apparatus and method for multichannel interference cancellation |
PCT/EP2018/060006 WO2018193028A1 (en) | 2017-04-20 | 2018-04-19 | Apparatus and method for multichannel interference cancellation |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020519070A JP2020519070A (ja) | 2020-06-25 |
JP7003153B2 true JP7003153B2 (ja) | 2022-02-04 |
Family
ID=60190566
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019556955A Active JP7003153B2 (ja) | 2017-04-20 | 2018-04-19 | マルチチャネル干渉除去のための装置および方法 |
Country Status (10)
Country | Link |
---|---|
US (1) | US20200051581A1 (ja) |
EP (2) | EP3393140A1 (ja) |
JP (1) | JP7003153B2 (ja) |
KR (1) | KR102369613B1 (ja) |
CN (1) | CN110915233B (ja) |
BR (1) | BR112019021967A2 (ja) |
CA (1) | CA3060916C (ja) |
ES (1) | ES2950574T3 (ja) |
RU (1) | RU2735131C1 (ja) |
WO (1) | WO2018193028A1 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10867615B2 (en) | 2019-01-25 | 2020-12-15 | Comcast Cable Communications, Llc | Voice recognition with timing information for noise cancellation |
EP3771226A1 (en) * | 2019-07-23 | 2021-01-27 | FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. | Acoustic echo cancellation unit |
US11107488B1 (en) * | 2019-10-24 | 2021-08-31 | Amazon Technologies, Inc. | Reduced reference canceller |
CN111312269B (zh) * | 2019-12-13 | 2023-01-24 | 天津职业技术师范大学(中国职业培训指导教师进修中心) | 一种智能音箱中的快速回声消除方法 |
CN111599372B (zh) * | 2020-04-02 | 2023-03-21 | 云知声智能科技股份有限公司 | 一种稳定的在线多通道语音去混响方法及系统 |
CN112397080B (zh) * | 2020-10-30 | 2023-02-28 | 浙江大华技术股份有限公司 | 回声消除方法及装置、语音设备及计算机可读存储介质 |
TWI778502B (zh) * | 2021-01-22 | 2022-09-21 | 威聯通科技股份有限公司 | 回聲延時估計方法及回聲延時估計系統 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015019185A (ja) | 2013-07-10 | 2015-01-29 | 日本電信電話株式会社 | 音声スイッチ装置、音声スイッチ方法、及びそのプログラム |
JP2015136105A (ja) | 2013-12-27 | 2015-07-27 | ジーエヌ リザウンド エー/エスGn Resound A/S | フィードバック抑制 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5828756A (en) * | 1994-11-22 | 1998-10-27 | Lucent Technologies Inc. | Stereophonic acoustic echo cancellation using non-linear transformations |
WO1997023068A2 (en) * | 1995-12-15 | 1997-06-26 | Philips Electronic N.V. | An adaptive noise cancelling arrangement, a noise reduction system and a transceiver |
US6263078B1 (en) * | 1999-01-07 | 2001-07-17 | Signalworks, Inc. | Acoustic echo canceller with fast volume control compensation |
US7062038B1 (en) * | 2002-12-17 | 2006-06-13 | Cisco Technology, Inc. | System and method of using two coefficient banks in an adaptive echo canceller |
EP2574082A1 (en) * | 2011-09-20 | 2013-03-27 | Oticon A/S | Control of an adaptive feedback cancellation system based on probe signal injection |
US9768829B2 (en) * | 2012-05-11 | 2017-09-19 | Intel Deutschland Gmbh | Methods for processing audio signals and circuit arrangements therefor |
US20140016794A1 (en) * | 2012-07-13 | 2014-01-16 | Conexant Systems, Inc. | Echo cancellation system and method with multiple microphones and multiple speakers |
US9100466B2 (en) | 2013-05-13 | 2015-08-04 | Intel IP Corporation | Method for processing an audio signal and audio receiving circuit |
DK2890154T3 (en) * | 2013-12-27 | 2018-02-05 | Gn Resound As | Hearing aid with feedback suppression |
US9997151B1 (en) * | 2016-01-20 | 2018-06-12 | Amazon Technologies, Inc. | Multichannel acoustic echo cancellation for wireless applications |
-
2017
- 2017-10-13 EP EP17196416.6A patent/EP3393140A1/en not_active Withdrawn
-
2018
- 2018-04-19 RU RU2019137027A patent/RU2735131C1/ru active
- 2018-04-19 JP JP2019556955A patent/JP7003153B2/ja active Active
- 2018-04-19 WO PCT/EP2018/060006 patent/WO2018193028A1/en active Search and Examination
- 2018-04-19 CA CA3060916A patent/CA3060916C/en active Active
- 2018-04-19 CN CN201880039692.7A patent/CN110915233B/zh active Active
- 2018-04-19 EP EP18719516.9A patent/EP3613220B1/en active Active
- 2018-04-19 BR BR112019021967A patent/BR112019021967A2/pt unknown
- 2018-04-19 KR KR1020197034330A patent/KR102369613B1/ko active IP Right Grant
- 2018-04-19 ES ES18719516T patent/ES2950574T3/es active Active
-
2019
- 2019-10-21 US US16/658,512 patent/US20200051581A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015019185A (ja) | 2013-07-10 | 2015-01-29 | 日本電信電話株式会社 | 音声スイッチ装置、音声スイッチ方法、及びそのプログラム |
JP2015136105A (ja) | 2013-12-27 | 2015-07-27 | ジーエヌ リザウンド エー/エスGn Resound A/S | フィードバック抑制 |
Also Published As
Publication number | Publication date |
---|---|
KR20200015490A (ko) | 2020-02-12 |
BR112019021967A2 (pt) | 2020-05-05 |
WO2018193028A1 (en) | 2018-10-25 |
EP3613220A1 (en) | 2020-02-26 |
KR102369613B1 (ko) | 2022-03-03 |
RU2735131C1 (ru) | 2020-10-28 |
CA3060916A1 (en) | 2018-10-25 |
US20200051581A1 (en) | 2020-02-13 |
JP2020519070A (ja) | 2020-06-25 |
CN110915233A (zh) | 2020-03-24 |
CN110915233B (zh) | 2022-06-24 |
EP3613220B1 (en) | 2023-05-10 |
ES2950574T3 (es) | 2023-10-11 |
EP3393140A1 (en) | 2018-10-24 |
CA3060916C (en) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7003153B2 (ja) | マルチチャネル干渉除去のための装置および方法 | |
KR101331388B1 (ko) | 음향 에코를 제거하기 위한 컴퓨터 구현 프로세스 및 시스템 | |
Kuech et al. | State-space architecture of the partitioned-block-based acoustic echo controller | |
JP5671147B2 (ja) | 後期残響成分のモデリングを含むエコー抑制 | |
TWI458331B (zh) | 用於計算回聲抑制濾波器的控制資訊的裝置和方法,以及用於計算延遲值的裝置和方法 | |
US5568558A (en) | Adaptive noise cancellation device | |
Valero et al. | Multi-microphone acoustic echo cancellation using relative echo transfer functions | |
Gilloire et al. | State of the art in acoustic echo cancellation | |
JP4581114B2 (ja) | 適応型ビーム形成器 | |
Valero et al. | A state-space partitioned-block adaptive filter for echo cancellation using inter-band correlations in the Kalman gain computation | |
CN109379501A (zh) | 一种用于回声消除的滤波方法及装置、设备、介质 | |
US11315543B2 (en) | Pole-zero blocking matrix for low-delay far-field beamforming | |
Kühl et al. | Kalman filter based system identification exploiting the decorrelation effects of linear prediction | |
Valero et al. | On the spatial coherence of residual echoes after STFT-domain multi-microphone acoustic echo cancellation | |
Valero et al. | Coherence-aware stereophonic residual echo estimation | |
Ruiz et al. | Distributed combined acoustic echo cancellation and noise reduction using GEVD-based distributed adaptive node specific signal estimation with prior knowledge | |
EP4016977A1 (en) | Apparatus and method for filtered-reference acoustic echo cancellation | |
Kar et al. | An improved order estimation of MSF for stereophonic acoustic echo cancellation | |
Schwartz et al. | Efficient Joint Bemforming and Acoustic Echo Cancellation Structure for Conference Call Scenarios | |
US20230395090A1 (en) | Method and device for variable pitch echo cancellation | |
Mobeen et al. | Comparison analysis of multi-channel echo cancellation using adaptive filters | |
Enzner et al. | Uncertainty modeling in acoustic echo control | |
Vijayakumar | A subband Kalman filter for echo cancellation | |
Dinakaran | SINGLE CHANNEL SPEECH DEREVERBERATION FOR ACOUSTIC SIGNALS | |
Tandon | Low-complexity adaptive filtering algorithms based on the minimum L [infinity]-norm method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A529 | Written submission of copy of amendment under article 34 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A529 Effective date: 20191216 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191216 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201215 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210202 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20210421 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210730 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211207 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211228 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7003153 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |