JP6075783B2 - Echo canceling apparatus, echo canceling method and program - Google Patents

Echo canceling apparatus, echo canceling method and program Download PDF

Info

Publication number
JP6075783B2
JP6075783B2 JP2013253804A JP2013253804A JP6075783B2 JP 6075783 B2 JP6075783 B2 JP 6075783B2 JP 2013253804 A JP2013253804 A JP 2013253804A JP 2013253804 A JP2013253804 A JP 2013253804A JP 6075783 B2 JP6075783 B2 JP 6075783B2
Authority
JP
Japan
Prior art keywords
wave number
echo
signal
domain
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013253804A
Other languages
Japanese (ja)
Other versions
JP2015115624A (en
Inventor
江村 暁
暁 江村
島内 末廣
末廣 島内
仲 大室
仲 大室
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013253804A priority Critical patent/JP6075783B2/en
Publication of JP2015115624A publication Critical patent/JP2015115624A/en
Application granted granted Critical
Publication of JP6075783B2 publication Critical patent/JP6075783B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephone Function (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Description

本発明は、マルチチャネル拡声通話系において音響エコーを消去する技術に関する。   The present invention relates to a technique for canceling acoustic echo in a multi-channel loudspeaker communication system.

より自然な通話環境を提供できるマルチチャネル拡声型の双方向通信会議システムの開発が、IP通信の高速化・大容量化を背景に、近年進展している。マルチチャネル再生技術も、ステレオ再生から5.1チャネル再生へとチャネル数拡大の方向に進んでいる。しかし、音が高い立体感を持って再生されるリスニングエリアが限られていて、スィートスポット化しており、その外では音の立体感が大幅に低減してしまう。   In recent years, development of a multi-channel loudspeaker type two-way communication conferencing system that can provide a more natural calling environment has progressed against the background of higher speed and higher capacity of IP communication. Multi-channel playback technology is also progressing in the direction of expanding the number of channels from stereo playback to 5.1 channel playback. However, the listening area where the sound is reproduced with a high three-dimensional effect is limited, and it has become a sweet spot, and outside it, the three-dimensional effect of the sound is greatly reduced.

そのため、リスニングエリアの広いマルチチャネル再生技術として、近年Wave Field Synthesis(以下「WFS」と略す)の研究が進められている(非特許文献1参照)。WFSは、ある地点での音波面を取得し、別の地点で再合成する技術である。   Therefore, research on Wave Field Synthesis (hereinafter abbreviated as “WFS”) has recently been advanced as a multi-channel playback technique with a wide listening area (see Non-Patent Document 1). WFS is a technique for acquiring a sound wave surface at a certain point and recombining it at another point.

WFSを双方向映像音声通信会議に適用しようとする場合、快適な通話環境を実現するには、数十〜数百のスピーカから数十〜数百のマイクロホンに音響的に回り込む信号成分(以下「エコー」ともいう)をマイクロホンの収音信号から消去する必要がある。この処理を効率的に行う音響エコーキャンセラアルゴリズムとして、波数領域適応アルゴリズムが提案されている(非特許文献2参照)。この波数領域適応アルゴリズムは、適応フィルタのフィルタ係数を波数領域に持つアルゴリズムである。   When a WFS is applied to a two-way video / audio communication conference, in order to realize a comfortable call environment, a signal component (hereinafter referred to as “sound sneaking” from tens to hundreds of speakers to tens to hundreds of microphones). (Also called “echo”) must be erased from the microphone's collected signal. A wave number domain adaptive algorithm has been proposed as an acoustic echo canceller algorithm that efficiently performs this processing (see Non-Patent Document 2). This wave number domain adaptive algorithm is an algorithm having filter coefficients of an adaptive filter in the wave number domain.

しかしながら、非特許文献2のシミュレーション結果の説明に記されているように、スピーカアレーから再生する波面の放射方向が変わったときに、エコー消去量が急激に劣化する。この状況は、双方向通信において遠隔地で話者が交代して、交代後の話者再生音声の放射方向が交代前の放射方向と異なるケースに対応する。エコー消去量が劣化する理由は、再生波面の放射方向が変化するとエコー消去に波数の異なる適応フィルタ係数が必要になるが、その適応フィルタ係数がほとんど未学習なためである。   However, as described in the explanation of the simulation result of Non-Patent Document 2, when the radiation direction of the wavefront reproduced from the speaker array is changed, the echo cancellation amount rapidly deteriorates. This situation corresponds to a case in which a speaker is switched at a remote place in two-way communication, and the radiation direction of the speaker reproduced voice after the substitution is different from the radiation direction before the substitution. The reason why the echo cancellation amount deteriorates is that when the radiation direction of the reproduction wavefront changes, adaptive filter coefficients having different wave numbers are required for echo cancellation, but the adaptive filter coefficients are almost unlearned.

快適な拡声通話を実現するには、適応フィルタによるエコー経路推定及び消去が十分でない状態において、会話状態によらず迅速に残留エコーを低減する必要がある。特にダブルトーク状態では、送話の品質に影響を与えることなく残留エコーを低減する必要がある。   In order to realize a comfortable voice call, it is necessary to quickly reduce the residual echo regardless of the conversation state in a state where the echo path estimation and cancellation by the adaptive filter is not sufficient. Especially in the double talk state, it is necessary to reduce the residual echo without affecting the quality of transmission.

そのような方法として、波数領域で誤差信号に含まれる残留エコーを推定し、消去する方法が非特許文献3で提案されている。   As such a method, Non-Patent Document 3 proposes a method of estimating and canceling a residual echo included in an error signal in the wave number domain.

J. Berkhout, D de Vries, and P. Vogel, "Acoustic Control by wave field synthesis", Journal of Acoustic Society of America, 1993, vol.93, no.5, p.2764-2778J. Berkhout, D de Vries, and P. Vogel, "Acoustic Control by wave field synthesis", Journal of Acoustic Society of America, 1993, vol.93, no.5, p.2764-2778 M. Schneider, W. Kellermann, "A Wave-domain model for acoustic MIMO systems with reduced complexity", 2012, 2011 Joint Workshop on Hands-free Speech Communication and Microphone arrays, pp.133-138M. Schneider, W. Kellermann, "A Wave-domain model for acoustic MIMO systems with reduced complexity", 2012, 2011 Joint Workshop on Hands-free Speech Communication and Microphone arrays, pp.133-138 S. Emura et. al., "Posterior residual echo cancellation and its complexity reduction in the wave domain, Acoustic Signal Enhancement", Proceedings of IWAENC 2012, 2012, International Workshop on.S. Emura et.al., "Posterior residual echo cancellation and its complexity reduction in the wave domain, Acoustic Signal Enhancement", Proceedings of IWAENC 2012, 2012, International Workshop on.

しかし、受聴エリアを広げるために再生音量を大きくしたり、収音エリアを広げるためにマイクゲインを大きくしたりするためには、残留エコー消去の性能をさらに向上させる必要がある。   However, in order to increase the playback volume in order to expand the listening area and increase the microphone gain in order to expand the sound collection area, it is necessary to further improve the performance of residual echo cancellation.

残留エコーには、反射等によらない直接波によるものと、直接波以外の反射波等によるもの(拡散残留エコー)とが含まれる。非特許文献3の方法は、ベースとして使用するモデルのために、直接波による残留エコーのみが対象になる。   Residual echoes include those based on direct waves that do not depend on reflections, and those based on reflected waves other than direct waves (diffuse residual echoes). Since the method of Non-Patent Document 3 is a model used as a base, only a residual echo due to a direct wave is targeted.

本発明は、拡散残留エコーも対象とすることで、残留エコーを従来法以上に低減させるエコー消去技術の提供を目的とする。   An object of the present invention is to provide an echo cancellation technique for reducing the residual echo more than the conventional method by targeting the diffuse residual echo.

上記の課題を解決するために、本発明の第一の態様によれば、エコー消去装置は、Pを2以上の整数とし、P個のスピーカとP個のマイクロホンとが共通の音場に配置され、スピーカから受話信号を再生した際にエコー経路を経てマイクロホンに回り込むエコーを消去する。エコー消去装置は、マイクロホンで収音される収音信号を波数領域に変換した信号と波数領域の受話信号とを用いて、波数領域の収音信号に含まれる拡散残留エコーを推定し、波数領域の収音信号から推定した拡散残留エコーを消去する波数領域拡散残留エコー推定消去部を含む。波数領域拡散残留エコー推定消去部は、波数毎の受話信号を要素とするP次元のベクトルである受話信号ベクトルXとその複素共役かつ転置とを用いてP×P行列であるパワースペクトル行列を算出し、波数毎の収音信号を要素とするP次元のベクトルである収音信号ベクトルと受話信号ベクトルXの複素共役かつ転置とを用いてP×P行列であるクロススペクトル行列を算出する圧縮入出力相関係数算出部と、パワースペクトル行列とクロススペクトル行列とを用いて、受話信号と収音信号との入出力伝達特性の推定値を要素とするP×P行列である入出力伝達特性行列を求める圧縮入出力伝達特性推定部と、受話信号ベクトルXに入出力伝達特性行列を乗じて、波数毎の拡散残留エコーの推定値を要素とするP次元のベクトルである拡散残留エコーベクトルを求める拡散残留エコー推定部と、波数領域の収音信号と波数領域の拡散残留エコーの推定値との差分を求める減算部とを含む。   In order to solve the above-described problem, according to the first aspect of the present invention, the echo canceller is configured such that P is an integer equal to or greater than 2, and P speakers and P microphones are arranged in a common sound field. Then, when the received signal is reproduced from the speaker, the echo that goes around the microphone via the echo path is deleted. The echo canceller estimates the diffuse residual echo contained in the sound signal collected in the wave number domain using the signal obtained by converting the sound signal collected by the microphone into the wave number domain and the received signal in the wave number domain. A wave number domain residual echo estimation canceling unit that cancels the diffuse residual echo estimated from the collected sound signal. The wave number domain diffuse residual echo estimation / erasing unit calculates a power spectrum matrix that is a P × P matrix using the received signal vector X, which is a P-dimensional vector having received signal for each wave number as an element, and its complex conjugate and transpose. Then, a compression input for calculating a cross spectrum matrix which is a P × P matrix using a complex conjugate and transpose of a sound pickup signal vector which is a P-dimensional vector having a sound pickup signal for each wave number as an element and a received signal vector X An input / output transfer characteristic matrix which is a P × P matrix having an estimated value of input / output transfer characteristics of the received signal and the collected sound signal as elements using an output correlation coefficient calculation unit, a power spectrum matrix and a cross spectrum matrix A compression input / output transfer characteristic estimator for obtaining a spread residual which is a P-dimensional vector obtained by multiplying the received signal vector X by an input / output transfer characteristic matrix and having an estimated value of a diffuse residual echo for each wave number as an element. Comprising a diffusion residual echo estimator for determining an echo vector, and a subtraction unit for obtaining a difference between the estimated value of the diffusion residual echo between the picked-up signal and the wavenumber region of wavenumbers region.

上記の課題を解決するために、本発明の第二の態様によれば、エコー消去装置は、Pを2以上の整数とし、P個のスピーカとP個のマイクロホンとが共通の音場に配置され、スピーカから受話信号を再生した際にエコー経路を経てマイクロホンに回り込むエコーを消去する。エコー消去装置は、マイクロホンで収音される収音信号を波数領域に変換した信号と波数領域の受話信号とを用いて、波数領域の収音信号に含まれる拡散残留エコーを推定し、波数領域の収音信号から推定した拡散残留エコーを消去する波数領域拡散残留エコー推定消去部を含む。波数領域拡散残留エコー推定消去部は、P’<Pとし、P’×P行列である圧縮行列Wを用いて、波数毎の受話信号を要素とするP次元のベクトルである受話信号ベクトルXを、P’次元の圧縮ベクトルZに圧縮する入力次元圧縮部と、圧縮ベクトルZを圧縮行列Wの複素共役転置行列で伸長したP次元のベクトルと、受話信号ベクトルXとの差が最小になるように、圧縮行列Wを更新する次元圧縮行列更新部と、圧縮ベクトルZとその複素共役かつ転置とを用いてP’×P’行列であるパワースペクトル行列を算出し、波数毎の収音信号を要素とするP次元のベクトルである収音信号ベクトルと圧縮ベクトルZの複素共役かつ転置とを用いてP×P’行列であるクロススペクトル行列を算出する圧縮入出力相関係数算出部と、パワースペクトル行列とクロススペクトル行列とを用いて、受話信号と収音信号との入出力伝達特性の推定値を要素とするP×P’行列である入出力伝達特性行列を求める圧縮入出力伝達特性推定部と、圧縮ベクトルZに入出力伝達特性行列を乗じて、波数毎の拡散残留エコーの推定値を要素とするP次元のベクトルである拡散残留エコーベクトルを求める拡散残留エコー推定部と、波数領域の収音信号と波数領域の拡散残留エコーの推定値との差分を求める減算部とを含む。   In order to solve the above problems, according to a second aspect of the present invention, an echo canceller is configured such that P is an integer equal to or greater than 2, and P speakers and P microphones are arranged in a common sound field. Then, when the received signal is reproduced from the speaker, the echo that goes around the microphone via the echo path is deleted. The echo canceller estimates the diffuse residual echo contained in the sound signal collected in the wave number domain using the signal obtained by converting the sound signal collected by the microphone into the wave number domain and the received signal in the wave number domain. A wave number domain residual echo estimation canceling unit that cancels the diffuse residual echo estimated from the collected sound signal. The wave number domain diffusion residual echo estimation elimination unit sets P ′ <P, and uses a compression matrix W that is a P ′ × P matrix to obtain a received signal vector X that is a P-dimensional vector having received signals for each wave number as elements. The difference between the received signal vector X and the input dimension compression unit that compresses the compressed vector Z into the P′-dimensional compressed vector Z, the P-dimensional vector obtained by expanding the compressed vector Z with the complex conjugate transpose matrix of the compression matrix W, and Next, a power spectrum matrix which is a P ′ × P ′ matrix is calculated using a dimensional compression matrix updating unit for updating the compression matrix W, a compressed vector Z and its complex conjugate and transposition, and a sound collected signal for each wave number is calculated. A compression input / output correlation coefficient calculating unit that calculates a cross spectrum matrix that is a P × P ′ matrix by using a complex conjugate and transpose of a sound pickup signal vector that is a P-dimensional vector as an element and a compression vector Z; Spect Compressed input / output transfer characteristic estimator for obtaining an input / output transfer characteristic matrix which is a P × P ′ matrix having an estimated value of the input / output transfer characteristics of the received signal and the collected sound signal as elements using the matrix and the cross spectrum matrix A diffusion residual echo estimator that multiplies the compression vector Z by an input / output transfer characteristic matrix to obtain a diffusion residual echo vector that is a P-dimensional vector whose element is an estimated value of diffusion residual echo for each wave number; A subtractor for obtaining a difference between the collected sound signal and an estimated value of the diffuse residual echo in the wave number domain.

上記の課題を解決するために、本発明の第三の態様によれば、エコー消去方法は、Pを2以上の整数とし、P個のスピーカとP個のマイクロホンとが共通の音場に配置され、スピーカから受話信号を再生した際にエコー経路を経てマイクロホンに回り込むエコーを消去する。エコー消去方法は、マイクロホンで収音される収音信号を波数領域に変換した信号と波数領域の受話信号とを用いて、波数領域の収音信号に含まれる拡散残留エコーを推定し、波数領域の収音信号から推定した拡散残留エコーを消去する波数領域拡散残留エコー推定消去ステップを含む。波数領域拡散残留エコー推定消去ステップは、波数毎の受話信号を要素とするP次元のベクトルである受話信号ベクトルXとその複素共役かつ転置とを用いてP×P行列であるパワースペクトル行列を算出し、波数毎の収音信号を要素とするP次元のベクトルである収音信号ベクトルと受話信号ベクトルXの複素共役かつ転置とを用いてP×P行列であるクロススペクトル行列を算出する圧縮入出力相関係数算出ステップと、パワースペクトル行列とクロススペクトル行列とを用いて、受話信号と収音信号との入出力伝達特性の推定値を要素とするP×P行列である入出力伝達特性行列を求める圧縮入出力伝達特性推定ステップと、受話信号ベクトルXに入出力伝達特性行列を乗じて、波数毎の拡散残留エコーの推定値を要素とするP次元のベクトルである拡散残留エコーベクトルを求める拡散残留エコー推定ステップと、波数領域の収音信号と波数領域の拡散残留エコーの推定値との差分を求める減算ステップとを含む。   In order to solve the above-described problem, according to a third aspect of the present invention, an echo canceling method is such that P is an integer equal to or greater than 2, and P speakers and P microphones are arranged in a common sound field. Then, when the received signal is reproduced from the speaker, the echo that goes around the microphone via the echo path is deleted. The echo cancellation method estimates the diffuse residual echo contained in the collected sound signal in the wave number domain using the signal obtained by converting the collected sound signal collected by the microphone into the wave number domain and the received signal in the wave number domain. A wave number domain diffuse residual echo estimation canceling step for canceling the diffuse residual echo estimated from the collected sound signal. The wave number domain diffusion residual echo estimation elimination step calculates a power spectrum matrix that is a P × P matrix using the received signal vector X, which is a P-dimensional vector whose elements are received signals for each wave number, and its complex conjugate and transpose. Then, a compression input for calculating a cross spectrum matrix which is a P × P matrix using a complex conjugate and transpose of a sound pickup signal vector which is a P-dimensional vector having a sound pickup signal for each wave number as an element and a received signal vector X An input / output transfer characteristic matrix which is a P × P matrix whose elements are estimated values of input / output transfer characteristics of the received signal and the collected sound signal using the output correlation coefficient calculating step, the power spectrum matrix and the cross spectrum matrix A compression input / output transfer characteristic estimation step for obtaining the received signal vector X by multiplying the input / output transfer characteristic matrix by an input / output transfer characteristic matrix, Comprising a diffusion residual echo estimation step of obtaining a diffusion residual echo vector is Torr, and a subtraction step of obtaining a difference between the estimated value of the diffusion residual echo between the picked-up signal and the wavenumber region of wavenumbers region.

上記の課題を解決するために、本発明の第四の態様によれば、エコー消去方法は、Pを2以上の整数とし、P個のスピーカとP個のマイクロホンとが共通の音場に配置され、スピーカから受話信号を再生した際にエコー経路を経てマイクロホンに回り込むエコーを消去する。エコー消去方法は、マイクロホンで収音される収音信号を波数領域に変換した信号と波数領域の受話信号とを用いて、波数領域の収音信号に含まれる拡散残留エコーを推定し、波数領域の収音信号から推定した拡散残留エコーを消去する波数領域拡散残留エコー推定消去ステップを含む。波数領域拡散残留エコー推定消去ステップは、P’<Pとし、P’×P行列である圧縮行列Wを用いて、波数毎の受話信号を要素とするP次元のベクトルである受話信号ベクトルXを、P’次元の圧縮ベクトルZに圧縮する入力次元圧縮ステップと、圧縮ベクトルZを圧縮行列Wの複素共役転置行列で伸長したP次元のベクトルと、受話信号ベクトルXとの差が最小になるように、圧縮行列Wを更新する次元圧縮行列更新ステップと、圧縮ベクトルZとその複素共役かつ転置とを用いてP’×P’行列であるパワースペクトル行列を算出し、波数毎の収音信号を要素とするP次元のベクトルである収音信号ベクトルと圧縮ベクトルZの複素共役かつ転置とを用いてP×P’行列であるクロススペクトル行列を算出する圧縮入出力相関係数算出ステップと、パワースペクトル行列とクロススペクトル行列とを用いて、受話信号と収音信号との入出力伝達特性の推定値を要素とするP×P’行列である入出力伝達特性行列を求める圧縮入出力伝達特性推定ステップと、圧縮ベクトルZに入出力伝達特性行列を乗じて、波数毎の拡散残留エコーの推定値を要素とするP次元のベクトルである拡散残留エコーベクトルを求める拡散残留エコー推定ステップと、波数領域の収音信号と波数領域の拡散残留エコーの推定値との差分を求める減算ステップとを含む。   In order to solve the above-described problem, according to a fourth aspect of the present invention, an echo canceling method uses P as an integer of 2 or more, and P speakers and P microphones are arranged in a common sound field. Then, when the received signal is reproduced from the speaker, the echo that goes around the microphone via the echo path is deleted. The echo cancellation method estimates the diffuse residual echo contained in the collected sound signal in the wave number domain using the signal obtained by converting the collected sound signal collected by the microphone into the wave number domain and the received signal in the wave number domain. A wave number domain diffuse residual echo estimation canceling step for canceling the diffuse residual echo estimated from the collected sound signal. The wave number domain diffusion residual echo estimation erasure step sets P ′ <P, and uses a compression matrix W that is a P ′ × P matrix to obtain a received signal vector X that is a P-dimensional vector having received signals for each wave number as elements. The difference between the received signal vector X and the input dimension compression step for compressing the compressed vector Z into the P′-dimensional compressed vector Z, the P-dimensional vector obtained by expanding the compressed vector Z with the complex conjugate transpose matrix of the compression matrix W, and the received signal vector X is minimized. Then, a power spectrum matrix that is a P ′ × P ′ matrix is calculated using a dimension compression matrix update step for updating the compression matrix W, and the compression vector Z and its complex conjugate and transposition, and a sound collected signal for each wave number is calculated. A compression input / output correlation coefficient calculation unit for calculating a cross spectrum matrix that is a P × P ′ matrix using a complex conjugate and transpose of a sound pickup signal vector that is a P-dimensional vector as an element and a compression vector Z And an input / output transfer characteristic matrix which is a P × P ′ matrix whose elements are estimated values of the input / output transfer characteristics of the received signal and the collected sound signal using the power spectrum matrix and the cross spectrum matrix. Input / output transfer characteristic estimation step, and diffusion residual echo estimation for multiplying the compression vector Z by an input / output transfer characteristic matrix to obtain a diffuse residual echo vector which is a P-dimensional vector having an estimated value of diffuse residual echo for each wave number as an element And a subtracting step for obtaining a difference between the collected sound signal in the wave number domain and the estimated value of the diffuse residual echo in the wave number domain.

本発明によれば、従来法以上に残留エコーを低減することができるという効果を奏する。   According to the present invention, it is possible to reduce the residual echo more than the conventional method.

マルチチャネル通信会議システムにおけるエコー消去装置の配置例を示す図。The figure which shows the example of arrangement | positioning of the echo cancellation apparatus in a multichannel communication conference system. エコー消去装置100の機能ブロック図Functional block diagram of the echo canceller 100 エコー消去装置100の処理フローを示す図。The figure which shows the processing flow of the echo cancellation apparatus. 波数領域エコーレプリカ生成部の機能ブロック図。The functional block diagram of a wave number domain echo replica production | generation part. フレーム合成を説明するための図。The figure for demonstrating frame composition. 残留エコー消去部の機能ブロック図。The functional block diagram of a residual echo cancellation part. 残留エコー消去部の処理フローを示す図。The figure which shows the processing flow of a residual echo cancellation part. 波数領域残留エコー推定消去部の機能ブロック図。The functional block diagram of the wave number domain residual echo estimation elimination part. 波数領域残留エコー推定消去部の処理フローを示す図。The figure which shows the processing flow of a wave number area | region residual echo estimation elimination part. 波数領域拡散残留エコー推定消去部の機能ブロック図。The functional block diagram of the wave number area | region spreading | diffusion residual echo estimation elimination part. 波数領域拡散残留エコー推定消去部の処理フローを示す図。The figure which shows the processing flow of the wave number area | region spreading | diffusion residual echo estimation elimination part. 波数領域拡散残留エコー推定消去部を単独で用いた場合の残留エコー消去部の機能ブロック図。The functional block diagram of a residual echo cancellation part at the time of using the wave number area | region spreading | diffusion residual echo estimation cancellation part independently. 波数領域拡散残留エコー推定消去部を単独で用いた場合の波数領域拡散残留エコー推定消去部の機能ブロック図。The functional block diagram of the wave number area | region spreading | diffusion residual echo estimation cancellation | release part at the time of using a wave number area | region spreading | diffusion residual echo estimation cancellation | release part independently. 従来法の処理結果を説明するための図。The figure for demonstrating the processing result of a conventional method. 第一実施形態の変形例での処理結果を説明するための図。The figure for demonstrating the processing result in the modification of 1st embodiment.

以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」等は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。   Hereinafter, embodiments of the present invention will be described. In the drawings used for the following description, constituent parts having the same function and steps for performing the same process are denoted by the same reference numerals, and redundant description is omitted. In the following description, the symbol “^” or the like used in the text should be described immediately above the character immediately before, but it is described immediately after the character due to restrictions on text notation. In the formula, these symbols are written in their original positions. Further, the processing performed for each element of a vector or matrix is applied to all elements of the vector or matrix unless otherwise specified.

<第一実施形態のポイント>
第一実施形態では、波数領域において受話信号から拡散残留エコーへの伝達特性を高精度かつ低演算量で推定する手段と、波数領域において誤差信号から拡散残留エコーを差し引く手段とを備える。波数領域の受話信号から波数領域の誤差信号への伝達特性を行列として推定することで拡散残留エコーの推定を高精度化する。さらに、この波数領域の受話信号を圧縮してから推定に使用することで演算量を大幅に圧縮する。この圧縮した受話信号と誤差信号の相関を利用することで残留エコー以外の信号による推定揺らぎを抑える。
<Points of first embodiment>
In the first embodiment, there are provided means for estimating the transfer characteristic from the received signal to the diffuse residual echo in the wave number domain with high accuracy and low computational complexity, and means for subtracting the diffuse residual echo from the error signal in the wave number domain. The estimation of the diffuse residual echo is improved by estimating the transfer characteristic from the received signal in the wave number domain to the error signal in the wave number domain as a matrix. Furthermore, the amount of calculation is greatly reduced by compressing the received signal in the wave number domain and then using it for estimation. By utilizing the correlation between the compressed received signal and the error signal, the estimated fluctuation due to a signal other than the residual echo is suppressed.

<第一実施形態に係るエコー消去装置100>
図1はマルチチャネル通信会議システムにおけるエコー消去装置100の配置例を、図2はエコー消去装置100の機能ブロック図を、図3はその処理フローを示す。
エコー消去装置100を含むマルチチャネル通信会議システムはPチャネルの再生系とPチャネルの収音系からなる。ただし、P≧2である。このマルチチャネル通信会議システムにおいて、P個のスピーカ2とP個のマイクロホン3とが共通の音場に配置される。Pチャネルの受話信号x(p,n)は、スピーカ2で音響信号として再生され、音響エコー経路を経てP個のマイクロホン3にそれぞれ回り込む。この回り込む信号成分が前述のエコーである。ただし、p=1,2,…,Pであり、nは時刻を表すインデックスである。
<Echo Canceling Device 100 according to First Embodiment>
FIG. 1 shows an arrangement example of the echo cancellation apparatus 100 in the multi-channel communication conference system, FIG. 2 shows a functional block diagram of the echo cancellation apparatus 100, and FIG. 3 shows a processing flow thereof.
The multi-channel communication conference system including the echo canceller 100 includes a P-channel playback system and a P-channel sound collection system. However, P ≧ 2. In this multi-channel communication conference system, P speakers 2 p and P microphones 3 p are arranged in a common sound field. P-channel of the received signal x (p, n) is reproduced as an acoustic signal by the loudspeaker 2 p, wraps around each of the P number of microphones 3 p through the acoustic echo path. This signal component that wraps around is the aforementioned echo. Here, p = 1, 2,..., P, and n is an index representing time.

エコー消去装置100は、P個の受話端1のそれぞれを介して受話信号x(p,n)を受け取り、P個のマイクロホン3のそれぞれで収音される収音信号y(p,n)を受け取る。さらに、P個の収音信号y(p,n)のそれぞれからエコーを消去して、送話信号e(3)(p,n)を生成し、送話端4に出力する。 Echo canceller 100 receives the received signal x (p, n) via the respective P-number of the receiving end 1 p, collected signal y (p being picked up by each of the P number of microphones 3 p, n ). Furthermore, to erase the echoes from each of the P number of collected signal y (p, n), and generates a transmission signal e (3) (p, n ), and outputs the transmission terminal 4 p.

エコー消去装置100は、周波数領域変換部11と、波数変換部12と、波数領域エコーレプリカ生成部21と、逆波数変換部31と、時間領域変換部32と、フレーム合成部34と、P個の減算部33と、誤差周波数領域変換部41と、誤差波数変換部42とを含む。なお、エコー消去装置100は、既存技術(例えば非特許文献2参照)を用いて、波数領域適応アルゴリズムを実現する。
さらに、エコー消去装置100は、波数領域で受話信号と誤差信号とから残留エコーを推定し、誤差信号から残留エコーを差し引く残留エコー消去部120を含む。以下、各部の詳細を説明する。
The echo cancellation apparatus 100 includes a frequency domain conversion unit 11, a wave number conversion unit 12, a wave number domain echo replica generation unit 21, an inverse wave number conversion unit 31, a time domain conversion unit 32, a frame synthesis unit 34, and P pieces. of including a subtraction unit 33 p, and the error frequency domain transform section 41, and an error-wavenumber conversion unit 42. Note that the echo cancellation apparatus 100 implements a wavenumber domain adaptive algorithm using existing technology (see, for example, Non-Patent Document 2).
Further, echo canceling apparatus 100 includes a residual echo canceling unit 120 that estimates a residual echo from the received signal and the error signal in the wave number domain and subtracts the residual echo from the error signal. Details of each part will be described below.

<周波数領域変換部11>
周波数領域変換部11は、Pチャネルの時間領域の受話信号x(p,n)を受け取り、チャネルp毎に周波数領域の受話信号X(p,i)に変換し(s1)、P×2F個の周波数領域の受話信号X(p,i)を波数変換部12に出力する。ただし、iはフレーム番号を、2Fは1フレーム内に含まれるサンプル数を、fは周波数のインデックスを表し、f=0,1,…,2F−1である。信号のサンプリング周波数をfとすると、X(p,i)はフレームiにおけるチャネルpの受話信号の周波数ff/2F[Hz]の成分を表す。なお、周波数領域変換の方法としては、高速フーリエ変換(Fast Fourier Transform;以下「FFT」と略す)等が考えられる。
<Frequency domain converter 11>
The frequency domain transform unit 11 receives the received signal x (p, n) in the time domain of the P channel, converts it into a received signal X f (p, i) in the frequency domain for each channel p (s1), and P × 2F The received signal X f (p, i) in the frequency domain is output to the wave number converter 12. However, i represents a frame number, 2F represents the number of samples included in one frame, f represents a frequency index, and f = 0, 1,..., 2F-1. If the sampling frequency of the signal is f S , X f (p, i) represents a component of the frequency f S f / 2F [Hz] of the received signal of channel p in frame i. As a method of frequency domain transformation, Fast Fourier Transform (hereinafter abbreviated as “FFT”) or the like can be considered.

まず、周波数領域変換部11は、受話信号x(p,n)をF/D個受け取る毎に(言い換えると、n=iF/Dの関係になる毎に)、2F個の受話信号x(p,n−2F+1),x(p,n−2F+2),…,x(p,n)を1フレーム分としてブロック化し、フレーム単位の受話信号x(p,i)を得る。ただし、Fは自然数であり、DはFを割り切る自然数である。例えば、
x(p,i)=[x(p,(iF/D)-2F+1),x(p,(iF/D)-2F+2),…,x(p,iF/D)]T (1)
である。ただし、は転置を表す。以下、各信号を1フレーム=2Fサンプル、シフト量F/Dサンプルでブロック化する。FFT計算を簡略化・高速化するために、Fを2のべき乗にとることが多い。以下ではD≧2の場合を示す。
First, the frequency domain transform unit 11 receives 2F received signals x (p every time F / D received signals x (p, n) are received (in other words, every time n = iF / D). , N−2F + 1), x (p, n−2F + 2),..., X (p, n) are blocked for one frame to obtain a received signal x (p, i) in units of frames. However, F is a natural number and D is a natural number that divides F. For example,
x (p, i) = [x (p, (iF / D) -2F + 1), x (p, (iF / D) -2F + 2), ..., x (p, iF / D)] T (1)
It is. However, T represents transposition. Hereinafter, each signal is blocked by 1 frame = 2F samples and shift amount F / D samples. In order to simplify and speed up the FFT calculation, F is often raised to a power of 2. Hereinafter, a case of D ≧ 2 is shown.

さらに、周波数領域変換部11は、フレーム単位の受話信号x(p,i)を、次式のように周波数領域の受話信号X(p,i)に変換する。
X(p,i)=FFT(x(p,i))=[X0(p,i) … Xf(p,i) … X2F-1(p,i)] (2)
なお、受話信号X(p,i)を含め、周波数領域の各信号は短時間スペクトルにより表される。
Further, the frequency domain converting unit 11 converts the received signal x (p, i) in units of frames into a received signal X (p, i) in the frequency domain as shown in the following equation.
X (p, i) = FFT (x (p, i)) = [X 0 (p, i)… X f (p, i)… X 2F-1 (p, i)] (2)
Note that each signal in the frequency domain, including the received signal X (p, i), is represented by a short-time spectrum.

<波数変換部12>
波数変換部12は、P×2F個の周波数領域の受話信号X(p,i)を受け取り、以下の式(3)や(4)により、周波数f毎に波数領域の受話信号X(W) (k,i)に変換し(s3)、P×2F個の波数領域の受話信号X(W) (k,i)を波数領域エコーレプリカ生成部21及び残留エコー消去部120に出力する。ただし、kは波数のインデックスであり、Kを自然数とし、チャネル数Pが偶数でP=2Kのときk=−K+1,−K+2,…,−1,0,1,…,Kであり、チャネル数Pが奇数でP=2K+1のときk=−K,−K+1,…,−1,0,1,…,Kである。
<Wave number converter 12>
The wave number converter 12 receives P × 2F frequency domain received signals X f (p, i), and receives the received signal X (W (W ) in the wave number domain for each frequency f according to the following equations (3) and (4). ) F (k, i) is converted (s3), and P × 2F reception signals X (W) f (k, i) in the wave number domain are output to the wave number domain echo replica generation unit 21 and the residual echo cancellation unit 120 To do. Where k is a wave number index, K is a natural number, K = −K + 1, −K + 2,..., −1, 0, 1,. When the number P is an odd number and P = 2K + 1, k = −K, −K + 1,..., −1, 0, 1,.

(1)チャネル数Pが偶数でP=2Kのとき、
X(W) f(i)=FFT([Xf(1,i) Xf(2,i) … Xf(P,i)])
=[X(W) f(0,i) … X(W) f(k,i) … X(W) f(K,i) X(W) f(-K+1,i) … X(W) f(-1,i)]
(3)
である。
(2)チャネル数Pが奇数でP=2K+1のとき、
X(W) f(i)=FFT([Xf(1,i) Xf(2,i) … Xf(P,i)])
=[X(W) f(0,i) … X(W) f(k,i) … X(W) f(K,i) X(W) f(-K,i) … X(W) f(-1,i)] (4)
である。波数領域への変換は、2のべき乗の点数を持つFFTで高速に行うため、以下、チャネル数Pが偶数の場合(P=2K)について説明を進める。なお、受話信号X(W) (k,i)を含め、波数領域の各信号は短時間スペクトルにより表される。
(1) When the number of channels P is an even number and P = 2K,
X (W) f (i) = FFT ([X f (1, i) X f (2, i)… X f (P, i)])
= [X (W) f (0, i)… X (W) f (k, i)… X (W) f (K, i) X (W) f (-K + 1, i)… X ( W) f (-1, i)]
(3)
It is.
(2) When the number of channels P is odd and P = 2K + 1,
X (W) f (i) = FFT ([X f (1, i) X f (2, i)… X f (P, i)])
= [X (W) f (0, i)… X (W) f (k, i)… X (W) f (K, i) X (W) f (-K, i)… X (W) f (-1, i)] (4)
It is. Since the conversion to the wave number domain is performed at high speed with an FFT having a power of 2, the following description will be given for the case where the number of channels P is an even number (P = 2K). Each signal in the wave number domain including the received signal X (W) f (k, i) is represented by a short-time spectrum.

<波数領域エコーレプリカ生成部21>
波数領域エコーレプリカ生成部21は、P×2F個の波数領域の受話信号X(W) (k,i)とP×2F個の波数領域の誤差信号E(W) (k,i)(詳細は後述する)とを受け取り、これらの値を用いて、f≦Fにおいて、P×(F+1)個の波数領域のエコーレプリカY^(W) (k,i)を生成し、逆波数変換部31に出力する。なお、エコーレプリカとは、収音信号に含まれるエコーを模したものであり、エコーの推定値である。
<Wave number domain echo replica generator 21>
The wave number domain echo replica generation unit 21 receives the received signal X (W) f (k, i) in the P × 2F wave number domain and the error signal E (W) f (k, i) in the P × 2F wave number domain. (Details will be described later), and using these values, P × (F + 1) number of wave number domain echo replicas Y ^ (W) f (k, i) are generated for f ≦ F and vice versa. Output to the wave number converter 31. The echo replica imitates an echo included in the collected sound signal and is an estimated value of the echo.

図4は波数領域エコーレプリカ生成部21の機能ブロック図を示す。波数領域エコーレプリカ生成部21は、修正量算出部211と、フィルタ係数部213と、乗算部215とを含む。   FIG. 4 shows a functional block diagram of the wave number domain echo replica generation unit 21. The wave number domain echo replica generation unit 21 includes a correction amount calculation unit 211, a filter coefficient unit 213, and a multiplication unit 215.

(乗算部215)
波数領域エコーレプリカ生成部21の乗算部215は、P×2F個の波数領域の受話信号X(W) (k,i)を受け取る。また、後述するフィルタ係数部213からP×(F+1)×(2δ+1)個の波数領域のフィルタ係数H(W) (k,k+dk,i)(ただしf≦F)を受け取る。ただし、dk=−δ,−δ+1,…,−1,0,1,…,δ−1,δである。δとして、非特許文献2では1もしくは2が推奨されている。乗算部215は、f≦Fにおいて、次式のように、受話信号X(W) (k,i)にフィルタ係数H(W) (k,k+dk,i)を乗じて、波数領域のエコーレプリカY^(W) (k,i)を生成し(s5)、逆波数変換部31に出力する。
(Multiplier 215)
The multiplication unit 215 of the wave number domain echo replica generation unit 21 receives the received signal X (W) f (k, i) of P × 2F wave number regions. Also, P × (F + 1) × (2δ + 1) filter coefficients H (W) f (k, k + dk, i) (where f ≦ F) are received from a filter coefficient unit 213 described later. However, dk = −δ, −δ + 1,..., −1, 0, 1,. As δ, 1 or 2 is recommended in Non-Patent Document 2. The multiplication unit 215 multiplies the received signal X (W) f (k, i) by the filter coefficient H (W) f (k, k + dk, i) in the wave number domain when f ≦ F. The echo replica Y ^ (W) f (k, i) is generated (s5) and output to the inverse wave number converter 31.

Figure 0006075783
Figure 0006075783

このように波数領域のエコーレプリカY^(W) (k,i)を生成することで、隣接する空間周波数成分を含むことができる。隣接する空間周波数成分を含む必要がない場合には、δ=0として次式により、波数領域のエコーレプリカY^(W) (k,i)を生成してもよい。
Y^(W) f(k,i)=H(W) f(k,k,i)X(W) f(k,i) (6)
なお、修正量算出部211及びフィルタ係数部213の処理については後述する。
By generating the echo replica Y ^ (W) f (k, i) in the wave number domain in this way, adjacent spatial frequency components can be included. If it is not necessary to include adjacent spatial frequency components, an echo replica Y ^ (W) f (k, i) in the wave number domain may be generated by the following equation with δ = 0.
Y ^ (W) f (k, i) = H (W) f (k, k, i) X (W) f (k, i) (6)
The processing of the correction amount calculation unit 211 and the filter coefficient unit 213 will be described later.

<逆波数変換部31>
逆波数変換部31は、P×(F+1)個の波数領域のエコーレプリカY^(W) (k,i)を受け取り(ただしf≦F)、次式のように周波数f毎に周波数領域のエコーレプリカY^(p,i)に変換する(s9)。
[Y^f(1,i) Y^f(2,i) … Y^f(P,i)]
=IFFT([Y^(W) f(0,i)…Y^(W) f(k,i)…Y^(W) f(K,i) Y^(W) f(-K+1,i)…Y^(W) f(-1,i)])
(7)
なお、周波数f>Fについては、実数信号のFFT結果に関する対称性から、次式で周波数領域のエコーレプリカY^(p,i)を求める。
Y^f(p,i)=conj(Y^2F-f(p,i)) (8)
ここで、conj(・)は、・の複素共役をとることを意味する。このようにして求めた合計P×2F個の周波数領域のエコーレプリカY^(p,i)を時間領域変換部32に出力する。なお、逆波数変換方法としては、波数変換部12における波数領域変換方法に対応するものを用いればよい。
<Reverse Wave Number Converter 31>
The inverse wave number conversion unit 31 receives echo replicas Y ^ (W) f (k, i) of P × (F + 1) wave number regions (where f ≦ F), and the frequency region for each frequency f as in the following equation: Is converted to an echo replica Y ^ f (p, i) (S9).
[Y ^ f (1, i) Y ^ f (2, i)… Y ^ f (P, i)]
= IFFT ([Y ^ (W) f (0, i)… Y ^ (W) f (k, i)… Y ^ (W) f (K, i) Y ^ (W) f (-K + 1 , i)… Y ^ (W) f (-1, i)])
(7)
For the frequency f> F, the echo replica Y ^ f (p, i) in the frequency domain is obtained by the following equation from the symmetry regarding the FFT result of the real signal.
Y ^ f (p, i) = conj (Y ^ 2F-f (p, i)) (8)
Here, conj (·) means taking a complex conjugate of •. The total P × 2F frequency domain echo replicas ^ f (p, i) obtained in this way are output to the time domain transform unit 32. As the inverse wave number conversion method, a method corresponding to the wave number domain conversion method in the wave number conversion unit 12 may be used.

<時間領域変換部32>
時間領域変換部32は、P×2F個の周波数領域のエコーレプリカY^(p,i)を受け取り、次式のように、チャネルp毎に周波数領域のエコーレプリカY^(p,i)を逆FFTし、時間領域のエコーレプリカ信号ベクトルy^(p,i)(要素数はF個)に変換する(s9)。
y^(p,i)=[IF 0F]IFFT([Y^0(p,i)…Y^f(p,i)…Y^2F-1(p,i)]) (9)
ここで0はF×Fの零行列、IはF×Fの単位行列である。P個の時間領域のエコーレプリカ信号ベクトルy^(p,i)をフレーム合成部34に出力する。時間領域変換方法としては、周波数領域変換部11における周波数領域変換方法に対応するものを用いればよい。
<Time domain conversion unit 32>
Time domain transforming section 32 receives the echo replica Y ^ f of P × 2F frequency-domain (p, i), the following equation, an echo replica in the frequency domain for each channel p Y ^ f (p, i ) Is subjected to inverse FFT and converted to an echo replica signal vector y ^ (p, i) (the number of elements is F) in the time domain (s9).
y ^ (p, i) = [I F 0 F ] IFFT ([Y ^ 0 (p, i)… Y ^ f (p, i)… Y ^ 2F-1 (p, i)]) (9)
Here, 0 F is an F × F zero matrix, and IF is an F × F unit matrix. P time echo replica signal vectors y ^ (p, i) are output to the frame synthesis unit 34. As the time domain conversion method, a method corresponding to the frequency domain conversion method in the frequency domain conversion unit 11 may be used.

<フレーム合成部34>
フレーム合成部34は、P個の時間領域のエコーレプリカ信号ベクトルy^(p,i)を受け取る。周波数領域変換部11において受話信号x(p,n)をD≧2でフレーム化した場合には、フレーム合成部34は、フレームiで求めたエコーレプリカ信号ベクトルy^(p,i)と一つ前のフレームi−1で求めたエコーレプリカ信号ベクトルy^(p,i−1)とに対して窓かけ処理を行った上で、合成し(s13)、合成後のP個の時間領域のエコーレプリカ信号ベクトルy^’(p,i)をそれぞれP個の減算部33に出力する。
<Frame synthesis unit 34>
The frame synthesizer 34 receives P time-domain echo replica signal vectors y ^ (p, i). When the received signal x (p, n) is framed with D ≧ 2 in the frequency domain transform unit 11, the frame synthesis unit 34 matches the echo replica signal vector y ^ (p, i) obtained in the frame i. A windowing process is performed on the echo replica signal vector y ^ (p, i-1) obtained in the previous frame i-1, and then synthesized (s13), and P time domains after synthesis are performed. The echo replica signal vectors y ^ '(p, i) are output to the P subtracting units 33 p .

D=2の場合、長さF/Dのハニング窓をWとして、合成後の長さF/Dのエコーレプリカ信号ベクトルy^’(p,i)は次式で算出される。この合成の様子を図5に示す。
y^'(p,i-1)=[0F/DIF/D]diag(WH)y^(p,i-1)+[IF/D 0F/D]diag(WH)y^(p,i) (10)
ただし、0F/Dは(F/D)×(F/D)のゼロ行列、IF/Dは(F/D)×(F/D)の単位行列、diag(・)は・を対角成分とし、それ以外が零であるような行列である。
In the case of D = 2, the Hanning window of length F / D is set to WH , and the synthesized echo replica signal vector y ^ '(p, i) of length F / D is calculated by the following equation. The state of this synthesis is shown in FIG.
y ^ '(p, i-1) = [0 F / D I F / D ] diag (W H ) y ^ (p, i-1) + [I F / D 0 F / D ] diag (W H ) y ^ (p, i) (10)
However, 0 F / D is zero matrix, I F / D is a unit matrix of (F / D) × (F / D), diag (·) is a-pair (F / D) × (F / D) The matrix is a corner component and the others are zero.

<減算部33
減算部33は、時間領域のエコーレプリカ信号ベクトルy^’(p,i−1)とマイクロホン3で収音された収音信号y(p,n)とを受け取る。エコーレプリカ信号はフレーム合成のためにF/D遅延している。これを考慮して収音信号y(p,n)を1フレーム=Fサンプル、シフト量F/Dサンプルで
y(p,i-1)=[y(p,((i-1)F/D)-F+1),y(p,((i-1)F/D)-F+2),…,y(p,(i-1)F/D)]T
のようにブロック化し、収音信号ベクトルy(p,i−1)とする。減算部33は、次式のように時間領域の収音信号ベクトルy(p,i−1)から時間領域のエコーレプリカ信号ベクトルy^’(p,i−1)を差し引き(s11)、時間領域の誤差信号ベクトルe(p,i)(要素数はF個)を求め、残留エコー消去部120及び誤差周波数領域変換部41に出力する。
e(p,i)=y(p,i-1)-y^'(p,i-1) (11)
このような構成により、エコー消去装置100は、エコー消去を図る。
<Subtraction unit 33 p >
The subtractor 33 p receives the time-domain echo replica signal vector y ^ ′ (p, i−1) and the collected sound signal y (p, n) collected by the microphone 3 p . The echo replica signal is F / D delayed for frame synthesis. Taking this into consideration, the collected sound signal y (p, n) is 1 frame = F samples, and the shift amount is F / D samples.
y (p, i-1) = (y (p, ((i-1) F / D) -F + 1), y (p, ((i-1) F / D) -F + 2), …, Y (p, (i-1) F / D)] T
And the collected sound signal vector y (p, i-1). The subtractor 33 p subtracts the echo replica signal vector y ^ '(p, i-1) in the time domain from the collected signal vector y (p, i-1) in the time domain as in the following equation (s11), A time domain error signal vector e (p, i) (the number of elements is F) is obtained and output to the residual echo canceling unit 120 and the error frequency domain converting unit 41.
e (p, i) = y (p, i-1) -y ^ '(p, i-1) (11)
With such a configuration, the echo canceller 100 attempts to cancel echo.

<誤差周波数領域変換部41>
誤差周波数領域変換部41は、P個の時間領域の誤差信号ベクトルe(p,i)を受け取り、次式のように、チャネルp毎に時間領域の誤差信号ベクトルe(p,i)に0詰めをしたものを周波数領域に変換し(s15)、P×2F個の周波数領域の誤差信号E(p,i)を誤差波数変換部42に出力する。
<Error frequency domain conversion unit 41>
The error frequency domain transform unit 41 receives P time domain error signal vectors e (p, i), and sets the time domain error signal vector e (p, i) to 0 for each channel p as shown in the following equation. The padding is converted into the frequency domain (s15), and P × 2F frequency domain error signals E f (p, i) are output to the error wave number converter 42.

Figure 0006075783
Figure 0006075783

<誤差波数変換部42>
誤差波数変換部42は、P×2F個の周波数領域の誤差信号E(p,i)を受け取り、次式により、周波数f毎に波数領域の誤差信号E(W) (k,i)に変換し(s17)、P×2F個の波数領域の誤差信号E(W) (k,i)を波数領域エコーレプリカ生成部21に出力する。
E(W) f(p,i)=FFT([Ef(1,i) … Ef(P,i)]
=[E(W) f(0,i) … E(W) f(k,i) … E(W) f(K,i) E(W) f(-K+1,i) … E(W) f(-1,i)]
(13)
<Error wave number converter 42>
The error wave number conversion unit 42 receives P × 2F frequency domain error signals E f (p, i), and uses the following equation to calculate the wave number domain error signal E (W) f (k, i) for each frequency f. (S17), and P × 2F wave number domain error signals E (W) f (k, i) are output to the wave number domain echo replica generation unit 21.
E (W) f (p, i) = FFT ([E f (1, i)… E f (P, i)]
= [E (W) f (0, i)… E (W) f (k, i)… E (W) f (K, i) E (W) f (-K + 1, i)… E ( W) f (-1, i)]
(13)

(修正量算出部211)
波数領域エコーレプリカ生成部21内の修正量算出部211は、P×2F個の波数領域の受話信号X(W) (k,i)とP×2F個の波数領域の誤差信号E(W) (k,i)とを受け取り(図2及び図4参照)、f(f≦F)において、−K+1≦k≦Kの範囲で、次式のように波数領域の適応フィルタのフィルタ係数の修正量dH(W) (k,k+dk,i)(ただし−δ≦dk≦δ)を算出し(s19)、P×(F+1)×(2δ+1)個の修正量dH(W) (k,k+dk,i)をフィルタ係数部213に出力する。
(Correction amount calculation unit 211)
The correction amount calculation unit 211 in the wave number domain echo replica generation unit 21 receives the received signal X (W) f (k, i) in the P × 2F wave number domain and the error signal E (W in the P × 2F wave number domain). ) F (k, i) is received (see FIG. 2 and FIG. 4), and in f (f ≦ F), the filter coefficient of the adaptive filter in the wavenumber domain in the range of −K + 1 ≦ k ≦ K Correction amount dH (W) f (k, k + dk, i) (where −δ ≦ dk ≦ δ) is calculated (s19), and P × (F + 1) × (2δ + 1) correction amounts dH (W) f ( k, k + dk, i) is output to the filter coefficient unit 213.

Figure 0006075783

なお、ρは分母が0になることを防止するための微小な正定数であり、右辺分母中のB(W) (k,i)は修正量dH(W) (k,k+dk,i)を補正しており、
Figure 0006075783

Note that ρ is a minute positive constant for preventing the denominator from becoming 0, and B (W) f (k, i) in the right-side denominator is the correction amount dH (W) f (k, k + dk, i). )

Figure 0006075783

により計算される。B(W) (k,i)は受話信号X(W) (k−δ,i)〜X(W) (k+δ,i)のパワーの総和であり、βはパワー計算で短時間平均をとるための平滑化定数であり、0〜1の値をとる。
Figure 0006075783

Is calculated by B (W) f (k, i) is the sum of the powers of the received signals X (W) f (k−δ, i) to X (W) f (k + δ, i), and β is a short time in the power calculation. This is a smoothing constant for taking an average and takes a value of 0 to 1.

(フィルタ係数部213)
波数領域エコーレプリカ生成部21内のフィルタ係数部213は、P×(F+1)×(2δ+1)個の修正量dH(W) (k,k+dk,i)を受け取り(ただしf≦F)、次式でフィルタ係数H(W) (k,k+dk,i)を更新し(s21)、P×(F+1)×(2δ+1)個の更新後の波数領域のフィルタ係数H(W) (k,k+dk,i+1)を乗算部215に出力する。
H(W) f(k,k+dk,i+1)=H(W) f(k,k+dk,i)+μdH(W) f(k,k+dk,i) (16)
ただし、μは0〜1の値をとるステップサイズである。乗算部215における処理は前述の通りである。
(Filter coefficient part 213)
The filter coefficient unit 213 in the wave number domain echo replica generation unit 21 receives P × (F + 1) × (2δ + 1) correction amounts dH (W) f (k, k + dk, i) (where f ≦ F), The filter coefficient H (W) f (k, k + dk, i) is updated by the equation (s21), and P × (F + 1) × (2δ + 1) wave number domain filter coefficients H (W) f (k, k + dk, i + 1) is output to the multiplier 215.
H (W) f (k, k + dk, i + 1) = H (W) f (k, k + dk, i) + μdH (W) f (k, k + dk, i) (16)
However, μ is a step size taking a value of 0-1. The processing in the multiplication unit 215 is as described above.

<残留エコー消去部120>
残留エコー消去部120は、P×2F個の波数領域の受話信号X(W) (k,i)と、P個の時間領域の誤差信号ベクトルe(p,i)とを受け取り、波数領域の誤差信号に含まれる残留エコーを推定し、波数領域の誤差信号から推定した残留エコーを消去し(s23)、P個の時間領域の送話信号e(3)(p,n)を出力する。
<Residual echo canceller 120>
The residual echo canceling unit 120 receives the received signal X (W) f (k, i) in the P × 2F wave number domain and the error signal vector e (p, i) in the P time domain, and receives the wave number domain. Is estimated, the residual echo estimated from the error signal in the wave number domain is deleted (s23), and P time transmission signals e (3) (p, n) are output. .

図6は残留エコー消去部120の機能ブロック図を、図7はその処理フローを示す。残留エコー消去部120は、周波数領域変換部121と、波数変換部122と、波数領域残留エコー推定消去部1231と、波数領域拡散残留エコー推定消去部1232と、逆波数変換部124と、時間領域変換部125と、フレーム合成部126とを含む。残留エコーには、反射等によらない直接波によるものと、直接波以外の反射波等によるもの(拡散残留エコー)とが含まれる。残留エコー消去部120では、直接波による残留エコーを波数領域残留エコー推定消去部1231で、拡散残留エコーを波数領域拡散残留エコー推定消去部1232でそれぞれ推定し、消去する。以下、処理の詳細を説明する。   FIG. 6 is a functional block diagram of the residual echo canceling unit 120, and FIG. 7 shows its processing flow. The residual echo cancellation unit 120 includes a frequency domain conversion unit 121, a wave number conversion unit 122, a wave number domain residual echo estimation cancellation unit 1231, a wave number domain diffuse residual echo estimation cancellation unit 1232, an inverse wave number conversion unit 124, a time domain A conversion unit 125 and a frame synthesis unit 126 are included. Residual echoes include those based on direct waves that do not depend on reflections, and those based on reflected waves other than direct waves (diffuse residual echoes). In the residual echo canceling unit 120, the residual echo due to the direct wave is estimated by the wave number domain residual echo estimation canceling unit 1231 and the diffuse residual echo is estimated by the wave number domain residual residual echo estimation canceling unit 1232 and erased. Details of the processing will be described below.

(周波数領域変換部121)
周波数領域変換部121は、P個の時間領域の誤差信号ベクトルe(p,i)を受け取り、次式のように、チャネルp毎にフレームiにおける誤差信号ベクトルe(p,i)と一つ前のフレームi−1における誤差信号ベクトルe(p,i−1)とを用いて、周波数領域の誤差信号E(1) (p,i)に変換し(s231)、P×2F個の周波数領域の誤差信号E(1) (p,i)を波数変換部122に出力する。例えば、周波数領域変換部11と同様の方法により周波数領域に変換する。
E(1)(p,i)=FFT([eT(p,i-1),eT(p,i)])=[E(1) 0(p,i) … E(1) f(p,i) … E(1) 2F-1(p,i)]
(17)
(Frequency domain transform unit 121)
The frequency domain transform unit 121 receives P time domain error signal vectors e (p, i), and one error signal vector e (p, i) in the frame i for each channel p as shown in the following equation. Using the error signal vector e (p, i−1) in the previous frame i−1, the error signal is converted into a frequency domain error signal E (1) f (p, i) (s231), and P × 2F The frequency domain error signal E (1) f (p, i) is output to the wave number converter 122. For example, conversion into the frequency domain is performed by a method similar to that of the frequency domain conversion unit 11.
E (1) (p, i) = FFT ([e T (p, i-1), e T (p, i)]) = [E (1) 0 (p, i)… E (1) f (p, i)… E (1) 2F-1 (p, i)]
(17)

(波数変換部122)
波数変換部12は、P×2F個の周波数領域の誤差信号E(1) (p,i)を受け取り、次式により、周波数f毎に波数領域の誤差信号E(W1) (k,i)に変換し(s232)、P×2F個の波数領域の誤差信号E(W1) (k,i)を波数領域残留エコー推定消去部1231に出力する。
E(W1) f(i)=FFT([E(1) f(1,i) E(1) f(2,i) … E(1) f(P,i)])
=[E(W1) f(0,i) … E(W1) f(k,i) … E(W1) f(K,i) E(W1) f(-K+1,i) … E(W1) f(-1,i)]
(18)
(Wave number converter 122)
The wave number converter 12 receives P × 2F frequency domain error signals E (1) f (p, i), and calculates the wave number domain error signal E (W1) f (k, k ) for each frequency f according to the following equation. i) (s232), and P × 2F wave number domain error signals E (W1) f (k, i) are output to the wave number domain residual echo estimation elimination section 1231.
E (W1) f (i) = FFT ([E (1) f (1, i) E (1) f (2, i)… E (1) f (P, i)])
= [E (W1) f (0, i)… E (W1) f (k, i)… E (W1) f (K, i) E (W1) f (-K + 1, i)… E ( W1) f (-1, i)]
(18)

(波数領域残留エコー推定消去部1231)
波数領域残留エコー推定消去部1231は、P×2F個の波数領域の受話信号X(W) (k,i−1)と、P×2F個の波数領域の誤差信号E(W1) (k,i)とを受け取り、これらの値を用いて、f≦Fにおいて、誤差信号E(W1) (k,i)に含まれる直接波による残留エコーを推定し、波数領域の収音信号から推定した直接波による残留エコーを消去し(s2331)、直接波による残留エコーを消去した、P×(F+1)個の波数領域の誤差信号E(W2) (p,i)を求める。なお周波数領域の受話信号として、X(W) (k,i)ではなく、1つ前のX(W) (k,i−1)を用いるのは、エコーレプリカ信号をフレーム合成する際に生じる遅延を考慮に入れているためである。
(Wave number domain residual echo estimation elimination unit 1231)
The wave number domain residual echo estimation elimination unit 1231 receives P × 2F wave number domain received signals X (W) f (k, i−1) and P × 2F wave number domain error signals E (W1) f ( k, i) and using these values, the residual echo due to the direct wave included in the error signal E (W1) f (k, i) is estimated when f ≦ F, and the sound collected signal in the wave number domain is estimated. The residual echo due to the direct wave estimated from (1) is eliminated (s2331), and the error signal E (W2) f (p, i) in the P × (F + 1) wave number domain is obtained by eliminating the residual echo due to the direct wave. Note that the immediately preceding X (W) f (k, i−1) is used as the frequency domain received signal, not X (W) f (k, i), when the echo replica signal is frame-synthesized. This is because the delay caused by the above is taken into consideration.

以下、処理の詳細を説明する。
図8は波数領域残留エコー推定消去部1231の機能ブロック図を、図9はその処理フローを示す。
波数領域残留エコー推定消去部1231は、入出力相関係数算出部12311と、入出力伝達特性推定部12312と、残留エコー推定部12313と、残留エコー補正部12314と減算部12315とを含む。
Details of the processing will be described below.
FIG. 8 is a functional block diagram of the wave number domain residual echo estimation erasing unit 1231, and FIG. 9 shows a processing flow thereof.
Wave number domain residual echo estimation elimination section 1231 includes an input / output correlation coefficient calculation section 12311, an input / output transfer characteristic estimation section 12312, a residual echo estimation section 12313, a residual echo correction section 12314, and a subtraction section 12315.

((入出力相関係数算出部12311))
入出力相関係数算出部12311は、P×2F個の波数領域の受話信号X(W) (k,i−1)とP×2F個の波数領域の誤差信号E(W1) (k,i)とを受け取り、f≦Fにおいて、波数領域の残留エコー信号を出力とする系の伝達特性を推定するために、時刻n=iF/Dにおける波数領域の受話信号X(W) (k,i−1)と波数領域の誤差信号E(W1) (k,i)とから
Pf(k,i)=E[X(W)* f(k,i-1)X(W) f(k,i-1)]
Qf(k,i)=E[X(W)* f(k,i-1)E(W1) f(k,i)] (19)
により、受話信号のパワースペクトルP(k,i)と、受話信号と誤差信号との間のクロススペクトルQ(k,i)とを算出し(s2331a)、入出力伝達特性推定部12312に出力する。ただし、iはフレーム番号であり、時刻nとはn=iF/Dの関係があり、*は複素共役を、E[・]は・の平均をとることを表す。平均処理の一例としては、
E[X(W)* f(k,i-1)X(W) f(k,i-1)]=βE[X(W)* f(k,i-2)X(W) f(k,i-2)]+(1-β)X(W)* f(k,i-1)X(W) f(k,i-1)
のように、1フレーム前の処理結果と0〜1の値をとる平滑化定数βを用いる方法や過去の数〜数十フレームの統計的平均値として求める方法等が考えられる。
((Input / output correlation coefficient calculation unit 12311))
The input / output correlation coefficient calculation unit 12311 receives the received signal X (W) f (k, i−1) in the P × 2F wave number domain and the error signal E (W1) f (k in the P × 2F wave number domain ). , I), and in order to estimate the transfer characteristics of the system that outputs the residual echo signal in the wave number domain at f ≦ F, the received signal X (W) f (in the wave number domain at time n = iF / D k, i−1) and the error signal E (W1) f (k, i) in the wave number domain.
P f (k, i) = E [X (W) * f (k, i-1) X (W) f (k, i-1)]
Q f (k, i) = E [X (W) * f (k, i-1) E (W1) f (k, i)] (19)
Thus, the power spectrum P f (k, i) of the received signal and the cross spectrum Q f (k, i) between the received signal and the error signal are calculated (s2331a), and the input / output transfer characteristic estimating unit 12312 Output. However, i is a frame number, and there is a relationship of n = iF / D with time n, * represents a complex conjugate, and E [•] represents an average of. As an example of the averaging process,
E [X (W) * f (k, i-1) X (W) f (k, i-1)] = βE [X (W) * f (k, i-2) X (W) f ( k, i-2)] + (1-β) X (W) * f (k, i-1) X (W) f (k, i-1)
As described above, a method using a processing result of one frame before and a smoothing constant β that takes a value of 0 to 1 or a method of obtaining a statistical average value of past several to several tens of frames can be considered.

((入出力伝達特性推定部12312))
入出力伝達特性推定部12312は、P×(F+1)個のパワースペクトルP(k,i)とP×(F+1)個のクロススペクトルQ(k,i)とを受け取り、f(f≦F)において、パワースペクトルP(k,i)及びクロススペクトルQ(k,i)から
((Input / output transfer characteristic estimation unit 12312))
The input / output transfer characteristic estimation unit 12312 receives P × (F + 1) power spectra P f (k, i) and P × (F + 1) cross spectra Q f (k, i), and receives f (f ≦ f F), from the power spectrum P f (k, i) and the cross spectrum Q f (k, i)

Figure 0006075783

により、受話信号と誤差信号との入出力伝達特性を推定し(s2331b)、推定値G’(k,i)を残留エコー推定部12313に出力する。
Figure 0006075783

Thus, the input / output transfer characteristics between the received signal and the error signal are estimated (s2331b), and the estimated value G ′ f (k, i) is output to the residual echo estimator 12313.

また、次式により推定値G’(k,i)を平滑化し、平滑化した推定値G(k,i)を残留エコー推定部12313に出力してもよい。 Further, the estimated value G ′ f (k, i) may be smoothed by the following equation, and the smoothed estimated value G f (k, i) may be output to the residual echo estimating unit 12313.

Figure 0006075783

本実施形態では、平滑化した推定値G(k,i)を出力するものとする。ここで、βは、入出力伝達特性の推定値を平滑化するための定数であり、0〜1の間の値をとる。
Figure 0006075783

In the present embodiment, it is assumed that a smoothed estimated value G f (k, i) is output. Here, beta 2 are constants for smoothing the estimate of the input-output transfer characteristic, it takes a value between 0 and 1.

((残留エコー推定部12313))
残留エコー推定部12313は、P×(F+1)個の波数領域の受話信号X(W) (k,i−1)と、P×(F+1)個の推定値G(k,i)とを受け取り、f(f≦F)において、次式のように、受話信号X(W) (k,i−1)に推定値G(k,i)を乗じて、残留エコーを推定し(s2331c)、推定値ΔE(W1) (k,i)を残留エコー補正部12314に出力する。
ΔE(W1) f(k,i)=Gf(k,i)X(W) f(k,i-1) (21)
((Residual Echo Estimator 12313))
The residual echo estimator 12313 includes P × (F + 1) wave number domain received signals X (W) f (k, i−1), P × (F + 1) estimated values G f (k, i), and Then, at f (f ≦ F), the received signal X (W) f (k, i−1) is multiplied by the estimated value G f (k, i) as shown in the following equation to estimate the residual echo. (S2331c) and the estimated value ΔE (W1) f (k, i) are output to the residual echo correcting unit 12314.
ΔE (W1) f (k, i) = G f (k, i) X (W) f (k, i-1) (21)

((残留エコー補正部12314))
残留エコー補正部12314は、P×(F+1)個の推定値ΔE(W1) (k,i)と、P×2F個の波数領域の誤差信号E(W1) (k,i)とを受け取り、f(f≦F)において、次式で補正し(s2331d)、補正後の残留エコーの推定値ΔEII(W1) (k,i)を減算部12315に出力する。
((Residual echo correction unit 12314))
The residual echo correcting unit 12314 generates P × (F + 1) estimated values ΔE (W1) f (k, i) and P × 2F error signals E (W1) f (k, i). Then, at f (f ≦ F), it is corrected by the following equation (s2331d), and the corrected residual echo estimated value ΔE II (W1) f (k, i) is output to the subtracting unit 12315.

Figure 0006075783

ただし、式中のS(W) (k,i)は、送話信号の推定値であり、次式により算出される。
S(W) f(k,i)=E(W1) f(k,i)-ΔE(W1) f(k,i) (23)
また、Tは各スペクトルの推定の自由度の数であり、入出力相関係数算出部12311においてパワースペクトルP(k,i)及びクロススペクトルQ(k,i)を算出するときのフレーム数が、これにあたる。Mは入力変数の数であり、式(20)の場合にはM=1になる。またF2M,T−2M,alphaは、自由度n=2M、n=T−2MのF分布の100×alpha百分比点である。
Figure 0006075783

However, S (W) f (k, i) in a type | formula is an estimated value of a transmission signal, and is calculated by following Formula.
S (W) f (k, i) = E (W1) f (k, i) -ΔE (W1) f (k, i) (23)
T is the number of degrees of freedom of estimation of each spectrum, and the frame when the input / output correlation coefficient calculation unit 12311 calculates the power spectrum P f (k, i) and the cross spectrum Q f (k, i). This is the number. M is the number of input variables. In the case of equation (20), M = 1. F 2M, T-2M, and alpha are 100 × alpha percentage points of F distribution with n 1 = 2M and n 2 = T-2M degrees of freedom.

なお、F分布は、統計学で用いられる連続確率分布である。統計的仮説検定の一手法である分散分析において、観測データにおける変動を誤差変動と各要因の変動に分解し、各要因の効果・有意性を判定する際に使用される。   The F distribution is a continuous probability distribution used in statistics. In analysis of variance, which is a method of statistical hypothesis testing, it is used to determine the effect / significance of each factor by breaking the variation in the observed data into error variation and the variation of each factor.

参考文献1によれば、M=1のとき入出力伝達特性推定部12312において推定される入出力伝達特性の推定値G(k,i)の信頼区間は、真値からの比率で According to Reference Document 1, the confidence interval of the input / output transfer characteristic estimation value G f (k, i) estimated by the input / output transfer characteristic estimation unit 12312 when M = 1 is a ratio from the true value.

Figure 0006075783

の幅を持つ。
(参考文献1)J.S.ベンダット、A.G.ピアソル、「ランダムデータの統計的処理」、培風館、1976年、p.194〜197
Figure 0006075783

With a width of
(Reference 1) J. Org. S. Vendat, A.M. G. Pearsol, “Statistical Processing of Random Data”, Baifukan, 1976, p. 194-197

短時間スペクトルに基づく入出力伝達特性推定部12311の推定では、本来よりも送話と残留エコーの相関性を高めに推定しやすく、伝達特性を高めに推定する傾向がある。このことに基づき、上記の補正は残留エコーの信頼区間の下端の値を残留エコーの補正値としている。   In the estimation of the input / output transfer characteristic estimation unit 12311 based on the short-time spectrum, it is easier to estimate the correlation between the transmission and the residual echo than originally, and there is a tendency to estimate the transfer characteristic higher. Based on this, the above correction uses the value of the lower end of the confidence interval of the residual echo as the residual echo correction value.

((減算部12315))
減算部12315は、P×2F個の波数領域の誤差信号E(W1) (k,i)と、P×(F+1)個の波数領域の補正後の残留エコーの推定値ΔEII(W1) (k,i)とを受け取り、f(f≦F)において、次式のように波数領域で誤差信号E(W1) (k,i)から残留エコーの推定値ΔEII(W1) (k,i)を差し引いて(s2331e)、差分E(W2) (k,i)を求め、波数領域拡散残留エコー推定消去部1232に出力する。
E(W2) f(k,i)=E(W1) f(k,i)-ΔEII(W1) f(k,i) (25)
なお、差分E(W2) (k,i)は、誤差信号E(W1) (k,i)から直接波による残留エコーを消去した信号であり、誤差信号E(W2) (k,i)ともいう。
((Subtraction unit 12315))
The subtracting unit 12315 calculates the error signal E (W1) f (k, i) in the P × 2F wave number domain and the estimated value ΔE II (W1) of the residual echo after correction in the P × (F + 1) wave number domain. f (k, i) is received, and at f (f ≦ F), an estimated value ΔE II (W1) f of the residual echo from the error signal E (W1) f (k, i) in the wave number domain as in the following equation: (K, i) is subtracted (s2331e) to obtain a difference E (W2) f (k, i), which is output to the wave number domain diffuse residual echo estimation elimination unit 1232.
E (W2) f (k, i) = E (W1) f (k, i) -ΔE II (W1) f (k, i) (25)
The difference E (W2) f (k, i) is a signal obtained by eliminating the residual echo due to the direct wave from the error signal E (W1) f (k, i), and the error signal E (W2) f (k, i) It is also called i).

(波数領域拡散残留エコー推定消去部1232)
波数領域拡散残留エコー推定消去部1232は、P×2F個の波数領域の受話信号X(W) (k,i−2)と、P×(F+1)個の波数領域の誤差信号E(W2) (k,i)とを受け取り、これらの値を用いて、f≦Fにおいて、誤差信号E(W2) (k,i)に含まれる拡散残留エコーを推定し、波数領域の誤差信号E(W2) (k,i)から推定した拡散残留エコーを消去し、P×(F+1)個の波数領域の送話信号E(W3) (p,i)を求め(s2332)、逆波数変換部124に出力する。
(Wave domain diffuse residual echo estimation elimination unit 1232)
Wave number domain diffuse residual echo estimation elimination section 1232 receives P × 2F received signal X (W) f (k, i−2) in the wave number domain and P × (F + 1) wave number error signal E (W2). ) F (k, i) is received, and using these values, the diffuse residual echo included in the error signal E (W2) f (k, i) is estimated when f ≦ F, and the error signal in the wavenumber domain is estimated. The diffuse residual echo estimated from E (W2) f (k, i) is eliminated, and the transmission signal E (W3) f (p, i) of P × (F + 1) wavenumber regions is obtained (s2332), and the inverse Output to wave number converter 124.

波数領域残留エコー推定消去部1232は、(1)波数領域残留エコー推定消去部1231よりも1フレーム前の受話信号X(W) (k,i−2)を使うこと、(2)受話信号X(W) (k,i−2)をベクトル(以下、波数領域受話信号ベクトルともいい、
X(W) f(i-2)=[X(W) f(0,i-2) … X(W) f(k,i-2) … X(W) f(K,i-2) X(W) f(-K+1,i-2) … X(W) f(-1,i-2)]
とする)として扱うこと、で壁面等で反射して拡散した拡散残留エコーを推定対象としている。以下、処理の詳細を説明する。
The wave number domain residual echo estimation cancellation unit 1232 uses (1) the reception signal X (W) f (k, i−2) one frame before the wave number domain residual echo estimation cancellation unit 1231, and (2) the reception signal. X (W) f (k, i−2) is also referred to as a vector (hereinafter also referred to as a wavenumber domain received signal vector)
X (W) f (i-2) = [X (W) f (0, i-2)… X (W) f (k, i-2)… X (W) f (K, i-2) X (W) f (-K + 1, i-2)… X (W) f (-1, i-2)]
In this case, a diffuse residual echo reflected and diffused by a wall surface or the like is used as an estimation target. Details of the processing will be described below.

図10は波数領域拡散残留エコー推定消去部1232の機能ブロック図を、図11はその処理フローを示す。   FIG. 10 is a functional block diagram of the wave number domain diffuse residual echo estimation erasing unit 1232, and FIG.

波数領域拡散残留エコー推定消去部1232は、入力次元圧縮部12320と、次元圧縮行列更新部12326と、圧縮入出力相関係数算出部12321と、圧縮入出力伝達特性推定部12322と、拡散残留エコー推定部12323と、拡散残留エコー補正部12324と減算部12325とを含む。   Wave number domain diffusion residual echo estimation elimination section 1232 includes input dimension compression section 12320, dimension compression matrix update section 12326, compression input / output correlation coefficient calculation section 12321, compression input / output transfer characteristic estimation section 12322, and diffusion residual echo. An estimation unit 12323, a diffuse residual echo correction unit 12324, and a subtraction unit 12325 are included.

((入力次元圧縮部12320))
入力次元圧縮部12320は、後述する次元圧縮行列更新部12326で更新された、(F+1)個のP’×Pの圧縮行列W(i−1)と、P×2F個の波数領域の受話信号X(W) (k,i−2)とを受け取る。なお、P×2F個の波数領域の受話信号X(W) (k,i−2)を2F個の波数領域受話信号ベクトルX(W) (i−2)として扱う。入力次元圧縮部12320は、圧縮行列W(i−1)をもちいて、f≦Fにおいて、波数領域受話信号ベクトルX(W) (i−2)を、P’次元の波数領域圧縮ベクトルZ(W) (i−2)に圧縮し(s2332a)、圧縮入出力相関係数算出部12321及び次元圧縮行列更新部12326に出力する。
((Input dimension compression unit 12320))
The input dimension compression unit 12320 receives (F + 1) P ′ × P compression matrices W f (i−1) updated by a dimension compression matrix update unit 12326, which will be described later, and P × 2F wave number domain receptions. The signal X (W) f (k, i−2) is received. The received signal X (W) f (k, i−2) in the P × 2F wave number domain is treated as 2F wave number domain received signal vector X (W) f (i−2). The input dimension compression unit 12320 uses the compression matrix W f (i−1), and in f ≦ F, the wave number domain received signal vector X (W) f (i−2) is converted into a P′-dimensional wave number domain compression vector. Compressed to Z (W) f (i−2) (s2332a), and outputs the result to the compressed input / output correlation coefficient calculation unit 12321 and the dimension compression matrix update unit 12326.

Z(W) f(i-2)=Wf(i-1) X(W) f(i-2)
なお、P’<Pであり、P’の大きさは、Pの大きさは、環境(例えば部屋の広さや反響の程度)により適宜設定すればよく、例えば、Pの1/5〜1/10程度に設定することができる。
Z (W) f (i-2) = W f (i-1) X (W) f (i-2)
It should be noted that P ′ <P, and the size of P ′ may be appropriately set depending on the environment (for example, the size of the room and the degree of reverberation). It can be set to about 10.

((次元圧縮行列更新部12326))
次元圧縮行列更新部12326は、(F+1)個の波数領域圧縮ベクトルZ(W) (i−2)とP×2F個の波数領域の受話信号X(W) (k,i−2)とを受け取る。なお、P×2F個の波数領域の受話信号X(W) (k,i−2)を2F個の波数領域受話信号ベクトルX(W) (i−2)として扱う。次元圧縮行列更新部12326は、f≦Fにおいて、波数領域圧縮ベクトルZ(W) (i−2)を圧縮行列W(i−1)の複素共役転置行列W (i−1)で伸長し、波数領域受話信号ベクトルX(W) (i−2)との差dX(W) (i−2)を求める。・は・の複素共役かつ転置を表わす
dX(W) f(i-2)= X(W) f(i-2) - WH f(i-1) Z(W) f(i-2)
= X(W) f(i-2) - WH f(i-1) Wf(i-1) X(W) f(i-2)
そして、差dX(W) (i−2)の大きさが最小になるように圧縮行列W(i−1)を更新し(s2332g)、更新した圧縮行列W(i)を入力次元圧縮部12320に出力する。
((Dimension compression matrix update unit 12326))
The dimension compression matrix update unit 12326 includes (F + 1) wave number domain compression vectors Z (W) f (i-2) and P × 2F wave number domain received signals X (W) f (k, i−2). And receive. The received signal X (W) f (k, i−2) in the P × 2F wave number domain is treated as 2F wave number domain received signal vector X (W) f (i−2). The dimension compression matrix update unit 12326 converts the wave number domain compression vector Z (W) f (i-2) to the complex conjugate transpose matrix W H f (i-1) of the compression matrix W f (i-1) when f ≦ F. To obtain a difference dX (W) f (i-2) from the wave number domain received signal vector X (W) f (i-2).・H represents the complex conjugate and transpose of
dX (W) f (i-2) = X (W) f (i-2)-W H f (i-1) Z (W) f (i-2)
= X (W) f (i-2)-W H f (i-1) W f (i-1) X (W) f (i-2)
Then, the compression matrix W f (i−1) is updated so that the magnitude of the difference dX (W) f (i−2) is minimized (s2332g), and the updated compression matrix W f (i) is input to the input dimension. The data is output to the compression unit 12320.

この更新には例えば、サブスペース追跡法をもちいることができる。一例として、参考文献2中のOPSA1を使用する際の詳細を以下にしめす。   For this update, for example, a subspace tracking method can be used. As an example, the details when using OPSA1 in Reference 2 are as follows.

波数領域圧縮ベクトルZ(W) (i−2)の自己相関行列RZZ(i−2)の逆行列R−1 ZZ(i−2)を、初期値R−1 ZZ(0)=δ −1Iから繰り返し推定する。ただし、δは非0の正の定数であり、繰り返し推定処理を初めて実行する際の0割を防止する。IはP’×P’単位行列である。またk(i)はP’次元の、V(i)はP次元の中間生成ベクトルである。λは0〜1の間の値をとる忘却定数であり、推定速度を決めるパラメータである。以下のように、圧縮行列W(i)を更新することができる。
k(i) = R-1 ZZ(i-3)Z(W)(i-2)/{λ+Z(W)H(i-3) R-1 ZZ(i-3) Z(W) (i-2)}
R-1 ZZ(i-2) = (1/λ){ R-1 ZZ(i-3)-k(i) Z(W)H(i-2) R-1 ZZ(i-3)}
V(i) = dX(W) f (i-2) - 0.5||dX(W) f (i-2)||2 WH f(i-1)k(i)
Wf(i) = Wf(i-1) + k(i)VH(i)/{1+0.25||dX(W) f (i-2)||2||k(i)||2}
(参考文献2)S.C. Douglas and X. Sun, "Designing orthonormal subspace tracking algorithms", the Thirty-Fourth Asilomar Conference on Signals, Systems and Computers 2000, 2000, vol. 2, pp. 1441--1445.
An inverse matrix R -1 ZZ (i-2) of the autocorrelation matrix R ZZ (i-2) of the wave number domain compression vector Z (W) f (i-2) is set to an initial value R -1 ZZ (0) = δ. It estimates repeatedly from 0 −1 I. However, δ 0 is a non-zero positive constant, and prevents 0% when the iterative estimation process is executed for the first time. I is a P ′ × P ′ identity matrix. K (i) is a P′-dimensional intermediate generation vector, and V (i) is a P-dimensional intermediate generation vector. λ is a forgetting constant that takes a value between 0 and 1, and is a parameter that determines the estimated speed. The compression matrix W f (i) can be updated as follows.
k (i) = R -1 ZZ (i-3) Z (W) (i-2) / {λ + Z (W) H (i-3) R -1 ZZ (i-3) Z (W) (i-2)}
R -1 ZZ (i-2) = (1 / λ) {R -1 ZZ (i-3) -k (i) Z (W) H (i-2) R -1 ZZ (i-3)}
V (i) = dX (W) f (i-2)-0.5 || dX (W) f (i-2) || 2 W H f (i-1) k (i)
W f (i) = W f (i-1) + k (i) V H (i) / {1 + 0.25 || dX (W) f (i-2) || 2 || k (i) | | 2 }
(Reference 2) SC Douglas and X. Sun, "Designing orthonormal subspace tracking algorithms", the Thirty-Fourth Asilomar Conference on Signals, Systems and Computers 2000, 2000, vol. 2, pp. 1441--1445.

((圧縮入出力相関係数算出部12321))
圧縮入出力相関係数算出部12321は、(F+1)個の波数領域圧縮ベクトルZ(W) (i−2)とP×(F+1)個の波数領域の誤差信号E(W2) (k,i)とを受け取る。なお、P×(F+1)個の波数領域の誤差信号E(W2) (k,i)を(F+1)個の波数領域誤差信号ベクトルE(W2) (k,i)(ただし、E(W2) f(i)=[E(W2) f(0,i) … E(W2) f(k,i) … E(W2) f(K,i) E(W2) f(-K+1,i) … E(W2) f(-1,i)])として扱う(ただしf≦F)。圧縮入出力相関係数算出部12321は、f≦Fにおいて、(F+1)個の波数領域圧縮ベクトルZ(W) (i−2)と(F+1)個の波数領域誤差信号ベクトルE(W2) (i)とから圧縮された受話信号のパワースペクトル行列P(2) (i)と、圧縮された受話信号と誤差信号との間のクロススペクトル行列Q(2) (i)とを次式により算出し(s2332b)、圧縮入出力伝達特性推定部12322に出力する。
P(2) f(i)=E[Z(W) f(i-2)Z(W)H f(i-2)]
Q(2) f(i)=E[E(W2) f(i) Z(W)H f(i-2)]
((Compressed input / output correlation coefficient calculation unit 12321))
The compression input / output correlation coefficient calculation unit 12321 includes (F + 1) wave number domain compression vectors Z (W) f (i−2) and P × (F + 1) wave number domain error signals E (W2) f (k , I). Note that the error signal E (W2) f (k, i) in the P × (F + 1) wave number domain is changed to the (F + 1) wave number domain error signal vector E (W2) f (k, i) (where E ( W2) f (i) = [E (W2) f (0, i)… E (W2) f (k, i)… E (W2) f (K, i) E (W2) f (-K + 1 , i)... E (W2) f (-1, i)]) (where f ≦ F). The compression input / output correlation coefficient calculation unit 12321 has (F + 1) wavenumber domain compression vectors Z (W) f (i-2) and (F + 1) wavenumber domain error signal vectors E (W2) when f ≦ F. and f (i) receiving signals compressed from the power spectrum matrix P (2) f (i) , cross-spectral matrix Q between the compressed received signal and the error signal and (2) f (i) It is calculated by the following equation (s2332b) and output to the compression input / output transfer characteristic estimation unit 12322.
P (2) f (i) = E [Z (W) f (i-2) Z (W) H f (i-2)]
Q (2) f (i) = E [E (W2) f (i) Z (W) H f (i-2)]

((圧縮入出力伝達特性推定部12322))
圧縮入出力伝達特性推定部12322は、P’×P’行列であるパワースペクトル行列P(2) (i)とP×P’行列であるクロススペクトル行列Q(2) (i)とを受け取る。なお、各行列は(F+1)個である。圧縮入出力伝達特性推定部12322は、f(f≦F)において、パワースペクトル行列P(2) (i)及びクロススペクトル行列Q(2) (i)から、次式により、入出力伝達特性行列G’(i)を求め(s2332c)、拡散残留エコー推定部12323に出力する。
((Compression input / output transfer characteristic estimation unit 12322))
The compression input / output transfer characteristic estimation unit 12322 calculates a power spectrum matrix P (2) f (i) which is a P ′ × P ′ matrix and a cross spectrum matrix Q (2) f (i) which is a P × P ′ matrix. receive. Each matrix is (F + 1). The compression input / output transfer characteristic estimation unit 12322 calculates the input / output transfer from the power spectrum matrix P (2) f (i) and the cross spectrum matrix Q (2) f (i) according to the following equation at f (f ≦ F). A characteristic matrix G ′ f (i) is obtained (s2332c) and output to the diffuse residual echo estimator 12323.

Figure 0006075783
Figure 0006075783

なお、入出力伝達特性行列G’(i)は、圧縮された受話信号と誤差信号との入出力伝達特性の推定値を要素とするP×P’行列である。受話信号の圧縮では、主成分分析に似た考え方で、波数領域受話信号ベクトル(その要素は各波数成分)を主要な成分(主要なパターン)に分解し、近似する。この各主要成分と、残留エコーの各波数成分との対応が、入出力伝達特性行列G’(i)で記述される。 The input / output transfer characteristic matrix G ′ f (i) is a P × P ′ matrix whose elements are estimated values of the input / output transfer characteristics of the compressed reception signal and error signal. In compression of the received signal, a wave number domain received signal vector (its elements are each wave number component) is decomposed into main components (main patterns) and approximated in a manner similar to principal component analysis. The correspondence between each main component and each wave number component of the residual echo is described by an input / output transfer characteristic matrix G ′ f (i).

また、次式により推定行列G’(i)を平滑化し、平滑化した入出力伝達特性行列G(i)を拡散残留エコー推定部12323に出力してもよい。 Further, the estimation matrix G ′ f (i) may be smoothed by the following equation, and the smoothed input / output transfer characteristic matrix G f (i) may be output to the diffuse residual echo estimation unit 12323.

Figure 0006075783
Figure 0006075783

本実施形態では、平滑化した入出力伝達特性行列G(i)を出力するものとする。ここで、βは、入出力伝達特性の推定値を平滑化するための定数であり、0〜1の間の値をとる。 In this embodiment, a smoothed input / output transfer characteristic matrix G f (i) is output. Here, beta 2 are constants for smoothing the estimate of the input-output transfer characteristic, it takes a value between 0 and 1.

((拡散残留エコー推定部12323))
拡散残留エコー推定部12323は、(F+1)個の波数領域圧縮ベクトルZ(W) (i−2)と、(F+1)個の入出力伝達特性行列G(i)とを受け取り、f(f≦F)において、次式のように、圧縮ベクトルZ(W) (k,i−2)に入出力伝達特性行列G(i)を乗じて、拡散残留エコーベクトルΔE(W2) (i)を求め(s2332d)、拡散残留エコー補正部12324に出力する。
ΔE(W2) f(i)=Gf(i)Z(W) f(i-2)
なお、拡散残留エコーベクトルΔE(W2) (i)は、波数毎の拡散残留エコーの推定値を要素とするP次元のベクトルである。
((Diffusion residual echo estimation unit 12323))
The diffuse residual echo estimator 12323 receives (F + 1) wave number domain compression vectors Z (W) f (i−2) and (F + 1) input / output transfer characteristic matrices G f (i), and receives f ( In f ≦ F), the diffusion residual echo vector ΔE (W2) f is obtained by multiplying the compression vector Z (W) f (k, i−2) by the input / output transfer characteristic matrix G f (i) as in the following equation. (I) is obtained (s2332d) and output to the diffusion residual echo correction unit 12324.
ΔE (W2) f (i) = G f (i) Z (W) f (i-2)
The diffuse residual echo vector ΔE (W2) f (i) is a P-dimensional vector whose element is an estimated value of diffuse residual echo for each wave number.

((拡散残留エコー補正部12324))
拡散残留エコー補正部12324は、(F+1)個の拡散残留エコーベクトルΔE(W2) (i)と、P×(F+1)個の波数領域の誤差信号E(W2) (k,i)とを受け取り、f(f≦F)において、拡散残留エコーベクトルΔE(W2) (i)の各要素ΔE(W2) (k,i)を次式で補正し(s2332e)、補正後の拡散残留エコーの推定値ΔEII(W2) (k,i)を減算部12325に出力する。
((Diffusion residual echo correcting unit 12324))
The diffusion residual echo correction unit 12324 includes (F + 1) diffusion residual echo vectors ΔE (W2) f (i) and P × (F + 1) number of error signals E (W2) f (k, i). In f (f ≦ F), each element ΔE (W2) f (k, i) of the diffusion residual echo vector ΔE (W2) f (i) is corrected by the following equation (s2332e), and the diffusion after the correction The estimated value ΔE II (W2) f (k, i) of the residual echo is output to the subtracting unit 12325.

Figure 0006075783
Figure 0006075783

ただし、式中のS(W2) (k,i)は、送話信号の推定値であり、次式により算出される。
S(W2) f(k,i)=E(W2) f(k,i)-ΔE(W2) f(k,i)
また、Tは各スペクトルの推定の自由度の数であり、圧縮入出力相関係数算出部12321においてパワースペクトル行列P(2) (i)及びクロススペクトル行列Q(2) (i)を算出するときのフレーム数が、これにあたる。Mは入力変数の数であり、式(30)の場合にはM=1になる。またF2M,T−2M,alphaは、自由度n=2M、n=T−2MのF分布の100×alpha百分比点である。
However, S (W2) f (k, i) in a formula is an estimated value of a transmission signal, and is calculated by the following formula.
S (W2) f (k, i) = E (W2) f (k, i) -ΔE (W2) f (k, i)
T is the number of degrees of freedom of estimation of each spectrum, and the compressed input / output correlation coefficient calculation unit 12321 calculates the power spectrum matrix P (2) f (i) and the cross spectrum matrix Q (2) f (i). This is the number of frames when calculating. M is the number of input variables. In the case of equation (30), M = 1. F 2M, T-2M, and alpha are 100 × alpha percentage points of F distribution with n 1 = 2M and n 2 = T-2M degrees of freedom.

((減算部12325))
減算部12325は、P×(F+1)個の波数領域の誤差信号E(W2) (k,i)と、P×(F+1)個の波数領域の補正後の拡散残留エコーの推定値ΔEII(W2) (k,i)とを受け取り、f(f≦F)において、次式のように波数領域で誤差信号E(W2) (k,i)から拡散残留エコーの推定値ΔEII(W2) (k,i)を差し引いて(s2332f)、差分を波数領域の送話信号E(W3) (k,i)として求め、逆波数変換部124に出力する。
E(W3) f(k,i)=E(W2) f(k,i)-ΔEII(W2) f(k,i)
((Subtraction unit 12325))
The subtracting unit 12325 calculates the error signal E (W2) f (k, i) in the P × (F + 1) wave number domain and the estimated value ΔE II of the diffuse residual echo after the correction in the P × (F + 1) wave number domain. (W2) f (k, i) is received, and at f (f ≦ F), an estimated value ΔE II of the diffuse residual echo from the error signal E (W2) f (k, i) in the wave number domain as shown in the following equation: (W2) f (k, i) is subtracted (s2332f), the difference is obtained as a transmission signal E (W3) f (k, i) in the wave number domain, and is output to the inverse wave number converter 124.
E (W3) f (k, i) = E (W2) f (k, i) -ΔE II (W2) f (k, i)

(逆波数変換部124)
逆波数変換部124は、P×(F+1)個の波数領域の送話信号E(W3) (k,i)を受け取り(図6参照)、f(f≦F)において、次式のように周波数f毎に周波数領域の送話信号E(3) (p,i)に変換する(s234)。
[E(3) f(1,i) E(3) f(2,i) … E(3) f(P,i)]
=IFFT([E(W3) f(0,i)…E(W3) f(k,i)…E(W3) f(K,i) E(W3) f(-K+1,i)…E(W3) f(-1,i)])
なお、周波数f>Fについては、実数信号のFFT結果に関する対称性から、次式で周波数領域の送話信号E(3) (p,i)を求める。
E(3) f(p,i)=conj(E(3) 2F-f(p,i))
このようにして求めた合計P×2F個の周波数領域の送話信号E(3) (p,i)を時間領域変換部125に出力する。なお、逆波数変換方法としては、波数変換部122における波数領域変換方法に対応するものを用いればよい。
(Reverse wave number converter 124)
The inverse wave number converter 124 receives the transmission signal E (W3) f (k, i) in the P × (F + 1) wave number domain (see FIG. 6), and at f (f ≦ F), For each frequency f, it is converted into a frequency domain transmission signal E (3) f (p, i) (s234).
[E (3) f (1, i) E (3) f (2, i)… E (3) f (P, i)]
= IFFT ([E (W3) f (0, i)… E (W3) f (k, i)… E (W3) f (K, i) E (W3) f (−K + 1, i)… E (W3) f (-1, i)])
For the frequency f> F, the transmission signal E (3) f (p, i) in the frequency domain is obtained by the following equation from the symmetry regarding the FFT result of the real signal.
E (3) f (p, i) = conj (E (3) 2F-f (p, i))
The total P × 2F frequency domain transmission signals E (3) f (p, i) thus obtained are output to the time domain conversion unit 125. As the inverse wave number conversion method, a method corresponding to the wave number domain conversion method in the wave number conversion unit 122 may be used.

(時間領域変換部125)
時間領域変換部125は、P×2F個の周波数領域の送話信号E(3) (p,i)を受け取り、次式のように、チャネルp毎に周波数領域の送話信号E(3) (p,i)を逆FFTし、時間領域の送話信号ベクトルe(3)(p,i)(要素数は2F個)に変換し(s235)、フレーム合成部126に出力する。
e(3)(p,i)=IFFT([E(3) 0(p,i)…E(3) f(p,i)…E(3) 2F-1(p,i)])
時間領域変換方法としては、周波数領域変換部121における周波数領域変換方法に対応するものを用いればよい。
(Time domain conversion unit 125)
Time domain transform section 125 receives the transmission signal E (3) f (p, i) of P × 2F frequency-domain, the following equation, transmission signal E (3 in the frequency domain for each channel p ) F (p, i) is subjected to inverse FFT, converted into a time domain transmission signal vector e (3) (p, i) (number of elements is 2F) (s235), and output to the frame synthesis unit 126.
e (3) (p, i) = IFFT ([E (3) 0 (p, i)… E (3) f (p, i)… E (3) 2F-1 (p, i)])
As the time domain conversion method, a method corresponding to the frequency domain conversion method in the frequency domain conversion unit 121 may be used.

(フレーム合成部126)
フレーム合成部126は、P個の時間領域の送話信号ベクトルe(3)(p,i)を受け取る。周波数領域変換部121において、受話信号x(p,n)をD≧2でフレーム化した場合には、フレーム合成部126は、フレームiで求めた送話信号e(3)(p,i)と一つ前のフレームi−1で求めた送話信号e(3)(p,i−1)とに対して窓かけ処理を行った上で、合成し(s236)、合成後の送話信号ベクトルe(3)’(p,i)(要素数はF/D個)の要素e(3)(p,n−F/D+1),e(3)(p,n−F/D+2),…,e(3)(p,n)を逐次、エコー消去装置100の出力値として出力する。ただし、n=iF/Dの関係にある。なお、その処理内容は、フレーム合成部34の処理と同等である。
(Frame synthesis unit 126)
The frame synthesizing unit 126 receives P time domain transmission signal vectors e (3) (p, i). When the received signal x (p, n) is framed with D ≧ 2 in the frequency domain transform unit 121, the frame synthesizing unit 126 transmits the transmitted signal e (3) (p, i) obtained in the frame i. And the transmission signal e (3) (p, i-1) obtained in the previous frame i-1 are subjected to windowing processing, synthesized (s236), and the synthesized transmission Element e (3) (p, n−F / D + 1), e (3) (p, n−F / D + 2) of signal vector e (3) ′ (p, i) (number of elements is F / D) ,..., E (3) (p, n) are sequentially output as the output value of the echo canceller 100. However, there is a relationship of n = iF / D. The processing content is the same as the processing of the frame synthesis unit 34.

<変形例>
残留エコー消去部120は、単体でもエコー消去装置として使用することができる。すなわち図2において周波数領域変換部11、波数変換部12、波数領域エコーレプリカ生成部21、逆波数変換部31、時間領域変換部32、フレーム合成部34、P個の減算部33、誤差周波数領域変換部41、誤差波数変換部42から構成される適応フィルタ部分(エコー消去部ともいう)をはずした構成でも使用することができる。その場合、残留エコー消去部120は、誤差信号ベクトルe(p,i)に代えて、収音信号y(p,n)を受け取り、ベクトル化した上で同様の処理を行う。
<Modification>
The residual echo canceling unit 120 can be used alone or as an echo canceling device. That is, in FIG. 2, the frequency domain transform unit 11, the wave number transform unit 12, the wave number domain echo replica generation unit 21, the inverse wave number transform unit 31, the time domain transform unit 32, the frame synthesis unit 34, the P subtraction units 33 p , the error frequency A configuration in which the adaptive filter portion (also referred to as echo canceling portion) composed of the region converting portion 41 and the error wave number converting portion 42 is removed can also be used. In that case, the residual echo canceling unit 120 receives the collected sound signal y (p, n) instead of the error signal vector e (p, i), converts it into a vector, and performs the same processing.

また波数領域残留エコー推定消去部1231において、残留エコー補正部12314をはずしても使用することができる。同様に波数領域拡散残留エコー推定消去部1232において、拡散残留エコー補正部12324をはずしても使用することができる。その場合、各減算部は、補正前の信号を受け取り、同様の処理を行う。   Further, the wave number domain residual echo estimation erasure unit 1231 can be used even if the residual echo correction unit 12314 is removed. Similarly, the wave number domain diffuse residual echo estimation erasure unit 1232 can be used even if the diffuse residual echo correction unit 12324 is removed. In that case, each subtraction unit receives a signal before correction and performs the same processing.

また残留エコー消去部120において、波数領域残留エコー推定消去部1231をはずし、波数領域拡散残留エコー推定消去部1232単独とする構成でも使用できる。この場合、図12および13のように、波数領域拡散残留エコー推定消去部1232の入力が変わる。図12は波数領域拡散残留エコー推定消去部1232を単独で用いた場合の残留エコー消去部120の機能ブロック図を、図13は波数領域拡散残留エコー推定消去部1232の機能ブロック図を示す。受話側信号が、P×2F個の波数領域の受話信号X(W) (k,i−2)からP×2F個の波数領域の受話信号X(W) (k,i−1)に変わる。また波数領域残留エコー推定消去部1231がないため、誤差信号がP×2F個の波数領域の誤差信号E(W2) (k,i)=E(W1) (k,i)になる。この構成は、フレーム長を長くしたために、誤差信号E(W1) (k,i)に受話信号X(W) (k,i−1)の直接成分と反射成分が混在する場合に、有効である。 In the residual echo canceling unit 120, the wave number domain residual echo estimation canceling unit 1231 can be removed and the wave number domain diffuse residual echo estimating canceling unit 1232 can be used alone. In this case, as shown in FIGS. 12 and 13, the input of the wave number domain diffuse residual echo estimation erasure unit 1232 changes. FIG. 12 is a functional block diagram of the residual echo canceling unit 120 when the wave number domain diffuse residual echo estimation canceling unit 1232 is used alone, and FIG. 13 is a functional block diagram of the wave number domain residual residual echo estimating canceling unit 1232. The receiver side signal is received signal X (W) f (k, i−1) from P × 2F wave number domain to received signal X (W) f (k, i−1) of P × 2F wave number domain. Changes to. In addition, since there is no wave number domain residual echo estimation elimination section 1231, the error signal becomes error signal E (W2) f (k, i) = E (W1) f (k, i) of P × 2F wave number domain. In this configuration, when the frame length is increased, the error signal E (W1) f (k, i) includes both the direct component and the reflection component of the received signal X (W) f (k, i-1). It is valid.

さらに、エコー消去部及び波数領域残留エコー推定消去部1231をはずしてもよい。その場合、誤差信号がP×2F個の波数領域の誤差信号E(W2) (k,i)に代えて、収音信号y(p,n)を受け取り、波数領域の収音信号Y(W) (k,i)に変換し、同様の処理を行う。 Further, the echo canceller and the wavenumber domain residual echo estimate canceler 1231 may be removed. In that case, instead of the error signal E (W2) f (k, i) of the error signal P × 2F wave number domain, the collected sound signal y (p, n) is received, and the collected signal Y ( p) of the wave number domain. W) Convert to f (k, i) and perform similar processing.

波数領域においてエコーレプリカを求める方法については、上述の方法以外の既存技術を用いてもよい。また、既存技術を用いて、周波数領域や時間領域においてエコーレプリカを求めてもよい。ただし、時間領域の収音信号から時間領域のエコーレプリカを差し引く構成のほうが、エコー消去の精度が高いことが知られているため、仮に周波数領域においてエコーレプリカを求めた場合も、時間領域に変換した上で、時間領域の収音信号から差し引く構成とすることが望ましい。   As a method for obtaining an echo replica in the wave number domain, an existing technique other than the above-described method may be used. In addition, an echo replica may be obtained in the frequency domain or the time domain using existing technology. However, it is known that subtracting the time-domain echo replica from the time-domain sound pickup signal has higher echo cancellation accuracy, so even if the echo replica is obtained in the frequency domain, it is converted to the time domain. In addition, it is desirable to subtract from the time domain sound pickup signal.

第一実施形態では、チャネル数Pが偶数の場合について説明したが、奇数(P=2K+1)であってもよい。   In the first embodiment, the case where the number of channels P is an even number has been described, but an odd number (P = 2K + 1) may be used.

なお、本実施形態では、入力次元圧縮部12320において、波数領域受話信号ベクトルX(W) (i−2)を、波数領域圧縮ベクトルZ(W) (i−2)に圧縮しているが、必ずしも圧縮する必要はない。その場合、入力次元圧縮部12320以降の処理において、波数領域圧縮ベクトルZ(W) (i−2)に代えて、波数領域受話信号ベクトルX(W) (i−2)を用いればよい。例えば、圧縮入出力相関係数算出部12321では、パワースペクトル行列P(2) f(i)及びクロススペクトル行列Q(2) f(i)をそれぞれ次式及び次々式により求める。
P(2) f(i)=E[X(W) f(i-2)X(W)H f(i-2)]
Q(2) f(i)=E[E(W2) f(i) X(W)H f(i-2)]
この場合、入力次元圧縮部12320及び次元圧縮行列更新部12326をはずしてもよい。また、次元圧縮行列更新部12326の処理をはずし、入力次元圧縮部12320において、圧縮行列W(i−1)に代えて、P×P単位行列を用いる構成としてもよい。このような構成であっても壁面等の反射を考慮に入れて残留エコーを従来法以上に低減することができる。
In the present embodiment, the input dimension compression unit 12320 compresses the wave number domain received signal vector X (W) f (i-2) into a wave number domain compressed vector Z (W) f (i-2). However, it is not always necessary to compress. In that case, in the processing after the input dimension compression unit 12320, the wave number domain received signal vector X (W) f (i-2) may be used instead of the wave number domain compressed vector Z (W) f (i-2). . For example, the compression input / output correlation coefficient calculation unit 12321 obtains the power spectrum matrix P (2) f (i) and the cross spectrum matrix Q (2) f (i) by the following equations and the following equations, respectively.
P (2) f (i) = E [X (W) f (i-2) X (W) H f (i-2)]
Q (2) f (i) = E [E (W2) f (i) X (W) H f (i-2)]
In this case, the input dimension compression unit 12320 and the dimension compression matrix update unit 12326 may be removed. Alternatively, the processing of the dimension compression matrix update unit 12326 may be removed, and the input dimension compression unit 12320 may use a P × P unit matrix instead of the compression matrix W f (i−1). Even in such a configuration, the residual echo can be reduced more than the conventional method in consideration of reflection of the wall surface or the like.

<効果>
従来法では波数領域の受話信号X(W) (i)から波数領域の誤差信号E(W1) (i)への伝達特性を対角行列として推定して、残留エコー消去をはかる。これは波面の直接伝搬のみを考慮して残留エコーを推定することに対応する。
<Effect>
In the conventional method, the transfer characteristic from the received signal X (W) f (i) in the wave number domain to the error signal E (W1) f (i) in the wave number domain is estimated as a diagonal matrix, and residual echo cancellation is performed. This corresponds to estimating the residual echo considering only the direct propagation of the wavefront.

本構成では、波数領域の受話信号X(W) (i)から波数領域の誤差信号E(W2) (i)への伝達特性を行列として推定して、波数領域の拡散残留エコーベクトルを推定し、波数領域誤差信号ベクトルE(W1) (i)から差し引く。これは天井や壁に反射した波面の到来を考慮して残留エコーを推定することに対応する。 In this configuration, the transfer characteristic from the received signal X (W) f (i) in the wave number domain to the error signal E (W2) f (i) in the wave number domain is estimated as a matrix, and the diffusion residual echo vector in the wave number domain is calculated. Estimate and subtract from wave number domain error signal vector E (W1) f (i). This corresponds to estimating the residual echo in consideration of the arrival of the wavefront reflected on the ceiling or wall.

これにより波数領域の適応フィルタによるエコー経路推定及び消去が十分でない状態であっても会話状態によらず、壁面等の反射を考慮に入れて迅速に残留エコーを従来法以上に低減することができるという効果を奏する。   As a result, even if the echo path estimation and cancellation by the adaptive filter in the wave number domain is not sufficient, the residual echo can be reduced more quickly than the conventional method taking into account the reflection of the wall surface etc. regardless of the conversation state. There is an effect.

さらに受話信号の次元圧縮をおこなうことにより、上記残留エコー推定に必要なメモリ量と演算量を減らすことができる。受話信号の相関行列の格納に必要なメモリ量は次元の2乗に比例するため、入力次元をa倍(0<a<1)に圧縮する場合、メモリ量をaに圧縮できる。また残留エコー伝達特性推定における逆行列算出に次元の3乗に比例する演算量を必要とするため、入力次元をa倍(0<a<1)に圧縮すれば、この演算量をaに圧縮できる。 Furthermore, by performing dimensional compression of the received signal, it is possible to reduce the amount of memory and the amount of calculation required for the residual echo estimation. Amount of memory required to store the correlation matrix of the received signals is proportional to the square of the dimension, when compressing input dimension to a times (0 <a <1), can be compressed amount of memory a 2. Also requires a calculation amount proportional to the cube of the dimensions in the inverse matrix calculation in the residual echo transfer characteristic estimate, the input dimension if compressed to a times (0 <a <1), the amount of computation in a 3 It can be compressed.

<シミュレーション結果>
残留エコー消去の効果を検証するために、変形例の構成についてシミュレーションを行った。
エコー消去装置100の構成として、残留エコー消去部120のみを使用した。さらに、内部の波数領域残留エコー推定消去部1231をはずし、さらに波数領域拡散残留エコー推定消去部1232において、拡散残留エコー補正部12324をはずした。また波数領域拡散残留エコー消去部1232では、受話信号を1/4に圧縮する設定とした。相関算出の平滑化定数としてβ=0.98を、圧縮ベクトルの相関行列の逆行列算出の忘却定数としてλ=0.1を、推定した入出力伝達特性の推定にβ=0.1をもちいた。
<Simulation results>
In order to verify the effect of residual echo cancellation, a simulation was performed on the configuration of the modified example.
As the configuration of the echo canceller 100, only the residual echo canceler 120 is used. Further, the internal wave number domain residual echo estimation elimination unit 1231 is removed, and the diffusion domain residual echo correction unit 12324 is removed in the wave number domain residual residual echo estimation elimination unit 1232. The wave number domain residual echo canceling unit 1232 is set to compress the received signal to ¼. Β = 0.98 as a smoothing constant for correlation calculation, λ = 0.1 as a forgetting constant for calculating an inverse matrix of a compression vector correlation matrix, and β 2 = 0.1 for estimation of an estimated input / output transfer characteristic. I used it.

これと比較する従来法として、非特許文献3で提案されている方法をもちいた。その構成は、エコー消去装置100の構成として残留エコー消去部120のみを使用し、その内部では波数領域残留エコー推定消去部1231のみを使用した。なお残留エコー補正部12314をはずした。   As a conventional method compared with this, the method proposed in Non-Patent Document 3 was used. In the configuration, only the residual echo cancellation unit 120 is used as the configuration of the echo cancellation apparatus 100, and only the wave number domain residual echo estimation cancellation unit 1231 is used therein. The residual echo correction unit 12314 was removed.

シミュレーションで使用する信号を生成するため、残響時間150msの部屋で、直線状スピーカアレー(32素子、間隔6cm)と直線状マイクロホンアレー(32素子、間隔6cm)を50cm離して平行に配置し(P=32)、スピーカ・マイクロホン間の全エコー経路インパルス応答を測定した。サンプリング周波数fsを8kHzに設定し、フレーム長として2F=1024を用いた。受話信号には、それぞれ異なる位置に配置した2音源が交互に白色雑音を再生する状況をシミュレートし、32個のマイクロホンによる収音を模擬して生成した。   In order to generate a signal for use in the simulation, a linear speaker array (32 elements, spacing 6 cm) and a linear microphone array (32 elements, spacing 6 cm) are placed 50 cm apart in parallel in a room with a reverberation time of 150 ms (P = 32), the total echo path impulse response between the speaker and the microphone was measured. The sampling frequency fs was set to 8 kHz, and 2F = 1024 was used as the frame length. The received signal was generated by simulating the situation in which two sound sources arranged at different positions reproduce white noise alternately and simulated sound collection by 32 microphones.

図14、15にシミュレーション結果を示す。図14は従来法の処理結果であり、図15は本実施形態の変形例での処理結果である。いずれも32チャネル中の奇数チャネルについて、残留エコー消去処理によるエコー消去量(ERLE)をプロットしている。   14 and 15 show the simulation results. FIG. 14 shows the processing result of the conventional method, and FIG. 15 shows the processing result of the modification of this embodiment. In both cases, the echo cancellation amount (ERLE) by the residual echo cancellation processing is plotted for odd-numbered channels out of 32 channels.

図14より従来法のERLEが平均で10dB強にとどまるのに対し、図15より提案法のERLEは平均で20dB強になっている。これより、提案法が効果的にエコーを消去していることが分かる。   As shown in FIG. 14, the ERLE of the conventional method stays on average only over 10 dB, whereas the ERLE of the proposed method averages over 20 dB on average from FIG. This shows that the proposed method effectively cancels the echo.

<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<Other variations>
The present invention is not limited to the above-described embodiments and modifications. For example, the various processes described above are not only executed in time series according to the description, but may also be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. In addition, it can change suitably in the range which does not deviate from the meaning of this invention.

<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
<Program and recording medium>
In addition, various processing functions in each device described in the above embodiments and modifications may be realized by a computer. In that case, the processing contents of the functions that each device should have are described by a program. Then, by executing this program on a computer, various processing functions in each of the above devices are realized on the computer.

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。   The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。   The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Further, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。   A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its storage unit. When executing the process, this computer reads the program stored in its own storage unit and executes the process according to the read program. As another embodiment of this program, a computer may read a program directly from a portable recording medium and execute processing according to the program. Further, each time a program is transferred from the server computer to the computer, processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program includes information provided for processing by the electronic computer and equivalent to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).

また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。   In addition, although each device is configured by executing a predetermined program on a computer, at least a part of these processing contents may be realized by hardware.

Claims (9)

Pを2以上の整数とし、P個のスピーカとP個のマイクロホンとが共通の音場に配置され、前記スピーカから受話信号を再生した際にエコー経路を経て前記マイクロホンに回り込むエコーを消去するエコー消去装置であって、
前記マイクロホンで収音される収音信号を波数領域に変換した信号と波数領域の前記受話信号とを用いて、波数領域の前記収音信号に含まれる拡散残留エコーを推定し、波数領域の前記収音信号から推定した拡散残留エコーを消去する波数領域拡散残留エコー推定消去部を含み、
前記波数領域拡散残留エコー推定消去部は、
波数毎の前記受話信号を要素とするP次元のベクトルである受話信号ベクトルXとその複素共役かつ転置とを用いてP×P行列であるパワースペクトル行列を算出し、波数毎の前記収音信号を要素とするP次元のベクトルである収音信号ベクトルと前記受話信号ベクトルXの複素共役かつ転置とを用いてP×P行列であるクロススペクトル行列を算出する圧縮入出力相関係数算出部と、
前記パワースペクトル行列と前記クロススペクトル行列とを用いて、前記受話信号と前記収音信号との入出力伝達特性の推定値を要素とするP×P行列である入出力伝達特性行列を求める圧縮入出力伝達特性推定部と、
前記受話信号ベクトルXに前記入出力伝達特性行列を乗じて、波数毎の前記拡散残留エコーの推定値を要素とするP次元のベクトルである拡散残留エコーベクトルを求める拡散残留エコー推定部と、
波数領域の前記収音信号と波数領域の前記拡散残留エコーの推定値との差分を求める減算部とを含む、
エコー消去装置。
E is an echo that eliminates an echo that goes around the microphone via an echo path when P is an integer of 2 or more, P speakers and P microphones are arranged in a common sound field, and a received signal is reproduced from the speakers An erasing device,
Using the signal obtained by converting the collected sound signal collected by the microphone into the wave number domain and the received signal in the wave number domain, the diffusion residual echo included in the collected signal in the wave number domain is estimated, and the wave number domain Including a wave number domain diffuse residual echo estimation canceling unit that cancels the diffuse residual echo estimated from the collected sound signal,
The wave number domain diffuse residual echo estimation erasure unit is
A power spectrum matrix, which is a P × P matrix, is calculated using a received signal vector X, which is a P-dimensional vector having the received signal for each wave number as an element, and its complex conjugate and transpose, and the collected sound signal for each wave number A compressed input / output correlation coefficient calculation unit that calculates a cross spectrum matrix that is a P × P matrix using a sound pickup signal vector that is a P-dimensional vector having elements as elements and a complex conjugate and transpose of the received signal vector X; ,
Using the power spectrum matrix and the cross spectrum matrix, compression input to obtain an input / output transfer characteristic matrix which is a P × P matrix having an estimated value of the input / output transfer characteristics of the received signal and the collected sound signal as elements. An output transfer characteristic estimator;
A spread residual echo estimator that multiplies the received signal vector X by the input / output transfer characteristic matrix to obtain a diffuse residual echo vector that is a P-dimensional vector whose elements are estimated values of the diffuse residual echo for each wave number;
A subtractor that obtains a difference between the sound collection signal in the wave number domain and the estimated value of the diffuse residual echo in the wave number domain,
Echo canceler.
Pを2以上の整数とし、P個のスピーカとP個のマイクロホンとが共通の音場に配置され、前記スピーカから受話信号を再生した際にエコー経路を経て前記マイクロホンに回り込むエコーを消去するエコー消去装置であって、
前記マイクロホンで収音される収音信号を波数領域に変換した信号と波数領域の前記受話信号とを用いて、波数領域の前記収音信号に含まれる拡散残留エコーを推定し、波数領域の前記収音信号から推定した拡散残留エコーを消去する波数領域拡散残留エコー推定消去部を含み、
前記波数領域拡散残留エコー推定消去部は、
P’<Pとし、P’×P行列である圧縮行列Wを用いて、波数毎の前記受話信号を要素とするP次元のベクトルである受話信号ベクトルXを、P’次元の圧縮ベクトルZに圧縮する入力次元圧縮部と、
前記圧縮ベクトルZを前記圧縮行列Wの複素共役転置行列で伸長したP次元のベクトルと、前記受話信号ベクトルXとの差が最小になるように、前記圧縮行列Wを更新する次元圧縮行列更新部と、
前記圧縮ベクトルZとその複素共役かつ転置とを用いてP’×P’行列であるパワースペクトル行列を算出し、波数毎の前記収音信号を要素とするP次元のベクトルである収音信号ベクトルと前記圧縮ベクトルZの複素共役かつ転置とを用いてP×P’行列であるクロススペクトル行列を算出する圧縮入出力相関係数算出部と、
前記パワースペクトル行列と前記クロススペクトル行列とを用いて、前記受話信号と前記収音信号との入出力伝達特性の推定値を要素とするP×P’行列である入出力伝達特性行列を求める圧縮入出力伝達特性推定部と、
前記圧縮ベクトルZに前記入出力伝達特性行列を乗じて、波数毎の前記拡散残留エコーの推定値を要素とするP次元のベクトルである拡散残留エコーベクトルを求める拡散残留エコー推定部と、
波数領域の前記収音信号と波数領域の前記拡散残留エコーの推定値との差分を求める減算部とを含む、
エコー消去装置。
E is an echo that eliminates an echo that goes around the microphone via an echo path when P is an integer of 2 or more, P speakers and P microphones are arranged in a common sound field, and a received signal is reproduced from the speakers An erasing device,
Using the signal obtained by converting the collected sound signal collected by the microphone into the wave number domain and the received signal in the wave number domain, the diffusion residual echo included in the collected signal in the wave number domain is estimated, and the wave number domain Including a wave number domain diffuse residual echo estimation canceling unit that cancels the diffuse residual echo estimated from the collected sound signal,
The wave number domain diffuse residual echo estimation erasure unit is
P ′ <P, and using a compression matrix W that is a P ′ × P matrix, a received signal vector X that is a P-dimensional vector having the received signal for each wave number as an element is converted into a P′-dimensional compressed vector Z. An input dimension compression unit for compression;
A dimension compression matrix updating unit that updates the compression matrix W so that a difference between a P-dimensional vector obtained by expanding the compression vector Z with a complex conjugate transpose matrix of the compression matrix W and the received signal vector X is minimized. When,
A power spectrum matrix which is a P ′ × P ′ matrix is calculated using the compression vector Z and its complex conjugate and transpose, and a sound collection signal vector which is a P-dimensional vector having the sound collection signal for each wave number as an element. And a compressed input / output correlation coefficient calculating unit that calculates a cross spectrum matrix that is a P × P ′ matrix using the complex conjugate and transpose of the compressed vector Z;
Compression using the power spectrum matrix and the cross spectrum matrix to obtain an input / output transfer characteristic matrix that is a P × P ′ matrix whose elements are estimated values of input / output transfer characteristics of the received signal and the collected sound signal An input / output transfer characteristic estimation unit;
A diffusion residual echo estimator that multiplies the compression vector Z by the input / output transfer characteristic matrix to obtain a diffusion residual echo vector that is a P-dimensional vector whose elements are estimated values of the diffusion residual echo for each wave number;
A subtractor that obtains a difference between the sound collection signal in the wave number domain and the estimated value of the diffuse residual echo in the wave number domain,
Echo canceler.
請求項2のエコー消去装置であって、
P(2) fをパワースペクトル行列とし、Q(2) fをクロススペクトル行列とし、Z(W) fを圧縮ベクトルZ、E(W2) fを収音信号ベクトルとし、・Hは・の複素共役かつ転置を、E[・]は・の平均を表し、前記圧縮入出力相関係数算出部は、次式により、前記パワースペクトル行列を算出し、
P(2) f=E[Z(W) fZ(W)H f]
次式により、前記クロススペクトル行列を算出し、
Q(2) f=E[E(W2) fZ(W)H f]
β2を入出力伝達特性の推定値を平滑化するための定数とし、前記圧縮入出力伝達特性推定部は、次式、または、次々式により、前記入出力伝達特性行列を求める、
Figure 0006075783

Figure 0006075783

エコー消去装置。
The echo canceller of claim 2,
P (2) f is a power spectrum matrix, Q (2) f is a cross spectrum matrix, Z (W) f is a compression vector Z, E (W2) f is a collected signal vector, and H is a complex of Conjugate and transpose, E [·] represents the average of ·, the compressed input / output correlation coefficient calculation unit calculates the power spectrum matrix by the following equation,
P (2) f = E [Z (W) f Z (W) H f ]
The cross spectrum matrix is calculated by the following equation:
Q (2) f = E [E (W2) f Z (W) H f ]
β 2 is a constant for smoothing the estimated value of the input / output transfer characteristic, and the compressed input / output transfer characteristic estimation unit obtains the input / output transfer characteristic matrix by the following equation or the following equation:
Figure 0006075783

Figure 0006075783

Echo canceler.
請求項1〜3の何れかのエコー消去装置であって、
波数領域の前記受話信号と波数領域の前記収音信号とを用いて、波数領域の前記収音信号に含まれる直接波による残留エコーを推定し、波数領域の前記収音信号から推定した直接波による残留エコーを消去する波数領域残留エコー推定消去部を、さらに含み、
波数領域残留エコー推定消去部は、
波数領域の前記受話信号と波数領域の前記収音信号とを用いて、前記受話信号のパワースペクトルと、前記受話信号と前記収音信号との間のクロススペクトルとを算出する入出力相関係数算出部と、
前記パワースペクトルと前記クロススペクトルとを用いて、前記受話信号と前記収音信号との入出力伝達特性を推定する入出力伝達特性推定部と、
波数領域の前記受話信号に前記入出力伝達特性の推定値を乗じて、波数領域の前記残留エコーを推定する残留エコー推定部と、
波数領域の前記収音信号と波数領域の前記残留エコーの推定値との差分を求める第二減算部とを含み、
前記波数領域拡散残留エコー推定消去部において用いる前記収音信号は、前記波数領域残留エコー推定消去部における処理を施されたものであり、
前記波数領域拡散残留エコー推定消去部において用いる波数領域の前記受話信号は、前記波数領域残留エコー推定消去部において用いる波数領域の前記受話信号よりも1フレーム分前のものである、
エコー消去装置。
The echo canceller according to any one of claims 1 to 3,
Using the received signal in the wave number domain and the collected sound signal in the wave number domain, a residual echo due to a direct wave included in the collected sound signal in the wave number domain is estimated, and the direct wave estimated from the collected sound signal in the wave number domain A wave number domain residual echo estimation canceling unit that cancels residual echo due to
The wave number domain residual echo estimation elimination part
I / O correlation coefficient for calculating a power spectrum of the received signal and a cross spectrum between the received signal and the collected sound signal using the received signal in the wave number domain and the collected sound signal in the wave number domain A calculation unit;
Using the power spectrum and the cross spectrum, an input / output transfer characteristic estimation unit that estimates an input / output transfer characteristic of the received signal and the collected sound signal;
A residual echo estimator for multiplying the received signal in the wave number domain by the estimated value of the input / output transfer characteristic to estimate the residual echo in the wave number domain;
A second subtracting unit for obtaining a difference between the sound pickup signal in the wave number region and the estimated value of the residual echo in the wave number region;
The collected sound signal used in the wave number domain residual echo estimation erasure unit is subjected to the processing in the wave number domain residual echo estimation erasure unit,
The received signal in the wave number domain used in the wave number domain diffuse residual echo estimation erasing unit is one frame before the received signal in the wave number domain used in the wave number domain residual echo estimation erasing unit.
Echo canceler.
請求項1〜4の何れかのエコー消去装置であって、
時間領域の前記受話信号と時間領域の前記収音信号とを用いて、時間領域の前記収音信号に含まれるエコーの成分を推定し、消去するエコー消去部を、さらに含み、
前記エコー消去部は、
時間領域の前記受話信号を周波数領域の信号に変換する第一周波数領域変換部と、
周波数領域の前記受話信号を波数領域の信号に変換する第一波数領域変換部と、
波数領域の前記受話信号に波数領域のフィルタ係数を乗じて、波数領域のエコーレプリカを生成する乗算部と、
波数領域の前記エコーレプリカを周波数領域の前記エコーレプリカに変換する逆波数変換部と、
周波数領域の前記エコーレプリカを時間領域の前記エコーレプリカに変換する時間領域変換部と、
時間領域の前記収音信号から時間領域の前記エコーレプリカを差し引き、時間領域の誤差信号を求める第三減算部と、
時間領域の前記誤差信号を周波数領域の信号に変換する第二周波数領域変換部と、
周波数領域の前記誤差信号を波数領域の信号に変換する第二波数領域変換部と、
波数領域の前記受話信号と波数領域の前記誤差信号とを用いて波数領域の前記フィルタ係数の修正量を算出する修正量算出部と、
前記修正量を用いて前記フィルタ係数を更新するフィルタ係数部と、を含み、
前記波数領域拡散残留エコー推定消去部または前記波数領域残留エコー推定消去部において用いる前記収音信号は、前記エコー消去部における処理を施されたものであり、前記誤差信号に対応する、
エコー消去装置。
The echo canceller according to any one of claims 1 to 4,
Using the received signal in the time domain and the collected sound signal in the time domain, an echo canceling unit that estimates and cancels an echo component included in the collected sound signal in the time domain further includes:
The echo canceller is
A first frequency domain transform unit for transforming the received signal in the time domain into a frequency domain signal;
A first wave number domain converter for converting the received signal in the frequency domain into a signal in the wave number domain;
A multiplier that multiplies the received signal in the wavenumber domain by a filter coefficient in the wavenumber domain to generate an echo replica in the wavenumber domain;
An inverse wave number converter for converting the echo replica in the wave number domain into the echo replica in the frequency domain;
A time domain transforming unit for transforming the echo replica in the frequency domain into the echo replica in the time domain;
A third subtracting unit for subtracting the echo replica in the time domain from the collected sound signal in the time domain to obtain an error signal in the time domain;
A second frequency domain transform unit that transforms the time domain error signal into a frequency domain signal;
A second wavenumber domain converter for converting the error signal in the frequency domain into a signal in the wavenumber domain;
A correction amount calculation unit that calculates a correction amount of the filter coefficient in the wave number domain using the received signal in the wave number domain and the error signal in the wave number domain;
A filter coefficient unit that updates the filter coefficient using the correction amount, and
The collected sound signal used in the wave number domain residual echo estimation cancellation unit or the wave number domain residual echo estimation cancellation unit is processed in the echo cancellation unit, and corresponds to the error signal.
Echo canceler.
請求項1〜5の何れかのエコー消去装置であって、
前記波数領域拡散残留エコー推定消去部は、
前記拡散残留エコーベクトルの各要素に、前記入出力伝達特性の前記推定値の信頼区間の下端の値に基づく値を乗じることにより、前記拡散残留エコーベクトルの各要素を補正する残留エコー補正部をさらに含み、
前記減算部において用いる、前記拡散残留エコーの前記推定値は、前記残留エコー補正部における処理を施されたものである、
エコー消去装置。
The echo canceller according to any one of claims 1 to 5,
The wave number domain diffuse residual echo estimation erasure unit is
A residual echo correction unit that corrects each element of the diffuse residual echo vector by multiplying each element of the diffuse residual echo vector by a value based on a value of a lower end of a confidence interval of the estimated value of the input / output transfer characteristic; In addition,
The estimated value of the diffuse residual echo used in the subtraction unit is subjected to processing in the residual echo correction unit.
Echo canceler.
Pを2以上の整数とし、P個のスピーカとP個のマイクロホンとが共通の音場に配置され、前記スピーカから受話信号を再生した際にエコー経路を経て前記マイクロホンに回り込むエコーを消去するエコー消去方法であって、
前記マイクロホンで収音される収音信号を波数領域に変換した信号と波数領域の前記受話信号とを用いて、波数領域の前記収音信号に含まれる拡散残留エコーを推定し、波数領域の前記収音信号から推定した拡散残留エコーを消去する波数領域拡散残留エコー推定消去ステップを含み、
前記波数領域拡散残留エコー推定消去ステップは、
波数毎の前記受話信号を要素とするP次元のベクトルである受話信号ベクトルXとその複素共役かつ転置とを用いてP×P行列であるパワースペクトル行列を算出し、波数毎の前記収音信号を要素とするP次元のベクトルである収音信号ベクトルと前記受話信号ベクトルXの複素共役かつ転置とを用いてP×P行列であるクロススペクトル行列を算出する圧縮入出力相関係数算出ステップと、
前記パワースペクトル行列と前記クロススペクトル行列とを用いて、前記受話信号と前記収音信号との入出力伝達特性の推定値を要素とするP×P行列である入出力伝達特性行列を求める圧縮入出力伝達特性推定ステップと、
前記受話信号ベクトルXに前記入出力伝達特性行列を乗じて、波数毎の前記拡散残留エコーの推定値を要素とするP次元のベクトルである拡散残留エコーベクトルを求める拡散残留エコー推定ステップと、
波数領域の前記収音信号と波数領域の前記拡散残留エコーの推定値との差分を求める減算ステップとを含む、
エコー消去方法。
E is an echo that eliminates an echo that goes around the microphone via an echo path when P is an integer of 2 or more, P speakers and P microphones are arranged in a common sound field, and a received signal is reproduced from the speakers An erasing method,
Using the signal obtained by converting the collected sound signal collected by the microphone into the wave number domain and the received signal in the wave number domain, the diffusion residual echo included in the collected signal in the wave number domain is estimated, and the wave number domain A wave number domain diffuse residual echo estimation cancellation step for canceling the diffuse residual echo estimated from the collected sound signal,
The wave number domain diffuse residual echo estimation elimination step comprises:
A power spectrum matrix, which is a P × P matrix, is calculated using a received signal vector X, which is a P-dimensional vector having the received signal for each wave number as an element, and its complex conjugate and transpose, and the collected sound signal for each wave number A compressed input / output correlation coefficient calculating step of calculating a cross spectrum matrix that is a P × P matrix using a sound pickup signal vector that is a P-dimensional vector having a component as a component and a complex conjugate and transpose of the received signal vector X; ,
Using the power spectrum matrix and the cross spectrum matrix, compression input to obtain an input / output transfer characteristic matrix which is a P × P matrix having an estimated value of the input / output transfer characteristics of the received signal and the collected sound signal as elements. An output transfer characteristic estimation step;
A diffusion residual echo estimation step of multiplying the reception signal vector X by the input / output transfer characteristic matrix to obtain a diffusion residual echo vector which is a P-dimensional vector having the estimation value of the diffusion residual echo for each wave number as an element;
Subtracting the difference between the collected sound signal in the wave number domain and the estimated value of the diffuse residual echo in the wave number domain,
Echo cancellation method.
Pを2以上の整数とし、P個のスピーカとP個のマイクロホンとが共通の音場に配置され、前記スピーカから受話信号を再生した際にエコー経路を経て前記マイクロホンに回り込むエコーを消去するエコー消去方法であって、
前記マイクロホンで収音される収音信号を波数領域に変換した信号と波数領域の前記受話信号とを用いて、波数領域の前記収音信号に含まれる拡散残留エコーを推定し、波数領域の前記収音信号から推定した拡散残留エコーを消去する波数領域拡散残留エコー推定消去ステップを含み、
前記波数領域拡散残留エコー推定消去ステップは、
P’<Pとし、P’×P行列である圧縮行列Wを用いて、波数毎の前記受話信号を要素とするP次元のベクトルである受話信号ベクトルXを、P’次元の圧縮ベクトルZに圧縮する入力次元圧縮ステップと、
前記圧縮ベクトルZを前記圧縮行列Wの複素共役転置行列で伸長したP次元のベクトルと、前記受話信号ベクトルXとの差が最小になるように、前記圧縮行列Wを更新する次元圧縮行列更新ステップと、
前記圧縮ベクトルZとその複素共役かつ転置とを用いてP’×P’行列であるパワースペクトル行列を算出し、波数毎の前記収音信号を要素とするP次元のベクトルである収音信号ベクトルと前記圧縮ベクトルZの複素共役かつ転置とを用いてP×P’行列であるクロススペクトル行列を算出する圧縮入出力相関係数算出ステップと、
前記パワースペクトル行列と前記クロススペクトル行列とを用いて、前記受話信号と前記収音信号との入出力伝達特性の推定値を要素とするP×P’行列である入出力伝達特性行列を求める圧縮入出力伝達特性推定ステップと、
前記圧縮ベクトルZに前記入出力伝達特性行列を乗じて、波数毎の前記拡散残留エコーの推定値を要素とするP次元のベクトルである拡散残留エコーベクトルを求める拡散残留エコー推定ステップと、
波数領域の前記収音信号と波数領域の前記拡散残留エコーの推定値との差分を求める減算ステップとを含む、
エコー消去方法。
E is an echo that eliminates an echo that goes around the microphone via an echo path when P is an integer of 2 or more, P speakers and P microphones are arranged in a common sound field, and a received signal is reproduced from the speakers An erasing method,
Using the signal obtained by converting the collected sound signal collected by the microphone into the wave number domain and the received signal in the wave number domain, the diffusion residual echo included in the collected signal in the wave number domain is estimated, and the wave number domain A wave number domain diffuse residual echo estimation cancellation step for canceling the diffuse residual echo estimated from the collected sound signal,
The wave number domain diffuse residual echo estimation elimination step comprises:
P ′ <P, and using a compression matrix W that is a P ′ × P matrix, a received signal vector X that is a P-dimensional vector having the received signal for each wave number as an element is converted into a P′-dimensional compressed vector Z. An input dimension compression step to compress;
A dimension compression matrix updating step for updating the compression matrix W so that a difference between a P-dimensional vector obtained by expanding the compression vector Z by a complex conjugate transpose matrix of the compression matrix W and the received signal vector X is minimized; When,
A power spectrum matrix which is a P ′ × P ′ matrix is calculated using the compression vector Z and its complex conjugate and transpose, and a sound collection signal vector which is a P-dimensional vector having the sound collection signal for each wave number as an element. And a compressed input / output correlation coefficient calculating step of calculating a cross spectrum matrix that is a P × P ′ matrix using the complex conjugate and transpose of the compressed vector Z;
Compression using the power spectrum matrix and the cross spectrum matrix to obtain an input / output transfer characteristic matrix that is a P × P ′ matrix whose elements are estimated values of input / output transfer characteristics of the received signal and the collected sound signal An input / output transfer characteristic estimation step;
A diffusion residual echo estimation step of multiplying the compression vector Z by the input / output transfer characteristic matrix to obtain a diffusion residual echo vector that is a P-dimensional vector whose element is an estimation value of the diffusion residual echo for each wave number;
Subtracting the difference between the collected sound signal in the wave number domain and the estimated value of the diffuse residual echo in the wave number domain,
Echo cancellation method.
請求項1〜6の何れかのエコー消去装置としてコンピュータを機能させるためのプログラム。   A program for causing a computer to function as the echo canceling apparatus according to claim 1.
JP2013253804A 2013-12-09 2013-12-09 Echo canceling apparatus, echo canceling method and program Active JP6075783B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013253804A JP6075783B2 (en) 2013-12-09 2013-12-09 Echo canceling apparatus, echo canceling method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013253804A JP6075783B2 (en) 2013-12-09 2013-12-09 Echo canceling apparatus, echo canceling method and program

Publications (2)

Publication Number Publication Date
JP2015115624A JP2015115624A (en) 2015-06-22
JP6075783B2 true JP6075783B2 (en) 2017-02-08

Family

ID=53529104

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013253804A Active JP6075783B2 (en) 2013-12-09 2013-12-09 Echo canceling apparatus, echo canceling method and program

Country Status (1)

Country Link
JP (1) JP6075783B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113190957B (en) * 2021-03-24 2024-03-22 中国海洋大学 Controllable source electromagnetic simulation wave number sequence optimization method based on elimination strategy

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5036874B2 (en) * 2008-09-24 2012-09-26 三菱電機株式会社 Echo canceller
JP5662232B2 (en) * 2011-04-14 2015-01-28 日本電信電話株式会社 Echo canceling apparatus, method and program
JP5937451B2 (en) * 2012-07-23 2016-06-22 日本電信電話株式会社 Echo canceling apparatus, echo canceling method and program
JP5774062B2 (en) * 2013-07-10 2015-09-02 日本電信電話株式会社 Echo canceling apparatus, echo canceling method, and program thereof

Also Published As

Publication number Publication date
JP2015115624A (en) 2015-06-22

Similar Documents

Publication Publication Date Title
JP4644715B2 (en) Audio system and method for acoustic echo cancellation
US9210504B2 (en) Processing audio signals
US9818424B2 (en) Method and apparatus for suppression of unwanted audio signals
JP5177820B2 (en) System and method for enhanced subjective stereo audio
US20140016794A1 (en) Echo cancellation system and method with multiple microphones and multiple speakers
JP2003102085A (en) Multi-channel echo cancel method, multi-channel sound transfer method, stereo echo canceller, stereo sound transmission apparatus, and transfer function calculation apparatus
CN102968999B (en) Audio signal processing
JP2004349806A (en) Multichannel acoustic echo canceling method, apparatus thereof, program thereof, and recording medium thereof
JP5762479B2 (en) Voice switch device, voice switch method, and program thereof
JP2012039441A (en) Multi-channel echo erasure method, multi-channel echo erasure device, and program of the same
JP5937451B2 (en) Echo canceling apparatus, echo canceling method and program
JP3756828B2 (en) Reverberation elimination method, apparatus for implementing this method, program, and recording medium therefor
JP3864914B2 (en) Echo suppression device
JP3673727B2 (en) Reverberation elimination method, apparatus thereof, program thereof, and recording medium thereof
JP6075783B2 (en) Echo canceling apparatus, echo canceling method and program
JP3616341B2 (en) Multi-channel echo cancellation method, apparatus thereof, program thereof, and recording medium
JP5774062B2 (en) Echo canceling apparatus, echo canceling method, and program thereof
US10937409B2 (en) Predictive acoustic echo cancellation
JP2004349796A (en) Sound echo canceling method, apparatus thereof, program and recording medium thereof
JP5826712B2 (en) Multi-channel echo canceling apparatus, multi-channel echo canceling method, and program
JP4504891B2 (en) Echo canceling method, echo canceling apparatus, program, recording medium
JP5925149B2 (en) Acoustic coupling amount estimating apparatus, echo canceling apparatus, method and program thereof
WO2019244535A1 (en) Echo cancellation device, echo cancellation method, and program
JP5698110B2 (en) Multi-channel echo cancellation method, multi-channel echo cancellation apparatus, and program
JP4504892B2 (en) Echo canceling method, echo canceling apparatus, program, recording medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160302

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170104

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170105

R150 Certificate of patent or registration of utility model

Ref document number: 6075783

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150