JP6075783B2 - Echo canceling apparatus, echo canceling method and program - Google Patents
Echo canceling apparatus, echo canceling method and program Download PDFInfo
- Publication number
- JP6075783B2 JP6075783B2 JP2013253804A JP2013253804A JP6075783B2 JP 6075783 B2 JP6075783 B2 JP 6075783B2 JP 2013253804 A JP2013253804 A JP 2013253804A JP 2013253804 A JP2013253804 A JP 2013253804A JP 6075783 B2 JP6075783 B2 JP 6075783B2
- Authority
- JP
- Japan
- Prior art keywords
- wave number
- echo
- signal
- domain
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Telephone Function (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Description
本発明は、マルチチャネル拡声通話系において音響エコーを消去する技術に関する。 The present invention relates to a technique for canceling acoustic echo in a multi-channel loudspeaker communication system.
より自然な通話環境を提供できるマルチチャネル拡声型の双方向通信会議システムの開発が、IP通信の高速化・大容量化を背景に、近年進展している。マルチチャネル再生技術も、ステレオ再生から5.1チャネル再生へとチャネル数拡大の方向に進んでいる。しかし、音が高い立体感を持って再生されるリスニングエリアが限られていて、スィートスポット化しており、その外では音の立体感が大幅に低減してしまう。 In recent years, development of a multi-channel loudspeaker type two-way communication conferencing system that can provide a more natural calling environment has progressed against the background of higher speed and higher capacity of IP communication. Multi-channel playback technology is also progressing in the direction of expanding the number of channels from stereo playback to 5.1 channel playback. However, the listening area where the sound is reproduced with a high three-dimensional effect is limited, and it has become a sweet spot, and outside it, the three-dimensional effect of the sound is greatly reduced.
そのため、リスニングエリアの広いマルチチャネル再生技術として、近年Wave Field Synthesis(以下「WFS」と略す)の研究が進められている(非特許文献1参照)。WFSは、ある地点での音波面を取得し、別の地点で再合成する技術である。 Therefore, research on Wave Field Synthesis (hereinafter abbreviated as “WFS”) has recently been advanced as a multi-channel playback technique with a wide listening area (see Non-Patent Document 1). WFS is a technique for acquiring a sound wave surface at a certain point and recombining it at another point.
WFSを双方向映像音声通信会議に適用しようとする場合、快適な通話環境を実現するには、数十〜数百のスピーカから数十〜数百のマイクロホンに音響的に回り込む信号成分(以下「エコー」ともいう)をマイクロホンの収音信号から消去する必要がある。この処理を効率的に行う音響エコーキャンセラアルゴリズムとして、波数領域適応アルゴリズムが提案されている(非特許文献2参照)。この波数領域適応アルゴリズムは、適応フィルタのフィルタ係数を波数領域に持つアルゴリズムである。 When a WFS is applied to a two-way video / audio communication conference, in order to realize a comfortable call environment, a signal component (hereinafter referred to as “sound sneaking” from tens to hundreds of speakers to tens to hundreds of microphones). (Also called “echo”) must be erased from the microphone's collected signal. A wave number domain adaptive algorithm has been proposed as an acoustic echo canceller algorithm that efficiently performs this processing (see Non-Patent Document 2). This wave number domain adaptive algorithm is an algorithm having filter coefficients of an adaptive filter in the wave number domain.
しかしながら、非特許文献2のシミュレーション結果の説明に記されているように、スピーカアレーから再生する波面の放射方向が変わったときに、エコー消去量が急激に劣化する。この状況は、双方向通信において遠隔地で話者が交代して、交代後の話者再生音声の放射方向が交代前の放射方向と異なるケースに対応する。エコー消去量が劣化する理由は、再生波面の放射方向が変化するとエコー消去に波数の異なる適応フィルタ係数が必要になるが、その適応フィルタ係数がほとんど未学習なためである。
However, as described in the explanation of the simulation result of Non-Patent
快適な拡声通話を実現するには、適応フィルタによるエコー経路推定及び消去が十分でない状態において、会話状態によらず迅速に残留エコーを低減する必要がある。特にダブルトーク状態では、送話の品質に影響を与えることなく残留エコーを低減する必要がある。 In order to realize a comfortable voice call, it is necessary to quickly reduce the residual echo regardless of the conversation state in a state where the echo path estimation and cancellation by the adaptive filter is not sufficient. Especially in the double talk state, it is necessary to reduce the residual echo without affecting the quality of transmission.
そのような方法として、波数領域で誤差信号に含まれる残留エコーを推定し、消去する方法が非特許文献3で提案されている。
As such a method, Non-Patent
しかし、受聴エリアを広げるために再生音量を大きくしたり、収音エリアを広げるためにマイクゲインを大きくしたりするためには、残留エコー消去の性能をさらに向上させる必要がある。 However, in order to increase the playback volume in order to expand the listening area and increase the microphone gain in order to expand the sound collection area, it is necessary to further improve the performance of residual echo cancellation.
残留エコーには、反射等によらない直接波によるものと、直接波以外の反射波等によるもの(拡散残留エコー)とが含まれる。非特許文献3の方法は、ベースとして使用するモデルのために、直接波による残留エコーのみが対象になる。
Residual echoes include those based on direct waves that do not depend on reflections, and those based on reflected waves other than direct waves (diffuse residual echoes). Since the method of Non-Patent
本発明は、拡散残留エコーも対象とすることで、残留エコーを従来法以上に低減させるエコー消去技術の提供を目的とする。 An object of the present invention is to provide an echo cancellation technique for reducing the residual echo more than the conventional method by targeting the diffuse residual echo.
上記の課題を解決するために、本発明の第一の態様によれば、エコー消去装置は、Pを2以上の整数とし、P個のスピーカとP個のマイクロホンとが共通の音場に配置され、スピーカから受話信号を再生した際にエコー経路を経てマイクロホンに回り込むエコーを消去する。エコー消去装置は、マイクロホンで収音される収音信号を波数領域に変換した信号と波数領域の受話信号とを用いて、波数領域の収音信号に含まれる拡散残留エコーを推定し、波数領域の収音信号から推定した拡散残留エコーを消去する波数領域拡散残留エコー推定消去部を含む。波数領域拡散残留エコー推定消去部は、波数毎の受話信号を要素とするP次元のベクトルである受話信号ベクトルXとその複素共役かつ転置とを用いてP×P行列であるパワースペクトル行列を算出し、波数毎の収音信号を要素とするP次元のベクトルである収音信号ベクトルと受話信号ベクトルXの複素共役かつ転置とを用いてP×P行列であるクロススペクトル行列を算出する圧縮入出力相関係数算出部と、パワースペクトル行列とクロススペクトル行列とを用いて、受話信号と収音信号との入出力伝達特性の推定値を要素とするP×P行列である入出力伝達特性行列を求める圧縮入出力伝達特性推定部と、受話信号ベクトルXに入出力伝達特性行列を乗じて、波数毎の拡散残留エコーの推定値を要素とするP次元のベクトルである拡散残留エコーベクトルを求める拡散残留エコー推定部と、波数領域の収音信号と波数領域の拡散残留エコーの推定値との差分を求める減算部とを含む。 In order to solve the above-described problem, according to the first aspect of the present invention, the echo canceller is configured such that P is an integer equal to or greater than 2, and P speakers and P microphones are arranged in a common sound field. Then, when the received signal is reproduced from the speaker, the echo that goes around the microphone via the echo path is deleted. The echo canceller estimates the diffuse residual echo contained in the sound signal collected in the wave number domain using the signal obtained by converting the sound signal collected by the microphone into the wave number domain and the received signal in the wave number domain. A wave number domain residual echo estimation canceling unit that cancels the diffuse residual echo estimated from the collected sound signal. The wave number domain diffuse residual echo estimation / erasing unit calculates a power spectrum matrix that is a P × P matrix using the received signal vector X, which is a P-dimensional vector having received signal for each wave number as an element, and its complex conjugate and transpose. Then, a compression input for calculating a cross spectrum matrix which is a P × P matrix using a complex conjugate and transpose of a sound pickup signal vector which is a P-dimensional vector having a sound pickup signal for each wave number as an element and a received signal vector X An input / output transfer characteristic matrix which is a P × P matrix having an estimated value of input / output transfer characteristics of the received signal and the collected sound signal as elements using an output correlation coefficient calculation unit, a power spectrum matrix and a cross spectrum matrix A compression input / output transfer characteristic estimator for obtaining a spread residual which is a P-dimensional vector obtained by multiplying the received signal vector X by an input / output transfer characteristic matrix and having an estimated value of a diffuse residual echo for each wave number as an element. Comprising a diffusion residual echo estimator for determining an echo vector, and a subtraction unit for obtaining a difference between the estimated value of the diffusion residual echo between the picked-up signal and the wavenumber region of wavenumbers region.
上記の課題を解決するために、本発明の第二の態様によれば、エコー消去装置は、Pを2以上の整数とし、P個のスピーカとP個のマイクロホンとが共通の音場に配置され、スピーカから受話信号を再生した際にエコー経路を経てマイクロホンに回り込むエコーを消去する。エコー消去装置は、マイクロホンで収音される収音信号を波数領域に変換した信号と波数領域の受話信号とを用いて、波数領域の収音信号に含まれる拡散残留エコーを推定し、波数領域の収音信号から推定した拡散残留エコーを消去する波数領域拡散残留エコー推定消去部を含む。波数領域拡散残留エコー推定消去部は、P’<Pとし、P’×P行列である圧縮行列Wを用いて、波数毎の受話信号を要素とするP次元のベクトルである受話信号ベクトルXを、P’次元の圧縮ベクトルZに圧縮する入力次元圧縮部と、圧縮ベクトルZを圧縮行列Wの複素共役転置行列で伸長したP次元のベクトルと、受話信号ベクトルXとの差が最小になるように、圧縮行列Wを更新する次元圧縮行列更新部と、圧縮ベクトルZとその複素共役かつ転置とを用いてP’×P’行列であるパワースペクトル行列を算出し、波数毎の収音信号を要素とするP次元のベクトルである収音信号ベクトルと圧縮ベクトルZの複素共役かつ転置とを用いてP×P’行列であるクロススペクトル行列を算出する圧縮入出力相関係数算出部と、パワースペクトル行列とクロススペクトル行列とを用いて、受話信号と収音信号との入出力伝達特性の推定値を要素とするP×P’行列である入出力伝達特性行列を求める圧縮入出力伝達特性推定部と、圧縮ベクトルZに入出力伝達特性行列を乗じて、波数毎の拡散残留エコーの推定値を要素とするP次元のベクトルである拡散残留エコーベクトルを求める拡散残留エコー推定部と、波数領域の収音信号と波数領域の拡散残留エコーの推定値との差分を求める減算部とを含む。 In order to solve the above problems, according to a second aspect of the present invention, an echo canceller is configured such that P is an integer equal to or greater than 2, and P speakers and P microphones are arranged in a common sound field. Then, when the received signal is reproduced from the speaker, the echo that goes around the microphone via the echo path is deleted. The echo canceller estimates the diffuse residual echo contained in the sound signal collected in the wave number domain using the signal obtained by converting the sound signal collected by the microphone into the wave number domain and the received signal in the wave number domain. A wave number domain residual echo estimation canceling unit that cancels the diffuse residual echo estimated from the collected sound signal. The wave number domain diffusion residual echo estimation elimination unit sets P ′ <P, and uses a compression matrix W that is a P ′ × P matrix to obtain a received signal vector X that is a P-dimensional vector having received signals for each wave number as elements. The difference between the received signal vector X and the input dimension compression unit that compresses the compressed vector Z into the P′-dimensional compressed vector Z, the P-dimensional vector obtained by expanding the compressed vector Z with the complex conjugate transpose matrix of the compression matrix W, and Next, a power spectrum matrix which is a P ′ × P ′ matrix is calculated using a dimensional compression matrix updating unit for updating the compression matrix W, a compressed vector Z and its complex conjugate and transposition, and a sound collected signal for each wave number is calculated. A compression input / output correlation coefficient calculating unit that calculates a cross spectrum matrix that is a P × P ′ matrix by using a complex conjugate and transpose of a sound pickup signal vector that is a P-dimensional vector as an element and a compression vector Z; Spect Compressed input / output transfer characteristic estimator for obtaining an input / output transfer characteristic matrix which is a P × P ′ matrix having an estimated value of the input / output transfer characteristics of the received signal and the collected sound signal as elements using the matrix and the cross spectrum matrix A diffusion residual echo estimator that multiplies the compression vector Z by an input / output transfer characteristic matrix to obtain a diffusion residual echo vector that is a P-dimensional vector whose element is an estimated value of diffusion residual echo for each wave number; A subtractor for obtaining a difference between the collected sound signal and an estimated value of the diffuse residual echo in the wave number domain.
上記の課題を解決するために、本発明の第三の態様によれば、エコー消去方法は、Pを2以上の整数とし、P個のスピーカとP個のマイクロホンとが共通の音場に配置され、スピーカから受話信号を再生した際にエコー経路を経てマイクロホンに回り込むエコーを消去する。エコー消去方法は、マイクロホンで収音される収音信号を波数領域に変換した信号と波数領域の受話信号とを用いて、波数領域の収音信号に含まれる拡散残留エコーを推定し、波数領域の収音信号から推定した拡散残留エコーを消去する波数領域拡散残留エコー推定消去ステップを含む。波数領域拡散残留エコー推定消去ステップは、波数毎の受話信号を要素とするP次元のベクトルである受話信号ベクトルXとその複素共役かつ転置とを用いてP×P行列であるパワースペクトル行列を算出し、波数毎の収音信号を要素とするP次元のベクトルである収音信号ベクトルと受話信号ベクトルXの複素共役かつ転置とを用いてP×P行列であるクロススペクトル行列を算出する圧縮入出力相関係数算出ステップと、パワースペクトル行列とクロススペクトル行列とを用いて、受話信号と収音信号との入出力伝達特性の推定値を要素とするP×P行列である入出力伝達特性行列を求める圧縮入出力伝達特性推定ステップと、受話信号ベクトルXに入出力伝達特性行列を乗じて、波数毎の拡散残留エコーの推定値を要素とするP次元のベクトルである拡散残留エコーベクトルを求める拡散残留エコー推定ステップと、波数領域の収音信号と波数領域の拡散残留エコーの推定値との差分を求める減算ステップとを含む。 In order to solve the above-described problem, according to a third aspect of the present invention, an echo canceling method is such that P is an integer equal to or greater than 2, and P speakers and P microphones are arranged in a common sound field. Then, when the received signal is reproduced from the speaker, the echo that goes around the microphone via the echo path is deleted. The echo cancellation method estimates the diffuse residual echo contained in the collected sound signal in the wave number domain using the signal obtained by converting the collected sound signal collected by the microphone into the wave number domain and the received signal in the wave number domain. A wave number domain diffuse residual echo estimation canceling step for canceling the diffuse residual echo estimated from the collected sound signal. The wave number domain diffusion residual echo estimation elimination step calculates a power spectrum matrix that is a P × P matrix using the received signal vector X, which is a P-dimensional vector whose elements are received signals for each wave number, and its complex conjugate and transpose. Then, a compression input for calculating a cross spectrum matrix which is a P × P matrix using a complex conjugate and transpose of a sound pickup signal vector which is a P-dimensional vector having a sound pickup signal for each wave number as an element and a received signal vector X An input / output transfer characteristic matrix which is a P × P matrix whose elements are estimated values of input / output transfer characteristics of the received signal and the collected sound signal using the output correlation coefficient calculating step, the power spectrum matrix and the cross spectrum matrix A compression input / output transfer characteristic estimation step for obtaining the received signal vector X by multiplying the input / output transfer characteristic matrix by an input / output transfer characteristic matrix, Comprising a diffusion residual echo estimation step of obtaining a diffusion residual echo vector is Torr, and a subtraction step of obtaining a difference between the estimated value of the diffusion residual echo between the picked-up signal and the wavenumber region of wavenumbers region.
上記の課題を解決するために、本発明の第四の態様によれば、エコー消去方法は、Pを2以上の整数とし、P個のスピーカとP個のマイクロホンとが共通の音場に配置され、スピーカから受話信号を再生した際にエコー経路を経てマイクロホンに回り込むエコーを消去する。エコー消去方法は、マイクロホンで収音される収音信号を波数領域に変換した信号と波数領域の受話信号とを用いて、波数領域の収音信号に含まれる拡散残留エコーを推定し、波数領域の収音信号から推定した拡散残留エコーを消去する波数領域拡散残留エコー推定消去ステップを含む。波数領域拡散残留エコー推定消去ステップは、P’<Pとし、P’×P行列である圧縮行列Wを用いて、波数毎の受話信号を要素とするP次元のベクトルである受話信号ベクトルXを、P’次元の圧縮ベクトルZに圧縮する入力次元圧縮ステップと、圧縮ベクトルZを圧縮行列Wの複素共役転置行列で伸長したP次元のベクトルと、受話信号ベクトルXとの差が最小になるように、圧縮行列Wを更新する次元圧縮行列更新ステップと、圧縮ベクトルZとその複素共役かつ転置とを用いてP’×P’行列であるパワースペクトル行列を算出し、波数毎の収音信号を要素とするP次元のベクトルである収音信号ベクトルと圧縮ベクトルZの複素共役かつ転置とを用いてP×P’行列であるクロススペクトル行列を算出する圧縮入出力相関係数算出ステップと、パワースペクトル行列とクロススペクトル行列とを用いて、受話信号と収音信号との入出力伝達特性の推定値を要素とするP×P’行列である入出力伝達特性行列を求める圧縮入出力伝達特性推定ステップと、圧縮ベクトルZに入出力伝達特性行列を乗じて、波数毎の拡散残留エコーの推定値を要素とするP次元のベクトルである拡散残留エコーベクトルを求める拡散残留エコー推定ステップと、波数領域の収音信号と波数領域の拡散残留エコーの推定値との差分を求める減算ステップとを含む。 In order to solve the above-described problem, according to a fourth aspect of the present invention, an echo canceling method uses P as an integer of 2 or more, and P speakers and P microphones are arranged in a common sound field. Then, when the received signal is reproduced from the speaker, the echo that goes around the microphone via the echo path is deleted. The echo cancellation method estimates the diffuse residual echo contained in the collected sound signal in the wave number domain using the signal obtained by converting the collected sound signal collected by the microphone into the wave number domain and the received signal in the wave number domain. A wave number domain diffuse residual echo estimation canceling step for canceling the diffuse residual echo estimated from the collected sound signal. The wave number domain diffusion residual echo estimation erasure step sets P ′ <P, and uses a compression matrix W that is a P ′ × P matrix to obtain a received signal vector X that is a P-dimensional vector having received signals for each wave number as elements. The difference between the received signal vector X and the input dimension compression step for compressing the compressed vector Z into the P′-dimensional compressed vector Z, the P-dimensional vector obtained by expanding the compressed vector Z with the complex conjugate transpose matrix of the compression matrix W, and the received signal vector X is minimized. Then, a power spectrum matrix that is a P ′ × P ′ matrix is calculated using a dimension compression matrix update step for updating the compression matrix W, and the compression vector Z and its complex conjugate and transposition, and a sound collected signal for each wave number is calculated. A compression input / output correlation coefficient calculation unit for calculating a cross spectrum matrix that is a P × P ′ matrix using a complex conjugate and transpose of a sound pickup signal vector that is a P-dimensional vector as an element and a compression vector Z And an input / output transfer characteristic matrix which is a P × P ′ matrix whose elements are estimated values of the input / output transfer characteristics of the received signal and the collected sound signal using the power spectrum matrix and the cross spectrum matrix. Input / output transfer characteristic estimation step, and diffusion residual echo estimation for multiplying the compression vector Z by an input / output transfer characteristic matrix to obtain a diffuse residual echo vector which is a P-dimensional vector having an estimated value of diffuse residual echo for each wave number as an element And a subtracting step for obtaining a difference between the collected sound signal in the wave number domain and the estimated value of the diffuse residual echo in the wave number domain.
本発明によれば、従来法以上に残留エコーを低減することができるという効果を奏する。 According to the present invention, it is possible to reduce the residual echo more than the conventional method.
以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」等は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。 Hereinafter, embodiments of the present invention will be described. In the drawings used for the following description, constituent parts having the same function and steps for performing the same process are denoted by the same reference numerals, and redundant description is omitted. In the following description, the symbol “^” or the like used in the text should be described immediately above the character immediately before, but it is described immediately after the character due to restrictions on text notation. In the formula, these symbols are written in their original positions. Further, the processing performed for each element of a vector or matrix is applied to all elements of the vector or matrix unless otherwise specified.
<第一実施形態のポイント>
第一実施形態では、波数領域において受話信号から拡散残留エコーへの伝達特性を高精度かつ低演算量で推定する手段と、波数領域において誤差信号から拡散残留エコーを差し引く手段とを備える。波数領域の受話信号から波数領域の誤差信号への伝達特性を行列として推定することで拡散残留エコーの推定を高精度化する。さらに、この波数領域の受話信号を圧縮してから推定に使用することで演算量を大幅に圧縮する。この圧縮した受話信号と誤差信号の相関を利用することで残留エコー以外の信号による推定揺らぎを抑える。
<Points of first embodiment>
In the first embodiment, there are provided means for estimating the transfer characteristic from the received signal to the diffuse residual echo in the wave number domain with high accuracy and low computational complexity, and means for subtracting the diffuse residual echo from the error signal in the wave number domain. The estimation of the diffuse residual echo is improved by estimating the transfer characteristic from the received signal in the wave number domain to the error signal in the wave number domain as a matrix. Furthermore, the amount of calculation is greatly reduced by compressing the received signal in the wave number domain and then using it for estimation. By utilizing the correlation between the compressed received signal and the error signal, the estimated fluctuation due to a signal other than the residual echo is suppressed.
<第一実施形態に係るエコー消去装置100>
図1はマルチチャネル通信会議システムにおけるエコー消去装置100の配置例を、図2はエコー消去装置100の機能ブロック図を、図3はその処理フローを示す。
エコー消去装置100を含むマルチチャネル通信会議システムはPチャネルの再生系とPチャネルの収音系からなる。ただし、P≧2である。このマルチチャネル通信会議システムにおいて、P個のスピーカ2pとP個のマイクロホン3pとが共通の音場に配置される。Pチャネルの受話信号x(p,n)は、スピーカ2pで音響信号として再生され、音響エコー経路を経てP個のマイクロホン3pにそれぞれ回り込む。この回り込む信号成分が前述のエコーである。ただし、p=1,2,…,Pであり、nは時刻を表すインデックスである。
<
FIG. 1 shows an arrangement example of the
The multi-channel communication conference system including the
エコー消去装置100は、P個の受話端1pのそれぞれを介して受話信号x(p,n)を受け取り、P個のマイクロホン3pのそれぞれで収音される収音信号y(p,n)を受け取る。さらに、P個の収音信号y(p,n)のそれぞれからエコーを消去して、送話信号e(3)(p,n)を生成し、送話端4pに出力する。
エコー消去装置100は、周波数領域変換部11と、波数変換部12と、波数領域エコーレプリカ生成部21と、逆波数変換部31と、時間領域変換部32と、フレーム合成部34と、P個の減算部33pと、誤差周波数領域変換部41と、誤差波数変換部42とを含む。なお、エコー消去装置100は、既存技術(例えば非特許文献2参照)を用いて、波数領域適応アルゴリズムを実現する。
さらに、エコー消去装置100は、波数領域で受話信号と誤差信号とから残留エコーを推定し、誤差信号から残留エコーを差し引く残留エコー消去部120を含む。以下、各部の詳細を説明する。
The
Further, echo canceling
<周波数領域変換部11>
周波数領域変換部11は、Pチャネルの時間領域の受話信号x(p,n)を受け取り、チャネルp毎に周波数領域の受話信号Xf(p,i)に変換し(s1)、P×2F個の周波数領域の受話信号Xf(p,i)を波数変換部12に出力する。ただし、iはフレーム番号を、2Fは1フレーム内に含まれるサンプル数を、fは周波数のインデックスを表し、f=0,1,…,2F−1である。信号のサンプリング周波数をfSとすると、Xf(p,i)はフレームiにおけるチャネルpの受話信号の周波数fSf/2F[Hz]の成分を表す。なお、周波数領域変換の方法としては、高速フーリエ変換(Fast Fourier Transform;以下「FFT」と略す)等が考えられる。
<
The frequency
まず、周波数領域変換部11は、受話信号x(p,n)をF/D個受け取る毎に(言い換えると、n=iF/Dの関係になる毎に)、2F個の受話信号x(p,n−2F+1),x(p,n−2F+2),…,x(p,n)を1フレーム分としてブロック化し、フレーム単位の受話信号x(p,i)を得る。ただし、Fは自然数であり、DはFを割り切る自然数である。例えば、
x(p,i)=[x(p,(iF/D)-2F+1),x(p,(iF/D)-2F+2),…,x(p,iF/D)]T (1)
である。ただし、Tは転置を表す。以下、各信号を1フレーム=2Fサンプル、シフト量F/Dサンプルでブロック化する。FFT計算を簡略化・高速化するために、Fを2のべき乗にとることが多い。以下ではD≧2の場合を示す。
First, the frequency
x (p, i) = [x (p, (iF / D) -2F + 1), x (p, (iF / D) -2F + 2), ..., x (p, iF / D)] T (1)
It is. However, T represents transposition. Hereinafter, each signal is blocked by 1 frame = 2F samples and shift amount F / D samples. In order to simplify and speed up the FFT calculation, F is often raised to a power of 2. Hereinafter, a case of D ≧ 2 is shown.
さらに、周波数領域変換部11は、フレーム単位の受話信号x(p,i)を、次式のように周波数領域の受話信号X(p,i)に変換する。
X(p,i)=FFT(x(p,i))=[X0(p,i) … Xf(p,i) … X2F-1(p,i)] (2)
なお、受話信号X(p,i)を含め、周波数領域の各信号は短時間スペクトルにより表される。
Further, the frequency
X (p, i) = FFT (x (p, i)) = [X 0 (p, i)… X f (p, i)… X 2F-1 (p, i)] (2)
Note that each signal in the frequency domain, including the received signal X (p, i), is represented by a short-time spectrum.
<波数変換部12>
波数変換部12は、P×2F個の周波数領域の受話信号Xf(p,i)を受け取り、以下の式(3)や(4)により、周波数f毎に波数領域の受話信号X(W) f(k,i)に変換し(s3)、P×2F個の波数領域の受話信号X(W) f(k,i)を波数領域エコーレプリカ生成部21及び残留エコー消去部120に出力する。ただし、kは波数のインデックスであり、Kを自然数とし、チャネル数Pが偶数でP=2Kのときk=−K+1,−K+2,…,−1,0,1,…,Kであり、チャネル数Pが奇数でP=2K+1のときk=−K,−K+1,…,−1,0,1,…,Kである。
<
The
(1)チャネル数Pが偶数でP=2Kのとき、
X(W) f(i)=FFT([Xf(1,i) Xf(2,i) … Xf(P,i)])
=[X(W) f(0,i) … X(W) f(k,i) … X(W) f(K,i) X(W) f(-K+1,i) … X(W) f(-1,i)]
(3)
である。
(2)チャネル数Pが奇数でP=2K+1のとき、
X(W) f(i)=FFT([Xf(1,i) Xf(2,i) … Xf(P,i)])
=[X(W) f(0,i) … X(W) f(k,i) … X(W) f(K,i) X(W) f(-K,i) … X(W) f(-1,i)] (4)
である。波数領域への変換は、2のべき乗の点数を持つFFTで高速に行うため、以下、チャネル数Pが偶数の場合(P=2K)について説明を進める。なお、受話信号X(W) f(k,i)を含め、波数領域の各信号は短時間スペクトルにより表される。
(1) When the number of channels P is an even number and P = 2K,
X (W) f (i) = FFT ([X f (1, i) X f (2, i)… X f (P, i)])
= [X (W) f (0, i)… X (W) f (k, i)… X (W) f (K, i) X (W) f (-K + 1, i)… X ( W) f (-1, i)]
(3)
It is.
(2) When the number of channels P is odd and P = 2K + 1,
X (W) f (i) = FFT ([X f (1, i) X f (2, i)… X f (P, i)])
= [X (W) f (0, i)… X (W) f (k, i)… X (W) f (K, i) X (W) f (-K, i)… X (W) f (-1, i)] (4)
It is. Since the conversion to the wave number domain is performed at high speed with an FFT having a power of 2, the following description will be given for the case where the number of channels P is an even number (P = 2K). Each signal in the wave number domain including the received signal X (W) f (k, i) is represented by a short-time spectrum.
<波数領域エコーレプリカ生成部21>
波数領域エコーレプリカ生成部21は、P×2F個の波数領域の受話信号X(W) f(k,i)とP×2F個の波数領域の誤差信号E(W) f(k,i)(詳細は後述する)とを受け取り、これらの値を用いて、f≦Fにおいて、P×(F+1)個の波数領域のエコーレプリカY^(W) f(k,i)を生成し、逆波数変換部31に出力する。なお、エコーレプリカとは、収音信号に含まれるエコーを模したものであり、エコーの推定値である。
<Wave number domain
The wave number domain echo
図4は波数領域エコーレプリカ生成部21の機能ブロック図を示す。波数領域エコーレプリカ生成部21は、修正量算出部211と、フィルタ係数部213と、乗算部215とを含む。
FIG. 4 shows a functional block diagram of the wave number domain echo
(乗算部215)
波数領域エコーレプリカ生成部21の乗算部215は、P×2F個の波数領域の受話信号X(W) f(k,i)を受け取る。また、後述するフィルタ係数部213からP×(F+1)×(2δ+1)個の波数領域のフィルタ係数H(W) f(k,k+dk,i)(ただしf≦F)を受け取る。ただし、dk=−δ,−δ+1,…,−1,0,1,…,δ−1,δである。δとして、非特許文献2では1もしくは2が推奨されている。乗算部215は、f≦Fにおいて、次式のように、受話信号X(W) f(k,i)にフィルタ係数H(W) f(k,k+dk,i)を乗じて、波数領域のエコーレプリカY^(W) f(k,i)を生成し(s5)、逆波数変換部31に出力する。
(Multiplier 215)
The
このように波数領域のエコーレプリカY^(W) f(k,i)を生成することで、隣接する空間周波数成分を含むことができる。隣接する空間周波数成分を含む必要がない場合には、δ=0として次式により、波数領域のエコーレプリカY^(W) f(k,i)を生成してもよい。
Y^(W) f(k,i)=H(W) f(k,k,i)X(W) f(k,i) (6)
なお、修正量算出部211及びフィルタ係数部213の処理については後述する。
By generating the echo replica Y ^ (W) f (k, i) in the wave number domain in this way, adjacent spatial frequency components can be included. If it is not necessary to include adjacent spatial frequency components, an echo replica Y ^ (W) f (k, i) in the wave number domain may be generated by the following equation with δ = 0.
Y ^ (W) f (k, i) = H (W) f (k, k, i) X (W) f (k, i) (6)
The processing of the correction
<逆波数変換部31>
逆波数変換部31は、P×(F+1)個の波数領域のエコーレプリカY^(W) f(k,i)を受け取り(ただしf≦F)、次式のように周波数f毎に周波数領域のエコーレプリカY^f(p,i)に変換する(s9)。
[Y^f(1,i) Y^f(2,i) … Y^f(P,i)]
=IFFT([Y^(W) f(0,i)…Y^(W) f(k,i)…Y^(W) f(K,i) Y^(W) f(-K+1,i)…Y^(W) f(-1,i)])
(7)
なお、周波数f>Fについては、実数信号のFFT結果に関する対称性から、次式で周波数領域のエコーレプリカY^f(p,i)を求める。
Y^f(p,i)=conj(Y^2F-f(p,i)) (8)
ここで、conj(・)は、・の複素共役をとることを意味する。このようにして求めた合計P×2F個の周波数領域のエコーレプリカY^f(p,i)を時間領域変換部32に出力する。なお、逆波数変換方法としては、波数変換部12における波数領域変換方法に対応するものを用いればよい。
<Reverse
The inverse wave
[Y ^ f (1, i) Y ^ f (2, i)… Y ^ f (P, i)]
= IFFT ([Y ^ (W) f (0, i)… Y ^ (W) f (k, i)… Y ^ (W) f (K, i) Y ^ (W) f (-K + 1 , i)… Y ^ (W) f (-1, i)])
(7)
For the frequency f> F, the echo replica Y ^ f (p, i) in the frequency domain is obtained by the following equation from the symmetry regarding the FFT result of the real signal.
Y ^ f (p, i) = conj (Y ^ 2F-f (p, i)) (8)
Here, conj (·) means taking a complex conjugate of •. The total P × 2F frequency domain echo replicas ^ f (p, i) obtained in this way are output to the time
<時間領域変換部32>
時間領域変換部32は、P×2F個の周波数領域のエコーレプリカY^f(p,i)を受け取り、次式のように、チャネルp毎に周波数領域のエコーレプリカY^f(p,i)を逆FFTし、時間領域のエコーレプリカ信号ベクトルy^(p,i)(要素数はF個)に変換する(s9)。
y^(p,i)=[IF 0F]IFFT([Y^0(p,i)…Y^f(p,i)…Y^2F-1(p,i)]) (9)
ここで0FはF×Fの零行列、IFはF×Fの単位行列である。P個の時間領域のエコーレプリカ信号ベクトルy^(p,i)をフレーム合成部34に出力する。時間領域変換方法としては、周波数領域変換部11における周波数領域変換方法に対応するものを用いればよい。
<Time
Time
y ^ (p, i) = [I F 0 F ] IFFT ([Y ^ 0 (p, i)… Y ^ f (p, i)… Y ^ 2F-1 (p, i)]) (9)
Here, 0 F is an F × F zero matrix, and IF is an F × F unit matrix. P time echo replica signal vectors y ^ (p, i) are output to the
<フレーム合成部34>
フレーム合成部34は、P個の時間領域のエコーレプリカ信号ベクトルy^(p,i)を受け取る。周波数領域変換部11において受話信号x(p,n)をD≧2でフレーム化した場合には、フレーム合成部34は、フレームiで求めたエコーレプリカ信号ベクトルy^(p,i)と一つ前のフレームi−1で求めたエコーレプリカ信号ベクトルy^(p,i−1)とに対して窓かけ処理を行った上で、合成し(s13)、合成後のP個の時間領域のエコーレプリカ信号ベクトルy^’(p,i)をそれぞれP個の減算部33pに出力する。
<
The
D=2の場合、長さF/Dのハニング窓をWHとして、合成後の長さF/Dのエコーレプリカ信号ベクトルy^’(p,i)は次式で算出される。この合成の様子を図5に示す。
y^'(p,i-1)=[0F/DIF/D]diag(WH)y^(p,i-1)+[IF/D 0F/D]diag(WH)y^(p,i) (10)
ただし、0F/Dは(F/D)×(F/D)のゼロ行列、IF/Dは(F/D)×(F/D)の単位行列、diag(・)は・を対角成分とし、それ以外が零であるような行列である。
In the case of D = 2, the Hanning window of length F / D is set to WH , and the synthesized echo replica signal vector y ^ '(p, i) of length F / D is calculated by the following equation. The state of this synthesis is shown in FIG.
y ^ '(p, i-1) = [0 F / D I F / D ] diag (W H ) y ^ (p, i-1) + [I F / D 0 F / D ] diag (W H ) y ^ (p, i) (10)
However, 0 F / D is zero matrix, I F / D is a unit matrix of (F / D) × (F / D), diag (·) is a-pair (F / D) × (F / D) The matrix is a corner component and the others are zero.
<減算部33p>
減算部33pは、時間領域のエコーレプリカ信号ベクトルy^’(p,i−1)とマイクロホン3pで収音された収音信号y(p,n)とを受け取る。エコーレプリカ信号はフレーム合成のためにF/D遅延している。これを考慮して収音信号y(p,n)を1フレーム=Fサンプル、シフト量F/Dサンプルで
y(p,i-1)=[y(p,((i-1)F/D)-F+1),y(p,((i-1)F/D)-F+2),…,y(p,(i-1)F/D)]T
のようにブロック化し、収音信号ベクトルy(p,i−1)とする。減算部33pは、次式のように時間領域の収音信号ベクトルy(p,i−1)から時間領域のエコーレプリカ信号ベクトルy^’(p,i−1)を差し引き(s11)、時間領域の誤差信号ベクトルe(p,i)(要素数はF個)を求め、残留エコー消去部120及び誤差周波数領域変換部41に出力する。
e(p,i)=y(p,i-1)-y^'(p,i-1) (11)
このような構成により、エコー消去装置100は、エコー消去を図る。
<Subtraction unit 33 p >
The subtractor 33 p receives the time-domain echo replica signal vector y ^ ′ (p, i−1) and the collected sound signal y (p, n) collected by the
y (p, i-1) = (y (p, ((i-1) F / D) -F + 1), y (p, ((i-1) F / D) -F + 2), …, Y (p, (i-1) F / D)] T
And the collected sound signal vector y (p, i-1). The subtractor 33 p subtracts the echo replica signal vector y ^ '(p, i-1) in the time domain from the collected signal vector y (p, i-1) in the time domain as in the following equation (s11), A time domain error signal vector e (p, i) (the number of elements is F) is obtained and output to the residual
e (p, i) = y (p, i-1) -y ^ '(p, i-1) (11)
With such a configuration, the
<誤差周波数領域変換部41>
誤差周波数領域変換部41は、P個の時間領域の誤差信号ベクトルe(p,i)を受け取り、次式のように、チャネルp毎に時間領域の誤差信号ベクトルe(p,i)に0詰めをしたものを周波数領域に変換し(s15)、P×2F個の周波数領域の誤差信号Ef(p,i)を誤差波数変換部42に出力する。
<Error frequency
The error frequency
<誤差波数変換部42>
誤差波数変換部42は、P×2F個の周波数領域の誤差信号Ef(p,i)を受け取り、次式により、周波数f毎に波数領域の誤差信号E(W) f(k,i)に変換し(s17)、P×2F個の波数領域の誤差信号E(W) f(k,i)を波数領域エコーレプリカ生成部21に出力する。
E(W) f(p,i)=FFT([Ef(1,i) … Ef(P,i)]
=[E(W) f(0,i) … E(W) f(k,i) … E(W) f(K,i) E(W) f(-K+1,i) … E(W) f(-1,i)]
(13)
<Error
The error wave
E (W) f (p, i) = FFT ([E f (1, i)… E f (P, i)]
= [E (W) f (0, i)… E (W) f (k, i)… E (W) f (K, i) E (W) f (-K + 1, i)… E ( W) f (-1, i)]
(13)
(修正量算出部211)
波数領域エコーレプリカ生成部21内の修正量算出部211は、P×2F個の波数領域の受話信号X(W) f(k,i)とP×2F個の波数領域の誤差信号E(W) f(k,i)とを受け取り(図2及び図4参照)、f(f≦F)において、−K+1≦k≦Kの範囲で、次式のように波数領域の適応フィルタのフィルタ係数の修正量dH(W) f(k,k+dk,i)(ただし−δ≦dk≦δ)を算出し(s19)、P×(F+1)×(2δ+1)個の修正量dH(W) f(k,k+dk,i)をフィルタ係数部213に出力する。
(Correction amount calculation unit 211)
The correction
なお、ρは分母が0になることを防止するための微小な正定数であり、右辺分母中のB(W) f(k,i)は修正量dH(W) f(k,k+dk,i)を補正しており、
Note that ρ is a minute positive constant for preventing the denominator from becoming 0, and B (W) f (k, i) in the right-side denominator is the correction amount dH (W) f (k, k + dk, i). )
により計算される。B(W) f(k,i)は受話信号X(W) f(k−δ,i)〜X(W) f(k+δ,i)のパワーの総和であり、βはパワー計算で短時間平均をとるための平滑化定数であり、0〜1の値をとる。
Is calculated by B (W) f (k, i) is the sum of the powers of the received signals X (W) f (k−δ, i) to X (W) f (k + δ, i), and β is a short time in the power calculation. This is a smoothing constant for taking an average and takes a value of 0 to 1.
(フィルタ係数部213)
波数領域エコーレプリカ生成部21内のフィルタ係数部213は、P×(F+1)×(2δ+1)個の修正量dH(W) f(k,k+dk,i)を受け取り(ただしf≦F)、次式でフィルタ係数H(W) f(k,k+dk,i)を更新し(s21)、P×(F+1)×(2δ+1)個の更新後の波数領域のフィルタ係数H(W) f(k,k+dk,i+1)を乗算部215に出力する。
H(W) f(k,k+dk,i+1)=H(W) f(k,k+dk,i)+μdH(W) f(k,k+dk,i) (16)
ただし、μは0〜1の値をとるステップサイズである。乗算部215における処理は前述の通りである。
(Filter coefficient part 213)
The
H (W) f (k, k + dk, i + 1) = H (W) f (k, k + dk, i) + μdH (W) f (k, k + dk, i) (16)
However, μ is a step size taking a value of 0-1. The processing in the
<残留エコー消去部120>
残留エコー消去部120は、P×2F個の波数領域の受話信号X(W) f(k,i)と、P個の時間領域の誤差信号ベクトルe(p,i)とを受け取り、波数領域の誤差信号に含まれる残留エコーを推定し、波数領域の誤差信号から推定した残留エコーを消去し(s23)、P個の時間領域の送話信号e(3)(p,n)を出力する。
<
The residual
図6は残留エコー消去部120の機能ブロック図を、図7はその処理フローを示す。残留エコー消去部120は、周波数領域変換部121と、波数変換部122と、波数領域残留エコー推定消去部1231と、波数領域拡散残留エコー推定消去部1232と、逆波数変換部124と、時間領域変換部125と、フレーム合成部126とを含む。残留エコーには、反射等によらない直接波によるものと、直接波以外の反射波等によるもの(拡散残留エコー)とが含まれる。残留エコー消去部120では、直接波による残留エコーを波数領域残留エコー推定消去部1231で、拡散残留エコーを波数領域拡散残留エコー推定消去部1232でそれぞれ推定し、消去する。以下、処理の詳細を説明する。
FIG. 6 is a functional block diagram of the residual
(周波数領域変換部121)
周波数領域変換部121は、P個の時間領域の誤差信号ベクトルe(p,i)を受け取り、次式のように、チャネルp毎にフレームiにおける誤差信号ベクトルe(p,i)と一つ前のフレームi−1における誤差信号ベクトルe(p,i−1)とを用いて、周波数領域の誤差信号E(1) f(p,i)に変換し(s231)、P×2F個の周波数領域の誤差信号E(1) f(p,i)を波数変換部122に出力する。例えば、周波数領域変換部11と同様の方法により周波数領域に変換する。
E(1)(p,i)=FFT([eT(p,i-1),eT(p,i)])=[E(1) 0(p,i) … E(1) f(p,i) … E(1) 2F-1(p,i)]
(17)
(Frequency domain transform unit 121)
The frequency
E (1) (p, i) = FFT ([e T (p, i-1), e T (p, i)]) = [E (1) 0 (p, i)… E (1) f (p, i)… E (1) 2F-1 (p, i)]
(17)
(波数変換部122)
波数変換部12は、P×2F個の周波数領域の誤差信号E(1) f(p,i)を受け取り、次式により、周波数f毎に波数領域の誤差信号E(W1) f(k,i)に変換し(s232)、P×2F個の波数領域の誤差信号E(W1) f(k,i)を波数領域残留エコー推定消去部1231に出力する。
E(W1) f(i)=FFT([E(1) f(1,i) E(1) f(2,i) … E(1) f(P,i)])
=[E(W1) f(0,i) … E(W1) f(k,i) … E(W1) f(K,i) E(W1) f(-K+1,i) … E(W1) f(-1,i)]
(18)
(Wave number converter 122)
The
E (W1) f (i) = FFT ([E (1) f (1, i) E (1) f (2, i)… E (1) f (P, i)])
= [E (W1) f (0, i)… E (W1) f (k, i)… E (W1) f (K, i) E (W1) f (-K + 1, i)… E ( W1) f (-1, i)]
(18)
(波数領域残留エコー推定消去部1231)
波数領域残留エコー推定消去部1231は、P×2F個の波数領域の受話信号X(W) f(k,i−1)と、P×2F個の波数領域の誤差信号E(W1) f(k,i)とを受け取り、これらの値を用いて、f≦Fにおいて、誤差信号E(W1) f(k,i)に含まれる直接波による残留エコーを推定し、波数領域の収音信号から推定した直接波による残留エコーを消去し(s2331)、直接波による残留エコーを消去した、P×(F+1)個の波数領域の誤差信号E(W2) f(p,i)を求める。なお周波数領域の受話信号として、X(W) f(k,i)ではなく、1つ前のX(W) f(k,i−1)を用いるのは、エコーレプリカ信号をフレーム合成する際に生じる遅延を考慮に入れているためである。
(Wave number domain residual echo estimation elimination unit 1231)
The wave number domain residual echo
以下、処理の詳細を説明する。
図8は波数領域残留エコー推定消去部1231の機能ブロック図を、図9はその処理フローを示す。
波数領域残留エコー推定消去部1231は、入出力相関係数算出部12311と、入出力伝達特性推定部12312と、残留エコー推定部12313と、残留エコー補正部12314と減算部12315とを含む。
Details of the processing will be described below.
FIG. 8 is a functional block diagram of the wave number domain residual echo
Wave number domain residual echo
((入出力相関係数算出部12311))
入出力相関係数算出部12311は、P×2F個の波数領域の受話信号X(W) f(k,i−1)とP×2F個の波数領域の誤差信号E(W1) f(k,i)とを受け取り、f≦Fにおいて、波数領域の残留エコー信号を出力とする系の伝達特性を推定するために、時刻n=iF/Dにおける波数領域の受話信号X(W) f(k,i−1)と波数領域の誤差信号E(W1) f(k,i)とから
Pf(k,i)=E[X(W)* f(k,i-1)X(W) f(k,i-1)]
Qf(k,i)=E[X(W)* f(k,i-1)E(W1) f(k,i)] (19)
により、受話信号のパワースペクトルPf(k,i)と、受話信号と誤差信号との間のクロススペクトルQf(k,i)とを算出し(s2331a)、入出力伝達特性推定部12312に出力する。ただし、iはフレーム番号であり、時刻nとはn=iF/Dの関係があり、*は複素共役を、E[・]は・の平均をとることを表す。平均処理の一例としては、
E[X(W)* f(k,i-1)X(W) f(k,i-1)]=βE[X(W)* f(k,i-2)X(W) f(k,i-2)]+(1-β)X(W)* f(k,i-1)X(W) f(k,i-1)
のように、1フレーム前の処理結果と0〜1の値をとる平滑化定数βを用いる方法や過去の数〜数十フレームの統計的平均値として求める方法等が考えられる。
((Input / output correlation coefficient calculation unit 12311))
The input / output correlation
P f (k, i) = E [X (W) * f (k, i-1) X (W) f (k, i-1)]
Q f (k, i) = E [X (W) * f (k, i-1) E (W1) f (k, i)] (19)
Thus, the power spectrum P f (k, i) of the received signal and the cross spectrum Q f (k, i) between the received signal and the error signal are calculated (s2331a), and the input / output transfer
E [X (W) * f (k, i-1) X (W) f (k, i-1)] = βE [X (W) * f (k, i-2) X (W) f ( k, i-2)] + (1-β) X (W) * f (k, i-1) X (W) f (k, i-1)
As described above, a method using a processing result of one frame before and a smoothing constant β that takes a value of 0 to 1 or a method of obtaining a statistical average value of past several to several tens of frames can be considered.
((入出力伝達特性推定部12312))
入出力伝達特性推定部12312は、P×(F+1)個のパワースペクトルPf(k,i)とP×(F+1)個のクロススペクトルQf(k,i)とを受け取り、f(f≦F)において、パワースペクトルPf(k,i)及びクロススペクトルQf(k,i)から
((Input / output transfer characteristic estimation unit 12312))
The input / output transfer
により、受話信号と誤差信号との入出力伝達特性を推定し(s2331b)、推定値G’f(k,i)を残留エコー推定部12313に出力する。
Thus, the input / output transfer characteristics between the received signal and the error signal are estimated (s2331b), and the estimated value G ′ f (k, i) is output to the
また、次式により推定値G’f(k,i)を平滑化し、平滑化した推定値Gf(k,i)を残留エコー推定部12313に出力してもよい。
Further, the estimated value G ′ f (k, i) may be smoothed by the following equation, and the smoothed estimated value G f (k, i) may be output to the residual
本実施形態では、平滑化した推定値Gf(k,i)を出力するものとする。ここで、β2は、入出力伝達特性の推定値を平滑化するための定数であり、0〜1の間の値をとる。
In the present embodiment, it is assumed that a smoothed estimated value G f (k, i) is output. Here, beta 2 are constants for smoothing the estimate of the input-output transfer characteristic, it takes a value between 0 and 1.
((残留エコー推定部12313))
残留エコー推定部12313は、P×(F+1)個の波数領域の受話信号X(W) f(k,i−1)と、P×(F+1)個の推定値Gf(k,i)とを受け取り、f(f≦F)において、次式のように、受話信号X(W) f(k,i−1)に推定値Gf(k,i)を乗じて、残留エコーを推定し(s2331c)、推定値ΔE(W1) f(k,i)を残留エコー補正部12314に出力する。
ΔE(W1) f(k,i)=Gf(k,i)X(W) f(k,i-1) (21)
((Residual Echo Estimator 12313))
The
ΔE (W1) f (k, i) = G f (k, i) X (W) f (k, i-1) (21)
((残留エコー補正部12314))
残留エコー補正部12314は、P×(F+1)個の推定値ΔE(W1) f(k,i)と、P×2F個の波数領域の誤差信号E(W1) f(k,i)とを受け取り、f(f≦F)において、次式で補正し(s2331d)、補正後の残留エコーの推定値ΔEII(W1) f(k,i)を減算部12315に出力する。
((Residual echo correction unit 12314))
The residual
ただし、式中のS(W) f(k,i)は、送話信号の推定値であり、次式により算出される。
S(W) f(k,i)=E(W1) f(k,i)-ΔE(W1) f(k,i) (23)
また、Tは各スペクトルの推定の自由度の数であり、入出力相関係数算出部12311においてパワースペクトルPf(k,i)及びクロススペクトルQf(k,i)を算出するときのフレーム数が、これにあたる。Mは入力変数の数であり、式(20)の場合にはM=1になる。またF2M,T−2M,alphaは、自由度n1=2M、n2=T−2MのF分布の100×alpha百分比点である。
However, S (W) f (k, i) in a type | formula is an estimated value of a transmission signal, and is calculated by following Formula.
S (W) f (k, i) = E (W1) f (k, i) -ΔE (W1) f (k, i) (23)
T is the number of degrees of freedom of estimation of each spectrum, and the frame when the input / output correlation
なお、F分布は、統計学で用いられる連続確率分布である。統計的仮説検定の一手法である分散分析において、観測データにおける変動を誤差変動と各要因の変動に分解し、各要因の効果・有意性を判定する際に使用される。 The F distribution is a continuous probability distribution used in statistics. In analysis of variance, which is a method of statistical hypothesis testing, it is used to determine the effect / significance of each factor by breaking the variation in the observed data into error variation and the variation of each factor.
参考文献1によれば、M=1のとき入出力伝達特性推定部12312において推定される入出力伝達特性の推定値Gf(k,i)の信頼区間は、真値からの比率で
According to
の幅を持つ。
(参考文献1)J.S.ベンダット、A.G.ピアソル、「ランダムデータの統計的処理」、培風館、1976年、p.194〜197
With a width of
(Reference 1) J. Org. S. Vendat, A.M. G. Pearsol, “Statistical Processing of Random Data”, Baifukan, 1976, p. 194-197
短時間スペクトルに基づく入出力伝達特性推定部12311の推定では、本来よりも送話と残留エコーの相関性を高めに推定しやすく、伝達特性を高めに推定する傾向がある。このことに基づき、上記の補正は残留エコーの信頼区間の下端の値を残留エコーの補正値としている。
In the estimation of the input / output transfer
((減算部12315))
減算部12315は、P×2F個の波数領域の誤差信号E(W1) f(k,i)と、P×(F+1)個の波数領域の補正後の残留エコーの推定値ΔEII(W1) f(k,i)とを受け取り、f(f≦F)において、次式のように波数領域で誤差信号E(W1) f(k,i)から残留エコーの推定値ΔEII(W1) f(k,i)を差し引いて(s2331e)、差分E(W2) f(k,i)を求め、波数領域拡散残留エコー推定消去部1232に出力する。
E(W2) f(k,i)=E(W1) f(k,i)-ΔEII(W1) f(k,i) (25)
なお、差分E(W2) f(k,i)は、誤差信号E(W1) f(k,i)から直接波による残留エコーを消去した信号であり、誤差信号E(W2) f(k,i)ともいう。
((Subtraction unit 12315))
The subtracting
E (W2) f (k, i) = E (W1) f (k, i) -ΔE II (W1) f (k, i) (25)
The difference E (W2) f (k, i) is a signal obtained by eliminating the residual echo due to the direct wave from the error signal E (W1) f (k, i), and the error signal E (W2) f (k, i) It is also called i).
(波数領域拡散残留エコー推定消去部1232)
波数領域拡散残留エコー推定消去部1232は、P×2F個の波数領域の受話信号X(W) f(k,i−2)と、P×(F+1)個の波数領域の誤差信号E(W2) f(k,i)とを受け取り、これらの値を用いて、f≦Fにおいて、誤差信号E(W2) f(k,i)に含まれる拡散残留エコーを推定し、波数領域の誤差信号E(W2) f(k,i)から推定した拡散残留エコーを消去し、P×(F+1)個の波数領域の送話信号E(W3) f(p,i)を求め(s2332)、逆波数変換部124に出力する。
(Wave domain diffuse residual echo estimation elimination unit 1232)
Wave number domain diffuse residual echo
波数領域残留エコー推定消去部1232は、(1)波数領域残留エコー推定消去部1231よりも1フレーム前の受話信号X(W) f(k,i−2)を使うこと、(2)受話信号X(W) f(k,i−2)をベクトル(以下、波数領域受話信号ベクトルともいい、
X(W) f(i-2)=[X(W) f(0,i-2) … X(W) f(k,i-2) … X(W) f(K,i-2) X(W) f(-K+1,i-2) … X(W) f(-1,i-2)]
とする)として扱うこと、で壁面等で反射して拡散した拡散残留エコーを推定対象としている。以下、処理の詳細を説明する。
The wave number domain residual echo
X (W) f (i-2) = [X (W) f (0, i-2)… X (W) f (k, i-2)… X (W) f (K, i-2) X (W) f (-K + 1, i-2)… X (W) f (-1, i-2)]
In this case, a diffuse residual echo reflected and diffused by a wall surface or the like is used as an estimation target. Details of the processing will be described below.
図10は波数領域拡散残留エコー推定消去部1232の機能ブロック図を、図11はその処理フローを示す。
FIG. 10 is a functional block diagram of the wave number domain diffuse residual echo
波数領域拡散残留エコー推定消去部1232は、入力次元圧縮部12320と、次元圧縮行列更新部12326と、圧縮入出力相関係数算出部12321と、圧縮入出力伝達特性推定部12322と、拡散残留エコー推定部12323と、拡散残留エコー補正部12324と減算部12325とを含む。
Wave number domain diffusion residual echo
((入力次元圧縮部12320))
入力次元圧縮部12320は、後述する次元圧縮行列更新部12326で更新された、(F+1)個のP’×Pの圧縮行列Wf(i−1)と、P×2F個の波数領域の受話信号X(W) f(k,i−2)とを受け取る。なお、P×2F個の波数領域の受話信号X(W) f(k,i−2)を2F個の波数領域受話信号ベクトルX(W) f(i−2)として扱う。入力次元圧縮部12320は、圧縮行列Wf(i−1)をもちいて、f≦Fにおいて、波数領域受話信号ベクトルX(W) f(i−2)を、P’次元の波数領域圧縮ベクトルZ(W) f(i−2)に圧縮し(s2332a)、圧縮入出力相関係数算出部12321及び次元圧縮行列更新部12326に出力する。
((Input dimension compression unit 12320))
The input
Z(W) f(i-2)=Wf(i-1) X(W) f(i-2)
なお、P’<Pであり、P’の大きさは、Pの大きさは、環境(例えば部屋の広さや反響の程度)により適宜設定すればよく、例えば、Pの1/5〜1/10程度に設定することができる。
Z (W) f (i-2) = W f (i-1) X (W) f (i-2)
It should be noted that P ′ <P, and the size of P ′ may be appropriately set depending on the environment (for example, the size of the room and the degree of reverberation). It can be set to about 10.
((次元圧縮行列更新部12326))
次元圧縮行列更新部12326は、(F+1)個の波数領域圧縮ベクトルZ(W) f(i−2)とP×2F個の波数領域の受話信号X(W) f(k,i−2)とを受け取る。なお、P×2F個の波数領域の受話信号X(W) f(k,i−2)を2F個の波数領域受話信号ベクトルX(W) f(i−2)として扱う。次元圧縮行列更新部12326は、f≦Fにおいて、波数領域圧縮ベクトルZ(W) f(i−2)を圧縮行列Wf(i−1)の複素共役転置行列WH f(i−1)で伸長し、波数領域受話信号ベクトルX(W) f(i−2)との差dX(W) f(i−2)を求める。・Hは・の複素共役かつ転置を表わす
dX(W) f(i-2)= X(W) f(i-2) - WH f(i-1) Z(W) f(i-2)
= X(W) f(i-2) - WH f(i-1) Wf(i-1) X(W) f(i-2)
そして、差dX(W) f(i−2)の大きさが最小になるように圧縮行列Wf(i−1)を更新し(s2332g)、更新した圧縮行列Wf(i)を入力次元圧縮部12320に出力する。
((Dimension compression matrix update unit 12326))
The dimension compression
dX (W) f (i-2) = X (W) f (i-2)-W H f (i-1) Z (W) f (i-2)
= X (W) f (i-2)-W H f (i-1) W f (i-1) X (W) f (i-2)
Then, the compression matrix W f (i−1) is updated so that the magnitude of the difference dX (W) f (i−2) is minimized (s2332g), and the updated compression matrix W f (i) is input to the input dimension. The data is output to the
この更新には例えば、サブスペース追跡法をもちいることができる。一例として、参考文献2中のOPSA1を使用する際の詳細を以下にしめす。
For this update, for example, a subspace tracking method can be used. As an example, the details when using OPSA1 in
波数領域圧縮ベクトルZ(W) f(i−2)の自己相関行列RZZ(i−2)の逆行列R−1 ZZ(i−2)を、初期値R−1 ZZ(0)=δ0 −1Iから繰り返し推定する。ただし、δ0は非0の正の定数であり、繰り返し推定処理を初めて実行する際の0割を防止する。IはP’×P’単位行列である。またk(i)はP’次元の、V(i)はP次元の中間生成ベクトルである。λは0〜1の間の値をとる忘却定数であり、推定速度を決めるパラメータである。以下のように、圧縮行列Wf(i)を更新することができる。
k(i) = R-1 ZZ(i-3)Z(W)(i-2)/{λ+Z(W)H(i-3) R-1 ZZ(i-3) Z(W) (i-2)}
R-1 ZZ(i-2) = (1/λ){ R-1 ZZ(i-3)-k(i) Z(W)H(i-2) R-1 ZZ(i-3)}
V(i) = dX(W) f (i-2) - 0.5||dX(W) f (i-2)||2 WH f(i-1)k(i)
Wf(i) = Wf(i-1) + k(i)VH(i)/{1+0.25||dX(W) f (i-2)||2||k(i)||2}
(参考文献2)S.C. Douglas and X. Sun, "Designing orthonormal subspace tracking algorithms", the Thirty-Fourth Asilomar Conference on Signals, Systems and Computers 2000, 2000, vol. 2, pp. 1441--1445.
An inverse matrix R -1 ZZ (i-2) of the autocorrelation matrix R ZZ (i-2) of the wave number domain compression vector Z (W) f (i-2) is set to an initial value R -1 ZZ (0) = δ. It estimates repeatedly from 0 −1 I. However, δ 0 is a non-zero positive constant, and prevents 0% when the iterative estimation process is executed for the first time. I is a P ′ × P ′ identity matrix. K (i) is a P′-dimensional intermediate generation vector, and V (i) is a P-dimensional intermediate generation vector. λ is a forgetting constant that takes a value between 0 and 1, and is a parameter that determines the estimated speed. The compression matrix W f (i) can be updated as follows.
k (i) = R -1 ZZ (i-3) Z (W) (i-2) / {λ + Z (W) H (i-3) R -1 ZZ (i-3) Z (W) (i-2)}
R -1 ZZ (i-2) = (1 / λ) {R -1 ZZ (i-3) -k (i) Z (W) H (i-2) R -1 ZZ (i-3)}
V (i) = dX (W) f (i-2)-0.5 || dX (W) f (i-2) || 2 W H f (i-1) k (i)
W f (i) = W f (i-1) + k (i) V H (i) / {1 + 0.25 || dX (W) f (i-2) || 2 || k (i) | | 2 }
(Reference 2) SC Douglas and X. Sun, "Designing orthonormal subspace tracking algorithms", the Thirty-Fourth Asilomar Conference on Signals, Systems and Computers 2000, 2000, vol. 2, pp. 1441--1445.
((圧縮入出力相関係数算出部12321))
圧縮入出力相関係数算出部12321は、(F+1)個の波数領域圧縮ベクトルZ(W) f(i−2)とP×(F+1)個の波数領域の誤差信号E(W2) f(k,i)とを受け取る。なお、P×(F+1)個の波数領域の誤差信号E(W2) f(k,i)を(F+1)個の波数領域誤差信号ベクトルE(W2) f(k,i)(ただし、E(W2) f(i)=[E(W2) f(0,i) … E(W2) f(k,i) … E(W2) f(K,i) E(W2) f(-K+1,i) … E(W2) f(-1,i)])として扱う(ただしf≦F)。圧縮入出力相関係数算出部12321は、f≦Fにおいて、(F+1)個の波数領域圧縮ベクトルZ(W) f(i−2)と(F+1)個の波数領域誤差信号ベクトルE(W2) f(i)とから圧縮された受話信号のパワースペクトル行列P(2) f(i)と、圧縮された受話信号と誤差信号との間のクロススペクトル行列Q(2) f(i)とを次式により算出し(s2332b)、圧縮入出力伝達特性推定部12322に出力する。
P(2) f(i)=E[Z(W) f(i-2)Z(W)H f(i-2)]
Q(2) f(i)=E[E(W2) f(i) Z(W)H f(i-2)]
((Compressed input / output correlation coefficient calculation unit 12321))
The compression input / output correlation
P (2) f (i) = E [Z (W) f (i-2) Z (W) H f (i-2)]
Q (2) f (i) = E [E (W2) f (i) Z (W) H f (i-2)]
((圧縮入出力伝達特性推定部12322))
圧縮入出力伝達特性推定部12322は、P’×P’行列であるパワースペクトル行列P(2) f(i)とP×P’行列であるクロススペクトル行列Q(2) f(i)とを受け取る。なお、各行列は(F+1)個である。圧縮入出力伝達特性推定部12322は、f(f≦F)において、パワースペクトル行列P(2) f(i)及びクロススペクトル行列Q(2) f(i)から、次式により、入出力伝達特性行列G’f(i)を求め(s2332c)、拡散残留エコー推定部12323に出力する。
((Compression input / output transfer characteristic estimation unit 12322))
The compression input / output transfer
なお、入出力伝達特性行列G’f(i)は、圧縮された受話信号と誤差信号との入出力伝達特性の推定値を要素とするP×P’行列である。受話信号の圧縮では、主成分分析に似た考え方で、波数領域受話信号ベクトル(その要素は各波数成分)を主要な成分(主要なパターン)に分解し、近似する。この各主要成分と、残留エコーの各波数成分との対応が、入出力伝達特性行列G’f(i)で記述される。 The input / output transfer characteristic matrix G ′ f (i) is a P × P ′ matrix whose elements are estimated values of the input / output transfer characteristics of the compressed reception signal and error signal. In compression of the received signal, a wave number domain received signal vector (its elements are each wave number component) is decomposed into main components (main patterns) and approximated in a manner similar to principal component analysis. The correspondence between each main component and each wave number component of the residual echo is described by an input / output transfer characteristic matrix G ′ f (i).
また、次式により推定行列G’f(i)を平滑化し、平滑化した入出力伝達特性行列Gf(i)を拡散残留エコー推定部12323に出力してもよい。
Further, the estimation matrix G ′ f (i) may be smoothed by the following equation, and the smoothed input / output transfer characteristic matrix G f (i) may be output to the diffuse residual
本実施形態では、平滑化した入出力伝達特性行列Gf(i)を出力するものとする。ここで、β2は、入出力伝達特性の推定値を平滑化するための定数であり、0〜1の間の値をとる。 In this embodiment, a smoothed input / output transfer characteristic matrix G f (i) is output. Here, beta 2 are constants for smoothing the estimate of the input-output transfer characteristic, it takes a value between 0 and 1.
((拡散残留エコー推定部12323))
拡散残留エコー推定部12323は、(F+1)個の波数領域圧縮ベクトルZ(W) f(i−2)と、(F+1)個の入出力伝達特性行列Gf(i)とを受け取り、f(f≦F)において、次式のように、圧縮ベクトルZ(W) f(k,i−2)に入出力伝達特性行列Gf(i)を乗じて、拡散残留エコーベクトルΔE(W2) f(i)を求め(s2332d)、拡散残留エコー補正部12324に出力する。
ΔE(W2) f(i)=Gf(i)Z(W) f(i-2)
なお、拡散残留エコーベクトルΔE(W2) f(i)は、波数毎の拡散残留エコーの推定値を要素とするP次元のベクトルである。
((Diffusion residual echo estimation unit 12323))
The diffuse
ΔE (W2) f (i) = G f (i) Z (W) f (i-2)
The diffuse residual echo vector ΔE (W2) f (i) is a P-dimensional vector whose element is an estimated value of diffuse residual echo for each wave number.
((拡散残留エコー補正部12324))
拡散残留エコー補正部12324は、(F+1)個の拡散残留エコーベクトルΔE(W2) f(i)と、P×(F+1)個の波数領域の誤差信号E(W2) f(k,i)とを受け取り、f(f≦F)において、拡散残留エコーベクトルΔE(W2) f(i)の各要素ΔE(W2) f(k,i)を次式で補正し(s2332e)、補正後の拡散残留エコーの推定値ΔEII(W2) f(k,i)を減算部12325に出力する。
((Diffusion residual echo correcting unit 12324))
The diffusion residual
ただし、式中のS(W2) f(k,i)は、送話信号の推定値であり、次式により算出される。
S(W2) f(k,i)=E(W2) f(k,i)-ΔE(W2) f(k,i)
また、Tは各スペクトルの推定の自由度の数であり、圧縮入出力相関係数算出部12321においてパワースペクトル行列P(2) f(i)及びクロススペクトル行列Q(2) f(i)を算出するときのフレーム数が、これにあたる。Mは入力変数の数であり、式(30)の場合にはM=1になる。またF2M,T−2M,alphaは、自由度n1=2M、n2=T−2MのF分布の100×alpha百分比点である。
However, S (W2) f (k, i) in a formula is an estimated value of a transmission signal, and is calculated by the following formula.
S (W2) f (k, i) = E (W2) f (k, i) -ΔE (W2) f (k, i)
T is the number of degrees of freedom of estimation of each spectrum, and the compressed input / output correlation
((減算部12325))
減算部12325は、P×(F+1)個の波数領域の誤差信号E(W2) f(k,i)と、P×(F+1)個の波数領域の補正後の拡散残留エコーの推定値ΔEII(W2) f(k,i)とを受け取り、f(f≦F)において、次式のように波数領域で誤差信号E(W2) f(k,i)から拡散残留エコーの推定値ΔEII(W2) f(k,i)を差し引いて(s2332f)、差分を波数領域の送話信号E(W3) f(k,i)として求め、逆波数変換部124に出力する。
E(W3) f(k,i)=E(W2) f(k,i)-ΔEII(W2) f(k,i)
((Subtraction unit 12325))
The subtracting
E (W3) f (k, i) = E (W2) f (k, i) -ΔE II (W2) f (k, i)
(逆波数変換部124)
逆波数変換部124は、P×(F+1)個の波数領域の送話信号E(W3) f(k,i)を受け取り(図6参照)、f(f≦F)において、次式のように周波数f毎に周波数領域の送話信号E(3) f(p,i)に変換する(s234)。
[E(3) f(1,i) E(3) f(2,i) … E(3) f(P,i)]
=IFFT([E(W3) f(0,i)…E(W3) f(k,i)…E(W3) f(K,i) E(W3) f(-K+1,i)…E(W3) f(-1,i)])
なお、周波数f>Fについては、実数信号のFFT結果に関する対称性から、次式で周波数領域の送話信号E(3) f(p,i)を求める。
E(3) f(p,i)=conj(E(3) 2F-f(p,i))
このようにして求めた合計P×2F個の周波数領域の送話信号E(3) f(p,i)を時間領域変換部125に出力する。なお、逆波数変換方法としては、波数変換部122における波数領域変換方法に対応するものを用いればよい。
(Reverse wave number converter 124)
The inverse
[E (3) f (1, i) E (3) f (2, i)… E (3) f (P, i)]
= IFFT ([E (W3) f (0, i)… E (W3) f (k, i)… E (W3) f (K, i) E (W3) f (−K + 1, i)… E (W3) f (-1, i)])
For the frequency f> F, the transmission signal E (3) f (p, i) in the frequency domain is obtained by the following equation from the symmetry regarding the FFT result of the real signal.
E (3) f (p, i) = conj (E (3) 2F-f (p, i))
The total P × 2F frequency domain transmission signals E (3) f (p, i) thus obtained are output to the time
(時間領域変換部125)
時間領域変換部125は、P×2F個の周波数領域の送話信号E(3) f(p,i)を受け取り、次式のように、チャネルp毎に周波数領域の送話信号E(3) f(p,i)を逆FFTし、時間領域の送話信号ベクトルe(3)(p,i)(要素数は2F個)に変換し(s235)、フレーム合成部126に出力する。
e(3)(p,i)=IFFT([E(3) 0(p,i)…E(3) f(p,i)…E(3) 2F-1(p,i)])
時間領域変換方法としては、周波数領域変換部121における周波数領域変換方法に対応するものを用いればよい。
(Time domain conversion unit 125)
Time
e (3) (p, i) = IFFT ([E (3) 0 (p, i)… E (3) f (p, i)… E (3) 2F-1 (p, i)])
As the time domain conversion method, a method corresponding to the frequency domain conversion method in the frequency
(フレーム合成部126)
フレーム合成部126は、P個の時間領域の送話信号ベクトルe(3)(p,i)を受け取る。周波数領域変換部121において、受話信号x(p,n)をD≧2でフレーム化した場合には、フレーム合成部126は、フレームiで求めた送話信号e(3)(p,i)と一つ前のフレームi−1で求めた送話信号e(3)(p,i−1)とに対して窓かけ処理を行った上で、合成し(s236)、合成後の送話信号ベクトルe(3)’(p,i)(要素数はF/D個)の要素e(3)(p,n−F/D+1),e(3)(p,n−F/D+2),…,e(3)(p,n)を逐次、エコー消去装置100の出力値として出力する。ただし、n=iF/Dの関係にある。なお、その処理内容は、フレーム合成部34の処理と同等である。
(Frame synthesis unit 126)
The
<変形例>
残留エコー消去部120は、単体でもエコー消去装置として使用することができる。すなわち図2において周波数領域変換部11、波数変換部12、波数領域エコーレプリカ生成部21、逆波数変換部31、時間領域変換部32、フレーム合成部34、P個の減算部33p、誤差周波数領域変換部41、誤差波数変換部42から構成される適応フィルタ部分(エコー消去部ともいう)をはずした構成でも使用することができる。その場合、残留エコー消去部120は、誤差信号ベクトルe(p,i)に代えて、収音信号y(p,n)を受け取り、ベクトル化した上で同様の処理を行う。
<Modification>
The residual
また波数領域残留エコー推定消去部1231において、残留エコー補正部12314をはずしても使用することができる。同様に波数領域拡散残留エコー推定消去部1232において、拡散残留エコー補正部12324をはずしても使用することができる。その場合、各減算部は、補正前の信号を受け取り、同様の処理を行う。
Further, the wave number domain residual echo
また残留エコー消去部120において、波数領域残留エコー推定消去部1231をはずし、波数領域拡散残留エコー推定消去部1232単独とする構成でも使用できる。この場合、図12および13のように、波数領域拡散残留エコー推定消去部1232の入力が変わる。図12は波数領域拡散残留エコー推定消去部1232を単独で用いた場合の残留エコー消去部120の機能ブロック図を、図13は波数領域拡散残留エコー推定消去部1232の機能ブロック図を示す。受話側信号が、P×2F個の波数領域の受話信号X(W) f(k,i−2)からP×2F個の波数領域の受話信号X(W) f(k,i−1)に変わる。また波数領域残留エコー推定消去部1231がないため、誤差信号がP×2F個の波数領域の誤差信号E(W2) f(k,i)=E(W1) f(k,i)になる。この構成は、フレーム長を長くしたために、誤差信号E(W1) f(k,i)に受話信号X(W) f(k,i−1)の直接成分と反射成分が混在する場合に、有効である。
In the residual
さらに、エコー消去部及び波数領域残留エコー推定消去部1231をはずしてもよい。その場合、誤差信号がP×2F個の波数領域の誤差信号E(W2) f(k,i)に代えて、収音信号y(p,n)を受け取り、波数領域の収音信号Y(W) f(k,i)に変換し、同様の処理を行う。
Further, the echo canceller and the wavenumber domain residual
波数領域においてエコーレプリカを求める方法については、上述の方法以外の既存技術を用いてもよい。また、既存技術を用いて、周波数領域や時間領域においてエコーレプリカを求めてもよい。ただし、時間領域の収音信号から時間領域のエコーレプリカを差し引く構成のほうが、エコー消去の精度が高いことが知られているため、仮に周波数領域においてエコーレプリカを求めた場合も、時間領域に変換した上で、時間領域の収音信号から差し引く構成とすることが望ましい。 As a method for obtaining an echo replica in the wave number domain, an existing technique other than the above-described method may be used. In addition, an echo replica may be obtained in the frequency domain or the time domain using existing technology. However, it is known that subtracting the time-domain echo replica from the time-domain sound pickup signal has higher echo cancellation accuracy, so even if the echo replica is obtained in the frequency domain, it is converted to the time domain. In addition, it is desirable to subtract from the time domain sound pickup signal.
第一実施形態では、チャネル数Pが偶数の場合について説明したが、奇数(P=2K+1)であってもよい。 In the first embodiment, the case where the number of channels P is an even number has been described, but an odd number (P = 2K + 1) may be used.
なお、本実施形態では、入力次元圧縮部12320において、波数領域受話信号ベクトルX(W) f(i−2)を、波数領域圧縮ベクトルZ(W) f(i−2)に圧縮しているが、必ずしも圧縮する必要はない。その場合、入力次元圧縮部12320以降の処理において、波数領域圧縮ベクトルZ(W) f(i−2)に代えて、波数領域受話信号ベクトルX(W) f(i−2)を用いればよい。例えば、圧縮入出力相関係数算出部12321では、パワースペクトル行列P(2) f(i)及びクロススペクトル行列Q(2) f(i)をそれぞれ次式及び次々式により求める。
P(2) f(i)=E[X(W) f(i-2)X(W)H f(i-2)]
Q(2) f(i)=E[E(W2) f(i) X(W)H f(i-2)]
この場合、入力次元圧縮部12320及び次元圧縮行列更新部12326をはずしてもよい。また、次元圧縮行列更新部12326の処理をはずし、入力次元圧縮部12320において、圧縮行列Wf(i−1)に代えて、P×P単位行列を用いる構成としてもよい。このような構成であっても壁面等の反射を考慮に入れて残留エコーを従来法以上に低減することができる。
In the present embodiment, the input
P (2) f (i) = E [X (W) f (i-2) X (W) H f (i-2)]
Q (2) f (i) = E [E (W2) f (i) X (W) H f (i-2)]
In this case, the input
<効果>
従来法では波数領域の受話信号X(W) f(i)から波数領域の誤差信号E(W1) f(i)への伝達特性を対角行列として推定して、残留エコー消去をはかる。これは波面の直接伝搬のみを考慮して残留エコーを推定することに対応する。
<Effect>
In the conventional method, the transfer characteristic from the received signal X (W) f (i) in the wave number domain to the error signal E (W1) f (i) in the wave number domain is estimated as a diagonal matrix, and residual echo cancellation is performed. This corresponds to estimating the residual echo considering only the direct propagation of the wavefront.
本構成では、波数領域の受話信号X(W) f(i)から波数領域の誤差信号E(W2) f(i)への伝達特性を行列として推定して、波数領域の拡散残留エコーベクトルを推定し、波数領域誤差信号ベクトルE(W1) f(i)から差し引く。これは天井や壁に反射した波面の到来を考慮して残留エコーを推定することに対応する。 In this configuration, the transfer characteristic from the received signal X (W) f (i) in the wave number domain to the error signal E (W2) f (i) in the wave number domain is estimated as a matrix, and the diffusion residual echo vector in the wave number domain is calculated. Estimate and subtract from wave number domain error signal vector E (W1) f (i). This corresponds to estimating the residual echo in consideration of the arrival of the wavefront reflected on the ceiling or wall.
これにより波数領域の適応フィルタによるエコー経路推定及び消去が十分でない状態であっても会話状態によらず、壁面等の反射を考慮に入れて迅速に残留エコーを従来法以上に低減することができるという効果を奏する。 As a result, even if the echo path estimation and cancellation by the adaptive filter in the wave number domain is not sufficient, the residual echo can be reduced more quickly than the conventional method taking into account the reflection of the wall surface etc. regardless of the conversation state. There is an effect.
さらに受話信号の次元圧縮をおこなうことにより、上記残留エコー推定に必要なメモリ量と演算量を減らすことができる。受話信号の相関行列の格納に必要なメモリ量は次元の2乗に比例するため、入力次元をa倍(0<a<1)に圧縮する場合、メモリ量をa2に圧縮できる。また残留エコー伝達特性推定における逆行列算出に次元の3乗に比例する演算量を必要とするため、入力次元をa倍(0<a<1)に圧縮すれば、この演算量をa3に圧縮できる。 Furthermore, by performing dimensional compression of the received signal, it is possible to reduce the amount of memory and the amount of calculation required for the residual echo estimation. Amount of memory required to store the correlation matrix of the received signals is proportional to the square of the dimension, when compressing input dimension to a times (0 <a <1), can be compressed amount of memory a 2. Also requires a calculation amount proportional to the cube of the dimensions in the inverse matrix calculation in the residual echo transfer characteristic estimate, the input dimension if compressed to a times (0 <a <1), the amount of computation in a 3 It can be compressed.
<シミュレーション結果>
残留エコー消去の効果を検証するために、変形例の構成についてシミュレーションを行った。
エコー消去装置100の構成として、残留エコー消去部120のみを使用した。さらに、内部の波数領域残留エコー推定消去部1231をはずし、さらに波数領域拡散残留エコー推定消去部1232において、拡散残留エコー補正部12324をはずした。また波数領域拡散残留エコー消去部1232では、受話信号を1/4に圧縮する設定とした。相関算出の平滑化定数としてβ=0.98を、圧縮ベクトルの相関行列の逆行列算出の忘却定数としてλ=0.1を、推定した入出力伝達特性の推定にβ2=0.1をもちいた。
<Simulation results>
In order to verify the effect of residual echo cancellation, a simulation was performed on the configuration of the modified example.
As the configuration of the
これと比較する従来法として、非特許文献3で提案されている方法をもちいた。その構成は、エコー消去装置100の構成として残留エコー消去部120のみを使用し、その内部では波数領域残留エコー推定消去部1231のみを使用した。なお残留エコー補正部12314をはずした。
As a conventional method compared with this, the method proposed in
シミュレーションで使用する信号を生成するため、残響時間150msの部屋で、直線状スピーカアレー(32素子、間隔6cm)と直線状マイクロホンアレー(32素子、間隔6cm)を50cm離して平行に配置し(P=32)、スピーカ・マイクロホン間の全エコー経路インパルス応答を測定した。サンプリング周波数fsを8kHzに設定し、フレーム長として2F=1024を用いた。受話信号には、それぞれ異なる位置に配置した2音源が交互に白色雑音を再生する状況をシミュレートし、32個のマイクロホンによる収音を模擬して生成した。 In order to generate a signal for use in the simulation, a linear speaker array (32 elements, spacing 6 cm) and a linear microphone array (32 elements, spacing 6 cm) are placed 50 cm apart in parallel in a room with a reverberation time of 150 ms (P = 32), the total echo path impulse response between the speaker and the microphone was measured. The sampling frequency fs was set to 8 kHz, and 2F = 1024 was used as the frame length. The received signal was generated by simulating the situation in which two sound sources arranged at different positions reproduce white noise alternately and simulated sound collection by 32 microphones.
図14、15にシミュレーション結果を示す。図14は従来法の処理結果であり、図15は本実施形態の変形例での処理結果である。いずれも32チャネル中の奇数チャネルについて、残留エコー消去処理によるエコー消去量(ERLE)をプロットしている。 14 and 15 show the simulation results. FIG. 14 shows the processing result of the conventional method, and FIG. 15 shows the processing result of the modification of this embodiment. In both cases, the echo cancellation amount (ERLE) by the residual echo cancellation processing is plotted for odd-numbered channels out of 32 channels.
図14より従来法のERLEが平均で10dB強にとどまるのに対し、図15より提案法のERLEは平均で20dB強になっている。これより、提案法が効果的にエコーを消去していることが分かる。 As shown in FIG. 14, the ERLE of the conventional method stays on average only over 10 dB, whereas the ERLE of the proposed method averages over 20 dB on average from FIG. This shows that the proposed method effectively cancels the echo.
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<Other variations>
The present invention is not limited to the above-described embodiments and modifications. For example, the various processes described above are not only executed in time series according to the description, but may also be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. In addition, it can change suitably in the range which does not deviate from the meaning of this invention.
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
<Program and recording medium>
In addition, various processing functions in each device described in the above embodiments and modifications may be realized by a computer. In that case, the processing contents of the functions that each device should have are described by a program. Then, by executing this program on a computer, various processing functions in each of the above devices are realized on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。 The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。 The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Further, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。 A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its storage unit. When executing the process, this computer reads the program stored in its own storage unit and executes the process according to the read program. As another embodiment of this program, a computer may read a program directly from a portable recording medium and execute processing according to the program. Further, each time a program is transferred from the server computer to the computer, processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program includes information provided for processing by the electronic computer and equivalent to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 In addition, although each device is configured by executing a predetermined program on a computer, at least a part of these processing contents may be realized by hardware.
Claims (9)
前記マイクロホンで収音される収音信号を波数領域に変換した信号と波数領域の前記受話信号とを用いて、波数領域の前記収音信号に含まれる拡散残留エコーを推定し、波数領域の前記収音信号から推定した拡散残留エコーを消去する波数領域拡散残留エコー推定消去部を含み、
前記波数領域拡散残留エコー推定消去部は、
波数毎の前記受話信号を要素とするP次元のベクトルである受話信号ベクトルXとその複素共役かつ転置とを用いてP×P行列であるパワースペクトル行列を算出し、波数毎の前記収音信号を要素とするP次元のベクトルである収音信号ベクトルと前記受話信号ベクトルXの複素共役かつ転置とを用いてP×P行列であるクロススペクトル行列を算出する圧縮入出力相関係数算出部と、
前記パワースペクトル行列と前記クロススペクトル行列とを用いて、前記受話信号と前記収音信号との入出力伝達特性の推定値を要素とするP×P行列である入出力伝達特性行列を求める圧縮入出力伝達特性推定部と、
前記受話信号ベクトルXに前記入出力伝達特性行列を乗じて、波数毎の前記拡散残留エコーの推定値を要素とするP次元のベクトルである拡散残留エコーベクトルを求める拡散残留エコー推定部と、
波数領域の前記収音信号と波数領域の前記拡散残留エコーの推定値との差分を求める減算部とを含む、
エコー消去装置。 E is an echo that eliminates an echo that goes around the microphone via an echo path when P is an integer of 2 or more, P speakers and P microphones are arranged in a common sound field, and a received signal is reproduced from the speakers An erasing device,
Using the signal obtained by converting the collected sound signal collected by the microphone into the wave number domain and the received signal in the wave number domain, the diffusion residual echo included in the collected signal in the wave number domain is estimated, and the wave number domain Including a wave number domain diffuse residual echo estimation canceling unit that cancels the diffuse residual echo estimated from the collected sound signal,
The wave number domain diffuse residual echo estimation erasure unit is
A power spectrum matrix, which is a P × P matrix, is calculated using a received signal vector X, which is a P-dimensional vector having the received signal for each wave number as an element, and its complex conjugate and transpose, and the collected sound signal for each wave number A compressed input / output correlation coefficient calculation unit that calculates a cross spectrum matrix that is a P × P matrix using a sound pickup signal vector that is a P-dimensional vector having elements as elements and a complex conjugate and transpose of the received signal vector X; ,
Using the power spectrum matrix and the cross spectrum matrix, compression input to obtain an input / output transfer characteristic matrix which is a P × P matrix having an estimated value of the input / output transfer characteristics of the received signal and the collected sound signal as elements. An output transfer characteristic estimator;
A spread residual echo estimator that multiplies the received signal vector X by the input / output transfer characteristic matrix to obtain a diffuse residual echo vector that is a P-dimensional vector whose elements are estimated values of the diffuse residual echo for each wave number;
A subtractor that obtains a difference between the sound collection signal in the wave number domain and the estimated value of the diffuse residual echo in the wave number domain,
Echo canceler.
前記マイクロホンで収音される収音信号を波数領域に変換した信号と波数領域の前記受話信号とを用いて、波数領域の前記収音信号に含まれる拡散残留エコーを推定し、波数領域の前記収音信号から推定した拡散残留エコーを消去する波数領域拡散残留エコー推定消去部を含み、
前記波数領域拡散残留エコー推定消去部は、
P’<Pとし、P’×P行列である圧縮行列Wを用いて、波数毎の前記受話信号を要素とするP次元のベクトルである受話信号ベクトルXを、P’次元の圧縮ベクトルZに圧縮する入力次元圧縮部と、
前記圧縮ベクトルZを前記圧縮行列Wの複素共役転置行列で伸長したP次元のベクトルと、前記受話信号ベクトルXとの差が最小になるように、前記圧縮行列Wを更新する次元圧縮行列更新部と、
前記圧縮ベクトルZとその複素共役かつ転置とを用いてP’×P’行列であるパワースペクトル行列を算出し、波数毎の前記収音信号を要素とするP次元のベクトルである収音信号ベクトルと前記圧縮ベクトルZの複素共役かつ転置とを用いてP×P’行列であるクロススペクトル行列を算出する圧縮入出力相関係数算出部と、
前記パワースペクトル行列と前記クロススペクトル行列とを用いて、前記受話信号と前記収音信号との入出力伝達特性の推定値を要素とするP×P’行列である入出力伝達特性行列を求める圧縮入出力伝達特性推定部と、
前記圧縮ベクトルZに前記入出力伝達特性行列を乗じて、波数毎の前記拡散残留エコーの推定値を要素とするP次元のベクトルである拡散残留エコーベクトルを求める拡散残留エコー推定部と、
波数領域の前記収音信号と波数領域の前記拡散残留エコーの推定値との差分を求める減算部とを含む、
エコー消去装置。 E is an echo that eliminates an echo that goes around the microphone via an echo path when P is an integer of 2 or more, P speakers and P microphones are arranged in a common sound field, and a received signal is reproduced from the speakers An erasing device,
Using the signal obtained by converting the collected sound signal collected by the microphone into the wave number domain and the received signal in the wave number domain, the diffusion residual echo included in the collected signal in the wave number domain is estimated, and the wave number domain Including a wave number domain diffuse residual echo estimation canceling unit that cancels the diffuse residual echo estimated from the collected sound signal,
The wave number domain diffuse residual echo estimation erasure unit is
P ′ <P, and using a compression matrix W that is a P ′ × P matrix, a received signal vector X that is a P-dimensional vector having the received signal for each wave number as an element is converted into a P′-dimensional compressed vector Z. An input dimension compression unit for compression;
A dimension compression matrix updating unit that updates the compression matrix W so that a difference between a P-dimensional vector obtained by expanding the compression vector Z with a complex conjugate transpose matrix of the compression matrix W and the received signal vector X is minimized. When,
A power spectrum matrix which is a P ′ × P ′ matrix is calculated using the compression vector Z and its complex conjugate and transpose, and a sound collection signal vector which is a P-dimensional vector having the sound collection signal for each wave number as an element. And a compressed input / output correlation coefficient calculating unit that calculates a cross spectrum matrix that is a P × P ′ matrix using the complex conjugate and transpose of the compressed vector Z;
Compression using the power spectrum matrix and the cross spectrum matrix to obtain an input / output transfer characteristic matrix that is a P × P ′ matrix whose elements are estimated values of input / output transfer characteristics of the received signal and the collected sound signal An input / output transfer characteristic estimation unit;
A diffusion residual echo estimator that multiplies the compression vector Z by the input / output transfer characteristic matrix to obtain a diffusion residual echo vector that is a P-dimensional vector whose elements are estimated values of the diffusion residual echo for each wave number;
A subtractor that obtains a difference between the sound collection signal in the wave number domain and the estimated value of the diffuse residual echo in the wave number domain,
Echo canceler.
P(2) fをパワースペクトル行列とし、Q(2) fをクロススペクトル行列とし、Z(W) fを圧縮ベクトルZ、E(W2) fを収音信号ベクトルとし、・Hは・の複素共役かつ転置を、E[・]は・の平均を表し、前記圧縮入出力相関係数算出部は、次式により、前記パワースペクトル行列を算出し、
P(2) f=E[Z(W) fZ(W)H f]
次式により、前記クロススペクトル行列を算出し、
Q(2) f=E[E(W2) fZ(W)H f]
β2を入出力伝達特性の推定値を平滑化するための定数とし、前記圧縮入出力伝達特性推定部は、次式、または、次々式により、前記入出力伝達特性行列を求める、
エコー消去装置。 The echo canceller of claim 2,
P (2) f is a power spectrum matrix, Q (2) f is a cross spectrum matrix, Z (W) f is a compression vector Z, E (W2) f is a collected signal vector, and H is a complex of Conjugate and transpose, E [·] represents the average of ·, the compressed input / output correlation coefficient calculation unit calculates the power spectrum matrix by the following equation,
P (2) f = E [Z (W) f Z (W) H f ]
The cross spectrum matrix is calculated by the following equation:
Q (2) f = E [E (W2) f Z (W) H f ]
β 2 is a constant for smoothing the estimated value of the input / output transfer characteristic, and the compressed input / output transfer characteristic estimation unit obtains the input / output transfer characteristic matrix by the following equation or the following equation:
Echo canceler.
波数領域の前記受話信号と波数領域の前記収音信号とを用いて、波数領域の前記収音信号に含まれる直接波による残留エコーを推定し、波数領域の前記収音信号から推定した直接波による残留エコーを消去する波数領域残留エコー推定消去部を、さらに含み、
波数領域残留エコー推定消去部は、
波数領域の前記受話信号と波数領域の前記収音信号とを用いて、前記受話信号のパワースペクトルと、前記受話信号と前記収音信号との間のクロススペクトルとを算出する入出力相関係数算出部と、
前記パワースペクトルと前記クロススペクトルとを用いて、前記受話信号と前記収音信号との入出力伝達特性を推定する入出力伝達特性推定部と、
波数領域の前記受話信号に前記入出力伝達特性の推定値を乗じて、波数領域の前記残留エコーを推定する残留エコー推定部と、
波数領域の前記収音信号と波数領域の前記残留エコーの推定値との差分を求める第二減算部とを含み、
前記波数領域拡散残留エコー推定消去部において用いる前記収音信号は、前記波数領域残留エコー推定消去部における処理を施されたものであり、
前記波数領域拡散残留エコー推定消去部において用いる波数領域の前記受話信号は、前記波数領域残留エコー推定消去部において用いる波数領域の前記受話信号よりも1フレーム分前のものである、
エコー消去装置。 The echo canceller according to any one of claims 1 to 3,
Using the received signal in the wave number domain and the collected sound signal in the wave number domain, a residual echo due to a direct wave included in the collected sound signal in the wave number domain is estimated, and the direct wave estimated from the collected sound signal in the wave number domain A wave number domain residual echo estimation canceling unit that cancels residual echo due to
The wave number domain residual echo estimation elimination part
I / O correlation coefficient for calculating a power spectrum of the received signal and a cross spectrum between the received signal and the collected sound signal using the received signal in the wave number domain and the collected sound signal in the wave number domain A calculation unit;
Using the power spectrum and the cross spectrum, an input / output transfer characteristic estimation unit that estimates an input / output transfer characteristic of the received signal and the collected sound signal;
A residual echo estimator for multiplying the received signal in the wave number domain by the estimated value of the input / output transfer characteristic to estimate the residual echo in the wave number domain;
A second subtracting unit for obtaining a difference between the sound pickup signal in the wave number region and the estimated value of the residual echo in the wave number region;
The collected sound signal used in the wave number domain residual echo estimation erasure unit is subjected to the processing in the wave number domain residual echo estimation erasure unit,
The received signal in the wave number domain used in the wave number domain diffuse residual echo estimation erasing unit is one frame before the received signal in the wave number domain used in the wave number domain residual echo estimation erasing unit.
Echo canceler.
時間領域の前記受話信号と時間領域の前記収音信号とを用いて、時間領域の前記収音信号に含まれるエコーの成分を推定し、消去するエコー消去部を、さらに含み、
前記エコー消去部は、
時間領域の前記受話信号を周波数領域の信号に変換する第一周波数領域変換部と、
周波数領域の前記受話信号を波数領域の信号に変換する第一波数領域変換部と、
波数領域の前記受話信号に波数領域のフィルタ係数を乗じて、波数領域のエコーレプリカを生成する乗算部と、
波数領域の前記エコーレプリカを周波数領域の前記エコーレプリカに変換する逆波数変換部と、
周波数領域の前記エコーレプリカを時間領域の前記エコーレプリカに変換する時間領域変換部と、
時間領域の前記収音信号から時間領域の前記エコーレプリカを差し引き、時間領域の誤差信号を求める第三減算部と、
時間領域の前記誤差信号を周波数領域の信号に変換する第二周波数領域変換部と、
周波数領域の前記誤差信号を波数領域の信号に変換する第二波数領域変換部と、
波数領域の前記受話信号と波数領域の前記誤差信号とを用いて波数領域の前記フィルタ係数の修正量を算出する修正量算出部と、
前記修正量を用いて前記フィルタ係数を更新するフィルタ係数部と、を含み、
前記波数領域拡散残留エコー推定消去部または前記波数領域残留エコー推定消去部において用いる前記収音信号は、前記エコー消去部における処理を施されたものであり、前記誤差信号に対応する、
エコー消去装置。 The echo canceller according to any one of claims 1 to 4,
Using the received signal in the time domain and the collected sound signal in the time domain, an echo canceling unit that estimates and cancels an echo component included in the collected sound signal in the time domain further includes:
The echo canceller is
A first frequency domain transform unit for transforming the received signal in the time domain into a frequency domain signal;
A first wave number domain converter for converting the received signal in the frequency domain into a signal in the wave number domain;
A multiplier that multiplies the received signal in the wavenumber domain by a filter coefficient in the wavenumber domain to generate an echo replica in the wavenumber domain;
An inverse wave number converter for converting the echo replica in the wave number domain into the echo replica in the frequency domain;
A time domain transforming unit for transforming the echo replica in the frequency domain into the echo replica in the time domain;
A third subtracting unit for subtracting the echo replica in the time domain from the collected sound signal in the time domain to obtain an error signal in the time domain;
A second frequency domain transform unit that transforms the time domain error signal into a frequency domain signal;
A second wavenumber domain converter for converting the error signal in the frequency domain into a signal in the wavenumber domain;
A correction amount calculation unit that calculates a correction amount of the filter coefficient in the wave number domain using the received signal in the wave number domain and the error signal in the wave number domain;
A filter coefficient unit that updates the filter coefficient using the correction amount, and
The collected sound signal used in the wave number domain residual echo estimation cancellation unit or the wave number domain residual echo estimation cancellation unit is processed in the echo cancellation unit, and corresponds to the error signal.
Echo canceler.
前記波数領域拡散残留エコー推定消去部は、
前記拡散残留エコーベクトルの各要素に、前記入出力伝達特性の前記推定値の信頼区間の下端の値に基づく値を乗じることにより、前記拡散残留エコーベクトルの各要素を補正する残留エコー補正部をさらに含み、
前記減算部において用いる、前記拡散残留エコーの前記推定値は、前記残留エコー補正部における処理を施されたものである、
エコー消去装置。 The echo canceller according to any one of claims 1 to 5,
The wave number domain diffuse residual echo estimation erasure unit is
A residual echo correction unit that corrects each element of the diffuse residual echo vector by multiplying each element of the diffuse residual echo vector by a value based on a value of a lower end of a confidence interval of the estimated value of the input / output transfer characteristic; In addition,
The estimated value of the diffuse residual echo used in the subtraction unit is subjected to processing in the residual echo correction unit.
Echo canceler.
前記マイクロホンで収音される収音信号を波数領域に変換した信号と波数領域の前記受話信号とを用いて、波数領域の前記収音信号に含まれる拡散残留エコーを推定し、波数領域の前記収音信号から推定した拡散残留エコーを消去する波数領域拡散残留エコー推定消去ステップを含み、
前記波数領域拡散残留エコー推定消去ステップは、
波数毎の前記受話信号を要素とするP次元のベクトルである受話信号ベクトルXとその複素共役かつ転置とを用いてP×P行列であるパワースペクトル行列を算出し、波数毎の前記収音信号を要素とするP次元のベクトルである収音信号ベクトルと前記受話信号ベクトルXの複素共役かつ転置とを用いてP×P行列であるクロススペクトル行列を算出する圧縮入出力相関係数算出ステップと、
前記パワースペクトル行列と前記クロススペクトル行列とを用いて、前記受話信号と前記収音信号との入出力伝達特性の推定値を要素とするP×P行列である入出力伝達特性行列を求める圧縮入出力伝達特性推定ステップと、
前記受話信号ベクトルXに前記入出力伝達特性行列を乗じて、波数毎の前記拡散残留エコーの推定値を要素とするP次元のベクトルである拡散残留エコーベクトルを求める拡散残留エコー推定ステップと、
波数領域の前記収音信号と波数領域の前記拡散残留エコーの推定値との差分を求める減算ステップとを含む、
エコー消去方法。 E is an echo that eliminates an echo that goes around the microphone via an echo path when P is an integer of 2 or more, P speakers and P microphones are arranged in a common sound field, and a received signal is reproduced from the speakers An erasing method,
Using the signal obtained by converting the collected sound signal collected by the microphone into the wave number domain and the received signal in the wave number domain, the diffusion residual echo included in the collected signal in the wave number domain is estimated, and the wave number domain A wave number domain diffuse residual echo estimation cancellation step for canceling the diffuse residual echo estimated from the collected sound signal,
The wave number domain diffuse residual echo estimation elimination step comprises:
A power spectrum matrix, which is a P × P matrix, is calculated using a received signal vector X, which is a P-dimensional vector having the received signal for each wave number as an element, and its complex conjugate and transpose, and the collected sound signal for each wave number A compressed input / output correlation coefficient calculating step of calculating a cross spectrum matrix that is a P × P matrix using a sound pickup signal vector that is a P-dimensional vector having a component as a component and a complex conjugate and transpose of the received signal vector X; ,
Using the power spectrum matrix and the cross spectrum matrix, compression input to obtain an input / output transfer characteristic matrix which is a P × P matrix having an estimated value of the input / output transfer characteristics of the received signal and the collected sound signal as elements. An output transfer characteristic estimation step;
A diffusion residual echo estimation step of multiplying the reception signal vector X by the input / output transfer characteristic matrix to obtain a diffusion residual echo vector which is a P-dimensional vector having the estimation value of the diffusion residual echo for each wave number as an element;
Subtracting the difference between the collected sound signal in the wave number domain and the estimated value of the diffuse residual echo in the wave number domain,
Echo cancellation method.
前記マイクロホンで収音される収音信号を波数領域に変換した信号と波数領域の前記受話信号とを用いて、波数領域の前記収音信号に含まれる拡散残留エコーを推定し、波数領域の前記収音信号から推定した拡散残留エコーを消去する波数領域拡散残留エコー推定消去ステップを含み、
前記波数領域拡散残留エコー推定消去ステップは、
P’<Pとし、P’×P行列である圧縮行列Wを用いて、波数毎の前記受話信号を要素とするP次元のベクトルである受話信号ベクトルXを、P’次元の圧縮ベクトルZに圧縮する入力次元圧縮ステップと、
前記圧縮ベクトルZを前記圧縮行列Wの複素共役転置行列で伸長したP次元のベクトルと、前記受話信号ベクトルXとの差が最小になるように、前記圧縮行列Wを更新する次元圧縮行列更新ステップと、
前記圧縮ベクトルZとその複素共役かつ転置とを用いてP’×P’行列であるパワースペクトル行列を算出し、波数毎の前記収音信号を要素とするP次元のベクトルである収音信号ベクトルと前記圧縮ベクトルZの複素共役かつ転置とを用いてP×P’行列であるクロススペクトル行列を算出する圧縮入出力相関係数算出ステップと、
前記パワースペクトル行列と前記クロススペクトル行列とを用いて、前記受話信号と前記収音信号との入出力伝達特性の推定値を要素とするP×P’行列である入出力伝達特性行列を求める圧縮入出力伝達特性推定ステップと、
前記圧縮ベクトルZに前記入出力伝達特性行列を乗じて、波数毎の前記拡散残留エコーの推定値を要素とするP次元のベクトルである拡散残留エコーベクトルを求める拡散残留エコー推定ステップと、
波数領域の前記収音信号と波数領域の前記拡散残留エコーの推定値との差分を求める減算ステップとを含む、
エコー消去方法。 E is an echo that eliminates an echo that goes around the microphone via an echo path when P is an integer of 2 or more, P speakers and P microphones are arranged in a common sound field, and a received signal is reproduced from the speakers An erasing method,
Using the signal obtained by converting the collected sound signal collected by the microphone into the wave number domain and the received signal in the wave number domain, the diffusion residual echo included in the collected signal in the wave number domain is estimated, and the wave number domain A wave number domain diffuse residual echo estimation cancellation step for canceling the diffuse residual echo estimated from the collected sound signal,
The wave number domain diffuse residual echo estimation elimination step comprises:
P ′ <P, and using a compression matrix W that is a P ′ × P matrix, a received signal vector X that is a P-dimensional vector having the received signal for each wave number as an element is converted into a P′-dimensional compressed vector Z. An input dimension compression step to compress;
A dimension compression matrix updating step for updating the compression matrix W so that a difference between a P-dimensional vector obtained by expanding the compression vector Z by a complex conjugate transpose matrix of the compression matrix W and the received signal vector X is minimized; When,
A power spectrum matrix which is a P ′ × P ′ matrix is calculated using the compression vector Z and its complex conjugate and transpose, and a sound collection signal vector which is a P-dimensional vector having the sound collection signal for each wave number as an element. And a compressed input / output correlation coefficient calculating step of calculating a cross spectrum matrix that is a P × P ′ matrix using the complex conjugate and transpose of the compressed vector Z;
Compression using the power spectrum matrix and the cross spectrum matrix to obtain an input / output transfer characteristic matrix that is a P × P ′ matrix whose elements are estimated values of input / output transfer characteristics of the received signal and the collected sound signal An input / output transfer characteristic estimation step;
A diffusion residual echo estimation step of multiplying the compression vector Z by the input / output transfer characteristic matrix to obtain a diffusion residual echo vector that is a P-dimensional vector whose element is an estimation value of the diffusion residual echo for each wave number;
Subtracting the difference between the collected sound signal in the wave number domain and the estimated value of the diffuse residual echo in the wave number domain,
Echo cancellation method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013253804A JP6075783B2 (en) | 2013-12-09 | 2013-12-09 | Echo canceling apparatus, echo canceling method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013253804A JP6075783B2 (en) | 2013-12-09 | 2013-12-09 | Echo canceling apparatus, echo canceling method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015115624A JP2015115624A (en) | 2015-06-22 |
JP6075783B2 true JP6075783B2 (en) | 2017-02-08 |
Family
ID=53529104
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013253804A Active JP6075783B2 (en) | 2013-12-09 | 2013-12-09 | Echo canceling apparatus, echo canceling method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6075783B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113190957B (en) * | 2021-03-24 | 2024-03-22 | 中国海洋大学 | Controllable source electromagnetic simulation wave number sequence optimization method based on elimination strategy |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5036874B2 (en) * | 2008-09-24 | 2012-09-26 | 三菱電機株式会社 | Echo canceller |
JP5662232B2 (en) * | 2011-04-14 | 2015-01-28 | 日本電信電話株式会社 | Echo canceling apparatus, method and program |
JP5937451B2 (en) * | 2012-07-23 | 2016-06-22 | 日本電信電話株式会社 | Echo canceling apparatus, echo canceling method and program |
JP5774062B2 (en) * | 2013-07-10 | 2015-09-02 | 日本電信電話株式会社 | Echo canceling apparatus, echo canceling method, and program thereof |
-
2013
- 2013-12-09 JP JP2013253804A patent/JP6075783B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015115624A (en) | 2015-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4644715B2 (en) | Audio system and method for acoustic echo cancellation | |
US9210504B2 (en) | Processing audio signals | |
US9818424B2 (en) | Method and apparatus for suppression of unwanted audio signals | |
JP5177820B2 (en) | System and method for enhanced subjective stereo audio | |
US20140016794A1 (en) | Echo cancellation system and method with multiple microphones and multiple speakers | |
JP2003102085A (en) | Multi-channel echo cancel method, multi-channel sound transfer method, stereo echo canceller, stereo sound transmission apparatus, and transfer function calculation apparatus | |
CN102968999B (en) | Audio signal processing | |
JP2004349806A (en) | Multichannel acoustic echo canceling method, apparatus thereof, program thereof, and recording medium thereof | |
JP5762479B2 (en) | Voice switch device, voice switch method, and program thereof | |
JP2012039441A (en) | Multi-channel echo erasure method, multi-channel echo erasure device, and program of the same | |
JP5937451B2 (en) | Echo canceling apparatus, echo canceling method and program | |
JP3756828B2 (en) | Reverberation elimination method, apparatus for implementing this method, program, and recording medium therefor | |
JP3864914B2 (en) | Echo suppression device | |
JP3673727B2 (en) | Reverberation elimination method, apparatus thereof, program thereof, and recording medium thereof | |
JP6075783B2 (en) | Echo canceling apparatus, echo canceling method and program | |
JP3616341B2 (en) | Multi-channel echo cancellation method, apparatus thereof, program thereof, and recording medium | |
JP5774062B2 (en) | Echo canceling apparatus, echo canceling method, and program thereof | |
US10937409B2 (en) | Predictive acoustic echo cancellation | |
JP2004349796A (en) | Sound echo canceling method, apparatus thereof, program and recording medium thereof | |
JP5826712B2 (en) | Multi-channel echo canceling apparatus, multi-channel echo canceling method, and program | |
JP4504891B2 (en) | Echo canceling method, echo canceling apparatus, program, recording medium | |
JP5925149B2 (en) | Acoustic coupling amount estimating apparatus, echo canceling apparatus, method and program thereof | |
WO2019244535A1 (en) | Echo cancellation device, echo cancellation method, and program | |
JP5698110B2 (en) | Multi-channel echo cancellation method, multi-channel echo cancellation apparatus, and program | |
JP4504892B2 (en) | Echo canceling method, echo canceling apparatus, program, recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160302 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161222 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170104 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170105 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6075783 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |