JP2006270709A - Echo remover, electronic conference apparatus, and echo removing program - Google Patents
Echo remover, electronic conference apparatus, and echo removing program Download PDFInfo
- Publication number
- JP2006270709A JP2006270709A JP2005087987A JP2005087987A JP2006270709A JP 2006270709 A JP2006270709 A JP 2006270709A JP 2005087987 A JP2005087987 A JP 2005087987A JP 2005087987 A JP2005087987 A JP 2005087987A JP 2006270709 A JP2006270709 A JP 2006270709A
- Authority
- JP
- Japan
- Prior art keywords
- echo
- parameter
- signal
- coherence
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、再生出力された音声の収音部への回り込みにより生じるエコー成分を収音信号から除去するエコー除去装置、このエコー除去装置を備えた電子会議装置、エコー除去方法およびエコー除去プログラムに関し、特に、ダブルトークが発生した場合にエコー成分を良好に除去できるようにしたエコー除去装置、電子会議装置、エコー除去方法およびエコー除去プログラムに関する。 The present invention relates to an echo removal apparatus that removes an echo component generated by a wraparound of reproduced and outputted sound from a sound collection signal, an electronic conference apparatus equipped with the echo removal apparatus, an echo removal method, and an echo removal program In particular, the present invention relates to an echo removal apparatus, an electronic conference apparatus, an echo removal method, and an echo removal program that can favorably remove an echo component when double talk occurs.
例えば電子会議システムなど、マイクロフォンによる収音信号を双方向で通信するシステムでは、相手側で収音された音声信号が自分側のスピーカなどで出力され、その再生音声が自分側のマイクロフォンに回り込んで収音された場合に、エコーが発生して送受信する音声の品質が低下することが知られている。このため、このような従来のシステムでは、マイクロフォンによる収音信号からエコー成分を除去するエコーキャンセラが一般的に用いられていた。 For example, in a system that communicates sound collected by a microphone in two ways, such as an electronic conference system, the sound signal collected by the other party is output from the speaker on its own side, and the reproduced sound wraps around the microphone on its own side. It is known that the quality of the voice transmitted / received is degraded due to the occurrence of an echo when the sound is picked up by the sound. For this reason, in such a conventional system, an echo canceller that removes an echo component from a collected sound signal by a microphone is generally used.
従来のエコーキャンセラとしては、音声信号を時間領域のまま処理する適応フィルタによってエコー成分を推定するものと、音声信号を時間領域から周波数領域に変換して処理する適応フィルタを用いるものとが知られている。後者の例としては、収音信号のパワースペクトル、およびこの信号と再生信号とのクロススペクトルを求めるとともに、再生信号と1チャネル以上の収音信号とのコヒーレンスを求めて、これらから周波数帯域ごとの収音信号に占めるエコー成分の比率を推定し、比率からエコー抑圧ゲインを算出して、収音信号のエコーを抑圧する方法があった(例えば、特許文献1参照)。
ところで、上述した適応フィルタの処理手法のうち、音声信号を時間領域のままで処理する手法には、自分側と相手側の両者が同時に音声を発するダブルトークの状態では、適応フィルタの学習速度を緩めた方がエコー成分を確実に除去でき、音声品質が向上することが知られている。一方、音声信号を周波数領域に変換して処理する手法では、コヒーレンスという尺度を用いることでダブルトークの状態を含めて、エコー成分除去後の音声品質を向上できる手法が提案されている。しかし、時間領域のままで処理する手法では周波数領域の尺度であるコヒーレンスをそのまま扱うことができないため、ダブルトーク発生を正確に検出して音声品質を向上させることが困難であった。 By the way, of the above-described adaptive filter processing methods, the method of processing an audio signal in the time domain is such that the learning speed of the adaptive filter is set in a double-talk state where both the other party and the other party emit voice simultaneously. It is known that the looser can reliably remove the echo component and improve the voice quality. On the other hand, as a method of converting an audio signal into a frequency domain and processing it, a method has been proposed that can improve audio quality after removing an echo component including a double talk state by using a scale called coherence. However, since the method of processing in the time domain cannot handle the coherence that is a measure of the frequency domain as it is, it is difficult to accurately detect the occurrence of double talk and improve the voice quality.
本発明はこのような点に鑑みてなされたものであり、ダブルトーク発生の有無に関係なく、収音信号のエコー成分をより確実に除去できるエコー除去装置を提供することを目的とする。 The present invention has been made in view of these points, and an object of the present invention is to provide an echo removal apparatus that can more reliably remove an echo component of a collected sound signal regardless of the occurrence of double talk.
また、本発明の他の目的は、ダブルトーク発生の有無に関係なく、収音信号のエコー成分をより確実に除去できる電子会議装置を提供することである。
さらに、本発明の他の目的は、ダブルトーク発生の有無に関係なく、収音信号のエコー成分をより確実に除去できるエコー除去方法を提供することである。
Another object of the present invention is to provide an electronic conference apparatus that can more reliably remove the echo component of the collected sound signal regardless of the occurrence of double talk.
Furthermore, another object of the present invention is to provide an echo removal method that can more reliably remove the echo component of the collected sound signal regardless of the occurrence of double talk.
また、本発明の他の目的は、ダブルトーク発生の有無に関係なく、収音信号のエコー成分をより確実に除去できるエコー除去プログラムを提供することである。 Another object of the present invention is to provide an echo removal program that can more reliably remove an echo component of a collected sound signal regardless of whether or not double talk occurs.
本発明では上記課題を解決するために、再生出力された音声の収音部への回り込みにより生じるエコー成分を収音信号から除去するエコー除去装置において、前記収音信号と再生出力する音声に対応する参照信号とから時間領域の適応フィルタにより前記エコー成分を推定して、前記収音信号から前記エコー成分を除去するエコー成分除去手段と、前記適応フィルタのパラメータを更新するパラメータ更新手段と、前記収音信号から前記エコー成分を除去したエラー信号と前記参照信号とのコヒーレンスに応じて、前記パラメータ更新手段による前記パラメータの更新量を指定する更新量指定手段とを有することを特徴とするエコー除去装置が提供される。 In the present invention, in order to solve the above-described problem, an echo removal apparatus that removes an echo component generated due to the wraparound of the reproduced and output sound from the sound collection signal corresponds to the sound collection signal and the sound to be reproduced and output. An echo component removing means for estimating the echo component from a reference signal by a time domain adaptive filter and removing the echo component from the collected sound signal, a parameter updating means for updating a parameter of the adaptive filter, Echo removal comprising: an update amount specifying means for specifying an update amount of the parameter by the parameter update means in accordance with the coherence between the error signal obtained by removing the echo component from the collected sound signal and the reference signal An apparatus is provided.
ここで、エコー成分除去手段は、収音信号と、再生出力する音声に対応する参照信号とから、時間領域の適応フィルタによりエコー成分を推定して、収音信号からエコー成分を除去する。パラメータ更新手段は、更新量指定手段により指定される更新量に応じて、適応フィルタのパラメータを更新する。パラメータの更新量は、更新量指定手段により、収音信号からエコー成分を除去したエラー信号と参照信号とのコヒーレンスに応じて指定される。ダブルトークの発生時には通常コヒーレンスが低くなることから、ダブルトークの発生時に更新量が最適化されるように確実に制御できるようになる。 Here, the echo component removing means estimates the echo component from the collected sound signal and the reference signal corresponding to the sound to be reproduced and output by the time domain adaptive filter, and removes the echo component from the collected sound signal. The parameter update unit updates the parameter of the adaptive filter in accordance with the update amount designated by the update amount designation unit. The update amount of the parameter is specified by the update amount specifying means according to the coherence between the error signal obtained by removing the echo component from the collected sound signal and the reference signal. Since the coherence is usually low when double talk occurs, it is possible to reliably control the update amount to be optimized when double talk occurs.
本発明のエコー除去装置によれば、時間領域の適応フィルタにより除去すべきエコー成分を推定するので、周波数領域での処理と比較して処理による遅延を減少させ、かつエコー成分の推定処理の追従性を高くできる。これに加えて、適応フィルタのパラメータを、エラー信号と参照信号とのコヒーレンスに応じて変化させることにより、ダブルトークの発生時に更新量が最適化されるように確実に制御できるようになる。従って、ダブルトークの発生の有無に関係なく、収音信号のエコー成分を確実に除去することができる。 According to the echo removing apparatus of the present invention, the echo component to be removed is estimated by the time domain adaptive filter, so that the delay caused by the processing is reduced compared to the processing in the frequency domain, and the echo component estimating processing is followed. Can increase the sex. In addition to this, by changing the parameter of the adaptive filter according to the coherence between the error signal and the reference signal, it is possible to reliably control the update amount when the double talk occurs. Therefore, the echo component of the collected sound signal can be reliably removed regardless of whether or not double talk occurs.
以下、本発明を電子会議システムの端末装置に適用した場合を例に、本発明の実施の形態について図面を参照して詳細に説明する。
図1は、実施の形態に係る電子会議システムの構成例を示す図である。
Hereinafter, an embodiment of the present invention will be described in detail with reference to the drawings, taking as an example the case where the present invention is applied to a terminal device of an electronic conference system.
FIG. 1 is a diagram illustrating a configuration example of an electronic conference system according to an embodiment.
本実施の形態の電子会議システムは、図1に示すように、電子会議端末10および20がネットワーク30に接続された構成を有している。電子会議端末10および20は、遠隔地の会議室の間で電子会議を行うための端末であり、ネットワーク30を通じて画像信号および音声信号を送受信できるようになっている。
The electronic conference system according to this embodiment has a configuration in which
ここでは例として電子会議端末10の概略構成について説明する。この電子会議端末10は、ネットワーク30を通じて画像・音声データを送受信するネットワークインタフェース(I/F)11と、画像信号の符号化/復号化を行う画像CODEC(COder/DECoder)12と、表示画像信号や撮像画像信号の入出力処理を行う画像I/F13と、音声データの符号化/復号化を行う音声CODEC14と、収音信号からエコー成分を除去するエコーキャンセラ15と、出力音声信号や収音信号の入出力処理を行う音声I/F16とを具備している。また、電子会議端末10の外部には、カメラ13a、モニタ13b、マイクロフォン16a、およびスピーカ16bが接続されている。
Here, a schematic configuration of the electronic conference terminal 10 will be described as an example. The electronic conference terminal 10 includes a network interface (I / F) 11 that transmits and receives image / sound data through a
この電子会議端末10において、カメラ13aにより撮像された画像信号は、画像I/F13によりデジタル信号に変換され、画像CODEC12により所定の符号化方式で符号化される。また、マイクロフォン16aにより収音された音声信号は、音声I/F16によりデジタル信号に変換され、エコーキャンセラ15によりエコー成分が除去された後、音声CODEC14により所定の符号化方式で符号化される。符号化された画像および音声のデータは、ネットワークI/F11によりパケットに多重化され、ネットワーク30上に送出される。
In the electronic conference terminal 10, an image signal captured by the
また、ネットワーク30を通じて受信された画像および音声のデータは、ネットワークI/F11により分離されてそれぞれ画像CODEC12および音声CODEC14に入力される。分離された画像データは画像CODEC12により復号化され、画像I/F13により表示画像信号に変換されてモニタ13bに出力され、これにより画像が再生表示される。また、ネットワークI/F11で分離された音声データは、音声CODEC14により復号化され、音声I/F16によりアナログ信号に変換されてスピーカ16bに出力され、これにより音声が再生出力される。また、音声CODEC14で復号化された音声信号はエコーキャンセラ15にも供給され、参照信号としてエコー除去処理に利用される。
Also, the image and audio data received through the
このような電子会議システムでは、例えば電子会議端末10において収音された音声が、電子会議端末20の側で再生され、その再生音声が回り込んで収音されることがある。電子会議端末10の側でも同様な音声の回り込みが発生することがある。そこで、電子会議端末10には、このような場合に発生するエコーの成分をエコーキャンセラ15により除去することで、送受信される音声の品質を向上させている。
In such an electronic conference system, for example, the sound collected at the electronic conference terminal 10 may be reproduced on the
なお、エコーキャンセラ15の機能は、電子会議端末10に限らず、例えばマイクロフォン16aに内蔵されていてもよい。この場合、マイクロフォン16aは例えば、収音信号を出力する他に、シリアル通信I/Fなどを通じて、電子会議端末10から参照信号(相手側の電子会議端末20からの音声信号)の供給を受ける。
Note that the function of the
図2は、エコーキャンセラ15の内部構成例を示す図である。
エコーキャンセラ15は、図2に示すように、適応フィルタによりエコー成分を除去する処理を行うエコーキャンセル処理部510と、適応フィルタのパラメータの更新量μを算出するμ算出部520とを具備する。エコーキャンセル処理部510は、参照信号バッファ511、エコー成分除去部512、パラメータ更新部513、パラメータ記憶部514、およびリスト記憶部515を具備している。また、μ算出部520は、コヒーレンス算出部521およびコヒーレンス/μ変換部522を具備している。
FIG. 2 is a diagram illustrating an internal configuration example of the
As shown in FIG. 2, the
参照信号バッファ511は、相手側の電子会議端末20からネットワーク30を通じて受信し、音声CODEC14により復号化した参照信号を一時的に蓄積し、エコー成分除去部512やパラメータ更新部513、リスト記憶部515に出力する。
The
エコー成分除去部512は、マイクロフォン16aによる収音信号を音声I/F16を通じて受信し、その収音信号からエコー成分を除去し、エラー信号として音声CODEC14、パラメータ更新部513およびリスト記憶部515に出力する。このエコー成分除去部512は、パラメータ記憶部514に記憶された適応フィルタパラメータ(以下、単にパラメータと呼ぶ)501を用い、入力された収音信号と、参照信号バッファ511からの参照信号とから、時間領域で処理する適応フィルタによりエコー成分を推定する。
The echo
パラメータ更新部513は、適応フィルタのパラメータ501の学習処理を行うブロックであり、μ算出部520からパラメータ501の更新量μの指定を受け、この更新量μに応じてエコー成分の推定に用いる適応フィルタのパラメータ501を更新する。パラメータ記憶部514は、パラメータ更新部513により更新されるパラメータ501を記憶して、エコー成分除去部512に出力する。
The
リスト記憶部515は、エコー成分除去部512からのエラー信号、および参照信号バッファ511からの参照信号を、それぞれ同じ一定の時間ごとに順次蓄積したエラー信号リスト502および参照信号リスト503に記憶する。ここで、音声CODEC14からの参照信号と、音声I/F16からの収音信号とはエコーキャンセラ15への信号出力タイミングが一致しており、リスト記憶部515のエラー信号リスト502および503には、同じサンプル数の音声データが常に蓄積される。
The list storage unit 515 stores the error signal from the echo
一方、μ算出部520のコヒーレンス算出部521は、リスト記憶部515に記憶されたエラー信号リスト502および参照信号リスト503を基にして、エラー信号と参照信号とのコヒーレンス値を算出する。コヒーレンス/μ変換部522は、コヒーレンス算出部521で算出されたコヒーレンス値を更新量μに変換し、パラメータ更新部513に対して更新量μを指定する。
On the other hand, the
次に、エコーキャンセル処理部510による処理について説明する。
このエコーキャンセル処理部510におけるエコー成分の除去処理は、音声信号を時間領域で処理する適応フィルタを用いてエコー成分を推定するものであり、その処理手順自体は従来から実行されていたものを適用できる。n回目のエコーキャンセル処理におけるエコー成分は、次の式(1)により推定できる。
Next, processing by the echo cancellation processing unit 510 will be described.
The echo component removal processing in the echo cancellation processing unit 510 estimates the echo component using an adaptive filter that processes the audio signal in the time domain, and the processing procedure itself is the same as that used in the past. it can. The echo component in the n-th echo cancellation process can be estimated by the following equation (1).
ここで、y(t)は時刻tにおけるエコー成分の推定値、wは適応フィルタのパラメータ501、xは参照信号の時間領域データ、kはベクトルの要素数を示す。また、w(n)は、{w0,w1,w2,……,wk-1}の順で配列されたパラメータ501のベクトル、x(n)は、{xt,xt-1,xt-2,……,xt-(k-1)}の順で配列された参照信号の時間領域データのベクトルを示しており、w(n)x(n)は、2つのベクトルw(n),x(n)の内積を示す。
Here, y (t) is the estimated value of the echo component at time t, w is the
エコー成分除去部512は、パラメータ記憶部514内のパラメータ501および参照信号を基に、上記の式(1)に従ってエコー成分を推定し、その成分を収音音声から減算してエラー信号を出力する。
The echo
一方、パラメータ更新部513は、所定の適応アルゴリズムを用いて適応フィルタのパラメータ501を更新する。適応アルゴリズムの例として射影法を用いた場合、n回目のパラメータ501の更新は次の式(2)により計算される。なお、式(3)は、式(2)中のa1,a2を求めるための行列式であり、eはエラー信号の時間領域データを示す。
On the other hand, the
上記の式(2)において、更新量μを大きくすると、パラメータ501の学習速度(更新速度)が高くなる。ここで、ダブルトークが発生していない状態では、収音信号中のエコー成分と参照信号との相関が高いため、更新量μを大きくして学習速度を高くした方が、エコー成分を確実に除去して出力音声の品質を向上できる。しかし、ダブルトークが発生した状態では、更新量μを小さくして学習速度を緩めた方が音質はよくなる。
In the above equation (2), when the update amount μ is increased, the learning speed (update speed) of the
そこで、このエコーキャンセラ15では、収音信号からエコー成分を除去したエラー信号と参照信号とのコヒーレンスを求め、その値に応じてパラメータの更新量μを調整することで、ダブルトークの発生の有無などに関係なくエラー信号の品質を向上させる。エラー信号と参照信号とのコヒーレンスが高い場合は、除去したいエコー成分と収音信号との相関が高いことになるため、更新量μを高めることでエコー成分をより確実に除去できる。逆に、コヒーレンスが低い場合には、パラメータ501がすでに収束しているか、あるいはダブルトークが発生している可能性が高く、更新量μを低下させることでエラー信号の品質を向上できる。
In view of this, the
図3は、エコーキャンセル処理部510の処理の流れを示すフローチャートである。
〔ステップS101〕エコーキャンセル処理部510が音声信号を受信すると、以下の処理が割り込み処理として実行される。
FIG. 3 is a flowchart showing the flow of processing of the echo cancellation processing unit 510.
[Step S101] When the echo cancellation processing unit 510 receives an audio signal, the following processing is executed as interrupt processing.
〔ステップS102〕エコー成分除去部512は、収音信号を受信するとともに、参照信号を参照信号バッファ511を介して受信する。
〔ステップS103〕エコー成分除去部512は、パラメータ記憶部514から適応フィルタのパラメータ501を読み出し、このパラメータ501を基に上記式(1)を用いてエコー成分を推定する。
[Step S102] The echo
[Step S103] The echo
〔ステップS104〕エコー成分除去部512は、推定したエコー成分を収音信号から減算し、エラー信号を出力する。
〔ステップS105〕エコー成分除去部512から出力されたエラー信号は、パラメータ更新部513および音声CODEC14に出力されるとともに、リスト記憶部515に供給され、リスト記憶部515は、エラー信号をエラー信号リスト502に記憶する。また、リスト記憶部515は、参照信号バッファ511に格納された最新の参照信号を、参照信号リスト503に記憶する。
[Step S104] The echo
[Step S105] The error signal output from the echo
〔ステップS106〕パラメータ更新部513は、μ算出部520からの更新量μ、エラー信号、参照信号、およびパラメータ記憶部514に記憶されたパラメータ501を基にして、式(2)を用いてパラメータ501の更新値を算出し、パラメータ記憶部514の記憶データを更新する。
[Step S106] The
一方、μ算出部520による処理は、エコーキャンセル処理部510が、音声信号を受信してエコー成分を収音信号から除去し、さらに適応フィルタのパラメータ501を更新した後、次の音声信号を受信するまでの残りの時間を利用して実行される。この理由は、エコーキャンセル処理部510の処理は音声信号の受信ごとに必ず実行される必要があることにある。そのため、次の音声信号の受信までにμ算出部520の処理が完了しない場合には、音声信号の受信時にエコーキャンセル処理部510による割り込み処理が実行され、処理終了後にμ算出部520の処理が再開される。
On the other hand, in the processing by the μ calculator 520, the echo cancellation processor 510 receives the audio signal, removes the echo component from the collected sound signal, updates the
次に、μ算出部520の処理について詳しく説明する。始めに、μ算出処理に用いられるエラー信号リスト502および参照信号リスト503の例について説明する。
図4は、リスト記憶部515の構成例を示す図である。
Next, the process of the μ calculator 520 will be described in detail. First, examples of the
FIG. 4 is a diagram illustrating a configuration example of the list storage unit 515.
図4に示すように、リスト記憶部515は、それぞれ2つの記憶領域に分割されたエラー信号リスト502aおよび502b、参照信号リスト503aおよび503bと、これらの記憶領域を管理するためのリスト管理部516とを具備している。エラー信号リスト502aおよび502bでは、その一方が満たされると他方を満たしていくように、エコー成分除去部512からのエラー信号が順次蓄積される。参照信号も同様に、参照信号リスト503aおよび503bを交互に満たすように順次蓄積されていく。
As shown in FIG. 4, the list storage unit 515 includes error signal lists 502a and 502b and reference signal lists 503a and 503b each divided into two storage areas, and a
これらのエラー信号リスト502aおよび502bと、参照信号リスト503aおよび503bは、すべて同じサンプル数の音声データを記憶するようになっており、そのサンプル数は、後述するμ算出部520によるDFT(Discrete Fourier Transform)のポイント数とされる。 These error signal lists 502a and 502b and reference signal lists 503a and 503b all store audio data having the same number of samples, and the number of samples is determined by DFT (Discrete Fourier) by a μ calculation unit 520 described later. (Transform) points.
リスト管理部516は、リスト選択フラグFL1およびμ算出許可フラグFL2を保持している。リスト選択フラグFL1は、エコー成分除去部512からのエラー信号が現在、エラー信号リスト502aおよび502bのどちらに入力されているかを示すフラグである。例えば、エラー信号リスト502aにデータ蓄積中の場合「1」とされ、そのリストが満たされてエラー信号リスト502bへのデータ蓄積が開始されると「0」に反転される。またその場合、「1」であるときは参照信号リスト503a、「0」であるときは参照信号リスト503bに対するデータ蓄積中であることも示す。
The
μ算出許可フラグFL2は、エラー信号リスト502aおよび502b(あるいは参照信号リスト503aおよび503b)のいずれか一方に、これらを満たすだけのサンプル数の新たな音声データが蓄積されたときに「1」とされる。そして、その音声データがμ算出部520のコヒーレンス算出部521によって読み出されると、「0」に戻される。ここで、μ算出部520による更新量μの算出処理は、新たに蓄積が開始されたエラー信号リスト502aおよび参照信号リスト503a、またはエラー信号リスト502bおよび参照信号リスト503bのいずれかが満たされる時間内に完了するものとする。
The μ calculation permission flag FL2 is set to “1” when new audio data having a number of samples sufficient to satisfy one of the error signal lists 502a and 502b (or the reference signal lists 503a and 503b) is accumulated. Is done. When the audio data is read by the
μ算出部520のコヒーレンス算出部521は、コヒーレンスを算出するためにエラー信号リスト502aおよび参照信号リスト503a、またはエラー信号リスト502bおよび参照信号リスト503bのいずれかを読み出すが、このときにリスト選択フラグFL1を参照することでどちらのリストを読み出せばいいかを判定できる。すなわち、リスト選択フラグFL1が示す選択中のリストとは別の他方のリストから、音声データを読み出せばよい。また、μ算出許可フラグFL2を参照することで、新たな音声データの読み出しか可能か否かを判定できる。
The
図5は、μ算出部520の処理の流れを示すフローチャートである。なお、図5の一連の処理の実行中に、エコーキャンセル処理部510において次の音声信号が受信された場合には、エコーキャンセル処理部510の処理が割り込み実行され、その実行終了後に図5の続きの処理が実行される。 FIG. 5 is a flowchart showing a processing flow of the μ calculator 520. When the next audio signal is received by the echo cancellation processing unit 510 during the execution of the series of processing of FIG. 5, the processing of the echo cancellation processing unit 510 is interrupted and executed after completion of the execution of FIG. Subsequent processing is executed.
〔ステップS201〕コヒーレンス算出部521は、リスト管理部516のμ算出許可フラグFL2を参照し、その値が「1」となったときにステップS202の処理を実行する。
[Step S201] The
〔ステップS202〕コヒーレンス算出部521は、リスト選択フラグFL1に基づき、所定サンプル数の音声データが新たに蓄積されたエラー信号リスト502aまたは502bと、参照信号リスト503aまたは503bからそれぞれ音声データを読み込む。
[Step S202] Based on the list selection flag FL1, the
〔ステップS203〕コヒーレンス算出部521は、リストから読み出したエラー信号および参照信号をDFTにより周波数領域の値に変換し、コヒーレンスを算出する。具体的には、DFTの結果に基づき、周波数fの成分ごとに、エラー信号および参照信号の各パワースペクトルWxx(f)およびWyy(f)と、各信号のクロススペクトルWxy(f)とを算出する。そして、次の式(4)を用いて周波数fに対応するコヒーレンスC(f)を算出する。
[Step S203] The
この式(4)では、最新のWxx(f),Wyy(f),Wxy(f)を含む過去Mフレーム(Mは自然数)のエラー信号および参照信号のスペクトルの平均値を利用している。この個数Mの値が小さいほど、収音状態の変化に素早く反応して演算できるものの、算出されるコヒーレンスの値が安定しにくくなる。逆に、個数Mを大きくするとコヒーレンスの安定度は向上するが、反応が遅くなるため、反応速度とコヒーレンスの安定度とのバランスを考慮して個数Mを決定することが望ましい。 In this equation (4), the average value of the spectrum of the error signal and reference signal of the past M frames (M is a natural number) including the latest W xx (f), W yy (f), and W xy (f) is used. ing. The smaller the number M, the quicker the calculation can be made in response to the change in the sound collection state, but the calculated coherence value becomes less stable. On the contrary, if the number M is increased, the stability of coherence is improved, but the reaction becomes slow. Therefore, it is desirable to determine the number M in consideration of the balance between the reaction rate and the stability of coherence.
なお、このステップS203では、DFTの代わりにFFT(Fast Fourier Transform)などの各種フーリエ変換により、エラー信号および参照信号のスペクトルを算出してもよい。 In step S203, the spectrum of the error signal and the reference signal may be calculated by various Fourier transforms such as FFT (Fast Fourier Transform) instead of DFT.
〔ステップS204〕コヒーレンス算出部521は、コヒーレンスの値を基に平均コヒーレンス値C_avgを算出する。この平均コヒーレンス値C_avgは、ステップS203で算出した周波数fごとのコヒーレンスC(f)をすべて加算し、その加算値を、DFTにより算出された周波数成分の数で除算することで算出する。
[Step S204] The
〔ステップS205〕コヒーレンス/μ変換部522は、算出された平均コヒーレンス値C_avgを、パラメータ501の更新量μの値に変換する。上述したように、エラー信号と参照信号との相関が高いほど、すなわち平均コヒーレンス値C_avgが高いほど、更新量μが高くなるように設定することで、エラー信号の品質を向上させることができる。
[Step S205] The coherence /
このコヒーレンス/μ変換部522では、例えば平均コヒーレンス値C_avgを定数倍することで更新量μを算出してもよいが、それだけでは全体としてパラメータ501の収束速度が遅く、処理の開始から、エラー信号の品質が良好となるようにパラメータ501が収束するまで時間がかかる。このため、例えば次の図6に示すような変換グラフを用いて変換を行うようにする。
In the coherence /
〔ステップS206〕コヒーレンス/μ変換部522は、変換した更新量μを、パラメータ更新部513に設定する。この後、μ算出部520は、例えばユーザの操作入力などに応じて処理が終了されるまで、図5の処理を繰り返す。
[Step S206] The coherence /
図6は、コヒーレンス/μ変換処理で用いられる変換グラフの一例を示す図である。
この変換グラフでは、更新量μの最小値が0より大きくなるように変換することで、適応フィルタのパラメータ501の収束時間を高め、より短期間で音質向上効果を得られるようにしている。図6では例として、平均コヒーレンス値C_avgが0〜a1のときに更新量μを最小値c1とし、平均コヒーレンス値C_avgがa1〜b1のときに更新量μを一定の割合で増加させ、さらに平均コヒーレンス値C_avgがb1〜1のときに更新量μを最大値d1にしている。
FIG. 6 is a diagram illustrating an example of a conversion graph used in the coherence / μ conversion process.
In this conversion graph, conversion is performed so that the minimum value of the update amount μ is larger than 0, so that the convergence time of the
以上説明したように、本実施の形態のエコーキャンセラ15では、直近のエラー信号および参照信号を蓄積した各リストを基にコヒーレンスを求め、そのコヒーレンスに基づき、エラー信号と参照信号との相関の高さに応じて適応フィルタのパラメータ501の更新量μを変化させることで、ダブルトークの発生の有無に関係なく、エコー成分を収音信号からより確実に除去することができる。また、エコー成分の推定には、音声信号を時間領域で処理する適応フィルタを用いており、さらに周波数領域で処理するμ算出部520の処理を、エコー成分推定の処理の間にその推定処理間隔以上の周期で行うようにしたことで、効率よく処理できる。
As described above, the
[リスト記憶部の他の構成例]
図7は、リスト記憶部の他の構成例を示す図である。
この図7に示すリスト記憶部515aは、図4に示したリスト記憶部515に代わって設けられるものであり、エラー信号リスト502および参照信号リスト503をそれぞれ蓄積するリングバッファ517および518を具備している。リングバッファ517および518は、コヒーレンス算出部521によりDFTを行うのに必要なサンプル数分の音声データの2倍の容量をそれぞれ備えている。なお、各リングバッファ517および518は、エコーキャンセラ15の動作開始時にはすべてデータ「0」で初期化されるものとする。
[Other configuration examples of list storage unit]
FIG. 7 is a diagram illustrating another configuration example of the list storage unit.
The list storage unit 515a shown in FIG. 7 is provided in place of the list storage unit 515 shown in FIG. 4, and includes ring buffers 517 and 518 for storing the
また、リスト記憶部515aはさらに、リスト管理部518を具備しており、このリスト管理部518には、リングバッファ517および518における読み出し可能位置を示すカウンタであるリングカウンタ519を具備するとともに、μ算出許可フラグFL3を保持している。リングカウンタ519は、各リングバッファ517および518の記憶領域が1/4だけ音声データで埋まるごとにカウント値を更新する。そして、カウント値の更新時にμ算出許可フラグFL3が「1」とされ、該当する読み出し位置から音声データがコヒーレンス算出部521に読み出されると、μ算出許可フラグFL3が「0」に反転される。
The list storage unit 515a further includes a
ここで、μ算出部520による更新量μの算出処理が、各リングバッファ517および518の1/4の容量分だけ音声データが入力される時間内に完了できるものとする。このとき、コヒーレンス算出部521は、μ算出許可フラグFL3が「1」となると、リングカウンタ519のカウント値を基に、リングバッファ517および518の対応する位置から、各バッファの1/2の容量分のエラー信号および参照信号を読み出し、コヒーレンスの演算を行う。
Here, it is assumed that the calculation process of the update amount μ by the μ calculation unit 520 can be completed within a time when the voice data is input by the capacity of ¼ of each of the ring buffers 517 and 518. At this time, when the μ calculation permission flag FL3 becomes “1”, the
例えば、リングバッファ517の記憶領域がデータの蓄積順に4つの均等な領域517a〜517dを持つとすると、領域517bまでエラー信号が満たされたときは、領域517aおよび517bに記憶されたエラー信号がコヒーレンス算出部521に読み出される。次に、領域517cまでエラー信号が満たされたときは、領域517bおよび517cのエラー信号が読み出される。
For example, if the storage area of the ring buffer 517 has four
このような動作により、例えば図4に示したリスト記憶部515と比較すると、更新量μの出力周期を1/2にして、適応フィルタのパラメータ501をより的確に更新できる。また、エラー信号リスト502および参照信号リスト503を蓄積するためのバッファ容量を増加させることなく、コヒーレンス算出に用いる音声データのサンプル数に変わりはなく、常に最新の音声データを使用して演算を行うことが可能となり、エラー信号の品質をより向上させることができる。
By such an operation, for example, compared with the list storage unit 515 shown in FIG. 4, the output period of the update amount μ can be halved, and the
なお、この図7の例では、各リングバッファ517および518の記憶領域の1/4ずつ読み出すようにしたが、これに限らずコヒーレンスの計算を行うタイミングは自在に変更することが可能である。 In the example of FIG. 7, 1/4 of the storage areas of the ring buffers 517 and 518 are read. However, the present invention is not limited to this, and the timing for calculating the coherence can be freely changed.
[コヒーレンス算出の他の処理例]
コヒーレンス算出部521において平均コヒーレンス値C_avgを求める場合には、より多くの(すなわち長い期間の)コヒーレンスC(f)を用いることで、平均コヒーレンス値C_avgの安定度を高めることができる。しかしその反面、演算処理の負荷が大きくなり、また内部に必要なメモリの容量も大きくなる。
[Other processing examples of coherence calculation]
When the average coherence value C_avg is obtained by the
そこで、DFTにより求めた周波数成分の一部のみを利用して、平均コヒーレンス値C_avgを求めるようにしてもよい。例えば、DFTにより求めた周波数成分を1つずつ間引き、間引き後の周波数成分においてコヒーレンスC(f)を求め、その平均コヒーレンス値C_avgを算出する。これにより、同じメモリ量や処理能力を持つ場合にも、より長い期間の音声データに基づいて演算できるようになる。また、演算に用いる周波数成分を、例えば、周波数の低い順に所定の数だけ選択する、ランダムに選択するといった方法を採ってもよい。 Therefore, the average coherence value C_avg may be obtained by using only a part of the frequency component obtained by DFT. For example, the frequency components obtained by DFT are thinned out one by one, the coherence C (f) is obtained in the frequency components after the thinning, and the average coherence value C_avg is calculated. As a result, even when the memory capacity and processing capability are the same, calculation can be performed based on audio data for a longer period. In addition, for example, a predetermined number of frequency components used for calculation may be selected in ascending order of frequency, or may be selected at random.
さらに、平均コヒーレンス値C_avgの演算時に、周波数成分ごとに重み付けを行ってもよい。例えば、マイクロフォンやスピーカ、CODECの特性などに応じて重み付けの割合を設定する。あるいは、電子会議装置を設置する部屋の大きさや、マイクロフォン、スピーカの数などに応じて、重み付けの割合を設定変更可能にしてもよい。これにより、定常ノイズを含む周波数成分をあまり考慮しないようにするなど、状況に応じて更新量μのとる値を変更してエラー信号の品質低下を抑制することが可能となる。 Furthermore, weighting may be performed for each frequency component when calculating the average coherence value C_avg. For example, the weighting ratio is set according to the characteristics of the microphone, speaker, CODEC, and the like. Alternatively, the weighting ratio may be set and changed according to the size of the room in which the electronic conference apparatus is installed, the number of microphones and speakers, and the like. As a result, it is possible to change the value taken by the update amount μ according to the situation, for example, so as not to take into account frequency components including stationary noise so much, and to suppress degradation of the quality of the error signal.
一方、μ算出部520の内部メモリ量やリスト記憶部515の記憶容量を抑えたために、コヒーレンス算出に用いる音声データのサンプル数(サンプル期間)が短くなった場合には、平均コヒーレンス値C_avgの演算において時定数D(ただし、0<D<1)を用いることで、演算結果の安定性を向上させるようにしてもよい。この場合、Nターン目に算出される平均コヒーレンス値C_avg(N)を、例えば次の式(5)で算出する。なお、Nターン目において、周波数成分ごとに算出されたコヒーレンスC(f)をすべて加算した後、その周波数成分の数で除算した値を、C_small_ave(N)とする。
C_avg(N)={D×C_avg(N−1)}+{(1−D)×C_small_ave(N)} ……(5)
このような演算を行うことにより、音声データのサンプル数が少ない場合にも平均コヒーレンス値C_avgの値が安定化されて、エラー信号の品質が高まる。なお、時定数Dを大きくすると算出結果の安定性は高まるものの、音声信号の成分変化に対する追従性が低くなるため、それらのバランスを考慮して時定数Dを設定することが望ましい。
On the other hand, when the number of samples (sampling period) of the audio data used for coherence calculation is reduced because the internal memory amount of the μ calculation unit 520 and the storage capacity of the list storage unit 515 are reduced, the average coherence value C_avg is calculated. The time constant D (where 0 <D <1) may be used to improve the stability of the calculation result. In this case, the average coherence value C_avg (N) calculated at the Nth turn is calculated by the following equation (5), for example. In addition, in the Nth turn, after adding all the coherence C (f) calculated for each frequency component, a value obtained by dividing by the number of the frequency components is defined as C_small_ave (N).
C_avg (N) = {D × C_avg (N−1)} + {(1−D) × C_small_ave (N)} (5)
By performing such calculation, the average coherence value C_avg is stabilized even when the number of audio data samples is small, and the quality of the error signal is increased. If the time constant D is increased, the stability of the calculation result is increased, but the followability to changes in the components of the audio signal is lowered. Therefore, it is desirable to set the time constant D in consideration of such balance.
[平均コヒーレンス/μ変換の他の処理例]
コヒーレンス/μ変換部522において平均コヒーレンス値C_avgを更新量μに変換する際に用いる変換グラフは、図6に示したものに限らず、以下のように様々なパターンを用いることができる。
[Other processing examples of average coherence / μ conversion]
The conversion graph used when the average coherence value C_avg is converted into the update amount μ in the coherence /
図8〜図10は、コヒーレンス/μ変換処理で用いられる変換グラフの他の例を示す図である。
図8(A)では、平均コヒーレンス値C_avgが0から1まで上昇するに連れて、更新量μを最小値a2から最大値b2まで一定の割合で増加させている。図8(B)では、平均コヒーレンス値C_avgがしきい値a3より小さいときに更新量μを最小値b3、平均コヒーレンス値がしきい値a3以上のとき更新量μを最大値c3として、変換処理を単純化している。
8 to 10 are diagrams illustrating other examples of conversion graphs used in the coherence / μ conversion processing.
In FIG. 8A, as the average coherence value C_avg increases from 0 to 1, the update amount μ is increased from the minimum value a2 to the maximum value b2 at a constant rate. In FIG. 8B, the conversion processing is performed by setting the update amount μ as the minimum value b3 when the average coherence value C_avg is smaller than the threshold value a3, and the update amount μ as the maximum value c3 when the average coherence value is equal to or greater than the threshold value a3. Is simplified.
図9(A)では、平均コヒーレンス値C_avgがa4,b4,c4,d4となる場合を境界として更新量μの上昇率(ただし0以上)を変えており、更新量をより細かく制御できるようになっている。図9(B)では、平均コヒーレンス値C_avgの上昇に連れて、更新量μが最小値a5から最大値b5まで滑らかな曲線状に上昇している。 In FIG. 9A, the rate of increase of the update amount μ (however, 0 or more) is changed with the case where the average coherence value C_avg becomes a4, b4, c4, d4 so that the update amount can be controlled more finely. It has become. In FIG. 9B, as the average coherence value C_avg increases, the update amount μ increases in a smooth curve from the minimum value a5 to the maximum value b5.
さらに図10のように、平均コヒーレンス値C_avgと更新量μとの対応を示す2つの曲線522aおよび522bを用意し、状況に応じて使い分けるようにしてもよい。例えば、平均コヒーレンス値C_avgの履歴を保持しておき、最近の一定期間に算出された平均コヒーレンス値C_avgが高い傾向にある場合(例えばそれらの平均値がしきい値以上の場合)には、エラー信号と参照信号との関連度が高く、エラー信号中にエコー成分が多く残存していると考えられるので、曲線522aを用いて変換し、適応フィルタのパラメータ501の収束速度を高めるようにする。逆に最近の平均コヒーレンス値C_avgが低い傾向にある場合には、曲線522bを用いて変換することで、パラメータ501を安定化して音質劣化を防止するなどといった使い分けを行う。また、使用する変換グラフを3つ以上用意して、より細かい条件に応じて使い分けるようにしてもよい。
Furthermore, as shown in FIG. 10, two
さらに、平均コヒーレンス値C_avgがあるしきい値より低くなったときには、適応フィルタのパラメータ501の更新を停止させてもよい。更新を停止させるためには、更新量μを0にする手法、コヒーレンス/μ変換部522が更新停止信号を出力し、パラメータ更新部513がこの更新停止信号を受信した場合には動作を停止する手法などが適用できる。さらに、更新停止時あるいは更新停止からの復帰時においては、例えば以下の図11あるいは図12で用いられる条件に基づいて処理を実行してもよい。
Further, when the average coherence value C_avg becomes lower than a certain threshold value, the update of the
なお、上記の各例ではいずれも、平均コヒーレンス値C_avgの増加に伴う更新量μの変化量が0以上となっている。しかし通常、平均コヒーレンス値C_avgが1に近すぎる場合には不正確な検出が行われている可能性があるため、例えば平均コヒーレンス値C_avgがあるしきい値を超えたときには、更新量μを低下させるような変換グラフを用いてもよい。 In each of the above examples, the change amount of the update amount μ accompanying the increase in the average coherence value C_avg is 0 or more. However, in general, when the average coherence value C_avg is too close to 1, there is a possibility that inaccurate detection is performed. For example, when the average coherence value C_avg exceeds a certain threshold value, the update amount μ is decreased. Such a conversion graph may be used.
図11は、平均コヒーレンス値C_avgを更新量μに変換する他の処理例(その1)を示すフローチャートである。なお、この図11の処理は、コヒーレンス/μ変換部522によって実行される図5のステップS205の処理に対応する。
FIG. 11 is a flowchart showing another processing example (part 1) for converting the average coherence value C_avg into the update amount μ. The process of FIG. 11 corresponds to the process of step S205 of FIG. 5 executed by the coherence /
〔ステップS301〕算出した平均コヒーレンス値C_avgが、しきい値Th1未満であるか否かを判定し、しきい値Th1未満である場合はステップS302に、しきい値Th1以上である場合はステップS305に進む。 [Step S301] It is determined whether or not the calculated average coherence value C_avg is less than the threshold value Th1, and if it is less than the threshold value Th1, the process proceeds to step S302. If it is greater than or equal to the threshold value Th1, step S305 is performed. Proceed to
〔ステップS302〕変数pに「1」を加算する。
〔ステップS303〕変数pがしきい値Th2以上であるか否かを判定する。しきい値Th2以上である場合はステップS304に進み、しきい値Th2未満である場合はステップS307に進む。
[Step S302] "1" is added to the variable p.
[Step S303] It is determined whether or not the variable p is greater than or equal to a threshold value Th2. If it is greater than or equal to the threshold value Th2, the process proceeds to step S304, and if it is less than the threshold value Th2, the process proceeds to step S307.
〔ステップS304〕パラメータ更新部513に対する更新停止信号をHレベルとする。
〔ステップS305〕変数pを「0」に初期化する。
[Step S304] An update stop signal for the
[Step S305] The variable p is initialized to “0”.
〔ステップS306〕更新停止信号をLレベルにする。
〔ステップS307〕所定の変換グラフに基づき、平均コヒーレンス値C_avgを更新量μに変換し、パラメータ更新部513に設定する。
[Step S306] The update stop signal is set to L level.
[Step S307] Based on a predetermined conversion graph, the average coherence value C_avg is converted into an update amount μ and set in the
以上の処理では、平均コヒーレンス値C_avgが、しきい値Th2の示す回数以上連続してしきい値Th1より小さくなった場合には、パラメータ更新部513におけるパラメータ501の更新処理を停止させる(ステップS301〜S302)。そしてその後、平均コヒーレンス値C_avgがしきい値Th1以上となったときに、変換グラフに基づいて変換した更新量μをパラメータ更新部513に設定して、更新処理を再開させる。従って、平均コヒーレンス値C_avgが低い傾向にある場合には、適応フィルタのパラメータ501を安定化して音質劣化を防止することができる。
In the above process, when the average coherence value C_avg is continuously smaller than the threshold value Th1 for the number of times indicated by the threshold value Th2, the
図12は、平均コヒーレンス値C_avgを更新量μに変換する他の処理例(その2)を示すフローチャートである。なお、この図12の処理も同様に、コヒーレンス/μ変換部522によって実行される図5のステップS205の処理に対応する。
FIG. 12 is a flowchart showing another processing example (part 2) for converting the average coherence value C_avg into the update amount μ. The processing in FIG. 12 also corresponds to the processing in step S205 in FIG. 5 executed by the coherence /
〔ステップS401〕算出した平均コヒーレンス値C_avgが、しきい値Th3未満であるか否かを判定し、しきい値Th3未満である場合はステップS402に、しきい値Th3以上である場合はステップS404に進む。 [Step S401] It is determined whether or not the calculated average coherence value C_avg is less than the threshold value Th3. If the calculated average coherence value C_avg is less than the threshold value Th3, the process proceeds to step S402. Proceed to
〔ステップS402〕変数qを「0」に初期化する。
〔ステップS403〕更新停止信号をHレベルにする。
〔ステップS404〕変数qに「1」を加算する。
[Step S402] The variable q is initialized to “0”.
[Step S403] The update stop signal is set to H level.
[Step S404] "1" is added to the variable q.
〔ステップS405〕変数qがしきい値Th4以上であるか否かを判定する。しきい値Th4以上である場合はステップS406へ、しきい値Th4未満である場合はステップS403に進む。 [Step S405] It is determined whether or not the variable q is greater than or equal to a threshold value Th4. If it is greater than or equal to the threshold value Th4, the process proceeds to step S406. If it is less than the threshold value Th4, the process proceeds to step S403.
〔ステップS406〕更新停止信号をLレベルにする。
〔ステップS407〕所定の変換グラフに基づき、平均コヒーレンス値C_avgを更新量μに変換し、パラメータ更新部513に設定する。
[Step S406] The update stop signal is set to L level.
[Step S407] Based on a predetermined conversion graph, the average coherence value C_avg is converted into an update amount μ and set in the
以上の処理では、平均コヒーレンス値C_avgが1回でもしきい値Th3未満になれば、パラメータ更新部513の更新処理が停止される。そしてその後は、平均コヒーレンス値C_avgが、しきい値Th4の示す回数以上連続してしきい値Th3以上になるまで、パラメータ501の更新処理が再開されない。従って、平均コヒーレンス値C_avgがほぼしきい値Th3以下で変動している場合に、適応フィルタのパラメータ501を安定化し、音質の変化が不自然にならないようにすることができる。
In the above process, if the average coherence value C_avg is less than the threshold value Th3 even once, the update process of the
なお、以上の実施の形態では、本発明を電子会議端末に適用した場合について説明したが、これに限らず、例えば上記電子会議システムに用いるマイクロフォンや、電話機などの双方向で音声を送受信する端末に対して、本発明を適用したエコーキャンセラを搭載することができる。さらに、マイクロフォンと音声送受信のための電子会議端末などの端末との双方に適用することも可能である。 In the above embodiment, the case where the present invention is applied to an electronic conference terminal has been described. However, the present invention is not limited to this, and for example, a microphone that is used in the electronic conference system or a terminal that transmits and receives audio in two directions such as a telephone. On the other hand, an echo canceller to which the present invention is applied can be mounted. Further, the present invention can be applied to both a microphone and a terminal such as an electronic conference terminal for voice transmission / reception.
また、上記の処理機能は、コンピュータによって実現することができる。その場合、上記実施の形態で示したエコーキャンセラが有すべき機能の処理内容を記述したプログラムが提供され、そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等がある。磁気記録装置には、ハードディスク装置(HDD)、フレキシブルディスク(FD)、磁気テープなどがある。光ディスクには、DVD(Digital Versatile Disk)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)などがある。光磁気記録媒体には、MO(Magneto-Optical disk)などがある。 Further, the above processing functions can be realized by a computer. In that case, a program describing the processing contents of the functions that the echo canceller described in the above embodiment should have is provided, and the processing functions are realized on the computer by executing the program on the computer. The program describing the processing contents can be recorded on a computer-readable recording medium. Examples of the computer-readable recording medium include a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory. Examples of the magnetic recording device include a hard disk device (HDD), a flexible disk (FD), and a magnetic tape. Examples of the optical disk include a DVD (Digital Versatile Disk), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only Memory), and a CD-R (Recordable) / RW (ReWritable). Magneto-optical recording media include MO (Magneto-Optical disk).
プログラムを流通させる場合には、例えば、そのプログラムが記録されたDVD、CD−ROMなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。 When distributing the program, for example, a portable recording medium such as a DVD or a CD-ROM in which the program is recorded is sold. It is also possible to store the program in a storage device of a server computer and transfer the program from the server computer to another computer via a network.
プログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラムまたはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、サーバコンピュータからプログラムが転送されるごとに、逐次、受け取ったプログラムに従った処理を実行することもできる。 The computer that executes the program stores, for example, the program recorded on the portable recording medium or the program transferred from the server computer in its own storage device. Then, the computer reads the program from its own storage device and executes processing according to the program. The computer can also read the program directly from the portable recording medium and execute processing according to the program. Further, each time the program is transferred from the server computer, the computer can sequentially execute processing according to the received program.
10……電子会議端末、11……ネットワークI/F、12……画像CODEC、13……画像I/F、13a……カメラ、13b……モニタ、14……音声CODEC、15……エコーキャンセラ、16……音声I/F、16a……マイクロフォン、16b……スピーカ、20……電子会議端末、30……ネットワーク、501……適応フィルタパラメータ、502……エラー信号リスト、503……参照信号リスト、510……エコーキャンセル処理部、511……参照信号バッファ、512……エコー成分除去部、513……パラメータ更新部、514……パラメータ記憶部、515……リスト記憶部、520……μ算出部、521……コヒーレンス算出部、522……コヒーレンス/μ変換部
DESCRIPTION OF SYMBOLS 10 ... Teleconference terminal, 11 ... Network I / F, 12 ... Image CODEC, 13 ... Image I / F, 13a ... Camera, 13b ... Monitor, 14 ... Voice CODEC, 15 ... Echo canceller , 16... Voice I / F, 16 a... Microphone, 16 b. Speaker, 20... Teleconference terminal, 30...
Claims (11)
前記収音信号と再生出力する音声に対応する参照信号とから時間領域の適応フィルタにより前記エコー成分を推定して、前記収音信号から前記エコー成分を除去するエコー成分除去手段と、
前記適応フィルタのパラメータを更新するパラメータ更新手段と、
前記収音信号から前記エコー成分を除去したエラー信号と前記参照信号とのコヒーレンスに応じて、前記パラメータ更新手段による前記パラメータの更新量を指定する更新量指定手段と、
を有することを特徴とするエコー除去装置。 In an echo removing apparatus that removes an echo component generated by a wraparound of a reproduced and output sound from a sound collection signal,
Echo component removal means for estimating the echo component from a reference signal corresponding to the collected sound signal and the sound to be reproduced and output by a time domain adaptive filter, and removing the echo component from the collected sound signal;
Parameter updating means for updating parameters of the adaptive filter;
An update amount specifying means for specifying an update amount of the parameter by the parameter update means according to the coherence between the error signal obtained by removing the echo component from the collected sound signal and the reference signal;
An echo removing apparatus comprising:
一定期間に入力された前記収音信号および前記参照信号を基に算出したコヒーレンスを周波数成分ごとに加算し、その加算値を前記周波数成分の数で除算することで平均コヒーレンス値を算出する平均値算出手段と、
前記平均コヒーレンス値を前記パラメータの更新量に変換するデータ変換手段と、
を備えることを特徴とする請求項1記載のエコー除去装置。 The update amount designation means includes:
An average value for calculating an average coherence value by adding the coherence calculated based on the collected sound signal and the reference signal input for a certain period for each frequency component and dividing the added value by the number of the frequency components. A calculation means;
Data conversion means for converting the average coherence value into an update amount of the parameter;
The echo removing apparatus according to claim 1, further comprising:
前記データ変換手段は、前記加算値を前記パラメータの更新量に変換することを特徴とする請求項2記載のエコー除去装置。 The average value calculating means outputs a value obtained by adding the current average coherence value and the average coherence value calculated in the previous period at a predetermined ratio based on a time constant,
The echo removal apparatus according to claim 2, wherein the data conversion unit converts the addition value into an update amount of the parameter.
収音信号と再生出力する音声に対応する参照信号とから時間領域の適応フィルタによりエコー成分を推定して、前記収音信号から前記エコー成分を除去するエコー成分除去手段と、
前記適応フィルタのパラメータを更新するパラメータ更新手段と、
前記収音信号から前記エコー成分を除去したエラー信号と前記参照信号とのコヒーレンスに応じて、前記パラメータ更新手段による前記パラメータの更新量を指定する更新量指定手段と、
を有するエコー除去部を備えたことを特徴とする電子会議装置。 In an electronic conference device that realizes a conference with a remote place by transmitting and receiving audio signals and video signals to each other through a network,
Echo component removal means for estimating an echo component from a sound collection signal and a reference signal corresponding to the sound to be reproduced and output by a time domain adaptive filter, and removing the echo component from the sound collection signal;
Parameter updating means for updating parameters of the adaptive filter;
An update amount specifying means for specifying an update amount of the parameter by the parameter update means according to the coherence between the error signal obtained by removing the echo component from the collected sound signal and the reference signal;
An electronic conference apparatus comprising an echo removing unit having
エコー成分除去手段が、前記収音信号と再生出力する音声に対応する参照信号とから時間領域の適応フィルタにより前記エコー成分を推定して、前記収音信号から前記エコー成分を除去するステップと、
パラメータ更新手段が、前記適応フィルタのパラメータを更新するステップと、
更新量指定手段が、前記収音信号から前記エコー成分を除去したエラー信号と前記参照信号とのコヒーレンスに応じて、前記パラメータ更新手段による前記パラメータの更新量を指定するステップと、
を含むことを特徴とするエコー除去方法。 In an echo removal method for removing an echo component generated by a wraparound of a reproduced and output sound from a sound collection signal,
An echo component removing unit estimating the echo component by a time domain adaptive filter from the collected sound signal and a reference signal corresponding to the sound to be reproduced and output, and removing the echo component from the collected sound signal;
Parameter updating means updating the parameters of the adaptive filter;
An update amount designation means designates an update amount of the parameter by the parameter update means according to the coherence between the error signal obtained by removing the echo component from the collected sound signal and the reference signal;
An echo removal method comprising:
前記収音信号と再生出力する音声に対応する参照信号とから時間領域の適応フィルタにより前記エコー成分を推定して、前記収音信号から前記エコー成分を除去するエコー成分除去手段、
前記適応フィルタのパラメータを更新するパラメータ更新手段、
前記収音信号から前記エコー成分を除去したエラー信号と前記参照信号とのコヒーレンスに応じて、前記パラメータ更新手段による前記パラメータの更新量を指定する更新量指定手段、
として前記コンピュータを機能させることを特徴とするエコー除去プログラム。
In an echo removal program for causing a computer to execute a process of removing an echo component generated by wraparound of a reproduced and output sound into a sound collection unit,
An echo component removing means for estimating the echo component from the collected sound signal and a reference signal corresponding to the sound to be reproduced and output by a time domain adaptive filter, and removing the echo component from the collected sound signal;
Parameter updating means for updating parameters of the adaptive filter;
An update amount specifying means for specifying an update amount of the parameter by the parameter update means according to the coherence between the error signal obtained by removing the echo component from the collected sound signal and the reference signal;
An echo removal program for causing the computer to function as:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005087987A JP2006270709A (en) | 2005-03-25 | 2005-03-25 | Echo remover, electronic conference apparatus, and echo removing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005087987A JP2006270709A (en) | 2005-03-25 | 2005-03-25 | Echo remover, electronic conference apparatus, and echo removing program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006270709A true JP2006270709A (en) | 2006-10-05 |
Family
ID=37206166
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005087987A Pending JP2006270709A (en) | 2005-03-25 | 2005-03-25 | Echo remover, electronic conference apparatus, and echo removing program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006270709A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008187680A (en) * | 2007-01-31 | 2008-08-14 | Oki Electric Ind Co Ltd | Signal state detection apparatus, echo canceler, and signal state detection program |
JP2014204212A (en) * | 2013-04-03 | 2014-10-27 | パイオニア株式会社 | Broadcast receiving device, and filtering control method |
-
2005
- 2005-03-25 JP JP2005087987A patent/JP2006270709A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008187680A (en) * | 2007-01-31 | 2008-08-14 | Oki Electric Ind Co Ltd | Signal state detection apparatus, echo canceler, and signal state detection program |
JP2014204212A (en) * | 2013-04-03 | 2014-10-27 | パイオニア株式会社 | Broadcast receiving device, and filtering control method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102170172B1 (en) | Echo suppression | |
US20170318161A1 (en) | Echo cancellation data synchronization control method, terminal, and storage medium | |
US8842851B2 (en) | Audio source localization system and method | |
US8433059B2 (en) | Echo canceller canceling an echo according to timings of producing and detecting an identified frequency component signal | |
JP4377952B1 (en) | Adaptive filter and echo canceller having the same | |
US9449593B2 (en) | Detecting nonlinear amplitude processing | |
JP2011511571A (en) | Improve sound quality by intelligently selecting between signals from multiple microphones | |
JP6422885B2 (en) | Echo suppression | |
US8761386B2 (en) | Sound processing apparatus, method, and program | |
JP2013150250A (en) | Voice processing apparatus and voice processing method | |
JP2011176638A (en) | Communication terminal and method of communication | |
US20090174761A1 (en) | Device, Method and Computer Program Product for Responding to Media Conference Deficiencies | |
JP4533427B2 (en) | Echo canceller | |
JP6422884B2 (en) | Echo suppression | |
KR20160014709A (en) | Echo suppression | |
CN109215672B (en) | Method, device and equipment for processing sound information | |
JP2009094802A (en) | Telecommunication apparatus | |
JP2012039441A (en) | Multi-channel echo erasure method, multi-channel echo erasure device, and program of the same | |
JP2006270709A (en) | Echo remover, electronic conference apparatus, and echo removing program | |
JP2008005094A (en) | Echo suppressing method and device, echo suppressing program, and recording medium | |
JP2004109779A (en) | Speech processor | |
JP4594854B2 (en) | Voice switch method, voice switch device, voice switch program, and recording medium recording the program | |
JP4504782B2 (en) | Echo cancellation method, apparatus for implementing this method, program, and recording medium therefor | |
JP7043344B2 (en) | Echo suppression device, echo suppression method and echo suppression program | |
JP4448423B2 (en) | Echo suppression method, apparatus for implementing this method, program, and recording medium therefor |