JP2017034355A - Echo suppression device, echo suppression program, and echo suppression method - Google Patents

Echo suppression device, echo suppression program, and echo suppression method Download PDF

Info

Publication number
JP2017034355A
JP2017034355A JP2015149935A JP2015149935A JP2017034355A JP 2017034355 A JP2017034355 A JP 2017034355A JP 2015149935 A JP2015149935 A JP 2015149935A JP 2015149935 A JP2015149935 A JP 2015149935A JP 2017034355 A JP2017034355 A JP 2017034355A
Authority
JP
Japan
Prior art keywords
delay amount
frame delay
signal
echo
estimated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015149935A
Other languages
Japanese (ja)
Other versions
JP6648436B2 (en
Inventor
尚也 川畑
Naoya Kawabata
尚也 川畑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2015149935A priority Critical patent/JP6648436B2/en
Publication of JP2017034355A publication Critical patent/JP2017034355A/en
Application granted granted Critical
Publication of JP6648436B2 publication Critical patent/JP6648436B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide an echo suppression device capable of suppressing an acoustic echo signal, even immediately after initiating operation of the echo suppression device.SOLUTION: An echo suppression device includes: amount of frame delay estimation means for estimating an amount of frame delay based on an amplitude spectrum of an estimated echo signal estimated for a plurality of past frames and an amplitude spectrum of a near-end input signal; amount of frame delay convergence determination means for determining if the amount of frame delay is converged or not, and outputs the amount of frame delay based on the result; estimated echo path characteristic renewal means for renewing an estimated echo path characteristic using a fixed value of the amount of frame delay, and stores it, based on the determination result; and an echo suppression means for calculating an echo suppression gain with an amplitude spectrum of an estimated echo signal delayed using the amount of frame delay, and an amplitude spectrum of a near-end input signal, and for suppressing the estimated echo signal based on the amplitude spectrum of the near-end input signal.SELECTED DRAWING: Figure 1

Description

本発明は、エコー抑圧装置、エコー抑圧プログラム、及びエコー抑圧方法に関し、例えば、テレビ会議システムや電話会議システム等において用いられるエコー抑圧装置、エコー抑圧プログラム、及びエコー抑圧方法に適用し得るものである。   The present invention relates to an echo suppression device, an echo suppression program, and an echo suppression method, and can be applied to, for example, an echo suppression device, an echo suppression program, and an echo suppression method used in a video conference system, a telephone conference system, and the like. .

例えば、テレビ会議システムや電話会議システム等の拡声通話システムでは、スピーカから放音された音(ここで、音は音響や音声等を含む。)がマイクに回り込んで送話側に戻る音響エコー信号が発生する。音響エコー信号は、通話の著しい妨げとなるため、音響エコー信号の抑圧方法に関して、これまでも多くの研究、開発が行なわれている。   For example, in a loudspeaker system such as a video conference system or a telephone conference system, an acoustic echo that is emitted from a speaker (where sound includes sound, voice, etc.) wraps around a microphone and returns to the transmitting side. A signal is generated. Since the acoustic echo signal significantly hinders a call, much research and development have been conducted on the acoustic echo signal suppression method.

音響エコー信号を抑圧する1つの手法として、エコー抑圧装置(エコーサプレッサー)を使用する手法がある。エコー抑圧装置とは、遠端信号と近端入力信号とから推定エコーパス特性、推定エコー信号、エコーサプレスゲインを求めて、近端入力信号とエコーサプレスゲインを乗算することで音響エコー信号を抑圧する手法である。このエコー抑圧装置を使用して音響エコー信号を抑圧する手法が非特許文献1によって提案されている。   One technique for suppressing the acoustic echo signal is to use an echo suppressor (echo suppressor). The echo suppressor obtains the estimated echo path characteristics, estimated echo signal, and echo suppress gain from the far end signal and the near end input signal, and suppresses the acoustic echo signal by multiplying the near end input signal and the echo suppress gain. It is a technique. Non-Patent Document 1 proposes a technique for suppressing an acoustic echo signal using this echo suppressor.

非特許文献1に開示されるエコー抑圧装置は、過去のフレームの遠端信号と近端入力信号とに基づいて推定エコーパス特性を求める。そして、求めた推定エコーパス特性と遠端信号とを乗算した信号を推定エコー信号とし、エコー抑圧装置は、近端入力信号と推定エコー信号とに基づいてエコーサプレスゲインを求め、エコーサプレスゲインを近端入力信号と乗算して音響エコー信号を抑圧する。   The echo suppressor disclosed in Non-Patent Document 1 obtains an estimated echo path characteristic based on a far-end signal and a near-end input signal of a past frame. Then, the signal obtained by multiplying the obtained estimated echo path characteristic and the far-end signal is used as an estimated echo signal, and the echo suppressor obtains an echo suppression gain based on the near-end input signal and the estimated echo signal, Multiply with the end input signal to suppress the acoustic echo signal.

C.Faller and C.Turnery,“ESTIMATION THE DELAY AND COLORATION EFFECT OF THE ACOUSTIC ECHO PATH FOR LOW COMPLEXITY ECHO SUPPRESSION”,Proc.Intl.Works.on Acoust.Echo and Noise Control(IWAENC)2005,pp.53−56,Oct.2005C. Faller and C.M. Turnery, “ESTIMATION THE DELAY AND COLORATION EFFECT OF THE ACOUSTIC ECHO PATH FOR LOW COMPLEITY ECHO SUPPRESSION”, Proc. Intl. Works. on Acoustic. Echo and Noise Control (IWAENC) 2005, pp. 53-56, Oct. 2005

しかしながら、非特許文献1に記載のエコー抑圧装置では、ソフトフォンやスマートフォンなどの入出力部にバッファがある機器で使用すると、動作を開始してから推定エコーパス特性の学習が進むまで音響エコー信号を抑圧できない。さらに、ソフトフォンやスマートフォンはエコーサプレス処理以外にも様々なアプリケーションやプログラムが動作しており、負荷が大きくなるとバッファに音データを保存する処理や入力バッファから音データを出力する処理が停止するため、遅延量が大きくなり、且つ遅延量の変動が大きくなる。非特許文献1のエコーサプレス装置では、遅延量を考慮せずに、推定エコー信号を算出するとき過去のフレームの平均を用いて推定エコーパス特性を算出しているので、エコー抑圧装置が動作を開始した直後の音響エコー信号を抑圧できない。また、遅延量を考慮していないため、音響エコー信号が抑圧できない区間が長くなり、ハウリングが発生する可能性も考えられる。   However, in the echo suppression device described in Non-Patent Document 1, when used in a device having a buffer in an input / output unit such as a softphone or a smartphone, an acoustic echo signal is output until the learning of the estimated echo path characteristics proceeds after the operation starts. I cannot suppress it. In addition to the echo suppression process, various applications and programs are running on softphones and smartphones. If the load increases, the process of saving sound data in the buffer and the process of outputting sound data from the input buffer will stop. The delay amount increases, and the variation in the delay amount increases. In the echo suppression device of Non-Patent Document 1, since the estimated echo path characteristic is calculated using the average of past frames when calculating the estimated echo signal without considering the delay amount, the echo suppression device starts operating. The acoustic echo signal immediately after being applied cannot be suppressed. Further, since the delay amount is not taken into consideration, there is a possibility that a section in which the acoustic echo signal cannot be suppressed becomes long and howling occurs.

そのため、エコー抑圧装置の動作を開始した直後でも、音響エコー信号を抑圧できるエコー抑圧装置、エコー抑圧プログラム、及びエコー抑圧方法が望まれる。   Therefore, an echo suppression device, an echo suppression program, and an echo suppression method that can suppress an acoustic echo signal immediately after the operation of the echo suppression device is started are desired.

第1の本発明は、近端入力信号と、遠端信号とに基づく音響エコー信号を抑圧するエコー抑圧装置において、(1)過去複数フレームの推定エコー信号の振幅スペクトルと、近端入力信号の振幅スペクトルとからフレーム遅延量を推定するフレーム遅延量推定手段と、(2)フレーム遅延量推定手段で推定したフレーム遅延量が、収束しているか否か判定し、その判定した判定結果に基づき、上記フレーム遅延量を出力するフレーム遅延量収束判定手段と、(3)上記フレーム遅延量収束判定手段での上記判定結果に応じて、上記フレーム遅延量の固定値を用いて推定エコーパス特性を更新し保持する推定エコーパス特性更新手段と、(4)上記フレーム遅延量を用いて遅延させた推定エコー信号の振幅スペクトルと、上記近端入力信号の振幅スペクトルとでエコーサプレスゲインを計算し、上記近端入力信号の振幅スペクトルから上記推定エコー信号を抑圧するエコー抑圧手段とを有することを特徴とする。   According to a first aspect of the present invention, there is provided an echo suppressor that suppresses an acoustic echo signal based on a near-end input signal and a far-end signal, and (1) an amplitude spectrum of an estimated echo signal of a plurality of past frames, A frame delay amount estimating means for estimating a frame delay amount from the amplitude spectrum; and (2) determining whether or not the frame delay amount estimated by the frame delay amount estimating means has converged, and based on the determined determination result, A frame delay amount convergence determining means for outputting the frame delay amount; and (3) updating an estimated echo path characteristic using a fixed value of the frame delay amount in accordance with the determination result in the frame delay amount convergence determining means. An estimated echo path characteristic updating means to be held; (4) an amplitude spectrum of the estimated echo signal delayed by using the frame delay amount; and an amplitude of the near-end input signal. An echo suppression gain calculated in the spectrum, and having a echo suppression means for suppressing the estimated echo signal from the amplitude spectrum of the near-end input signal.

第2の本発明のエコー抑圧プログラムは、近端入力信号と、遠端信号とに基づく音響エコー信号を抑圧するエコー抑圧装置に搭載されるコンピュータを、(1)過去複数フレームの推定エコー信号の振幅スペクトルと、近端入力信号の振幅スペクトルとからフレーム遅延量を推定するフレーム遅延量推定手段と、(2)フレーム遅延量推定手段で推定したフレーム遅延量が、収束しているか否か判定し、その判定した判定結果に基づき、上記フレーム遅延量を出力するフレーム遅延量収束判定手段と、(3)上記フレーム遅延量収束判定手段での上記判定結果に応じて、上記フレーム遅延量の固定値を用いて推定エコーパス特性を更新し保持する推定エコーパス特性更新手段と、(4)上記フレーム遅延量を用いて遅延させた推定エコー信号の振幅スペクトルと、上記近端入力信号の振幅スペクトルとでエコーサプレスゲインを計算し、上記近端入力信号の振幅スペクトルから上記推定エコー信号を抑圧するエコー抑圧手段として機能させることを特徴とする。   The echo suppression program of the second aspect of the present invention provides a computer mounted on an echo suppression apparatus that suppresses an acoustic echo signal based on a near-end input signal and a far-end signal, and (1) an estimated echo signal of a plurality of past frames. A frame delay amount estimating means for estimating a frame delay amount from the amplitude spectrum and the amplitude spectrum of the near-end input signal; and (2) determining whether or not the frame delay amount estimated by the frame delay amount estimating means has converged. A frame delay amount convergence determining means for outputting the frame delay amount based on the determined determination result; and (3) a fixed value of the frame delay amount according to the determination result in the frame delay amount convergence determining means. And (4) an estimated echo signal delayed by using the frame delay amount. The amplitude spectrum, the echo suppression gain in the amplitude spectrum of the near-end input signal is calculated, characterized in that to function as an echo suppression means for suppressing the estimated echo signal from the amplitude spectrum of the near-end input signal.

第3の本発明は、近端入力信号と、遠端信号とに基づく音響エコー信号を抑圧するエコー抑圧方法において、フレーム遅延量推定手段、フレーム遅延量収束判定手段、推定エコーパス特性更新手段、及びエコー抑圧手段を有し、(1)上記フレーム遅延量推定手段は、過去複数フレームの推定エコー信号の振幅スペクトルと、近端入力信号の振幅スペクトルとからフレーム遅延量を推定し、(2)上記フレーム遅延量収束判定手段は、フレーム遅延量推定手段で推定したフレーム遅延量が、収束しているか否か判定し、その判定した判定結果に基づき、上記フレーム遅延量を出力し、(3)上記推定エコーパス特性更新手段は、上記フレーム遅延量収束判定手段での上記判定結果に応じて、上記フレーム遅延量の固定値を用いて推定エコーパス特性を更新し保持し、(4)上記エコー抑圧手段は、上記フレーム遅延量を用いて遅延させた推定エコー信号の振幅スペクトルと、上記近端入力信号の振幅スペクトルとでエコーサプレスゲインを計算し、上記近端入力信号の振幅スペクトルから上記推定エコー信号を抑圧することを特徴とする。   According to a third aspect of the present invention, there is provided an echo suppression method for suppressing an acoustic echo signal based on a near-end input signal and a far-end signal, a frame delay amount estimating unit, a frame delay amount convergence determining unit, an estimated echo path characteristic updating unit, and Echo suppression means, (1) the frame delay amount estimation means estimates the frame delay amount from the amplitude spectrum of the estimated echo signal of the past plural frames and the amplitude spectrum of the near-end input signal, and (2) the above The frame delay amount convergence determination means determines whether or not the frame delay amount estimated by the frame delay amount estimation means has converged, and outputs the frame delay amount based on the determined determination result, (3) The estimated echo path characteristic updating unit uses the fixed value of the frame delay amount according to the determination result of the frame delay amount convergence determining unit. (4) The echo suppression means calculates an echo suppression gain using the amplitude spectrum of the estimated echo signal delayed using the frame delay amount and the amplitude spectrum of the near-end input signal. The estimated echo signal is suppressed from the amplitude spectrum of the near-end input signal.

本発明によれば、エコー抑圧装置の動作を開始した直後でも、音響エコー信号を抑圧できる。   According to the present invention, an acoustic echo signal can be suppressed even immediately after the operation of the echo suppression device is started.

第1の実施形態に係るエコー抑圧装置の構成を示すブロック図である。It is a block diagram which shows the structure of the echo suppression apparatus which concerns on 1st Embodiment. 第1の実施形態に係るフレーム遅延量収束判定部の処理を示す処理フロー図である。It is a processing flowchart which shows the process of the frame delay amount convergence determination part which concerns on 1st Embodiment. 第1の実施形態に係る推定エコーパス特性算出部の処理を示す処理フロー図である。It is a processing flowchart which shows the process of the estimation echo path characteristic calculation part which concerns on 1st Embodiment. 第2の実施形態に係る推定エコーパス特性算出部の処理を示す処理フロー図である。It is a processing flowchart which shows the process of the estimation echo path characteristic calculation part which concerns on 2nd Embodiment.

(A)第1の実施形態
以下では、本発明のエコー抑圧装置、エコー抑圧プログラム、及びエコー抑圧方法の第1の実施形態を、図面を参照しながら詳細に説明する。
(A) First Embodiment Hereinafter, a first embodiment of an echo suppression device, an echo suppression program, and an echo suppression method of the present invention will be described in detail with reference to the drawings.

第1の実施形態は、例えば、テレビ会議システムや電話会議システム等の拡声通話システムの音声送受信装置のエコー抑圧装置、エコー抑圧プログラム、及びエコー抑圧方法に本発明を適用する場合を例示する。   The first embodiment exemplifies a case where the present invention is applied to, for example, an echo suppression device, an echo suppression program, and an echo suppression method of an audio transmission / reception device of a loudspeaker communication system such as a video conference system or a telephone conference system.

(A−1)第1の実施形態の構成
図1は、本発明の実施形態に係るエコー抑圧装置100の構成を示すブロック図である。
(A-1) Configuration of First Embodiment FIG. 1 is a block diagram showing a configuration of an echo suppression apparatus 100 according to an embodiment of the present invention.

本発明の第1の実施形態に係るエコー抑圧装置100は、上述した本発明のエコー抑圧装置を実装したものであり、遠端信号が近端側の空間を伝達し、音響エコー信号として近端側のマイクに回り込んで入力されたときでも、近端入力信号に対してエコー抑圧処理を行い、音響エコー信号を適切に抑圧するものである。   The echo suppressor 100 according to the first embodiment of the present invention is implemented with the above-described echo suppressor of the present invention, and the far-end signal transmits the near-end side space and is used as an acoustic echo signal. Even when the signal is input around the side microphone, echo suppression processing is performed on the near-end input signal to appropriately suppress the acoustic echo signal.

第1の実施形態に係るエコー抑圧装置100は、例えば、専用ボードとして構築されるようにしても良いし、DSP(デジタルシグナルプロセッサ)へのエコー抑圧プログラムの書き込みによって実現されたものであっても良く、CPUと、CPUが実行するソフトウェア(エコー抑圧プログラム)によって実現されたものであっても良いが、機能的には、図1で表すことができる。   The echo suppression apparatus 100 according to the first embodiment may be configured as a dedicated board, for example, or may be realized by writing an echo suppression program to a DSP (digital signal processor). Although it may be realized by a CPU and software (echo suppression program) executed by the CPU, it can be functionally represented in FIG.

図1において、第1の実施形態に係るエコー抑圧装置100は、遠端信号入力端子101、出力バッファ102、DA変換器103、スピーカ104、マイク105、AD変換器106、入力バッファ107、遠端信号周波数領域変換部108、遠端信号振幅スペクトル計算部109、推定エコーパス特性更新部110、推定エコー信号計算部111、推定エコー信号保持部112、近端入力信号周波数領域変換部113、近端入力信号振幅スペクトル計算部114、フレーム遅延量推定部115、フレーム遅延量収束判定部116、推定エコー信号遅延部117、エコーサプレスゲイン計算部118、エコーサプレス部119、近端出力信号時間領域変換部120、近端信号出力端子121、遠端信号保持部122、近端出力信号振幅スペクトル計算部123、シングルトーク判定部124を有する。   In FIG. 1, an echo suppression apparatus 100 according to the first embodiment includes a far-end signal input terminal 101, an output buffer 102, a DA converter 103, a speaker 104, a microphone 105, an AD converter 106, an input buffer 107, and a far end. Signal frequency domain transform unit 108, far end signal amplitude spectrum calculation unit 109, estimated echo path characteristic update unit 110, estimated echo signal calculation unit 111, estimated echo signal holding unit 112, near end input signal frequency domain transform unit 113, near end input Signal amplitude spectrum calculation unit 114, frame delay amount estimation unit 115, frame delay amount convergence determination unit 116, estimated echo signal delay unit 117, echo suppression gain calculation unit 118, echo suppression unit 119, near-end output signal time domain conversion unit 120 , Near-end signal output terminal 121, far-end signal holding unit 122, near-end output signal amplitude spectrum Torr calculation unit 123 has a single-talk determination unit 124.

遠端信号入力端子101は、例えば、インターネットプロトコル(IP)網等のネットワークや、携帯電話等の無線ネットワークの電波等に接続されており、接続されている回線を介して遠端側(相手側)の遠端信号が入力される。   The far-end signal input terminal 101 is connected to, for example, a network such as an Internet protocol (IP) network or a radio wave of a wireless network such as a mobile phone. ) Is input.

遠端信号入力端子101に入力された遠端信号は、出力バッファ102において一時保持され、DA変換器103の処理準備ができ次第、DA変換器103に遠端信号を出力し、DA変換器103において、デジタル音信号からアナログ音信号に変換され、スピーカ104を通して近端側に出力される。   The far-end signal input to the far-end signal input terminal 101 is temporarily held in the output buffer 102 and the far-end signal is output to the DA converter 103 as soon as the DA converter 103 is ready for processing. , The digital sound signal is converted into an analog sound signal and output to the near end through the speaker 104.

出力バッファ102は、エコー抑圧装置100の処理待ち用のバッファである。   The output buffer 102 is a buffer for waiting for processing of the echo suppression apparatus 100.

一方、近端側の話者が発した音声等の音信号や、環境音、音響エコー信号(例えば、スピーカ104から出力されたアナログ音信号が近端側の空間を伝達して回り込んだ信号)等が重畳したアナログ音信号は、マイク105において受音され、AD変換器106においてデジタル音信号に変換され、入力バッファ107において一時保持され、エコー抑圧装置100の準備ができ次第、デジタル音信号を近端入力信号としてエコー抑圧装置100に入力される。   On the other hand, a sound signal such as a voice uttered by a speaker on the near end side, an environmental sound, an acoustic echo signal (for example, an analog sound signal output from the speaker 104 is transmitted around the space on the near end side and wraps around. ) Etc. are received by the microphone 105, converted into a digital sound signal by the AD converter 106, temporarily held in the input buffer 107, and the digital sound signal is ready as soon as the echo suppressor 100 is ready. Is input to the echo suppression apparatus 100 as a near-end input signal.

入力バッファ107は、エコー抑圧装置100の処理待ち用のバッファである。   The input buffer 107 is a buffer for waiting for processing of the echo suppression apparatus 100.

遠端信号周波数領域変換部108は、例えば、高速フーリエ変換(FFT)等により、遠端信号を時間領域の信号から周波数領域の信号に変換し、遠端信号の周波数スペクトルを出力する。   The far-end signal frequency domain transforming unit 108 transforms the far-end signal from a time-domain signal to a frequency-domain signal by, for example, fast Fourier transform (FFT), and outputs a frequency spectrum of the far-end signal.

遠端信号振幅スペクトル計算部109は、遠端信号の周波数スペクトルに基づいて、遠端信号の振幅スペクトルを算出し、算出した遠端信号の振幅スペクトルを出力する。   The far-end signal amplitude spectrum calculation unit 109 calculates the amplitude spectrum of the far-end signal based on the frequency spectrum of the far-end signal, and outputs the calculated amplitude spectrum of the far-end signal.

推定エコーパス特性更新部110は、前フレームに推定したエコーパス特性を保持しており、保持している推定エコーパス特性に出力する。   The estimated echo path characteristic updating unit 110 holds the estimated echo path characteristic in the previous frame, and outputs it to the held estimated echo path characteristic.

さらに、推定エコーパス特性更新部110は、シングルトーク判定部124でシングルトークと判定されると、推定したフレーム遅延量だけ遅延させた遠端信号の振幅スペクトルと近端入力信号の振幅スペクトルに基づいて、現フレームの推定エコーパス特性を算出し、算出した現フレームの推定エコーパス特性と推定エコーパス特性更新部110に保持している推定エコーパス特性に基づき、推定エコーパス特性を更新し、更新した推定エコーパス特性を推定エコーパス特性更新部110に保存する。   Further, when the single-talk determining unit 124 determines that single-talk is determined, the estimated echo path characteristic updating unit 110 is based on the amplitude spectrum of the far-end signal and the amplitude spectrum of the near-end input signal delayed by the estimated frame delay amount. The estimated echo path characteristic of the current frame is calculated, the estimated echo path characteristic is updated based on the calculated estimated echo path characteristic of the current frame and the estimated echo path characteristic held in the estimated echo path characteristic update unit 110, and the updated estimated echo path characteristic is The estimated echo path characteristic update unit 110 stores the result.

推定エコー信号計算部111は、遠端信号の振幅スペクトルと推定エコーパス特性とを乗じて推定エコー信号の振幅スペクトルを算出し、算出した推定エコー信号の振幅スペクトルを出力する。   The estimated echo signal calculation unit 111 calculates the amplitude spectrum of the estimated echo signal by multiplying the amplitude spectrum of the far-end signal and the estimated echo path characteristic, and outputs the calculated amplitude spectrum of the estimated echo signal.

推定エコー信号保持部112は、推定エコー信号の振幅スペクトルを所定時間保持し、フレーム遅延量推定部115でフレーム遅延量を推定するために過去の推定エコー信号を複数フレーム出力する。さらに、推定エコー信号保持部112は、後述するフレーム遅延量収束判定部116から出力されたフレーム遅延量だけ遅延させた推定エコー信号を出力する。   The estimated echo signal holding unit 112 holds the amplitude spectrum of the estimated echo signal for a predetermined time, and the frame delay amount estimating unit 115 outputs a plurality of past estimated echo signals in order to estimate the frame delay amount. Further, the estimated echo signal holding unit 112 outputs an estimated echo signal delayed by a frame delay amount output from a frame delay amount convergence determination unit 116 described later.

近端入力信号周波数領域変換部113は、例えば、高速フーリエ変換等により、近端入力信号を時間領域の信号から周波数領域の信号に変換し、近端入力信号の周波数スペクトルを出力する。   The near-end input signal frequency domain conversion unit 113 converts the near-end input signal from a time-domain signal to a frequency-domain signal by, for example, fast Fourier transform, and outputs a frequency spectrum of the near-end input signal.

近端入力信号振幅スペクトル計算部114は、近端入力信号の周波数スペクトルに基づいて、近端入力信号の振幅スペクトルを算出し、算出した近端入力信号の振幅スペクトルを出力する。   The near-end input signal amplitude spectrum calculation unit 114 calculates the amplitude spectrum of the near-end input signal based on the frequency spectrum of the near-end input signal, and outputs the calculated near-end input signal amplitude spectrum.

フレーム遅延量推定部115は、過去の複数フレームの推定エコー信号の振幅スペクトルと、過去の複数フレームの近端入力信号の振幅スペクトルでフレーム遅延量を推定し、推定したフレーム遅延量を出力する。   The frame delay amount estimation unit 115 estimates the frame delay amount based on the amplitude spectrum of the estimated echo signal of the past plural frames and the amplitude spectrum of the near-end input signal of the past plural frames, and outputs the estimated frame delay amount.

フレーム遅延量収束判定部116は、推定したフレーム遅延量が収束しているか判定し、推定したフレーム遅延量が収束していなければ、フレーム遅延量に固定値を代入して出力する。推定エコーパス特性更新部110は、フレーム推定したフレーム遅延量が収束していれば、フレーム遅延量推定部115で推定したフレーム遅延量を出力する。さらに、フレーム遅延量収束判定部116は、収束判定結果を推定エコーパス特性更新部110に出力する。   The frame delay amount convergence determination unit 116 determines whether or not the estimated frame delay amount has converged. If the estimated frame delay amount has not converged, a fixed value is substituted for the frame delay amount and output. The estimated echo path characteristic update unit 110 outputs the frame delay amount estimated by the frame delay amount estimation unit 115 if the frame delay amount estimated by the frame has converged. Further, the frame delay amount convergence determination unit 116 outputs the convergence determination result to the estimated echo path characteristic update unit 110.

推定エコー信号遅延部117は、フレーム遅延量を用いて推定エコー信号保持部112から当該フレーム遅延量だけ遅延させたフレームの推定エコー信号の振幅スペクトルを読み出し、遅延推定エコー信号の振幅スペクトルとして出力する。   The estimated echo signal delay unit 117 reads the amplitude spectrum of the estimated echo signal of the frame delayed by the frame delay amount from the estimated echo signal holding unit 112 using the frame delay amount, and outputs it as the amplitude spectrum of the delayed estimated echo signal. .

エコーサプレスゲイン計算部118は、近端入力信号の振幅スペクトルと遅延推定エコー信号の振幅スペクトルとを用いて、近端入力信号に重畳されている音響エコー信号を抑圧するエコーサプレスゲインを算出し、算出したエコーサプレスゲインを出力する。   The echo suppression gain calculation unit 118 calculates an echo suppression gain for suppressing the acoustic echo signal superimposed on the near-end input signal, using the amplitude spectrum of the near-end input signal and the amplitude spectrum of the delay estimation echo signal. The calculated echo suppression gain is output.

エコーサプレス部119は、エコーサプレスゲインと近端入力信号の周波数スペクトルを乗じることにより、近端入力信号に重畳されている音響エコー信号が抑圧した周波数スペクトルを求め、近端出力信号の周波数スペクトルとして出力する。   The echo suppression unit 119 obtains a frequency spectrum in which the acoustic echo signal superimposed on the near-end input signal is suppressed by multiplying the echo suppress gain and the frequency spectrum of the near-end input signal, and obtains the frequency spectrum of the near-end output signal. Output.

近端出力信号時間領域変換部120は、近端出力信号の周波数スペクトルを、例えば、逆高速フーリエ変換(InverseFFT)等により、時間領域のデジタル音信号に変換し、近端出力信号として出力する。   The near-end output signal time domain conversion unit 120 converts the frequency spectrum of the near-end output signal into a digital sound signal in the time domain by, for example, inverse fast Fourier transform (Inverse FFT), and outputs it as a near-end output signal.

遠端信号保持部122は、遠端信号の振幅スペクトルを推定エコー信号保持部112と同じ所定時間保持する。そして、遠端信号保持部122は、推定したフレーム遅延量だけ遅延させた遠端信号の振幅スペクトルを出力する。   The far end signal holding unit 122 holds the amplitude spectrum of the far end signal for the same predetermined time as the estimated echo signal holding unit 112. Then, the far end signal holding unit 122 outputs the amplitude spectrum of the far end signal delayed by the estimated frame delay amount.

近端出力信号振幅スペクトル計算部123は、近端出力信号の周波数スペクトルに基づいて、近端出力信号の振幅スペクトルを算出し、算出した近端出力信号の振幅スペクトルを出力する。   The near-end output signal amplitude spectrum calculation unit 123 calculates the amplitude spectrum of the near-end output signal based on the frequency spectrum of the near-end output signal, and outputs the calculated amplitude spectrum of the near-end output signal.

近端出力信号振幅スペクトル計算部123は、近端出力信号の周波数スペクトルに基づいて、近端出力信号の振幅スペクトルを算出し、算出した近端出力信号の振幅スペクトルを出力する。   The near-end output signal amplitude spectrum calculation unit 123 calculates the amplitude spectrum of the near-end output signal based on the frequency spectrum of the near-end output signal, and outputs the calculated amplitude spectrum of the near-end output signal.

シングルトーク判定部124は、近端入力信号の振幅スペクトルと近端出力信号の振幅スペクトル等を用いてシングルトークかシングルトーク以外かの判定を行い、シングルトーク判定結果を出力する。   The single talk determination unit 124 determines whether single talk or other than single talk using the amplitude spectrum of the near-end input signal and the amplitude spectrum of the near-end output signal, and outputs a single talk determination result.

(A−2)第1の実施形態の動作
次に、第1の実施形態に係るエコー抑圧装置100におけるエコー抑圧処理の動作を詳細に説明する。
(A-2) Operation of the First Embodiment Next, the operation of echo suppression processing in the echo suppression device 100 according to the first embodiment will be described in detail.

(A−2−1)エコー抑圧処理
まず、エコー抑圧装置100の動作が開始すると、例えば、インターネットプロトコル(IP)網等のネットワークや、携帯電話等の無線ネットワークの電波等に接続されており接続されている回線を介して、遠端側の遠端信号が遠端信号入力端子101に入力される。
(A-2-1) Echo Suppression Processing First, when the operation of the echo suppression device 100 is started, it is connected to, for example, a radio wave of a network such as the Internet Protocol (IP) network or a wireless network such as a mobile phone. The far-end signal on the far-end side is input to the far-end signal input terminal 101 through the connected line.

遠端信号入力端子101に入力された遠端信号は、出力バッファ102において一時保持され、DA変換器103の処理準備ができ次第、DA変換器103に遠端信号が出力される。DA変換器103において、遠端信号は、デジタル音信号からアナログ音信号に変換され、スピーカ104を通して近端側に出力される。   The far-end signal input to the far-end signal input terminal 101 is temporarily held in the output buffer 102, and the far-end signal is output to the DA converter 103 as soon as the DA converter 103 is ready for processing. In the DA converter 103, the far-end signal is converted from a digital sound signal to an analog sound signal and output to the near-end side through the speaker 104.

一方、近端側の話者が発した音声等の音信号や、環境音、音響エコー信号(例えば、スピーカ104から出力されたアナログ音信号が近端側の空間を伝達して回り込んだ信号)等が重畳したアナログ音信号は、マイク105において受音され、AD変換器106においてデジタル音信号に変換される。デジタル音信号は、入力バッファ107において一時保持され、エコー抑圧装置100の準備ができ次第、デジタル音信号を近端入力信号としてエコー抑圧装置100に入力される。   On the other hand, a sound signal such as a voice uttered by a speaker on the near end side, an environmental sound, an acoustic echo signal (for example, an analog sound signal output from the speaker 104 is transmitted around the space on the near end side and wraps around. ) And the like are received by the microphone 105 and converted into a digital sound signal by the AD converter 106. The digital sound signal is temporarily held in the input buffer 107, and as soon as the echo suppressor 100 is ready, the digital sound signal is input to the echo suppressor 100 as a near-end input signal.

遠端信号周波数領域変換部108では、例えば、高速フーリエ変換(FFT)等により、遠端信号を時間領域の信号から周波数領域の信号に変換し、変換された遠端信号の周波数スペクトルROUT(i,ω)を遠端信号振幅スペクトル計算部109に出力する。   The far-end signal frequency domain transform unit 108 transforms the far-end signal from a time-domain signal to a frequency-domain signal by, for example, fast Fourier transform (FFT), and the frequency spectrum ROUT (i) of the transformed far-end signal. , Ω) is output to the far-end signal amplitude spectrum calculation unit 109.

遠端信号振幅スペクトル計算部109では、周波数スペクトルROUT(i,ω)を用いて、(1)式に従い、遠端信号の振幅スペクトル|ROUT(i,ω)|が求められる。   The far-end signal amplitude spectrum calculation unit 109 obtains the far-end signal amplitude spectrum | ROUT (i, ω) | according to the equation (1) using the frequency spectrum ROUT (i, ω).

Figure 2017034355
ここで、iはフレーム、ωは周波数ビン、ROUT_real(i,ω)とROUT_image(i,ω)は、フレームiにおける周波数ビンωの遠端信号の周波数スペクトルの実数部と虚数部を示しており、遠端信号の周波数スペクトルROUT(i,ω)は、(2)式で表すことができる。
Figure 2017034355
Here, i is a frame, ω is a frequency bin, and ROUT_real (i, ω) and ROUT_image (i, ω) indicate the real part and imaginary part of the frequency spectrum of the far-end signal of the frequency bin ω in frame i. The frequency spectrum ROUT (i, ω) of the far-end signal can be expressed by equation (2).

Figure 2017034355
(2)式のjは虚数を表している。そして、遠端信号振幅スペクトル計算部109により求められた遠端信号の振幅スペクトル|ROUT(i,ω)|は、推定エコー信号計算部111、遠端信号保持部122に出力する。
Figure 2017034355
(2) j represents an imaginary number. Then, the far-end signal amplitude spectrum | ROUT (i, ω) | obtained by the far-end signal amplitude spectrum calculating unit 109 is output to the estimated echo signal calculating unit 111 and the far-end signal holding unit 122.

推定エコーパス特性更新部110は、保持している前フレームに推定したエコーパス特性|H(i−1,ω)|を推定エコー信号計算部111に出力する。   The estimated echo path characteristic update unit 110 outputs the stored echo path characteristic | H (i−1, ω) | estimated for the previous frame to the estimated echo signal calculation unit 111.

推定エコー信号計算部111では、前フレームに推定したエコーパス特性|H(i−1,ω)|と、遠端信号の振幅スペクトル|ROUT(i,ω)|とを用いて、(3)式により、推定エコー信号の振幅スペクトル|ECHO(i,ω)|が求められる。   The estimated echo signal calculation unit 111 uses the echo path characteristic | H (i−1, ω) | estimated for the previous frame and the amplitude spectrum | ROUT (i, ω) | Thus, the amplitude spectrum | ECHO (i, ω) | of the estimated echo signal is obtained.

Figure 2017034355
(3)式は遠端信号の振幅スペクトル|ROUT(i,ω)|に、前フレームに推定したエコーパス特性|H(i−1,ω)|の対応する周波数ビンを乗じて、当該周波数ビンの推定エコー信号の振幅スペクトル|ECHO(i,ω)|を求めるという式である。そして、推定エコー信号計算部111により求められた推定エコー信号の振幅スペクトル|ECHO(i,ω)|を推定エコー信号保持部112に出力する。
Figure 2017034355
Equation (3) is obtained by multiplying the amplitude spectrum | ROUT (i, ω) | of the far-end signal by the corresponding frequency bin of the echo path characteristic | H (i−1, ω) | estimated for the previous frame. This is an equation for obtaining the amplitude spectrum | ECHO (i, ω) | of the estimated echo signal. Then, the amplitude spectrum | ECHO (i, ω) | of the estimated echo signal obtained by the estimated echo signal calculation unit 111 is output to the estimated echo signal holding unit 112.

推定エコー信号保持部112では、推定エコー信号計算部111から出力された推定エコー信号の振幅スペクトル|ECHO(i,ω)|が推定エコー信号の振幅スペクトルバッファECHO_Buffer(n,ω)に書き込まれ、推定エコー信号の振幅スペクトル|ECHO(i,ω)|が過去複数フレーム保持される。   The estimated echo signal holding unit 112 writes the amplitude spectrum | ECHO (i, ω) | of the estimated echo signal output from the estimated echo signal calculation unit 111 into the amplitude spectrum buffer ECHO_Buffer (n, ω) of the estimated echo signal, The amplitude spectrum | ECHO (i, ω) | of the estimated echo signal is held in the past plural frames.

Figure 2017034355
(4)式のnは推定エコー信号保持部112の推定エコー信号の振幅スペクトルバッファの書込み位置であり、推定エコー信号の振幅スペクトル|ECHO(i,ω)|が書込まれるとインクリメントされ、nが推定エコー信号の振幅スペクトルバッファの大きさと同じになると、nに0が代入され上書き保持される。書込みが完了すればフレーム遅延量推定部115に推定エコー信号保持部112が保持している過去の推定エコー信号の振幅スペクトルを複数フレーム出力する。
Figure 2017034355
N in the equation (4) is the writing position of the amplitude spectrum buffer of the estimated echo signal of the estimated echo signal holding unit 112, and is incremented when the amplitude spectrum | ECHO (i, ω) | of the estimated echo signal is written, and n Is the same as the magnitude of the amplitude spectrum buffer of the estimated echo signal, 0 is substituted for n and overwritten. When the writing is completed, a plurality of frames of the amplitude spectrum of the past estimated echo signal held by the estimated echo signal holding unit 112 are output to the frame delay amount estimating unit 115.

一方、近端入力信号周波数領域変換部113では、例えば、高速フーリエ変換(FFT)等により、近端入力信号を時間領域の信号から周波数領域の信号に変換する。変換された近端入力信号の周波数スペクトルSIN(i,ω)は、近端入力信号振幅スペクトル計算部114及びエコーサプレス部119に出力される。   On the other hand, the near-end input signal frequency domain conversion unit 113 converts the near-end input signal from a time-domain signal to a frequency-domain signal by, for example, fast Fourier transform (FFT). The converted frequency spectrum SIN (i, ω) of the near-end input signal is output to the near-end input signal amplitude spectrum calculation unit 114 and the echo suppression unit 119.

近端入力信号振幅スペクトル計算部114は、近端入力信号の周波数スペクトルSIN(i,ω)を用いて、(5)式に従い、近端入力信号の振幅スペクトル|SIN(i,ω)|を求める。   The near-end input signal amplitude spectrum calculation unit 114 uses the frequency spectrum SIN (i, ω) of the near-end input signal and calculates the amplitude spectrum | SIN (i, ω) | of the near-end input signal according to the equation (5). Ask.

Figure 2017034355
ここで、SIN_real(i,ω)とSIN_image(i,ω)は、フレームiにおける周波数ビンωの近端入力信号の周波数スペクトルの実数部と虚数部を示しており、近端入力信号の周波数スペクトルSIN(i,ω)は、式(6)で表すことができる。
Figure 2017034355
Here, SIN_real (i, ω) and SIN_image (i, ω) indicate a real part and an imaginary part of the frequency spectrum of the near-end input signal of the frequency bin ω in the frame i, and the frequency spectrum of the near-end input signal. SIN (i, ω) can be expressed by Equation (6).

Figure 2017034355
(6)式のjは虚数を表している。そして、近端入力信号振幅スペクトル計算部114により求められた近端入力信号の振幅スペクトル|SIN(i,ω)|は、フレーム遅延量推定部115、エコーサプレスゲイン計算部118、シングルトーク判定部124、及び推定エコーパス特性更新部110に出力される。
Figure 2017034355
(6) j represents an imaginary number. Then, the amplitude spectrum | SIN (i, ω) | of the near-end input signal obtained by the near-end input signal amplitude spectrum calculation unit 114 is a frame delay amount estimation unit 115, an echo suppression gain calculation unit 118, and a single talk determination unit. 124 and the estimated echo path characteristic update unit 110.

フレーム遅延量推定部115は、推定エコー信号保持部112から出力される過去の推定エコー信号の振幅スペクトルの複数フレームECHO_Buffer(n−k)(0≦k≦N)と近端入力信号の振幅スペクトル|SIN(i,ω)|からフレーム遅延量を推定する。フレーム遅延量の推定方法は、例えば、推定エコー信号保持部112から出力される過去の推定エコー信号の振幅スペクトルの複数フレームECHO_Buffer(n−k)と近端入力信号の振幅スペクトル|SIN(i,ω)|の誤差がフレーム毎に(7)式に従い求める。   The frame delay amount estimation unit 115 includes a plurality of frames ECHO_Buffer (n−k) (0 ≦ k ≦ N) of the amplitude spectrum of the past estimated echo signal output from the estimated echo signal holding unit 112 and the amplitude spectrum of the near-end input signal. The frame delay amount is estimated from | SIN (i, ω) |. The estimation method of the frame delay amount is, for example, a plurality of frames ECHO_Buffer (n−k) of the amplitude spectrum of the past estimated echo signal output from the estimated echo signal holding unit 112 and the amplitude spectrum | SIN (i, The error of ω) | is obtained according to the equation (7) for each frame.

Figure 2017034355
(7)式のFsはサンプリング周波数である。そして、フレーム遅延量推定部115は、(8)式に従い、フレーム誤差Error(i,k)が最小になるフレーム遅延量delay(i)を求める。
Figure 2017034355
In the equation (7), Fs is a sampling frequency. Then, the frame delay amount estimation unit 115 obtains a frame delay amount delay (i) that minimizes the frame error Error (i, k) according to the equation (8).

Figure 2017034355
(8)式のargmin(x(k))という関数は、x(k)が最小になる引数を出力する関数であり、フレーム誤差Error(i,k)が最小になるフレーム遅延量を出力し、delay(i)に代入するという式である。
Figure 2017034355
The function argmin (x (k)) in equation (8) is a function that outputs an argument that minimizes x (k), and outputs a frame delay amount that minimizes the frame error Error (i, k). , Delay (i).

なお、フレーム遅延量の推定の手法は、種々の方法を広く適用することができ、例えば、推定エコー信号の振幅スペクトルの複数フレームECHO_Buffer(n−k)と近端入力信号の振幅スペクトル|SIN(i,ω)|のフレーム毎の相関を算出し、最も相関が高いフレームを求め、その最も相関が高いフレームをフレーム遅延量delay(i)とするとしても良い。フレーム遅延量推定部115は、推定したフレーム遅延量delay(i)を推定出力する。   Note that various methods can be widely applied to the method of estimating the frame delay amount. For example, a plurality of frames ECHO_Buffer (n−k) of the amplitude spectrum of the estimated echo signal and the amplitude spectrum | SIN ( i, ω) | may be calculated for each frame, a frame having the highest correlation may be obtained, and the frame having the highest correlation may be used as the frame delay amount delay (i). The frame delay amount estimation unit 115 estimates and outputs the estimated frame delay amount delay (i).

フレーム遅延量収束判定部116は、フレーム遅延量推定部115で推定したフレーム遅延量delay(i)が収束しているか判定し、推定したフレーム遅延量が収束していなければ、フレーム遅延量delay(i)に固定値を代入して出力する。推定したフレーム遅延量が収束していれば、推定したフレーム遅延量delay(i)を推定エコーパス特性更新部110、推定エコー信号遅延部117及び、遠端信号保持部122に出力する。さらに、フレーム遅延量収束判定部116は、収束判定結果を推定エコーパス特性更新部110に出力する。   The frame delay amount convergence determination unit 116 determines whether or not the frame delay amount delay (i) estimated by the frame delay amount estimation unit 115 has converged. If the estimated frame delay amount has not converged, the frame delay amount delay ( Assign a fixed value to i) and output. If the estimated frame delay amount has converged, the estimated frame delay amount delay (i) is output to the estimated echo path characteristic updating unit 110, the estimated echo signal delay unit 117, and the far-end signal holding unit 122. Further, the frame delay amount convergence determination unit 116 outputs the convergence determination result to the estimated echo path characteristic update unit 110.

推定エコー信号遅延部117では、フレーム遅延量delay(i)を用いて、推定エコー信号保持部112に保持されている過去の推定エコー信号の振幅スペクトルを当該フレーム遅延量だけ遅延させたフレームを読出し、遅延した推定エコー信号とする。この遅延した推定エコー信号は(9)式で表すことができる。   The estimated echo signal delay unit 117 reads out a frame obtained by delaying the amplitude spectrum of the past estimated echo signal held in the estimated echo signal holding unit 112 by the frame delay amount using the frame delay amount delay (i). The delayed estimated echo signal. This delayed estimated echo signal can be expressed by equation (9).

Figure 2017034355
推定エコー信号遅延部117は、遅延した推定エコー信号の振幅スペクトル|ECHO_DELAY(i、ω)|をエコーサプレスゲイン計算部118に出力する。
Figure 2017034355
The estimated echo signal delay unit 117 outputs the amplitude spectrum | ECHO_DELAY (i, ω) | of the delayed estimated echo signal to the echo suppression gain calculation unit 118.

エコーサプレスゲイン計算部118では、近端入力信号の振幅スペクトル|SIN(i,ω)|と遅延した推定エコー信号の振幅スペクトル|ECHO_DELAY(i、ω)|とを取得して、(10)式に従い、エコーサプレスゲインG(i,ω)を求める。   The echo suppression gain calculation unit 118 obtains the amplitude spectrum | SIN (i, ω) | of the near-end input signal and the amplitude spectrum | ECHO_DELAY (i, ω) | of the delayed estimated echo signal to obtain the equation (10). The echo suppression gain G (i, ω) is obtained according to

Figure 2017034355
(10)式は、周波数ビン毎に近端入力信号の振幅スペクトル|SIN(i,ω)|から推定エコー信号の振幅スペクトル|ECHO_DELAY(i,ω)|を差し引いた振幅スペクトルを、近端入力信号の振幅スペクトル|SIN(i,ω)|で除することで、エコーサプレスゲインG(i,ω)を求めるという式である。エコーサプレスゲイン計算部118により求められたエコーサプレスゲインG(i,ω)は、エコーサプレス部119に出力する。
Figure 2017034355
Equation (10) is obtained by subtracting the amplitude spectrum | ECHO_DELAY (i, ω) | of the estimated echo signal from the amplitude spectrum | SIN (i, ω) | of the near-end input signal for each frequency bin. This is an equation for obtaining the echo suppression gain G (i, ω) by dividing by the amplitude spectrum of the signal | SIN (i, ω) |. The echo suppression gain G (i, ω) obtained by the echo suppression gain calculation unit 118 is output to the echo suppression unit 119.

エコーサプレス部119では、近端入力信号のスペクトルSIN(i,ω)とエコーサプレスゲインG(i,ω)とを用いて、(11)式、(12)式に従い、近端入力信号のスペクトルSIN(i,ω)に重畳されている音響エコー信号を抑圧する。   The echo suppress unit 119 uses the near-end input signal spectrum SIN (i, ω) and the echo suppress gain G (i, ω) according to the equations (11) and (12), and the near-end input signal spectrum. The acoustic echo signal superimposed on SIN (i, ω) is suppressed.

Figure 2017034355
Figure 2017034355
ここで、SOUT_real(i,ω)とSOUT_image(i,ω)は、フレームiにおける周波数ビンωの近端出力信号の周波数スペクトルの実数部と虚数部を示しており、近端出力信号の周波数スペクトルSOUT(i,ω)は(13)式で表すことができる。
Figure 2017034355
Figure 2017034355
Here, SOUT_real (i, ω) and SOUT_image (i, ω) indicate the real part and the imaginary part of the frequency spectrum of the near-end output signal of the frequency bin ω in the frame i, and the frequency spectrum of the near-end output signal. SOUT (i, ω) can be expressed by equation (13).

Figure 2017034355
(13)式のjは虚数を表している。(11)式と(12)式は、周波数スペクトルの実数部、虚数部にエコーサプレスゲインG(i,ω)を周波数ビン毎に乗じて、音響エコー信号を抑圧した近端出力信号の周波数スペクトルを求める。そして、エコーサプレス部119により求められた音響エコー信号が抑圧された近端出力信号の周波数スペクトルSOUT(i,ω)を近端出力信号時間領域変換部120、及び近端出力信号振幅スペクトル計算部に出力する。
Figure 2017034355
In equation (13), j represents an imaginary number. Equations (11) and (12) are obtained by multiplying the real part and imaginary part of the frequency spectrum by the echo suppression gain G (i, ω) for each frequency bin, and the frequency spectrum of the near-end output signal in which the acoustic echo signal is suppressed. Ask for. Then, the near-end output signal time domain transform unit 120 and the near-end output signal amplitude spectrum calculation unit convert the frequency spectrum SOUT (i, ω) of the near-end output signal in which the acoustic echo signal obtained by the echo suppression unit 119 is suppressed. Output to.

近端出力信号時間領域変換部120では、近端出力信号のスペクトルSOUT(i,ω)が、例えば、逆高速フーリエ変換(InverseFFT)等により、時間領域のデジタル音信号に変換され、変換された近端出力信号を近端信号出力端子121に出力する。   In the near-end output signal time domain conversion unit 120, the spectrum SOUT (i, ω) of the near-end output signal is converted into a digital sound signal in the time domain by, for example, inverse fast Fourier transform (Inverse FFT), and converted. The near end output signal is output to the near end signal output terminal 121.

近端信号出力端子121は、例えば、インターネットプロトコル(IP)網等のネットワークや、携帯電話等の無線ネットワークの電波等に接続されており、近端出力信号を接続されている回線を介して通話相手である遠端側に出力する。   The near-end signal output terminal 121 is connected to, for example, a radio wave of a network such as an Internet protocol (IP) network or a wireless network such as a mobile phone, and a call is made via a line connected to the near-end output signal. Outputs to the far end that is the other party.

遠端信号保持部122は、遠端信号振幅スペクトル計算部109から出力された遠端信号の振幅スペクトル|ROUT(i,ω)|を、推定エコー信号保持部112と同じ書込みフレームに書込む。   The far-end signal holding unit 122 writes the amplitude spectrum | ROUT (i, ω) | of the far-end signal output from the far-end signal amplitude spectrum calculating unit 109 in the same writing frame as the estimated echo signal holding unit 112.

Figure 2017034355
そして、遠端信号保持部122は、(15)式に従い、フレーム遅延量delay(i)だけ遅延させた遠端信号の振幅スペクトル|ROUT_DELAY(i,ω)|を推定エコーパス特性更新部110に出力する。
Figure 2017034355
Then, the far-end signal holding unit 122 outputs the amplitude spectrum | ROUT_DELAY (i, ω) | of the far-end signal delayed by the frame delay amount delay (i) to the estimated echo path characteristic updating unit 110 according to the equation (15). To do.

Figure 2017034355
近端出力信号振幅スペクトル計算部123では、近端出力信号の周波数スペクトルSOUT(i,ω)を用いて、(16)式に従い、近端出力信号の振幅スペクトル|SOUT(i,ω)|が求められる。
Figure 2017034355
The near-end output signal amplitude spectrum calculation unit 123 uses the frequency spectrum SOUT (i, ω) of the near-end output signal to obtain the amplitude spectrum | SOUT (i, ω) | of the near-end output signal according to the equation (16). Desired.

Figure 2017034355
そして、近端出力信号振幅スペクトル計算部123により求められた近端入力信号の振幅スペクトル|SOUT(i,ω)|は、シングルトーク判定部124に出力される。
Figure 2017034355
Then, the amplitude spectrum | SOUT (i, ω) | of the near-end input signal obtained by the near-end output signal amplitude spectrum calculation unit 123 is output to the single talk determination unit 124.

シングルトーク判定部124では、近端入力信号がシングルトークかシングルトーク以外かを、近端入力信号の振幅スペクトルと近端出力信号の振幅スペクトルとを用いて判定する。シングルトークかシングルトーク以外かを判定する手法は、例えば、(17)式に従い、シングルトークかシングルトーク以外かを判定する手法がある。   The single talk determination unit 124 determines whether the near-end input signal is a single talk or other than a single talk using the amplitude spectrum of the near-end input signal and the amplitude spectrum of the near-end output signal. As a method for determining whether it is single talk or other than single talk, for example, there is a method for determining whether it is single talk or other than single talk according to the equation (17).

Figure 2017034355
(17)式のFsはサンプリング周波数、TH1は閾値である。つまり、(17)式の条件が真のときはシングルトークと判定し、偽のときはシングルトーク以外として判定する。閾値TH1は、(17)式の場合、シングルトーク時は(17)式の左辺が小さい値になるので、小さい固定値(例えばTH1=0.3)やフレームで変化する変数などにしても良い。なお、シングルトークかシングルトーク以外かの判定の手段は、種々の方法を広く適用することができ、例えば、遠端信号の振幅スペクトルと推定したフレーム遅延量だけ遅延させた近端信号の振幅スペクトルとの相闘を求め、その相関値が高いときはシングルトークとする方法で判定しても良い。シングルトーク判定部124は、シングルトーク判定結果を推定エコーパス特性更新部110に出力する。
Figure 2017034355
In the equation (17), Fs is a sampling frequency, and TH1 is a threshold value. That is, when the condition of the expression (17) is true, it is determined as single talk, and when it is false, it is determined as other than single talk. In the case of the expression (17), the threshold value TH1 may be a small fixed value (for example, TH1 = 0.3) or a variable that changes in the frame because the left side of the expression (17) becomes a small value during single talk. . Note that various methods can be widely applied as means for determining whether single talk or other than single talk, for example, the far-end signal amplitude spectrum and the near-end signal amplitude spectrum delayed by the estimated frame delay amount. If the correlation value is high, it may be determined by a method of single talk. The single talk determination unit 124 outputs the single talk determination result to the estimated echo path characteristic update unit 110.

推定エコーパス特性更新部110では、フレーム遅延量収束判定部116でフレーム遅延量が収束していないと判定されている間は、エコーパス特性は固定値を次のフレームで推定エコー信号計算部111に出力する。それと同時に、推定エコーパス特性更新部110は、シングルトーク判定部124でシングルトークと判定されたフレームについて、現フレームの推定エコーパス特性を遠端信号保持部122からの遅延させた遠端信号の振幅スペクトルと、近端出力信号振幅スペクトル計算部123からの近端出力信号の振幅スペクトルを用いて求め、推定エコーパス特性更新部110に保持されている1フレーム前に保持した推定エコーパス特性を読み出し、エコーパス特性を更新する。   The estimated echo path characteristic update unit 110 outputs a fixed value of the echo path characteristic to the estimated echo signal calculation unit 111 in the next frame while the frame delay amount convergence determination unit 116 determines that the frame delay amount has not converged. To do. At the same time, the estimated echo path characteristic update unit 110 for the frame determined as single talk by the single talk determination unit 124, the amplitude spectrum of the far end signal obtained by delaying the estimated echo path characteristic of the current frame from the far end signal holding unit 122. And using the amplitude spectrum of the near-end output signal from the near-end output signal amplitude spectrum calculation unit 123, the estimated echo path characteristic held in the estimated echo path characteristic update unit 110 and held one frame before is read, and the echo path characteristic Update.

一方、推定エコーパス特性更新部110は、フレーム遅延量収束判定部116でフレーム遅延量が収束していると判定されると、シングルトーク判定部124でシングルトークと判定されたフレームについて、現フレームの推定エコーパス特性を、遠端信号保持部122からの遅延させた遠端信号の振幅スペクトルと、近端出力信号振幅スペクトル計算部123からの近端出力信号の振幅スペクトルを用いて求め、推定エコーパス特性更新部110に保持されている1フレーム前に保持した推定エコーパス特性を読み出し、エコーパス特性を更新する。   On the other hand, if the frame delay amount convergence determination unit 116 determines that the frame delay amount has converged, the estimated echo path characteristic update unit 110 determines the current frame of the frame determined as single talk by the single talk determination unit 124. An estimated echo path characteristic is obtained using the delayed far-end signal amplitude spectrum from the far-end signal holding unit 122 and the near-end output signal amplitude spectrum from the near-end output signal amplitude spectrum calculating unit 123, and the estimated echo path characteristic. The estimated echo path characteristic held one frame before held in the update unit 110 is read, and the echo path characteristic is updated.

(A−2−2)フレーム遅延量収束判定部の処理
次に、第1の実施形態に係るエコー抑圧装置100におけるフレーム遅延量収束判定部116の処理を、図面を参照しながら詳細に説明する。
(A-2-2) Processing of Frame Delay Amount Convergence Determination Unit Next, the processing of the frame delay amount convergence determination unit 116 in the echo suppression apparatus 100 according to the first embodiment will be described in detail with reference to the drawings. .

図2は、第1の実施形態に係るエコー抑圧装置100のフレーム遅延量収束判定部116の処理フローを示す処理フロー図である。   FIG. 2 is a process flow diagram illustrating a process flow of the frame delay amount convergence determination unit 116 of the echo suppressor 100 according to the first embodiment.

図2において、フレーム遅延量収束判定部116は、フレーム遅延量収束判定201、フレーム遅延量固定値出力202、及びフレーム遅延量推定値出力203を行う。   In FIG. 2, the frame delay amount convergence determination unit 116 performs a frame delay amount convergence determination 201, a frame delay amount fixed value output 202, and a frame delay amount estimated value output 203.

フレーム遅延量収束判定201は、推定したフレーム遅延量が収束したか収束していないかを判定し、収束判定結果を出力する。   The frame delay amount convergence determination 201 determines whether the estimated frame delay amount has converged or has not converged, and outputs a convergence determination result.

フレーム遅延量固定値出力202は、フレーム遅延量収束判定201でフレーム遅延量が収束していないと判定されれば動作し、フレーム遅延量の固定値を出力する。   The frame delay amount fixed value output 202 operates when the frame delay amount convergence determination 201 determines that the frame delay amount has not converged, and outputs a fixed value of the frame delay amount.

フレーム遅延量推定値出力203は、フレーム遅延量収束判定201でフレーム遅延量が収束していると判定されれば動作し、推定したフレーム遅延量を出力する。   The frame delay amount estimated value output 203 operates when the frame delay amount convergence determination 201 determines that the frame delay amount has converged, and outputs the estimated frame delay amount.

(A−2−3)フレーム遅延量収束判定部の詳細処理
次に、第1の実施形態に係るエコー抑圧装置100におけるフレーム遅延量収束判定部116の処理の動作を詳細に説明する。
(A-2-3) Detailed Processing of Frame Delay Amount Convergence Determination Unit Next, the processing operation of the frame delay amount convergence determination unit 116 in the echo suppressor 100 according to the first embodiment will be described in detail.

フレーム遅延量収束判定201では、推定したフレーム遅延量が収束しているか収束していないかを判定する。収束判定方法は、例えば、(18)に従い、フレーム遅延量の時定数フィルタで平滑化した値delay_TC(i)を求める。   In frame delay amount convergence determination 201, it is determined whether the estimated frame delay amount has converged or has not converged. For example, according to (18), the convergence determination method obtains a value delay_TC (i) smoothed by a time constant filter of the frame delay amount.

Figure 2017034355
aは時定数フィルタの係数であり、0より大きく、1より小さい値であって、エコーパス特性の更新を遅くしたい場合は1に近い値が望ましく(例えば、a=0.99等の値)、更新を早くしたい場合は0に近い値が望ましい(例えば、a=0.01等の値)。
Figure 2017034355
a is a coefficient of the time constant filter, and is a value larger than 0 and smaller than 1, and is preferably a value close to 1 (for example, a = 0.99) when it is desired to delay the update of the echo path characteristics. A value close to 0 is desirable when the update is desired to be accelerated (for example, a = 0.01 or the like).

そして、フレーム遅延量収束判定201は、その平滑化した値delay_TC(i)と推定したフレーム遅延量delay(i)の差が閾値以下になるときを(19)式に従いカウントする。   Then, the frame delay amount convergence determination 201 counts when the difference between the smoothed value delay_TC (i) and the estimated frame delay amount delay (i) is equal to or smaller than the threshold value according to the equation (19).

Figure 2017034355
(19)式のTH2は閾値である。TH2はde1ay_TC(i)とdelay(i)との差が小さいか判定できれば良く、値が小さい固定値(例えば、TH2=0やTH2=1など)とする。delay_TC(i)とdelay(i)の差が閾値TH2より小さいときはcountをインクリメントする。
Figure 2017034355
TH2 in the equation (19) is a threshold value. It is only necessary to determine whether TH2 has a small difference between de1ay_TC (i) and delay (i), and is a fixed value having a small value (for example, TH2 = 0 or TH2 = 1). When the difference between delay_TC (i) and delay (i) is smaller than the threshold value TH2, count is incremented.

フレーム遅延量収束判定201は、(19)式のcountが規定回数(例えば、count=100)より小さいときは、フレーム遅延量が収束していないと判定し、countが規定回数より大きくなったときフレーム遅延量が収束したと判定する。なお、フレーム遅延量の収束判定結果は推定エコーパス特性更新部110でも使用する。   The frame delay amount convergence determination 201 determines that the frame delay amount has not converged when the count of the equation (19) is smaller than the specified number of times (for example, count = 100), and the count becomes larger than the specified number of times. It is determined that the frame delay amount has converged. The frame delay amount convergence determination result is also used by the estimated echo path characteristic update unit 110.

フレーム遅延量固定値出力202では、フレーム遅延量収束判定201でフレーム遅延量が収束していないと判定されると動作し、フレーム遅延量de1ay(i)に固定値を代入して出力する。フレーム遅延量の固定値は、例えば、エコー抑圧装置のスピーカとマイクの距離から算出されるフレーム遅延量としても良い。なお、固定値の決定手段は、種々の方法を広く適用することができ、例えば、エコー抑圧装置のフレーム遅延量の最小値としても良い。   The frame delay amount fixed value output 202 operates when the frame delay amount convergence determination 201 determines that the frame delay amount has not converged, and outputs a fixed value for the frame delay amount de1ay (i). The fixed value of the frame delay amount may be a frame delay amount calculated from the distance between the speaker and the microphone of the echo suppression device, for example. Note that various methods can be widely applied to the fixed value determining means, and may be, for example, the minimum value of the frame delay amount of the echo suppression device.

フレーム遅延量推定値出力203では、フレーム遅延量収束判定201でフレーム遅延量が収束していると判定されると動作し、フレーム遅延量収束判定201で推定したフレーム遅延量delay(i)を出力する。   The frame delay amount estimated value output 203 operates when the frame delay amount convergence determination 201 determines that the frame delay amount has converged, and outputs the frame delay amount delay (i) estimated by the frame delay amount convergence determination 201. To do.

(A−2−4)推定エコーパス特性更新部の処理
次に、第1の実施形態に係るエコー抑圧装置100における推定エコーパス特性更新部の処理を、図面を参照しながら詳細に説明する。
(A-2-4) Process of Estimated Echo Path Characteristic Update Unit Next, the process of the estimated echo path characteristic update unit in the echo suppressor 100 according to the first embodiment will be described in detail with reference to the drawings.

図3は、本発明の第1の実施形態に係るエコー抑圧装置100の推定エコーパス特性更新部110の処理フローを示す処理フロー図である。   FIG. 3 is a process flow diagram showing a process flow of the estimated echo path characteristic update unit 110 of the echo suppressor 100 according to the first embodiment of the present invention.

図3において、本発明のエコー抑圧装置100の推定エコーパス特性更新部110は、フレーム遅延量収束判定確認301、フレーム遅延量未収束時の推定エコーパス特性更新302、シングルトーク判定確認303、及びフレーム遅延量収束時の推定エコーパス特性更新304を行う。   3, the estimated echo path characteristic update unit 110 of the echo suppressor 100 of the present invention includes a frame delay amount convergence determination confirmation 301, an estimated echo path characteristic update 302 when the frame delay amount has not converged, a single talk determination confirmation 303, and a frame delay. An estimated echo path characteristic update 304 at the time of convergence is performed.

フレーム遅延量収束判定確認301は、フレーム遅延量収束判定部116の判定結果を用いてフレーム遅延量が収束したか収束していないかを確認する。   The frame delay amount convergence determination check 301 uses the determination result of the frame delay amount convergence determination unit 116 to check whether the frame delay amount has converged or has not converged.

フレーム遅延量未収束時の推定エコーパス特性更新302は、フレーム遅延量収束判定確認301でフレーム遅延量が収束していないときに動作し、固定値のフレーム遅延量を用いてエコーパス特性を算出する。   The estimated echo path characteristic update 302 when the frame delay amount has not converged operates when the frame delay amount has not converged in the frame delay amount convergence determination confirmation 301, and calculates an echo path characteristic using a fixed frame delay amount.

シングルトーク判定確認303は、フレーム遅延量収束判定確認301でフレーム遅延量が収束したときにシングルトーク判定部124の結果を用いてシングルトークかシングルトーク以外かを確認する。   The single talk determination confirmation 303 confirms whether single talk or other than single talk is used by using the result of the single talk determination unit 124 when the frame delay amount converges in the frame delay amount convergence confirmation confirmation 301.

フレーム遅延量収束時の推定エコーパス特性更新304は、フレーム遅延量収束判定確認301でフレーム遅延量が収束しており、シングルトーク判定確認303で現フレームがシングルトークのときに動作し、推定エコーパス特性の更新を行う。   The estimated echo path characteristic update 304 at the time of frame delay convergence is operated when the frame delay amount has converged in the frame delay amount convergence determination confirmation 301 and the current frame is single talk in the single talk determination confirmation 303, and the estimated echo path characteristic is updated. Update.

(A−2−5)推定エコーパス特性更新部の詳細処理
次に、第1の実施形態に係るエコー抑圧装置100における推定エコーパス特性更新部110の処理の動作を詳細に説明する。
(A-2-5) Detailed Process of Estimated Echo Path Characteristic Update Unit Next, the operation of the process of the estimated echo path characteristic update unit 110 in the echo suppressor 100 according to the first embodiment will be described in detail.

フレーム遅延量収束判定確認301は、フレーム遅延量収束判定部116の判定結果を用いてフレーム遅延量が収束したか収束していないかを確認し、フレーム遅延量が収束していないときは、推定エコーパス特性を更新し、固定値のフレーム遅延量を用いてエコーパス特性の算出を行う。フレーム遅延量が収束しているときはシングルトーク判定確認を行う。   The frame delay amount convergence determination confirmation 301 uses the determination result of the frame delay amount convergence determination unit 116 to check whether the frame delay amount has converged or has not converged. The echo path characteristic is updated, and the echo path characteristic is calculated using a fixed frame delay amount. When the frame delay amount has converged, single talk determination is confirmed.

フレーム遅延量未収束時の推定エコーパス特性更新302は、フレーム遅延量収束判定確認301でフレーム遅延量が収束していないとき動作し、固定値のフレーム遅延量を用いて推定エコーパス特性|H(i,ω)|を算出し保持する。フレーム遅延量未収束時の推定エコーパス特性更新302は、固定値分遅延させた遠端信号の振幅スペクトル|ROUT_DELAY(i,ω)|と近端出力信号の振幅スペクトル|SIN(i,ω)|を用いて、現フレームの推定エコーパス特性|H(i,ω)|を(20)式に従い求める。 The estimated echo path characteristic update 302 when the frame delay amount has not converged operates when the frame delay amount has not converged in the frame delay amount convergence determination confirmation 301, and the estimated echo path characteristic | H (i , Ω) | is calculated and held. The estimated echo path characteristic update 302 when the frame delay amount has not converged includes the amplitude spectrum | ROUT_DELAY (i, ω) | of the far-end signal delayed by a fixed value and the amplitude spectrum of the near-end output signal | SIN (i, ω) | Is used to obtain the estimated echo path characteristic | H 1 (i, ω) | of the current frame according to the equation (20).

Figure 2017034355
そして、フレーム遅延量未収束時の推定エコーパス特性更新302は、現フレームの推定エコーパス特性|H(i,ω)|が求まれば、推定エコーパス特性更新部110に保持されている1フレーム前に保持した推定エコーパス特性|H(i−1,ω)|を読み出し、|H(i−1,ω)|と、|H(i,ω)|を用いて、推定エコーパス特性を(21)式に従って更新する。
Figure 2017034355
Then, the estimated echo path characteristic update 302 when the frame delay amount has not converged is performed one frame before the estimated echo path characteristic update unit 110 holds the estimated echo path characteristic | H 1 (i, ω) | of the current frame. The estimated echo path characteristic | H (i−1, ω) | held in is read, and | H (i−1, ω) | and | H 1 (i, ω) | ) Update according to formula.

Figure 2017034355
bは時定数フィルタの係数であり、0より大きく、1より小さい値であって、エコーパス特性の更新を遅くしたい場合は1に近い値が望ましく(例えば、b=0.99等の値)、更新を早くしたい場合は0に近い値が望ましい(例えば、b=0.01等の値)。フレーム遅延量未収束時の推定エコーパス特性更新302は、更新した推定エコーパス特性を推定エコーパス特性更新部110に保持させる。
Figure 2017034355
b is a coefficient of the time constant filter, and is a value larger than 0 and smaller than 1, and is preferably a value close to 1 (for example, a value such as b = 0.99) when it is desired to delay the update of the echo path characteristic. A value close to 0 is desirable when it is desired to update faster (for example, a value such as b = 0.01). The estimated echo path characteristic update 302 when the frame delay amount has not converged causes the estimated echo path characteristic update unit 110 to retain the updated estimated echo path characteristic.

シングルトーク判定確認303は、フレーム遅延量が収束しているときに動作し、シングルトーク判定部124の結果を用いて、現フレームがシングルトークかシングルトークでないかを確認する。シングルトーク判定確認303は、現フレームがシングルトークであれば、推定エコーパス特性の更新を行い、現フレームがシングルトークではなければ、推定エコーパス特性の更新は行わない。   The single talk determination confirmation 303 operates when the frame delay amount has converged, and uses the result of the single talk determination unit 124 to confirm whether the current frame is a single talk or a single talk. The single talk determination confirmation 303 updates the estimated echo path characteristic if the current frame is a single talk, and does not update the estimated echo path characteristic if the current frame is not a single talk.

フレーム遅延量収束時の推定エコーパス特性更新304は、フレーム遅延量収束判定確認301でフレーム遅延量が収束し、且つ、シングルトーク判定確認303で現フレームがシングルトークのとき、遅延させた遠端信号の振幅スペクトル|ROUT_DELAY(i,ω)|と近端出力信号の振幅スペクトル|SIN(i,ω)|を用いて、先述の(20)式に従い、現フレームの推定エコーパス特性|H(i,ω)|を求める。 The estimated echo path characteristic update 304 at the time of frame delay convergence is the far-end signal delayed when the frame delay converges in the frame delay convergence confirmation 301 and the current frame is single talk in the single talk determination 303. Using the amplitude spectrum | ROUT_DELAY (i, ω) | and the amplitude spectrum | SIN (i, ω) | of the near-end output signal according to the above equation (20), the estimated echo path characteristic | H 1 (i , Ω) |

そして、フレーム遅延量収束時の推定エコーパス特性更新304は、現フレームの推定エコーパス特性|H(i,ω)|が求まれば、推定エコーパス特性更新部110に保持されている1フレーム前に保持した推定エコーパス特性|H(i−1,ω)|を読み出し、|H(i−1,ω)|と、|H(i,ω)|を用いて、(22)式に従い、推定エコーパス特性を更新する。 The estimated echo path characteristic update 304 at the time of frame delay convergence converges one frame before the estimated echo path characteristic update unit 110 if the estimated echo path characteristic | H 1 (i, ω) | of the current frame is obtained. The stored estimated echo path characteristic | H (i−1, ω) | is read out, and estimated using | H (i−1, ω) | and | H 1 (i, ω) | according to the equation (22). Update echo path characteristics.

Figure 2017034355
cは時定数フィルタの係数であり、0より大きく、1より小さい値であって、エコーパス特性の更新を遅くしたい場合は1に近い値が望ましく(例えば、c=0.99等の値)、更新を早くしたい場合は0に近い値が望ましい(例えば、c=0.01等の値)。フレーム遅延量収束時の推定エコーパス特性更新304は、更新した推定エコーパス特性を推定エコーパス特性更新部110に保持させる。
Figure 2017034355
c is a coefficient of the time constant filter, and is a value larger than 0 and smaller than 1, and is preferably a value close to 1 (for example, a value such as c = 0.99) when it is desired to delay the update of the echo path characteristic. A value close to 0 is desirable when the update is desired to be accelerated (for example, a value such as c = 0.01). The estimated echo path characteristic update 304 at the time of frame delay convergence causes the estimated echo path characteristic update unit 110 to retain the updated estimated echo path characteristic.

(A−3)第1の実施形態の効果
以上のように、第1の実施形態によれば、エコー抑圧装置が動作を開始した直後でも、フレーム遅延量の固定値と固定推定エコーパス特性を使用して音響エコー信号を抑圧することができ、フレーム遅延量が収束すれば、推定したフレーム遅延量と推定エコーパス特性を使用して音響エコー信号を抑圧することができる。つまり、第1の実施形態のエコー抑圧装置は、動作を開始した直後から継続してエコー抑圧性能を維持することができる。
(A-3) Effects of the First Embodiment As described above, according to the first embodiment, the fixed value of the frame delay amount and the fixed estimated echo path characteristic are used even immediately after the echo suppressor starts operating. Thus, the acoustic echo signal can be suppressed, and if the frame delay amount converges, the acoustic echo signal can be suppressed using the estimated frame delay amount and the estimated echo path characteristic. That is, the echo suppression device of the first embodiment can maintain the echo suppression performance continuously immediately after the operation is started.

(B)本発明の第2の実施形態
次に、本発明の第2の実施形態のエコー抑圧装置、エコー抑圧プログラム、及びエコー抑圧方法を、図面を参照しながら詳細に説明する。
(B) Second Embodiment of the Present Invention Next, an echo suppression device, an echo suppression program, and an echo suppression method according to a second embodiment of the present invention will be described in detail with reference to the drawings.

(B−1)第2の実施形態の構成
第2の実施形態のエコー抑圧装置100は、推定エコーパス特性更新部110の代わりに推定エコーパス特性更新部200を構成要素とする点が第1の実施形態のエコー抑圧装置100と異なる。それ以外の構成要素は第1の実施形態に係る図1のエコー抑圧装置100の構成要素と同一又は対応するものである。
(B-1) Configuration of Second Embodiment The echo suppression apparatus 100 according to the second embodiment is characterized in that the estimated echo path characteristic update unit 200 is a constituent element instead of the estimated echo path characteristic update unit 110 in the first embodiment. This is different from the echo suppressor 100 of the form. The other components are the same as or correspond to the components of the echo suppression apparatus 100 of FIG. 1 according to the first embodiment.

(B−2)第2の実施形態の動作
(B−2−1)推定エコーパス特性更新部の処理
図4は、第2の実施形態に係るエコー抑圧装置100の推定エコーパス特性更新部200の処理フローを示す処理フロー図である。
(B-2) Operation of Second Embodiment (B-2-1) Process of Estimated Echo Path Characteristic Updating Unit FIG. 4 is a process of the estimated echo path characteristic updating unit 200 of the echo suppressor 100 according to the second embodiment. It is a processing flowchart which shows a flow.

図4において、第2の実施形態に係る推定エコーパス特性更新部200は、第1の実施形態で説明した、推定エコーパス特性更新部110に加えて、フレーム遅延量未収束時の推定エコーパス特性更新302の変わりに平滑化エコーパス特性更新401を行う。   In FIG. 4, the estimated echo path characteristic update unit 200 according to the second embodiment includes an estimated echo path characteristic update 302 when the frame delay amount has not converged, in addition to the estimated echo path characteristic update unit 110 described in the first embodiment. In place of, smoothed echo path characteristic update 401 is performed.

なお、図4において、第1の実施形態に係るエコー抑圧装置100の構成要素と同一又は対応するものについては同一の符号を付している。また、第1の実施形態と同一又は対応する構成要素の詳細な説明は重複するため、ここでは省略する。   In FIG. 4, the same or corresponding components as those of the echo suppression apparatus 100 according to the first embodiment are denoted by the same reference numerals. Detailed descriptions of the same or corresponding components as those in the first embodiment are duplicated, and are omitted here.

平滑化エコーパス特性更新401は、フレーム遅延量収束判定確認301でフレーム遅延量が収束していないとき、固定値分遅延させた遠端信号の振幅スペクトルと近端出力信号の振幅スペクトルを平滑化し、平滑化し遅延させた遠端信号の振幅スペクトルと平滑化した近端出力信号の振幅スペクトルを用いて平滑化推定エコーパス特性を算出する。   The smoothing echo path characteristic update 401 smoothes the amplitude spectrum of the far-end signal and the amplitude spectrum of the near-end output signal delayed by a fixed value when the frame delay amount has not converged in the frame delay amount convergence determination confirmation 301, The smoothed estimated echo path characteristic is calculated using the smoothed and delayed far-end signal amplitude spectrum and the smoothed near-end output signal amplitude spectrum.

(B−2−2)推定エコーパス特性更新部の詳細処理
次に、第2の実施形態に係るエコー抑圧装置100における推定エコーパス特性更新部200の処理の動作を詳細に説明する。ここでは、第2の実施形態に係るエコー抑圧装置100の、平滑化エコーパス特性更新401における処理動作を詳細に説明する。
(B-2-2) Detailed Process of Estimated Echo Path Characteristic Update Unit Next, the operation of the process of the estimated echo path characteristic update unit 200 in the echo suppressor 100 according to the second embodiment will be described in detail. Here, the processing operation in the smoothed echo path characteristic update 401 of the echo suppression apparatus 100 according to the second embodiment will be described in detail.

平滑化エコーパス特性更新401では、フレーム遅延量収束判定確認301でフレーム遅延量が収束していないとき動作し、平滑化推定エコーパス特性|H_TC(i,ω)|を算出する。平滑化推定エコーパス特性は、遅延させた遠端信号の振幅スペクトル|ROUT_DELAY(i,ω)|と近端出力信号の振幅スペクトル|SIN(i,ω)|とから、(23)式、(24)式に従って、周波数ビン毎に平滑化した遅延遠端信号の振幅スペクトル|ROUT_DELAY_TC(i,ω)|と周波数ビン毎平滑化した近端出力信号の振幅スペクトル|SIN_TC(i,ω)|を求める。   The smoothed echo path characteristic update 401 operates when the frame delay amount has not converged in the frame delay amount convergence determination confirmation 301, and calculates the smoothed estimated echo path characteristic | H_TC (i, ω) |. The smoothed estimated echo path characteristic is expressed by the following equation (23), from the delayed far-end signal amplitude spectrum | ROUT_DELAY (i, ω) | and the near-end output signal amplitude spectrum | SIN (i, ω) | ) To obtain the amplitude spectrum | ROUT_DELAY_TC (i, ω) | of the delayed far end signal smoothed for each frequency bin and the amplitude spectrum | SIN_TC (i, ω) | of the near end output signal smoothed for each frequency bin. .

Figure 2017034355
Figure 2017034355
dは時定数フィルタの係数であり、0より大きく、1より小さい値であって、エコーパス特性の更新を遅くしたい場合は1に近い値が望ましく(例えば、d=0.99等の値)、更新を早くしたい場合は0に近い値が望ましい(例えば、d=0.01等の値)。そして、平滑化エコーパス特性更新401は、周波数ビン毎に平滑化した遅延遠端信号の振幅スペクトル|ROUT_DELAY_TC(i,ω)|と周波数ビン毎に平滑化した近端出力信号の振幅スペクトル|SIN_TC(i,ω)|を使用して(25)、(26)式に従って平滑化推定エコーパス特性を求め、平滑化推定エコー信号を保持する。
Figure 2017034355
Figure 2017034355
d is a coefficient of the time constant filter, and is a value larger than 0 and smaller than 1, and is preferably a value close to 1 (for example, a value such as d = 0.99) when it is desired to delay the update of the echo path characteristic. A value close to 0 is desirable when the update is desired to be accelerated (for example, a value such as d = 0.01). Then, the smoothed echo path characteristic update 401 includes the amplitude spectrum | ROUT_DELAY_TC (i, ω) | of the delayed far-end signal smoothed for each frequency bin and the amplitude spectrum | SIN_TC () of the near-end output signal smoothed for each frequency bin. i, ω) | is used to obtain a smoothed estimated echo path characteristic according to equations (25) and (26), and a smoothed estimated echo signal is held.

Figure 2017034355
Figure 2017034355
Figure 2017034355
Figure 2017034355

(B−3)第2の実施形態の効果
以上のように、第2の実施形態によれば、エコー抑圧装置が動作を開始した直後でも、フレーム遅延量の固定値と平滑化推定エコーパス特性を使用して音響エコー信号を抑圧することができ、フレーム遅延量が収束すれば、推定したフレーム遅延量と推定エコーパス特性を使用して音響エコー信号を抑圧することができる。つまり、第2の実施形態のエコー抑圧装置は、動作を開始した直後から継続してエコー抑圧性能を維持することができる。
(B-3) Effect of Second Embodiment As described above, according to the second embodiment, the fixed value of the frame delay amount and the smoothed estimated echo path characteristic can be obtained even immediately after the echo suppressor starts operating. The acoustic echo signal can be suppressed by use, and if the frame delay amount converges, the acoustic echo signal can be suppressed by using the estimated frame delay amount and the estimated echo path characteristic. That is, the echo suppression device of the second embodiment can maintain the echo suppression performance continuously immediately after the operation is started.

(C)他の実施形態
上述した各実施形態においても、種々の変形実施形態を説明したが、本発明は以下の変形実施形態についても適用することができる。
(C) Other Embodiments In the above-described embodiments, various modified embodiments have been described, but the present invention can also be applied to the following modified embodiments.

上述した各実施形態で説明したエコー抑圧装置は、例えば、テレビ会議システムや電話会議システム等に用いられる音声通信装置を含む装置に搭載されるようにしても良い。また、携帯電話機やスマートフォン等の携帯端末に本発明のエコー抑圧装置は搭載されるようにしても良い。   The echo suppression device described in each of the above-described embodiments may be mounted on a device including a voice communication device used in a video conference system, a telephone conference system, or the like. Further, the echo suppression device of the present invention may be mounted on a mobile terminal such as a mobile phone or a smartphone.

100…エコー抑圧装置、101…遠端信号入力端子、102…出力バッファ、103…DA変換器、104…スピーカ、105…マイク、106…AD変換器、107…入力バッファ、108…遠端信号周波数領域変換算部、109…遠端信号振幅スペクトル計算部、110…推定エコーパス特性更新部、111…推定エコー信号計算部、112…推定エコー信号保持部、113…近端入力信号周波数領域変換部、114…近端入力信号振幅スペクトル計算部、115…フレーム遅延量推定部、116…フレーム遅延量収束判定部、117…推定エコー信号遅延部、118…エコーサプレスゲイン計算部、119…エコーサプレス部、120‥近端出力信号時間領域変換部、121…近端信号出力端子、122…遠端信号保持部、123…近端出力信号振幅スペクトル計算部、124…シングルトーク判定部、201…フレーム遅延量収束判定、202…フレーム遅延量固定値出力、203…フレーム遅延量推定値出力、301…フレーム遅延量収束判定確認、302…フレーム遅延量未収束時の推定エコーパス特性更新、303…シングルトーク判定確認、304…フレーム遅延量収束時のエコーパス特性更新、401…平滑化エコーパス特性更新。   DESCRIPTION OF SYMBOLS 100 ... Echo suppression apparatus, 101 ... Far end signal input terminal, 102 ... Output buffer, 103 ... DA converter, 104 ... Speaker, 105 ... Microphone, 106 ... AD converter, 107 ... Input buffer, 108 ... Far end signal frequency Area conversion calculation unit 109 ... far-end signal amplitude spectrum calculation unit 110 110 estimated echo path characteristic update unit 111 111 estimated echo signal calculation unit 112 112 estimated echo signal holding unit 113 113 near-end input signal frequency domain conversion unit 114 ... Near-end input signal amplitude spectrum calculation unit, 115 ... Frame delay amount estimation unit, 116 ... Frame delay amount convergence determination unit, 117 ... Estimated echo signal delay unit, 118 ... Echo suppression gain calculation unit, 119 ... Echo suppression unit, 120 ... Near-end output signal time domain conversion unit, 121 ... Near-end signal output terminal, 122 ... Far-end signal holding unit, 123 ... Edge output signal amplitude spectrum calculation unit, 124 ... single talk determination unit, 201 ... frame delay amount convergence determination, 202 ... frame delay amount fixed value output, 203 ... frame delay amount estimated value output, 301 ... frame delay amount convergence determination confirmation, 302 ... Update of estimated echo path characteristics when frame delay amount has not converged, 303 ... Confirm single talk determination, 304 ... Update echo path characteristics when frame delay amount converges, 401 ... Update smoothed echo path characteristics.

Claims (5)

近端入力信号と、遠端信号とに基づく音響エコー信号を抑圧するエコー抑圧装置において、
過去複数フレームの推定エコー信号の振幅スペクトルと、近端入力信号の振幅スペクトルとからフレーム遅延量を推定するフレーム遅延量推定手段と、
フレーム遅延量推定手段で推定したフレーム遅延量が、収束しているか否か判定し、その判定した判定結果に基づき、上記フレーム遅延量を出力するフレーム遅延量収束判定手段と、
上記フレーム遅延量収束判定手段での上記判定結果に応じて、上記フレーム遅延量の固定値を用いて推定エコーパス特性を更新し保持する推定エコーパス特性更新手段と、
上記フレーム遅延量を用いて遅延させた推定エコー信号の振幅スペクトルと、上記近端入力信号の振幅スペクトルとでエコーサプレスゲインを計算し、上記近端入力信号の振幅スペクトルから上記推定エコー信号を抑圧するエコー抑圧手段と
を有することを特徴とするエコー抑圧装置。
In an echo suppression device that suppresses an acoustic echo signal based on a near-end input signal and a far-end signal,
A frame delay amount estimating means for estimating a frame delay amount from the amplitude spectrum of the estimated echo signal of the past plural frames and the amplitude spectrum of the near-end input signal;
Determining whether the frame delay amount estimated by the frame delay amount estimation means has converged, and based on the determined determination result, a frame delay amount convergence determination means for outputting the frame delay amount;
In accordance with the determination result in the frame delay amount convergence determination means, estimated echo path characteristic update means for updating and holding the estimated echo path characteristic using a fixed value of the frame delay amount;
The echo suppression gain is calculated from the amplitude spectrum of the estimated echo signal delayed using the frame delay amount and the amplitude spectrum of the near-end input signal, and the estimated echo signal is suppressed from the amplitude spectrum of the near-end input signal. And an echo suppression means.
上記推定エコーパス特性更新手段は、
上記フレーム遅延量収束判定手段で、上記フレーム遅延量が収束していないと判定すると、上記フレーム遅延量の固定値を用いて推定エコーパス特性を更新し保持するフレーム遅延量未収束時の推定エコーパス特性更新部と、
上記フレーム遅延量収束判定手段で、上記フレーム遅延量が収束していると判定すると、さらに、シングルトーク判定を行い、シングルトーク判定でシングルトークと判定されれば、上記フレーム遅延量収束判定手段から出力された上記フレーム遅延量を用いて推定エコーパス特性を更新し保持するフレーム遅延量収束時の推定エコーパス特性更新部と
を有することを特徴とする請求項1に記載のエコー抑圧装置。
The estimated echo path characteristic update means includes:
If the frame delay amount convergence determining means determines that the frame delay amount has not converged, the estimated echo path characteristic when the frame delay amount has not converged is updated and held using the fixed value of the frame delay amount. Update section,
When the frame delay amount convergence determining means determines that the frame delay amount has converged, it further performs single talk determination. If it is determined as single talk by the single talk determination, the frame delay amount convergence determining means The echo suppression apparatus according to claim 1, further comprising: an estimated echo path characteristic updating unit at the time of frame delay amount convergence that updates and holds the estimated echo path characteristic using the output frame delay amount.
上記フレーム遅延量未収束時の推定エコーパス特性更新部は、上記フレーム遅延量が収束していないと判定すると、上記フレーム遅延量の固定値分遅延させた上記遠端信号の振幅スペクトルと、上記エコー抑圧手段により上記近端入力信号の上記推定エコー信号が抑圧された近端出力信号の振幅スペクトルとを平滑化し、平滑化した上記遠端信号の振幅スペクトルと、上記近端出力信号の振幅スペクトルとを用いて、推定エコーパス特性を更新し保持することを特徴とする請求項2に記載のエコー抑圧装置。   When the estimated echo path characteristic update unit when the frame delay amount has not converged determines that the frame delay amount has not converged, the far-end signal amplitude spectrum delayed by a fixed value of the frame delay amount, and the echo The amplitude spectrum of the near-end output signal in which the estimated echo signal of the near-end input signal is suppressed by the suppression means is smoothed, and the smoothed amplitude spectrum of the far-end signal and the amplitude spectrum of the near-end output signal are The echo suppression apparatus according to claim 2, wherein the estimated echo path characteristic is updated and held by using. 近端入力信号と、遠端信号とに基づく音響エコー信号を抑圧するエコー抑圧装置に搭載されるコンピュータを、
過去複数フレームの推定エコー信号の振幅スペクトルと、近端入力信号の振幅スペクトルとからフレーム遅延量を推定するフレーム遅延量推定手段と、
フレーム遅延量推定手段で推定したフレーム遅延量が、収束しているか否か判定し、その判定した判定結果に基づき、上記フレーム遅延量を出力するフレーム遅延量収束判定手段と、
上記フレーム遅延量収束判定手段での上記判定結果に応じて、上記フレーム遅延量の固定値を用いて推定エコーパス特性を更新し保持する推定エコーパス特性更新手段と、
上記フレーム遅延量を用いて遅延させた推定エコー信号の振幅スペクトルと、上記近端入力信号の振幅スペクトルとでエコーサプレスゲインを計算し、上記近端入力信号の振幅スペクトルから上記推定エコー信号を抑圧するエコー抑圧手段と
して機能させることを特徴とするエコー抑圧プログラム。
A computer mounted in an echo suppression device that suppresses an acoustic echo signal based on the near-end input signal and the far-end signal,
A frame delay amount estimating means for estimating a frame delay amount from the amplitude spectrum of the estimated echo signal of the past plural frames and the amplitude spectrum of the near-end input signal;
Determining whether the frame delay amount estimated by the frame delay amount estimation means has converged, and based on the determined determination result, a frame delay amount convergence determination means for outputting the frame delay amount;
In accordance with the determination result in the frame delay amount convergence determination means, estimated echo path characteristic update means for updating and holding the estimated echo path characteristic using a fixed value of the frame delay amount;
The echo suppression gain is calculated from the amplitude spectrum of the estimated echo signal delayed using the frame delay amount and the amplitude spectrum of the near-end input signal, and the estimated echo signal is suppressed from the amplitude spectrum of the near-end input signal. An echo suppression program that functions as an echo suppression means.
近端入力信号と、遠端信号とに基づく音響エコー信号を抑圧するエコー抑圧方法において、
フレーム遅延量推定手段、フレーム遅延量収束判定手段、推定エコーパス特性更新手段、及びエコー抑圧手段を有し、
上記フレーム遅延量推定手段は、過去複数フレームの推定エコー信号の振幅スペクトルと、近端入力信号の振幅スペクトルとからフレーム遅延量を推定し、
上記フレーム遅延量収束判定手段は、フレーム遅延量推定手段で推定したフレーム遅延量が、収束しているか否か判定し、その判定した判定結果に基づき、上記フレーム遅延量を出力し、
上記推定エコーパス特性更新手段は、上記フレーム遅延量収束判定手段での上記判定結果に応じて、上記フレーム遅延量の固定値を用いて推定エコーパス特性を更新し保持し、
上記エコー抑圧手段は、上記フレーム遅延量を用いて遅延させた推定エコー信号の振幅スペクトルと、上記近端入力信号の振幅スペクトルとでエコーサプレスゲインを計算し、上記近端入力信号の振幅スペクトルから上記推定エコー信号を抑圧する
ことを特徴とするエコー抑圧方法。
In an echo suppression method for suppressing an acoustic echo signal based on a near-end input signal and a far-end signal,
A frame delay amount estimation unit, a frame delay amount convergence determination unit, an estimated echo path characteristic update unit, and an echo suppression unit,
The frame delay amount estimating means estimates the frame delay amount from the amplitude spectrum of the estimated echo signal of the past plural frames and the amplitude spectrum of the near-end input signal,
The frame delay amount convergence determination means determines whether or not the frame delay amount estimated by the frame delay amount estimation means has converged, and outputs the frame delay amount based on the determined determination result,
The estimated echo path characteristic update unit updates and holds the estimated echo path characteristic using a fixed value of the frame delay amount according to the determination result in the frame delay amount convergence determination unit,
The echo suppression means calculates an echo suppression gain from the amplitude spectrum of the estimated echo signal delayed using the frame delay amount and the amplitude spectrum of the near-end input signal, and calculates the echo suppression gain from the amplitude spectrum of the near-end input signal. An echo suppression method comprising suppressing the estimated echo signal.
JP2015149935A 2015-07-29 2015-07-29 Echo suppression device, echo suppression program, and echo suppression method Active JP6648436B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015149935A JP6648436B2 (en) 2015-07-29 2015-07-29 Echo suppression device, echo suppression program, and echo suppression method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015149935A JP6648436B2 (en) 2015-07-29 2015-07-29 Echo suppression device, echo suppression program, and echo suppression method

Publications (2)

Publication Number Publication Date
JP2017034355A true JP2017034355A (en) 2017-02-09
JP6648436B2 JP6648436B2 (en) 2020-02-14

Family

ID=57988966

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015149935A Active JP6648436B2 (en) 2015-07-29 2015-07-29 Echo suppression device, echo suppression program, and echo suppression method

Country Status (1)

Country Link
JP (1) JP6648436B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111556210A (en) * 2020-04-23 2020-08-18 深圳市未艾智能有限公司 Call voice processing method and device, terminal equipment and storage medium

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111556210A (en) * 2020-04-23 2020-08-18 深圳市未艾智能有限公司 Call voice processing method and device, terminal equipment and storage medium

Also Published As

Publication number Publication date
JP6648436B2 (en) 2020-02-14

Similar Documents

Publication Publication Date Title
US9591123B2 (en) Echo cancellation
JP6160403B2 (en) Echo suppression device and echo suppression program
JP5671147B2 (en) Echo suppression including modeling of late reverberation components
US10880427B2 (en) Method, apparatus, and computer-readable media utilizing residual echo estimate information to derive secondary echo reduction parameters
JP6295722B2 (en) Echo suppression device, program and method
KR20170142001A (en) Electric device, acoustic echo cancelling method of thereof and non-transitory computer readable recording medium
JP4957810B2 (en) Sound processing apparatus, sound processing method, and sound processing program
JPWO2010035308A1 (en) Echo canceller
KR102190833B1 (en) Echo suppression
JP2011166484A (en) Multi-channel echo cancellation method, multi-channel echo canceler, multi-channel echo cancellation program and recording medium therefor
US8804981B2 (en) Processing audio signals
JP4413205B2 (en) Echo suppression method, apparatus, echo suppression program, recording medium
JP6648436B2 (en) Echo suppression device, echo suppression program, and echo suppression method
JP6432384B2 (en) Echo suppression device, echo suppression program, and echo suppression method
JP6369189B2 (en) Echo suppression device, echo suppression program, echo suppression method, and communication terminal
JP6369192B2 (en) Echo suppression device, echo suppression program, echo suppression method, and communication terminal
KR20220157475A (en) Echo Residual Suppression
JP6398470B2 (en) Stereo echo suppression device, echo suppression device, stereo echo suppression method, and stereo echo suppression program
JP6314608B2 (en) Echo suppression device, echo suppression program, and echo suppression method
JP2013005106A (en) In-house sound amplification system, in-house sound amplification method, and program therefor
JPWO2013032001A1 (en) Speech processing apparatus, control method thereof, and control program
JP6555057B2 (en) Sound source separation echo suppression apparatus, sound source separation echo suppression program, and sound source separation echo suppression method
Fukui et al. Hands-free audio conferencing unit with low-complexity dereverberation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180515

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190514

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190528

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190725

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191217

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191230

R150 Certificate of patent or registration of utility model

Ref document number: 6648436

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150