JP2015216492A - Echo suppression device - Google Patents
Echo suppression device Download PDFInfo
- Publication number
- JP2015216492A JP2015216492A JP2014097864A JP2014097864A JP2015216492A JP 2015216492 A JP2015216492 A JP 2015216492A JP 2014097864 A JP2014097864 A JP 2014097864A JP 2014097864 A JP2014097864 A JP 2014097864A JP 2015216492 A JP2015216492 A JP 2015216492A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- echo
- echo suppression
- power
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Telephone Function (AREA)
Abstract
Description
本発明は、通信システム等で生じる音響エコーの抑圧に関する。 The present invention relates to suppression of acoustic echo generated in a communication system or the like.
テレビ会議システムは、複数の遠隔地間において、双方向の画像データや音声データをやり取りできるようにすることで、距離を超えたコミュニケーションを可能とするものであり、例えば、遠隔教育・医療・会議などに利用される。 Video conferencing systems enable two-way image data and voice data to be exchanged between multiple remote locations, enabling communication over distances. For example, distance learning, medical care, and conferences It is used for etc.
テレビ会議システムにおいては、一般的に音響エコーが生じる。すなわち、スピーカとマイクロフォンが同じ空間にある場合に、スピーカから出力される音声をマイクロフォンが収音することによって、スピーカ−マイクロフォン間でループが形成され、音響エコーが発生する。音響エコーは、通信音声の品質(例えば、音声の明瞭度)を劣化させ、良好な音声通信を阻害する。 In a video conference system, an acoustic echo generally occurs. That is, when the speaker and the microphone are in the same space, the microphone picks up the sound output from the speaker, thereby forming a loop between the speaker and the microphone and generating an acoustic echo. The acoustic echo deteriorates the quality of communication voice (for example, the clarity of voice) and hinders good voice communication.
音響エコーを抑圧する手法としては、適応フィルタを用いる手法や、短時間スペクトル振幅(STSA:Short-Time Spectral Amplitude)推定に基づく手法(非特許文献1及び特許文献1参照)を挙げることができる。
Examples of methods for suppressing acoustic echo include a method using an adaptive filter and a method based on short-time spectral amplitude (STSA) estimation (see Non-Patent
非特許文献1に開示された手法は、遠隔地からの受信信号のパワースペクトルに対するマイクロフォンの収音信号のパワースペクトルの比を利用して音響エコー成分を抑圧するためのゲイン係数を算出するものであり、適応フィルタを用いる手法と比べて、演算量が少ないという利点がある。
The technique disclosed in Non-Patent
以下、非特許文献1に記載されている手法について説明する。なお、以下A1〜A48および[式1]〜[式8]については図13〜図16のとおり定義されるものとする。
Hereinafter, the method described in
離散時間をA1、周波数分析区間(処理セグメント)のインデックスをA2とする。周波数スペクトルのインデックスをA3とし、これに対応する角周波数をA4とする。送話信号をA5、送話信号の処理セグメントA2での短時間スペクトルをA6、送話信号の処理セグメントA2でのパワースペクトルをA7とする。受信信号(遠隔地から受信した音声)をA8、受信信号の処理セグメントA2での短時間スペクトルをA9、受信信号の処理セグメントA2でのパワースペクトルをA10とする。音響エコー信号をA11、音響エコー信号の処理セグメントA2での短時間スペクトルをA12、音響エコー信号の処理セグメントA2でのパワースペクトルをA13とする。収音信号(マイクロフォンで収音した音声)をA14、収音信号の処理セグメントA2での短時間スペクトルをA15、収音信号の処理セグメントA2での短時間スペクトルの振幅成分をA16、収音信号の処理セグメントA2でのパワースペクトルをA17とする。音響経路における処理セグメントA2での音響結合量(音響エコー信号のパワースペクトルと、受信信号のパワースペクトルの比)をA18とする。 The discrete time is A1, and the frequency analysis section (processing segment) index is A2. The index of the frequency spectrum is A3, and the corresponding angular frequency is A4. The transmission signal is A5, the short-time spectrum in the transmission signal processing segment A2 is A6, and the power spectrum in the transmission signal processing segment A2 is A7. The received signal (voice received from a remote location) is A8, the short-time spectrum in the received signal processing segment A2 is A9, and the power spectrum in the received signal processing segment A2 is A10. Assume that the acoustic echo signal is A11, the short-time spectrum in the acoustic echo signal processing segment A2 is A12, and the power spectrum in the acoustic echo signal processing segment A2 is A13. A14 for the collected sound signal (sound collected by the microphone), A15 for the short time spectrum in the processing segment A2 of the collected sound signal, A16 for the amplitude component of the short time spectrum in the processing segment A2 of the collected sound signal, The power spectrum in the processing segment A2 is A17. The amount of acoustic coupling in the processing segment A2 in the acoustic path (ratio of the power spectrum of the acoustic echo signal to the power spectrum of the received signal) is A18.
非特許文献1に記載されている手法は、収音信号の短時間スペクトルの振幅成分A16にエコー抑圧ゲインA20を乗じてエコーを抑圧する手法である。エコー抑圧後の出力信号の短時間スペクトルA21の振幅成分A22は[式1]で示すように算出される。
The method described in Non-Patent
音響エコー成分を抑圧するためのゲイン値A20は、音響エコー信号A11と送話信号A5が無相関であると仮定し、ウィーナーフィルタ法を用いることで、[式2]のように導出される。 The gain value A20 for suppressing the acoustic echo component is derived as [Equation 2] by using the Wiener filter method on the assumption that the acoustic echo signal A11 and the transmission signal A5 are uncorrelated.
ここで、送話信号のパワースペクトルA7の期待値はA26、音響エコー信号のパワースペクトルA13の期待値はA27、音響エコーパワースペクトルの推定値はA30である。 Here, the expected value of the power spectrum A7 of the transmission signal is A26, the expected value of the power spectrum A13 of the acoustic echo signal is A27, and the estimated value of the acoustic echo power spectrum is A30.
音響エコー信号のパワースペクトルの推定値A30は、受信信号のパワースペクトルA10と、音響結合量の推定値A33と、前処理セグメントにおける音響エコーパワーの推定値A34と、を用いて、[式3]に示すように算出される。 The estimated value A30 of the power spectrum of the acoustic echo signal is obtained by using [Equation 3] using the power spectrum A10 of the received signal, the estimated value A33 of the acoustic coupling amount, and the estimated value A34 of the acoustic echo power in the preprocessing segment. Is calculated as shown in FIG.
ここで、第2項のβは、エコーの残響成分の影響を加味するために設定される忘却係数である。 Here, β in the second term is a forgetting factor set in order to take into account the effect of the echo reverberation component.
音響経路における音響結合量の推定値A33は、受信信号のパワースペクトルA10と収音信号のパワースペクトルA17の比をもとに算出する。具体的には、処理セグメントA2で仮の音響結合量推定値A38を[式4]により算出し、その前のセグメントA39で求めた仮の音響結合量推定値A40の大小比較を行い、より小さい値を保持して音響結合量の推定値A33とする([式5])。 The estimated value A33 of the acoustic coupling amount in the acoustic path is calculated based on the ratio between the power spectrum A10 of the received signal and the power spectrum A17 of the collected sound signal. Specifically, the provisional acoustic coupling amount estimated value A38 is calculated by [Expression 4] in the processing segment A2, and the magnitude of the provisional acoustic coupling amount estimated value A40 obtained in the previous segment A39 is compared. The value is held as the estimated value A33 of the acoustic coupling amount ([Equation 5]).
ここで、min()は、最小値を選択する関数である。 Here, min () is a function for selecting the minimum value.
また、非特許文献1とは別のSTSA推定に基づく手法として、特許文献1にて開示されている手法がある。特許文献1おいて記載されている手法は、非特許文献1と同様に、受信信号(スピーカから出力する信号)のパワースペクトルと収音信号のパワースペクトルを利用し、音響エコー成分を抑圧するためのゲイン係数を算出する手法であるが、[式4]〜[式5]の代わりに、[式6]〜[式8]により音響経路における音響結合量の推定値A33を算出する手法である。
Further, as a technique based on STSA estimation different from
ここで、[式6]の左辺A43は、受信信号の短時間スペクトルA9と収音信号の短時間スペクトルA15のクロススペクトル期待値であり、[式7]の左辺A46は、受信信号のパワースペクトルA10の期待値である。A43内に用いられているA48は、A9の共役複素数である。L1及びL2は、計算に用いる周波数インデックスの範囲を示し、M1及びM2は、計算に用いる処理セグメントの範囲を示している。 Here, the left side A43 of [Expression 6] is the expected cross spectrum value of the short-time spectrum A9 of the received signal and the short-time spectrum A15 of the collected sound signal, and the left side A46 of [Expression 7] is the power spectrum of the received signal. This is the expected value of A10. A48 used in A43 is a conjugate complex number of A9. L 1 and L 2 indicate the range of the frequency index used for the calculation, and M 1 and M 2 indicate the range of the processing segment used for the calculation.
前述のとおり、音響結合量は、音響エコー信号のパワースペクトルと、受信信号のパワースペクトルの比である。 As described above, the acoustic coupling amount is a ratio between the power spectrum of the acoustic echo signal and the power spectrum of the received signal.
非特許文献1に記載されている、受信信号のパワースペクトルに対する、収音信号のパワースペクトルの比から音響結合量を求める方法([式4])は、受信信号のみがある状態(「シングルトーク受話」状態)で、音響経路における音響結合量A18を精度よく推定する方法である。この状態以外の、送話信号も受信信号もない状態(「発話なし」状態)と、送話信号のみがある状態(「シングルトーク送話」状態)と、送話信号と受信信号の両方がある状態(「ダブルトーク」状態)では音響結合量は精度よく推定できない。
The method ([Equation 4]) for obtaining the acoustic coupling amount from the ratio of the power spectrum of the collected sound signal to the power spectrum of the received signal described in Non-Patent
この問題に対し、「発話なし」状態では、収音信号の短時間スペクトルの振幅成分A16 が非常に小さい値であるため、[式1]で計算されるエコー抑圧後の信号A21 も非常に小さい値となり、遠隔地に送信する信号は非常に小さい音声となるため、悪影響はない。 In contrast to this problem, in the “no utterance” state, the amplitude component A16 of the short-time spectrum of the collected sound signal is a very small value, so the signal A21 after echo suppression calculated by [Equation 1] is also very small. Value, and the signal transmitted to the remote location is very small, so there is no adverse effect.
また、「シングルトーク送話」状態では、音響結合量の推定値が非常に大きな値となるため、この場合は、ゲイン値を1とするなどして、対応することができる。 Further, in the “single talk transmission” state, the estimated value of the acoustic coupling amount is a very large value. In this case, it is possible to cope with this by setting the gain value to 1.
しかしながら、「ダブルトーク」状態では、マイクロフォンの収音信号に送話信号と音響エコー信号とが含まれるため、[式4]により算出される仮の音響結合量は、音響エコー信号に送話信号が加算された信号と、受信信号と、の信号スペクトル間の比となる。すなわち、送話信号によって、音響結合量の推定に誤差が発生する。この誤差により、[式3]で推定される音響エコーパワーA30と、[式2]で推定されるエコー抑圧ゲインA20と、に推定誤差が発生する。エコー抑圧ゲインA20の推定誤差により、エコー抑圧ゲインA20が大きくなりすぎると送話信号まで過剰に抑圧され送話信号が歪み、エコー抑圧ゲインA20が小さすぎるとエコー成分が十分に抑圧されない、という問題が発生する。 However, in the “double talk” state, since the transmission signal and the acoustic echo signal are included in the collected sound signal of the microphone, the provisional acoustic coupling amount calculated by [Equation 4] is the transmission signal in the acoustic echo signal. Is the ratio between the signal spectrum of the signal to which the signal is added and the received signal. That is, an error occurs in the estimation of the acoustic coupling amount due to the transmission signal. Due to this error, an estimation error occurs between the acoustic echo power A30 estimated by [Expression 3] and the echo suppression gain A20 estimated by [Expression 2]. Due to the estimation error of the echo suppression gain A20, if the echo suppression gain A20 becomes too large, the transmission signal is excessively suppressed and the transmission signal is distorted. If the echo suppression gain A20 is too small, the echo component is not sufficiently suppressed. Will occur.
特許文献1の手法では、「ダブルトーク」状態での音響結合量の推定精度が向上するが、[式6]および[式7]の演算量が多いため、非特許文献1の手法と比べて演算量が非常に大きくなり、STSA推定に基づく手法が適応フィルタによる手法と比べて演算量が小さくなる、という利点が失われてしまうことが問題となる。
In the method of
本発明は、以上の課題に鑑みてなされたものであり、処理量を抑えつつ、通話状態に応じた適切なエコー抑圧を行うことを目的とする。 The present invention has been made in view of the above problems, and an object of the present invention is to perform appropriate echo suppression according to a call state while suppressing a processing amount.
本エコー抑圧装置は、通信路からの受信信号に応じて発音する発音装置および収音装置とともに用いられ、収音装置を介して得られる収音信号に、短時間スペクトル振幅推定に基づいた処理を施すことによって通信路への送信を行うための信号を生成するエコー抑圧装置であって、受信信号のパワースペクトルおよび収音信号のパワースペクトルに基づいて受信信号のパワースペクトルとエコー信号のパワースペクトルとの比である音響結合量を推定するとともに該音響結合量を用いて収音信号からエコー信号の少なくとも一部を取り除いた第1のエコー抑圧信号を生成する第1のエコー抑圧処理部と、受信信号のパワーおよび第1のエコー抑圧信号のパワーを用いて通話状態を判定する通話状態判定部と、上記通話状態判定部が受信のみの状態と判定したときの上記音響結合量を保存する音響結合量保存処理部と、上記通話状態判定部が受信および送信の状態と判定したときに、音響結合量保存処理部に保存された音響結合量を用いて収音信号からエコー信号の少なくとも一部を取り除いた第2のエコー抑圧信号を生成する第2のエコー抑圧処理部とを備えることを特徴とする。 This echo suppressor is used in conjunction with a sound generator and a sound collector that generate sound in response to a received signal from a communication channel, and performs processing based on short-time spectral amplitude estimation on a collected sound signal obtained via the sound collector. An echo suppression device that generates a signal for transmission to a communication channel by applying a power spectrum of the received signal and a power spectrum of the echo signal based on the power spectrum of the received signal and the power spectrum of the collected sound signal A first echo suppression processing unit that estimates an acoustic coupling amount that is a ratio of the two and generates a first echo suppression signal by removing at least a part of the echo signal from the collected sound signal using the acoustic coupling amount; A call state determination unit for determining a call state using the power of the signal and the power of the first echo suppression signal, and the call state determination unit is configured to receive only An acoustic coupling amount storage processing unit that stores the acoustic coupling amount when it is determined as a state, and an acoustic coupling stored in the acoustic coupling amount storage processing unit when the call state determination unit determines that the state is a reception and transmission state And a second echo suppression processing unit that generates a second echo suppression signal obtained by removing at least a part of the echo signal from the collected sound signal using the volume.
上記構成によれば、受信および送信の状態(ダブルトーク状態)において、このダブルトーク状態において第1のエコー抑圧処理部で得られる音響結合量ではなく、例えば、直近の受信のみの状態(シングルトーク受話状態)で得られた音響結合量(保存された上記音響結合量)を用いて第2のエコー抑圧信号を生成することができる。これにより、処理量を抑えつつ、通話状態に応じた適切なエコー抑圧を行うことできる。 According to the above configuration, in the reception and transmission state (double talk state), not the acoustic coupling amount obtained in the first echo suppression processing unit in this double talk state, for example, only the latest reception state (single talk) The second echo suppression signal can be generated using the acoustic coupling amount (stored acoustic coupling amount) obtained in the reception state). Thereby, it is possible to perform appropriate echo suppression according to the call state while suppressing the processing amount.
本エコー抑圧装置においては、上記通話状態判定部は、受信信号のパワーと第1閾値との比較、および第1のエコー抑圧信号のパワーと第2閾値との比較とを行い、通話状態を判定する構成とすることもできる。 In the present echo suppression device, the call state determination unit compares the power of the received signal with the first threshold value and compares the power of the first echo suppression signal with the second threshold value to determine the call state. It can also be set as the structure to do.
このように、通話状態の判定に第1および第2閾値を用いることで、効率よく適切な判定が可能となる。 In this way, by using the first and second threshold values for determining the call state, it is possible to make an appropriate determination efficiently.
本エコー抑圧装置においては、前記通話状態判定部は、さらに、第1または第2のエコー抑圧処理部で推定されるエコー信号のパワースペクトルから得られるエコー信号のパワーと第3閾値との比較を行い、通話状態を判定する構成とすることもできる。 In the echo suppression apparatus, the call state determination unit further compares the power of the echo signal obtained from the power spectrum of the echo signal estimated by the first or second echo suppression processing unit with a third threshold value. It is also possible to adopt a configuration in which the call state is determined.
このように、通話状態の判定に、第1または第2のエコー抑圧処理部で推定されるエコー信号のパワースペクトルから得られるエコー信号のパワーを用いることで、エコー信号が大きい場合であっても適切な判定が可能となる。 Thus, even when the echo signal is large, the call state is determined by using the power of the echo signal obtained from the power spectrum of the echo signal estimated by the first or second echo suppression processing unit. Appropriate judgment is possible.
なお、上記の場合では、上記第3閾値と比較するエコー信号のパワーに係る受信信号の受信タイミングが、第1閾値と比較する受信信号のパワーに係る受信信号の受信タイミングよりも前に設定されている構成とすることもできる。 In the above case, the reception timing of the received signal related to the power of the echo signal compared with the third threshold is set before the reception timing of the received signal related to the power of the received signal compared to the first threshold. It can also be set as the structure.
本エコー抑圧装置においては、上記通話状態判定部が受信のみの状態または受信も送信もない状態と判定したときには、第1のエコー抑圧信号を出力し、上記通話状態判定部が受信および送信の状態と判定したときには第2のエコー抑圧信号を出力する出力処理部を備える構成とすることもできる。 In the echo suppression device, when the call state determination unit determines that the state is only reception or neither reception nor transmission, the first echo suppression signal is output, and the call state determination unit receives and transmits the state. It can also be configured to include an output processing unit that outputs the second echo suppression signal when it is determined.
このように、通話状態に応じて出力を切り替えることで、通話状態に応じた適切なエコー抑圧を行うことできる。 Thus, by switching the output according to the call state, it is possible to perform appropriate echo suppression according to the call state.
本エコー抑圧装置においては、上記通話状態判定部が受信のみの状態または受信も送信もない状態と判定したときには、出力をゼロとし、上記通話状態判定部が受信および送信の状態と判定したときには第2のエコー抑圧信号を出力する出力処理部を備える構成とすることもできる。 In this echo suppression device, when the call state determination unit determines that the state is only receiving or does not receive or transmit, the output is zero, and when the call state determination unit determines that the state is reception and transmission, An output processing unit that outputs two echo suppression signals may be provided.
このように、通話状態に応じて出力を切り替え、所定の状態では出力をゼロとすることで、通話状態に応じたより適切なエコー抑圧を行うことできる。 Thus, by switching the output according to the call state and setting the output to zero in a predetermined state, more appropriate echo suppression according to the call state can be performed.
本エコー抑圧装置においては、上記通話状態判定部が送信のみの状態と判定したときに、上記出力処理部は第1のエコー抑圧信号を出力する構成とすることができる。 In the present echo suppression device, the output processing unit can be configured to output the first echo suppression signal when the call state determination unit determines that the state is a transmission only state.
本発明によれば、処理量を抑えつつ、通話状態に応じた適切なエコー抑圧を行うことができる。 According to the present invention, it is possible to perform appropriate echo suppression according to the call state while suppressing the processing amount.
本発明に係る実施の形態を、図1〜図12に基づいて説明すれば以下のとおりである。なお、以下、B1〜B47・D7〜D17・F4〜F27および[式3]〜[式5]については図11〜図12のとおり定義されるものとする。 An embodiment according to the present invention will be described below with reference to FIGS. Hereinafter, B1 to B47, D7 to D17, F4 to F27, and [Formula 3] to [Formula 5] are defined as shown in FIGS.
〔実施の形態1〕
図1は実施の形態1に係るエコー抑圧装置の構成を示す模式図である。図1に示すように、エコー抑圧装置100は、通信路から受信した音声信号(受信信号)B1を再生するためのスピーカ120(発音装置)、送話信号B2を取得するためのマイクロフォン130(収音装置)、および通信路に組み合わされて使用される。なお、スピーカ120で再生され、マイクロフォン130によって収音される音声信号(エコー信号)をB10とする。エコー抑圧装置100は、受信信号B1を受信信号スペクトルB3に変換するための受信信号DFT(Discrete Fourier Transform)部140と、収音信号B4を収音信号スペクトルB5に変換するための収音信号DFT(Discrete Fourier Transform)部150と、出力信号B6を通信路に送信するための時間領域データB7に変換するための送信信号IDFT(Inverse Discrete Fourier Transform)部160とを備える。
[Embodiment 1]
FIG. 1 is a schematic diagram showing a configuration of an echo suppression apparatus according to the first embodiment. As shown in FIG. 1, the
エコー抑圧装置100は、さらに、受信信号のパワースペクトルB8を算出するための受信信号パワースペクトル計算部170と、収音信号のパワースペクトルB9を算出するための収音信号パワースペクトル計算部180と、受信信号パワースペクトルB8と収音信号パワースペクトルB9を用いて収音信号に収音されたエコーを抑圧する第1のエコー抑圧処理部190と、受信信号のパワーB12を算出するための受信信号パワー計算部110と、第1のエコー抑圧処理部から出力される音声信号のパワーB13を算出するためのエコー抑圧部出力信号パワー計算部111と、受信信号のパワーB12と第1のエコー抑圧処理部から出力される音声信号のパワーB13とから、通話状態(「発話なし」状態、「シングルトーク受話」状態、「シングルトーク送話」状態、「ダブルトーク」状態)を判定する通話状態判定部112と、判定された通話状態に応じた処理を行う後段処理部113とを備える。
The
後段処理部113は、通話状態判定部112の判定Cに応じて、第1のエコー抑圧処理部190から出力された信号B16、あるいは第2のエコー抑圧処理部116から出力された信号B36を、送信信号IDFT部160への出力信号(周波数領域データ信号)B6とする出力処理部114と、通話状態判定部112が「シングルトーク受話」状態と判定したときに、第1のエコー抑圧処理部から出力される音響結合量B17をB18として保存する音響結合量保存処理部115と、通話状態判定部112が「ダブルトーク受話」状態と判定したときに、音響結合量保存部に保存されている音響結合量B18と受信信号パワースペクトルB8と収音信号パワースペクトルB9とを用いて収音信号に収音されたエコーを抑圧する第2のエコー抑圧処理部116とを備える。
The
図2に、第1のエコー抑圧処理部の基本的な構成の一例を示す。第1のエコー抑圧処理部190は、受信信号パワースペクトルB8と収音信号パワースペクトルB9に基づき、音響結合量B17を推定する音響結合量推定部210と、音響結合量B17と受信信号パワースペクトルB8に基づき、エコー信号のパワースペクトルB47を推定する第1のエコー信号パワースペクトル推定部220と、エコー信号パワースペクトルB47と収音信号パワースペクトルB9に基づき、エコー抑圧ゲイン50を算出する第1のエコー抑圧ゲイン計算部230と、エコー抑圧ゲイン50と収音信号スペクトルB5とから、収音信号中のエコーを抑圧した信号B16を生成する第1のエコー抑圧ゲイン乗算部240とを備える。
FIG. 2 shows an example of a basic configuration of the first echo suppression processing unit. The first echo
図3に音響結合量保存処理部と第2のエコー抑圧処理部の基本的な構成の一例を示す。 FIG. 3 shows an example of the basic configuration of the acoustic coupling amount storage processing unit and the second echo suppression processing unit.
音響結合量保存処理部115は、第1の音響結合量推定部210で推定された音響結合量B17をB18として保存する音響結合量保存部310を備える。
The acoustic coupling amount
第2のエコー抑圧処理部116は、音響結合量保存部310に保存されている音響結合量B18を読み込む音響結合量読み込み部320と、読み込んだ音響結合量B18と受信信号パワースペクトルB8に基づき、エコー信号のパワースペクトルD4を推定する第2のエコー信号パワースペクトル推定部330と、第2のエコー信号パワースペクトル推定部330で推定されたエコー信号パワースペクトルD4と収音信号パワースペクトルB9に基づき、エコー抑圧ゲインD7を算出する第2のエコー抑圧ゲイン計算部340と、エコー抑圧ゲインD7と収音信号スペクトルB5とから、収音信号中のエコーを抑圧した信号B36を生成する第2のエコー抑圧ゲイン乗算部350とを備える。
The second echo
次に、処理の流れについて、図4〜図6を用いて説明する。 Next, the flow of processing will be described with reference to FIGS.
図4はエコー抑圧処理全体の流れを示している。まずステップS41において、受信信号パワースペクトル計算部170は、受信信号のDFTの結果からそのパワースペクトルB20を算出し、収音信号パワースペクトル計算部180は、収音信号のDFTの結果からそのパワースペクトルB21を算出し、第1のエコー抑圧処理部190に送る。
FIG. 4 shows the flow of the entire echo suppression process. First, in step S41, the received signal power
次にステップS42において、第1のエコー抑圧処理部190は、受信信号パワースペクトルB20と収音信号パワースペクトルB21とを用いて、STSA推定に基づくエコー抑圧処理を実施する。エコー抑圧処理の詳細は後述する。
Next, in step S42, the first echo
次にステップS43において、受信信号パワー計算部110は、受信信号のパワースペクトルから受信信号のパワーB12を算出し、エコー抑圧処理部出力信号パワー計算部111は、第1のエコー抑圧処理部の出力信号B16から第1のエコー抑圧処理部の出力信号のパワーB13を算出する。
Next, in step S43, the received signal
次にステップS44において、通話状態判定部112は、受信信号のパワーB12と第1のエコー抑圧処理部の出力信号のパワーB13とを用いて、通話状態(「発話なし」状態、「シングルトーク受話」状態、「シングルトーク送話」状態、「ダブルトーク」状態)を判定し、判定結果を後段処理部113に送信する。判定の方法については後述する。
Next, in step S44, the call
ステップS44で判定された通話状態が「シングルトーク受話」状態の場合、ステップS45に進む。ステップS45において、音響結合量保存処理部115は、第1のエコー抑圧処理部190内の音響結合量推定部210で推定された音響結合量B17をB18として保存する。
When the call state determined in step S44 is the “single talk reception” state, the process proceeds to step S45. In step S45, the acoustic coupling amount
次にステップS46において、出力処理部114は、第1のエコー抑圧処理部190の出力信号B16を後段処理部113の出力信号B6とする。
Next, in step S <b> 46, the
ステップS44で判定された通話状態が「シングルトーク送話」状態の場合、ステップS47に進む。ステップS47において、出力処理部114は、第1のエコー抑圧処理部190の出力信号B16を後段処理部113の出力信号B6とする。
If the call state determined in step S44 is the “single talk transmission” state, the process proceeds to step S47. In step S47, the
ステップS44で判定された通話状態が「ダブルトーク」状態の場合、ステップS48に進む。ステップS48において、第2のエコー抑圧処理部116は受信信号パワースペクトルB8と収音信号パワースペクトルB9と音響結合量保存処理部115に保存されている音響結合量B18とを用いて、STSA推定に基づくエコー抑圧処理を実施し、B36を出力する。エコー抑圧処理については後述する。
If the call state determined in step S44 is the “double talk” state, the process proceeds to step S48. In step S48, the second echo
次にステップS49で、出力処理部114は、第2のエコー抑圧処理部116の出力信号B36を後段処理部113の出力信号B6とする。
In step S49, the
ステップS44で判定された通話状態が上記3状態以外の場合、ステップS50に進む。この状態は、送話信号と受信信号の両方がない「発話なし」状態である。ステップS50において、出力処理部114は、第1のエコー抑圧処理部190の出力信号B16を後段処理部113の出力信号B6とする。
If the call state determined in step S44 is other than the above three states, the process proceeds to step S50. This state is a “no utterance” state in which neither a transmission signal nor a reception signal is present. In step S50, the
最後に、ステップS51において、送信信号IDFT部160は、出力処理部114から出力された信号B6をIDFTによって時間領域データ信号B7に変換し、通信路へ送る。
Finally, in step S51, the transmission
図5は第1のエコー抑圧処理部の流れを示している。 FIG. 5 shows the flow of the first echo suppression processing unit.
まずステップS151において、音響結合量推定部210は、受信信号パワースペクトルB8と収音信号パワースペクトルB9とを用いて、音響結合量B17を推定する。推定方法は、たとえば、図12の[式4]および[式5]による。
First, in step S151, the acoustic coupling
次にステップS152において、第1のエコー信号パワースペクトル推定部220は、音響結合量B17と収音信号のパワースペクトルB9を用いて、収音信号に含まれるエコーのパワースペクトルB47を推定する。推定手段は、例えば、図12の[式3]による。
Next, in step S152, the first echo signal power
次にステップS153において、第1のエコー抑圧ゲイン計算部230は、第1のエコー信号パワースペクトル推定部220で推定されたエコーパワースペクトルB47および収音信号のパワースペクトルB9を用いて、収音信号中のエコーを抑圧するためのエコー抑圧ゲインB50を算出する。
Next, in step S153, the first echo suppression
最後にステップS154において、第1のエコー抑圧ゲイン乗算部240は、エコー抑圧ゲインB50を収音信号スペクトルB5に乗ずることによって収音信号中のエコーを抑圧した信号(第1のエコー抑圧信号)B16を生成する。
Finally, in step S154, the first echo suppression
図6は第2のエコー抑圧処理部の流れを示している。 FIG. 6 shows the flow of the second echo suppression processing unit.
まずステップS161において、音響結合量読込部320は、音響結合量保存部310に保存されている、直近の「シングルトーク受話」状態で推定された音響結合量B18を読み込む。
First, in step S <b> 161, the acoustic coupling
次にステップS162において、第2のエコー信号パワースペクトル推定部330は、音響結合量B18と収音信号のパワースペクトルB9を用いて、収音信号に含まれるエコーのパワースペクトルD4を推定する。推定方法は、例えば、図12の[式3]による。
Next, in step S162, the second echo signal power
次にステップS163において、第2のエコー抑圧ゲイン計算部340は、第2のエコー信号パワースペクトル推定部330で推定されたエコーパワースペクトルD4および収音信号のパワースペクトルB9を用いて、収音信号中のエコーを抑圧するためのエコー抑圧ゲインD7を算出する。
Next, in step S163, the second echo suppression
最後にステップS164において、第2のエコー抑圧ゲイン乗算部350は、エコー抑圧ゲインD7を収音信号スペクトルB5に乗ずることによって収音信号中のエコーを抑圧した信号(第2のエコー抑圧信号)B36を生成する。
Finally, in step S164, the second echo suppression
ここで、音響結合量B18は、「ダブルトーク」状態で推定されたものではなく、直近の「シングルトーク受話」状態で推定・保存された音響結合量であるため、実際の音響結合量に近い値である。そのため、「ダブルトーク」状態においてもエコー信号のパワースペクトルを精度よく推定することができる。 Here, the acoustic coupling amount B18 is not estimated in the “double talk” state, but is an acoustic coupling amount estimated and stored in the latest “single talk reception” state, and thus is close to the actual acoustic coupling amount. Value. Therefore, the power spectrum of the echo signal can be accurately estimated even in the “double talk” state.
図7は通話状態判定部における、通話状態の判定方法を示している。 FIG. 7 shows a call state determination method in the call state determination unit.
まず、ステップS71において、受信信号のパワーB12を閾値D13により判定し、閾値を下回る場合には受信信号がない状態、閾値を上回る場合には受信信号がある状態とみなす。 First, in step S71, the power B12 of the received signal is determined based on the threshold value D13. When the threshold value D13 is below the threshold value, it is assumed that there is no received signal.
ステップS71にて、受信信号のパワーB12が閾値D13を下回り、受信信号がないとみなした場合、ステップS72にて、第1のエコー抑圧処理後信号のパワーB13を閾値D17により判定し、閾値を下回る場合には送話信号がないとみなし、ステップS73にて、通話状態Cに「発話なし」状態を示す値を格納する。一方、閾値を上回る場合には、送話信号があるとみなし、ステップS74にて、通話状態Cに「シングルトーク送話」状態を示す値を格納する。 If it is determined in step S71 that the power B12 of the received signal is lower than the threshold D13 and there is no received signal, in step S72, the power B13 of the first post-echo suppression signal is determined by the threshold D17, and the threshold is If it is lower, it is considered that there is no transmission signal, and a value indicating the “no utterance” state is stored in the call state C in step S73. On the other hand, if it exceeds the threshold value, it is considered that there is a transmission signal, and a value indicating the “single talk transmission” state is stored in the call state C in step S74.
ステップS71にて、受信信号のパワーB12が閾値D13を上回り、受信信号があるとみなした場合、ステップS75にて、第1のエコー抑圧処理後信号のパワーB13を閾値D17により判定し、閾値を下回る場合には送話信号がないとみなし、ステップS76にて、通話状態Cに「シングルトーク受話」状態を示す値を格納する。一方、閾値を上回る場合には、送話信号があるとみなし、ステップS77にて、通話状態Cに「ダブルトーク」状態を示す値を格納する。 In step S71, if the received signal power B12 exceeds the threshold value D13 and it is determined that there is a received signal, in step S75, the first echo-suppressed signal power B13 is determined by the threshold value D17, and the threshold value is set. If it is lower, it is considered that there is no transmission signal, and a value indicating the “single talk reception” state is stored in the call state C in step S76. On the other hand, if it exceeds the threshold value, it is considered that there is a transmission signal, and a value indicating the “double talk” state is stored in the call state C in step S77.
ここで、上記閾値D13およびD17は、無音と判断できるパワーP0[dB]に設定する。 Here, the threshold values D13 and D17 are set to power P 0 [dB] that can be determined as silence.
以上の構成によって、「発話なし」状態、「シングルトーク受話」状態、「シングルトーク送話」状態では、従来通りのエコー抑圧処理を実施し、「ダブルトーク」状態では「シングルトーク受話」状態で推定した音響結合量を用いて再度エコー抑圧処理を実施することで、演算量の増加を従来の2倍程度に抑えつつ、通話状態に関わらず適切にエコー成分を抑圧できるようにしたエコー抑圧装置を提供することができる。 With the above configuration, the conventional echo suppression processing is performed in the “no utterance” state, “single talk reception” state, and “single talk transmission” state, and in the “single talk reception” state in the “double talk” state. An echo suppression device that can appropriately suppress the echo component regardless of the call state while suppressing the increase in the calculation amount to about twice that of the prior art by performing the echo suppression process again using the estimated acoustic coupling amount Can be provided.
〔実施の形態2〕
受信信号のパワーの大きさにかかわらず、エコー信号のパワーが大きい場合には、収音信号には音響エコー信号と送話信号の双方の信号が含まれるため、受信信号がある状態と同等に扱うべきである。これは例えば、受信信号がない状態で、残響音が大きな音として残っている場合である。
[Embodiment 2]
Regardless of the magnitude of the received signal power, if the echo signal power is high, the sound collection signal includes both the acoustic echo signal and the transmitted signal. Should be handled. This is the case, for example, when there is no received signal and the reverberant sound remains as a loud sound.
そこで、第2の実施の形態において、受信信号のパワーと第1のエコー抑圧処理部の出力信号のパワーと推定エコー信号のパワーを用いて通話状態の判定を行う方法について、図8と図9を用いて説明する。 Therefore, in the second embodiment, a method for determining the call state using the power of the received signal, the power of the output signal of the first echo suppression processing unit, and the power of the estimated echo signal will be described with reference to FIGS. Will be described.
図8のエコー抑圧装置においては、第1の実施の形態のエコー抑圧処理部出力信号パワー計算部111の代わりに、エコー抑圧処理部出力信号パワー計算部810が用いられ、通話状態判定部112の代わりに、通話状態判定部850が用いられている。
In the echo suppression apparatus of FIG. 8, an echo suppression processing unit output signal
エコー抑圧処理部出力信号パワー計算部810は、第1のエコー抑圧処理部190から出力される信号B16のパワーD13を計算するエコー抑圧後信号パワー計算部820と、第1のエコー信号パワースペクトル推定部220で推定された推定エコー信号パワースペクトルB47から、エコー信号のパワーF4を算出し、通話状態判定部850に出力する第1の推定エコーパワー計算部830と、第2のエコー信号パワースペクトル推定部330で推定された推定エコー信号パワースペクトルD4から、エコー信号のパワーF6を算出し、通話状態判定部850に出力する第2の推定エコーパワー計算部840と、を備える。
The echo suppression processing unit output signal
通話状態判定部850は、第1の推定エコーパワー計算部830から出力されたエコー信号のパワーF4と、第2の推定エコーパワー計算部840から出力されたエコー信号のパワーF6と、から、通話状態に応じて保存するエコーパワーを選択し、F9として保存する推定エコーパワー保存部860と、受信信号のパワーB12と、第1のエコー抑圧処理後信号のパワーB13と、前処理セグメントで保存された推定エコー信号のパワーF12と、から通話状態(「発話なし」状態、「シングルトーク受話」状態、「シングルトーク送話」状態、「ダブルトーク」状態)を判定する通話状態判定処理部870とにより構成されている。それ以外の構成については、実施の形態1と同様である。
The call
以下に、それぞれの処理部における動作を説明する。第1の推定エコーパワー計算部830は、第1のエコー信号パワースペクトル推定部220で推定されたエコー信号のパワースペクトルB47から、エコー信号のパワーF4を算出し、通話状態判定部850に出力する。通話状態判定処理部870は、受信信号のパワーB12と第1のエコー抑圧処理後信号のパワーB13と前処理セグメントで保存された推定エコー信号のパワーF12を用いて通話状態を判定する。判定の方法は後述する。通話状態判定部850で通話状態が「ダブルトーク」状態と判定された場合、第2の推定エコーパワー推定部840は、第2のエコー信号パワースペクトル推定部330で推定されたエコー信号のパワースペクトルD4から、エコー信号のパワーF6を算出し、通話状態判定部850に出力する。通話状態判定部850は、通話状態を「発話なし」状態、「シングルトーク受話」状態、「シングルトーク送話」状態と判定した場合は、第1の推定エコーパワー計算部830から出力されたエコー信号のパワーF4を推定エコー信号パワー保存部860にF9として保存する。また、通話状態を「ダブルトーク」状態と判定した場合は、第2の推定エコーパワー計算部840から出力されたエコー信号のパワーF6を推定エコー信号パワー保存部860にF9として保存する。
Hereinafter, the operation of each processing unit will be described. First estimated echo
図9は通話状態判定部850における、通話状態の判定方法を示している。
FIG. 9 shows a call state determination method in the call
まず、ステップS91において、受信信号のパワーB12を閾値D13により、推定エコー信号のパワーF12を閾値F27により判定し、両方のパワーが閾値を下回る場合には受信信号がない状態、閾値を上回る場合には受信信号がある状態とみなす。 First, in step S91, the power B12 of the received signal is determined by the threshold D13 and the power F12 of the estimated echo signal is determined by the threshold F27. If both powers are lower than the threshold, there is no received signal; Is considered to be a state with a received signal.
ステップS91にて、受信信号のパワーB12と推定エコー信号のパワーF12が閾値を下回り、受信信号がないとみなした場合、ステップS92にて、第1のエコー抑圧処理後信号のパワーB13を閾値D17により判定し、閾値を下回る場合には送話信号がないとみなし、ステップS93にて、通話状態Cに「発話なし」状態を示す値を格納する。一方、閾値を上回る場合には、送話信号があるとみなし、ステップS94にて、通話状態Cに「シングルトーク送話」状態を格納する。 If it is determined in step S91 that the power B12 of the received signal and the power F12 of the estimated echo signal are below the threshold and there is no received signal, the power B13 of the first echo-suppressed signal is set to the threshold D17 in step S92. If it falls below the threshold value, it is considered that there is no transmission signal, and a value indicating the “no utterance” state is stored in the call state C in step S93. On the other hand, if it exceeds the threshold, it is considered that there is a transmission signal, and the “single talk transmission” state is stored in the call state C in step S94.
ステップS91にて、受信信号のパワーB12と推定エコー信号のパワーF12のどちらか(または両方)が閾値を上回り、受信信号があるとみなした場合、ステップS95にて、第1のエコー抑圧処理後信号のパワーB13を閾値D17により判定し、閾値を下回る場合には送話信号がないとみなし、ステップS96にて、通話状態Cに「シングルトーク受話」状態を示す値を格納する。一方、閾値を上回る場合には、送話信号があるとみなし、ステップS97にて、通話状態Cに「ダブルトーク」状態を示す値を格納する。 If it is determined in step S91 that either (or both) the power B12 of the received signal and the power F12 of the estimated echo signal exceed the threshold and there is a received signal, after the first echo suppression process in step S95 The signal power B13 is determined based on the threshold value D17, and if it is below the threshold value, it is considered that there is no transmission signal, and a value indicating the “single talk reception” state is stored in the call state C in step S96. On the other hand, if it exceeds the threshold, it is considered that there is a transmission signal, and a value indicating the “double talk” state is stored in the call state C in step S97.
ここで、上記閾値F27は、忘却係数βを含めて設定する。忘却係数βは、次の処理セグメント(時間T0)までのパワーの減衰率を示すものである。また、音速とスピーカー・マイク間距離から、マイクに収音されるまでの時間(T1)が求められる。このとき、ある処理セグメントで収音された音響エコーのパワーは、次の処理セグメントで収音される際には、βT1/T0倍に減衰し、βT1/T0×音響エコーのパワーF12となるため、これが無音か否かを判定する。よって、音響エコーのパワーF12の判定閾値F27は、無音と判断できるパワーをP0[dB]としたとき、P0をβT1/T0で除した値P0/βT1/T0とする。 Here, the threshold value F27 is set including the forgetting factor β. The forgetting factor β indicates the power attenuation rate up to the next processing segment (time T0). Further, the time (T1) until sound is picked up by the microphone is obtained from the sound speed and the distance between the speaker and the microphone. At this time, the power of the acoustic echo collected in one processing segment is attenuated by β T1 / T0 times when it is collected in the next processing segment, and β T1 / T0 × acoustic echo power F12 Therefore, it is determined whether this is silent. Accordingly, the determination threshold value F27 of the acoustic echo power F12 is set to a value P 0 / β T1 / T0 obtained by dividing P 0 by β T1 / T0, where P 0 [dB] is the power that can be determined as silence.
以上の構成によって、受信信号のパワーが小さく、エコー信号のパワーが大きい場合であっても、通話状態を精度よく判定し、通話状態に関わらず適切にエコー成分を抑圧できるようにしたエコー抑圧装置を提供することができる。 With the above configuration, an echo suppressor that can accurately determine the call state and appropriately suppress the echo component regardless of the call state even when the received signal power is low and the echo signal power is high. Can be provided.
〔実施の形態3〕
通話状態判定部で「発話なし」状態、又は「シングルトーク受話」状態と判定した場合は、送話信号がないと判定したことと同等であり、収音されている信号は雑音やエコー信号であり、不要な情報である。
[Embodiment 3]
If the call state determination unit determines that there is no utterance or single talk reception, it is equivalent to determining that there is no transmission signal, and the collected signal is a noise or echo signal. Yes, unnecessary information.
そこで、第3の実施の形態において、通話状態が「発話なし」状態又は「シングルトーク受話」状態と判定された場合には、遠隔地へ送信する信号をゼロとする方法について、図10を用いて説明する。 Therefore, in the third embodiment, when the call state is determined as the “no utterance” state or the “single talk reception” state, FIG. 10 is used as a method of setting the signal to be transmitted to the remote place to zero. I will explain.
図10のエコー抑圧装置においては、第1の実施の形態の後段処理部113の代わりに、後段処理部101が用いられている。後段処理部101は、出力処理部114の代わりに、エコー抑圧信号処理部102が用いられている。それ以外の構成については、実施の形態1と同様である。
In the echo suppression apparatus of FIG. 10, a
それぞれの処理部における動作を説明する。通話状態判定部112は、処理セグメントでの通話状態を判定する。判定方法は、実施の形態1・2のどちらの方法でもよい。
The operation in each processing unit will be described. The call
通話状態判定部112で判定された通話状態が「シングルトーク受話」状態の場合、音響結合量保存処理部115は、第1のエコー抑圧処理部190で推定された音響結合量B17をB18として保存する。次に、エコー抑圧信号処理部102は、後段処理部101の出力信号B6をゼロとする。
When the call state determined by the call
通話状態判定部112で判定された通話状態が「シングルトーク送話」状態の場合、出力処理部114は、第1のエコー抑圧処理部190の出力信号B16を後段処理部101の出力信号B6とする。
When the call state determined by the call
通話状態判定部112で判定された通話状態が「ダブルトーク」状態の場合、第2のエコー抑圧処理部115は受信信号パワースペクトルB8と収音信号パワースペクトルB9と音響結合量保存処理部115に保存されている音響結合量B18とを用いて、STSA推定に基づくエコー抑圧処理を実施し、B36を出力する。後段処理部101は、第2のエコー抑圧処理部の出力信号B36を後段処理部101の出力信号B6とする。
When the call state determined by the call
通話状態判定部112で判定された通話状態が上記3状態以外の場合、送話信号と受信信号の両方がない「発話なし」状態とみなし、エコー抑圧信号処理部102は、後段処理部101の出力信号B6をゼロとする。
When the call state determined by the call
以上の構成によって、「発話なし」状態、又は「シングルトーク受話」状態と判定した場合は、遠隔地に送信される信号がゼロとなるため、上記状態において、遠隔地に雑音やエコー信号が送信されないエコー抑圧装置を提供することができる。 With the above configuration, when it is determined that there is no utterance or single talk reception, the signal transmitted to the remote location is zero, so in this state, noise and echo signals are transmitted to the remote location. An echo suppression device that is not performed can be provided.
〔ソフトウェアによる実現例〕
エコー抑圧装置の各部は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。
[Example of software implementation]
Each unit of the echo suppression device may be realized by a logic circuit (hardware) formed in an integrated circuit (IC chip) or the like, or may be realized by software using a CPU (Central Processing Unit).
後者の場合、エコー抑圧装置は、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、上記プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、各部の機能が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。 In the latter case, the echo suppressor includes a CPU that executes instructions of a program that is software that realizes each function, a ROM (Read Only Memory) in which the program and various data are recorded so as to be readable by a computer (or CPU), or A storage device (these are referred to as “recording media”), a RAM (Random Access Memory) that expands the program, and the like are provided. Then, the function of each unit is achieved by the computer (or CPU) reading the program from the recording medium and executing it. As the recording medium, a “non-temporary tangible medium” such as a tape, a disk, a card, a semiconductor memory, a programmable logic circuit, or the like can be used. The program may be supplied to the computer via an arbitrary transmission medium (such as a communication network or a broadcast wave) that can transmit the program. The present invention can also be realized in the form of a data signal embedded in a carrier wave in which the program is embodied by electronic transmission.
本発明の第1の技術手段は、受信信号のパワースペクトルと、収音信号のパワースペクトルと、から、音響エコー信号のパワースペクトルと、受信信号のパワースペクトル、の比(以下、「音響結合量」という)を推定し、前記受信信号のパワースペクトルに、前記音響結合量を乗じてエコー信号のパワースペクトルを推定し、前記収音信号のパワースペクトルと、前記エコー信号のパワースペクトルと、からエコー抑圧ゲインを計算し、収音信号の短時間スペクトルに、前記エコー抑圧ゲインを乗じてエコー信号成分を取り除いた信号の短時間スペクトルを出力する、短時間スペクトル振幅推定に基づくエコー抑圧装置であって、前記受信信号のパワースペクトルと、前記収音信号のパワースペクトルと、を用いて、短時間スペクトル振幅推定に基づくエコー抑圧処理を行う第1のエコー抑圧処理部と、前記受信信号のパワースペクトルから、前記受信信号のパワーを計算する受信信号パワー計算部と、前記第1のエコー抑圧処理部から出力された信号から、前記第1のエコー抑圧処理部からの出力信号のパワーを計算するエコー抑圧処理部出力信号パワー計算部と、前記受信信号パワー計算部から出力されたパワーと、前記エコー抑圧処理部出力信号パワー計算部からの出力されたパワーと、から、通話状態を判定する通話状態判定部と、前記第1のエコー抑圧処理部から出力された信号と、前記収音信号のパワースペクトルと、前記通話状態判定部で判定された通話状態を入力とし、前記通話状態に応じた処理を行う後段処理部と、を有し、前記後段処理部は、前記通話状態判定部で、受信信号のみがある状態、又は、送話信号と受信信号の両方がない状態、又は、送話信号のみがある状態、と判定した場合には、前記第1のエコー抑圧処理部から出力された信号を操作し、この出力信号を後段処理部の出力信号とするエコー抑圧後信号処理部と、前記通話状態判定部で、受信信号のみがある状態と判定した場合には、前記第1のエコー抑圧処理部で推定した音響結合量を保存する音響結合量保存処理部と、前記通話状態判定部で、送話信号と受信信号の両方がある状態と判定した場合には、前記保存されている音響結合量と、前記受信信号のパワースペクトルと、前記収音信号のパワースペクトルと、を用いて短時間スペクトル振幅推定に基づくエコー抑圧処理を行い、この出力信号を後段処理部の出力信号とする第2のエコー抑圧処理部と、を具備する、ことを特徴とするものである。 According to the first technical means of the present invention, the ratio of the power spectrum of the acoustic echo signal and the power spectrum of the received signal (hereinafter referred to as “acoustic coupling amount”) from the power spectrum of the received signal and the power spectrum of the collected sound signal. And the echo signal power spectrum is estimated by multiplying the power spectrum of the received signal by the acoustic coupling amount, and an echo is obtained from the power spectrum of the collected sound signal and the power spectrum of the echo signal. An echo suppression device based on short-time spectrum amplitude estimation, which calculates a suppression gain and outputs a short-time spectrum of a signal obtained by multiplying the short-time spectrum of a collected signal by the echo suppression gain and removing an echo signal component. , Using the power spectrum of the received signal and the power spectrum of the collected sound signal, Output from a first echo suppression processing unit that performs echo suppression processing based on a constant, a received signal power calculation unit that calculates power of the received signal from the power spectrum of the received signal, and an output from the first echo suppression processing unit An echo suppression processing unit output signal power calculation unit for calculating the power of the output signal from the first echo suppression processing unit, the power output from the received signal power calculation unit, and the echo suppression processing A signal output from the first echo suppression processing unit; a power spectrum of the collected sound signal; and a power spectrum of the collected sound signal. A post-processing unit that receives the call state determined by the call state determination unit and performs processing according to the call state, and the post-processing unit includes the call state When the determination unit determines that there is only a received signal, or a state in which there is no transmission signal and a reception signal, or a state in which there is only a transmission signal, the first echo suppression processing unit When the signal processed by the echo suppression signal processing unit that uses the output signal as the output signal of the subsequent processing unit and the call state determination unit determines that there is only a received signal, When the acoustic coupling amount storage processing unit that stores the acoustic coupling amount estimated by the first echo suppression processing unit and the call state determination unit determine that both the transmission signal and the reception signal exist, Echo suppression processing based on short-time spectrum amplitude estimation is performed using the stored acoustic coupling amount, the power spectrum of the received signal, and the power spectrum of the collected sound signal. Output signal And a second echo suppression processing unit.
第2の技術手段は、第1の技術手段であって、前記通話状態判定部は、前記受信信号パワー計算部から出力された受信信号のパワーと、前記エコー抑圧処理部出力信号パワー計算部から出力された第1のエコー抑圧処理部の出力信号のパワーと、を閾値によって判定し、通話状態を判定することを特徴とするものである。 The second technical means is the first technical means, wherein the call state determining unit includes the power of the received signal output from the received signal power calculating unit and the output signal power calculating unit of the echo suppression processing unit. The power of the output signal of the first echo suppression processing unit that has been output is determined based on a threshold value, and the call state is determined.
第3の技術手段は、第1の技術手段であって、前記通話状態判定部は、前記受信信号パワー計算部から出力された受信信号のパワーと、前記エコー抑圧処理部出力信号パワー計算部から出力された第1のエコー抑圧処理部の出力信号のパワーと、前記第1のエコー抑圧処理部、または、前記第2のエコー抑圧処理部で推定したエコー信号のパワーと、を閾値によって判定し、通話状態を判定することを特徴とするものである。 The third technical means is the first technical means, wherein the call state determination unit is configured to receive the power of the reception signal output from the reception signal power calculation unit and the output signal power calculation unit of the echo suppression processing unit. The output power of the output signal of the first echo suppression processing unit and the power of the echo signal estimated by the first echo suppression processing unit or the second echo suppression processing unit are determined by a threshold. The call state is determined.
第4の技術手段は、第1の技術手段であって、前記後段処理部は、前記通話状態判定部で、受信信号のみがある状態、または、送話信号と受信信号の両方がない状態と判定した場合には、前記エコー抑圧後信号処理部にて、前記第1のエコー抑圧処理部から出力された音声信号を前記後段処理部の出力信号とすることを特徴とするものである。 The fourth technical means is the first technical means, and the post-processing unit is a state where there is only a received signal, or a state where there is neither a transmitted signal nor a received signal, in the call state determining unit. If it is determined, the post-echo suppression signal processing unit uses the audio signal output from the first echo suppression processing unit as the output signal of the subsequent processing unit.
第5の技術手段は、第1の技術手段であって、前記後段処理部は、前記通話状態判定部で、受信信号のみがある状態、または、送話信号と受信信号の両方がない状態と判定した場合には、前記エコー抑圧後信号処理部にて、前記後段処理部の出力信号をゼロとすることを特徴とするものである。 A fifth technical means is the first technical means, wherein the post-processing unit is a state where there is only a reception signal, or a state where there is no transmission signal and no reception signal, in the call state determination unit. If it is determined, the post-echo suppression signal processing unit sets the output signal of the post-processing unit to zero.
本発明は、例えば、TV会議システムに好適である。 The present invention is suitable for a TV conference system, for example.
190 第1のエコー抑圧処理部
116 第2のエコー抑圧処理部
112 通話状態判定部
115 音響結合量保存処理部
114 出力処理部
120 スピーカ(発音装置)
130 マイクロフォン(収音装置)
190 First Echo
130 Microphone (sound collecting device)
Claims (7)
受信信号のパワースペクトルおよび収音信号のパワースペクトルに基づいて受信信号のパワースペクトルとエコー信号のパワースペクトルとの比である音響結合量を推定するとともに該音響結合量を用いて収音信号からエコー信号の少なくとも一部を取り除いた第1のエコー抑圧信号を生成する第1のエコー抑圧処理部と、
受信信号のパワーおよび第1のエコー抑圧信号のパワーを用いて通話状態を判定する通話状態判定部と、
上記通話状態判定部が受信のみの状態と判定したときの上記音響結合量を保存する音響結合量保存処理部と、
上記通話状態判定部が受信および送信の状態と判定したときに、音響結合量保存処理部に保存された音響結合量を用いて収音信号からエコー信号の少なくとも一部を取り除いた第2のエコー抑圧信号を生成する第2のエコー抑圧処理部とを備えることを特徴とするエコー抑圧装置。 Used with sound generators and sound collectors that generate sound in response to signals received from the communication path, and by applying a process based on short-time spectral amplitude estimation to the collected sound signals obtained via the sound collector. An echo suppressor that generates a signal for transmission,
Based on the power spectrum of the received signal and the power spectrum of the collected sound signal, an acoustic coupling amount that is a ratio between the power spectrum of the received signal and the power spectrum of the echo signal is estimated, and an echo is generated from the collected sound signal using the acoustic coupling amount. A first echo suppression processing unit for generating a first echo suppression signal from which at least part of the signal is removed;
A call state determination unit that determines a call state using the power of the received signal and the power of the first echo suppression signal;
An acoustic coupling amount storage processing unit that stores the acoustic coupling amount when the call state determination unit determines that the state is a reception-only state;
A second echo obtained by removing at least a part of the echo signal from the collected sound signal using the acoustic coupling amount stored in the acoustic coupling amount storage processing unit when the call state determination unit determines that the state is the reception and transmission state An echo suppression apparatus comprising: a second echo suppression processing unit that generates a suppression signal.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014097864A JP2015216492A (en) | 2014-05-09 | 2014-05-09 | Echo suppression device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014097864A JP2015216492A (en) | 2014-05-09 | 2014-05-09 | Echo suppression device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015216492A true JP2015216492A (en) | 2015-12-03 |
Family
ID=54753001
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014097864A Pending JP2015216492A (en) | 2014-05-09 | 2014-05-09 | Echo suppression device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2015216492A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113327625A (en) * | 2021-05-13 | 2021-08-31 | 瑞芯微电子股份有限公司 | Echo suppression method, judgment method, medium and signal transceiving equipment |
-
2014
- 2014-05-09 JP JP2014097864A patent/JP2015216492A/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113327625A (en) * | 2021-05-13 | 2021-08-31 | 瑞芯微电子股份有限公司 | Echo suppression method, judgment method, medium and signal transceiving equipment |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10891931B2 (en) | Single-channel, binaural and multi-channel dereverberation | |
US11315587B2 (en) | Signal processor for signal enhancement and associated methods | |
US9640194B1 (en) | Noise suppression for speech processing based on machine-learning mask estimation | |
US9558755B1 (en) | Noise suppression assisted automatic speech recognition | |
US10115411B1 (en) | Methods for suppressing residual echo | |
US8761410B1 (en) | Systems and methods for multi-channel dereverberation | |
CN109087663A (en) | signal processor | |
US11245788B2 (en) | Acoustic echo cancellation based sub band domain active speaker detection for audio and video conferencing applications | |
JP2018528717A (en) | Adaptive block matrix with pre-whitening for adaptive beamforming | |
CN103546839B (en) | Audio signal processing and its echo signal minimizing technology | |
CN110211602B (en) | Intelligent voice enhanced communication method and device | |
US9343073B1 (en) | Robust noise suppression system in adverse echo conditions | |
US11380312B1 (en) | Residual echo suppression for keyword detection | |
JP6422885B2 (en) | Echo suppression | |
US20200286501A1 (en) | Apparatus and a method for signal enhancement | |
CN111756906B (en) | Echo suppression method and device for voice signal and computer readable medium | |
CN109215672B (en) | Method, device and equipment for processing sound information | |
JP2011065128A (en) | Reverberation removing device | |
CN110148421B (en) | Residual echo detection method, terminal and device | |
CN116705045B (en) | Echo cancellation method, apparatus, computer device and storage medium | |
WO2017045512A1 (en) | Voice recognition method and apparatus, terminal, and voice recognition device | |
CN114302286A (en) | Method, device and equipment for reducing noise of call voice and storage medium | |
JP2015216492A (en) | Echo suppression device | |
KR20220157475A (en) | Echo Residual Suppression | |
KR102012522B1 (en) | Apparatus for processing directional sound |