JP2013012841A - Echo canceller, and method and program therefor - Google Patents
Echo canceller, and method and program therefor Download PDFInfo
- Publication number
- JP2013012841A JP2013012841A JP2011143121A JP2011143121A JP2013012841A JP 2013012841 A JP2013012841 A JP 2013012841A JP 2011143121 A JP2011143121 A JP 2011143121A JP 2011143121 A JP2011143121 A JP 2011143121A JP 2013012841 A JP2013012841 A JP 2013012841A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- delay
- frame
- echo
- reproduction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Telephone Function (AREA)
Abstract
Description
本発明は、収音信号に含まれる反響信号を用いて再生信号の遅延量を推定し、反響信号を消去する技術に関する。 The present invention relates to a technique for estimating a delay amount of a reproduction signal using an echo signal included in a collected sound signal and deleting the echo signal.
ハンズフリーによる双方向通話を行う際に、エコー消去装置が通常用いられる。エコー消去装置では、スピーカへ出力する再生信号を参照信号として用い、部屋の反響特性を模擬したフィルタリングを行い、疑似反響信号を生成し、疑似反響信号をマイクロホンの収音信号から差し引くことでエコーを消去する。 An echo canceller is usually used when performing a hands-free two-way call. The echo canceller uses the playback signal output to the speaker as a reference signal, performs filtering that simulates the echo characteristics of the room, generates a pseudo echo signal, and subtracts the echo signal from the microphone's sound collection signal to generate an echo. to erase.
フィルタリングを行う際に用いる適応フィルタの更新アルゴリズムの一つとしてNormalized Least Mean Square(NLMS)アルゴリズムが知られている(非特許文献1参照)。このアルゴリズムはエコー消去装置においても最も頻繁に使われるものの一つである。 A Normalized Least Mean Square (NLMS) algorithm is known as one of the adaptive filter update algorithms used for filtering (see Non-Patent Document 1). This algorithm is one of the most frequently used echo cancellers.
通常は、このNLMSアルゴリズムによってエコー消去が可能である。しかし、スピーカの再生信号からマイクロホンの収音信号までの遅延が長大である場合、反響信号の到達時間が適応フィルタのタップ長よりも長くなり、適応フィルタは反響路を模擬できず、エコー消去量が大幅に低下することがある。また、長大な遅延に対応するために適応フィルタのタップ長を長大に設定する方法も考えられるが、その場合、適応フィルタにおける演算量が非常に大きくなってしまう。 Normally, echo cancellation is possible with this NLMS algorithm. However, when the delay from the playback signal of the speaker to the sound pickup signal of the microphone is long, the arrival time of the echo signal becomes longer than the tap length of the adaptive filter, and the adaptive filter cannot simulate the echo path, and the echo cancellation amount May drop significantly. Also, a method of setting the tap length of the adaptive filter to be long in order to cope with a long delay can be considered, but in this case, the amount of calculation in the adaptive filter becomes very large.
遅延が長大となる例として、家庭用ディジタルTVを用いてTV会議システムを構築する場合等がある。家庭用ディジタルTVにおいて、入力された映像と音声の同期を取る必要があるため、映像の表示にかかる時間だけ音声の出力が遅くなることがある。こういった機器にエコー消去装置を接続してハンズフリー通話を行う場合、スピーカの再生信号からマイクロホンの収音信号に含まれる反響信号の間の遅延がかなり大きなものになる。 As an example of a long delay, there is a case where a TV conference system is constructed using a home digital TV. In home digital TV, since it is necessary to synchronize the input video and audio, the output of the audio may be delayed by the time required to display the video. When an echo canceller is connected to such a device to perform a hands-free call, the delay between the reproduction signal of the speaker and the echo signal included in the sound pickup signal of the microphone becomes considerably large.
そのため、部屋の残響に対応するための短いサイズのメモリしか持たない一般のエコー消去装置では、エコーを全く消去することができない、または、エコーの消去量が不十分となる。また、メモリサイズを大きくすればエコーを消去することが可能にはなるが、非常に長いフィルタの計算をしなければならず、演算量が非常に多くかかりフィルタの推定速度も著しく低下する。加えて、製品毎に遅延量は様々なため、予め固定値を指定しておくことができない。 For this reason, a general echo canceling apparatus having only a short-sized memory for coping with the reverberation of the room cannot cancel the echo at all, or the amount of canceling the echo becomes insufficient. Further, if the memory size is increased, echoes can be eliminated. However, a very long filter must be calculated, the calculation amount is very large, and the filter estimation speed is significantly reduced. In addition, since the amount of delay varies for each product, a fixed value cannot be designated in advance.
本発明は、反響信号を用いて再生信号の遅延量を推定し、反響信号を消去する技術を提供することを目的とする。 An object of the present invention is to provide a technique for estimating a delay amount of a reproduction signal using an echo signal and eliminating the echo signal.
上記の課題を解決するために、本発明の第一の態様によれば、時間領域のディジタル再生信号のある離散時刻tから始まる連続するr個(但し、rは複数)のサンプルによる列をフレーム再生信号として求め、時間領域のディジタル収音信号の離散時刻tを含む互いに異なる複数の時刻それぞれから始まる連続するr個のサンプルによる列それぞれをフレーム収音信号として求め、フレーム再生信号を周波数領域信号に変換して周波数領域再生信号として求め、複数のフレーム収音信号それぞれを周波数領域信号に変換して複数の周波数領域収音信号として求め、周波数領域再生信号と複数の周波数領域収音信号それぞれとの類似性の指標を算出し、算出した類似性の指標が周波数領域再生信号と周波数領域収音信号との類似性が最も高くなることを示す、周波数領域再生信号と周波数領域収音信号が対応する時刻の差を遅延値として求め、遅延値に基づき再生信号を遅延させ、遅延された再生信号を用いて、収音信号から反響信号を消去する。 In order to solve the above problem, according to the first aspect of the present invention, a sequence of r samples (where r is a plurality) starting from a discrete time t of a digital reproduction signal in the time domain is framed. Obtained as a reproduced signal, a sequence of r consecutive samples starting from a plurality of different times including the discrete time t of the digitally collected signal in the time domain is obtained as a frame collected signal, and the frame reproduced signal is obtained as a frequency domain signal. Converted into a frequency domain reproduction signal, and each of the plurality of frame sound collection signals is converted into a frequency domain signal and obtained as a plurality of frequency domain sound collection signals. The similarity index is calculated so that the similarity between the frequency domain reproduction signal and the frequency domain sound collection signal is the highest. The difference between the time corresponding to the frequency domain reproduction signal and the frequency domain sound collection signal is obtained as a delay value, and the reproduction signal is delayed based on the delay value, and the delayed reproduction signal is used to reflect from the sound collection signal. Clear the signal.
上記の課題を解決するために、本発明の第一の態様によれば、時間領域のディジタル収音信号のある離散時刻tから始まる連続するr個(但し、rは複数)のサンプルによる列をフレーム収音信号として求め、時間領域のディジタル再生信号の離散時刻tを含む互いに異なる複数の時刻それぞれから始まる連続するr個のサンプルによる列それぞれをフレーム再生信号として求め、フレーム収音信号を周波数領域信号に変換して周波数領域収音信号として求め、複数のフレーム再生信号それぞれを周波数領域信号に変換して複数の周波数領域再生信号として求め、周波数領域収音信号と複数の周波数領域再生信号それぞれとの類似性の指標を算出し、算出した類似性の指標が周波数領域収音信号と周波数領域再生信号との類似性が最も高くなることを示す、周波数領域収音信号と周波数領域再生信号が対応する時刻の差を遅延値として求め、遅延値に基づき再生信号を遅延させ、遅延された再生信号を用いて、再生信号から反響信号を消去する。 In order to solve the above problems, according to the first aspect of the present invention, a sequence of r samples (where r is a plurality) starting from a discrete time t of a digital sound pickup signal in the time domain is provided. Obtained as a frame sound collection signal, a sequence of r consecutive samples starting from a plurality of different times including the discrete time t of the digital reproduction signal in the time domain is obtained as a frame reproduction signal, and the frame sound collection signal is obtained in the frequency domain. The signal is converted into a signal and obtained as a frequency domain sound collection signal, and each of the plurality of frame reproduction signals is converted into a frequency domain signal and obtained as a plurality of frequency domain reproduction signals. The similarity index is calculated so that the similarity between the frequency domain collected signal and the frequency domain reproduction signal is the highest. The difference between the time corresponding to the frequency domain sound pickup signal and the frequency domain reproduction signal is obtained as a delay value, the reproduction signal is delayed based on the delay value, and the delayed reproduction signal is used to generate an echo signal from the reproduction signal. Erase.
上記の課題を解決するために、本発明の第三の態様によれば、時間領域のディジタル再生信号のある離散時刻tから始まる連続するr個(rは複数)のサンプルによる列をフレーム再生信号として求め、時間領域のディジタル収音信号の離散時刻tを含む互いに異なる複数の時刻それぞれから始まる連続するr個のサンプルによる列それぞれをフレーム収音信号として求め、フレーム再生信号と複数のフレーム収音信号それぞれとの類似性の指標を算出し、算出した類似性の指標がフレーム再生信号とフレーム収音信号との類似性が最も高くなることを示す、フレーム再生信号とフレーム収音信号が対応する時刻の差を遅延値として求め、遅延値に基づき再生信号を遅延させ、遅延された再生信号を用いて、収音信号から反響信号を消去する。 In order to solve the above problem, according to a third aspect of the present invention, a sequence of r (r is a plurality of) samples starting from a discrete time t of a digital reproduction signal in the time domain is used as a frame reproduction signal. As a frame sound pickup signal, each column of r consecutive samples starting from a plurality of different times including the discrete time t of the digital sound pickup signal in the time domain is obtained as a frame sound pickup signal. A similarity index with each signal is calculated, and the calculated similarity index indicates that the similarity between the frame reproduction signal and the frame sound collection signal is the highest, and the frame reproduction signal and the frame sound collection signal correspond to each other. The time difference is obtained as a delay value, the reproduction signal is delayed based on the delay value, and the echo signal is erased from the collected sound signal using the delayed reproduction signal.
上記の課題を解決するために、本発明の第四の態様によれば、収音信号に含まれる反響信号を用いて再生信号の遅延量を推定する。時間領域の再生信号と時間領域の収音信号との相関値を、収音信号のフレーム番号とサンプル番号を変化させながら各フレームの各サンプルに対して求め、相関値が最大となるときの収音信号のフレーム番号とサンプル番号を用いて、遅延値を算出し遅延値に基づき再生信号を遅延させ、遅延された再生信号を用いて、収音信号から反響信号を消去する。 In order to solve the above problem, according to the fourth aspect of the present invention, the delay amount of the reproduction signal is estimated using the echo signal included in the collected sound signal. The correlation value between the time domain playback signal and the time domain sound collection signal is obtained for each sample of each frame while changing the frame number and sample number of the sound collection signal, and the correlation value is maximized. A delay value is calculated using the frame number and sample number of the sound signal, the reproduction signal is delayed based on the delay value, and the echo signal is erased from the collected sound signal using the delayed reproduction signal.
上記の課題を解決するために、本発明の第五の態様によれば、収音信号に含まれる反響信号を用いて再生信号の遅延量を推定する。周波数領域の再生信号と周波数領域の収音信号とを用いて、収音信号のフレーム番号を変化させながら、各フレームの各サンプルに対して相関値を求め、相関値が最大となるときの収音信号のフレーム番号とサンプル番号を用いて、遅延値を算出し遅延値に基づき再生信号を遅延させ、遅延された再生信号を用いて、収音信号から反響信号を消去する。 In order to solve the above problem, according to the fifth aspect of the present invention, the delay amount of the reproduction signal is estimated using the echo signal included in the collected sound signal. Using the playback signal in the frequency domain and the collected sound signal in the frequency domain, the correlation value is obtained for each sample of each frame while changing the frame number of the collected sound signal. A delay value is calculated using the frame number and sample number of the sound signal, the reproduction signal is delayed based on the delay value, and the echo signal is erased from the collected sound signal using the delayed reproduction signal.
本発明は、反響信号を用いて再生信号の遅延量を推定することができ、メモリサイズ及び演算量の増加させることなく、反響信号を消去できるという効果を奏する。 The present invention can estimate the delay amount of the reproduction signal using the echo signal, and has the effect of eliminating the echo signal without increasing the memory size and the calculation amount.
以下、本発明の実施形態について、説明する。 Hereinafter, embodiments of the present invention will be described.
<第一実施形態に係る遅延推定装置100>
第一実施形態に係るエコー消去装置は、遅延推定装置100とエコー消去部90とを含む。エコー消去部90は従来技術を用いてエコーを消去すればよいので、主に、図1及び図2を用いて第一実施形態に係る遅延推定装置100を説明する。遅延推定装置100は遅延推定部110と信号蓄積部180とを含む。
<Delay Estimation Device 100 According to First Embodiment>
The echo cancellation apparatus according to the first embodiment includes a delay estimation apparatus 100 and an
遅延推定部110は、時間領域のディジタル収音信号(以下、単に「収音信号」という)y(n)と時間領域のディジタル再生信号(以下、単に「再生信号」または「受話信号」という)x(n)とを受け取り、収音信号y(n)に含まれる反響信号を用いて再生信号x(n)の遅延量を推定する(s110)。ここで、nはディジタル信号のサンプル番号を表し、例えばサンプリング周波数が48000Hzの信号の場合、nは48000分の1秒ごとに1増える値である。
The
信号蓄積部180は、推定された遅延量(以下「遅延推定値」destに応じて、再生信号x(n)を遅延させて、出力する(s180)。
The
エコー消去部90は、遅延された再生信号を用いて、収音信号y(n)から反響信号を消去し(s90)、送話信号e(n)を送話端4に出力する。
The
ここで、収音信号y(n)はマイクロホン3により収音されるディジタル信号であり、再生信号x(n)はスピーカ22で再生されるディジタル信号である。nはサンプル番号またはそのサンプルに対応する時刻を示す。
Here, the collected sound signal y (n) is a digital signal collected by the
同一空間内にスピーカ22とマイクロホン3とが存在する場合、スピーカ22とマイクロホン3との間には音響的な伝達経路である反響路h(n)が生じる。再生音がこの反響路h(n)を介してマイクロホン3により収音される。マイクロホン3で収音される音の内、スピーカ22の再生音に起因する音を反響音といい、反響音に起因する信号を反響信号という。よって、収音信号には反響信号が含まれる。遅延推定装置100は、この反響信号を利用して遅延量を推定する。
When the
遅延推定装置100は、受話端1を介して、再生信号x(n)を受信する。なお、再生装置2も再生信号x(n)を受信する。再生装置2は、例えば、家庭用ディジタルTVであり、図示しない映像データも受信する。遅延部21において、再生信号と映像データとの同期を取る。その際、映像データの表示にかかる時間だけ再生信号の出力を遅くする。スピーカ22は、同期後の再生信号を受信し、再生する。再生音は、反響路h(t)を介してマイクロホン3により収音される。マイクロホン3は収音信号y(n)を遅延推定装置100及びエコー消去部90に出力する。なお、同期後の映像データは図示しない表示部に表示される。
The delay estimation apparatus 100 receives the reproduction signal x (n) via the receiving
以下、各部の詳細を説明する。 Details of each part will be described below.
<遅延推定部110>
図3及び図4を用いて遅延推定部110を説明する。遅延推定部110は、フレーム化部111と、ベクトル化部112と、無音区間判定部113と、相関値算出部115と、遅延値算出部117と、遅延出力部119とを含む。
<Delay
The
(フレーム化部111)
フレーム化部111は、時間領域のディジタル再生信号x(n)を受け取り、ある離散時刻tから始まる連続するr個(rは複数)のサンプルによる列をフレーム化し(s111)、フレーム単位の再生信号xmをベクトル化部112に出力する。以下ではr=2L(Lは正の整数)として説明する。なお、mはフレーム番号及びそのフレーム番号に対応する時刻(以下「フレーム時刻」という)を表す。
(Frame unit 111)
The framing
同様に、フレーム化部111は、時間領域のディジタル収音信号y(n)を受け取り、前記離散時刻tを含む互いに異なる複数の時刻それぞれから始まる連続するr個のサンプルによる列をフレーム化し、フレーム単位の収音信号ymを無音区間判定部113に出力する。以下では、L個のサンプルに相当する時刻ずつずらした複数の時刻それぞれから始まる連続する2L個のサンプルによる列をフレーム化するものとして説明する。例えば以下のようにフレーム化する。
xm=[x(mL-2L+1),x(mL-2L+2),…,x(mL)]T
ym=[y(mL-2L+1),y(mL-2L+2),…,y(mL)]T
なお、・Tは行列・の転置行列を表す。
Similarly, the framing
x m = [x (mL-2L + 1), x (mL-2L + 2), ..., x (mL)] T
y m = [y (mL-2L + 1), y (mL-2L + 2), ..., y (mL)] T
Note that • T represents a transposed matrix of a matrix.
(ベクトル化部112)
ベクトル化部112は、フレーム単位の再生信号xmを受け取り、再生信号xmの前半L個を切り出して、ベクトル
x'm T=[x(mL-2L+1),x(mL-2L+2),…,x(mL-L)]
を生成し(s112)、無音区間判定部113と相関値算出部115に出力する。
(Vectorizer 112)
x ' m T = [x (mL-2L + 1), x (mL-2L + 2), ..., x (mL-L)]
(S112) and output to the silent
(無音区間判定部113)
無音区間判定部113は、再生信号xmを用いて、再生信号xmが無音区間か否かを判定する(s113a)。例えば、無音区間判定部113は、再生信号xmから得られるベクトルx’mを受け取り、ベクトルx’mのパワー||x’m||2を算出し、閾値Tx以上か否かを判定する。なお、||・||は・のL2ノルムを表す。閾値Tx以上の場合には、無音区間ではないと判定し、閾値Tx未満の場合には、無音区間であると判定する。無音区間判定部113は、パワー||x’m||2が閾値Tx以上の場合、そのときのmをm0として相関値算出部115に出力する(s113b)。閾値Txは再生信号に含まれるノイズの影響を小さくするために用いる。無音か小さな声では閾値Txを下回り、通常の音量の音声で閾値Txを超えるように閾値Txを設定する。
(Silent section determination unit 113)
Silent
なお、閾値Tx未満の場合には、次の再生信号x(n)と収音信号y(n)を受け取り、フレーム化処理(s111)、ベクトル化処理(s112)、無音区間判定処理(s113a)を繰り返す。 If it is less than the threshold T x , the next reproduction signal x (n) and the collected sound signal y (n) are received, the framing process (s111), the vectorization process (s112), and the silent section determination process (s113a). )repeat.
受け取った全ての再生信号x(n)と収音信号y(n)に対して、相関値算出部115以降の処理を行ってもよいが、通常反響音はある程度大きな再生音の場合に生じるので、そのような場合にのみ遅延量を推定すれば十分効果を得ることができる。よって、このように無音区間判定部113において、無音区間でないと判定されたフレームに対してのみ、以降の処理を行うことで、演算量を減らすことができる。
The processing after the correlation
(相関値算出部115)
相関値算出部115は、再生信号x’m Tと収音信号ymとを受け取り、その相関値cf(n)を、収音信号ymのフレーム番号とサンプル番号を変化させながら、各フレームmの各サンプルnに対して算出する(s115)。
(Correlation value calculation unit 115)
The correlation
図5を用いて相関値算出部115の処理内容をより詳細に説明する。例えば、相関値算出部115は、無音区間ではないと判定したフレーム番号m0を受け取り、以下のベクトル
The processing content of the correlation
を定義する(s115a)。ここで0nはn個の0が並んだベクトルを表す。さらに、以下の式により、フレームmのn番目のサンプルの相関値cf(n)を算出する(s115c)。 Is defined (s115a). Here, 0 n represents a vector in which n 0s are arranged. Further, the correlation value c f (n) of the nth sample of the frame m is calculated by the following equation (s115c).
但し、DFを想定する最大遅延をフレーム数で表したものとし、m0≦m≦m0+DF−1とし、f=m−m0とする(s115b)。よって、0≦f≦DF−1である。なお、x^m(i)、y^m(i)はそれぞれベクトルx^m、y^mのi番目の要素を表し、記号^は直前の文字の頭上に附されるものとする。図6に示すように、式(3)において、nの値を0からL−1に変化させ(s115b、s115d,s115e)、ベクトルx^m=[x’m0 T](但し、下付き文字m0はm0を表す)と収音信号y^m=[ym(1+n),…,ym(L+n)]の相関値を算出する(s115c)。さらにフレーム番号mを、m0からm0+DF−1まで変化させ(図4のs113b、図5のs115f、s115g)、各フレームmの各サンプルn毎の相関値cf(n)を算出する。言い換えると、フレーム時刻が1フレーム進む毎に、つまりmが1増えるごとに、x^mは一定の値(式(1)及び図6参照、x^mはm0のときの値から変化しない)を保持するのに対し、y^mは値が変化するため(式(2)及び図6参照、y^mはフレーム時刻mに応じて変化し、さらにサンプル番号nも変化する)、その時間差の異なる信号との相関を順に取っていく。想定する最大遅延をDsサンプル(例えば、サンプリング周波数を16kHzとし、最大遅延を200msと想定したとき、Ds=3200である)としたとき、(m−m0)L>Dsとなるm=m1=m0+DF-1までcfを計算する(つまり、m0≦m≦m1=m0+DF-1)。 However, the maximum delay assuming DF is represented by the number of frames, m 0 ≦ m ≦ m 0 + D F −1, and f = m−m 0 (s115b). Therefore, 0 ≦ f ≦ D F −1. Note that x ^ m (i) and y ^ m (i) represent the i-th elements of the vectors x ^ m and y ^ m , respectively, and the symbol ^ is attached to the head of the immediately preceding character. As shown in FIG. 6, in the formula (3), by changing the value of n from 0 to L-1 (s115b, s115d, s115e), the vector x ^ m = [x 'm0 T] ( where subscript m0 represents m 0) and the picked-up signal y ^ m = calculates the correlation values of [y m (1 + n) , ..., y m (L + n)] (s115c). Further, the frame number m is changed from m 0 to m 0 + D F −1 (s113b in FIG. 4, s115f and s115g in FIG. 5), and a correlation value c f (n) for each sample n in each frame m is calculated. To do. In other words, for each frame time increases one frame, i.e. every time m is increased 1, x ^ m is a constant value (equation (1) and refer to FIG. 6, x ^ m does not change from the value when the m 0 ) Is held, but the value of y ^ m changes (see equation (2) and FIG. 6, y ^ m changes according to the frame time m, and the sample number n also changes). The correlation with signals with different time differences is taken in order. When the assumed maximum delay is D s samples (for example, assuming that the sampling frequency is 16 kHz and the maximum delay is 200 ms, D s = 3200), m satisfying (m−m 0 ) L> D s Cf is calculated up to = m 1 = m 0 + D F −1 (that is, m 0 ≦ m ≦ m 1 = m 0 + D F −1).
相関値算出部115は、式(3)を用いて、DF×L個の相関値cf(n)を算出し、算出した相関値の中で最大の相関値となるときのフレーム番号をfmaxとし、最大の相関値となるときのサンプル番号をnmaxとして遅延値算出部117に出力する(図7参照)。
The correlation
上記では、式(3)の相関値で説明を行ったが、相関値に限らず再生信号からなるサンプル列と収音信号からなるサンプル列との類似性の指標を表すものであればよい。この観点から相関値算出部を類似性算出部と呼んでもよい。 In the above description, the correlation value of the expression (3) has been described. From this viewpoint, the correlation value calculation unit may be called a similarity calculation unit.
(遅延値算出部117)
遅延値算出部117は、相関値が最大となるときの収音信号のフレーム番号fmaxとサンプル番号nmaxを受け取り、これを用いて、例えば以下の式により遅延値dmaxを算出し、遅延出力部119へ出力する(s117)。
(Delay value calculation unit 117)
The delay
言い換えると、遅延値算出部117は、相関値算出部115で算出した類似性の指標が最も高くなることを示す、再生信号からなるサンプル列と収音信号からなるサンプル列が対応する時刻の差を遅延値として求める。
In other words, the delay
(遅延出力部119)
遅延出力部119は、所定数の遅延値を受け取り、最も頻度の高い遅延値を遅延推定値として出力する(s119e)。
(Delay output unit 119)
The
例えば、遅延出力部119は、Dsの長さを持つ配列dhを用意し、0で初期化する(s119a)。遅延出力部119は、遅延値dmaxを受け取ると、配列dhのインデックスがdmax番目の要素の数を1増やす(s119b)。Tsum個の遅延値dmaxを取得するまで、上記処理(s111〜s117、s119b)を繰り返す(s119c、s119d)。このような処理を行うことで、配列dhは遅延推定値の候補のヒストグラムとなる。そして、Tsum個の遅延値dmaxを取得したとき(言い換えると、配列dhの要素の合計がTsumとなったとき)に、配列dhの全要素の中で一番大きな値をとる配列の要素を探索し、その要素のインデックスを遅延推定値destとして出力する(s119e)。Tsumはヒストグラムの最頻値が常に真値となるために必要な計算回数を表し、推定値のばらつき方によって数回から数十回分の計算を行うように設定する。このような構成とすることで、誤差によって遅延推定値がばらつくことを大幅に軽減できる。
For example, the
<信号蓄積部180>
信号蓄積部180は、遅延推定値destに応じて、再生信号x(n)を遅延させて、遅延再生信号x(n’)を出力する。例えば、信号蓄積部180は、信号格納部181と信号バッファ183と第一信号出力部185とを含む(図8、図9参照)。
<
The
信号バッファ183は長さDのサンプルを保持できるバッファである(D≧Dsであればよく、通常D=Dsとすればよい)。信号格納部181は、再生信号x(n)を受け取り、信号バッファ183上の古いサンプルから順に上書きする形で保存する(s181)。第一信号出力部185は、遅延推定値destを受け取り、この遅延推定値destに基づいて、現在のサンプルx(n)から数えてdest+2L-1サンプル古いものからdestサンプル古いものまで計2L個出力する(s185)。つまり、2L個の遅延再生信号x(n’)(但し、n−dest−2L+1)≦n’≦n−dest)を出力する。
The
<エコー消去部90>
エコー消去部90は、例えば、従来技術を用いてエコーを消去すればよい。エコー消去部90は、遅延再生信号x(n’)を用いて、収音信号y(n)から反響信号を消去し、送話信号e(n)を送話端4に出力する。再生信号x(n)ではなく、遅延再生信号x(n’)を用いる点が従来技術と異なるが、その他の点は従来技術と同様である。例えば、図10のようにエコー推定部を用い、非特許文献1記載の適応フィルタによって収音信号から疑似エコー信号を差し引いてエコー消去をする方法や、特許3420705号公報のように収音信号にエコー抑圧ゲインをかけてエコーを抑圧する方法がある。
<
The
例えば、図10に示すように、エコー消去部90は、エコー推定部91と減算部93を含む構成であってもよい。エコー推定部91において、非特許文献1記載の適応フィルタを用いて、遅延再生信号x(n’)により疑似反響信号y’(n)を生成する。次に、減算部93において収音信号y(n)から疑似反響信号y’(n)を差し引いてエコーを消去した送話信号e(n)を求め、出力する。なお、エコー推定部91は送話信号e(n)を受け取り、適応フィルタのフィルタ係数の更新の際に利用する。
For example, as shown in FIG. 10, the
<効果>
本実施形態は、遅延推定部において、反響信号を用いて再生信号の遅延量を推定することができる。さらに、信号蓄積部では、推定した遅延量に基づき、再生信号と遅延させて出力することができる。
<Effect>
In this embodiment, the delay estimation unit can estimate the delay amount of the reproduction signal using the echo signal. Further, the signal storage unit can output the reproduction signal with a delay based on the estimated delay amount.
エコー消去部において、遅延再生信号を用いて、エコーを消去することで、遅延の影響によるエコー消去部の性能劣化を、フィルタタップ長を増やさずに防ぐことができる。フィルタタップ長を増やさないので、演算量の増加を防ぐことができる。加えて、製品毎の遅延量を推定することができるため、製品毎に適切な遅延量を推定し、エコーを消去することができる。さらに、フレーム毎の処理のため、IP電話のようなパケット単位で処理するアプリケーションへの適用が容易である。 In the echo canceller, by using the delayed reproduction signal to cancel the echo, it is possible to prevent performance degradation of the echo canceller due to the delay effect without increasing the filter tap length. Since the filter tap length is not increased, an increase in the amount of calculation can be prevented. In addition, since the delay amount for each product can be estimated, it is possible to estimate an appropriate delay amount for each product and cancel the echo. Furthermore, since the processing is performed on a frame-by-frame basis, it is easy to apply to an application that processes in units of packets such as an IP phone.
なお、エコー消去装置の内部に上述した遅延推定装置を組込み、遅延再生信号を出力するのではなく、適応フィルタの開始位置を調整する構成としてもよい。遅延再生信号を出力する場合と同様に、必要な演算量を増加させることなく、エコー消去性能を維持することができる。なお、本実施形態では、一定長のフレーム単位でスピーカの再生信号とマイクロホンの収音信号の相関を計算し、各フレームの相関値の大小によって遅延量を柔軟に決定することができる。 Note that the delay estimation device described above may be incorporated in the echo canceller and the start position of the adaptive filter may be adjusted instead of outputting the delayed reproduction signal. As in the case of outputting the delayed reproduction signal, the echo cancellation performance can be maintained without increasing the amount of calculation required. In the present embodiment, the correlation between the reproduction signal of the speaker and the collected sound signal of the microphone is calculated in units of a fixed length frame, and the delay amount can be determined flexibly depending on the magnitude of the correlation value of each frame.
<その他の変形例>
遅延推定装置100が受信する再生信号及び収音信号がアナログ信号の場合には、図示しないAD変換部において、アナログ再生信号x(t)及びアナログ収音信号y(t)(tは時刻を表す)を、それぞれ所定のサンプリング周波数(例えば16kHz)でサンプリングし、各サンプルを量子化し、ディジタル受話信号サンプルx(n)及びディジタル収音信号y(n)に変換する構成としてもよい。
<Other variations>
When the reproduction signal and the sound collection signal received by the delay estimation apparatus 100 are analog signals, the analog reproduction signal x (t) and the analog sound collection signal y (t) (t represents time) in an AD converter (not shown). ) Are sampled at a predetermined sampling frequency (for example, 16 kHz), each sample is quantized, and converted into a digital received signal sample x (n) and a digital sound pickup signal y (n).
遅延推定装置100はベクトル化部112を含まなくともよい。その場合には、x’mに代えてxmを用いて無音区間判定処理(s113a)、相関値算出処理(s115)を行えばよい。
The delay estimation apparatus 100 may not include the
遅延推定装置100は遅延出力部119を含まず、遅延値算出部117の出力値であるdmaxをそのまま遅延推定部110の遅延推定値destとして出力する構成としてもよい。遅延推定値が不安定になるが、推定速度が速くなるという効果がある。なお、以下に説明する実施形態においても同様である。
The delay estimation apparatus 100 may not include the
<第二実施形態に係る遅延推定装置200>
第一実施形態と異なる部分についてのみ説明する。図1及び図2を用いて第二実施形態に係る遅延推定装置200を説明する。
<Delay Estimation Device 200 According to Second Embodiment>
Only parts different from the first embodiment will be described. A delay estimation apparatus 200 according to the second embodiment will be described with reference to FIGS. 1 and 2.
遅延推定装置200は、遅延推定部210と信号蓄積部180とを含む。遅延推定部210の構成及び処理内容が第一実施形態と異なる。遅延推定部210は、収音信号y(n)と再生信号x(n)とを受け取り、収音信号y(n)に含まれる反響信号を用いて再生信号x(n)の遅延量を推定する(s210)。遅延推定部210内の相関値算出部215の構成及び処理内容(s215)が第一実施形態と異なる(図3及び図4参照)。以下、図11及び図12を用いて詳細を説明する。
Delay estimation apparatus 200 includes a delay estimation unit 210 and a
<相関値算出部215>
相関値算出部215は、無音区間判定部113において無音区間でないと判定された再生信号x’m Tを所定の範囲I毎に合算し、収音信号ymを所定の範囲I毎に合算する(s215b)。例えば、以下の式により合算する(x^m、y^mについては式(1)、式(2)参照)。
<Correlation
Correlation
min{・}は集合・の最小値を返す関数である。つまり、再生信号x^m及び収音信号y^mをそれぞれ、L’I個またはL’I+1個のエリアに区切り、エリア毎に合算する(s215b−1〜s215b−4)。 min {·} is a function that returns the minimum value of the set. That is, the reproduction signal x ^ m and the collected sound signal y ^ m are divided into L' I or L' I + 1 areas, respectively, and summed up for each area (s215b-1 to s215b-4).
さらに、相関値算出部215は、合算された再生信号x− m(n)と合算された収音信号y− m(n)とのエリア相関値を、各フレームの各所定の範囲に対して求める(s215c)。なお、記号−は直前の文字の頭上に附されるものとする。例えば、以下の式によりエリア相関値c’fを求める。
Further, the correlation
つまり、合算された再生信号x− m=[x− m0(1),…,x− m0(LI)]と合算された収音信号y− m=[y− m0(1+n),…,y− m0(LI+n)](但し、nは変化し、0≦n≦LI−1である。また、式(2)より収音信号はフレーム時刻mの変化に応じて信号が変化する)までのエリア相関値を算出する(s215c−1〜s215c−4)。 That, combined reproduced signal x - m = [x - m0 (1), ..., x - m0 (L I)] and the summed voice collecting signals y - m = [y - m0 (1 + n), ..., y -. m0 (L I + n)] ( where, n is changed, is 0 ≦ n ≦ L I -1 the signal changes in response to changes in the sound collection signal frame time m from the formula (2) Area correlation values are calculated (s215c-1 to s215c-4).
相関値算出部215は、式(10)を用いて、DF×LI個の相関値c’f(n)を算出し、フレーム毎に算出した相関値の中で最大の相関値となるときのサンプル番号をn’maxとして求める。フレーム毎にn’maxを求めるため、DF個のサンプル番号n’maxを求める。
The correlation
次に相関値算出部215は、再生信号xmと収音信号ymとの相関値cfを求める(s215e)。その際、収音信号のフレーム番号mを変化させる。さらに、エリア相関値c’fが最大となるときの所定の範囲(この例では、サンプル番号n’maxから始まるI個のサンプル)を中心とする前後数サンプルの範囲内でサンプル番号を変化させながら、各フレームの各サンプルに対して相関値cfを求める。例えば、nlow=n’max−M(但し、nlow<1のときnlow=1とする)からnhigh=n’max+M(但し、nhigh>Lのときnhigh=Lとする)の範囲で再生信号x^mと収音信号y^mとの相関値を求める(s215d〜s215g)。例えば以下の式により求める。
Then the correlation
Mはn’maxの周辺で相関の最大値があると思われる範囲を示す。つまり、エリア相関値c’fを用いて遅延のおおよその値を計算し、その後、相関値cfから正確な遅延値を求める。 M represents a range in which the maximum value of the correlation is considered around n ′ max . In other words, by using the area correlation value c 'f to calculate the approximate value of the delay, then determining the correct delay value from the correlation value c f.
<効果>
このような構成とすることで、第一実施形態と同様の効果を得ることができる。さらに、1フレームあたり第一実施形態ではLタップの相関計算がL回必要だったのが、LIタップの相関計算がLI回(式(10)参照)とLタップの相関計算が2M+1回(式(3)参照)で済むようになる。例えばL=320、I=10、M=50のとき、その計算量はおおよそ1/3となる。
<Effect>
By setting it as such a structure, the effect similar to 1st embodiment can be acquired. Further, the in the first embodiment per frame correlation calculation of L taps are needed times L, L correlation calculation of I taps L I times (equation (10) refer) and correlation computation 2M + 1 times the L taps (See Equation (3)). For example, when L = 320, I = 10, and M = 50, the amount of calculation is approximately 1/3.
<第三実施形態に係る遅延推定装置300>
第一実施形態と異なる部分のみ説明する。第三実施形態に係るエコー消去装置は、遅延推定装置100とエコー消去部94とを含む。エコー消去部94は従来技術を用いてエコーを消去すればよいので、主に、図13及び図14を用いて第三実施形態に係る遅延推定装置300を説明する。遅延推定装置300は遅延推定部310と信号蓄積部380とを含む。遅延推定装置300は、周波数領域変換部81及び82、エコー消去部94、時間領域変換部83を備えるエコー消去装置の内部に組込まれているものとする。
<Delay Estimation Device 300 According to Third Embodiment>
Only parts different from the first embodiment will be described. The echo cancellation apparatus according to the third embodiment includes a delay estimation apparatus 100 and an
周波数領域変換部81及び82は、それぞれ時間領域の再生信号x(n)及び収音信号y(n)を周波数領域の再生信号Xm及び収音信号Ymに変換し(s81、s82)、再生信号Xmを遅延推定部310と信号蓄積部380とに出力し、収音信号Ymを遅延推定部310とエコー消去部94とに出力する。例えば、以下の式により変換する。
Frequency
wは長さ2Lのハミング窓等である。 w is a Hamming window having a length of 2L.
遅延推定部310は、周波数領域の再生信号Xmと収音信号Ymとを受け取り、収音信号y(n)に含まれる反響信号を用いて再生信号x(n)の遅延量を推定する(s310)。 Delay estimation unit 310 receives a reproduction signal X m and collected signal Y m of frequency domain, to estimate the delay amount of the reproduced signal x (n) by using the echo signal contained in the collected signal y (n) (S310).
信号蓄積部380は、遅延推定値destに応じて、再生信号Xmを遅延させて、出力する(s380)。
エコー消去部94は、遅延された再生信号を用いて、収音信号Ymから反響信号を消去し(s94)、送話信号Emを時間領域変換部83に出力する。
Echo canceling
時間領域変換部83は、周波数領域の送話信号Emを時間領域の送話信号e(n)に変換し、送話端4に出力する。例えば、以下の式により変換する。
Time
以下、各部の詳細を説明する。 Details of each part will be described below.
<遅延推定部310>
図15及び図16を用いて遅延推定部310を説明する。遅延推定部310は、無音区間判定部313と相関値算出部315と遅延値算出部117と遅延出力部319とを含む。
<Delay estimation unit 310>
The delay estimation unit 310 will be described with reference to FIGS. 15 and 16. The delay estimation unit 310 includes a silent
(無音区間判定部313)
無音区間判定部313は、再生信号Xmを受け取り、再生信号Xmが無音区間か否かを判定する(s313a)。例えば、無音区間判定部313は、再生信号Xmのパワー||Xm||を算出し、閾値Tx以上か否かを判定する。無音区間判定部313は、パワー||Xm||が閾値Tx以上の場合、そのときのフレーム番号mをm0とし、再生信号XmをXm0として相関値算出部315に出力する(s313b)。
(Silent section determination unit 313)
Silent
(相関値算出部315)
相関値算出部315は、無音区間判定部において無音区間でないと判定された再生信号Xm0と収音信号Ymと受け取り、これらの値を用いて、相関値を求める(s315)。その際、収音信号のフレーム番号を変化させながら相関値を求めることで、各フレームの各サンプルに対して相関値を求める。例えば以下の式により相関値を求める。
(Correlation value calculation unit 315)
The correlation value calculation unit 315 receives the reproduction signal X m0 and the sound collection signal Y m that are determined not to be a silence interval by the silence interval determination unit, and obtains a correlation value using these values (s315). At this time, the correlation value is obtained for each sample of each frame by obtaining the correlation value while changing the frame number of the collected sound signal. For example, the correlation value is obtained by the following formula.
但し、*は複素共役を表し、m0≦m≦m0+DF−1である。
c〜 f(但し、記号〜は直前の文字の頭上に附されるものとする)の前半L個を
However, * represents the complex conjugate, a m 0 ≦ m ≦ m 0 + D F -1.
c to f (note that the symbol ~ is added to the head of the immediately preceding character)
と定義する。相関値算出部315は、式(14)を用いて、DF×2L個の相関値c〜 f(n)を算出し、式(15)により、DF×L個の相関値cf(n)を取得する(s315a〜s315c)。取得した相関値cf(n)の中で最大の相関値となるときのフレーム番号をfmaxとし、最大の相関値となるときのサンプル番号をnmaxとして遅延値算出部117に出力する。
It is defined as The correlation value calculation section 315, using equation (14), D F × calculates 2L number of correlation values c ~ f (n), the equation (15), D F × L number of correlation values c f ( n) is acquired (s315a to s315c). The obtained correlation value c f (n) is output to the delay
1フレームあたり第一実施形態の場合、式(3)において、Lタップの相関計算がL回必要であったが、本実施形態では、式(14)において要素数の2L回の計算を行うだけでよい。 In the case of the first embodiment per frame, in the equation (3), the L tap correlation calculation is required L times, but in this embodiment, only the calculation of 2L times of the number of elements is performed in the equation (14). It's okay.
なお上記では、式(14)及び式(15)の相関値で説明を行ったが、第一実施形態の場合と同様に、相関値に限らず周波数領域の再生信号と収音信号との類似性の指標を表すものであればよい。 In the above description, the correlation values of Expression (14) and Expression (15) have been described. However, similar to the case of the first embodiment, not only the correlation value but also the similarity between the reproduction signal in the frequency domain and the collected sound signal. It only needs to represent a sex indicator.
(遅延出力部319)
遅延出力部319は、遅延値算出部117から所定数の遅延値を受け取り、遅延出力部119と同様の方法により、最も頻度の高い遅延値を遅延推定値destとして求める(s119a〜s119e)。
(Delay output unit 319)
さらに、遅延出力部319は、以下のd’estを求める。
Further, the
遅延出力部319は、d’estを改めてdestとし(つまり、destにd’estを代入し)、信号蓄積部380に出力する(s319f)。信号蓄積部380には、Lサンプル毎の周波数領域の再生信号が蓄積されているが、このような構成とすることで、Lの倍数の遅延を再現することができる。
Delayed output unit 319 'and again d est a est (i.e., d to d est' d substituting est), and outputs the signal storage unit 380 (s319f). The
<信号蓄積部380>
信号蓄積部380は、遅延推定値destに応じて、再生信号Xmを遅延させて、周波数領域の遅延再生信号Xm’(但し、m’=m−dest/L)を出力する(s380)。再生信号x(n)に代えて再生信号Xmを用いる以外は、信号蓄積部180と同様である。
<
The
<エコー消去部94>
エコー消去部94は、遅延された再生信号を用いて、収音信号Ymから反響信号を消去し(s94)、送話信号Emを時間領域変換部83に出力する。例えば、図17に示すように、エコー消去部94は、エコー抑圧ゲイン計算部95と乗算部97を含む構成であってもよい。エコー抑圧ゲイン計算部95において、特許3420705号公報記載の従来技術を用いて、遅延再生信号Xm’と収音信号Ymによりエコー抑圧ゲインGmを求める。次に乗算部97において収音信号Ymにエコー抑圧ゲインGmを乗じてエコーを抑圧し、抑圧後の送話信号Emを出力する。
<
Echo canceling
<効果>
このような構成とすることで、第一実施形態と同様の効果を得ることができる。さらに、エコー消去装置で用いる周波数領域の再生信号及び収音信号を利用することで、遅延推定時の相関計算の演算量を低く抑えることができる。
<Effect>
By setting it as such a structure, the effect similar to 1st embodiment can be acquired. Furthermore, by using the frequency domain reproduction signal and the collected sound signal used in the echo canceller, it is possible to keep the amount of calculation of correlation calculation at the time of delay estimation low.
<その他の変形例>
周波数領域変換部81及び82において、式(1)、式(2)を用いて、以下の式により、得られる周波数領域の再生信号及び収音信号であってもよい。
<Other variations>
In the frequency
この信号であっても遅延推定装置300は、同様の効果を奏する。さらに、式(14)において、L回の計算を行うだけでよく、cfを定義しなおす必要がなくなる。なお、以下に説明する第四実施形態においても同様である。 Even with this signal, the delay estimation apparatus 300 has the same effect. Furthermore, in the equation (14), you need only perform L computations, it is not necessary to redefine the c f. The same applies to the fourth embodiment described below.
本実施形態では、遅延推定装置がエコー消去装置の内部に組込まれているものとしたが、組込みでなくともよい。その場合には、遅延推定装置内部に周波数領域変換部と時間領域変換部を含む構成とすればよい。 In the present embodiment, the delay estimation device is incorporated in the echo canceller, but may not be incorporated. In that case, what is necessary is just to set it as the structure which contains a frequency domain conversion part and a time domain conversion part inside a delay estimation apparatus.
<第四実施形態に係る遅延推定装置400>
第三実施形態と異なる部分についてのみ説明する。図18及び図19を用いて第四実施形態に係る遅延推定装置400を説明する。
<Delay Estimation Device 400 According to Fourth Embodiment>
Only parts different from the third embodiment will be described. A delay estimation apparatus 400 according to the fourth embodiment will be described with reference to FIGS. 18 and 19.
遅延推定装置400は、遅延推定部410と信号蓄積部480を含む。遅延推定部410及び信号蓄積部480の構成及び処理内容がそれぞれ第三実施形態と異なる。遅延推定部410は、収音信号YmとDF個の再生信号Xm,Xm-1,…,Xm-DF+1とを受け取り、収音信号Ymに含まれる反響信号を用いて再生信号Xmの遅延量を推定する(s410)。但し、下付き文字DFは、DFを表す。
Delay estimation device 400 includes a
<信号蓄積部480>
信号蓄積部480は、遅延推定値destに応じて、再生信号Xmを遅延させて、出力する(s480)。信号蓄積部480は、例えば、信号格納部481と信号バッファ483と第一信号出力部485と第二信号出力部487とを含む(図20参照)。
<
信号バッファ483はD個の周波数領域の再生信号を保持できるバッファである(D≧DFであればよく、通常D=DFとすればよい)。信号格納部481は、再生信号Xmを受け取り、信号バッファ483上の古い再生信号から順に上書きする形で保存する。
The
第二信号出力部487は、現フレームmを含めてDF個の再生信号Xm,Xm-1,…,Xm-DF+1を信号バッファ483から取得し、遅延推定部410に出力する。
The second
また、信号蓄積部480の第一信号出力部485は、遅延推定値destに応じて、再生信号Xmを遅延させて、周波数領域の遅延再生信号Xm’(但し、m’=m−dest/L)を出力する。
Further, the first
<遅延推定部410>
遅延推定部410は、相関値算出部415と遅延値算出部117と遅延出力部319とを含む。相関値算出部415の構成及び処理内容(図22のs415)が第三実施形態と異なる。
<Delay
The
(相関値算出部415)
相関値算出部415は、過去DF個の再生信号Xm,Xm-1,…,Xm-DF+1と収音信号Ymとを用いて、DF個の再生信号Xm,Xm-1,…,Xm-DF+1のフレーム番号と収音信号Ymのフレーム番号を変化させながら、各再生信号と各収音信号の各組合せの各サンプルに対して相関値を求める(s415)。相関値算出部415は、図23に示す各処理を行う。
(Correlation value calculation unit 415)
The correlation
相関値算出部415において各値に初期値を設定する(s415a、s415b)。
The correlation
収音信号YmとDF個の再生信号Xm,Xm-1,…,Xm-DF+1とを受け取る。但し、mがDF未満の場合には(s415c)、取得可能な再生信号のみ受け取る。 Collected sound signal Y m and D F-number of the reproduced signal X m, X m-1, ..., receive and X m-DF + 1. However, if m is less than D F receive only (S415C), obtainable reproduced signal.
mがDF未満の場合には(s415c)、取得した再生信号と収音信号Ymとの相関値を算出する(s415d−1〜s415d−3)。相関値の算出方法は第三実施形態と同様である。 m is in the case of less than D F calculates the (S415C), the correlation value between the obtained reproduction signal and the collected sound signal Y m (s415d-1~s415d-3 ). The correlation value calculation method is the same as in the third embodiment.
但し、0≦f≦m−1である。 However, 0 ≦ f ≦ m−1.
取得した再生信号と同数の相関値を算出し、以下の処理を行う(s415e、s415f、s415g−1〜s415g−5)。
i=m-f
for f=0〜m-1
if cf(nf)>ctmp(i)
ctmp(i)=cf(nf)
ntemp(i)=nf
ftemp(i)=f
end
end
mがDF以上となるまで上記の処理を繰り返す(s415p)。
The same number of correlation values as the obtained reproduction signals are calculated, and the following processing is performed (s415e, s415f, s415g-1 to s415g-5).
i = mf
for f = 0 ~ m-1
if c f (n f )> c tmp (i)
c tmp (i) = c f (n f )
n temp (i) = n f
f temp (i) = f
end
end
m is the above processing is repeated until the above D F (s415p).
mがDF以上の場合には(s415c)、DF個の再生信号Xm,Xm-1,…,Xm-DF+1と収音信号Ymとの相関値cfを算出する(s415h−1〜s415h−3)。 If m is more than D F (s415c), D F-number of the reproduced signal X m, X m-1, ..., and calculates a correlation value c f of X m-DF + 1 and collected signal Y m (s415h -1 to s415h-3).
但し、0≦f≦DF−1である。 However, 0 ≦ f ≦ D F −1.
mがDF以上の場合には(s415f)、mをDFで割ったあまりをrとし(s415i)、iを以下のように設定する(s415j−1〜s415j−3)。 If m is more than D F (s415f), the remainder was divided by D F m and r (s415i), i and is set as follows (s415j-1~s415j-3).
さらに、以下の処理を行う(s415j−1〜s415j−3、s415k−1〜s415k−4)。
for f=0〜DF-1
if cf(nf)>ctmp(i)
ctmp(i)=cf(nf)
ntemp(i)=nf
ftemp(i)=f
end
end
過去DF回の相関計算と比較が終了したインデックスr+1を用いて、
nmax=ntemp(r+1)
fmax=ftemp(r+1) (19)
として、遅延値算出部117に出力する(s415m)。図24は、m=DF(r=0)のときのctmpのcf、ctmp(i)、ntemp(i)、ftemp(i)を記憶する記憶部の状態を示す。このとき、c0とctmp(0)とを比較し、c1とctmp(DF−1)とを比較し、c2とctmp(DF−2)とを比較し、…、cDF−1とctmp(1)とを比較する。比較の結果、cfのほうが大きい場合には、ctmpを更新する。全ての比較、更新を終えると、r+1に対応するntemp(i)、ftemp(i)を出力する。この例では、r=0なので、ntemp(1)、ftemp(1)をnmax、fmaxとして出力する。本実施形態ではDF回の比較処理を行ったctmpに対応するfmaxとnmaxを出力したいので、r+1のときのctmp(i)に対応するntemp(i)、ftemp(i)を出力する。次のフレームを受け取った場合には、上記処理を行い、ntemp(2)、ftemp(2)をnmax、fmaxとして出力する。
Further, the following processing is performed (s415j-1 to s415j-3, s415k-1 to s415k-4).
for f = 0 ~ D F -1
if c f (n f )> c tmp (i)
c tmp (i) = c f (n f )
n temp (i) = n f
f temp (i) = f
end
end
Using the index r + 1 for which the past DF correlation calculations and comparisons have been completed,
n max = n temp (r + 1)
f max = f temp (r + 1) (19)
Is output to the delay value calculation unit 117 (s415m). Figure 24 shows the state of the storage portion c tmp of c f, c tmp (i) , n temp (i), stores the f temp (i) in the case of m = D F (r = 0 ). At this time, c 0 and c tmp (0) are compared, c 1 and c tmp (D F −1) are compared, c 2 and c tmp (D F −2) are compared,. c DF-1 is compared with c tmp (1). When the comparison result shows more of c f is large, it updates the c tmp. When all comparisons and updates are completed, n temp (i) and f temp (i) corresponding to r + 1 are output. In this example, since r = 0, n temp (1) and f temp (1) are output as n max and f max . In the present embodiment, since it is desired to output f max and n max corresponding to c tmp for which DF comparison processing has been performed, n temp (i) and f temp (i) corresponding to c tmp (i) at r + 1. ) Is output. When the next frame is received, the above processing is performed, and n temp (2) and f temp (2) are output as n max and f max .
計算が終了したctmp(i)、ntmp(i)、ftmp(i)は0で初期化し(s415n)、ctmp(i)には次フレームに入力される新たな再生信号Xm+1と各収音信号Ym+1の相関値を格納していく。相関値算出部415は、s415b〜s415pの処理を繰り返す(s415p)。
Calculation is finished c tmp (i), n tmp (i), f tmp (i) is initialized to 0 (s415n), a new reproduced signal X m + 1 which is input to the next frame to c tmp (i) The correlation value of each collected sound signal Y m + 1 is stored. The correlation
言い換えると、相関値算出部415では、周波数領域収音信号Ymと複数の周波数領域再生信号Xm,Xm-1,…,Xm-DF+1それぞれとの類似性の指標を算出する。
In other words, the correlation
<効果>
このような構成とすることで、第三実施形態と同様の効果を得ることができる。ctmpの各要素は一つのXmに対応しており、あるXm”を固定したままYm”,Ym”+1,…,Ym”+DF-1との相関を計算する、という第三実施形態の演算を同時並行でDF回行うことができる。よって、第三実施形態よりも高速に遅延推定値が得られる。
<Effect>
By setting it as such a structure, the effect similar to 3rd embodiment can be acquired. Each element of c tmp corresponds to one X m , and the correlation with Y m ″ , Y m ″ +1 ,..., Y m ″ + DF-1 is calculated while a certain X m ″ is fixed. The calculations of the three embodiments can be performed DF times in parallel. Therefore, the delay estimation value can be obtained faster than in the third embodiment.
<その他の変形例>
第四実施形態において、遅延推定装置400は、無音区間判定部413(図21において破線で示す)を含んでもよい。無音区間判定部413は、DF個の再生信号Xm,Xm-1,…,Xm-DF+1を受け取り、再生信号Xiのパワーが閾値以下か否かを判定し、閾値以上の再生信号のみ遅延推定部410に出力する(s413、図22において破線で示す)。再生信号Xiのパワーが小さい、つまり再生信号が無音もしくはある閾値以下のパワーしかない場合に、対応する相関値cfの計算を行わない構成となる。Xiのパワーが小さい場合は相関値cfがノイズの影響を受けやすくなるが、このような構成とすることで、頑強な推定が可能となる。閾値は例えば信号の定格レベルの−10dBなどと設定する。
<Other variations>
In the fourth embodiment, the delay estimation apparatus 400 may include a silent section determination unit 413 (indicated by a broken line in FIG. 21). Silent
<第五実施形態に係る遅延推定装置500>
第四実施形態と異なる部分についてのみ説明する。第五実施形態に係る遅延推定装置500を説明する。遅延推定部510内の相関値算出部515の処理内容が遅延推定装置400とは異なる(s510、s515、図18、図19、図21、図22参照)。図25のs515h−2、s515d−2に示すように、相関を計算するXiをA(Aは2以上の整数)フレーム毎にしか用いない。例えばA=3の時、m番目のフレームの時刻においてXmとYmの相関、Xm-AとYmの相関、Xm-2AとYmの相関というように計算し、m+1番目のフレームの時刻においてはXmとYm+1の相関、Xm-AとYm+1の相関、Xm-2AとYm+1の相関というように計算する。このようにしても、相関計算に用いられるXiは間引かれるが、同一のXiに対する異なる遅延に対応する相関値は間引かれない(図26参照)。
<Delay Estimation Device 500 According to Fifth Embodiment>
Only parts different from the fourth embodiment will be described. A delay estimation apparatus 500 according to the fifth embodiment will be described. The processing content of the correlation
<効果>
このような構成とすることで、第四実施形態と同様の効果を得ることができる。なお、Aフレームに1回しかdmaxの計算がされないため、第四実施形態に比べてTsum個の遅延値を推定するためにA倍の時間がかかるが(言い換えると、遅延推定値destの推定速度が1/Aに減少する)、その分演算量も相関計算部分に関しては1/Aに減少する。遅延推定装置の処理能力に応じて適宜設定すればよい。
<Effect>
By setting it as such a structure, the effect similar to 4th embodiment can be acquired. Since d max is calculated only once in the A frame, it takes A times longer to estimate T sum delay values than in the fourth embodiment (in other words, the delay estimation value d est The estimated calculation speed is reduced to 1 / A), and the calculation amount is also reduced to 1 / A for the correlation calculation part. What is necessary is just to set suitably according to the processing capacity of a delay estimation apparatus.
<第六実施形態に係る遅延推定装置600>
第一実施形態と異なる部分についてのみ説明する。図1、図2、図3、図27を用いて第六実施形態に係る遅延推定装置600を説明する。遅延推定装置600内の遅延推定部610の構成及び処理内容(s610)が第一実施形態とは異なる。さらに詳しくいうと、遅延推定部610内の遅延出力部619の処理内容(s619)が異なる。
<Delay Estimation Device 600 According to Sixth Embodiment>
Only parts different from the first embodiment will be described. A delay estimation apparatus 600 according to the sixth embodiment will be described with reference to FIGS. 1, 2, 3, and 27. The configuration and processing contents (s610) of the delay estimation unit 610 in the delay estimation apparatus 600 are different from those in the first embodiment. More specifically, the processing content (s619) of the
遅延出力部619は入力されたdmaxを用いて
dest=(1-α)dmax+αd’est (20)
として出力する(図27のs619)。なお、d’estは前回推定したdestの値である。αは減衰係数で、0.9程度の値を用いる。
The
d est = (1-α) d max + αd ' est (20)
(S619 in FIG. 27). Note that d ′ est is the value of d est estimated last time. α is an attenuation coefficient, and a value of about 0.9 is used.
<効果>
このような構成により第一実施形態と同様の効果を得ることができる。なお、この場合、遅延出力部119のようにTsum回の推定が行われるまで待たずに、真値に近い値を維持することができる。第二〜五実施形態の遅延出力部を同様の構成としてもよい。
<Effect>
With this configuration, the same effect as that of the first embodiment can be obtained. In this case, the value close to the true value can be maintained without waiting for the estimation of T sum times as in the
<第七実施形態に係る遅延推定装置700>
第一実施形態と異なる部分についてのみ説明する。図1、図2、図28、図29を用いて第七実施形態に係る遅延推定装置700を説明する。遅延推定装置700内の遅延推定部710の構成及び処理内容(s710)が第一実施形態とは異なる。さらに詳しくいうと、遅延推定部710内の遅延値算出部717と遅延出力部719の処理内容(図29のs717、s719a、s719e)が異なる。
<Delay Estimation Device 700 According to Seventh Embodiment>
Only parts different from the first embodiment will be described. A delay estimation apparatus 700 according to the seventh embodiment will be described with reference to FIGS. 1, 2, 28, and 29. The configuration and processing contents (s710) of the
遅延値算出部717はdmaxの代わりにfmaxを遅延値として出力する。
The delay
遅延出力部719は、DFの長さを持つ配列dhを用意し、0で初期化する(s719a)。遅延出力部119は、遅延値fmaxを受け取ると、配列dhのインデックスがfmax番目の要素の数を1増やす(s719b)。Tsum個の遅延値dmaxを取得するまで、処理を繰り返す。Tsum回の推定を終了したところで、全要素の中で一番大きな値をとるインデックスimax(0≦imax≦DF−1)に対し、
dest=imaxL (21)
を出力する。
d est = i max L (21)
Is output.
<効果>
このような構成とすることで第一実施形態と同様の効果を得ることができる。なお、遅延推定値の正確な値は求まらないが、フレーム内の細かい誤差を無視してフレームごとに集約することで、推定が安定するメリットがある。第二〜六実施形態の遅延値算出部、遅延出力部を同様の構成としてもよい。
<Effect>
By adopting such a configuration, the same effect as in the first embodiment can be obtained. Although an accurate value of the delay estimation value cannot be obtained, there is a merit that the estimation is stabilized by ignoring a fine error in the frame and consolidating each frame. The delay value calculation unit and the delay output unit of the second to sixth embodiments may have the same configuration.
<第八実施形態に係る遅延推定装置800>
第一実施形態と異なる部分についてのみ説明する。図1、図2、図30、図31を用いて第八実施形態に係る遅延推定装置800を説明する。遅延推定装置800内の遅延推定部810の構成及び処理内容(s810)が第一実施形態とは異なる。さらに詳しくいうと、遅延推定部810は相関蓄積部816をさらに含み、遅延値算出部817の処理内容(図31のs817)が異なる。相関蓄積部816は、前回算出した相関値c− f oldを蓄積する。
<Delay Estimation Device 800 According to Eighth Embodiment>
Only parts different from the first embodiment will be described. A delay estimation apparatus 800 according to the eighth embodiment will be described with reference to FIGS. 1, 2, 30, and 31. The configuration and processing contents (s810) of the
遅延値算出部817は、求めた相関値cfからそのままdmaxを計算するのではなく、定数β(0≦β≦1)を用いてcfの時間変化を平滑化したc− fを用いてfmaxおよびdmaxを計算する。具体的には、遅延値算出部817は、相関蓄積部816から蓄積された(前回計算された)平滑化した相関値c− f oldを取得し、これを用いて、以下の式により平滑化した相関値c− fを求める(s817)。 Delay value calculating section 817, is not directly to compute the d max from the correlation value c f determined, constant β (0 ≦ β ≦ 1) obtained by smoothing the time variation of c f with c - using f To calculate f max and d max . Specifically, the delay value calculating section 817, is stored from the correlation storage section 816 a (previously calculated a) correlation values c are smoothed - to get the f old, and used to, smoothed by the following formula correlation value c - determining the f (s817).
但し、0≦f≦DF−1とする。 However, 0 ≦ f ≦ D F −1.
さらに、遅延値算出部817は、平滑化した相関値c− fを用いて、以下の式により、fmaxを計算する。さらにfmaxを用いてdmaxを計算し、dmaxを出力する。 Further, the delay value calculating section 817, smoothed correlation values c - using f, the following equation to calculate the f max. Further, d max is calculated using f max and d max is output.
<効果>
このような構成とすることによって、第一実施形態と同様の効果を得ることができる。さらに、時間平滑化によって外乱音声等によるcfの値の一時的な乱れを防ぐことができる。第二〜七実施形態の遅延値算出部を同様の構成としてもよい。なお、第四実施形態のように相関値を毎時刻計算する場合には、平滑化した相関値c− foldは1フレーム前の値であるが、そうでない場合は、数フレーム前の値となることもある。
<Effect>
By setting it as such a structure, the effect similar to 1st embodiment can be acquired. Furthermore, it is possible to prevent a temporary disturbance of the values of c f due to disturbance such as voice by the time smoothing. The delay value calculation unit of the second to seventh embodiments may have the same configuration. Note that when the correlation value is calculated every time as in the fourth embodiment, the smoothed correlation value c - fold is a value one frame before, otherwise it is a value several frames before. Sometimes.
<第九実施形態に係る遅延推定装置900>
第三実施形態に係る遅延推定装置300と異なる部分についてのみ説明する。遅延推定部910の相関値算出部915の処理内容が異なる(図13、図14のs910、図15及び図32参照)。
<Delay Estimation Device 900 According to Ninth Embodiment>
Only parts different from the delay estimation apparatus 300 according to the third embodiment will be described. The processing contents of the correlation value calculation unit 915 of the delay estimation unit 910 are different (see s910 in FIG. 13 and FIG. 14, FIG. 15 and FIG. 32).
相関値算出部915は、再生信号Xm0と収音信号Yを受け取り、再生信号Xm0の大きさに応じてゲインGm0を求める(s915a)。例えば、以下のようにして求める。 The correlation value calculation unit 915 receives the reproduction signal X m0 and the collected sound signal Y, and obtains a gain G m0 according to the magnitude of the reproduction signal X m0 (s915a). For example, it calculates | requires as follows.
但し、閾値Tg1>Tg2の正の値であり、0≦γ<1である。Tg1は通常会話において最も大きな周波数成分の値付近に設定し、Tg2は通常会話においてスペクトルの谷に当たる部分の値付近に設定する。 However, the threshold value T g1 > T g2 is a positive value, and 0 ≦ γ <1. T g1 is set near the value of the largest frequency component in normal conversation, and T g2 is set near the value corresponding to the valley of the spectrum in normal conversation.
相関値算出部915は、受け取った再生信号Xm0と収音信号Yと、求めたゲインGm0を用いて、相関を以下のように求める(s915b)。 The correlation value calculation unit 915 obtains the correlation as follows using the received reproduction signal X m0 , the sound collection signal Y, and the obtained gain G m0 (s915b).
<効果>
このような構成とすることで第三実施形態と同様の効果を得ることができる。さらに、あまり大きすぎる再生信号の周波数成分に関しては、時間領域へ戻したときの相関値に影響が大きすぎるため低減し、小さい再生信号の周波数成分に関してもSN比が悪く外乱の影響を受けやすいため、寄与を低くすることができ、より精度の高い推定が可能となる。第四実施形態の遅延値算出部を同様の構成としてもよい。
<Effect>
By adopting such a configuration, the same effect as that of the third embodiment can be obtained. Further, the frequency component of the reproduced signal that is too large is reduced because the correlation value when returning to the time domain is too large, and the frequency component of the small reproduced signal is reduced, and the SN ratio is poor and susceptible to disturbance. , The contribution can be reduced, and more accurate estimation is possible. The delay value calculation unit of the fourth embodiment may have the same configuration.
<その他の変形例>
なお、時間領域で相関を計算する場合でも、x(n)の周波数領域の値を求め、ゲインGm0を設計した後、同様の特性を持つ時間領域のフィルタを求めてxをフィルタリングすることで同様の効果が得られる。
<Other variations>
Even when calculating the correlation in the time domain, after obtaining the frequency domain value of x (n) and designing the gain G m0 , a time domain filter having similar characteristics is obtained and x is filtered. Similar effects can be obtained.
<第十実施形態に係る遅延推定装置>
第八実施形態に係る遅延推定装置800と異なる部分についてのみ説明する。本実施形態では、第八実施形態の遅延値算出部で用いていたβの値を可変とする。図1、図2、図30、図31を用いて第十実施形態に係る遅延推定装置1000を説明する。遅延推定装置1000内の遅延推定部1010の構成及び処理内容(s1010)が第八実施形態とは異なる。さらに詳しくいうと、遅延推定部1010内部の遅延値算出部1017の処理内容(s1017)が第八実施形態と異なる。遅延値算出部1017は図示しない相関差分計算部と平滑係数切替部とを含む。
<Delay Estimation Device According to Tenth Embodiment>
Only parts different from the delay estimation apparatus 800 according to the eighth embodiment will be described. In the present embodiment, the β value used in the delay value calculation unit of the eighth embodiment is variable. A delay estimation apparatus 1000 according to the tenth embodiment will be described with reference to FIGS. 1, 2, 30, and 31. The configuration and processing content (s1010) of the delay estimation unit 1010 in the delay estimation apparatus 1000 are different from those in the eighth embodiment. More specifically, the processing content (s1017) of the delay value calculation unit 1017 in the delay estimation unit 1010 is different from that in the eighth embodiment. The delay value calculation unit 1017 includes a correlation difference calculation unit and a smoothing coefficient switching unit (not shown).
c− fのあるフレームmでの値をc− f(m)とし、相関差分計算部は、相関蓄積部からc− f(m)とc− f(m−1)を受け取り、 c - the value of the frame m with f c - a f (m), the correlation difference calculation section, the correlation storage section c - receives f a (m-1), - f (m) and c
を計算する。Δc− f(m)は遅延が変動していない場合は、それぞれの遅延において(各fにおいて)おおよそ同じ挙動をする。それに対し、遅延が変動した場合、今まで遅延の真値に近いfに対応するc− fは急激に値が減少し、新しい遅延の真値に近いfに対応するc− fは急激に値が上昇する。つまり、Δc− f(m)の正負がfによって、異なり、かつ、大きさが大きくなる。 Calculate Δc − f (m) behaves approximately the same at each delay (at each f) when the delay does not vary. In contrast, when the delay is changed, c corresponds to f close to the true value of the delay until now - it is f abruptly value decreases, c corresponds to f close to the true value of the new delay - f sharply values Rises. That is, the sign of Δc − f (m) varies depending on f and increases in magnitude.
また、相関差分計算部は、細やかな時間変動の影響を除くため、以下の式を計算し、Δc− f(m)を定義しなおす。 In addition, the correlation difference calculation unit calculates the following formula and redefines Δc − f (m) in order to eliminate the influence of fine time fluctuations.
なお、Iwは正の整数でc− fを加算するフレーム幅である。例えばIwは10程度の値とする。相関差分計算部は、Δc− f(m)を平滑係数切替部に送信する。 Note that I w c a positive integer - a frame width of adding f. For example, Iw is set to a value of about 10. The correlation difference calculation unit transmits Δc − f (m) to the smoothing coefficient switching unit.
平滑係数切替部は、 The smoothing coefficient switching unit
という値を求める。なお、sgn(・)は・の符号(1もしくは−1)を表す。そして、 Is obtained. Here, sgn (•) represents the symbol (1 or −1). And
という条件判定を行う。Tcは相関が大きく変動していることを判定する閾値、Tsは相関の時間差分の正負がそろっていないことを判定する閾値である。例えば、Iw=10、DF=20程度のときにTc=10程度の値とする。また、−DF≦SΔ≦DFであり、DF=20のときに、Ts=10程度とする。 The condition judgment is performed. T c is a threshold value for determining that the correlation is largely fluctuating, and T s is a threshold value for determining that the correlation time difference is not positive or negative. For example, when I w = 10 and D F = 20, a value of T c = 10 is set. In addition, when −D F ≦ S Δ ≦ D F and D F = 20, T s is about 10.
平滑係数切替部は、式(35)の条件を満たしたときのみ、第八実施形態のβを以下の式によりβ2に置き換える。
β2=1-γ(1-β) (36)
γは1以上の実数で、βの値が小さくなることで平滑化の効果が小さくなり、遅延変動への追随が速くなる。例えば、γ=5.0とする。なお、平滑係数切替部は、βをβ2に置き換えた後に、上記条件を満たさなくなった場合には、β2をβに戻す。遅延値算出部817は、βまたはβ2を用いて、式(22)を計算し、c− fを求める。他の処理は第八実施形態と同様である。
The smoothing coefficient switching unit replaces β in the eighth embodiment with β 2 by the following equation only when the condition of Equation (35) is satisfied.
β 2 = 1-γ (1-β) (36)
γ is a real number equal to or greater than 1, and the effect of smoothing is reduced by decreasing the value of β, and the follow-up to delay variation becomes faster. For example, γ = 5.0. The smoothing coefficient switching unit returns β 2 to β when the above condition is not satisfied after β is replaced with β 2 . Delay value calculating section 817, using a beta or beta 2, calculates the equation (22), c - determining the f. Other processes are the same as in the eighth embodiment.
<効果>
このような構成とすることで第八実施形態と同様の効果を得ることができる。なお、第八実施形態において、cfの時間変化を平滑化すると述べているが、平滑化をかければかけるほど遅延変動に対して追随が遅くなるというデメリットがあるが、本実施形態であれば、遅延が変動した際に追随を速くし、遅延が変動していない場合は平滑化を強めにして外乱に強くするという処理を遅延値算出部に追加している。
<Effect>
By adopting such a configuration, the same effect as in the eighth embodiment can be obtained. Note that in the eighth embodiment, although said smoothes the temporal variation of c f, there is a disadvantage that follow the delay variation as applied by multiplying the smoothed slower but, if this embodiment In the delay value calculation unit, a process of speeding up the follow-up when the delay fluctuates, and increasing the smoothing and strengthening the disturbance when the delay does not fluctuate is added.
[シミュレーション結果]
図33、図34に第五、七、八、十実施形態を組み合わせた構成の遅延推定装置(但し、γ=1.0とし、第四実施形態の変形例で説明した無音区間判定部413を備える)の計算機上のシミュレーション結果を示す。再生信号は16kHzサンプリングの音声データで、L=160(=10ms)、DF=20、A=5(第五実施形態の間引き)、Tsum=6、β=0.95(平滑係数)とした。遅延を12.5秒と42秒の位置で変動させ、相関の変化と推定遅延の推移をプロットした。図34の推定遅延のグラフは、図33の各時刻で最大である相関から現在の遅延値を計算したものである。図33は3通りの遅延に対応する相関値の変動を表し、c1、c6、c11、はそれぞれ10ms、60ms、110msの遅延に対応する相関値の変動を表す。0秒から12.5秒までは遅延は10ms程度であり、c1の値(太線)が最大になれば正しい遅延が推定されることになる。図33のプロットもそのようになっている。また図34プロットも遅延真値と推定遅延値が一致している。同様に、12.5秒から42秒は遅延が110ms程度、42秒から60秒までは遅延が60ms程度であり、それぞれ正しい遅延(極太線、太点線)が推定されている。ただし、推定遅延値が遅延の推定値になるには10秒程度の推定時間がかかっている。
[simulation result]
33 and 34, the delay estimation apparatus having the configuration of the fifth, seventh, eighth, and tenth embodiments (provided that γ = 1.0 and the silent
同様の実験を、第十実施形態のγ=5.0として実験を行った。図35、図36に結果を示す。遅延が変動した際の相関値の増加・減少の傾斜が大きくなっており、遅延の変動にすばやく追従している。そのため、図36の推定遅延値も、実際の遅延変動から2秒程度で推定が行えている。追従を大きくするには、βの値をもともと小さくしておけばよいが、そうすると遅延変動が起きていない部分の推定値の変動まで大きくなってしまう。この実験では、2回の遅延変動の周辺以外は安定した相関の計算が行われているため、推定速度と安定性の両立が行えている。 A similar experiment was conducted with γ = 5.0 in the tenth embodiment. The results are shown in FIGS. The slope of the increase / decrease of the correlation value when the delay fluctuates is large, and it quickly follows the fluctuation of the delay. Therefore, the estimated delay value in FIG. 36 can be estimated in about 2 seconds from the actual delay variation. In order to increase the follow-up, it is only necessary to decrease the value of β from the beginning, but if this is done, the fluctuation of the estimated value in the portion where the delay fluctuation does not occur becomes large. In this experiment, since stable correlation calculation is performed except in the vicinity of two delay fluctuations, both the estimated speed and stability can be achieved.
<プログラム及び記録媒体>
上述した遅延推定装置は、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置(各種実施例で図に示した機能構成をもつ装置)として機能させるためのプログラム、またはその処理手順(各実施例で示したもの)の各過程をコンピュータに実行させるためのプログラムを、CD−ROM、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。
<Program and recording medium>
The delay estimation apparatus described above can also be functioned by a computer. In this case, each process of a program for causing a computer to function as a target device (a device having the functional configuration shown in the drawings in various embodiments) or a processing procedure (shown in each embodiment) is processed by the computer. A program to be executed by the computer may be downloaded from a recording medium such as a CD-ROM, a magnetic disk, or a semiconductor storage device or via a communication line into the computer, and the program may be executed.
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<Other variations>
The present invention is not limited to the above-described embodiments and modifications. For example, the various processes described above are not only executed in time series according to the description, but may also be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. In addition, it can change suitably in the range which does not deviate from the meaning of this invention.
Claims (14)
時間領域のディジタル収音信号の前記離散時刻tを含む互いに異なる複数の時刻それぞれから始まる連続するr個のサンプルによる列それぞれをフレーム収音信号として求めるステップと、
前記フレーム再生信号を周波数領域信号に変換して周波数領域再生信号として求めるステップと、
前記複数のフレーム収音信号それぞれを周波数領域信号に変換して複数の周波数領域収音信号として求めるステップと、
前記周波数領域再生信号と複数の前記周波数領域収音信号それぞれとの類似性の指標を算出するステップと、
前記算出した類似性の指標が前記周波数領域再生信号と前記周波数領域収音信号との類似性が最も高くなることを示す、前記周波数領域再生信号と前記周波数領域収音信号が対応する時刻の差を遅延値として求めるステップと、
前記遅延値に基づき前記再生信号を遅延させるステップと、
前記遅延された再生信号を用いて、前記収音信号から反響信号を消去するステップと、
を含むエコー消去方法。 Obtaining a sequence of r samples (where r is a plurality) starting from a discrete time t of a digital reproduction signal in the time domain as a frame reproduction signal;
Obtaining each of a sequence of r samples consecutive from a plurality of different times including the discrete time t of the digital sound pickup signal in the time domain as a frame sound pickup signal;
Converting the frame reproduction signal into a frequency domain signal to obtain a frequency domain reproduction signal;
Converting each of the plurality of frame sound collection signals to a frequency domain signal to obtain a plurality of frequency domain sound collection signals;
Calculating an index of similarity between the frequency domain reproduction signal and each of the plurality of frequency domain sound collection signals;
The calculated similarity index indicates that the similarity between the frequency domain reproduction signal and the frequency domain sound collection signal is the highest, and the difference in time corresponding to the frequency domain reproduction signal and the frequency domain sound collection signal. Calculating as a delay value;
Delaying the reproduction signal based on the delay value;
Using the delayed playback signal to erase the echo signal from the collected signal;
Echo cancellation method including
時間領域のディジタル収音信号のある離散時刻tから始まる連続するr個(但し、rは複数)のサンプルによる列をフレーム収音信号として求めるステップと、
前記複数のフレーム再生信号それぞれを周波数領域信号に変換して複数の周波数領域再生信号として求めるステップと、
前記フレーム収音信号を周波数領域信号に変換して周波数領域収音信号として求めるステップと、
前記周波数領域収音信号と複数の前記周波数領域再生信号それぞれとの類似性の指標を算出するステップと、
前記算出した類似性の指標が前記周波数領域収音信号と前記周波数領域再生信号との類似性が最も高くなることを示す、前記周波数領域収音信号と前記周波数領域再生信号が対応する時刻の差を遅延値として求めるステップと、
前記遅延値に基づき前記再生信号を遅延させるステップと、
前記遅延された再生信号を用いて、前記再生信号から反響信号を消去するステップと、
を含むエコー消去方法。 Obtaining, as a frame reproduction signal, a sequence of successive r samples starting from a plurality of different times including the discrete time t of the digital reproduction signal in the time domain;
Obtaining a sequence of r samples (where r is a plurality) starting from a discrete time t of a digital sound pickup signal in the time domain as a frame sound pickup signal;
Converting each of the plurality of frame reproduction signals into a frequency domain signal to obtain a plurality of frequency domain reproduction signals;
Converting the frame sound collection signal into a frequency domain signal to obtain a frequency domain sound collection signal;
Calculating an index of similarity between the frequency domain collected signal and each of the plurality of frequency domain reproduction signals;
The calculated similarity index indicates that the similarity between the frequency domain sound collection signal and the frequency domain reproduction signal is the highest, and the difference in time corresponding to the frequency domain sound collection signal and the frequency domain reproduction signal. Calculating as a delay value;
Delaying the reproduction signal based on the delay value;
Using the delayed playback signal to eliminate an echo signal from the playback signal;
Echo cancellation method including
時間領域のディジタル収音信号の前記離散時刻tを含む互いに異なる複数の時刻それぞれから始まる連続するr個のサンプルによる列それぞれをフレーム収音信号として求めるステップと、
前記フレーム再生信号と複数の前記フレーム収音信号それぞれとの類似性の指標を算出するステップと、
前記算出した類似性の指標が前記フレーム再生信号と前記フレーム収音信号との類似性が最も高くなることを示す、前記フレーム再生信号と前記フレーム収音信号が対応する時刻の差を遅延値として求めるステップと、
前記遅延値に基づき前記再生信号を遅延させるステップと、
前記遅延された再生信号を用いて、前記収音信号から反響信号を消去するステップと、
を含むエコー消去方法。 Obtaining a sequence of r samples (r is a plurality) starting from a discrete time t of a digital reproduction signal in the time domain as a frame reproduction signal;
Obtaining each of a sequence of r samples consecutive from a plurality of different times including the discrete time t of the digital sound pickup signal in the time domain as a frame sound pickup signal;
Calculating an index of similarity between the frame reproduction signal and each of the plurality of frame sound collection signals;
The calculated similarity index indicates that the similarity between the frame reproduction signal and the frame sound pickup signal is the highest, and the difference between the times corresponding to the frame reproduction signal and the frame sound pickup signal is used as a delay value. Seeking steps,
Delaying the reproduction signal based on the delay value;
Using the delayed playback signal to erase the echo signal from the collected signal;
Echo cancellation method including
時間領域の前記再生信号と時間領域の前記収音信号との相関値を、前記収音信号のフレーム番号とサンプル番号を変化させながら各フレームの各サンプルに対して求める相関値算出部と、
前記相関値が最大となるときの収音信号のフレーム番号とサンプル番号を用いて、遅延値を算出する遅延値算出部と、
前記遅延値に基づき前記再生信号を遅延させる信号蓄積部と、
前記遅延された再生信号を用いて、前記収音信号から反響信号を消去するエコー消去部と、
を含むエコー消去装置。 An echo canceller that estimates a delay amount of a reproduction signal using an echo signal included in a collected sound signal,
A correlation value calculation unit for obtaining a correlation value between the reproduction signal in the time domain and the sound collection signal in the time domain for each sample of each frame while changing a frame number and a sample number of the sound collection signal;
A delay value calculating unit that calculates a delay value using a frame number and a sample number of a sound pickup signal when the correlation value is maximized;
A signal accumulator that delays the reproduction signal based on the delay value;
Using the delayed reproduction signal, an echo canceling unit for canceling an echo signal from the collected sound signal;
Echo canceller including
前記相関値算出部は、
時間領域の前記再生信号を所定の範囲毎に合算し、時間領域の前記収音信号を前記所定の範囲毎に合算し、
合算した前記再生信号と合算した前記収音信号とのエリア相関値を、各フレームの各前記所定の範囲に対して求め、
時間領域の前記再生信号と時間領域の前記収音信号との相関値を、前記収音信号のフレーム番号を変化させ、かつ、前記エリア相関値が最大となるときの所定の範囲を中心とする前後数サンプルの範囲内でサンプル番号を変化させながら、各フレームの各サンプルに対して求める、
エコー消去装置。 The echo canceller according to claim 4,
The correlation value calculation unit
Summing the reproduction signals in the time domain for each predetermined range, summing the sound collection signals in the time domain for each predetermined range,
An area correlation value between the summed reproduction signal and the summed sound pickup signal is obtained for each predetermined range of each frame,
The correlation value between the reproduction signal in the time domain and the sound collection signal in the time domain is centered on a predetermined range when the frame number of the sound collection signal is changed and the area correlation value is maximized. Obtain for each sample of each frame, changing the sample number within the range of several samples before and after,
Echo canceler.
周波数領域の前記再生信号と周波数領域の前記収音信号とを用いて、前記収音信号のフレーム番号を変化させながら、各フレームの各サンプルに対して相関値を求める相関値算出部と、
前記相関値が最大となるときの収音信号のフレーム番号とサンプル番号を用いて、遅延値を算出する遅延値算出部と、
前記遅延値に基づき前記再生信号を遅延させる信号蓄積部と、
前記遅延された再生信号を用いて、前記収音信号から反響信号を消去するエコー消去部と、
を含むエコー消去装置。 An echo canceller that estimates a delay amount of a reproduction signal using an echo signal included in a collected sound signal,
A correlation value calculation unit that obtains a correlation value for each sample of each frame while changing the frame number of the sound collection signal using the reproduction signal in the frequency domain and the sound collection signal in the frequency domain;
A delay value calculating unit that calculates a delay value using a frame number and a sample number of a sound pickup signal when the correlation value is maximized;
A signal accumulator that delays the reproduction signal based on the delay value;
Using the delayed reproduction signal, an echo canceling unit for canceling an echo signal from the collected sound signal;
Echo canceller including
信号バッファに蓄積されている前記再生信号の内、現フレームを含めて過去数フレームを出力する第二信号出力部と、をさらに含み、
前記相関値算出部は、過去数フレームの前記再生信号と前記収音信号とを用いて、過去数フレームの前記再生信号のフレーム番号と前記収音信号のフレーム番号を変化させながら、各再生信号と各収音信号の各組合せの各サンプルに対して相関値を求める、
エコー消去装置。 The echo canceller according to claim 6,
A second signal output unit for outputting the past several frames including the current frame among the reproduction signals accumulated in the signal buffer; and
The correlation value calculating unit uses each of the reproduced signals of the past several frames and the collected sound signal to change each reproduced signal while changing the frame number of the reproduced signal of the past several frames and the frame number of the collected sound signal. And obtain a correlation value for each sample of each combination of collected sound signals,
Echo canceler.
前記相関値を蓄積する相関蓄積部をさらに含み、
βを0以上1以下の実数とし、前記遅延値算出部は、前記相関値が最大となるときの収音信号のサンプル番号nmaxと蓄積された相関値c− f oldを用いて、前記相関値cfを
として平滑化し、平滑化した相関値c− fと当該相関値c− fが最大となるときの収音信号のフレーム番号を用いて、遅延値を算出する、
エコー消去装置。 The echo canceller according to any one of claims 4 to 7,
A correlation storage unit for storing the correlation value;
β is a real number not less than 0 and not more than 1, and the delay value calculation unit uses the sample number n max of the collected sound signal when the correlation value is maximized and the accumulated correlation value c − f old. The value c f
Smoothed as, smoothed correlation value c - f and the correlation value c - f by using the frame number of the sound signals picked up when the maximum, to calculate a delay value,
Echo canceler.
前記相関値算出部は、周波数領域の前記再生信号Xmの大きさに応じて、ゲインを生成し、当該ゲインと前記再生信号Xmと前記収音信号とを用いて、前記収音信号のフレーム番号を変化させながら、各フレームの各サンプルに対して相関値を求める、
エコー消去装置。 The echo canceller according to claim 6 or 7,
The correlation value calculating section in accordance with the magnitude of the reproduced signal X m in the frequency domain, to generate a gain, using said collected sound signal with the gain and the reproduced signal X m, the collected sound signal While changing the frame number, find the correlation value for each sample in each frame.
Echo canceler.
前記第二信号出力部は、信号バッファに蓄積されている前記再生信号の内、現フレームを含めて過去数フレームを出力する際に、Aフレーム毎の過去のフレームを出力する、
エコー消去装置。 The echo canceller according to claim 7, comprising:
The second signal output unit outputs a past frame for each A frame when outputting the past several frames including the current frame among the reproduction signals accumulated in the signal buffer.
Echo canceler.
所定数の前記遅延値を受け取り、最も頻度の高い遅延値を遅延推定値として出力する遅延出力部をさらに含み、
前記信号蓄積部は、前記遅延値に基づき得られる前記遅延推定値に応じて前記再生信号を遅延させる、
エコー消去装置。 The echo canceller according to any one of claims 4 to 10,
A delay output unit that receives a predetermined number of the delay values and outputs the most frequent delay value as a delay estimation value;
The signal storage unit delays the reproduction signal according to the delay estimation value obtained based on the delay value;
Echo canceler.
αを減衰係数とし、前記遅延値dmaxと前回推定した遅延推定値d’estとを用いて、今回の遅延推定値destを
dest=(1-α)dmax+αd’est (20)
として出力する遅延出力部をさらに含む、
エコー消去装置。 The echo canceller according to any one of claims 4 to 10,
α is an attenuation coefficient, and using the delay value d max and the previously estimated delay estimate d ′ est , the current delay estimate d est is
d est = (1-α) d max + αd ' est (20)
A delay output unit that outputs as
Echo canceler.
前記遅延値算出部は、前記相関値が最大となるときの収音信号のフレーム番号を遅延値として算出する、
エコー消去装置。 The echo canceller according to claim 11, comprising:
The delay value calculation unit calculates a frame number of a sound pickup signal when the correlation value is maximum as a delay value.
Echo canceler.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011143121A JP5235226B2 (en) | 2011-06-28 | 2011-06-28 | Echo canceling apparatus and program thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011143121A JP5235226B2 (en) | 2011-06-28 | 2011-06-28 | Echo canceling apparatus and program thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013012841A true JP2013012841A (en) | 2013-01-17 |
JP5235226B2 JP5235226B2 (en) | 2013-07-10 |
Family
ID=47686371
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011143121A Active JP5235226B2 (en) | 2011-06-28 | 2011-06-28 | Echo canceling apparatus and program thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5235226B2 (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015162872A (en) * | 2014-02-28 | 2015-09-07 | 沖電気工業株式会社 | Echo suppression device, program and method |
JP2016025471A (en) * | 2014-07-18 | 2016-02-08 | 沖電気工業株式会社 | Echo suppression device, echo suppression program, echo suppression method and communication terminal |
JP2016152455A (en) * | 2015-02-16 | 2016-08-22 | 沖電気工業株式会社 | Echo suppression device, echo suppression program and echo suppression method |
JP2019504539A (en) * | 2016-05-25 | 2019-02-14 | テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド | Echo delay tracking method, apparatus and computer storage medium |
JP2021500778A (en) * | 2017-10-23 | 2021-01-07 | アイフライテック カンパニー,リミテッド | Echo cancellation method and equipment based on delay time estimation |
JP2021530919A (en) * | 2018-07-18 | 2021-11-11 | グーグル エルエルシーGoogle LLC | Echo detection |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002544702A (en) * | 1999-05-10 | 2002-12-24 | テレフオンアクチーボラゲツト エル エム エリクソン | Pure delay estimation |
JP2003060530A (en) * | 2001-08-13 | 2003-02-28 | Fujitsu Ltd | Echo suppression processing system |
JP2004297236A (en) * | 2003-03-26 | 2004-10-21 | Hitachi Communication Technologies Ltd | Communication system and echo canceller used therefor |
WO2007067125A2 (en) * | 2005-12-05 | 2007-06-14 | Telefonaktiebolaget Lm Ericsson (Publ) | Echo detection |
US20090080644A1 (en) * | 2007-09-26 | 2009-03-26 | Psytechnics Limited | Signal processing |
JP2009212953A (en) * | 2008-03-05 | 2009-09-17 | Oki Electric Ind Co Ltd | Propagation delay time estimator, program and method, and echo canceler |
JP2009232417A (en) * | 2008-03-25 | 2009-10-08 | Fujitsu Ltd | Measuring method, echo occurrence location identifying method, measuring apparatus, and echo occurrence location identifying apparatus |
-
2011
- 2011-06-28 JP JP2011143121A patent/JP5235226B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002544702A (en) * | 1999-05-10 | 2002-12-24 | テレフオンアクチーボラゲツト エル エム エリクソン | Pure delay estimation |
JP2003060530A (en) * | 2001-08-13 | 2003-02-28 | Fujitsu Ltd | Echo suppression processing system |
JP2004297236A (en) * | 2003-03-26 | 2004-10-21 | Hitachi Communication Technologies Ltd | Communication system and echo canceller used therefor |
WO2007067125A2 (en) * | 2005-12-05 | 2007-06-14 | Telefonaktiebolaget Lm Ericsson (Publ) | Echo detection |
US20090080644A1 (en) * | 2007-09-26 | 2009-03-26 | Psytechnics Limited | Signal processing |
JP2009212953A (en) * | 2008-03-05 | 2009-09-17 | Oki Electric Ind Co Ltd | Propagation delay time estimator, program and method, and echo canceler |
JP2009232417A (en) * | 2008-03-25 | 2009-10-08 | Fujitsu Ltd | Measuring method, echo occurrence location identifying method, measuring apparatus, and echo occurrence location identifying apparatus |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015162872A (en) * | 2014-02-28 | 2015-09-07 | 沖電気工業株式会社 | Echo suppression device, program and method |
JP2016025471A (en) * | 2014-07-18 | 2016-02-08 | 沖電気工業株式会社 | Echo suppression device, echo suppression program, echo suppression method and communication terminal |
JP2016152455A (en) * | 2015-02-16 | 2016-08-22 | 沖電気工業株式会社 | Echo suppression device, echo suppression program and echo suppression method |
JP2019504539A (en) * | 2016-05-25 | 2019-02-14 | テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド | Echo delay tracking method, apparatus and computer storage medium |
JP2021500778A (en) * | 2017-10-23 | 2021-01-07 | アイフライテック カンパニー,リミテッド | Echo cancellation method and equipment based on delay time estimation |
JP7018130B2 (en) | 2017-10-23 | 2022-02-09 | アイフライテック カンパニー,リミテッド | Echo cancellation method and equipment based on delay time estimation |
US11323807B2 (en) | 2017-10-23 | 2022-05-03 | Iflyiek Co., Ltd. | Echo cancellation method and apparatus based on time delay estimation |
JP2021530919A (en) * | 2018-07-18 | 2021-11-11 | グーグル エルエルシーGoogle LLC | Echo detection |
JP7159438B2 (en) | 2018-07-18 | 2022-10-24 | グーグル エルエルシー | echo detection |
JP2022185114A (en) * | 2018-07-18 | 2022-12-13 | グーグル エルエルシー | echo detection |
US11695876B2 (en) | 2018-07-18 | 2023-07-04 | Google Llc | Echo detection |
JP7455923B2 (en) | 2018-07-18 | 2024-03-26 | グーグル エルエルシー | echo detection |
Also Published As
Publication number | Publication date |
---|---|
JP5235226B2 (en) | 2013-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109727604B (en) | Frequency domain echo cancellation method for speech recognition front end and computer storage medium | |
JP5235226B2 (en) | Echo canceling apparatus and program thereof | |
JP4210521B2 (en) | Noise reduction method and apparatus | |
JP2014502074A (en) | Echo suppression including modeling of late reverberation components | |
US9866792B2 (en) | Display apparatus and echo cancellation method thereof | |
WO2014181330A1 (en) | A method and apparatus for suppression of unwanted audio signals | |
JP2003534570A (en) | How to suppress noise in adaptive beamformers | |
WO2017160294A1 (en) | Spectral estimation of room acoustic parameters | |
JP2013068809A (en) | Reverberation suppression device, reverberation suppression method, and reverberation suppression program | |
JP2011509008A (en) | Noise suppression method and apparatus | |
KR102190833B1 (en) | Echo suppression | |
JP6087762B2 (en) | Reverberation suppression apparatus and method, program, and recording medium | |
JP5662232B2 (en) | Echo canceling apparatus, method and program | |
JP2010056778A (en) | Echo canceller, echo canceling method, echo canceling program, and recording medium | |
CN111989934A (en) | Echo cancellation device, echo cancellation method, signal processing chip, and electronic apparatus | |
JP3673727B2 (en) | Reverberation elimination method, apparatus thereof, program thereof, and recording medium thereof | |
JP3514714B2 (en) | Sound collection method and device | |
JP6143702B2 (en) | Echo canceling apparatus, method and program | |
KR102045953B1 (en) | Method for cancellating mimo acoustic echo based on kalman filtering | |
KR100754558B1 (en) | Periodic signal enhancement system | |
JP2006113515A (en) | Noise suppressor, noise suppressing method, and mobile communication terminal device | |
KR20220157475A (en) | Echo Residual Suppression | |
JP6356087B2 (en) | Echo canceling apparatus, method and program | |
JP4456594B2 (en) | Acoustic coupling amount calculation device, echo cancellation device and voice switch device using acoustic coupling amount calculation device, call state determination device, method thereof, program thereof and recording medium thereof | |
JP5815614B2 (en) | Reverberation suppression apparatus and method, program, and recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121225 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130218 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130319 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130325 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5235226 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160405 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |