JP3756828B2 - Reverberation elimination method, apparatus for implementing this method, program, and recording medium therefor - Google Patents
Reverberation elimination method, apparatus for implementing this method, program, and recording medium therefor Download PDFInfo
- Publication number
- JP3756828B2 JP3756828B2 JP2002048553A JP2002048553A JP3756828B2 JP 3756828 B2 JP3756828 B2 JP 3756828B2 JP 2002048553 A JP2002048553 A JP 2002048553A JP 2002048553 A JP2002048553 A JP 2002048553A JP 3756828 B2 JP3756828 B2 JP 3756828B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- frequency domain
- microphone
- channel
- echo
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Description
【0001】
【発明の属する技術分野】
この発明は、反響消去方法、装置、プログラムおよびその記録媒体に関し、特に、拡声通話装置の如き音響通信装置において通話の障害となり、時にはハウリングを引き起こす反響を消去する反響消去方法、装置、プログラムおよびその記録媒体に関する。
【0002】
【従来の技術】
拡声通話装置においては、受話音声がスピーカから拡声されてマイクロホンに回り込み収音されて生じる反響が問題となる。通信回線を介して相互接続された拡声通話装置について閉ループのループゲインが1より大きい場合、ハウリングを引き起こして通話を不可能にする。また、ループゲインが1より小さい場合であっても、反響は通話の障害となると共に不快感を与える。より自然な通話環境を実現するために、スピーカからマイクロホンへの音響的回り込みにより生じる反響の消去が必要となる。
【0003】
図1を参照するに、反響消去装置はMチャネル再生系と1チャネル収音系に接続され、反響の消去を行う。ここで、受話端子1m (m=1ないしM)から入力される受話信号は、スピーカ2m (m=1ないしM)において音響信号として再生され、反響経路h m (m=1ないしM)を経てマイクロホン3に回り込む。
受話端子1m と送話端子5の間に接続される反響消去部4により反響を消去する。この反響消去部4はM入力1出力適応フィルタより成る。マイクロホン3がN個ある場合は、図1に示されるM入力1出力適応フィルタをN個並列に並べた構成とする。
【0004】
この反響消去部4の構成を図2を参照して説明する。各受話信号を予測反響生成部41に入力して予測反響信号を生成し、この予測反響信号とマイクロホン3から入力する収音信号との間の差が減算器42においてとられ、この残差信号e(k)が反響経路推定部43にフィードバックされる。予測反響生成部41への入力信号をxm(k)、マイクロホン3により収音された収音信号をy(k)、スピーカ2mからマイクロホン3に到る反響経路のインパルス応答をhm、その長さをLとすると、受話チャネル数M=1のとき、入力信号xm(k)と収音信号y(k)の間には、
【0005】
【数6】
【0006】
の様にベクトル化することで、入力信号x(k)と収音信号y(k)の関係を受話チャネル数M=1のケースと同様に記述することができる。
反響消去部4の内部においては、予測反響生成部41により予測反響信号が生成されて、実際の収音信号y(k)との間の差e(k)および過去の入力信号xm(k)に基づいて収音信号y(k)と予測反響信号の差である残差信号e(k)が小さくなる様に予測反響信号生成用の適応フィルタの係数が逐次更新される。
ここにおいては、適応フィルタ係数の更新法をNLMS法とした場合を説明する。実際の収音信号y(k)から適応フィルタにより予測された予測反響信号を差し引いて得られる残差信号e(k)は、
【0007】
【数7】
【0008】
により更新する。ただし、μは推定を安定にするため、0〜1の固定した値に設定されるステップサイズである。
この適応フィルタ更新方法において、収音信号y(k)は反響のみが収音されたものであることを前提としている。しかし、拡声通話装置が実際に使用されるときは、収音信号y(k)には送話および騒音の如き反響以外の信号が当然に含まれる。ここで、反響信号をyE(k)、送話および騒音の如き反響以外の信号を妨害信号yI(k)とし、収音信号y(k)が
y(k)=yE(k)+yI(k)
で表されるものとする。このとき、NLMS法の適応フィルタ更新式は
【0009】
【数8】
【0010】
の方向に修正される。ただし、ε[・]は平均をとることを意味する。この第2項は理想的な修正方向からのズレを表し、送話および騒音が妨害信号として働くことがわかる。収音信号y(k)に妨害信号yI(k)が含まれる状況においては、適応フィルタの係数がこの分だけ誤って更新されるので、ステップサイズμの値に応じたノイズが発生し、ときには適応フィルタを発散させる。発散を回避するには、ステップサイズμを充分に小さくする必要があるが、実際は不必要に小さいμを選択するか、或は発散しない程度の大きさのμで反響以外の音響の妨害による不正確な修正を或る確率で許容することになり、収束速度を低下させることにつながる。
【0011】
文献 A.Mader,H.Puder,G.U.Schmidt,“Step-size control for acoustic echo cancellation filters-an overview,”Signal Processing,80,pp.1697-1719(2000)には、この様な状況において最適なステップサイズμを導く方法が示されている。これによれば、反響と予測反響の差である残留反響信号
【0012】
【数9】
【0013】
で求められる。
この式によれば、妨害信号パワーε[yI 2(k)]が大きくなる程ステップサイズμが小さく設定されることにより、妨害信号yI(k)が適応フィルタ推定に及ぼす影響を減少させている。
【0014】
【発明が解決しようとする課題】
しかし、実際の環境でこの最適なステップサイズμをそのまま求めて適応フィルタを更新することはできなかった。それは、残留反響信号eE(k)に妨害信号が重畳している残差信号から、残留反響信号eE(k)だけを抽出することはできないからである。また、反響消去装置は、本来、スピーカ2m からマイクロホン3までの未知の反響経路hを推定しながら反響を消去するに使用されるので、
eE(k)=(h(k)−h ^(k))T x(k)
の関係式から残留反響信号を求めることもできないからである。
【0015】
仮に、妨害信号yI(k)のパワーε[yI 2(k)]が一定で、そのレベルが予め分かっている場合、最適なステップサイズμを算出することはできる。しかし、通常は、騒音信号のレベルは一定とは限らないし、送話信号のレベルは時々刻々と変動している。
以上の状況において、最適なステップサイズμを使用して適応フィルタを更新するには、残差信号に占める反響成分の比率を推定する必要がある。
この発明の目的は、残差信号あるいは収音信号から残差信号に占める反響成分の比率を求め、この情報をもちいて適応フィルタ係数を更新することにより、多チャネル音響通信における上述の問題を解決する反響消去方法、装置、プログラムおよびその記録媒体を提供することにある。
【0016】
【課題を解決するための手段】
この発明によれば、スピーカM個(Mは2以上の整数)とマイクロホンN個(Nは1以上の整数)が共通の音場に配置され、スピーカからMチャネル信号を再生し、各マイクロホンに対応する各M入力1出力適応フィルタにMチャネル再生信号を入力して反響信号を予測し、マイクロホンからの収音信号から適応フィルタ出力信号を差し引いて得られる残差信号を小さくするように適応フィルタ係数を更新する多チャネル音響通信システムにおいて、残差信号に占める反響成分の比率を使用して適応フィルタ係数を更新する反響消去方法を構成する。また残差信号の代わりに収音信号に占める反響成分の比率を使用して適応フィルタ係数を更新する反響消去方法を構成することもできる。これにより、収音信号に反響以外の信号が含まれる状況でも適応フィルタによる反響消去と反響経路推定が安定になる。
【0017】
また、Mチャネル再生信号を短時間区間ごとに周波数領域に変換し、周波数領域の適応フィルタ係数に乗算し、時間領域に変換して反響信号を予測し、収音信号から予測した反響信号を差し引いて得られた残差信号を短時間区間ごとに周波数領域に変換し、再生信号と対象信号の短時間スペクトルから、周波数帯域ごとに対象信号に占める反響成分の比率を求める。周波数領域で周波数成分ごとに残差信号と再生信号を乗算して求めた修正ベクトルを、対象信号に占める反響成分の比率、および入力信号と修正用信号の情報に基づいて周波数帯域ごとに補正して、適応フィルタ係数を更新する反響消去方法を構成した。適応フィルタ係数を周波数領域で取り扱うことにより、収音信号に反響以外の信号が含まれる状況での反響消去と反響経路推定を安定にしつつ、トータルの演算量を大幅に削減することができる。
【0018】
また、Mチャネル受話信号を処理して、チャネル間相関がほぼ無相関とみなせるMチャネル付加信号を生成し受話信号に加算して再生信号とし、短時間区間ごとに周波数領域に変換して周波数領域の適応フィルタ係数に乗算したのち時間領域に変換して反響信号を予測し、収音信号と予測した反響信号との残差信号を短時間区間ごとに周波数領域に変換し、再生信号と対象信号の短時間スペクトルから周波数帯域ごとに対象信号に占める反響成分の比率を求め、Mチャネル付加信号にa倍(aは0〜1の値)したMチャネル受話信号を加算して修正用信号を生成し、修正用信号を短時間区間ごとに周波数領域に変換し、周波数領域で周波数成分ごとに残差信号と修正用信号を乗算して求めた修正ベクトルを対象信号に占める反響成分の比率および入力信号と修正用信号の情報に基づいて周波数帯域ごとに補正し、補正された修正ベクトルで適応フィルタ係数を更新する反響消去方法を構成した。これにより、収音信号に反響以外の信号が含まれる状況での反響消去および反響経路推定を安定にし、トータルの演算量を大幅に削減しつつ、反響経路推定を高速化できる。
【0019】
更に、第mチャネル再生信号より第1〜第m-1チャネル再生信号との相関成成分を除去した信号の短時間スペクトルを求め、対象信号より、第1〜第m-1チャネル再生信号との相関成分を除去した信号の短時間スペクトルを求め、これらの短時間スペクトルから求めたコヒーレンスをもちいて、対象信号に占める反響成分の比率を求める反響消去方法を構成する。このような推定法により、再生信号、収音信号に含まれる反響以外が時々刻々と変動する状況でも残差信号もしくは収音信号に占める反響成分の比率を確実に推定することが可能となる。
【0020】
【発明の実施の形態】
残差信号もしくは収音信号を対象信号とするときに対象信号に占める反響成分の比率を推定する目的で、コヒーレンス即ち、クロススペクトルをパワースペクトルで正規化して得られる複素関数の振幅2乗値を使用することができる。以下、残差信号を対象信号とする場合について説明する。
入力チャネル数がM=1のモノラルの反響消去装置について、適応フィルタへの入力信号x(k)と残差信号e(k)のパワースペクトルをSxx(f)、See(f)、クロススペクトルをSxe(f)とするとき、コヒーレンスは
【0021】
【数10】
【0022】
で計算される。
通常、入力信号x(k)と妨害信号yI(k)、および残留反響信号eE(k)と妨害信号yI(k)は無相関と見なせるので、
【0023】
【数11】
【0024】
を満たしている。この式によれば、コヒーレンスγ2(f)とは、入力信号スペクトルと相関のある成分が残差信号e(k)のパワースペクトルに占める割合である。即ち、入力信号x(k)と残差信号e(k)のコヒーレンスは、残差信号e(k)に占める反響成分即ち残留反響信号eE(k)のパワー比を表わしている。なお、コヒーレンスについては、例えば日野著、朝倉書店発行『スペクトル解析』に詳説されており、コヒーレンスを使用する解析については、例えば森下、小畑著、計測自動制御学会発行『信号処理』に詳説されている。
【0025】
各パワースペクトルとクロススペクトルは、入力信号x(k)、残留反響信号eE(k)を2L点離散フーリエ変換して求めた短時間スペクトルX(f)、E(f)(f=1、・・・・・・、2L)および時間平均ε[・]から、
【0026】
【数12】
【0027】
の様に求められる。残差信号e(k)から残留反響信号eE(k)と妨害信号yI(k)を分離することはできないが、このコヒーレンス解析を行うことにより、最適なステップサイズμを求めることが可能になる。
【0028】
【数13】
【0029】
【数14】
【0030】
Xm・(m-1)!(f):信号xm(k)から信号x1(k)、・・・・・・、x(m-1)(k)との相関成分を除去した信号の短時間スペクトル、および
E・(m-1)!(f):信号e(k)から信号x1(k)、・・・・・・、x(m-1)(k)との相関成分を除去した信号の短時間スペクトルのコヒーレンスになっている。チャネル数M=2のときと同様に、相関成分を除去した後の短時間スペクトルXm・(m-1)!(f)は
【0031】
【数15】
【0032】
以上の相関成分除去演算は図9の第1の相関除去部4321mと第2の相関除去部4322mにより実行する。第1の相関除去部4321mに入力信号の短時間スペクトルXm(j、f)と相関が除去された信号のスペクトルを入力して相関成分を除去した後の短時間スペクトルXm・(m-1)!(j、f)を得る。第2の相関除去部4322mに反響信号E(j、f)と相関が除去された信号のスペクトルXm・(m-1)!(j、f)を入力して相関成分を除去した後の短時間スペクトルE・(m-1)!(f)を得る。
【0033】
残留反響信号eE(k)の予測値と入力信号x(k)のコヒーレンスγ^2(f)をステップサイズ制御に使用することも考えられる。残留反響信号の予測法として、例えば反響信号yE(k)の各周波数成分をt(f)倍する方法が考えられる。一例として、t(f)=0.1に設定する場合、残留反響の信号パワーを反響信号パワーの−20dBであるものと想定して、残差信号e(k)に占める残留反響信号eE(k)の比率を求めることに対応する。
上述したMチャネル入力信号と残差信号e(k)のコヒーレンス算出と同様にしてMチャネル入力信号x1(k)・・・・・xM(k)と収音信号y(k)のコヒーレンスγ'(f)が求められているとき、残差信号に占める反響信号成分の比率γ^2(f)は
【0034】
【数16】
【0035】
の様に、γ'(f)から算出することができる。
適応フィルタの更新方法としては、上述したNLMS法の如く毎サンプルの処理を時間領域で行う仕方の他に、一定区間毎に処理を行うブロック処理方式がある。これは、文献 E.R.Ferrara,“Fast Implementation of LMS adaptive filters,”IEEE Trans.Acoust.,Speech Signal Processing,vol.ASSP-28,pp.474-475(1980)ですでに提案されている通り、FFTを利用して周波数領域の適応フィルタ係数を扱うことにより、トータルの計算量を大幅に削減することができる。この適応アルゴリズムでは、周波数領域の適応フィルタ係数ベクトルH ^(j)
が
【0036】
【数17】
【0037】
以下、この発明の実施の形態を実施例を参照して説明する。
実施例1
実施例1においては、文献D.Mansour and A.H.Gray,“Unconstrained Frequency-Domain Adaptive Filter,”IEEE Trans.Acoust.,Speech,Signal Processing,vol.ASSP・30,No.5,pp.726-734(1982)で提案されたアルゴリズムをマルチチャネルに拡張し、コヒーレンスに基づくステップサイズ制御方法を適用した場合を説明する。この周波数領域適応アルゴリズムは、白色化処理により受話信号の如きスペクトルに偏りのある信号が入力されても適応フィルタの収束特性の劣化が防止される。
【0038】
以下の説明は、残差信号を対象信号とし、適応フィルタ長をLとし、Overlap-save方式を使用してL/Dサンプル毎に長さ2Lの信号ベクトルを処理する場合を取り扱っている。
(ステップ1)
入力信号xm(k)(m=1、…、M)を、L/Dサンプル毎に長さ2Lの信号ベクトルにブロック化して、FFTにより周波数領域に変換する。
X m(j)=diag(FFT([xm(jL/D−2L+1)、・・・・・、xm(jL/D)]T)、ここで、(m=1、・・・・・、M)
ただし、関数FFT(x)はベクトルxをFFT変換する関数であり、ベクトルxは関数diag(x)によりその要素を対角成分とする行列に変換される。即ち、x=[x(1)・・・・・・x(2L)]Tのとき
【0039】
【数18】
【0040】
(ステップ2)
周波数領域でX m(j)と第mチャネルの周波数領域での適応フィルタ係数ベクトルH ^ m(j)を掛けることで、チャンネル毎に入力信号ベクトルをフィルタ処理する。計算結果を逆FFT処理して、時間領域の信号ベクトルy ^ m(j)を得る。
y ^ m(j)=[0 L I L]IFFT(X m(j)H ^ m(j))ただし、H ^ m(j)は要素数2Lの複素数ベクトルであり、逆FFT変換して前半L個を取り出すと、適応フィルタのインパルス応答になる。0 LはL×Lの零行列、I LはL×Lの単位行列である。
【0041】
(ステップ3)
信号ベクトルy ^ m(j)を加算して、予測反響信号のベクトルy ^(j)を得る。
y ^(j)=ΣM m=1 y ^ m(j)
(ステップ4)
時間領域にて収音信号ベクトルy(j)と予測反響ベクトルy ^(j)から残差信号ベクトルE(j)を求め、FFTにより周波数領域に変換する。
【0042】
【数19】
(ステップ5)
【0043】
【数20】
【0044】
【数21】
【0045】
(ステップ6)
残差信号と入力信号を周波数領域で処理し、修正ベクトルdH ^ m(j)を求める。
【0046】
【数22】
【0047】
ただし、行列X * m(k)の各成分は行列X m(k)各成分の複素共役である。
(ステップ7)
行列P(k)を、
【0048】
【数23】
【0049】
により求めた入力信号のパワースペクトル総和である。ただし、X*は複素数Xの複素共役であり、βは短時間平均をとるための平滑化定数で0<β<1の値をとる。
(ステップ8)
ステップ5において求められた残差信号に占める反響成分の比率γ2(f)から
【0050】
【数24】
【0051】
によりコヒーレンスγ2(f)を対角要素とする行列M(j)を求める。ただし、μ0は0〜1の間の固定値に設定される。適応フィルタを次式で更新する。
H ^ m(j+1)=H ^ m(j)+M(j)P(j)dH ^ m(j)
行列M(j)を掛けることにより周波数帯域毎に残差信号に占める反響成分の比率γ2(f)に基づいてステップサイズが最適に制御される。行列P(j)を修正ベクトルdH ^ m(j)に掛けることは入力信号の白色化処理に対応し、入力信号が音声の様に有色性信号のとき適応フィルタの収束特性を向上させることが知られている。
【0052】
実施例1の方法は、図3の構成の反響消去部4により実施される。
入力信号x1(k)......xM(k)はTF変換部4111〜411Mにてステップ1の如くにブロック化され、周波数領域に変換される。そして、フィルタ処理部4121〜412MとFT変換部4131〜413M、ベクトル加算部414にてステップ2、3の様に時間領域の予測反響信号のベクトルy ^(j)が算出される。収音信号y(k)は、入力信号x(k)と時間ズレが生じない様にブロック化部45でブロック化され、そして、信号ベクトル減算部42でステップ4の様に予測反響の信号ベクトルy ^(j)が差し引かれ、TF変換部431にて周波数領域の残差信号ベクトルE(j)が求められる。
【0053】
コヒーレンス推定部432は、周波数領域の残差信号ベクトルE(j)と周波数領域の入力信号ベクトルX m(j)から、ステップ5に従ってコヒーレンスを算出する。コヒーレンス推定部432の具体的構成は図8および図9に示されている。各周波数帯域に対応する第1および第2の相関除去部4321m、4322mに残差信号ベクトルE(j)と周波数領域の入力信号ベクトルX m(j)を入力し、相関の除去された短時間スペクトルからコヒーレンス算出部43231〜4323Mによりコヒーレンスを算出し、反響成分比率算出部4324にて残差信号に占める反響成分の比率を求める。
【0054】
フィルタ更新部4331〜433Mは周波数領域の入力信号ベクトルX m(j)と周波数領域の残差信号ベクトルE(j)とからステップ6に従って周波数領域で修正ベクトルを求めると同時にステップ7に従って行列P(j)を計算する。そして、ステップ8に従って修正ベクトルを補正して適応フィルタ係数を更新する。更新されたフィルタ係数は、フィルタ処理部4121〜412Mに渡される。
実施例2
実施例2は、コヒーレンスに基づくステップサイズ制御方法を、文献 江村、羽田、“付加信号強調型の周波数領域ステレオ適応アルゴリズム”、日本音響学会2001年秋季研究発表会、pp.537−538(2001)で提案されているマルチチャネル適応アルゴリズムに適用し残差信号を対象信号とした場合について説明する。
【0055】
この適応アルゴリズムは、入力信号xm(k)の代わりに修正用信号zm(k)から適応フィルタの修正ベクトルを求める。そのために、図4のMチャネル反響消去部7にはMチャネル受話信号um(k)の他に、相関変動処理部61〜6Mにより生成されたMチャネル付加信号gm(um(k))も入力される。なお、相関変動処理部61〜6Mは、マルチチャネル反響消去装置の反響経路推定性能向上に一般的に使われる装置である。
図4のMチャネル反響消去部7は、以下のステップに従って適応フィルタの係数を更新する。
【0056】
(ステップ1)
各チャネルの受話信号um(k)と受話信号um(k)を相関変動処理部6Mに入力して得られた付加信号gm(um(k))とから再生信号xm(k)と修正用信号zm(k)を
xm(k)=um(k)+gm(um(k))
zm(k)=aum(k)+gm(um(k))
(ただし、m=1、…、M、0<a≦1)
により生成する。そして、L/Dサンプル毎に長さ2Lの信号ベクトルにブロック化し、FFTにより、
X m(j)=diag(FFT([xm(jL/D−2L+1)、…、xm(jL/D)]T))
Z m(j)=diag(FFT([zm(jL/D−2L+1)、…、zm(jL/D)]T))
(ただし、m=1、…、M)
の様に周波数領域に変換する。
【0057】
(ステップ2)
周波数領域でX m(j)とH ^ m(j)を掛けることで、チャネル毎に入力信号ベクトルをフィルタ処理する。計算結果を逆FFT処理し、時間領域の信号ベクトルy ^ m(j)(ただし、m=1、…、M)を得る。
y ^ m(j)=[0 L I L]IFFT(x m(j)H ^ m(j))
ただし、0 LはL×Lの零行列、I LはL×Lの単位行列である。
(ステップ3)
信号ベクトルy ^ m(j)(m=1、…、M)を加算して、予測反響信号のベクトルy ^(j)を得る。
【0058】
y ^(j)=ΣM m=1 y ^ m(j)
(ステップ4)
時間領域にて収音信号ベクトルy(j)と予測反響信号のベクトルy ^(j)から残差信号ベクトルを求め、FFTにより周波数領域に変換する。
【0059】
【数25】
(ステップ5)
【0060】
【数26】
【0061】
【数27】
【0062】
(ステップ6)
残差信号と修正用信号を周波数領域で処理し、修正ベクトルdH ^ m(j)を求める。
【0063】
【数28】
【0064】
により計算する。ただし、関数Xm(j、f)、Zm(j、f)は行列X m(j)および行列Z m(j)の(f、f)番目の要素である。δは分母が0になることを防止するための微小な正定数である。行列P(j)中のp(j、f)は、各チャネルの入力信号と修正用信号のクロススペクトルの総和になっている。
(ステップ8)
ステップ5において求められたコヒーレンスγ2(f)から
【0065】
【数29】
【0066】
によりコヒーレンスγ2(f)を対角要素とする行列M(j)を求める。ただし、μ0は0〜1の間の固定値に設定される。適応フィルタを次式で更新する。
H ^ m(j+1)=H ^ m(j)+M(j)P(j)dH ^ m(j)
行列M(j)を掛けることにより周波数帯域毎に対象信号に占める反響成分の比率に基づいてステップサイズが最適に制御される。行列P(j)を修正ベクトルdH ^ m(j)に掛けることは入力信号の白色化処理に対応し、入力信号が音声の様に有色性信号のとき適応フィルタの収束特性を向上させることが知られている。
【0067】
Mチャネル反響消去部7の内部は、図5の様な構成をとる。再生信号xm(k)および修正用信号zm(k)をTF変換するTF変換部702m、705mは、図3のTF変換部411mに対応している。
加算器701mにより受話信号um(k)に付加信号gm(um(k))が加算されて再生信号xm(k)が生成され、TF変換部702mによって行列X m(j)に変換
される。また、受話信号をum(k) は減衰器703mによりa倍され(ただし、aは0から1の値)、加算器704mにより付加信号gm(um(k))が加算されて修正用信号zm(k)が生成される。そして、TF変換部705mにより行列Z m(j)に変換される。
【0068】
行列X m(j)はフィルタ処理部712mに渡され、行列Z m(j)はフィルタ更新部733mに渡される。フィルタ処理部712m 、FT変換部713m、ベクトル加算部714は、ステップ2およびステップ3の処理を経て予測反響信号が生成される。マイクロホン3から得られる収音信号y(k)は、ブロック化部75でブロック化され、ステップ4に従ってベクトル減算部72にて予測反響信号ベクトルとの差がとられ、TF変換部731で周波数領域へ変換される。
コヒーレンス推定部732は、周波数領域の残差信号ベクトルE(j)と入力信号ベクトルX m(j)からステップ5に従ってコヒーレンスを推定する。
フィルタ更新部733m(m=1、…、M)は、ステップ6、ステップ7、ステップ8に従って周波数領域でH ^ m(j)を更新する。
【0069】
図7を参照して実施例2の数値シミュレーション結果を説明する。
この数値シミュレーションは、入力チャネル数をM=2とし、サンプリング周波数を8kHzに設定し、反響経路として残響時間200msの部屋で実測した室内伝達関数を700タップに打ち切って反響を生成した。また、妨害信号としてはレベル変動するホス雑音と送話信号が重畳した信号を使用した。反響信号、妨害信号、収音信号=反響信号+妨害信号および本手法適用後の残差信号e(k)は、それぞれ図6の様になっている。この信号を使用し、ステップサイズ制御を行わない従来方法と提案するステップサイズ制御方法を比較した。
【0070】
チャネル当りの適応フィルタタップ数をL=512とし、適応フィルタが128サンプル即ち16ms毎に更新される様にD=4に設定した。また、μ0=0.2に設定した。適応フィルタの係数誤差の変化を図7に示す。このグラフによれば、妨害信号が若干大きくなっている区間(t=4〜6s)において、従来方法(点線)では推定による係数誤差が悪化している。しかし、提案方法(実線)は、この区間の推定は安定である。また、妨害信号が急激に大きくなる区間(t=6s)において、従来方法は係数誤差が0dBから8dBに拡大して反響経路推定が不安定になっている。一方、提案方法は、この区間の係数誤差の悪化は−6dBから−5dBの1dBにとどまっている。
【0071】
【発明の効果】
以上の通りであって、この発明によれば、周波数領域の適応フィルタ係数と直前フレームのフィルタ係数の間の修正量として、従来の修正ベクトルと入力信号パワーの逆数の積を、残差信号もしくは収音信号と入力信号との間のコヒーレンスを用いて補正することにより、送話、周囲騒音その他の反響以外の妨害信号の存在する状況下においても適応フィルタの反響経路推定を頑健にすることができる。
【図面の簡単な説明】
【図1】多チャネル音響通信装置全体の概略を説明する図。
【図2】従来例を説明する図。
【図3】実施例を説明する図。
【図4】実施例を含む多チャネル音響通信装置全体の概略を説明する図。
【図5】他の実施例を説明する図。
【図6】反響信号、妨害信号、収音信号を示す図。
【図7】実施例の数値シミュレーション結果を示す図。
【図8】コヒーレンスおよび反響成分比率の算出を説明する図。
【図9】相関成分除去演算を説明する図。[0001]
BACKGROUND OF THE INVENTION
BACKGROUND OF THE
[0002]
[Prior art]
In a loudspeaker device, there is a problem of reverberation that occurs when a received voice is loudened from a speaker and is collected by a microphone. If the closed loop gain of a loudspeaker connected via a communication line is greater than 1, it causes howling and makes the call impossible. Even if the loop gain is smaller than 1, the echo becomes an obstacle to the call and gives an unpleasant feeling. In order to realize a more natural call environment, it is necessary to eliminate the echo generated by acoustic wraparound from the speaker to the microphone.
[0003]
Referring to FIG. 1, the echo canceling apparatus is connected to an M channel reproduction system and a one channel sound collection system, and cancels echo. Here, the
Earphone
[0004]
The configuration of the
[0005]
[Formula 6]
[0006]
By vectorizing like this, the relationship between the input signal x (k) and the collected sound signal y (k) can be described in the same manner as in the case where the number of received channels M = 1.
Inside the
Here, a case where the adaptive filter coefficient updating method is the NLMS method will be described. The residual signal e (k) obtained by subtracting the predicted echo signal predicted by the adaptive filter from the actual collected signal y (k) is:
[0007]
[Expression 7]
[0008]
Update with However, μ is a step size set to a fixed value of 0 to 1 in order to stabilize the estimation.
In this adaptive filter updating method, it is assumed that the collected sound signal y (k) is a signal obtained by collecting only echo. However, when the voice communication device is actually used, the sound pickup signal y (k) naturally includes signals other than reverberation such as transmission and noise. Where y is the echo signalE(k) Signals other than reverberation such as transmission and noise are disturbing signals yI(k) and the collected sound signal y (k) is
y (k) = yE(k) + yI(k)
It shall be represented by At this time, the adaptive filter update formula of the NLMS method is
[0009]
[Equation 8]
[0010]
Will be corrected in the direction of. However, ε [·] means taking an average. This second term represents a deviation from the ideal correction direction, and it can be seen that transmission and noise act as interference signals. Interference signal y to sound collection signal y (k)IIn the situation where (k) is included, the coefficient of the adaptive filter is erroneously updated by this amount, so that noise corresponding to the value of the step size μ is generated and sometimes the adaptive filter is diverged. In order to avoid divergence, it is necessary to make the step size μ sufficiently small. Accurate correction is allowed with a certain probability, leading to a decrease in convergence speed.
[0011]
Reference A.Mader, H. Puder, GUSchmidt, “Step-size control for acoustic echo cancellation filters-an overview,” Signal Processing, 80, pp. 1697-1719 (2000). A method for deriving the step size μ is shown. According to this, the residual echo signal, which is the difference between the echo and the predicted echo
[0012]
[Equation 9]
[0013]
Is required.
According to this equation, the interference signal power ε [yI 2(k)] becomes larger as the step size μ is set smaller.IThe effect of (k) on adaptive filter estimation is reduced.
[0014]
[Problems to be solved by the invention]
However, the adaptive filter cannot be updated by obtaining the optimum step size μ as it is in an actual environment. It is the residual echo signal eEFrom the residual signal in which the interference signal is superimposed on (k), the residual echo signal eEThis is because it is not possible to extract only (k). In addition, the echo canceling device is originally a speaker 2.mTo the
eE(k) = (h(k) −h ^(k))T x(k)
This is because the residual echo signal cannot be obtained from the above relational expression.
[0015]
Temporary signal yI(k) power ε [yI 2If (k)] is constant and the level is known in advance, the optimum step size μ can be calculated. However, normally, the level of the noise signal is not always constant, and the level of the transmission signal varies every moment.
In the above situation, in order to update the adaptive filter using the optimum step size μ, it is necessary to estimate the ratio of the reverberation component in the residual signal.
An object of the present invention is to solve the above-mentioned problem in multi-channel acoustic communication by obtaining the ratio of the reverberation component in the residual signal from the residual signal or the collected sound signal and updating the adaptive filter coefficient using this information. An echo canceling method, apparatus, program and recording medium therefor are provided.
[0016]
[Means for Solving the Problems]
According to the present invention, M speakers (M is an integer of 2 or more) and N microphones (N is an integer of 1 or more) are arranged in a common sound field, reproduce M channel signals from the speakers, An adaptive filter so as to reduce the residual signal obtained by inputting an M channel reproduction signal to each
[0017]
In addition, the M channel reproduction signal is converted into the frequency domain for each short time interval, multiplied by the frequency domain adaptive filter coefficient, converted into the time domain, the echo signal is predicted, and the predicted echo signal is subtracted from the collected sound signal. The residual signal obtained in this way is converted into the frequency domain for each short time interval, and the ratio of the reverberation component occupying the target signal for each frequency band is determined from the reproduction signal and the short time spectrum of the target signal. The correction vector obtained by multiplying the residual signal and playback signal for each frequency component in the frequency domain is corrected for each frequency band based on the ratio of the echo component in the target signal and the information of the input signal and the correction signal. Thus, an echo cancellation method for updating the adaptive filter coefficient is constructed. By handling the adaptive filter coefficients in the frequency domain, the total amount of computation can be greatly reduced while stabilizing the echo cancellation and the echo path estimation in a situation where signals other than the echo are included in the collected sound signal.
[0018]
Further, an M channel received signal is processed to generate an M channel additional signal that can be regarded as having almost no correlation between channels, and is added to the received signal to obtain a reproduced signal. After multiplying by the adaptive filter coefficient of, it converts to the time domain and predicts the reverberation signal, converts the residual signal between the collected sound signal and the predicted reverberation signal to the frequency domain every short time interval, and reproduces the signal and target signal The ratio of the reverberation component occupying the target signal for each frequency band is obtained from the short-time spectrum, and the correction signal is generated by adding the M channel received signal multiplied by a (a is a value between 0 and 1) to the M channel additional signal. Then, the correction signal is converted into the frequency domain for each short time interval, and the correction vector obtained by multiplying the residual signal and the correction signal for each frequency component in the frequency domain and the ratio of the reverberation component in the target signal and the input Based on the information of the force signal and the correction signal, the echo canceling method is configured to correct each frequency band and update the adaptive filter coefficient with the corrected vector corrected. This stabilizes echo cancellation and echo path estimation in a situation where the collected sound signal includes a signal other than echo, and makes it possible to speed up the echo path estimation while greatly reducing the total amount of computation.
[0019]
Further, a short-time spectrum of a signal obtained by removing a correlation component with the first to m-1th channel reproduction signals from the mth channel reproduction signal is obtained, and the first to m-1th channel reproduction signals are obtained from the target signal. A short-time spectrum of the signal from which the correlation component is removed is obtained, and an echo canceling method for obtaining a ratio of the reverberation component in the target signal by using the coherence obtained from the short-time spectrum is configured. By such an estimation method, it is possible to reliably estimate the ratio of the reverberation component in the residual signal or the collected sound signal even in a situation where the components other than the reverberations included in the reproduction signal and the collected sound signal fluctuate every moment.
[0020]
DETAILED DESCRIPTION OF THE INVENTION
For the purpose of estimating the ratio of the reverberation component occupying the target signal when the residual signal or the collected sound signal is the target signal, the coherence, that is, the amplitude squared value of the complex function obtained by normalizing the cross spectrum with the power spectrum is used. Can be used. Hereinafter, a case where the residual signal is the target signal will be described.
For a monaural echo canceller with M = 1, the power spectrum of the input signal x (k) and residual signal e (k) to the adaptive filter is Sxx(f), See(f) Cross spectrum is SxeWhen (f), the coherence is
[0021]
[Expression 10]
[0022]
Calculated by
Usually, the input signal x (k) and the interference signal yI(k) and the residual echo signal eE(k) and interference signal yISince (k) can be considered uncorrelated,
[0023]
## EQU11 ##
[0024]
Meet. According to this equation, the coherence γ2(f) is the ratio of the component correlated with the input signal spectrum to the power spectrum of the residual signal e (k). That is, the coherence between the input signal x (k) and the residual signal e (k) is the reverberation component occupying the residual signal e (k), that is, the residual reverberation signal e.EThe power ratio of (k) is represented. Coherence is described in detail in, for example, “Spectrum Analysis” by Hino and Asakura Shoten, and analysis using coherence is described in detail in “Signal Processing” by, for example, Morishita and Obata, published by the Society of Instrument and Control Engineers. Yes.
[0025]
Each power spectrum and cross spectrum includes an input signal x (k), a residual echo signal eEFrom the short-time spectrum X (f), E (f) (f = 1,..., 2L) and the time average ε [•] obtained by performing (L) discrete Fourier transform of (k),
[0026]
[Expression 12]
[0027]
Is required. Residual echo signal e from residual signal e (k)E(k) and interference signal yIAlthough (k) cannot be separated, an optimal step size μ can be obtained by performing this coherence analysis.
[0028]
[Formula 13]
[0029]
[Expression 14]
[0030]
Xm ・ (m-1)!(f): Signal xmSignal k from (k)1(k), ..., x(m-1)a short-time spectrum of the signal from which the correlation component with (k) is removed, and
E・ (M-1)!(f): Signal x from signal e (k)1(k), ..., x(m-1)This is the coherence of the short-time spectrum of the signal from which the correlation component with (k) is removed. As in the case of the number of channels M = 2, the short-time spectrum X after removing the correlation componentm ・ (m-1)!(f)
[0031]
[Expression 15]
[0032]
The above correlation component removal calculation is performed by the first correlation removal unit 4321 in FIG.mAnd the second correlation removal unit 4322mTo execute. First correlation removal unit 4321mThe short-time spectrum X of the input signalm(j, f) and the short-time spectrum X after the correlation component is removed by inputting the spectrum of the signal from which the correlation is removedm ・ (m-1)!(j, f) is obtained. Second correlation removal unit 4322mThe spectrum X of the signal from which the correlation with the echo signal E (j, f) is removedm ・ (m-1)!Short-time spectrum E after inputting (j, f) and removing the correlation component・ (M-1)!(f) is obtained.
[0033]
Residual echo signal eEpredicted value of (k) and coherence γ of input signal x (k)^ 2It is also conceivable to use (f) for step size control. As a prediction method of the residual echo signal, for example, the echo signal yEA method of multiplying each frequency component of (k) by t (f) is conceivable. As an example, when t (f) = 0.1 is set, it is assumed that the residual echo signal power is −20 dB of the echo signal power, and the residual echo signal e occupies the residual signal e (k).EThis corresponds to obtaining the ratio of (k).
Similar to the above-described coherence calculation of the M channel input signal and the residual signal e (k), the M channel input signal x1(k) ... xMWhen the coherence γ ′ (f) between (k) and the collected sound signal y (k) is obtained, the ratio γ of the reverberant signal component in the residual signal γ^ 2(f)
[0034]
[Expression 16]
[0035]
As described above, it can be calculated from γ ′ (f).
As a method for updating the adaptive filter, there is a block processing method in which processing is performed for each fixed section in addition to the method of processing each sample in the time domain as in the NLMS method described above. This is the FFT, as already proposed in the document ERFerrara, “Fast Implementation of LMS adaptive filters,” IEEE Trans.Acoust., Speech Signal Processing, vol.ASSP-28, pp.474-475 (1980). By using the adaptive filter coefficients in the frequency domain using, the total amount of calculation can be greatly reduced. This adaptive algorithm uses frequency domain adaptive filter coefficient vectors.H ^(J)
But
[0036]
[Expression 17]
[0037]
Embodiments of the present invention will be described below with reference to examples.
Example 1
In Example 1, Document D.Mansour and AHGray, “Unconstrained Frequency-Domain Adaptive Filter,” IEEE Trans.Acoust., Speech, Signal Processing, vol.ASSP · 30, No.5, pp.726-734 ( The case where the algorithm proposed in 1982) is extended to multi-channel and a step size control method based on coherence is applied will be described. This frequency domain adaptive algorithm prevents the convergence characteristics of the adaptive filter from deteriorating even when a signal with a biased spectrum such as a received signal is input by whitening processing.
[0038]
The following description deals with a case where a residual signal is a target signal, an adaptive filter length is L, and a signal vector having a length of 2L is processed for each L / D sample using the overlap-save method.
(Step 1)
Input signal xm(k) (m = 1,..., M) is blocked into a signal vector having a length of 2L for each L / D sample, and converted into the frequency domain by FFT.
X m(J) = diag (FFT ([xm(JL / D-2L + 1), ..., xm(JL / D)]T), Where (m = 1,..., M)
However, the function FFT (x) is a function for performing FFT conversion on the vector x, and the vector x is converted into a matrix having its elements as diagonal components by the function diag (x). That is,x= [X (1)... X (2L)]TWhen
[0039]
[Formula 18]
[0040]
(Step 2)
In the frequency domainX m(J) and an adaptive filter coefficient vector in the frequency domain of the m-th channelH ^ mBy multiplying (j), the input signal vector is filtered for each channel. Time domain signal vector by inverse FFT processing of calculation resulty ^ m(J) is obtained.
y ^ m(J) = [0 L I L] IFFT (X m(J)H ^ m(J)) However,H ^ m(J) is a complex vector of 2L elements, and when the first half L is extracted by inverse FFT conversion, it becomes the impulse response of the adaptive filter.0 LIs an L × L zero matrix,I LIs an L × L unit matrix.
[0041]
(Step 3)
Signal vectory ^ m(J) is added to the vector of predicted echo signalsy ^(J) is obtained.
y ^(J) = ΣM m = 1 y ^ m(J)
(Step 4)
Collected sound signal vector in time domainy(J) and predicted echo vectory ^Residual signal vector from (j)E(J) is obtained and converted to the frequency domain by FFT.
[0042]
[Equation 19]
(Step 5)
[0043]
[Expression 20]
[0044]
[Expression 21]
[0045]
(Step 6)
The residual signal and the input signal are processed in the frequency domain, and the correction vector dH ^ m(J) is obtained.
[0046]
[Expression 22]
[0047]
However, the matrixX * mEach component of (k) is a matrixX m(k) Complex conjugate of each component.
(Step 7)
line; queue; procession; paradeP(k)
[0048]
[Expression 23]
[0049]
Is the total power spectrum of the input signal obtained by However, X*Is a complex conjugate of the complex number X, and β is a smoothing constant for taking a short-time average and takes a value of 0 <β <1.
(Step 8)
Ratio γ of reverberation component in the residual signal obtained in
[0050]
[Expression 24]
[0051]
By coherence γ2matrix with diagonal element (f)M(J) is obtained. However, μ0Is set to a fixed value between 0 and 1. Update the adaptive filter with:
H ^ m(J + 1) =H ^ m(J) +M(J)P(J) dH ^ m(J)
line; queue; procession; paradeMThe ratio γ of the reverberation component in the residual signal for each frequency band by multiplying by (j)2The step size is optimally controlled based on (f). line; queue; procession; paradeP(J) is modified vector dH ^ mApplying to (j) corresponds to the whitening process of the input signal, and it is known that the convergence characteristic of the adaptive filter is improved when the input signal is a colored signal like speech.
[0052]
The method of the first embodiment is performed by the
Input signal x1(k)...xM(k) is a TF conversion unit 411.1~ 411MIn
[0053]
The
[0054]
Example 2
In Example 2, a step size control method based on coherence is described in the literature Emura, Haneda, “Additional signal enhancement type frequency domain stereo adaptive algorithm”, Acoustical Society of Japan 2001 Fall Meeting, pp. A case will be described in which the residual signal is a target signal applied to the multi-channel adaptive algorithm proposed in 537-538 (2001).
[0055]
This adaptive algorithm uses the input signal xmCorrection signal z instead of (k)mThe correction vector of the adaptive filter is obtained from (k). For this purpose, the M channel
The M channel
[0056]
(Step 1)
Receive signal u of each channelm(k) and received signal um(k) Correlation
xm(k) = um(k) + gm(Um(k))
zm(k) = aum(k) + gm(Um(k))
(However, m = 1,..., M, 0 <a ≦ 1)
Generate by. Then, each L / D sample is blocked into a signal vector having a length of 2L, and by FFT,
X m(j) = diag (FFT ([xm(JL / D-2L + 1), ..., xm(JL / D)]T))
Z m(j) = diag (FFT ([zm(JL / D-2L + 1), ..., zm(JL / D)]T))
(However, m = 1, ..., M)
It converts to the frequency domain as follows.
[0057]
(Step 2)
In the frequency domainX m(J) andH ^ mBy multiplying (j), the input signal vector is filtered for each channel. Inverse FFT processing of the calculation result and time domain signal vectory ^ m(J) (where m = 1,..., M).
y ^ m(J) = [0 L I L] IFFT (x m(J)H ^ m(J))
However,0 LIs an L × L zero matrix,I LIs an L × L unit matrix.
(Step 3)
Signal vectory ^ m(J) Vector of predicted echo signal by adding (m = 1,..., M)y ^(J) is obtained.
[0058]
y ^(J) = ΣM m = 1 y ^ m(J)
(Step 4)
Collected sound signal vector in time domainy(J) and vector of predicted echo signaly ^A residual signal vector is obtained from (j) and converted to the frequency domain by FFT.
[0059]
[Expression 25]
(Step 5)
[0060]
[Equation 26]
[0061]
[Expression 27]
[0062]
(Step 6)
The residual signal and the correction signal are processed in the frequency domain, and the correction vector dH ^ m(J) is obtained.
[0063]
[Expression 28]
[0064]
Calculate according to However, function Xm(J, f), Zm(J, f) is a matrixX m(J) and matrixZ mThis is the (f, f) th element of (j). δ is a minute positive constant for preventing the denominator from becoming zero. line; queue; procession; paradePP (j, f) in (j) is the sum of the cross spectrum of the input signal of each channel and the correction signal.
(Step 8)
Coherence γ found in
[0065]
[Expression 29]
[0066]
By coherence γ2matrix with diagonal element (f)M(J) is obtained. However, μ0Is set to a fixed value between 0 and 1. Update the adaptive filter with:
H ^ m(J + 1) =H ^ m(J) +M(J)P(J) dH ^ m(J)
line; queue; procession; paradeMBy multiplying (j), the step size is optimally controlled based on the ratio of the reverberation component in the target signal for each frequency band. line; queue; procession; paradeP(J) is modified vector dH ^ mApplying to (j) corresponds to the whitening process of the input signal, and it is known that the convergence characteristic of the adaptive filter is improved when the input signal is a colored signal like speech.
[0067]
The inside of the M channel
Adder 701mThe received signal umAdditional signal g in (k)m(um(k)) is added to the reproduction signal xm(k) is generated and the TF conversion unit 702 is generated.mMatrix byX mConvert to (j)
Is done. Also, the received signal is um(k) is the attenuator 703.mMultiplied by a (where a is a value from 0 to 1) and adder 704mThe additional signal gm(um(k)) is added to the correction signal zm(k) is generated. Then, the TF conversion unit 705mMatrixZ mconverted to (j).
[0068]
line; queue; procession; paradeX m(J) is a filter processing unit 712.mThe matrixZ m(j) is the filter update unit 733.mPassed to.
The
Filter update unit 733m(M = 1,..., M) in the frequency domain according to
[0069]
The numerical simulation result of Example 2 will be described with reference to FIG.
In this numerical simulation, the number of input channels was set to M = 2, the sampling frequency was set to 8 kHz, and the room transfer function measured in a room having a reverberation time of 200 ms as an echo path was cut to 700 taps to generate echo. Further, as the interference signal, a signal in which the level-changing phos noise and the transmission signal are superimposed is used. FIG. 6 shows an echo signal, an interference signal, a collected sound signal = an echo signal + an interference signal, and a residual signal e (k) after application of this method. Using this signal, we compared the conventional method that does not perform step size control with the proposed step size control method.
[0070]
The number of adaptive filter taps per channel was set to L = 512, and D = 4 was set so that the adaptive filter was updated every 128 samples, that is, every 16 ms. Also, μ0= 0.2. FIG. 7 shows changes in the coefficient error of the adaptive filter. According to this graph, in the section (t = 4 to 6 s) where the interference signal is slightly increased, the coefficient error due to estimation is deteriorated in the conventional method (dotted line). However, in the proposed method (solid line), the estimation of this section is stable. Further, in the section (t = 6 s) in which the interference signal increases suddenly, the coefficient error increases from 0 dB to 8 dB in the conventional method, and the echo path estimation becomes unstable. On the other hand, in the proposed method, the deterioration of the coefficient error in this section is only 1 dB from -6 dB to -5 dB.
[0071]
【The invention's effect】
As described above, according to the present invention, as a correction amount between the adaptive filter coefficient in the frequency domain and the filter coefficient in the immediately preceding frame, the product of the conventional correction vector and the reciprocal of the input signal power is used as a residual signal or By correcting using the coherence between the collected sound signal and the input signal, the echo path estimation of the adaptive filter can be made robust even in the presence of interference signals other than transmission, ambient noise and other echoes. it can.
[Brief description of the drawings]
FIG. 1 is a diagram for explaining the outline of an entire multi-channel acoustic communication apparatus.
FIG. 2 is a diagram illustrating a conventional example.
FIG. 3 is a diagram illustrating an example.
FIG. 4 is a diagram for explaining the outline of the entire multi-channel acoustic communication apparatus including an embodiment.
FIG. 5 is a diagram illustrating another embodiment.
FIG. 6 is a diagram showing a reverberation signal, an interference signal, and a sound collection signal.
FIG. 7 is a diagram showing a numerical simulation result of the example.
FIG. 8 is a diagram for explaining calculation of coherence and echo component ratio.
FIG. 9 is a diagram for explaining correlation component removal calculation.
Claims (4)
前記Mチャネルの再生信号を、短時間区間毎に周波数領域に変換し、Mチャネルの周波数領域再生信号を求める過程と、
前記マイクロホンごとに、前記Mチャネルの周波数領域再生信号とM個の適応フィルタ係数とを乗算して、前記マイクロホンごとのM個の周波数領域予測反響信号を求める過程と、
前記マイクロホンごとのM個の周波数領域予測反響信号を時間領域に変換して、前記マイクロホンごとのM個の時間領域予測反響信号を求める過程と、
前記マイクロホンごとのM個の時間領域予測反響信号を加算し、前記マイクロホンごとの時間領域予測反響信号を求める過程と、
前記マイクロホンによる収音信号それぞれから前記マイクロホンごとの前記時間領域予測反響信号を差し引いて、前記マイクロホンごとの残差信号を求める過程と、
前記マイクロホンごとの残差信号のそれぞれを周波数領域に変換して、前記マイクロホンごとの周波数領域残差信号を求める過程と、
前記マイクロホンごとに、収音信号または残差信号を対象信号として、前記第1チャネルの周波数領域再生信号と前記周波数領域の対象信号のコヒーレンスγ 2 1e (f)を求める過程と、
第mチャネル周波数領域再生信号(mは2以上)より第1〜第m−1チャネル周波数領域再生信号との相関成分を除去する過程と、
前記マイクロホンごとに、前記周波数領域の対象信号より第1〜第m−1チャネル周波数領域再生信号との相関成分を除去する過程と、
前記マイクロホンごとに、前記相関成分が除去された第mチャネル周波数領域再生信号と、前記相関成分が除去された周波数領域の対象信号のコヒーレンスγ 2 me ・ ( m-1)! (f)を求める過程と、
前記マイクロホンごとに、前記M個のコヒーレンスγ 2 me ・ ( m-1)! (f)から、
γ 2 (f)=1−(1−γ 1e (f))・・・(1−γ 2 me ・ ( m-1)! (f))を計算して、対象信号に占める反響成分の比率γ 2 (f)を求める過程と、
前記マイクロホンごとに、Mチャネルの周波数領域残差信号と周波数領域再生信号とをそれぞれ乗算して、Mチャネルの適応フィルタ係数の修正量をそれぞれ求める過程と、
前記マイクロホンごとに、再生信号のパワーの全チャネルの総和の逆数と前記対象信号に占める反響成分の比率γ 2 (f)と前記適応フィルタ係数の修正量とを乗算し、その結果を前記適応フィルタ係数に加えることで適応フィルタ係数を更新する過程を有すること、
を特徴とする反響消去方法。 Arranged in a common sound field, supplies reproduction signals of M channels to M (M is an integer of 2 or more) speakers, and N (N is an integer of 1 or more) arranged in the common sound field. The process of obtaining the collected sound signal with a microphone,
Converting the M channel reproduction signal into a frequency domain for each short time interval to obtain an M channel frequency domain reproduction signal;
Multiplying the M-channel frequency domain reproduction signal and M adaptive filter coefficients for each microphone to obtain M frequency-domain predicted echo signals for each microphone;
Transforming the M frequency domain predicted echo signals for each microphone into the time domain to obtain M time domain predicted echo signals for each microphone;
Adding M time domain predicted echo signals for each microphone to obtain a time domain predicted echo signal for each microphone;
Subtracting the time-domain predicted echo signal for each microphone from each collected sound signal by the microphone to obtain a residual signal for each microphone;
Converting each of the residual signals for each microphone into a frequency domain, and obtaining a frequency domain residual signal for each microphone;
Obtaining a coherence γ 2 1e (f) between the frequency domain reproduction signal of the first channel and the target signal in the frequency domain, using a collected sound signal or a residual signal as a target signal for each microphone ;
Removing a correlation component with the first to (m-1) th channel frequency domain reproduction signals from the mth channel frequency domain reproduction signal (m is 2 or more);
Removing a correlation component with the first to (m-1) th channel frequency domain reproduction signal from the frequency domain target signal for each microphone;
For each microphone, the m-th channel frequency domain reproduction signal from which the correlation component has been removed and the coherence γ 2 me · ( m−1)! (F) of the target signal in the frequency domain from which the correlation component has been removed are obtained. Process,
For each microphone, the M coherences γ 2 me · ( m−1)! (F)
γ 2 (f) = 1− (1−γ 1e (f)) (1−γ 2 me · ( m−1)! (f)) is calculated, and the ratio of the reverberation component in the target signal obtaining γ 2 (f);
For each microphone, multiplying the frequency domain residual signal of the M channel and the frequency domain reproduction signal, respectively, to determine the correction amount of the adaptive filter coefficient of the M channel,
For each microphone, the reciprocal of the sum of all the channels of the reproduction signal power is multiplied by the ratio γ 2 (f) of the reverberation component in the target signal and the correction amount of the adaptive filter coefficient, and the result is multiplied by the adaptive filter. Having a process of updating the adaptive filter coefficients by adding to the coefficients;
An echo canceling method characterized by the above.
前記M個の受話端子に接続され、当該受話端子に入力された再生信号をそれぞれ、短時間区間毎に周波数領域に変換して、Mチャネルの周波数領域再生信号を求める第1のTF変換部と、
前記マイクロホンごとに、前記M個の第1のTF変換部に接続され、Mチャネルの前記周波数領域再生信号と、M個の適応フィルタ係数とを、それぞれを乗算して、前記マイクロホンごとのM個の周波数領域予測反響信号を求めるフィルタ処理部と、
前記マイクロホンごとに、M個の前記フィルタ処理部に接続され、前記M個の周波数領域予測反響信号を時間領域に変換して、前記マイクロホンごとに、M個の時間領域予測反響信号を求めるFT変換部と、
前記マイクロホンごとに、M個の前記FT変換部に接続され、前記M個の時間領域予測反響信号を加算して、前記マイクロホンごとに、時間領域予測反響信号を求めるベクトル 加算部と、
前記マイクロホンごとに、当該マイクロホンと前記ベクトル加算部に接続され、前記マイクロホンごとに、前記収音信号から前記時間領域予測反響信号を差し引いて、前記マイクロホンごとの残差信号を求める信号ベクトル減算部と、
前記マイクロホンごとに、前記信号ベクトル減算部に接続され、前記マイクロホンごとの残差信号のそれぞれを周波数領域に変換して、前記マイクロホンごとの周波数領域残差信号を求める第2のTF変換部と、
前記マイクロホンごとに、収音信号または残差信号を対象信号として、その対象信号を周波数領域に変換する変換部と第1チャネルの第1のTF変換部に接続され、入力された前記第1チャネルの周波数領域再生信号と前記周波数領域の対象信号のコヒーレンスγ 1e (f)を求める第1のコヒーレンス算出部と、
前記マイクロホンごとに、第mチャネルの前記第1のTF変換部(mは2以上の整数)と第1〜第mチャネルの第1のTF変換部に接続され、第mチャネル周波数領域再生信号より第1〜第m−1チャネル周波数領域再生信号との相関成分を除去する第1の相関除去部と、
前記マイクロホンごとに、前記対象信号の変換部と第1〜第m−1チャネルの第1のTF変換部に接続され、前記周波数領域の対象信号より第1〜第m−1チャネル周波数領域再生信号との相関成分を除去する第2の相関除去部と、
前記マイクロホンごとに、前記第1の相関除去部と前記第2の相関除去部に接続され、前記第1の相関除去部により除去された第mチャネル周波数領域再生信号と、前記第2の相関除去部により除去された周波数領域の対象信号のコヒーレンスγ 2 me ・ ( m-1)! (f)を求める第2のコヒーレンス算出部と、
前記マイクロホンごとに、前記第1及び第2のコヒーレンス算出部に接続され、上記M個のコヒーレンスγ 2 me ・ ( m-1)! (f)から
γ 2 (f)=1−(1−γ 1V (f))・・・(1−γ 2 mv ・ ( m-1) (f))を計算して、対象信号に占める反響成分の比率γ 2 (f)を求める反響成分比率算出部と、
前記マイクロホンごとに、前記第1及び第2のTF変換部と前記反響成分比率算出部に接続され、Mチャネルの周波数領域残差信号と周波数領域再生信号とをそれぞれ乗算して、Mチャネルの適応フィルタ係数の修正量をそれぞれ求め、前記マイクロホンごとに、再生信号のパワーの全チャネルの総和の逆数と前記対象信号に占める反響成分の比率γ 2 (f)と前記適応フィルタ係数の修正量とを乗算し、その結果を前記適応フィルタ係数に加えて、前記適応フィルタ係数を更新するフィルタ更新部と、
を備える反響消去装置。 Connected to M speakers (M is an integer of 2 or more), N microphones (N is an integer of 1 or more), M receiving terminals and N transmitting terminals arranged in a common sound field ;
A first TF converter connected to the M receiving terminals and converting the reproduction signal input to the receiving terminal into a frequency domain for each short time interval to obtain an M channel frequency domain reproduction signal; ,
Each of the microphones is connected to the M first TF converters, and the frequency domain reproduction signal of M channels and M adaptive filter coefficients are respectively multiplied by M to obtain M pieces of microphones for each microphone. A filter processing unit for obtaining a frequency domain predicted echo signal of
FT transform that is connected to the M filter processing units for each microphone, converts the M frequency domain predicted echo signals to the time domain, and obtains M time domain predicted echo signals for each microphone. And
A vector adder that is connected to the M FT converters for each microphone, adds the M time-domain predicted echo signals, and obtains a time-domain predicted echo signal for each microphone ;
A signal vector subtracting unit that is connected to the microphone and the vector adding unit for each microphone, and subtracts the time domain predicted echo signal from the collected sound signal for each microphone to obtain a residual signal for each microphone. ,
A second TF converter that is connected to the signal vector subtractor for each microphone, converts each of the residual signals for each microphone into a frequency domain, and obtains a frequency domain residual signal for each microphone;
For each of the microphones, the input first channel is connected to a conversion unit that converts the target signal into a frequency domain and a first TF conversion unit of the first channel using the collected sound signal or the residual signal as a target signal. A first coherence calculation unit for obtaining a coherence γ 1e (f) of the frequency domain reproduction signal and the target signal in the frequency domain ;
For each of the microphones, the mth channel is connected to the first TF conversion unit (m is an integer equal to or greater than 2) and the first TF conversion unit of the first to mth channels. A first correlation removing unit for removing a correlation component with the first to (m-1) th channel frequency domain reproduction signals;
For each of the microphones, the target signal conversion unit and the first to m-1st channel first TF conversion units are connected, and the first to m-1st channel frequency domain reproduction signals from the frequency domain target signal. A second correlation removal unit for removing a correlation component with
For each of the microphones, the m-th channel frequency domain reproduction signal connected to the first correlation removing unit and the second correlation removing unit and removed by the first correlation removing unit, and the second correlation removing A second coherence calculation unit for obtaining coherence γ 2 me · ( m−1)! (F) of the target signal in the frequency domain removed by the unit;
Each of the microphones is connected to the first and second coherence calculators, and the M coherences γ 2 me · ( m−1)! (F)
γ 2 (f) = 1− (1−γ 1V (f)) (1−γ 2 mv · ( m−1) (f)) is calculated, and the ratio γ of the reverberation component in the target signal γ 2 An echo component ratio calculation unit for obtaining (f);
Each of the microphones is connected to the first and second TF conversion units and the reverberation component ratio calculation unit, and multiplies the M channel frequency domain residual signal and the frequency domain reproduction signal, respectively. A correction amount of the filter coefficient is obtained, and for each microphone, the reciprocal of the sum of all channels of the power of the reproduction signal, the ratio γ 2 (f) of the reverberation component in the target signal, and the correction amount of the adaptive filter coefficient are obtained. A filter update unit that multiplies the result and adds the result to the adaptive filter coefficient to update the adaptive filter coefficient;
An echo canceling device comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002048553A JP3756828B2 (en) | 2002-02-25 | 2002-02-25 | Reverberation elimination method, apparatus for implementing this method, program, and recording medium therefor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002048553A JP3756828B2 (en) | 2002-02-25 | 2002-02-25 | Reverberation elimination method, apparatus for implementing this method, program, and recording medium therefor |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003250193A JP2003250193A (en) | 2003-09-05 |
JP3756828B2 true JP3756828B2 (en) | 2006-03-15 |
Family
ID=28661324
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002048553A Expired - Fee Related JP3756828B2 (en) | 2002-02-25 | 2002-02-25 | Reverberation elimination method, apparatus for implementing this method, program, and recording medium therefor |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3756828B2 (en) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8363535B2 (en) | 2003-04-28 | 2013-01-29 | Marvell International Ltd. | Frequency domain echo and next cancellation |
US7002897B2 (en) | 2003-04-28 | 2006-02-21 | Solarflare Communications, Inc. | Multiple channel interference cancellation |
WO2004098088A2 (en) * | 2003-04-28 | 2004-11-11 | Solarflare Communications, Inc. | Multiple channel interference cancellation |
CN1951147B (en) | 2004-06-16 | 2011-08-17 | 松下电器产业株式会社 | Howling detector and its method |
JP4767166B2 (en) | 2004-06-16 | 2011-09-07 | パナソニック株式会社 | Howling suppression device, program, integrated circuit, and howling suppression method |
JP4504782B2 (en) * | 2004-10-25 | 2010-07-14 | 日本電信電話株式会社 | Echo cancellation method, apparatus for implementing this method, program, and recording medium therefor |
JP4581114B2 (en) * | 2005-05-16 | 2010-11-17 | 株式会社国際電気通信基礎技術研究所 | Adaptive beamformer |
US7808407B2 (en) | 2007-06-15 | 2010-10-05 | Solarflare Communications, Inc. | Sub-channel distortion mitigation in parallel digital systems |
US7948862B2 (en) | 2007-09-26 | 2011-05-24 | Solarflare Communications, Inc. | Crosstalk cancellation using sliding filters |
JP5451876B2 (en) * | 2009-06-02 | 2014-03-26 | コーニンクレッカ フィリップス エヌ ヴェ | Acoustic multichannel cancellation |
-
2002
- 2002-02-25 JP JP2002048553A patent/JP3756828B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2003250193A (en) | 2003-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1855457B1 (en) | Multi channel echo compensation using a decorrelation stage | |
JP3727258B2 (en) | Echo suppression processing system | |
US8374358B2 (en) | Method for determining a noise reference signal for noise compensation and/or noise reduction | |
US8594320B2 (en) | Hybrid echo and noise suppression method and device in a multi-channel audio signal | |
USRE41445E1 (en) | Arrangement for suppressing an interfering component of an input signal | |
JP4957810B2 (en) | Sound processing apparatus, sound processing method, and sound processing program | |
JP5391103B2 (en) | Multi-channel echo canceling method, multi-channel echo canceling apparatus, multi-channel echo canceling program and recording medium therefor | |
JP2004349806A (en) | Multichannel acoustic echo canceling method, apparatus thereof, program thereof, and recording medium thereof | |
KR101182017B1 (en) | Method and Apparatus for removing noise from signals inputted to a plurality of microphones in a portable terminal | |
JP5662232B2 (en) | Echo canceling apparatus, method and program | |
JP3756828B2 (en) | Reverberation elimination method, apparatus for implementing this method, program, and recording medium therefor | |
JP5469564B2 (en) | Multi-channel echo cancellation method, multi-channel echo cancellation apparatus and program thereof | |
JP3756839B2 (en) | Reverberation reduction method, Reverberation reduction device, Reverberation reduction program | |
JP3787088B2 (en) | Acoustic echo cancellation method, apparatus, and acoustic echo cancellation program | |
JP3673727B2 (en) | Reverberation elimination method, apparatus thereof, program thereof, and recording medium thereof | |
JP2005514668A (en) | Speech enhancement system with a spectral power ratio dependent processor | |
JP6143702B2 (en) | Echo canceling apparatus, method and program | |
JP2004349796A (en) | Sound echo canceling method, apparatus thereof, program and recording medium thereof | |
JP3616341B2 (en) | Multi-channel echo cancellation method, apparatus thereof, program thereof, and recording medium | |
JP4504782B2 (en) | Echo cancellation method, apparatus for implementing this method, program, and recording medium therefor | |
JP6075783B2 (en) | Echo canceling apparatus, echo canceling method and program | |
JP4209348B2 (en) | Echo suppression method, apparatus for implementing this method, program, and recording medium | |
JP4478045B2 (en) | Echo erasing device, echo erasing method, echo erasing program and recording medium therefor | |
JP4247158B2 (en) | Multi-channel acoustic echo cancellation method, multi-channel acoustic echo cancellation apparatus, multi-channel acoustic echo cancellation program, recording medium | |
JP6356087B2 (en) | Echo canceling apparatus, method and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040210 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050830 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051028 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20051028 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20051206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20051222 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100106 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110106 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120106 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |