JP2010011272A

JP2010011272A - 音響エコーキャンセラ

Info

Publication number: JP2010011272A
Application number: JP2008170122A
Authority: JP
Inventors: Toshiaki Ishibashi; 利晃石橋; Makoto Tanaka; 田中　　良
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2008-06-30
Filing date: 2008-06-30
Publication date: 2010-01-14

Abstract

【課題】擬似反響音信号と収音音声信号との相関を、状況に関係無く確実に求めることができ、正確な状態判定を常時行う。
【解決手段】状態判定部１０は、擬似反響音信号ＦＥ’ｎと収音音声信号ＮＥｔとを取得する。ＦＦＴ１０１は、収音音声信号ＮＥｔを周波数変換して、収音音声信号ＮＥｎを生成する。相関度検出部１０２は、擬似反響音信号ＦＥ’ｎと収音音声信号ＮＥｎとの相関度Ｃｏｒを算出する。相関度Ｃｏｒは、収音音声信号ＮＥｎに擬似反響音信号ＦＥ’ｎのみが含まれる場合と、擬似反響音信号ＦＥ’ｎと話者発声音信号とが含まれている場合とで値が異なる。状態判定結果算出部１０３は、相関度Ｃｏｒと収音音声信号ＮＥｎが有意なレベルであるかどうかとに基づいて、放収音の状態判定を行い、状態判定結果Ｍｏｄを出力する。
【選択図】図２

Description

この発明は、残響エコーや定常ノイズを含む音響エコーを収音音声信号から除去する音響エコーキャンセラに関するものである。

従来、スピーカとマイクとが１つの筐体に設置される放収音装置などでは、スピーカとマイクとが近接する等の理由により音響エコーが発生し易い。このため、このような音響エコーを除去するエコーキャンセル装置が各種考案されている。例えば、特許文献１では、適応型フィルタを有するエコーキャンセラと、周波数領域による演算でエコーを抑圧するスペクトルサブトラクションとを備えたエコーキャンセル装置が開示されている。

そして、このようなエコーキャンセル装置では、放収音の状態に応じて行われる特有の処理が存在する。例えば、適応型フィルタの適応学習は、反響音信号が無ければ行えず、放音用音声信号による放音が存在して且つ自装置側の話者音声の直接収音が無い状態で行われる。このため、放収音の状態を判定する状態判定部が必要となる。

従来の状態判定部は、放音用音声信号と収音音声信号とを時間関数で表現し、当該二つの信号の時間関数の相関を求めることで状態判定を行っている。
特開２００４−５６４５３号公報

上述の時間軸上での相関度を取得して状態判定を行う場合、放音音声が回り込んで収音される反響音伝達経路が一定であれば、正確に相関を求めることができる。この場合、例えば一定の遅延係数を用いることで、放音音声に基づく擬似反響音信号と収音音声信号との時間軸を一致させて相関を求める。

しかしながら、放音素子と収音素子との相対位置関係を変更できる放収音装置の場合、この相対位置関係に応じて反響音伝達経路が変化する。そして、反響音伝達経路が変化することで、擬似反響音信号と収音音声信号との時間的相関関係が変化して、少なくとも一時的に正確な状態判定を行うことができなくなってしまう。

したがって、本発明の目的は、擬似反響音信号と収音音声信号との相関を、状況に関係無く確実に求めることができ、正確な状態判定を常時行うことができる音響エコーキャンセラを実現することにある。

この発明の音響エコーキャンセラは、適応型フィルタ、外乱スペクトル推定手段、差分手段、状態判定手段を備える。

状態判定手段は、擬似反響音信号の周波数スペクトルと収音音声信号の周波数スペクトルとによる周波数軸上での相関度に基づいて放収音の状態判定を行う。状態判定手段は、適応型フィルタおよび外乱スペクトル推定手段に対して、推定の学習のための状態判定結果を与える。

適応型フィルタは、放音用音声信号に基づいて擬似反響音を推定し擬似反響音信号を生成する。この際、適応型フィルタは、状態判定結果に基づいて、放音用音声信号に基づく放音が行われている状態で推定学習を行う。

外乱スペクトル推定手段は、擬似反響音信号による差分処理では除去されない外乱スペクトルを推定する。この際、外乱スペクトル推定手段は、適応型フィルタでは除去しきれない残響エコーや定常ノイズを含む外乱信号として推定する。そして、外乱スペクトル推定手段は、状態判定結果に基づいて、例えば無音状態で定常ノイズの推定を行う。

差分手段は、収音音声信号から擬似反響音信号を差分し、当該差分信号の周波数スペクトルから外乱スペクトルを差分して出力用音声信号を生成する。

このような構成では、周波数軸上で相関が求められることで、反響音の伝達する系が急激に変化する等しても、擬似反響音信号の周波数スペクトルと収音音声信号の周波数スペクトルとの相関関係には殆ど変化が生じない。したがって、状況の変化に関係なく、正確な相関関係が得られ、この相関関係に基づいて、状態判定結果も正確に得られる。

また、この発明の音響エコーキャンセラでは、状態判定手段は、さらに擬似反響音信号と収音音声信号とによる時間軸上での相関度に基づいて状態判定を行う。

この構成では、周波数軸上の相関度とともに時間軸上の相関度が求められることで、状況に応じて適する相関算出方法を用いることができる。

また、この発明の音響エコーキャンセラは、さらに、反響音が伝達する系の変化を検出する系変化検出手段を備える。そして、状態判定手段は、系の変化に応じて、時間軸上での相関処理と、周波数軸上での相関処理とを切り替える。すなわち、状態判定手段は、反響音が伝達する系の変化が殆ど無ければ時間軸上での相関度に基づく状態判定を行い、反響音が伝達する系が急激に変化すれば周波数軸上での相関度に基づく状態判定を行う。

この構成では、系に変化が無く時間軸上での相関度を容易に算出できる場合には、処理演算負荷の軽い時間軸上での相関処理が行われる。一方で、系に変化があり時間軸上での相関度を算出できない場合には、系の変化に影響されない周波数軸上での相関処理が行われる。

この発明によれば、反響音の伝達する系が急激に変化する等の状況変化に関係無く、擬似反響音信号と収音音声信号との相関を確実に求めることができる。これにより、正確な状態判定を常時行うことができ、当該状態判定結果をもって、音響エコーキャンセラ内の各部の推定学習を正確に行うことができる。

本発明の第１の実施形態に係る音響エコーキャンセラについて図を参照して説明する。なお、以下の説明では、時間領域の信号は末端の記号をｔで示し、周波数領域の信号は末端の記号をｎで示す。
図１は本実施形態の音響エコーキャンセラの主要要素の概略構成を示すブロック図である。
図１に示すように、音響エコーキャンセラ１は、スピーカＳＰ、マイクＭＩＣ、状態判定部１０、適応型フィルタ２０、外乱スペクトル推定部３０、加算器６０、加算器７０を備える。これら加算器６０，７０が本発明の差分手段に相当する。

状態判定部１０は、周波数関数である擬似反響音信号ＦＥ’ｎと時間関数である収音音声信号ＮＥｔに基づいて状態判定を行う。状態判定部１０が判定する状態は、「放音、収音ともに有り状態（Ｗトーク状態）」、「放音用音声信号の放音のみ有り状態（放音のみ状態）」、「放音が無く収音信号が有り状態（収音のみ状態）」、「放音、収音ともに無し状態（無音状態）」の四種類である。

図２は、状態判定部１０の主要構成を示すブロック図である。
図２に示すように、状態判定部１０は、ＦＦＴ１０１、相関度検出部１０２、状態判定結果算出部１０３を備える。

ＦＦＴ１０１は、高速フーリエ変換回路であり、時間関数の収音音声信号ＮＥｔを周波数関数である収音音声信号ＮＥｎに変換する。ＦＦＴ１０１は、周波数変換した収音音声信号ＮＥｎを順次相関度検出部１０２へ出力する。

相関度検出部１０２は、それぞれが周波数関数である擬似反響音信号ＦＥ’ｎと収音音声信号ＮＥｎとの相関度を算出する。相関度の算出方法としては、既知の各種の相関度算出方法を用いればよいが、例えば、擬似反響音信号ＦＥ’ｎと収音音声信号ＮＥｎとの各周波数成分同士の比に基づいて相関度を算出すればよい。この場合、相関度検出部１０２は、入力された擬似反響音信号ＦＥ’ｎと収音音声信号ＮＥｎとを、予め設定した所定の分割帯域数からなる複数の個別周波数帯域成分ＦＥ’ｎ（ｆｋ），ＮＥｎ（ｆｋ）に分解する。相関度検出部１０２は、収音音声信号ＮＥｎの個別周波数帯域成分ＮＥｎ（ｆｋ）で擬似反響音信号ＦＥ’ｎの個別周波数帯域成分ＦＥ’ｎ（ｆｋ）を除算した値を個別帯域相関度Ｃｏｒ（ｆｋ）として算出する。

Ｃｏｒ（ｆｋ）＝ＦＥ’ｎ（ｆｋ）／ＮＥｎ（ｆｋ）
相関度検出部１０２は、各分割周波数帯域で算出された個別帯域相関度Ｃｏｒ（ｆｋ）の平均値を算出することで、擬似反響音信号ＦＥ’ｎと収音音声信号ＮＥｎとの相関度Ｃｏｒを算出する。なお、この説明では、擬似反響音信号ＦＥ’ｎと収音音声信号ＮＥｎとの全帯域での平均で相関度Ｃｏｒを算出する例を示したが、低音域側の比重を高くする重み付けを行ったり、特定の周波数帯域の比重を高くする重み付けを行ってもよい。また、この説明では、擬似反響音信号ＦＥ’ｎを用いたが放音用音声信号ＦＥｎを用いてもよい。しかしながら、擬似反響音信号ＦＥ’ｔが元々収音音声信号ＮＥｔから減算するために推定される信号であるので、この周波数関数である擬似反響音信号ＦＥ’ｎと収音音声信号ＮＥｎとを用いることで、相関度算出演算時の同期処理が容易となる。

なお、上述の演算式による相関度の算出は、擬似反響音信号ＦＥ’ｎが「０」でない場合にのみ実行される。一方、相関度検出部１０２は、擬似反響音信号ＦＥ’ｎのレベルが「０」である場合には、相関度Ｃｏｒを特定値、例えば「０」に設定する。

相関度検出部１０２は、算出若しくは設定した相関度Ｃｏｒを、状態判定結果算出部１０３へ順次出力する。

状態判定結果算出部１０３は、図３に示すような相関度Ｃｏｒと収音音声信号ＮＥｔと状態判定結果との関係を予め記憶しており、相関度Ｃｏｒの値と、収音音声信号ＮＥｔの有無とに基づいて状態判定結果Ｍｏｄを算出する。
図３は相関度Ｃｏｒと状態判定結果Ｍｏｄとの関係を示す図である。

状態判定結果算出部１０３は、相関度Ｃｏｒが「０」であるかどうかを検出する。状態判定結果算出部１０３は、相関度Ｃｏｒが略「１．０」であれば「放音のみ状態」と判定する。状態判定結果算出部１０３は、相関度が「０」でなく且つ略「１．０」でもなければ「Ｗトーク状態」と判定する。さらに、状態判定結果算出部１０３は、相関度Ｃｏｒが略「０」であると、収音音声信号ＮＥｔの信号レベルを検出する。状態判定結果算出部１０３は、収音音声信号ＮＥｔの信号レベルが「０」でなければ「収音のみ状態」と判定し、「０」であれば「無音状態」と判定する。これらの判定結果Ｍｏｄは、適応型フィルタ２０の擬似反響音信号推定部２０２、外乱スペクトル推定部３０のエコースペクトル推定部３０１およびノイズスペクトル推定部３０２へ出力される。

次に、上述の状態判定の具体的例（「放音のみ状態」と「Ｗトーク状態」との識別例）を、図４を参照して説明する。
図４は、状態判定処理で利用される各信号や相関度の波形を示す図である。図４（Ａ）は話者発声音信号の時間軸上の波形図であり、（Ｂ）は収音音声信号ＮＥｔにおける回り込み成分の時間軸上の波形図であり、（Ｃ）は擬似反響音信号ＦＥ’ｔの時間軸上の波形図である。なお、図４（Ａ），（Ｂ）に示した波形図は、以下に示す本願の判定処理の説明を容易にするために概念的に記載した図である。図４（Ｄ）は図４（Ａ）〜（Ｃ）におけるサンプリング時間ΔＴ１での収音音声信号ＮＥｎの周波数スペクトルと擬似反響音信号ＦＥ’ｎの周波数スペクトルとを示す図であり、（Ｅ）は図４（Ｄ）の場合における各個別帯域相関度の周波数特性を示す図である。図４（Ｆ）は図４（Ａ）〜（Ｃ）におけるサンプリング時間ΔＴ２での収音音声信号ＮＥｎの周波数スペクトルと擬似反響音信号ＦＥ’ｎの周波数スペクトルとを示す図であり、（Ｇ）は図４（Ｆ）の場合における各個別帯域相関度の周波数特性を示す図である。

［放音のみ状態の判定］
図４（Ａ）〜（Ｃ）に示すように、サンプリング時間ΔＴ１では、話者発声音信号が０レベルであり、収音音声信号ＮＥｔと擬似反響音信号ＦＥ’ｔとが０レベルでない有意なレベルで存在する。この場合、擬似反響音信号ＦＥ’ｔが０レベルでないので、状態判定部１０は、上述の演算式を用いて個別帯域相関度Ｃｏｒ（ｆｋ）および相関度Ｃｏｒを算出する。図４（Ｄ）に示すように、サンプリング時間ΔＴ１では、収音音声信号ＮＥｎの周波数スペクトルＳ（ＮＥｎ（ΔＴ１））と、擬似反響音信号ＦＥ’ｎの周波数スペクトルＳ（ＦＥ’ｎ（ΔＴ１））とが略一致する。このため、各個別帯域相関度Ｃｏｒ（ｆｋ）は略「１」となり、結果として相関度Ｃｏｒが略「１」となる。状態判定部１０は、これを検出して、図３に示す関係から、収音音声信号と擬似反響音信号とが同じである、「放音のみ状態」と判定する。

［Ｗトーク状態の判定］
図４（Ａ）〜（Ｃ）に示すように、サンプリング時間ΔＴ２では、話者発声音信号、収音音声信号ＮＥｔ、および擬似反響音信号ＦＥ’ｔが全て０レベルでない有意なレベルで存在する。この場合も、擬似反響音信号ＦＥ’ｔが０レベルでないので、状態判定部１０は、上述の演算式を用いて個別帯域相関度Ｃｏｒ（ｆｋ）および相関度Ｃｏｒを算出する。図４（Ｆ）に示すように、サンプリング時間ΔＴ２では、収音音声信号ＮＥｎの周波数スペクトルＳ（ＮＥｎ（ΔＴ２））と、擬似反響音信号ＦＥ’ｎの周波数スペクトルＳ（ＦＥ’ｎ（ΔＴ２））とが周波数帯域によっては一致しない。このため、周波数帯域によっては個別帯域相関度Ｃｏｒ（ｆｋ）が略「１」とならず、結果として相関度Ｃｏｒが略「１」からかけ離れる。状態判定部１０は、これを検出して、図３に示す関係から、収音音声信号に擬似反響音信号以外の音声成分が存在するとして「Ｗトーク状態」と判定する。

以上のように周波数領域で相関度を検出して状態判定を行うことで、上述の４つからなる放収音の状態を判定することができる。この際、周波数領域での相関では、時間遅延の概念を用いることなく、単に音声の周波数成分の比較のみを利用すればよい。また、有限長からなるサンプリング時間により、或程度の時間遅延による影響が抑圧される。したがって、例えばスピーカとマイクとの位置が急激に変化したとしても各周波数成分が変わらないので、このような反響音の伝達経路が変化する状況であっても、状態判定を正確に行うことができる。そして、このような処理を採用することで、例えば、主筐体と複数の副筐体とが回動可能に接続されてなり、主筐体にスピーカとマイク、副筐体にマイクのみが設置されているような放収音装置の状態判定に非常に有効となる。

なお、これまでの説明では式（１）を用いて相関を求めてきたが、相関を求める演算はこれに限るものではない。

次に、図１に戻り、音響エコーキャンセラ１の他部分の説明を行う。
外部から入力された放音用音声信号（遠端信号）ＦＥｔは、スピーカＳＰおよびＦＦＴ９１１へ入力される。

スピーカＳＰは、放音用音声信号ＦＥｔに基づいて放音する。

ＦＦＴ９１１は、高速フーリエ変換回路であり、時間領域の関数である放音用音声信号ＦＥｔを周波数領域の関数である放音用音声信号ＦＥｎへ変換して、適応型フィルタ２０へ与える。

適応型フィルタ２０は、擬似反響音信号生成部２０１と擬似反響音信号推定部２０２とを備える。擬似反響音信号生成部２０１は、例えば、所定のタップ数からなるＦＩＲフィルタであり、擬似反響音信号推定部２０２から与えられた係数により設定される。擬似反響音信号生成部２０１は、放音用音声信号ＦＥｎに基づいて擬似反響音信号ＦＥ’ｎを生成する。生成された擬似反響音信号ＦＥ’ｎは、ＩＦＦＴ９２１、外乱スペクトル推定部３０のエコースペクトル推定部３０１、および状態判定部１０へ出力される。

擬似反響音信号推定部２０２は、ＬＭＳ等の適応アルゴリズムを用いて、後述する第１補正信号ＮＥ’ｎの周波数スペクトルＳ（ＮＥ’ｎ）から、擬似反響音信号ＦＥ’ｎを推定する。擬似反響音信号推定部２０２は、当該擬似反響音信号ＦＥ’ｎを擬似反響音信号生成部２０１に生成させるための係数を推定して、これら係数を擬似反響音信号生成部２０１へ与える。この際、擬似反響音信号推定部２０２は、状態判定部１０から「放音のみ状態」の状態判定結果Ｍｏｄを取得した場合にのみ、上述の推定による学習を行う。なお、このような推定、擬似反響音信号ＦＥ’ｎの生成、学習は、音響エコーキャンセラ１の動作中に繰り返し行われる。

ＩＦＦＴ９２１は、逆高速フーリエ変換回路であり、周波数領域の関数である擬似反響音信号ＦＥ’ｎを時間領域の関数である擬似反響音信号ＦＥ’ｔに変換して、加算器６０へ出力する。

マイクＭＩＣは、当該音響エコーキャンセラ１が設置された周囲から収音して、収音音声信号（近端信号）ＮＥｔを生成する。この収音音声信号ＮＥｔには、スピーカＳＰからの放音があれば、当該放音音声が設置環境に基づいて反響されてなる反響音の成分が含まれる。また、マイクＭＩＣ周囲の話者が発話すれば、収音音声信号ＮＥｔに話者音声の成分が含まれる。さらに、会議室等の設置環境によって当該環境に特有の定常的なノイズが存在すると、収音音声信号ＮＥｔには、この定常ノイズの成分も含まれる。収音音声信号ＮＥｔは、加算器６０および状態判定部１０へ出力される。

加算器６０は、マイクＭＩＣからの収音音声信号ＮＥｔから擬似反響音信号ＦＥ’ｔを差分することで、第１補正音声信号ＮＥ’ｔを生成して出力する。

ＦＦＴ９１２は、高速フーリエ変換回路であり、時間領域の関数である第１補正音声信号ＮＥ’ｔを周波数領域の関数である第１補正音声信号ＮＥ’ｎへ変換して出力する。第１補正音声信号ＮＥ’ｎの周波数スペクトルＳ（ＮＥ’ｎ）は、上述の擬似反響音信号推定部２０２および外乱スペクトル推定部３０のノイズスペクトル推定部３０２へ入力される。

外乱スペクトル推定部３０は、エコースペクトル推定部３０１とノイズスペクトル推定部３０２とを備える。簡単には、エコースペクトル推定部３０１は、擬似反響音信号ＦＥ’ｎのみで除去しきれないエコー成分を推定する演算部であり、ノイズスペクトル推定部３０２は、定常ノイズを推定する演算部である。

エコースペクトル推定部３０１は、擬似反響音信号ＦＥ’ｎの周波数スペクトルＳ（ＦＥ’ｎ）をサンプリングタイミング毎に順次取得するとともに、一時記憶する。エコースペクトル推定部３０１は、この取得および記憶した擬似反響音信号ＦＥ’ｎの周波数スペクトルＳ（ＦＥ’ｎ）と、前回推定した残響エコースペクトルＳ（ＦＥ”ｎ）とに基づいて、今回の残響エコースペクトルＳ（ＦＥ”ｎ）を推定する。

例えば、或るサンプリングタイミングＮでの残響エコースペクトルをＳ（ＦＥ”ｎ（Ｎ））とし、同サンプリングタイミングＮでの擬似反響音信号の周波数スペクトルをＳ（ＦＥ’ｎ（Ｎ））とし、直前のサンプリングタイミングＮ−１での残響エコースペクトルをＳ（ＦＥ”ｎ（Ｎ−１））とする。また、βを定数とする。

そして、この設定において、残響エコースペクトルＳ（ＦＥ”ｎ（Ｎ））を次式で表し、算出する。

Ｓ（ＦＥ”ｎ（Ｎ））＝（１−β）・Ｓ（ＦＥ”ｎ（Ｎ−１））＋βＳ（ＦＥ’ｎ（Ｎ））
このように、擬似反響音信号ＦＥ’ｎの周波数スペクトルに基づいて残響エコースペクトルＳ（ＦＥ”ｎ）を推定することで、適応型フィルタ２０で除去しきれない残響エコーの周波数スペクトルを取得することができる。すなわち、適応型フィルタ２０は、ＦＩＲフィルタ等からなり、タップ数等の仕様により表現可能な擬似反響音信号ＦＥ’ｎが制限される。これにより、時間軸上に復元した場合に擬似反響音信号ＦＥ’ｔと現実の回り込み音とで差が生じる。しかしながら、周波数領域で残響エコーを推定することで、この時間軸上の制限を取り除くことができ、擬似反響音信号ＦＥ’ｔでは除去しきれない残響エコーを推定することができる。

エコースペクトル推定部３０１は、適応型フィルタ２０の擬似反響音信号推定部２０２と同じタイミングで、上述の推定による学習を繰り返す。

ノイズスペクトル推定部３０２は、第１補正音声信号ＮＥ’ｎの周波数スペクトルＳ（ＮＥ’ｎ）をサンプリングタイミング毎に順次取得するとともに、一時記憶する。ノイズスペクトル推定部３０２は、この取得および記憶した複数回の第１補正音声信号ＮＥ’ｎの周波数スペクトルＳ（ＮＥ’ｎ）に基づいて、ノイズスペクトルＳ（ＮＥ”ｎ）を推定する。

例えば、或るサンプリングタイミングＮでのノイズスペクトルをＳ（ＮＥ”ｎ（Ｎ））とし、同サンプリングタイミングＮでの第１補正音声信号の周波数スペクトルをＳ（ＮＥ’ｎ（Ｎ））とし、直前のサンプリングタイミングＮ−１での第１補正音声信号の周波数スペクトルをＳ（ＮＥ’ｎ（Ｎ−１））とする。また、α’，β’を定数とする。

そして、この設定において、ノイズスペクトルＳ（ＮＥ”ｎ（Ｎ））を次式で表し、算出する。

Ｓ（ＮＥ”ｎ（Ｎ））＝α’Ｓ（ＮＥ’ｎ（Ｎ−１））＋β’Ｓ（ＮＥ’ｎ（Ｎ））
このように、エコーキャンセル後の信号である第１補正音声信号ＮＥ’ｎの周波数スペクトルに基づいてノイズスペクトルＳ（ＮＥ”ｎ）を推定することで、エコーとは別の暗騒音等の定常ノイズを推定することができる。この際、ノイズスペクトル推定部３０２は、状態判定部１０から「無音状態」の状態判定結果Ｍｏｄを取得した場合にのみ、上述の推定による学習を行う。なお、このような推定、学習も、音響エコーキャンセラ１の動作中に繰り返し行われる。

加算器７０は、周波数領域で演算を行う加算器であり、第１補正音声信号ＮＥ’ｎの周波数スペクトルＳ（ＮＥ’ｎ）から、残響エコースペクトルＳ（ＦＥ”ｎ）およびノイズスペクトルＳ（ＮＥ”ｎ）を減算することで、第２補正音声信号Ｓ（ＮＯｎ）を生成して出力する。なお、この処理は各スペクトルが同期するようにして行われる。すなわち、ここで言う同期とは、同じサンプリングタイミングに形成された各スペクトルを用いて演算することであり、例えば、サンプリングタイミングＮの場合、
Ｓ（ＮＯｎ（Ｎ））＝Ｓ（ＮＥ’ｎ（Ｎ））−Ｓ（ＦＥ”ｎ（Ｎ））−Ｓ（ＮＥ”ｎ（Ｎ））
の演算処理を行うことを意味する。

ＩＦＦＴ９２２は、逆高速フーリエ変換回路であり、周波数領域の関数である第２補正音声信号ＮＯｎを時間領域の関数である第２補正音声信号ＮＯｔへ変換して、外部へ出力する。

以上のような構成および処理を行うことで、適応型フィルタのみで行われるエコーキャンセル処理では除去しきれない残響エコーや定常ノイズを精度良く効果的に除去することができる。

なお、上述の本実施形態の説明では、周波数領域のみで状態判定を行ったが、時間領域での状態判定を追加してもよい。この場合、状態判定部１０には、時間関数である擬似反響音信号ＦＥ’ｔと収音音声信号ＮＥｔとが入力され、これらに基づいて既知の方法で時間軸上での相関処理が行われる。状態判定部１０は、周波数領域での相関度と時間領域での相関度とを参考にして状態判定を行う。

また、音響エコーキャンセラ１に、反響音の伝達経路の変化を検出する手段を設けて、この検出結果に応じて周波数領域での相関度と時間領域での相関度とを使い分けても良い。例えば、上述のように主筐体と複数の副筐体とが回動可能に接続されたような放収音装置においてロータリエンコーダ等を設け、該ロータリエンコーダからの回動検出情報を取得する。状態判定部１０は、回動検出情報により回動を検出すると、この回動検出タイミングから所定期間では周波数領域で相関度を算出し、回動がなく位置関係が一定の状態が所定時間連続した場合に時間領域で相関度を算出する。時間領域での相関度の算出は、回動の影響を受けると信頼性が低下するが処理が高速である。したがって、このように回動状態に応じて処理を切り替えることで、状況に応じて適切な相関度の算出を行うことができる。

次に、第２の実施形態に係る音響エコーキャンセラについて、図を参照して説明する。
図５は、本実施形態の音響エコーキャンセラ１’の主要要素の概略構成を示すブロック図である。
本実施形態の音響エコーキャンセラ１’は、図５に示すように、第１の実施形態の音響エコーキャンセラ１に、エコーサプレッサ４０、帯域分割部５０、加算器８０を追加した構成からなる。なお、他の構成は、第１の実施形態と同じであるが、状態判定部１０’等のように信号処理内容が異なる部分については、以下で説明する。

状態判定部１０’は、擬似反響音信号ＦＥ’ｎ、後述する収音音声信号低域成分ＮＬＥｔの相関度に基づいて、第１の実施形態の場合と同様に、「Ｗトーク状態」、「放音のみ状態」、「収音のみ状態」、「無音状態」のいずれかであることを検出して、状態判定結果Ｍｏｄを適応型フィルタ２０、外乱スペクトル推定部３０およびエコーサプレッサ４０へ与える。この際、本実施形態の収音音声信号低域成分ＮＬＥｔ（ＮＬＥｎ）が第１の実施形態の図１における収音音声信号ＮＥｔ（ＮＥｎ）に相当するものであり、状態判定のアルゴリズムは第１の実施形態の状態判定部１０と同じである。しかしながら、本実施形態では、周波数スペクトルの範囲を低音域、すなわち後述の例であれば８ｋＨｚ以下とし、この周波数領域で相関度を算出して状態判定を行う。これにより、全帯域を対象にして相関度を算出するよりも、処理演算負荷が軽くなり、より高速に状態判定を行うことができる。この際、低音域のみで相関度を検出したとしても、元々回り込み音声が低音域成分を主たる成分としていることから、相関度の信頼性は低くならない。すなわち、全帯域での状態判定と略変わらない信頼性を有する状態判定結果を高速で得ることができる。

音響エコーキャンセラ１’の適応型フィルタ２０は、低域成分第１補正音声信号ＮＬＥ’ｎの周波数スペクトルから上述の適応アルゴリズムを用いて擬似反響音信号ＦＥ’ｎを生成する。

マイクＭＩＣと加算器６０との間には帯域分割部５０が設置されている。帯域分割部５０は、収音音声信号ＮＥｔを、低域成分ＮＬＥｔと高域成分ＮＨＥｔとに分離する。ここで、低域と高域とを区分する閾値周波数は、例えば８ｋＨｚに設定されており、人の音声の主たる成分となる８ｋＨｚ以下の低域成分が、加算器６０へ与えられ、８ｋＨｚよりも高い高域成分が、エコーサプレッサ４０へ与えられる。

加算器６０は、収音音声信号低域成分ＮＬＥｔから擬似反射音信号ＦＥ’ｔを差分することで、低域成分第１補正音声信号ＮＬＥ’ｔを生成して出力する。

ＦＦＴ９１２は、高速フーリエ変換回路であり、時間領域の関数である低域成分第１補正音声信号ＮＬＥ’ｔを周波数領域の関数である低域成分第１補正音声信号ＮＬＥ’ｎへ変換して出力する。低域成分第１補正音声信号ＮＬＥ’ｎの周波数スペクトルＳ（ＮＬＥ’ｎ）は、上述の擬似反響音信号推定部２０２および外乱スペクトル推定部３０のノイズスペクトル推定部３０２へ入力される。

外乱スペクトル推定部３０のノイズスペクトル推定部３０２は、低域成分第１補正音声信号ＮＬＥ’ｎの周波数スペクトルＳ（ＮＬＥ’ｎ）を順次取得するとともに、一時記憶する。ノイズスペクトル推定部３０２は、この取得および記憶した複数回の低域成分第１補正音声信号ＮＬＥ’ｎの周波数スペクトルＳ（ＮＬＥ’ｎ）に基づいて、ノイズスペクトルＳ（ＮＬＥ”ｎ）を推定する。

加算器７０は、周波数領域で演算を行う加算器であり、低域成分第１補正音声信号ＮＬＥ’ｎの周波数スペクトルＳ（ＮＬＥ’ｎ）から、残響エコースペクトルＳ（ＦＥ”ｎ）およびノイズスペクトルＳ（ＮＬＥ”ｎ）を減算することで、低域成分第２補正音声信号ＮＬＯｎを生成して出力する。なお、この処理は各スペクトルが同期するようにして行われる。この加算器７０による同期処理は、第１の実施形態で行った同期処理と同じである。

ＩＦＦＴ９２２は、逆高速フーリエ変換回路であり、周波数領域の関数である低域成分第２補正音声信号ＮＬＯｎを時間領域の関数である低域成分第２補正音声信号ＮＬＯｔへ変換して、加算器８０へ与える。

エコーサプレッサ４０は、減衰器４０１とディレイ回路４０２とからなる。減衰器４０１は、状態判定部１０からの状態判定結果に基づいて、収音音声信号ＮＥｔの高域成分ＮＨＥｔの減衰量を調整し、減衰処理済高域成分ＮＨＥ’ｔを出力する。

図６はエコーサプレッサ４０の減衰器４０１の減衰量を示す図である。
減衰器４０１は、「放音のみ状態」または「無音状態」の状態判定結果Ｍｏｄを取得すると、減衰量を無限大、すなわち、高域成分ＮＨＥｔを遮断する（ＮＨＥ’ｔ＝０）。これは、放音用音声信号のみの場合や無音状態の場合、話者音声が含まれていないので、高域成分を遮断することで、エコーや定常ノイズをより確実に除去することができるからである。

また、減衰器４０１は、「収音のみ状態」の状態判定結果Ｍｏｄを取得すると、減衰量を「０」、すなわち、高域成分ＮＨＥｔを減衰することなく通過させる（ＮＨＥ’ｔ＝ＮＨＥｔ）。このように収音音声信号のみの場合、高域成分が話者音声に支配されるので、この高域成分を減衰させないことにより、話者音声をより正確に出力することができるからである。

さらに、減衰器４０１は、「Ｗトーク状態」の状態判定結果Ｍｏｄを取得すると、減衰量を予め設定した所定値に設定する。これは、Ｗトーク時には、除去したい放音用音声信号ＦＥｔの成分と、話者音声成分とが混在しているために、或程度の減衰量に設定する。これにより、話者音声を若干犠牲にしながらも、放音用音声信号ＦＥｔによるエコー成分を減衰させることができる。

減衰器４０１から出力された減衰処理済高域成分ＮＨＥ’ｔは、ディレイ回路４０２へ入力される。ディレイ回路４０２は、処理演算が容易で高速な高域成分ＮＨＥｔ（ＮＨＥ’ｔ）と、上述のエコーキャンセルおよびエコー除去処理を行った低域成分第２補正音声信号ＮＬＯｔとを時間同期して加算するためのディレイ処理を行う。このディレイ処理により、遅延減衰処理済高域成分ＮＨＥ”ｔが生成され、加算器８０へ与えられる。
加算器８０は、低域成分第２補正音声信号ＮＬＯｔとこれに時間同期する遅延減衰処理済高域成分ＮＨＥ”ｔとを加算して、出力音声信号ＮＯ’ｔを生成し、外部へ出力する。

このように、低域成分のみをエコーキャンセルおよびエコー除去処理して、高域成分を減衰処理することで処理演算量を低減することができる。この際、高域成分に上述のエコーキャンセルおよびエコー除去処理を行わなくても、人の音声の主成分が低域成分側にあるとともに、高域成分は低域成分と比較して反射回り込み量が少ないので、音質の劣化を抑制することができる。さらに、上述のように放収音状態毎に減衰量を変化させることで、より確実にエコーを除去し、且つ話者音声の音質の劣化を抑制することができる。

なお、上述の説明では、スピーカとマイクとを備える音響エコーキャンセラを例に示したが、スピーカ等の放音素子への出力端子と、マイク等の収音素子からの入力端子とを備え、放音素子や収音素子を別体にしたものであってもよい。この場合、スピーカとマイクとの位置関係が判別しにくく、それぞれを個別に移動させることができるので、上述の構成および処理がより有効となる。

また、上述の説明では、状態判定部１０，１０’から各部へ状態判定結果を与える例を示したが、状態判定部１０が各部の学習タイミングの条件を記憶しておき、状態判定部１０から各部へ学習タイミングを与えてもよい。

第１の実施形態の音響エコーキャンセラの主要構成を示すブロック図である。図１に示す状態判定部１０の主要構成を示すブロック図である。相関度Ｃｏｒと状態判定結果Ｍｏｄとの関係を示す図である。状態判定処理で利用される各信号や相関度の波形を示す図である。第２の実施形態の音響エコーキャンセラ１’の主要構成を示すブロック図である。エコーサプレッサ４０の減衰器４０１の減衰量を示す図である。

符号の説明

１，１’−音響エコーキャンセラ、１０，１０’−状態判定部、１０１−ＦＦＴ、１０２−相関度検出部、１０３−状態判定結果算出部、２０−適応型フィルタ、２０１−擬似反響音信号生成部、２０２−擬似反響音信号推定部、３０−外乱スペクトル推定部、３０１−エコースペクトル推定部、３０２−ノイズスペクトル推定部、４０−エコーサプレッサ、４０１−減衰器、４０２−ディレイ回路、５０−帯域分割部、６０，７０，８０−加算器、９００−周波数領域演算部、９１１，９１２−ＦＦＴ演算部、９２１，９２２−ＩＦＦＴ演算部、ＳＰ−スピーカ、ＭＩＣ−マイク

Claims

放音用音声信号に基づいて擬似反響音を推定し擬似反響音信号を生成する適応型フィルタと、
前記擬似反響音信号による差分処理では除去されない外乱スペクトルを推定する外乱スペクトル推定手段と、
収音音声信号に対して前記擬似反響音信号を差分した後に、当該差分信号の周波数スペクトルから前記外乱スペクトルを差分して出力用音声信号を生成する差分手段と、
前記擬似反響音信号の周波数スペクトルと前記収音音声信号の周波数スペクトルとによる周波数軸上での相関度に基づいて放収音の状態判定を行い、前記適応型フィルタおよび前記外乱スペクトル推定手段に対して、前記推定の学習のための状態判定結果を与える状態判定手段と、
を備えた音響エコーキャンセラ。
前記状態判定手段は、さらに前記擬似反響音信号と前記収音音声信号とによる時間軸上での相関度に基づいて前記状態判定を行う、請求項１に記載の音響エコーキャンセラ。
前記反響音が伝達する系の変化を検出する系変化検出手段を備え、
前記状態判定手段は、
前記反響音が伝達する系の変化が殆ど無ければ前記時間軸上での相関度に基づく状態判定を行い、
前記反響音が伝達する系が急激に変化すれば前記周波数軸上での相関度に基づく状態判定を行う、請求項２に記載の音響エコーキャンセラ。