JP2010011272A - 音響エコーキャンセラ - Google Patents
音響エコーキャンセラ Download PDFInfo
- Publication number
- JP2010011272A JP2010011272A JP2008170122A JP2008170122A JP2010011272A JP 2010011272 A JP2010011272 A JP 2010011272A JP 2008170122 A JP2008170122 A JP 2008170122A JP 2008170122 A JP2008170122 A JP 2008170122A JP 2010011272 A JP2010011272 A JP 2010011272A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- sound signal
- sound
- state determination
- correlation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
- Telephone Function (AREA)
Abstract
【課題】擬似反響音信号と収音音声信号との相関を、状況に関係無く確実に求めることができ、正確な状態判定を常時行う。
【解決手段】状態判定部10は、擬似反響音信号FE’nと収音音声信号NEtとを取得する。FFT101は、収音音声信号NEtを周波数変換して、収音音声信号NEnを生成する。相関度検出部102は、擬似反響音信号FE’nと収音音声信号NEnとの相関度Corを算出する。相関度Corは、収音音声信号NEnに擬似反響音信号FE’nのみが含まれる場合と、擬似反響音信号FE’nと話者発声音信号とが含まれている場合とで値が異なる。状態判定結果算出部103は、相関度Corと収音音声信号NEnが有意なレベルであるかどうかとに基づいて、放収音の状態判定を行い、状態判定結果Modを出力する。
【選択図】 図2
【解決手段】状態判定部10は、擬似反響音信号FE’nと収音音声信号NEtとを取得する。FFT101は、収音音声信号NEtを周波数変換して、収音音声信号NEnを生成する。相関度検出部102は、擬似反響音信号FE’nと収音音声信号NEnとの相関度Corを算出する。相関度Corは、収音音声信号NEnに擬似反響音信号FE’nのみが含まれる場合と、擬似反響音信号FE’nと話者発声音信号とが含まれている場合とで値が異なる。状態判定結果算出部103は、相関度Corと収音音声信号NEnが有意なレベルであるかどうかとに基づいて、放収音の状態判定を行い、状態判定結果Modを出力する。
【選択図】 図2
Description
この発明は、残響エコーや定常ノイズを含む音響エコーを収音音声信号から除去する音響エコーキャンセラに関するものである。
従来、スピーカとマイクとが1つの筐体に設置される放収音装置などでは、スピーカとマイクとが近接する等の理由により音響エコーが発生し易い。このため、このような音響エコーを除去するエコーキャンセル装置が各種考案されている。例えば、特許文献1では、適応型フィルタを有するエコーキャンセラと、周波数領域による演算でエコーを抑圧するスペクトルサブトラクションとを備えたエコーキャンセル装置が開示されている。
そして、このようなエコーキャンセル装置では、放収音の状態に応じて行われる特有の処理が存在する。例えば、適応型フィルタの適応学習は、反響音信号が無ければ行えず、放音用音声信号による放音が存在して且つ自装置側の話者音声の直接収音が無い状態で行われる。このため、放収音の状態を判定する状態判定部が必要となる。
従来の状態判定部は、放音用音声信号と収音音声信号とを時間関数で表現し、当該二つの信号の時間関数の相関を求めることで状態判定を行っている。
特開2004−56453号公報
上述の時間軸上での相関度を取得して状態判定を行う場合、放音音声が回り込んで収音される反響音伝達経路が一定であれば、正確に相関を求めることができる。この場合、例えば一定の遅延係数を用いることで、放音音声に基づく擬似反響音信号と収音音声信号との時間軸を一致させて相関を求める。
しかしながら、放音素子と収音素子との相対位置関係を変更できる放収音装置の場合、この相対位置関係に応じて反響音伝達経路が変化する。そして、反響音伝達経路が変化することで、擬似反響音信号と収音音声信号との時間的相関関係が変化して、少なくとも一時的に正確な状態判定を行うことができなくなってしまう。
したがって、本発明の目的は、擬似反響音信号と収音音声信号との相関を、状況に関係無く確実に求めることができ、正確な状態判定を常時行うことができる音響エコーキャンセラを実現することにある。
この発明の音響エコーキャンセラは、適応型フィルタ、外乱スペクトル推定手段、差分手段、状態判定手段を備える。
状態判定手段は、擬似反響音信号の周波数スペクトルと収音音声信号の周波数スペクトルとによる周波数軸上での相関度に基づいて放収音の状態判定を行う。状態判定手段は、適応型フィルタおよび外乱スペクトル推定手段に対して、推定の学習のための状態判定結果を与える。
適応型フィルタは、放音用音声信号に基づいて擬似反響音を推定し擬似反響音信号を生成する。この際、適応型フィルタは、状態判定結果に基づいて、放音用音声信号に基づく放音が行われている状態で推定学習を行う。
外乱スペクトル推定手段は、擬似反響音信号による差分処理では除去されない外乱スペクトルを推定する。この際、外乱スペクトル推定手段は、適応型フィルタでは除去しきれない残響エコーや定常ノイズを含む外乱信号として推定する。そして、外乱スペクトル推定手段は、状態判定結果に基づいて、例えば無音状態で定常ノイズの推定を行う。
差分手段は、収音音声信号から擬似反響音信号を差分し、当該差分信号の周波数スペクトルから外乱スペクトルを差分して出力用音声信号を生成する。
このような構成では、周波数軸上で相関が求められることで、反響音の伝達する系が急激に変化する等しても、擬似反響音信号の周波数スペクトルと収音音声信号の周波数スペクトルとの相関関係には殆ど変化が生じない。したがって、状況の変化に関係なく、正確な相関関係が得られ、この相関関係に基づいて、状態判定結果も正確に得られる。
また、この発明の音響エコーキャンセラでは、状態判定手段は、さらに擬似反響音信号と収音音声信号とによる時間軸上での相関度に基づいて状態判定を行う。
この構成では、周波数軸上の相関度とともに時間軸上の相関度が求められることで、状況に応じて適する相関算出方法を用いることができる。
また、この発明の音響エコーキャンセラは、さらに、反響音が伝達する系の変化を検出する系変化検出手段を備える。そして、状態判定手段は、系の変化に応じて、時間軸上での相関処理と、周波数軸上での相関処理とを切り替える。すなわち、状態判定手段は、反響音が伝達する系の変化が殆ど無ければ時間軸上での相関度に基づく状態判定を行い、反響音が伝達する系が急激に変化すれば周波数軸上での相関度に基づく状態判定を行う。
この構成では、系に変化が無く時間軸上での相関度を容易に算出できる場合には、処理演算負荷の軽い時間軸上での相関処理が行われる。一方で、系に変化があり時間軸上での相関度を算出できない場合には、系の変化に影響されない周波数軸上での相関処理が行われる。
この発明によれば、反響音の伝達する系が急激に変化する等の状況変化に関係無く、擬似反響音信号と収音音声信号との相関を確実に求めることができる。これにより、正確な状態判定を常時行うことができ、当該状態判定結果をもって、音響エコーキャンセラ内の各部の推定学習を正確に行うことができる。
本発明の第1の実施形態に係る音響エコーキャンセラについて図を参照して説明する。なお、以下の説明では、時間領域の信号は末端の記号をtで示し、周波数領域の信号は末端の記号をnで示す。
図1は本実施形態の音響エコーキャンセラの主要要素の概略構成を示すブロック図である。
図1に示すように、音響エコーキャンセラ1は、スピーカSP、マイクMIC、状態判定部10、適応型フィルタ20、外乱スペクトル推定部30、加算器60、加算器70を備える。これら加算器60,70が本発明の差分手段に相当する。
図1は本実施形態の音響エコーキャンセラの主要要素の概略構成を示すブロック図である。
図1に示すように、音響エコーキャンセラ1は、スピーカSP、マイクMIC、状態判定部10、適応型フィルタ20、外乱スペクトル推定部30、加算器60、加算器70を備える。これら加算器60,70が本発明の差分手段に相当する。
状態判定部10は、周波数関数である擬似反響音信号FE’nと時間関数である収音音声信号NEtに基づいて状態判定を行う。状態判定部10が判定する状態は、「放音、収音ともに有り状態(Wトーク状態)」、「放音用音声信号の放音のみ有り状態(放音のみ状態)」、「放音が無く収音信号が有り状態(収音のみ状態)」、「放音、収音ともに無し状態(無音状態)」の四種類である。
図2は、状態判定部10の主要構成を示すブロック図である。
図2に示すように、状態判定部10は、FFT101、相関度検出部102、状態判定結果算出部103を備える。
図2に示すように、状態判定部10は、FFT101、相関度検出部102、状態判定結果算出部103を備える。
FFT101は、高速フーリエ変換回路であり、時間関数の収音音声信号NEtを周波数関数である収音音声信号NEnに変換する。FFT101は、周波数変換した収音音声信号NEnを順次相関度検出部102へ出力する。
相関度検出部102は、それぞれが周波数関数である擬似反響音信号FE’nと収音音声信号NEnとの相関度を算出する。相関度の算出方法としては、既知の各種の相関度算出方法を用いればよいが、例えば、擬似反響音信号FE’nと収音音声信号NEnとの各周波数成分同士の比に基づいて相関度を算出すればよい。この場合、相関度検出部102は、入力された擬似反響音信号FE’nと収音音声信号NEnとを、予め設定した所定の分割帯域数からなる複数の個別周波数帯域成分FE’n(fk),NEn(fk)に分解する。相関度検出部102は、収音音声信号NEnの個別周波数帯域成分NEn(fk)で擬似反響音信号FE’nの個別周波数帯域成分FE’n(fk)を除算した値を個別帯域相関度Cor(fk)として算出する。
Cor(fk)=FE’n(fk)/NEn(fk)
相関度検出部102は、各分割周波数帯域で算出された個別帯域相関度Cor(fk)の平均値を算出することで、擬似反響音信号FE’nと収音音声信号NEnとの相関度Corを算出する。なお、この説明では、擬似反響音信号FE’nと収音音声信号NEnとの全帯域での平均で相関度Corを算出する例を示したが、低音域側の比重を高くする重み付けを行ったり、特定の周波数帯域の比重を高くする重み付けを行ってもよい。また、この説明では、擬似反響音信号FE’nを用いたが放音用音声信号FEnを用いてもよい。しかしながら、擬似反響音信号FE’tが元々収音音声信号NEtから減算するために推定される信号であるので、この周波数関数である擬似反響音信号FE’nと収音音声信号NEnとを用いることで、相関度算出演算時の同期処理が容易となる。
相関度検出部102は、各分割周波数帯域で算出された個別帯域相関度Cor(fk)の平均値を算出することで、擬似反響音信号FE’nと収音音声信号NEnとの相関度Corを算出する。なお、この説明では、擬似反響音信号FE’nと収音音声信号NEnとの全帯域での平均で相関度Corを算出する例を示したが、低音域側の比重を高くする重み付けを行ったり、特定の周波数帯域の比重を高くする重み付けを行ってもよい。また、この説明では、擬似反響音信号FE’nを用いたが放音用音声信号FEnを用いてもよい。しかしながら、擬似反響音信号FE’tが元々収音音声信号NEtから減算するために推定される信号であるので、この周波数関数である擬似反響音信号FE’nと収音音声信号NEnとを用いることで、相関度算出演算時の同期処理が容易となる。
なお、上述の演算式による相関度の算出は、擬似反響音信号FE’nが「0」でない場合にのみ実行される。一方、相関度検出部102は、擬似反響音信号FE’nのレベルが「0」である場合には、相関度Corを特定値、例えば「0」に設定する。
相関度検出部102は、算出若しくは設定した相関度Corを、状態判定結果算出部103へ順次出力する。
状態判定結果算出部103は、図3に示すような相関度Corと収音音声信号NEtと状態判定結果との関係を予め記憶しており、相関度Corの値と、収音音声信号NEtの有無とに基づいて状態判定結果Modを算出する。
図3は相関度Corと状態判定結果Modとの関係を示す図である。
図3は相関度Corと状態判定結果Modとの関係を示す図である。
状態判定結果算出部103は、相関度Corが「0」であるかどうかを検出する。状態判定結果算出部103は、相関度Corが略「1.0」であれば「放音のみ状態」と判定する。状態判定結果算出部103は、相関度が「0」でなく且つ略「1.0」でもなければ「Wトーク状態」と判定する。さらに、状態判定結果算出部103は、相関度Corが略「0」であると、収音音声信号NEtの信号レベルを検出する。状態判定結果算出部103は、収音音声信号NEtの信号レベルが「0」でなければ「収音のみ状態」と判定し、「0」であれば「無音状態」と判定する。これらの判定結果Modは、適応型フィルタ20の擬似反響音信号推定部202、外乱スペクトル推定部30のエコースペクトル推定部301およびノイズスペクトル推定部302へ出力される。
次に、上述の状態判定の具体的例(「放音のみ状態」と「Wトーク状態」との識別例)を、図4を参照して説明する。
図4は、状態判定処理で利用される各信号や相関度の波形を示す図である。図4(A)は話者発声音信号の時間軸上の波形図であり、(B)は収音音声信号NEtにおける回り込み成分の時間軸上の波形図であり、(C)は擬似反響音信号FE’tの時間軸上の波形図である。なお、図4(A),(B)に示した波形図は、以下に示す本願の判定処理の説明を容易にするために概念的に記載した図である。図4(D)は図4(A)〜(C)におけるサンプリング時間ΔT1での収音音声信号NEnの周波数スペクトルと擬似反響音信号FE’nの周波数スペクトルとを示す図であり、(E)は図4(D)の場合における各個別帯域相関度の周波数特性を示す図である。図4(F)は図4(A)〜(C)におけるサンプリング時間ΔT2での収音音声信号NEnの周波数スペクトルと擬似反響音信号FE’nの周波数スペクトルとを示す図であり、(G)は図4(F)の場合における各個別帯域相関度の周波数特性を示す図である。
図4は、状態判定処理で利用される各信号や相関度の波形を示す図である。図4(A)は話者発声音信号の時間軸上の波形図であり、(B)は収音音声信号NEtにおける回り込み成分の時間軸上の波形図であり、(C)は擬似反響音信号FE’tの時間軸上の波形図である。なお、図4(A),(B)に示した波形図は、以下に示す本願の判定処理の説明を容易にするために概念的に記載した図である。図4(D)は図4(A)〜(C)におけるサンプリング時間ΔT1での収音音声信号NEnの周波数スペクトルと擬似反響音信号FE’nの周波数スペクトルとを示す図であり、(E)は図4(D)の場合における各個別帯域相関度の周波数特性を示す図である。図4(F)は図4(A)〜(C)におけるサンプリング時間ΔT2での収音音声信号NEnの周波数スペクトルと擬似反響音信号FE’nの周波数スペクトルとを示す図であり、(G)は図4(F)の場合における各個別帯域相関度の周波数特性を示す図である。
[放音のみ状態の判定]
図4(A)〜(C)に示すように、サンプリング時間ΔT1では、話者発声音信号が0レベルであり、収音音声信号NEtと擬似反響音信号FE’tとが0レベルでない有意なレベルで存在する。この場合、擬似反響音信号FE’tが0レベルでないので、状態判定部10は、上述の演算式を用いて個別帯域相関度Cor(fk)および相関度Corを算出する。図4(D)に示すように、サンプリング時間ΔT1では、収音音声信号NEnの周波数スペクトルS(NEn(ΔT1))と、擬似反響音信号FE’nの周波数スペクトルS(FE’n(ΔT1))とが略一致する。このため、各個別帯域相関度Cor(fk)は略「1」となり、結果として相関度Corが略「1」となる。状態判定部10は、これを検出して、図3に示す関係から、収音音声信号と擬似反響音信号とが同じである、「放音のみ状態」と判定する。
図4(A)〜(C)に示すように、サンプリング時間ΔT1では、話者発声音信号が0レベルであり、収音音声信号NEtと擬似反響音信号FE’tとが0レベルでない有意なレベルで存在する。この場合、擬似反響音信号FE’tが0レベルでないので、状態判定部10は、上述の演算式を用いて個別帯域相関度Cor(fk)および相関度Corを算出する。図4(D)に示すように、サンプリング時間ΔT1では、収音音声信号NEnの周波数スペクトルS(NEn(ΔT1))と、擬似反響音信号FE’nの周波数スペクトルS(FE’n(ΔT1))とが略一致する。このため、各個別帯域相関度Cor(fk)は略「1」となり、結果として相関度Corが略「1」となる。状態判定部10は、これを検出して、図3に示す関係から、収音音声信号と擬似反響音信号とが同じである、「放音のみ状態」と判定する。
[Wトーク状態の判定]
図4(A)〜(C)に示すように、サンプリング時間ΔT2では、話者発声音信号、収音音声信号NEt、および擬似反響音信号FE’tが全て0レベルでない有意なレベルで存在する。この場合も、擬似反響音信号FE’tが0レベルでないので、状態判定部10は、上述の演算式を用いて個別帯域相関度Cor(fk)および相関度Corを算出する。図4(F)に示すように、サンプリング時間ΔT2では、収音音声信号NEnの周波数スペクトルS(NEn(ΔT2))と、擬似反響音信号FE’nの周波数スペクトルS(FE’n(ΔT2))とが周波数帯域によっては一致しない。このため、周波数帯域によっては個別帯域相関度Cor(fk)が略「1」とならず、結果として相関度Corが略「1」からかけ離れる。状態判定部10は、これを検出して、図3に示す関係から、収音音声信号に擬似反響音信号以外の音声成分が存在するとして「Wトーク状態」と判定する。
図4(A)〜(C)に示すように、サンプリング時間ΔT2では、話者発声音信号、収音音声信号NEt、および擬似反響音信号FE’tが全て0レベルでない有意なレベルで存在する。この場合も、擬似反響音信号FE’tが0レベルでないので、状態判定部10は、上述の演算式を用いて個別帯域相関度Cor(fk)および相関度Corを算出する。図4(F)に示すように、サンプリング時間ΔT2では、収音音声信号NEnの周波数スペクトルS(NEn(ΔT2))と、擬似反響音信号FE’nの周波数スペクトルS(FE’n(ΔT2))とが周波数帯域によっては一致しない。このため、周波数帯域によっては個別帯域相関度Cor(fk)が略「1」とならず、結果として相関度Corが略「1」からかけ離れる。状態判定部10は、これを検出して、図3に示す関係から、収音音声信号に擬似反響音信号以外の音声成分が存在するとして「Wトーク状態」と判定する。
以上のように周波数領域で相関度を検出して状態判定を行うことで、上述の4つからなる放収音の状態を判定することができる。この際、周波数領域での相関では、時間遅延の概念を用いることなく、単に音声の周波数成分の比較のみを利用すればよい。また、有限長からなるサンプリング時間により、或程度の時間遅延による影響が抑圧される。したがって、例えばスピーカとマイクとの位置が急激に変化したとしても各周波数成分が変わらないので、このような反響音の伝達経路が変化する状況であっても、状態判定を正確に行うことができる。そして、このような処理を採用することで、例えば、主筐体と複数の副筐体とが回動可能に接続されてなり、主筐体にスピーカとマイク、副筐体にマイクのみが設置されているような放収音装置の状態判定に非常に有効となる。
なお、これまでの説明では式(1)を用いて相関を求めてきたが、相関を求める演算はこれに限るものではない。
次に、図1に戻り、音響エコーキャンセラ1の他部分の説明を行う。
外部から入力された放音用音声信号(遠端信号)FEtは、スピーカSPおよびFFT911へ入力される。
外部から入力された放音用音声信号(遠端信号)FEtは、スピーカSPおよびFFT911へ入力される。
スピーカSPは、放音用音声信号FEtに基づいて放音する。
FFT911は、高速フーリエ変換回路であり、時間領域の関数である放音用音声信号FEtを周波数領域の関数である放音用音声信号FEnへ変換して、適応型フィルタ20へ与える。
適応型フィルタ20は、擬似反響音信号生成部201と擬似反響音信号推定部202とを備える。擬似反響音信号生成部201は、例えば、所定のタップ数からなるFIRフィルタであり、擬似反響音信号推定部202から与えられた係数により設定される。擬似反響音信号生成部201は、放音用音声信号FEnに基づいて擬似反響音信号FE’nを生成する。生成された擬似反響音信号FE’nは、IFFT921、外乱スペクトル推定部30のエコースペクトル推定部301、および状態判定部10へ出力される。
擬似反響音信号推定部202は、LMS等の適応アルゴリズムを用いて、後述する第1補正信号NE’nの周波数スペクトルS(NE’n)から、擬似反響音信号FE’nを推定する。擬似反響音信号推定部202は、当該擬似反響音信号FE’nを擬似反響音信号生成部201に生成させるための係数を推定して、これら係数を擬似反響音信号生成部201へ与える。この際、擬似反響音信号推定部202は、状態判定部10から「放音のみ状態」の状態判定結果Modを取得した場合にのみ、上述の推定による学習を行う。なお、このような推定、擬似反響音信号FE’nの生成、学習は、音響エコーキャンセラ1の動作中に繰り返し行われる。
IFFT921は、逆高速フーリエ変換回路であり、周波数領域の関数である擬似反響音信号FE’nを時間領域の関数である擬似反響音信号FE’tに変換して、加算器60へ出力する。
マイクMICは、当該音響エコーキャンセラ1が設置された周囲から収音して、収音音声信号(近端信号)NEtを生成する。この収音音声信号NEtには、スピーカSPからの放音があれば、当該放音音声が設置環境に基づいて反響されてなる反響音の成分が含まれる。また、マイクMIC周囲の話者が発話すれば、収音音声信号NEtに話者音声の成分が含まれる。さらに、会議室等の設置環境によって当該環境に特有の定常的なノイズが存在すると、収音音声信号NEtには、この定常ノイズの成分も含まれる。収音音声信号NEtは、加算器60および状態判定部10へ出力される。
加算器60は、マイクMICからの収音音声信号NEtから擬似反響音信号FE’tを差分することで、第1補正音声信号NE’tを生成して出力する。
FFT912は、高速フーリエ変換回路であり、時間領域の関数である第1補正音声信号NE’tを周波数領域の関数である第1補正音声信号NE’nへ変換して出力する。第1補正音声信号NE’nの周波数スペクトルS(NE’n)は、上述の擬似反響音信号推定部202および外乱スペクトル推定部30のノイズスペクトル推定部302へ入力される。
外乱スペクトル推定部30は、エコースペクトル推定部301とノイズスペクトル推定部302とを備える。簡単には、エコースペクトル推定部301は、擬似反響音信号FE’nのみで除去しきれないエコー成分を推定する演算部であり、ノイズスペクトル推定部302は、定常ノイズを推定する演算部である。
エコースペクトル推定部301は、擬似反響音信号FE’nの周波数スペクトルS(FE’n)をサンプリングタイミング毎に順次取得するとともに、一時記憶する。エコースペクトル推定部301は、この取得および記憶した擬似反響音信号FE’nの周波数スペクトルS(FE’n)と、前回推定した残響エコースペクトルS(FE”n)とに基づいて、今回の残響エコースペクトルS(FE”n)を推定する。
例えば、或るサンプリングタイミングNでの残響エコースペクトルをS(FE”n(N))とし、同サンプリングタイミングNでの擬似反響音信号の周波数スペクトルをS(FE’n(N))とし、直前のサンプリングタイミングN−1での残響エコースペクトルをS(FE”n(N−1))とする。また、βを定数とする。
そして、この設定において、残響エコースペクトルS(FE”n(N))を次式で表し、算出する。
S(FE”n(N))=(1−β)・S(FE”n(N−1))+βS(FE’n(N))
このように、擬似反響音信号FE’nの周波数スペクトルに基づいて残響エコースペクトルS(FE”n)を推定することで、適応型フィルタ20で除去しきれない残響エコーの周波数スペクトルを取得することができる。すなわち、適応型フィルタ20は、FIRフィルタ等からなり、タップ数等の仕様により表現可能な擬似反響音信号FE’nが制限される。これにより、時間軸上に復元した場合に擬似反響音信号FE’tと現実の回り込み音とで差が生じる。しかしながら、周波数領域で残響エコーを推定することで、この時間軸上の制限を取り除くことができ、擬似反響音信号FE’tでは除去しきれない残響エコーを推定することができる。
このように、擬似反響音信号FE’nの周波数スペクトルに基づいて残響エコースペクトルS(FE”n)を推定することで、適応型フィルタ20で除去しきれない残響エコーの周波数スペクトルを取得することができる。すなわち、適応型フィルタ20は、FIRフィルタ等からなり、タップ数等の仕様により表現可能な擬似反響音信号FE’nが制限される。これにより、時間軸上に復元した場合に擬似反響音信号FE’tと現実の回り込み音とで差が生じる。しかしながら、周波数領域で残響エコーを推定することで、この時間軸上の制限を取り除くことができ、擬似反響音信号FE’tでは除去しきれない残響エコーを推定することができる。
エコースペクトル推定部301は、適応型フィルタ20の擬似反響音信号推定部202と同じタイミングで、上述の推定による学習を繰り返す。
ノイズスペクトル推定部302は、第1補正音声信号NE’nの周波数スペクトルS(NE’n)をサンプリングタイミング毎に順次取得するとともに、一時記憶する。ノイズスペクトル推定部302は、この取得および記憶した複数回の第1補正音声信号NE’nの周波数スペクトルS(NE’n)に基づいて、ノイズスペクトルS(NE”n)を推定する。
例えば、或るサンプリングタイミングNでのノイズスペクトルをS(NE”n(N))とし、同サンプリングタイミングNでの第1補正音声信号の周波数スペクトルをS(NE’n(N))とし、直前のサンプリングタイミングN−1での第1補正音声信号の周波数スペクトルをS(NE’n(N−1))とする。また、α’,β’を定数とする。
そして、この設定において、ノイズスペクトルS(NE”n(N))を次式で表し、算出する。
S(NE”n(N))=α’S(NE’n(N−1))+β’S(NE’n(N))
このように、エコーキャンセル後の信号である第1補正音声信号NE’nの周波数スペクトルに基づいてノイズスペクトルS(NE”n)を推定することで、エコーとは別の暗騒音等の定常ノイズを推定することができる。この際、ノイズスペクトル推定部302は、状態判定部10から「無音状態」の状態判定結果Modを取得した場合にのみ、上述の推定による学習を行う。なお、このような推定、学習も、音響エコーキャンセラ1の動作中に繰り返し行われる。
このように、エコーキャンセル後の信号である第1補正音声信号NE’nの周波数スペクトルに基づいてノイズスペクトルS(NE”n)を推定することで、エコーとは別の暗騒音等の定常ノイズを推定することができる。この際、ノイズスペクトル推定部302は、状態判定部10から「無音状態」の状態判定結果Modを取得した場合にのみ、上述の推定による学習を行う。なお、このような推定、学習も、音響エコーキャンセラ1の動作中に繰り返し行われる。
加算器70は、周波数領域で演算を行う加算器であり、第1補正音声信号NE’nの周波数スペクトルS(NE’n)から、残響エコースペクトルS(FE”n)およびノイズスペクトルS(NE”n)を減算することで、第2補正音声信号S(NOn)を生成して出力する。なお、この処理は各スペクトルが同期するようにして行われる。すなわち、ここで言う同期とは、同じサンプリングタイミングに形成された各スペクトルを用いて演算することであり、例えば、サンプリングタイミングNの場合、
S(NOn(N))=S(NE’n(N))−S(FE”n(N))−S(NE”n(N))
の演算処理を行うことを意味する。
S(NOn(N))=S(NE’n(N))−S(FE”n(N))−S(NE”n(N))
の演算処理を行うことを意味する。
IFFT922は、逆高速フーリエ変換回路であり、周波数領域の関数である第2補正音声信号NOnを時間領域の関数である第2補正音声信号NOtへ変換して、外部へ出力する。
以上のような構成および処理を行うことで、適応型フィルタのみで行われるエコーキャンセル処理では除去しきれない残響エコーや定常ノイズを精度良く効果的に除去することができる。
なお、上述の本実施形態の説明では、周波数領域のみで状態判定を行ったが、時間領域での状態判定を追加してもよい。この場合、状態判定部10には、時間関数である擬似反響音信号FE’tと収音音声信号NEtとが入力され、これらに基づいて既知の方法で時間軸上での相関処理が行われる。状態判定部10は、周波数領域での相関度と時間領域での相関度とを参考にして状態判定を行う。
また、音響エコーキャンセラ1に、反響音の伝達経路の変化を検出する手段を設けて、この検出結果に応じて周波数領域での相関度と時間領域での相関度とを使い分けても良い。例えば、上述のように主筐体と複数の副筐体とが回動可能に接続されたような放収音装置においてロータリエンコーダ等を設け、該ロータリエンコーダからの回動検出情報を取得する。状態判定部10は、回動検出情報により回動を検出すると、この回動検出タイミングから所定期間では周波数領域で相関度を算出し、回動がなく位置関係が一定の状態が所定時間連続した場合に時間領域で相関度を算出する。時間領域での相関度の算出は、回動の影響を受けると信頼性が低下するが処理が高速である。したがって、このように回動状態に応じて処理を切り替えることで、状況に応じて適切な相関度の算出を行うことができる。
次に、第2の実施形態に係る音響エコーキャンセラについて、図を参照して説明する。
図5は、本実施形態の音響エコーキャンセラ1’の主要要素の概略構成を示すブロック図である。
本実施形態の音響エコーキャンセラ1’は、図5に示すように、第1の実施形態の音響エコーキャンセラ1に、エコーサプレッサ40、帯域分割部50、加算器80を追加した構成からなる。なお、他の構成は、第1の実施形態と同じであるが、状態判定部10’等のように信号処理内容が異なる部分については、以下で説明する。
図5は、本実施形態の音響エコーキャンセラ1’の主要要素の概略構成を示すブロック図である。
本実施形態の音響エコーキャンセラ1’は、図5に示すように、第1の実施形態の音響エコーキャンセラ1に、エコーサプレッサ40、帯域分割部50、加算器80を追加した構成からなる。なお、他の構成は、第1の実施形態と同じであるが、状態判定部10’等のように信号処理内容が異なる部分については、以下で説明する。
状態判定部10’は、擬似反響音信号FE’n、後述する収音音声信号低域成分NLEtの相関度に基づいて、第1の実施形態の場合と同様に、「Wトーク状態」、「放音のみ状態」、「収音のみ状態」、「無音状態」のいずれかであることを検出して、状態判定結果Modを適応型フィルタ20、外乱スペクトル推定部30およびエコーサプレッサ40へ与える。この際、本実施形態の収音音声信号低域成分NLEt(NLEn)が第1の実施形態の図1における収音音声信号NEt(NEn)に相当するものであり、状態判定のアルゴリズムは第1の実施形態の状態判定部10と同じである。しかしながら、本実施形態では、周波数スペクトルの範囲を低音域、すなわち後述の例であれば8kHz以下とし、この周波数領域で相関度を算出して状態判定を行う。これにより、全帯域を対象にして相関度を算出するよりも、処理演算負荷が軽くなり、より高速に状態判定を行うことができる。この際、低音域のみで相関度を検出したとしても、元々回り込み音声が低音域成分を主たる成分としていることから、相関度の信頼性は低くならない。すなわち、全帯域での状態判定と略変わらない信頼性を有する状態判定結果を高速で得ることができる。
音響エコーキャンセラ1’の適応型フィルタ20は、低域成分第1補正音声信号NLE’nの周波数スペクトルから上述の適応アルゴリズムを用いて擬似反響音信号FE’nを生成する。
マイクMICと加算器60との間には帯域分割部50が設置されている。帯域分割部50は、収音音声信号NEtを、低域成分NLEtと高域成分NHEtとに分離する。ここで、低域と高域とを区分する閾値周波数は、例えば8kHzに設定されており、人の音声の主たる成分となる8kHz以下の低域成分が、加算器60へ与えられ、8kHzよりも高い高域成分が、エコーサプレッサ40へ与えられる。
加算器60は、収音音声信号低域成分NLEtから擬似反射音信号FE’tを差分することで、低域成分第1補正音声信号NLE’tを生成して出力する。
FFT912は、高速フーリエ変換回路であり、時間領域の関数である低域成分第1補正音声信号NLE’tを周波数領域の関数である低域成分第1補正音声信号NLE’nへ変換して出力する。低域成分第1補正音声信号NLE’nの周波数スペクトルS(NLE’n)は、上述の擬似反響音信号推定部202および外乱スペクトル推定部30のノイズスペクトル推定部302へ入力される。
外乱スペクトル推定部30のノイズスペクトル推定部302は、低域成分第1補正音声信号NLE’nの周波数スペクトルS(NLE’n)を順次取得するとともに、一時記憶する。ノイズスペクトル推定部302は、この取得および記憶した複数回の低域成分第1補正音声信号NLE’nの周波数スペクトルS(NLE’n)に基づいて、ノイズスペクトルS(NLE”n)を推定する。
加算器70は、周波数領域で演算を行う加算器であり、低域成分第1補正音声信号NLE’nの周波数スペクトルS(NLE’n)から、残響エコースペクトルS(FE”n)およびノイズスペクトルS(NLE”n)を減算することで、低域成分第2補正音声信号NLOnを生成して出力する。なお、この処理は各スペクトルが同期するようにして行われる。この加算器70による同期処理は、第1の実施形態で行った同期処理と同じである。
IFFT922は、逆高速フーリエ変換回路であり、周波数領域の関数である低域成分第2補正音声信号NLOnを時間領域の関数である低域成分第2補正音声信号NLOtへ変換して、加算器80へ与える。
エコーサプレッサ40は、減衰器401とディレイ回路402とからなる。減衰器401は、状態判定部10からの状態判定結果に基づいて、収音音声信号NEtの高域成分NHEtの減衰量を調整し、減衰処理済高域成分NHE’tを出力する。
図6はエコーサプレッサ40の減衰器401の減衰量を示す図である。
減衰器401は、「放音のみ状態」または「無音状態」の状態判定結果Modを取得すると、減衰量を無限大、すなわち、高域成分NHEtを遮断する(NHE’t=0)。これは、放音用音声信号のみの場合や無音状態の場合、話者音声が含まれていないので、高域成分を遮断することで、エコーや定常ノイズをより確実に除去することができるからである。
減衰器401は、「放音のみ状態」または「無音状態」の状態判定結果Modを取得すると、減衰量を無限大、すなわち、高域成分NHEtを遮断する(NHE’t=0)。これは、放音用音声信号のみの場合や無音状態の場合、話者音声が含まれていないので、高域成分を遮断することで、エコーや定常ノイズをより確実に除去することができるからである。
また、減衰器401は、「収音のみ状態」の状態判定結果Modを取得すると、減衰量を「0」、すなわち、高域成分NHEtを減衰することなく通過させる(NHE’t=NHEt)。このように収音音声信号のみの場合、高域成分が話者音声に支配されるので、この高域成分を減衰させないことにより、話者音声をより正確に出力することができるからである。
さらに、減衰器401は、「Wトーク状態」の状態判定結果Modを取得すると、減衰量を予め設定した所定値に設定する。これは、Wトーク時には、除去したい放音用音声信号FEtの成分と、話者音声成分とが混在しているために、或程度の減衰量に設定する。これにより、話者音声を若干犠牲にしながらも、放音用音声信号FEtによるエコー成分を減衰させることができる。
減衰器401から出力された減衰処理済高域成分NHE’tは、ディレイ回路402へ入力される。ディレイ回路402は、処理演算が容易で高速な高域成分NHEt(NHE’t)と、上述のエコーキャンセルおよびエコー除去処理を行った低域成分第2補正音声信号NLOtとを時間同期して加算するためのディレイ処理を行う。このディレイ処理により、遅延減衰処理済高域成分NHE”tが生成され、加算器80へ与えられる。
加算器80は、低域成分第2補正音声信号NLOtとこれに時間同期する遅延減衰処理済高域成分NHE”tとを加算して、出力音声信号NO’tを生成し、外部へ出力する。
加算器80は、低域成分第2補正音声信号NLOtとこれに時間同期する遅延減衰処理済高域成分NHE”tとを加算して、出力音声信号NO’tを生成し、外部へ出力する。
このように、低域成分のみをエコーキャンセルおよびエコー除去処理して、高域成分を減衰処理することで処理演算量を低減することができる。この際、高域成分に上述のエコーキャンセルおよびエコー除去処理を行わなくても、人の音声の主成分が低域成分側にあるとともに、高域成分は低域成分と比較して反射回り込み量が少ないので、音質の劣化を抑制することができる。さらに、上述のように放収音状態毎に減衰量を変化させることで、より確実にエコーを除去し、且つ話者音声の音質の劣化を抑制することができる。
なお、上述の説明では、スピーカとマイクとを備える音響エコーキャンセラを例に示したが、スピーカ等の放音素子への出力端子と、マイク等の収音素子からの入力端子とを備え、放音素子や収音素子を別体にしたものであってもよい。この場合、スピーカとマイクとの位置関係が判別しにくく、それぞれを個別に移動させることができるので、上述の構成および処理がより有効となる。
また、上述の説明では、状態判定部10,10’から各部へ状態判定結果を与える例を示したが、状態判定部10が各部の学習タイミングの条件を記憶しておき、状態判定部10から各部へ学習タイミングを与えてもよい。
1,1’−音響エコーキャンセラ、10,10’−状態判定部、101−FFT、102−相関度検出部、103−状態判定結果算出部、20−適応型フィルタ、201−擬似反響音信号生成部、202−擬似反響音信号推定部、30−外乱スペクトル推定部、301−エコースペクトル推定部、302−ノイズスペクトル推定部、40−エコーサプレッサ、401−減衰器、402−ディレイ回路、50−帯域分割部、60,70,80−加算器、900−周波数領域演算部、911,912−FFT演算部、921,922−IFFT演算部、SP−スピーカ、MIC−マイク
Claims (3)
- 放音用音声信号に基づいて擬似反響音を推定し擬似反響音信号を生成する適応型フィルタと、
前記擬似反響音信号による差分処理では除去されない外乱スペクトルを推定する外乱スペクトル推定手段と、
収音音声信号に対して前記擬似反響音信号を差分した後に、当該差分信号の周波数スペクトルから前記外乱スペクトルを差分して出力用音声信号を生成する差分手段と、
前記擬似反響音信号の周波数スペクトルと前記収音音声信号の周波数スペクトルとによる周波数軸上での相関度に基づいて放収音の状態判定を行い、前記適応型フィルタおよび前記外乱スペクトル推定手段に対して、前記推定の学習のための状態判定結果を与える状態判定手段と、
を備えた音響エコーキャンセラ。 - 前記状態判定手段は、さらに前記擬似反響音信号と前記収音音声信号とによる時間軸上での相関度に基づいて前記状態判定を行う、請求項1に記載の音響エコーキャンセラ。
- 前記反響音が伝達する系の変化を検出する系変化検出手段を備え、
前記状態判定手段は、
前記反響音が伝達する系の変化が殆ど無ければ前記時間軸上での相関度に基づく状態判定を行い、
前記反響音が伝達する系が急激に変化すれば前記周波数軸上での相関度に基づく状態判定を行う、請求項2に記載の音響エコーキャンセラ。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008170122A JP2010011272A (ja) | 2008-06-30 | 2008-06-30 | 音響エコーキャンセラ |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008170122A JP2010011272A (ja) | 2008-06-30 | 2008-06-30 | 音響エコーキャンセラ |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010011272A true JP2010011272A (ja) | 2010-01-14 |
Family
ID=41591187
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008170122A Withdrawn JP2010011272A (ja) | 2008-06-30 | 2008-06-30 | 音響エコーキャンセラ |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010011272A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013126026A (ja) * | 2011-12-13 | 2013-06-24 | Oki Electric Ind Co Ltd | 非目的音抑制装置、非目的音抑制方法及び非目的音抑制プログラム |
CN113207058A (zh) * | 2021-05-06 | 2021-08-03 | 李建新 | 一种音频信号的传输处理方法 |
-
2008
- 2008-06-30 JP JP2008170122A patent/JP2010011272A/ja not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013126026A (ja) * | 2011-12-13 | 2013-06-24 | Oki Electric Ind Co Ltd | 非目的音抑制装置、非目的音抑制方法及び非目的音抑制プログラム |
CN113207058A (zh) * | 2021-05-06 | 2021-08-03 | 李建新 | 一种音频信号的传输处理方法 |
CN113207058B (zh) * | 2021-05-06 | 2023-04-28 | 恩平市奥达电子科技有限公司 | 一种音频信号的传输处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10891931B2 (en) | Single-channel, binaural and multi-channel dereverberation | |
US9461702B2 (en) | Systems and methods of echo and noise cancellation in voice communication | |
WO2009148049A1 (ja) | 音響エコーキャンセラ及び音響エコーキャンセル方法 | |
JP3568922B2 (ja) | エコー処理装置 | |
KR101798120B1 (ko) | 능동 잡음 제거와 지각적 잡음 보상의 결합에 의해 음향 재생의 지각 품질을 향상시키기 위한 장치 및 방법 | |
JP5347794B2 (ja) | エコー抑圧方法およびその装置 | |
US9607603B1 (en) | Adaptive block matrix using pre-whitening for adaptive beam forming | |
JP4973733B2 (ja) | 能動消音装置および能動消音装置の制御方法 | |
JP2017021385A (ja) | シングルチャンネル音声残響除去方法及びその装置 | |
CN110211602B (zh) | 智能语音增强通信方法及装置 | |
GB2589972A (en) | Signal processing for speech dereverberation | |
EP3692703A1 (en) | Echo canceller and method therefor | |
EP2490218B1 (en) | Method for interference suppression | |
JP5292931B2 (ja) | 音響エコーキャンセラおよびエコーキャンセル装置 | |
US11386911B1 (en) | Dereverberation and noise reduction | |
JP4690243B2 (ja) | デジタルフィルタ、周期性騒音低減装置および騒音低減装置 | |
WO2009107750A1 (ja) | 音響エコーキャンセラ | |
JP2010011272A (ja) | 音響エコーキャンセラ | |
JP3881300B2 (ja) | 音声スイッチ方法、音声スイッチ及び音声スイッチプログラム、そのプログラムを記録した記録媒体 | |
KR20180047191A (ko) | 보청기를 위한 음향 피드백 제거 장치 및 방법 | |
JP5640393B2 (ja) | エコー除去装置、方法及びプログラム | |
US11259117B1 (en) | Dereverberation and noise reduction | |
KR101283105B1 (ko) | 능동잡음 제어장치 및 그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Effective date: 20110420 Free format text: JAPANESE INTERMEDIATE CODE: A621 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20120321 |