JP2009017029A - 音声信号処理装置、音声信号処理方法 - Google Patents

音声信号処理装置、音声信号処理方法 Download PDF

Info

Publication number
JP2009017029A
JP2009017029A JP2007174310A JP2007174310A JP2009017029A JP 2009017029 A JP2009017029 A JP 2009017029A JP 2007174310 A JP2007174310 A JP 2007174310A JP 2007174310 A JP2007174310 A JP 2007174310A JP 2009017029 A JP2009017029 A JP 2009017029A
Authority
JP
Japan
Prior art keywords
adaptive
tap length
processing unit
echo cancellation
signal processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007174310A
Other languages
English (en)
Inventor
Yohei Sakuraba
洋平 櫻庭
Yasuhiko Kato
靖彦 加藤
Nobuyuki Kihara
信之 木原
Jo Matsui
丈 松井
Hideki Kishi
秀樹 岸
Yasuhiro Kodama
康広 小玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2007174310A priority Critical patent/JP2009017029A/ja
Publication of JP2009017029A publication Critical patent/JP2009017029A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】タップ長の変更が行えるようにされたエコーキャンセルのための音声信号処理構成として、より高い汎用性が得られるようにする。
【解決手段】エコーキャンセル処理のための適応フィルタを備える。そのうえで、適応フィルタを形成するデジタルフィルタのタップ長を、適応処理に関する所定状況に基づいて変更する。この構成により、デジタルフィルタのタップ長は、例えば呼出元の通信機器などの条件に応じて切り換えが行われるのではなく、そのときの適応処理状況に応じて動的に(適応的に)変更されることになる。また、適応フィルタシステムのタップ長が所定以下になった場合には、音声スイッチの動作に切り換える。
【選択図】図6

Description

本発明は、いわゆるエコーキャンセルといわれる音声信号処理機能を有する音声信号処理装置と、その方法とに関するものである。
電話機でのハンズフリー通話のほか、音声会議システム及びテレビ会議システムなどにおける音声送受信処理系などのようにして、互いに離れた場所や位置に居る話者間での通話、会話などが行えるように構成された音響システムは、拡声通話系などともいわれ、既に実用化され、また、普及している。
上記の拡声通話系システムでは、例えば、なんらかの通信方式に従って相互に通信可能な通信端末装置が複数の異なる場所に配置される。そのうえで、一方の通信端末装置側にてマイクロフォンで収音した音声が、上記一方の通信端末装置から他方の通信端末装置に対して送信され、これを受信した他方の通信端末装置側にてスピーカから音として放出するようにされる。これにより、遠隔した場所にいる話者同士の会話が可能となるものである。
ただし、拡声通話系システムでは、一方の通信端末装置側にてスピーカから放出された他方の通信端末装置側からの音声が、一方の通信端末装置側にて、再度マイクロフォンにより収音されて他方の通信端末装置のスピーカから音として放出される。そして、このような動作が循環(ループ)するようにして繰り返されることになる。これにより、例えばスピーカから、相手側の話した音声以外に、自分の話した声もこだまのようにして混ざって聴こえる、いわゆるエコーといわれる現象が生じる。また、エコー音が大きくなれば、上記のループが無限に繰り返されてハウリングといわれる現象が発生する。このようして、拡声通話系システムでは、エコー、ハウリングによる通話音声品質の低下であるとか、通話システムが使いにくくなるなどの問題を抱えることになる。
そこで、拡声通話系システムに対してエコーキャンセルのための音声信号処理系を備えることが知られている。
このようなエコーキャンセルのための信号処理としては、適応フィルタシステムを採用したものが知られている。
この適応フィルタシステムは、スピーカとマイクロフォンの間の伝達音(エコーパス)についてのインパルス応答の特性を得たうえで、スピーカから放出させるべき音を入力信号として、この入力信号に上記のインパルス応答を畳み込むことで、擬似的なエコー音の信号成分を生成する。そして、このエコー音の信号成分を、マイクロフォンにより収音して相手側の通信端末装置に送信すべき音声信号から差し引くようにされる。このような適応フィルタシステムの動作が収束した状態では、相手側の通信端末装置に対しては、エコー音がキャンセルされた音声を送信することになり、従って、スピーカから放出される音からエコー音は聴こえなくなっている(キャンセルされている)こととなる。
上記の適応フィルタシステムは、例えばFIR(Finite Impulse Response)型のデジタルフィルタと、このデジタルフィルタの係数を可変する機能とを備えて成るが、特許文献1には、このデジタルフィルタのタップ長(次数)を、呼出元の通話機器に応じて変更できるようにした構成が記載されている。特許文献1に依れば、通話機器の組み合わせにより適応フィルタにおける最適なタップ長は異なるものであると認識されており、上記の構成を採ることによって、通話機器の組み合わせが変わるのに応じて最適とされるタップ長が設定され、エコーの抑圧が充分に行われることとなる。
特開2004−242207号公報
しかし、特許文献1に記載される構成では、タップ長の変更は、あくまでも呼出元の通話機器に応じて切り換えられるようにして行われるもので、そのためには、エコーキャンセル処理におけるアルゴリズムを変更するようにされる。そして、このアルゴリズムの変更にあたっては、予め用意した複数の異なるプログラムからの選択、あるいは、デジタル・シグナル・プロセッサの内蔵メモリに予め配置されている配列の仕様態様を変更する、などにより実現するようにされている。このような構成では、予め呼出元となる通話機器を想定しておいたうえで、これらの通話機器との間での通話に応じたプログラムの用意、あるいはデジタル・シグナル・プロセッサの内蔵メモリにおける配列の仕様態様の配置を行っておく必要があることになる。つまり、特許文献1の構成では、予め想定した環境にのみ対応可能とされているものであり、そのままでは想定外の環境に対応することが難しく、従って、汎用性を持ちにくいという問題がある。
そこで、本願発明としては、タップ長の変更が行えるようにされたエコーキャンセルのための音声信号処理構成として、より高い汎用性が得られるようにすることを、その課題とする。
そこで本発明は上記した課題を解決するために、音声信号処理装置として次のように構成する。
つまり、マイクロフォンにより収音して得たとされる収音音声信号に含まれる信号成分のうち、スピーカから放出された、通信相手側から送信されてきた音声信号を受信取得して得た相手側音声信号の音の信号成分が最小となるようにする適応信号処理を実行する適応信号処理部を有して成るエコーキャンセル処理手段と、適応信号処理部についての適応処理に関する所定の状況を検知する処理状況検知手段と、この処理状況検知手段の検知結果に基づいて、上記適応信号処理部を形成するデジタルフィルタが有するタップ長を可変するタップ長可変手段とを備えて構成することとした。
上記構成による音声信号処理装置としては、適応信号処理部が行う適応処理によってエコーキャンセル処理を行うようにされる。つまり、マイクロフォンにより収音して得られる音声信号(収音音声信号)から、通信相手側より送信されてきた相手側音声信号の音の信号成分をキャンセルしようとするものである。そのうえで、本願発明にあっては、適応信号処理部を形成するデジタルフィルタのタップ長を、適応信号処理部についての適応処理に関する所定の状況に基づいて変更するようにされる。このような構成では、デジタルフィルタのタップ長は、例えば呼出元の通信機器などの条件に応じて切り換えが行われるのではなく、そのときの適応処理状況に応じて動的に(適応的に)変更されることになる。
上記のようにしてデジタルフィルタのタップ長が、その適応処理状況に応じて適応的に可変されることにより、例えば予め想定した一定の環境のみに対応するのではなく、時間経過に応じた変化も含む多様な環境の変化に対応して、最適なエコーキャンセル動作が得られるものであり、従って、例えば本願発明に基づく装置としては、非常に高い汎用性を持つこととなるものである。
本願発明を実施するための最良の形態(以下、実施の形態という)としては、テレビジョン会議システム(テレビ会議システム)における音声送受信系に本願発明を適用する。
テレビ会議システムは、場所の異なる会議場ごとに通信端末装置を設置し、この通信端末装置から、カメラ装置により撮影した画像と、マイクロフォンにより収音した音声を他の通信端末装置に送信させると共に、他の通信装置から送信されてきた画像と音声を受信して、それぞれ、表示装置、スピーカから出力させるように構成される。つまり、テレビ会議システムでは、画像を相互に送受信する映像送受信系と、音声を相互に送受信する音声送受信系とを備える。そして、本実施の形態としては、上記音声送受信系として音声を送受信するために設けられる、通信端末装置(音声通信端末装置)とされるものである。
図1は、テレビ会議システムにおける音声送受信系のシステム構成例を示している。
この場合には、互いに離れた2つの場所A、場所Bが会議場とされており、これらの場所A,Bのそれぞれにおいて、音声送受信系を成す音声通信端末装置1−1、1−2が設置される。これらの音声通信端末装置1−1は、所定の通信方式に対応する通信回線により接続されて、相互通信が可能なようにされている。また、場所A、Bのそれぞれには、マイクロフォン2−1、2−2、スピーカ3−1、3−2が設置される。マイクロフォン2−1、2−2は、それぞれ、場所A,B内に居る会議参加者の声を収音するためのもので、各場所内の適当な位置に設けられる。スピーカ3−1、3−2は、他の場所の会議参加者の声を聴くためのもので、これも各場所内の適当な位置に設けられる。なお、以降の説明において、音声通信端末装置、マイクロフォン、及びスピーカについて、特に離れた場所にある同一のものを区別する必要のない場合には、音声通信端末装置1、マイクロフォン2、スピーカ3などのようにして表記する。
先ず、場所Aにおいて、マイクロフォン2−1により収音して得た音声信号は、音声通信端末装置1−1に入力される。音声通信端末装置1−1は、入力された音声信号を、通信回線を経由して音声通信端末装置1−2に対して送信する。音声通信端末装置1−2は、上記のようにして送信されてきた音声信号を受信し、スピーカ3−2から出力させる。これにより、場所Bの会議参加者は、場所Aの会議参加者の声を聴くことができる。
また、同様にして、場所B内のマイクロフォン2−2により収音して得られた音声は、音声通信端末装置1−2により音声通信端末装置1−1に送信される。音声通信端末装置1−1では、受信した音声信号を、スピーカ3−1から出力させる。
このようにして、テレビ会議システムの音声送受信系では、音声の双方向通信を行うものであり、これにより、例えば或る1つの場所にいる会議参加者と、他の場所に居る会議参加者との間で会話を行うことが可能になる。また、このテレビ会議システムの場合には、各場所において、複数の会議参加者が居ることを想定しており、このために、各場所の会議参加者の全員が、他の場所の会議参加者の声を聴くことができるように、スピーカ3を備えることとしているものである。このようにしてスピーカを用いて双方向で音声のやりとりを行うシステムは、拡声通話系などともいわれる。
図2は、音声通信端末装置1の構成例を示している。確認のために述べておくと、図1に示した音声通信端末装置1−1、1−2は、この図2に示す構成を共通に有するものとされる。
音声通信端末装置1は、例えばこの図に示すようにして、A/Dコンバータ(ADC)11、D/Aコンバータ(DAC)12、音声信号処理部13、コーデック部14、通信部17を備えて成る。
A/Dコンバータ11は、マイクロフォン2により収音して得られたアナログの音声信号を入力し、デジタル信号に変換して音声信号処理部13に出力する。なお、以降において、上記のようにしてマイクロフォン2により収音して得られ、他の音声通信端末装置に対して送信出力されるべき音声信号については、送信用音声信号ということにする
先に述べたように、拡声通話系システムは、そのまま使用したのでは、エコー、ハウリングなどの現象を生じる。つまり、図2において示しているように、スピーカ3から空間に放出された音は、直接音及び間接音としての空間伝搬経路(エコーパス)Sを経て、マイクロフォン2に到達する。つまり、通信相手側の音声通信端末装置から送信されスピーカ3から放出された通話相手の声がマイクロフォン2にて収音され、再び、通信相手側の音声通信端末装置に送信される。また、通信相手側においても、さらにスピーカから放出された音がマイクロフォンで収音されて、こちらの音声通信端末装置に送信されてくる。即ち、拡声通話系システムでは、一度空間に放出された音が、音声通信端末装置間で循環するようにして送受信される。これにより、スピーカから放出される音には、自分が今話している声が、或る遅延時間をもってこだまのようにして聴こえるものが含まれることになる。これがエコーであり、ループが或る程度以上に繰り返されればハウリングとなる。
そこで、拡声通話系システムでは、このようなエコーの現象を解消、抑制するエコーキャンセルシステムを備えることが行われている。音声信号処理部13は、このエコーキャンセルシステムとしての信号処理機能を有するようにして構成されている。なお、この音声信号処理部13は、例えば実際には、DSP(Digital Signal Processor)として構成される。また、音声信号処理部13によるエコーキャンセルのための構成については後述する。
音声信号処理部13によりエコーキャンセル処理が施された送信用音声信号は、コーデック部14内のエンコーダ15に対して入力される。エンコーダ15は、入力された音声信号について、例えば所定方式に応じた音声圧縮符号化などの信号処理を施して通信部17に対して出力する。通信部17は、入力された送信用音声信号を、所定の通信方式に従って、通信回線経由で、他の音声通信端末装置に対して出力するようにされる。
また、通信部17は、他の音声通信端末装置から送信されてきた送信用音声信号を受信して所定の圧縮符号化形式の音声信号に復元し、コーデック部14のデコーダ16に出力する。なお、このようにして、通信部17にて受信復調し、最終的にスピーカ3から出力されるべき音声信号については、再生用音声信号ということにする。
デコーダ16では、入力された再生用音声信号の圧縮符号化に対する復調処理を実行して、所定のPCM形式のデジタル音声信号に変換し、音声信号処理部13に出力する。音声信号処理部13を経由した再生用音声信号は、D/Aコンバータ12によりアナログ信号に変換されたうえで出力される。この出力された再生用音声信号を、最終的にはスピーカ3から出力させるようにする。
図3は、本実施の形態におけるエコーキャンセルシステムである音声信号処理部13の内部構成例を示している。なお、この図に示す音声信号処理部13の構成は、第1の実施の形態としての構成となるものである。
この図においては、音声信号処理部13とともに、A/Dコンバータ11、D/Aコンバータ12、及びコーデック部14(エンコーダ15、デコーダ16)を示している。
この図3に示される音声信号処理部13は、帯域分割処理部21、22、エコーキャンセルブロック23、帯域合成処理部24を有して成る。
先ず、A/Dコンバータ11から出力された送信用音声信号は、帯域分割処理部21に対して入力される。帯域分割処理部21は、例えばそれぞれ異なる通過帯域特性が設定されたバンドパスフィルタなどを備えて形成されるもので、入力された送信用音声信号を、上記のバンドパスフィルタの特性に対応した周波数帯域の信号成分から成るm+1個の送信用帯域別音声信号D0、D1・・・Dm-1、Dmに分割して出力する。ここでは、送信用帯域別音声信号D0が最も低い周波数帯域を有し、以降、D1・・・Dm-1、Dmの順で各周波数帯域が高くなっていくようにされる。
また、もう一方の帯域分割処理部22は、デコーダ16からD/Aコンバータ12に対して入力される段階の再生用音声信号を入力し、この信号を、上記帯域分割処理部21と同様のバンドパスフィルタ構成により、m+1個の再生用帯域別音声信号X0、X1・・・Xm-1、Xmに分割して出力する。これにより、再生用帯域別音声信号X0、X1・・・Xm-1、Xmとしては、それぞれ、送信用帯域別音声信号D0、D1・・・Dm-1、Dmと同じ分割周波数帯域を持つ信号となる。
エコーキャンセルブロック23は、全体としては、全周波数帯域の送信用音声信号を参照信号とするエコーキャンセル動作に相当する音声信号処理動作を実行する部位とされ、m+1個のエコーキャンセル処理部30[0]、30[1]・・・30[m-1]、30[m]を備える。
これらのエコーキャンセル処理部30[0]、30[1]・・・30[m-1]、30[m]に対しては、それぞれ、送信用帯域別音声信号D0、D1・・・Dm-1、Dmを、1サンプルごとに所定の時間間隔によるタイミングで入力させている。同様に、再生用帯域別音声信号X0、X1・・・Xm-1、Xmを、上記送信用帯域別音声信号D0、D1・・・Dm-1、Dmと同じタイミングで、1サンプルごとに入力させている。このようにして、各エコーキャンセル処理部30に対しては、互いに同じ周波数帯域を有する送信用帯域別音声信号と再生用帯域別音声信号とを入力させるようにしている。この場合、エコーキャンセル処理部30[0]が最も低い分割周波数帯域を有する送信用帯域別音声信号と再生用帯域別音声信号を入力し、以降、エコーキャンセル処理部30[1]・・・30[m-1]、30[m]の順で、入力する送信用帯域別音声信号と再生用帯域別音声信号の分割周波数帯域が高くなっていくことになる。
そして、エコーキャンセル処理部30[0]、30[1]・・・30[m-1]、30[m]の各々から出力される信号S0、S1・・・Sm-1、Smの各々は、帯域合成処理部24に対して入力され、ここで1つの信号に合成され、コーデック部14におけるエンコーダ15に対して出力される。
なお、帯域分割処理部21、22が実行するものとされる帯域分割(分析)処理と、例えば現状であれば、DFT(Discrete Fourier Transform)フィルタバンク、QMF(Quadrature Mirror Filter)フィルタバンクなどといわれる技術を採用することが考えられる。また、帯域別音声信号を入力して信号処理を実行し、帯域合成処理部24により再合成する技術については、マルチレート信号処理などといわれる、サンプリング周波数を変換したうえでの信号処理過程を含むようにされた手法を採用できる。もちろん、これ以外の帯域分割、及び帯域合成の処理手法が採用されて構わない。
図4は、エコーキャンセル処理部30[0]についての内部構成例を示している。なお、本実施の形態としては、他のエコーキャンセル処理部30[1]〜30[m]も同様の構成を有するものとされる。
本実施の形態としてのエコーキャンセル処理部30[0]は、例えば図示するようにして、適応フィルタシステム32と、適応フィルタシステム32の動作(プログラム、アルゴリズムのシーケンス)を制御可能に構成されたシーケンス制御部31を備えているものとされる。
先ず、適応フィルタシステム32は、適応フィルタ(ADF:Adaptive Digital Filter)41及び減算器42から成る。
適応フィルタ41には、所定タイミングにより1サンプルごとに、再生用帯域別音声信号X0が参照信号x(k)として入力される。なお、kは時刻を表す。適応フィルタ41は、所定の適応アルゴリズムに従った適応処置により、上記参照信号x(k)から、疑似エコー信号(キャンセル用信号)y(k)を生成して出力し、減算器42に入力する。
減算器42は、送信用帯域別音声信号D(0)を所望信号d(k)(処理対象信号)として、この所望信号d(k)から、上記適応フィルタ41の出力信号を減算し、その出力を信号S(0)として出力する。また、適応フィルタ32に入力される減算器42の出力は誤差信号(残差信号)e(k)といわれるものとなる。
図5は、上記適応フィルタシステム32を、適応フィルタ41の内部構成例と共に示している。
この図に示すようにして、適応フィルタ41は、デジタルフィルタ50と係数設定回路54から成る。この図により、適応フィルタシステム32による適応処理の基本動作について説明しておくこととする。
この場合のデジタルフィルタ50は、或る必要タップ長N(次数)を有して成るFIR(Finite Impulse Response:有限インパルス応答)型とされ、図示するようにして、N-1個の遅延器51[1]〜51[N-1]と、N個の乗算器52[0]〜52[N-1]と加算器53を有して成る。遅延器51[1]〜51[N-1]は直列接続され、先頭の遅延器51[1]には、参照信号x(k)を入力する。
また、乗算器52[0]〜52[N-1]のうち、乗算器52[0]には参照信号x(k)が入力され、以降の乗算器52[1]〜52[N-1]には、それぞれ、遅延器51[0]〜51[N]の出力信号[x(k-1)〜x(k-(N-1))]が入力される。乗算器52[0]〜52[N-1]は、それぞれ、後述する係数設定回路54によりフィルタ係数h[0]〜h[N-1]が可変設定されるようになっており、入力された信号について、設定されたフィルタ係数により乗算を行って加算器53に出力する。
加算器53は、乗算器52[0]〜52[N-1]の出力を加算する。この加算器53の出力が、疑似エコー信号y(k)(キャンセル用信号)とされ、減算器42に対して出力されるようになっている。
減算器42の出力は、エコーキャンセル処理部30[0]の出力信号S0、かつ誤差信号e(k)とされ、誤差信号e(k)については係数設定回路54に対して入力される。
なお、上記誤差信号e(k)は、疑似エコー信号y(k)、参照信号d(k)を利用して次のようにして表すことができる。
Figure 2009017029
係数設定回路54は、入力信号x(k)と上記誤差信号e(k)を入力して、誤差信号e(k)に含まれるとされる参照信号x(k)の成分量(残差量)が最小となるインパルス応答を推定し、この推定したインパルス応答に対応するフィルタ係数h[0]〜h[N-1]を決定する。そして、これらの決定したフィルタ係数h[0]〜h[N-1]を、それぞれ、乗算器52[0]〜52[N-1]に対して設定するようにされる。このフィルタ係数の設定は、時刻k、k+1・・・ごとのタイミングにより行われる。つまり、そのときの参照信号x(k)の状態に応じてデジタルフィルタ50の係数ベクトル(次数段階に応じたフィルタ係数のパターン)を変更設定していくようにされる。
この結果、デジタルフィルタ50の係数ベクトルによっては、D/Aコンバータ12に入力される段階の再生用音声信号(第1の音声信号)がスピーカ3から出力され、次に空間伝搬経路S(図2参照)を経由してマイクロフォン2にて収音され、さらにA/Dコンバータ11から帯域分割処理部21を経由して減算器42に対して所望信号(処理対象信号)として入力されるまでの伝達経路(キャンセル音伝達経路)の擬似的な伝達関数を表現するインパルス応答を形成することになる。この動作は即ち、上記キャンセル音伝達経路を経由して得られる音の信号成分を、そのときの参照信号の状態に応じて適応的にキャンセルする動作であることになる。
そして、上記の伝達経路を経由する音は、エコーパスである空間伝搬経路Sを経由することからも分かるように、再生用音声信号を基としたエコー音の成分である。従って、適応フィルタ41の出力信号(疑似エコー信号y(k)、キャンセル用信号)は、再生用帯域別音声信号X0についての疑似エコーとして捉えられることとなる。この適応フィルタシステムとしてのエコーキャンセル処理部30[0]においては、減算器22により、送信用帯域別音声信号D(0)から、上記再生用音声信号X(0)についての疑似エコー音を差し引くことになる。このようにして、エコーキャンセル処理部30[0]は、送信用帯域別音声信号X0から、エコー音の成分を適応的に除去するという動作(適応処理)を実行する。
上記した適応フィルタ41の動作は、デジタルフィルタ50の出力である疑似エコー信号y(k)を推定する動作であるとしてみることができるが、一例として、適応アルゴリズムについて射影アルゴリズムを採用することとした場合、疑似エコー信号y(k)の推定には、下記の数式を用いることができる。
Figure 2009017029
なお、上記(数2)において、Nはタップ長を示す。w(k)は、{W(0),W(1),・・・, W(N-1)}の順で配列された、時刻kにおける係数ベクトルを表す。また、ここでのx(k)は、{x(k),x(k-1), x(k-2),・・・, W(k-(N-1))}の順により配列される、参照信号についての時間領域データのベクトルを示すものとされる。上記(数2)により、時刻kにおける疑似エコー信号y(k)が推定(生成)される。そして、先に(数1)に示したようにして、減算器42により、参照信号d(k)から上記疑似エコー信号y(k)を差し引く(減算する)ことにより、誤差信号e(k)が得られることとなる。このようにして得られた誤差信号e(k)に基づいて、適応フィルタ41における係数設定回路54は、次の時刻k+1のタイミングで乗算器52[0]〜52[N-1]に設定すべきフィルタ係数、即ち係数ベクトルを、下記の(数3)(数4)により求めるようにされる。下記の演算により、時間経過に応じて係数ベクトルの更新が行われていくようにされる。
Figure 2009017029
Figure 2009017029
なお、上記(数3)(数4)におけるμは、ステップサイズパラメータであり、(数4)におけるTjは転置を表す。
上記の説明から理解されるように、適応処理によってエコーキャンセルを行う適応フィルタシステム32は、FIR型のデジタルフィルタ50を備える。そして、本実施の形態において、図4に示すようにして、エコーキャンセル処理部30内に適応フィルタシステム32とともに備えられるシーケンス制御部31は、適応フィルタシステム32に対する動作制御として、適応フィルタ41におけるデジタルフィルタ50のタップ長を、そのときの適応フィルタシステム32の適応処理状況に応じて変更することが可能とされている。なお、このデジタルフィルタ50のタップ長を可変するための構成については後述する。
上記したエコーキャンセル処理部30[0]の構成は、残るエコーキャンセル処理部30[1]〜30[m]についても同様にして与えるようにされる。
これにより、エコーキャンセルブロック23によっては、送信用帯域別音声信号D0、D1・・・Dmに対応する周波数帯域範囲の送信用音声信号から、エコー音の成分を適応的に除去するという動作が得られることになる。
なお、以降の説明において、エコーキャンセル処理部について、エコーキャンセル処理部30[0]、30[1]・・・30[m-1]、30[m]の間での区別を特に行う必要のない場合には、エコーキャンセル処理部30と記載する。
これまでの説明によれば、本実施の形態のエコーキャンセルブロック23は、処理対象信号を所定の周波数帯域ごとに分割して、計m+1個のエコーキャンセル処理部30により処理させるという、フィルタバンク的な処理構成を採ることとしたうえで、エコーキャンセル処理部の各々については、適応フィルタシステムによる適応処理によってエコーキャンセルを行うようにして構成されていることが理解される。
ここで、エコーキャンセル処理部30[0]〜30[m]において備えられるデジタルフィルタ50について、そのタップ長を、それぞれ同じとしたうえで固定的に設定して構成したとする。なお、このような構成は、例えば図3に示したようなフィルタバンク的なエコーキャンセルブロックの構成を採ろうとする場合において、最も順当に考えられるものの1つである。この場合には、例えば、所定の条件などに従って最適とされる1つのタップ長を求めて、これを各エコーキャンセル処理部のデジタルフィルタ50に設定することになる。
タップ長は、長くなるのに応じて、キャンセルできるエコーの残響時間も長くなり、結果的にエコーのキャンセル量は多くなっていく。その一方で、デジタルフィルタの収束に要する時間は長くなってしまう。デジタルフィルタが収束するまでは、エコー音が残留してしまうことになる。
これに対して、タップ長が短くなるのに応じては、キャンセルできるエコーの残響時間は短くなり、収束した状態でのエコーキャンセル量も少なくなっていくが、収束するまでの時間は短縮される。
このようにしてタップ長は、エコーキャンセル量と収束時間についてトレードオフの関係となる特性を与えるものとなる。
また、本実施の形態のようにして、分割された音声周波数帯域ごとに対応してエコーキャンセル処理を実行するように構成した場合には、エコー音成分が発生しやすかったり、目立ちやすかったりするなどして、強力にエコー音を抑圧することが要求される周波数帯域と、そうではない周波数帯域とがあることになる。また、周波数特性などによりデジタルフィルタが収束しやすい周波数帯域と、収束しにくい周波数帯域があることにもなる。
このために、上記のようにしてエコーキャンセル処理部30[0]〜30[m]において備えられるデジタルフィルタ50についてタップ長を固定して設定したとすると、或る周波数帯域においては、タップ長が不足してエコー音成分の減衰が不充分となる一方で、或る周波数帯域においては、本来はより短いタップ長であっても充分にエコー音成分が抑制されるのにもかかわらず、タップ長が固定であるために余剰となってしまい、その分、収束時間が長くなってしまうというような不具合が生じる可能性がでてくる。
そこで、例えばエコーキャンセル処理部30[0]〜30[m]において備えられるデジタルフィルタ50ごとに、或る条件に従って求められたタップ長を設定する、つまり、デジタルフィルタ50ごとに適切とされる、異なるタップ長を固定して設定することも考えられる。
しかし、例えば、本実施の形態の音声通信端末装置1の使用環境が、場所や時間経過に応じて変化する可能性があるが、このような変化にまで対応することが難しい。この点で、より応用範囲が広く、高い汎用性を得ようとすれば、さらに改善を図るべきことが要求されてくる。
また、特許文献1においては、呼出元の通話機器に応じてデジタルフィルタのタップ長を変更できるようにした構成が示されているが、この技術を、そのまま本実施の形態のようなフィルタバンク的な構成に適用することとした場合には、各エコーキャンセル処理部30内のデジタルフィルタ50は常に同じタップ数とされたうえで、タップ数の変更設定が行われることになる。
従って、この場合には、各エコーキャンセル処理部30が担当する周波数帯域に応じて異なってくる最適タップ長を設定することはできないことになる。また、この場合のタップ長の変更は、あくまでも、呼出元の通話機器に応じてのタップ長の「切り換え」による変更となるものであり、呼出元の通話機器が予め特定されているような限定的な用途でなければ有効なエコーキャンセル効果は得られない。例えば本実施の形態の音声通信端末装置1によるテレビ会議システムでは、マイクロフォン2やスピーカ3の設置位置であるとか、話者の位置などをはじめ、その使用環境は不確定性が強く、特許文献1の技術により定常的に良好なエコーキャンセル効果を得ようとすることは困難である。
そこで、本実施の形態としては、エコーキャンセル処理部30[0]〜30[m]の各々において、シーケンス制御部31により、適応フィルタシステム32によるエコーキャンセル処理(適応処理)の状況に応じて、動的にデジタルフィルタ50のタップ長を変更設定するように構成する。これにより、エコーキャンセル処理部30[0]〜30[m]内のデジタルフィルタ50のそれぞれは、対応する周波数帯域ごとにおけるそのときの動作状態などに応じて最適とされるタップ数が設定されることとなり、例えばフィルタ係数を固定的に設定する場合と比較すれば、周囲環境の変化に対してより柔軟に対応して、より適切なエコーキャンセル効果を得ることが期待されることになる。つまり、より広範な汎用性を有するエコーキャンセラが得られる。以降、本実施の形態における、デジタルフィルタ50のタップ長を可変するための構成について説明を行っていく。
先ず、デジタルフィルタ50のタップ長の変更は、上記しているように、エコーキャンセル処理の状況に応じて行うべきことになる。そこで、本実施の形態としては、エコーキャンセル処理の状況を、エコー音成分の減衰量により推し量ることとする。エコー音成分の減衰量を示す指標としては、いくつか考えられるのであるが、ここでは、ERLE(Echo Return Loss Enhancement)を採用することとする。
上記のERLEは、下記の(数5)に示す数式により表される。
Figure 2009017029
上記(数5)から理解されるように、ERLEは、所望信号d(k)(送信用音声信号)と、誤差信号e(k)との比により定義される量であり、エコー音成分が量的にどれだけ低減、減衰されたものであるのかを表す値とされる。
例えば、ERLE=0dBを示している場合には、エコー音成分の減衰量は0であって、所望信号d(k)からは全くエコー音成分が除去されていない状況であることを示すことになる。また、ERLE=-30dBを示しているとすると、エコー音成分が所望信号d(k)から30dB消去されていることを示すことになる。ちなみに、ERLE=-30dBを示せば、エコーのキャンセル量としては実用上充分であるとされている。
そして、図4に示されるシーケンス制御部31は、同じエコーキャンセル処理部30内の適応フィルタシステム32によるエコーキャンセル処理についての状況結果として、ERLEを取得可能に構成されている。このために、シーケンス制御部31は、所要のタイミングで、適応フィルタシステム32から所望信号d(k)と誤差信号e(k)とを取り込んで、(数5)により表される式に従った演算を行い、ERLEとしての数値を求めるようにされる。そして、このようにして求めたERLEの値に基づき、次に説明するようにして、適応フィルタ41内のデジタルフィルタ50のタップ長を変更する制御を行う。
図6は、シーケンス制御部31が実行するものとされる、デジタルフィルタ50のタップ長を可変するための手順例を示している。例えば音声信号処理部13がDSPとして構成されているのであれば、この図に示す手順は、DSPが実行すべきプログラム(インストラクション)をフローチャートとして表現したものとしてみることができる。
ここで、エコーキャンセル処理部30[0]〜30[m]におけるデジタルフィルタ50の全てを対象として割り当て可能な総タップ数については予め上限を設定してあるものとする。例えば音声信号処理部13がDSPにより構成されているとすると、このDSPが使用できるリソース量、メモリ容量は有限となる。このために、本実施の形態のようにして、デジタルフィルタ50のタップ数を可変とする場合において、無制限にタップ数を利用できることとすると、他の処理に使用すべきリソースまでを消費する可能性があり、DSPとしての良好な動作を阻害する可能性がある。そこで、本実施の形態としては、上記の総タップ数を定めることとしている。
そして、例えば音声信号処理部13が起動したことに応じては、先ず、ステップS101により、初期設定として、エコーキャンセル処理部30[0]〜30[m]におけるデジタルフィルタ50のそれぞれに一律に設定すべきタップ長(タップ数)Nを求めるようにされる。このためには、上記総タップ数をAtp、エコーキャンセル処理部数(即ち、デジタルフィルタ50の総数)をmとして、
N=Atp/m・・・(式1)
により求めるようにされる。
ステップS102においては、エコーキャンセル処理部30[0]〜30[m]における各デジタルフィルタ50に対して、一律に、上記ステップS101により求められたタップ長Nを設定する。つまり、各デジタルフィルタ50について、タップ長Nを有した構成とするものである。これにより、各デジタルフィルタ50のタップ長についての初期設定が完了したこととなる。
なお、上記初期設定に関しては、エコーキャンセル処理部30のデジタルフィルタ50ごとに異なるタップ長を設定することも考えられる。例えばエコー音のエネルギーが多いことが想定される分割周波数帯域に対してより多い初期タップ長を割り当てるようにする。この場合、エコー音の基は、話者音声であり、人の発する声となる。従って、実際においては、人の声に対応した、可聴周波数帯域において比較的低域となる分割周波数帯域に、より多くの初期タップ長を割り当てることとなる。
ステップS103においては、先の説明のようにして、ERLEを算出して取得するようにされる。
次のステップS104においては、上記ステップS103により取得したERLEに基づいて、デジタルフィルタ50についての修正タップ数αを求めるようにされる。つまり、ERLEの値が示すエコー音成分の消去量が所定以下である場合には、現在のデジタルフィルタ50のタップ長Nでは不足していることになる。そこで、この場合には、一定以上の消去量が得られるとされるだけのタップ長を獲得するのに必要とされるタップ数を、修正タップ数αとして求めることになる。この場合の修正タップ数は正の数となる。また、逆に、ERLEの値が示すエコー音成分の消去量が所定以上である場合には、タップ長が余剰であることになるので、この余剰分のタップ数を、負の数による修正タップ数αとして得ることになる。このようにして修正タップ数αを求めるのにあたっては、例えば、関数を用いた演算により、ERLEに対応した修正タップ数を求める、若しくは、ERLEの値と修正タップ数αとの対応を示したテーブルなどを参照するようにされればよい。
ステップS105においては、上記ステップS104により求めた修正タップ数αについてα=0であるか否かについて判別する。α=0である場合には、現在においてデジタルフィルタ50に設定されているタップ長は適正であることになる。この場合には、後述するステップS112の手順に進むようにされる。
これに対して、α=0ではない場合には、現在においてデジタルフィルタ50に設定されているタップ長は不足、若しくは余剰であることになる。この場合にはステップS106に進む。
ステップS106においては、修正タップ数αについて、α>0であるか否かについて判別する。
ここでα>0ではない(即ち負の数である)として否定の判別結果が得られた場合には、現在のデジタルフィルタ50のタップ長は余剰であり削減すべきであるということになる。この場合には、ステップS110に進み、N←N+α(この場合のαは負の数である)により表される演算により更新して求めたタップ長Nを、デジタルフィルタ50に設定するようにされる。つまり、これまでのタップ長からαの絶対値分だけタップ数が削減されたタップ長とするようにしてデジタルフィルタ50を再構成する。
なお、このようにしてタップ長を削減したことに応じては、例えばDSPにおいては、削減したタップ数分のメモリが解放され、要求されたタップ数分のリソースが確保されることとなる。このようにして解放されたタップ数は、以降において、どのエコーキャンセル処理部30のシーケンス制御部31によっても、デジタルフィルタ50のタップ長の増加のために利用することができる。
一方、ステップS106において、α>0であるとして肯定の判別結果が得られた場合には、現在のデジタルフィルタ50のタップ長は不足であり、タップ長を増加させるべきであるということになるが、この場合には、ステップS107に進む。
ステップS107においては、解放タップ数βと修正タップ数αとについて、β≧αが成立するか否かについて判別する。ここで、解放タップ数βとは、エコーキャンセル処理部30[0]〜30[m]におけるデジタルフィルタ50全体を対象として割り当て可能な総タップ数Atpのうちで、現在においてエコーキャンセル処理部30[0]〜30[m]における各デジタルフィルタ50によって使用されておらず、リソースとして解放されているタップ数を指す。また、この解放タップ数βは、β≧0の整数値となる。つまり、解放タップ数βとしては0である場合(リソースとして解放されているタップ数が無い場合)を含むこととしている。
従って、ステップS107においては、修正タップ数αとして示される不足のタップ数を、解放タップ数βとして有しているか否かを判別していることになる。
ステップS107において肯定の判別結果が得られた場合には、修正タップ数αとして求められただけのタップ数の不足分を、解放タップ数βからまかなえることになる。そこで、この場合には、ステップS110に進んで、N←N+αにより表される演算により更新して求めたタップ長Nを、デジタルフィルタ50に設定するようにされる。この場合のαは正の数であるから、デジタルフィルタ50は、αの絶対値分だけタップ長が増加されるようにして再構成されることになる。
ステップS107において否定の判別結果が得られた場合には、現在の解放タップ数βでは、修正タップ数αとして求められただけのタップ数の不足分には満たないことになる。このときのタップ数の不足分、即ち不足タップ数sは、s=α−βにより表すことができる。
そこで、この場合には、ステップS108により、自身が対応する分割周波数帯域よりも高域の分割周波数帯域を受け持つエコーキャンセル処理部30(高域側エコーキャンセル処理部)のデジタルフィルタ50のタップ長からタップ数を分けてもらうようにして、不足タップ数s分のタップ数を確保可能であるか否かについて判別する。この判別にあたっては、高域側エコーキャンセル処理部ごとに保持しているとされる明け渡し可能タップ数Aの情報を参照するようにされる。明け渡し可能タップ数Aは、そのエコーキャンセル処理部30が現時点において明け渡し可能なタップ数を示す情報であり、各エコーキャンセル処理部30内のシーケンス制御部31が、後述するステップS114の処理により適宜更新して保持しておくようにされる。
ステップS108において、否定の判別結果が得られた場合には、高域側エコーキャンセル処理部において、タップ数を明け渡せるものは無いことになる。そこで、この場合には、ステップS111において、N←N+βにより表される演算により更新して求めたタップ長Nを、デジタルフィルタ50に設定するようにされる。この処理は、修正タップ数αには満たないのであるが、利用可能な解放タップ数β分だけでもタップ数を増加させることで、デジタルフィルタ50のタップ長を、できるだけ最適値に近くしようとするものである。確認のために述べておくと、β=0の場合には、ステップS111による処理を行ったとしても、実質的にタップ長Nに変化はないこととなる。
なお、上記のステップS111に至った場合のようにして、一度は、必要なタップ長を確保できない状態に至ったとしても、図6に示す手順を繰り返しているうちに、他のエコーキャンセル処理部30においてタップ長を解放して、再度、解放タップ数βが、不足タップ数s以上となって、修正タップ数α分のタップ数の増加を行うことが可能になる可能性がある。
一方、ステップS108において肯定の判別結果が得られた場合には、高域側エコーキャンセル処理部から不足タップ数sを確保することが可能であることになる。
そこで、この場合には、先ず、ステップS109により、タップ数を明け渡せる高域側エコーキャンセル処理部のうちで、担当する周波数帯域が高いものの方から順に、明け渡してもらえるだけのタップ数についての明け渡し要求を行っていくことで、最終的には、不足タップ数s分の明け渡し要求を行うようにされる。例えば、タップ数を明け渡せる高域側エコーキャンセル処理部のうちで最も周波数帯域が高いものが明け渡し可能なタップ数がa(s>a)であるとすると、先ずは、この高域側エコーキャンセル処理部に対して、タップ数aの明け渡し要求を行う。また、次に周波数帯域が高いとされる高域側エコーキャンセル処理部において明け渡し可能なタップ数は、s-aよりも大きいとすれば、タップ数(s-a)の明け渡し要求を行う。明け渡し要求を受けたエコーキャンセル処理部30では、必ず、要求に応じたタップ数を解放して明け渡すこととなっており、内部のシーケンス制御部31は、要求されたタップ数だけ、デジタルフィルタ50のタップ長を削減するようにして動作する。
上記のようにして、ステップS109の手順が実行されることで、解放タップ数βとしては、修正タップ数α分が確保されることになる。そこで、ステップS110に進んで、タップ長について、修正タップ数αの絶対値分を増加させてデジタルフィルタ50を再構成するようにされる。
ステップS110、S111によるタップ長Nの更新設定を実行した場合、また、ステップS105にて肯定の判別結果が得られた場合には、ステップS112に進む。
ステップS112においては、他のエコーキャンセル処理部30のシーケンス制御部31から、或るタップ数vを指定しての明け渡し要求を受けたか否かについて判別する。
この図6の手順を実行している本シーケンス制御部31がタップ数の明け渡し要求を受ける場合とは、他のエコーキャンセル処理部30のシーケンス制御部31が、ステップS109の手順を実行したときに、要求先として、本シーケンス制御部31を有するエコーキャンセル処理部30が選択された場合である。
まず、ステップS112において否定の判別結果が得られた場合には、ステップS103に戻るようにされる。これに対して、ステップS112において肯定の判別結果が得られた場合には、ステップS113に進む。
ステップS113においては、ステップS112に対応して明け渡しの要求を受けたタップ数vだけ、デジタルフィルタ50のタップ長を削減(解放)する(N←N-v)。次に、ステップS114により、自身が保持している明け渡し可能タップ数Aの情報について、A←A-vで表されるようにして、今回の要求に応じて明け渡したタップ数分を差し引いた値に更新して保持し直すようにされる。そして、ステップS103に戻る。
なお、明け渡し可能タップ数Aの初期値をどのようにして設定するのかについてはいくつか考えることができる。1つには、必要最小限のエコー音成分の消去量を確保可能とされるタップ数を求めたうえで、このタップ数に基づいて明け渡し可能タップ数Aの初期値を求めるというものである。この場合において、全てのエコーキャンセル処理部30について共通の明け渡し可能タップ数Aの初期値を設定してもよいし、分割周波数帯域ごとに応じてより適しているとされる値を設定することとしてもよいものである。このようにして明け渡し可能タップ数Aの初期値を設定した場合には、例えば明け渡し可能タップ数Aの初期値分を明け渡して、これ以上のタップ数を明け渡すことが不可となっている状態では、必要最小限とされるエコー消去量を得るようにして適応処理を行うようにされていることになる。
上記のようにして、本実施の形態においては、先ず、ERLEに基づいて最適なタップ長を設定するために必要あるいは不要となるタップ数(修正タップ数α)を求め、この修正タップ数αに応じて、デジタルフィルタ50のタップ長を削減あるいは追加するという動作が、適応フィルタシステム32の適応処理とともに、動的に得られることになる。また、この動作が、エコーキャンセル処理部30[0]〜30[m]ごとにおいて行われる。この結果、エコーキャンセル処理部30[0]〜30[m]ごとにおいて、最適とされるデジタルフィルタ50のタップ長が設定されることとなる。これにより、例えば各エコーキャンセル処理部30におけるタップ長を固定設定する場合と比較すれば、使用環境に対してより柔軟に対応して良好なエコーキャンセル効果を得ることが可能になる。
また、修正タップ数αとして増加が必要な場合(正の数の場合)において、必要なタップ数に対応する未使用のリソース(解放タップ数β)が存在しない場合には、より高域側のエコーキャンセル処理部30内のデジタルフィルタ50にタップ数を明け渡して(解放して)もらい、これを利用して修正タップ数分のタップ数を増加させることとしている。これは、現実において、タップ数に対応するリソースが有限であることを考慮したものである。
そのうえで、本シーケンス制御部31を有するエコーキャンセル処理部よりも、高域側のエコーキャンセル処理部からタップ数を明け渡してもらうようにしているのは、重点的にキャンセルすべきエコー音の成分の周波数帯域が低域側に偏っていることに依る。つまり、拡声通話システムでは、主に人が発する声としての音声を送受信することになるのであるが、音声周波数帯域(可聴周波数帯域)において、人の音声の周波数帯域は低域側に分布する。従って、人の音声を元に発生するエコー音の成分としても低域側に分布することになり、より強力にエコー音をキャンセルすべき帯域としては低域側に偏倚することとなるものである。換言すれば、高域になるほど、キャンセルすべきエコー音成分のエネルギーは少なくなる。そこで、他のエコーキャンセル処理部30からタップ数を明け渡してもらうのにあたっては、できるかぎり高域のエコーキャンセル処理部30からはじめることで、エコーキャンセル効果の劣化は目立たないことになるわけである。
ところで、図6に示したフローチャートによる手順では、解放タップ数βが一定以下となった状態のもとで、明け渡し可能なタップ数Aが0(明け渡し可能な全タップ数を明け渡しした状態)となり、さらに、高域側エコーキャンセル処理部からも不足タップ数を明け渡してもらうことができない、という状態(最低タップ数保有状態)になるエコーキャンセル処理部30が出てくる可能性がある。このような最低タップ数保有状態は、ステップS108、S109により高域側エコーキャンセル処理部に対して不足タップ数の明け渡し要求を行うようにされていることからも理解されるように、対応する分割周波数帯域が高くなるエコーキャンセル処理部30ほど、発生する可能性が高くなる。このような状態となったエコーキャンセル処理部30は、先に例として述べた明け渡し可能なタップ数Aの初期値の設定を行ったとすれば、最小限とされるエコー音の消去量を得るようにして適応処理を継続することになる。
上記のようにして最低タップ数保有状態となったときに、その状態での適応処理を維持させるという構成の他、本実施の形態としては、次のような構成を採ることも可能とされる。
つまり、最低タップ数保有状態に対応する一定の条件を満たす状態となった場合、そのエコーキャンセル処理部30におけるエコーキャンセル処理を、適応フィルタシステムによる適応処理から、音声スイッチのシステムに切り換える、というものである。
内部のエコーキャンセル処理を音声スイッチとした場合のエコーキャンセル処理部30の内部構成例について、最も高い分割周波数帯域を担当するエコーキャンセル処理部30[m]を例に挙げることとして、図7により説明しておく。
この図7に示されるエコーキャンセル処理部30[m]は、音声スイッチ33とシーケンス制御部31から成るものとされる。シーケンス制御部31は、例えば、エコーキャンセル処理部30[m]が適応フィルタシステム32により適応処理を実行しているときに、この適応フィルタシステム32(デジタルフィルタ50)が、上記の最低タップ数保有状態に対応する一定の条件を満たす状態になったことを認識すると、エコーキャンセル処理の実行部位について、適応フィルタシステム32に代えて、この図7に示される音声スイッチ33を形成するようにされる。本実施の形態においては、音声信号処理部13についてDSPにより構成することとしているので、上記のようなエコーキャンセル処理実行部位の構成の切り換えは、エコーキャンセル処理部30ごとに与えるプログラム(インストラクション)を変更することで容易に実現できる。
そして、音声スイッチ33は、図示するようにして、減衰器45及びスイッチ制御部46を備えて成る。減衰器45は、送信用帯域別音声信号Dmを入力して、スイッチ制御部46の制御に応じて所定の減衰率を与えて出力する。この出力が信号Smとなる。
スイッチ制御部46は、上記送信用帯域別音声信号Dmと再生用帯域別音声信号Xmを入力する。そして、これらの信号を利用して、送信用帯域別音声信号Dmに、相手側通信端末装置に送信すべき、こちら側の音声通信端末装置(近端装置)の話者(近端話者)の声が有るとされる状態と、無いとされる状態の何れであるのかについて判断するようにされる。そして、上記近端話者の声が有るとされる状態では、例えば減衰器45の減衰率は一定以下に設定し、送信用帯域別音声信号Dmがほぼそのまま信号Smとして出力されるようにする。つまり、音声スイッチのスイッチ状態としてはオン状態(閉状態)とするものである。これに対して、上記近端話者の声が無いとする状態では、減衰器45に対して一定以上の減衰率を設定し、送信用帯域別音声信号Dmについて一定以上の損失を与えて、信号Smとして出力させる。即ち、音声スイッチをオフ状態(開状態)とする。
音声スイッチシステムでは、例えば近端話者の声が無いとする状態は、相手側通信装置(遠端装置)の側の話者が話している声の音声が、近端装置側にて受信されてスピーカから出力されている状態であると捉える。従って、上記のようにしてスイッチ制御を実行するということは、近端装置側においてスピーカからマイクロフォンに到達する遠端話者の声を、遠端装置側に再送信しないということであり、この結果、遠端装置側においては、スピーカからエコー音の成分が出力されないことになる。つまり、エコーキャンセル効果を生じることとなる。
適応フィルタシステムでは、例えば会議参加者(話者)が移動するなどしてエコーパスに変化が生じた場合にも、これに適応、追随するようにして新たにインパルス応答を求めて疑似エコー音を生成してエコーキャンセル動作を実行する。このようなエコーキャンセル処理により得られる音声は、例えば途中で途切れたりすることもなく、相応に高品質である。しかし、このようなエコーパスの変化などに追随して適応フィルタシステムが収束するまでには、比較的に長い時間を要することが分かっている。適応フィルタシステムが収束していないときには、適切な疑似エコー音は生成されていないので、エコーキャンセル効果も不充分なものとなり、実際には、残留エコーが未だ聴こえてしまったりする。例えば上記の「最低タップ数保有状態に対応する一定の条件を満たす状態」とは、上記しているようなエコーキャンセルが不充分となり易い状態を想定している。
また、適応フィルタシステムは、例えば図5によっても説明したように、相応の次数のFIR(Finite Impulse Response:有限インパルス応答)フィルタを備えることから、演算量やリソースも相応に必要となり、DSPの動作を重くすることにつながる。
これに対して、音声スイッチは、エコー音をほぼ遮断するようにして動作することになるので、適応フィルタシステムのようにして、残留エコーが残るようなことにはならない。このことからすれば、「最低タップ数保有状態に対応する一定の条件を満たす状態」に至った適応フィルタシステムを有するエコーキャンセル処理部30を、音声スイッチに切り換えることは、確実なエコーキャンセル効果が得られるという点で有効であるといえる。そのうえで、音声スイッチは、適応フィルタシステムと比較すると、必要とされる演算量やリソースが少ない。従って、音声スイッチに切り換えることにより、その分、DSPの処理は軽くすることができる。
また、音声スイッチにあっては、現実の会話は双方の音声が重なりがちであることなどの要因により、完全な音声スイッチ制御は非常に困難とされており、実際においては、例えば受話音声の冒頭が削られて聴こえなかったり、話者が話し中であるのにかかわらず音声スイッチの状態が切り換わって不用意に音声が切れたりするなどの現象が生じやすい。
しかし、本実施の形態の場合には、あくまでも分割周波数帯域ごとのエコーキャンセル処理部30において、「最低タップ数保有状態に対応する一定の条件を満たす状態」に至った適応フィルタシステムが在る場合にのみ音声スイッチに切り換えるものであり、従って、フィルタバンク的な構成において、適応フィルタシステムと音声スイッチシステムとが併用される構成となる。このために、音声スイッチシステム側にて音声の途切れが生じたとしても、音声の継続性は適応フィルタシステム側で保たれる。そのうえで、適応フィルタシステムから音声スイッチへの切り換えは、主に分割周波数帯域の高い方のエコーキャンセル処理部30から行われていくようにされる。本実施の形態の場合には、人の発する音声を対象としてエコーキャンセルを行うべきこととなるが、人の声のスペクトラムは、可聴周波数帯域において比較的低域側にエネルギーが集中し、高域ではエネルギーは小さい。このために、音声スイッチシステムにて音の途切れを生じたとしても、使用上問題になる程度の違和感をユーザが覚えるようなことにはならない。
なお、一旦、音声スイッチシステムに切り換わったエコーキャンセル処理部30に関しては、先ず、そのまま音声スイッチシステムによる動作を継続させることが考えられる。また、所定の復帰条件を満たしたことに応じて、音声スイッチシステムから適応フィルタシステムに切り換えるようにして構成することも考えられる。
また、これまでの説明においては、エコーキャンセルブロック23を有する音声信号処理部13はDSPにより構成されているものとしていたが、例えば、各図に示したような回路構成を実際に有するデジタル回路(少なくとも一部がアナログ回路とされても構わない)を実装して構成することも考えられる。このような場合においては、エコーキャンセル処理部30ごとに対応して適応フィルタシステムの回路と音声スイッチの回路を実装することとして、適宜、入出力させる信号(送信用帯域別音声信号、再生用帯域別音声信号)の経路を切り換えるようにすることが考えられる。
また、先の説明では、適応フィルタシステム32を備えるエコーキャンセル処理部30が、デジタルフィルタ50のタップ長を可変するのに利用する指標、即ち、適応処理状況を示す情報をERLEとしているが、これのみに限定されるべきではなく、他の指標を用いてもよい。例えばエコーキャンセル後の信号(誤差信号e(k))のパワーと、定常ノイズレベルとを比較する手法を採用することも考えられる。
また、適応フィルタシステム32に採用する適応アルゴリズムとしては、これまでに知られているもののほか、現在以降において提案される将来技術のうちから、適切とされるものを選択すればよい。また、例えば図4に示した適応フィルタシステムは、説明を分かりやすいものとすることの都合上、最も基本的な構成を示しており、実際にあっては、より発展、改善された構成が採られてもよいものである。
また、スイッチ制御部46が実行するものとされるスイッチ制御のアルゴリズムについても、特に限定されるべきものではなく、これまでに知られているもののほか、将来的には、現在以降において開発、提案されるもののうちから適切なものを採用すればよい。
また、出願当初における本願発明の下では、帯域分割を行わない送信用音声信号と再生用音声信号を利用したエコーキャンセル処理の構成を採ることも妨げられるものではない。つまり、帯域分割を行わない通常の送信用音声信号と再生用音声信号とを、それぞれ所望信号、参照信号として、適応フィルタシステムによるエコーキャンセル処理を行うようにしたうえで、そのときの適応処理状況に応じて、適応フィルタシステム内のデジタルフィルタのタップ数を可変するものである。このような構成であっても、例えばタップ数が固定とされる場合、或いは、予め決められたパターンのみに対応して切り換えが行われるような構成と比較すれば、より幅広い環境と環境変化に対応することが可能となるものであり、より広範な汎用性を獲得できるものである。
また、帯域分割を行わない構成の下で、適応フィルタシステムから音声スイッチへと構成を変更することも可能である。適応フィルタシステムのタップ数が一定以上に不足してエコー音の残留が目立ってくるような状況では、音声スイッチに切り換えることのほうが、例えばハウリングの防止などの点で、有利にはたらく場合がある。
また、これまで説明した実施の形態は、送受信される音声がモノラルとされる場合の構成を示しているが、現状においては、ステレオなどのマルチチャンネルの音声を送受信する拡声通話系システムも知られている。本願発明の構成は、このようなマルチチャンネルに対応する拡声通話系システムにも適用が可能である。
また、これまでの実施の形態の説明では、テレビ会議システムにおいて2つの音声通信端末装置1−1、1−2が一対一の関係で通信をする場合を前提としているが、これは、説明を簡単なものとすることを配慮して、テレビ会議システムとして最もシンプルな形態を例に挙げたためである。従って、実際においては、3以上の音声通信端末装置によりテレビ会議システムを構築して、一対多の通信を行うようにすることも考えられるが、このようなシステム構成においても、本願発明に基づいた構成は、個々の音声通信端末装置に対して適用可能である。
また、音声通信端末装置1における送信用音声信号、及び再生用音声信号の処理は、主にデジタル信号処理によるものとしているが、デジタル信号処理を施すときの送信用音声信号及び再生用音声信号の形式については特に限定されるべきものではない。例えば、再生用音声信号を出力させる場合には、ΔΣ変調されたビットストリーム形式の音声信号をD級増幅によって再生するような構成とすることも場合によっては考えられる。
また、実施の形態としてはテレビ会議システムにおいて音声送受信のために設けられる音声通信端末装置を例に挙げているが、これ以外にも、例えば、音声会議システムであるとか、電話装置におけるハンズフリー通話機能などをはじめとして、いわゆる拡声通話系システムとして捉えることのできる装置全般に適用可能である。
本発明の実施の形態に対応するテレビ会議システムにおける音声送受信系の構成例を示すブロック図である。 実施の形態の音声通信端末装置の内部構成例を示すブロック図である。 実施の形態に対応する音声通信端末装置内の音声信号処理部の構成例を示す図である。 適応フィルタシステムを有するエコーキャンセル処理部の構成例を示す図である。 適応フィルタシステムの構成例を示す図である。 シーケンス制御部が実行するものとされる、デジタルフィルタのタップ長可変のための処理手順例を示すフローチャートである。 音声スイッチブロックを有するエコーキャンセル処理部の構成例を示す図である。
符号の説明
1(1−1・1−2) 音声通信端末装置、2(2−1・2−2) マイクロフォン、3(3−1・3−2) スピーカ、11 A/Dコンバータ、12 D/Aコンバータ、13 音声信号処理部、14 コーデック部、15 エンコーダ、16 デコーダ、17 通信部、21・22 帯域分割処理部、23 エコーキャンセルブロック、24 帯域合成処理部、25 帯域補償信号生成部、26 合成器、30(0)〜30(m) エコーキャンセル処理部、31 シーケンス制御部、32 適応フィルタシステム、33 音声スイッチ、41 適応フィルタ、42 減算器、45 減衰器、46 スイッチ制御部、51[1]〜51[N-1] 遅延器、52[0]〜52[N-1] 乗算器、53 加算器、54 係数設定回路

Claims (5)

  1. マイクロフォンにより収音して得たとされる収音音声信号に含まれる信号成分のうち、スピーカから放出された、通信相手側から送信されてきた音声信号を受信取得して得た相手側音声信号の音の信号成分が最小となるようにする適応信号処理を実行する適応信号処理部を有して成るエコーキャンセル処理手段と、
    上記適応信号処理部についての適応処理に関する所定の状況を検知する処理状況検知手段と、
    上記処理状況検知手段の検知結果に基づいて、上記適応信号処理部を形成するデジタルフィルタが有するタップ長を可変するタップ長可変手段と、
    を備えることを特徴とする音声信号処理装置。
  2. 上記エコーキャンセル処理手段は、音声周波数帯域を所定の周波数帯域ごとに分割して得られる分割周波数帯域ごとの収音音声信号を対象として上記適応処理を実行するようにされた複数の上記適応信号処理部を備えて成るとともに、
    処理状況検知手段は、これらの適応信号処理部の少なくとも一部を検知対象として、これらの検知対象の適応信号処理部ごとについての適応処理に関する所定の状況を検知し、
    上記タップ長可変手段は、上記検知対象の適応信号処理部を形成するデジタルフィルタが有するタップ長を可変するようにされている、
    ことを特徴とする請求項1に記載の音声信号処理装置。
  3. 上記検知対象の適応信号処理部を形成する上記デジタルフィルタのそれぞれのタップ長の形成に使用可能な総タップ数が有限である場合において、
    上記タップ長可変手段は、1つの検知対象の適応信号処理部を形成するデジタルフィルタが有するタップ長を、所要のタップ数分だけ長くするようにして変更するのにあたり、使用可能なタップ数が上記所要のタップ数に満たない場合には、この所要のタップ数を満たすために、所定規則に従って選択した、他の検知対象の適応信号処理部を形成するデジタルフィルタのタップ長を短くするようにして変更するようにされる、
    ことを特徴とする請求項2に記載の音声信号処理装置。
  4. 所定の条件に応じて、上記エコーキャンセル処理手段における適応信号処理部を音声スイッチに変更するようにされた、エコーキャンセル処理変更制御手段をさらに備える、
    ことを特徴とする請求項1に記載の音声信号処理装置。
  5. マイクロフォンにより収音して得たとされる収音音声信号に含まれる信号成分のうち、スピーカから放出された、通信相手側から送信されてきた音声信号を受信取得して得た相手側音声信号の音の信号成分が最小となるようにする適応信号処理を実行する適応信号処理部についての適応処理に関する所定の状況を検知する処理状況検知手順と、
    上記処理状況検知手順の検知結果に基づいて、上記適応信号処理部を形成するデジタルフィルタが有するタップ長を可変するタップ長可変手順と、
    を実行することを特徴とする音声信号処理方法。
JP2007174310A 2007-07-02 2007-07-02 音声信号処理装置、音声信号処理方法 Pending JP2009017029A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007174310A JP2009017029A (ja) 2007-07-02 2007-07-02 音声信号処理装置、音声信号処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007174310A JP2009017029A (ja) 2007-07-02 2007-07-02 音声信号処理装置、音声信号処理方法

Publications (1)

Publication Number Publication Date
JP2009017029A true JP2009017029A (ja) 2009-01-22

Family

ID=40357411

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007174310A Pending JP2009017029A (ja) 2007-07-02 2007-07-02 音声信号処理装置、音声信号処理方法

Country Status (1)

Country Link
JP (1) JP2009017029A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012070385A (ja) * 2008-06-11 2012-04-05 Mitsubishi Electric Corp エコーキャンセラ
JP2012114650A (ja) * 2010-11-24 2012-06-14 Oki Electric Ind Co Ltd 適応フィルタ次数制御装置及びプログラム、並びに、エコーキャンセラ
JP2014033372A (ja) * 2012-08-03 2014-02-20 Panasonic Corp 拡声通話装置
JP6180689B1 (ja) * 2016-11-10 2017-08-16 三菱電機株式会社 エコーキャンセラ装置、エコー消去方法、及びエコー消去プログラム
US11101478B2 (en) 2016-08-10 2021-08-24 Nissan Motor Co., Ltd. Fuel cell system and control method of fuel cell system

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012070385A (ja) * 2008-06-11 2012-04-05 Mitsubishi Electric Corp エコーキャンセラ
JP2012114650A (ja) * 2010-11-24 2012-06-14 Oki Electric Ind Co Ltd 適応フィルタ次数制御装置及びプログラム、並びに、エコーキャンセラ
JP2014033372A (ja) * 2012-08-03 2014-02-20 Panasonic Corp 拡声通話装置
US11101478B2 (en) 2016-08-10 2021-08-24 Nissan Motor Co., Ltd. Fuel cell system and control method of fuel cell system
JP6180689B1 (ja) * 2016-11-10 2017-08-16 三菱電機株式会社 エコーキャンセラ装置、エコー消去方法、及びエコー消去プログラム
WO2018087855A1 (ja) * 2016-11-10 2018-05-17 三菱電機株式会社 エコーキャンセラ装置、エコー消去方法、及びエコー消去プログラム

Similar Documents

Publication Publication Date Title
KR101655003B1 (ko) 능동 노이즈 소거 적응형 필터를 위한 사전-성형 직렬 필터
EP2822263B1 (en) Communication device with echo suppression
US8311234B2 (en) Echo canceller and communication audio processing apparatus
US9294851B2 (en) Hearing assistance devices with echo cancellation
JP5061853B2 (ja) エコーキャンセラ及びエコーキャンセルプログラム
US8160239B2 (en) Echo canceller and speech processing apparatus
JP2008306535A (ja) 音声信号処理装置、遅延時間の設定方法
JP5223576B2 (ja) エコーキャンセラ、エコーキャンセル方法及びプログラム
CN106448691B (zh) 一种用于扩音通信系统的语音增强方法
JP4457639B2 (ja) エコーキャンセラ
TW200931944A (en) A method and arrangement for echo cancellation of voice signals
US9191519B2 (en) Echo suppressor using past echo path characteristics for updating
JP2009219040A (ja) エコーキャンセラ、エコーキャンセル方法及びプログラム
JP2009017029A (ja) 音声信号処理装置、音声信号処理方法
JP2003324372A (ja) 改善された音響エコーキャンセレーション
JP2002009677A (ja) 音響エコーキャンセラー装置
JP3403655B2 (ja) サブバンド適応フィルタを用いた未知システムの同定方法および装置
JP2008306446A (ja) 音声信号処理装置、音声信号処理方法
JP2000353989A (ja) エコーキャンセラ
Fukui et al. Acoustic echo canceller software for VoIP hands-free application on smartphone and tablet devices
JP2009094707A (ja) 音声信号処理装置、音声信号処理方法
JP4977401B2 (ja) ハンズフリー電話装置
JP2009124386A (ja) 音声信号処理装置、音声信号処理方法
JP2007151038A (ja) 音声処理装置
JP2009094708A (ja) 音声信号処理装置、音声信号処理方法