JP2009017029A

JP2009017029A - 音声信号処理装置、音声信号処理方法

Info

Publication number: JP2009017029A
Application number: JP2007174310A
Authority: JP
Inventors: Yohei Sakuraba; 洋平櫻庭; Yasuhiko Kato; 靖彦加藤; Nobuyuki Kihara; 信之木原; Jo Matsui; 丈松井; Hideki Kishi; 秀樹岸; Yasuhiro Kodama; 康広小玉
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2007-07-02
Filing date: 2007-07-02
Publication date: 2009-01-22

Abstract

【課題】タップ長の変更が行えるようにされたエコーキャンセルのための音声信号処理構成として、より高い汎用性が得られるようにする。
【解決手段】エコーキャンセル処理のための適応フィルタを備える。そのうえで、適応フィルタを形成するデジタルフィルタのタップ長を、適応処理に関する所定状況に基づいて変更する。この構成により、デジタルフィルタのタップ長は、例えば呼出元の通信機器などの条件に応じて切り換えが行われるのではなく、そのときの適応処理状況に応じて動的に（適応的に）変更されることになる。また、適応フィルタシステムのタップ長が所定以下になった場合には、音声スイッチの動作に切り換える。
【選択図】図６

Description

本発明は、いわゆるエコーキャンセルといわれる音声信号処理機能を有する音声信号処理装置と、その方法とに関するものである。

電話機でのハンズフリー通話のほか、音声会議システム及びテレビ会議システムなどにおける音声送受信処理系などのようにして、互いに離れた場所や位置に居る話者間での通話、会話などが行えるように構成された音響システムは、拡声通話系などともいわれ、既に実用化され、また、普及している。
上記の拡声通話系システムでは、例えば、なんらかの通信方式に従って相互に通信可能な通信端末装置が複数の異なる場所に配置される。そのうえで、一方の通信端末装置側にてマイクロフォンで収音した音声が、上記一方の通信端末装置から他方の通信端末装置に対して送信され、これを受信した他方の通信端末装置側にてスピーカから音として放出するようにされる。これにより、遠隔した場所にいる話者同士の会話が可能となるものである。

ただし、拡声通話系システムでは、一方の通信端末装置側にてスピーカから放出された他方の通信端末装置側からの音声が、一方の通信端末装置側にて、再度マイクロフォンにより収音されて他方の通信端末装置のスピーカから音として放出される。そして、このような動作が循環（ループ）するようにして繰り返されることになる。これにより、例えばスピーカから、相手側の話した音声以外に、自分の話した声もこだまのようにして混ざって聴こえる、いわゆるエコーといわれる現象が生じる。また、エコー音が大きくなれば、上記のループが無限に繰り返されてハウリングといわれる現象が発生する。このようして、拡声通話系システムでは、エコー、ハウリングによる通話音声品質の低下であるとか、通話システムが使いにくくなるなどの問題を抱えることになる。

そこで、拡声通話系システムに対してエコーキャンセルのための音声信号処理系を備えることが知られている。
このようなエコーキャンセルのための信号処理としては、適応フィルタシステムを採用したものが知られている。
この適応フィルタシステムは、スピーカとマイクロフォンの間の伝達音（エコーパス）についてのインパルス応答の特性を得たうえで、スピーカから放出させるべき音を入力信号として、この入力信号に上記のインパルス応答を畳み込むことで、擬似的なエコー音の信号成分を生成する。そして、このエコー音の信号成分を、マイクロフォンにより収音して相手側の通信端末装置に送信すべき音声信号から差し引くようにされる。このような適応フィルタシステムの動作が収束した状態では、相手側の通信端末装置に対しては、エコー音がキャンセルされた音声を送信することになり、従って、スピーカから放出される音からエコー音は聴こえなくなっている（キャンセルされている）こととなる。

上記の適応フィルタシステムは、例えばＦＩＲ(Finite Impulse Response)型のデジタルフィルタと、このデジタルフィルタの係数を可変する機能とを備えて成るが、特許文献１には、このデジタルフィルタのタップ長（次数）を、呼出元の通話機器に応じて変更できるようにした構成が記載されている。特許文献１に依れば、通話機器の組み合わせにより適応フィルタにおける最適なタップ長は異なるものであると認識されており、上記の構成を採ることによって、通話機器の組み合わせが変わるのに応じて最適とされるタップ長が設定され、エコーの抑圧が充分に行われることとなる。

特開２００４−２４２２０７号公報

しかし、特許文献１に記載される構成では、タップ長の変更は、あくまでも呼出元の通話機器に応じて切り換えられるようにして行われるもので、そのためには、エコーキャンセル処理におけるアルゴリズムを変更するようにされる。そして、このアルゴリズムの変更にあたっては、予め用意した複数の異なるプログラムからの選択、あるいは、デジタル・シグナル・プロセッサの内蔵メモリに予め配置されている配列の仕様態様を変更する、などにより実現するようにされている。このような構成では、予め呼出元となる通話機器を想定しておいたうえで、これらの通話機器との間での通話に応じたプログラムの用意、あるいはデジタル・シグナル・プロセッサの内蔵メモリにおける配列の仕様態様の配置を行っておく必要があることになる。つまり、特許文献１の構成では、予め想定した環境にのみ対応可能とされているものであり、そのままでは想定外の環境に対応することが難しく、従って、汎用性を持ちにくいという問題がある。
そこで、本願発明としては、タップ長の変更が行えるようにされたエコーキャンセルのための音声信号処理構成として、より高い汎用性が得られるようにすることを、その課題とする。

そこで本発明は上記した課題を解決するために、音声信号処理装置として次のように構成する。
つまり、マイクロフォンにより収音して得たとされる収音音声信号に含まれる信号成分のうち、スピーカから放出された、通信相手側から送信されてきた音声信号を受信取得して得た相手側音声信号の音の信号成分が最小となるようにする適応信号処理を実行する適応信号処理部を有して成るエコーキャンセル処理手段と、適応信号処理部についての適応処理に関する所定の状況を検知する処理状況検知手段と、この処理状況検知手段の検知結果に基づいて、上記適応信号処理部を形成するデジタルフィルタが有するタップ長を可変するタップ長可変手段とを備えて構成することとした。

上記構成による音声信号処理装置としては、適応信号処理部が行う適応処理によってエコーキャンセル処理を行うようにされる。つまり、マイクロフォンにより収音して得られる音声信号（収音音声信号）から、通信相手側より送信されてきた相手側音声信号の音の信号成分をキャンセルしようとするものである。そのうえで、本願発明にあっては、適応信号処理部を形成するデジタルフィルタのタップ長を、適応信号処理部についての適応処理に関する所定の状況に基づいて変更するようにされる。このような構成では、デジタルフィルタのタップ長は、例えば呼出元の通信機器などの条件に応じて切り換えが行われるのではなく、そのときの適応処理状況に応じて動的に（適応的に）変更されることになる。

上記のようにしてデジタルフィルタのタップ長が、その適応処理状況に応じて適応的に可変されることにより、例えば予め想定した一定の環境のみに対応するのではなく、時間経過に応じた変化も含む多様な環境の変化に対応して、最適なエコーキャンセル動作が得られるものであり、従って、例えば本願発明に基づく装置としては、非常に高い汎用性を持つこととなるものである。

本願発明を実施するための最良の形態（以下、実施の形態という）としては、テレビジョン会議システム(テレビ会議システム)における音声送受信系に本願発明を適用する。
テレビ会議システムは、場所の異なる会議場ごとに通信端末装置を設置し、この通信端末装置から、カメラ装置により撮影した画像と、マイクロフォンにより収音した音声を他の通信端末装置に送信させると共に、他の通信装置から送信されてきた画像と音声を受信して、それぞれ、表示装置、スピーカから出力させるように構成される。つまり、テレビ会議システムでは、画像を相互に送受信する映像送受信系と、音声を相互に送受信する音声送受信系とを備える。そして、本実施の形態としては、上記音声送受信系として音声を送受信するために設けられる、通信端末装置（音声通信端末装置）とされるものである。

図１は、テレビ会議システムにおける音声送受信系のシステム構成例を示している。
この場合には、互いに離れた２つの場所Ａ、場所Ｂが会議場とされており、これらの場所Ａ，Ｂのそれぞれにおいて、音声送受信系を成す音声通信端末装置１−１、１−２が設置される。これらの音声通信端末装置１−１は、所定の通信方式に対応する通信回線により接続されて、相互通信が可能なようにされている。また、場所Ａ、Ｂのそれぞれには、マイクロフォン２−１、２−２、スピーカ３−１、３−２が設置される。マイクロフォン２−１、２−２は、それぞれ、場所Ａ，Ｂ内に居る会議参加者の声を収音するためのもので、各場所内の適当な位置に設けられる。スピーカ３−１、３−２は、他の場所の会議参加者の声を聴くためのもので、これも各場所内の適当な位置に設けられる。なお、以降の説明において、音声通信端末装置、マイクロフォン、及びスピーカについて、特に離れた場所にある同一のものを区別する必要のない場合には、音声通信端末装置１、マイクロフォン２、スピーカ３などのようにして表記する。

先ず、場所Ａにおいて、マイクロフォン２−１により収音して得た音声信号は、音声通信端末装置１−１に入力される。音声通信端末装置１−１は、入力された音声信号を、通信回線を経由して音声通信端末装置１−２に対して送信する。音声通信端末装置１−２は、上記のようにして送信されてきた音声信号を受信し、スピーカ３−２から出力させる。これにより、場所Ｂの会議参加者は、場所Ａの会議参加者の声を聴くことができる。
また、同様にして、場所Ｂ内のマイクロフォン２−２により収音して得られた音声は、音声通信端末装置１−２により音声通信端末装置１−１に送信される。音声通信端末装置１−１では、受信した音声信号を、スピーカ３−１から出力させる。
このようにして、テレビ会議システムの音声送受信系では、音声の双方向通信を行うものであり、これにより、例えば或る１つの場所にいる会議参加者と、他の場所に居る会議参加者との間で会話を行うことが可能になる。また、このテレビ会議システムの場合には、各場所において、複数の会議参加者が居ることを想定しており、このために、各場所の会議参加者の全員が、他の場所の会議参加者の声を聴くことができるように、スピーカ３を備えることとしているものである。このようにしてスピーカを用いて双方向で音声のやりとりを行うシステムは、拡声通話系などともいわれる。

図２は、音声通信端末装置１の構成例を示している。確認のために述べておくと、図１に示した音声通信端末装置１−１、１−２は、この図２に示す構成を共通に有するものとされる。
音声通信端末装置１は、例えばこの図に示すようにして、Ａ／Ｄコンバータ（ＡＤＣ）１１、Ｄ／Ａコンバータ（ＤＡＣ）１２、音声信号処理部１３、コーデック部１４、通信部１７を備えて成る。

Ａ／Ｄコンバータ１１は、マイクロフォン２により収音して得られたアナログの音声信号を入力し、デジタル信号に変換して音声信号処理部１３に出力する。なお、以降において、上記のようにしてマイクロフォン２により収音して得られ、他の音声通信端末装置に対して送信出力されるべき音声信号については、送信用音声信号ということにする

先に述べたように、拡声通話系システムは、そのまま使用したのでは、エコー、ハウリングなどの現象を生じる。つまり、図２において示しているように、スピーカ３から空間に放出された音は、直接音及び間接音としての空間伝搬経路（エコーパス）Ｓを経て、マイクロフォン２に到達する。つまり、通信相手側の音声通信端末装置から送信されスピーカ３から放出された通話相手の声がマイクロフォン２にて収音され、再び、通信相手側の音声通信端末装置に送信される。また、通信相手側においても、さらにスピーカから放出された音がマイクロフォンで収音されて、こちらの音声通信端末装置に送信されてくる。即ち、拡声通話系システムでは、一度空間に放出された音が、音声通信端末装置間で循環するようにして送受信される。これにより、スピーカから放出される音には、自分が今話している声が、或る遅延時間をもってこだまのようにして聴こえるものが含まれることになる。これがエコーであり、ループが或る程度以上に繰り返されればハウリングとなる。
そこで、拡声通話系システムでは、このようなエコーの現象を解消、抑制するエコーキャンセルシステムを備えることが行われている。音声信号処理部１３は、このエコーキャンセルシステムとしての信号処理機能を有するようにして構成されている。なお、この音声信号処理部１３は、例えば実際には、ＤＳＰ(Digital Signal Processor)として構成される。また、音声信号処理部１３によるエコーキャンセルのための構成については後述する。

音声信号処理部１３によりエコーキャンセル処理が施された送信用音声信号は、コーデック部１４内のエンコーダ１５に対して入力される。エンコーダ１５は、入力された音声信号について、例えば所定方式に応じた音声圧縮符号化などの信号処理を施して通信部１７に対して出力する。通信部１７は、入力された送信用音声信号を、所定の通信方式に従って、通信回線経由で、他の音声通信端末装置に対して出力するようにされる。

また、通信部１７は、他の音声通信端末装置から送信されてきた送信用音声信号を受信して所定の圧縮符号化形式の音声信号に復元し、コーデック部１４のデコーダ１６に出力する。なお、このようにして、通信部１７にて受信復調し、最終的にスピーカ３から出力されるべき音声信号については、再生用音声信号ということにする。
デコーダ１６では、入力された再生用音声信号の圧縮符号化に対する復調処理を実行して、所定のＰＣＭ形式のデジタル音声信号に変換し、音声信号処理部１３に出力する。音声信号処理部１３を経由した再生用音声信号は、Ｄ／Ａコンバータ１２によりアナログ信号に変換されたうえで出力される。この出力された再生用音声信号を、最終的にはスピーカ３から出力させるようにする。

図３は、本実施の形態におけるエコーキャンセルシステムである音声信号処理部１３の内部構成例を示している。なお、この図に示す音声信号処理部１３の構成は、第１の実施の形態としての構成となるものである。
この図においては、音声信号処理部１３とともに、Ａ／Ｄコンバータ１１、Ｄ／Ａコンバータ１２、及びコーデック部１４（エンコーダ１５、デコーダ１６）を示している。

この図３に示される音声信号処理部１３は、帯域分割処理部２１、２２、エコーキャンセルブロック２３、帯域合成処理部２４を有して成る。

先ず、Ａ／Ｄコンバータ１１から出力された送信用音声信号は、帯域分割処理部２１に対して入力される。帯域分割処理部２１は、例えばそれぞれ異なる通過帯域特性が設定されたバンドパスフィルタなどを備えて形成されるもので、入力された送信用音声信号を、上記のバンドパスフィルタの特性に対応した周波数帯域の信号成分から成るｍ＋１個の送信用帯域別音声信号D0、D1・・・Dm-1、Dmに分割して出力する。ここでは、送信用帯域別音声信号D0が最も低い周波数帯域を有し、以降、D1・・・Dm-1、Dmの順で各周波数帯域が高くなっていくようにされる。

また、もう一方の帯域分割処理部２２は、デコーダ１６からＤ／Ａコンバータ１２に対して入力される段階の再生用音声信号を入力し、この信号を、上記帯域分割処理部２１と同様のバンドパスフィルタ構成により、ｍ＋１個の再生用帯域別音声信号X0、X1・・・Xm-1、Xmに分割して出力する。これにより、再生用帯域別音声信号X0、X1・・・Xm-1、Xmとしては、それぞれ、送信用帯域別音声信号D0、D1・・・Dm-1、Dmと同じ分割周波数帯域を持つ信号となる。

エコーキャンセルブロック２３は、全体としては、全周波数帯域の送信用音声信号を参照信号とするエコーキャンセル動作に相当する音声信号処理動作を実行する部位とされ、ｍ＋１個のエコーキャンセル処理部３０[0]、３０[1]・・・３０[m-1]、３０[m]を備える。
これらのエコーキャンセル処理部３０[0]、３０[1]・・・３０[m-1]、３０[m]に対しては、それぞれ、送信用帯域別音声信号D0、D1・・・Dm-1、Dmを、１サンプルごとに所定の時間間隔によるタイミングで入力させている。同様に、再生用帯域別音声信号X0、X1・・・Xm-1、Xmを、上記送信用帯域別音声信号D0、D1・・・Dm-1、Dmと同じタイミングで、１サンプルごとに入力させている。このようにして、各エコーキャンセル処理部３０に対しては、互いに同じ周波数帯域を有する送信用帯域別音声信号と再生用帯域別音声信号とを入力させるようにしている。この場合、エコーキャンセル処理部３０[0]が最も低い分割周波数帯域を有する送信用帯域別音声信号と再生用帯域別音声信号を入力し、以降、エコーキャンセル処理部３０[1]・・・３０[m-1]、３０[m]の順で、入力する送信用帯域別音声信号と再生用帯域別音声信号の分割周波数帯域が高くなっていくことになる。

そして、エコーキャンセル処理部３０[0]、３０[1]・・・３０[m-1]、３０[m]の各々から出力される信号S0、S1・・・Sm-1、Smの各々は、帯域合成処理部２４に対して入力され、ここで１つの信号に合成され、コーデック部１４におけるエンコーダ１５に対して出力される。

なお、帯域分割処理部２１、２２が実行するものとされる帯域分割(分析)処理と、例えば現状であれば、ＤＦＴ(Discrete Fourier Transform)フィルタバンク、ＱＭＦ(Quadrature Mirror Filter)フィルタバンクなどといわれる技術を採用することが考えられる。また、帯域別音声信号を入力して信号処理を実行し、帯域合成処理部２４により再合成する技術については、マルチレート信号処理などといわれる、サンプリング周波数を変換したうえでの信号処理過程を含むようにされた手法を採用できる。もちろん、これ以外の帯域分割、及び帯域合成の処理手法が採用されて構わない。

図４は、エコーキャンセル処理部３０[0]についての内部構成例を示している。なお、本実施の形態としては、他のエコーキャンセル処理部３０[1]〜３０[m]も同様の構成を有するものとされる。
本実施の形態としてのエコーキャンセル処理部３０[0]は、例えば図示するようにして、適応フィルタシステム３２と、適応フィルタシステム３２の動作（プログラム、アルゴリズムのシーケンス）を制御可能に構成されたシーケンス制御部３１を備えているものとされる。

先ず、適応フィルタシステム３２は、適応フィルタ（ADF：Adaptive Digital Filter）４１及び減算器４２から成る。
適応フィルタ４１には、所定タイミングにより1サンプルごとに、再生用帯域別音声信号X0が参照信号x(k)として入力される。なお、kは時刻を表す。適応フィルタ４１は、所定の適応アルゴリズムに従った適応処置により、上記参照信号x(k)から、疑似エコー信号(キャンセル用信号)y(k)を生成して出力し、減算器４２に入力する。
減算器４２は、送信用帯域別音声信号D(0)を所望信号d(k)（処理対象信号）として、この所望信号d(k)から、上記適応フィルタ４１の出力信号を減算し、その出力を信号S(0)として出力する。また、適応フィルタ３２に入力される減算器４２の出力は誤差信号(残差信号)e(k)といわれるものとなる。

図５は、上記適応フィルタシステム３２を、適応フィルタ４１の内部構成例と共に示している。
この図に示すようにして、適応フィルタ４１は、デジタルフィルタ５０と係数設定回路５４から成る。この図により、適応フィルタシステム３２による適応処理の基本動作について説明しておくこととする。

この場合のデジタルフィルタ５０は、或る必要タップ長Ｎ(次数)を有して成るＦＩＲ(Finite Impulse Response：有限インパルス応答)型とされ、図示するようにして、N-1個の遅延器５１[1]〜５１[N-1]と、Ｎ個の乗算器５２[0]〜５２[N-1]と加算器５３を有して成る。遅延器５１[1]〜５１[N-1]は直列接続され、先頭の遅延器５１[1]には、参照信号x(k)を入力する。
また、乗算器５２[0]〜５２[N-1]のうち、乗算器５２[0]には参照信号x(k)が入力され、以降の乗算器５２[1]〜５２[N-1]には、それぞれ、遅延器５１[0]〜５１[N]の出力信号［x(k-1)〜x(k-（N-1）)］が入力される。乗算器５２[0]〜５２[N-1]は、それぞれ、後述する係数設定回路５４によりフィルタ係数ｈ[0]〜ｈ[N-1]が可変設定されるようになっており、入力された信号について、設定されたフィルタ係数により乗算を行って加算器５３に出力する。
加算器５３は、乗算器５２[0]〜５２[N-1]の出力を加算する。この加算器５３の出力が、疑似エコー信号ｙ(k)(キャンセル用信号)とされ、減算器４２に対して出力されるようになっている。
減算器４２の出力は、エコーキャンセル処理部３０[0]の出力信号S0、かつ誤差信号e(k)とされ、誤差信号e(k)については係数設定回路５４に対して入力される。
なお、上記誤差信号e(k)は、疑似エコー信号y(k)、参照信号d(k)を利用して次のようにして表すことができる。

係数設定回路５４は、入力信号x(k)と上記誤差信号e(k)を入力して、誤差信号e(k)に含まれるとされる参照信号x(k)の成分量（残差量）が最小となるインパルス応答を推定し、この推定したインパルス応答に対応するフィルタ係数ｈ[0]〜ｈ[N-1]を決定する。そして、これらの決定したフィルタ係数ｈ[0]〜ｈ[N-1]を、それぞれ、乗算器５２[0]〜５２[N-1]に対して設定するようにされる。このフィルタ係数の設定は、時刻ｋ、k+1・・・ごとのタイミングにより行われる。つまり、そのときの参照信号x(k)の状態に応じてデジタルフィルタ５０の係数ベクトル（次数段階に応じたフィルタ係数のパターン）を変更設定していくようにされる。
この結果、デジタルフィルタ５０の係数ベクトルによっては、Ｄ／Ａコンバータ１２に入力される段階の再生用音声信号(第１の音声信号)がスピーカ３から出力され、次に空間伝搬経路Ｓ(図２参照)を経由してマイクロフォン２にて収音され、さらにＡ／Ｄコンバータ１１から帯域分割処理部２１を経由して減算器４２に対して所望信号(処理対象信号)として入力されるまでの伝達経路(キャンセル音伝達経路)の擬似的な伝達関数を表現するインパルス応答を形成することになる。この動作は即ち、上記キャンセル音伝達経路を経由して得られる音の信号成分を、そのときの参照信号の状態に応じて適応的にキャンセルする動作であることになる。
そして、上記の伝達経路を経由する音は、エコーパスである空間伝搬経路Ｓを経由することからも分かるように、再生用音声信号を基としたエコー音の成分である。従って、適応フィルタ４１の出力信号（疑似エコー信号ｙ(k)、キャンセル用信号）は、再生用帯域別音声信号X0についての疑似エコーとして捉えられることとなる。この適応フィルタシステムとしてのエコーキャンセル処理部３０[0]においては、減算器２２により、送信用帯域別音声信号D(0)から、上記再生用音声信号X(0)についての疑似エコー音を差し引くことになる。このようにして、エコーキャンセル処理部３０[0]は、送信用帯域別音声信号X0から、エコー音の成分を適応的に除去するという動作(適応処理)を実行する。

上記した適応フィルタ４１の動作は、デジタルフィルタ５０の出力である疑似エコー信号y(k)を推定する動作であるとしてみることができるが、一例として、適応アルゴリズムについて射影アルゴリズムを採用することとした場合、疑似エコー信号y(k)の推定には、下記の数式を用いることができる。

なお、上記(数２)において、Nはタップ長を示す。w(k)は、{W(0),W(1),・・・, W(N-1)}の順で配列された、時刻ｋにおける係数ベクトルを表す。また、ここでのx(k)は、{x(k),x(k-1), x(k-2),・・・, W(k-(N-1))}の順により配列される、参照信号についての時間領域データのベクトルを示すものとされる。上記（数２）により、時刻ｋにおける疑似エコー信号y(k)が推定(生成)される。そして、先に(数１)に示したようにして、減算器４２により、参照信号d(k)から上記疑似エコー信号y(k)を差し引く(減算する)ことにより、誤差信号e(k)が得られることとなる。このようにして得られた誤差信号e(k)に基づいて、適応フィルタ４１における係数設定回路５４は、次の時刻k+1のタイミングで乗算器５２[0]〜５２[N-1]に設定すべきフィルタ係数、即ち係数ベクトルを、下記の(数３)(数４)により求めるようにされる。下記の演算により、時間経過に応じて係数ベクトルの更新が行われていくようにされる。

なお、上記(数３)(数４)におけるμは、ステップサイズパラメータであり、(数４)におけるTｊは転置を表す。

上記の説明から理解されるように、適応処理によってエコーキャンセルを行う適応フィルタシステム３２は、ＦＩＲ型のデジタルフィルタ５０を備える。そして、本実施の形態において、図４に示すようにして、エコーキャンセル処理部３０内に適応フィルタシステム３２とともに備えられるシーケンス制御部３１は、適応フィルタシステム３２に対する動作制御として、適応フィルタ４１におけるデジタルフィルタ５０のタップ長を、そのときの適応フィルタシステム３２の適応処理状況に応じて変更することが可能とされている。なお、このデジタルフィルタ５０のタップ長を可変するための構成については後述する。

上記したエコーキャンセル処理部３０[0]の構成は、残るエコーキャンセル処理部３０[1]〜３０[m]についても同様にして与えるようにされる。
これにより、エコーキャンセルブロック２３によっては、送信用帯域別音声信号D0、D1・・・Dmに対応する周波数帯域範囲の送信用音声信号から、エコー音の成分を適応的に除去するという動作が得られることになる。
なお、以降の説明において、エコーキャンセル処理部について、エコーキャンセル処理部３０[0]、３０[1]・・・３０[m-1]、３０[m]の間での区別を特に行う必要のない場合には、エコーキャンセル処理部３０と記載する。

これまでの説明によれば、本実施の形態のエコーキャンセルブロック２３は、処理対象信号を所定の周波数帯域ごとに分割して、計ｍ＋１個のエコーキャンセル処理部３０により処理させるという、フィルタバンク的な処理構成を採ることとしたうえで、エコーキャンセル処理部の各々については、適応フィルタシステムによる適応処理によってエコーキャンセルを行うようにして構成されていることが理解される。

ここで、エコーキャンセル処理部３０[0]〜３０[m]において備えられるデジタルフィルタ５０について、そのタップ長を、それぞれ同じとしたうえで固定的に設定して構成したとする。なお、このような構成は、例えば図３に示したようなフィルタバンク的なエコーキャンセルブロックの構成を採ろうとする場合において、最も順当に考えられるものの１つである。この場合には、例えば、所定の条件などに従って最適とされる１つのタップ長を求めて、これを各エコーキャンセル処理部のデジタルフィルタ５０に設定することになる。

タップ長は、長くなるのに応じて、キャンセルできるエコーの残響時間も長くなり、結果的にエコーのキャンセル量は多くなっていく。その一方で、デジタルフィルタの収束に要する時間は長くなってしまう。デジタルフィルタが収束するまでは、エコー音が残留してしまうことになる。
これに対して、タップ長が短くなるのに応じては、キャンセルできるエコーの残響時間は短くなり、収束した状態でのエコーキャンセル量も少なくなっていくが、収束するまでの時間は短縮される。
このようにしてタップ長は、エコーキャンセル量と収束時間についてトレードオフの関係となる特性を与えるものとなる。

また、本実施の形態のようにして、分割された音声周波数帯域ごとに対応してエコーキャンセル処理を実行するように構成した場合には、エコー音成分が発生しやすかったり、目立ちやすかったりするなどして、強力にエコー音を抑圧することが要求される周波数帯域と、そうではない周波数帯域とがあることになる。また、周波数特性などによりデジタルフィルタが収束しやすい周波数帯域と、収束しにくい周波数帯域があることにもなる。

このために、上記のようにしてエコーキャンセル処理部３０[0]〜３０[m]において備えられるデジタルフィルタ５０についてタップ長を固定して設定したとすると、或る周波数帯域においては、タップ長が不足してエコー音成分の減衰が不充分となる一方で、或る周波数帯域においては、本来はより短いタップ長であっても充分にエコー音成分が抑制されるのにもかかわらず、タップ長が固定であるために余剰となってしまい、その分、収束時間が長くなってしまうというような不具合が生じる可能性がでてくる。

そこで、例えばエコーキャンセル処理部３０[0]〜３０[m]において備えられるデジタルフィルタ５０ごとに、或る条件に従って求められたタップ長を設定する、つまり、デジタルフィルタ５０ごとに適切とされる、異なるタップ長を固定して設定することも考えられる。
しかし、例えば、本実施の形態の音声通信端末装置１の使用環境が、場所や時間経過に応じて変化する可能性があるが、このような変化にまで対応することが難しい。この点で、より応用範囲が広く、高い汎用性を得ようとすれば、さらに改善を図るべきことが要求されてくる。

また、特許文献１においては、呼出元の通話機器に応じてデジタルフィルタのタップ長を変更できるようにした構成が示されているが、この技術を、そのまま本実施の形態のようなフィルタバンク的な構成に適用することとした場合には、各エコーキャンセル処理部３０内のデジタルフィルタ５０は常に同じタップ数とされたうえで、タップ数の変更設定が行われることになる。
従って、この場合には、各エコーキャンセル処理部３０が担当する周波数帯域に応じて異なってくる最適タップ長を設定することはできないことになる。また、この場合のタップ長の変更は、あくまでも、呼出元の通話機器に応じてのタップ長の「切り換え」による変更となるものであり、呼出元の通話機器が予め特定されているような限定的な用途でなければ有効なエコーキャンセル効果は得られない。例えば本実施の形態の音声通信端末装置１によるテレビ会議システムでは、マイクロフォン２やスピーカ３の設置位置であるとか、話者の位置などをはじめ、その使用環境は不確定性が強く、特許文献１の技術により定常的に良好なエコーキャンセル効果を得ようとすることは困難である。

そこで、本実施の形態としては、エコーキャンセル処理部３０[0]〜３０[m]の各々において、シーケンス制御部３１により、適応フィルタシステム３２によるエコーキャンセル処理(適応処理)の状況に応じて、動的にデジタルフィルタ５０のタップ長を変更設定するように構成する。これにより、エコーキャンセル処理部３０[0]〜３０[m]内のデジタルフィルタ５０のそれぞれは、対応する周波数帯域ごとにおけるそのときの動作状態などに応じて最適とされるタップ数が設定されることとなり、例えばフィルタ係数を固定的に設定する場合と比較すれば、周囲環境の変化に対してより柔軟に対応して、より適切なエコーキャンセル効果を得ることが期待されることになる。つまり、より広範な汎用性を有するエコーキャンセラが得られる。以降、本実施の形態における、デジタルフィルタ５０のタップ長を可変するための構成について説明を行っていく。

先ず、デジタルフィルタ５０のタップ長の変更は、上記しているように、エコーキャンセル処理の状況に応じて行うべきことになる。そこで、本実施の形態としては、エコーキャンセル処理の状況を、エコー音成分の減衰量により推し量ることとする。エコー音成分の減衰量を示す指標としては、いくつか考えられるのであるが、ここでは、ERLE（Echo Return Loss Enhancement）を採用することとする。

上記のERLEは、下記の(数５)に示す数式により表される。

上記(数５)から理解されるように、ERLEは、所望信号d(k)（送信用音声信号）と、誤差信号e(k)との比により定義される量であり、エコー音成分が量的にどれだけ低減、減衰されたものであるのかを表す値とされる。
例えば、ERLE＝0ｄBを示している場合には、エコー音成分の減衰量は０であって、所望信号ｄ(k)からは全くエコー音成分が除去されていない状況であることを示すことになる。また、ERLE＝-30ｄBを示しているとすると、エコー音成分が所望信号ｄ(k)から30dB消去されていることを示すことになる。ちなみに、ERLE＝-30ｄBを示せば、エコーのキャンセル量としては実用上充分であるとされている。

そして、図４に示されるシーケンス制御部３１は、同じエコーキャンセル処理部３０内の適応フィルタシステム３２によるエコーキャンセル処理についての状況結果として、ERLEを取得可能に構成されている。このために、シーケンス制御部３１は、所要のタイミングで、適応フィルタシステム３２から所望信号ｄ(k)と誤差信号e(k)とを取り込んで、（数５）により表される式に従った演算を行い、ERLEとしての数値を求めるようにされる。そして、このようにして求めたERLEの値に基づき、次に説明するようにして、適応フィルタ４１内のデジタルフィルタ５０のタップ長を変更する制御を行う。

図６は、シーケンス制御部３１が実行するものとされる、デジタルフィルタ５０のタップ長を可変するための手順例を示している。例えば音声信号処理部１３がＤＳＰとして構成されているのであれば、この図に示す手順は、ＤＳＰが実行すべきプログラム(インストラクション)をフローチャートとして表現したものとしてみることができる。

ここで、エコーキャンセル処理部３０[0]〜３０[m]におけるデジタルフィルタ５０の全てを対象として割り当て可能な総タップ数については予め上限を設定してあるものとする。例えば音声信号処理部１３がＤＳＰにより構成されているとすると、このＤＳＰが使用できるリソース量、メモリ容量は有限となる。このために、本実施の形態のようにして、デジタルフィルタ５０のタップ数を可変とする場合において、無制限にタップ数を利用できることとすると、他の処理に使用すべきリソースまでを消費する可能性があり、ＤＳＰとしての良好な動作を阻害する可能性がある。そこで、本実施の形態としては、上記の総タップ数を定めることとしている。

そして、例えば音声信号処理部１３が起動したことに応じては、先ず、ステップＳ１０１により、初期設定として、エコーキャンセル処理部３０[0]〜３０[m]におけるデジタルフィルタ５０のそれぞれに一律に設定すべきタップ長(タップ数)Ｎを求めるようにされる。このためには、上記総タップ数をAtp、エコーキャンセル処理部数(即ち、デジタルフィルタ５０の総数)をmとして、
N=Atp／m・・・(式１)
により求めるようにされる。

ステップＳ１０２においては、エコーキャンセル処理部３０[0]〜３０[m]における各デジタルフィルタ５０に対して、一律に、上記ステップＳ１０１により求められたタップ長Ｎを設定する。つまり、各デジタルフィルタ５０について、タップ長Ｎを有した構成とするものである。これにより、各デジタルフィルタ５０のタップ長についての初期設定が完了したこととなる。

なお、上記初期設定に関しては、エコーキャンセル処理部３０のデジタルフィルタ５０ごとに異なるタップ長を設定することも考えられる。例えばエコー音のエネルギーが多いことが想定される分割周波数帯域に対してより多い初期タップ長を割り当てるようにする。この場合、エコー音の基は、話者音声であり、人の発する声となる。従って、実際においては、人の声に対応した、可聴周波数帯域において比較的低域となる分割周波数帯域に、より多くの初期タップ長を割り当てることとなる。

ステップＳ１０３においては、先の説明のようにして、ERLEを算出して取得するようにされる。
次のステップＳ１０４においては、上記ステップＳ１０３により取得したERLEに基づいて、デジタルフィルタ５０についての修正タップ数αを求めるようにされる。つまり、ERLEの値が示すエコー音成分の消去量が所定以下である場合には、現在のデジタルフィルタ５０のタップ長Nでは不足していることになる。そこで、この場合には、一定以上の消去量が得られるとされるだけのタップ長を獲得するのに必要とされるタップ数を、修正タップ数αとして求めることになる。この場合の修正タップ数は正の数となる。また、逆に、ERLEの値が示すエコー音成分の消去量が所定以上である場合には、タップ長が余剰であることになるので、この余剰分のタップ数を、負の数による修正タップ数αとして得ることになる。このようにして修正タップ数αを求めるのにあたっては、例えば、関数を用いた演算により、ERLEに対応した修正タップ数を求める、若しくは、ERLEの値と修正タップ数αとの対応を示したテーブルなどを参照するようにされればよい。

ステップＳ１０５においては、上記ステップＳ１０４により求めた修正タップ数αについてα＝０であるか否かについて判別する。α＝０である場合には、現在においてデジタルフィルタ５０に設定されているタップ長は適正であることになる。この場合には、後述するステップＳ１１２の手順に進むようにされる。
これに対して、α＝０ではない場合には、現在においてデジタルフィルタ５０に設定されているタップ長は不足、若しくは余剰であることになる。この場合にはステップＳ１０６に進む。

ステップＳ１０６においては、修正タップ数αについて、α＞０であるか否かについて判別する。
ここでα＞０ではない(即ち負の数である)として否定の判別結果が得られた場合には、現在のデジタルフィルタ５０のタップ長は余剰であり削減すべきであるということになる。この場合には、ステップＳ１１０に進み、Ｎ←Ｎ＋α(この場合のαは負の数である)により表される演算により更新して求めたタップ長Ｎを、デジタルフィルタ５０に設定するようにされる。つまり、これまでのタップ長からαの絶対値分だけタップ数が削減されたタップ長とするようにしてデジタルフィルタ５０を再構成する。
なお、このようにしてタップ長を削減したことに応じては、例えばＤＳＰにおいては、削減したタップ数分のメモリが解放され、要求されたタップ数分のリソースが確保されることとなる。このようにして解放されたタップ数は、以降において、どのエコーキャンセル処理部３０のシーケンス制御部３１によっても、デジタルフィルタ５０のタップ長の増加のために利用することができる。

一方、ステップＳ１０６において、α＞０であるとして肯定の判別結果が得られた場合には、現在のデジタルフィルタ５０のタップ長は不足であり、タップ長を増加させるべきであるということになるが、この場合には、ステップＳ１０７に進む。

ステップＳ１０７においては、解放タップ数βと修正タップ数αとについて、β≧αが成立するか否かについて判別する。ここで、解放タップ数βとは、エコーキャンセル処理部３０[0]〜３０[m]におけるデジタルフィルタ５０全体を対象として割り当て可能な総タップ数Atpのうちで、現在においてエコーキャンセル処理部３０[0]〜３０[m]における各デジタルフィルタ５０によって使用されておらず、リソースとして解放されているタップ数を指す。また、この解放タップ数βは、β≧０の整数値となる。つまり、解放タップ数βとしては０である場合（リソースとして解放されているタップ数が無い場合）を含むこととしている。
従って、ステップＳ１０７においては、修正タップ数αとして示される不足のタップ数を、解放タップ数βとして有しているか否かを判別していることになる。

ステップＳ１０７において肯定の判別結果が得られた場合には、修正タップ数αとして求められただけのタップ数の不足分を、解放タップ数βからまかなえることになる。そこで、この場合には、ステップＳ１１０に進んで、Ｎ←Ｎ＋αにより表される演算により更新して求めたタップ長Ｎを、デジタルフィルタ５０に設定するようにされる。この場合のαは正の数であるから、デジタルフィルタ５０は、αの絶対値分だけタップ長が増加されるようにして再構成されることになる。

ステップＳ１０７において否定の判別結果が得られた場合には、現在の解放タップ数βでは、修正タップ数αとして求められただけのタップ数の不足分には満たないことになる。このときのタップ数の不足分、即ち不足タップ数sは、s＝α−βにより表すことができる。
そこで、この場合には、ステップＳ１０８により、自身が対応する分割周波数帯域よりも高域の分割周波数帯域を受け持つエコーキャンセル処理部３０(高域側エコーキャンセル処理部)のデジタルフィルタ５０のタップ長からタップ数を分けてもらうようにして、不足タップ数s分のタップ数を確保可能であるか否かについて判別する。この判別にあたっては、高域側エコーキャンセル処理部ごとに保持しているとされる明け渡し可能タップ数Ａの情報を参照するようにされる。明け渡し可能タップ数Ａは、そのエコーキャンセル処理部３０が現時点において明け渡し可能なタップ数を示す情報であり、各エコーキャンセル処理部３０内のシーケンス制御部３１が、後述するステップＳ１１４の処理により適宜更新して保持しておくようにされる。

ステップＳ１０８において、否定の判別結果が得られた場合には、高域側エコーキャンセル処理部において、タップ数を明け渡せるものは無いことになる。そこで、この場合には、ステップＳ１１１において、Ｎ←Ｎ＋βにより表される演算により更新して求めたタップ長Ｎを、デジタルフィルタ５０に設定するようにされる。この処理は、修正タップ数αには満たないのであるが、利用可能な解放タップ数β分だけでもタップ数を増加させることで、デジタルフィルタ５０のタップ長を、できるだけ最適値に近くしようとするものである。確認のために述べておくと、β＝０の場合には、ステップＳ１１１による処理を行ったとしても、実質的にタップ長Ｎに変化はないこととなる。
なお、上記のステップＳ１１１に至った場合のようにして、一度は、必要なタップ長を確保できない状態に至ったとしても、図６に示す手順を繰り返しているうちに、他のエコーキャンセル処理部３０においてタップ長を解放して、再度、解放タップ数βが、不足タップ数s以上となって、修正タップ数α分のタップ数の増加を行うことが可能になる可能性がある。

一方、ステップＳ１０８において肯定の判別結果が得られた場合には、高域側エコーキャンセル処理部から不足タップ数sを確保することが可能であることになる。
そこで、この場合には、先ず、ステップＳ１０９により、タップ数を明け渡せる高域側エコーキャンセル処理部のうちで、担当する周波数帯域が高いものの方から順に、明け渡してもらえるだけのタップ数についての明け渡し要求を行っていくことで、最終的には、不足タップ数s分の明け渡し要求を行うようにされる。例えば、タップ数を明け渡せる高域側エコーキャンセル処理部のうちで最も周波数帯域が高いものが明け渡し可能なタップ数がa（s＞a）であるとすると、先ずは、この高域側エコーキャンセル処理部に対して、タップ数aの明け渡し要求を行う。また、次に周波数帯域が高いとされる高域側エコーキャンセル処理部において明け渡し可能なタップ数は、s-aよりも大きいとすれば、タップ数(s-a)の明け渡し要求を行う。明け渡し要求を受けたエコーキャンセル処理部３０では、必ず、要求に応じたタップ数を解放して明け渡すこととなっており、内部のシーケンス制御部３１は、要求されたタップ数だけ、デジタルフィルタ５０のタップ長を削減するようにして動作する。

上記のようにして、ステップＳ１０９の手順が実行されることで、解放タップ数βとしては、修正タップ数α分が確保されることになる。そこで、ステップＳ１１０に進んで、タップ長について、修正タップ数αの絶対値分を増加させてデジタルフィルタ５０を再構成するようにされる。

ステップＳ１１０、Ｓ１１１によるタップ長Ｎの更新設定を実行した場合、また、ステップＳ１０５にて肯定の判別結果が得られた場合には、ステップＳ１１２に進む。
ステップＳ１１２においては、他のエコーキャンセル処理部３０のシーケンス制御部３１から、或るタップ数ｖを指定しての明け渡し要求を受けたか否かについて判別する。
この図６の手順を実行している本シーケンス制御部３１がタップ数の明け渡し要求を受ける場合とは、他のエコーキャンセル処理部３０のシーケンス制御部３１が、ステップＳ１０９の手順を実行したときに、要求先として、本シーケンス制御部３１を有するエコーキャンセル処理部３０が選択された場合である。

まず、ステップＳ１１２において否定の判別結果が得られた場合には、ステップＳ１０３に戻るようにされる。これに対して、ステップＳ１１２において肯定の判別結果が得られた場合には、ステップＳ１１３に進む。
ステップＳ１１３においては、ステップＳ１１２に対応して明け渡しの要求を受けたタップ数vだけ、デジタルフィルタ５０のタップ長を削減(解放)する（N←N-v）。次に、ステップＳ１１４により、自身が保持している明け渡し可能タップ数Ａの情報について、A←A-vで表されるようにして、今回の要求に応じて明け渡したタップ数分を差し引いた値に更新して保持し直すようにされる。そして、ステップＳ１０３に戻る。
なお、明け渡し可能タップ数Ａの初期値をどのようにして設定するのかについてはいくつか考えることができる。１つには、必要最小限のエコー音成分の消去量を確保可能とされるタップ数を求めたうえで、このタップ数に基づいて明け渡し可能タップ数Ａの初期値を求めるというものである。この場合において、全てのエコーキャンセル処理部３０について共通の明け渡し可能タップ数Ａの初期値を設定してもよいし、分割周波数帯域ごとに応じてより適しているとされる値を設定することとしてもよいものである。このようにして明け渡し可能タップ数Ａの初期値を設定した場合には、例えば明け渡し可能タップ数Ａの初期値分を明け渡して、これ以上のタップ数を明け渡すことが不可となっている状態では、必要最小限とされるエコー消去量を得るようにして適応処理を行うようにされていることになる。

上記のようにして、本実施の形態においては、先ず、ERLEに基づいて最適なタップ長を設定するために必要あるいは不要となるタップ数（修正タップ数α）を求め、この修正タップ数αに応じて、デジタルフィルタ５０のタップ長を削減あるいは追加するという動作が、適応フィルタシステム３２の適応処理とともに、動的に得られることになる。また、この動作が、エコーキャンセル処理部３０[0]〜３０[m]ごとにおいて行われる。この結果、エコーキャンセル処理部３０[0]〜３０[m]ごとにおいて、最適とされるデジタルフィルタ５０のタップ長が設定されることとなる。これにより、例えば各エコーキャンセル処理部３０におけるタップ長を固定設定する場合と比較すれば、使用環境に対してより柔軟に対応して良好なエコーキャンセル効果を得ることが可能になる。

また、修正タップ数αとして増加が必要な場合(正の数の場合)において、必要なタップ数に対応する未使用のリソース（解放タップ数β）が存在しない場合には、より高域側のエコーキャンセル処理部３０内のデジタルフィルタ５０にタップ数を明け渡して（解放して）もらい、これを利用して修正タップ数分のタップ数を増加させることとしている。これは、現実において、タップ数に対応するリソースが有限であることを考慮したものである。
そのうえで、本シーケンス制御部３１を有するエコーキャンセル処理部よりも、高域側のエコーキャンセル処理部からタップ数を明け渡してもらうようにしているのは、重点的にキャンセルすべきエコー音の成分の周波数帯域が低域側に偏っていることに依る。つまり、拡声通話システムでは、主に人が発する声としての音声を送受信することになるのであるが、音声周波数帯域(可聴周波数帯域)において、人の音声の周波数帯域は低域側に分布する。従って、人の音声を元に発生するエコー音の成分としても低域側に分布することになり、より強力にエコー音をキャンセルすべき帯域としては低域側に偏倚することとなるものである。換言すれば、高域になるほど、キャンセルすべきエコー音成分のエネルギーは少なくなる。そこで、他のエコーキャンセル処理部３０からタップ数を明け渡してもらうのにあたっては、できるかぎり高域のエコーキャンセル処理部３０からはじめることで、エコーキャンセル効果の劣化は目立たないことになるわけである。

ところで、図６に示したフローチャートによる手順では、解放タップ数βが一定以下となった状態のもとで、明け渡し可能なタップ数Ａが０（明け渡し可能な全タップ数を明け渡しした状態）となり、さらに、高域側エコーキャンセル処理部からも不足タップ数を明け渡してもらうことができない、という状態（最低タップ数保有状態）になるエコーキャンセル処理部３０が出てくる可能性がある。このような最低タップ数保有状態は、ステップＳ１０８、Ｓ１０９により高域側エコーキャンセル処理部に対して不足タップ数の明け渡し要求を行うようにされていることからも理解されるように、対応する分割周波数帯域が高くなるエコーキャンセル処理部３０ほど、発生する可能性が高くなる。このような状態となったエコーキャンセル処理部３０は、先に例として述べた明け渡し可能なタップ数Ａの初期値の設定を行ったとすれば、最小限とされるエコー音の消去量を得るようにして適応処理を継続することになる。

上記のようにして最低タップ数保有状態となったときに、その状態での適応処理を維持させるという構成の他、本実施の形態としては、次のような構成を採ることも可能とされる。
つまり、最低タップ数保有状態に対応する一定の条件を満たす状態となった場合、そのエコーキャンセル処理部３０におけるエコーキャンセル処理を、適応フィルタシステムによる適応処理から、音声スイッチのシステムに切り換える、というものである。

内部のエコーキャンセル処理を音声スイッチとした場合のエコーキャンセル処理部３０の内部構成例について、最も高い分割周波数帯域を担当するエコーキャンセル処理部３０[m]を例に挙げることとして、図７により説明しておく。
この図７に示されるエコーキャンセル処理部３０[m]は、音声スイッチ３３とシーケンス制御部３１から成るものとされる。シーケンス制御部３１は、例えば、エコーキャンセル処理部３０[m]が適応フィルタシステム３２により適応処理を実行しているときに、この適応フィルタシステム３２（デジタルフィルタ５０）が、上記の最低タップ数保有状態に対応する一定の条件を満たす状態になったことを認識すると、エコーキャンセル処理の実行部位について、適応フィルタシステム３２に代えて、この図７に示される音声スイッチ３３を形成するようにされる。本実施の形態においては、音声信号処理部１３についてＤＳＰにより構成することとしているので、上記のようなエコーキャンセル処理実行部位の構成の切り換えは、エコーキャンセル処理部３０ごとに与えるプログラム(インストラクション)を変更することで容易に実現できる。

そして、音声スイッチ３３は、図示するようにして、減衰器４５及びスイッチ制御部４６を備えて成る。減衰器４５は、送信用帯域別音声信号Ｄmを入力して、スイッチ制御部４６の制御に応じて所定の減衰率を与えて出力する。この出力が信号Ｓmとなる。
スイッチ制御部４６は、上記送信用帯域別音声信号Ｄmと再生用帯域別音声信号Ｘmを入力する。そして、これらの信号を利用して、送信用帯域別音声信号Ｄmに、相手側通信端末装置に送信すべき、こちら側の音声通信端末装置(近端装置)の話者(近端話者)の声が有るとされる状態と、無いとされる状態の何れであるのかについて判断するようにされる。そして、上記近端話者の声が有るとされる状態では、例えば減衰器４５の減衰率は一定以下に設定し、送信用帯域別音声信号Ｄmがほぼそのまま信号Ｓmとして出力されるようにする。つまり、音声スイッチのスイッチ状態としてはオン状態（閉状態）とするものである。これに対して、上記近端話者の声が無いとする状態では、減衰器４５に対して一定以上の減衰率を設定し、送信用帯域別音声信号Ｄmについて一定以上の損失を与えて、信号Ｓmとして出力させる。即ち、音声スイッチをオフ状態(開状態)とする。

音声スイッチシステムでは、例えば近端話者の声が無いとする状態は、相手側通信装置(遠端装置)の側の話者が話している声の音声が、近端装置側にて受信されてスピーカから出力されている状態であると捉える。従って、上記のようにしてスイッチ制御を実行するということは、近端装置側においてスピーカからマイクロフォンに到達する遠端話者の声を、遠端装置側に再送信しないということであり、この結果、遠端装置側においては、スピーカからエコー音の成分が出力されないことになる。つまり、エコーキャンセル効果を生じることとなる。

適応フィルタシステムでは、例えば会議参加者（話者）が移動するなどしてエコーパスに変化が生じた場合にも、これに適応、追随するようにして新たにインパルス応答を求めて疑似エコー音を生成してエコーキャンセル動作を実行する。このようなエコーキャンセル処理により得られる音声は、例えば途中で途切れたりすることもなく、相応に高品質である。しかし、このようなエコーパスの変化などに追随して適応フィルタシステムが収束するまでには、比較的に長い時間を要することが分かっている。適応フィルタシステムが収束していないときには、適切な疑似エコー音は生成されていないので、エコーキャンセル効果も不充分なものとなり、実際には、残留エコーが未だ聴こえてしまったりする。例えば上記の「最低タップ数保有状態に対応する一定の条件を満たす状態」とは、上記しているようなエコーキャンセルが不充分となり易い状態を想定している。
また、適応フィルタシステムは、例えば図５によっても説明したように、相応の次数のＦＩＲ(Finite Impulse Response：有限インパルス応答)フィルタを備えることから、演算量やリソースも相応に必要となり、ＤＳＰの動作を重くすることにつながる。

これに対して、音声スイッチは、エコー音をほぼ遮断するようにして動作することになるので、適応フィルタシステムのようにして、残留エコーが残るようなことにはならない。このことからすれば、「最低タップ数保有状態に対応する一定の条件を満たす状態」に至った適応フィルタシステムを有するエコーキャンセル処理部３０を、音声スイッチに切り換えることは、確実なエコーキャンセル効果が得られるという点で有効であるといえる。そのうえで、音声スイッチは、適応フィルタシステムと比較すると、必要とされる演算量やリソースが少ない。従って、音声スイッチに切り換えることにより、その分、ＤＳＰの処理は軽くすることができる。

また、音声スイッチにあっては、現実の会話は双方の音声が重なりがちであることなどの要因により、完全な音声スイッチ制御は非常に困難とされており、実際においては、例えば受話音声の冒頭が削られて聴こえなかったり、話者が話し中であるのにかかわらず音声スイッチの状態が切り換わって不用意に音声が切れたりするなどの現象が生じやすい。
しかし、本実施の形態の場合には、あくまでも分割周波数帯域ごとのエコーキャンセル処理部３０において、「最低タップ数保有状態に対応する一定の条件を満たす状態」に至った適応フィルタシステムが在る場合にのみ音声スイッチに切り換えるものであり、従って、フィルタバンク的な構成において、適応フィルタシステムと音声スイッチシステムとが併用される構成となる。このために、音声スイッチシステム側にて音声の途切れが生じたとしても、音声の継続性は適応フィルタシステム側で保たれる。そのうえで、適応フィルタシステムから音声スイッチへの切り換えは、主に分割周波数帯域の高い方のエコーキャンセル処理部３０から行われていくようにされる。本実施の形態の場合には、人の発する音声を対象としてエコーキャンセルを行うべきこととなるが、人の声のスペクトラムは、可聴周波数帯域において比較的低域側にエネルギーが集中し、高域ではエネルギーは小さい。このために、音声スイッチシステムにて音の途切れを生じたとしても、使用上問題になる程度の違和感をユーザが覚えるようなことにはならない。

なお、一旦、音声スイッチシステムに切り換わったエコーキャンセル処理部３０に関しては、先ず、そのまま音声スイッチシステムによる動作を継続させることが考えられる。また、所定の復帰条件を満たしたことに応じて、音声スイッチシステムから適応フィルタシステムに切り換えるようにして構成することも考えられる。

また、これまでの説明においては、エコーキャンセルブロック２３を有する音声信号処理部１３はＤＳＰにより構成されているものとしていたが、例えば、各図に示したような回路構成を実際に有するデジタル回路（少なくとも一部がアナログ回路とされても構わない）を実装して構成することも考えられる。このような場合においては、エコーキャンセル処理部３０ごとに対応して適応フィルタシステムの回路と音声スイッチの回路を実装することとして、適宜、入出力させる信号（送信用帯域別音声信号、再生用帯域別音声信号）の経路を切り換えるようにすることが考えられる。

また、先の説明では、適応フィルタシステム３２を備えるエコーキャンセル処理部３０が、デジタルフィルタ５０のタップ長を可変するのに利用する指標、即ち、適応処理状況を示す情報をERLEとしているが、これのみに限定されるべきではなく、他の指標を用いてもよい。例えばエコーキャンセル後の信号（誤差信号e(k)）のパワーと、定常ノイズレベルとを比較する手法を採用することも考えられる。

また、適応フィルタシステム３２に採用する適応アルゴリズムとしては、これまでに知られているもののほか、現在以降において提案される将来技術のうちから、適切とされるものを選択すればよい。また、例えば図４に示した適応フィルタシステムは、説明を分かりやすいものとすることの都合上、最も基本的な構成を示しており、実際にあっては、より発展、改善された構成が採られてもよいものである。
また、スイッチ制御部４６が実行するものとされるスイッチ制御のアルゴリズムについても、特に限定されるべきものではなく、これまでに知られているもののほか、将来的には、現在以降において開発、提案されるもののうちから適切なものを採用すればよい。

また、出願当初における本願発明の下では、帯域分割を行わない送信用音声信号と再生用音声信号を利用したエコーキャンセル処理の構成を採ることも妨げられるものではない。つまり、帯域分割を行わない通常の送信用音声信号と再生用音声信号とを、それぞれ所望信号、参照信号として、適応フィルタシステムによるエコーキャンセル処理を行うようにしたうえで、そのときの適応処理状況に応じて、適応フィルタシステム内のデジタルフィルタのタップ数を可変するものである。このような構成であっても、例えばタップ数が固定とされる場合、或いは、予め決められたパターンのみに対応して切り換えが行われるような構成と比較すれば、より幅広い環境と環境変化に対応することが可能となるものであり、より広範な汎用性を獲得できるものである。
また、帯域分割を行わない構成の下で、適応フィルタシステムから音声スイッチへと構成を変更することも可能である。適応フィルタシステムのタップ数が一定以上に不足してエコー音の残留が目立ってくるような状況では、音声スイッチに切り換えることのほうが、例えばハウリングの防止などの点で、有利にはたらく場合がある。

また、これまで説明した実施の形態は、送受信される音声がモノラルとされる場合の構成を示しているが、現状においては、ステレオなどのマルチチャンネルの音声を送受信する拡声通話系システムも知られている。本願発明の構成は、このようなマルチチャンネルに対応する拡声通話系システムにも適用が可能である。
また、これまでの実施の形態の説明では、テレビ会議システムにおいて２つの音声通信端末装置１−１、１−２が一対一の関係で通信をする場合を前提としているが、これは、説明を簡単なものとすることを配慮して、テレビ会議システムとして最もシンプルな形態を例に挙げたためである。従って、実際においては、３以上の音声通信端末装置によりテレビ会議システムを構築して、一対多の通信を行うようにすることも考えられるが、このようなシステム構成においても、本願発明に基づいた構成は、個々の音声通信端末装置に対して適用可能である。
また、音声通信端末装置１における送信用音声信号、及び再生用音声信号の処理は、主にデジタル信号処理によるものとしているが、デジタル信号処理を施すときの送信用音声信号及び再生用音声信号の形式については特に限定されるべきものではない。例えば、再生用音声信号を出力させる場合には、ΔΣ変調されたビットストリーム形式の音声信号をD級増幅によって再生するような構成とすることも場合によっては考えられる。
また、実施の形態としてはテレビ会議システムにおいて音声送受信のために設けられる音声通信端末装置を例に挙げているが、これ以外にも、例えば、音声会議システムであるとか、電話装置におけるハンズフリー通話機能などをはじめとして、いわゆる拡声通話系システムとして捉えることのできる装置全般に適用可能である。

本発明の実施の形態に対応するテレビ会議システムにおける音声送受信系の構成例を示すブロック図である。実施の形態の音声通信端末装置の内部構成例を示すブロック図である。実施の形態に対応する音声通信端末装置内の音声信号処理部の構成例を示す図である。適応フィルタシステムを有するエコーキャンセル処理部の構成例を示す図である。適応フィルタシステムの構成例を示す図である。シーケンス制御部が実行するものとされる、デジタルフィルタのタップ長可変のための処理手順例を示すフローチャートである。音声スイッチブロックを有するエコーキャンセル処理部の構成例を示す図である。

符号の説明

１（１−１・１−２）音声通信端末装置、２（２−１・２−２）マイクロフォン、３（３−１・３−２）スピーカ、１１Ａ／Ｄコンバータ、１２Ｄ／Ａコンバータ、１３音声信号処理部、１４コーデック部、１５エンコーダ、１６デコーダ、１７通信部、２１・２２帯域分割処理部、２３エコーキャンセルブロック、２４帯域合成処理部、２５帯域補償信号生成部、２６合成器、３０(0)〜３０(m) エコーキャンセル処理部、３１シーケンス制御部、３２適応フィルタシステム、３３音声スイッチ、４１適応フィルタ、４２減算器、４５減衰器、４６スイッチ制御部、５１[1]〜５１[N-1] 遅延器、５２[0]〜５２[N-1] 乗算器、５３加算器、５４係数設定回路

Claims

マイクロフォンにより収音して得たとされる収音音声信号に含まれる信号成分のうち、スピーカから放出された、通信相手側から送信されてきた音声信号を受信取得して得た相手側音声信号の音の信号成分が最小となるようにする適応信号処理を実行する適応信号処理部を有して成るエコーキャンセル処理手段と、
上記適応信号処理部についての適応処理に関する所定の状況を検知する処理状況検知手段と、
上記処理状況検知手段の検知結果に基づいて、上記適応信号処理部を形成するデジタルフィルタが有するタップ長を可変するタップ長可変手段と、
を備えることを特徴とする音声信号処理装置。
上記エコーキャンセル処理手段は、音声周波数帯域を所定の周波数帯域ごとに分割して得られる分割周波数帯域ごとの収音音声信号を対象として上記適応処理を実行するようにされた複数の上記適応信号処理部を備えて成るとともに、
処理状況検知手段は、これらの適応信号処理部の少なくとも一部を検知対象として、これらの検知対象の適応信号処理部ごとについての適応処理に関する所定の状況を検知し、
上記タップ長可変手段は、上記検知対象の適応信号処理部を形成するデジタルフィルタが有するタップ長を可変するようにされている、
ことを特徴とする請求項１に記載の音声信号処理装置。
上記検知対象の適応信号処理部を形成する上記デジタルフィルタのそれぞれのタップ長の形成に使用可能な総タップ数が有限である場合において、
上記タップ長可変手段は、１つの検知対象の適応信号処理部を形成するデジタルフィルタが有するタップ長を、所要のタップ数分だけ長くするようにして変更するのにあたり、使用可能なタップ数が上記所要のタップ数に満たない場合には、この所要のタップ数を満たすために、所定規則に従って選択した、他の検知対象の適応信号処理部を形成するデジタルフィルタのタップ長を短くするようにして変更するようにされる、
ことを特徴とする請求項２に記載の音声信号処理装置。
所定の条件に応じて、上記エコーキャンセル処理手段における適応信号処理部を音声スイッチに変更するようにされた、エコーキャンセル処理変更制御手段をさらに備える、
ことを特徴とする請求項１に記載の音声信号処理装置。
マイクロフォンにより収音して得たとされる収音音声信号に含まれる信号成分のうち、スピーカから放出された、通信相手側から送信されてきた音声信号を受信取得して得た相手側音声信号の音の信号成分が最小となるようにする適応信号処理を実行する適応信号処理部についての適応処理に関する所定の状況を検知する処理状況検知手順と、
上記処理状況検知手順の検知結果に基づいて、上記適応信号処理部を形成するデジタルフィルタが有するタップ長を可変するタップ長可変手順と、
を実行することを特徴とする音声信号処理方法。