JP2009094708A

JP2009094708A - 音声信号処理装置、音声信号処理方法

Info

Publication number: JP2009094708A
Application number: JP2007262233A
Authority: JP
Inventors: Takayoshi Kawaguchi; 貴義川口; Yohei Sakuraba; 洋平櫻庭
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2007-10-05
Filing date: 2007-10-05
Publication date: 2009-04-30

Abstract

【課題】拡声通話系システムの音声信号処理装置において、相手側話者と自己拡声音の各エコー音を、高い性能でキャンセルする。
【解決手段】相手側話者のエコー音をキャンセルする機能を有する適応フィルタシステムの出力を、参照入力側に合成する。通信相手側から送信される音声と、マイクロフォンにより収音された自己音声をスピーカから拡声して出力することが可能になる。そのうえで、自己側話者音声が収音されておらず、相手側話者音声が入力されている状態においては、適応フィルタシステムによる適応処理を実行させると共に、適応フィルタシステムの出力信号を参照入力側に合成しないようにする。一方、自己側話者音声が収音されている状態に対応しては、適応フィルタシステムの出力信号を参照入力側に合成して自己拡声が行われるようにすると共に、適応フィルタシステムの適応処理を停止させて、自己拡声音のエコー音をほぼキャンセルさせる。
【選択図】図５

Description

本発明は、いわゆるエコーキャンセルといわれる音声信号処理機能を有する音声信号処理装置と、その方法とに関するものである。

電話機でのハンズフリー通話のほか、音声会議システム及びテレビ会議システムなどにおける音声送受信処理系などのようにして、互いに離れた場所や位置に居る話者間での通話、会話などが行えるように構成された音響システムは、拡声通話系などともいわれ、既に実用化され、また、普及している。
上記の拡声通話系システムでは、例えば、所定の通信方式に従って相互に通信可能な通信端末装置が複数の異なる場所に配置される。そのうえで、一方の通信端末装置側にてマイクロフォンで収音した音声が他方の通信端末装置に対して送信され、これを受信した他方の通信端末装置側にてスピーカから音として放出するようにされる。これにより、遠隔した場所にいる話者同士の会話が可能となるものである。

ただし、拡声通話系システムでは、一方の通信端末装置側にてスピーカから放出された他方の通信端末装置側からの音声が、一方の通信端末装置側にて、再度マイクロフォンにより収音されて他方の通信端末装置のスピーカから音として放出される。そして、このような動作が循環（ループ）するようにして繰り返されることになる。これにより、例えばスピーカから、相手側の話した音声以外に、自分の話した声もこだまのようにして混ざって聴こえる、いわゆるエコーといわれる現象が生じる。また、エコー音が大きくなれば、上記のループが無限に繰り返されてハウリングといわれる現象が発生する。このようして、拡声通話系システムでは、通信端末装置間の通信によりマイクロフォンの収音音声が循環することで、エコー、ハウリングによる通話音声品質の低下であるとか、通話システムが使いにくくなるなどの問題を抱えることになる。

そこで、拡声通話系システムに対してエコーキャンセルのための音声信号処理系を備えることが知られている。
このようなエコーキャンセルのための信号処理としては、適応フィルタシステムを採用したものが知られている。
この適応フィルタシステムは、スピーカとマイクロフォンの間の伝達音（エコーパス）についてのインパルス応答の特性を得たうえで、スピーカから放出させるべき音を入力信号として、この入力信号に上記のインパルス応答を畳み込むことで出力として擬似的なエコー音の信号成分を生成する。そして、このエコー音の信号成分を、マイクロフォンにより収音して相手側の通信端末装置に送信すべき音声信号から差し引くようにされる。このような適応フィルタシステムの動作が収束した状態では、相手側の通信端末装置に対しては、エコー音がキャンセルされた音声を送信することになり、従って、スピーカから放出される音からエコー音は聴こえなくなっている（キャンセルされている）こととなる。

また、拡声通話系システムから成る会議システムを利用するのにあたって、通信端末装置が設置される場所(会場)が非常に広いような場合、同じ会場内でも、或る話者の声が、そこから離れた位置に居る会議参加者には、遠すぎて聴き取りにくいような状況となることが考えられる。このような状況に対応しては、例えば特許文献１にも記載されているようにして、通信端末装置により、同じ近端側のマイクロフォンにより収音される音声をスピーカから拡声して出力させる、ＰＡシステムの機能（自己拡声音出力機能）を付加することが知られている。これにより、マイクロフォンを使用して入力された近端側話者の音声は、同じ近端側のスピーカにて拡声されて出力されることになり、会議参加者は、同じ会議場内の話者の音声を大きな音で明瞭に聴くことが可能になる。また、特許文献１には、通信端末装置間の通信によりマイクロフォンの収音音声が循環することで生じるエコー、ハウリングの防止と、上記ＰＡシステムにより生じる自己拡声音のエコー、ハウリングの防止とを両立させるために、マイクロフォンによる収音音声信号をスピーカ側に出力させるための信号経路においては、周波数分割部を設け、収音音声信号を相手方に送信するために送話信号符号化回路に出力する信号経路においてはゲイン調整器を設けた構成が記載されている。

特開平９−３０７６２６号公報

本願発明としても、拡声通話系システムを成すとされる音声信号処理装置として、自己拡声音出力機能を付加した構成を前提とするものである。そのうえで、通信端末装置間の通信によりマイクロフォンの収音音声が循環することで生じるエコー（ハウリング）と、自己拡声音のエコー（ハウリング）の双方をキャンセルする構成として、これまでよりも高い性能のものが得られるようにすることを目的とする。

そこで本発明は上記した課題を考慮して、音声信号処理装置として次のように構成する。
つまり、マイクロフォンにより収音して得られる収音音声信号を所望信号として入力するとともに、通信相手側から送信されてきた相手側話者の音声信号を受信してスピーカから音として放出するまでにおける所定の処理段階を経た音声信号であるスピーカ出力用音声信号を参照信号として入力して、所望信号から参照信号に基づいて生成したキャンセル用信号を減算して得られる出力信号が最小となるようにして適応処理を実行し、出力信号が、相手側通信装置に対して送信出力すべき音声信号となるようにされた適応フィルタ手段と、この適応フィルタ手段の出力信号が、スピーカ出力用音声信号の成分として含まれるように合成する合成手段と、適応フィルタ手段の出力信号が合成手段により合成されるまでの経路において備えられ、通過信号に対する減衰率を可変設定する減衰率可変手段と、マイクロフォンにより自己側話者音声が収音されておらず、かつ、相手側話者の音声信号が参照信号に含まれているとされる第１の音声状態に対応しては、適応フィルタ手段の適応処理が活性傾向の状態にあるようにされるとともに、減衰率可変手段における減衰率が一定以上に設定された状態となるように制御し、マイクロフォンにより自己側話者音声が収音されている第２の音声状態においては、適応フィルタ手段の適応処理が停止傾向の状態となるようにされるとともに、減衰率可変手段における減衰率が一定以下に設定された状態となるように制御する制御手段とを備えることとした。

上記構成の音声信号処理装置では、先ず、適応フィルタ手段が備えられることで、拡声通話系システムにおいて、通信相手側との通信によりマイクロフォンの収音音声が循環することで生じるエコー（相手側話者のエコー音）を、適応処理によりキャンセルする機能が与えられる。また、これに合成手段が備えられることで、通信相手側から送信されてきた音声をスピーカから拡声して出力できることに加えて、音声信号処理装置側において完結するかたちで、マイクロフォンにより収音された音声をスピーカから拡声して出力するという、自己拡声音出力機能が与えられる。
そのうえで、自己側話者音声（マイクロフォンに対して話者から直接的に入力される話者の音声）がマイクロフォンにより収音されておらず、かつ、相手側話者の音声信号が参照信号に含まれているとされる第１の音声状態に対応しては、適応フィルタ手段の適応処理が活性傾向の状態にあるようにされるとともに、減衰率可変手段における減衰率が一定以上に設定された状態となるようにする。これにより、スピーカから出力される自己拡声音が抑制された状態で、適応フィルタ手段の適応処理が有効に実行されるということになるが、これは、自己拡声音出力機能を備えない構成におけるエコーキャンセルシステムと等価の動作となるものである。
一方、マイクロフォンにより自己側話者音声が収音されている第２の音声状態に対応しては、先ず、減衰率可変手段における減衰率を一定以下に設定する。ここで、減衰率可変手段における減衰率を一定以下に設定するということは、スピーカから自己拡声音を積極的に出力させる状態とすることを意味する。これにより、自己側話者音声は、スピーカから音として放出されることになり、自己拡声音出力機能が果たされることになる。そのうえで、このときには適応フィルタ手段による適応処理について停止傾向の状態とするようにしている。つまり、そのときの適応処理の応答性を一定以上の度合いで鈍くさせるようにするのであるが、このときの適応フィルタ手段が収束した状態でありさえすれば、適応フィルタ手段によっては、スピーカからマイクロフォンに到達する自己拡声音（即ち自己拡声音のエコー音）は、ほぼ適正にキャンセルされることになる。自己側話者音声が収音されていない状態での適応フィルタ手段の適応処理は、相手側者のエコー音、即ちスピーカからマイクロフォンへの空間経路を経由して到達してきた音をキャンセルするように動作することになるからである。

このようにして本発明は、自己拡声音出力機能が付加された拡声通話系システムの音声信号処理装置として、適応フィルタにより、相手側話者のエコー音だけではなく、自己拡声音のエコー音もキャンセルすることが可能とされる。適応フィルタによっては、高品位、高音質なエコーキャンセル効果が得られる。つまり、本願発明によっては、相手側話者のエコー音と、自己拡声音のエコー音との双方を対象にして、高品位なエコーキャンセルを行うことを実現しているものである。
また、本願発明によっては、１つの適応フィルタ手段を、相手側話者のエコー音のキャンセルと自己拡声音のエコー音のキャンセルとで共用していることから、それだけ演算量やリソースの削減が図られ、コストダウンや回路規模の縮小効果が期待されることにもなる。

本願発明を実施するための最良の形態（以下、実施の形態という）としては、テレビジョン会議システム(テレビ会議システム)における音声送受信系に本願発明を適用する。
テレビ会議システムは、一般には、場所の異なる会議場ごとに通信端末装置を設置し、この通信端末装置から、カメラ装置により撮影した画像と、マイクロフォンにより収音した音声を他の通信端末装置に送信させると共に、他の通信装置から送信されてきた画像と音声を受信して、それぞれ、表示装置、スピーカから出力させるように構成される。つまり、テレビ会議システムでは、画像を相互に送受信する映像送受信系と、音声を相互に送受信する音声送受信系とを備える。そして、本実施の形態としては、上記音声送受信系として音声を送受信するとともに、スピーカなどからの拡声出力が可能なようにして設けられる通信端末装置（音声通信端末装置）とされるものである。

図１は、本実施の形態の基となる、テレビ会議システムにおける音声送受信系のシステム構成例を示している。
この場合には、互いに離れた２つの場所Ａ、場所Ｂが会議場とされており、これらの場所Ａ，Ｂのそれぞれにおいて、音声送受信系を成す音声通信端末装置１−１、１−２が設置される。なお、この場合においては、場所Ａ、Ｂは、それぞれ、例えば同じ部屋内でも離れた距離に居る者同士では、通常会話程度の声量では相手の発話内容を明瞭に聴き取ることが難しい程度の、相当の広さであることを想定している。
これらの音声通信端末装置１−１、１−２は、所定の通信方式に対応する通信回線により接続されて、相互通信が可能なようにされている。また、場所Ａ、Ｂのそれぞれには、マイクロフォン２−１、２−２、スピーカ３−１、３−２が設置される。マイクロフォン２−１、２−２は、それぞれ、場所Ａ，Ｂ内に居る会議参加者の声を収音するためのもので、各場所内の適当な位置に設けられる。スピーカ３−１、３−２は、それぞれ、他の場所の会議参加者の声(相手側話者音声)と、同じ場所にあるマイクロフォン２−１、２−２を使った会議参加者の声(自己側話者音声)とを拡声して出力し、その場所にいる会議参加者に聴こえるようにするためのもので、これも、各場所内の適当な位置に設けられる。
なお、以降の説明において、音声通信端末装置、マイクロフォン、及びスピーカについて、離れた場所にある同一のものを特に区別する必要のない場合には、音声通信端末装置１、マイクロフォン２、スピーカ３などのようにして表記する。

先ず、場所Ａにおいて、マイクロフォン２−１により収音して得た音声信号は、音声通信端末装置１−１に入力される。音声通信端末装置１−１は、入力された音声信号を、通信回線を経由して音声通信端末装置１−２に対して送信する。音声通信端末装置１−２は、上記のようにして送信されてきた音声信号を受信し、スピーカ３−２から出力させる。これにより、場所Ｂの会議参加者は、場所Ａの会議参加者の声を聴くことができる。
また、同様にして、場所Ｂ内のマイクロフォン２−２により収音して得られた音声は、音声通信端末装置１−２により音声通信端末装置１−１に送信される。音声通信端末装置１−１では、受信した音声信号をスピーカ３−１から出力させる。
このようにして、テレビ会議システムの音声送受信系では、音声の双方向通信を行うものであり、これにより、例えば或る１つの場所に居る会議参加者と、他の場所に居る会議参加者(相手側話者)との間で会話を行うことが可能になる。また、このテレビ会議システムの場合には、各場所において、複数の会議参加者が居ることを想定しており、このために、各場所の会議参加者の全員が、相手側話者の声を聴くことができるように、スピーカ３を備えることとしているものである。このようにして双方向で音声のやりとりを行うのにあたり、相手側話者音声をスピーカから出力させてモニタするシステムは、拡声通話系などともいわれる。

また、本実施の形態の基となる音声通信端末装置１は、マイクロフォン２により収音して得た音声信号についてもスピーカ３から拡声音として出力させることが可能とされている。即ち、この場合の音声通信端末装置１は、他の音声通信端末装置から送信されてきた音声に加えて、自身に接続されたマイクロフォンにより収音された音声についてもスピーカ３から出力させることのできる、自己拡声音出力機能を有する。
上記もしたように、この場合の会議会場である場所Ａ，Ｂは相当に広い場合を想定しているが、このような自己拡声音出力機能は、同じ会議場としての場所において、或る会議参加者(自己側話者)が発話したときの音声（自己側話者音声）を、他の会議参加者も必定充分に大きな音で聴くために備えられるものである。

図２は、音声通信端末装置１の構成例を示している。確認のために述べておくと、図１に示した音声通信端末装置１−１、１−２は、この図２に示す構成を共通に有するものとされる。
音声通信端末装置１は、例えばこの図に示すようにして、音声信号処理部１１、コーデック部１２、通信部１５を備えて成る。

音声信号処理部１１に対しては、マイクロフォン２により収音して得られる音声信号と、後述するコーデック部１２内のデコーダ１４から出力される音声信号とが入力される。また、音声信号処理部１１からは、後述するエコーキャンセル処理後の音声信号をコーデック部１２内のエンコーダ１３に出力するとともに、拡声音として出力させるべき音声信号をスピーカ３に対して出力するようにされている。
なお、実際においては、マイクロフォン２により収音して得られたアナログとしての音声信号をデジタル信号に変換するＡ／Ｄ変換器であるとか、音声信号処理１１から出力されるものとするデジタルによる音声信号をアナログ信号に変換し、増幅してスピーカ３に出力するためのＤ／Ａ変換器、増幅回路などの構成が備えられるべきであるが、ここでは、説明を簡単なものとすることの都合上、これらの部位についての図示は省略している。また、これらの部位のそれぞれは、音声通信端末装置１内に設けられてもよいし、音声通信端末装置１に対しては外部となる装置に対して設けられるものであってもよい。

先に述べたように、拡声通話系システムは、そのまま使用したのでは、エコー、ハウリングなどの現象を生じる。つまり、図２において示しているように、スピーカ３から空間に放出された音は、直接音及び間接音としての空間伝搬経路（エコーパス）Ｅを経て、マイクロフォン２に到達する。つまり、通信相手側の音声通信端末装置から送信されスピーカ３から放出された通話相手の声(相手側話者音声)がマイクロフォン２にて収音され、再び、通信相手側の音声通信端末装置に送信される。また、通信相手側においても、さらにスピーカから放出された音がマイクロフォンで収音されて、こちらの音声通信端末装置に送信されてくる。即ち、拡声通話系システムでは、一度空間に放出された音が、音声通信端末装置間で循環するようにして送受信される。これにより、スピーカから放出される音には、自分が今話している声が、或る遅延時間をもってこだまのようにして聴こえるものが含まれることになる。これがエコーであり、ループが或る程度以上に繰り返されればハウリングとなる。
そこで、拡声通話系システムでは、このようなエコーの現象を解消、抑制するエコーキャンセルシステムを備えることが行われている。音声信号処理部１１は、このエコーキャンセルシステムとしての信号処理機能を有するようにして構成されている。
また、音声信号処理部１１では、先の自己拡声音出力機能に対応して、マイクロフォン２により収音して得られた音声信号をスピーカ３から出力させるための自己拡声音用の信号系も備えている。
なお、この音声信号処理部１１は、例えば実際には、ＤＳＰ(Digital Signal Processor)として構成される。また、音声信号処理部１１におけるエコーキャンセルのための構成、及び自己拡声音用の信号系については後述する。

音声信号処理部１１によりエコーキャンセル処理が施された音声信号は、コーデック部１４内のエンコーダ１３に対して入力される。エンコーダ１３は、入力された音声信号について、例えば所定方式に応じた音声圧縮符号化などの信号処理を施して通信部１５に対して出力する。通信部１５は、入力された送信用音声信号を、所定の通信方式に従って、通信回線経由で、他の音声通信端末装置に対して出力するようにされる。

また、通信部１５は、他の音声通信端末装置から送信されてきた送信用音声信号を受信して所定の圧縮符号化形式の音声信号に復元し、コーデック部１２のデコーダ１４に出力する。
デコーダ１４では、通信部１５から入力された再生用音声信号の圧縮符号化に対する復調処理を実行して、所定のＰＣＭ形式のデジタル音声信号に変換し、音声信号処理部１１に出力する。このようにして音声信号処理部１１に対して出力される音声信号成分が、最終的にはスピーカ３から出力される相手側話者音声となる。

図３は、エコーキャンセル機能に自己音声拡声機能が付加された音声信号処理部１１として順当に考えられる一つの構成例を示している。なお、この図においては、音声信号処理部１１とともに、マイクロフォン２、スピーカ３、及びコーデック部１２（エンコーダ１３、デコーダ１４）を示している。

この図３に示される音声信号処理部１１は、適応フィルタシステム２０、送信音用サプレッサ２３、ボリューム部２４、及び加算器２５を備える。適応フィルタシステム２０、及び送信音用サプレッサ２３がエコーキャンセル機能に対応し、ボリューム部２４及び加算器２５が自己音声拡声機能に対応する。

先ず、マイクロフォン２により収音して得られる収音音声信号の主たる内容としては、スピーカ３から放出された音(即ち、エコー音としての相手側話者音声となる)と、自己側の場所内の会議参加者が例えばマイクロフォン２を使用して、これに向かって発話したことで収音（入力）されることとなった、自己側話者音声となる。
適応フィルタシステム２０は、収音音声信号のうちで、上記のエコー音としての相手側発話音声を除去、キャンセルするためのものであり、適応フィルタ２１及び減算器２２を有して成る。
適応フィルタシステム２０に対する参照信号は、適応フィルタ２１の入力端子に入力されるようになっており、この場合には、デコーダ１４からの出力信号が入力される形態となっている。つまり、相手側通信端末装置側から送信されてきた、相手側話者音声に対応する音声信号を入力するようにされている。
また、減算器２２は、マイクロフォン２による収音音声信号から、適応フィルタ２１の出力信号(キャンセル用信号)を減算するようにして設けられる。従って、適応フィルタシステム２０においては、処理対象として減算器２２に入力されるべき信号であり、キャンセル対象の信号成分を含む信号（所望信号）が、マイクロフォン２により収音して得られた自己音声の音声信号となる。また、適応フィルタシステム２０の出力信号は減算器２２の出力となるが、適応フィルタ２１にフィードバックされるようにして入力される減算器２２の出力は誤差信号、残差信号といわれるものとなる。

この構成では、適応フィルタシステム２０の適応フィルタ２１は、参照信号として、デコーダ１４から出力されてくる、相手側音声の音声信号を取り込んでいることになる。
適応フィルタ２１の内部は、図示による説明は省略するが、上記の参照信号が通過する、必要次数によるＦＩＲ(Finite Impulse Response：有限インパルス応答)型のデジタルフィルタと、このデジタルフィルタの係数(フィルタ係数)を可変設定することのできる係数設定回路とを備えている。上記のデジタルフィルタの出力が、適応フィルタ２１の出力信号(キャンセル用信号)となる。
そして、適応フィルタ２１においては、上記の誤差信号により示される残差量が最小となる出力信号(キャンセル用信号)が常に得られるようにして、係数設定回路により必要な次数段階の係数器のフィルタ係数を変更設定していくようにされる。
この結果、適応フィルタ２１の係数ベクトル（次数段階に応じた係数の配列に相当する）は、デコーダ１４からの相手側音声の音声信号がスピーカ３から出力され、次に空間伝搬経路Ｅを経由してマイクロフォン２にて収音され、さらに適応フィルタシステム２０の減算器２２に対して処理対象信号(所望信号)として入力されるまでの伝達経路(以降、キャンセル音伝達経路ともいう)の擬似的な伝達関数を表現するインパルス応答を形成することになる。この動作は即ち、上記キャンセル音伝達経路を経由して得られる音の信号成分を、そのときの処理対象信号の状態に応じて適応的にキャンセルする動作であることになる。
そして、上記のキャンセル音伝達経路を経由する音は、エコーパスである空間伝搬経路Ｅを経由することからも分かるように、相手側音声の音声信号を基としたエコー音の成分である。従って、適応フィルタ２１の出力信号（キャンセル用信号）は、相手側音声の音声信号についての疑似エコーとして捉えられるものとなる。適応フィルタシステム２０においては、減算器２２により、自己側のマイクロフォン２により収音された音声から、相手側から送信されてきた音声に対応する疑似エコー音を差し引くことになる。このようにして、音声信号処理部１１は、自己側音声の音声信号からエコー音の成分を適応的に除去するという動作を実行するものである。そして、音声通信端末装置１は、このエコー音の成分が除去された音声信号を、通信相手側の音声通信端末装置に対して送信するようにされる。これにより、通信相手側の音声通信端末装置にて受信した音声信号をスピーカから放出させて聴こえる音からも、エコー音が取り除かれる。このようにしてエコーキャンセル効果が生じるものである。

この場合、上記のようしてエコー音成分が除去された音声信号、即ち減算器２２の出力信号は、送信音用サプレッサ２３を経由してエンコーダ１３に入力させるようにされている。送信音用サプレッサ２３は、入力される音声信号に対して、設定された減衰率によるレベル・ゲインの減衰を与えて出力可能に構成され、例えば上記のエコーキャンセル効果を補強するために設けられる。つまり、適応フィルタ２１が収束しており、充分に有効なエコーキャンセル効果が得られているとされる状態にあっても、現実においては、若干のエコー成分が残留することがある。送信音用サプレッサ２３は、このようにして適応フィルタ２２が収束し、かつ、収音音声信号の内容としては自己側話者音声が含まれず、可能性としては相手側話者音声のエコー音のほうが含まれる、いわゆるシングルトーク状態を検出したとき、入力される信号について、これにほぼ１００％の減衰率を与えて出力させないようにする、あるいは一定以上の減衰率を与えて出力するように動作する。これにより、相手側通信端末装置にて、上記のエコー残留成分が聴こえないようにする、あるいは聴こえにくくすることができる。

また、上記送信音用サプレッサ２３からエンコーダ１３に対して入力されるべき送信用音声信号は、分岐して、ボリューム部２４を経由して加算器２５に入力されるようになっている。加算器２５では、上記のようにして入力されてくる送信用音声信号と、デコーダ１４から出力されてくる相手側発話音声とを合成してスピーカ３に対して出力するようにされている。
ここで、自己拡声音出力機能が対応する典型的な状況として、自己側の場所の会議参加者がマイクロフォン２を使用してこれに向かって発話している一方で、相手側通信端末装置側では、相手側話者がマイクロフォンに向かって発話していない状況を想定する。
この状況においては、マイクロフォン２により収音して得られる収音音声信号の内容は、自己側話者音声のみであり、相手側話者音声のエコー音は存在しないことになる。そして、この収音音声信号が、ボリューム部２４から加算器２５に入力され、スピーカ３側に出力される。これにより、スピーカ３からは、自己側話者音声が音として放出されることになる。このようにして自己拡声音出力機能が与えられているものである。ボリューム部２４は、例えば手動操作などに応じて、通過する音声信号レベルを可変するためのものとされる。

しかし、実際においては、上記図３に示した構成では、定常的に充分なエコーキャンセル効果を得ることが難しい。
例えば、適応フィルタシステム２０は、先に説明したように、スピーカ３から空間伝搬経路Ｅを経由してマイクロフォン２により収音される相手側話者音声(エコー音)をキャンセルするためのものとされる。従って、自己側話者音声が収音されず、相手側話者音声のみがマイクロフォン２にて収音される状態であれば、適応フィルタシステム２０の適応処理の結果として、適正にエコーキャンセルが行われる状態を得ることができる。しかし、自己側話者音声が収音される状態では、マイクロフォン２により、上記の空間伝搬経路Ｅを経由しない自己側話者音声が収音されることになり、適応フィルタシステム２０は、この本来キャンセル対象ではない自己側話者音声が主体の所望信号を入力するとともに、相手側話者音声に相当する参照信号を利用することで、所望信号を最小とするように動作する。この結果、適応フィルタシステム２０におけるフィルタ係数などは、本来のキャンセル対象である相手側話者音声をキャンセルする設定内容からはかえって遠ざかることになる。
また、自己拡声音出力機能を有する場合には、スピーカ３からマイクロフォン２に対して、同じ空間伝搬経路Ｅを経由して、自己側話者音声の成分も収音されることになる。従って、自己側話者音声についてもエコー音、ハウリングが発生し得ることになる。しかし、上記のようにして、自己側話者音声がマイクロフォン２により収音されるときには、空間伝搬経路Ｅを経由するエコー音をキャンセルすることができなくなるのであるから、自己側話者音声についての良好なエコーキャンセル効果を期待することも難しくなる。
このようにして、図３に示される構成にあっては、自己拡声音出力機能を与えたことで、適応フィルタシステム２０による適正なエコーキャンセル効果が損なわれてしまうという問題を有している。

そこで、本実施の形態としては、自己拡声音出力機能を与えることとした場合において、相手側話者音声のエコー音と、自己側話者音声の双方について良好にエコーキャンセルが行われるようにする。このための構成を以降において説明する。

図４は、本実施の形態としての音声信号処理部１１の構成例を示している。なお、この図において、先の図３と同一とされる部分については同一符号を付して説明を省略する。
この図において、先ず、相手側話者音声のエコー音をキャンセルするための構成としては、適応フィルタシステム２０及び送信音用サプレッサ２３から成り、図３と同様となる。そのうえで、自己拡声音出力機能に対応させて、加算器２５及び自己拡声音用サプレッサ２６を備えるものとされる。この場合において、図３において備えられていたボリューム部２４は省略されている。

自己拡声音サプレッサ２６は、適応フィルタシステム２０（減算器２２）の出力信号として送信音用サプレッサ２３に入力される段階の音声信号Y(k)（(k)は時刻を示す）を入力し、後述するようにして所定の減衰率を可変して与え、音声信号Ys(k)として出力する。この音声信号Ys(k)が加算器２５に対して入力される。
加算器２５は、上記音声信号Ys(k)と、デコーダ１４から出力される音声信号Xd(k)を入力して加算、合成し、音声信号X(k)として出力する。この音声信号X(k)が、適応フィルタシステム２０（適応フィルタ２１）に対して参照信号として入力されるとともに、分岐して、スピーカ３側に対しても出力されるようになっている。図３では、加算器２５により、適応フィルタシステム２０（適応フィルタ２１）に入力させる段階のデコーダ１４側からの音声信号と、適応フィルタシステム２０側からの出力信号（送信音用サプレッサ２３の出力）とを合成していたのであるが、図４では、加算器２５によりデコーダ１４の出力と、適応フィルタシステム２０の出力とを合成した後の信号を、適応フィルタシステム２０の参照信号及びスピーカ３への出力信号としている。

この場合の自己拡声音出力機能に対応する信号経路は下記のようになっている。
例えば、マイクロフォン２に対して自己側話者音声が入力されたとすると、その音声信号成分は、適応フィルタシステム２０を経由して自己拡声音用サプレッサ２６に対して入力される。自己拡声音用サプレッサ２６を経由した自己側話者音声の音声信号成分は、加算器２５からスピーカ３に対して出力されることになる。これにより、マイクロフォン２により収音された自己側話者音声が、同じ場所内のスピーカ３から音として放出されることになる。即ち、自己拡声音出力機能が実現される。

図５は、上記図４に示した構成の音声信号処理部１１が、その動作中において実行するものとされる処理手順例を示している。
この図に示す処理は、音声信号処理部１１がＤＳＰにより構成されるものである場合には、このＤＳＰに与えるインストラクションなどといわれるプログラムにより実現される。また、この図に示す処理を最初に実行開始するのにあたっては、適応フィルタシステム２０の適応処理についても実行状態で開始されるものとする。確認のために述べておくと、適応フィルタシステム２０が適応処理を実行している状態では、そのときに加算器２５から出力されてくる信号X(k)を参照信号として入力するとともに、減算器２２に入力されてくるマイクロフォン２からの収音音声信号M(k)を所望信号として、減算器２２の出力である誤差信号(Y(k))が最小となるようにして、適応フィルタ２１内部のＦＩＲフィルタの係数ベクトルを可変していく。

先ず、ステップＳ１０１においては、減算器２２からの出力である誤差信号(音声信号)Y(k)のレベル(値)が、デコーダ１４から加算器２５に入力される音声信号X(d)のレベル(値)に対して、一定率以下（Y(k)≦Xd(k)*m(mは1未満の正による所定数)）であるか否かについて判別するようにしている。
ここで、上記の音声信号Y(k)のレベルが音声信号X(d)に対して一定率以下となる状態とは、デコーダ１４からは、有効とみなされる一定レベル以上の相手側話者音声の音声信号が入力されている一方で、マイクロフォン２においては、有効とされる一定以上のレベルの自己側話者音声は収音されていないという状態（相手側シングルトーク状態(第１の音声状態)という）に対応する。
つまり、デコーダ１４から有効とみなされる一定レベル以上の相手側話者音声の音声信号が入力されていれば、この音声信号である音声信号Xd(k)は、一定以上の大きなレベル(振幅)値を有していることになる。一方、音声信号Y(k)については、適応フィルタシステム２０が、相手側話者音声のエコー音をキャンセルする状態で収束していることを前提にすると、このときにスピーカ３から空間伝搬経路Ｅを経由してマイクロフォン２に到達してくる相手側話者音声のエコー音が適正にキャンセルされることになるから、非常に小さいレベルの状態となるのである。

一方、上記「相手側シングルトークの状態」以外の状態(トーク状態)としては、
ａ．デコーダ１４から有効とみなされる相手側話者音声の音声信号は出力されていないが、有効とみなされる一定レベル以上の自己側話者音声がマイクロフォン２にて収音されている状態（自己側シングルトーク状態（第２の音声状態）という）
ｂ．デコーダ１４から有効とみなされる相手側話者音声の音声信号が出力されているとともに、有効とみなされる一定レベル以上の自己側話者音声もマイクロフォン２にて収音されている状態（ダブルトーク状態（第２の音声状態）という）
ｃ．デコーダ１４から有効とみなされる相手側話者音声の音声信号が出力されていないとともに、有効とみなされる一定レベル以上の自己側話者音声もマイクロフォン２にて収音されていない状態（非トーク状態という）
の３状態があることになる。これらの状態では、音声信号Y(k)のレベルは、音声信号Xd(k)のレベルに対して上記の一定率を超えることになる。
つまり、先ず、自己側シングルトーク状態では、マイクロフォン２により収音された自己側話者音声の信号が適応フィルタシステム２０によりキャンセルされることなく通過することになるので、音声信号Y(k)は、この自己側話者音声に対応した相応に大きなレベルとなる。これに対して音声信号Xd(k)は、デコーダ１４からの有効とみなされる音声信号の出力が無いのであるから、非常に小さいレベルとなる。従って、誤差信号Y(k)のほうが信号Xd(k)よりも大きくなって、上記の一定率を超えることとなる。
また、ダブルトーク状態では、或る程度の差はあるものの、マイクロフォン２にて収音して得られる自己側話者音声の信号と、デコーダ１４からの相手側話者音声の信号の何れも、有効とみなされる一定以上のレベルとなるので、音声信号Y(k)と音声信号Xd(k)のレベル差は相手側シングルトーク状態のときよりも小さくなり、従って上記の一定率を超えることとなる。
また、非トーク状態では、マイクロフォン２にて収音して得られる自己側話者音声の信号と、デコーダ１４からの相手側話者音声の信号の何れも、有効とみなされる一定以上のレベルが得られないことになるが、この場合にも、音声信号Y(k)と音声信号Xd(k)のレベル差は相手側シングルトーク状態のときよりも小さくなり、従って上記の一定率を超えることとなる。

上記の相手側シングルトーク状態が発生していることで、ステップＳ１０１において肯定の判別結果が得られた場合には、ステップＳ１０２に進む。
ステップＳ１０２においては、自己拡声音用サプレッサ２６について、一定以上の減衰率を設定することで、自己拡声音用サプレッサ２６において入力信号を遮断して出力させないのと等価の状態とする。

ステップＳ１０２に続くステップＳ１０３においては、適応フィルタシステム２０が充分に収束したとされる状態にあるか否かについての判別を行う。例えば、適応フィルタ２１のＦＩＲフィルタにおける係数ベクトルについて、充分に収束したものとしてみなされる所定の状態に至ったとされると、ここで肯定の判別結果が得られることになる。あるいは、例えば適応フィルタ２１が、自身の収束の状態について、例えば収束度などとしての評価値として出力することが可能なように構成した上で、この評価値を参照するようにしても、ステップＳ１０３の判別処理を実現できる。

上記ステップＳ１０３において、先ず、適応フィルタシステム２０が収束していないとして否定の判別結果が得られた場合には、ステップＳ１０４に進んで、適応フィルタシステム２０については、その適応処理を実行させる（活性傾向の状態とする）ように制御する。例えば、このステップＳ１０４に至る時点まで、適応フィルタシステム２０としての適応処理が実行されていたのであれば、ステップＳ１０４では、これまでの適応処理を継続させる。これに対して、適応フィルタシステム２０としての適応処理が停止されていた状態にあったのであれば、ステップＳ１０４により適応処理の実行を開始させることになる。
確認のために述べておくと、ステップＳ１０２において自己拡声音用サプレッサ２６は信号遮断状態が設定されていることから、このステップＳ１０４により実行される適応処理としては、先にも述べたように、適正、良好なものが得られる。

これに対して、ステップＳ１０３において適応フィルタシステム２０が収束しているとして肯定の判別結果が得られた場合には、ステップＳ１０５に進み、適応フィルタシステム２０による適応処理の実行を停止させる（停止傾向の状態とする）。この場合にも、ステップＳ１０５に至るまでの時点において、適応フィルタシステム２０の適応処理が実行されていたのであれば、ステップＳ１０５では、この適応処理が停止される状態に変更することになる。また、適応処理が停止されていたのであれば、この状態を継続させることになる。
ここで、例えば上記ステップＳ１０５により、適応処理が実行されていた状態から停止状態に変更された場合、適応フィルタシステム２０の適応フィルタ２１におけるＦＩＲフィルタの係数ベクトルは、停止直前の設定状態が固定して維持されることになる。即ち、適応フィルタシステム２０に入力される音声信号M(k)は、このようにして係数ベクトルが固定された状態で減算器２２にて適応フィルタ２１の出力信号（キャンセル用信号）Ep(k)と減算され、音声信号Y(k)として出力されることになる。
なお、相手側シングルトーク状態の場合には、適応フィルタシステムが収束している状態にあって適応処理を継続させたとしても、特に問題になることはない。しかし、ステップＳ１０５のようにして適応処理を停止させれば、例えばその間は、適応処理に必要とされる演算を実行しなくともよくなるので、処理負担やリソースの軽減を図ることができる。
上記ステップＳ１０４、Ｓ１０５の手順を実行したとされると、例えばステップＳ１０１に戻る。

ステップＳ１０１にて否定の判別結果が得られた場合、即ち、自己側シングルトーク状態、ダブルトーク状態、及び非トーク状態のうちの何れかの状態の場合には、ステップＳ１０６に進む。
ステップＳ１０６においては、先のステップＳ１０３と同様にして、適応フィルタシステム２０が収束しているか否かについての判別を行う。ただし、どの程度の収束度である場合に適応フィルタシステム２０が収束している状態であるとして判別するのかについては、相手側シングルトーク状態と、これ以外のトーク状態であることに対応させて、ステップＳ１０３とステップＳ１０６とでそれぞれ異なる条件が設定されてもよい。さらには、ステップＳ１０６の実際としては、自己側シングルトーク状態、ダブルトーク状態、非トーク状態のそれぞれに適合させた収束度の条件を設定したうえで、判別処理を行うようにされてもよい。

ステップＳ１０６において肯定の判別結果が得られた場合には、ステップＳ１０７に進み、自己拡声音用サプレッサ２６について一定以下の所定の減衰率を設定することで、自己拡声音用サプレッサ２６において入力信号を通過させるのと等価の状態とする。これに対して、ステップＳ１０６において肯定の判別結果が得られた場合には、ステップＳ１０８により、一定以上に対応した所定の減衰率（ステップＳ１０２と同じ減衰率でなくともよい）を設定することで、自己拡声音用サプレッサ２６において入力信号を遮断して出力させないのと等価の状態とする。

ステップＳ１０７、Ｓ１０８の手順を実行した後は、ステップＳ１０９により、先のステップＳ１０５と同様にして、適応フィルタシステム２０の適応処理を停止させ、ステップＳ１０１に戻る。確認のために述べておくと、このステップＳ１０９により、これまで実行されていた適応処理を停止させることとなった場合には、ステップＳ１０５の場合と同様に、適応フィルタシステム２０の適応フィルタ２１におけるＦＩＲフィルタの係数ベクトルは、停止直前の設定状態が固定して維持されることとなる。

これまでに説明した図５の処理によっては、近端側の音声通信端末装置１の通話状態（トーク状態）に応じて、適応フィルタシステム２０の適応処理の動作実行と自己拡声音用サプレッサ２６について、次のようにして制御することになる。
先ず、相手側シングルトーク状態では、ステップＳ１０２からステップＳ１０３を経て、ステップＳ１０４又はステップＳ１０５の何れかの処理を行うことになる。これにより、先ず、自己拡声音用サプレッサ２６については、ステップＳ１０２により信号を遮断して出力させない状態が設定される。

上記のようにして、相手側シングルトーク状態に対応させて自己拡声音用サプレッサ２６について信号遮断状態を設定するのは、次のような理由による。
先ずは、相手側シングルトーク状態では、有効とみなされる自己側話者音声は収音されている状態にはない、即ち、自己拡声が必要な音声信号は得られていない。従って、自己拡声音用サプレッサ２６について信号遮断状態を設定したとしても何ら問題はない。なお、このようにして自己拡声音用サプレッサ２６を信号遮断状態としたときの音声信号処理部１１は、通常の自己拡声音出力機能を有さないエコーキャンセルシステムと等価の回路構成を形成しているといえる。
また、自己拡声音用サプレッサ２６が信号通過状態のままであると、相手側シングルトーク状態において、実際の適応フィルタシステム２０が充分に収束していない状態のときには、音声信号Y(k)に含まれるエコー音の残留成分が、自己拡声音出力のための系（自己拡声音用サプレッサ２６、合成器２５）を経由して適応フィルタ２１、及びスピーカ３に対して再び入力されることになる。適応フィルタシステム２０にとっての参照信号は、デコーダ１４からの音声信号のみとされるべきであって、上記のようにして再入力される音声信号成分は、参照信号に含まれるべき成分ではない。このために、自己拡声音用サプレッサ２６経由の音声信号が参照信号として適応フィルタシステム２０に入力されると、適応フィルタシステム２０の適正な適応処理が阻害される可能性が出てくる。また、現実においては適応フィルタシステム２０が充分に収束している状態であっても、或る程度のエコー音の残留成分が誤差信号Ｙ(k)に現れる可能性もある。
そこで、ステップＳ１０２により自己拡声音用サプレッサ２６について信号遮断状態を設定することで、正常で良好な適応フィルタシステム２０の適応処理を確保するものである。

なお、相手側シングルトーク状態において、ら、例えば一時的に自己話者音声がマイクロフォン２により収音されてダブルトーク状態に遷移するような状況もあると考えられる。しかし、相手側シングルトーク状態においては、会議参加者は、デコーダ１４から出力される相手側話者音声を主体として聴くことになるので、そのときに例えば一時的に同じ場所内において或る会議参加者が声を発したとしても、これがスピーカから聴こえないことについて、会議参加者は違和感を持たない。従って、上記のような状態遷移が生じたとしても、自己拡声音用サプレッサ２６について信号遮断状態を設定しておくことについては、特に問題を生じない。

また、送信音用サプレッサ２３は、先にも述べたように、適応フィルタシステム２０の収束時に出力される音声信号Y(k)におけるエコー音の残留成分を抑制することなどに使用されるもので、この点で、送信音用サプレッサ２３における減衰率の調整は相応に微妙で、制御も或る程度高度なものとなる。例えば極端な減衰率を設定すると、相手方の音声通信端末装置側にて聴こえる音声が不自然なものとなる可能性が高くなる。これに対して、相手側シングルトーク状態時においては、自己拡声音用サプレッサ２６について、信号出力遮断のために、例えば１００％、若しくはこれに近い強い減衰率を設定したとしても、先に述べたようにして何ら支障はない。

また、同じ相手側シングルトーク状態において、ステップＳ１０３の判別結果として、適応フィルタシステム２０が収束していない状態にあるときには、適応フィルタシステム２０が適応処理を実行する状態として（ステップＳ１０３、Ｓ１０４）、収束している状態にあるときには、適応フィルタシステム２０の適応処理が停止される状態となるようにしている（ステップＳ１０３、Ｓ１０５）
先ず、相手側シングルトーク状態は、本来キャンセルすべき相手側話者音声として有効な音声信号成分が近端側に入力されている状態である。このことは、適応フィルタシステム２０が収束していない状態なのであれば、相手側話者音声のエコー音がキャンセルされる状態で収束するようにして適応フィルタシステム２０について積極的に適応処理を実行させるべきときであるということがいえる。
そこで、適応フィルタシステム２０が収束していない状態のときには、その適応処理を実行させることとしている。そして、本実施の形態においては、先にも述べたように、ステップＳ１０４の処理によって、自己拡声音用サプレッサ２６が信号遮断状態とされることで、適応フィルタシステム２０に対する参照信号（X(k)）は、デコーダ１４からの音声信号Xd(k)の成分のみとなる。このために、ステップＳ１０４に対応して実行される適応処理は、本来のキャンセル対象音をキャンセルするための適正な動作となるものである。

また、上記図５の処理によれは、ステップＳ１０１にて否定の判別結果が得られた場合に対応する、自己側シングルトーク状態、ダブルトーク状態、若しくは非トーク状態にあっては、自己拡声音用サプレッサ２６について、適応フィルタシステム２０が収束している状態に対応しては信号通過状態を設定し(Ｓ１０６、Ｓ１０７)、収束していない状態に対応しては信号遮断状態を設定する（Ｓ１０６、Ｓ１０８）ことになる。また、適応フィルタシステム２０については、一律に適応処理を停止させた状態とする（Ｓ１０９）ことになる。かかる音声信号処理部１１の状態を設定する理由について、上記の３状態ごとに対応させて説明する。

先ず、ダブルトーク状態、及び自己側シングルトーク状態との対応を考えてみる。ダブルトーク状態は、有効とみなされる相手側話者音声が信号Xd(k)として得られているともに、有効とされる自己側話者音声が音声信号(所望信号)M(k)として得られている状態である。一方、自己側シングルトーク状態は、有効とされる自己側話者音声が音声信号(所望信号)M(k)として得られてはいるが、有効とみなされる相手側話者音声は信号Xd(k)として得られていない状態であり、自己側話者音声の音声信号が得られているという点で、上記のダブルトーク状態と共通している。

このようにして、少なくとも自己側話者音声の音声信号が得られている状態では、自己音声拡声機能を有している以上、この自己側話者音声の音声信号についてはできるだけスピーカ３から再生出力(自己拡声)させるべきであることになる。このことからすれば、自己拡声音用サプレッサ２６については信号通過状態を設定すればよいことになる。
しかし、適応フィルタシステム２０は、本来は、参照信号Xd(k)として、デコーダ１４からの相手側話者音声に対応する音声信号成分のみを入力し、かつ、所望信号M(k)としても、スピーカ３から空間伝経路E(k)を経由してマイクロフォン２に到達してきた音声の音声信号成分のみを入力することにより、相手側話者音声のエコー音をキャンセルするようにして収束することができるものである。
仮に、適応フィルタシステム２０が収束していない状態にあって、自己拡声音用サプレッサ２６を信号通過状態にしてしまうと、ダブルトーク状態では、適応フィルタシステム２０の参照信号Ｘ(k)には、相当量の自己拡声音用サプレッサ２６から出力された信号Ys(k)、つまり自己側話者音声の音声信号成分が含まれることになる（自己側シングルトーク状態においては、自己側話者音声の音声信号成分が支配的になる）。また、所望信号M(k)には、マイクロフォン２に向かって発話して得られた自己側話者音声の成分も相当量が含まれることになる（自己側シングルトーク状態においては、自己側話者音声の音声信号成分が支配的になる）。この状態で適応フィルタシステム２０の適応処理を実行させたとすると、適応フィルタシステム２０の本来の目的である、相手側話者音声のエコー音をキャンセルできる状態に収束していくことができず、かえって、収束からは遠い係数ベクトルが設定されていってしまうようなことにもなる。すると、このダブルトーク状態において、相手側話者音声のエコー音は多く残留することになって、スピーカ３から聴こえる音は非常に聞き苦しいものとなってしまう。また、以降において、例えば相手側シングルトーク状態に遷移したときなどに収束に至るまでの時間もそれだけ長くなってしまう。

このことに基づいて、ダブルトーク状態若しくは自己側シングルトーク状態にあって、先ず、適応フィルタシステム２０が収束しているときには、自己拡声音用サプレッサ２６を信号通過状態としたうえで、適応フィルタシステム２０については適応処理が停止されるようにしている。
これにより、先ず、マイクロフォン２により収音される自己側話者音声の音声信号は、適応フィルタシステム２０から自己拡声音用サプレッサ２６を通過し、さらに加算器２５を経由してスピーカ３から音として出力されることになる。つまり、自己拡声音として出力される。ただし、このときに適応フィルタシステム２０の適応処理は、これまでの収束した状態（係数ベクトル）が固定された状態で停止している。このために、適応フィルタシステム２０が自己側話者音声の音声信号が支配的な参照信号Xd(k)を入力して収束状態から離れていくような変化を生じることはない。
また、このときには、スピーカ３からマイクロフォン２に対して空間伝搬経路Ｅを経由して伝達する伝達音E(k)には、自己側話者音声の成分が相応に含まれる、あるいは支配的となっており、これがエコー音として生じることになる。しかし、この自己側話者音声のエコー音も、空間伝搬経路Ｅを経由してスピーカ３からマイクロフォン２に伝達される。従って、適応フィルタシステム２０が収束状態で固定されていることで、相手側話者音声のエコー音とともに、自己側話者音声のエコー音も適正にキャンセルされることになる。

また、適応フィルタシステム２０が収束していないときには、自己拡声音用サプレッサ２６について信号遮断状態を設定することとなる。仮に自己側話者音声をスピーカ３から出力させたとすると、適応フィルタシステム２０は収束していないので、この自己側話者音声についてのエコー音が多く残留して、非常に聴きにくいものとなってしまい、ハウリングが生じる可能性もそれだけ高くなる。そこで、この場合にはエコー音やハウリングをできるだけ抑制、キャンセルすべきことを優先することとして、自己側話者音声をスピーカ３から出力させないようにしているものである。なお、ダブルトーク状態においては、収束度合いに応じて残留する相手側話者音声のエコー音が聴こえることになるが、これに自己側話者音声のエコー音も加わる状況と比較すれば、よりエコー音が抑制された状態が得られていることになるものである。
また、このときには適応フィルタシステム２０の適応処理が停止されるが、これによっては、所望信号M(k)として自己側話者音声の成分が含まれる（あるいは支配的である）のにもかかわらず、適応フィルタシステム２０がこれ以上収束から離れていく方向に変化していくことはなくなる。

また、非トーク状態は、相手側話者音声、自己側話者音声の音声信号が何れも得られていない状態であり、従って、相手側話者音声の音声信号からなる有効な参照信号X(d)と、相手側話者音声のエコー音の音声信号からなる有効な所望信号M(k)は、何れも得られていない状態であることになる。この場合には、適応フィルタシステム２０により適応処理を実行させたとしても収束していく動作が得られない。従って、適応フィルタシステム２０の適応処理が停止されることで、やはり、適応フィルタシステム２０が、より収束から離れた状態に遷移していってしまうことが防がれ、例えば相手側シングルトーク状態に遷移したときには、可能な範囲で収束に最も近いとされる状態から適応処理を開始させることができる。
そのうえで、適応フィルタシステム２０が収束している状態のときには自己拡声音用サプレッサ２６について信号通過状態を設定しておくことで、例えば、非トーク状態から、自己側シングルトーク状態若しくはダブルトーク状態などの自己側話者音声の音声信号が信号M(k)として得られる状態に遷移したときには、例えばその冒頭部分が途切れるようなことなく、迅速に、自己側話者音声をスピーカ３から出力させることが可能になる。
また、適応フィルタシステム２０が収束していない状態に対応して自己拡声音用サプレッサ２６を信号停止状態にしておけば、やはり、非トーク状態から、自己側シングルトーク状態若しくはダブルトーク状態（自己側話者音声の音声信号が信号M(k)として得られる状態）に遷移したときには、既に、先に説明した自己側シングルトーク状態及びダブルトーク状態時において、適応フィルタシステム２０が収束していないときに対応した音声信号処理部１１の状態が得られていることになるものである。

このようにして本実施の形態による音声信号処理装置１１としての構成を採ることで、適応フィルタシステム２０が収束した状態に至ってさえいれば、相手側シングルトーク状態時だけではなく、ダブルトーク状態時においても、相手側話者音声のエコー音をキャンセル可能となる。さらに、ダブルトーク状態時においては、自己側話者音声のエコー音もキャンセルされるようになっている。また、自己側シングルトーク状態においても、自己側話者音声のエコー音がキャンセルされる。即ち、相手側話者音声のエコー音と自己側話者音声のエコー音の双方を適正にキャンセルすることが可能とされている。
また、この場合には、例えば特許文献１などのようにして、周波数分割部であるとかゲイン調整器などを用いるのではなく、相手側話者音声のエコー音と自己側話者音声のエコー音の何れについても、適応フィルタによるエコーキャンセルが行われるようにされていることから、例えばエコーキャンセル処理後の音声は、不自然な音量変化であるとか、周波数帯域の一部欠落による不自然な音質変化などを生じることがなく、高品位なものが得られる。また、適応フィルタは一般にデジタル信号処理により実現するので、デジタル信号処理による高音質化も図られる。このようにして、本実施の形態によるエコーキャンセル機能は、相手側話者音声のエコー音と自己側話者音声のエコー音の双方に対応するものとして高い性能を得ている。
さらに、本実施の形態の構成では、本来的には、相手側話者音声のエコー音をキャンセルするための適応フィルタを、自己側話者音声のエコー音のキャンセルにも用いるようにされている。つまり、自己側話者音声のエコー音キャンセルのために、新たに適応フィルタを設ける構成としていないものであり、その分の演算量、リソースの低減が図られることにもなる。

図６は、実施の形態の変形例としての音声通信端末装置１の構成例を示している。この図には、図４と同様にして、音声信号処理部１１の内部構成例が示されている。
先ず、この図においては、２つのマイクロフォン２Ａ、２Ｂが音声通信端末装置１と接続されている。つまり、システム構成としては、１つの音声通信端末装置１に対して、２つのマイクロフォン２が備えられるものとなる。これは、実際においては、１つの会議場としての場所に２つのマイクロフォンが備えられることを意味するが、これによって、会議参加者は、発言の際に、マイクロフォン２Ａ，２Ｂのうちで近くに置かれている方を使用できることになり、例えばマイクロフォンを持ち回ることが少なくなって、それだけ会議は円滑に進むことになる。このようにして複数のマイクロフォンを備えることは、会議場が広くなるほど有効になってくる。

そして、図４に示される音声信号処理部１１は、２本のマイクロフォン２Ａ、２Ｂの接続に対応したエコーキャンセル機能と自己拡声音出力機能とが与えられるようにして構成されている。このために、適応フィルタシステム２０Ａ・２０Ｂ、送信音用サプレッサ２３Ａ・２３Ｂ、自己拡声音用サプレッサ２６Ａ・２６Ｂ、加算器２５Ａ、２５Ｂ、２７Ａ、２７Ｂ、２８を備える。
ここで、図６におけるマイクロフォン２Ａが図４に示されるマイクロフォン２に対応するものとすると、上記した部位のうち、適応フィルタシステム２０Ａ、自己拡声音用サプレッサ２６Ａ、送信音用サプレッサ２３Ａ、加算器２５Ａが、それぞれ、図４における適応フィルタシステム２０、自己拡声音用サプレッサ２６、送信音用サプレッサ２３、加算器２５に相当する。そのうえで、図６に示される構成では、マイクロフォン２Ｂが追加されたことに応じて、適応フィルタシステム２０Ｂ、自己拡声音用サプレッサ２６Ｂ、送信音用サプレッサ２３Ｂ、加算器２５Ｂ、２７Ａ、２７Ｂ、２８をさらに設けている。

先ず、適応フィルタシステム２０Ｂにはマイクロフォン２Ｂの収音音声信号を入力させたうえで、自己拡声音用サプレッサ２６Ｂ、送信音用サプレッサ２３Ｂ、加算器２５Ｂとともに、適応フィルタシステム２０Ａ、自己拡声音用サプレッサ２６Ａ、送信音用サプレッサ２３Ａ、加算器２５Ａと同様の接続態様により接続することとしている。

また、この場合においては、送信音用サプレッサ２３Ａ、２３Ｂの各出力を、加算器２８により合成したうえで、相手方の音声通信端末装置に対する送信信号としてエンコーダ１３に対して入力させることとしている。

また、この場合においてデコーダ１４から出力される音声信号は、分岐して加算器２７Ａ、２７Ｂに対して入力されるようになっている。加算器２７Ａでは、デコーダ１４からの音声信号と、自己拡声音用サプレッサ２６Ｂからの音声信号とを合成して加算器２５Ａに入力させることとしている。加算器２５Ａは、加算器２７Ａからの音声信号と、自己拡声音用サプレッサ２６Ａからの音声信号とを合成し、この音声信号を、適応フィルタシステム２０Ａの参照信号として出力すると共に、分岐してスピーカ３に対して出力する。

また、加算器２７Ｂでは、デコーダ１４からの音声信号と、自己拡声音用サプレッサ２６Ａからの音声信号とを合成して加算器２５Ｂに出力する。加算器２５Ｂでは、加算器２７Ｂからの音声信号と、自己拡声音用サプレッサ２６Ｂからの音声信号とを合成して適応フィルタシステム２０Ｂの参照信号として出力するようにされている。

この構成では、先ず、マイクロフォン２Ａにより得られる収音音声信号は、適応フィルタシステム２０Ａ、送信音用サプレッサ２３Ａ、合成器２８を介してデコーダ１４に入力され、同じく、マイクロフォン２Ｂにより得られる収音音声信号は、適応フィルタシステム２０Ｂ、送信音用サプレッサ２３Ｂ、合成器２８を介してデコーダ１４に入力される。この信号系により、例えばマイクロフォン２Ａにより有効なレベルで収音されたとする自己側話者音声と、マイクロフォン２Ｂにより有効なレベルで収音されたとする自己側話者音声は、何れも、相手側の音声通信端末装置に対して送信することが可能となっている。

また、図６に示される構成では、スピーカ３からは、デコーダ１４からの音声信号を基とする相手側話者音声と、マイクロフォン２Ａにより収音される自己側話者音声(第１の自己側話者音声)と、マイクロフォン２Ｂにより収音される自己側話者音声(第２の自己側話者音声)とが放出されることになる。そして、空間伝搬経路Ｅ１を経由しては、スピーカ３からマイクロフォン２Ａに対して、相手側話者音声、第１の自己側話者音声、第２の自己側話者音声の各エコー音の成分が到達してくることになる。同様にして、スピーカ３からマイクロフォン２Ｂに対しても、空間伝搬経路Ｅ２を経由して、相手側話者音声、第１の自己側話者音声、第２の自己側話者音声の各エコー音の成分が到達してくることになる。すると、この変形例においては、上記の空間伝搬経路Ｅ１、Ｅ２を経由して、マイクロフォン２Ａ、２Ｂにて収音される上記各エコー音成分をキャンセルする必要があることになる。

上記の必要性に対応して、先ず、適応フィルタシステム２０Ａに対する参照信号、即ち加算器２５Ａの出力は、デコーダ１４からの相手側話者音声の音声信号と、自己拡声音用サプレッサ２６Ａを介して得られるマイクロフォン２Ａにより得られた収音音声信号と、自己拡声音用サプレッサ２６Ｂを介して得られるマイクロフォン２Ｂにより得られた収音音声信号とを合成したものとなるようにされている。適応フィルタシステム２０Ａは、この参照信号を入力するとともに、マイクロフォン２Ａから入力される信号を所望信号として適応処理を実行する。同様にして、適応フィルタシステム２０Ｂに対する参照信号、即ち加算器２５Ｂの出力は、デコーダ１４からの音声信号と、自己拡声音用サプレッサ２６Ｂを介して得られるマイクロフォン２Ｂにより得られた収音音声信号と、自己拡声音用サプレッサ２６Ａを介して得られるマイクロフォン２Ａにより得られた収音音声信号とを合成したものとなるようにされている。適応フィルタシステム２０Ｂは、この参照信号を入力するとともに、マイクロフォン２Ｂから入力される信号を所望信号として適応処理を実行する。

そのうえで、この変形例にあっては、マイクロフォン２Ａに対応する［適応フィルタシステム２０Ａ、自己拡声音用サプレッサ２６Ａ］の組と、マイクロフォン２Ｂに対応する［適応フィルタシステム２０Ａ、自己拡声音用サプレッサ２６Ａ］の組は、それぞれ、独立して、図５に示した手順を実行するようにされる。

このような構成を採ることにより、先ず、適応フィルタシステム２０Ａ（減算器２２）の出力としては、マイクロフォン２Ａにより収音して得られる収音音声信号から下記の音に対応する音声信号成分が適正にキャンセルされた信号が得られる。つまり、相手側話者音声のエコー音、マイクロフォン２Ａにより有効に収音されて帰還してきた自己側話者音声のエコー音、さらにマイクロフォン２Ｂにより有効に収音されてスピーカ３からマイクロフォン２Ａに到達してきた自己側話者音声がキャンセルされる。
また、適応フィルタシステム２０Ｂ（減算器２２）の出力としては、マイクロフォン２Ｂにより収音して得られる収音音声信号から下記の音に対応する音声信号成分が適正にキャンセルされた信号が得られる。つまり、相手側話者音声のエコー音、マイクロフォン２Ｂにより有効に収音されて帰還してきた自己側話者音声のエコー音、さらにマイクロフォン２Ａにより収音されてスピーカ３からマイクロフォン２Ｂに到達してきた自己側話者音声がキャンセルされる。

また、確認のために述べておくと、マイクロフォン２Ａ、２Ｂのうち、一方のマイクロフォンにおいてのみ有効なレベルの自己側話者音声が収音され、他方のマイクロフォンには有効なレベルの自己側話者音声が収音されていない状況では、図５の手順は、次のようになる。
ここでは、自己側話者音声の入力のために、マイクロフォン２Ａのほうが使用されており、マイクロフォン２Ｂのほうは使用されていない状況を想定する。
この状況では、マイクロフォン２Ａにより収音される音には、第１の自己側話者音声が有効なレベルで得られることになる。これは、［適応フィルタシステム２０Ａ、自己拡声音用サプレッサ２６Ａ］の組側から見れば、自己側シングルトーク状態、若しくはダブルトーク状態が発せ居ていることになる。このため、音声信号Y1(k)と音声信号Xd(k)のレベルの比は一定範囲内に収まることになり、［適応フィルタシステム２０Ａ、自己拡声音用サプレッサ２６Ａ］の組側による図５のステップＳ１０１によっては否定の判別結果が得られることになる。このため、自己拡声音用サプレッサ２６Ａは適応フィルタシステム２０が収束していれば信号通過状態とし、収束していなければ信号遮断状態とすることになる。また、適応フィルタシステム２０Ａは適応処理を停止する。
一方、マイクロフォン２Ａ、２Ｂの距離は相応に離れているとすると、マイクロフォン２Ａに向かって話している第１の自己側話者音声の成分は、マイクロフォン２Ｂでは収音されないことになる。つまり、会議場内では、自己側シングルトーク状態、若しくはダブルトーク状態に相当した状況となっているであるとしても、マイクロフォン２Ｂ側の系からみた場合には、実質、非トーク状態（相手側話者音声の音声信号が得られていない場合）、若しくは相手側シングルトーク状態（相手側話者音声の音声信号が得られている場合）であることになる。適正な適応フィルタシステム２０の動作、及び自己拡声音出力のための動作が得られるようにすることを求めれば、このような場合には、マイクロフォン２Ｂ側の系に関しては、非トーク状態若しくは相手側シングルトーク状態に対応させた適応フィルタシステム２０Ｂ及び自己拡声音用サプレッサ２６Ｂの動作とすることが好ましい。本実施の形態では、先の図５の手順を適用すれば、実質的な非トーク状態若しくは相手側シングルトーク状態であることが的確に判断されることになる。

つまり、マイクロフォン２Ｂ側の系に対応した［適応フィルタシステム２０Ｂ、自己拡声音用サプレッサ２６Ｂ］の組が、上記の状態の下で図５の手順におけるステップＳ１０１を実行したとされると、上記の実質的な非トーク状態のときに対応しては、現実に音声信号Y1(k)と音声信号Xd(k)のレベル差は小さいものとなるので、適正に否定の判別結果が得られ、ステップＳ１０６以降の手順を実行することになる。つまり、実際に、非トーク状態に対応する適応フィルタシステム２０と自己拡声音用サプレッサ２６の設定状態を得ることができる。また、実質的な相手側シングルトーク状態のときに対応しては、現実に音声信号Y1(k)に対して音声信号Xd(k)のレベルが相当に大きなものとなるので、肯定の判別結果が得られてステップＳ１０２以降の手順を実行することになり、実際に、相手側シングルトーク状態に対応する適応フィルタシステム２０と自己拡声音用サプレッサ２６の設定状態を得ることができる。

ところで、音声信号処理部１１が実行するものとされる図５の処理におけるステップＳ１０２、Ｓ１０７、Ｓ１０８では、自己拡声音用サプレッサ２６について、信号遮断状態と信号通過状態の２状態に対応した減衰率を設定するものとして説明しているが、実際においては、この減衰率（若しくはこれに準ずる制御値）について、連続的な値の変更制御が行われるようにしてもよい。
例えば、自己拡声音用サプレッサ２６における信号通過の度合いを示す制御値λを定義する。この制御値λは、信号が完全に通過する状態ではλ＝１となり、完全に遮断される状態ではλ＝０となるものであるとする。
そのうえで、実際において、自己拡声音用サプレッサ２６についての減衰率を設定するのにあたっては、例えば、λ＝(max(1,Y/Xd)*ｗ（max(1,Y/Xd)は、1と音声信号Yのレベルと音声信号Xdのレベルとで大きい方の値を選択することを意味し、係数ｗは適応フィルタシステムの収束度を示す）により表されるような演算を行うこととして、このようにして得られる制御値に応じて、より柔軟に自己拡声音用サプレッサ２６の減衰率を設定できるようにするものである。
また、同様にして、適応フィルタシステムについても、図５のステップＳ１０４、Ｓ１０５、Ｓ１０９では、適応処理について実行、停止の何れかの状態とする２値的な制御としているが、これについても、連続的な制御が行えるようにすることができる。つまり、適応処理について、これを活性化させる傾向の状態（活性傾向の状態）と、停止若しくは停止に近くなっていく傾向の状態(停止傾向の状態)との間で連続的に遷移させるようにすることができる。
このためには、例えば、適応フィルタシステムのパラメータの１つであり、ＦＩＲフィルタの係数更新量を設定するためのステップサイズパラメータμについて、μ＝(1-λ)*( max(1,Y/Xd))により表されるような演算を行うこととして、適応フィルタシステム２０の適応処理の応答速度を変更するような構成とすることができる。
このような連続的制御を行うこととすれば、例えば、先に述べた相手側シングルトーク状態、自己側シングルトーク状態、ダブルトーク状態、及び非トーク状態の間での中間的な状態にもより適合した信号処理の動作を得ることができる。例えば、ダブルトーク状態であっても、自己側話者音声が小さく、相手側シングルトーク状態に近いとされるトーク状態では、適応フィルタシステム２０が収束していなければ、自己拡声音用サプレッサ２６の減衰率を或る程度高めにして、自己拡声音が抑えられるようにすると共に、適応処理を或る程度活性化させて収束方向に向かわせることが可能になる。

また、図４、図６などに示した適応フィルタシステムに採用する適応アルゴリズムとしては、これまでに知られているもののほか、現在以降において提案される将来技術のうちから、適切とされるものを選択すればよい。また、図４、図６に示した適応フィルタシステムは、説明を分かりやすいものとすることの都合上、最も基本的な構成を示しており、実際にあっては、より発展、改善された構成が採られてもよいものである。
また、これまでの実施の形態の説明にあっては、説明を分かりやすいものとすることの都合上、音声信号処理部１１は、可聴帯域の全域に対応して音声信号処理を実行する構成を例に挙げているが、実際においては、例えばマイクロフォン２により収音して得られる収音音声信号と、デコーダ１４により受信した音声信号とについて、所定の周波数帯域毎に分割して、この分割された周波数帯域ごとに、図４或いは図５に示したような構成を割り当てる、いわゆるフィルタバンク的な構成を採ることとしてもよい。

また、これまでの実施の形態においては、エコーキャンセラとしての音声信号処理部１１は、デジタル信号処理を実行するものとして説明したが、例えば同様のエコーキャンセル動作の少なくとも一部をアナログ回路により構成することとした場合にも本願発明は適用可能とされる。
また、これまでの実施の形態の説明では、テレビ会議システムにおいて２つの音声通信端末装置１−１、１−２が一対一の関係で通信をする場合を前提としているが、これは、説明を簡単なものとすることを配慮して、テレビ会議システムとして最もシンプルな形態を例に挙げたためである。従って、実際においては、３以上の音声通信端末装置によりテレビ会議システムを構築して、一対多の通信を行うようにすることも考えられるが、このようなシステム構成においても、本願発明に基づいた構成は、個々の音声通信端末装置に対して適用可能である。
また、音声通信端末装置１における送信用音声信号、及び再生用音声信号の処理は、主にデジタル信号処理によるものとしているが、デジタル信号処理を施すときの送信用音声信号及び再生用音声信号の形式については特に限定されるべきものではない。例えば、再生用音声信号を出力させる場合には、ΔΣ変調されたビットストリーム形式の音声信号をD級増幅によって再生するような構成とすることも場合によっては考えられる。
また、実施の形態としてはテレビ会議システムにおいて音声送受信のために設けられる音声通信端末装置を例に挙げているが、これ以外にも、例えば、音声会議システムであるとか、電話装置におけるハンズフリー通話機能などをはじめとして、いわゆる拡声通話系システムとして捉えることのできる装置全般に適用可能である。

本発明の実施の形態の基となるテレビ会議システムにおける音声送受信系の構成例を示すブロック図である。図１に示される音声通信端末装置の内部構成例を示すブロック図である。エコーキャンセル機能に自己音声拡声機能を付加した音声信号処理部としての一構成を示す図である。実施の形態としての音声信号処理部の構成例を示す図である。実施の形態の音声信号処理部が実行する手順例を示すフローチャートである。実施の形態の変形例としての音声信号処理部の構成例を示す図である。

符号の説明

１（１−１・１−２）音声通信端末装置、２（２−１・２−２）マイクロフォン、３（３−１・３−２）スピーカ、１１音声信号処理部、１２コーデック部、１３エンコーダ、１４デコーダ、１５通信部、２０適応フィルタシステム、２１適応フィルタ、２２減算器、２３（２３Ａ・２３Ｂ）送信音用サプレッサ、２４ボリューム部、２５（２５Ａ・２５Ｂ）・２７Ａ・２７Ｂ・２８加算器、２６（２６Ａ・２６Ｂ）自己拡声音用サプレッサ

Claims

マイクロフォンにより収音して得られる収音音声信号を所望信号として入力するとともに、通信相手側から送信されてきた相手側話者の音声信号を受信してスピーカから音として放出するまでにおける所定の処理段階を経た音声信号であるスピーカ出力用音声信号を参照信号として入力して、上記所望信号から上記参照信号に基づいて生成したキャンセル用信号を減算して得られる出力信号が最小となるようにして適応処理を実行し、上記出力信号が、相手側通信装置に対して送信出力すべき音声信号となるようにされた適応フィルタ手段と、
上記適応フィルタ手段の出力信号が、上記スピーカ出力用音声信号の成分として含まれるように合成する合成手段と、
上記適応フィルタ手段の出力信号が上記合成手段により合成されるまでの経路において備えられ、通過信号に対する減衰率を可変設定する減衰率可変手段と、
上記マイクロフォンにより自己側話者音声が収音されておらず、かつ、上記相手側話者の音声信号が上記参照信号に含まれているとされる第１の音声状態に対応しては、上記適応フィルタ手段の適応処理が活性傾向の状態にあるようにされるとともに、上記減衰率可変手段における減衰率が一定以上に設定された状態となるように制御し、上記マイクロフォンにより自己側話者音声が収音されている第２の音声状態においては、上記適応フィルタ手段の適応処理が停止傾向の状態となるようにされるとともに、上記減衰率可変手段における減衰率が一定以下に設定された状態となるように制御する制御手段と、
を備えることを特徴とする音声信号処理装置。
上記適応フィルタ手段の適応処理の収束状態を判別する収束状態判別手段をさらに備え、
上記制御手段は、
上記第１の音声状態において、さらに上記収束状態判別手段により上記適応フィルタ手段が収束しているとされる状態にあると判別された場合においては、上記適応フィルタ手段の適応処理が停止傾向の状態となるように制御する、
ことを特徴とする請求項１に記載の音声信号処理装置。
上記適応フィルタ手段の適応処理の収束状態を判別する収束状態判別手段をさらに備え、
上記制御手段は、
上記第２の音声状態において、さらに上記収束状態判別手段により上記適応フィルタ手段が収束していないとされる状態にあると判別された場合においては、上記減衰率可変手段における減衰率が一定以下に設定された状態となるように制御する、
ことを特徴とする請求項１に記載の音声信号処理装置。
マイクロフォンにより収音して得られる収音音声信号を所望信号として入力するとともに、通信相手側から送信されてきた相手側話者の音声信号を受信してスピーカから音として放出するまでにおける所定の処理段階を経た音声信号であるスピーカ出力用音声信号を参照信号として入力して、上記所望信号から上記参照信号に基づいて生成したキャンセル用信号を減算して得られる出力信号が最小となるようにして適応処理を実行し、上記出力信号が、相手側通信装置に対して送信出力すべき音声信号となるようにされた適応処理手順と、
上記適応処理手順の出力信号が、上記スピーカ出力用音声信号の成分として含まれるように合成する合成手順と、
上記適応処理手順の出力信号が上記合成手順により合成されるまでの経路において備えられ、通過信号に対する減衰率を可変設定する減衰率可変手順と、
上記マイクロフォンにより自己側話者音声が収音されておらず、かつ、上記相手側話者の音声信号が上記参照信号に含まれているとされる第１の音声状態に対応しては、上記適応処理手段の適応処理が活性傾向の状態にあるようにされるとともに、上記減衰率可変手順における減衰率が一定以上に設定された状態となるように制御し、上記マイクロフォンにより自己側話者音声が収音されている第２の音声状態においては、上記適応処理手順の適応処理が停止傾向の状態となるようにされるとともに、上記減衰率可変手順における減衰率が一定以下に設定された状態となるように制御する制御手順と、
を実行することを特徴とする音声信号処理方法。