JP2009094708A - 音声信号処理装置、音声信号処理方法 - Google Patents
音声信号処理装置、音声信号処理方法 Download PDFInfo
- Publication number
- JP2009094708A JP2009094708A JP2007262233A JP2007262233A JP2009094708A JP 2009094708 A JP2009094708 A JP 2009094708A JP 2007262233 A JP2007262233 A JP 2007262233A JP 2007262233 A JP2007262233 A JP 2007262233A JP 2009094708 A JP2009094708 A JP 2009094708A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- signal
- speaker
- voice
- adaptive filter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
Abstract
【課題】拡声通話系システムの音声信号処理装置において、相手側話者と自己拡声音の各エコー音を、高い性能でキャンセルする。
【解決手段】相手側話者のエコー音をキャンセルする機能を有する適応フィルタシステムの出力を、参照入力側に合成する。通信相手側から送信される音声と、マイクロフォンにより収音された自己音声をスピーカから拡声して出力することが可能になる。そのうえで、自己側話者音声が収音されておらず、相手側話者音声が入力されている状態においては、適応フィルタシステムによる適応処理を実行させると共に、適応フィルタシステムの出力信号を参照入力側に合成しないようにする。一方、自己側話者音声が収音されている状態に対応しては、適応フィルタシステムの出力信号を参照入力側に合成して自己拡声が行われるようにすると共に、適応フィルタシステムの適応処理を停止させて、自己拡声音のエコー音をほぼキャンセルさせる。
【選択図】図5
【解決手段】相手側話者のエコー音をキャンセルする機能を有する適応フィルタシステムの出力を、参照入力側に合成する。通信相手側から送信される音声と、マイクロフォンにより収音された自己音声をスピーカから拡声して出力することが可能になる。そのうえで、自己側話者音声が収音されておらず、相手側話者音声が入力されている状態においては、適応フィルタシステムによる適応処理を実行させると共に、適応フィルタシステムの出力信号を参照入力側に合成しないようにする。一方、自己側話者音声が収音されている状態に対応しては、適応フィルタシステムの出力信号を参照入力側に合成して自己拡声が行われるようにすると共に、適応フィルタシステムの適応処理を停止させて、自己拡声音のエコー音をほぼキャンセルさせる。
【選択図】図5
Description
本発明は、いわゆるエコーキャンセルといわれる音声信号処理機能を有する音声信号処理装置と、その方法とに関するものである。
電話機でのハンズフリー通話のほか、音声会議システム及びテレビ会議システムなどにおける音声送受信処理系などのようにして、互いに離れた場所や位置に居る話者間での通話、会話などが行えるように構成された音響システムは、拡声通話系などともいわれ、既に実用化され、また、普及している。
上記の拡声通話系システムでは、例えば、所定の通信方式に従って相互に通信可能な通信端末装置が複数の異なる場所に配置される。そのうえで、一方の通信端末装置側にてマイクロフォンで収音した音声が他方の通信端末装置に対して送信され、これを受信した他方の通信端末装置側にてスピーカから音として放出するようにされる。これにより、遠隔した場所にいる話者同士の会話が可能となるものである。
上記の拡声通話系システムでは、例えば、所定の通信方式に従って相互に通信可能な通信端末装置が複数の異なる場所に配置される。そのうえで、一方の通信端末装置側にてマイクロフォンで収音した音声が他方の通信端末装置に対して送信され、これを受信した他方の通信端末装置側にてスピーカから音として放出するようにされる。これにより、遠隔した場所にいる話者同士の会話が可能となるものである。
ただし、拡声通話系システムでは、一方の通信端末装置側にてスピーカから放出された他方の通信端末装置側からの音声が、一方の通信端末装置側にて、再度マイクロフォンにより収音されて他方の通信端末装置のスピーカから音として放出される。そして、このような動作が循環(ループ)するようにして繰り返されることになる。これにより、例えばスピーカから、相手側の話した音声以外に、自分の話した声もこだまのようにして混ざって聴こえる、いわゆるエコーといわれる現象が生じる。また、エコー音が大きくなれば、上記のループが無限に繰り返されてハウリングといわれる現象が発生する。このようして、拡声通話系システムでは、通信端末装置間の通信によりマイクロフォンの収音音声が循環することで、エコー、ハウリングによる通話音声品質の低下であるとか、通話システムが使いにくくなるなどの問題を抱えることになる。
そこで、拡声通話系システムに対してエコーキャンセルのための音声信号処理系を備えることが知られている。
このようなエコーキャンセルのための信号処理としては、適応フィルタシステムを採用したものが知られている。
この適応フィルタシステムは、スピーカとマイクロフォンの間の伝達音(エコーパス)についてのインパルス応答の特性を得たうえで、スピーカから放出させるべき音を入力信号として、この入力信号に上記のインパルス応答を畳み込むことで出力として擬似的なエコー音の信号成分を生成する。そして、このエコー音の信号成分を、マイクロフォンにより収音して相手側の通信端末装置に送信すべき音声信号から差し引くようにされる。このような適応フィルタシステムの動作が収束した状態では、相手側の通信端末装置に対しては、エコー音がキャンセルされた音声を送信することになり、従って、スピーカから放出される音からエコー音は聴こえなくなっている(キャンセルされている)こととなる。
このようなエコーキャンセルのための信号処理としては、適応フィルタシステムを採用したものが知られている。
この適応フィルタシステムは、スピーカとマイクロフォンの間の伝達音(エコーパス)についてのインパルス応答の特性を得たうえで、スピーカから放出させるべき音を入力信号として、この入力信号に上記のインパルス応答を畳み込むことで出力として擬似的なエコー音の信号成分を生成する。そして、このエコー音の信号成分を、マイクロフォンにより収音して相手側の通信端末装置に送信すべき音声信号から差し引くようにされる。このような適応フィルタシステムの動作が収束した状態では、相手側の通信端末装置に対しては、エコー音がキャンセルされた音声を送信することになり、従って、スピーカから放出される音からエコー音は聴こえなくなっている(キャンセルされている)こととなる。
また、拡声通話系システムから成る会議システムを利用するのにあたって、通信端末装置が設置される場所(会場)が非常に広いような場合、同じ会場内でも、或る話者の声が、そこから離れた位置に居る会議参加者には、遠すぎて聴き取りにくいような状況となることが考えられる。このような状況に対応しては、例えば特許文献1にも記載されているようにして、通信端末装置により、同じ近端側のマイクロフォンにより収音される音声をスピーカから拡声して出力させる、PAシステムの機能(自己拡声音出力機能)を付加することが知られている。これにより、マイクロフォンを使用して入力された近端側話者の音声は、同じ近端側のスピーカにて拡声されて出力されることになり、会議参加者は、同じ会議場内の話者の音声を大きな音で明瞭に聴くことが可能になる。また、特許文献1には、通信端末装置間の通信によりマイクロフォンの収音音声が循環することで生じるエコー、ハウリングの防止と、上記PAシステムにより生じる自己拡声音のエコー、ハウリングの防止とを両立させるために、マイクロフォンによる収音音声信号をスピーカ側に出力させるための信号経路においては、周波数分割部を設け、収音音声信号を相手方に送信するために送話信号符号化回路に出力する信号経路においてはゲイン調整器を設けた構成が記載されている。
本願発明としても、拡声通話系システムを成すとされる音声信号処理装置として、自己拡声音出力機能を付加した構成を前提とするものである。そのうえで、通信端末装置間の通信によりマイクロフォンの収音音声が循環することで生じるエコー(ハウリング)と、自己拡声音のエコー(ハウリング)の双方をキャンセルする構成として、これまでよりも高い性能のものが得られるようにすることを目的とする。
そこで本発明は上記した課題を考慮して、音声信号処理装置として次のように構成する。
つまり、マイクロフォンにより収音して得られる収音音声信号を所望信号として入力するとともに、通信相手側から送信されてきた相手側話者の音声信号を受信してスピーカから音として放出するまでにおける所定の処理段階を経た音声信号であるスピーカ出力用音声信号を参照信号として入力して、所望信号から参照信号に基づいて生成したキャンセル用信号を減算して得られる出力信号が最小となるようにして適応処理を実行し、出力信号が、相手側通信装置に対して送信出力すべき音声信号となるようにされた適応フィルタ手段と、この適応フィルタ手段の出力信号が、スピーカ出力用音声信号の成分として含まれるように合成する合成手段と、適応フィルタ手段の出力信号が合成手段により合成されるまでの経路において備えられ、通過信号に対する減衰率を可変設定する減衰率可変手段と、マイクロフォンにより自己側話者音声が収音されておらず、かつ、相手側話者の音声信号が参照信号に含まれているとされる第1の音声状態に対応しては、適応フィルタ手段の適応処理が活性傾向の状態にあるようにされるとともに、減衰率可変手段における減衰率が一定以上に設定された状態となるように制御し、マイクロフォンにより自己側話者音声が収音されている第2の音声状態においては、適応フィルタ手段の適応処理が停止傾向の状態となるようにされるとともに、減衰率可変手段における減衰率が一定以下に設定された状態となるように制御する制御手段とを備えることとした。
つまり、マイクロフォンにより収音して得られる収音音声信号を所望信号として入力するとともに、通信相手側から送信されてきた相手側話者の音声信号を受信してスピーカから音として放出するまでにおける所定の処理段階を経た音声信号であるスピーカ出力用音声信号を参照信号として入力して、所望信号から参照信号に基づいて生成したキャンセル用信号を減算して得られる出力信号が最小となるようにして適応処理を実行し、出力信号が、相手側通信装置に対して送信出力すべき音声信号となるようにされた適応フィルタ手段と、この適応フィルタ手段の出力信号が、スピーカ出力用音声信号の成分として含まれるように合成する合成手段と、適応フィルタ手段の出力信号が合成手段により合成されるまでの経路において備えられ、通過信号に対する減衰率を可変設定する減衰率可変手段と、マイクロフォンにより自己側話者音声が収音されておらず、かつ、相手側話者の音声信号が参照信号に含まれているとされる第1の音声状態に対応しては、適応フィルタ手段の適応処理が活性傾向の状態にあるようにされるとともに、減衰率可変手段における減衰率が一定以上に設定された状態となるように制御し、マイクロフォンにより自己側話者音声が収音されている第2の音声状態においては、適応フィルタ手段の適応処理が停止傾向の状態となるようにされるとともに、減衰率可変手段における減衰率が一定以下に設定された状態となるように制御する制御手段とを備えることとした。
上記構成の音声信号処理装置では、先ず、適応フィルタ手段が備えられることで、拡声通話系システムにおいて、通信相手側との通信によりマイクロフォンの収音音声が循環することで生じるエコー(相手側話者のエコー音)を、適応処理によりキャンセルする機能が与えられる。また、これに合成手段が備えられることで、通信相手側から送信されてきた音声をスピーカから拡声して出力できることに加えて、音声信号処理装置側において完結するかたちで、マイクロフォンにより収音された音声をスピーカから拡声して出力するという、自己拡声音出力機能が与えられる。
そのうえで、自己側話者音声(マイクロフォンに対して話者から直接的に入力される話者の音声)がマイクロフォンにより収音されておらず、かつ、相手側話者の音声信号が参照信号に含まれているとされる第1の音声状態に対応しては、適応フィルタ手段の適応処理が活性傾向の状態にあるようにされるとともに、減衰率可変手段における減衰率が一定以上に設定された状態となるようにする。これにより、スピーカから出力される自己拡声音が抑制された状態で、適応フィルタ手段の適応処理が有効に実行されるということになるが、これは、自己拡声音出力機能を備えない構成におけるエコーキャンセルシステムと等価の動作となるものである。
一方、マイクロフォンにより自己側話者音声が収音されている第2の音声状態に対応しては、先ず、減衰率可変手段における減衰率を一定以下に設定する。ここで、減衰率可変手段における減衰率を一定以下に設定するということは、スピーカから自己拡声音を積極的に出力させる状態とすることを意味する。これにより、自己側話者音声は、スピーカから音として放出されることになり、自己拡声音出力機能が果たされることになる。そのうえで、このときには適応フィルタ手段による適応処理について停止傾向の状態とするようにしている。つまり、そのときの適応処理の応答性を一定以上の度合いで鈍くさせるようにするのであるが、このときの適応フィルタ手段が収束した状態でありさえすれば、適応フィルタ手段によっては、スピーカからマイクロフォンに到達する自己拡声音(即ち自己拡声音のエコー音)は、ほぼ適正にキャンセルされることになる。自己側話者音声が収音されていない状態での適応フィルタ手段の適応処理は、相手側者のエコー音、即ちスピーカからマイクロフォンへの空間経路を経由して到達してきた音をキャンセルするように動作することになるからである。
そのうえで、自己側話者音声(マイクロフォンに対して話者から直接的に入力される話者の音声)がマイクロフォンにより収音されておらず、かつ、相手側話者の音声信号が参照信号に含まれているとされる第1の音声状態に対応しては、適応フィルタ手段の適応処理が活性傾向の状態にあるようにされるとともに、減衰率可変手段における減衰率が一定以上に設定された状態となるようにする。これにより、スピーカから出力される自己拡声音が抑制された状態で、適応フィルタ手段の適応処理が有効に実行されるということになるが、これは、自己拡声音出力機能を備えない構成におけるエコーキャンセルシステムと等価の動作となるものである。
一方、マイクロフォンにより自己側話者音声が収音されている第2の音声状態に対応しては、先ず、減衰率可変手段における減衰率を一定以下に設定する。ここで、減衰率可変手段における減衰率を一定以下に設定するということは、スピーカから自己拡声音を積極的に出力させる状態とすることを意味する。これにより、自己側話者音声は、スピーカから音として放出されることになり、自己拡声音出力機能が果たされることになる。そのうえで、このときには適応フィルタ手段による適応処理について停止傾向の状態とするようにしている。つまり、そのときの適応処理の応答性を一定以上の度合いで鈍くさせるようにするのであるが、このときの適応フィルタ手段が収束した状態でありさえすれば、適応フィルタ手段によっては、スピーカからマイクロフォンに到達する自己拡声音(即ち自己拡声音のエコー音)は、ほぼ適正にキャンセルされることになる。自己側話者音声が収音されていない状態での適応フィルタ手段の適応処理は、相手側者のエコー音、即ちスピーカからマイクロフォンへの空間経路を経由して到達してきた音をキャンセルするように動作することになるからである。
このようにして本発明は、自己拡声音出力機能が付加された拡声通話系システムの音声信号処理装置として、適応フィルタにより、相手側話者のエコー音だけではなく、自己拡声音のエコー音もキャンセルすることが可能とされる。適応フィルタによっては、高品位、高音質なエコーキャンセル効果が得られる。つまり、本願発明によっては、相手側話者のエコー音と、自己拡声音のエコー音との双方を対象にして、高品位なエコーキャンセルを行うことを実現しているものである。
また、本願発明によっては、1つの適応フィルタ手段を、相手側話者のエコー音のキャンセルと自己拡声音のエコー音のキャンセルとで共用していることから、それだけ演算量やリソースの削減が図られ、コストダウンや回路規模の縮小効果が期待されることにもなる。
また、本願発明によっては、1つの適応フィルタ手段を、相手側話者のエコー音のキャンセルと自己拡声音のエコー音のキャンセルとで共用していることから、それだけ演算量やリソースの削減が図られ、コストダウンや回路規模の縮小効果が期待されることにもなる。
本願発明を実施するための最良の形態(以下、実施の形態という)としては、テレビジョン会議システム(テレビ会議システム)における音声送受信系に本願発明を適用する。
テレビ会議システムは、一般には、場所の異なる会議場ごとに通信端末装置を設置し、この通信端末装置から、カメラ装置により撮影した画像と、マイクロフォンにより収音した音声を他の通信端末装置に送信させると共に、他の通信装置から送信されてきた画像と音声を受信して、それぞれ、表示装置、スピーカから出力させるように構成される。つまり、テレビ会議システムでは、画像を相互に送受信する映像送受信系と、音声を相互に送受信する音声送受信系とを備える。そして、本実施の形態としては、上記音声送受信系として音声を送受信するとともに、スピーカなどからの拡声出力が可能なようにして設けられる通信端末装置(音声通信端末装置)とされるものである。
テレビ会議システムは、一般には、場所の異なる会議場ごとに通信端末装置を設置し、この通信端末装置から、カメラ装置により撮影した画像と、マイクロフォンにより収音した音声を他の通信端末装置に送信させると共に、他の通信装置から送信されてきた画像と音声を受信して、それぞれ、表示装置、スピーカから出力させるように構成される。つまり、テレビ会議システムでは、画像を相互に送受信する映像送受信系と、音声を相互に送受信する音声送受信系とを備える。そして、本実施の形態としては、上記音声送受信系として音声を送受信するとともに、スピーカなどからの拡声出力が可能なようにして設けられる通信端末装置(音声通信端末装置)とされるものである。
図1は、本実施の形態の基となる、テレビ会議システムにおける音声送受信系のシステム構成例を示している。
この場合には、互いに離れた2つの場所A、場所Bが会議場とされており、これらの場所A,Bのそれぞれにおいて、音声送受信系を成す音声通信端末装置1−1、1−2が設置される。なお、この場合においては、場所A、Bは、それぞれ、例えば同じ部屋内でも離れた距離に居る者同士では、通常会話程度の声量では相手の発話内容を明瞭に聴き取ることが難しい程度の、相当の広さであることを想定している。
これらの音声通信端末装置1−1、1−2は、所定の通信方式に対応する通信回線により接続されて、相互通信が可能なようにされている。また、場所A、Bのそれぞれには、マイクロフォン2−1、2−2、スピーカ3−1、3−2が設置される。マイクロフォン2−1、2−2は、それぞれ、場所A,B内に居る会議参加者の声を収音するためのもので、各場所内の適当な位置に設けられる。スピーカ3−1、3−2は、それぞれ、他の場所の会議参加者の声(相手側話者音声)と、同じ場所にあるマイクロフォン2−1、2−2を使った会議参加者の声(自己側話者音声)とを拡声して出力し、その場所にいる会議参加者に聴こえるようにするためのもので、これも、各場所内の適当な位置に設けられる。
なお、以降の説明において、音声通信端末装置、マイクロフォン、及びスピーカについて、離れた場所にある同一のものを特に区別する必要のない場合には、音声通信端末装置1、マイクロフォン2、スピーカ3などのようにして表記する。
この場合には、互いに離れた2つの場所A、場所Bが会議場とされており、これらの場所A,Bのそれぞれにおいて、音声送受信系を成す音声通信端末装置1−1、1−2が設置される。なお、この場合においては、場所A、Bは、それぞれ、例えば同じ部屋内でも離れた距離に居る者同士では、通常会話程度の声量では相手の発話内容を明瞭に聴き取ることが難しい程度の、相当の広さであることを想定している。
これらの音声通信端末装置1−1、1−2は、所定の通信方式に対応する通信回線により接続されて、相互通信が可能なようにされている。また、場所A、Bのそれぞれには、マイクロフォン2−1、2−2、スピーカ3−1、3−2が設置される。マイクロフォン2−1、2−2は、それぞれ、場所A,B内に居る会議参加者の声を収音するためのもので、各場所内の適当な位置に設けられる。スピーカ3−1、3−2は、それぞれ、他の場所の会議参加者の声(相手側話者音声)と、同じ場所にあるマイクロフォン2−1、2−2を使った会議参加者の声(自己側話者音声)とを拡声して出力し、その場所にいる会議参加者に聴こえるようにするためのもので、これも、各場所内の適当な位置に設けられる。
なお、以降の説明において、音声通信端末装置、マイクロフォン、及びスピーカについて、離れた場所にある同一のものを特に区別する必要のない場合には、音声通信端末装置1、マイクロフォン2、スピーカ3などのようにして表記する。
先ず、場所Aにおいて、マイクロフォン2−1により収音して得た音声信号は、音声通信端末装置1−1に入力される。音声通信端末装置1−1は、入力された音声信号を、通信回線を経由して音声通信端末装置1−2に対して送信する。音声通信端末装置1−2は、上記のようにして送信されてきた音声信号を受信し、スピーカ3−2から出力させる。これにより、場所Bの会議参加者は、場所Aの会議参加者の声を聴くことができる。
また、同様にして、場所B内のマイクロフォン2−2により収音して得られた音声は、音声通信端末装置1−2により音声通信端末装置1−1に送信される。音声通信端末装置1−1では、受信した音声信号をスピーカ3−1から出力させる。
このようにして、テレビ会議システムの音声送受信系では、音声の双方向通信を行うものであり、これにより、例えば或る1つの場所に居る会議参加者と、他の場所に居る会議参加者(相手側話者)との間で会話を行うことが可能になる。また、このテレビ会議システムの場合には、各場所において、複数の会議参加者が居ることを想定しており、このために、各場所の会議参加者の全員が、相手側話者の声を聴くことができるように、スピーカ3を備えることとしているものである。このようにして双方向で音声のやりとりを行うのにあたり、相手側話者音声をスピーカから出力させてモニタするシステムは、拡声通話系などともいわれる。
また、同様にして、場所B内のマイクロフォン2−2により収音して得られた音声は、音声通信端末装置1−2により音声通信端末装置1−1に送信される。音声通信端末装置1−1では、受信した音声信号をスピーカ3−1から出力させる。
このようにして、テレビ会議システムの音声送受信系では、音声の双方向通信を行うものであり、これにより、例えば或る1つの場所に居る会議参加者と、他の場所に居る会議参加者(相手側話者)との間で会話を行うことが可能になる。また、このテレビ会議システムの場合には、各場所において、複数の会議参加者が居ることを想定しており、このために、各場所の会議参加者の全員が、相手側話者の声を聴くことができるように、スピーカ3を備えることとしているものである。このようにして双方向で音声のやりとりを行うのにあたり、相手側話者音声をスピーカから出力させてモニタするシステムは、拡声通話系などともいわれる。
また、本実施の形態の基となる音声通信端末装置1は、マイクロフォン2により収音して得た音声信号についてもスピーカ3から拡声音として出力させることが可能とされている。即ち、この場合の音声通信端末装置1は、他の音声通信端末装置から送信されてきた音声に加えて、自身に接続されたマイクロフォンにより収音された音声についてもスピーカ3から出力させることのできる、自己拡声音出力機能を有する。
上記もしたように、この場合の会議会場である場所A,Bは相当に広い場合を想定しているが、このような自己拡声音出力機能は、同じ会議場としての場所において、或る会議参加者(自己側話者)が発話したときの音声(自己側話者音声)を、他の会議参加者も必定充分に大きな音で聴くために備えられるものである。
上記もしたように、この場合の会議会場である場所A,Bは相当に広い場合を想定しているが、このような自己拡声音出力機能は、同じ会議場としての場所において、或る会議参加者(自己側話者)が発話したときの音声(自己側話者音声)を、他の会議参加者も必定充分に大きな音で聴くために備えられるものである。
図2は、音声通信端末装置1の構成例を示している。確認のために述べておくと、図1に示した音声通信端末装置1−1、1−2は、この図2に示す構成を共通に有するものとされる。
音声通信端末装置1は、例えばこの図に示すようにして、音声信号処理部11、コーデック部12、通信部15を備えて成る。
音声通信端末装置1は、例えばこの図に示すようにして、音声信号処理部11、コーデック部12、通信部15を備えて成る。
音声信号処理部11に対しては、マイクロフォン2により収音して得られる音声信号と、後述するコーデック部12内のデコーダ14から出力される音声信号とが入力される。また、音声信号処理部11からは、後述するエコーキャンセル処理後の音声信号をコーデック部12内のエンコーダ13に出力するとともに、拡声音として出力させるべき音声信号をスピーカ3に対して出力するようにされている。
なお、実際においては、マイクロフォン2により収音して得られたアナログとしての音声信号をデジタル信号に変換するA/D変換器であるとか、音声信号処理11から出力されるものとするデジタルによる音声信号をアナログ信号に変換し、増幅してスピーカ3に出力するためのD/A変換器、増幅回路などの構成が備えられるべきであるが、ここでは、説明を簡単なものとすることの都合上、これらの部位についての図示は省略している。また、これらの部位のそれぞれは、音声通信端末装置1内に設けられてもよいし、音声通信端末装置1に対しては外部となる装置に対して設けられるものであってもよい。
なお、実際においては、マイクロフォン2により収音して得られたアナログとしての音声信号をデジタル信号に変換するA/D変換器であるとか、音声信号処理11から出力されるものとするデジタルによる音声信号をアナログ信号に変換し、増幅してスピーカ3に出力するためのD/A変換器、増幅回路などの構成が備えられるべきであるが、ここでは、説明を簡単なものとすることの都合上、これらの部位についての図示は省略している。また、これらの部位のそれぞれは、音声通信端末装置1内に設けられてもよいし、音声通信端末装置1に対しては外部となる装置に対して設けられるものであってもよい。
先に述べたように、拡声通話系システムは、そのまま使用したのでは、エコー、ハウリングなどの現象を生じる。つまり、図2において示しているように、スピーカ3から空間に放出された音は、直接音及び間接音としての空間伝搬経路(エコーパス)Eを経て、マイクロフォン2に到達する。つまり、通信相手側の音声通信端末装置から送信されスピーカ3から放出された通話相手の声(相手側話者音声)がマイクロフォン2にて収音され、再び、通信相手側の音声通信端末装置に送信される。また、通信相手側においても、さらにスピーカから放出された音がマイクロフォンで収音されて、こちらの音声通信端末装置に送信されてくる。即ち、拡声通話系システムでは、一度空間に放出された音が、音声通信端末装置間で循環するようにして送受信される。これにより、スピーカから放出される音には、自分が今話している声が、或る遅延時間をもってこだまのようにして聴こえるものが含まれることになる。これがエコーであり、ループが或る程度以上に繰り返されればハウリングとなる。
そこで、拡声通話系システムでは、このようなエコーの現象を解消、抑制するエコーキャンセルシステムを備えることが行われている。音声信号処理部11は、このエコーキャンセルシステムとしての信号処理機能を有するようにして構成されている。
また、音声信号処理部11では、先の自己拡声音出力機能に対応して、マイクロフォン2により収音して得られた音声信号をスピーカ3から出力させるための自己拡声音用の信号系も備えている。
なお、この音声信号処理部11は、例えば実際には、DSP(Digital Signal Processor)として構成される。また、音声信号処理部11におけるエコーキャンセルのための構成、及び自己拡声音用の信号系については後述する。
そこで、拡声通話系システムでは、このようなエコーの現象を解消、抑制するエコーキャンセルシステムを備えることが行われている。音声信号処理部11は、このエコーキャンセルシステムとしての信号処理機能を有するようにして構成されている。
また、音声信号処理部11では、先の自己拡声音出力機能に対応して、マイクロフォン2により収音して得られた音声信号をスピーカ3から出力させるための自己拡声音用の信号系も備えている。
なお、この音声信号処理部11は、例えば実際には、DSP(Digital Signal Processor)として構成される。また、音声信号処理部11におけるエコーキャンセルのための構成、及び自己拡声音用の信号系については後述する。
音声信号処理部11によりエコーキャンセル処理が施された音声信号は、コーデック部14内のエンコーダ13に対して入力される。エンコーダ13は、入力された音声信号について、例えば所定方式に応じた音声圧縮符号化などの信号処理を施して通信部15に対して出力する。通信部15は、入力された送信用音声信号を、所定の通信方式に従って、通信回線経由で、他の音声通信端末装置に対して出力するようにされる。
また、通信部15は、他の音声通信端末装置から送信されてきた送信用音声信号を受信して所定の圧縮符号化形式の音声信号に復元し、コーデック部12のデコーダ14に出力する。
デコーダ14では、通信部15から入力された再生用音声信号の圧縮符号化に対する復調処理を実行して、所定のPCM形式のデジタル音声信号に変換し、音声信号処理部11に出力する。このようにして音声信号処理部11に対して出力される音声信号成分が、最終的にはスピーカ3から出力される相手側話者音声となる。
デコーダ14では、通信部15から入力された再生用音声信号の圧縮符号化に対する復調処理を実行して、所定のPCM形式のデジタル音声信号に変換し、音声信号処理部11に出力する。このようにして音声信号処理部11に対して出力される音声信号成分が、最終的にはスピーカ3から出力される相手側話者音声となる。
図3は、エコーキャンセル機能に自己音声拡声機能が付加された音声信号処理部11として順当に考えられる一つの構成例を示している。なお、この図においては、音声信号処理部11とともに、マイクロフォン2、スピーカ3、及びコーデック部12(エンコーダ13、デコーダ14)を示している。
この図3に示される音声信号処理部11は、適応フィルタシステム20、送信音用サプレッサ23、ボリューム部24、及び加算器25を備える。適応フィルタシステム20、及び送信音用サプレッサ23がエコーキャンセル機能に対応し、ボリューム部24及び加算器25が自己音声拡声機能に対応する。
先ず、マイクロフォン2により収音して得られる収音音声信号の主たる内容としては、スピーカ3から放出された音(即ち、エコー音としての相手側話者音声となる)と、自己側の場所内の会議参加者が例えばマイクロフォン2を使用して、これに向かって発話したことで収音(入力)されることとなった、自己側話者音声となる。
適応フィルタシステム20は、収音音声信号のうちで、上記のエコー音としての相手側発話音声を除去、キャンセルするためのものであり、適応フィルタ21及び減算器22を有して成る。
適応フィルタシステム20に対する参照信号は、適応フィルタ21の入力端子に入力されるようになっており、この場合には、デコーダ14からの出力信号が入力される形態となっている。つまり、相手側通信端末装置側から送信されてきた、相手側話者音声に対応する音声信号を入力するようにされている。
また、減算器22は、マイクロフォン2による収音音声信号から、適応フィルタ21の出力信号(キャンセル用信号)を減算するようにして設けられる。従って、適応フィルタシステム20においては、処理対象として減算器22に入力されるべき信号であり、キャンセル対象の信号成分を含む信号(所望信号)が、マイクロフォン2により収音して得られた自己音声の音声信号となる。また、適応フィルタシステム20の出力信号は減算器22の出力となるが、適応フィルタ21にフィードバックされるようにして入力される減算器22の出力は誤差信号、残差信号といわれるものとなる。
適応フィルタシステム20は、収音音声信号のうちで、上記のエコー音としての相手側発話音声を除去、キャンセルするためのものであり、適応フィルタ21及び減算器22を有して成る。
適応フィルタシステム20に対する参照信号は、適応フィルタ21の入力端子に入力されるようになっており、この場合には、デコーダ14からの出力信号が入力される形態となっている。つまり、相手側通信端末装置側から送信されてきた、相手側話者音声に対応する音声信号を入力するようにされている。
また、減算器22は、マイクロフォン2による収音音声信号から、適応フィルタ21の出力信号(キャンセル用信号)を減算するようにして設けられる。従って、適応フィルタシステム20においては、処理対象として減算器22に入力されるべき信号であり、キャンセル対象の信号成分を含む信号(所望信号)が、マイクロフォン2により収音して得られた自己音声の音声信号となる。また、適応フィルタシステム20の出力信号は減算器22の出力となるが、適応フィルタ21にフィードバックされるようにして入力される減算器22の出力は誤差信号、残差信号といわれるものとなる。
この構成では、適応フィルタシステム20の適応フィルタ21は、参照信号として、デコーダ14から出力されてくる、相手側音声の音声信号を取り込んでいることになる。
適応フィルタ21の内部は、図示による説明は省略するが、上記の参照信号が通過する、必要次数によるFIR(Finite Impulse Response:有限インパルス応答)型のデジタルフィルタと、このデジタルフィルタの係数(フィルタ係数)を可変設定することのできる係数設定回路とを備えている。上記のデジタルフィルタの出力が、適応フィルタ21の出力信号(キャンセル用信号)となる。
そして、適応フィルタ21においては、上記の誤差信号により示される残差量が最小となる出力信号(キャンセル用信号)が常に得られるようにして、係数設定回路により必要な次数段階の係数器のフィルタ係数を変更設定していくようにされる。
この結果、適応フィルタ21の係数ベクトル(次数段階に応じた係数の配列に相当する)は、デコーダ14からの相手側音声の音声信号がスピーカ3から出力され、次に空間伝搬経路Eを経由してマイクロフォン2にて収音され、さらに適応フィルタシステム20の減算器22に対して処理対象信号(所望信号)として入力されるまでの伝達経路(以降、キャンセル音伝達経路ともいう)の擬似的な伝達関数を表現するインパルス応答を形成することになる。この動作は即ち、上記キャンセル音伝達経路を経由して得られる音の信号成分を、そのときの処理対象信号の状態に応じて適応的にキャンセルする動作であることになる。
そして、上記のキャンセル音伝達経路を経由する音は、エコーパスである空間伝搬経路Eを経由することからも分かるように、相手側音声の音声信号を基としたエコー音の成分である。従って、適応フィルタ21の出力信号(キャンセル用信号)は、相手側音声の音声信号についての疑似エコーとして捉えられるものとなる。適応フィルタシステム20においては、減算器22により、自己側のマイクロフォン2により収音された音声から、相手側から送信されてきた音声に対応する疑似エコー音を差し引くことになる。このようにして、音声信号処理部11は、自己側音声の音声信号からエコー音の成分を適応的に除去するという動作を実行するものである。そして、音声通信端末装置1は、このエコー音の成分が除去された音声信号を、通信相手側の音声通信端末装置に対して送信するようにされる。これにより、通信相手側の音声通信端末装置にて受信した音声信号をスピーカから放出させて聴こえる音からも、エコー音が取り除かれる。このようにしてエコーキャンセル効果が生じるものである。
適応フィルタ21の内部は、図示による説明は省略するが、上記の参照信号が通過する、必要次数によるFIR(Finite Impulse Response:有限インパルス応答)型のデジタルフィルタと、このデジタルフィルタの係数(フィルタ係数)を可変設定することのできる係数設定回路とを備えている。上記のデジタルフィルタの出力が、適応フィルタ21の出力信号(キャンセル用信号)となる。
そして、適応フィルタ21においては、上記の誤差信号により示される残差量が最小となる出力信号(キャンセル用信号)が常に得られるようにして、係数設定回路により必要な次数段階の係数器のフィルタ係数を変更設定していくようにされる。
この結果、適応フィルタ21の係数ベクトル(次数段階に応じた係数の配列に相当する)は、デコーダ14からの相手側音声の音声信号がスピーカ3から出力され、次に空間伝搬経路Eを経由してマイクロフォン2にて収音され、さらに適応フィルタシステム20の減算器22に対して処理対象信号(所望信号)として入力されるまでの伝達経路(以降、キャンセル音伝達経路ともいう)の擬似的な伝達関数を表現するインパルス応答を形成することになる。この動作は即ち、上記キャンセル音伝達経路を経由して得られる音の信号成分を、そのときの処理対象信号の状態に応じて適応的にキャンセルする動作であることになる。
そして、上記のキャンセル音伝達経路を経由する音は、エコーパスである空間伝搬経路Eを経由することからも分かるように、相手側音声の音声信号を基としたエコー音の成分である。従って、適応フィルタ21の出力信号(キャンセル用信号)は、相手側音声の音声信号についての疑似エコーとして捉えられるものとなる。適応フィルタシステム20においては、減算器22により、自己側のマイクロフォン2により収音された音声から、相手側から送信されてきた音声に対応する疑似エコー音を差し引くことになる。このようにして、音声信号処理部11は、自己側音声の音声信号からエコー音の成分を適応的に除去するという動作を実行するものである。そして、音声通信端末装置1は、このエコー音の成分が除去された音声信号を、通信相手側の音声通信端末装置に対して送信するようにされる。これにより、通信相手側の音声通信端末装置にて受信した音声信号をスピーカから放出させて聴こえる音からも、エコー音が取り除かれる。このようにしてエコーキャンセル効果が生じるものである。
この場合、上記のようしてエコー音成分が除去された音声信号、即ち減算器22の出力信号は、送信音用サプレッサ23を経由してエンコーダ13に入力させるようにされている。送信音用サプレッサ23は、入力される音声信号に対して、設定された減衰率によるレベル・ゲインの減衰を与えて出力可能に構成され、例えば上記のエコーキャンセル効果を補強するために設けられる。つまり、適応フィルタ21が収束しており、充分に有効なエコーキャンセル効果が得られているとされる状態にあっても、現実においては、若干のエコー成分が残留することがある。送信音用サプレッサ23は、このようにして適応フィルタ22が収束し、かつ、収音音声信号の内容としては自己側話者音声が含まれず、可能性としては相手側話者音声のエコー音のほうが含まれる、いわゆるシングルトーク状態を検出したとき、入力される信号について、これにほぼ100%の減衰率を与えて出力させないようにする、あるいは一定以上の減衰率を与えて出力するように動作する。これにより、相手側通信端末装置にて、上記のエコー残留成分が聴こえないようにする、あるいは聴こえにくくすることができる。
また、上記送信音用サプレッサ23からエンコーダ13に対して入力されるべき送信用音声信号は、分岐して、ボリューム部24を経由して加算器25に入力されるようになっている。加算器25では、上記のようにして入力されてくる送信用音声信号と、デコーダ14から出力されてくる相手側発話音声とを合成してスピーカ3に対して出力するようにされている。
ここで、自己拡声音出力機能が対応する典型的な状況として、自己側の場所の会議参加者がマイクロフォン2を使用してこれに向かって発話している一方で、相手側通信端末装置側では、相手側話者がマイクロフォンに向かって発話していない状況を想定する。
この状況においては、マイクロフォン2により収音して得られる収音音声信号の内容は、自己側話者音声のみであり、相手側話者音声のエコー音は存在しないことになる。そして、この収音音声信号が、ボリューム部24から加算器25に入力され、スピーカ3側に出力される。これにより、スピーカ3からは、自己側話者音声が音として放出されることになる。このようにして自己拡声音出力機能が与えられているものである。ボリューム部24は、例えば手動操作などに応じて、通過する音声信号レベルを可変するためのものとされる。
ここで、自己拡声音出力機能が対応する典型的な状況として、自己側の場所の会議参加者がマイクロフォン2を使用してこれに向かって発話している一方で、相手側通信端末装置側では、相手側話者がマイクロフォンに向かって発話していない状況を想定する。
この状況においては、マイクロフォン2により収音して得られる収音音声信号の内容は、自己側話者音声のみであり、相手側話者音声のエコー音は存在しないことになる。そして、この収音音声信号が、ボリューム部24から加算器25に入力され、スピーカ3側に出力される。これにより、スピーカ3からは、自己側話者音声が音として放出されることになる。このようにして自己拡声音出力機能が与えられているものである。ボリューム部24は、例えば手動操作などに応じて、通過する音声信号レベルを可変するためのものとされる。
しかし、実際においては、上記図3に示した構成では、定常的に充分なエコーキャンセル効果を得ることが難しい。
例えば、適応フィルタシステム20は、先に説明したように、スピーカ3から空間伝搬経路Eを経由してマイクロフォン2により収音される相手側話者音声(エコー音)をキャンセルするためのものとされる。従って、自己側話者音声が収音されず、相手側話者音声のみがマイクロフォン2にて収音される状態であれば、適応フィルタシステム20の適応処理の結果として、適正にエコーキャンセルが行われる状態を得ることができる。しかし、自己側話者音声が収音される状態では、マイクロフォン2により、上記の空間伝搬経路Eを経由しない自己側話者音声が収音されることになり、適応フィルタシステム20は、この本来キャンセル対象ではない自己側話者音声が主体の所望信号を入力するとともに、相手側話者音声に相当する参照信号を利用することで、所望信号を最小とするように動作する。この結果、適応フィルタシステム20におけるフィルタ係数などは、本来のキャンセル対象である相手側話者音声をキャンセルする設定内容からはかえって遠ざかることになる。
また、自己拡声音出力機能を有する場合には、スピーカ3からマイクロフォン2に対して、同じ空間伝搬経路Eを経由して、自己側話者音声の成分も収音されることになる。従って、自己側話者音声についてもエコー音、ハウリングが発生し得ることになる。しかし、上記のようにして、自己側話者音声がマイクロフォン2により収音されるときには、空間伝搬経路Eを経由するエコー音をキャンセルすることができなくなるのであるから、自己側話者音声についての良好なエコーキャンセル効果を期待することも難しくなる。
このようにして、図3に示される構成にあっては、自己拡声音出力機能を与えたことで、適応フィルタシステム20による適正なエコーキャンセル効果が損なわれてしまうという問題を有している。
例えば、適応フィルタシステム20は、先に説明したように、スピーカ3から空間伝搬経路Eを経由してマイクロフォン2により収音される相手側話者音声(エコー音)をキャンセルするためのものとされる。従って、自己側話者音声が収音されず、相手側話者音声のみがマイクロフォン2にて収音される状態であれば、適応フィルタシステム20の適応処理の結果として、適正にエコーキャンセルが行われる状態を得ることができる。しかし、自己側話者音声が収音される状態では、マイクロフォン2により、上記の空間伝搬経路Eを経由しない自己側話者音声が収音されることになり、適応フィルタシステム20は、この本来キャンセル対象ではない自己側話者音声が主体の所望信号を入力するとともに、相手側話者音声に相当する参照信号を利用することで、所望信号を最小とするように動作する。この結果、適応フィルタシステム20におけるフィルタ係数などは、本来のキャンセル対象である相手側話者音声をキャンセルする設定内容からはかえって遠ざかることになる。
また、自己拡声音出力機能を有する場合には、スピーカ3からマイクロフォン2に対して、同じ空間伝搬経路Eを経由して、自己側話者音声の成分も収音されることになる。従って、自己側話者音声についてもエコー音、ハウリングが発生し得ることになる。しかし、上記のようにして、自己側話者音声がマイクロフォン2により収音されるときには、空間伝搬経路Eを経由するエコー音をキャンセルすることができなくなるのであるから、自己側話者音声についての良好なエコーキャンセル効果を期待することも難しくなる。
このようにして、図3に示される構成にあっては、自己拡声音出力機能を与えたことで、適応フィルタシステム20による適正なエコーキャンセル効果が損なわれてしまうという問題を有している。
そこで、本実施の形態としては、自己拡声音出力機能を与えることとした場合において、相手側話者音声のエコー音と、自己側話者音声の双方について良好にエコーキャンセルが行われるようにする。このための構成を以降において説明する。
図4は、本実施の形態としての音声信号処理部11の構成例を示している。なお、この図において、先の図3と同一とされる部分については同一符号を付して説明を省略する。
この図において、先ず、相手側話者音声のエコー音をキャンセルするための構成としては、適応フィルタシステム20及び送信音用サプレッサ23から成り、図3と同様となる。そのうえで、自己拡声音出力機能に対応させて、加算器25及び自己拡声音用サプレッサ26を備えるものとされる。この場合において、図3において備えられていたボリューム部24は省略されている。
この図において、先ず、相手側話者音声のエコー音をキャンセルするための構成としては、適応フィルタシステム20及び送信音用サプレッサ23から成り、図3と同様となる。そのうえで、自己拡声音出力機能に対応させて、加算器25及び自己拡声音用サプレッサ26を備えるものとされる。この場合において、図3において備えられていたボリューム部24は省略されている。
自己拡声音サプレッサ26は、適応フィルタシステム20(減算器22)の出力信号として送信音用サプレッサ23に入力される段階の音声信号Y(k)((k)は時刻を示す)を入力し、後述するようにして所定の減衰率を可変して与え、音声信号Ys(k)として出力する。この音声信号Ys(k)が加算器25に対して入力される。
加算器25は、上記音声信号Ys(k)と、デコーダ14から出力される音声信号Xd(k)を入力して加算、合成し、音声信号X(k)として出力する。この音声信号X(k)が、適応フィルタシステム20(適応フィルタ21)に対して参照信号として入力されるとともに、分岐して、スピーカ3側に対しても出力されるようになっている。図3では、加算器25により、適応フィルタシステム20(適応フィルタ21)に入力させる段階のデコーダ14側からの音声信号と、適応フィルタシステム20側からの出力信号(送信音用サプレッサ23の出力)とを合成していたのであるが、図4では、加算器25によりデコーダ14の出力と、適応フィルタシステム20の出力とを合成した後の信号を、適応フィルタシステム20の参照信号及びスピーカ3への出力信号としている。
加算器25は、上記音声信号Ys(k)と、デコーダ14から出力される音声信号Xd(k)を入力して加算、合成し、音声信号X(k)として出力する。この音声信号X(k)が、適応フィルタシステム20(適応フィルタ21)に対して参照信号として入力されるとともに、分岐して、スピーカ3側に対しても出力されるようになっている。図3では、加算器25により、適応フィルタシステム20(適応フィルタ21)に入力させる段階のデコーダ14側からの音声信号と、適応フィルタシステム20側からの出力信号(送信音用サプレッサ23の出力)とを合成していたのであるが、図4では、加算器25によりデコーダ14の出力と、適応フィルタシステム20の出力とを合成した後の信号を、適応フィルタシステム20の参照信号及びスピーカ3への出力信号としている。
この場合の自己拡声音出力機能に対応する信号経路は下記のようになっている。
例えば、マイクロフォン2に対して自己側話者音声が入力されたとすると、その音声信号成分は、適応フィルタシステム20を経由して自己拡声音用サプレッサ26に対して入力される。自己拡声音用サプレッサ26を経由した自己側話者音声の音声信号成分は、加算器25からスピーカ3に対して出力されることになる。これにより、マイクロフォン2により収音された自己側話者音声が、同じ場所内のスピーカ3から音として放出されることになる。即ち、自己拡声音出力機能が実現される。
例えば、マイクロフォン2に対して自己側話者音声が入力されたとすると、その音声信号成分は、適応フィルタシステム20を経由して自己拡声音用サプレッサ26に対して入力される。自己拡声音用サプレッサ26を経由した自己側話者音声の音声信号成分は、加算器25からスピーカ3に対して出力されることになる。これにより、マイクロフォン2により収音された自己側話者音声が、同じ場所内のスピーカ3から音として放出されることになる。即ち、自己拡声音出力機能が実現される。
図5は、上記図4に示した構成の音声信号処理部11が、その動作中において実行するものとされる処理手順例を示している。
この図に示す処理は、音声信号処理部11がDSPにより構成されるものである場合には、このDSPに与えるインストラクションなどといわれるプログラムにより実現される。また、この図に示す処理を最初に実行開始するのにあたっては、適応フィルタシステム20の適応処理についても実行状態で開始されるものとする。確認のために述べておくと、適応フィルタシステム20が適応処理を実行している状態では、そのときに加算器25から出力されてくる信号X(k)を参照信号として入力するとともに、減算器22に入力されてくるマイクロフォン2からの収音音声信号M(k)を所望信号として、減算器22の出力である誤差信号(Y(k))が最小となるようにして、適応フィルタ21内部のFIRフィルタの係数ベクトルを可変していく。
この図に示す処理は、音声信号処理部11がDSPにより構成されるものである場合には、このDSPに与えるインストラクションなどといわれるプログラムにより実現される。また、この図に示す処理を最初に実行開始するのにあたっては、適応フィルタシステム20の適応処理についても実行状態で開始されるものとする。確認のために述べておくと、適応フィルタシステム20が適応処理を実行している状態では、そのときに加算器25から出力されてくる信号X(k)を参照信号として入力するとともに、減算器22に入力されてくるマイクロフォン2からの収音音声信号M(k)を所望信号として、減算器22の出力である誤差信号(Y(k))が最小となるようにして、適応フィルタ21内部のFIRフィルタの係数ベクトルを可変していく。
先ず、ステップS101においては、減算器22からの出力である誤差信号(音声信号)Y(k)のレベル(値)が、デコーダ14から加算器25に入力される音声信号X(d)のレベル(値)に対して、一定率以下(Y(k)≦Xd(k)*m(mは1未満の正による所定数))であるか否かについて判別するようにしている。
ここで、上記の音声信号Y(k)のレベルが音声信号X(d)に対して一定率以下となる状態とは、デコーダ14からは、有効とみなされる一定レベル以上の相手側話者音声の音声信号が入力されている一方で、マイクロフォン2においては、有効とされる一定以上のレベルの自己側話者音声は収音されていないという状態(相手側シングルトーク状態(第1の音声状態)という)に対応する。
つまり、デコーダ14から有効とみなされる一定レベル以上の相手側話者音声の音声信号が入力されていれば、この音声信号である音声信号Xd(k)は、一定以上の大きなレベル(振幅)値を有していることになる。一方、音声信号Y(k)については、適応フィルタシステム20が、相手側話者音声のエコー音をキャンセルする状態で収束していることを前提にすると、このときにスピーカ3から空間伝搬経路Eを経由してマイクロフォン2に到達してくる相手側話者音声のエコー音が適正にキャンセルされることになるから、非常に小さいレベルの状態となるのである。
ここで、上記の音声信号Y(k)のレベルが音声信号X(d)に対して一定率以下となる状態とは、デコーダ14からは、有効とみなされる一定レベル以上の相手側話者音声の音声信号が入力されている一方で、マイクロフォン2においては、有効とされる一定以上のレベルの自己側話者音声は収音されていないという状態(相手側シングルトーク状態(第1の音声状態)という)に対応する。
つまり、デコーダ14から有効とみなされる一定レベル以上の相手側話者音声の音声信号が入力されていれば、この音声信号である音声信号Xd(k)は、一定以上の大きなレベル(振幅)値を有していることになる。一方、音声信号Y(k)については、適応フィルタシステム20が、相手側話者音声のエコー音をキャンセルする状態で収束していることを前提にすると、このときにスピーカ3から空間伝搬経路Eを経由してマイクロフォン2に到達してくる相手側話者音声のエコー音が適正にキャンセルされることになるから、非常に小さいレベルの状態となるのである。
一方、上記「相手側シングルトークの状態」以外の状態(トーク状態)としては、
a.デコーダ14から有効とみなされる相手側話者音声の音声信号は出力されていないが、有効とみなされる一定レベル以上の自己側話者音声がマイクロフォン2にて収音されている状態(自己側シングルトーク状態(第2の音声状態)という)
b.デコーダ14から有効とみなされる相手側話者音声の音声信号が出力されているとともに、有効とみなされる一定レベル以上の自己側話者音声もマイクロフォン2にて収音されている状態(ダブルトーク状態(第2の音声状態)という)
c.デコーダ14から有効とみなされる相手側話者音声の音声信号が出力されていないとともに、有効とみなされる一定レベル以上の自己側話者音声もマイクロフォン2にて収音されていない状態(非トーク状態という)
の3状態があることになる。これらの状態では、音声信号Y(k)のレベルは、音声信号Xd(k)のレベルに対して上記の一定率を超えることになる。
つまり、先ず、自己側シングルトーク状態では、マイクロフォン2により収音された自己側話者音声の信号が適応フィルタシステム20によりキャンセルされることなく通過することになるので、音声信号Y(k)は、この自己側話者音声に対応した相応に大きなレベルとなる。これに対して音声信号Xd(k)は、デコーダ14からの有効とみなされる音声信号の出力が無いのであるから、非常に小さいレベルとなる。従って、誤差信号Y(k)のほうが信号Xd(k)よりも大きくなって、上記の一定率を超えることとなる。
また、ダブルトーク状態では、或る程度の差はあるものの、マイクロフォン2にて収音して得られる自己側話者音声の信号と、デコーダ14からの相手側話者音声の信号の何れも、有効とみなされる一定以上のレベルとなるので、音声信号Y(k)と音声信号Xd(k)のレベル差は相手側シングルトーク状態のときよりも小さくなり、従って上記の一定率を超えることとなる。
また、非トーク状態では、マイクロフォン2にて収音して得られる自己側話者音声の信号と、デコーダ14からの相手側話者音声の信号の何れも、有効とみなされる一定以上のレベルが得られないことになるが、この場合にも、音声信号Y(k)と音声信号Xd(k)のレベル差は相手側シングルトーク状態のときよりも小さくなり、従って上記の一定率を超えることとなる。
a.デコーダ14から有効とみなされる相手側話者音声の音声信号は出力されていないが、有効とみなされる一定レベル以上の自己側話者音声がマイクロフォン2にて収音されている状態(自己側シングルトーク状態(第2の音声状態)という)
b.デコーダ14から有効とみなされる相手側話者音声の音声信号が出力されているとともに、有効とみなされる一定レベル以上の自己側話者音声もマイクロフォン2にて収音されている状態(ダブルトーク状態(第2の音声状態)という)
c.デコーダ14から有効とみなされる相手側話者音声の音声信号が出力されていないとともに、有効とみなされる一定レベル以上の自己側話者音声もマイクロフォン2にて収音されていない状態(非トーク状態という)
の3状態があることになる。これらの状態では、音声信号Y(k)のレベルは、音声信号Xd(k)のレベルに対して上記の一定率を超えることになる。
つまり、先ず、自己側シングルトーク状態では、マイクロフォン2により収音された自己側話者音声の信号が適応フィルタシステム20によりキャンセルされることなく通過することになるので、音声信号Y(k)は、この自己側話者音声に対応した相応に大きなレベルとなる。これに対して音声信号Xd(k)は、デコーダ14からの有効とみなされる音声信号の出力が無いのであるから、非常に小さいレベルとなる。従って、誤差信号Y(k)のほうが信号Xd(k)よりも大きくなって、上記の一定率を超えることとなる。
また、ダブルトーク状態では、或る程度の差はあるものの、マイクロフォン2にて収音して得られる自己側話者音声の信号と、デコーダ14からの相手側話者音声の信号の何れも、有効とみなされる一定以上のレベルとなるので、音声信号Y(k)と音声信号Xd(k)のレベル差は相手側シングルトーク状態のときよりも小さくなり、従って上記の一定率を超えることとなる。
また、非トーク状態では、マイクロフォン2にて収音して得られる自己側話者音声の信号と、デコーダ14からの相手側話者音声の信号の何れも、有効とみなされる一定以上のレベルが得られないことになるが、この場合にも、音声信号Y(k)と音声信号Xd(k)のレベル差は相手側シングルトーク状態のときよりも小さくなり、従って上記の一定率を超えることとなる。
上記の相手側シングルトーク状態が発生していることで、ステップS101において肯定の判別結果が得られた場合には、ステップS102に進む。
ステップS102においては、自己拡声音用サプレッサ26について、一定以上の減衰率を設定することで、自己拡声音用サプレッサ26において入力信号を遮断して出力させないのと等価の状態とする。
ステップS102においては、自己拡声音用サプレッサ26について、一定以上の減衰率を設定することで、自己拡声音用サプレッサ26において入力信号を遮断して出力させないのと等価の状態とする。
ステップS102に続くステップS103においては、適応フィルタシステム20が充分に収束したとされる状態にあるか否かについての判別を行う。例えば、適応フィルタ21のFIRフィルタにおける係数ベクトルについて、充分に収束したものとしてみなされる所定の状態に至ったとされると、ここで肯定の判別結果が得られることになる。あるいは、例えば適応フィルタ21が、自身の収束の状態について、例えば収束度などとしての評価値として出力することが可能なように構成した上で、この評価値を参照するようにしても、ステップS103の判別処理を実現できる。
上記ステップS103において、先ず、適応フィルタシステム20が収束していないとして否定の判別結果が得られた場合には、ステップS104に進んで、適応フィルタシステム20については、その適応処理を実行させる(活性傾向の状態とする)ように制御する。例えば、このステップS104に至る時点まで、適応フィルタシステム20としての適応処理が実行されていたのであれば、ステップS104では、これまでの適応処理を継続させる。これに対して、適応フィルタシステム20としての適応処理が停止されていた状態にあったのであれば、ステップS104により適応処理の実行を開始させることになる。
確認のために述べておくと、ステップS102において自己拡声音用サプレッサ26は信号遮断状態が設定されていることから、このステップS104により実行される適応処理としては、先にも述べたように、適正、良好なものが得られる。
確認のために述べておくと、ステップS102において自己拡声音用サプレッサ26は信号遮断状態が設定されていることから、このステップS104により実行される適応処理としては、先にも述べたように、適正、良好なものが得られる。
これに対して、ステップS103において適応フィルタシステム20が収束しているとして肯定の判別結果が得られた場合には、ステップS105に進み、適応フィルタシステム20による適応処理の実行を停止させる(停止傾向の状態とする)。この場合にも、ステップS105に至るまでの時点において、適応フィルタシステム20の適応処理が実行されていたのであれば、ステップS105では、この適応処理が停止される状態に変更することになる。また、適応処理が停止されていたのであれば、この状態を継続させることになる。
ここで、例えば上記ステップS105により、適応処理が実行されていた状態から停止状態に変更された場合、適応フィルタシステム20の適応フィルタ21におけるFIRフィルタの係数ベクトルは、停止直前の設定状態が固定して維持されることになる。即ち、適応フィルタシステム20に入力される音声信号M(k)は、このようにして係数ベクトルが固定された状態で減算器22にて適応フィルタ21の出力信号(キャンセル用信号)Ep(k)と減算され、音声信号Y(k)として出力されることになる。
なお、相手側シングルトーク状態の場合には、適応フィルタシステムが収束している状態にあって適応処理を継続させたとしても、特に問題になることはない。しかし、ステップS105のようにして適応処理を停止させれば、例えばその間は、適応処理に必要とされる演算を実行しなくともよくなるので、処理負担やリソースの軽減を図ることができる。
上記ステップS104、S105の手順を実行したとされると、例えばステップS101に戻る。
ここで、例えば上記ステップS105により、適応処理が実行されていた状態から停止状態に変更された場合、適応フィルタシステム20の適応フィルタ21におけるFIRフィルタの係数ベクトルは、停止直前の設定状態が固定して維持されることになる。即ち、適応フィルタシステム20に入力される音声信号M(k)は、このようにして係数ベクトルが固定された状態で減算器22にて適応フィルタ21の出力信号(キャンセル用信号)Ep(k)と減算され、音声信号Y(k)として出力されることになる。
なお、相手側シングルトーク状態の場合には、適応フィルタシステムが収束している状態にあって適応処理を継続させたとしても、特に問題になることはない。しかし、ステップS105のようにして適応処理を停止させれば、例えばその間は、適応処理に必要とされる演算を実行しなくともよくなるので、処理負担やリソースの軽減を図ることができる。
上記ステップS104、S105の手順を実行したとされると、例えばステップS101に戻る。
ステップS101にて否定の判別結果が得られた場合、即ち、自己側シングルトーク状態、ダブルトーク状態、及び非トーク状態のうちの何れかの状態の場合には、ステップS106に進む。
ステップS106においては、先のステップS103と同様にして、適応フィルタシステム20が収束しているか否かについての判別を行う。ただし、どの程度の収束度である場合に適応フィルタシステム20が収束している状態であるとして判別するのかについては、相手側シングルトーク状態と、これ以外のトーク状態であることに対応させて、ステップS103とステップS106とでそれぞれ異なる条件が設定されてもよい。さらには、ステップS106の実際としては、自己側シングルトーク状態、ダブルトーク状態、非トーク状態のそれぞれに適合させた収束度の条件を設定したうえで、判別処理を行うようにされてもよい。
ステップS106においては、先のステップS103と同様にして、適応フィルタシステム20が収束しているか否かについての判別を行う。ただし、どの程度の収束度である場合に適応フィルタシステム20が収束している状態であるとして判別するのかについては、相手側シングルトーク状態と、これ以外のトーク状態であることに対応させて、ステップS103とステップS106とでそれぞれ異なる条件が設定されてもよい。さらには、ステップS106の実際としては、自己側シングルトーク状態、ダブルトーク状態、非トーク状態のそれぞれに適合させた収束度の条件を設定したうえで、判別処理を行うようにされてもよい。
ステップS106において肯定の判別結果が得られた場合には、ステップS107に進み、自己拡声音用サプレッサ26について一定以下の所定の減衰率を設定することで、自己拡声音用サプレッサ26において入力信号を通過させるのと等価の状態とする。これに対して、ステップS106において肯定の判別結果が得られた場合には、ステップS108により、一定以上に対応した所定の減衰率(ステップS102と同じ減衰率でなくともよい)を設定することで、自己拡声音用サプレッサ26において入力信号を遮断して出力させないのと等価の状態とする。
ステップS107、S108の手順を実行した後は、ステップS109により、先のステップS105と同様にして、適応フィルタシステム20の適応処理を停止させ、ステップS101に戻る。確認のために述べておくと、このステップS109により、これまで実行されていた適応処理を停止させることとなった場合には、ステップS105の場合と同様に、適応フィルタシステム20の適応フィルタ21におけるFIRフィルタの係数ベクトルは、停止直前の設定状態が固定して維持されることとなる。
これまでに説明した図5の処理によっては、近端側の音声通信端末装置1の通話状態(トーク状態)に応じて、適応フィルタシステム20の適応処理の動作実行と自己拡声音用サプレッサ26について、次のようにして制御することになる。
先ず、相手側シングルトーク状態では、ステップS102からステップS103を経て、ステップS104又はステップS105の何れかの処理を行うことになる。これにより、先ず、自己拡声音用サプレッサ26については、ステップS102により信号を遮断して出力させない状態が設定される。
先ず、相手側シングルトーク状態では、ステップS102からステップS103を経て、ステップS104又はステップS105の何れかの処理を行うことになる。これにより、先ず、自己拡声音用サプレッサ26については、ステップS102により信号を遮断して出力させない状態が設定される。
上記のようにして、相手側シングルトーク状態に対応させて自己拡声音用サプレッサ26について信号遮断状態を設定するのは、次のような理由による。
先ずは、相手側シングルトーク状態では、有効とみなされる自己側話者音声は収音されている状態にはない、即ち、自己拡声が必要な音声信号は得られていない。従って、自己拡声音用サプレッサ26について信号遮断状態を設定したとしても何ら問題はない。なお、このようにして自己拡声音用サプレッサ26を信号遮断状態としたときの音声信号処理部11は、通常の自己拡声音出力機能を有さないエコーキャンセルシステムと等価の回路構成を形成しているといえる。
また、自己拡声音用サプレッサ26が信号通過状態のままであると、相手側シングルトーク状態において、実際の適応フィルタシステム20が充分に収束していない状態のときには、音声信号Y(k)に含まれるエコー音の残留成分が、自己拡声音出力のための系(自己拡声音用サプレッサ26、合成器25)を経由して適応フィルタ21、及びスピーカ3に対して再び入力されることになる。適応フィルタシステム20にとっての参照信号は、デコーダ14からの音声信号のみとされるべきであって、上記のようにして再入力される音声信号成分は、参照信号に含まれるべき成分ではない。このために、自己拡声音用サプレッサ26経由の音声信号が参照信号として適応フィルタシステム20に入力されると、適応フィルタシステム20の適正な適応処理が阻害される可能性が出てくる。また、現実においては適応フィルタシステム20が充分に収束している状態であっても、或る程度のエコー音の残留成分が誤差信号Y(k)に現れる可能性もある。
そこで、ステップS102により自己拡声音用サプレッサ26について信号遮断状態を設定することで、正常で良好な適応フィルタシステム20の適応処理を確保するものである。
先ずは、相手側シングルトーク状態では、有効とみなされる自己側話者音声は収音されている状態にはない、即ち、自己拡声が必要な音声信号は得られていない。従って、自己拡声音用サプレッサ26について信号遮断状態を設定したとしても何ら問題はない。なお、このようにして自己拡声音用サプレッサ26を信号遮断状態としたときの音声信号処理部11は、通常の自己拡声音出力機能を有さないエコーキャンセルシステムと等価の回路構成を形成しているといえる。
また、自己拡声音用サプレッサ26が信号通過状態のままであると、相手側シングルトーク状態において、実際の適応フィルタシステム20が充分に収束していない状態のときには、音声信号Y(k)に含まれるエコー音の残留成分が、自己拡声音出力のための系(自己拡声音用サプレッサ26、合成器25)を経由して適応フィルタ21、及びスピーカ3に対して再び入力されることになる。適応フィルタシステム20にとっての参照信号は、デコーダ14からの音声信号のみとされるべきであって、上記のようにして再入力される音声信号成分は、参照信号に含まれるべき成分ではない。このために、自己拡声音用サプレッサ26経由の音声信号が参照信号として適応フィルタシステム20に入力されると、適応フィルタシステム20の適正な適応処理が阻害される可能性が出てくる。また、現実においては適応フィルタシステム20が充分に収束している状態であっても、或る程度のエコー音の残留成分が誤差信号Y(k)に現れる可能性もある。
そこで、ステップS102により自己拡声音用サプレッサ26について信号遮断状態を設定することで、正常で良好な適応フィルタシステム20の適応処理を確保するものである。
なお、相手側シングルトーク状態において、ら、例えば一時的に自己話者音声がマイクロフォン2により収音されてダブルトーク状態に遷移するような状況もあると考えられる。しかし、相手側シングルトーク状態においては、会議参加者は、デコーダ14から出力される相手側話者音声を主体として聴くことになるので、そのときに例えば一時的に同じ場所内において或る会議参加者が声を発したとしても、これがスピーカから聴こえないことについて、会議参加者は違和感を持たない。従って、上記のような状態遷移が生じたとしても、自己拡声音用サプレッサ26について信号遮断状態を設定しておくことについては、特に問題を生じない。
また、送信音用サプレッサ23は、先にも述べたように、適応フィルタシステム20の収束時に出力される音声信号Y(k)におけるエコー音の残留成分を抑制することなどに使用されるもので、この点で、送信音用サプレッサ23における減衰率の調整は相応に微妙で、制御も或る程度高度なものとなる。例えば極端な減衰率を設定すると、相手方の音声通信端末装置側にて聴こえる音声が不自然なものとなる可能性が高くなる。これに対して、相手側シングルトーク状態時においては、自己拡声音用サプレッサ26について、信号出力遮断のために、例えば100%、若しくはこれに近い強い減衰率を設定したとしても、先に述べたようにして何ら支障はない。
また、同じ相手側シングルトーク状態において、ステップS103の判別結果として、適応フィルタシステム20が収束していない状態にあるときには、適応フィルタシステム20が適応処理を実行する状態として(ステップS103、S104)、収束している状態にあるときには、適応フィルタシステム20の適応処理が停止される状態となるようにしている(ステップS103、S105)
先ず、相手側シングルトーク状態は、本来キャンセルすべき相手側話者音声として有効な音声信号成分が近端側に入力されている状態である。このことは、適応フィルタシステム20が収束していない状態なのであれば、相手側話者音声のエコー音がキャンセルされる状態で収束するようにして適応フィルタシステム20について積極的に適応処理を実行させるべきときであるということがいえる。
そこで、適応フィルタシステム20が収束していない状態のときには、その適応処理を実行させることとしている。そして、本実施の形態においては、先にも述べたように、ステップS104の処理によって、自己拡声音用サプレッサ26が信号遮断状態とされることで、適応フィルタシステム20に対する参照信号(X(k))は、デコーダ14からの音声信号Xd(k)の成分のみとなる。このために、ステップS104に対応して実行される適応処理は、本来のキャンセル対象音をキャンセルするための適正な動作となるものである。
先ず、相手側シングルトーク状態は、本来キャンセルすべき相手側話者音声として有効な音声信号成分が近端側に入力されている状態である。このことは、適応フィルタシステム20が収束していない状態なのであれば、相手側話者音声のエコー音がキャンセルされる状態で収束するようにして適応フィルタシステム20について積極的に適応処理を実行させるべきときであるということがいえる。
そこで、適応フィルタシステム20が収束していない状態のときには、その適応処理を実行させることとしている。そして、本実施の形態においては、先にも述べたように、ステップS104の処理によって、自己拡声音用サプレッサ26が信号遮断状態とされることで、適応フィルタシステム20に対する参照信号(X(k))は、デコーダ14からの音声信号Xd(k)の成分のみとなる。このために、ステップS104に対応して実行される適応処理は、本来のキャンセル対象音をキャンセルするための適正な動作となるものである。
また、上記図5の処理によれは、ステップS101にて否定の判別結果が得られた場合に対応する、自己側シングルトーク状態、ダブルトーク状態、若しくは非トーク状態にあっては、自己拡声音用サプレッサ26について、適応フィルタシステム20が収束している状態に対応しては信号通過状態を設定し(S106、S107)、収束していない状態に対応しては信号遮断状態を設定する(S106、S108)ことになる。また、適応フィルタシステム20については、一律に適応処理を停止させた状態とする(S109)ことになる。かかる音声信号処理部11の状態を設定する理由について、上記の3状態ごとに対応させて説明する。
先ず、ダブルトーク状態、及び自己側シングルトーク状態との対応を考えてみる。ダブルトーク状態は、有効とみなされる相手側話者音声が信号Xd(k)として得られているともに、有効とされる自己側話者音声が音声信号(所望信号)M(k)として得られている状態である。一方、自己側シングルトーク状態は、有効とされる自己側話者音声が音声信号(所望信号)M(k)として得られてはいるが、有効とみなされる相手側話者音声は信号Xd(k)として得られていない状態であり、自己側話者音声の音声信号が得られているという点で、上記のダブルトーク状態と共通している。
このようにして、少なくとも自己側話者音声の音声信号が得られている状態では、自己音声拡声機能を有している以上、この自己側話者音声の音声信号についてはできるだけスピーカ3から再生出力(自己拡声)させるべきであることになる。このことからすれば、自己拡声音用サプレッサ26については信号通過状態を設定すればよいことになる。
しかし、適応フィルタシステム20は、本来は、参照信号Xd(k)として、デコーダ14からの相手側話者音声に対応する音声信号成分のみを入力し、かつ、所望信号M(k)としても、スピーカ3から空間伝経路E(k)を経由してマイクロフォン2に到達してきた音声の音声信号成分のみを入力することにより、相手側話者音声のエコー音をキャンセルするようにして収束することができるものである。
仮に、適応フィルタシステム20が収束していない状態にあって、自己拡声音用サプレッサ26を信号通過状態にしてしまうと、ダブルトーク状態では、適応フィルタシステム20の参照信号X(k)には、相当量の自己拡声音用サプレッサ26から出力された信号Ys(k)、つまり自己側話者音声の音声信号成分が含まれることになる(自己側シングルトーク状態においては、自己側話者音声の音声信号成分が支配的になる)。また、所望信号M(k)には、マイクロフォン2に向かって発話して得られた自己側話者音声の成分も相当量が含まれることになる(自己側シングルトーク状態においては、自己側話者音声の音声信号成分が支配的になる)。この状態で適応フィルタシステム20の適応処理を実行させたとすると、適応フィルタシステム20の本来の目的である、相手側話者音声のエコー音をキャンセルできる状態に収束していくことができず、かえって、収束からは遠い係数ベクトルが設定されていってしまうようなことにもなる。すると、このダブルトーク状態において、相手側話者音声のエコー音は多く残留することになって、スピーカ3から聴こえる音は非常に聞き苦しいものとなってしまう。また、以降において、例えば相手側シングルトーク状態に遷移したときなどに収束に至るまでの時間もそれだけ長くなってしまう。
しかし、適応フィルタシステム20は、本来は、参照信号Xd(k)として、デコーダ14からの相手側話者音声に対応する音声信号成分のみを入力し、かつ、所望信号M(k)としても、スピーカ3から空間伝経路E(k)を経由してマイクロフォン2に到達してきた音声の音声信号成分のみを入力することにより、相手側話者音声のエコー音をキャンセルするようにして収束することができるものである。
仮に、適応フィルタシステム20が収束していない状態にあって、自己拡声音用サプレッサ26を信号通過状態にしてしまうと、ダブルトーク状態では、適応フィルタシステム20の参照信号X(k)には、相当量の自己拡声音用サプレッサ26から出力された信号Ys(k)、つまり自己側話者音声の音声信号成分が含まれることになる(自己側シングルトーク状態においては、自己側話者音声の音声信号成分が支配的になる)。また、所望信号M(k)には、マイクロフォン2に向かって発話して得られた自己側話者音声の成分も相当量が含まれることになる(自己側シングルトーク状態においては、自己側話者音声の音声信号成分が支配的になる)。この状態で適応フィルタシステム20の適応処理を実行させたとすると、適応フィルタシステム20の本来の目的である、相手側話者音声のエコー音をキャンセルできる状態に収束していくことができず、かえって、収束からは遠い係数ベクトルが設定されていってしまうようなことにもなる。すると、このダブルトーク状態において、相手側話者音声のエコー音は多く残留することになって、スピーカ3から聴こえる音は非常に聞き苦しいものとなってしまう。また、以降において、例えば相手側シングルトーク状態に遷移したときなどに収束に至るまでの時間もそれだけ長くなってしまう。
このことに基づいて、ダブルトーク状態若しくは自己側シングルトーク状態にあって、先ず、適応フィルタシステム20が収束しているときには、自己拡声音用サプレッサ26を信号通過状態としたうえで、適応フィルタシステム20については適応処理が停止されるようにしている。
これにより、先ず、マイクロフォン2により収音される自己側話者音声の音声信号は、適応フィルタシステム20から自己拡声音用サプレッサ26を通過し、さらに加算器25を経由してスピーカ3から音として出力されることになる。つまり、自己拡声音として出力される。ただし、このときに適応フィルタシステム20の適応処理は、これまでの収束した状態(係数ベクトル)が固定された状態で停止している。このために、適応フィルタシステム20が自己側話者音声の音声信号が支配的な参照信号Xd(k)を入力して収束状態から離れていくような変化を生じることはない。
また、このときには、スピーカ3からマイクロフォン2に対して空間伝搬経路Eを経由して伝達する伝達音E(k)には、自己側話者音声の成分が相応に含まれる、あるいは支配的となっており、これがエコー音として生じることになる。しかし、この自己側話者音声のエコー音も、空間伝搬経路Eを経由してスピーカ3からマイクロフォン2に伝達される。従って、適応フィルタシステム20が収束状態で固定されていることで、相手側話者音声のエコー音とともに、自己側話者音声のエコー音も適正にキャンセルされることになる。
これにより、先ず、マイクロフォン2により収音される自己側話者音声の音声信号は、適応フィルタシステム20から自己拡声音用サプレッサ26を通過し、さらに加算器25を経由してスピーカ3から音として出力されることになる。つまり、自己拡声音として出力される。ただし、このときに適応フィルタシステム20の適応処理は、これまでの収束した状態(係数ベクトル)が固定された状態で停止している。このために、適応フィルタシステム20が自己側話者音声の音声信号が支配的な参照信号Xd(k)を入力して収束状態から離れていくような変化を生じることはない。
また、このときには、スピーカ3からマイクロフォン2に対して空間伝搬経路Eを経由して伝達する伝達音E(k)には、自己側話者音声の成分が相応に含まれる、あるいは支配的となっており、これがエコー音として生じることになる。しかし、この自己側話者音声のエコー音も、空間伝搬経路Eを経由してスピーカ3からマイクロフォン2に伝達される。従って、適応フィルタシステム20が収束状態で固定されていることで、相手側話者音声のエコー音とともに、自己側話者音声のエコー音も適正にキャンセルされることになる。
また、適応フィルタシステム20が収束していないときには、自己拡声音用サプレッサ26について信号遮断状態を設定することとなる。仮に自己側話者音声をスピーカ3から出力させたとすると、適応フィルタシステム20は収束していないので、この自己側話者音声についてのエコー音が多く残留して、非常に聴きにくいものとなってしまい、ハウリングが生じる可能性もそれだけ高くなる。そこで、この場合にはエコー音やハウリングをできるだけ抑制、キャンセルすべきことを優先することとして、自己側話者音声をスピーカ3から出力させないようにしているものである。なお、ダブルトーク状態においては、収束度合いに応じて残留する相手側話者音声のエコー音が聴こえることになるが、これに自己側話者音声のエコー音も加わる状況と比較すれば、よりエコー音が抑制された状態が得られていることになるものである。
また、このときには適応フィルタシステム20の適応処理が停止されるが、これによっては、所望信号M(k)として自己側話者音声の成分が含まれる(あるいは支配的である)のにもかかわらず、適応フィルタシステム20がこれ以上収束から離れていく方向に変化していくことはなくなる。
また、このときには適応フィルタシステム20の適応処理が停止されるが、これによっては、所望信号M(k)として自己側話者音声の成分が含まれる(あるいは支配的である)のにもかかわらず、適応フィルタシステム20がこれ以上収束から離れていく方向に変化していくことはなくなる。
また、非トーク状態は、相手側話者音声、自己側話者音声の音声信号が何れも得られていない状態であり、従って、相手側話者音声の音声信号からなる有効な参照信号X(d)と、相手側話者音声のエコー音の音声信号からなる有効な所望信号M(k)は、何れも得られていない状態であることになる。この場合には、適応フィルタシステム20により適応処理を実行させたとしても収束していく動作が得られない。従って、適応フィルタシステム20の適応処理が停止されることで、やはり、適応フィルタシステム20が、より収束から離れた状態に遷移していってしまうことが防がれ、例えば相手側シングルトーク状態に遷移したときには、可能な範囲で収束に最も近いとされる状態から適応処理を開始させることができる。
そのうえで、適応フィルタシステム20が収束している状態のときには自己拡声音用サプレッサ26について信号通過状態を設定しておくことで、例えば、非トーク状態から、自己側シングルトーク状態若しくはダブルトーク状態などの自己側話者音声の音声信号が信号M(k)として得られる状態に遷移したときには、例えばその冒頭部分が途切れるようなことなく、迅速に、自己側話者音声をスピーカ3から出力させることが可能になる。
また、適応フィルタシステム20が収束していない状態に対応して自己拡声音用サプレッサ26を信号停止状態にしておけば、やはり、非トーク状態から、自己側シングルトーク状態若しくはダブルトーク状態(自己側話者音声の音声信号が信号M(k)として得られる状態)に遷移したときには、既に、先に説明した自己側シングルトーク状態及びダブルトーク状態時において、適応フィルタシステム20が収束していないときに対応した音声信号処理部11の状態が得られていることになるものである。
そのうえで、適応フィルタシステム20が収束している状態のときには自己拡声音用サプレッサ26について信号通過状態を設定しておくことで、例えば、非トーク状態から、自己側シングルトーク状態若しくはダブルトーク状態などの自己側話者音声の音声信号が信号M(k)として得られる状態に遷移したときには、例えばその冒頭部分が途切れるようなことなく、迅速に、自己側話者音声をスピーカ3から出力させることが可能になる。
また、適応フィルタシステム20が収束していない状態に対応して自己拡声音用サプレッサ26を信号停止状態にしておけば、やはり、非トーク状態から、自己側シングルトーク状態若しくはダブルトーク状態(自己側話者音声の音声信号が信号M(k)として得られる状態)に遷移したときには、既に、先に説明した自己側シングルトーク状態及びダブルトーク状態時において、適応フィルタシステム20が収束していないときに対応した音声信号処理部11の状態が得られていることになるものである。
このようにして本実施の形態による音声信号処理装置11としての構成を採ることで、適応フィルタシステム20が収束した状態に至ってさえいれば、相手側シングルトーク状態時だけではなく、ダブルトーク状態時においても、相手側話者音声のエコー音をキャンセル可能となる。さらに、ダブルトーク状態時においては、自己側話者音声のエコー音もキャンセルされるようになっている。また、自己側シングルトーク状態においても、自己側話者音声のエコー音がキャンセルされる。即ち、相手側話者音声のエコー音と自己側話者音声のエコー音の双方を適正にキャンセルすることが可能とされている。
また、この場合には、例えば特許文献1などのようにして、周波数分割部であるとかゲイン調整器などを用いるのではなく、相手側話者音声のエコー音と自己側話者音声のエコー音の何れについても、適応フィルタによるエコーキャンセルが行われるようにされていることから、例えばエコーキャンセル処理後の音声は、不自然な音量変化であるとか、周波数帯域の一部欠落による不自然な音質変化などを生じることがなく、高品位なものが得られる。また、適応フィルタは一般にデジタル信号処理により実現するので、デジタル信号処理による高音質化も図られる。このようにして、本実施の形態によるエコーキャンセル機能は、相手側話者音声のエコー音と自己側話者音声のエコー音の双方に対応するものとして高い性能を得ている。
さらに、本実施の形態の構成では、本来的には、相手側話者音声のエコー音をキャンセルするための適応フィルタを、自己側話者音声のエコー音のキャンセルにも用いるようにされている。つまり、自己側話者音声のエコー音キャンセルのために、新たに適応フィルタを設ける構成としていないものであり、その分の演算量、リソースの低減が図られることにもなる。
また、この場合には、例えば特許文献1などのようにして、周波数分割部であるとかゲイン調整器などを用いるのではなく、相手側話者音声のエコー音と自己側話者音声のエコー音の何れについても、適応フィルタによるエコーキャンセルが行われるようにされていることから、例えばエコーキャンセル処理後の音声は、不自然な音量変化であるとか、周波数帯域の一部欠落による不自然な音質変化などを生じることがなく、高品位なものが得られる。また、適応フィルタは一般にデジタル信号処理により実現するので、デジタル信号処理による高音質化も図られる。このようにして、本実施の形態によるエコーキャンセル機能は、相手側話者音声のエコー音と自己側話者音声のエコー音の双方に対応するものとして高い性能を得ている。
さらに、本実施の形態の構成では、本来的には、相手側話者音声のエコー音をキャンセルするための適応フィルタを、自己側話者音声のエコー音のキャンセルにも用いるようにされている。つまり、自己側話者音声のエコー音キャンセルのために、新たに適応フィルタを設ける構成としていないものであり、その分の演算量、リソースの低減が図られることにもなる。
図6は、実施の形態の変形例としての音声通信端末装置1の構成例を示している。この図には、図4と同様にして、音声信号処理部11の内部構成例が示されている。
先ず、この図においては、2つのマイクロフォン2A、2Bが音声通信端末装置1と接続されている。つまり、システム構成としては、1つの音声通信端末装置1に対して、2つのマイクロフォン2が備えられるものとなる。これは、実際においては、1つの会議場としての場所に2つのマイクロフォンが備えられることを意味するが、これによって、会議参加者は、発言の際に、マイクロフォン2A,2Bのうちで近くに置かれている方を使用できることになり、例えばマイクロフォンを持ち回ることが少なくなって、それだけ会議は円滑に進むことになる。このようにして複数のマイクロフォンを備えることは、会議場が広くなるほど有効になってくる。
先ず、この図においては、2つのマイクロフォン2A、2Bが音声通信端末装置1と接続されている。つまり、システム構成としては、1つの音声通信端末装置1に対して、2つのマイクロフォン2が備えられるものとなる。これは、実際においては、1つの会議場としての場所に2つのマイクロフォンが備えられることを意味するが、これによって、会議参加者は、発言の際に、マイクロフォン2A,2Bのうちで近くに置かれている方を使用できることになり、例えばマイクロフォンを持ち回ることが少なくなって、それだけ会議は円滑に進むことになる。このようにして複数のマイクロフォンを備えることは、会議場が広くなるほど有効になってくる。
そして、図4に示される音声信号処理部11は、2本のマイクロフォン2A、2Bの接続に対応したエコーキャンセル機能と自己拡声音出力機能とが与えられるようにして構成されている。このために、適応フィルタシステム20A・20B、送信音用サプレッサ23A・23B、自己拡声音用サプレッサ26A・26B、加算器25A、25B、27A、27B、28を備える。
ここで、図6におけるマイクロフォン2Aが図4に示されるマイクロフォン2に対応するものとすると、上記した部位のうち、適応フィルタシステム20A、自己拡声音用サプレッサ26A、送信音用サプレッサ23A、加算器25Aが、それぞれ、図4における適応フィルタシステム20、自己拡声音用サプレッサ26、送信音用サプレッサ23、加算器25に相当する。そのうえで、図6に示される構成では、マイクロフォン2Bが追加されたことに応じて、適応フィルタシステム20B、自己拡声音用サプレッサ26B、送信音用サプレッサ23B、加算器25B、27A、27B、28をさらに設けている。
ここで、図6におけるマイクロフォン2Aが図4に示されるマイクロフォン2に対応するものとすると、上記した部位のうち、適応フィルタシステム20A、自己拡声音用サプレッサ26A、送信音用サプレッサ23A、加算器25Aが、それぞれ、図4における適応フィルタシステム20、自己拡声音用サプレッサ26、送信音用サプレッサ23、加算器25に相当する。そのうえで、図6に示される構成では、マイクロフォン2Bが追加されたことに応じて、適応フィルタシステム20B、自己拡声音用サプレッサ26B、送信音用サプレッサ23B、加算器25B、27A、27B、28をさらに設けている。
先ず、適応フィルタシステム20Bにはマイクロフォン2Bの収音音声信号を入力させたうえで、自己拡声音用サプレッサ26B、送信音用サプレッサ23B、加算器25Bとともに、適応フィルタシステム20A、自己拡声音用サプレッサ26A、送信音用サプレッサ23A、加算器25Aと同様の接続態様により接続することとしている。
また、この場合においては、送信音用サプレッサ23A、23Bの各出力を、加算器28により合成したうえで、相手方の音声通信端末装置に対する送信信号としてエンコーダ13に対して入力させることとしている。
また、この場合においてデコーダ14から出力される音声信号は、分岐して加算器27A、27Bに対して入力されるようになっている。加算器27Aでは、デコーダ14からの音声信号と、自己拡声音用サプレッサ26Bからの音声信号とを合成して加算器25Aに入力させることとしている。加算器25Aは、加算器27Aからの音声信号と、自己拡声音用サプレッサ26Aからの音声信号とを合成し、この音声信号を、適応フィルタシステム20Aの参照信号として出力すると共に、分岐してスピーカ3に対して出力する。
また、加算器27Bでは、デコーダ14からの音声信号と、自己拡声音用サプレッサ26Aからの音声信号とを合成して加算器25Bに出力する。加算器25Bでは、加算器27Bからの音声信号と、自己拡声音用サプレッサ26Bからの音声信号とを合成して適応フィルタシステム20Bの参照信号として出力するようにされている。
この構成では、先ず、マイクロフォン2Aにより得られる収音音声信号は、適応フィルタシステム20A、送信音用サプレッサ23A、合成器28を介してデコーダ14に入力され、同じく、マイクロフォン2Bにより得られる収音音声信号は、適応フィルタシステム20B、送信音用サプレッサ23B、合成器28を介してデコーダ14に入力される。この信号系により、例えばマイクロフォン2Aにより有効なレベルで収音されたとする自己側話者音声と、マイクロフォン2Bにより有効なレベルで収音されたとする自己側話者音声は、何れも、相手側の音声通信端末装置に対して送信することが可能となっている。
また、図6に示される構成では、スピーカ3からは、デコーダ14からの音声信号を基とする相手側話者音声と、マイクロフォン2Aにより収音される自己側話者音声(第1の自己側話者音声)と、マイクロフォン2Bにより収音される自己側話者音声(第2の自己側話者音声)とが放出されることになる。そして、空間伝搬経路E1を経由しては、スピーカ3からマイクロフォン2Aに対して、相手側話者音声、第1の自己側話者音声、第2の自己側話者音声の各エコー音の成分が到達してくることになる。同様にして、スピーカ3からマイクロフォン2Bに対しても、空間伝搬経路E2を経由して、相手側話者音声、第1の自己側話者音声、第2の自己側話者音声の各エコー音の成分が到達してくることになる。すると、この変形例においては、上記の空間伝搬経路E1、E2を経由して、マイクロフォン2A、2Bにて収音される上記各エコー音成分をキャンセルする必要があることになる。
上記の必要性に対応して、先ず、適応フィルタシステム20Aに対する参照信号、即ち加算器25Aの出力は、デコーダ14からの相手側話者音声の音声信号と、自己拡声音用サプレッサ26Aを介して得られるマイクロフォン2Aにより得られた収音音声信号と、自己拡声音用サプレッサ26Bを介して得られるマイクロフォン2Bにより得られた収音音声信号とを合成したものとなるようにされている。適応フィルタシステム20Aは、この参照信号を入力するとともに、マイクロフォン2Aから入力される信号を所望信号として適応処理を実行する。 同様にして、適応フィルタシステム20Bに対する参照信号、即ち加算器25Bの出力は、デコーダ14からの音声信号と、自己拡声音用サプレッサ26Bを介して得られるマイクロフォン2Bにより得られた収音音声信号と、自己拡声音用サプレッサ26Aを介して得られるマイクロフォン2Aにより得られた収音音声信号とを合成したものとなるようにされている。適応フィルタシステム20Bは、この参照信号を入力するとともに、マイクロフォン2Bから入力される信号を所望信号として適応処理を実行する。
そのうえで、この変形例にあっては、マイクロフォン2Aに対応する[適応フィルタシステム20A、自己拡声音用サプレッサ26A]の組と、マイクロフォン2Bに対応する[適応フィルタシステム20A、自己拡声音用サプレッサ26A]の組は、それぞれ、独立して、図5に示した手順を実行するようにされる。
このような構成を採ることにより、先ず、適応フィルタシステム20A(減算器22)の出力としては、マイクロフォン2Aにより収音して得られる収音音声信号から下記の音に対応する音声信号成分が適正にキャンセルされた信号が得られる。つまり、相手側話者音声のエコー音、マイクロフォン2Aにより有効に収音されて帰還してきた自己側話者音声のエコー音、さらにマイクロフォン2Bにより有効に収音されてスピーカ3からマイクロフォン2Aに到達してきた自己側話者音声がキャンセルされる。
また、適応フィルタシステム20B(減算器22)の出力としては、マイクロフォン2Bにより収音して得られる収音音声信号から下記の音に対応する音声信号成分が適正にキャンセルされた信号が得られる。つまり、相手側話者音声のエコー音、マイクロフォン2Bにより有効に収音されて帰還してきた自己側話者音声のエコー音、さらにマイクロフォン2Aにより収音されてスピーカ3からマイクロフォン2Bに到達してきた自己側話者音声がキャンセルされる。
また、適応フィルタシステム20B(減算器22)の出力としては、マイクロフォン2Bにより収音して得られる収音音声信号から下記の音に対応する音声信号成分が適正にキャンセルされた信号が得られる。つまり、相手側話者音声のエコー音、マイクロフォン2Bにより有効に収音されて帰還してきた自己側話者音声のエコー音、さらにマイクロフォン2Aにより収音されてスピーカ3からマイクロフォン2Bに到達してきた自己側話者音声がキャンセルされる。
また、確認のために述べておくと、マイクロフォン2A、2Bのうち、一方のマイクロフォンにおいてのみ有効なレベルの自己側話者音声が収音され、他方のマイクロフォンには有効なレベルの自己側話者音声が収音されていない状況では、図5の手順は、次のようになる。
ここでは、自己側話者音声の入力のために、マイクロフォン2Aのほうが使用されており、マイクロフォン2Bのほうは使用されていない状況を想定する。
この状況では、マイクロフォン2Aにより収音される音には、第1の自己側話者音声が有効なレベルで得られることになる。これは、[適応フィルタシステム20A、自己拡声音用サプレッサ26A]の組側から見れば、自己側シングルトーク状態、若しくはダブルトーク状態が発せ居ていることになる。このため、音声信号Y1(k)と音声信号Xd(k)のレベルの比は一定範囲内に収まることになり、[適応フィルタシステム20A、自己拡声音用サプレッサ26A]の組側による図5のステップS101によっては否定の判別結果が得られることになる。このため、自己拡声音用サプレッサ26Aは適応フィルタシステム20が収束していれば信号通過状態とし、収束していなければ信号遮断状態とすることになる。また、適応フィルタシステム20Aは適応処理を停止する。
一方、マイクロフォン2A、2Bの距離は相応に離れているとすると、マイクロフォン2Aに向かって話している第1の自己側話者音声の成分は、マイクロフォン2Bでは収音されないことになる。つまり、会議場内では、自己側シングルトーク状態、若しくはダブルトーク状態に相当した状況となっているであるとしても、マイクロフォン2B側の系からみた場合には、実質、非トーク状態(相手側話者音声の音声信号が得られていない場合)、若しくは相手側シングルトーク状態(相手側話者音声の音声信号が得られている場合)であることになる。適正な適応フィルタシステム20の動作、及び自己拡声音出力のための動作が得られるようにすることを求めれば、このような場合には、マイクロフォン2B側の系に関しては、非トーク状態若しくは相手側シングルトーク状態に対応させた適応フィルタシステム20B及び自己拡声音用サプレッサ26Bの動作とすることが好ましい。本実施の形態では、先の図5の手順を適用すれば、実質的な非トーク状態若しくは相手側シングルトーク状態であることが的確に判断されることになる。
ここでは、自己側話者音声の入力のために、マイクロフォン2Aのほうが使用されており、マイクロフォン2Bのほうは使用されていない状況を想定する。
この状況では、マイクロフォン2Aにより収音される音には、第1の自己側話者音声が有効なレベルで得られることになる。これは、[適応フィルタシステム20A、自己拡声音用サプレッサ26A]の組側から見れば、自己側シングルトーク状態、若しくはダブルトーク状態が発せ居ていることになる。このため、音声信号Y1(k)と音声信号Xd(k)のレベルの比は一定範囲内に収まることになり、[適応フィルタシステム20A、自己拡声音用サプレッサ26A]の組側による図5のステップS101によっては否定の判別結果が得られることになる。このため、自己拡声音用サプレッサ26Aは適応フィルタシステム20が収束していれば信号通過状態とし、収束していなければ信号遮断状態とすることになる。また、適応フィルタシステム20Aは適応処理を停止する。
一方、マイクロフォン2A、2Bの距離は相応に離れているとすると、マイクロフォン2Aに向かって話している第1の自己側話者音声の成分は、マイクロフォン2Bでは収音されないことになる。つまり、会議場内では、自己側シングルトーク状態、若しくはダブルトーク状態に相当した状況となっているであるとしても、マイクロフォン2B側の系からみた場合には、実質、非トーク状態(相手側話者音声の音声信号が得られていない場合)、若しくは相手側シングルトーク状態(相手側話者音声の音声信号が得られている場合)であることになる。適正な適応フィルタシステム20の動作、及び自己拡声音出力のための動作が得られるようにすることを求めれば、このような場合には、マイクロフォン2B側の系に関しては、非トーク状態若しくは相手側シングルトーク状態に対応させた適応フィルタシステム20B及び自己拡声音用サプレッサ26Bの動作とすることが好ましい。本実施の形態では、先の図5の手順を適用すれば、実質的な非トーク状態若しくは相手側シングルトーク状態であることが的確に判断されることになる。
つまり、マイクロフォン2B側の系に対応した[適応フィルタシステム20B、自己拡声音用サプレッサ26B]の組が、上記の状態の下で図5の手順におけるステップS101を実行したとされると、上記の実質的な非トーク状態のときに対応しては、現実に音声信号Y1(k)と音声信号Xd(k)のレベル差は小さいものとなるので、適正に否定の判別結果が得られ、ステップS106以降の手順を実行することになる。つまり、実際に、非トーク状態に対応する適応フィルタシステム20と自己拡声音用サプレッサ26の設定状態を得ることができる。また、実質的な相手側シングルトーク状態のときに対応しては、現実に音声信号Y1(k)に対して音声信号Xd(k)のレベルが相当に大きなものとなるので、肯定の判別結果が得られてステップS102以降の手順を実行することになり、実際に、相手側シングルトーク状態に対応する適応フィルタシステム20と自己拡声音用サプレッサ26の設定状態を得ることができる。
ところで、音声信号処理部11が実行するものとされる図5の処理におけるステップS102、S107、S108では、自己拡声音用サプレッサ26について、信号遮断状態と信号通過状態の2状態に対応した減衰率を設定するものとして説明しているが、実際においては、この減衰率(若しくはこれに準ずる制御値)について、連続的な値の変更制御が行われるようにしてもよい。
例えば、自己拡声音用サプレッサ26における信号通過の度合いを示す制御値λを定義する。この制御値λは、信号が完全に通過する状態ではλ=1となり、完全に遮断される状態ではλ=0となるものであるとする。
そのうえで、実際において、自己拡声音用サプレッサ26についての減衰率を設定するのにあたっては、例えば、λ=(max(1,Y/Xd)*w(max(1,Y/Xd)は、1と音声信号Yのレベルと音声信号Xdのレベルとで大きい方の値を選択することを意味し、係数wは適応フィルタシステムの収束度を示す)により表されるような演算を行うこととして、このようにして得られる制御値に応じて、より柔軟に自己拡声音用サプレッサ26の減衰率を設定できるようにするものである。
また、同様にして、適応フィルタシステムについても、図5のステップS104、S105、S109では、適応処理について実行、停止の何れかの状態とする2値的な制御としているが、これについても、連続的な制御が行えるようにすることができる。つまり、適応処理について、これを活性化させる傾向の状態(活性傾向の状態)と、停止若しくは停止に近くなっていく傾向の状態(停止傾向の状態)との間で連続的に遷移させるようにすることができる。
このためには、例えば、適応フィルタシステムのパラメータの1つであり、FIRフィルタの係数更新量を設定するためのステップサイズパラメータμについて、μ=(1-λ)*( max(1,Y/Xd))により表されるような演算を行うこととして、適応フィルタシステム20の適応処理の応答速度を変更するような構成とすることができる。
このような連続的制御を行うこととすれば、例えば、先に述べた相手側シングルトーク状態、自己側シングルトーク状態、ダブルトーク状態、及び非トーク状態の間での中間的な状態にもより適合した信号処理の動作を得ることができる。例えば、ダブルトーク状態であっても、自己側話者音声が小さく、相手側シングルトーク状態に近いとされるトーク状態では、適応フィルタシステム20が収束していなければ、自己拡声音用サプレッサ26の減衰率を或る程度高めにして、自己拡声音が抑えられるようにすると共に、適応処理を或る程度活性化させて収束方向に向かわせることが可能になる。
例えば、自己拡声音用サプレッサ26における信号通過の度合いを示す制御値λを定義する。この制御値λは、信号が完全に通過する状態ではλ=1となり、完全に遮断される状態ではλ=0となるものであるとする。
そのうえで、実際において、自己拡声音用サプレッサ26についての減衰率を設定するのにあたっては、例えば、λ=(max(1,Y/Xd)*w(max(1,Y/Xd)は、1と音声信号Yのレベルと音声信号Xdのレベルとで大きい方の値を選択することを意味し、係数wは適応フィルタシステムの収束度を示す)により表されるような演算を行うこととして、このようにして得られる制御値に応じて、より柔軟に自己拡声音用サプレッサ26の減衰率を設定できるようにするものである。
また、同様にして、適応フィルタシステムについても、図5のステップS104、S105、S109では、適応処理について実行、停止の何れかの状態とする2値的な制御としているが、これについても、連続的な制御が行えるようにすることができる。つまり、適応処理について、これを活性化させる傾向の状態(活性傾向の状態)と、停止若しくは停止に近くなっていく傾向の状態(停止傾向の状態)との間で連続的に遷移させるようにすることができる。
このためには、例えば、適応フィルタシステムのパラメータの1つであり、FIRフィルタの係数更新量を設定するためのステップサイズパラメータμについて、μ=(1-λ)*( max(1,Y/Xd))により表されるような演算を行うこととして、適応フィルタシステム20の適応処理の応答速度を変更するような構成とすることができる。
このような連続的制御を行うこととすれば、例えば、先に述べた相手側シングルトーク状態、自己側シングルトーク状態、ダブルトーク状態、及び非トーク状態の間での中間的な状態にもより適合した信号処理の動作を得ることができる。例えば、ダブルトーク状態であっても、自己側話者音声が小さく、相手側シングルトーク状態に近いとされるトーク状態では、適応フィルタシステム20が収束していなければ、自己拡声音用サプレッサ26の減衰率を或る程度高めにして、自己拡声音が抑えられるようにすると共に、適応処理を或る程度活性化させて収束方向に向かわせることが可能になる。
また、図4、図6などに示した適応フィルタシステムに採用する適応アルゴリズムとしては、これまでに知られているもののほか、現在以降において提案される将来技術のうちから、適切とされるものを選択すればよい。また、図4、図6に示した適応フィルタシステムは、説明を分かりやすいものとすることの都合上、最も基本的な構成を示しており、実際にあっては、より発展、改善された構成が採られてもよいものである。
また、これまでの実施の形態の説明にあっては、説明を分かりやすいものとすることの都合上、音声信号処理部11は、可聴帯域の全域に対応して音声信号処理を実行する構成を例に挙げているが、実際においては、例えばマイクロフォン2により収音して得られる収音音声信号と、デコーダ14により受信した音声信号とについて、所定の周波数帯域毎に分割して、この分割された周波数帯域ごとに、図4或いは図5に示したような構成を割り当てる、いわゆるフィルタバンク的な構成を採ることとしてもよい。
また、これまでの実施の形態の説明にあっては、説明を分かりやすいものとすることの都合上、音声信号処理部11は、可聴帯域の全域に対応して音声信号処理を実行する構成を例に挙げているが、実際においては、例えばマイクロフォン2により収音して得られる収音音声信号と、デコーダ14により受信した音声信号とについて、所定の周波数帯域毎に分割して、この分割された周波数帯域ごとに、図4或いは図5に示したような構成を割り当てる、いわゆるフィルタバンク的な構成を採ることとしてもよい。
また、これまでの実施の形態においては、エコーキャンセラとしての音声信号処理部11は、デジタル信号処理を実行するものとして説明したが、例えば同様のエコーキャンセル動作の少なくとも一部をアナログ回路により構成することとした場合にも本願発明は適用可能とされる。
また、これまでの実施の形態の説明では、テレビ会議システムにおいて2つの音声通信端末装置1−1、1−2が一対一の関係で通信をする場合を前提としているが、これは、説明を簡単なものとすることを配慮して、テレビ会議システムとして最もシンプルな形態を例に挙げたためである。従って、実際においては、3以上の音声通信端末装置によりテレビ会議システムを構築して、一対多の通信を行うようにすることも考えられるが、このようなシステム構成においても、本願発明に基づいた構成は、個々の音声通信端末装置に対して適用可能である。
また、音声通信端末装置1における送信用音声信号、及び再生用音声信号の処理は、主にデジタル信号処理によるものとしているが、デジタル信号処理を施すときの送信用音声信号及び再生用音声信号の形式については特に限定されるべきものではない。例えば、再生用音声信号を出力させる場合には、ΔΣ変調されたビットストリーム形式の音声信号をD級増幅によって再生するような構成とすることも場合によっては考えられる。
また、実施の形態としてはテレビ会議システムにおいて音声送受信のために設けられる音声通信端末装置を例に挙げているが、これ以外にも、例えば、音声会議システムであるとか、電話装置におけるハンズフリー通話機能などをはじめとして、いわゆる拡声通話系システムとして捉えることのできる装置全般に適用可能である。
また、これまでの実施の形態の説明では、テレビ会議システムにおいて2つの音声通信端末装置1−1、1−2が一対一の関係で通信をする場合を前提としているが、これは、説明を簡単なものとすることを配慮して、テレビ会議システムとして最もシンプルな形態を例に挙げたためである。従って、実際においては、3以上の音声通信端末装置によりテレビ会議システムを構築して、一対多の通信を行うようにすることも考えられるが、このようなシステム構成においても、本願発明に基づいた構成は、個々の音声通信端末装置に対して適用可能である。
また、音声通信端末装置1における送信用音声信号、及び再生用音声信号の処理は、主にデジタル信号処理によるものとしているが、デジタル信号処理を施すときの送信用音声信号及び再生用音声信号の形式については特に限定されるべきものではない。例えば、再生用音声信号を出力させる場合には、ΔΣ変調されたビットストリーム形式の音声信号をD級増幅によって再生するような構成とすることも場合によっては考えられる。
また、実施の形態としてはテレビ会議システムにおいて音声送受信のために設けられる音声通信端末装置を例に挙げているが、これ以外にも、例えば、音声会議システムであるとか、電話装置におけるハンズフリー通話機能などをはじめとして、いわゆる拡声通話系システムとして捉えることのできる装置全般に適用可能である。
1(1−1・1−2) 音声通信端末装置、2(2−1・2−2) マイクロフォン、3(3−1・3−2) スピーカ、11 音声信号処理部、12 コーデック部、13 エンコーダ、14 デコーダ、15 通信部、20 適応フィルタシステム、21 適応フィルタ、22 減算器、23(23A・23B) 送信音用サプレッサ、24 ボリューム部、25(25A・25B)・27A・27B・28 加算器、26(26A・26B) 自己拡声音用サプレッサ
Claims (4)
- マイクロフォンにより収音して得られる収音音声信号を所望信号として入力するとともに、通信相手側から送信されてきた相手側話者の音声信号を受信してスピーカから音として放出するまでにおける所定の処理段階を経た音声信号であるスピーカ出力用音声信号を参照信号として入力して、上記所望信号から上記参照信号に基づいて生成したキャンセル用信号を減算して得られる出力信号が最小となるようにして適応処理を実行し、上記出力信号が、相手側通信装置に対して送信出力すべき音声信号となるようにされた適応フィルタ手段と、
上記適応フィルタ手段の出力信号が、上記スピーカ出力用音声信号の成分として含まれるように合成する合成手段と、
上記適応フィルタ手段の出力信号が上記合成手段により合成されるまでの経路において備えられ、通過信号に対する減衰率を可変設定する減衰率可変手段と、
上記マイクロフォンにより自己側話者音声が収音されておらず、かつ、上記相手側話者の音声信号が上記参照信号に含まれているとされる第1の音声状態に対応しては、上記適応フィルタ手段の適応処理が活性傾向の状態にあるようにされるとともに、上記減衰率可変手段における減衰率が一定以上に設定された状態となるように制御し、上記マイクロフォンにより自己側話者音声が収音されている第2の音声状態においては、上記適応フィルタ手段の適応処理が停止傾向の状態となるようにされるとともに、上記減衰率可変手段における減衰率が一定以下に設定された状態となるように制御する制御手段と、
を備えることを特徴とする音声信号処理装置。 - 上記適応フィルタ手段の適応処理の収束状態を判別する収束状態判別手段をさらに備え、
上記制御手段は、
上記第1の音声状態において、さらに上記収束状態判別手段により上記適応フィルタ手段が収束しているとされる状態にあると判別された場合においては、上記適応フィルタ手段の適応処理が停止傾向の状態となるように制御する、
ことを特徴とする請求項1に記載の音声信号処理装置。 - 上記適応フィルタ手段の適応処理の収束状態を判別する収束状態判別手段をさらに備え、
上記制御手段は、
上記第2の音声状態において、さらに上記収束状態判別手段により上記適応フィルタ手段が収束していないとされる状態にあると判別された場合においては、上記減衰率可変手段における減衰率が一定以下に設定された状態となるように制御する、
ことを特徴とする請求項1に記載の音声信号処理装置。 - マイクロフォンにより収音して得られる収音音声信号を所望信号として入力するとともに、通信相手側から送信されてきた相手側話者の音声信号を受信してスピーカから音として放出するまでにおける所定の処理段階を経た音声信号であるスピーカ出力用音声信号を参照信号として入力して、上記所望信号から上記参照信号に基づいて生成したキャンセル用信号を減算して得られる出力信号が最小となるようにして適応処理を実行し、上記出力信号が、相手側通信装置に対して送信出力すべき音声信号となるようにされた適応処理手順と、
上記適応処理手順の出力信号が、上記スピーカ出力用音声信号の成分として含まれるように合成する合成手順と、
上記適応処理手順の出力信号が上記合成手順により合成されるまでの経路において備えられ、通過信号に対する減衰率を可変設定する減衰率可変手順と、
上記マイクロフォンにより自己側話者音声が収音されておらず、かつ、上記相手側話者の音声信号が上記参照信号に含まれているとされる第1の音声状態に対応しては、上記適応処理手段の適応処理が活性傾向の状態にあるようにされるとともに、上記減衰率可変手順における減衰率が一定以上に設定された状態となるように制御し、上記マイクロフォンにより自己側話者音声が収音されている第2の音声状態においては、上記適応処理手順の適応処理が停止傾向の状態となるようにされるとともに、上記減衰率可変手順における減衰率が一定以下に設定された状態となるように制御する制御手順と、
を実行することを特徴とする音声信号処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007262233A JP2009094708A (ja) | 2007-10-05 | 2007-10-05 | 音声信号処理装置、音声信号処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007262233A JP2009094708A (ja) | 2007-10-05 | 2007-10-05 | 音声信号処理装置、音声信号処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009094708A true JP2009094708A (ja) | 2009-04-30 |
Family
ID=40666241
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007262233A Pending JP2009094708A (ja) | 2007-10-05 | 2007-10-05 | 音声信号処理装置、音声信号処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009094708A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013005106A (ja) * | 2011-06-14 | 2013-01-07 | Nippon Telegr & Teleph Corp <Ntt> | 場内拡声装置、場内拡声方法、及びそのプログラム |
-
2007
- 2007-10-05 JP JP2007262233A patent/JP2009094708A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013005106A (ja) * | 2011-06-14 | 2013-01-07 | Nippon Telegr & Teleph Corp <Ntt> | 場内拡声装置、場内拡声方法、及びそのプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6251399B2 (ja) | 会話の支援 | |
US8311234B2 (en) | Echo canceller and communication audio processing apparatus | |
JP5177820B2 (ja) | 強調された主観的ステレオオーディオのためのシステムと方法 | |
JP2008306535A (ja) | 音声信号処理装置、遅延時間の設定方法 | |
US8750545B2 (en) | Hearing assistance devices with echo cancellation | |
JP2003234679A (ja) | 音響エコーの相殺および抑制を実行する利得制御方法 | |
KR20040019362A (ko) | 후처리기로서 멀티 마이크로폰 에코 억제기를 가지는 음향보강 시스템 | |
CN106448691B (zh) | 一种用于扩音通信系统的语音增强方法 | |
EP1698159A1 (en) | System and method for enhanced stereo audio | |
JP2011508990A (ja) | 音声信号のエコーキャンセルのための方法及び装置 | |
US8170224B2 (en) | Wideband speakerphone | |
JP2009017029A (ja) | 音声信号処理装置、音声信号処理方法 | |
JP3625325B2 (ja) | 拡声通話装置およびエコーキャンセラ | |
JP2009094708A (ja) | 音声信号処理装置、音声信号処理方法 | |
JP2861888B2 (ja) | エコー・ノイズキャンセラおよびエコー・ノイズ消去方法 | |
JP2009094707A (ja) | 音声信号処理装置、音声信号処理方法 | |
JP2002009677A (ja) | 音響エコーキャンセラー装置 | |
JPH1023172A (ja) | エコー除去装置 | |
JP2007336132A (ja) | エコー抑圧装置 | |
JP4977401B2 (ja) | ハンズフリー電話装置 | |
JP2008306446A (ja) | 音声信号処理装置、音声信号処理方法 | |
JPH01215130A (ja) | エコーキャンセラー装置 | |
JP2000353989A (ja) | エコーキャンセラ | |
WO2024042938A1 (ja) | 通話装置、通話方法及び通話プログラム | |
JP2008311848A (ja) | 音声信号処理装置、音声信号処理方法 |