図面を参照して本発明の実施形態である音声会議システムについて説明する。図1は、本発明の実施形態である音声会議システムの設置形態の一例を示す図である。
音声会議システム1は、会議室Cの会議机D上に設置される。音声会議システム1は、1台の通信器10および1または複数台の収音器11を有する(この実施形態では4台)。通信器10は、スピーカ26を有する。収音器11は、複数のマイク素子31を備える。通信器10および収音器11は通信ケーブル12で相互に接続され、デジタル通信を行う。収音器11は、マイク素子31で収音した音声信号およびエコーキャンセラ32(図3参照)のフィルタ係数を通信器11に送信する。通信器10は、ホスト装置であるパーソナルコンピュータ2に接続される。パーソナルコンピュータ2は、インターネットなどのネットワーク3を介して、他の拠点に設置されている他の音声会議システムと通信し、この音声会議システム1の通信器10から入力された(マイク素子31が収音した)音声信号を他の音声会議システムに送信するとともに、他の音声会議システムから受信した音声信号を通信器10に入力する。通信器10は、他の音声会議システムから送られてきた音声信号をスピーカ26から放音する。
図2は、会議室Cにおける音声の反射の形態を説明する図である。スピーカ26から放音された音声は、直接会議の参加者Mおよびマイク素子31に到達するとともに、会議室Cの壁および天井で様々に反射して、参加者Mおよびマイク素子31に到達する。
スピーカ26から放音された音声、すなわち、他拠点に設置された他の音声会議システムで収音された音声が、マイク素子31によって収音され、他の音声会議システムに送信されると、送信した音声が戻って再生されるいわゆるエコーになる。このエコーを防止するため、マイク素子31には、スピーカ26から放音された音声をキャンセルするエコーキャンセラ32(図3参照)が接続される。また、スピーカ26から放音された音声が会議室Cの壁や天井で反射する残響によってこもった音声になり明瞭度が低下するのを改善するため、通信器10には、残響抑制用のフィルタ24(図6参照)が設けられている。このフィルタ24のフィルタ係数は、エコーキャンセラ32の適応フィルタ35(図5参照)のフィルタ係数を利用して算出される。
エコーキャンセラ32および残響抑制用のフィルタ24の機能・動作については、図3以下の図面を参照して後述する。なお、以下に説明する、通信器10および収音器11に内蔵の機能部は、電子回路で構成されてもよく、コンピュータなどのプロセッサとプログラムの協働によって実現されてもよい。
図3は、収音器11のブロック図である。図4は、収音器11の3つのマイク素子31のそれぞれの指向性を示す図である。図5は、収音器11のエコーキャンセラ32のブロック図である。
収音器11は、3つのマイク素子31を備える。図1および図4に示すように、収音器11は円盤状の平面形状をしており、その円周上に120度ずつの間隔で3つのマイク素子31が外向き(法線方向)に放射状に設けられている。各マイク素子31は単一指向性マイクであり、マイク素子31が向いている方向を中心にカージオイド形状の収音特性を有する。各マイク素子31は120度の間隔で設けられ、その指向特性は図4に示すような配置になるため、各マイク素子31の収音信号を合成すればほぼ無指向性に近い特性の信号が得られる。なお、マイク素子31は、指向特性がカージオイドのものに限定されない。後方に若干の指向性を持つものであってもよく、双指向性のものであってもよい。
図3において、各マイク素子31にはそれぞれエコーキャンセラ32が設けられている。エコーキャンセラ32の詳細構成は、図5で説明するが、マイク素子31で収音された音声信号のなかからスピーカ26から放音された音声をキャンセルする。エコーキャンセラ32によって、スピーカ26の回り込み音声をキャンセルされた音声信号が、音声選択部33に入力される。音声選択部33には、3つのマイク素子31で収音された音声信号がそれぞれ入力される。音声選択部33は、入力された3つの音声信号のレベル・持続時間等に基づいて、どのマイク素子31から入力されている音声信号が優勢か、すなわち話者の発話音声信号と推定されるかを推定し、発話音声信号と推定された1つの音声信号を選択する。すなわち、会議における音声信号の収音においては、指向性マイクの特性を活かして、3つのマイク素子31から最適な1つのマイク素子31を選択し、S/N比の良い発話音声を収音している。選択された音声信号は、通信インタフェース34を介して通信器10に送信される。通信器10に複数の収音器11が接続されている場合、通信器10(マイクミキサ22:図6参照)は、各収音器11から受信した音声信号から音声信号のレベル・持続時間・相関度を比較してさらに1つを選択し、または、複数の音声信号をミキシングし、この選択またはミキシングした音声信号を相手システムに送信する。
次に、図5を参照して、エコーキャンセラ32の構成について説明する。図5は、エコーキャンセラ32のブロック図である。エコーキャンセラ32は、フィルタ係数設定部35Bおよび可変フィルタ35Bを有する適応フィルタ35を有し、さらに加算器37を有している。一般的に適応フィルタとは、所定の最適化アルゴリズムに従って自己の伝達関数(適応フィルタ係数列)を自動適応させるフィルタである。
フィルタ係数設定部35Bは、会議室Cの音響伝達系(スピーカ26からマイク素子31に至る音響伝搬経路)の伝達関数を推定し、推定した伝達関数のフィルタとなるようなフィルタ係数を可変フィルタ35Aに設定する。
可変フィルタ35Aには、スピーカ26から放音される音声信号(放音信号)が入力される。可変フィルタ35Aの伝達関数は、会議室Cの音響伝達系(スピーカ26からマイク素子31に至る音響伝搬経路)が模擬された伝達関数であるため、可変フィルタ35Aでフィルタリングされた放音信号は、スピーカ26から放音され会議室Cを伝搬してマイク素子31に収音された音声信号(回帰音信号)を模擬した音声信号(擬似回帰音信号)である。この擬似回帰音信号は加算器37に入力される。
また、加算器37には、マイク素子31が収音した音声信号(収音信号)が、入力される。加算器37は、収音信号から模擬回帰音信号を減算して出力する。収音信号には、会議出席者Mの発話音声信号とともにスピーカ26から放音されて回り込んだ回帰音信号も含まれている。加算器37が、収音信号から模擬回帰音信号を減算することにより、収音信号から回帰音を除去する、すなわちエコーをキャンセルすることができる。エコーをキャンセルされた収音信号は、音声選択部33に入力されるとともに、参照信号としてフィルタ係数設定部35Bに入力される。また、フィルタ係数設定部35Bには、参照信号としてスピーカ26から放音される音声信号である放音信号も入力される。フィルタ係数設定部35Bは、これらの参照信号に基づいてフィルタ係数を継続的に更新する。また、このフィルタ係数の更新は、スピーカ26から音声が放音されていて、かつ、会議室Cにいる参加者Mが発話をしていない時間区間を自動的に検出し、その時間区間の参照信号を用いて行われる。
ここで、可変フィルタ35AはFIRフィルタである。したがって、可変フィルタ35Aに設定されるフィルタ係数は、フィルタ係数設定部35Bが、スピーカ26からマイク素子31に至る音響伝搬経路のインパルス応答を推定して模擬したものである。フィルタ係数設定部35Bは、このフィルタ係数を推定インパルス応答として、通信インタフェース34を介して通信部10に送信する。
上述したように、3つマイク素子31がそれぞれ収音した音声信号は、音声選択部33により、そのうちの1つが選択されて通信器10に送信されるが、3つのマイク素子31に対応する3つの推定インパルス応答は、3つともに通信器10に送信される。後述するように通信器10のパラメータ推定部23では、これら3つの推定インパルス応答が合成される。3つの推定インパルス応答は、図4に示すように対応するマイク素子31の向いている方向から到来する残響成分を含むインパルス応答であるが、3つを合成することにより、全ての方向から到来する残響成分を含む無指向性マイクで収音した会議室Cの全方向からのインパルス応答を模擬することができる。
図6は、通信器10のブロック図である。通信器10は、パーソナルコンピュータ2と通信するための通信インタフェース21、マイクミキサ22、パラメータ推定部23、フィルタ24、オーディオ回路25、スピーカ26および収音器11と通信するための通信インタフェース27を有する。通信インタフェース21は、パーソナルコンピュータ2とデジタル通信を行うためのインタフェースであり、たとえばUSBインタフェースが用いられる。USBインタフェースを用いた場合、パソコン2がホストであり通信器10がオーディオデバイスとなる。通信インタフェース27は複数設けられており、それぞれケーブル12を介して個別の収音器11が接続される。通信インタフェース27は例えば有線LANのインタフェースを用いればよい。
通信器10は、通信インタフェース27を介して収音器11から音声信号(エコーをキャンセルされた収音信号)および3つの推定インパルス応答を受信する。受信した音声信号はマイクミキサ22に入力される。マイクミキサ22には複数の通信インタフェース27から、それぞれ別の収音器11から受信した複数の音声信号が入力される。マイクミキサ22は、複数の収音器11から受信した音声信号を選択またはミキシングしてモノラルの音声信号とし、通信インタフェース21を介してパーソナルコンピュータ2に送信する。パーソナルコンピュータ2は、この音声信号をネットワーク3を介して他拠点の音声会議システムに送信する。マイクミキサ22は、通信器の音声信号のレベル、持続時間または相関度を比較してS/N比の良い音声信号を相手システムに送信する発話音声として選択すればよい。
また、パーソナルコンピュータ2は、他拠点の音声会議システムから音声信号を受信する。この音声信号は、通信インタフェース21を介して入力され、スピーカ26から放音される放音信号としてフィルタ24に入力されるとともに、通信インタフェース27を介して各収音器11に送信される。
フィルタ24は、会議室Cの残響による音声の明瞭度の低下を抑制するようなフィルタ処理を施す。すなわち、放音信号に対して、残響時間の長い周波数帯域のレベルを抑制するような信号処理を行う。特に、低音域の残響が明瞭度の低下の原因になるため、低音域に対しては抑制の度合いを強くする。このようなフィルタ係数は、パラメータ推定部23によって決定される。フィルタ24によって残響時間の長い周波数帯域が抑制された放音信号は、オーディオ回路25に入力される。オーディオ回路25は、放音信号をアナログの音声信号を変換し、所定のレベルで増幅してスピーカ26に入力する。スピーカ26は、この放音信号を音声として会議室Cに放音する。放音された音声は会議の出席者Mに聴取されるとともに、マイク31によって収音される。
通信インタフェース27を介して収音器11に送信された放音信号は、図5に示したエコーキャンセラ32のフィルタ係数設定部35Bに参照信号として入力される。
図7はパラメータ推定部23のブロック図である。また、図8は、パラメータ推定部23を含む音声会議システム1で実行される残響抑制処理の手順を示す図である。また、図9は、残響抑制処理の手順のなかで現れる信号波形を例示した図である。
図8において、指向性のマイク素子31による収音(S101)、エコーキャンセル処理(S102)、および、適応フィルタ35からのフィルタ係数(推定インパルス応答)の取り出し(S103)は、収音器11が行う。収音器11は、3つのマイク素子31に対応して設けられた3つのエコーキャンセラ32のフィルタ係数を推定インパルス応答として通信器10に対して送信する。
図7において、パラメータ推定部23は、接続している収音器11ごとのフィルタ係数統合部40、同じく接続している収音器11ごとの残響時間推定部41、残響時間統合部42、補正特性算出部43、および、フィルタ係数算出部44を備える。
通信器10は、各収音器11から、それぞれ3つずつの推定インパルス応答(フィルタ係数)を受信する。受信した推定インパルス応答は、パラメータ推定部23に入力される。パラメータ推定部23では、入力された推定インパルス応答が、各収音器11ごとに設けられたフィルタ係数統合部40にそれぞれ入力される。フィルタ係数統合部40は、入力された3つの推定インパルス応答を時間軸を揃えて合成する。この合成は、単純に加算合成してもよいし、各推定インパルス応答の重みづけを変えてもよいし、各インパルス応答の時間ずれを補正しても良い。図4に示した3方向の推定インパルス応答を合成することにより、1マイクに関する推定インパルス応答よりも広い方向の範囲から到来する残響成分を含む(理想的には360度無指向性の)インパルス応答を推定することが可能である。この処理が、図8におけるS104の前段統合である。この処理は、接続された(推定インパルス応答が入力された)収音器11毎に行われ、各収音器11の位置におけるインパルス応答が推定される。
フィルタ係数統合部40で合成された広指向性の推定インパルス応答は、残響時間推定部41に入力される。残響時間推定部41では以下の処理が行われる。まず、推定インパルス応答を複数チャンネルのバンドパスフィルタに通して帯域を分割する。分割するチャンネルの数や各チャンネルの周波数帯域は任意であるが、例えば、315Hz〜8000Hzまでを15のチャンネルに分割するなどの帯域分割を行えばよい。この処理により、各周波数帯域(チャンネル)の信号成分のインパルス応答が推定される。この処理が図8のS105の処理である。この処理も各収音器11毎に行われる。
残響時間推定部41は、各周波数帯域の推定インパルス応答に基づき、各周波数帯域の信号の残響時間を求める。残響時間は、一般的に信号レベルが−60dB(100万分の1)に減衰するまでの時間を言い、その算出・推定方法は種々あるが、ここではシュレーダー法により残響時間を求めればよい。シュレーダー法は、インパルス応答をシュレーダー積分または後方累積加算によって、図9(A)に例示するようなシュレーダー曲線(残響減衰曲線)を求め、この曲線が−60dBになるまでの時間を求めれば良い。簡略にはシュレーダー曲線の直接音や誤差成分等の含まれない所定区間を取り出してその区間の傾きをこの曲線の傾きとし、この傾きにより0dBから−60dBまで減衰する時間を推定してもよい。この処理が、図8のS106に相当し、各収音器11毎の周波数帯域毎に行われ、各収音器11の位置における周波数帯域毎の残響時間が推定される。
そして、複数の残響時間推定部41によって推定された、各収音器11の位置における周波数帯域毎の残響時間は、残響時間統合部42に入力される。残響時間統合部42は、各収音器11の位置における残響時間を周波数帯域毎に合成する。この処理が図8のS107の後段統合処理であり、各周波数帯域毎に行われる。
この後段統合処理の合成は、周波数帯域毎に各収音器11の残響時間を加算平均することによって行われるが、平均値から極端に離れている残響時間値(外れ値)は、平均から除外してもよい。また、外れ値が多い収音器11については、部屋の隅など偏った特性が出やすい場所に設置されている可能性があるとして、その収音器11の残響時間は全ての周波数帯域において全面的に後段統合処理から除外するようにしてもよい。この除外の処理は、通信器10の判断で行ってもよく、会議室Cにこのシステムを設置する係員が、収音器11または通信器10に対するマニュアル操作で、特定の収音器11、たとえば上記部屋の隅に設置される収音器11などをこの後段統合の対象から除外するように設定可能にしてもよい。この場合、統合対象から除外された収音器11については、S103以下の処理は不要になり、処理が軽減される。
後段統合処理によって求められた各周波数帯域毎の残響時間を周波数軸にプロットすることにより、例えば、図9(B)に示すような会議室C全体の平均した残響特性が求められる。この残響特性に基づき、どの周波数帯域の残響時間が長いかなどの判定が可能になる。
残響時間統合部42によって求められた残響特性は、補正特性算出部43に入力される。補正特性算出部43は、入力された残響特性に基づき、スピーカ26から放音された音声が、その音声の残響音によって覆い隠されないように、残響時間の長い周波数帯域を抑制するような周波数領域の補正特性を決定する。補正特性の決定は、周波数帯域ごとに残響時間の閾値を定めておき、残響時間が閾値を超えている周波数帯域を抽出してこの周波数帯域のパワーを抑制する方法や、残響音を抑制する既知のフィルタリング法、周波数帯域ごとのゲインテーブルを用いることで周波数帯域ごとのパワーの抑制量を定める方法などを選択することができる。周波数帯域ごとのゲインテーブルは図10に示すようなものが使用できる。このゲインテーブルは縦軸がゲイン(dB)、横軸が残響時間RT(秒)となっており、周波数帯域ごとのゲイン値が傾きを有する線分で示されている。f1〜fnの線分は、上述したバンドパスフィルタにより分割された周波数帯域に対応し、f1が低音域側、fnが高音域側となっている。例えば帯域f3において残響時間が1.0秒であればゲインは−30dBと定められる。このゲインテーブルでは低音域の線分がより急峻な傾きをもつように設定されている。高帯域側のf4では残響時間が1.0秒であればゲインは−24dB付近となる。このように低音域の残響時間が長い場合には、この低音域を高音域の残響時間が長い場合よりも強く抑制するような補正特性が決定される。
なお、ゲイン値には下限があり、所定の値(図に示したゲインテーブルでは−30dB)を超える抑制は行われないようにしている。また各周波数帯域において所定の残響時間(f3においては1.0秒)を超えた場合はゲインの下限値を適用するようにしている。また、ゲインテーブルは図11のように複数の線分が収束する収束点が一定の残響時間だけ正方向にずれて設定されているものでもよい。この図の場合は残響時間が1.0秒以下の場合はゲインが0となる。この処理が図8のS108である。決定された補正特性はフィルタ係数算出部44に入力される。
フィルタ係数算出部44は、フィルタ24が補正特性算出部43で算出された補正特性を持つようにフィルタ特性を決定する。フィルタ24は、FIRフィルタやIIRフィルタで構成される。フィルタ係数は、フィルタ24の構成に合わせて、離散時間逆フーリエ変換や、パラメトリックなピークフィルタなどの演算によって算出される。この処理が図8のS109である。算出されたフィルタ係数は、フィルタ24に設定される(S110)。このフィルタ24で放音信号をフィルタリングすることにより、スピーカ26から放音された音声の残響が抑制され、参加者Mにとって明瞭度の高い音声となる。
以上の実施形態では、エコーキャンセラ32のフィルタ係数を用いて会議室Cの残響特性を推定し、残響の長い周波数帯域を抑制することによって放音された音声の明瞭度が低下しないようにした。さらに、エコーキャンセラ32のフィルタ係数を用いて会議室Cの周波数特性を推定し、放音された音声がフラットな特性で聴取されるように、放音信号の周波数特性を、会議室Cの周波数特性をキャンセルするように補正してもよい。これにより、残響だけでなく会議室Cの周波数特性を原因とする明瞭度の低下も防ぐことができる。
図12に、パラメータ推定部の変形例を示す。この図のパラメータ推定部23′は、残響を抑制する補正特性に加えて、周波数特性を補正する補正特性を決定してフィルタ24に設定する。図12において、図7と同一構成の部分は同一番号を付して説明を省略する。この図のパラメータ推定部23′は、図7のパラメータ推定部23の構成に加えて、各収音器11毎の周波数特性推定部45、および、周波数特性統合部46をさらに備えている。
フィルタ係数統合部40から出力された各収音器11毎の広指向性(無指向性)の推定インパルス応答は、残響時間推定部41に入力されるとともに、周波数特性推定部45に入力される。周波数特性推定部45は、入力されたインパルス応答をフーリエ変換して、その収音器11の位置における周波数特性を算出する。この周波数特性は周波数特定統合部46に入力される。周波数特性統合部46は、各周波数特性推定部45から入力された各収音器11における周波数特性を合成して、会議室Cにおける全体の周波数特性の平均値を算出する。この平均値の算出は、単純に相加平均してもよく、各周波数特性を正規化したのち平均を求めても良い。
周波数特性統合部46によって求められた会議室Cの周波数特性は、補正特性算出部43′に入力される。補正特性算出部43′は、残響時間の長い周波数帯域を抑制するような特性であり、且つ、放音された音声が会議室Cに影響された周波数特性をキャンセルしてフラットな伝達特性を経て聴者に届くような補正特性を算出する。またこの算出方法は、フラットな伝達特性を経て聴者に届くような補正特性ではなく、あらかじめ設定された任意の理想的な伝達特性を経て聴者に届くような補正特性を算出してもよい。算出された補正特性はフィルタ係数算出部44に入力される。フィルタ係数算出部44は、フィルタ24が補正特性算出部43で算出された補正特性を持つようにフィルタ特性を決定する。算出されたフィルタ係数は、フィルタ24に設定される。このフィルタ24で放音信号をフィルタリングすることにより、スピーカ26から放音された音声はフラットな伝達特性を経たような特性を有するとともにその残響が抑制され、参加者Mにとって明瞭度の高い音声となる。
上記の実施形態では、前段統合を通信器10が行っているが、これを収音器11に行わせてもよい。図8において、S101−S103の処理は収音器11で行うことが好適である。また、S107以下の処理は通信器10が行うことが好適である。その間のS104−S106の処理は、収音器11、通信器10のいずれが行ってもよい。
上記の実施形態では、スピーカ26を備えた通信器10に、マイク素子31を備えた収音器11が接続される形態の音声会議システムについて説明したが、複数のマイク素子31とスピーカ26を一体に備えた(通信器10のみの)音声会議装置に対しても、本発明は適用可能である。
また、通信器10と収音器11との接続の形態は、有線接続に限定されない。たとえば、無線LANや近距離無線通信規格などの無線接続であってもよい。
また、収音器11の形状やマイク素子31の数は、図1や図4に示したものに限定されない。たとえば、円盤状の筐体の周縁部に2つまたは4つのマイク素子31を等間隔に設けてもよい。この場合、各マイク素子31の角度は、180度または90度となる。また、間隔(角度)は等間隔でなくてもよい。会議参加者Mに向ける方向に片寄せてマイク素子31を設けても良い。
通信器10に複数台の収音器11を接続する場合、図13に示すように、複数の収音器11をケーブル12でディジーチェーン接続する形態でもよい。この接続形態にすることで、全ケーブル長を節約することができる。通信インタフェース21および34をLANインタフェースとすることで、図1のスター型の接続および図13のディジーチェーン型の接続の両方に対応させることも可能である。
また、図14に示すように、1つのマイク素子31を内蔵するマイク51,52,53,54を複数組み合わせて(グループ化)し、この1つのグループ60を1つの収音器11として機能させてもよい。この場合、係員がテーブルマイク51のグルーピング情報を予め通信器10に設定しておくようにしてもよく、通信器10のフロントエンドに信号振分部を設けて、通信器10が自らグルーピングを行うようにしてもよい。この場合、信号振分部は、エコーキャンセラの適応フィルタの時間位置や、収音された音声信号の相関度などに基づき、類似した信号を収音しているテーブルマイク同士を同じグループとしてグルーピングするようにしてもよい。
図14(A)は、複数のテーブルマイク(スタンドマイク)51を組み合わせてグループ60とした例を示している。また、図14(B)は、複数のハンドマイク52をグループ60化した例を示している。ハンドマイク52は有線であっても無線であってもよい。この場合はハンドマイクを持った話者が動くため一定距離に存在する複数のハンドマイク52を1つのグループ60として、各グループ60ごとに適応フィルタ係数列を加算してもよい。ハンドマイク52のグループ60が複数存在する場合は、各グループの残響時間を算出して上述した残響特性を求めればよい。複数のハンドマイク52が一定距離に存在することは、2つのハンドマイク52の収音遅延差を算出することによる位置検出や、ハンドマイク52が発する無線の強度を相互に検出することで判定することができる。
また、収音器11は、会議机D上に載置されるものでなくてもよい。すなわち、図14(C)に示すように、天井から吊り下げられる吊りマイク53や壁面に設置される壁面マイク54などを用いてもよい。勿論、図1の収音器11、テーブルマイク51、ハンドマイク52、吊りマイク53および壁面マイク54が混在していてもよい。
また、本実施形態の音声会議システム1は、会議以外に用いることも当然可能である。また、使用される場所も会議室に限定されない。