JP2008278399A

JP2008278399A - 放収音装置

Info

Publication number: JP2008278399A
Application number: JP2007122197A
Authority: JP
Inventors: Toshiaki Ishibashi; 利晃石橋; Makoto Tanaka; 田中　　良; Norifumi Ukai; 訓史鵜飼
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2007-05-07
Filing date: 2007-05-07
Publication date: 2008-11-13

Abstract

【課題】回帰音に影響されることなく、確実に発話者からの音声を収音する簡易な構成・処理の放収音装置の提供を図る。
【解決手段】放収音装置１は仮想点音源処理を行う。信号選択部２２は、仮想点音源ごとに対応付けてメモリ１９に予め記憶した補正係数により、入力音声信号ＳＰを補正する。このようにして、回帰音成分の音圧に比例する音圧比例量を得る。そして、当該音圧比例量を各収音ビーム信号ＭＢ１〜ＭＢ８から減算する。次に、回帰音成分の音圧に比例する音圧比例量を減算した各収音ビーム信号ＭＢ１〜ＭＢ８のうち、全収音音声信号の平均以上である収音音声信号を、発話音の含まれる収音音声信号として選択する。この収音音声信号に音声信号処理を施し、相手先装置に対して送信する。
【選択図】図４

Description

この発明は、ネットワーク等を介して複数の地点間で音声会議等を行うために用いる放収音装置、特にマイクの指向性領域内に仮想点音源を配置した放収音装置に関するものである。

遠隔地間で音声会議を行う方法として、音声会議を行う地点毎に放収音装置を設置して、これら装置をネットワークで接続し、音声信号を通信する方法がある。上記放収音装置としては、ネットワークを介して接続された相手先装置側の音声を放音するスピーカと、自装置側の音声を収音するマイクロホンとが１つの筐体に同時に設置されたものが用いられている。

特許文献１に記載された従来の放収音装置は、ネットワークを介して入力される音声信号を天面に配置されたスピーカから放音し、側面に配置され異なる複数方向をそれぞれの正面方向とする各マイクにより音声信号を収音し、ネットワークを介して収音信号を外部に送信する。
特開平８−２９８６９６号公報

しかしながら特許文献１の装置では、マイクとスピーカとが近接することで、各マイクの収音音声信号に、スピーカから放音した相手先装置側の音声（回帰音）が多く含まれる。この回帰音の音量が比較的大きい場合には、発話者方位からの収音・出力を正確に行うことができないという問題があった。

また、この種の放収音装置では、リアルな音声会議を演出するために、仮想点音源処理を施す場合がある。仮想点音源処理は、相手先装置側の発話者の音声を自装置側の仮想点音源から放音する処理である。具体的には、入力音声信号に遅延処理と振幅処理を施して、複数のスピーカそれぞれの駆動信号を生成する。そして、それらの駆動信号により各スピーカを放音させることにより、相手先装置側の発話者の音声を複数のスピーカそれぞれから離れた位置が音源位置となるように放音させる。これにより、自装置側に在席する会議出席者に、あたかも自装置側の仮想点に相手先装置側の会議出席者がいるかのように合成される音声を聞こえさせていた。

このような仮想点音源処理を施す場合、仮想点音源を指向性領域内に含むマイクでは、仮想点音源からの放音音声（回帰音）をマイクが高レベル信号として収音してしまう。すると、このマイクの収音音声信号から発話者の発話音を正確に音声処理・出力することが困難になる。

そこで、この発明の目的は、回帰音に影響されずに、自装置側の発話者からの音声を確実に音声処理・出力することができる簡易な構成・処理の放収音装置を提供することにある。

この発明の放収音装置は、複数の指向性領域からそれぞれ異なる収音音声信号を収音する収音手段と、前記複数の指向性領域内に設定した複数の音源位置から、それぞれ個別の放音音声信号を放音する放音手段と、前記収音手段により前記放音音声信号が収音されてなる回帰音成分を除いた各収音音声信号の音圧に比例する音圧比例量を取得する音圧取得手段と、前記音圧取得手段により取得した各音圧比例量に基づいて、前記指向性領域内の発話者の発話音が含まれる前記収音音声信号を選択する収音音声信号選択手段と、を備える。

放収音装置のマイク指向性領域内に仮想点音源が配置されている場合、そのマイクの出力する収音音声信号には自装置側の発話者の発声音だけでなく、仮想点音源からの回帰音も収音される。

そこで本発明では、音圧取得手段により回帰音成分を除いた収音音声信号の音圧比例量を取得する。そして、この回帰音成分を除いた収音音声信号の音圧比例量に基づいて複数の収音音声信号から発話音の含まれる収音音声信号を選択する。このようにして、回帰音に影響されることなく発話音の含まれる収音音声信号の選択を行うことができる。このようにして選択した収音音声信号は正確な発話方位を収音したものとなり、発話者の発話音の確実な音声処理・出力が可能になる。

また、この発明の前記音圧取得手段は、前記放音手段の放音する前記放音音声信号と、当該放音音声信号を放音する前記音源位置とに基づいて、前記放音音声信号の回帰音成分の音圧に比例する音圧比例量を推定し、当該音圧比例量を各収音音声信号の音圧に比例する音圧比例量から減算する手段である。

各マイクでの回帰音の音量（音圧）は、仮想点音源から放音する放音音声の音圧とその仮想点音源の位置とがわかれば、高精度に推定可能である。そこで、仮想点音源からの放音音声の音圧とその仮想点音源の位置とに基づいて放音音声信号の回帰音成分を除いた各収音音声信号の音圧に比例する音圧比例量を高精度に取得する。したがって回帰音の音圧や発話音の音圧を直接測定しなくても、回帰音成分を除いた各収音音声信号の音圧に比例する音圧比例量を取得でき、それらを直接測定するための構成、処理、時間が必要なくなり、簡易な構成・処理の放収音装置を提供できる。

また、この発明の前記音圧取得手段は、放音音声信号を放音する前記音源位置に予め対応付けて記憶した補正係数により、前記放音手段の放音する前記放音音声信号を補正して、前記放音音声信号の回帰音成分の音圧に比例する音圧比例量を得る。

この構成により、あらかじめ記憶手段に記憶した補正係数と、放音音声信号とにより、回帰音の音圧を推定できる。この音圧分をマイクの収音音声信号から除くことで発話者の発話音の音圧の取得を可能にする。したがって、回帰音の音圧や発話音の音圧を直接測定しなくても高精度に発話者方位を取得することができ、本装置におけるこの処理回路や処理時間の負担がさらに低減できる。また、補正係数を用いることで、回帰音の音圧を取得する高度な音声信号処理を行う必要がなくなり、低負荷で速やかに回帰音の音圧を取得できる。

また、この発明の前記収音音声信号選択手段は、全収音音声信号の音圧比例量の平均を閾値として、前記音圧取得手段により取得した音圧比例量が前記閾値以上である収音音声信号を選択する手段である。

本発明の構成のように、全収音音声信号の音圧比例量の平均値を閾値としておき、補正により回帰音の影響を除いた音圧比例量が、当該閾値を超えていれば、その方位が発話者方位となり、当該収音音声信号を選択して音声信号処理することにより、回帰音に影響されることなく、発話者方位に対応する収音音声信号を選択することができる。

また、この発明の前記収音音声信号選択手段は、相対する方位から得た一対の前記収音音声信号の組の、前記音圧取得手段により取得した音圧比例量の比が所定範囲内にない場合に、前記比が所定範囲よりも高いか低いかにより、前記一対の収音音声信号の一方を選択する手段である。

この構成では、発声音の到来方位に対応する収音音声信号を含む一対の音圧比例量の比が所定範囲を超えたものになる。音圧比例量の比の算出時に、基準側（分母側）とした収音音声信号の音圧比例量が大きければ音圧比例量の比が小さくなる方向に変化し、基準側（分母側）とした収音音声信号の音圧比例量が小さければ音圧比例量の比が大きくなる方向に変化する。

このような構成により、回帰音に影響されることなく、発話者方位に対応する収音音声信号を選択することができる。

この発明によれば、回帰音のレベルに影響されることなく、発話音の含まれる収音音声信号を選択することができ、発話者等の音源方位を正確に検出して、当該方位からの音声を確実に収音して出力することができる。

本発明の第１の実施形態に係る放収音装置について図を参照して説明する。
図１は本実施形態に係る放収音装置１の外形図であり、同図（Ａ）が平面図、同図（Ｂ）が側面図である。図には、放収音装置１を平面視した中心を回転中心、マイクＭＣ１、スピーカＳＰ１方向を０°とした、反時計回りに増加する角度θを付加している。

図１に示すように本実施形態の放収音装置１は、筺体２に、複数のスピーカＳＰ１〜ＳＰ４、複数のマイクＭＣ１〜ＭＣ８を備えている。また、操作部４および入出力インターフェイスＩ／Ｆを備えている。

筺体２は円盤状で平面視した形状が円形であり、天面と底面との面積が垂直方向の途中部分の面積よりも狭く、天面には所定深さからなる凹部３を形成している。凹部３の平面視した中心と天面の中心とは一致するように設定している。

操作部４は、筺体２の上部傾斜側面に配置していて、図示しない各種の操作ボタンおよび液晶表示パネルを備える。
入出力インターフェイスＩ／Ｆは、筺体２の下部傾斜側面であって、スピーカＳＰ１〜ＳＰ４が設置されていない位置に配置していて、図示しないネットワーク接続端子、ディジタルオーディオ端子、アナログオーディオ端子、電源端子等を備える。以下の説明では、この放収音装置（自装置）を、ネットワーク接続端子に接続するネットワークケーブル（不図示）を介して、ネットワークに接続し、ネットワークを介して相手先装置に接続するものとする。

８個のマイクＭＣ１〜ＭＣ８は、凹部３の内側側面に沿った筺体２の天面側に設置しており、各マイクＭＣ１〜ＭＣ８は放収音装置１を平面視した中心を回転中心として等角度ピッチ（この場合は約４５°間隔）で配置している。なお、マイクの個数や配置は本実施形態での構成に限らず、仕様に応じて適宜設定すればよい。

マイクＭＣ１の配置された方向をθ＝０°方向とすれば、順に４５°ずつ増加する方向に沿って各マイクＭＣ２〜ＭＣ８を配置している。たとえば、マイクＭＣ３はθ＝９０°付近に配置し、マイクＭＣ５はθ＝１８０°付近に配置し、マイクＭＣ７はθ＝２７０°付近に配置している。また、各マイクＭＣ１〜ＭＣ８は、それぞれが前記平面視した中心方向に指向性を有するように凹部３の内側に向けて配置されている。

ここで図２に基づいて放収音装置１のマイクＭＣ１〜ＭＣ８の指向性領域を説明する。たとえば、図２に矢印で示すようにマイクＭＣ１はθ＝１８０°方向を指向性の中心とする指向性領域を有し、マイクＭＣ３はθ＝２７０°方向を指向性の中心とする指向性領域を有し、マイクＭＣ５はθ＝０°方向を指向性の中心とする指向性領域を有し、マイクＭＣ７はθ＝９０°方向を指向性の中心とする指向性領域を有している。

また図１に示すように、４個のスピーカＳＰ１〜ＳＰ４は、筺体２の下部傾斜側面と放音面が一致するようにそれぞれ設置されており、各スピーカＳＰ１〜ＳＰ４は放収音装置１を平面視した中心を回転中心として等角度ピッチ（この場合は約９０°間隔）で配置している。なお、スピーカの個数や配置は本実施形態での構成に限らず、仕様に応じて適宜設定すればよい。

スピーカＳＰ１はθ＝０°方向の位置に配置しており、順に９０°ずつ増加する方向に沿って各スピーカＳＰ１〜ＳＰ４が配置される。スピーカＳＰ２はθ＝９０°付近に外側に向けて配置され、スピーカＳＰ３はθ＝１８０°付近に外側に向けて配置され、スピーカＳＰ４はθ＝２７０°付近に外側に向けて配置されている。また、各スピーカＳＰ１〜ＳＰ４は、それぞれ放音面の正面側に放音を行うものであり、スピーカＳＰ１はθ＝０°方向を中心とし、スピーカＳＰ２はθ＝９０°方向を中心とし、スピーカＳＰ３はθ＝１８０°方向を中心とし、スピーカＳＰ４はθ＝２７０°方向を中心として放音する。

この放収音装置１では、仮想点音源処理により、複数のスピーカＳＰ１〜ＳＰ４それぞれの駆動信号に遅延処理と振幅処理を施すことで、筺体２から離れた所定位置（仮想点）が音源であるかのような放音音声を合成する。これにより、自装置側の在席者にあたかも仮想点に放音音声の発話者がいるかのように合成音声を聞こえさせる。

ここで、図２に基づいて放収音装置１のスピーカＳＰ１〜ＳＰ４により再生される仮想点音源の位置（仮想点）を説明する。ここでは丸印で示す８箇所に仮想点音源Ｅ１〜Ｅ８を設定し、各仮想点音源Ｅ１〜Ｅ８を筺体２の外側所定距離に配置するものとする。各仮想点音源Ｅ１〜Ｅ８は放収音装置１を平面視した中心を回転中心とした円周上に、等角度ピッチ（この場合は約４５°間隔）で配置している。なお、ここではマイクが８個、仮想点音源も８個としているので、各仮想点音源Ｅ１〜Ｅ８をマイクＭＣ１〜ＭＣ８それぞれの指向方向の略中心に設置している。各マイクおよび仮想点音源の設置個数および設置位置は本実施形態に限らず、仕様に応じて適宜設定すればよい。

したがって、仮想点音源Ｅ１をθ＝１８０°方向とし、順に４５°ずつ増加する方向に沿って各仮想点音源Ｅ２〜Ｅ８を配置している。たとえば、仮想点音源Ｅ３はθ＝２７０°付近に配置し、仮想点音源Ｅ５はθ＝０°付近に配置し、仮想点音源Ｅ７はθ＝９０°付近に配置している。各仮想点音源Ｅ１〜Ｅ８からは、それぞれを中心とした全方位に略無指向性の放音を行う。

各マイクＭＣ１〜ＭＣ８は、それぞれ仮想点音源Ｅ１〜Ｅ８からの回帰音を収音し易くなる。このため、この仮想点音源Ｅ１〜Ｅ８からの回帰音への対策を施さなければ、後述する話者方位検出で回帰音の影響を受け易くなり話者方位検出が阻害される。そのため、本発明では、回帰音の影響を除く後述の回帰音推定処理を施す。

このような放収音装置１を用いて、遠隔地間で音声会議を行う例を図３に基づいて説明する。図３は本実施形態に係る放収音装置１を用いた音声会議システムを説明する図である。

放収音装置１Ａ，１Ｂは上述の放収音装置１と同仕様のものである。放収音装置１Ａ，１Ｂは遠隔にある会議室Ａ，Ｂにそれぞれ配置されていて、ネットワーク１００を介して接続されている。

会議室Ａには、会議出席者Ｈ１Ａ，Ｈ２Ａが放収音装置１Ａを挟むように対向して在席していて、会議出席者Ｈ１Ａが放収音装置１ＡのＳＰ２側に、Ｈ２Ａが放収音装置１ＡのＳＰ４側に位置している。

会議室Ｂには、会議出席者Ｈ１Ｂ，Ｈ２Ｂが放収音装置１Ｂを挟むように対向して在席していて、会議出席者Ｈ１Ｂが放収音装置１ＢのＳＰ１側に、Ｈ２Ｂが放収音装置１ＢのＳＰ３側に位置している。

以下、このような環境で音声会議が行われ、会議室Ｂの会議出席者Ｈ２Ｂと、会議室Ａの会議出席者Ｈ１Ａが同時に発言するものとして、図４に示す放収音装置１の機能ブロック図に基づいて放収音装置１Ａの機能的な構成を説明する。

図４に示す放収音装置１Ａの入出力インターフェイスＩ／Ｆは、図１の筺体２表面に設けられたものであり、ネットワーク１００にネットワークケーブルを介して接続される。そして、ネットワーク１００を介して相手先装置１Ｂとの通信を行う。この入出力インターフェイスＩ／Ｆは、ネットワーク１００を介して相手先装置１Ｂから受信した入力信号を通信制御部１１に出力する。また通信制御部１１から入力される後述する出力信号を、ネットワーク１００を介して相手先装置１Ｂに送信する。

通信制御部１１は入出力インターフェイスＩ／Ｆから入力される入力信号をネットワークに対応するデータ形式（プロトコル）から変換して、入力音声信号ＳＰを抽出し、この入力音声信号ＳＰを、エコーキャンセル部１２を介してスピーカ信号処理部１３と、マイク信号処理部１８とに与える。また、通信制御部１１は入出力インターフェイスＩ／Ｆから入力された入力信号から、相手先装置側での話者方位データＰｙ（相手先装置が生成した話者方位データＰｍが入力信号に付加されて送信されてきたもの）を抽出し、この話者方位データＰｙをスピーカ信号処理部１３およびマイク信号処理部１８に与える。なお、上記のように会議出席者Ｈ２Ｂが発話しているはずなので、ここでは入力音声信号ＳＰは会議出席者Ｈ２Ｂの発話音を収音したものであり、相手先装置が生成した話者方位データＰｍは会議出席者Ｈ２Ｂの方向（１８０°）を表すものである。

この通信制御部１１は、エコーキャンセル部１２から入力される、回帰音除去された出力音声信号ＭＢを、マイク信号処理部１８から入力される自装置側での話者方位データＰｍとともに、ネットワークに対応するデータ形式（プロトコル）に変換して出力信号とする。そしてこの出力信号を、入出力インターフェイスＩ／Ｆおよびネットワーク１００を介して相手先装置１Ｂに出力する。ここでは出力音声信号ＭＢは会議出席者Ｈ１Ａの発話音を収音したものであり、自装置が生成した話者方位データＰｙは会議出席者Ｈ１Ａの方向（９０°）を表すものである。

エコーキャンセル部１２は、一般的な音声信号処理（エコーキャンセル処理）を行う。具体的に説明すると、通信制御部１１から入力された入力音声信号ＳＰに対して、適応型フィルタ（不図示）で畳み込み処理を行うことによって擬似回帰音信号を生成し、マイク信号処理部１８から入力される出力音声信号ＭＢから擬似回帰音信号を差し引く。この際、擬似回帰音信号と回帰音との差（誤差信号）を最小化するように適応型フィルタのフィルタ係数を更新する。更新によりフィルタ係数が適切な値に収束することで、適正なエコーキャンセル処理が可能になる。なお、このエコーキャンセル処理は、本発明に必須の構成ではないので詳細な説明を除くが、相手先装置１Ｂ側での話者方位データＰｙに基づいて、話者個別にエコーキャンセル処理を行うようにしていても好適であり、また、複数の相手先装置を接続する場合には、相手先装置個別にエコーキャンセル処理を行うようにしていても好適である。

スピーカ信号処理部１３は、通信制御部１１から入力される話者方位データＰｙとエコーキャンセル部１２から入力される入力音声信号ＳＰとに基づいて、駆動信号ＳＰＤ１〜ＳＰＤ４を生成し、各スピーカＳＰ１〜ＳＰ４に出力する。具体的には、スピーカ信号処理部１３は、まず相手先装置側での話者方位データＰｙに基づいて、この入力音声信号ＳＰを再生する仮想点音源を上述の仮想点音源Ｅ１〜Ｅ８のなかから選択する。選択する仮想点音源は、自装置側の会議出席者の着席していない位置から選択するようにしてもよく、話者方位データＰｙごとに予め設定された位置でもよい。ここでは、話者方位データＰｙ（１８０°）によって、１８０°付近の仮想点音源Ｅ１が選択されたものとして以下の説明を進める。

次に、このスピーカ信号処理部１３は、仮想点音源Ｅ１に対応付けられ、あらかじめメモリ１９の放音仕様テーブルに記録されていた遅延調整量及びゲイン調整量を読み出す。放音仕様テーブルは、入力音声信号ＳＰに対する遅延調整量及びゲイン調整量が、仮想点音源Ｅ１〜Ｅ８とスピーカＳＰ１〜ＳＰ４との組み合わせごとに予め記録されているものとする。なお、上記遅延調整量及びゲイン調整量は演算にて求めるようにしてもよい。

そして、スピーカ信号処理部１３は、メモリ１９から読み出した、仮想点音源Ｅ１と各スピーカＳＰ１〜ＳＰ４との組み合わせに対応する複数の遅延調整量及びゲイン調整量に基づいて、入力音声信号ＳＰに対して遅延処理及び振幅処理を行ってスピーカＳＰ１〜ＳＰ４個別の駆動信号ＳＰＤ１〜ＳＰＤ４を生成する。これにより、駆動信号ＳＰＤ１〜ＳＰＤ４は所定の遅延関係及び振幅関係となる。このようにして仮想点音源処理を行ったスピーカ信号処理部１３は、これらの駆動信号ＳＰＤ１〜ＳＰＤ４をスピーカＳＰ１〜ＳＰ４毎に設置されたＤ／Ａコンバータ１４に出力する。

各Ｄ／Ａコンバータ１４は入力される駆動信号ＳＰＤ１〜ＳＰＤ４をアナログ形式に変換して、それぞれを対応する放音用アンプ１５に出力する。各放音用アンプ１５は入力される駆動信号ＳＰＤ１〜ＳＰＤ４を増幅して、それぞれを対応するスピーカＳＰ１〜ＳＰ４に与える。

各スピーカＳＰ１〜ＳＰ４は入力される駆動信号ＳＰＤ１〜ＳＰＤ４を音声変換して外部に放音する。

このようにして、各スピーカＳＰ１〜ＳＰ４は駆動信号ＳＰＤ１〜ＳＰＤ４によりそれぞれ放音し、仮想点音源Ｅ１では、所定の遅延関係及び振幅関係のもと放音音声が合成される。したがって、あたかも入力音声信号ＳＰ、すなわち会議出席者Ｈ２Ｂの発生音が仮想点音源Ｅ１から放音されたように、自装置側の各会議出席者Ｈ１Ａ，Ｈ２Ａへ伝達される。

また、この仮想点音源Ｅ１から放音された放音音声は、マイクＭＣ１〜ＭＣ８それぞれに直接、または壁などで反射されて回り込み、マイクＭＣ１〜ＭＣ８それぞれで回帰音として収音される。

この回帰音は、マイクＭＣ１〜ＭＣ８それぞれで、仮想点音源Ｅ１との距離、および各マイクＭＣ１〜ＭＣ８の指向方向に従った、互いに異なる信号レベルで収音される。特に仮想点音源Ｅ１を指向方向の中心とするマイクＭＣ１および、マイクＭＣ１に隣接するマイクＭＣ８とマイクＭＣ２とでは、仮想点音源Ｅ１からの回帰音が高信号レベルで収音される。

またこの時、同時に自装置側の会議出席者Ｈ１Ａも発話するので、発話者の位置（Ｅ７）から放音された発話音は、マイクＭＣ１〜ＭＣ８それぞれに直接、または壁などで反射されて回り込み、マイクＭＣ１〜ＭＣ８それぞれで収音される。

この発話音は、マイクＭＣ１〜ＭＣ８それぞれで、発話者位置（Ｅ７）との距離、および各マイクＭＣ１〜ＭＣ８の指向方向に従った、互いに異なる信号レベルで収音される。特に発話者位置（Ｅ７）が指向方向の中心に位置するマイクＭＣ７および、マイクＭＣ７に隣接するマイクＭＣ６とマイクＭＣ８とでは、発話者位置（Ｅ７）の発話音が高信号レベルで収音される。

各マイクＭＣ１〜ＭＣ８は、各マイクの指向性領域内の音声を収音して電気変換し、それぞれをマイク信号ＭＣＤ１〜ＭＣＤ８として、対応する収音用アンプ１６に出力する。

各収音用アンプ１６はそれぞれマイク信号ＭＣＤ１〜ＭＣＤ８を所定増幅率で増幅し、対応するＡ／Ｄコンバータ１７に出力する。

各Ａ／Ｄコンバータ１７はそれぞれマイク信号ＭＣＤ１〜ＭＣＤ８をアナログ−ディジタル変換してマイク信号処理部１８に出力する。

マイク信号処理部１８は、信号合成部２１と信号選択部２２とを備えていて、信号合成部２１は、マイク信号ＭＣＤ１〜ＭＣＤ８に対して所定の合成処理を行い、収音ビーム信号ＭＢ１〜ＭＢ８を生成し、信号選択部２２に出力する。例えばマイクＭＣ１〜ＭＣ８のうち、隣接するいくつか（例えば３つ）のマイクからのマイク信号ＭＣＤ１〜ＭＣＤ８を合成（加算）して、それぞれを収音ビーム信号ＭＢ１〜ＭＢ８とする。これにより、自装置周囲の特定方位の音声をＳ／Ｎ比が良好な信号として収音することができる。なお、この収音ビーム信号ＭＢ１〜ＭＢ８は、自装置周囲の互いに異なる方位を指向するものであり、本数は適宜設定するとよい。

以下の説明では、仮想点音源Ｅ１からの回帰音が高信号レベルで収音されたマイク信号ＭＣＤ８，ＭＣＤ１，ＭＣＤ２を合成した信号を収音ビーム信号ＭＢ１とし、会議出席者Ｈ１Ａの発話音が高信号レベルで収音されたマイク信号ＭＣＤ６，ＭＣＤ７，ＭＣＤ８を合成した信号を収音ビーム信号ＭＢ３とする。

信号選択部２２には、信号合成部２１から収音ビーム信号ＭＢ１〜ＭＢ８が入力される。また、通信制御部１１から相手先装置側での話者方位データＰｙが入力され、エコーキャンセル部１２から入力音声信号ＳＰが入力される。この信号選択部２２の主要構成を図５に示す。

この信号選択部２２は、入力音声信号ＳＰを処理するための入力音声信号処理部３０と、収音ビーム信号ＭＢ１〜ＭＢ８を処理するための８個のビーム信号処理部４０Ａ〜４０Ｈと、メモリ１９の収音特性テーブルから補正係数を取得するための補正係数取得部５０と、複数の収音ビーム信号ＭＢ１〜ＭＢ８のなかから所定条件を満足する信号を選択する収音ビーム信号選択部６０とを備える。

入力音声信号処理部３０は、ＢＰＦ（バンドパスフィルタ）３１、全波整流回路３２、時間平均化回路３３を備える。
ビーム信号処理部４０Ａ〜４０Ｈはそれぞれ、ＢＰＦ（バンドパスフィルタ）４１、全波整流回路４２、時間平均化回路４３、ＬＯＧ演算回路４４，４６、補正回路４５、減算器４７を備える。

補正係数取得部５０には、通信制御部１１から入力された相手先装置側での話者方位データＰｙが入力される。そして、この話者方位データＰｙに基づいて、入力音声信号ＳＰが再生された仮想点音源を上述の仮想点音源Ｅ１〜Ｅ８のなかから選択する。ここでは、仮想点音源Ｅ１が選択される。

そして、補正係数取得部５０はあらかじめメモリ１９に記録されていた収音特性テーブルから、仮想点音源Ｅ１と収音ビーム信号ＭＢ１〜ＭＢ８との組み合わせごとにメモリ１９に記録されていた補正係数Ｋ１１〜Ｋ１８を読み出し、補正係数Ｋ１１〜Ｋ１８をそれぞれに対応するビーム信号処理部４０Ａ〜４０Ｈに出力する。

なお、収音特性テーブルには、仮想点音源Ｅ１〜Ｅ８それぞれに対して、各収音ビーム信号ＭＢｎに対応付けられた補正係数Ｋｎ１〜Ｋｎ８を記録しているものとする（ここでは、ｎは仮想点音源Ｅ１〜Ｅ８それぞれに対応する１〜８の整数）。この収音特性テーブルは、本実施形態の放収音装置の稼働前に仮想点音源Ｅ１〜Ｅ８それぞれを放音させ、それぞれの回帰音のみを収音して補正係数を予め定めておくようにしてもよく、また工場出荷時に予め補正係数を定めておくようにしてもよい。また、演算により算出することも可能である。

この時、入力音声信号処理部３０には、放音前の入力音声信号ＳＰが入力され、ＢＰＦ３１により帯域通過フィルタ処理して、全波整流回路３２に出力する。全波整流回路３２は、入力される入力音声信号ＳＰを全波整流（絶対値化）して、時間平均化回路３３に出力する。時間平均化回路３３は、入力される入力音声信号ＳＰを時間平均化して、入力音声信号ＳＰの時間平均値をビーム信号処理部４０Ａ〜４０Ｈそれぞれに出力する。

またこの時、ビーム信号処理部４０Ａ〜４０Ｈでは、入力音声信号処理部３０の時間平均化回路３３が出力した入力音声信号ＳＰの時間平均値が、それぞれの補正回路４５に入力される。補正回路４５は、入力音声信号ＳＰの時間平均値を、補正係数取得部５０が出力した補正係数に乗算して補正処理する。

この補正処理は仮想点音源Ｅ１からの回帰音のみを収音した場合の各収音ビーム信号ＭＢ１〜ＭＢ８の時間平均値とほとんど等しいレベルに、入力音声信号ＳＰの時間平均値を補正し、回帰音成分の時間平均値を取得するものである。そして、補正回路４５はこの仮想点音源Ｅ１からの回帰音成分の時間平均値をＬＯＧ演算回路４６に出力する。

そして、ＬＯＧ演算回路４６は、仮想点音源Ｅ１からの回帰音成分の時間平均値をＬＯＧ換算して、減算器４７の減算信号端子に出力する。

また、ビーム信号処理部４０のＢＰＦ４１は、人の音声主成分帯域を通過帯域とするバンドパスフィルタであり、仮想点音源Ｅ１からの回帰音および発話者位置（Ｅ７）からの発話音を含む収音ビーム信号（収音ビーム信号ＭＢ１〜ＭＢ８）を帯域通過フィルタ処理して、全波整流回路４２に出力する。全波整流回路４２は、入力される収音ビーム信号を全波整流（絶対値化）して、時間平均化回路４３に出力する。時間平均化回路４３は、入力される収音ビーム信号を時間平均化して、収音ビーム信号の時間平均値をＬＯＧ演算回路４４に出力し、ＬＯＧ演算回路４４は、時間平均化回路４３から入力された時間平均値をＬＯＧ換算して、減算器４７の加算信号端子に出力する。

ビーム信号処理部４０Ａ〜４０Ｈそれぞれの減算器４７は、加算信号端子に入力された、仮想点音源Ｅ１からの回帰音および発話者位置（Ｅ７）からの発話音に対応する入力値から、減算信号端子に入力された仮想点音源Ｅ１からの回帰音に対応する入力値を減算して、発話者位置（Ｅ７）からの発話音のみに対応する値（音圧比例量Ｖ１）を取得する。そして減算器４７は、ビーム信号処理部４０Ａ〜４０Ｈそれぞれの出力を収音ビーム信号選択部６０に入力する。

収音ビーム信号選択部６０は、各ビーム信号処理部４０Ａ〜４０Ｈそれぞれから出力された値（音圧比例量Ｖ１〜Ｖ８）の値を比較する。そして、所定条件を満足する収音ビーム信号の、中心方位を話者方位とする。この選択の条件については後述する。

そして、収音ビーム信号選択部６０は選定した話者方位に基づいて、自装置側の話者方位データＰｍを生成する。この自装置側の話者方位データＰｍは通信制御部１１に出力される。また、選定した話者方位に基づいて、信号合成部２１から出力された収音ビーム信号ＭＢ１〜ＭＢ８のうちいずれかを選択して、エコーキャンセル部１２に出力する。

ここでは、仮想点音源Ｅ７に対応する話者方位の値（音圧比例量Ｖ７）が比較により選ばれ、対応する話者方位９０°が話者方位データＰｍに選定されるとともに、収音ビーム信号ＭＢ７が出力音声信号としてエコーキャンセル部１２に出力される。

エコーキャンセル部１２は入力された収音ビーム信号（ＭＢ７）を出力音声信号ＭＢとしてエコーキャンセル処理を行い、通信制御部１１および入出力インターフェイスＩ／Ｆを介してネットワーク１００に送信する。

以上のようにして、放収音装置１Ａ周囲の位置（Ｅ７）に在席する会議出席者Ｈ１Ａと仮想点音源Ｅ１から略同時に発話（放音）がなされた場合にも、この放収音装置１Ａでは、仮想点音源Ｅ１からの回帰音の影響を除いて、発話者位置（Ｅ７）からの発話音のみを確実に音声処理・出力できる。仮に、他の仮想点音源や他の会議出席者からの放音があったとしても同様にして、回帰音の影響を除いて、発話音のみを確実に音声処理・出力できる。

次に、収音ビーム信号選択部６０の具体的な処理を説明する。収音ビーム信号選択部６０は、ビーム信号処理部４０Ａ〜４０Ｈそれぞれから出力された値（音圧比例量Ｖ１〜Ｖ８）の平均である、平均音圧比例量Ｖ_ａｖを算出する。そして、各音圧比例量（音圧比例量Ｖ１〜Ｖ８）と平均音圧比例量Ｖ_ａｖとのレベル比データＣＥ１〜ＣＥ８を算出する。具体的には、各音圧比例量Ｖ_ｍ（ｍ＝１〜８）に対して、
ＣＥｍ＝Ａ＊Ｌｏｇ（Ｖ_ｍ／Ｖ_ａｖ）（Ａは定数） ―（１）
このように、各音圧比例量を平均音圧比例量で除算して比を算出することで、回帰音成分を除いた音圧比例量を推定する回帰音推定処理では除去しきれなかった回帰音成分が略「１」、すなわちデシベル単位であれば略「０」相当となる。一方、発話音成分は高レベルのままとなる。なお、このようにデシベル単位を用いることにより、定数Ａを適宜設定すれば、高レベル信号を他の部分よりも顕著にすることができる。

収音ビーム信号選択部６０は、これらレベル比データＣＥ１〜ＣＥ８に対して、予め所定の閾値ＤＥ_ｔｈを設定し、当該閾値ＤＥ_ｔｈを超えるレベルのデータを検出すると、該当するレベル比データＣＥに対応する収音ビーム信号ＭＢ１〜ＭＢ８の選択情報を選定する。ここで、閾値ＤＥ_ｔｈは、予め発声音による収音音声がない状況で暗騒音や意図的に発生させた放音音声に対する回帰音の収音レベル等から適宜設定しておく。

このような構成、処理を用いることで、会議出席者（話者）の発声音の収音信号レベルが、回帰音信号レベルと同等であったり、回帰音信号レベルよりも低かったりしても、確実に発声音に対応する出力音声信号ＭＢを選択することができる。なお、上記のような閾値を必ずしも用いる必要はない。

また収音ビーム信号選択部６０は上記平均を用いた処理のほかにも、他の処理によっても同様な結果を得ることができる。

音圧比例量Ｖ１〜Ｖ８から、互いに図１の対称な方向を指向するビームの音圧比例量同士のレベル比データＣＥ１〜ＣＥ４を算出する。具体的には、各音圧比例量Ｖ_ｎ（ｎ＝１〜４）に対して、
ＣＥ_ｎ＝Ｂ＊Ｌｏｇ（Ｖ_ｎ／Ｖ_ｎ＋４）（Ｂは定数） ―（２）
を用いて、レベル比データＣＥ１〜ＣＥ４をデシベル単位で算出する。
このように対称位置にある音圧比例量同士を除算して比を算出することで、回帰音成分を除いた音圧比例量を推定する回帰音推定処理では除去しきれなかった回帰音成分が略「１」、すなわちデシベル単位であれば略「０」相当となる。一方、発話音成分は、会議出席者Ｈ１Ｂの方位に対応する収音ビーム信号ＭＢ１の仮想点音源Ｅ１に現れ、収音ビーム信号ＭＢ１に対して対称な収音ビーム信号ＭＢ５には現れない。したがって、式（２）から、レベル比データＣＥ３は、発話音成分の発生するタイミングで、基準レベル０ｄＢより正の方向に高い正方向高レベルとなる。

また逆に、各音圧比例量Ｖ_ｎ（ｎ＝１〜４）に対して、
ＣＥ_ｎ＝Ｂ＊Ｌｏｇ（Ｖ_ｎ＋４／Ｖ_ｎ）（Ｂは定数） ―（３）
を用いて、レベル比データＣＥ１〜ＣＥ４をデシベル単位で算出すると、レベル比データＣＥ３は、発話音成分の発生するタイミングで、基準レベル０ｄＢより負の方向に高い負方向高レベルとなる。なお、このようにデシベル単位を用いることにより、定数Ｂを適宜設定すれば、正方向高レベル信号、負方向高レベル信号を他の部分よりも顕著にすることができる。

収音ビーム信号選択部６０は、これらレベル比データＣＥ１〜ＣＥ４に対して、予め所定のレベル範囲ＤＷ_ｔｈを設定し、当該レベル範囲ＤＷ_ｔｈを正方向または負方向に超えるレベルのデータを検出すると、該当するレベル比データＣＥに対応する収音ビーム信号の組合せを検出し、該当するレベル比データＣＥが正方向に高いレベルであるのか、負方向に高いレベルであるのかを示す正負レベル情報を選定する。ここで、レベル範囲ＤＷ_ｔｈも、前述の閾値ＤＥ_ｔｈと同様に、予め発声音による収音音声がない状況で暗騒音や意図的に発生させた放音音声に対する回帰音の収音レベル等から適宜設定しておく。

このような構成、処理を用いても、会議出席者（話者）の発声音の収音信号レベルが、回帰音信号レベルと同等であったり、回帰音信号レベルよりも低くなったりしても、確実に発声音に対応する収音ビーム信号を選択することができる。なお、上記のような閾値を必ずしも用いる必要はない。

なお、前述の各実施形態の説明では、収音ビーム生成部により収音ビーム信号を生成する場合を示したが、各マイクＭＣ１〜ＭＣ８からの出力信号をそのまま収音ビーム信号として用いるようにしてもよい。

また、上記のような音圧比例量の比を必ずしも用いる必要はなく、単に最も大きい音圧比例量を用いたり、閾値を超えた音圧比例量を用いるようにしてもよい。

また、前述の説明では、一台の放収音装置に対して一人が発言している状況を例に示したが、前述の構成および処理を用いることで、複数人が同時に発言しても当然に、それぞれの話者方位を検出することができる。

本実施形態に係る放収音装置の外観図である。本実施形態に係る放収音装置のマイク、スピーカ配置により形成される収音ビーム領域および仮想点音源を示す図である。本実施形態の放収音装置を利用し会議を行っている状況を示した図である。本実施形態の放収音装置の機能ブロック図である。収音ビーム信号選択部の構成を示すブロック図である。

符号の説明

１…放収音装置、２…筺体、３…凹部、４…操作部、１１…通信制御部、１２…エコーキャンセル部、１３…スピーカ信号処理部、１４…Ｄ／Ａコンバータ、１５…放音用アンプ、１６…収音用アンプ、１７…Ａ／Ｄコンバータ、１８…マイク信号処理部、１９…メモリ、２１…信号合成部、２２…信号選択部、３０…入力音声信号処理部、３１，４１…ＢＰＦ、３２，４２…全波整流回路、３３，４３…時間平均化回路、４０…ビーム信号処理部、４４，４６…ＬＯＧ演算回路、４５…補正回路、４７…減算器、５０…補正係数取得部、６０…収音ビーム信号選択部、１００…ネットワーク

Claims

複数の指向性領域からそれぞれ異なる収音音声信号を収音する収音手段と、
前記複数の指向性領域内に設定した複数の音源位置から、それぞれ個別の放音音声信号を放音する放音手段と、
前記収音手段により前記放音音声信号が収音されてなる回帰音成分を除いた各収音音声信号の音圧に比例する音圧比例量を取得する音圧取得手段と、
前記音圧取得手段により取得した各音圧比例量に基づいて、前記指向性領域内の発話者の発話音が含まれる前記収音音声信号を選択する収音音声信号選択手段と、を備える放収音装置。
前記音圧取得手段は、前記放音手段の放音する前記放音音声信号と、当該放音音声信号を放音する前記音源位置とに基づいて、前記放音音声信号の回帰音成分の音圧に比例する音圧比例量を推定し、当該音圧比例量を各収音音声信号の音圧に比例する音圧比例量から減算する手段である請求項１に記載の放収音装置。
前記音圧取得手段は、前記放音音声信号を放音する前記音源位置に予め対応付けて記憶した補正係数により、前記放音手段の放音する前記放音音声信号を補正して、前記放音音声信号の回帰音成分の音圧に比例する音圧比例量を推定する請求項２に記載の放収音装置。
前記収音音声信号選択手段は、全収音音声信号の音圧比例量の平均を閾値として、前記音圧取得手段により取得した音圧比例量が前記閾値以上である収音音声信号を選択する手段である請求項１〜３のいずれかに記載の放収音装置。
前記収音音声信号選択手段は、相対する方位から得た一対の前記収音音声信号の組の、前記音圧取得手段により取得した音圧比例量の比が所定範囲内にない場合に、前記比が所定範囲よりも高いか低いかにより、前記一対の収音音声信号の一方を選択する手段である請求項１〜３のいずれかに記載の放収音装置。