JP2008278399A - 放収音装置 - Google Patents
放収音装置 Download PDFInfo
- Publication number
- JP2008278399A JP2008278399A JP2007122197A JP2007122197A JP2008278399A JP 2008278399 A JP2008278399 A JP 2008278399A JP 2007122197 A JP2007122197 A JP 2007122197A JP 2007122197 A JP2007122197 A JP 2007122197A JP 2008278399 A JP2008278399 A JP 2008278399A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- signal
- collection
- sound pressure
- emission
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephonic Communication Services (AREA)
Abstract
【課題】回帰音に影響されることなく、確実に発話者からの音声を収音する簡易な構成・処理の放収音装置の提供を図る。
【解決手段】放収音装置1は仮想点音源処理を行う。信号選択部22は、仮想点音源ごとに対応付けてメモリ19に予め記憶した補正係数により、入力音声信号SPを補正する。このようにして、回帰音成分の音圧に比例する音圧比例量を得る。そして、当該音圧比例量を各収音ビーム信号MB1〜MB8から減算する。次に、回帰音成分の音圧に比例する音圧比例量を減算した各収音ビーム信号MB1〜MB8のうち、全収音音声信号の平均以上である収音音声信号を、発話音の含まれる収音音声信号として選択する。この収音音声信号に音声信号処理を施し、相手先装置に対して送信する。
【選択図】図4
【解決手段】放収音装置1は仮想点音源処理を行う。信号選択部22は、仮想点音源ごとに対応付けてメモリ19に予め記憶した補正係数により、入力音声信号SPを補正する。このようにして、回帰音成分の音圧に比例する音圧比例量を得る。そして、当該音圧比例量を各収音ビーム信号MB1〜MB8から減算する。次に、回帰音成分の音圧に比例する音圧比例量を減算した各収音ビーム信号MB1〜MB8のうち、全収音音声信号の平均以上である収音音声信号を、発話音の含まれる収音音声信号として選択する。この収音音声信号に音声信号処理を施し、相手先装置に対して送信する。
【選択図】図4
Description
この発明は、ネットワーク等を介して複数の地点間で音声会議等を行うために用いる放収音装置、特にマイクの指向性領域内に仮想点音源を配置した放収音装置に関するものである。
遠隔地間で音声会議を行う方法として、音声会議を行う地点毎に放収音装置を設置して、これら装置をネットワークで接続し、音声信号を通信する方法がある。上記放収音装置としては、ネットワークを介して接続された相手先装置側の音声を放音するスピーカと、自装置側の音声を収音するマイクロホンとが1つの筐体に同時に設置されたものが用いられている。
特許文献1に記載された従来の放収音装置は、ネットワークを介して入力される音声信号を天面に配置されたスピーカから放音し、側面に配置され異なる複数方向をそれぞれの正面方向とする各マイクにより音声信号を収音し、ネットワークを介して収音信号を外部に送信する。
特開平8−298696号公報
しかしながら特許文献1の装置では、マイクとスピーカとが近接することで、各マイクの収音音声信号に、スピーカから放音した相手先装置側の音声(回帰音)が多く含まれる。この回帰音の音量が比較的大きい場合には、発話者方位からの収音・出力を正確に行うことができないという問題があった。
また、この種の放収音装置では、リアルな音声会議を演出するために、仮想点音源処理を施す場合がある。仮想点音源処理は、相手先装置側の発話者の音声を自装置側の仮想点音源から放音する処理である。具体的には、入力音声信号に遅延処理と振幅処理を施して、複数のスピーカそれぞれの駆動信号を生成する。そして、それらの駆動信号により各スピーカを放音させることにより、相手先装置側の発話者の音声を複数のスピーカそれぞれから離れた位置が音源位置となるように放音させる。これにより、自装置側に在席する会議出席者に、あたかも自装置側の仮想点に相手先装置側の会議出席者がいるかのように合成される音声を聞こえさせていた。
このような仮想点音源処理を施す場合、仮想点音源を指向性領域内に含むマイクでは、仮想点音源からの放音音声(回帰音)をマイクが高レベル信号として収音してしまう。すると、このマイクの収音音声信号から発話者の発話音を正確に音声処理・出力することが困難になる。
そこで、この発明の目的は、回帰音に影響されずに、自装置側の発話者からの音声を確実に音声処理・出力することができる簡易な構成・処理の放収音装置を提供することにある。
この発明の放収音装置は、複数の指向性領域からそれぞれ異なる収音音声信号を収音する収音手段と、前記複数の指向性領域内に設定した複数の音源位置から、それぞれ個別の放音音声信号を放音する放音手段と、前記収音手段により前記放音音声信号が収音されてなる回帰音成分を除いた各収音音声信号の音圧に比例する音圧比例量を取得する音圧取得手段と、前記音圧取得手段により取得した各音圧比例量に基づいて、前記指向性領域内の発話者の発話音が含まれる前記収音音声信号を選択する収音音声信号選択手段と、を備える。
放収音装置のマイク指向性領域内に仮想点音源が配置されている場合、そのマイクの出力する収音音声信号には自装置側の発話者の発声音だけでなく、仮想点音源からの回帰音も収音される。
そこで本発明では、音圧取得手段により回帰音成分を除いた収音音声信号の音圧比例量を取得する。そして、この回帰音成分を除いた収音音声信号の音圧比例量に基づいて複数の収音音声信号から発話音の含まれる収音音声信号を選択する。このようにして、回帰音に影響されることなく発話音の含まれる収音音声信号の選択を行うことができる。このようにして選択した収音音声信号は正確な発話方位を収音したものとなり、発話者の発話音の確実な音声処理・出力が可能になる。
また、この発明の前記音圧取得手段は、前記放音手段の放音する前記放音音声信号と、当該放音音声信号を放音する前記音源位置とに基づいて、前記放音音声信号の回帰音成分の音圧に比例する音圧比例量を推定し、当該音圧比例量を各収音音声信号の音圧に比例する音圧比例量から減算する手段である。
各マイクでの回帰音の音量(音圧)は、仮想点音源から放音する放音音声の音圧とその仮想点音源の位置とがわかれば、高精度に推定可能である。そこで、仮想点音源からの放音音声の音圧とその仮想点音源の位置とに基づいて放音音声信号の回帰音成分を除いた各収音音声信号の音圧に比例する音圧比例量を高精度に取得する。したがって回帰音の音圧や発話音の音圧を直接測定しなくても、回帰音成分を除いた各収音音声信号の音圧に比例する音圧比例量を取得でき、それらを直接測定するための構成、処理、時間が必要なくなり、簡易な構成・処理の放収音装置を提供できる。
また、この発明の前記音圧取得手段は、放音音声信号を放音する前記音源位置に予め対応付けて記憶した補正係数により、前記放音手段の放音する前記放音音声信号を補正して、前記放音音声信号の回帰音成分の音圧に比例する音圧比例量を得る。
この構成により、あらかじめ記憶手段に記憶した補正係数と、放音音声信号とにより、回帰音の音圧を推定できる。この音圧分をマイクの収音音声信号から除くことで発話者の発話音の音圧の取得を可能にする。したがって、回帰音の音圧や発話音の音圧を直接測定しなくても高精度に発話者方位を取得することができ、本装置におけるこの処理回路や処理時間の負担がさらに低減できる。また、補正係数を用いることで、回帰音の音圧を取得する高度な音声信号処理を行う必要がなくなり、低負荷で速やかに回帰音の音圧を取得できる。
また、この発明の前記収音音声信号選択手段は、全収音音声信号の音圧比例量の平均を閾値として、前記音圧取得手段により取得した音圧比例量が前記閾値以上である収音音声信号を選択する手段である。
本発明の構成のように、全収音音声信号の音圧比例量の平均値を閾値としておき、補正により回帰音の影響を除いた音圧比例量が、当該閾値を超えていれば、その方位が発話者方位となり、当該収音音声信号を選択して音声信号処理することにより、回帰音に影響されることなく、発話者方位に対応する収音音声信号を選択することができる。
また、この発明の前記収音音声信号選択手段は、相対する方位から得た一対の前記収音音声信号の組の、前記音圧取得手段により取得した音圧比例量の比が所定範囲内にない場合に、前記比が所定範囲よりも高いか低いかにより、前記一対の収音音声信号の一方を選択する手段である。
この構成では、発声音の到来方位に対応する収音音声信号を含む一対の音圧比例量の比が所定範囲を超えたものになる。音圧比例量の比の算出時に、基準側(分母側)とした収音音声信号の音圧比例量が大きければ音圧比例量の比が小さくなる方向に変化し、基準側(分母側)とした収音音声信号の音圧比例量が小さければ音圧比例量の比が大きくなる方向に変化する。
このような構成により、回帰音に影響されることなく、発話者方位に対応する収音音声信号を選択することができる。
この発明によれば、回帰音のレベルに影響されることなく、発話音の含まれる収音音声信号を選択することができ、発話者等の音源方位を正確に検出して、当該方位からの音声を確実に収音して出力することができる。
本発明の第1の実施形態に係る放収音装置について図を参照して説明する。
図1は本実施形態に係る放収音装置1の外形図であり、同図(A)が平面図、同図(B)が側面図である。図には、放収音装置1を平面視した中心を回転中心、マイクMC1、スピーカSP1方向を0°とした、反時計回りに増加する角度θを付加している。
図1は本実施形態に係る放収音装置1の外形図であり、同図(A)が平面図、同図(B)が側面図である。図には、放収音装置1を平面視した中心を回転中心、マイクMC1、スピーカSP1方向を0°とした、反時計回りに増加する角度θを付加している。
図1に示すように本実施形態の放収音装置1は、筺体2に、複数のスピーカSP1〜SP4、複数のマイクMC1〜MC8を備えている。また、操作部4および入出力インターフェイスI/Fを備えている。
筺体2は円盤状で平面視した形状が円形であり、天面と底面との面積が垂直方向の途中部分の面積よりも狭く、天面には所定深さからなる凹部3を形成している。凹部3の平面視した中心と天面の中心とは一致するように設定している。
操作部4は、筺体2の上部傾斜側面に配置していて、図示しない各種の操作ボタンおよび液晶表示パネルを備える。
入出力インターフェイスI/Fは、筺体2の下部傾斜側面であって、スピーカSP1〜SP4が設置されていない位置に配置していて、図示しないネットワーク接続端子、ディジタルオーディオ端子、アナログオーディオ端子、電源端子等を備える。以下の説明では、この放収音装置(自装置)を、ネットワーク接続端子に接続するネットワークケーブル(不図示)を介して、ネットワークに接続し、ネットワークを介して相手先装置に接続するものとする。
入出力インターフェイスI/Fは、筺体2の下部傾斜側面であって、スピーカSP1〜SP4が設置されていない位置に配置していて、図示しないネットワーク接続端子、ディジタルオーディオ端子、アナログオーディオ端子、電源端子等を備える。以下の説明では、この放収音装置(自装置)を、ネットワーク接続端子に接続するネットワークケーブル(不図示)を介して、ネットワークに接続し、ネットワークを介して相手先装置に接続するものとする。
8個のマイクMC1〜MC8は、凹部3の内側側面に沿った筺体2の天面側に設置しており、各マイクMC1〜MC8は放収音装置1を平面視した中心を回転中心として等角度ピッチ(この場合は約45°間隔)で配置している。なお、マイクの個数や配置は本実施形態での構成に限らず、仕様に応じて適宜設定すればよい。
マイクMC1の配置された方向をθ=0°方向とすれば、順に45°ずつ増加する方向に沿って各マイクMC2〜MC8を配置している。たとえば、マイクMC3はθ=90°付近に配置し、マイクMC5はθ=180°付近に配置し、マイクMC7はθ=270°付近に配置している。また、各マイクMC1〜MC8は、それぞれが前記平面視した中心方向に指向性を有するように凹部3の内側に向けて配置されている。
ここで図2に基づいて放収音装置1のマイクMC1〜MC8の指向性領域を説明する。たとえば、図2に矢印で示すようにマイクMC1はθ=180°方向を指向性の中心とする指向性領域を有し、マイクMC3はθ=270°方向を指向性の中心とする指向性領域を有し、マイクMC5はθ=0°方向を指向性の中心とする指向性領域を有し、マイクMC7はθ=90°方向を指向性の中心とする指向性領域を有している。
また図1に示すように、4個のスピーカSP1〜SP4は、筺体2の下部傾斜側面と放音面が一致するようにそれぞれ設置されており、各スピーカSP1〜SP4は放収音装置1を平面視した中心を回転中心として等角度ピッチ(この場合は約90°間隔)で配置している。なお、スピーカの個数や配置は本実施形態での構成に限らず、仕様に応じて適宜設定すればよい。
スピーカSP1はθ=0°方向の位置に配置しており、順に90°ずつ増加する方向に沿って各スピーカSP1〜SP4が配置される。スピーカSP2はθ=90°付近に外側に向けて配置され、スピーカSP3はθ=180°付近に外側に向けて配置され、スピーカSP4はθ=270°付近に外側に向けて配置されている。また、各スピーカSP1〜SP4は、それぞれ放音面の正面側に放音を行うものであり、スピーカSP1はθ=0°方向を中心とし、スピーカSP2はθ=90°方向を中心とし、スピーカSP3はθ=180°方向を中心とし、スピーカSP4はθ=270°方向を中心として放音する。
この放収音装置1では、仮想点音源処理により、複数のスピーカSP1〜SP4それぞれの駆動信号に遅延処理と振幅処理を施すことで、筺体2から離れた所定位置(仮想点)が音源であるかのような放音音声を合成する。これにより、自装置側の在席者にあたかも仮想点に放音音声の発話者がいるかのように合成音声を聞こえさせる。
ここで、図2に基づいて放収音装置1のスピーカSP1〜SP4により再生される仮想点音源の位置(仮想点)を説明する。ここでは丸印で示す8箇所に仮想点音源E1〜E8を設定し、各仮想点音源E1〜E8を筺体2の外側所定距離に配置するものとする。各仮想点音源E1〜E8は放収音装置1を平面視した中心を回転中心とした円周上に、等角度ピッチ(この場合は約45°間隔)で配置している。なお、ここではマイクが8個、仮想点音源も8個としているので、各仮想点音源E1〜E8をマイクMC1〜MC8それぞれの指向方向の略中心に設置している。各マイクおよび仮想点音源の設置個数および設置位置は本実施形態に限らず、仕様に応じて適宜設定すればよい。
したがって、仮想点音源E1をθ=180°方向とし、順に45°ずつ増加する方向に沿って各仮想点音源E2〜E8を配置している。たとえば、仮想点音源E3はθ=270°付近に配置し、仮想点音源E5はθ=0°付近に配置し、仮想点音源E7はθ=90°付近に配置している。各仮想点音源E1〜E8からは、それぞれを中心とした全方位に略無指向性の放音を行う。
各マイクMC1〜MC8は、それぞれ仮想点音源E1〜E8からの回帰音を収音し易くなる。このため、この仮想点音源E1〜E8からの回帰音への対策を施さなければ、後述する話者方位検出で回帰音の影響を受け易くなり話者方位検出が阻害される。そのため、本発明では、回帰音の影響を除く後述の回帰音推定処理を施す。
このような放収音装置1を用いて、遠隔地間で音声会議を行う例を図3に基づいて説明する。図3は本実施形態に係る放収音装置1を用いた音声会議システムを説明する図である。
放収音装置1A,1Bは上述の放収音装置1と同仕様のものである。放収音装置1A,1Bは遠隔にある会議室A,Bにそれぞれ配置されていて、ネットワーク100を介して接続されている。
会議室Aには、会議出席者H1A,H2Aが放収音装置1Aを挟むように対向して在席していて、会議出席者H1Aが放収音装置1AのSP2側に、H2Aが放収音装置1AのSP4側に位置している。
会議室Bには、会議出席者H1B,H2Bが放収音装置1Bを挟むように対向して在席していて、会議出席者H1Bが放収音装置1BのSP1側に、H2Bが放収音装置1BのSP3側に位置している。
以下、このような環境で音声会議が行われ、会議室Bの会議出席者H2Bと、会議室Aの会議出席者H1Aが同時に発言するものとして、図4に示す放収音装置1の機能ブロック図に基づいて放収音装置1Aの機能的な構成を説明する。
図4に示す放収音装置1Aの入出力インターフェイスI/Fは、図1の筺体2表面に設けられたものであり、ネットワーク100にネットワークケーブルを介して接続される。そして、ネットワーク100を介して相手先装置1Bとの通信を行う。この入出力インターフェイスI/Fは、ネットワーク100を介して相手先装置1Bから受信した入力信号を通信制御部11に出力する。また通信制御部11から入力される後述する出力信号を、ネットワーク100を介して相手先装置1Bに送信する。
通信制御部11は入出力インターフェイスI/Fから入力される入力信号をネットワークに対応するデータ形式(プロトコル)から変換して、入力音声信号SPを抽出し、この入力音声信号SPを、エコーキャンセル部12を介してスピーカ信号処理部13と、マイク信号処理部18とに与える。また、通信制御部11は入出力インターフェイスI/Fから入力された入力信号から、相手先装置側での話者方位データPy(相手先装置が生成した話者方位データPmが入力信号に付加されて送信されてきたもの)を抽出し、この話者方位データPyをスピーカ信号処理部13およびマイク信号処理部18に与える。なお、上記のように会議出席者H2Bが発話しているはずなので、ここでは入力音声信号SPは会議出席者H2Bの発話音を収音したものであり、相手先装置が生成した話者方位データPmは会議出席者H2Bの方向(180°)を表すものである。
この通信制御部11は、エコーキャンセル部12から入力される、回帰音除去された出力音声信号MBを、マイク信号処理部18から入力される自装置側での話者方位データPmとともに、ネットワークに対応するデータ形式(プロトコル)に変換して出力信号とする。そしてこの出力信号を、入出力インターフェイスI/Fおよびネットワーク100を介して相手先装置1Bに出力する。ここでは出力音声信号MBは会議出席者H1Aの発話音を収音したものであり、自装置が生成した話者方位データPyは会議出席者H1Aの方向(90°)を表すものである。
エコーキャンセル部12は、一般的な音声信号処理(エコーキャンセル処理)を行う。具体的に説明すると、通信制御部11から入力された入力音声信号SPに対して、適応型フィルタ(不図示)で畳み込み処理を行うことによって擬似回帰音信号を生成し、マイク信号処理部18から入力される出力音声信号MBから擬似回帰音信号を差し引く。この際、擬似回帰音信号と回帰音との差(誤差信号)を最小化するように適応型フィルタのフィルタ係数を更新する。更新によりフィルタ係数が適切な値に収束することで、適正なエコーキャンセル処理が可能になる。なお、このエコーキャンセル処理は、本発明に必須の構成ではないので詳細な説明を除くが、相手先装置1B側での話者方位データPyに基づいて、話者個別にエコーキャンセル処理を行うようにしていても好適であり、また、複数の相手先装置を接続する場合には、相手先装置個別にエコーキャンセル処理を行うようにしていても好適である。
スピーカ信号処理部13は、通信制御部11から入力される話者方位データPyとエコーキャンセル部12から入力される入力音声信号SPとに基づいて、駆動信号SPD1〜SPD4を生成し、各スピーカSP1〜SP4に出力する。具体的には、スピーカ信号処理部13は、まず相手先装置側での話者方位データPyに基づいて、この入力音声信号SPを再生する仮想点音源を上述の仮想点音源E1〜E8のなかから選択する。選択する仮想点音源は、自装置側の会議出席者の着席していない位置から選択するようにしてもよく、話者方位データPyごとに予め設定された位置でもよい。ここでは、話者方位データPy(180°)によって、180°付近の仮想点音源E1が選択されたものとして以下の説明を進める。
次に、このスピーカ信号処理部13は、仮想点音源E1に対応付けられ、あらかじめメモリ19の放音仕様テーブルに記録されていた遅延調整量及びゲイン調整量を読み出す。放音仕様テーブルは、入力音声信号SPに対する遅延調整量及びゲイン調整量が、仮想点音源E1〜E8とスピーカSP1〜SP4との組み合わせごとに予め記録されているものとする。なお、上記遅延調整量及びゲイン調整量は演算にて求めるようにしてもよい。
そして、スピーカ信号処理部13は、メモリ19から読み出した、仮想点音源E1と各スピーカSP1〜SP4との組み合わせに対応する複数の遅延調整量及びゲイン調整量に基づいて、入力音声信号SPに対して遅延処理及び振幅処理を行ってスピーカSP1〜SP4個別の駆動信号SPD1〜SPD4を生成する。これにより、駆動信号SPD1〜SPD4は所定の遅延関係及び振幅関係となる。このようにして仮想点音源処理を行ったスピーカ信号処理部13は、これらの駆動信号SPD1〜SPD4をスピーカSP1〜SP4毎に設置されたD/Aコンバータ14に出力する。
各D/Aコンバータ14は入力される駆動信号SPD1〜SPD4をアナログ形式に変換して、それぞれを対応する放音用アンプ15に出力する。各放音用アンプ15は入力される駆動信号SPD1〜SPD4を増幅して、それぞれを対応するスピーカSP1〜SP4に与える。
各スピーカSP1〜SP4は入力される駆動信号SPD1〜SPD4を音声変換して外部に放音する。
このようにして、各スピーカSP1〜SP4は駆動信号SPD1〜SPD4によりそれぞれ放音し、仮想点音源E1では、所定の遅延関係及び振幅関係のもと放音音声が合成される。したがって、あたかも入力音声信号SP、すなわち会議出席者H2Bの発生音が仮想点音源E1から放音されたように、自装置側の各会議出席者H1A,H2Aへ伝達される。
また、この仮想点音源E1から放音された放音音声は、マイクMC1〜MC8それぞれに直接、または壁などで反射されて回り込み、マイクMC1〜MC8それぞれで回帰音として収音される。
この回帰音は、マイクMC1〜MC8それぞれで、仮想点音源E1との距離、および各マイクMC1〜MC8の指向方向に従った、互いに異なる信号レベルで収音される。特に仮想点音源E1を指向方向の中心とするマイクMC1および、マイクMC1に隣接するマイクMC8とマイクMC2とでは、仮想点音源E1からの回帰音が高信号レベルで収音される。
またこの時、同時に自装置側の会議出席者H1Aも発話するので、発話者の位置(E7)から放音された発話音は、マイクMC1〜MC8それぞれに直接、または壁などで反射されて回り込み、マイクMC1〜MC8それぞれで収音される。
この発話音は、マイクMC1〜MC8それぞれで、発話者位置(E7)との距離、および各マイクMC1〜MC8の指向方向に従った、互いに異なる信号レベルで収音される。特に発話者位置(E7)が指向方向の中心に位置するマイクMC7および、マイクMC7に隣接するマイクMC6とマイクMC8とでは、発話者位置(E7)の発話音が高信号レベルで収音される。
各マイクMC1〜MC8は、各マイクの指向性領域内の音声を収音して電気変換し、それぞれをマイク信号MCD1〜MCD8として、対応する収音用アンプ16に出力する。
各収音用アンプ16はそれぞれマイク信号MCD1〜MCD8を所定増幅率で増幅し、対応するA/Dコンバータ17に出力する。
各A/Dコンバータ17はそれぞれマイク信号MCD1〜MCD8をアナログ−ディジタル変換してマイク信号処理部18に出力する。
マイク信号処理部18は、信号合成部21と信号選択部22とを備えていて、信号合成部21は、マイク信号MCD1〜MCD8に対して所定の合成処理を行い、収音ビーム信号MB1〜MB8を生成し、信号選択部22に出力する。例えばマイクMC1〜MC8のうち、隣接するいくつか(例えば3つ)のマイクからのマイク信号MCD1〜MCD8を合成(加算)して、それぞれを収音ビーム信号MB1〜MB8とする。これにより、自装置周囲の特定方位の音声をS/N比が良好な信号として収音することができる。なお、この収音ビーム信号MB1〜MB8は、自装置周囲の互いに異なる方位を指向するものであり、本数は適宜設定するとよい。
以下の説明では、仮想点音源E1からの回帰音が高信号レベルで収音されたマイク信号MCD8,MCD1,MCD2を合成した信号を収音ビーム信号MB1とし、会議出席者H1Aの発話音が高信号レベルで収音されたマイク信号MCD6,MCD7,MCD8を合成した信号を収音ビーム信号MB3とする。
信号選択部22には、信号合成部21から収音ビーム信号MB1〜MB8が入力される。また、通信制御部11から相手先装置側での話者方位データPyが入力され、エコーキャンセル部12から入力音声信号SPが入力される。この信号選択部22の主要構成を図5に示す。
この信号選択部22は、入力音声信号SPを処理するための入力音声信号処理部30と、収音ビーム信号MB1〜MB8を処理するための8個のビーム信号処理部40A〜40Hと、メモリ19の収音特性テーブルから補正係数を取得するための補正係数取得部50と、複数の収音ビーム信号MB1〜MB8のなかから所定条件を満足する信号を選択する収音ビーム信号選択部60とを備える。
入力音声信号処理部30は、BPF(バンドパスフィルタ)31、全波整流回路32、時間平均化回路33を備える。
ビーム信号処理部40A〜40Hはそれぞれ、BPF(バンドパスフィルタ)41、全波整流回路42、時間平均化回路43、LOG演算回路44,46、補正回路45、減算器47を備える。
ビーム信号処理部40A〜40Hはそれぞれ、BPF(バンドパスフィルタ)41、全波整流回路42、時間平均化回路43、LOG演算回路44,46、補正回路45、減算器47を備える。
補正係数取得部50には、通信制御部11から入力された相手先装置側での話者方位データPyが入力される。そして、この話者方位データPyに基づいて、入力音声信号SPが再生された仮想点音源を上述の仮想点音源E1〜E8のなかから選択する。ここでは、仮想点音源E1が選択される。
そして、補正係数取得部50はあらかじめメモリ19に記録されていた収音特性テーブルから、仮想点音源E1と収音ビーム信号MB1〜MB8との組み合わせごとにメモリ19に記録されていた補正係数K11〜K18を読み出し、補正係数K11〜K18をそれぞれに対応するビーム信号処理部40A〜40Hに出力する。
なお、収音特性テーブルには、仮想点音源E1〜E8それぞれに対して、各収音ビーム信号MBnに対応付けられた補正係数Kn1〜Kn8を記録しているものとする(ここでは、nは仮想点音源E1〜E8それぞれに対応する1〜8の整数)。この収音特性テーブルは、本実施形態の放収音装置の稼働前に仮想点音源E1〜E8それぞれを放音させ、それぞれの回帰音のみを収音して補正係数を予め定めておくようにしてもよく、また工場出荷時に予め補正係数を定めておくようにしてもよい。また、演算により算出することも可能である。
この時、入力音声信号処理部30には、放音前の入力音声信号SPが入力され、BPF31により帯域通過フィルタ処理して、全波整流回路32に出力する。全波整流回路32は、入力される入力音声信号SPを全波整流(絶対値化)して、時間平均化回路33に出力する。時間平均化回路33は、入力される入力音声信号SPを時間平均化して、入力音声信号SPの時間平均値をビーム信号処理部40A〜40Hそれぞれに出力する。
またこの時、ビーム信号処理部40A〜40Hでは、入力音声信号処理部30の時間平均化回路33が出力した入力音声信号SPの時間平均値が、それぞれの補正回路45に入力される。補正回路45は、入力音声信号SPの時間平均値を、補正係数取得部50が出力した補正係数に乗算して補正処理する。
この補正処理は仮想点音源E1からの回帰音のみを収音した場合の各収音ビーム信号MB1〜MB8の時間平均値とほとんど等しいレベルに、入力音声信号SPの時間平均値を補正し、回帰音成分の時間平均値を取得するものである。そして、補正回路45はこの仮想点音源E1からの回帰音成分の時間平均値をLOG演算回路46に出力する。
そして、LOG演算回路46は、仮想点音源E1からの回帰音成分の時間平均値をLOG換算して、減算器47の減算信号端子に出力する。
また、ビーム信号処理部40のBPF41は、人の音声主成分帯域を通過帯域とするバンドパスフィルタであり、仮想点音源E1からの回帰音および発話者位置(E7)からの発話音を含む収音ビーム信号(収音ビーム信号MB1〜MB8)を帯域通過フィルタ処理して、全波整流回路42に出力する。全波整流回路42は、入力される収音ビーム信号を全波整流(絶対値化)して、時間平均化回路43に出力する。時間平均化回路43は、入力される収音ビーム信号を時間平均化して、収音ビーム信号の時間平均値をLOG演算回路44に出力し、LOG演算回路44は、時間平均化回路43から入力された時間平均値をLOG換算して、減算器47の加算信号端子に出力する。
ビーム信号処理部40A〜40Hそれぞれの減算器47は、加算信号端子に入力された、仮想点音源E1からの回帰音および発話者位置(E7)からの発話音に対応する入力値から、減算信号端子に入力された仮想点音源E1からの回帰音に対応する入力値を減算して、発話者位置(E7)からの発話音のみに対応する値(音圧比例量V1)を取得する。そして減算器47は、ビーム信号処理部40A〜40Hそれぞれの出力を収音ビーム信号選択部60に入力する。
収音ビーム信号選択部60は、各ビーム信号処理部40A〜40Hそれぞれから出力された値(音圧比例量V1〜V8)の値を比較する。そして、所定条件を満足する収音ビーム信号の、中心方位を話者方位とする。この選択の条件については後述する。
そして、収音ビーム信号選択部60は選定した話者方位に基づいて、自装置側の話者方位データPmを生成する。この自装置側の話者方位データPmは通信制御部11に出力される。また、選定した話者方位に基づいて、信号合成部21から出力された収音ビーム信号MB1〜MB8のうちいずれかを選択して、エコーキャンセル部12に出力する。
ここでは、仮想点音源E7に対応する話者方位の値(音圧比例量V7)が比較により選ばれ、対応する話者方位90°が話者方位データPmに選定されるとともに、収音ビーム信号MB7が出力音声信号としてエコーキャンセル部12に出力される。
エコーキャンセル部12は入力された収音ビーム信号(MB7)を出力音声信号MBとしてエコーキャンセル処理を行い、通信制御部11および入出力インターフェイスI/Fを介してネットワーク100に送信する。
以上のようにして、放収音装置1A周囲の位置(E7)に在席する会議出席者H1Aと仮想点音源E1から略同時に発話(放音)がなされた場合にも、この放収音装置1Aでは、仮想点音源E1からの回帰音の影響を除いて、発話者位置(E7)からの発話音のみを確実に音声処理・出力できる。仮に、他の仮想点音源や他の会議出席者からの放音があったとしても同様にして、回帰音の影響を除いて、発話音のみを確実に音声処理・出力できる。
次に、収音ビーム信号選択部60の具体的な処理を説明する。収音ビーム信号選択部60は、ビーム信号処理部40A〜40Hそれぞれから出力された値(音圧比例量V1〜V8)の平均である、平均音圧比例量Vavを算出する。そして、各音圧比例量(音圧比例量V1〜V8)と平均音圧比例量Vavとのレベル比データCE1〜CE8を算出する。具体的には、各音圧比例量Vm(m=1〜8)に対して、
CEm=A*Log(Vm/Vav) (Aは定数) ―(1)
このように、各音圧比例量を平均音圧比例量で除算して比を算出することで、回帰音成分を除いた音圧比例量を推定する回帰音推定処理では除去しきれなかった回帰音成分が略「1」、すなわちデシベル単位であれば略「0」相当となる。一方、発話音成分は高レベルのままとなる。なお、このようにデシベル単位を用いることにより、定数Aを適宜設定すれば、高レベル信号を他の部分よりも顕著にすることができる。
CEm=A*Log(Vm/Vav) (Aは定数) ―(1)
このように、各音圧比例量を平均音圧比例量で除算して比を算出することで、回帰音成分を除いた音圧比例量を推定する回帰音推定処理では除去しきれなかった回帰音成分が略「1」、すなわちデシベル単位であれば略「0」相当となる。一方、発話音成分は高レベルのままとなる。なお、このようにデシベル単位を用いることにより、定数Aを適宜設定すれば、高レベル信号を他の部分よりも顕著にすることができる。
収音ビーム信号選択部60は、これらレベル比データCE1〜CE8に対して、予め所定の閾値DEthを設定し、当該閾値DEthを超えるレベルのデータを検出すると、該当するレベル比データCEに対応する収音ビーム信号MB1〜MB8の選択情報を選定する。ここで、閾値DEthは、予め発声音による収音音声がない状況で暗騒音や意図的に発生させた放音音声に対する回帰音の収音レベル等から適宜設定しておく。
このような構成、処理を用いることで、会議出席者(話者)の発声音の収音信号レベルが、回帰音信号レベルと同等であったり、回帰音信号レベルよりも低かったりしても、確実に発声音に対応する出力音声信号MBを選択することができる。なお、上記のような閾値を必ずしも用いる必要はない。
また収音ビーム信号選択部60は上記平均を用いた処理のほかにも、他の処理によっても同様な結果を得ることができる。
音圧比例量V1〜V8から、互いに図1の対称な方向を指向するビームの音圧比例量同士のレベル比データCE1〜CE4を算出する。具体的には、各音圧比例量Vn(n=1〜4)に対して、
CEn=B*Log(Vn/Vn+4) (Bは定数) ―(2)
を用いて、レベル比データCE1〜CE4をデシベル単位で算出する。
このように対称位置にある音圧比例量同士を除算して比を算出することで、回帰音成分を除いた音圧比例量を推定する回帰音推定処理では除去しきれなかった回帰音成分が略「1」、すなわちデシベル単位であれば略「0」相当となる。一方、発話音成分は、会議出席者H1Bの方位に対応する収音ビーム信号MB1の仮想点音源E1に現れ、収音ビーム信号MB1に対して対称な収音ビーム信号MB5には現れない。したがって、式(2)から、レベル比データCE3は、発話音成分の発生するタイミングで、基準レベル0dBより正の方向に高い正方向高レベルとなる。
CEn=B*Log(Vn/Vn+4) (Bは定数) ―(2)
を用いて、レベル比データCE1〜CE4をデシベル単位で算出する。
このように対称位置にある音圧比例量同士を除算して比を算出することで、回帰音成分を除いた音圧比例量を推定する回帰音推定処理では除去しきれなかった回帰音成分が略「1」、すなわちデシベル単位であれば略「0」相当となる。一方、発話音成分は、会議出席者H1Bの方位に対応する収音ビーム信号MB1の仮想点音源E1に現れ、収音ビーム信号MB1に対して対称な収音ビーム信号MB5には現れない。したがって、式(2)から、レベル比データCE3は、発話音成分の発生するタイミングで、基準レベル0dBより正の方向に高い正方向高レベルとなる。
また逆に、各音圧比例量Vn(n=1〜4)に対して、
CEn=B*Log(Vn+4/Vn) (Bは定数) ―(3)
を用いて、レベル比データCE1〜CE4をデシベル単位で算出すると、レベル比データCE3は、発話音成分の発生するタイミングで、基準レベル0dBより負の方向に高い負方向高レベルとなる。なお、このようにデシベル単位を用いることにより、定数Bを適宜設定すれば、正方向高レベル信号、負方向高レベル信号を他の部分よりも顕著にすることができる。
CEn=B*Log(Vn+4/Vn) (Bは定数) ―(3)
を用いて、レベル比データCE1〜CE4をデシベル単位で算出すると、レベル比データCE3は、発話音成分の発生するタイミングで、基準レベル0dBより負の方向に高い負方向高レベルとなる。なお、このようにデシベル単位を用いることにより、定数Bを適宜設定すれば、正方向高レベル信号、負方向高レベル信号を他の部分よりも顕著にすることができる。
収音ビーム信号選択部60は、これらレベル比データCE1〜CE4に対して、予め所定のレベル範囲DWthを設定し、当該レベル範囲DWthを正方向または負方向に超えるレベルのデータを検出すると、該当するレベル比データCEに対応する収音ビーム信号の組合せを検出し、該当するレベル比データCEが正方向に高いレベルであるのか、負方向に高いレベルであるのかを示す正負レベル情報を選定する。ここで、レベル範囲DWthも、前述の閾値DEthと同様に、予め発声音による収音音声がない状況で暗騒音や意図的に発生させた放音音声に対する回帰音の収音レベル等から適宜設定しておく。
このような構成、処理を用いても、会議出席者(話者)の発声音の収音信号レベルが、回帰音信号レベルと同等であったり、回帰音信号レベルよりも低くなったりしても、確実に発声音に対応する収音ビーム信号を選択することができる。なお、上記のような閾値を必ずしも用いる必要はない。
なお、前述の各実施形態の説明では、収音ビーム生成部により収音ビーム信号を生成する場合を示したが、各マイクMC1〜MC8からの出力信号をそのまま収音ビーム信号として用いるようにしてもよい。
また、上記のような音圧比例量の比を必ずしも用いる必要はなく、単に最も大きい音圧比例量を用いたり、閾値を超えた音圧比例量を用いるようにしてもよい。
また、前述の説明では、一台の放収音装置に対して一人が発言している状況を例に示したが、前述の構成および処理を用いることで、複数人が同時に発言しても当然に、それぞれの話者方位を検出することができる。
1…放収音装置、2…筺体、3…凹部、4…操作部、11…通信制御部、12…エコーキャンセル部、13…スピーカ信号処理部、14…D/Aコンバータ、15…放音用アンプ、16…収音用アンプ、17…A/Dコンバータ、18…マイク信号処理部、19…メモリ、21…信号合成部、22…信号選択部、30…入力音声信号処理部、31,41…BPF、32,42…全波整流回路、33,43…時間平均化回路、40…ビーム信号処理部、44,46…LOG演算回路、45…補正回路、47…減算器、50…補正係数取得部、60…収音ビーム信号選択部、100…ネットワーク
Claims (5)
- 複数の指向性領域からそれぞれ異なる収音音声信号を収音する収音手段と、
前記複数の指向性領域内に設定した複数の音源位置から、それぞれ個別の放音音声信号を放音する放音手段と、
前記収音手段により前記放音音声信号が収音されてなる回帰音成分を除いた各収音音声信号の音圧に比例する音圧比例量を取得する音圧取得手段と、
前記音圧取得手段により取得した各音圧比例量に基づいて、前記指向性領域内の発話者の発話音が含まれる前記収音音声信号を選択する収音音声信号選択手段と、を備える放収音装置。 - 前記音圧取得手段は、前記放音手段の放音する前記放音音声信号と、当該放音音声信号を放音する前記音源位置とに基づいて、前記放音音声信号の回帰音成分の音圧に比例する音圧比例量を推定し、当該音圧比例量を各収音音声信号の音圧に比例する音圧比例量から減算する手段である請求項1に記載の放収音装置。
- 前記音圧取得手段は、前記放音音声信号を放音する前記音源位置に予め対応付けて記憶した補正係数により、前記放音手段の放音する前記放音音声信号を補正して、前記放音音声信号の回帰音成分の音圧に比例する音圧比例量を推定する請求項2に記載の放収音装置。
- 前記収音音声信号選択手段は、全収音音声信号の音圧比例量の平均を閾値として、前記音圧取得手段により取得した音圧比例量が前記閾値以上である収音音声信号を選択する手段である請求項1〜3のいずれかに記載の放収音装置。
- 前記収音音声信号選択手段は、相対する方位から得た一対の前記収音音声信号の組の、前記音圧取得手段により取得した音圧比例量の比が所定範囲内にない場合に、前記比が所定範囲よりも高いか低いかにより、前記一対の収音音声信号の一方を選択する手段である請求項1〜3のいずれかに記載の放収音装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007122197A JP2008278399A (ja) | 2007-05-07 | 2007-05-07 | 放収音装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007122197A JP2008278399A (ja) | 2007-05-07 | 2007-05-07 | 放収音装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008278399A true JP2008278399A (ja) | 2008-11-13 |
Family
ID=40055781
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007122197A Pending JP2008278399A (ja) | 2007-05-07 | 2007-05-07 | 放収音装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008278399A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10667045B1 (en) | 2018-12-28 | 2020-05-26 | Ubtech Robotics Corp Ltd | Robot and auto data processing method thereof |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005057400A (ja) * | 2003-07-31 | 2005-03-03 | Sony Corp | マイクロフォン・スピーカ一体構成型・通話装置 |
JP2007096389A (ja) * | 2005-09-27 | 2007-04-12 | Yamaha Corp | 回帰音除去装置 |
-
2007
- 2007-05-07 JP JP2007122197A patent/JP2008278399A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005057400A (ja) * | 2003-07-31 | 2005-03-03 | Sony Corp | マイクロフォン・スピーカ一体構成型・通話装置 |
JP2007096389A (ja) * | 2005-09-27 | 2007-04-12 | Yamaha Corp | 回帰音除去装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10667045B1 (en) | 2018-12-28 | 2020-05-26 | Ubtech Robotics Corp Ltd | Robot and auto data processing method thereof |
JP2020109941A (ja) * | 2018-12-28 | 2020-07-16 | 深セン市優必選科技股▲ふん▼有限公司Ubtech Pobotics Corp Ltd | ロボット及びそのオーディオデータ処理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8233352B2 (en) | Audio source localization system and method | |
JP3972921B2 (ja) | 音声集音装置とエコーキャンセル処理方法 | |
JP4894353B2 (ja) | 放収音装置 | |
WO2005125272A1 (ja) | ハウリング抑圧装置、プログラム、集積回路、およびハウリング抑圧方法 | |
JP3582712B2 (ja) | 収音方法および収音装置 | |
CN111078185A (zh) | 录制声音的方法及设备 | |
JP4882757B2 (ja) | 音声会議システム | |
TW200822780A (en) | Sound processing apparatus for automatically canceling howling and method for same | |
JP2010103657A (ja) | 音響装置 | |
US9743179B2 (en) | Sound field spatial stabilizer with structured noise compensation | |
CN112130801B (zh) | 音响装置及音响处理方法 | |
US7424119B2 (en) | Voice matching system for audio transducers | |
US20070223710A1 (en) | Hearing aid to solve the 'Cocktail Party' problem | |
JP4840082B2 (ja) | 音声通信装置 | |
CN109920442B (zh) | 一种麦克风阵列语音增强的方法和系统 | |
JP2008278399A (ja) | 放収音装置 | |
JP4281568B2 (ja) | 通話装置 | |
JPH09238394A (ja) | 指向性マイクロフォン装置 | |
JP5141442B2 (ja) | 収音装置、及び放収音装置 | |
JP2913105B2 (ja) | 音響信号検出方法 | |
JP2008177745A (ja) | 放収音システム | |
JP2005086363A (ja) | 通話装置 | |
CN112804620A (zh) | 回声处理方法、装置、电子设备及可读存储介质 | |
US20240249742A1 (en) | Partially adaptive audio beamforming systems and methods | |
US20240195916A1 (en) | Microphone mute notification with voice activity detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Effective date: 20100315 Free format text: JAPANESE INTERMEDIATE CODE: A621 |
|
A977 | Report on retrieval |
Effective date: 20120125 Free format text: JAPANESE INTERMEDIATE CODE: A971007 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120207 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120807 |