JP2008294619A - 音声通信システム - Google Patents

音声通信システム Download PDF

Info

Publication number
JP2008294619A
JP2008294619A JP2007136427A JP2007136427A JP2008294619A JP 2008294619 A JP2008294619 A JP 2008294619A JP 2007136427 A JP2007136427 A JP 2007136427A JP 2007136427 A JP2007136427 A JP 2007136427A JP 2008294619 A JP2008294619 A JP 2008294619A
Authority
JP
Japan
Prior art keywords
sound
data
speaker
collection
sound emission
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007136427A
Other languages
English (en)
Other versions
JP5261983B2 (ja
Inventor
Noriyuki Hata
紀行 畑
Takuya Tamaru
卓也 田丸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2007136427A priority Critical patent/JP5261983B2/ja
Publication of JP2008294619A publication Critical patent/JP2008294619A/ja
Application granted granted Critical
Publication of JP5261983B2 publication Critical patent/JP5261983B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】会議に参加する各会議者が聞き取り易い多地点会議システムを提供する。
【解決手段】ネットワーク200に接続された各収音側である放収音装置11A,11B,11Dは、自装置周りの発言を収音して収音データを形成するとともに、話者方位を検出する。放収音装置11A,11B,11Dは、話者方位情報に基づいて、話者識別データ、優先度データ、および装置識別IDを備えるメタデータを生成するか読み出し、収音データに基づく音声データに添付することで、フレームデータを形成して送信する。放音側である放収音装置11Cは、ネットワーク200経由で受信したフレームデータを解析して、メタデータに含まれる優先度データ、話者識別データ、装置識別IDを取得し、優先度が高い話者から優先して音像定位させるように放音環境を設定する。この際、音像定位数と話者識別データに基づく話者数の関係から適宜ミキシング等を行う。
【選択図】 図6

Description

この発明は、互いに離れた場所に設置された複数の放収音装置をネットワーク接続して、互いに音声を通信する音声通信システムに関するものである。
従来、それぞれに離れた複数の拠点に放収音装置を設置して、これら放収音装置をネットワークで接続することで、遠隔地間音声会議を行う音声通信システムが各種考案されている。そして、このようなシステムでは、音声データの使い勝手を良くするように、例えば特許文献1に示すように、音声データに話者情報等を添付して送信する収音装置が用いられている。
特開2005−181391公報
上述のように話者位置データを添付した音声データを生成して送信するシステムの各音声データの話者同定が可能であるので、議事録の作成等に有用である。
しかしながら、三台以上特に多数の放収音装置が接続される音声通信システムでは、放音装置(放収音装置)が複数の収音装置(放収音装置)からの話者情報付き音声データを取得しても、単に取得した順に放音したのでは、音声データを取得したタイミング毎に、放音態様が変化してしまう。例えば、同じ話者の声の放音位置が経時的に変化したり、複数の話者の音声を継続して放音している際に、一つの放音位置から経時的に異なる話者の音声が放音されてしまう。このような放音態様では、聞き取る側の会議者(聴者)にとって聞き難いものとなってしまう。
したがって、本発明の目的は、聴者が聴き取りやすいように放音を設定する音声通信システムを提供することにある。
この発明は、複数の音像定位を行う放音制御手段と、話者を検出するとともに話者方位の音声を収音する収音制御手段との少なくともいずれか一方を備えた放収音装置と、該放収音装置を含む複数の放収音装置を接続するネットワーク網と、を備えた音声通信システムに関するものである。この発明では、次のような構成を特徴とする。収音側の放収音装置は、収音制御手段を備え、収音音声に基づく音声データと、該音声データを識別させる識別データとを生成する。収音側の放収音装置は、収音音声に基づく音声データと識別データとを含む通信用データを生成してネットワーク網へ送信する。放音側の放収音装置は、放音制御手段を備え、前記ネットワーク網を介して受信した通信用データから前記識別データを取得して、該識別データに基づいて、関連する音声データの音像定位を決定する。
この構成では、収音側の放収音装置は、自身での収音で得られる音声データに対して固有の識別データを添付して通信用データを生成し、ネットワーク網へ送信する。放音側の放収音装置は、ネットワークを介して受信した通信用データを解析し、識別データおよびこれに関連する音声データを取得する。放音側の放収音装置は、取得した識別データに基づいて関連する音声データの音像定位を決定する。すなわち、複数の通信用データを受信した場合に、それぞれ識別データと音声データとを取得し、識別データ毎に異なる位置に音像定位を設定する。そして、識別データ毎すなわち音源位置毎に、関連するそれぞれの音声データの放音を行う。これにより、音声データ毎に音像定位位置が決定されて、放音されるので、聞き取りやすくなる。
また、この発明の音声通信システムでは、話者識別データと、放収音装置に固有の装置識別IDと、を少なくとも識別データに備えることを特徴としている。
この構成では、具体的に、識別データとして、話者識別データ例えば話者方位データと、装置毎に固有に設定される装置識別IDとが設定される。これにより、装置毎に決まった音像定位が行われるので、装置毎の音声の聞き分けが可能になる。さらに、話者識別データに基づく音像定位を行うことで、話者単位での音声の聞き分けが可能になる。
また、この発明の音声通信システムでは、音像定位の優先性を示す優先度を、さらに識別データに備える。そして、放音側の放収音装置は、優先度が高いものを優先して音像定位させることを特徴としている。
この構成では、識別データに対して、優先度がさらに加えられる。放音側の放収音装置は、優先度が高いものから音像定位を決定するので、例えば、社長や専務、司会者等の収音音声に対して高い優先度を設定することで、これらの話者からの音声をより聞き分け易くすることができる。
また、この発明の音声通信システムでは、収音側の放収音装置は、収音制御手段により複数の話者を並列して検出するとともに、それぞれの話者の音声を個別に収音し、収音音声毎に複数の音声データを形成するとともに音声データ毎にチャンネルを設定して、設定したチャンネル数を識別データに含ませることを特徴としている。
この構成では、一つの装置に対して話者が複数存在するような場合に、話者毎の音声データを利用して話者毎の音像定位ができる。すなわち、一拠点内に複数の発言者(話者)がいても、これらの話者の音声を区別して聞き取ることができる。
また、この発明の音声通信システムは、複数の放収音装置間の通信用データの送受信を管理する管理サーバを備え、次に示す特徴を備える。この発明の管理サーバは、複数の収音側の放収音装置から通信用データを受け付けると、複数の通信用データを含み、且つ拠点数をサーバ用識別データとして加えたサーバ通信用データを生成して、ネットワーク網へ送信する。放音側の放収音装置は、サーバ用識別データおよび識別データに基づいて、自装置での収音音声を除く音声データの音像定位を決定する。
この構成では、音声通信システムに複数の放収音装置とは別の管理サーバを備える。管理サーバは、収音側の放収音装置のそれぞれからの通信用データを一括管理し、拠点数データをさらに添付してサーバ通信用データを生成し、各放収音装置へ送信する。放音を行う放収音装置は、受信したサーバ通信用データから拠点数データおよび他の識別データを取得し、複数の音声データをそれぞれ音像定位させる。これにより、管理サーバが存在するシステム環境であっても、前述の構成と同様に聞き取り易い放音が可能となる。さらに、拠点数データを付け加えることで、放音側の放収音装置が音像定位を設定する際に、自身の設定可能定位数との関係を比較しやすく、音像定位の設定判断が容易になる。
この発明によれば、放収音装置毎や話者毎に異なる音源を定位させることができるので、聴者にとって非常に聴き取り易い多地点間音声通信を実現することができる。
本発明の実施形態に係る音声通信システムについて、図を参照して説明する。なお、以下の説明では、音声通信システムとして、多地点会議システムを例に説明する。
図1は、本実施形態の多地点会議システムの構成を示す概念図である。なお、図1では、4拠点で会議を行う場合であり、拠点数、拠点に在席する会議者数は一例である。
本実施形態の多地点会議システムは、各拠点201A〜201Dに設置された放収音装置11A〜11Dがネットワーク200で接続されてなる。拠点201Aには放収音装置11Aが設置され、会議者301A,302Aが在席している。拠点201Bには放収音装置11Bが配置され、会議者301B,302Bが在席している。拠点201Cには放収音装置11Cが配置され、会議者301C,302Cが在席している。拠点201Dには放収音装置11Dが配置され、会議者301Dが在席している
各拠点201A〜201Dに設置されている放収音装置11A〜11Dは、同じ構成からなり、話者方位を検出し、当該話者方位からの収音が可能であるとともに、複数位置に対して音像定位を行うことができる機能を有する。
図2は各放収音装置11A〜11Dの主要構成を示すブロック図である。なお、放収音装置11A〜11Dは、同じ構成、仕様であるので、放収音装置11Aを例に機能を説明する。
図3は多地点会議システムで用いられる通信用データすなわちフレームデータの構成を示す図であり、(A)は1台の装置に対してチャンネル数が一つだけ割り当てられる場合を示し、(B)は1台の装置に対して複数のチャンネル数が割り当てられる場合を示す。
放収音装置11Aは、制御部111A、通信制御部112A、放音制御部113A、収音制御部114A、メモリ115A、スピーカアレイSPA、マイクアレイMCAを備える。なお、以下の説明では、説明を簡略化するために、まず話者方位情報が一つの場合、すなわち図3(A)に示すような場合について機能説明する。
(収音時(話者方位情報が一つの場合))
収音制御部114Aは、マイクアレイMCAの各マイクMCでの収音で得られる個別収音信号に対して、所定パターンからなる遅延、振幅の制御を行うことで、それぞれに異なる複数の方位を主たる収音方位とする(言い換えれば異なる収音指向性パターンからなる)複数の収音ビーム信号を形成する。収音制御部114Aは、各収音ビーム信号のレベルを検出して、予め設定した話者検出閾値レベルを超える収音ビーム信号を検出すると、当該収音ビーム信号を収音データとして取得する。また、収音制御部114Aは、収音データとして取得した収音ビーム信号の方位を取得し、話者方位データとして制御部111Aへ与える。
制御部111Aは、放収音装置全体の制御を行うとともに、収音時制御として、収音制御部114Aで生成される話者方位情報に基づいて、新たなメタデータ511を生成するか、メモリ115Aに予め記憶されているメタデータ511を読み出す。メタデータ511は、話者方位情報に基づく話者識別データ、装置ID、および優先度データを含む。例えば、制御部111Aは、話者方位情報が一つであれば、図3(A)に示すようなメタデータ511を読み出すか生成して通信制御部112Aに与える。ここで、メタデータ511が予め記憶されている場合とは、例えば、話者方位に高い優先度が設定されている場合や、装置自身に高い優先度が設定されている場合や、すでに一度メタデータを生成した方位である場合である。
通信制御部112Aは、収音時制御(送信制御)として、収音制御部114Aから与えられた所定の音声ファイル形式からなる収音データをネットワーク通信データ形式の音声データ510に変換し、当該音声データ510に、制御部111Aから与えられたメタデータ511をヘッダ等として添付することで、フレームデータ501を生成する。通信制御部112Aは、自装置の収音に基づくフレームデータ501を、ネットワーク200で接続された他の放収音装置11B〜11Dの通信制御部112B〜112Dへ送信する。
この一連の収音時のフローを、図4を参照して説明する。
図4は、収音時の放収音装置の主要処理フローを示すフローチャートである。
放収音装置11Aは、電源がオン状態に制御されると初期状態となり、ネットワーク接続確認が行われるとともに、収音機能として発話検出待機状態となる。放収音装置11Aは、前述の話者検出閾値レベル以上の収音ビーム信号を検出すると、発話検出したと判断する(S101:Y)。放収音装置11Aは、この発話検出の判断が行われない間は、発話検出待機状態を維持する(S101:N)。放収音装置11Aは、発話検出を判断すると、今回検出した話者方位情報を含むメタデータが既に記憶されているかどうかを検出し、既にメタデータが存在すれば(S102:Y)、記憶されているメタデータを読み出す(S103)。これは、例えば、自装置の所定方位に司会者が在席し、当該司会者に高い優先度が与えられているような場合で、司会者の方位が予め記憶され、当該記憶された方位に対する話者識別データと、優先度データと、装置識別IDとからなるメタデータが予め設定、記憶されているような場合に適用される。すなわち、放収音装置11Aは、司会者の方位に対して話者検出を判断すると、当該司会者に応じて予め設定、記憶されたメタデータを詠み出し、音声データに添付する。また、当該放収音装置11Aが例えば本社の役員室等の拠点として優先度が高い場所であった場合でも、同様に、予め高い優先度と、装置識別IDとからなるメタデータが設定されており、当該放収音装置11Aは、常時高い優先度の優先度データを有するメタデータを読み出して音声データに添付する。なお、特に優先度が設定されていないような場合であっても、以前に話者方位情報に基づくメタデータが形成されていれば、同じ話者方位情報に対して同じメタデータが添付される。
一方、放収音装置11Aは、取得した話者方位情報が、予め設定されたメタデータに含まれているものではなく、新たに検出されたものであれば(S102:N)、新規にメタデータを生成するとともに、メモリ115Aに記憶する(S104)。
放収音装置11Aは、収音ビーム信号の取得を開始すると、順次音声データに変換し、音声データにメタデータを添付することでフレームデータを形成し、他の放収音装置へ送信する(S105→S106)。この処理は、発話検出が終了するまで継続して行われる(S107:N→S106)。放収音装置11Aは、発話終了が検出されると、フレームデータの生成および送信を停止する(S107:Y→S108)。なお、ここで、発話終了の検出は、例えば、話者検出閾値レベルに達する収音ビーム信号が検出されない時間が予め設定した時間長に亘り継続した時点等で行う。
なお、前述の説明では、メタデータを生成する機能を有する放収音装置を例に説明したが、メタデータを生成する機能を有さない放収音装置の場合には、単に音声データのみからフレームデータを形成する。
(放音時(受信したフレームデータ502の話者方位情報が一つの場合))
通信制御部112Aは、放音時制御(受信制御)として、他の放収音装置11B〜11Dから受信したフレームデータ501を解析して、メタデータ511と音声データ510とに分離し、メタデータ511を制御部111Aへ与え、ネットワーク通信データ形式の音声データ510を所定の音声ファイル形式からなる放音データへ変換して放音制御部113Aへ与える。この際、音声データ群520は、複数の音声データからなるので、通信制御部112Aは、音声データ群520の各音声データを個別に放音データへ変換する。
制御部111Aは、放収音装置全体の制御を行うとともに、放音時制御として、通信制御部112Aを介して、ネットワーク200で接続された他の放収音装置11B〜11Dからメタデータ511を取得すると、当該メタデータ511を解析して、音像定位の設定等を含む放音制御データを生成して、放音制御部113Aへ与える。なお、メタデータが存在しない場合には、送信元のIPアドレス等を判断材料として、新規に装置識別IDを割り当てるとともに、高くない優先度を有するようにメタデータを新規設定する。制御部111Aは、新規設定したメタデータをメモリ115Aに記憶するとともに、放音制御データの生成要素として用いる。
放音制御部113Aは、制御部111Aからの放音制御データに基づいて、通信制御部112Aからの放音データに対して、分離、遅延、振幅制御等の信号処理を行う。すなわち、放音制御部113Aは、放音制御データで設定される複数の音像位置や放音ボリューム等を実現するように、スピーカアレイSPAの各スピーカSPへ与えるスピーカ駆動信号を生成する。スピーカアレイSPAの各スピーカSPは、個々に与えられたスピーカ駆動信号に基づいて放音する。
この一連の放音時のフローを、図5を参照して説明する。
図5は放音時の放収音装置の主要処理フローを示すフローチャートである。
放収音装置11Aは、電源がオン状態に制御されると初期状態となり、ネットワーク接続確認が行われるとともに、放音機能としてフレームデータの受信待機状態となる。放収音装置11Aは、ネットワークを介してフレームデータを受信すると、フレームデータの解析を行い、メタデータの検出、及び、音声データから放音データへの変換処理を行う(S201:Y)。一方、放収音装置11Aは、フレームデータが検出されなければ、受信待機状態を維持する(S201:N)。
放収音装置11Aは、フレームデータの解析を行い、メタデータを検出すれば(S202:Y)、当該メタデータが、予め記憶されているかどうかを確認する(S203)。放収音装置11Aは、メタデータを検出できなければ(S202:N)、装置識別IDと高くない優先度とが設定された新規メタデータを生成して、記憶する(S211)。
放収音装置11Aは、検出したメタデータが予め設定、記憶されているものであれば、放音環境設定の更新を行わない(S203:N)。一方、放収音装置11Aは、検出したメタデータが予め設定、記憶されたものでないか、放収音装置11Aで新規に作成したものであれば(S203:Y)、放音制御データに設定する放音環境設定の更新を行う(S212)。ここで、放音環境設定とは、例えば、異なる外部の放収音装置から受信して得られた複数の放音データが存在する場合に、各放音データの音像定位位置や音量を決定した内容を備えるものである。これにより、放収音装置11Aは、新規のメタデータが検出されれば、その時点までに設定されていた放音環境を、新規のメタデータの優先度や装置識別ID等を参照して、新たな放音環境へ再構築する。
放収音装置11Aは、放音制御データ(放音環境設定)を決定すると、放音を開始する(S204)。放収音装置11Aは、放音開始とともに放音制御を行い、異なる複数位置に音像定位を行う等して、設定した放音環境を実現する(S205)。放収音装置11Aは、フレームデータの受信、放音データの生成が終了したことで放音の終了を検知するまで放音制御を継続し(S206:N→S205)、放音終了を検知すれば(S206:Y)、放音制御等を終了する(S207)。
なお、収音側の放収音装置で、複数の話者を識別した場合には、以下に示す処理を行う。
(収音時(話者方位情報が複数の場合))
収音制御部114Aは、話者検出閾値レベルを超える収音ビーム信号を複数検出すると、各収音ビーム信号を個別の収音データとして取得し、対応する方位も個別に取得する。
制御部111Aは、収音制御部114Aから話者方位情報を複数取得すると、それぞれの話者方位に対して話者識別データを生成し、話者識別データ数に対応するチャンネル数データを生成する。そして、制御部111Aは、図3(B)に示すようなメタデータ521を生成する。また、制御部111Aは、話者識別データ毎に優先度データを含むメタデータ5201A〜5201Nを読み出すか生成して、通信制御部112Aに与える。
通信制御部112Aは、収音制御部114Aから与えられた複数の収音データをそれぞれ個別ファイルとしてネットワーク通信データ形式に変換する。通信制御部112Aは、変換された各音声データ5200A〜5200Nを生成し、制御部111Aから与えられたメタデータ5201A〜5201Nをヘッダ等として添付することで、要素データ520A〜520Nを生成する。この際、各メタデータ5201A〜5201Nと各音声データ5200A〜5200Nとは関連付けされた状態で、要素データ520A〜520Nは生成される。通信制御部112Aは、要素データ520A〜520Nに、さらに装置識別IDおよびチャンネル数データを含むメタデータ521を添付することで、フレームデータ502を生成し、ネットワーク200で接続された他の放収音装置11B〜11Dの通信制御部112B〜112Dへ送信する。
(放音時(受信した各フレームデータ502の話者方位情報が複数の場合))
通信制御部112Aは、放音時制御(受信制御)として、他の放収音装置11B〜11Dから受信したフレームデータ502を解析して、メタデータ521と要素データ520A〜520Nとを分離する。さらに、通信制御部112Aは、それぞれの要素データ520A〜520Nをメタデータ5201A〜5201Nと音声データ5200A〜5200Nとに分離する。そして、通信制御部112Aは、メタデータ521、5201A〜5201Nを制御部111Aへ与え、ネットワーク通信データ形式の音声データ5200A〜5200Nを所定の音声ファイル形式からなる放音データへ変換して放音制御部113Aへ与える。
制御部111Aは、放収音装置全体の制御を行うとともに、放音時制御として、通信制御部112Aを介して、各放収音装置11B〜11Dからメタデータ521、5201A〜5201Nを取得すると、当該メタデータ521、5201A〜5201Nを解析して、音像定位の設定等を含む放音制御データを生成して、放音制御部113Aへ与える。なお、メタデータが存在しない場合には、送信元のIPアドレス等を判断材料として、新規に装置識別IDを割り当てるとともに、高くない優先度を有するようにメタデータを新規設定する。制御部111Aは、新規設定したメタデータをメモリ115Aに記憶するとともに、放音制御データの生成要素として用いる。
放音制御部113Aは、制御部111Aからの放音制御データに基づいて、通信制御部112Aからの放音データに対して、分離、遅延、振幅制御等の信号処理を行う。すなわち、放音制御部113Aは、放音制御データで設定される複数の音像位置や放音ボリューム等を実現するように、スピーカアレイSPAの各スピーカSPへ与えるスピーカ駆動信号を生成する。スピーカアレイSPAの各スピーカSPは、個々に与えられたスピーカ駆動信号に基づいて放音する。
次に、具体的な実施例に基づいて、放音環境の設定および実施状態を、図6〜図9を参照して説明する。なお、図6〜図9の図において、話者301Aが社長、話者302Aが専務、話者301Dが司会者、話者301B,302Bは一般の社員等である場合を示し、話者301A,302A,301Dには高い優先度が設定されているものとする。そして、拠点201A,201B,201Dで収音した音声を拠点201Cで放音する場合を例に説明する。
図6は、会議開始後で、話者301A,302A,301B,301Dが発言中の状態を示す図である。なお、発言中とは、一旦発言を行った後に一時的に発言をストップしている状態をも含む。
(収音側の各放収音装置の処理)
拠点201Aの放収音装置11Aは、社長である話者301Aの発言と、専務である話者302Aの発言とを収音し、個別の収音データを生成する。放収音装置11Aは、話者301Aの収音データと話者302Aの収音データとを区別した状態で取得するとともに、前述の話者方位検出機能により、話者301Aと話者302Aとの話者方位を取得する。放収音装置11Aは、話者301Aに対応するメタデータと、話者302Aに対応するメタデータとを読み出す。ここで、話者301Aに対応するメタデータは、話者方位に基づいて得られる予め設定された話者識別データ(この場合、社長識別データ)と、当該話者方位に対して予め優先度高で設定された優先度データとを備える。話者302Aに対応するメタデータは、話者方位に基づいて得られる予め設定された話者識別データ(この場合、専務識別データ)と、当該話者方位に対して予め優先度高で設定された優先度データとを備える。
放収音装置11Aは、さらに、装置識別IDと、2チャンネルを示すチャンネル数データとを生成する。放収音装置11Aは、図3(B)に示すような、話者301A,302A毎のメタデータと音声データとからなる要素データと、装置識別IDとチャンネル数データとを含むメタデータと、からフレームデータを形成し、ネットワーク200に接続する各放収音装置へ送信する。なお、本例では、放収音装置11Aは、優先度の高い会議者のみが在席するので、装置識別IDに対応する優先度高の優先度データをメタデータに含むようにしても良い。
拠点201Bの放収音装置11Bは、一般会議者である話者301Bの発言を収音し、収音データを生成するとともに、話者301Bの話者方位を取得する。放収音装置11Bは、話者301Bに対応するメタデータを読み出すか新規に作成する。ここで、話者301Bに対応するメタデータは、話者方位に基づいて得られる話者識別データと、当該話者方位に対して予め優先度中または優先度低で設定された優先度データとを備える。
放収音装置11Bは、さらに、装置識別IDを生成しメタデータに加えることで、図3(A)に示すような、装置識別ID、優先度中または優先度低の優先度データ、話者識別データからなるメタデータと音声データとからなるフレームデータを形成し、ネットワーク200に接続する各放収音装置へ送信する。
拠点201Dの放収音装置11Dは、司会者である話者301Dの発言を収音して収音データを生成するとともに、話者301Dの話者方位を取得する。放収音装置11Dは、話者301Dに対応するメタデータを読み出す。ここで、話者301Dに対応するメタデータは、話者方位に基づいて得られる予め設定された話者識別データ(この場合、司会者識別データ)と、当該話者方位に対して予め優先度高で設定された優先度データとを備える。
放収音装置11Dは、さらに、装置識別IDを生成しメタデータに加えることで、図3(A)に示すような、装置識別ID、優先度高の優先度データ、話者識別データからなるメタデータと音声データとからなるフレームデータを形成し、ネットワーク200に接続する各放収音装置へ送信する。
(放音側の放収音装置の処理)
拠点201Cの放収音装置11Cは、ネットワーク200を介して、放収音装置11A,11B,11Dからフレームデータを受信すると、それぞれのデータを解析して、装置識別ID、話者識別情報、各話者識別データに対応する優先度データを取得する。放収音装置11Cは、優先度高の優先度データを検出すると、対応する話者識別データを取得し、優先度データと話者識別データとに基づいて、予め設定した放音環境データから優先度高の特定話者に対する音像定位位置を設定する。例えば、図6であれば、放収音装置11Cは、優先度高である話者301A(社長)に対して、装置筐体の長尺方向の中心付近に音像を定位させる。また、放収音装置11Cは、優先度高である話者302A(専務)に対して、話者301Aから所定距離だけ操作パネルと反対側(図に向かって左側)に離れた位置に音像を定位させる。さらに、放収音装置11Cは、優先度高である話者301Dに対して、話者301Aから所定距離だけ操作パネル側に離れた位置に音像を定位させる。これらの音像定位は、話者301A,302A,301Dが会議から退席するまで維持される。なお、退席が確認できた場合には、設定した音像位置を開放し、他の話者に割り当てるようにしてもよい。
放収音装置11Cは優先度高の話者301A,302A,301Dに対する音像定位を設定すると、次に、優先度中または優先度低の話者301B(拠点201B)に対する音像定位を行う。例えば、図6の例であれば、優先度高の話者に対して設定された音像定位以外の音像定位位置から選択して、筐体の操作パネル側の端部付近に音像を定位させる。
放収音装置11Cは、このように話者毎または拠点毎に音像定位を設定してなる放音環境を設定する。そして、放収音装置11Cは、当該放音環境に準じて放音制御を行う。これにより、拠点201Cに在席する会議者301C,302Cには、話者301A,302A,301D、および話者301B(拠点201B)の発言がそれぞれ異なる位置から聞こえるようにすることができる。この結果、会議者にとって話者を識別しやすく聞き取り易い会議を提供することができる。
なお、上述の説明では、優先度高の話者が最初から発言をしている場合を例に示したが、優先度高の話者が途中から加わることもある。このような場合、放収音装置11Cは、優先度高の話者が加わった時点に放音環境の設定更新を行う。具体的には、放収音装置11Cは、優先度高の話者の音源定位を優先的に行い、当該優先度高の話者の位置で放音していた優先度中または低の話者の放音位置を移動させる。これにより、優先度高の話者の発言は、最初からであれ途中からであれ、決まった位置から放音されるので、優先度高の話者の発言を聞き取り易くなる。
次に、図6に示す状態から、図7に示すような拠点201Eが増加した場合の処理について説明する。
図7は、図6の状態に加えて、拠点201Eの301Eが発言した状態を示す図である。
(追加の収音側の放収音装置の処理)
拠点201Eの放収音装置11Eは、一般会議者である話者301Eの発言を収音し、収音データを生成するとともに、話者301Eの話者方位を取得する。放収音装置11Eは、話者301Eに対応するメタデータを読み出すか新規に作成する。ここで、話者301Eに対応するメタデータは、話者方位に基づいて得られる話者識別データと、当該話者方位に対して予め優先度中または優先度低で設定された優先度データとを備える。
放収音装置11Eは、さらに、装置識別IDを生成しメタデータに加えることで、図3(A)に示すような、装置識別ID、優先度中または優先度低の優先度データ、話者識別データからなるメタデータと音声データとからなるフレームデータを形成し、ネットワーク200に接続する各放収音装置へ送信する。
(放音側の放収音装置の処理)
拠点201Cの放収音装置11Cは、すでに、話者301A,302A,301D、および話者301B(拠点201B)に対する音像定位が行われた状態で、新たに放収音装置11Eからフレームデータを受信すると、放音環境の設定を更新する。具体的には、放収音装置11Cは、フレームデータを解析し、話者301E(拠点201E)の優先度が中または低であることを検出すると音像定位の設定位置の空き状況を確認する。放収音装置11Cは、空きを検出すると、当該空きである位置に音像を定位させる。例えば、図7の例であれば、空きの位置である筐体の操作パネルと反対側の端部付近に、話者301E(拠点201E)の音像を定位させる。
放収音装置11Cは、このように話者毎または拠点毎に音像定位を設定してなる放音環境を更新設定する。そして、放収音装置11Cは、当該更新設定した放音環境に準じて放音制御を行う。これにより、拠点201Cに在席する会議者301C,302Cには、話者301A,302A,301Dや、話者301B(拠点201B)、話者301E(拠点201E)の発言がそれぞれ異なる位置から聞こえるようにすることができる。
なお、空きの音像定位位置が無い場合には、放収音装置11Cは、同じ優先度中または優先度低からなる話者301B(拠点201B)と同じ位置に音像を定位させる。すなわち、放収音装置11Cは、話者301B(拠点201B)の放音データと話者301E(拠点201E)とをミキシングして、元々話者301B(拠点201B)の音源定位位置であった筐体の操作パネル側の端部付近に音像定位を設定する。これにより、取得した放音データ数が音像定位数よりも多くても、放音を行うことができるとともに、優先度の高い話者の音声については、優先的に独立した放音を行うことができる。この結果、司会者や社長、専務のような優先的に発言すべき人の声を、他の会議者の声よりも明確且つ簡単に聞き分けることができ、より聞き取り易い会議を提供することができる。なお、図7に対する上述の説明では、図6の状態から図7の状態に遷移した場合を例にしたが、会議開始当初から図7のような状態になっても、図6の場合と同様に放音環境を設定することができる。
次に、図7の状態から、さらに、図8に示すように拠点201Bの話者302Bが発言した場合の処理について説明する。
図8は、図7の状態に加えて拠点201Bの話者302Bが発言した状態を示す図である。
(収音側の放収音装置の処理)
拠点201Bの放収音装置11Bは、新たに話者302Bが発言すると、当該話者302Bの音声を収音するとともに、話者302Bに対する話者方位を検出する。
放収音装置11Bは、話者302Bに対応するメタデータを読み出すか生成する。ここで、話者302Bに対応するメタデータは、話者方位に基づいて得られる予め設定された話者識別データと、当該話者方位に対して予め優先度中または低で設定された優先度データとを備える。
放収音装置11Bは、さらに、装置識別IDと、2チャンネルを示すチャンネル数データとを生成する。放収音装置11Bは、図3(B)に示すような、話者301B,302B毎のメタデータと音声データとからなる要素データと、装置識別IDとチャンネル数データとを含むメタデータと、からフレームデータを形成し、ネットワーク200に接続する各放収音装置へ送信する。
(放音側の放収音装置の処理)
拠点201Cの放収音装置11Cは、すでに、話者301A,302A,301D、話者301B(拠点201B)、301E(拠点201E)に対する音像定位が行われた状態で、放収音装置11Bから複数チャンネルを有するフレームデータを受信すると、放音環境の設定を更新する。具体的には、放収音装置11Cは、更新された放収音装置11Bからのフレームデータを解析し、話者302Bの優先度が中または低であることを検出すると音像定位の設定位置の空き状況を確認する。放収音装置11Cは、空きが無いことを検出すると、同じ装置識別IDである話者301Bと同じ位置に音像定位させる。例えば、図8の例であれば、話者301Bの音像定位位置である筐体の操作パネル側の端部付近に、拠点201Bの音声として音像を定位させる。
放収音装置11Cは、このように話者毎または拠点毎に音像定位を設定してなる放音環境を更新設定する。そして、放収音装置11Cは、当該更新設定した放音環境に準じて放音制御を行う。これにより、拠点201Cに在席する会議者301C,302Cには、話者301A,302A,301Dや、拠点201B(話者301B+話者302B)、話者301E(拠点201E)の発言がそれぞれ異なる位置から聞こえるようにすることができる。これにより、取得した放音データ数(発言中の話者数)が音像定位数よりも多くても、放音を行うことができるとともに、優先度の高い話者の音声については、優先的に独立した放音を行うことができる。さらに、優先度が高くない話者に対しては、同じ拠点に在席する話者の音声をミキシングで聞くことができる。これにより、拠点毎等でも識別でき、聞き取り易い会議を提供することができる。
なお、図8に対する上述の説明では、図7の状態から図8の状態に遷移した場合を例にしたが、会議開始当初から図8のような状態になっても、拠点単位での音源定位等を用いることで、図6の場合と同様に放音環境を設定することができる。
ところで、前述の各説明では、すべて同じ放収音装置を用いた場合を例に説明したが、図9に示すように、拠点毎に放収音装置が異なるような場合でも、上述の構成を利用することができる。この場合、話者検出ができない放収音装置や、音源定位ができない放収音装置を用いてもよい。
図9は本実施形態の他の多地点会議システムの構成を示す概念図である。
図9に示す会議では、図1に示した会議に対して、さらに、拠点201F、201Gが加わったものである。
拠点201Fには、放収音装置12Fが設置されるとともに、放収音装置12Fの周囲に話者301F,302Fが在席している。放収音装置12Fは、円周上に複数のスピーカが配置されたスピーカアレイと、円周上に複数のマイクが配置されたマイクアレイとを備え、音像定位数が少ないものの、複数の音像定位および話者検出が可能な構成からなる。このような放収音装置12Fを用いる場合、上述のように音像定位数に達するまでは優先度の高い順に音像定位を設定し、話者数が音像定位数を超える場合には優先度の低いものから順にミキシングして放音する。これにより、上述の構成を利用することができる。
拠点201Gには、ネットワーク通信用のパソコン13G、ヘッドホン音声変換器14Gが設置され、話者301Gはヘッドホン15Gを装着している。このような場合、ヘッドホン音声変換器14Gの仕様により、ヘッドホン15Gから疑似サラウンドを放音することが可能であり、疑似サラウンドを用いる場合には、上述の音像定位を疑似サラウンドに置き換えて放音制御を行えばよい。また、ステレオ放音を行う場合には、優先度を参照しながら取得した放音データを適宜ミキシングし、2チャンネルからなるステレオ放音を実現すればよい。一方、収音は話者がヘッドホン装着者と決まっているので話者検出を行わず話者識別データを生成しなくてもよい。この場合、パソコン13Gから送信されるフレームデータは、図10に示すようになる。
図10は話者識別データの無いフレームデータ503の構成を示す図である。
このように、話者識別データが無い場合、装置識別IDと優先度データとからなるメタデータ531と、音声データ530とからフレームデータ503が構成される。
ネットワーク200にて、パソコン13Gに接続する各放収音装置11A〜11D、12Fは、フレームデータを解析する際に、メタデータに話者識別データが無いことを確認すると、装置識別IDと一意的に対応すると判断し、上述の放音環境の設定に利用する。
このように、各種の放収音装置が混在するような構成であっても、各話者(会議者)にとって聞き取り易い会議を提供することができる。
また、前述の説明では、サーバレスのシステムを例に説明したが、図11に示すようなサーバ210を有するシステムであっても、前述の構成を利用することができる。
図11はサーバ210を有する多地点会議システムの構成を示す概念図である。また、図12はサーバ用フレームデータ505の構成を示す図である。
図11に示す例は、図1に示した会議システムにおいて、サーバ210が存在する場合を示す。このような会議システムでは、各放収音装置11A〜11Dのフレームデータは、サーバ210へ送信される。サーバ210は、受信した各フレームデータを一つのサーバ用フレームデータ505にまとめ、当該サーバ用フレームデータ505のメタデータとして拠点数データを添付する。拠点数データは、受信したフレームデータ数を計測することで得られる。サーバ210は、サーバ用フレームデータ505を生成すると、各放収音装置11A〜11Dへ送信する。
各放収音装置11A〜11Dは、サーバ用フレームデータ505を受信すると、解析を行い、自装置からのフレームデータを除外して音像定位の設定を行う。この際、拠点数データは、少なくとも拠点単位での音像定位が可能かどうか等に用いることができる。このような構成であっても、上述の構成および処理を利用して各話者(会議者)が聞き取り易い会議を提供することができる。
本発明の実施形態の多地点会議システムの構成を示す概念図である。 各放収音装置11A〜11Dの主要構成を示すブロック図である。 多地点会議システムで用いられる通信用データすなわちフレームデータの構成を示す図である。 収音時の放収音装置の主要処理フローを示すフローチャートである。 放音時の放収音装置の主要処理フローを示すフローチャートである。 会議開始後で、話者301A,302A,301B,301Dが発言中の状態を示す図である。 図6の状態に加えて拠点201Eの301Eが発言した状態を示す図である。 図7の状態に加えて拠点201Bの話者302Bが発言した状態を示す図である。 本発明の実施形態の他の多地点会議システムの構成を示す概念図である。 話者識別データの無いフレームデータ503の構成を示す図である。 サーバ210を有する多地点会議システムの構成を示す概念図である。 サーバ用フレームデータ505の構成を示す図である。
符号の説明
200−ネットワーク、201A〜201G−拠点、301A,302A,301B,302B,301C,302C,301D,301E,301F,302F,301G−話者(会議者)、
11A〜11E−放収音装置、111A〜111D−制御部、112A〜112D−通信制御部、113A〜113D−放音制御部、114A〜114D−収音制御部、115A〜115D−メモリ、SPA−スピーカアレイ、SP−スピーカ、MCA−マイクアレイ、MC−マイク、
12F−放収音装置、13G−パソコン、14G−ヘッドホン音声変換器、15G−ヘッドホン、
501,502,503,504A〜504N−フレームデータ、505−サーバ用フレームデータ、511,521,5201A〜5201N,531−メタデータ、510,5200A〜5200N,530−音声データ

Claims (5)

  1. 複数の音像定位を行う放音制御手段と、話者を検出するとともに話者方位からの音声を収音する収音制御手段との少なくともいずれか一方を備えた放収音装置と、
    該放収音装置を含む複数の放収音装置を接続するネットワーク網と、
    を備えた音声通信システムであって、
    収音側の放収音装置は、前記収音制御手段を備え、収音音声に基づく音声データと、該音声データを識別させる識別データとを生成して、前記収音音声に基づく音声データと前記識別データとを含む通信用データを生成してネットワーク網へ送信し、
    放音側の放収音装置は、前記放音制御手段を備え、前記ネットワーク網を介して受信した通信用データから前記識別データを取得して、該識別データに基づいて、関連する音声データの音像定位を決定する、
    音声通信システム。
  2. 前記識別データは、話者識別データと、放収音装置に固有の装置識別IDと、を、少なくとも備える、
    請求項1に記載の音声通信システム。
  3. 前記識別データは、音像定位の優先性を示す優先度を、さらに備え、
    放音側の放収音装置は、前記優先度が高いものを優先して音像定位させる、
    請求項2に記載の音声通信システム。
  4. 前記収音側の放収音装置は、収音制御手段により複数の話者を並列して検出するとともに、それぞれの話者の音声を個別に収音し、収音音声毎に複数の音声データを形成するとともに音声データ毎にチャンネルを設定して、設定したチャンネル数を前記識別データに含ませる、
    請求項1〜3のいずれかに記載の音声通信システム。
  5. 前記音声通信システムは、複数の放収音装置間の前記通信用データの送受信を管理する管理サーバを備え、
    該管理サーバは、複数の収音側の放収音装置から前記通信用データを受け付けると、複数の通信用データを含み、且つ拠点数を前記サーバ用識別データとして加えたサーバ通信用データを生成して、ネットワーク網へ送信し、
    放音側の放収音装置は、前記サーバ用識別データおよび識別データに基づいて、自装置での収音音声を除く音声データの音像定位を決定する、
    請求項1〜4のいずれかに記載の音声通信システム。
JP2007136427A 2007-05-23 2007-05-23 音声通信システム Expired - Fee Related JP5261983B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007136427A JP5261983B2 (ja) 2007-05-23 2007-05-23 音声通信システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007136427A JP5261983B2 (ja) 2007-05-23 2007-05-23 音声通信システム

Publications (2)

Publication Number Publication Date
JP2008294619A true JP2008294619A (ja) 2008-12-04
JP5261983B2 JP5261983B2 (ja) 2013-08-14

Family

ID=40168922

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007136427A Expired - Fee Related JP5261983B2 (ja) 2007-05-23 2007-05-23 音声通信システム

Country Status (1)

Country Link
JP (1) JP5261983B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010109918A1 (ja) * 2009-03-26 2010-09-30 パナソニック株式会社 復号化装置、符号化復号化装置および復号化方法
WO2011149647A3 (en) * 2010-05-24 2012-02-23 Microsoft Corporation Voice print identification
CN106603878A (zh) * 2016-12-09 2017-04-26 奇酷互联网络科技(深圳)有限公司 语音定位方法、装置和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0758859A (ja) * 1993-08-13 1995-03-03 Oki Electric Ind Co Ltd 遠隔会議用情報送信装置及び情報受信装置
JPH1168977A (ja) * 1997-08-20 1999-03-09 Casio Comput Co Ltd 通話システム及び通話サーバ装置
JP2002209300A (ja) * 2001-01-09 2002-07-26 Matsushita Electric Ind Co Ltd 音像定位装置、並びに音像定位装置を用いた会議装置、携帯電話機、音声再生装置、音声記録装置、情報端末装置、ゲーム機、通信および放送システム
JP2006279588A (ja) * 2005-03-29 2006-10-12 Yamaha Corp 多地点通信会議用端末
JP2007019907A (ja) * 2005-07-08 2007-01-25 Yamaha Corp 音声伝達システム、および通信会議装置
WO2007052726A1 (ja) * 2005-11-02 2007-05-10 Yamaha Corporation 遠隔会議装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0758859A (ja) * 1993-08-13 1995-03-03 Oki Electric Ind Co Ltd 遠隔会議用情報送信装置及び情報受信装置
JPH1168977A (ja) * 1997-08-20 1999-03-09 Casio Comput Co Ltd 通話システム及び通話サーバ装置
JP2002209300A (ja) * 2001-01-09 2002-07-26 Matsushita Electric Ind Co Ltd 音像定位装置、並びに音像定位装置を用いた会議装置、携帯電話機、音声再生装置、音声記録装置、情報端末装置、ゲーム機、通信および放送システム
JP2006279588A (ja) * 2005-03-29 2006-10-12 Yamaha Corp 多地点通信会議用端末
JP2007019907A (ja) * 2005-07-08 2007-01-25 Yamaha Corp 音声伝達システム、および通信会議装置
WO2007052726A1 (ja) * 2005-11-02 2007-05-10 Yamaha Corporation 遠隔会議装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010109918A1 (ja) * 2009-03-26 2010-09-30 パナソニック株式会社 復号化装置、符号化復号化装置および復号化方法
US20110051940A1 (en) * 2009-03-26 2011-03-03 Panasonic Corporation Decoding device, coding and decoding device, and decoding method
CN102318373A (zh) * 2009-03-26 2012-01-11 松下电器产业株式会社 解码装置、编解码装置及解码方法
JP5340296B2 (ja) * 2009-03-26 2013-11-13 パナソニック株式会社 復号化装置、符号化復号化装置および復号化方法
US8718285B2 (en) 2009-03-26 2014-05-06 Panasonic Corporation Decoding device, coding and decoding device, and decoding method
WO2011149647A3 (en) * 2010-05-24 2012-02-23 Microsoft Corporation Voice print identification
CN102985965A (zh) * 2010-05-24 2013-03-20 微软公司 声纹标识
US8606579B2 (en) 2010-05-24 2013-12-10 Microsoft Corporation Voice print identification for identifying speakers
US9691393B2 (en) 2010-05-24 2017-06-27 Microsoft Technology Licensing, Llc Voice print identification for identifying speakers at an event
CN106603878A (zh) * 2016-12-09 2017-04-26 奇酷互联网络科技(深圳)有限公司 语音定位方法、装置和系统

Also Published As

Publication number Publication date
JP5261983B2 (ja) 2013-08-14

Similar Documents

Publication Publication Date Title
US10149049B2 (en) Processing speech from distributed microphones
US11647122B2 (en) System and method for distributed call processing and audio reinforcement in conferencing environments
JP5012387B2 (ja) 音声処理システム
US10206024B2 (en) Remotely controlling a hearing device
JP4867516B2 (ja) 音声会議システム
US9313621B2 (en) Method for automatically switching to a channel for transmission on a multi-watch portable radio
US8958587B2 (en) Signal dereverberation using environment information
JP2019518985A (ja) 分散したマイクロホンからの音声の処理
US8265240B2 (en) Selectively-expandable speakerphone system and method
CN106375902A (zh) 通过麦克风的机会性使用的音频增强
JP2007019907A (ja) 音声伝達システム、および通信会議装置
JP2009206671A (ja) 音声会議システム
JP5261983B2 (ja) 音声通信システム
JP4882757B2 (ja) 音声会議システム
US20160112574A1 (en) Audio conferencing system for office furniture
JP5057946B2 (ja) 音声会議装置および音声会議方法
US20050180582A1 (en) A System and Method for Utilizing Disjoint Audio Devices
JP2006211156A (ja) 音響装置
JP2009246528A (ja) 画像付音声通信システム、画像付音声通信方法およびプログラム
KR101724096B1 (ko) 최우선 순위의 공통 채널로 병렬화된 오디오 중계송출 장치들을 이용한 우선순위 기반의 확장형 전관방송 시스템
JP2016503265A (ja) 会議システム及び会議システムにおけるボイスアクティベーションのための処理方法
JP2009171197A (ja) 情報通信装置、通信状態検査方法、通信状態検査プログラムおよび双方向通信システム
JP2017163466A (ja) 情報処理装置および会議システム
JP4919077B2 (ja) 音声通信端末及び音声通信システム
JP2008017126A (ja) 音声会議システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100315

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120228

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120427

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20120427

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120925

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130402

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130415

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees