JP4327822B2

JP4327822B2 - 音声伝送装置、音声伝送方法及びプログラム

Info

Publication number: JP4327822B2
Application number: JP2006162894A
Authority: JP
Inventors: 浩平桃崎; 信一田中; 克芳長安; 博史金澤
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2006-06-12
Filing date: 2006-06-12
Publication date: 2009-09-09
Anticipated expiration: 2022-06-12
Also published as: JP2006325224A

Description

本発明は、頭部に装着して使用するヘッドセット等に好適な音声伝送装置、音声伝送方法及びプログラムに関する。

従来、２個のスピーカを用いることで、２次元又は３次元音響を実現した音響システムがある。多次元音響は、両耳間の音声レベルの差や音声の位相差、頭部音響伝達関数等を考慮した信号処理を行うことにより実現することができ、このような多次元サウンドシステムを用いることによって、音源の方向を識別可能な２次元又は３次元の音像を得ることができる。

このような多次元サウンドシステムは、音像の定位が可能であることから、音響をリアルに再現することができ、種々の用途で有効である。そして、耳とスピーカとの位置関係が固定である点及び各個人が単独で音声を聞くことが可能である点等の理由から、多次元サウンドシステムにおいては頭部に装着して使用するヘッドセットが採用されることがある。

ヘッドセットを装着したユーザにとっては、多次元サウンドシステムによって音声を出力させると、識別される音像は頭部に対して一定の方向に感じられる。これにより、ユーザは、音が自分の上下、前後左右の各方向から聞こえてくる感じを持つことになり、臨場感の増大等に極めて有効である。
特開２００１−０７８１６２号公報

しかしながら、音像はヘッドセットの向きに応じて変化することから、多次元サウンドシステムが特定の個人に対して感じさせたい音像と、実際に特定の個人が感じる音像とを一致させることができるとは限らない。例えば、映画館、特に全周がスクリーンとなったシアター等において、多次元サウンドシステムを採用するものとする。この場合において、ユーザの頭部が常に特定の方向に向いているものとすると、スクリーン上でそのユーザが視覚的に認知すべき特定の位置の映像とその位置を音源とする音響を、ユーザに感じさせることできる。しかし、頭部の向きが変化すると、映像の位置とその位置を音源とする音響とが、ずれた位置に感じられてしまう。

例えば、ユーザの背後のスクリーン上の映像位置に音像がある場合において、仮にユーザがその音像側に振り向いたとしても、そのユーザにとっては音像はやはり自分の背後に位置する。

また、例えば、比較的離れた位置の複数のユーザ同士が、多次元サウンドシステムを利用してヘッドセットを用いて会話する場合においても、各ユーザの頭部の向きが変化することによって、会話の相手の実際の位置と音像とがずれてしまうという問題が発生する。

このように、従来、視覚的に認知可能な場所に音源が存在する場合等において、装着した頭の向きが変化すると音像と視覚的に認知可能な場所との方向がずれてしまうという問題があった。

このような問題に対応するため、頭の動きや頭の向きの変化を検出して音像の方向を補正し、一定の方向に音像を定位させる方法が考えられる。しかしながら、基準となる初期状態を使用開始の度に測定して調整する必要があったり、変化量検出の誤差が蓄積してしまうため、常に実際の方向と一致するように音像を制御することは極めて困難である。

また、複数の音源からの音声を提示する場合には、頭の向きの検出とは別に予め複数の音源の位置を測定しておくか、複数の音源の位置関係に基づく２次元又は３次元の音声情報を予め作成しておく必要があった。

このため、移動可能な複数の人が相互に音声でコミュニケーションを行うような用途の場合には、実際の位置関係を適切に反映する２次元又は３次元の音響を実現することは極めて困難であった。

本発明は、移動可能な複数の人が相互に音声でコミュニケーションを行うような用途の場合に会話相手を適切に選択したり、それ以外の不要な音声伝送を防止するよう、音声送信を制御することができる音声伝送装置、音声伝送方法及びプログラムを提供することを目的とする。

本発明に係る音声伝送装置は、送信元から送信先に対して送信する音声を取り込む音声入力部と、前記送信元において前記音声の送信先を撮像した画像を取り込む画像入力部と、前記撮像した画像を解析し、前記音声の送信先を識別する識別手段と、前記音声入力部が取り込んだ音声を前記識別手段の識別結果に基づく送信先のみに送信する送信制御手段とを具備したことを特徴とする。

本発明によれば、移動可能な複数の人が相互に音声でコミュニケーションを行うような用途の場合に会話相手を適切に選択したり、それ以外の不要な音声伝送を防止するよう、音声送信を制御することができるという効果を有する。

以下、図面を参照して本発明の実施の形態について詳細に説明する。図１は本発明の第１の実施の形態に係る音声伝送装置を示すブロック図である。

本実施の形態は移動自在な複数の人間同士の会話に利用する場合の例を示している。本実施の形態は、各人が会話の相手に向いた状態で相手の顔の向きを検出することで、相手の頭部の向きに対して自分の位置を正しく示す音像を与える音像定位情報を得、この音像定位情報に基づいて音声信号の音像を変換した後送信するようにしたものである。

図１において、音声送信装置１０と音声出力部１７とは、音声信号を伝送する無線等の通信路１８によって接続されている。音声送信装置１０は音声の送信者側が装着するものであり、音声出力部１７は音声の受信者側が装着するものである。従って、会話を行う場合には、各人は音声送信装置１０及び音声出力部１７の双方を装着する必要がある。

音声送信装置１０は、会話の相手に対して、音声送信装置１０を装着した人間に向けて音像を定位させた音声信号を発生するようになっている。音声出力部１７は、会話の相手が装着している音声送信装置１０が出力した音声信号に対して可聴化処理を行い、可聴音声を音響出力するようになっている。

音声送信装置１０の音声入力部１１は、送出する音声情報を取り込む。例えば、音声入力部１１は、ユーザが発声した音声を取り込むマイクロフォン等によって構成される。音声入力部１１は取り込んだ音声情報を音声変換部１６に供給するようになっている。

画像入力部１２は、音声情報の送出先（会話の相手）の撮像画像を取り込む。例えば、画像入力部１２には、ＴＶカメラ９からの画像信号が入力される。本実施の形態においては、ＴＶカメラ９は、使用者に装着されており、使用者の頭部の向きに一致した向きの被写体を撮像することができるようになっている。画像入力部１２は、ＴＶカメラ９から取り込んだ撮像画像を送出先識別部１３及び方向検出部１４に出力するようになっている。

送出先識別部１３は、画像入力部１２の出力に基づいて、撮像した画像に含まれる会話の相手の顔画像を解析し、予め登録された会話の相手を識別し、その相手が装着しているヘッドセットを特定する。

方向検出部１４は、画像入力部１２の出力に基づいて、撮像した画像に含まれる会話の相手の頭部画像を解析し、顔（頭部）の方向を検出するようになっている。画像入力部１２が撮像した人物の頭部画像に基づいて、人物の顔の方向を検出する技術としては、特開平１０−２６０７７２号公報にて開示されたものがある。

この提案の技術は、入力された頭部画像について、目鼻などの特徴点抽出処理、特徴点を基準とした顔領域切り出し処理、顔領域の正規化等の処理を行った後、顔面の明るさ（濃淡値）等を特徴量として利用するものである。

図２は特徴量の例を示す説明図である。図２は濃淡によって画像の明るさを示している。図２の画像４１は顔部を正面から撮像した場合の特徴量を示しており、両目と鼻の穴の特徴点が他の部分に比べて暗く、そのだいたいの位置及び形状が特徴的に示されている。

これに対し、画像４２は、両目の位置は正面画像４１と同様であるが、鼻の穴の位置が撮像領域の左側に寄っている。即ち、画像４２は、顔がＴＶカメラ９に対して右を向いた場合の右向き画像を示している。同様に画像４３は、左向き画像である。

また、画像４４は画像４１に比べて、垂直方向に両目が細く、鼻の穴が太く、全体に明るいので、上向き画像であり、逆に、画像４５は、垂直方向に両目が太く、鼻の穴が細く、全体に暗いので下向き画像である。このように、特徴量を利用することで、顔（頭部）の向きを検出可能である。

また、方向検出部１４は、送出先識別部１３で識別された送出先に対応する人物について、予め登録された顔特徴点の３次元位置等のキャリブレーション情報を参照することもできる。方向検出部１４による会話相手の顔の方向の検出結果は音像制御部１５に出力される。

例えば、音声出力部１７をヘッドセットによって構成することができる。この場合には、音声出力部１７は、装着して使用している人物の顔（頭部）の向きと常に連動して変化する。従って、例えば、音声出力部１７を構成するヘッドセットに方向を識別するための手がかりとなるマーカを付すことによって、方向検出部１４は、図２の特徴量を使用した頭部画像の詳細な解析をすることなく、会話相手の顔（頭部の）の向きを検出することが可能である。

図３はヘッドセットに付すマーカの例を示す説明図である。

図３（ａ）はヘッドセットを頭頂部側から見たものであり、紙面下方向が顔の正面の向きに一致している。ヘッドセットの支持バンドには、形状（傾斜）が異なる複数の切り込みが形成されており、切り込みの基端部はカメラ等に撮像された場合に目立つマーカが形成されている。図３（ｂ）は顔（頭部）の向きがカメラに対して正面を向いている場合を示している。この場合にはヘッドセットの中央に形成された切り込みの基端部に設けたマーカのみが見えるようになっている。図３（ｃ）は顔の向きがカメラに対して左３０度（Ｌ３０°）に向いた場合を示している。この場合には、例えば図３（ｃ）の左から２番目の切り込みの基端部に形成されたマーカのみが見えるようになっている。方向検出部１４は、ヘッドセットの支持部に形成されたいずれのマーカが見えたかによって、顔の方向を判定することができる。

また、特開２００１−３２０７０２号公報においては、ヘッドセットに赤外線の点滅パタン等により装置番号を表示する装置を装備する技術が開示されている。この技術を利用すれば、送出先識別部１３は、会話相手の人物の顔画像を解析することなく、撮像された画像中の情報から会話相手が装着しているヘッドセットを直接識別して、装置番号を対応付けることができる。ヘッドセットに、装置番号を記載したタグを装備すれば、送出先識別部１３は、同様に撮像された画像中の情報から、会話相手が装着しているヘッドセットを直接識別して、装置番号を対応付けることができる。送出先識別部１３による識別結果は、方向検出部１４等を介して音声変換部１６に供給されるようになっている。

音像制御部１５は、入力された方向に応じた音像定位情報を生成して音声変換部１６に出力する。音声変換部１６は、音声入力部１１から入力された音声を、音像定位情報に基づいて音像定位させた音声に変換した後、無線、赤外線等の通信路１８を介して送出先識別部１３によって指定された送出先の音声出力部１７に出力するようになっている。

次に、このように構成された実施の形態の動作について図４のフローチャート及び図５の説明図を参照して説明する。

いま、複数の人物Ａ，Ｂ，Ｃ，…がいずれも図１に示す音声送信装置１０及び音声出力部１７を装着しているものとする。各音声送信装置１０は人物Ａ，Ｂ，…が夫々装着しているＴＶカメラ９からの画像が供給されるようになっており、各ＴＶカメラ９は、夫々人物Ａ，Ｂ，…の顔の向きに連動して撮像方向が変化するようになっている。即ち、各ＴＶカメラ９は、各人物Ａ，Ｂ，…の顔の方向と同一の方向を撮像する。

いま、例えば、人物Ｂが人物Ａに音声を伝達しようとして、人物Ａの方向を向くものとする。そうすると、人物Ｂが装着しているＴＶカメラ９の撮像方向も人物Ａの方向となり、このＴＶカメラ９は人物Ａを撮像する。なお、この場合において、例えば人物Ｃが人物Ａに隣接した位置に位置する場合には、人物Ｂが装着しているカメラ９によって、人物Ａ及び人物Ｃの二人が撮像される。

なお、ＴＶカメラ９を、聞き手である人物Ａの存在しうる方向を広い角度で撮像するように設定し、人物Ａが接近することによって、画像入力部１２が人物Ａを撮像した状態と判断するようにしてもよい。

人物Ｂは、図４のステップＳ３１において、人物Ａに伝達する音声を入力する。音声送信装置１０は、人物Ａの撮像画像に基づいて送信する音声に音像を付与する。画像による音像定位情報の更新は、一定周期毎に行う。ステップＳ３２では、更新時刻の判定が行われる。更新時刻になった場合にのみ、画像による音像定位情報の更新処理が行われる。一方、更新時刻以外の場合は、画像情報の更新処理は行われず、ステップＳ３８へ移行する。

即ち、更新時刻に到達すると、処理がステップＳ３２からステップＳ３３に移行して、画像入力が行われる。人物Ｂの音声送信装置１０内の画像入力部１２は、人物Ｂが装着しているＴＶカメラ９からの画像を取り込む。ステップＳ３４において、送出先識別部１３は、画像入力部１２によって取り込まれた画像から、人物Ａが装着している音声出力部１７を識別する。なお、取り込んだ画像に人物Ｃが撮像されている場合には、人物Ｃが装着している音声出力部１７についても識別が行われる。

こうして、送出先識別部１３によって、音声信号の送出先が決定される。即ち、複数の送出先装置（音声出力部１７）が存在している場合でも、送出先識別部１３によって識別された送出先にのみ音声を送出する。送出先識別部１３において複数の送出先装置が識別された場合には、単一の入力音声に対して送出先の数に合わせた多重化が行われて、各送出先毎に、夫々音像定位情報が付与された音声信号が出力される。

即ち、先ず、送出先識別部１３によって識別済みの各送出先（音声出力部１７）を装着している人物Ａ（，Ｃ）について、次のステップＳ３６において、顔の方向が検出される。この検出結果は音像制御部１５に出力される。音像制御部１５は、人物Ａ（，Ｃ）の顔の向きに応じた音像定位情報を生成して、音声変換部１６に出力する（ステップＳ３７）。

図５は音像定位情報の生成方法を説明するためのものである。図５（ａ）は撮像方向を示し、図５（ｂ）は顔方向を示している。

いま、人物Ｂの方向から見た人物Ａの顔の方向が方向検出部１４において検出され、図５（ａ）に示すように、例えば左３０度、上１５度だとすると、これは、人物Ａから見た人物Ｂの方向、即ち人物Ａの顔の正面を基準とした人物Ｂの方向が、図５（ｂ）に示すように、右３０度、下１５度であることを意味する。

人物Ｂが装着している音声送信装置１０の音像制御部１５は、検出された人物Ａの顔の方向に従って求められた、人物Ａの顔の正面を基準とした人物Ｂの方向を、人物Ａへ送出する人物Ｂの音声の音像定位情報として生成する。

ステップＳ３５において、全ての識別済み送出先の処理が終了したことを検出すると、音像定位情報の更新処理を終了して、処理をステップＳ３８に戻す。

次のステップＳ３９において、送出先識別部１３によって識別済みの送出先の各々について、音声変換部１６は、音像定位情報に従った音声の変換を行う。こうして、各送出先毎に音像が付与された音声信号が生成される。

即ち、音声変換部１６は、音像定位情報に従って、音声入力部１１より入力された人物Ｂの音声を変換する。図５の例では、音声変換部１６は、左右の音声レベル制御により右３０度に定位させるか、左右の位相差や頭部音響伝達関数等を使用した３次元音響処理により右３０度、上１５度に定位させる。

音像が付与された音声信号は、音声変換部１６から各音声出力部１７に送信される。即ち、人物Ｂが装着している音声送信装置１０内の音声変換部１６は、先ず、人物Ａの音声出力部１７に対して入力音声に基づく音声信号を送信する。次に、ステップＳ３８に処理を戻して、ステップＳ３９，Ｓ４０を実行することで、入力音声に基づく音声信号を人物Ｃの音声出力部１７にも送信する。

変換された音声は、人物Ａが使用している装置へ送出される。人物Ａが装着している音声出力部１７のヘッドセットからは、現在の人物Ｂが位置する実際の方向に音像が定位した音声が出力される。即ち、人物Ａは、人物Ｂの位置から音声が聞こえた感じを持つことになる。音声出力部１７のヘッドセットは、複数の音声送信装置１０に対応して動作することもでき、それぞれの音声送信装置について生成された、音像定位した音声を混合して出力する。これにより、人物Ａに複数の人物が同時に話しかけた場合でも、人物Ａは話しかけた各人物の実際の方向に音像が定位した音声を聞くことができる。

ステップＳ３８において、全ての識別済み送出先についての送信処理が終了すると、処理をステップＳ３１に戻して、再び音声の入力が行われる。

このように、本実施の形態においては、会話の送信者が音像を付与した音声信号を受信者に送信しており、受信者は自分の顔の向きに拘わらず、常に実際に話し相手が存在する位置の方向に音像が定位した音声出力を得ることができる。この場合において、送信者は受信者方向に向きながら受信者を撮像することによって音像定位情報を得ている。即ち、撮像方向と音像方向とを一致させていることから、相手の顔の向きのみを検出するという極めて簡単な方法によって音像定位情報を得ることができる。従って、予め音源位置を測定したり、使用開始の度に調整を行わずに、頭の向きによらず、視覚と合致した一定の方向に音像を定位させる制御を、極めて簡単な構成で行うことができる。

なお、上記実施の形態においては、送出先識別部１３及び方向検出部１４の代表的な実現方法を用いて説明を行ったが、これらの実現手段はここで説明した方法に限られないことは明らかである。

図６は本発明の第２の実施の形態を示すブロック図である。図６において図１と同一の構成要素には同一符号を付して説明を省略する。

本実施の形態は、送信者側において、入力音声の情報と音像定位情報とを含む音声情報を伝送し、受信者側において、入力された音声の情報と音像定位情報とから、音像が付与された音声信号を作成して音響出力するようにしたものである。

即ち、音声送信装置２０は、音声変換部１６に代えて音声情報送信部２８を採用した点が図１の音声送信装置１０と異なる。音声情報送信部２８は、音声入力部１１が取り込んだ音声の情報とこの音声の情報を伝達する相手の顔の向きに応じて生成された音像定位情報とを含む音声情報を、送出先識別部１３によって指定された送信先に送信するようになっている。

音声送信装置２０と音声情報受信部２９とは、無線等の通信路１８によって接続されている。

音声情報受信部２９は通信路１８を介して伝送された音声情報を受信する。音声情報受信部２９は受信した音声情報を音声変換部２６に出力する。音声変換部２６は、入力された音声情報から音声定位情報を取り出し、この音声定位情報に基づいて入力された音声の情報を変換して、音像が付加された音声信号を得る。この音声信号は音声出力部２７に供給される。音声出力部２７は、例えば、ヘッドセットによって構成されており、入力された音声信号を可聴化処理し、可聴音声を音響出力するようになっている。

このように構成された実施の形態においても図４と同様のフローが採用される。送信側においては、音像定位情報と、入力音の情報とを含む音声情報を出力し、受信側において、音像が付加された音声信号を再生する点が図４と異なるのみである。

即ち、送信元である人物Ｂが装着している音声送信装置２０は、ＴＶカメラ９からの画像を取り込むことにより、会話の相手の顔の向きを検出し、音像定位情報を得る。音声情報送信部２８は、入力された音声の情報と音声定位情報とを含む音声情報を、送信相手先に送信する。

一方、送信相手先の人物Ａが装着している音声受信部２９においては、入力された音声情報を音声変換部２６に出力する。音声変換部２６は、音像定位情報に従って、入力された音声を変換する。例えば、図５の例では、音声変換部２６は、左右の音声レベル制御により右３０度に定位させるか、左右の位相差や頭部音響伝達関数等を使用した３次元音響処理により右３０度、上１５度に定位させる。

変換された音声は、人物Ａが装着している音声出力部２７のヘッドセットに出力され、ヘッドセットでは、音源の位置から音声が聞こえる。音声出力部２７のヘッドセットは、複数の音声送信制御装置２０に対応して動作することもでき、それぞれの音声送信装置について生成された、音像定位した音声を混合して出力する。

このように、本実施の形態においても第１の実施の形態と同様の効果を得ることができる。なお、第２の実施の形態においては、受信側に、音声情報受信部２９、音声変換部２６及び音声出力部２７の全てを含むものとして説明したが、音声変換部２６が音声出力部２７との間で無線等による通信が可能である場合には、音声情報受信部２９及び音声変換部２６は、いずれの位置に配置されていてもよい。

なお、上記各実施の形態においては、音声の送信者（話し手）自身が受信者（聞き手）の顔を撮像する構成とした。この場合において、ＴＶカメラ９は、使用者に装着されているものとして説明したが、使用者が手に保持するようにしてもよく、ウェアラブルの装置とする必要はない。

また、音声の送信者が人物であるものとして説明したが、パソコンやステレオセット等であってもよい。このとき、音声入力部１１は、パソコンやステレオセット等の音声出力装置における音声出力段に位置し、パソコン内部の処理で発生する音声や、ネットワークで接続された他のコンピュータから受信した音声データ等を再生する音声、チューナやＣＤ（コンパクトディスク）プレーヤ等の外部装置から入力された音声や、増幅、調整等の処理を行った後の音声等が、音声送信装置の入力として扱われるようにすればよく、ＴＶカメラ９をこれらの音声出力装置に内蔵、又はこれらの音声出力装置の近傍に配置して、音声出力方向を撮像するようにすればよいことは明らかである。また、このとき、音声出力装置とＴＶカメラ９の設置位置の間の距離は、受信者において認識される音声の送信元の位置の誤差として、本発明の効果の程度に影響を及ぼすが、許容される誤差の大きさに合致した距離内にＴＶカメラ９を配置すればよいことは明らかである。更に、実際の音声出力装置の位置に限らず、受信者に音声の送信元として認識させたい場所近傍にＴＶカメラ９を設置することで、受信者に対して音声の送信元を容易に設定することも可能である。また、例えば、送信側の人物や受信側の人物が椅子に腰掛けている場合のように、送受信者の位置を特定することができる場合には、送信者とは異なる位置から受信者の顔を撮像してその顔の向きを検出した場合でも、送信者の位置に一致した音像を音声に付与することができることも明らかである。

図７は本発明の第３の実施の形態を示すブロック図である。図７において図１と同一の構成要素には同一符号を付して説明を省略する。

本実施の形態は音像制御を行わず、撮像画像に基づいて音声伝送を制御するものに適用した例である。

本実施の形態は方向検出部１４及び音像制御部１５を省略すると共に、音声変換部１８に代えて送信制御部５２を備えた音声出力装置５１を採用した点が第１の実施の形態と異なる。

送出先識別部１３は、撮像画像に基づいて送出先を識別し、識別結果を送信制御部５２に出力するようになっている。送信制御部５２は音声入力部１１からの音声信号を、送出先識別部１３の識別結果に基づく送信先のみに送信するようになっている。なお、送信制御部５２は、送出先識別部１３によって送信先が識別されなかった場合には、音声信号の送信を抑制するようになっている。

このように構成された実施の形態においても、画像入力部１２は、音声の送信元近傍に設置されたＴＶカメラ９によって撮像された会話相手の画像信号を送出先識別部１３に供給する。これにより、送出先識別部１３は、予め登録された会話の相手を比較的簡単に識別し、その相手が装着しているヘッドセットを特定することができる。

次に、このように構成された実施の形態の動作について図８のフローチャートを参照して説明する。

いま、複数の人物Ａ，Ｂ，Ｃ，…がいずれも図７に示す音声送信装置５１及び音声出力部１７を装着しているものとする。各音声送信装置５１は人物Ａ，Ｂ，…が夫々装着しているＴＶカメラ９からの画像が供給されるようになっており、各ＴＶカメラ９は、夫々人物Ａ，Ｂ，…の顔の向きに連動して撮像方向が変化するようになっている。即ち、各ＴＶカメラ９は、各人物Ａ，Ｂ，…の顔の方向と同一の方向を撮像する。

いま、例えば、人物Ｂが人物Ａに音声を伝達しようとして、人物Ａの方向を向くものとする。そうすると、人物Ｂが装着しているＴＶカメラ９の撮像方向も人物Ａの方向となり、このＴＶカメラ９は人物Ａを撮像する。なお、この場合において、例えば人物Ｃが人物Ａに隣接した位置に位置する場合には、人物Ｂが装着しているカメラ９によって、人物Ａ及び人物Ｃの二人が撮像される。また、人物Ａが装着しているＴＶカメラ９では人物Ｂが撮像されるが、人物Ｃは撮像されない。

人物Ｂは、図８のステップＳ３１において、人物Ａに伝達する音声を入力する。音声送信装置５１は、人物Ａの撮像画像に基づいて送信する音声の制御を行う。画像による制御情報の更新は、一定周期毎に行う。ステップＳ３２では、更新時刻の判定が行われる。更新時刻になった場合にのみ、画像による制御情報の更新処理が行われる。一方、更新時刻以外の場合は、画像による制御情報の更新処理は行われず、ステップＳ３８へ移行する。

即ち、更新時刻に到達すると、処理がステップＳ３２からステップＳ３３に移行して、画像入力が行われる。人物Ｂの音声送信装置５１内の画像入力部１２は、人物Ｂが装着しているＴＶカメラ９からの画像を取り込む。ステップＳ３４において、送出先識別部１３は、画像入力部１２によって取り込まれた画像から、人物Ａが装着している音声出力部１７を識別する。なお、取り込んだ画像に人物Ｃが撮像されている場合には、人物Ｃが装着している音声出力部１７についても識別が行われる。

こうして、送出先識別部１３によって、音声信号の送出先が決定される。即ち、複数の送出先装置（音声出力部１７）が存在している場合でも、送出先識別部１３によって識別された送出先にのみ音声を送出する。送出先識別部１３において複数の送出先装置が識別された場合には、単一の入力音声に対して送出先の数に合わせた多重化が行われて、各送出先毎に、夫々音声信号が出力される。

識別処理が終了すると、処理をステップＳ３８に戻す。

次のステップＳ４０において、送出先識別部１３によって識別済みの送出先の各々について、音声信号は各音声出力部１７に送信される。即ち、人物Ｂが装着している音声送信装置５１内の送信制御部５２は、先ず、人物Ａの音声出力部１７に対して入力音声に基づく音声信号を送信する。次に、ステップＳ３８に処理を戻して、ステップＳ４０を実行することで、入力音声に基づく音声信号を人物Ｃの音声出力部１７にも送信する。

人物Ａの音声送信装置５１においては同様に、人物Ｂの音声出力部１７のみへ人物Ａの音声信号を送信する。

音声出力部１７のヘッドセットは、複数の音声送信装置５１に対応して動作することもでき、それぞれの音声送信装置の音声を混合して出力する。これにより、人物Ｂは人物Ａ及び人物Ｃの両方の音声を聞くことができる。

このように、本実施の形態においては、利用者は予め切り替えることなく、会話相手の音声を得ることができる。この場合において、音声の送信元の近傍に設置されたＴＶカメラ９によって受信者を撮像し、識別することによって、受信者から送信元が見えるかどうかに対応する制御情報を得ている。即ち、撮像方向と音像方向とを一致させていることから、画像から会話相手を検出するという極めて簡単な方法によって、音声信号の適切な送出制御が可能となる。

なお、本実施の形態においては、音像制御を行っていないので、会話相手の音声出力部１７をヘッドセットによって構成する必要はなく、例えば、スピーカによって構成してもよい。

また、本実施の形態においては、送信先識別部１３が識別した送信先にのみ音声信号を送信し、他の送信先への送信を抑制する制御を行っているが、完全に抑制する代わりに、識別されなかった送信先において出力される音量を減少させる等、送信元において送出する音声信号を変換したり、送信先において受信された音声信号を変換したりしてもよい。

また、本実施の形態においては、ＴＶカメラ９は、使用者に装着されているものとして説明したが、使用者が手に保持するようにしてもよく、ウェアラブルの装置とする必要はない。また、音声の送信者が人物であるものとして説明したが、パソコンやステレオセット等であってもよい。

本発明の第１の実施の形態に係る音声伝送装置を示すブロック図。特徴量の例を示す説明図。ヘッドセットに付すマーカの例を示す説明図。第１の実施の形態の動作を説明するためのフローチャート。第１の実施の形態の動作を説明するための説明図。本発明の第２の実施の形態を示すブロック図。本発明の第３の実施の形態を示すブロック図。第３の実施の形態の動作を説明するためのフローチャート。

符号の説明

９…ＴＶカメラ、１０…音声送信装置、１１…音声入力部、１２…画像入力部、１３…送出先識別部、１４…方向検出部、１５…音像制御部、１６…音声変換部、１７…音声出力部、１８…通信路、２０…音声送信装置、２６…音声変換部、２７…音声出力部、２８…音声情報送信部、２９…音声情報受信部、５１…音声送信装置、５２…送信制御部。

Claims

送信元から送信先に対して送信する音声を取り込む音声入力部と、
前記送信元において前記音声の送信先を撮像した画像を取り込む画像入力部と、
前記撮像した画像を解析し、前記音声の送信先を識別する識別手段と、
前記音声入力部が取り込んだ音声を前記識別手段の識別結果に基づく送信先のみに送信する送信制御手段とを具備したことを特徴とする音声伝送装置。
前記画像入力部は、前記送信元の人物に装着され前記送信元の人物の顔の方向に一致した方向を撮像した撮像手段からの画像を取り込むことを特徴とする請求項１に記載の音声伝送装置。
前記送信先は、人物が装着する音声受信装置であり、
前記識別手段は、前記送信先の人物を識別し、
前記送信制御手段は、前記識別結果において識別された人物が装着する音声受信装置のみに送信する請求項１に記載の音声伝送装置。
送信元から送信先に対して送信する音声を取り込む音声入力処理と、
前記送信元において前記音声の送信先を撮像した画像を取り込む画像入力処理と、
前記撮像した画像を解析し、前記音声の送信先を識別する識別処理と、
前記音声入力処理において取り込んだ音声を前記識別処理の識別結果に基づく送信先のみに送信する送信制御処理とを具備したことを特徴とする音声伝送方法。
コンピュータに、
送信元から送信先に対して送信する音声を取り込む音声入力処理と、
前記送信元において前記音声の送信先を撮像した画像を取り込む画像入力処理と、
前記撮像した画像を解析し、前記音声の送信先を識別する識別処理と、
前記音声入力処理において取り込んだ音声を前記識別処理の識別結果に基づく送信先のみに送信する送信制御処理とを実行させるための音声伝送プログラム。