JP3952870B2 - Audio transmission apparatus, audio transmission method and program - Google Patents

Audio transmission apparatus, audio transmission method and program Download PDF

Info

Publication number
JP3952870B2
JP3952870B2 JP2002171854A JP2002171854A JP3952870B2 JP 3952870 B2 JP3952870 B2 JP 3952870B2 JP 2002171854 A JP2002171854 A JP 2002171854A JP 2002171854 A JP2002171854 A JP 2002171854A JP 3952870 B2 JP3952870 B2 JP 3952870B2
Authority
JP
Japan
Prior art keywords
audio
transmission
unit
voice
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002171854A
Other languages
Japanese (ja)
Other versions
JP2004023180A (en
Inventor
浩平 桃崎
信一 田中
克芳 長安
博史 金澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2002171854A priority Critical patent/JP3952870B2/en
Publication of JP2004023180A publication Critical patent/JP2004023180A/en
Application granted granted Critical
Publication of JP3952870B2 publication Critical patent/JP3952870B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Image Processing (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Stereophonic System (AREA)
  • Image Analysis (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、頭部に装着して使用するヘッドセット等に好適な音声伝送装置、音声伝送方法及びプログラムに関する。
【0002】
【従来の技術】
従来、2個のスピーカを用いることで、2次元又は3次元音響を実現した音響システムがある。多次元音響は、両耳間の音声レベルの差や音声の位相差、頭部音響伝達関数等を考慮した信号処理を行うことにより実現することができ、このような多次元サウンドシステムを用いることによって、音源の方向を識別可能な2次元又は3次元の音像を得ることができる。
【0003】
このような多次元サウンドシステムは、音像の定位が可能であることから、音響をリアルに再現することができ、種々の用途で有効である。そして、耳とスピーカとの位置関係が固定である点及び各個人が単独で音声を聞くことが可能である点等の理由から、多次元サウンドシステムにおいては頭部に装着して使用するヘッドセットが採用されることがある。
【0004】
ヘッドセットを装着したユーザにとっては、多次元サウンドシステムによって音声を出力させると、識別される音像は頭部に対して一定の方向に感じられる。これにより、ユーザは、音が自分の上下、前後左右の各方向から聞こえてくる感じを持つことになり、臨場感の増大等に極めて有効である。
【0005】
【発明が解決しようとする課題】
しかしながら、音像はヘッドセットの向きに応じて変化することから、多次元サウンドシステムが特定の個人に対して感じさせたい音像と、実際に特定の個人が感じる音像とを一致させることができるとは限らない。例えば、映画館、特に全周がスクリーンとなったシアター等において、多次元サウンドシステムを採用するものとする。この場合において、ユーザの頭部が常に特定の方向に向いているものとすると、スクリーン上でそのユーザが視覚的に認知すべき特定の位置の映像とその位置を音源とする音響を、ユーザに感じさせることできる。しかし、頭部の向きが変化すると、映像の位置とその位置を音源とする音響とが、ずれた位置に感じられてしまう。
【0006】
例えば、ユーザの背後のスクリーン上の映像位置に音像がある場合において、仮にユーザがその音像側に振り向いたとしても、そのユーザにとっては音像はやはり自分の背後に位置する。
【0007】
また、例えば、比較的離れた位置の複数のユーザ同士が、多次元サウンドシステムを利用してヘッドセットを用いて会話する場合においても、各ユーザの頭部の向きが変化することによって、会話の相手の実際の位置と音像とがずれてしまうという問題が発生する。
【0008】
このように、従来、視覚的に認知可能な場所に音源が存在する場合等において、装着した頭の向きが変化すると音像と視覚的に認知可能な場所との方向がずれてしまうという問題があった。
【0009】
このような問題に対応するため、頭の動きや頭の向きの変化を検出して音像の方向を補正し、一定の方向に音像を定位させる方法が考えられる。しかしながら、基準となる初期状態を使用開始の度に測定して調整する必要があったり、変化量検出の誤差が蓄積してしまうため、常に実際の方向と一致するように音像を制御することは極めて困難である。
【0010】
また、複数の音源からの音声を提示する場合には、頭の向きの検出とは別に予め複数の音源の位置を測定しておくか、複数の音源の位置関係に基づく2次元又は3次元の音声情報を予め作成しておく必要があった。
【0011】
このため、移動可能な複数の人が相互に音声でコミュニケーションを行うような用途の場合には、実際の位置関係を適切に反映する2次元又は3次元の音響を実現することは極めて困難であった。
【0012】
本発明は、頭部に装着して使用するヘッドセット等を用いて音声の伝達を行う場合に、煩雑な設定を行うことなく、実際の音源方向に一致した方向に音像を定位させることができる音声伝送装置、音声伝送方法及びプログラムを提供することを第1の目的とする。
【0013】
また、本発明は、移動可能な複数の人が相互に音声でコミュニケーションを行うような用途の場合に会話相手を適切に選択したり、それ以外の不要な音声伝送を防止するよう、音声送信を制御することができる音声伝送装置、音声伝送方法及びプログラムを提供することを第2の目的とする。
【0014】
【課題を解決するための手段】
本発明の請求項1に係る音声伝送装置は、送信元から送信先に対して送信する音声を取り込む音声入力部と、前記送信元において音声の送信先を撮像した画像を取り込む画像入力部と、前記撮像した画像を解析し、前記音声の送信先の人物の顔の方向を検出する方向検出部と、前記方向検出部の検出結果に基づいて、前記送信先の人物の顔の正面を基準として前記送信元への方向に対応した音像定位情報を生成する音像定位情報生成部と、前記音声入力部が取り込んだ音声を前記音像定位情報に基づいて音像定位させた音声信号に変換する音声変換部と、前記音声変換部によって変換された音声信号を前記送信先に送信する音声送信部とを具備したものであり、
本発明の請求項2に係る音声伝送装置は、送信側において、送信元から送信先に対して送信する音声を取り込む音声入力部と、前記送信元において音声の送信先を撮像した画像を取り込む画像入力部と、前記撮像した画像を解析し、前記音声の送信先の人物の顔の方向を検出する方向検出部と、前記方向検出部の検出結果に基づいて、前記送信先の人物の顔の正面から前記送信元への方向に対応した音像定位情報を生成する音像定位情報生成部と、前記音声入力部が取り込んだ音声の情報と前記音像定位情報とを前記送信先に送信する音声送信部とを具備し、受信側において、前記音声送信部が送信した情報を受信する受信部と、前記受信部が取り込んだ音声の情報を前記音像定位情報に基づいて音像定位させた音声信号に変換する音声変換部とを具備したものである。
【0015】
本発明の請求項1において、音声入力部は、送信元から送信先に対して送信する音声を取り込む。画像入力部は、音声の送信先を撮像した画像を取り込む。方向検出部は、撮像した画像を解析することで、音声の送信先の人物の顔の方向を検出する。この検出結果に基づいて、音像定位情報生成部は、送信先の人物の顔の正面を基準として送信元への方向に対応した音像定位情報を生成する。音声変換部は、音声入力部が取り込んだ音声を音像定位情報に基づいて音像定位させた音声信号に変換する。変換後の音声信号は、音声送信部によって送信先に送信される。送信された音声信号は、送信先の人物にとって、顔の正面方向に対して実際に送信元の人物が位置する方向に音像が定位した音声を与えるものとなる。
【0016】
本発明の請求項2において、送信側では、音声入力部によって送信元から送信先に対して送信する音声が取り込まれ、画像入力部によって、音声の送信先を撮像した画像が取り込まれる。方向検出部は、撮像した画像を解析することで、音声の送信先の人物の顔の方向を検出する。この検出結果に基づいて、音像定位情報生成部は、送信先の人物の顔の正面を基準として送信元への方向に対応した音像定位情報を生成する。取り込まれた音声の情報と音像定位情報とが、音声送信部によって送信先に送信される。一方、受信側では、受信部によって情報が受信される。音声変換部は、受信部が取り込んだ音声の情報を音像定位情報に基づいて音像定位させた音声信号に変換する。この音声信号は、送信先の人物にとって、顔の正面方向に対して実際に送信元の人物が位置する方向に音像が定位した音声を与えるものとなる。
【0017】
本発明の請求項10において、識別手段は音声の送信先を撮像した画像を取り込んで、音声の送信先を識別する。送信制御部は、音声入力部が取り込んだ音声を識別手段の識別結果に基づく送信先のみに送信する。
【0018】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態について詳細に説明する。図1は本発明の第1の実施の形態に係る音声伝送装置を示すブロック図である。
【0019】
本実施の形態は移動自在な複数の人間同士の会話に利用する場合の例を示している。本実施の形態は、各人が会話の相手に向いた状態で相手の顔の向きを検出することで、相手の頭部の向きに対して自分の位置を正しく示す音像を与える音像定位情報を得、この音像定位情報に基づいて音声信号の音像を変換した後送信するようにしたものである。
【0020】
図1において、音声送信装置10と音声出力部17とは、音声信号を伝送する無線等の通信路18によって接続されている。音声送信装置10は音声の送信者側が装着するものであり、音声出力部17は音声の受信者側が装着するものである。従って、会話を行う場合には、各人は音声送信装置10及び音声出力部17の双方を装着する必要がある。
【0021】
音声送信装置10は、会話の相手に対して、音声送信装置10を装着した人間に向けて音像を定位させた音声信号を発生するようになっている。音声出力部17は、会話の相手が装着している音声送信装置10が出力した音声信号に対して可聴化処理を行い、可聴音声を音響出力するようになっている。
【0022】
音声送信装置10の音声入力部11は、送出する音声情報を取り込む。例えば、音声入力部11は、ユーザが発声した音声を取り込むマイクロフォン等によって構成される。音声入力部11は取り込んだ音声情報を音声変換部16に供給するようになっている。
【0023】
画像入力部12は、音声情報の送出先(会話の相手)の撮像画像を取り込む。例えば、画像入力部12には、TVカメラ9からの画像信号が入力される。本実施の形態においては、TVカメラ9は、使用者に装着されており、使用者の頭部の向きに一致した向きの被写体を撮像することができるようになっている。画像入力部12は、TVカメラ9から取り込んだ撮像画像を送出先識別部13及び方向検出部14に出力するようになっている。
【0024】
送出先識別部13は、画像入力部12の出力に基づいて、撮像した画像に含まれる会話の相手の顔画像を解析し、予め登録された会話の相手を識別し、その相手が装着しているヘッドセットを特定する。
【0025】
方向検出部14は、画像入力部12の出力に基づいて、撮像した画像に含まれる会話の相手の頭部画像を解析し、顔(頭部)の方向を検出するようになっている。画像入力部12が撮像した人物の頭部画像に基づいて、人物の顔の方向を検出する技術としては、特開平10−260772号公報にて開示されたものがある。
【0026】
この提案の技術は、入力された頭部画像について、目鼻などの特徴点抽出処理、特徴点を基準とした顔領域切り出し処理、顔領域の正規化等の処理を行った後、顔面の明るさ(濃淡値)等を特徴量として利用するものである。
【0027】
図2は特徴量の例を示す説明図である。図2は濃淡によって画像の明るさを示している。図2の画像41は顔部を正面から撮像した場合の特徴量を示しており、両目と鼻の穴の特徴点が他の部分に比べて暗く、そのだいたいの位置及び形状が特徴的に示されている。
【0028】
これに対し、画像42は、両目の位置は正面画像41と同様であるが、鼻の穴の位置が撮像領域の左側に寄っている。即ち、画像42は、顔がTVカメラ9に対して右を向いた場合の右向き画像を示している。同様に画像43は、左向き画像である。
【0029】
また、画像44は画像41に比べて、垂直方向に両目が細く、鼻の穴が太く、全体に明るいので、上向き画像であり、逆に、画像45は、垂直方向に両目が太く、鼻の穴が細く、全体に暗いので下向き画像である。このように、特徴量を利用することで、顔(頭部)の向きを検出可能である。
【0030】
また、方向検出部14は、送出先識別部13で識別された送出先に対応する人物について、予め登録された顔特徴点の3次元位置等のキャリブレーション情報を参照することもできる。方向検出部14による会話相手の顔の方向の検出結果は音像制御部15に出力される。
【0031】
例えば、音声出力部17をヘッドセットによって構成することができる。この場合には、音声出力部17は、装着して使用している人物の顔(頭部)の向きと常に連動して変化する。従って、例えば、音声出力部17を構成するヘッドセットに方向を識別するための手がかりとなるマーカを付すことによって、方向検出部14は、図2の特徴量を使用した頭部画像の詳細な解析をすることなく、会話相手の顔(頭部の)の向きを検出することが可能である。
【0032】
図3はヘッドセットに付すマーカの例を示す説明図である。
【0033】
図3(a)はヘッドセットを頭頂部側から見たものであり、紙面下方向が顔の正面の向きに一致している。ヘッドセットの支持バンドには、形状(傾斜)が異なる複数の切り込みが形成されており、切り込みの基端部はカメラ等に撮像された場合に目立つマーカが形成されている。図3(b)は顔(頭部)の向きがカメラに対して正面を向いている場合を示している。この場合にはヘッドセットの中央に形成された切り込みの基端部に設けたマーカのみが見えるようになっている。図3(c)は顔の向きがカメラに対して左30度(L30°)に向いた場合を示している。この場合には、例えば図3(c)の左から2番目の切り込みの基端部に形成されたマーカのみが見えるようになっている。方向検出部14は、ヘッドセットの支持部に形成されたいずれのマーカが見えたかによって、顔の方向を判定することができる。
【0034】
また、特開2001−320702号公報においては、ヘッドセットに赤外線の点滅パタン等により装置番号を表示する装置を装備する技術が開示されている。この技術を利用すれば、送出先識別部13は、会話相手の人物の顔画像を解析することなく、撮像された画像中の情報から会話相手が装着しているヘッドセットを直接識別して、装置番号を対応付けることができる。ヘッドセットに、装置番号を記載したタグを装備すれば、送出先識別部13は、同様に撮像された画像中の情報から、会話相手が装着しているヘッドセットを直接識別して、装置番号を対応付けることができる。送出先識別部13による識別結果は、方向検出部14等を介して音声変換部16に供給されるようになっている。
【0035】
音像制御部15は、入力された方向に応じた音像定位情報を生成して音声変換部16に出力する。音声変換部16は、音声入力部11から入力された音声を、音像定位情報に基づいて音像定位させた音声に変換した後、無線、赤外線等の通信路18を介して送出先識別部13によって指定された送出先の音声出力部17に出力するようになっている。
【0036】
次に、このように構成された実施の形態の動作について図4のフローチャート及び図5の説明図を参照して説明する。
【0037】
いま、複数の人物A,B,C,…がいずれも図1に示す音声送信装置10及び音声出力部17を装着しているものとする。各音声送信装置10は人物A,B,…が夫々装着しているTVカメラ9からの画像が供給されるようになっており、各TVカメラ9は、夫々人物A,B,…の顔の向きに連動して撮像方向が変化するようになっている。即ち、各TVカメラ9は、各人物A,B,…の顔の方向と同一の方向を撮像する。
【0038】
いま、例えば、人物Bが人物Aに音声を伝達しようとして、人物Aの方向を向くものとする。そうすると、人物Bが装着しているTVカメラ9の撮像方向も人物Aの方向となり、このTVカメラ9は人物Aを撮像する。なお、この場合において、例えば人物Cが人物Aに隣接した位置に位置する場合には、人物Bが装着しているカメラ9によって、人物A及び人物Cの二人が撮像される。
【0039】
なお、TVカメラ9を、聞き手である人物Aの存在しうる方向を広い角度で撮像するように設定し、人物Aが接近することによって、画像入力部12が人物Aを撮像した状態と判断するようにしてもよい。
【0040】
人物Bは、図4のステップS31において、人物Aに伝達する音声を入力する。音声送信装置10は、人物Aの撮像画像に基づいて送信する音声に音像を付与する。画像による音像定位情報の更新は、一定周期毎に行う。ステップS32では、更新時刻の判定が行われる。更新時刻になった場合にのみ、画像による音像定位情報の更新処理が行われる。一方、更新時刻以外の場合は、画像情報の更新処理は行われず、ステップS38へ移行する。
【0041】
即ち、更新時刻に到達すると、処理がステップS32からステップS33に移行して、画像入力が行われる。人物Bの音声送信装置10内の画像入力部12は、人物Bが装着しているTVカメラ9からの画像を取り込む。ステップS34において、送出先識別部13は、画像入力部12によって取り込まれた画像から、人物Aが装着している音声出力部17を識別する。なお、取り込んだ画像に人物Cが撮像されている場合には、人物Cが装着している音声出力部17についても識別が行われる。
【0042】
こうして、送出先識別部13によって、音声信号の送出先が決定される。即ち、複数の送出先装置(音声出力部17)が存在している場合でも、送出先識別部13によって識別された送出先にのみ音声を送出する。送出先識別部13において複数の送出先装置が識別された場合には、単一の入力音声に対して送出先の数に合わせた多重化が行われて、各送出先毎に、夫々音像定位情報が付与された音声信号が出力される。
【0043】
即ち、先ず、送出先識別部13によって識別済みの各送出先(音声出力部17)を装着している人物A(,C)について、次のステップS36において、顔の方向が検出される。この検出結果は音像制御部15に出力される。音像制御部15は、人物A(,C)の顔の向きに応じた音像定位情報を生成して、音声変換部16に出力する(ステップS37)。
【0044】
図5は音像定位情報の生成方法を説明するためのものである。図5(a)は撮像方向を示し、図5(b)は顔方向を示している。
【0045】
いま、人物Bの方向から見た人物Aの顔の方向が方向検出部14において検出され、図5(a)に示すように、例えば左30度、上15度だとすると、これは、人物Aから見た人物Bの方向、即ち人物Aの顔の正面を基準とした人物Bの方向が、図5(b)に示すように、右30度、下15度であることを意味する。
【0046】
人物Bが装着している音声送信装置10の音像制御部15は、検出された人物Aの顔の方向に従って求められた人物Aの顔の正面を基準とした人物Bの方向を、人物Aへ送出する人物Bの音声の音像定位情報として生成する。
【0047】
ステップS35において、全ての識別済み送出先の処理が終了したことを検出すると、音像定位情報の更新処理を終了して、処理をステップS38に戻す。
【0048】
次のステップS39において、送出先識別部13によって識別済みの送出先の各々について、音声変換部16は、音像定位情報に従った音声の変換を行う。こうして、各送出先毎に音像が付与された音声信号が生成される。
【0049】
即ち、音声変換部16は、音像定位情報に従って、音声入力部11より入力された人物Bの音声を変換する。図5の例では、音声変換部16は、左右の音声レベル制御により右30度に定位させるか、左右の位相差や頭部音響伝達関数等を使用した3次元音響処理により右30度、上15度に定位させる。
【0050】
音像が付与された音声信号は、音声変換部16から各音声出力部17に送信される。即ち、人物Bが装着している音声送信装置10内の音声変換部16は、先ず、人物Aの音声出力部17に対して入力音声に基づく音声信号を送信する。次に、ステップS38に処理を戻して、ステップS39,S40を実行することで、入力音声に基づく音声信号を人物Cの音声出力部17にも送信する。
【0051】
変換された音声は、人物Aが使用している装置へ送出される。人物Aが装着している音声出力部17のヘッドセットからは、現在の人物Bが位置する実際の方向に音像が定位した音声が出力される。即ち、人物Aは、人物Bの位置から音声が聞こえた感じを持つことになる。音声出力部17のヘッドセットは、複数の音声送信装置10に対応して動作することもでき、それぞれの音声送信装置について生成された、音像定位した音声を混合して出力する。これにより、人物Aに複数の人物が同時に話しかけた場合でも、人物Aは話しかけた各人物の実際の方向に音像が定位した音声を聞くことができる。
【0052】
ステップS38において、全ての識別済み送出先についての送信処理が終了すると、処理をステップS31に戻して、再び音声の入力が行われる。
【0053】
このように、本実施の形態においては、会話の送信者が音像を付与した音声信号を受信者に送信しており、受信者は自分の顔の向きに拘わらず、常に実際に話し相手が存在する位置の方向に音像が定位した音声出力を得ることができる。この場合において、送信者は受信者方向に向きながら受信者を撮像することによって音像定位情報を得ている。即ち、撮像方向と音像方向とを一致させていることから、相手の顔の向きのみを検出するという極めて簡単な方法によって音像定位情報を得ることができる。従って、予め音源位置を測定したり、使用開始の度に調整を行わずに、頭の向きによらず、視覚と合致した一定の方向に音像を定位させる制御を、極めて簡単な構成で行うことができる。
【0054】
なお、上記実施の形態においては、送出先識別部13及び方向検出部14の代表的な実現方法を用いて説明を行ったが、これらの実現手段はここで説明した方法に限られないことは明らかである。
【0055】
図6は本発明の第2の実施の形態を示すブロック図である。図6において図1と同一の構成要素には同一符号を付して説明を省略する。
【0056】
本実施の形態は、送信者側において、入力音声の情報と音像定位情報とを含む音声情報を伝送し、受信者側において、入力された音声の情報と音像定位情報とから、音像が付与された音声信号を作成して音響出力するようにしたものである。
【0057】
即ち、音声送信装置20は、音声変換部16に代えて音声情報送信部28を採用した点が図1の音声送信装置10と異なる。音声情報送信部28は、音声入力部11が取り込んだ音声の情報とこの音声の情報を伝達する相手の顔の向きに応じて生成された音像定位情報とを含む音声情報を、送出先識別部13によって指定された送信先に送信するようになっている。
【0058】
音声送信装置20と音声情報受信部29とは、無線等の通信路18によって接続されている。
【0059】
音声情報受信部29は通信路18を介して伝送された音声情報を受信する。音声情報受信部29は受信した音声情報を音声変換部26に出力する。音声変換部26は、入力された音声情報から音声定位情報を取り出し、この音声定位情報に基づいて入力された音声の情報を変換して、音像が付加された音声信号を得る。この音声信号は音声出力部27に供給される。音声出力部27は、例えば、ヘッドセットによって構成されており、入力された音声信号を可聴化処理し、可聴音声を音響出力するようになっている。
【0060】
このように構成された実施の形態においても図4と同様のフローが採用される。送信側においては、音像定位情報と、入力音の情報とを含む音声情報を出力し、受信側において、音像が付加された音声信号を再生する点が図4と異なるのみである。
【0061】
即ち、送信元である人物Bが装着している音声送信装置20は、TVカメラ9からの画像を取り込むことにより、会話の相手の顔の向きを検出し、音像定位情報を得る。音声情報送信部28は、入力された音声の情報と音声定位情報とを含む音声情報を、送信相手先に送信する。
【0062】
一方、送信相手先の人物Aが装着している音声受信部29においては、入力された音声情報を音声変換部26に出力する。音声変換部26は、音像定位情報に従って、入力された音声を変換する。例えば、図5の例では、音声変換部26は、左右の音声レベル制御により右30度に定位させるか、左右の位相差や頭部音響伝達関数等を使用した3次元音響処理により右30度、上15度に定位させる。
【0063】
変換された音声は、人物Aが装着している音声出力部27のヘッドセットに出力され、ヘッドセットでは、音源の位置から音声が聞こえる。音声出力部27のヘッドセットは、複数の音声送信制御装置20に対応して動作することもでき、それぞれの音声送信装置について生成された、音像定位した音声を混合して出力する。
【0064】
このように、本実施の形態においても第1の実施の形態と同様の効果を得ることができる。なお、第2の実施の形態においては、受信側に、音声情報受信部29、音声変換部26及び音声出力部27の全てを含むものとして説明したが、音声変換部26が音声出力部27との間で無線等による通信が可能である場合には、音声情報受信部29及び音声変換部26は、いずれの位置に配置されていてもよい。
【0065】
なお、上記各実施の形態においては、音声の送信者(話し手)自身が受信者(聞き手)の顔を撮像する構成とした。この場合において、TVカメラ9は、使用者に装着されているものとして説明したが、使用者が手に保持するようにしてもよく、ウェアラブルの装置とする必要はない。
【0066】
また、音声の送信者が人物であるものとして説明したが、パソコンやステレオセット等であってもよい。このとき、音声入力部11は、パソコンやステレオセット等の音声出力装置における音声出力段に位置し、パソコン内部の処理で発生する音声や、ネットワークで接続された他のコンピュータから受信した音声データ等を再生する音声、チューナやCD(コンパクトディスク)プレーヤ等の外部装置から入力された音声や、増幅、調整等の処理を行った後の音声等が、音声送信装置の入力として扱われるようにすればよく、TVカメラ9をこれらの音声出力装置に内蔵、又はこれらの音声出力装置の近傍に配置して、音声出力方向を撮像するようにすればよいことは明らかである。また、このとき、音声出力装置とTVカメラ9の設置位置の間の距離は、受信者において認識される音声の送信元の位置の誤差として、本発明の効果の程度に影響を及ぼすが、許容される誤差の大きさに合致した距離内にTVカメラ9を配置すればよいことは明らかである。更に、実際の音声出力装置の位置に限らず、受信者に音声の送信元として認識させたい場所近傍にTVカメラ9を設置することで、受信者に対して音声の送信元を容易に設定することも可能である。また、例えば、送信側の人物や受信側の人物が椅子に腰掛けている場合のように、送受信者の位置を特定することができる場合には、送信者とは異なる位置から受信者の顔を撮像してその顔の向きを検出した場合でも、送信者の位置に一致した音像を音声に付与することができることも明らかである。
【0067】
図7は本発明の第3の実施の形態を示すブロック図である。図7において図1と同一の構成要素には同一符号を付して説明を省略する。
【0068】
本実施の形態は音像制御を行わず、撮像画像に基づいて音声伝送を制御するものに適用した例である。
【0069】
本実施の形態は方向検出部14及び音像制御部15を省略すると共に、音声変換部18に代えて送信制御部52を備えた音声出力装置51を採用した点が第1の実施の形態と異なる。
【0070】
送出先識別部13は、撮像画像に基づいて送出先を識別し、識別結果を送信制御部52に出力するようになっている。送信制御部52は音声入力部11からの音声信号を、送出先識別部13の識別結果に基づく送信先のみに送信するようになっている。なお、送信制御部52は、送出先識別部13によって送信先が識別されなかった場合には、音声信号の送信を抑制するようになっている。
【0071】
このように構成された実施の形態においても、画像入力部12は、音声の送信元近傍に設置されたTVカメラ9によって撮像された会話相手の画像信号を送出先識別部13に供給する。これにより、送出先識別部13は、予め登録された会話の相手を比較的簡単に識別し、その相手が装着しているヘッドセットを特定することができる。
【0072】
次に、このように構成された実施の形態の動作について図8のフローチャートを参照して説明する。
【0073】
いま、複数の人物A,B,C,…がいずれも図7に示す音声送信装置51及び音声出力部17を装着しているものとする。各音声送信装置51は人物A,B,…が夫々装着しているTVカメラ9からの画像が供給されるようになっており、各TVカメラ9は、夫々人物A,B,…の顔の向きに連動して撮像方向が変化するようになっている。即ち、各TVカメラ9は、各人物A,B,…の顔の方向と同一の方向を撮像する。
【0074】
いま、例えば、人物Bが人物Aに音声を伝達しようとして、人物Aの方向を向くものとする。そうすると、人物Bが装着しているTVカメラ9の撮像方向も人物Aの方向となり、このTVカメラ9は人物Aを撮像する。なお、この場合において、例えば人物Cが人物Aに隣接した位置に位置する場合には、人物Bが装着しているカメラ9によって、人物A及び人物Cの二人が撮像される。また、人物Aが装着しているTVカメラ9では人物Bが撮像されるが、人物Cは撮像されない。
【0075】
なお、TVカメラ9を、聞き手である人物Aの存在しうる方向を広い角度で撮像するように設定し、人物Aが接近することによって、画像入力部12が人物Aを撮像した状態と判断するようにしてもよい。
【0076】
人物Bは、図8のステップS31において、人物Aに伝達する音声を入力する。音声送信装置51は、人物Aの撮像画像に基づいて送信する音声の制御を行う。画像による制御情報の更新は、一定周期毎に行う。ステップS32では、更新時刻の判定が行われる。更新時刻になった場合にのみ、画像による制御情報の更新処理が行われる。一方、更新時刻以外の場合は、画像による制御情報の更新処理は行われず、ステップS38へ移行する。
【0077】
即ち、更新時刻に到達すると、処理がステップS32からステップS33に移行して、画像入力が行われる。人物Bの音声送信装置51内の画像入力部12は、人物Bが装着しているTVカメラ9からの画像を取り込む。ステップS34において、送出先識別部13は、画像入力部12によって取り込まれた画像から、人物Aが装着している音声出力部17を識別する。なお、取り込んだ画像に人物Cが撮像されている場合には、人物Cが装着している音声出力部17についても識別が行われる。
【0078】
こうして、送出先識別部13によって、音声信号の送出先が決定される。即ち、複数の送出先装置(音声出力部17)が存在している場合でも、送出先識別部13によって識別された送出先にのみ音声を送出する。送出先識別部13において複数の送出先装置が識別された場合には、単一の入力音声に対して送出先の数に合わせた多重化が行われて、各送出先毎に、夫々音声信号が出力される。
【0079】
識別処理が終了すると、処理をステップS38に戻す。
【0080】
次のステップS40において、送出先識別部13によって識別済みの送出先の各々について、音声信号は各音声出力部17に送信される。即ち、人物Bが装着している音声送信装置51内の送信制御部52は、先ず、人物Aの音声出力部17に対して入力音声に基づく音声信号を送信する。次に、ステップS38に処理を戻して、ステップS40を実行することで、入力音声に基づく音声信号を人物Cの音声出力部17にも送信する。
【0081】
ステップS38において、全ての識別済み送出先についての送信処理が終了すると、処理をステップS31に戻して、再び音声の入力が行われる。
【0082】
人物Aの音声送信装置51においては同様に、人物Bの音声出力部17のみへ人物Aの音声信号を送信する。
【0083】
音声出力部17のヘッドセットは、複数の音声送信装置51に対応して動作することもでき、それぞれの音声送信装置の音声を混合して出力する。これにより、人物Bは人物A及び人物Cの両方の音声を聞くことができる。
【0084】
このように、本実施の形態においては、利用者は予め切り替えることなく、会話相手の音声を得ることができる。この場合において、音声の送信元の近傍に設置されたTVカメラ9によって受信者を撮像し、識別することによって、受信者から送信元が見えるかどうかに対応する制御情報を得ている。即ち、撮像方向と音像方向とを一致させていることから、画像から会話相手を検出するという極めて簡単な方法によって、音声信号の適切な送出制御が可能となる。
【0085】
なお、本実施の形態においては、音像制御を行っていないので、会話相手の音声出力部17をヘッドセットによって構成する必要はなく、例えば、スピーカによって構成してもよい。
【0086】
また、本実施の形態においては、送信先識別部13が識別した送信先にのみ音声信号を送信し、他の送信先への送信を抑制する制御を行っているが、完全に抑制する代わりに、識別されなかった送信先において出力される音量を減少させる等、送信元において送出する音声信号を変換したり、送信先において受信された音声信号を変換したりしてもよい。
【0087】
また、本実施の形態においては、TVカメラ9は、使用者に装着されているものとして説明したが、使用者が手に保持するようにしてもよく、ウェアラブルの装置とする必要はない。また、音声の送信者が人物であるものとして説明したが、パソコンやステレオセット等であってもよい。
【0088】
【発明の効果】
以上説明したように本発明によれば、頭部に装着して使用するヘッドセット等を用いて音声の伝達を行う場合に、煩雑な設定を行うことなく、実際の音源方向に一致した方向に音像を定位させることができるという効果を有する。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態に係る音声伝送装置を示すブロック図。
【図2】特徴量の例を示す説明図。
【図3】ヘッドセットに付すマーカの例を示す説明図。
【図4】第1の実施の形態の動作を説明するためのフローチャート。
【図5】第1の実施の形態の動作を説明するための説明図。
【図6】本発明の第2の実施の形態を示すブロック図。
【図7】本発明の第3の実施の形態を示すブロック図。
【図8】第3の実施の形態の動作を説明するためのフローチャート。
【符号の説明】
9…TVカメラ、10…音声送信装置、11…音声入力部、12…画像入力部、13…送出先識別部、14…方向検出部、15…音像制御部、16…音声変換部、17…音声出力部、18…通信路、20…音声送信装置、26…音声変換部、27…音声出力部、28…音声情報送信部、29…音声情報受信部、51…音声送信装置、52…送信制御部。
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an audio transmission device, an audio transmission method, and a program suitable for a headset or the like that is worn on the head.
[0002]
[Prior art]
Conventionally, there are acoustic systems that realize two-dimensional or three-dimensional sound by using two speakers. Multidimensional sound can be realized by performing signal processing that takes into account the difference in sound level between two ears, the phase difference of sound, the head acoustic transfer function, etc., and using such a multidimensional sound system Thus, a two-dimensional or three-dimensional sound image that can identify the direction of the sound source can be obtained.
[0003]
Since such a multidimensional sound system can localize a sound image, it can reproduce sound realistically and is effective in various applications. In addition, in a multi-dimensional sound system, a headset that is worn on the head for use because the positional relationship between the ear and the speaker is fixed and that each individual can listen to the sound alone. May be adopted.
[0004]
For a user wearing a headset, when sound is output by a multidimensional sound system, the identified sound image is felt in a certain direction with respect to the head. Thus, the user has a feeling that the sound can be heard from each of the upper and lower sides, the front and rear, and the left and right directions, which is extremely effective in increasing the presence.
[0005]
[Problems to be solved by the invention]
However, since the sound image changes depending on the orientation of the headset, the sound image that the multidimensional sound system wants to feel for a specific individual can be matched with the sound image that the specific individual actually feels. Not exclusively. For example, it is assumed that a multi-dimensional sound system is employed in a movie theater, particularly a theater having a screen all around. In this case, assuming that the user's head is always pointing in a specific direction, the image of the specific position that the user should visually recognize on the screen and the sound having the position as the sound source are transmitted to the user. You can feel it. However, if the orientation of the head changes, the position of the video and the sound that uses that position as the sound source will be perceived as being shifted.
[0006]
For example, if there is a sound image at a video position on the screen behind the user, even if the user turns around to the sound image side, the sound image is still located behind the user.
[0007]
In addition, for example, even when a plurality of users at relatively distant positions have a conversation using a headset using a multidimensional sound system, the orientation of each user's head changes, There arises a problem that the actual position of the other party is shifted from the sound image.
[0008]
As described above, when a sound source is present in a visually recognizable place, there is a problem that the direction of the sound image and the visually recognizable place is deviated when the direction of the worn head changes. It was.
[0009]
In order to cope with such a problem, a method of correcting the direction of the sound image by detecting the movement of the head or the change of the head direction and localizing the sound image in a certain direction can be considered. However, since it is necessary to measure and adjust the reference initial state every time it is started to use, and errors in detecting the amount of change accumulate, it is always possible to control the sound image so that it matches the actual direction. It is extremely difficult.
[0010]
When presenting sounds from a plurality of sound sources, the positions of the plurality of sound sources are measured in advance separately from the detection of the head orientation, or two-dimensional or three-dimensional based on the positional relationship of the plurality of sound sources. It was necessary to create voice information in advance.
[0011]
For this reason, it is extremely difficult to realize two-dimensional or three-dimensional sound that appropriately reflects the actual positional relationship in applications where a plurality of movable people communicate with each other by voice. It was.
[0012]
The present invention can localize a sound image in a direction corresponding to an actual sound source direction without performing complicated settings when transmitting sound using a headset or the like worn on the head. A first object is to provide an audio transmission device, an audio transmission method, and a program.
[0013]
In addition, the present invention provides voice transmission so as to appropriately select a conversation partner or prevent other unnecessary voice transmission in a case where a plurality of movable people communicate with each other by voice. A second object is to provide an audio transmission device, an audio transmission method, and a program that can be controlled.
[0014]
[Means for Solving the Problems]
An audio transmission apparatus according to claim 1 of the present invention includes an audio input unit that captures audio to be transmitted from a transmission source to a transmission destination; At the source An image input unit that captures an image obtained by capturing an audio transmission destination, a direction detection unit that analyzes the captured image and detects the direction of the face of the voice transmission destination person, and a detection result of the direction detection unit. A sound image localization information generating unit that generates sound image localization information corresponding to a direction toward the transmission source on the basis of the front of the face of the transmission destination person, and the sound captured by the audio input unit as the sound image localization information An audio conversion unit that converts an audio signal localized based on the sound image, and an audio transmission unit that transmits the audio signal converted by the audio conversion unit to the transmission destination,
An audio transmission apparatus according to claim 2 of the present invention includes an audio input unit that takes in audio to be transmitted from a transmission source to a transmission destination on the transmission side; At the source An image input unit that captures an image obtained by capturing an audio transmission destination, a direction detection unit that analyzes the captured image and detects the direction of the face of the voice transmission destination person, and a detection result of the direction detection unit. A sound image localization information generating unit that generates sound image localization information corresponding to a direction from the front of the face of the transmission destination person to the transmission source, information of the audio captured by the audio input unit, and the sound image localization information An audio transmission unit that transmits the information to the transmission destination, and on the reception side, a reception unit that receives information transmitted by the audio transmission unit, and audio information captured by the reception unit as the sound image localization information And a sound conversion unit that converts the sound signal into a sound signal that is localized based on the sound image.
[0015]
In claim 1 of the present invention, the voice input unit captures voice to be transmitted from the transmission source to the transmission destination. The image input unit captures an image obtained by capturing an audio transmission destination. The direction detection unit detects the direction of the face of the person to whom the voice is transmitted by analyzing the captured image. Based on the detection result, the sound image localization information generating unit generates sound image localization information corresponding to the direction to the transmission source with reference to the front of the face of the transmission destination person. The voice conversion unit converts the voice captured by the voice input unit into a voice signal that is localized based on the sound image localization information. The converted audio signal is transmitted to the transmission destination by the audio transmission unit. The transmitted audio signal gives the destination person a sound whose sound image is localized in the direction in which the source person is actually located with respect to the front direction of the face.
[0016]
In the second aspect of the present invention, on the transmission side, a voice to be transmitted from the transmission source to the transmission destination is captured by the voice input unit, and an image obtained by capturing the voice transmission destination is captured by the image input unit. The direction detection unit detects the direction of the face of the person to whom the voice is transmitted by analyzing the captured image. Based on the detection result, the sound image localization information generating unit generates sound image localization information corresponding to the direction to the transmission source with reference to the front of the face of the transmission destination person. The captured audio information and sound image localization information are transmitted to the transmission destination by the audio transmission unit. On the other hand, on the receiving side, information is received by the receiving unit. The sound conversion unit converts the sound information captured by the receiving unit into a sound signal that has been subjected to sound image localization based on the sound image localization information. This audio signal gives the destination person a sound in which the sound image is localized in the direction in which the source person is actually located with respect to the front direction of the face.
[0017]
According to a tenth aspect of the present invention, the identification means identifies an audio transmission destination by capturing an image obtained by capturing the audio transmission destination. The transmission control unit transmits the voice captured by the voice input unit only to the transmission destination based on the identification result of the identification unit.
[0018]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. FIG. 1 is a block diagram showing an audio transmission apparatus according to the first embodiment of the present invention.
[0019]
This embodiment shows an example in the case of using it for conversation between a plurality of movable humans. In this embodiment, sound image localization information that gives a sound image that correctly indicates the position of the person relative to the direction of the head of the opponent by detecting the direction of the face of the opponent with each person facing the partner of the conversation. In other words, the sound image of the sound signal is converted based on the sound image localization information and then transmitted.
[0020]
In FIG. 1, the audio transmission device 10 and the audio output unit 17 are connected by a communication path 18 such as a radio that transmits an audio signal. The voice transmitter 10 is worn by the voice sender, and the voice output unit 17 is worn by the voice receiver. Therefore, when performing a conversation, each person needs to wear both the voice transmitting device 10 and the voice output unit 17.
[0021]
The voice transmitting apparatus 10 generates a voice signal in which a sound image is localized toward a person wearing the voice transmitting apparatus 10 with respect to a conversation partner. The audio output unit 17 performs an audible process on the audio signal output from the audio transmission device 10 worn by the conversation partner, and acoustically outputs an audible sound.
[0022]
The voice input unit 11 of the voice transmission device 10 takes in the voice information to be transmitted. For example, the voice input unit 11 includes a microphone that captures voice uttered by the user. The voice input unit 11 supplies the captured voice information to the voice conversion unit 16.
[0023]
The image input unit 12 captures a captured image of a voice information transmission destination (conversation partner). For example, an image signal from the TV camera 9 is input to the image input unit 12. In the present embodiment, the TV camera 9 is attached to the user, and can capture an image of a subject whose orientation matches the orientation of the user's head. The image input unit 12 outputs the captured image taken from the TV camera 9 to the transmission destination identification unit 13 and the direction detection unit 14.
[0024]
The destination identification unit 13 analyzes the face image of the conversation partner included in the captured image based on the output of the image input unit 12, identifies the conversation partner registered in advance, and the partner wears it. Identify the headset you have.
[0025]
Based on the output of the image input unit 12, the direction detection unit 14 analyzes the head image of the conversation partner included in the captured image and detects the direction of the face (head). As a technique for detecting the direction of a person's face based on a person's head image captured by the image input unit 12, there is one disclosed in Japanese Patent Laid-Open No. 10-260772.
[0026]
The proposed technique performs feature point extraction processing such as eyes and nose, face region segmentation processing based on feature points, face region normalization, etc. on the input head image, and then facial brightness. (Tint value) or the like is used as a feature amount.
[0027]
FIG. 2 is an explanatory diagram showing an example of the feature amount. FIG. 2 shows the brightness of the image by shading. An image 41 in FIG. 2 shows the feature amount when the face is imaged from the front. The feature points of both eyes and nostrils are darker than the other portions, and the approximate position and shape are characteristically shown. Has been.
[0028]
On the other hand, the position of both eyes of the image 42 is the same as that of the front image 41, but the position of the nostril is closer to the left side of the imaging region. That is, the image 42 shows a rightward image when the face is facing the right with respect to the TV camera 9. Similarly, the image 43 is a leftward image.
[0029]
Also, the image 44 is an upward image because both eyes are narrower in the vertical direction, the nostrils are thicker, and the whole is brighter than the image 41. Conversely, the image 45 is thicker in the vertical direction and both eyes Since the hole is thin and dark overall, the image is downward. Thus, the orientation of the face (head) can be detected by using the feature amount.
[0030]
The direction detection unit 14 can also refer to calibration information such as a three-dimensional position of a face feature point registered in advance for a person corresponding to the destination identified by the destination identification unit 13. The result of detecting the direction of the face of the conversation partner by the direction detection unit 14 is output to the sound image control unit 15.
[0031]
For example, the audio output unit 17 can be configured by a headset. In this case, the audio output unit 17 always changes in conjunction with the orientation of the face (head) of the person wearing and using it. Therefore, for example, by attaching a marker serving as a clue for identifying the direction to the headset constituting the audio output unit 17, the direction detection unit 14 performs detailed analysis of the head image using the feature amount of FIG. It is possible to detect the orientation of the face (head) of the conversation partner without having to do.
[0032]
FIG. 3 is an explanatory view showing an example of a marker attached to the headset.
[0033]
FIG. 3 (a) is a view of the headset from the top of the head, and the downward direction in the drawing corresponds to the direction of the front of the face. The support band of the headset is formed with a plurality of cuts having different shapes (tilts), and a marker that stands out when captured by a camera or the like is formed at the base end of the cut. FIG. 3B shows a case where the face (head) is facing the front with respect to the camera. In this case, only the marker provided at the base end of the cut formed in the center of the headset is visible. FIG. 3C shows a case where the face is directed to the left 30 degrees (L30 °) with respect to the camera. In this case, for example, only the marker formed at the base end of the second cut from the left in FIG. 3C is visible. The direction detection unit 14 can determine the direction of the face depending on which marker formed on the support unit of the headset is seen.
[0034]
Japanese Patent Application Laid-Open No. 2001-320702 discloses a technique in which a headset is equipped with a device that displays a device number using an infrared blinking pattern or the like. If this technology is used, the transmission destination identifying unit 13 directly identifies the headset worn by the conversation partner from the information in the captured image without analyzing the face image of the conversation partner person, Device numbers can be associated. If the headset is equipped with a tag describing the device number, the destination identifying unit 13 directly identifies the headset worn by the conversation partner from the information in the similarly captured image, and the device number Can be associated. The identification result by the transmission destination identification unit 13 is supplied to the voice conversion unit 16 via the direction detection unit 14 and the like.
[0035]
The sound image control unit 15 generates sound image localization information corresponding to the input direction and outputs the sound image localization information to the sound conversion unit 16. The voice conversion unit 16 converts the voice input from the voice input unit 11 into voice that has been localized based on the sound image localization information, and then the destination identification unit 13 via the communication path 18 such as wireless or infrared. The data is output to the audio output unit 17 of the designated destination.
[0036]
Next, the operation of the embodiment configured as described above will be described with reference to the flowchart of FIG. 4 and the explanatory diagram of FIG.
[0037]
Now, it is assumed that a plurality of persons A, B, C,... Are wearing the voice transmitting device 10 and the voice output unit 17 shown in FIG. Each audio transmission device 10 is supplied with images from the TV camera 9 on which the persons A, B,... Are attached, and each TV camera 9 has the faces of the persons A, B,. The imaging direction changes in conjunction with the direction. That is, each TV camera 9 images the same direction as the face direction of each person A, B,.
[0038]
Now, for example, it is assumed that the person B tries to transmit sound to the person A and faces the person A. Then, the imaging direction of the TV camera 9 worn by the person B is also the direction of the person A, and the TV camera 9 captures the person A. In this case, for example, when the person C is located at a position adjacent to the person A, the person A and the person C are imaged by the camera 9 worn by the person B.
[0039]
Note that the TV camera 9 is set to capture the direction in which the person A who is the listener can exist at a wide angle, and when the person A approaches, the image input unit 12 determines that the person A has been captured. You may do it.
[0040]
The person B inputs the sound transmitted to the person A in step S31 of FIG. The audio transmission device 10 adds a sound image to the audio to be transmitted based on the captured image of the person A. The sound image localization information by the image is updated at regular intervals. In step S32, the update time is determined. Only when the update time comes, update processing of the sound image localization information by the image is performed. On the other hand, if it is other than the update time, the image information update process is not performed and the process proceeds to step S38.
[0041]
That is, when the update time is reached, the process proceeds from step S32 to step S33, and image input is performed. The image input unit 12 in the voice transmission device 10 of the person B captures an image from the TV camera 9 worn by the person B. In step S <b> 34, the destination identification unit 13 identifies the audio output unit 17 worn by the person A from the image captured by the image input unit 12. When the person C is captured in the captured image, the audio output unit 17 attached to the person C is also identified.
[0042]
In this way, the transmission destination identification unit 13 determines the transmission destination of the audio signal. That is, even when there are a plurality of destination devices (audio output unit 17), the audio is transmitted only to the destination identified by the destination identification unit 13. When a plurality of destination devices are identified by the destination identification unit 13, multiplexing according to the number of destinations is performed for a single input voice, and sound image localization is performed for each destination. An audio signal to which information is added is output.
[0043]
That is, first, for the person A (, C) wearing each destination (audio output unit 17) that has been identified by the destination identification unit 13, the face direction is detected in the next step S36. This detection result is output to the sound image control unit 15. The sound image control unit 15 generates sound image localization information corresponding to the face orientation of the person A (, C), and outputs the sound image localization information to the sound conversion unit 16 (step S37).
[0044]
FIG. 5 is a diagram for explaining a method of generating sound image localization information. FIG. 5A shows the imaging direction, and FIG. 5B shows the face direction.
[0045]
Now, the direction of the face of the person A seen from the direction of the person B is Detected by the direction detector 14 As shown in FIG. 5 (a), for example, if it is 30 degrees left and 15 degrees above, this is the direction of person B viewed from person A, That is, the direction of person B with respect to the front of person A's face Means 30 degrees to the right and 15 degrees below, as shown in FIG.
[0046]
The sound image control unit 15 of the audio transmission device 10 worn by the person B follows the detected direction of the face of the person A. I was asked , The direction of person B relative to the front of person A's face is Sound image localization information of voice of person B sent to person A As Generate.
[0047]
When it is detected in step S35 that all the identified destinations have been processed, the sound image localization information update process is terminated, and the process returns to step S38.
[0048]
In the next step S39, for each destination identified by the destination identification unit 13, the voice conversion unit 16 performs voice conversion according to the sound image localization information. Thus, an audio signal to which a sound image is added for each destination is generated.
[0049]
That is, the voice conversion unit 16 converts the voice of the person B input from the voice input unit 11 according to the sound image localization information. In the example of FIG. 5, the sound conversion unit 16 is localized at 30 degrees to the right by left and right sound level control, or 30 degrees to the right by three-dimensional acoustic processing using left and right phase differences, head acoustic transfer functions, and the like. Localize at 15 degrees.
[0050]
The audio signal to which the sound image is added is transmitted from the audio conversion unit 16 to each audio output unit 17. That is, the voice conversion unit 16 in the voice transmission device 10 worn by the person B first transmits a voice signal based on the input voice to the voice output unit 17 of the person A. Next, the process is returned to step S38, and steps S39 and S40 are executed, so that a voice signal based on the input voice is also transmitted to the voice output unit 17 of the person C.
[0051]
The converted voice is sent to the device used by the person A. From the headset of the sound output unit 17 worn by the person A, sound in which the sound image is localized in the actual direction in which the current person B is located is output. That is, the person A has a feeling that the voice is heard from the position of the person B. The headset of the audio output unit 17 can also operate corresponding to the plurality of audio transmission devices 10, and mixes and outputs sound-localized audio generated for each audio transmission device. Thereby, even when a plurality of persons speak to the person A at the same time, the person A can hear the sound whose sound image is localized in the actual direction of each person who has spoken.
[0052]
In step S38, when the transmission process for all identified destinations is completed, the process returns to step S31, and voice is input again.
[0053]
As described above, in this embodiment, the sender of the conversation transmits an audio signal to which a sound image has been added to the receiver, and the receiver always has an actual conversation partner regardless of the direction of his / her face. An audio output in which the sound image is localized in the direction of the position can be obtained. In this case, the transmitter obtains sound image localization information by imaging the receiver while facing the receiver. That is, since the imaging direction and the sound image direction are matched, the sound image localization information can be obtained by a very simple method of detecting only the face direction of the opponent. Therefore, it is possible to control the sound image with a very simple configuration without measuring the sound source position in advance or making adjustments every time it is used, and regardless of the direction of the head. Can do.
[0054]
In the above-described embodiment, the description has been made by using typical implementation methods of the destination identification unit 13 and the direction detection unit 14, but these implementation means are not limited to the methods described here. it is obvious.
[0055]
FIG. 6 is a block diagram showing a second embodiment of the present invention. In FIG. 6, the same components as those in FIG.
[0056]
In this embodiment, sound information including input sound information and sound image localization information is transmitted on the sender side, and a sound image is given from the input sound information and sound image localization information on the receiver side. A voice signal is created and output as a sound.
[0057]
That is, the voice transmitting device 20 is different from the voice transmitting device 10 of FIG. 1 in that the voice information transmitting unit 28 is used instead of the voice converting unit 16. The audio information transmitting unit 28 transmits audio information including the audio information captured by the audio input unit 11 and the sound image localization information generated according to the direction of the face of the other party transmitting the audio information. 13 is transmitted to the destination specified by 13.
[0058]
The voice transmitting device 20 and the voice information receiving unit 29 are connected by a communication path 18 such as a wireless communication.
[0059]
The voice information receiving unit 29 receives voice information transmitted via the communication path 18. The voice information receiving unit 29 outputs the received voice information to the voice conversion unit 26. The audio conversion unit 26 extracts audio localization information from the input audio information, converts the input audio information based on the audio localization information, and obtains an audio signal to which a sound image is added. This audio signal is supplied to the audio output unit 27. The audio output unit 27 is configured by, for example, a headset, and performs an audible process on the input audio signal and outputs an audible sound as an acoustic signal.
[0060]
In the embodiment configured as described above, the same flow as in FIG. 4 is adopted. The transmitting side outputs sound information including sound image localization information and input sound information, and the receiving side is different from FIG. 4 in that the sound signal to which the sound image is added is reproduced.
[0061]
That is, the voice transmission device 20 worn by the person B who is the transmission source captures an image from the TV camera 9 to detect the direction of the face of the conversation partner and obtain sound image localization information. The audio information transmitting unit 28 transmits audio information including the input audio information and audio localization information to the transmission destination.
[0062]
On the other hand, the voice receiving unit 29 worn by the person A as the transmission destination outputs the input voice information to the voice conversion unit 26. The sound conversion unit 26 converts the input sound according to the sound image localization information. For example, in the example of FIG. 5, the sound conversion unit 26 is localized at 30 degrees to the right by left and right sound level control, or 30 degrees to the right by three-dimensional sound processing using left and right phase differences, head acoustic transfer functions, and the like. , And pan to 15 degrees above.
[0063]
The converted sound is output to the headset of the sound output unit 27 worn by the person A, and the sound can be heard from the position of the sound source in the headset. The headset of the audio output unit 27 can also operate corresponding to the plurality of audio transmission control devices 20, and mixes and outputs sound-localized audio generated for each audio transmission device.
[0064]
Thus, also in this embodiment, the same effect as that of the first embodiment can be obtained. In the second embodiment, the reception side has been described as including all of the audio information reception unit 29, the audio conversion unit 26, and the audio output unit 27. However, the audio conversion unit 26 is connected to the audio output unit 27. If the wireless communication or the like is possible, the audio information receiving unit 29 and the audio converting unit 26 may be arranged at any position.
[0065]
In each of the above-described embodiments, the voice sender (speaker) himself captures the face of the receiver (listener). In this case, the TV camera 9 has been described as being worn by the user. Holding in hand However, it is not necessary to use a wearable device.
[0066]
Further, although the description has been made assuming that the voice sender is a person, a personal computer, a stereo set, or the like may be used. At this time, the audio input unit 11 is located in an audio output stage of an audio output device such as a personal computer or a stereo set, and generates audio generated by processing inside the personal computer, audio data received from another computer connected via a network, etc. Audio, audio input from an external device such as a tuner or a CD (compact disc) player, audio after processing such as amplification and adjustment, and the like are handled as input to the audio transmission device. Obviously, the TV camera 9 may be built in these sound output devices or arranged in the vicinity of these sound output devices so as to capture the sound output direction. At this time, the distance between the audio output device and the installation position of the TV camera 9 affects the degree of the effect of the present invention as an error in the position of the audio transmission source recognized by the receiver. Obviously, the TV camera 9 may be arranged within a distance that matches the magnitude of the error to be made. Furthermore, not only the position of the actual audio output device but also the TV camera 9 is installed in the vicinity of a place where the receiver wants to recognize as the audio transmission source, thereby easily setting the audio transmission source for the receiver. It is also possible. In addition, for example, when the position of the sender / receiver can be specified as in the case where the person on the transmitting side or the person on the receiving side is sitting on the chair, the face of the receiver is determined from a position different from the sender. It is also clear that a sound image that matches the position of the sender can be added to the sound even when the face is detected by imaging.
[0067]
FIG. 7 is a block diagram showing a third embodiment of the present invention. In FIG. 7, the same components as those in FIG.
[0068]
The present embodiment is an example in which sound image control is not performed and audio transmission is controlled based on a captured image.
[0069]
The present embodiment is different from the first embodiment in that the direction detection unit 14 and the sound image control unit 15 are omitted, and an audio output device 51 including a transmission control unit 52 is used instead of the audio conversion unit 18. .
[0070]
The transmission destination identifying unit 13 identifies a transmission destination based on the captured image and outputs the identification result to the transmission control unit 52. The transmission control unit 52 transmits the audio signal from the audio input unit 11 only to the transmission destination based on the identification result of the transmission destination identification unit 13. In addition, the transmission control part 52 suppresses transmission of an audio | voice signal, when a transmission destination is not identified by the transmission destination identification part 13. FIG.
[0071]
Also in the embodiment configured as described above, the image input unit 12 supplies the image signal of the conversation partner captured by the TV camera 9 installed in the vicinity of the audio transmission source to the transmission destination identification unit 13. As a result, the destination identifying unit 13 can relatively easily identify the partner of the conversation registered in advance, and specify the headset worn by the partner.
[0072]
Next, the operation of the embodiment configured as described above will be described with reference to the flowchart of FIG.
[0073]
Now, it is assumed that a plurality of persons A, B, C,... Are wearing the audio transmission device 51 and the audio output unit 17 shown in FIG. Each audio transmission device 51 is supplied with an image from the TV camera 9 to which the persons A, B,... Are attached, and each TV camera 9 has the faces of the persons A, B,. The imaging direction changes in conjunction with the direction. That is, each TV camera 9 images the same direction as the face direction of each person A, B,.
[0074]
Now, for example, it is assumed that the person B tries to transmit sound to the person A and faces the person A. Then, the imaging direction of the TV camera 9 worn by the person B is also the direction of the person A, and the TV camera 9 captures the person A. In this case, for example, when the person C is located at a position adjacent to the person A, the person A and the person C are imaged by the camera 9 worn by the person B. The TV camera 9 worn by the person A captures the person B but does not capture the person C.
[0075]
Note that the TV camera 9 is set to capture the direction in which the person A who is the listener can exist at a wide angle, and when the person A approaches, the image input unit 12 determines that the person A has been captured. You may do it.
[0076]
The person B inputs the sound transmitted to the person A in step S31 of FIG. The audio transmission device 51 controls audio to be transmitted based on the captured image of the person A. The control information is updated by the image at regular intervals. In step S32, the update time is determined. Only when the update time is reached, update processing of control information using an image is performed. On the other hand, if it is other than the update time, the control information update process using the image is not performed, and the process proceeds to step S38.
[0077]
That is, when the update time is reached, the process proceeds from step S32 to step S33, and image input is performed. The image input unit 12 in the voice transmission device 51 of the person B captures an image from the TV camera 9 worn by the person B. In step S <b> 34, the destination identification unit 13 identifies the audio output unit 17 worn by the person A from the image captured by the image input unit 12. When the person C is captured in the captured image, the audio output unit 17 attached to the person C is also identified.
[0078]
In this way, the transmission destination identification unit 13 determines the transmission destination of the audio signal. That is, even when there are a plurality of destination devices (audio output unit 17), the audio is transmitted only to the destination identified by the destination identification unit 13. When a plurality of destination devices are identified by the destination identification unit 13, multiplexing according to the number of destinations is performed on a single input voice, and a voice signal is provided for each destination. Is output.
[0079]
When the identification process ends, the process returns to step S38.
[0080]
In the next step S40, the audio signal is transmitted to each audio output unit 17 for each of the transmission destinations identified by the transmission destination identifying unit 13. That is, the transmission control unit 52 in the audio transmission device 51 worn by the person B first transmits an audio signal based on the input audio to the audio output unit 17 of the person A. Next, the process is returned to step S38, and the audio signal based on the input voice is also transmitted to the voice output unit 17 of the person C by executing step S40.
[0081]
In step S38, when the transmission process for all identified destinations is completed, the process returns to step S31, and voice is input again.
[0082]
Similarly, the voice transmission device 51 of the person A transmits the voice signal of the person A only to the voice output unit 17 of the person B.
[0083]
The headset of the audio output unit 17 can also operate corresponding to the plurality of audio transmission devices 51, and mixes and outputs the audio of each audio transmission device. Thereby, the person B can hear the sound of both the person A and the person C.
[0084]
Thus, in this embodiment, the user can obtain the voice of the conversation partner without switching in advance. In this case, control information corresponding to whether or not the transmission source can be seen from the receiver is obtained by imaging and identifying the reception by the TV camera 9 installed in the vicinity of the transmission source of the audio. That is, since the imaging direction and the sound image direction are matched, it is possible to perform appropriate transmission control of the audio signal by a very simple method of detecting the conversation partner from the image.
[0085]
In the present embodiment, since sound image control is not performed, the voice output unit 17 of the conversation partner need not be configured by a headset, and may be configured by a speaker, for example.
[0086]
In the present embodiment, control is performed to transmit an audio signal only to the transmission destination identified by the transmission destination identification unit 13 and suppress transmission to other transmission destinations. The audio signal transmitted at the transmission source may be converted, or the audio signal received at the transmission destination may be converted, such as by reducing the volume output at the transmission destination that has not been identified.
[0087]
In the present embodiment, the TV camera 9 has been described as being worn by the user. Holding in hand However, it is not necessary to use a wearable device. Further, although the description has been made assuming that the voice sender is a person, a personal computer, a stereo set, or the like may be used.
[0088]
【The invention's effect】
As described above, according to the present invention, when audio is transmitted using a headset or the like that is worn on the head, the direction of the sound source coincides with the direction of the actual sound source without complicated settings. The effect is that the sound image can be localized.
[Brief description of the drawings]
FIG. 1 is a block diagram showing an audio transmission apparatus according to a first embodiment of the present invention.
FIG. 2 is an explanatory diagram illustrating an example of a feature amount.
FIG. 3 is an explanatory diagram showing an example of a marker attached to a headset.
FIG. 4 is a flowchart for explaining the operation of the first embodiment;
FIG. 5 is an explanatory diagram for explaining the operation of the first embodiment;
FIG. 6 is a block diagram showing a second embodiment of the present invention.
FIG. 7 is a block diagram showing a third embodiment of the present invention.
FIG. 8 is a flowchart for explaining the operation of the third embodiment;
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 9 ... TV camera, 10 ... Audio | voice transmission apparatus, 11 ... Audio | voice input part, 12 ... Image input part, 13 ... Transmission destination identification part, 14 ... Direction detection part, 15 ... Sound image control part, 16 ... Audio | voice conversion part, 17 ... Audio output unit, 18 ... communication path, 20 ... audio transmission device, 26 ... audio conversion unit, 27 ... audio output unit, 28 ... audio information transmission unit, 29 ... audio information reception unit, 51 ... audio transmission device, 52 ... transmission Control unit.

Claims (14)

送信元から送信先に対して送信する音声を取り込む音声入力部と、
前記送信元において音声の送信先を撮像した画像を取り込む画像入力部と、
前記撮像した画像を解析し、前記音声の送信先の人物の顔の方向を検出する方向検出部と、
前記方向検出部の検出結果に基づいて、前記送信先の人物の顔の正面を基準として前記送信元への方向に対応した音像定位の方向情報を生成する音像定位方向情報生成部と、
前記音声入力部が取り込んだ音声を前記音像定位の方向情報に基づいて音像定位させた音声信号に変換する音声変換部と、
前記音声変換部によって変換された音声信号を前記送信先に送信する音声送信部とを具備したことを特徴とする音声伝送装置。
An audio input unit for capturing audio to be transmitted from the transmission source to the transmission destination;
An image input unit that captures an image obtained by capturing an audio transmission destination at the transmission source;
A direction detection unit that analyzes the captured image and detects the direction of the face of the person to whom the audio is transmitted;
Based on the detection result of the direction detection unit, a sound image localization direction information generation unit that generates direction information of sound image localization corresponding to the direction to the transmission source based on the front of the face of the transmission destination person;
An audio conversion unit that converts the audio captured by the audio input unit into an audio signal that is localized based on the direction information of the sound image localization; and
An audio transmission apparatus comprising: an audio transmission unit that transmits the audio signal converted by the audio conversion unit to the transmission destination.
送信側において、
送信元から送信先に対して送信する音声を取り込む音声入力部と、
前記送信元において音声の送信先を撮像した画像を取り込む画像入力部と、
前記撮像した画像を解析し、前記音声の送信先の人物の顔の方向を検出する方向検出部と、
前記方向検出部の検出結果に基づいて、前記送信先の人物の顔の正面から前記送信元への方向に対応した音像定位の方向情報を生成する音像定位方向情報生成部と、
前記音声入力部が取り込んだ音声の情報と前記音像定位の方向情報とを前記送信先に送信する音声送信部とを具備し、
受信側において、
前記音声送信部が送信した情報を受信する受信部と、
前記受信部が取り込んだ音声の情報を前記音像定位の方向情報に基づいて音像定位させた音声信号に変換する音声変換部とを具備した
ことを特徴とする音声伝送装置。
On the sending side,
An audio input unit for capturing audio to be transmitted from the transmission source to the transmission destination;
An image input unit that captures an image obtained by capturing an audio transmission destination at the transmission source;
A direction detection unit that analyzes the captured image and detects the direction of the face of the person to whom the audio is transmitted;
And on the basis of the detection result of the direction detecting unit, the sound image localization direction information generation unit for generating a directional information of the sound image localization corresponding to the direction from the front face of the transmission destination of the person to the transmission source,
A voice transmission unit that transmits the voice information captured by the voice input unit and the direction information of the sound image localization to the transmission destination;
On the receiving side,
A receiver that receives information transmitted by the voice transmitter; and
An audio transmission device comprising: an audio conversion unit that converts audio information captured by the receiving unit into an audio signal that is localized based on the direction information of the sound image localization.
前記画像入力部は、前記送信元の近傍に配置されている撮像手段からの画像を取り込むことを特徴とする請求項1又は2のいずれか一方に記載の音声伝送装置。  The audio transmission apparatus according to claim 1, wherein the image input unit captures an image from an imaging unit arranged in the vicinity of the transmission source. 前記画像入力部は、前記送信元の人物に装着されている撮像手段からの画像を取り込むことを特徴とする請求項1又は2のいずれか一方に記載の音声伝送装置。  The audio transmission apparatus according to claim 1, wherein the image input unit captures an image from an imaging unit attached to the transmission source person. 前記画像入力部は、前記送信元の人物に装着され前記送信元の人物の顔の方向に一致した方向を撮像した撮像手段からの画像を取り込むことを特徴とする請求項1に記載の音声伝送装置。  2. The audio transmission according to claim 1, wherein the image input unit captures an image from an imaging unit that is attached to the transmission source person and captures a direction that coincides with a direction of the face of the transmission source person. apparatus. 前記画像入力部は、前記送信元の人物に装着され前記送信元の人物の顔の方向に一致した方向を撮像した撮像手段からの画像を取り込むことを特徴とする請求項2に記載の音声伝送装置。  The audio transmission according to claim 2, wherein the image input unit captures an image from an imaging unit that is attached to the transmission source person and captures a direction that coincides with the direction of the face of the transmission source person. apparatus. 前記音像定位方向情報生成部は、前記方向検出部の検出結果のみに基づいて前記音像定位の方向情報を生成することを特徴とする請求項3乃至6のいずれか1つに記載の音声伝送装置。The sound image localization direction information generation unit, the sound transmission apparatus according to any one of claims 3 to 6, characterized in that to generate the direction information of the sound image localization based on only the detection result of the direction detecting section . 前記撮像手段、前記音声入力部、前記画像入力部、前記方向検出部、前記音像定位の方向情報生成部、前記音声変換部及び前記音声送信部は、ウェアラブルに構成されて前記送信元の人物に装着されることを特徴とする請求項5に記載の音声伝送装置。The imaging means, the audio input unit, the image input unit, the direction detection unit, the sound image localization direction information generation unit, the audio conversion unit, and the audio transmission unit are configured in a wearable manner to the person who is the transmission source. The audio transmission device according to claim 5, wherein the audio transmission device is mounted. 前記撮像手段、前記音声入力部、前記画像入力部、前記方向検出部、前記音像定位方向情報生成部及び前記音声送信部は、ウェアラブルに構成されて前記送信元の人物に装着されることを特徴とする請求項6に記載の音声伝送装置。The imaging means, the audio input unit, the image input unit, the direction detection unit, the sound image localization direction information generation unit, and the audio transmission unit are configured to be wearable and attached to the transmission source person. The voice transmission device according to claim 6. 前記画像入力部が取り込んだ画像を解析し、前記音声の送信先を識別する識別手段と、
前記音声入力部が取り込んだ音声を前記識別手段の識別結果に基づく送信先のみに送信する送信制御手段とを具備したことを特徴とする請求項1又は2に記載の音声伝送装置。
An identification means for analyzing the image captured by the image input unit and identifying the transmission destination of the sound;
The voice transmission device according to claim 1, further comprising: a transmission control unit that transmits the voice captured by the voice input unit only to a transmission destination based on the identification result of the identification unit.
送信元から送信先に対して送信する音声を取り込む音声入力処理と、
前記送信元において音声の送信先を撮像した画像を取り込む画像入力処理と、
前記撮像した画像を解析し、前記音声の送信先の人物の顔の方向を検出する方向検出処理と、
前記方向検出処理の検出結果に基づいて、前記送信先の人物の顔の正面を基準として前記送信元への方向に対応した音像定位の方向情報を生成する音像定位方向情報生成処理と、
前記音声入力処理において取り込んだ音声を前記音像定位の方向情報に基づいて音像定位させた音声信号に変換する音声変換処理と、
前記音声変換処理によって変換された音声信号を前記送信先に送信する音声送信処理とを具備したことを特徴とする音声伝送方法。
Audio input processing for capturing audio to be transmitted from the transmission source to the transmission destination;
Image input processing for capturing an image obtained by capturing an audio transmission destination at the transmission source;
Analyzing the captured image and detecting a direction of the face of the person to whom the audio is transmitted; and
Sound image localization direction information generation processing for generating direction information of sound image localization corresponding to the direction to the transmission source based on the detection result of the direction detection processing based on the front of the face of the destination person; and
A voice conversion process for converting the voice captured in the voice input process into a voice signal having a sound image localized based on the direction information of the sound image localization;
An audio transmission method comprising: an audio transmission process for transmitting an audio signal converted by the audio conversion process to the transmission destination.
送信側において、
送信元から送信先に対して送信する音声を取り込む音声入力処理と、
前記送信元において音声の送信先を撮像した画像を取り込む画像入力処理と、
前記撮像した画像を解析し、前記音声の送信先の人物の顔の方向を検出する方向検出処理と、
前記方向検出処理の検出結果に基づいて、前記送信先の人物の顔の正面から前記送信元への方向に対応した音像定位の方向情報を生成する音像定位方向情報生成処理と、
前記音声入力処理において取り込んだ音声の情報と前記音像定位の方向情報とを前記送信先に送信する音声送信処理とを具備し、
受信側において、
前記音声送信処理において送信した情報を受信する受信処理と、
前記受信処理において取り込んだ音声の情報を前記音像定位の方向情報に基づいて音像定位させた音声信号に変換する音声変換処理とを具備した
ことを特徴とする音声伝送方法。
On the sending side,
Audio input processing for capturing audio to be transmitted from the transmission source to the transmission destination;
Image input processing for capturing an image obtained by capturing an audio transmission destination at the transmission source;
Analyzing the captured image and detecting a direction of the face of the person to whom the audio is transmitted; and
Sound image localization direction information generation processing that generates direction information of sound image localization corresponding to the direction from the front of the face of the person of the transmission destination to the transmission source based on the detection result of the direction detection processing;
A voice transmission process for transmitting the voice information captured in the voice input process and the direction information of the sound image localization to the transmission destination;
On the receiving side,
A reception process for receiving information transmitted in the voice transmission process;
An audio transmission method comprising: audio conversion processing for converting audio information captured in the reception processing into an audio signal that is localized based on the direction information of the sound image localization.
コンピュータに、
送信元から送信先に対して送信する音声を取り込む音声入力処理と、
前記送信元において音声の送信先を撮像した画像を取り込む画像入力処理と、
前記撮像した画像を解析し、前記音声の送信先の人物の顔の方向を検出する方向検出処理と、
前記方向検出処理の検出結果に基づいて、前記送信先の人物の顔の正面を基準として前記送信元への方向に対応した音像定位の方向情報を生成する音像定位方向情報生成処理と、
前記音声入力処理において取り込んだ音声を前記音像定位の方向情報に基づいて音像定位させた音声信号に変換する音声変換処理と、
前記音声変換処理によって変換された音声信号を前記送信先に送信する音声送信処理とを実行させるための音声伝送プログラム。
On the computer,
Audio input processing for capturing audio to be transmitted from the transmission source to the transmission destination;
Image input processing for capturing an image obtained by capturing an audio transmission destination at the transmission source;
Analyzing the captured image and detecting a direction of the face of the person to whom the audio is transmitted; and
Sound image localization direction information generation processing for generating direction information of sound image localization corresponding to the direction to the transmission source based on the detection result of the direction detection processing based on the front of the face of the destination person; and
A voice conversion process for converting the voice captured in the voice input process into a voice signal having a sound image localized based on the direction information of the sound image localization;
An audio transmission program for executing an audio transmission process of transmitting an audio signal converted by the audio conversion process to the transmission destination.
送信側のコンピュータに、
送信元から送信先に対して送信する音声を取り込む音声入力処理と、
前記送信元において音声の送信先を撮像した画像を取り込む画像入力処理と、
前記撮像した画像を解析し、前記音声の送信先の人物の顔の方向を検出する方向検出処理と、
前記方向検出処理の検出結果に基づいて、前記送信先の人物の顔の正面から前記送信元への方向に対応した音像定位の方向情報を生成する音像定位方向情報生成処理と、
前記音声入力処理において取り込んだ音声の情報と前記音像定位の方向情報とを前記送信先に送信する音声送信処理とを実行させ、
受信側のコンピュータに、
前記音声送信処理において送信した情報を受信する受信処理と、
前記受信処理において取り込んだ音声の情報を前記音像定位の方向情報に基づいて音像定位させた音声信号に変換する音声変換処理とを実行させるための音声伝送プログラム。
On the sending computer,
Audio input processing for capturing audio to be transmitted from the transmission source to the transmission destination;
Image input processing for capturing an image obtained by capturing an audio transmission destination at the transmission source;
Analyzing the captured image and detecting a direction of the face of the person to whom the audio is transmitted; and
Sound image localization direction information generation processing that generates direction information of sound image localization corresponding to the direction from the front of the face of the person of the transmission destination to the transmission source based on the detection result of the direction detection processing;
A voice transmission process for transmitting the voice information captured in the voice input process and the direction information of the sound image localization to the transmission destination;
On the receiving computer,
A reception process for receiving information transmitted in the voice transmission process;
An audio transmission program for executing an audio conversion process for converting audio information captured in the reception process into an audio signal having a sound image localized based on the direction information of the sound image localization.
JP2002171854A 2002-06-12 2002-06-12 Audio transmission apparatus, audio transmission method and program Expired - Fee Related JP3952870B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002171854A JP3952870B2 (en) 2002-06-12 2002-06-12 Audio transmission apparatus, audio transmission method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002171854A JP3952870B2 (en) 2002-06-12 2002-06-12 Audio transmission apparatus, audio transmission method and program

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2006162894A Division JP4327822B2 (en) 2006-06-12 2006-06-12 Audio transmission apparatus, audio transmission method and program

Publications (2)

Publication Number Publication Date
JP2004023180A JP2004023180A (en) 2004-01-22
JP3952870B2 true JP3952870B2 (en) 2007-08-01

Family

ID=31171605

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002171854A Expired - Fee Related JP3952870B2 (en) 2002-06-12 2002-06-12 Audio transmission apparatus, audio transmission method and program

Country Status (1)

Country Link
JP (1) JP3952870B2 (en)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4185019B2 (en) * 2004-05-13 2008-11-19 株式会社東芝 Display device with audio output
DE602006016175D1 (en) 2006-02-23 2010-09-23 Bosch Gmbh Robert MONITORING SYSTEM AND METHOD FOR MONITORING MULTIPLE PLACES
WO2010084769A1 (en) 2009-01-22 2010-07-29 パナソニック株式会社 Hearing aid
JP5697079B2 (en) * 2010-11-15 2015-04-08 独立行政法人情報通信研究機構 Sound reproduction system, sound reproduction device, and sound reproduction method
JP6769077B2 (en) * 2016-04-08 2020-10-14 いすゞ自動車株式会社 Face orientation identification device and face orientation identification method
EP3252491A1 (en) * 2016-06-02 2017-12-06 Nokia Technologies Oy An apparatus and associated methods
WO2021010562A1 (en) * 2019-07-15 2021-01-21 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2751166B2 (en) * 1987-10-26 1998-05-18 ソニー株式会社 Headphone equipment
JPH07264700A (en) * 1994-03-18 1995-10-13 Hitachi Ltd Sound image localization device
JPH1020997A (en) * 1996-07-08 1998-01-23 Canon Inc Display device
JPH10153946A (en) * 1996-11-25 1998-06-09 Mitsubishi Electric Corp Sensation information presenting device
JPH10230899A (en) * 1997-02-24 1998-09-02 Motoya Takeyama Man-machine interface of aerospace aircraft
JPH11146500A (en) * 1997-11-07 1999-05-28 Matsushita Electric Ind Co Ltd Sound signal reproducing device
JP3273017B2 (en) * 1998-04-13 2002-04-08 株式会社ナムコ Image synthesis device and virtual experience device using the same
JP2000102036A (en) * 1998-09-22 2000-04-07 Mr System Kenkyusho:Kk Composite actual feeling presentation system, composite actual feeling presentation method, man-machine interface device and man-machine interface method
JP2000277261A (en) * 1999-03-26 2000-10-06 Mitsubishi Materials Corp Luminescence display element
US6741273B1 (en) * 1999-08-04 2004-05-25 Mitsubishi Electric Research Laboratories Inc Video camera controlled surround sound
JP2001078162A (en) * 1999-09-08 2001-03-23 Sony Corp Communication equipment and method and recording medium
JP3273038B2 (en) * 1999-11-17 2002-04-08 株式会社ナムコ Virtual experience type game device
JP2001344352A (en) * 2000-05-31 2001-12-14 Toshiba Corp Life assisting device, life assisting method and advertisement information providing method
JP2003032776A (en) * 2001-07-17 2003-01-31 Matsushita Electric Ind Co Ltd Reproduction system

Also Published As

Publication number Publication date
JP2004023180A (en) 2004-01-22

Similar Documents

Publication Publication Date Title
US11825272B2 (en) Assistive listening device systems, devices and methods for providing audio streams within sound fields
EP2116102B1 (en) Wireless communication system and method
US9307331B2 (en) Hearing device with selectable perceived spatial positioning of sound sources
US6990211B2 (en) Audio system and method
EP2567551B1 (en) Methods for operating a hearing device as well as hearing devices
DK1530402T4 (en) Method of fitting a hearing aid taking into account the position of the head and a corresponding hearing aid
JP6193844B2 (en) Hearing device with selectable perceptual spatial sound source positioning
CN112544089B (en) Microphone device providing audio with spatial background
WO2018000764A1 (en) Method and device for automatic audio channel matching, and headphone
US20120114158A1 (en) Hearing assistance system
US11893997B2 (en) Audio signal processing for automatic transcription using ear-wearable device
JP3952870B2 (en) Audio transmission apparatus, audio transmission method and program
JP7070910B2 (en) Video conference system
EP2887695B1 (en) A hearing device with selectable perceived spatial positioning of sound sources
JP4327822B2 (en) Audio transmission apparatus, audio transmission method and program
CN110620982A (en) Method for audio playback in a hearing aid
JP2019096220A (en) Text information providing device and method
US20240221757A1 (en) Audio signal processing for automatic transcription using ear-wearable device
US20240098409A1 (en) Head-worn computing device with microphone beam steering
US20230000684A1 (en) Tactile Interface System
JP2002142299A (en) Hearing assisting device
CN114982255A (en) Hearing system for providing directionality to audio data and method of operating the same
JP2024034347A (en) Sound generation notification device and sound generation notification method
CN116723229A (en) Immersive remote audio transmission system and method

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060328

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060411

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060612

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061003

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061204

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20070130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070420

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070423

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110511

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110511

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120511

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120511

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130511

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130511

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140511

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees