JP4644555B2 - 映像音声合成装置及び遠隔体験共有型映像視聴システム - Google Patents

映像音声合成装置及び遠隔体験共有型映像視聴システム Download PDF

Info

Publication number
JP4644555B2
JP4644555B2 JP2005217247A JP2005217247A JP4644555B2 JP 4644555 B2 JP4644555 B2 JP 4644555B2 JP 2005217247 A JP2005217247 A JP 2005217247A JP 2005217247 A JP2005217247 A JP 2005217247A JP 4644555 B2 JP4644555 B2 JP 4644555B2
Authority
JP
Japan
Prior art keywords
video
viewer
audio
point
video content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005217247A
Other languages
English (en)
Other versions
JP2007036685A (ja
Inventor
伸行 八木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2005217247A priority Critical patent/JP4644555B2/ja
Publication of JP2007036685A publication Critical patent/JP2007036685A/ja
Application granted granted Critical
Publication of JP4644555B2 publication Critical patent/JP4644555B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

本発明は、複数の遠隔地にいる視聴者が、あたかも、テレビ番組等の映像コンテンツを居間等の同じ場所で視聴しているかのような臨場感を実現するための映像視聴技術に関する。
従来、映像を共有するシステムとして、多地点間テレビ会議システムが知られている。このテレビ会議システムでは、共有しているコンテンツを含め、多地点の映像をウィンドウに表示したり、同じ会議室にいるかのように複数の映像をCGを援用することでシームレスに接続して表示したりする方法がとられている。
例えば、特許文献1のテレビ会議システムは、会議室を仮想空間として扱い、参加者をCGモデルで表現し、そのモデルの移動等を明確にして合成及び配置するものである。これにより、各参加者が相手との位置関係を明確に把握しながら会議を行い、物理的距離を感じることなく同一空間で会議を行っている感覚を得ることができる。また、特許文献2のテレビ会議システムは、共存在空間を形成し、音声及び動き等の明示的情報に加えて、場によって得ることが可能な相手方との間(暗示的情報)も伝送するものである。
特開平11−289524号公報 特開2004−297766号公報
しかしながら、従来のテレビ会議システムは、映像コンテンツを鑑賞する用途には適していない。すなわち、同じ映像コンテンツを鑑賞している自分以外の視聴者の表情を確認するためには、その視聴者が表示されているウィンドウに視線を動かす必要がある。このため、映像コンテンツの鑑賞が妨げられ、鑑賞に集中することができないという問題があった。このように、従来のテレビ会議システムでは、複数の遠隔地にいる視聴者は、同じ場所で同一の映像コンテンツを視聴しているかのような臨場感を十分に得ることができなかった。
そこで、本発明は、かかる課題を解決するためになされたものであり、その目的は、複数の遠隔地にいる視聴者が、映像コンテンツを同じ場所で視聴しているかのような臨場感を得ることが可能な映像音声合成装置及び遠隔体験共有型映像視聴システムを提供することにある。
本発明による映像音声合成装置は、各地点の視聴者が時間同期して視聴可能な同一の映像コンテンツを受信し、予め画面上の表示位置が設定された各視聴者の映像を、前記映像コンテンツの映像に合成して表示すると共に、各視聴者の音声を、前記映像コンテンツの音声に合成して出力する映像音声合成装置であって、各視聴者の映像を同一の濃度になるように調整すると共に、各視聴者の映像における濃度の和が映像コンテンツの映像の濃度よりも小さくなるように、各視聴者の映像及び映像コンテンツの映像を調整し、該調整した各視聴者の映像及び映像コンテンツの映像を合成する映像処理部と、各視聴者の音声の大きさの和が映像コンテンツの音声の大きさよりも小さくなるように、各視聴者の音声及び映像コンテンツの音声を調整し、該調整した各視聴者の音声及び映像コンテンツの音声を合成する音声処理部とを備えたことを特徴とする。
また、本発明による映像音声合成装置は、前記映像処理部が、視聴者の映像を入力し、前記予め設定された視聴者の位置に基づいて、該視聴者の画面上のサイズ及び位置を幾何学変換する幾何学変換部と、該幾何学変換された各視聴者の映像を同一の濃度になるように調整すると共に、該各視聴者の映像における濃度の和が映像コンテンツの映像の濃度よりも小さくなるように、各視聴者の映像及び映像コンテンツの映像を調整するレベル調整部と、該レベル調整された各視聴者の映像及び映像コンテンツの映像を合成する合成部とを備え、前記音声処理部が、視聴者の音声を入力し、前記予め設定された視聴者の位置に基づいて、該視聴者の音声を音像定位させる音像定位移相部と、該音像定位された各視聴者の音声の大きさの和が、映像コンテンツの音声の大きさよりも小さくなるように、各視聴者の音声及び映像コンテンツの音声を調整するレベル調整部と、該レベル調整された各視聴者の音声及び映像コンテンツの音声を合成する合成部とを備えたことを特徴とする。
また、本発明による遠隔体験共有型視聴システムは、前記いずれかの映像音声合成装置を各地点に備え、第1の地点の映像音声合成装置が、自らの地点の視聴者の映像及び音声を、他の地点の映像音声合成装置へ送信し、他の地点の視聴者の映像及び音声を、他の地点の映像音声合成装置からそれぞれ受信して入力することを特徴とする。
本発明によれば、複数の遠隔地にいる視聴者は、映像コンテンツを同じ場所で視聴しているかのような臨場感を得ることが可能となる。
以下、本発明の実施の形態について図面を用いて詳細に説明する。
〔遠隔体験共有型視聴システムの構成〕
図1は、本発明の実施の形態による遠隔体験共有型視聴システムの構成を説明する概略図である。この遠隔体験共有型視聴システム1は、A地点からN地点までの複数地点に、それぞれ映像音声合成装置10−A〜N、マイク11−A〜N、カメラ12−A〜N、モニタ13−A〜N、及びスピーカー14−A〜Nを備えて構成される。各地点の映像音声合成装置10は、図示しない放送局から映像コンテンツを入力し、自らの地点のマイク11及び他の地点のマイク11からマイク音声を、自らの地点のカメラ12及び他の地点のカメラ12からカメラ映像を入力し、映像を合成してモニタ13へ出力すると共に、音声を合成してスピーカー14へ出力する。
図2は、図1に示した遠隔体験共有型視聴システム1を説明する全体構成図である。この遠隔体験共有型視聴システム1は、前述したように、各地点に、映像音声合成装置10、マイク11、カメラ12、モニタ13、及びスピーカー14を備え、さらに、集約サーバ30及び映像コンテンツを送信する放送局40から構成される。映像音声合成装置10−A〜N及びカメラ12−A〜Nと集約サーバ30とは、インターネット20を介して接続される。
放送局40から送信される映像コンテンツの放送形態は、放送波によるもの、インターネットを伝送路としたIP放送によるもの、ケーブルを伝送路としたCATVによるもの等である。尚、映像コンテンツの放送形態は限定されるものではなく、A〜N地点において時間同期して映像コンテンツを再生可能な伝送路を利用できればよい。
〔動作〕
次に、動作について説明する。A〜N地点は、例えば家庭内を指し、A〜N地点の視聴者は、放送局40から送信されている映像コンテンツを視聴しており、同時に、視聴の様子が撮影及び集音されているものとする。A地点のマイク11−A及びカメラ12−Aに接続された図示しない通信手段は、そのマイク音声及びカメラ映像を、インターネット20を介して集約サーバ30へ送信する。同様に、B〜N地点のマイク11−B〜N及びカメラ12−B〜Nについても、通信手段が、それぞれマイク音声及びカメラ映像を、インターネット20を介して集約サーバ30へ送信する。集約サーバ30は、A〜N地点のマイク音声及びカメラ映像を一括管理し、他の地点へ一括配信する機能を有する。A〜N地点の映像音声合成装置10−A〜Nの図示しない通信手段は、他の地点のマイク音声及びカメラ映像を集約サーバ30から受信する。そして、他の地点のマイク音声及びカメラ映像、自らの地点のマイク音声及びカメラ映像、及び、放送局40から受信した映像コンテンツを、音声合成及び映像合成し、それぞれスピーカー14及びモニタ13に出力する。これにより、複数の遠隔地にいる視聴者が、映像コンテンツを同じ場所で視聴しているかのような臨場感を得ることができる。
尚、図2に示した遠隔体験共有型視聴システム1は、集約サーバ30が、A〜N地点のマイク音声及びカメラ映像を受信し、当該マイク音声及びカメラ映像を他のA〜N地点の映像音声合成装置10−A〜Nへそれぞれ送信するようにしたが、これに限定されるものではない。例えば、集約サーバ30を含まない遠隔体験共有型視聴システムにおいて、マイク11及びカメラ12に接続された図示しない通信手段が、他の地点の映像音声合成装置10の図示しない通信手段へ直接送信するようにしてもよい。
〔マイク等の配置〕
図3は、A地点におけるマイク11−A、カメラ12−A、モニタ13−A、及びスピーカー14−Aの設置を示す図である。図3に示すように、A地点の家庭内には、1台のモニタ13−Aを中心として、その上部に1台のカメラ12−Aが設けられ、カメラの両側に右用及び左用の2台のマイク11−A、及びモニタ13−Aの両側に右用及び左用のスピーカー14−Aが設けられている。このような設置により、A地点の視聴者は、モニタ13−A及びスピーカー14−Aにより放送局40から受信した映像コンテンツを視聴すると共に、マイク11−A及びカメラ12−Aにより、その様子が集音及び撮影される。
尚、マイク11−A、カメラ12−A、モニタ13−A及びスピーカー14−Aの設置状態(配置)は、図3に示した配置に限定されるものではない。マイク11−Aは、視聴者の反応を集音することができればよく、カメラ12−Aは、後で合成可能な視聴の様子を撮影することができればよい。また、他の地点においても、図3に示した設置を実現することができる。
このようにして集音された音声及び撮影された映像は、マイク11−A及びカメラ12−Aに接続された図示しない通信手段により、インターネット20を介して集約サーバ30へ送信される。そして、他の地点の映像音声合成装置10へ送信される。
〔表示例〕
図4は、A地点におけるモニタ13−Aに表示される画面例である。この画面は、放送局40から受信した映像コンテンツの映像と、集約サーバ30から受信した他の地点(B〜N地点)の視聴者の映像と、自らの地点(A地点)の視聴者の映像とを合成したものである。中央の視聴者はA地点の視聴者、左側の視聴者はB地点の視聴者、そして、右側の視聴者はC地点の視聴者であり、それぞれ、映像コンテンツ上にうっすらと写るように配置されている。ここで、各地点の視聴者が画面に表示される位置は、A〜N地点の映像音声合成装置10毎に、予め設定されているものとする。
〔映像音声合成装置〕
図5は、図1及び図2に示した映像音声合成装置10−Aの機能構成を説明する図である。映像音声合成装置10−B〜Nも同様の機能構成を有する。この映像音声合成装置10−Aは、映像処理部100、音声処理部200、及び位置設定部300を備えている。位置設定部300は、A〜N地点の視聴者のカメラ映像をモニタ13−Aに表示するときの配置が設定され、A〜N地点の視聴者の映像を表示するための表示位置情報(モニタ13−Aの画面における視聴者の映像の表示位置座標)を映像処理部100及び音声処理部200に出力する。
映像処理部100は、放送局40により送信された映像コンテンツの映像、カメラ12−Aにより撮影された自分(視聴者)のカメラ映像、集約サーバ30により送信されたB〜N地点の視聴者のカメラ映像、及び、位置設定部300により出力された各視聴者の表示位置情報をそれぞれ入力する。そして、表示位置情報に基づいて各視聴者のサイズ及び位置を調整した映像を生成し、他の視聴者と同じ濃度で表示されるように、視聴者の映像の濃度値を調整すると共に、映像コンテンツに対してうっすらと写るように、映像コンテンツの映像の濃度値及び視聴者の映像の濃度値を調整する。そして、調整及び合成した映像をモニタ13−Aに出力する。
音声処理部200は、放送局40により送信された映像コンテンツの音声、マイク11−Aにより集音された自分(視聴者)のマイク音声、集約サーバ30により送信されたB〜N地点の視聴者のマイク音声、及び、位置設定部300により出力された各視聴者の表示位置情報をそれぞれ入力する。そして、表示位置情報に基づいて、左用のスピーカー14−Aに出力する音声の大きさ(レベル)と、右用のスピーカー14−Aに出力する音声の大きさとの間の比率を調整すると共に、映像コンテンツの音声に対して十分に小さな音声の大きさになるように、映像コンテンツの音声の大きさ及び視聴者の音声の大きさを調整する。そして、調整及び合成した音声を左用及び右用のスピーカー14−Aにそれぞれ出力する。
〔映像処理部100〕
図6は、図5に示した映像音声合成装置10−Aにおける映像処理部100の機能構成図である。この映像処理部100は、A〜N地点に対応する幾何学変換部101−A〜N、レベル調整部102、A〜N地点に対応するレベル調整部102−A〜N、及び合成部103を備えている。
幾何学変換部101−Aは、A地点の視聴者の表示位置情報を位置設定部300から入力し、A地点の視聴者のカメラ映像をカメラ12−Aから入力する。そして、アフィン変換または透視投影変換(パースペクティブ変換)等の幾何学変換により、視聴者のカメラ映像に対して左右反転の処理を施し、表示位置情報に基づいて、モニタ13−Aに視聴者を表示するための表示サイズ及び位置を調整する。具体的には、他のB〜N地点の視聴者のサイズが同じになるように調整し、表示位置情報が示す座標の位置に視聴者を表示するように調整する。そして、幾何学変換して調整したA地点の視聴者の映像(A地点の視聴者が所定のサイズ及び位置に配置された映像)をレベル調整部102−Aに出力する。同様に、幾何学変換部101−B〜Nも、それぞれB〜N地点の視聴者の表示に関し、そのサイズ及び位置を調整し、幾何学変換した映像を出力する。
幾何学変換部101−Aは、以下の式により、前述のアフィン変換を行う。
Figure 0004644555
ここで、(x,y)はA地点の視聴者のカメラ映像の座標(幾何学変換部101−Aの入力)を、(X,Y)はアフィン変換を施して調整した映像の座標(幾何学変換部101−Aの出力)を、a,b,c,d,e及びfは、視聴者の左右反転、表示サイズ及び位置を調整するパラメータをそれぞれ示す。
また、幾何学変換部101−Aは、以下の式により前述の透視投影変換を行う。
Figure 0004644555
ここで、(x,y)、(X,Y)及びa,b,c,d,e,f,p,q,rは、前述と同様である。この透視投影変換により、視聴者の映像の左右反転、表示サイズ及び位置を調整することに加えて、遠近の差に伴うサイズの調整を行うことができる。例えば、カメラ12−Aが視聴者を上から撮影した場合には、全体に比べて頭のサイズが大きくなってしまう。透視投影変換により、全体として均一のとれたサイズに調整することができる。
レベル調整部102−Aは、幾何学変換部101−Aにより幾何学変換されたA地点の視聴者の映像を入力し、A地点の視聴者が他のB〜N地点の視聴者と共にモニタ13−Aに表示された場合、他の視聴者と同じ濃度で表示されるように、また、A地点の視聴者がうっすらと表示されるように(映像コンテンツの映像に比べて十分に暗くなるように)、映像の濃度値を調整する。そして、調整したA地点の視聴者の映像を合成部103に出力する。同様に、レベル調整部102−B〜Nも、それぞれB〜N地点の視聴者の表示に関し、他の視聴者と同じ濃度で表示されるように、また、視聴者がうっすらと表示されるように、映像の濃度値を調整し、調整した映像を出力する。この場合、A〜N地点の視聴者の映像の明るさが均一のときは、A〜N地点の調整レベルは同じになる。一方、A〜N地点の視聴者の映像の明るさが均一でないときは、A〜N地点の視聴者の映像が同じ程度になるようにレベル調整される。
具体的には、レベル調整部102−Aは、A(x,y)×kが、予め設定された値Kに一致するように、kを調整する。ここで、予め設定された値Kは、レベル調整部102−A〜Nにおいて共通の値とする。つまり、以下の式が成立するように、kを調整する。
Figure 0004644555
ここで、A(x,y)は、幾何学変換部101−Aから入力した映像であり、(x,y)は座標を示す。N(x,y)も同様である。また、k,・・・,kは係数を示す。これにより、モニタ13−Aには、A地点の視聴者が、他の視聴者と同じ濃度で表示され、A地点の視聴者がうっすらと表示されることができる。
図7は、レベル調整部102−Aの構成を示す図である。レベル調整部102−B〜Nも同様の構成を有する。図7を参照して、レベル調整部102−Aは、アンプ110及びレベルセンス部111を備えている。アンプ110は、幾何学変換されたA地点の視聴者の映像A(x,y)を入力し、レベルセンス部111により算出されたゲインであるkにより、レベル調整した映像A(x,y)×kを出力する。レベルセンス部111は、A(x,y)×kが予め設定された値Kに一致するように、kを調整する。
図6に戻って、レベル調整部102は、映像コンテンツの映像を入力し、映像コンテンツの映像がA〜N地点の視聴者と共にモニタ13−Aに表示された場合に、A〜N地点の視聴者がうっすらと表示されるように、映像コンテンツの映像の濃度値を調整する。そして、調整した映像コンテンツの映像を合成部103に出力する。つまり、レベル調整部102は、A〜N地点の視聴者の映像を合成して得られた映像の濃度値が、映像コンテンツの映像の濃度値よりも大きくならないように調整するものである。
具体的には、レベル調整部102は、P(x,y)×kが、前述した予め設定された値Kに地点の数を乗じた値よりも、かなり大きくなるように、kを調整する。つまり、以下の式が成立するように、kを調整する。
Figure 0004644555
ここで、P(x,y)は、映像コンテンツの映像であり、A(x,y)は、幾何学変換部101−Aから入力した映像であり、(x,y)は座標を示す。N(x,y)も同様である。また、k,k,・・・,kは係数を示す。この場合、約10倍になるように調整するのが望ましい。これにより、合成部103は、反射率の低い平面のように薄っすらと合成することができる。
合成部103は、レベル調整部102から調整した映像コンテンツの映像を、レベル調整部102−A〜Nから調整したA〜N地点の視聴者の映像をそれぞれ入力し、以下の式に示すように映像を合成し、モニタ13−Aに出力する。
Figure 0004644555
ここで、O(x,y)は、合成した映像を示す。これにより、モニタ13−Aには、A〜N地点の視聴者がうっすらと表示される。つまり、自分であるA地点の視聴者は、モニタ13−Aの画面上に自分が写り込んでいるような感覚を得ることができる。また、自分以外の他の地点の視聴者も表示されるから、自分であるA地点の視聴者は、他の地点の視聴者がモニタ13−Aの前に存在し、その様子がモニタ13−Aの画面上に写り込んでいて、あたかも隣にいるかのような感覚を得ることができる。
尚、画面に表示する地点の視聴者の数が多くなり、全ての視聴者を表示できない場合には、位置設定部300は、視聴者を複数の列に前後するように並べてそれぞれの位置を設定する。この場合、前後の視聴者は重なる部分を有することになる。合成部103は、レベル調整部102から映像コンテンツの映像を,レベル調整部102−A〜Nから視聴者の映像をそれぞれ入力することに加えて、位置設定部300から表示位置情報を入力し、この表示位置情報から視聴者の重なりを判断し、重なる部分については、後列に位置する視聴者が表示されないように映像を合成する。例えば、A地点の視聴者とB地点の視聴者との一部が重なり、A地点の視聴者の方が前列である場合には、合成部103は、重なる箇所における座標(x,y)において、B(x,y)=0とし、上記(5)式により、重なる部分については、A地点の視聴者の映像を表示するように、各映像を合成する。これにより、視聴者の画面における前後関係をはっきりさせることができ、狭い面積の画面上に多くの視聴者を配置することができる。
〔音声処理部200〕
図8は、図5に示した映像音声合成装置10−Aにおける音声処理部200の機能構成図である。この音声処理部200は、A〜N地点に対応する音像定位移相部201−A〜N、レベル調整部202、A〜N地点に対応するレベル調整部202−A〜N、及び合成部203を備えている。
音像定位移相部201−Aは、A地点の視聴者の表示位置情報を位置設定部300から入力し、A地点の視聴者のマイク音声をマイク11−Aから入力する。そして、A地点の視聴者の表示位置情報に基づいて、モニタ13−Aに視聴者が表示される位置に対応した音声をスピーカー14に出力できるように、音像を定位する。そして、音像定位したA地点の視聴者のマイク音声をレベル調整部202−Aに出力する。同様に、音像定位移相部201−B〜Nも、それぞれB〜N地点の視聴者のマイク音声に関し、その視聴者が表示される位置に対応した音声について音像を定位し、音像定位したマイク音声を出力する。
例えば、図4に示したように、A地点の視聴者を画面の中央に表示する場合には、音像定位移相部201−Aは、画面中央を示す表示位置情報を入力する。また、図3に示したように、スピーカー14−Aは、左側及び右側の2台が設置されている。したがって、音像定位移相部201−Aは、A地点の視聴者のマイク音声を入力し、左側のスピーカー14−Aと右側のスピーカー14−Aに同じレベルのマイク音声を出力できるように、ステレオ音像を定位する。具体的には、音像定位移相部201−Aが、左側のスピーカー14−Aからマイク音声Aを、右側のスピーカー14−Aからマイク音声Aを入力し、表示位置情報に対応した係数KAL,KAR(この場合は、KAL=KAR)をそれぞれ乗算し、その結果を音像定位したマイク音声(左側の音声A×KAL、右側の音声A×KAL)として出力する。
また、図4に示したように、C地点の視聴者を画面の右側(向かって右側)に表示する場合には、音像定位移相部201−Cは、画面右側の位置を示す表示位置情報を入力し、左側(向かって右側)のスピーカー14−Cよりも右側(向かって左側)のスピーカー14−Cの方が、その表示位置情報に応じてレベルの音声を小さく出力できるように、ステレオ音像を定位する。具体的には、音像定位移相部201−Cは、左側のスピーカー14−Cからマイク音声Cを、右側のスピーカー14−Cからマイク音声Cを入力し、表示位置情報に対応した係数KCL,KCR(この場合は、KCL>KCR)をそれぞれ乗算し、その結果を音像定位したマイク音声(左側の音声C×KCL、右側の音声C×KCL)として出力する。この場合、C×KCL>C×KCLとなるから、A地点の視聴者は、C地点の視聴者の音声を、右側のスピーカー14−Aからは大きく、左側のスピーカー14−Aからは小さく視聴することができる。これにより、C視点の視聴者の位置(画面の右側の表示位置)に対応した音声を視聴することができる。
レベル調整部202−Aは、音像定位移相部201−Aにより音像定位されたA地点の視聴者のマイク音声を入力し、映像コンテンツの音声に比べ、A地点の音声が小さくなるように音声の大きさをレベル調整する。具体的には、レベル調整部202−Aは、入力したA地点の視聴者の音声の大きさが、予め設定されたしきい値(映像コンテンツの音声の大きさに対応したしきい値)よりも小さくなるように、音声の大きさを調整する。そして、調整したA地点の視聴者の音声を合成部203に出力する。同様に、レベル調整部202−B〜Nも、それぞれB〜N地点の視聴者の音声に関し、音声の大きさを調整し、調整した音声を出力する。この場合、A〜N地点の視聴者の音声レベルが均一であるときは、A〜N地点の調整レベルは同じになる。一方、A〜N地点の視聴者の音声レベルが均一でないときは、A〜N地点の視聴者の音声が環境音と同程度になるようにレベル調整される。
レベル調整部202は、映像コンテンツの音声を入力し、映像コンテンツの音声がA〜N地点の視聴者の音声と共にスピーカー14−Aから出力された場合に、A〜N地点の視聴者の音声が小さくなるように、映像コンテンツの音声の大きさを調整する。そして、調整した映像コンテンツの音声を合成部203に出力する。つまり、レベル調整部202は、A〜N地点の視聴者の音声を合成して得られた音声の大きさが、映像コンテンツの音声の大きさよりも大きくならないように調整するものである。
具体的には、レベル調整部202は、以下の式が成立するように、係数kXXを調整する。
Figure 0004644555
ここで、Pは映像コンテンツの左側の音声、Pは映像コンテンツの右側の音声、AはA地点の視聴者の左側の音声、AはA地点の視聴者の右側の音声、NはN地点の視聴者の左側の音声、NはN地点の視聴者の右側の音声を示し、KPP,KAL,KAR,KNL,KNRは係数を示す。この場合、約10倍になるように調整することが考えられる。これによりスピーカー14−Aは、A〜N地点の視聴者の小さいレベルの音声を出力する。
合成部203は、レベル調整部202から調整した映像コンテンツの音声を、レベル調整部202−A〜Nから調整したA〜N地点の視聴者の音声をそれぞれ入力し、以下の式に示すように音声を合成し、スピーカー14−Aに出力する。
Figure 0004644555
ここで、Oは合成した左側の音声を示し、Oは合成した右側の音声を示す。これにより、スピーカー14−Aは、A〜N地点の視聴者の音声を、視聴者の位置に応じて映像コンテンツの音声に比べて小さいレベルで出力することができ、視聴者はその位置に応じた共有感を増大させることができる。尚、ハウリングを避けるために自分自身の音声は(6)式にかかわらず、極端に小さくするのが通例であり、本件においても適用する。従って、図8では、自分自身の音声は小さい。
本発明の実施の形態による遠隔体験共有型視聴システムの構成を説明する概略図である。 図1の遠隔体験共有型視聴システムを説明する全体構成図である。 マイク、カメラ、モニタ及びスピーカの設置を示す図である。 A地点におけるモニタに表示される画面例である。 映像音声合成装置の機能構成図である。 映像音声合成装置に備えた映像合成部の機能構成図である。 レベル調整部102−A〜Nの構成を示す図である。 映像音声合成装置に備えた音声合成部の機能構成図である。
符号の説明
1 遠隔体験共有型視聴システム
10 映像音声合成装置
11 マイク
12 カメラ
13 モニタ
14 スピーカー
20 インターネット
30 集約サーバ
40 放送局
100 映像処理部
101 幾何学変換部
102 レベル調整部
103,203 合成部
200 音声処理部
201 音像定位移相部
202 レベル調整部
300 位置設定部

Claims (3)

  1. 各地点の視聴者が時間同期して視聴可能な同一の映像コンテンツを受信し、予め画面上の表示位置が設定された各視聴者の映像を、前記映像コンテンツの映像に合成して表示すると共に、各視聴者の音声を、前記映像コンテンツの音声に合成して出力する映像音声合成装置であって、
    各視聴者の映像を同一の濃度になるように調整すると共に、各視聴者の映像における濃度の和が映像コンテンツの映像の濃度よりも小さくなるように、各視聴者の映像及び映像コンテンツの映像を調整し、該調整した各視聴者の映像及び映像コンテンツの映像を合成する映像処理部と、
    各視聴者の音声の大きさの和が映像コンテンツの音声の大きさよりも小さくなるように、各視聴者の音声及び映像コンテンツの音声を調整し、該調整した各視聴者の音声及び映像コンテンツの音声を合成する音声処理部とを備えたことを特徴とする映像音声合成装置。
  2. 請求項1に記載の映像音声合成装置において、
    前記映像処理部が、
    視聴者の映像を入力し、前記予め設定された視聴者の位置に基づいて、該視聴者の画面上のサイズ及び位置を幾何学変換する幾何学変換部と、
    該幾何学変換された各視聴者の映像を同一の濃度になるように調整すると共に、該各視聴者の映像における濃度の和が映像コンテンツの映像の濃度よりも小さくなるように、各視聴者の映像及び映像コンテンツの映像を調整するレベル調整部と、
    該レベル調整された各視聴者の映像及び映像コンテンツの映像を合成する合成部とを備え、
    前記音声処理部が、
    視聴者の音声を入力し、前記予め設定された視聴者の位置に基づいて、該視聴者の音声を音像定位させる音像定位移相部と、
    該音像定位された各視聴者の音声の大きさの和が、映像コンテンツの音声の大きさよりも小さくなるように、各視聴者の音声及び映像コンテンツの音声を調整するレベル調整部と、
    該レベル調整された各視聴者の音声及び映像コンテンツの音声を合成する合成部とを備えたことを特徴とする映像音声合成装置。
  3. 請求項1または2の映像音声合成装置を前記各地点に備え、
    第1の地点の映像音声合成装置が、自らの地点の視聴者の映像及び音声を、他の地点の映像音声合成装置へ送信し、他の地点の視聴者の映像及び音声を、他の地点の映像音声合成装置からそれぞれ受信して入力することを特徴とする遠隔体験共有型視聴システム。
JP2005217247A 2005-07-27 2005-07-27 映像音声合成装置及び遠隔体験共有型映像視聴システム Expired - Fee Related JP4644555B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005217247A JP4644555B2 (ja) 2005-07-27 2005-07-27 映像音声合成装置及び遠隔体験共有型映像視聴システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005217247A JP4644555B2 (ja) 2005-07-27 2005-07-27 映像音声合成装置及び遠隔体験共有型映像視聴システム

Publications (2)

Publication Number Publication Date
JP2007036685A JP2007036685A (ja) 2007-02-08
JP4644555B2 true JP4644555B2 (ja) 2011-03-02

Family

ID=37795386

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005217247A Expired - Fee Related JP4644555B2 (ja) 2005-07-27 2005-07-27 映像音声合成装置及び遠隔体験共有型映像視聴システム

Country Status (1)

Country Link
JP (1) JP4644555B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5299018B2 (ja) * 2009-03-26 2013-09-25 ソニー株式会社 情報処理装置、コンテンツ処理方法及びプログラム
JP5529617B2 (ja) * 2010-04-21 2014-06-25 日本電信電話株式会社 遠隔会議装置、遠隔会議方法、および遠隔会議プログラム
JP5707824B2 (ja) 2010-09-29 2015-04-30 ソニー株式会社 制御装置、および制御方法
JP2012129800A (ja) * 2010-12-15 2012-07-05 Sony Corp 情報理装置および方法、プログラム、並びに情報処理システム
JP5843480B2 (ja) * 2011-05-18 2016-01-13 日本放送協会 受信機及びプログラム
CN103581606B (zh) * 2012-08-09 2018-09-07 北京维鲸视界科技有限公司 一种多媒体采集装置和方法
CN118020309A (zh) * 2021-10-06 2024-05-10 索尼集团公司 信息处理装置、信息处理方法和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11289524A (ja) * 1998-04-01 1999-10-19 Nippon Telegr & Teleph Corp <Ntt> 仮想空間会議方法およびこの方法を記録した記録媒体
JP2003333572A (ja) * 2002-05-08 2003-11-21 Nippon Hoso Kyokai <Nhk> 仮想観客形成装置およびその方法、仮想観客形成受信装置およびその方法ならびに仮想観客形成プログラム
JP2004088327A (ja) * 2002-08-26 2004-03-18 Casio Comput Co Ltd 通信端末、通信端末処理プログラム、および画像配信サーバ、画像配信処理プログラム
JP2005086422A (ja) * 2003-09-08 2005-03-31 Sony Corp 受信装置および受信方法、記録媒体、並びにプログラム
JP2006041888A (ja) * 2004-07-27 2006-02-09 Sony Corp 情報処理装置および方法、記録媒体、並びにプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11289524A (ja) * 1998-04-01 1999-10-19 Nippon Telegr & Teleph Corp <Ntt> 仮想空間会議方法およびこの方法を記録した記録媒体
JP2003333572A (ja) * 2002-05-08 2003-11-21 Nippon Hoso Kyokai <Nhk> 仮想観客形成装置およびその方法、仮想観客形成受信装置およびその方法ならびに仮想観客形成プログラム
JP2004088327A (ja) * 2002-08-26 2004-03-18 Casio Comput Co Ltd 通信端末、通信端末処理プログラム、および画像配信サーバ、画像配信処理プログラム
JP2005086422A (ja) * 2003-09-08 2005-03-31 Sony Corp 受信装置および受信方法、記録媒体、並びにプログラム
JP2006041888A (ja) * 2004-07-27 2006-02-09 Sony Corp 情報処理装置および方法、記録媒体、並びにプログラム

Also Published As

Publication number Publication date
JP2007036685A (ja) 2007-02-08

Similar Documents

Publication Publication Date Title
JP4644555B2 (ja) 映像音声合成装置及び遠隔体験共有型映像視聴システム
US8571192B2 (en) Method and apparatus for improved matching of auditory space to visual space in video teleconferencing applications using window-based displays
US20100328419A1 (en) Method and apparatus for improved matching of auditory space to visual space in video viewing applications
US20120033030A1 (en) Remote presenting system, device, and method
WO2013105413A1 (ja) 音場制御装置、音場制御方法、プログラム、音場制御システム及びサーバ
JP2000165831A (ja) 多地点テレビ会議システム
JP2003506927A (ja) ビデオ会議の参加者がカメラに焦点を合わせた状態で相手方ユーザの前に出現できるようにする方法と装置
US8390665B2 (en) Apparatus, system and method for video call
CN106664485A (zh) 基于自适应函数的一致声学场景再现的系统、装置和方法
EP2352290A1 (en) Method and apparatus for matching audio and video signals during a videoconference
US10998870B2 (en) Information processing apparatus, information processing method, and program
US11503408B2 (en) Sound bar, audio signal processing method, and program
JP2013062640A (ja) 信号処理装置、信号処理方法、およびプログラム
JP3488096B2 (ja) 3次元共有仮想空間通信サービスにおける顔画像制御方法,3次元共有仮想空間通信用装置およびそのプログラム記録媒体
JPH0955925A (ja) 画像システム
JP2021086189A (ja) 情報処理装置、情報処理方法、映像処理システム、およびプログラム
WO2014175876A1 (en) Social television telepresence system and method
JP6371560B2 (ja) 画像表示装置
US20230276189A1 (en) Real-time sound field synthesis by modifying produced audio streams
JP4534201B2 (ja) 情報コミュニケーション端末装置
WO2020031453A1 (ja) 情報処理装置及び情報処理方法、並びに映像音声出力システム
WO2018198790A1 (ja) コミュニケーション装置、コミュニケーション方法、プログラム、およびテレプレゼンスシステム
JP2006339869A (ja) 映像信号と音響信号の統合装置
US20130162900A1 (en) Audio signal processing apparatus, audio signal processing method, program and signal processing system
US20070097222A1 (en) Information processing apparatus and control method thereof

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20070514

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080122

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101026

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101109

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101206

R150 Certificate of patent or registration of utility model

Ref document number: 4644555

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131210

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees