JP2009239459A

JP2009239459A - 映像合成システム、映像合成装置およびプログラム

Info

Publication number: JP2009239459A
Application number: JP2008080684A
Authority: JP
Inventors: Ikuo Harada; 育生原田; Hidekazu Hosoya; 英一細谷; Akira Onozawa; 晃小野澤; Shizue Hattori; 静枝服部
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2008-03-26
Filing date: 2008-03-26
Publication date: 2009-10-15

Abstract

【課題】仮想空間の所望視点から各ユーザを観察できる映像合成システムを提供する。
【解決手段】各地点に設置され仮想空間の映像を生成する映像合成システムは、仮想空間を見る位置である複数の想定視点と個別に対応し自地点で仮想空間と対応する実空間を撮影する複数の撮影手段、複数の想定視点中の選択想定視点を示す選択情報をユーザから受けると該選択情報を他地点の映像合成システムに送信し、選択情報を他地点の映像合成システムから受けると該選択情報が示す選択想定視点に対応する撮影手段による自地点の撮影映像を他地点の映像合成システムに送信する映像送信手段、他地点の映像送信手段から他地点の撮影映像を受信する受信手段、ユーザからの選択情報が示す選択想定視点に対応する撮影手段による自地点の撮影映像と受信した他地点の撮影映像を重畳して仮想空間の映像を生成する映像合成手段及び仮想空間の映像を表示する表示手段を含む。
【選択図】図７

Description

本発明は、遠隔地点をつないで会議を行うＴＶ会議、ビデオ会議などの分野で、従来技術では対応が困難な、相手と視線などを合わせて会話したい場面、一室の空間を共有する状況で身振り・指差し・指示語を伴った会話を成立させたい場面において、有効に利用できる技術に関する。

従来技術のＴＶ会議システム等では、遠隔の相手の映像を画面に表示し、別の画面に自地点の映像を表示するケースが多い。或いは、一つの画面の中で、画面を分割したり、親子画面のような状態で表示することも行われてきたが、地点数が２或いはそれ以上に増えても、個々の地点の映像は独立した映像とするものがほとんどである。

また、地点間の会話参加者の映像に関係を持たせるために、映像として横顔を用いて、画面上で並べて配置する技術を提案する例や、２地点をクロマキ合成することで空間の共有化を図る技術も提案されているが、遠隔地に存在する会話参加者が共有する仮想空間を想定し、その設計に基づいて適切な視点から見た画面表示を合成する技術は存在しなかった。

一方、半透明重畳を用いて共有空間を合成する技術の拡張として、半透明重畳による空間共有の特徴を利用しつつ、地点数が増加しても画面上に表示された共有空間に混乱が発生しないで会話を継続できる技術が提案されている。

非特許文献１に記載の技術では、遠隔地同士を合わせた仮想空間を設計し、それに応じたカメラ位置・アングルの設定を行って撮影した後、映像を半透明重畳することで、画面全体として１つの空間（部屋）の映像になるように画面を合成する。これにより、単に独立した映像が並んでいる場合に比べ、部屋全体として一体になった会話の場を提示することが可能になる。

非特許文献２に記載の技術では、３地点以上の会話を想定して、地点にまたがる会話の構造をモデル化し、会話の支援を行う遠隔会議システムを提案しており、その機能は以下の通りである。

・Ｎ地点の中で、２地点間の対話が１つ以上存在できる。

・各々の対話ペア同士は２地点の対話と同様の重畳画面での対話が実施できる。

・どの対話にも直接は参加していない残りの地点が１つ以上存在できる。

・対話に直接参加していない地点は、存在している対話ペアの重畳画像、あるいは、他の同様に対話に直接参加していない地点の画像を視聴することができる。

・どのペアが対話中かなどの全体情報も画面上で提示できる。

・対話するペアが、ユーザの意向により自由に切替えられるため、入れ替わり立ち替わり対話相手や視聴相手を変えて、Ｎ地点全体としての会話を進行させることができる。
小野澤，橋本，細谷，原田，上田，"ミラーインタフェースを用いた遠隔講義システムの実装"，２００７年信学総大，ｐ．３０２，Ａ−１５−１５，２００７年３月７日。原田，細谷，小野澤，"ミラーインタフェースを用いた多地点コミュニケーション方式"，２００７年信学総大，ｐ．３０１，Ａ−１５−１４，２００７年３月７日。

ほとんどのＴＶ会議システムは、基本的にサイト毎に単独のカメラを用いて会議参加者の前方から撮影した映像を並べるだけであった。側面からの映像を用い、画面上で参加者が対向することにより臨場感を高める工夫をする例はあるが、遠隔の参加者は、分かれた画面内に閉じた映像として表示されてきた。遠隔地に存在する参加者を一つの仮想的な共有空間におく方法の例としては、クロマキを用いたアプローチはあるものの、基本的に前方ないしやや斜め前からの映像を使用することで、遠隔地の参加者同士が自然に対面する状態を表示することはできていなかった。

日常的な対話の場面では、会議・対話の参加者は、互いに相手に対向して座し、相手の顔や目を見て対話を行い、また、互いに手を差し伸べて身振りなどを併用して対話を行う。

上記のような従来技術では、このような対面して対話を行うような印象を参加者に与えることはできず、ぎこちない対話を強要されてきた。

遠隔地に存在する参加者があたかも一つの空間（会議室）の中で互いに向かい合った姿勢で座し、視線方向が自然に相手を向いた状態を仮想的に作り出し、その姿を、画面に表示することで参加者が遠隔地の相手と自然に対面して対話しているかのような印象を参加者自身に与える技術が必要とされる所以である。

また、非特許文献１、２のいずれの技術においても、視点位置についての深い考察はない。そのため、本発明では、非特許文献１の技術を前提とした上で、
・ユーザの望みの視点からの映像（側面，正面，俯瞰等）の提供
・状況に応じた複数の視点からの映像の選択（多視点化）
・地点ごとに異なる視点の要求への対応
を可能とする機能を提供することを目的とする。

また、本発明の他の目的は、同一画面内に２つの地点の映像を通信（ネットワーク）を利用して取得し、重畳することで、仮想的な共有空間を会話の参加者に提示するシステムにおいて、共有空間内における参加者並びに視点の３次元的な配置を想定し、想定した位置・向きに参加者や室内の物品があり、想定した視点（想定視点）からその仮想的な共有空間を撮影しているかのような映像を、会話の参加者に提示する技術を提供することである。

仮想共有空間における参加者・物品・視点の位置を想定すると、翻って、実空間に存在するカメラ・参加者・物品の位置関係が決定する。実空間が遠隔の第１と第２の地点に分かれて存在する場合、各地点に実在する参加者・物品は、想定位置から求めた位置に配置することが可能であるが、実在しないものについては、その仮想位置のみが求められる。

本発明は、２地点から得られた映像を重畳することにより、参加者および物品が想定した配置関係にある仮想共有空間が、想定した視点（想定視点）から撮影された場合の映像を生成し、その仮想共有空間の映像を、参加者自身に実時間で提示することで、現実味の高い会話空間を仮想的に提供することを目的とする。

また、第１、第２の両地点の参加者が想定する（希望する）視点（想定視点）が異なる場合や、会話の途中で視点（想定視点）を切り替えることを可能とすることも目的の一つとする。

さらに、会話の参加者に加え、その会話の様子を視聴することを目的とした参加者が第３（複数仮定される）の地点に存在することを想定し、それら視聴目的の参加者に対しても、第１、第２の地点の会話参加者と同じ映像を提示することを目的とする。

最後に、ネットワーク上に３地点以上の地点が存在し、それらの任意の複数個（２地点）のペアが仮想共有空間を想定した上述の会話を実現し、会話の参加者以外の地点が、おのおの、会話中の任意の２地点のペアを視聴することを可能とし、また、各地点では、参加或いは視聴している会話を、想定されている複数の視点から任意の視点を選んで、システムから映像の提示を享受可能とすることも目的とする。

上記目的を達成するため、本発明の映像合成システムは、複数地点のそれぞれに設置され、前記複数地点の実空間の撮影映像を重畳して仮想空間の映像を生成し表示する映像合成システムであって、前記仮想空間を見る位置である複数の想定視点と個別に対応して設置され、自地点において前記仮想空間と対応づけられた実空間を撮影する複数の撮影手段と、前記複数の想定視点の中の選択想定視点を示す選択情報をユーザから受け付けた場合に、前記ユーザからの選択情報を、他の地点の映像合成システムに送信し、前記選択情報を前記他の地点の映像合成システムから受け付けた場合に、前記他の地点の映像合成システムからの選択情報にて示された選択想定視点に対応する撮影手段による自地点の撮影映像を、前記他の地点の映像合成システムに送信する映像送信手段と、前記他の地点の映像送信手段から、前記他の地点の撮影映像を受信する受信手段と、前記ユーザからの選択情報にて示された選択想定視点に対応する撮影手段による自地点の撮影映像と、前記受信手段にて受信された他の地点の撮影映像と、を重畳して、前記仮想空間の映像を生成する映像合成手段と、前記仮想空間の映像を表示する表示手段と、を含む。

本発明の映像合成装置は、複数地点のそれぞれに設置され、前記複数地点の実空間の撮影映像を重畳して仮想空間の映像を生成し、また、前記仮想空間を見る位置である複数の想定視点と個別に対応して設置され自地点において前記仮想空間と対応づけられた実空間を撮影する複数の撮影手段と表示装置とに接続される映像合成装置であって、前記複数の想定視点の中の選択想定視点を示す選択情報をユーザから受け付けた場合に、前記ユーザからの選択情報を、他の地点の映像合成装置に送信し、前記選択情報を前記他の地点の映像合成装置から受け付けた場合に、前記他の地点の映像合成装置からの選択情報にて示された選択想定視点に対応する撮影手段による自地点の撮影映像を、前記他の地点の映像合成装置に送信する映像送信手段と、前記他の地点の映像送信手段から、前記他の地点の撮影映像を受信する受信手段と、前記ユーザからの選択情報にて示された選択想定視点に対応する撮影手段による自地点の撮影映像と、前記受信手段にて受信された他の地点の撮影映像と、を重畳して、前記仮想空間の映像を生成し、前記仮想空間の映像を前記表示装置に出力する映像合成手段と、を含む。

本発明によれば、仮想空間内の所望の視点から各ユーザを観察することが可能になる。

本発明では、例えば、任意の２地点の撮影映像の合成によって作成される仮想共有空間を会話の参加者に表示装置を用いて映像として提示できる。提示する映像は、仮想共有空間を客観的な位置（想定視点）から撮影した映像であり、映画やＴＶ番組を視聴するような視点から、参加者自ら会話の状態を実時間で観察する視点を提供する。

また、カメラを複数個活用しつつ、任意の映像対を合成することにより、参加者の見たい視点（想定視点）から会話を観察することができ、会話の場面に応じて適切な視点（想定視点）を提供することができる。例えば、相手の表情を見たければ、相手の顔が映る視点、机上の資料を見たければ机上を中心とする視点など、カメラの設置によって選択可能な視点を自由に切り替えることが可能になる。

さらに、多数の地点を接続し、２地点の対話をベースとした会話の集まりに対しても、各地点に選択可能な視点を提供することができる。

以上、本発明により、遠隔地にありながら、仮想共有空間を用いて、現実に対面しての会話に近い状況を作り出し、対話における相互の存在を現実味のあるものとして想起することができる。これにより、従来の技術を用いたＴＶ会議に比して、現実に対面した場合により近い感覚で、緊密なコミュニケーションを図ることが可能になる。

次に、本発明の実施例を、図面を参照して説明する。

［遠隔地の通信と重畳処理］
本発明の各実施例では、一貫して、遠隔の２箇所（或いは３個所以上）の地点の映像に透明度を与えて重畳する技術を使用する。このため、まず、遠隔の２地点の重畳処理について簡単に説明する。第１と第２の地点のシステム（映像合成システム）は、ネットワークによって接続され、映像の実時間送受信が可能であると仮定する。

図１は、複数の映像合成システムを有するコミュニケーション支援システム１０００を示したブロック図である。なお、図１では、２つの地点（複数地点）のそれぞれに設置された２つの映像合成システムを示しているが、映像合成システムは、３つ以上の複数の地点のそれぞれに設置されてもよい。

コミュニケーション支援システム１０００は、例えば、ＴＶ会議システム、ビデオ会議システムまたは遠隔会議システムとして使用される。コミュニケーション支援システム１０００は、映像合成システム１０１および映像合成システム１０２を含む。映像合成システム１０１は、第１の地点に設置され、映像合成システム１０２は、第１の地点と異なる第２の地点に設置される。

映像合成システム１０１は、動画撮影用カメラ（以下、単に「カメラ」と称する。）１と、映像通信合成部２と、表示装置３と、を含む。映像通信合成部２は、送信部２１と、受信部２２と、映像合成部２３と、を含む。映像合成部２３は、反転画像生成部２３１と、画像重畳部２３２と、を含む。

映像合成システム１０１は、インターネット、公衆電話網等のネットワーク２００を介して、映像合成システム１０１と同一構成である映像合成システム１０２と接続されている。

映像合成システム１０１は、複数地点の撮影映像を重畳して仮想空間の映像を生成し、その仮想空間の映像を表示する。

映像通信合成部２は、例えば、ＣＰＵ、メモリおよび入出力装置を含むコンピュータである。コンピュータである映像通信合成部２は、ハードディスクまたはメモリに記録されたプログラムに従って動作する。ハードディスクまたはメモリは、一般的に、コンピュータにて読み取り可能な記録媒体と呼ぶことができる。

コンピュータである映像通信合成部２は、プログラムを記録媒体から読み取り実行することによって、送信部２１、受信部２２、および、映像合成部２３として機能する。

次に、映像合成システム１０１の全体の処理を説明する。

ステップ１で、第１の地点のカメラ１が撮影した映像（動画像）は、送信部２１からネットワーク２００を介して第２の地点の映像合成システム１０２に送信されると同時に、映像合成部２３に送り込まれる。

ステップ２で、ステップ１と並行して、受信部２２は、ネットワーク２００から第２の地点の映像（動画像）を受信し、その映像を映像合成部２３に送り込む。

ステップ３で、映像合成部２３は、送り込まれてくるカメラ１からの映像（以下「カメラ映像」とも称する。）と、受信部２２からの映像と、に基づいて、αブレンド処理（公知技術）を用いて、次のようにして表示用映像（仮想空間の映像）を作り出す。

なお、映像合成部２３には、カメラ用αマスクと受信画像用αマスクが予め設定されているものとする。

まず、ステップ３１で、映像合成部２３は、カメラ映像の各フレーム画像を、参加者の指示に従って、必要であれば鏡像反転を行い、必要がなければ鏡像反転せずに、カメラ用αマスクに従って、αブレンド処理により下地に書き込む（下地がなければ通常α＝１）。

次に、ステップ３２で、映像合成部２３は、受信部２２からの映像の各フレーム画像を、参加者の指示に従って、必要であれば鏡像反転を行い、必要がなければ鏡像反転せずに、受信画像用αマスクに従って、αブレンド処理により下地に書き込む。ステップ３１とステップ３２によって、カメラ映像と受信部２２からの映像との重畳画像が生成される。

次に、ステップ３３で、映像合成部２３は、カメラ映像と受信映像の重畳画像を、１フレーム分の画像単位で、表示装置３に出力して表示する。

図２は、処理の中心となる映像合成部２３の処理流れ図である。具体的には、図２（ａ）は、映像合成部２３の処理を説明するためのフローチャートであり、図２（ｂ）は、図２（ａ）内の反転重畳処理を説明するためのフローチャートである。

なお、映像合成部２３は、合成用フレームメモリ２３３と、表示用フレームメモリ２３４と、を有するものとする。

まず、ステップ２０１で、画像重畳部２３２は、合成用フレームメモリ２３３をクリアする。

次に、ステップ２０２で、反転画像生成部２３１は、カメラ１からの映像から、最新フレーム画像を取り込む。

次に、ステップ２０３で、反転画像生成部２３１と画像重畳部２３２は、カメラ用αマスク２３ａを用いて反転重畳処理を行って、合成用フレームメモリ２３３に、カメラ映像の最新フレーム画像を書き込む。

ここで、図２（ｂ）を参照して、ステップ２０３の反転重畳処理を説明する。

まず、ステップ２１１で、反転画像生成部２３１は、参加者から、反転必要の指示を受け付けているか否かを判定する。

参加者から反転必要の指示を受け付けている場合には、ステップ２１２が実行され、参加者から反転必要の指示を受け付けていない場合には、ステップ２１３が実行される。

ステップ２１２では、反転画像生成部２３１は、ステップ２０２で取り込んだカメラ映像の最新フレーム画像を鏡面反転（左右反転）して反転画像を生成する。続いて、ステップ２１３が実行される。

ステップ２１３では、まず、画像重畳部２３２は、反転画像生成部２３１が反転画像を生成していない場合には、ステップ２０２で取り込んだカメラ映像の最新フレーム画像を取り込み、反転画像生成部２３１が反転画像を生成した場合には、その反転画像を取り込む。続いて、画像重畳部２３２は、その取り込んだ画像を、カメラ用αマスク２３ａに従ってαブレンド処理し、その処理結果を合成用フレームメモリ２３３に書き込む。

なお、この場合、クリアされた合成フレームメモリ２３３に、画像が書き込まれるので、カメラ用αマスク２３ａでは、α＝１とすることが望ましい。

ここで、αブレンド処理（半透明化重畳処理）について説明する。

画像重畳部２３２は、重畳画像の各画素ｐの画素値Ｃ_p（ＲＧＢ各々の値）を、下地の画素値Ｃ_bと、下地の上に書き込まれる画像の画素値Ｃ_fを用いて、
Ｃ_p＝α_p＊Ｃ_f＋（１−α_p）＊Ｃ_b
の式に従って求める。

但し、α_pはｐにおけるαマスクの値（0.0・・・1.0）である。

或いは、0.0・・・1.0の実数を0・・・255の整数値で表現した場合には、画像重畳部２３２は、
Ｃ_p＝（α_p＊Ｃ_f＋（２５５−α_p）＊Ｃ_b）／２５５
の式に従って、各画素ｐの画素値Ｃ_pを求める。

図２（ａ）に戻って、ステップ２０３が終了すると、ステップ２０４が実行される。

ステップ２０４では、反転画像生成部２３１は、受信部２２からの映像から、最新フレーム画像を取り込む。

次に、ステップ２０５で、反転画像生成部２３１と画像重畳部２３２は、受信画像用αマスク２３ｂを用いて反転重畳処理を行って、合成用フレームメモリ２３３に、受信部２２からの映像の最新フレーム画像を加算する。

ここで、図２（ｂ）を参照して、ステップ２０５の反転重畳処理を説明する。

ステップ２１２では、反転画像生成部２３１は、ステップ２０４で取り込んだ受信部２２からの映像の最新フレーム画像を鏡面反転（左右反転）して反転画像を生成する。続いて、ステップ２１３が実行される。

ステップ２１３では、まず、画像重畳部２３２は、反転画像生成部２３１が反転画像を生成していない場合には、ステップ２０４で取り込んだ受信部２２からの映像の最新フレーム画像を取り込み、反転画像生成部２３１が反転画像を生成した場合には、その反転画像を取り込む。続いて、画像重畳部２３２は、その取り込んだ画像と、合成フレームメモリ２３３内の下地（下地画像）とを、受信画像用αマスク２３ｂに従ってαブレンド処理し、その処理結果を合成用フレームメモリ２３３に上書きする。

図２（ａ）に戻って、ステップ２０５が終了すると、ステップ２０６が実行される。

ステップ２０６では、画像重畳部２３３は、表示用フレームメモリ２３４内の画像データを、合成用フレームメモリ２３３内の画像データに更新する。画像重畳部２３３は、表示用フレームメモリ２３４内の画像データを、表示装置３に出力する。

次に、ステップ２０７で、画像重畳部２３３は、動作の終了が入力されたかを確認し、動作の終了が入力された場合には、処理を終了し、動作の終了が入力されていない場合には、ステップ２０１に戻る。

映像合成部２３（具体的には、画像重畳部２３２）は、重畳処理（αブレンド）において、α値（不透明度）を画像全般で同一値にしても良いが、画素単位でα値を任意に指定するαマスクをあらかじめ指定することにより、画面上で、第１地点と第２の地点の一方の濃度を濃く（他方を薄く）表示することが可能となり、画面の了解度を向上することもできる。

また、第１或いは第２地点の部屋の背景・壁などに特定色を用い、映像合成部２３（具体的には、画像重畳部２３２）に、画像上でその特定色の画素を抽出する機能を追加することにより、重畳処理は、特定色の位置を完全に透明（α＝０）とし、それ以外の画素を不透明（α＝１）とするクロマキ処理にすることも可能である。

上記の処理により、第１地点の参加者は、自分自身と第２地点の参加者・物品とが合成された仮想的な共有空間（仮想空間の映像）の提示を受けることになる。第２地点では、第１地点と第２地点の立場が逆転するだけで同じ処理を実施するので、両地点の参加者は同一の空間を共有することになる。

［実施例１］
（１．カメラの配置とシーンの構築）
次に、客観視点（想定視点）から見た仮想共有空間の映像を提示する遠隔会話システムを構築する実施例（実施例１）を説明する。

本実施例では、会話システムとしては、図１に示した映像合成システムをそのまま用いる。図３は、仮想共有空間（仮想空間）と実空間の空間配置の関係を示す例図である。図３の例では、仮想共有空間において、第１地点と第２地点の参加者が机をはさんで対面する配置を想定し、さらに、仮想共有空間を撮影したい視点（仮想共有空間を見る位置である想定視点；カメラ）の配置を図中に示している。

第１、第２地点で撮影した映像を重畳することにより、仮想共有空間の映像が作られる。結果として得られる映像は、第１、第２の両地点のカメラ・参加者・物品等の３次元配置を保存したまま、両地点の撮影カメラの位置・向きが重なるような映像になる。

両地点のカメラの位置・向きを重ねるために、実際に撮影される実空間全体を仮想的に回転・移動（・拡大縮小）した空間を撮影した場合の映像が重畳されて、仮想共有空間の映像が生成される。

仮想共有空間内の物体と、第１、第２地点で撮影された物体の画像上の位置関係は、完全に一致する（画像の重畳なので、距離の違いによる隠れは半透明の重なりとして表現される）。

従って、希望の想定視点から見た仮想共有空間の映像を取得したい場合、仮想共有空間上で想定したカメラ・参加者・物品（机・椅子）などの位置関係を保存するように、実空間においても、カメラ・参加者・物品（机・椅子）などを配置することで実現できる。

また、各地点において、その地点に存在しない（もう一方の地点に存在する）参加者・物品については、それらの仮想位置だけが得られる。参加者に提示する映像を表示する表示装置３は、仮想共有空間で想定される他の地点のユーザの位置に対応する実空間内の位置に設置される。これにより、参加者は、表示装置３を見て会話するだけで、表示装置３に自らと会話相手が対面して会話している様子を客観的な視点から見ることができるようになる。

（２．カメラの補正について）
なんらかの理由により、実空間のカメラ１が想定位置に対応する位置（仮想位置）に配置できない場合に、カメラ１が、カメラ映像について、回転・移動などの変換を用いて、不完全ではあるが、実際上効果のある補正をする方法について、図４および図５を用いて説明する。

（２．１．カメラの座標系）
カメラ座標系として、カメラ中心に原点Ｏ、カメラの前方に向かってｚ軸、カメラの水平方向にｘ軸、カメラの垂直方向にｙ軸がある右手系を考える（図５参照）。カメラの前方ｆの距離に、ｘｙ平面に平行なスクリーン面Ｓを想定し、３次元空間内の物体上の点

をカメラで撮影した場合、ｒは、画像上では、ｒをスクリーンに透視投影した点^T（ｕ，ｖ）に撮影されるものとする。ｆを焦点距離と呼ぶ。点^T（ｕ，ｖ）を同次座標系を用いて、

と表す。

である。

（２．２．カメラの回転）
カメラをｙ軸周りに反時計方向にθだけ回転したときに（カメラの首を横に振る）、回転後の座標系における物体の位置ｒθは、

で表せる。さらに、新しい座標系で、ｘ軸（図５のｘθ軸）周りに反時計方向にφだけカメラを回転した場合（仰角、伏角の補正）、回転後のカメラ座標系での物体の位置ｒφθは、

となる。さらに、回転後のｚ軸（図５のｚθ軸）周りに反時計方向にψだけ回転（捻り）を加えると、回転後の物体の位置

は、

で表せる。つまり、Ｍ_y（水平首振り）、Ｍ_x（仰角・伏角）、Ｍ_z（捻り）の回転行列の積

を用いれば、

である。従って、回転後のカメラで撮影した物体のスクリーン上の座標

は、

なので、

として求めることができる。従って、実空間のカメラ向きに対する仮想空間内のカメラの向きの差（回転角）を用いて、実空間で撮影された映像上の各ピクセルの座標から、仮想空間内のカメラ映像への写像が可能になる。

仮想空間におけるカメラの向きは、設計時に決定でき、実空間で設置可能なカメラの向きは、カメラ設置に用いる三脚等の機材に取り付けられた分度器等の測定器によって測定できるので、機器設営の現場で上記３つの回転角θ、φ、ψを得ることが可能であるので、上式を用いて、回転の補正処理が実施可能である。

（２．３．カメラの平行移動）
カメラを、移動ベクトル

だけ並行移動させた場合、移動後のカメラ座標系での、物体の位置ｒ_tは、

になる。従って、移動後のスクリーン上の位置ｓ_tは、

となる。但し、ｓは、移動前のカメラで撮影した、物体のスクリーン上の位置を表す同次座標値とする。

従って、撮影される全ての物体でｚ＝Ｃｏｎｓｔ．と近似することで、移動後のカメラ上の位置を近似的に求めることができる。逆変換は、式の変形でもできるが、移動後のカメラからみた物体の距離（ｚ座標値）を設定して、逆向きに移動すれば、仮想空間上のカメラでの撮影映像を得ることができる。

カメラの平行移動量は、現場でのカメラ位置の測定によって得ることができ、固定値とするｚ値は現場において、任意に決定することで、移動による補正処理が可能であるが、通常は最も重要な被写体（ユーザ等）からカメラまでの奥行きを用いれば良い。

また、ズームによる画角の補正は焦点距離ｆの違いとして補正できるので、
１．焦点距離（画角）補正
２．カメラ位置補正
３．回転補正
の順で補正することで、撮影映像から仮想空間のカメラ位置からの撮影映像への補正が近似的に実現できる。

なお、通常の会話の状況では、カメラの位置ずれは、仮想共有空間が想定通りではないという結果を生む。しかし、参加者は結果として提示された映像から、そういう配置の空間に居るというように解釈するため、仮想空間内で想定した仮想位置（理想的にはそこにカメラを配置すべき位置）から多少ずれていても、上述の補正を施せば、仮想空間内の配置を理解するうえで困難や違和感なく、自然に会話を進められる。

（３．カメラ切り替えによる多視点化システム）
本技術では、会話の参加者には、仮想共有空間内の客観的視点（想定視点）から見た映像を提供する。一般に、参加者が希望する視点（提示したい視点：想定視点）は一点とは限らない。ＴＶ番組において、複数のカメラを切り替えて多数の視点を提供するように、遠隔会話システムにおいても、複数の視点からの映像を切り替えて提示することが望ましい。

図６では、複数のカメラを第１、第２の両地点に配置し、カメラを切り替えることにより、複数の視点（想定視点）を切り替え、切り替わった視点（想定視点）からの仮想共有空間の映像を提示する本技術の実施例を示している。各地点において、仮想共有空間内で想定した複数の視点（図６ではＡ、Ｂ、Ｃ、Ｄの４点の想定視点を例として示している）に対応する実空間での仮想カメラ位置に実カメラ１Ａ〜１Ｄを設置する。

各地点において、カメラ１Ａは想定視点Ａに対応し、カメラ１Ｂは想定視点Ｂに対応し、カメラ１Ｃは想定視点Ｃに対応し、カメラ１Ｄは想定視点Ｄに対応する。

さらに、図７に示すように、カメラ切り替え部４Ａを設け、必要に応じて提示したい視点のカメラ（１Ａ、１Ｂ、１Ｃ、１Ｄのいずれか）を選択して、その撮影映像に対して通信合成処理を施す。

図７において、図１に示したものと同一構成のものには同一符号を付してある。

映像合成システム１０１Ａは、複数地点のそれぞれに設置され、複数地点の実空間の撮影映像を重畳して仮想空間の映像を生成し、仮想空間の映像を表示する。

映像合成システム１０１Ａは、複数のカメラ１Ａ〜１Ｄと、映像通信合成部２と、表示装置３と、カメラ切り替え部４Ａと、を含む。映像通信合成部２とカメラ切り替え部４Ａは、視点切り替え合成通信部５Ａに含まれる。カメラ切り替え部４Ａと送信部２１は、映像送信部６Ａに含まれる。

複数のカメラ１Ａ〜１Ｄは、複数の撮影手段の一例であり、図６に示すように、仮想共有空間を見る位置である複数の想定視点Ａ〜Ｄと個別に対応して設置され、自地点において仮想空間と対応づけられた実空間（図６参照）を撮影する。

映像送信部６Ａは、映像送信手段の一例である。

映像送信部６Ａは、複数の想定視点Ａ〜Ｄの中の選択想定視点（想定視点Ａ〜Ｄの任意の１つ）を示す選択情報を、ユーザである参加者から受け付けた場合に、参加者からの選択情報を、他の地点の映像合成システム１０１Ａに送信する。

また、映像送信部６Ａは、選択情報を他の地点の映像合成システム１０１Ａから受け付けた場合に、他の地点の映像合成システム１０１Ａからの選択情報にて示された選択想定視点に対応するカメラによる自地点の撮影映像を、他の地点の映像合成システム１０１Ａに送信する。

カメラ切り替え部４Ａは、参加者から選択情報を受け付けた場合、その選択情報にて示された選択想定視点に対応するカメラによる自地点の撮影映像を、送信部２１および映像合成部２３（具体的には、反転画像生成部２３１）に出力する。

なお、第１、第２地点のカメラ切り替え部４Ａ同士が、ネットワーク２００を介して、第１、第２地点間で視点の切り替え情報（具体的には、参加者からの選択情報）を交換し、その切り替え情報を、自地点の参加者からの選択情報として用いて、カメラ映像の出力を切り替えることにより、同時に両地点でもちいるカメラの切り替えを実施できる。

例えば、カメラ切り替え部４Ａは、参加者から選択情報を受け付けた場合、その選択情報にて示された選択想定視点に対応するカメラによる自地点の撮影映像を、送信部２１および反転画像生成部２３１に出力し、さらに、その選択情報を、送信部２１からネットワーク２００を介して、他の地点のカメラ切り替え部４Ａに送信する。そして、カメラ切り替え部４Ａは、他の地点のカメラ切り替え部４Ａから選択情報を受け付けた場合、その選択情報にて示された選択想定視点に対応するカメラによる自地点の撮影映像を、送信部２１および反転画像生成部２３１に出力する。

受信部２２は、受信手段の一例である。受信部２２は、他の地点の映像送信部６Ａから、他の地点の撮影映像を受信する。

映像合成部２３は、映像合成手段の一例である。映像合成部２３は、自地点の参加者からの選択情報にて示された選択想定視点に対応するカメラによる自地点の撮影映像と、受信部２２にて受信された他の地点の撮影映像と、を重畳して、仮想共有空間の映像を生成する。映像合成部２３は、仮想共有空間の映像を表示装置３に出力する。

表示装置３は、表示手段の一例であり、仮想共有空間の映像を表示する。

なお、選択想定視点に対応するカメラは、「（２．カメラの補正について）」で説明した手法を用いて、対応する選択想定視点と自己の視点との差に基づいて、自己の撮影映像を補正する。

また、視点切り替え合成通信部５Ａは、映像合成装置の一例である。

視点切り替え合成通信部５Ａは、例えば、ＣＰＵ、メモリおよび入出力装置を含むコンピュータにて構成されてもよい。この場合、コンピュータである視点切り替え合成通信部５Ａは、ハードディスクまたはメモリに記録されたプログラムに従って動作する。

コンピュータである視点切り替え合成通信部５Ａは、プログラムを記録媒体から読み取り実行することによって、送信部２１、受信部２２、映像合成部２３、および、カメラ切り替え部４Ａとして機能する。

本実施例によれば、参加者は、選択想定視点を示す選択情報を、映像合成システム１０１Ａに入力することによって、参加者の見たい視点（想定視点）から会話を観察することができる。このため、映像合成システム１０１Ａは、会話の場面に応じて適切な視点（想定視点）からの映像を提供することができる。例えば、参加者は、相手の表情を見たければ相手の顔が映る視点、机上の資料を見たければ机上を中心とする視点など、カメラの設置によって選択可能な視点を自由に切り替えることが可能になる。

また、本実施例では、参加者に提示する映像を表示する表示装置３は、仮想共有空間で想定される他の地点のユーザの位置に対応する実空間に設置される。これにより、参加者は、表示装置３を見て会話するだけで、自らと会話相手が対面して会話している様子を客観的な視点から見ることができるようになる。

また、本実施例では、映像合成部２３は、自地点の撮影映像と他の地点の撮影映像とを、画素ごとに任意の透明度で半透明化し重畳して仮想空間の映像を生成する。これにより、画面上で、２つの地点の映像のうち一方の濃度を濃く（他方を薄く）表示することが可能となり、画面の了解度を向上することが可能になる。

また、本実施例では、選択想定視点に対応するカメラは、選択想定視点と自己（カメラ自身）の視点との差に基づいて、自己の撮影映像を補正する。これにより、仮想空間のひずみ等を少なくすることが可能になる。

［実施例２］
（地点毎の視点選択システム）
さらに、第１地点と第２地点で提示したい視点（想定地点）が異なるケースに対応可能な実施例（実施例２）を、図８に示す。

各地点で提示したい視点（想定視点）が異なるケースとは、例えば、図８に示した視点を例にとると、第１地点の参加者は、第２地点の参加者の顔が見やすい視点（想定視点）Ｃを、第２地点の参加者は、第１地点の参加者の顔が見やすい視点（想定視点）Ｄを選択するというようなケースである。

このように、同一の仮想共有空間を構築していても、見たい視点（想定視点）が異なる場合、各々の地点において、異なる視点（想定視点）からの映像を用いた合成を行う必要がある。このため、図８では、相手地点が必要とする想定視点に対応するカメラ映像を送信するとともに、自地点では、自分が必要とする想定視点に対応するカメラ映像に対して、反転・重畳処理を行うようにする。また、相手からは自地点が必要とするカメラ映像を要求し、受信する。

図９は、本実施例（実施例２、図８）を実現する視点切り替え合成通信部５Ｂを含む映像合成システム１０１Ｂの構成を示している。図９において、図７に示したものと同一構成のものには同一符号を付してある。

映像合成システム１０１Ｂは、複数地点のそれぞれに設置され、複数地点の実空間の撮影映像を重畳して仮想空間の映像を生成し、仮想空間の映像を表示する。

映像合成システム１０１Ｂは、複数のカメラ１Ａ〜１Ｄと、映像通信合成部２と、表示装置３と、カメラ切り替え部４Ｂと、を含む。映像通信合成部２とカメラ切り替え部４Ｂは、視点切り替え合成通信部５Ｂに含まれる。カメラ切り替え部４Ｂと送信部２１は、映像送信部６Ｂに含まれる。

映像送信部６Ｂは、映像送信手段の一例である。

映像送信部６Ｂは、複数の想定視点Ａ〜Ｄの中の選択想定視点（想定視点Ａ〜Ｄの任意の１つ）を示す選択情報を、ユーザである参加者から受け付けた場合に、参加者からの選択情報を、他の地点の映像合成システム１０１Ｂに送信する。

また、映像送信部６Ｂは、選択情報を他の地点の映像合成システム１０１Ｂから受け付けた場合に、他の地点の映像合成システム１０１Ｂからの選択情報にて示された選択想定視点に対応するカメラによる自地点の撮影映像を、他の地点の映像合成システム１０１Ｂに送信する。

カメラ切り替え部４Ｂは、自地点用・相手地点用の２本のカメラ映像を取り出し、相手地点用映像を送信部２１に、自地点用映像を反転画像生成部２３１を介して画像重畳部２３２に送り、受信映像との合成映像を作成させる。

例えば、カメラ切り替え部４Ｂは、参加者から選択情報を受け付けた場合、その選択情報にて示された選択想定視点に対応するカメラによる自地点の撮影映像を、反転画像生成部２３１に出力する。

また、カメラ切り替え部４Ｂは、第２の地点（他の地点）のカメラ切り替え部４Ｂから選択情報を受け付けた場合、その選択情報にて示された選択想定視点に対応するカメラによる自地点の撮影映像を、送信部２１からネットワーク２００を介して、第２の地点（他の地点）のカメラ切り替え部４Ｂに送信する。

第１地点と第２地点の映像合成システム１０１Ｂは、互いに相手地点用の映像を送信しあうことにより、互いに見たい視点からの映像の合成が可能になる。

なお、視点切り替え合成通信部５Ｂは、映像合成装置の一例である。

視点切り替え合成通信部５Ｂは、例えば、ＣＰＵ、メモリおよび入出力装置を含むコンピュータにて構成されてもよい。この場合、コンピュータである視点切り替え合成通信部５Ｂは、ハードディスクまたはメモリに記録されたプログラムに従って動作する。

コンピュータである視点切り替え合成通信部５Ｂは、プログラムを記録媒体から読み取り実行することによって、送信部２１、受信部２２、映像合成部２３、および、カメラ切り替え部４Ｂとして機能する。

［実施例３］
（多地点多視点会話システム）
さらに、地点数を一般にｎ（ｎ≧３）に拡大した、多地点の遠隔会話システムに対し、各地点において望みの視点（想定視点）からの映像を提供するシステム構成の実施例（実施例３）を図１０Ａに示す。

図１０Ａにおいて、図７に示したものと同一構成のものには同一符号を付してある。

映像合成システム１０１Ｃは、複数地点のそれぞれに設置され、複数地点の撮影映像を重畳して仮想空間の映像を生成し、仮想空間の映像を表示する。

映像合成システム１０１Ｃは、複数のカメラ１１〜１ｎと、表示装置３と、多地点多視点映像通信合成部５Ｃと、を含む。多地点多視点映像通信合成部５Ｃは、多入力映像送信部２１Ｃと、受信部（多地点分）２２Ｃと、映像合成部２３と、カメラ切り替え部４Ｃと、を含む。

多地点の遠隔会話システムとしては、非特許文献２に提案されている、多人数の会話モデルに基づくシステムを想定する。

非特許文献２の会話システムでは、２地点の対話を基本とし、その対話を視聴する視聴地点を第３の地点として追加している。第３の地点は、複数個存在し得る（役割としての第３であって、個数が３であることを意味しない）。また、第１、第２、第３の役割は固定せず、ｎある地点のうち、任意の２地点が第１、第２の地点になり、残りが第３の地点になり得る。さらに、第１・第２の地点の対からなる対話も複数個存在できて、仮に、ｋ個の対が対話を行い（２ｋ個の地点が対話に直接関与）、残りのｎ−２ｋ個の地点が、ｋ個の対のいずれかを視聴する立場をとることができる。各地点の役割は、参加者の要求に基づいて切り替えることが可能とする。

本実施例では、仮想共有空間において、複数の選択可能な視点（想定視点）からの映像の合成に掛かる部分について述べる。仮想共有空間は、任意の地点対に対して想定でき、各仮想共有空間の想定視点に対応して実空間でのカメラを設置する。複数の仮想空間の想定視点を共通化すれば、実空間での仮想カメラ位置が一致するので実カメラは兼用できる。

各地点の映像合成システム１０１Ｃは、自地点のカメラ映像のうち、他地点で必要な各想定視点に対応するカメラの映像のすべてを、多入力映像送信部２１Ｃを介して、他のｎ−１地点の映像合成システム１０１Ｃに向けて、ネットワーク２００に配信する。なお、多入力映像送信部２１Ｃから送信される撮影映像は、自地点の地点情報と視点の選択情報を含まねばならないが、通信の結果それらが識別されれば良いので、地点のＩＰアドレスを地点情報とすることもでき、或いは、マルチキャスト通信であれば、マルチキャストアドレスなどを利用することもできる。

また、各地点の映像合成システム１０１Ｃは、必要な映像を、自地点以外のｎ−１地点の映像合成システム１０１Ｃからマルチキャストにより受信部（多地点分）２２Ｃを介して受信できるので、必要な映像を、映像合成部２３に取り込み、また、自地点のカメラ１１〜１ｎからは、必要な映像を、カメラ切り替え部４Ｃを介して映像合成部２３に取り込む。

本実施例では、各地点の映像合成システム１０１Ｃは、例えば、以下のようにして、各地点において必要な映像を認識する。

なお、各地点において必要とする映像とは、その地点の参加者が対話相手としている相手の映像、或いは、その地点の参加者が視聴中の対話を実際に実施している２地点の映像のうち、その地点の参加者が見たい想定視点に対応するカメラが撮影した映像である。

各地点において必要とする映像は、各地点の参加者によって、その地点の映像合成システム１０１Ｃに入力される。

各地点の映像合成システム１０１Ｃ（具体的には、カメラ切り替え部４Ｃおよび受信部２２Ｃ）は、自地点で必要な映像を、その地点の参加者からの指示に基づいて認識する。また、各地点の映像合成システム１０１Ｃ（多入力映像送信部２１Ｃ）は、各地点の参加者が必要と定めた映像を示す情報を、通信により、他の地点の映像合成システム１０１Ｃと情報交換することによって、他の地点で必要とする映像を認識する。

各地点の参加者は、例えば、以下のようにして指示を行う。

方法１：各地点の参加者は、対話か視聴かの区別、対話相手または視聴相手、みたい視点（想定視点）を特定するための地点名および視点番号などを、パラメータとして含むコマンドで指定する。

なお、対話相手の地点名は、他の地点のいずれか１つを示す地点情報の一例である。また、視聴したい対話の参加者の地点名（この場合、２つの地点が示される）は、他の地点を示す２つの地点情報の一例である。また、みたい視点（想定視点）を示す視点番号は、選択情報の一例である。

なお、ネットワーク上のサーバにより、対話と視聴の状況を制御する場合には、ユーザは、視聴したい１地点の地点情報をサーバに送信するだけで、視聴相手がさらに第３の地点と対話中か否かをサーバが自動判定して、地点を２つにする制御を行うことができ、ユーザの便宜を図ることも可能である。

方法２：各地点の映像合成システム１０１Ｃは、各地点を表すアイコン、みたい視点（仮想視点）を表すアイコンを表示装置３上に表示し、各地点の参加者は、マウスなどのポインティングデバイスを用いてアイコンを指定する。各地点の参加者は、必要な地点を選択し、さらにカメラアイコン（想定視点）を選択することで、対話相手や視点を指定（切替）して、必要な映像を指定する。

方法３（方法２の拡張）：各地点の映像合成システム１０１Ｃは、方法２のアイコンに相当するものとして、相手地点の映像を小さく表示し、参加者に相手の状態を示して、相手の選択を促す。

上述のようにして得られた映像に対して、必要に応じて鏡像反転処理を実施した後、画像重畳部２３２は、αブレンド処理を用いて以下のように場合に応じた合成を行う。

自地点が対話に参加している（第１、第２地点）場合：画像重畳部２３２は、相手地点と自地点における見たい視点（想定視点）からの映像を、αブレンドにより合成する。

他地点を視聴している場合：画像重畳部２３２は、相手地点からの視聴したい視点（想定視点）の映像を、そのまま、或いは、その上に自地点の任意のカメラの映像を（対話としてではなく画面上で自分の参照のために）αブレンドにより合成する。

他地点同士の対話を視聴している場合：画像重畳部２３２は、対話している２地点における、視聴したい視点（想定視点）からの映像（２本）をαブレンドにより合成する。さらに必要であれば、画像重畳部２３２は、自地点の任意のカメラの映像を（対話としてではなく画面上で自分の参照のために）αブレンドにより合成する。

さらに、画像重畳部２３２は、各地点から受信した映像並びに自地点の映像を縮小した映像を、上記の合成結果にさらに重畳合成して表示しても良い。この縮小映像は、画面上の子画面となり、ｎ地点全体の様子を確認するために参加者が利用でき、対話相手や視聴相手、視点の切り替えをシステムに指定するための参考情報とすることができる。

上記のように動作するために、多地点多視点映像通信合成部５Ｃは、以下のように動作する。

多入力映像送信部２１Ｃは、他の地点のいずれか１つを示す地点情報を、対話実施を指定する対話実施情報と選択情報と共に、自地点の参加者から受け付けた場合に、その参加者からの地点情報、対話実施情報および選択情報を、その地点情報で示された地点の映像合成システム１０１Ｃに送信する。

また、多入力映像送信部２１Ｃは、自地点を示す地点情報と選択情報とを対話実施情報と共に他の地点の映像合成システム１０１Ｃから受け付けた場合に、他の地点の映像合成システム１０１Ｃからの選択情報にて示された選択想定視点に対応するカメラによる自地点の撮影映像を、自地点を示す地点情報と選択情報と共に、他の地点の映像合成システム１０１Ｃに送信する。

なお、多入力映像送信部２１Ｃは、映像送信手段の一例である。

受信部２２Ｃは、他の各地点の多入力映像送信部２１Ｃから、他の地点の撮影映像を、地点情報と選択情報を伴って受信する。

受信部２２Ｃは、それら他の地点の撮影映像の中から、ユーザからの対話実施情報と共に受け付けた地点情報および選択情報に適合（合致）する地点情報および選択情報を伴って受信された他の地点の撮影映像を特定して、映像合成部２３にその撮影映像を出力する。

なお、受信部２２Ｃは、受信手段の一例である。

映像合成部２３は、自地点のユーザから対話実施情報と共に選択情報を受け付けた場合、さらに、自地点のユーザからの選択情報にて示された選択想定視点に対応するカメラによる自地点の撮影映像と、受信部２２Ｃから入力した他の地点からの撮影映像と、を重畳して、仮想空間の映像を生成する。

この場合（対話）、３地点以上のうちの任意の１地点と自地点の計２地点の映像から仮想空間の映像を生成することが可能になる。

また、多入力映像送信部２１Ｃは、さらに、対話、視聴の区別（例えば、視聴実施を指定する視聴実施情報）と、他の地点のいずれか１つを示す１つまたは２つの地点情報を、選択情報と共に、自地点の参加者から受け付けた場合に、その地点情報、視聴実施情報、および選択情報を、地点情報で指示された１つまたは２つの地点の映像合成システム１０１Ｃに送信する。

また、多入力映像送信部２１Ｃは、視聴実施情報と共に、自地点を示す地点情報と選択情報とを他の地点の映像合成システム１０１Ｃから受け付けた場合に、他の地点の映像合成システム１０１Ｃからの選択情報にて示された選択想定視点に対応するカメラによる自地点の撮影映像を、自地点を示す地点情報と選択情報と共に、他の地点の映像合成システム１０１Ｃに送信する。

受信部２２Ｃは、ユーザから視聴実施情報を受け付けた場合、他の各地点の多入力映像送信部２１Ｃからの他の地点の撮影映像の中から、ユーザによって指定された１つまたは２つの地点情報のいずれか及び選択情報に適合（合致）する地点情報および選択情報を伴った他の地点の撮影映像を特定して受信する。

映像合成部２３は、さらに、自地点のユーザからの視聴実施情報を受け付けた場合、受信部２２Ｃにて特定された他の地点の映像が２つであれば、それらの映像を重畳して、仮想空間の映像を生成し、受信部２２Ｃにて特定された他の地点の映像が１つであれば、その映像を仮想空間の映像とする。

この場合（視聴）、１つまたは２つの地点の映像から生成された仮想空間の映像を、他の地点で、所望の想定視点から見ることができる。

映像合成部２３は、さらに、２つの地点情報がある場合、受信部２２Ｃにて特定された２つの他の地点の撮影映像と自地点の任意のカメラによる自地点の撮影映像とを重畳して仮想空間の映像を生成する。

この場合、２つの地点の映像から生成された仮想空間の映像を、他の地点の参加者が見ている状況を、他の地点の参加者は、客観的に見ることができる。

また、映像合成部２３は、さらに、１つの地点の視聴の場合は、受信部２２Ｃにて特定された他の地点の撮影映像と、自地点の任意のカメラによる自地点の撮影映像とを重畳して仮想空間の映像を生成する。

なお、多地点多視点映像通信合成部５Ｃは、映像合成装置の一例である。

多地点多視点映像通信合成部５Ｃは、例えば、ＣＰＵ、メモリおよび入出力装置を含むコンピュータにて構成されてもよい。この場合、コンピュータである多地点多視点映像通信合成部５Ｃは、ハードディスクまたはメモリに記録されたプログラムに従って動作する。

コンピュータである多地点多視点映像通信合成部５Ｃは、プログラムを記録媒体から読み取り実行することによって、多入力映像送信部２１Ｃ、受信部２２Ｃ、映像合成部２３、および、カメラ切り替え部４Ｃとして機能する。

なお、上述したように、ネットワーク上のサーバにより、対話と視聴の状況を制御してもよい。

図１０Ｂは、ネットワーク上の会話制御サーバ７が対話と視聴の状況を制御する映像合成制御システムを説明するためのブロック図である。

図１０Ｂにおいて、会話制御サーバ７は、保持部７ａと、通知部７ｂと、を含む。保持部７ａは、保持手段の一例である。通知部７ｂは、通知手段の一例である。多地点多視点映像通信合成部５Ｃは、多入力映像送信部２１Ｃの代わりに多入力映像送信部２１Ｃ１を含み、受信部２２Ｃの代わりに受信部２２Ｃ１を含み、映像合成部２３の代わりに映像合成部２３Ｃを含む。

多入力映像送信部２１Ｃ１は、以下の点で、多入力映像送信部２１Ｃと異なる。多入力映像送信部２１Ｃ１は、地点情報、対話実施情報、視聴実施情報、並びに選択情報を、他の地点の映像合成システムに代えて、会話制御サーバ７に送信する。

保持部７ａは、現時点において、対話実施情報に基づいて撮影映像を送受信し合っている対話地点ペアの集合、並びに視聴実施情報に基づいて他の地点の撮影映像を受信している視聴地点の集合及び選択情報の集合として、会話状態情報を保持する。

通知部７ｂは、映像合成システムから受信した地点情報、対話実施情報または視聴実施情報、並びに選択情報に従って、保持部７ａ内の会話状態情報を、受信した地点情報、対話実施情報または視聴実施情報、並びに選択情報に合致するように、予め定めた規則に従って更新する。

通知部７ｂは、更新結果として、各地点の映像合成システムに、更新後の対話相手となる映像合成システムが存在する地点を示す地点情報、対話実施情報並びに選択情報、或いは更新後の視聴相手となる映像合成システムが存在する地点を示す地点情報、視聴実施情報、選択情報を通知する。

また、多入力映像送信部２１Ｃ１は、多入力映像送信部２１Ｃと異なり、他の地点の映像合成システムからの対話実施情報、視聴実施情報、並びに選択情報に代えて、会話制御サーバ７から受信した対話実施情報、視聴実施情報、並びに選択情報に従って、撮影映像の送信を行う。

受信部２２Ｃ１は、受信部２２Ｃと異なり、他の地点の映像合成システムからの対話実施情報、視聴実施情報、並びに選択情報に代えて、会話制御サーバ７から受信した対話実施情報、視聴実施情報、並びに選択情報に従って、撮影映像の受信および特定を行う。

映像合成部２３Ｃは、映像合成部２３と異なり、自地点ユーザからの対話実施情報、視聴実施情報、並びに選択情報に代えて、会話制御サーバ７から受信した対話実施情報、視聴実施情報、並びに選択情報に従って、撮影映像を重畳して、仮想空間の映像を生成する。

以下、図１０Ｂに示した映像合成制御システムの動作を説明する。

会話制御サーバ７では、保持部７ａは、ネットワーク２００上の全ての地点の映像合成システム間の対話・視聴の状態を表す会話状態情報を保持する。初期状態として、全ての地点の映像合成システムは、他のいずれの地点の映像合成システムとも対話も視聴も実施していない状態から動作が開始される。

いずれかの地点（以下Ａ地点）の映像合成システムが、他の地点（以下Ｂ地点）の映像合成システムと対話を開始する場合、Ａ地点の映像合成システム（多入力映像送信部２１Ｃ１）は、ユーザからの入力に基づいて、Ｂ地点を表す地点情報、対話実施情報並びに選択情報を、会話制御サーバ７に通知する。

会話制御サーバ７では、通知部７ｂが、会話状態情報として、Ａ地点とＢ地点の対話実施情報を、選択情報と共に、保持部７ａに登録（更新）する。

続いて、通知部７ｂは、Ａ地点とＢ地点の映像合成システム間での対話を開始するために、両地点の映像合成システムに、互いの相手地点を示す地点情報、対話実施情報並びに選択情報を通知する。

両地点の映像合成システムでは、自地点の選択情報に対応する撮影映像と、相手地点から受信する選択情報に従った映像を合成して仮想空間の映像が生成されて、対話が実施される。

さらに、第３の地点（以下Ｃ地点）の映像合成システムが、Ｂ地点の映像合成システムと対話の実施を要求する場合、Ｃ地点の映像合成システム（多入力映像送信部２１Ｃ１）は、ユーザからの入力に基づいて、会話制御サーバ７に対し、Ｂ地点を表す地点情報、対話実施情報並びに選択情報を通知する。

会話制御サーバ７では、通知部７ｂが、会話状態情報として、既存のＡ地点とＢ地点の対話実施情報を保持部７ａから削除し、Ｂ地点とＣ地点の対話実施情報を保持部７ａに登録する（更新）。この際、通知部７ｂは、保持部７ａ内の会話状態情報を、残されたＡ地点の映像合成システムがＢ地点の映像を視聴する状態に更新しても良い。この場合、サーバの会話状態情報は、Ｂ地点とＣ地点の映像合成システム間の対話に加え、Ａ地点の映像合成システムによるＢ地点とＣ地点の映像合成システム間の対話の視聴を登録した状態に更新される。

次に、会話制御サーバ７では、通知部７ｂは、更新の影響を受けたＡ地点、Ｂ地点、Ｃ地点の映像合成システムに新しい対話状態に合致するように、地点情報、対話実施情報或いは視聴実施情報並びに選択情報を通知する。

Ａ、Ｂ、Ｃ、各地点の映像合成システムは、受信した情報に従って、必要とされる映像を多入力映像送信部２１Ｃ１から送信し、また、必要な映像を受信部２２Ｃ１から受信し、映像合成部２３によって合成し、表示装置３によって表示することにより、更新後の会話状態情報に合致した対話或いは視聴を実施する。

続いて、第４の地点（以下Ｄ地点）の映像合成システム（多入力映像送信部２１Ｃ１）が、ユーザからの入力に基づいて、Ａ地点の対話実施情報を含む情報を会話制御サーバ７に通知すれば、Ａ地点はＢ地点Ｃ地点の視聴を停止し、Ｄ地点との対話状態に更新される。

以上のように、各地点の映像合成システムからの要求に応じて会話制御サーバ７において会話の状態全体を制御する。更新の及ぶ範囲は、要求を出した地点と対話中の地点、視聴中の地点、要求を出した地点の相手地点（地点情報としてサーバに通知される）、相手地点と対話中の地点、及び相手地点の対話を視聴中の地点の集合であり、会話制御サーバ７は、予め定められた規則に従って、これらの地点の対話・視聴の状態を、要求に従った状態に更新する。

各地点からの対話実施或いは視聴実施の要求に対して、会話制御サーバが会話状態を更新する規則は、システム設計時に任意に定めることが可能であり、上述したものはその一例である。

［実施例４］
（視聴のみを実施する第３の地点のシステム）
図１１は、実施例３（例えば、図１０Ａ）において、会話に直接参加せず、視聴のみを目的とした地点がある場合の実施例（実施例４）を示している。

図１１において、図１０に示したものと同一構成のものには同一符号を付してある。

映像合成システム１０１Ｄは、複数地点のそれぞれに設置され、複数地点の撮影映像を重畳して仮想空間の映像を生成し、仮想空間の映像を表示する。

映像合成システム１０１Ｄは、表示装置３と、視聴用映像受信合成部５Ｄと、を含む。視聴用映像受信合成部５Ｄは、受信部（多地点分）２２Ｃと、映像合成部２３と、を含む。

他地点或いは他地点同士の対話を視聴するために、視聴用映像受信合成部５Ｄは、送受信部のうち受信部分（受信部２２Ｃ）のみを持ち、映像合成部２３は、他地点からマルチキャストで受信した、見たい視点（想定視点）からの映像のみを用いて、自地点における映像を合成する。ただし、図では省略したが、自地点ユーザからの視聴実施情報、地点情報、選択情報の送信は行っている。

なお、視聴用映像受信合成部５Ｄは、例えば、ＣＰＵ、メモリおよび入出力装置を含むコンピュータにて構成されてもよい。この場合、コンピュータである視聴用映像受信合成部５Ｄは、ハードディスクまたはメモリに記録されたプログラムに従って動作する。

コンピュータである視聴用映像受信合成部５Ｄは、プログラムを記録媒体から読み取り実行することによって、受信部２２Ｃ、および、映像合成部２３として機能する。

以上説明した各実施例において、図示した構成は単なる一例であって、本発明はその構成に限定されるものではない。

複数の映像合成システムを有するコミュニケーション支援システム１０００を示したブロック図である。映像合成部２３の処理流れ図である。仮想共有空間（仮想空間）と実空間の空間配置の関係を示す例図である。カメラ映像の補正を説明するための説明図である。カメラ映像の補正を説明するための説明図である。本発明の実施例１を説明するための説明図である。本発明の実施例１を示したブロック図である。本発明の実施例２を説明するための説明図である。本実施例の実施例２を示したブロック図である。本実施例の実施例３を示したブロック図である。本実施例の実施例３の変形例を示したブロック図である。本実施例の実施例４を示したブロック図である。

符号の説明

１０１、１０１Ａ〜１０１Ｄ、」１０２映像合成システム
２００ネットワーク
１０００コミュニケーション支援システム
１、１Ａ〜１Ｄ、１１〜１ｎカメラ
２映像通信合成部
２１送信部
２１Ｃ、２１Ｃ１多入力映像送信部
２２受信部
２２Ｃ、２２Ｃ１受信部（多地点分）
２３、２３Ｃ映像合成部
２３１反転画像生成部
２３２画像重畳部
２３３合成用フレームメモリ
２３４表示用フレームメモリ
３表示装置
４Ａ〜４Ｃカメラ切り替え部
５Ａ〜５Ｂ視点切り替え合成通信部
５Ｃ多地点多視点映像通信合成部
６Ａ〜６Ｂ映像送信部
７会話制御サーバ
７ａ保持部
７ｂ通知部

Claims

複数地点のそれぞれに設置され、前記複数地点の実空間の撮影映像を重畳して仮想空間の映像を生成し表示する映像合成システムであって、
前記仮想空間を見る位置である複数の想定視点と個別に対応して設置され、自地点において前記仮想空間と対応づけられた実空間を撮影する複数の撮影手段と、
前記複数の想定視点の中の選択想定視点を示す選択情報をユーザから受け付けた場合に、前記ユーザからの選択情報を、他の地点の映像合成システムに送信し、前記選択情報を前記他の地点の映像合成システムから受け付けた場合に、前記他の地点の映像合成システムからの選択情報にて示された選択想定視点に対応する撮影手段による自地点の撮影映像を、前記他の地点の映像合成システムに送信する映像送信手段と、
前記他の地点の映像送信手段から、前記他の地点の撮影映像を受信する受信手段と、
前記ユーザからの選択情報にて示された選択想定視点に対応する撮影手段による自地点の撮影映像と、前記受信手段にて受信された他の地点の撮影映像と、を重畳して、前記仮想空間の映像を生成する映像合成手段と、
前記仮想空間の映像を表示する表示手段と、を含む映像合成システム。
前記表示手段は、前記仮想空間で想定される前記他の地点のユーザの位置に対応する実空間内の位置に設置される、請求項１に記載の映像合成システム。
前記映像合成手段は、前記自地点の撮影映像と前記他の地点の撮影映像とを、画素ごとに任意の透明度で半透明化し重畳して前記仮想空間の映像を生成する、請求項１または２に記載の映像合成システム。
前記選択想定視点に対応する撮影手段は、前記選択想定視点と自己の視点との差に基づいて、自己の撮影映像を補正する、請求項１から３のいずれか１項に記載の映像合成システム。
前記複数地点は、３以上の地点であり、
前記映像送信手段は、
他の地点のいずれか１つを示す地点情報を、対話実施を指定する対話実施情報並びに前記選択情報と共に前記ユーザから受け付けた場合に、前記ユーザからの地点情報、前記対話実施情報および選択情報を、前記ユーザから受け付けた地点情報によって示された地点の映像合成システムに送信し、
また、自地点を示す前記地点情報と前記選択情報とを前記対話実施情報と共に他の地点の映像合成システムから受け付けた場合には、前記他の地点の映像合成システムからの選択情報にて示された選択想定視点に対応する撮影手段による自地点の撮影映像を、自地点を示す地点情報と選択情報と共に、前記他の地点の映像合成システムに送信し、
前記受信手段は、他の各地点の映像送信手段から、前記他の地点の撮影映像を、前記地点情報と前記選択情報を伴って受信し、それら他の地点の撮影映像の中から、前記ユーザからの対話実施情報と共に受け付けた地点情報および選択情報に合致する地点情報および選択情報を伴って受信された他の地点の撮影映像を特定して前記映像合成手段にその撮影映像を出力し、
前記映像合成手段は、前記ユーザから前記対話実施情報と共に選択情報を受け付けた場合、さらに、ユーザから受け付けた選択情報にて示された選択想定視点に対応する撮影手段による自地点の撮影映像と、前記受信手段から入力した、他の地点からの撮影映像と、を重畳して、前記仮想空間の映像を生成する、請求項１から４のいずれか１項に記載の映像合成システム。
前記映像送信手段は、
さらに、各々、他の地点のいずれか１つを示す１つまたは２つの地点情報を、視聴実施を指定する視聴実施情報並びに、前記選択情報と共に前記ユーザから受け付けた場合に、各々の地点情報によって示された他の１つまたは２つの地点の映像合成システムへ、前記ユーザからの、視聴実施情報、地点情報および選択情報を送信し、
また、前記視聴実施情報と共に、自地点を示す前記地点情報と前記選択情報を、他の映像合成システムから受け付けた場合に、前記他の地点の映像合成システムからの選択情報にて示された選択想定視点に対応する撮影手段による自地点の撮影映像を、自地点を示す前記地点情報と選択情報と共に、前記他の地点の映像合成システムに送信し、
前記受信手段は、前記ユーザから前記視聴実施情報を受け付けた場合、さらに、前記他の各地点の映像送信手段からの前記他の地点の撮影映像の中から、前記ユーザによって指定された１つまたは２つの地点情報のいずれか及び選択情報に合致する地点情報および選択情報を伴った他の地点の撮影映像を特定して受信し、
前記映像合成手段は、前記ユーザから前記視聴実施情報を受け付けた場合、さらに、前記特定された他の地点の映像が２つであれば、それらの映像を重畳して、前記仮想空間の映像を生成し、前記特定された他の地点の映像が１つであれば、その映像を前記仮想空間の映像とする、請求項５に記載の映像合成システム。
前記映像合成手段は、前記特定された１つの他の地点の撮影映像、または２つの他の地点の撮影映像の重畳によって得られる映像に、さらに自地点の任意の撮影手段による自地点の映像を重畳して前記仮想空間の映像を生成する、請求項６に記載の映像合成システム。
請求項６または７に記載の映像合成システムと、前記映像合成システムと通信可能な会話制御サーバと、を含む、映像合成制御システムであって、
前記映像送信手段は、前記地点情報、前記対話実施情報、前記視聴実施情報、並びに前記選択情報を、前記他の地点の映像合成システムに代えて前記会話制御サーバに送信し、
前記会話制御サーバは、
現時点において、前記対話実施情報に基づいて前記撮影映像を送受信し合っている対話地点ペアの集合、並びに前記視聴実施情報に基づいて他の地点の撮影映像を受信している視聴地点の集合及び前記選択情報の集合として、会話状態情報を保持する保持手段と、
前記映像合成システムから受信した地点情報、対話実施情報または視聴実施情報、並びに選択情報に従って前記会話状態情報を、受信した地点情報、対話実施情報または視聴実施情報、並びに選択情報に合致するように予め定めた規則に従って更新し、更新結果として、各地点の映像合成システムに、更新後の対話相手となる映像合成システムが存在する地点を示す地点情報、対話実施情報並びに選択情報、或いは更新後の視聴相手となる映像合成システムが存在する地点を示す地点情報、視聴実施情報、選択情報を通知する通知手段と、を含み、
前記映像送信手段は、前記他の地点の映像合成システムからの前記対話実施情報、前記視聴実施情報、並びに前記選択情報に代えて、前記会話制御サーバから受信した前記対話実施情報、前記視聴実施情報、並びに前記選択情報に従って、撮影映像の送信を行い、
前記受信手段は、前記他の地点の映像合成システムからの前記対話実施情報、前記視聴実施情報、並びに前記選択情報に代えて、前記会話制御サーバから受信した前記対話実施情報、前記視聴実施情報、並びに前記選択情報に従って、前記撮影映像の受信および特定を行い、
前記映像合成手段は、前記ユーザから受け付けた前記対話実施情報、前記視聴実施情報、並びに前記選択情報に代えて、前記会話制御サーバから受信した前記対話実施情報、前記視聴実施情報、並びに前記選択情報に従って、撮影映像を重畳し、前記仮想空間の映像を生成する、映像合成制御システム。
複数地点のそれぞれに設置され、前記複数地点の実空間の撮影映像を重畳して仮想空間の映像を生成し、また、前記仮想空間を見る位置である複数の想定視点と個別に対応して設置され自地点において前記仮想空間と対応づけられた実空間を撮影する複数の撮影手段と表示装置とに接続される映像合成装置であって、
前記複数の想定視点の中の選択想定視点を示す選択情報をユーザから受け付けた場合に、前記ユーザからの選択情報を、他の地点の映像合成装置に送信し、前記選択情報を前記他の地点の映像合成装置から受け付けた場合に、前記他の地点の映像合成装置からの選択情報にて示された選択想定視点に対応する撮影手段による自地点の撮影映像を、前記他の地点の映像合成装置に送信する映像送信手段と、
前記他の地点の映像送信手段から、前記他の地点の撮影映像を受信する受信手段と、
前記ユーザからの選択情報にて示された選択想定視点に対応する撮影手段による自地点の撮影映像と、前記受信手段にて受信された他の地点の撮影映像と、を重畳して、前記仮想空間の映像を生成し、前記仮想空間の映像を前記表示装置に出力する映像合成手段と、を含む映像合成装置。
請求項９に記載の映像合成装置をコンピュータで実現するためのプログラムであって、
前記コンピュータを、
前記映像合成装置が有する全手段として機能させるプログラム。