JP2014086773A

JP2014086773A - 映像コミュニケーションシステム及び映像コミュニケーション方法

Info

Publication number: JP2014086773A
Application number: JP2012232015A
Authority: JP
Inventors: Akira Ishii; 亮石井; Shiro Ozawa; 史朗小澤; Harumi Kawamura; 春美川村; Akira Kojima; 明小島
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-10-19
Filing date: 2012-10-19
Publication date: 2014-05-12
Anticipated expiration: 2032-10-19
Also published as: JP5759439B2

Abstract

【課題】ユーザに対して映像中の対話相手の表現をより現実的にすることができる映像コミュニケーションシステムを提供する。
【解決手段】撮像側の２次元画像を撮影する画像取得手段と、２次元画像に基づき画像移動ベクトルを取得する手段と、画像取得手段の位置及び姿勢を測定する手段と、移動ベクトルと位置及び姿勢の変化とに基づいて撮像側の人物と人物以外の空間とを含む距離画像を生成する手段と、距離画像に基づき２次元画像に対応する撮像側の空間の３次元モデルデータを生成する手段と、３次元モデルデータで定義される３次元モデルの表面に対して、２次元画像をテクスチャとして貼り付けることにより、撮像側の空間の３次元画像を生成する手段と、表示側の人物の視点位置を検出する手段と、３次元画像から視点位置に応じた２次元画像に変換する手段と、表示側の表示装置に変換された２次元画像を表示する手段とを備えた。
【選択図】図２

Description

本発明は、撮像側の映像装置で撮影した映像を表示側の映像装置に伝送する映像コミュニケーションシステム及び映像コミュニケーション方法に関する。

映像コミュニケーションにおいて、対話相手とあたかも対面しているかのように、対話相手をユーザにどのような映像として提示するかが重要である。従来、映像コミュニケーションにおいては、あたかも実物大の対話相手が眼の前にいるように感じさせるために、対話相手の人物を２次元ディスプレイ上に実物大に映す方式が考えられている（例えば、特許文献１参照）。

対面会話において、対人間の距離感は、話しやすさや、緊張感に影響を与え重要である（参考文献１：エドワードホール、かくれた次元、２０００、みすず書房）。しかしながら、従来の２次元ディスプレイに映された対話相手では、どの位置から映像を観察しても２次元ディスプレイに表示された映像は変化しない。視点位置による画像変化が無いため、奥行き情報が欠落し、対話相手との距離の表現ができなかった。

すなわち、実際に、対話相手が眼の前にいるように感じさせるためには、実物大表示だけでは不十分である。例えば、ディスプレイ上に等身大に表示されている人物を見ても、個人によって人物がディスプレイよりも前や、後ろにいるように感じたり、そもそもどの奥行き位置にいるのかが把握できないために、実物より大きい、もしくは小さい人物がいるように感じられ、対話相手を等身大に感じることができない。このように、距離感が表現できないために、対面会話のように距離による会話への効果を期待することができない。

また、ユーザが映像中の対話相手とどれくらいの距離にいるのかを、把握することができなかったため、対面会話と同様に、対人距離を適度に調節することや、距離の遠近によってもたらせる緊張感が感じられなかった。

このような問題を解決するために、出願人は、ユーザに対して映像中の対話相手との距離感や現実感を与えることができる映像コミュニケーションシステムを提案している（特許文献２参照）。このシステムは、ディスプレイを窓に見立てて、ユーザと対話相手の空間が窓越しに繋がったような表現を行う。具体的には、ユーザの視点位置に応じて、対話相手の映像を変化させるという運動視差を実現し、距離に応じた人物サイズで対話相手を表示することで、ユーザに映像中の対話相手との距離感、現実感を与えることができるものである。

特許第３５８６１２６号公報特開２０１１−７７７１０号公報

しかしながら、特許文献２に開示された映像コミュニケーションシステムでは、１台のカメラ映像から、カメラに垂直な平面で空間を復元するため、空間中に存在する対話相手の人物や人物以外の空間の表現が十分でない。そのため、ユーザが水平方向に移動して対話相手の人物をのぞき込んでも横顔を見ることができなかった。また、人物の身体に視差が生じないため、指差し動作を行った際に、指が指している方向を正確に把握することができず、指差し動作などの非言語情報を正しく伝達することができないという問題がある。さらに、カメラやディスプレイといった機器が据え置きであるという前提で考えられており、カメラ付き携帯電話や手持ち端末といった、使用時に機器が移動するような場合には対応ができなかった。

本発明は、このような事情に鑑みてなされたもので、機器が固定でなくてもユーザに対して映像中の対話相手の表現をより現実的にすることができる映像コミュニケーションシステム及び映像コミュニケーション方法を提供することを目的とする。

本発明は、撮像側で撮影した映像を表示側において表示する映像コミュニケーションシステムであって、前記撮像側の人物と人物以外の空間とを含む２次元画像を撮影する画像取得手段と、前記画像取得手段によって撮影された２次元画像に基づいて、画像平面上における各特徴点の移動ベクトルを取得する移動量算出手段と、前記画像取得手段の位置及び姿勢を測定する位置測定手段と、前記移動ベクトルと、前記位置及び姿勢の変化とに基づいて、前記撮像側の人物と人物以外の空間とを含む距離画像を生成する距離画像生成手段と、前記距離画像に基づき前記２次元画像に対応する前記撮像側の空間の３次元モデルデータを生成する３次元モデル生成手段と、前記３次元モデル生成手段により得られた３次元モデルデータで定義される３次元モデルの表面に対して、前記２次元画像をテクスチャとして貼り付けることにより、前記撮像側の空間の３次元画像を生成する３次元画像生成手段と、前記表示側の人物の視点位置を検出する視点検出手段と、前記３次元画像から前記視点位置に応じた２次元画像に変換する画像変換手段と、前記表示側の表示装置に前記変換された２次元画像を表示する表示手段とを備えたことを特徴とする。

本発明は、撮像側で撮影した映像を表示側において表示する映像コミュニケーションシステムであって、前記撮像側の人物と人物以外の空間とを含む２次元画像を撮影する画像取得手段と、前記画像取得手段によって撮影された２次元画像に基づいて、画像平面上における各特徴点の移動ベクトルを取得する移動量算出手段と、前記画像取得手段の位置及び姿勢を測定する位置測定手段と、前記移動ベクトルと、前記位置及び姿勢の変化とに基づいて、前記撮像側の人物と人物以外の空間とを含む距離画像を生成する距離画像生成手段と、３次元人物モデルデータを記憶する人物モデル記憶手段と、撮影した前記２次元画像を人物領域画像と空間領域画像に分離する画像分離手段と、前記人物領域画像と、前記距離画像とから前記撮像側の人物の大きさと姿勢を推定する推定手段と、推定された前記人物の大きさと前記姿勢に基づき、前記人物モデル記憶手段に記憶されている前記３次元人物モデルデータを変形して前記人物領域画像に対応する３次元人物モデルデータを生成し、得られた３次元人物モデルデータで定義される人物モデルの表面に対して、前記人物領域画像をテクスチャとして貼り付けることにより、人物モデルを生成する人物モデル生成手段と、前記空間領域画像に対応する前記距離画像から３次元空間モデルデータを生成し、得られた３次元空間モデルデータで定義される空間モデルの表面に対して、前記空間領域画像をテクスチャとして貼り付けることにより空間モデルを生成する空間モデル生成手段と、前記空間モデルと、前記人物モデルとを合成した３次元画像を生成する３次元画像生成手段と、前記表示側の人物の視点位置を検出する視点検出手段と、前記３次元画像から前記視点位置に応じた２次元画像に変換する画像変換手段と、前記表示側の表示装置に前記変換された２次元画像を表示する表示手段とを備えたことを特徴とする。

本発明は、前記人物モデルの表面に対して貼り付けたテクスチャの情報を記憶しておくテクスチャ情報記憶手段をさらに備え、前記人物モデル生成手段は、新たな前記人物領域画像によるテクスチャが貼り付けられなかった前記人物モデルの表面に対して、前記テクスチャ情報記憶手段に記憶されたテクスチャを貼り付けることを特徴とする。

本発明は、撮像側で撮影した映像を表示側において表示するために、前記撮像側の人物と人物以外の空間とを含む２次元画像を撮影する画像取得手段と、前記画像取得手段の位置及び姿勢を測定する位置測定手段とを備える映像コミュニケーションシステムが行う映像コミュニケーション方法であって、前記画像取得手段によって撮影された２次元画像に基づいて、画像平面上における各特徴点の移動ベクトルを取得する移動量算出ステップと、前記移動ベクトルと、前記位置及び姿勢の変化とに基づいて、前記撮像側の人物と人物以外の空間とを含む距離画像を生成する距離画像生成ステップと、前記距離画像に基づき前記２次元画像に対応する前記撮像側の空間の３次元モデルデータを生成する３次元モデル生成ステップと、前記３次元モデル生成ステップにより得られた３次元モデルデータで定義される３次元モデルの表面に対して、前記２次元画像をテクスチャとして貼り付けることにより、前記撮像側の空間の３次元画像を生成する３次元画像生成ステップと、前記表示側の人物の視点位置を検出する視点検出ステップと、前記３次元画像から前記視点位置に応じた２次元画像に変換する画像変換ステップと、前記表示側の表示装置に前記変換された２次元画像を表示する表示ステップとを有することを特徴とする。

本発明は、撮像側で撮影した映像を表示側において表示するために、前記撮像側の人物と人物以外の空間とを含む２次元画像を撮影する画像取得手段と、前記画像取得手段の位置及び姿勢を測定する位置測定手段と、３次元人物モデルデータを記憶する人物モデル記憶手段とを備える映像コミュニケーションシステムが行う映像コミュニケーション方法であって、前記画像取得手段によって撮影された２次元画像に基づいて、画像平面上における各特徴点の移動ベクトルを取得する移動量算出ステップと、前記移動ベクトルと、前記位置及び姿勢の変化とに基づいて、前記撮像側の人物と人物以外の空間とを含む距離画像を生成する距離画像生成ステップと、撮影した前記２次元画像を人物領域画像と空間領域画像に分離する画像分離ステップと、前記人物領域画像と、前記距離画像とから前記撮像側の人物の大きさと姿勢を推定する推定ステップと、推定された前記人物の大きさと前記姿勢に基づき、前記人物モデル記憶手段に記憶されている前記３次元人物モデルデータを変形して前記人物領域画像に対応する３次元人物モデルデータを生成し、得られた３次元人物モデルデータで定義される人物モデルの表面に対して、前記人物領域画像をテクスチャとして貼り付けることにより、人物モデルを生成する人物モデル生成ステップと、前記空間領域画像に対応する前記距離画像から３次元空間モデルデータを生成し、得られた３次元空間モデルデータで定義される空間モデルの表面に対して、前記空間領域画像をテクスチャとして貼り付けることにより空間モデルを生成する空間モデル生成ステップと、前記空間モデルと、前記人物モデルとを合成した３次元画像を生成する３次元画像生成ステップと、前記表示側の人物の視点位置を検出する視点検出ステップと、前記３次元画像から前記視点位置に応じた２次元画像に変換する画像変換ステップと、前記表示側の表示装置に前記変換された２次元画像を表示する表示ステップとを有することを特徴とする。

本発明によれば、ユーザの視点（眼の位置）に応じて、対話相手の映像を変化させるという運動視差を実現し、距離に応じた人物サイズで対話相手を表示することで、ユーザに映像中の対話相手との距離感、現実感を与えることができる。特に、対話相手の人物や人物以外の空間を３次元情報に基づいて表示するようにしたため、ユーザに対して映像中の対話相手の人物や人物以外の空間の表現をより現実的にすることができるという効果が得られる。

本発明による映像表示のイメージを示す概念図である。本発明の第１の実施形態による映像コミュニケーションシステムの構成を示すブロック図である。図２に示す映像コミュニケーションシステムにおける撮像側の装置の動作を示すフローチャートである。テクスチャデータが貼り付けられた３次元モデルデータの一例を示す説明図である。図２に示す映像コミュニケーションシステムにおける表示側の装置（視点位置検出部４、画像変換部５、映像表示部６）の動作を示すフローチャートである。図２に示す画像変換部５が行う透視変換の動作を示す概念図である。本発明の第２の実施形態による映像コミュニケーションシステムの構成を示すブロック図である。図７に示す映像コミュニケーションシステムにおける撮像側の装置（３次元画像生成部３）の動作を示すフローチャートである。人物領域画像と人物以外の空間領域画像とに分離する動作を示す説明図である。人物領域画像から顔検出と骨格抽出を行う動作を示す説明図である。骨格抽出、人物モデルの変形、テクスチャ貼り付け、３次元画像生成の処理動作を示す説明図である。人物モデルによる３次元画像の大きさ情報の算出方法を説明するための概念図である。実際に生成される「３次元画像情報」の例を示す概念図である。図７に示す映像コミュニケーションシステムにおける表示側の装置（視点位置検出部４、画像変換部５、映像表示部６）の動作を示すフローチャートである。図７に示す画像変換部５が行う透視変換の動作を示す概念図である。

以下、図面を参照して、本発明の実施形態による映像コミュニケーションシステムを説明する。始めに、本実施形態による映像コミュニケーションシステムの動作原理について説明する。本実施形態による映像コミュニケーションシステムは、撮像側の装置と表示側の装置とを備え、撮像側の装置から人物と空間とに分けた３次元画像情報を表示側の装置へ送り、表示側の装置では表示側にいる人物の眼の位置に応じて、送られた３次元画像を２次元変換して、表示側の人物から見える画像を生成して表示することによって対話相手の人物の表現をより現実的にするものである。

すなわち、２地点での映像コミュニケーションにおいて、ディスプレイを１枚の窓に見立てて、ユーザと対話相手とが互いにあたかも相手の空間を窓越しに覗いているかのように、ユーザの視点位置に応じて、その位置から見える対話相手の空間の映像をディスプレイに表示すること（運動視差）を実現し、映像中の対話相手の奥行き情報を表現するものである。

図１は、本実施形態による映像表示のイメージを示す概念図である。図１において、ユーザ１００が視点を変えると（３軸移動に対応）、映像中の対話相手２００と空間３００の画像（図では説明のため空間を背景のみで構成）を、その視点の変化に応じて２次元ディスプレイ４００上に表示することで、対話相手２００の見え方があたかも現実的に再現される。

すなわち、ユーザ１００が位置Ｐ１にて２次元ディスプレイ４００に対峙する場合には、対話相手２００および空間３００を正面から見ているように表示し、ユーザ１００が左側の位置Ｐ２から見ている場合には、対話相手２００に対し向かって左側の横顔や人物以外の空間にある空間３００との位置関係（奥行き）を反映し、対話相手２００を左側から見ているように表示し、ユーザ１００が右側の位置Ｐ３から見ている場合には、対話相手２００に対し向かって右側の横顔や人物以外の空間にある空間３００との位置関係（奥行き）を反映し、対話相手２００を右側から見ているように表示する。

＜第１の実施形態＞
図２は第１の実施形態による映像コミュニケーションシステムの構成を示すブロック図である。本明細書においては、動画の１フレーム分を「画像」と称し、複数の「画像」を連続して表示して動画とした状態のものを「映像」と称する。本実施形態では、撮影された２次元画像と距離画像から、対話相手の空間を３次元モデル化し、得られた３次元モデルの表面に対して、２次元画像をテクスチャとして貼り付けた３次元画像を生成し、この３次元画像をユーザの視点位置に応じて、ディスプレイ面に投影して表示する方法について説明する。図２に示す映像コミュニケーションシステムは、ユーザ（以下、ユーザＡ）及び対話相手（以下、ユーザＢ）のそれぞれに用意され、双方向通信を介して使用される。以下では、ユーザＡのディスプレイにユーザＢ（対話相手）の映像を表示するものとして説明する。

画像取得部１は、撮影装置（カメラ）からなり、ユーザＢの２次元映像を撮影する。画像取得部（ユーザＢ）１は、ユーザＡの視線とユーザＢの視線とを合わせるために、ユーザＢのディスプレイ（映像表示部：図示略）上に表示されるユーザＡの眼位置（眼位置とは、両眼の目頭を結ぶ線分の中点の位置）に、光学的、または、仮想的に、カメラのレンズ中心がくるように配置される。

例えば、ディスプレイとユーザＢとの間にハーフミラーを、ディスプレイの平面の法線とハーフミラーの法線のなす角度が４５度となるように設置し、カメラを該ハーフミラーの上方または下方に、ハーフミラーからディスプレイまでの距離だけ離して設置することにより、ハーフミラーを介して撮像する手法を用いればよい。

また、ディスプレイを隠さないように、ユーザＢのディスプレイの周囲に複数のカメラを配置し、ＦＴＶ（Ｆｒｅｅ−ＶｉｅｗｐｏｉｎｔＴｅｌｅｖｉｓｉｏｎ）技術によって、周囲の複数のカメラ画像から、ユーザＢのディスプレイ上に表示されるユーザＡの視点位置にある仮想視点の映像を生成する手法を用いるようにしてもよい。その他、視線を一致させるために、カメラ位置をできるだけ、ユーザＢのディスプレイに表示されたユーザＡの眼位置にレンズ中心が来るように配置するようにしてもよい。以後、ユーザＢのディスプレイの中心にカメラレンズの中心があるようにカメラが設置されており、カメラの撮像面がディスプレイ面にあると仮定して説明する。

移動量算出部２１は、画像取得部１によって取得された時系列の複数の画像に基づいて、画像平面上における各特徴点の移動ベクトル（以下、「画像移動ベクトル」という。）を算出する。移動量算出部２１は、例えばオプティカルフローを生成することによって画像移動ベクトルを算出する。移動量算出部２１は、算出した画像移動ベクトルを距離画像生成部２３に出力する。

位置測定部２２は、画像取得部１の位置及び姿勢を測定する。位置測定部２２は、例えばジャイロセンサ及び加速度センサを用いて構成されても良い。より具体的には、位置測定部２２は、移動量算出部２１によって移動量が算出された際に用いられた２つの画像それぞれの撮像時における画像取得部１の相対的な位置及び姿勢の変化（以下、「カメラ移動ベクトル」という。）を測定する。

距離画像生成部２３は、移動量算出部２１によって算出された画像移動ベクトルと、位置測定部２２によって測定されたカメラ移動ベクトルと、に基づいてユーザＢの空間の距離画像を取得する。例えば、距離画像生成部２３は、オプティカルフローによって移動ベクトルが表される特徴点毎に、画像移動ベクトル及びカメラ移動ベクトルに基づいて、実空間における画像取得部１からの距離を算出する。そして、距離画像生成部２３は、全ての特徴点について距離を算出することによって、距離画像を生成する。距離画像は、例えば、Ｘ行Ｙ列の２次元配列のデータ形式に、距離画像生成部２３からの距離情報を各要素に持つ。

３次元画像生成部３は、距離画像生成部２３によって得られた距離画像からユーザＢの空間を３次元モデル化し、この３次元モデルに対して、画像取得部１によって撮影された２次元画像をテクスチャとして貼り付けた３次元画像情報を生成して出力する。

視点位置検出部４は、顔認識及びステレオマッチングを用いた画像処理技術や、光学式または磁気式のモーショントラッキング技術等を用いて、ユーザＡの視点（眼）位置がどこにあるかを示すユーザＡの視点位置Ｖ（ｖ_ｘ，ｖ_ｙ，ｖ_ｚ）を検出して出力する。

画像変換部５は、視点位置検出部４によって検出された、ディスプレイ位置に対するユーザＡの視点位置と、３次元画像生成部３によって生成されて出力されたユーザＢの３次元画像情報から、ユーザＡのディスプレイ面に表示する画像（「ユーザＡの視点位置に応じた、ユーザＢの２次元画像」）に変換する。

映像表示部６は、ディスプレイ装置で構成し、画像変換部５により変換されたユーザＡの視点位置に応じたユーザＢの２次元画像を表示する。

次に、図２を参照して、図２に示す３次元画像生成部３の詳細な構成を説明する。３次元モデル生成部３１は、距離画像生成部２３によって取得したユーザＢの空間の距離情報から３次元ポリゴンデータあるいは３次元点群データを作成し、３次元モデルデータとして出力する。３次元画像出力部３２は、３次元モデルデータで表現される３次元モデルの表面に画像取得部１によって得られた２次元画像をテクスチャとして貼り付けることにより３次元画像情報を得る。

なお、上述した構成において、画像取得部１、距離画像生成部２３及び３次元画像生成部３は、ユーザＢ側の撮像側装置として設けられており、通信回線等を介して、３次元画像生成部３により生成された、ユーザＢの３次元画像情報を、所定の通信手段、通信回線を介して、ユーザＡ側の表示側装置に伝送する。また、図２には示していないが、実際には、ユーザＡ側にもユーザＢ側と同様に、ユーザＡの２次元映像（画像）を撮影する画像取得部、ディスプレイ面（映像表示部６の画面）とユーザＡ間の距離を取得する距離情報取得部及び「ユーザＡの２次元画像」から「ユーザＡの３次元画像情報」を生成する３次元画像生成部が備えられている。

次に、図３を参照して、図２に示す映像コミュニケーションシステムの動作を説明する。図３は、図２に示す映像コミュニケーションシステムにおける撮像側の装置（移動量算出部２１、位置測定部２２、距離画像生成部２３、３次元画像生成部３）の動作を示すフローチャートである。ここでは、ユーザＢ側の画像取得部１において撮影した映像から３次元画像情報を生成してユーザＡ側へ出力する動作を説明する。まず、移動量算出部２１及び３次元画像生成部３は、画像取得部１によって撮影された「ユーザＢの２次元画像」を入力する（ステップＳ１）。移動量算出部２１は、入力された２次元画像に基づいて画像移動ベクトルを算出する（ステップＳ２）。これと並行して、位置測定部２２はカメラ移動ベクトルを算出する（ステップＳ３）。距離画像生成部２３は、画像移動ベクトル及びカメラ移動ベクトルに基づいて距離画像を生成する（ステップＳ４）。３次元画像生成部３は、距離画像生成部２３によって生成されたユーザＢの空間の距離画像を入力する。

次に、３次元モデル生成部３１は、距離画像生成部２３から入力した距離画像から３次元モデルデータを生成して出力する（ステップＳ５）。３次元モデルデータは、距離画像生成部２３によって生成されたユーザＢの空間の距離情報から３次元ポリゴンデータあるいは３次元点群データを作成し、これを３次元モデルデータとする。これにより、人物（ユーザＢ）を含む空間の３次元形状データ（３次元モデル）が生成されたことになる。

次に、３次元画像出力部３２は、３次元モデル生成部３１から出力する３次元モデルデータによって表現される３次元モデルの表面に対して、画像取得部１から入力した２次元画像をテクスチャデータとして貼り付けて３次元画像情報を生成する（ステップＳ６）。図４は、テクスチャデータが貼り付けられた３次元モデルデータの一例を示す説明図である。図４に示すように、上記処理動作によって、画像取得部１によって撮影された２次元画像をテクスチャデータとした３次元形状を定義した３次元画像情報が生成されたことになる。そして、３次元画像出力部３２は、生成された３次元画像情報を画像変換部５に対して伝送する（ステップＳ７）。

次に、図５を参照して、図２に示す映像コミュニケーションシステムにおける表示側の装置の動作を説明する。図５は、図２に示す映像コミュニケーションシステムにおける表示側の装置（視点位置検出部４、画像変換部５、映像表示部６）の動作を示すフローチャートである。

まず、画像変換部５は、３次元画像出力部３２から伝送された３次元画像情報を入力する（ステップＳ２１）。続いて、視点位置検出部４は、ユーザＡの視点（眼）位置がどこにあるかを示すユーザの視点位置Ｖ（ｖ_ｘ，ｖ_ｙ，ｖ_ｚ）を検出し、この視点位置Ｖを画像変換部５へ出力する（ステップＳ２２）。画像変換部５では、「ディスプレイ位置に対するユーザＡの視点位置」に応じて、「ユーザＢの３次元画像情報」を、ユーザＡの映像表示部６の画面に表示する映像（「ユーザの視点位置に応じた２次元画像」）へ変換することにより、２次元画像を生成する（ステップＳ２３）。「ユーザの視点位置に応じた２次元画像」は、「ユーザＢの３次元画像情報」を、「ディスプレイ位置に対するユーザＡの視点位置」を基点に、ユーザＡの映像表示部６の画面に透視投影などの射影変換を行うことで生成する。

図６は、画像変換部５が行う透視変換の動作を示す概念図である。ディスプレイの中心を座標系の原点Ｏ（０，０，０）とし、ディスプレイ面の横方向にｙ軸、縦方向にｘ軸、ディスプレイ面の法線をｚ軸とし、ユーザ位置とは逆向きを正の方向とする。ユーザの視点位置をＶ（ｖ_ｘ，ｖ_ｙ，ｖ_ｚ）（但し、ｖ_ｚ＜０）としたとき、ディスプレイ面上の点Ｄ（ｘ，ｙ，ｚ）に投影されるべき、３次元画像情報ｉの点Ｈ_ｉ（ｈ_ｘ，ｈ_ｙ，ｈ_ｚ）は、次式（１）により算出される。

なお、数式（１）の変換行列式中の座標は、実寸の情報を有する座標系ということを前提にしている。

この処理を、ディスプレイ面上の各画素において行うことにより２次元画像への変換を行う。なお、その他、平行投影といった一般的な射影変換の手法も利用してもよい。

最後に、映像表示部６は、画像変換部５により変換された映像、すなわち、ユーザＡの視点位置に応じたユーザＢの２次元画像を表示する（ステップＳ２４）。

なお、図２に示す画像変換部５は、撮像側の３次元画像生成部３内に備え、視点位置検出部４において検出された視点位置の情報を表示側から撮像側へ伝送し、この視点位置の情報に基づき、３次元画像生成部３内に備えた画像変換部５が視点位置に応じた２次元画像に変換を行い、この変換後の２次元画像を撮像側から表示側へ伝送し、この伝送された２次元画像を映像表示部６に表示するようにしてもよい。これにより、表示側の装置構成を簡単にすることができる。

このように、ユーザの視点（眼の位置）に応じて、映像が変化するため、運動視差を実現することができるとともに、距離に応じた人物サイズで対話相手を表示することから、視覚的に窓１枚を挟んで対面しているときと同等の情報が得られ、映像中の対話相手に奥行きに係る手がかりが与えられ、ユーザが映像中の対話相手との距離感を把握することができる。それにより、対面会話と同様に距離を適度に調節したり、対面会話において距離がもたらす、話しやすさ、緊張感の有無の効果をもたらすことができる。また、映像が変化するため、あたかも実物大の対話相手が眼の前にいるかのように感じさせることができ、従来技術のように２次元映像で人物を提示したものに比べて、視線・姿勢などの非言語情報と、遠隔地に存在する対話相手とあたかも同じ空間を共有している感覚（臨場感）とを与えることができる。特に、対話相手の人物と人物以外の空間を３次元画像情報に基づいて表示するようにしたため、ユーザに対して映像中の対話相手の人物や人物以外の空間の表現をより現実的にすることができる。

また、距離画像は、距離画像センサによって取得されるのではなく、２次元画像から生成された画像移動ベクトルと、位置測定部２２によって測定されたカメラ移動量と、に基づいて生成される。そのため、ユーザＢ側において距離画像センサを設ける必要が無い。ユーザＢ側の各機能を備えた装置を、携帯可能な小型の装置として構成する場合には、一般的に距離画像センサを備えることが困難である。また、距離画像センサを備えることが可能であるとしても、装置が高価になってしまう。このような問題に対し、上述した構成によれば、距離画像センサが不要となるため、装置の小型化やコスト削減が可能となる。そのため、例えばユーザＢ側における装置を、タブレット型の情報処理端末や、スマートフォン等の可搬性のある装置として構成することが可能となる。

（変形例）
距離画像生成部２３は、画像取得部１によって取得される２次元画像に基づいて、生成した距離画像を補正するように構成されても良い。以下、距離画像生成部２３が行う補正処理の具体例について説明する。
まず、距離画像生成部２３は、画像取得部１によって取得される２次元画像に対し、セグメンテーション処理を行う。セグメンテーション処理とは、画像中のエッジ等の特徴部分を抽出することによって、画像に写っている物体毎に画像領域を分割する処理である。距離画像生成部２３は、一つの領域内の距離の値は同一の値（又は、所定の範囲内の値）であるという前提に基づいて、生成した距離画像の各画素の値（距離の値）を補正する。例えば、距離画像生成部２３は、領域毎に距離の値の平均値を算出し、距離の値と平均値との差が閾値以上となる画素が存在した場合、その画素の距離の値を平均値に置き換える。距離画像生成部２３は、このような処理を各領域について行うことによって、距離画像の補正処理を行う。
このような補正処理が行われることによって、距離画像の精度を向上させることが可能となる。

３次元モデル生成部３１は、ステップＳ５の処理において生成した３次元モデルデータを逐次記憶し、記憶されている複数の３次元モデルデータを複数統合しても良い。複数の３次元モデルデータの統合は、例えば各３次元モデルデータが生成された際の画像取得部１の位置及び姿勢に基づいて行われても良い。このような統合処理によって、１度の撮影によって画像に写る範囲よりも広い範囲の３次元モデルデータが生成されても良い。したがって、表示側においてユーザＡがユーザＢの空間の端の方向をのぞき込んだ場合にも、画面の端まで空間の画像を再現することが可能となる。

＜第２の実施形態＞
図７は第２の実施形態による映像コミュニケーションシステムの構成を示すブロック図である。本実施形態では、撮影された２次元画像と距離画像から、対話相手の空間を３次元モデル化し、得られた３次元モデルの表面に対して、２次元画像をテクスチャとして貼り付けた３次元画像を生成し、この３次元画像をユーザの視点位置に応じて、ディスプレイ面に投影して表示する方法について説明する。図７に示す映像コミュニケーションシステムは、ユーザ（以下、ユーザＡ）及び対話相手（以下、ユーザＢ）のそれぞれに用意され、双方向通信を介して使用される。以下では、ユーザＡのディスプレイにユーザＢ（対話相手）の映像を表示するものとして説明する。

移動量算出部２１、位置測定部２２及び距離画像生成部２３は、図２に示した第１の実施形態と同様の構成である。
３次元画像生成部３は、距離画像生成部２３によって得られた距離画像からユーザＢの空間を３次元モデル化し、この３次元モデルに対して、画像取得部１によって撮影された２次元画像をテクスチャとして貼り付けた３次元画像情報を生成して出力する。

次に、図７を参照して、図７に示す３次元画像生成部３の詳細な構成を説明する。画像バッファ３５は、画像取得部１において撮影した画像の少なくとも１フレーム分の記憶領域と、画像処理に用いる作業領域を有する。空間分離部３６は、画像バッファ３５に記憶されている画像から、人物領域画像と空間領域画像とを分離してそれぞれの画像を画像バッファ３５の作業領域に記憶する。顔検出部３７は、画像バッファ３５に記憶されている人物領域画像から顔領域を検出する。骨格抽出部３８は、画像バッファ３５に記憶されている人物領域画像から骨格抽出を行って骨格情報を得る。姿勢推定部３９は、骨格抽出部３８において得られた骨格情報に基づき、人物の姿勢を推定する。テクスチャ抽出部４０は、画像バッファ３５に記憶されている人物領域画像及び空間領域画像から人物と空間のテクスチャ情報を抽出する。空間モデル生成部４１は、距離画像生成部２３において生成した距離画像からユーザＢの空間のうち、空間に相当する部分の３次元モデルデータである空間モデルを生成する空間モデル生成部である。

人物モデル記憶部４２は、一般的な人間の体格の３次元形状データが３次元人物モデルデータとして予め記憶されている。人物テクスチャ情報記憶部４３は、人物モデルに対して貼り付けたテクスチャのテクスチャ情報を記憶する。人物モデル生成部４４は、人物モデル記憶部４２に記憶されている人物モデルを用いて、画像取得部１において撮影した人物に似せた人物モデルを生成する。３次元画像出力部４５は、人物モデル生成部４４において生成した人物モデル（撮影された人物の３次元形状データ）と、空間モデル生成部４１において生成した空間モデル（撮影された空間の３次元形状データ）とから画像取得部１において撮影された２次元画像に対応する３次元画像情報を生成して出力する。

なお、上述した構成において、画像取得部１、距離画像生成部２３及び３次元画像生成部３は、ユーザＢ側の撮像側装置として設けられており、通信回線等を介して、３次元画像生成部３により生成された、ユーザＢの３次元画像情報を、所定の通信手段、通信回線を介して、ユーザＡ側の表示側装置に伝送する。また、図７には示していないが、実際には、ユーザＡ側にもユーザＢ側と同様に、ユーザＡの２次元映像（画像）を撮影する画像取得部、ディスプレイ面（映像表示部６の画面）とユーザＡ間の距離を取得する距離情報取得部及び「ユーザＡの２次元画像」から「ユーザＡの３次元画像情報」を生成する３次元画像生成部が備えられている。

次に、図８を参照して、図７に示す映像コミュニケーションシステムの動作を説明する。図８は、図７に示す映像コミュニケーションシステムにおける撮像側の装置（３次元画像生成部３）の動作を示すフローチャートである。ここでは、ユーザＢ側の画像取得部１において撮影した映像をユーザＡ側へ出力する動作を説明する。まず、３次元画像生成部３は、画像取得部１によって撮影された「ユーザＢの２次元画像」と、距離画像生成部２３によって生成された「距離画像」とを入力する（ステップＳ３１）。画像取得部１から入力した画像は、画像バッファ３５に記憶する。なお、３次元画像生成部３に入力される距離画像は、図３のステップＳ１〜Ｓ４の処理によって生成される。

次に、空間分離部３６は、「距離画像」に基づいて、「ユーザＢの２次元画像」を、人物領域画像と人物以外の空間領域画像とに分離する（ステップＳ３２）。人物領域と空間領域の分離には、ディスプレイが据え置きの映像コミュニケーションにおいては、空間が多くの場合に固定であるため、背景差分を利用し、予め空間のみを撮影しておき、それをリファレンスとして差分を取得することで人物領域を抽出する。また、その他の方法として、画像中からの顔検出処理により、人物の顔を検出し、その近傍にある領域を人物領域とする方法も利用できる。

図９は、人物領域画像と人物以外の空間領域画像とに分離する動作を示す説明図である。図９に示すように、空間分離部３６は、撮影された画像Ａを空間領域画像Ｂと人物領域画像Ｃに分離する。このとき、単純に人物領域を抜いただけでは空間画像中の人物領域にあたる部分（図９の破線で示した部分）の画像が欠落してしまう。このため、欠落している空間画像の領域を過去の空間画像から補完する。この補完した空間画像を空間領域画像とする。その他、空間中のオブジェクトが大きく移動や変化をしないと仮定し、事前に撮影した空間画像を使用してもよい。または、プライバシー保護の観点から、空間部分を実際とは違う画像と差し替えてもよい。空間分離部３６は、分離した空間領域画像Ｂと人物領域画像Ｃを画像バッファ３５の作業領域に記憶する。

次に、顔検出部３７は、画像バッファ３５に記憶されている人物領域画像から顔検出処理を行って顔領域画像を切り出す（ステップＳ３３）。そして、顔検出部３７は、顔の特徴点である眼、鼻、口、眉などの顔を構成する部位の位置情報を検出し、この顔を構成する部位の位置情報から顔全体の位置情報と、顔が向いている方向の情報を特定する。顔検出部３７は、特定した顔全体の位置情報と、顔が向いている方向の情報とを人物モデル生成部４４と姿勢推定部３９へ出力する。なおこのとき、距離画像生成部２３で得られた距離画像を用いることで、顔検出の精度向上が可能である。具体的には以下の通りである。顔検出部３７は、直前の画像フレーム（１枚以上のフレーム）で取得された、２次元画像中の顔位置に対応する距離を保持しておく。顔検出部３７は、その距離から大幅に外れた箇所は顔領域では無いと判断し、距離が近い画像領域のみを顔が存在する候補とする。

次に、骨格抽出部３８は、画像バッファ３５に記憶されている人物領域画像から骨格抽出を行う（ステップＳ３４）。骨格抽出は、人物領域画像から頭、腕、手、上半身、足などを抽出し、これらに仮想の骨を割り当て、割り当てた骨の位置情報を検出することにより行う。

図１０は、人物領域画像から顔検出と骨格抽出を行う動作を示す説明図である。図１０に示すように、人物領域画像Ｃから顔部分を切り出した顔領域画像Ｅを用いて、顔を構成する部位の位置情報を検出する。また、人物領域画像Ｃに対して仮想の骨を割り当てることにより、人物の骨格を抽出し、骨格の位置情報Ｆを検出する。顔検出処理や骨格抽出処理は公知の処理方法を適用することができるため、ここでは処理の詳細な説明を省略する。

次に、骨格抽出部３８は、距離画像生成部２３によって生成された距離画像と画像取得部１が取得した画像の画角情報とから抽出した骨格の実際の大きさ（ユーザＢの大きさに相当する）を推定する（ステップＳ３５）。骨格抽出部３８は、骨格の位置情報と骨格の実際の大きさ情報とを人物モデル生成部４４と姿勢推定部３９へ出力する。

次に、姿勢推定部３９は、顔全体の位置情報と、顔が向いている方向情報と、骨格の位置情報とから人物（ユーザＢ）の姿勢を推定する（ステップＳ３６）。これにより、人物（ユーザＢ）が現時点でとっている姿勢が特定されることになる。姿勢推定部３９は、特定した姿勢の情報を人物モデル生成部４４へ出力する。姿勢の情報は、骨格を構成する各骨の３次元位置情報によって構成する。

次に、人物モデル生成部４４は、人物モデル記憶部４２から３次元人物モデルデータを読み出す（ステップＳ３７）。そして、人物モデル生成部４４は、顔検出部３７から出力された顔の位置情報、顔の向き情報、骨格抽出部３８から出力された骨格の実際の大きさ情報、姿勢推定部３９から出力された姿勢の情報に基づき、３次元人物モデルデータで定義される仮想の人物の大きさと姿勢を変形する（ステップＳ３８）。これにより、画像取得部１によって撮影した人物（ユーザＢ）と同じ大きさで同じ姿勢をとっている３次元人物モデルデータが生成されたことになる。

次に、テクスチャ抽出部４０は、画像バッファ３５に記憶されている人物領域画像を読み出し、この人物領域画像をテクスチャマッピングに用いるテクスチャデータとして人物モデル生成部４４へ出力する。これを受けて、人物モデル生成部４４は、得られた３次元人物モデルデータに対して、テクスチャ抽出部４０から出力されたテクスチャデータを３次元人物モデルデータで表現される人物モデルの表面に対して投影することにより３次元人物モデルデータで表現される人物モデルの表面にテクスチャを貼り付ける（ステップＳ３９）。これにより、画像取得部１において撮影した人物（ユーザＢ）の３次元画像が生成されたことになる。人物モデル生成部４４は、ここで生成した３次元画像情報を３次元画像出力部４５へ出力する。

図１１は、骨格抽出、人物モデルの変形、テクスチャ貼り付け、３次元画像生成の処理動作を示す説明図である。図１１に示すように、人物領域画像から骨格抽出を行うことにより、骨格を示す骨格情報Ｆが求められ、この骨格情報Ｆに基づいて、３次元人物モデルデータＧが実際に撮影された人物と同じ大きさで同じ姿勢をとっているように変形が行われる。そして、変形後の３次元人物モデルデータＧで表現される人物モデルの表面に人物領域画像Ｃに基づくテクスチャが貼り付けられることにより人物の３次元画像Ｈが生成されることになる。

次に、人物モデル生成部４４は、人物モデルにテクスチャを貼り付けた位置と貼り付けたテクスチャデータと関係付けて人物テクスチャ情報記憶部４３に記憶することにより、既に貼り付け処理を行ったテクスチャデータを保持しておく（ステップＳ４０）。これにより、人物モデルの表面にテクスチャが貼り付けられた過去の情報が保持されることになる。

次に、空間モデル生成部４１は、画像バッファ３５に記憶されている空間領域画像に対応する距離画像から空間に相当する部分の３次元形状データを定義した空間モデルデータを生成する。そして、テクスチャ抽出部４０は、画像バッファ３５に記憶されている空間領域画像を読み出し、この空間領域画像をテクスチャマッピングに用いるテクスチャデータとして空間モデル生成部４１へ出力する。これを受けて、空間モデル生成部４１は、生成した空間モデルデータで表現される空間オブジェクトの表面にテクスチャ抽出部４０から出力されたテクスチャデータを投影することにより３次元空間モデルデータで表現される空間モデルの表面にテクスチャを貼り付ける（ステップＳ４１）。これにより、空間の３次元画像情報が生成されたことになる。

次に、人物モデル生成部４４は、ここで生成した人物の３次元画像情報を３次元画像出力部４５へ出力する。このとき、人物モデル生成部４４は、今回撮影された画像に対する処理においてテクスチャが貼り付けられていない人物モデルの表面には、人物テクスチャ情報記憶部４３に記憶されている過去の処理において貼り付けられたテクスチャデータを読み出して貼り付ける。これにより、今回撮影した画像には映っていない箇所の画像も再現することができるようになる。また、空間モデル生成部４１は、生成した空間の３次元画像情報を３次元画像出力部４５へ出力する。

次に、３次元画像出力部４５は、人物領域画像から生成した人物モデルによる３次元画像情報に実寸の大きさ情報を付与する（ステップＳ４２）。図１２は、人物モデルによる３次元画像の大きさ情報の算出方法を説明するための概念図である。このとき、生成された人物モデルによる３次元画像αの画像の高さα_ｈ、幅α_ｗは、画像取得部１の画角（縦θ_ｈ、横θ_ｗ）、画像取得部１から人物モデルによる３次元画像までの距離Ｄ（画像取得部１とディスプレイ（ユーザＢ側の映像表示部）との位置関係を既知とし、「距離画像」から算出）、カメラズーム率Ｚを用いて、次式（２）、（３）で算出される。

次に、３次元画像出力部４５は、人物モデル生成部４４から出力される人物モデルによる３次元画像情報と、空間モデル生成部４１から出力される空間モデルによる３次元画像情報とを合成して、人物と空間からなる空間の３次元画像情報を生成する。図１３は、テクスチャデータが貼り付けられた人物モデルと空間モデルとを合成して得られた３次元画像情報の一例を示す説明図である。図１３に示すように、上記処理動作によって、人物モデルと空間モデルとによりユーザＢの空間の３次元形状を定義した３次元画像情報が生成されたことになる。そして、３次元画像出力部４５は、生成された３次元画像情報を画像変換部５に対して伝送する（ステップＳ４３）。

次に、図１４を参照して、図７に示す映像コミュニケーションシステムにおける表示側の装置の動作を説明する。図１４は、図７に示す映像コミュニケーションシステムにおける表示側の装置（視点位置検出部４、画像変換部５、映像表示部６）の動作を示すフローチャートである。

まず、画像変換部５は、３次元画像出力部４５から伝送された３次元画像情報を入力する（ステップＳ５１）。続いて、視点位置検出部４は、ユーザＡの視点（眼）位置がどこにあるかを示すユーザの視点位置Ｖ（ｖ_ｘ，ｖ_ｙ，ｖ_ｚ）を検出し、この視点位置Ｖを画像変換部５へ出力する（ステップＳ５２）。画像変換部５では、「ディスプレイ位置に対するユーザＡの視点位置」に応じて、「ユーザＢの３次元画像情報」を、ユーザＡの映像表示部６の画面に表示する映像（「ユーザの視点位置に応じた２次元画像」）へ変換することにより、２次元画像を生成する（ステップＳ５３）。「ユーザの視点位置に応じた２次元画像」は、「ユーザＢの３次元画像情報」を、「ディスプレイ位置に対するユーザＡの視点位置」を基点に、ユーザＡの映像表示部６の画面に透視投影などの射影変換を行うことで生成する。

図１５は、画像変換部５が行う透視変換の動作を示す概念図である。ディスプレイの中心を座標系の原点Ｏ（０，０，０）とし、ディスプレイ面の横方向にｙ軸、縦方向にｘ軸、ディスプレイ面の法線をｚ軸とし、ユーザ位置とは逆向きを正の方向とする。ユーザの視点位置をＶ（ｖ_ｘ，ｖ_ｙ，ｖ_ｚ）（但し、ｖ_ｚ＜０）としたとき、ディスプレイ面上の点Ｄ（ｘ，ｙ，ｚ）に投影されるべき、人物モデルと空間モデルによる３次元画像情報ｉの点Ｈ_ｉ（ｈ_ｘ，ｈ_ｙ，ｈ_ｚ）は、次式（４）により算出される。

なお、数式（４）の変換行列式中の座標は、実寸の情報を有する座標系ということを前提にしている。

最後に、映像表示部６は、画像変換部５により変換された映像、すなわち、ユーザＡの視点位置に応じたユーザＢの２次元画像を表示する（ステップＳ５４）。

なお、図７に示す画像変換部５は、撮像側の３次元画像生成部３内に備え、視点位置検出部４において検出された視点位置の情報を表示側から撮像側へ伝送し、この視点位置の情報に基づき、３次元画像生成部３内に備えた画像変換部５が視点位置に応じた２次元画像に変換を行い、この変換後の２次元画像を撮像側から表示側へ伝送し、この伝送された２次元画像を映像表示部６に表示するようにしてもよい。これにより、表示側の装置構成を簡単にすることができる。

以上説明したように、ユーザの視点（眼の位置）に応じて、映像が変化するため、運動視差を実現することができるとともに、距離に応じた人物サイズで対話相手を表示することから、視覚的に窓１枚を挟んで対面しているときと同等の情報が得られ、映像中の対話相手に奥行きに係る手がかりが与えられ、ユーザが映像中の対話相手との距離感を把握することができる。それにより、対面会話と同様に距離を適度に調節したり、対面会話において距離がもたらす、話しやすさ、緊張感の有無の効果をもたらすことができる。また、映像が変化するため、あたかも実物大の対話相手が眼の前にいるかのように感じさせることができ、従来技術のように２次元映像で人物を提示したものに比べて、視線・姿勢などの非言語情報と、遠隔地に存在する対話相手とあたかも同じ空間を共有している感覚（臨場感）とを与えることができる。特に、対話相手の人物と人物以外の空間を３次元画像情報に基づいて表示するようにしたため、ユーザに対して映像中の対話相手の人物と人物以外の空間の表現をより現実的にすることができる。

なお、第２の実施形態は、第１の実施形態と同様に変形して構成されても良い。
また、図２、図７における処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより映像コミュニケーション処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

以上、図面を参照して本発明の実施の形態を説明してきたが、上記実施の形態は本発明の例示に過ぎず、本発明が上記実施の形態に限定されるものではないことは明らかである。したがって、本発明の技術思想及び範囲を逸脱しない範囲で構成要素の追加、省略、置換、その他の変更を行っても良い。

撮像側の映像装置と表示側の映像装置との間で、撮像側の映像装置で撮影した映像を表示側の映像装置に伝送することが不可欠な用途に適用できる。

１・・・画像取得部、２１・・・移動量算出部、２２・・・位置測定部、２３・・・距離画像生成部、３・・・３次元画像生成部、３１・・・３次元モデル生成部、３２・・・３次元画像出力部、３５・・・画像バッファ、３６・・・空間分離部、３７・・・顔検出部、３８・・・骨格抽出部、３９・・・姿勢推定部、４０・・・テクスチャ抽出部、４１・・・空間モデル生成部、４２・・・人物モデル記憶部、４３・・・人物テクスチャ情報記憶部、４４・・・人物モデル生成部、４５・・・３次元画像出力部、４・・・視点位置検出部、５・・・画像変換部、６・・・映像表示部

Claims

撮像側で撮影した映像を表示側において表示する映像コミュニケーションシステムであって、
前記撮像側の人物と人物以外の空間とを含む２次元画像を撮影する画像取得手段と、
前記画像取得手段によって撮影された２次元画像に基づいて、画像平面上における各特徴点の移動ベクトルを取得する移動量算出手段と、
前記画像取得手段の位置及び姿勢を測定する位置測定手段と、
前記移動ベクトルと、前記位置及び姿勢の変化とに基づいて、前記撮像側の人物と人物以外の空間とを含む距離画像を生成する距離画像生成手段と、
前記距離画像に基づき前記２次元画像に対応する前記撮像側の空間の３次元モデルデータを生成する３次元モデル生成手段と、
前記３次元モデル生成手段により得られた３次元モデルデータで定義される３次元モデルの表面に対して、前記２次元画像をテクスチャとして貼り付けることにより、前記撮像側の空間の３次元画像を生成する３次元画像生成手段と、
前記表示側の人物の視点位置を検出する視点検出手段と、
前記３次元画像から前記視点位置に応じた２次元画像に変換する画像変換手段と、
前記表示側の表示装置に前記変換された２次元画像を表示する表示手段と
を備えたことを特徴とする映像コミュニケーションシステム。
撮像側で撮影した映像を表示側において表示する映像コミュニケーションシステムであって、
前記撮像側の人物と人物以外の空間とを含む２次元画像を撮影する画像取得手段と、
前記画像取得手段によって撮影された２次元画像に基づいて、画像平面上における各特徴点の移動ベクトルを取得する移動量算出手段と、
前記画像取得手段の位置及び姿勢を測定する位置測定手段と、
前記移動ベクトルと、前記位置及び姿勢の変化とに基づいて、前記撮像側の人物と人物以外の空間とを含む距離画像を生成する距離画像生成手段と、
３次元人物モデルデータを記憶する人物モデル記憶手段と、
撮影した前記２次元画像を人物領域画像と空間領域画像に分離する画像分離手段と、
前記人物領域画像と、前記距離画像とから前記撮像側の人物の大きさと姿勢を推定する推定手段と、
推定された前記人物の大きさと前記姿勢に基づき、前記人物モデル記憶手段に記憶されている前記３次元人物モデルデータを変形して前記人物領域画像に対応する３次元人物モデルデータを生成し、得られた３次元人物モデルデータで定義される人物モデルの表面に対して、前記人物領域画像をテクスチャとして貼り付けることにより、人物モデルを生成する人物モデル生成手段と、
前記空間領域画像に対応する前記距離画像から３次元空間モデルデータを生成し、得られた３次元空間モデルデータで定義される空間モデルの表面に対して、前記空間領域画像をテクスチャとして貼り付けることにより空間モデルを生成する空間モデル生成手段と、
前記空間モデルと、前記人物モデルとを合成した３次元画像を生成する３次元画像生成手段と、
前記表示側の人物の視点位置を検出する視点検出手段と、
前記３次元画像から前記視点位置に応じた２次元画像に変換する画像変換手段と、
前記表示側の表示装置に前記変換された２次元画像を表示する表示手段と
を備えたことを特徴とする映像コミュニケーションシステム。
前記人物モデルの表面に対して貼り付けたテクスチャの情報を記憶しておくテクスチャ情報記憶手段をさらに備え、
前記人物モデル生成手段は、新たな前記人物領域画像によるテクスチャが貼り付けられなかった前記人物モデルの表面に対して、前記テクスチャ情報記憶手段に記憶されたテクスチャを貼り付けることを特徴とする請求項２に記載の映像コミュニケーションシステム。
撮像側で撮影した映像を表示側において表示するために、前記撮像側の人物と人物以外の空間とを含む２次元画像を撮影する画像取得手段と、前記画像取得手段の位置及び姿勢を測定する位置測定手段とを備える映像コミュニケーションシステムが行う映像コミュニケーション方法であって、
前記画像取得手段によって撮影された２次元画像に基づいて、画像平面上における各特徴点の移動ベクトルを取得する移動量算出ステップと、
前記移動ベクトルと、前記位置及び姿勢の変化とに基づいて、前記撮像側の人物と人物以外の空間とを含む距離画像を生成する距離画像生成ステップと、
前記距離画像に基づき前記２次元画像に対応する前記撮像側の空間の３次元モデルデータを生成する３次元モデル生成ステップと、
前記３次元モデル生成ステップにより得られた３次元モデルデータで定義される３次元モデルの表面に対して、前記２次元画像をテクスチャとして貼り付けることにより、前記撮像側の空間の３次元画像を生成する３次元画像生成ステップと、
前記表示側の人物の視点位置を検出する視点検出ステップと、
前記３次元画像から前記視点位置に応じた２次元画像に変換する画像変換ステップと、
前記表示側の表示装置に前記変換された２次元画像を表示する表示ステップと
を有することを特徴とする映像コミュニケーション方法。
撮像側で撮影した映像を表示側において表示するために、前記撮像側の人物と人物以外の空間とを含む２次元画像を撮影する画像取得手段と、前記画像取得手段の位置及び姿勢を測定する位置測定手段と、３次元人物モデルデータを記憶する人物モデル記憶手段とを備える映像コミュニケーションシステムが行う映像コミュニケーション方法であって、
前記画像取得手段によって撮影された２次元画像に基づいて、画像平面上における各特徴点の移動ベクトルを取得する移動量算出ステップと、
前記移動ベクトルと、前記位置及び姿勢の変化とに基づいて、前記撮像側の人物と人物以外の空間とを含む距離画像を生成する距離画像生成ステップと、
撮影した前記２次元画像を人物領域画像と空間領域画像に分離する画像分離ステップと、
前記人物領域画像と、前記距離画像とから前記撮像側の人物の大きさと姿勢を推定する推定ステップと、
推定された前記人物の大きさと前記姿勢に基づき、前記人物モデル記憶手段に記憶されている前記３次元人物モデルデータを変形して前記人物領域画像に対応する３次元人物モデルデータを生成し、得られた３次元人物モデルデータで定義される人物モデルの表面に対して、前記人物領域画像をテクスチャとして貼り付けることにより、人物モデルを生成する人物モデル生成ステップと、
前記空間領域画像に対応する前記距離画像から３次元空間モデルデータを生成し、得られた３次元空間モデルデータで定義される空間モデルの表面に対して、前記空間領域画像をテクスチャとして貼り付けることにより空間モデルを生成する空間モデル生成ステップと、
前記空間モデルと、前記人物モデルとを合成した３次元画像を生成する３次元画像生成ステップと、
前記表示側の人物の視点位置を検出する視点検出ステップと、
前記３次元画像から前記視点位置に応じた２次元画像に変換する画像変換ステップと、
前記表示側の表示装置に前記変換された２次元画像を表示する表示ステップと
を有することを特徴とする映像コミュニケーション方法。