JP2014086774A

JP2014086774A - 映像コミュニケーションシステム及び映像コミュニケーション方法

Info

Publication number: JP2014086774A
Application number: JP2012232016A
Authority: JP
Inventors: Akira Ishii; 亮石井; Shiro Ozawa; 史朗小澤; Harumi Kawamura; 春美川村; Akira Kojima; 明小島
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-10-19
Filing date: 2012-10-19
Publication date: 2014-05-12
Anticipated expiration: 2032-10-19
Also published as: JP5833525B2

Abstract

【課題】ユーザに対して映像中の対話相手の表現をより現実的にすることができる映像コミュニケーションシステムを提供する。
【解決手段】撮像側及び表示側の人物と人物以外の空間とを含む各２次元画像を撮影する画像取得手段と、撮像側及び表示側の人物と人物以外の空間とを含む各距離画像を取得する距離画像取得手段と、距離画像に基づき２次元画像に対応する撮像側及び表示側の空間の３次元モデルデータを生成する３次元モデル生成手段と、３次元モデル生成手段により得られた３次元モデルデータで定義される３次元モデルの表面に対して、２次元画像をテクスチャとして貼り付けることにより、撮像側及び表示側の空間の３次元画像を生成する３次元画像生成手段と、表示側の人物の視点位置を検出する視点検出手段と、３次元画像から視点位置に応じた２次元画像に変換する画像変換手段と、表示側の表示装置に変換された２次元画像を表示する表示手段とを備えた。
【選択図】図３

Description

本発明は、撮像側の映像装置で撮影した映像を表示側の映像装置に伝送する映像コミュニケーションシステム及び映像コミュニケーション方法に関する。

映像コミュニケーションにおいて、対話相手とあたかも対面しているかのように、対話相手をユーザにどのような映像として提示するかが重要である。従来、映像コミュニケーションにおいては、あたかも実物大の対話相手が眼の前にいるように感じさせるために、対話相手の人物を２次元ディスプレイ上に実物大に映す方式が考えられている（例えば、特許文献１参照）。

対面会話において、対人間の距離感は、話しやすさや、緊張感に影響を与え重要である（参考文献１：エドワードホール、かくれた次元、２０００、みすず書房）。しかしながら、従来の２次元ディスプレイに映された対話相手では、どの位置から映像を観察しても２次元ディスプレイに表示された映像は変化しない。視点位置による画像変化が無いため、奥行き情報が欠落し、対話相手との距離の表現ができなかった。

すなわち、実際に、対話相手が眼の前にいるように感じさせるためには、実物大表示だけでは不十分である。例えば、ディスプレイ上に等身大に表示されている人物を見ても、個人によって人物がディスプレイよりも前や、後ろにいるように感じたり、そもそもどの奥行き位置にいるのかが把握できないために、実物より大きい、もしくは小さい人物がいるように感じられ、対話相手を等身大に感じることができない。このように、距離感が表現できないために、対面会話のように距離による会話への効果を期待することができない。

また、ユーザが映像中の対話相手とどれくらいの距離にいるのかを、把握することができなかったため、対面会話と同様に、対人距離を適度に調節することや、距離の遠近によってもたらせる緊張感が感じられなかった。

このような問題を解決するために、出願人は、ユーザに対して映像中の対話相手との距離感や現実感を与えることができる映像コミュニケーションシステムを提案している（特許文献２参照）。このシステムは、ディスプレイを窓に見立てて、ユーザと対話相手の空間が窓越しに繋がったような表現を行う。具体的には、ユーザの視点位置に応じて、対話相手の映像を変化させるという運動視差を実現し、距離に応じた人物サイズで対話相手を表示することで、ユーザに映像中の対話相手との距離感、現実感を与えることができるものである。

特許第３５８６１２６号公報特開２０１１−７７７１０号公報

しかしながら、特許文献２に開示された映像コミュニケーションシステムでは、対話相手がディスプレイの奥に存在しているように表現することを前提としているので、同じ空間（例えば、部屋）にいるような一体感が不足していた。また、ユーザは対話相手の空間に入り込んで会話をすることができなかった。すなわち、対話相手と同じ空間に一緒に居る感じ（以下、同室感という。）が得にくいという問題があった。

本発明は、このような事情に鑑みてなされたもので、ユーザに対して対話相手との同室感を与えることができる映像コミュニケーションシステム及び映像コミュニケーション方法を提供することを目的とする。

本発明は、撮像側で撮影した映像と表示側で撮像した映像とを表示側において表示する映像コミュニケーションシステムであって、前記撮像側の人物と人物以外の空間とを含む第１の２次元画像を撮影する第１の画像取得手段と、前記撮像側の人物と人物以外の空間とを含む第１の距離情報を取得する第１の距離情報取得手段と、前記第１の距離情報に基づき前記第１の２次元画像に対応する前記撮像側の空間の３次元画像を生成する第１の３次元画像生成手段と、前記表示側の人物と人物以外の空間とを含む第２の２次元画像を撮影する第２の画像取得手段と、前記表示側の人物と人物以外の空間とを含む第２の距離情報を取得する第２の距離情報取得手段と、前記第２の距離情報に基づき前記第２の２次元画像に対応する前記表示側の空間の３次元画像を生成する第２の３次元画像生成手段と、前記表示側の人物の視点位置を検出する視点検出手段と、前記表示側の表示装置の表示面に対して対称な前記第１の３次元画像の人物の画像と、前記表示側の表示装置の表示面に対して対称な前記第２の３次元画像の人物の画像とを前記視点位置に応じて１つの２次元画像に変換する画像変換手段と、前記表示側の表示装置に前記変換された２次元画像を表示する表示手段とを備えたことを特徴とする。

本発明は、撮像側で撮影した映像と表示側で撮像した映像とを表示側において表示する映像コミュニケーションシステムであって、前記撮像側の人物と人物以外の空間とを含む第１の２次元画像を撮影する第１の画像取得手段と、前記撮像側の人物と人物以外の空間とを含む第１の距離画像を取得する第１の距離画像取得手段と、前記第１の距離画像に基づき前記第１の２次元画像に対応する前記撮像側の空間の３次元モデルデータを生成する第１の３次元モデル生成手段と、前記第１の３次元モデル生成手段により得られた３次元モデルデータで定義される３次元モデルの表面に対して、前記第１の２次元画像をテクスチャとして貼り付けることにより、前記撮像側の空間の３次元画像を生成する第１の３次元画像生成手段と、前記表示側の人物と人物以外の空間とを含む第２の２次元画像を撮影する第２の画像取得手段と、前記表示側の人物と人物以外の空間とを含む第２の距離画像を取得する第２の距離画像取得手段と、前記第２の距離画像に基づき前記第２の２次元画像に対応する前記表示側の空間の３次元モデルデータを生成する第２の３次元モデル生成手段と、前記第２の３次元モデル生成手段により得られた３次元モデルデータで定義される３次元モデルの表面に対して、前記第２の２次元画像をテクスチャとして貼り付けることにより、前記表示側の空間の３次元画像を生成する第２の３次元画像生成手段と、前記表示側の人物の視点位置を検出する視点検出手段と、前記表示側の表示装置の表示面に対して対称な前記第１の３次元画像の人物の３次元モデルデータと、前記表示側の表示装置の表示面に対して対称な前記第２の３次元画像の人物の３次元データモデルとを前記視点位置に応じて１つの２次元画像に変換する画像変換手段と、前記表示側の表示装置に前記変換された２次元画像を表示する表示手段とを備えたことを特徴とする。

本発明は、前記画像変換手段は、前記第１の３次元画像の空間の３次元モデルデータを前記２次元画像における空間として用いることを特徴とする。
本発明は、前記画像変換手段は、前記第２の３次元画像の空間の３次元モデルデータを前記２次元画像における空間として用いることを特徴とする。
本発明は、前記画像変換手段は、前記第１の３次元画像の空間及び前記第２の３次元画像の空間と異なる空間の３次元モデルデータであって予め定められた３次元モデルデータを前記２次元画像における空間として用いることを特徴とする。

本発明は、撮像側で撮影した映像と表示側で撮像した映像とを表示側において表示する映像コミュニケーションシステムであって、前記撮像側の人物と人物以外の空間とを含む第１の２次元画像を撮影する第１の画像取得手段と、前記撮像側の人物と人物以外の空間とを含む第１の距離画像を取得する第１の距離画像取得手段と、３次元人物モデルデータを記憶する人物モデル記憶手段と、撮影した前記第１の２次元画像を第１の人物領域画像と第１の空間領域画像に分離する第１の画像分離手段と、前記第１の人物領域画像と前記第１の距離画像とから前記撮像側の人物の大きさと姿勢を推定する第１の推定手段と、前記第１の推定手段が推定した前記人物の大きさと前記姿勢に基づき、前記人物モデル記憶手段に記憶されている前記３次元人物モデルデータを変形して前記第１の人物領域画像に対応する３次元人物モデルデータを生成し、得られた３次元人物モデルデータで定義される人物モデルの表面に対して、前記第１の人物領域画像をテクスチャとして貼り付けることにより、人物モデルを生成する第１の人物モデル生成手段と、前記表示側の人物と人物以外の空間とを含む第２の２次元画像を撮影する第２の画像取得手段と、前記表示側の人物と人物以外の空間とを含む第２の距離画像を取得する第２の距離画像取得手段と、撮影した前記第２の２次元画像を第２の人物領域画像と第２の空間領域画像に分離する第２の画像分離手段と、前記第２の人物領域画像と前記第２の距離画像とから前記表示側の人物の大きさと姿勢を推定する第２の推定手段と、前記第２の推定手段が推定した前記人物の大きさと前記姿勢に基づき、前記人物モデル記憶手段に記憶されている前記３次元人物モデルデータを変形して前記第２の人物領域画像に対応する３次元人物モデルデータを生成し、得られた３次元人物モデルデータで定義される人物モデルの表面に対して、前記第２の人物領域画像をテクスチャとして貼り付けることにより、人物モデルを生成する第２の人物モデル生成手段と、前記表示側の人物の視点位置を検出する視点検出手段と、前記表示側の表示装置の表示面に対して対称な人物モデルであって前記第１の人物モデル生成手段が生成した人物モデルと、前記表示側の表示装置の表示面に対して対称な人物モデルであって前記第２の人物モデル生成手段が生成した人物モデルとを前記視点位置に応じて１つの２次元画像に変換する画像変換手段と、前記表示側の表示装置に前記変換された２次元画像を表示する表示手段とを備えたことを特徴とする。

本発明は、前記第１の空間領域画像に対応する前記第１の距離画像から３次元空間モデルデータを生成し、得られた３次元空間モデルデータで定義される空間モデルの表面に対して、前記第１の空間領域画像をテクスチャとして貼り付けることにより空間モデルを生成する第１の空間モデル生成手段をさらに備え、前記画像変換手段は、前記第１の空間モデル生成手段が生成した前記空間モデルを前記２次元画像における空間として用いることを特徴とする。
本発明は、前記第２の空間領域画像に対応する前記第２の距離画像から３次元空間モデルデータを生成し、得られた３次元空間モデルデータで定義される空間モデルの表面に対して、前記第２の空間領域画像をテクスチャとして貼り付けることにより空間モデルを生成する第２の空間モデル生成手段を更に備え、前記画像変換手段は、前記第２の空間モデル生成手段が生成した前記空間モデルを前記２次元画像における空間として用いることを特徴とする。
本発明は、前記画像変換手段は、前記第１の３次元画像の空間及び前記第２の３次元画像の空間と異なる空間の３次元モデルデータであって予め定められた３次元モデルデータを前記２次元画像における空間として用いることを特徴とする。

本発明は、撮像側で撮影した映像と表示側で撮像した映像とを表示側において表示するために、前記撮像側の人物と人物以外の空間とを含む第１の２次元画像を撮影する第１の画像取得手段と、前記撮像側の人物と人物以外の空間とを含む第１の距離情報を取得する第１の距離情報取得手段と、前記表示側の人物と人物以外の空間とを含む第２の２次元画像を撮影する第２の画像取得手段と、前記表示側の人物と人物以外の空間とを含む第２の距離情報を取得する第２の距離情報取得手段とを備える映像コミュニケーションシステムが行う映像コミュニケーション方法であって、前記第１の距離情報に基づき前記第１の２次元画像に対応する前記撮像側の空間の３次元画像を生成する第１の３次元画像生成ステップと、前記第２の距離情報に基づき前記第２の２次元画像に対応する前記表示側の空間の３次元画像を生成する第２の３次元画像生成ステップと、前記表示側の人物の視点位置を検出する視点検出ステップと、前記表示側の表示装置の表示面に対して対称な前記第１の３次元画像の人物の画像と、前記表示側の表示装置の表示面に対して対称な前記第２の３次元画像の人物の画像とを前記視点位置に応じて１つの２次元画像に変換する画像変換ステップと、前記表示側の表示装置に前記変換された２次元画像を表示する表示ステップとを有することを特徴とする。

本発明は、撮像側で撮影した映像と表示側で撮像した映像とを表示側において表示するために、前記撮像側の人物と人物以外の空間とを含む第１の２次元画像を撮影する第１の画像取得手段と、前記撮像側の人物と人物以外の空間とを含む第１の距離画像を取得する第１の距離画像取得手段と、前記表示側の人物と人物以外の空間とを含む第２の２次元画像を撮像する第２の画像取得手段と、前記表示側の人物と人物以外の空間とを含む第２の距離画像を取得する第２の距離画像取得手段とを備える映像コミュニケーションシステムが行う映像コミュニケーション方法であって、前記第１の距離画像に基づき前記第１の２次元画像に対応する前記撮像側の空間の３次元モデルデータを生成する第１の３次元モデル生成ステップと、前記第１の３次元モデル生成ステップにより得られた３次元モデルデータで定義される３次元モデルの表面に対して、前記第１の２次元画像をテクスチャとして貼り付けることにより、前記撮像側の空間の３次元画像を生成する第１の３次元画像生成ステップと、前記第２の距離画像に基づき前記第２の２次元画像に対応する前記表示側の空間の３次元モデルデータを生成する第２の３次元モデル生成ステップと、前記第２の３次元モデル生成ステップにより得られた３次元モデルデータで定義される３次元モデルの表面に対して、前記第２の２次元画像をテクスチャとして貼り付けることにより、前記表示側の空間の３次元画像を生成する第２の３次元画像生成ステップと、前記表示側の人物の視点位置を検出する視点検出ステップと、前記表示側の表示装置の表示面に対して対称な前記第１の３次元画像の人物の３次元モデルデータと、前記表示側の表示装置の表示面に対して対称な前記第２の３次元画像データの人物の３次元モデルデータとを前記視点位置に応じて１つの２次元画像に変換する画像変換ステップと、前記表示側の表示装置に前記変換された２次元画像を表示する表示ステップとを有することを特徴とする。

本発明は、撮像側で撮影した映像と表示側で撮像した映像とを表示側において表示するために、前記撮像側の人物と人物以外の空間とを含む第１の２次元画像を撮影する第１の画像取得手段と、前記撮像側の人物と人物以外の空間とを含む第１の距離画像を取得する第１の距離画像取得手段と、前記表示側の人物と人物以外の空間とを含む第２の２次元画像を撮像する第２の画像取得手段と、前記表示側の人物と人物以外の空間とを含む第２の距離画像を取得する第２の距離画像取得手段と、３次元人物モデルデータを記憶する人物モデル記憶手段とを備える映像コミュニケーションシステムが行う映像コミュニケーション方法であって、撮影した前記第１の２次元画像を第１の人物領域画像と第１の空間領域画像に分離する第１の画像分離ステップと、前記第１の人物領域画像と、前記第１の距離画像とから前記撮像側の人物の大きさと姿勢を推定する第１の推定ステップと、前記第１の推定ステップにおいて推定された前記人物の大きさと前記姿勢に基づき、前記人物モデル記憶手段に記憶されている前記３次元人物モデルデータを変形して前記第１の人物領域画像に対応する３次元人物モデルデータを生成し、得られた３次元人物モデルデータで定義される人物モデルの表面に対して、前記第１の人物領域画像をテクスチャとして貼り付けることにより、人物モデルを生成する第１の人物モデル生成ステップと、撮影した前記第２の２次元画像を第２の人物領域画像と第２の空間領域画像に分離する第２の画像分離ステップと、前記第２の人物領域画像と、前記第２の距離画像とから前記表示側の人物の大きさと姿勢を推定する第２の推定ステップと、前記第２の推定ステップにおいて推定された前記人物の大きさと前記姿勢に基づき、前記人物モデル記憶手段に記憶されている前記３次元人物モデルデータを変形して前記第２の人物領域画像に対応する３次元人物モデルデータを生成し、得られた３次元人物モデルデータで定義される人物モデルの表面に対して、前記第１の人物領域画像をテクスチャとして貼り付けることにより、人物モデルを生成する第２の人物モデル生成ステップと、前記表示側の人物の視点位置を検出する視点検出ステップと、前記表示側の表示装置の表示面に対して対称な人物モデルであって前記第１の人物モデル生成ステップにおいて生成した人物モデルと、前記表示側の表示装置の表示面に対して対称な人物モデルであって前記第２の人物モデル生成ステップにおいて生成した人物モデルとを前記視点位置に応じて１つの２次元画像に変換する画像変換ステップと、前記表示側の表示装置に前記変換された２次元画像を表示する表示ステップとを有することを特徴とする。

本発明によれば、ユーザの視点（眼の位置）に応じて、対話相手の映像を変化させるという運動視差を実現し、距離に応じた人物サイズで対話相手を表示することで、ユーザに映像中の対話相手との距離感、現実感を与えることができる。このとき、ユーザ自身と対話相手とを１つの映像中に表示することにより、ユーザに対して対話相手との同室感を与えることができる。また、対話相手の空間の映像を同時に合成表示させることで、相手の空間に没入したかのような感覚を提示し、また自由に対話相手の空間を移動しているような感覚をユーザに提示可能である。

本発明による映像表示のイメージを示す第１の概念図である。本発明による映像表示のイメージを示す第２の概念図である。本発明の第１の実施形態による映像コミュニケーションシステムの構成を示すブロック図である。図３に示す映像コミュニケーションシステムにおける撮像側の装置（３次元画像生成部３）の動作を示すフローチャートである。テクスチャデータが貼り付けられた３次元モデルデータの一例を示す説明図である。図３に示す映像コミュニケーションシステムにおける表示側の装置（視点位置検出部４、画像変換部５、映像表示部６）の動作を示すフローチャートである。図３に示す画像変換部５が行う透視変換の動作を示す概念図である。本発明の第２の実施形態による映像コミュニケーションシステムの構成を示すブロック図である。図８に示す映像コミュニケーションシステムにおける撮像側及び表示側の装置（３次元画像生成部３）の動作を示すフローチャートである。人物領域画像と人物以外の空間領域画像とに分離する動作を示す説明図である。人物領域画像から顔検出と骨格抽出を行う動作を示す説明図である。骨格抽出、人物モデルの変形、テクスチャ貼り付け、３次元画像生成の処理動作を示す説明図である。人物モデルによる３次元画像の大きさ情報の算出方法を説明するための概念図である。実際に生成される「３次元画像情報」の例を示す概念図である。図８に示す映像コミュニケーションシステムにおける表示側の装置（視点位置検出部４、画像変換部５、映像表示部６）の動作を示すフローチャートである。図８に示す画像変換部５が行う透視変換の動作を示す概念図である。本発明の第３の実施形態による映像コミュニケーションシステムの構成を示すブロック図である。図１７に示す映像コミュニケーションシステムにおける撮像側の装置（３次元画像生成部３０）の動作を示すフローチャートである。実際に生成される「奥行き情報を持つユーザＢの３次元画像情報」の例を示す概念図である。

以下、図面を参照して、本発明の実施形態による映像コミュニケーションシステムを説明する。始めに、本実施形態による映像コミュニケーションシステムの動作原理について説明する。本実施形態による映像コミュニケーションシステムは、撮像側の装置と表示側の装置とを備え、撮像側の装置から人物と空間とに分けた３次元画像情報を表示側の装置へ送る。また、表示側の装置においても人物と空間とに分けた３次元画像情報を生成する。表示側の装置では、表示側にいる人物の眼の位置に応じて、撮像側の装置から送られた３次元画像と、自装置側で生成した３次元画像とを合成した画像を２次元変換して表示する。このとき、表示側の装置ではディスプレイがあたかも鏡になったかのように、表示側の装置の人物を映し、更に撮像側の人物をそこに重ね合わせることで、表示側の人物と撮像側の人物とが同じ空間にいるかのような画像を表示する。これにより、表示側の人物と撮像側の人物とが同じ空間（例えば、部屋）にいるような一体感をより現実的にする。

図１及び図２は、本実施形態による映像表示のイメージを示す概念図である。
図１において、ユーザ１００が視点を変えると（３軸移動に対応）、映像中の対話相手２００と空間３００の画像（図１では、説明のため空間を背景のみで表現）を、その視点の変化に応じて２次元ディスプレイ４００上に表示することで、対話相手２００の見え方があたかも現実的に再現される。

すなわち、ユーザ１００が位置Ｐ１にて２次元ディスプレイ４００に対峙する場合には、対話相手２００および空間３００を正面から見ているように表示し、ユーザ１００が左側の位置Ｐ２から見ている場合には、対話相手２００に対し向かって左側の横顔や人物以外の空間にある壁３００との位置関係（奥行き）を反映し、対話相手２００を左側から見ているように表示し、ユーザ１００が右側の位置Ｐ３から見ている場合には、対話相手２００に対し向かって右側の横顔や人物以外の空間にある壁３００との位置関係（奥行き）を反映し、対話相手２００を右側から見ているように表示する。

さらに、図２に示すように、対話相手２００が表示されている２次元ディスプレイ４００に、ユーザ１００を２次元ディスプレイ４００の表示面と対称に表示することで、２次元ディスプレイがあたかも鏡になったかのようにユーザ１００と対話相手２００とを表示して同じ空間に居るかのような同室感を再現する。

＜第１の実施形態＞
図３は第１の実施形態による映像コミュニケーションシステムの構成を示すブロック図である。本明細書においては、動画の１フレーム分を「画像」と称し、複数の「画像」を連続して表示して動画とした状態のものを「映像」と称する。本実施形態では、撮影された２次元画像と距離画像から、対話相手の空間を３次元モデル化し、得られた３次元モデルの表面に対して、２次元画像をテクスチャとして貼り付けた３次元画像を生成し、この３次元画像をユーザの視点位置に応じて、ディスプレイ面に投影して表示する方法について説明する。図３に示す映像コミュニケーションシステムは、ユーザ（以下、ユーザＡ）及び対話相手（以下、ユーザＢ）のそれぞれに用意され、双方向通信を介して使用される。以下では、ユーザＡのディスプレイにユーザＡ及びユーザＢ（対話相手）の映像を表示するものとして説明する。以下において、ユーザＢ側の画像取得部１、距離画像取得部２、および３次元画像生成部３について説明する。ユーザＡ側の画像取得部１、距離画像取得部２、及び３次元画像生成部３は、ユーザＢ側の画像取得部１、距離画像取得部２、及び３次元画像生成部３と同じ構成を有しているので、ユーザＡ側の構成についての説明を省略する。

画像取得部１は、撮影装置（カメラ）からなり、ユーザＢの２次元映像を撮影する。ユーザＢ側の画像取得部１は、ユーザＡの視線とユーザＢの視線とを合わせるために、ユーザＢのディスプレイ（映像表示部：図示略）上に表示されるユーザＡの眼位置（眼位置とは、両眼の目頭を結ぶ線分の中点の位置）に、光学的、または、仮想的に、カメラのレンズ中心がくるように配置される。

例えば、ディスプレイとユーザＢとの間にハーフミラーを、ディスプレイの平面の法線とハーフミラーの法線のなす角度が４５度となるように設置し、カメラを該ハーフミラーの上方または下方に、ハーフミラーからディスプレイまでの距離だけ離して設置することにより、ハーフミラーを介して撮像する手法を用いればよい。

また、ディスプレイを隠さないように、ユーザＢのディスプレイの周囲に複数のカメラを配置し、ＦＴＶ（Ｆｒｅｅ−ＶｉｅｗｐｏｉｎｔＴｅｌｅｖｉｓｉｏｎ）技術によって、周囲の複数のカメラ画像から、ユーザＢのディスプレイ上に表示されるユーザＡの視点位置にある仮想視点の映像を生成する手法を用いるようにしてもよい。その他、視線を一致させるために、カメラ位置をできるだけ、ユーザＢのディスプレイに表示されたユーザＡの眼位置にレンズ中心が来るように配置するようにしてもよい。以後、ユーザＢのディスプレイの中心にカメラレンズの中心があるようにカメラが設置されており、カメラの撮像面がディスプレイ面にあると仮定して説明する。

距離画像取得部２は、ユーザＢの空間の距離画像を取得する。距離画像取得部２には、例えば、ＴＯＦカメラやパターン投射を利用した距離画像取得カメラを用いる。なお、距離画像取得部２は、画像取得部１と同等のカメラを用いてステレオマッチングを行うことにより距離画像を得るようにしてもよい。距離画像は、例えば、Ｘ行Ｙ列の２次元配列のデータ形式に、距離画像取得部２からの距離情報を各要素に持つ。

３次元画像生成部３は、距離画像取得部２によって得られた距離画像からユーザＢの空間を３次元モデル化し、この３次元モデルに対して、画像取得部１によって撮影された２次元画像をテクスチャとして貼り付けた３次元画像情報を生成して出力する。

視点位置検出部４は、顔認識及びステレオマッチングを用いた画像処理技術や、光学式または磁気式のモーショントラッキング技術等を用いて、ユーザＡの視点（眼）位置がどこにあるかを示すユーザＡの視点位置Ｖ（ｖ_ｘ，ｖ_ｙ，ｖ_ｚ）を検出して出力する。

画像変換部５は、視点位置検出部４によって検出された、ディスプレイ位置に対するユーザＡの視点位置と、ユーザＢの３次元画像生成部３によって生成されて出力されたユーザＢの３次元画像情報と、ユーザＡの３次元画像生成部３によって生成されて出力されたユーザＡの３次元画像情報とから、ユーザＡのディスプレイ面に表示する画像（「ユーザＡの視点位置に応じた、ユーザＡ及びユーザＢの２次元画像」）に変換する。このとき、画像変換部５は、ユーザＡ及びユーザＢの３次元画像情報を映像表示部６の表示面に対して対称な３次元画像情報に変換して鏡面対称な３次元画像情報を生成した後に、２次元画像への変換を行う。

映像表示部６は、ディスプレイ装置で構成し、画像変換部５により変換されたユーザＡの視点位置に応じた、ユーザＡ及びユーザＢの鏡面対称な２次元画像を表示する。

次に、図３を参照して、図３に示す３次元画像生成部３の詳細な構成を説明する。３次元モデル生成部３１は、距離画像取得部２によって取得したユーザＢの空間の距離情報から３次元ポリゴンデータあるいは３次元点群データを作成し、３次元モデルデータとして出力する。３次元画像出力部３２は、３次元モデルデータで表現される３次元モデルの表面に画像取得部１によって得られた２次元画像をテクスチャとして貼り付けることにより３次元画像情報を得る。

なお、上述した構成において、ユーザＡ側の画像取得部１、距離画像取得部２、３次元画像生成部３、視点位置検出部４、画像変換部５、及び映像表示部６は表示側装置として設けられている。また、ユーザＢ側の画像取得部１、距離画像取得部２及び３次元画像生成部３は、撮像側装置として設けられており、通信回線等を介して、３次元画像生成部３により生成された、ユーザＢの３次元画像情報を、所定の通信手段、通信回線を介して、ユーザＡ側の表示側装置に伝送する。

次に、図４を参照して、図３に示す映像コミュニケーションシステムの動作を説明する。図４は、図３に示す映像コミュニケーションシステムにおける撮像側及び表示側の装置の３次元画像生成部３の動作を示すフローチャートである。ここでは、ユーザＢ側の画像取得部１において撮影した映像から３次元画像情報を生成してユーザＡ側へ出力する動作を説明する。なお、ユーザＡ側における処理は、ユーザＢ側における処理と同様である。
まず、３次元画像生成部３は、画像取得部１によって撮影された「ユーザＢの２次元画像」を入力する（ステップＳ１）。これと並行して、３次元画像生成部３は、距離画像取得部２よって取得したユーザＢの空間の距離画像を入力する（ステップＳ２）。

次に、３次元モデル生成部３１は、距離画像取得部２から入力した距離画像から３次元モデルデータを生成して出力する（ステップＳ３）。３次元モデルデータは、距離画像取得部２によって取得したユーザＢの空間の距離情報から３次元ポリゴンデータあるいは３次元点群データを作成し、これを３次元モデルデータとする。これにより、人物（ユーザＢ）を含む空間の３次元形状データ（３次元モデル）が生成されたことになる。

次に、３次元画像出力部３２は、３次元モデル生成部３１から出力する３次元モデルデータによって表現される３次元モデルの表面に対して、画像取得部１から入力した２次元画像をテクスチャデータとして貼り付けて３次元画像情報を生成する（ステップＳ４）。図５は、テクスチャデータが貼り付けられた３次元モデルデータの一例を示す説明図である。図５に示すように、上記処理動作によって、画像取得部１によって撮影された２次元画像をテクスチャデータとした３次元形状を定義した３次元画像情報が生成されたことになる。そして、３次元画像出力部３２は、生成された３次元画像情報を画像変換部５に対して伝送する（ステップＳ５）。

次に、図６を参照して、図３に示す映像コミュニケーションシステムにおける表示側の装置の動作を説明する。図６は、図３に示す映像コミュニケーションシステムにおける表示側の装置（視点位置検出部４、画像変換部５、映像表示部６）の動作を示すフローチャートである。

まず、画像変換部５は、ユーザＡ側及びユーザＢ側の３次元画像出力部３２から伝送された３次元画像情報を入力する（ステップＳ２１）。続いて、視点位置検出部４は、ユーザＡの視点（眼）位置がどこにあるかを示すユーザの視点位置Ｖ（ｖ_ｘ，ｖ_ｙ，ｖ_ｚ）を検出し、この視点位置Ｖを画像変換部５へ出力する（ステップＳ２２）。画像変換部５は、ユーザＡ側及びユーザＢ側の３次元画像出力部３２から伝送された３次元画像情報を映像表示部６の表示面に対称な３次元画像情報に変換して鏡面対称な３次元画像情報を生成する（ステップＳ２３）。

画像変換部５では、「ディスプレイ位置に対するユーザＡの視点位置」に応じて、「ユーザＢの鏡面対称な３次元画像情報」及び「ユーザＡの鏡面対称な３次元画像情報」を、ユーザＡの映像表示部６の画面に表示する映像（「ユーザの視点位置に応じた２次元画像」）へ変換することにより、２次元画像を生成する（ステップＳ２４）。「ユーザの視点位置に応じた２次元画像」は、「ユーザＢの鏡面対称な３次元画像情報」及び「ユーザＡの鏡面対称な３次元画像情報」を、「ディスプレイ位置に対するユーザＡの視点位置」を基点に、ユーザＡの映像表示部６の画面に透視投影などの射影変換を行うことで生成される。

図７は、画像変換部５が行う透視変換の動作を示す概念図である。ディスプレイの中心を座標系の原点Ｏ（０，０，０）とし、ディスプレイ面の横方向にｘ軸、縦方向にｙ軸、ディスプレイ面の法線をｚ軸とし、ユーザ位置とは逆向きを正の方向とする。ユーザの視点位置をＶ（ｖ_ｘ，ｖ_ｙ，ｖ_ｚ）（但し、ｖ_ｚ＜０）としたとき、ディスプレイ面上の点Ｄ（ｘ，ｙ，ｚ）に投影されるべき、３次元画像情報ｉの点Ｈ_ｉ（ｈ_ｘ，ｈ_ｙ，ｈ_ｚ）は、次式（１）により算出される。

なお、数式（１）の変換行列式中の座標は、実寸の情報を有する座標系ということを前提にしている。

この処理を、ディスプレイ面上の各画素において行うことにより２次元画像への変換を行う。なお、その他、平行投影といった一般的な射影変換の手法も利用してもよい。

最後に、映像表示部６は、画像変換部５により変換された映像、すなわち、ユーザＡの視点位置に応じたユーザＡ及びユーザＢの２次元画像を表示する（ステップＳ２５）。

なお、画像変換部５は、２次元画像を生成する際に、ユーザＡの３次元画像情報、又はユーザＢの３次元画像情報のいずれかに含まれる空間情報を用いる。例えばユーザＡの３次元画像情報に含まれる空間情報を用いた場合、ユーザＡが居る空間にユーザＢが訪れたような同室感を得ることができる。また、ユーザＢの３次元画像に含まれる空間情報を用いた場合、ユーザＢが居る空間にユーザＡが訪れたような同室感を得ることができる。また、画像変換部５は、２次元画像を生成する際に、ユーザＡ及びユーザＢの３次元画像情報に含まれる空間情報と異なる空間情報を用いて２次元画像を生成するようにしてもよい。この場合、ユーザＡとユーザＢとが一緒に違う空間に行っているような同室感を得ることができる。

このように、ユーザの視点（眼の位置）に応じて、映像が変化するため、運動視差を実現することができるとともに、距離に応じた人物サイズで対話相手とユーザ自身とが鏡に映ったように表示することから、ユーザが映像中の対話相手との同室感を得ることができる。それにより、対面会話と同様に距離を適度に調節したり、対面会話において距離がもたらす、話しやすさ、緊張感の有無の効果をもたらすことができる。

例えば、ユーザＡの３次元画像情報に含まれる人物（ユーザＡ）及び人物以外の空間と、ユーザＢの３次元画像情報に含まれる人物（ユーザＢ）とを鏡面対称にして１つの２次元画像にする変換を画像変換部５に行わせることにより、ユーザＡが居る空間にユーザＢが没入（入り込む）した状況を映像表示部６に表示させることができ、あたかも対話相手（ユーザＢ）がユーザＡの空間に来たかのような同室感を得ることができる。
また、ユーザＢの３次元画像情報に含まれる空間としてユーザＡ及びユーザＢを表示させるようにしてもよい。これにより、一方のユーザは他方のユーザが居る空間に没入したかのように感じることができる。ユーザが鏡（映像表示部６）越しに他方のユーザの空間を自由に移動しているように表示されるため、当該空間におけるコラボレーション作業を効率的に行うことができる。

また、不図示のユーザＢ側の映像表示部６にユーザＡの３次元画像情報に含まれる空間を用いた２次元画像を表示させ、ユーザＡ側の映像表示部６にユーザＢの３次元画像情報に含まれる空間を用いた２次元画像を表示させることにより、ユーザＡ及びユーザＢが互いに相手が居る空間に行った（没入した）かのような同室感を得ることができる。
また、ユーザＡ及びユーザＢの３次元画像情報に含まれる空間と異なる空間を用いた２次元画像を表示させるようにしてもよい。このとき、ユーザＡの映像表示部６に表示させる２次元画像の空間と、ユーザＢの映像表示部６に表示させる２次元画像の空間とが異なっていてもよい。

＜第２の実施形態＞
図８は第２の実施形態による映像コミュニケーションシステムの構成を示すブロック図である。本実施形態では、撮影された２次元画像と距離画像から、対話相手の空間を３次元モデル化し、得られた３次元モデルの表面に対して、２次元画像をテクスチャとして貼り付けた３次元画像を生成し、この３次元画像をユーザの視点位置に応じて、ディスプレイ面に投影して表示する構成について説明する。以下において、ユーザＢ側の画像取得部１、距離画像取得部２、及び３次元画像生成部３について説明する。ユーザＡ側の画像取得部１、距離画像取得部２、及び３次元画像生成部３は、ユーザＢ側の画像取得部１、距離画像取得部２、及び３次元画像生成部３と同じ構成を有しているので、ユーザＡ側のそれらの構成についての説明を省略する。
図８に示す映像コミュニケーションシステムは、ユーザ（以下、ユーザＡ）及び対話相手（以下、ユーザＢ）のそれぞれに用意され、双方向通信を介して使用される。以下では、ユーザＡのディスプレイにユーザＡ及びユーザＢ（対話相手）の映像を表示するものとして説明する。

画像変換部５は、視点位置検出部４によって検出された、ディスプレイ位置に対するユーザＡの視点位置と、ユーザＢの３次元画像生成部３によって生成されて出力されたユーザＢの３次元画像情報と、ユーザＡの３次元画像生成部３によって生成されて出力されたユーザＡの３次元画像情報とから、ユーザＡのディスプレイ面に表示する画像（「ユーザＡの視点位置に応じた、ユーザＡ及びユーザＢの２次元画像」）に変換する。このとき、画像変換部５は、ユーザＡ及びユーザＢの３次元画像情報を映像表示部６の表示面に対して対称な３次元画像情報に変換して鏡面対称な３次元画像情報を生成したのちに、２次元画像への変換を行う。

次に、図８を参照して、図８に示す３次元画像生成部３の詳細な構成を説明する。画像バッファ３５は、画像取得部１において撮影した画像の少なくとも１フレーム分の記憶領域と、画像処理に用いる作業領域を有する。空間分離部３６は、画像バッファ３５に記憶されている画像から、人物領域画像と空間領域画像とを分離してそれぞれの画像を画像バッファ３５の作業領域に記憶する。顔検出部３７は、画像バッファ３５に記憶されている人物領域画像、および補助情報として距離画像取得部２で得られた位置情報から顔領域ならびに特徴点の位置、姿勢を検出する。骨格抽出部３８は、画像バッファ３５に記憶されている人物領域画像から骨格抽出を行って骨格情報を得る。姿勢推定部３９は、骨格抽出部３８において得られた骨格情報に基づき、人物の姿勢を推定する。テクスチャ抽出部４０は、画像バッファ３５に記憶されている人物領域画像及び空間領域画像から人物と空間のテクスチャ情報を抽出する。空間モデル生成部４１は、距離画像取得部２において取得した距離画像からユーザＢの空間のうち、空間に相当する部分の３次元モデルデータである空間モデルを生成する。

人物モデル記憶部４２は、一般的な人間の体格の３次元形状データが３次元人物モデルデータとして予め記憶されている。人物テクスチャ情報記憶部４３は、人物モデルに対して貼り付けたテクスチャのテクスチャ情報を記憶する。人物モデル生成部４４は、人物モデル記憶部４２に記憶されている人物モデルを用いて、画像取得部１において撮影した人物に似せた人物モデルを生成する。３次元画像出力部４５は、人物モデル生成部４４において生成した人物モデル（撮影された人物の３次元形状データ）と、空間モデル生成部４１において生成した空間モデル（撮影された空間の３次元形状データ）とから画像取得部１において撮影された２次元画像に対応する３次元画像情報を生成して出力する。

次に、図９を参照して、図８に示す映像コミュニケーションシステムの動作を説明する。図９は、図８に示す映像コミュニケーションシステムにおける撮像側及び表示側の装置の３次元画像生成部３の動作を示すフローチャートである。ここでは、ユーザＢ側の画像取得部１において撮影した映像をユーザＡ側へ出力する動作を説明する。なお、ユーザＡ側における処理は、ユーザＢ側における処理と同様である。
まず、３次元画像生成部３は、画像取得部１によって撮影された「ユーザＢの２次元画像」と、距離画像取得部２において取得した「距離画像」とを入力する（ステップＳ３１）。画像取得部１から入力した画像は、画像バッファ３５に記憶する。

次に、空間分離部３６は、「距離画像」に基づいて、「ユーザＢの２次元画像」を、人物領域画像と人物以外の空間領域画像とに分離する（ステップＳ３２）。人物領域と空間領域の分離には、ディスプレイが据え置きの映像コミュニケーションにおいては、空間が多くの場合に固定であるため、空間差分を利用し、予め空間のみを撮影しておき、それをリファレンスとして差分を取得することで人物領域を抽出する。

図１０は、人物領域画像と人物以外の空間領域画像とに分離する動作を示す説明図である。図１０に示すように、空間分離部３６は、撮影された画像Ａを空間領域画像Ｂと人物領域画像Ｃに分離する。このとき、単純に人物領域を抜いただけでは空間画像中の人物領域にあたる部分（図１０の破線で示した部分）の画像が欠落してしまう。このため、欠落している空間画像の領域を過去の空間画像から補完する。この補完した空間画像を空間領域画像とする。その他、空間が大きく変化しないと仮定し、事前に撮影した空間画像を使用してもよい。または、プライバシー保護の観点から、空間部分を実際とは違う画像と差し替えてもよい。空間分離部３６は、分離した空間領域画像Ｂと人物領域画像Ｃを画像バッファ３５の作業領域に記憶する。

次に、顔検出部３７は、画像バッファ３５に記憶されている人物領域画像から顔検出処理を行って顔領域画像を切り出す（ステップＳ３３）。そして、顔検出部３７は、顔の特徴点である眼、鼻、口、眉などの顔を構成する部位の位置情報を検出し、この顔を構成する部位の位置情報から顔全体の位置情報と、顔が向いている方向の情報を特定する。なおこのとき、距離画像取得部２で得られた距離画像を用いることで、顔検出の精度向上が可能である。具体的には、直前の画像フレーム（１枚以上のフレーム）で取得された、２次元画像中の顔位置に対応する距離を保持しておき、その距離から大幅に外れた箇所は顔領域では無いと判断し、距離が近い画像領域のみを顔が存在する候補とする。顔検出部３７は、特定した顔全体の位置情報と、顔が向いている方向の情報とを人物モデル生成部４４と姿勢推定部３９へ出力する。

次に、骨格抽出部３８は、画像バッファ３５に記憶されている人物領域画像から骨格抽出を行う（ステップＳ３４）。骨格抽出は、人物領域画像から頭、腕、手、上半身、足などを抽出し、これらに仮想の骨を割り当て、割り当てた骨の位置情報を検出することにより行う。

図１１は、人物領域画像から顔検出と骨格抽出を行う動作を示す説明図である。図１１に示すように、人物領域画像Ｃから顔部分を切り出した顔領域画像Ｅを用いて、顔を構成する部位の位置情報を検出する。また、人物領域画像Ｃに対して仮想の骨を割り当てることにより、人物の骨格を抽出し、骨格の位置情報Ｆを検出する。顔検出処理や骨格抽出処理は公知の処理方法を適用することができるため、ここでは処理の詳細な説明を省略する。

次に、骨格抽出部３８は、距離画像取得部２から入力した距離画像と画像取得部１が取得した画像の画角情報とから抽出した骨格の実際の大きさ（ユーザＢの大きさに相当する）を推定する（ステップＳ３５）。骨格抽出部３８は、骨格の位置情報と骨格の実際の大きさ情報とを人物モデル生成部４４と姿勢推定部３９へ出力する。

次に、姿勢推定部３９は、顔全体の位置情報と、顔が向いている方向情報と、骨格の位置情報とから人物（ユーザＢ）の姿勢を推定する（ステップＳ３６）。これにより、人物（ユーザＢ）が現時点でとっている姿勢が特定されることになる。姿勢推定部３９は、特定した姿勢の情報を人物モデル生成部４４へ出力する。姿勢の情報は、骨格を構成する各骨の３次元位置情報によって構成する。

次に、人物モデル生成部４４は、人物モデル記憶部４２から３次元人物モデルデータを読み出す（ステップＳ３７）。そして、人物モデル生成部４４は、顔検出部３７から出力された顔の位置情報、顔の向き情報、骨格抽出部３８から出力された骨格の実際の大きさ情報、姿勢推定部３９から出力された姿勢の情報に基づき、３次元人物モデルデータで定義される仮想の人物の大きさと姿勢を変形する（ステップＳ３８）。これにより、画像取得部１によって撮影した人物（ユーザＢ）と同じ大きさで同じ姿勢をとっている３次元人物モデルデータが生成されたことになる。

次に、テクスチャ抽出部４０は、画像バッファ３５に記憶されている人物領域画像を読み出し、この人物領域画像をテクスチャマッピングに用いるテクスチャデータとして人物モデル生成部４４へ出力する。これを受けて、人物モデル生成部４４は、得られた３次元人物モデルデータに対して、テクスチャ抽出部４０から出力されたテクスチャデータを３次元人物モデルデータで表現される人物モデルの表面に対して投影することにより３次元人物モデルデータで表現される人物モデルの表面にテクスチャを貼り付ける（ステップＳ３９）。これにより、画像取得部１において撮影した人物（ユーザＢ）の３次元画像が生成されたことになる。人物モデル生成部４４は、ここで生成した３次元画像情報を３次元画像出力部４５へ出力する。

図１２は、骨格抽出、人物モデルの変形、テクスチャ貼り付け、３次元画像生成の処理動作を示す説明図である。図１２に示すように、人物領域画像から骨格抽出を行うことにより、骨格を示す骨格情報Ｆが求められ、この骨格情報Ｆに基づいて、３次元人物モデルデータＧが実際に撮影された人物と同じ大きさで同じ姿勢をとっているように変形が行われる。そして、変形後の３次元人物モデルデータＧで表現される人物モデルの表面に人物領域画像Ｃに基づくテクスチャが貼り付けられることにより人物の３次元画像Ｈが生成されることになる。

次に、人物モデル生成部４４は、人物モデルにテクスチャを貼り付けた位置と貼り付けたテクスチャデータと関係付けて人物テクスチャ情報記憶部４３に記憶することにより、既に貼り付け処理を行ったテクスチャデータを保持しておく（ステップＳ４０）。これにより、人物モデルの表面にテクスチャが貼り付けられた過去の情報が保持されることになる。

次に、空間モデル生成部４１は、画像バッファ３５に記憶されている空間領域画像に対応する距離画像から空間に相当する部分の３次元形状データを定義した空間モデルデータを生成する。そして、テクスチャ抽出部４０は、画像バッファ３５に記憶されている空間領域画像を読み出し、この空間領域画像をテクスチャマッピングに用いるテクスチャデータとして空間モデル生成部４１へ出力する。これを受けて、空間モデル生成部４１は、生成した空間モデルデータで表現される空間物体の表面にテクスチャ抽出部４０から出力されたテクスチャデータを投影することにより３次元空間モデルデータで表現される空間モデルの表面にテクスチャを貼り付ける（ステップＳ４１）。これにより、空間の３次元画像情報が生成されたことになる。

次に、人物モデル生成部４４は、ここで生成した人物の３次元画像情報を３次元画像出力部４５へ出力する。このとき、人物モデル生成部４４は、今回撮影された画像に対する処理においてテクスチャが貼り付けられていない人物モデルの表面には、人物テクスチャ情報記憶部４３に記憶されている過去の処理において貼り付けられたテクスチャデータを読み出して貼り付ける。これにより、今回撮影した画像には映っていない箇所の画像も再現することができるようになる。また、空間モデル生成部４１は、生成した空間の３次元画像情報を３次元画像出力部４５へ出力する。

次に、３次元画像出力部４５は、人物領域画像から生成した人物モデルによる３次元画像情報に実寸の大きさ情報を付与する（ステップＳ４２）。図１３は、人物モデルによる３次元画像の大きさ情報の算出方法を説明するための概念図である。このとき、生成された人物モデルによる３次元画像αの画像の高さα_ｈ、幅α_ｗは、画像取得部１の画角（縦θ_ｈ、横θ_ｗ）、画像取得部１から人物モデルによる３次元画像までの距離Ｄ（画像取得部１とディスプレイ（ユーザＢ側の映像表示部）との位置関係を既知とし、「距離画像」から算出）、カメラズーム率Ｚを用いて、次式（２）、（３）で算出される。

次に、３次元画像出力部４５は、人物モデル生成部４４から出力される人物モデルによる３次元画像情報と、空間モデル生成部４１から出力される空間モデルによる３次元画像情報とを合成して、人物と空間からなる空間の３次元画像情報を生成する。図１４は、テクスチャデータが貼り付けられた人物モデルと空間モデルとを合成して得られた３次元画像情報の一例を示す説明図である。図１４に示すように、上記処理動作によって、人物モデルと空間モデルとによりユーザＢの空間の３次元形状を定義した３次元画像情報が生成されたことになる。そして、３次元画像出力部４５は、生成された３次元画像情報を画像変換部５に対して伝送する（ステップＳ４３）。

次に、図１５を参照して、図８に示す映像コミュニケーションシステムにおける表示側の装置の動作を説明する。図１５は、図８に示す映像コミュニケーションシステムにおける表示側の装置（視点位置検出部４、画像変換部５、映像表示部６）の動作を示すフローチャートである。

まず、画像変換部５は、ユーザＡ側及びユーザＢ側の３次元画像出力部４５から伝送された３次元画像情報を入力する（ステップＳ５１）。続いて、視点位置検出部４は、ユーザＡの視点（眼）位置がどこにあるかを示すユーザの視点位置Ｖ（ｖ_ｘ，ｖ_ｙ，ｖ_ｚ）を検出し、この視点位置Ｖを画像変換部５へ出力する（ステップＳ５２）。画像変換部５は、ユーザＡ側及びユーザＢ側の３次元画像出力部４５から伝送された３次元画像情報を映像表示部６の表示面に対称な３次元画像情報に変換して鏡面対称な３次元画像情報を生成する（ステップＳ５３）。

画像変換部５では、「ディスプレイ位置に対するユーザＡの視点位置」に応じて、「ユーザＢの鏡面対称な３次元画像情報」及び「ユーザＡの鏡面対称な３次元画像情報」を、ユーザＡの映像表示部６の画面に表示する映像（「ユーザの視点位置に応じた２次元画像」）へ変換することにより、２次元画像を生成する（ステップＳ５４）。「ユーザの視点位置に応じた２次元画像」は、「ユーザＢの鏡面対称な３次元画像情報」及び「ユーザＡの鏡面対称な３次元画像情報」を、「ディスプレイ位置に対するユーザＡの視点位置」を基点に、ユーザＡの映像表示部６の画面に透視投影などの射影変換を行うことで生成される。

図１６は、画像変換部５が行う透視変換の動作を示す概念図である。ディスプレイの中心を座標系の原点Ｏ（０，０，０）とし、ディスプレイ面の横方向にｘ軸、縦方向にｙ軸、ディスプレイ面の法線をｚ軸とし、ユーザ位置とは逆向きを正の方向とする。ユーザの視点位置をＶ（ｖ_ｘ，ｖ_ｙ，ｖ_ｚ）（但し、ｖ_ｚ＜０）としたとき、ディスプレイ面上の点Ｄ（ｘ，ｙ，ｚ）に投影されるべき、人物モデルと空間モデルによる３次元画像情報ｉの点Ｈ_ｉ（ｈ_ｘ，ｈ_ｙ，ｈ_ｚ）は、次式（４）により算出される。

なお、数式（４）の変換行列式中の座標は、実寸の情報を有する座標系ということを前提にしている。

最後に、映像表示部６は、画像変換部５により変換された映像、すなわち、ユーザＡの視点位置に応じたユーザＡ及びユーザＢの鏡面対称な２次元画像を表示する（ステップＳ５５）。

なお、画像変換部５は、２次元画像を生成する際に、ユーザＡの３次元画像情報、又はユーザＢの３次元画像情報のいずれかに含まれる空間物体を用いる。例えばユーザＡの３次元画像情報に含まれる空間物体を用いた場合、ユーザＡが居る空間にユーザＢが訪れたような同室感を得ることができる。また、ユーザＢの３次元画像に含まれる空間物体を用いた場合、ユーザＢが居る空間にユーザＡが訪れたような同室感を得ることができる。また、画像変換部５は、２次元画像を生成する際に、ユーザＡ及びユーザＢの３次元画像情報に含まれる空間物体と異なる空間物体を用いて２次元画像を生成するようにしてもよい。この場合、ユーザＡとユーザＢとが一緒に違う空間に行っているような同室感を得ることができる。

以上説明したように、ユーザの視点（眼の位置）に応じて、映像が変化するため、運動視差を実現することができるとともに、距離に応じた人物サイズで対話相手とユーザ自身とが鏡に映ったように表示することから、ユーザが映像中の対話相手との同室感を得ることができる。それにより、対面会話と同様に距離を適度に調節したり、対面会話において距離がもたらす、話しやすさ、緊張感の有無の効果をもたらすことができる。

＜第３の実施形態＞
図１７は第３の実施形態による映像コミュニケーションシステムの構成を示すブロック図である。第３の実施形態による映像コミュニケーションシステムでは、撮像された２次元画像から、人物を含む２次元の人物レイヤと、人物以外の背景を含む２次元の背景レイヤとを生成し、人物レイヤと背景レイヤとの奥行きに基づいた３次元画像情報を生成する構成について説明する。以下において、本実施形態における画像取得部１は、第１の実施形態又は第２の実施形態における画像取得部１と同じ構成を有しているので、その説明を省略する。また、ユーザＡ側の距離情報取得部２０及び３次元画像生成部３０と、ユーザＢ側の距離情報取得部２０及び３次元画像生成部３０とは同じ構成を有しているので、ユーザＢ側の距離情報取得部２０及び３次元画像生成部３０について説明し、ユーザＡ側の距離情報取得部２０及び３次元画像生成部３０についての説明を省略する。
図１７に示す映像コミュニケーションシステムは、ユーザ（以下、ユーザＡ）及び対話相手（以下、ユーザＢ）のそれぞれに用意され、双方向通信を介して使用される。以下では、ユーザＡのディスプレイにユーザＡ及びユーザＢ（対話相手）の映像を表示するものとして説明する。

距離情報取得部２０は、
ａ）複数カメラを用いた顔認識、及びステレオマッチングを用いた画像処理技術
ｂ）光学式、または磁気式のモーショントラッキング技術、
また、映像コミュニケーションにおいて人物がカメラ映像の中央にいることを前提条件とし、
ｃ）カメラのオートフォーカス機能によるフォーカス距離情報取得
などの手法を用いて、ディスプレイ面とユーザＢとの距離を示す距離情報を取得する。このとき、「ディスプレイ面とユーザＢとの距離」は、ディスプレイ面からユーザＢへの法線の長さである。距離情報を取得する手法は、上記手法だけに限らず、他の手法であってもよい。

３次元画像生成部３０は、画像取得部１によって撮影された、「ユーザＢの２次元画像」、及び距離情報取得部２０によって取得された、ディスプレイ面とユーザＢとの間の距離にもとづいて、「ユーザＢの２次元画像」を、奥行き情報を持つ「ユーザＢの３次元画像情報」に変換して出力する。

本実施形態の特徴として、対話相手とユーザ自身とが鏡に映ったように見える画像を用いた映像コミュニケーションにおいては、対話相手とユーザ自身がディスプレイの正面から大きく動かないという前提条件の下、完全な３次元形状を持つ奥行き映像を生成するのではなく、入力された「ユーザＢの２次元画像」を、人物領域と背景領域とに分割し、書割のように平面レイヤのまま奥行き情報を付与して多層化する。

人物領域と背景領域の分割には、ディスプレイが据え置きの映像コミュニケーションにおいては、背景が多くの場合に固定であるため、背景差分を利用し、予め背景のみを撮影しておき、それをリファレンスとして差分を取得することで人物を抽出する。また、距離画像センサを用いた距離情報や、温度画像センサによる人物の体温情報、顔認識を併用して領域分割の精度を向上させるようにしてもよい。

具体的な手法として、所定の範囲内に人物が存在し得る（例えば、ディスプレイが設置された部屋の場合には、ディスプレイから部屋の壁までの範囲内）場合には、ディスプレイの所定の位置を基準点とした人物の存在範囲（該基準点から該部屋の壁までの範囲）を規定し、距離画像センサを用いて距離画像を取得し、人物が存在すると規定される範囲の距離を示す画素領域を該距離画像中の人物領域と判定する。例えば、ディスプレイ面から、０〜３ｍまでの領域は、人物領域と判定し、３ｍ以上の領域は背景領域と判定する。
また、温度画像センサの場合、同様に人物を示す温度範囲を規定して、同様な判定を行う。これらの複数センサから取得された複数の人物領域を候補として、各画素でボーティングして人物領域を最終的に判定する。

具体的には、例えば、画像中のある画素で、各センサを用いた人物領域判定の論理積を取ることで、最終的な判定を行う。顔認識の利用用途は、上記処理などを行った後に、人物領域と判定される領域の候補が複数存在し、その中に人物以外のものが混在していたときに、２次元画像中の領域毎に顔認識を行い、顔抽出された領域のみを人物領域と判定する。これにより、誤って人物領域と判定された領域を排除することが可能であり、より頑健な人物領域抽出が可能となる。

その他、画像中の領域分割には様々な手法が提案されており、それらも利用可能である。また、本実施形態では、２層化についての方式を説明したが、さらに多層化する場合、距離や温度の閾値を細かく設定し、距離画像や、温度画像の分割数を増やすことが考えられる。これにより、多層の書割レイヤを生成することが可能である。

次に、図１８を参照して、図１７に示す映像コミュニケーションシステムの動作を説明する。図１８は、図１７に示す映像コミュニケーションシステムにおける撮像側の装置（３次元画像生成部３０）の動作を示すフローチャートである。ここでは、ユーザＢ側の画像取得部１において撮影した映像をユーザＡ側へ出力する動作を説明する。また、簡単のため、最も単純な構成である２層化の手法について具体的に述べる。
まず、３次元画像生成部３０は、画像取得部によって撮影された「ユーザＢの２次元画像」と、距離情報取得部２０から供給される、「ディスプレイ面とユーザＢとの間の距離」を入力する（ステップＳ６１）。

次に、「ディスプレイ面とユーザＢとの間の距離」にもとづいて、「ユーザＢの２次元画像」を、人物領域とその背景領域とに分割する（ステップＳ６２）。２層化する際、前のレイヤが人物領域、後ろのレイヤが背景領域となる。

次に、２層化された領域のうち、背景領域の画像に基づいて、新たな背景画像を生成する（ステップＳ６３）。単純に１枚の元画像から人物領域を抜いて(減算した)ままだと、背景画像中の人物領域に当たる部分の画像が欠けてしまう。このため、欠落している背景画像の領域を過去の背景画像から補完する。この補完した背景画像が新たな背景領域の画像となる。そのた、背景が大きく変化しないと仮定し、事前に撮影した背景画像を背景レイヤとして使用してもよい。または、プライバシー保護の観点から、背景部分を実際とは違う画像と差し替えてもよい。その他、背景画像に用いる画像に特に制約はなく、一般的に考えられるあらゆる画像が利用可能である。
次に、上記生成された、人物領域の画像、背景画像に実寸の大きさ情報を付与する(ステップＳ６４)。人物領域の画像に対する大きさ情報の算出方法は、図１３において説明した大きさ情報の算出方法と同様である。

次に、ディスプレイからの距離情報と実寸情報とを合わせて奥行き情報とし、人物領域の画像と背景画像とに該奥行き情報を付与し、それぞれレイヤ化する（ステップＳ６５）。以降、人物領域の画像を人物レイヤ、背景画像を背景レイヤと呼ぶ。このレイヤ化により、奥行き情報を持つユーザＢの３次元画像情報として生成される。このとき、人物レイヤの奥行き位置は、「ディスプレイ面とユーザＢとの間の距離」を用いる。背景レイヤの奥行きは、任意の値（ただし、人物レイヤより奥行き位置が遠きこと）を用いる。なお、ステップＳ６３において、背景レイヤの距離情報を取得できていた場合、その距離を用いて値を決めるようにしてもよい。
次に、３次元画像生成部３０は、生成した３次元画像情報を画像変換部５に対して伝送する（ステップＳ６６）。

図１９は、本実施形態において、実際に生成される「奥行き情報を持つユーザＢの３次元画像情報」の例を示す概念図である。図１９では、距離１．０ｍの位置に人物レイヤ、距離３．０ｍの位置に背景レイヤが配置されている。この奥行きに応じて配置された多層レイヤの情報は、各レイヤの２次元画像データ、各レイヤ面とディスプレイ間の距離、各レイヤの縦・横（α_ｈ，α_ｗ）であり、これらの「奥行き情報を持つユーザＢの３次元画像情報」が出力される。「奥行き情報を持つユーザＢの３次元画像情報」は、各レイヤの２次元画像データと、ディスプレイ面からの距離と、レイヤの縦・横のサイズとを含む。

上述のように、本実施形態による映像コミュニケーションシステムでは、２次元画像から、撮像された人物を含む人物レイヤと、人物以外の背景を含む背景レイヤとを生成し、それらに基づいて３次元画像情報を生成する。したがって、人物や当該人物の空間の３次元形状に基づいた３次元画像情報を生成する場合に比べ、３次元画像情報を生成する際の演算量を抑えることができる。
これにより、対話相手とユーザ自身とが鏡に映ったように表示することからユーザが映像中の対話相手との同室感を得つつ、映像コミュニケーションシステムに要求される演算処理性能を低くすることができ、処理の高速化や装置の低価格化を図ることができる。

なお、図３、図８、図１７における処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより映像コミュニケーション処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

以上、図面を参照して本発明の実施の形態を説明してきたが、上記実施の形態は本発明の例示に過ぎず、本発明が上記実施の形態に限定されるものではないことは明らかである。したがって、本発明の技術思想及び範囲を逸脱しない範囲で構成要素の追加、省略、置換、その他の変更を行っても良い。

撮像側の映像装置と表示側の映像装置との間で、撮像側の映像装置で撮影した映像を表示側の映像装置に伝送することが不可欠な用途に適用できる。

１・・・画像取得部、２・・・距離画像取得部、２０・・・距離情報取得部、３・・・３次元画像生成部、３０・・・３次元画像生成部、３１・・・３次元モデル生成部、３２・・・３次元画像出力部、３５・・・画像バッファ、３６・・・空間分離部、３７・・・顔検出部、３８・・・骨格抽出部、３９・・・姿勢推定部、４０・・・テクスチャ抽出部、４１・・・空間モデル生成部、４２・・・人物モデル記憶部、４３・・・人物テクスチャ情報記憶部、４４・・・人物モデル生成部、４５・・・３次元画像出力部、４・・・視点位置検出部、５・・・画像変換部、６・・・映像表示部

Claims

撮像側で撮影した映像と表示側で撮像した映像とを表示側において表示する映像コミュニケーションシステムであって、
前記撮像側の人物と人物以外の空間とを含む第１の２次元画像を撮影する第１の画像取得手段と、
前記撮像側の人物と人物以外の空間とを含む第１の距離情報を取得する第１の距離情報取得手段と、
前記第１の距離情報に基づき前記第１の２次元画像に対応する前記撮像側の空間の３次元画像を生成する第１の３次元画像生成手段と、
前記表示側の人物と人物以外の空間とを含む第２の２次元画像を撮影する第２の画像取得手段と、
前記表示側の人物と人物以外の空間とを含む第２の距離情報を取得する第２の距離情報取得手段と、
前記第２の距離情報に基づき前記第２の２次元画像に対応する前記表示側の空間の３次元画像を生成する第２の３次元画像生成手段と、
前記表示側の人物の視点位置を検出する視点検出手段と、
前記表示側の表示装置の表示面に対して対称な前記第１の３次元画像の人物の画像と、前記表示側の表示装置の表示面に対して対称な前記第２の３次元画像の人物の画像とを前記視点位置に応じて１つの２次元画像に変換する画像変換手段と、
前記表示側の表示装置に前記変換された２次元画像を表示する表示手段と
を備えたことを特徴とする映像コミュニケーションシステム。
撮像側で撮影した映像と表示側で撮像した映像とを表示側において表示する映像コミュニケーションシステムであって、
前記撮像側の人物と人物以外の空間とを含む第１の２次元画像を撮影する第１の画像取得手段と、
前記撮像側の人物と人物以外の空間とを含む第１の距離画像を取得する第１の距離画像取得手段と、
前記第１の距離画像に基づき前記第１の２次元画像に対応する前記撮像側の空間の３次元モデルデータを生成する第１の３次元モデル生成手段と、
前記第１の３次元モデル生成手段により得られた３次元モデルデータで定義される３次元モデルの表面に対して、前記第１の２次元画像をテクスチャとして貼り付けることにより、前記撮像側の空間の３次元画像を生成する第１の３次元画像生成手段と、
前記表示側の人物と人物以外の空間とを含む第２の２次元画像を撮影する第２の画像取得手段と、
前記表示側の人物と人物以外の空間とを含む第２の距離画像を取得する第２の距離画像取得手段と、
前記第２の距離画像に基づき前記第２の２次元画像に対応する前記表示側の空間の３次元モデルデータを生成する第２の３次元モデル生成手段と、
前記第２の３次元モデル生成手段により得られた３次元モデルデータで定義される３次元モデルの表面に対して、前記第２の２次元画像をテクスチャとして貼り付けることにより、前記表示側の空間の３次元画像を生成する第２の３次元画像生成手段と、
前記表示側の人物の視点位置を検出する視点検出手段と、
前記表示側の表示装置の表示面に対して対称な前記第１の３次元画像の人物の３次元モデルデータと、前記表示側の表示装置の表示面に対して対称な前記第２の３次元画像の人物の３次元データモデルとを前記視点位置に応じて１つの２次元画像に変換する画像変換手段と、
前記表示側の表示装置に前記変換された２次元画像を表示する表示手段と
を備えたことを特徴とする映像コミュニケーションシステム。
前記画像変換手段は、
前記第１の３次元画像の空間の３次元モデルデータを前記２次元画像における空間として用いる
ことを特徴とする請求項２に記載の映像コミュニケーションシステム。
前記画像変換手段は、
前記第２の３次元画像の空間の３次元モデルデータを前記２次元画像における空間として用いる
ことを特徴とする請求項２に記載の映像コミュニケーションシステム。
前記画像変換手段は、
前記第１の３次元画像の空間及び前記第２の３次元画像の空間と異なる空間の３次元モデルデータであって予め定められた３次元モデルデータを前記２次元画像における空間として用いる
ことを特徴とする請求項２に記載の映像コミュニケーションシステム。
撮像側で撮影した映像と表示側で撮像した映像とを表示側において表示する映像コミュニケーションシステムであって、
前記撮像側の人物と人物以外の空間とを含む第１の２次元画像を撮影する第１の画像取得手段と、
前記撮像側の人物と人物以外の空間とを含む第１の距離画像を取得する第１の距離画像取得手段と、
３次元人物モデルデータを記憶する人物モデル記憶手段と、
撮影した前記第１の２次元画像を第１の人物領域画像と第１の空間領域画像に分離する第１の画像分離手段と、
前記第１の人物領域画像と前記第１の距離画像とから前記撮像側の人物の大きさと姿勢を推定する第１の推定手段と、
前記第１の推定手段が推定した前記人物の大きさと前記姿勢に基づき、前記人物モデル記憶手段に記憶されている前記３次元人物モデルデータを変形して前記第１の人物領域画像に対応する３次元人物モデルデータを生成し、得られた３次元人物モデルデータで定義される人物モデルの表面に対して、前記第１の人物領域画像をテクスチャとして貼り付けることにより、人物モデルを生成する第１の人物モデル生成手段と、
前記表示側の人物と人物以外の空間とを含む第２の２次元画像を撮影する第２の画像取得手段と、
前記表示側の人物と人物以外の空間とを含む第２の距離画像を取得する第２の距離画像取得手段と、
撮影した前記第２の２次元画像を第２の人物領域画像と第２の空間領域画像に分離する第２の画像分離手段と、
前記第２の人物領域画像と前記第２の距離画像とから前記表示側の人物の大きさと姿勢を推定する第２の推定手段と、
前記第２の推定手段が推定した前記人物の大きさと前記姿勢に基づき、前記人物モデル記憶手段に記憶されている前記３次元人物モデルデータを変形して前記第２の人物領域画像に対応する３次元人物モデルデータを生成し、得られた３次元人物モデルデータで定義される人物モデルの表面に対して、前記第２の人物領域画像をテクスチャとして貼り付けることにより、人物モデルを生成する第２の人物モデル生成手段と、
前記表示側の人物の視点位置を検出する視点検出手段と、
前記表示側の表示装置の表示面に対して対称な人物モデルであって前記第１の人物モデル生成手段が生成した人物モデルと、前記表示側の表示装置の表示面に対して対称な人物モデルであって前記第２の人物モデル生成手段が生成した人物モデルとを前記視点位置に応じて１つの２次元画像に変換する画像変換手段と、
前記表示側の表示装置に前記変換された２次元画像を表示する表示手段と
を備えたことを特徴とする映像コミュニケーションシステム。
前記第１の空間領域画像に対応する前記第１の距離画像から３次元空間モデルデータを生成し、得られた３次元空間モデルデータで定義される空間モデルの表面に対して、前記第１の空間領域画像をテクスチャとして貼り付けることにより空間モデルを生成する第１の空間モデル生成手段をさらに備え、
前記画像変換手段は、
前記第１の空間モデル生成手段が生成した前記空間モデルを前記２次元画像における空間として用いる
ことを特徴とする請求項６に記載の映像コミュニケーションシステム。
前記第２の空間領域画像に対応する前記第２の距離画像から３次元空間モデルデータを生成し、得られた３次元空間モデルデータで定義される空間モデルの表面に対して、前記第２の空間領域画像をテクスチャとして貼り付けることにより空間モデルを生成する第２の空間モデル生成手段を更に備え、
前記画像変換手段は、
前記第２の空間モデル生成手段が生成した前記空間モデルを前記２次元画像における空間として用いる
ことを特徴とする請求項６に記載の映像コミュニケーションシステム。
前記画像変換手段は、
前記第１の３次元画像の空間及び前記第２の３次元画像の空間と異なる空間の３次元モデルデータであって予め定められた３次元モデルデータを前記２次元画像における空間として用いる
ことを特徴とする請求項６に記載の映像コミュニケーションシステム。
撮像側で撮影した映像と表示側で撮像した映像とを表示側において表示するために、前記撮像側の人物と人物以外の空間とを含む第１の２次元画像を撮影する第１の画像取得手段と、前記撮像側の人物と人物以外の空間とを含む第１の距離情報を取得する第１の距離情報取得手段と、前記表示側の人物と人物以外の空間とを含む第２の２次元画像を撮影する第２の画像取得手段と、前記表示側の人物と人物以外の空間とを含む第２の距離情報を取得する第２の距離情報取得手段とを備える映像コミュニケーションシステムが行う映像コミュニケーション方法であって、
前記第１の距離情報に基づき前記第１の２次元画像に対応する前記撮像側の空間の３次元画像を生成する第１の３次元画像生成ステップと、
前記第２の距離情報に基づき前記第２の２次元画像に対応する前記表示側の空間の３次元画像を生成する第２の３次元画像生成ステップと、
前記表示側の人物の視点位置を検出する視点検出ステップと、
前記表示側の表示装置の表示面に対して対称な前記第１の３次元画像の人物の画像と、前記表示側の表示装置の表示面に対して対称な前記第２の３次元画像の人物の画像とを前記視点位置に応じて１つの２次元画像に変換する画像変換ステップと、
前記表示側の表示装置に前記変換された２次元画像を表示する表示ステップと
を有することを特徴とする映像コミュニケーション方法。
撮像側で撮影した映像と表示側で撮像した映像とを表示側において表示するために、前記撮像側の人物と人物以外の空間とを含む第１の２次元画像を撮影する第１の画像取得手段と、前記撮像側の人物と人物以外の空間とを含む第１の距離画像を取得する第１の距離画像取得手段と、前記表示側の人物と人物以外の空間とを含む第２の２次元画像を撮像する第２の画像取得手段と、前記表示側の人物と人物以外の空間とを含む第２の距離画像を取得する第２の距離画像取得手段とを備える映像コミュニケーションシステムが行う映像コミュニケーション方法であって、
前記第１の距離画像に基づき前記第１の２次元画像に対応する前記撮像側の空間の３次元モデルデータを生成する第１の３次元モデル生成ステップと、
前記第１の３次元モデル生成ステップにより得られた３次元モデルデータで定義される３次元モデルの表面に対して、前記第１の２次元画像をテクスチャとして貼り付けることにより、前記撮像側の空間の３次元画像を生成する第１の３次元画像生成ステップと、
前記第２の距離画像に基づき前記第２の２次元画像に対応する前記表示側の空間の３次元モデルデータを生成する第２の３次元モデル生成ステップと、
前記第２の３次元モデル生成ステップにより得られた３次元モデルデータで定義される３次元モデルの表面に対して、前記第２の２次元画像をテクスチャとして貼り付けることにより、前記表示側の空間の３次元画像を生成する第２の３次元画像生成ステップと、
前記表示側の人物の視点位置を検出する視点検出ステップと、
前記表示側の表示装置の表示面に対して対称な前記第１の３次元画像の人物の３次元モデルデータと、前記表示側の表示装置の表示面に対して対称な前記第２の３次元画像データの人物の３次元モデルデータとを前記視点位置に応じて１つの２次元画像に変換する画像変換ステップと、
前記表示側の表示装置に前記変換された２次元画像を表示する表示ステップと
を有することを特徴とする映像コミュニケーション方法。
撮像側で撮影した映像と表示側で撮像した映像とを表示側において表示するために、前記撮像側の人物と人物以外の空間とを含む第１の２次元画像を撮影する第１の画像取得手段と、前記撮像側の人物と人物以外の空間とを含む第１の距離画像を取得する第１の距離画像取得手段と、前記表示側の人物と人物以外の空間とを含む第２の２次元画像を撮像する第２の画像取得手段と、前記表示側の人物と人物以外の空間とを含む第２の距離画像を取得する第２の距離画像取得手段と、３次元人物モデルデータを記憶する人物モデル記憶手段とを備える映像コミュニケーションシステムが行う映像コミュニケーション方法であって、
撮影した前記第１の２次元画像を第１の人物領域画像と第１の空間領域画像に分離する第１の画像分離ステップと、
前記第１の人物領域画像と、前記第１の距離画像とから前記撮像側の人物の大きさと姿勢を推定する第１の推定ステップと、
前記第１の推定ステップにおいて推定された前記人物の大きさと前記姿勢に基づき、前記人物モデル記憶手段に記憶されている前記３次元人物モデルデータを変形して前記第１の人物領域画像に対応する３次元人物モデルデータを生成し、得られた３次元人物モデルデータで定義される人物モデルの表面に対して、前記第１の人物領域画像をテクスチャとして貼り付けることにより、人物モデルを生成する第１の人物モデル生成ステップと、
撮影した前記第２の２次元画像を第２の人物領域画像と第２の空間領域画像に分離する第２の画像分離ステップと、
前記第２の人物領域画像と、前記第２の距離画像とから前記表示側の人物の大きさと姿勢を推定する第２の推定ステップと、
前記第２の推定ステップにおいて推定された前記人物の大きさと前記姿勢に基づき、前記人物モデル記憶手段に記憶されている前記３次元人物モデルデータを変形して前記第２の人物領域画像に対応する３次元人物モデルデータを生成し、得られた３次元人物モデルデータで定義される人物モデルの表面に対して、前記第１の人物領域画像をテクスチャとして貼り付けることにより、人物モデルを生成する第２の人物モデル生成ステップと、
前記表示側の人物の視点位置を検出する視点検出ステップと、
前記表示側の表示装置の表示面に対して対称な人物モデルであって前記第１の人物モデル生成ステップにおいて生成した人物モデルと、前記表示側の表示装置の表示面に対して対称な人物モデルであって前記第２の人物モデル生成ステップにおいて生成した人物モデルとを前記視点位置に応じて１つの２次元画像に変換する画像変換ステップと、
前記表示側の表示装置に前記変換された２次元画像を表示する表示ステップと
を有することを特徴とする映像コミュニケーション方法。