JP2014086775A

JP2014086775A - 映像コミュニケーションシステム及び映像コミュニケーション方法

Info

Publication number: JP2014086775A
Application number: JP2012232017A
Authority: JP
Inventors: Akira Ishii; 亮石井; Shiro Ozawa; 史朗小澤; Harumi Kawamura; 春美川村; Akira Kojima; 明小島
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-10-19
Filing date: 2012-10-19
Publication date: 2014-05-12
Anticipated expiration: 2032-10-19
Also published as: JP5833526B2

Abstract

【課題】ユーザに対して映像中の対話相手の表現をより現実的にすることができる映像コミュニケーションシステムを提供する。
【解決手段】撮像側の人物と人物以外の空間とを含む２次元画像を撮影する画像取得手段と、撮像側の人物と人物以外の空間とを含む距離画像を取得する距離画像取得手段と、距離画像に基づき２次元画像に対応する撮像側の空間の３次元モデルデータを生成する３次元モデル生成手段と、３次元モデル生成手段により得られた３次元モデルデータで定義される３次元モデルの表面に対して、２次元画像をテクスチャとして貼り付けることにより、撮像側の空間の３次元画像を生成する３次元画像生成手段と、表示側の人物の視点位置を検出する視点検出手段と、３次元画像から視点位置に応じた２次元画像に変換する画像変換手段と、表示側の表示装置に変換された２次元画像を表示する表示手段とを備えた。
【選択図】図３

Description

本発明は、撮像側の映像装置で撮影した映像を表示側の映像装置に伝送する映像コミュニケーションシステム及び映像コミュニケーション方法に関する。

映像コミュニケーションにおいて、対話相手とあたかも対面しているかのように、対話相手をユーザにどのような映像として提示するかが重要である。従来、映像コミュニケーションにおいては、あたかも実物大の対話相手が眼の前にいるように感じさせるために、対話相手の人物を２次元ディスプレイ上に実物大に映す方式が考えられている（例えば、特許文献１参照）。

対面会話において、対人間の距離感は、話しやすさや、緊張感に影響を与え重要である（参考文献１：エドワードホール、かくれた次元、２０００、みすず書房）。しかしながら、従来の２次元ディスプレイに映された対話相手では、どの位置から映像を観察しても２次元ディスプレイに表示された映像は変化しない。視点位置による画像変化が無いため、奥行き情報が欠落し、対話相手との距離の表現ができなかった。

すなわち、実際に、対話相手が眼の前にいるように感じさせるためには、実物大表示だけでは不十分である。例えば、ディスプレイ上に等身大に表示されている人物を見ても、個人によって人物がディスプレイよりも前や、後ろにいるように感じたり、そもそもどの奥行き位置にいるのかが把握できないために、実物より大きい、もしくは小さい人物がいるように感じられ、対話相手を等身大に感じることができない。このように、距離感が表現できないために、対面会話のように距離による会話への効果を期待することができない。

また、ユーザが映像中の対話相手とどれくらいの距離にいるのかを、把握することができなかったため、対面会話と同様に、対人距離を適度に調節することや、距離の遠近によってもたらせる緊張感が感じられなかった。

このような問題を解決するために、出願人は、ユーザに対して映像中の対話相手との距離感や現実感を与えることができる映像コミュニケーションシステムを提案している（特許文献２参照）。このシステムは、ディスプレイを窓に見立てて、ユーザと対話相手の空間が窓越しに繋がったような表現を行う。具体的には、ユーザの視点位置に応じて、対話相手の映像を変化させるという運動視差を実現し、距離に応じた人物サイズで対話相手を表示することで、ユーザに映像中の対話相手との距離感、現実感を与えることができるものである。

特許第３５８６１２６号公報特開２０１１−７７７１０号公報

しかしながら、特許文献２に開示された映像コミュニケーションシステムでは、遠隔地のユーザが各地点１人ずつで利用することを前提にしていた。そのため、２地点以上の多地点のユーザが参加することはできなかった。

本発明は、このような事情に鑑みてなされたもので、多地点のユーザに対して映像中の対話相手および空間の表現をより現実的にすることができる映像コミュニケーションシステム及び映像コミュニケーション方法を提供することを目的とする。

本発明は、複数の撮像側で撮影した映像を表示側において表示する映像コミュニケーションシステムであって、前記撮像側の人物と人物以外の空間とを含む２次元画像を撮影する画像取得手段と、前記撮像側の人物と人物以外の空間とにおける距離情報を取得する距離情報取得手段と、前記距離情報に基づき前記２次元画像に対応する前記撮像側の空間の３次元画像を生成する３次元画像生成手段と、前記表示側の人物の視点位置を検出する視点検出手段と、前記視点位置と前記表示側の表示装置において前記撮像側それぞれに割り当てられた表示領域とに応じて、前記３次元画像を前記２次元画像に変換する画像変換手段と、前記表示側の表示装置に前記変換された２次元画像を表示する表示手段とを備えたことを特徴とする。

本発明は、複数の撮像側で撮影した映像を表示側において表示する映像コミュニケーションシステムであって、前記撮像側の人物と人物以外の空間とを含む２次元画像を撮影する画像取得手段と、前記撮像側の人物と人物以外の空間とを含む距離画像を取得する距離画像取得手段と、前記距離画像に基づき前記２次元画像に対応する前記撮像側の空間の３次元モデルデータを生成する３次元モデル生成手段と、前記３次元モデル生成手段により得られた３次元モデルデータで定義される３次元モデルの表面に対して、前記２次元画像をテクスチャとして貼り付けることにより、前記撮像側の空間の３次元画像を生成する３次元画像生成手段と、前記表示側の人物の視点位置を検出する視点検出手段と、前記視点位置と前記表示側の表示装置において前記撮像側それぞれに割り当てられた表示領域とに応じて、前記３次元画像を前記２次元画像に変換する画像変換手段と、前記表示側の表示装置に前記変換された２次元画像を表示する表示手段とを備えたことを特徴とする。

本発明は、複数の撮像側で撮影した映像を表示側において表示する映像コミュニケーションシステムであって、前記撮像側の人物と人物以外の空間とを含む２次元画像を撮影する画像取得手段と、前記撮像側の人物と人物以外の空間とを含む距離画像を取得する距離画像取得手段と、３次元人物モデルデータを記憶する人物モデル記憶手段と、撮影した前記２次元画像を人物領域画像と空間領域画像に分離する画像分離手段と、前記人物領域画像と、前記距離画像とから前記撮像側の人物の大きさと姿勢を推定する推定手段と、推定された前記人物の大きさと前記姿勢に基づき、前記人物モデル記憶手段に記憶されている前記３次元人物モデルデータを変形して前記人物領域画像に対応する３次元人物モデルデータを生成し、得られた３次元人物モデルデータで定義される人物モデルの表面に対して、前記人物領域画像をテクスチャとして貼り付けることにより、人物モデルを生成する人物モデル生成手段と、前記空間領域画像に対応する前記距離画像から３次元空間モデルデータを生成し、得られた３次元空間モデルデータで定義される空間モデルの表面に対して、前記空間領域画像をテクスチャとして貼り付けることにより空間モデルを生成する空間モデル生成手段と、前記空間モデルと、前記人物モデルとを合成した３次元画像を生成する３次元画像生成手段と、前記表示側の人物の視点位置を検出する視点検出手段と、前記視点位置と前記表示側の表示装置において前記撮像側それぞれに割り当てられた表示領域とに応じて、前記３次元画像を前記２次元画像に変換する画像変換手段と、前記表示側の表示装置に前記変換された２次元画像を表示する表示手段とを備えたことを特徴とする。

本発明は、前記人物モデルの表面に対して貼り付けたテクスチャの情報を記憶しておくテクスチャ情報記憶手段をさらに備え、前記人物モデル生成手段は、新たな前記人物領域画像によるテクスチャが貼り付けられなかった前記人物モデルの表面に対して、前記テクスチャ情報記憶手段に記憶されたテクスチャを貼り付けることを特徴とする。

本発明は、複数の撮像側で撮影した映像を表示側において表示するために、前記撮像側の人物と人物以外の空間とを含む２次元画像を撮影する画像取得手段と、前記撮像側の人物と人物以外の空間とにおける距離情報を取得する距離情報取得手段とを備える映像コミュニケーションシステムが行う映像コミュニケーション方法であって、前記距離情報に基づき前記２次元画像に対応する前記撮像側の空間の３次元画像を生成する３次元画像生成ステップと、前記表示側の人物の視点位置を検出する視点検出ステップと、前記視点位置と前記表示側の表示装置において前記撮像側それぞれに割り当てられた表示領域とに応じて、前記３次元画像を前記２次元画像に変換する画像変換ステップと、前記表示側の表示装置に前記変換された２次元画像を表示する表示ステップとを有することを特徴とする。

本発明は、複数の撮像側で撮影した映像を表示側において表示するために、前記撮像側の人物と人物以外の空間とを含む２次元画像を撮影する画像取得手段と、前記撮像側の人物と空間人物以外の空間とを含む距離画像を取得する距離画像取得手段とを備える映像コミュニケーションシステムが行う映像コミュニケーション方法であって、前記距離画像に基づき前記２次元画像に対応する前記撮像側の空間の３次元モデルデータを生成する３次元モデル生成ステップと、前記３次元モデル生成ステップにより得られた３次元モデルデータで定義される３次元モデルの表面に対して、前記２次元画像をテクスチャとして貼り付けることにより、前記撮像側の空間の３次元画像を生成する３次元画像生成ステップと、前記表示側の人物の視点位置を検出する視点検出ステップと、前記視点位置と前記表示側の表示装置において前記撮像側それぞれに割り当てられた表示領域とに応じて、前記３次元画像を前記２次元画像に変換する画像変換ステップと、前記表示側の表示装置に前記変換された２次元画像を表示する表示ステップとを有することを特徴とする。

本発明は、複数の撮像側で撮影した映像を表示側において表示するために、前記撮像側の人物と人物以外の空間とを含む２次元画像を撮影する画像取得手段と、前記撮像側の人物と人物以外の空間とを含む距離画像を取得する距離画像取得手段と、３次元人物モデルデータを記憶する人物モデル記憶手段とを備える映像コミュニケーションシステムが行う映像コミュニケーション方法であって、撮影した前記２次元画像を人物領域画像と空間領域画像に分離する画像分離ステップと、前記人物領域画像と、前記距離画像とから前記撮像側の人物の大きさと姿勢を推定する推定ステップと、推定された前記人物の大きさと前記姿勢に基づき、前記人物モデル記憶手段に記憶されている前記３次元人物モデルデータを変形して前記人物領域画像に対応する３次元人物モデルデータを生成し、得られた３次元人物モデルデータで定義される人物モデルの表面に対して、前記人物領域画像をテクスチャとして貼り付けることにより、人物モデルを生成する人物モデル生成ステップと、前記空間領域画像に対応する前記距離画像から３次元空間モデルデータを生成し、得られた３次元空間モデルデータで定義される空間モデルの表面に対して、前記空間領域画像をテクスチャとして貼り付けることにより空間モデルを生成する空間モデル生成ステップと、前記空間モデルと、前記人物モデルとを合成した３次元画像を生成する３次元画像生成ステップと、前記表示側の人物の視点位置を検出する視点検出ステップと、前記視点位置と前記表示側の表示装置において前記撮像側それぞれに割り当てられた表示領域とに応じて、前記３次元画像を前記２次元画像に変換する画像変換ステップと、前記表示側の表示装置に前記変換された２次元画像を表示する表示ステップとを有することを特徴とする。

本発明によれば、ユーザの視点（眼の位置）に応じて、対話相手の映像を変化させるという運動視差を実現し、距離に応じた人物サイズで対話相手を表示することで、ユーザに映像中の対話相手との距離感、現実感を与えることができる。特に、対話相手の人物や人物以外の空間を３次元情報に基づいて表示するようにしたため、ユーザに対して映像中の対話相手の人物や人物以外の空間の表現をより現実的にすることができるという効果が得られる。

本発明による映像表示のイメージを示す概念図である。本発明の第１の実施形態におけるユーザＡ〜Ｃの位置関係の一例を示す概略図である。第１の実施形態による映像コミュニケーションシステムの構成を示すブロック図である。第１の実施形態における映像表示部６に表示される画像の位置例を示す図である。図３に示す映像コミュニケーションシステムにおける撮像側の装置（３次元画像生成部３）の動作を示すフローチャートである。テクスチャデータが貼り付けられた３次元モデルデータの一例を示す説明図である。図３に示す映像コミュニケーションシステムにおける表示側の装置（視点位置検出部４、画像変換部５、映像表示部６）の動作を示すフローチャートである。第１の実施形態におけるユーザＡの視点位置と、ユーザＢ及びユーザＣの窓に対応する領域との関係の一例を示す図である。図３に示す画像変換部５が行う透視変換の動作を示す概念図である。第１の実施形態の変形例１におけるユーザＡ〜Ｄの位置関係の一例を示す概略図である。第１の実施形態の変形例２における映像表示部６の構成の一例を示す図である。本発明の第２の実施形態による映像コミュニケーションシステムの構成を示すブロック図である。図１２に示す映像コミュニケーションシステムにおける撮像側の装置（３次元画像生成部３）の動作を示すフローチャートである。人物領域画像と人物以外の空間領域画像とに分離する動作を示す説明図である。人物領域画像から顔検出と骨格抽出を行う動作を示す説明図である。骨格抽出、人物モデルの変形、テクスチャ貼り付け、３次元画像生成の処理動作を示す説明図である。人物モデルによる３次元画像の大きさ情報の算出方法を説明するための概念図である。実際に生成される「３次元画像情報」の例を示す概念図である。図１２に示す映像コミュニケーションシステムにおける表示側の装置（視点位置検出部４、画像変換部５、映像表示部６）の動作を示すフローチャートである。図１２に示す画像変換部５が行う透視変換の動作を示す概念図である。本発明の第３の実施形態による映像コミュニケーションシステムの構成を示すブロック図である。図２１に示す映像コミュニケーションシステムにおける撮像側の装置（移動量算出部２１、位置測定部２２、距離画像生成部２３、３次元画像生成部３）の動作を示すフローチャートである。本発明の第４の実施形態による映像コミュニケーションシステムの構成を示すブロック図である。図２３に示す映像コミュニケーションシステムにおける撮像側の装置(３次元画像生成部３)の動作を示すフローチャートである。実際に生成される「３次元画像情報」の例を示す概念図である。本発明の第５の実施形態における映像コミュニケーションシステムの構成を示すブロック図である。図２６に示す映像コミュニケーションシステムにおける撮像側の装置（３次元画像生成部３０）の動作を示すフローチャートである。

以下、図面を参照して、本発明の実施形態による映像コミュニケーションシステムを説明する。始めに、本実施形態による映像コミュニケーションシステムの動作原理について説明する。本実施形態による映像コミュニケーションシステムは、撮像側の装置と表示側の装置とを備え、撮像側の装置から人物と空間とに分けた３次元画像情報を表示側の装置へ送り、表示側の装置では表示側にいる人物の眼の位置に応じて、送られた３次元画像を２次元変換して、表示側の人物がディスプレイを見た際に窓越しに空間が繋がっているように見える画像を生成して表示することによって対話相手の人物の表現をより現実的にするものである。

すなわち、多地点での映像コミュニケーションにおいて、ディスプレイを窓に見立てて、ユーザと対話相手とが互いにあたかも相手の空間を窓越しに覗いているかのように、ユーザの視点位置に応じて、その位置から見える対話相手の空間の映像をディスプレイに表示すること（運動視差）を実現し、映像中の対話相手の奥行き情報を表現するものである。

図１は、本実施形態による映像表示のイメージを示す概念図である。図１において、ユーザ１００が視点を変えると（３軸移動に対応）、映像中の対話相手２００と人物以外の空間中のオブジェクト３００（図１では説明のため、壁のみで表現）の画像を、その視点の変化に応じて２次元ディスプレイ４００上に表示することで、対話相手２００および空間３００の見え方があたかも現実的に再現される。

すなわち、ユーザ１００が位置Ｐ１にて２次元ディスプレイ４００に対峙する場合には、対話相手２００および空間３００を正面から見ているように表示し、ユーザ１００が左側の位置Ｐ２から見ている場合には、対話相手２００に対し向かって左側の横顔や人物以外の空間にある壁３００との位置関係（奥行き）を反映し、対話相手２００を左側から見ているように表示し、ユーザ１００が右側の位置Ｐ３から見ている場合には、対話相手２００に対し向かって右側の横顔や人物以外の空間にある空間３００との位置関係（奥行き）を反映し、対話相手２００を右側から見ているように表示する。

＜第１の実施形態＞
第１の実施形態による映像コミュニケーションシステムでは、３人のユーザＡ〜Ｃに対して窓を挟んで対面しているときと同等の感覚でのコミュニケーションを提供する場合について説明する。ここでは、映像コミュニケーションシステムが図２に示す位置関係でのコミュニケーションをユーザＡ〜Ｃに提供する。図２は、第１の実施形態におけるユーザＡ〜Ｃの位置関係の一例を示す概略図である。
同図に示すように、映像コミュニケーションシステムは、各ユーザＡ〜Ｃにそれぞれの窓を介して他の２人のユーザと窓越しに繋がっている空間を提供する。

図３は第１の実施形態による映像コミュニケーションシステムの構成を示すブロック図である。本明細書においては、動画の１フレーム分を「画像」と称し、複数の「画像」を連続して表示して動画とした状態のものを「映像」と称する。本実施形態では、撮影された２次元画像と距離画像から、対話相手の空間を３次元モデル化し、得られた３次元モデルの表面に対して、２次元画像をテクスチャとして貼り付けた３次元画像を生成し、この３次元画像をユーザの視点位置に応じて、ディスプレイ面に投影して表示する方法について説明する。

図３に示す映像コミュニケーションシステムは、ユーザ（以下、ユーザＡ）及び対話相手（以下、ユーザＢ及びユーザＣ）のそれぞれに用意され、双方向通信を介して使用される。以下では、ユーザＡのディスプレイにユーザＢ及びユーザＣ（対話相手）の映像を表示するものとして説明する。以下において、ユーザＢ側の画像取得部１、距離画像取得部２、及び３次元画像生成部３について説明する。ユーザＣ側の画像取得部１、距離画像取得部２、及び３次元画像生成部３は、ユーザＢ側の画像取得部１、距離画像取得部２、及び３次元画像生成部３と同じ構成を有しているので、ユーザＣ側の構成についての説明を省略する。

画像取得部１は、撮影装置（カメラ）からなり、ユーザＢの２次元映像を撮影する。ユーザＢ側の画像取得部１は、ユーザＡの視線とユーザＢの視線とを合わせるために、ユーザＢのディスプレイ（映像表示部：図示略）上に表示されるユーザＡの眼位置（眼位置とは、両眼の目頭を結ぶ線分の中点の位置）に、光学的、または、仮想的に、カメラのレンズ中心がくるように配置される。

例えば、ディスプレイとユーザＢとの間にハーフミラーを、ディスプレイの平面の法線とハーフミラーの法線のなす角度が４５度となるように設置し、カメラを該ハーフミラーの上方または下方に、ハーフミラーからディスプレイまでの距離だけ離して設置することにより、ハーフミラーを介して撮像する手法を用いればよい。

また、ディスプレイを隠さないように、ユーザＢのディスプレイの周囲に複数のカメラを配置し、ＦＴＶ（Ｆｒｅｅ−ＶｉｅｗｐｏｉｎｔＴｅｌｅｖｉｓｉｏｎ）技術によって、周囲の複数のカメラ画像から、ユーザＢのディスプレイ上に表示されるユーザＡの視点位置にある仮想視点の映像を生成する手法を用いるようにしてもよい。その他、視線を一致させるために、カメラ位置をできるだけ、ユーザＢのディスプレイに表示されたユーザＡの眼位置にレンズ中心が来るように配置するようにしてもよい。以後、ユーザＢのディスプレイの中心にカメラレンズの中心があるようにカメラが設置されており、カメラの撮像面がディスプレイ面にあると仮定して説明する。

距離画像取得部２は、ユーザＢの空間の距離画像を取得する。距離画像取得部２には、例えば、ＴＯＦカメラやパターン投射を利用した距離画像取得カメラを用いる。なお、距離画像取得部２は、画像取得部１と同等のカメラを用いてステレオマッチングを行うことにより距離画像を得るようにしてもよい。また、カメラの焦点距離を変更し、画像のボケ量から距離画像を取得する手法など、一般的に利用されるあらゆる距離画像取得手法を用いてよい。距離画像は、例えば、Ｘ行Ｙ列の２次元配列のデータ形式に、距離画像取得部２からの距離情報を各要素に持つ。

３次元画像生成部３は、距離画像取得部２によって得られた距離画像からユーザＢの空間を３次元モデル化し、この３次元モデルに対して、画像取得部１によって撮影された２次元画像をテクスチャとして貼り付けた３次元画像情報を生成して出力する。

視点位置検出部４は、顔認識及びステレオマッチングを用いた画像処理技術や、光学式または磁気式のモーショントラッキング技術等を用いて、ユーザＡの視点（眼）位置がどこにあるかを示すユーザＡの視点位置Ｖ（ｖ_ｘ，ｖ_ｙ，ｖ_ｚ）を検出して出力する。

画像変換部５は、視点位置検出部４によって検出された、ディスプレイ位置に対するユーザＡの視点位置と、ユーザＢの３次元画像生成部３によって生成されて出力されたユーザＢの３次元画像情報と、ユーザＣの３次元画像生成部３によって生成されて出力されたユーザＣの３次元画像情報とから、ユーザＡのディスプレイ面に表示する画像（「ユーザＡの視点位置に応じた、ユーザＢ及びユーザＣの２次元画像」）に変換する。このとき、画像変換部５は、映像表示部６の表示領域において、ユーザＢの窓として割り当てられた領域と、ユーザＣの窓として割り当てられた領域とに応じて、ユーザＢ及びユーザＣの３次元画像を「ユーザＡの視点位置に応じた、ユーザＢ及びユーザＣの２次元画像」に変換する。

映像表示部６は、ディスプレイ装置で構成され、画像変換部５により変換されたユーザＡの視点位置に応じたユーザＢ及びユーザＣの２次元画像を表示する。例えば、映像表示部６が一つのディスプレイ装置で構成される場合、図４に示すように、ユーザＢ及びユーザＣの２次元画像が表示される。図４は、第１の実施形態における映像表示部６に表示される画像の位置例を示す図である。同図に示すように、映像表示部６がユーザＡの窓になり、ユーザＢの窓を介したユーザＢの２次元画像と、ユーザＣの窓を介したユーザＣの２次元画像とが映像表示部６に表示される。なお、ディスプレイ上でユーザＢ及びユーザＣの窓として領域を割り当てる際のディスプレイ上の窓の配置は、図４に示した配置例以外であってもよい。

次に、図３を参照して、図３に示す３次元画像生成部３の詳細な構成を説明する。３次元モデル生成部３１は、距離画像取得部２によって取得したユーザＢの空間の距離情報から３次元ポリゴンデータあるいは３次元点群データを作成し、３次元モデルデータとして出力する。３次元画像出力部３２は、３次元モデルデータで表現される３次元モデルの表面に画像取得部１によって得られた２次元画像をテクスチャとして貼り付けることにより３次元画像情報を得る。

なお、上述した構成において、画像取得部１、距離画像取得部２及び３次元画像生成部３は、ユーザＢ及びユーザＣ側の撮像側装置として設けられており、通信回線等を介して、３次元画像生成部３により生成された、ユーザＢの３次元画像情報を、所定の通信手段、通信回線を介して、ユーザＡ側の表示側装置に伝送する。また、図３には示していないが、実際には、ユーザＡ側にもユーザＢ及びユーザＣ側と同様に、ユーザＡの２次元映像（画像）を撮影する画像取得部１、ディスプレイ面（映像表示部６の画面）とユーザＡ間の距離を取得する距離画像取得部２及び「ユーザＡの２次元画像」から「ユーザＡの３次元画像情報」を生成する３次元画像生成部３が備えられている。

次に、図５を参照して、図３に示す映像コミュニケーションシステムの動作を説明する。図５は、図３に示す映像コミュニケーションシステムにおける撮像側の装置（３次元画像生成部３）の動作を示すフローチャートである。ここでは、ユーザＢ側の画像取得部１において撮影した映像から３次元画像情報を生成してユーザＡ側へ出力する動作を説明する。なお、ユーザＣ側における処理は、ユーザＢ側における処理と同様である。
まず、３次元画像生成部３は、画像取得部１によって撮影された「ユーザＢの２次元画像」を入力する（ステップＳ１）。これと並行して、３次元画像生成部３は、距離画像取得部２よって取得したユーザＢの空間の距離画像を入力する（ステップＳ２）。

次に、３次元モデル生成部３１は、距離画像取得部２から入力した距離画像から３次元モデルデータを生成して出力する（ステップＳ３）。３次元モデルデータは、距離画像取得部２によって取得したユーザＢの空間の距離情報から３次元ポリゴンデータあるいは３次元点群データを作成し、これを３次元モデルデータとする。これにより、人物（ユーザＢ）を含む空間の３次元形状データ（３次元モデル）が生成されたことになる。

次に、３次元画像出力部３２は、３次元モデル生成部３１から出力する３次元モデルデータによって表現される３次元モデルの表面に対して、画像取得部１から入力した２次元画像をテクスチャデータとして貼り付けて３次元画像情報を生成する（ステップＳ４）。図６は、テクスチャデータが貼り付けられた３次元モデルデータの一例を示す説明図である。図６に示すように、上記処理動作によって、画像取得部１によって撮影された２次元画像をテクスチャデータとした３次元形状を定義した３次元画像情報が生成されたことになる。そして、３次元画像出力部３２は、生成された３次元画像情報を画像変換部５に対して伝送する（ステップＳ５）。

次に、図７を参照して、図３に示す映像コミュニケーションシステムにおける表示側の装置の動作を説明する。図７は、図３に示す映像コミュニケーションシステムにおける表示側の装置（視点位置検出部４、画像変換部５、映像表示部６）の動作を示すフローチャートである。

まず、画像変換部５は、ユーザＢ側及びユーザＣ側の３次元画像出力部３２から伝送された３次元画像情報を入力する（ステップＳ２１）。続いて、視点位置検出部４は、ユーザＡの視点（眼）位置がどこにあるかを示すユーザの視点位置Ｖ（ｖ_ｘ，ｖ_ｙ，ｖ_ｚ）を検出し、この視点位置Ｖを画像変換部５へ出力する（ステップＳ２２）。画像変換部５では、「ディスプレイ位置に対するユーザＡの視点位置」に応じて、「ユーザＢの３次元画像情報」及び「ユーザＣの３次元画像情報」を、ユーザＡの映像表示部６の画面に表示する映像（「ユーザの視点位置に応じた２次元画像」）へ変換することにより、２次元画像を生成する（ステップＳ２３）。

「ユーザの視点位置に応じた２次元画像」は、「ユーザＢの３次元画像情報」を、「ディスプレイ位置に対するユーザＡの視点位置」を基点に、ユーザＡの映像表示部６上のユーザＢの窓に対応する領域に透視投影などの射影変換を行うことで生成される。同様に、「ユーザの視点位置に応じた２次元画像」は、「ユーザＣの３次元画像情報」を、「ディスプレイ位置に対するユーザＡの視点位置」を基点に、ユーザＡの映像表示部６上のユーザＣの窓に対応する領域に透視投影などの射影変換を行うことで生成される。

なお、ユーザＡの映像表示部６における、ユーザＢの窓に対応する領域とユーザＣの窓に対応する領域は、予め定められる各ユーザの窓の位置関係（例えば、図２に示した位置関係）と、ディスプレイ位置に対するユーザＡの視点位置とに基づいて定められる。例えば、図８に示すように、ユーザＡの視点位置が変化すると、ユーザＢ及びユーザＣの窓に対応する領域は変化する。

図８は、本実施形態におけるユーザＡの視点位置と、ユーザＢ及びユーザＣの窓に対応する領域との関係の一例を示す図である。同図に示すように、ユーザＡの視点位置がディスプレイの中心に対峙する場合（Ａ）にはユーザＢ及びユーザＣの窓に対応する領域が左右に同じサイズになる。ユーザＡがユーザＢの窓を覗き込むように視点位置を移動させた場合（Ｂ）にはユーザＢの窓に対応する領域が広がり、ユーザＣの窓に対応する領域が狭くなる。逆に、ユーザＡがユーザＣの窓を覗き込むように視点位置を移動させた場合（Ｃ）にはユーザＣの窓に対応する領域が広がり、ユーザＢの窓に対応する領域が狭くなる。

図９は、画像変換部５が行う透視変換の動作を示す概念図である。ディスプレイの中心を座標系の原点Ｏ（０，０，０）とし、ディスプレイ面の横方向にｘ軸、縦方向にｙ軸、ディスプレイ面の法線をｚ軸とし、ユーザ位置とは逆向きを正の方向とする。ユーザの視点位置をＶ（ｖ_ｘ，ｖ_ｙ，ｖ_ｚ）（但し、ｖ_ｚ＜０）としたとき、ディスプレイ面上の点Ｄ（ｘ，ｙ，ｚ）に投影されるべき、３次元画像情報ｉの点Ｈ_ｉ（ｈ_ｘ，ｈ_ｙ，ｈ_ｚ）は、次式（１）により算出される。

なお、数式（１）の変換行列式中の座標は、実寸の情報を有する座標系ということを前提にしている。

この処理を、ディスプレイ面上の各画素において行うことにより２次元画像への変換を行う。なお、その他、平行投影といった一般的な射影変換の手法も利用してもよい。

最後に、映像表示部６は、画像変換部５により変換された映像、すなわち、ユーザＡの視点位置に応じたユーザＢ及びユーザＣの２次元画像を表示する（ステップＳ２４）。

なお、図３に示す画像変換部５は、撮像側の３次元画像生成部３内に備え、視点位置検出部４において検出された視点位置の情報を表示側から撮像側へ伝送し、この視点位置の情報に基づき、３次元画像生成部３内に備えた画像変換部５が視点位置に応じた２次元画像に変換を行い、この変換後の２次元画像を撮像側から表示側へ伝送し、この伝送された２次元画像を映像表示部６に表示するようにしてもよい。これにより、表示側の装置構成を簡単にすることができる。

このように、ユーザの視点（眼の位置）に応じて、映像が変化するため、運動視差を実現することができるとともに、距離に応じた人物サイズで対話相手を表示することから、視覚的に窓を挟んで対面しているときと同等の情報が得られ、映像中の対話相手に奥行きに係る手がかりが与えられ、ユーザが映像中の対話相手との距離感を把握することができる。それにより、対面会話と同様に距離を適度に調節したり、対面会話において距離がもたらす、話しやすさ、緊張感の有無の効果をもたらすことができる。また、映像が変化するため、あたかも実物大の対話相手が眼の前にいるかのように感じさせることができ、従来技術のように２次元映像で人物を提示したものに比べて、視線・姿勢などの非言語情報と、遠隔地に存在する対話相手とあたかも同じ空間を共有している感覚（臨場感）とを与えることができる。特に、対話相手の人物と人物以外の空間を３次元画像情報に基づいて表示するようにしたため、ユーザに対して映像中の対話相手の人物や人物以外の空間の表現をより現実的にすることができる。

（変形例１）
上述の映像コミュニケーションシステムでは３人のユーザＡ〜Ｃが対話する構成について説明した。しかし、これに限ることなく４人以上のユーザが対話する構成としてもよい。例えば、４人のユーザＡ〜Ｄが対話する際には図１０に示すように各ユーザが２枚の窓越しにユーザＡ〜Ｄそれぞれの空間が繋がっているように映像を表示させるようにしてもよい。図１０は、本実施形態の変形例１におけるユーザＡ〜Ｄの位置関係の一例を示す概略図である。この場合、映像表示部６は２枚のディスプレイを用いて構成され、各ユーザは２枚のディスプレイを窓として窓越しに他のユーザとの空間が繋がっているように配置する。

図１０に示した構成では、ユーザＡの右側のディスプレイとユーザＢの左側ディスプレイとは１つの窓のように繋がっている。同様に、ユーザＢの右側のディスプレイとユーザＤの左側のディスプレイとは１つの窓のように繋がっている。また、ユーザＤの右側のディスプレイとユーザＣの左側のディスプレイとは１つの窓のように繋がっている。また、ユーザＣの右側のディスプレイとユーザＡの左側のディスプレイとは１つの窓のように繋がっている。対角線上のユーザ、例えば、ユーザＤについてはユーザＡの２つの窓（ディスプレイ）において、あたかもディスプレイがガラス窓になったかのように、机の周りに４人が着座しているときと同じ風景が映像として表示される。

（変形例２）
上述の映像コミュニケーションシステムにおいてユーザＡの映像表示部６が１つのディスプレイにユーザＢの窓に対応する領域とユーザＣの窓に対応する領域と表示する構成（図４及び図８）について説明した。しかし、これに限ることなく、対話相手ごとにディスプレイを割り当てるように映像表示部６を構成してもよい。例えば、ユーザＡが、３人のユーザＢ〜Ｄと対話する際には、図１１に示すように３つのディスプレイを配置して映像表示部６を構成するようにしてもよい。図１１は、本実施形態の変形例２における映像表示部６の構成の一例を示す図である。同図に示すように、各ディスプレイ６ｂ〜６ｄにより映像表示部６を構成し、ディスプレイ６ｂをユーザＢと間の窓にし、ディスプレイ６ｃをユーザＣとの間の窓にし、ディスプレイ６ｄをユーザＤとの間の窓にする。なお、図１１では４人のユーザＡ〜Ｄが映像コミュニケーションシステムを用いて対話する構成例について示した。しかし、５人以上のユーザが映像コミュニケーションシステムを用いて対話できるように、ユーザの人数に応じたディスプレイで映像表示部６を構成するようにしてもよい。

＜第２の実施形態＞
第２の実施形態による映像コミュニケーションシステムでは、第１の実施形態と同様に、３人のユーザＡ〜Ｃに対して窓を挟んで対面しているときと同様の感覚でのコミュニケーションを提供する場合について説明する。本実施形態においても、図２に示す位置関係でのコミュニケーションをユーザＡ〜Ｃに提供する。

図１２は第２の実施形態による映像コミュニケーションシステムの構成を示すブロック図である。本実施形態では、撮影された２次元画像と距離画像から、対話相手の空間を３次元モデル化し、得られた３次元モデルの表面に対して、２次元画像をテクスチャとして貼り付けた３次元画像を生成し、この３次元画像をユーザの視点位置に応じて、ディスプレイ面に投影して表示する方法について説明する。以下において、ユーザＢ側の画像取得部１、距離画像取得部２、及び３次元画像生成部３について説明する。ユーザＣ側の画像取得部１、距離画像取得部２、及び３次元画像生成部３は、ユーザＢ側の画像取得部１、距離画像取得部２、及び３次元画像生成部３と同じ構成を有しているので、ユーザＣ側の構成についての説明を省略する。

図１２に示す映像コミュニケーションシステムは、ユーザ（以下、ユーザＡ）及び対話相手（以下、ユーザＢ及びユーザＣ）のそれぞれに用意され、双方向通信を介して使用される。以下では、ユーザＡのディスプレイにユーザＢ及びユーザＣ（対話相手）の映像を表示するものとして説明する。

距離画像取得部２は、ユーザＢの空間の距離画像を取得する。距離画像取得部２には、例えば、ＴＯＦカメラやパターン投射を利用した距離画像取得カメラを用いる。なお、距離画像取得部２は、画像取得部１と同等のカメラを用いてステレオマッチングを行うことにより距離画像を得るようにしてもよい。距離画像は、例えば、Ｘ行Ｙ列の２次元配列のデータ形式に、距離画像取得部２からの距離情報を各要素に持つ。

映像表示部６は、ディスプレイ装置で構成され、画像変換部５により変換されたユーザＡの視点位置に応じたユーザＢ及びユーザＣの２次元画像を表示する。映像表示部６に表示されるユーザＢ及びユーザＣの２次元画像は、例えば、図４に示したように、ユーザＡの映像表示部６上に表示される。

次に、図１２を参照して、図１２に示す３次元画像生成部３の詳細な構成を説明する。画像バッファ３５は、画像取得部１において撮影した画像の少なくとも１フレーム分の記憶領域と、画像処理に用いる作業領域を有する。空間分離部３６は、画像バッファ３５に記憶されている画像から、人物領域画像と空間領域画像とを分離してそれぞれの画像を画像バッファ３５の作業領域に記憶する。顔検出部３７は、画像バッファ３５に記憶されている人物領域画像、および補助情報として距離画像取得部２で得られた位置情報から顔領域ならびに特徴点の位置、姿勢を検出する。骨格抽出部３８は、画像バッファ３５に記憶されている人物領域画像から骨格抽出を行って骨格情報を得る。姿勢推定部３９は、骨格抽出部３８において得られた骨格情報に基づき、人物の姿勢を推定する。テクスチャ抽出部４０は、画像バッファ３５に記憶されている人物領域画像及び空間領域画像から人物と空間のテクスチャ情報を抽出する。空間モデル生成部４１は、距離画像取得部２において取得した距離画像からユーザＢの空間のうち、空間に相当する部分の３次元モデルデータである空間モデルを生成する。

人物モデル記憶部４２は、一般的な人間の体格の３次元形状データが３次元人物モデルデータとして予め記憶されている。人物テクスチャ情報記憶部４３は、人物モデルに対して貼り付けたテクスチャのテクスチャ情報を記憶する。人物モデル生成部４４は、人物モデル記憶部４２に記憶されている人物モデルを用いて、画像取得部１において撮影した人物に似せた人物モデルを生成する。３次元画像出力部４５は、人物モデル生成部４４において生成した人物モデル（撮影された人物の３次元形状データ）と、空間モデル生成部４１において生成した空間モデル（撮影された空間の３次元形状データ）とから画像取得部１において撮影された２次元画像に対応する３次元画像情報を生成して出力する。

なお、上述した構成において、画像取得部１、距離画像取得部２及び３次元画像生成部３は、ユーザＢ及びユーザＣ側の撮像側装置として設けられており、通信回線等を介して、３次元画像生成部３により生成された、ユーザＢ及びユーザＣの３次元画像情報を、所定の通信手段、通信回線を介して、ユーザＡ側の表示側装置に伝送する。また、図１２には示していないが、実際には、ユーザＡ側にもユーザＢ及びユーザＣ側と同様に、ユーザＡの２次元映像（画像）を撮影する画像取得部１、ディスプレイ面（映像表示部６の画面）とユーザＡ間の距離を取得する距離画像取得部２及び「ユーザＡの２次元画像」から「ユーザＡの３次元画像情報」を生成する３次元画像生成部３が備えられている。

次に、図１３を参照して、図１２に示す映像コミュニケーションシステムの動作を説明する。図１３は、図１２に示す映像コミュニケーションシステムにおける撮像側の装置（３次元画像生成部３）の動作を示すフローチャートである。ここでは、ユーザＢ側の画像取得部１において撮影した映像をユーザＡ側へ出力する動作を説明する。なお、ユーザＣ側における処理は、ユーザＢ側における処理と同様である。まず、３次元画像生成部３は、画像取得部１によって撮影された「ユーザＢの２次元画像」と、距離画像取得部２において取得した「距離画像」とを入力する（ステップＳ３１）。画像取得部１から入力した画像は、画像バッファ３５に記憶する。

次に、空間分離部３６は、「距離画像」に基づいて、「ユーザＢの２次元画像」を、人物領域画像と人物以外の空間領域画像とに分離する（ステップＳ３２）。人物領域と空間領域の分離には、ディスプレイが据え置きの映像コミュニケーションにおいては、空間が多くの場合に固定であるため、背景差分を利用し、予め空間のみを撮影しておき、それをリファレンスとして差分を取得することで人物領域を抽出する。また、その他の方法として、画像中からの顔検出処理により、人物の顔を検出し、その近傍にある領域を人物領域とする方法も利用できる。

図１４は、人物領域画像と人物以外の空間領域画像とに分離する動作を示す説明図である。図１４に示すように、空間分離部３６は、撮影された画像Ａを空間領域画像Ｂと人物領域画像Ｃに分離する。このとき、単純に人物領域を抜いただけでは空間画像中の人物領域にあたる部分（図１４の破線で示した部分）の画像が欠落してしまう。このため、欠落している空間画像の領域を過去の空間画像から補完する。この補完した空間画像を空間領域画像とする。その他、空間が大きく変化しないと仮定し、事前に撮影した空間画像を使用してもよい。または、プライバシー保護の観点から、空間部分を実際とは違う画像と差し替えてもよい。空間分離部３６は、分離した空間領域画像Ｂと人物領域画像Ｃを画像バッファ３５の作業領域に記憶する。

次に、顔検出部３７は、画像バッファ３５に記憶されている人物領域画像から顔検出処理を行って顔領域画像を切り出す（ステップＳ３３）。そして、顔検出部３７は、顔の特徴点である眼、鼻、口、眉などの顔を構成する部位の位置情報を検出し、この顔を構成する部位の位置情報から顔全体の位置情報と、顔が向いている方向の情報を特定する。なおこのとき、距離画像取得部２で得られた距離画像を用いることで、顔検出の精度向上が可能である。具体的には、直前の画像フレーム（１枚以上のフレーム）で取得された、２次元画像中の顔位置に対応する距離を保持しておき、その距離から大幅に外れた箇所は顔領域では無いと判断し、距離が近い画像領域のみを顔が存在する候補とする。顔検出部３７は、特定した顔全体の位置情報と、顔が向いている方向の情報とを人物モデル生成部４４と姿勢推定部３９へ出力する。

次に、骨格抽出部３８は、画像バッファ３５に記憶されている人物領域画像から骨格抽出を行う（ステップＳ３４）。骨格抽出は、人物領域画像から頭、腕、手、上半身、足などを抽出し、これらに仮想の骨を割り当て、割り当てた骨の位置情報を検出することにより行う。

図１５は、人物領域画像から顔検出と骨格抽出を行う動作を示す説明図である。図１５に示すように、人物領域画像Ｃから顔部分を切り出した顔領域画像Ｅを用いて、顔を構成する部位の位置情報を検出する。また、人物領域画像Ｃに対して仮想の骨を割り当てることにより、人物の骨格を抽出し、骨格の位置情報Ｆを検出する。顔検出処理や骨格抽出処理は公知の処理方法を適用することができるため、ここでは処理の詳細な説明を省略する。

次に、骨格抽出部３８は、距離画像取得部２から入力した距離画像と画像取得部１が取得した画像の画角情報とから抽出した骨格の実際の大きさ（ユーザＢの大きさに相当する）を推定する（ステップＳ３５）。骨格抽出部３８は、骨格の位置情報と骨格の実際の大きさ情報とを人物モデル生成部４４と姿勢推定部３９へ出力する。

次に、姿勢推定部３９は、顔全体の位置情報と、顔が向いている方向情報と、骨格の位置情報とから人物（ユーザＢ）の姿勢を推定する（ステップＳ３６）。これにより、人物（ユーザＢ）が現時点でとっている姿勢が特定されることになる。姿勢推定部３９は、特定した姿勢の情報を人物モデル生成部４４へ出力する。姿勢の情報は、骨格を構成する各骨の３次元位置情報によって構成する。

次に、人物モデル生成部４４は、人物モデル記憶部４２から３次元人物モデルデータを読み出す（ステップＳ３７）。そして、人物モデル生成部４４は、顔検出部３７から出力された顔の位置情報、顔の向き情報、骨格抽出部３８から出力された骨格の実際の大きさ情報、姿勢推定部３９から出力された姿勢の情報に基づき、３次元人物モデルデータで定義される仮想の人物の大きさと姿勢を変形する（ステップＳ３８）。これにより、画像取得部１によって撮影した人物（ユーザＢ）と同じ大きさで同じ姿勢をとっている３次元人物モデルデータが生成されたことになる。

次に、テクスチャ抽出部４０は、画像バッファ３５に記憶されている人物領域画像を読み出し、この人物領域画像をテクスチャマッピングに用いるテクスチャデータとして人物モデル生成部４４へ出力する。これを受けて、人物モデル生成部４４は、得られた３次元人物モデルデータに対して、テクスチャ抽出部４０から出力されたテクスチャデータを３次元人物モデルデータで表現される人物モデルの表面に対して投影することにより３次元人物モデルデータで表現される人物モデルの表面にテクスチャを貼り付ける（ステップＳ３９）。これにより、画像取得部１において撮影した人物（ユーザＢ）の３次元画像が生成されたことになる。人物モデル生成部４４は、ここで生成した３次元画像情報を３次元画像出力部４５へ出力する。

図１６は、骨格抽出、人物モデルの変形、テクスチャ貼り付け、３次元画像生成の処理動作を示す説明図である。図１６に示すように、人物領域画像から骨格抽出を行うことにより、骨格を示す骨格情報Ｆが求められ、この骨格情報Ｆに基づいて、３次元人物モデルデータＧが実際に撮影された人物と同じ大きさで同じ姿勢をとっているように変形が行われる。そして、変形後の３次元人物モデルデータＧで表現される人物モデルの表面に人物領域画像Ｃに基づくテクスチャが貼り付けられることにより人物の３次元画像Ｈが生成されることになる。

次に、人物モデル生成部４４は、人物モデルにテクスチャを貼り付けた位置と貼り付けたテクスチャデータと関係付けて人物テクスチャ情報記憶部４３に記憶することにより、既に貼り付け処理を行ったテクスチャデータを保持しておく（ステップＳ４０）。これにより、人物モデルの表面にテクスチャが貼り付けられた過去の情報が保持されることになる。

次に、空間モデル生成部４１は、画像バッファ３５に記憶されている空間領域画像に対応する距離画像から空間に相当する部分の３次元形状データを定義した空間モデルデータを生成する。そして、テクスチャ抽出部４０は、画像バッファ３５に記憶されている空間領域画像を読み出し、この空間領域画像をテクスチャマッピングに用いるテクスチャデータとして空間モデル生成部４１へ出力する。これを受けて、空間モデル生成部４１は、生成した空間モデルデータで表現される空間オブジェクトの表面にテクスチャ抽出部４０から出力されたテクスチャデータを投影することにより３次元空間モデルデータで表現される空間モデルの表面にテクスチャを貼り付ける（ステップＳ４１）。これにより、空間の３次元画像情報が生成されたことになる。

次に、人物モデル生成部４４は、ここで生成した人物の３次元画像情報を３次元画像出力部４５へ出力する。このとき、人物モデル生成部４４は、今回撮影された画像に対する処理においてテクスチャが貼り付けられていない人物モデルの表面には、人物テクスチャ情報記憶部４３に記憶されている過去の処理において貼り付けられたテクスチャデータを読み出して貼り付ける。これにより、今回撮影した画像には映っていない箇所の画像も再現することができるようになる。また、空間モデル生成部４１は、生成した空間の３次元画像情報を３次元画像出力部４５へ出力する。

次に、３次元画像出力部４５は、人物領域画像から生成した人物モデルによる３次元画像情報に実寸の大きさ情報を付与する（ステップＳ４２）。図１７は、人物モデルによる３次元画像の大きさ情報の算出方法を説明するための概念図である。このとき、生成された人物モデルによる３次元画像αの画像の高さα_ｈ、幅α_ｗは、画像取得部１の画角（縦θ_ｈ、横θ_ｗ）、画像取得部１から人物モデルによる３次元画像までの距離Ｄ（画像取得部１とディスプレイ（ユーザＢ側の映像表示部）との位置関係を既知とし、「距離画像」から算出）、カメラズーム率Ｚを用いて、次式（２）、（３）で算出される。

次に、３次元画像出力部４５は、人物モデル生成部４４から出力される人物モデルによる３次元画像情報と、空間モデル生成部４１から出力される空間モデルによる３次元画像情報とを合成して、人物と空間からなる空間の３次元画像情報を生成する。図１８は、テクスチャデータが貼り付けられた人物モデルと空間モデルとを合成して得られた３次元画像情報の一例を示す説明図である。図１８に示すように、上記処理動作によって、人物モデルと空間モデルとによりユーザＢの空間の３次元形状を定義した３次元画像情報が生成されたことになる。そして、３次元画像出力部４５は、生成された３次元画像情報を画像変換部５に対して伝送する（ステップＳ４３）。

次に、図１９を参照して、図１２に示す映像コミュニケーションシステムにおける表示側の装置の動作を説明する。図１９は、図１２に示す映像コミュニケーションシステムにおける表示側の装置（視点位置検出部４、画像変換部５、映像表示部６）の動作を示すフローチャートである。

まず、画像変換部５は、３次元画像出力部４５から伝送された３次元画像情報を入力する（ステップＳ５１）。続いて、視点位置検出部４は、ユーザＡの視点（眼）位置がどこにあるかを示すユーザの視点位置Ｖ（ｖ_ｘ，ｖ_ｙ，ｖ_ｚ）を検出し、この視点位置Ｖを画像変換部５へ出力する（ステップＳ５２）。画像変換部５では、「ディスプレイ位置に対するユーザＡの視点位置」に応じて、「ユーザＢの３次元画像情報」及び「ユーザＣの３次元画像情報」を、ユーザＡの映像表示部６の画面に表示する映像（「ユーザの視点位置に応じた２次元画像」）へ変換することにより、２次元画像を生成する（ステップＳ５３）。「ユーザの視点位置に応じた２次元画像」は、「ユーザＢの３次元画像情報」及び「ユーザＣの３次元画像情報」を、「ディスプレイ位置に対するユーザＡの視点位置」を基点に、ユーザＡの映像表示部６の画面に透視投影などの射影変換を行うことで生成する。

図２０は、画像変換部５が行う透視変換の動作を示す概念図である。ディスプレイの中心を座標系の原点Ｏ（０，０，０）とし、ディスプレイ面の横方向にｘ軸、縦方向にｙ軸、ディスプレイ面の法線をｚ軸とし、ユーザ位置とは逆向きを正の方向とする。ユーザの視点位置をＶ（ｖ_ｘ，ｖ_ｙ，ｖ_ｚ）（但し、ｖ_ｚ＜０）としたとき、ディスプレイ面上の点Ｄ（ｘ，ｙ，ｚ）に投影されるべき、人物モデルと空間モデルによる３次元画像情報ｉの点Ｈ_ｉ（ｈ_ｘ，ｈ_ｙ，ｈ_ｚ）は、次式（４）により算出される。

なお、数式（４）の変換行列式中の座標は、実寸の情報を有する座標系ということを前提にしている。

最後に、映像表示部６は、画像変換部５により変換された映像、すなわち、ユーザＡの視点位置に応じたユーザＢ及びユーザＣの２次元画像を表示する（ステップＳ５４）。

なお、図１２に示す画像変換部５は、撮像側の３次元画像生成部３内に備え、視点位置検出部４において検出された視点位置の情報を表示側から撮像側へ伝送し、この視点位置の情報に基づき、３次元画像生成部３内に備えた画像変換部５が視点位置に応じた２次元画像に変換を行い、この変換後の２次元画像を撮像側から表示側へ伝送し、この伝送された２次元画像を映像表示部６に表示するようにしてもよい。これにより、表示側の装置構成を簡単にすることができる。

以上説明したように、ユーザの視点（眼の位置）に応じて、映像が変化するため、運動視差を実現することができるとともに、距離に応じた人物サイズで対話相手を表示することから、視覚的に窓を挟んで対面しているときと同等の情報が得られ、映像中の対話相手に奥行きに係る手がかりが与えられ、複数のユーザが映像中の対話相手との距離感を把握することができる。それにより、対面会話と同様に距離を適度に調節したり、対面会話において距離がもたらす、話しやすさ、緊張感の有無の効果をもたらすことができる。また、ユーザの視点に応じて映像が変化するため、あたかも実物大の対話相手が眼の前にいるかのように感じさせることができ、従来技術のように２次元映像で人物を提示したものに比べて、視線・姿勢などの非言語情報と、遠隔地に存在する複数の対話相手とあたかも同じ空間を共有している感覚（臨場感）とを与えることができる。特に、対話相手の人物と人物以外の空間を３次元画像情報に基づいて表示するようにしたため、ユーザに対して映像中の対話相手の人物と人物以外の空間の表現をより現実的にすることができる。

なお、第２の実施形態における映像コミュニケーションシステムは、第１の実施形態における映像コミュニケーションシステムと同様に、変形して構成されてもよい。

＜第３の実施形態＞
第３の実施形態による映像コミュニケーションシステムでは、撮像側の装置の構成として撮像側の空間における距離画像を取得する距離画像取得部を用いない構成について説明する。また、本実施形態では、第１の実施形態と同様に、窓を挟んで対面しているときと同様の感覚でのコミュニケーションを３人のユーザＡ〜Ｃに対して提供する場合について説明する。本実施形態においても、図２に示す位置関係でのコミュニケーションをユーザＡ〜Ｃに提供する。

図２１は第３の実施形態による映像コミュニケーションシステムの構成を示すブロック図である。本実施形態では、撮像された２次元画像から距離画像を生成し、これらの２次元画像及び距離画像から３次元画像情報を生成する。以下において、ユーザＡ側の視点位置検出部４、画像変換部５、及び映像表示部６は、第１の実施形態における各部又は第２の実施形態における各部と同じ構成を有しているので、その説明を省略する。ユーザＢ側及びユーザＣ側における画像取得部１及び３次元画像生成部３は、第１の実施形態における各部又は第２の実施形態における各部と同じ構成を有しているので、その説明を省略する。また、ユーザＢ側における移動量算出部２１、位置測定部２２、及び距離画像生成部２３と、ユーザＣ側における移動量算出部２１、位置測定部２２、及び距離画像生成部２３とは同じ構成を有している。以下では、ユーザＢ側の移動量算出部２１、位置測定部２２、及び距離画像生成部２３について説明する。

移動量算出部２１は、画像取得部１によって取得された時系列の複数の画像に基づいて、画像平面上における各特徴点の移動ベクトル（以下、「画像移動ベクトル」という。）を算出する。移動量算出部２１は、例えばオプティカルフローを生成することによって画像移動ベクトルを算出する。移動量算出部２１は、算出した画像移動ベクトルを距離画像生成部２３に出力する。

位置測定部２２は、画像取得部１の位置及び姿勢を測定する。位置測定部２２は、例えばジャイロセンサ及び加速度センサを用いて構成されてもよい。より具体的には、位置測定部２２は、移動量算出部２１によって移動量が算出された際に用いられた２つの画像それぞれの撮像時における画像取得部１の相対的な位置及び姿勢の変化（以下、「カメラ移動ベクトル」という。）を測定する。

距離画像生成部２３は、移動量算出部２１によって算出された画像移動ベクトルと、位置測定部２２によって測定されたカメラ移動ベクトルとに基づいてユーザＢの空間の距離画像を取得する。例えば、距離画像生成部２３は、オプティカルフローによって移動ベクトルが表される特徴点ごとに、画像移動ベクトル及びカメラ移動ベクトルに基づいて、実空間における画像取得部１からの距離を算出する。そして、距離画像生成部２３は、全ての特徴点について画像取得部１からの距離を算出することによって、距離画像を生成する。距離画像は、例えば、Ｘ行Ｙ列の２次元配列のデータ形式に、距離画像生成部２３からの距離情報を各要素に持つ。

距離画像生成部２３が生成した距離画像は３次元画像生成部３に入力され、３次元画像生成部３は当該距離画像に基づいてユーザＢの空間を３次元モデル化し、この３次元モデルに対して画像取得部１によって撮像された２次元画像をテクスチャとして貼り付けた３次元画像情報を生成して出力する。

次に、図２２を参照して、図２１に示す映像コミュニケーションシステムの動作を説明する。図２２は、図２１に示す映像コミュニケーションシステムにおける撮像側の装置（移動量算出部２１、位置測定部２２、距離画像生成部２３、３次元画像生成部３）の動作を示すフローチャートである。ここでは、ユーザＢ側の画像取得部１において撮影した映像から３次元画像情報を生成してユーザＡ側へ出力する動作を説明する。なお、ユーザＣ側における処理は、ユーザＢ側における処理と同様である。
まず、移動量算出部２１及び３次元画像生成部３は、画像取得部１によって撮影された「ユーザＢの２次元画像」を入力する（ステップＳ６１）。移動量算出部２１は、入力された２次元画像に基づいて画像移動ベクトルを算出する（ステップＳ６２）。これと並行して、位置測定部２２はカメラ移動ベクトルを算出する（ステップＳ６３）。距離画像生成部２３は、画像移動ベクトル及びカメラ移動ベクトルに基づいて距離画像を生成する（ステップＳ６４）。３次元画像生成部３は、距離画像生成部２３によって生成されたユーザＢの空間の距離画像を入力する。

次に、３次元モデル生成部３１は、距離画像生成部２３から入力した距離画像から３次元モデルデータを生成して出力する（ステップＳ６５）。３次元モデルデータは、距離画像生成部２３によって生成されたユーザＢの空間の距離情報から３次元ポリゴンデータあるいは３次元点群データを作成し、これを３次元モデルデータとする。これにより、人物（ユーザＢ）を含む空間の３次元形状データ（３次元モデル）が生成されたことになる。

次に、３次元画像出力部３２は、３次元モデル生成部３１から出力する３次元モデルデータによって表現される３次元モデルの表面に対して、画像取得部１から入力した２次元画像をテクスチャデータとして貼り付けて３次元画像情報を生成する（ステップＳ６６）。３次元画像出力部３２は、生成された３次元画像情報をユーザＡ側の画像変換部５に対して伝送する（ステップ６７）。

図２２に示す映像コミュニケーションシステムにおける表示側の装置（視点位置検出部４、画像変換部５、映像表示部６）の動作は、第１の実施形態又は第２の実施形態における表示側の装置の動作と同じであるので、その説明を省略する。

上述のように、本実施形態における映像コミュニケーションシステムでは、位置測定部２２によって測定されたカメラ移動ベクトルと２次元画像とに基づいて距離画像を生成し、生成した距離画像と２次元画像とから３次元画像情報を生成する。そのため、ユーザＢ側及びユーザＣ側において距離画像センサを設ける必要が無い。すなわち撮像側の装置が距離画像センサを有せずとも、第１の実施形態や第２の実施形態における映像コミュニケーションシステムと同様の効果を得ることができる。距離画像センサを設けないことにより、撮像側の装置の小型化が容易になり、例えばタブレット型の情報処理端末や、スマートフォン等の可搬性のある装置として構成することが可能となる。また、固定して利用する装置として構成する場合であっても、距離画像センサが不要になるので装置のコスト削減が可能となる。

（変形例３）
第３の実施形態における映像コミュニケーションシステムは、第１の実施形態における映像コミュニケーションシステムにおける距離画像取得部２（例えば、距離画像センサ）を、移動量算出部２１、位置測定部２２、及び距離画像生成部２３で置き換えた構成である。同様に、第２の実施形態における映像コミュニケーションシステムにおける距離画像取得部２を移動量算出部２１、位置測定部２２、及び距離画像生成部２３で置き換えた構成としてもよい。
また、第３の実施形態における映像コミュニケーションシステムは、第１の実施形態における映像コミュニケーションシステムと同様に変形して構成されてもよい。

＜第４の実施形態＞
第４の実施形態による映像コミュニケーションシステムでは、２次元画像から、撮影された人物の３次元形状データと、２次元画像における人物以外の空間画像とを生成し、それらに基づいて３次元画像情報を生成する構成について説明する。すなわち、第２の実施形態における映像コミュニケーションシステムが２次元画像から空間の３次元形状データを生成していたのに対して、第４の実施形態では２次元の空間画像を生成する。また、本実施形態では、第１の実施形態と同様に、窓を挟んで対面しているときと同様の感覚でのコミュニケーションを３人のユーザＡ〜Ｃに対して提供する場合について説明する。本実施形態においても、図２に示す位置関係でのコミュニケーションをユーザＡ〜Ｃに提供する。

図２３は第４の実施形態による映像コミュニケーションシステムの構成を示すブロック図である。以下において、ユーザＡ側の視点位置検出部４、画像変換部５、及び映像表示部６は、第１の実施形態における各部又は第２の実施形態における各部と同じ構成を有しているので、その説明を省略する。ユーザＢ側及びユーザＣ側における画像取得部１及び距離画像取得部２は、第１の実施形態又は第２の実施形態における各部と同じ構成を有しているので、その説明を省略する。また、ユーザＢ側における３次元画像生成部３と、ユーザＣ側における３次元画像生成部３とは同じ構成を有している。以下では、ユーザＢ側の３次元画像生成部３について説明する。

本実施形態の３次元画像生成部３における、画像バッファ３５、顔検出部３７、骨格抽出部３８、姿勢推定部３９、人物モデル記憶部４２、人物テクスチャ情報記憶部４３、及び人物モデル生成部４４は、第２の実施形態における各部と同じ構成を有しているので、その説明を省略する。
空間分離部５１は、画像バッファ３５に記憶されている画像から、人物領域画像と空間領域画像とを分離してそれぞれの画像を画像バッファ３５の作業領域に記憶する。テクスチャ抽出部５２は、画像バッファ３５に記憶されている人物領域画像から人物のテクスチャ情報を抽出する。３次元画像出力部５３は、人物モデル生成部４４において生成した人物モデル（撮影された人物の３次元形状データ）と、空間分離部５１において得られた空間領域画像とから画像取得部１において撮影された２次元画像を３次元画像情報に変換して出力する。

次に、図２４を参照して、図２３に示す映像コミュニケーションシステムの動作を説明する。図２４は、図２３に示す映像コミュニケーションシステムにおける撮像側の装置(３次元画像生成部３)の動作を示すフローチャートである。ここでは、ユーザＢ側の画像取得部１において撮影した映像をユーザＡ側へ出力する動作を説明する。なお、ユーザＣ側における処理は、ユーザＢ側における処理と同様である。まず、３次元画像生成部３は、画像取得部１によって撮影された「ユーザＢの２次元画像」と、距離情報取得部２において取得した「ディスプレイ面とユーザＢとの距離」を入力する（ステップＳ７１）。画像取得部１から入力した画像は、画像バッファ３５に記憶する。

次に、空間分離部５１は、「ディスプレイ面とユーザＢとの距離」に基づいて、「ユーザＢの２次元画像」を、人物領域画像と空間領域画像とに分離する（ステップＳ７２）。人物領域と空間領域の分離には、ディスプレイが据え置きの映像コミュニケーションにおいては、人物以外の空間中のオブジェクトが多くの場合に固定であるため、背景差分を利用し、予め人物以外の空間のみを撮影しておき、それをリファレンスとして差分を取得することで人物領域を抽出する。

空間分離部５１は、図１４に示したように、撮影された画像Ａを空間領域画像Ｂと人物領域画像Ｃとに分離する。このとき、単純に人物領域を抜いただけでは空間画像中の人物領域に当たる部分（図１４の空間領域画像Ｂにおける破線で示した部分）の画像が欠落してしまう。このため、欠落している空間画像の領域を過去の空間画像から補完する。この補完した空間画像を空間領域画像とする。その他、空間が大きく変化しないと仮定し、事前に撮影した空間画像を使用してもよい。または、プライバシー保護の観点から、空間部分を実際とは違う画像と差し替えてもよい。空間分離部５１は、分離した空間領域画像Ｂと人物領域画像Ｃを画像バッファ３５の作業領域に記憶する。

次に、顔検出部３７は、画像バッファ３５に記憶されている人物領域画像から顔検出処理を行って顔領域画像を切り出す（ステップＳ７３）。そして、顔検出部３７は、顔の特徴点である眼、鼻、口、眉などの顔を構成する部位の位置情報を検出し、この顔を構成する部位の位置情報から顔全体の位置情報と、顔が向いている方向の情報を特定する。なおこのとき、距離情報取得部２で得られた距離画像を用いることで、顔検出の精度向上が可能である。具体的には、直前の画像フレーム（１枚以上のフレーム）で取得された、２次元画像中の顔位置に対応する距離を保持しておき、その距離から大幅に外れた箇所は顔領域では無いと判断し、距離が近い画像領域のみを顔が存在する候補とする。顔検出部３７は、特定した顔全体の位置情報と、顔が向いている方向の情報とを人物モデル生成部４４と姿勢推定部３９へ出力する。

次に、骨格抽出部３８は、画像バッファ３５に記憶されている人物領域画像から骨格抽出を行う（ステップＳ７４）。骨格抽出は、人物領域画像から頭、腕、手、上半身、足などを抽出し、これらに仮想の骨を割り当て、割り当てた骨の位置情報を検出することにより行う。

次に、骨格抽出部３８は、距離情報取得部２から入力した距離情報と画像取得部１が取得した画像の画角情報とから抽出した骨格の実際の大きさ（ユーザＢの大きさに相当する）を推定する（ステップＳ７５）。骨格抽出部３８は、骨格の位置情報と骨格の実際の大きさ情報とを人物モデル生成部４４と姿勢推定部３９へ出力する。

次に、姿勢推定部３９は、顔全体の位置情報と、顔が向いている方向情報と、骨格の位置情報とから人物（ユーザＢ）の姿勢を推定する（ステップＳ７６）。これにより、人物（ユーザＢ）が現時点でとっている姿勢が特定されることになる。姿勢推定部３９は、特定した姿勢の情報を人物モデル生成部４４へ出力する。姿勢の情報は、骨格を構成する各骨の３次元位置情報によって構成する。

次に、人物モデル生成部４４は、人物モデル記憶部４２から３次元人物モデルデータを読み出す（ステップＳ７７）。そして、人物モデル生成部４４は、顔検出部３７から出力された顔の位置情報、顔の向き情報、骨格抽出部３８から出力された骨格の実際の大きさ情報、姿勢推定部３９から出力された姿勢の情報に基づき、３次元人物モデルデータで定義される仮想の人物の大きさと姿勢を変形する（ステップＳ７８）。これにより、画像取得部１によって撮影した人物（ユーザＢ）と同じ大きさで同じ姿勢をとっている３次元人物モデルデータが生成されたことになる。

次に、テクスチャ抽出部５２は、画像バッファ３５に記憶されている人物領域画像を読み出し、この人物領域画像をテクスチャマッピングに用いるテクスチャデータとして人物モデル生成部４４へ出力する。これを受けて、人物モデル生成部４４は、得られた３次元人物モデルデータに対して、テクスチャ抽出部５２から出力されたテクスチャデータを３次元人物モデルデータで表現される人物モデルの表面に対して投影することにより３次元人物モデルデータで表現される人物モデルの表面にテクスチャを貼り付ける（ステップＳ７９）。これにより、図１６に示した処理動作と同様に、画像取得部１において撮影した人物（ユーザＢ）の３次元画像が生成されたことになる。人物モデル生成部４４は、ここで生成した３次元画像情報を３次元画像出力部５３へ出力する。

次に、人物モデル生成部４４は、人物モデルにテクスチャを貼り付けた位置と貼り付けたテクスチャデータと関係付けて人物テクスチャ情報記憶部４３に記憶することにより、既に貼り付け処理を行ったテクスチャデータを保持しておく（ステップＳ８０）。これにより、人物モデルの表面にテクスチャが貼り付けられた過去の情報が保持されることになる。

次に、人物モデル生成部４４は、ここで生成した３次元画像情報を３次元画像出力部５３へ出力する。このとき、人物モデル生成部４４は、今回撮影された画像に対する処理においてテクスチャが貼り付けられていない人物モデルの表面には、人物テクスチャ情報記憶部４３に記憶されている過去の処理において貼り付けられたテクスチャデータを読み出して貼り付ける。これにより、今回撮影した画像には映っていない箇所の画像も再現することができるようになる。

次に、３次元画像出力部５３は、人物領域画像から生成した人物モデルによる３次元画像と空間領域画像に実寸の大きさ情報を付与する（ステップＳ８１）。このとき３次元画像出力部５３は、図１７に示した算出方法と同様の演算により、３次元画像と空間領域画像に実寸の大きさ情報を付与する。

次に、３次元画像出力部５３は、ディスプレイからの距離情報と実寸情報とを併せて奥行き情報とし、人物領域画像から生成した人物モデルによる３次元画像と空間領域画像とにこの奥行き情報を付与する。このとき、人物領域画像から生成した人物モデルによる３次元画像の奥行き位置は、「ディスプレイ面とユーザＢとの距離」を用いる。また、空間領域画像の奥行きは、任意の値（但し、人物レイヤより奥行き位置が遠いこと）を用いる。なお、空間領域画像の距離情報を取得できる場合、その距離を用いて値を決めるようにしてもよい。

次に、３次元画像出力部５３は、奥行き情報が付与された人物モデル生成部４４から出力される人物領域画像から生成した人物モデルによる３次元画像と、奥行き情報が付与された空間分離部５１から出力される空間領域画像とを合成して３次元画像情報を生成する。図２５は、実際に生成される「３次元画像情報」の例を示す概念図である。図２５では、距離１．０ｍの位置に人物モデルによる３次元画像、距離３．０ｍの位置に空間画像が配置されている例を示している。そして、３次元画像出力部５３は、生成された３次元画像情報を画像変換部５に対して伝送する（ステップＳ８２）。

図２３に示す映像コミュニケーションシステムにおける表示側の装置（視点位置検出部４、画像変換部５、映像表示部６）の動作は、第１の実施形態又は第２の実施形態における表示側の装置の動作と同じであるので、その説明を省略する。

上述のように、本実施形態による映像コミュニケーションシステムでは、２次元画像から、撮影された人物の３次元形状データと、２次元画像における人物以外の空間画像とを生成し、それらに基づいて３次元画像情報を生成する。これにより、３次元画像情報を生成する際の演算量を抑えて、映像コミュニケーションシステムに要求される演算処理性能を低くすることができ、処理の高速化や装置の低価格化を図ることができる。

なお、第４の実施形態における映像コミュニケーションシステムは、第１の実施形態における映像コミュニケーションシステムと同様に変形して構成されてもよい。また、第４の実施形態における映像コミュニケーションシステムにおいて、第３の実施形態における映像コミュニケーションシステムのように、距離画像取得部２に代えて移動量算出部２１、位置測定部２２及び距離画像生成部２３を備えるようにしてもよい。

＜第５の実施形態＞
第５の実施形態における映像コミュニケーションシステムでは、２次元画像から、人物を含む２次元の人物レイヤと、人物以外の背景を含む２次元の背景レイヤとを生成し、人物レイヤと背景レイヤとの奥行きに基づいた３次元画像情報を生成する構成について説明する。また、本実施形態では、第１の実施形態と同様に、窓を挟んで対面しているときと同様の感覚でのコミュニケーションを３人のユーザＡ〜Ｃに対して提供する場合について説明する。本実施形態においても、図２に示す位置関係でのコミュニケーションをユーザＡ〜Ｃに提供する。

図２６は第５の実施形態における映像コミュニケーションシステムの構成を示すブロック図である。以下において、ユーザＡ側の視点位置検出部４、画像変換部５、及び映像表示部６は、第１の実施形態における各部又は第２の実施形態における各部と同じ構成を有しているので、その説明を省略する。ユーザＢ側及びユーザＣ側における画像取得部１は、第１の実施形態または第２の実施形態における画像取得部１と同じ構成を有しているので、その説明を省略する。また、ユーザＢ側における距離情報取得部２０及び３次元画像生成部３０と、ユーザＣ側における距離情報取得部２０及び３次元画像生成部３０とは同じ構成を有している。以下では、ユーザＢ側の距離情報取得部２０及び３次元画像生成部３０について説明する。

距離情報取得部２０は、
ａ）複数カメラを用いた顔認識、及びステレオマッチングを用いた画像処理技術
ｂ）光学式、または磁気式のモーショントラッキング技術、
また、映像コミュニケーションにおいて人物がカメラ映像の中央にいることを前提条件とし、
ｃ）カメラのオートフォーカス機能によるフォーカス距離情報取得
などの手法を用いて、ディスプレイ面とユーザＢとの距離を示す距離情報を取得する。このとき、「ディスプレイ面とユーザＢとの距離」は、ディスプレイ面からユーザＢへの法線の長さである。距離情報を取得する手法は、上記手法だけに限らず、他の手法であってもよい。

３次元画像生成部３０は、画像取得部１によって撮影された、「ユーザＢの２次元画像」、及び距離情報取得部２０によって取得された、ディスプレイ面とユーザＢとの間の距離にもとづいて、「ユーザＢの２次元画像」を、奥行き情報を持つ「ユーザＢの３次元画像情報」に変換して出力する。

本実施形態の特徴として、窓越しに空間が繋がっているように見える画像を用いた映像コミュニケーションにおいては、ディスプレイの正面から大きくユーザが動かないという前提条件の下、完全な３次元形状を持つ奥行き映像を生成するのではなく、入力された「ユーザＢの２次元画像」を、人物領域と背景領域とに分割し、書割のように平面レイヤのまま奥行き情報を付与して多層化する。

人物領域と背景領域の分割には、ディスプレイが据え置きの映像コミュニケーションにおいては、背景が多くの場合に固定であるため、背景差分を利用し、予め背景のみを撮影しておき、それをリファレンスとして差分を取得することで人物を抽出する。また、距離画像センサを用いた距離情報や、温度画像センサによる人物の体温情報、顔認識を併用して領域分割の精度を向上させるようにしてもよい。

具体的な手法として、所定の範囲内に人物が存在し得る（例えば、ディスプレイが設置された部屋の場合には、ディスプレイから部屋の壁までの範囲内）場合には、ディスプレイの所定の位置を基準点とした人物の存在範囲（該基準点から該部屋の壁までの範囲）を規定し、距離画像センサを用いて距離画像を取得し、人物が存在すると規定される範囲の距離を示す画素領域を該距離画像中の人物領域と判定する。例えば、ディスプレイ面から、０〜３ｍまでの領域は、人物領域と判定し、３ｍ以上の領域は背景領域と判定する。
また、温度画像センサの場合、同様に人物を示す温度範囲を規定して、同様な判定を行う。これらの複数センサから取得された複数の人物領域を候補として、各画素でボーティングして人物領域を最終的に判定する。

具体的には、例えば、画像中のある画素で、各センサを用いた人物領域判定の論理積を取ることで、最終的な判定を行う。顔認識の利用用途は、上記処理などを行った後に、人物領域と判定される領域の候補が複数存在し、その中に人物以外のものが混在していたときに、２次元画像中の領域毎に顔認識を行い、顔抽出された領域のみを人物領域と判定する。これにより、誤って人物領域と判定された領域を排除することが可能であり、より頑健な人物領域抽出が可能となる。

その他、画像中の領域分割には様々な手法が提案されており、それらも利用可能である。また、本実施形態では、２層化についての方式を説明したが、さらに多層化する場合、距離や温度の閾値を細かく設定し、距離画像や、温度画像の分割数を増やすことが考えられる。これにより、多層の書割レイヤを生成することが可能である。

次に、図２７を参照して、図２６に示す映像コミュニケーションシステムの動作を説明する。図２７は、図２６に示す映像コミュニケーションシステムにおける撮像側の装置（３次元画像生成部３０）の動作を示すフローチャートである。ここでは、ユーザＢ側の画像取得部１において撮影した映像をユーザＡ側へ出力する動作を説明する。また、簡単のため、最も単純な構成である２層化の手法について具体的に述べる。
まず、３次元画像生成部３０は、画像取得部によって撮影された「ユーザＢの２次元画像」と、距離情報取得部２０から供給される、「ディスプレイ面とユーザＢとの間の距離」を入力する（ステップＳ９１）。

次に、「ディスプレイ面とユーザＢとの間の距離」にもとづいて、「ユーザＢの２次元画像」を、人物領域とその背景領域とに分割する（ステップＳ９２）。２層化する際、前のレイヤが人物領域、後ろのレイヤが背景領域となる。

次に、２層化された領域のうち、背景領域の画像に基づいて、新たな背景画像を生成する（ステップＳ９３）。単純に１枚の元画像から人物領域を抜いて(減算した)ままだと、背景画像中の人物領域に当たる部分の画像が欠けてしまう。このため、欠落している背景画像の領域を過去の背景画像から補完する。この補完した背景画像が新たな背景領域の画像となる。そのた、背景が大きく変化しないと仮定し、事前に撮影した背景画像を背景レイヤとして使用してもよい。または、プライバシー保護の観点から、背景部分を実際とは違う画像と差し替えてもよい。その他、背景画像に用いる画像に特に制約はなく、一般的に考えられるあらゆる画像が利用可能である。
次に、上記生成された、人物領域の画像、背景画像に実寸の大きさ情報を付与する(ステップＳ９４)。人物領域の画像に対する大きさ情報の算出方法は、図１７において説明した大きさ情報の算出方法と同様である。

次に、ディスプレイからの距離情報と実寸情報とを合わせて奥行き情報とし、人物領域の画像と背景画像とに該奥行き情報を付与し、それぞれレイヤ化する（ステップＳ９５）。以降、人物領域の画像を人物レイヤ、背景画像を背景レイヤと呼ぶ。このレイヤ化により、奥行き情報を持つユーザＢの３次元画像情報として生成される。このとき、人物レイヤの奥行き位置は、「ディスプレイ面とユーザＢとの間の距離」を用いる。背景レイヤの奥行きは、任意の値（ただし、人物レイヤより奥行き位置が遠いこと）を用いる。なお、ステップＳ９３において、背景レイヤの距離情報を取得できていた場合、その距離を用いて値を決めるようにしてもよい。
次に、３次元画像生成部３０は、生成した３次元画像情報を画像変換部５に対して伝送する（ステップＳ９６）。

図２６に示す映像コミュニケーションシステムにおける表示側の装置（視点位置検出部４、画像変換部５、映像表示部６）の動作は、第１の実施形態又は第２の実施形態における表示側の装置の動作と同じであるので、その説明を省略する。

上述のように、本実施形態による映像コミュニケーションシステムでは、２次元画像から、撮像された人物を含む人物レイヤと、人物以外の背景を含む背景レイヤとを生成し、それらに基づいて３次元画像情報を生成する。これにより、人物や当該人物の空間の３次元形状に基づいた３次元画像情報を生成する場合に比べ、３次元画像情報を生成する際の演算量を抑えて、映像コミュニケーションシステムに要求される演算処理性能を低くすることができ、処理の高速化や装置の低価格化を図ることができる。

なお、第５の実施形態における映像コミュニケーションシステムは、第１の実施形態における映像コミュニケーションシステムと同様に変形して構成されてもよい。また、第４の実施形態における映像コミュニケーションシステムにおいて、第３の実施形態における映像コミュニケーションシステムのように、距離画像取得部２に代えて移動量算出部２１、位置測定部２２及び距離画像生成部２３を備えるようにしてもよい。

なお、図３、図１２、図２１、図２３、図２６における処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより映像コミュニケーション処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

以上、図面を参照して本発明の実施の形態を説明してきたが、上記実施の形態は本発明の例示に過ぎず、本発明が上記実施の形態に限定されるものではないことは明らかである。したがって、本発明の技術思想及び範囲を逸脱しない範囲で構成要素の追加、省略、置換、その他の変更を行っても良い。

撮像側の映像装置と表示側の映像装置との間で、撮像側の映像装置で撮影した映像を表示側の映像装置に伝送することが不可欠な用途に適用できる。

１・・・画像取得部、２・・・距離画像取得部、２０・・・距離情報取得部、２１・・・移動量算出部、２２・・・位置測定部、２３・・・距離画像生成部、３・・・３次元画像生成部、３０・・・３次元画像生成部、３１・・・３次元モデル生成部、３２・・・３次元画像出力部、３５・・・画像バッファ、３６・・・空間分離部、３７・・・顔検出部、３８・・・骨格抽出部、３９・・・姿勢推定部、４０・・・テクスチャ抽出部、４１・・・空間モデル生成部、４２・・・人物モデル記憶部、４３・・・人物テクスチャ情報記憶部、４４・・・人物モデル生成部、４５・・・３次元画像出力部、５１・・・空間分離部、５２・・・テクスチャ抽出部、５３・・・３次元画像出力部、４・・・視点位置検出部、５・・・画像変換部、６・・・映像表示部

Claims

複数の撮像側で撮影した映像を表示側において表示する映像コミュニケーションシステムであって、
前記撮像側の人物と人物以外の空間とを含む２次元画像を撮影する画像取得手段と、
前記撮像側の人物と人物以外の空間とにおける距離情報を取得する距離情報取得手段と、
前記距離情報に基づき前記２次元画像に対応する前記撮像側の空間の３次元画像を生成する３次元画像生成手段と、
前記表示側の人物の視点位置を検出する視点検出手段と、
前記視点位置と前記表示側の表示装置において前記撮像側それぞれに割り当てられた表示領域とに応じて、前記３次元画像を前記２次元画像に変換する画像変換手段と、
前記表示側の表示装置に前記変換された２次元画像を表示する表示手段と
を備えたことを特徴とする映像コミュニケーションシステム。
複数の撮像側で撮影した映像を表示側において表示する映像コミュニケーションシステムであって、
前記撮像側の人物と人物以外の空間とを含む２次元画像を撮影する画像取得手段と、
前記撮像側の人物と人物以外の空間とを含む距離画像を取得する距離画像取得手段と、
前記距離画像に基づき前記２次元画像に対応する前記撮像側の空間の３次元モデルデータを生成する３次元モデル生成手段と、
前記３次元モデル生成手段により得られた３次元モデルデータで定義される３次元モデルの表面に対して、前記２次元画像をテクスチャとして貼り付けることにより、前記撮像側の空間の３次元画像を生成する３次元画像生成手段と、
前記表示側の人物の視点位置を検出する視点検出手段と、
前記視点位置と前記表示側の表示装置において前記撮像側それぞれに割り当てられた表示領域とに応じて、前記３次元画像を前記２次元画像に変換する画像変換手段と、
前記表示側の表示装置に前記変換された２次元画像を表示する表示手段と
を備えたことを特徴とする映像コミュニケーションシステム。
複数の撮像側で撮影した映像を表示側において表示する映像コミュニケーションシステムであって、
前記撮像側の人物と人物以外の空間とを含む２次元画像を撮影する画像取得手段と、
前記撮像側の人物と人物以外の空間とを含む距離画像を取得する距離画像取得手段と、
３次元人物モデルデータを記憶する人物モデル記憶手段と、
撮影した前記２次元画像を人物領域画像と空間領域画像に分離する画像分離手段と、
前記人物領域画像と、前記距離画像とから前記撮像側の人物の大きさと姿勢を推定する推定手段と、
推定された前記人物の大きさと前記姿勢に基づき、前記人物モデル記憶手段に記憶されている前記３次元人物モデルデータを変形して前記人物領域画像に対応する３次元人物モデルデータを生成し、得られた３次元人物モデルデータで定義される人物モデルの表面に対して、前記人物領域画像をテクスチャとして貼り付けることにより、人物モデルを生成する人物モデル生成手段と、
前記空間領域画像に対応する前記距離画像から３次元空間モデルデータを生成し、得られた３次元空間モデルデータで定義される空間モデルの表面に対して、前記空間領域画像をテクスチャとして貼り付けることにより空間モデルを生成する空間モデル生成手段と、
前記空間モデルと、前記人物モデルとを合成した３次元画像を生成する３次元画像生成手段と、
前記表示側の人物の視点位置を検出する視点検出手段と、
前記視点位置と前記表示側の表示装置において前記撮像側それぞれに割り当てられた表示領域とに応じて、前記３次元画像を前記２次元画像に変換する画像変換手段と、
前記表示側の表示装置に前記変換された２次元画像を表示する表示手段と
を備えたことを特徴とする映像コミュニケーションシステム。
前記人物モデルの表面に対して貼り付けたテクスチャの情報を記憶しておくテクスチャ情報記憶手段をさらに備え、
前記人物モデル生成手段は、新たな前記人物領域画像によるテクスチャが貼り付けられなかった前記人物モデルの表面に対して、前記テクスチャ情報記憶手段に記憶されたテクスチャを貼り付ける
ことを特徴とする請求項３に記載の映像コミュニケーションシステム。
複数の撮像側で撮影した映像を表示側において表示するために、前記撮像側の人物と人物以外の空間とを含む２次元画像を撮影する画像取得手段と、前記撮像側の人物と人物以外の空間とにおける距離情報を取得する距離情報取得手段とを備える映像コミュニケーションシステムが行う映像コミュニケーション方法であって、
前記距離情報に基づき前記２次元画像に対応する前記撮像側の空間の３次元画像を生成する３次元画像生成ステップと、
前記表示側の人物の視点位置を検出する視点検出ステップと、
前記視点位置と前記表示側の表示装置において前記撮像側それぞれに割り当てられた表示領域とに応じて、前記３次元画像を前記２次元画像に変換する画像変換ステップと、
前記表示側の表示装置に前記変換された２次元画像を表示する表示ステップと
を有することを特徴とする映像コミュニケーション方法。
複数の撮像側で撮影した映像を表示側において表示するために、前記撮像側の人物と人物以外の空間とを含む２次元画像を撮影する画像取得手段と、前記撮像側の人物と空間人物以外の空間とを含む距離画像を取得する距離画像取得手段とを備える映像コミュニケーションシステムが行う映像コミュニケーション方法であって、
前記距離画像に基づき前記２次元画像に対応する前記撮像側の空間の３次元モデルデータを生成する３次元モデル生成ステップと、
前記３次元モデル生成ステップにより得られた３次元モデルデータで定義される３次元モデルの表面に対して、前記２次元画像をテクスチャとして貼り付けることにより、前記撮像側の空間の３次元画像を生成する３次元画像生成ステップと、
前記表示側の人物の視点位置を検出する視点検出ステップと、
前記視点位置と前記表示側の表示装置において前記撮像側それぞれに割り当てられた表示領域とに応じて、前記３次元画像を前記２次元画像に変換する画像変換ステップと、
前記表示側の表示装置に前記変換された２次元画像を表示する表示ステップと
を有することを特徴とする映像コミュニケーション方法。
複数の撮像側で撮影した映像を表示側において表示するために、前記撮像側の人物と人物以外の空間とを含む２次元画像を撮影する画像取得手段と、前記撮像側の人物と人物以外の空間とを含む距離画像を取得する距離画像取得手段と、３次元人物モデルデータを記憶する人物モデル記憶手段とを備える映像コミュニケーションシステムが行う映像コミュニケーション方法であって、
撮影した前記２次元画像を人物領域画像と空間領域画像に分離する画像分離ステップと、
前記人物領域画像と、前記距離画像とから前記撮像側の人物の大きさと姿勢を推定する推定ステップと、
推定された前記人物の大きさと前記姿勢に基づき、前記人物モデル記憶手段に記憶されている前記３次元人物モデルデータを変形して前記人物領域画像に対応する３次元人物モデルデータを生成し、得られた３次元人物モデルデータで定義される人物モデルの表面に対して、前記人物領域画像をテクスチャとして貼り付けることにより、人物モデルを生成する人物モデル生成ステップと、
前記空間領域画像に対応する前記距離画像から３次元空間モデルデータを生成し、得られた３次元空間モデルデータで定義される空間モデルの表面に対して、前記空間領域画像をテクスチャとして貼り付けることにより空間モデルを生成する空間モデル生成ステップと、
前記空間モデルと、前記人物モデルとを合成した３次元画像を生成する３次元画像生成ステップと、
前記表示側の人物の視点位置を検出する視点検出ステップと、
前記視点位置と前記表示側の表示装置において前記撮像側それぞれに割り当てられた表示領域とに応じて、前記３次元画像を前記２次元画像に変換する画像変換ステップと、
前記表示側の表示装置に前記変換された２次元画像を表示する表示ステップと
を有することを特徴とする映像コミュニケーション方法。