JP2014071871A

JP2014071871A - 映像コミュニケーションシステム及び映像コミュニケーション方法

Info

Publication number: JP2014071871A
Application number: JP2012220255A
Authority: JP
Inventors: Akira Ishii; 亮石井; Shiro Ozawa; 史朗小澤; Harumi Kawamura; 春美川村; Akira Kojima; 明小島
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-10-02
Filing date: 2012-10-02
Publication date: 2014-04-21
Anticipated expiration: 2032-10-02
Also published as: JP5731462B2

Abstract

【課題】ユーザに対して映像中の対話相手の人物の表現をより現実的にする。
【解決手段】撮影した２次元画像を人物領域画像と空間領域画像に分離する手段と、人物領域画像と、距離情報とから撮像側の人物の大きさと姿勢を推定する手段と、推定された人物の大きさと姿勢に基づき、人物モデル記憶手段に記憶されている３次元人物モデルデータを変形して人物領域画像に対応する３次元人物モデルデータを生成し、得られた３次元人物モデルデータで定義される人物モデルの表面に対して、人物領域画像をテクスチャとして貼り付けることにより、人物モデルを生成する手段と、空間領域画像と、人物モデルとを合成した３次元画像を生成する手段と、表示側の人物の視点位置を検出する手段と、３次元画像から視点位置に応じた２次元画像に変換する手段と、表示側の表示装置に変換された２次元画像を表示する手段とを備えた。
【選択図】図２

Description

本発明は、撮像側の映像装置で撮影した映像を表示側の映像装置に伝送する映像コミュニケーションシステム及び映像コミュニケーション方法に関する。

映像コミュニケーションにおいて、対話相手とあたかも対面しているかのように、対話相手をユーザにどのような映像として提示するかが重要である。従来、映像コミュニケーションにおいては、あたかも実物大の対話相手が眼の前にいるように感じさせるために、対話相手の人物を２次元ディスプレイ上に実物大に映す方式が考えられている（例えば、特許文献１参照）。

対面会話において、対人間の距離感は、話しやすさや、緊張感に影響を与え重要である（参考文献１：エドワードホール、かくれた次元、２０００、みすず書房）。しかしながら、従来の２次元ディスプレイに映された対話相手では、どの位置から映像を観察しても２次元ディスプレイに表示された映像は変化しない。視点位置による画像変化が無いため、奥行き情報が欠落し、対話相手との距離の表現ができなかった。

すなわち、実際に、対話相手が眼の前にいるように感じさせるためには、実物大表示だけでは不十分である。例えば、ディスプレイ上に等身大に表示されている人物を見ても、個人によって人物がディスプレイよりも前や、後ろにいるように感じたり、そもそもどの奥行き位置にいるのかが把握できないために、実物より大きい、もしくは小さい人物がいるように感じられ、対話相手を等身大に感じることができない。このように、距離感が表現できないために、対面会話のように距離による会話への効果を期待することができない。

また、ユーザが映像中の対話相手とどれくらいの距離にいるのかを、把握することができなかったため、対面会話と同様に、対人距離を適度に調節することや、距離の遠近によってもたらせる緊張感が感じられなかった。

このような問題を解決するために、出願人は、ユーザに対して映像中の対話相手との距離感や現実感を与えることができる映像コミュニケーションシステムを提案している（特許文献２参照）。このシステムは、ディスプレイを窓に見立てて、ユーザと対話相手の空間が窓越しに繋がったような表現を行う。具体的には、ユーザの視点位置に応じて、対話相手の映像を変化させるという運動視差を実現し、距離に応じた人物サイズで対話相手を表示することで、ユーザに映像中の対話相手との距離感、現実感を与えることができるものである。

特許第３５８６１２６号公報特開２０１１−７７７１０号公報

しかしながら、特許文献２に開示された映像コミュニケーションシステムでは、１台のカメラ映像から、カメラに垂直な平面で空間を復元するため、空間中に存在する対話相手の人物の表現が十分でない。そのため、ユーザが水平方向に移動して対話相手の人物をのぞき込んでも横顔を見ることができなかった。また、人物の身体に視差が生じないため、指差し動作を行った際に、指が指している方向を正確に把握することができず、指差し動作などの非言語情報を正しく伝達することができないという問題がある。

本発明は、このような事情に鑑みてなされたもので、ユーザに対して映像中の対話相手の表現をより現実的にすることができる映像コミュニケーションシステム及び映像コミュニケーション方法を提供することを目的とする。

本発明は、撮像側で撮影した映像を表示側において表示する映像コミュニケーションシステムであって、前記撮像側の人物と人物以外の空間とを含む２次元画像を撮影する画像取得手段と、前記撮像側の人物と、前記画像取得手段との間の距離情報を取得する距離情報取得手段と、３次元人物モデルデータを記憶する人物モデル記憶手段と、撮影した前記２次元画像を人物領域画像と空間領域画像に分離する画像分離手段と、前記人物領域画像と、前記距離情報とから前記撮像側の人物の大きさと姿勢を推定する推定手段と、推定された前記人物の大きさと前記姿勢に基づき、前記人物モデル記憶手段に記憶されている前記３次元人物モデルデータを変形して前記人物領域画像に対応する３次元人物モデルデータを生成し、得られた３次元人物モデルデータで定義される人物モデルの表面に対して、前記人物領域画像をテクスチャとして貼り付けることにより、人物モデルを生成する人物モデル生成手段と、前記空間領域画像と、前記人物モデルとを合成した３次元画像を生成する３次元画像生成手段と、前記表示側の人物の視点位置を検出する視点検出手段と、前記３次元画像から前記視点位置に応じた２次元画像に変換する画像変換手段と、前記表示側の表示装置に前記変換された２次元画像を表示する表示手段とを備えたことを特徴とする。

本発明は、前記人物モデルの表面に対して貼り付けたテクスチャの情報を記憶しておくテクスチャ情報記憶手段をさらに備え、前記人物モデル生成手段は、新たな前記人物領域画像によるテクスチャが貼り付けられなかった前記人物モデルの表面に対して、前記テクスチャ情報記憶手段に記憶されたテクスチャを貼り付けることを特徴とする。

本発明は、撮像側で撮影した映像を表示側において表示するために、前記撮像側の人物と人物以外の空間とを含む２次元画像を撮影する画像取得手段と、前記撮像側の人物と、前記画像取得手段との間の距離情報を取得する距離情報取得手段と、３次元人物モデルデータを記憶する人物モデル記憶手段とを備える映像コミュニケーションシステムが行う映像コミュニケーション方法であって、撮影した前記２次元画像を人物領域画像と空間領域画像に分離する画像分離ステップと、前記人物領域画像と、前記距離情報とから前記撮像側の人物の大きさと姿勢を推定する推定ステップと、推定された前記人物の大きさと前記姿勢に基づき、前記人物モデル記憶手段に記憶されている前記３次元人物モデルデータを変形して前記人物領域画像に対応する３次元人物モデルデータを生成し、得られた３次元人物モデルデータで定義される人物モデルの表面に対して、前記人物領域画像をテクスチャとして貼り付けることにより、人物モデルを生成する人物モデル生成ステップと、前記空間領域画像と、前記人物モデルとを合成した３次元画像を生成する３次元画像生成ステップと、前記表示側の人物の視点位置を検出する視点検出ステップと、前記３次元画像から前記視点位置に応じた２次元画像に変換する画像変換ステップと、前記表示側の表示装置に前記変換された２次元画像を表示する表示ステップとを有することを特徴とする。

本発明によれば、ユーザの視点（眼の位置）に応じて、対話相手の映像を変化させるという運動視差を実現し、距離に応じた人物サイズで対話相手を表示することで、ユーザに映像中の対話相手との距離感、現実感を与えることができる。特に、対話相手の人物を３次元情報に基づいて表示するようにしたため、ユーザに対して映像中の対話相手の人物の表現をより現実的にすることができるという効果が得られる。

本発明による映像表示のイメージを示す概念図である。本発明の一実施形態による映像コミュニケーションシステムの構成を示すブロック図である。図２に示す映像コミュニケーションシステムにおける撮像側の装置（３次元画像生成部３）の動作を示すフローチャートである。人物領域画像と人物以外の空間領域画像とに分離する動作を示す説明図である。人物領域画像から顔検出と骨格抽出を行う動作を示す説明図である。骨格抽出、人物モデルの変形、テクスチャ貼り付け、３次元画像生成の処理動作を示す説明図である。人物モデルによる３次元画像の大きさ情報の算出方法を説明するための概念図である。実際に生成される「３次元画像情報」の例を示す概念図である。図２に示す映像コミュニケーションシステムにおける表示側の装置（視点位置検出部４、画像変換部５、映像表示部６）の動作を示すフローチャートである。画像変換部５が行う透視変換の動作を示す概念図である。

以下、図面を参照して、本発明の一実施形態による映像コミュニケーションシステムを説明する。始めに、本実施形態による映像コミュニケーションシステムの動作原理について説明する。本実施形態による映像コミュニケーションシステムは、撮像側の装置と表示側の装置とを備え、撮像側の装置から人物と空間とに分けた３次元画像情報を表示側の装置へ送り、表示側の装置では表示側にいる人物の眼の位置に応じて、送られた３次元画像を２次元変換して、表示側の人物から見える画像を生成して表示することによって対話相手の人物の表現をより現実的にするものである。

すなわち、２地点での映像コミュニケーションにおいて、ディスプレイを１枚の窓に見立てて、ユーザと対話相手とが互いにあたかも相手の空間を窓越しに覗いているかのように、ユーザの視点位置に応じて、その位置から見える対話相手の空間の映像をディスプレイに表示すること（運動視差）を実現し、映像中の対話相手の奥行き情報を表現するものである。

図１は、本実施形態による映像表示のイメージを示す概念図である。図１において、ユーザ１００が視点を変えると（３軸移動に対応）、映像中の対話相手２００と空間３００の画像（図１では説明上、空間を背景の壁一枚で簡略して表現）を、その視点の変化に応じて２次元ディスプレイ４００上に表示することで、対話相手２００の見え方があたかも現実的に再現される。

すなわち、ユーザ１００が位置Ｐ１にて２次元ディスプレイ４００に対峙する場合には、対話相手２００および空間３００を正面から見ているように表示し、ユーザ１００が左側の位置Ｐ２から見ている場合には、対話相手２００に対し向かって左側の横顔や人物以外の空間にある壁（空間３００）との位置関係（奥行き）を反映し、対話相手２００を左側から見ているように表示し、ユーザ１００が右側の位置Ｐ３から見ている場合には、対話相手２００に対し向かって右側の横顔や人物以外の空間にある壁（空間３００）との位置関係（奥行き）を反映し、対話相手２００を右側から見ているように表示する。

図２は同実施形態による映像コミュニケーションシステムの構成を示すブロック図である。本明細書においては、動画の１フレーム分を「画像」と称し、複数の「画像」を連続して表示して動画とした状態のものを「映像」と称する。本実施形態では、撮影された２次元画像から、人物画像と空間画像を分離し、立体情報を有する人物モデルの表面に対して２次元画像をテクスチャとして貼り付けた人物の３次元画像と、分離した空間画像とからなる３次元画像を生成し、この３次元画像をユーザの視点位置に応じて、ディスプレイ面に投影して表示する方法について説明する。図２に示す映像コミュニケーションシステムは、ユーザ（以下、ユーザＡ）及び対話相手（以下、ユーザＢ）のそれぞれに用意され、双方向通信を介して使用される。以下では、ユーザＡのディスプレイにユーザＢ（対話相手）の映像を表示するものとして説明する。

画像取得部１は、撮影装置（カメラ）からなり、ユーザＢの２次元映像を撮影する。画像取得部（ユーザＢ）１は、ユーザＡの視線とユーザＢの視線とを合わせるために、ユーザＢのディスプレイ（映像表示部：図示略）上に表示されるユーザＡの眼位置（眼位置とは、両眼の目頭を結ぶ線分の中点の位置）に、光学的、または、仮想的に、カメラのレンズ中心がくるように配置される。

例えば、ディスプレイとユーザＢとの間にハーフミラーを、ディスプレイの平面の法線とハーフミラーの法線のなす角度が４５度となるように設置し、カメラを該ハーフミラーの上方または下方に、ハーフミラーからディスプレイまでの距離だけ離して設置することにより、ハーフミラーを介して撮像する手法を用いればよい。

また、ディスプレイを隠さないように、ユーザＢのディスプレイの周囲に複数のカメラを配置し、ＦＴＶ（Ｆｒｅｅ−ＶｉｅｗｐｏｉｎｔＴｅｌｅｖｉｓｉｏｎ）技術によって、周囲の複数のカメラ画像から、ユーザＢのディスプレイ上に表示されるユーザＡの視点位置にある仮想視点の映像を生成する手法を用いるようにしてもよい。その他、視線を一致させるために、カメラ位置をできるだけ、ユーザＢのディスプレイに表示されたユーザＡの眼位置にレンズ中心が来るように配置するようにしてもよい。以後、ユーザＢのディスプレイの中心にカメラレンズの中心があるようにカメラが設置されており、カメラの撮像面がディスプレイ面にあると仮定して説明する。

距離情報取得部２は、以下のａ）、ｂ）、ｃ）による手法を用いてディスプレイ面（または画像取得手段１）とユーザＢ間の距離を取得する。
複数カメラを用いた顔認識、及びステレオマッチングを用いた画像処理技術光学式、または磁気式のモーショントラッキング技術、カメラのオートフォーカス機能によるフォーカス距離情報取得このとき、「ディスプレイ面とユーザＢ間の距離」は、ディスプレイ面からユーザＢへの法線の長さである。距離を取得する手法は、上記手法だけに限らず、他の手法であってもよい。

３次元画像生成部３は、画像取得部１によって撮影された、「ユーザＢの２次元画像」及び距離情報取得部２によって取得された、ディスプレイ面とユーザＢ間の距離に基づいて、「ユーザＢの２次元画像」から奥行き情報を持つ「ユーザＢの３次元画像情報」に変換して出力する。

視点位置検出部４は、顔認識及びステレオマッチングを用いた画像処理技術や、光学式または磁気式のモーショントラッキング技術等を用いて、ユーザＡの視点（眼）位置がどこにあるかを示すユーザＡの視点位置Ｖ（ｖｘ，ｖｙ，ｖｚ）を検出して出力する。

画像変換部５は、視点位置検出部４によって検出された、ディスプレイ位置に対するユーザＡの視点位置と、３次元画像生成部３によって生成されて出力されたユーザＢの３次元画像情報から、ユーザＡのディスプレイ面に表示する画像（「ユーザＡの視点位置に応じた、ユーザＢの２次元画像」）に変換する。

映像表示部（ユーザＡ）６は、ディスプレイ装置で構成し、画像変換部５により変換されたユーザＡの視点位置に応じたユーザＢの２次元画像を表示する。

次に、図２を参照して、図２に示す３次元画像生成部３の詳細な構成を説明する。画像バッファ３１は、画像取得部１において撮影した画像の少なくとも１フレーム分の記憶領域と、画像処理に用いる作業領域を有する。空間分離部３２は、画像バッファ３１に記憶されている画像から、人物領域画像と空間領域画像とを分離してそれぞれの画像を画像バッファ３１の作業領域に記憶する。顔検出部３３は、画像バッファ３１に記憶されている人物領域画像、および補助情報として距離情報取得部２で得られた位置情報から顔領域ならびに特徴点の位置、姿勢を検出する。骨格抽出部３４は、画像バッファ３１に記憶されている人物領域画像から骨格抽出を行って骨格情報を得る。姿勢推定部３５は、骨格抽出部３４において得られた骨格情報に基づき、人物の姿勢を推定する。テクスチャ抽出部３６は、画像バッファ３１に記憶されている人物領域画像から人物のテクスチャ情報を抽出する。

人物モデル記憶部３７は、一般的な人間の体格の３次元形状データが３次元人物モデルデータとして予め記憶されている。人物テクスチャ情報記憶部３８は、人物モデルに対して貼り付けたテクスチャのテクスチャ情報を記憶する。人物モデル生成部３９は、人物モデル記憶部３７に記憶されている人物モデルを用いて、画像取得部１において撮影した人物に似せた人物モデルを生成する。３次元画像出力部４０は、人物モデル生成部３９において生成した人物モデル（撮影された人物の３次元形状データ）と、空間分離部３２において得られた空間領域画像とから画像取得部１において撮影された２次元画像を３次元画像情報に変換して出力する。

なお、上述した構成において、画像取得部１、距離情報取得部２及び３次元画像生成部３は、ユーザＢ側の撮像側装置として設けられており、通信回線等を介して、３次元画像生成部３により生成された、ユーザＢの３次元画像情報を、所定の通信手段、通信回線を介して、ユーザＡ側の表示側装置に伝送する。また、図２には示していないが、実際には、ユーザＡ側にもユーザＢ側と同様に、ユーザＡの２次元映像（画像）を撮影する画像取得部、ディスプレイ面（映像表示部６の画面）とユーザＡ間の距離を取得する距離情報取得部及び「ユーザＡの２次元画像」から「ユーザＡの３次元画像情報」を生成する３次元画像生成部が備えられている。

次に、図３を参照して、図２に示す映像コミュニケーションシステムの動作を説明する。図３は、図２に示す映像コミュニケーションシステムにおける撮像側の装置（３次元画像生成部３）の動作を示すフローチャートである。ここでは、ユーザＢ側の画像取得部１において撮影した映像をユーザＡ側へ出力する動作を説明する。まず、３次元画像生成部３は、画像取得部１によって撮影された「ユーザＢの２次元画像」と、距離情報取得部２において取得した「ディスプレイ面とユーザＢの距離」を入力する（ステップＳ１）。画像取得部１から入力した画像は、画像バッファ３１に記憶する。

次に、空間分離部３２は、「ディスプレイ面とユーザＢの距離」に基づいて、「ユーザＢの２次元画像」を、人物領域画像と人物以外の空間領域画像とに分離する（ステップＳ２）。人物領域と空間領域の分離には、ディスプレイが据え置きの映像コミュニケーションにおいては、人物以外の空間にあるオブジェクトが多くの場合に固定であるため、背景差分を利用し、予め空間のみを撮影しておき、それをリファレンスとして差分を取得することで人物領域を抽出する。また、その他の方法として、画像中からの顔検出処理により、人物の顔を検出し、その近傍にある領域を人物領域とする方法も利用できる。

図４は、人物領域画像と人物以外の空間領域画像とに分離する動作を示す説明図である。図４に示すように、空間分離部３２は、撮影された画像Ａを空間領域画像Ｂと人物領域画像Ｃに分離する。このとき、単純に人物領域を抜いただけでは空間画像中の人物領域にあたる部分（図４の破線で示した部分）の画像が欠落してしまう。このため、欠落している空間画像の領域を過去の空間画像から補完する。この補完した空間画像を空間領域画像とする。その他、空間が大きく変化しないと仮定し、事前に撮影した空間画像を使用してもよい。または、プライバシー保護の観点から、空間部分を実際とは違う画像と差し替えてもよい。空間分離部３２は、分離した空間領域画像Ｂと人物領域画像Ｃを画像バッファ３１の作業領域に記憶する。

次に、顔検出部３３は、画像バッファ３１に記憶されている人物領域画像から顔検出処理を行って顔領域画像を切り出す（ステップＳ３）。そして、顔検出部３３は、顔の特徴点である眼、鼻、口、眉などの顔を構成する部位の位置情報を検出し、この顔を構成する部位の位置情報から顔全体の位置情報と、顔が向いている方向の情報を特定する。なおこのとき、距離情報取得部２において、前述の手法ａ）が利用されている場合、距離情報取得部２で得られた距離画像を用いることで、顔検出の精度向上が可能である。具体的には、直前の画像フレーム（１枚以上のフレーム）で取得された、２次元画像中の顔位置に対応する距離を保持しておき、その距離から大幅に外れた箇所は顔領域では無いと判断し、距離が近い画像領域のみを顔が存在する候補とする。顔検出部３３は、特定した顔全体の位置情報と、顔が向いている方向の情報とを人物モデル生成部３９と姿勢推定部３５へ出力する。

次に、骨格抽出部３４は、画像バッファ３１に記憶されている人物領域画像から骨格抽出を行う（ステップＳ４）。骨格抽出は、人物領域画像から頭、腕、手、上半身、足などを抽出し、これらに仮想の骨を割り当て、割り当てた骨の位置情報を検出することにより行う。

図５は、人物領域画像から顔検出と骨格抽出を行う動作を示す説明図である。図５に示すように、人物領域画像Ｃから顔部分を切り出した顔領域画像Ｅを用いて、顔を構成する部位の位置情報を検出する。また、人物領域画像Ｃに対して仮想の骨を割り当てることにより、人物の骨格を抽出し、骨格の位置情報Ｆを検出する。顔検出処理や骨格抽出処理は公知の処理方法を適用することができるため、ここでは処理の詳細な説明を省略する。

次に、骨格抽出部３４は、距離情報取得部２から入力した距離情報と画像取得部１が取得した画像の画角情報とから抽出した骨格の実際の大きさ（ユーザＢの大きさに相当する）を推定する（ステップＳ５）。骨格抽出部３４は、骨格の位置情報と骨格の実際の大きさ情報とを人物モデル生成部３９と姿勢推定部３５へ出力する。

次に、姿勢推定部３５は、顔全体の位置情報と、顔が向いている方向情報と、骨格の位置情報とから人物（ユーザＢ）の姿勢を推定する（ステップＳ６）。これにより、人物（ユーザＢ）が現時点でとっている姿勢が特定されることになる。姿勢推定部３５は、特定した姿勢の情報を人物モデル生成部３９へ出力する。姿勢の情報は、骨格を構成する各骨の３次元位置情報によって構成する。

次に、人物モデル生成部３９は、人物モデル記憶部３７から３次元人物モデルデータを読み出す（ステップＳ７）。そして、人物モデル生成部３９は、顔検出部３３から出力された顔の位置情報、顔の向き情報、骨格抽出部３４から出力された骨格の実際の大きさ情報、姿勢推定部３５から出力された姿勢の情報に基づき、３次元人物モデルデータで定義される仮想の人物の大きさと姿勢を変形する（ステップＳ８）。これにより、画像取得部１によって撮影した人物（ユーザＢ）と同じ大きさで同じ姿勢をとっている３次元人物モデルデータが生成されたことになる。

次に、テクスチャ抽出部３６は、画像バッファ３１に記憶されている人物領域画像を読み出し、この人物領域画像をテクスチャマッピングに用いるテクスチャデータとして人物モデル生成部３９へ出力する。これを受けて、人物モデル生成部３９は、得られた３次元人物モデルデータに対して、テクスチャ抽出部３６から出力されたテクスチャデータを３次元人物モデルデータで表現される人物モデルの表面に対して投影することにより３次元人物モデルデータで表現される人物モデルの表面にテクスチャを貼り付ける（ステップＳ９）。これにより、画像取得部１において撮影した人物（ユーザＢ）の３次元画像が生成されたことになる。人物モデル生成部３９は、ここで生成した３次元画像情報を３次元画像出力部４０へ出力する。

図６は、骨格抽出、人物モデルの変形、テクスチャ貼り付け、３次元画像生成の処理動作を示す説明図である。図６に示すように、人物領域画像から骨格抽出を行うことにより、骨格を示す骨格情報Ｆが求められ、この骨格情報Ｆに基づいて、３次元人物モデルデータＧが実際に撮影された人物と同じ大きさで同じ姿勢をとっているように変形が行われる。そして、変形後の３次元人物モデルデータＧで表現される人物モデルの表面に人物領域画像Ｃに基づくテクスチャが貼り付けられることにより人物の３次元画像Ｈが生成されることになる。

次に、人物モデル生成部３９は、人物モデルにテクスチャを貼り付けた位置と貼り付けたテクスチャデータと関係付けて人物テクスチャ情報記憶部３８に記憶することにより、既に貼り付け処理を行ったテクスチャデータを保持しておく（ステップＳ１０）。これにより、人物モデルの表面にテクスチャが貼り付けられた過去の情報が保持されることになる。

次に、人物モデル生成部３９は、ここで生成した３次元画像情報を３次元画像出力部４０へ出力する。このとき、人物モデル生成部３９は、今回撮影された画像に対する処理においてテクスチャが貼り付けられていない人物モデルの表面には、人物テクスチャ情報記憶部３８に記憶されている過去の処理において貼り付けられたテクスチャデータを読み出して貼り付ける。これにより、今回撮影した画像には映っていない箇所の画像も再現することができるようになる。

次に、３次元画像出力部４０は、人物領域画像から生成した人物モデルによる３次元画像と空間領域画像に実寸の大きさ情報を付与する（ステップＳ１１）。図７は、人物モデルによる３次元画像の大きさ情報の算出方法を説明するための概念図である。このとき、人物領域画像から生成された人物モデルによる３次元画像αの画像の高さαｈ、幅αｗは、画像取得部１の画角（縦θｈ、横θｗ）、画像取得部１から人物モデルによる３次元画像までの距離Ｄ（画像取得部１とディスプレイ（ユーザＢ側の映像表示部）との位置関係を既知とし、「ディスプレイ面とユーザＢの距離」から算出）、カメラズーム率Ｚを用いて、次式（１）、（２）で算出される。

次に、３次元画像出力部４０は、ディスプレイからの距離情報と実寸情報とを併せて奥行き情報とし、人物領域画像から生成した人物モデルによる３次元画像と空間領域画像とにこの奥行き情報を付与する。このとき、人物領域画像から生成した人物モデルによる３次元画像の奥行き位置は、「ディスプレイ面とユーザＢとの距離」を用いる。また、空間領域画像の奥行きは、任意の値（但し、人物レイヤより奥行き位置が遠いこと）を用いる。なお、空間領域画像の距離情報を取得できる場合、その距離を用いて値を決めるようにしてもよい。

次に、３次元画像出力部４０は、奥行き情報が付与された人物モデル生成部３９から出力される人物領域画像から生成した人物モデルによる３次元画像と、奥行き情報が付与された空間分離部３２から出力される空間領域画像とを合成して３次元画像情報を生成する。図８は、実際に生成される「３次元画像情報」の例を示す概念図である。図８では、距離１．０ｍの位置に人物モデルによる３次元画像、距離３．０ｍの位置に空間画像が配置されている例を示している。そして、３次元画像出力部４０は、生成された３次元画像情報を画像変換部５に対して伝送する（ステップＳ１２）。

次に、図９を参照して、図２に示す映像コミュニケーションシステムにおける表示側の装置の動作を説明する。図９は、図２に示す映像コミュニケーションシステムにおける表示側の装置（視点位置検出部４、画像変換部５、映像表示部６）の動作を示すフローチャートである。

まず、画像変換部５は、３次元画像出力部４０から伝送された３次元画像情報を入力する（ステップＳ２１）。続いて、視点位置検出部４は、ユーザＡの視点（眼）位置がどこにあるかを示すユーザの視点位置Ｖ（ｖｘ，ｖｙ，ｖｚ）を検出し、この視点位置Ｖを画像変換部５へ出力する（ステップＳ２２）。画像変換部５では、「ディスプレイ位置に対するユーザＡの視点位置」に応じて、「ユーザＢの３次元画像情報」を、ユーザＡの映像表示部６の画面に表示する映像（「ユーザの視点位置に応じた２次元画像」）へ変換することにより、２次元画像を生成する（ステップＳ２３）。「ユーザの視点位置に応じた２次元画像」は、「ユーザＢの３次元画像情報」を、「ディスプレイ位置に対するユーザＡの視点位置」を基点に、ユーザＡの映像表示部６の画面に透視投影などの射影変換を行うことで生成する。

図１０は、画像変換部５が行う透視変換の動作を示す概念図である。ディスプレイの中心を座標系の原点Ｏ（０，０，０）とし、ディスプレイ面の横方向にy軸、縦方向にx軸、ディスプレイ面の法線をｚ軸とし、ユーザ位置とは逆向きを正の方向とする。ユーザの視点位置をＶ（ｖｘ，ｖｙ，ｖｚ）（但し、ｖｚ＜０）としたとき、ディスプレイ面上の点Ｄ（ｘ，ｙ，ｚ）に投影されるべき、人物モデルによる３次元画像ｉの点Ｈｉ（ｈｘ，ｈｙ，ｈｚ）は、次式（３）により算出される。

なお、数式（３）の変換行列式中の座標は、実寸の情報を有する座標系ということを前提にしている。

この処理を、ディスプレイ面上の各画素において行うことにより２次元画像への変換を行う。なお、その他、平行投影といった一般的な射影変換の手法も利用してもよい。

最後に、映像表示部６は、画像変換部５により変換された映像、すなわち、ユーザＡの視点位置に応じたユーザＢの２次元画像を表示する（ステップＳ２４）。

なお、図２に示す画像変換部５は、撮像側の３次元画像生成部３内に備え、視点位置検出部４において検出された視点位置の情報を表示側から撮像側へ伝送し、この視点位置の情報に基づき、３次元画像生成部３内に備えた画像変換部５が視点位置に応じた２次元画像に変換を行い、この変換後の２次元画像を撮像側から表示側へ伝送し、この伝送された２次元画像を映像表示部６に表示するようにしてもよい。これにより、表示側の装置構成を簡単にすることができる。

以上説明したように、ユーザの視点（眼の位置）に応じて、映像が変化するため、運動視差を実現することができるとともに、距離に応じた人物サイズで対話相手を表示することから、視覚的に窓１枚を挟んで対面しているときと同等の情報が得られ、映像中の対話相手に奥行きに係る手がかりが与えられ、ユーザが映像中の対話相手との距離感を把握することができる。それにより、対面会話と同様に距離を適度に調節したり、対面会話において距離がもたらす、話しやすさ、緊張感の有無の効果をもたらすことができる。また、映像が変化するため、あたかも実物大の対話相手が眼の前にいるかのように感じさせることができ、従来技術のように２次元映像で人物を提示したものに比べて、視線・姿勢などの非言語情報と、遠隔地に存在する対話相手とあたかも同じ空間を共有している感覚（臨場感）とを与えることができる。特に、対話相手の人物を３次元情報に基づいて表示するようにしたため、ユーザに対して映像中の対話相手の人物の表現をより現実的にすることができる。

なお、図２における処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより映像コミュニケーション処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

以上、図面を参照して本発明の実施の形態を説明してきたが、上記実施の形態は本発明の例示に過ぎず、本発明が上記実施の形態に限定されるものではないことは明らかである。したがって、本発明の技術思想及び範囲を逸脱しない範囲で構成要素の追加、省略、置換、その他の変更を行っても良い。

撮像側の映像装置と表示側の映像装置との間で、撮像側の映像装置で撮影した映像を表示側の映像装置に伝送することが不可欠な用途に適用できる。

１・・・画像取得部、２・・・距離情報取得部、３・・・３次元画像生成部、３１・・・画像バッファ、３２・・・空間分離部、３３・・・顔検出部、３４・・・骨格抽出部、３５・・・姿勢推定部、３６・・・テクスチャ抽出部、３７・・・人物モデル記憶部、３８・・・人物テクスチャ情報記憶部、３９・・・人物モデル生成部、４０・・・３次元画像出力部、４・・・視点位置検出部、５・・・画像変換部、６・・・映像表示部

Claims

撮像側で撮影した映像を表示側において表示する映像コミュニケーションシステムであって、
前記撮像側の人物と人物以外の空間とを含む２次元画像を撮影する画像取得手段と、
前記撮像側の人物と、前記画像取得手段との間の距離情報を取得する距離情報取得手段と、
３次元人物モデルデータを記憶する人物モデル記憶手段と、
撮影した前記２次元画像を人物領域画像と空間領域画像に分離する画像分離手段と、
前記人物領域画像と、前記距離情報とから前記撮像側の人物の大きさと姿勢を推定する推定手段と、
推定された前記人物の大きさと前記姿勢に基づき、前記人物モデル記憶手段に記憶されている前記３次元人物モデルデータを変形して前記人物領域画像に対応する３次元人物モデルデータを生成し、得られた３次元人物モデルデータで定義される人物モデルの表面に対して、前記人物領域画像をテクスチャとして貼り付けることにより、人物モデルを生成する人物モデル生成手段と、
前記空間領域画像と、前記人物モデルとを合成した３次元画像を生成する３次元画像生成手段と、
前記表示側の人物の視点位置を検出する視点検出手段と、
前記３次元画像から前記視点位置に応じた２次元画像に変換する画像変換手段と、
前記表示側の表示装置に前記変換された２次元画像を表示する表示手段と
を備えたことを特徴とする映像コミュニケーションシステム。
前記人物モデルの表面に対して貼り付けたテクスチャの情報を記憶しておくテクスチャ情報記憶手段をさらに備え、
前記人物モデル生成手段は、新たな前記人物領域画像によるテクスチャが貼り付けられなかった前記人物モデルの表面に対して、前記テクスチャ情報記憶手段に記憶されたテクスチャを貼り付けることを特徴とする請求項１に記載の映像コミュニケーションシステム。
撮像側で撮影した映像を表示側において表示するために、前記撮像側の人物と人物以外の空間とを含む２次元画像を撮影する画像取得手段と、前記撮像側の人物と、前記画像取得手段との間の距離情報を取得する距離情報取得手段と、３次元人物モデルデータを記憶する人物モデル記憶手段とを備える映像コミュニケーションシステムが行う映像コミュニケーション方法であって、
撮影した前記２次元画像を人物領域画像と空間領域画像に分離する画像分離ステップと、
前記人物領域画像と、前記距離情報とから前記撮像側の人物の大きさと姿勢を推定する推定ステップと、
推定された前記人物の大きさと前記姿勢に基づき、前記人物モデル記憶手段に記憶されている前記３次元人物モデルデータを変形して前記人物領域画像に対応する３次元人物モデルデータを生成し、得られた３次元人物モデルデータで定義される人物モデルの表面に対して、前記人物領域画像をテクスチャとして貼り付けることにより、人物モデルを生成する人物モデル生成ステップと、
前記空間領域画像と、前記人物モデルとを合成した３次元画像を生成する３次元画像生成ステップと、
前記表示側の人物の視点位置を検出する視点検出ステップと、
前記３次元画像から前記視点位置に応じた２次元画像に変換する画像変換ステップと、
前記表示側の表示装置に前記変換された２次元画像を表示する表示ステップと
を有することを特徴とする映像コミュニケーション方法。