JP5795250B2

JP5795250B2 - 被写体姿勢推定装置および映像描画装置

Info

Publication number: JP5795250B2
Application number: JP2011269256A
Authority: JP
Inventors: 菅野　勝; 勝菅野; 内藤　整; 整内藤
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2011-12-08
Filing date: 2011-12-08
Publication date: 2015-10-14
Anticipated expiration: 2031-12-08
Also published as: JP2013120556A

Description

本発明は、被写体姿勢推定装置および映像描画装置に関し、特に、複数の単眼カメラの映像から生成された被写体の２次元モデルを基に被写体姿勢を推定する被写体姿勢推定装置、および該被写体姿勢推定装置により推定された被写体姿勢を用いて立体感のある映像を描画する映像描画装置に関する。

非特許文献１には、サッカースタジアムなどの空間において、仮想的な視点から観た被写体映像を合成する際、被写体を平面的な矩形でモデル化し、ある視点から観た場合の被写体の空間位置に基づいて被写体映像を描画する技術が開示されている。

非特許文献２には、複数のカメラにより取得された被写体映像を基に、被写体の関節位置と部位を推定することによって、視点が変更された場合の被写体映像を描画する技術が開示されている。

非特許文献３には、単眼カメラにより取得され被写体のシルエット画像から形状記述子を抽出し、関節角との非線形回帰によって被写体姿勢を推定する技術が開示されている。

K. Hayashiほか, "Synthesizing Free-viewpoint Images from Multiple View Videos in Soccer Stadium", CGIV 2006 M. Germannほか, "Articulated Billboards for Video-based Rendering", EUROGRAPHICS 2010 A. Agarwalほか, "Recovering 3D Human Pose from Monocular Images", PAMI 28(2006)

非特許文献１に開示されている技術では、被写体を平面的な矩形でモデル化するので、視点の位置によっては単に平面を傾斜させたような被写体映像しか得られず、描画される被写体映像が不自然になるという課題がある。

非特許文献２に開示されている技術では、被写体の関節位置と部位を推定するので、視点の変更に対してより自然な被写体映像を描画することができる。しかし、被写体映像を描画するときの表示環境が平面的なものでなく、没入感の高いものである場合、被写体の奥行きの欠如により平面的な被写体映像の描画しか得られないという課題がある。なお、没入感が高い表示環境とは、映像を見ているユーザが、恰も、その映像の実空間内にいるように感じる表示環境のことであり、例えば、CAVE(Cave Automatic Virtual Environment)のような没入型投影ディスプレイなどを用いて実現される。

非特許文献３に開示されている技術では、非線形回帰を利用するので、被写体姿勢の推定精度を高めるためには大量の学習データが必要となるという課題がある。

本発明の目的は、上記課題を解決し、カメラ映像における3次元モデル上での被写体姿勢を推定できる被写体姿勢推定装置を提供し、さらに、推定された被写体姿勢を基に、没入感の高い表示環境で、仮想的な視点から観たときの被写体映像を描画する場合でも、視点の位置に応じて幾何学的に不自然でなく、かつ立体感のある映像を描画できる映像描画装置を提供することにある。

上記課題を解決するため、本発明に係る被写体姿勢推定装置は、複数のカメラ映像のそれぞれから生成された２次元モデルを入力として被写体を同定する被写体同定手段と、前記被写体同定手段により同定された被写体の２次元モデルを統合して前記複数のカメラ画像の視点とは異なる仮想視点からの２次元モデルを生成する被写体モデル統合手段と、前記被写体モデル統合手段により生成された２次元モデルを入力とし、該２次元モデルから被写体のシルエットを抽出するシルエット抽出手段と、前記シルエット抽出手段により抽出されたシルエットに重み付けしたシルエット重みマップを生成するシルエット重みマップ生成手段と、被写体の種々の姿勢におけるモーションキャプチャデータを予め格納しているモーションキャプチャデータ格納手段と、前記シルエット重みマップ生成手段により生成されたシルエット重みマップと前記モーションキャプチャデータ格納手段に格納されているモーションキャプチャデータの類似度を算出する類似度算出手段を具備し、前記類似度算出手段により算出された類似度が最大となるモーションキャプチャデータにより３次元モデル上での被写体姿勢を推定することに第１の特徴がある。

また、本発明に係る被写体姿勢推定装置は、さらに、前記モーションキャプチャデータ格納手段に格納されているモーションキャプチャデータからスケルトンモデルを生成するスケルトンモデル生成手段を具備し、前記類似度算出手段は、前記スケルトンモデル生成手段により生成されたスケルトンモデルを用いて、シルエット重みマップとモーションキャプチャデータの類似度を算出することに第２の特徴がある。

また、本発明に係る被写体姿勢推定装置は、前記シルエット重みマップ生成手段が、抽出手段により抽出されたシルエットに、シルエット中心部分が最も大きく、辺縁部分に向かって減少する重みを付与することに第３の特徴がある。

また、本発明に係る被写体姿勢推定装置は、前記類似度算出手段が、シルエット重みマップとモーションキャプチャデータのスケールおよび重心を一致させて類似度を算出することに第４の特徴がある。

また、本発明に係る被写体姿勢推定装置は、前記類似度算出手段が、さらに、時間的に連続したフレーム画像のカメラ映像のシルエット重みマップとモーションキャプチャデータの類似度を算出する際に、直前のフレーム画像に対して算出された類似度が、予め設定された一定閾値以上のモーションキャプチャデータのみを類似度算出対象とすることに第５の特徴がある。

また、本発明に係る被写体姿勢推定装置は、シルエットの抽出からシルエット重みマップとモーションキャプチャデータの類似度の算出までの処理を、連続的に入力されるカメラ映像に対してフレーム単位で離散的に実行し、上記処理が実行されないフレーム区間のカメラ映像における被写体姿勢は、該フレーム区間の両端のフレームで推定された被写体姿勢から補間により推定することに第６の特徴がある。

さらに、本発明に係る被写体姿勢推定装置は、前記被写体同定手段が、カメラ映像間での特徴点の対応付けにより、複数のカメラ映像間での被写体を同定することに第７の特徴がある。

また、本発明に係る映像描画装置は、上記の被写体姿勢推定装置と、被写体についてのモーションキャプチャデータに対する３次元モデルを予め格納している３次元モデル格納部と、前記被写体姿勢推定装置により類似度が最大とされたモーションキャプチャデータに対する３次元モデルを前記３次元モデル格納部から探索する３次元モデル探索部と、前記３次元モデル探索部により探索された３次元モデルを、指定された視点および方向とカメラ映像の２次元モデルの位置および方向に応じて変換した後、被写体の２次元モデルと置換し、さらに、カメラ映像における被写体のテクスチャをマッピングして映像を生成する映像描画部と、前記映像描画部により生成された映像を表示する没入型ディスプレイを具備することに特徴がある。

本発明に係る被写体姿勢推定装置によれば、複数のカメラ映像のそれぞれから生成した２次元モデルから実際のカメラ位置と異なる仮想的な視点から観たときの２次元モデルを生成し、この２次元モデルを元にして、被写体の2次元モデルのシルエットとモーションキャプチャデータの類似度を算出し、類似度が最大のモーションキャプチャデータの姿勢を被写体姿勢と推定するので、実際のカメラ位置とは異なる仮想的な視点から観たときの、3次元モデル上での被写体姿勢を推定できる。

また、本発明に係る映像描画置によれば、被写体姿勢推定装置により推定された3次元モデル上での被写体姿勢を基に3次元モデルを検索し、該3次元モデルを用いて映像を描画するので、没入感の高い表示環境で、仮想的な視点から観たときの映像を描画する場合でも、幾何学的に不自然でなく、かつ立体感のある映像を描画することができる。

被写体姿勢推定装置の一形態を示す機能ブロック図である。シルエットと重みの関係の例を示す図である。シルエット重みマップとスケルトンモデルのオーバーラップを示すイメージ図である。連続するカメラ映像(フレーム画像)についてのシルエット重みマップとスケルトンモデルの類似度の具体例を示す図である。本発明に係る被写体姿勢推定装置の一実施形態を示す機能ブロック図である。 2つの2次元モデルの統合処理を概念的に示す図である。本発明に係る映像描画装置の一実施形態を示すブロック図である。

以下、図面を参照して本発明を説明する。図１は、被写体姿勢推定装置の一形態を示す機能ブロック図である。

本形態の被写体姿勢推定装置10は、シルエット抽出部11、シルエット重みマップ生成部12、モーションキャプチャデータ格納部13、スケルトンモデル生成部14および類似度測定部15を備える。

シルエット抽出部11には、2次元モデル生成部16から被写体の2次元モデルが入力される。2次元モデル生成部16は、単眼カメラ(以下、単にカメラと称する)により取得されたカメラ映像を入力とし、カメラ映像に映っている被写体の2次元モデルを生成する。2次元モデルは、カメラ映像に映っている被写体を単一の長方形ポリゴンでモデル化することにより生成できる。2次元モデルの生成は、例えば、非特許文献１に開示されている手法や特開2011-170487号公報に開示されている手法などで実現できる。

ある空間内の仮想的な視点から観たときの映像を描画する場合、ディスプレイが平面ディスプレイならば、奥行きを持たない2次元モデルから被写体映像を生成して描画してもあまり問題はない。しかし、ディスプレイが没入型投影ディスプレイの場合、2次元モデルから生成された被写体映像は、薄い平面の板が配置されているように見えるため、不自然になる。すなわち、没入型投影ディスプレイで映像を表示する場合、2次元モデル上で被写体姿勢を推定すると、十分に没入感のある映像を表示できない。

そこで、本形態では、シルエット重みマップ生成部12、モーションキャプチャデータ格納部13、スケルトンモデル生成部14および類似度測定部15を備え、3次元モデル上での被写体姿勢を推定するようにしている。

シルエット抽出部11は、2次元モデル生成部16により生成された2次元モデルから被写体のシルエットを抽出する。

シルエット重みマップ生成部12は、シルエット抽出部11により抽出されたシルエットに重み付けしてシルエット重みマップを生成する。シルエット重みマップでは、例えば、シルエットの中心部分の重みが最も大きく、中心部分から辺縁部分に向かって重みが減少するように重みを付す。なお、シルエット重みマップは、シルエットを単に細線化したものでもよい。

図２は、シルエットと重みの関係の例を示す。ここでは、断面A-A′での重みを示している。同図に示すように、シルエット中心部分b,c,fから辺縁部分a,d,e,gに向かって重みを減少させる。これに加えて、図の上下方向で、シルエットの中心部分から離れる従って重みを減少させてもよい。なお、シルエットに対する重み付けの方向は、任意に設定できる。

モーションキャプチャデータ格納部13は、3次元モデルとしてのモーションキャプチャデータを予め格納している。被写体が人物の場合、モーションキャプチャデータは、人体の関節モデルとなる。

スケルトンモデル生成部14は、モーションキャプチャデータ格納部13に格納されているモーションキャプチャデータから3次元モデルとしてのスケルトンモデルを生成する。モーションキャプチャデータが人体の関節モデルである場合、関節間を肢に相当する線分で連結することにより、スケルトンモデルを生成できる。また、スケルトンモデルには、適宜肉付けしてもよい。

類似度算出部15は、シルエット重みマップ生成部12により生成されたシルエット重みマップとスケルトンモデル生成部14により生成されたスケルトンモデルの類似度を算出し、シルエット重みマップに最も類似度が高いスケルトンモデルのモーションキャプチャデータを送出する。これにより送出されるモーションキャプチャデータは、入力されたカメラ映像における被写体の、3次元モデル上での姿勢を表す。

シルエット重みマップとスケルトンモデルの類似度は、シルエット重みマップに対して3次元モデルとしてのスケルトンモデルの重心およびスケールを一致させ、シルエット重みマップとスケルトンモデルのオーバーラップを評価することにより算出できる。なお、シルエットが単に細線化されたシルエット重みマップの場合には、一定範囲内のずれを許容してオーバーラップを評価する。

例えば、被写体が人物の場合、シルエット重みマップとスケルトンモデルの類似度は、スケルトンモデルに含まれる関節とシルエット重みマップがどの程度オーバーラップしているかを、関節の数と重みの関連(オーバーラップしている関節における重みの積算)から算出できる。また、類似度の評価には、オーバーラップしている関節の数だけでなく、関節間の線分長さを用いてもよい。

図３は、シルエット重みマップ生成部12により生成されたシルエット重みマップとスケルトンモデル生成部13により生成されたスケルトンモデルのオーバーラップを示すイメージ図である。ここでは、シルエットの中心部分の重みが最も大きく、中心部分から離れるに従って重みが減少するシルエット重みマップ(図の白抜き部分)と、人体の関節モデルの関節(図では白丸で示す)間を線分で連結して生成されたスケルトンモデルを示している。

図４は、あるカメラ映像(フレーム画像)についてのシルエット重みマップと、「歩行動作」に関する連続したスケルトンモデルの類似度の具体例を示す図である。図４では、あるフレーム画像から生成されたシルエット重みマップに対する、シーケンス番号0〜120のスケルトンモデル(図示下部)の類似度を示している。

以上のように、類似度算出部15は、シルエット重みマップ生成部12により生成されたシルエット重みマップとスケルトンモデル生成部14により生成されたスケルトンモデルの類似度が最も高いスケルトンモデルのモーションキャプチャデータを送出する。これにより送出されたモーションキャプチャデータから、入力されたカメラ映像における被写体の、3次元モデル上での姿勢が推定される。

図５は、以上の技術を利用して被写体の姿勢を推定する、本発明に係る被写体姿勢推定装置の一実施形態を示す機能ブロック図である。なお、図５において図１と同一または同等部分には同じ番号を付している。

本実施形態では、ある空間内の異なる位置に配設された２つのカメラにより被写体を撮影し、これらのカメラ映像を用いて3次元モデル上での被写体姿勢を推定する。すなわち、２つのカメラにより取得されたカメラ映像から生成された２つの被写体の2次元モデルを入力とし、空間内の、実際のカメラ位置と異なる仮想的な視点から観たときの被写体の、3次元モデル上での姿勢を推定する。

本実施形態の被写体姿勢推定装置10は、被写体同定部17、被写体モデル統合部18、シルエット抽出部11、シルエット重みマップ生成部12、モーションキャプチャデータ格納部13、スケルトンモデル生成部14および類似度測定部15を備える。

被写体同定部17および被写体モデル統合部18には、2次元モデル生成部16-1,16-2から被写体の2次元モデルが入力される。2次元モデル生成部16-1は、ある空間内の第１の位置に配設されたカメラにより取得されたカメラ映像1を入力とし、カメラ映像1に映っている被写体の2次元モデルを生成する。2次元モデル生成部16-2は、ある空間内の、第１の位置とは異なる第２の位置に配設されたカメラにより取得されたカメラ映像2を入力とし、カメラ映像2に映っている被写体の2次元モデルを生成する。

被写体同定部17は、カメラ映像1,2の時間的に同期しているフレーム画像からそれぞれ抽出される特徴点を対応付けることにより、カメラ映像1,2のフレーム画像間での被写体を同定する。フレーム画像から抽出する特徴点としては、例えば、SIFT(Scale Invariant Feature Transform)を利用できるが、被写体の特徴を示すものならどのようなものでもよく、色を利用することもできる。

被写体の識別子を定義し、カメラ映像1,2に映っている同一の被写体には同一の識別子を付して、カメラ映像1,2の画像フレームと被写体の関係をテーブルとして作成すれば、どの被写体がどのカメラ映像のどの画像フレームに映っているかを特定できる。

被写体モデル統合部18は、被写体同定部17により同一と見なされた被写体の2次元モデルを統合し、予め設定された視点からの2次元モデルを生成する。もちろん、カメラ映像1,2の一方だけに映っている被写体については、被写体の同定や統合は不要である。

被写体モデル統合部18での統合を行うことにより、カメラ映像1,2に同一の被写体が映っている場合でも、同一の被写体の2元モデルを統合的に扱うことができるようになる。なお、同一の被写体に対して、カメラ映像1,2から異なるスケールの被写体の2次元モデルが生成された場合には、これらを正規化してスケールが同一になるように変換してから統合する。

被写体の2次元モデルを統合は、例えば、それぞれのカメラと被写体の位置関係および予め設定された視点と被写体の位置関係から角度パラメータを求め、求められた角度パラメータに応じて、カメラ映像1,2から生成された2次元モデルを幾何変換(例えば、アフィン変換)し、幾何変換された2次元モデルの同一時間のフレームにおいて、スケールを同一にし、例えば、両者を平均した2次元モデルを生成することで実現できる。

図６は、2つの2次元モデルの統合処理を概念的に示す図である。同図に示すように、カメラ映像1,2から生成された同一被写体の2次元モデルを、カメラと被写体の位置関係および予め設定された視点と被写体の位置関係に従って幾何変換することにより、予め設定された視点から観た場合の2次元モデルを生成し、幾何変換された2次元モデルを平均化処理して統合された2次元モデルを生成する。

被写体モデル統合部18により統合された2次元モデルをシルエット抽出部11に入力する。シルエット抽出部11〜類似度算出部15の処理は、図１の形態と同じであるので説明を省略するが、類似度算出部15からは、予め設定された視点から観たときの被写体の、3次元モデル上での姿勢を表すモーションキャプチャデータが送出される。

以上のように、被写体姿勢推定装置により推定された3次元モデル上での被写体姿勢を用いれば、没入感の高い表示環境で、仮想的な視点から観たときの映像を表示する場合でも、視点の位置に応じて幾何学的に不自然でなく、かつ立体感のある映像を描画することができる。

図７は、本発明に係る映像描画装置の一実施形態を示すブロック図である。本実施形態の映像描画装置は、被写体姿勢推定装置10、3次元モデル格納部19、3次元モデル探索部20、映像描画部21および没入型ディスプレイ22を備える。

被写体姿勢推定装置10は、図５に示された構成を備え、入力されたカメラ映像における被写体の、3次元モデル上での姿勢を表すモーションキャプチャデータを送出する。

3次元モデル格納部19は、被写体についてのモーションキャプチャデータに対する3次元モデルを予め格納している。3次元モデル探索部20は、被写体姿勢推定装置10から送出されたモーションキャプチャデータに対する3次元モデルを3次元モデル格納部19から探索する。

映像描画部21には、外部から仮想的な視点/方向が与えられる。映像描画部21は、仮想的な視点/方向とカメラ映像1,2の2次元モデルの位置/方向の関係に基づいて、3次元モデル探索部20により探索された3次元モデルを変換し、仮想的な視点/方向からの3次元モデルを生成する。映像描画部21は、さらに、被写体の2次元モデルを3次元モデルに置換し、カメラ映像のテクスチャを、3次元モデルにマッピングして被写体映像を生成する。

この被写体映像を用いれば、幾何学的に不自然でなく、かつ立体感のある被写体映像を描画できる。被写体映像に合わせて背景映像を描画する場合、背景映像は、何れかのカメラ映像を仮想的な視点からの映像に幾何変換することにより生成できる。この背景映像に3次元モデルの被写体映像を合成すれば、被写体映像を含む全体映像を生成できる。

没入型ディスプレイ22は、映像描画部21により生成された映像を表示する。

本発明は、例えば、サッカースタジアムのような空間を複数のカメラで撮影し、空間内の仮想的な位置から観たときの選手や審判(被写体)を、幾何学的に不自然でなく、かつ立体感のある被写体映像として、没入感の高い表示環境で描画する場合に適用できる。

この場合、被写体姿勢推定装置は、複数のカメラのカメラ映像に映っている選手や審判の2次元モデルから、選手や審判の、3次元モデル上での姿勢を推定する。

被写体は、選手や審判といった人物であるので、選手や審判の、3次元モデル上での姿勢は、人体の関節モデルとして推定される。ここでは、複数のカメラのカメラ映像を扱い、時間的に同期したフレーム画像に映っている選手や審判を同定し、統合した2次元モデルを用いる。

映像描画装置は、推定された人体の関節モデルから、当該関節モデルを有する3次元モデルとしての人体モデルを3次元モデル格納部(データベース)から探索する。人体モデルは任意のものを利用することができるが、被写体のシルエットに応じて最適な人体モデルを選択してもよい。

映像描画装置は、さらに、探索された人体モデルから仮想的な視点から観たときの選手や審判の被写体映像を生成する。そして、生成した被写体映像を、カメラ映像を幾何変換して生成した背景映像に合成して没入型ディスプレイで表示する。

以上実施形態について説明したが、本発明は、上記実施形態に限定されるものではない。例えば、カメラの数は、２台に限らず、３台以上でもよい。また、撮影対象の空間はサッカースタジアムのような空間でなくてもよく、被写体も人物に限られない。

また、類似度算出部15での類似度の算出では、モーションキャプチャデータをそのまま用いることもできる。この場合、スケルトンモデル生成部14を省略でき、類似度は、モーションキャプチャデータに含まれる関節とシルエット重みマップがどの程度オーバーラップしているかを、関節の数と重みの関連から算出できる。

また、モーションキャプチャデータ格納部13に、多数のモーションキャプチャデータが格納されている場合、時間的に連続したシルエット重みマップに対して類似度を算出するモーションキャプチャデータ(またはスケルトンモデル)を、直前に算出された類似度が所定閾値以上のモーションキャプチャデータ(またはスケルトンモデル)だけに限定することもできる。これにより、全てのモーションキャプチャデータ(またはスケルトンモデル)に対して類似度を算出しなくても済み、3次元モデル(関節モデル)の推定に要する処理を軽減できる。

さらに、カメラ映像に映っている被写体の姿勢を推定して被写体の3次元モデルを推定する処理は、入力される全ての映像フレームに対して行ってもよいが、離散的に、例えば、Nフレーム毎(・・・ ,t-N, t, t+N, ・・・)に推定するようにしてもよい。この場合、被写体の3次元モデルが推定されない映像フレーム(例えば、t+1,t+2,・・・,t+N-1)が生じるが、これらの映像フレームにおける被写体の姿勢は、フレームtとフレームt+Nで推定された被写体姿勢から、動的計画法などを用いて算出することができる。これにより、被写体の3次元モデル推定処理の高速化を図ることができる。

10・・・被写体姿勢推定装置、11・・・シルエット抽出部、12・・・シルエット重みマップ生成部、13・・・モーションキャプチャデータ格納部、14・・・スケルトンモデル生成部、15・・・類似度測定部、16,16-1,16-2・・・2次元モデル生成部、17・・・被写体同定部、15・・・被写体モデル統合部、19・・・3次元モデル格納部、20・・・3次元モデル探索部、21・・・映像描画部、22・・・没入型ディスプレイ

Claims

複数のカメラ映像のそれぞれから生成された２次元モデルを入力として被写体を同定する被写体同定手段と、
前記被写体同定手段により同定された被写体の２次元モデルを統合して前記複数のカメラ画像の視点とは異なる仮想視点からの２次元モデルを生成する被写体モデル統合手段と、
前記被写体モデル統合手段により生成された２次元モデルを入力とし、該２次元モデルから被写体のシルエットを抽出するシルエット抽出手段と、
前記シルエット抽出手段により抽出されたシルエットに重み付けしたシルエット重みマップを生成するシルエット重みマップ生成手段と、
被写体の種々の姿勢におけるモーションキャプチャデータを予め格納しているモーションキャプチャデータ格納手段と、
前記シルエット重みマップ生成手段により生成されたシルエット重みマップと前記モーションキャプチャデータ格納手段に格納されているモーションキャプチャデータの類似度を算出する類似度算出手段を具備し、
前記類似度算出手段により算出された類似度が最大となるモーションキャプチャデータにより３次元モデル上での被写体姿勢を推定することを特徴とする被写体姿勢推定装置。
さらに、前記モーションキャプチャデータ格納手段に格納されているモーションキャプチャデータからスケルトンモデルを生成するスケルトンモデル生成手段を具備し、
前記類似度算出手段は、前記スケルトンモデル生成手段により生成されたスケルトンモデルを用いて、シルエット重みマップとモーションキャプチャデータの類似度を算出することを特徴とする請求項１に記載の被写体姿勢推定装置。
前記シルエット重みマップ生成手段は、抽出手段により抽出されたシルエットに、シルエット中心部分が最も大きく、辺縁部分に向かって減少する重みを付与することを特徴とする請求項１または２に記載の被写体姿勢推定装置。
前記類似度算出手段は、シルエット重みマップとモーションキャプチャデータのスケールおよび重心を一致させて類似度を算出することを特徴とする請求項１ないし３のいずれか１つに記載の被写体姿勢推定装置。
前記類似度算出手段は、さらに、時間的に連続したフレーム画像のカメラ映像のシルエット重みマップとモーションキャプチャデータの類似度を算出する際に、直前のフレーム画像に対して算出された類似度が、予め設定された一定閾値以上のモーションキャプチャデータのみを類似度算出対象とすることを特徴とする請求項１ないし４のいずれか１つに記載の被写体姿勢推定装置。
シルエットの抽出からシルエット重みマップとモーションキャプチャデータの類似度の算出までの処理を、連続的に入力されるカメラ映像に対してフレーム単位で離散的に実行し、上記処理が実行されないフレーム区間のカメラ映像における被写体姿勢は、該フレーム区間の両端のフレームで推定された被写体姿勢から補間により推定することを特徴とする請求項１ないし５のいずれか１つに記載の被写体姿勢推定装置。
前記被写体同定手段は、カメラ映像間での特徴点の対応付けにより、複数のカメラ映像間での被写体を同定することを特徴とする請求項１ないし６のいずれか１つに記載の被写体姿勢推定装置。
請求項１ないし７のいずれか１つに記載の被写体姿勢推定装置と、
被写体についてのモーションキャプチャデータに対する３次元モデルを予め格納している３次元モデル格納部と、
前記被写体姿勢推定装置により類似度が最大とされたモーションキャプチャデータに対する３次元モデルを前記３次元モデル格納部から探索する３次元モデル探索部と、
前記３次元モデル探索部により探索された３次元モデルを、指定された視点および方向とカメラ映像の２次元モデルの位置および方向に応じて変換した後、被写体の２次元モデルと置換し、さらに、カメラ映像における被写体のテクスチャをマッピングして被写体映像を生成する映像描画部と、
前記映像描画部により生成された被写体映像を表示する没入型ディスプレイを具備する映像描画装置。