JP4904264B2

JP4904264B2 - ３ｄ空間次元に基づく画像処理のためのシステムおよび方法

Info

Publication number: JP4904264B2
Application number: JP2007523240A
Authority: JP
Inventors: ギボン，ドール
Original assignee: Extreme Reality Ltd
Current assignee: Extreme Reality Ltd
Priority date: 2004-07-30
Filing date: 2005-07-31
Publication date: 2012-03-28
Anticipated expiration: 2025-07-31
Also published as: KR20130020717A; JP2013157014A; JP2012038334A; JP2008508590A; US8114172B2; CA2575704C; US8111284B1; KR101183000B1; KR101424942B1; US20160105661A1; KR101323966B1; KR20130086061A; EP1789928A2; KR20120096600A; WO2006011153A2; EP1789928A4; US20070285419A1; KR20070048752A; US20190200003A1; JP5244951B2

Description

本発明は、撮影術、画像処理およびアニメーションに関し、より特定的には、３次元（３Ｄ）撮影術、３次元画像処理および３次元アニメーションに関するが、これらに限定されるものではない。

現在技術による３次元撮影術は、時間次元に基づく。

本発明は、例えば、立体画像、球体撮影システム、３Ｄコンピュータアニメーション、３Ｄ撮影術、および３Ｄ画像処理アルゴリズム等、３Ｄ映像および画像処理の世界に属するいくつかの異なる分野に関する。

従来の３Ｄ立体撮影術は、位置合わせされたレンズ間に平行な光軸を有し、それらレンズ間の距離が固定されたツインカメラを採用している。これらのツインカメラは、立体表示および立体視に関する公知技術のいずれかによって表示することができる一対の画像を作成する。これらの技術は、一般に、右側のレンズにより撮影された画像が観察者の右目に対して表示され、左側のレンズにより撮影された画像が観察者の左目に対して表示されるという原理に基づく。

例えば、「３次元表示用途のためのデジタルフォーマッタ（Ｄｉｇｉｔａｌｆｏｒｍａｔｔｅｒｆｏｒ３−ｄｉｍｅｎｓｉｏｎａｌｄｉｓｐｌａｙａｐｐｌｉｃａｔｉｏｎｓ）」と題されるテキサス・インスツルメンツ社に付与された特許文献１は、４重メモリバッファを用いて、右目および左目の両方に対する表示用の処理済ビデオデータを記憶したり読み出したりする３Ｄデジタル投影ディスプレイを開示している。このフォーマッタを用いて、ビデオデータが４８フレーム毎秒の速度で処理され、２度（繰り返して）読み出されることにより、表示のちらつきに関する閾値を越える９６（最大で１２０）フレーム毎秒のフラッシュ速度を達成する。このデータは、次いで、右目および左目のフレームが正確に位相ずれを起こした状態でヘッドセットまたはゴーグルと同期して、知覚できる３Ｄ画像を生成する。

球体またはパノラマ写真撮影術では、伝統的に、「魚眼」レンズ等の非常に広角なレンズによって、または重なり合って隣接する画像の「継ぎ合わせ」によって、最大で完全な球体となるような広範な視野をカバーしている。このような技術を用いて得られるパノラマまたは球体画像は、観察者に奥行きを感じさせる２次元画像または立体画像とすることができる。これらの画像はまた、三角測量法等の公知の方法を用いてカメラから画像内の各ピクセルの距離を計算する等、コンピュータ処理された３次元（３Ｄ）画像とすることができる。

例えば、テンペスト・マイクロシステムズ社（ＴｅｍｐｅｓｔＭｉｃｒｏｓｙｓｔｅｍｓＩｎｃｏｒｐｏｒａｔｅｄ）に付与された特許文献２は、魚眼レンズおよび電荷結合素子（ＣＣＤ）等の撮像装置を用いて、例えば、半球体視野の画像等の広角画像を得る画像取得観察システムを教示している。

２００１年１１月２８日に出願された本出願人による同時継続中の特許文献３も参照し、その内容を本明細書中において参考として援用する。この出願は、観察者の周囲の視環境について水平および垂直両方向３６０度の完全な立体的球体画像を得るための撮像システムを教示している。立体表示に適した手段を用いて画像を表示することにより、観察者は、上下方向を含めた周囲の全てを見渡すことができ、表示された画像の立体的奥行きを感じることができる。本開示は、カメラのレンズが曲面上に配置され、当該曲面上の共通中心Ｃから突き出たカメラアレイを教示している。キャプチャされた画像は編集および処理され、各ペアにおける一方の画像が観察者の右目用で、他方の画像が左目用である数組の立体画像のペアを生成することにより、３次元的知覚を生じる。

３Ｄコンピュータアニメーションは、近年普及してきた「仮想現実」の分野に関する。３Ｄ仮想現実は、実際の画像と、合成により作成された画像とを組み合わせて構築される。また、完全にコンピュータによって生成された仮想現実も存在する。３Ｄ仮想現実は、撮影されている要素の３Ｄ情報を作成するために写真撮影された画像の３Ｄ計算を必要とする。

これは、能動的方法を用いてリアルタイムで行なうことが可能である。

例えば、３ＤＶシステムズ社（３ＤＶｓｙｓｔｅｍｓＩｎｃｏｒｐｏｒａｔｅｄ（ｈｔｔｐ：／／ｗｗｗ．３ｄｖｓｙｓｔｅｍｓ．ｃｏｍ／））は、場面内の各ピクセルの奥行き値および色値をリアルタイムでキャプチャすることにより、場面のフレーム毎に、距離をグレーレベルで表した奥行き地図を作成するＺＣａｍ（登録商標）カメラを提供する。Ｚｃａｍ（登録商標）カメラは、適切な幅を有する光の壁を用いる独自設計のカメラである。この光の壁は、例えば、矩形のレーザパルスとして生成してもよい。実写された場面内のオブジェクトに光の壁が当たると、それらオブジェクトの印象を写したＺＣａｍ（登録商標）カメラに向かって反射される。この印象は、奥行き地図の再構築に必要な全ての情報を搬送する。

実写画像の３Ｄ計算はまた、受動的方法を用いて行なってもよい。

奥行きの構築のための受動的方法には、場面に対する視点の少なくとも２つが既知である三角測量技術を用いてもよい。対応する特徴を特定し、光線を交差させて各特徴の３Ｄ位置を見つける。時空立体像により、空間照合関数において用いられる近傍に時間次元を加える。時間を渡った多数のフレームを用いて時間的立体像を加えることにより、１つ目の画像の単一のピクセルを、２つめの画像と照合する。これは、通常の特徴に基づく画像間の照合技術において行なわれる対象点（角）の照合とは対照的に、移動するオブジェクトの時空間軌跡を照合することによっても行なうことができる。これらのシーケンスは、対応する時空間軌跡に沿った全ての点を整合的に照合し、また、２つのビデオシーケンス間におけるサブフレームの時間的な一致（同期）を得ることにより空間および時間的に照合される。

３Ｄコンピュータにより生成された画像（ＣＧＩ）は仮想世界であり、３Ｄコンピュータにより生成された画像用ソフトウェアを用いて作成された指定領域である。この仮想世界は指定領域に作成され、当該仮想世界内の各点はコンピュータにより生成された点である。この仮想世界には、２Ｄまたは３Ｄの現実の画像を組み込む場合もある。

ここで、公知技術による仮想世界を示す図１を参照する。

この仮想世界における各点の３Ｄ位置は既知である。この空間内の特定の点に色、輝度等の詳細を加えることにより、空間内に各種形状を作成する（図１）。仮想的なカメラをこの世界に配置することにより、仮想世界内に時間に基づくシーケンスを作成し、立体画像等を作成することができる。

実写画像とコンピュータにより生成された世界の同期は、空間同期を用いた後、時間同期を用いて、現実世界の画像を空間および時間的に仮想世界と合わせることにより行なうことが可能である。

ここで、従来技術による仮想的なスタジオを示す図２を参照する。

この例では、ブルー／グリーンスクリーンとして公知の技術において、カメラが人物の姿とその背景を分離することができる仮想的なスタジオを用いる。図３に示すように、人物の姿をその周囲と分けることにより、その姿をコンピュータで作成した仮想的な世界と組み合わせることができる。

また、全く逆のことが、既知の固定点を予め設定し、コンピュータにより生成された３Ｄ世界に同期する固定点を作成したバスケットボール場等の所定空間において、１組のカメラを監視することにより行なうことができる。このような技術により、ＣＧＩ図形を分離してバスケットボール場に組み込むことが可能である。例えば、ＯＲＡＤ社（ＯＲＡＤＩｎｃｏｒｐｏｒａｔｅｄ）の製品であるＣｙｂｅｒＳｐｏｒｔ（登録商標）は、バスケットボール場、フットボール場等で行なわれるスポーツイベントに関して、競技場に密着した生の３Ｄ画像を挿入し、挿入された画像オブジェクトがイベントと一体化して、その一部となる幻想を作成する。

上述したように、３Ｄ撮像および立体撮影術のための伝統的な方法およびシステムは、特殊なカメラ、特殊なレンズ、２つ以上のカメラの所定の位置取り、および専用アルゴリズムに基づいている。
米国特許第６，９０６，６８７号米国特許第６，８３３，８４３号米国特許出願第１０／４１６，５３３号

それゆえ、撮影および撮像のためのシステムおよび方法に対する要望が広く認識されており、それらを有することは大きな利点となる。

本発明の１つの局面によると、画像データの３Ｄ表現のための装置であって、該装置は、前記画像データ内において運動中の構造を特定する構造特定器と、
前記構造特定器と関連づけられた骨格挿入部であって、３次元骨格要素が前記構造とともに移動することにより、前記画像データの運動および構造を３次元的に解釈させることができるように、該骨格要素と該構造とを関連づける骨格挿入部と、
を備える、装置が提供される。

本発明の第２の局面によると、画像データの３Ｄ表現のための方法であって、
前記画像データ内の構造を特定する工程と、
３次元骨格要素が前記構造とともに移動することにより、前記画像データを３次元的に解釈させることができるように、該骨格要素と該構造とを関連づける工程と、
を包含する、方法が提供される。

本発明の第３の局面によると、奥行き情報を用いて入力データを記録する記録装置であって、
前記画像データ内において運動中の構造を特定する構造特定器と、
前記構造特定器と関連づけられた骨格挿入部であって、３次元骨格要素が前記構造とともに移動することにより、前記画像データの運動および構造を３次元的に解釈させることができるように、該骨格要素と該構造とを関連づける骨格挿入部と、
前記入力データを前記骨格要素のうちの少なくとも１つおよび背景と関連して記録する記憶部と、
を備える、装置が提供される。

本発明の第４の局面によると、奥行き情報を用いて入力データを圧縮する圧縮装置であって、
前記画像データ内において運動中の構造を特定する構造特定器と、
前記構造特定器と関連づけられた骨格挿入部であって、３次元骨格要素が前記構造とともに移動することにより、前記画像データの運動および構造を３次元的に解釈させることができるように、該骨格要素と該構造とを関連づける骨格挿入部と、
前記入力データおよびその奥行き情報を提供するように、該入力データを前記骨格要素のうちの少なくとも１つおよび背景と関連して出力する圧縮部と、
を備える、装置が提供される。

本発明の第５の局面によると、奥行き情報を用いて入力データを記録する記録方法であって、
前記画像データ内において運動中の構造を特定する工程と、
３次元骨格要素が前記構造とともに移動することにより、前記画像データの運動および構造を３次元的に解釈させることができるように、該骨格要素と該構造とを関連づける工程と、
前記入力データを前記骨格要素のうちの少なくとも１つおよび背景と関連して記録する工程と、
を包含する、方法が提供される。

本発明の第６の局面によると、奥行き情報を用いて入力データを圧縮する圧縮方法であって、
前記画像データ内において運動中の構造を特定する工程と、
３次元骨格要素が前記構造とともに移動することにより、前記画像データの運動および構造を３次元的に解釈させることができるように、該骨格要素と該構造とを関連づける工程と、
前記入力データを圧縮し、その奥行き情報を提供するように、該入力データを前記骨格要素のうちの少なくとも１つおよび背景と関連して出力する工程と、
を包含する、方法。

特に別に定義しない限り、本明細書中において用いる全ての技術的および科学的用語は、本発明が属する分野の当業者に共通して理解されるものと同じ意味を有する。本明細書中において示される材料、方法、および例は、全て例示のみを目的とするものであり、限定を目的とするものではない。

本発明の方法およびシステムの実施は、選択された特定のタスクまたは工程を手動でまたは自動的に実行または完成すること、あるいはそれらの組み合わせを含む。さらに、本発明の方法およびシステムの好適な実施形態の実際の器具および機器によると、選択されたいくつかの工程は、任意のファームウェアのオペレーティングシステム上のハードウェアもしくはソフトウェアあるいはそれらの組み合わせによって実施することができる。例えば、ハードウェアについては、本発明の選択された工程をチップまたは回路として実施することができる。ソフトウェアについては、本発明の選択された工程を、任意の適切なオペレーティングシステムを用いてコンピュータにより実行される複数のソフトウェア命令として実施することができる。いずれの場合においても、本発明の方法およびシステムの選択された工程は、複数の命令を実行する計算プラットフォーム等のデータプロセッサによって行なわれるものとして説明することが可能である。

本明細書中において、本発明のほんの一例を添付の図面を参照して説明する。ここで特に図面を詳細に参照すると、提示した事項は一例であり、本発明の好適な実施形態の例示的な考察のみを目的とするものであり、かつ本発明の原理および概念的な側面の最も有効で容易に理解できると思われる説明を提供するために提示されていることを強調しておく。このため、本発明の基本的な理解を得るために必要である以上に詳細に本発明の構造内容を示してはおらず、図面とともに説明を参照することにより、当業者には、いくつかの形態において本発明がどのように実施されるのかが明らかとなる。

本発明の各実施形態は、時間に基づく実写画像のシーケンスを空間に基づく３次元（３Ｄ）モデルに変換し、３Ｄ実画像アニメーション、新たな時間に基づくシーケンス、画像処理操作、２Ｄ／３Ｄモーションキャプチャ等のリアルタイムおよび非リアルタイム用途を可能にする方法および装置を含む。

本発明の各実施形態は、２次元または部分的に３次元であるデータ内の構造を特定し、それらと３次元骨格または骨格要素とを関連づける。これらの骨格または骨格要素を元のデータとは別のレベルで適用することにより、それらのレベルを相互に投影して、画像データに正確な奥行き情報を与えることができるようにしてもよい。

本発明による方法および装置の原理および動作は、図面および付随する説明を参照することでより理解できる。

本発明の少なくとも１つの実施形態を詳細に説明する前に、本発明が、下記の説明に示したまたは図面に例示した構成要素の構造の詳細および構成に限定されるものではないことを理解されたい。本発明は、他の実施形態が可能であり、各種の方法で実践または実施することが可能である。また、本明細書中において用いる語句および用語は説明目的のものであり、限定を目的とするものではないことを理解されたい。

ここで、画像データに３次元的解釈を与える装置を示す簡略ブロック図である図３を参照する。この画像データは２次元または部分的に３次元である情報であり、上記解釈とは、３次元構造および３次元的な運動の統一的解釈である。

図３の装置は、画像データ内の構造を特定する構造特定器３０２を含む。下記でより詳細に考察するように、これらの構造は、人口知能を用いて自動的に特定するか、ユーザの入力により特定してもよく、またはそられの組み合わせにより特定されてもよい。

この装置は、上記固定構造特定器と関連づけられ、３次元骨格要素を画像データ内で特定された構造と関連づけるかまたはそれらに貼り付ける骨格挿入部３０４をさらに含む。骨格要素は、ブロック、チューブ、球体、楕円または任意の他の要素的もしくはより複雑な３次元的幾何学物体であってもよく、これらの要素は、それら自身を接合し、相互に貼り合せる能力を有する。この要素の３次元形状を上記のように特定した構造に持たせることで、骨格要素が上記構造と移動するか、あるいは混在することにより、当該構造の３次元的解釈を与えることができる。

すなわち、この骨格要素は既知の３次元構造を有しており、これは、Ｘ、ＹおよびＺ次元に延在することを意味する。この構造の移動は、ＸおよびＹ次元で見ることができ、Ｚ次元における構造の挙動の詳細は、骨格要素との関連から推測することができる。

構造特定器は、個々の構造だけでなく、相互に関連する構造から構成された複雑な物体も認識できることが好ましく、「相互に関係する」とは、それら構造間の運動関係が定義されていることを意味する。一例としては、前腕および上腕等の構造からなる人体が挙げられる。前腕は、上腕の端部を中心にして定義された方法で動くが、これは、本発明の各実施形態の骨格要素によってモデル化することができる。

そのような複雑な物体が画像データから認識された場合、骨格挿入部は、その複雑な物体について骨格要素間の運動関係が定義されている同様に複雑な骨格を構築しようと試みる。下記で説明するように、これを達成する１つの方法は、人体のような複雑な物体を認識し、必要な要素を有し、関係が予めプログラムされた骨格を予め設定することである。

このような予め記憶または設定した骨格を用いることで、構造および運動の両方を含む複雑な物体の３次元的側面を理解することが可能である。すなわち、画像内の３次元構造および運動は、特定された物体の演繹的知識から理解することができる。さらに、システム内において、骨格に基づいてそのオブジェクトの奥行き情報が分かる場合、画像の３次元処理に関する処理負荷を大きく低減することができる。

上記装置は、元の画像データ内の相対運動を分析して骨格挿入部３０４に運動関係に関する定義を与えることができる移動分析部３０６をさらに含んでもよい。この移動分析器は、画像を構成するピクセル集合内の構造を認識し、公知のトラッキング技術を用いてピクセルグループ内での運動を特定することができる。

骨格記憶部３０８は、認識された複雑な物体とともに使用するために予め設定された骨格を記憶する。この記憶部は、例えば、画像データ内で人間が認識されるたびに用いられる、予め設定された人間の骨格を記憶してもよい。

構造が予め設定された骨格を有さないと認識されると仮定する。この場合、骨格挿入部は、幾何学的要素を挿入することにより最初から骨格を形成しようと試みる。しかしながら、これらの幾何学的要素は、適合させる前に回転および変形することが必要な場合がある。それゆえ、画像データに適合するまで、選択した要素を回転させることが可能な回転部３１０、および様々な方法でその要素を変形させてデータに適合させることが可能な変形部３１２が提供される。これら回転および変形部は、ユーザによる入力を介して動作しても、自動的に動作してもよい。

骨格を適合させると、画像内の構造は３次元モデルとしてモデル化される。トラッキング部３１４は、最初の画像データ内の運動をトラッキングし、画像と共に骨格を移動させることができるため、その運動の３次元情報を得ることができる。骨格と画像データ間の投影処理を実行することができ、それによって、単一のカメラから３次元の運動情報を得ることができる。

アニメーション部３１６は、骨格を介して運動を適用し、一度モデル化した図形または他のオブジェクトをアニメーションにすることができる。

上記装置は、アプリケーションによっては、必ずしもトラッキング部およびアニメーション部の両方を必要としないことは言うまでもない。アニメーションアプリケーションは、通常、アニメーション部を有するが、トラッキング部はなくてもよく、一方で、ビデオキャプチャーアプリケーションは、トラッキング部を有するが、アニメーション部はなくてもよい。

描画部３１８は、トラッキング部およびアニメーション部のいずれかまたは両方に接続され、モデル化されている場面を要求された方向から観察するために描画する。すなわち、３Ｄデータを有することには、モデル化したオブジェクト等を、最初に画像を撮影した角度だけではなく、あらゆる角度から観察することが可能であるという利点がある。下記においてより詳細に説明するように、描画部は、３次元モデルを要求された観察方向で平面に投影してテクスチャ等を適用することを必要とするだけであり、所与の方向から場面を観察することが可能である。

次に、本発明の好適な実施形態による動きデータを含む３次元モデルを得る処理を示す簡略図である図４を参照する。

画像データを段階４０２において獲得するが、このデータは２Ｄデータであっても、部分的にもしくは完全に３Ｄデータであってもよい。データ内の要素を特定する。段階４０６において、骨格要素を、特定した構造要素と関連づけて挿入する。次いで、段階４０８において、特定した構造要素を適合させるために、骨格要素を回転、変換、サイズ調整する。変換は変形を含む。次いで、段階４１０において、利用可能な情報に応じて骨格要素間の移動関係を定義する。

ここで、人体等の複雑な物体が認識される場合について、図４のフローチャートの変形である図５を参照する。段階５０２において、初期データを再度取得する。上記複雑な物体をこの初期データから特定する。段階５０４において、適切な骨格をデータ記憶部から取り出し、段階５０６において、複雑な物体と関連づけて挿入する。次いで、段階５０８において、骨格を回転、変換またはサイズ調整する。変換は変形を含む。結果として、特定した構造と適合が必要な骨格要素とが適合する。上記図４のように骨格要素を複雑な物体に適合させるという試みにより、人体等の複雑な物体を特定し、複雑な骨格を適切に選択できることに留意されたい。

ここで、図４および図５の処理をモデル化されているオブジェクトの運動にまで拡張する図６を参照する。段階６０２〜６０８は、前述したとおりである。段階６１２は、３Ｄオブジェクトをモデル化する骨格を伴うため、オブジェクトの運動が骨格上に投影され、かつ／または骨格の運動が２Ｄ画像データ上に投影される。次いで、段階６１４では、任意の所望方向からの描画のために画像データが利用可能である。

ここで、本発明の好適な実施形態において画像データがどのようにして層構造で管理されるかを示す簡略図である図７を参照する。２次元または部分的もしくは完全な３次元画像データは、第１のレイヤ７０２に記憶される。３次元骨格は、下側レイヤ７０６に記憶される。３次元骨格の２次元投影は、それらの間の仮想レイヤ７０４に存在する。見かけ上は２次元的な画像は、レイヤ７０２の元の２Ｄ画像とは異なる方向から観察することができるが、これは３次元骨格をその方向に投影することによって可能となる。この投影は、仮想レイヤ７０４内に記憶される。

ここで、骨格要素の割り付けのために、初期データ内のオブジェクトおよび構造がどのように認識されるかを示す簡略図である図８を参照する。

２つの経路を示しているが、１つ目は、ユーザが要素、物体および複雑な物体を装置に示す手動経路（段階８０２）である。代替的な方法として、段階８０４、８０６および８０８で構成される自動経路を構造を特定するために設けることができる。

グループ分けおよび継続するか否かに関する決定は、単一の段階として見なすことができることは言うまでもない。一連の画像上の点またはピクセルを追跡し、共に移動する点を一まとめにする。このグループ分けの処理は、特定が確定するまで反復して繰り返される。

これら２つの処理の組み合わせを用いてもよいことにも留意されたい。例えば、ユーザは、いくつかの要素または１つの複雑な物体をシステムに提示してもよく、システムは、他の要素を自動的に特定するか、またはその複雑な物体内の個々の要素を特定する。

ここで、本発明の各実施形態を用いて運動を３次元的に推定する反復的性質を示す簡略図である図９を参照する。初期の２Ｄまたは部分的もしくは完全な３Ｄ画像内のピクセルをトラッキングする（段階９０２）。下側の骨格は、関連づけられた構造においてトラッキングされた点の動きに従って移動し（段階９０４）、段階９０６において、推定を行なって初期の画像内でのピクセルの３次元位置を判定する。段階９０４および９０６は同時に行なわれ、相互に影響を及ぼすため、図面内においては２本の矢印を用いて示していることに留意されたい。

本発明の好適な実施形態では、コンピュータにより生成された時間に基づく写真シーケンスを用いて、３つの３Ｄモデルを構築する。

初期データについての入力は、例えば、既に記録された公知のビデオ形式のいずれかで圧縮されたビデオクリップから、またはＵＳＢもしくは他の公知のデジタルまたはアナログ接続のいずれかを用いて直接接続された単一または複数のカメラから、実写画像またはビデオクリップを受信およびデジタル記録するモジュールによって行なわれてもよい。

図４および図５を再度参照して、初期データは、例えば、１つ以上の時間に基づく実写画像のシーケンスから取得してもよい。公知のビデオまたはフィルムシーケンスにより、観察者の脳内において運動について時間的な錯覚を引き起こす。

入力されたデータは分析される。この分析は、下記のアルゴリズムの項目で説明するように、入力シーケンスの奥行き地図の構築、時間に基づく各シーケンスの奥行き地図の作成、および奥行き地図の処理を伴うことが好ましい。

好適な実施形態では、本方法は、最終的に、実写画像５３０のシーケンスによってキャプチャされたオブジェクトの３Ｄモデルを生成する。

これらのモデルは、実際の画像または図形クリップ等から再構築されるが、この時、時間次元は、全ての図形および変化しない背景を３次元モデルとした空間次元に変換される。

これらの３Ｄモデルは、以前はコンピュータにより生成された３Ｄ仮想世界でのみ可能であった多くの操作を可能にし得る。

本発明の好適な実施形態では、個々の図形をシーケンス内で特定することができる。一度特定されると、これらは独立した３Ｄモデルに変換され得る。図形の移動は、シーケンス内の写真のタイミングと比較され、写真上での進行状態から図形の移動を対応させる根拠を提供することが可能である。さらに、各図形毎に時系列を個別に調整して、異なるイベントのシーケンスを提供することも可能である。このように、モデル化されている図形をモーフィングすることが可能である。

例えば、２人の人が通りを渡るシーケンスにおいて、人物Ａが人物Ｂよりも先に反対側に到達する場合、各図形を別々にモデル化しているため、個々の図形のタイミングを変更することが可能である。よって、人物Ｂが人物Ａよりも先に通りを渡るように決定し、実写されたシーケンスの元の時系列を変更することにより、そのシーケンスをモーフィングしてもよい。

上記装置により、ユーザは、生成された３Ｄ空間に基づくモデルに基づいて、媒体から異なる種類の出力を数種類作成することができる。ユーザは、作成された３Ｄ空間に基づくモデルを、外部画像処理、アニメーション、放送等の公知のプログラムのいずれかとともに用いるか、またはエディタ等の内部ツールを用いてもよい。そのようなエディタにより、ユーザは、主に、線形媒体および非線形媒体の２種類の出力を作成および編集することができる。線形媒体とは、時系列に基づく媒体を指し、特定の時間間隔で撮影された画像のシーケンスを意味する。ユーザは、自身が見せたいと思う時系列のイベントに基づいてクリップを作成することができる。さらに、それらの結果を、例えば、リアルタイムでのライブビデオ画像処理、ビデオクリップ、モーションキャプチャ、静止画像、ＤＶＤ、球形画像、２Ｄ画像、立体画像またはあらゆる公知のフォーマットを含む種々の表示フォーマットで出力することが可能である。

本発明の各実施形態の装置はまた、時系列されていない、すなわち、非線形媒体を作成することも可能である。そのような時系列化されていない出力としては、例えば、１組の画像、アニメーション、およびテキストを含む３Ｄ的な周囲環境が挙げられる。

本発明の各実施形態の装置は、この出力を３次元仮想環境として表す能力を与えるが、例えば、そのような環境において、ユーザは、選択したあらゆる経路を完全に辿ったり、あらゆる地点に到達することができ、その地点の周囲３６０度を見渡したり、あらゆる図形とインターアクトすること等が可能である。このような非線形的な出力として、コンピュータゲーム、医療手術シミュレータ、飛行シミュレータ等多くの例が挙げられる。

上記装置は、図３のアニメーション部３１６のようなアニメーションエディタを含んでもよい。アニメーションエディタ３１６は、ユーザが選択する全てのオブジェクトに生命を与えるツールであり、アニメーションエディタ３１６はまた、風に揺れる木または歩行する人物の姿などのオブジェクトに特定の動きを与え、さらに、その人物が歩く、または走る時にどのように振舞うか、怒ったまたは悲しい時に、どのような顔をし、どのように唇を動かすか等、固有の特徴を与える。アニメーションエディタはまた、外部ソースからのコンピュータアニメーションもしくはモーションキャプチャ、または上記装置のモーションキャプチャツールを用いて、予め定義された１組の動きをオブジェクトに与えてもよく、また、例えば、足を少し引きずったりすることや、額の皺等、各オブジェクトを特徴づける１組の運動および特徴を定義することができる。これらの運動は、図形の個性を作る上で役立つ特徴である。アニメーションエディタはまた、上記装置のモーションキャプチャツールを用いてオブジェクトの音声的な特徴を作ることも可能にし、これによって、オブジェクトを喋らせることも可能である。

このソフトウェアは、以下で説明および例示する方法およびアルゴリズムを用いることが好ましい。

３Ｄ空間に基づくモデル作成のさらなる詳細
本発明の好適な実施形態の基本構成は、コンピュータにより生成された３Ｄアクシスエンジンであり、この３Ｄアクシスエンジンに対応する３つのベクトル、および下記で説明する時空間ベクトルを用いる。

入力画像シーケンスＳは、この構成に入力される画像のシーケンスである。

好適な実施形態では、以下で示すようなアルゴリズムを実行してもよい。

シーケンスＳは、シーケンス内のＮｆ（ｓ）個のフレーム、例えば、ＰＡＬビデオ表示規格において２５フレーム／秒となるように分割される。

Ｓ０（第１シーケンス）の第１フレームはｓ（０，０）と示す（第１シーケンスの第２フレームはｓ（０，１）、最終フレームはｓ（０，ｎ）とする（⇒Ｎｆ（Ｓ０）＝ｎ＋１フレーム））。

多数のアンカー点を用いる。これらのアンカー点は２つの主要な要素を有するが、一方の要素はＳｉ（ただし、０≦ｉ≦シーケンス数）内の要素間の対応であり、他方の要素は、Ｓｉと、Ｆで示す３Ｄアクシスエンジン間の対応である。

入力、奥行き地図およびアンカー点
本発明の好適な実施形態によるアルゴリズムでは、入力としてＳ０を受け取り、その中の全てのシーケンスフレームを用いて、シーケンスの奥行き地図を生成してもよい。係数Ｄは、（下記で定義する）ｓ（０，０）の奥行きベクトルとして定義される。ｚがフレームｓ（０，０）からの異なるピクセルの奥行き値の組であると仮定する。ｓ（０，０）では、ｄ（０，０）は、ｚ０（ただし、ｚ０＝ｍｉｎ（ｚ））に等しい奥行き値を有するフレームからの点の集合である。ｄ（０，ｈ）は、ｚｈ（ただし、ｚｈ＝ｍａｘ（ｚ））に等しい奥行きを有するフレームからの点の集合である。｛ｚｉ│ｍｉｎ（ｚ／ｚｉ），ｉ＝０，．．．．，ｈ−１｝（ただし、ｚ／ｚｉは、ｚ０からｚ［ｉ−１］までの要素がない集合ｚを意味する）であるため、｛ｚ０，ｚ１，ｚ２，．．．．．，ｚｈ｝は、フレームＳ（０，０）⇒ベクトルＤ０の奥行きレイヤの集合であり、この集合は、下から上の順序で分類され、この集合内の数は、さらに説明するように、Ｆの分析係数に対するベクトルＤ０のレイヤであることは定義から明らかである。例えば、Ｄ０＝｛２，５，６，９，１３，５６，２２，８９｝であれば、｛ｚ０＝２，ｚ１＝５，ｚ２＝６，ｚ３＝９，ｚ４＝１３，ｚ５＝２２，ｚ６＝５６，ｚ７＝８９｝である。Ｄ０は、Ｓ（０，０）の奥行きベクトルであり、Ｄ０＝｛ｄ（０，０）、ｄ（０，１），．．．ｄ（０，ｈ）｝である。

フレームＳ（０，ｉ）のＤは、３Ｄマトリックスである。フレームＳ（０，ｉ）のＤは、２Ｄマスクマトリックスのベクトルである。ピクセルの奥行きｄ（ｉ，ｊ）が、なんらかの理由で定義されない場合、ｄ（ｉ，ｊ）＝無限大であり、ブーリアン２Ｄマトリックスでは０と定義する。

ただし、フレームからのピクセルの奥行き値ｄ（ｉ，ｊ）を、フレームＳ（０，ｉ）からの２Ｄ画像のデータにおいては定義できない場合、上記アルゴリズムは、同じシーケンスＳ（Ｓ（０，ｉ）を取るシーケンス）からの複数のフレームのデータを用いて定義しようと試みる。ｓ（０，０）の奥行き地図、またはその一部が、例えば、照明が不良であるために定義できない場合、ＳＰは、ｄ（０、０）、または定義した部分を、一時的に「∞」（無限大）として扱い、ｓ（０，１）．．．．ｓ（０，ｉ）Ｓｉ（ただし、０≦ｉ≦シーケンス数）を用いて、ｓ（０，０）を計算しようとする。

フレームｓ（Ｓ（０，ｉ）｜ｉ＝０，１，２，．．．，ｎ｝（∈Ｓ（シーケンス番号、フレーム番号））の奥行き地図を計算する場合、Ｄ０＝｛ｄ（０，０），ｄ（０，１），．．．ｄ（０，ｈ）｝（∈Ｄ（フレーム番号、奥行きｅｎｃ．点））である。ソフトウェアは、奥行き地図マトリックスの値の上限（奥行き値の集合の最大値）を探す。

ＳＰはまた、奥行き地図マトリックスの値の下限を探す。シーケンスＳ０のの奥行き地図の全てのフレーム処理が成功すると、ＳＰは、定義されたあらゆる時点において、シーケンスＳ０のアンカー点の上限および下限を探す。

ｓ（０，０）では、ｄ（０，０）が、奥行き方向において最も近い点である。ｓ（０，０）において奥行き方向で最も深い点をｄ（０，ｈ）で示す（Ｄ０∈｛ｄ（０，０），ｄ（０，１），．．．ｄ（０，ｈ）｝）。

係数Ｄは、アルゴリズム内の奥行きベクトルの集まりであり、いくつかのＤベクトルを用いて、画像の奥行き構造マップを関連づける加工ツールとしてデータを分析する。ＳＰ構造マップは、Ｆ内で展開されて静止した要素および移動する要素をモデル化し、要素の一部（例えば、手、足等）を表す新たなマトリックスを多数用いてＦ内に作られる。Ｄは、このベクトルに沿った各点が現在の奥行きで、対応する奥行き情報を含み、さらに、位相地図における高度線のように各点で切り取った奥行きの面をに沿って奥行き値を表すように構成される。

Ｄは３Ｄマトリックスであり、Ｄに沿ったＺ点毎に２Ｄブーリアン画像マトリックス（ｘ，ｙ）として構成され、各２Ｄ画像マトリックス（ｘ，ｙ）において「１」を示し、この情報のみが対応する奥行き点（Ｚ）における画像内に含まれる。

ビデオシーケンスＳ０のフレーム間の基準となるアンカー点を探すために、システムは以下のように進行する：
｛ｘ，ｙ，ｚ｝＝｛水平、垂直、奥行き｝＝｛（１，０，０），（０，１，０），（０，０，１）｝は、Ｆからの空間ベクトルであり、これを「世界座標系」と呼ぶ。

ここで、あるフレームＳ（０，ｔ）（ｔ＝任意の数）に着目すると、このフレームは、自身の局所座標系｛列の指数、行の指数、奥行き｝を有する。

このフレーム上のｋ番目のアンカー点について考える。フレームの局所座標系における位置は、（ｕ_ｔｋ＝ｉ，ｖ_ｔｋ＝ｊ，奥行き（ｉ，ｊ））である。

このフレーム局所座標系の範囲（基礎）は、世界座標系では、｛ｉ_ｔ，ｊ_ｔ，ｋ_ｔ｝である（ただし、ｉ_ｔ，ｊ_ｔ，ｋ_ｔ＝（ｉ_ｔ×ｊ_ｔ）は、世界座標系のベクトルである）。

フレーム局所座標系では、ｉ_ｔは（１，０，０）であり、ｊ_ｔは（０，１，０）であり、ｋ_ｔ＝（０，０，１）である。

ビデオシーケンスＳ０のフレーム間の基準となるアンカー点を見つけるために、システムは、各フレーム（Ｓ（０，０），Ｓ（０，１．．．Ｓ（０，ｎ）を、フィールドＦより上のベクトル空間Ｓ０の（ベクトル空間自体である）部分空間として扱う。システムは、ベクトルの基礎Ｗ０∈Ｓ（０，０）を計算する（ただし、Ｗ０の範囲（Ｗ０＝Ｓｐ｛ｗ１，ｗ２，．．ｗｍ｝）は、部分空間Ｓ（０，０）上に広がる。各部分空間毎に異なる基礎がいくつか存在し得るが、各基数の範囲はＷ０上を広がり、ベクトルの基礎ベクトルの役割は、数学の分野で公知のものと同様である。これらのベクトルは、部分空間Ｗ（０，０）∈Ｓ（０，０）を作成する。

奥行きの位置合わせ
画像の背景等の固定されたオブジェクトの奥行きの位置合わせは、２段階で行なわれる。第１の段階では、システムは、ベクトルの基礎Ｗ（０，０）を見つける（ただし、Ｓｐ（ｗ１，．．ｗｍ）＝Ｗ（０，０）∈Ｓ（０，０））。位置合わせを速く行なうために、システムは、ベクトルの基礎Ｗ（０，０）から水平、垂直、奥行き、空間／時間ベクトルの４つの基準ベクトルを作成する。

第１のベクトルＺ∈Ｓ（０，０）は、各点の基礎ベクトル数ｄ０∈Ｓ（０，０）を反映しており、フレーム内の基礎ベクトルの奥行き情報を表すＺベクトルを作成する。Ｚの中点をｄ（ａｎｃ）とも表し、これはフレーム自体の中点である。

ｄ_{（ａｎｃ１）}＝ｄ_{（０，０）}+ｄ_{（０，ｍ）}／２

ｄ（ａｎｃ）は、システムが一時的に０点軸ＸＹＺ∈Ｆとして示す点とすることができる。水平および垂直ベクトルは、Ｚベクトルに沿った画像マトリックスの水平および垂直方向の各点のベクトルを表す。第４の基準ベクトルは、時間次元から空間次元への変換ベクトルとして用いられる空間／時間ベクトルである。この時点で、システムは、Ｓ（０，０）とＳ(０，１)の間で用いる位置合わせのための３つの基準ベクトルを作成しており、これらをＤ’として統合している。

フレーム間の誤差は、例えば、照明係数、フレーム内を移動する要素、およびカメラの動向（例えば、寄せ／引き、左寄せ／右寄せ、上／下方向移動、上／下方向への傾け、左／右パンおよびズームが挙げられる（光学またはデジタル写真に関しては、インチ毎のピクセル量に誤差が見られ、デジタルズームではより低くなる））。フレーム間での誤差の変化は、大抵の場合、ピクセルの位置として見られるため、フレーム間でのなんらかのピクセルの移動が見られ、ＳＰ１は、Ｓ０のフレームの３つの基準ベクトルを空間／時間ベクトルの関数として計算する。３つの対応するベクトルは、画像の３Ｄに関する位置合わせのために構築され、垂直および水平ベクトルは空間窓（Ｘ，Ｙ）に対応し、Ｚベクトルは奥行きベクトルに対応する。

空間（Ｘ，Ｙ）ベクトル内の各係数は、画像の各点におけるＺベクトルに沿った空間領域内の画像の基礎ベクトルを反映する。

マッチング関数は、誤差がゼロか、またはできるだけ多くの点において誤差をゼロとすることを目的として、最大でも画像１のベクトルＶ（ｈ０／ｖ０／ｚ０）と画像２のベクトルＶ（ｈ１／ｖ１／ｚ１）の間の所定の最小点とする傾向がある。ベクトルの統合された部分の位置合わせに関して、両方のベクトルのそれぞれの両端では、フレーム間における相違点は一致しないことがある。これらの相違点は、新たなフレームに加えてもよいが、先行するフレームには現れない異なる情報を参照する場合がある。

Ｖ’０∈Ｖ０∈Ｖ０∩Ｖ１
Ｖ’１∈Ｖ１∈Ｖ０∩Ｖ１
これら３つのベクトルは、画像の３次元位置情報の結果であり、視覚情報情報とは関係なく、各点における画像の基礎ベクトルを表す。

好ましくは、水平、垂直、および奥行きベクトルは、できる限り多くの点において最小の誤差をみつけるために、個別に各ベクトルと比較される。

フレーム間の相違点は一致しない場合がある。これらの不一致は、あるフレームにおいて、先行するフレームでは見られない異なる情報が現れることを示すことがある。

変形およびカメラの動きへの対処
カメラのレンズ等の光学要素は、実写画像に変形を生じさせ、同じオブジェクトが変形することにより奥行き地図内に微細な誤差を生じることがある。

ここで、２つの画像を示し、カメラが動くことによって生じる変形について例示する図１４を参照する。

第１のフレーム１４０１では、石柱１４０３がフレームの中心に見られる。第２のフレーム１４０５では、同じ柱１４０３がフレームの右側に位置する。ここでは、光学処理の結果、なんらかの変形が生じ、奥行き地図は、これらの変形による微細な誤差を生じる場合がある。これによって、位置合わせされた画像に対する最終的な結果としてなんらかの途切れが生じるが、この途切れはこれらの変形によるものである。換言すれば、ブロック構造が、フレームの中心から横に移動する際に光学的な理由により変化するように見える。

解決策としては、所与のオブジェクトが比較的にフレームの中央に位置するものをそのオブジェクトの最良の画像として特定することである。ピクセルは、この最も正確な測定により得られた３Ｄ位置を受け取る。

Ｚベクトルを位置合わせするときには、画像間のズーム係数（光学またはデジタル）に誤差を生じることもある（すなわち、カメラの「寄せ」または「引き」による）。

フレーム間のカメラの移動が少なくなるほど、ベクトル間の相関度が高くなり、より良好な結果が得られる。画像間の誤差が大きくなるほど、ベクトル間の相関度が低くなる。ＳＰは、そのずれに対して閾値を設定し、より大きな誤差を有する場所を異なるオブジェクトに関するものと見なす。

水平、垂直および奥行きベクトルの統合部分の位置合わせ後：
Ｖ’ｈ／ｖ（０）∈Ｖｈ／ｖ（０）∈Ｖｈ／ｖ（０）∩Ｖｈ／ｖ（１）、
Ｖ’ｈ／ｖ（１）∈Ｖｈ／ｖ（１）∈Ｖｈ／ｖ（０）∩Ｖｈ／ｖ（１）
Ｖ’ｚ０∈Ｖｚ０∈Ｖｚ０∩Ｖｚ１
Ｖ’ｚ１∈Ｖｚ１∈Ｖｚ０∩Ｖｚ１

この時には、統合部分を部分空間として扱い、ベクトルをこの部分空間基準として再計算する。Ｆフィールドに関して「スカラー」係数を用いてベクトルを計算することによりズーム係数を考慮するが、スカラーによってベクトルを乗算するかまたは除算することにより、カメラのズーム／寄せまたは引きを模倣し、フレーム内の要素間の関係は同じに保つが、分解能が異なる場合がある。スカラーの力を借りることにより、ベクトルＳ（０，０）およびＳ（０，１）を位置合わせすることができる。この処理によって、画像の位置合わせをするとともに、次のフレームの位置合わせ方向を示すこともできる。空間／時間ベクトルは、時間領域から空間領域への変換に関連し、ここでは、新たな位置合わせを統合フレーム∈Ｆとして見なし、この先行する統合フレームと次のフレームとを位置合わせする。これはまた、特に複数のフレームがすでに位置合わせされたエリアを繰り返す場合に計算量を低減することができる。空間／時間ベクトルは、時間次元から空間次元への変換のための基準ベクトルである。

奥行き情報の不一致への対処
奥行き情報に不一致が生じた場合、上記装置は、Ｆ１で示すような新たなベクトル平面を開くことが好ましい。この新たな平面は、このアルゴリズムの処理が最初から開始される空のＸＹＺ座標系である。

そのような処理の最後に、システムのユーザは、Ｆ０およびＦ１を異なる位置のままにするか、またはそれらの位置合わせを行ないたいかを問われる。次いで、ユーザは、それら２つの構造を手動で位置合わせするために回転、ズーム、反転等のツールを用いて、Ｆ０およびＦ１を手動で位置合わせしたいか問われる（あるいは、ユーザは、システムにＦ０およびＦ１を自動で位置合わせするように指示してもよい）。

ユーザがＦ０およびＦ１を手動で位置合わせした後、システムにこの位置合わせを計算するように指示し、システムは、位置合わせアルゴリズムを用いてフィールドを位置合わせしようと試みる。フィールドが上手く位置合わせされると、システムはその旨を伝えるが、そうでなければ、ＳＰは、ユーザに、位置合わせずれ係数の基準をより低く設定（より精度の低い位置合わせ）するように問う。システムは、さらに、ユーザに、公知の画像処理ツールを用いて画像平面内の途切れを直すためのツールボックスを用意する。

ＳＰ分解能
システム１は、「Ｆ０」（ＸＹＺ軸のフィールド）サインの一時的な分解能を「Ｒ０」と定義する。Ｒは、インチ毎の基準点の数によって定義される。この分解能は、時間次元におけるピクセルに関する画像分解能の組み合わせ係数、空間次元における奥行き点の組み合わせ係数の結果である。分解能ツールは、例えば、異なる距離から同じ位置を撮影した２つのビデオクリップの位置合わせに役立つ。

例えば、テーブルは、テーブルの部品間（例えば、１本の脚から次の脚まで）により多くの基準点が存在し得る高分解能クリップで撮影されるか、またはより分解能の低い第２のクリップと比較してより近い位置から撮影されるか、あるいはデジタルズームを用いるかもしくは基準点の数が少なくなるより離れた距離から撮影される。

分解能の問題に対処するための基準点は、現実の位置に対する各ピクセルの３Ｄ位置である。よって、空間次元におけるピクセルの３Ｄ位置は、時間次元からの変換後の計算された位置である。この分解能により、Ｄ０とＳ０とを対応させることができる。Ｄ０＝ｄ０（ａｎｃ）の中点は、点（０，０，０）∈（ＸＹＺ）∈Ｆ０において軸フィールドの中心に一時的に置かれる。

基準点の視覚情報は、下記でさらに説明するように、Ｆ０において、情報の視覚レイヤとしてレイヤ化される。

移動する要素の特定および再構築
移動する要素が画像に現れる場合。骨格は、移動する図形要素からなり、移動する要素の非常に正確な３Ｄ形状モデルを構築し、そのモーションキャプチャを保存し、実写された視覚情報をその３Ｄモデルに貼りつけるように、それらの相対的位置および移動パターンを定義する。システムは、特定および再構築処理の自動化を可能にする。

まず、システムは、データ画像シーケンス内に移動する要素を有することを学習する必要がある。次の段階は、予め分類されたか、またはユーザによって定義された骨格要素を用いてデータ画像内の要素を特定することである。最後に、システムは、所定の３Ｄ構造および骨格を用いて要素の３Ｄ構造の再構築を実行するか、またはシステムは、徐々に作られた独立した新たな３Ｄ構造を要素の特徴に基づいて作成する。

カメラに対して背景とは異なる情報を付加する移動要素は、風に揺れる木またはフレームを横切った後向きを変えて、フレームの反対側から出て行く人物等、時間の経過につれて僅かな情報を付加する半固定オブジェクトとすることができる。

上述したように、システムは、まず、シーケンス内に移動するオブジェクトを有することを学習する。次に、システムは、１組の所定の３Ｄ要素または骨格を用いてこのオブジェクトを特定する。あるいは、ユーザが、骨格または要素を定義してその図形に貼りつけてもよい。

次いで、システムは、所定の３Ｄ要素もしくは骨格、または新たなユーザが定義した要素を用いて、その図形の３Ｄ構造を構築する。

フレーム内に移動する要素が存在することを特定するために、システムは、空間および時間に関して、シーケンス内に奥行きピクセルの途切れを探す。すなわち、空間次元におけるカメラおよび背景に対するＳ０の固定点との一貫性はないが、その情報を時間次元に関して変更するある特定の３Ｄ構造がＳ０に存在することがある。

換言すれば、時間の経過につれて空間的な位置ずれが存在する。例えば、右側に移動するカメラを用いてテーブルを撮影する場合、テーブルは、まず、フレームの右側に現れ、次いで、フレームの左側に向かって移動する。

情報が時間次元に関して変化するテーブルの前に３Ｄ要素が存在する場合、システムは、フレーム内に移動するオブジェクトが存在すると結論づけることがある。システムは、その移動する要素の３Ｄモデルを再構築するが、そこでは、テーブルは静止した要素である。

次元に基づく画像処理における３Ｄ要素の生成のために、マッチングベクトルを、着目する要素の周囲の領域から構築するこができる。

Ｎ×Ｍ×Ｚの大きさの矩形ウインドーを選択することができるため、３Ｄマトリックスとすることができる。ＮおよびＭは、ウインドーの空間サイズであり、Ｚは奥行き寸法である。第４のベクトルを与えて、要素またはオブジェクト次元の時間次元から空間次元への変換を定義し、３Ｄ要素および図形の構築に導くことができる。時間および空間次元の両方において要素をマッチングすることにより、要素またはオブジェクトごとに個別に作る事が可能な対応する３Ｄ構造マップに沿った全ての点について一貫性のあるマッチングが可能である。

本発明の各実施形態のアルゴリズムは、３Ｄ情報構造の２Ｄ画像上への投影に基づいて、背景および完全な３Ｄ環境に関してフレーム内の移動する要素のトラッキングに役立つ。

要素の特定
画像データから現在の要素を特定することは、１組の予め分類された３Ｄ構造を活用して実行される。システムは、当該要素またはその一部の形式を決定することから全体構造の特定までの工程を行ない、また、ユーザが新たな構造を構築する際に役立つ。

システムは、球状、箱型、パイプ状等の単純な３Ｄ形状３Ｄモデルから始まり固定および非固定物体の完全な骨格に至るまでの骨格要素に関する１組の３Ｄ構造を含むデータベースを備えていてもよい。骨格は、例えば、車から、動物や図１２に示すような人間の骨格に至るまでを特定し、モデル化するための矩形領域とすることができる。

骨格は、３つの重要な要素を含む複雑な３Ｄデータ構造である：
１．骨格の物理的集合（すなわち、構成する骨格要素の形状および相関関係）
２．入力された３Ｄ情報に従った骨格の形状情報
３．物体の物理構造（骨、筋肉、関節等）および物体の物理的動向等の内部情報の組み込み

上記３つの側面は、本発明の各実施形態のアルゴリズムによる特定および再構築処理に必要である。

１．骨格の集合とは、骨格の構造形態を取り、その部品からシステムが骨格要素を理解し、当該物体または新たな物体をユーザの要求により組み立てることができるように物体の部品の最小単位まで定義するものを意味する。

例えば、人間の腕は、３Ｄ的な円筒形状に基づいており、関節を介して、手を表し得る別の円筒と接続され得る。他の例では、頭部は、３Ｄ的な球形の単純な図形を元にして、首を表し得る関節に接続され得る。この首は、次に、胴体を表し得る大きな円筒に接続される。骨格の部品の異なる物理的動向および人間、動物等の個々の要素の物理的動向を組み込んで、当該基本構成を再構築することにより、システムが図形を特定、再構築する際に役立つ。

２．入力された３Ｄ入力に従って骨格を形作る能力は、その一部が変形する骨格を示す図１３に関して後述するように、特定処理および再構築処理において用いられる。

３．物体の物理的構造（骨、筋肉、関節等）およびその物理的動向等の内部情報は、以下で説明するように、特定処理および再構築処理において用いられる。

３Ｄ構造および骨格の組を用いて、システムは要素の特定を行なう。この処理は、自動的に行なうか、または図８に示すようにユーザによって手動で行なうことができ、当該要素をシステムに対して特定し、内部骨格を図形に貼りつけるか、または新たな構造を作ることを伴う。

移動するオブジェクトがフレームのシーケンスに位置するとき、システムは、それを特定して、以前に定義された骨格要素の組から選択された１組のマッチング用骨格要素、または好ましくはシステムにより与えられた１組のツールを用いてユーザが移動するオブジェクトについて定義した特定の骨格に貼りつけようと試みる。好ましくは、貼りつけられた骨格要素は、自動的に、移動するオブジェクトのサイズ、形状および移動パターンに合わせて調整され、移動するオブジェクトをサイズ、形状および移動パターンに関して適合させる。システムは、適切に重ねられたテクスチャを用いて骨格要素の組を完成する。

本発明の好適な実施形態では、システムは、移動するオブジェクトを、所望する任意の視点の２Ｄ平面上において推測するツールをさらに提供する。

３Ｄ構造に基づく位置合わせの性質を利用することにより、異なるビデオシーケンス間、異なる縮尺（ズーム）、異なる検知方法（ＩＲおよび可視光線カメラ）におけるマッチング等、様々な状況において情報をマッチングすることができる。

移動するオブジェクトから要素の３Ｄ構造を生成することは、システムが異なるシーケンス間の外見上の誤差を処理する際に役立つ基本的要素である。

１つの要素は、円筒で構成された基本骨格に貼りつけ、関節は腕、足および体に貼りつけ、球状の要素は頭部に貼りつけて、奥行きの位置合わせにより、３Ｄ要素構造の生成および３Ｄ図形の基本骨格の物理的動向、腕、体、足に対する円筒の長さおよび厚さ、頭部に貼りつけた球状要素のサイズ等の相互関連づけに新たな情報を加えてもよい。

これらの個別の円筒および球状要素から完全な３Ｄ図形を構築することにより、それらの相互の動向（それらがどのように相互に貼りつけられるか、または移動するか）が表される。この段階では、システムは、どのような種類の要素に直面するかを判定したり、その要素が何であるかを判定できないと決定し、ユーザに当該図形を判定する手助けを求めるか、またはユーザが所定の図形の基本的な組にはない新たな構造を形成してもよい。

上述したように、ソフトウェアは、移動するオブジェクトの構造を、その奥行き情報を用いてできる限り特定しようとする。以前に定義された３Ｄ要素の組を活用して、ソフトウェアは、視覚情報に存在しないものがあったとしても、オブジェクト部品の形態を１つずつ判定して完全な構造を完成する。

第１の工程は、オブジェクトを特定し、その基本形態を判定することである。次いで、システムは、それをできる限り完成しようと試みる。

その基本形態を用いて、空間領域および奥行き領域における要素について学習することが可能である。ＳＰは、１組の３Ｄ骨格要素（球状、箱型、パイプ等）を用いて、オブジェクトの詳細を再構築しようとする。

単一のカメラを用いた移動する要素の３Ｄ構造マップ
システムは、１つの画像の完全な奥行き３Ｄマップを受け取ってもよい。移動する要素を含む画像の奥行き地図を構築するための公知のアルゴリズムが存在する。例えば、空間時間立体アルゴリズムを用いた奥行き構造マップは、少なくとも２つのカメラを利用する。

例えば、単一のカメラで空間時間立体アルゴリズムを用いて静止した背景画像の奥行き地図を構築する公知のアルゴリズムが存在する。

１つのカメラを用いて、また奥行き地図を推測することなくビデオシーケンスから静止したモデルを生成する公知のアルゴリズムが存在する。

本アルゴリズムは、上述したように、単一のカメラを用いて移動する要素の奥行き地図を推測するために用いることができる。

移動する要素の奥行き値の構築のために、システムは、公知のアルゴリズムを用いて静止した固定背景の予め獲得した奥行き値を用いてもよく、基準点を用いて、移動する要素をその背景に対して独立した４Ｄマトリックスとして参照してもよい。

２Ｄ画像平面上に３Ｄ情報構造（予め作成された３Ｄ骨格等）を投影することにより、奥行き軸に関する各フレームにおいて、移動する要素のトラッキングに役立つ。３Ｄ空間への２Ｄ画像平面の投影に加えて、要素の奥行き地図を生成する能力が与えられる。骨格および器官の貼りつけにより、画像を奥行き地図に適合させ、合成により任意のオブジェクトをコピーし、その運動をキャプチャする。後者の処理は、要素のテクスチャを再構築された骨格上に重ね、下記においてさらに説明する再構築処理を完成することをさらに伴ってもよい。

このようにして、本方法は、フレーム内で移動する要素の３Ｄマップの生成を行なう。

奥行き推測の第１の工程は、各フレームの各ピクセルの２Ｄ位置をトラッキングし、ピクセルごとに軌跡を作成することである。

このトラッキングは、公知のトラッキングアルゴリズムを用いて行なわれる。

前述したように、２つの画像上において時間次元に沿った同じピクセルを見つけるための受動的方法は、ピクセルの色、階調、輝度、および陰影の調整を用いて、２つのフレームにおいて時間軸に沿った同じピクセルを突き止める。

本トラッキングアルゴリズムは、時間における２Ｄ画像平面では、特定に役立つ投影パターンを有さないため、時間の経過につれて誤りを収集する傾向にある。

上記の見解は、上述した奥行き推測アルゴリズムを実行して、１つのカメラから、情報（現れる体の後ろ側にある手、照明の変化等）が隠れている、移動する３Ｄ要素の映画クリップにおいて同じピクチャまたはピクセルをトラッキングしようとする場合特に正しい。背景と一致しないピクセルの独立した動きにより、１つのフレームから次の数フレームまで誤ったトラッキング点を見つける等の問題が生じる。さらに、１つのカメラを単一の角度で用いることは、カメラが同時に起こる光景を完全に捉えない点で不利である。人物を撮像する際には、人物は、通常、２本の足、および２つの手を有する。しかしながら、２Ｄに基づくトラッキング技術では、いくつかのフレームにおいてカメラの角度から隠れており、連続性がなく突然（再度）現れる１人の人物の足または手を識別できないことが多い。（）よって、２Ｄにおけるトラッキングは複雑で困難となり、そのような２Ｄトラッキングから奥行き値を推測しても、実際の奥行き地図を得ることはできない。

しかしながら、３Ｄ骨格を２Ｄ画像平面上に投影されたデータ構造として用いる場合、各フレームは、３Ｄデータ構造の２Ｄ投影である一方、例えば、手、左足、右足等の体の器官が特定された２Ｄデータ構造の３Ｄ投影となる。

結果として、トラッキングの間違いが発生しなくなる。骨格の３Ｄ姿勢は時間軸に沿って２Ｄ平面上に投影されるため、３Ｄ投影から各フレーム内に新たなトラッキング点が無限に存在する正確なトラッキングを行いことで、システムは、３Ｄ物体の隠れた部分がどの部分であるのか、それらが３Ｄ空間のどこにあるのかを知る。システムは、それらの要求された部分が元の２Ｄ画像において現時点で見られない場合でも、３Ｄ部品を要求された任意の２Ｄ画像平面上に単に投影してもよい。

所定の３Ｄ骨格が、２Ｄ画像平面上に投影される。システムは、図７に関して上述したように、影のような画像を情報のさらなるレイヤに効果的に作成する。この情報のさらなるレイヤは、トラッキングする必要がある画像の一部を直接探しあて、すぐにそれらの誤りを切り取り、それらが広がることを妨げる。このような段階により、固定および非固定要素の両方を含む歩行者等、移動する要素の奥行きのトラッキングおよび推測が可能になる。３Ｄ骨格は、次いで、すでにトラッキングされた運動中の２Ｄ要素の３Ｄ奥行き地図を推測するために用いられてもよい。３Ｄ骨格上に位置する無限の点を用いて、基準点を用いた２Ｄ画像内の時間に沿ったピクセルの軌跡を生じることは、上記で参照した４Ｄマトリックスが２Ｄ空間に対する３Ｄ空間またはその逆の投影点として要素を囲むことを可能にする。このようにして、システムは、時間に沿った三角測量法および３Ｄ骨格データ構造を用いた点の３Ｄトラッキングを用いて、必要とされる正確な超分解能の生成を各フレーム内を移動する要素の奥行き地図情報により行なうことが可能である。一例として、ワークフローは、以下のように進行する：
Ｍが２Ｄ（Ｘ，Ｙ）ピクセルのＲ．Ｇ．Ｂマトリックスであるとすると、
ｎ−フレーム数、
Ａ−背景に対して移動する要素、
Ｂ−影のようなレイヤ、グレースケール「影」図形の２Ｄマトリックス、
Ｑ−閾値が定義された各フレームの特徴点、
Ｔ−軌跡（Ｑの２Ｄ点位置ベクトル）、
δ−Ｑに関するＴの推移関数、
Ｋ−Ｑが有するフレーム数（＝Ｔの長さ）、
Ｚ−３Ｄ推測。

よって、入力は、ｎ個のフレームの「Ｍ」である。システムは、本明細書中の各所で説明しているように、移動する要素を特定し、次いで、位置合わせ処理Ｆ（ｂ）←Ｇ（Ａ）、Ａに関する３Ｄ骨格の２Ｄ投影Ｂが行なわれる。位置合わせは、変更可能な初期定義された閾値のためのものである。

処理は継続され、Ｑを検索およびトラッキングすることにより、各ＱのＴを作成するが、ここで、δはδ（ｆ（ａ，ｂ）ｉであり、ｑｉ＋１）は軌跡ベクトルの関数である。トラッキングにより、画像ａおよび影ｂ上においてフレームｉ内の特徴Ｑｊの位置を突き止め、（ｋ個の）フレームに関して、フレームｉ＋１等においてその位置を付加する。Ｉ＋１内の新たな点を画像Ｂに貼りつけ、このフレームｉ＋１に関する新たな情報により、画像Ｂを画像Ａの動きに応じて移動させることが可能になる。よって、Ｂ内の足はＡ内の足の後を追う。次いで、この処理は、新たなフレームの各々に正確に位置する無限数のＱを新たに受け取る。各Ｔについて、Ｚを推測し、出力は、移動する要素の正確な超分解能奥行き地図となる。

次いで、ｔ、ｔ＋１等において要素を囲む４Ｄマトリックスからの基準点を用いて
Ｚ次元が推測してもよい。これは、カメラの運動、および背景に対する焦点について行なってもよい。次いで、基準点からの光線により、以下の計算が可能となる：
３Ｄデータ構造に関する２Ｄ変換、
ピクセルの２Ｄデータ構造に関する３Ｄ変換、または三角測量法によるＺの推測もしくはピクセルの３Ｄ位置のトラッキングのための特徴点、または
単一のカメラのビデオクリップから、移動する要素の正確な超分解能奥行き地図を作成するための特徴点。

奥行き推測処理は、例えば、以下のようにすることが可能である。
｛ａ，ｂ，ｃ，．．．．｝が既知の３Ｄ座標の３Ｄ基準点であると仮定する。
ｔは、（見つけたい３Ｄ座標を有する）時間「ｔ」における要素の３Ｄ点（ピクセルまたは特徴）であり、
「ｔ＋１」は、時間「ｔ＋１」で同じ３Ｄ点である（これについても３Ｄ座標を求めることが望まれる）。

基準点からｔおよびｔ＋１への投影光線により、三角形［ｔ＋１ｔ，ａ］，［ｔ＋１，ｔ，ｂ］，［ｔ＋１，ｔ，ｃ］，．．．．が作成される。

各三角形において、その基準点の３Ｄ座標は既知である。未知のものが６つ存在する（各三角形は未知の座標｛ｔ，ｔ＋１｝で構成され、ｔ，ｔ＋１は３Ｄ点である）。

３Ｄ空間では、全ての三角形が「ｔ」と「ｔ＋１」の間に同じ距離を有する必要がある。この等式システムを解くことにより、各ピクセルのｔおよびｔ＋１または各フレーム内の各Ｑの特徴を見つけ、画像平面上の三角形の２Ｄ投影から、三角形の３Ｄ座標を計算する。

運動中の要素の３Ｄ構造マップを縮小することにより、システムが要素の３Ｄモデルをさらに完全に再構築し、異なるシーケンス間の３Ｄ形状を再生し、異なるシーケンス間の外見上の相違を処理することに役立つ。

３Ｄ再構築
以下、３Ｄ奥行き地図上への３Ｄ骨格の投影および３ＤＳＰ空間への奥行き地図の投影を用いながら、奥行き地図形成に適合する骨格器官を貼りつけ、合成によるコピー、およびその運動をキャプチャして、要素のモデルを作成することに関して説明する。最後の処理は、要素のテクスチャを再構築した骨格上に重ねることにより、さらに説明するように再構築処理を完成させることである。

本方法は、フレーム内を移動する要素の３Ｄモデルの作成を可能にする。

本アルゴリズムは、概念的には空間に基づくものである。２Ｄ画像平面上への３Ｄ情報の投影により、３Ｄ情報の推測を可能にする一方、空間次元に基づくアルゴリズムを用いて、その３Ｄ奥行き地図とともに２Ｄ世界を空間に基づく３Ｄ世界に投影する。

上記で参照した運動中の要素の周囲に選択されたＮ×Ｍ×Ｚウインドーは、実際には、（４Ｄマトリックスになる）３Ｄマトリックスであり、ユーザが予め定義された３Ｄ図形の内部骨格または部品（円筒、接続部等）を貼りつけることができる新たな（ＸＹＺ）軸フィールド「ｆ」である。

奥行き推測の処理はまた、各ピクセルおよびフレーム間の特徴的な動きを特定し、時間の経過とともにピクセルおよび特徴の２Ｄ運動フローを作成することを含む。システムは、２Ｄ運動フローを３Ｄ運動フローに変換する。

Ｓ（０）の３Ｄ奥行き構造マップ、または奥行き推測の処理中において説明されるように１組みの３Ｄ軌跡を考慮すると、システムは、再構築アルゴリズムを用いて各フレームの係数Ｄ間（および統合されたフレーム）を、時間の経過とともに内部に貼りつけられた骨格（それ自身の係数Ｄ’）と対応付けることにより、内部骨格の割合を定義、構築し、上記で参照した第４のベクトルを用いて空間および時間次元に関して３Ｄマトリックスを４Ｄマトリックスに変換する（すなわち、空間と時間の間の変換）。

奥行き推測および再構築の処理は、直感的には、３Ｄ構造の２Ｄ的反映が２Ｄ画像マトリックスの下でレイヤー化される層状の機構である。この３Ｄ構造自体は、フレーム内の要素の合成的な３Ｄ再構築を行うために用いられる３Ｄ構造の２Ｄ的反映の下でレイヤー化される。この３層構造は、図７に関して上述したとおりである。空間次元の下で作用することにより、本明細書中において説明するように、３Ｄ構造およびテクスチャの再構築をして、要素の運動を確保することさえ可能であるが、ここで、出力は、フレーム内の要素のモーションキャプチャを３Ｄモデル化したものである。また、これに関しては、出力は、特定の２Ｄ投影とすることもできる。

移動する要素の再構築処理について、システムは、完全な３Ｄ構造奥行き地図を作成するか、または移動する要素の完全な３Ｄ構造奥行き地図を受け取ってもよい。この固定された周囲環境は、前述したように、移動する要素とは個別にモデル化される。

本発明の各実施形態は、運動中の人間等の２Ｄ物体を、元の２Ｄまたは部分的な３Ｄ画像から３Ｄモデルへと完全な３Ｄ超分解能で再構築することを可能にする。この処理はまた、内部３Ｄ骨格に基づいて構築された３Ｄ構造テクスチャおよび運動をキャプチャすることを伴う。骨格は、完全な骨格物理データベースを用いて、完全な内部の骨および筋肉によって作ってもよい。システムにより、例えば、アニメーション、モーションキャプチャ、リアルタイムモデル化等、３Ｄ再構成モデルに関する無限の操作が可能になる。図１２は、個々の骨格要素から作った完全な解剖学モデルを示す。

投影は、基準点を用いた背景に対する要素の周囲の４Ｄマトリックスによる、画像および物体の３Ｄ奥行き地図を用いて行われる。

図８に関して上記で説明したように、要素は、前述したように自動での特定または手動での特定を行い、３Ｄ奥行き地図への３Ｄ骨格またはその部品の貼りつけを用いて特定される。システムは、３Ｄデータ構造、すなわち、３Ｄ骨格を３Ｄ奥行き地図に投影する。

フレーム上での要素の３Ｄ的な動きのトラッキングは、ピクセルおよび軌跡のＤＴＭ光学フローに基づく。トラッキングにより、要素の３Ｄ形成に関してできる限り多くの３Ｄ情報を学習することができ、奥行き地図上に骨格の３Ｄ構造を補間することにより、その３Ｄ形成を獲得する。画像内の要素をできる限り正確に提供するように骨格の３Ｄ構造を設計するために、骨格の３Ｄ構造は、時間の経過とともに学習した要素の情報を保存する。

例えば、実写した人について考察する。第１の段階は、骨格をそのオブジェクトに割り付けることを伴う。第２の段階は、骨格を用いて、顔の構造、目、鼻等のオブジェクトの詳細を学習することを伴う。骨格から構造の種類を学習することにより、特定の詳細を受け取ることを求め、図形に合わせて正しい３Ｄの詳細を調整する処理となる。

例えば、画像内の構造が人であることを認識した後、システムは、設定した方針に従って、例えば、目、鼻等の３Ｄおよび視覚情報を受信することを求める。ＳＰが、例えば、頭部の特定の部位に、目および眉毛を求めるため、ＳＰは３Ｄ図形に関して、この情報をより容易にかつより早く分析できる。

移動するオブジェクトの器官間の位置および距離を計算することは、ＳＰがより正確にオブジェクトの他の器官の関係を予想し、この情報を３Ｄ図形の情報と調整する際に役立つ。

画像処理において空間次元を用いることにより、異なるフレームの各々が３Ｄ要素および図形の構築のために、より多くの３Ｄおよび視覚情報を供給するという点で、時間次元上の要素の動きに付加価値が付けられる。

再構築処理と平行して、本発明の各実施形態は、要素の動きを獲得するモーションキャプチャツールとして用いることができ、ユーザがフレーム内の要素を、２Ｄ画像としてでだけでなく、テクスチャを有する３Ｄモデルとしてもモーションキャプチャすることが可能になる。

再構築の処理は、次のように実行できる。

初期構成は、４Ｄマトリックスであり、入力はＤＴＭである。

ＤＴＭは、外部アルゴリズムからのものとすることができる。ＤＴＭはまた、本発明の各実施形態の奥行き推測アルゴリズムからのものとすることもできる。処理時間に関しては、モデル化処理は、奥行き推測処理と平行する処理であり、直感的には、いくつかのマトリックスが他の１つ下に位置し、１つ目のマトリックスは、画像２Ｄマトリックスであり、その下に、（３Ｄ構造の）２Ｄ投影マトリックスがあり、さらにその下に３Ｄデータ構造がある。入力はまた、ピクセル、特に、フレームに沿って設定され、動きを連続させることを可能にする特徴点の２Ｄトラッキングに基づく３Ｄ軌跡を含む。特徴点は、色またはトラッキングが容易な他の性質に基づいてもよい。

軌跡は、ＤＴＭに変換され、システムは、それらをフレームに沿ったピクセルおよび特徴点の３Ｄ位置を示す３Ｄ軌跡に変換する。

システムは、３Ｄ骨格の投影と入力奥行き地図との間に時間軸に沿って拘束を設定し、要素の特定された器官を含む３Ｄ投影から生成された各フレーム内の無限の新たなトラッキング点を用いて正確なトラッキングを行なう。このようにして、３Ｄ物体のどの部分が隠れているか、およびそれらが３Ｄ空間のどこにあるかが分かる。システムは、３Ｄ骨格データ構造を用いて上記点の３Ｄトラッキングを行ない、移動する要素の正確な超分解能３Ｄモデルの作成を行なう。

ワークフローは以下の通りである：ただし、
Ｅ３ｄ−ＤＴＭののシーケンス、移動する要素の（ｘ，ｙ，ｚ）の３Ｄマトリックス、
ｎ−フレーム数、
Ｓ３ｄ−３Ｄ骨格、
Ｑ３ｄ−各フレーム内の３Ｄ特徴点、
Ｔ３ｄ−軌跡（Ｑ３ｄの３Ｄ点位置ベクトル）、
δ３ｄ−Ｑ３ｄに関するＴ３ｄの推移関数、
Ｋ−そのＱ３ｄが有するフレーム数（＝Ｔ３ｄの長さ）、
モデル−再構築された３Ｄモデル。

システムは、３Ｄ骨格ＳがＤＴＭ−Ｅと位置合わせされるように、Ｆ（Ｅ）←Ｇ（Ｓ）の位置合わせを行なう。システムは、Ｔ３ｄを用いて、（δ３ｄが軌跡ベクトルの関数δ３ｄ（ｆ（ｓ，ｅ）ｉ，ｑ３ｄｉ＋１）、骨格ＳおよびＤＴＭＥに関するフレームｉ内の特徴Ｑ３ｄｊの位置である）次のＤＴＭＥｔ＋１のＥｔ上のＱ３ｄを３Ｄトラッキングし、Ｑ３ｄごとに（ｋ個の）フレームのフレームｉ＋１等における位置を加える。各フレームごとに、Ｉ＋１内の新たな点をＳに貼りつけ、フレームｉ＋１に関する新たな情報により、Ｅの新たな位置に従ったＳの位置合わせが可能になる（例えば、Ｓの足は、Ｅの足と位置合わせされる）。

結果として、新たなＤＴＭの各々に正確に位置する新たな無限数のＱ３ｄを受け取る能力が得られる。係数ＤおよびＤ’により、システムは、ｔおよびｔ＋１（等）における要素および骨格を囲む４Ｄマトリックス内において、Ｅ３ｄの全体的な３Ｄ情報のフォーメーションに従ってＳのフォーメーションを変更することが可能になる。システムは、モデルから、次のフレームにおいて手足および他の要素が現れると予想される場所を予測する。Ｄは、合成により３Ｄ要素の形態でＳ３ｄをコピーする複雑な数学的構造における主要因である。システムは、３Ｄ骨格を新たなデータ構造に変換し、移動する要素の正確な超分解能３Ｄモデルのコピーを作成するためのピクセルまたは特徴点の３Ｄ位置をトラッキングすることにより、３Ｄ骨格データ構造に関するＤＴＭのシーケンス内に収集したフォーメーションを集めて保存する。

｛ａ，ｂ，ｃ，．．．．｝がＥ３ｄｉ上の３Ｄ座標を有する点であると仮定する。Ｓ３ｄｉ｛ａ’，ｂ’，ｃ’｝上の対応する点をＥ３ｄｉの点に貼りつけるための予想が行なわれる。システムは、４Ｄマトリックスの部分空間の係数Ｄ’をＥ３ｄｉの係数Ｄと位置合わせし、Ｓ３ｄｉを統合した単位として位置合わせし、また、Ｓ３ｄを、各々が１つのＤ’係数を独立した４Ｄ部分空間として保持する所定の小規模４Ｄマトリックスに分割することによって、Ｓ３ｄｉのフォーメーションをＥ３ｄＩのフォーメーションに合わせて再構成し、次いで、ｉ＋１．．．上に構築する。ここで、出力は、要素の正確な超分解能再構築（さらに説明されるような形状およびテクスチャ）および移動する要素の３Ｄモーションキャプチャである。

テクスチャの重ね合わせは、以下においてさらに説明するように、モデル化処理の一部である。

上述した拘束は、要素の３Ｄモデルの完全な再構築を可能にする。システムが異なるシーケンス間の３Ｄ形状を再生すること、および異なるシーケンス間の外見上の相違を処理することも可能にする。３Ｄ構造に基づく位置合わせの性質を利用することにより、異なるビデオシーケンス間、異なる縮尺（ズーム）、異なる検知方法（ＩＲおよび可視光線カメラ）でのでのマッチング等の非常に困難な状況において、情報をマッチングすることが可能になる。

手に持った風船を膨らませる例において要素が時間および空間に関して個別に速度を変えるときにＳ０を撮影する場合、単独または統合された解決策として３つの選択肢が存在する。システムは、時間の経過とともに速度が変化する風船をモデル化し、構成に問題があるため奇妙に振舞い時間領域に問題を残すフレームもしくは一連のフレームまたはオブジェクトに印しをつけることができる。あるいは、ユーザは、自動システムがフレーム内の３Ｄ図形を定義することを手助けすることにより、どの３Ｄ情報および視覚情報を用いるべきかを伝える。

処理の最後に、オブジェクトのより正確な３Ｄモデルのための再構築処理に関してより多くの３Ｄおよび視覚情報を与えるという点で異なるフレームごとに付加価値を有する上記の画像処理において空間次元を用いて、要素の動きによって、モデルとその３Ｄモーションキャプチャとを関連づけてもよい。

時間次元上でのこれらの個別の円筒、球状、および他の骨格要素から完全な３Ｄ図形を構築することにより、それらの相互の動向（それらがどのようにして相互に貼りつけられるか、またはともに移動するか）を表し、図形のさらなるアニメーション化に役立ててもよい。

モデルが完成すると、その元の図形および背景とは個別の図形として維持され、さらなるアニメーション化に用いらることができる。その元の動きは、モーションキャプチャに用いることができる。異なる時間または位置からより多くの視覚情報を同じ図形に付加してもよく、多角形内部骨格上にコンピュータにより生成された画像がそうであるように、ユーザの行動に応じて新たな３Ｄ図形に変化させることもできる。

さらに、図形は、それが有する背景とは独立して、さらなるアニメーション化に用いることができる。オブジェクトが、異なる時間または位置で実写されたまたは映像化された場合、ＳＰは、異なる時間または位置から得た情報を組み合わせる。例えば、視覚情報は、異なる時間または位置で得ることができ、算出した情報は、図形の元の３Ｄモデルに付加される。オブジェクトの３Ｄ構造を用いて、特定的に撮影された背景とは独立して、オブジェクト自体のレベルにおいて、アニメーションを生成したり、顔を模倣したり、声を加える等を行なうことができる。

システムはまた、移動する要素内の運動をキャプチャーすることにより、完全な物体のアニメーションまたは顔の模倣等その一部のアニメーションのモーションキャプチャを用いて既存の３Ｄモデルをアニメーション化する能力を用いることもできる。

上記で示した手に持った風船を膨らませる例のように、時間および空間の両方に関して相対的速度を変化させる要素が存在する場合、ユーザの支援が必要となることがある。ユーザは、システムがフレーム内の３Ｄ図形を定義することを支援するように問われ、どの３Ｄ情報を用いるべきか、アニメーションの貼りつけを行なうことなく、この図形を時間に基づくシーケンスとして残すべきかを示す。後者の場合、この要素は、通常の画像処理ツールを用いて編集してもよい。本例およびおよび先行する例の唯一の違いは、本例が時間に基づく３Ｄオブジェクトを維持しており、空間に基づく３Ｄオブジェクトではない点である。

画像処理ツールにより、ユーザは、異なる時間および位置の環境を一緒に貼りつけ、画像内の変形を修正し、要素を取り除き、入力によって作成された情報に基づいて新たな要素を作成し、さらに、３Ｄコンピュータにより生成された図形を生成するかまたは異なる３Ｄコンピュータアニメーションプログラムからコンピュータにより生成された図形を入力することが可能である。

視覚情報
空間に基づく３次元モデル内の３次元位置を受け取った後、判定された分解能に応じて、各点は、１つまたは複数の視覚情報レイヤー（画像のデジタル情報に記録されているような色および輝度の値）を受け取る。

実写画像の分解能と比較したモデルの分解能、各ピクセルの球状に関する情報、および異なるカメラから、または異なるクリップ等からの異なる質の視覚情報等、いくつかの視覚パラメータが考慮される。

異なる画像分解能に関して、２つのケースが考えられる。

１つ目のケースでは、画像分解能がＦの制止分解能よりも高く、よって、３Ｄモデル内の各ピクセルに必要以上の情報が存在する。例えば、インチ毎のピクセル数に関して、実写画像が５倍分大きい場合、システムは、５ピクセルごとに、視覚情報を合計し、１つのピクセル分として平均し、この新たな計算値を用いて３Ｄモデル内に新たなピクセルを作成する。

２つ目のケースでは、３Ｄモデルの分解能が実写画像の分解能よりも高い場合である。ビデオシーケンスを用いて、各フレームは、フレーム内にテクスチャピクセルを生成し、カメラが少し移動すると、ピクセルは、近傍の３Ｄ点を撮影し、統合されたモデルについてより、画像内のピクセルの総量よりも多くの視覚情報を収集することを可能にする。このような場合は、例えば、遠い位置から画像を撮影しているか、またはデジタルズーム等を用いている場合に起こることがある。この場合、システムは、時間次元に沿って付加された近傍のピクセルから、ピクセルごとに情報を抽出する。ここでは、各ピクセルの視覚情報の複数のレイヤーの主要要素が重要であり、さらに考察する。

このとき、新たなピクセルが作成されており、システムの分解能のレベルでモデルの表面に重ねられている。新たなピクセルの各々は、ここでは、３Ｄ空間に基づくモデルにおける３次元位置を有しており、実生活とちょうど同じように、完全な３６０度から観察することができる。

一般に、個々のピクセルは、３６０度から観察されることはない。例えば、壁の点は、１８０度から見ることができ（壁の背面は、異なるピクセルの３Ｄ位置に応じて、異なる情報を有する）、石の角は、２７０度から観察されること等が挙げられる。

ここで、特定の方向からの視覚情報を与える実写された３Ｄ画像を示す図１５を参照する。実写画像の各々は、特定の方向からの視覚情報を与える。ＳＰが特定の方向のみからピクセルの視覚情報を受け取る場合、ピクセルを扁平にして、１８０度から見ることを可能にする。この場合、このピクセルを横方向から見ると視覚的な質に歪みが生じる。

本発明の好適な実施形態は、空間次元における３Ｄ位置に対して、ピクセルごとに視覚情報の複数のレイヤーを統合する半球状のピクセルを形成する。無限数のピクセルを加えることが可能であり、視覚的な質に関しては、超分解能を作成している。

超分解能はまた、統合されたモデル内に収集することができ、超分解能３Ｄ点を作成することができる奥行き点の数に関係する。奥行き点は、表面の変形を最も正確な方法で可能にする。

３次元的視覚情報に関して、システムにより大きな角度をカバーする視覚情報が提供されるほど、ソフトウェアのピクセルを必要とされるあらゆる方向から見る能力を模倣する能力がより良好となり、このピクセルに関する球状情報がより良好となり、ピクセルを必要とされる実現可能なあらゆる方向から見る能力が得られる。よって、ピクセルの周囲の様々な角度から複数の画像を撮影することがある。各ピクセルは、各クリップに沿った多くのフレームで実写することができる。この情報の全てが必要とされることはなく、これは、この情報の全てが同じ品質を有するものではないことを意味する。しかしながら、多層化した視覚情報をピクセルごとに記録することは、画像処理に必要な計算を低減し、画質を向上させることに役立つ。

視覚的な質に関して、各ピクセルは、各クリップに沿って多くのフレームで実写することができる。それにもかかわらず、この情報の全てが同じ質ではないのと同様に、情報の全てが必要とされるわけではない。質が低い情報を破棄することは、画像処理に必要とされる計算を低減することに役立つが、各情報は、不良な画質、照明、カメラ分解能等による不良な画質を向上するために用いられることが好ましい。

システムは、品質等級Ｑを作成し、新たなフレームの各々から情報を得る新たな情報のレイヤの各々を、その視覚情報の質および分解能について検査する。視覚情報は、２つの要因によって等級付けされるが、１つは時間次元における画質であり、他方は空間次元における画質である。

例えば、ＳＰは、室内および外庭の撮影に関して、建物の同じ位置から異なる絞りを用いて撮影された２つのクリップを受け取る。

カメラが高露出の絞りを用いる１つ目のクリップでは、カメラは、画像の内部部分に関して良好な視覚情報を得ることができるが、庭の外部部分は、露出が過剰であり、画像上では焼けたように、または過度に明るく見える。

カメラが低露出の絞りを用いる２つ目のクリップでは、画像の内部部分に関して非常に暗い視覚情報が作成されるが、画像の外部部分は非常にバランスがよく露出が良好である。

これらのクリップの各々は、個々としてのバランスが良くなく、それら各々のヒストグラムはバランスが悪い結果を示す。

しかし、システムが時間次元から変換したとき場合、各フレームが空間領域において個別に検査され、周囲環境が全体的に検査されるとき、システムが新たな視覚情報を受け取ると、以下の２つの要因に基づいてクリップを確認する：
１つ目の要因は、フレームごとにヒストグラムを個別の単位として獲得する時間次元、およびＦに対する品質に基づくものであり、
２つ目の要因は、空間領域からのものであり、すでに構成された画像がフレーム内の特定のエリアを参照して、たとえＦにおいて、Ｑが不良であったとしても、より高い品質を達成する。

システムは、新たなクリップ内において、隣接するフレームピクセルとの相関関係とは関係なく、図１４に関して上記で説明したように、ピクセルと隣接するＦの不良なＱとの相関関係において、ＳＰにとって必要な特定の部分において視覚的により良好な品質を求める。システムは、本例において、同じ画像において同じ時間に異なる絞りを用いて撮影されたように、可能な範囲で最高の品質で外庭および内部の部屋を示す、露出が非常に良好なイメージを与えるバランスがとれた画像を作成する。

システムは、ある最小レベルのＱまで画像情報を評価するが、これは、画像が上記２つの要因の両方の最小値よりも低い場合には、この情報を用いたり、その値をピクセルのテクスチャの既存の値に加えても意味がないことを意味する。

この新たな情報を加える処理は、Ｑ∈ＳＰに基づく。

Ｑが高くなるほど、情報がピクセル値に関与する値がより高くなり、Ｑが低くなるほど、その情報がピクセル値に関与する値が低くくなる。

システムは、両方のクリップからの情報を統合し、バランスがとれ、露光が良好な光景を部屋の内側および外庭の両方に生じる。

システムは、品質Ｑについて閾値を設定し、それに応じて視覚情報を破棄してもよい。

画像処理はまた、画像のバランスをとり、隣接する画像間での一貫性を達成するために、標準的なカメラ制御部（ＣＣＵ）によって用いられるような処理方法を含んでもよい。

観察
空間に基づいて構築され、視覚情報を含んだ３Ｄモデルは、ＳＰに与えられるすべての画像シーケンスについてキャブチャされた全体的な結果である。

集合的なフィールドにおける任意の点は、当該分野に限定されない任意の観察方法を用いて任意の視点から観察することができる。以下に例をいくつか示す。

本発明の１つの実施形態では、２つの隣接するレンズの視野が水平軸に対してレンズ側にある２つの隣接するレンズの視界と広範囲にわたって重なるように仮想的なカメラが配列される。これによって、立体画像を生成することができる。

好適な実施形態により、完全に時間に基づくシーケンス、ライブシーケンス、非線形出力、立体／３Ｄ球形画像等の生成が容易になる。

立体画像を提供する好適な実施形態では、仮想的なカメラが特定の構成で配列され、いずれのレンズの視野も、そのレンズの周囲に隣接する全てのレンズの視野と所望する範囲で重なり、全体的な視野が、完全に円形である画像の集合を含み、各視野内の任意の点が、立体球形画像を作成するための少なくとも２つの仮想的なレンズによって、または２Ｄ球形画像の作成のための１つの仮想的なレンズからもしくは任意の視点から３Ｄ球形画像を作成するための少なくとも２つの仮想的なレンズからキャプチャされる。

結果として、単一のカメラによってフイルムに撮られた場面を観察するために立体データを利用することが可能になる。

ＳＰによって作成された画像は、静止画、ビデオ、立体視、仮想現実等の様々な形態で観察者に表示することが可能である。形成した画像は、ＴＶまたはコンピュータスクリーン等の平面のスクリーン上で、または表示された画像の一部がユーザの視点に応じて変化する仮想現実用のヘッドセット等の仮想現実用の表示デバイスを用いて表示することができる。仮想現実による表示に適切な手段を用いて、水平および垂直方向において観察者の周囲３６０度を取り囲むことにより、観察者の周囲のあらゆる場所および上下方向を見る能力を与える一方、表示された画像の３Ｄ的な奥行きを知覚させる。

公知の仮想現実のための手段を用いて、仮想現実による視覚の線形および非線形情報がユーザに提供される。このような手段は、観察者の頭部位置を検出するセンサを有するヘッドセット、または手の位置を検出するセンサを有する仮想的なグローブ、または任意の公知の表示用ソフトウェアであってもよい。

ＴＶまたはコンピュータスクリーン等の平面なスクリーン上に表示するために、ユーザの観察パラメータを、ユーザが持っているこの目的のためにプログラムされたポインティングデバイス（例えば、マウスまたはジョイスティック）から取得する。システムは、例えば、この発明のリアルタイムモーションキャプチャ能力、または外部デバイスからのモーションキャプチャを用いてユーザ自身の動きを集めることができる。

仮想現実用のヘッドセットを着用して実際に頭部を回すことにより、またはユーザが持っているコンピュータデバイスに接続されたポインティングデバイスにより、観察者が特定の光景を選択すると、観察パラメータが表示システムにより検出され、受け取られる。観察者の観察パラメータは、観察者の観察方向および観察者の水平方向を含む。これらのパラメータに従って、観察者の周囲の座標に関して、観察者の視野が判定され、画像が観察手段に投影される。

カメラの種類
本発明は、ＳＰに与えられる画像または画像のシーケンスをキャプチャするために用いられるカメラの種類に関して限定されるものではない。カメラは、任意の公知のデジタルまたはアナログビデオカメラから選択されてもよい。これらのカメラはまた、デジタルでなくてもよく、その場合、公知の技術を用いて画像をデジタル形式に変換してもよい。

好適な実施形態では、デジタル画像は、記憶する前または３Ｄモデルに基づく空間への変換前に品質を向上するために操作されてもよい。

用途
ここで、本発明の異なる用途を示す吹き出し図である図１０を参照する。

好適な実施形態によると、上記で説明したように構築された完全に空間に基づく３Ｄモデルが利用可能な場合、ユーザは、仮想的な環境内に仮想的なカメラを配置して、元のシーケンス内にカメラがなかった視点から場面を実質的に再度撮影することができる。さらに、これはまた、リアルタイムで行なうことができる：例えば、バスケットボールの試合では、仮想的なカメラを配置して、実際にはカメラがない視点からゲームを撮影することができる。この場合に必要なことは、アリーナおよび個々の選手を予めモデル化することである。実際、このモデル化は、前もって行なう代わりに、放送の始めにリアルタイムで行なわれる。

好適な実施形態に従って、上記のモデル化を用いることにより、シーケンスから一度キャプチャされた各図形を、例えば、外部ソースからのモーションキャプチャまたはＳＰのモーションキャプチャも用いることができるユーザによって再度アニメーション化することにより、元のクリップにおける図形の動き方を変更することができる。すなわち、ユーザは、元の実写画像からモデルを再構築する一方で、リアルタイムで図形の他の動きを出力することができる。

好適な実施形態に従って、ユーザは、画像の元の図形を修正したり、または、その図形を、操作することにより完全に新しくなった図形と置き換えることさえ可能である。

この実施形態によれば、本明細書中において論じた技術を用いて、各図形をその図形の３Ｄモデルと置き換えて、その図形自身を含む新たな映画クリップの作成を可能にすることにより、実写されたクリップ中での各図形の元の動きに依存することなく、各図形に関して新たなアニメーションを作成することができる。図形はまた、コンピュータゲーム、家庭用ゲーム機用ゲーム、ＴＶゲーム等において、ユーザがリアルタイムで操作することができる。

好適な実施形態では、アニメーションの場面またはビデオクリップの製造中に照明を加える公知の技術を用いて、３Ｄモデルに新たに照明を加える。

好適な実施形態では、要素および背景の３Ｄモデル化の一部として、アリーナ内の各要素および背景について、任意の所望する基準点までの奥行きの推測が含まれる。奥行きの推測は、システムに入力された写真図形のシーケンスに関する奥行き地図の解析を含んでおり、これは、下記でより詳細に説明されるような多くの方法で行なうことが可能である。

好適な実施形態の各々により、画像上の運きをぼやけさせるなど、種々の操作が可能にすることができる。

本明細書中に記載の技術を用いて、場面を撮影中に行なうことができる異なる種類の操作の全ては、焦点の変更、ズームおよび照明の修正等、３Ｄの仮想的なアリーナでも行なうことができる。

本明細書中に記載の技術を用いて、ユーザは、図形および背景から完全なモーションピクチャを作成することができる。

本明細書中において記載した技術を用いて、ユーザは、全ての図形が実際の画像に基づく３Ｄモデルである３Ｄ空間に基づくモデルを用いて完全なコンピュータゲーム（家庭ゲーム機用のゲーム、ＴＶゲーム等）を作成することができる。

コンピュータにより生成された画像を、３次元環境およびその中の３次元モデルに付加することができることが好ましい。これらの画像は、モデルのスキンを変更する、コンピュータにより生成された要素をモデルまたは背景等にさらに付加するといった効果を有し得る。

この実施形態に従って、ユーザは、シーケンス内の個々の図形と関連付けられた時系列情報を用いて、モーションキャプチャ時に図形の運動を再構築することができる。本技術は、単一のカメラからの画像のシーケンス、または２つ以上のカメラからの画像を用いて作用する。

本明細書中において記載した手順では、２次元および３次元トラッキングを、時間に基づくクリップ内での動きに基づいて、特定された図形および背景のいずれにも適用することができる。このトラッキングは、リアルタイムで、またはクリップを再度アニメーション化する工程の一部として後から行なうことができる。

本発明の好適な実施形態に従って、ユーザは、移動しているまたは静止している要素を空間に基づく３Ｄ環境内の図形または背景に追加してもよい。

本発明の好適な実施形態に従って、ユーザは、元々実写されたものではない新たなアリーナを作成することができる。例えば、ユーザは、いくつかの異なる周囲環境を合成して、統合したアリーナを作成したり、実写されたアリーナをコンピュータにより生成された合成アリーナと組み合わせてもよい。

本発明の好適な実施形態に従って、ユーザは、３Ｄモデル内において本発明の実施形態を用いて再構築される図形を用いて、その背景からその図形を取り除き、異なるアリーナに移動するか、またはコンピュータにより生成された任意のプログラムにエクスポートすることができる。

本発明の好適な実施形態に従って、ユーザは、再構築された図形に基づいて新たな図形を作成することができる。ユーザは、テクスチャ、器官等をさらに追加または変更してもよい。

好適な実施形態に従って、ユーザは、例えば、古い映画等の既存の映像を用いてもよく、その映画のデータを用いて映画の図形および背景をモデル化してもよい。これは、図形の完全な３Ｄ空間に基づく環境もしくはアリーナおよびその内部の位置を作成することにより行なわれてもよく、作成した３Ｄ環境に基づいて、元の図形および周囲環境から作られた新たな映画を作成してもよい。

本発明の好適な実施形態に従って、ユーザの仮想的な３Ｄ複製物を用いて仮想的な集会を行なうことができる。そのような仮想的な集会は、ユーザのモーションキャプチャを伴ってもよい。アプリケーションにより、ユーザは、先生がユーザの３Ｄ図形を見て、ユーザの動きを直し、各生徒が他の生徒を３Ｄ図形として見るような仮想的な武術レッスンに参加することができる。モーションキャプチャは、ユーザ自身のウェブカメラを用いて行なうことができる。

このようなアプリケーションはまた、他の教育目的、仮想的な身体的トレーニング、仮想的なビデオ会議等に用いられてもよい。３Ｄモデルおよびモーションキャプチャはまた、仮想的な展覧会、多人数が参加するゲーム、またはさらに仮想的なデートに用いられてもよい。

本発明の好適な実施形態に従って、空間に基づく３Ｄモデルは、兵士をトレーニングするための戦闘アリーナのシミュレーション、飛行シミュレーション等のシミュレーションに用いられてもよい。

本発明の好適な実施形態に従って、３Ｄアリーナは、医療デバイスに用いることができる。１つ以上のセンサから獲得した画像を操作するために用いてもよい。画像は、実際の手術中にリアルタイムで用いるか、またはシミュレーション目的で用いる体の器官の３Ｄモデルを作成するために用いてもよい。

本明細書中において記載した３Ｄモデルおよび環境は、例えば、建築および建設工学等の計画および設計に用いてもよい。

本発明の１つの特定的な用途では、本明細書中において記載したモデルおよび環境はまた、ＰＡＬおよびＮＴＳＣ等の異なるビデオ基準間の変換に用いてもよい。

本明細書中において提供される技術の１つの用途は、ビデオ圧縮である。この用途では、実写されたクリップを用いた空間に基づく３Ｄモデル化により、モデルの伝達が可能になり、その後に必要なことは、実質的には、動き情報の伝達だけである。このような技術は、ビデオフレームの伝送に関して、帯域幅を大幅にセーブする。この用途は、モーションピクチャから携帯電話用ビデオクリップまで、様々なビデオの使用法および様々な質の規格に適用可能である。

さらに、本発明の各実施形態は、記録したものを直接、本発明の各実施形態の３Ｄ空間に基づくモデルにしたりまたはそれに適用したりする、ビデオレコーディングの新たな方法を提供する。ビデオフレーム自体は、情報がモデルに抽出された後に再生することができる。

本発明の各実施形態の３Ｄモデルは、単一のソースから移動する要素をリアルタイムでキャプチャしてモデル化し、任意の方向からそれらを観察するために用いることができる。１つの用途では、複数のユーザが、異なるスクリーンにおいて、これらの図形を任意の方向または倍率でリアルタイムに見ることができる。

本発明の好適な実施形態によるデバイスでは、ユーザの３Ｄ的な動きをキャプチャするためにリアルタイムでシステムを用いてもよく、それを用いて、任意のコンピュータプログラムに関して、手または体の３Ｄ的な動きによってコンピュータを完全に操作してもよい。この実施態様では、特定のカメラ、通常のビデオカメラ、スチールカメラまたは携帯電話用カメラ等の通常のカメラを用いてもよい。例えば、ユーザは、ゲーム内に存在する２Ｄまたは３Ｄキャラクタの１つがユーザの動きに従って動くコンピュータゲーム内に入ることも可能である。これはまた、携帯電話または任意の他の携帯用機器のユーザインターフェースで行なうこともできる。

本発明の好適な実施形態に従って、ユーザは、完全なまたは部分的な３Ｄモデルとして自己をモデル化することができ、コンピュータゲームまたは任意の他の関連するコンピュータプログラム内に入ることができる。

本発明の各実施形態を適用することにより、コンピュータゲーム、シミュレータ、またはそのようなプラットホームの任意の変形において、全くの現実の画像から、２Ｄ／３Ｄ図形および背景を作成することができる。

本発明の好適な実施形態に従って、３Ｄモデル化は、赤外線等、あらゆる種類のセンサによって収集された情報を用いて行なうことができる。

本発明の好適な実施形態に従って、顕微鏡からの情報も、適切なセンサから集めたデータを用いて、新規な３Ｄ空間に基づくモデルにモデル化することができる。

本発明の好適な実施形態に従って、光学情報を有さないセンサから集められたデータによって、新たなユーザ定義の２Ｄ／３Ｄアリーナ、例えば、素粒子、遠くの星、またはセンサがキャプチャできないエリア（例えば、壁の裏側）でさえも作成するために３Ｄモデルおよびテクスチャを用いることができる。

本発明の好適な実施形態に従って、３ＤＳＰ処理は、マシンビジョンを可能にするために用いてもよい。例えば、ロボットにある場面の３次元空間的な解釈をさせるために用いてもよい。これによって、ロボットは、多数のフレーム内の部分的な画像としてではなく、統合された３次元物体として人間を関連付けることができる。これによって得られるロボットは、例えば、障害者を補助する等の用途に用いてもよい。

用途の必要に応じて、３ＤＳＰ処理は、インチ毎のテクスチャピクセル数、およびモデルの３Ｄフォーメーションを構築する奥行き点の数に関して、超分解能で再構築された３Ｄモデルを作成してもよい。

本特許の有効期間中に、多くの関連する撮影術ならびに撮像デバイスおよびシステムが開発されることが予想されるが、特に、「３Ｄモデル」、「画像キャプチャ」、「奥行き地図」、「クリップ」、「仮想現実」、および「コンピュータ」等の本明細書中における用語の範囲が、そのような新たな技術の全てを予め含むものとする。

本発明のさらなる目的、利点、および新規な特徴は、以下の限定を目的としない例を考察することにより当業者には明らかとなる。また、本明細書中において上述したおよび請求の範囲に記載した本発明の種々の実施形態および局面の各々に関しては、以下の例において実験に関する裏づけが得られる。

明瞭にするために、個別の実施形態の文脈において記載した本発明の特定の特徴は、組み合わせて１つの実施形態として提供してもよいことは言うまでもない。逆に、簡潔にするために、１つの実施形態の文脈において記載した本発明の種々の特徴は、個別にまたは任意の適切な部分的組み合わせとして提供してもよい。

本発明をその特定の実施形態に関して説明したが、当業者には多くの代替例、修正物および変形例が明らかであることは明白である。従って、請求の範囲の精神および一般的な範囲に該当するような代替例、修正物および変形例の全てが含まれるものとする。本明細書中において記載した全ての文献、特許および特許出願は、本明細書中において個々の文献、特許または特許出願の各々を特定的かつ個別に参考として援用すると示した場合と同様にして、それらの全てを参考として本明細書中において援用する。また、本出願におけるあらゆる参考文献の引用または表示は、そのよう参考文献が本発明の従来技術として適用されることを了承したものとして理解されるべきものではない。

図１は、従来技術による３Ｄコンピュータにより生成された仮想的な図形の写真である。図２ａは、従来技術による仮想的なスタジオの第１の写真である。図２ｂは、従来技術による仮想的なスタジオの第２の写真である。図３は、本発明の第１の好適な実施形態による３Ｄ画像分析のための装置の簡略ブロック図である。図４は、本発明の好適な実施形態に従って１つの画像または一連の画像から特定された構造要素に骨格要素を挿入する手順を示した簡略フローチャートである。図５は、一連の要素が単一の物体として認識される図４aの手順の変形を示した簡略フローチャートである。図６は、本発明の好適な実施形態による骨格の挿入、および２d画像データに３次元的解釈を与えるその後の使用法について示す簡略フローチャートである。図７は、２Ｄ画像に３Ｄ的な解釈を与えるために図４ａ〜図４ｃの骨格を多層フォーマットで使用することを示す簡略図である。図８は、本発明の好適な実施形態に従って骨格要素を挿入する２次元画像からオブジェクトを特定する２つの方法を示した流れ図である。図９は、画像内の移動する２Ｄ要素に３Ｄ的解釈を与えるために、本発明の各実施形態に従って骨格を用いる処理を示す簡略フローチャートである。図１０は、本発明の各実施形態の一連の例示的用途を示す吹き出し図である。図１１は、本発明の好適な実施形態に従って実行可能な撮像処理を示す奥行き地図である。図１２は、本発明の好適な実施形態に従って実行可能な撮像処理を示す奥行き地図に貼りつけられた骨格である。図１３は、構造の変形処理を明確に示す骨格であり、本発明の好適な実施形態に従って実行可能な撮像処理を示す。図１４は、一連の画像内の構造要素が変形が最小となる位置のフレームからどのように処理されるべきかを示す。図１５は、特定の方向から３Ｄ情報を供給する実写画像を示す。

Claims

互いの相対位置が３次元骨格モデルに実質的に従う構造を有する任意の非剛体の本体の１又はそれ以上の部分の３次元座標を推定するための装置であって、前記装置が：
前記非剛体の本体の２次元画像を取得するための手段と、
前記２次元画像に基づき、前記非剛体の本体の一連の構造を計算で特定する構造特定器と、
骨格に基づく位置推定部と、
を具えており、前記位置推定部が：
（１）予め記憶された３次元骨格モデルを用い、特定された構造を、前記非剛体の本体の２又はそれ以上の構造間の空間的関係の制約を規定する３次元骨格モデルの対応する要素に適合させ、
（２）前記２次元画像における、前記特定された構造の２次元の空間的関係に基づいて、前記３次元骨格モデル要素の移動関係を定義することによって、前記特定された構造の３次元位置情報を推定するよう構成されていることを特徴とする装置。
前記関係の制約が、前記非剛体の本体の２又はそれ以上の構造間の角度の比及び距離の比を有することを特徴とする請求項１に記載の装置。
さらに、前記推定部が、前記２次元画像の中の前記特定された構造の２次元の空間的関係に基づいて、前記３次元骨格モデル要素の移動関係を定義することによって、他の構造の３次元位置情報を推定するよう構成されていることを特徴とする請求項１に記載の装置。
前記２次元画像の中の前記特定された構造の２次元の空間的関係に基づいて、前記３次元骨格モデル要素の移動関係を定義することが、対応する２次元投影が前記２次元画像と少なくとも部分的に一致するモデルに関する許容される３次元方向を判断することを含んでいることを特徴とする請求項１に記載の装置。
前記少なくとも部分的に一致することが、前記画像の特定された構造を骨格投影の対応する３次元骨格要素に一致させることを含んでいることを特徴とする請求項４に記載の装置。
互いの相対位置が３次元骨格モデルに実質的に従う構造を有する任意の非剛体の本体の１又はそれ以上の部分の３次元座標を推定するためのシステムであって、
前記推定が、前記非剛体の本体の２次元画像に基づいており、前記システムが：
前記２次元画像に基づき前記非剛体の本体の一連の構造を特定し、予め記憶された３次元骨格モデルを用いて、特定された構造を前記非剛体の本体の２又はそれ以上の構造間の空間的制約を規定する３次元骨格モデルの対応する要素に適合させるよう構成された画像処理ロジックを具えており、
前記ロジックが、さらに、前記２次元画像の中の前記特定された構造の２次元の空間的関係に基づいて、前記３次元骨格モデル要素の移動関係を定義することによって、前記特定された構造の３次元位置情報を推定するよう構成されていることを特徴とするシステム。
前記関係の制約が、前記非剛体の本体の２又はそれ以上の構造間の角度の比及び距離の比を有することを特徴とする請求項６に記載のシステム。
さらに、前記２次元画像の中の前記特定された構造の２次元の空間的関係に基づいて、前記３次元骨格モデル要素の移動関係を定義することによって、他の構造の３次元位置情報を推定することを含むことを特徴とする請求項６に記載のシステム。
前記２次元画像の中の前記特定された構造の２次元の空間的関係に基づいて、前記３次元骨格モデル要素の移動関係を定義することが、対応する２次元投影が前記画像と少なくとも部分的に一致するモデルに関する許容される３次元方向を判断することを含んでいることを特徴とする請求項６に記載のシステム。
前記少なくとも部分的に一致することが、前記画像の特定された構造を骨格投影の対応する３次元の骨格要素に一致させることを含んでいることを特徴とする請求項９に記載のシステム。
互いの相対位置が３次元骨格モデルに実質的に従う構造を有する任意の非剛体の本体の１又はそれ以上の部分の３次元座標を推定するための画像トラッキングシステムであって、前記推定が、前記非剛体の本体の２次元画像に基づいており、前記システムが：
前記非剛体の本体を含む２次元画像に関するデータを受け取るよう構成された画像取得回路と；
前記２次元画像に基づき前記非剛体の本体の一連の構造を特定し、予め記憶された３次元骨格モデルを用いて、特定された構造を、３次元骨格モデルの対応する要素に適合させるよう構成された画像処理ロジックと；
を具えており、
前記ロジックが、さらに、前記２次元画像の中の前記特定された構造の２次元の空間的関係に基づいて、前記３次元骨格モデル要素の移動関係を定義することによって、前記特定された構造の３次元位置情報を推定することを特徴とするシステム。
前記関係の制約が、前記非剛体の本体の２又はそれ以上の構造間の角度の比及び距離の比を有することを特徴とする請求項１１に記載のシステム。
さらに、前記２次元画像の中の前記特定された構造の２次元の空間的関係に基づいて、前記３次元骨格モデル要素の移動関係を定義することによって、他の構造の３次元位置情報を推定することを含んでいることを特徴とする請求項１１に記載のシステム。
前記２次元画像の中の前記特定された構造の２次元の空間的関係に基づいて、前記３次元骨格モデル要素の移動関係を定義することが、対応する２次元投影が前記画像と少なくとも部分的に一致するモデルに関する許容される３次元方向を判断することを含んでいることを特徴とする請求項１１に記載のシステム。
前記少なくとも部分的に一致することが、前記画像の特定された構造を骨格投影の対応する３次元の骨格要素に一致させることを含んでいることを特徴とする請求項１４に記載のシステム。