JP2014520333A

JP2014520333A - ３次元画像モデル適応のための方法および装置

Info

Publication number: JP2014520333A
Application number: JP2014516260A
Authority: JP
Inventors: ティガット，ドニー; リーヴェンス，サミー; アーツ，マーチン
Original assignee: アルカテル−ルーセント
Priority date: 2011-06-20
Filing date: 2012-06-04
Publication date: 2014-08-21
Anticipated expiration: 2032-06-04
Also published as: KR20140024058A; JP2014520332A; EP2538388A1; EP2538389B1; JP5806399B2; EP2538389A1; US20140212030A1; KR101560508B1; CN103608847B; WO2012175321A1; WO2012175320A1; CN103608847A; US20140212031A1; CN103608846A; EP2538388B1; KR101547780B1; CN103608846B; US9269194B2; KR20140037936A; JP5784226B2

Abstract

オブジェクトの３Ｄのモデル(m)を適応させるための方法であって、
関連する深さ情報(d1)を有する少なくとも１つの２Ｄの画像モデル投影(p1)を取得するために前記３Ｄのモデルの少なくとも１つの投影を実行し、
前記少なくとも１つの２Ｄの画像モデル投影(p1)についての少なくとも１つの状態抽出オペレーションを実行し、それによって少なくとも１つの状態(s1)を取得し、
前記少なくとも１つの状態(s1)に従って、またターゲット状態(s)に従って、前記少なくとも１つの２Ｄの画像モデル投影(p1)と、前記関連する深さ情報(d1)とを適応させ、それによって少なくとも１つの適応された２Ｄの画像モデル(p1’)と、関連する適応された深さ(d1’)とを取得し、
それによって適応された３Ｄのモデル(m’)を取得するために前記関連する適応された深さ(d1’)に基づいて、前記少なくとも１つの適応された２Ｄの画像モデル(p1’)を３Ｄに対して逆投影すること
を含む方法。

Description

本発明は、以前に出願された欧州特許出願第１１３０５７６８号の優先権を主張するものであり、また３次元画像モデルの適応のための方法に関するものであり、この３次元は、本文の残りにおいては、３Ｄと略記されることになる。

３Ｄのモデルの適応は、通常、手作業のやり方で行われ、この手作業のやり方は、一般には、望ましくないものである。３Ｄのモデルを適応させる別のやり方は、状態適応を使用しており、この状態適応は、ある種の状態に適合するようにするための３Ｄのモデルの適応に関する。状態は、形状の３Ｄの位置、および／またはある種の部分のテクスチャやモデルの特徴などの外観に影響を及ぼす。さらにまた、３Ｄのモデルの状態適応についての現在の技法に伴う主要な問題は、３Ｄにおいて適応されるべき特徴の数が通常非常に多いことであり、その結果、さらにまた、不十分な計算のリソースに起因して、手作業の介入が必要とされることがしばしばである。さらに、最新式の技法は、操作されたモデル（ｒｉｇｇｅｄｍｏｄｅｌｓ）を使用することに限定されており、このことが、動的システムで使用するのに厳しい制限であることを示している。動的システムでは、学習プロセス期間に、モデルの形状も変化することができるように、モデルが学習され得る。

ｃｈａｐｔｅｒ６ｏｆｔｈｅｔｕｔｏｒｉａｌｈａｎｄｂｏｏｋ、「ＭｕｌｔｉｐｌｅＶｉｅｗＧｅｏｍｅｔｒｙｉｎｃｏｍｐｕｔｅｒｖｉｓｉｏｎ」、ｂｙＲｉｃｈａｒｄＨａｒｔｌｅｙａｎｄＡｎｄｒｅｗＺｉｓｓｅｒｍａｎ、ＣａｍｂｒｉｄｇｅＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ、ｓｅｃｏｎｄｅｄｉｔｉｏｎ２００３年、ＩＳＢＮ０５２１５４０５１８

したがって、本発明の実施形態の一目的は、３Ｄの画像モデル適応のための方法および装置を提示することであり、この３Ｄの画像モデル適応は、十分に自動的に使用される可能性があり、また動的に適応可能なモデルを使用することを可能にする。

本発明の実施形態によれば、この目的は、オブジェクトの３Ｄのモデルを適応させるための方法によって達成され、前記方法は、
関連する深さ情報（ｄ１）を有する少なくとも１つの２Ｄの画像モデル投影（ｐ１）を取得するために前記３Ｄのモデルの少なくとも１つの投影を実行するステップと、
前記少なくとも１つの２Ｄの画像モデル投影（ｐ１）についての少なくとも１つの状態抽出オペレーションを実行し、それによって少なくとも１つの状態（ｓ１）を取得するステップと、
前記少なくとも１つの状態（ｓ１）に従って、またターゲット状態（ｓ）に従って、前記少なくとも１つの２Ｄの画像モデル投影（ｐ１）と、前記関連する深さ情報とを適応させ、それによって少なくとも１つの適応された２Ｄの画像モデル（ｐ１’）と、関連する適応された深さ（ｄ１’）とを取得するステップと、
それによって適応された３Ｄのモデル（ｍ’）を取得するために前記関連する適応された深さ（ｄ１’）に基づいて、前記少なくとも１つの適応された２Ｄの画像モデルを３Ｄに対して逆投影するステップと
を含む。

少なくとも１つの２Ｄの投影の状態と、３Ｄの画像モデルのその関連する深さ情報とを適応させることにより、より少ない計算のリソースが、使用され、このようにしてプロセスにおけるマニュアルの介入の必要性を取り除いている。３Ｄに対する逆投影は、３Ｄのモデルそれ自体が、できるだけ現実的に適用されることを保証する。

一実施形態においては、適応された３Ｄのモデル（ｍ’）は、さらに、初期の３Ｄのモデル（ｍ）の情報に基づいて決定される。

これは、適応されたモデルのスムーズなモーフィングを可能にする。

別の実施形態においては、ターゲット状態（ｓ）は、外部から課された制約条件によって決定される。

これは、例えば、鼻の形状、目のカラーなどに関する高レベルの情報を含むことができる。

別の実施形態においては、ターゲット状態（ｓ）は、外部画像入力（ＩＶ）の状態（ｓｅ）から取得される。

ターゲット状態は、前記外部の画像入力（ＩＶ）の状態（ｓｅ）を前記少なくとも１つの状態（ｓ１）と組み合わせることにより取得されることになるので、これにより、３Ｄのモデルは、ライブ・ビデオの上で、例えば、オブジェクトの変化する特徴にスムーズに適応させ、または静止画像の上に存在するようにこのオブジェクトを類似させることができるようになる。

好ましい変形形態においては、前記外部画像入力（ＩＶ）は、２Ｄの画像入力を含み、また前記３Ｄのモデルの少なくとも１つの２Ｄの投影のうちの１つは、前記外部画像入力（ＩＶ）から推論される仮想カメラに従って実行される。

これは、外部画像入力と、３Ｄのモデルとの間の最適な関係を取得するために有用である。

さらに別の変形形態においては、外部画像入力は、２Ｄ＋視差の入力を含むことができ、この２Ｄ＋視差の入力を用いて、２Ｄと、視差情報との両方が、例えば、立体カメラによって外部から提供されることが、意味される。次いで、深さ情報が、深さ×視差＝一定という式を用いてこの視差情報から直接に導き出される可能性がある。

これは、関連する深さをアップデートするために、この入力からの深さデータを直接に使用することを可能にする。

本発明は、同様に、そのような装置を組み込んでいる画像またはビデオの処理デバイスのために、この方法を実行するための装置の実施形態に関し、またデータ処理装置の上で実行されるときに、上記の方法ステップまたは特許請求される方法ステップを実行するように適合されたソフトウェアを含むコンピュータ・プログラム製品に関する。

特許請求の範囲において使用される用語「結合される（ｃｏｕｐｌｅｄ）」は、直接接続だけに限定されるようには解釈されるべきではないことに注意すべきである。したがって、表現「デバイスＢに結合されたデバイスＡ」の範囲は、デバイスＡの出力が、デバイスＢの入力に直接に接続されたデバイスまたはシステムだけには限定されるべきではない。それは、Ａの出力とＢの入力との間にある経路が存在しており、この経路は、他のデバイスまたは手段を含む経路とすることができることを意味している。

特許請求の範囲において使用される用語「備えている／含んでいる（ｃｏｍｐｒｉｓｉｎｇ）」は、その後にリストアップされる手段に限定されるようには解釈されるべきではないことに注意すべきである。したがって、表現「手段ＡとＢとを備えているデバイス」の範囲は、コンポーネントＡとＢとだけから構成されるデバイスだけに限定されるべきではない。それは、本発明に関しては、デバイスの単に関連のあるコンポーネントが、ＡとＢとであることを意味している。

本文の全体を通して、２次元は、２Ｄと略記されることになるが、以上で述べられているように、３次元は、３Ｄと略記されることになる。

本発明の上記および他の目的と特徴とは、添付図面と併せて解釈される実施形態についての以下の説明を参照することにより、より明らかになり、また本発明それ自体は、最もよく理解されるであろう。

方法および装置の第１の変形形態を示す図である。方法および装置の第１の変形形態を示す図である。本発明の実施形態において関連のある幾何学的モデルを概略的に示す図である。本発明の実施形態において関連のある幾何学的モデルを概略的に示す図である。本方法の第２の変形形態を示す図である。本方法の第２の変形形態を示す図である。本方法のそれぞれ第３および第４の実施形態を示す図である。本方法のそれぞれ第３および第４の実施形態を示す図である。追加の２Ｄのビデオ入力の場合の図３ａの実施形態によって実行されるような異なるステップを明確にする図である。追加の２Ｄのビデオ入力の場合の図３ａの実施形態によって実行されるような異なるステップを明確にする図である。追加の２Ｄのビデオ入力の場合の図３ａの実施形態によって実行されるような異なるステップを明確にする図である。

本明細書における任意のブロック図は、本発明の原理を具現化する実例となる回路の概念図を表すことが、当業者によって理解されるべきである。同様に、任意のフロー・チャート、流れ図、状態遷移図、擬似コードなどは、そのようなコンピュータまたはプロセッサが、明示的に示されているか否かにかかわらず、コンピュータ読取り可能媒体において実質的に表現され、またそのようにしてコンピュータまたはプロセッサによって実行され得る、様々なプロセスを表すことが、理解されるであろう。

図１ａは、ｍで示される３Ｄのモデルを適応させるための方法の第１の変形形態によって実行されるようなステップを示すものである。

第１のステップにおいては、３Ｄのモデルの投影が、２Ｄに対して実行される。この投影についてのパラメータは、例えば、ｃｈａｐｔｅｒ６ｏｆｔｈｅｔｕｔｏｒｉａｌｈａｎｄｂｏｏｋ、「ＭｕｌｔｉｐｌｅＶｉｅｗＧｅｏｍｅｔｒｙｉｎｃｏｍｐｕｔｅｒｖｉｓｉｏｎ」、ｂｙＲｉｃｈａｒｄＨａｒｔｌｅｙａｎｄＡｎｄｒｅｗＺｉｓｓｅｒｍａｎ、ＣａｍｂｒｉｄｇｅＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ、ｓｅｃｏｎｄｅｄｉｔｉｏｎ２００３年、ＩＳＢＮ０５２１５４０５１８の中で説明されるように、よく知られているピンホール・カメラ・モデルに従って使用されるパラメータである。

したがって、これは、中心の「ピンホール」を経由して３Ｄ空間におけるポイントのプレーンへの投影に関する。このモデルにおいては、プレーンは、カメラの投影面に対応しており、ピンホールは、多くの場合にカメラの中心として示されることもある、カメラの絞りの開口部に対応している。投影ステップの結果は、ｐ１、ｄ１で示され、ｐ１は、２Ｄの投影それ自体を示しており、この２Ｄの投影は、カラー情報を含むピクセル値の２Ｄの行列によって表されることもあり、またｄ１は、投影深さのマップを示しており、この投影深さのマップは、関連する深さの値の２Ｄの行列によって表される可能性もある。これらの関連する深さの値は、後の段落で与えられることにもなるよく知られている式に従って元の深さの値とカメラ位置とから算出される。

代わりに、投影と、深さのマップとは、１つの大きな２Ｄの行列の内部に表される可能性があり、そこでは、各投影されたピクセルでは、カラー情報と、関連する深さの情報との両方は、対応する行列の行と列との中に存在している。

投影それ自体は、基準座標系を規定する３つの軸ｘ、ｙ、ｚを経由してこれらの座標系を規定する原点Ｏに関して３つの空間座標ｘ_Ａ、ｙ_Ａ、ｚ_Ａを有するポイントＡを示して、図２ａにおいて概略的に示されている。ピンホール・カメラは、この同じ基準原点と基準座標系とに関して座標ｘ_Ｃ、ｙ_Ｃ、およびｚ_ｃを有するそのカメラ中心位置Ｃによって示される。ポイントＡの投影は、このカメラに関連する投影スクリーンの上に行われ、またＳで示されている。ポイントＡのピンホールＣを経由したこのスクリーンへの投影は、関連する座標（ｘ_ｐＡ，ｙ_ｐＡ）を有するｐ（Ａ）で示される。しかしながら、これらの座標は、この投影面Ｓの内部に規定されるように２次元の軸ｘ_ｐとｙ_ｐとに関して規定される。

図２ａをあまりにも複雑にしないようにするために、カメラが、３つの基準軸ｘ、ｙ、ｚに対して回転されないことが、ここで仮定される。しかしながら、よく知られている式が、このより一般的な場合についても存在しており、またこれらは、投影と、関連する深さのマップとの算出のために本発明による実施形態において使用される。カメラのこれらの回転は、図２ｂにおいて概略的に示されるようにｘ、ｙ、ｚ軸の周りのカメラの中心の回転をそれぞれ示すためのθ_ｘ、θ_ｙ、θ_ｚで示され、ここでは、これらの回転だけが、原点Ｏがカメラの中心Ｃと一致する場合について示されている。

最も一般的な場合においては、それゆえに、Ｃは、基準の原点Ｏと、基準軸ｘ、ｙ、ｚとに関して変換もされ、また回転されることもある。

本発明による実施形態においては、３Ｄのモデルの投影は、そのときには、これらがスクリーン・エリアＳの外形の内部に含まれる限り、またそれらが、このモデルの別の３Ｄのポイントの別の投影によって塞がれない限り、このモデルの投影された３Ｄのポイントのカラー情報またはテクスチャ情報から構成されることになる。閉塞（Ｏｃｃｌｕｓｉｏｎ）は、３Ｄのオブジェクトのすべての２Ｄの投影に伴ってほとんど本質的に起こり、またこのモデルの複数の３Ｄのポイントが、投影上の同じ２Ｄのポイントに投影されることになることに関する。

この投影に関連する深さのマップは、そのときには、投影されたピクセルｐ（Ａ）のおのおのについて、カメラの位置に関する、それらのそれぞれの相対的な深さの値から構成されることになる。これは、
ｄ_ｚ＝ｃｏｓθ_ｘ・（ｃｏｓθ_ｙ・（ａ_ｚ−ｃ_ｚ）＋ｓｉｎθ_ｙ・（ｓｉｎθ_ｚ・（ａ_ｙ−ｃ_ｙ）＋ｃｏｓθ_ｚ・（ａ_ｘ−ｃ_ｘ）））−ｓｉｎθ_ｘ・（ｃｏｓθ_ｚ・（ａ_ｙ−ｃ_ｙ）−ｓｉｎθ_ｚ・（ａ_ｘ−ｃ_ｘ））（１）
として示され、
θ_ｘ、θ_ｙ、θ_ｚは、図２ｂに示されるような基準軸の周りのカメラのそれぞれの回転を示しており、
ａ_ｘ、ａ_ｙおよびａ_ｚは、基準座標系におけるポイントａの座標を表しており、
ｃ_ｘ、ｃ_ｙおよびｃ_ｚは、この基準座標系におけるカメラの中心ｃの座標を表しており、また
ｄ_ｚは、カメラの中心ｃに関してポイントａの関連する深さを表している。

基準原点Ｏにおける基準座標系ｘ、ｙ、ｘに関して、カメラの回転が存在していない場合には、式（１）が
ｄ_ｚ＝ａ_ｚ−ｃ_ｚ（２）
に簡約化されるように、これらの回転角は、ゼロであり、
これは、図２ａにおけるような表記法を使用して、また図２ａに示されるように
ｄ（Ａ）＝ｚ_Ａ−ｚ_ｃ（３）
に対応する。

一般に、投影は、３Ｄにおいて適応されるべき３Ｄのモデルの特徴が、十分に高い分解能で、またはそれらが最適に投影画像を満たすように、投影の一部分になるように、選択される。これは、所定の投影位置の組を試みること、および最良の結果を与える投影位置を選択することによりヒューリスティックに（ｈｅｕｒｉｓｔｉｃａｌｌｙ）行われる可能性がある。

別の実施形態においては、これは、さらに、ある中間のステップを経由して決定される可能性があり、そこではモデルの３Ｄの表面は、３Ｄの三角形を用いて近似されることになる。一般に、適応されるべき特徴に関連したモデルの一部分だけが、次いで、そのような３Ｄの三角形によって近似されることになる。これらの三角形のおのおのでは、垂直方向に関連した垂線が、決定される。理想的な投影では、この垂線の方向は、この三角形に対してカメラの方向に関して１８０度であるべきである。各カメラ位置では、すべての三角形にわたっての、それぞれの三角形の上の垂線と、三角形の中心に対するカメラの方向との間のこの角度の余弦（ｃｏｓｉｎｅ）についての総計は、次いで最小にされるべきである。いくつかの可能性のあるカメラ位置にわたってこの総計を算出すること、およびこの総計についての最小値を与える位置を選択することにより、最適な方向が、算出される可能性がある。代わりに、最小化問題それ自体は、最適なカメラの方向を決定するためなどに、解決されることもある。

もちろん、たくさんの他の技法が、当業者によってよく知られているように、使用される可能性がある。

次のステップにおいて、状態は、この投影から抽出される。状態を用いて、オブジェクトの特徴の構成が意味され、この特徴は、それら自体、１組の値によって表される。これらの値は、それゆえに、オブジェクトの、場合によっては可変な特性または特徴を説明することができる。値のこの組は、ベクトルの形に配列される可能性があるが、そのような状態についての他の表現もまた、もちろん可能である。したがって、状態抽出は、画像のオブジェクトの状態を表すための、この場合には、３Ｄのモデルの投影である状態パラメータが、決定されることを意味する。これは、さらなる段落において説明される例において示されることになるように、３Ｄのモデル情報に基づいて、または例えば、第１に、考慮中のオブジェクトの認識／検出のステップを必要とする、より一般的な方法を使用することにより、場合によっては、必ずしもそうであるとは限らないが、さらに、このようにして認識された／検出されたオブジェクトの深さ分析が続いている、セグメンテーション・オペレーションを実行することにより、いくつかの計算を経由して行われる可能性がある。

しかしながら、本発明による大部分の実施形態においては、３Ｄのモデルそれ自体は、既に、状態抽出が、３Ｄのモデルの状態に基づいた計算に著しく簡約化され得るように、知られている。万一、この３Ｄの状態が、人間の頭の３Ｄのモデルの場合における顔の特徴とすることができるある種の特徴の座標に関連している場合には、これらの３Ｄのポイントの２Ｄの投影は、２Ｄの画像の状態パラメータを直ちにもたらす可能性がある。

万一、３Ｄのモデルの状態が、まだ知られていない場合には、以前に説明された認識ステップには、例えば、ＡＡＭと略記されるアクティブ外観モデル（ＡｃｔｉｖｅＡｐｐｅａｒａｎｃｅＭｏｄｅｌ）の使用を伴うさらなる分析が続いている可能性がある。これは、例えば、アップデートされるべきオブジェクト・モデルとしての人間の頭の場合には、２ＤのＡＡＭ内部成形モデルとの適合を経由して２Ｄの投影された画像についての顔の特徴についての形状と外観との決定を可能にする。それは、２ＤのＡＡＭモデルの開始値と２Ｄの投影を比較することから開始されることもあり、次いで、このＡＡＭモデルそれ自体は、さらに、最良の適合を見出すように徐々に変更される。ひとたび、良好なマッチが見出された後には、このようにして、このＡＡＭ適応モデルに基づいて決定される顔＿表情＿１＿ｘや顔＿表情＿１＿ｙなどのパラメータは、出力される。

図１ａにおいて、投影画像の状態は、ｓ１で示され、またこれは、ターゲット状態合成ステップ中に使用される。ターゲット状態ｓは、２Ｄの投影の状態ｓ１から、また外部の状態情報から取得される。ｓｅで示されるこの外部状態情報は、例えば、静止画像入力からオフラインで、または他の記述情報、例えば、鼻の形状もしくは目のカラー、顔の表情などに関する、例えば、高レベルの意味情報に基づいてのいずれかで前もって決定されている可能性もある。この場合には、この外部状態情報はまた、メモリ内に前もって記憶されていてもよい。

代わりに、この外部状態情報ｓｅは、例えば、変化する外部ビデオ画像入力データに基づいて「オン・ザ・フライ」に決定される可能性もあり、この外部ビデオ画像入力データは、したがって時間とともに急激に変化する可能性がある。そのような状況においては、外部状態ｓｅは、一般に、ビデオ・シーケンスの逐次的フレームの上で決定されることになる。

外部状態情報は、ターゲット状態を取得するための２Ｄの投影の状態ｓ１と一緒に使用される。

入力状態ｓ１およびｓｅからの、図１ａにおいてｓによって示されるターゲット状態を決定するための方法は、状態の信頼度を反映する重みと、ｓ１およびｓｅの値の重み付けされた組合せを実行するステップを含むことができ、この信頼度レベルは、それら自体、状態抽出それ自体の間に決定された。ｓ１パラメータを決定するためのＡＡＭ方法の上記例では、マッチング結果を識別するパラメータは、次いで、例えば、そのような信頼度評価尺度として選択される可能性がある。

ターゲット状態を決定するための別の方法は、単に、例えば、ｓｅを選択するステップから構成されることもあり、そのオプションは、万一、それらの異なる状態の、上記の例において説明されるような補間または重み付けされた組合せの結果のチェックが、そのような補間された結果が所定の限界の外側に位置していることを示す場合に、好ましいものとすることができる。

状態およびターゲット状態の決定のための特定の実装形態は、さらに、図４ａ〜ｂの実施形態の説明中に説明されるであろう。

図１ａにおいてｓで示されるターゲット状態の決定のすぐ後に、２Ｄの投影ｐ１、ならびに関連する深さのマップｄ１は、ターゲット状態ｓに従って変換されることになる。一例においては、例えば、顔の特徴を表現するための三角形を使用する方法が、使用されることもある。これらの三角形によって規定されるように距離を補間すること、および特徴をこれらの新しい位置としてのピクセルに起因するようにすることを用いて、画像変換が、もたらされる可能性があり、これらの新しい位置は、それらの以前の位置において以前にピクセルに起因するものとされたものである。そのような方法は、万一、たくさんのそのような三角形が使用される場合には、非常に有用である。

類似した方法においては、それらの特徴に関連する投影画像のピクセルのアップデートされた２Ｄの座標は、新しい状態に従って算出されることになる。元の２Ｄの投影について規定される三角形の間に位置するピクセルのカラー情報と、テクスチャ情報とは、アップデートされた画像の中のこれらの新しい位置における三角形の間に位置するピクセルに起因するようにされることになる。したがって、２Ｄの投影についての２つのポイントが、内部の座標（１００，１００）と、（２００，２００）とを有し、またこれらが、変換された投影の上で、座標（５０，５０）と、（１００，１００）とに変換されることになる場合、座標（１５０，１５０）における元のピクセルのカラーは、座標（７５，７５）における変換された画像の中のピクセルに起因するものとされることになる。

別のより詳細な実装形態は、さらに、図４ａ〜ｂを説明するときに、説明されるであろう。

適応された２Ｄの投影は、ｐ１’で示される。

また並列に、関連する深さのマップについての関連する深さの値は、ターゲット状態に従って適応される。いくつかの実施形態においては、ターゲット状態の決定は、直接に、投影のピクセルのうちのいくつかについて、適応された深さの値の算出を必要とする。次いで、ターゲット状態に従った他の深さの値についての適応は、適応された投影されたピクセルについてのカラー値の適応に関して上記の段落において説明されているように、既に算出された適応された深さの間の補間を経由して起こる可能性もある。

適応された深さのマップは、ｄ１’で示される。

変換された深さのマップと、一般的に、適応された２Ｄの画像モデルを含んでいる変換された２Ｄの投影とに基づいて、３Ｄに対する再投影または逆投影が、３Ｄから２Ｄへの投影それら自体の間に使用される逆変換としてそれらの逆変換を使用して、ただし今や適応された投影画像の２Ｄのピクセルごとに、適応された関連する深さの値を使用して、実行される可能性がある。

この逆投影の結果は、ｐ３ｄ＿１で示される。

いくつかの場合においては、３Ｄにおける逆投影されたポイントは、アップデートされた３Ｄのモデルを形成するために十分である。

他の実施形態においては、３Ｄに対する逆投影は、アップデートされた、または適応された３Ｄのモデルｍ’を取得するために、元の３Ｄのモデルｍと統合される。

図１ｂは、本方法の一実施形態を実行するための装置Ａを示すものである。

図３ａは、複数の投影が初期の３Ｄのモデルｍから実行される変形実施形態を示すものである。それらの投影、それら自体は、モデルの形態および形状と、第１の投影の選択によって起きる閉塞の量とに従って、または投影パラメータの決定それ自体について上記に説明されるようなそれらの方法のうちの１つを使用して、選択される可能性がある。可能性のある実装形態は、それゆえに、３Ｄにおける１組の三角形を用いてモデル化されることになる３Ｄの表面の近似に基づいている可能性がある。これらの三角形のおのおのについて、垂直な方向が、算出される。これは、３Ｄのモデルの本体の外側を指し示す３Ｄの「垂線」ベクトルによって表されることもある。この３Ｄのベクトルと、カメラ投影方向との間の差を算出することにより、閉塞の決定のための簡単なやり方は、塞がれていない表面では、投影方向が垂線ベクトルと逆向きであるべきであるように、取得される。そのため、カメラ投影がチューニングされ得、それゆえに、また十分に良好な投影を取得するために、したがってモデル化されるべきすべての特徴についての十分な分解能を用いて、いくつかの投影が、必要とされ得ることも、結局分かってきたこともある。代わりに、３というのデフォルトの数の所定の投影が、使用される可能性もあり、最も最適なカメラ位置についての試行錯誤の算出を軽減している。

これらの異なる投影は、関連する深さのマップｄ１、ｄ２からｄｎを有する、ｐ１、ｐ２からｐｎで示される。これらの投影のおのおのは、それゆえに、図２ａ〜ｂの中に示されるように、ある種の位置と、回転と、関連するスクリーンの幅および長さとを有する仮想カメラに関連づけられる。

これらの異なる投影ｐ１からｐｎのうちのおのおのはまた、状態抽出またはオペレーションを受けることにもなり、それぞれの決定された状態ｓ１、ｓ２からｓｎをもたらす。いくつかの実施形態においては、これらのそれぞれの投影の状態は、上記で説明されるように、直接に適応されるべき特徴が、考慮中の特徴の座標またはピクセル位置に関連している場合のこれらの状況においては特に、算出される可能性がある。

これらのそれぞれ決定された状態ｓ１からｓｎは、場合によっては、ただし必ずしもそうであるとは限らないが、ターゲット状態ｓの決定のために、外部状態入力ｓｅと一緒に、それぞれの入力として使用される。ターゲット状態のこの決定は、重みが、それらの状態の信頼度を反映して、様々な入力状態の重み付けされた組合せを実行することを含むことができ、これらの信頼度レベルは、それら自体、状態抽出それ自体中に決定された。ｓ１パラメータを決定するためのＡＡＭ方法の上記の例では、マッチした結果を識別するパラメータが、次いで、例えば、そのような信頼度評価尺度として選択される可能性がある。

ターゲット状態を決定するための別の方法は、簡単に、入力状態のうちの１つ、または外部状態の１つを選択することから構成されることもあり、この外部状態のオプションは、万一、異なる状態の以上の例において説明されるような補間または重み付けされた組合せの結果のチェックが、そのような補間された結果が所定の限界の外側に位置していることを示す場合には、好ましい可能性がある。

ターゲット状態ｓは、そのｎ個のそれぞれの投影と、それらのそれぞれの関連する深さのマップがアップデートされる基礎を形成する。アップデートされた投影は、ｐ１’、ｐ２’からｐｎ’で示され、またアップデートされた深さのマップは、ｄ１’、ｄ２’からｄｎ’で示される。

これらのアップデートされた投影ｐ１’、ｐ２’からｐｎ’のうちのおのおのは、次いで、それらの投影におけるおのおのの２Ｄのピクセルに関連するアップデートされた深さのマップの値に基づいて３Ｄに対して逆投影される。これらの逆投影は、アップデートされた、または適応されたモデルを作り出すために元のモデルと一緒に統合される。

図３ｂは、この変形の方法を実行するための装置の一実施形態を示すものである。

図４ａは、人の頭の３Ｄのモデルを適応させるための一実施形態を示すものである。この実施形態においては、このモデルの状態は、顔の表情に関連しているが、他の実施形態においては、状態は、同様に、髪、目、皮膚などのカラーに関連したものとすることができる。この特定の実施形態における目標は、入力の２Ｄのビデオによって提供される顔の特徴を使用して、３Ｄのモデルをアニメートすることである。

この入力ビデオは、図３ａの上ではＩＶで示される。ビデオの各フレームでは、オブジェクトのスケールと方向とは、３Ｄのモデルのこれらに関して推定される。これは、３Ｄのモデルの２Ｄのプレーンに対する仮想カメラの視点に関連した、第１の投影を決定するために好ましく、この投影は、２Ｄのビデオを取り込むカメラにおいて使用される２Ｄの投影にできるだけ似たものとすべきである。第１の投影のこの特定の選択は、そのようである必要はないが、簡単なアップデートのために有利である可能性がある。この特定の投影では、３Ｄのモデルの２Ｄのプレーンに対する投影は、それゆえに、入力ビデオの２Ｄの画像を撮影するために使用されたカメラの投影パラメータとできるだけ忠実に似ている関連する投影パラメータを有する仮想カメラを使用すべきである。

これらの投影パラメータのこの算出は、ここで以下に説明されることになるような知られている技法に従って行われる。

この仮想カメラについてのパラメータを決定するプロセスに対する入力は、人間の顔の３Ｄのデータベース・モデルと、ライブの２Ｄのビデオの供給とである。３Ｄのデータベース・モデルの顔の特徴の３Ｄの位置として、ライブ・ビデオの供給における顔の特徴の２Ｄの位置と、ウェブカメラと仮想カメラとの両方の投影行列とが、知られており、これらのデータは、ライブ・ビデオの供給における顔についての顔の特徴の３Ｄの位置を計算するために十分であるべきである。ライブ・ビデオの供給における顔の特徴についての３Ｄの位置が、データベース・モデルの対応する顔の特徴についての３Ｄのロケーションと一緒に、このようにして知られている場合、対応する３Ｄの位置の間の３Ｄの変換（並進および回転）は、算出される可能性がある。代わりに、３Ｄのデータベース・モデルの、ライブ・ビデオの供給において見られるものと同じ２Ｄのビューポートを取り込むために、仮想カメラの上で必要とされる３Ｄの変換（並進および回転）が、このようにして算出される可能性もある。仮想カメラの上で適用されるべき変換のこの算出のために必要とされる特徴ポイントの最小の数量は、３である。人間の顔は、変化する、また異なった感情に起因して柔軟性のないオブジェクトではないので、より多くの顔の特徴を獲得することは、最小化問題を解決することを必要とするであろう。したがって、３つの安定したポイント、例えば、左目の左端と、右目の右端と、口の上部とが、使用される。データベース・モデルにおけるこれら３つの顔の特徴の３Ｄの位置は、ライブ・ビデオの供給とウェブカメラの投影行列とにおける対応する顔の特徴の２Ｄの位置と一緒に、次に、よく知られているグリュナートのアルゴリズムに対して入力される。このアルゴリズムは、これらの対応する３つの顔の特徴の算出された３Ｄの位置を提供することになる。次には、これを使用して、３Ｄのデータベース・モデルの周囲で仮想カメラを移動させて、データベース・モデルの、ライブ・ビデオの供給において顔によって提供されるものと同じ２Ｄのビューを取り込むことができる。

いくつかの実施形態においては、図４ａにおいて示される実施形態のように、３Ｄのモデルのさらに別の投影を使用することが好ましいこともある。これは、万一、ビデオの供給の画像と類似した最適の投影をもたらすカメラ・パラメータを使用した第１の投影が、例えば、投影画像において、顔の一部分が鼻によって塞がれるときに、依然として十分なピクセル・データをもたらさない場合に、望ましい可能性がある。

これは、図５ａの上において、左側の長方形の中では、「実際の」人の「実際の」カメラによって取り込まれるビデオを示して例証されるが、右側の長方形の左側の部分は、仮想カメラ１で示される第１の仮想カメラを用いた３Ｄのモデルの投影を示している。観察することができるように、この仮想カメラによる３Ｄのモデルの投影は、「ライブの」２Ｄのカメラによって使用される投影状態とマッチする。顔の左側の部分のさらに別のいくつかのピクセルは、鼻によって塞がれる。したがって、別の仮想カメラによる別の投影が、実行され、このカメラは、「仮想カメラ２」で示されている。そのパラメータは、他のカメラ位置の塞がれたピクセルに基づいて決定される。これは、例えば、仮想カメラについての、焦点などの本質的パラメータと、非本質的パラメータとに基づいて、また３Ｄのモデルの知識に基づいて、決定される可能性がある。この情報は、３Ｄのモデルのモデル化されるべき特徴の２つのボクセルまたは３Ｄのポイントが、２Ｄの投影において同じピクセルに投影されることになるか否かを決定することを可能にすることになる。この場合には、閉塞が起こることになることは、明白である。この情報に基づいて、別の仮想カメラの位置が、次いで算出される可能性があり、少なくともこのボクセルについての異なる投影を可能にする。すべての投影されたピクセルについてこのチェックを実行することにより、閉塞の存在は、決定される可能性があり、また別の仮想カメラの位置と回転とが、これに基づいて決定される可能性もある。

別の実施形態においては、いくつかの所定の仮想カメラが、またはこれらの中からの選択が、興味のある特徴の投影を獲得するために、使用される可能性がある。代わりに、正面図と、９０度における２つの側面図とをそれぞれ提供するための仮想カメラの標準的な構成もまた、使用されることもあり、またどの特徴がモデル化されるべきかに応じて、すべての投影、またはそれらのサブセットが、使用される可能性がある。

万一、２つの投影だけが使用される場合には、この第２の投影の結果は、図５ａの右側の長方形の右側の部分に示される。投影ｐ１およびｐ２と一緒に、ｄ１およびｄ２で示される関連する深さのマップもまた、作り出される。これらは、おのおのの２Ｄの投影されたピクセルでは、それぞれの仮想カメラ１または２のビューのポイントから観察されるように、それぞれのカメラの位置に関して式（１）に基づいた回転情報を含めて相対的な深さを示している。２つの投影のおのおのについての深さのマップは、右側の長方形の下部の図の中に示される。

次のステップにおいて、その状態は、投影ｐ１とｐ２とついて、また同様に入力ビデオの逐次的なフレームについて両方ともに抽出されることになる。この実施形態におけるように、状態は、顔の表情に関連しており、これらは、このようにして特徴づけられることになる。これらの顔の表情に関連した特徴は、上記のＡＡＭ技法など、最新式の技法を使用して２Ｄの投影の上のように入力ビデオについての逐次的なフレームの上でも両方ともに抽出される。モデルの３Ｄの状態に基づいて、また対応するボクセル投影に基づいて上記で説明されるように投影の状態を算出することも可能である。これは、図５ｂの中で、ライブの２Ｄのフレームの上の口と目との端の異なるピクセルの位置を示している左側の長方形の中に示される。これらの同じ特徴のこれらの位置はまた、このようにして、投影の上で決定される。図５ｂの右側の部分においては、これは、投影ｐ１について示されているだけであるが、これはまた、投影ｐ２についても起こることが、明白であり、これは、図面を複雑にしないようにするためにこの図の上には示されていない。この特定の実施形態においては、それぞれの状態は、ｐ１、ｐ２の上に、また入力フレームの上に存在するような、これらの特徴に関連するピクセルの位置に対応する。これらの状態は、それぞれ、ｓ１、ｓ２およびｓｅで示される。ｐ１だけが、図５ｂの上に示されているように、ｓ１だけがまた、示されている。これらの３つの状態は、ターゲット状態を決定するために使用され、このターゲット状態は、この実施形態においては、状態ｓｅに対応する。この実施形態においては、それぞれの状態ｓ１およびｓ２は、このようにしてターゲット状態の決定のために使用されないが、これらのそれぞれの状態ｓ１およびｓ２は、それにもかかわらず、ターゲット状態に従って投影の変換中に使用される。ターゲット状態はまた、それゆえに、２Ｄの投影ｐ１およびｐ２を適応させるためにも使用される。仮想カメラでは、「実際の」ビデオ・カメラに対応して、この適応は、ビデオ・フレームの中に存在するようなこれらの特徴の対応するピクセル・ロケーションにより、選択された特徴のピクセル・ロケーションを置き換えることによって簡単に行われる可能性がある。実際のカメラに対するマッピングとしての仮想カメラ１の選択のおかげで、これは、非常に簡単に行われる可能性がある。他の仮想カメラ２によって取得される２Ｄの投影ｐ２を適応させるために、可能性のある方法は、最初に３Ｄにおいて決定されるｐ２という適応された特徴のロケーションを算出することを必要とする。これは、適応された投影ｐ１’と、適応された深さのマップｄ１’とに基づいて行われ可能性がある。これは、ｐ１’の上で目に見えるものであったこれらの特徴について、３Ｄにおけるそれらの位置を算出するように決定することを可能にする。第２の投影についての投影パラメータを使用することにより、ｐ２’の上のそれらの対応する位置は、識別される可能性がある。ｐ１とｐ２とから、閉ざされた特徴では、補間技法は、適応された投影と、適応された深さのマップとを算出するために使用されることもある。

ひとたびｐ１とｐ２とについての重要な特徴の新しいロケーションが、知られた後には、重み付けされた補間などのモーフィング技法が、重要な特徴ではなかった、それらのピクセルのカラーと深さとを決定するために使用される可能性がある。

投影ｐ１の適応は、図５ｂの上の右側の長方形の下部の図の中に示されている。この投影は、左側の長方形の入力ビデオ・フレームの上に存在するような「笑っている」顔の表情に今や適応されることが、明白である。これは、投影ｐ２（図５ｂの上には示されていない）についても起こることにもなる。

適応された投影ｐ１’とｐ２’との両方は、次いで、適応された深さのマップを使用して３Ｄに対して再投影され、また統合されて、以前のデータを置き換え、またはアップデートする。ｄ１’についてのデータは、適応された深さが、初期の深さに等しく、それゆえに考慮中の特徴に関連しており、また投影座標ｘ_ｐＡ、ｙ_ｐＡを有するピクセルＡについての初期の深さｄ（Ａ）が、今や、ｘ_ｐＡ’とｙ_ｐＡ’とについての座標ｘ_ｐＡ’、ｙ_ｐＡ’が考慮中の特徴の適応された座標になっているピクセルに帰せられることになるという近似に基づいて、算出されることもある。

これに関しては、適応された２Ｄの画像のすべての逆投影は、３Ｄのドメインにおいて整合性があるべきであることについて述べておくべきである。これは、基本的には、複数の２Ｄの投影された画像の中で目に見える変換された特徴を逆投影するときに、この特徴が、すべての投影から同じ３Ｄのロケーションに対して逆投影されるべきことを意味している。そのようにして、口の端が、変換され、また口のこの端が、これらの投影のうちのいくつかにおいて存在する場合、すべての逆投影された座標は、同じであるべきである。

例えば、ｘ＿３ｄは、考慮されている３Ｄのオブジェクトの上のある種の特徴（例えば、鼻の先端）である。ｘ＿３ｄは、情報（ｘ、ｙ、ｚ、カラー）を有するベクトルである。ｘ＿２ｄｚは、２Ｄ＋Ｚのドメインにおけるある種の特徴であり、それは、情報（ｘ＿２ｄ、ｙ＿２ｄ、深さ、カラー）を含むベクトルである。

ある種の仮想カメラｃ１による３Ｄの２Ｄ＋Ｚに対する投影は、関数ｐ、すなわち
ｐ（ｃ１，ｘ＿３ｄ）＝ｘ＿２ｄｚ＿ｃ１
を用いてモデル化される。

次に状態適応された３Ｄのモデルについて考えよう。状態適応の後の期待された３Ｄの特徴は、ｘ’＿３ｄと呼ばれる。３Ｄの状態転送関数は、ｍ＿３ｄ、すなわち
ｘ’＿３ｄ＝ｍ＿３ｄ（ｘ＿３ｄ）
であり、これは、
ｘ’＿２ｄｚ＿ｃ１＝ｐ（ｃ１，ｘ’＿３ｄ）＝ｐ（ｃ１，ｍ＿３ｄ（ｘ＿３ｄ））
を意味している。

状態に関しての適応は、投影の上で実行されるので、したがって、２Ｄ＋Ｚのドメインにおいて、ｍ＿３ｄ関数は、使用可能ではない。これは、ｍ＿２ｄｚ関数、すなわち
ｘ”＿２ｄｚ＿ｃ１＝ｍ＿２ｄｚ（ｃ１，ｘ＿２ｄｚ＿ｃ１）
を使用することにより近似される可能性があり、これは、
ｘ’＿２ｄｚ＿ｃ１＝ｘ”＿２ｄｚ＿ｃ１
である場合にのみ、３Ｄの状態と整合したものとすることができ、これは、関数ｐ（ｃ１，ｍ＿３ｄ）とｍ＿２ｄｚ（ｃ１）とが、考慮されたドメインの内部で事実上同じであることを意味している。

これが成り立つ場合には、問題はなく、また上記の方法は、どのような問題もなく使用される可能性がある。成り立たない場合には、追加のステップが、実施される必要がある。

これを考慮に入れるために、投影パラメータの注意深い選択が、最初からこの問題を解くことができる。

しかしながら、これが、対処されない場合、そのような不整合が、当てはまる可能性がある。それらの課題のうちの１つは、複数の２Ｄ＋Ｚのソースを使用して、３Ｄのモデルを再構築するときに、これらのソースの逆投影は、状態転送関数について「合致する」必要がある。それらの関数が、３Ｄの状態に整合しているときには、これは、問題ではない（すべての２ｄｚの関数が、実際に、３ｄの状態転送関数の特定の２ｄｚのバージョンを実施するので）。それらが、３ｄの状態に整合していないときに、本発明者等は、「正しい」３ｄの状態転送関数、またはその近似のいずれかを経由して、それらの整合性を強制する必要がある。これは、例えば、１つの基準の２ＤＺの状態転送関数を選択すること、およびすべての他の状態転送関数をこの基準へと投影することにより行われる可能性がある。
ｘ’＿２ｄｚ＿ｃ１ｒｅｆ＝ｍ＿２ｄｚ（ｃ１ｒｅｆ，ｘ＿２ｄｚ＿ｃ１ｒｅｆ）

次に、本発明者等は、本発明者等の基準の２ｄｚの状態転送関数であるｍ＿２ｄｚ（ｃ１ｒｅｆ）を考える。本発明者等は、３Ｄのドメインを経由して移動させることにより他の関数を構築することができる。
ｘ’＿３ｄ＝ｐ＿ｉｎｖ（ｃ１ｒｅｆ，ｘ’＿２ｄｚ＿ｃ１ｒｅｆ）＝ｐ＿ｉｎｖ（ｃ１ｒｅｆ，ｍ＿２ｄｚ（ｃ１ｒｅｆ，ｘ＿２ｄｚ＿ｃ１ｒｅｆ）
ｍ＿２ｄｚ（ｃ２，ｘ’＿２ｄｚ＿ｃ２）＝ｐ（ｃ２，ｘ’＿３ｄ）＝ｐ（ｃ２，ｐ＿ｉｎｖ（ｃ１ｒｅｆ，ｍ＿２ｄｚ（ｃ１ｒｅｆ，ｘ＿２ｄｚ＿ｃ１ｒｅｆ）））

３Ｄにおけるオブジェクトからのすべての特徴は、ｐ（ｃ，ｘ＿３ｄ）を通して移動させた後に有効な値を持たないようになることに注意すべきである。例えば、仮想カメラのビューの内部にないポイント、またはオブジェクトの中で他の特徴によって塞がれるポイントである。そのようなポイントについての整合した転送関数を有するためには、他の基準カメラが、必要とされることになる。

第２の実施形態は、人の顔の３Ｄのモデルの状態適応を伴うことにもなる第１の実施形態に対する変形形態であるが、上記の実施形態とは逆に、それは、２Ｄのカメラの代わりに、２Ｄ＋Ｚのカメラを使用しており、例えば、ステレオ・カメラ、またはマイクロソフトのＫｉｎｅｃｔなどの飛行時間型カメラを使用する。この場合には、本発明者等は、外部として２Ｄの代わりに、３Ｄの座標の中の顔の特徴ポイントを使用することができる。本発明者等は、この場合にも、必要に応じてできるだけ多くのオフライン・モデルの２Ｄ＋Ｚの投影を獲得して、ライブ・データによって修正されるすべてのポイントを対象として含め、またこれらの投影への状態を推論する。人は、例えば、「オフライン」の２Ｄ＋Ｚのデータの上で上記の実施形態のモーフィング技法を使用することにより、そのデータを統合することができるが、今やまた、特徴ポイントについての修正されたＺのデータを使用することもできる。

これらの実施形態においては、本発明者等は、３Ｄの状態適応の問題に簡約化することができた。１つまたは複数の２Ｄの画像から完全な３Ｄのモデルへと状態を転送することから開始した場合には、それは、次に、これらのオペレーションをリアル・タイムのアプリケーションのために扱いやすいものにする２Ｄから２Ｄ＋Ｚへと状態を転送することに簡約化される。

本発明の原理は、特定の装置に関連して上記で説明されているが、この説明は、単に例として行われているにすぎず、また添付の特許請求の範囲において規定されるような、本発明の範囲に対する限定として行われているものではないことを明確に理解すべきである。その特許請求の範囲においては、指定された機能を実行するための手段として表現されるどのような要素も、その機能を実行するどのようなやり方も包含することを意図している。これは、例えば、それゆえに、機能を実行するそのソフトウェアを実行するための適切な回路、ならびに少しでもあるとしたら、ソフトウェア制御された回路に結合された機械的要素と組み合わされた、ファームウェア、マイクロコードなどを含めて、任意の形態のその機能またはソフトウェアを実行する電気的要素または機械的要素の組合せを含むことができる。本発明は、そのような特許請求の範囲によって規定されるように、様々な列挙された手段によって提供される機能が、特許請求の範囲が要求するようにして組み合わされ、また一緒にされ、またそうでなければ具体的にそのように規定されていない限り、どのような物理的構造も、特許請求の範囲の本発明の新規性にとってほとんど重要でなく、または重要ではないことに存在している。それゆえに、出願人は、本明細書において示される機能と同等のこれらの機能を提供することができるどのような手段にも留意している。

Claims

オブジェクトの３Ｄのモデル（ｍ）を適応させるための方法であって、
関連する深さ情報（ｄ１）を有する少なくとも１つの２Ｄの画像モデル投影（ｐ１）を取得するために前記３Ｄのモデルの少なくとも１つの投影を実行するステップと、
前記少なくとも１つの２Ｄの画像モデル投影（ｐ１）についての少なくとも１つの状態抽出オペレーションを実行し、それによって少なくとも１つの状態（ｓ１）を取得するステップと、
前記少なくとも１つの状態（ｓ１）に従って、またターゲット状態（ｓ）に従って、前記少なくとも１つの２Ｄの画像モデル投影（ｐ１）と、前記関連する深さ情報（ｄ１）とを適応させ、それによって少なくとも１つの適応された２Ｄの画像モデル（ｐ１’）および関連する適応された深さ（ｄ１’）を取得するステップと、
それによって適応された３Ｄのモデル（ｍ’）を取得するために前記関連する適応された深さ（ｄ１’）に基づいて、前記少なくとも１つの適応された２Ｄの画像モデル（ｐ１’）を３Ｄに対して逆投影するステップと
を含む方法。
前記適応された３Ｄのモデル（ｍ’）は、初期の３Ｄのモデル（ｍ）情報に基づいてさらに決定される、請求項１に記載の方法。
前記ターゲット状態（ｓ）は、外部から課された意味情報から取得される、請求項１または２に記載の方法。
前記ターゲット状態（ｓ）は、外部画像入力（ＩＶ）の状態（ＰＳ）から取得される、請求項１または２に記載の方法。
前記ターゲット状態は、前記外部画像入力（ＩＶ）の前記状態（ＰＳ）を前記少なくとも１つの状態（ｓ１）と組み合わせることにより、取得される、請求項４に記載の方法。
前記３Ｄのモデルの前記少なくとも１つの２Ｄの投影のうちの１つは、前記外部画像入力（ＩＶ）から推論される仮想カメラに従って実行される、請求項４に記載の方法。
変換は、外部の前記ライブ・ビデオおよび前記投影された２Ｄの画像から抽出される重要な特徴に対して実行され、また前記投影についての前記重要な特徴の新しい位置は、前記ライブ・ビデオの前記重要な特徴のロケーションに基づいて決定される、請求項４乃至６のいずれか１項に記載の方法。
請求項１乃至７のいずれか１項に記載の方法を実行するように適合された装置（Ａ１）。
請求項８に記載の装置を備える画像処理装置。
データ処理装置の上で実行されるときに、請求項１乃至６のいずれか１項に記載の方法ステップを実行するように適合されたソフトウェアを含むコンピュータ・プログラム製品。