JP2013513842A

JP2013513842A - 改善された画像マッチングのための方法および構成

Info

Publication number: JP2013513842A
Application number: JP2012542521A
Authority: JP
Inventors: テイトガ，ドニー; マック，ジャン−フランソワ; リーヴェン，サミー; アーツ，マーティン
Original assignee: アルカテル−ルーセント
Priority date: 2009-12-11
Filing date: 2010-12-07
Publication date: 2013-04-22
Anticipated expiration: 2030-12-07
Also published as: CN102652319B; KR101428627B1; EP2333692A1; JP5559349B2; WO2011070023A1; US9589369B2; US20120299911A1; CN102652319A; KR20130004249A

Abstract

複数の画像（画像１，画像２）の間の少なくとも１組のマッチする属性（ピクセル，オブジェクト）を決定するための一方法は、前記複数の画像のうちの少なくとも一部分を複数の３−Ｄ投影された画像（画像１＿３Ｄ，画像２＿３Ｄ）をもたらす３次元空間へと投影するステップと、複数の３−Ｄ投影された画像のうちの３Ｄ投影された画像の内部の少なくとも１つの対応する組の要素を検索するステップと、複数の元の画像の内部の前記対応する要素を計算して戻し、また前記元の画像の内部の前記対応する要素を前記少なくとも１組のマッチした属性として提供するステップとを含む。

Description

本発明は、複数の画像の間の少なくとも１組のマッチした属性を決定するための方法に関する。

例えば、マッチしたピクセルやマッチしたオブジェクトなど、そのような１組のマッチした属性を決定するための現在の技法は、２つ以上の画像の間でそのようなマッチした属性を見出すために、２次元の、以降では２Ｄと省略される、画像処理技法を使用している。これは、２Ｄドメインの中で検索を実行して、これらの画像の中で対応するピクセルまたはピクセル・グループを見出すことを必要とする。知られている技法は、ほとんど、それらの画像のうちの１つの画像の中のピクセルの周りに架空のブロックを配置すること、およびそれらの画像の中のピクセルの周りのこれらのブロックに基づいて対応またはマッチングのスコアを計算するメトリクス（ｍｅｔｒｉｃｓ）を使用して、第１のものと最も良く対応している他の画像の中のブロックを検索することを必要とするブロック・マッチング技法に基づいている。これらのソリューションは、コンピュータ的に集約的であり、またそれらの画像が、例えば、これらのカメラの間に大きな距離があることを意味する、大きなベースライン（ｂａｓｅｌｉｎｅ）を有する２つのカメラによって生成されるときに、堅牢ではない。そのような画像、またはビュー（ｖｉｅｗ）は、顕著な違いを示すことになる。知られている方法の大部分は、さらに、それらの間で対応またはマッチングが、検索される画像におけるオブジェクトのある種のオーバーラップを必要とする。さらに、対応が、ピクセル・レベルそれ自体においてではなくて、オブジェクト・レベルにおいて検索されるときに、最先端の方法は、オブジェクトそれ自体が両方の画像において同じであるという事実にもかかわらず、それらの視点が、非常に異なるので、これらのオブジェクトのピクセル内容が全体的に異なる場合に、失敗する。これは、例えば、１つの画像が、例えば、その画像がこの人の前にあるカメラから撮られるときに、人の顔の細部を示す人間の頭を表示するが、別の画像が、この画像がこの同じ人の後ろにあるカメラから撮られたときに、ただし髪の毛など、頭の後部の細部を伴う同じ人間の頭を表示するときに、当てはまる可能性がある。

したがって、複数の画像の間のマッチした属性を決定するための改善された方法を提示することが、本発明の目的であり、本方法は、上記で述べられた先行技術の問題を解決することができる。

本発明によれば、この目的は、前記複数の画像のうちの少なくとも一部分を複数の３次元投影された画像をもたらす３次元空間へと投影するステップと、複数の３次元投影された画像のうちの３次元投影された画像の内部の少なくとも１組の対応する３次元要素を検索するステップと、前記少なくとも１組の前記対応する３次元要素を計算して複数の画像の内部の対応する２次元属性へと戻し、また前記画像の内部の前記対応する２次元属性を前記少なくとも１組のマッチした属性として提供するステップとを含む方法によって解決される。

二次元画像を、例えば、深さ情報が、これらの画像のために使用可能である場合に可能性がある三次元の、以降では３Ｄを用いて省略される、空間に投影することは、この３Ｄ空間において対応する要素、またはマッチした要素を検索することを可能にすることになる。対応する要素についてのこの検索は、さらに説明される異なる実施形態から明らかになるように、２Ｄ空間における検索に比べて、３Ｄ空間においては、ずっと簡単であり、またコンピュータ的にあまり集約的ではない。３Ｄの対応する要素を３Ｄ空間から２Ｄ空間へと逆算することにより、マッチする属性は、簡単で、しかも非常に正確なやり方で提供されることになる。さらに、３Ｄ空間の内部の対応する要素についてのこの検索は、同じ人の前側から撮られた画像と、後ろ側から撮られた画像とからの識別され認識された人間の頭の上記で述べられた例など、２Ｄにおけるマッチする属性を見出すことを可能にすることになる。これは、今までは、最先端の２Ｄ技法を使用することによっては可能でなかった。

属性は、ピクセルを含むことができ、それゆえに、異なる画像の間のマッチするピクセルを決定することを可能にしている。属性はまた、ピクセルのグループを含むオブジェクトを含むこともでき、異なる画像の間のマッチするオブジェクトを決定することを可能にしている。

変形の実施形態は、前記複数の画像のうちの１つの画像を参照画像として選択するステップと、前記参照画像の上の属性を識別するステップと、前記属性の３次元投影を前記少なくとも１組の対応する３次元要素のうちの３次元要素として識別するステップとをさらに含み、それによって、少なくとも１つの対応する３次元要素は、複数の画像のうちの他の画像の３次元投影された画像の中で検索される。

これは、特に複数の画像が、２つよりも多い画像を含む場合には、簡単な方法を提供する。１つの画像を参照画像として選択することにより、この参照画像と、他の画像との間のマッチする属性を見出すための計算は、いくつかの例を用いて示されることになるように、非常に簡単になる可能性がある。

別の実施形態においては、前記属性は、ピクセルを含み、また前記少なくとも１つの対応する３次元要素は、ボリューム・ボディ（ｖｏｌｕｍｅｂｏｄｙ）の輪郭の内部に含まれる複数の画像のうちの他の画像の３次元投影された画像の投影されたピクセルが、前記ピクセルの前記３次元投影のための対応する３次元要素として考えられるように、前記ピクセルの３次元投影の周囲に前記ボリューム・ボディを形成することによって検索される。

これは、考慮されているピクセルと、このボリューム・ボディの輪郭の内部に含まれる逆投影された３次元ピクセルとを含むマッチしたピクセルを識別するための簡単な方法を提供する。

対応するピクセルを決定するための３Ｄ空間の中で使用される任意のボリューム・ボディは、前記ピクセルの前記３次元投影の周囲に中心を置く楕円体とすることができる。

これは、３Ｄ投影されたピクセルの周囲に中心を置く３Ｄボリューム・ボディを形成するための非常に簡単な実施形態であることが分かる。

別の変形の方法においては、前記少なくとも１組の対応する３次元要素のうちの１つの要素は、前記複数から選択されるそれぞれの参照画像の１つまたは複数の３次元投影から得られる少なくとも１つの投影された３次元オブジェクトを含み、また対応する３次元要素は、前記少なくとも１組のマッチした属性が、前記少なくとも１つの投影された３次元オブジェクトと、前記グループとについての、２次元ドメインにおける元の画像への逆算によって得られるように、ピクセルのその３次元投影が、前記少なくとも１つの投影された３次元オブジェクトを近似するボリューム・ボディの輪郭の内部に含まれる、前記複数の画像のうちの別の投影された画像からのピクセルの３次元投影のグループとして決定される。

これは、マッチするオブジェクトを識別することを可能にする。

変形の一方法は、前記少なくとも１つの投影された３次元オブジェクトに対して、前記それぞれの参照画像の上の少なくとも１つの認識されたオブジェクトが、関連づけられるように、前記それぞれの参照画像の上の２次元画像認識のステップをさらに含む。

これは、複数の画像のうちの別の画像の上で以前に実行されたオブジェクト認識に基づいて、１つの画像の中のマッチしたオブジェクトを識別することを可能にする。このようにして、画像の上のパターン認識または画像認識のための簡単な方法は、その画像と、認識技法が２Ｄドメインの中で既に実行されており、また認識されたオブジェクトまたはパターンがこのようにして既に識別されている参照画像との間のマッチしたオブジェクトを識別することによって得られる。上記に述べられた技法を経由して、その画像と、参照画像の中の既に識別されたオブジェクトとの間のマッチした属性を決定することにより、この画像のセグメンテーションの適用を伴うパターン認識またはオブジェクト認識を実行する非常に簡単な方法が、得られる。

別の変形の方法は、少なくとも１つの投影された３次元オブジェクトに対して、前記３次元画像認識の結果として生じる少なくとも１つの認識されたオブジェクトが、関連づけられるように、前記それぞれの参照画像の前記１つまたは複数の３Ｄ投影の上の３次元画像認識のステップをさらに含む。

これは、２次元オブジェクト認識が非常に難しいこれらの画像の場合に代替案を提供する。３次元オブジェクト認識技法に基づいて、オブジェクトは、識別して２次元空間の中に戻されることが可能である。

別の変形においては、前記ボリューム・ボディは、前記少なくとも１つの投影された３次元オブジェクトに関連づけられる１組のボリューム・モデル（ｖｏｌｕｍｅｍｏｄｅｌ）から選択される。

これは、例えば、人間の頭など、典型的な形態学的形状を有するマッチしたオブジェクトが、識別されるべきである場合には、非常に興味深いことが分かる。１組のボリューム・モデルから、例えば、人間の頭などの外形を有するボリューム・モデルを選択することにより、この頭の輪郭の内部に含まれる他の画像の３Ｄ投影されたピクセルは、そのときには３Ｄにおける３Ｄ投影された頭に属する対応するピクセルとして考えられることが可能であり、また２Ｄに対するそれらの逆投影は、そのときには、２Ｄにおけるこの人間の頭の識別または認識をもたらすことになる。

さらに別の実施形態においては、前記ボリューム・ボディは、前記少なくとも１つの投影された３次元オブジェクトと前記ボリューム・ボディを適合させることによって適応させることが可能である。

これは、例えば、２Ｄにおける認識された頭の実際の３Ｄ投影されたピクセル・データを用いて、人間の頭の選択された形状をモーフィングすることによりマッチング・プロセスの精度をさらに改善することを可能にする。認識についての堅牢さは、それによってさらに改善される。

本方法の実施形態は、前記少なくとも１組のマッチした属性のうちの、また前記画像に関連するマッチした属性が、前記それぞれの参照画像の上の前記少なくとも１つの認識されたオブジェクトに関連づけられることになるように、複数の画像からある画像を画像認識するための方法の中で使用されることも可能である。

マッチしたピクセルを決定するための方法の実施形態は、時間における異なるインスタンスにおいて撮られるビデオ・シーケンスの２つの画像の間の動きベクトルを決定するための方法において使用されることも可能である。

第１の変形においては、前記方法は、請求項１乃至４のいずれか１項に記載の、第１のビデオ・シーケンスの、時間における前記異なるインスタンスにおいて撮られる２つの画像の間で決定される２次元動きベクトルの開始ピクセルについて、時間における最も早いインスタンスにおいて前記２つの画像のうちの第１の画像の内部でマッチしたピクセルを決定するステップを含み、前記方法は、３次元動きベクトルを得るために、前記第１のビデオ・シーケンスの前記２次元動きベクトルを３次元空間へと投影するステップをさらに含み、前記３次元動きベクトルは、前記マッチしたピクセルと、前記終了ピクセルとが、前記ビデオ・シーケンスの前記２つの画像の間の前記動きベクトルを定義するように、前記マッチしたピクセルの３次元投影に適用されて、それによって、前記２つの画像のうちの第２の画像における終了ピクセルについてさらに逆投影される対応する終了ポイントを得る。

代わりに、時間における異なるインスタンスにおいて撮られるビデオ・シーケンスの２つの画像の間の動きベクトルを決定するための方法は、請求項１乃至４のいずれか１項に記載の、第１のビデオ・シーケンスの、時間における前記異なるインスタンスにおいて撮られる２つの画像の間で決定される２次元動きベクトルの開始ピクセルと、終了ピクセルとについて、前記２つの画像の内部でそれぞれのマッチしたピクセルを決定するステップを含むことができ、前記２つの画像の中のそれぞれのマッチしたピクセルの前記対は、それによって前記ビデオ・シーケンスの前記動きベクトルの開始ピクセルと終了ピクセルとを定義する。

動きベクトルを決定するための、またいくつかの画像の間のマッチしたピクセルを決定するための方法についての実施形態を含む両方の代替案は、古典的な２次元ブロック・マッチング技法に基づいて、動きベクトルを計算する古典的なやり方に対する価値のある代替案を提示することができる。

特に、ビデオ符号化アプリケーションでは、これはまた、動きベクトル計算のための処理努力をかなり低減させることを可能にする。

本発明は、同様に、本方法の実施形態を実行するためのデバイスと、本方法の実施形態のいずれかを実行するようになっているコンピュータ・プログラムと、そのようなコンピュータ・プログラムを含むコンピュータ読取り可能ストレージ媒体とに関する。

本発明は、同様に、そのようなデバイスを組み込むためのビデオ・エンコーダと、画像アナライザとに関する。

特許請求の範囲において使用される用語「結合される（ｃｏｕｐｌｅｄ）」は、直接の接続だけに限定するように解釈されるべきではないことに注意すべきである。したがって、表現「デバイスＢに結合されたデバイスＡ」は、そこでデバイスＡの出力が、デバイスＢの入力に直接に接続されるデバイスまたはシステムだけには限定されるべきではない。それは、Ａの出力と、Ｂの入力との間に、他のデバイスまたは手段を含む経路とすることができる経路が、存在することを意味する。

特許請求の範囲において使用される用語「備える、含む（ｃｏｍｐｒｉｓｉｎｇ）」は、以下でリストアップされる手段だけに限定するように解釈されるべきではないことに注意すべきである。したがって、表現「手段ＡおよびＢを備えるデバイス」は、コンポーネントＡおよびＢだけから成るデバイスだけに限定されるべきではない。それは、本発明に関して、ただデバイスの関連のあるコンポーネントが、ＡとＢとであるにすぎないことを意味する。

本発明の上記ならびに他の目的および特徴は、より明らかになり、また本発明それ自体は、添付図面に関連して解釈される実施形態の以下の説明を参照することにより最も良く理解されるであろう。

本方法の高レベルの概略図である。１組のマッチしたピクセルを決定するための、図１の方法の一実施形態を示す図である。１組のマッチしたオブジェクトを決定するための、図１の方法の一実施形態を示す図である。ヒューマン・オブジェクトを識別するために特に適している図３ａの方法の好ましい一実施形態を示す図である。１組のマッチしたオブジェクトを決定するための方法の別の変形の実施形態を示す図である。画像２のセグメンテーションのために使用される、図３ａの方法の適用を示す図である。ヒューマン認識に関する画像２のセグメンテーションのために使用される、図３ｂに示される方法の適用を示す図である。どのようにして図４ｂの方法が、異なる側から見られる人間の顔を示す画像に適用され得るかを概略的に示す図である。動きベクトルを決定するための図２の方法の別の適用を示す図である。動きベクトルを決定するための図６ａに示される実施形態についての代替案を示す図である。図６ａに提示されるような動きベクトルを決定するための方法を概略的に説明する図である。図６ｂに提示されるような動きベクトルを決定するための方法を概略的に説明する図である。

説明および図面は、単に本発明の原理を示すにすぎない。したがって、当業者は、本明細書においては明示的に説明されても、また示されてもいないが、本発明の原理を実施し、またその精神および範囲の内部に含まれる様々な構成を工夫することができるようになることが、理解されるであろう。さらに、本明細書において列挙されるすべての例は、主として、本発明の原理と、当技術を推進するように本発明者（単数または複数）によって寄与される概念とを理解する際に読者を助ける教育上の目的のためにすぎないように明示的に意図され、またそのように特に列挙された例および状態だけに限定することのないものとして解釈されるべきである。さらに、本発明の原理、態様、および実施形態、ならびにその特定の例を列挙する、本明細書の中のすべての記述は、その同等物を包含するように意図される。

本明細書における任意のブロック図は、本発明の原理を実施する例示の回路の概念図を表すことが、当業者によって理解されるべきである。同様に、任意のフロー・チャート、流れ図、状態遷移図、擬似コード等は、そのようなコンピュータまたはプロセッサが、明示的に示されていようと、またはなかろうと、コンピュータ読取り可能媒体の中で実質的に表現され、またコンピュータまたはプロセッサによってそのように実行されることが可能な様々なプロセスを表現することが、理解されるであろう。

図１は、複数の画像の間の１組のマッチした属性を決定するための方法の高レベルの一実施形態を示すものである。図１においては、たった２つの画像、画像１と画像２とが、示されているが、２つよりも多い画像の間のマッチした属性を決定するための他の実施形態も、同様に可能性がある。

これらの画像、またはそれらの画像の一部分は、画像１＿３Ｄと、画像２＿３Ｄとそれぞれ示される３次元の、この明細書全体を通して３Ｄによって省略される、画像へとさらに変換される。これは、２つの次元のピクセル情報と、さらに深さ情報とを含むこれらの画像表現の場合に可能である。深さは、例えば、１対の立体画像（ｓｔｅｒｅｏｉｍａｇｅｓ）から抽出され得るパラメータである。これは、画像が、単に単純なカメラによって取り込まれるにすぎない場合に、何らかの知られている前処理技法を必要とする。この深さ情報は、飛行時間型カメラなど、いわゆる２Ｄ＋Ｚのカメラを使用することにより直接に取得されることも可能である。２Ｄカラー・ピクセル・データと一緒にこの深さ情報を使用することにより、両方の画像の３Ｄ表現が、２Ｄ画像データを３Ｄ空間へと投影することにより生成されることが可能である。

一般に、３Ｄの投影または表現だけは、他の画像の中のマッチした属性が、検索されるべき属性の一部分を形成し、またはそれらの属性に関連づけられるこれらのピクセルのために必要とされる。例えば、車などのオブジェクトを表現するピクセルの１つの特定のグループについてのたった１つのマッチした相手方が、検索されるべき場合、この車に属するピクセルだけが、３Ｄ空間に投影される必要がある。マッチした属性が、検索されるべきである他の画像もまた、部分的に投影されることが可能であり、例えば、第１の画像の中のこの車のピクセルに対応する、または車のピクセルのロケーションを取り囲む一部分だけが、投影を必要とする可能性がある。しかしながら、他の実施形態においては、完全な３Ｄ画像は、複数のすべての２Ｄ画像から再構築されることになるという可能性もある。すべての場合に、ｉが、それぞれの画像を示す画像ｉ＿３Ｄは、完全な画像の、または画像の一部分だけの３Ｄ投影の両方を意味する。

ひとたびそのような３Ｄ表現が得られると、対応する要素は、この３Ｄ空間の内部で検索されることが可能である。１つの可能性は、３Ｄ投影の間の対応するピクセルが、決定されるべきである場合に、ブロック・マッチングのための２Ｄにおいて使用される方法を投影されたピクセルの周囲の、例えば、簡単なボリュームのボリューム・マッチングへと外挿することであろう。これは、３Ｄ空間の内部の対応するピクセルまたはマッチするピクセルを検索する１つの可能性を表すが、より簡単な方法は、たった１つの３Ｄ画像、例えば、画像１＿３Ｄのピクセルの周囲の簡単なボリュームを使用することだけと、次いで単に画像２＿３Ｄという投影されたピクセルが、このボリュームの内部に含まれるかどうかをチェックすることだけとを必要とする。

この実施形態は、図２を参照してさらに詳細に説明されるであろう。

３Ｄ空間において決定されるべきこれらの対応する要素は、ピクセルとすることができるが、例えば、以上で述べられた例における車など、１組のピクセルを含む認識されたオブジェクトまたは構造を含むこともでき、あるいは認識された人の名前や認識された車のタイプなど、そのような１組のピクセルに関連づけられる何らかのさらなるメタデータを含むこともできる。２Ｄ画像の中のそのようなマッチしたオブジェクトを検索することは、そのときにはこの場合にも２Ｄ画像またはそれらの２Ｄ画像の一部分を３Ｄ空間に投影することにより、またこの３Ｄ空間において対応する投影されたオブジェクト・ボリュームを検索することにより、実行されることが可能である。これは、投影されたボリュームの第１の推測から出発する何らかの反復プロセスを用いて、また何らかのメトリック（ｍｅｔｒｉｃ）を使用することによりそれらの間の最上のマッチを検索することにより行われることが可能である。代替的なもっと簡単な方法が、図３ａから３ｃに関してさらに詳細に説明されるであろう。

ひとたび対応する要素のそのような組が、３Ｄにおいて決定されると、２Ｄ空間に対する対応する３Ｄ要素の対応するピクセルの再計算が、実行されることになる。次いで、これは、２Ｄにおける２つの画像の間の１組のマッチした属性の提供をもたらすことになる。上記に述べられるように、そのような１組のマッチした属性は、１組のマッチしたピクセル、あるいはピクセルの１組のグループ、またはおのおののマッチしたオブジェクトが、この場合にも両方の画像の中のピクセルのグループによって表現されている１組のマッチしたオブジェクトである１組のマッチした構造とすることができる。

マッチしたピクセルが、検索される場合には、非常に簡単な方法が、図２の中に示される。一般的な場合のように、両方の画像の一部分が、３Ｄ空間へと投影されることが可能であり、画像１＿３Ｄと、画像２＿３Ｄとによって示される３Ｄ表現をもたらすことになる。１つの画像の中の１つの特定のピクセルについての他の画像の中のマッチしたピクセルが検索される場合には、この１つの特定のピクセルだけが、画像１＿３Ｄがまさにこの単一の投影されたピクセルを含むように、３Ｄ空間へと投影されることが可能である。これは、図２に示される実施形態の中に示される。両方の画像が類似していることが知られている場合、その特定のピクセルの周囲の、またはその特定のピクセルの近傍のロケーションの上に位置している他の画像のうちの少数のピクセルだけが、投影される必要がある。この知識が、使用可能ではない場合には、すべての他の画像のうちのすべてのピクセルが、画像２＿３Ｄを生成するために３Ｄに投影される必要がある可能性がある。

他の画像の中のいくつかのマッチしたピクセルが決定されるべきである特定のピクセルでは、簡単な任意のボリュームが、その３Ｄ投影の周囲に構築され、または生成されることになる。他の画像の他のピクセルの３Ｄ表現が、このボリュームの一部分を形成するかどうかをチェックすることにより、他の画像のこれらの他のピクセルがマッチするか否かが、決定されることが可能である。

これは、基準となるそれぞれの投影されたピクセルの周囲のこのボリュームのサイズと形状とに応じて、いくつかの組の３Ｄの対応するピクセルを発生させることができるが、さらなる改良が、例えば、参照ピクセルの投影に対する距離を考慮することにより、最も関連のある対応する３Ｄピクセルを識別するように実行されることが可能である。この改良は、図２の中に示されてはいない。

３Ｄにおける対応するピクセルを識別するために、マッチする候補が検索されるべき３Ｄ投影されたピクセルの周囲の簡単なボリュームは、楕円体、または球、または立方体、またはビーム、または他の任意のボリューム・ボディとすることができる。球または立方体は、限られた計算的なリソースを可能にする非常に簡単なボリュームを表すが、異なる軸方向の大きさを有するボリュームの使用は、マッチそれ自体の精度に関する利点を有することができる。これは、例えば、２Ｄにおける立体画像対の場合に興味深いものとすることができる。これらの画像では、３Ｄ投影のために必要とされる深さのパラメータは、通常、伝統的な方法によって計算される。計算された深さの精度は、しかしながら、深さそれ自体の値と反比例しており、それゆえに、画像を通して変化する深さの値の場合には、寸法が変化する楕円体を使用することは、３Ｄ空間において、対応するピクセルまたは要素の決定のための精度をさらに増大させる助けをすることができる。

ひとたびそのような対応するピクセルが、他の画像の３Ｄ投影において、この場合には画像２＿３Ｄの中だけで、見出されたとすると、これらの対応する３Ｄ投影されたピクセルを計算して、元の２Ｄ画像の中のピクセルの位置を示すように戻されることになり、元の画像についての２Ｄにおける１組のマッチしたピクセルをもたらす。３Ｄ投影されたピクセルの周囲のボリューム・ボディの大きさが、あまりにも大きすぎた場合には、もちろん可能であるように、いくつかのマッチするピクセルが、１つまたは複数の他の画像の内部で見出される場合には、いくつかのさらなる反復、または改良の計算が、選択されたボリューム・ボディの大きさを適応させることによって実行されることが可能であり、あるいはその代わりに、３Ｄ投影された画像の内部の対応する３Ｄピクセルのうちの１つは、この３Ｄピクセルと、マッチが見出されるべきであった参照画像の３Ｄ投影されたピクセルとの間の、３Ｄ空間における、計算された距離など、何らかのメトリクスに基づいて選択されることが可能である。参照画像の３Ｄ投影されたピクセルに関する最小の３Ｄ距離を有する、３Ｄ投影された画像の中の３Ｄピクセルは、次いで、これが、３Ｄにおける対応する要素として選択されることになるように、３Ｄにおける最良のマッチとして選択されることになる。次いで、これは、計算されて２Ｄにおける元の画像へと戻されることになる。

図３ａは、２つの画像の間のマッチしたオブジェクトを識別するための方法の一実施形態を示すものである。オブジェクトは、自動化されたオブジェクト認識技法を使用することにより、またはヒューマン認識を用いて、２Ｄ画像の上で識別されることが可能である。一般に、１つの画像、通常、前のステップにおいて、オブジェクト認識を実行するための複数のうちで最も簡単であることが決定された画像が、選択される。しかしながら、後の段落において、より詳細に説明されるように、画像認識が実行されることになるより多くの参照画像を選択することも可能である。画像認識を実行するための参照画像の決定または選択は、この場合にも人間のユーザによって実行されており、または第１の結果についての分析が続く、そのような伝統的な画像認識技法を使用したすべての画像の第１のスキャンによってこの場合にも自動的に実行されている可能性がある。いくつかの伝統的な認識技法は、限られた数の特徴を含むことだけによるか、またはデータに対する分析を限定することによるかのいずれかによって粗い認識を可能にする。オブジェクトの認識の品質を示すメトリックをもたらす、複数の画像の上のそのような高速な初期の粗い認識を実行することにより、完全な認識ステップを行うべき画像の選択が、行われることが可能である。

この事前の選択は、図３ａには示されておらず、この図は、さらに、画像１が、２Ｄにおけるオブジェクト認識プロシージャを受けるために選択されたことを示す。このオブジェクト認識ステップの後に、認識されたオブジェクトのうちの１つは、さらに、他の画像の中でマッチしたオブジェクトを検索するために選択される。画像１の上のこのオブジェクトに属するピクセルは、それゆえに、３Ｄ空間へと投影され、画像１＿３Ｄをもたらす。代わりに、画像１のすべてのピクセルは、３Ｄ空間へと投影されることが可能であり、またオブジェクトに属するピクセルは、この画像１＿３Ｄの中で特に識別されることになる。並行して、画像２＿３Ｄもまた、画像２のピクセルのうちのすべてまたは一部分を３Ｄ空間へと投影することによって生成される。

認識されたオブジェクトについてのマッチしたオブジェクトを見出すために、第１の可能性は、このオブジェクトのすべてのピクセルについてのマッチしたピクセルを検索することを含む。この目的のために、後の段落で論じられることになるいくつかのオプションが、使用可能である。ひとたびこれらのマッチしたピクセルが、見出されると、次いで、これらのマッチしたピクセルを含むピクセルのグループは、他の画像の中のマッチしたオブジェクトとして考えられる。いくつかの実施形態においては、何らかのさらなる後処理が、マッチしたオブジェクトの組をさらに使用することになるアプリケーションに応じて、マッチしたオブジェクトの得られた組の上で必要とされる可能性がある。この後処理は、例えば、さらに雑音を取り除くことに関連している可能性がある。

画像２のピクセルのどのグループが、画像１の選択され、または識別されたオブジェクトとのマッチしたオブジェクトを形成するかをチェックするために、ピクセル毎のアプローチは、この場合にも、オブジェクトを構成するすべてのピクセルについてのマッチするピクセルを識別する目的で、画像１＿３Ｄの３Ｄ投影されたオブジェクトのすべての投影されたピクセルの周囲に任意のボリュームを形成することにより、適用されることが可能である。これは、この場合にも、上記の楕円体、または球、あるいは立方体を使用することによって行われることが可能である。次いで、それらが、これらのボリュームの輪郭の内部に含まれるかどうかが、画像２＿３Ｄの各ピクセルについてチェックされ、また次いで、そのように含まれるこれらのピクセルは、３Ｄにおける対応するオブジェクトに属する対応するピクセルとして考えられる。

代わりに、画像１＿３Ｄの３Ｄオブジェクトのすべての投影されたピクセルを取り囲む１つの大きなボリュームＶＯ、または各ピクセルの周囲の楕円体など、個別の小さなボリュームを包み込むボリューム、あるいは両方の混合体が、生成されることも可能である。ひとたびそのようなボリュームＶＯが、選択され、または生成された後に、画像２＿３Ｄの投影されたピクセルが、この任意のボリュームＶＯの輪郭の内部に横たわるか、または含まれるかが、決定される。次いで、このボリュームＶＯの輪郭の内部に含まれる画像２＿３Ｄのすべての投影されたピクセルは、３Ｄにおける対応するオブジェクトに属するものとして識別され、また画像２におけるそれらの位置は、逆算されることになり、それに応じて、画像２の中のマッチしたオブジェクトは、ピクセルのこの３Ｄグループの２Ｄドメインへの逆算として得られる。

いくつかの実施形態においては、ボリューム・ボディは、ちょうどオブジェクトそれ自体の３Ｄ投影によって形成されるボディとすることができる。

他の実施形態においては、３Ｄオブジェクトは、ボリューム・ボディによって近似される。これは、例えば、オブジェクトの形態が、認識プロセスから知られている場合にも、適しており、この場合には、３Ｄ投影されたオブジェクトを近似する一般的なボリュームが、使用されることが可能である。例えば、認識されたオブジェクトが、ラップトップに関することが知られている場合、何らかのビーム形状のボリュームが、３Ｄ空間におけるこのラップトップを表現するように選択されることが可能である。同様に、オブジェクトがボールに関することが知られている場合、球を使用して、このボールを表現することができる。このボリューム・オブジェクトは、それゆえに、３Ｄにおいて認識されたオブジェクトの形状に似ている知られているボリュームのライブラリから選択されることも可能である。これらの基本的なボリュームまたは形状は、例えば、投影されたボールを近似するように、選択された球の半径と中心点とを適応させることにより、選択され、またオプションとして、さらに、そのオブジェクトに適合させられることが可能である。いくつかの実施形態は、それらのボリュームのいくつかの大きさの適応を経由してかなり粗い近似および適合化を適用するが、より洗練された実施形態においては、これらのボリュームのモルフォロジー（ｍｏｒｐｈｏｌｏｇｙ）または形態は、できるだけ近い３Ｄ投影されたオブジェクトに似ているようにさらに適合させられることさえ可能である。これは、例えば、認識された人間の頭についての場合に当てはまる可能性がある。この場合には、人間の頭の形状を有する何らかの形態的ボリュームが、選択され、またさらに微調整されるか、または他の実施形態において、それによってこの頭の３Ｄ投影されたピクセルによって生成される包み込んでいるボリュームを適合させるために３Ｄ空間において生成されさえもするかのいずれかとすることができる。これは、図３ｂの中で示される。画像２＿３Ｄからのピクセルが、この形態的ボリュームの一部分を形成するかどうかをチェックすることにより、それゆえにそれらが、このボリュームの輪郭の内部に含まれるかどうかをチェックすることにより、またそれらを計算して２Ｄ空間へと戻すことにより、人間の顔の認識を実行する非常に簡単な方法が、この頭の後部が示されるだけの画像の上でさえ、行われることが可能である。これは、図５を考察するときにさらに例証されるであろう。

形態的適合化ボリュームの生成は、すべてのタイプのオブジェクトについて、それゆえに人間の頭についてだけではなく、実行されることが可能である。

他の実施形態においては、いくつかの参照画像が、ただ１つの参照画像の代わりに選択される。次いで、画像認識が、認識の精度を向上させる目的と共に、すべてのこれらの参照画像の上で実行される。これは、例えば、この場合にも、左側と、右側と、後ろ側とから撮られた人間の頭の３つのビューまたは画像についての場合に当てはまる。人の識別を意味する画像認識は、後ろ側から撮られたビューの上で実行されることが可能ではなく、それゆえに、左側と右側とだけが使用されることが可能である。この場合にも、これらのビューは、良好な認識のために十分でないそれら自体についてのものであるので、次いで左のビューと、右のビューとの両方は、その上で画像認識が実行される参照画像として選択される。次いで、それらの両方は、３Ｄ空間へと投影されることになり、また次いで認識されたオブジェクトの投影は、他の３Ｄ投影された画像における対応する要素が決定されるべき１つの３Ｄ認識されたオブジェクトまたは要素へとマージされることになる。この対応する３Ｄオブジェクトを検索するために、この場合にも、他の３Ｄ投影された画像の３Ｄ投影のピクセルが、３Ｄ認識されたオブジェクトを近似するボリューム・ボディの輪郭の内部に入るか、または含まれるかどうかが、チェックされることが可能である。ひとたびこれらのピクセルが、見出されると、それらは、計算されて、対応する２Ｄ画像へと戻されることになり、後ろ側から撮られた画像についてのこの人間の頭の認識をもたらす。

さらに他の実施形態においては、オブジェクト認識は、２次元空間においては実行されないが、３Ｄ空間において直接に実行される。この場合にも、次いで、１つまたは複数の選択された参照画像は、３Ｄ空間へと投影されることが可能であり、そのステップに応じて、画像認識は、３Ｄにおいて実行される。これを行うための技法は、当業者に知られており、また３Ｄの特徴の点または形状を見出すこと、およびそれらが認識されているオブジェクトの実現可能なモデルへと合体するかどうかをアサートすることを含むことができる。

この場合にもまた、１つよりも多くの参照投影が、２Ｄの場合と同じ理由のために使用されることが可能である。ひとたび３Ｄ投影された参照画像の中の参照オブジェクトが、識別されると、他の画像の３Ｄ投影の中の対応するオブジェクトが、例えば、ボディ・ボリュームを用いて、３Ｄの中のこの単一の識別されたオブジェクトまたは識別されたオブジェクトの組を近似することにより検索され、このボディ・ボリュームは、それゆえに、このオブジェクトそれ自体のまさに３Ｄ投影ともすることができ、そのステップに応じて、このボディ・ボリュームの輪郭の内部に含まれる他の画像の投影のピクセルが、決定される。３Ｄにおけるこの判断基準に準拠したピクセルのグループでは、参照画像を含む２Ｄの元の画像への逆算が、元の２Ｄ画像の中のマッチしたオブジェクトを識別するためなどに実行されることになる。図３ｃは、画像認識が、画像１の３Ｄ投影の上の３Ｄ空間において実行されるこの変形についての一実施形態を示すものである。

図４ａは、セグメント化された画像を生成するために使用される方法の一実施形態の第１のアプリケーションを示すものである。その図は、基本的に図３ａに示されるこれらのステップと同じステップを示しているが、この場合には、全体の画像１は、いくつかのオブジェクトにセグメント化されている。画像１の中の認識されたオブジェクトのおのおのでは、画像２の中の、もしあるとしたらマッチしたオブジェクトが、決定され、次いで、このオブジェクトは、認識されたオブジェクトに関連づけられることもある。このようにして、画像２の完全なセグメンテーションが、本方法の上記の実施形態を使用して、単にセグメント化された画像１と、オブジェクト・マッチングとに基づいて、得られることになる。図４ｂは、セグメント化された画像１が、顔など、認識されたヒューマン・オブジェクトを含む場合についてのこのアプリケーションを示すものである。次いで、マッチするヒューマン・オブジェクトが、画像２の中で識別され、この場合にも、画像２のセグメント化をもたらす。一般に、ピクチャは、ヒューマン・オブジェクトと、非ヒューマン・オブジェクトとの混合物を含むことになるので、もちろん両方の方法の組合せもまた、可能である。

このアプローチを使用することにより、全体の複数の画像のセグメンテーションは、このようにして、１つの単一のセグメント化された画像から、一般には、パターン認識を実行するために使用可能な最良の画像として選択された画像から得られることが可能である。この選択された画像の中で認識されるオブジェクトについて３Ｄ空間の内部の対応する要素を検索すること、上記の３Ｄ技法を経由して元の２Ｄ空間における他の画像の中の対応するオブジェクトを決定すること、および同じ認識されたオブジェクトを他の画像の中のマッチしたオブジェクトに関連づけることにより、非常に簡単な、それにもかかわらず非常に強力なマッチングおよびセグメンテーションの技法が、得られる。

図５は、さらに、同じ人からの、ただし１８０度異なった角度から撮られた、２つの画像の非常に簡単な例を用いてこれを示すものである。両方の元の２Ｄのピクチャが、それぞれのステップ（ａ）および（ｂ）として示される。顔の認識は、画像１の上で可能であり、これは、ステップ（ｃ）においてセグメント化された画像１をもたらす。画像２の上の十分な差別化する特徴の欠如に起因して、この同じ人は、最先端の方法によって、この同じ画像２の上で認識されることが可能ではない。しかしながら、本方法の実施形態、例えば図３ｂに示される実施形態を使用して、認識された人の頭に似ている形態的ボリュームは、認識された「ジョン・ドウ（ＪｏｈｎＤｏｅ）」の３Ｄ投影の中で生成されることが可能であり、また次いでこの３Ｄボリュームの内部に含まれる画像２＿３Ｄのピクセルは、３Ｄにおいてマッチする「ジョン・ドウ」オブジェクトに属するものとして識別されることにもなる。画像２＿３Ｄにおける対応する「ジョン・ドウ」の対応する３Ｄピクセルを画像２へと逆算することにより、画像２の中の「ジョン・ドウ」の認識と、それに付随して起こるセグメンテーションとが、得られることが可能である。これは、ステップ（ｄ）において表される。

いくつかの画像の間のマッチするピクセルを決定するための、説明されるような方法は、さらに、１つのビデオ・シーケンスから１つまたはいくつかの他のビデオ・シーケンスへの動きベクトルを決定するためのアプリケーションにおいて使用されることが可能である。

動きベクトルは、ほとんどビデオ符号化アプリケーションに関して使用され、その状況においては、それらは、元のピクチャ、または復号されたピクチャにおける座標から参照ピクチャにおける座標へのオフセットを提供する相互予測のために使用される２次元ベクトルを表す。そのような二次元動きベクトルの決定は、参照画像についてピクセル、またはピクセルのブロックについての、マッチするピクセルまたはピクセルのブロックを見出すために、時間における特定のインスタンスにおいてこの画像の一部分をトラバースするブロック・ベースの相関方法を使用することによって行われることが可能である。動きベクトルは、それによって、この画像におけるピクセルの現在のブロックの位置と、参照画像における同じサイズと大きさと方向性とについての最もマッチするブロックの位置との間のピクセル距離として計算される。

しかしながら、動きベクトルは、単なるビデオ符号化アプリケーションの範囲を超える目的のために使用されることが可能である。これらのアプリケーションのうちの１つは、トラッキングを含み、そこでは、動きベクトルは、ビデオ・シーケンス全体を通して対象のオブジェクトに追随するように使用されることが可能である。対象のこのオブジェクトを識別した後に、人は、ビデオ・シーケンスにおける動きベクトルを使用して、時間全体を通して対象のオブジェクトを追跡することができる。

この特許出願においては、本発明者等は、用語「動きベクトル」をその最も一般的な方法で使用することになり、この定義は、それゆえに、ビデオ・シーケンスの時間における特定のインスタンスにおいて撮られる１つのフレームまたは画像における特定のピクセルまたはブロックのピクセル位置と、時間における別の特定のインスタンスにおいて撮られるこのビデオ・シーケンスの別のフレームまたは画像における最もマッチするピクセルまたはブロックとの間のシフトを決定する二次元ベクトルを意味している。

２つの画像の間のそのような動きベクトルの伝統的な決定は、それゆえに、１対の最もマッチするピクセル、またはピクセル・ブロック、各画像からの１つのピクセル、またはピクセル・ブロックの識別を意味する。

新しい代替的な方法でそのような動きベクトルを決定するための第１の実施形態が、図６ａにおいて説明される。この図は、２つのビデオ・シーケンス、ビデオ１およびビデオ２を示しており、これらのうちの２つの特定の時間インスタンスｔおよびｔ−１における２つの特定のフレームだけが、示されている。もちろん、両方のビデオ・シーケンスは、一般的に、一連の時間インスタンスにおいて撮られる、２つよりもずっと多いフレームであるが、その代わりに一連の画像またはフレームを含む。図面を過剰に複雑にしないようにするために、それらのうちの２つだけが、すなわちそれぞれの時間インスタンスｔ−１およびｔにおけるビデオ１からのフレームである画像１１（ｔ−１）および画像１２（ｔ）と、同じそれぞれの時間インスタンスｔ−１およびｔにおけるビデオ２からのフレームである画像２１（ｔ−１）および画像２２（ｔ）とが、示される。

ビデオ・シーケンスのうちの１つは、画像の上で動きベクトルの伝統的な２Ｄの決定を実行するために選択される。図６ａにおいては、ビデオ１は、伝統的な２Ｄの動きベクトルの計算のために選択され、この動きベクトルの計算は、それゆえに画像１１（ｔ−１）と画像１２（ｔ）とに基づいている。上記の段落において説明されるように、これは、画像１１と画像１２との間のマッチしたピクセル対の計算を意味する。両方の画像の動きベクトルのピクセル対のうちの両方のピクセルでは、３Ｄ空間における投影されたピクセルは、次いで、ステップ（ａ）および（ｂ）に示されるように、計算され、それによってステップ（ｅ）に示されるように、このピクセル対についての３Ｄの動きベクトルをもたらす。

画像対、すなわち画像１１と、画像２１との間の、上記実施形態に関して説明されるような並列なマッチしたピクセルにおいては、ｔ−１において撮られる両方はまた、これらの画像１１（ｔ−１）と画像２１（ｔ−１）との３Ｄ投影を用いて決定される。画像２１（ｔ−１）の３Ｄ投影は、ステップ（ｃ）において示される。３Ｄにおける対応するピクセルの決定は、ステップ（ｄ）において実行される。この決定は、投影された画像のうちの１つの画像のピクセルの周囲に配置される、例えば、楕円体、または他のボリュームを使用した上記の技法を使用して行われることが可能である。これらの計算は、ｔ−１における２つの投影された画像、すなわち画像１１＿３Ｄと、画像２＿３Ｄ１との間の１組の対応するピクセルをもたらす。

他方、ビデオ１の１つまたは複数の３Ｄの動きベクトルについての開始ピクセル値と、終了ピクセル値とが、やはり決定される。次に両方の組を組み合わせること、それによってビデオ１について決定される３Ｄの動きベクトルの変換を３Ｄの動きベクトルの画像１１＿３Ｄの開始ピクセルについての画像２１＿３Ｄの対応するピクセルに対して適用することにより、画像２２（ｔ）の３Ｄ投影についての対応する動きベクトルの終了ポイントが、得られる。これらは、計算されて元の画像２２（ｔ）へと戻されることが可能である。これはすべて、ステップ（ｆ）に反映される。

図７ａは、概略的にこれを示すものである。この図は、左側に、ビデオ１の画像、すなわち画像１１と画像１２との投影を示しており、この投影は、ステップ（ａ）および（ｂ）において、それぞれ示される画像１１＿３Ｄ（ｔ−１）および画像１２＿３Ｄ（ｔ）である。３Ｄの動きベクトルｍｖ１は、同様に示され、また以前に決定された２Ｄの動きベクトルに関連する１対のピクセルの３Ｄ投影と一緒になっている３Ｄベクトルとして得られる。これらの２Ｄの動きベクトルのピクセルは、画像１１からのｐ１１（ｔ−１）と、画像１２からのｐ１２（ｔ）として示され、またそれらの３Ｄ投影は、それぞれｐ１１＿３Ｄ（ｔ−１）と、ｐ１２＿３Ｄ（ｔ）として示される。ｍｖ１は、それによって、ステップ（ｅ）において、両方の投影されたピクセルをリンクする３Ｄの動きベクトルを示す。この図の右側は、画像２１（ｔ−１）の３Ｄ投影を示しており、この投影は、ステップ（ｃ）において画像２１＿３Ｄ（ｔ−１）として示される。この３Ｄ投影は、ｐ２１＿３Ｄ（ｔ−１）である別の３Ｄ投影されたピクセルを示しており、このピクセルは、マッチするピクセルについての検索に関して説明されるような方法のうちのあるものを使用することにより、ピクセルｐ１２＿３Ｄ（ｔ−１）に対する、３Ｄドメインにおける対応するピクセルとして得られる。この決定の結果は、ステップ（ｄ）によって示される。

この図７ａはまた、画像２２（ｔ）の３Ｄ投影を示すものである。この３Ｄ投影が、この実施形態においては、３Ｄの動きベクトルｍｖ２の計算のために必要とされないので、この３Ｄ投影は、説明的な理由のために示されているだけである。実際に、この実施形態においては、ｍｖ２が、ｍｖ１に等しいことが仮定されている。これは、ステップ（ｆ）によって示される。それゆえに、同じ３Ｄの動きベクトルｍｖ２＝ｍｖ１は、開始ポイントとしてｐ２１＿３Ｄ（ｔ−１）に対して適用され、これは、３Ｄ終了ポイントとしてｐ２２＿３Ｄ（ｔ）をもたらす。

次いで、ひとたび画像、すなわち画像２１（ｔ−１）＿３Ｄと、画像２２（ｔ）＿３Ｄとの３Ｄ投影における３Ｄの動きベクトルの終了ポイントが、決定されると、これらは、それぞれ元の画像、すなわち画像２１（ｔ−１）と、画像２２（ｔ）とに対して逆算される。これは、このビデオ・シーケンスの上で完全な動きベクトルの推定ステップを行う必要なしにビデオ２について計算されている２Ｄの動きベクトルをもたらす。この方法は、したがって、画像認識、画像セグメンテーション、立体マッチング、トラッキングなど、多数の画像処理技法のビデオ符号化および最適化のために使用され得る動きベクトルを見出す費用のかからないやり方を提供する。動きベクトルの３Ｄの終了ポイントから元の２Ｄ画像２２（ｔ）への逆算中に、深さパラメータがもたらされることになることに注目すべきである。この深さパラメータは、画像２２（ｔ）からの実際に測定された、または立体的に得られた深さではないが、それは、画像１１（ｔ−１）、画像１２（ｔ）および画像２１（ｔ−１）の深さに基づいた推定値であり、これらの深さは、これらの画像の３Ｄ投影を計算するために使用されたものである。いずれにせよ、この深さパラメータは、既に、例えば、立体的な画像分析に基づいたもっと伝統的な方法を使用したこの深さパラメータ値のさらなる微調整中に、例えば、開始ポイントとして使用され得る良い推定値である。

図６ｂおよび７ｂは、そのような２Ｄの動きベクトルを決定するための別の変形の方法を示すものである。ステップ（ａ）、（ｂ）、（ｃ）および（ｄ）は、図６ａおよび７ａにおいて示されるこれらのステップに類似しており、したがってそれらの説明はくり返されない。しかしながら、図６ａおよび７ａの変形とは対照的に、この実施形態は、画像２２（ｔ）についての深さパラメータを使用しており、この深さパラメータは、それゆえに、画像２２＿３Ｄ（ｔ）として示されるこの画像の３Ｄ投影を生成することを可能にする。これは、ステップ（ｅ）において行われる。

次いで、これは、画像１２＿３Ｄ（ｔ）における３Ｄの動きベクトルの終了ポイントｐ１２＿３Ｄ（ｔ）についての画像２２＿３Ｄ（ｔ）の中の対応するピクセルを決定することを可能にする。この対応するピクセルは、ｐ２２＿３Ｄ（ｔ）として示され、またその決定は、ステップ（ｆ）において示される。このようにして、ビデオ２の３Ｄの動きベクトルｍｖ２についての開始ポイントと、終了ポイントとが、得られ、また次いで、これらは、計算されて２Ｄにおける元の画像へと戻されることが可能であり、これらは、それによってビデオ２の中の対応する２Ｄの動きベクトルをもたらす。

第２の変形の方法を使用することによって得られる動きベクトルは、第１の説明された変形の方法を用いて得られる動きベクトルに比べて、もっと正確とすることができることに気付くことができる。しかし、このより高い精度は、画像２２（ｔ）の３Ｄ投影が、生成されるべきであるので、より多くの処理努力を犠牲にして得られており、これは、それ自体、深さの値の使用可能性に依存する。これらが、使用可能でない場合には、または処理効率が、より制限された境界条件を表す場合には、第１の説明された変形が、好ましい可能性がある。

本発明の原理は、特定の装置に関連して上記で説明されてきているが、この説明は、例としてだけ行われており、また添付の特許請求の範囲において定義されるような、本発明の範囲についての限定としては行われていないことを明確に理解すべきである。

Claims

複数の画像（画像１，画像２）の間の少なくとも１組のマッチした属性（ピクセル１ｉ，ピクセル２ｊ；オブジェクト１ｉ，オブジェクト２ｊ）を決定するための方法であって、前記複数の画像のうちの少なくとも一部分を複数の３次元投影された画像（画像１＿３Ｄ，画像２＿３Ｄ）をもたらす３次元空間へと投影するステップと、前記複数の３次元投影された画像のうちの前記３次元投影された画像の内部の少なくとも１組の対応する３次元要素を検索するステップと、前記少なくとも１組の前記対応する３次元要素を計算して前記複数の画像の内部の対応する２次元属性へと戻し、また前記画像の内部の前記対応する２次元属性（ピクセル１ｉ，ピクセル２ｊ；オブジェクト１ｉ，オブジェクト２ｊ）を前記少なくとも１組のマッチした属性として提供するステップとを含む方法。
前記複数の画像のうちの１つの画像（画像１）を参照画像として選択するステップと、前記参照画像の上の属性を識別するステップと、前記属性の前記３次元投影を前記少なくとも１組の対応する３次元要素のうちの３次元要素（ピクセル３Ｄ，オブジェクト３Ｄ）として識別するステップとをさらに含み、それによって、少なくとも１つの対応する３次元要素は、前記複数の画像のうちの他の画像の前記３次元投影された画像の中で検索される、請求項１に記載の方法。
前記属性は、ピクセルを含み、前記少なくとも１つの対応する３次元要素は、ボリューム・ボディの輪郭の内部に含まれる前記複数の画像のうちの他の画像の前記３次元投影された画像の投影されたピクセルが、前記ピクセルの前記３次元投影のための対応する３次元要素として識別されるように、前記ピクセルの前記３次元投影の周囲に前記ボリューム・ボディを形成することによって検索される、請求項２に記載の方法。
前記ボリューム・ボディは、前記ピクセルの前記３次元投影の周囲に中心を置く楕円体である、請求項３に記載の方法。
前記少なくとも１組の対応する３次元要素のうちの１つの要素は、前記複数から選択されるそれぞれの参照画像の１つまたは複数の３次元投影から得られる少なくとも１つの投影された３次元オブジェクトを含み、
対応する３次元要素は、前記少なくとも１組のマッチした属性が、前記少なくとも１つの投影された３次元オブジェクトと、グループとについての、２次元ドメインにおける元の画像への逆算によって得られるように、
ピクセルのその３次元投影が、前記少なくとも１つの投影された３次元オブジェクトを近似するボリューム・ボディの輪郭の内部に含まれる、前記複数の画像のうちの別の投影された画像からのピクセルの３次元投影の前記グループとして決定される、請求項１に記載の方法。
前記少なくとも１つの投影された３次元オブジェクトに対して、前記それぞれの参照画像の上の少なくとも１つの認識されたオブジェクトが、関連づけられるように、前記それぞれの参照画像の上の２次元画像認識のステップをさらに含む、請求項５に記載の方法。
前記少なくとも１つの投影された３次元オブジェクトに対して、前記３次元画像認識の結果として生じる少なくとも１つの認識されたオブジェクトが、関連づけられるように、前記それぞれの参照画像の前記１つまたは複数の３Ｄ投影の上の３次元画像認識のステップをさらに含む、請求項５に記載の方法。
前記ボリューム・ボディは、前記少なくとも１つの投影された３次元オブジェクトに関連づけられる１組のボリューム・モデルから選択される、請求項５乃至７のいずれか１項に記載の方法。
前記少なくとも１つの投影された３次元オブジェクトと前記ボリューム・ボディを適合させることにより前記ボリューム・ボディを適応させるステップをさらに含む、請求項５乃至８のいずれか１項に記載の方法。
複数の画像からある画像を画像認識するための方法であって、前記少なくとも１組のマッチした属性のうちの、また前記画像に関連する前記マッチした属性が、前記それぞれの参照画像の上の前記少なくとも１つの認識されたオブジェクトに関連づけられることになるように、上記請求項６乃至９のいずれか１項に記載の前記ステップを含む方法。
時間における異なるインスタンス（ｔ−１，ｔ）において撮られるビデオ・シーケンス（ビデオ２）の２つの画像（画像２１（ｔ−１），画像２２（ｔ））の間の動きベクトルを決定するための方法であって、請求項１乃至４のいずれか１項に記載の、第１のビデオ・シーケンス（ビデオ１）の時間における前記異なるインスタンス（ｔ−１，ｔ）において撮られる２つの画像（画像１１（ｔ−１），画像１２（ｔ））の間で決定される２次元動きベクトルの開始ピクセル（ｐ１１）について、時間における最も早いインスタンス（ｔ−１）において前記２つの画像のうちの第１の画像（画像２１（ｔ−１））の内部でマッチしたピクセル（ｐ２１）を決定するステップを含み、３次元動きベクトル（ｍｖ１）を獲得するために、前記第１のビデオ・シーケンスの前記２次元動きベクトルを３次元空間へと投影するステップをさらに含み、前記３次元動きベクトル（ｍｖ１）は、前記マッチしたピクセル（ｐ２１）と、前記終了ピクセル（ｐ２２）とが、前記ビデオ・シーケンスの前記２つの画像の間の前記動きベクトルを定義するように、前記マッチしたピクセル（ｐ２１）の前記３次元投影（ｐ２１＿３Ｄ（ｔ−１））に適用されて、それによって、前記２つの画像のうちの第２の画像（画像２２（ｔ））における終了ピクセル（ｐ２２）についてさらに逆投影される対応する終了ポイント（ｐ２２＿３Ｄ（ｔ−１））を獲得する、方法。
時間における異なるインスタンス（ｔ−１，ｔ）において撮られるビデオ・シーケンス（ビデオ２）の２つの画像（画像２１（ｔ−１），画像２２（ｔ））の間の動きベクトルを決定するための方法であって、請求項１乃至４のいずれか１項に記載の第１のビデオ・シーケンス（ビデオ１）の時間における前記異なるインスタンス（ｔ−１，ｔ）において撮られる２つの画像（画像１１（ｔ−１），画像１２（ｔ））の間で決定される２次元動きベクトルの開始ピクセル（ｐ１１）および終了ピクセル（ｐ１２）について、前記２つの画像の内部のそれぞれのマッチしたピクセル（ｐ２１，ｐ２２）を決定するステップを含み、前記２つの画像（画像２１（ｔ−１），画像２２（ｔ））の中のそれぞれのマッチしたピクセル（ｐ２１，ｐ２２）の前記対は、それによって前記ビデオ・シーケンスの前記動きベクトルの開始ピクセルと、終了ピクセルとを定義する、方法。
上記請求項１乃至１２のいずれか１項に記載の前記ステップのいずれかを実行するようになっているデバイス。
請求項１乃至１３のいずれか１項に記載の方法のうちのいずれかを実行するようになっているコンピュータ・プログラム。
請求項１４に記載のコンピュータ・プログラムを含むコンピュータ読取り可能ストレージ媒体。