JP5559349B2 - 改善された画像マッチングのための方法および構成 - Google Patents

改善された画像マッチングのための方法および構成 Download PDF

Info

Publication number
JP5559349B2
JP5559349B2 JP2012542521A JP2012542521A JP5559349B2 JP 5559349 B2 JP5559349 B2 JP 5559349B2 JP 2012542521 A JP2012542521 A JP 2012542521A JP 2012542521 A JP2012542521 A JP 2012542521A JP 5559349 B2 JP5559349 B2 JP 5559349B2
Authority
JP
Japan
Prior art keywords
image
images
dimensional
pixel
projected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012542521A
Other languages
English (en)
Other versions
JP2013513842A (ja
Inventor
テイトガ,ドニー
マック,ジャン−フランソワ
リーヴェン,サミー
アーツ,マーティン
Original Assignee
アルカテル−ルーセント
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アルカテル−ルーセント filed Critical アルカテル−ルーセント
Publication of JP2013513842A publication Critical patent/JP2013513842A/ja
Application granted granted Critical
Publication of JP5559349B2 publication Critical patent/JP5559349B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/285Analysis of motion using a sequence of stereo image pairs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/579Depth or shape recovery from multiple images from motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • G06T2207/10021Stereoscopic video; Stereoscopic image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

本発明は、複数の画像の間の少なくとも1組のマッチした属性を決定するための方法に関する。
例えば、マッチしたピクセルやマッチしたオブジェクトなど、そのような1組のマッチした属性を決定するための現在の技法は、2つ以上の画像の間でそのようなマッチした属性を見出すために、2次元の、以降では2Dと省略される、画像処理技法を使用している。これは、2Dドメインの中で検索を実行して、これらの画像の中で対応するピクセルまたはピクセル・グループを見出すことを必要とする。知られている技法は、ほとんど、それらの画像のうちの1つの画像の中のピクセルの周りに架空のブロックを配置すること、およびそれらの画像の中のピクセルの周りのこれらのブロックに基づいて対応またはマッチングのスコアを計算するメトリクス(metrics)を使用して、第1のものと最も良く対応している他の画像の中のブロックを検索することを必要とするブロック・マッチング技法に基づいている。これらのソリューションは、コンピュータ的に集約的であり、またそれらの画像が、例えば、これらのカメラの間に大きな距離があることを意味する、大きなベースライン(baseline)を有する2つのカメラによって生成されるときに、堅牢ではない。そのような画像、またはビュー(view)は、顕著な違いを示すことになる。知られている方法の大部分は、さらに、それらの間で対応またはマッチングが、検索される画像におけるオブジェクトのある種のオーバーラップを必要とする。さらに、対応が、ピクセル・レベルそれ自体においてではなくて、オブジェクト・レベルにおいて検索されるときに、最先端の方法は、オブジェクトそれ自体が両方の画像において同じであるという事実にもかかわらず、それらの視点が、非常に異なるので、これらのオブジェクトのピクセル内容が全体的に異なる場合に、失敗する。これは、例えば、1つの画像が、例えば、その画像がこの人の前にあるカメラから撮られるときに、人の顔の細部を示す人間の頭を表示するが、別の画像が、この画像がこの同じ人の後ろにあるカメラから撮られたときに、ただし髪の毛など、頭の後部の細部を伴う同じ人間の頭を表示するときに、当てはまる可能性がある。
したがって、複数の画像の間のマッチした属性を決定するための改善された方法を提示することが、本発明の目的であり、本方法は、上記で述べられた先行技術の問題を解決することができる。
本発明によれば、この目的は、前記複数の画像のうちの少なくとも一部分を複数の3次元投影された画像をもたらす3次元空間へと投影するステップと、複数の3次元投影された画像のうちの3次元投影された画像の内部の少なくとも1組の対応する3次元要素を検索するステップと、前記少なくとも1組の前記対応する3次元要素を計算して複数の画像の内部の対応する2次元属性へと戻し、また前記画像の内部の前記対応する2次元属性を前記少なくとも1組のマッチした属性として提供するステップとを含む方法によって解決される。
二次元画像を、例えば、深さ情報が、これらの画像のために使用可能である場合に可能性がある三次元の、以降では3Dを用いて省略される、空間に投影することは、この3D空間において対応する要素、またはマッチした要素を検索することを可能にすることになる。対応する要素についてのこの検索は、さらに説明される異なる実施形態から明らかになるように、2D空間における検索に比べて、3D空間においては、ずっと簡単であり、またコンピュータ的にあまり集約的ではない。3Dの対応する要素を3D空間から2D空間へと逆算することにより、マッチする属性は、簡単で、しかも非常に正確なやり方で提供されることになる。さらに、3D空間の内部の対応する要素についてのこの検索は、同じ人の前側から撮られた画像と、後ろ側から撮られた画像とからの識別され認識された人間の頭の上記で述べられた例など、2Dにおけるマッチする属性を見出すことを可能にすることになる。これは、今までは、最先端の2D技法を使用することによっては可能でなかった。
属性は、ピクセルを含むことができ、それゆえに、異なる画像の間のマッチするピクセルを決定することを可能にしている。属性はまた、ピクセルのグループを含むオブジェクトを含むこともでき、異なる画像の間のマッチするオブジェクトを決定することを可能にしている。
変形の実施形態は、前記複数の画像のうちの1つの画像を参照画像として選択するステップと、前記参照画像の上の属性を識別するステップと、前記属性の3次元投影を前記少なくとも1組の対応する3次元要素のうちの3次元要素として識別するステップとをさらに含み、それによって、少なくとも1つの対応する3次元要素は、複数の画像のうちの他の画像の3次元投影された画像の中で検索される。
これは、特に複数の画像が、2つよりも多い画像を含む場合には、簡単な方法を提供する。1つの画像を参照画像として選択することにより、この参照画像と、他の画像との間のマッチする属性を見出すための計算は、いくつかの例を用いて示されることになるように、非常に簡単になる可能性がある。
別の実施形態においては、前記属性は、ピクセルを含み、また前記少なくとも1つの対応する3次元要素は、ボリューム・ボディ(volume body)の輪郭の内部に含まれる複数の画像のうちの他の画像の3次元投影された画像の投影されたピクセルが、前記ピクセルの前記3次元投影のための対応する3次元要素として考えられるように、前記ピクセルの3次元投影の周囲に前記ボリューム・ボディを形成することによって検索される。
これは、考慮されているピクセルと、このボリューム・ボディの輪郭の内部に含まれる逆投影された3次元ピクセルとを含むマッチしたピクセルを識別するための簡単な方法を提供する。
対応するピクセルを決定するための3D空間の中で使用される任意のボリューム・ボディは、前記ピクセルの前記3次元投影の周囲に中心を置く楕円体とすることができる。
これは、3D投影されたピクセルの周囲に中心を置く3Dボリューム・ボディを形成するための非常に簡単な実施形態であることが分かる。
別の変形の方法においては、前記少なくとも1組の対応する3次元要素のうちの1つの要素は、前記複数から選択されるそれぞれの参照画像の1つまたは複数の3次元投影から得られる少なくとも1つの投影された3次元オブジェクトを含み、また対応する3次元要素は、前記少なくとも1組のマッチした属性が、前記少なくとも1つの投影された3次元オブジェクトと、前記グループとについての、2次元ドメインにおける元の画像への逆算によって得られるように、ピクセルのその3次元投影が、前記少なくとも1つの投影された3次元オブジェクトを近似するボリューム・ボディの輪郭の内部に含まれる、前記複数の画像のうちの別の投影された画像からのピクセルの3次元投影のグループとして決定される。
これは、マッチするオブジェクトを識別することを可能にする。
変形の一方法は、前記少なくとも1つの投影された3次元オブジェクトに対して、前記それぞれの参照画像の上の少なくとも1つの認識されたオブジェクトが、関連づけられるように、前記それぞれの参照画像の上の2次元画像認識のステップをさらに含む。
これは、複数の画像のうちの別の画像の上で以前に実行されたオブジェクト認識に基づいて、1つの画像の中のマッチしたオブジェクトを識別することを可能にする。このようにして、画像の上のパターン認識または画像認識のための簡単な方法は、その画像と、認識技法が2Dドメインの中で既に実行されており、また認識されたオブジェクトまたはパターンがこのようにして既に識別されている参照画像との間のマッチしたオブジェクトを識別することによって得られる。上記に述べられた技法を経由して、その画像と、参照画像の中の既に識別されたオブジェクトとの間のマッチした属性を決定することにより、この画像のセグメンテーションの適用を伴うパターン認識またはオブジェクト認識を実行する非常に簡単な方法が、得られる。
別の変形の方法は、少なくとも1つの投影された3次元オブジェクトに対して、前記3次元画像認識の結果として生じる少なくとも1つの認識されたオブジェクトが、関連づけられるように、前記それぞれの参照画像の前記1つまたは複数の3D投影の上の3次元画像認識のステップをさらに含む。
これは、2次元オブジェクト認識が非常に難しいこれらの画像の場合に代替案を提供する。3次元オブジェクト認識技法に基づいて、オブジェクトは、識別して2次元空間の中に戻されることが可能である。
別の変形においては、前記ボリューム・ボディは、前記少なくとも1つの投影された3次元オブジェクトに関連づけられる1組のボリューム・モデル(volume model)から選択される。
これは、例えば、人間の頭など、典型的な形態学的形状を有するマッチしたオブジェクトが、識別されるべきである場合には、非常に興味深いことが分かる。1組のボリューム・モデルから、例えば、人間の頭などの外形を有するボリューム・モデルを選択することにより、この頭の輪郭の内部に含まれる他の画像の3D投影されたピクセルは、そのときには3Dにおける3D投影された頭に属する対応するピクセルとして考えられることが可能であり、また2Dに対するそれらの逆投影は、そのときには、2Dにおけるこの人間の頭の識別または認識をもたらすことになる。
さらに別の実施形態においては、前記ボリューム・ボディは、前記少なくとも1つの投影された3次元オブジェクトと前記ボリューム・ボディを適合させることによって適応させることが可能である。
これは、例えば、2Dにおける認識された頭の実際の3D投影されたピクセル・データを用いて、人間の頭の選択された形状をモーフィングすることによりマッチング・プロセスの精度をさらに改善することを可能にする。認識についての堅牢さは、それによってさらに改善される。
本方法の実施形態は、前記少なくとも1組のマッチした属性のうちの、また前記画像に関連するマッチした属性が、前記それぞれの参照画像の上の前記少なくとも1つの認識されたオブジェクトに関連づけられることになるように、複数の画像からある画像を画像認識するための方法の中で使用されることも可能である。
マッチしたピクセルを決定するための方法の実施形態は、時間における異なるインスタンスにおいて撮られるビデオ・シーケンスの2つの画像の間の動きベクトルを決定するための方法において使用されることも可能である。
第1の変形においては、前記方法は、請求項1乃至4のいずれか1項に記載の、第1のビデオ・シーケンスの、時間における前記異なるインスタンスにおいて撮られる2つの画像の間で決定される2次元動きベクトルの開始ピクセルについて、時間における最も早いインスタンスにおいて前記2つの画像のうちの第1の画像の内部でマッチしたピクセルを決定するステップを含み、前記方法は、3次元動きベクトルを得るために、前記第1のビデオ・シーケンスの前記2次元動きベクトルを3次元空間へと投影するステップをさらに含み、前記3次元動きベクトルは、前記マッチしたピクセルと、前記終了ピクセルとが、前記ビデオ・シーケンスの前記2つの画像の間の前記動きベクトルを定義するように、前記マッチしたピクセルの3次元投影に適用されて、それによって、前記2つの画像のうちの第2の画像における終了ピクセルについてさらに逆投影される対応する終了ポイントを得る。
代わりに、時間における異なるインスタンスにおいて撮られるビデオ・シーケンスの2つの画像の間の動きベクトルを決定するための方法は、請求項1乃至4のいずれか1項に記載の、第1のビデオ・シーケンスの、時間における前記異なるインスタンスにおいて撮られる2つの画像の間で決定される2次元動きベクトルの開始ピクセルと、終了ピクセルとについて、前記2つの画像の内部でそれぞれのマッチしたピクセルを決定するステップを含むことができ、前記2つの画像の中のそれぞれのマッチしたピクセルの前記対は、それによって前記ビデオ・シーケンスの前記動きベクトルの開始ピクセルと終了ピクセルとを定義する。
動きベクトルを決定するための、またいくつかの画像の間のマッチしたピクセルを決定するための方法についての実施形態を含む両方の代替案は、古典的な2次元ブロック・マッチング技法に基づいて、動きベクトルを計算する古典的なやり方に対する価値のある代替案を提示することができる。
特に、ビデオ符号化アプリケーションでは、これはまた、動きベクトル計算のための処理努力をかなり低減させることを可能にする。
本発明は、同様に、本方法の実施形態を実行するためのデバイスと、本方法の実施形態のいずれかを実行するようになっているコンピュータ・プログラムと、そのようなコンピュータ・プログラムを含むコンピュータ読取り可能ストレージ媒体とに関する。
本発明は、同様に、そのようなデバイスを組み込むためのビデオ・エンコーダと、画像アナライザとに関する。
特許請求の範囲において使用される用語「結合される(coupled)」は、直接の接続だけに限定するように解釈されるべきではないことに注意すべきである。したがって、表現「デバイスBに結合されたデバイスA」は、そこでデバイスAの出力が、デバイスBの入力に直接に接続されるデバイスまたはシステムだけには限定されるべきではない。それは、Aの出力と、Bの入力との間に、他のデバイスまたは手段を含む経路とすることができる経路が、存在することを意味する。
特許請求の範囲において使用される用語「備える、含む(comprising)」は、以下でリストアップされる手段だけに限定するように解釈されるべきではないことに注意すべきである。したがって、表現「手段AおよびBを備えるデバイス」は、コンポーネントAおよびBだけから成るデバイスだけに限定されるべきではない。それは、本発明に関して、ただデバイスの関連のあるコンポーネントが、AとBとであるにすぎないことを意味する。
本発明の上記ならびに他の目的および特徴は、より明らかになり、また本発明それ自体は、添付図面に関連して解釈される実施形態の以下の説明を参照することにより最も良く理解されるであろう。
本方法の高レベルの概略図である。 1組のマッチしたピクセルを決定するための、図1の方法の一実施形態を示す図である。 1組のマッチしたオブジェクトを決定するための、図1の方法の一実施形態を示す図である。 ヒューマン・オブジェクトを識別するために特に適している図3aの方法の好ましい一実施形態を示す図である。 1組のマッチしたオブジェクトを決定するための方法の別の変形の実施形態を示す図である。 画像2のセグメンテーションのために使用される、図3aの方法の適用を示す図である。 ヒューマン認識に関する画像2のセグメンテーションのために使用される、図3bに示される方法の適用を示す図である。 どのようにして図4bの方法が、異なる側から見られる人間の顔を示す画像に適用され得るかを概略的に示す図である。 動きベクトルを決定するための図2の方法の別の適用を示す図である。 動きベクトルを決定するための図6aに示される実施形態についての代替案を示す図である。 図6aに提示されるような動きベクトルを決定するための方法を概略的に説明する図である。 図6bに提示されるような動きベクトルを決定するための方法を概略的に説明する図である。
説明および図面は、単に本発明の原理を示すにすぎない。したがって、当業者は、本明細書においては明示的に説明されても、また示されてもいないが、本発明の原理を実施し、またその精神および範囲の内部に含まれる様々な構成を工夫することができるようになることが、理解されるであろう。さらに、本明細書において列挙されるすべての例は、主として、本発明の原理と、当技術を推進するように本発明者(単数または複数)によって寄与される概念とを理解する際に読者を助ける教育上の目的のためにすぎないように明示的に意図され、またそのように特に列挙された例および状態だけに限定することのないものとして解釈されるべきである。さらに、本発明の原理、態様、および実施形態、ならびにその特定の例を列挙する、本明細書の中のすべての記述は、その同等物を包含するように意図される。
本明細書における任意のブロック図は、本発明の原理を実施する例示の回路の概念図を表すことが、当業者によって理解されるべきである。同様に、任意のフロー・チャート、流れ図、状態遷移図、擬似コード等は、そのようなコンピュータまたはプロセッサが、明示的に示されていようと、またはなかろうと、コンピュータ読取り可能媒体の中で実質的に表現され、またコンピュータまたはプロセッサによってそのように実行されることが可能な様々なプロセスを表現することが、理解されるであろう。
図1は、複数の画像の間の1組のマッチした属性を決定するための方法の高レベルの一実施形態を示すものである。図1においては、たった2つの画像、画像1と画像2とが、示されているが、2つよりも多い画像の間のマッチした属性を決定するための他の実施形態も、同様に可能性がある。
これらの画像、またはそれらの画像の一部分は、画像1_3Dと、画像2_3Dとそれぞれ示される3次元の、この明細書全体を通して3Dによって省略される、画像へとさらに変換される。これは、2つの次元のピクセル情報と、さらに深さ情報とを含むこれらの画像表現の場合に可能である。深さは、例えば、1対の立体画像(stereo images)から抽出され得るパラメータである。これは、画像が、単に単純なカメラによって取り込まれるにすぎない場合に、何らかの知られている前処理技法を必要とする。この深さ情報は、飛行時間型カメラなど、いわゆる2D+Zのカメラを使用することにより直接に取得されることも可能である。2Dカラー・ピクセル・データと一緒にこの深さ情報を使用することにより、両方の画像の3D表現が、2D画像データを3D空間へと投影することにより生成されることが可能である。
一般に、3Dの投影または表現だけは、他の画像の中のマッチした属性が、検索されるべき属性の一部分を形成し、またはそれらの属性に関連づけられるこれらのピクセルのために必要とされる。例えば、車などのオブジェクトを表現するピクセルの1つの特定のグループについてのたった1つのマッチした相手方が、検索されるべき場合、この車に属するピクセルだけが、3D空間に投影される必要がある。マッチした属性が、検索されるべきである他の画像もまた、部分的に投影されることが可能であり、例えば、第1の画像の中のこの車のピクセルに対応する、または車のピクセルのロケーションを取り囲む一部分だけが、投影を必要とする可能性がある。しかしながら、他の実施形態においては、完全な3D画像は、複数のすべての2D画像から再構築されることになるという可能性もある。すべての場合に、iが、それぞれの画像を示す画像i_3Dは、完全な画像の、または画像の一部分だけの3D投影の両方を意味する。
ひとたびそのような3D表現が得られると、対応する要素は、この3D空間の内部で検索されることが可能である。1つの可能性は、3D投影の間の対応するピクセルが、決定されるべきである場合に、ブロック・マッチングのための2Dにおいて使用される方法を投影されたピクセルの周囲の、例えば、簡単なボリュームのボリューム・マッチングへと外挿することであろう。これは、3D空間の内部の対応するピクセルまたはマッチするピクセルを検索する1つの可能性を表すが、より簡単な方法は、たった1つの3D画像、例えば、画像1_3Dのピクセルの周囲の簡単なボリュームを使用することだけと、次いで単に画像2_3Dという投影されたピクセルが、このボリュームの内部に含まれるかどうかをチェックすることだけとを必要とする。
この実施形態は、図2を参照してさらに詳細に説明されるであろう。
3D空間において決定されるべきこれらの対応する要素は、ピクセルとすることができるが、例えば、以上で述べられた例における車など、1組のピクセルを含む認識されたオブジェクトまたは構造を含むこともでき、あるいは認識された人の名前や認識された車のタイプなど、そのような1組のピクセルに関連づけられる何らかのさらなるメタデータを含むこともできる。2D画像の中のそのようなマッチしたオブジェクトを検索することは、そのときにはこの場合にも2D画像またはそれらの2D画像の一部分を3D空間に投影することにより、またこの3D空間において対応する投影されたオブジェクト・ボリュームを検索することにより、実行されることが可能である。これは、投影されたボリュームの第1の推測から出発する何らかの反復プロセスを用いて、また何らかのメトリック(metric)を使用することによりそれらの間の最上のマッチを検索することにより行われることが可能である。代替的なもっと簡単な方法が、図3aから3cに関してさらに詳細に説明されるであろう。
ひとたび対応する要素のそのような組が、3Dにおいて決定されると、2D空間に対する対応する3D要素の対応するピクセルの再計算が、実行されることになる。次いで、これは、2Dにおける2つの画像の間の1組のマッチした属性の提供をもたらすことになる。上記に述べられるように、そのような1組のマッチした属性は、1組のマッチしたピクセル、あるいはピクセルの1組のグループ、またはおのおののマッチしたオブジェクトが、この場合にも両方の画像の中のピクセルのグループによって表現されている1組のマッチしたオブジェクトである1組のマッチした構造とすることができる。
マッチしたピクセルが、検索される場合には、非常に簡単な方法が、図2の中に示される。一般的な場合のように、両方の画像の一部分が、3D空間へと投影されることが可能であり、画像1_3Dと、画像2_3Dとによって示される3D表現をもたらすことになる。1つの画像の中の1つの特定のピクセルについての他の画像の中のマッチしたピクセルが検索される場合には、この1つの特定のピクセルだけが、画像1_3Dがまさにこの単一の投影されたピクセルを含むように、3D空間へと投影されることが可能である。これは、図2に示される実施形態の中に示される。両方の画像が類似していることが知られている場合、その特定のピクセルの周囲の、またはその特定のピクセルの近傍のロケーションの上に位置している他の画像のうちの少数のピクセルだけが、投影される必要がある。この知識が、使用可能ではない場合には、すべての他の画像のうちのすべてのピクセルが、画像2_3Dを生成するために3Dに投影される必要がある可能性がある。
他の画像の中のいくつかのマッチしたピクセルが決定されるべきである特定のピクセルでは、簡単な任意のボリュームが、その3D投影の周囲に構築され、または生成されることになる。他の画像の他のピクセルの3D表現が、このボリュームの一部分を形成するかどうかをチェックすることにより、他の画像のこれらの他のピクセルがマッチするか否かが、決定されることが可能である。
これは、基準となるそれぞれの投影されたピクセルの周囲のこのボリュームのサイズと形状とに応じて、いくつかの組の3Dの対応するピクセルを発生させることができるが、さらなる改良が、例えば、参照ピクセルの投影に対する距離を考慮することにより、最も関連のある対応する3Dピクセルを識別するように実行されることが可能である。この改良は、図2の中に示されてはいない。
3Dにおける対応するピクセルを識別するために、マッチする候補が検索されるべき3D投影されたピクセルの周囲の簡単なボリュームは、楕円体、または球、または立方体、またはビーム、または他の任意のボリューム・ボディとすることができる。球または立方体は、限られた計算的なリソースを可能にする非常に簡単なボリュームを表すが、異なる軸方向の大きさを有するボリュームの使用は、マッチそれ自体の精度に関する利点を有することができる。これは、例えば、2Dにおける立体画像対の場合に興味深いものとすることができる。これらの画像では、3D投影のために必要とされる深さのパラメータは、通常、伝統的な方法によって計算される。計算された深さの精度は、しかしながら、深さそれ自体の値と反比例しており、それゆえに、画像を通して変化する深さの値の場合には、寸法が変化する楕円体を使用することは、3D空間において、対応するピクセルまたは要素の決定のための精度をさらに増大させる助けをすることができる。
ひとたびそのような対応するピクセルが、他の画像の3D投影において、この場合には画像2_3Dの中だけで、見出されたとすると、これらの対応する3D投影されたピクセルを計算して、元の2D画像の中のピクセルの位置を示すように戻されることになり、元の画像についての2Dにおける1組のマッチしたピクセルをもたらす。3D投影されたピクセルの周囲のボリューム・ボディの大きさが、あまりにも大きすぎた場合には、もちろん可能であるように、いくつかのマッチするピクセルが、1つまたは複数の他の画像の内部で見出される場合には、いくつかのさらなる反復、または改良の計算が、選択されたボリューム・ボディの大きさを適応させることによって実行されることが可能であり、あるいはその代わりに、3D投影された画像の内部の対応する3Dピクセルのうちの1つは、この3Dピクセルと、マッチが見出されるべきであった参照画像の3D投影されたピクセルとの間の、3D空間における、計算された距離など、何らかのメトリクスに基づいて選択されることが可能である。参照画像の3D投影されたピクセルに関する最小の3D距離を有する、3D投影された画像の中の3Dピクセルは、次いで、これが、3Dにおける対応する要素として選択されることになるように、3Dにおける最良のマッチとして選択されることになる。次いで、これは、計算されて2Dにおける元の画像へと戻されることになる。
図3aは、2つの画像の間のマッチしたオブジェクトを識別するための方法の一実施形態を示すものである。オブジェクトは、自動化されたオブジェクト認識技法を使用することにより、またはヒューマン認識を用いて、2D画像の上で識別されることが可能である。一般に、1つの画像、通常、前のステップにおいて、オブジェクト認識を実行するための複数のうちで最も簡単であることが決定された画像が、選択される。しかしながら、後の段落において、より詳細に説明されるように、画像認識が実行されることになるより多くの参照画像を選択することも可能である。画像認識を実行するための参照画像の決定または選択は、この場合にも人間のユーザによって実行されており、または第1の結果についての分析が続く、そのような伝統的な画像認識技法を使用したすべての画像の第1のスキャンによってこの場合にも自動的に実行されている可能性がある。いくつかの伝統的な認識技法は、限られた数の特徴を含むことだけによるか、またはデータに対する分析を限定することによるかのいずれかによって粗い認識を可能にする。オブジェクトの認識の品質を示すメトリックをもたらす、複数の画像の上のそのような高速な初期の粗い認識を実行することにより、完全な認識ステップを行うべき画像の選択が、行われることが可能である。
この事前の選択は、図3aには示されておらず、この図は、さらに、画像1が、2Dにおけるオブジェクト認識プロシージャを受けるために選択されたことを示す。このオブジェクト認識ステップの後に、認識されたオブジェクトのうちの1つは、さらに、他の画像の中でマッチしたオブジェクトを検索するために選択される。画像1の上のこのオブジェクトに属するピクセルは、それゆえに、3D空間へと投影され、画像1_3Dをもたらす。代わりに、画像1のすべてのピクセルは、3D空間へと投影されることが可能であり、またオブジェクトに属するピクセルは、この画像1_3Dの中で特に識別されることになる。並行して、画像2_3Dもまた、画像2のピクセルのうちのすべてまたは一部分を3D空間へと投影することによって生成される。
認識されたオブジェクトについてのマッチしたオブジェクトを見出すために、第1の可能性は、このオブジェクトのすべてのピクセルについてのマッチしたピクセルを検索することを含む。この目的のために、後の段落で論じられることになるいくつかのオプションが、使用可能である。ひとたびこれらのマッチしたピクセルが、見出されると、次いで、これらのマッチしたピクセルを含むピクセルのグループは、他の画像の中のマッチしたオブジェクトとして考えられる。いくつかの実施形態においては、何らかのさらなる後処理が、マッチしたオブジェクトの組をさらに使用することになるアプリケーションに応じて、マッチしたオブジェクトの得られた組の上で必要とされる可能性がある。この後処理は、例えば、さらに雑音を取り除くことに関連している可能性がある。
画像2のピクセルのどのグループが、画像1の選択され、または識別されたオブジェクトとのマッチしたオブジェクトを形成するかをチェックするために、ピクセル毎のアプローチは、この場合にも、オブジェクトを構成するすべてのピクセルについてのマッチするピクセルを識別する目的で、画像1_3Dの3D投影されたオブジェクトのすべての投影されたピクセルの周囲に任意のボリュームを形成することにより、適用されることが可能である。これは、この場合にも、上記の楕円体、または球、あるいは立方体を使用することによって行われることが可能である。次いで、それらが、これらのボリュームの輪郭の内部に含まれるかどうかが、画像2_3Dの各ピクセルについてチェックされ、また次いで、そのように含まれるこれらのピクセルは、3Dにおける対応するオブジェクトに属する対応するピクセルとして考えられる。
代わりに、画像1_3Dの3Dオブジェクトのすべての投影されたピクセルを取り囲む1つの大きなボリュームVO、または各ピクセルの周囲の楕円体など、個別の小さなボリュームを包み込むボリューム、あるいは両方の混合体が、生成されることも可能である。ひとたびそのようなボリュームVOが、選択され、または生成された後に、画像2_3Dの投影されたピクセルが、この任意のボリュームVOの輪郭の内部に横たわるか、または含まれるかが、決定される。次いで、このボリュームVOの輪郭の内部に含まれる画像2_3Dのすべての投影されたピクセルは、3Dにおける対応するオブジェクトに属するものとして識別され、また画像2におけるそれらの位置は、逆算されることになり、それに応じて、画像2の中のマッチしたオブジェクトは、ピクセルのこの3Dグループの2Dドメインへの逆算として得られる。
いくつかの実施形態においては、ボリューム・ボディは、ちょうどオブジェクトそれ自体の3D投影によって形成されるボディとすることができる。
他の実施形態においては、3Dオブジェクトは、ボリューム・ボディによって近似される。これは、例えば、オブジェクトの形態が、認識プロセスから知られている場合にも、適しており、この場合には、3D投影されたオブジェクトを近似する一般的なボリュームが、使用されることが可能である。例えば、認識されたオブジェクトが、ラップトップに関することが知られている場合、何らかのビーム形状のボリュームが、3D空間におけるこのラップトップを表現するように選択されることが可能である。同様に、オブジェクトがボールに関することが知られている場合、球を使用して、このボールを表現することができる。このボリューム・オブジェクトは、それゆえに、3Dにおいて認識されたオブジェクトの形状に似ている知られているボリュームのライブラリから選択されることも可能である。これらの基本的なボリュームまたは形状は、例えば、投影されたボールを近似するように、選択された球の半径と中心点とを適応させることにより、選択され、またオプションとして、さらに、そのオブジェクトに適合させられることが可能である。いくつかの実施形態は、それらのボリュームのいくつかの大きさの適応を経由してかなり粗い近似および適合化を適用するが、より洗練された実施形態においては、これらのボリュームのモルフォロジー(morphology)または形態は、できるだけ近い3D投影されたオブジェクトに似ているようにさらに適合させられることさえ可能である。これは、例えば、認識された人間の頭についての場合に当てはまる可能性がある。この場合には、人間の頭の形状を有する何らかの形態的ボリュームが、選択され、またさらに微調整されるか、または他の実施形態において、それによってこの頭の3D投影されたピクセルによって生成される包み込んでいるボリュームを適合させるために3D空間において生成されさえもするかのいずれかとすることができる。これは、図3bの中で示される。画像2_3Dからのピクセルが、この形態的ボリュームの一部分を形成するかどうかをチェックすることにより、それゆえにそれらが、このボリュームの輪郭の内部に含まれるかどうかをチェックすることにより、またそれらを計算して2D空間へと戻すことにより、人間の顔の認識を実行する非常に簡単な方法が、この頭の後部が示されるだけの画像の上でさえ、行われることが可能である。これは、図5を考察するときにさらに例証されるであろう。
形態的適合化ボリュームの生成は、すべてのタイプのオブジェクトについて、それゆえに人間の頭についてだけではなく、実行されることが可能である。
他の実施形態においては、いくつかの参照画像が、ただ1つの参照画像の代わりに選択される。次いで、画像認識が、認識の精度を向上させる目的と共に、すべてのこれらの参照画像の上で実行される。これは、例えば、この場合にも、左側と、右側と、後ろ側とから撮られた人間の頭の3つのビューまたは画像についての場合に当てはまる。人の識別を意味する画像認識は、後ろ側から撮られたビューの上で実行されることが可能ではなく、それゆえに、左側と右側とだけが使用されることが可能である。この場合にも、これらのビューは、良好な認識のために十分でないそれら自体についてのものであるので、次いで左のビューと、右のビューとの両方は、その上で画像認識が実行される参照画像として選択される。次いで、それらの両方は、3D空間へと投影されることになり、また次いで認識されたオブジェクトの投影は、他の3D投影された画像における対応する要素が決定されるべき1つの3D認識されたオブジェクトまたは要素へとマージされることになる。この対応する3Dオブジェクトを検索するために、この場合にも、他の3D投影された画像の3D投影のピクセルが、3D認識されたオブジェクトを近似するボリューム・ボディの輪郭の内部に入るか、または含まれるかどうかが、チェックされることが可能である。ひとたびこれらのピクセルが、見出されると、それらは、計算されて、対応する2D画像へと戻されることになり、後ろ側から撮られた画像についてのこの人間の頭の認識をもたらす。
さらに他の実施形態においては、オブジェクト認識は、2次元空間においては実行されないが、3D空間において直接に実行される。この場合にも、次いで、1つまたは複数の選択された参照画像は、3D空間へと投影されることが可能であり、そのステップに応じて、画像認識は、3Dにおいて実行される。これを行うための技法は、当業者に知られており、また3Dの特徴の点または形状を見出すこと、およびそれらが認識されているオブジェクトの実現可能なモデルへと合体するかどうかをアサートすることを含むことができる。
この場合にもまた、1つよりも多くの参照投影が、2Dの場合と同じ理由のために使用されることが可能である。ひとたび3D投影された参照画像の中の参照オブジェクトが、識別されると、他の画像の3D投影の中の対応するオブジェクトが、例えば、ボディ・ボリュームを用いて、3Dの中のこの単一の識別されたオブジェクトまたは識別されたオブジェクトの組を近似することにより検索され、このボディ・ボリュームは、それゆえに、このオブジェクトそれ自体のまさに3D投影ともすることができ、そのステップに応じて、このボディ・ボリュームの輪郭の内部に含まれる他の画像の投影のピクセルが、決定される。3Dにおけるこの判断基準に準拠したピクセルのグループでは、参照画像を含む2Dの元の画像への逆算が、元の2D画像の中のマッチしたオブジェクトを識別するためなどに実行されることになる。図3cは、画像認識が、画像1の3D投影の上の3D空間において実行されるこの変形についての一実施形態を示すものである。
図4aは、セグメント化された画像を生成するために使用される方法の一実施形態の第1のアプリケーションを示すものである。その図は、基本的に図3aに示されるこれらのステップと同じステップを示しているが、この場合には、全体の画像1は、いくつかのオブジェクトにセグメント化されている。画像1の中の認識されたオブジェクトのおのおのでは、画像2の中の、もしあるとしたらマッチしたオブジェクトが、決定され、次いで、このオブジェクトは、認識されたオブジェクトに関連づけられることもある。このようにして、画像2の完全なセグメンテーションが、本方法の上記の実施形態を使用して、単にセグメント化された画像1と、オブジェクト・マッチングとに基づいて、得られることになる。図4bは、セグメント化された画像1が、顔など、認識されたヒューマン・オブジェクトを含む場合についてのこのアプリケーションを示すものである。次いで、マッチするヒューマン・オブジェクトが、画像2の中で識別され、この場合にも、画像2のセグメント化をもたらす。一般に、ピクチャは、ヒューマン・オブジェクトと、非ヒューマン・オブジェクトとの混合物を含むことになるので、もちろん両方の方法の組合せもまた、可能である。
このアプローチを使用することにより、全体の複数の画像のセグメンテーションは、このようにして、1つの単一のセグメント化された画像から、一般には、パターン認識を実行するために使用可能な最良の画像として選択された画像から得られることが可能である。この選択された画像の中で認識されるオブジェクトについて3D空間の内部の対応する要素を検索すること、上記の3D技法を経由して元の2D空間における他の画像の中の対応するオブジェクトを決定すること、および同じ認識されたオブジェクトを他の画像の中のマッチしたオブジェクトに関連づけることにより、非常に簡単な、それにもかかわらず非常に強力なマッチングおよびセグメンテーションの技法が、得られる。
図5は、さらに、同じ人からの、ただし180度異なった角度から撮られた、2つの画像の非常に簡単な例を用いてこれを示すものである。両方の元の2Dのピクチャが、それぞれのステップ(a)および(b)として示される。顔の認識は、画像1の上で可能であり、これは、ステップ(c)においてセグメント化された画像1をもたらす。画像2の上の十分な差別化する特徴の欠如に起因して、この同じ人は、最先端の方法によって、この同じ画像2の上で認識されることが可能ではない。しかしながら、本方法の実施形態、例えば図3bに示される実施形態を使用して、認識された人の頭に似ている形態的ボリュームは、認識された「ジョン・ドウ(John Doe)」の3D投影の中で生成されることが可能であり、また次いでこの3Dボリュームの内部に含まれる画像2_3Dのピクセルは、3Dにおいてマッチする「ジョン・ドウ」オブジェクトに属するものとして識別されることにもなる。画像2_3Dにおける対応する「ジョン・ドウ」の対応する3Dピクセルを画像2へと逆算することにより、画像2の中の「ジョン・ドウ」の認識と、それに付随して起こるセグメンテーションとが、得られることが可能である。これは、ステップ(d)において表される。
いくつかの画像の間のマッチするピクセルを決定するための、説明されるような方法は、さらに、1つのビデオ・シーケンスから1つまたはいくつかの他のビデオ・シーケンスへの動きベクトルを決定するためのアプリケーションにおいて使用されることが可能である。
動きベクトルは、ほとんどビデオ符号化アプリケーションに関して使用され、その状況においては、それらは、元のピクチャ、または復号されたピクチャにおける座標から参照ピクチャにおける座標へのオフセットを提供する相互予測のために使用される2次元ベクトルを表す。そのような二次元動きベクトルの決定は、参照画像についてピクセル、またはピクセルのブロックについての、マッチするピクセルまたはピクセルのブロックを見出すために、時間における特定のインスタンスにおいてこの画像の一部分をトラバースするブロック・ベースの相関方法を使用することによって行われることが可能である。動きベクトルは、それによって、この画像におけるピクセルの現在のブロックの位置と、参照画像における同じサイズと大きさと方向性とについての最もマッチするブロックの位置との間のピクセル距離として計算される。
しかしながら、動きベクトルは、単なるビデオ符号化アプリケーションの範囲を超える目的のために使用されることが可能である。これらのアプリケーションのうちの1つは、トラッキングを含み、そこでは、動きベクトルは、ビデオ・シーケンス全体を通して対象のオブジェクトに追随するように使用されることが可能である。対象のこのオブジェクトを識別した後に、人は、ビデオ・シーケンスにおける動きベクトルを使用して、時間全体を通して対象のオブジェクトを追跡することができる。
この特許出願においては、本発明者等は、用語「動きベクトル」をその最も一般的な方法で使用することになり、この定義は、それゆえに、ビデオ・シーケンスの時間における特定のインスタンスにおいて撮られる1つのフレームまたは画像における特定のピクセルまたはブロックのピクセル位置と、時間における別の特定のインスタンスにおいて撮られるこのビデオ・シーケンスの別のフレームまたは画像における最もマッチするピクセルまたはブロックとの間のシフトを決定する二次元ベクトルを意味している。
2つの画像の間のそのような動きベクトルの伝統的な決定は、それゆえに、1対の最もマッチするピクセル、またはピクセル・ブロック、各画像からの1つのピクセル、またはピクセル・ブロックの識別を意味する。
新しい代替的な方法でそのような動きベクトルを決定するための第1の実施形態が、図6aにおいて説明される。この図は、2つのビデオ・シーケンス、ビデオ1およびビデオ2を示しており、これらのうちの2つの特定の時間インスタンスtおよびt−1における2つの特定のフレームだけが、示されている。もちろん、両方のビデオ・シーケンスは、一般的に、一連の時間インスタンスにおいて撮られる、2つよりもずっと多いフレームであるが、その代わりに一連の画像またはフレームを含む。図面を過剰に複雑にしないようにするために、それらのうちの2つだけが、すなわちそれぞれの時間インスタンスt−1およびtにおけるビデオ1からのフレームである画像11(t−1)および画像12(t)と、同じそれぞれの時間インスタンスt−1およびtにおけるビデオ2からのフレームである画像21(t−1)および画像22(t)とが、示される。
ビデオ・シーケンスのうちの1つは、画像の上で動きベクトルの伝統的な2Dの決定を実行するために選択される。図6aにおいては、ビデオ1は、伝統的な2Dの動きベクトルの計算のために選択され、この動きベクトルの計算は、それゆえに画像11(t−1)と画像12(t)とに基づいている。上記の段落において説明されるように、これは、画像11と画像12との間のマッチしたピクセル対の計算を意味する。両方の画像の動きベクトルのピクセル対のうちの両方のピクセルでは、3D空間における投影されたピクセルは、次いで、ステップ(a)および(b)に示されるように、計算され、それによってステップ(e)に示されるように、このピクセル対についての3Dの動きベクトルをもたらす。
画像対、すなわち画像11と、画像21との間の、上記実施形態に関して説明されるような並列なマッチしたピクセルにおいては、t−1において撮られる両方はまた、これらの画像11(t−1)と画像21(t−1)との3D投影を用いて決定される。画像21(t−1)の3D投影は、ステップ(c)において示される。3Dにおける対応するピクセルの決定は、ステップ(d)において実行される。この決定は、投影された画像のうちの1つの画像のピクセルの周囲に配置される、例えば、楕円体、または他のボリュームを使用した上記の技法を使用して行われることが可能である。これらの計算は、t−1における2つの投影された画像、すなわち画像11_3Dと、画像2_3D1との間の1組の対応するピクセルをもたらす。
他方、ビデオ1の1つまたは複数の3Dの動きベクトルについての開始ピクセル値と、終了ピクセル値とが、やはり決定される。次に両方の組を組み合わせること、それによってビデオ1について決定される3Dの動きベクトルの変換を3Dの動きベクトルの画像11_3Dの開始ピクセルについての画像21_3Dの対応するピクセルに対して適用することにより、画像22(t)の3D投影についての対応する動きベクトルの終了ポイントが、得られる。これらは、計算されて元の画像22(t)へと戻されることが可能である。これはすべて、ステップ(f)に反映される。
図7aは、概略的にこれを示すものである。この図は、左側に、ビデオ1の画像、すなわち画像11と画像12との投影を示しており、この投影は、ステップ(a)および(b)において、それぞれ示される画像11_3D(t−1)および画像12_3D(t)である。3Dの動きベクトルmv1は、同様に示され、また以前に決定された2Dの動きベクトルに関連する1対のピクセルの3D投影と一緒になっている3Dベクトルとして得られる。これらの2Dの動きベクトルのピクセルは、画像11からのp11(t−1)と、画像12からのp12(t)として示され、またそれらの3D投影は、それぞれp11_3D(t−1)と、p12_3D(t)として示される。mv1は、それによって、ステップ(e)において、両方の投影されたピクセルをリンクする3Dの動きベクトルを示す。この図の右側は、画像21(t−1)の3D投影を示しており、この投影は、ステップ(c)において画像21_3D(t−1)として示される。この3D投影は、p21_3D(t−1)である別の3D投影されたピクセルを示しており、このピクセルは、マッチするピクセルについての検索に関して説明されるような方法のうちのあるものを使用することにより、ピクセルp12_3D(t−1)に対する、3Dドメインにおける対応するピクセルとして得られる。この決定の結果は、ステップ(d)によって示される。
この図7aはまた、画像22(t)の3D投影を示すものである。この3D投影が、この実施形態においては、3Dの動きベクトルmv2の計算のために必要とされないので、この3D投影は、説明的な理由のために示されているだけである。実際に、この実施形態においては、mv2が、mv1に等しいことが仮定されている。これは、ステップ(f)によって示される。それゆえに、同じ3Dの動きベクトルmv2=mv1は、開始ポイントとしてp21_3D(t−1)に対して適用され、これは、3D終了ポイントとしてp22_3D(t)をもたらす。
次いで、ひとたび画像、すなわち画像21(t−1)_3Dと、画像22(t)_3Dとの3D投影における3Dの動きベクトルの終了ポイントが、決定されると、これらは、それぞれ元の画像、すなわち画像21(t−1)と、画像22(t)とに対して逆算される。これは、このビデオ・シーケンスの上で完全な動きベクトルの推定ステップを行う必要なしにビデオ2について計算されている2Dの動きベクトルをもたらす。この方法は、したがって、画像認識、画像セグメンテーション、立体マッチング、トラッキングなど、多数の画像処理技法のビデオ符号化および最適化のために使用され得る動きベクトルを見出す費用のかからないやり方を提供する。動きベクトルの3Dの終了ポイントから元の2D画像22(t)への逆算中に、深さパラメータがもたらされることになることに注目すべきである。この深さパラメータは、画像22(t)からの実際に測定された、または立体的に得られた深さではないが、それは、画像11(t−1)、画像12(t)および画像21(t−1)の深さに基づいた推定値であり、これらの深さは、これらの画像の3D投影を計算するために使用されたものである。いずれにせよ、この深さパラメータは、既に、例えば、立体的な画像分析に基づいたもっと伝統的な方法を使用したこの深さパラメータ値のさらなる微調整中に、例えば、開始ポイントとして使用され得る良い推定値である。
図6bおよび7bは、そのような2Dの動きベクトルを決定するための別の変形の方法を示すものである。ステップ(a)、(b)、(c)および(d)は、図6aおよび7aにおいて示されるこれらのステップに類似しており、したがってそれらの説明はくり返されない。しかしながら、図6aおよび7aの変形とは対照的に、この実施形態は、画像22(t)についての深さパラメータを使用しており、この深さパラメータは、それゆえに、画像22_3D(t)として示されるこの画像の3D投影を生成することを可能にする。これは、ステップ(e)において行われる。
次いで、これは、画像12_3D(t)における3Dの動きベクトルの終了ポイントp12_3D(t)についての画像22_3D(t)の中の対応するピクセルを決定することを可能にする。この対応するピクセルは、p22_3D(t)として示され、またその決定は、ステップ(f)において示される。このようにして、ビデオ2の3Dの動きベクトルmv2についての開始ポイントと、終了ポイントとが、得られ、また次いで、これらは、計算されて2Dにおける元の画像へと戻されることが可能であり、これらは、それによってビデオ2の中の対応する2Dの動きベクトルをもたらす。
第2の変形の方法を使用することによって得られる動きベクトルは、第1の説明された変形の方法を用いて得られる動きベクトルに比べて、もっと正確とすることができることに気付くことができる。しかし、このより高い精度は、画像22(t)の3D投影が、生成されるべきであるので、より多くの処理努力を犠牲にして得られており、これは、それ自体、深さの値の使用可能性に依存する。これらが、使用可能でない場合には、または処理効率が、より制限された境界条件を表す場合には、第1の説明された変形が、好ましい可能性がある。
本発明の原理は、特定の装置に関連して上記で説明されてきているが、この説明は、例としてだけ行われており、また添付の特許請求の範囲において定義されるような、本発明の範囲についての限定としては行われていないことを明確に理解すべきである。

Claims (15)

  1. 複数の画像(画像1,画像2)の間の少なくとも1組のマッチした属性(ピクセル1i,ピクセル2j;オブジェクト1i,オブジェクト2j)を決定するための方法であって、
    前記複数の画像の深さに関連する情報に基づいて、該複数の画像のうちの少なくとも一部分を複数の3次元投影された画像(画像1_3D,画像2_3D)をもたらす3次元空間へと投影するステップと、
    前記複数の3次元投影された画像のうちの前記3次元投影された画像の内部の少なくとも1組の対応する3次元要素を検索するステップと、
    前記少なくとも1組の前記対応する3次元要素を計算して前記複数の画像の内部の対応する2次元属性へと戻し、また前記画像の内部の前記対応する2次元属性(ピクセル1i,ピクセル2j;オブジェクト1i,オブジェクト2j)を前記少なくとも1組のマッチした属性として提供するステップと
    を含む方法。
  2. 前記複数の画像のうちの1つの画像(画像1)を参照画像として選択するステップと、
    前記参照画像の上の属性を識別するステップと、
    前記属性の前記3次元投影を前記少なくとも1組の対応する3次元要素のうちの3次元要素(ピクセル3D,オブジェクト3D)として識別するステップと
    をさらに含み、
    それによって、少なくとも1つの対応する3次元要素は、前記複数の画像のうちの他の画像の前記3次元投影された画像の中で検索される、請求項1に記載の方法。
  3. 前記属性は、ピクセルを含み、前記少なくとも1つの対応する3次元要素は、ボリューム・ボディの輪郭の内部に含まれる前記複数の画像のうちの他の画像の前記3次元投影された画像の投影されたピクセルが、前記ピクセルの前記3次元投影のための対応する3次元要素として識別されるように、前記ピクセルの前記3次元投影の周囲に前記ボリューム・ボディを形成することによって検索される、請求項2に記載の方法。
  4. 前記ボリューム・ボディは、前記ピクセルの前記3次元投影の周囲に中心を置く楕円体である、請求項3に記載の方法。
  5. 前記少なくとも1組の対応する3次元要素のうちの1つの要素は、前記複数から選択されるそれぞれの参照画像の1つまたは複数の3次元投影から得られる少なくとも1つの投影された3次元オブジェクトを含み、
    対応する3次元要素は、前記少なくとも1組のマッチした属性が、前記少なくとも1つの投影された3次元オブジェクトと、グループとについての、2次元ドメインにおける元の画像への逆算によって得られるように、
    ピクセルのその3次元投影が、前記少なくとも1つの投影された3次元オブジェクトを近似するボリューム・ボディの輪郭の内部に含まれる、前記複数の画像のうちの別の投影された画像からのピクセルの3次元投影の前記グループとして決定される、請求項1に記載の方法。
  6. 前記少なくとも1つの投影された3次元オブジェクトに対して、前記それぞれの参照画像の上の少なくとも1つの認識されたオブジェクトが、関連づけられるように、前記それぞれの参照画像の上の2次元画像認識のステップをさらに含む、請求項5に記載の方法。
  7. 前記少なくとも1つの投影された3次元オブジェクトに対して、前記3次元画像認識の結果として生じる少なくとも1つの認識されたオブジェクトが、関連づけられるように、前記それぞれの参照画像の前記1つまたは複数の3D投影の上の3次元画像認識のステップをさらに含む、請求項5に記載の方法。
  8. 前記ボリューム・ボディは、前記少なくとも1つの投影された3次元オブジェクトに関連づけられる1組のボリューム・モデルから選択される、請求項5乃至7のいずれか1項に記載の方法。
  9. 前記少なくとも1つの投影された3次元オブジェクトと前記ボリューム・ボディを適合させることにより前記ボリューム・ボディを適応させるステップをさらに含む、請求項5乃至8のいずれか1項に記載の方法。
  10. 複数の画像からある画像を画像認識するための方法であって、前記少なくとも1組のマッチした属性のうちの、また前記画像に関連する前記マッチした属性が、前記それぞれの参照画像の上の前記少なくとも1つの認識されたオブジェクトに関連づけられることになるように、上記請求項6乃至9のいずれか1項に記載の前記ステップを含む方法。
  11. 時間における異なるインスタンス(t−1,t)において撮られるビデオ・シーケンス(ビデオ2)の2つの画像(画像21(t−1),画像22(t))の間の動きベクトルを決定するための方法であって、
    請求項1乃至4のいずれか1項に記載の、第1のビデオ・シーケンス(ビデオ1)の時間における前記異なるインスタンス(t−1,t)において撮られる2つの画像(画像11(t−1),画像12(t))の間で決定される2次元動きベクトルの開始ピクセル(p11)について、時間における最も早いインスタンス(t−1)において前記2つの画像のうちの第1の画像(画像21(t−1))の内部でマッチしたピクセル(p21)を決定するステップ
    3次元動きベクトル(mv1)を獲得するために、前記第1のビデオ・シーケンスの前記2次元動きベクトルを3次元空間へと投影するステップと、
    を含み、
    前記3次元動きベクトル(mv1)は、前記マッチしたピクセル(p21)と、前記終了ピクセル(p22)とが、前記ビデオ・シーケンスの前記2つの画像の間の前記動きベクトルを定義するように、前記マッチしたピクセル(p21)の前記3次元投影(p21_3D(t−1))に適用されて、それによって、前記2つの画像のうちの第2の画像(画像22(t))における終了ピクセル(p22)についてさらに逆投影される対応する終了ポイント(p22_3D(t−1))を獲得する、方法。
  12. 時間における異なるインスタンス(t−1,t)において撮られるビデオ・シーケンス(ビデオ2)の2つの画像(画像21(t−1),画像22(t))の間の動きベクトルを決定するための方法であって、請求項1乃至4のいずれか1項に記載の第1のビデオ・シーケンス(ビデオ1)の時間における前記異なるインスタンス(t−1,t)において撮られる2つの画像(画像11(t−1),画像12(t))の間で決定される2次元動きベクトルの開始ピクセル(p11)および終了ピクセル(p12)について、前記2つの画像の内部のそれぞれのマッチしたピクセル(p21,p22)を決定するステップを含み、前記2つの画像(画像21(t−1),画像22(t))の中のそれぞれのマッチしたピクセル(p21,p22)の前記対は、それによって前記ビデオ・シーケンスの前記動きベクトルの開始ピクセルと、終了ピクセルとを定義する、方法。
  13. 上記請求項1乃至12のいずれか1項に記載の前記ステップのいずれかを実行するようになっているデバイス。
  14. 請求項1乃至12のいずれか1項に記載の方法のうちのいずれかを実行するようになっているコンピュータ・プログラム。
  15. 請求項14に記載のコンピュータ・プログラムを含むコンピュータ読取り可能ストレージ媒体。
JP2012542521A 2009-12-11 2010-12-07 改善された画像マッチングのための方法および構成 Expired - Fee Related JP5559349B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP09290933A EP2333692A1 (en) 2009-12-11 2009-12-11 Method and arrangement for improved image matching
EP09290933.2 2009-12-11
PCT/EP2010/069088 WO2011070023A1 (en) 2009-12-11 2010-12-07 Method and arrangement for improved image matching

Publications (2)

Publication Number Publication Date
JP2013513842A JP2013513842A (ja) 2013-04-22
JP5559349B2 true JP5559349B2 (ja) 2014-07-23

Family

ID=42008515

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012542521A Expired - Fee Related JP5559349B2 (ja) 2009-12-11 2010-12-07 改善された画像マッチングのための方法および構成

Country Status (6)

Country Link
US (1) US9589369B2 (ja)
EP (1) EP2333692A1 (ja)
JP (1) JP5559349B2 (ja)
KR (1) KR101428627B1 (ja)
CN (1) CN102652319B (ja)
WO (1) WO2011070023A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2538388B1 (en) * 2011-06-20 2015-04-01 Alcatel Lucent Method and arrangement for image model construction
US9558575B2 (en) 2012-02-28 2017-01-31 Blackberry Limited Methods and devices for selecting objects in images
EP2634772A1 (en) * 2012-02-28 2013-09-04 BlackBerry Limited Methods and devices for selecting objects in images
CN103871036B (zh) * 2012-12-12 2017-11-28 上海联影医疗科技有限公司 用于三维数字减影血管造影图像的快速配准和拼接方法
US9183225B2 (en) * 2014-02-21 2015-11-10 Siemens Energy, Inc. Computerized method for transforming an image from an image-searchable domain to a pixel-searchable domain
US20160314616A1 (en) * 2015-04-23 2016-10-27 Sungwook Su 3d identification system with facial forecast
US10962780B2 (en) * 2015-10-26 2021-03-30 Microsoft Technology Licensing, Llc Remote rendering for virtual images
FR3060170B1 (fr) * 2016-12-14 2019-05-24 Smart Me Up Systeme de reconnaissance d'objets base sur un modele generique 3d adaptatif
EP3594899A1 (en) * 2018-07-10 2020-01-15 InterDigital CE Patent Holdings Tracking an object in a sequence of panoramic images
US11625929B2 (en) * 2020-01-31 2023-04-11 Salesforce.Com, Inc. Selection of object recognition models for computer vision

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3512992B2 (ja) * 1997-01-07 2004-03-31 株式会社東芝 画像処理装置および画像処理方法
US6188777B1 (en) * 1997-08-01 2001-02-13 Interval Research Corporation Method and apparatus for personnel detection and tracking
US6658136B1 (en) * 1999-12-06 2003-12-02 Microsoft Corporation System and process for locating and tracking a person or object in a scene using a series of range images
JP3986748B2 (ja) * 2000-11-10 2007-10-03 ペンタックス株式会社 3次元画像検出装置
US7397929B2 (en) * 2002-09-05 2008-07-08 Cognex Technology And Investment Corporation Method and apparatus for monitoring a passageway using 3D images
US7317812B1 (en) * 2002-11-15 2008-01-08 Videomining Corporation Method and apparatus for robustly tracking objects
US7379559B2 (en) * 2003-05-28 2008-05-27 Trw Automotive U.S. Llc Method and apparatus for determining an occupant's head location in an actuatable occupant restraining system
KR100682889B1 (ko) * 2003-08-29 2007-02-15 삼성전자주식회사 영상에 기반한 사실감 있는 3차원 얼굴 모델링 방법 및 장치

Also Published As

Publication number Publication date
CN102652319A (zh) 2012-08-29
CN102652319B (zh) 2015-11-25
JP2013513842A (ja) 2013-04-22
WO2011070023A1 (en) 2011-06-16
US20120299911A1 (en) 2012-11-29
EP2333692A1 (en) 2011-06-15
KR101428627B1 (ko) 2014-08-13
KR20130004249A (ko) 2013-01-09
US9589369B2 (en) 2017-03-07

Similar Documents

Publication Publication Date Title
JP5559349B2 (ja) 改善された画像マッチングのための方法および構成
Huang et al. Towards accurate marker-less human shape and pose estimation over time
CN106570507B (zh) 单目视频场景三维结构的多视角一致的平面检测解析方法
JP6200989B2 (ja) 物体姿勢認識
US20160321838A1 (en) System for processing a three-dimensional (3d) image and related methods using an icp algorithm
Konrad et al. Automatic 2d-to-3d image conversion using 3d examples from the internet
US20080181486A1 (en) Methodology for 3d scene reconstruction from 2d image sequences
Muratov et al. 3DCapture: 3D Reconstruction for a Smartphone
Kazemi et al. Real-time face reconstruction from a single depth image
WO2021220688A1 (en) Reinforcement learning model for labeling spatial relationships between images
KR20080108430A (ko) 2d 영상들로부터 3d 안면 재구성
Bemana et al. Eikonal fields for refractive novel-view synthesis
Jordt et al. Direct model-based tracking of 3d object deformations in depth and color video
JP5561786B2 (ja) 3次元形状モデル高精度化方法およびプログラム
Hirner et al. FC-DCNN: A densely connected neural network for stereo estimation
Wang et al. Vid2Curve: simultaneous camera motion estimation and thin structure reconstruction from an RGB video
Zhao et al. Mvpsnet: Fast generalizable multi-view photometric stereo
JP2022516298A (ja) 対象物を3d再構築するための方法
Lee et al. Automatic 2d-to-3d conversion using multi-scale deep neural network
Muresan et al. Improving local stereo algorithms using binary shifted windows, fusion and smoothness constraint
Salvador et al. Multi-view video representation based on fast Monte Carlo surface reconstruction
Shih et al. Modeling Ambient Scene Dynamics for Free-view Synthesis
Hess-Flores et al. Ray divergence-based bundle adjustment conditioning for multi-view stereo
Sinha Multiview Stereo.
Dickson et al. User-centred Depth Estimation Benchmarking for VR Content Creation from Single Images.

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130729

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130813

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131113

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20140227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140508

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140605

R150 Certificate of patent or registration of utility model

Ref document number: 5559349

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees