JP5384746B2 - プルーニング機能、画像スケーリング、および、空間制約付き特徴マッチングによる画像認識アルゴリズムの性能の改善 - Google Patents

プルーニング機能、画像スケーリング、および、空間制約付き特徴マッチングによる画像認識アルゴリズムの性能の改善 Download PDF

Info

Publication number
JP5384746B2
JP5384746B2 JP2012542205A JP2012542205A JP5384746B2 JP 5384746 B2 JP5384746 B2 JP 5384746B2 JP 2012542205 A JP2012542205 A JP 2012542205A JP 2012542205 A JP2012542205 A JP 2012542205A JP 5384746 B2 JP5384746 B2 JP 5384746B2
Authority
JP
Japan
Prior art keywords
keypoint
cluster
image
query
match
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012542205A
Other languages
English (en)
Other versions
JP2013513167A (ja
Inventor
バドダディー、サンディープ
ホン、ジョン・エイチ.
ハムシシー、オヌル・シー.
レズニク、ユリー
リー、チョン・ユー.
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2013513167A publication Critical patent/JP2013513167A/ja
Application granted granted Critical
Publication of JP5384746B2 publication Critical patent/JP5384746B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

米国特許法第119条に基づく優先権の主張
本出願は、本出願の譲受人に譲渡され、参照により本明細書に組み込まれる、2009年12月2日に出願された「Improving Local Feature Classifier Performance and Efficiency and Convergence Rate of RANSAC by Using a Keypoint Clustering Method」と題する米国仮出願61/265955号に優先権を主張する。
1つの特徴は、コンピュータビジョンに関し、より詳細には、画像認識技術の性能や効率の改善、計算的複雑性の削減のための方法および技術に関する。
様々なアプリケーションは、視覚表示(例えば、画像または映像)内のオブジェクトを識別することができる機械またはプロセッサを有することで利益を得ることができる。コンピュータビジョンの分野は、画像内のオブジェクトまたは特徴の識別を可能にする技術および/またはアルゴリズムの提供を試みる。ここで、オブジェクトまたは特徴は、1または複数のキーポイントを識別する記述子によって特徴付けられうる。これらの技術および/またはアルゴリズムは、さらに、複数のアプリケーションの中でも特に、顔認識、オブジェクト検出、画像マッチング、3次元構造構築、ステレオ対応、および/または、動作追跡に適用されることが多い。一般的に、オブジェクトまたは特徴認識は、特徴識別、画像検索、および/または、オブジェクト認識のために画像内の主要点(キーポイントとも呼ばれる)を識別することを含みうる。むしろ、キーポイントが選択され、その周りのパッチは、それらが、画像スケールの変化および/または回転に対して不変となり、かなりの範囲の歪み、視点の変化、および/または、照度のノイズと変化にわたってロバストなマッチングを提供するように処理される。さらに、画像検索およびオブジェクト認識のようなタスクに対して適切となるように、特徴記述子は、単一の特徴が複数のターゲット画像からの特徴の膨大なデータベースと高確率で正確にマッチングされうるという意味で特有であることが好まれうる。
画像内のキーポイントが検出および検索(locate)された後、それらは、様々な記述子を使用して識別または記述されうる。例えば、記述子は、他の複数の画像特徴もあるが、例えば、形状、色彩、テキスチャ、および/または、回転のような、画像内のコンテンツの視覚特徴を表しうる。次に、キーポイントに対応し、記述子によって表される個々の特徴は、既知のオブジェクトからの特徴のデータベースとマッチングされる。ゆえに、対応探索システムは、キーポイント検出器、特徴記述子、対応ロケータという3つのモジュールに分けられうる。これらの3つの論理モジュールにおいて、記述子の構築の複雑性および次元性は、特徴マッチングシステムの性能に対して直接的且つ顕著なインパクトを有する。
このような特徴記述子は、リアルタイムオブジェクト認識、3D再構築、パノラマスティチング、ロボットマッピング、ビデオトラッキング、および同様のタスクにおける応用を、益々見いだしつつある。これら応用に依存して、特徴記述子(または等価物)の送信および/または記憶は、オブジェクト検出の計算速度および/または画像データベースのサイズを制限しうる。モバイルデバイス(例えば、カメラ付き電話、モバイル電話など)、あるいは、分散カメラネットワークについて、情報(例えば、画像および/または画像記述子を含む)をノード間で伝送する際に、かなりの通信および電力リソースが消費されうる。ゆえに、特徴記述子の圧縮が、記憶スペース、待ち時間、送信を減らすために重要である。
コンピュータビジョンおよび/または画像取込インプリメンテーションは、処理集約型な傾向がある。オブジェクト認識は、アフィン変換および別の歪みによって悪化する不正確な特徴マッチングプロセスによって妨げられることが多く、結果として、真陽性(認識)の減少と、偽陽性(低下した精度)の増加を引き起こす。オブジェクト認識システムの分類ステージ、広域ベースラインのステレオマッチング、および、ポーズ推定(pose estimation)のようなコンピュータビジョンの分野では、汚染データを用いた正確なモデルのフィッティングが重要なステップである。基本前提は、データが、「インライア」(inliers)、すなわち、その配置がモデルパラメータのいくつかのセットによって説明されうるデータ(または、ポイント)と、モデルに当てはまらないデータである「アウトライア」(outliers)とから構成されることである。オブジェクト認識システムにおいてマッチングプロセスの後にアウトライアを拒否するために幾何学的一貫性または検証が課せられることが多いが、その計算コストは高く、しばしばオブジェクト認識システムのリアルタイム動作を妨げる。データフィッティングモデルのパラメータは、例えば、オブジェクト認識でのアウトライア拒否および画像スティッチングでのアウトライア拒否のために、ステレオマッチングまたは、射影変換における基本行列の推定に使用される可能性がある。例えば、RANSAC(RANdom SAmple Consensus)は、汚染データを扱うために広く使用されるデータフィッティングモデルであり、それは、モデルパラメータを推定し、フィッティングを決定するために全てのデータを反復的に検証するためにデータからポイントのセットをランダムにサンプリングすることで機能する。しかしながら、インライア対アウトライアの比が下がるにつれ、RANSACアルゴリズムは、飛躍的に遅く(すなわち、より低い収束速度に)なる。
よって、幾何学的検証技術の低い収束速度を改善すること、および/または、幾何学的検証の必要性を省略することを行う必要がある。
以下は、いくつかの実施形態の基本的な理解を提供するために、1または複数の実施形態の簡略化された概要を表す。この概要は、企図される全ての実施形態の広範囲な概観ではなく、全ての実施形態のキーまたは不可欠な要素を識別すること、あるいは、任意のあるいは全ての実施形態の範囲を描写することを意図しない。その唯一の目的は、後に示される、より詳細な記述への前置きとして、1または複数の実施形態のいくつかのコンセプトを簡易な形で提示することである。
画像認識システムにおける特徴マッチングを改善するために、様々な特徴が提供される。
第1の態様に従って、インライア対アウトライアのキーポイント比は、キーポイントをクラスタへと空間的に制約することによって増やされうる。クエリ(照会)画像の画像について複数のキーポイントが取得される。キーポイントは、クエリ画像のスケール空間における局所極大画素(local maxima pixel)あるいは局所極小画素(local minima pixel)である。例えば、キーポイントは、ぼやかされたバージョンのクエリ画像に対応する複数のスケール空間にわたって確認されうる。いくつかの例において、キーポイントは、キーポイントマッチングに使用される記述子で表されうる。
次に、キーポイント配置(例えば、複数のキーポイントについての)に基づき、クエリ画像についてキーポイントクラスタのセットが定義される。キーポイントは、(a)クエリ画像のスケール空間にわたるキーポイントの空間位置、あるいは、(b)キーポイントが検出されるスケール空間におけるスケールレベルのうちの少なくとも1つに基づいてクラスタリングされうる。
次に、クエリ画像についてのキーポイントの少なくともサブセットを1または複数のターゲット画像についてのキーポイントにマッチングすることよって、クエリ画像についてのアンカーマッチ(Anchor match)が確立されうる。アンカーマッチは、閾値を超えて、1または複数のターゲット画像のキーポイントとマッチングされたキーポイントマッチ(keypoints match)でありうる。この閾値は、アウトライアマッチを除外するように選択される。ここで、アウトライアマッチは、偽陽性のキーポイントマッチである。加えて、アンカーマッチが、クエリ画像についてのスケール空間のレベルの選択サブセット内で生じるクエリ画像内のキーポイントについてのキーポイントマッチとなるようにスケールレベル優先度が課せられる。アンカーマッチは、クエリ画像についてのキーポイントの各サブセットの周りの局所画素情報に少なくとも部分的に基づいてマッチングされるキーポイントマッチを指しうる。局所画素情報は、画素勾配、画素色彩、クラスタ形状、あるいは、キーポイント配置のうちの少なくとも1つを含みうる。
アンカーマッチの後であっても、クエリキーポイントクラスタ内の別のキーポイントは、そのようなキーポイントが、ターゲットキーポイントクラスタ内のキーポイントに少なくとも部分的にマッチングされた場合、保持されうる。しかしながら、キーポイントは、そのようなキーポイントがマッチングされない場合、または、ターゲットキーポイントクラスタ以外のクラスタ内のキーポイントとマッチングされた場合にクエリキーポイントクラスタから除外されうる。
1つの例において、アンカーマッチを確立することは、(a)クエリ画像内のキーポイントをターゲット画像内のキーポイントとマッチングすること、および/または、(b)キーポイントがその対応キーポイントクラスタから除外されるべきであるか否かについての後のバイナリ決定のために、クエリ画像内のキーポイントについてのキーポイントマッチ情報を保持することとを含みうる。
続いて、クエリキーポイントクラスタは、アンカーマッチのサブセットに基づいてターゲットキーポイントクラスタにマッチングされうる。
閾値以下のキーポイントマッチが部分マッチとみなされうることに注意されたい。これらの部分マッチについて、クエリキーポイントクラスタがターゲットキーポイントクラスタにマッチングされた後、クエリキーポイントクラスタ内のキーポイントは、バイナリ決定に基づいて、クラスタ内に保持されうる。クエリキーポイントクラスタ内のキーポイントに対するバイナリ決定は、部分マッチがキーポイントに対して見つかった否か、並びに、そのようなマッチが、ターゲットキーポイントクラスタ内であるか否かに基づきうる。
第2の特徴に従って、画像内の検出された全ての特徴を特徴マッチングに使用する代わりに、キーポイントが検出されるクラスタ密度および/またはスケールレベルに基づいてキーポイントはプルーニング(pruning:オブジェクトの突起除去)されうる。例えば、特徴マッチングには、低密度クラスタに含まれる特徴よりも高密度クラスタに含まれるキーポイントが好まれうる。1つの例において、クエリ画像のキーポイントは、複数の画像スケール空間にわたって取得される。次に、クエリ画像のキーポイントの数は、(a)キーポイントクラスタのセットから1または複数のより低い密度クラスタをプルーニングすること、および/または、(b)クエリ画像のより低レベルのスケール空間で検出されたキーポイントをキーポイントクラスタのセット内のクラスタのうちの少なくともいくつかからプルーニングすることにより減らされうる。このために、キーポイントクラスタのセット内の各クラスタに対して、キーポイント密度が取得されうる。
続いて、クエリ画像について、数が減ったキーポイントについての記述子が生成される。プルーニングされたキーポイントおよび/またはクラスタは、記述子を生成する前に破棄されうる。次に、数が減ったキーポイントについての記述子は、クエリ画像、または、クエリ画像内のオブジェクトをターゲット画像とマッチングするために、特徴マッチングデバイスに送信されうる。
第3の特徴に従って、画像サイズ/解像度を推定するために、画像のスケール空間にわたる特徴配置に基づいて、画像スケーリングが行われうる。ここで、異なるスケールでのキーポイント配置におけるピークは、支配的な画像スケールを追跡し、オブジェクトサイズを大まかに追跡するために使用される。キーポイントの配置は、クエリ画像の複数のスケール空間にわたって取得されうる。次に、キーポイントの配置に基づいて、クエリ画像のスケールが推定されうる。この画像スケールは、スケール空間にわたるキーポイントの配置から推定され、カットオフスケールは、カットオフスケールまでの空間スケールの中に、キーポイントの閾値割合を維持する。次に、推定されたクエリ画像スケールに基づいて、キーポイントをクラスタリングするためのカーネルサイズが選択されうる。次に、選択されたカーネルサイズにおけるぼやかされたバージョンのクエリ画像が利用され、キーポイントクラスタリングを行う。
同様に、記憶デバイスおよび処理回路を備える特徴マッチングデバイスが提供される。記憶デバイスは、複数のターゲット画像についての情報を記憶しうる。処理回路は、(a)クエリ画像についての複数のキーポイントを取得すること、(b)キーポイント配置に基づいてクエリ画像についてのキーポイントクラスタのセットを定義すること、(c)クエリ画像についてのキーポイントの少なくともサブセットを1または複数のターゲット画像のキーポイントにマッチングすることによってクエリ画像のアンカーマッチを確立すること、および/または、(d)アンカーマッチのサブセットに基づいてクエリキーポイントクラスタをターゲットキーポイントクラスタにマッチングすることに適合されうる。
全体を通して同様の参照符号が相応するものを特定している図と共に考慮された場合、次に示される詳細な記述から、様々な特徴、性質、利点が明確になるであろう。
図1は、クエリ画像に対してオブジェクト認識を行うための機能ステージを示すブロック図である。 図2は、例示的な画像取込ステージを示す。 図3は、例示的な画像処理ステージにおけるスケール空間生成を示す。 図4は、例示的な画像処理ステージにおける特徴検出を示す。 図5は、例示的な画像処理ステージにおける特徴記述子抽出を示す。 図6は、例示的な画像比較ステージにおける特徴マッチングを示す。 図7は、クエリ画像内のキーポイントクラスタを示す。 図8Aは、キーポイントクラスタを用いてインライア対アウトライア比がどのように改善されるかを示す。 図8Bは、キーポイントクラスタを用いてインライア対アウトライア比がどのように改善されるかを示す。 図9は、図8の方法に従ってクエリクラスタとターゲットクラスタとの間のキーポイントマッチングの例を示す。 図10は、クラスタリングを用いてキーポイントマッチングを実行するための方法を示すフローチャートである。 図11Aは、アンカーポイントマッチング、クラスタ対応、バイナリキーポイントマッチングの例を示す。 図11Bは、アンカーポイントマッチング、クラスタ対応、バイナリキーポイントマッチングの例を示す。 図12は、図11の結果をさらに詳述した表である。 図13は、キーポイント単位マッチングに対するクラスタ単位マッチングの改善を示すブロック図である。 図14は、高解像度画像についてのキーポイント配置の例を示す。 図15は、低解像度画像についてのキーポイント配置の例を示す。 図16は、クラスタ対応の実行を容易にする、画像のカーネルスケーリングの方法を示す。 図17は、キーポイント密度に基づくクラスタプルーニングを示す。 図18は、キーポイント密度に基づいてキーポイントクラスタをプルーニングすることにより、クエリ画像のキーポイントを減らすための方法である。 図19は、キーポイントスケールに基づくキーポイントプルーニングの方法を示す。 図20は、キーポイント密度に基づいてキーポイントクラスタをプルーニングすることによって、クエリ画像についてのキーポイントを減らすための方法である。 図21は、画像マッチングデバイス例を示すブロック図である。 図22は、画像またはオブジェクト認識のために画像処理を実行することに適した例示的なモバイルデバイスを示すブロック図である。 図23Aは、オブジェクト認識プロセスの一部として、画像スケーリング、特徴プルーニング、および/または、空間制約付き特徴マッチングのための方法を示すフロー図である。 図23Bは、オブジェクト認識プロセスの一部として、画像スケーリング、特徴プルーニング、および/または、空間制約付き特徴マッチングのための方法を示すフロー図である。 図23Cは、オブジェクト認識プロセスの一部として、画像スケーリング、特徴プルーニング、および/または、空間制約付き特徴マッチングのための方法を示すフロー図である。
詳細な説明
同様の参照番号が全体を通して同様のエレメントを指すために使用される図面に関して、様々な実施形態が記述される。次に続く記述において、説明を目的として、1または複数の実施形態の十分な理解を提供するために多数の特定な詳細が示される。しかしながら、そのような1または複数の実施形態が、これらの特定な詳細なしに実施されうることは明白でありうる。別の例において、1または複数の実施形態の記述を容易にするために、周知の構造およびデバイスがブロック図の形で示される。
概要
本明細書に記述される様々な特徴は、画像認識の速度および/または効率を改善することに関する。
第1の態様に従って,クエリ画像内のキーポイントがクラスタにグループ化される。クエリクラスタのキーポイントは、高い一致閾値に基づいてターゲットクラスタにマッチングされる。この閾値(あるいはそれ以上)を満たすクエリキーポイントは十分なマッチ(full match)であり、アンカーポイントとみなされる。この閾値は満たさないが、依然、対応ターゲットキーポイントを有するクエリキーポイントは、部分マッチである。次に、クエリクラスタとターゲットクラスタとの対応が、このアンカーポイントに基づいて確立される。対応ターゲットクラスタ内の部分マッチを有する追加のキーポイントは、クエリクラスタ中にもたらされる。他の全てのクエリキーポイント(マッチングされなかったキーポイントまたは異なるターゲットクラスタにマッチングしたもの)は、クエリクラスタにおいて無視される。部分的にマッチングされたキーポイントがバイナリ決定においてもちこまれるため(アンカーポイントマッチングの場合のような閾値/確からしさの決定ではない)、全ての可能なインライアキーポイントは、空間的反復構造が存在する場合であっても受け入れられる。
第2の態様に従って、画像の解像度は、この画像のスケール空間ピラミッド(例えば、ガウススケール空間)の異なるスケールで観察されるキーポイント配置に基づいて大まかに推定される。異なるスケールでのキーポイント配置における1または複数のピークは、支配的な画像スケールを追跡し、オブジェクトサイズを大まかに追跡するために使用されうる。この観察は、オブジェクトサイズの推定を取得し、カーネルサイズ半径Rをこれに比例させるために使用される。特に、オブジェクトサイズは、このスケールまたはより小さい(より低い)スケールで検出された全てのキーポイントの特定の閾値割合を含む最小スケールレベルによって選択される。かなりの割合のキーポイントが、スケール空間ピラミッドのより高いスケールで見つかるか、あるいは、複数のスケールにわたって均一に広がる場合、これは、この画像が高解像度を有していることを示す。そうではなく、キーポイントがより低いスケールに集中している場合、これは、この画像が低解像度を有していることを示す。
第3の態様に従って、キーポイントの数は、特徴マッチングステージの間の計算的複雑性を減らすためにプルーニングされうる。キーポイントをプルーニング/削減するための2つのアプローチは、(a)クラスタ密度に基づいてキーポイントをプルーニングすることと、(b)検出スケールに基づいてキーポイントをプルーニングすることとを含む。第1のアプローチに従って、クエリ画像とターゲット画像とのマッチングに使用されるキーポイントクラスタを減らすために、キーポイントの密度がより高いキーポイントクラスタが選択され、残りのキーポイントクラスタ(すなわち、より低いキーポイント密度)は、後続の特徴マッチングの間にプルーニングまたは無視される。第2のアプローチに従って、より高いスケール(より低い解像度)で検出されるキーポイントが保持され、より低いスケール(より高い解像度)のキーポイントは、特徴マッチングのためにプルーニングまたは無視される。
例示的なオブジェクト認識プロセス
図1は、クエリ画像に対してオブジェクト認識を実行するための機能的なステージを示すブロック図である。画像取込ステージ102において、対象となる画像108(すなわち、クエリ画像)が取り込まれうる。次に、画像処理ステージ104において、対応するスケール空間110(例えば、ガウススケール空間)を生成し、特徴検出112を実行し、特徴記述子抽出116を実行することによって、取込画像108が処理される。特徴検出112は、複数の記述子を取得するために、後に特徴記述子抽出116で使用されうる、取込画像108についての高度に特異的なキーポイント、および/または、幾何学的に関心をひくキーポイントを識別しうる。画像比較ステージ106では、既知の記述子のデータベースとの特徴マッチング122(例えば、キーポイントおよび/またはキーポイントの別の特徴、あるいは、キーポイントの周りのパッチを比較することによって)を実行するためにこれらの記述子が使用されうる。次に、正確な特徴マッチを確実にし、マッチ結果126を提供するために、幾何学的検証または一貫性検査124がキーポイントマッチに対して行われる。この方法で、クエリ画像は、ターゲット画像のデータベースと比較され、および/または、それから識別されうる。
第1の態様に従って、画像スケーリング114は、画像サイズ/解像度を推定するために、スケール空間にわたる特徴の密度または配置に基づきうる。異なるスケールでのキーポイント配置の1または複数のピークは、支配的な画像スケールを追跡し、オブジェクトサイズを大まかに追跡するために使用される。かなりの割合のキーポイントがスケール空間ピラミッド(例えば、ガウススケール空間ピラミッド)のより高いスケールで見つかる場合、あるいは、複数のスケールにわたって均一に拡散される場合、これは、この画像がより高い解像度を有していることを示す。そうではなく、キーポイントがより低いスケールに集中している場合、これは、この画像がより低い解像度を有していることを示す。これは、そのような推定画像サイズに比例するカーネルサイズ半径Rを選択可能にする。例えば、オブジェクトサイズは、このスケールまたはより小さい(より低い)スケールで検出された全てのキーポイントの特定の閾値割合を含む最小スケールレベルによって選択される。
第2の態様に従って、特徴プルーニング118は、処理および/またはマッチングされるべき特徴の数を減らすために行われうる。検出された全ての特徴を特徴マッチングに使用する代わりに、特徴(すなわち、キーポイント)は、それらが検出されるクラスタ密度および/またはスケールに基づいてプルーニングされる。すなわち、特徴マッチングには、より低い密度のクラスタに含まれる特徴よりも高密度クラスタに含まれる特徴が好まれうる。
第3の態様に従って、空間制約付き特徴マッチング120が行われうる。クエリ画像について、インライア対アウトライアのキーポイント比を増やし、幾何学的一貫性検査を削減または回避するために、クエリ画像とターゲット画像とのキーポイントマッチは、キーポイントクラスタリングに基づきうる。クラスタは、近くのキーポイントをまとめてグループ化することによって定義されうる。次に、キーポイントマッチング(高い閾値を用いた)が、クエリ画像と1または複数のターゲット画像との間で行われる。十分なマッチ(閾値を超えたマッチ)が見つかったキーポイントは、アンカーポイントとみなされる。クエリ画像クラスタおよびターゲット画像クラスタは、マッチングされたアンカーポイントに基づいてマッチングされうる。次に、バイナリキーポイントマッチングが行われうる。ここで、選択されたターゲット画像クラスタ内の部分マッチ(閾値を下回るマッチ)が前に見つかったキーポイントのいずれか(対応するアンカーポイントによって)は、クラスタの一部として含まれる。マッチングされなかったキーポイントおよび/または誤ってマッチングされたキーポイントは、画像認識のために、クエリクラスタから除外される。
図2は、例示的な画像取込ステージ102を示す。ここで、画像108は、デジタル取込画像208を取得するために1または複数の画像センサ204および/またはアナログ/デジタル変換器を含みうる画像取込デバイス202によって取り込まれうる。画像センサ204(例えば、電荷結合素子(CCD)、相補型MOS(CMOS))は、光を電子に変換しうる。この電子はアナログ信号を形成し、それは、次に、アナログ/デジタル変換器206によってデジタル値に変換されうる。この方法において、画像108はデジタル形式で取り込まれ、それは、画像I(x,y)を、例えば、対応する色彩、照度、および/または、他の特徴を有する複数の画素として定義しうる。
図3は、例示的な画像処理ステージ104におけるスケール空間生成を示す。スケール不変特徴変換(SIFT)などの多数のアルゴリズムが、画像において特徴検出を実行するために開発されている。画像内の特定のオブジェクトの検出に関する第1のステップは、クエリオブジェクトをその局所的特徴に基づいて分類することである。この目的は、例えば、照度、画像ノイズ、回転、スケーリング、および/または、視点のわずかな変化に対して不変および/または耐性のある特徴を識別および選択することである。すなわち、クエリ画像と比較ターゲット画像とのマッチは、2つの画像間の照度、画像ノイズ、回転、スケール、および/または、視点の違いに関わらず見つけられるべきである。これを行う1つの方法は、画像のパッチに対して極値検出(例えば、局所極大または局所極小)を行い、高度に特異的な特徴(例えば、画像内の特異的なポイント、画素、および/または、領域)を識別することである。
SIFTは、照度の変化、画像ノイズ、回転、スケーリング、および/または、視点のわずかな変化に対して適度に不変である局所特徴を検出および抽出するための1つのアプローチである。SIFTのための画像処理ステージ104は、(a)スケール空間極値検出、(b)キーポイント局所化、(c)オリエンテーション割当、および/または、(d)キーポイント記述子の生成を含みうる。とりわけ、SURF(Speed Up Robust Features)、GLOH(Gradient Location and Orientation Histogram)、LESH(Local Energy based Shape Histogram)、CHoG(Compressed Histogram of Gradients)、を含む、特徴検出と後の特徴記述子生成のための別のアルゴリズムが、さらに本明細書に記述される特徴から利益を得うることは明白である。
スケール空間生成110において、デジタル画像I(x,y)208(図2)は、スケール空間ピラミッド302を構築するために、次第にぼやかされるか、あるいは、平滑化される。ぼやかすこと(平滑化)は、ぼやかされた/平滑化された画像L(x,y,cσ)がL(x,y,cσ)=G(x,y,cσ)×I(x,y)として定義されるように、一般的に、スケールcσにおいてぼやかし/平滑化関数G(x,y,cσ)を用いて原画像I(x,y)を畳み込むことを含む。ここで、ぼやかし/平滑化関数Gは、空間フィルタカーネル(例えば、特に、ガウス、または、ガウスのラプラス)であり、cσは、画像I(x,y)をぼやかすために使用されるぼやかし/平滑化関数Gの標準偏差を表す。乗数cが変化するにつれ(c<c<c<c<c)、標準偏差cσが変化し、漸進的なぼやかし/平滑化が取得される。シグマσは、基本スケール変数(根本的に、ガウスカーネルの幅)である。ぼやかし画像Lを生成するために、初期画像I(x,y)が、ぼやかし/平滑化関数Gを用いてインクリメント的に畳み込みされると、ぼやかし画像Lは、スケール空間において定数因子(constant factor)cにより離される。ぼやかし(平滑化)画像Lの数が増加し、スケール空間ピラミッド302に提供される近似が連続空間に近接するにつれ、2つのスケールも1つのスケールに近接する。1つの例において、畳み込み画像Lはオクターブ単位でグループ化され、ここで、1つのオクターブは、標準偏差σの値の倍に対応しうる。さらに、乗数cの値(例えば、c<c<c<c<c)は、固定数(例えば、複数)の畳み込み画像Lがオクターブごとに取得されるように選択されうる。スケーリングの各オクターブは、明示的な画像サイズ変更に対応しうる。このように、原画像I(x,y)が、漸進的なぼやかし/平滑化関数Gによってぼやかされる/平滑化されると、画素数は次第に減少する。
差分スケール空間(例えば、DoG(Difference of Gaussian))ピラミッド304が、スケール空間ピラミッド302における任意の連続した2つのぼやかし画像の差を計算することによって構築されうる。差分スケール空間304において、D(x,y,a)=L(x,y,cσ)−L(x,y,cn−1σ)である。差分画像D(x,y,σ)は、スケールcσおよびcn−1σにおける2つの隣接するぼやかし/平滑化画像Lの差である。D(x,y,σ)のスケールは、cσからcn−1σまでのどこかに位置する。差分画像Dは、オクターブごとに、隣接するぼやかし画像Lから取得されうる。各オクターブの後、画像は2倍でダウンサンプリングされ、このプロセスは繰り返される。この方法において、画像は、変形、回転、スケール、および/または、別の画像パラメータおよび/または歪みに対して耐性があるまたは不変である局所特徴に変換されうる。
一度生成されると、クエリ画像についての差分スケール空間304は、関心を引く特徴を識別する(例えば、画像内の高度に特異的なポイントを識別する)ために、極値検出に利用されうる。これらの高度に特異的なポイントは、本明細書において、キーポイントと呼ばれる。これらのキーポイントは、各キーポイントの周りのパッチまたは局所領域の特徴によって識別されうる。各キーポイントとその対応パッチに対して記述子が生成され、それは、クエリ画像と記録されたターゲット画像とのキーポイント比較に使用されうる。「特徴(feature)」は、記述子(すなわち、1つのキーポイントおよびその対応パッチ)を指しうる。特徴のグループ(すなわち、複数のキーポイントおよび複数の対応パッチ)は、クラスタと呼ばれうる。
図4は、例示的な画像処理ステージ104における特徴検出を示す。特徴検出112において、差分スケール空間304は、画像I(x,y)のキーポイントを識別するために使用されうる。特徴検出112は、画像内の特定のサンプルのポイントまたは画素の周りの局所領域またはパッチが、潜在的に興味のあるパッチであるか否かを判定しようとする(幾何学的に言って)。
一般的に、差分スケール空間304における局所極大および/または局所極小が識別され、これらの極大および極小の位置は、差分スケール空間304におけるキーポイント位置として使用される。図4に示される例において、キーポイント408は、パッチ406と共に識別されている。局所極大および局所極小を見つけること(局所極値検出としても知られている)は、差分スケール空間304内の各画素(例えば、キーポイント408の画素)を、同一スケールにおける8つの隣接画素、並びに、キーポイント408の両側にある隣接スケールの各々の9つの隣接画素(隣接パッチ410および412内の)(合計で26画素(9×2+8=26))と比較することによって達成されうる。ここで、パッチは、3×3の画素領域として定義される。キーポイント408の画素値が、パッチ406、410、412内の26個全ての比較された画素の中で極大または極小である場合、これはキーポイントとして選択される。このキーポイントは、それらの位置がより正確に識別されるようにさらに処理され、低コントラストキーポイントおよびエッジキーポイントなど、キーポイントのいくつかが破棄されうる。
図5は、例示的な画像処理ステージ104における特徴記述子抽出を示す。一般的に、特徴(例えば、キーポイントおよびその対応パッチ)は、特徴(クエリ画像の)とターゲット画像のデータベースに記憶された特徴との効率的な比較を可能にする記述子で表されうる。特徴記述子抽出116の1つの例において、各キーポイントは、局所画像勾配の方向に基づいて1または複数の配向、すなわち方向、を割り当てられうる。局所画像プロパティに基づいて各キーポイントに一貫した配向を割り当てることによって、キーポイント記述子は、この配向に相対的に表され、それによって、画像回転に対する不変性が達成される。大きさおよび方向の計算は、ぼやかされた画像Lにおける、および/または、キーポイントスケールにおけるキーポイント408の周りの近傍領域の全ての画素に対して行われうる。(x,y)に位置付けられたキーポイント408についての勾配の大きさは、m(x,y)と表され、(x,y)におけるキーポイントについての勾配の配向または方向はΓ(x,y)と表されうる。キーポイントのスケールは、キーポイント408のスケールに最も近いスケールを有するぼやかし/平滑化画像Lを選択するために使用され、それによって、全ての計算はスケール不変方法で行われる。このスケールの各画像サンプルL(x,y)について、勾配の大きさm(x,y)および配向Γ(x,y)は、画素差を使用して計算される。例えば、大きさm(x,y)は、次のように計算される:
Figure 0005384746
方向またはオリエンテーションΓ(x,y)は、次のように計算されうる:
Figure 0005384746
ここで、L(x,y)は、キーポイントのスケールでもあるスケールσにおけるぼやかされた画像L(x,y,σ)のサンプルである。
キーポイント408についての勾配は、差分スケール空間内のキーポイントのプレーンよりも上のより高いスケールに位置するスケール空間ピラミッドのプレーンに対して、または、キーポイントよりも下のより低いスケールに位置するスケール空間ピラミッドのプレーンにおいて一貫して計算されうる。いずれの方法であっても、キーポイントごとに、そのキーポイントの周りの長方形のエリア(例えば、パッチ)において全て1つの同じスケールで勾配が計算される。さらに、画像信号の周波数は、ぼけ画像のスケールで反映される。しかし、SIFTは、単に、パッチ(例えば、長方形エリア)内の全ての画素で勾配値を使用する。パッチはキーポイントの周りで定義され、サブブロックはブロック内で定義され、サンプルはサブブロック内で定義され、この構造は、キーポイントのスケールが異なる場合であっても全てのキーポイントに対して同じ状態を保つ。故に、同じオクターブにおけるぼけ/平滑化フィルタの連続適用で画像信号の周波数は変化するが、異なるスケールで識別されたキーポイントは、この画像信号の周波数における変化とは関係なく、同じサンプル数でサンプリングされ、それはスケールで表される。
キーポイントの配向を特徴付けるために、勾配オリエンテーションのベクトルは、キーポイント408の隣接で生成されうる(SIFTで)(例えば、キーポイントのスケールに最も近いスケールでスケール空間画像を使用することによって)。しかしながら、キーポイントの配向は、さらに、例えば、CHoG(Compressed Histogram of Gradients)を使用することによって、勾配オリエンテーションヒストグラム(図5参照)で表されうる。各隣接画素の寄与は、勾配の大きさおよびガウスウィンドウによって重み付けされうる。ヒストグラムにおけるピークは、支配的なオリエンテーションに対応する。キーポイントの全ての特性は、キーポイントの配向に相対して測定され、これは、回転に対する不変性を提供する。
1つの例において、ガウス加重勾配(Gaussian-weighted gradient)の配置はブロックごとに計算され、ここで、各ブロックは、2個のサブブロック×2個のサブブロックという全部で4個のサブブロックである。ガウス加重勾配の配置を計算するために、各々がキーポイントの周りのエリアの一部をカバーするいくつかのビンを有する配向ヒストグラムが形成される。例えば、配向ヒストグラムは、36個のビンを有し、各ビンは、360度のうちの10度の配向をカバーする。あるいは、ヒストグラムは、8個のビンを有しており、各々は、360度のうちの45度をカバーする。本明細書に記述されるヒストグラムコード化技術が、あらゆる数のビンのヒストグラムに適用されうることは明白であるべきである。最終的にヒストグラムを生成する別の技術も使用されうることに注意されたい。
勾配配置および配向ヒストグラムは、様々な方法で取得されうる。例えば、2次元勾配配置(dx、dy)(例えば、ブロック506)は、1次元配置(例えば、ヒストグラム514)に変換される。キーポイント408は、キーポイント408を囲むパッチ506(セルまたは領域とも呼ばれうる)の中心に位置付けられる。ピラミッドの各レベルに対して事前に計算された勾配は、各サンプル位置508において小さい矢印で示される。示されるように、サンプル508の4×4の領域は、サブブロック510を形成し、サブブロックの2×2の領域はブロック506を形成する。ブロック506は、記述子ウィンドウとも呼ばれうる。ガウス加重関数は円502で示され、重みを各サンプルポイント408の大きさに割り当てるために使用される。円状ウィンドウ502における重みは、平滑的に低下する。ガウスウィンドウ502の目的は、ウィンドウ位置のわずかな変化による記述子の突発的な変化を回避することと、記述子の中心から離れている勾配に対してあまり重要性を与えないことである。配向ヒストグラム512の2×2=4個のアレイが2×2のサブブロックから取得され、ヒストグラムの各ビンの8個の配向は、(2×2)×8=32次元特徴記述子ベクトルをもたらす。例えば、配向ヒストグラム513および515は、サブブロック510の勾配配置に対応しうる。しかしながら、各キーポイントに対して(4×4)×8=128次元特徴の記述子ベクトルに帰着する、各ヒストグラムに8個の配向を有するヒストグラム(8ビンヒストグラム)の4×4のアレイを使用することは、より良い結果を産出しうる。勾配配置を取得するために、別のタイプの量子化ビンコンステレーション(例えば、異なるボロノフセル構造を有する)がさらに使用されうることに注意されたい。
本明細書で使用される場合、ヒストグラムは、ビンとして知られている互いに素な様々なカテゴリに含まれる観察、サンプル、または、出現(例えば、勾配)の数をカウントするマッピングkである。ヒストグラムのグラフは、単に、ヒストグラムを表すための1つの方法である。このように、kが、観察、サンプル、または、出現のトータル数であり、mがビンのトータル数である場合、ヒストグラムkの周波数は、次の条件を満たす:
Figure 0005384746
ここで、Σは加法演算である。
サブブロックからのヒストグラムは、キーポイントについての特徴記述子ベクトルを取得するために連結されうる。16個のサブブロックからの8ビンヒストグラムにおける勾配が使用される場合、128次元特徴記述子ベクトルが結果として生じうる。
この方法において、記述子は、識別されるキーポイントごとに取得されうる。ここで、そのような記述子は、および、ガウス加重勾配の配置の位置(x,y)、配向、記述子によって特徴付けられうる。画像が、1または複数のキーポイント記述子(画像記述子としても知られている)によって特徴付けられうることに注意されたい。加えて、記述子は、さらに、位置情報(例えば、キーポイントについての座標)、スケール(例えば、キーポイントが検出されたガウススケール)、および、クラスタ識別子などの別の情報を含みうる。
図6は、例示的な画像比較ステージ106における特徴マッチングを示す。記述子がクエリ画像内で識別されたキーポイントに対して取得されると、特徴マッチング122を行うために、クエリ画像108内のキーポイントが、ターゲット画像602、604、606、および/または、608内のポイントと比較および/またはマッチングされうる。例えば、クエリ画像内のキーポイントについての記述子は、1または複数のマッチを見つけるために、ターゲット画像のデータベースに記憶される1または複数の記述子(ターゲット画像のデータベース内のキーポイントに対応する)と比較されうる。記述子マッチングは、最も近い近傍探索を含み、ここで、クエリ記述子は、最も近いまたは最も類似したマッチを決定するために、データベース内の候補記述子のライブラリと比較される。いくつかの従来技術のアプローチにおいて、クエリ記述子をデータベース内の候補記述子とマッチングすることは、偽陽性を回避するように1または複数の閾値を設定することを含みうる。例えば、2つの記述子間の距離L2が、最も近い隣接マッチを認証するために使用されうる(すなわち、最短距離がマッチとして選択される)。このマッチング技術は、画像内の反復構造の記述子に影響を受けやすい。ゆえに、クエリ記述子の第1のマッチと最も近い第2のマッチとの距離比(d1/d2)は、非一意的な特徴(例えば、反復構造)をフィルタリングして除去するために使用されうる。この方法において、クエリ画像内のキーポイントは、ターゲット画像内のキーポイントにマッチングされる。しかしながら、距離比テストの追加でさえ、単に特徴が画像内で反復するとの理由で潜在的なマッチを、および、互いに空間的に近接して位置する複数のキーポイントを有することから生じる誤りのマッチを、排除することに影響を受けやすい。
加えて、ポーズまたは照度の変化あるいは別の要因(例えば、環境条件など)により、特徴マッチング(例えば、最も近い近傍探索)は、記述子自体もかなり変化しうるため、誤りをもたらす可能性がある。結果として、そのような特徴マッチングは、過度な誤りマッチという問題(偽陽性と呼ばれる)を有することが知られている。部分的な特徴マッチング(点線で示される)が、クエリ画像108のオブジェクト600についてここで示され、オブジェクト600のキーポイントは、複数の異なるターゲット画像602、604、606、および/または、608上の複数のキーポイントとマッチングされる。いくつかのキーポイントは、不正確な画像602および608にマッチングされる。同一のキーポイントおよび別のキーポイントのうちのいくつかは、正確な画像604にマッチングされる。正確な画像604にマッチングされた場合であっても、クエリ画像内のいくつかのキーポイントは、正確な画像604内の不正確なポイント(すなわち、位置)にマッチングされうる(不正確なマッチ610のように)。例えば、オブジェクト600のキーポイントの記述子は、正確な画像604の記述子に不正確にマッチングされうる。この理由により、幾何学的一貫性検査124が、後処理ステップとして行われる。
幾何学的一貫性検査124(幾何学的検証とも呼ばれる)は、マッチングされたキーポイント(特徴マッチングステップにおいて)のどれが実際に正確なマッチであるかを確定または検証するために行われる。この幾何学的検証は、データフィッティングモデルを、クエリ画像からの複数のキーポイントに適用することが多い。例えば、RANSAC(RANdom SAmple Consensus)は、汚染データのためのデータフィッティングモデルであり、データからポイントのセットをランダムにサンプリングして、モデルパラメータを推定することによって機能し、フィッティングを決定するために全てのデータを検証する。これは、正確なマッチを検証するための反復プロセスである。
幾何学的検証は、オブジェクト認識のパイプラインにおける主要な計算的ボトルネックである。キーポイントマッチの成功検証は、「インライア(inlier)」と呼ばれ、キーポインマッチの不成功検証は、「アウトライア(outlier)」と呼ばれる。インライアマッチは、画像内のオブジェクトの位置および/または姿勢の解決を可能にする。アウトライアよりも数が多いインライアが識別されると、幾何学的検証技術を実施するために、データフィッティングモデル(例えば、RANSAC)が選択および使用されうる。インライアを減らすことなく高精度なアウトライア除去を求めること(高いリコール)は、特徴マッチングを改善する方向にあるが、同時に、オブジェクト認識プロセスを遅くする。これは、全ての可能なインライアマッチを受け入れようとする過程で、誤ったマッチ(アウトライア)に帰着する多数のキーポイントの受け入れにより、データ(クエリ画像のキーポイント)がかなり汚染されるためである。データフィッティングモデル(例えば、RANSAC)は、含まれるアウトライアの数が増加するにつれ、急激に遅くなる傾向にある。逆に、特徴マッチングステップにおいてより選択的になること(例えば、「マッチ」とみなされるものに対する閾値を増すこと)によって、アウトライアマッチだけでなくインライアマッチも減りうる。一般的に、より高速な収束のためにアウトライアを減らす一方で十分なインライアを得るための妥協の閾値を見つけるために、様々なデータセットのための幾何学的検証ステップは不可能である。既に述べられたように、従来のアプローチ(例えば、最も近いもののL2距離、および/または、最も近いもの/2番目に最も近いものの比d1/d2)は、空間的反復特徴を有するオブジェクト、あるいは、特定の特徴が密な空間クラスタ内に存在する(オーバーラッピングパッチ上に記述子を作ることにつながる)場合に関する既知の問題に悩まされる。すなわち、空間的反復特徴は、不正確なキーポイントマッチを引き起こすことが多い。
アンカーポイント、クラスタリング、バイナリキーポイントマッチングを用いた幾何学的検証の性能の改善
幾何学的検証は、偽陽性キーポイントマッチ(すなわち、アウトライア)を除外するための後処理ステップとして用いられる。幾何学的検証(一貫性検査とも呼ばれる)を行う際、クエリ画像と候補ターゲット画像との間での最良の仮説的変換が推定され、この変換と一貫しないキーポイントマッチは、偽陽性(すなわち、アウトライア)として除去される。しかしながら、幾何学的検証は、計算的に高価である。1つのアプローチに従って、幾何学的検証を除去すること、あるいは、幾何学的検証の収束速度を改善することは、特徴マッチングプロセスと同時にキーポイントマッチに制約を課すことを含む。すなわち、特徴マッチングの後に幾何学的検証を適用するよりはむしろ、偽陽性マッチは、特徴マッチングステップ自体の間に、削除、阻止、および/または、除去されうる。このアプローチは、幾何学的検証技術の収束速度が遅くならないように、インライア対アウトライア比を増やす。
画像内のキーポイントがしばしばグルーピングまたはクラスタ内で発生することは観察される。このように、クエリ画像には、存在するキーポイントの自然なクラスタ(すなわち、局所的グルーピング)が存在するであろう。図7は、クエリ画像内のキーポイントクラスタを示す。この例では、4つのキーポイントクラスタ704、706、708、710が識別されており、これらのクラスタの各々は、クエリ画像108の領域702に対して複数のキーポイントを含む。各クラスタが、おおよそ同一のキーポイント姿勢またはジオメトリを有すること(例えば、全てのキーポイントのスケールおよび配向がおおよそ同一であること)が観察されている。別の観察は、いくつかのクラスタが別と比較してより多くの数のインライアを有するであろうことである。加えて、サイズおよび形状は変化しうるが、クラスタは、典型的に、複数の視点(例えば、ターゲット画像との比較におけるクエリ画像に対する視野角)にわたって保存される。
1つの特徴に従って、インライア対アウトライア比は、識別されたキーポイントをクラスタへとグループ化し、そのキーポイントからアンカーポイントを選択し、ターゲット画像とのアンカーポイント対応を確立することによって増やされ、クラスタ内のキーポイントマッチに対してバイナリ決定を課す。
図8(図8Aおよび8Bを備える)は、キーポイントクラスタを用いてインライア対アウトライア比がどのように改善されうるかを示す。
クラスタの識別802:複数のキーポイントが画像に対して識別されると、1または複数のキーポイントクラスタ704、706、708、710は、この画像の領域702内で識別されうる。局所キーポイントクラスタは、例えば、ノンパラメトリック密度推定プロセス(non-parametric density estimation process)、平均シフト解析(mean shift analysis)を用いて、クエリ画像および1または複数のターゲット画像上で推定されうる。これは、クエリ画像に対してオンザフライ(on-the-fly)で行われ、ターゲット画像に対してオフラインで行われうる。キーポイントが識別されると、密度解析に基づいて、画像の各画素の周りではなく、キーポイントの周りにクラスタが作られる。
アンカーポイン対応の確立804:各クラスタ内で、1または複数のキーポイント(クラスタ内の全てのキーポイントである必要はない)は、アンカーポイント805として選択されうる。アンカーポイントは、異なるスケール空間にわたり、それらの耐性または認識に基づいてクラスタ704、706、708、710内のキーポイントから選択されうる。すなわち、複数のスケールにわたって検出可能なキーポイントがアンカーポイント806として選択されうる。アンカーポイントの識別は、クラスタ内の各キーポイントを、データベース内の1または複数のターゲット画像のキーポイントと反復的に比較することによって行われうる。すなわち、そのようなキーポイントと関連付けられた記述子は、マッチが存在するか否かを判定するために比較されうる。強いマッチ(例えば、既定の高い閾値を超える、および/または、高いスケール空間で生じる)のキーポイントは、アンカーポイントとみなされうる。アンカーポイントマッチあるいは「対応づけ」が生じるか否かについての判定は、記述子距離閾値、および/または、キーポイントが認識されるスケール空間のレベルに基づきうる。これにより、アンカーポイントは、クエリ画像とターゲット画像との間で高度な対応を有する。アンカーポイントマッチは、さらに、いくつかのクラスタがより信頼性があり(変形に対して耐性がある)、別のクラスタよりもより多くのインライアを有していることを考慮に入れうる。この例において、クエリクラスタ704、706、708、710内のアンカーポイントは、第1のターゲット画像812内のアンカーポイントとマッチングされる。
アンカーポイントを確立する過程の間、クエリクラスタ内のキーポイントは、1または複数のターゲット画像内のキーポイントとのマッチングが試される。クエリクラスタ内のいくつかのキーポイントは、マッチと判断されるのに、ターゲット画像内のキーポイントに十分に近いわけではない。例えば、クエリクラスタ内のクエリキーポイントが、ターゲットクラスタ内に対応するキーポイントを有しうる場合であっても、それらは、「マッチ」と判断されるのに十分には近くない(例えば、距離的に)可能性がある。しかしながら、これらの試行/失敗のキーポイントマッチについての情報は、後に使用するために(すなわち、バイナリキーポイント決定808を実行するために)保存されうる。そのような情報は、例えば、対応するキーポイントがターゲットクラスタ内に存在するか否かを含みうる。
バイナリキーポイント決定808:アンカーポイントの対応づけが確立された各クラスタについて、クラスタ704、706、708、710内のさらなるキーポイントに対してバイナリ決定が行われうる。このバイナリ決定は、単に、クエリ画像のクラスタ内のキーポイントが、対応するターゲット画像内にマッチを有するか否かを決定する。クエリクラスタ内の全てのキーポイントを、ターゲット画像内の1または複数のキーポイントとマッチングする試みが、アンカーポイントを確立する際に既に生じたため、このキーポイントマッチングプロセスが繰り返される必要はない。その代わりとして、前のマッチングの試みからの情報が、このバイナリキーポイントマッチング決定を行う際に使用されうる。対応するキーポイントがターゲット画像内で見つかり、そのようなキーポイントが、クエリクラスタのアンカーポイントと同一の対応クラスタ内にある限り、バイナリマッチは見つかる。例えば、クラスタ708は、ターゲット画像812内のクラスタ816とマッチングされている(それらの1または複数のアンカーポイントを介して)可能性がある。かくして、クエリクラスタ708内のキーポイントは、それらが、対応するターゲットクラスタ816内に対応するキーポイントを有する場合、自動的に「マッチ」とされる。これは、局所クラスタ内のより高い密度のマッチによって、非常に高いインライア/アウトライア比をもたらす。このバイナリキーポイントマッチングを行うための全ての情報が、アンカーポイントを確立する際に既に取得されており、そのため、追加のキーポイント比較が必要ないことに注意されたい。
図9は、図8の方法に従ったクエリクラスタとターゲットクラスタとのキーポイントマッチングの例を示す。クエリクラスタ内のアンカーポイントを確かめるために、クエリクラスタ708内の各キーポイントは、データベースからの1または複数のターゲット画像内のキーポイントと比較されうる(例えば、その対応する記述子を使用して)。強いマッチ(例えば、高い閾値を満たすキーポイントマッチ)がアンカーポイントとして選択される。この例において、キーポイントQAP−1およびQAP−2は、クエリクラスタ708についてのアンカーポイントとして識別されている。クエリクラスタ708内のアンカーポイントが、1よりも多くのターゲットクラスタと関連付けられる場合、最大数の対応アンカーポイントを有するターゲットクラスタが、対応クラスタとして選択されることに注意されたい。ここで、ターゲットクラスタ816は、クエリクラスタ708についての対応クラスタであると見なされている。クラスタ対応を識別する(クエリクラスタ708とターゲットクラスタ816との間で)と、バイナリキーポイントマッチングが、クエリクラスタ708内の残りのキーポイントに対して行われうる。ここで、クエリキーポイントQKP−1、QKP−2、QKP−3、QKP−4は、ターゲットクラスタ内に対応キーポイントを有していたが、この対応がアンカーポイントマッチ用の高い閾値を満たしていなかったため、それらは、アンカーポイントとして前に拒否されている。この対応プロセスは、これらのクエリキーポイントのうちのいくつかが対応キーポイントとこれらの対応キーポイントのターゲットクラスタを有していると識別するため、この情報は、バイナリキーポイントマッチングを行うために使用されうる。クエリキーポイントが、アンカーポイントマッチに基づいて選択された同じターゲットクラスタ内に対応キーポイントを有する場合、そのような全てのキーポイントは、画像認識のために、クエリクラスタの一部として含まれる。ここで、クエリキーポイントQKP−1、QKP−2、QKP−3、QKP−4は、それぞれ、ターゲットクラスタ816内の対応キーポイントKP−j、KP−c、KP−d、KP−hと関連付けられている。キーポイントQKP−5がマッチングされないこと、つまり、それは、不正確にマッチングされたか、異なるターゲットクラスト内のキーポイントと関連付けられたこと、あるいは、それについてのキーポイントマッチが見つからなかったことを意味することに注意されたい。
空間的な制約が確立される(すなわち、クラスタが定義される)ため、一般的に、アウトライアマッチは発生しない。すなわち、キーポイントは、単に、ターゲット画像内の別のキーポイントにマッチングされるわけではなく、むしろ、対応するクラスタ(アンカーポイントマッチによって識別されるような)の中のキーポインにマッチングされうる。加えて、これが、バイナリ決定(アンカーポイントマッチングにおけるような閾値/確からしさの決定ではない)であるため、可能性のある全てのインライアは、空間的反復構造が存在する場合であっても受け入れられる。
クラスタリングを用いた例示的なキーポイントマッチング
図10は、クラスタリングを用いたキーポイントマッチングを行うための方法を示すフローチャートである。最初に、参照画像のデータベースを作るために、ターゲット画像がオフラインで処理されうる。例えば、1または複数のターゲット画像内のキーポイントが識別されうる(1002)。各ターゲット画像についてキーポイントのクラスタが識別または定義されうる(1004)。同様に、クエリ画像のリアルタイム処理のために、キーポイントが識別され(1008)、キーポイントのクラスタが定義される(1010)。本明細書に記述されるクラスタリングプロセスが、画像内の全ての画素のクラスタリングに基づくのではなく、キーポイントとして分類された画素にだけ基づくことに注意されたい。
計算的複雑性は、初期クリスタリングを用いるためにトータルキーポイントのサブセットだけ(すなわち、アンカーポイントだけ)を考慮することでさらに減らされる。クエリ画像とターゲット画像とのキーポイントを比較することによってクエリ画像の各クラスタに対して1または複数のアンカーポイントが識別されうる(1012)。例えば、クエリ画像内のキーポイントと、ターゲット画像内のキーポイントとの間の高い対応づけ閾値に基づいて、1または複数のアンカーポイントが選択されうる。このアンカーポイント選択プロセスは、クエリ画像内の各キーポイントについての記述子を、ターゲット画像内のキーポイントについての記述子と比較することによって行われうる。
次に、アンカーポイント対応に基づいてクエリ画像とターゲット画像との間でクラスタマッチングが行われうる(1014)。すなわち、クエリクラスタにおいてマッチングされたアンカーポイントに基づいて、ターゲット画像において対応クラスタが選択される。例えば、ターゲット画像内の対応クラスタは、クエリ画像のクラスタから最大数のアンカーポイントがマッチングされたクラスタでありうる。次に、バイナリキーポイントマッチングが、クエリ画像に対してクラスタ単位で行われうる(1016)。すなわち、キーポイント比較を既に行ったことで、ターゲット画像のクラスタ内の最も近い対応キーポイントについての情報が取得されうる。ターゲットクラスタ内の部分マッチ(すなわち、高い閾値未満のマッチ)を有するキーポイントは、クエリクラスタ内に保存される。マッチングされないキーポイントおよび/または誤ってマッチングされたキーポイントは、クエリクラスタから除外される。
クラスタを識別するステップ1004/1010(図8における802のような)は、様々な方法で行われうる。複数のキーポイントを前提として、これらのキーポイントのクラスタは、ノンパラメトリックに取得されうる(すなわち、クラスタの予めの個数には制約なく)。クラスタリングのためのパラメータは、空間的近傍でありうる。この近傍スケールは、クラスタリングに使用されるカーネルサイズによって設定されうる。クラスタリングについての空間的近傍に加えて、色彩およびテキスチャも使用されうる。クラスタリングの1つの例において、n個のキーポイントは、ノンパラメトリックカーネル密度推定器を使用して、別個のクラスタまたはグループへとグルーピングされうる。キーポイントのセット{x,...x}について、ここで、xεRは、第iのキーポイントについての座標であり、このセットに対するノンパラメトリックカーネル密度推定器は、次のように定義されうる:
Figure 0005384746
ここにおいて、k(x,x)は、帯域幅hを有するカーネルである。この帯域幅は、密度の解像度を特定し、それにより、xの周りの局所密度推定に影響を及ぼすポイントの隣接を特定する。例えば、ガウスカーネルの場合、帯域幅hは、標準偏差
Figure 0005384746
に対応する。ここで、cは、正規化定数であり、g(x,x)は、非正規化ガウスカーネルである。カーネルが、凸状であり、単調に増加する場合、平均シフトアルゴリズムは、局所極大に収束することが保証される。これは、密度関数の勾配上昇方向に比例する平均シフトに続いて反復的に行われうる。ガウスカーネルの場合、この平均シフトは、次のように与えられる:
Figure 0005384746
ここで、yj+1は、推定された密度関数に従って、yからのシフトされた位置である。このシフトは、現在の位置の確からしさとは逆に重み付けされるため、それは、局所極大に迅速に収束する。同一の局所極大に収束するキーポイント全てがクラスタとみなされうる。
クエリ画像Iを仮定すると、スケール不変特徴(キーポイントと呼ばれる)のセットF(IQj)={(xQj,yQj,sQJ)}は、スケールSQJで座標(xQJ,yQJ)に中心がくるように抽出されうる。空間クラスタのセットKQ(k={1..n})が定義され、ここにおいて、nは、F(IQj)に対して、半径Kの円形カーネルの平均シフトクラスタリングを用いることによって取得されるクラスタの数である。このように、空間クラスタ(キーポイントの)のセットは、次のように定義されうる:
Figure 0005384746
ここで、cl(k)は、カーネルKを使用するクラスタリングを表す。
オフライントレーニングフェーズにおいて、データベース画像Iは同様に処理され、キーポイントクラスタが取得されるが、それは、複数の異なるカーネルサイズを有する。特徴(キーポイント)セットは、本明細書において、F(ITj)と定義される。トータルクラスタセットは、KTと定義され、ここにおいて、下付き文字「I」は、全クラスタセットKTのクラスタのインデックスを表す。クエリ画像Iに対する1つのカーネルサイズと、データベース画像Iに対するカーネルセット(すなわち、複数のカーネルサイズ)を選ぶ理由は、データベース画像Iが複数の異なるスケールでサンプリングされ、異なる画像スケールでの特徴マッチングを可能にするためである。
クエリ画像I内の各クラスタ(k,KQ)について、連続画像パッチ間の距離比(または、距離L2)閾値を使用することによって、ポイント対応セットCが取得されうる。この対応セットCは、初期アンカーポイントセット(すなわち、アンカーポイントのセット)である。キーポイント(アンカーポイントを含む)が記述子によって表されることを再度考慮されたい。例えば、クエリ画像I内の特徴(例えば、キーポイントおよび/または隣接ポイント)F(IQj)は、記述子D(I)で表されうる。同様に、データベース画像ITj内の特徴(すなわち、キーポイント)F(ITj)は、記述子D(I)で表されうる。対応セットCは、画像のデータベースのクラスタ内のアンカーポイント
Figure 0005384746
と成功裏にマッチされた単一のクエリクラスタ(例えば、クエリ画像Iの)内にこれらのアンカーポイント
Figure 0005384746
を含む。このように、1つのクラスタのアンカーポイント対応セットCは次のように定義される:
Figure 0005384746
ここにおいて、演算子「^」は、論理結合演算である(すなわち、アンカーポイントが両方の記述子グループに存在する場合に真であり、それ以外の場合に偽である)。このアンカーポイント対応セットCは、ほとんど、あるいは、まったく、アウトライアを有していないが、インライアもほとんど有していない。この方法において、1つのクラスタに対してアンカーポイントのセット(すなわち、アンカーポイント対応セットCによって定義される)が取得されうる。
図11(図11Aおよび図11Bを備える)は、アンカーポイントマッチング、クラスタ対応、および、バイナリイーポイントマッチングの例を示す。図12は、図11の結果をさらに詳細に示す表である。クエリクラスタi 1001の複数のキーポイント(記述子D1〜D9と関連付けられた)は、アンカーポイントマッチを見つけるために、1または複数のターゲット画像のキーポイントと比較される。アンカーポイントマッチを決定する際に、高い閾値が使用される。キーポイントマッチが閾値を満たす(すなわち、キーポイント対応が閾値以上である)場合、アンカーポイントマッチ(「十分なマッチ」と呼ばれる)が作られる。そうではなく、クエリキーポイントがマッチングされないか、あるいは、キーポイント対応が閾値未満である場合(「部分マッチ」と呼ばれる)、アンカーポイントマッチは作られない。このマッチング情報(対応するターゲット画像クラスタを含む)は、後に使用するために、維持、保存、または記憶される。この例において、記述子D2、D3、D4と関連付けられたキーポイントは、対応閾値を満たしている(すなわち、それらは十分なマッチである)。D2は、クラスタj+2およびj+3内のキーポイントとマッチングされている。D3は、クラスタj+2内のキーポイントとマッチングされている。D4は、クラスタjおよびj+2内のキーポイントとマッチングされている。アンカーポイントについての最多数の十分なマッチが、クラスタj+2とであるため、クエリクラスタi 1101とターゲットクラスタj+2 1106との間にクラスタ対応が確立される。よって、アンカーポイント対応セットCは、クラスタi 1101の記述子D2、D3、D4に対応するアンカーポイントを含みうる。続いて、インライアキーポイントカウントを増やし、アウトライアキーポイントカウントを減らすために、選択されたターゲットクラスタj+2 1106内の部分マッチが見つかった別のクエリキーポイントがキーポイントとして含まれる。これはバイナリ決定であり、ここで、クエリキーポイントが、選択されたターゲットクラスタにおいて部分マッチを有する限り、これは、クエリクラスタの一部として含まれる。この例において、記述子D1、D5、D7、D9と関連付けられたクエリキーポイントは、クエリクラスタi 1101のキーポイントにされる。記述子D6およびD8と関連付けられたもののような他の全てのキーポイントは、画像マッチングのために破棄または無視される。
1つの例において、アンカーポイントマッチ(「十分なマッチ」)は、距離比よりもむしろL2距離に基づきうる。すなわち、L2距離についての閾値(例えば、キーポイントマッチについての最大誤差)は、ほとんど(全てではない)のインライアマッチの拒否という犠牲を払ったとしても全てのアウトライアマッチが拒否されるように選択される。
マッチングプロセスは、より高いスケールで検出されたキーポイントが、より低いスケールで検出されたキーポイントよりも好まれる、あるいは、望まれるスケール空間優先度にも基づきうる。ここで、様々なキーポイントが検出される異なるスケールを示すスケール空間ピラミッド1110が例示される。スケール空間ピラミッドのより高いスケールで検出されたキーポイントが、より低いスケールで検出されたキーポイントと比べてより安定していることが観察される。これは、高いスケールの特徴(すなわち、スケール空間ピラミッドのより高いオクターブで検出された特徴)が、ノイズおよび歪みに対してより平滑的並びにより耐性があるためである。1つの例において、スケール空間ピラミッド1110の高スケールおよび/または中間スケールのいずれかに含まれるキーポイントだけが、アンカーポイントとみなされうる。
このように、1つの例において、ターゲット画像内の最も近いものは、L2距離が、閾値Tcよりも短い場合、および、クエリキーポイントが、事前に設定されたスケール空間優先度を満たす(例えば、クエリキーポイントが、スケール空間ピラミッドのn個の最高スケールで見つかる)場合にのみ、アンカーポイントとして受け入れられうる。この方法において、結果として得られるマッチは、アンカーポイントマッチとみなされる。
空間反復特徴がクエリ画像に存在する場合であっても、アンカーポイントおよびクラスタ対応によって課せられた空間的制約が、不正確なキーポイントマッチを減らす傾向にあり、それによって、インライア対アウトライア比が改善されることに注意されたい。
記述子の反復性および記述力は、アフィン変化および視角により悪化しうる。従って、キーポイント/特徴マッチを決定する際に、視角も考慮されうる。すなわち、クエリ画像が、ターゲットデータベース画像とは大きく異なる視角を有する場合、マッチが誤りあるいは不正確となる可能性はより大きい。アンカーポイント対応セットCは可能な限り正確であることが望まれるため、視角の特定の変化後のマッチは、不利な立場におかれる(penalize)か、あるいは、回避されうる。基準視点は、シーンまたはオブジェクトの正面の視点である。視点が変化するにつれ、基準視点および角のある視点から取得される記述子のL2距離と、視角βとの間に相互関係が存在する。L2ノルム(norm: 標準L2)は、閾値角度として選択される、特定の角度βの後にピークをとる。よって、閾値角度βを超えるあらゆるマッチが、信頼性がないとみなされうる。実施において、閾値角度βは、正確なキーポイント対応が下がり始める閾値角度β(すなわち、L2距離がピークに達し始める角度β)を決定することによって、経験的に確かめられうる。
クラスタi 1101(対応セットCjにおいて識別される)に対するアンカーポイントマッチを取得すると、マッチングアンカーポイントを含むクラスタ対応セットSkjが取得されうる。すなわち、クラスタi 1101に対してアンカーポイントfがマッチングされると、クエリクラスタは、このアンカーポイントマッチに基づいてデータベース内のクラスタにマッチングされうる。アンカーポイントのクラスタ対応セットSkjは、次のように定義されうる:
Figure 0005384746
ここにおいて、<−>は、クエリ画像のアンカーポイントfと、ターゲットデータベース画像のアンカーポイントfとの対応を表す。
ターゲットデータベースクラスタに対するインデックスIsは、次のように、クラスタセットKT全体から取得されうる:
Figure 0005384746
すなわち、選択されたデータベースクラスタは、クエリ画像内の大半のアンカーポイントがマッチングされた1つのクラスタである。2つのインデックス(例えば、Is1、Is2)が式10に従って同じ解法を提供しうる(すなわち、異なるクラスタへのマッチを識別する2つ以上のインデックスがみつかる)場合が存在しうることに注意されたい。そのような場合、ピークキーポイント密度を有するターゲットクラスタを指すインデックスは、それが、アウトライアがより少ないより密なマッチングを提供するため、選択される。
この方法において、後続のキーポイントマッチングにおいて空間的制約を強めるクラスタ対応が達成されうる。
クラスタ対応は、様々な方法で確実にされうる。1つの例において、クエリクラスタ内の十分に高い割合のアンカーポイントがターゲットクラスタにマッチングされる場合、クラスタ対応が見つかる。例えば、クラスタ対応セットSkjのアンカーポイントの数と、クエリ画像クラスタKQ内のアンカーポイントの数の最低または最小、あるいは、データベース内のターゲットクラスタセットKT内のアンカーポイントの数の最低または最小との比が、閾値Tclusterよりも高い場合、インデックスIsは、重要であると考えられる。例えば、インデックスIsは、以下の場合に重要であるとみなされる:
Figure 0005384746
ここで、閾値TClusterは、ユーザ定義された割合または比率である。式11は、取得された(クラスタ対応セットSkjにおいて)正確なアンカーポイントマッチのフラクションがクラスタ対応を作るのに十分重要である(十分高い)か否かを考慮する。式11は、クラスタ対応セットSkjのアンカーポイントの数を、クエリクラスタまたはデータベースターゲットクラスタのアンカーポイントの最小数で割り、閉塞およびアフィン歪みによるクラスタサイズ変化を説明する。これは、クエリクラスタとデータベース(ターゲット)クラスタとの間で誤ったクラスタ対応を受け入れないことにつながる。これは、いくつかのクラスタが他のクラスタよりも安定しているという観察を利用する。
いくつかのインプリメンテーションにおいて、クラスタが重要であるとみなされるか否かは、顕著な視点の変化がクラスタサイズを変えることを考慮に入れうる。このように、視点の角度に依存して、クラスタ対応に十分とみなされるマッチの数は、変化しうる。例えば、最大で70度の視点の変化が期待される場合、図11における最小マッチフラクションに対する閾値は、Tcluster=arccos(70)としてモデリングされ、それは、約0.35である。これは、対応を許容できるようにするために、クエリおよびターゲットクラスタ内の特徴の数に関して最小数のアンカーポイントマッチが存在すること表す。
図11を再度参照する。クラスタ対応が実施されると、キーポイントマッチングが、アンカーポイントとして前に選択されていないキーポイントに対して行われうる。クラスタ内の全てのマッチングキーポイントの最後の対応セットCNを生成するために、クエリクラスタ内の各キーポイント
Figure 0005384746
は、データベース画像内のキーポイントにマッチングされる。この「マッチ」は、クエリキーポイントが、インデックスIsで識別されたターゲットクラスタに含まれる場合にのみ受け入れられる。クラスタ内のマッチングキーポイントの最後の対応セットCNは、次のように表されうる:
Figure 0005384746
セットCNは、多数のインライアおよび極めて少数のアウトライアを有するアンカーポイント対応セットCよりも大きくありうることに注意されたい。クラスタ対応が計算される場合、クエリ画像内の全てのポイントについて最も近くのものの距離が計算され、これらの最も近いものの(NN)が存在するデータベースベースクラスタ(受け入れられたマッチおよび拒絶されたマッチの両方に対する)も、それらのL2距離と共に記憶されることに注意されたい。続いて、クラスタごとにキーポイントマッチングが行われる場合、クエリキーポイントの最も近いものが正しいクラスタに含まれるか否かを決定するために各キーポイントに対して検査が行われる。このように、クエリキーポイントに対して最も近いものを再度計算する必要性はない。
加えて、各クエリクラスタをデータベースクラスタ(カーネルサイズの一群を使用して構築される)と個々に比較することで、これは、スケールの変化が、アフィン変換により、画像にわたって一様ではない可能性があることを考慮に入れる。
図13は、キーポイント単位マッチングを超える、クラスタ単位マッチングの改善を示すブロック図である。キーポイント単位マッチング1302において、クエリ画像1306内の各キーポイントは、空間的制約に関係なく、画像1308のデータベース内の1または複数のキーポイントと個々に比較される。この例において、クエリ画像1306内のキーポイントについての記述子D1、D2、D3、D4、D5、D6、D7、D8、D9は、画像のデータベース内のキーポイントの記述子とマッチングされる。本明細書に示されるように、記述子D1〜D9は、D1からD9へと連続的またはランダムな順序で(すなわち、空間的制約なく)比較および/またはマッチングされうる。
対照的に、クラスタ単位マッチングアプローチ1304の場合、キーポイントは、最初に、空間的制約付きクラスタ1310、1312、1314、1316へとグループ化される。次に、クラスタ単位マッチングを確実にするために、各クラスタ内のトータルキーポイントのサブセット(すなわちアンカーポイント)だけがマッチングされる必要がある。すなわち、クエリ画像1306内のキーポイントをクラスタへとグループ化すると、比較/マッチングはクラスタ単位で行われうる。例えば、第1のクラスタ1310内のキーポイントは、キーポイントマッチを確実にするためにデータベース内のキーポイントと比較されうる。十分な数または割合のキーポイントがマッチングされると、第1のクラスタ1310と、画像のデータベース1308内のクラスタとの間でクラスタ対応が作られうる。次に、このプロセスは、クラスタ単位マッチングで、第2のクラスタ1312、第3のクラスタ1314、第4のクラスタ1316に対して反復される。キーポイント単位マッチングアプローチ1302とは異なり、クラスタ単位マッチングアプローチ1304の場合、全てのキーポイントがマッチングされる(あるいは、マッチングが試される)必要はない。代わりとして、マッチングする試みは、クラスタ単位で行われうる。クラスタ内の十分な数/割合のキーポイントがマッチングされると、残りのキーポイントは、マッチングされる必要はない。代わりとして、マッチングされたキーポイントは、クエリクラスタを、画像のデータベース内のターゲットクラスタと実際にマッチングするために使用されうる。かくして、空間的制約付きキーポイントマッチングを実施することによって、かなりの量のキーポイント処理が回避される。
画像スケーリング−クラスタ対応づけに役立つカーネルサイズの適応
クエリ画像とターゲット画像との間でキーポイントマッチングを行う前に、クエリ画像のスケールは、推定あるいはおおまかに確かめられる必要があり、それによって、キーポイント比較は、クエリ画像とターゲット画像の両方に対して、ほぼ同じスケールで行われる。同一のシーンまたはオブジェクトのターゲット画像とはわずかに異なる視点のクエリ画像を考慮する。ここで、2つの画像にはスケール誤差がある。同一のガウスカーネルサイズ「R」(ガウスピラミッド内の)について、クエリ画像およびターゲット画像内で検出されたクラスタは、カーネルが画像の異なるサイズの部分をカバーするという事実のため、異なりうる。1対1のクラスタ対応は確立されない可能性がある。クエリ画像のスケールを決定することは、カーネルサイズ「R」の選択を可能にする。「スケール」は、所与の画像についての解像度を指しうる。
あらゆる所与の画像について、ガウスピラミッドなどのスケール空間ピラミッド(図3)に沿って、検出されたキーポイントの配置が存在するであろう。ガウスピラミッドは、画像処理に使用される技術であり、ガウス平均(ガウスぼやかし化)を使用して重みづけされ(weighted down)、スケールダウン(scaled down)された一連の画像を作成すること(例えば、単一の画像から)を含む。この技術が、1つの画像に対して複数回使用されると、それは、ピラミッドのより低いレベルの上の近くにある画素に対応する局所平均を含む各画素を用いて、連続的により小さくなる画像のスタックまたはピラミッドを生成する。
より高いスケールで検出されたキーポイントが、より大きな特徴に対応することが観察される。画像解像度が下がるにつれ(例えば、視点がターゲットから離れるにつれ)、より精細な詳細が減らされ(例えば、最終的にキーポイントとしては検出不可能になり)、より高いスケール(粗い詳細に対応する)で検出された詳細は、より低いスケール(より精細な詳細に対応する)に移動する。よって、キーポイントの配置は、画像解像度が下がるにつれ、より低いスケールにシフトする。この観察は、画像のサイズの推定を取得するために使用され、カーネルサイズ半径「R」をそれに比例させる。(例えば、R α (1/L)、ここで、Lは、特徴(キーポイント)配置のピーク密度が開始するレベル(スケール空間ピラミッドの上からカウントされる)に対応するスケール係数である)。例示的なインプリメンテーションにおいて、スケーリング可能な係数Lがセット{1、1.5、2、2.5、3、下界(lower_bound)}から選択されうる。
オフラインでありうるトレーニングフェーズにおいて、クラスタリングのプロセスは、データベース画像上で行われるが、それは、カーネルの一群を用いて行われる。カーネルRのサイズは、全てのL={1、1.5、2、2.5、3、下界}について{IX/(20*L),IY/(20*L)}と定義される。これは、Lによって定義される全ての可能なカーネルサイズで1または複数のデータベース画像をクラスタリングすることによってクエリ画像と1または複数データベース画像との間のスケール変化を説明する。
かなりの密度の特徴(キーポイント)が、より高いスケールで検出された場合、画像の解像度は十分に高く、それは、Lを1に近づけるであろう。それにより、カーネルRは、画像のディメンションの1/20である。かなりの密度の特徴が、より低いスケールから検出されると、画像解像度の低下を説明するために、Lは、カーネルのサイズの減少に相応じて増加するであろう。この例では、1/20のディメンションのカーネルによる最大解像度(800画素×600画素)のクラスタリングが、効率の良いクラスタ対応に適していることが観察されたため、「20」がベースラインとして選ばれる。このベースラインの係数は、最大解像度に依存して変更されうる。スケーリング係数Lは、下界まで拡張する。基数(L)スケーリングテップの後、カーネルサイズのさらなる減少は、認識または少なくとも重要なクラスタリングの実行が不可能である極めて小さい画像を特定する。下界は作られるオクターブの数に依存するが、通常、興味のあるオブジェクトが最大解像度の少なくとも1/4を満たすと仮定されると、下界=4は常に有効である。
図14は、高解像度画像についてのキーポイント配置の例を示す。ここで、画像に対して、スケール空間ピラミッドの低スケール1402、中間スケール1404、高スケール1406が示される。追加の画像スケールが、スケール空間ピラミッドに存在しうることは明確にされるべきである。かなりの密度の特徴(キーポイント)が、画像に対して、スケール空間ピラミッドのより高いスケール(オクターブ)で検出された場合、これは、画像の解像度が高いことを示すであろう。ここで、かなりの割合のキーポイントが、より高いスケール1406に存在することが認識されうる。すなわち、キーポイント密度または配置は、高スケール1406、中間スケール1404、および、低スケール1402にわたって、かなり一様である。このように、この画像が、比較的高い解像度を有すること(これは、複数のスケールにわたるキーポイント検出を可能にする)が仮定されうる。
図15は、低解像度画像についてのキーポイント配置の例を示す。ここで、画像について、スケール空間ピラミッドの低スケール1502、中間スケール1504、高スケール1506が示される。かなりの密度の特徴が、スケール空間ピラミッド(例えば、ガウスピラミッド)のより低いスケール(オクターブ)で検出された場合、これは、画像の解像度が低いことを示すであろう。すなわち、画像解像度が下がると、より精細な特徴が減らされ、より高いスケール(粗い特徴に対応する)で検出された詳細は、より低いスケールに移動する。ここで、重要ではない割合のキーポイントがより高いスケール1506に存在することが認識されうる。すなわち、キーポイント密度または配置は、より低いスケール1502に集められる。かくして、この画像が比較的低い解像度を有していると仮定されうる。
このように、キーポイント配置における1または複数のピークは、支配的な画像スケールを追跡し、かつオブジェクトサイズをおおまかに追跡するために使用されうる。この観察は、オブジェクトのサイズの推定を得るために使用され、カーネルサイズ半径Rをそれに比例させる。特に、オブジェクトサイズは、このスケールあるいはより低いスケールで検出された全てのキーポイントの特定の閾値割合を含む最小スケールレベルによって選択される。様々な例において、この割合は、30%から50%(例えば40%)の範囲内でありうる。
1つの例において、カーネルサイズ半径Rは次のように与えられうる:
Figure 0005384746
ここでσmaxは、ピラミッドにおける最大スケールレベルであり、σobjは、推定オブジェクトスケールである。ここで、σmaxは、オブジェクト画像の解像度に依存する。一般的に、オブジェクト画像の解像度がm×n画素である場合、カーネルサイズは次のように与えられる:
Figure 0005384746
ここで、kはスケーリング係数(例えばk=1/20)である。σobj=σmaxのオブジェクト画像について、画像サイズの1/20というカーネルサイズは、画像内のクラスタを表わすのに十分である。オブジェクト画像解像度σobjが減少するにつれ、(σmax−σobj+1)が増加するため、半径Rも減少することに注意されたい。
図16は、クラスタ対応の実行を容易にする画像のカーネルスケーリングのための方法を示す。あらゆる所与の画像について、スケール空間ピラミッド(図3)に沿って、検出されたキーポイントの配置が存在する。例えば、画像は、低いスケールから高いスケールまでに及ぶ複数のぼやかし画像を取得するために、複数の異なるスケールでぼけ関数を用いて畳み込みされうる(1602)。次に、複数のキーポイントが複数のぼやかし画像にわたって識別されうる(1604)。次に、複数のスケールにわたってキーポイントの配置(例えば、集中)が確かめられうる(1606)。次に、キーポイントの配置に基づいて画像サイズが推定されうる(1608)。次に、推定された画像サイズに基づいて、画像についてのカーネルサイズが選択されうる(1610)。次に、選択されたカーネルサイズにおけるぼやかし画像が利用され、キーポイントクラスタリングを行ないうる(1612)。
密度に基づくクラスタの、および/または、スケールに基づくキーポイントのプルーニング
いくつかの例において、利用可能なキーポイントのサブセットにのみ基づいて、クエリ画像からの特徴をターゲット画像にマッチングさせることが可能である。例えば、500個のキーポイントが1つの画像に対して識別されうるが、実際には、100個あるいは200個しか画像またはオブジェクトマッチングを行なうために必要とされない可能性がある。キーポイントの数を減らすことは、オブジェクト/画像認識に必要な処理の削減を促進する。キーポイントを減らすための2つのアプローチは、クラスタ密度に基づいてキーポイントをプルーニングすること、および、スケールに基づいてキーポイントをプルーニングすることを含む。
図17は、キーポイント密度に基づくクラスタプルーニングを示す。高密度クラスタが、より多くの興味のある特徴を含む傾向があることが観察されている。クエリ画像1702とターゲット画像とのマッチングに使用されるキーポイントクラスタを減らすために、より高い密度のキーポイントを有するこれらのキーポイントクラスタが選択され、残りのキーポイントクラスタはプルーニングまたは無視される。次に、選択されたキーポイントクラスタは、クエリ画像とターゲット画像とのマッチングに使用される。この例において、複数のキーポイントクラスタ1706、1708、1710、1712、1714がクエリ画像1702内で識別され、各クラスタは、それぞれキーポイント密度ρ1、ρ2、ρ3、ρ4、ρ5を有する。ここで、ρ1>ρ2>ρ3>ρ4>ρ5である。クエリクラスタは、キーポイント密度に従ってランク付けされうる。この例において、3つの最も高い密度のクラスタ1706、1708、1710が、クエリ画像1702’に対して選択され、最低の密度のクラスタ1710、1712はプルーニングまたは無視されうる。次に、選択されたキーポイントクラスタ1706、1708、1710が、クエリ画像と1または複数のターゲット画像とのマッチングに使用されうる。
キーポイント密度に加えて、より高いスケールで生じるキーポイントは、より低いスケールで生じるキーポイントよりも高くランク付けされうる。すなわち、より高いスケール(つまり、より低い解像度)で検出されたキーポイントが保存され、より低いスケール(つまり、より高い解像度)で検出されたキーポイントはプルーニングされうる。
図18は、キーポイント密度に基づいてキーポイントクラスタをプルーニングすることにより、クエリ画像のキーポイントを減らす方法である。第1に、クエリ画像に対して複数のキーポイントが取得されうる(1802)。そのようなキーポイントは、1または複数のスケールにわたって検出可能であり、例えば、高度に特異的な特徴(例えば、極大と極小、ハイコントラストなどを有する画素)でありうる。次に、このキーポイントは複数のクラスタにグループ化される(1804)。例えば、ノンパラメトリック密度推定プロセス、平均シフト解析が、キーポイントをクラスタにグループ化するために使用されうる。次に、キーポイント密度が、各クラスタに対して取得されうる(1806)。次に、複数のクラスタからの1または複数の低密度クラスタは、数が減ったキーポイントを有するプルーニングされたクラスタのセットを取得するために、除去または無視されうる(1808)。次に、プルーニングされたクラスタは、クエリ画像と1または複数のターゲット画像との特徴マッチングに使用されうる(1810)。
図19は、キーポイントスケールに基づくキーポイントプルーニングの方法を示す。キーポイントは、様々なスケール(例えば、ガウススケール空間の差)で検出可能である。異なるスケールにわたる、且つ、同じ領域内にあるキーポイントは、クラスタへと結合されうる。より高いスケールは、より低いスケールよりも画像をぼやかすことにより生成されうる。この例において、クエリ画像は、低スケール1902、中間スケール1904、高スケール1906バージョンのクエリ画像を生成するためにぼやかされる。かくして、クエリ画像についての結果として得られるクラスタ1908は、異なるスケールで検出されたキーポイントを含みうる。キーポイントマッチングの目的ために、より高いスケールで検知されたキーポイントがよりロバスト且つ安定していることが観察されている。かくして、このアプローチにおいて、キーポイントマッチングの目的のために、より高いスケールで検出されたキーポイントは保存され、より低いスケールで検出されたキーポイントは、プルーニングまたは無視される。いくつかのキーポイントが異なるスケールにおいて検知可能であることに注意されたい。そのような場合、キーポイントが検出される最も高いスケールが使用される。この例において、複数のクラスタ1912、1914、1916、1918、1920は、クエリ画像の複数のスケール(例えば、低スケール1902、中間スケール1904、高スケール1906)からのキーポイントを含みうる。この例において、低スケール1902で識別されたキーポイントは、プルーニングされたクラスタ1910を取得するために、結果として生じるクラスタ1908から除去される。このように、プルーニングされたクラスタは、中間スケール1904および高スケール1906で検知可能なキーポイントだけを含みうる。次に、プルーニングされたクラスタ1910のキーポイントは、クエリ画像と1または複数のターゲット画像とのマッチングに使用されうる。
図20は、キーポイント密度に基づいてキーポイントクラスタをプルーニングすることにより、クエリ画像のキーポイントを減らすための方法である。クエリ画像に対して複数のキーポイントが複数の画像スケールにわたって取得されうる(2002)。そのようなキーポイントは、1または複数のスケールにわたって検出可能であり、例えば、高度に特異的な特徴(例えば、極大と極小、ハイコントラストなどを有する画素)でありうる。キーポイントは、オプション的に、複数のクラスタにグループ化されうる(2004)。例えば、ノンパラメトリック密度推定プロセス、平均シフト解析は、キーポイントをクラスタにグループ化するために使用されうる。次に、複数のキーポイントまたはクラスタからより低いスケールで検出されるキーポイントは、プルーニングされたキーポイントのセットを取得するために、プルーニングされうる(2006)。次に、プルーニングされたキーポイントのセットは、クエリ画像と1または複数のターゲット画像との特徴マッチングに使用されうる(2008)。
様々なインプリメンテーションにおいて、本明細書に記述されたクラスタプルーニングおよびキーポイントプルーニングアプローチは、順次または順番に結合されうる。例えば、最初に、クエリ画像に対して、クラスタプルーニングが行なわれ、次に、キーポイントプルーニングが行なわれうる。別の例において、クエリ画像に対して、最初にキーポイントプルーニングが行なわれ、次に、クラスタプルーニングが行なわれうる。
画像マッチングデバイスの例
図21は、画像マッチングデバイスの例を示すブロック図である。画像マッチングデバイス2100は、通信インタフェース2104、画像取込デバイス2106、および/または、記憶デバイス2108に結合された処理回路2102を含みうる。通信インタフェース2104は、有線/無線ネットワークを通っての通信し、画像および/または1または画像についての特徴記述子を受信することに適応しうる。画像取込デバイス2106は、例えば、クエリ画像を取り込むことができるデジタルカメラでありうる。処理回路2102は、画像から特徴を抽出するための画像処理回路2114、および、この抽出された特徴を使用して、クエリ画像をターゲット画像のデータベース2110に、および/または、クエリ画像記述子を記述子データベース2112にマッチングするための画像マッチング回路2116を含みうる。1つの例示的なインプリメンテーションに従って、画像マッチングアプリケーションは、画像データベース内の1または複数の画像へのクエリ画像のマッチングを試みる。画像データベースは、データベース2110に記憶された1または複数の画像と関連付けられた何百万もの特徴記述子を含みうる。
画像処理回路2114は、スケール空間生成器2122、特徴検出器2124、画像スケーリング回路2126、特徴プルーニング回路2128、および/または、特徴記述子抽出器2130を含む特徴識別回路2120を含みうる。スケール空間生成器2122は、例えば、図3に示されるような複数の異なるスケール空間(例えばガウススケール空間ピラミッド)を生成するために、ぼけ関数を用いて画像を畳み込むように機能しうる。次に、特徴検出器2124は、画像に対して異なるスケール空間で1または複数のキーポイントを識別しうる(例えば、図4に示されるような局所極大および極小を使用することによって)。画像スケーリング回路2126は、特徴検出および/またはクラスタリングを行なう適切なカーネルサイズを選択するために、画像のスケールに接近するように機能しうる。特徴プルーニング回路2128は、より高い密度クラスタ内のキーポイントだけを使用/選択することによって(図17)、および/または、より高いスケールで検出されたキーポイントを好むことによって(図19)、マッチングされたキーポイントの数を減らす。特徴記述子生成器2130は、各キーポイントおよび/またはその周囲のパッチに対して記述子を生成する(例えば、図5で示される)。
画像マッチング回路2116は、アンカーポイント検出器2136、クラス発生器2138、および/または、バイナリキーポイントセレクタ2140を含む空間抑制付き特徴マッチング回路2134を含みうる。アンカーポイント検出器2136は、アンカーポイントと呼ばれる高度な相関キーポイント(例えば、高い閾値を超えるマッチ)を識別するように機能する(図8、11、12に示される)。次に、クラスタ発生器2138は、クエリ画像とターゲット画像とのクラスタマッチングを行なう(図8、11、12に示される)。クラスタマッチングが確認されると、バイナリキーポイントセレクタ2140は、バイナリ決定に基づいてキーポイントをクエリクラスタに加える(図8、11、12に示される)。次に、結果として生じるクエリクラスタは、画像またはオブジェクトマッチを決定する際に使用されうる。マッチの結果は、通信インタフェース21を介して(例えば、画像または特徴記述子を送るモバイルデバイスに)提供されうる。
いくつかのインプリメンテーションにおいて、クエリ画像のキーポイントと関連付けられた特徴記述子のセットが画像マッチングデバイスによって受信されうることに注意されたい。この状況において、クエリ画像は、既に処理されている(記述子を取得するために)。かくして、画像処理回路2114は、バイパスされるか、あるいは、画像マッチングデバイス2100から除去されうる。
モバイルデバイスの例
図22は、画像またはオブジェクト認識のために、画像処理を行なうのに適した例示的なモバイルデバイスを示すブロック図である。モバイルデバイス2200は、画像取込デバイス2204、通信インタフェース2210、および、記憶デバイス2208に結合された処理回路2202を含みうる。画像取込デバイス2204(例えば、デジタルカメラ)は、関心の対象であるクエリ画像2206を取り込み、それを処理回路2202に供給することに適応しうる。処理回路2202は、取込画像を処理して、画像/オブジェクト認識のために後で送信または使用されうる特徴記述子を生成することに適応しうる。例えば、処理回路2202は、スケール空間生成器2222、特徴検出器2224、画像スケーリング回路2226、特徴プルーニング回路2228、および/または、特徴記述子抽出器2230を含む特徴識別回路2220を含むか、それを実施しうる。スケール空間生成器2222は、例えば、図3に示されるように、複数の異なるスケール空間(例えば、ガウススケール空間ピラミッド)を生成するために、ぼやかし関数を用いて画像を畳み込むように機能しうる。次に、特徴検出器2224は、画像に対して、異なるスケール空間で1または複数のキーポイントを識別しうる(例えば、図4で示されるような局所極大および極小を使用することによって)。画像スケーリング回路2226は、特徴検出および/またはクラスタリングを行なう適切なカーネルサイズを選択するために、画像のスケールに接近するように機能しうる。特徴プルーニング回路2228は、より高い密度クラスタ内のキーポイントだけを使用/選択すること(図17)、および/または、より高いスケールで検出されたキーポイントを好むこと(図19)によって、マッチングされるキーポイントの数を減らす。特徴記述子生成器2230は、各キーポイントおよび/またはその周囲のパッチの記述子を生成する(例えば、図5で示される)。
次に、処理回路2202は、記憶デバイス2208に1または複数の特徴記述子を記憶し、および/または、通信ネットワーク2212を通して通信インタフェース2210(例えば、無線通信インタフェース、トランシーバ、あるいは、回路)上で特徴記述子を、画像またはオブジェクトを識別するためにこの特徴記述子を使用する画像マッチングサーバに送信しうる。すなわち、データベース内の任意の画像が同じ特徴を有するか否かを決定するために、画像マッチングサーバは、特徴記述子を、特徴記述子自体のデータベースと比較しうる。
図23(図23A、23Bおよび23Cを備える)は、オブジェクト認識プロセスの一部として、画像スケーリング、特徴プルーニング、および/または、空間抑制付き特徴マッチングのための方法を示すフロー図である。この方法の態様が、この方法の別の態様から独立して、あるいは、それらと組み合わせて実施されうることに注意されたい。この方法は、図21および/または図22に示されたコンポーネントのうちの1または複数によって実施されうる。
最初に、その画像に対する近似スケールを取得するために画像スケーリングが行なわれうる。クエリ画像に対して複数のキーポイントが取得されうる(2302)。例えば、キーポイントは、クエリ画像のぼやかされたバージョンに対応する複数のスケール空間にわたって取得されうる。次に、クエリ画像に係る複数のスケール空間にわたって、キーポイントの配置が取得されうる(2304)。次に、キーポイントの配置に基づいてクエリ画像のスケールが推定されうる(2306)。1つの例において、カットオフスケールまでの空間スケールの中にキーポイントの閾値割合(例えば70%、75%、80%、85%、90%あるいは95%)を維持するように、この画像スケールは、複数のスケール空間上のキーポイントの配置から推定されうる。次に、推定されたクエリ画像スケールに基づいてキーポイントをクラスタリングするために、カーネルサイズが選択されうる(2308)。次に、キーポイントクラスタリングを行なうために、クエリ画像のぼやかされたバージョンが、選択されたカーネルサイズで使用されうる。
次に、キーポイントのプルーニングが行なわれうる。最初に、クエリ画像についてキーポイントクラスタのセット内のクラスタの各々に対してキーポイント密度が取得されうる(2310)。例えば、クエリ画像についてのキーポイントクラスタのセットは、キーポイント配置(ここで、近くに位置付けられたキーポイントはまとめてグループ化される)に基づいて定義されうる。クエリ画像のキーポイントの数は、1または複数のより低い密度のクラスタをキーポイントクラスタのセットからのプルーニングすること(2312)、および/または、クエリ画像のスケール空間のより低いレベルで検出されたキーポイントをキーポイントクラスタの第1のセット内のクラスタのうちの少なくともいくつかからプルーニングすること(2314)によって減らされうるプルーニングされたキーポイントおよびクラスタは、記述子を生成する前に破棄されうる(2316)。次に、記述子は、クエリ画像の数が減ったキーポイントに対して生成されうる(2318)。数が減ったキーポイントについての記述子は、クエリ画像またはそのクエリ画像内のオブジェクトをターゲット画像とマッチングするために、特徴マッチングデバイスに送信されうる。
次に、クラスタベースのキーポイントマッチングを使用して、特徴マッチングが行なわれうる。クエリ画像内のキーポイントは、1または複数のターゲット画像内のキーポイントにマッチングされうる(2320)。キーポイントがキーポイントマッチングに使用される記述子によって表わされうることに注意されたい。次に、1または複数のターゲット画像のキーポイントに少なくともクエリ画像のキーポイントのサブセットをマッチングすることによって、アンカーマッチがクエリ画像に対して確立されうる(2322)。アンカーマッチは、1または複数のターゲット画像のキーポイント閾値を超えてマッチングされるキーポイントマッチでありうる。アンカーマッチを確立することは、キーポイントがその対応するキーポイントから除外されるべきか否かに関する後のバイナリ決定のために、クエリ画像のキーポイントに対してキーポイントマッチ情報を保存することを含みうる。次に、キーポイントクラスタは、(a)クエリ画像のスケール空間にわたるキーポイントの空間位置、および/または、(b)キーポイントが検出されたスケール空間におけるスケールレベルに基づいて確立されうる(2326)。クエリキーポイントクラスタは、アンカーマッチのサブセットに基づいてターゲットキーポイントクラスタにマッチングされうる(2328)。キーポイントは、そのようなキーポイントがターゲットキーポイントクラスタ内のキーポイントに少なくとも部分的にマッチングされる場合、クエリキーポイントクラスタに保存されうる(2330)。キーポイントがマッチングされないか、ターゲットキーポイントクラスタ以外のクラスタ内のキーポイントにマッチングされた場合、そのようなキーポイントはクエリキーポイントクラスタから除外されうる(2332)。
図に示されたコンポーネント、ステップ、特徴、および/または、機能のうちの1または複数は、単一のコンポーネント、ステップ、特徴、または機能へと再配列および/または結合されうるか、あるいは、いくつかのコンポーネント、ステップ、または関数に組み込まれうる。本明細書で開示された新しい特徴から逸脱することなく、追加のエレメント、コンポーネント、ステップ、および/または、機能がさらに追加されうる。図に示される装置、デバイスおよび/またはコンポーネントは、別の図に記述された方法、特徴、ステップのうちの1または複数を行うように構成されうる。本明細書に記述されたアルゴリズムは、さらに、ソフトウェアで効率的に実施されるか、ハードウェアに組み込まれうる。
さらに、実施形態が、フローチャート、フロー図、構造図、または、ブロック図で描写されたプロセスとして記述されうることに注意されたい。フローチャートは、動作を連続プロセスとして記述しうるが、この動作の大部分は、並行して、または、同時に実行されうる。加えて、動作の順序は、再配列されうる。プロセスは、その動作が完了すると終了する。プロセスは、方法、機能、手順、サブルーチン、サブプログラムなどに対応しうる。プロセスが機能に対応する場合、その終了は、呼出している機能または主要機能への機能の戻しに対応する。
さらに、記憶媒体は、情報を記憶するための、読取専用メモリ(ROM)、ランダムアクセス(RAM)、磁気ディスク記憶媒体、光記憶媒体、フラッシュメモリデバイス、および/または、別の機械可読媒体、プロセッサ可読媒体、および/または、コンピュータ可読媒体を含む、データを記憶するための1または複数のデバイスを表しうる。「機械可読媒体(machine-readable medium)」、「コンピュータ可読媒体(computer-readable medium)」、および/または、「プロセッサ可読媒体(processor-readable medium)」という用語は、ポータブルまたは固定の記憶デバイス、光記憶デバイス、命令および/またはデータを記憶、包含、または、搬送することができる様々な別の媒体のような非一時的媒体を含みうるがそれに限定されない。このように、本明細書に記述された様々な方法は、「機械可読媒体」、「コンピュータ可読媒体」、および/または「プロセッサ可読媒体」に記憶されうる命令および/またはデータによって十分なにあるいは部分的に実施され、1または複数のプロセッサ、機械、および/または、デバイスによって実行されうる。
さらに、実施形態は、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、あるいは、それらの任意の組み合わせによって実施されうる。ソフトウェア、ファームウェア、ミドルウェア、またはマイクロコードで実施された場合、必要なタスクを実行するためのプログラムコードまたはコードセグメントは、記憶媒体または別の記憶装置のような機械可読媒体に記憶されうる。プロセッサは、記述されたタスクを実行しうる。コードセグメントは、手順、機能、サブプログラム、プログラム、ルーチン、サブルーチン、モジュール、ソフトウェアパッケージ、クラス、あるいは、命令、データ、構造、または、プログラムステートメントのあらゆる組み合わせを表しうる。コードセグメントは、情報、データ、アーギュメント、パラメータ、または、メモリコンテンツを伝送および/または受信することによって、別のコードセグメントまたはハードウェア回路に結合されうる。情報、アーギュメント、パラメータ、データなどは、メモリ共有、メモリパッシング、トークンパッシング、ネットワーク伝送などを含む任意の適切な手段を介して伝送、転送、または、送信されうる。
本明細書に開示された例と関連して記述される様々な実例となる論理ブロック、モジュール、回路、エレメント、および/または、コンポーネントは、汎用のプロセッサ、デジタル信号プロセッサ(DSP)、特定用途向けIC(ASIC)、書替え可能ゲートアレイ(FPGA)または他のプログラマブル論理デバイス、ディスクリートゲートまたはトランジスタ論理、ディスクリートハードウェアコンポーネント、あるいは、本明細書に記述された機能を実行するよう設計されたこれらの任意の組み合わせと共に実施または実行される。汎用プロセッサはマイクロプロセッサでありうるが、代替で、プロセッサは任意の従来のプロセッサ、コントローラ、マイクロコントローラ、またはステートマシンでありうる。プロセッサは、さらに、例えば、DSPとマクロプロセッサ、複数のマイクロプロセッサ、DSPコアに結合した1または複数のマイクロプロセッサ、あるいは、その他の上記構成の組み合わせといった計算コンポーネントの組み合わせとしても実施されうる。
本明細書に開示された例に関して示される方法またはアルゴリズムは、処理ユニット、プログラミング命令、または指示の形態で、直接的にハードウェアに、プロセッサによって実行されるソフトウェアモジュールに、または、両方の組み合わせに組み込まれ、単一のデバイスに含まれうるか、複数のデバイスにわたって分散されうる。ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、取外し可能ディスク、CD−ROM、あるいは、当技術分野において周知のあらゆる他の形態の記憶媒体に存在しうる。記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるようにプロセッサに結合される。代替において、記憶媒体はプロセッサに一体化される。
当業者はさらに、本明細書に開示された実施形態と関連して記述されている様々な実例となる論理ブロック、モジュール、回路、アルゴリズムステップが電子ハードウェア、コンピュータソフトウェア、または両方の組み合わせとして実施されることを認識するであろう。このハードウェアとソフトウェアの互換性を明確に示すために、様々な実例となるコンポーネント、ブロック、モジュール、回路、ステップが、それらの機能性という観点から一般的に上に記述されている。ハードウェア、または、ソフトウェアとしてそのような機能性が実施されるか否かは、特定のアプリケーションとシステム全体に課された設計制約とに依存する。
本明細書に記述された発明の様々な特徴は、本発明を逸脱することなく、異なるシステムにおいて実施されうる。前述の実施形態は単に例であり、本発明を限定するものとして解釈されないことは注意されるべきである。実施形態の記述は、例示を目的としており、請求項の範囲を制限することを企図しない。そういうものとして、本明細書の教示は、別のタイプの装置に容易に適用され、多数の代替、変更、および変形が、当業者には明らかであろう。

Claims (33)

  1. 画像認識における特徴マッチングのための方法であって、
    クエリ画像について複数のキーポイントを取得することと、
    キーポイントの配置に基づいて、前記クエリ画像についてキーポイントクラスタのセットを定義することと、
    前記クエリ画像についてのキーポイントの少なくとも1つのサブセットを、1または複数のターゲット画像についてのキーポイントにマッチングすることによって、前記クエリ画像についてのアンカーマッチを確立することと、ここで、前記アンカーマッチは、1または複数のターゲット画像内のキーポイントと閾値を超えてマッチングされたキーポイントマッチであり、前記閾値を下回るキーポイントマッチは、前記対応する1または複数のターゲット画像に係る部分マッチであり、
    前記ターゲットキーポイントクラスタについてのアンカーマッチに基づいてクエリキーポイントクラスタをターゲットキーポイントクラスタにマッチングすることと、
    クラスタマッチングの目的のために部分マッチとして前記クエリキーポイントクラスタから前に除外されたキーポイントを、後続の幾何学的検証動作のための前記クエリキーポイントクラスタの一部として保存することと、
    を備える方法。
  2. 前記閾値は、アウトライアマッチを除外するように選択され、アウトライアマッチは偽陽性キーポイントマッチである、請求項に記載の方法。
  3. アンカーマッチは、前記クエリ画像についてのスケール空間レベルの選択されたサブセットの中で生じる、前記クエリ画像内のキーポイントについてのキーポイントマッチである、請求項に記載の方法。
  4. 前記部分的にマッチングされたキーポイントは、部分マッチが前記キーポイントについて見つかり、そのようなマッチが前記ターゲットキーポイントクラスタ内であるか否かについてのバイナリ決定に基づいて、前記クエリキーポイントクラスタ内保持される
    請求項に記載の方法。
  5. アンカーマッチは、前記クエリ画像についてのキーポイントのサブセットの各々の周りの局所画素情報に基づいて少なくとも部分的にマッチングされるキーポイントマッチである、請求項1に記載の方法。
  6. 前記局所画素情報は、画素勾配、画素色彩、クラスタ形状、あるいは、キーポイント配置のうちの少なくとも1つを含む、請求項に記載の方法。
  7. アンカーマッチを確立することは、
    前記クエリ画像内のキーポイントを前記ターゲット画像内のキーポイントにマッチングすることと、
    クラスタマッチングの目的のために、前記クエリキーポイントクラスタからの部分的にマッチングされたキーポイントを除外することと、
    キーポイントがその対応するキーポイントクラスタから除外されるべきか否かに関する以後のバイナリ決定のために、前記クエリ画像内のキーポイントについてのキーポイントマッチ情報を保持することと、
    を含む、請求項1に記載の方法。
  8. クエリキーポイントクラスタからのキーポイントを、該キーポイントがマッチングされないか、前記ターゲットキーポイントクラスタ以外のクラスタ内のキーポイントとマッチングされる場合に除外することをさらに備える、請求項1に記載の方法。
  9. キーポイントは、前記クエリ画像についてのスケール空間内の局所極大画素または局所極小画素である、請求項1に記載の方法。
  10. キーポイントは、前記クエリ画像のぼやかされたバージョンに対応する複数のスケール空間にわたって確かめられる、請求項1に記載の方法。
  11. キーポイントは、キーポイントマッチングに使用される記述子で表される、請求項1に記載の方法。
  12. 前記クエリ画像についてのスケール空間にわたる前記キーポイントの空間位置;
    前記キーポイントが検出される前記スケール空間におけるスケールレベル;
    のうちの少なくとも1つに基づいて、キーポイントがクラスタリングされる、請求項1に記載の方法。
  13. 前記クエリ画像についての前記キーポイントは、複数の画像スケール空間にわたって取得され、さらに、
    前記キーポイントクラスタのセットからの1または複数のより低い密度のクラスタをプルーニングすることと;
    前記キーポイントクラスタのセット内の前記クラスタのうちの少なくともいくつかから前記クエリ画像のスケール空間のより低いレベルで検出されたキーポイントをプルーニングすることと;
    のいずれか1つによって前記クエリ画像についてのキーポイントの数を減らすことを備える、請求項1に記載の方法。
  14. 前記クエリ画像についての前記数が減ったキーポイントに係る記述子を生成することをさらに備える、請求項13に記載の方法。
  15. 記述子を生成する前に前記プルーニングされたキーポイントおよびクラスタを破棄することをさらに備える、請求項14に記載の方法。
  16. 前記クエリ画像または前記クエリ画像内のオブジェクトをターゲット画像にマッチングするために、前記数が減ったキーポイントに係る前記記述子を特徴マッチングデバイスに送信することをさらに備える、請求項14に記載の方法。
  17. 前記キーポイントクラスタのセット内の前記クラスタの各々についてのキーポイント密度を取得することをさらに備える、請求項13に記載の方法。
  18. 前記クエリ画像についての複数のスケール空間にわたるキーポイントの配置を取得することと、
    前記キーポイントの配置に基づいて前記クエリ画像についてのスケールを推定することと
    をさらに備える、請求項1に記載の方法。
  19. カットオフスケールが、該カットオフスケールまでの空間スケールの中にキーポイントの閾値割合を維持するように、前記画像スケールが、前記スケール空間上の前記キーポイントの配置から推定される、請求項18に記載の方法。
  20. 前記推定されたクエリ画像スケールに基づいてキーポイントをクラスタリングするためにカーネルサイズを選択することをさらに備える、請求項18に記載の方法。
  21. キーポイントクラスタリングを実行するために、前記選択されたカーネルサイズで前記クエリ画像のぼやかされたバージョンを利用することをさらに備える、請求項20に記載の方法。
  22. 複数のターゲット画像についての情報を記憶する記憶デバイスと、
    前記記憶デバイスに結合された処理回路と
    を備え、
    前記処理回路は、
    クエリ画像についての複数のキーポイントを取得し、
    キーポイント配置に基づいて前記クエリ画像についてのキーポイントクラスタのセットを定義し、
    前記クエリ画像についてのキーポイントの少なくとも1つのサブセットを、1または複数のターゲット画像についてのキーポイントにマッチングすることによって、前記クエリ画像についてのアンカーマッチを確立し、ここで、前記アンカーマッチは、1または複数のターゲット画像内のキーポイントと閾値を超えてマッチングされたキーポイントマッチであり、前記閾値を下回るキーポイントマッチは、前記対応する1または複数のターゲット画像に係る部分マッチであり、
    前記ターゲットキーポイントクラスタについてのアンカーマッチに基づいて、クエリキーポイントクラスタをターゲットキーポイントクラスタにマッチングし、
    クラスタマッチングの目的のために部分マッチとして前記クエリキーポイントクラスタから前に除外されたキーポイントを、後続の幾何学的検証動作のための前記クエリキーポイントクラスタの一部として保持する、
    ことに適応する、
    特徴マッチングデバイス。
  23. 前記閾値は、アウトライアマッチを除外するように選択され、アウトライアマッチは偽陽性キーポイントマッチである、請求項22に記載の特徴マッチングデバイス。
  24. アンカーマッチは、前記クエリ画像に係るスケール空間レベルの選択されたサブセット内で生じる、前記クエリ画像内のキーポイントについてのキーポイントマッチである、請求項22に記載の特徴マッチングデバイス。
  25. 前記処理回路は、さらに、
    前記キーポイントについての部分マッチが見つかり、当該マッチが前記ターゲットキーポイントクラスタ内であるかどうかについてのバイナリ決定に基づいて前記クエリキーポイントクラスタ内の部分的にマッチングされたキーポイントを保持することに適応する、請求項23に記載の特徴マッチングデバイス。
  26. 前記処理回路は、
    前記クエリ画像内のキーポイントを前記ターゲット画像内のキーポイントにマッチングすることと、
    クラスタマッチングの目的のために、前記クエリキーポイントクラスタから部分的にマッチングされたキーポイントを除外すること、
    キーポイントがその対応するキーポイントクラスタから除外されるべきか否かに関する以後のバイナリ決定のために、前記クエリ画像内のキーポイントについてのキーポイントマッチ情報を保持することと
    によって前記アンカーマッチを確立することに適応する、請求項22に記載の特徴マッチングデバイス。
  27. 前記クエリ画像を取得するための画像取得デバイスをさらに備える、請求項22に記載の特徴マッチングデバイス。
  28. 前記クエリ画像についてのキーポイントは、複数の画像スケール空間にわたって取得され、
    前記処理回路は、
    前記キーポイントクラスタのセットからの1または複数のより低い密度のクラスタをプルーニングすることと;
    前記キーポイントクラスタのセット内の前記クラスタのうちの少なくともいくつかから前記クエリ画像のスケール空間のより低いレベルで検出されるキーポイントをプルーニングすることと;
    のいずれか1つのよって前記クエリ画像についてのキーポイントの数を減らすことにさらに適応する、請求項22に記載の特徴マッチングデバイス。
  29. 前記処理回路は、前記クエリ画像の前記数が減ったキーポイントについての記述子を生成することにさらに適応する、請求項28に記載の特徴マッチングデバイス。
  30. 前記クエリ画像または前記クエリ画像内のオブジェクトをターゲット画像にマッチングするために、前記数が減ったキーポイントについての前記記述子を特徴マッチングデバイス送信することに適応した送信機をさらに備える、請求項28に記載の特徴マッチングデバイス。
  31. 前記処理回路は、
    前記クエリ画像についての複数のスケール空間にわたるキーポイントの配置を取得することと、
    前記キーポイントの配置に基づいて前記クエリ画像についてのスケールを推定することと
    にさらに適応する、請求項22に記載の特徴マッチングデバイス。
  32. クエリ画像に対して複数のキーポイントを取得するための手段と、
    キーポイント配置に基づいて前記クエリ画像についてのキーポイントクラスタのセットを定義するための手段と、
    前記クエリ画像についてのキーポイントの少なくともサブセットを、1または複数のターゲット画像についてのキーポイントにマッチングすることによって、前記クエリ画像についてのアンカーマッチを確立するための手段と、ここで、前記アンカーマッチは、1または複数のターゲット画像内のキーポイントと閾値を超えてマッチングされたキーポイントマッチであり、前記閾値を下回るキーポイントマッチは、前記対応する1または複数のターゲット画像に係る部分マッチであり、
    前記ターゲットキーポイントクラスタについてのアンカーマッチに基づいてクエリキーポイントクラスタをターゲットキーポイントクラスタにマッチングするための手段と
    クラスタマッチングために部分マッチとして前記クエリキーポイントクラスタから前に除外されたキーポイントを、後続の幾何学的検証動作のための前記クエリキーポイントクラスタの一部として保持するための手段と、
    を備える特徴マッチングデバイス。
  33. 特徴マッチングデバイス上で動作可能な1または複数の命令を備えるプロセッサ可読媒体であって、前記複数の命令は、処理回路によって実行されると、前記処理回路に対して、
    クエリ画像に対して複数のキーポイントを取得させ、
    キーポイントの配置に基づいて前記クエリ画像についてのキーポイントクラスタのセットを定義させ、
    前記クエリ画像についてのキーポイントの少なくとも1つのサブセットを、1または複数のターゲット画像についてのキーポイントにマッチングすることによって、前記クエリ画像についてのアンカーマッチを確立させ、ここで、前記アンカーマッチは、1または複数のターゲット画像内のキーポイントと閾値を超えてマッチングされたキーポイントマッチであり、前記閾値を下回るキーポイントマッチは、前記対応する1または複数のターゲット画像に係る部分マッチであり、
    前記ターゲットキーポイントクラスタについてのアンカーマッチに基づいてクエリキーポイントクラスタをターゲットキーポイントクラスタにマッチングさせ、
    クラスタマッチングために部分マッチとして前記クエリキーポイントクラスタから前に除外されたキーポイントを、後続の幾何学的検証動作のための前記クエリキーポイントクラスタの一部として保持させる、プロセッサ可読媒体。
JP2012542205A 2009-12-02 2010-12-02 プルーニング機能、画像スケーリング、および、空間制約付き特徴マッチングによる画像認識アルゴリズムの性能の改善 Expired - Fee Related JP5384746B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US26595509P 2009-12-02 2009-12-02
US61/265,955 2009-12-02
PCT/US2010/058805 WO2011069021A2 (en) 2009-12-02 2010-12-02 Improving performance of image recognition algorithms by pruning features, image scaling, and spatially constrained feature matching

Publications (2)

Publication Number Publication Date
JP2013513167A JP2013513167A (ja) 2013-04-18
JP5384746B2 true JP5384746B2 (ja) 2014-01-08

Family

ID=43734069

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012542205A Expired - Fee Related JP5384746B2 (ja) 2009-12-02 2010-12-02 プルーニング機能、画像スケーリング、および、空間制約付き特徴マッチングによる画像認識アルゴリズムの性能の改善

Country Status (6)

Country Link
US (1) US8705876B2 (ja)
EP (1) EP2507744A2 (ja)
JP (1) JP5384746B2 (ja)
KR (1) KR101420549B1 (ja)
CN (1) CN102763123B (ja)
WO (1) WO2011069021A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11650597B2 (en) 2019-07-09 2023-05-16 Samsung Electronics Co., Ltd. Electronic apparatus for identifying object through warped image and control method thereof

Families Citing this family (110)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8520949B1 (en) * 2008-06-20 2013-08-27 Google Inc. Self-similar descriptor filtering
US10116972B2 (en) 2009-05-29 2018-10-30 Inscape Data, Inc. Methods for identifying video segments and displaying option to view from an alternative source and/or on an alternative device
US10375451B2 (en) 2009-05-29 2019-08-06 Inscape Data, Inc. Detection of common media segments
US8595781B2 (en) 2009-05-29 2013-11-26 Cognitive Media Networks, Inc. Methods for identifying video segments and displaying contextual targeted content on a connected television
US9449090B2 (en) 2009-05-29 2016-09-20 Vizio Inscape Technologies, Llc Systems and methods for addressing a media database using distance associative hashing
US10949458B2 (en) 2009-05-29 2021-03-16 Inscape Data, Inc. System and method for improving work load management in ACR television monitoring system
US9094715B2 (en) 2009-05-29 2015-07-28 Cognitive Networks, Inc. Systems and methods for multi-broadcast differentiation
WO2011069023A2 (en) 2009-12-02 2011-06-09 Qualcomm Incorporated Fast subspace projection of descriptor patches for image recognition
US9530073B2 (en) * 2010-04-20 2016-12-27 Qualcomm Incorporated Efficient descriptor extraction over multiple levels of an image scale space
US10192138B2 (en) 2010-05-27 2019-01-29 Inscape Data, Inc. Systems and methods for reducing data density in large datasets
US9838753B2 (en) 2013-12-23 2017-12-05 Inscape Data, Inc. Monitoring individual viewing of television events using tracking pixels and cookies
US8842191B2 (en) * 2010-06-03 2014-09-23 Recognition Robotics, Inc. System and method for visual recognition
EP2407803A1 (en) * 2010-07-15 2012-01-18 The European Atomic Energy Community (EURATOM), represented by the European Commission Method for safely identifying moving objects
US8965130B2 (en) * 2010-11-09 2015-02-24 Bar-Ilan University Flexible computer vision
DE102010055974A1 (de) * 2010-12-23 2012-06-28 Giesecke & Devrient Gmbh Verfahren und Vorrichtung zur Bestimmung eines Klassenreferenzdatensatzes für die Klassifizierung von Wertdokumenten
US8565482B2 (en) * 2011-02-28 2013-10-22 Seiko Epson Corporation Local difference pattern based local background modeling for object detection
CN102930493B (zh) * 2011-08-12 2017-08-08 索尼公司 防篡改的图像处理方法和装置
US8666169B2 (en) * 2011-10-24 2014-03-04 Hewlett-Packard Development Company, L.P. Feature descriptors
US9412020B2 (en) * 2011-11-09 2016-08-09 Board Of Regents Of The University Of Texas System Geometric coding for billion-scale partial-duplicate image search
WO2013100790A1 (en) * 2011-12-30 2013-07-04 Intel Corporation Coarse-to-fine multple disparity candidate stereo matching
JP5848833B2 (ja) * 2012-01-02 2016-01-27 テレコム・イタリア・エッセ・ピー・アー 画像を比較するための方法およびシステム
US9031326B2 (en) * 2012-02-16 2015-05-12 Sony Corporation System and method for effectively performing an image categorization procedure
US9153061B2 (en) * 2012-05-04 2015-10-06 Qualcomm Incorporated Segmentation of 3D point clouds for dense 3D modeling
US9430876B1 (en) * 2012-05-10 2016-08-30 Aurasma Limited Intelligent method of determining trigger items in augmented reality environments
US20130328760A1 (en) * 2012-06-08 2013-12-12 Qualcomm Incorporated Fast feature detection by reducing an area of a camera image
US9727586B2 (en) * 2012-10-10 2017-08-08 Samsung Electronics Co., Ltd. Incremental visual query processing with holistic feature feedback
WO2014056537A1 (en) 2012-10-11 2014-04-17 Longsand Limited Using a probabilistic model for detecting an object in visual data
US8861793B1 (en) * 2012-11-05 2014-10-14 Pixelworks, Inc. Depth map generation based on vanishing lines and vanishing points
US9235780B2 (en) * 2013-01-02 2016-01-12 Samsung Electronics Co., Ltd. Robust keypoint feature selection for visual search with self matching score
US9338461B2 (en) * 2013-02-04 2016-05-10 Mitsubishi Electric Research Laboratories, Inc Method and system for encoding collections of images and videos
JP6144826B2 (ja) 2013-06-11 2017-06-07 クアルコム,インコーポレイテッド データベース作成のための対話型および自動的3dオブジェクト走査方法
US9158988B2 (en) * 2013-06-12 2015-10-13 Symbol Technclogies, LLC Method for detecting a plurality of instances of an object
GB2516037A (en) * 2013-07-08 2015-01-14 Univ Surrey Compact and robust signature for large scale visual search, retrieval and classification
US9355123B2 (en) 2013-07-19 2016-05-31 Nant Holdings Ip, Llc Fast recognition algorithm processing, systems and methods
ITMI20131244A1 (it) * 2013-07-24 2015-01-25 Telecom Italia Spa Identificazione di keypoint
US10249029B2 (en) 2013-07-30 2019-04-02 Apple Inc. Reconstruction of missing regions of images
GB2517730A (en) * 2013-08-29 2015-03-04 Mediaproduccion S L A method and system for producing a video production
CA2924764C (en) 2013-10-21 2020-03-10 Microsoft Technology Licensing, Llc Mobile video search
US9839409B2 (en) 2013-11-21 2017-12-12 Samsung Medison Co., Ltd. Image display system and method of fitting multiple models to image
US9230159B1 (en) * 2013-12-09 2016-01-05 Google Inc. Action recognition and detection on videos
US9466009B2 (en) 2013-12-09 2016-10-11 Nant Holdings Ip. Llc Feature density object classification, systems and methods
US9280560B1 (en) * 2013-12-18 2016-03-08 A9.Com, Inc. Scalable image matching
US9955192B2 (en) 2013-12-23 2018-04-24 Inscape Data, Inc. Monitoring individual viewing of television events using tracking pixels and cookies
CN103678660B (zh) * 2013-12-24 2017-01-11 北京邮电大学 一种图像检索方法
US9558712B2 (en) * 2014-01-21 2017-01-31 Nvidia Corporation Unified optimization method for end-to-end camera image processing for translating a sensor captured image to a display image
US9454806B2 (en) * 2014-01-21 2016-09-27 Nvidia Corporation Efficient approximate-nearest-neighbor (ANN) search for high-quality collaborative filtering
CN106415606B (zh) * 2014-02-14 2019-11-08 河谷控股Ip有限责任公司 一种基于边缘的识别、系统和方法
WO2015123647A1 (en) 2014-02-14 2015-08-20 Nant Holdings Ip, Llc Object ingestion through canonical shapes, systems and methods
WO2015123646A1 (en) * 2014-02-14 2015-08-20 Nant Holdings Ip, Llc Edge-based recognition, systems and methods
CN107148632B (zh) * 2014-04-24 2020-10-27 河谷控股Ip有限责任公司 用于基于图像的目标识别的稳健特征识别
JP6537332B2 (ja) * 2014-04-28 2019-07-03 キヤノン株式会社 画像処理方法および撮影装置
JP6334735B2 (ja) * 2014-05-06 2018-05-30 ナント・ホールデイングス・アイ・ピー・エル・エル・シー エッジベクトルを利用した画像特徴検出
JP6431302B2 (ja) 2014-06-30 2018-11-28 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム
JP6620755B2 (ja) 2014-10-23 2019-12-18 日本電気株式会社 画像処理装置、表示制御装置、画像処理方法、および、プログラム
KR101644586B1 (ko) 2014-11-18 2016-08-02 상명대학교서울산학협력단 인체 미동에 의한 hrp 기반 사회 관계성 측정 방법 및 시스템
US9792675B1 (en) * 2014-12-05 2017-10-17 Matrox Electronic Systems, Ltd. Object recognition using morphologically-processed images
AU2016211254B2 (en) 2015-01-30 2019-09-19 Inscape Data, Inc. Methods for identifying video segments and displaying option to view from an alternative source and/or on an alternative device
EP3259914A1 (en) * 2015-02-19 2017-12-27 Magic Pony Technology Limited Interpolating visual data
JP6336932B2 (ja) * 2015-03-03 2018-06-06 富士フイルム株式会社 細胞群検出装置および方法並びにプログラム
US9305228B1 (en) 2015-03-20 2016-04-05 Bank Of America Corporation Processing damaged items using image data lift
GB201604672D0 (en) 2016-03-18 2016-05-04 Magic Pony Technology Ltd Generative methods of super resolution
EP3278559B1 (en) 2015-03-31 2021-05-05 Magic Pony Technology Limited Training end-to-end video processes
GB201603144D0 (en) 2016-02-23 2016-04-06 Magic Pony Technology Ltd Training end-to-end video processes
KR101713197B1 (ko) * 2015-04-01 2017-03-09 주식회사 씨케이앤비 서버 컴퓨팅 장치 및 이를 이용한 콘텐츠 인식 기반의 영상 검색 시스템
US9679431B2 (en) 2015-04-15 2017-06-13 Bank Of America Corporation Detecting duplicate deposit items at point of capture
WO2016168556A1 (en) 2015-04-17 2016-10-20 Vizio Inscape Technologies, Llc Systems and methods for reducing data density in large datasets
US9747516B2 (en) * 2015-05-12 2017-08-29 Qualcomm Incorporated Keypoint detection with trackability measurements
US9613273B2 (en) * 2015-05-19 2017-04-04 Toyota Motor Engineering & Manufacturing North America, Inc. Apparatus and method for object tracking
EP3113069A1 (en) * 2015-06-30 2017-01-04 Thomson Licensing Method and apparatus for deriving a feature point based image similarity measure
EP3113076A1 (en) * 2015-06-30 2017-01-04 Thomson Licensing Method and apparatus for deriving an image similarity measure based on repetitive feature points
WO2017011792A1 (en) 2015-07-16 2017-01-19 Vizio Inscape Technologies, Llc Prediction of future views of video segments to optimize system resource utilization
EP3323245B1 (en) 2015-07-16 2021-08-25 Inscape Data, Inc. Detection of common media segments
US10080062B2 (en) 2015-07-16 2018-09-18 Inscape Data, Inc. Optimizing media fingerprint retention to improve system resource utilization
AU2016291674B2 (en) 2015-07-16 2021-08-26 Inscape Data, Inc. Systems and methods for partitioning search indexes for improved efficiency in identifying media segments
US9754182B2 (en) 2015-09-02 2017-09-05 Apple Inc. Detecting keypoints in image data
US9734587B2 (en) * 2015-09-30 2017-08-15 Apple Inc. Long term object tracker
US10937168B2 (en) 2015-11-02 2021-03-02 Cognex Corporation System and method for finding and classifying lines in an image with a vision system
DE102016120775A1 (de) 2015-11-02 2017-05-04 Cognex Corporation System und Verfahren zum Erkennen von Linien in einem Bild mit einem Sichtsystem
US9975241B2 (en) * 2015-12-03 2018-05-22 Intel Corporation Machine object determination based on human interaction
US9846808B2 (en) * 2015-12-31 2017-12-19 Adaptive Computation, Llc Image integration search based on human visual pathway model
US10861129B2 (en) 2016-03-08 2020-12-08 Nant Holdings Ip, Llc Image feature combination for image-based object recognition
EP3298579B1 (en) 2016-04-12 2021-07-21 Magic Pony Technology Limited Visual data processing using energy networks
GB201607994D0 (en) 2016-05-06 2016-06-22 Magic Pony Technology Ltd Encoder pre-analyser
US10282607B2 (en) 2016-10-28 2019-05-07 The Nielsen Company (Us), Llc Reducing scale estimate errors in shelf images
CN106910210B (zh) * 2017-03-03 2018-09-11 百度在线网络技术(北京)有限公司 用于生成图像信息的方法和装置
US10983984B2 (en) 2017-04-06 2021-04-20 Inscape Data, Inc. Systems and methods for improving accuracy of device maps using media viewing data
IT201700058961A1 (it) * 2017-05-30 2018-11-30 Artglass S R L Metodo e sistema di fruizione di un contenuto editoriale in un sito preferibilmente culturale o artistico o paesaggistico o naturalistico o fieristico o espositivo
US11334086B2 (en) * 2017-09-27 2022-05-17 Intel Corporation Autonomous robots and methods of operating the same
CN109949218B (zh) * 2017-12-21 2023-04-18 富士通株式会社 图像处理装置和方法
KR102092086B1 (ko) 2018-04-27 2020-03-23 이석재 에어 블라스트 머신
KR102184626B1 (ko) 2018-07-16 2020-11-30 이석재 블라스트머신 주행장치
US11238070B1 (en) * 2018-07-17 2022-02-01 A9.Com, Inc. Dense cluster filtering
KR102592450B1 (ko) * 2018-10-25 2023-10-23 현대모비스 주식회사 자율주행을 위한 영상인식 알고리즘의 성능 강화 장치 및 그 제어 방법
TWI703535B (zh) * 2018-10-25 2020-09-01 南茂科技股份有限公司 邊緣缺陷檢查方法
CN111626082A (zh) * 2019-02-28 2020-09-04 佳能株式会社 检测装置和方法及图像处理装置和系统
US11386636B2 (en) 2019-04-04 2022-07-12 Datalogic Usa, Inc. Image preprocessing for optical character recognition
US11012675B2 (en) 2019-04-16 2021-05-18 At&T Intellectual Property I, L.P. Automatic selection of viewpoint characteristics and trajectories in volumetric video presentations
US10970519B2 (en) 2019-04-16 2021-04-06 At&T Intellectual Property I, L.P. Validating objects in volumetric video presentations
US11074697B2 (en) 2019-04-16 2021-07-27 At&T Intellectual Property I, L.P. Selecting viewpoints for rendering in volumetric video presentations
US11153492B2 (en) 2019-04-16 2021-10-19 At&T Intellectual Property I, L.P. Selecting spectator viewpoints in volumetric video presentations of live events
KR102444544B1 (ko) * 2019-05-24 2022-09-19 한국전자통신연구원 영상의 전처리 방법 및 장치
CN110309060B (zh) * 2019-05-24 2021-08-17 平安科技(深圳)有限公司 识别算法更新的检测方法、装置、存储介质及计算机设备
CN110517461B (zh) * 2019-08-30 2022-03-04 成都智元汇信息技术股份有限公司 一种防止人携带包裹逃避安检的方法
CN110879987B (zh) * 2019-11-21 2023-06-09 成都东方闻道科技发展有限公司 一种识别试题作答内容的方法
US11257230B2 (en) 2020-02-04 2022-02-22 Nio Usa, Inc. Adaptive feature map anchor pruning
US11397869B2 (en) * 2020-03-04 2022-07-26 Zerofox, Inc. Methods and systems for detecting impersonating social media profiles
CN111625665B (zh) * 2020-05-27 2023-08-25 安徽淘云科技股份有限公司 阈值确定和图像检索方法、装置、电子设备和存储介质
US11475240B2 (en) * 2021-03-19 2022-10-18 Apple Inc. Configurable keypoint descriptor generation
CN113408569B (zh) * 2021-04-27 2022-07-19 中国人民解放军陆军军医大学 基于密度聚类的图像配准方法
CN113591937B (zh) * 2021-07-09 2023-09-26 国家电网有限公司 一种基于局部距离编码的电力系统关键节点识别方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004111931A2 (en) 2003-06-10 2004-12-23 California Institute Of Technology A system and method for attentional selection
US7382897B2 (en) 2004-04-27 2008-06-03 Microsoft Corporation Multi-image feature matching using multi-scale oriented patches
US7706603B2 (en) 2005-04-19 2010-04-27 Siemens Corporation Fast object detection for augmented reality systems
US7680748B2 (en) 2006-02-02 2010-03-16 Honda Motor Co., Ltd. Creating a model tree using group tokens for identifying objects in an image
US7949186B2 (en) 2006-03-15 2011-05-24 Massachusetts Institute Of Technology Pyramid match kernel and related techniques
US8150098B2 (en) 2007-12-20 2012-04-03 Eastman Kodak Company Grouping images by location
CN101299217B (zh) * 2008-06-06 2010-09-08 北京搜狗科技发展有限公司 一种地图信息处理的方法、装置和系统
US8144947B2 (en) * 2008-06-27 2012-03-27 Palo Alto Research Center Incorporated System and method for finding a picture image in an image collection using localized two-dimensional visual fingerprints
CN100590658C (zh) * 2008-07-11 2010-02-17 北京航空航天大学 双向约束的二维物点与像点匹配方法
US8254697B2 (en) * 2009-02-02 2012-08-28 Microsoft Corporation Scalable near duplicate image search with geometric constraints
US9635251B2 (en) * 2010-05-21 2017-04-25 Qualcomm Incorporated Visual tracking using panoramas on mobile devices
US8554021B2 (en) * 2010-10-19 2013-10-08 Palo Alto Research Center Incorporated Finding similar content in a mixed collection of presentation and rich document content using two-dimensional visual fingerprints

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11650597B2 (en) 2019-07-09 2023-05-16 Samsung Electronics Co., Ltd. Electronic apparatus for identifying object through warped image and control method thereof

Also Published As

Publication number Publication date
EP2507744A2 (en) 2012-10-10
US20110299770A1 (en) 2011-12-08
KR101420549B1 (ko) 2014-07-16
CN102763123A (zh) 2012-10-31
WO2011069021A3 (en) 2011-08-18
KR20120099111A (ko) 2012-09-06
CN102763123B (zh) 2015-03-25
WO2011069021A2 (en) 2011-06-09
JP2013513167A (ja) 2013-04-18
US8705876B2 (en) 2014-04-22

Similar Documents

Publication Publication Date Title
JP5384746B2 (ja) プルーニング機能、画像スケーリング、および、空間制約付き特徴マッチングによる画像認識アルゴリズムの性能の改善
JP5602940B2 (ja) 事前計算されたスケール空間からのデイジー記述子生成
JP5503018B2 (ja) 一様なおよび一様でない照明の変化の中での特徴検出を改善するための尺度空間正規化技術
KR101420550B1 (ko) 이미지 인식을 위한 기술자 패치들의 고속 서브스페이스 투영을 위한 방법, 디바이스 및 컴퓨터-판독가능 저장 매체
JP5940453B2 (ja) 画像のシーケンス内のオブジェクトのリアルタイム表現のハイブリッド型追跡のための方法、コンピュータプログラム、および装置
US20150029222A1 (en) Dynamically configuring an image processing function
WO2022170844A1 (zh) 一种视频标注方法、装置、设备及计算机可读存储介质
Psyllos et al. M-SIFT: A new method for Vehicle Logo Recognition
Hao et al. Efficient 2D-to-3D correspondence filtering for scalable 3D object recognition
JP5468824B2 (ja) 3次元における形状の一致を判定する方法および装置
Patterson et al. Object detection from large-scale 3d datasets using bottom-up and top-down descriptors
CN104520878A (zh) 提供用于描述对象表示的至少一个特征的特征描述符的方法
CN111507908A (zh) 图像矫正处理方法、装置、存储介质及计算机设备
CN111046845A (zh) 活体检测方法、装置及系统
CN114187333A (zh) 一种图像对齐方法、图像对齐装置及终端设备
Zhao et al. MOCC: A fast and robust correlation-based method for interest point matching under large scale changes
Groeneweg et al. A fast offline building recognition application on a mobile telephone
CN108304838B (zh) 一种图片信息识别方法及终端
Noury et al. How to overcome perceptual aliasing in ASIFT?
US20210034915A1 (en) Method and apparatus for object re-identification
WO2017042852A1 (en) Object recognition appratus, object recognition method and storage medium
Liang et al. A panoramic image registration algorithm based on SURF
CN110348454B (zh) 匹配局部图像特征描述符
TWI776668B (zh) 影像處理方法及影像處理系統
Yamao et al. A sequential online 3d reconstruction system using dense stereo matching

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130827

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130903

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131002

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees