JP2005317020A

JP2005317020A - マルチスケールの有向パッチ（ｍｕｌｔｉ−ｓｃａｌｅｏｒｉｅｎｔｅｄｐａｔｃｈｅｓ）を使用したマルチ画像フィーチャ（ｆｅａｔｕｒｅ）のマッチング

Info

Publication number: JP2005317020A
Application number: JP2005129813A
Authority: JP
Inventors: Mathew Brown; ブラウンマシュー; Richard Szeliski; スツェルスキーリチャード
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2004-04-27
Filing date: 2005-04-27
Publication date: 2005-11-10
Anticipated expiration: 2025-04-27
Also published as: KR20060047552A; EP1594078B1; JP2011204280A; US7382897B2; ATE413659T1; KR101117837B1; JP4838532B2; US20050238198A1; JP5066279B2; CN100426321C; DE602005010781D1; EP1594078A3; EP1594078A2; CN1776716A

Abstract

【課題】場面の複数の画像間で対応するポイントを特定するためのシステムおよびプロセスを提供すること。
【解決手段】本システムおよびプロセスには、不変のフィーチャの新しいクラスに基づくマルチビューマッチングフレームワークが含まれる。フィーチャは、ぼかし局所勾配を使用してスケール空間（ｓｃａｌｅ−ｓｐａｃｅ）内に向きを指定してハリスのコーナーに配置される。これで、フィーチャ記述子をサンプリングする類似性不変フレーム（ｓｉｍｉｌａｒｉｔｙｉｎｖａｒｉａｎｔｆｒａｍｅ）が定義される。実際に構成される記述子は、輝度値のバイアス／ゲイン標準化パッチである。マッチングは、低周波数のハールのウェーブレット係数のインデックスを使用する高速の最近傍の手順で実行される。パッチのマッチングを行う６パラメータの場面プルなモデルを使用して、正しい一致と誤った一致に関するノイズ統計を分析する。この結果、フィーチャごとのアウトライアの距離に基づく場面プルな一致検証手順が得られる。
【選択図】図２

Description

本発明は場面（ｓｃｅｎｅ）の複数の画像間で対応するポイントを特定する方法に関し、より詳細にはフィーチャを迅速に抽出し、場面の部分的に重複する多くの画像間の相関性（ｃｏｒｒｅｓｐｏｎｄｅｎｃｅｓ）を検出するシステムおよびプロセスに関する。

画像内の対応するフィーチャの検出は、一般に画像マッチングと呼ばれており、複数の画像から情報を抽出しようとするほとんどすべての映像アプリケーションに必須のコンポーネントである。画像マッチングの初期の研究は、２つの陣営（ｃａｍｐｓ）、すなわちフィーチャベースの方法と直接的な方法に分かれていた。フィーチャベースの方法では、エッジやコーナーのように突出したフィーチャを抽出し、わずかな局所情報（たとえば小さな画像パッチの相関関係）を使用して一致を確定する［８］。入手できるわずかな画像データを使用するフィーチャベースの方法とは対照的に、直接的な方法ではすべてのピクセル値を使用して繰り返し画像を整合しようとする［１、９］。マッチングと認識へのその他のアプローチでは、不変の要素（ｉｎｖａｒｉａｎｔｓ）を使用してオブジェクトの特徴を明らかにする。場合によってはこの目的を達成するための基本的な枠組みを確立する［１４、１５］。

こうしたアプローチの共通点として不変のフィーチャがあり、突出したフィーチャの周囲にある大量の局所画像データを使用してインデックス作成とマッチングのための不変の記述子（ｄｅｓｃｒｉｐｔｏｒｓ）を作成する。この領域の最初の研究は、シュミット（Ｓｃｈｍｉｄ）とモール（Ｍｏｈｒ）によって行われ［１６］、ガウスの微分（Ｇａｕｓｓｉａｎｄｅｒｉｖａｔｉｖｅｓ）の突出（ｊｅｔ）を利用してハリスのコーナー（Ｈａｒｒｉｓｃｏｒｎｅｒ）を中心とする回転に対して不変の記述子（ｒｏｔａｔｉｏｎａｌｌｙｉｎｖａｒｉａｎｔｄｅｓｃｒｉｐｔｏｒ）を構成する。ロー（Ｌｏｗｅ）は、このアプローチを拡張してスケールに対する不変性を導入した［１０、１１］。他の研究者は、アフィン変換（ａｆｆｉｎｅｔｒａｎｓｆｏｒｍａｔｉｏｎｓ）に対して不変のフィーチャを開発した［３、２０、５］。関心ポイント（ｉｎｔｅｒｅｓｔｐｏｉｎｔ）の検出方法には、ハリスのコーナーまたはガウスの微分（ＤＯＧ：Ｄｉｆｆｅｒｅｎｃｅ−ｏｆ−Ｇａｕｓｓｉａｎｓ）の最大値のように標準的なフィーチャ検出方法から、最大安定領域（ｍａｘｉｍａｌｌｙｓｔａｂｌｅｒｅｇｉｏｎｓ）［１２］や安定局所位相構造（ｓｔａｂｌｅｌｏｃａｌｐｈａｓｅｓｔｒｕｃｔｕｒｅｓ）［７］のようにより複雑な方法までさまざまである。

一般に、関心ポイントの抽出と記述子のマッチングは２つの基本的なステップと見なされており、関心ポイントの繰り返し精度（ｒｅｐｅａｔａｂｉｌｉｔｙ）［１７］と記述子のパフォーマンス［１３］に関するさまざまな技術を評価する場合に何らかの進展が見られた。また、動きの構造（ｓｔｒｕｃｔｕｒｅｆｒｏｍｍｏｔｉｏｎ）［１９］とパノラマ画像ング（ｐａｎｏｒａｍｉｃｉｍａｇｉｎｇ）［６］のコンテキストにおけるマルチビューマッチングへの強制的な適用もある。しかし、今日までこうした手順でフィーチャを迅速に検出し、場面の部分的に重複する多くの画像間の相関性を検出する機能を提供するものはない。

本明細書の以上と以下の各節の説明で、角括弧内の数字は関連のさまざまな文献の参照を示していることに留意されたい。たとえば、こうした参照は「参考文献［１］」または単に「［１］」で表される。複数の参考文献を表す場合は、たとえば［２、３］のように複数の数字を角括弧で囲む。個々の数字に対応する出版物が記載された参考文献のリストは、以下の実施形態の節（ＤｅｔａｉｌｅｄＤｅｓｃｒｉｐｔｉｏｎｓｅｃｔｉｏｎ）の終わりに示している。

本発明は、不変のフィーチャの新しいクラスに基づいて場面の複数の画像間で対応するポイントを特定するシステムおよびプロセスを対象とする。本システムおよびプロセスは、フィーチャを迅速に抽出し、場面の部分的に重複する多くの画像間の相関性を検出する機能を備えている。本技術は、画像ステッチ（ｉｍａｇｅｓｔｉｔｃｈｉｎｇ）やビデオ安定化（ｖｉｄｅｏｓｔａｂｉｌｉｚａｔｉｏｎ）のための画像相関性の検出にきわめて有効である。また、ビデオのフィーチャ追跡や複数画像からの３次元モデルの構築などの一般的なマルチ画像の相関性にも拡張できる。

より詳細には、本システムおよびプロセスには、まずさまざまな解像度の各画像において関心ポイントを特定する操作が含まれる。関心ポイントは、その画像内の位置がそのポイントを中心とするあらかじめ指定されたサイズのピクセル近傍内のピクセルに起因する少なくとも１つのプロパティで定義されるポイントである。さらに、個々の関心ポイントはそのポイントを中心とするピクセル近傍内のピクセルに起因する少なくとも１つのプロパティ（ポイントの位置の定義に使用したプロパティと同じでもよいし、別のプロパティでもよい）に基づいて一意の向きを割り当てることができるポイントである。この第２の近傍は、ポイントの位置の定義に使用したものと同じサイズの近傍でもよいし、別のサイズの近傍でもよい。

関心ポイントが特定されると、関心ポイントごとに記述子が確立する。この記述子は、画像の位置、向き、スケールの変化に対しても、このポイントを中心とする領域内のピクセルの輝度（ｉｎｔｅｎｓｉｔｙ）に対しても、実質的に不変である形で各ポイントを特徴付ける。次に、画像間で実質的に一致する記述子の集合が特定される。さまざまな画像に表示される、一致する記述子の集合に関連付けられた関心ポイントは、対応するポイント（すなわち、場面の同一の要素を表すポイント）として指定される。

画像ごとに関心ポイントを特定する操作に関して、この操作はまず画像の解像度のピラミッドを作成することで実行できる。ピラミッドの各レベルで、コーナーフィーチャを代表する画像内の位置を特定する。たとえば、本システムおよびプロセスの試験済みの実施形態では、いわゆるハリスのコーナーフィーチャを採用した。コーナーフィーチャの位置を特定する１つの方法は、その位置を中心とした所定の最小近傍半径のピクセル近傍内で局所的に最大のコーナー強度（ｃｏｒｎｅｒｓｔｒｅｎｇｔｈ）を示し、所定の最小強度のしきい値を超えるコーナーの位置をフィーチャごとに特定することである。特定されたコーナー位置の総数が所定の最大値を超える場合は、近傍半径を所定の整数値だけ増分し、前回特定された各位置のコーナー強度が現在考察中のピクセル近傍でも依然として局所的な最大値をとるかどうか、さらに依然として最小強度のしきい値を超えるかどうかを判断する。両方の条件を満たさない場合は、コーナーの位置が考察の対象から外される。すべてのコーナーの位置についての再検討が完了すると、総数が最大許容値を超えているかどうかをもう一度判断する。超えている場合は、半径を増分して前述の手順をもう一度繰り返す。コーナーの位置の数が最大許容数以内になるまでこの繰り返しのプロセスを継続する。この時点で、残っている特定された位置は別のコーナーフィーチャを代表するポイントとして指定される。残っているコーナーフィーチャの位置については、それぞれ考察の対象となる特定された位置を中心とする所定のサイズの局所的な近傍に適合する２次元の正方形（２Ｄｑｕａｄｒａｔｉｃ）の面で最大強度を示す位置をフィーチャに割り当てることで、各フィーチャの位置を調整できる。

残っているコーナーフィーチャには向きも割り当てられる。本システムおよびプロセスの試験済みの実施形態において、この操作はぼかし勾配（ｂｌｕｒｒｅｄｇｒａｄｉｅｎｔ）のアプローチを使用して実行される。最終的に、残っているコーナーフィーチャのそれぞれについて特定された位置は、該当するコーナーフィーチャに関して計算された向きの個別の関心ポイントとして指定される。

各関心ポイントの記述子を生成する操作に関して、この操作を実行するためには、まず考察対象の関心ポイントの位置を中心とする関心ポイントと同じ向きの所定のサイズｐｘｐの記述子領域を確立する。次に、記述子領域より小さい所定のサイズｄｘｄの記述子ベクトルが構成され、この領域内のピクセルの輝度に関する双線形補間を使用して領域のサンプリングが行われる。ただし、適切なピラミッドレベルからサンプリングすることで、エイリア場面グを回避する。これで、記述子ベクトルがゲインとバイアスに関して標準化され、標識化された記述子ベクトルに対してハール（Ｈａａｒ）のウェーブレットの変換が行われ、変換ベクトルが生成される。

画像間で実質的に一致する記述子を検出する操作に関して、一般にこの操作は変換された各記述子ベクトルをフィーチャ空間（ｆｅａｔｕｒｅｓｐａｃｅ）内の所定の数の最近傍とマッチングすることで実行される。このタスクを実行する１つの方法は、まず変換された個々の記述子ベクトルの最初の３つの非ゼロウェーブレット係数から３次元ハッシュテーブルを作成することである。次に、ハッシュテーブルの各ビン（ｂｉｎ）について、ビン内で検出される３係数ベクトル（ｔｈｒｅｅ−ｃｏｅｆｆｉｃｉｅｎｔｖｅｃｔｏｒ）間の距離を計算する。３係数ベクトルのそれぞれが順に選択され、計算した距離に基づいて、同じビンに含まれるが選択されたベクトルと同じ画像には関連付けられていないその所定の数の最近傍が特定される。これで、一致ベクトル候補（ｐｏｔｅｎｔｉａｌｌｙｍａｔｃｈｉｎｇｖｅｃｔｏｒｓ）の集合が構成される。こうした各集合内のベクトルに関連付けられた関心ポイントは、画像間で対応するポイントとして指定される。本マッチング手順の試験済みの実施形態において、ハッシュテーブルは次元あたり１０個のビンを備え、各ビンの範囲は半分が重複するように構成されている。各ベクトルの所定の数の最近傍を特定する代わりに、一致ベクトル候補の集合を構成せずに、考察中のベクトルに関連付けられた画像以外の各画像に関連付けられた同じビン内にある最近傍を画像ごとに所定の最大数まで特定してもよいことに留意されたい。

一致ベクトル候補の各集合に含まれるベクトルに関連付けられた関心ポイントを対応するポイントとして指定する操作において、誤って特定された一致を除去できる。このためには、一般に３係数ベクトルに関連付けられた関心ポイントが実際に同じベクトル集合内の別の３係数ベクトルに関連付けられた関心ポイントに対応しない場合は、一致ベクトルの候補としての考察対象からその３係数ベクトルを除外する必要がある。この操作はさまざまな方法で実行できる。１つの方法では、一致ベクトルの集合ごとに、まず集合のアウトライア（ｏｕｔｌｉｅｒ）の距離を計算し、次にこの集合内の任意の一致ベクトルについて計算した距離がアウトライアの距離の約６５％を超えるかどうかを判断する。一致ベクトルの距離がアウトライアの距離の約６５％を超えることがわかった場合は、対応する画像ポイントとしての考察からこれを除外する。この除去戦略は、アウトライアの距離に基づく拘束条件（ｏｕｔｌｉｅｒｄｉｓｔａｎｃｅｃｏｎｓｔｒａｉｎｔ）を使用したアウトライア除去（ｏｕｔｌｉｅｒｒｅｊｅｃｔｉｏｎ）と呼ばれる。誤った一致ベクトルを集合から除去する別の方法は、標準の幾何学的アウトライア除去手順を実行し、アウトライアであることが判明したベクトルに対応するポイントとして関連付けられた関心ポイントを除去することである。本質的に、この幾何学的アウトライア除去手順には、２つの画像間ですべてのポイントが最もよく一致する変換を検出する操作と、変換したときに所定の許容範囲内に対応しないポイントを除去する操作が含まれる。前述の除去技法の両方を採用することもできる。たとえば、本システムおよびプロセスの試験済みの実施形態においては、まずアウトライアの距離に基づく拘束条件を使用した除去戦略が採用され、続いて幾何学的アウトライア除去手順が採用された。

以上に説明した効果に加えて、本発明のその他の利点は、以下の実施形態に関する説
明と添付の図面を関連付けて参照することで明らかになるであろう。

本発明の特定の機能、態様、および利点は、以下の実施形態の説明、前述の請求項、および添付の図面に関連して理解が深まるであろう。

以下に示す本発明の好ましい実施形態の説明では、本明細書の要素となる添付の図面を参照する。こうした図面には、本発明を実施できる特定の実施形態が例として示されている。本発明の範囲を逸脱しない限り、他の実施形態を利用できること、および構造上の変更を適用できることは言うまでもない。

１．０コンピューティング環境
本発明の好ましい実施形態について説明する前に、本発明を実装できる適切なコンピューティング環境の簡単かつ一般的に説明する。

図１は、適切なコンピューティングシステム環境１００を示している。コンピューティングシステム環境１００は適切なコンピューティング環境の１つの例にすぎず、本発明の使い方または機能の範囲に関するいかなる制限を示すものでもない。また、コンピューティング環境１００は、例示的なオペレーティング環境１００に示すコンポーネントの１つまたは組合わせに関して、依存性も要件もないものとする。

本発明は、他のさまざまな汎用または専用のコンピューティングシステム環境または構成にも適用できる。本発明の使用に適した周知のコンピューティングシステム、環境、および／または構成の例には、パーソナルコンピュータ、サーバーコンピュータ、ハンドヘルドまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な家庭用電子機器、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータ、前述の任意のシステムまたはデバイスを含む分散コンピューティング環境などが含まれるが、これらに限定はされない。

本発明は、プログラムモジュールのようにコンピュータで実行可能な命令をコンピュータで実行する一般的なコンテキストで説明できる。一般に、プログラムモジュールには、特定のタスクを実行したり、特定の抽象データ型を実装したりするルーチン、プログラム、オブジェクト、コンポーネント、データ構造などがある。本発明は、通信ネットワークを介してリンクするリモート処理装置でタスクを実行する分散コンピューティング環境でも実施できる。分散コンピューティング環境では、メモリ記憶装置を含むローカルとリモートの両方のコンピュータ記憶媒体にプログラムモジュールを格納できる。

図１を参照すると、本発明を実施する例示的なシステムに、コンピュータ１１０の形で汎用コンピューティングデバイスが配置されている。コンピュータ１１０のコンポーネントには、処理装置１２０、システムメモリ１３０、さまざまなシステムコンポーネント（システムメモリや処理装置１２０など）を接続するシステムバス１２１が含まれるが、それらに限定はされない。システムバス１２１は、さまざまなバスアーキテクチャの任意の１つを使用したメモリバスまたはメモリコントローラ、周辺バス、ローカルバスを含む各種バス構造のいずれでもよい。こうしたアーキテクチャには、例として、ＩＳＡ（ＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ）バス、ＭＣＡ（ＭｉｃｒｏＣｈａｎｎｅｌＡｒｃｈｉｔｅｃｔｕｒｅ）バス、ＥＩＳＡ（ＥｎｈａｎｃｅｄＩＳＡ）バス、ＶＥＳＡ（ＶｉｄｅｏＥｌｅｃｔｒｏｎｉｃｓＳｔａｎｄａｒｄｓＡｓｓｏｃｉａｔｉｏｎ）ローカルバス、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ）バス（メザニン（Ｍｅｚｚａｎｉｎｅ）バスとも呼ばれる）が含まれるが、これらに限定はされない。

コンピュータ１１０は、通常はさまざまなコンピュータ可読媒体を備えている。コンピュータ可読媒体は、コンピュータ１１０からアクセスできる任意の使用可能な媒体でよい。揮発性と不揮発性の両方、および取り外し可能と不可能の両方の媒体が含まれる。例として、コンピュータ可読媒体にはコンピュータ記憶媒体および通信媒体を含めてもよいが、これらに限定はされない。コンピュータ記憶媒体には、コンピュータ可読の命令、データ構造、プログラムモジュール、またはその他のデータなどの情報を記憶する任意の方法または技術で組み込まれた、揮発性と不揮発性の両方、および取り外し可能と不可能の両方の媒体が含まれる。コンピュータ記憶媒体には、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリなどのメモリ技術、ＣＤＲＯＭ、デジタル多用途ディスク（ＤＶＤ：ｄｉｇｉｔａｌｖｅｒｓａｔｉｌｅｄｉｓｋ）などの光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスクなどの磁気記憶装置、または必要な情報を格納でき、コンピュータ１１０からアクセスできる他の任意の媒体が含まれるが、これらに限定はされない。通信媒体は、搬送波やその他の搬送メカニズムのような変調データ信号に含まれるコンピュータ可読の命令、データ構造、プログラムモジュール、またはその他のデータなどを具体化したものであり、任意の情報伝達媒体を含む。「変調データ信号」という用語は、信号内の情報を符号化するように、１つまたは複数のフィーチャを設定または変更された信号を意味する。例として、通信媒体には、有線ネットワーク、直接ワイヤ接続などの有線媒体と、音、ＲＦ、赤外線などの無線媒体が含まれるが、これらに限定はされない。上記の任意の組合わせも、コンピュータ可読媒体の範囲内に含まれるものとする。

システムメモリ１３０には、読み取り専用メモリ（ＲＯＭ：ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）１３１やランダムアクセスメモリ（ＲＡＭ：ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）１３２のように揮発性および／または不揮発性メモリという形をとるコンピュータ記憶媒体が含まれる。起動時などにコンピュータ１１０内のエレメント間の情報転送を支援する基本ルーチンを含む基本入出力システム１３３（ＢＩＯＳ：ｂａｓｉｃｉｎｐｕｔ／ｏｕｔｐｕｔｓｙｓｔｅｍ）は、通常はＲＯＭ１３１に格納される。ＲＡＭ１３２には、通常はプロセッ場面グユニット５２０から直ちにアクセスできる、かつ／またはプロセッ場面グユニット１２０で現在操作しているデータおよび／またはプログラムモジュールが格納される。例として、図１にはオペレーティングシステム１３４、アプリケーションプログラム１３５、その他のプログラムモジュール１３６、およびプログラムデータ１３７が示すが、これには限定されない。

コンピュータ１１０には、その他の取り外し可能／不可能、揮発性／不揮発性のコンピュータ記憶媒体を含めてもよい。単に例として、図１に取り外し不可能な不揮発性の磁気媒体の読み出しまたは書き込みを行うハードディスクドライブ１４１、取り外し可能な不揮発性の磁気ディスク１５２の読み出しまたは書き込みを行う磁気ディスクドライブ１５１、ＣＤＲＯＭや他の光媒体のような取り外し可能な不揮発性の光ディスク１５６の読み出しまたは書き込みを行う光ディスクドライブ１５５を示す。例示的なオペレーティング環境で使用できる上記以外の取り外し可能／不可能、揮発性／不揮発性のコンピュータ記憶媒体には、磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク、デジタルビデオテープ、ソリッドステートＲＡＭ、ソリッドステートＲＯＭなどが含まれるが、それらに限定はされない。ハードディスクドライブ１４１は、通常はインターフェース１４０などの取り外し不可能なメモリインターフェースを介してシステムバス１２１に接続し、磁気ディスクドライブ１５１と光ディスクドライブ１５５は、通常はインターフェース１５０などの取り外し可能なメモリインターフェースを介してシステムバス１２１に接続する。

図１に示す前述のドライブとこれに対応するコンピュータ記憶媒体には、コンピュータ可読の命令、データ構造、プログラムモジュールなど、コンピュータ１１０のデータを格納できる。たとえば、図１を参照すると、ハードディスクドライブ１４１にオペレーティングシステム１４４、アプリケーションプログラム１４５、その他のプログラムモジュール１４６、およびプログラムデータ１４７が格納されている。ただし、こうしたコンポーネントは、オペレーティングシステム１３４、アプリケーションプログラム１３５、その他のプログラムモジュール１３６、およびプログラムデータ１３７と同じでもよいし、異なっていてもよい。ここでは、オペレーティングシステム１４４、アプリケーションプログラム１４５、その他のプログラムモジュール１４６、およびプログラムデータ１４７には異なる番号を付けて、少なくとも別の複製であることを示している。ユーザーは、キーボード１６２やポインティングデバイス１６１などの入力装置（一般に、マウス、トラックボール、またはタッチパッドと呼ばれる）を使用してコンピュータ１１０にコマンドや情報を入力できる。他の入力装置（図示せず）には、マイクロフォン、ジョイスティック、ゲームパッド、サテライトディッシュ、スキャナなどを含めてもよい。これらの入力装置および他の入力装置は、多くの場合にシステムバス１２１に接続されたユーザー入力インターフェース１６０を介して処理装置１２０に接続するが、パラレルポート、ゲームポート、ＵＳＢ（ｕｎｉｖｅｒｓａｌｓｅｒｉａｌｂｕｓ）のような他のインターフェースやバス構造によって接続してもよい。モニタ１９１または他のタイプの表示装置も、ビデオインターフェース１９０のようなインターフェースを介してシステムバス１２１に接続される。さらに、コンピュータには出力インターフェース１９５を介してスピーカー１９７やプリンタ１９６など、モニタ以外の出力周辺装置を接続できる。本発明において特に重要であるが、一連の画像１９３をキャプチャできるカメラ１９２（デジタル／電子的スチール（ｓｔｉｌｌ）カメラまたはビデオカメラ、またはフィルムスキャナ／フォトスキャナ（ｆｉｌｍ／ｐｈｏｔｏｇｒａｐｈｉｃｓｃａｎｎｅｒ））を、パーソナルコンピュータ１１０の入力装置として備えていてもよい。さらに、パーソナルコンピュータ１１０の入力装置として１台のカメラが図示されているが、複数台のカメラを備えていてもよい。１台または複数台のカメラの画像１９３は、適切なカメラインターフェース１９４を介してコンピュータ１１０に入力される。このインターフェース１９４はシステムバス１２１に接続され、それによって画像をＲＡＭ１３２またはコンピュータ１１０に関連付けられた他のデータ記憶装置のいずれかにルーティングでき、格納できる。ただし、画像データは前述のコンピュータ可読媒体のいずれかからコンピュータ１１０に入力することもでき、カメラ１９２を使用する必要はない。

コンピュータ１１０は、リモートコンピュータ１８０のような１台または複数台のリモートコンピュータへの論理接続を使用してネットワーク環境で動作できる。リモートコンピュータ１８０は、パーソナルコンピュータ、サーバー、ルータ、ネットワークＰＣ、ピアデバイス、または他の一般のネットワークノードでよい。通常は、コンピュータ１１０に関連して上で説明したエレメントの多くまたはすべてが含まれるが、図１にはメモリ記憶装置１８１のみを示す。図１に示す論理接続には、ローカルエリアネットワーク（ＬＡＮ：ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）１７１とワイドエリアネットワーク（ＷＡＮ：ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）１７３が含まれるが、他のネットワークを含めてもよい。このようなネットワーキング環境は、職場、企業規模のコンピュータネットワーク、イントラネット、およびインターネットではごく一般的である。

ＬＡＮネットワーキング環境で使用した場合、コンピュータ１１０はＬＡＮ１７１にネットワークインターフェースまたはアダプタ１７０を介して接続する。ＷＡＮネットワーキング環境で使用する場合、コンピュータ１１０は一般にインターネットなどのＷＡＮ１７３を介して通信を確立するためのモデム１７２またはその他の手段を備えている。モデム１７２（内蔵または外付け）は、ユーザー入力インターフェース１６０または他の適切なメカニズムを使用してシステムバス１２１に接続できる。ネットワーク環境では、コンピュータ１１０またはその一部に関連して記述したプログラムモジュールをリモートメモリ記憶装置に格納できる。例として、図１にメモリデバイス１８１に格納されたリモートアプリケーションプログラム１８５を示すが、これには限定されない。図示されたネットワーク接続が例示的なものであり、コンピュータ間の通信リンクを確立する他の手段を使用してもよいことは言うまでもない。

２．０マルチ画像フィーチャマッチングのシステムおよびプロセス
例示的な動作環境について説明してきたが、本実施形態の節では、この後に本発明を実施するプログラムモジュールについて説明する。一般に、本発明によるシステムおよびプロセスには、場面を構成する複数の画像間で対応するポイントを特定する操作が含まれる。通常、これは図２のハイレベル（ｈｉｇｈ−ｌｅｖｅｌ）流れ図に示すように、以下のプロセス操作によって実現する。まず、画像ごとにさまざまな解像度で関心ポイントが特定される（プロセス操作２００）。関心ポイントは、画像内の位置がそのポイントを中心とするあらかじめ指定されたサイズのピクセル近傍内のピクセルに起因する（ａｔｔｒｉｂｕｔａｂｌｅ）少なくとも１つのプロパティで定義されるポイントである。さらに、個々の関心ポイントはそのポイントを中心とするピクセル近傍内のピクセルに起因する少なくとも１つのプロパティ（ポイントの位置の定義に使用したプロパティと同じでもよいし、別のプロパティでもよい）に基づいて一意の向きを割り当てることのできるポイントである。この第２の近傍は、ポイントの位置の定義に使用したものと同じ所定のサイズの近傍でもよいし、別のサイズの近傍でもよい。

関心ポイントが特定されると、プロセス操作２０２で関心ポイントごとに記述子が確立する。この記述子は、画像の位置、向き、スケールの変化に対しても、このポイントの位置と向きを定義するためのピクセルの輝度の変化に対しても、実質的に不変である形で各ポイントを特徴付ける。次に、画像間で実質的に一致する記述子の集合が特定される（プロセス操作２０４）。最終的に、プロセス操作２０６で、一致する記述子の集合に関連付けられた、さまざまな画像に表示される関心ポイントは、対応するポイント（つまり、場面の同じ要素を表すポイント）として指定される。

まず、前述のフィーチャ記述子で表される不変のフィーチャの新しいクラス（一般に、輝度値のバイアス／ゲイン標準化パッチ（ｂｉａｓ／ｇａｉｎｎｏｒｍａｌｉｚｅｄｐａｔｃｈｏｆｉｎｔｅｎｓｉｔｙｖａｌｕｅｓ）である）について説明し、続いてフィーチャマッチングスキーマについて説明する。

２．１マルチスケール指向（Ｍｕｌｔｉ−ＳｃａｌｅＯｒｉｅｎｔｅｄ）のフィーチャ
マルチスケールの有向フィーチャは、４つの幾何学的なパラメータと２つの光度測定のパラメータによって特徴付けられる。幾何学的なパラメータは、ｔ１、ｔ２、θ、ｌ、すなわち画像内の領域またはパッチの中心の位置ｘ、ｙ、向き、スケールである。光度測定のパラメータは、α、β、すなわちパッチのゲインとバイアスである。こうした表現が指定されると、パッチのマッチングを行う６パラメータの場面プルなモデルが採用され、正しい一致と誤った一致に関するノイズ統計が分析される。これで、フィーチャごとのアウトライアの距離に基づく場面プルな一致検証手順が得られる。より詳細には、対応する画像パッチ間の変換は次のように表される。
Ｉ’（ｘ’）＝αＩ（ｘ）＋β＋ｅ（１）

ただし、ｘ’＝Ａｘ＋ｔ、

である。エラーｅは画像ングのノイズとモデリングのエラーを表す。

フィーチャの中心の位置ｘ、ｙは、この変換が適切に定義された（ｗｅｌｌｄｅｆｉｎｅｄ）ポイント、すなわちＩ（ｘ）の自動相関（ａｕｔｏｃｏｒｒｅｌａｔｉｏｎ）がピークに達しているポイントに一致すると考えられる。こうしたポイントの候補は、関心ポイントと呼ばれる。フィーチャを比較するために、原則的に２つの画像の位置ト同士の変換パラメータの最尤推定値を計算できる。ガウスのノイズ（Ｇａｕｓｓｉａｎｎｏｉｓｅ）を想定すると、非線形最小二乗問題を解くことでこの操作を繰り返し実行できる。ただし、効率を上げるために、各フィーチャを前述のモデルの不変要素で特徴付け、２つのフィーチャ間のモデルパラメータに関する閉じた形の近似を使用してもよい。エラーｅに関する統計を使用して、一致が正しいか誤りかを検証できる。

２．１．１関心ポイント
画像内には位置と向きの両方で特徴付けできる多くのポイントが存在するが［１７］、本システムおよびプロセスの試験済みの実施形態について選択した関心ポイントは、いわゆるハリスのコーナーに関連付けられる。こうしたハリスのコーナーに一致する関心ポイントは、次のようにして検出される。入力画像Ｉ（ｘ，ｙ）のそれぞれについて、低レベルのＰ_０（ｘ，ｙ）＝Ｉ（ｘ，ｙ）と、以下のように高レベルのスムージングと二段抽出（ｓｕｂｓａｍｐｌｉｎｇ）の操作に関連するによって画像ピラミッドが構成される。

ｌはピラミッドのレベル、ｇ_σ（ｘ，ｙ）は標準偏差σのガウスカーネルを表す。二段抽出率（ｓｕｂｓａｍｐｌｉｎｇｒａｔｅ）ｓ＝２とピラミッドスムージングσ_ｐ＝１．０は、このピラミッド構成手順の試験済みの実施形態に適切に採用されている。ただし、一般にはｓとして約１．１から３．０までの値を使用し、σ_ｐとして約０．５５から１．５までの値を使用する。関心ポイントは、ピラミッドの各レベルから抽出される。レベル１と位置（ｘ，ｙ）のハリス行列（Ｈａｒｒｉｓｍａｔｒｉｘ）は、次のようにスムージングされた勾配（ｇｒａｄｉｅｎｔｓ）の外積である。

ただし、∇_σは以下のようにスケールσでの空間微分（ｓｐａｔｉａｌｄｅｒｉｖａｔｉｖｅ）である。
∇_σｆ（ｘ，ｙ）∇ｆ（ｘ，ｙ）＊ｇ_σ（ｘ，ｙ）（４）

試験済みの実施形態において、積分（ｉｎｔｅｇｒａｔｉｏｎ）スケールはσ_ｉ＝１．５に設定され、微分スケールσ_ｄ＝１．０に設定された。以下のコーナー検出関数が使用された。

これは、Ｈの固有値（λ１、λ２）の調和平均である。試験済みの実施形態において、関心ポイントはコーナー強度ｆ_ＨＭ（ｘ，ｙ）は周囲の近傍の局所的な最大値であり、しきい値１０．０を超えている。ただし、一般にはσ_ｉとして約０．５から２．５までの値を使用でき、σ_dとして約０．５から２．５までの値を使用できる。しきい値は０以上の任意の値でよいことに留意されたい。前述の周囲の近傍のサイズについて簡単に説明する。

前述の関心ポイント検出関数選択の理由は、Ｈと局所相関関数との関係によって理解できる。画像Ｉ（ｘ）に関して、１次テーラー展開（Ｔａｙｌｏｒｅｘｐａｎｓｉｏｎ）によって以下の局所的な自動相関が得られる。

関心ポイントは、自動相関関数のピークに位置する。これは、すべての単位ベクトルｕについてｅ（ｕ）が大きいことを意味する。つまり、Ｈの両方の固有値が大きいという要件と同等である。

関心ポイントの位置を検出するには、調和平均関数（ｈａｒｍｏｎｉｃｍｅａｎｆｕｎｃｔｉｏｎ）以外のコーナー検出関数も使用できることに留意されたい。たとえば、いわゆるハリスの関数（すなわち、ｆ_Ｈ＝λ_１λ_２−０．０４（λ_１＋λ_２）^２＝ｄｅｔＨ−０．０４（ｔｒＨ）^２）とシャイ−トマシの関数（すなわち、ｆ_ＳＴ＝ｍｉｎ（λ_１，λ_２））を代用してもよい。図３では、調和平均の関心ポイント検出関数のアイソコンター（ｉｓｏｃｏｎｔｏｕｒ）をその他の関数のアイソコンターとを比較している。すべての検出関数において、２つの固有値が大きいことが要求される。予備試験（Ｐｒｅｌｉｍｉｎａｒｙｅｘｐｅｒｉｍｅｎｔｓ）により、３つの検出機能のそれぞれは概ね同じ性能を示すので、ほとんど同様に利用できることがわかっている。

２．１．１．１適応非極大抑制（ＡｄａｐｔｉｖｅＮｏｎ−ＭａｘｉｍａｌＳｕｐｐｒｅｓｓｉｏｎ）
計算上の問題により、画像ごとに固定数の関心ポイントを生成するのが望ましい。画像内で空間的に適切に分散する関心ポイントを選択するために、適応非極大抑制の戦略を利用できる。より詳細には、関心ポイントはコーナー強度ｆ_ＨＭに基づいて抑制され、半径ｒピクセルの近傍内で最大のもののみが保持される。画像からほぼ一定数ｎ_ｉｐの関心ポイントを抽出するために、非極大抑制半径ｒを検索できる。試験済みの実施形態において、初期値ｒ＝ｒ_ｉｎｉｔ＝４．０を使用する。ただし、これはほぼ１から１５までの範囲である。ここで、各画像からｎ_ｉｐを超えない関心点が抽出されるような連続する整数値がｒの最大値として検索される。試験済みの実施形態ではｎ_ｉｐ＝５００である。ただし、一般にこの値は画像のサイズと状態（ｎａｔｕｒｅ）によって、最小で約１０から最大で数千に及ぶ。前述の方法で関心ポイントを空間的に分散すると、最大のコーナー強度に基づいて選択するのとは対照的に、画像の一致の脱落が少なくなる。

２．１．１．２サブピクセルの精度
２次元の正方形を局所的な近傍内のコーナー強度関数に適合させ、その最大値を検出することで、関心ポイントをサブピクセルの精度で配置し、よりよい結果を得ることができる。より詳細に記述すると以下のようになる。

ただし、ｘは位置（ｘ，ｙ）を表し、ｆ（ｘ）＝ｆ_ＨＭ（ｘ）はコーナー強度の測定値である。試験済みの実施形態では、３ｘ３の近傍が使用された。以下のように、ピクセルの相違を使用して３ｘ３の近傍から微分が計算される。

したがって、サブピクセル位置のコンポーネントｘとｙは次のように計算される。

繰り返し精度は、変換された位置がある許容値まで正しい関心ポイントの割合として定義できる。前述の手順を使用してサブピクセルの局所化を行った場合と行わない場合の関心ポイントの繰り返し精度を図４に示す。サブピクセルの局所化によって繰り返し精度は約５％向上することに注目されたい。

２．１．２向き
各関心ポイントには向きθがある。ただし、向きベクトル

は次に示すスムージングされた局所的な勾配から得られる。

試験済みの実施形態で使用した向きの積分スケールは、σ_ｏ＝４．５である。動きのフィールド（ｍｏｔｉｏｎｆｉｅｌｄ）ｕｌ（ｘ，ｙ）が画像全体でスムーズに変化し、向きの評価が関心ポイント位置のエラーに左右されないようにするために、大きな微分スケールが望ましい。ただし、一般に向きの積分スケールは約２．０から７．０までである。

本システムおよびプロセスの試験済みの実施形態ではぼかし局所勾配（ｂｌｕｒｒｅｄｌｏｃａｌｇｒａｄｉｅｎｔ）のアプローチを使用して個々の関心ポイントの向きを確定したが、その他の方法を利用してもよい。たとえば、向きを測定する方法には行列Ｈの勾配ヒストグラムまたは固有ベクトルの最大値を使用する方法がある。

２．１．３記述子ベクトル
向きのある関心ポイント（ｘ，ｙ，ｌ，θ）のそれぞれについて、記述子領域は検出スケールで（ａｔｔｈｅｄｅｔｅｃｔｉｏｎｓｃａｌｅ）サイズｐｘｐピクセルのベクトルのパッチである。パッチは、中心が（ｘ，ｙ）、向きが角度θである。このｐｘｐの記述子領域から、サイズｄｘｄピクセルの記述子ベクトルが構成される。試験済みの実施形態ではｐ＝４０、ｄ＝８である。ただし、一般にｐは画像サイズの約０．１から１０％であり、ｄはつり合いのとれる値である。図６に山の場面を示す。ここでは、ピークの頂上にある関心ポイントに関連付けられた記述子領域が白いボックスで示されている。関心ポイントの位置をボックスの中心の白いドットで示しており、関心ポイントから伸びる線でこのポイントに割り当てられた向きを示している。図７は、図６の記述子領域から構成される８ｘ８の記述子を示す図である。関心ポイントと向きを表すラインは、この図でも白で示されている。

サンプリング時のエイリア場面グ／ブラーリングを回避するために、記述子はピラミッドレベルでサンプリングされる。これは、概ねピクセルあたり１度のサンプリングになる。これを実行する１つの方法は、検出スケールを超えるレベルｌ_ｓのレベルから記述子をサンプリングすることである。

記述子ベクトルは、双線形補間を使用してサンプリングされる。

たとえば、試験済みの実施形態ではｐ＝４０、ｄ＝８、ｓ＝２であるが、ｌ_ｓ＝２レベルから記述子をサンプリングする。ただし、関心ポイントはレベルｌで検出されたと仮定する。これで、

から記述子をサンプリングすることになる。ただし、代わりにｐ’ｌ＋１（ｘ，ｙ）（ただし

、すなわちブラーリングはするがダウンサンプリング（ｄｏｗｎｓａｍｐｌｉｎｇ）はしない）からサンプリングする別の手順を使用すると、よりよい結果を得られる。さらに、小さなゲインでも、

からのサンプリングによって作成される。

２．１．３．１標準化
次に、記述子ベクトルは以下のように平均が０で標準偏差が１になるように標準化される。
ｄ_ｉ＝（ｄ’_ｉ−μ）／σ （１２）

ただし、ｄ’_ｉ、ｉε｛１．．ｄ^２｝は記述子ベクトルの要素であり、

、

である。これで、フィーチャはアフィン変換に対して強度（バイアスとゲイン）が不変になる。

２．１．３．２ハールのウェーブレット変換（Ｗａｖｅｌｅｔ．Ｔｒａｎｓｆｏｒｍ）
最後に、ｄｘｄの記述子ベクトルｄ_ｉ上でハールの変換が実行され、ウェーブレット係数ｃ_ｉを含むｄ^２次元の記述子ベクトルを構成する。ハールのウェーブレットの直交性プロパティにより、距離が維持される（以下）。

したがって、２乗和の差の意味で最近傍は変更されない。ただし、この後で（ｓｈｏｒｔｌｙ）説明するインデックス戦略には、最初の３つの非ゼロウェーブレット係数ｃ_１、ｃ_２、ｃ_３が使用される。

２．１．４記述子生成プロセスの概要
関心ポイントを定義するハリスのコーナーフィーチャと、各フィーチャの向きを確定するぼかし局所勾配のアプローチを使用した本システムおよびプロセスの実施形態に従って関心ポイントごとに記述子を生成する技術に関する以上の説明は、図５Ａ〜Ｃのプロセス流れ図に要約される。このプロセスは、画像内の関心ポイントを特定する操作で開始される。より詳細には、画像ごとに画像解像度のピラミッドを構成する（プロセス操作５００）。次に、まだ選択されていないピラミッドレベルを選択し（プロセス操作５０２）、選択したレベルで個々のハリスのコーナーの位置を特定する（プロセス操作５０４）。次に、まだ選択されていないハリスのコーナーの１つを選択し（プロセス操作５０６）、コーナーの位置を表す関心ポイントを中心とした所定の最小近傍半径のピクセル近傍内で、選択したコーナーのコーナー強度が局所的な最大値かどうかを判断する（プロセス操作５０８）。選択したコーナーのコーナー強度が局所的な最大値の場合は、さらにこのコーナー強度が所定の最小強度しきい値を超えるかどうかを判断する（プロセス操作５１０）。その場合は、選択したコーナーをコーナーの候補として指定し（プロセス操作５１２）、他のコーナー（ある場合）について考察する。一方、コーナー強度が局所的な最大値でない場合、またはコーナー強度が所定の最小強度しきい値を超えないことが確認された場合は、選択したコーナーを考察の対象から除外し、他のコーナー（ある場合）について考察する。このように、いずれの場合も次の操作では考察対象としてまだ選択されていないコーナーがあるかどうかを判断する（プロセス操作５１４）。考察するコーナーが残っている場合は、前述のプロセスをプロセス操作５０６から繰り返す。それ以外の場合、プロセスはプロセス操作５１６に進み、ここで最後に使用した近傍半径を所定の整数値だけ増分する（たとえば１ずつ）。ここで、コーナーの候補のそれぞれについて、前述のスクリーニング手順を繰り返す。具体的には、まだ選択されていないコーナーの候補を選択し（プロセス操作５１８）、そのコーナー強度が現在の近傍半径の値で定義されるピクセル近傍内の局所的な最大値かどうかを判断する（プロセス操作５２０）。選択したコーナー候補のコーナー強度が局所的な最大値の場合は、さらにそれが所定の最小強度しきい値を超えるかどうかを判断する（プロセス操作５２２）。その場合は、選択したコーナーを引き続きコーナーの候補として指定し（プロセス操作５２４）、他のコーナー（ある場合）について考察する。一方、コーナー強度が局所的な最大値でない場合、またはコーナー強度が所定の最小強度しきい値を超えないことが確認された場合は、選択したコーナー候補を考察の対象から除外し、他のコーナー候補（ある場合）について考察する。このように、いずれの場合も次の操作では考察対象としてまだ選択されていないコーナー候補があるかどうかを判断する（プロセス操作５２６）。考察するコーナーが残っている場合は、前述のプロセスの一部がプロセス操作５１８から繰り返される。考察するコーナーが残っていない場合は、次に引き続きコーナー候補として指定されているコーナーの数がまだ所定の最大許容値を超えるかどうかを判断する（プロセス操作５２８）。コーナー候補の最大許容値を超える場合は、コーナー候補の数が最大許容値以下になるまで、必要に応じてプロセス操作５１６から５２８を繰り返す。

許容数のコーナー候補が残ると、プロセスは残っているコーナー候補のそれぞれの位置を定義するポイントを考察対象の画像の関心ポイントとして指定する操作に進む（プロセス操作５３０）。次に、まだ選択されていない関心ポイントを選択し（プロセス操作５３２）、その位置を調整する。より詳細には、プロセス操作５３４で関心ポイントの位置を、選択したポイントを中心とする所定のサイズの局所的な近傍に適合する２次元の正方形（２Ｄｑｕａｄｒａｔｉｃ）の面で最大強度を示す「位置」として指定する。

選択した関心ポイントの調整された位置が確定した場合は、このポイントの向きを指定する（プロセス操作５３６）。前述のように、本発明の試験済みの実施形態において、この操作はぼかし勾配のアプローチを使用して実している。次に、選択した関心ポイントの位置と向きを使用して、このポイントの記述子ベクトルを生成する。この操作を実行するためには、まず関心ポイントの位置を中心とする関心ポイントと同じ向きを向いた所定のサイズｐｘｐの記述子領域（またはパッチ）を確立する（プロセス操作５３８）。ここで、前述のように、強度の値をサンプリングする双線形補間を使用して記述子領域から所定のサイズｄｘｄの小規模な記述子ベクトルが構成される（プロセス操作５４０）。次に、この記述子ベクトルを標準化し（プロセス操作５４２）、ハールのウェーブレット変換を実行する（プロセス操作５４４）。変換された記述子ベクトルは、選択した関心ポイントの記述子を表す。ここで、まずまだ選択されていないコーナー候補が残っているかどうかを判断し、他の関心ポイントについてこのプロセスを実行する（プロセス操作５４６）。ある場合は、すべての関心ポイントが関連の変換コンポーネントされた記述子ベクトルを備えるまで、必要に応じてプロセス操作５３２から５４６を繰り返す。

最後に、まずまだ選択されていないピラミッドレベルが残っているかどうかを判断し、画像ピラミッドの他のすべての解像度レベルについて記述子生成プロセスを繰り返す（プロセス操作５４８）。残っている場合は、必要に応じてプロセス操作５０２から５４８を繰り返す。完了すると、画像ピラミッド各レベルの関心ポイントのそれぞれについて、変換された記述子ベクトルが関連付けられている。前述のようにして特定された関心ポイントの向きを計算し、変換された記述子ベクトルを生成する代わりに、別のアプローチとして、バッチ方式ですべての関心ポイントを特定し、その向きを指定し、変換された記述子ベクトルを生成することもできる。

２．２フィーチャマッチング
場面の画像の集合に属するｎ個すべての画像から抽出されたマルチスケールの有向パッチが与えられた場合に、フィーチャマッチングの目標はすべての画像間で幾何学的に一貫した一致を検出することである。このタスクを実行するには、まずフィーチャマッチングの確率モデルを開発する。このモデルから、フィーチャの一致を検証するための場面プルな拘束条件が得られる。これは「アウトライアの距離に基づく拘束条件」と呼ばれる。さらに、アウトライアの距離に基づく拘束条件と同時に、またはその代わりとして幾何学的拘束条件を適用してアウトライアを除去し、画像の一致を検出することもできる。

２．２．１フィーチャマッチングのための確率モデル
トレーニングデータから正しい一致と誤った一致のエラーの分布ｐ（ｅ_{ｉｍａｇｅ}）を計算し、これを使用して特定のフィーチャの一致

が正しいか誤りかを確率的に判断できることが理想的である。

ただし、画像ベースのエラー、
ｅ_{ｉｍａｇｅ}＝｜Ｉ’（ｘ’）−（αＩ（ｘ）＋β）｜（１４）
は、フィーチャの一致が正しいか誤りかを判断するための評価基準（ｍｅｔｒｉｃ）として適切ではない。実際に、｜ｅ_{ｉｍａｇｅ}｜の値は正しい一致の場合と誤った一致の場合とで区別がない場合が多いので、一致が正しいか誤りかを判断するためのしきい値をとして｜ｅ_{ｉｍａｇｅ}｜を指定できないことがわかっている。

コントラスト（ｃｏｎｔｒａｓｔ）の変化によるパッチの最近傍の一致に関連するエラーも問題である。正しい一致のエラーと誤った一致のエラーとの間には常に明らかな差があり、エラーのスケールは著しく変動することがわかっている。特に、コントラストの高いパッチではエラーが大きく、コントラストの低いパッチではエラーが小さい。したがって、コントラストの低いパッチが含まれる場合は、正しい一致と誤った一致の区別が難しくなる。

考えられるソリューションの１つは、コントラストに関してパッチを標準化することである。これは、フィーチャ空間におけるエラーの計算（以下）と同等である。

ｅ_{ｆｅａｔｕｒｅ}の分布は正しい一致と誤った一致でより異なっているが、明らかなしきい値はない。したがって、一致のエラーのサイズは単に比較する問題ではないと思われる。高周波数コンテンツ（ｈｉｇｈｆｒｅｑｕｅｎｃｙｃｏｎｔｅｎｔ）も重要であると考えられている。たとえば、勾配の大きなフィーチャは位置決め不良によるエラーが大きい。

ただし、個々のフィーチャベースでは、正しい一致と誤った一致に対応するフィーチャ距離の二峰性分布が存在することがわかっている。実際に、誤った一致のクエリ（ｑｕｅｒｙ）からの距離はほとんど一定であると思われる。この現象は、シェルプロパティ（ｓｈｅｌｌｐｒｏｐｅｒｔｙ）として知られる高次元空間のプロパティに関連付けられると考えられる。

高次元では、超球の体積（ｖｏｌｕｍｅｏｆａｈｙｐｅｒｓｐｈｅｒｅ）のほとんどは外側のシェルに集中している。つまり、ガウス分布のような一般的な分布では、確率質量（ｐｒｏｂａｂｉｌｉｔｙｍａｓｓ）のほとんどは外側のシェルに位置する。ｄ次元超立方体内に一様に分布するポイントの集合について考察する。中心から距離ｒの範囲内にある点の数は、空間の境界に達するまでｒ^ｄで増大し、境界に達すると急速に減少する。ｄが増大すると、ほとんどすべてのポイントが特定のクエリポイントから同じ距離にある、つまりクエリから一定の距離にある薄いシェル内に存在することになる。ただし、この距離の値は空間内のクエリポイントの位置によって変わることに留意されたい。たとえば、端に近いポイントは中心のポイントより距離が大きい。

ローが提案するように［１１］、第１の最近傍（１−ＮＮ）の距離に基づくしきい値は信頼できないが、第１の最近傍の距離と第２の最近傍の距離の比ｅ_１−ＮＮ／ｅ_２−ＮＮは、一致が正しいかどうかを判断するための適切な評価基準である。マルチ画像マッチングの場合は、複数の正しい一致が存在する可能性があるので、代わりに比ｅ_ｉ／ｅ_{ｏｕｔｌｉｅｒ}が検査される。ただし、ｅ_ｉは考察する一致の距離、ｅ_{ｏｕｔｌｉｅｒ}はアウトライアの距離である。フィーチャあたり最大ｋ個の一致ｉε｛１．．ｋ｝が存在すること、およびアウトライアの距離が最近傍ｋ＋１からｋ＋ｎ_ｏの平均の距離として計算されることが仮定される。ベイズ（Ｂａｙｅｓ）の決定規則（ｄｅｃｉｓｉｏｎｒｕｌｅ）を使用して一致を次のように分類できる。
Ｐ_{ｃｏｒｒｅｃｔ}（ｅ／ｅ_{ｏｕｔｌｉｅｒ}）＞Ｐ_{ｉｎｃｏｒｒｅｅｔ}（ｅ／ｅ_{ｏｕｔｌｉｅｒ}）（１６）

これで、次の場合にフィーチャの正しい一致が区分されることになる。
ｅ＜０．６５ｘｅ_{ｏｕｔｌｉｅｒ} （１７）

これは「アウトライアの距離に基づく拘束条件」と呼ばれる。最適なｅ_{ｏｕｔｌｉｅｒ}の計算方法に関する問題が残る。

σ’ｘｅ_{ｆｅａｔｕｒｅ}＝ｅ_{ｉｍａｇｅ}なので、アウトライアの距離を基準とする相対的な距離はフィーチャ空間内では画像ベースの距離と同じである。したがって、フィーチャ空間画像の距離を比較し、アウトライアの距離に基づく拘束条件を適用するだけでよく、ペアごとにα、βを計算する必要がないという利点がある。

２．２．２アウトライア除去を使用したフィーチャマッチング
フィーチャマッチング手順は、事前に計算された記述子ベクトルのそれぞれへの最近傍の高速近似で開始される。こうした最近傍ベクトルは、画像間で一致するポイントの候補を表している。次に、本フィーチャマッチング技術の試験済みの実施形態では、２段階のアプローチを使用して誤った一致を除去する。具体的には、前述のアウトライアの距離に基づく拘束条件を使用して誤った一致ポイントを除去する非幾何学的なアウトライア除去技術を使用する。最終的に、標準の幾何学的アウトライア除去技術を使用して、まだ誤った一致ポイントが残っている場合はさらにこれを除去する。ただし、前述のように、要求される精度や本フィーチャマッチング技術を採用するシステムの処理上の制限によっては、こうしたアウトライア除去技術のいずれかを省略してもよい。

２．２．２．１ウェーブレットインデックスを使用した高速近似最近傍（ＦａｓｔＡｐｐｒｏｘｉｍａｔｅＮｅａｒｅｓｔＮｅｉｇｈｂｏｒｓ）
すべての画像からフィーチャを抽出し、それぞれをフィーチャ空間内のｋ個の近似最近傍にマッチングする。高速近似最近傍の計算は、ハッシュテーブルを使用してフィーチャにインデックス付けすることで実行される。ハッシュテーブルは３次元であり、各次元は最初の３つの非ゼロウェーブレット係数ｃ_１、ｃ_２、ｃ_３に対応する。こうした値は、パッチの

の推定値である。試験済みの実施形態ではｋ＝４であり、ハッシュテーブルは次元あたりｂ＝１０個のビンを備えている（各次元の平均からの標準偏差±ｎ_σ＝３を対象とする）。ビンは半分が重複しているので、ビンの幅

の

の範囲内のデータは一致することが保証される。真の最近傍は３つの次元のいずれかの外側

に存在する可能性がある（ただし、確率は低い）ので、これらは近似最近傍である。個々の記述子ベクトルをビン内のすべてのフィーチャとマッチングし、ｋ個の近似最近傍を選択する。ここで、次に説明するように、アウトライアの距離に基づく拘束条件を使用して正しい一致が検証され、アウトライアが除去される。フィーチャ間の距離を使用して最近傍を決定することに留意されたい。試験済みの実施形態において、こうした距離は６４次元のフィーチャベクトルの二乗差の和で求められる。

２．２．２．２アウトライアの距離に基づく拘束条件を使用したアウトライア除去
誤った一致はほとんどすべてについてクエリポイントからの距離（アウトライアの距離）がほぼ同等であるが、正しい一致は画像ングと検出のノイズによってのみ異なるので、前述のシェルプロパティをアウトライア除去戦略の基準として利用できる。アウトライアの距離を推定する１つの方法として、各画像の２−ＮＮ距離の平均値または最小値に一致させることが考えられる。計算したアウトライアの距離から、アウトライアの距離に基づく拘束条件を使用して誤った一致の数を削減できる。より詳細には、考察対象ベクトルの最近傍の１つとして検出されたベクトルの考察対象ベクトルからの距離がアウトライアの距離の６５％以内にある場合は、このベクトルは一致ポイントに関連付けられていると見なされる。ベクトルの距離がアウトライアの距離の約６５％を超える場合、このベクトルに対応するポイントは一致ポイントとは見なされない。

２．２．２．３幾何学的拘束条件を使用したアウトライア除去
アウトライアの距離に基づく拘束条件を使用して一致の候補が調整された場合は、一致に関する幾何学的拘束条件を使用して一致をさらに調整することができる。基本的に、このためには、残っている一致ポイントが場面の画像に実際に対応するかどうかを標準的な方法で判断する操作が必要である。画像が１つのポイントから取得され、場面が静的な場合は、パノラマ式の運動モデル（ｐａｎｏｒａｍｉｃｍｏｔｉｏｎｍｏｄｅｌ）（ホモグラフィー（ｈｏｍｏｇｒａｐｈｙ））が適している。画像が移動カメラから取得され、場面が静的な場合は、完全な３次元運動モデル（ｆｕｌｌ３Ｄｍｏｔｉｏｎｍｏｄｅｌ）（基本行列（ｆｕｎｄａｍｅｎｔａｌｍａｔｒｉｘ））が適している。複数のオブジェクトまたは移動するオブジェクトを扱うより複雑な運動モデルを開発してもよい。自動パノラマステッチでは、［６］に示すようにパノラマ式の運動モデルと確率モデルによるマッチングを選択するのが適切である。１つの画像内のポイントが場面の同じ要素を表す別の画像内のポイントと実際に一致しないと判断した場合は、このポイントが一致ポイントの集合から除去される。

２．２．３フィーチャマッチングプロセスの概要
３次元ハッシュテーブルと少なくとも一部はアウトライアの距離に基づく拘束条件に基づくアウトライア除去とを使用した本システムおよびプロセスの実施形態に従って、場面の一連の画像間で対応するポイントを特定するフィーチャマッチング技術に関する以上の説明は、図１１のプロセス流れ図に要約される。このプロセスは、変換された記述子ベクトルのそれぞれを、フィーチャ空間におけるその所定の数の最近傍とマッチングする操作で開始される。より詳細には、変換された個々の記述子ベクトルの最初の３つの非ゼロウェーブレット係数から３次元ハッシュテーブルを生成する（プロセス操作１１００）。前述のように、本フィーチャマッチング手順の試験済みの実施形態において、ハッシュテーブルは次元あたり１０個のビンを備えており、各ビンの範囲は半分が重複する。ここで、ハッシュテーブルの各ビン内にある３係数ベクトル間の距離を計算する（プロセス操作１１０２）。次に、記述子ベクトルのそれぞれについて、こうした距離を使用して、考察対象のベクトルと同じ画像内にはないが同じビンに含まれるその所定の数の最近傍を特定する（プロセス操作１１０４ａ）。ここで、フィーチャマッチング技術の別の実施形態では、次の操作１１０４ｂをプロセス操作１１０４ａで置き換えていることに注目する。すなわち、記述子ベクトルのそれぞれについて、その他の各画像から同じビン内の最近傍を所定の最大数まで特定する。操作１１０４ａと１１０４ｂが交換可能であることは、図１１の破線のボックスで示されている。

各記述子ベクトルの最近傍が特定された場合は、まだ選択されていないベクトルを選択する（プロセス操作１１０６）。これで、関連の関心ポイントが選択したベクトルに関連する関心ポイントに実際に対応しない選択したベクトルの最近傍記述子ベクトルは考察の対象から外される。より詳細には、本フィーチャマッチング技術の試験済みの実施形態において、この操作は前述のように２段階で実行される。第１段階（プロセス操作１１０８）は、アウトライアの距離に基づく拘束条件を使用したアウトライア除去と呼ばれており、対応しない可能性の高いポイントを除去する迅速な手順である。第２段階（プロセス操作１１１０）は、アウトライアの距離に基づく拘束条件を使用したアウトライア除去と呼ばれており、対応しない可能性の高いポイントを除去する迅速な手順である。ただし、第１段階で多くの誤った一致が除去されると、第２段階の処理の必要性は最小になる。本質的に、第２段階の幾何学ベースのアウトライア除去手順では、２つの画像間ですべてのポイントの最適なマッチングを行う変換を検出する操作と、変換したときに特定の許容範囲内に対応しないポイントを除去する操作が実行される。図８Ａと８Ｂは、アウトライア除去プロセスの効果（ｖａｌｕｅ）の例を示している。２つの図は、共通する部分のある２つの山の場面を示しており、アウトライア除去プロセスを実行する前に特定された画像間の対応する位置を白いドットで示している（５８７個の一致）。図９Ａおよび９Ｂは、図８Ａおよび８Ｂと同じ画像を示しており、それぞれ、アウトライアの距離に基づく拘束条件を使用したアウトライア除去技法を適用した後である。ここで２４２個のアウトライアが除去され、３４５個の一致が残っている。図１０Ａおよび１０Ｂは、図９Ａおよび９Ｂと同じ画像を示しており、それぞれ幾何学ベースのアウトライア除去技法を適用した後である。さらに３４のアウトライアが特定されて除去され、最終的に画像間で合計３１１個の対応するポイントが残っている。

本フィーチャマッチング技術の特定の適用において、第１段階のアウトライア除去手順で十分に正しい結果が得られる場合は、必要に応じて第２段階を省略してもよい。逆に、処理コストが問題でない場合は、第２段階の幾何学ベースのアウトライア除去手順を単独で使用し、第１段階を省略してもよい。

第１のアウトライア除去手順に関して、試験済みの実施形態ではこのためにまず選択した記述子ベクトルとその最近傍との距離を計算する操作を実行し、次に選択した記述子ベクトルとそのいずれかの最近傍との距離がアウトライアの距離の約６５％以上であるかどうかを判断する操作を実行する。最近傍ベクトルから選択されたベクトルまでの距離がアウトライアの距離の約６５％以上であると判断した場合は、必ず選択されたベクトルに関連付けられた関心ポイントを表す考察の対象からこれを除外する。

アウトライア除去手順が完了すると、選択したベクトルの最近傍として特定された記述子ベクトルに関連付けられており、考察の対象から外されていない関心ポイントのそれぞれは、選択されたベクトルに関連付けられた関心ポイントに対応するポイントとして指定される（プロセス操作１１１２）。次に、その他の記述子ベクトルのそれぞれについて前述のプロセスを実行し、まずまだ選択されていないベクトルが残っているかどうかを判断し、その他の画像内の対応するポイントを特定する（プロセス操作１１１４）。残っている場合は、すべてのベクトルが処理されるまで、必要に応じてプロセス操作１１０６から１１１４を繰り返す。すべてのベクトルが選択され、処理されると、手順は終了する。

３．０参考文献

本発明を実装するための例示的なシステムを構成する汎用コンピューティングデバイスを示す図である。本発明による、同じ場面の複数の画像間で対応するポイントを特定するプロセス全体を示す流れ図である。調和平均の関心ポイント検出関数のアイソコンター（ｉｓｏｃｏｎｔｏｕｒ）とハリス関数およびシャイ−トマシ（Ｓｈｉ−Ｔｏｍａｓｉ）関数のアイソコンターとを比較するグラフである。サブピクセルの局所化を行った場合と行わない場合の関心ポイントの反復性を示すグラフである。本発明に従って、記述子ベクトルを生成するプロセスを示す流れ図である。本発明に従って、記述子ベクトルを生成するプロセスを示す流れ図である。本発明に従って、記述子ベクトルを生成するプロセスを示す流れ図である。山の場面の画像を示す図である。ピークの頂上にある関心ポイントに関連する記述子領域を白いボックスで示し、関心ポイントの位置をボックスの中心の白いドットで示しており、関心ポイントから伸びる線でこのポイントに割り当てられた向きを示している。図６の記述子領域から構成される８ｘ８の記述子を示す図である。共通する部分のある２つの山の場面を示す図である。アウトライア除去プロセスを実行する前に特定された画像間の対応する位置は、白いドットで示されている。共通する部分のある２つの山の場面を示す図である。アウトライア除去プロセスを実行する前に特定された画像間の対応する位置は、白いドットで示されている。図８Ａと同じ画像を示す図である。アウトライアの距離に基づく拘束条件を採用したアウトライア除去技法を適用した後である。図８Ｂと同じ画像を示す図である。アウトライアの距離に基づく拘束条件を採用したアウトライア除去技法を適用した後である。図９Ａと同じ画像を示す図である。幾何学ベースのアウトライア除去技法を適用した後である。図９Ｂと同じ画像を示す図である。幾何学ベースのアウトライア除去技法を適用した後である。図５Ａ〜図５Ｃによって生成された記述子ベクトルを使用して、場面の画像間の対応するポイントを検出するプロセスを示す流れ図である。

符号の説明

１４１ハードディスクドライブ
１５１磁気ディスクドライブ
１５５光ディスクドライブ
１９３一連の画像

Claims

場面の複数の画像間で対応するポイントを特定するための、コンピュータに実装するプロセスであって、コンピュータを使用して、
各画像内の関心ポイントをさまざまな解像度で特定するプロセス操作であって、前記ポイントを表す画像内の位置は、前記ポイントを中心とする第１の所定のサイズの最近傍内のピクセルに起因する少なくとも１つのプロパティで定義され、前記ポイントを中心とする第２の所定のサイズの最近傍内のピクセルに起因する少なくとも１つのプロパティに基づく一意の向きを割り当てられるプロセス操作と、
前記関心ポイントのそれぞれについて、画像の位置、向き、スケールの変化、および前記ポイントの位置と向きを定義するためのピクセルの輝度の変化に対して実質的に不変の形で各ポイントを特徴付ける記述子を生成するプロセス操作と、
前記画像間で実質的に一致する記述子を検出するプロセス操作と、
さまざまな画像内に表示される一致する記述子の各集合に関連付けられた前記関心ポイントを対応するポイントとして指定するプロセス操作とを備えることを特徴とするプロセス。
各画像内の関心ポイントを特定する前記プロセス操作は、画像ごとに、
画像解像度ピラミッドを構成する操作と、前記ピラミッドのレベルごとに、
コーナーフィーチャを代表する考察対象の画像内の位置を特定する操作と、
各コーナーフィーチャの前記向きを特定する操作と、
各コーナーフィーチャの前記特定された位置を個別の関心ポイントとして指定する操作と、
各コーナーフィーチャの前記特定された向きを前記フィーチャに関連付けられた前記関心ポイントに割り当てる操作とを備えることを特徴とする請求項１に記載のプロセス。
コーナーフィーチャを代表する考察対象の画像内の位置を特定する前記プロセス操作は、
各コーナーフィーチャの位置を特定する操作であって、前記コーナーフィーチャは前記位置を中心とする所定の最小近傍半径のピクセル近傍の局所的な最大値であるコーナー強度を示しており、所定の最小強度しきい値を超える操作と、
前記近傍半径を所定の整数値だけ増分し、前記前に特定された位置でコーナー強度が現在考察対象であるピクセル近傍でも依然として局所的な最大値であり、依然として前記所定の最小強度しきい値を超えている位置を特定する操作と、
前記特定された位置の数が所定の最大値を超えない範囲で増分と第２の特定の操作を繰り返す操作と、
残っている特定された位置のそれぞれを個別のコーナーフィーチャの代表として指定する操作とを備えることを特徴とする請求項２に記載のプロセス。
各コーナーフィーチャの前記特定された位置を個別の関心ポイントとして指定する前記プロセス操作は、考察の対象となる前記特定された位置を中心とする所定のサイズの局所的な近傍に適合する２次元の正方形（２Ｄｑｕａｄｒａｔｉｃ）の面で最大強度を示す位置を個々の関心ポイントの位置として指定する操作を備えることを特徴とする請求項２に記載のプロセス。
各コーナーフィーチャの前記向きを特定するプロセス操作は、ぼかし勾配のアプローチを使用して各コーナーフィーチャの向きを特定する操作を備えることを特徴とする請求項２に記載のプロセス。
各コーナーフィーチャはハリスのコーナーであることを特徴とする請求項２に記載のプロセス。
前記関心ポイントのそれぞれについて記述子を生成する前記プロセス操作は、
考察対象である前記関心ポイントの位置を中心とし、前記関心ポイントと同じ向きの所定のサイズｐｘｐの記述子領域を確立する操作と、
前記記述子領域から前記領域内のピクセル輝度値の双線形補間を使用してピクセルあたり約１度のサンプリングになるようにサンプリングした前記記述子領域より小さい所定のサイズｄｘｄの記述子ベクトルを構成する操作と、
前記記述子ベクトルを標準化する操作と、
前記記述子ベクトルに対してハールのウェーブレット変換を実行して変換ベクトルを生成する操作とを備えることを特徴とする請求項１に記載のプロセス。
前記画像間で実質的に一致する記述子を検出するプロセス操作は、前記変換された記述子ベクトルを、フィーチャ空間内の所定の数の最近傍とマッチングする操作を備えることを特徴とする請求項７に記載のプロセス。
前記変換された記述子ベクトルをマッチングする前記プロセス操作は、
各変換された記述子ベクトルの所定の数（ｎ個）のウェーブレット係数から３次元ハッシュテーブルを生成してｎ係数ベクトルのハッシュテーブルを構成する操作と、
前記ハッシュテーブルのビンのそれぞれについて、考察対象の前記ビン内で検出される個々のｎ係数ベクトル間の距離を計算する操作と、
ｎ係数ベクトルのそれぞれについて、前記同じビン内にあるが前記考察対象のベクトルと同じ前記画像には関連付けられていない前記計算された距離に基づいてその所定の数の最近傍を特定し、一致ベクトル候補の集合を構成する操作と、
前記一致ベクトル候補の集合のそれぞれに属する前記ベクトルに関連付けられた前記関心ポイントを、前記関連の画像内で前記場面の前記同じ要素を表す対応するポイントとして指定する操作とを備えることを特徴とする請求項８に記載のプロセス。
前記ハッシュテーブルは次元あたり１０個のビンを備えており、各ビンは半分の領域が重複することと、前記所定の数（ｎ個）のウェーブレット係数は３係数ベクトルのハッシュテーブルを構成する最初の３つの非ゼロ係数を備えることを特徴とする請求項９に記載のプロセス。
一致ベクトル候補の集合のそれぞれに属する前記ベクトル関連付けられた前記関心ポイントを対応するポイントとして指定する前記プロセス操作は、
一致ベクトル候補ベクトルのそれぞれについて、関連の関心ポイントが同じベクトル集合に属する別の３係数ベクトルに関連付けられた別の画像内の関心ポイントに実際には対応しない一致ベクトル候補として前記３係数ベクトルを考察対象から除外する操作と、
一致ベクトル候補の各集合内に残っている前記３係数ベクトルのそれぞれについて、前記ベクトルに関連付けられた前記関心ポイントを前記関連の画像内の対応するポイントとして指定する操作とを備えることを特徴とする請求項９に記載のプロセス。
一致ベクトルの集合のそれぞれについて、関連の関心ポイントが前記同じベクトル集合に属する別の前記３係数ベクトルに関連付けられた別の画像内の関心ポイントに実際に対応しない一致ベクトル候補として前記３係数ベクトルを考察対象から除去する前記プロセス操作は、
考察対象である一致ベクトルの集合のアウトライアの距離を計算する操作と、
任意の前記一致ベクトルについて計算した前記距離が前記アウトライアの距離の約６５％を超えるかどうかを判断する操作と、
一致ベクトルの距離が前記アウトライアの距離の約６５％を超えると判断した場合は、必ず前記ベクトルに対応するポイントとして関連付けられた前記関心ポイントを除外する操作とを備えることを特徴とする請求項１１に記載のプロセス。
一致ベクトルの集合のそれぞれについて、関連の関心ポイントが前記同じベクトル集合に属する別の前記３係数ベクトルに関連付けられた別の画像内の関心ポイントに実際に対応しない一致ベクトル候補として３係数ベクトルを考察対象から除去する前記プロセス操作は、
幾何学的アウトライア除去手順を実行する操作と、
アウトライアであると判断された対応するポイントとして任意のベクトルに関連付けられた関心ポイントを除外する操作とを備えることを特徴とする請求項１１に記載のプロセス。
前記変換された記述子ベクトルをマッチングする前記プロセス操作は、
変換された記述子ベクトルのそれぞれについて最初の３つの非ゼロウェーブレット係数から３次元ハッシュテーブルを生成して３係数ベクトルのハッシュテーブルを構成する操作と、
前記ハッシュテーブルの各ビンについて、考察対象の前記ビン内で検出される３係数ベクトルのそれぞれの間の前記距離を計算する操作と、
３係数ベクトルのそれぞれについて、考察対象の前記ベクトルに関連付けられた前記画像を除く各画像に個々に関連付けられた前記同じビン内で検出される前記最近傍を、前記計算された距離に基づいて画像ごとの所定の数まで特定し、一致ベクトル候補の集合を構成する操作と、
一致ベクトル候補の集合のそれぞれに属する前記ベクトルに関連付けられた前記関心ポイントを、前記関連の画像内で前記場面の前記同じ要素を表す対応するポイントとして指定する操作とを備えることを特徴とする請求項８に記載のプロセス。
前記ハッシュテーブルは次元あたり１０個のビンを備えており、さらに各ビンは半分の重複領域を備えることを特徴とする請求項１４に記載のプロセス。
前記第１と第２の所定のサイズの近傍が同じサイズであることを特徴とする請求項１に記載のプロセス操作。
場面の複数の画像間で対応するポイントを特定するシステムであって、
汎用コンピューティングデバイスと、
前記コンピューティングデバイスで実行可能なプログラムモジュールを備えるコンピュータプログラムであって、前記コンピューティングデバイスは前記コンピュータプログラムの前記プログラムモジュールによって指示されて、
各画像内の対応するポイントの候補を表す関心ポイントを特定する操作であって、各関心ポイントをピクセルの所定のプロパティによって構成されるパターンに基づいて割り当てられる位置と向きによって定義する操作し、
前記関心ポイントのそれぞれについて、画像の位置、向き、スケールの変化、および前記ポイントの位置と向きを定義するためのピクセルのバイアスとゲインの変化に対して実質的に不変である形で各ポイントを特徴付ける記述子を生成し、
前記画像間で実質的に一致する記述子を検出し、
さまざまな画像に表示される一致する記述子の集合に関連付けられた前記関心ポイントを対応するポイントとして指定するコンピュータプログラムと
を備えることを特徴とするシステム。
関心ポイントを特定する前記プログラムモジュールは、画像ごとに、
（ａ）画像解像度ピラミッドを構成するサブモジュールと、
（ｂ）まだ選択されていないピラミッドレベルを選択するサブモジュールと、
（ｃ）前記選択されたレベルで発生する各ハリスのコーナーの位置を特定するサブモジュールと、
（ｄ）まだ選択されていないハリスのコーナーを選択するサブモジュールと、
（ｅ）前記選択されたハリスのコーナーのコーナー強度が前記コーナーの位置を表すポイントを中心とする所定の最小近傍半径のピクセル近傍内で局所的な最大値であるかどうか、および所定の最小強度しきい値を超えるかどうかを判断するサブモジュールと、
（ｆ）前記コーナー強度が局所的な最大値であり、所定の最小強度しきい値を超える場合は、必ずこのコーナーをコーナーの候補として指定するサブモジュールと、
（ｇ）まだ選択されていないハリスのコーナーが残っているかどうかを判断し、コーナーが残っている場合は必ずすべてのコーナーに関する処理が完了するまでサブモジュール（ｄ）から（ｇ）を繰り返すサブモジュールと、
（ｈ）最後に使用した近傍半径を所定の整数値だけ増分するサブモジュールと、
（ｉ）まだ選択されていないコーナー候補を選択するサブモジュールと、
（ｊ）前記選択したコーナー候補のコーナー強度が所定の最小強度しきい値を超えるかどうか、および前記選択したコーナー候補の位置を表すポイントを中心とし、現在の近傍半径でサイズを定義するピクセル近傍内で局所的な最大値であるかどうかを判断するサブモジュールと、
（ｋ）前記コーナー強度が局所的な最大値であり、前記所定の最小強度しきい値を超える場合は必ずそのコーナーの候補としての指定を維持し、それ以外の場合は前記指定を解除するサブモジュールと、
（ｌ）まだ選択されていないコーナー候補があるかどうかを判断し、コーナーが残っている場合はすべてのコーナー候補の処理が完了するまでサブモジュール（ｉ）から（ｌ）を繰り返すサブモジュールと、
（ｍ）引き続きコーナー候補として指定されるハリスのコーナーの数が所定の最大許容値を超えるかどうかを判断するサブモジュールと、
（ｎ）前記コーナー候補の数が前記所定の最大許容値を超える場合は、前記コーナー候補の数が前記所定の最大許容値を超えなくなるまでサブモジュール（ｈ）から（ｎ）を繰り返すサブモジュールと、
（ｏ）残っているコーナー候補の位置を定義するポイントを、前記考察対象の画像の関心ポイントとして指定するサブモジュールと、
（ｐ）各関心ポイントの位置を前記選択されたポイントを中心とする所定のサイズの局所的な近傍に適合する２次元の正方形の面で最高の輝度になるポイントとして指定することで、各関心ポイントの位置を調整するサブモジュールと、
（ｑ）各関心ポイントにぼかし勾配のアプローチを使用して向きを割り当てるサブモジュールと、
（ｒ）前記ピラミッドレベルのすべてについて処理が完了するまで、サブモジュール（ｂ）から（ｑ）を繰り返すサブモジュールとを備えることを特徴とする請求項１７に記載のシステム。
前記関心ポイントのそれぞれについて記述子を生成する前記プログラムモジュールは、関心ポイントごとに、
（ａ）前記関心ポイントの位置を中心とし、前記関心ポイントと同じ向きの所定のサイズｐｘｐの記述子領域を確立するサブモジュールと、
（ｂ）前記記述子領域から前記領域内の輝度値に関する双線形補間のサンプリングを使用して、より小さい所定のサイズｄｘｄの記述子ベクトルを構成するサブモジュールと、
（ｃ）前記記述子ベクトルをバイアスとゲインに関して標準化するサブモジュールと、
（ｄ）前記標準化された記述子ベクトルに対してハールのウェーブレット変換を適用して前記考察対象の関心ポイントの前記記述子を構成するサブモジュールとを備えることを特徴とする請求項１７に記載のシステム。
前記画像間で実質的に一致する記述子を検出する前記プログラムモジュールは、
（ｅ）各関心ポイントの最初の３つの非ゼロウェーブレット係数から３次元ハッシュテーブルを生成するサブモジュールと、
（ｆ）前記ハッシュテーブルのビンごとに、各記述子間の距離を計算するサブモジュールと、
（ｇ）まだ選択されていない記述子を選択するサブモジュールと、
（ｈ）前記同じビン内にあるが前記選択された記述子と前記同じ画像には関連付けられていない所定の数の前記選択された記述子の最近傍を特定するサブモジュールと、
（ｉ）前記選択された記述子とその最近傍のアウトライアの距離を計算するサブモジュールと、
（ｊ）前記選択された記述子とその最近傍のそれぞれとの前記計算された距離は前記アウトライアの距離の約６５％未満かどうかを個々に判断するサブモジュールと、
（ｋ）前記選択された記述子とその最近傍の１つとの前記計算された距離は前記アウトライアの距離の約６５％未満である場合は、必ず前記最近傍の記述子を前記選択された記述子に関する一致記述子として指定するサブモジュールと、
（ｌ）幾何学ベースのアウトライア除去手順を実行し、前記選択された記述子に一致するとして指定された記述子に対応する任意の関心ポイントは、前記選択された記述子の前記関心ポイントの位置に実質的に対応しないかどうかを判断するサブモジュールと、
（ｍ）前記選択された記述子に一致するとして指定された任意の記述子が前記選択された記述子の関心ポイントの位置に実質的に対応しない場合に一致記述子から除外するサブモジュールと、
（ｎ）残っているすべての記述子について処理が完了するまで、サブモジュール（ｇ）から（ｍ）を繰り返すサブモジュールとを備えることを特徴とする請求項１９に記載のシステム。
前記画像間で実質的に一致する記述子を検出する前記プログラムモジュールは、
（ｅ）各関心ポイント記述子の最初の３つの非ゼロウェーブレット係数から３次元ハッシュテーブルを生成するサブモジュールと、
（ｆ）前記ハッシュテーブルのビンごとに、各記述子間の距離を計算するサブモジュールと、
（ｇ）まだ選択されていない記述子を選択するサブモジュールと、
（ｈ）前記同じビン内にあるが前記選択された記述子と同じ画像には関連付けられていない所定の数の前記選択された記述子の最近傍を特定するサブモジュールと、
（ｉ）前記選択された記述子とその最近傍のアウトライアの距離を計算するサブモジュールと、
（ｊ）前記選択された記述子とその最近傍のそれぞれとの前記計算された距離は前記アウトライアの距離の約６５％未満かどうかを個々に判断するサブモジュールと、
（ｋ）前記選択された記述子とその最近傍の１つとの前記計算された距離は前記アウトライアの距離の約６５％未満である場合は、必ず最近傍記述子を前記選択された記述子に関する一致記述子として指定するサブモジュールと、
（ｌ）残っているすべての記述子について処理が完了するまで、サブモジュール（ｇ）から（ｋ）を繰り返すサブモジュールとを備えることを特徴とする請求項１９に記載のシステム。
前記画像間で実質的に一致する記述子を検出する前記プログラムモジュールは、
（ｅ）各関心ポイントの最初の３つの非ゼロウェーブレット係数から３次元ハッシュテーブルを生成するサブモジュールと、
（ｆ）前記ハッシュテーブルのビンごとに、各記述子間の距離を計算するサブモジュールと、
（ｇ）まだ選択されていない記述子を選択するサブモジュールと、
（ｈ）前記同じビン内にあるが前記選択された記述子と同じ画像に関連付けられていない所定の数の前記選択された記述子の最近傍を特定するサブモジュールと、
（ｉ）幾何学ベースのアウトライア除去手順を実行し、前記最近傍記述子に対応するどの関心ポイントが前記選択された記述子の関心ポイントの位置に実質的に対応するかを判断するサブモジュールと、
（ｊ）前記最近傍記述子に対応する前記関心ポイントの位置に実質的に対応すると判断した場合にのみ、最近傍記述子を前記選択された記述子に関する一致記述子として指定するサブモジュールと、
（ｋ）残っているすべての記述子についての処理が完了するまで、サブモジュール（ｇ）から（ｊ）を繰り返すサブモジュールとを備えることを特徴とする請求項１９に記載のシステム。
場面の複数の画像間で対応するポイントを特定するコンピュータ可読命令を格納するコンピュータ可読媒体であって、前記コンピュータ可読命令は、
各画像内の対応するポイントの候補を表す関心ポイントを特定する操作であって、各関心ポイントは前記位置を中心とする近傍内のピクセルに関する所定のプロパティで構成される一意のパターンで特定できる画像内の位置に対応する操作と、
各関心ポイントに位置を割り当てる操作であって、前記位置は前記位置を中心とする近傍内のピクセルに関する所定のプロパティで構成される一意のパターンから抽出される操作と、
前記関心ポイントのそれぞれについて、画像の位置、向き、スケールの変化、および前記ポイントの前記位置と向きを定義するためのピクセルのバイアスとゲインの変化に対して、実質的に不変の形で記述子を生成する操作と、
前記画像間で実質的に一致する記述子を検出する操作と、
さまざまな画像に表示される前記一致する記述子の集合に関連付けられた前記関心ポイントを、一致するポイントとして指定する操作とを備えることを特徴とするコンピュータ可読媒体。