JP2015504215A5 - - Google Patents
Download PDFInfo
- Publication number
- JP2015504215A5 JP2015504215A5 JP2014550649A JP2014550649A JP2015504215A5 JP 2015504215 A5 JP2015504215 A5 JP 2015504215A5 JP 2014550649 A JP2014550649 A JP 2014550649A JP 2014550649 A JP2014550649 A JP 2014550649A JP 2015504215 A5 JP2015504215 A5 JP 2015504215A5
- Authority
- JP
- Japan
- Prior art keywords
- keypoint
- image
- matches
- ratio
- correct
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000875 corresponding Effects 0.000 claims description 108
- 230000000007 visual effect Effects 0.000 claims description 50
- 239000011159 matrix material Substances 0.000 claims description 44
- 238000004364 calculation method Methods 0.000 claims description 20
- 238000005457 optimization Methods 0.000 claims description 13
- 238000001514 detection method Methods 0.000 claims description 10
- 238000000034 method Methods 0.000 description 17
- 238000004422 calculation algorithm Methods 0.000 description 13
- 230000001131 transforming Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 238000010191 image analysis Methods 0.000 description 4
- 238000000844 transformation Methods 0.000 description 4
- 238000009472 formulation Methods 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000003190 augmentative Effects 0.000 description 2
- 230000001939 inductive effect Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006011 modification reaction Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000003247 decreasing Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000003595 spectral Effects 0.000 description 1
Description
本発明は、画像解析の分野に関する。
画像解析の分野では、普通の操作によって、2つの画像が同じ風景または同じ物体の少なくとも一部を含む場合、それら画像間に生じる関係を見出すために、その2つの画像が比較される。
多数の用途の間では、画像比較は、マルチカメラシステムに属するビデオカメラを較正する、ビデオ撮影の2つのフレームの間に生じる動きを評価する、および画像(たとえば写真)内の物体を認識するために、もっとも重要なものである。ここで、認識用途は、写真から始めて、その中に撮られた物体(複数可)を識別し、そして識別された物体(複数可)に関係する情報を提供することが可能な、いわゆる視覚探索エンジン、すなわち自動化サービス中で用いるように特に設計される物体認識アルゴリズムの最近の開発のため、ますます大きい重要性を帯びつつある。このタイプの知られたサービスの実施例は、GoogleのGoggles、NokiaのPoint&FindおよびkooabaのSmart Visualsを含む。物体認識用途では、業界用語で「質問画像(query image)」と言われる、認識すべき物体を描写する第1の画像を複数の基準画像と比較するステップが設けられ、それぞれの基準画像が、各々の知られた物体を描写し、それによって、質問画像中に描写された物体と、基準画像中に描写された物体との間で比較を実施することが可能になる。
基準画像は、通常、適切な基準データベース中に配置される。データベース中に含まれた基準画像数が大きくなるほど、実施される比較する操作数が大きくなる。基準データベースが大変大きくなり得るいくつかの場合、物体認識処理の効率は、悪影響を受ける。たとえば、物体認識がオンラインの買い物シナリオで活用され、各基準画像がオンラインストアによって提供されるアイテム(たとえばブックカバー、DVDカバーおよび/またはCDカバーの写真)に対応する場合、基準画像数は、数百万枚を超える可能性がある。さらに、そのような巨大な数のデータを効率的に管理するために、比較する操作は、十分な処理能力を備える処理ユニットによって処理すべきである。
この10年間で、物体認識を実施するために必要な時間を短縮するための異なるアルゴリズムが、提案されてきた。これらのアルゴリズムでは、質問画像中に描写された物体を含む候補になる基準画像の数を大幅に減少させるステップが設けられる。
2つの画像の間を比較する操作を実施するための極めて効率的な方法では、業界用語でキーポイントとして言われる、第1の画像中のポイントのセットを選択するステップと、次いでそのセットの各キーポイントを、第2の画像中の対応するキーポイントとマッチさせるステップとが設けられる。第1の画像のどのポイントがキーポイントにならねばならないのかという選択が、そのポイント自体を囲繞する画像の領域の局所的な特徴を考慮することによって実行される。この点に関して、「International Journal of computer vision(コンピュータビジョンの国際学術誌)」、2004年のDavid G.Loweによる「Distinctive image features from scale−invariant keypoints(スケール不変のキーポイントからの区別的な画像の特徴)」を参照されたい。
第1の画像のキーポイントと第2の画像の対応するキーポイントの間のマッチングが、両方のキーポイントが同じ物体の同じポイント(2つの画像両方中に描写されている)に対応するという意味で正しい場合、そのようなキーポイントのマッチは、「インライア(inlier)」として呼ばれる。
反対に、第1の画像のキーポイントと第2の画像の対応するキーポイントの間のマッチングが、2つのキーポイントが同じ物体の同じポイントに対応していないという意味で間違っている場合、そのようなキーポイントのマッチは、「アウトライア(outlier)」として呼ばれる。
したがって、信頼できる結果を得るためには、インライアとアウトライアを区別することが可能な処置を、キーポイントのマッチが決定された後、実施することが都合がよい。
このタイプの処置のいくつかの実施例が、本技術分野で既に知られている。
もっとも使用される処置は、「Communications of the ACM(ACMの通信)」、24(6):381〜395、1981年6月のMartin A.FischlerおよびRobert C.Bollesによる「Random sample consensus:A paradigm for outlier fitting with applications to image analysis and automated cartography(ランダムサンプルコンセンサス:画像解析および自動化作図法への応用を有するアウトライアフィッティングのためのパラダイム)」に開示されているRANSACアルゴリズムを使用する。しかし、このアルゴリズムは、時間がかかる、というのは、反復アプローチに基づくからである。
「International Conference on Image Processing(画像処理に関する国際学会)」、2010年10月のSam S.Tsai、Davide Chen、Gabriel Takacs、Vijay Chandrasekhar、Ramakrishna Vedantham、Radek Grzeszczuk、Bernd Girodによる「Fast geometric re−ranking for image−based retrieval(画像ベースの読み出しのための迅速な幾何形状的な再ランク付け)」中に、および国際特許出願公開第WO2009/130451号中に開示されているアルゴリズムは、キーポイントの距離の間の比が、平行移動、回転およびスケーリングの下で不変であるということに基づく。また、このタイプのさらなるアルゴリズムは、「International Conference on Pattern Recognition(パターン認識に関する国際学会)」、2010年8月、ページ842〜845のZhipeng Wu、Qianqian Xu、Shuqiang Jiang、Qingming Huang、Peng Cui、Liang Liによる「Adding Affine Invariant Geometric Constraint for Partial−Duplicate Image Retrieval(部分的に複製の画像の読み出しのための追加のアフィン不変幾何形状的な制約)」中に、および第20回「International Conference on Pattern Recognition(パターン認識に関する国際学会)」、2010年、ページ1844〜1847のDaniel Fleck、Zoran Duricによる「Using Local Affine Invariants to Improve Image Matching(局所的なアフィン変数を使用した画像マッチングの向上)」中に開示されている。
さらに、米国特許出願第2010/0135527号A1では、キーポイントベースの比較および領域ベースの色比較を含む画像認識アルゴリズムが開示されている。アルゴリズムを使用して対象画像を識別する方法は、処理装置で入力を受け取るステップであって、その入力は、対象画像と関係するデータを含む、受け取るステップと、画像データベースから画像を読み出すステップ、およびその画像が受け入れられる、または拒絶されるまで、その画像を候補画像として指定するステップを含む読み出すステップを実施するステップと、画像認識アルゴリズム出力を得るために、処理装置を使用して対象画像および候補画像に対して画像認識アルゴリズムを実施するステップを含む画像認識ステップを実施するステップと、画像認識アルゴリズム出力が事前に選択された範囲内にある場合、その候補画像を対象画像として受け入れ、そして画像認識アルゴリズム出力が事前に選択された範囲内にない場合は、その候補画像を拒絶するステップ、および読み出すステップ、画像認識ステップおよび比較ステップを繰り返すステップを含む比較ステップを実施するステップとを含む。
米国特許出願第2010/0183229号A1は、画像をマッチさせるための方法、システムおよびコンピュータプログラム製品に言及している。マッチさせる画像は、特徴ポイントおよび特徴ベクトルおよび特徴ポイントと関連付けられた方向付けによって表される。まず、推定的な対応が、特徴ベクトルを使用することによって決定される。推定的な対応のサブセットが選択され、そのサブセットのトポロジーの同等が決定される。推定的な対応のトポロジー的に同等のサブセットが、動き推定モデルを確立するために使用される。方向付け整合性テスト(consistency test)が推定的な対応、および決定された対応する動き推定変換に対して実施されて、実行不可能な変換を回避する。カバレッジテスト(coverage test)が、方向付け整合性テストを満足させたマッチに対して実施される。画像の1つのかなりの部分をカバーしない候補のマッチは、拒絶される。最終的なマッチ画像は、複数の画像がテスト要件をすべて満たした場合、マッチングが低下する順に提供される。
「ADVANCES IN VISUAL COMPUTING(ビジュアルコンピューティングの進歩)」、シュプリンガーベルリンハイデルベルグ社、ベルリン、ハイデルベルグ、2009年11月30日、ページ417〜429のDaniel Fleck他による「An Evaluation of Affine Invariant−Based Classification for Image Matching(画像マッチングのためのアフィン不変ベースの分類の評価)」では、広範なベースライン画像マッチングのためにアフィン不変数を使用するアプローチの詳細な評価が、開示されている。具体的には、このアプローチでは、形状の面積の比がアフィン変換の下では一定であるという、アフィン不変の性質が使用される。それゆえ、画像ペア中の対応する形状をランダムにサンプリングすることによって、面積の比のヒストグラムを生成することができる。そのとき、最大ヒストグラム値の一因になるマッチは、候補インライアである。
「IMAGE ANALYSIS AND RECOGNITION(画像解析および認識)」、シュプリンガーベルリンハイデルベルグ社、ベルリン、ハイデルベルグ、2009年7月6日、ページ268〜277のDaniel Fleck他による「Affine Invariant−Based Classification of Inliers and Outliers for Image Matching(画像マッチングのためのインライアおよびアウトライアのアフィン不変ベースの分類)」では、広範なベースライン画像マッチングの間、仮の特徴のマッチをインライアまたはアウトライアとして分類するアプローチが、開示されている。具体的には、このアプローチでは、形状の面積の比が、アフィン変換の下では一定であるというアフィン不変の性質が使用される。それゆえ、画像ペア中の対応する形状をランダムにサンプリングすることによって、面積の比のヒストグラムを生成することができる。そのとき、最大ヒストグラム値の一因になるマッチは、候補インライアである。次いで、候補インライアは、フィルタリングされて、頻度がヒストグラム中のノイズレベルより低い、いずれもの候補インライアが除去される。インライアの結果として生じたセットは、画像の間の極めて正確な変換モデルを生成するために使用される。
さらに、「IEEE International Conference on Multimedia and Expo(ICME)(マルチメディアおよび博覧会に関するIEEE国際学会(ICME))」、2011年のS.Lepsoy、G.Francini、G.Cordara、P.P.B.de Gusmaoによる「Statistical modeling of outliers for fast visual search(迅速な視覚探索のためのアウトライアの統計的なモデル化)」では、2つの画像中に存在するキーポイントのマッチングが不安定な処理であり、そこでは多くのマッチが間違っている可能性があることが、開示されている。間違っているマッチのペアに関するログ距離比の統計的な性質は、正しいマッチに関するログ距離比の性質と明確に異なっている。統計的なモデルに基づき、2つの画像が同じ物体のビュー(view)を含むのかどうかを確定するために、適合度検定が、提案されている。この技法は、視覚探索のための迅速な幾何形状的な一貫性チェックとして使用することができる。
出願人は、物体認識サービスを実施するための上記で言及した知られたアプローチの多くが、いくつかの欠点によって影響されることに気付いている。具体的には、これらのアプローチは、反復処置に基づき、および/または巨大な量のデータを処理することが必要なことのために、時間がかかる。
出願人は、時間のかかることと処理すべきデータ量に関して、これらのアプローチをどのようにして向上させるのかという問題と取り組んできた。
具体的には、出願人は、データ処理に関して信頼でき、且つ時間消費に関して良好な性能を有する、画像を比較するための方法を提供するために問題に取り組んだ。
出願人は、キーポイントのマッチの対応するセットを形成するために、第1の画像(質問画像)に対して生成され、且つ第2の画像(基準画像)に対して生成されたキーポイントの対応するセットと関連付けられたキーポイントのセットから始めることによって、本発明による画像を比較するための方法は、いくつのキーポイントのマッチがキーポイントのマッチのセット全体の間でインライアであるのかを評価することができることを見出した。
また、本発明による方法は、どのキーポイントのマッチがインライアであり、且つどのキーポイントのマッチがアウトライアであるのかを特に識別することができる。
より具体的には、本発明の一態様によれば、第1の画像を第2の画像と比較するための方法は、第1の画像中の第1のキーポイントおよび第2の画像中の第2のキーポイントを識別するステップと;各第1のキーポイントを対応する第2のキーポイントと関連付けることによって、第1のキーポイントと第2のキーポイントの間のマッチを形成するステップと;複数の第1の距離の比を算出するステップであって、各第1の距離の比は、前記第1のキーポイントのペアの間の距離と、第1のキーポイントのペアとマッチする前記第2のキーポイントの対応するペアの間の距離との比に基づく、算出するステップと;それぞれが第1の距離の比の値の各々の区間に対応する複数の順序付けられたビンを有するヒストグラム中の前記算出された複数の第1の距離の比の値の分布を調整するステップであって、該ヒストグラムは、各ビンについて、値が各々の区間内に含まれる分布の第1の距離の比の対応する数を数え上げる、調整するステップと;第1および第2の画像中のキーポイントのペアのランダム選択に対応する複数の第2の距離の比の統計的な分布を表すアウトライア密度関数を生成するステップであって、前記複数の第2の距離の比は、第1の画像の第1のキーポイントのペアの間の距離と、第2の画像中のランダムに選択された第2のキーポイントの対応するペアの間の距離との比に基づく、生成するステップと;前記ビンのそれぞれについて、対応するアウトライア確率密度値を生成することによって、前記アウトライア密度関数を離散化するステップとを含む。本方法は、正しいキーポイントのマッチ数を決定するステップであって、各マッチは、第1の画像および第2の画像中に描写された同じ物体の同じポイントに対応する第1のキーポイントおよび第2のキーポイントによって形成され、前記正しいキーポイントのマッチ数を決定するステップは、行列を決定するステップであって、前記行列の各要素が、キーポイントのマッチの各々のペアに対応し、且つキーポイントのマッチの各々のペアの距離の比を含むビンでの前記ヒストグラムの値と、前記ビンに対応するアウトライア確率密度値との間の差に対応する値を有し、前記アウトライア確率密度値は、パラメータ(β)によって重み付けられる、行列を決定するステップと;該行列の主固有ベクトル(dominant eigenvector)が、キーポイントのマッチのペアが正しいキーポイントのマッチである場合、第1の値の要素を有し、且つキーポイントのマッチのペアが間違っているキーポイントのマッチである場合、第2の値の要素を有するベクトル(r)に等しくなるように、パラメータ(β)の値を決定するステップと;正しいキーポイントのマッチ数を、前記主固有ベクトルと関連付けられた主固有値の式(expression)として決定するステップを含む、前記正しいキーポイントのマッチ数を決定するステップをさらに含む。前記第1の画像を前記第2の画像と比較するために、決定された正しいキーポイントのマッチ数が活用される。
好ましいのは、前記正しいキーポイントのマッチ数を、主固有値の式として決定するステップが、正しいキーポイントのマッチ数を、主固有値と、キーポイントのマッチの各々のペアの距離の比を含むビンでのヒストグラムの値と前記ビンに対応するアウトライア確率密度値との間の差の最大値との比の式として決定するステップであって、前記アウトライア確率密度値は、前記決定されたパラメータ(β)によって重み付けられる、決定するステップを含むことである。
好ましいのは、前記正しいキーポイントのマッチ数を、主固有値の式として決定するステップが、前記数を、主固有値と前記最大値の間の前記比に1をプラスした数として決定するステップを含むことである。
有利にも、本方法は、どのキーポイントのマッチがもっとも正しそうなキーポイントのマッチであるかを、前記正しいキーポイントのマッチ数に等しい数であって、絶対値がもっとも高い前記主固有ベクトルの要素の数を識別することによって、識別するステップをさらに含む。
好ましいのは、前記複数の第1の距離の比が、前記第1のキーポイントのペアの間の距離と、第1のキーポイントのペアとマッチする前記第2のキーポイントの対応するペアの間の距離との比の対数に対応することである。
好ましいのは、前記パラメータ(β)が、前記離散化されたアウトライア密度関数上への前記ヒストグラムの投影の結果であることである。
本発明の別の態様によれば、第1の画像を第2の画像と比較するための装置は、第1の画像中の第1のキーポイントおよび第2の画像中の第2のキーポイントを識別するように構成される第1の識別ユニットと;各第1のキーポイントを対応する第2のキーポイントと関連付けることによって、第1のキーポイントと第2のキーポイントの間のマッチを形成するように構成される関連付けユニットと;複数の第1の距離の比を算出するように構成される算出ユニットであって、各第1の距離の比は、前記第1のキーポイントのペアの間の距離と、第1のキーポイントのペアとマッチする前記第2のキーポイントの対応するペアの間の距離との比に基づく、算出ユニットと;それぞれが第1の距離の比の値の各々の区間に対応する、複数の順序付けられたビンを有するヒストグラム中の前記算出された複数の第1の距離の比の値の分布を調整するように構成される調整ユニットであって、前記ヒストグラムは、各ビンについて、値が各々の区間内に含まれる分布の第1の距離の比の対応する数を数え上げる、調整ユニットと;第1および第2の画像中のキーポイントのペアのランダム選択に対応する複数の第2の距離の比の統計的な分布を表すアウトライア密度関数を生成するように構成される生成ユニットであって、前記複数の第2の距離の比は、第1の画像中の第1のキーポイントのペアの間の距離と、第2の画像中のランダムに選択された第2のキーポイントの対応するペアの間の距離との比に基づく、生成ユニットと;各ビンについて、対応するアウトライア確率密度値を生成することによって、前記アウトライア密度関数を離散化するように構成される離散化ユニットとを含む。本装置は、正しいキーポイントのマッチ数を決定するように構成される決定ユニットであって、各マッチは、第1および第2の画像中に描写された同じ物体の同じポイントに対応する第1のおよび第2のキーポイントによって形成され、前記決定ユニットは、行列を決定するように構成される第1の決定サブユニットであって、前記行列の各要素が、キーポイントのマッチの各々のペアに対応し、且つキーポイントのマッチの各々のペアの距離の比を含むビンでのヒストグラムの値と、前記ビンに対応するアウトライア確率密度値との間の差に対応する値を有し、前記アウトライア確率密度値は、パラメータ(β)によって重み付けられる、第1の決定サブユニットと;該行列の主固有ベクトルが、キーポイントのマッチのペアが正しいキーポイントのマッチである場合、第1の値の要素を含み、且つキーポイントのマッチのペアが間違っているキーポイントのマッチである場合、第2の値の要素を含むベクトル(r)に等しくなるように、パラメータ(β)の値を決定するように構成される第2の決定サブユニットと;正しいキーポイントのマッチ数を、前記主固有ベクトルに関連付けられた主固有値の式として決定するように構成される第3の決定サブユニットとを含む、決定ユニットをさらに含む。本装置は、決定された正しいキーポイントのマッチ数を活用して、前記第1の画像を前記第2の画像と比較するように構成される、比較ユニットをさらに含む。
好ましいのは、本装置が、どのキーポイントのマッチがもっとも正しそうなキーポイントのマッチであるのかを、前記正しいキーポイントのマッチ数に等しい数であって、絶対値がもっとも大きい前記主固有ベクトルの要素の数を識別することによって識別するように構成される識別ユニットをさらに含むことである。
本発明のさらなる態様では、質問画像を受け取り、前記画像中の対応する第1のキーポイントを識別するように構成されるキーポイント検出ユニットと;対応する第1の局所記述子によって、前記第1のキーポイントの局所的な特色を記述するように構成される特徴計算ユニットと;複数の基準画像を格納する基準データベースであって、前記基準データベースは、各基準画像について、対応する第2のキーポイントおよび第2のキーポイントの対応する第2の局所記述子をさらに格納する、基準データベースと;基準画像の少なくとも1つの群の各基準画像について、第1の局所記述子を前記基準画像の第2の局所記述子と比較し、それに応じて第1のキーポイントを前記基準画像の第2のキーポイントと関連付けて、キーポイントのマッチの対応するセットを生成するように構成される特徴マッチングユニットと;特徴マッチングユニットによって実行された比較に基づき、基準図のサブセットを選択するように構成される選択ユニットと;質問画像およびサブセットの基準画像を含む各ペアについて、上記に述べた装置を使用することによって、正しいキーポイントのマッチ数を算出するように構成される最適化ユニットとを含むシステムが提供される。
好ましいのは、本システムが、視覚探索サーバと、ネットワークを通じて質問画像を視覚探索サーバに提供するように構成される複数の端末とを含み、視覚探索サーバは、キーポイント検出ユニット、特徴計算ユニット、基準データベース、特徴マッチングユニット、選択ユニットおよび最適化ユニットを含むことである。
好ましいのは、本システムが、視覚探索サーバと、ネットワークを通じて質問画像を視覚探索サーバに提供するように構成される複数の端末とを含み、視覚探索サーバは、基準データベース、特徴マッチングユニット、選択ユニットおよび最適化ユニットを含み、各端末は、各々のキーポイント検出ユニットおよび各々の特徴計算ユニットを含むことである。
好ましいのは、本システムが、視覚探索サーバと、ネットワークを通じてデータを視覚探索サーバと交換するように構成される複数の端末とをさらに含み、視覚探索サーバは、基準データベースを含み、各端末は、各々のキーポイント検出ユニット、各々の特徴計算ユニット、各々の特徴マッチングユニット、各々の選択ユニット、各々の最適化ユニットおよび各々の局所データベースを含み、各端末は、第2のキーポイントおよび基準データベース中に格納された第2のキーポイントの対応する第2の局所記述子の各々のセットを視覚探索サーバから受け取るように構成され、端末の局所データベースは、前記第2のキーポイントおよび第2の局所記述子の受け取ったセットを格納するように構成され、前記格納された第2のキーポイントおよび第2の局所記述子のセットは、基準画像の少なくとも1つの群の基準画像に対応することである。
本発明のさらなる態様によれば、画像を読み出すための方法は、質問画像を受け取り、前記画像中の対応する第1のキーポイントを識別するステップと;前記質問画像を複数の基準画像と比較するステップであって、第2のキーポイントは、各基準画像と関連付けられ、それによって第1のキーポイントを前記基準画像の第2のキーポイントと関連付けて、キーポイントのマッチの対応するセットを生成する、比較するステップと;前記質問画像と前記複数の基準画像のそれぞれとの間の正しいキーポイントのマッチ数を、上記に述べた本方法に基づき決定するステップと;基準画像のサブセットを、正しいキーポイントのマッチ数が、それについて予め定めた閾値を超える基準画像として選択するステップとを含む。
本発明のこれらおよび他の特徴および利点は、添付図面とともに読む、本発明のいくつかの例示的な、非限定的な実施形態の次の記述によって明らかにする。
上記で既に述べたように、2つの画像の間の比較には、第1の画像のキーポイントを第2の画像の対応するキーポイントとマッチさせるステップが設けられる。キーポイントのマッチは、2つの画像の対応するキーポイントが同じ物体(2つの画像の両方中に描写された)の同じポイントに対応する場合、正しい(インライア(inlier))と言われ、反対に、キーポイントのマッチは、2つのキーポイントが同じ物体の同じポイントに対応しない場合、間違っている(アウトライア(outlier))と言われる。各画像が同じ物体(教会)の写真である、図1Aに例示した実施例では、各キーポイントのマッチは、各々の実線を用いて描写されている。図1Aの例示的な場合に例示したキーポイントのマッチは、インライアとアウトライアの両方を含む。アウトライアが除去された、同じ例示的な場合のバージョンをその代わりとして図1Bに描写している。
本明細書の下記で、画像比較方法を述べることにする。提案する方法は、キーポイントのマッチの対応するセットを形成するために、基準画像として参照される第2の画像に対して生成されたキーポイントの対応するセットに関連付けられる、質問画像または単に質問として呼ばれる第1の画像に対して生成されたキーポイントのセットから始めて、いくつのキーポイントのマッチが、キーポイントのマッチのセット全体の間でインライアであるのかを評価し、また、特に、どのキーポイントのマッチがインライアであり、どのキーポイントのマッチがアウトライアであるのかを識別することができる。
本明細書の章1では、本方法で使用する具体的な統計量の性質と、間違っているマッチと正しいマッチの両方に関するログ距離比の概念とを紹介する。それに続く2つの章(章2〜3)では、提案する方法のステージにおける数学的および統計的な側面を開示する。章4では、本方法のステージの主なステップを開示する。最後の章(章5)は、提案する方法の例示的な用途を対象とする。
章1−対数の距離の比
N個のマッチしたキーポイント(マッチ)のセットを考える。
N個のマッチしたキーポイント(マッチ)のセットを考える。
ただし、xiは、質問画像中のi番目のキーポイントの座標を含み、yiは、基準画像中のそのマッチするキーポイントの座標を含む。ペア(xi、yi)は、2つのキーポイントが正しくマッチした場合、インライアと呼ばれる。反対に、ペアは、キーポイントが間違ってマッチされた場合、アウトライアと呼ばれる。数Nは、通常、最初に実施されたマッチング処理の結果である。Nの典型的な値は、5と500の間の範囲であり、好ましくは20と400の間の範囲である。マッチ数が上記の閾値を超えた場合、またはそうでなく、本発明によるインライア選択処理を実施するのに必要な計算リソースと比べると相対的に大きいと高く評価される場合、当業者は、本発明の方法を実行するために使用されるマッチ数をN‘<Nとして選択することによって、減少させることができる。
提案する方法は、上記で引用されたTsai他による論文中に提案されている、いわゆるログ距離比(略してLDR:log distance ratio)を使用する。
キーポイントは、相異ならねばならない、すなわち、
そして、LDRは、i=jの場合、無定義である。LDRは、長さ比の関数であり、相似に対して不変量である。対数演算子のおかげで、質問画像が基準画像と取り替えられた場合(xがyになる、逆もまた同様)、LDRは、符号が逆になる。
質問画像上にN個のキーポイントxiおよび基準画像上にN個の対応するキーポイントyiを含む、N個のマッチしたキーポイント(xi、yi)のセットを考えると、相異なるログ距離比の数、
が存在する。そのようなログ距離比の統計的分布は、対応するヒストグラムの形態で表され、本明細書では「LDRヒストグラム」と言う。LDRヒストグラムは、配列
によって表示することにする。hは、以降ビンとして参照する、K個の予め定義した区間T1、・・・、TKのそれぞれ内に含まれる、観測されたログ距離比をカウントしたとき生じる頻度の配列である。たとえば、そのようなビンは、幅が0.2に等しい、下側値−2.5と上側値2.5の間の25個の区間とすることができる、すなわち、
である。
図1Aの場合に対応するLDRヒストグラムの実施例は、図1Cに例示する。
なお、h中の要素のすべての和は、n=N(N−1)/2であり、マッチの相異なるペア数である。hは、あたかもそれが、確率密度関数pz(z)を有し、キーポイントのマッチの様々なペアのLDRを表すランダム変数Zのn個の値を測定することによって得られたかのように、見なすことができる。pz(z)は、総合密度関数と呼ぶことができる。このようにして、LDRヒストグラム中のビンにわたる期待値は、
ただし、pz,kは、LDR値が区間Tk内に入る確率である。pz,kの最大尤度推定値は、観測数によって割られたヒストグラム値である、
たとえばR.J.LarsenおよびM.L.Marxによる「An introduction to Mathematical Statistics and its Applications(数理統計学およびその応用概論)」、ニュージャージー、ページ338、Prentice−Hall社、第2版、1986年を参照されたい。
1.1 ヒストグラムおよび確率密度関数の2つの成分
キーポイントのマッチのペアは、2つのカテゴリに整理される、つまり、両方のマッチがインライアである、あるいは、それらの少なくとも1つがアウトライアである(この第2のカテゴリは、混合したアウトライアのペアと呼ぶことにする)。したがって、ヒストグラムは、2つの成分の和であり、それぞれが、1つのカテゴリ中のペアに関する観測されたLDR値による。インライアのペアに関するヒストグラム成分は、hin={hin(1)、...、hin(K)}によって表示され、混合したアウトライアのペアに関する成分は、hout={hout(1)、...、hout(K)}によって表示される。
そのとき、
h(k)=hin(k)+hout(k)、k=1、...、K. (5)
である。
キーポイントのマッチのペアは、2つのカテゴリに整理される、つまり、両方のマッチがインライアである、あるいは、それらの少なくとも1つがアウトライアである(この第2のカテゴリは、混合したアウトライアのペアと呼ぶことにする)。したがって、ヒストグラムは、2つの成分の和であり、それぞれが、1つのカテゴリ中のペアに関する観測されたLDR値による。インライアのペアに関するヒストグラム成分は、hin={hin(1)、...、hin(K)}によって表示され、混合したアウトライアのペアに関する成分は、hout={hout(1)、...、hout(K)}によって表示される。
そのとき、
h(k)=hin(k)+hout(k)、k=1、...、K. (5)
である。
LDRの統計は、次の章で議論するように、カテゴリによって決まる。LDRヒストグラムについてと同じように、総合確率密度関数は、2つの条件付き確率密度の和として書かれる。Pinが、所与のペアが2つのインライアを含む確率を表示し、そしてPoutが、ペア中に少なくとも1つのアウトライアが存在する確率を表示するとしよう。条件付き確率密度関数は、インライアのマッチに関してはp(z|in)によって表示され、混合したアウトライアのマッチに関してはp(z|out)によって表示されることになる。そのとき、zに関する総合密度関数は、和、
pZ(z)=Pinp(z|in)+Poutp(z|out) (6)
になる。
pZ(z)=Pinp(z|in)+Poutp(z|out) (6)
になる。
方程式4で示すように、右側の項は、積分して、2つのヒストグラム成分の期待値を得ることができる。
確率密度関数およびその積分E(h(k))、E(hin(k))、E(hout(k))は、有用な抽象概念である。観測された量だけがLDRヒストグラムであるが、しかし、それは、総合密度関数についての情報を提供する。次の原理が、方程式4の最大尤度推定に沿って、適用される。
総合密度関数pz(z)は、期待されるLDRヒストグラムが観測されたLDRヒストグラムに等しくなるようなものである。
したがって、
h(k)=E(h(k))=E(hin(k))+E(hout(k))、k=1、..、K. (9)
である。
h(k)=E(h(k))=E(hin(k))+E(hout(k))、k=1、..、K. (9)
である。
次の章では、両方のカテゴリに関する条件付き確率密度関数を議論する。
1.2 条件付き確率
LDRは、2つの通則的なキーポイントペア、すなわち(xi、yi)および(xj、yj)の関数である。3つの可能な条件が生じる可能性がある、すなわち、両方のペアがアウトライアである、両方がインライアである、あるいは、1つのペアがインライアであり、さらに他のペアがアウトライアであるという条件である。
LDRは、2つの通則的なキーポイントペア、すなわち(xi、yi)および(xj、yj)の関数である。3つの可能な条件が生じる可能性がある、すなわち、両方のペアがアウトライアである、両方がインライアである、あるいは、1つのペアがインライアであり、さらに他のペアがアウトライアであるという条件である。
1.2.1 両方のペアがアウトライアであるときのLDR
マッチング処理は、画像中の風景の幾何形状についてのどのような知識によっても制約されない、というのは、そのような知識は、マッチングを実行する前には得ることができないからである。たとえ2つの画像が同じ物体を示すとしても、誤りのあるマッチを防止するメカニズムは、存在しない。2つの画像が、同じまたは極めて類似した物体を示していない場合、どのようなマッチングも間違っていると見なすべきである。
マッチング処理は、画像中の風景の幾何形状についてのどのような知識によっても制約されない、というのは、そのような知識は、マッチングを実行する前には得ることができないからである。たとえ2つの画像が同じ物体を示すとしても、誤りのあるマッチを防止するメカニズムは、存在しない。2つの画像が、同じまたは極めて類似した物体を示していない場合、どのようなマッチングも間違っていると見なすべきである。
たとえマッチング処理が決定論的なものであるとしても、間違ってマッチしたキーポイントの位置は、予測できない。一般に、アウトライアに関して何らかの幾何形状的なパターンを見つけることは、不可能であり、そのようなパターンをそれによって推測できるかもしれない、第1級の原理は、まったく存在しない。したがって、間違っているマッチングは、ランダムプロセスとして見なされ、アウトライアの振る舞いは、アウトライア密度関数として参照する、適切な密度関数によってモデル化される。
アウトライア密度関数の定義
AおよびBを長方形としよう。ポイント、
AおよびBを長方形としよう。ポイント、
および
は、ランダムに取り出された、ランダム変数、Xi、XjおよびYi、Yjに対応すると仮定する。ランダム変数ZをLDRとすると、
である。
アウトライア密度関数は、Zに関する確率密度関数fZ(z)であり、それは、条件付き確率密度関数として使用することにする。
アウトライア密度関数は、2つのタイプ、つまり正規の、および一様なキーポイント分布について表すことができる。
正規に分布したキーポイント座標
キーポイントが正規に分布しているという仮定は、アウトライア密度関数の簡単な公式化をもたらし、それは、実ケースを良好に近似する。
キーポイントが正規に分布しているという仮定は、アウトライア密度関数の簡単な公式化をもたらし、それは、実ケースを良好に近似する。
質問画像のキーポイントが独立であって、同一に分布しており(i.i.d.)、そして正規に分散して平均がμで分散が(1/2)Iであるランダム変数Χとして振る舞うと仮定する。
座標は、キーポイントが画像全体にわたって分散するように、適切にスケーリングされていると仮定する(なお、分散は、水平および垂直の方向で同じである)。それゆえ、2つのキーポイントの間の差は、また正規分布を有する。
基準画像中のキーポイント{Yn}は、{Xn}と同じ統計を有し、キーポイントXnは、キーポイントYnとマッチしていると仮定する。それゆえ、二乗した距離の比は、(2、2)の自由度を備えるF−分布を有し、
たとえば、R.J.LarsenおよびM.L.Marxによる「An introduction to Mathematical Statistics and its Applications(数理統計学およびその応用概論)」、ニュージャージー、ページ338、Prentice−Hall社、第2版、1986年に示されている。
確率密度関数F(2、2)は、
である。ただし、方程式12のランダム変数
に関するシンボルは、簡単化のために、Sと置き換えている。ログ距離比を考えているので(二乗した距離の比でない)、平方根および対数が、ランダム変数
に適用される。さらにまた、2つの画像のサイズが異なることを、または2つの画像中のキーポイントの広がりが異なることを説明するために、関数は、2つの画像中のキーポイントの標準偏差の比に対応するパラメータα、すなわち、
をランダム変数に掛けることによって、そのようなケースに拡張される。F(2、2)確率密度関数に対するこれらの修正によって、次のアウトライア密度関数がもたらされる。
アウトライア密度関数
2つの画像がランダムなキーポイント{Xn}および{Yn}を有するとしよう、それゆえ、そのすべては、二変数の正規分布を有し、第1の画像中の分散が
2つの画像がランダムなキーポイント{Xn}および{Yn}を有するとしよう、それゆえ、そのすべては、二変数の正規分布を有し、第1の画像中の分散が
であり、第2の画像中の分散が
である。α2を分散の比とすると、
である。
出願人らは、ログ距離比が確率密度関数、
を有すると決定した。
α=2の場合のアウトライア密度関数の形状は、図2に例示する。このアウトライア密度関数は、長方形の画像のアスペクト比を説明していない、というのは水平および垂直の方向の分散が同じであると仮定しているからであることに留意しなければならない。
図3A〜3Fは、いくつかの実施例を例示し、それぞれが、チューリッヒのビルの画像データベース(1005の画像からなり、それぞれが、5つの図で、201個のビルを含む)から取った画像の各々のペア(質問画像−基準画像)を示す。キーポイントは、円によって示し、さらにラインによって、他の画像中のマッチしたキーポイントの位置を指し示す。各画像のペアについて、方程式15の公式化の形でLDRヒストグラムおよび対応するアウトライア密度関数を例示する。キーポイントのマッチのすべては、アウトライアとして見なさなければならない、というのは画像が異なるビルを示しているからであることに留意すべきである。これらの実施例から、アウトライア密度関数は、すべてのマッチがアウトライアであるときはいつも、LDRヒストグラムをうまく近似すると見なすことができる。
また、「離散化されたアウトライア密度関数」の概念を導入する。
ビン、すなわちLDRヒストグラムを構成するために使用されるLDR値に関する区間を
によって表示しよう。離散化されたアウトライア密度関数は、確率値が、各k番目のビンでは、そのビンにわたるアウトライア密度関数の積分
に等しくなるように、確率値をK個のビン
のそれぞれに割り当てる。ただし、各値f(k)は、「アウトライア確率」と呼ばれる。
1.2.2 両方のペアがインライアであるときのLDR
一般に、キーポイントのマッチのすべてがインライアである場合、LDRヒストグラムは、アウトライアに関するLDRヒストグラムと極めて異なることがしばしばである。多数の実際的なケースでは、インライアだけのLDRヒストグラムは、アウトライアだけのLDRヒストグラムより狭い、すなわち、それは、LDRアウトライアヒストグラムがゼロでないところで、いくつかのビンにわたってゼロに等しい(具体的には、横方向のビン)。
一般に、キーポイントのマッチのすべてがインライアである場合、LDRヒストグラムは、アウトライアに関するLDRヒストグラムと極めて異なることがしばしばである。多数の実際的なケースでは、インライアだけのLDRヒストグラムは、アウトライアだけのLDRヒストグラムより狭い、すなわち、それは、LDRアウトライアヒストグラムがゼロでないところで、いくつかのビンにわたってゼロに等しい(具体的には、横方向のビン)。
2つの画像中の関連付けられたキーポイントxiおよびyiは、見た物体上の同じポイントのマッピングによって関係付けられるので、LDRヒストグラムの上側および下側の限界を、確率的なモデル化を使用する代わりに考えると、都合がよい。1つの画像中の2つの相異なるキーポイントは、互いに対して極端に接近することは決してない、少なくとも画像の1つ中だけではないと仮定する。それゆえ、極めて大きくもなく、極めて小さくもない(どれくらい長さを、2つの画像の間で圧縮する、拡張することができるのかによって決まる)、数aおよびbが存在し、したがって、
である。この場合、LDRは、区間に
に制限される。
また、平面状の表面の画像のほとんどの結合では、キーポイントの間の距離は、極めて大きく圧縮されず、拡張もされない。スケール不変特徴変換SIFT(Scale−Invariant Feature Transform)および迅速なロバスト特徴SURF(Speeded Up Robust Features)のような特徴が、相似変換に対して不変であるが、しかしアフィン変換に対してそうではなく、いうまでもなくホモグラフィーに対してもそうでない。これは、
が理論的には広くなる可能性があるかもしれないように、射影歪みがそれほど厳格である場合、極端なLDR値を生じるかもしれないキーポイントが、関連付けられないことになる、というのはそれらの特徴が異なる記述子を有することになるからであることを意味する。その結果として、正しく関連付けられたキーポイントに関するインライアのヒストグラムは、比較的狭い区間中に留まりそうである。
図4は、質問画像および基準画像が、極めて異なる角度から見た(問題の実施例では、−75および0度である)、同じ平面状物体(長方形)を描いている例示的な場合を例示する。図4の底部の図は、前記画像ペアから算出されたLDRヒストグラムおよびアウトライア密度関数を描いている。
図5Aおよび5Bは、ほぼ平面状物体(ビルの面)が、見る角度の差が適度である状態で示されている、2つの例示的な場合を例示する。図5Aおよび5Bの底部の図は、対応するLDRヒストグラムおよびアウトライア密度関数を描いている。
1.2.3 ペアが両方のタイプであるLDR
第3の代替実施形態は、ペアxi、yiがインライアであり、ペアxj、yjがアウトライアである(または、その逆も同様)場合を提示する。この場合もまた、1つの画像中のキーポイントは、ランダムに分布すると仮定する、というのは未知の画像中に含まれるキーポイントの場所を制約する、どのような幾何形状的なパターンまたはルールも事前に知ることはできないからである。
第3の代替実施形態は、ペアxi、yiがインライアであり、ペアxj、yjがアウトライアである(または、その逆も同様)場合を提示する。この場合もまた、1つの画像中のキーポイントは、ランダムに分布すると仮定する、というのは未知の画像中に含まれるキーポイントの場所を制約する、どのような幾何形状的なパターンまたはルールも事前に知ることはできないからである。
したがって、各キーポイントは、たとえば方程式10中のような正規分布を有するランダム変数によって表すことができる。2つのキーポイントの間の差ベクトルは、方程式11で示すようにモデル化される、というのは一方がインライアと考えられ、他方がアウトライアと考えられ、そしてそれらの間に相関が存在することができない。
しかし、方程式12のF−分布は、厳密には成り立たない、というのは分子および分母が、F−分布に対する前提に反して、独立でないからである。インライア/アウトライアのペアの場合のキーポイントは、
である。ただし、πは、一方の画像中のインライアのキーポイントの他方の画像上へのマッピング(未知ではあるが)である。二乗した距離の比を表すランダム変数は、この場合、
になるはずである。ただし、分子および分母は、疑いもなく、独立でない、というのは、両方が、Xjの関数であるからである。方程式12中の変数に関する確率密度関数を見つけ出すことは、極めて困難であるが、しかし提案する方法が関与する限り、それは、必要でないかもしれない。経験によると、わずかな誤差で、これら2つの場合(インライア/アウトライアのペアと対照的なものとして両方のインライアペア)に関するLDRのヒストグラムを、同じモデル確率でモデル化、すなわち方程式15のアウトライアモデル関数にすることが可能であると仮定できる。
1.3 アウトライアに関する非パラメトリック確率密度関数
アウトライアに関する対数の距離の比は、2つのランダムなラインセグメントの長さの比(その比の対数)として見なすことができる。アウトライアが予測できないマッチング誤差によって形成されるので、ラインセグメントの終点は、独立のランダム変数としてモデル化される。さらに、1つの画像内の終点は、同一に分布する。前に、終点が平面上に正規分布を有すると考えたが、ここでは、終点がキーポイント(正しさにかかわらず、マッチング後に残されたそれら)のセットに限定されるという仮定に基づく、代替のアウトライア確率密度関数を導入する。この代替処置の目標は、アウトライアに関するLDRヒストグラムのピークをよりうまく識別することである。多くの場合、これは、画像を比較してインライアを見つけ出すための性能を向上させることができる。
アウトライアに関する対数の距離の比は、2つのランダムなラインセグメントの長さの比(その比の対数)として見なすことができる。アウトライアが予測できないマッチング誤差によって形成されるので、ラインセグメントの終点は、独立のランダム変数としてモデル化される。さらに、1つの画像内の終点は、同一に分布する。前に、終点が平面上に正規分布を有すると考えたが、ここでは、終点がキーポイント(正しさにかかわらず、マッチング後に残されたそれら)のセットに限定されるという仮定に基づく、代替のアウトライア確率密度関数を導入する。この代替処置の目標は、アウトライアに関するLDRヒストグラムのピークをよりうまく識別することである。多くの場合、これは、画像を比較してインライアを見つけ出すための性能を向上させることができる。
すべてのラインセグメントが等しいように起こりそうであると仮定すると、
である。ただし、A、Bは、一方の画像中の終点に関するランダム変数を表示し、C、Dは、他方の画像中の終点に関するランダム変数を表示する。ランダムなLDRは、差、
として表すことができ、したがって2つの項のそれぞれに関して別々に確率を推定することができる。この目的のために、ビンが拡張されたセット、
のサブセットを、インデックスを
、ただしk=1、...、K、のように並べて形成するように、ヒストグラムのビンへの拡張を導入する。
ラインセグメントに関するすべての可能な終点を考慮することによって、項が所与のビン内に含まれる確率を推定することができ、
および
である。関数νは、引数(たとえば
)が真であるとき、1であり、それが偽であるとき、0である。ビンは、
であるような、スカラーの量子化器q、
を必然的に含む。量子化器は、方程式19中の項を整数値のランダム変数に変換する。第1の項は、離散的な確率関数、
を有する
になり、そして第2の項は、離散的な確率関数、
を有する、
になる。差に関する離散的な確率関数は、差に関する畳み込み公式、
によって得られる。方程式20中の関数は、離散的なアウトライア確率密度関数の代替の公式化として使用することができる。
章2−インライアのカウントおよび識別
2.1 アウトライアノーマル(outlier normal)
提案する方法に基づき、ここで、LDR値を解析することによって、インライアのマッチを識別する方法を述べる。正しいインライアセットを期待値として生じる、スペクトルのクラスタ化(clustering)アルゴリズムが開発されている。
2.1 アウトライアノーマル(outlier normal)
提案する方法に基づき、ここで、LDR値を解析することによって、インライアのマッチを識別する方法を述べる。正しいインライアセットを期待値として生じる、スペクトルのクラスタ化(clustering)アルゴリズムが開発されている。
方程式2のLDRは、キーポイントのマッチの各結合について知られている。
所与のLDR値がインライアのマッチのペアを表しているのかどうかについての情報を知らせる関数は、出願人が探し求めてきたものである。出願人は、計算するのに安価であるアルゴリズムによってインライアのマッチの識別を可能にする関数が、形態、
を有すべきであることを見出した。ただし、pz(z)は、キーポイントのマッチの様々なペアのLDRを表す総合確率密度関数であり、fz(z)は、アウトライア確率密度関数であり、αはパラメータである。LDRヒストグラムのビンにわたって積分することによって、k(ビンのインデックス)の関数、
が得られる。
第1の項は、ビンTk中の総合LDRヒストグラムの期待値に比例する。第2の項中のアウトライア確率密度関数の積分は、f(k)として書くことができる。
方程式23は、ここで、
として書くことができる、というのは、総合確率密度関数は、ヒストグラムがその期待値に等しいようにするものであると仮定できるからである。d(k)=ng(k)およびβ=nαを代入することによって、インライアを識別するために使用することになる関数、
が、最終的に得られる。
2.2 インライア証拠行列
方程式21および26は、インライア証拠行列と呼ぶ、極めて有用な行列を生じる。リンク(link)が、量子化qによって与えられ、ヒストグラムのビンに包含され、それは、LDR値をインデックスにマッピングする。
方程式21および26は、インライア証拠行列と呼ぶ、極めて有用な行列を生じる。リンク(link)が、量子化qによって与えられ、ヒストグラムのビンに包含され、それは、LDR値をインデックスにマッピングする。
そのとき、方程式21のLDR値は、要素(i、j)中に値zijを有する行列
中で整理される。その対角は、任意にゼロに固定される。そのとき、Zは、同じサイズの行列Dにマッピングされ、したがって、
ただし、対角の値は、やはりゼロに設定される。これは、インライアを明らかにするために解析されることになる行列である。次の事項では、dqが、合成
の代わりに書かれることになる。
アルゴリズムを開発するために、D中の非対角の要素中の量子化されたLDR値は、あたかもそれらが独立のランダム変数の値であるかのように見なされる。これらの変数はいずれも、2つの密度関数、つまり1つがマッチのインライアのペアに関するものであり、1つがマッチの混合した/アウトライアのペアに関するものである、のうちの1つによって特徴付けられる。インライアのマッチのペアをモデル化するために、独立であり、同一に分布し、その条件付き密度関数がp(v|in)(方程式15参照)であるランダム変数
が、
のように定義される。ただしk=q(Vij)である。確率密度関数p(v|in)は、無定義のままである。
同様に、アウトライアの、または混合したペアに関して独立であって同一に分布した(i.i.d.)変数
は、密度関数がアウトライア密度関数p(z|out)=fZ(z)によって与えられて、
として定義される。ただしfは、方程式25の離散的な確率密度関数である。どのペアがインライアであり、どのペアが混合した、またはアウトライアのペアであるのかを確立することが可能である場合、上記の定義によって、ランダムな行列Fが生成され、その要素(その対角の要素はゼロである)が、
である。
2.3 固有値および固有ベクトルによって明らかにされるインライア
目標は、
目標は、
になるようにベクトル
として定義される、真のインライア表示子ベクトルを決定することである。
出願人は、βの具体的な選択のために、Fに対する期待値の主固有ベクトルが、真のインライア表示子ベクトルと同一であることに注目してきた。さらにまた、出願人は、観測された行列Dが、インライアを識別するために使用することができるように、インライア表示子ベクトルに極めて類似する主固有ベクトルを有することに注目してきた。
具体的には、β(方程式26の)は、期待される積Frがインライアベクトルr自体に比例するように決定される。
まず、積Frの特別の場合を調べる。
5個のキーポイントのペアが存在し、インライア表示子ベクトルが、
であることを仮定する。
第1の、第2の、および第4の要素が、インライアのマッチを示す。行列Fは、次のようである。
積は、
である。
積Fr中のいくつかの要素、すなわち1、2および4のうちのいずれの行iについても2つの項の和であり、Fiiのゼロには要素ri=1が掛けられ、それゆえ結果として生じる内積の項は「落とされる」。行i=3およびi=5について、F中の対角のゼロにはri=0が掛けられ、Fの行中の非ゼロの要素にはすべて、表示子r中の非ゼロの要素が掛けられ、それゆえどの項も落とされない。
一般の場合では、m個のインライアが存在すると仮定する。ベクトルE(Fr)中のi番目の要素は、Fのi番目の行とベクトルrの内積の期待値である。i番目のマッチがインライアのペアである場合、F中の行は、対角を除き、rの非ゼロの位置(インライア位置)にdq(Vij)を含み、それゆえ、それは、m−1個の要素の和である。i番目のマッチがアウトライアである場合、この内積は、m個の要素d q(Zij)の和である。Vijが同一に分布しているので、期待値は、(i、j)に依存しない、すなわちE(dq(Vij))=E(dq(V))である。同じ理由で、E(dq(Zij))=E(dq(Z))である。
上記の式が2つの値だけを有するということは、固有ベクトルrが真のインライア表示子であるということと互換性がある。
パラメータβ
まず、F中のアウトライア行に関してE(Fr)中の期待される要素を考える。この要素の期待値は、
パラメータβ
まず、F中のアウトライア行に関してE(Fr)中の期待される要素を考える。この要素の期待値は、
に比例する。
ここで、この要素がゼロに等しい(それは、μr中の対応する要素の値である)という条件を課すことにすると、
になる。
出願人は、方程式38が、重要な結果であることに、すなわちファクタβが、総合LDRヒストグラムを離散化されたアウトライア確率密度関数上に投影することから生じることに注目してきた。したがって、方程式26の項βf(k)は、ヒストグラムのアウトライア成分と呼ぶことができる。関数d(k)は、アウトライア成分に対して直交し、それゆえ名をアウトライアノーマルとする(「表面ノーマル(surface normal)」が表面に対して垂直なベクトルとするのと同じように)。
これは、固有ベクトルrの要素の2つの値の一方がゼロであることを立証する。固有ベクトルrの要素の他の値は、方程式35によって一定値である。それゆえ、固有ベクトルrは、真のインライア表示子ベクトルである。
インライア数
ここで、F中のインライア行に関してFr中の期待される要素を考える。この要素は、μに、すなわちμr中の対応する要素の値に等しくなければならない。期待値、
インライア数
ここで、F中のインライア行に関してFr中の期待される要素を考える。この要素は、μに、すなわちμr中の対応する要素の値に等しくなければならない。期待値、
を考えることから始める。ただしビンTkにわたるインライア確率密度関数の積分をp(k|in)によって表示する。これは、インライア数の式、
をもたらす。
この方程式中に見られる分母は、未知のままである、というのは、積分された確率密度関数p(k|in)(方程式39参照)が得られないからである。出願人は、この未知の分母E(dq(V))をアウトライアノーマルd(k)(方程式26)の最大値と置き換えることを提案する。
この値は、知られている、というのは項のすべて、すなわちLDRヒストグラムh、投影係数βおよび積分したアウトライア確率密度関数fが利用できるからである。
が得られる。
出願人は、この数
が、インライア数mをわずかに低く見積もっていると裁定している。具体的には、出願人は、たとえ計算に使用する行列Dの統計的な性質に、且つ同じ行列Dの次数Nが制限されていることに関係するノイズが存在しても、固有ベクトルrの
のもっとも大きい要素に対応するキーポイントのマッチとしてインライアを選択すると、アウトライアに対するインライアの選択が向上されると裁定している。
主固有値
方程式34で肯定的に仮定され、方程式40で規定された固有値は、実際に主固有値である。
方程式34で肯定的に仮定され、方程式40で規定された固有値は、実際に主固有値である。
行列F中の要素i、jの期待値は、方程式32および37に従って、
になる。
したがって、行列は、
として書くことができる。ただし、rは、方程式42のインライア表示子ベクトルである。行列diag(r)は、対角上にrを有し、他のすべての要素は、ゼロである。E(F)の固有値は、
である。
固有値μ1は、方程式40のμに等しい、そしてそれは、インライア数mが3以上である場合、主固有値である。
2.4 迅速な固有ベクトル計算
ランダム行列Fは、インライア証拠行列Dに関係付けられる。行列Dは、行列E(F)とノイズに対応する項Wとの和D=E(F)+Wとして書くことができる。
ランダム行列Fは、インライア証拠行列Dに関係付けられる。行列Dは、行列E(F)とノイズに対応する項Wとの和D=E(F)+Wとして書くことができる。
出願人は、本発明の目的にはノイズ成分Wの存在を無視することができ、且つインライア証拠行列Dが計算のために活用することができると裁定している。具体的には、出願人は、インライア証拠行列Dが、インライア表示子ベクトルに対して極めて相似である、主固有ベクトルを有すると裁定している。したがって、インライア証拠行列Dの主固有ベクトルは、インライアを識別するために使用することができる。
推定したインライアは、Dの主固有ベクトル中のmがもっとも大きい要素に対応する。目標は、また、いくらか精度を犠牲にしても固有ベクトル計算をできるだけ迅速なものに保つことである。主固有ベクトルを見出すための方法は、本技術分野で知られている(たとえば、L.TredethenおよびD.Bauによる「Numerical Linear Algebra(数値線形代数)」、「The Society for Industrial and Applied Mathematics(応用数理学会)」、1997年に開示されているべき乗法およびレイリー商反復法を参照)。
両方の方法は、反復的であり、主固有ベクトルの最初の推測に依存し、間に合わせの候補が、平均列であり、それは、Dのような行列の主固有ベクトルに対する密接な近似である。
章3−提案する方法の主なステップ
ここで、前に述べた方法の主なステップを図6に例示する。
ここで、前に述べた方法の主なステップを図6に例示する。
具体的には、図6は、提案する方法の主なステップを例示するフローチャートである。
比較すべき画像、すなわちN個のキーポイントxiを含む第1の画像(質問画像)およびN個のキーポイントyiを含む第2の画像(基準画像)のペアから始めると仮定する。質問画像上の各キーポイントxiは、各々のキーポイントのマッチ(xi、yi)を定めるために、基準画像上の対応するキーポイントyiに関連付けられる。
次いで、相似に対して不変である距離の比の関数を使用して、キーポイントのマッチ(xi、yi)からの距離の比のヒストグラムが生成される。たとえば、ログ距離比(LDR)のヒストグラムは、方程式2(ブロック602)を使用して、キーポイントのマッチ(xi、yi)から生成される。
さらなるステップでは(ブロック604)、アウトライア密度関数が、第1および第2の画像中でランダムに選択された第1のキーポイントと第2のキーポイントの間の距離の比を使用して算出される、方程式15(ブロック604)参照。
別のステップは、たとえば方程式15aを前に算出されたアウトライア密度関数に適用することによって、そのアウトライア密度関数の離散化されたバージョンを得るために、前に算出されたアウトライア密度関数を離散化するステップからなる(ブロック606)。提案する方法の次のステップによって、いくつのキーポイントのマッチが、キーポイントのマッチの全セットの間でインライアであるのか評価し、そして任意選択で、特に、どのキーポイントのマッチがインライアであるのか、且つどのキーポイントのマッチがアウトライアであるのかを識別することが可能になる。より具体的には、提案する方法のさらなるステップ(ブロック608)は、行列を決定することによって、正しいキーポイントのマッチ数を決定するステップをもたらし(正しいキーポイントのマッチは、第1および第2の画像中に描写された同じ物体の同じポイントに対応する第1および第2のキーポイントから形成される)(ブロック610)、その行列の各要素は、キーポイントのマッチの各々のペアに対応し、且つキーポイントのマッチの各々のペアの距離の比を含むビンでのヒストグラムの値と、前記ビンに対応する離散化されたアウトライア密度関数の値との間の差に対応する値を有し、前記離散化されたアウトライア密度関数の値は、パラメータβによって重み付けられる。提案する方法は、行列の主固有ベクトルが、キーポイントのマッチのペアが正しいキーポイントのマッチである場合、第1の値の要素を有し、且つキーポイントのマッチのペアが間違っているキーポイントのマッチである場合、第2の値の要素を有するベクトルrに等しいように、パラメータβの値を決定するステップと;前記主固有ベクトルに関連付けられた主固有値の式として、正しいキーポイントのマッチ数を決定するステップとをさらに含む。次いで、決定された正しいキーポイントのマッチ数が、前記第1の画像を前記第2の画像と比較するために活用される。
具体的には、上記に述べた方法によって決定された正しいキーポイントのマッチ数は、比較した画像が、共通の1つまたは複数の物体を有しているのかどうかを確立するために使用することができる。インライアの次の識別は、質問画像と基準画像の間の空間関係に基づく操作、たとえば2つの画像、すなわちステレオビジョン中の同じ物体の位置決め、2つの画像中の同じ物体の動きの算出などを実施するために使用することができる。
本方法は、拡張現実(augmented reality)のようないくつかの用途のために使用される場合、前記正しいキーポイントのマッチ数に等しい数であって、絶対値がもっとも大きい前記主固有ベクトルの要素の数を識別することによって、どのキーポイントのマッチがもっとも正しそうなキーポイントのマッチであるのかを識別するさらなるステップを任意選択で含むことができる(ブロック618)。
この章で述べた本方法のステップは、適切な処理ユニットによって実行することができ、それらユニットの構造および機能は、それらの目的とするように定められた、指定された応用分野に依存する。たとえば、各処理ユニットは、本方法の1つまたは複数のステップを実施するように特に設計されるハードウェアユニットとすることができる。さらに、本方法のステップは、命令の対応するセットの制御下でプログラム可能なマシン(たとえばコンピュータ)によって実行することができる。
章4−実験結果
図7Aは、ほぼ平面状物体(ビルの面)が、異なるズーミングで、見る角度の差をほどほどにして示されている実施例を示す。キーポイント選択ステージで識別された45個のキーポイントが、円によって示され、さらにラインが、他の画像中のマッチしたキーポイントの位置を指し示している。
図7Aは、ほぼ平面状物体(ビルの面)が、異なるズーミングで、見る角度の差をほどほどにして示されている実施例を示す。キーポイント選択ステージで識別された45個のキーポイントが、円によって示され、さらにラインが、他の画像中のマッチしたキーポイントの位置を指し示している。
図7Cは、図7Aに示すキーポイントのマッチに対応する方程式27による、グレースケールで表された(45×45)の行列Dの値を示す。上記に述べた方法によって、行列Dに対して決定されたインライア数は、9である。
図7Dは、LDRヒストグラムh(k)を実線として、離散化されたアウトライア密度関数f(k)を点線として、そしてアウトライアノーマル関数d(k)を1点鎖線として示す。アウトライアノーマル関数d(k)は、約1.4のLDR値に対応するピークを有する。このピークは、正しいインライアが位置する領域に対応する。このピークは、LDRヒストグラムの二次的なピークに対応し、主のピークに対応しないことに気付くべきである。
図7Eは、上記に述べた方法によって決定された、図7Cの行列Dの主固有ベクトルを示す。
降順に配列された、同じベクトルの要素を図7Fに示す。本方法の前のステージで決定された、すなわち9であるインライア数を知ることによって、インライア、すなわち主固有ベクトル中の9というもっとも大きい要素(絶対値で)に対応する主固有ベクトルの要素の同じ数を識別することが可能になる。
図7Bは、上記に述べた方法によって識別された、図7Aの2つの画像の間の正しいキーポイントのマッチ(インライア)を示す。
章5−本方法のいくつかの例示的な用途
図8は、前に述べた方法を、本発明の実施形態によって視覚探索サービスを実施するために活用することができる、可能なシナリオを概略的に例示する。参照800によって識別される図8のシナリオは、クライアント−サーバ構成によって構築され、そこでは視覚探索サーバ810が、外部ネットワーク830、たとえばMAN、WAN、VPN、インターネットまたは電話網を介してデータを交換するための複数の端末820と相互作用するように構成される。各端末820は、パーソナルコンピュータ、ノートブック、ラップトップ、携帯情報端末、スマートフォンまたはデジタル画像を管理することが可能などれもの電子装置とすることができる。
図8は、前に述べた方法を、本発明の実施形態によって視覚探索サービスを実施するために活用することができる、可能なシナリオを概略的に例示する。参照800によって識別される図8のシナリオは、クライアント−サーバ構成によって構築され、そこでは視覚探索サーバ810が、外部ネットワーク830、たとえばMAN、WAN、VPN、インターネットまたは電話網を介してデータを交換するための複数の端末820と相互作用するように構成される。各端末820は、パーソナルコンピュータ、ノートブック、ラップトップ、携帯情報端末、スマートフォンまたはデジタル画像を管理することが可能などれもの電子装置とすることができる。
図9Aに例示する本発明の一実施形態によれば、視覚探索サービスの主な操作すべては、視覚探索サーバ810によって実行される。
端末820のユーザは、写真中に描写された物体に関連した情報を要求して、前記写真(これは質問画像になる)を視覚探索サーバ810にネットワーク830を介して送る。
視覚探索サーバ810は、端末820とデータを送受信するために、ネットワーク830と相互作用するように適合させるサーバインターフェース902を含む。サーバインターフェース902を介して、視覚探索サーバ810は、解析すべき質問画像を受け取る。
質問画像は、前記画像中に含まれたキーポイントを識別するように構成されるキーポイント検出ユニット904に提供される。
ひとたびキーポイントが生成されると、その局所的な特色が、特徴計算ユニット906によって記述される。この操作は、知られた局所記述子、たとえばスケール不変特徴変換(SIFT:Scale−Invariant Feature Transform)および迅速なロバスト特徴(SURF:Speeded Up Robust Features)を使用して、特徴計算ユニット906によって実行される。
視覚探索サーバ810は、画像認識のために活用される基準画像を格納する基準データベース910と結合される特徴マッチングユニット908をさらに含む。質問画像から抽出された局所記述子と基準データベース中に格納された基準画像の局所記述子との間の比較が、知られた画像特徴比較技法を使用して、たとえば記述子の間のユークリッド距離に基づき、特徴マッチングユニット908によって実行される。特徴マッチングユニット908は、基準データベースの各基準画像について、キーポイントのマッチの対応するセットを含む、対応するリストを出力する。このリストは、質問画像中に描写された物体が、どれかの基準画像中に描写された、いずれもの物体にも対応しない場合、空にすることができる。
特徴マッチングユニット908によって生成されたリストに基づき、選択ユニット912が、質問画像とのキーポイントのマッチのもっとも大きい数を共有する、第1のq個の基準画像を選択する。これらの基準画像は、質問画像中に描写された物体を含むものに関する最良の候補と想定される。
本発明の一実施形態によれば、視覚探索サーバ810は、前に述べた方法を実施するように構成される最適化ユニット914をさらに含む。最適化ユニット914は、前記方法を、選択ユニット912によって選択されたq個の基準画像のセットに対応するキーポイントのマッチに適用し、そして最適化ユニット914は、質問画像および該セットの基準画像中に存する各ペアについて、正しいキーポイントのマッチ(インライア)数を算出する。この算出は、本発明の方法によって実行される。十分な数の、質問画像の対応するキーポイントと正しくマッチしたキーポイントを含むように結果として生じたセットの基準画像は、質問画像中に描写された同じ物体を少なくとも(その一部を)含むと考えられる。次いで、これらの今述べた基準画像は、ネットワーク830を介して、視覚探索要求の結果として、恐らくカウントされたインライア数に基づき順序付けられて端末820に送り返される。
図9Bに例示する本発明のさらなる実施形態によれば、キーポイント検出ユニット904および特徴計算ユニット906は、視覚探索サーバ810中に含まれる代わりに、端末820中に含まれる。この場合、質問画像を視覚探索サーバ810に送る代わりに、各端末820は、質問画像からローカルに生成された局所記述子を直接送ることが可能である。
前の実施形態に比べて、この解決策には、必要なデータの送信量がより少ない(質問画像全体の代わりに局所記述子を送る)。さらに、この実施形態によれば、視覚探索サーバ810によって管理される計算負荷が、より低くなり、視覚探索サーバがより多くの画像探索要求を同じ時間枠で管理することが可能になる。
図9Cに例示する、本発明のまたさらなる実施形態によれば、視覚探索サービスの主な操作のほとんどすべては、基準画像のキーポイントおよび局所記述子を単に格納し、それらの選択されたサブセットを、端末のユーザによって要求された特定の視覚探索に基づき端末に送る視覚探索サーバ810とともに、端末820によって実行される。たとえば、端末820がGPSシステムを備えるスマートフォンであって、質問画像がスマートフォン自体のカメラを用いて撮られた写真である場合、どのキーポイントおよび局所記述子を視覚探索サーバ810によって送るべきであるのかという選択は、端末820の実際の位置に基づくことができる。この解決策は、いくつかの視覚探索サービス、たとえば記念建造物の認識サービスのために、都合よく活用することができる。
画像比較操作を管理することを可能にするために、端末820は、局所基準データベース916および更新ユニット920を備え、更新ユニットは、視覚探索サーバ810によって送られたキーポイントおよび局所記述子を受け取り、それに応じてキーポイントを更新するように適合させる。画像比較を実行する必要があるたびに、厳格に局所基準データベース916を更新することが必要でなく、その中に既に格納されたキーポイントおよび局所記述子が十分に活用されることを認識すべきである。たとえば、局所基準データベース916は、視覚探索サーバ810によって1日に一回だけ更新してもよい。
前の実施形態と比べると、この解決策は、より迅速である、というのは送信されるデータ量がかなり減少されるからである。したがって、この解決策は、拡張現実用途に特に適している。
提案する方法のさらなる可能な応用は、立体カメラシステムに属するビデオカメラの自動的な較正である。較正の目的は、いわゆる基本行列、すなわち、取得システムの固有のパラメータおよび外的なパラメータを記述する行列の生成である。固有のパラメータは、カメラ構成(たとえば焦点距離)を記述し、さらに外的なパラメータは、空間内のカメラの位置を記述する。
図10の概略フローチャートに例示するように、第1のカメラ1002が第1の画像を取得し(ブロック1004)、それは、対応する第1のキーポイントを識別するために、処理される(ブロック1006)。ひとたび第1のキーポイントが識別されると、その局所的な特色が、対応する第1の局所記述子によって記述される(ブロック1008)。同様に、第2のカメラ1010が第2の画像を取得し(ブロック1012)、それは、対応する第2のキーポイントを見出すために、処理される(ブロック1014)。次いで、それらキーポイントの局所的な特色が、対応する第2の局所記述子によって記述される(ブロック1016)。
第1の局所記述子を第2の局所記述子と比較することによって、第1の画像と第2の画像の間のキーポイントのマッチが生成される(ブロック1018)。次いで、本発明の方法を適用することによって、インライアであるキーポイントのマッチが、識別される(ブロック1020)。
ひとたびインライアが識別されると、新しいキーポイントのマッチを見出すために(ブロック1024)、反復処置が、基本行列を推定するために実行される(ブロック1022)。これらの操作は、R.Hartleyによる「In defense of the Eight−Point Algorithm(8ポイントアルゴリズムを守るために)」、「IEEE Transactions on pattern analysis and machine intelligence(IEEEパターン解析および人工知能会報)」、Vol 19、No.6、1997年6月に述べられている処置に従って実行することができる。次いで、新しいキーポイントのマッチは、インライアを識別するために、やはり本発明の方法によって処理される(ブロック1026)。この処置(すなわちブロック1022、1024および1026に対応する処置)は、インライア数が安定するまで繰り返される。
前の記述は、本発明のいくつかの実施形態を詳細に提示し議論している。それでもなお、述べた実施形態に対するいくつかの変更、さらにまた異なる発明の実施形態が、添付の請求項によって定義される範囲から逸脱せずに可能である。
たとえば、本記述では、ログ距離比(LDR)を参照しているが、ヒストグラムが差の距離の比、たとえば対数でなく単純な距離の比を用いて解釈される場合、同様の考慮が適用できる。さらにまた、ヒストグラムがログ距離比の倍数および/または累乗を用いて解釈される場合、同様の考慮が適用できる。
さらに、たとえヒストグラムのビンの幅が互いに異なる場合でさえ、本発明の概念を適用することができる。
Claims (13)
- 第1の画像を第2の画像と比較するための方法であって、
前記第1の画像中の第1のキーポイントおよび前記第2の画像中の第2のキーポイントを識別するステップと、
各第1のキーポイントを対応する第2のキーポイントと関連付けることによって、第1のキーポイントと第2のキーポイントの間のマッチを形成するステップと、
複数の第1の距離の比を算出するステップであって、各第1の距離の比は、前記第1のキーポイントのペアの間の距離と、第1のキーポイントの前記ペアにマッチする、前記第2のキーポイントの対応するペアの間の距離との比に基づく、算出するステップと、
それぞれが前記第1の距離の比の値の各々の区間に対応する、複数の順序付けられたビンを有するヒストグラム中の前記算出された複数の第1の距離の比の値の分布を調整するステップであって、前記ヒストグラムは、各ビンについて、値が前記各々の区間内に含まれる前記分布の第1の距離の比の対応する数を数え上げる、調整するステップと、
前記第1の画像および前記第2の画像中のキーポイントのペアのランダムな選択に対応する、複数の第2の距離の比の統計的な分布を表すアウトライア密度関数を生成するステップであって、前記複数の第2の距離の比は、前記第1の画像中の第1のキーポイントのペアの間の距離と、前記第2の画像中のランダムに選択された第2のキーポイントの対応するペアの間の距離との比に基づく、生成するステップと、
前記ビンのそれぞれについて、対応するアウトライア確率密度値を生成することによって、前記アウトライア密度関数を離散化するステップと
を含み、
正しいキーポイントのマッチの数を求めるステップであって、正しいキーポイントのマッチのそれぞれが、前記第1の画像および前記第2の画像中に描写された同じ物体の同じポイントに対応する第1のキーポイントおよび第2のキーポイントによって形成され、正しいキーポイントのマッチの数を求める前記ステップは、
行列を求めるステップであって、前記行列の各要素は、キーポイントのマッチの各々のペアに対応し、キーポイントのマッチの前記各々のペアの前記距離の比を含む前記ビンでの前記ヒストグラムの値と、パラメータ(β)によって重み付けられた、前記ビンに対応する前記アウトライア確率密度値との間の差に対応する値を有する、行列を求めるステップと、
前記行列の主固有ベクトルがあるベクトル(r)に等しくなるように、前記パラメータ(β)の値を求めるステップであって、前記あるベクトル(r)の各要素は、該要素に対応するキーポイントのマッチが正しいキーポイントのマッチである場合、非ゼロ値であり、該要素に対応するキーポイントのマッチが間違っているキーポイントのマッチである場合、ゼロ値である、ステップと、
前記主固有ベクトルに関連付けられた主固有値の関数として、正しいキーポイントのマッチの数を求めるステップと
を含む、正しいキーポイントのマッチの数を決定するステップ
を含み、
前記第1の画像を前記第2の画像と比較するために、求められた正しいキーポイントのマッチの数が活用されることを特徴とする、方法。 - 主固有値の式として、正しいキーポイントのマッチの数を求める前記ステップは、
正しいキーポイントのマッチの数を、主固有値とある差の最大値との比の式として求めるステップであって、前記ある差は、キーポイントのマッチの前記各々のペアの距離の比を含む前記ビンでの前記ヒストグラムの値と、前記ビンに対応する前記アウトライア確率密度値との間の差であり、前記アウトライア確率密度値は、前記求められたパラメータ(β)によって重み付けられる、求めるステップ
を含む、請求項1に記載の方法。 - 主固有値の式として、正しいキーポイントのマッチの数を求める前記ステップは、主固有値と前記最大値との前記比に1をプラスした数として、正しいキーポイントのマッチの数を求めるステップを含む、請求項2に記載の方法。
- 前記正しいキーポイントのマッチの前記数に等しい数であって、絶対値がもっとも大きい前記主固有ベクトルの要素の数を識別することによって、どのキーポイントのマッチがもっとも正しそうなキーポイントのマッチであるのかを識別するステップをさらに含む、請求項1から3のいずれか一項に記載の方法。
- 前記複数の第1の距離の比は、前記第1のキーポイントのペアの間の距離と、第1のキーポイントの前記ペアとマッチする前記第2のキーポイントの対応するペアの間の距離との比の対数に対応する、請求項1から4のいずれか一項に記載の方法。
- 前記パラメータ(β)は、前記ヒストグラムを前記離散化されたアウトライア密度関数上に投影した結果である、請求項1から5のいずれか一項に記載の方法。
- 第1の画像を第2の画像と比較するための装置であって、
前記第1の画像中の第1のキーポイントおよび前記第2の画像中の第2のキーポイントを識別するように構成される第1の識別ユニットと、
各第1のキーポイントを対応する第2のキーポイントと関連付けることによって、第1のキーポイントと第2のキーポイントの間のマッチを形成するように構成される関連付けユニットと、
複数の第1の距離の比を算出するように構成される算出ユニットであって、各第1の距離の比は、前記第1のキーポイントのペアの間の距離と、第1のキーポイントの前記ペアにマッチする前記第2のキーポイントの対応するペアの間の距離との比に基づく、算出ユニットと、
それぞれが前記第1の距離の比の値の各々の区間に対応する、複数の順序付けられたビンを有するヒストグラム中の前記算出された複数の第1の距離の比の値の分布を調整するように構成される調整ユニットであって、前記ヒストグラムは、各ビンについて、値が前記各々の区間内に含まれる分布の第1の距離の比の対応する数を数え上げる、調整ユニットと、
前記第1の画像および前記第2の画像中のキーポイントのペアのランダムな選択に対応する複数の第2の距離の比の統計的な分布を表すアウトライア密度関数を生成するように構成される生成ユニットであって、前記複数の第2の距離の比は、前記第1の画像中の第1のキーポイントの前記ペアの間の距離と、前記第2の画像中の前記ランダムに選択された第2のキーポイントの対応するペアの間の距離との比に基づく、生成ユニットと、
各ビンについて対応するアウトライア確率密度値を生成することによって、前記アウトライア密度関数を離散化するように構成される離散化ユニットと
を含み、
正しいキーポイントのマッチの数を求めるように構成される決定ユニットであって、正しいキーポイントのマッチのそれぞれは、前記第1の画像および前記第2の画像中に描写された同じ物体の同じポイントに対応する第1のキーポイントおよび第2のキーポイントによって形成され、前記決定ユニットは、
行列を求めるように構成される第1の決定サブユニットであって、前記行列の各要素は、キーポイントのマッチの各々のペアに対応し、キーポイントのマッチの前記各々のペアの前記距離の比を含むビンでの前記ヒストグラムの値と、パラメータ(β)によって重み付けられた、前記ビンに対応するアウトライア確率密度値との差に対応する値を有する、第1の決定サブユニットと、
前記行列の主固有ベクトルがあるベクトル(r)に等しくなるように、前記パラメータ(β)の値を求めるように構成される第2の決定サブユニットであって、前記あるベクトル(r)の各要素は、該要素に対応するキーポイントのマッチが正しいキーポイントのマッチである場合、非ゼロ値であり、該要素に対応するキーポイントのマッチが間違っているキーポイントのマッチである場合、ゼロ値である、第2の決定サブユニットと、
正しいキーポイントのマッチの数を、前記主固有ベクトルに関連付けられた主固有値の式として求めるように構成される第3の決定サブユニットと
を含む、決定ユニット
を含み、
前記装置は、求められた正しいキーポイントのマッチの数を活用して、前記第1の画像を前記第2の画像と比較するように構成される比較ユニットをさらに含むことを特徴とする、装置。 - 前記正しいキーポイントのマッチの前記数に等しい数であって、絶対値がもっとも大きい前記主固有ベクトルの要素の数を識別することによって、どのキーポイントのマッチが、もっとも正しそうなキーポイントのマッチであるのかを識別するように構成される識別ユニットをさらに含む、請求項7に記載の装置。
- システムであって、
質問画像を受け、前記画像中の対応する第1のキーポイントを識別するように構成されるキーポイント検出ユニットと、
対応する第1の局所記述子によって、前記第1のキーポイントの局所的な特色を記述するように構成される特徴計算ユニットと、
複数の基準画像を格納する基準データベースであって、前記基準データベースは、各基準画像について、対応する第2のキーポイントおよび前記第2のキーポイントの対応する第2の局所記述子をさらに格納する、基準データベースと、
基準画像の少なくとも1つの群の各基準画像について、前記第1の局所記述子を前記基準画像の前記第2の局所記述子と比較し、それに応じて前記第1のキーポイントを前記基準画像の前記第2のキーポイントと関連付けて、キーポイントのマッチの対応するセットを生成するように構成される特徴マッチングユニットと、
前記特徴マッチングユニットによって実行された比較に基づき、基準図のサブセットを選択するように構成される選択ユニットと、
前記質問画像および前記サブセットの基準画像を含む各ペアについて、正しいキーポイントのマッチの数を算出するように構成される最適化ユニットであって、前記最適化ユニットは、請求項7または8に記載の前記装置を含む、最適化ユニットと
を含む、システム。 - 視覚探索サーバと、質問画像を前記視覚探索サーバにネットワークを介して提供するように構成される複数の端末とをさらに含み、
前記視覚探索サーバは、前記キーポイント検出ユニットと、前記特徴計算ユニットと、前記基準データベースと、前記特徴マッチングユニットと、前記選択ユニットと、前記最適化ユニットとを含む、請求項9に記載のシステム。 - 視覚探索サーバと、質問画像を前記視覚探索サーバにネットワークを介して提供するように構成される複数の端末とをさらに含み、
前記視覚探索サーバは、前記基準データベースと、前記特徴マッチングユニットと、前記選択ユニットと、前記最適化ユニットとを含み、
各端末は、各々のキーポイント検出ユニットと、各々の特徴計算ユニットとを含む、請求項9に記載のシステム。 - 視覚探索サーバと、データを前記視覚探索サーバとネットワークを介して交換するように構成される複数の端末とをさらに含み、
前記視覚探索サーバは、前記基準データベースを含み、
各端末は、各々のキーポイント検出ユニットと、各々の特徴計算ユニットと、各々の特徴マッチングユニットと、各々の選択ユニットと、各々の最適化ユニットと、各々の局所データベースとを含み、
各端末は、前記基準データベース中に格納された第2のキーポイントおよび前記第2のキーポイントの対応する第2の局所記述子の各々のセットを前記視覚探索サーバから受けるように構成され、
前記端末の局所データベースは、第2のキーポイントおよび第2の局所記述子の受けた前記セットを格納するように構成され、第2のキーポイントおよび第2の局所記述子の格納された前記セットは、前記基準画像の少なくとも1つの群の基準画像に対応する、請求項9に記載のシステム。 - 画像を読み出すための方法であって、
質問画像を受け、前記画像中の対応する第1のキーポイントを識別するステップと、
前記質問画像を複数の基準画像と比較するステップであって、第2のキーポイントが、各基準画像と関連付けられ、それに応じて前記第1のキーポイントを前記基準画像の前記第2のキーポイントに関連付けて、キーポイントのマッチの対応するセットを生成する、比較するステップと、
前記質問画像と前記複数の基準画像のそれぞれとの間の正しいキーポイントのマッチの数を、請求項1から6のいずれか一項に記載の前記方法に基づき求めるステップと、
正しいキーポイントのマッチの数が予め定めた閾値を超える基準画像としての基準画像のサブセットを選択するステップと
を含む、方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2012/050025 WO2013102488A1 (en) | 2012-01-02 | 2012-01-02 | Method and system for comparing images |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2015504215A JP2015504215A (ja) | 2015-02-05 |
JP2015504215A5 true JP2015504215A5 (ja) | 2015-10-29 |
JP5848833B2 JP5848833B2 (ja) | 2016-01-27 |
Family
ID=45833302
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014550649A Active JP5848833B2 (ja) | 2012-01-02 | 2012-01-02 | 画像を比較するための方法およびシステム |
Country Status (8)
Country | Link |
---|---|
US (1) | US9245204B2 (ja) |
EP (1) | EP2801054B1 (ja) |
JP (1) | JP5848833B2 (ja) |
KR (1) | KR101833953B1 (ja) |
CN (1) | CN104115161B (ja) |
AR (1) | AR089532A1 (ja) |
BR (1) | BR112014016301B1 (ja) |
WO (1) | WO2013102488A1 (ja) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103502811B (zh) * | 2011-03-17 | 2015-11-25 | 纽约大学 | 用于检验和鉴别物理对象的设备和方法 |
CN105934757B (zh) | 2014-01-30 | 2019-06-07 | 华为技术有限公司 | 一种用于检测第一图像的关键点和第二图像的关键点之间的不正确关联关系的方法和装置 |
JP6474210B2 (ja) * | 2014-07-31 | 2019-02-27 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 大規模画像データベースの高速検索手法 |
WO2016058626A1 (en) * | 2014-10-13 | 2016-04-21 | Telecom Italia S.P.A. | Method and system for comparing video shots |
WO2017114581A1 (en) | 2015-12-30 | 2017-07-06 | Telecom Italia S.P.A. | System for generating 3d images for image recognition based positioning |
US9824299B2 (en) * | 2016-01-04 | 2017-11-21 | Bank Of America Corporation | Automatic image duplication identification |
US9626596B1 (en) | 2016-01-04 | 2017-04-18 | Bank Of America Corporation | Image variation engine |
US20170323149A1 (en) * | 2016-05-05 | 2017-11-09 | International Business Machines Corporation | Rotation invariant object detection |
WO2018121841A1 (en) | 2016-12-27 | 2018-07-05 | Telecom Italia S.P.A. | Method and system for identifying targets in scenes shot by a camera |
JP7003617B2 (ja) * | 2017-12-12 | 2022-01-20 | 富士通株式会社 | 推定装置、推定方法、及び推定プログラム |
US10997232B2 (en) * | 2019-01-23 | 2021-05-04 | Syracuse University | System and method for automated detection of figure element reuse |
CN109992977B (zh) * | 2019-03-01 | 2022-12-16 | 西安电子科技大学 | 一种基于安全多方计算技术的数据异常点清洗方法 |
CN110942061A (zh) * | 2019-10-24 | 2020-03-31 | 泰康保险集团股份有限公司 | 文字识别方法、装置、设备和计算机可读介质 |
CN110838104B (zh) * | 2019-10-30 | 2022-08-23 | 上海联影智能医疗科技有限公司 | 多时间点的感兴趣区域匹配方法、设备和存储介质 |
CN111476780B (zh) * | 2020-04-07 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 一种图像检测方法、装置、电子设备以及存储介质 |
US20220092334A1 (en) * | 2020-09-22 | 2022-03-24 | Apple Inc. | Contextual Matching |
CN112712123B (zh) * | 2020-12-31 | 2022-02-22 | 上海商汤科技开发有限公司 | 匹配筛选方法、装置、电子设备和计算机可读存储介质 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4492036B2 (ja) * | 2003-04-28 | 2010-06-30 | ソニー株式会社 | 画像認識装置及び方法、並びにロボット装置 |
US7869631B2 (en) * | 2006-12-11 | 2011-01-11 | Arcsoft, Inc. | Automatic skin color model face detection and mean-shift face tracking |
US8165352B1 (en) * | 2007-08-06 | 2012-04-24 | University Of South Florida | Reconstruction of biometric image templates using match scores |
GB0807411D0 (en) | 2008-04-23 | 2008-05-28 | Mitsubishi Electric Inf Tech | Scale robust feature-based indentfiers for image identification |
US8391615B2 (en) | 2008-12-02 | 2013-03-05 | Intel Corporation | Image recognition algorithm, method of identifying a target image using same, and method of selecting data for transmission to a portable electronic device |
US8401342B2 (en) | 2009-01-16 | 2013-03-19 | A9.Com, Inc. | System and method to match images using topologically equivalent correspondences |
WO2010128511A1 (en) | 2009-05-06 | 2010-11-11 | Superfish Ltd. | Method for organizing a database of images and retrieving images from that database according to a query image |
US8406532B2 (en) | 2009-06-17 | 2013-03-26 | Chevron U.S.A., Inc. | Image matching using line signature |
GB2488445A (en) * | 2009-08-06 | 2012-08-29 | Toshiba Res Europ Ltd | Correlated probabilistic trajectories pedestrian motion detection using a decision forest |
JP5385105B2 (ja) * | 2009-11-25 | 2014-01-08 | Kddi株式会社 | 画像検索方法およびシステム |
KR101420549B1 (ko) * | 2009-12-02 | 2014-07-16 | 퀄컴 인코포레이티드 | 쿼리 및 모델 이미지들에서 검출된 키포인트들을 클러스터링함에 따른 특징 매칭 방법, 디바이스 그리고 프로세서 판독가능 매체 |
US9008424B2 (en) | 2011-01-25 | 2015-04-14 | Telecom Italia S.P.A. | Method and system for comparing images |
-
2012
- 2012-01-02 KR KR1020147021287A patent/KR101833953B1/ko active IP Right Grant
- 2012-01-02 JP JP2014550649A patent/JP5848833B2/ja active Active
- 2012-01-02 CN CN201280069517.5A patent/CN104115161B/zh active Active
- 2012-01-02 EP EP12708685.8A patent/EP2801054B1/en active Active
- 2012-01-02 BR BR112014016301-4A patent/BR112014016301B1/pt active IP Right Grant
- 2012-01-02 US US14/370,098 patent/US9245204B2/en active Active
- 2012-01-02 WO PCT/EP2012/050025 patent/WO2013102488A1/en active Application Filing
- 2012-12-28 AR ARP120105059A patent/AR089532A1/es active IP Right Grant
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5848833B2 (ja) | 画像を比較するための方法およびシステム | |
JP2015504215A5 (ja) | ||
JP5734460B2 (ja) | 画像を比較するための方法およびシステム | |
Bagri et al. | A comparative study on feature extraction using texture and shape for content based image retrieval | |
CN105069424B (zh) | 面部快速识别系统和方法 | |
JP5261501B2 (ja) | 不変の視覚場面及び物体の認識 | |
Lepsøy et al. | Statistical modelling of outliers for fast visual search | |
CN102782708A (zh) | 用于图像辨识的描述符小块的快速子空间投影 | |
JP2010518507A (ja) | 特徴マッチング方法 | |
CN110532413B (zh) | 基于图片匹配的信息检索方法、装置、计算机设备 | |
JP2013109773A (ja) | 特徴マッチング方法及び商品認識システム | |
CN113793370A (zh) | 三维点云配准方法、装置、电子设备及可读介质 | |
CN113920382B (zh) | 基于类一致性结构化学习的跨域图像分类方法和相关装置 | |
Hegde et al. | Learning manifolds in the wild | |
Chandrakala et al. | Application of artificial bee colony optimization algorithm for image classification using color and texture feature similarity fusion | |
CN108446737B (zh) | 用于识别对象的方法和装置 | |
CN115063473A (zh) | 物体高度的检测方法、装置、计算机设备、存储介质 | |
CN107077590B (zh) | 用于比较视频镜头的方法和系统 | |
Akbulut et al. | A cloud-based recommendation service using principle component analysis–scale-invariant feature transform algorithm | |
Pitchandi | Wild Image Retrieval with HAAR Features and Hybrid DBSCAN Clustering for 3D Cultural Artefact Landmarks Reconstruction | |
Al-Oraiqat et al. | A modified image comparison algorithm using histogram features | |
CN114821661A (zh) | 无监督行人再识别方法、装置、设备及可读存储介质 | |
Treiber et al. | Flexible Shape Matching | |
Frederix et al. | Distribution-Free Statistics for Segmentation: Wielding Occam’s Razor |