JP6042778B2 - 画像に基づくバイナリ局所特徴ベクトルを用いた検索装置、システム、プログラム及び方法 - Google Patents

画像に基づくバイナリ局所特徴ベクトルを用いた検索装置、システム、プログラム及び方法 Download PDF

Info

Publication number
JP6042778B2
JP6042778B2 JP2013148076A JP2013148076A JP6042778B2 JP 6042778 B2 JP6042778 B2 JP 6042778B2 JP 2013148076 A JP2013148076 A JP 2013148076A JP 2013148076 A JP2013148076 A JP 2013148076A JP 6042778 B2 JP6042778 B2 JP 6042778B2
Authority
JP
Japan
Prior art keywords
image
vector
query
identifier
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013148076A
Other languages
English (en)
Other versions
JP2015022383A (ja
Inventor
祐介 内田
祐介 内田
茂之 酒澤
茂之 酒澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2013148076A priority Critical patent/JP6042778B2/ja
Publication of JP2015022383A publication Critical patent/JP2015022383A/ja
Application granted granted Critical
Publication of JP6042778B2 publication Critical patent/JP6042778B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

本発明は、バイナリ局所特徴ベクトルを用いて画像を検索する技術に関する。
近年、局所特徴点に基づいた画像認識や検索技術が注目されている。物体認識に用いる特徴ベクトルの抽出アルゴリズムとしては、回転やスケールの変化にロバストな、例えばSIFT(Scale-Invariant Feature Transform)(例えば非特許文献1参照)やSURF(Speeded Up Robust Features)が用いられる。例えばSIFTの場合、1枚の画像からは128次元の特徴ベクトルの集合が抽出される。SIFTとは、スケールスペースを用いて特徴的な局所領域を解析し、そのスケール変化及び回転に不変となる特徴ベクトルを記述する技術である。一方で、SURFの場合、SIFTよりも高速処理が可能であって、1枚の画像から64次元の特徴ベクトルの集合が抽出される。SIFTは、処理コストが高く且つリアルタイムマッチングが困難であるのに対し、SURFは、積分画像を利用することによって処理を高速化している。
従来、局所特徴量を用いた類似画像検索の枠組みは、「Bag-of-Visual Words」(又はBag-of-Features、Bag-of-Keypoints)と称される(例えば非特許文献1参照)。この技術によれば、Bag-of-Wordsモデル及び転置インデックスを用いた文章の検索方法を、類似画像の検索に適用したものである。Bag-of-Wordsは、文章を1つの単語の頻度により定義される特徴ベクトルで表現し、文章集合に基づいて予め導出されたIDF(Inverse Document Frequency)を単語の重みとして文章間の類似度を導出する枠組みである。これに対し、Bag-of-Visual Wordsは、画像の局所特徴量を量子化し、量子化後の局所特徴量を単語と見立て、同様に頻度により定義される1つの特徴ベクトルとして表現し、IDFを用いた重み付けを利用して同一の類推方法を適用することができる。
一方で、スマートフォンやタブレット端末のようなモバイル端末が普及する中で、コンテンツ検索処理に対して、更なる省メモリ化及び高速マッチング化が要求されてきている。特に、拡張現実感(Augmented Reality, AR)の用途における画像認識の技術分野によれば、リアルタイムに処理するべく、SIFTやSURFよりも更に高速にコンテンツを検索することが要求される。そこで、バイナリ局所特徴ベクトルを用いた抽出アルゴリズムであるFAST(例えば非特許文献2参照)やFREAK(例えば非特許文献3参照)が注目されている。これら技術によれば、SIFTやSURFよりも高速に特徴ベクトルが抽出でき、更に抽出される特徴ベクトルもコンパクトとなる。
特開2010−282581号公報
J. Sivic et al., "Video Google: A Text Retrieval Approach toObject Matching in Videos," in Proc. ICCV, 2003. E. Rublee, V. Rabaud, K. Konolige, and G. Bradski, "ORB: Anefficient alternative to SIFT or SURF," in Proc. ICCV, 2011. A. Alahi, R. Ortiz, and P. Vandergheynst, "FREAK: Fast RetinaKeypoint," in Proc. CVPR, 2012. O. Boiman, E. Shechtman, and M. Irani, "In defense ofnearest-neighbor based image classification," in Proc. of CVPR, 2008.
非特許文献1に記載された従来の類似画像検索の枠組みでは、特徴ベクトルを量子化し、文書検索で用いられるIDF類似度の導出に利用していた。しかしながら、この量子化処理は、特徴ベクトル間の分別性を低下させ、検索精度を低下されることが指摘されている(例えば非特許文献4参照)。
また、既存の画像認識技術を大規模なシステムに適用した場合、一般的には、大量のリファレンス画像を蓄積したデータベースのサーバを、クラウドに設置することが想定される。この場合、例えばスマートフォンのようなクライアントは、自ら撮影されたクエリ画像をサーバへ送信し、そのサーバから最も類似するリファレンス画像(又はリファレンス情報)を受信することができる。
この場合、サーバにおける処理負荷軽減のために、クライアントが、画像から局所特徴ベクトルを抽出し、その局所特徴ベクトルをサーバへ送信することも想定できる。これによって、データベースサーバにおける局所特徴抽出処理の負荷が軽減されると共に、画像そのものをネットワークを介して送信するよりも、データ量が少ないという利点がある。
しかしながら、現実的には、FASTやFREAKのようなバイナリ局所特徴ベクトルを用いたとしても、サーバにおけるバイナリ局所特徴ベクトルの検索処理の負荷は依然として大きい。また、バイナリ局所特徴ベクトルは次元数が大きいために、送信データ量も依然として大きい。
そこで、本発明は、バイナリ局所特徴ベクトルを用いた画像の検索処理の負荷を軽減する検索装置、システム、プログラム及び方法を提供することを目的とする。
本発明によれば、リファレンス画像から抽出されたリファレンスベクトルの集合から、クエリ画像のクエリベクトルに類似したベクトルを検索する検索装置であって、
リファレンス画像について、リスト識別子LIDn毎に、リファレンス画像識別子と、粗量子化及び直積量子化を用いて符号化した画像特徴符号との複数の組を対応付けた転置インデックスを登録する転置インデックス登録手段と、
クエリ画像についてリスト識別子LIDnと画像特徴符号の複数の組を入力する検索手段とを有し、
検索手段は、
クエリ画像の各リスト識別子と画像特徴符号の組について、当該リスト識別子に対応する転置インデックスのリストを取得し、
クエリ画像の画像特徴符号と、取得したリスト中のリファレンス画像の各画像特徴符号との間の距離を算出し、
距離が短いほど高くなるスコア値を算出し、
当該リファレンス画像毎に該スコア値を累積加算し、
スコア値が最も高くなるリファレンス画像を検索結果として出力する
ことを特徴とする。
本発明の検索装置における他の実施形態によれば、検索手段は、距離が短い上位所定件数(K)に相当するスコア値のみを当該リファレンス画像に累積加算することも好ましい。
本発明の検索装置における他の実施形態によれば、検索手段について、上位所定件数(K)は、予め設定された固定数か、又は、予め設定された距離に関する閾値THに基づいて当該距離が閾値TH以下となる距離の数であることも好ましい。
本発明の検索装置における他の実施形態によれば、
検索手段について、上位所定件数(K)のうちi件目に対応する加算スコアは、
(1)k番目の距離の二乗からi番目の距離の二乗を引いたものとするか、
(2)k番目の距離の二乗とi番目の距離の二乗の比から1を引いたものとするか、
(3)k番目の距離とi番目の距離の比の二乗から1を引いたものとするか、又は、
(4)k番目の距離とi番目の距離の比から1を引いたものの二乗とする
ことも好ましい。
本発明の検索装置における他の実施形態によれば、
画像特徴符号は、直積量子化のための残差コードブックの代表ベクトルの識別子の列で表されており、
画像特徴符号間の距離は、第1の識別子列x及び第2の識別子列yについて、第1の識別子列xのl番目の識別子に対応する代表ベクトルと第2の識別子列yのl番目の識別子に対応する代表ベクトルとの間の各距離を1≦l≦Lについて総和したものである
ことも好ましい。
本発明の検索装置における他の実施形態によれば、
画像特徴符号間の距離は、残差コードブックにおける2つの第1の識別子列x及び第2の識別子列yの総当りの組み合わせについて、第1の識別子列xの代表ベクトルと第2の識別子列yの代表ベクトルとの間の距離を登録したテーブルTを用いて算出されることも好ましい。
本発明の検索装置における他の実施形態によれば、
クエリ画像及びリファレンス画像から局所特徴のクエリベクトル及びリファレンスベクトルを抽出する局所特徴抽出手段と、
局所特徴抽出手段から出力されたクエリベクトル及びリファレンスベクトルに対して、コードブックを用いて第1階層で粗量子化し、その量子化誤差を残差コードブックを用いて第2階層で直積量子化し、当該クエリ画像についてリスト識別子LIDn毎に画像特徴符号の複数の組を検索手段へ出力し、当該リファレンス画像についてリスト識別子LIDn毎に画像特徴符号の複数の組を転置インデックス登録手段へ出力する符号化手段と
を有することも好ましい。
本発明の検索装置における他の実施形態によれば、
局所特徴抽出手段は、ORB(Oriented FAST and Rotated BRIEF)又はFREAK(Fast
Retina Keypoint)に基づくバイナリ局所特徴ベクトルを抽出し、
コードブックは、バイナリ局所特徴ベクトルのリファレンスベクトルを、K-Medoids法を用いてクラスタリングしたものであり、
粗量子化は、バイナリ局所特徴ベクトルのクエリベクトルを、コードブック内の最も類似したバイナリ代表ベクトルに割り当て、
量子化誤差は、バイナリ特徴ベクトルと、そのバイナリ特徴ベクトルに最も類似したバイナリ代表ベクトルとの排他的論理和によって算出されることも好ましい。
本発明によれば、前述した検索装置として機能するサーバと、クエリ画像を入力する端末とを有するシステムであって、
端末は、
クエリ画像から局所特徴のクエリベクトルを抽出する局所特徴抽出手段と、
局所特徴抽出手段から出力されたクエリベクトルに対して、コードブックを用いて第1階層で粗量子化し、その量子化誤差を残差コードブックを用いて第2階層で直積量子化し、当該クエリ画像についてリスト識別子LIDn毎に画像特徴符号の複数の組を出力する符号化手段と、
クエリ画像におけるリスト識別子LIDn毎の画像特徴符号の複数の組を、サーバへ送信するクエリ符号送信手段と、
サーバから、検索された1つ以上のリファレンス画像を受信し且つ出力するリファレンス画像受信手段とを有し、
サーバは、
リファレンス画像から局所特徴のリファレンスベクトルを抽出する局所特徴抽出手段と、
局所特徴抽出手段から出力されたリファレンスベクトルに対して、コードブックを用いて第1階層で粗量子化し、その量子化誤差を残差コードブックを用いて第2階層で直積量子化し、当該リファレンス画像についてリスト識別子LIDn毎に画像特徴符号の複数の組を、転置インデックス登録手段へ出力する符号化手段と、
端末から、クエリ画像についてリスト識別子LIDn毎に画像特徴符号の複数の組を受信するクエリ符号受信手段と、
スコア値が最も高くなるリファレンス画像を検索結果として送信するリファレンス画像送信手段と
を有することを特徴とする。
本発明のシステムにおける他の実施形態によれば、
局所特徴抽出手段は、ORB又はFREAKに基づくバイナリ局所特徴ベクトルを抽出し、
コードブックは、バイナリ局所特徴ベクトルのリファレンスベクトルを、K-Medoids法を用いてクラスタリングしたものであり、
粗量子化は、バイナリ局所特徴ベクトルのクエリベクトルと、コードブック内のバイナリ代表ベクトルとを排他的論理和によって算出する
ことも好ましい。
本発明によれば、装置に搭載されたコンピュータを、リファレンス画像から抽出されたリファレンスベクトルの集合から、クエリ画像のクエリベクトルに類似したベクトルを検索するように機能させるプログラムであって、
リファレンス画像について、リスト識別子LIDn毎に、リファレンス画像識別子と、粗量子化及び直積量子化を用いて符号化した画像特徴符号との複数の組を対応付けた転置インデックスを登録する転置インデックス登録手段と、
クエリ画像についてリスト識別子LIDnと画像特徴符号の複数の組を入力する検索手段とを有し、
検索手段は、
クエリ画像の各リスト識別子と画像特徴符号の組について、当該リスト識別子に対応する転置インデックスのリストを取得し、
クエリ画像の画像特徴符号と、取得したリスト中のリファレンス画像の各画像特徴符号との間の距離を算出し、
距離が短いほど高くなるスコア値を算出し、
当該リファレンス画像毎に該スコア値を累積加算し、
スコア値が最も高くなるリファレンス画像を検索結果として出力する
ようにコンピュータを機能させることを特徴とする。
本発明によれば、装置を用いて、リファレンス画像から抽出されたリファレンスベクトルの集合から、クエリ画像のクエリベクトルに類似したベクトルを検索する検索方法であって、
リファレンス画像について、リスト識別子LIDn毎に、リファレンス画像識別子と、粗量子化及び直積量子化を用いて符号化した画像特徴符号との複数の組を対応付けた転置インデックスを登録する転置インデックス登録部を有し、
クエリ画像についてリスト識別子LIDnと画像特徴符号の複数の組を入力する第1のステップと、
クエリ画像の各リスト識別子と画像特徴符号の組について、当該リスト識別子に対応する転置インデックスのリストを取得する第2のステップと、
クエリ画像の画像特徴符号と、取得したリスト中のリファレンス画像の各画像特徴符号との間の距離を算出する第3のステップと、
距離が短いほど高くなるスコア値を算出する第4のステップと、
当該リファレンス画像毎に該スコア値を累積加算する第5のステップと、
スコア値が最も高くなるリファレンス画像を検索結果として出力する第6のステップと
を有することを特徴とする。
本発明の検索装置、システム、プログラム及び方法によれば、バイナリ局所特徴ベクトルを用いた画像の検索処理の負荷を軽減することができる。
本発明におけるシステム構成図である。 本発明における符号化部の機能構成図である。 符号化部の処理を表す説明図である。 転置インデックス登録部のデータ構造を表す説明図である。 検索部における処理を表す説明図である。 本発明における検索部の処理を表すフローチャートである。
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
図1は、本発明におけるシステム構成図である。
本発明によれば、検索装置1は、大量のリファレンス画像を予め入力し且つ蓄積している。その上で、以下のように2つの実施の形態に区分できる。
(1)検索装置(単体):ユーザからクエリ画像が入力され、そのクエリ画像に対するリファレンス画像を検索し、そのリファレンス画像をユーザに対して出力する。
(2)サーバ−クライアント・システム:サーバとしての検索装置1と、クライアントとしての端末2とが、ネットワークを介して接続されている。端末2は、ユーザからクエリ画像が入力され、そのクエリ画像を検索装置1へ送信する。これに対し、検索装置1は、受信したクエリ画像に対するリファレンス画像を検索し、そのリファレンス画像を端末2へ返信する。そして、端末2は、そのリファレンス画像をユーザに対して出力する。
<検索装置1>
検索装置1は、局所特徴ベクトルの集合で表されるリファレンス画像(検索対象の画像)の集合から、同じく局所特徴ベクトルの集合で表されるクエリ画像(検索キーとなる画像)に類似したリファレンスコンテンツを検索する。検索装置1は、少なくとも、局所特徴抽出部11と、符号化部12と、転置インデックス登録部13と、検索部14とを有する。これら機能構成部は、検索装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。また、これら機能構成部の処理の流れは、装置を用いた検索方法としても理解できる。
[局所特徴抽出部11]
局所特徴抽出部11は、クエリ画像及びリファレンス画像から局所特徴のクエリベクトル及びリファレンスベクトルを抽出する。本発明によれば、バイナリ局所特徴ベクトルの抽出アルゴリズムとして、ORB(Oriented FAST and Rotated BRIEF)又はFREAK(Fast Retina Keypoint)を用いる。ORBの場合、1つのコンテンツから256ビットのバイナリ局所特徴ベクトルの集合が抽出される。例えば、高速にマッチングを実行するべく、バイナリコードによる特徴記述としてBRIEF(Binary Robust Independent Elementary Features)がある。本発明によれば、BRIEFに回転不変性を導入した特徴記述をすることができる「ORB」を用いる。特に、ORBによれば、SIFTやSURFと比較して、同等以上の精度を保持すると共に、数百倍の高速化を実現することができる。
ORBは、「特徴点検出処理」と「特徴ベクトル記述処理」との2つのステップから構成される。
(特徴点検出処理)
ORBの特徴点検出処理によれば、高速にキーポイントを検出するためにFAST(Features from Accelerated Segment Test)を用いる。また、FASTでは、スケール変化に対してロバストではないため、画像を複数のサイズに変換し、それぞれのサイズの画像から特徴点を抽出する。
また、既存のFASTには、回転不変性を得るためのキーポイントのオリエンテーション算出のアルゴリズムがない。そのために、ORBでは、回転不変性を得るべくOriented FASTを採用している。オリエンテーションを基準として特徴記述をすることによって、入力画像が回転していても、同一なキーポイントは同一な特徴量となって検出することができる。そのために、キーポイントの中心とパッチの輝度の重心の方向ベクトルを用いる。
(特徴ベクトル記述処理)
次に、ORBの特徴ベクトル記述処理によれば、検出された特徴点毎に、BRIEF特徴ベクトル記述子によってバイナリ局所特徴ベクトルが抽出される。これらは、特徴点周辺の2箇所のピクセルの輝度の大小関係から求められる。
BRIEFは、バイナリコードによってキーポイントの特徴量記述を実行することができる。SIFTやSURFによれば、特徴量記述に高次元の実数を用いていた。しかしながら、高次元の実数を用いた場合、メモリ容量の増加と類似度計算の増加と問題となる。そこで、ORBに基づくBRIEFを用いてバイナリコードの特徴記述によって省メモリ化し、類似度計算にハミング距離を用いて処理コストを抑制する。
BRIEFによれば、パッチ内においてランダムに選択された2点の輝度差の符号からバイナリコードを生成する。選択するピクセルは、キーポイント位置を中心としたガウス分布に従ってランダムに選択する。ここで、ORBは、更に高精度にマッチングをさせるために、学習を用いてピクセルを選択している。選択するピクセル位置は、ペアのビット分散が大きく且つN組のペアの相関が低い場合に、特徴記述能力が高いバイナリコードとして、特徴記述に使用する。N組のペアは、Greedyアルゴリズムを用いて絞り込む。
[符号化部12]
符号化部12は、局所特徴抽出部11から出力された、バイナリ局所特徴ベクトルのクエリベクトル及びリファレンスベクトルを画像特徴符号化して、その画像特徴符号を転置インデックス登録部13へ出力する。
図2は、本発明における符号化部の機能構成図である。
図3は、符号化部の処理を表す説明図である。
図2によれば、符号化部12は、コードブック記憶部120と、粗量子化部121と、残差ベクトル分割部122と、残差コードブック記憶部123と、直積量子化部124とを有する。
コードブック記憶部120は、バイナリ局所特徴ベクトルと同一ビット長の代表バイナリ局所特徴ベクトルB1〜Bsが記憶されている。ORBのバイナリ局所特徴ベクトルの場合、例えば256ビット長である。この代表バイナリ局所特徴ベクトルは、K-Medoids法を用いてクラスタリングして算出されたものであってもよい。
粗量子化部121は、局所特徴抽出部11から出力されたバイナリ局所特徴ベクトルBを、コードブック記憶部120のコードブックを用いて、第1階層として粗量子化する。ここでの量子化では、バイナリ局所特徴ベクトルBと最も類似した代表バイナリ局所特徴ベクトルBnのリスト識別子LIDを導出する。「最も類似した」とは、例えばハミング距離が最も近いものであってもよい。
LID=argmins ham(B,Bs
ham(x,y):xとyとのハミング距離
次に、入力されたバイナリ局所特徴ベクトルBと、そのBと最も類似した(例えばハミング距離が最も近くなる)バイナリ代表ベクトルBsとの排他的論理和を算出し、それを残差バイナリベクトルBRとする。
R=B XOR Bs (XOR:排他的論理和)
算出された残差バイナリベクトルBRは、残差ベクトル分割部122へ出力される。
残差ベクトル分割部122は、残差バイナリ局所特徴ベクトルBRを、L個の部分残差ベクトルに分割する。例えばL=8である場合、256ビット/8個=32ビットの部分残差ベクトルに区分される。各部分残差ベクトルは、直積量子化部124へ出力される。
残差コードブック記憶部123は、各部分残差ベクトルと同一ビット長の代表残差ベクトルB1〜Bsが記憶されている。例えば32ビット長である。この代表残差ベクトルも、K-Medoids法を用いてクラスタリングして算出されたものであってもよい。
直積量子化部124は、残差コードブック記憶部123を用いて、第2階層として直積量子化する。l(1〜L)番目の部分残差ベクトルを量子化するために、l番目のコードブックlを利用する。これによって、以下のような画像特徴符号RCが得られる。即ち、画像特徴符号RCは、直積量子化のための残差コードブックの代表ベクトルの識別子列で表され、以下のようにflをL個連結したものである。
RC=(f1,・・・,fL
バイナリ局所特徴ベクトルBを符号化した結果として、リスト識別子LIDと画像特徴符号RCとの組が得られる。
(LID, RC)
LID:log2Sビット(Sは、コードブック記憶部のコードブック数)
RC:L・log2Fビット(Fは、残差コードブック記憶部のコードブック数)
そして、直積量子化部124は、以下の2つの方向で出力する。
(1)当該クエリ画像のバイナリ局所特徴ベクトルについては、リスト識別子LIDn毎に、画像特徴符号RCの複数の組を、検索部14へ出力する。
(2)当該リファレンス画像のバイナリ局所特徴ベクトルについては、リスト識別子LIDn毎に、画像特徴符号RCの複数の組を、転置インデックス登録部13へ出力する。
[転置インデックス登録部13]
転置インデックス登録部13は、リスト識別子LIDn毎に、画像識別子RIDと画像特徴符号RCとの組(RID,RCn)をリストとして登録したものである。
図4は、転置インデックス登録部のデータ構造を表す説明図である。
リファレンス画像RIDについて、リスト識別子LIDn毎に、リスト識別子LIDと、粗量子化及び直積量子化を用いて符号化した画像特徴符号RCとの複数の組が対応付けられている。
RID -> (LID1,RC1)(LID2,RC2)・・・(LIDn,RCn)・・・(LIDN,RCN
組(LID,RC)毎に、その画像識別子RIDと画像特徴符号RCとの組(RID,RC)を、転置インデックスにおけるそのリスト識別子LIDに連結して登録する。
LID1 -> (RID,RC)(RID,RC)(RID,RC)・・・
LID2 -> (RID,RC)(RID,RC)(RID,RC)・・・
・・・
LIDn -> (RID,RC)(RID,RC)(RID,RC)・・・
・・・
[検索部14]
検索部14は、クエリ画像について、リスト識別子LIDnと画像特徴符号QCnの複数の組を入力する。
クエリ符号 ->(LID1,QC1)(LID2,QC2)・・・(LIDn,QCn)・・・(LIDN,QCN
図5は、検索部における処理を表す説明図である。
図6は、本発明における検索部の処理を表すフローチャートである。
検索部14は、以下の処理ステップを、リファレンス画像毎に実行し(S4)、最終的に、最も高いスコア値のリファレンス画像を検索結果として出力する(S5)。
score[]=0 (S0)
for each i=1〜N
転置インデックスのLIDi番目のリストを取得 (S1)
リスト中の組(RID1, RC1)〜(RIDM, RCM)について
クエリ画像に基づく組(QCi, RCj)の距離Dijを算出し、
距離と画像識別子の組(Dij, RIDj)を作成する (S2)
ijを昇順にソートする (S3)
上位K番目までの組Di'j'を選択する
for each k=1〜K
k番目のDi'j'について、score[RCj']+=S(Di'j',D)
end for
end for
(S0)最初に、初期設定として、変数score[]=0とする。
検索部14は、以下のS1〜S3の処理を、入力されたクエリ画像に基づくリスト識別子と画像特徴符号の組(LIDi, QCi)毎に、繰り返し実行する(i=1〜N)。
(S1)クエリ画像の各リスト識別子と画像特徴符号の組(LIDi,QCi)について、当該リスト識別子LIDiに対応する転置インデックスのリスト(RIDj,RCj)・・・を取得する。
(S2)転置インデックスの当該リスト識別子LIDiに並ぶリストの分だけ、以下の処理を繰り返し実行する(j=1〜M)。
クエリ画像の画像特徴符号QCiと、取得したリスト中のリファレンス画像の各画像特徴符号RCjとの間の距離Dijを算出する。そして、その距離Dijと画像識別子RIDjとの組(Dij, RIDj)を作成する。
画像特徴符号間の「距離」は、第1の識別子列x及び第2の識別子列yについて、第1の識別子列xのl番目の識別子に対応する代表ベクトルと第2の識別子列yのl番目の識別子に対応する代表ベクトルとの間の各距離を1≦l≦Lについて総和したものである。例えば2つの画像特徴符号を以下のように表したとする。
第1の画像特徴符号QCi=(x1,x2,・・・,xL
第2の画像特徴符号RCj=(y1,y2,・・・,yL
第1の画像特徴符号QCiと第2の画像特徴符号RCjとの間の距離Dij
=x1の代表ベクトルとy1の代表ベクトルとの間の距離
+x2の代表ベクトルとy2の代表ベクトルとの間の距離
+・・・・・
+・・・・・
+xLの代表ベクトルとyLの代表ベクトルとの間の距離
尚、画像特徴符号間の距離は、残差コードブックにおける2つの第1の識別子列x及び第2の識別子列yの総当りの組み合わせについて、第1の識別子列xの代表ベクトルと第2の識別子列yの代表ベクトルとの間の距離を登録したテーブルTを用いて算出されるものであってもよい。
テーブル:Tl[QCil][RCjl
距離Dij=Σ1 Ll[QCil][RCjl
即ち、l番目のコードを符号化する際に利用したl番目のコードブックCl内の代表バイナリベクトルCl1,Cl2,・・・,ClFについて、ClxとClyとの間の距離が予め計算されており、テーブルTl[x][y]に保持されていることとなる。
(S3)次に、距離Dijと画像識別子RIDjとの組(Dij, RIDj)を、距離が短い順(昇順)にソートする。
そして、距離が短い上位所定件数(K)のみを選択する。距離が短いとは、類似度が高いことを意味する。また、上位所定件数(K)は、予め設定された固定数であってもよい。又は、予め設定された距離に関する閾値THに基づいて当該距離が閾値TH以下となる距離の数であってもよい。
具体的には、上位K件の複数の組(Dij, RIDj)について、距離が短いほど高くなるスコア値を算出し、それらスコア値を累積加算する。具体的には、k番目の距離Di'j'及びK番目の距離Dを用いて、以下のいずれかによって、スコア値を算出する。
S(Di'j',D):k番目の距離を持つ画像への投票スコア値
(1)k番目の距離の二乗から、i番目の距離の二乗を引いたものとする
S(Di'j',D)=D2−Di'j' 2
(2)k番目の距離の二乗とi番目の距離の二乗の比から、1を引いたものとする
S(Di'j',D)=D2/Di'j' 2−1
(3)k番目の距離とi番目の距離の比の二乗から、1を引いたものとする
S(Di'j',D)=(D/Di'j')2−1
(4)k番目の距離とi番目の距離の比から1を引いたものの二乗とする
S(Di'j',D)=(D/Di'j'−1)2
(S4)当該リファレンス画像毎に該スコア値を累積加算する。次のリファレンス画像について、S1〜S3を繰り返す。
(S5)最終的に、スコア値が最も高くなるリファレンス画像を、検索結果として出力する。
図1に戻って、本発明によれば、前述した検索装置として機能するサーバと、クエリ画像を入力する端末とを有するシステムとして構成することもできる。
<サーバ(検索装置)1>
サーバ1は、前述の検索装置に加えて、ネットワークに接続する通信インタフェース10と、クエリ符号受信部15と、リファレンス符号送信部16とを更に有する。
クエリ符号受信部15は、端末2から、クエリ画像についてリスト識別子LIDn毎に画像特徴符号の複数の組を受信する。受信したそれら画像特徴符号の組は、検索部14へ出力される。
リファレンス画像送信部16は、検索部14から出力された、スコア値が最も高くなるリファレンス画像を検索結果として検索結果として、端末2へ送信する。
<端末2>
端末2は、前述した検索装置1と同一の局所特徴量抽出部21及び符号化部22を有する。その上で、端末2は、ネットワークに接続する通信インタフェース20と、クエリ符号送信部25と、リファレンス画像受信部26とを更に有する。
クエリ符号送信部25は、符号化部22から出力された、クエリ画像におけるリスト識別子LIDn毎の画像特徴符号の複数の組を、サーバ1へ送信する。
リファレンス画像受信部26は、サーバ1から、検索された1つ以上のリファレンス画像を受信し、そのリファレンス画像をユーザに対して出力する。
以上、詳細に説明したように、本発明の検索装置、システム、プログラム及び方法によれば、バイナリ局所特徴ベクトルを用いた画像の検索処理の負荷を軽減することができる。具体的には、バイナリ局所特徴ベクトルを用いた画像の検索処理について、検索範囲を制限することによって処理負荷を軽減し且つ高速な検索処理を実現することができる。また、量子化された残差ベクトルを更に符号化し、その符号に基づいて特徴ベクトル間の距離を推定し、その距離に基づいた類似度を算出するために、量子化に伴う精度低下を軽減することができる。更に、クライアントによって局所特徴抽出処理が実行されたとしても、サーバへ送信するデータ量を、できる限り少なくすることができる。
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
1 検索装置
2 端末
10、20 通信インタフェース
11、21 局所特徴抽出部
12、22 符号化部
120 コードブック記憶部
121 粗量子化部
122 残差ベクトル分割部
123 残差コードブック記憶部
124 直積量子化部
13 転置インデックス登録部
14 検索部
15 クエリ符号受信部
16 リファレンス画像送信部
25 クエリ符号送信部
26 リファレンス画像受信部

Claims (12)

  1. リファレンス画像から抽出されたリファレンスベクトルの集合から、クエリ画像のクエリベクトルに類似したベクトルを検索する検索装置であって、
    リファレンス画像について、リスト識別子LIDn毎に、リファレンス画像識別子と、粗量子化及び直積量子化を用いて符号化した画像特徴符号との複数の組を対応付けた転置インデックスを登録する転置インデックス登録手段と、
    クエリ画像についてリスト識別子LIDnと画像特徴符号の複数の組を入力する検索手段と
    を有し、
    前記検索手段は、
    前記クエリ画像の各リスト識別子と画像特徴符号の組について、当該リスト識別子に対応する転置インデックスのリストを取得し、
    前記クエリ画像の画像特徴符号と、取得したリスト中のリファレンス画像の各画像特徴符号との間の距離を算出し、
    前記距離が短いほど高くなるスコア値を算出し、
    当該リファレンス画像毎に該スコア値を累積加算し、
    前記スコア値が最も高くなるリファレンス画像を検索結果として出力する
    ことを特徴とする検索装置。
  2. 前記検索手段は、距離が短い上位所定件数(K)に相当するスコア値のみを当該リファレンス画像に累積加算することを特徴とする請求項1に記載の検索装置。
  3. 前記検索手段について、前記上位所定件数(K)は、予め設定された固定数か、又は、予め設定された距離に関する閾値THに基づいて当該距離が閾値TH以下となる距離の数であることを特徴とする請求項2に記載の検索装置。
  4. 前記検索手段について、前記上位所定件数(K)のうちi件目に対応する加算スコアは、
    (1)K番目の距離の二乗からi番目の距離の二乗を引いたものとするか、
    (2)k番目の距離の二乗とi番目の距離の二乗の比から1を引いたものとするか、
    (3)k番目の距離とi番目の距離の比の二乗から1を引いたものとするか、又は、
    (4)k番目の距離とi番目の距離の比から1を引いたものの二乗とする
    ことを特徴とする請求項3に記載の検索装置。
  5. 前記画像特徴符号は、前記直積量子化のための残差コードブックの代表ベクトルの識別子の列で表されており、
    前記画像特徴符号間の距離は、第1の識別子列x及び第2の識別子列yについて、第1の識別子列xのl番目の識別子に対応する代表ベクトルと第2の識別子列yのl番目の識別子に対応する代表ベクトルとの間の各距離を1≦l≦Lについて総和したものである
    ことを特徴とする請求項1から4のいずれか1項に記載の検索装置。
  6. 前記画像特徴符号間の距離は、前記残差コードブックにおける2つの第1の識別子列x及び第2の識別子列yの総当りの組み合わせについて、第1の識別子列xの代表ベクトルと第2の識別子列yの代表ベクトルとの間の距離を登録したテーブルTを用いて算出される
    ことを特徴とする請求項5に記載の検索装置。
  7. クエリ画像及びリファレンス画像から局所特徴のクエリベクトル及びリファレンスベクトルを抽出する局所特徴抽出手段と、
    前記局所特徴抽出手段から出力されたクエリベクトル及びリファレンスベクトルに対して、コードブックを用いて第1階層で粗量子化し、その量子化誤差を残差コードブックを用いて第2階層で直積量子化し、当該クエリ画像についてリスト識別子LIDn毎に画像特徴符号の複数の組を前記検索手段へ出力し、当該リファレンス画像についてリスト識別子LIDn毎に画像特徴符号の複数の組を前記転置インデックス登録手段へ出力する符号化手段と
    を有することを特徴とする請求項1から6のいずれか1項に記載の検索装置。
  8. 前記局所特徴抽出手段は、ORB(Oriented FAST and Rotated BRIEF)又はFREAK(Fast Retina Keypoint)に基づくバイナリ局所特徴ベクトルを抽出し、
    前記コードブックは、前記バイナリ局所特徴ベクトルのリファレンスベクトルを、K-Medoids法を用いてクラスタリングしたものであり、
    前記粗量子化は、前記バイナリ局所特徴ベクトルのクエリベクトルを、前記コードブック内の最も類似したバイナリ代表ベクトルに割り当て、
    前記量子化誤差は、バイナリ特徴ベクトルと、そのバイナリ特徴ベクトルに最も類似したバイナリ代表ベクトルとの排他的論理和によって算出される
    ことを特徴とする請求項7に記載の検索装置。
  9. 請求項1から6のいずれか1項に記載の検索装置として機能するサーバと、クエリ画像を入力する端末とを有するシステムであって、
    前記端末は、
    クエリ画像から局所特徴のクエリベクトルを抽出する局所特徴抽出手段と、
    前記局所特徴抽出手段から出力されたクエリベクトルに対して、コードブックを用いて第1階層で粗量子化し、その量子化誤差を残差コードブックを用いて第2階層で直積量子化し、当該クエリ画像についてリスト識別子LIDn毎に画像特徴符号の複数の組を出力する符号化手段と、
    前記クエリ画像におけるリスト識別子LIDn毎の画像特徴符号の複数の組を、前記サーバへ送信するクエリ符号送信手段と、
    前記サーバから、検索された1つ以上のリファレンス画像を受信し且つ出力するリファレンス画像受信手段と
    を有し、
    前記サーバは、
    リファレンス画像から局所特徴のリファレンスベクトルを抽出する局所特徴抽出手段と、
    前記局所特徴抽出手段から出力されたリファレンスベクトルに対して、コードブックを用いて第1階層で粗量子化し、その量子化誤差を残差コードブックを用いて第2階層で直積量子化し、当該リファレンス画像についてリスト識別子LIDn毎に画像特徴符号の複数の組を、前記転置インデックス登録手段へ出力する符号化手段と、
    前記端末から、前記クエリ画像についてリスト識別子LIDn毎に画像特徴符号の複数の組を受信するクエリ符号受信手段と、
    前記スコア値が最も高くなるリファレンス画像を検索結果として送信するリファレンス画像送信手段と
    を有することを特徴とするシステム。
  10. 前記局所特徴抽出手段は、ORB又はFREAKに基づくバイナリ局所特徴ベクトルを抽出し、
    前記コードブックは、前記バイナリ局所特徴ベクトルのリファレンスベクトルを、K-Medoids法を用いてクラスタリングしたものであり、
    前記粗量子化は、前記バイナリ局所特徴ベクトルのクエリベクトルと、前記コードブック内のバイナリ代表ベクトルとを排他的論理和によって算出する
    ことを特徴とする請求項9に記載のシステム。
  11. 装置に搭載されたコンピュータを、リファレンス画像から抽出されたリファレンスベクトルの集合から、クエリ画像のクエリベクトルに類似したベクトルを検索するように機能させるプログラムであって、
    リファレンス画像について、リスト識別子LIDn毎に、リファレンス画像識別子と、粗量子化及び直積量子化を用いて符号化した画像特徴符号との複数の組を対応付けた転置インデックスを登録する転置インデックス登録手段と、
    クエリ画像についてリスト識別子LIDnと画像特徴符号の複数の組を入力する検索手段と
    を有し、
    前記検索手段は、
    前記クエリ画像の各リスト識別子と画像特徴符号の組について、当該リスト識別子に対応する転置インデックスのリストを取得し、
    前記クエリ画像の画像特徴符号と、取得したリスト中のリファレンス画像の各画像特徴符号との間の距離を算出し、
    前記距離が短いほど高くなるスコア値を算出し、
    当該リファレンス画像毎に該スコア値を累積加算し、
    前記スコア値が最も高くなるリファレンス画像を検索結果として出力する
    ようにコンピュータを機能させることを特徴とするプログラム。
  12. 装置を用いて、リファレンス画像から抽出されたリファレンスベクトルの集合から、クエリ画像のクエリベクトルに類似したベクトルを検索する検索方法であって、
    リファレンス画像について、リスト識別子LIDn毎に、リファレンス画像識別子と、粗量子化及び直積量子化を用いて符号化した画像特徴符号との複数の組を対応付けた転置インデックスを登録する転置インデックス登録部を有し、
    クエリ画像についてリスト識別子LIDnと画像特徴符号の複数の組を入力する第1のステップと、
    前記クエリ画像の各リスト識別子と画像特徴符号の組について、当該リスト識別子に対応する転置インデックスのリストを取得する第2のステップと、
    前記クエリ画像の画像特徴符号と、取得したリスト中のリファレンス画像の各画像特徴符号との間の距離を算出する第3のステップと、
    前記距離が短いほど高くなるスコア値を算出する第4のステップと、
    当該リファレンス画像毎に該スコア値を累積加算する第5のステップと、
    前記スコア値が最も高くなるリファレンス画像を検索結果として出力する第6のステップと
    を有することを特徴とする検索方法。
JP2013148076A 2013-07-16 2013-07-16 画像に基づくバイナリ局所特徴ベクトルを用いた検索装置、システム、プログラム及び方法 Active JP6042778B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013148076A JP6042778B2 (ja) 2013-07-16 2013-07-16 画像に基づくバイナリ局所特徴ベクトルを用いた検索装置、システム、プログラム及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013148076A JP6042778B2 (ja) 2013-07-16 2013-07-16 画像に基づくバイナリ局所特徴ベクトルを用いた検索装置、システム、プログラム及び方法

Publications (2)

Publication Number Publication Date
JP2015022383A JP2015022383A (ja) 2015-02-02
JP6042778B2 true JP6042778B2 (ja) 2016-12-14

Family

ID=52486808

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013148076A Active JP6042778B2 (ja) 2013-07-16 2013-07-16 画像に基づくバイナリ局所特徴ベクトルを用いた検索装置、システム、プログラム及び方法

Country Status (1)

Country Link
JP (1) JP6042778B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6311000B1 (ja) 2016-12-19 2018-04-11 ヤフー株式会社 生成装置、生成方法、及び生成プログラム
CN109840525B (zh) * 2017-11-27 2022-09-20 中国科学院沈阳计算技术研究所有限公司 圆周二进制特征的提取与匹配搜索方法
CN110659373B (zh) * 2019-08-27 2022-11-08 浙江大华技术股份有限公司 图像检索的方法、设备、计算机设备和存储介质
CN111143597B (zh) * 2019-12-13 2023-06-20 浙江大华技术股份有限公司 图像检索方法、终端及存储装置
CN114595350B (zh) * 2021-12-08 2024-04-26 拓尔思信息技术股份有限公司 一种百亿级图像快速搜索的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5436346B2 (ja) * 2010-06-09 2014-03-05 Kddi株式会社 高次元の特徴ベクトルの集合から類似した特徴ベクトルを検索する検索装置及びプログラム
JP5637939B2 (ja) * 2011-06-28 2014-12-10 Kddi株式会社 少ないコードブックの情報量によって高次元の特徴ベクトルを検索する検索装置及びプログラム

Also Published As

Publication number Publication date
JP2015022383A (ja) 2015-02-02

Similar Documents

Publication Publication Date Title
JP6041439B2 (ja) 画像に基づくバイナリ特徴ベクトルを用いた画像検索装置、システム、プログラム及び方法
Chandrasekhar et al. CHoG: Compressed histogram of gradients a low bit-rate feature descriptor
Zhou et al. Towards codebook-free: Scalable cascaded hashing for mobile image search
CN102549603B (zh) 基于相关性的图像选择
US8571306B2 (en) Coding of feature location information
Zheng et al. $\mathcal {L} _p $-Norm IDF for Scalable Image Retrieval
Chen et al. Residual enhanced visual vectors for on-device image matching
JP6042778B2 (ja) 画像に基づくバイナリ局所特徴ベクトルを用いた検索装置、システム、プログラム及び方法
CN105183746B (zh) 从多相关图片中挖掘显著特征实现图像检索的方法
Altintakan et al. Towards effective image classification using class-specific codebooks and distinctive local features
Wu et al. A multi-sample, multi-tree approach to bag-of-words image representation for image retrieval
Ji et al. Learning compact visual descriptor for low bit rate mobile landmark search
Chen et al. A hybrid mobile visual search system with compact global signatures
Wang et al. Beauty product image retrieval based on multi-feature fusion and feature aggregation
Boix et al. Sparse quantization for patch description
Liu et al. Scene classification by coupling convolutional neural networks with Wasserstein distance
JP6460926B2 (ja) 撮影画像に写る物体を検索するシステム及び方法
Sun et al. Search by detection: Object-level feature for image retrieval
EP3192010A1 (en) Image recognition using descriptor pruning
JP6017277B2 (ja) 特徴ベクトルの集合で表されるコンテンツ間の類似度を算出するプログラム、装置及び方法
JP5959446B2 (ja) コンテンツをバイナリ特徴ベクトルの集合で表現することによって高速に検索する検索装置、プログラム及び方法
Schroth et al. Rapid image retrieval for mobile location recognition
Farhangi et al. Informative visual words construction to improve bag of words image representation
Qi et al. A low transmission overhead framework of mobile visual search based on vocabulary decomposition
CN105205487B (zh) 一种图片处理方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160119

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161014

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161026

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161110

R150 Certificate of patent or registration of utility model

Ref document number: 6042778

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150