JP5959446B2 - Retrieval device, program, and method for high-speed retrieval by expressing contents as a set of binary feature vectors - Google Patents
Retrieval device, program, and method for high-speed retrieval by expressing contents as a set of binary feature vectors Download PDFInfo
- Publication number
- JP5959446B2 JP5959446B2 JP2013014891A JP2013014891A JP5959446B2 JP 5959446 B2 JP5959446 B2 JP 5959446B2 JP 2013014891 A JP2013014891 A JP 2013014891A JP 2013014891 A JP2013014891 A JP 2013014891A JP 5959446 B2 JP5959446 B2 JP 5959446B2
- Authority
- JP
- Japan
- Prior art keywords
- fisher
- content
- parameter
- vector
- feature vectors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、特徴ベクトルの集合で表されるリファレンスコンテンツ(検索対象のコンテンツ)の集合から、同じく特徴ベクトルの集合で表されるクエリコンテンツ(検索キーとなるコンテンツ)に類似したリファレンスコンテンツを検索する技術に関する。特に、特徴ベクトルの集合で表されるマルチメディアコンテンツ(例えば画像)の検索に適する。 The present invention searches for a reference content similar to a query content (content serving as a search key) similarly represented by a set of feature vectors from a set of reference content (contents to be searched) represented by a set of feature vectors. Regarding technology. In particular, it is suitable for searching multimedia contents (for example, images) represented by a set of feature vectors.
近年、オンライン/オフラインに限られず、ストレージの大容量化に伴って、大量のコンテンツを蓄積することが可能となっている。また、携帯電話機やスマートフォンに代表される情報端末機器の普及によって、ユーザ自ら取得した写真データのようなデジタルコンテンツも、データベースに大量かつ容易に蓄積することができる。オフラインデータベースとして、HDD(Hard Disk Drive)、DVD(Digital Versatile Disk)、Blu-ray disc等の記憶装置がある。また、オンラインデータベースとしては、Flickr(登録商標)やMySpace(登録商標)のようなソーシャルネットワークサービスがある。これら記憶装置及びサービスによれば、データベースに蓄積された個人の大量且つ多様なマルチメディアコンテンツを検索するする技術が重要となる。 In recent years, not limited to online / offline, it has become possible to accumulate a large amount of content as the capacity of the storage increases. In addition, with the widespread use of information terminal devices typified by mobile phones and smartphones, digital content such as photograph data acquired by the user can be easily stored in a large amount in a database. Offline databases include storage devices such as HDD (Hard Disk Drive), DVD (Digital Versatile Disk), and Blu-ray disc. Online databases include social network services such as Flickr (registered trademark) and MySpace (registered trademark). According to these storage devices and services, a technique for searching for a large amount and various multimedia contents of individuals stored in a database becomes important.
マルチメディアコンテンツを検索するために、これらコンテンツから多数の特徴ベクトルを抽出し、この特徴ベクトルの集合同士の間の類似度が高いコンテンツを検索結果として出力する技術がある。この技術によれば、マルチメディアコンテンツの特徴ベクトルを量子化し、量子化された特徴ベクトルの頻度からヒストグラムを作成する。そのヒストグラム同士の間のL1ノルム又はL2ノルムの距離によって類似度(距離)を算出する。ノルムとは、2つの点の間の距離を表す。L1ノルムとは、2つの点の各次元の値の絶対値の和を意味し、L2ノルムとは、2つの点の各次元の値を二乗した和を意味する。 In order to search for multimedia contents, there is a technique for extracting a large number of feature vectors from these contents and outputting contents having a high degree of similarity between sets of feature vectors as search results. According to this technique, feature vectors of multimedia content are quantized and a histogram is created from the frequency of the quantized feature vectors. The similarity (distance) is calculated by the distance of the L1 norm or L2 norm between the histograms. The norm represents the distance between two points. The L1 norm means the sum of the absolute values of the dimensions of the two points, and the L2 norm means the sum of the squares of the values of the two points.
また、画像コンテンツから大量の局所特徴ベクトルを抽出し、それらをベクトル量子化し、同一の代表ベクトルにベクトル量子化された局所特徴ベクトルの数で類似度を算出する技術もある(例えば非特許文献1参照)。 There is also a technique for extracting a large amount of local feature vectors from image content, vector quantizing them, and calculating the similarity based on the number of local feature vectors vector-quantized to the same representative vector (for example, Non-Patent Document 1). reference).
更に、画像から複数の局所不変特徴量を抽出し、特徴ベクトルの頻度のヒストグラム化し、そのヒストグラムの重なり率によって画像とカテゴリとの間の類似度を算出する技術もある(例えば特許文献1参照)。この技術によれば、ヒストグラムに基づいて被写体のパターン認識に不要となる特徴(例えば背景の特徴)を除くことができる。これによって、画像中から物体と物体以外とを予め分離することなく、当該物体の特徴を抽出することができる。 Furthermore, there is a technique for extracting a plurality of local invariant feature amounts from an image, making a histogram of the frequency of feature vectors, and calculating the similarity between the image and the category based on the overlapping ratio of the histograms (see, for example, Patent Document 1). . According to this technique, features (for example, background features) that are not necessary for pattern recognition of a subject can be removed based on the histogram. As a result, the feature of the object can be extracted without previously separating the object and the non-object from the image.
従来、局所特徴量を用いた類似画像検索の枠組みは、「Bag-of-Visual Words」(又はBag-of-Features、Bag-of-Keypoints)と称される(例えば非特許文献1参照)。この技術によれば、Bag-of-Wordsモデル及び転置インデックスを用いた文章の検索方法を、類似画像の検索に適用したものである。Bag-of-Wordsは、文章を1つの単語の頻度により定義される特徴ベクトルで表現し、文章集合に基づいて予め導出されたIDF(Inverse Document Frequency)を単語の重みとして文章間の類似度を導出する枠組みである。これに対し、Bag-of-Visual Wordsは、画像の局所特徴量を量子化し、量子化後の局所特徴量を単語と見立て、同様に頻度により定義される1つの特徴ベクトルとして表現し、IDFを用いた重み付けを利用して同一の類推方法を適用することができる。 Conventionally, a similar image search framework using local features is referred to as “Bag-of-Visual Words” (or Bag-of-Features, Bag-of-Keypoints) (see, for example, Non-Patent Document 1). According to this technique, a sentence retrieval method using a Bag-of-Words model and a transposed index is applied to retrieval of similar images. Bag-of-Words expresses a sentence as a feature vector defined by the frequency of one word, and uses IDF (Inverse Document Frequency) derived in advance based on the sentence set to determine the similarity between sentences. It is a framework to derive. On the other hand, Bag-of-Visual Words quantizes the local feature quantity of an image, regards the local feature quantity after quantization as a word, and expresses it as one feature vector similarly defined by the frequency. The same analogy method can be applied using the weighting used.
更に、近年は、「Bag-of-Visual Words」の枠組みを発展させたフィッシャーベクトルに基づく技術が注目されている(例えば非特許文献3参照)。フィッシャーベクトルを用いた技術によれば、特徴ベクトルを混合ガウス分布でモデル化し、混合ガウス分布のパラメータに関するフィッシャーカーネルを、明示的に特徴ベクトルへマッピングしたものを画像を表現する特徴ベクトルとして利用することができる。この技術によれば、特徴ベクトルの集合を1つの固定長の特徴ベクトルで記述することができ、更にユークリッド距離を特徴ベクトル間の距離尺度として用いることができる。 Furthermore, in recent years, a technique based on the Fisher vector, which is an extension of the “Bag-of-Visual Words” framework, has attracted attention (see, for example, Non-Patent Document 3). According to the technique using the Fisher vector, the feature vector is modeled by a mixed Gaussian distribution, and the Fisher kernel related to the parameters of the mixed Gaussian distribution is explicitly mapped to the feature vector and used as the feature vector that represents the image. Can do. According to this technique, a set of feature vectors can be described by one fixed-length feature vector, and the Euclidean distance can be used as a distance measure between feature vectors.
図1は、従来技術におけるコンテンツの検索装置の機能構成図である。 FIG. 1 is a functional configuration diagram of a conventional content search apparatus.
図1の検索装置1によれば、モデルパラメータを生成するために、多数の訓練コンテンツを予め入力し、モデルパラメータを予め蓄積しておく。また、検索装置1は、多数のリファレンスコンテンツ(検索対象のコンテンツ)を予め入力し、モデルパラメータを用いて正規化に変換したリファレンス特徴ベクトルを予め蓄積しておく。その上で、検索装置1は、クエリコンテンツ(検索キーのコンテンツ)について、モデルパラメータを用いてクエリ特徴ベクトルを正規化し、そのクエリ特徴ベクトルに最も類似するリファレンス特徴ベクトルを検索し、リファレンスコンテンツを特定する。
According to the
図1によれば、検索装置1は、特徴ベクトル抽出部11と、モデル推定部12と、モデルパラメータ蓄積部13と、特徴ベクトル変換部14と、リファレンス情報蓄積部15と、特徴ベクトル検索部16とを有する。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。
According to FIG. 1, the
特徴ベクトル抽出部11は、各マルチメディアコンテンツから、特徴ベクトルの集合を抽出する。例えばマルチメディアコンテンツが画像である場合、その特徴ベクトルは、画像の局所特徴領域から抽出された局所特徴ベクトルである。訓練コンテンツは、特徴ベクトルの集合に変換され、モデル推定部12へ出力される。また、リファレンスコンテンツ及びクエリコンテンツもそれぞれ、特徴ベクトルの集合に変換され、特徴ベクトル変換部14へ出力される。これら全てのコンテンツについて、同一次元数(D次元)の特徴ベクトルが抽出される。
The feature vector extraction unit 11 extracts a set of feature vectors from each multimedia content. For example, when the multimedia content is an image, the feature vector is a local feature vector extracted from the local feature region of the image. The training content is converted into a set of feature vectors and output to the
物体認識に用いる特徴ベクトルの抽出アルゴリズムとしては、回転やスケールの変化にロバストな、例えばSIFT(Scale-Invariant Feature Transform)やSURF(Speeded
Up Robust Features)が用いられる。例えば、SIFTの場合、1枚の画像からは128次元の特徴ベクトルの集合が抽出される。SIFTとは、スケールスペースを用いて特徴的な局所領域を解析し、そのスケール変化及び回転に不変となる特徴ベクトルを記述する技術である。一方で、SURFの場合、SIFTよりも高速処理が可能であって、1枚の画像から64次元の特徴ベクトルの集合が抽出される。SIFTは、処理コストが高く且つリアルタイムマッチングが困難であるのに対し、SURFは、積分画像を利用することによって処理を高速化している。
The feature vector extraction algorithm used for object recognition is, for example, SIFT (Scale-Invariant Feature Transform) or SURF (Speeded)
Up Robust Features) is used. For example, in the case of SIFT, a set of 128-dimensional feature vectors is extracted from one image. SIFT is a technique for analyzing a characteristic local region using a scale space and describing a feature vector that is invariant to scale change and rotation. On the other hand, in the case of SURF, higher-speed processing is possible than SIFT, and a set of 64-dimensional feature vectors is extracted from one image. While SIFT has a high processing cost and is difficult to perform real-time matching, SURF uses an integral image to speed up the processing.
モデル推定部12は、特徴ベクトル抽出部11から出力された訓練コンテンツの特徴ベクトルの集合用いて混合ガウス分布(Gaussian Mixture Model)のモデルパラメータを推定し、そのモデルパラメータを出力する。Bag-of-Featuresの識別性能は、確率密度分布のモデル化の精度に依存する。混合ガウス分布は混合数とパラメータを調整することで、任意の連続な密度関数を表現できるため、混合ガウス分布を用いる。
The
モデルパラメータ蓄積部13は、モデル推定部12から出力されたモデルパラメータを蓄積する。
The model
特徴ベクトル変換部14は、リファレンスコンテンツ及びクエリコンテンツそれぞれの特徴ベクトルの集合を、1つの固定長の特徴ベクトルへ明示的にマッピングする。このマッピングには、モデルパラメータ蓄積部13のモデルパラメータに基づくフィッシャーカーネルが用いられる。具体的には、特徴ベクトル集合からモデルの対数尤度関数の勾配ベクトルを求め、モデルパラメータに関するフィッシャー情報行列により正規化をすることで、特徴ベクトルへマッピングする。非特許文献3に記載された技術によれば、フィッシャー情報行列が対角行列と仮定されている。変換された1つの特徴ベクトルは、フィッシャーベクトルと称される。特徴ベクトル変換部14は、リファレンスコンテンツの特徴ベクトルの集合からマッピングしたフィッシャーベクトルを、リファレンス蓄積部15へ出力し、クエリコンテンツの特徴ベクトルの集合からマッピングしたフィッシャーベクトルを、特徴ベクトル検索部16へ出力する。
The feature
リファレンス情報蓄積部15は、特徴ベクトル変換部14から出力された、リファレンスコンテンツの正規化されたフィッシャーベクトルを蓄積する。
The reference
特徴ベクトル検索部16は、リファレンス情報蓄積部15を用いて、クエリコンテンツのフィッシャーベクトルに最も類似する、リファレンスコンテンツのフィッシャーベクトルを検索する。ここでは、ユークリッド距離を用いることができ、クエリコンテンツのフィッシャーベクトルとの間の距離が短い、リファレンスコンテンツのフィッシャーベクトルが検索され、そのリファレンスコンテンツが特定される。
The feature
しかしながら、スマートフォンやタブレット端末のようなモバイル端末が普及する中で、コンテンツ検索処理に対して、更なる省メモリ化及び高速マッチング化が要求されてきている。特に、拡張現実感(Augmented Reality, AR)の用途における画像認識の技術分野によれば、リアルタイムに処理するべく、SIFTやSURFよりも更に高速にコンテンツを検索することが要求される。 However, with the widespread use of mobile terminals such as smartphones and tablet terminals, further memory saving and faster matching have been required for content search processing. In particular, according to the technical field of image recognition in the use of augmented reality (Augmented Reality), it is required to search for content at higher speed than SIFT or SURF in order to perform real-time processing.
そこで、本発明によれば、SIFTやSURFよりも更に高速にコンテンツを検索することができる検索装置、プログラム及び方法を提供することを目的とする。 Therefore, an object of the present invention is to provide a search device, a program, and a method capable of searching for contents at a higher speed than SIFT and SURF.
本発明によれば、装置に搭載されたコンピュータを、訓練コンテンツから抽出されたモデルパラメータを用いて、リファレンスコンテンツの集合から、クエリコンテンツに類似したリファレンスコンテンツを検索するように機能させる検索プログラムであって、
訓練コンテンツ、リファレンスコンテンツ及びクエリコンテンツそれぞれについて、D次元のバイナリ特徴ベクトルの集合x1〜xTを抽出する特徴ベクトル抽出手段と、
訓練コンテンツのバイナリ特徴ベクトルの集合から、i(1≦i≦N)番目の多変量ベルヌーイ分布に関する混合比wiと、i番目の多変量ベルヌーイ分布のd(1≦d≦D)番目のパラメータμidと、パラメータμidに関するフィッシャー情報量fidとを算出するモデル推定手段と、
混合比wiとパラメータμidとフィッシャー情報量fidとを蓄積するモデルパラメータ蓄積手段と、
リファレンスコンテンツ又はクエリコンテンツのバイナリ特徴ベクトルの集合から、モデルパラメータ蓄積手段に蓄積された混合比wiとパラメータμidとフィッシャー情報量fidとを用いて、リファレンスコンテンツ又はクエリコンテンツに対応する1つのフィッシャーベクトルを算出する特徴ベクトル変換手段と、
クエリコンテンツのフィッシャーベクトルに最も類似する、リファレンスコンテンツのフィッシャーベクトルを検索する特徴ベクトル検索手段と
してコンピュータを機能させることを特徴とする。
According to the present invention, there is provided a search program that causes a computer installed in an apparatus to function to search for reference content similar to query content from a set of reference content using model parameters extracted from training content. And
For each of the training content, the reference content, and the query content, a feature vector extraction unit that extracts a set of D-dimensional binary feature vectors x 1 to x T ,
From the set of binary feature vectors of the training content, the mixture ratio w i for the i (1 ≦ i ≦ N) -th multivariate Bernoulli distribution and the d (1 ≦ d ≦ D) -th parameter of the i-th multivariate Bernoulli distribution model estimation means for calculating μ id and the Fisher information amount f id related to the parameter μ id ;
Model parameter accumulating means for accumulating the mixing ratio w i , parameter μ id, and Fisher information amount f id ;
From the set of binary feature vectors of the reference content or query content, one of the reference content or query content corresponding to the reference content or query content using the mixture ratio w i , parameter μ id, and Fisher information amount f id stored in the model parameter storage means Feature vector conversion means for calculating a Fisher vector;
The computer is caused to function as a feature vector search unit that searches for the Fisher vector of the reference content that is most similar to the Fisher vector of the query content.
本発明の検索プログラムにおける他の実施形態によれば、
特徴ベクトル抽出手段は、ORB(Oriented FAST and Rotated BRIEF)又はFREAK(Fast Retina Keypoint)を用いてバイナリ特徴ベクトルの集合を抽出するようにコンピュータを機能させることも好ましい。
According to another embodiment of the search program of the present invention,
The feature vector extracting means preferably causes the computer to function to extract a set of binary feature vectors using ORB (Oriented FAST and Rotated BRIEF) or FRAK (Fast Retina Keypoint).
本発明の検索プログラムにおける他の実施形態によれば、
モデル推定手段は、訓練コンテンツのバイナリ特徴ベクトルの集合x1〜xTから、
E(Expectation)ステップについて、バイナリ特徴ベクトルxi毎に潜在変数iの期待値γt (i)を推定し、
M(Maximization)ステップについて、期待値γt (i)を用いて、混合比wi及びパラメータμiを更新し、
これらEステップ及びMステップを、収束するまで繰り返すことによって、混合比wi及びパラメータμiのパラメータ群λを算出する
λ(w1、・・・、wN及びμ11、・・・、μND)
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the search program of the present invention,
The model estimation means uses a set of binary feature vectors x 1 to x T of the training content,
For the E (Expectation) step, estimate the expected value γ t (i) of the latent variable i for each binary feature vector x i ,
For the M (Maximization) step, update the mixture ratio w i and parameter μ i using the expected value γ t (i),
By repeating these E step and M step until convergence, a parameter group λ of the mixture ratio w i and parameter μ i is calculated. Λ (w 1 ,..., W N and μ 11 ,. ND )
It is also preferable to make the computer function.
本発明の検索プログラムにおける他の実施形態によれば、
モデル推定手段は、
パラメータμidの対数尤度関数を偏微分で定義したフィッシャースコアsidを算出し、
フィッシャースコアsidの分散としてフィッシャー情報量fidを算出する
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the search program of the present invention,
Model estimation means
Calculate a Fisher score s id in which the log likelihood function of the parameter μ id is defined by partial differentiation,
It is also preferable to cause the computer to function to calculate the Fisher information amount f id as the variance of the Fisher score s id .
本発明の検索プログラムにおける他の実施形態によれば、
特徴ベクトル変換手段は、バイナリ特徴ベクトルの集合毎に、パラメータμidを用いてフィッシャースコアsidを算出し、これらをid毎に累積した累積フィッシャースコアs'idを算出し、
各累積フィッシャースコアs'idを、対応するフィッシャー情報量fidの平方根√fidで除算したフィッシャーベクトルvidを算出する
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the search program of the present invention,
Feature vector conversion means, for each set of binary feature vectors, calculates the Fischer score s id using the parameter mu id, they were calculated cumulative Fisher scores s' id obtained by accumulating for each id,
It is also preferable to cause the computer to function to calculate a Fisher vector v id obtained by dividing each accumulated Fisher score s ′ id by the square root √f id of the corresponding Fisher information amount f id .
本発明の検索プログラムにおける他の実施形態によれば、
モデル推定手段は、
パラメータμidの対数尤度関数を偏微分で定義したフィッシャースコアsidを算出し、
フィッシャースコアsidの混合要素i毎のベクトル(si1〜siD)に対して主成分分析を実行し、
主成分分析の結果、固有値の大きいものからK個を、フィッシャー情報量fidとして出力し、
固有値に対応するK個の固有ベクトルgiKを更に出力し、
モデルパラメータ蓄積手段は、固有ベクトルgiKを更に蓄積する
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the search program of the present invention,
Model estimation means
Calculate a Fisher score s id in which the log likelihood function of the parameter μ id is defined by partial differentiation,
The principal component analysis is performed on the vector (s i1 to s iD ) for each mixed element i of the Fisher score s id ,
As a result of the principal component analysis, K pieces having the largest eigenvalues are output as the Fisher information amount f id ,
Further output K eigenvectors g iK corresponding to the eigenvalues,
The model parameter storage means preferably causes the computer to function so as to further store the eigenvector g iK .
本発明の検索プログラムにおける他の実施形態によれば、
特徴ベクトル変換手段は、バイナリ特徴ベクトルの集合毎に、パラメータμidを用いてフィッシャースコアsidを算出し、これらをid毎に累積した累積フィッシャースコアs'idを算出し、
混合要素i毎に、各累積フィッシャースコアs'idのベクトル(s'i1〜siD)を、対応する固有ベクトルgik(gi1〜giK)を用いて正規化(射影)した正規化ベクトルv'ikを算出し、
正規化ベクトルv'ikを、対応する固有ベクトルgikの平方根√gikで除算したフィッシャーベクトルvikを算出する
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the search program of the present invention,
Feature vector conversion means, for each set of binary feature vectors, calculates the Fischer score s id using the parameter mu id, they were calculated cumulative Fisher scores s' id obtained by accumulating for each id,
A normalized vector v obtained by normalizing (projecting) a vector (s ′ i1 to s iD ) of each cumulative Fisher score s ′ id using a corresponding eigenvector g ik (g i1 to g iK ) for each mixed element i. 'Calculate ik ,
It is also preferred to have the computer function to calculate a Fisher vector v ik obtained by dividing the normalized vector v ′ ik by the square root √g ik of the corresponding eigenvector g ik .
本発明によれば、訓練コンテンツから抽出されたモデルパラメータを用いて、リファレンスコンテンツの集合から、クエリコンテンツに類似したリファレンスコンテンツを検索する検索装置であって、
訓練コンテンツ、リファレンスコンテンツ及びクエリコンテンツそれぞれについて、D次元のバイナリ特徴ベクトルの集合x1〜xTを抽出する特徴ベクトル抽出手段と、
訓練コンテンツのバイナリ特徴ベクトルの集合から、i(1≦i≦N)番目の多変量ベルヌーイ分布に関する混合比wiと、i番目の多変量ベルヌーイ分布のd(1≦d≦D)番目のパラメータμidと、パラメータμidに関するフィッシャー情報量fidとを算出するモデル推定手段と、
混合比wiとパラメータμidとフィッシャー情報量fidとを蓄積するモデルパラメータ蓄積手段と、
リファレンスコンテンツ又はクエリコンテンツのバイナリ特徴ベクトルの集合から、モデルパラメータ蓄積手段の混合比wiとパラメータμidとフィッシャー情報量fidとを用いて、リファレンスコンテンツ又はクエリコンテンツに対応する1つのフィッシャーベクトルを算出する特徴ベクトル変換手段と、
クエリコンテンツのフィッシャーベクトルに最も類似する、リファレンスコンテンツのフィッシャーベクトルを検索する特徴ベクトル検索手段と
を有することを特徴とする。
According to the present invention, a search device that searches for reference content similar to query content from a set of reference content using model parameters extracted from training content,
For each of the training content, the reference content, and the query content, a feature vector extraction unit that extracts a set of D-dimensional binary feature vectors x 1 to x T ,
From the set of binary feature vectors of the training content, the mixture ratio w i for the i (1 ≦ i ≦ N) -th multivariate Bernoulli distribution and the d (1 ≦ d ≦ D) -th parameter of the i-th multivariate Bernoulli distribution model estimation means for calculating μ id and the Fisher information amount f id related to the parameter μ id ;
Model parameter accumulating means for accumulating the mixing ratio w i , parameter μ id, and Fisher information amount f id ;
From a set of binary feature vectors of the reference content or query content, one Fisher vector corresponding to the reference content or query content is obtained using the mixture ratio w i of the model parameter storage means, the parameter μ id, and the Fisher information amount f id. A feature vector conversion means for calculating;
And feature vector search means for searching for the Fisher vector of the reference content that is most similar to the Fisher vector of the query content.
本発明によれば、装置を用いて、訓練コンテンツから抽出されたモデルパラメータを用いて、リファレンスコンテンツの集合から、クエリコンテンツに類似したリファレンスコンテンツを検索する検索方法であって、
モデルパラメータを蓄積する第1のステップとして、
訓練コンテンツそれぞれについて、D次元のバイナリ特徴ベクトルの集合x1〜xTを抽出し、
訓練コンテンツのバイナリ特徴ベクトルの集合から、i(1≦i≦N)番目の多変量ベルヌーイ分布に関する混合比wiと、i番目の多変量ベルヌーイ分布のd(1≦d≦D)番目のパラメータμidと、パラメータμidに関するフィッシャー情報量fidとを算出し、
混合比wiとパラメータμidとフィッシャー情報量fidとを蓄積し、
リファレンス情報を蓄積する第2のステップとして、
リファレンスコンテンツそれぞれについて、D次元のバイナリ特徴ベクトルの集合を抽出し、
リファレンスコンテンツそれぞれのバイナリ特徴ベクトルの集合から、モデルパラメータとして蓄積された混合比wiとパラメータμidとフィッシャー情報量fidとを用いて、1つのフィッシャーベクトルを算出し、
フィッシャーベクトルを蓄積し、
クエリコンテンツからリファレンスコンテンツを検索する第3のステップとして、
クエリコンテンツそれぞれのバイナリ特徴ベクトルの集合から、モデルパラメータとして蓄積された混合比wiとパラメータμidとフィッシャー情報量fidとを用いて、1つのフィッシャーベクトルを算出し、
クエリコンテンツのフィッシャーベクトルに最も類似する、リファレンスコンテンツのフィッシャーベクトルを検索する
を有することを特徴とする。
According to the present invention, there is provided a search method for searching reference content similar to query content from a set of reference content using a model parameter extracted from training content using an apparatus,
As a first step of accumulating model parameters,
For each training content, a set of D-dimensional binary feature vectors x 1 to x T is extracted,
From the set of binary feature vectors of the training content, the mixture ratio w i for the i (1 ≦ i ≦ N) -th multivariate Bernoulli distribution and the d (1 ≦ d ≦ D) -th parameter of the i-th multivariate Bernoulli distribution Calculate μ id and Fisher information amount f id related to parameter μ id ,
Accumulate the mixing ratio w i , the parameter μ id and the Fisher information amount f id ,
As a second step of accumulating reference information,
For each reference content, extract a set of D-dimensional binary feature vectors,
From the set of binary feature vectors of each reference content, one Fisher vector is calculated using the mixture ratio w i , the parameter μ id, and the Fisher information amount f id accumulated as model parameters.
Accumulate Fisher vector,
As a third step of searching reference content from query content,
From the set of binary feature vectors of each query content, one Fisher vector is calculated using the mixture ratio w i , the parameter μ id and the Fisher information amount f id accumulated as model parameters,
It has a search for the Fisher vector of the reference content that is most similar to the Fisher vector of the query content.
本発明の検索装置、プログラム及び方法によれば、SIFTやSURFよりも更に高速にコンテンツを検索することができる。 According to the search device, program, and method of the present invention, content can be searched at a higher speed than SIFT or SURF.
以下、本発明の実施の形態について、図面を用いて詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
本発明の検索装置、プログラム及び方法によれば、訓練コンテンツから抽出されたモデルパラメータを用いて、リファレンスコンテンツの集合から、クエリコンテンツに類似したリファレンスコンテンツを検索する。ここで、本発明によれば、コンテンツから抽出される特徴ベクトルについて、バイナリ特徴ベクトルを抽出することを第1の特徴としている。また、これらのバイナリ特徴ベクトルを多変量混合ベルヌーイ分布でモデル化し、それらのモデルパラメータからフィッシャーベクトルを抽出することを第2の特徴としている。 According to the search device, program, and method of the present invention, reference content similar to query content is searched from a set of reference content using model parameters extracted from training content. Here, according to the present invention, extracting a binary feature vector from a feature vector extracted from content is a first feature. The second feature is that these binary feature vectors are modeled by a multivariate mixed Bernoulli distribution and a Fisher vector is extracted from the model parameters.
図2は、本発明におけるコンテンツの検索装置の機能構成図である。 FIG. 2 is a functional configuration diagram of the content search apparatus according to the present invention.
図2の検索装置における機能構成は、図1の機能構成と同じものである。しかしながら、各機能構成部における処理内容が異なる。以下では、検索装置1における特徴ベクトル抽出部11と、モデル推定部12と、モデルパラメータ蓄積部13と、特徴ベクトル変換部14と、リファレンス情報蓄積部15と、特徴ベクトル検索部16とについて、順に説明する。
The functional configuration of the search device of FIG. 2 is the same as the functional configuration of FIG. However, the processing contents in each functional component are different. Hereinafter, the feature vector extraction unit 11, the
[特徴ベクトル抽出部11]
本発明における特徴ベクトル抽出部11は、訓練コンテンツ、リファレンスコンテンツ及びクエリコンテンツそれぞれについて、D次元のバイナリ特徴ベクトルの集合X={x1〜xT}を抽出する。例えばマルチメディアコンテンツが画像である場合、その特徴ベクトルは、画像の局所特徴領域から抽出された局所バイナリ特徴ベクトルである。訓練コンテンツから抽出されたバイナリ特徴ベクトルの集合は、モデル推定部12へ出力される。リファレンスコンテンツ及びクエリコンテンツから抽出されたバイナリ特徴ベクトルの集合はそれぞれ、特徴ベクトル変換部14へ出力される。
[Feature vector extraction unit 11]
The feature vector extraction unit 11 in the present invention extracts a set of D-dimensional binary feature vectors X = {x 1 to x T } for each of training content, reference content, and query content. For example, when the multimedia content is an image, the feature vector is a local binary feature vector extracted from the local feature region of the image. A set of binary feature vectors extracted from the training content is output to the
本発明によれば、バイナリ特徴ベクトルの抽出アルゴリズムとして、ORB(Oriented FAST and Rotated BRIEF)(例えば非特許文献4及び非特許文献7参照)又はFREAK(Fast Retina Keypoint)(例えば非特許文献5)を用いる。ORBの場合、1つのコンテンツから256ビットのバイナリ特徴ベクトルの集合が抽出される。例えば、高速にマッチングを実行するべく、バイナリコードによる特徴記述としてBRIEF(Binary Robust Independent Elementary Features)がある。本発明によれば、BRIEFに回転不変性を導入した特徴記述をすることができる「ORB」を用いる。特に、ORBによれば、SIFTやSURFと比較して、同等以上の精度を保持すると共に、数百倍の高速化を実現することができる。 According to the present invention, an ORB (Oriented FAST and Rotated BRIEF) (for example, see Non-Patent Document 4 and Non-Patent Document 7) or FRAK (Fast Retina Keypoint) (for example, Non-Patent Document 5) is used as an algorithm for extracting binary feature vectors. Use. In the case of ORB, a set of 256-bit binary feature vectors is extracted from one content. For example, in order to execute matching at high speed, there is BRIEF (Binary Robust Independent Elementary Features) as a feature description by a binary code. According to the present invention, “ORB” is used which can describe a feature in which rotation invariance is introduced into BRIEF. In particular, according to the ORB, it is possible to maintain an accuracy equal to or higher than that of SIFT or SURF and realize a speed increase of several hundred times.
<ORBについて>
ORBは、「特徴点検出処理」と「特徴ベクトル記述処理」との2つのステップから構成される。
<About ORB>
The ORB is composed of two steps of “feature point detection processing” and “feature vector description processing”.
(特徴点検出処理)
ORBにおける特徴点検出処理によれば、高速にキーポイントを検出するためにFAST(Features from Accelerated Segment Test)を用いる。また、FASTでは、スケール変化に対してロバストではないため、画像を複数のサイズに変換し、それぞれのサイズの画像から特徴点を抽出する。
(Feature point detection processing)
According to the feature point detection process in the ORB, FAST (Features from Accelerated Segment Test) is used to detect key points at high speed. In addition, since FAST is not robust to scale changes, an image is converted into a plurality of sizes, and feature points are extracted from images of each size.
また、既存のFASTには、回転不変性を得るためのキーポイントのオリエンテーション算出のアルゴリズムがない。そのために、ORBでは、回転不変性を得るべくOriented FASTを採用している。オリエンテーションを基準として特徴記述をすることによって、入力画像が回転していても、同一なキーポイントは同一な特徴量となって検出することができる。そのために、キーポイントの中心とパッチの輝度の重心の方向ベクトルを用いる。 Further, the existing FAST does not have an algorithm for calculating the key point orientation for obtaining rotation invariance. Therefore, ORB adopts Oriented FAST in order to obtain rotational invariance. By describing the features based on the orientation, even if the input image is rotated, the same key point can be detected as the same feature amount. Therefore, the direction vector of the center of the key point and the center of gravity of the brightness of the patch is used.
(特徴ベクトル記述処理)
次に、ORBにおける特徴ベクトル記述処理によれば、検出された特徴点毎に、BRIEF特徴ベクトル記述子によってバイナリ特徴ベクトルが抽出される。これらは、特徴点周辺の2箇所のピクセルの輝度の大小関係から求められる。
(Feature vector description processing)
Next, according to the feature vector description processing in the ORB, a binary feature vector is extracted for each detected feature point by using a BRIF feature vector descriptor. These are obtained from the magnitude relationship of the luminance of two pixels around the feature point.
BRIEFは、バイナリコードによってキーポイントの特徴量記述を実行することができる。SIFTやSURFによれば、特徴量記述に高次元の実数を用いていた。しかしながら、高次元の実数を用いた場合、メモリ容量の増加と類似度計算の増加と問題となる。そこで、ORBに基づくBRIEFを用いることによって、バイナリコードによって特徴記述することで省メモリ化し、類似度計算にハミング距離を用いることで処理コストの抑制を実現する。 BRIEF can execute keypoint feature description by binary code. According to SIFT and SURF, high-dimensional real numbers are used for feature description. However, when a high-dimensional real number is used, there is an increase in memory capacity and similarity calculation. Therefore, by using BREF based on ORB, it is possible to save memory by describing features by binary code, and it is possible to reduce processing costs by using a Hamming distance for similarity calculation.
BRIEFによれば、パッチ内においてランダムに選択された2点の輝度差の符号からバイナリコードを生成する。選択するピクセルは、キーポイント位置を中心としたガウス分布に従ってランダムに選択する。ここで、ORBは、更に高精度にマッチングをさせるために、学習を用いてピクセルを選択している。選択するピクセル位置は、ペアのビット分散が大きく且つN組のペアの相関が低い場合に、特徴記述能力が高いバイナリコードとして、特徴記述に使用する。N組のペアは、Greedyアルゴリズムを用いて絞り込む。 According to BRIEF, a binary code is generated from the sign of the luminance difference between two points randomly selected in the patch. The pixels to be selected are randomly selected according to a Gaussian distribution centered on the key point position. Here, the ORB selects pixels using learning in order to perform matching with higher accuracy. The selected pixel position is used for feature description as a binary code with high feature description capability when the bit variance of the pair is large and the correlation of N pairs is low. N pairs are narrowed down using the Greedy algorithm.
[モデル推定部12]
モデル推定部12は、訓練コンテンツのバイナリ特徴ベクトルの集合から、i番目の多変量ベルヌーイ分布に関する混合比wiと、i番目の多変量ベルヌーイ分布のd番目のパラメータμidとを算出する。これらは、モデルパラメータλとして算出される。
λ(w1、・・・、wN及びμ11、・・・、μND)
また、本発明におけるモデル推定部12は、パラメータμidに関するフィッシャー情報量fidも更に算出する。
f11、・・・、fND(N×D個):フィッシャー情報量
[Model estimation unit 12]
The
λ (w 1 ,..., w N and μ 11 ,..., μ ND )
In addition, the
f 11 ,..., f ND (N × D): Fisher information amount
<多変量混合ベルヌーイ分布に基づくパラメータwi及びμidの算出>
本発明によれば、バイナリ特徴ベクトルの集合を「多変量混合ベルヌーイ分布」でモデル化したモデルパラメータλを推定する。ベルヌーイ分布とは、確率pで1を、確率q=1-pで0をとる離散確率分布という。Xをベルヌーイ分布に従う確率変数とすれば、確率変数Xの平均はp、分散はpq=p(1-p)となる。「多変量混合ベルヌーイ分布」は、バイナリ特徴ベクトルxtが生成される確率p(xt|λ)を表現する。
According to the present invention, a model parameter λ obtained by modeling a set of binary feature vectors with a “multivariate mixed Bernoulli distribution” is estimated. The Bernoulli distribution is a discrete probability distribution with a probability p of 1 and a probability q = 1−p of 0. If X is a random variable according to Bernoulli distribution, the mean of the random variable X is p, and the variance is pq = p (1-p). The “multivariate mixed Bernoulli distribution” expresses a probability p (x t | λ) that a binary feature vector x t is generated.
混合分布であるため、p1からpNまでの異なる多変量ベルヌーイ分布が、それぞれ混合比wiで選択され、xtが生成される。i番目の多変量ベルヌーイ分布から、バイナリ特徴ベクトルxtが生成される確率は、以下の式で表現される。
xt,d:バイナリ特徴ベクトルxtのd番目のビット
D:バイナリ特徴ベクトルのビット長
pi(xt|λ):バイナリ特徴ベクトルxtがi番目の多変量ベルヌーイ分布から生成
された際に、d番目のビットが1となる確率
Since they are mixed distributions, different multivariate Bernoulli distributions from p 1 to p N are selected with the respective mixing ratios w i to generate x t . The probability that the binary feature vector x t is generated from the i-th multivariate Bernoulli distribution is expressed by the following equation.
x t, d : d-th bit of binary feature vector x t
D: Bit length of binary feature vector
p i (x t | λ): Binary feature vector x t is generated from the i-th multivariate Bernoulli distribution
The probability that the dth bit will be 1
これらのパラメータは、具体的には、訓練コンテンツのバイナリ特徴ベクトルの集合x1〜xTから、EM(Expectation-Maximization)アルゴリズムの繰り返し処理によって推定する。EMアルゴリズムとは、統計学について、確率モデルのパラメータを最尤法に基づいて推定方法であって、観測不可能な潜在変数に確率モデルが依存する場合に用いられるものである。 Specifically, these parameters are estimated from a set of binary feature vectors x 1 to x T of the training content by an iterative process of an EM (Expectation-Maximization) algorithm. The EM algorithm is an estimation method for statistical parameters based on the maximum likelihood method, and is used when the probability model depends on a latent variable that cannot be observed.
E(Expectation、期待値)ステップでは、バイナリ特徴ベクトルxi毎に、潜在変数ztiの分布に基づいて、モデルの尤度の期待値γt(i)を推定する。
M(Maximization、最大化)ステップでは、Eステップで算出された尤度の期待値γt(i)を最大化するべく、混合比wi及びパラメータμiを更新する。Mステップで算出されたパラメータは、次のEステップにおける潜在変数の分布を決定するために用いられる。
これらEステップ及びMステップを、収束するまで繰り返すことによって、対数尤度を最大化する混合比wi及びパラメータμiのパラメータ群λを算出する
λ(w1、・・・、wN及びμ11、・・・、μND)
By repeating these E step and M step until convergence, the parameter group λ of the mixture ratio w i and the parameter μ i that maximizes the log likelihood is calculated λ (w 1 ,..., W N and μ 11・ ・ ・ ・ ・ ・ μ ND )
<フィッシャー情報量fidの算出>
また、モデル推定部12は、多変量混合ベルヌーイ分布のパラメータμidに関する「フィッシャー情報量fid」を算出する。フィッシャーカーネル(Fisher kernel)は、生成的アプローチ(generative
approach)と判別的アプローチ(discriminative approach)とを結合させる枠組みである(例えば非特許文献8参照)。フィッシャーカーネルでは、最初に、局所記述子を生成する確率密度分布から導出される勾配ベクトルを計算し、この勾配ベクトルをフィッシャー情報行列で正規化したものを、画像を表現する1つの特徴ベクトルとする。フィッシャー情報行列を対角行列と仮定した場合、正規化は各パラメータに関する勾配を、フィッシャー情報量で正規化することと同値である。フィッシャーカーネルによれば、Bag of Featuresと比較して、同一サイズのコードブックであっても、要素数のより多い特徴ベクトルを得ることができる。即ち、特徴ベクトルの表現する情報が多いため、計算コストの高いカーネル法を利用して高次元空間へ射影する必要がなく、線形的な識別であっても十分な性能を引き出すことができる。
<Calculation of Fisher information amount f id >
Further, the
approach) and a discriminative approach (see Non-Patent Document 8, for example). In the Fisher kernel, first, a gradient vector derived from a probability density distribution that generates a local descriptor is calculated, and this gradient vector normalized by a Fisher information matrix is used as one feature vector that represents an image. . Assuming that the Fisher information matrix is a diagonal matrix, normalization is equivalent to normalizing the gradient for each parameter with the amount of Fisher information. According to the Fisher kernel, a feature vector having a larger number of elements can be obtained even with a codebook of the same size as compared with Bag of Features. That is, since there is a lot of information expressed by feature vectors, there is no need to project to a high-dimensional space using a kernel method with high calculation cost, and sufficient performance can be obtained even with linear identification.
(フィッシャー情報行列を対角行列とした第1の実施形態)
モデル推定部12は、
(S11)パラメータμidの対数尤度関数を偏微分で定義したフィッシャースコアsidを算出し、
(S12)フィッシャースコアsidの分散としてフィッシャー情報量fidを算出する。
(First embodiment in which the Fisher information matrix is a diagonal matrix)
The
(S11) A Fisher score s id in which a logarithmic likelihood function of the parameter μ id is defined by partial differentiation is calculated,
(S12) The Fisher information amount f id is calculated as the variance of the Fisher score s id .
フィッシャー情報量は、フィッシャースコアの2次モーメントで定義される。μidに関するフィッシャースコアは、多変量混合ベルヌーイ分布に関して、バイナリ特徴ベクトル集合X={x1、・・・、xT}を観測した際の対数尤度関数L(λ|X)=log P(X|λ)のμidに関する偏微分で定義される。 The Fisher information amount is defined by the second moment of the Fisher score. Fisher's score for μ id is a log-likelihood function L (λ | X) = log P (when a binary feature vector set X = {x 1 ,..., x T } is observed for a multivariate mixed Bernoulli distribution. X | λ) is defined as a partial derivative with respect to μ id .
μidに関するフィッシャースコアsidは、以下の式で定義される。
また、前述のγt(i)を用いると、以下の式となる。
μidに関するフィッシャー情報量fidは、以下の式によって定義される。
従来(非特許文献3)では、フィッシャー情報量を、パラメータλから近似的に計算している。本発明では、以下に示すようにフィッシャー情報量をサンプルから直接計算することで、近似ではない正確なフィッシャー情報量を計算し、精度を担保する。
数7は、xtの独立性と、
Equation 7 is the independence of x t
(主成分分析を用いた第2の実施形態)
モデル推定部12は、
(S21)対数尤度関数のパラメータμidに関する偏微分で定義されるフィッシャースコアsidを算出し、
(S22)フィッシャースコアsidに対して主成分分析を実行し、
(S23)主成分分析の結果、固有値の大きいものからK個を、正規化パラメータfidとして出力し、
(S24)固有値に対応するK個の固有ベクトルgiKを更に出力する。
(Second embodiment using principal component analysis)
The
(S21) Calculate a Fisher score s id defined by partial differentiation with respect to the parameter μ id of the log likelihood function,
(S22) A principal component analysis is performed on the Fisher score s id ,
(S23) As a result of the principal component analysis, K values having large eigenvalues are output as normalization parameters f id ,
(S24) Further output K eigenvectors g iK corresponding to the eigenvalues.
特に画像の場合、バイナリ特徴ベクトルのビット間には相関がある。そのために、第1の実施形態のような対角行列の仮定は必ずしも成立しない。そのため、第2の実施形態によれば、以下のように主成分分析を用いて無相関化と正規化を実行する。主成分分析とは、直交回転を用いて変数間に相関がある元の観測値を、相関の無い主成分とよばれる値に変換することをいう。 Particularly in the case of an image, there is a correlation between the bits of the binary feature vector. For this reason, the assumption of the diagonal matrix as in the first embodiment is not necessarily established. Therefore, according to the second embodiment, decorrelation and normalization are performed using principal component analysis as follows. Principal component analysis refers to transforming an original observed value having a correlation between variables into a value called an uncorrelated principal component using orthogonal rotation.
多変量混合ベルヌーイ分布のi番目の多変量ベルヌーイ分布について、フィッシャースコアsi1、・・・、siDを、バイナリ特徴ベクトル集合x1、・・・、xTに対して算出し、主成分分析を実行する。主成分分析の結果の固有値の大きいものからK個を、fi1、・・・、fiKとし、対応する固有ベクトルをgi1、・・・、giKとし、モデルパラメータとしてモデルパラメータ蓄積部13へ出力する。 For the i-th multivariate Bernoulli distribution multivariate mixed Bernoulli distribution, calculated Fisher scores s i1, · · ·, a s iD, binary feature vector set x 1, · · ·, relative to x T, principal component analysis Execute. K from the largest eigenvalues of the result of the principal component analysis are set as f i1 ,..., F iK , the corresponding eigenvectors are set as g i1 ,. Output.
[モデルパラメータ蓄積部13]
モデルパラメータ蓄積部13は、モデル推定部12から出力されたモデルパラメータとして、混合比wi(i=1〜N)パラメータμid(i=1〜N, d=1〜D)とフィッシャー情報量fid(i=1〜N, d=1〜D)とを蓄積する。また、第2の実施形態によれば、モデルパラメータ蓄積部13は、固有ベクトルgik(i=1〜N, k=1〜K個)も更に蓄積する。
[Model parameter storage unit 13]
The model
[特徴ベクトル変換部14]
特徴ベクトル変換部14は、リファレンスコンテンツ又はクエリコンテンツのバイナリ特徴ベクトルの集合x1〜xTから、モデルパラメータ蓄積部13の混合比wiとパラメータμidとフィッシャー情報量fidとを用いて、リファレンスコンテンツ又はクエリコンテンツに対応する1つのフィッシャーベクトルvを算出する。
[Feature vector conversion unit 14]
The feature
(モデル推定部12の第1の実施形態に対して)
特徴ベクトル変換部14は、
(S13)バイナリ特徴ベクトルの集合x1〜xT毎に、パラメータwi及びμidを用いてフィッシャースコアsid(s11〜sND)を算出し、これらをid毎に累積した累積フィッシャースコアs'id(s'11〜s'ND)算出し、
(S14)各累積フィッシャースコアs'idを、対応するフィッシャー情報量fidの平方根√fidで除算したフィッシャーベクトルvidを算出する。
vid=sid/√fid
f11、・・・、fND(N×D個):フィッシャー情報量
(For the first embodiment of the model estimation unit 12)
The feature
(S13) A Fisher score s id (s 11 to s ND ) is calculated for each set of binary feature vectors x 1 to x T using the parameters w i and μ id and accumulated for each id. Calculate s' id (s' 11 ~ s' ND )
(S14) A Fisher vector v id is calculated by dividing each accumulated Fisher score s ′ id by the square root √f id of the corresponding Fisher information amount f id .
v id = s id / √f id
f 11 ,..., f ND (N × D): Fisher information amount
(モデル推定部12の第2の実施形態に対して)
特徴ベクトル変換部14は、
(S25)バイナリ特徴ベクトルの集合毎に、パラメータwi及びμidを用いてフィッシャースコアsid(s11〜sND)を算出し、これらをid毎に累積した累積フィッシャースコアs'id(s'11〜s'ND)を算出し、
(S26)混合要素i毎に、各累積フィッシャースコアs'id(s'i1〜s’iD)、対応する固有ベクトルgiKを用いて正規化(射影)した正規化ベクトルv'idを算出し、
(S27)正規化ベクトルv'idを、対応する固有ベクトルgidの平方根√gidで除算したフィッシャーベクトルvidを算出する。
vid=v’id/√gid
(For the second embodiment of the model estimation unit 12)
The feature
(S25) For each set of binary feature vectors, the Fisher score s id (s 11 to s ND ) is calculated using the parameters w i and μ id , and the accumulated Fisher score s ′ id (s '11 ~s' ND) is calculated,
(S26) For each mixed element i, calculate a normalized vector v ′ id normalized (projected) using each cumulative Fisher score s ′ id (s ′ i1 to s ′ iD ) and the corresponding eigenvector g iK ,
(S27) the normalized vector v 'id, to calculate a Fischer vector v id divided by the square root √G id of the corresponding eigenvectors g id.
v id = v ' id / √g id
特徴ベクトル変換部14は、リファレンスコンテンツについて変換されたフィッシャーベクトルは、リファレンス情報蓄積部15へ出力し、クエリコンテンツについて変換されたフィッシャーベクトルは、特徴ベクトル変換部16へ出力される。
The feature
[特徴ベクトル検索部16]
特徴ベクトル検索部16は、従来技術の図1と同様に、リファレンス情報蓄積部15を用いて、クエリコンテンツのフィッシャーベクトルvQに最も類似する、リファレンスコンテンツのフィッシャーベクトルvRを検索する。ここでは、ユークリッド距離を用いることができ、vQ及びvRの間の距離が短いほど、クエリコンテンツに対してそのリファレンスコンテンツの類似度が高いことを意味する。具体的には、最近傍探索(Approximate Nearest Neighbor)アルゴリズムの1つである直積量子化を用いた方法(例えば非特許文献6参照)やLSH(Locality-Sensitive Hashing)を用いることも好ましい。
[Feature vector search unit 16]
The feature
以上、詳細に説明したように、本発明の検索装置、プログラム及び方法によれば、SIFTやSURFよりも更に高速にコンテンツを検索することができる。 As described above in detail, according to the search device, program, and method of the present invention, content can be searched at a higher speed than SIFT or SURF.
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。 Various changes, modifications, and omissions of the above-described various embodiments of the present invention can be easily made by those skilled in the art. The above description is merely an example, and is not intended to be restrictive. The invention is limited only as defined in the following claims and the equivalents thereto.
1 検索装置
11 特徴ベクトル抽出部
12 モデル推定部
13 モデルパラメータ蓄積部
14 特徴ベクトル変換部
15 リファレンス情報蓄積部
16 特徴ベクトル検索部
DESCRIPTION OF
Claims (9)
訓練コンテンツ、リファレンスコンテンツ及びクエリコンテンツそれぞれについて、D次元のバイナリ特徴ベクトルの集合x1〜xTを抽出する特徴ベクトル抽出手段と、
訓練コンテンツのバイナリ特徴ベクトルの集合から、i(1≦i≦N)番目の多変量ベルヌーイ分布に関する混合比wiと、i番目の多変量ベルヌーイ分布のd(1≦d≦D)番目のパラメータμidと、パラメータμidに関するフィッシャー情報量fidとを算出するモデル推定手段と、
混合比wiとパラメータμidとフィッシャー情報量fidとを蓄積するモデルパラメータ蓄積手段と、
リファレンスコンテンツ又はクエリコンテンツのバイナリ特徴ベクトルの集合から、前記モデルパラメータ蓄積手段に蓄積された混合比wiとパラメータμidとフィッシャー情報量fidとを用いて、リファレンスコンテンツ又はクエリコンテンツに対応する1つのフィッシャーベクトルを算出する特徴ベクトル変換手段と、
クエリコンテンツのフィッシャーベクトルに最も類似する、リファレンスコンテンツのフィッシャーベクトルを検索する特徴ベクトル検索手段と
してコンピュータを機能させることを特徴とする検索プログラム。 A search program that causes a computer mounted on a device to function to search for reference content similar to query content from a set of reference content using model parameters extracted from training content,
For each of the training content, the reference content, and the query content, a feature vector extraction unit that extracts a set of D-dimensional binary feature vectors x 1 to x T ,
From the set of binary feature vectors of the training content, the mixture ratio w i for the i (1 ≦ i ≦ N) -th multivariate Bernoulli distribution and the d (1 ≦ d ≦ D) -th parameter of the i-th multivariate Bernoulli distribution model estimation means for calculating μ id and the Fisher information amount f id related to the parameter μ id ;
Model parameter accumulating means for accumulating the mixing ratio w i , parameter μ id, and Fisher information amount f id ;
1 corresponding to the reference content or query content from the set of binary feature vectors of the reference content or query content using the mixture ratio w i , parameter μ id, and Fisher information amount f id stored in the model parameter storage means. Feature vector conversion means for calculating two Fisher vectors;
A search program that causes a computer to function as a feature vector search unit that searches for a Fisher vector of a reference content that is most similar to a Fisher vector of a query content.
E(Expectation)ステップについて、バイナリ特徴ベクトルxi毎に潜在変数iの期待値γt (i)を推定し、
M(Maximization)ステップについて、前記期待値γt (i)を用いて、混合比wi及びパラメータμiを更新し、
これらEステップ及びMステップを、収束するまで繰り返すことによって、混合比wi及びパラメータμiのパラメータ群λを算出する
λ(w1、・・・、wN及びμ11、・・・、μND)
ようにコンピュータを機能させることを特徴とする請求項1又は2に記載の検索プログラム。 The model estimation means includes a set of binary feature vectors x 1 to x T of training content,
For the E (Expectation) step, estimate the expected value γ t (i) of the latent variable i for each binary feature vector x i ,
For the M (Maximization) step, the mixture ratio w i and the parameter μ i are updated using the expected value γ t (i),
By repeating these E step and M step until convergence, a parameter group λ of the mixture ratio w i and parameter μ i is calculated. Λ (w 1 ,..., W N and μ 11 ,. ND )
The search program according to claim 1 or 2, wherein the computer functions as described above.
前記パラメータμidの対数尤度関数を偏微分で定義したフィッシャースコアsidを算出し、
前記フィッシャースコアsidの分散としてフィッシャー情報量fidを算出する
ようにコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載の検索プログラム。 The model estimation means includes
Calculating a Fisher score s id in which a logarithmic likelihood function of the parameter μ id is defined by partial differentiation;
The search program according to any one of claims 1 to 3, wherein the computer is caused to calculate a Fisher information amount f id as a variance of the Fisher score s id .
各累積フィッシャースコアs'idを、対応するフィッシャー情報量fidの平方根√fidで除算したフィッシャーベクトルvidを算出する
ようにコンピュータを機能させることを特徴とする請求項4に記載の検索プログラム。 The feature vector conversion means calculates a Fisher score s id using the parameter μ id for each set of binary feature vectors, calculates a cumulative Fisher score s ′ id obtained by accumulating these for each id ,
5. The search program according to claim 4, wherein the computer is caused to calculate a Fisher vector v id obtained by dividing each cumulative Fisher score s ′ id by a square root √f id of a corresponding Fisher information amount f id . .
前記パラメータμidの対数尤度関数を偏微分で定義したフィッシャースコアsidを算出し、
前記フィッシャースコアsidの混合要素i毎のベクトル(si1〜siD)に対して主成分分析を実行し、
前記主成分分析の結果、固有値の大きいものからK個を、前記フィッシャー情報量fidとして出力し、
前記固有値に対応するK個の固有ベクトルgiKを更に出力し、
前記モデルパラメータ蓄積手段は、前記固有ベクトルgiKを更に蓄積する
ようにコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載の検索プログラム。 The model estimation means includes
Calculating a Fisher score s id in which a logarithmic likelihood function of the parameter μ id is defined by partial differentiation;
A principal component analysis is performed on the vector (si1 to siD) for each mixed element i of the Fisher score s id ,
As a result of the principal component analysis, K pieces having large eigenvalues are output as the Fisher information amount f id ,
Further output K eigenvectors g iK corresponding to the eigenvalues,
The search program according to any one of claims 1 to 3, wherein the model parameter storage means causes a computer to further store the eigenvector g iK .
混合要素i毎に、各累積フィッシャースコアs'idのベクトル(s'i1〜siD)を、対応する固有ベクトルgik(gi1〜giK)を用いて正規化(射影)した正規化ベクトルv'ikを算出し、
正規化ベクトルv'ikを、対応する固有ベクトルgikの平方根√gikで除算したフィッシャーベクトルvikを算出する
ようにコンピュータを機能させることを特徴とする請求項6に記載の検索プログラム。 The feature vector conversion means calculates a Fisher score s id using the parameter μ id for each set of binary feature vectors, calculates a cumulative Fisher score s ′ id obtained by accumulating these for each id ,
A normalized vector v obtained by normalizing (projecting) a vector (s ′ i1 to s iD ) of each cumulative Fisher score s ′ id using a corresponding eigenvector g ik (g i1 to g iK ) for each mixed element i. 'Calculate ik ,
The search program according to claim 6, wherein the computer functions to calculate a Fisher vector v ik obtained by dividing the normalized vector v ′ ik by the square root √g ik of the corresponding eigenvector g ik .
訓練コンテンツ、リファレンスコンテンツ及びクエリコンテンツそれぞれについて、D次元のバイナリ特徴ベクトルの集合x1〜xTを抽出する特徴ベクトル抽出手段と、
訓練コンテンツのバイナリ特徴ベクトルの集合から、i(1≦i≦N)番目の多変量ベルヌーイ分布に関する混合比wiと、i番目の多変量ベルヌーイ分布のd(1≦d≦D)番目のパラメータμidと、パラメータμidに関するフィッシャー情報量fidとを算出するモデル推定手段と、
混合比wiとパラメータμidとフィッシャー情報量fidとを蓄積するモデルパラメータ蓄積手段と、
リファレンスコンテンツ又はクエリコンテンツのバイナリ特徴ベクトルの集合から、前記モデルパラメータ蓄積手段の混合比wiとパラメータμidとフィッシャー情報量fidとを用いて、リファレンスコンテンツ又はクエリコンテンツに対応する1つのフィッシャーベクトルを算出する特徴ベクトル変換手段と、
クエリコンテンツのフィッシャーベクトルに最も類似する、リファレンスコンテンツのフィッシャーベクトルを検索する特徴ベクトル検索手段と
を有することを特徴とする検索装置。 A search device for searching reference content similar to query content from a set of reference content using model parameters extracted from training content,
For each of the training content, the reference content, and the query content, a feature vector extraction unit that extracts a set of D-dimensional binary feature vectors x 1 to x T ,
From the set of binary feature vectors of the training content, the mixture ratio w i for the i (1 ≦ i ≦ N) -th multivariate Bernoulli distribution and the d (1 ≦ d ≦ D) -th parameter of the i-th multivariate Bernoulli distribution model estimation means for calculating μ id and the Fisher information amount f id related to the parameter μ id ;
Model parameter accumulating means for accumulating the mixing ratio w i , parameter μ id, and Fisher information amount f id ;
From a set of binary feature vectors of reference content or query content, one Fisher vector corresponding to the reference content or query content using the mixture ratio w i , parameter μ id and Fisher information amount f id of the model parameter storage means. Feature vector conversion means for calculating
And a feature vector search unit that searches for a Fisher vector of reference content that is most similar to a Fisher vector of query content.
モデルパラメータを蓄積する第1のステップとして、
訓練コンテンツそれぞれについて、D次元のバイナリ特徴ベクトルの集合x1〜xTを抽出し、
訓練コンテンツのバイナリ特徴ベクトルの集合から、i(1≦i≦N)番目の多変量ベルヌーイ分布に関する混合比wiと、i番目の多変量ベルヌーイ分布のd(1≦d≦D)番目のパラメータμidと、パラメータμidに関するフィッシャー情報量fidとを算出し、
混合比wiとパラメータμidとフィッシャー情報量fidとを蓄積し、
リファレンス情報を蓄積する第2のステップとして、
リファレンスコンテンツそれぞれについて、D次元のバイナリ特徴ベクトルの集合を抽出し、
リファレンスコンテンツそれぞれのバイナリ特徴ベクトルの集合から、モデルパラメータとして蓄積された混合比wiとパラメータμidとフィッシャー情報量fidとを用いて、1つのフィッシャーベクトルを算出し、
前記フィッシャーベクトルを蓄積し、
クエリコンテンツからリファレンスコンテンツを検索する第3のステップとして、
クエリコンテンツそれぞれのバイナリ特徴ベクトルの集合から、モデルパラメータとして蓄積された混合比wiとパラメータμidとフィッシャー情報量fidとを用いて、1つのフィッシャーベクトルを算出し、
クエリコンテンツのフィッシャーベクトルに最も類似する、リファレンスコンテンツのフィッシャーベクトルを検索する
を有することを特徴とする検索方法。 A search method for searching reference content similar to query content from a set of reference content using a model parameter extracted from training content using an apparatus,
As a first step of accumulating model parameters,
For each training content, a set of D-dimensional binary feature vectors x 1 to x T is extracted,
From the set of binary feature vectors of the training content, the mixture ratio w i for the i (1 ≦ i ≦ N) -th multivariate Bernoulli distribution and the d (1 ≦ d ≦ D) -th parameter of the i-th multivariate Bernoulli distribution Calculate μ id and Fisher information amount f id related to parameter μ id ,
Accumulate the mixing ratio w i , the parameter μ id and the Fisher information amount f id ,
As a second step of accumulating reference information,
For each reference content, extract a set of D-dimensional binary feature vectors,
From the set of binary feature vectors of each reference content, one Fisher vector is calculated using the mixture ratio w i , the parameter μ id, and the Fisher information amount f id accumulated as model parameters.
Accumulates the Fisher vector,
As a third step of searching reference content from query content,
From the set of binary feature vectors of each query content, one Fisher vector is calculated using the mixture ratio w i , the parameter μ id and the Fisher information amount f id accumulated as model parameters,
A search method comprising searching for a Fisher vector of reference content that is most similar to a Fisher vector of query content.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013014891A JP5959446B2 (en) | 2013-01-30 | 2013-01-30 | Retrieval device, program, and method for high-speed retrieval by expressing contents as a set of binary feature vectors |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013014891A JP5959446B2 (en) | 2013-01-30 | 2013-01-30 | Retrieval device, program, and method for high-speed retrieval by expressing contents as a set of binary feature vectors |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014146207A JP2014146207A (en) | 2014-08-14 |
JP5959446B2 true JP5959446B2 (en) | 2016-08-02 |
Family
ID=51426411
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013014891A Active JP5959446B2 (en) | 2013-01-30 | 2013-01-30 | Retrieval device, program, and method for high-speed retrieval by expressing contents as a set of binary feature vectors |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5959446B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108268465A (en) * | 2016-12-30 | 2018-07-10 | 广东精点数据科技股份有限公司 | A kind of text search technology towards mixed data model |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10394777B2 (en) | 2015-09-24 | 2019-08-27 | Google Llc | Fast orthogonal projection |
CN107636639B (en) * | 2015-09-24 | 2021-01-08 | 谷歌有限责任公司 | Fast orthogonal projection |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3500930B2 (en) * | 1997-09-22 | 2004-02-23 | ミノルタ株式会社 | Keyword assignment method and keyword automatic assignment device |
US8250061B2 (en) * | 2006-01-30 | 2012-08-21 | Yahoo! Inc. | Learning retrieval functions incorporating query differentiation for information retrieval |
JP5598925B2 (en) * | 2011-06-29 | 2014-10-01 | Kddi株式会社 | Retrieval device and program for retrieving high-dimensional feature vectors with high accuracy |
-
2013
- 2013-01-30 JP JP2013014891A patent/JP5959446B2/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108268465A (en) * | 2016-12-30 | 2018-07-10 | 广东精点数据科技股份有限公司 | A kind of text search technology towards mixed data model |
Also Published As
Publication number | Publication date |
---|---|
JP2014146207A (en) | 2014-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ranjan et al. | Multi-label cross-modal retrieval | |
Mehmood et al. | A novel image retrieval based on a combination of local and global histograms of visual words | |
JP6041439B2 (en) | Image search apparatus, system, program, and method using binary feature vector based on image | |
Tabia et al. | Compact vectors of locally aggregated tensors for 3D shape retrieval | |
Kan et al. | Learning prototype hyperplanes for face verification in the wild | |
Dharani et al. | Content based image retrieval system using feature classification with modified KNN algorithm | |
JP6042778B2 (en) | Retrieval device, system, program and method using binary local feature vector based on image | |
Cheng et al. | Person re-identification by the asymmetric triplet and identification loss function | |
JP5959446B2 (en) | Retrieval device, program, and method for high-speed retrieval by expressing contents as a set of binary feature vectors | |
Sun et al. | Search by detection: Object-level feature for image retrieval | |
Dammak et al. | Histogram of dense subgraphs for image representation | |
JP6017277B2 (en) | Program, apparatus and method for calculating similarity between contents represented by set of feature vectors | |
JP5833499B2 (en) | Retrieval device and program for retrieving content expressed by high-dimensional feature vector set with high accuracy | |
JP6601965B2 (en) | Program, apparatus and method for quantizing using search tree | |
Szűcs et al. | Content-based image retrieval for multiple objects search | |
Cui et al. | Dimensionality reduction for histogram features: A distance-adaptive approach | |
Tian et al. | Improved bag-of-words model for person re-identification | |
ur Rehman et al. | Multi-feature fusion based re-ranking for person re-identification | |
Hema et al. | Patch-SIFT: Enhanced feature descriptor to learn human facial emotions using an Ensemble approach | |
Wang et al. | Unsupervised image retrieval with mask-based prominent feature accumulation | |
Scheirer et al. | How reliable are your visual attributes? | |
Tian et al. | Person re-identification as image retrieval using bag of ensemble colors | |
Tianjiao et al. | Calligraphy word style recognition by KNN based feature library filtering | |
Uchida et al. | Binary feature-based image retrieval with effective indexing and scoring | |
Yin et al. | Extremely Randomized Clustering Forest Based Scene Recognition Algorithm in Mobile Devices. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150804 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160617 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160624 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160621 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5959446 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |