JP5959446B2 - Retrieval device, program, and method for high-speed retrieval by expressing contents as a set of binary feature vectors - Google Patents

Retrieval device, program, and method for high-speed retrieval by expressing contents as a set of binary feature vectors Download PDF

Info

Publication number
JP5959446B2
JP5959446B2 JP2013014891A JP2013014891A JP5959446B2 JP 5959446 B2 JP5959446 B2 JP 5959446B2 JP 2013014891 A JP2013014891 A JP 2013014891A JP 2013014891 A JP2013014891 A JP 2013014891A JP 5959446 B2 JP5959446 B2 JP 5959446B2
Authority
JP
Japan
Prior art keywords
fisher
content
parameter
vector
feature vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013014891A
Other languages
Japanese (ja)
Other versions
JP2014146207A (en
Inventor
祐介 内田
祐介 内田
茂之 酒澤
茂之 酒澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2013014891A priority Critical patent/JP5959446B2/en
Publication of JP2014146207A publication Critical patent/JP2014146207A/en
Application granted granted Critical
Publication of JP5959446B2 publication Critical patent/JP5959446B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、特徴ベクトルの集合で表されるリファレンスコンテンツ(検索対象のコンテンツ)の集合から、同じく特徴ベクトルの集合で表されるクエリコンテンツ(検索キーとなるコンテンツ)に類似したリファレンスコンテンツを検索する技術に関する。特に、特徴ベクトルの集合で表されるマルチメディアコンテンツ(例えば画像)の検索に適する。   The present invention searches for a reference content similar to a query content (content serving as a search key) similarly represented by a set of feature vectors from a set of reference content (contents to be searched) represented by a set of feature vectors. Regarding technology. In particular, it is suitable for searching multimedia contents (for example, images) represented by a set of feature vectors.

近年、オンライン/オフラインに限られず、ストレージの大容量化に伴って、大量のコンテンツを蓄積することが可能となっている。また、携帯電話機やスマートフォンに代表される情報端末機器の普及によって、ユーザ自ら取得した写真データのようなデジタルコンテンツも、データベースに大量かつ容易に蓄積することができる。オフラインデータベースとして、HDD(Hard Disk Drive)、DVD(Digital Versatile Disk)、Blu-ray disc等の記憶装置がある。また、オンラインデータベースとしては、Flickr(登録商標)やMySpace(登録商標)のようなソーシャルネットワークサービスがある。これら記憶装置及びサービスによれば、データベースに蓄積された個人の大量且つ多様なマルチメディアコンテンツを検索するする技術が重要となる。   In recent years, not limited to online / offline, it has become possible to accumulate a large amount of content as the capacity of the storage increases. In addition, with the widespread use of information terminal devices typified by mobile phones and smartphones, digital content such as photograph data acquired by the user can be easily stored in a large amount in a database. Offline databases include storage devices such as HDD (Hard Disk Drive), DVD (Digital Versatile Disk), and Blu-ray disc. Online databases include social network services such as Flickr (registered trademark) and MySpace (registered trademark). According to these storage devices and services, a technique for searching for a large amount and various multimedia contents of individuals stored in a database becomes important.

マルチメディアコンテンツを検索するために、これらコンテンツから多数の特徴ベクトルを抽出し、この特徴ベクトルの集合同士の間の類似度が高いコンテンツを検索結果として出力する技術がある。この技術によれば、マルチメディアコンテンツの特徴ベクトルを量子化し、量子化された特徴ベクトルの頻度からヒストグラムを作成する。そのヒストグラム同士の間のL1ノルム又はL2ノルムの距離によって類似度(距離)を算出する。ノルムとは、2つの点の間の距離を表す。L1ノルムとは、2つの点の各次元の値の絶対値の和を意味し、L2ノルムとは、2つの点の各次元の値を二乗した和を意味する。   In order to search for multimedia contents, there is a technique for extracting a large number of feature vectors from these contents and outputting contents having a high degree of similarity between sets of feature vectors as search results. According to this technique, feature vectors of multimedia content are quantized and a histogram is created from the frequency of the quantized feature vectors. The similarity (distance) is calculated by the distance of the L1 norm or L2 norm between the histograms. The norm represents the distance between two points. The L1 norm means the sum of the absolute values of the dimensions of the two points, and the L2 norm means the sum of the squares of the values of the two points.

また、画像コンテンツから大量の局所特徴ベクトルを抽出し、それらをベクトル量子化し、同一の代表ベクトルにベクトル量子化された局所特徴ベクトルの数で類似度を算出する技術もある(例えば非特許文献1参照)。   There is also a technique for extracting a large amount of local feature vectors from image content, vector quantizing them, and calculating the similarity based on the number of local feature vectors vector-quantized to the same representative vector (for example, Non-Patent Document 1). reference).

更に、画像から複数の局所不変特徴量を抽出し、特徴ベクトルの頻度のヒストグラム化し、そのヒストグラムの重なり率によって画像とカテゴリとの間の類似度を算出する技術もある(例えば特許文献1参照)。この技術によれば、ヒストグラムに基づいて被写体のパターン認識に不要となる特徴(例えば背景の特徴)を除くことができる。これによって、画像中から物体と物体以外とを予め分離することなく、当該物体の特徴を抽出することができる。   Furthermore, there is a technique for extracting a plurality of local invariant feature amounts from an image, making a histogram of the frequency of feature vectors, and calculating the similarity between the image and the category based on the overlapping ratio of the histograms (see, for example, Patent Document 1). . According to this technique, features (for example, background features) that are not necessary for pattern recognition of a subject can be removed based on the histogram. As a result, the feature of the object can be extracted without previously separating the object and the non-object from the image.

従来、局所特徴量を用いた類似画像検索の枠組みは、「Bag-of-Visual Words」(又はBag-of-Features、Bag-of-Keypoints)と称される(例えば非特許文献1参照)。この技術によれば、Bag-of-Wordsモデル及び転置インデックスを用いた文章の検索方法を、類似画像の検索に適用したものである。Bag-of-Wordsは、文章を1つの単語の頻度により定義される特徴ベクトルで表現し、文章集合に基づいて予め導出されたIDF(Inverse Document Frequency)を単語の重みとして文章間の類似度を導出する枠組みである。これに対し、Bag-of-Visual Wordsは、画像の局所特徴量を量子化し、量子化後の局所特徴量を単語と見立て、同様に頻度により定義される1つの特徴ベクトルとして表現し、IDFを用いた重み付けを利用して同一の類推方法を適用することができる。   Conventionally, a similar image search framework using local features is referred to as “Bag-of-Visual Words” (or Bag-of-Features, Bag-of-Keypoints) (see, for example, Non-Patent Document 1). According to this technique, a sentence retrieval method using a Bag-of-Words model and a transposed index is applied to retrieval of similar images. Bag-of-Words expresses a sentence as a feature vector defined by the frequency of one word, and uses IDF (Inverse Document Frequency) derived in advance based on the sentence set to determine the similarity between sentences. It is a framework to derive. On the other hand, Bag-of-Visual Words quantizes the local feature quantity of an image, regards the local feature quantity after quantization as a word, and expresses it as one feature vector similarly defined by the frequency. The same analogy method can be applied using the weighting used.

更に、近年は、「Bag-of-Visual Words」の枠組みを発展させたフィッシャーベクトルに基づく技術が注目されている(例えば非特許文献3参照)。フィッシャーベクトルを用いた技術によれば、特徴ベクトルを混合ガウス分布でモデル化し、混合ガウス分布のパラメータに関するフィッシャーカーネルを、明示的に特徴ベクトルへマッピングしたものを画像を表現する特徴ベクトルとして利用することができる。この技術によれば、特徴ベクトルの集合を1つの固定長の特徴ベクトルで記述することができ、更にユークリッド距離を特徴ベクトル間の距離尺度として用いることができる。   Furthermore, in recent years, a technique based on the Fisher vector, which is an extension of the “Bag-of-Visual Words” framework, has attracted attention (see, for example, Non-Patent Document 3). According to the technique using the Fisher vector, the feature vector is modeled by a mixed Gaussian distribution, and the Fisher kernel related to the parameters of the mixed Gaussian distribution is explicitly mapped to the feature vector and used as the feature vector that represents the image. Can do. According to this technique, a set of feature vectors can be described by one fixed-length feature vector, and the Euclidean distance can be used as a distance measure between feature vectors.

図1は、従来技術におけるコンテンツの検索装置の機能構成図である。   FIG. 1 is a functional configuration diagram of a conventional content search apparatus.

図1の検索装置1によれば、モデルパラメータを生成するために、多数の訓練コンテンツを予め入力し、モデルパラメータを予め蓄積しておく。また、検索装置1は、多数のリファレンスコンテンツ(検索対象のコンテンツ)を予め入力し、モデルパラメータを用いて正規化に変換したリファレンス特徴ベクトルを予め蓄積しておく。その上で、検索装置1は、クエリコンテンツ(検索キーのコンテンツ)について、モデルパラメータを用いてクエリ特徴ベクトルを正規化し、そのクエリ特徴ベクトルに最も類似するリファレンス特徴ベクトルを検索し、リファレンスコンテンツを特定する。   According to the search device 1 of FIG. 1, in order to generate model parameters, a large number of training contents are input in advance and the model parameters are stored in advance. In addition, the search device 1 inputs in advance a large number of reference contents (contents to be searched) and stores in advance reference feature vectors converted to normalization using model parameters. Then, the search device 1 normalizes the query feature vector using the model parameter for the query content (the search key content), searches for the reference feature vector most similar to the query feature vector, and specifies the reference content To do.

図1によれば、検索装置1は、特徴ベクトル抽出部11と、モデル推定部12と、モデルパラメータ蓄積部13と、特徴ベクトル変換部14と、リファレンス情報蓄積部15と、特徴ベクトル検索部16とを有する。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。   According to FIG. 1, the search device 1 includes a feature vector extraction unit 11, a model estimation unit 12, a model parameter storage unit 13, a feature vector conversion unit 14, a reference information storage unit 15, and a feature vector search unit 16. And have. These functional components are realized by executing a program that causes a computer installed in the apparatus to function.

特徴ベクトル抽出部11は、各マルチメディアコンテンツから、特徴ベクトルの集合を抽出する。例えばマルチメディアコンテンツが画像である場合、その特徴ベクトルは、画像の局所特徴領域から抽出された局所特徴ベクトルである。訓練コンテンツは、特徴ベクトルの集合に変換され、モデル推定部12へ出力される。また、リファレンスコンテンツ及びクエリコンテンツもそれぞれ、特徴ベクトルの集合に変換され、特徴ベクトル変換部14へ出力される。これら全てのコンテンツについて、同一次元数(D次元)の特徴ベクトルが抽出される。   The feature vector extraction unit 11 extracts a set of feature vectors from each multimedia content. For example, when the multimedia content is an image, the feature vector is a local feature vector extracted from the local feature region of the image. The training content is converted into a set of feature vectors and output to the model estimation unit 12. Also, the reference content and the query content are each converted into a set of feature vectors and output to the feature vector conversion unit 14. For all these contents, feature vectors with the same number of dimensions (D dimensions) are extracted.

物体認識に用いる特徴ベクトルの抽出アルゴリズムとしては、回転やスケールの変化にロバストな、例えばSIFT(Scale-Invariant Feature Transform)やSURF(Speeded
Up Robust Features)が用いられる。例えば、SIFTの場合、1枚の画像からは128次元の特徴ベクトルの集合が抽出される。SIFTとは、スケールスペースを用いて特徴的な局所領域を解析し、そのスケール変化及び回転に不変となる特徴ベクトルを記述する技術である。一方で、SURFの場合、SIFTよりも高速処理が可能であって、1枚の画像から64次元の特徴ベクトルの集合が抽出される。SIFTは、処理コストが高く且つリアルタイムマッチングが困難であるのに対し、SURFは、積分画像を利用することによって処理を高速化している。
The feature vector extraction algorithm used for object recognition is, for example, SIFT (Scale-Invariant Feature Transform) or SURF (Speeded)
Up Robust Features) is used. For example, in the case of SIFT, a set of 128-dimensional feature vectors is extracted from one image. SIFT is a technique for analyzing a characteristic local region using a scale space and describing a feature vector that is invariant to scale change and rotation. On the other hand, in the case of SURF, higher-speed processing is possible than SIFT, and a set of 64-dimensional feature vectors is extracted from one image. While SIFT has a high processing cost and is difficult to perform real-time matching, SURF uses an integral image to speed up the processing.

モデル推定部12は、特徴ベクトル抽出部11から出力された訓練コンテンツの特徴ベクトルの集合用いて混合ガウス分布(Gaussian Mixture Model)のモデルパラメータを推定し、そのモデルパラメータを出力する。Bag-of-Featuresの識別性能は、確率密度分布のモデル化の精度に依存する。混合ガウス分布は混合数とパラメータを調整することで、任意の連続な密度関数を表現できるため、混合ガウス分布を用いる。   The model estimation unit 12 estimates model parameters of a Gaussian Mixture Model using the set of feature vectors of the training content output from the feature vector extraction unit 11, and outputs the model parameters. Bag-of-Features discrimination performance depends on the accuracy of probability density distribution modeling. A mixed Gaussian distribution is used because an arbitrary continuous density function can be expressed by adjusting the number of parameters and parameters.

モデルパラメータ蓄積部13は、モデル推定部12から出力されたモデルパラメータを蓄積する。   The model parameter storage unit 13 stores the model parameters output from the model estimation unit 12.

特徴ベクトル変換部14は、リファレンスコンテンツ及びクエリコンテンツそれぞれの特徴ベクトルの集合を、1つの固定長の特徴ベクトルへ明示的にマッピングする。このマッピングには、モデルパラメータ蓄積部13のモデルパラメータに基づくフィッシャーカーネルが用いられる。具体的には、特徴ベクトル集合からモデルの対数尤度関数の勾配ベクトルを求め、モデルパラメータに関するフィッシャー情報行列により正規化をすることで、特徴ベクトルへマッピングする。非特許文献3に記載された技術によれば、フィッシャー情報行列が対角行列と仮定されている。変換された1つの特徴ベクトルは、フィッシャーベクトルと称される。特徴ベクトル変換部14は、リファレンスコンテンツの特徴ベクトルの集合からマッピングしたフィッシャーベクトルを、リファレンス蓄積部15へ出力し、クエリコンテンツの特徴ベクトルの集合からマッピングしたフィッシャーベクトルを、特徴ベクトル検索部16へ出力する。   The feature vector conversion unit 14 explicitly maps a set of feature vectors of the reference content and the query content to one fixed-length feature vector. For this mapping, a Fisher kernel based on the model parameters of the model parameter storage unit 13 is used. Specifically, the gradient vector of the log likelihood function of the model is obtained from the feature vector set, and is mapped to the feature vector by normalizing with a Fisher information matrix related to the model parameter. According to the technique described in Non-Patent Document 3, the Fisher information matrix is assumed to be a diagonal matrix. One transformed feature vector is called a Fisher vector. The feature vector conversion unit 14 outputs the Fisher vector mapped from the set of feature vectors of the reference content to the reference storage unit 15, and outputs the Fisher vector mapped from the set of feature vectors of the query content to the feature vector search unit 16. To do.

リファレンス情報蓄積部15は、特徴ベクトル変換部14から出力された、リファレンスコンテンツの正規化されたフィッシャーベクトルを蓄積する。   The reference information accumulation unit 15 accumulates the normalized Fisher vector of the reference content output from the feature vector conversion unit 14.

特徴ベクトル検索部16は、リファレンス情報蓄積部15を用いて、クエリコンテンツのフィッシャーベクトルに最も類似する、リファレンスコンテンツのフィッシャーベクトルを検索する。ここでは、ユークリッド距離を用いることができ、クエリコンテンツのフィッシャーベクトルとの間の距離が短い、リファレンスコンテンツのフィッシャーベクトルが検索され、そのリファレンスコンテンツが特定される。   The feature vector search unit 16 uses the reference information storage unit 15 to search for the Fisher vector of the reference content that is most similar to the Fisher vector of the query content. Here, the Euclidean distance can be used, the Fisher vector of the reference content having a short distance from the Fisher vector of the query content is searched, and the reference content is specified.

特開2010−282581号公報JP 2010-282581 A

J. Sivic et al., "Video Google: A Text Retrieval Approach toObject Matching in Videos," in Proc. ICCV, 2003.J. Sivic et al., "Video Google: A Text Retrieval Approach to Object Matching in Videos," in Proc. ICCV, 2003. D. G. Lowe, "Distinctive Image Features from Scale-InvariantKeypoints," International Journal of Computer Vision, vol. 60, no. 2, pp.91-110, 2004.D. G. Lowe, "Distinctive Image Features from Scale-InvariantKeypoints," International Journal of Computer Vision, vol. 60, no. 2, pp.91-110, 2004. F. Perronnin, J. Sanchez, and T. Mensink, "Improving the FisherKernel for Large-Scale Image Classification," in Proc. ECCV, 2010.F. Perronnin, J. Sanchez, and T. Mensink, "Improving the FisherKernel for Large-Scale Image Classification," in Proc. ECCV, 2010. E. Rublee, V. Rabaud, K. Konolige, and G. Bradski, "ORB: Anefficient alternative to SIFT or SURF," in Proc. ICCV, 2011.E. Rublee, V. Rabaud, K. Konolige, and G. Bradski, "ORB: Anefficient alternative to SIFT or SURF," in Proc. ICCV, 2011. A. Alahi, R. Ortiz, and P. Vandergheynst, "FREAK: Fast RetinaKeypoint," in Proc. CVPR, 2012.A. Alahi, R. Ortiz, and P. Vandergheynst, "FREAK: Fast RetinaKeypoint," in Proc. CVPR, 2012. H. Jegou, M. Douze, and C. Schmid, "Product quantization fornearest neighbor search," in IEEE Trans. on PAMI, vol. 33, no. 1, pp117-128, 2011.H. Jegou, M. Douze, and C. Schmid, "Product quantization fornearest neighbor search," in IEEE Trans. On PAMI, vol. 33, no. 1, pp117-128, 2011. 三品陽平、「CVReadiing、ORB: an efficient alternative toSIFT or SURF」、[online]、[平成24年12月5日検索]、インターネット<URL:http://www.vision.cs.chubu.ac.jp/CV-R/jpdf/Rublee_iccv2011.pdf>Yohei Sanshin, “CVReadiing, ORB: an efficient alternative to SIFT or SURF”, [online], [Searched on December 5, 2012], Internet <URL: http://www.vision.cs.chubu.ac.jp /CV-R/jpdf/Rublee_iccv2011.pdf> 原田達也、「大規模データを用いた一般物体・シーン認識の潮流と理論」、[online]、[平成24年12月5日検索]、インターネット<URL:https://ipsj.ixsq.nii.ac.jp/ej/index.php?active_action=repository_view_main_item_detail&item_id=81096&item_no=1&page_id=13&block_id=8>Tatsuya Harada, “The Trend and Theory of General Object / Scene Recognition Using Large-Scale Data”, [online], [Search December 5, 2012], Internet <URL: https: //ipsj.ixsq.nii. ac.jp/ej/index.php?active_action=repository_view_main_item_detail&item_id=81096&item_no=1&page_id=13&block_id=8>

しかしながら、スマートフォンやタブレット端末のようなモバイル端末が普及する中で、コンテンツ検索処理に対して、更なる省メモリ化及び高速マッチング化が要求されてきている。特に、拡張現実感(Augmented Reality, AR)の用途における画像認識の技術分野によれば、リアルタイムに処理するべく、SIFTやSURFよりも更に高速にコンテンツを検索することが要求される。   However, with the widespread use of mobile terminals such as smartphones and tablet terminals, further memory saving and faster matching have been required for content search processing. In particular, according to the technical field of image recognition in the use of augmented reality (Augmented Reality), it is required to search for content at higher speed than SIFT or SURF in order to perform real-time processing.

そこで、本発明によれば、SIFTやSURFよりも更に高速にコンテンツを検索することができる検索装置、プログラム及び方法を提供することを目的とする。   Therefore, an object of the present invention is to provide a search device, a program, and a method capable of searching for contents at a higher speed than SIFT and SURF.

本発明によれば、装置に搭載されたコンピュータを、訓練コンテンツから抽出されたモデルパラメータを用いて、リファレンスコンテンツの集合から、クエリコンテンツに類似したリファレンスコンテンツを検索するように機能させる検索プログラムであって、
訓練コンテンツ、リファレンスコンテンツ及びクエリコンテンツそれぞれについて、D次元のバイナリ特徴ベクトルの集合x1〜xTを抽出する特徴ベクトル抽出手段と、
訓練コンテンツのバイナリ特徴ベクトルの集合から、i(1≦i≦N)番目の多変量ベルヌーイ分布に関する混合比wiと、i番目の多変量ベルヌーイ分布のd(1≦d≦D)番目のパラメータμidと、パラメータμidに関するフィッシャー情報量fidとを算出するモデル推定手段と、
混合比wiとパラメータμidとフィッシャー情報量fidとを蓄積するモデルパラメータ蓄積手段と、
リファレンスコンテンツ又はクエリコンテンツのバイナリ特徴ベクトルの集合から、モデルパラメータ蓄積手段に蓄積された混合比wiとパラメータμidとフィッシャー情報量fidとを用いて、リファレンスコンテンツ又はクエリコンテンツに対応する1つのフィッシャーベクトルを算出する特徴ベクトル変換手段と、
クエリコンテンツのフィッシャーベクトルに最も類似する、リファレンスコンテンツのフィッシャーベクトルを検索する特徴ベクトル検索手段と
してコンピュータを機能させることを特徴とする。
According to the present invention, there is provided a search program that causes a computer installed in an apparatus to function to search for reference content similar to query content from a set of reference content using model parameters extracted from training content. And
For each of the training content, the reference content, and the query content, a feature vector extraction unit that extracts a set of D-dimensional binary feature vectors x 1 to x T ,
From the set of binary feature vectors of the training content, the mixture ratio w i for the i (1 ≦ i ≦ N) -th multivariate Bernoulli distribution and the d (1 ≦ d ≦ D) -th parameter of the i-th multivariate Bernoulli distribution model estimation means for calculating μ id and the Fisher information amount f id related to the parameter μ id ;
Model parameter accumulating means for accumulating the mixing ratio w i , parameter μ id, and Fisher information amount f id ;
From the set of binary feature vectors of the reference content or query content, one of the reference content or query content corresponding to the reference content or query content using the mixture ratio w i , parameter μ id, and Fisher information amount f id stored in the model parameter storage means Feature vector conversion means for calculating a Fisher vector;
The computer is caused to function as a feature vector search unit that searches for the Fisher vector of the reference content that is most similar to the Fisher vector of the query content.

本発明の検索プログラムにおける他の実施形態によれば、
特徴ベクトル抽出手段は、ORB(Oriented FAST and Rotated BRIEF)又はFREAK(Fast Retina Keypoint)を用いてバイナリ特徴ベクトルの集合を抽出するようにコンピュータを機能させることも好ましい。
According to another embodiment of the search program of the present invention,
The feature vector extracting means preferably causes the computer to function to extract a set of binary feature vectors using ORB (Oriented FAST and Rotated BRIEF) or FRAK (Fast Retina Keypoint).

本発明の検索プログラムにおける他の実施形態によれば、
モデル推定手段は、訓練コンテンツのバイナリ特徴ベクトルの集合x1〜xTから、
E(Expectation)ステップについて、バイナリ特徴ベクトルxi毎に潜在変数iの期待値γt (i)を推定し、
M(Maximization)ステップについて、期待値γt (i)を用いて、混合比wi及びパラメータμiを更新し、
これらEステップ及びMステップを、収束するまで繰り返すことによって、混合比wi及びパラメータμiのパラメータ群λを算出する
λ(w1、・・・、wN及びμ11、・・・、μND
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the search program of the present invention,
The model estimation means uses a set of binary feature vectors x 1 to x T of the training content,
For the E (Expectation) step, estimate the expected value γ t (i) of the latent variable i for each binary feature vector x i ,
For the M (Maximization) step, update the mixture ratio w i and parameter μ i using the expected value γ t (i),
By repeating these E step and M step until convergence, a parameter group λ of the mixture ratio w i and parameter μ i is calculated. Λ (w 1 ,..., W N and μ 11 ,. ND )
It is also preferable to make the computer function.

本発明の検索プログラムにおける他の実施形態によれば、
モデル推定手段は、
パラメータμidの対数尤度関数を偏微分で定義したフィッシャースコアsidを算出し、
フィッシャースコアsidの分散としてフィッシャー情報量fidを算出する
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the search program of the present invention,
Model estimation means
Calculate a Fisher score s id in which the log likelihood function of the parameter μ id is defined by partial differentiation,
It is also preferable to cause the computer to function to calculate the Fisher information amount f id as the variance of the Fisher score s id .

本発明の検索プログラムにおける他の実施形態によれば、
特徴ベクトル変換手段は、バイナリ特徴ベクトルの集合毎に、パラメータμidを用いてフィッシャースコアsidを算出し、これらをid毎に累積した累積フィッシャースコアs'idを算出し、
各累積フィッシャースコアs'idを、対応するフィッシャー情報量fidの平方根√fidで除算したフィッシャーベクトルvidを算出する
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the search program of the present invention,
Feature vector conversion means, for each set of binary feature vectors, calculates the Fischer score s id using the parameter mu id, they were calculated cumulative Fisher scores s' id obtained by accumulating for each id,
It is also preferable to cause the computer to function to calculate a Fisher vector v id obtained by dividing each accumulated Fisher score s ′ id by the square root √f id of the corresponding Fisher information amount f id .

本発明の検索プログラムにおける他の実施形態によれば、
モデル推定手段は、
パラメータμidの対数尤度関数を偏微分で定義したフィッシャースコアsidを算出し、
フィッシャースコアsidの混合要素i毎のベクトル(si1〜siD)に対して主成分分析を実行し、
主成分分析の結果、固有値の大きいものからK個を、フィッシャー情報量fidとして出力し、
固有値に対応するK個の固有ベクトルgiKを更に出力し、
モデルパラメータ蓄積手段は、固有ベクトルgiKを更に蓄積する
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the search program of the present invention,
Model estimation means
Calculate a Fisher score s id in which the log likelihood function of the parameter μ id is defined by partial differentiation,
The principal component analysis is performed on the vector (s i1 to s iD ) for each mixed element i of the Fisher score s id ,
As a result of the principal component analysis, K pieces having the largest eigenvalues are output as the Fisher information amount f id ,
Further output K eigenvectors g iK corresponding to the eigenvalues,
The model parameter storage means preferably causes the computer to function so as to further store the eigenvector g iK .

本発明の検索プログラムにおける他の実施形態によれば、
特徴ベクトル変換手段は、バイナリ特徴ベクトルの集合毎に、パラメータμidを用いてフィッシャースコアsidを算出し、これらをid毎に累積した累積フィッシャースコアs'idを算出し、
混合要素i毎に、各累積フィッシャースコアs'idのベクトル(s'i1〜siD)を、対応する固有ベクトルgik(gi1〜giK)を用いて正規化(射影)した正規化ベクトルv'ikを算出し、
正規化ベクトルv'ikを、対応する固有ベクトルgikの平方根√gikで除算したフィッシャーベクトルvikを算出する
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the search program of the present invention,
Feature vector conversion means, for each set of binary feature vectors, calculates the Fischer score s id using the parameter mu id, they were calculated cumulative Fisher scores s' id obtained by accumulating for each id,
A normalized vector v obtained by normalizing (projecting) a vector (s ′ i1 to s iD ) of each cumulative Fisher score s ′ id using a corresponding eigenvector g ik (g i1 to g iK ) for each mixed element i. 'Calculate ik ,
It is also preferred to have the computer function to calculate a Fisher vector v ik obtained by dividing the normalized vector v ′ ik by the square root √g ik of the corresponding eigenvector g ik .

本発明によれば、訓練コンテンツから抽出されたモデルパラメータを用いて、リファレンスコンテンツの集合から、クエリコンテンツに類似したリファレンスコンテンツを検索する検索装置であって、
訓練コンテンツ、リファレンスコンテンツ及びクエリコンテンツそれぞれについて、D次元のバイナリ特徴ベクトルの集合x1〜xTを抽出する特徴ベクトル抽出手段と、
訓練コンテンツのバイナリ特徴ベクトルの集合から、i(1≦i≦N)番目の多変量ベルヌーイ分布に関する混合比wiと、i番目の多変量ベルヌーイ分布のd(1≦d≦D)番目のパラメータμidと、パラメータμidに関するフィッシャー情報量fidとを算出するモデル推定手段と、
混合比wiとパラメータμidとフィッシャー情報量fidとを蓄積するモデルパラメータ蓄積手段と、
リファレンスコンテンツ又はクエリコンテンツのバイナリ特徴ベクトルの集合から、モデルパラメータ蓄積手段の混合比wiとパラメータμidとフィッシャー情報量fidとを用いて、リファレンスコンテンツ又はクエリコンテンツに対応する1つのフィッシャーベクトルを算出する特徴ベクトル変換手段と、
クエリコンテンツのフィッシャーベクトルに最も類似する、リファレンスコンテンツのフィッシャーベクトルを検索する特徴ベクトル検索手段と
を有することを特徴とする。
According to the present invention, a search device that searches for reference content similar to query content from a set of reference content using model parameters extracted from training content,
For each of the training content, the reference content, and the query content, a feature vector extraction unit that extracts a set of D-dimensional binary feature vectors x 1 to x T ,
From the set of binary feature vectors of the training content, the mixture ratio w i for the i (1 ≦ i ≦ N) -th multivariate Bernoulli distribution and the d (1 ≦ d ≦ D) -th parameter of the i-th multivariate Bernoulli distribution model estimation means for calculating μ id and the Fisher information amount f id related to the parameter μ id ;
Model parameter accumulating means for accumulating the mixing ratio w i , parameter μ id, and Fisher information amount f id ;
From a set of binary feature vectors of the reference content or query content, one Fisher vector corresponding to the reference content or query content is obtained using the mixture ratio w i of the model parameter storage means, the parameter μ id, and the Fisher information amount f id. A feature vector conversion means for calculating;
And feature vector search means for searching for the Fisher vector of the reference content that is most similar to the Fisher vector of the query content.

本発明によれば、装置を用いて、訓練コンテンツから抽出されたモデルパラメータを用いて、リファレンスコンテンツの集合から、クエリコンテンツに類似したリファレンスコンテンツを検索する検索方法であって、
モデルパラメータを蓄積する第1のステップとして、
訓練コンテンツそれぞれについて、D次元のバイナリ特徴ベクトルの集合x1〜xTを抽出し、
訓練コンテンツのバイナリ特徴ベクトルの集合から、i(1≦i≦N)番目の多変量ベルヌーイ分布に関する混合比wiと、i番目の多変量ベルヌーイ分布のd(1≦d≦D)番目のパラメータμidと、パラメータμidに関するフィッシャー情報量fidとを算出し、
混合比wiとパラメータμidとフィッシャー情報量fidとを蓄積し、
リファレンス情報を蓄積する第2のステップとして、
リファレンスコンテンツそれぞれについて、D次元のバイナリ特徴ベクトルの集合を抽出し、
リファレンスコンテンツそれぞれのバイナリ特徴ベクトルの集合から、モデルパラメータとして蓄積された混合比wiとパラメータμidとフィッシャー情報量fidとを用いて、1つのフィッシャーベクトルを算出し、
フィッシャーベクトルを蓄積し、
クエリコンテンツからリファレンスコンテンツを検索する第3のステップとして、
クエリコンテンツそれぞれのバイナリ特徴ベクトルの集合から、モデルパラメータとして蓄積された混合比wiとパラメータμidとフィッシャー情報量fidとを用いて、1つのフィッシャーベクトルを算出し、
クエリコンテンツのフィッシャーベクトルに最も類似する、リファレンスコンテンツのフィッシャーベクトルを検索する
を有することを特徴とする。
According to the present invention, there is provided a search method for searching reference content similar to query content from a set of reference content using a model parameter extracted from training content using an apparatus,
As a first step of accumulating model parameters,
For each training content, a set of D-dimensional binary feature vectors x 1 to x T is extracted,
From the set of binary feature vectors of the training content, the mixture ratio w i for the i (1 ≦ i ≦ N) -th multivariate Bernoulli distribution and the d (1 ≦ d ≦ D) -th parameter of the i-th multivariate Bernoulli distribution Calculate μ id and Fisher information amount f id related to parameter μ id ,
Accumulate the mixing ratio w i , the parameter μ id and the Fisher information amount f id ,
As a second step of accumulating reference information,
For each reference content, extract a set of D-dimensional binary feature vectors,
From the set of binary feature vectors of each reference content, one Fisher vector is calculated using the mixture ratio w i , the parameter μ id, and the Fisher information amount f id accumulated as model parameters.
Accumulate Fisher vector,
As a third step of searching reference content from query content,
From the set of binary feature vectors of each query content, one Fisher vector is calculated using the mixture ratio w i , the parameter μ id and the Fisher information amount f id accumulated as model parameters,
It has a search for the Fisher vector of the reference content that is most similar to the Fisher vector of the query content.

本発明の検索装置、プログラム及び方法によれば、SIFTやSURFよりも更に高速にコンテンツを検索することができる。   According to the search device, program, and method of the present invention, content can be searched at a higher speed than SIFT or SURF.

従来技術におけるコンテンツの検索装置の機能構成図である。It is a functional block diagram of the content search apparatus in a prior art. 本発明におけるコンテンツの検索装置の機能構成図である。It is a functional block diagram of the content search device in the present invention.

以下、本発明の実施の形態について、図面を用いて詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

本発明の検索装置、プログラム及び方法によれば、訓練コンテンツから抽出されたモデルパラメータを用いて、リファレンスコンテンツの集合から、クエリコンテンツに類似したリファレンスコンテンツを検索する。ここで、本発明によれば、コンテンツから抽出される特徴ベクトルについて、バイナリ特徴ベクトルを抽出することを第1の特徴としている。また、これらのバイナリ特徴ベクトルを多変量混合ベルヌーイ分布でモデル化し、それらのモデルパラメータからフィッシャーベクトルを抽出することを第2の特徴としている。   According to the search device, program, and method of the present invention, reference content similar to query content is searched from a set of reference content using model parameters extracted from training content. Here, according to the present invention, extracting a binary feature vector from a feature vector extracted from content is a first feature. The second feature is that these binary feature vectors are modeled by a multivariate mixed Bernoulli distribution and a Fisher vector is extracted from the model parameters.

図2は、本発明におけるコンテンツの検索装置の機能構成図である。   FIG. 2 is a functional configuration diagram of the content search apparatus according to the present invention.

図2の検索装置における機能構成は、図1の機能構成と同じものである。しかしながら、各機能構成部における処理内容が異なる。以下では、検索装置1における特徴ベクトル抽出部11と、モデル推定部12と、モデルパラメータ蓄積部13と、特徴ベクトル変換部14と、リファレンス情報蓄積部15と、特徴ベクトル検索部16とについて、順に説明する。   The functional configuration of the search device of FIG. 2 is the same as the functional configuration of FIG. However, the processing contents in each functional component are different. Hereinafter, the feature vector extraction unit 11, the model estimation unit 12, the model parameter storage unit 13, the feature vector conversion unit 14, the reference information storage unit 15, and the feature vector search unit 16 in the search device 1 will be sequentially described. explain.

[特徴ベクトル抽出部11]
本発明における特徴ベクトル抽出部11は、訓練コンテンツ、リファレンスコンテンツ及びクエリコンテンツそれぞれについて、D次元のバイナリ特徴ベクトルの集合X={x1〜xT}を抽出する。例えばマルチメディアコンテンツが画像である場合、その特徴ベクトルは、画像の局所特徴領域から抽出された局所バイナリ特徴ベクトルである。訓練コンテンツから抽出されたバイナリ特徴ベクトルの集合は、モデル推定部12へ出力される。リファレンスコンテンツ及びクエリコンテンツから抽出されたバイナリ特徴ベクトルの集合はそれぞれ、特徴ベクトル変換部14へ出力される。
[Feature vector extraction unit 11]
The feature vector extraction unit 11 in the present invention extracts a set of D-dimensional binary feature vectors X = {x 1 to x T } for each of training content, reference content, and query content. For example, when the multimedia content is an image, the feature vector is a local binary feature vector extracted from the local feature region of the image. A set of binary feature vectors extracted from the training content is output to the model estimation unit 12. Each set of binary feature vectors extracted from the reference content and the query content is output to the feature vector conversion unit 14.

本発明によれば、バイナリ特徴ベクトルの抽出アルゴリズムとして、ORB(Oriented FAST and Rotated BRIEF)(例えば非特許文献4及び非特許文献7参照)又はFREAK(Fast Retina Keypoint)(例えば非特許文献5)を用いる。ORBの場合、1つのコンテンツから256ビットのバイナリ特徴ベクトルの集合が抽出される。例えば、高速にマッチングを実行するべく、バイナリコードによる特徴記述としてBRIEF(Binary Robust Independent Elementary Features)がある。本発明によれば、BRIEFに回転不変性を導入した特徴記述をすることができる「ORB」を用いる。特に、ORBによれば、SIFTやSURFと比較して、同等以上の精度を保持すると共に、数百倍の高速化を実現することができる。   According to the present invention, an ORB (Oriented FAST and Rotated BRIEF) (for example, see Non-Patent Document 4 and Non-Patent Document 7) or FRAK (Fast Retina Keypoint) (for example, Non-Patent Document 5) is used as an algorithm for extracting binary feature vectors. Use. In the case of ORB, a set of 256-bit binary feature vectors is extracted from one content. For example, in order to execute matching at high speed, there is BRIEF (Binary Robust Independent Elementary Features) as a feature description by a binary code. According to the present invention, “ORB” is used which can describe a feature in which rotation invariance is introduced into BRIEF. In particular, according to the ORB, it is possible to maintain an accuracy equal to or higher than that of SIFT or SURF and realize a speed increase of several hundred times.

<ORBについて>
ORBは、「特徴点検出処理」と「特徴ベクトル記述処理」との2つのステップから構成される。
<About ORB>
The ORB is composed of two steps of “feature point detection processing” and “feature vector description processing”.

(特徴点検出処理)
ORBにおける特徴点検出処理によれば、高速にキーポイントを検出するためにFAST(Features from Accelerated Segment Test)を用いる。また、FASTでは、スケール変化に対してロバストではないため、画像を複数のサイズに変換し、それぞれのサイズの画像から特徴点を抽出する。
(Feature point detection processing)
According to the feature point detection process in the ORB, FAST (Features from Accelerated Segment Test) is used to detect key points at high speed. In addition, since FAST is not robust to scale changes, an image is converted into a plurality of sizes, and feature points are extracted from images of each size.

また、既存のFASTには、回転不変性を得るためのキーポイントのオリエンテーション算出のアルゴリズムがない。そのために、ORBでは、回転不変性を得るべくOriented FASTを採用している。オリエンテーションを基準として特徴記述をすることによって、入力画像が回転していても、同一なキーポイントは同一な特徴量となって検出することができる。そのために、キーポイントの中心とパッチの輝度の重心の方向ベクトルを用いる。   Further, the existing FAST does not have an algorithm for calculating the key point orientation for obtaining rotation invariance. Therefore, ORB adopts Oriented FAST in order to obtain rotational invariance. By describing the features based on the orientation, even if the input image is rotated, the same key point can be detected as the same feature amount. Therefore, the direction vector of the center of the key point and the center of gravity of the brightness of the patch is used.

(特徴ベクトル記述処理)
次に、ORBにおける特徴ベクトル記述処理によれば、検出された特徴点毎に、BRIEF特徴ベクトル記述子によってバイナリ特徴ベクトルが抽出される。これらは、特徴点周辺の2箇所のピクセルの輝度の大小関係から求められる。
(Feature vector description processing)
Next, according to the feature vector description processing in the ORB, a binary feature vector is extracted for each detected feature point by using a BRIF feature vector descriptor. These are obtained from the magnitude relationship of the luminance of two pixels around the feature point.

BRIEFは、バイナリコードによってキーポイントの特徴量記述を実行することができる。SIFTやSURFによれば、特徴量記述に高次元の実数を用いていた。しかしながら、高次元の実数を用いた場合、メモリ容量の増加と類似度計算の増加と問題となる。そこで、ORBに基づくBRIEFを用いることによって、バイナリコードによって特徴記述することで省メモリ化し、類似度計算にハミング距離を用いることで処理コストの抑制を実現する。   BRIEF can execute keypoint feature description by binary code. According to SIFT and SURF, high-dimensional real numbers are used for feature description. However, when a high-dimensional real number is used, there is an increase in memory capacity and similarity calculation. Therefore, by using BREF based on ORB, it is possible to save memory by describing features by binary code, and it is possible to reduce processing costs by using a Hamming distance for similarity calculation.

BRIEFによれば、パッチ内においてランダムに選択された2点の輝度差の符号からバイナリコードを生成する。選択するピクセルは、キーポイント位置を中心としたガウス分布に従ってランダムに選択する。ここで、ORBは、更に高精度にマッチングをさせるために、学習を用いてピクセルを選択している。選択するピクセル位置は、ペアのビット分散が大きく且つN組のペアの相関が低い場合に、特徴記述能力が高いバイナリコードとして、特徴記述に使用する。N組のペアは、Greedyアルゴリズムを用いて絞り込む。   According to BRIEF, a binary code is generated from the sign of the luminance difference between two points randomly selected in the patch. The pixels to be selected are randomly selected according to a Gaussian distribution centered on the key point position. Here, the ORB selects pixels using learning in order to perform matching with higher accuracy. The selected pixel position is used for feature description as a binary code with high feature description capability when the bit variance of the pair is large and the correlation of N pairs is low. N pairs are narrowed down using the Greedy algorithm.

[モデル推定部12]
モデル推定部12は、訓練コンテンツのバイナリ特徴ベクトルの集合から、i番目の多変量ベルヌーイ分布に関する混合比wiと、i番目の多変量ベルヌーイ分布のd番目のパラメータμidとを算出する。これらは、モデルパラメータλとして算出される。
λ(w1、・・・、wN及びμ11、・・・、μND
また、本発明におけるモデル推定部12は、パラメータμidに関するフィッシャー情報量fidも更に算出する。
f11、・・・、fND(N×D個):フィッシャー情報量
[Model estimation unit 12]
The model estimation unit 12 calculates a mixture ratio w i related to the i-th multivariate Bernoulli distribution and a d-th parameter μ id of the i-th multivariate Bernoulli distribution from the set of binary feature vectors of the training content. These are calculated as model parameters λ.
λ (w 1 ,..., w N and μ 11 ,..., μ ND )
In addition, the model estimation unit 12 according to the present invention further calculates a Fisher information amount f id related to the parameter μ id .
f 11 ,..., f ND (N × D): Fisher information amount

<多変量混合ベルヌーイ分布に基づくパラメータwi及びμidの算出>
本発明によれば、バイナリ特徴ベクトルの集合を「多変量混合ベルヌーイ分布」でモデル化したモデルパラメータλを推定する。ベルヌーイ分布とは、確率pで1を、確率q=1-pで0をとる離散確率分布という。Xをベルヌーイ分布に従う確率変数とすれば、確率変数Xの平均はp、分散はpq=p(1-p)となる。「多変量混合ベルヌーイ分布」は、バイナリ特徴ベクトルxtが生成される確率p(xt|λ)を表現する。

Figure 0005959446
N:混合数 <Calculation of parameters w i and μ id based on multivariate mixed Bernoulli distribution>
According to the present invention, a model parameter λ obtained by modeling a set of binary feature vectors with a “multivariate mixed Bernoulli distribution” is estimated. The Bernoulli distribution is a discrete probability distribution with a probability p of 1 and a probability q = 1−p of 0. If X is a random variable according to Bernoulli distribution, the mean of the random variable X is p, and the variance is pq = p (1-p). The “multivariate mixed Bernoulli distribution” expresses a probability p (x t | λ) that a binary feature vector x t is generated.
Figure 0005959446
N: Number of mixtures

混合分布であるため、p1からpNまでの異なる多変量ベルヌーイ分布が、それぞれ混合比wiで選択され、xtが生成される。i番目の多変量ベルヌーイ分布から、バイナリ特徴ベクトルxtが生成される確率は、以下の式で表現される。

Figure 0005959446
μid:i番目の多変量ベルヌーイ分布のd番目のパラメータ
xt,d:バイナリ特徴ベクトルxtのd番目のビット
D:バイナリ特徴ベクトルのビット長
pi(xt|λ):バイナリ特徴ベクトルxtがi番目の多変量ベルヌーイ分布から生成
された際に、d番目のビットが1となる確率 Since they are mixed distributions, different multivariate Bernoulli distributions from p 1 to p N are selected with the respective mixing ratios w i to generate x t . The probability that the binary feature vector x t is generated from the i-th multivariate Bernoulli distribution is expressed by the following equation.
Figure 0005959446
μ id : d-th parameter of i-th multivariate Bernoulli distribution
x t, d : d-th bit of binary feature vector x t
D: Bit length of binary feature vector
p i (x t | λ): Binary feature vector x t is generated from the i-th multivariate Bernoulli distribution
The probability that the dth bit will be 1

これらのパラメータは、具体的には、訓練コンテンツのバイナリ特徴ベクトルの集合x1〜xTから、EM(Expectation-Maximization)アルゴリズムの繰り返し処理によって推定する。EMアルゴリズムとは、統計学について、確率モデルのパラメータを最尤法に基づいて推定方法であって、観測不可能な潜在変数に確率モデルが依存する場合に用いられるものである。 Specifically, these parameters are estimated from a set of binary feature vectors x 1 to x T of the training content by an iterative process of an EM (Expectation-Maximization) algorithm. The EM algorithm is an estimation method for statistical parameters based on the maximum likelihood method, and is used when the probability model depends on a latent variable that cannot be observed.

E(Expectation、期待値)ステップでは、バイナリ特徴ベクトルxi毎に、潜在変数ztiの分布に基づいて、モデルの尤度の期待値γt(i)を推定する。

Figure 0005959446
γt(i):t番目の訓練ベクトルがi番目の多変量ベルヌーイ分布から生成された確率 In the E (Expectation, expected value) step, the expected value γ t (i) of the model likelihood is estimated for each binary feature vector x i based on the distribution of the latent variable z ti .
Figure 0005959446
γt (i): Probability that the t-th training vector was generated from the i-th multivariate Bernoulli distribution

M(Maximization、最大化)ステップでは、Eステップで算出された尤度の期待値γt(i)を最大化するべく、混合比wi及びパラメータμiを更新する。Mステップで算出されたパラメータは、次のEステップにおける潜在変数の分布を決定するために用いられる。

Figure 0005959446
In the M (Maximization) step, the mixture ratio w i and the parameter μ i are updated in order to maximize the expected value γ t (i) of the likelihood calculated in the E step. The parameter calculated in the M step is used to determine the distribution of latent variables in the next E step.
Figure 0005959446

これらEステップ及びMステップを、収束するまで繰り返すことによって、対数尤度を最大化する混合比wi及びパラメータμiのパラメータ群λを算出する
λ(w1、・・・、wN及びμ11、・・・、μND
By repeating these E step and M step until convergence, the parameter group λ of the mixture ratio w i and the parameter μ i that maximizes the log likelihood is calculated λ (w 1 ,..., W N and μ 11・ ・ ・ ・ ・ ・ μ ND

<フィッシャー情報量fidの算出>
また、モデル推定部12は、多変量混合ベルヌーイ分布のパラメータμidに関する「フィッシャー情報量fid」を算出する。フィッシャーカーネル(Fisher kernel)は、生成的アプローチ(generative
approach)と判別的アプローチ(discriminative approach)とを結合させる枠組みである(例えば非特許文献8参照)。フィッシャーカーネルでは、最初に、局所記述子を生成する確率密度分布から導出される勾配ベクトルを計算し、この勾配ベクトルをフィッシャー情報行列で正規化したものを、画像を表現する1つの特徴ベクトルとする。フィッシャー情報行列を対角行列と仮定した場合、正規化は各パラメータに関する勾配を、フィッシャー情報量で正規化することと同値である。フィッシャーカーネルによれば、Bag of Featuresと比較して、同一サイズのコードブックであっても、要素数のより多い特徴ベクトルを得ることができる。即ち、特徴ベクトルの表現する情報が多いため、計算コストの高いカーネル法を利用して高次元空間へ射影する必要がなく、線形的な識別であっても十分な性能を引き出すことができる。
<Calculation of Fisher information amount f id >
Further, the model estimation unit 12 calculates “Fischer information amount f id ” related to the parameter μ id of the multivariate mixed Bernoulli distribution. The Fisher kernel is a generative approach.
approach) and a discriminative approach (see Non-Patent Document 8, for example). In the Fisher kernel, first, a gradient vector derived from a probability density distribution that generates a local descriptor is calculated, and this gradient vector normalized by a Fisher information matrix is used as one feature vector that represents an image. . Assuming that the Fisher information matrix is a diagonal matrix, normalization is equivalent to normalizing the gradient for each parameter with the amount of Fisher information. According to the Fisher kernel, a feature vector having a larger number of elements can be obtained even with a codebook of the same size as compared with Bag of Features. That is, since there is a lot of information expressed by feature vectors, there is no need to project to a high-dimensional space using a kernel method with high calculation cost, and sufficient performance can be obtained even with linear identification.

(フィッシャー情報行列を対角行列とした第1の実施形態)
モデル推定部12は、
(S11)パラメータμidの対数尤度関数を偏微分で定義したフィッシャースコアsidを算出し、
(S12)フィッシャースコアsidの分散としてフィッシャー情報量fidを算出する。
(First embodiment in which the Fisher information matrix is a diagonal matrix)
The model estimation unit 12
(S11) A Fisher score s id in which a logarithmic likelihood function of the parameter μ id is defined by partial differentiation is calculated,
(S12) The Fisher information amount f id is calculated as the variance of the Fisher score s id .

フィッシャー情報量は、フィッシャースコアの2次モーメントで定義される。μidに関するフィッシャースコアは、多変量混合ベルヌーイ分布に関して、バイナリ特徴ベクトル集合X={x1、・・・、xT}を観測した際の対数尤度関数L(λ|X)=log P(X|λ)のμidに関する偏微分で定義される。 The Fisher information amount is defined by the second moment of the Fisher score. Fisher's score for μ id is a log-likelihood function L (λ | X) = log P (when a binary feature vector set X = {x 1 ,..., x T } is observed for a multivariate mixed Bernoulli distribution. X | λ) is defined as a partial derivative with respect to μ id .

μidに関するフィッシャースコアsidは、以下の式で定義される。

Figure 0005959446
Fisher relates mu id score s id is defined by the following equation.
Figure 0005959446

また、前述のγt(i)を用いると、以下の式となる。

Figure 0005959446
Further, when the above-described γt (i) is used, the following equation is obtained.
Figure 0005959446

μidに関するフィッシャー情報量fidは、以下の式によって定義される。

Figure 0005959446
Fisher information f id relates mu id is defined by the following equation.
Figure 0005959446

従来(非特許文献3)では、フィッシャー情報量を、パラメータλから近似的に計算している。本発明では、以下に示すようにフィッシャー情報量をサンプルから直接計算することで、近似ではない正確なフィッシャー情報量を計算し、精度を担保する。
数7は、xtの独立性と、

Figure 0005959446
とによって、フィッシャー情報量fidは、以下のようになる。
Figure 0005959446
Conventionally (Non-Patent Document 3), the Fisher information amount is approximately calculated from the parameter λ. In the present invention, as shown below, the Fisher information amount is directly calculated from the sample, thereby calculating an accurate Fisher information amount that is not approximate and ensuring accuracy.
Equation 7 is the independence of x t
Figure 0005959446
Thus, the Fisher information amount f id is as follows.
Figure 0005959446

(主成分分析を用いた第2の実施形態)
モデル推定部12は、
(S21)対数尤度関数のパラメータμidに関する偏微分で定義されるフィッシャースコアsidを算出し、
(S22)フィッシャースコアsidに対して主成分分析を実行し、
(S23)主成分分析の結果、固有値の大きいものからK個を、正規化パラメータfidとして出力し、
(S24)固有値に対応するK個の固有ベクトルgiKを更に出力する。
(Second embodiment using principal component analysis)
The model estimation unit 12
(S21) Calculate a Fisher score s id defined by partial differentiation with respect to the parameter μ id of the log likelihood function,
(S22) A principal component analysis is performed on the Fisher score s id ,
(S23) As a result of the principal component analysis, K values having large eigenvalues are output as normalization parameters f id ,
(S24) Further output K eigenvectors g iK corresponding to the eigenvalues.

特に画像の場合、バイナリ特徴ベクトルのビット間には相関がある。そのために、第1の実施形態のような対角行列の仮定は必ずしも成立しない。そのため、第2の実施形態によれば、以下のように主成分分析を用いて無相関化と正規化を実行する。主成分分析とは、直交回転を用いて変数間に相関がある元の観測値を、相関の無い主成分とよばれる値に変換することをいう。   Particularly in the case of an image, there is a correlation between the bits of the binary feature vector. For this reason, the assumption of the diagonal matrix as in the first embodiment is not necessarily established. Therefore, according to the second embodiment, decorrelation and normalization are performed using principal component analysis as follows. Principal component analysis refers to transforming an original observed value having a correlation between variables into a value called an uncorrelated principal component using orthogonal rotation.

多変量混合ベルヌーイ分布のi番目の多変量ベルヌーイ分布について、フィッシャースコアsi1、・・・、siDを、バイナリ特徴ベクトル集合x1、・・・、xTに対して算出し、主成分分析を実行する。主成分分析の結果の固有値の大きいものからK個を、fi1、・・・、fiKとし、対応する固有ベクトルをgi1、・・・、giKとし、モデルパラメータとしてモデルパラメータ蓄積部13へ出力する。 For the i-th multivariate Bernoulli distribution multivariate mixed Bernoulli distribution, calculated Fisher scores s i1, · · ·, a s iD, binary feature vector set x 1, · · ·, relative to x T, principal component analysis Execute. K from the largest eigenvalues of the result of the principal component analysis are set as f i1 ,..., F iK , the corresponding eigenvectors are set as g i1 ,. Output.

[モデルパラメータ蓄積部13]
モデルパラメータ蓄積部13は、モデル推定部12から出力されたモデルパラメータとして、混合比wi(i=1〜N)パラメータμid(i=1〜N, d=1〜D)とフィッシャー情報量fid(i=1〜N, d=1〜D)とを蓄積する。また、第2の実施形態によれば、モデルパラメータ蓄積部13は、固有ベクトルgik(i=1〜N, k=1〜K個)も更に蓄積する。
[Model parameter storage unit 13]
The model parameter accumulating unit 13 uses the mixture ratio w i (i = 1 to N) parameter μ id (i = 1 to N, d = 1 to D) and the Fisher information amount as model parameters output from the model estimating unit 12. f id (i = 1 to N, d = 1 to D) is stored. Further, according to the second embodiment, the model parameter accumulating unit 13 further accumulates eigenvectors g ik (i = 1 to N, k = 1 to K).

[特徴ベクトル変換部14]
特徴ベクトル変換部14は、リファレンスコンテンツ又はクエリコンテンツのバイナリ特徴ベクトルの集合x1〜xTから、モデルパラメータ蓄積部13の混合比wiとパラメータμidとフィッシャー情報量fidとを用いて、リファレンスコンテンツ又はクエリコンテンツに対応する1つのフィッシャーベクトルvを算出する。
[Feature vector conversion unit 14]
The feature vector conversion unit 14 uses the mixture ratio w i , the parameter μ id, and the Fisher information amount f id of the model parameter storage unit 13 from the set of binary feature vectors x 1 to x T of the reference content or the query content, One Fisher vector v corresponding to the reference content or query content is calculated.

(モデル推定部12の第1の実施形態に対して)
特徴ベクトル変換部14は、
(S13)バイナリ特徴ベクトルの集合x1〜xT毎に、パラメータwi及びμidを用いてフィッシャースコアsid(s11〜sND)を算出し、これらをid毎に累積した累積フィッシャースコアs'id(s'11〜s'ND)算出し、
(S14)各累積フィッシャースコアs'idを、対応するフィッシャー情報量fidの平方根√fidで除算したフィッシャーベクトルvidを算出する。
vid=sid/√fid
f11、・・・、fND(N×D個):フィッシャー情報量
(For the first embodiment of the model estimation unit 12)
The feature vector conversion unit 14
(S13) A Fisher score s id (s 11 to s ND ) is calculated for each set of binary feature vectors x 1 to x T using the parameters w i and μ id and accumulated for each id. Calculate s' id (s' 11 ~ s' ND )
(S14) A Fisher vector v id is calculated by dividing each accumulated Fisher score s ′ id by the square root √f id of the corresponding Fisher information amount f id .
v id = s id / √f id
f 11 ,..., f ND (N × D): Fisher information amount

(モデル推定部12の第2の実施形態に対して)
特徴ベクトル変換部14は、
(S25)バイナリ特徴ベクトルの集合毎に、パラメータwi及びμidを用いてフィッシャースコアsid(s11〜sND)を算出し、これらをid毎に累積した累積フィッシャースコアs'id(s'11〜s'ND)を算出し、
(S26)混合要素i毎に、各累積フィッシャースコアs'id(s'i1〜s’iD)、対応する固有ベクトルgiKを用いて正規化(射影)した正規化ベクトルv'idを算出し、
(S27)正規化ベクトルv'idを、対応する固有ベクトルgidの平方根√gidで除算したフィッシャーベクトルvidを算出する。
vid=v’id/√gid
(For the second embodiment of the model estimation unit 12)
The feature vector conversion unit 14
(S25) For each set of binary feature vectors, the Fisher score s id (s 11 to s ND ) is calculated using the parameters w i and μ id , and the accumulated Fisher score s ′ id (s '11 ~s' ND) is calculated,
(S26) For each mixed element i, calculate a normalized vector v ′ id normalized (projected) using each cumulative Fisher score s ′ id (s ′ i1 to s ′ iD ) and the corresponding eigenvector g iK ,
(S27) the normalized vector v 'id, to calculate a Fischer vector v id divided by the square root √G id of the corresponding eigenvectors g id.
v id = v ' id / √g id

特徴ベクトル変換部14は、リファレンスコンテンツについて変換されたフィッシャーベクトルは、リファレンス情報蓄積部15へ出力し、クエリコンテンツについて変換されたフィッシャーベクトルは、特徴ベクトル変換部16へ出力される。   The feature vector conversion unit 14 outputs the Fisher vector converted for the reference content to the reference information storage unit 15, and the Fisher vector converted for the query content is output to the feature vector conversion unit 16.

[特徴ベクトル検索部16]
特徴ベクトル検索部16は、従来技術の図1と同様に、リファレンス情報蓄積部15を用いて、クエリコンテンツのフィッシャーベクトルvQに最も類似する、リファレンスコンテンツのフィッシャーベクトルvRを検索する。ここでは、ユークリッド距離を用いることができ、vQ及びvRの間の距離が短いほど、クエリコンテンツに対してそのリファレンスコンテンツの類似度が高いことを意味する。具体的には、最近傍探索(Approximate Nearest Neighbor)アルゴリズムの1つである直積量子化を用いた方法(例えば非特許文献6参照)やLSH(Locality-Sensitive Hashing)を用いることも好ましい。
[Feature vector search unit 16]
The feature vector search unit 16 uses the reference information storage unit 15 to search for the Fisher vector v R of the reference content that is most similar to the Fisher vector v Q of the query content, as in FIG. Here, it is possible to use the Euclidean distance, v as the distance between Q and v R is shorter, the higher the degree of similarity of the reference content to the query content. Specifically, it is also preferable to use a method (for example, refer to Non-Patent Document 6) that uses direct product quantization, which is one of the Approximate Nearest Neighbor algorithms, or LSH (Locality-Sensitive Hashing).

以上、詳細に説明したように、本発明の検索装置、プログラム及び方法によれば、SIFTやSURFよりも更に高速にコンテンツを検索することができる。   As described above in detail, according to the search device, program, and method of the present invention, content can be searched at a higher speed than SIFT or SURF.

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。   Various changes, modifications, and omissions of the above-described various embodiments of the present invention can be easily made by those skilled in the art. The above description is merely an example, and is not intended to be restrictive. The invention is limited only as defined in the following claims and the equivalents thereto.

1 検索装置
11 特徴ベクトル抽出部
12 モデル推定部
13 モデルパラメータ蓄積部
14 特徴ベクトル変換部
15 リファレンス情報蓄積部
16 特徴ベクトル検索部
DESCRIPTION OF SYMBOLS 1 Search apparatus 11 Feature vector extraction part 12 Model estimation part 13 Model parameter storage part 14 Feature vector conversion part 15 Reference information storage part 16 Feature vector search part

Claims (9)

装置に搭載されたコンピュータを、訓練コンテンツから抽出されたモデルパラメータを用いて、リファレンスコンテンツの集合から、クエリコンテンツに類似したリファレンスコンテンツを検索するように機能させる検索プログラムであって、
訓練コンテンツ、リファレンスコンテンツ及びクエリコンテンツそれぞれについて、D次元のバイナリ特徴ベクトルの集合x1〜xTを抽出する特徴ベクトル抽出手段と、
訓練コンテンツのバイナリ特徴ベクトルの集合から、i(1≦i≦N)番目の多変量ベルヌーイ分布に関する混合比wiと、i番目の多変量ベルヌーイ分布のd(1≦d≦D)番目のパラメータμidと、パラメータμidに関するフィッシャー情報量fidとを算出するモデル推定手段と、
混合比wiとパラメータμidとフィッシャー情報量fidとを蓄積するモデルパラメータ蓄積手段と、
リファレンスコンテンツ又はクエリコンテンツのバイナリ特徴ベクトルの集合から、前記モデルパラメータ蓄積手段に蓄積された混合比wiとパラメータμidとフィッシャー情報量fidとを用いて、リファレンスコンテンツ又はクエリコンテンツに対応する1つのフィッシャーベクトルを算出する特徴ベクトル変換手段と、
クエリコンテンツのフィッシャーベクトルに最も類似する、リファレンスコンテンツのフィッシャーベクトルを検索する特徴ベクトル検索手段と
してコンピュータを機能させることを特徴とする検索プログラム。
A search program that causes a computer mounted on a device to function to search for reference content similar to query content from a set of reference content using model parameters extracted from training content,
For each of the training content, the reference content, and the query content, a feature vector extraction unit that extracts a set of D-dimensional binary feature vectors x 1 to x T ,
From the set of binary feature vectors of the training content, the mixture ratio w i for the i (1 ≦ i ≦ N) -th multivariate Bernoulli distribution and the d (1 ≦ d ≦ D) -th parameter of the i-th multivariate Bernoulli distribution model estimation means for calculating μ id and the Fisher information amount f id related to the parameter μ id ;
Model parameter accumulating means for accumulating the mixing ratio w i , parameter μ id, and Fisher information amount f id ;
1 corresponding to the reference content or query content from the set of binary feature vectors of the reference content or query content using the mixture ratio w i , parameter μ id, and Fisher information amount f id stored in the model parameter storage means. Feature vector conversion means for calculating two Fisher vectors;
A search program that causes a computer to function as a feature vector search unit that searches for a Fisher vector of a reference content that is most similar to a Fisher vector of a query content.
前記特徴ベクトル抽出手段は、ORB(Oriented FAST and Rotated BRIEF)又はFREAK(Fast Retina Keypoint)を用いてバイナリ特徴ベクトルの集合を抽出するようにコンピュータを機能させることを特徴とする請求項1に記載の検索プログラム。   The said feature vector extraction means makes a computer function so that a set of binary feature vectors may be extracted using ORB (Oriented FAST and Rotated BRIEF) or FRAK (Fast Retina Keypoint). Search program. 前記モデル推定手段は、訓練コンテンツのバイナリ特徴ベクトルの集合x1〜xTから、
E(Expectation)ステップについて、バイナリ特徴ベクトルxi毎に潜在変数iの期待値γt (i)を推定し、
M(Maximization)ステップについて、前記期待値γt (i)を用いて、混合比wi及びパラメータμiを更新し、
これらEステップ及びMステップを、収束するまで繰り返すことによって、混合比wi及びパラメータμiのパラメータ群λを算出する
λ(w1、・・・、wN及びμ11、・・・、μND
ようにコンピュータを機能させることを特徴とする請求項1又は2に記載の検索プログラム。
The model estimation means includes a set of binary feature vectors x 1 to x T of training content,
For the E (Expectation) step, estimate the expected value γ t (i) of the latent variable i for each binary feature vector x i ,
For the M (Maximization) step, the mixture ratio w i and the parameter μ i are updated using the expected value γ t (i),
By repeating these E step and M step until convergence, a parameter group λ of the mixture ratio w i and parameter μ i is calculated. Λ (w 1 ,..., W N and μ 11 ,. ND )
The search program according to claim 1 or 2, wherein the computer functions as described above.
前記モデル推定手段は、
前記パラメータμidの対数尤度関数を偏微分で定義したフィッシャースコアsidを算出し、
前記フィッシャースコアsidの分散としてフィッシャー情報量fidを算出する
ようにコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載の検索プログラム。
The model estimation means includes
Calculating a Fisher score s id in which a logarithmic likelihood function of the parameter μ id is defined by partial differentiation;
The search program according to any one of claims 1 to 3, wherein the computer is caused to calculate a Fisher information amount f id as a variance of the Fisher score s id .
前記特徴ベクトル変換手段は、前記バイナリ特徴ベクトルの集合毎に、前記パラメータμidを用いてフィッシャースコアsidを算出し、これらをid毎に累積した累積フィッシャースコアs'idを算出し、
各累積フィッシャースコアs'idを、対応するフィッシャー情報量fidの平方根√fidで除算したフィッシャーベクトルvidを算出する
ようにコンピュータを機能させることを特徴とする請求項4に記載の検索プログラム。
The feature vector conversion means calculates a Fisher score s id using the parameter μ id for each set of binary feature vectors, calculates a cumulative Fisher score s ′ id obtained by accumulating these for each id ,
5. The search program according to claim 4, wherein the computer is caused to calculate a Fisher vector v id obtained by dividing each cumulative Fisher score s ′ id by a square root √f id of a corresponding Fisher information amount f id . .
前記モデル推定手段は、
前記パラメータμidの対数尤度関数を偏微分で定義したフィッシャースコアsidを算出し、
前記フィッシャースコアsidの混合要素i毎のベクトル(si1〜siD)に対して主成分分析を実行し、
前記主成分分析の結果、固有値の大きいものからK個を、前記フィッシャー情報量fidとして出力し、
前記固有値に対応するK個の固有ベクトルgiKを更に出力し、
前記モデルパラメータ蓄積手段は、前記固有ベクトルgiKを更に蓄積する
ようにコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載の検索プログラム。
The model estimation means includes
Calculating a Fisher score s id in which a logarithmic likelihood function of the parameter μ id is defined by partial differentiation;
A principal component analysis is performed on the vector (si1 to siD) for each mixed element i of the Fisher score s id ,
As a result of the principal component analysis, K pieces having large eigenvalues are output as the Fisher information amount f id ,
Further output K eigenvectors g iK corresponding to the eigenvalues,
The search program according to any one of claims 1 to 3, wherein the model parameter storage means causes a computer to further store the eigenvector g iK .
前記特徴ベクトル変換手段は、前記バイナリ特徴ベクトルの集合毎に、前記パラメータμidを用いてフィッシャースコアsidを算出し、これらをid毎に累積した累積フィッシャースコアs'idを算出し、
混合要素i毎に、各累積フィッシャースコアs'idのベクトル(s'i1〜siD)を、対応する固有ベクトルgik(gi1〜giK)を用いて正規化(射影)した正規化ベクトルv'ikを算出し、
正規化ベクトルv'ikを、対応する固有ベクトルgikの平方根√gikで除算したフィッシャーベクトルvikを算出する
ようにコンピュータを機能させることを特徴とする請求項6に記載の検索プログラム。
The feature vector conversion means calculates a Fisher score s id using the parameter μ id for each set of binary feature vectors, calculates a cumulative Fisher score s ′ id obtained by accumulating these for each id ,
A normalized vector v obtained by normalizing (projecting) a vector (s ′ i1 to s iD ) of each cumulative Fisher score s ′ id using a corresponding eigenvector g ik (g i1 to g iK ) for each mixed element i. 'Calculate ik ,
The search program according to claim 6, wherein the computer functions to calculate a Fisher vector v ik obtained by dividing the normalized vector v ′ ik by the square root √g ik of the corresponding eigenvector g ik .
訓練コンテンツから抽出されたモデルパラメータを用いて、リファレンスコンテンツの集合から、クエリコンテンツに類似したリファレンスコンテンツを検索する検索装置であって、
訓練コンテンツ、リファレンスコンテンツ及びクエリコンテンツそれぞれについて、D次元のバイナリ特徴ベクトルの集合x1〜xTを抽出する特徴ベクトル抽出手段と、
訓練コンテンツのバイナリ特徴ベクトルの集合から、i(1≦i≦N)番目の多変量ベルヌーイ分布に関する混合比wiと、i番目の多変量ベルヌーイ分布のd(1≦d≦D)番目のパラメータμidと、パラメータμidに関するフィッシャー情報量fidとを算出するモデル推定手段と、
混合比wiとパラメータμidとフィッシャー情報量fidとを蓄積するモデルパラメータ蓄積手段と、
リファレンスコンテンツ又はクエリコンテンツのバイナリ特徴ベクトルの集合から、前記モデルパラメータ蓄積手段の混合比wiとパラメータμidとフィッシャー情報量fidとを用いて、リファレンスコンテンツ又はクエリコンテンツに対応する1つのフィッシャーベクトルを算出する特徴ベクトル変換手段と、
クエリコンテンツのフィッシャーベクトルに最も類似する、リファレンスコンテンツのフィッシャーベクトルを検索する特徴ベクトル検索手段と
を有することを特徴とする検索装置。
A search device for searching reference content similar to query content from a set of reference content using model parameters extracted from training content,
For each of the training content, the reference content, and the query content, a feature vector extraction unit that extracts a set of D-dimensional binary feature vectors x 1 to x T ,
From the set of binary feature vectors of the training content, the mixture ratio w i for the i (1 ≦ i ≦ N) -th multivariate Bernoulli distribution and the d (1 ≦ d ≦ D) -th parameter of the i-th multivariate Bernoulli distribution model estimation means for calculating μ id and the Fisher information amount f id related to the parameter μ id ;
Model parameter accumulating means for accumulating the mixing ratio w i , parameter μ id, and Fisher information amount f id ;
From a set of binary feature vectors of reference content or query content, one Fisher vector corresponding to the reference content or query content using the mixture ratio w i , parameter μ id and Fisher information amount f id of the model parameter storage means. Feature vector conversion means for calculating
And a feature vector search unit that searches for a Fisher vector of reference content that is most similar to a Fisher vector of query content.
装置を用いて、訓練コンテンツから抽出されたモデルパラメータを用いて、リファレンスコンテンツの集合から、クエリコンテンツに類似したリファレンスコンテンツを検索する検索方法であって、
モデルパラメータを蓄積する第1のステップとして、
訓練コンテンツそれぞれについて、D次元のバイナリ特徴ベクトルの集合x1〜xTを抽出し、
訓練コンテンツのバイナリ特徴ベクトルの集合から、i(1≦i≦N)番目の多変量ベルヌーイ分布に関する混合比wiと、i番目の多変量ベルヌーイ分布のd(1≦d≦D)番目のパラメータμidと、パラメータμidに関するフィッシャー情報量fidとを算出し、
混合比wiとパラメータμidとフィッシャー情報量fidとを蓄積し、
リファレンス情報を蓄積する第2のステップとして、
リファレンスコンテンツそれぞれについて、D次元のバイナリ特徴ベクトルの集合を抽出し、
リファレンスコンテンツそれぞれのバイナリ特徴ベクトルの集合から、モデルパラメータとして蓄積された混合比wiとパラメータμidとフィッシャー情報量fidとを用いて、1つのフィッシャーベクトルを算出し、
前記フィッシャーベクトルを蓄積し、
クエリコンテンツからリファレンスコンテンツを検索する第3のステップとして、
クエリコンテンツそれぞれのバイナリ特徴ベクトルの集合から、モデルパラメータとして蓄積された混合比wiとパラメータμidとフィッシャー情報量fidとを用いて、1つのフィッシャーベクトルを算出し、
クエリコンテンツのフィッシャーベクトルに最も類似する、リファレンスコンテンツのフィッシャーベクトルを検索する
を有することを特徴とする検索方法。
A search method for searching reference content similar to query content from a set of reference content using a model parameter extracted from training content using an apparatus,
As a first step of accumulating model parameters,
For each training content, a set of D-dimensional binary feature vectors x 1 to x T is extracted,
From the set of binary feature vectors of the training content, the mixture ratio w i for the i (1 ≦ i ≦ N) -th multivariate Bernoulli distribution and the d (1 ≦ d ≦ D) -th parameter of the i-th multivariate Bernoulli distribution Calculate μ id and Fisher information amount f id related to parameter μ id ,
Accumulate the mixing ratio w i , the parameter μ id and the Fisher information amount f id ,
As a second step of accumulating reference information,
For each reference content, extract a set of D-dimensional binary feature vectors,
From the set of binary feature vectors of each reference content, one Fisher vector is calculated using the mixture ratio w i , the parameter μ id, and the Fisher information amount f id accumulated as model parameters.
Accumulates the Fisher vector,
As a third step of searching reference content from query content,
From the set of binary feature vectors of each query content, one Fisher vector is calculated using the mixture ratio w i , the parameter μ id and the Fisher information amount f id accumulated as model parameters,
A search method comprising searching for a Fisher vector of reference content that is most similar to a Fisher vector of query content.
JP2013014891A 2013-01-30 2013-01-30 Retrieval device, program, and method for high-speed retrieval by expressing contents as a set of binary feature vectors Active JP5959446B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013014891A JP5959446B2 (en) 2013-01-30 2013-01-30 Retrieval device, program, and method for high-speed retrieval by expressing contents as a set of binary feature vectors

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013014891A JP5959446B2 (en) 2013-01-30 2013-01-30 Retrieval device, program, and method for high-speed retrieval by expressing contents as a set of binary feature vectors

Publications (2)

Publication Number Publication Date
JP2014146207A JP2014146207A (en) 2014-08-14
JP5959446B2 true JP5959446B2 (en) 2016-08-02

Family

ID=51426411

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013014891A Active JP5959446B2 (en) 2013-01-30 2013-01-30 Retrieval device, program, and method for high-speed retrieval by expressing contents as a set of binary feature vectors

Country Status (1)

Country Link
JP (1) JP5959446B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108268465A (en) * 2016-12-30 2018-07-10 广东精点数据科技股份有限公司 A kind of text search technology towards mixed data model

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10394777B2 (en) 2015-09-24 2019-08-27 Google Llc Fast orthogonal projection
EP3278238A1 (en) * 2015-09-24 2018-02-07 Google, Inc. Fast orthogonal projection

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3500930B2 (en) * 1997-09-22 2004-02-23 ミノルタ株式会社 Keyword assignment method and keyword automatic assignment device
US8250061B2 (en) * 2006-01-30 2012-08-21 Yahoo! Inc. Learning retrieval functions incorporating query differentiation for information retrieval
JP5598925B2 (en) * 2011-06-29 2014-10-01 Kddi株式会社 Retrieval device and program for retrieving high-dimensional feature vectors with high accuracy

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108268465A (en) * 2016-12-30 2018-07-10 广东精点数据科技股份有限公司 A kind of text search technology towards mixed data model

Also Published As

Publication number Publication date
JP2014146207A (en) 2014-08-14

Similar Documents

Publication Publication Date Title
Ranjan et al. Multi-label cross-modal retrieval
JP6041439B2 (en) Image search apparatus, system, program, and method using binary feature vector based on image
Mehmood et al. A novel image retrieval based on a combination of local and global histograms of visual words
Tabia et al. Compact vectors of locally aggregated tensors for 3D shape retrieval
Dharani et al. Content based image retrieval system using feature classification with modified KNN algorithm
JP6042778B2 (en) Retrieval device, system, program and method using binary local feature vector based on image
Cheng et al. Person re-identification by the asymmetric triplet and identification loss function
JP5959446B2 (en) Retrieval device, program, and method for high-speed retrieval by expressing contents as a set of binary feature vectors
Sun et al. Search by detection: Object-level feature for image retrieval
Dammak et al. Histogram of dense subgraphs for image representation
JP6017277B2 (en) Program, apparatus and method for calculating similarity between contents represented by set of feature vectors
JP5833499B2 (en) Retrieval device and program for retrieving content expressed by high-dimensional feature vector set with high accuracy
JP6601965B2 (en) Program, apparatus and method for quantizing using search tree
Szűcs et al. Content-based image retrieval for multiple objects search
Cui et al. Dimensionality reduction for histogram features: A distance-adaptive approach
Tian et al. Improved bag-of-words model for person re-identification
ur Rehman et al. Multi-feature fusion based re-ranking for person re-identification
Hema et al. Patch-SIFT: Enhanced feature descriptor to learn human facial emotions using an Ensemble approach
Scheirer et al. How reliable are your visual attributes?
Tian et al. Person re-identification as image retrieval using bag of ensemble colors
Wang et al. Unsupervised image retrieval with mask-based prominent feature accumulation
Wang et al. Guest Editorial: Big Media Data: Understanding, Search, and Mining.
Tianjiao et al. Calligraphy word style recognition by KNN based feature library filtering
Uchida et al. Binary feature-based image retrieval with effective indexing and scoring
Yin et al. Extremely Randomized Clustering Forest Based Scene Recognition Algorithm in Mobile Devices.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150804

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160617

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160624

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160621

R150 Certificate of patent or registration of utility model

Ref document number: 5959446

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150