JP2013011920A

JP2013011920A - 少ないコードブックの情報量によって高次元の特徴ベクトルを検索する検索装置及びプログラム

Info

Publication number: JP2013011920A
Application number: JP2011142458A
Authority: JP
Inventors: Yusuke Uchida; 祐介内田; Shigeyuki Sakasawa; 茂之酒澤
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2011-06-28
Filing date: 2011-06-28
Publication date: 2013-01-17
Anticipated expiration: 2031-06-28
Also published as: JP5637939B2

Abstract

【課題】少ないコードブックの情報量によって、高次元の特徴ベクトルの集合からクエリ特徴ベクトルに類似した特徴ベクトルを検索する検索装置等を提供する。
【解決手段】検索装置における学習部は、残差コードブック生成手段を有する。これは、代表ベクトルｆ_ｎと学習ベクトルｆとの間の残差ベクトルｆ^ｒを導出することによってＮ個の残差クラスタを作成し（Ｓ７１）、ｆ^ｒをＴ個に区分した残差部分ベクトル集合Ｒn,tを生成し（Ｓ７２）、残差コードブック識別子テーブルＴ[n][t]に、いずれかのラベル値ｍを割り当て（Ｓ７３）、ｍそれぞれについて、当該ｍが割り当てられた全ての残差部分ベクトル集合Ｒn,tを用いて、当該ｍ番目の残差コードブックを生成し（Ｓ７４）、Ｍ個の残差コードブックそれぞれで量子化した際の量子化誤差が最も小さくなるｍ'番目の残差コードブックを用いてＴ[n][t]を更新する（Ｓ７５）。
【選択図】図７

Description

本発明は、検索用データベースに登録された高次元の特徴ベクトルの集合から、クエリ特徴ベクトル（検索キー）に類似した特徴ベクトルを検索する最近傍探索技術に関する。

最近傍検索技術として、木構造を用いた、R-tree(Rectangle-tree：矩形木)やANN(Approximate Nearest Neighbor)がある。R-treeは、階層的に入れ子になった最小外接矩形により空間を分割するものであって、主に低次元データ空間に対するインデックス化に用いられる。例えば、所定範囲内に存在するベクトルを検索することに適する。また、ANNは、所要程度の検索誤りを許容（近似最近傍検索）ことによって、検索を高速化することができる。

更に、空間における特徴ベクトルの密度に応じてインデックスを生成する技術もある（例えば特許文献１参照）。この技術によれば、R-treeよりも高速に検索することができるが、特徴ベクトルが高次元になるほど、ほぼ全検索と同等の速度になるという問題がある（例えば「次元の呪い」と称される）。即ち、特徴ベクトルが高次元になるほど、最近傍探索の効率が重要となる。

これに対し、高次元の特徴ベクトルに対する検索技術として、ハッシュでデータを構造化（インデキシング）したLSH(Locality Sensitive Hashing)がある。LSHもANNと同様に検索誤りを許容した近似最近傍探索技術である。LSHによれば、類似するデータ同士のハッシュ値は一致し、非類似のデータ同士のハッシュ値は異なる可能性が高くなるように、ハッシュ値を出力するハッシュ関数が用いられる。尚、LSHについて、各バケットに登録される特徴ベクトルの数をなるべく均一にすることで、効率的に検索する技術も提案されている（例えば特許文献２参照）。

更に、ランダムに生成した木構造(kd-tree)のインデックスを複数利用することによって、検索の高精度化を実現する技術もある（例えば非特許文献１参照）。これは、高次元ベクトルを構成する各次元のうち分散の大きな次元を順に決定的に分割するkd-treeに対して、分割する次元や閾値に自由度を持たせたkd-treeを利用している。しかしながら、このような技術についても、特徴ベクトルそのものを登録して、クエリベクトルとの距離計算を行う必要がある。そのために、メモリ効率が悪く、登録ベクトルが高次元且つ大量にある場合には、メモリ上で動作することができないという問題がある。

これに対し、インデックスに、特徴ベクトルそのものを登録するのではなく、最初に、特徴ベクトルを荒く量子化し、その残差ベクトルを更に量子化し、その量子化されたコードを転置インデックスとして登録することによってメモリ使用量を削減する技術がある（例えば非特許文献２参照）。この技術によれば、検索が高速化されると共に、メモリ効率も向上する。尚、この技術は、LSHや非特許文献１に記載された技術と比較して、検索精度とメモリ使用量とのトレードオフに優れる。

特開２００２−１６３２７２号公報特開２００９−０２０７６９号公報

Marius Muja and David G. Lowe、「FastApproximate Nearest Neighbors with Automatic Algorithm Configuration」、IEEE International Conference on Computer Vision、Theory and Applications (VISAPP'09)、2009. Herve Jegou, Matthijs Douze, Cordelia Schmid、「Product Quantization for Nearest Neighbor Search」、IEEE Transactions on Pattern Analysis and Machine Intelligence、25 Feb. 2010. D. G. Lowe, 「Distinctive Image Features fromScale-Invariant Keypoints」、International Journal ofComputer Vision、vol. 60, no. 2, pp. 91-110, 2004.

しかしながら、非特許文献２に記載された技術によれば、残差ベクトルを単一のコードブックで量子化しているために、近似最近傍検索の精度が悪くなるという問題があった。これは、最初に荒く量子化した際に、残差ベクトルの分布が、クラスタ毎に大きく異なるためである。一方で、この残差ベクトルのコードブックを、クラスタ毎に生成してしまうと、コードブックの情報量（メモリ量）が非常に膨大となってしまう。

そこで、本発明は、検索精度とメモリ量とのトレードオフを考慮して、少ないコードブックの情報量によって、高次元の特徴ベクトルの集合からクエリ特徴ベクトルに類似した特徴ベクトルを検索することができる検索装置及びプログラムを提供することを目的とする。

本発明によれば、粗量子化及び直積量子化を用いて符号化された高次元の登録ベクトルの集合からクエリベクトルに類似したベクトルを検索する検索装置であって、
粗量子化における代表識別値ｎ（＝１〜Ｎ）に割り当てられた学習ベクトルｆと、それに対応する代表ベクトルｆ_ｎとの間の残差ベクトルｆ^ｒ（＝ｆ−ｆ_ｎ）を、Ｔ個の残差部分ベクトルに分割し、ｔ番目の残差部分ベクトルの集合Ｒn,tをクラスタリングし、各クラスタから直積量子化のためのコードブックを作成する残差コードブック生成手段を有することを特徴とする。

本発明の検索装置における他の実施形態によれば、
残差コードブック生成手段は、
残差コードブック及び残差コードブック識別子テーブルＴ[n][t]を生成するものであり、
代表ベクトルｆ_ｎと、当該代表ベクトルｆ_ｎに属する学習ベクトルｆとの間の残差ベクトルｆ^ｒ（＝ｆ−ｆ_ｎ）を導出することによってＮ個の残差クラスタを作成する第１の機能と、
残差ベクトルｆ^ｒをＴ個の残差部分ベクトルに分割し、残差部分ベクトル集合Ｒn,t（１≦ｎ≦Ｎ，１≦ｔ≦Ｔ）を生成する第２の機能と、
残差部分ベクトル集合Ｒn,tそれぞれについて、残差コードブック識別子テーブルＴ[n][t]に、いずれかのラベル値ｍ（ｍ＝1,2,..,M）を割り当てる第３の機能と、
ラベル値ｍそれぞれについて、当該ラベル値ｍが割り当てられた全ての残差部分ベクトル集合Ｒn,tを用いて、当該ｍ番目の残差コードブックを生成する第４の機能と、
残差部分ベクトル集合Ｒn,tそれぞれについて、Ｍ個の残差コードブックそれぞれで量子化した際の量子化誤差が最も小さくなるｍ'番目の残差コードブックを用いて残差コードブック識別子テーブルＴ[n][t]を更新する第５の機能と
を有し、第４及び第５の機能を繰り返し実行する
ことも好ましい。

本発明の検索装置における他の実施形態によれば、
コードブックを生成するコードブック生成手段を更に有し、
コードブック生成手段は、
学習ベクトルの集合を、Ｎ個のクラスタにクラスタリングする第１の機能と、
クラスタ毎に、代表ベクトルを導出する第２の機能と、
各代表ベクトルに、一意の代表識別値ｎ（＝１〜Ｎ）を割り当てたコードブックを生成する第３の機能とを実行することも好ましい。

本発明の検索装置における他の実施形態によれば、
登録ベクトルｆを量子化するために、代表識別値ｎ（＝１〜Ｎ）と代表ベクトルｆ_ｎとを対応付けたコードブックを記憶するコードブック記憶手段と、
登録ベクトルｆを、コードブックを用いて、代表識別値ｎに量子化するベクトル量子化手段と、
登録ベクトルｆから代表ベクトルｆ_ｎを引いた残差ベクトルｆ^ｒを導出する残差ベクトル導出手段と、
残差ベクトルをＴ個の残差部分ベクトルｆ^ｒ ₁, ｆ^ｒ ₂, ..., ｆ^ｒ _Tに分割する残差ベクトル分割手段と、
各残差部分ベクトルｆ^ｒ _ｔを更に量子化するために、残差識別値ｌ（＝１〜Ｌ）と残差部分代表ベクトルｆ_ｌとを対応付けた残差コードブックをＭ個記憶すると共に、代表識別値ｎに対応付けられた登録ベクトルｆの残差部分ベクトルｆ^ｒｔが、Ｍ個の残差コードブックのどれで量子化すべきかを示す残差コードブック識別子テーブルＴ[n][t]を記憶する残差コードブック記憶手段と、
残差部分ベクトルｆ^ｒ _ｔを、Ｔ[n][t]番目の残差コードブックで量子化する残差部分ベクトル量子化手段と、
登録ベクトルｆの代表識別値ｎ毎に、複数の残差部分ベクトルｆ^ｒ _ｔの残差識別値ｌ_ｔ（１≦ｔ≦Ｔ）の集合と、登録ベクトルｆに関する付加情報とを、各登録ベクトルｆの登録情報として登録した転置インデックスを生成する転置インデックス生成手段と、
転置インデックスを、登録ベクトルの集合として記憶する転置インデックス記憶手段と
を有することも好ましい。

本発明の検索装置における他の実施形態によれば、
残差コードブック生成手段における第３の機能について、残差コードブック識別子テーブルＴ[n][t]に、ランダムに、いずれかのラベル値ｍ（ｍ＝1,2,..,M）を割り当てることも好ましい。

本発明の検索装置における他の実施形態によれば、
残差コードブック生成手段における第３の機能について、
残差部分ベクトル集合Ｒn,tの中から、ランダムにいずれか１つの残差部分ベクトル集合Ｒn,tを選択する第３１の機能と、
選択された当該残差部分ベクトル集合Ｒn,t内の残差部分ベクトルをクラスタリングし、１つの残差コードブックを生成する第３２の機能と、
残差部分ベクトル集合Ｒn,tそれぞれについて、既に作成された全ての残差コードブックそれぞれで量子化した際に、量子化誤差の総和が最小となる残差コードブック及び量子化誤差Ｄn,tを求める第３３の機能と、
全ての残差部分ベクトル集合Ｒn,t（１≦ｎ≦Ｎ，１≦ｔ≦Ｔ）の中からＤn,tに比例する確率で１つの残差部分ベクトル集合を選択し、その残差部分ベクトル集合内の残差部分ベクトルをクラスタリングすることで、１つの残差コードブックを生成する第３４の機能と、
Ｍ個の残差コードブックが生成されるまで、第３３及び第３４の機能を繰り返す第３５の機能と、
残差部分ベクトル集合Ｒn,tそれぞれについて、Ｍ個の残差コードブックそれぞれで量子化した際に、量子化誤差が最小となる当該残差コードブックのラベル値ｍを、当該残差部分ベクトル集合Ｒn,tに割り当てる第３６の機能と
を有することも好ましい。

本発明の検索装置における他の実施形態によれば、
転置インデックス記憶手段を用いて、クエリベクトルに類似したベクトルを検索するために、
ベクトル量子化手段は、クエリベクトルｆを、コードブックを用いて、代表識別値ｎに量子化し、
残差ベクトル導出手段は、クエリベクトルｆから代表ベクトルｆ_ｎを引いたクエリ残差ベクトルｆ^ｒを導出し、
残差ベクトル分割手段は、クエリ残差ベクトルをＴ個のクエリ残差部分ベクトルに分割する
と共に、
クエリ残差部分ベクトルｆ^ｒ _ｔと、残差コードブック識別子テーブルＴ[n][t]により指定される残差コードブックの各残差代表ベクトルｆ_ｔ，ｌ（１≦ｌ≦Ｌ）とのＬｐ距離を算出し参照テーブルＤ[t][l]に保持する残差ベクトル距離算出手段と、
登録ベクトルの登録情報である残差識別値ｌ_ｔ（１≦ｔ≦Ｔ）を基に、テーブルＤ[t][l]を参照することで、クエリベクトルと登録ベクトルのＬｐ距離の推定値を、参照テーブルの重み付き和ｄ（＝Σ_t=1 ^Tｗ_t・Ｄ[t][l_ｔ]）として算出する登録ベクトル距離算出手段と、
距離の重み付き和ｄが、所定閾値以下となる登録ベクトルを、又は、距離の重み付き和ｄが小さいものから順に所定個数となる登録ベクトルを、検索結果として出力する検索判定手段と
を有することも好ましい。

本発明の検索装置における他の実施形態によれば、
登録ベクトルは、画像の局所特徴領域から抽出された局所特徴ベクトルであり、
登録ベクトルの付加情報は、画像識別子(IDentifier)、局所特徴領域のスケール、局所特徴領域の角度のいずれか１つを含むことも好ましい。

本発明によれば、粗量子化及び直積量子化を用いて符号化された高次元の登録ベクトルの集合からクエリベクトルに類似したベクトルを検索する装置に搭載されたコンピュータを機能させるプログラムであって、
粗量子化における代表識別値ｎ（＝１〜Ｎ）に割り当てられた学習ベクトルｆと、それに対応する代表ベクトルｆ_ｎとの間の残差ベクトルｆ^ｒ（＝ｆ−ｆ_ｎ）を、Ｔ個の残差部分ベクトルに分割し、ｔ番目の残差部分ベクトルの集合Ｒn,tをクラスタリングし、各クラスタから直積量子化のためのコードブックを作成する残差コードブック生成手段としてコンピュータを機能させることを特徴とする。

本発明の検索プログラムにおける他の実施形態によれば、
残差コードブック生成手段は、
残差コードブック及び残差コードブック識別子テーブルＴ[n][t]を生成するものであり、
代表ベクトルｆ_ｎと、当該代表ベクトルｆ_ｎに属する学習ベクトルｆとの間の残差ベクトルｆ^ｒ（＝ｆ−ｆ_ｎ）を導出することによってＮ個の残差クラスタを作成する第１の機能と、
残差ベクトルｆ^ｒをＴ個の残差部分ベクトルに分割し、残差部分ベクトル集合Ｒn,t（１≦ｎ≦Ｎ，１≦ｔ≦Ｔ）を生成する第２の機能と、
残差部分ベクトル集合Ｒn,tそれぞれについて、残差コードブック識別子テーブルＴ[n][t]に、いずれかのラベル値ｍ（ｍ＝1,2,..,M）を割り当てる第３の機能と、
ラベル値ｍそれぞれについて、当該ラベル値ｍが割り当てられた全ての残差部分ベクトル集合Ｒn,tを用いて、当該ｍ番目の残差コードブックを生成する第４の機能と、
残差部分ベクトル集合Ｒn,tそれぞれについて、Ｍ個の残差コードブックそれぞれで量子化した際の量子化誤差が最も小さくなるｍ'番目の残差コードブックを用いて残差コードブック識別子テーブルＴ[n][t]を更新する第５の機能と
を有し、第４及び第５の機能を繰り返し実行する
ようにコンピュータを機能させることも好ましい。

本発明の検索プログラムにおける他の実施形態によれば、
コードブックを生成するコードブック生成手段を更に有し、
コードブック生成手段は、
学習ベクトルの集合を、Ｎ個のクラスタにクラスタリングする第１の機能と、
クラスタ毎に、代表ベクトルを導出する第２の機能と、
各代表ベクトルに、一意の代表識別値ｎ（＝１〜Ｎ）を割り当てたコードブックを生成する第３の機能とを実行する
ようにコンピュータを機能させることも好ましい。

本発明の検索プログラムにおける他の実施形態によれば、
登録ベクトルｆを量子化するために、代表識別値ｎ（＝１〜Ｎ）と代表ベクトルｆ_ｎとを対応付けたコードブックを記憶するコードブック記憶手段と、
登録ベクトルｆを、コードブックを用いて、代表識別値ｎに量子化するベクトル量子化手段と、
登録ベクトルｆから代表ベクトルｆ_ｎを引いた残差ベクトルｆ^ｒを導出する残差ベクトル導出手段と、
残差ベクトルをＴ個の残差部分ベクトルｆ^ｒ ₁, ｆ^ｒ ₂, ..., ｆ^ｒ _Tに分割する残差ベクトル分割手段と、
各残差部分ベクトルｆ^ｒ _ｔを更に量子化するために、残差識別値ｌ（＝１〜Ｌ）と残差部分代表ベクトルｆ_ｌとを対応付けた残差コードブックをＭ個記憶すると共に、代表識別値ｎに対応付けられた登録ベクトルｆの残差部分ベクトルｆ^ｒｔが、Ｍ個の残差コードブックのどれで量子化すべきかを示す残差コードブック識別子テーブルＴ[n][t]を記憶する残差コードブック記憶手段と、
残差部分ベクトルｆ^ｒ _ｔを、Ｔ[n][t]番目の残差コードブックで量子化する残差部分ベクトル量子化手段と、
登録ベクトルｆの代表識別値ｎ毎に、複数の残差部分ベクトルｆ^ｒ _ｔの残差識別値ｌ_ｔ（１≦ｔ≦Ｔ）の集合と、登録ベクトルｆに関する付加情報とを、各登録ベクトルｆの登録情報として登録した転置インデックスを生成する転置インデックス生成手段と、
転置インデックスを、登録ベクトルの集合として記憶する転置インデックス記憶手段と
してコンピュータを更に機能させることも好ましい。

本発明の検索プログラムにおける他の実施形態によれば、
残差コードブック生成手段における第３の機能について、残差コードブック識別子テーブルＴ[n][t]に、ランダムに、いずれかのラベル値ｍ（ｍ＝1,2,..,M）を割り当てるようにコンピュータを機能させることも好ましい。

本発明の検索プログラムにおける他の実施形態によれば、
残差コードブック生成手段における第３の機能について、
残差部分ベクトル集合Ｒn,tの中から、ランダムにいずれか１つの残差部分ベクトル集合Ｒn,tを選択する第３１の機能と、
選択された当該残差部分ベクトル集合Ｒn,t内の残差部分ベクトルをクラスタリングし、１つの残差コードブックを生成する第３２の機能と、
残差部分ベクトル集合Ｒn,tそれぞれについて、既に作成された全ての残差コードブックそれぞれで量子化した際に、量子化誤差の総和が最小となる残差コードブック及び量子化誤差Ｄn,tを求める第３３の機能と、
全ての残差部分ベクトル集合Ｒn,t（１≦ｎ≦Ｎ，１≦ｔ≦Ｔ）の中からＤn,tに比例する確率で１つの残差部分ベクトル集合を選択し、その残差部分ベクトル集合内の残差部分ベクトルをクラスタリングすることで、１つの残差コードブックを生成する第３４の機能と、
Ｍ個の残差コードブックが生成されるまで、第３３及び第３４の機能を繰り返す第３５の機能と、
残差部分ベクトル集合Ｒn,tそれぞれについて、Ｍ個の残差コードブックそれぞれで量子化した際に、量子化誤差が最小となる当該残差コードブックのラベル値ｍを、当該残差部分ベクトル集合Ｒn,tに割り当てる第３６の機能と
してコンピュータを更に機能させることも好ましい。

本発明の検索プログラムにおける他の実施形態によれば、
転置インデックス記憶手段を用いて、クエリベクトルに類似したベクトルを検索するために、
ベクトル量子化手段は、クエリベクトルｆを、コードブックを用いて、代表識別値ｎに量子化し、
残差ベクトル導出手段は、クエリベクトルｆから代表ベクトルｆ_ｎを引いたクエリ残差ベクトルｆ^ｒを導出し、
残差ベクトル分割手段は、クエリ残差ベクトルをＴ個のクエリ残差部分ベクトルに分割する
と共に、
クエリ残差部分ベクトルｆ^ｒ _ｔと、残差コードブック識別子テーブルＴ[n][t]により指定される残差コードブックの各残差代表ベクトルｆ_ｔ，ｌ（１≦ｌ≦Ｌ）とのＬｐ距離を算出し参照テーブルＤ[t][l]に保持する残差ベクトル距離算出手段と、
登録ベクトルの登録情報である残差識別値ｌ_ｔ（１≦ｔ≦Ｔ）を基に、テーブルＤ[t][l]を参照することで、クエリベクトルと登録ベクトルのＬｐ距離の推定値を、参照テーブルの重み付き和ｄ（＝Σ_t=1 ^Tｗ_t・Ｄ[t][l_ｔ]）として算出する登録ベクトル距離算出手段と、
距離の重み付き和ｄが、所定閾値以下となる登録ベクトルを、又は、距離の重み付き和ｄが小さいものから順に所定個数となる登録ベクトルを、検索結果として出力する検索判定手段と
してコンピュータを更に機能させることも好ましい。

本発明の検索プログラムにおける他の実施形態によれば、
登録ベクトルは、画像の局所特徴領域から抽出された局所特徴ベクトルであり、
登録ベクトルの付加情報は、画像識別子(IDentifier)、局所特徴領域のスケール、局所特徴領域の角度のいずれか１つを含むようにコンピュータを機能させることも好ましい。

本発明の検索装置及びプログラムによれば、検索精度とメモリ量とのトレードオフを考慮して、少ないコードブックの情報量によって、高次元の特徴ベクトルの集合からクエリ特徴ベクトルに類似した特徴ベクトルを検索することができる。

検索装置の機能構成図である。登録部における処理内容の説明図である。クラスタＦに含まれるベクトルを代表ベクトルｆ_ｎに対応付けた説明図である。検索部における処理内容の説明図である。本発明における学習部を含む検索装置の機能構成図である。コードブック生成部の処理ステップを表すフローチャートである。本発明における残差コードブック生成部の処理ステップを表すフローチャートである。残差コードブック生成部における処理内容の第１の説明図である。残差コードブック生成部における処理内容の第２の説明図である。本発明における第２のラベル値割当方法の処理ステップを表すフローチャートである。第２のラベル値割当方法の処理内容の説明図である。

以下、本発明の実施の形態について、図面を用いて詳細に説明する。

図１は、検索装置の機能構成図である。

本発明が対象とする検索装置１は、粗量子化及び直積量子化を用いて符号化された高次元の登録ベクトルの集合からクエリベクトルに類似したベクトルを検索する。検索装置１は、コードブック記憶部１０１と、残差コードブック記憶部１０２と、転置インデックス記憶部１０３と、登録部１１と、検索部１２とを有する。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。以下では、［登録部］［検索部］の順に説明すると共に、その中で記憶部１０１〜１０３について説明する。

［登録部］
図２は、登録部における処理内容の説明図である。以下では、図２を参照しつつ、図１の登録部１１の各機能が説明される。また、図３は、クラスタＦに含まれるベクトルを代表ベクトルｆ_ｎに対応付けた説明図である。

登録部１１は、ベクトル量子化部１１１と、残差ベクトル導出部１１２と、残差ベクトル分割部１１３と、残差部分ベクトル量子化部１１４と、転置インデックス生成部１１５とを有する。

コードブック記憶部１０１は、登録ベクトルｆを量子化するために、代表識別値ｎ（＝１〜Ｎ）と代表ベクトルｆ_ｎとを対応付けたコードブックを記憶する（図２のコードブック記憶部１０１参照）。
代表識別値ｎ：代表ベクトルｆ_ｎ
１：ｆ_１＝（ｆ_１１，ｆ_１２，・・・，ｆ_１Ｄ）
２：ｆ_２＝（ｆ_２１，ｆ_２２，・・・，ｆ_２Ｄ）
３：ｆ_３＝（ｆ_３１，ｆ_３２，・・・，ｆ_３Ｄ）
・・・
Ｎ：ｆ_Ｎ＝（ｆ_Ｎ１，ｆ_Ｎ２，・・・，ｆ_ＮＤ）

ベクトル量子化部１１１は、登録ベクトルｆを入力する。ここで、ベクトルは、高次元の特徴ベクトルであって、例えば１２８次元（Ｄ＝１２８）で表されるものであってもよい。
登録ベクトルｆ：ｆ＝（ｆ_１，ｆ_２，・・・，ｆ_Ｄ）
そして、ベクトル量子化部１１１は、登録ベクトルｆを、コードブック記憶部１０１に記憶されたコードブックを用いて、代表識別値ｎ（＝１〜Ｎ、ｎ：整数値）に量子化する（図２のベクトル量子化部１１１参照）。
ｎ＝ｑ（ｆ）＝ａｒｇｍｉｎ_ｎ||ｆ−ｆ_ｎ||^２
（登録ベクトルｆの量子化関数ｑ（ｆ）は、||ｆ−ｆ_ｎ||^２が最小となるｎを導出
する）
ｑ：Ｒ^Ｄ->Ｎ（量子化を意味する）
ｆ_ｎ：代表ベクトル

残差ベクトル導出部１１２は、登録ベクトルｆから代表ベクトルｆ_ｎを引いた残差ベクトルｆ^ｒを導出する（図２の残差ベクトル導出部１１２参照）。尚、図３（ａ）によれば、クラスタＦ毎に、多数のベクトルｆに対する代表ベクトルｆ_ｎが表されている。また、ｆとｆ_ｎとの差分となる残差ベクトルもｆ^ｒも表されている。
ｆ^ｒ＝ｆ−ｆ_{ｎ（＝ｑ（ｆ））}：残差ベクトル

残差ベクトル分割部１１３は、残差ベクトルをＴ個の残差部分ベクトルｆ^ｒ ₁, ｆ^ｒ ₂, ..., ｆ^ｒ _Tに分割する（図２の残差ベクトル分割部１１３参照）。ここで、例えば１つの残差部分ベクトルを、１６次元にしたとする。この場合、残差ベクトルは、８個（Ｔ＝Ｄ／Ｄ'＝１２８／１６）の残差部分ベクトルに分割される。
ｆ^ｒ _１＝（ｆ^ｒ _１，１，ｆ^ｒ _１，２，・・・，ｆ^ｒ _１，Ｄ'）
ｆ^ｒ _２＝（ｆ^ｒ _２，Ｄ'+1，ｆ^ｒ _２，Ｄ'+2，・・・，ｆ^ｒ _{２，Ｄ'+Ｄ'}）
・・・・・
ｆ^ｒ _Ｔ＝（ｆ^ｒ _{Ｔ，(T-1)・Ｄ'+1}，ｆ^ｒ _{Ｔ，(T-1)・Ｄ'+2}，・・・，ｆ^ｒ _{T，(T-1)・Ｄ'+Ｄ'}）

残差コードブック記憶部１０２は、各残差部分ベクトルｆ^ｒ _ｔを更に量子化するために、残差識別値ｌ（＝１〜Ｌ）と残差部分代表ベクトルｆ_ｌとを対応付けた残差コードブックをＭ個記憶する（図２の残差コードブック記憶部１０２及び図３（ｂ）参照）。ここで、本発明における最も特徴的な部分は、残差コードブックを、Ｎ×Ｔ個ではなく、Ｍ個しか記憶する必要が無いことにある。

また、残差コードブック記憶部１０２は、代表識別値ｎに対応付けられた登録ベクトルｆの残差部分ベクトルｆ^ｒ _ｔが、Ｍ個の残差コードブックのどれで量子化すべきかを示す残差コードブック識別子テーブルＴ[n][t]も記憶する（図２の残差コードブック識別子テーブル参照）。

ここで、Ｍは、１＜＜Ｍ＜＜Ｎ×Ｔの関係にある。Ｍ＝１にすると、残差ベクトルの分布が、クラスタ毎に大きく異なるために、残差ベクトルを量子化する際の量子化誤差が増加し、結果的に近似最近傍検索の精度が悪くなる。一方で、Ｍ＝Ｎ×Ｔにすると、コードブックの情報量（メモリ量）が非常に膨大となってしまう。そこで、本発明は、１
＜＜Ｍ＜＜Ｎ×Ｔの関係にすることが重要となる。

残差部分ベクトル量子化部１１４は、代表識別値ｎ＝ｑ（ｆ）とすると、残差部分ベクトルｆ^ｒ _ｔをＴ[n][t]番目の残差コードブックで量子化する。残差コードブック識別子テーブルＴ[n][t]には、Ｍが対応付けられている。量子化結果は、以下のように表される。
ｌ_ｔ＝ｑ^ｒ _T[n][t]（ｆ^ｒ _ｔ）

転置インデックス生成部１１５は、登録ベクトルｆの代表識別値ｎ毎に、複数の残差部分ベクトルｆ^ｒ _ｔの残差識別値ｌ_ｔ（１≦ｔ≦Ｔ）の集合と、登録ベクトルｆに関する付加情報（メタデータ）とを、各登録ベクトルｆの登録情報として登録した転置インデックスを生成する。「転置インデックス」とは、ベクトルを、識別値に置き換えたものである。これは、代表識別値ｎ（＝１〜Ｎ）毎に作成された登録ベクトルのリストである。

登録ベクトルのメタデータには、何が割り当てられてもよい。例えば、登録ベクトルが画像検索における画像特徴量である場合、登録ベクトルが所属する画像識別値を割り当てる。例えば画像の局所特徴領域から抽出された局所特徴ベクトルである場合、メタデータ（登録ベクトルの付加情報）は、画像識別子(IDentifier)、局所特徴領域のスケール、局所特徴領域の角度のいずれか１つを含むことも好ましい。また、高精度に検索する場合、登録ベクトルそのものをメタデータに追加的に登録するものであってもよい。

転置インデックス記憶部１０３は、転置インデックスを、登録ベクトルの集合として記憶する。

［検索部］
検索部１２は、登録部１１と同様に、ベクトル量子化部１１１と、残差ベクトル導出部１１２と、残差ベクトル分割部１１３とを有し、更に、残差ベクトル距離算出部１２４と、登録ベクトル距離算出部１２５と、検索判定部１２６とを有する。

図４は、検索部における処理内容の説明図である。以下では、図４を参照しつつ、図１の検索部１２の各機能が説明される。

検索部１２は、クエリベクトルｆを入力する。クエリベクトルｆは、登録ベクトルと同じ次元のベクトルである。そして、ベクトル量子化部１１１は、クエリベクトルｆを、コードブック記憶部１０１に記憶されたコードブックを用いて、代表識別値ｎ（＝１〜Ｎ、ｎ：整数値）に量子化する。残差ベクトル導出部１１２は、クエリベクトルｆから代表ベクトルｆ_ｎを引いたクエリ残差ベクトルｆ^ｒを導出する。残差ベクトル分割部１１３は、クエリ残差ベクトルをＴ個のクエリ残差部分ベクトルに分割する。

残差ベクトル距離算出部１２４は、クエリ残差部分ベクトルｆ^ｒ _ｔと、残差コードブック識別子テーブルＴ[n][t]により指定される残差コードブックの各残差代表ベクトルｆ_ｔ，ｌ（１≦ｌ≦Ｌ）とのＬｐ距離を算出し、テーブルＤ[t][l]に保持する（図４の残差ベクトル距離算出部１２４参照）。Ｌｐ距離とは、高次元空間におけるベクトル距離を算出するために、ミンコフスキー距離として知られたものである。Ｌｐ距離は、以下のように定義される。多次元空間の点Ｘ_Iを以下のように表す。
Ｘ_I＝(x_i1, x_i2, ・・・, x_iD)^T i＝1,2,3,・・・,n
このとき、多次元空間上の２点Ｘ_IとＸ_KとのＬｐ距離は、次元数D及びパラメータpを用いて、以下のように表す。
Ｌｐ(I,K)＝（Σ_j=1 ^D|ｘ_ij−ｘ_kj|^p）^1/p

登録ベクトル距離算出部１２５は、登録ベクトルの登録情報である残差識別値ｌ_ｔ（１≦ｔ≦Ｔ）を基に、テーブルＤ[t][l]を参照することで、クエリベクトルと登録ベクトルの近似距離を、距離の重み付き和ｄ（＝Σ_t=1 ^Tｗ_t・Ｄ[t][l_ｔ]）として算出する（図４の登録ベクトル距離算出部１２５参照）。

検索判定部１２６は、距離の重み付き和ｄが、所定閾値以下となる登録ベクトルを、検索結果として出力する（図４の検索判定部１２６参照）。この検索結果として、複数の登録ベクトルが導出されてもよい。

既存技術によれば、特徴ベクトルを量子化し、その量子化ベクトルの残差ベクトルに識別値を割り当てている。しかしながら、残差符号化のための残差コードブックが、特徴ベクトルで同一であったために、検索精度が低くなってしまう。これに対し、図１〜４で前述した検索装置によれば、クラスタ毎にコードブックを変更することによって、高次元ベクトルを高精度に検索することができる。即ち、クラスタ毎の残差ベクトルの分布に基づいてＭ個のコードブックを最適化することによって、全てのクラスタの残差コードブックを生成することなく（Ｍ＝Ｎ×Ｔ）、単一の残差コードブックを用いるよりも（Ｍ＝１）、高精度に検索することができる。

前述したような検索装置１に対する登録部１１及び検索部１２に対して、本発明によれば、最適なＭ個の残差コードブックのみを生成する学習部１３に特徴がある。以下では、学習部１３について詳細に説明する。

［学習部］
図５は、本発明における学習部を含む検索装置の機能構成図である。

図５によれば、学習部１３は、学習ベクトルを入力する。学習部１３は、コードブック生成部１３１と、残差コードブック生成部１３２とを有する。

コードブック生成部１３１は、学習ベクトルの集合を用いて、コードブック記憶部１０１に記憶すべきコードブックを生成する。

図６は、コードブック生成部の処理ステップを表すフローチャートである。

（Ｓ６１）学習ベクトルの集合Ｆを、Ｎ個のクラスタにクラスタリングする。
Ｆ
-> Ｆ_１，Ｆ_２，・・・，Ｆ_Ｎ
例えばk-means又はk-means++のようなクラスタリングアルゴリズムが用いられる。
（Ｓ６２）クラスタ毎に、代表ベクトルｆ_ｎを導出する。
ｆ_１，ｆ_２，・・・，ｆ_Ｎ
（Ｓ６３）各代表ベクトルに、一意の代表識別値ｎ（＝１〜Ｎ）を割り当てたコードブックを生成する。が得られる。
残差ベクトル集合：Ｆ^ｒ _ｎ＝｛ｆ−ｆ_ｎ|ｆ∈Ｆ_ｎ｝

残差コードブック生成部１３２は、残差コードブック記憶部１０２に記憶すべき残差コードブック及び残差コードブック識別子テーブルＴ[n][t]を生成する。

本発明の特徴は、残差コードブック生成部１３２にあって、粗量子化における代表識別値ｎ（＝１〜Ｎ）に割り当てられた学習ベクトルｆと、それに対応する代表ベクトルｆ_ｎとの間の残差ベクトルｆ^ｒ（＝ｆ−ｆ_ｎ）を、Ｔ個の残差部分ベクトルに分割し、ｔ番目の残差部分ベクトルの集合Ｒn,tをクラスタリングし、各クラスタから直積量子化のためのコードブックを作成する。

図７は、本発明における残差コードブック生成部の処理ステップを表すフローチャートである。図８は、残差コードブック生成部における処理内容の第１の説明図である。図９は、残差コードブック生成部における処理内容の第２の説明図である。以下では、図８及び９を参照しつつ、図７のフローチャートの処理内容が説明される。

（Ｓ７１）代表ベクトルｆ_ｎと、当該代表ベクトルｆ_ｎに属する学習ベクトルｆとの間の残差ベクトルｆ^ｒ（＝ｆ−ｆ_ｎ）を導出する（図８のＳ７１参照）。これによって、Ｎ個の残差クラスタを作成する。

（Ｓ７２）残差ベクトルｆ^ｒを、Ｔ個の残差部分ベクトルｆ^ｒ _ｔに分割する（図８のＳ７２参照）。これによって、残差部分ベクトル集合Ｒn,t（１≦ｎ≦Ｎ，１≦ｔ≦Ｔ）を生成する。図８のＳ７２によれば、Ｎ×Ｔ個の残差部分ベクトル集合Ｒn,tが表されている。

（Ｓ７３）残差部分ベクトル集合Ｒn,tそれぞれについて、残差コードブック識別子テーブルＴ[n][t]に、いずれかのラベル値ｍ（ｍ＝1,2,..,M）を割り当てる。ここでは、ラベル値ｍを割り当てるために、以下の２つの方法がある。
［第１のラベル値割当方法］
残差コードブック識別子テーブルＴ[n][t]に、ランダムに、いずれかのラベル値ｍを割り当てる。
［第２のラベル値割当方法］
残差コードブック識別子テーブルＴ[n][t]に、残差コードブックによって導出したラベル値ｍを割り当てる。この方法については、図１０及び図１１を用いて後述する。

図９のＳ７３によれば、以下のようにランダムに、ラベル値ｍが割り当てられている。
Ｒ_1,1：m=2
Ｒ_1,2：m=7
Ｒ_1,3：m=1
・・・

（Ｓ７４）ラベル値ｍそれぞれについて、当該ラベル値ｍが割り当てられた全ての残差部分ベクトル集合Ｒn,tを用いて、当該ｍ番目の残差コードブックを生成する。図８のＳ７４によれば、ラベル値m=1が割り当てられた全ての残差部分ベクトル集合Ｒn,tを用いて、当該1番目の残差コードブックが生成されている。

（Ｓ７５）残差部分ベクトル集合Ｒn,tそれぞれについて、Ｍ個の残差コードブックそれぞれで量子化した際の量子化誤差が最も小さくなるｍ'番目の残差コードブックを用いて残差コードブック識別子テーブルＴ[n][t]を更新する。図９のＳ７５によれば、残差部分ベクトル集合Ｒn,t毎に、残差コードブックの割り当てが更新されている。

そして、残差部分ベクトルｆ^ｒ _ｔそれぞれについて、Ｓ７４及びＳ７５の処理を、所定回数、繰り返す。これによって、Ｍ個の残差コードブックと、残差コードブックの割り当てとの両方が更新される。

最後に、Ｓ７３における［第２のラベル値割当方法］について説明する。
図１０は、本発明における第２のラベル値割当方法の処理ステップを表すフローチャートである。
図１１は、第２のラベル値割当方法の処理内容の説明図である。

（Ｓ７３１）残差部分ベクトル集合Ｒn,tの中から、任意にいずれか１つの残差部分ベクトル集合Ｒn,tを選択する。図１１のＳ７３１によれば、任意に１つの残差部分ベクトル集合Ｒn,tが選択されている。

（Ｓ７３２）選択された当該残差部分ベクトル集合Ｒn,t内の残差部分ベクトルをクラスタリングし、１つの残差コードブックを生成する。図１１のＳ７３２によれば、１つの残差部分ベクトル集合Ｒn,tから、１つの残差コードブックが生成されている。

（Ｓ７３３）残差部分ベクトル集合Ｒn,tそれぞれについて、既に作成された全ての残差コードブックそれぞれで量子化した際に、量子化誤差の総和が最小となる残差コードブック及び量子化誤差Ｄn,tを求める。

（Ｓ７３４）全ての残差部分ベクトル集合Ｒn,t（１≦ｎ≦Ｎ，１≦ｔ≦Ｔ）の中からＤn,tに比例する確率で１つの残差部分ベクトル集合を選択する。ここで、「比例する確率」とは、正規化確率を意味し、全ての残差部分ベクトル集合Ｒn,tにおける最小の量子化誤差Ｄn,tの総和ΣＤn,tに対する、当該残差部分ベクトル集合Ｒn,tの最小の量子化誤差Ｄn,tの割合である。
残差部分ベクトル集合毎：Ｄn,t／ΣＤn,t
即ち、確率Ｄn,t／ΣＤn,tで、残差部分ベクトル集合Ｒn,tが選択される。

そして、選択された残差部分ベクトル集合Ｒn,t内の残差部分ベクトルをクラスタリングすることで、１つの残差コードブックを生成する。

（Ｓ７３５）Ｍ個の残差コードブックが生成されるまで、Ｓ７３３及びＳ７３４を繰り返す。

（Ｓ７３６）残差部分ベクトル集合Ｒn,tそれぞれについて、Ｍ個の残差コードブックそれぞれで量子化した際に、量子化誤差が最小となる当該残差コードブックのラベル値ｍを、当該残差部分ベクトル集合Ｒn,tに割り当てる。

図１０及び図１１で前述したように、各残差部分ベクトル集合Ｒn,tに、当該残差コードブックのラベル値ｍが割り当てられる。その後、図７及び図９で前述したＳ７４及びＳ７５の処理が繰り返し実行される。

以上、詳細に説明したように、本発明の検索装置及びプログラムによれば、検索精度とメモリ量とのトレードオフを考慮して、少ないコードブックの情報量によって、高次元の特徴ベクトルの集合からクエリ特徴ベクトルに類似した特徴ベクトルを検索することができる。

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。

１検索装置
１０１コードブック記憶部
１０２残差コードブック記憶部
１０３転置インデックス記憶部
１１登録部
１１１ベクトル量子化部
１１２残差ベクトル導出部
１１３残差ベクトル分割部
１１４残差部分ベクトル量子化部
１１５転置インデックス生成部
１２検索部
１２４残差ベクトル距離算出部
１２５登録ベクトル距離算出部
１２６検索判定部

Claims

粗量子化及び直積量子化を用いて符号化された高次元の登録ベクトルの集合からクエリベクトルに類似したベクトルを検索する検索装置であって、
粗量子化における代表識別値ｎ（＝１〜Ｎ）に割り当てられた学習ベクトルｆと、それに対応する代表ベクトルｆ_ｎとの間の残差ベクトルｆ^ｒ（＝ｆ−ｆ_ｎ）を、Ｔ個の残差部分ベクトルに分割し、ｔ番目の残差部分ベクトルの集合Ｒn,tをクラスタリングし、各クラスタから直積量子化のためのコードブックを作成する残差コードブック生成手段を有することを特徴とする検索装置。
前記残差コードブック生成手段は、
残差コードブック及び残差コードブック識別子テーブルＴ[n][t]を生成するものであり、
代表ベクトルｆ_ｎと、当該代表ベクトルｆ_ｎに属する学習ベクトルｆとの間の残差ベクトルｆ^ｒ（＝ｆ−ｆ_ｎ）を導出することによってＮ個の残差クラスタを作成する第１の機能と、
前記残差ベクトルｆ^ｒをＴ個の残差部分ベクトルに分割し、残差部分ベクトル集合Ｒn,t（１≦ｎ≦Ｎ，１≦ｔ≦Ｔ）を生成する第２の機能と、
前記残差部分ベクトル集合Ｒn,tそれぞれについて、前記残差コードブック識別子テーブルＴ[n][t]に、いずれかのラベル値ｍ（ｍ＝1,2,..,M）を割り当てる第３の機能と、
前記ラベル値ｍそれぞれについて、当該ラベル値ｍが割り当てられた全ての残差部分ベクトル集合Ｒn,tを用いて、当該ｍ番目の残差コードブックを生成する第４の機能と、
前記残差部分ベクトル集合Ｒn,tそれぞれについて、Ｍ個の残差コードブックそれぞれで量子化した際の量子化誤差が最も小さくなるｍ'番目の残差コードブックを用いて残差コードブック識別子テーブルＴ[n][t]を更新する第５の機能と
を有し、第４及び第５の機能を繰り返し実行する
ことを特徴とする請求項１に記載の検索装置。
コードブックを生成するコードブック生成手段を更に有し、
前記コードブック生成手段は、
前記学習ベクトルの集合を、Ｎ個のクラスタにクラスタリングする第１の機能と、
前記クラスタ毎に、代表ベクトルを導出する第２の機能と、
各代表ベクトルに、一意の代表識別値ｎ（＝１〜Ｎ）を割り当てたコードブックを生成する第３の機能とを実行する
ことを特徴とする請求項２に記載の検索装置。
前記登録ベクトルｆを量子化するために、代表識別値ｎ（＝１〜Ｎ）と代表ベクトルｆ_ｎとを対応付けたコードブックを記憶するコードブック記憶手段と、
前記登録ベクトルｆを、前記コードブックを用いて、代表識別値ｎに量子化するベクトル量子化手段と、
前記登録ベクトルｆから代表ベクトルｆ_ｎを引いた残差ベクトルｆ^ｒを導出する残差ベクトル導出手段と、
前記残差ベクトルをＴ個の残差部分ベクトルｆ^ｒ ₁, ｆ^ｒ ₂, ..., ｆ^ｒ _Tに分割する残差ベクトル分割手段と、
各残差部分ベクトルｆ^ｒ _ｔを更に量子化するために、残差識別値ｌ（＝１〜Ｌ）と残差部分代表ベクトルｆ_ｌとを対応付けた残差コードブックをＭ個記憶すると共に、前記代表識別値ｎに対応付けられた登録ベクトルｆの残差部分ベクトルｆ^ｒｔが、前記Ｍ個の残差コードブックのどれで量子化すべきかを示す残差コードブック識別子テーブルＴ[n][t]を記憶する残差コードブック記憶手段と、
前記残差部分ベクトルｆ^ｒ _ｔを、Ｔ[n][t]番目の前記残差コードブックで量子化する残差部分ベクトル量子化手段と、
前記登録ベクトルｆの代表識別値ｎ毎に、複数の残差部分ベクトルｆ^ｒ _ｔの残差識別値ｌ_ｔ（１≦ｔ≦Ｔ）の集合と、登録ベクトルｆに関する付加情報とを、各登録ベクトルｆの登録情報として登録した転置インデックスを生成する転置インデックス生成手段と、
前記転置インデックスを、登録ベクトルの集合として記憶する転置インデックス記憶手段と
を有することを特徴とする請求項３に記載の検索装置。
前記残差コードブック生成手段における第３の機能について、前記残差コードブック識別子テーブルＴ[n][t]に、ランダムに、いずれかのラベル値ｍ（ｍ＝1,2,..,M）を割り当てることを特徴とする請求項３又は４に記載の検索装置。
前記残差コードブック生成手段における第３の機能について、
前記残差部分ベクトル集合Ｒn,tの中から、ランダムにいずれか１つの残差部分ベクトル集合Ｒn,tを選択する第３１の機能と、
選択された当該残差部分ベクトル集合Ｒn,t内の残差部分ベクトルをクラスタリングし、１つの残差コードブックを生成する第３２の機能と、
前記残差部分ベクトル集合Ｒn,tそれぞれについて、既に作成された全ての残差コードブックそれぞれで量子化した際に、量子化誤差の総和が最小となる残差コードブック及び量子化誤差Ｄn,tを求める第３３の機能と、
全ての残差部分ベクトル集合Ｒn,t（１≦ｎ≦Ｎ，１≦ｔ≦Ｔ）の中から前記Ｄn,tに比例する確率で１つの残差部分ベクトル集合を選択し、その残差部分ベクトル集合内の残差部分ベクトルをクラスタリングすることで、１つの残差コードブックを生成する第３４の機能と、
Ｍ個の残差コードブックが生成されるまで、第３３及び第３４の機能を繰り返す第３５の機能と、
前記残差部分ベクトル集合Ｒn,tそれぞれについて、Ｍ個の残差コードブックそれぞれで量子化した際に、量子化誤差が最小となる当該残差コードブックのラベル値ｍを、当該残差部分ベクトル集合Ｒn,tに割り当てる第３６の機能と
を有することを特徴とする請求項３又は４に記載の検索装置。
前記転置インデックス記憶手段を用いて、クエリベクトルに類似したベクトルを検索するために、
前記ベクトル量子化手段は、前記クエリベクトルｆを、前記コードブックを用いて、代表識別値ｎに量子化し、
前記残差ベクトル導出手段は、前記クエリベクトルｆから代表ベクトルｆ_ｎを引いたクエリ残差ベクトルｆ^ｒを導出し、
前記残差ベクトル分割手段は、前記クエリ残差ベクトルをＴ個のクエリ残差部分ベクトルに分割する
と共に、
前記クエリ残差部分ベクトルｆ^ｒ _ｔと、前記残差コードブック識別子テーブルＴ[n][t]により指定される残差コードブックの各残差代表ベクトルｆ_ｔ，ｌ（１≦ｌ≦Ｌ）とのＬｐ距離を算出し参照テーブルＤ[t][l]に保持する残差ベクトル距離算出手段と、
前記登録ベクトルの登録情報である残差識別値ｌ_ｔ（１≦ｔ≦Ｔ）を基に、前記テーブルＤ[t][l]を参照することで、クエリベクトルと登録ベクトルのＬｐ距離の推定値を、参照テーブルの重み付き和ｄ（＝Σ_t=1 ^Tｗ_t・Ｄ[t][l_ｔ]）として算出する登録ベクトル距離算出手段と、
前記距離の重み付き和ｄが、所定閾値以下となる登録ベクトルを、又は、距離の重み付き和ｄが小さいものから順に所定個数となる登録ベクトルを、検索結果として出力する検索判定手段と
を有することを特徴とする請求項２から６のいずれか１項に記載の検索装置。
前記登録ベクトルは、画像の局所特徴領域から抽出された局所特徴ベクトルであり、
前記登録ベクトルの付加情報は、画像識別子(IDentifier)、局所特徴領域のスケール、局所特徴領域の角度のいずれか１つを含むことを特徴とする請求項１から７のいずれか１項に記載の検索装置。
粗量子化及び直積量子化を用いて符号化された高次元の登録ベクトルの集合からクエリベクトルに類似したベクトルを検索する装置に搭載されたコンピュータを機能させるプログラムであって、
粗量子化における代表識別値ｎ（＝１〜Ｎ）に割り当てられた学習ベクトルｆと、それに対応する代表ベクトルｆ_ｎとの間の残差ベクトルｆ^ｒ（＝ｆ−ｆ_ｎ）を、Ｔ個の残差部分ベクトルに分割し、ｔ番目の残差部分ベクトルの集合Ｒn,tをクラスタリングし、各クラスタから直積量子化のためのコードブックを作成する残差コードブック生成手段としてコンピュータを機能させることを特徴とする検索プログラム。
前記残差コードブック生成手段は、
残差コードブック及び残差コードブック識別子テーブルＴ[n][t]を生成するものであり、
代表ベクトルｆ_ｎと、当該代表ベクトルｆ_ｎに属する学習ベクトルｆとの間の残差ベクトルｆ^ｒ（＝ｆ−ｆ_ｎ）を導出することによってＮ個の残差クラスタを作成する第１の機能と、
前記残差ベクトルｆ^ｒをＴ個の残差部分ベクトルに分割し、残差部分ベクトル集合Ｒn,t（１≦ｎ≦Ｎ，１≦ｔ≦Ｔ）を生成する第２の機能と、
前記残差部分ベクトル集合Ｒn,tそれぞれについて、前記残差コードブック識別子テーブルＴ[n][t]に、いずれかのラベル値ｍ（ｍ＝1,2,..,M）を割り当てる第３の機能と、
前記ラベル値ｍそれぞれについて、当該ラベル値ｍが割り当てられた全ての残差部分ベクトル集合Ｒn,tを用いて、当該ｍ番目の残差コードブックを生成する第４の機能と、
前記残差部分ベクトル集合Ｒn,tそれぞれについて、Ｍ個の残差コードブックそれぞれで量子化した際の量子化誤差が最も小さくなるｍ'番目の残差コードブックを用いて残差コードブック識別子テーブルＴ[n][t]を更新する第５の機能と
を有し、第４及び第５の機能を繰り返し実行する
ようにコンピュータを機能させることを特徴とする請求項９に記載の検索プログラム。
コードブックを生成するコードブック生成手段を更に有し、
前記コードブック生成手段は、
前記学習ベクトルの集合を、Ｎ個のクラスタにクラスタリングする第１の機能と、
前記クラスタ毎に、代表ベクトルを導出する第２の機能と、
各代表ベクトルに、一意の代表識別値ｎ（＝１〜Ｎ）を割り当てたコードブックを生成する第３の機能とを実行する
ようにコンピュータを機能させることを特徴とする請求項１０に記載の検索プログラム。
前記登録ベクトルｆを量子化するために、代表識別値ｎ（＝１〜Ｎ）と代表ベクトルｆ_ｎとを対応付けたコードブックを記憶するコードブック記憶手段と、
前記登録ベクトルｆを、前記コードブックを用いて、代表識別値ｎに量子化するベクトル量子化手段と、
前記登録ベクトルｆから代表ベクトルｆ_ｎを引いた残差ベクトルｆ^ｒを導出する残差ベクトル導出手段と、
前記残差ベクトルをＴ個の残差部分ベクトルｆ^ｒ ₁, ｆ^ｒ ₂, ..., ｆ^ｒ _Tに分割する残差ベクトル分割手段と、
各残差部分ベクトルｆ^ｒ _ｔを更に量子化するために、残差識別値ｌ（＝１〜Ｌ）と残差部分代表ベクトルｆ_ｌとを対応付けた残差コードブックをＭ個記憶すると共に、前記代表識別値ｎに対応付けられた登録ベクトルｆの残差部分ベクトルｆ^ｒｔが、前記Ｍ個の残差コードブックのどれで量子化すべきかを示す残差コードブック識別子テーブルＴ[n][t]を記憶する残差コードブック記憶手段と、
前記残差部分ベクトルｆ^ｒ _ｔを、Ｔ[n][t]番目の前記残差コードブックで量子化する残差部分ベクトル量子化手段と、
前記登録ベクトルｆの代表識別値ｎ毎に、複数の残差部分ベクトルｆ^ｒ _ｔの残差識別値ｌ_ｔ（１≦ｔ≦Ｔ）の集合と、登録ベクトルｆに関する付加情報とを、各登録ベクトルｆの登録情報として登録した転置インデックスを生成する転置インデックス生成手段と、
前記転置インデックスを、登録ベクトルの集合として記憶する転置インデックス記憶手段と
してコンピュータを更に機能させることを特徴とする請求項１１に記載の検索プログラム。
前記残差コードブック生成手段における第３の機能について、前記残差コードブック識別子テーブルＴ[n][t]に、ランダムに、いずれかのラベル値ｍ（ｍ＝1,2,..,M）を割り当てるようにコンピュータを機能させることを特徴とする請求項１１又は１２に記載の検索プログラム。
前記残差コードブック生成手段における第３の機能について、
前記残差部分ベクトル集合Ｒn,tの中から、ランダムにいずれか１つの残差部分ベクトル集合Ｒn,tを選択する第３１の機能と、
選択された当該残差部分ベクトル集合Ｒn,t内の残差部分ベクトルをクラスタリングし、１つの残差コードブックを生成する第３２の機能と、
前記残差部分ベクトル集合Ｒn,tそれぞれについて、既に作成された全ての残差コードブックそれぞれで量子化した際に、量子化誤差の総和が最小となる残差コードブック及び量子化誤差Ｄn,tを求める第３３の機能と、
全ての残差部分ベクトル集合Ｒn,t（１≦ｎ≦Ｎ，１≦ｔ≦Ｔ）の中から前記Ｄn,tに比例する確率で１つの残差部分ベクトル集合を選択し、その残差部分ベクトル集合内の残差部分ベクトルをクラスタリングすることで、１つの残差コードブックを生成する第３４の機能と、
Ｍ個の残差コードブックが生成されるまで、第３３及び第３４の機能を繰り返す第３５の機能と、
前記残差部分ベクトル集合Ｒn,tそれぞれについて、Ｍ個の残差コードブックそれぞれで量子化した際に、量子化誤差が最小となる当該残差コードブックのラベル値ｍを、当該残差部分ベクトル集合Ｒn,tに割り当てる第３６の機能と
してコンピュータを更に機能させることを特徴とする請求項１１又は１２に記載の検索プログラム。
前記転置インデックス記憶手段を用いて、クエリベクトルに類似したベクトルを検索するために、
前記ベクトル量子化手段は、前記クエリベクトルｆを、前記コードブックを用いて、代表識別値ｎに量子化し、
前記残差ベクトル導出手段は、前記クエリベクトルｆから代表ベクトルｆ_ｎを引いたクエリ残差ベクトルｆ^ｒを導出し、
前記残差ベクトル分割手段は、前記クエリ残差ベクトルをＴ個のクエリ残差部分ベクトルに分割する
と共に、
前記クエリ残差部分ベクトルｆ^ｒ _ｔと、前記残差コードブック識別子テーブルＴ[n][t]により指定される残差コードブックの各残差代表ベクトルｆ_ｔ，ｌ（１≦ｌ≦Ｌ）とのＬｐ距離を算出し参照テーブルＤ[t][l]に保持する残差ベクトル距離算出手段と、
前記登録ベクトルの登録情報である残差識別値ｌ_ｔ（１≦ｔ≦Ｔ）を基に、前記テーブルＤ[t][l]を参照することで、クエリベクトルと登録ベクトルのＬｐ距離の推定値を、参照テーブルの重み付き和ｄ（＝Σ_t=1 ^Tｗ_t・Ｄ[t][l_ｔ]）として算出する登録ベクトル距離算出手段と、
前記距離の重み付き和ｄが、所定閾値以下となる登録ベクトルを、又は、距離の重み付き和ｄが小さいものから順に所定個数となる登録ベクトルを、検索結果として出力する検索判定手段と
してコンピュータを更に機能させることを特徴とする請求項９から１４のいずれか１項に記載の検索プログラム。
前記登録ベクトルは、画像の局所特徴領域から抽出された局所特徴ベクトルであり、
前記登録ベクトルの付加情報は、画像識別子(IDentifier)、局所特徴領域のスケール、局所特徴領域の角度のいずれか１つを含むようにコンピュータを機能させることを特徴とする請求項９から１５のいずれか１項に記載の検索プログラム。