JP2010277329A

JP2010277329A - 近傍探索装置

Info

Publication number: JP2010277329A
Application number: JP2009129156A
Authority: JP
Inventors: Yutaka Hirano; 裕平野; Mototaka Kanematsu; 基孝金松; Toshihiro Shikayama; 俊洋鹿山; Mayumi One; 真由美大音
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2009-05-28
Filing date: 2009-05-28
Publication date: 2010-12-09
Also published as: CN101901246A; US20100306201A1

Abstract

【課題】検索対象ごとに適切なインデクスを選択可能とした近傍探索装置を実現する。
【解決手段】それぞれのインデクスのデータ構造に対応するインデクス依存メタデータを有するメタテーブルを記憶する記憶部と、ユーザからの指示を受け取ると、その指示に対応したインデクスを探し、そのインデクスに対応するインデクス依存メタデータを用いて、指示に対応した処理を行わせるデータベース管理部と、データベース管理部からの指示に基づいて、前記インデクス依存メタデータを用いて、指示された処理を行うインデクス部とを有することを特徴とする近傍探索装置。
【選択図】図１

Description

本発明は、データベース上の近傍探索装置に関する。

マルチメディアデータから抽出した特徴量や成分データ等、特徴量空間上の点として表現されるデータ集合に対して範囲検索や近傍検索を行う際に用いられる技術として、多次元インデクシング技術がある。これは包含関係を持つ図形で特徴量空間を区切ることにより探索を効率化する手法で、包囲図形（セルと呼ぶ）に矩形を採用した R-tree, R*-tree、球形を採用した SS-tree、球形と矩形の共通部分を採用した SR-tree 等がある。

さらに、木を抽象化してそれに沿った多次元インデクスの実装を容易にするフレームワークについて提案がなされている（たとえば、非特許文献１）。

これ等のインデクシング手法は、多次元空間を階層的に分割することにより、探索範囲を限定することを基本としている。探索範囲を限定すれば、その分だけ計算量も少なくて済むためである。しかしながら、高次元空間では、ある点の最近点と最遠点との間に距離的な差が生じなくなるという現象が起こる。この「次元の呪い」として知られる現象によって、探索する領域を限定することができなくなり、結果として線形探索に近い計算量が必要になってしまうという問題点がある。高次元空間における上記の問題点に対処するために、近似的な最近傍検索についても研究が進められている（例えば、非特許文献２）。

Joseph M. Hellerstein, Jeffrey F. Naughton and Avi Pfeffer. "Generalized Search Trees for Database Systems.", Proc. 21st Int'l Conf. on Very Large Data Bases, Zurich, September 1995, 562-5730.

Arya, S., Mount, D. M., Netanyahu, N. S., Silverman, R., and Wu, A., "An optimal algorithm for approximate nearest neighbor searching.", 1994. In Proceedings of the ACM-SIAM symposium on Discrete Algorithms.

しかしながら、上記非特許文献１に記載の検索システムでは、baranced treeに制限され、また、検索方式はフレームワークが規定するため、対象に応じた検索方式を選択することができないという問題がある。

また、従来の近似近傍探索は、どのノードについても枝刈り範囲を無差別に(1 + ε)倍広げていた。しかし、大きな部分木(配下点数の多いノード)と小さな部分木(配下点数の少ない部分木) はノードの重要性、探索コストとも異なる。

本発明の目的は、検索対象ごとに適切なインデクスを選択可能とした近傍探索装置を実現することにある。

本発明の別の目的は、ノードの情報（包囲領域の大きさ、内部の点数など）によって枝刈り度合を変化させ、検索時間と検索の正確性のトレードオフをより適したものにすることにある。

上記課題を解決するための手段として、本発明は以下の特徴を有する。
本発明の第一の態様は、近傍探索装置として提案される。この近傍探索装置は、それぞれのインデクスのデータ構造に対応するインデクス依存メタデータを有するメタテーブルを記憶する記憶手段と、ユーザからの指示を受け取ると、その指示に対応したインデクスを探し、そのインデクスに対応するインデクス依存メタデータを用いて、指示に対応した処理を行わせるデータベース手段と、前記データベース手段からの指示に基づいて、前記インデクス依存メタデータを用いて、指示された処理を行うインデクス手段とを有することを特徴としている。

本発明の第二の態様は、近傍探索装置として提案される。この近傍探索装置は、指定されたクエリ点について近傍となる点データを探索する近傍探索装置であって、各ノードの配下点の数に応じて、配下点の多いノードの探索範囲は配下点の少ないノードの探索範囲より小さくなるように、クエリ点の探索領域を定めることを特徴としている。

本発明によれば、検索対象ごとに適切なインデクスを選択可能とした近傍探索装置を実現することができる。
また、本発明によれば、ノードの情報（包囲領域の大きさ、内部の点数など）によって枝刈り度合を変化させ、検索時間と検索の正確性のトレードオフをより適したものにすることが可能となる。

以下、図面を参照しながら本発明の実施の形態を説明する。
[１．用語の定義]
本明細書中の主な用語の定義を示す。
「多次元データ(点データ）」とは、一つのデータが複数の値で構成されているものをいう。
「ｋ−近傍検索」とは、ある点（クエリ）が与えられたとき、その点に近い点をｋ個検索する検索方法をいう。
「近似近傍探索」とは、近似的に近傍を検索することをいう。近似近傍探索の結果は、最良性は保証され無いが、通常の近傍探索に比して高速に探索を行うことができる点で優れる。
「木ノードの配下点数」とは、部分木も含めてノードの配下にある点データの個数をいう。

「ページアクセス数」とは、Ｉ／Ｏの回数をいう。ここでの「ページ」は一定の大きさの領域という意味である。このページアクセス数は、データベースでの性能指標として用いる。機器に依存せず、ほとんどの機器では、計算量よりＩ／Ｏの回数のほうが、処理時間の長短に影響する。
「ＭＢＳ（Minimal Bounding Sphere）」とは、ノードの配下点全てを含む超球をいう。
「ＭＢＲ（Minimal Bounding Rectangle）」とは、ノードの配下点全てを含む超直方体をいう。
「ＳＲ−ｔｒｅｅ」とは、ＭＢＳ，ＭＢＲの共通部分を包囲領域と定める多次元インデクスである。

[１．第一の実施の形態]
[１．１．近傍探索装置の構成例]
本発明の第一の形態である近傍探索装置は、近傍探索を実行する装置である。
近傍探索装置は、演算処理装置（ＣＰＵ）、主メモリ（ＲＡＭ）、読出し専用メモリ（ＲＯＭ）、入出力装置（Ｉ／Ｏ）、必要な場合にはハードディスク装置等の外部記憶装置を具備している情報処理装置、或いはそのような情報処理装置を含む装置であって、例えばコンピュータ、携帯電話機、ＨＤレコーダ、家電製品などである。近傍探索装置の前記ＲＯＭ、若しくはハードディスク装置などにプログラムが記憶されており、このプログラムを主メモリ上に載せ、ＣＰＵがこれを実行することにより近傍探索装置が実現される。

図１に近傍探索装置の構成例を示す。近傍探索装置１は、記憶部１０と、データベース管理部（フレームワークともいう）２０と、インデクス部３０と、入力部４０と、出力部５０とを有する。

[１．１．１．記憶部]
本発明の記憶手段に相当する記憶部１０は、探索に使用するデータを記憶する機能を有する。より詳しくは、記憶部１０は、ノードテーブル１１、点テーブル１２、メタテーブル１３を記憶する。

ノードテーブル１１は、インデクスのノード情報が記述されたデータ（テーブル）である。図２に、ノードテーブル１１のデータ構成例を示す。ノードテーブル１１は、ノードごとに一つのレコード１１０を有し、各レコードは、ノードＩＤを格納するノードＩＤフィールド１１１と、ノード内容を格納するノード内容フィールド１１２とを有する。ノードＩＤはノードを一意に特定する情報であり、ノード内容は、インデクスのノード内容を示す情報であり、例えばインデクスがＳＲ−ｔｒｅｅであれば親ノードのｉｄ、子ノードの包囲領域や、ｉｄなどの情報である。

点テーブル１２は、各点について、その点がどのノードに入っているかを示す情報が記述されたデータ（テーブル）である。図３に、点テーブル１２のデータ構成例を示す。点テーブル１２は、点ごとに一つのレコード１２０を有し、各レコードは、点ＩＤを格納する点ＩＤフィールド１２１と、その点が入っているノードのノードＩＤを格納する所属ＩＤフィールド１２２とを有する。

図４は、ある木データから生成されるノードテーブル１１及び点テーブル１２の例を示した図である。木データ４０は、図中丸印で示される１０個のノードを有する。丸印中に表示した数字はそのノードのノードＩＤである。ここで、ノードＩＤをかっこ＜＞内に示してノードを区別する。たとえば、ノードＩＤ「１」を有するノードをノード＜１＞と呼ぶ。木データ４０は、根ノードであるノード＜４＞と、中間ノードである３つのノード、ノード＜５＞、ノード＜６＞、ノード＜７＞と、葉ノードである５つのノード、ノード＜１＞、ノード＜２＞、ノード＜１０＞、ノード＜８＞、ノード＜９＞とを有する。

ノードには点データが含まれてよいが、この木データ４０においては、葉ノードのみが点データを有するものとする。点データの個数は２８個でありそれぞれ１から２８までの点ＩＤが付与されているものとする。なお、図４において点データの図示は省略している。
また、上記木データ４０から生成されるノードテーブル１１及び点テーブル１２を図４に示す。

メタテーブル１３は、インデクスのメタ情報を記述したデータ（テーブル）である。図５に、メタテーブル１３のデータ構成例を示す。メタテーブル１３は、インデクスの種別ごとに一つのレコード１３０を有し、各レコードは、点次元（各点が有する特徴量の数）を格納する点次元フィールド１３１と、そのインデクスの種別を示す情報を格納するインデクス種別フィールド１３２と、そのインデクスに含まれるノードサイズを格納するノードサイズフィールド１３３と、そのインデクスに含まれるノードの最大数を格納する最大点ＩＤフィールド１３４と、そのインデクスに含まれる点の点ＩＤうち最大の値を格納する最大点ＩＤフィールド１３５と、そのインデクスのインデクス依存メタデータを格納するインデクス依存メタデータフィールド１３６とを有する。

インデクス依存メタデータは、インデクス部３０が、近傍探索等を実行する場合に使用するデータである。以下にインデクス依存メタデータの一例を説明する。ここでは、インデクス種別はＳＲ−ｔｒｅｅであるものとして以下のインデクス依存メタデータの説明を行うが、本発明で使用可能なインデクスがＳＲ−ｔｒｅｅに限られる趣旨ではなく、近傍探索等を実行可能なインデクスを生成可能などのような方式であっても本探索装置１は使用可能である。

図６は、ＳＲ−ｔｒｅｅのデータ構造設計の例を示した図である。このようなデータ構造を有するＳＲ−ｔｒｅｅのインデクス依存メタデータの例を以下に示す。この例では、インデクス依存メタデータは基本データ、中間ノードデータ、葉ノードデータから構成される。図７は、インデクス依存メタデータの基本データのデータ構成例を示す。図８は、インデクス依存メタデータの中間ノードデータのデータ構成例を示す。但し、図中、項目番号５「子のノードＩＤ」から項目番号１０「子のＭＢＲ上限」については、そのノードのセル数分だけ繰り返される（図では一つのセル分のみ表示した）。図９は、インデクス依存メタデータの葉ノードデータのデータ構成例を示した図である。但し、図中、項目番号５「点データ」については、そのノードに含まれる点の数分だけ繰り返される（図では一つの点分のみ表示した）。
図１に戻り、近傍探索装置１の構成例の説明を続ける。

[１．１．２．データベース管理部]
本発明のデータベース手段に相当するデータベース管理部２０は、インデクス部３０からの要求に応じて記憶部１０へのデータアクセスを処理する機能を有する。すなわち、データベース管理部２０は、インデクスのデータ内容（たとえば、インデクス依存メタデータ１３６）のデータ内容を考慮して処理するものではなく、固定長のバイト列として認識できればよい。

また、データベース管理部２０は、ユーザからの指示を受け取ると、メタテーブル１３のインデクス依存メタデータを用いて、その指示に対応した(適した)インデクス技術を探し、その指示を実行するための処理をインデクス部３０に行わせる。

[１．１．３．インデクス部]
本発明のインデクス手段に相当するインデクス部３０は、インデクス依存メタデータの生成、インデクス依存メタデータを利用した探索などの実行を行う機能を有する。

以下に、インデクス部３０が実行する処理の具体例を挙げる。
（１） create
この処理は、データベース上でインデクスが作られるときに呼ばれる。呼び出されると、作られたインデクスを返す処理を行う。
（２）connect
この処理は、データベース上に存在するインデクスに接続する際呼ばれる処理である。呼び出されると、接続先のインデクスを返す。
（３）insert(index, id, point)
(id, point)をindexに挿入する処理を行う。

（４）delete(index, id)
IDがidのエントリをindexから削除する処理を行う。
（５）knnSearch(index, query, k, eps)
knn探索を行う処理である。処理の結果として、queryから近い点をk個、誤差係数epsで探索して返す。図１０に、knnSearchを実行するプログラムの疑似コードを示す。
（６）searchByID(index, id)
IDがidの点を返す処理である。
（７）costKNN(index)
kNN探索コストを見積もって返す処理である。
（８）getMetadataLength(dimension)
点の次元dimensionを参考に、インデクス依存メタデータの領域長を返す。
（９）free(index)
メモリ上のindexオブジェクトを解放する処理である。

図１に戻り、近傍探索装置１の構成例の説明に戻る。
[１．１．４．入力部、出力部]
入力部４０は、例えば、キーボード、ポインティングデバイス、タッチパネル等であり、ユーザからの指示や情報の入力に用いられる。入力される情報には、使用するインデクスの指定、探索の場合の指定点（クエリ）、ｋ−近傍探索の要素数ｋ等が含まれる。

出力部５０は、例えば、ディスプレイ、プリンタ、スピーカ等であり、ユーザへの問い合わせや検索結果の出力に用いられる。

[２．第二の実施の形態]
本発明の第二の実施の形態は、上記の近傍探索装置であって、ノード（セル）の大きさによって枝刈り度合を変化させる近似近傍探索を実行する近傍探索装置として提案される。

従来の近似近傍探索は、近似係数を平たんに考えていた。しかし、大きな(配下点の多い)部分木と、小さな（配下点の少ない）部分木では重要性と探索コストが異なる。すなわち、大きな部分木は配下点が多く、その結果、近傍となる点が含まれている可能性が高いが、点数が多いため探索コストが増大する。また、大きな部分木は包囲範囲が大きいため、近傍となる点が含まれている可能性が低い（配下点が偏った分散をしている可能性がある）。小さな部分木についてはこの逆の性質となる。

図１１、図１２は大きな部分木は包囲範囲が大きいため、近傍となる点が含まれている可能性が低いことを説明する説明図である。図１１、図１２はクエリ点１１００に対して大きな部分木１１０１と小さな部分木１１０２とが存在している。なお、大きな部分木１１０１は、二つの子ノード１１０７を有し、子ノード１１０７に点データ１１０６（図中、黒い四角で表示し、参照符号１１０６を代表する点データにのみ付し、他の点データについては省略）が含まれている。

本実施の形態にかかる近傍探索装置１は、大きな部分木用の探索領域１１０４と小さな部分木用の探索領域１１０３とを用いて、近似近傍探索を行う。クエリ点１１００に対する最近接点が探索領域内にあれば、その部分木内に含まれる点データ１１０６について近似近傍探索の対象となる点として取り扱う。最近接点が探索領域内になければ、その部分木内の点データは対象としない(その部分木を枝刈りする、ともいう）。

大きな部分木では、図１１、１２に示すように点データは部分木内に均等に分散しているのではなく、偏在するのが一般的である。探索領域内に偏在した点データが含まれていない場合には、近似近傍探索の対象となる部分木として扱うことは好ましくない。図１１の例では、大きな部分木用の探索領域１１０３に、大きな部分木の最近接点がないため、大きな部分木１１０１内の点データは対象としない(その部分木を枝刈りする、ともいう）。大きな部分木１１０１内の点データ１１０６は、クエリ点１１００から離れているため、この例では探索の対象外とすることが好ましい。

一方、図１２に示す例では、図１１の場合と同様に、大きな部分木用の探索領域１１０４に、大きな部分木の最近接点がないため、大きな部分木１１０１内の点データは対象としないが、大きな部分木１１０３に含まれる点データがクエリ点１１００に近い。この場合には本来であれば、近似近傍探索の対象とするのが好ましいが、このような状態はあまり頻繁に起こらないと判断し、図１１と同様に枝刈りするものとする。

本実施の形態では、大きな部分木１１０１と小さな部分木１１０２の探索領域１１０４，１１０３の大きさ（半径）を決定する値を変えて近似近傍検索を行う。なお、探索領域は、クエリ点１１００を中心とする半径ｒの円（多次元空間においては超球）として定義される。この半径ｒは、以下の計算式により定められる。

図１３は、本実施の形態にかかる近傍探索装置１、より詳しくはインデクス部３０が実行する近似近傍探索処理の処理例を示すフローチャートである。

近似近傍探索処理を開始すると、インデクス部３０は、ユーザからの指示情報として、クエリ点ｑ、検索件数ｋ、近似係数εを取得する。これ等の指示情報はユーザが入力部４０により入力したものをデータベース管理部２０が受け取り、データベース管理部２０がインデクス部３０に渡す。

インデクス部３０はメタテーブル１３、より詳しくはインデクス依存メタデータ１３６を参照し、その根ノード（Ｒｏｏｔ）をＮとする(ノードＮとして記憶する）（ステップＳ１０）。次に、インデクス部３０はノードＮ内のセルをクエリ点から近い順に並べ、その結果をＣとして記憶する（ステップＳ２０）。

次に、インデクス部３０はＣから１個セルを取り出す。そのセルをＣ_０と呼ぶ。また、インデクス部３０はセルＣ_０をＣから削除する（ステップＳ３０）。

次に、インデクス部３０は近似係数εからε’（イプシロンプライム；近似係数εと区別するため、修正近似係数と呼ぶ）を計算する。

修正近似係数ε’の計算式を以下に掲げる。

但し、上記計算式において、γは定数(クエリで与えてもよい)である。

ここで、ε’は 0 ≦ ε’ ≦ εをみたすため、与えられた近似係数εの最悪保障を逸脱することはない。

上記修正近似係数ε’は以下の式により探索領域１１０３、１１０４の半径ｒを定めるために使用される。

次に、インデクス部３０は、クエリ点に対するセルＣ_０の最近接点とクエリ点との距離と、検索結果のｋ番目の点データからクエリ点ｑへの距離の１／（１＋ε’）倍より近いか否かを判定する（ステップＳ４０）。

前記ステップＳ４０の判定結果が、クエリ点に対するセルＣ_０の最近接点とクエリ点との距離と、検索結果のｋ番目の点データからクエリ点ｑへの距離の１／（１＋ε’）倍より近いと判定された場合（ステップＳ４０、ＹＥＳ）には、インデクス部３０は、セルＣ_０が指すノードを新たなノードＮとする（ステップＳ５０）。次に、インデクス部３０は、この新たなノードＮが葉ノードであるか否かを判定する（ステップＳ６０）。ステップＳ６０の判定結果が、ノードＮは葉ノードでないとなった場合（ステップＳ６０、ＮＯ）は、インデクス部３０は、前述のステップＳ２０の処理に戻る。一方、ステップＳ６０の判定結果が、ノードＮは葉ノードであるとなった場合（ステップＳ６０、ＹＥＳ）は、インデクス部３０は、セルＣ_０内の点データそれぞれとクエリ点ｑとの距離を計算し、すでに検索済みの点データのうちｋ番目の点データとクエリ点との距離より近い点データがあれば、その点データを前記ｋ番目の点データと置き換える（ステップＳ７０）。

次に、インデクス部３０は、近傍点データの候補となっている点データをクエリ点との距離の順にソートする（ステップＳ８０）。次に、インデクス部３０は、ノードＮを現在のノードＮの親ノードに戻し、Ｃもその親ノードのセルの集合に戻す（ステップＳ９０）。次に、インデクス部３０は前述のステップＳ３０に戻る。

さて、ステップＳ４０において、判定結果が、クエリ点に対するセルＣ_０の最近接点とクエリ点との距離と、検索結果のｋ番目の点データからクエリ点ｑへの距離の１／（１＋ε’）倍より近くないとなった場合（ステップＳ４０、ＮＯ）には、インデクス部３０は現在のノードＮが根ノードか否かを判定する（ステップＳ１００）。この判定結果がノードＮが根ノードであるとなった場合（ステップＳ１００、ＹＥＳ）には、インデクス部３０は近似近傍探索処理を終了し、その時点で記憶している１番目からｋ番目の点データを近似近傍探索結果として出力する。一方、この判定結果がノードＮが根ノードでないとなった場合（ステップＳ１００、ＮＯ）には、前述のステップＳ９０に進み、近似近傍探索処理を続行する。

以上で、本実施の形態における近似近傍探索処理の例の説明を終了する。

図１４に、本実施の形態にかかる近似近傍検索結果と既存の近似近傍検索結果との比較を示した。同図において、縦軸はページアクセス率を示し、横軸は近傍探索の結果得られた点データと完全に一致した割合（完全に一致した場合を１とした）。また、前述の修正近傍係数ε’の計算式における定数γを１とした場合、及び２とした場合を比較した。

図１４に示す結果から、本実施の形態にかかる近似近傍検索方法は、既存の近似近傍検索に比して、同じページアクセス率であっても正解率が高いことが検証された。

近傍探索装置の構成例を示すブロック図ノードテーブルのデータ構成例を示す図点テーブルのデータ構成例を示す図ある木データから生成されるノードテーブル及び点テーブルの例を示した図メタテーブルのデータ構成例を示す図ＳＲ−ｔｒｅｅのデータ構造設計の例を示した図インデクス依存メタデータの基本データのデータ構成例を示す図インデクス依存メタデータの中間ノードデータのデータ構成例を示す図インデクス依存メタデータの葉ノードデータのデータ構成例を示した図 knnSearchを実行するプログラムの疑似コードを示す図大きな部分木は包囲範囲が大きいため、近傍となる点が含まれている可能性が低いことを説明する説明図大きな部分木は包囲範囲が大きいため、近傍となる点が含まれている可能性が低いことを説明する説明図本実施の形態にかかる近傍探索装置が実行する近似近傍探索処理の処理例を示すフローチャート本実施の形態にかかる近似近傍検索結果と既存の近似近傍検索結果との比較を示した図

１…近傍探索装置
１０…記憶部
１１…ノードテーブル
１２…点テーブル
１３…メタテーブル
２０…データベース管理部
３０…インデクス部

Claims

それぞれのインデクスのデータ構造に対応するインデクス依存メタデータを有するメタテーブルを記憶する記憶手段と、
ユーザからの指示を受け取ると、その指示に対応したインデクスを探し、そのインデクスに対応するインデクス依存メタデータを用いて、指示に対応した処理を行わせるデータベース手段と、
前記データベース手段からの指示に基づいて、前記インデクス依存メタデータを用いて、指示された処理を行うインデクス手段と
を有することを特徴とする近傍探索装置。
指定されたクエリ点について近傍となる点データを探索する近傍探索装置であって、各ノードの配下点の数に応じて、配下点の多いノードの探索範囲は配下点の少ないノードの探索範囲より小さくなるように、クエリ点の探索領域を定めることを特徴とする近傍探索装置。
前記探索領域を定める半径ｒを下記式により算出し

前記半径ｒを定める式における係数ε’を下記式により算出する

ことを特徴とする請求項２に記載の近傍探索装置（但し、γ、εはそれぞれ任意の定数）。