JP2021114037A

JP2021114037A - インデックス管理装置

Info

Publication number: JP2021114037A
Application number: JP2020005268A
Authority: JP
Inventors: 康平金澤; Kohei Kanazawa
Original assignee: NTT Data Sekisui Systems Corp
Current assignee: NTT Data Sekisui Systems Corp
Priority date: 2020-01-16
Filing date: 2020-01-16
Publication date: 2021-08-05
Anticipated expiration: 2040-01-16

Abstract

【課題】非順序離散値が含まれる多次元データの検索が高速で行えるようになるうえに、記憶容量を抑えることができるインデックス管理装置を提供する。【解決手段】２値間の順序と距離が適切に定義可能な数量と、２値間の順序も距離も適切に定義不能な非順序離散値とが含まれる多次元データが格納されたデータベースのインデックス管理装置３である。そして、ルートノードとリーフノードを含む複数のノードからなる階層構造のインデックスを生成するインデックス生成手段３１と、ノードにポインタとキー情報を格納させる処理を行うエントリ処理手段３２とを備えている。また、エントリ処理手段では、キー情報が数量の場合は範囲検索に設定し、キー情報が非順序離散値の場合は指定値検索に設定する処理を行うとともに、指定値検索の設定にはブルームフィルタが適用される。【選択図】図１

Description

本発明は、２値間の順序と距離が適切に定義可能な数量と、２値間の順序も距離も適切に定義不能な非順序離散値とが含まれる多次元データが格納されたデータベースのインデックス管理装置に関するものである。

データ検索を高速化する技術として、検索用のインデックスを作成する手法が知られている。要するに、特定のキーに対応するデータを検索する場合に、データベース内の全てのレコードを先頭から１つずつ調べていくと膨大な時間がかかってしまうため、特定のキーに対する検索を高速化するために、インデックスツリーを生成しておくことが知られている（特許文献１，２など参照）。

ここで、データベースに記録するデータの組はレコードと呼ばれ、その中で検索に用いられるデータはキーと呼ばれる。データベースに格納されたレコードをキーで検索するには、キー順にレコードがソートされているのが望ましいが、レコードをキー順にソートして記録する処理は時間がかかる。

そこで、レコードは到着順に記録し、キーと対応するレコードへのポインタをツリー構造（木構造）でソートして別途記録するのが一般的であり、それをインデックスツリーと呼ぶ。代表的なインデックスの実装方法としては、Balanced Tree（Ｂ木）と呼ばれるデータ構造によるものが知られており、商用のデータベースやファイルシステムなどによく用いられている。

Ｂ木は、データを特定の列に関して並べ替え、入れ子構造に分割したものとみなせる。それにより１列に関する範囲検索（指定下限値以上かつ指定上限値以下の値を持つレコードの抽出）は、キーに関する単純な大小比較のみで高速に行える。また、複数列に関する範囲検索も、第１列が同値の場合のみ第２列を比較し、第２列も同値の場合は第３列を比較するというような処理にすることで同様に扱えるが、実際に意味があるのは最初の数列程度であることが多い。

一方、特許文献１，２に開示されているRectangle Tree（Ｒ木）は、データを長方形(２次元の場合。一般には超直方体)で再帰的に分割したものとみなせる。Ｂ木のような大小比較ではなく、検索範囲を長方形とみなして長方形同士の包含関係を調べることで、範囲検索を行う。しかし、その内部処理中、長方形の面積等を判断基準として用いるために、Ｒ木のインデックスで設定できるのは、２値間の順序と距離が適切に定義可能な数量に限られ、２値間の順序も距離も適切に定義することができない非順序離散値は扱うことができない。

そこで、Ｒ木を非順序離散値も扱えるように拡張したものとして、非特許文献１に開示されているＣ−ＮＤ木が提案されている。Ｃ−ＮＤ木は、非順序離散値の列については、「長方形の一辺の長さ」を個別値の数で代替したＲ木とみなすことができる。Ｃ−ＮＤ木はＲ木の良い性質を受け継ぎつつ非順序離散値も扱えるため、単一のインデックスで既存インデックスの弱点をカバーできる可能性がある。

特開２００３−３３０９４３号公報特許第３７０８８０９号公報

Changqing Chen et al.,The C-ND Tree:A Multidimensional Index for Hybrid Continuous and Non-ordered Discrete Data Spaces,EDBT '09 Proceedings of the 12th International Conference on Extending Database Technology,2009.3,p.462-471

しかしながら、Ｃ−ＮＤ木は、非順序離散値の「範囲」を表現するのに単純なビット配列を用いるため、予め取り得るすべての個別値を知っておく必要がある。また、個別値の数が非常に多い場合は、要求される記憶容量が膨大になる。

そこで、本発明は、非順序離散値が含まれる多次元データの検索が高速で行えるようになるうえに、記憶容量を抑えることができるインデックス管理装置を提供することを目的としている。

前記目的を達成するために、本発明のインデックス管理装置は、２値間の順序と距離が適切に定義可能な数量と、２値間の順序も距離も適切に定義不能な非順序離散値とが含まれる多次元データが格納されたデータベースのインデックス管理装置であって、複数のノードからなる階層構造のインデックスを生成するインデックス生成手段と、前記ノードにポインタとキー情報を格納させる処理を行うエントリ処理手段とを備え、前記エントリ処理手段は、前記キー情報が前記数量の場合は範囲検索に設定し、前記キー情報が前記非順序離散値の場合は指定値検索に設定する処理を行うとともに、前記指定値検索の設定にはブルームフィルタが適用されることを特徴とする。ここで、前記ブルームフィルタを適用するために、ビット数Ｎとハッシュ関数の数Ｋが設定できる構成とすることが好ましい。

このように構成された本発明のインデックス管理装置は、ノードにポインタとキー情報を格納させる処理を行うエントリ処理手段において、キー情報が数量の場合は範囲検索に設定し、キー情報が非順序離散値の場合は指定値検索に設定する処理を行う。そして、指定値検索の設定には、ブルームフィルタが適用される。

このため、２値間の順序も距離も適切に定義不能な非順序離散値が含まれる多次元データの検索が高速で行えるようになるうえに、記憶容量を抑えることもできるようになる。そして、ビット数Ｎとハッシュ関数の数Ｋを適切に設定することで、ブルームフィルタを効果的に機能させることができる。

本発明の実施の形態のインデックス管理装置が組み込まれる多次元データ検索システムの全体構成の概要を説明するブロック図である。インデックスの基本構造を例示した説明図である。数値と区分値とが含まれる多次元データのインデックスを使った検索例の説明図である。ブルームフィルタの偽陽性確率を計算した結果を例示した説明図である。ブルームフィルタのパラメータ検討時の想定データを例示した説明図である。インデックスの各段における各ノードの子孫が含む平均区分値数を仮定した説明図である。ハッシュ関数の数Ｋついての検討において、（ａ）は区分値Aの偽陽性確率の算出結果を示した一覧表、（ｂ）は区分値Bの偽陽性確率の算出結果を示した一覧表である。実施例１の追加レコードがあった場合にインデックスが更新される概要を示した説明図である。更新処理の全体の流れを説明するフローチャートである。空エントリにデータが追加される例を示した説明図である。更新処理の中の分割処理の流れを説明するフローチャートである。分割処理の第１のケースを例示した説明図である。分割処理の第２のケースを例示した説明図である。分割処理の第３のケースを例示した説明図である。分割処理の第４のケースを例示した説明図である。

以下、本発明の実施の形態について図面を参照して説明する。
本実施の形態のインデックス管理装置は、多次元データが格納されたデータベースを備えた多次元データ検索システム１に組み込まれる。図１は、多次元データ検索システム１の全体構成の概要を示したブロック図である。

多次元データ検索システム１は、入力手段２と、インデックス管理装置３と、データベース４とを備えている。入力手段２には、キーボードやマウスやタッチパネルなどの指令やデータなどを直接入力する手段、フラッシュメモリやハードディスなどの記憶媒体から取り込ませる手段、インターネットやＬＡＮなど通信回線を介して取り込ませる手段などがある。

また、データベース４には、インデックスＺの構造やデータなどのインデックス情報４１と、検索対象となる多次元データであるレコード４２などが格納される。本実施の形態では、レコード４２として、数量のデータと非順序離散値のデータとが組み合わされたものが扱われる。

ここで、「数量」とは、２値間の順序と距離が適切に定義可能なデータで、大小の比較が可能な長さや重さや時刻などの数値が該当する。一方、「非順序離散値」とは、２値間の順序も距離も適切に定義不能なデータで、色の種類や地名や文字などの区分値が該当する。

図２は、複数のレコード（「R00」,「R01」などの行ＩＤによって識別されるデータ行）が記録されたデータベースであるレコード群Ｗと、そのレコード群Ｗの中から所期のレコードを短時間で抽出させるために作成されるインデックスＺとを模式的に例示した図である。

このインデックスＺの基本構造は、ノードを３段以上にわたって階層的に配置するツリー構造（木構造）である。最上段（最上層）のノードはルートノード（根ノード）ＺＡと呼ばれ、最下段（最下層）のノードはリーフノード（葉ノード）ＺＣと呼ばれる。そして、ルートノードＺＡとリーフノードＺＣとの間に配置される１段以上のノードは、中間ノード（内部ノード）ＺＢと呼ばれる。

各ノード（ＺＡ，ＺＢ，ＺＣ）は、ノードを識別するためのノードＩＤと、ノードにデータを格納するためのエントリとによって構成される。ノード（ＺＡ，ＺＢ，ＺＣ）のエントリには、ポインタとキー情報とが格納される。

「ポインタ」とは、リーフノードＺＣ以外のノード（ＺＡ，ＺＢ）では、エントリに記録されたキー情報に対応する下位のノード（子ノード）を指し示すデータをいう。一方、リーフノードＺＣでは、元データとなるレコード（例えば行ＩＤ「R00」で識別される１行のデータ組）を指し示すデータがポインタとなる。

「キー情報」とは、レコードに含まれるデータの中で検索に用いられるデータをいう。本実施の形態では、数量も非順序離散値もキー情報になり得る。リーフノードＺＣに格納されるキー情報は、元データ（例えば１行のレコード）のキー列の値である。リーフノードＺＣ以外のノード（ＺＡ，ＺＢ）では、子孫（子ノードやそれに繋がる子ノードなど）となる全リーフノードＺＣのキー情報の要約が記録される。例えば数値列であれば、最小値と最大値の組がキー情報として記録され、区分値列であれば後述するブルームフィルタがキー情報として記録される。

例えば図２で説明すると、最上層のルートノードＺＡには、ノードＩＤが「N10」のノードが存在し、「N10」に格納された10個のエントリ（エントリ0からエントリ9）には、中間ノードＺＢの対応するノードを指すポインタ（例えば「エントリ0」には「N20」）と、キー情報となる数値「0〜600」と、キー情報となる区分値「11010101」とが記録されている。ここで、数値は「0〜600」という範囲で設定され、区分値は「11010101」という指定値で設定されている。

中間ノードＺＢにおいても、同様に複数のエントリが格納されたノードが配置されていて、例えばノードＩＤが「N20」の「エントリ0」に該当する場合は、下位のノードＩＤが「N30」のノードに移行していくことになる。そして、最下層のリーフノードＺＣのノードＩＤ「N90」に辿り着いた場合には、その「エントリ0」が指し示すレコード群Ｗの行ＩＤが「R00」のレコードが抽出されることになる。

上述したデータ検索を別の表現で説明すると、検索対象となったノードＸがリーフノードＺＣであって、ノードＸのキー情報が検索条件に合致する場合は、ノードＸのポインタが指す元データの１行（「R00」,「R01」など）が検索の結果集合Ｓに加えられることになる。一方、検索対象となったノードＸがリーフノードＺＣ以外であれば、ノードＸのエントリのうち、子孫が検索条件に合致する可能性のあるキー情報が記録されたエントリのそれぞれについて、下位のノードの探索が行われることになる。

このような検索を高速で行わせるための本実施の形態のインデックス管理装置３は、図１に示すように、ツリー構造のインデックスＺを生成させるインデックス生成手段３１と、各ノードのエントリに格納されるデータの処理などを行うエントリ処理手段３２と、新たにレコードが追加されるなどしてインデックスＺの更新が必要になったときに動作する更新処理手段３３とを備えている。また、エントリ処理手段３２には、後述するブルームフィルタのパラメータの設定などを行うためのブルームフィルタ設定部３２１が設けられる。

続いて図３を参照しながら、数値と区分値とが含まれる多次元データのインデックスＺを使った検索例について説明する。まず検索するにあたっては、検索条件が設定される。ここでは、検索条件を「50 ≦数値列≦ 70 かつ区分値列= A」とする。区分値列の「A」は、ブルームフィルタ「00010001」に置き換えられる。

検索条件に基づいてルートノードＺＡを参照すると、ノードＩＤ「N10」の「エントリ0」が数値の範囲検索においても区分値の指定値検索においても検索条件に該当しているため、下位の中間ノードＺＢのノードＩＤ「N20」に移行する。

中間ノードＺＢの「N20」では、「エントリ0」は数値列が検索条件に該当しないが、「エントリ1」が数値列と区分値列の両方が検索条件に該当しているため、「エントリ1」のポインタ「N31」に従って、リーフノードＺＣの「N31」に移行する。そして、検索条件に該当する「エントリ1」のポインタ「R05」に従って、レコード群Ｗから行ＩＤ「R05」の１行のレコードが抽出される。このレコードには、キー情報である数値や区分値の他に、キー情報とされていない非キー列にある「へ」というデータも記録されている。なお、この例では、ルートノードＺＡのノードＩＤ「N10」の「エントリ1」が検索条件に該当しないので、「エントリ1」が指す下位のノードへの更なる検索は不要になる。

ここで、Ｃ−ＮＤ木（非特許文献１）では、区分値を表現するのに単純なビット配列を用いるため、予め取り得るすべての個別値を把握して、その数に合わせてビット数を確保しておく必要がある。このため、想定される区分値の種類（数）が多くなると記憶容量が増大することになるし、区分値の範囲が想定できない場合は適用できないこともある。

そこで、本実施の形態のインデックス管理装置３では、区分値をブルームフィルタを適用して表現する。ブルームフィルタは、集合にある要素が含まれるか否かを、確率的に判定できるデータ構造で、空間効率のよい構造と言える。ブルームフィルタを適用することによって、個別値の多寡にかかわらず、一定のビット数で非順序離散値の範囲が表現できるようになる。

ブルームフィルタを適用するにあたっては、適当な正整数Ｎと、1個以上（Ｋ個とする）の異なるハッシュ関数（F_1, F_2,・・・,F_K）を予め決めておく。ただし、各ハッシュ関数は、値域が１〜Ｎの整数であることが必要である。これは任意のハッシュ関数の結果に対して、Ｎによる剰余＋１を計算することで可能である。

例えば、データXに対するブルームフィルタB(X)は、第F_i(X)ビット(i = 1, 2,・・・,K)を「1」とし、その他を「0」としたＮビットのビット列で表現することができる。そして、データの集合S = {X_1, X_2,・・・}に対するブルームフィルタB(S)は、B(S) = B(X_1), B(X_2),・・・のビットＯＲ演算の結果となる。

例えば、ビット数Ｎが「8」の場合に、“赤”というデータに対しては、F_1(“赤”)＝1，F_2(“赤”)＝4であるとすると、ブルームフィルタB(“赤”)は「00001001」となる。また、“青”というデータに対しては、F_1(“青”)＝4，F_2(“青”)＝8であるとすると、ブルームフィルタB(“青”)は「10001000」となる。そして、これらのビットＯＲ演算結果は、B({“赤”,“青”}) = 10001001となる。

任意の集合Sにおいて、データXに対し「B(X) AND B(S) ≠ B(X) ならばXはSに属しない」が成り立つ。ここで「AND」は、ビットＡＮＤ演算を示す。一方、「B(X) AND B(S) = B(X) ならば X ∈ S」は成り立たない。したがって、集合の要約としてブルームフィルタを記録しておけば、あるデータがその集合に含まれるかどうかを、元の集合を参照することなく容易に判定することができる。ただし、「属しない場合（No）」は確実な結果となり、「属する場合（Yes）」は確率的な結果となる。

例えば、B(S) = 10001001の場合に、B(“黄”) = 00100001であれば、B(“黄”) AND B(S) = 00000001 ≠ B(“黄”)となり、確実に“黄”は集合Sに属さないと言える。一方、B(“紫”) = 10000001であれば、B(“紫”) AND B(S) = 10000001 ＝ B(“紫”)となり、“紫”は集合Sに属する（”紫”∈S）可能性があると言える。

そして、数値xの集合Sをその最小値(m)と最大値(M)とで要約する場合も、「x < m 又は M < x ならばxはSに属しない」は成り立つが、「m ≦ x ≦ Mならばx ∈ S」は成り立たないので、ブルームフィルタはそのような要約の非数値版として捉えることができる。

続いて、各データのサイズに関する説明を行う。あるデータ列に関する幅を決める場合に、数値の場合であれば、「最大値−最小値」をデータ全体の幅とすることができる。一方、区分値の場合は、ブルームフィルタ中の「1」の数を全体の幅とすることができる。例えば、「10010001」であれば、幅は「3」となる。また、「正規化幅＝幅／データ全体の幅」であるとする。

そして、各データのサイズを、各列に関する相対幅（正規化幅）の２乗和とすると、例えば数値のみのデータであれば、各列の最小値から最大値で定義される超直方体の対角線の長さの２乗をサイズとみなすことができる。

そこで、図２に示したインデックスＺを例にして、データのサイズの説明を続ける。データ全体の幅は、数値列についてはルートノードＺＡを見ると「900 - 0」になるため「900」、区分値列については最大で「11111111」（図２のレコード群Ｗでは、区分値(A,B)のみ例示）になるため「8」である。

また、中間ノードＺＢの「N20」の「エントリ0」の幅は、数値列が「90」、区分値列が「4」となる。このため、「N20」の「エントリ0」の正規化幅は、数値列が「0.1」、区分値列が「0.5」となり、「N20」の「エントリ0」のサイズは0.26となる。

ところでブルームフィルタには、偽陰性（false negative）はないが、偽陽性（false positive）による誤検出の可能性がある。また、要素を集合に追加することはできるが、削除することはできない。そして、集合に要素が追加されるにつれて、偽陽性の可能性が高くなるという性質がある。

そこで、ブルームフィルタのビット数Ｎとハッシュ関数の数Ｋを適切に設定して適用する必要がある。以下では、図４−図７を参照しながら、適用にあたっての各パラメータの検討結果について説明する。

まず、ビット数がN個のブルームフィルタの偽陽性確率について説明する。1個の値のハッシュ関数1個によるブルームフィルタ表現における、あるビットが0である確率P1は、P1 = （1 - 1 / N）となる。これより、1個の値のハッシュ関数K個によるブルームフィルタ表現における、あるビットが0である確率P2は、P2 = P1^K = (1 - 1 / N)^Kとなる。

さらに、M個の値のハッシュ関数K個によるブルームフィルタ表現における、あるビットが0である確率P3は、P3 = P2^M = (1 - 1 / N)^(K×M)となる。そして、M個の値のハッシュ関数K個によるブルームフィルタ表現における、あるビットが1である確率P4は、P4 = 1 - P3 = 1 - (1 - 1 / N)^(K×M)となる。

この結果、K個のハッシュ関数を用いて、M個の値を含むブルームフィルタが、実際には含んでいない値を含むかもしれない（含む可能性がある）と判定する確率（偽陽性確率）は、ハッシュ関数K個の結果に対応するブルームフィルタのビットが全て1である確率であるため、P4^K = (1 - (1 - 1 / N)^(K×M))^Kとなる。

図４に、ビット数がN = 128の場合に、上述したM個の値とK個の値を様々に変化させてブルームフィルタの偽陽性確率を計算した結果を例示した。すなわち、偽陽性確率の式から、所与のN,Mに対して偽陽性確率を最小化するKの値が計算できる。

続いて、ブルームフィルタを適用するにあたって、決めるべきパラメータについて説明する。まず、ブルームフィルタのビット数Ｎがパラメータになる。ビット数Ｎは、データ列ごとに異なるビット数を設定することも考えられるが、ここでは一定の値とする。

また、ブルームフィルタの計算時に用いるハッシュ関数の数Ｋもパラメータになる。さらに、１ノードのエントリ数の上限（E_max）と下限（E_min）も決めるべきパラメータになる。１ノードのエントリ数の上限（E_max）を超えてデータが追加された場合には、ノード分割が起こることになる。また、１ノードのエントリ数の下限（E_min）は、（E_max / 2）が上限で、それを超えるとノード分割時に違反が生じることになる。

パラメータの最適値を検討するにあたって、想定データ条件として、10億(≒ 2^30)件程度のレコード数からなるレコード群Ｗを想定し、２つの数値列と２つの区分値列が含まれているものとした。図５に、想定データの一部を例示した。ここで、区分値列が取り得る値の数は、区分値列Aについては「16」、区分値列Bついては「256」とする。

まず、ビット数Ｎの検討を行う。多くの場合、数値は8バイト以下で表現される。したがって、数値列のキー情報には、最小値と最大値を記憶させるために、16バイトが必要となる。区分値列についても、同程度のバイト数に収まることが望ましいので、ビット数Ｎを128ビット(= 16バイト)とする。

続いて、エントリ数の上限（E_max）と下限（E_min）について検討する。まずエントリ数の上限（E_max）について検討する。データベースの速度には、ディスクＩ／Ｏ(ハードディスク等の記憶装置とのデータのやり取り)の量が大きく影響し、データベースのブロックサイズ（1回のディスクＩ／Ｏのデータ量）は、通常8KiB(=8192バイト)程度である。したがって、インデックスの1ノードが持つデータ量も、8KiBに収めることが望ましい。想定データ条件では、1エントリあたりのデータ量は、（数値列16バイト×2＋区分値列16バイト×2）= 64バイトであるので、エントリ数の上限（E_max）を、E_max = 8192 / 64 = 128に設定する。

エントリ数の下限（E_min）については、小さく設定することでノード分割における選択肢が増え、結果として検索性能が向上する可能性もあるが、評価が難しい。一方、ディスクＩ／Ｏの観点から言えば、大きい方が１ノードに空のエントリが少なくなってよいので、上限であるE_max / 2 = 64を、エントリ数の下限（E_min）に設定する。

最後に、ハッシュ関数の数Ｋについて検討する。上記した想定データ件数（10億件）の場合、上記したエントリ数の上限（E_max）及び下限（E_min）の条件下では、インデックスＺの木（ツリー）の高さは、5段となる。

そこで、データ追加手順やノード分割手順において、サイズが小さく抑えられるようにブルームフィルタが含む値数が小さくなるような選択が行われることを考慮して、インデックスＺの各段において、各ノードの子孫が含む平均区分値数が、図６の表に示した値になると仮定する。

この図６に示した平均区分値数と図４に示したブルームフィルタの偽陽性確率とを基にすれば、元テーブルに含まれていない区分値を検索した場合にアクセスするノード数の期待値が計算できる。アクセスノード数は、必要なディスクＩ／Ｏの数とほぼ同じ数になるので、偽陽性が検索性能に与える影響を評価する指標として妥当なものであると言える。

そこで、偽陽性に与える影響を各区分値（A,B）ついて計算する。区分値Aについて、K=1の場合にアクセスするノード数は、1段目がルートノードのみの場合は「1」、2段目がルートノードのエントリのうち偽陽性のものとなるので「128×0.0608」、3段目は2段目でアクセスしたノードのエントリのうち偽陽性のものとなるので「128×0.0608×128×0.0309」となる。すなわち、5段目までにアクセスするノード数は、1 + 128×0.0608 + 128×0.0608×128×0.0309 + 128×0.0608×128×0.0309×128×0.0156 + 128×0.0608×128×0.0309×128×0.0156×128×0.0078 ≒ 162となる。

同様にK=2,3,4,5についても計算すると、以下のようになる。
K=2： 1 + 128×0.0139×(1 + 128×0.0037×( 1 + 128×0.0010×(1 + 128×0.0002))) ≒ 3.73
K=3： 1 + 128×0.0051×(1 + 128×0.0007×( 1 + 128×0.0001×(1 + 128×0.0000))) ≒ 1.71
K=4： 1 + 128×0.0024×(1 + 128×0.0002×( 1 + 128×0.0000×(1 + 128×0.0000))) ≒ 1.32
K=5： 1 + 128×0.0014×(1 + 128×0.0001×( 1 + 128×0.0000×(1 + 128×0.0000))) ≒ 1.18
図７（ａ）に、区分値Aの偽陽性確率の算出結果を一覧表にして示した。

一方、区分値Bについて、K=1の場合にアクセスするノード数は、1 + 128×0.3947 + 128×0.3947×128×0.1179 + 128×0.3947×128×0.1179×128×0.0309 + 128×0.3947×128×0.1179×128×0.0309×128×0.0078 ≒6840となる。

そして、K=2,3,4,5について計算した結果は、以下のようになる。
K=2： 1 + 128×0.4014×(1 + 128×0.0493×( 1 + 128×0.0037×(1 + 128×0.0002))) ≒ 534
K=3： 1 + 128×0.4712×(1 + 128×0.0309×( 1 + 128×0.0007×(1 + 128×0.0000))) ≒ 321
K=4： 1 + 128×0.5617×(1 + 128×0.0243×( 1 + 128×0.0002×(1 + 128×0.0000))) ≒ 302
K=5： 1 + 128×0.6545×(1 + 128×0.0220×( 1 + 128×0.0001×(1 + 128×0.0000))) ≒ 323
図７（ｂ）に、区分値Bの偽陽性確率の算出結果を一覧表にして示した。

以上の結果から、上記した想定データ条件では、ハッシュ関数の数Ｋは「K = 4」又は「K = 5」とするのが適切と思われる。

次に、本実施の形態のインデックス管理装置３の作用について説明する。
このように構成された本実施の形態のインデックス管理装置３は、ノード（ＺＡ，ＺＢ，ＺＣ）にポインタとキー情報を格納させる処理を行うエントリ処理手段３２において、キー情報が数値などの数量の場合は範囲検索に設定し、キー情報が区分値などの非順序離散値の場合は指定値検索に設定する処理を行う。そして、指定値検索の設定には、ブルームフィルタが適用される。

このため、２値間の順序も距離も適切に定義不能な非順序離散値（区分値）が含まれる多次元データの検索が高速で行えるようになる。すなわちインデックスＺが、複数列に関する範囲検索に適したインデックス構造となっているので、高速で安定した検索速度を発揮させることができる。

また、記憶容量を抑えながらも、区分値（非順序離散値）を扱うことができる。要するに、確率的データ構造をとるブルームフィルタを適用することで、個別値の数に合わせて膨大な記憶容量を予め確保しておく必要がなくなり、少ない記憶容量で装置を構築することが可能になる。また、個別値が事前に把握できない場合であっても、対応することができる。

さらに、このような単一のインデックスＺによって、数量に関する範囲検索と非順序離散値の指定値検索とが同等に扱えるのであれば、インデックスＺの設計作業を省力化することができる。

また、ブルームフィルタ設定部３２１によって、検索方針に適したビット数Ｎとハッシュ関数の数Ｋを設定することで、偽陽性確率を小さくして、ブルームフィルタを効果的に機能させることができる。

以下、前記実施の形態で説明したインデックス管理装置３の更新処理手段３３の詳細について、図８−図１５を参照しながら説明する。なお、前記実施の形態で説明した内容と同一乃至均等な部分の説明については、同一用語又は同一符号を付して説明する。

図８は、新たに多次元データが追加レコードＷ１としてレコード群Ｗに追加された場合に、インデックスが更新されることの概要を説明するための図である。ここで、図２を更新前のインデックスＺとし、図８を更新後のインデックスＮＺとする。

すなわち、レコード群Ｗに追加レコードＷ１（行ＩＤ：R08）が追加されると、その追加レコードＷ１の検索を可能にするために、インデックスＺがインデックスＮＺに更新される。図８に示したインデックスＮＺは、図２に示したインデックスＺと比べて、ルートノードＺＡ、中間ノードＺＢ、リーフノードＺＣの各階層のノードのエントリが更新されている。

そこで、図９を参照しながら、更新処理の全体の流れについて説明する。まず、ステップＳ１では、更新処理手段３３を起動させる。続いて、ステップＳ２では、検討ノードＸをルートノードとするとともに、新規に追加される追加レコードＷ１の読み込みが行われる。

ステップＳ３から、追加処理が開始される。ここで、エントリに格納されるポインタやキー情報をデータＤとする。そしてステップＳ４では、検討ノードＸがリーフノードＺＣであるか否かを判定する。

検討ノードＸがリーフノードＺＣ以外の中間ノードＺＢやルートノードＺＡの場合は、データＤを子孫の階層（下位のノード）に加えた場合に、サイズの増加量が最小となるもの（データＥ）を探索する（ステップＳ５）。

サイズが最小になるデータＥの探索について、図１０の具体例を使って説明する。ここで、追加レコードＷ１は、行ＩＤが「R05」、数値列が「50」、区分値列が「A」であったとする。一方、数値列に関するデータ全体の幅は、「90 - 10 = 80」となる。また、区分値列に関するデータ全体の幅は、集合{A,B,C}のブルームフィルタ表現中の「1」の数になる。よって、この集合のビットＯＲ演算をすると、(00010001 OR 10010000 OR 00011000) = 10011001となって、区分値列のデータ全体の幅は「4」となる。

そこで、ルートノードＺＡのノードＩＤ「N10」をチェックすると、「エントリ0」を選んだ場合のサイズ増加量は(40/80)^2 - (0/80)^2 ≒ 0.25となり、「エントリ1」を選んだ場合のサイズ増加量は(4/4)^2 - (3/4)^2 ≒ 0.44となる。このため、サイズの増加量が少ない「エントリ0」が選択される。

続いて中間ノードＺＢのノードＩＤ「N20」をチェックすると、エントリは１つしかないので、唯一である「エントリ0」が選択される。そして、「エントリ0」のポインタに従って、リーフノードＺＣのノードＩＤ「N30」が選択される。要するに、子孫の階層にデータＤを加えた場合にサイズの増加量が最小となる探索結果は、リーフノードＺＣのノードＩＤ「N30」の「E1」から遡って、中間ノードＺＢのノードＩＤ「N20」の「エントリ0」→ルートノードＺＡのノードＩＤ「N10」の「エントリ0」となる。

そこで、リーフノードＺＣのノードＩＤ「N30」の空エントリであった「E1」に、追加レコードＷ１のポインタ及びキー情報であるデータＤを書き込むとともに、それより上位のエントリにデータＥが書き込まれる。なお、データの書き込み作業には、エントリの修正作業も含まれる。そして、ステップＳ６では、選んだエントリが指すノードに検討ノードＸを変更する処理が行われ、ステップＳ４に戻る。

一方、ステップＳ４において、検討ノードＸがリーフノードＺＣであった場合は、ステップＳ７に進んで、データＤを疑似エントリのデータＥａに変換するとともに分割処理に移行する。分割処理については、図１１の分割処理の流れを示したフローチャートを使って説明する。

まずステップＳ１１では、リーフノードＺＣである検討ノードＸのエントリ数が、上限に達しているか否かを判定する。そして、空エントリがあれば、ステップＳ１２に移行して、空エントリにデータＥａを書き込む。例えば図１２において、リーフノードＺＣのノードＩＤ「N30」の「E1」が空エントリであったならば、そこにデータＥａ（例えばR05,50,A）が書き込まれて、分割処理が終了する。

これに対して、検討ノードＸのエントリ数が上限に達している場合は、新しくノードＹを作成する（ステップＳ１３）。例えば図１２において、リーフノードＺＣとなるノードＹとしてノードＩＤ「N33」が作成される。ここで、ノードＸは、ノードＩＤ「N30」であるとする。

続くステップＳ１４では、ノードＸ（N30）のエントリ（E0,E1）とデータＥａとを、要素数がエントリ数の下限（E_min）以上となる２つのグループに分ける。グループに分ける際は、２グループのサイズの和が最小になるような分け方を選択する（ステップＳ１５）。

例えば図１２に示したリーフノードＺＣのノードＩＤ「N30」は、既にエントリ数が上限に達しているので分割することになる。この際、「R00」と「R05」と「R06」とをどのように分けるかによって、サイズ和が異なることになる。
（１）R00,R05とR06とに分けた場合のサイズ和
((40/90)^2 + (2/4)^2) + ((0/90)^2 + (2/4)^2) ≒ 0.70
（２）R00とR05,R06とに分けた場合のサイズ和
((0/90)^2 + (2/4)^2) + ((30/90)^2 + (3/4)^2) ≒ 0.92
（３）R00,R06とR05とに分けた場合のサイズ和
((10/90)^2 + (3/4)^2) + ((0/90)^2 + (2/4)^2) ≒ 0.82
以上の結果から、上記（１）の分け方によるサイズ和が最小になるので、第１グループ（R00,R05）と第２グループ（R06）とに分ける。

そしてステップＳ１６では、２つに分けたうちの第１グループのデータをノードＸのエントリに書き込み、第２グループのデータをノードＹのエントリに書き込む。例えば図１２において、第１グループのデータ（R00,R05）は、ノードＩＤ「N30」のエントリ（E0,E1）にそれぞれ書き込まれ、第２グループのデータ（R06）は、分割されたノードＩＤ「N33」のエントリ（E0）に書き込まれる。

さらに、ステップＳ１７では、ノードＸがルートノードＺＡか否かを判定して、ルートノードＺＡでない場合は、ステップＳ１８に進んでノードＸの親ノードのキー情報の更新処理に移行する。またステップＳ１９では、データＥａをノードＹを指す疑似エントリに変更する。そして、ステップＳ２０では検討ノードＸをその親ノードに変更する処理が行われ、ステップＳ１１に戻ることになる。

ここで、図１２に分割処理の一例を示した。この例では、ノードＹとなるノードＩＤ「N33」の親ノード（上位のノード）である中間ノードＺＢのノードＩＤ「N20」の「エントリ1」及びルートノードＺＡのノードＩＤ「N10」の「エントリ0」を更新する。

これに対して、親ノードのエントリ数が上限に達している場合は、再帰的に親ノードも分割することになるので、親ノードにノードＹを指す疑似エントリが一時的に作成される。例えば図１３に例示したケースでは、分割により作成されたリーフノードＺＣのノードＩＤ「N33」の親ノードである中間ノードＺＢのノードＩＤ「N21」のエントリ数が上限に達していたため、「エントリ1」の隣に疑似エントリを作成している。そして、この「疑似」エントリに、キー情報などのデータが一時的に書き込まれる。

図１４は、ルートノードＺＡに疑似エントリを作成した例を説明する図である。この例では、分割により作成された中間ノードＺＢのノードＩＤ「N22」の親ノードであるルートノードＺＡのノードＩＤ「N10」のエントリ数が上限に達していたため、「エントリ1」の隣に疑似エントリが作成されて、キー情報などのデータが書き込まれている。

一方、ステップＳ１７においてノードＸがルートノードＺＡであると判定された場合は、ステップＳ３０に移行して、ノードＸ，Ｙを指す２つのエントリを持つ新しいルートノード（新ルートノードＺ０）を上層に作成する。この場合は、インデックスＺの段数が１段、増えることになる。

図１５は、ルートノードＺＡの上位に新ルートノードＺ０を作成した例を説明する図である。この例では、分割により作成されたルートノードＺＡのノードＩＤ「N11」及びノードＩＤ「N10」の親ノードとして新ルートノードＺ０となるノードＩＤ「N00」を作成して、ルートノードＺＡのノードＩＤ「N10」とノードＩＤ「N11」をそれぞれ指す「エントリ0」と「エントリ1」を設け、ポインタとキー情報をデータとして書き込んでいる。

このように構成されたインデックス管理装置３の更新処理手段３３によって、追加レコードＷ１があった場合でも簡単にインデックスＺを更新することが可能になり、高速検索を維持していくことができる。
なお、他の構成及び作用効果については、前記実施の形態と略同様であるので説明を省略する。

以上、図面を参照して、本発明の実施の形態を詳述してきたが、具体的な構成は、この実施の形態及び実施例に限らず、本発明の要旨を逸脱しない程度の設計的変更は、本発明に含まれる。

例えば前記実施の形態及び実施例１では、説明を簡単にするために少ない次元で多次元データを説明したが、これに限定されるものではなく、多数の数量及び非順序離散値のキー情報が含まれる多次元データに対しても、本発明を適用することができる。

３：インデックス管理装置
３１：インデックス生成手段
３２：エントリ処理手段
３２１：ブルームフィルタ設定部
３３：更新処理手段
Ｚ：インデックス
Ｚ０：新ルートノード
ＺＡ：ルートノード
ＺＢ：中間ノード
ＺＣ：リーフノード

Claims

２値間の順序と距離が適切に定義可能な数量と、２値間の順序も距離も適切に定義不能な非順序離散値とが含まれる多次元データが格納されたデータベースのインデックス管理装置であって、
複数のノードからなる階層構造のインデックスを生成するインデックス生成手段と、
前記ノードにポインタとキー情報を格納させる処理を行うエントリ処理手段とを備え、
前記エントリ処理手段は、前記キー情報が前記数量の場合は範囲検索に設定し、前記キー情報が前記非順序離散値の場合は指定値検索に設定する処理を行うとともに、前記指定値検索の設定にはブルームフィルタが適用されることを特徴とするインデックス管理装置。
前記ブルームフィルタを適用するために、ビット数Ｎとハッシュ関数の数Ｋが設定されることを特徴とする請求項１に記載のインデックス管理装置。
新たに前記多次元データが追加された場合に、サイズの増加量が最小になるようにエントリ又はノードを追加する更新処理手段を備えたことを特徴とする請求項１又は２に記載のインデックス管理装置。
前記更新処理手段では、新たに前記多次元データが追加された場合で、かつ前記ノードのエントリ数が上限を超過する場合に、その上層に新たにノード又はエントリを生成させることを特徴とする請求項３に記載のインデックス管理装置。