JP6418658B2

JP6418658B2 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP6418658B2
Application number: JP2016548859A
Authority: JP
Inventors: 穣岡嶋; 丸山　晃一; 晃一丸山
Original assignee: NEC Solutions Innovators Ltd
Current assignee: NEC Solutions Innovators Ltd
Priority date: 2014-09-19
Filing date: 2015-09-10
Publication date: 2018-11-07
Anticipated expiration: 2035-09-10
Also published as: US10795920B2; CN107077481B; US20170293636A1; EP3196780A4; EP3196780A1; WO2016043121A1; JPWO2016043121A1; CN107077481A

Description

本発明は、情報処理装置、情報処理方法、及びこれらを実現するためのプログラムに関し、特には、多次元データ上での効率的な検索を行うための、情報処理装置、情報処理方法、及びプログラムに関する。

多次元空間上に点が大量に存在するときに、指定した矩形の範囲に包含される点を見つけることは、矩形範囲検索（orthogonal range search）と呼ばれている。たとえば、次元数をdとおくと、d次元の多次元空間上の点は、d個の座標の組み合わせによりp=(p₁, p₂, …, p_d)という形で表現できる。このとき、各次元kの範囲を[l_qk, u_qk]で表すとして、Q=[l_q1, u_q1]×[l_q2, u_q2]×…×[l_qd, u_qd]というd次元の矩形の範囲を考える。この矩形の範囲をクエリ領域と呼ぶこととすると、矩形範囲検索の目標は、このクエリ領域Qに包含される点p、すなわち∀k∈{1,…,d}: l_qk ≦ p_k≦ u_qkを満たす点pを検索することである。

そして、このような矩形範囲検索は、地理情報を扱うアプリケーション、更には多次元データ分析において、重要な役目を果たす。以下に具体例を示す。

たとえば、地図上でのレストランの位置は（緯度, 経度）という２つの値の組み合わせである２次元データで表すことができる。このとき、矩形範囲検索を用いると、経度が138度から139度、緯度が35度から36度の範囲に収まるような全てのレストランを検索できる。

また、たとえば、ある会社の社員に関する統計データを（年齢, 身長, 年収）という３次元データで表すことができる。このとき、矩形範囲検索を用いると、年齢が30歳から40歳で、身長が170cmから180cm、年収が500万円から600万円の範囲に収まる全ての社員を検索できる。

更に、矩形範囲検索には、検索結果として何を返すかによって様々なバリエーションが存在する。バリエーションの一例として、レポート・クエリ（report query）と集計クエリ（aggregate query）とが挙げられる。

まず、レポート・クエリは、クエリ領域に包含される全ての点のリストを返す矩形範囲検索である。レポート・クエリは、クエリ領域に包含される点の数をヒット数と呼ぶことにすると、ヒット数に比例する大きさのリストを返してしまうため、ヒット数が大きくなるような大規模データの分析には向かない。たとえば、数千万個の点が包含されるとき、数千万個の点を全て出力することになってしまう。

そこで、大規模データの分析においては、クエリ領域に包含される全ての点のリストを返すよりも、それらの点について集計した結果を返す集計クエリが重要となる。様々な集計クエリの中でも最も代表的なクエリはカウント・クエリ（count query）である。

このカウント・クエリは、クエリ領域に包含される点の数を返す矩形範囲検索である。この他にも、点にそれぞれ重みが付与されている場合に、クエリ領域に包含される点の重みの合計を返す合計（sum）クエリ、平均値を返す平均（average）クエリ、及び最大値を返す最大値（max）クエリなどが存在する。

さて、矩形範囲検索に使うことができる代表的なデータ構造として、kd木が知られている（例えば、非特許文献１参照。）。kd木のサイズは、O(n)、つまり線形サイズで表現できる。また、kd木における矩形範囲検索の最悪時間計算量は、O(n^(d-1)/d)であることが知られている。なお、nはデータ数、dは次元数である。kd木が達成している最悪時間計算量O(n^(d-1)/d)は、これまで知られている線形サイズのデータ構造の時間計算量の中では、最良のものである。

また、サイズがO(n)を超えてしまうような超線形サイズのデータ構造に、矩形範囲探索を適用した場合は、計算時間（計算量）を改善することができる。このような超線形サイズのデータ構造としては、たとえば、range treeと呼ばれるデータ構造が挙げられる。

さらに、矩形範囲探索は、ウェーブレット木（wavelet tree）という２次元のデータ構造でも実現できる（例えば、非特許文献１参照）。この場合、２次元空間において探索が行なわれ、時間計算量は、O(log n)時間となる。なお、上述したkd木およびウェーブレット木を用いた矩形範囲検索については、非特許文献１に詳しく記載されている。

Meng He, "Succinct and Implicit Data Structures for Computational Geometry", Lecture Notes in Computer Science Volume 8066 "Space-Efficient Data Structures, Streams, and Algorithms", pp 216-235, 2013, Springer Berlin Heidelberg, ISBN 978-3-642-40272-2

このように、矩形範囲検索は種々のデータ構造で実現することができるが、実際には、以下に示す問題がある。まず、矩形範囲探索をkd木で実現した場合においては、達成される最悪時間計算量O(n^(d-1)/d)が、データ数n及び次元数dのいずれか又は両方が大きくなる程、大きくなってしまうという問題がある。

また、矩形範囲検索を超線形サイズのデータ構造で実現した場合は、kd木で実現した場合に比べ、計算時間の改善は図られるが、超線形サイズのデータ構造のサイズが大きすぎるため、実際のアプリケーションに用いることが難しく、実用的でないという問題がある。

更に、矩形範囲検索をウェーブレット木で実現した場合は、ウェーブレット木が２次元のデータにしか用いることができないため、３次元以上の任意の次元のデータ構造に対する検索ができないという問題がある。

本発明の目的の一例は、上記問題を解消し、任意の次元について、線形サイズで、kd木よりも高速な矩形範囲検索を実現し得る、情報処理装置、情報処理方法、及びプログラムを提供することにある。

上記目的を達成するため、本発明の一側面における情報処理装置は、多次元空間上の点の集合を表現するデータ構造を処理対象とする情報処理装置であって、
前記点の特徴値を表すビット表現から得られる接頭辞を特徴値接頭辞とし、前記点の特定の次元での座標を表すビット表現から得られる接頭辞を座標接頭辞として、
クエリ領域として、特定の多次元の領域が指定された場合に、
前記データ構造を構築している多次元の領域において、前記特徴値接頭辞で始まる領域と次元毎の前記座標接頭辞で始まる領域との共通部分として表現され、且つ、前記クエリ領域に含まれる、領域を特定し、
特定した領域に対応するデータ構造上の区間である選定区間を出力する、検索部と、
前記選定区間を用いて前記クエリ領域に含まれる点の集合に関する情報を計算する、集計部と、
を備えていることを特徴とする。

また、上記目的を達成するため、本発明の一側面における情報処理方法は、多次元空間上の点の集合を表現するデータ構造を処理対象とする情報処理方法であって、
（ａ）前記点の特徴値を表すビット表現から得られる接頭辞を特徴値接頭辞とし、前記点の特定の次元での座標を表すビット表現から得られる接頭辞を座標接頭辞として、
クエリ領域として、特定の多次元の領域が指定された場合に、
前記データ構造を構築している多次元の領域において、前記特徴値接頭辞で始まる領域と次元毎の前記座標接頭辞で始まる領域との共通部分として表現され、且つ、前記クエリ領域に含まれる、領域を特定する、ステップと、
（ｂ）前記（ａ）のステップで特定した領域に対応するデータ構造上の区間である選定区間を出力する、ステップと、
（ｃ）前記選定区間を用いて前記クエリ領域に含まれる点の集合に関する情報を計算する、ステップと、
を有することを特徴とする。

更に、上記目的を達成するため、本発明の一側面におけるプログラムは、コンピュータによって、多次元空間上の点の集合を表現するデータ構造を処理対象として情報処理を行なうためのプログラムであって、
前記コンピュータに、
（ａ）前記点の特徴値を表すビット表現から得られる接頭辞を特徴値接頭辞とし、前記点の特定の次元での座標を表すビット表現から得られる接頭辞を座標接頭辞として、
クエリ領域として、特定の多次元の領域が指定された場合に、
前記データ構造を構築している多次元の領域において、前記特徴値接頭辞で始まる領域と次元毎の前記座標接頭辞で始まる領域との共通部分として表現され、且つ、前記クエリ領域に含まれる、領域を特定する、ステップと、
（ｂ）前記（ａ）のステップで特定した領域に対応するデータ構造上の区間である選定区間を出力する、ステップと、
（ｃ）前記選定区間を用いて前記クエリ領域に含まれる点の集合に関する情報を計算する、ステップと、
を実行させる、ことを特徴とする。

以上のように、本発明によれば、任意の次元について、線形サイズで、kd木よりも高速な矩形範囲検索を実現することができる。

図１は、２次元空間における座標とZ値との一例を示す図である。図２は、本発明の実施の形態における情報処理装置の概略構成を示すブロック図である。図３は、本発明の実施の形態における情報処理装置の具体構成を示すブロック図である。図４は、本発明の実施の形態で用いられるZ値列及び座標列の一例を示す図である。図５は、本発明の実施の形態で用いられるウェーブレット木の一例を示す図であり、図５（ａ）及び（ｂ）はそれぞれ次元が異なるウェーブレット木を示している。図６は、本発明の実施の形態における情報処理装置の動作を示すフロー図である。図７は、再帰的に矩形範囲検索する関数range_search(V,Q)の動作を示すフロー図である。図８は、Z値探索ノードVの左右の子ノードを計算する関数get_children(V)の動作を示すフロー図である。図９は、図７に示す関数range_search_1d(V,Q)の動作を示す図である。図１０は、図９に示された関数range_search_1d_rec(π_r, v_r, s_r, e_r, l_qr, u_qr)の動作を示す図である。図１１は、２次元の場合の探索ノード数と包含次元数との変化を示す図である。図１２は、本発明と従来手法との計算量の比較を示す図である。図１３は、本発明の実施の形態における情報処理装置を実現するコンピュータの一例を示すブロック図である。

（発明の原理）
最初に、本発明の基本的な原理について、一般的なkd木を例に挙げて以下に説明する。

まず、kd木は、多次元データを扱うための二分探索木である。kd木の特徴は、空間全体を、次元1から次元dまでの各次元で順番に２分割していくことである。kd木では、木構造が空間の再帰的な分割を表しており、二分探索木の各ノードが部分領域を担当している。各ノードvが担当する部分領域を、本明細書では、ノードの「カバー領域」と呼ぶことにする。

さらに、kd木は、各ノードに、そのノードのカバー領域に含まれる点の統計量を保持しておくことができる。たとえば、カウント・クエリを高速に計算したい場合は、各ノードのカバー領域に含まれる点の数が、そのノードに保存される。

kd木における矩形範囲検索は以下のように実現される。まず、ルートノードを出発点として、子ノードの担当するカバー領域がクエリ領域と重なるかどうかが判定され、重なる場合にだけ、その子ノードに移動することが繰り返される。子ノードへの移動は、特定の次元でカバー領域を二分割することに相当する。そして、ノードの担当するカバー領域が、クエリ領域に完全に包含された場合は、そのノードに保存されている、カバー領域の点の統計量が、出力結果に加えられる。

kd木の探索では、以上のように、与えられたクエリ領域を、カバー領域がクエリ領域に含まれるように、複数のノードに分割して、各ノードに保存されている、各カバー領域の点の統計量を合算することによって、探索結果が得られている。そして、kd木の最悪時間計算量O(n^(d-1)/d)は、この空間分割を行うのに必要なノードの数を表している。このようなノードを基準とした空間分割を行う手法では、最悪時間計算量O(n^(d-1)/d)より良い時間計算量を達成することは不可能である。

これに対して、本発明は、このようなノードを基準とした分割ではなく、多次元空間にある点の各座標を元にして計算される特徴値の接頭辞を基準とした分割が実行される。より具体的には、まず、各点についてZ値と呼ばれる特徴値が定義され、そして、クエリ領域に対応する、その特徴値が特定の接頭辞で始まるような領域が見つけ出される。次に、見つけ出された領域において、クエリ領域に含まれ、且つ、特定の次元での座標が特定の接頭辞で始まる部分領域が探索される。本発明では、このような部分領域は、木構造のノードではなく、木構造のノードに対応する座標部分列上の区間として得られる。

このように、本発明は、クエリ領域を、ノードを基準として分割するのではない。本発明では、点の特徴値の接頭辞で規定されるカバー領域と点の各次元での座標の接頭辞で規定されるカバー領域との共通部分の集合で、クエリ領域が分割されることになる。これにより、本発明によれば、kd木を用いる場合と異なり、クエリ領域の分割に要する計算量が削減され、kd木より高速な矩形範囲探索が実現される。

（本明細書で用いられる概念）
ここで、本明細書で用いられる種々の概念について以下に説明する。本明細書では、全ての点の座標p_iが[0,n-1]の整数で表されるものとする。さらに、これらの整数は、二進表現で長さl=ceil(log n)のビットで表されるとする。なお、ceil()は天井関数を表す。logは底を２とする対数関数を表す。

たとえば、n=8のとき、全ての座標は[0,7]の整数で表され、二進表現では長さl=ceil(log n) =3ビットで表される。すなわち、0=”000”, 1=”001”, 2=”010”, 3=”011”, 4=”100”, 5=”101”, 6=”110”, 7=”111”で表すことができる。

ただし、本発明は、座標が整数で表されていない一般の多次元空間に対しても適用できる。たとえば、順位空間(rank space)への変換という手法を用いれば、任意の実数で表されるn個の点を、[0,n-1]の範囲の整数の座標に変換でき、その座標を用いることで、矩形範囲検索を実現できる。従って、この順位空間への変換を用いることにより、本発明を、実数で表される一般の多次元空間に適用することが可能である。なお、順位空間への変換については、たとえば上述の非特許文献１に記載されている。

また、本発明は、値を１と０の二進表現で表現できていれば、順位空間への変換が行なわれていなくても適用できる。すなわち、データ数がnであるとき、座標の値の範囲が[0,n-1]の範囲から外れているデータであっても、本発明は適用できる。本明細書では、計算量の理論的な分析を行うために[0,n-1]の範囲に限定して説明しているだけであり、実用上は[0,n-1]の範囲に限らなくても問題なく本発明を適用できる。

また、本明細書では、「接頭辞」という概念を用いる。接頭辞とは、整数を二進表現で表したときに、その上位ビットだけを取り出したものである。本明細書では、整数の上位hビットの接頭辞を、h個の1と0、および(l-h)個の*の組み合わせで表記する。*はワイルドカードであり、1および0のどちらでもよいことを表している。ある整数が特定の接頭辞から始まることは、その整数が、特定の連続範囲に含まれることに対応する。

たとえば、整数が長さl=3のビット列であらわされているとする。このとき長さ1の接頭辞”0**”は、”000”, “001”, ”010”, ”011”という４つの値に対応する。すなわち、この接頭辞は、整数上の値の範囲である[“000”,”011”]=[0,3]に対応する。同様に、長さ2の接頭辞”01*”は、”010”と”011”という２つの値に対応しており、値の範囲で表すと[“010”,”011”]=[2,3]に対応する。一方、長さl(=3)の接頭辞は、ひとつの整数だけに対応する。

また、本明細書では、列(sequence)に関して以下の表記が用いられる。たとえば、長さnの列Aが存在するとき、Aの最初の要素をA[0]、Aの最後の要素をA[n-1]とする。さらに、A上の位置iの要素A[i]から位置jの要素A[j]までの区間をA[i,j]で表し、終端jを含まない場合の区間をA[i,j)で表すものとする。

次に、z-orderと呼ばれる空間充填曲線について説明する。空間充填曲線とは、d次元の空間上の全ての点を通るような曲線のことであり、これを用いることでd次元上での位置を１次元上での位置に変換することができる。たとえば、z-orderを用いることにより、d個の座標で特定される点p(p₁, p₂, …, p_d)を、Z値と呼ばれる一次元の値に変換することができる。

ここで、Z値の定義を示す。p_iが長さlのビットで表されるとき、Z値は、点pの各次元での座標p_iを表すビットを交互に挟み込んだ長さd*lのビット列で表される。言い換えると、Z値は、多次元上の点の各座標で特定される特徴値である。また、まず初めに、座標p₁, p₂, …, p_dそれぞれの上位1ビット目を集めて連結する。次に、座標p₁, p₂, …, p_d それぞれの各次元の上位2ビット目を集めて連結する。これをl回繰り返した後、得られたビット列をこの順番でさらに連結する。こうして最終的に連結されたビット列がZ値となる。

ここで、図１を用いて、Z値の具体例について説明する。図１は、２次元空間における座標とZ値との一例を示す図である。図１において、縦軸は次元１を表し、横軸は次元２を表している。また、各マス目に記入されているビット列（２進数）が、各次元の座標から求められたZ値を示す。

具体的には、図１の例では、d(=2)次元上の点pが、ひとつあたりl=3ビットで表されている。このとき、点pに対応するZ値は、d*l=2*3=6ビットで表される。例えば、p=(p₁,p₂)=(”000”,”111”)=(0,7)のとき、この点pに対応するZ値は、z=“010101”である。

続いて、Z値の接頭辞に関して成り立つ重要な性質を説明する。以下では、Z値を表すビット表現から得られる接頭辞を「Z値接頭辞」と呼び、各次元の座標を表すビット表現から得られる接頭辞を「座標接頭辞」と呼ぶこととする。

Z値接頭辞π_zは、各次元の座標からZ値への変換を逆に適用することで、各次元に対応するd個の座標接頭辞の集合{π_k}(1≦k≦d)に分解できる。すなわち、1≦k≦dとなる次元kについて、最初のkビット目、(k+d)ビット目、(k+2d)ビット目、のようにd個のあいだをおいてビットを集めて連結することで、次元kの座標接頭辞π_kを得られる。これを、次元kにおいてπ_zに対応する座標接頭辞と呼ぶことにする。

次元kの座標接頭辞π_kに関し、π_kで始まる次元kの座標の区間を [l_πk,u_πk] で表すものとする。このとき、π_kのカバー領域C(π_k)を、次元kについてのみ区間[l_πk,u_πk] に制限され、他の次元については制限がない領域として定義する。つまりC(π_k)= [0,n-1] × … × [0,n-1] × [l_πk,u_πk] ×[0,n-1] × … × [0,n-1]である。

また、Z値接頭辞π_zのカバー領域C(π_z)を、C(π_z) = C(π₁) ∩ C(π₂) ∩ ... ∩ C(π_d) = [l_π1,u_π1] × [l_π2,u_π2] × … × [l_πd,u_πd] と定義する。そして、点pがC(π_z)に含まれるとき、点pのZ値は必ずπ_zで始まることが保証される。何故なら、各座標p_kが座標接頭辞π_kで始まるからである。

例えば、長さ3のZ値接頭辞π_z ="011***"を考える。この接頭辞についてZ値から各次元の座標に逆変換を行うと、次元1での長さ2の座標接頭辞π₁ ="01*"と、次元2での長さ1の座標接頭辞π₂ ="1**"とに分解される。

また、このとき、 [l_π1,u_π1]=[”010”,”011”]=[2,3]、および[l_π2,u_π2]=[”100”,”111”]=[4,7]であり、C(π_z) = [2,3] × [4,7] である。この関係は、図１に示されている。図１に示すように、次元1における領域C(π₁)と、次元2における領域C(π₂)との交わる領域C(π₁) ∩ C(π₂)が、C(π_z)となっていることが分かる。C(π_z)に含まれるZ値は全てπ_zで始まっている。

最後に、空間分割の終了条件を説明するために必要な「包含次元数」の定義について説明する。次元kについて、以下の包含条件が成り立つとき、「カバー領域がクエリ領域に次元kで包含されている」と呼ぶ。
包含条件：l_qk ≦ l_πk かつ u_πk ≦ u_qk

さらに、d個の次元のうちh個の次元において包含されているとき、「カバー領域の包含次元数はhである」、と定義する。また、包含次元数がdであるとき、すなわち、全ての次元が包含されているとき、カバー領域は完全に包含されていると呼ぶ。

（実施の形態）
続いて、本発明の実施の形態における、情報処理装置、情報処理方法、及びプログラムについて、図１〜図１３を参照しながら説明する。

［装置構成］
最初に、本実施の形態における情報処理装置の概略構成について図２を用いて説明する。図２は、本発明の実施の形態における情報処理装置の概略構成を示すブロック図である。図２に示す本実施の形態における情報処理装置１００は、多次元空間上の点の集合を表現するデータ構造を処理対象とする装置である。そして、図２に示すように、情報処理装置１００は、検索部１０と、集計部２０とを備えている。

このうち、検索部１０は、クエリ領域として、特定の多次元の領域が指定された場合に機能する。検索部１０は、この場合に、データ構造を構築している多次元の領域において、特徴値接頭辞で始まる領域と次元毎の座標接頭辞で始まる領域との共通部分として表現され、且つ、クエリ領域に含まれる、領域を特定する。

なお、「特徴値接頭辞」は、上述したZ値接頭辞と同義であり、点の特徴値（Z値）を表すビット表現から得られる接頭辞である。「座標接頭辞」は、上述したように、点の特定の次元での座標を表すビット表現から得られる接頭辞である。

続いて、検索部１０は、特定した領域に対応するデータ構造上の区間である選定区間を出力する。集計部２０は、この選定区間を用いて、クエリ領域に含まれる点の集合に関する情報を計算する。

このように、情報処理装置１００では、入力されたクエリ領域は、特徴値接頭辞で規定される領域と各次元の座標接頭辞で規定される領域との共通部分によって分割されることになるので、kd木を探索する場合に比べて、クエリ領域の分割に要する計算量が削減される。このため、情報処理装置１００によれば、任意の次元dについて、線形サイズで、kd木よりも高速な矩形範囲検索を実現することができる。

次に、図３を用いて、本実施の形態における情報処理装置１００の構成について更に具体的に説明する。図３は、本発明の実施の形態における情報処理装置の具体構成を示すブロック図である。

図３に示すように、本実施の形態では、情報処理装置１００は、上述した検索部１０及び集計部２０に加えて、入力受付部３０と、出力部４０と、記憶部５０と、を備えている。このうち、入力受付部３０は、外部からのクエリ領域の入力を受け付け、これを検索部１０に出力する。

記憶部５０は、多次元空間上の点の集合を表現するデータ構造５１を記憶している。データ構造５１は、本実施の形態では、その次元数をdとすると、d個のウェーブレット木で構築されている。また、各ウェーブレット木は、ひとつの次元に対応している。

ここで、このd個のウェーブレット木の構造について説明する。まず、多次元空間上のn個の点のZ値（図１参照）を、昇順にソートして並べた列（特徴値列）をZとする。さらに、それぞれのZ値に対応する点pを、Z値の昇順と同じ順番で並べることで、点pの列Pが構築される。そして、列Pを構築する各点の次元kの座標を取り出し、取り出した各座標を、先の順番と同じ順番で並べ、得られた列をP_kとする。また、この列P_kを座標列(coordinate sequence)と呼ぶこととする。なお、列Z、列P、及び列P_kは、いずれも長さnの列である。

また、0≦i＜nとなるiについて、Z値Z[i]と座標P_k[i]とは、同一の点P[i]に対応している。さらに、1≦k≦dの範囲で、次元k毎に、座標列P_kに関してウェーブレット木が生成される。生成されるウェーブレット木はd個であり、このd個のウェーブレット木の集合をW={w_k}とする。また、このd個のウェーブレット木の集合Wが、データ構造５１を構築している。

ここで、上述した図１に加え、図４及び図５を用いて、d個のウェーブレット木の具体例について説明する。また、以下の説明では、次元数は２次元であるとする。図４は、本発明の実施の形態で用いられるZ値列及び座標列の一例を示す図である。図５は、本発明の実施の形態で用いられるウェーブレット木の一例を示す図であり、図５（ａ）及び（ｂ）はそれぞれ次元が異なるウェーブレット木を示している。

まず、図１に示すように、各マス目に存在する８個の丸い円が、２次元上の点pを表すものとする。この例では、n=8であり、それぞれの点は[0,7]×[0,7]=64個のグリッド上の点として表現される。たとえば、(5,2)=(”101”,”010”)の点のZ値は、”100110”=38である。このとき、円の中に書かれている番号が、対応するZ値が昇順になるように並べた場合の順位を示している。

図４には、３つのテーブルが示されており、その内、上段のテーブルには、Z値の列Zが示されている。また、図４において、Z値の列Zは、図１に示す８個の点に対応している。更に、中段及び下段のテーブルには、Z値の列Zに対応する座標列P_iが示されている。なお、本例では、次元数は２次元であるので、中段のテーブルに座標列P₁が示され、下段のテーブルに座標列P₂が示されている。

また、各テーブルにおいて、１行目は列の添字iを示し、２行目は添字に対応する整数を示している。そして、３行目以降には、各整数のビット表現が示されている。たとえば、図１において(5,2)の位置にある点のZ値38は、添字4の位置にある。よって、Z[4]=38 、P₁[4]=5、P₂[4]=2となる。

そして、次元iの座標列P_iに対応するウェーブレット木は、以下のように、二分木として定義される。なお、ウェーブレット木は、深さlの二分木である。この木構造において、親から左の子に向かうエッジはビット0に対応し、親から右の子に向かうエッジはビット1に対応する。

まず、ウェーブレット木のルートノードは、深さ0にあり、長さ0ビットの座標接頭辞に対応しているものとする。さらにウェーブレット木の深さhにあるノードvは、ルートからそのノードへのパスに出現する h個のビットを連結して得られるhビットの座標接頭辞πに対応しているものとする。深さlにあるノードは全て葉ノードである。葉ノードは、ルートからそのノードへのパスに出現するl個のビットを連結して得られるlビットで表される１つの整数に対応する。

さらに、深さhにおいて座標接頭辞πに対応するノードvは、座標列P_iの部分列P_i (π)に対応する。ただし、P_i (π)は、座標列P_iから座標接頭辞πで始まる全ての整数を、その並び順と同じ順序を保ったまま抜き出した部分列とする。本明細書では、元となるP_iを「座標列」、座標接頭辞πに注目して抜き出した部分列P_i(π)を、「座標部分列(coordinate subsequence)」と呼び分けることとする。

さらに、このノードvは、P_i (π)の各要素のh+1番目のビットのみを抜き出して同じ順序で連結したビット列Bvを記憶しているものとする。すなわち、整数P_i (π)[i]のh+1ビット目が0であるときBv[i]=0となり、1であるときBv[i]=1となるようなビット列である。

具体的には、図５（ａ）及び（ｂ）に示すように、本実施の形態では、次元１の座標列P₁に対して構築されたウェーブレット木w₁と、次元２の座標列P₂に対して構築されたウェーブレット木w₂とが用いられる。また、図５（ａ）及び（ｂ）においては、各ノードについて対応する座標接頭辞π、座標部分列P_i (π)、およびビット列Bvが示されている。

また、図５（ａ）に示すように、ウェーブレット木w₁は、座標列P₁=(0,1,3,2,5,7,4,6)のウェーブレット木である。座標列P₁の各要素は、3ビットで表されている。そして、各ウェーブレット木のルートノードは、座標接頭辞π＝”***”に結びつけられている。よって、この座標接頭辞は3ビットで表せる全ての値、すなわち、[“000”,”111”]=[0,7]までの範囲の全ての値に対応している。このため、ルートノードは、座標部分列P₁ (π)の0+1=1ビット目のビットをビット列Bvとして保持している。

次に、ルートノードの左の子ノードは、接頭辞“0**”に対応しており、1ビット目が0で始まる3ビットの整数、すなわち[0,3]の範囲に対応し、さらに、座標列P₁から[0,3]の範囲に該当する値だけを取り出した座標部分列P₁ (π)=(0,1,3,2)にも対応する。よって、この左の子ノードは、その2ビット目のビットをビット列Bvとして保持している。なお、以降の子ノードも同様に考えることができる。

また、ウェーブレット木は、各内部ノードvについて、ビット列Bvの完備辞書を保持している。完備辞書は、長さnのビット列Bに対してaccess、rank、selectと呼ばれる３種類の操作をサポートするデータ構造である。この３種類の操作は以下のように定義される。

access(B,i)は、B上の位置iの要素B[i]を返す。
rank1(B,i)は、B[0,i)の範囲に存在する1の数を返す。
rank0(B,i)は、B[0,i)の範囲に存在する0の数を返す。
select1(B,i)は、B上でi+1番目の1が出現する位置jを返す。
select0(B,i)は、B上でi+1番目の0が出現する位置jを返す。

なお、完備辞書は、文献によっては、簡潔ビットベクトルあるいはrank / select dictionaryなどと呼ばれることがある。

また、図５（ａ）及び（ｂ）の例では、説明のため、ウェーブレット木の各ノードにおいて、座標接頭辞πと、座標部分列P_i (π)と、ビット列Bvとが、示されているが、実際には、ウェーブレット木はBvの完備辞書だけを保持しており、座標接頭辞πおよび座標部分列P_i (π)を保持している必要はない。これは、座標接頭辞πは、たどってきたエッジの情報から計算でき、座標部分列P_i (π)の各要素は、ビット列Bvの完備辞書を用いることで計算できるためである。よって、記憶部５０は、実際には、データ構造として、完備辞書のみを保持することになる。

つまり、本実施の形態では、データ構造は、次元毎に、部分列P_i (π)のビット表現を含み、且つ、部分列上の区間であって、それに含まれる座標に対応した点の特徴値のビット表現が特徴値接頭辞から始まっている区間を特定できるように、構築されている。

なお、ウェーブレット木の定義方法は文献によって異なる。上述した非特許文献１では、ウェーブレット木は、接頭辞を用いずに定義されているが、本明細書では、ウェーブレット木は、説明のため、接頭辞を用いて定義されている。なお、どちらの定義の場合であっても、ウェーブレット木の本質的な構造は同一であり、同じ動作を実現できる。

また、ウェーブレット木は、木構造としての探索が可能な構造、即ち、複数のノードを有する構造を有していれば、明示的に木構造として構成されていなくてもよい。たとえば、ウェーブレット行列という、ビット列をノードごとに分けずにウェーブレット木を実装する手法が知られているが、本発明における議論は、ウェーブレット行列を使った場合でもまったく同様に成立する。

また、本実施の形態では、検索部１０は、入力受付部３０からクエリ領域が出力されてくると、記憶部５０に対して問い合わせ、データ構造５１を取得する。次に、検索部１０は、データ構造５１を参照し、座標部分列上の区間であって、その区間に含まれる座標に対応する点の特徴値のビット表現が特徴値接頭辞で始まっており、且つ、その区間に含まれる座標に対応する点の集合が全てクエリ領域に包含される区間を、選定区間として出力する。

また、集計部２０が、選定区間を用いて、クエリ領域に含まれる点の集合に関する情報（統計量）を計算すると、これを、出力部４０に出力する。その後、出力部４０は、集計部２０が出力した統計量を、外部の端末装置、サーバ装置等に出力する。

［探索アルゴリズムの概要］
続いて、情報処理装置１００の動作を説明する前に、情報処理装置１００において用いられる探索アルゴリズムの概要について以下に説明する。

まず、Z値接頭辞のカバー領域C(π_z)と、特定の次元r (1≦r≦d) の座標接頭辞π_rのカバー領域C(π_r)と、の共通部分、すなわちC(π_z) ∩C(π_r)を考える。この共通部分の領域に含まれる点は、Z値がZ値接頭辞π_zで始まり、かつ、次元rの座標が座標接頭辞π_rで始まる点である。なお、このカバー領域の共通部分を、C(π_z∧π_r)= C(π_z) ∩C(π_r)と表記することにする。

このとき、C(π_z∧π_r)に含まれる点の集合は、次元rのウェーブレット木w_rにおいてπ_rに対応するノードの座標部分列P_r(π_r) において、必ずひとつながりの区間P_r(π_r) [s_r, e_r]に対応する。これは、座標列P_rはZ値の昇順にソートされているため、座標列P_r上で、π_zで始まる点に対応する座標は常にひとつながりの区間として得られるからである。また、P_r(π_r)は、P_rからπ_rで始まる座標のみを、Z値の並び順と同じ順序で抜き出した部分列であるため、C(π_z∧π_r)に含まれる点の集合は、必ずひとつながりの区間を形成するからである。

そして、本実施の形態では、このような性質が探索に利用される。まず、検索部１０は、初めにZ値接頭辞π_zを条件として、C(π_z)に対応するウェーブレット木のノードの座標部分列上の区間を計算する。次いで、検索部１０は、次元rの座標接頭辞π_rを条件に加えてC(π_z∧π_r)に対応するウェーブレット木上のノードの座標部分列上の区間を計算する。

これにより、クエリ領域に包含される点の集合は、一つ以上のC(π_z∧π_r)に対応するような区間に含まれる点の集合の直和として表現される。そのような区間が得られれば、あとは各区間における統計量を合わせることで、クエリ領域に包含する点の統計量が得られる。

また、本実施の形態では、探索結果に必要な情報を表現するため、以下の２種類のノードVとノードYとが、各種情報を収めたタプルとして定義される。
V= (π_z,<v₁,[s₁,e₁] >, <v₂, [s₂,e₂]>, <v₃, [s₃,e₃] >, ..., <v_d, [s_d,e_d]>)
Y = (π_r , <v_r,[s_r,e_r] >)

ノードVは、C(π_z)に対応する区間を探すための探索ノードである。以下では、ノードVを「Z値探索ノード」Vと呼ぶ。1≦k≦dの範囲の各次元kについて、次元kにおいてπ_zに対応する座標接頭辞をπ_kとおくとき、ノードVは、ウェーブレット木w_k上においてπ_kに対応するノードv_kと、座標部分列P_k(π_k)上の区間[s_k,e_k]と、のペアを保持している。このとき、P_k(π_k)[s_k,e_k]は、C(π_z)に含まれる点に対応する区間であるとする。

ノードYは、特定の次元rに注目してC(π_z∧π_r)に対応する区間を保持するノードである。以下では、ノードYを「選定区間ノード」と呼ぶ。このノードYは、次元rのウェーブレット木w_rにおいてπ_rに対応するノードv_rと、座標部分列P_r(π_r)においてC(π_r∧π_r)に対応する区間P_r(π_r) [s_r,e_r]と、を保持している。

本実施の形態における探索では、始め、Z値探索ノードVを用いて、C(π_z)に対応する区間の探索が行なわれる。そして、C(π_z)が特定の条件を満たすとき、次元rの接頭辞π_rが条件に加えられ、C(π_z∧π_r)に対応する区間が探索される。その後、クエリ領域に含まれる点に対応する区間を保持している、選定区間ノードYが、探索結果として得られる。

［装置動作］
次に、本発明の実施の形態における情報処理装置１００の動作について図６を用いて説明する。図６は、本発明の実施の形態における情報処理装置の動作を示すフロー図である。また、以下の説明においては、適宜図１〜図４を参酌する。また、本実施の形態では、情報処理装置１００を動作させることによって、情報処理方法が実施される。よって、本実施の形態における情報処理方法の説明は、以下の情報処理装置１００の動作説明に代える。

図６に示すように、まず、入力受付部３０は、クエリ領域の範囲を指定するための外部からの入力を受付け（ステップＡ１）、受け付けた内容を検索部１０に出力する。この入力されたクエリ領域Qは、Q=[l_q1, u_q1]×[l_q2, u_q2]×…×[l_qd, u_qd]と表記される。

次に、検索部１０は、上述のように定義されるZ値探索ノードVに初期値を代入することによって、Vを初期化する（ステップＡ２）。具体的には、ステップＡ２では、Z値探索ノードVは、長さ0のZ値接頭辞π_zに対応するように初期化される。また、各次元kにおいて長さ0のZ値接頭辞π_zに対応する座標接頭辞π_kは、同じく長さ0であり、ウェーブレット木のルートノードに対応する。すなわち、初期化により、各次元kに関して対応するノードv_kは、ウェーブレット木w_kのルートノードとなり、[s_k,e_k]=[0,n-1]に設定される。

次に、検索部１０は、記憶部５０に問い合わせを行なって、データ構造５１を取得する。そして、検索部１０は、クエリ領域Qについて、データ構造５１を対象として関数range_search(V,Q)を実行し、一つ以上の選定区間ノードの集合{Y}を返り値として取得する（ステップＡ３）。また、検索部１０は、取得した選定区間ノードの集合{Y}を、集計部２０に出力する。こうして得られた{Y}に含まれる各選定区間ノードYは、座標部分列の区間を保持しており、この区間に対応する点の集合は、互いに素(disjoint)となる。また、この区間に対応する点の集合の直和(disjoint union)は、クエリ領域に包含される点の集合と等しくなる。

次に、集計部２０は、検索部１０から、一つ以上の選定区間ノードの集合{Y}を受け取ると、関数aggregate({Y})を呼び出して、クエリ領域Qに包含される点の統計量resultを返り値として取得する（ステップＡ４）。また、集計部２０は、取得した統計量を出力部４０に出力する。この関数aggregate({Y})によれば、{Y}に含まれる各選定区間ノードYについて、Yが保持する区間に対応する点の集合に関する統計量が計算され、その後、それらの統計量が合わせられ、クエリ領域に包含される点に関する統計量が求められる。

最後に、出力部４０は、集計部２０から受け取った統計量を外部に出力する（ステップＡ５）。ステップＡ１〜ステップＡ５の実行により、クエリ領域Qについての探索処理は終了する。また、ステップＡ１〜ステップＡ５は、クエリ領域Qが入力される度に実行される。

［ステップＡ３］
続いて、図６に示したステップＡ３について、図７〜図１０を用いて更に具体的に説明する。図７は、再帰的に矩形範囲検索する関数range_search(V,Q)の動作を示すフロー図である。この関数は検索部１０が、記憶部５０に問い合わせを行なうことで実現される。

［ステップＡ３：概要］
図７のアルゴリズムについて詳細に説明する前に、図７のアルゴリズムの概要と、前提となる概念を説明する。

関数range_search(V,Q)は、長さ0のZ値接頭辞π_zを引数にして呼び出され、自らを再帰的に呼び出すことが可能な関数である。関数range_search(V,Q)は、自身を再帰的に呼び出す度に、Z値接頭辞π_zを1ビットずつ延長し、延長された各π_zについて対応するZ値探索ノードVを生成する。π_zを1ビット延長することは、カバー領域C(π_z)を二分割することに相当するため、π_zが長くなるほどカバー領域は小さくなる。

そして、関数range_search(V,Q)は、カバー領域C(π_z)が一定の条件を満たすと、再帰ループを抜けて、π_rを追加し、これにより、カバー領域C(π_z∧π_r)を用いて空間を分割するフェイズに入る。そして、関数range_search(V,Q)は、このカバー領域C(π_z∧π_r)がクエリ領域Qに完全に包含されると、そのカバー領域に相当する、ウェーブレット木のノードの座標部分列の区間を保持する選定区間ノードYを返す。

ここで、この探索処理に必要になるZ値探索ノード V= (π_z,<v₁,[s₁,e₁] >, <v₂, [s₂,e₂]>, <v₃, [s₃,e₃] >, ..., <v_d, [s_d,e_d]>)について、さらに詳しく説明する。また、ここでは、Z値接頭辞π_zを考え、π_zで始まるZ上の連続する区間をZ[s_z,e_z]とおく。π_zで始まるZ[i]の数をn_zで表すと、n_z= e_z - s_z + 1が成り立つ。このn_zは、カバー領域C(π_z)に含まれる点の数に等しくなる。

上述したように、1からdの各次元において、π_zに対応しているd個の座標接頭辞π₁, π₂, ..., π_dが存在する。このとき、n_z>0であれば、w₁からw_dの各ウェーブレット木に、これらの座標接頭辞に対応するノードv₁, v₂, ..., v_dが必ず存在する。さらに、これらのノードにそれぞれに対応する座標部分列P₁(π₁), ..., P_d(π_d)が存在する。

さて、ここで、Z[s_z,e_z]の区間で、Z値がZ値接頭辞π_zで始まるということは、1≦k≦dとなるkに関して、P_k[s_z,e_z]は、全て座標接頭辞π_kから始まることを意味する。よって、この区間P_k[s_z,e_z]に含まれるn_z個の連続する整数は、P_k(π_k)においても全く同じ順序でn_z個の連続する整数として含まれていることが分かる。この区間をP_k(π_k) [s_k, e_k]で表すものとする。このとき、n_z = e_z - s_z+ 1 = e_k - s_k + 1が成り立ち、0≦i<n_zとなる全てのiについて、P_k(π_k) [s_k +i] = P_k [s_z+i]が成り立っている。

また、P_k(π_k) [s_k, e_k]の区間に含まれる座標は、Z値がπ_zで始まる点の座標であり、この点はカバー領域C(π_z)に含まれる。よって、0≦i<n_zとなる全てのiについて、l_πk ≦ P_k(π_k) [s_k +i] ≦ u_πk が成り立つ。Z値探索ノードVは、以上のような性質を持つZ値接頭辞π_z、ノードv_kおよび区間[s_k, e_k]を保持している。

具体例を、図１、図４及び図５を用いて説明する。長さ3のZ値接頭辞π_z ="011***"を考える。このZ値接頭辞を分解すると、Z値接頭辞π_zに、次元1において長さ2の座標接頭辞π₁ ="01*"と、次元2において長さ1の座標接頭辞π₂ = "1**"と、が対応している。このとき、π_zで始まるZの区間は、Z[s_z,e_z] = Z[2,3]である。n_z=2である。

このとき、次元1に着目する。P₁[s_z,e_z] = {3,2}= {"011","010"}であるが、これらの値は座標接頭辞π₁で始まるため、ウェーブレット木w₁上でπ=π₁のノードv₁に対応する整数部分列P₁(π₁)に同じ順序で含まれる。この区間は、P₁(π₁)[s₁,e₁] = P₁(π₁)[0,1]である。

同様に、次元2に着目する。P₂[s_z,e_z] = {4,7}= {"100","111"}であるが、これらの値は座標接頭辞π₂で始まるため、ウェーブレット木w₂上でπ=π₂のノードv₂に対応する整数部分列P₂(π₂)に同じ順序で含まれる。この区間はP₂(π₂)[s₂,e₂] = P₂(π₂)[0,1]である。

よって、上記のZ値接頭辞π_zに対応するZ値探索ノードVは、以下の要素を保持している。
V= (π_z,<v₁,[s₁,e₁] >, <v₂, [s₂,e₂]>) = ("011***", <v₁,[0,1] >, <v₂, [0,1] >)

ここで、さらに、Z値探索ノード同士の間に親子関係を定義する。Z値接頭辞π_zに対応するZ値探索ノードVがあるとき、π_z+”0”に対応するZ値探索ノードをVの左の子、π_z+”1”に対応するZ値探索ノードをVの右の子として定義する。たとえば、VがZ値接頭辞”111***”に対応するとき、Vの左の子はZ値接頭辞”1110**”に対応するZ値探索ノードであり、Vの右の子はZ値接頭辞”1111**”に対応するZ値探索ノードである。

なお、以下では、Z値探索ノードVに含まれるπ_zのカバー領域のことを、Z値探索ノードVのカバー領域と呼ぶ。また、以下では、場合によって、Z値探索ノードVに含まれている要素を”.”で連結して表記するものとする。たとえば、Z値探索ノードVに含まれるZ値接頭辞π_zは、V.π_zと表記する。

［ステップＡ３：具体例］
続いて、以上に述べた探索アルゴリズムの概要を踏まえて、図７に示すアルゴリズムについて、以下に詳細に説明する。

図７に示すように、初めに、検索部１０は、Z値探索ノードVのカバー領域に点が存在するかどうかを判定する（ステップＢ１）。そして、検索部１０は、ステップＢ１の判定の結果、答えがYesであれば、ステップＢ２に進み、答えがNoであれば、空集合を返す。

ステップＢ１では、任意の次元kについて、Z値探索ノードVのカバー領域に存在する点の数n_z = e_k- s_k+1 が、0より大きいかどうかが調べられ、これにより判定が行なわれる。そして、ステップＢ１では、n_z>0であれば、答えはYesであり、n_z<=0であれば、答えはNoである。この判定は、π_zで始まる点がひとつも存在しない場合に探索を打ち切るために必要な処理である。

次に、検索部１０は、Z値探索ノードVのカバー領域がクエリ領域と重なるかどうかを判定する（ステップＢ２）。そして、検索部１０は、ステップＢ２の判定の結果、答えがYesであればステップＢ３に進み、答えがNoであれば空集合を返す。

具体的には、ステップＢ２では、検索部１０は、Z値探索ノードVのカバー領域C(π_z) = [l_π1,u_π1] × [l_π2,u_π2] × … × [l_πd,u_πd]をπ_zの値から求める。その上で、検索部１０は、1≦k≦dとなるkのどれかひとつの次元kにおいて、（u_πk<l_qk または u_qk < l_πk）が成り立つかどうかをチェックする。チェックの結果、上記関係が成り立つ場合は、空間上の重なりがないため、検索部１０は、Noと判定する。上記の関係が成り立たない場合は、空間上での重なりがあるため、検索部１０は、Yesと判定する。ステップＢ２の判定は、クエリ領域と重なりがないカバー領域をこれ以上探索しないように枝刈りすることが目的である。

次に、検索部１０は、Z値探索ノードVのカバー領域とクエリ領域とを比較して、包含次元数hを計算する（ステップＢ３）。包含次元数hは、定義により、l_qk≦ l_πk かつ u_πk ≦ u_qkを満たすような次元kがいくつあるかを数えることで計算できる。

次に、検索部１０は、包含次元数hがd-1よりも小さいかどうかを判定する（ステップＢ４）。検索部１０は、ステップＢ４の判定の結果、答えがYesであればステップＢ５に進み、答えがNoであればステップＢ６にて関数range_search_1d(V,Q)を返す。関数range_search_1d(V,Q)は、特定の次元rに注目してC(π_z∧π_r)による分割を行って、選定区間ノードの集合{Y}を返す関数である。

次に、検索部１０は、V_leftにZ値探索ノードVの左の子ノードを代入し、V_rightにZ値探索ノードVの右の子ノードを代入する（ステップＢ５）。具体的には、検索部１０は、ステップＢ５では、Z値探索ノードVの情報を用いて、Vの左の子ノード、つまりπ_z+”0”に対応する探索ノードと、Vの右の子ノード、つまりπ_z+”1”に対応する探索ノードと、を計算する。なお、ステップＢ５については、図８を用いて後述する。ステップＢ５は、図８に示すアルゴリズムを実行することで実行することができる。

その後、検索部１０は、ステップＢ５において、Z値探索ノードVの右の子ノードと左の子ノードとを求めたのち、同じ関数を以下のように再帰的に呼び出す。
return range_search(V_left, Q) ∪range_search(V_right, Q)

この再帰的呼び出しによって、検索部１０は、カバー領域が半分になった接頭辞π_zについて、同じ計算を繰り返すことができる。

［ステップＢ５：概要］
続いて、図８を用いて、ステップＢ５における処理を具体的に説明する。図８は、Z値探索ノードVの左右の子ノードを計算する関数get_children(V)の動作を示すフロー図である。この関数get_children(V)も、検索部１０が、記憶部５０に問い合わせることで実現される。

まず、図８に示すアルゴリズムについて詳細に説明する前に、どのようにしてZ値探索ノードVから左右の子ノードが計算できるかについて説明する。

まず、Z値探索ノードVが対応しているZ値接頭辞π_zの末尾にビットbを追加した新たなZ値接頭辞をπ’_zとおいて、π’_zに対応する新たなZ値探索ノードV’を計算することを考える。bが0の場合、Z値探索ノードV’は、Z値探索ノードVの左の子ノードに当たり、bが1の場合、Z値探索ノードV’はZ値探索ノードVの右の子ノードに当たる。以下では、V’=(π’_z, <v’₁,[s’₁,e’₁]>, <v’₂, [s’₂,e’₂]>, <v’₃,[s’₃,e’₃]>, ..., <v’_d,[s’_d,e’_d]>)とおく。

そして、次元g = length(π_z) mod d + 1とおくと、次元gに関して、以下の式が成り立つ。なお、上記において、length()は接頭辞の長さを表す。
π’_k= π_k+b (k=g のとき)
π_k (それ以外のとき)

すなわち、π_zに対応するZ値探索ノードVから、π’_zに対応するZ値探索ノードV’を計算するとき、次元k(≠g)については、π’_zに対応する座標接頭辞π’_kは、π_zに対応する座標接頭辞π_kと同じである。しかし、次元gにおいてπ’_zに対応する座標接頭辞π’_gは、π_zに対応する座標接頭辞π_gにビットbを付加したものになる。π’_g=π_g +bであることから、ウェーブレット木w_g上において、π’_gに対応するノードv’_gは、π_g に対応するノードv_gの子ノードとなる。

具体的には、図１、図４、及び図５に示すように、Z値接頭辞π_z = "011***"に、座標接頭辞π₁="01*"とπ₂="1**"が対応する。このとき、b=1の場合、すなわちπ’_z= π_z+ "1"= "0111**"を考えると、π’_z = "0111**"は、π’₁="01*"とπ’₂="11*"に対応する。また、g = length(π_z) mod d + 1 = 3 mod 2 + 1 = 2である。

上記の結果をみると、π’₁=π₁、かつ、π’₂=π₂+bであり、確かに、次元g=2にビットbが追加されていることが分かる。b=1であることから、π’_gに対応するノードv’_gは、π_gに対応するノードv_gの右の子ノードである。

ここで、唯一座標接頭辞が変化する次元gのウェーブレット木w_gに着目する。π_z に対応する区間P_g(π_g)[s_g,e_g]は既に分かっているため、これをもとにπ’_z＝π_z+bに対応する区間P_g(π’_g)[s’_g,e’_g]を求めることを考える。

ウェーブレット木w_g上で、π_gに対応するノードv_gが保持しているビット列 Bv_gに注目する。ビット列Bv_g[s_g,e_g]は、P_g(π_g)[s_g,e_g]のlength(π_g )+1番目のビットを取り出して連結したものである。P_g(π_g)[s_g,e_g]の座標は、Z[s_z,e_z]のZ値と同じ順序で同じ点に対応しているため、ビット列Bv_g[s_g,e_g]は、Z[s_z,e_z]のlength(π_z)+1番目のビットを取り出して連結したものに等しくなる。Z値は、昇順にソートされており、Z[s_z,e_z]は全てπ_z で始まっているから、length(π_z)+1番目のビットを取り出して連結したものである、ビット列Bv_g[s_g,e_g]は、”000…000111…111”のように、0だけが連続して並ぶ前半と1だけが連続して並ぶ後半とに分割できることが保証される。

ビット列Bv_g[s_g,e_g]に出現する0の数をn_z0、1の数をn_z1とおく。また、n_z = n_z0 + n_z1である。さきほどの考察により、ビット列Bv_g[s_g,s_g+n_z0-1]のビットは、全て0である。Bv_g[s_g+n_z0, e_g]のビットは全て1である。このことは、すなわち、Z[s_z,s_z+n_z0-1]の区間がπ_z+"0"で始まり、Z[s_z+n_z0,e_z]の区間がπ_z+"1"で始まることを示している。これによって、π’_z =π_z+"0"であれば、[s'_z,e'_z]=[s_z,s_z+n_z0-1]であり、π’_z =π_z+"1"であれば、[s'_z,e'_z]=[s_z+n_z0,e_z]であると計算できる。n_z0は、ビット列Bv_gの完備辞書を用いてn_z0 = rank0(Bv_g,e_g+1) - rank0(Bv_g,s_g)という式で計算できる。n_z1はn_z1 = n_z - n_z0で計算できる。

b=0であれば、π’_gに対応するノードv'_gは、π_gに対応するノードv_gの左の子ノードである。さらに、P_g(π’_g)上でπ’_zに対応する区間[s'_g,e'_g]を以下のように計算できる。つまり、s'_g = rank0(Bv_g,s_g)、およびe'_g = s'_g + n_z0-1である。何故なら、任意のiについてBv_g[i]のビットが0であることは、対応する整数P_g(π_g) [i]が、π’_g=π_g+”0”で始まることを表しており、そのようなビット0に対応する整数だけがP_g(π_g)から抜粋され、P_g(π’_g)に含まれるからである。

同様に、b=1であれば、ノードv'_gは、ノードv_gの右の子ノードであり、ノードv'_g上で対応する区間も、上記のb=0の場合と同様に計算できる。また、s'_g = rank1(Bv_g,s_g)、およびe'_g = s'_g+ n_z1-1である。以上のように、次元gにおいて、座標接頭辞π’_gに対応するP_g(π’_g)において、π’_zに対応する区間P_g(π’_g) [s'_g,e'_g]を求めることができる。

k ≠ gとなる他の次元についても検討する。これらの次元kにおいては、π’_k=π_k であるので、同じ座標部分列P_k(π’_k) =P_k(π_k)上で、π’_zに対応する範囲を求めることになる。ここで、もともとπ_zで始まる区間Z[s_z,e_z]に対応する区間が[s_k,e_k]であることが分かっているので、これを前後に分割し、π’_z =π_z+"0"であれば、[s'_k,e'_k]=[s_k,s_k+n_z0-1]となるよう更新し、π’_z =π_z+"1"であれば、[s'_k,e'_k]=[s_k+n_z0,e_k]となるよう更新すれば、π’_zに対応する区間が求まる。

以上により、π_zに対応するZ値探索ノードVが与えられたとき、1ビット追加されたπ’_zについても対応するZ値探索ノードV’に含まれる情報が計算できることが分かった。つまり、π_z+”0”に対応する左の子ノードV_left、およびπ_z+”1”に対応する右の子ノードV_rightを計算できる。

具体的には、事実として、π_z = "011***"、π₁="01*"、π₂="1**"、Z[s_z,e_z] = Z[2,3]、P₁(π₁)[s₁,e₁]=P₁(π₁)[0,1]、P₂(π₂)[s₂,e₂]=P₂(π₂)[0,1]、が分かっているものとする。また、b=1であるとする。このとき、π’_z = π_z+ "1"= "0111**"に対応する区間を、次のように求めることができる。

つまり、π’₁=π₁="01*"であり、π’₂=π₂+"1"="11*"であるから、座標接頭辞が変化するのは次元g=2だけである。よって、次元g=2のウェーブレット木に注目して、P₂(π₂)[s₂,e₂]からP₂(π’₂)[s'₂,e'₂]を計算することを考える。

ノードv₂の保持するビット列はBv₂="0101"であるから、Bv₂[s₂,e₂]=Bv₂[0,1]="01"であり、n_z0=1およびn_z1=1である。Bv₂[0,1]は、Z[2,3]の区間の4ビット目に対応しているため、ここからZ[2]の4ビット目が0であり、Z[3]の4ビット目が1であることが分かる。従って、b=1であるから、v'₂はv₂の右の子であり、s'₂= rank1(Bv₂,s₂) = 0、およびe'₂= s'₂ + n_z1 -1 = 0+1-1=0である。

同様に、次元1においても、長さ2の領域が長さ1ずつの領域に分割されるため、新たな区間は以下のように計算される。
[s'₁,e'₁] =[s₁+n_z0,e₁]=[0+1,1]=[1,1]

以上により、π’_zに関して以下の値が計算できる。
π’_z= "0111**"、π’₁="01*"、π’₂="11*"、Z[s'_z,e'_z] = Z[3,3]、P₁(π’₁)[s'₁,e'₁]=P₁(π’₁)[1,1]、P₂(π’₂)[s'₂,e'₂]=P₂(π’₂)[0,0]

［ステップＢ５：具体例］
上述した考察をアルゴリズムの形にしたものが図８に示すアルゴリズムである。図８に示すアルゴリズムについて、以下に詳細に説明する。また、図８に示すアルゴリズムにおいては、以下のようにZ値探索ノードVの左右の子ノードを計算する処理が実行される。更に、V_leftをZ値探索ノードVの左の子ノードを表すタプルとし、V_rightをZ値探索ノードVの右の子ノードを表すタプルとする。

まず、図８に示すように、最初に、検索部１０は、V_leftにZ値探索ノードVの内容をコピーし、V_rightにもZ値探索ノードVの内容をコピーする（ステップＣ１）。これにより、V_leftとV_rightとのそれぞれに含まれるウェーブレット木のノードv_kは、ともにZ値探索ノードVに含まれるウェーブレット木のノードv_kと同一になる。

次に、V_leftとV_rightとがそれぞれ含んでいるπ_kおよびv_kについて、Z値探索ノードVとの差分を更新する（ステップＣ２）。すなわち、g = length(π_z) mod d + 1として、V_left.π_z = V.π_z+”0”を代入し、V_right.π_z = V.π_z+ “1”を代入する。さらに、V_left.v_gにはV.v_gの左の子ノードを代入し、V_right.v_gにはV.v_gの右の子ノードを代入する。また、n_z = e_g - s_g + 1である。n_z0は、ビット列Bv_gの完備辞書を用いてn_z0 = rank0(Bv_g,e_g+1) - rank0(Bv_g,s_g)という式で求められる。n_z1はn_z1 = n_z - n_z0によって計算される。

次に、検索部１０は、区間[s_k,e_k]を計算するため、次元kについてループを回す（ステップＣ３）。次に、検索部１０は、このループの中で、k=gが成り立つかどうかを判定する（ステップＣ４）。そして、検索部１０は、ステップＣ４の判定の結果、YesならステップＣ５に移り、NoならステップＣ６に移る。

ステップＣ４の判定の結果、Yesの場合、即ち、k=gが成り立つ場合は、検索部１０は、次元gについて計算する（ステップＣ５）。ステップＣ５では、V_left.s_g = rank0(Bv_g,s_g)、およびV_left.e_g= V_left.s_g + n_z0 -1である。さらに、V_right.s_g = rank1(Bv_g,s_g) 、およびV_right.e_g = V_right.s_g+ n_z1 -1である。

一方、ステップＣ４の判定の結果、Noの場合、即ち、k=gが成り立たない場合は、検索部１０は、次元g以外のkについて計算する（ステップＣ６）。ステップＣ６では、V_left.s_k = V.s_k、およびV_left.e_k = V. s_k+n_z0-1である。さらに、V_right.s_k = V. s_k+n_z0、およびV_right.e_k = V. e_kである。

次元kについてループが終了すると（ステップＣ７）、その後、V_leftおよびV_rightが返され、ステップＢ５は終了する。このように、図８に示すアルゴリズムは、Z値探索ノードVの左右の子ノードを計算する。

以上により、図７に示すアルゴリズムにおいて、ステップＢ４でYesになる場合の動作について説明を終えた。次いで、ステップＢ４でNoになる場合の動作について説明する。すなわち、図７中の関数range_search_1d(V,Q)の動作について説明する。

［ステップＢ６：概要］
続いて、図７に示したステップＢ６について、図９及び図１０を用いて説明する。関数range_search_1d(V,Q)は、Z値探索ノードVとクエリ領域Qとを入力として、クエリ領域Qに包含されるようなカバー領域C(π_z∧π_r)に対応する区間を保持する選定区間ノードYを返す関数である。

まず、図９および図１０に示すアルゴリズムについて詳細に説明する前に、動作の概要について説明する。

図７に示すステップＢ４において、Noになる場合、すなわち、接頭辞π_zのカバー領域C(π_z)の包含次元数がd-1に達した場合を考える。包含次元数がd-1に達したということは、d-1個の次元において、すでに包含条件が満たされたことを示している。このとき、残り1個の、まだ包含されていない次元を次元rとする。次元rにおいてπ_zに対応する座標接頭辞π_rを考え、π_zに対応する区間P_r (π_r)[s_r,e_r]に注目する。上述したように、この区間には、P_r[s_z,e_z]と同じ座標が同じ順序で含まれている。

P[s_z,e_z]に含まれる全ての点は、π_zのカバー領域に含まれるため、次元r以外の全ての包含条件を満たすが、次元rの包含条件は満たしていない。すなわち、次元rの座標の値p_rが[l_qr, u_qr]に包含されるという条件をまだ満たしていない。

そこで、図９および図１０のアルゴリズムでは、π_rだけを延長してカバー領域を小さくすることにより、クエリ領域に包含するようなカバー領域が形成される。すなわち、次元rにおいて [l_qr, u_qr]に包含されるようなカバー領域C(π_z∧π’_r)が得られるまで、π_rを延長した座標接頭辞をπ’_rとして、その結果得られるカバー領域に対応する座標部分列上での区間を保持する選定区間ノードが返される。

［ステップＢ６：具体例］
次に、図７に示したステップＢ６を具体的に説明する。図９は、図７に示す関数range_search_1d(V,Q)の動作を示す図である。図９に示すように、検索部１０は、関数range_search_1d(V,Q)を呼び出し、Z値探索ノードVのカバー領域が、クエリ領域Qに包含されていない次元rを計算する（ステップＤ１）。

次に、検索部１０は、次元rにおいてπ_zに対応する接頭辞π_rを求める（ステップＤ２）。続いて、検索部１０は、ステップＤ２で求められた値を用いて、以下のように再帰的な関数を呼び出し、図１０に示す各ステップを実行する。
return range_search_1d_rec(π_r, V.v_r, V.s_r, V.e_r, Q.l_qr, Q.u_qr)

ここで、図１０による詳細な説明に入る前に、関数range_search_1d_rec(π_r, v_r, s_r, e_r, l_qr, u_qr)の概要について説明する。この関数range_search_1d_rec(π_r, v_r, s_r, e_r, l_qr, u_qr)は、Z値がπ_zで始まり、次元rの座標の値p_rが[l_qr, u_qr]に包含されるような座標部分列P_r (π’_r)上の区間P_r(π’_r) [s’_r, e’_r]を返す再帰的な関数である。すなわち、この関数は、クエリ領域Qに完全に包含されるようなカバー領域C(π_z∧π’_r)に対応する区間を返す関数である。ただし、π’_rは接頭辞π_rを延長して得られる座標接頭辞とする。

そして、関数range_search_1d_rec(π_r, v_r, s_r, e_r, l_qr, u_qr)による操作は、区間の左端であるs’_rと、右端であるe’_rと、を各ノード上で計算することで実現できる。まず、初めに、接頭辞π_rに対応するノードv_rの座標部分列上の区間P_r (π_r) [s_r,e_r]を考える。

ただし、この区間は、Z値がπ_zで始まる点に対応する区間であるとする。このとき、この探索ノードv_rの、ウェーブレット木における左の子ノードv_leftと右の子ノードv_rightについて考える。子ノードに対応する接頭辞をπ’_rとおくとき、P_r (π’_r)[s’_r,e’_r]は、P_r(π_r) [s_r,e_r]の区間から、π’_rで始まる整数だけを抜き出してきた部分列に対応する区間を表すものとする。

ウェーブレット木の定義により、左の子ノードに移動するときは s’_r = rank0(Bv_r,s_r) およびe’_r = rank0(Bv_r,e_r+1)-1 という式によって、区間[s’_r,e’_r]を求めることができる。一方、右の子ノードに移動するときは、s’_r = rank1(Bv_r, s_r)とe’_r=rank1(Bv_r, e_r+1)-1という式によって、区間[s’_r,e’_r]を求めることができる。

以上の操作が、各ノードについて繰り返し実行され、ノードの対応する接頭辞π’_rで始まる座標の値が全て[l_qr,u_qr]に包含された場合に、そのノード上での区間P_r (π’_r)[s’_r,e’_r]を収めた選定区間ノードYが返される。この区間には、[l_qr,u_qr]の範囲の座標しか出現していないため、この区間は、次元rの範囲条件を満たす点に対応している。すなわち、選定区間ノードYは、クエリ領域に完全に包含されている点に対応している。また、以上の操作における計算量は、ウェーブレット木について既に知られている二次元のrange countの計算量と等しく、O(log n)である。

続いて、図１０を用いて、関数range_search_1d_rec(π_r, v_r, s_r, e_r, l_qr, u_qr)の動作を詳細に説明する。図１０は、図９に示された関数range_search_1d_rec(π_r, v_r, s_r, e_r, l_qr, u_qr)の動作を示す図である。

図１０に示すように、検索部１０は、関数range_search_1d_rec(π_r, v_r, s_r, e_r, l_qr, u_qr)を実行して、s_r> e_r または ([l_πr, u_πr] ∩ [l_qr, u_qr]) = φ が成り立つかどうかを判定する（ステップＥ１）。そして、検索部１０は、ステップＥ１の判定の結果、答えがNoであれば、ステップＥ２に進み、答えがYesであれば、空集合を返す。なお、[l_πr, u_πr]は、π_rで始まる整数の区間を表している。

次に、検索部１０は、 [l_πr, u_πr] ⊆ [l_qr, u_qr] が成り立つかどうかを判定する（ステップＥ２）。なお、[l_πr, u_πr]は、π_rで始まる整数の区間を表している。

ステップＥ２の判定の結果、答えがYesであれば、つまり、[l_πr, u_πr] ⊆ [l_qr, u_qr] が成り立つときは、カバー領域がクエリ領域に完全に包含される。従って、検索部１０は、この区間[l_πr, u_πr]を、選定区間ノードY = (π_r, <v_r, [s_r ,e_r]>)に代入して返却する（ステップＥ３）。

一方、ステップＥ２の判定の結果、答えがNoであれば、検索部１０は、π_r に対応するノードv_rのビット列をBv_rとおいて、図１０中に示す４つのrankの式を用いて、左の子ノードにおける区間[s_left, e_left]と、右の子ノードにおける区間[s_right, e_right]とを計算する（ステップＥ４）。

その後、検索部１０は、右の子ノード、および左の子ノードについて、同様の処理を行うため、再帰的に以下の関数を呼び出す。
return range_search_1d_rec(π_r+”0”, v_left, s_left, e_left, l_qr, u_qr) ∪ range_search_1d_rec(π_r+”1”, v_right, s_right, e_right, l_qr, u_qr)

［ステップＡ４］
続いて、図６に示したステップＡ４で呼び出される関数aggregate({Y})について説明す
る。この関数は集計部２０によって実行される。

集計部２０は、関数aggregate({Y})によって、{Y}に含まれる各選定区間ノードYについて、選定区間ノードYに対応する区間に対応する点の集合に関する統計量を計算し、その後、それらの統計量を用いて、クエリ領域Qに包含される点に関する統計量を求めることができる。

また、関数aggregate({Y})は、様々な集計関数を抽象化したものであり、この関数を、具体的な集計関数に置き換えることで、情報処理装置１００を様々な種類の矩形範囲検索に利用できる。

たとえば、情報処理装置１００は、クエリ領域Qに含まれる点の数のカウントに使うことができる。具体的には、入力{Y}に選定区間ノードY = (π_r, <v_r, [s_r ,e_r]>)が含まれている場合、座標部分列上の区間P_r (π_r)[s_r,e_r]がクエリ領域Qに含まれる点に対応している。このことは、この区間に含まれる(e_r- s_r +1)個の点が、クエリ領域Qに含まれていることを表している。すなわち、得られた選定区間ノードYの全てについて(e_r- s_r +1)を合計すれば、クエリ領域に含まれる点の数が計算できる。この場合、集計部２０は、クエリ領域Qに含まれる点の数を統計量として出力する。

また、たとえば、全ての点pに重みw(p)が付与されているとき、情報処理装置１００は、クエリ領域に含まれる点の重みの合計を計算することができる。これは、あらかじめ、全ての座標部分列P_r (π_r)に含まれる各座標について、対応する点pの重みw(p)を同じ順番で並べた列W_r(π_r)が設定されている場合に、この列上での区間合計を計算できるようなデータ構造が用意されていれば可能となる。

このようなデータ構造としては、既存のPartial Sumを扱うデータ構造が挙げられる。また、このようなデータ構造であれば、座標部分列上の区間P_r (π_r)[s_r,e_r]がクエリ領域に含まれる点に対応していることが分かっているとき、この区間[s_r,e_r]に対応する重みの列上の区間W_r(π_r) [s_r,e_r]に含まれる重みの区間合計を計算し、最後に足し合わせることで、クエリ領域Qに含まれる全ての点の重みの合計が計算できる。この場合、集計部２０は、クエリ領域Qに含まれる全ての点の重みの合計を統計量として出力する。

同様に、情報処理装置１００は、クエリ領域Qに含まれる全ての点のリストを返すレポート・クエリとしても用いることができる。つまり、座標部分列上の区間P_r (π_r)[s_r,e_r]について、この区間に含まれる各要素P_r(π_r)[j]について、元の整数列P_r上での位置iを、ウェーブレット木をさかのぼることによって特定できる。このとき、点P[i]がクエリ領域に含まれる。この場合、集計部２０は、クエリ領域Qに含まれる全ての点のリストを統計量として出力する。

以上のように、本実施の形態によれば、様々な種類の矩形範囲検索を実現することができる。また、本実施の形態は、図６〜図１０に示したアルゴリズムが単独で用いられる態様に限定されず、図６〜図１０に示したアルゴリズムに、適宜他の探索アルゴリズムが組み合わされた態様であってもよい。

たとえば、本実施の形態では、図６〜図１０に示したアルゴリズムに、単純なスキャン処理が組み合わされていても良い。図６〜図１０に示したアルゴリズムでは、Z値探索ノードVで、Z値の列Z上の範囲Z[s_z,e_z]を分割することによって、探索が実行されている。しかし、範囲Z[s_z,e_z]が狭くなった場合は、ウェーブレット木の構造をそのままたどるよりも、座標列P_kの対応する範囲P_k[s_z,e_z]をスキャンして、ひとつひとつの値P_k[i]が条件を満たすかどうかを直接チェックしたほうが高速となる。よって、このため、上述したようにスキャン処理が組み合わされる。また、この場合、座標列P_kを保持する必要があるが、合計のデータ構造はやはり線形サイズとなる。

［実施の形態による効果］
本実施の形態は、kd木よりも計算量が少なくなる効果がある。このことを明らかにするため、最悪計算量について解析する。通常のkd木は、包含次元数がdになるまで分割する手法であるのに対して、本実施の形態における手法は、d-1になるまで分割する手法である。このことが最悪計算量におよぼす影響を以下に述べる。

まず、kd木、本実施の形態における手法のように、木構造において、深さ毎に、次元を順番に切り替えて空間を二分割する探索に関して、木構造がバランスしているときのノードの分割数を見積もる。計算量が最悪になるのは、空間分割数が最大になるときである。つまり、１回の分割で生じた２つのカバー領域が、常にクエリ領域と重なってしまう場合
である。

図１１に、最悪な場合の探索ノード数と包含次元数の関係を示す。図１１は、２次元の場合の探索ノード数と包含次元数との変化を示す図である。図１１に示すように、木構造上のひとつのノードは、ひとつの探索ノードに対応している。木構造の深さが１つ下がることは、ノードが１回分割されて２つの探索ノードに分割されることを表している。ノード上の数字は、包含次元数を表している。分割されるほど、包含次元数が高いノードが増えていくことが分かる。

ここで、d回の分割をまとめて考える。深さm * dにおいて包含次元数hになるノードの数をT_h(m)とおいて、T_h(m)とT_h(m-1)のあいだに成り立つ漸化式を考える。d回の分割により、1つのカバー領域が2^d個のカバー領域に分割される。このとき、必ず各次元で１回の分割が生じる。すでに包含されている次元について分割されても包含次元数は上がらないことを考えると、深さm * dにおいて、包含次元数がhになるノードの数を求めるには、深さ(m-1) * dにおいて包含次元数がi(≦ h)だったノードから、h-i個の次元が新たに包含される数を考えればよい。

この漸化式は、以下の数１に示す通りとなる。ただし、以下の数１において、C(x,y)は組み合わせの数を表すものとする。

上記の数１から、d回の分割により、全体のノード数は2^d倍に増加するが、そのうち包含次元数hのノードは2^h倍に増加することが分かる。

また、この分割をlog(n)/d回繰り返すと、探索木全体は深さlog nの二分木になり、全体のノード数はO(n)に達して分割が終了する。そのうち包含次元数hのノードは、O(n^(h/d))となる。ただし包含次元数0のノードはO(log n)である。

よって、以下のように言うことができる。まず、まったく探索を打ち切らなければ分割数は最大でO(n)になる。また、包含次元数がdに達した時点で分割を打ち切れば、分割数はO(n^(d-1)/d)となる。一方、包含次元数がd-1に達した時点で分割を打ち切れば、分割数はO(n^(d-2)/d)となる。そして、kd木では、包含次元数がdに達した時点で分割が打ち切られるため、計算量はO(n^(d-1)/d)となる。これは従来から知られているオーダと一致する。

また、このkd木での解析を、本実施の形態に適用することができる。つまり、本実施の形態における探索でいうZ値探索ノードは、空間を各次元で交互に分割するため、kd木と同じ手法で計算量を見積もれるからである。ただし、本実施の形態に合わせて、少し修正が必要である。

本実施の形態では、包含次元数がd-1に達した時点で分割が打ち切られるので、分割数、すなわちZ値探索ノードの数は最大でO(n^(d-2)/d)となる。ただし、Z値の長さはd log nであり、Z値探索ノードには、子ノードが1つだけのノードも存在し得るので、分割で生じた各Z値探索ノードにつき、最悪でd log n回の不要な計算が発生する。dを定数と見なすとO(log n)の計算である。

また、各Z値探索ノードについて、range_search_1dにO(log n)の計算が必要である。これにより、本実施の形態における手法は、O(n^(d-2)/d)個のZ値探索ノードについて、それぞれO(log n) + O(log n)の計算が必要になり、合計の計算量はO(n^(d-2)/d log n)となる。

ただし、d=2の場合は特殊である。d-1=1次元が包含された時点で探索ループを抜けるので、分割されたノードの数は、包括次元数が0となるノードの数O(log n)に比例する。各ノードについてO(log n)の計算が必要になるので、d=2の場合の計算量はO(log²n)となる。

以上はクエリ領域に包含される点を数えるカウント・クエリの場合であるが、包含される点全てについてリストを出力するレポート・クエリには、出力される点の数をFとして、それぞれについてO(log n)の計算時間がかかる。まとめると、図１２に示す通りとなる。図１２に示すように、本発明によれば、kd木を用いて探索処理を行なう場合よりも計算量のオーダが改善されており、しかも従来のウェーブレット木と異なり、３次元以上にも適用できる。図１２は、本発明と従来手法との計算量の比較を示す図である。

［プログラム］
本発明の実施の形態におけるプログラムは、コンピュータに、図６に示すステップＡ１〜Ａ５を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態における情報処理装置と情報処理方法とを実現することができる。この場合、コンピュータのＣＰＵ（Central Processing Unit）は、検索部１０、集計部２０、入力受付部３０、及び出力部４０として機能し、処理を行なう。また、本実施の形態では、記憶部５０は、コンピュータに備えられたハードディスク等の記憶装置に、これらを構成するデータファイルを格納することによって実現される。

なお、本実施の形態におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されても良い。この場合は、例えば、各コンピュータが、それぞれ、検索部１０、集計部２０、入力受付部３０、及び出力部４０として機能しても良い。また、記憶部５０は、本実施の形態におけるプログラムを実行するコンピュータとは別のコンピュータ上に構築されていても良い。

ここで、本実施の形態におけるプログラムを実行することによって、情報処理装置１００を実現するコンピュータについて図１３を用いて説明する。図１３は、本発明の実施の形態における情報処理装置を実現するコンピュータの一例を示すブロック図である。

図１３に示すように、コンピュータ１１０は、ＣＰＵ１１１と、メインメモリ１１２と、記憶装置１１３と、入力インターフェイス１１４と、表示コントローラ１１５と、データリーダ／ライタ１１６と、通信インターフェイス１１７とを備える。これらの各部は、バス１２１を介して、互いにデータ通信可能に接続される。

ＣＰＵ１１１は、記憶装置１１３に格納された、本実施の形態におけるプログラム（コード）をメインメモリ１１２に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ１１２は、典型的には、ＤＲＡＭ（Dynamic Random Access Memory）等の揮発性の記憶装置である。また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体１２０に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス１１７を介して接続されたインターネット上で流通するものであっても良い。

また、記憶装置１１３の具体例としては、ハードディスクドライブの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス１１４は、ＣＰＵ１１１と、キーボード及びマウスといった入力機器１１８との間のデータ伝送を仲介する。表示コントローラ１１５は、ディスプレイ装置１１９と接続され、ディスプレイ装置１１９での表示を制御する。

データリーダ／ライタ１１６は、ＣＰＵ１１１と記録媒体１２０との間のデータ伝送を仲介し、記録媒体１２０からのプログラムの読み出し、及びコンピュータ１１０における処理結果の記録媒体１２０への書き込みを実行する。通信インターフェイス１１７は、ＣＰＵ１１１と、他のコンピュータとの間のデータ伝送を仲介する。

また、記録媒体１２０の具体例としては、ＣＦ（Compact Flash（登録商標））及びＳＤ（Secure Digital）等の汎用的な半導体記憶デバイス、フレキシブルディスク（Flexible Disk）等の磁気記憶媒体、又はＣＤ−ＲＯＭ（Compact Disk Read Only Memory）などの光学記憶媒体が挙げられる。

また、上述した実施の形態の一部又は全部は、以下に記載する（付記１）〜（付記２１）によって表現することができるが、以下の記載に限定されるものではない。

（付記１）
多次元空間上の点の集合を表現するデータ構造を処理対象とする情報処理装置であって、
前記点の特徴値を表すビット表現から得られる接頭辞を特徴値接頭辞とし、前記点の特定の次元での座標を表すビット表現から得られる接頭辞を座標接頭辞として、
クエリ領域として、特定の多次元の領域が指定された場合に、
前記データ構造を構築している多次元の領域において、前記特徴値接頭辞で始まる領域と次元毎の前記座標接頭辞で始まる領域との共通部分として表現され、且つ、前記クエリ領域に含まれる、領域を特定し、
特定した領域に対応するデータ構造上の区間である選定区間を出力する、検索部と、
前記選定区間を用いて前記クエリ領域に含まれる点の集合に関する情報を計算する、集計部と、
を備えていることを特徴とする情報処理装置。

（付記２）
前記データ構造が、
多次元上の前記点の集合それぞれの前記特徴値を、昇順に並べて得られる、特徴値列から、各次元について、前記特徴値の並び順と同じ順序で、各点の当該次元での座標を取り出すことで得られる座標列を用いて、次元毎に、前記座標列から、座標のビット表現が同じ座標接頭辞で始まる座標だけを、前記順番と同じ順序を保ったまま抽出して得られる部分列の、ビット表現の一部を用いて表現され、且つ、
前記部分列上の区間であって、当該区間に含まれる座標に対応した点の特徴値のビット表現が前記特徴値接頭辞から始まっている区間を特定できるように、
構築されており、
前記検索部が、
前記部分列上の区間であって、当該区間に含まれる座標に対応する点の特徴値のビット表現が前記特徴値接頭辞で始まっており、且つ、当該区間に含まれる座標に対応する点の集合が全て前記クエリ領域に包含される区間を、前記選定区間として出力する、
付記１に記載の情報処理装置。

（付記３）
前記検索部が、
前記部分列上の区間であって、当該区間に含まれる座標に対応した点の特徴値のビット表現が前記特徴値接頭辞から始まっている区間について、この区間に含まれる座標に対応する点の集合が前記クエリ領域に完全に包含される区間であるかどうかを判定し、
判定の結果、前記クエリ領域に完全に包含される区間ではない場合に、
前記判定の対象となった前記部分列の抽出に用いられる前記座標接頭辞を延長して、第二の座標接頭辞を設定し、
そして、前記第二の接頭辞を用いて座標を抽出して得られた第二の部分列上の区間であって、前記第二の部分列上の区間に含まれる座標に対応する点の特徴値のビット表現が前記特徴値接頭辞で始まっており、且つ、前記第二の部分列上の区間に含まれる座標に対応する点の集合が全て前記クエリ領域に包含される区間を、前記選定区間として出力する、
付記２に記載の情報処理装置。

（付記４）
前記点の特徴値が、前記点の各次元の座標のビット表現を交互に組み合わせて得られるビット表現に基づく値である、
付記１に記載の情報処理装置。

（付記５）
前記データ構造が、複数のノードを有し、前記複数のノードそれぞれは、前記部分列に対応する各座標のビット表現における特定の桁のビットだけを取り出し、前記部分列と同じ順序で並べた前記ビットの列を用いて表現され、
前記部分列上の区間であって、当該区間に含まれる座標に対応した点の特徴値のビット表現が前記特徴値接頭辞から始まっている区間を特定できるように、
構築されている、
付記２に記載の情報処理装置。

（付記６）
前記集計部が、前記情報として、前記選定区間の長さを合計した値を計算し、計算した値を出力する、
付記１に記載の情報処理装置。

（付記７）
前記集計部が、前記情報として、前記選定区間に含まれる各次元の座標を全て計算し、計算した全ての座標を出力する、
付記１に記載の情報処理装置。

（付記８）
多次元空間上の点の集合を表現するデータ構造を処理対象とする情報処理方法であって、
（ａ）前記点の特徴値を表すビット表現から得られる接頭辞を特徴値接頭辞とし、前記点の特定の次元での座標を表すビット表現から得られる接頭辞を座標接頭辞として、
クエリ領域として、特定の多次元の領域が指定された場合に、
前記データ構造を構築している多次元の領域において、前記特徴値接頭辞で始まる領域と次元毎の前記座標接頭辞で始まる領域との共通部分として表現され、且つ、前記クエリ領域に含まれる、領域を特定する、ステップと、
（ｂ）前記（ａ）のステップで特定した領域に対応するデータ構造上の区間である選定区間を出力する、ステップと、
（ｃ）前記選定区間を用いて前記クエリ領域に含まれる点の集合に関する情報を計算する、ステップと、
を有することを特徴とする情報処理方法。

（付記９）
前記データ構造が、
多次元上の前記点の集合それぞれの前記特徴値を、昇順に並べて得られる、特徴値列から、各次元について、前記特徴値の並び順と同じ順序で、各点の当該次元での座標を取り出すことで得られる座標列を用いて、次元毎に、前記座標列から、座標のビット表現が同じ座標接頭辞で始まる座標だけを、前記順番と同じ順序を保ったまま抽出して得られる部分列の、ビット表現の一部を用いて表現され、且つ、
前記部分列上の区間であって、当該区間に含まれる座標に対応した点の特徴値のビット表現が前記特徴値接頭辞から始まっている区間を特定できるように、
構築されており、
前記（ａ）のステップにおいて、
前記部分列上の区間であって、当該区間に含まれる座標に対応する点の特徴値のビット表現が前記特徴値接頭辞で始まっており、且つ、当該区間に含まれる座標に対応する点の集合が全て前記クエリ領域に包含される区間を、前記選定区間として出力する、
付記８に記載の情報処理方法。

（付記１０）
前記（ａ）のステップにおいて、
前記部分列上の区間であって、当該区間に含まれる座標に対応した点の特徴値のビット表現が前記特徴値接頭辞から始まっている区間について、この区間に含まれる座標に対応する点の集合が前記クエリ領域に完全に包含される区間であるかどうかを判定し、
判定の結果、前記クエリ領域に完全に包含される区間ではない場合に、
前記判定の対象となった前記部分列の抽出に用いられる前記座標接頭辞を延長して、第二の座標接頭辞を設定し、
そして、前記第二の接頭辞を用いて座標を抽出して得られた第二の部分列上の区間であって、前記第二の部分列上の区間に含まれる座標に対応する点の特徴値のビット表現が前記特徴値接頭辞で始まっており、且つ、前記第二の部分列上の区間に含まれる座標に対応する点の集合が全て前記クエリ領域に包含される区間を、前記選定区間として出力する、
付記９に記載の情報処理方法。

（付記１１）
前記点の特徴値が、前記点の各次元の座標のビット表現を交互に組み合わせて得られるビット表現に基づく値である、
付記８に記載の情報処理方法。

（付記１２）
前記データ構造が、複数のノードを有し、前記複数のノードそれぞれは、前記部分列に対応する各座標のビット表現における特定の桁のビットだけを取り出し、前記部分列と同じ順序で並べた前記ビットの列を用いて表現され、
前記部分列上の区間であって、当該区間に含まれる座標に対応した点の特徴値のビット表現が前記特徴値接頭辞から始まっている区間を特定できるように、
構築されている、
付記９に記載の情報処理方法。

（付記１３）
前記（ｃ）のステップにおいて、前記情報として、前記選定区間の長さを合計した値を計算し、計算した値を出力する、
付記８に記載の情報処理方法。

（付記１４）
前記（ｃ）のステップにおいて、前記情報として、前記選定区間に含まれる各次元の座標を全て計算し、計算した全ての座標を出力する、
付記８に記載の情報処理方法。

（付記１５）
コンピュータによって、多次元空間上の点の集合を表現するデータ構造を処理対象として情報処理を行なうためのプログラムであって、
前記コンピュータに、
（ａ）前記点の特徴値を表すビット表現から得られる接頭辞を特徴値接頭辞とし、前記点の特定の次元での座標を表すビット表現から得られる接頭辞を座標接頭辞として、
クエリ領域として、特定の多次元の領域が指定された場合に、
前記データ構造を構築している多次元の領域において、前記特徴値接頭辞で始まる領域と次元毎の前記座標接頭辞で始まる領域との共通部分として表現され、且つ、前記クエリ領域に含まれる、領域を特定する、ステップと、
（ｂ）前記（ａ）のステップで特定した領域に対応するデータ構造上の区間である選定区間を出力する、ステップと、
（ｃ）前記選定区間を用いて前記クエリ領域に含まれる点の集合に関する情報を計算する、ステップと、
を実行させる、プログラム。

（付記１６）
前記データ構造が、
多次元上の前記点の集合それぞれの前記特徴値を、昇順に並べて得られる、特徴値列から、各次元について、前記特徴値の並び順と同じ順序で、各点の当該次元での座標を取り出すことで得られる座標列を用いて、次元毎に、前記座標列から、座標のビット表現が同じ座標接頭辞で始まる座標だけを、前記順番と同じ順序を保ったまま抽出して得られる部分列の、ビット表現の一部を用いて表現され、且つ、
前記部分列上の区間であって、当該区間に含まれる座標に対応した点の特徴値のビット表現が前記特徴値接頭辞から始まっている区間を特定できるように、
構築されており、
前記（ａ）のステップにおいて、
前記部分列上の区間であって、当該区間に含まれる座標に対応する点の特徴値のビット表現が前記特徴値接頭辞で始まっており、且つ、当該区間に含まれる座標に対応する点の集合が全て前記クエリ領域に包含される区間を、前記選定区間として出力する、
付記１５に記載のプログラム。

（付記１７）
前記（ａ）のステップにおいて、
前記部分列上の区間であって、当該区間に含まれる座標に対応した点の特徴値のビット表現が前記特徴値接頭辞から始まっている区間について、この区間に含まれる座標に対応する点の集合が前記クエリ領域に完全に包含される区間であるかどうかを判定し、
判定の結果、前記クエリ領域に完全に包含される区間ではない場合に、
前記判定の対象となった前記部分列の抽出に用いられる前記座標接頭辞を延長して、第二の座標接頭辞を設定し、
そして、前記第二の接頭辞を用いて座標を抽出して得られた第二の部分列上の区間であって、前記第二の部分列上の区間に含まれる座標に対応する点の特徴値のビット表現が前記特徴値接頭辞で始まっており、且つ、前記第二の部分列上の区間に含まれる座標に対応する点の集合が全て前記クエリ領域に包含される区間を、前記選定区間として出力する、
付記１６に記載のプログラム。

（付記１８）
前記点の特徴値が、前記点の各次元の座標のビット表現を交互に組み合わせて得られるビット表現に基づく値である、
付記１５に記載のプログラム。

（付記１９）
前記データ構造が、複数のノードを有し、前記複数のノードそれぞれは、前記部分列に対応する各座標のビット表現における特定の桁のビットだけを取り出し、前記部分列と同じ順序で並べた前記ビットの列を用いて表現され、
前記部分列上の区間であって、当該区間に含まれる座標に対応した点の特徴値のビット表現が前記特徴値接頭辞から始まっている区間を特定できるように、
構築されている、
付記１６に記載のプログラム。

（付記２０）
前記（ｃ）のステップにおいて、前記情報として、前記選定区間の長さを合計した値を計算し、計算した値を出力する、
付記１５に記載のプログラム。

（付記２１）
前記（ｃ）のステップにおいて、前記情報として、前記選定区間に含まれる各次元の座標を全て計算し、計算した全ての座標を出力する、
付記１５に記載のプログラム。

以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

この出願は、２０１４年９月１９日に出願された日本出願特願２０１４−１９１１０２を基礎とする優先権を主張し、その開示の全てをここに取り込む。

以上のように、本発明によれば、任意の次元dについて、線形サイズで、kd木よりも高速な矩形範囲検索を実現することができる。本発明は、大量のデータ群から必要なデータを探索する必要がある種々の分野において有用である。

１０検索部
２０集計部
３０入力受付部
４０出力部
５０記憶部
５１データ構造
１００情報処理装置
１１０コンピュータ
１１１ＣＰＵ
１１２メインメモリ
１１３記憶装置
１１４入力インターフェイス
１１５表示コントローラ
１１６データリーダ／ライタ
１１７通信インターフェイス
１１８入力機器
１１９ディスプレイ装置
１２０記録媒体
１２１バス

Claims

多次元空間上の点の集合を表現するデータ構造を処理対象とする情報処理装置であって、
前記点の特徴値を表すビット表現から得られる接頭辞を特徴値接頭辞とし、前記点の特定の次元での座標を表すビット表現から得られる接頭辞を座標接頭辞として、
クエリ領域として、特定の多次元の領域が指定された場合に、
前記データ構造を構築している多次元の領域において、前記特徴値接頭辞で始まる領域と次元毎の前記座標接頭辞で始まる領域との共通部分として表現され、且つ、前記クエリ領域に含まれる、領域を特定し、
特定した領域に対応するデータ構造上の区間である選定区間を出力する、検索部と、
前記選定区間を用いて前記クエリ領域に含まれる点の集合に関する情報を計算する、集計部と、
を備えていることを特徴とする情報処理装置。
前記データ構造が、
多次元上の前記点の集合それぞれの前記特徴値を、昇順に並べて得られる、特徴値列から、各次元について、前記特徴値の並び順と同じ順序で、各点の当該次元での座標を取り出すことで得られる座標列を用いて、次元毎に、前記座標列から、座標のビット表現が同じ座標接頭辞で始まる座標だけを、前記順番と同じ順序を保ったまま抽出して得られる部分列の、ビット表現の一部を用いて表現され、且つ、
前記部分列上の区間であって、当該区間に含まれる座標に対応した点の特徴値のビット表現が前記特徴値接頭辞から始まっている区間を特定できるように、
構築されており、
前記検索部が、
前記部分列上の区間であって、当該区間に含まれる座標に対応する点の特徴値のビット表現が前記特徴値接頭辞で始まっており、且つ、当該区間に含まれる座標に対応する点の集合が全て前記クエリ領域に包含される区間を、前記選定区間として出力する、
請求項１に記載の情報処理装置。
前記検索部が、
前記部分列上の区間であって、当該区間に含まれる座標に対応した点の特徴値のビット表現が前記特徴値接頭辞から始まっている区間について、この区間に含まれる座標に対応する点の集合が前記クエリ領域に完全に包含される区間であるかどうかを判定し、
判定の結果、前記クエリ領域に完全に包含される区間ではない場合に、
前記判定の対象となった前記部分列の抽出に用いられる前記座標接頭辞を延長して、第二の座標接頭辞を設定し、
そして、前記第二の接頭辞を用いて座標を抽出して得られた第二の部分列上の区間であって、前記第二の部分列上の区間に含まれる座標に対応する点の特徴値のビット表現が前記特徴値接頭辞で始まっており、且つ、前記第二の部分列上の区間に含まれる座標に対応する点の集合が全て前記クエリ領域に包含される区間を、前記選定区間として出力する、
請求項２に記載の情報処理装置。
前記点の特徴値が、前記点の各次元の座標のビット表現を交互に組み合わせて得られるビット表現に基づく値である、
請求項１〜３のいずれかに記載の情報処理装置。
前記データ構造が、複数のノードを有し、前記複数のノードそれぞれは、前記部分列に対応する各座標のビット表現における特定の桁のビットだけを取り出し、前記部分列と同じ順序で並べた前記ビットの列を用いて表現され、
前記部分列上の区間であって、当該区間に含まれる座標に対応した点の特徴値のビット表現が前記特徴値接頭辞から始まっている区間を特定できるように、
構築されている、
請求項２または３に記載の情報処理装置。
前記集計部が、前記情報として、前記選定区間の長さを合計した値を計算し、計算した値を出力する、
請求項１〜５のいずれかに記載の情報処理装置。
前記集計部が、前記情報として、前記選定区間に含まれる各次元の座標を全て計算し、計算した全ての座標を出力する、
請求項１〜５のいずれかに記載の情報処理装置。
多次元空間上の点の集合を表現するデータ構造を処理対象とする情報処理方法であって、
（ａ）コンピュータによって、前記点の特徴値を表すビット表現から得られる接頭辞を特徴値接頭辞とし、前記点の特定の次元での座標を表すビット表現から得られる接頭辞を座標接頭辞として、
クエリ領域として、特定の多次元の領域が指定された場合に、
前記データ構造を構築している多次元の領域において、前記特徴値接頭辞で始まる領域と次元毎の前記座標接頭辞で始まる領域との共通部分として表現され、且つ、前記クエリ領域に含まれる、領域を特定する、ステップと、
（ｂ）前記コンピュータによって、前記（ａ）のステップで特定した領域に対応するデータ構造上の区間である選定区間を出力する、ステップと、
（ｃ）前記コンピュータによって、前記選定区間を用いて前記クエリ領域に含まれる点の集合に関する情報を計算する、ステップと、
を有することを特徴とする情報処理方法。
前記データ構造が、
多次元上の前記点の集合それぞれの前記特徴値を、昇順に並べて得られる、特徴値列から、各次元について、前記特徴値の並び順と同じ順序で、各点の当該次元での座標を取り出すことで得られる座標列を用いて、次元毎に、前記座標列から、座標のビット表現が同じ座標接頭辞で始まる座標だけを、前記順番と同じ順序を保ったまま抽出して得られる部分列の、ビット表現の一部を用いて表現され、且つ、
前記部分列上の区間であって、当該区間に含まれる座標に対応した点の特徴値のビット表現が前記特徴値接頭辞から始まっている区間を特定できるように、
構築されており、
前記（ａ）のステップにおいて、
前記部分列上の区間であって、当該区間に含まれる座標に対応する点の特徴値のビット表現が前記特徴値接頭辞で始まっており、且つ、当該区間に含まれる座標に対応する点の集合が全て前記クエリ領域に包含される区間を、前記選定区間として出力する、
請求項８に記載の情報処理方法。
前記（ａ）のステップにおいて、
前記部分列上の区間であって、当該区間に含まれる座標に対応した点の特徴値のビット表現が前記特徴値接頭辞から始まっている区間について、この区間に含まれる座標に対応する点の集合が前記クエリ領域に完全に包含される区間であるかどうかを判定し、
判定の結果、前記クエリ領域に完全に包含される区間ではない場合に、
前記判定の対象となった前記部分列の抽出に用いられる前記座標接頭辞を延長して、第二の座標接頭辞を設定し、
そして、前記第二の接頭辞を用いて座標を抽出して得られた第二の部分列上の区間であって、前記第二の部分列上の区間に含まれる座標に対応する点の特徴値のビット表現が前記特徴値接頭辞で始まっており、且つ、前記第二の部分列上の区間に含まれる座標に対応する点の集合が全て前記クエリ領域に包含される区間を、前記選定区間として出力する、
請求項９に記載の情報処理方法。
前記点の特徴値が、前記点の各次元の座標のビット表現を交互に組み合わせて得られるビット表現に基づく値である、
請求項８〜１０のいずれかに記載の情報処理方法。
前記データ構造が、複数のノードを有し、前記複数のノードそれぞれは、前記部分列に対応する各座標のビット表現における特定の桁のビットだけを取り出し、前記部分列と同じ順序で並べた前記ビットの列を用いて表現され、
前記部分列上の区間であって、当該区間に含まれる座標に対応した点の特徴値のビット表現が前記特徴値接頭辞から始まっている区間を特定できるように、
構築されている、
請求項９または１０に記載の情報処理方法。
前記（ｃ）のステップにおいて、前記情報として、前記選定区間の長さを合計した値を計算し、計算した値を出力する、
請求項８〜１２のいずれかに記載の情報処理方法。
前記（ｃ）のステップにおいて、前記情報として、前記選定区間に含まれる各次元の座標を全て計算し、計算した全ての座標を出力する、
請求項８〜１２のいずれかに記載の情報処理方法。
コンピュータによって、多次元空間上の点の集合を表現するデータ構造を処理対象として情報処理を行なうためのプログラムであって、
前記コンピュータに、
（ａ）前記点の特徴値を表すビット表現から得られる接頭辞を特徴値接頭辞とし、前記点の特定の次元での座標を表すビット表現から得られる接頭辞を座標接頭辞として、
クエリ領域として、特定の多次元の領域が指定された場合に、
前記データ構造を構築している多次元の領域において、前記特徴値接頭辞で始まる領域と次元毎の前記座標接頭辞で始まる領域との共通部分として表現され、且つ、前記クエリ領域に含まれる、領域を特定する、ステップと、
（ｂ）前記（ａ）のステップで特定した領域に対応するデータ構造上の区間である選定区間を出力する、ステップと、
（ｃ）前記選定区間を用いて前記クエリ領域に含まれる点の集合に関する情報を計算する、ステップと、
を実行させる、プログラム。
前記データ構造が、
多次元上の前記点の集合それぞれの前記特徴値を、昇順に並べて得られる、特徴値列から、各次元について、前記特徴値の並び順と同じ順序で、各点の当該次元での座標を取り出すことで得られる座標列を用いて、次元毎に、前記座標列から、座標のビット表現が同じ座標接頭辞で始まる座標だけを、前記順番と同じ順序を保ったまま抽出して得られる部分列の、ビット表現の一部を用いて表現され、且つ、
前記部分列上の区間であって、当該区間に含まれる座標に対応した点の特徴値のビット表現が前記特徴値接頭辞から始まっている区間を特定できるように、
構築されており、
前記（ａ）のステップにおいて、
前記部分列上の区間であって、当該区間に含まれる座標に対応する点の特徴値のビット表現が前記特徴値接頭辞で始まっており、且つ、当該区間に含まれる座標に対応する点の集合が全て前記クエリ領域に包含される区間を、前記選定区間として出力する、
請求項１５に記載のプログラム。
前記（ａ）のステップにおいて、
前記部分列上の区間であって、当該区間に含まれる座標に対応した点の特徴値のビット表現が前記特徴値接頭辞から始まっている区間について、この区間に含まれる座標に対応する点の集合が前記クエリ領域に完全に包含される区間であるかどうかを判定し、
判定の結果、前記クエリ領域に完全に包含される区間ではない場合に、
前記判定の対象となった前記部分列の抽出に用いられる前記座標接頭辞を延長して、第二の座標接頭辞を設定し、
そして、前記第二の接頭辞を用いて座標を抽出して得られた第二の部分列上の区間であって、前記第二の部分列上の区間に含まれる座標に対応する点の特徴値のビット表現が前記特徴値接頭辞で始まっており、且つ、前記第二の部分列上の区間に含まれる座標に対応する点の集合が全て前記クエリ領域に包含される区間を、前記選定区間として出力する、
請求項１６に記載のプログラム。
前記点の特徴値が、前記点の各次元の座標のビット表現を交互に組み合わせて得られるビット表現に基づく値である、
請求項１５〜１７のいずれかに記載のプログラム。
前記データ構造が、複数のノードを有し、前記複数のノードそれぞれは、前記部分列に対応する各座標のビット表現における特定の桁のビットだけを取り出し、前記部分列と同じ順序で並べた前記ビットの列を用いて表現され、
前記部分列上の区間であって、当該区間に含まれる座標に対応した点の特徴値のビット表現が前記特徴値接頭辞から始まっている区間を特定できるように、
構築されている、
請求項１６または１７に記載のプログラム。
前記（ｃ）のステップにおいて、前記情報として、前記選定区間の長さを合計した値を計算し、計算した値を出力する、
請求項１５〜１９のいずれかに記載のプログラム。
前記（ｃ）のステップにおいて、前記情報として、前記選定区間に含まれる各次元の座標を全て計算し、計算した全ての座標を出力する、
請求項１５〜１９のいずれかに記載のプログラム。