JP7464142B2

JP7464142B2 - データ分析処理装置、データ分析処理方法、およびプログラム

Info

Publication number: JP7464142B2
Application number: JP2022558636A
Authority: JP
Inventors: 哲八木
Original assignee: Nippon Telegraph and Telephone Corp; NTT Inc
Current assignee: Nippon Telegraph and Telephone Corp; NTT Inc
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2024-04-09
Anticipated expiration: 2040-10-27
Also published as: JPWO2022091204A1; WO2022091204A1

Description

この発明の一態様は、データ分析処理装置、データ分析処理方法、およびプログラムに関する。

実世界の事象は、時間的に、空間的に、或いはその双方にわたって変化する。つまり事象は、生成したり、消滅したり、状態が遷移したりする。事象を体現するデータは、データ分析技術に言うところの多次元キューブに写像されることができる。データ分析処理装置は、多次元キューブにオンライン分析処理（Online Analytical Processing：ＯＬＡＰ）操作を実行して、データを分析する。データ分析処理装置は、例えば、非特許文献１に開示されているような手法を用いる。

データ分析処理装置は、或る多次元キューブにＯＬＡＰ操作を実行するとき、クライアントから指示された引数を、ＯＬＡＰ操作の引数として利用する。また、データ分析処理装置は、ＯＬＡＰ操作を実行するために、関係データベース（Relational Database）を利用することができる。従って新たに、ある多次元キューブに対してＯＬＡＰ操作を実行する場合に、ＯＬＡＰ操作の引数として他の多次元キューブを構成するデータを利用しようと試みる場合において、ある多次元キューブを構成するデータを、他の多次元キューブを構成するデータをキーとして検索／操作する場合に、関係データベースの高速化手段を利用することができる。例えば、非特許文献２に開示されているような高速化手段を利用することができる。

多次元キューブを構成する各次元のデータ／各特性を表すデータのうち最大２項目のデータを、多次元キューブの間で共通する１次元の値域のリスト、名称のリスト、ハッシュ関数のいずれかに基づく値域で分類し、データが属する唯一の値域に対応するストレージ領域に蓄積及び管理する。
多次元キューブを構成する各次元のデータ／各特性を表すデータの分類に用いた値域を索引として利用することにより、単一の検索／操作を実行する場合には、両多次元キューブの同一値域に対応するストレージ領域に検索／操作する範囲を限定するとともに、複数の検索／操作を同時実行する場合には、さらに検索／操作するストレージ領域の競合を回避する。

Pedersen,T.B. and Jensen,C.S.: Multidimensional Data base Technology, IEEE Computer, Vol.34, No.12, pp.40-46 (2001). Oracle: VLDB およびパーティショニング・ガイド19c，pp.58-63，99-107 (2019)．

従来のデータ分析処理装置では、関係データベースの高速化手段を利用できたとしても、その手段は、限られた範囲でしか利用できなかった。つまり、多次元キューブを構成する各次元のデータ／各特性を表すデータのそれぞれが１次元データである場合に適用できる手法は、上記データのそれぞれが多次元データである場合に適用できない。また、値域で分類したデータが複数の値域に属する場合においても、検索／操作するストレージ領域の競合を回避して高速化を促すことができない。
詳しくは、従来のデータ分析処理装置は、新たに、ある多次元キューブに対してＯＬＡＰ操作を実行する場合に、ＯＬＡＰ操作の引数として他の多次元キューブを構成するデータを利用しようと試みる場合において、ある多次元キューブを構成するデータを、他の多次元キューブを構成するデータをキーとして検索／操作する場合に、関係データベースの高速化手段を利用することができる。しかし、高速化可能な範囲が限定されていた。
例えば、従来のデータ分析処理装置は、多次元キューブを構成する各次元のデータ／各特性を表すデータのそれぞれが１次元データである場合には、データのうち最大２項目のデータを、多次元キューブの間で共通する１次元の値域のリスト、名称のリスト、ハッシュ関数のいずれかに基づく値域で分類し、値域で分類したデータが単一の値域に属する場合には、データが属する唯一の値域に対応するストレージ領域に蓄積及び管理し、単一の検索／操作を実行する場合には、両多次元キューブの同一値域に対応するストレージ領域に検索／操作する範囲を限定するとともに、複数の検索／操作を同時実行する場合には、さらに検索／操作するストレージ領域の競合を回避することにより、高速化することができた。
しかし、多次元キューブを構成する各次元のデータ／各特性を表すデータのそれぞれが多次元データである場合に、データを、多次元キューブ間で共通する多次元の値域で分類することや、値域で分類したデータが複数の値域に属する場合に、各値域に対応するストレージ領域に重複して蓄積及び管理することはできない。したがって、多次元キューブを構成する各次元のデータ／各特性を表すデータのそれぞれが多次元データである場合や、値域で分類したデータが複数の値域に属する場合において、単一の検索／操作を実行する場合には、検索／操作する範囲に限定するとともに、複数の検索／操作を同時実行する場合には、さらに検索／操作するストレージ領域の競合を回避することにより、高速化することができなかった。

この発明は、上記事情に着目してなされたもので、多次元キューブへのＯＬＡＰ操作を高速に実行できる技術を提供しようとするものである。

この発明の一態様に係るデータ分析処理装置は、多次元データベース、ＯＬＡＰ操作実行部、および多次元データベース管理部を具備する。多次元データベースは、主題ごとに構築される多次元キューブに、実世界の事象を体現するデータを当該事象の識別子と対応付けて蓄積する。ＯＬＡＰ操作実行部は、クライアントからの要求に応じて多次元キューブに対するＯＬＡＰ（Online Analytical Processing）操作を実行する。
また、ＯＬＡＰ操作実行部は、ある多次元キューブに対してＯＬＡＰ操作を実行する場合に、ＯＬＡＰ操作の引数としてクライアントから指示された引数、または、他の多次元キューブを構成するデータの少なくともいずれかを利用する。
多次元データベース管理部は、多次元キューブにおいて、時間次元のデータと、空間次元のデータと、複数種別の固有次元のデータと、複数種別の特性を表すデータとを管理する。この多次元データベース管理部は、多次元キューブを構成するデータのそれぞれが多次元データであれば、当該多次元キューブの間で共通する多次元の値域で当該多次元データを分類する。
より詳しくは、多次元データベース管理部は、多次元キューブを構成する各次元のデータ／各特性を表すデータのそれぞれが多次元データであれば、当該多次元キューブの間で共通する多次元の値域で分類する。値域で分類したデータが単一の値域に属する場合には、多次元データベース管理部は、当該データを値域に対応するストレージ領域に蓄積及び管理する。値域で分類したデータが複数の値域に属する場合には、多次元データベース管理部は、当該データを各値域に対応するストレージ領域に当該データの実体、または当該データの参照を重複して蓄積及び管理する。
また、多次元データベース管理部は、多次元キューブを構成するデータを他の多次元キューブを構成するデータをキーとして検索／操作する場合に、分類に用いた値域を索引として利用することにより、単一の検索／操作を実行する場合には、両多次元キューブの同一値域に対応するストレージ領域と、両多次元キューブの同一値域の近傍の値域に対応するストレージ領域とに、検索／操作する範囲を限定するとともに、複数の検索／操作を同時並行に実行する場合には、さらに検索／操作するストレージ領域の競合を回避する。

この発明の一態様によれば、多次元キューブへのＯＬＡＰ操作を高速に実行できる技術を提供することができる。

図１は、この発明に係るデータ分析処理装置の一例を示す機能ブロック図である。図２は、多次元データベース１６におけるデータの蓄積状態について説明するための図である。図３は、最も広いデータあるいは主要なデータを包含する広さの値域の一例を示す図である。図４は、上位の値域が下位の隣接する値域を包含する値域の階層と対応するストレージ領域の一例を示す図である。図５は、データ分析処理装置１０の動作の一例を説明するためのシーケンス図である。図６は、多次元データベース管理部１５の処理手順の一例を示すフローチャートである。図７は、多次元データベース管理部１５がストレージ領域における検索／操作する範囲を限定する処理の一例を説明するための図である。図８は、多次元データベース管理部１５がストレージ領域における検索／操作する範囲を限定する処理の他の例を説明するための図である。図９は、多次元データベース管理部１５が検索／操作するストレージ領域の競合を回避する動作の一例を説明するための図である。図１０は、多次元データベース管理部１５が検索／操作するストレージ領域の競合を回避する動作の他の例を説明するための図である。図１１は、多次元データベース管理部１５が値域の階層を選択する処理の一例を説明するための図である。図１２は、複数のストレージ領域に対応する値域を選択した場合に、冗長な処理を抑制する動作の一例を説明するための模式図である。図１３は、図１２に示される状況を表す表形式データの一例を示す図である。図１４は、この発明に係るデータ分析処理装置のハードウェア構成の一例を示すブロック図である。

以下、図面を参照してこの発明に係わる実施形態を説明する。

（構成）
図１は、この発明に係るデータ分析処理装置の一例を示す機能ブロック図である。データ分析処理装置１０は、ＯＬＡＰ操作実行部１１と、多次元データベース管理部１５と、多次元データベース１６とを備える。

多次元データベース１６は、実世界の事象を体現するデータを、そのデータの情報源である事象を識別するための事象の識別子と対応付けて多次元キューブに蓄積する。多次元キューブは主題ごとに構築される。蓄積されるデータは、時間次元のデータと、空間次元のデータと、複数種別の固有次元のデータと、複数種別の特性を表すデータとを含む。固有次元のデータには、主題に依存する複数の種別がある。特性を表すデータは、時間次元、空間次元、固有次元のデータにより識別される。特性を表すデータには、主題に依存する複数の種別がある。

多次元キューブを構成する各次元のデータ／各特性を表すデータのそれぞれが多次元データである場合には、多次元データベース１６は、多次元キューブの間で共通する多次元の値域で多次元データを分類する。そして、値域で分類したデータが単一の値域に属する場合に、多次元データベース１６は、値域に対応するストレージ領域にデータを蓄積する。さらに、値域で分類したデータが複数の値域に属する場合は、多次元データベース１６は、各値域に対応するストレージ領域にデータの実体、または参照を、重複して蓄積する。

図２は、多次元データベース１６におけるデータの蓄積状態について説明するための図である。図２において、地物などを表す２次元データであるデータａ～ｃを、地域などを表す２次元の値域である値域１～４で分類すると、値域１にデータａ～ｃ、値域２にデータｂ、値域３にデータｃが分類される。データａは値域１に属し、データｂは値域１、２に属し、データｃは値域１、３に属する。

複数の値域に属するデータは、例えば、最も重畳する範囲が広い値域に対応するストレージ領域に、そのデータの実体の本体を蓄積し、それ以外の値域に対応するストレージ領域に、実体の複製、あるいは実体の本体への参照を蓄積する。参照は、例えばストレージに蓄積されたデータのアドレスである。

ストレージ領域に蓄積する、実体の本体と、実体の複製あるいは実体の本体への参照は、例えば、蓄積するストレージ領域内を区分する、蓄積するデータにマーキングする、索引を作成することにより、区別することができる。ストレージ領域に蓄積する、実体の複製と実体の本体への参照は、任意あるいは基準に即して、実体の複製から実体の本体への参照へ、実体の本体への参照から実体の複製へ、変更することができる。

データの実体の複製にアクセスすれば、当該データの実体の複製を蓄積するストレージ領域をアクセスするために、データの実体の複製と、当該データの実体の本体を同時にアクセスしても、アクセスするストレージ領域は競合しない。

データの実体の本体への参照にアクセスすれば、データの実体の本体への参照を蓄積するストレージ領域を経て、参照しているデータの実体の本体を蓄積するストレージ領域をアクセスするために、データの実体の本体への参照と、当該データの実体の本体を同時にアクセスすれば、アクセスするストレージ領域が競合することがある。

ここで、値域の広さは、例えば、最も広いデータを包含できる広さや、主要なデータを包含できる広さにする。このようにすれば、データが属する値域の数を、高々、隣接する値域の数に抑制できる。

多次元データベース１６は、このように、多次元データを多次元の値域で分類し、値域で分類したデータが単一の値域に属する場合に、値域に対応するストレージ領域に当該データを蓄積する。また、値域で分類したデータが複数の値域に属する場合には、多次元データベース１６は、各値域に対応するストレージ領域にデータの実体、あるいは参照を、重複して蓄積する。
なお図２において、*が、データの実体（本体）を表し、**が、データの実体の複製／実体の本体への参照を表す。

図３は、最も広いデータあるいは主要なデータを包含する広さの値域の一例を示す図である。多次元データベース１６に対して、値域の広さを変更する際に、例えば、新たなデータの蓄積を契機として、蓄積済みのデータも含めて、新しい値域の広さに合わせてデータを蓄積しなおす。また、多次元データベース１６に対して、例えば、上位の値域が下位の隣接する値域を包含する値域の階層を構築しておき、状況に応じて利用する値域の階層を選択する。多次元データベース１６に対して、複数のストレージ領域に対応する値域の階層を選択した場合には、複数のストレージ領域に重複して蓄積されているデータを利用しない。

図４は、上位の値域が下位の隣接する値域を包含する値域の階層と対応するストレージ領域の一例を示す図である。

ＯＬＡＰ操作実行部１１は、クライアント２０から受信したＯＬＡＰ操作および引数に応じて、多次元データへのＯＬＡＰ操作を実行する。つまりＯＬＡＰ操作実行部１１は、多次元データへのＯＬＡＰ操作を多次元データベース管理部１５に指示する。また、ＯＬＡＰ操作実行部１１は、指示した操作の結果を多次元データベース管理部１５から受信すると、この操作結果をクライアント２０に送信する。

多次元データベース管理部１５は、ＯＬＡＰ操作実行部１１の指示に応じて、多次元キューブを構成する各次元のデータ／各特性を表すデータの分類に用いた値域の情報を索引情報として参照し、参照した索引情報を基に、検索／操作するストレージ領域を特定する。また、多次元データベース管理部１５は、ストレージ領域に対応する値域を処理単位として、多次元キューブを構成するデータを同時並行に検索／操作する。そして、多次元データベース管理部１５は、検索／操作する全ストレージ領域の検索／操作が終われば、検索／操作した結果を集約して、ＯＬＡＰ操作実行部１１に操作結果を返却する。また、上記のように多次元データベース１６にデータが蓄積され利用されるように、多次元データベース１６を管理する。

（作用）
次に、以上のように構成されたデータ分析処理装置の処理動作を説明する。
図５は、データ分析処理装置１０の動作の一例を説明するためのシーケンス図である。図５において、ＯＬＡＰ操作実行部１１は、クライアント２０からＯＬＡＰ操作と引数を受信すると、それらに応じて多次元データベース管理部１５に多次元データの操作を指示する。

多次元データベース管理部１５は、多次元データの操作指示に応じて、多次元キューブを構成する各次元のデータ／各特性を表すデータの分類に用いた値域の情報を索引情報として参照し、参照した索引情報を基に、検索／操作するストレージ領域を特定する。多次元データベース管理部１５は、ストレージ領域に対応する値域を処理単位として、多次元キューブを構成するデータを同時並行に検索／操作する（図５の破線囲み「ＰＡＲＡＬＬＥＬ」）。

多次元データベース管理部１５は、検索／操作する全ストレージ領域の検索／操作が終わるまで繰り返し（図５の破線囲み「ＬＯＯＰ」）、終了すると、検索／操作した結果を集約して、操作結果をＯＬＡＰ操作実行部１１に返却する。

ＯＬＡＰ操作実行部１１は、受信したＯＬＡＰ操作と引数の内容に応じて、多次元データベース管理部１５への指示を繰り返す（図５の破線囲み「ＬＯＯＰ」）。ＯＬＡＰ操作実行部１１は、ＯＬＡＰ操作と引数の内容に対応する最終的な操作結果を取得すると、そのＯＬＡＰ操作の操作結果をクライアント２０に返却する。

次に、多次元データベース管理部１５の動作の詳細を説明する。
図６は、多次元データベース管理部１５の処理手順の一例を示すフローチャートである。図６において、多次元データベース管理部１５は、ＯＬＡＰ操作実行部１１から多次元データの操作指示の受信を待ち受ける（ステップＳ１１）。操作指示を受信すると、多次元データベース管理部１５は、多次元キューブを構成する各次元のデータ／各特性を表すデータの分類に用いた値域の情報を索引情報として参照する（ステップＳ１２）。

次に、多次元データベース管理部１５は、参照した索引情報を基に、検索／操作するストレージ領域を特定し（ステップＳ１３）、ストレージ領域に対応する値域を処理単位として、多次元キューブを構成するデータを同時並行に検索／操作する（ステップＳ１４１～Ｓ１４Ｎ）。この処理は、ステップＳ１５において、検索／操作する全ストレージ領域の検索／操作が終わったと判定されるまで繰り返される。

このとき、単一の検索／操作を実行する場合には、多次元データベース管理部１５は、両多次元キューブの同一値域に対応するストレージ領域と、両多次元キューブの同一値域の近傍の値域に対応するストレージ領域とに、検索／操作する範囲を限定する。また、多次元データベース管理部１５は、複数の検索／操作を同時並行に実行する場合には、さらに検索／操作するストレージ領域の競合を回避する。そして多次元データベース管理部１５は、検索／操作した結果を集約する（ステップＳ１６）。

このようにして、多次元データベース管理部１５は、多次元データの操作指示に応じて、ある多次元キューブに対してＯＬＡＰ操作を実行する場合に、ＯＬＡＰ操作の引数として他の多次元キューブを構成するデータを利用する場合において、ある多次元キューブを構成するデータを、他の多次元キューブを構成するデータをキーとして検索／操作する。
すなわち多次元データベース管理部１５は、多次元キューブを構成する各次元のデータ／各特性を表すデータの分類に用いた値域を索引として利用することにより、単一の検索／操作を実行する場合には、両多次元キューブの同一値域に対応するストレージ領域と、両多次元キューブの同一値域の近傍の値域に対応するストレージ領域とに、検索／操作する範囲を限定する。また、多次元データベース管理部１５は、複数の検索／操作を同時並行に実行する場合には、さらに検索／操作するストレージ領域の競合を回避する。

図７は、多次元データベース管理部１５がストレージ領域における検索／操作する範囲を限定する処理の一例を説明するための図である。図７に示されるように、多次元データベース管理部１５が、多次元キューブ１を構成するデータを、多次元キューブ０を構成するデータをキーとして検索／操作する場合に、値域０１、０２、０４に分類され対応するストレージ領域０１、０２、０４に蓄積及び管理されるデータに包含あるいは重畳するデータは、それぞれ値域１１、１２、１４に分類され対応するストレージ領域１１、１２、１４に蓄積及び管理されるデータであるために、両多次元キューブの同一値域に対応するストレージ領域である領域０１と１１の組、領域０２と１２の組、領域０４と１４の組とに、検索／操作する範囲を限定できる。

図８は、多次元データベース管理部１５がストレージ領域における検索／操作する範囲を限定する処理の他の例を説明するための図である。図８に示されるように、多次元データベース管理部１５が、多次元キューブ１を構成するデータを、多次元キューブ０を構成するデータをキーとして検索／操作する場合に、値域０１に分類され値域０１に対応するストレージ領域に蓄積及び管理されるデータの重心から点線の円で表される近傍にあるデータは、値域１１と値域１１から点線の円の半径の範囲にある値域１２、１４、１５とに分類され対応するストレージ領域１１、１２、１４、１５に蓄積及び管理されるデータであるために、両多次元キューブの同一値域に対応するストレージ領域と、両多次元キューブの同一値域の近傍の値域に対応するストレージ領域である、領域０１と領域１１、１２、１４、１５の組に、検索／操作する範囲を限定できる。他の値域に分類され当該値域に対応するストレージ領域に蓄積及び管理されるデータについても同様である。

このように、多次元データベース管理部１５は、参照した索引情報を基に、検索／操作するストレージ領域を特定する場合に、両多次元キューブの同一値域に対応するストレージ領域と、両多次元キューブの同一値域の近傍の値域に対応するストレージ領域とに、検索／操作する範囲を限定する。

図９は、多次元データベース管理部１５は検索／操作するストレージ領域の競合を回避する動作の一例を説明するための図である。図７の模式図に対応付けて説明する。図９に示されるように、多次元キューブ１を構成するデータを、多次元キューブ０を構成するデータをキーとして検索／操作する場合に、両多次元キューブの同一値域に対応するストレージ領域である領域０１と１１の組、領域０２と１２の組、領域０４と１４の組を単位として、多次元キューブを構成するデータ同時並行に検索／操作することで、検索／操作するストレージ領域の競合を回避できる。なぜなら、値域０１、０２、０４に分類され対応するストレージ領域０１、０２、０４に蓄積、管理されるデータに包含あるいは重複するデータは、それぞれ領域１１、１２、１４に分類され対応するストレージ領域１１、１２、１４に蓄積、管理されるデータであるからである。

図１０は、多次元データベース管理部１５が検索／操作するストレージ領域の競合を回避する動作の他の例を説明するための図である。図８の模式図に対応付けて説明する。図１０において、多次元キューブ１を構成するデータを、多次元キューブ０を構成するデータをキーとして検索／操作する場合に、図８と同様に、値域０１に分類され値域０１に対応するストレージ領域に蓄積及び管理されるデータの重心から点線の円で表される近傍にあるデータは、値域１１と値域１１から点線の円の半径の範囲にある値域１２、１４、１５とに分類され対応するストレージ領域１１、１２、１４、１５に蓄積及び管理されるデータであり、値域０４に分類され値域０４に対応するストレージ領域に蓄積及び管理されるデータの重心から一点鎖線の円で表される近傍にあるデータは、値域１４と値域１４から点線の円の半径の範囲にある値域１１、１２、１５、１７、１８とに分類され対応するストレージ領域１１、１２、１５、１７、１８に蓄積及び管理されるデータであるために、両多次元キューブの同一値域に対応するストレージ領域と、両多次元キューブの同一値域の近傍の値域に対応するストレージ領域である、領域０１と１５、１４、１２、１１の組、領域０４と１８、１７、１５、１４の組を単位として、前記多次元キューブを構成する前記データ同時並行に検索／操作する場合に、領域０１のデータに対しては領域１５、１４、１２、１１の順、領域０４のデータに対しては領域１８、１７、１５、１４、１２、１１の順というように検索／操作する順番を合わせることで、検索／操作するストレージ領域の競合を回避できる。他の値域に分類され当該値域に対応するストレージ領域に蓄積及び管理されるデータについても同様である。

なお、両多次元キューブの同一値域に対応するストレージ領域と、両多次元キューブの同一値域の近傍の値域に対応するストレージ領域である、領域０１と１５、１４、１２、１１の組、領域０４と１８、１７、１５、１４の組を単位として、多次元キューブを構成するデータ同時並行に検索／操作する。他の値域に分類され当該値域に対応するストレージ領域に蓄積、管理されるデータについても同様である。

図９、および図１０に示されるように、ストレージ領域にデータの実体の複製を蓄積している場合は、データの実体の複製と当該データの実体が異なるストレージ領域にあるので、検索／操作するストレージ領域の競合を完全に回避できる。

一方、ストレージ領域にデータの実体の本体への参照を蓄積している場合は、データの実体の本体への参照先と当該データの実体の本体が同一のストレージ領域にある。このため、当該ストレージ領域において蓄積されている何れかのデータの実体の本体を検索／操作している場合には、検索／操作するストレージ領域の競合を回避できない。一方、当該ストレージ領域においても蓄積されている何れかのデータの実体の本体への参照を検索／操作している場合には、検索／操作するストレージ領域の競合を回避できる。また、実体の複製を蓄積するかわりに実体の本体への参照を蓄積すれば、ストレージ領域の必要量を抑制できる。

このようにして、多次元データベース管理部１５は、参照した索引情報を基に、ストレージ領域に対応する値域を処理単位として、多次元キューブを構成するデータ同時並行に検索／操作する場合に、さらに検索／操作するストレージ領域の競合を回避する。

なお、図７～図１０の説明において、そもそも、属するデータがないストレージ領域は処理対象から除外される。データが複数の値域に属する場合には、各値域に対応するストレージ領域に実体あるいは参照を重複して蓄積及び管理していることから、ストレージ領域の複数の組において、同じデータを検索／操作する場合がある。その結果、同じ結果が得られた場合には、重複する結果を集約する。

図１１は、多次元データベース管理部１５が値域の階層を選択する処理の一例を説明するための図である。図１１において、多次元データベース管理部１５が、参照した索引情報を基に、検索／操作するストレージ領域を特定し、値域に対応するストレージ領域を単位として、多次元キューブを構成するデータを同時並行に検索／操作する場合を考える。この場合、多次元データベース管理部１５は、多次元キューブを構成する各次元のデータ／各特性を表すデータの分類に用いる値域について、上位の値域が下位の隣接する値域を包含する値域の階層を構築しておき、状況に応じて検索／操作の処理単位とする値域の階層を選択する。

例えば、状況として、蓄積されているデータの値に応じて選択する場合であれば、最も広いデータを包含できる広さや、主要なデータを包含できる広さの値域のレベルを選択し、データが属する値域の数を、高々、隣接する値域の数に抑制する。

最も広いデータを包含できる広さや、主要なデータを包含できる広さの値域は、データを蓄積するたびにデータを包含できる広さの値域のレベルを特定し、最大の値域のレベルや、最頻の値域のレベルを計算することで求められる。例えば、データａ、ｂは、レベル２の値域では包含できず、レベル１の値域では包含できるために、レベル１の値域を選択する。

また、例えば、状況として、実行可能な並列度に応じて選択する場合であれば、利用可能なＣＰＵコア数や他の処理の状況に基づいて選択し、処理能力を最大限に利用する。例えば、レベル２の値域を選択すれば、６４のストレージ領域は６４の値域に対応し、６４が実行可能な並列度の上限になる。レベル１の値域を選択すれば、６４のストレージ領域は４つに集約されて４つの値域に対応し、４が実行可能な並列度の上限になる。レベル０の値域を選択すれば、６４のストレージ領域は１つに集約されて１つの値域に対応し、１が実行可能な並列度の上限になる。

実行可能な並列度は、Ｉ／Ｏウェイトなどを考慮すればＣＰＵコア数より多く、他のプロセスの実行などを考慮すればＣＰＵコア数より少ない。このため、あらかじめ設定した情報やＯＳ（Operating System）から取得した情報を基に、実行可能な並列度を計算する。例えば、ＣＰＵコア数が４であれば、ＣＰＵコア数に値域数が最も近いレベル１の値域を選択する。

図１２、図１３は、多次元データベース管理部１５による、冗長な処理を抑制する処理の一例を説明するための図である。図１１においてレベル１の値域を選択した場合のように、検索／操作の処理単位とする値域の階層として、複数のストレージ領域に対応する値域の階層を多次元データベース管理部１５が選択した場合を考える。この場合、複数のストレージ領域に重複して蓄積、管理されているデータを利用しないことにより、冗長な処理を抑制することができる。データが複数の値域に属する場合には、各値域に対応するストレージ領域に実体あるいは参照を重複して蓄積及び管理しているので、ストレージ領域の複数の組において、同じデータを検索／操作する場合がある。その結果として、同じ結果が得られる場合には重複する結果を集約する必要がある。多次元データベース管理部１５は、この冗長な処理を抑制する。

図１２は、図１１と同様に、検索／操作の処理単位とする値域の階層として、レベル１の値域を選択した場合、レベル１の値域に包含されるレベル２の値域について、データａがレベル２の値域２に分類され対応するストレージ領域２に蓄積、管理され、データｂがレベル２の値域２、３、６、７に分類され対応するストレージ領域２、３、６、７に蓄積、管理され、レベル２の値域１～１６がレベル１の値域３に包含され、レベル１の値域１～４がレベル０の値域１に包含されることを示す。

図１３は、図１２に示される状況を表す表形式データの一例である。図１１と同様に、検索／操作の処理単位とする値域の階層として、レベル１の値域を選択した場合、多次元データベース管理部１５は、レベル１の値域に包含されるレベル２の値域に対応する各ストレージ領域から順にデータを読み出して処理する。例えば、レベル２の値域２に対応するストレージ領域からデータａを読み出したときに、図１３の表形式のデータを検索することで、レベル２の値域２に対応するストレージ領域のみに蓄積されていることが識別できる。よって、多次元データベース管理部１５は、冗長な処理を抑制するために、対になる多次元キューブのレベル２の値域２に対応するストレージ領域を検索／操作の対象にする。

また、例えば、レベル２の値域２に対応するストレージ領域からデータｂを読み出したときに、図１３の表形式のデータを検索することで、レベル２の値域３、６、７に対応するストレージ領域にも蓄積されていることが識別できる。よって、多次元データベース管理部１５は、対になる多次元キューブのレベル２の値域２、３、６、７に対応するストレージ領域を検索／操作の対象にする。また、冗長な処理を抑制するために、多次元データベース管理部１５は、図１３の表形式のデータにデータｂが処理済であることをマーキングし、レベル２の値域３、６、７に対応するストレージ領域からはデータｂを読みださない。なお、任意の契機で、複数のストレージ領域に対応する値域の階層を選択したときのために、その階層に対応するストレージ領域に、実体の本体と、実体の複製、実体の本体への参照が蓄積されていた場合に、実体の複製と実体の本体への参照を削除し図１３の表形式のデータに反映しておくことも、削除した後に、削除する前の状態にストレージ領域と図１３の表形式のデータを戻すこともできる。

図１４は、この発明に係るデータ分析処理装置のハードウェア構成の一例を示すブロック図である。図１４において、データ分析処理装置１０は、プロセッサ１２、多次元データベース１６を記憶するストレージ２００、インタフェース部１３、およびメモリ１４を備える。つまりデータ分析処理装置１０はコンピュータであり、例えば、パーソナルコンピュータ、あるいはサーバコンピュータ等として実現される。

インタフェース部１３は、ネットワーク１００に接続され、ネットワーク１００に接続されたクライアント２０からのアクセスを受け付ける。

ストレージ２００は、例えば、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）等の、不揮発性の記憶媒体（ブロックデバイス）である。ストレージ２００は、ＯＳ（Operating System）やデバイスドライバなどの基本プログラム、およびデータ分析処理装置１０の機能を実現させるためのプログラム等に加えて、所定の記憶領域に多次元データベース１６を記憶する。

図１４のメモリ１４は、例えばＲＡＭ（Random Access Memory）であり、ストレージ２００からロードされたプログラム１４ａ、および各種のデータ１４ｂを記憶する。

さらに、図１４におけるプロセッサ１２は、例えばCentral Processing Unit（ＣＰＵ）やMicro Processing Unit（ＭＰＵ）等の演算ユニットであり、メモリ１４にロードされたプログラムにより、その機能を実現する。

ところで、プロセッサ１２は、ＯＬＡＰ操作実行部１１、および多次元データベース管理部１５を、実施形態に係わる処理機能として備える。ＯＬＡＰ操作実行部１１、多次元データベース管理部１５、および時系列整列部１７は、プログラム１４ａに含まれる命令をプロセッサ１２が実行することで実現される、処理機能である。すなわち、本発明のデータ分析処理装置１０はコンピュータとプログラムによっても実現できる。光学メディアなどの記録媒体にプログラムを記録して配布することに加え、ネットワークを通してプログラムを提供することも可能である。

なお、ＯＬＡＰ操作実行部１１、および多次元データベース管理部１５は、プロセッサ１２に代えて、あるいはそれに加えて、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（field-programmable gate array）などの集積回路を含む、他の多様な形式で、実現されても良い。

プロセッサ１２は、インタフェース部１３経由で、クライアント２０からのＯＬＡＰ操作と引数とを受信することができ、クライアント２０に操作結果を送信することができる。

（効果）
以上述べたように、実施形態では、多次元データベース管理部１５は、多次元キューブを構成するデータのそれぞれが多次元データである場合に、該データを多次元キューブの間で共通する多次元の値域で分類する。さらに、値域で分類したデータが単一の値域に属する場合には、多次元データベース管理部１５は、当該データを値域に対応するストレージ領域に蓄積し、値域で分類したデータが複数の値域に属する場合には、各値域に対応するストレージ領域に実体あるいは参照を重複して蓄積する。

また、多次元キューブを構成する操作対象のデータの分類に用いた値域の情報を索引情報として利用する。これにより、単一の検索／操作を実行する場合には、両多次元キューブの同一値域に対応するストレージ領域と、両多次元キューブの同一値域の近傍の値域に対応するストレージ領域とに、検索／操作する範囲を限定する。また、複数の検索／操作を同時実行する場合には、さらに検索／操作するストレージ領域の競合を回避する。

このようにすることで、多次元キューブを構成する各次元のデータ／各特性を表すデータのそれぞれが多次元データである場合や、値域で分類したデータが複数の値域に属する場合においても、単一の検索／操作を実行する場合には、検索／操作する範囲を限定するとともに、複数の検索／操作を同時実行する場合には、さらに検索／操作するストレージ領域の競合を回避できる。

よって、実施形態によれば、多次元キューブを構成する各次元のデータ／各特性を表すデータのそれぞれが多次元データである場合や、値域で分類したデータが複数の値域に属する場合においても、処理を高速化することができる。

また、ある多次元キューブに対してＯＬＡＰ操作を実行する場合に、多次元データベース管理部１５は、ＯＬＡＰ操作の引数として他の多次元キューブを構成するデータを利用する。このとき、ある多次元キューブを構成するデータを、他の多次元キューブを構成するデータをキーとして検索／操作する場合に、多次元データベース管理部１５は、多次元キューブを構成する各次元のデータ／各特性を表すデータの分類に用いる値域について、上位の値域が下位の隣接する値域を包含する値域の階層を構築しておく。また、多次元データベース管理部１５は、蓄積されているデータの値や実行可能な並列度などの状況に応じて検索／操作の処理単位とする値域の階層を選択する。さらに、多次元データベース管理部１５は、複数のストレージ領域に対応する値域の階層を選択した場合には、複数のストレージ領域に重複して蓄積、管理されているデータを利用しない。

このように、複数のストレージ領域に対応する値域の階層を選択した場合にも、データが複数の値域に属する場合は各値域に対応するストレージ領域に実体あるいは参照を重複して蓄積及び管理しているために、ストレージ領域の複数の組において、同じデータを検索／操作する場合がある。同じ結果が得られる場合には重複する結果を集約する必要があるが、検索／操作の処理単位内においては冗長な処理を抑制できる。

よって、複数のストレージ領域に対応する値域の階層を選択した場合にも、検索／操作の処理単位内においては冗長な処理を抑制し、高速化することができる。

従って、実施形態によれば、多次元キューブを構成するデータをキーとして他の多次元キューブを構成するデータを検索／操作する処理を高速化することができる。すなわち、実施形態によれば、多次元キューブへのＯＬＡＰ操作を高速に実行できるデータ分析処理装置、データ分析処理方法、およびプログラムを提供することが可能になる。より詳しくは、実施形態によれば、ＯＬＡＰ操作の引数として他の多次元キューブを構成するデータを利用する場合において、ある多次元キューブを構成するデータを、他の多次元キューブを構成するデータをキーとして検索／操作する場合に、多次元キューブを構成する各次元のデータ／各特性を表すデータのそれぞれが多次元データである場合や、値域で分類したデータが複数の値域に属する場合においても、単一の検索／操作を実行する場合には、検索／操作する範囲を限定するとともに、複数の検索／操作を同時実行する場合には、さらに検索／操作するストレージ領域の競合を回避することにより、多次元キューブへのＯＬＡＰ操作を高速に実行できる技術を提供することができる。

すなわち、この発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。

１０…データ分析処理装置
１１…ＯＬＡＰ操作実行部
１２…プロセッサ
１３…インタフェース部
１４…メモリ
１４ａ…プログラム
１４ｂ…データ
１５…多次元データベース管理部
１６…多次元データベース
１７…時系列整列部
２０…クライアント
１００…ネットワーク
２００…ストレージ

Claims

主題ごとに構築される多次元キューブに、実世界の事象を体現するデータを当該事象の識別子と対応付けて蓄積する多次元データベースをと、
クライアントからの要求に応じて前記多次元キューブに対するＯＬＡＰ（Online Analytical Processing）操作を実行するＯＬＡＰ操作実行部と、
前記多次元キューブにおいて、時間次元のデータと、空間次元のデータと、複数種別の固有次元のデータと、複数種別の特性を表すデータとを管理する多次元データベース管理部とを具備し、
前記多次元データベース管理部は、前記多次元キューブを構成するデータのそれぞれが多次元データであれば、前記多次元キューブの間で共通する多次元の値域で当該多次元データを分類し、
多次元キューブを構成するデータを他の多次元キューブを構成するデータをキーとして検索／操作する場合に、前記分類に用いた値域を索引として利用することにより、単一の検索／操作を実行する場合には、両多次元キューブの同一値域に対応するストレージ領域と、両多次元キューブの同一値域の近傍の値域に対応するストレージ領域とに、検索／操作する範囲を限定するとともに、複数の検索／操作を同時並行に実行する場合には、さらに検索／操作するストレージ領域の競合を回避する、データ分析処理装置。
前記多次元データベース管理部は、前記分類されたデータが単一の値域に属する場合に、当該値域に対応するストレージ領域に前記データを蓄積する、請求項１に記載のデータ分析処理装置。
前記多次元データベース管理部は、前記分類されたデータが複数の値域に属する場合に、当該値域のそれぞれに対応するストレージ領域に前記データの実体、または当該データの参照を重複して蓄積する、請求項１に記載のデータ分析処理装置。
前記ＯＬＡＰ操作実行部は、前記ＯＬＡＰ操作の引数として、前記クライアントから指示された引数、または、他の前記多次元キューブを構成するデータの少なくともいずれかを利用する、請求項１に記載のデータ分析処理装置。
前記多次元データベース管理部は、上位の値域が下位の隣接する値域を包含する値域の階層を構築し、状況に応じて検索／操作の処理単位とする値域の階層を選択し、複数のストレージ領域に対応する値域の階層を選択した場合には、前記複数のストレージ領域に重複して蓄積及び管理されているデータを利用しない、請求項１に記載のデータ分析処理装置。
コンピュータのプロセッサが、主題ごとに構築される多次元キューブに、実世界の事象を体現するデータを当該事象の識別子と対応付けて多次元データベースに蓄積する過程と、
前記プロセッサが、クライアントからの要求に応じて前記多次元キューブに対するＯＬＡＰ（Online Analytical Processing）操作を実行する過程と、
前記プロセッサが、前記多次元キューブにおいて、時間次元のデータと、空間次元のデータと、複数種別の固有次元のデータと、複数種別の特性を表すデータとを管理する過程と、
前記プロセッサが、前記多次元キューブを構成するデータのそれぞれが多次元データであれば、前記多次元キューブの間で共通する多次元の値域で当該多次元データを分類する過程と、
前記プロセッサが、多次元キューブを構成するデータを他の多次元キューブを構成するデータをキーとして検索／操作する場合に、前記分類に用いた値域を索引として利用することにより、単一の検索／操作を実行する場合には、両多次元キューブの同一値域に対応するストレージ領域と、両多次元キューブの同一値域の近傍の値域に対応するストレージ領域とに、検索／操作する範囲を限定するとともに、複数の検索／操作を同時並行に実行する場合には、さらに検索／操作するストレージ領域の競合を回避する過程とを含む、データ分析処理方法。
コンピュータのプロセッサを、請求項１乃至５の何れかに記載のデータ分析処理装置として機能させる、プログラム。