JP2002539563A

JP2002539563A - データベースから情報を抽出するための方法

Info

Publication number: JP2002539563A
Application number: JP2000605924A
Authority: JP
Inventors: ハーカン、ボルゲ
Original assignee: Qliktech International AB
Current assignee: Qliktech International AB
Priority date: 1999-03-12
Filing date: 2000-03-10
Publication date: 2002-11-19
Anticipated expiration: 2020-03-10
Also published as: EP2450810A2; SE516562C2; EP2450809A3; EP2450810A3; WO2000055766A1; SE9900894L; SE9900894D0; EP2450809B1; CA2367181C; EP2450809A2; CA2367181A1; JP4463431B2; EP1177512A1; US7058621B1; AU3851800A

Abstract

(57)【要約】データベースから情報を抽出するための方法。本発明の方法は、データベースに関して動作し、情報を抽出し、ユーザに提出する。データベースは、複数の変数の値を含むデータテーブルから構成される。情報を抽出するためには、一つあるいは複数の選択された計算変数に関して演算する少なくとも一つの数学的関数が評価される。提出される情報は一つあるいは複数の選択された分類変数に基づいて分割される。本発明の方法は、全ての境界テーブルを識別するステップ；全ての接続テーブルを識別するステップ；境界および接続テーブルの中から開始テーブルを選択するステップ；境界テーブル内の各選択された変数の値を開始テーブル内の一つあるいは複数の接続変数の対応する値にリンクする変換構造を構築するステップ；および、数学的関数を開始テーブルの各データレコードに対して変換構造を用いて評価し、各分類変数の各一意な値に対する数学的関数の結果を含む最終データ構造を得るステップを含む。

Description

【発明の詳細な説明】

【０００１】技術分野本発明は、データベースから情報を抽出するための方法に関する。データベー
スは、複数の変数の値を含む複数のデータテーブルから構成され、各データテー
ブルは、少なくとも前記変数値の２つを含む少なくとも一つのデータレコードか
ら成る。情報が、一つあるいは複数の選択された計算変数に関して演算する少な
くとも一つの数学的関数を評価することで抽出される。さらに、抽出された情報
が一つあるいは複数の選択された分類変数に基づいて分割される。

【０００２】従来の技術しばしば、コンピュータの二次メモリ上に格納されているデータベースから特
定の情報を抽出することが必要となる。より具体的には、データベース内の多量
のデータを要約し、要約されたデータを明快なやり方でユーザに提出することが
必要とされる。例えば、ユーザは、大きな会社に対する取引データを含むデータ
ベースから、年および顧客別の総売上を抽出することを必要とすることがある。
この抽出には、数学的関数、例えば、計算変数（x,y）、例えば販売された項目
の数（"Number")と項目当たりの価格（"Price"）の組合せに関して演算する数学
的関数、例えば合計（"SUM(x×y)")を評価することが必要となる。この抽出には
、さらに、情報を、分類変数、例えば"年（Year）"および"顧客（Client）"に従
って分割することが必要となる。こうして、これら分類変数は、数学演算の結果
がどのように提出されるべきかを定義する。この特定のケースにおいては、年お
よび顧客別に総売上を抽出するためには、"年および顧客別に合計（数ｘ価格）
を評価すること、つまり、SUM(Number*Price) per Year,Clientを評価すること
が必要となる。

【０００３】一つの従来の技術による解決策においては、コンピュータプログラムがデータ
ベースを処理し、次元とも呼ばれる全ての考え得る分類変数に基づいて分割され
た、全ての考え得る計算変数に関して演算する、全ての考え得る数学的関数を評
価するように設計される。この演算の結果として通常多次元立方体として知られ
る大きなデータ構造が得られる。この多次元立方体は、非常に時間の掛かる演算
を通じて得られ、典型的には演算が夜通し遂行される。この多次元立方体は、分
類変数の発生する値の個々の全ての一意な組合せに対する数学的関数の評価結果
を含む。ユーザは、次に、この多次元立方体に関して動作する別個のコンピュー
タプログラムを用いて、データベースのデータを、例えばピボットテーブル内の
選択されたデータを視覚化することによって、あるいは、２次元もしくは３次元
チャートにて探索する。ユーザが、ある数学的関数と一つあるいは複数の分類変
数を定義すると、他の全ての分類変数は多次元立方体内にこの数学的関数に対し
て格納されている結果を合計することで削除される。この合計は、他の全ての分
類変数に対して行なわれる。こうして、ユーザは、分類変数を追加あるいは除去
することで、多次元立方体の次元内を上下に移動する。

【０００４】上述のアプローチは、幾つかの望ましくない制約を持つ。この多次元立方体が
評価の後平均量、例えば、複数の分類変数に基づいて分割された平均売上高を含
む場合は、平均量の合計は正しい総平均を与えないために、一つあるいは複数の
これら分類変数を削除することができなくなる。このような場合、この多次元立
方体は分類変数の各考え得る組合せに基づいて分割された平均量を含むことを要
求され、多次元立方体を構築する動作は一層複雑なものとなる。同一の問題が他
の量、例えば、中央値についても発生する。

【０００５】しばしば、全ての関与する数学的関数、計算変数および分類変数を予測するこ
とは、データベース内のデータを実際に探索するまでは困難である。このため、
傾向およびパターンを識別した結果、ユーザは、そのデータ内の底辺に横たわる
詳細に到達するためには、関数あるいは変数を追加する必要があることに気付く
こともある。このような場合、新たな多次元立方体を構築するための時間の掛か
る手続きを再び遂行することが必要となる。

【０００６】発明の概要従って、本発明の一つの目的は上述の短所を緩和すること、より具体的には、
ユーザが数学的関数を自由に選択すること、数学的変数をこれら数学的関数内に
自由に組み込むこと、および結果の提出のために分類変数を自由に選択すること
を可能とするデータベースからの情報を抽出するための方法を提供することにあ
る。

【０００７】この目的が独立請求項１に記載される特徴を有する方法によって達成され、幾
つかの好ましい実施例が従属項に列挙される。

【０００８】本発明によると、データベース内のデータから最終データ構造、つまり、多次
元立方体を処理時間およびメモリ要件の両方の点で効率的なやり方にて生成する
ための方法が提供される。この多次元立方体は、従来の技術による解決策よりか
なり速く生成できるために、多次元立方体をアドホックに生成することが可能と
なる。ユーザは、多次元立方体を極く少数の数学的関数および変数に制限される
ことなく対話的に定義および生成することができる。数学的関数は、通常は、数
式の組合せから構成される。ユーザが数学的関数を変更すること、例えば、数式
を変更、追加もしくは削除することを望む場合、通常はユーザの仕事の妨げとな
らないほど十分に短時間に新たな多次元立方体を生成することができる。同様に
、ユーザが変数を追加あるいは除去することを希望する場合も、多次元立方体を
迅速に再構成することができる。

【０００９】これを達成するためには、全ての考慮中のデータテーブルが境界テーブルにク
レバーグルーピング（clever grouping）され、これらテーブルが各テーブル内
に含まれる変数のタイプに基づいて互いに接続される。これらテーブルの一つが
開始点として選択され、適当な変換構造が構築され、この変換構造を用いて最終
データ構造が開始テーブルから効率的に生成される。

【００１０】好ましくは、最初に、データベースのデータレコードがデータをオフラインに
て処理できるようにコンピュータの一次メモリ内に読み込まれる。これによって
、データベースを探索するため、および最終データ構造を生成するために必要と
される時間はさらに短縮化される。データベースは二次メモリ上に格納すること
も、あるいは遠隔地に格納し、これにコンピュータをモデムにて接続することも
できる。こうして一次メモリ内に読み込まれるデータベースは、より大きなデー
タベースの選択された部分であっても、２つあるいはそれ以上のデータベースの
組合せであっても構わない。

【００１１】一つの好ましい実施例においては、各データ変数の各異なる値に２進コードが
割当てられ、データレコードは２進コード化された形式にて格納される。２進コ
ード化することで、データテーブル内の探索を高速化することが可能となること
に加えて、冗長情報を除去し、結果としてデータの量を削減することが可能とな
る。

【００１２】もう一つの好ましい実施例においては、頻度データを必要とする計算変数、つ
まり、数学的関数を正しく評価するためには各値の複製回数が必要とされる計算
変数を含む全ての境界および接続テーブルによってサブセットが定義される。こ
のサブセットから開始テーブルを選択し、変換構造内に頻度データを含めること
で、最終データ構造を構築する際に複製を、メモリ効率良く格納することが可能
となる。

【００１３】変換構造内には、頻度データが各値を複製させることで含められる。つまり、
変換構造は、開始テーブル内の接続変数の各値から境界テーブル内の少なくとも
一つの対応する選択された変数の各値の正しい番号へのリンクを含む。代替とし
て、変換構造内に、開始テーブル内の各接続変数の各一意な値に対するカウンタ
を含めることもできる。

【００１４】好ましくは、境界あるいは接続テーブルの内の最も多数のデータレコードを持
つ一つが開始テーブルとして選択される。このやり方によると、傾向として、変
換構造内に組み込まれるべき頻度データの量が少なくなり、従って、変換構造を
より迅速に構築することが可能となる。

【００１５】もう一つの好ましい実施例においては、開始テーブルのデータレコードを読み
出し、変換構造を用いてこのデータレコード内の各接続変数の各値を少なくとも
一つの対応する選択された変数の値に変換することで仮想データレコードが生成
される。こうして、この仮想データレコードは、選択された複数の変数の複数の
値の現在の組合せを含む。この実施例では、最終データ構造を漸進的に構築する
ことができる。つまり、このためには、開始テーブルからデータレコードが順次
的に読み出され、仮想データレコードの内容が各読み出されたデータレコードの
内容に基づいて更新され、数学的関数が各更新された仮想データレコードの内容
に基づいて評価される。この手続きは、データベースから所望の情報を抽出する
ために要求されるコンピュータメモリの量を最小化する。さらに、任意の計算変
数の未定義の値、いわゆる無効（NULL）値を含む仮想データレコードは、しばし
ば、とりわけ全ての計算変数が無効（NULL）値を示す場合は、直ちに削除するこ
とができる。これは、多くのケースにおいて、このような無効値は数学的関数の
評価には用いられないためである。これは性能をさらに最適化することに寄与す
る。

【００１６】もう一つの実施例においては、中間データ構造が仮想データレコードの内容に
基づいて構築される。中間データ構造の各データレコードは、各選択された分類
変数に対するフィールドおよび数学的関数内に含まれる各数式に対する総合フィ
ールドを含む。仮想データレコードが更新される度に、各数式が評価され、結果
が各選択された分類変数の現在の値に基づいて該当する総合フィールド内に集め
られる。この中間データ構造を用いると、頻度データに対する異なる必要性を持
つ複数の数式を、一つの数学的関数に結合することが可能となる。対応する頻度
データを組み込む複数の変換構造が構築され、開始テーブルのデータレコードが
、各これら数式に関して、対応する変換構造に基づいて評価され、評価結果が一
つの中間データ構造に併合される。同様にして、数学的関数を修正したい場合、
例えば、既に選択されている計算変数に関して演算する新たな数式を追加したい
場合は、現存の中間データ構造に一つの総合フィールドを追加すること、あるい
は現存の総合フィールドを拡張することのみが必要とされる。

【００１７】仮想データレコード一般は、事実、仮想であるとに、つまり、仮想データレコ
ードには、開始テーブルのデータレコードから最終データ構造への遷移の際に、
物理的に、いかなるメモリも割当てられないことに注意する。ただし、この仮想
データレコードは、少なくともインプリシットに、開始テーブルのデータレコー
ドの内容を選択された変数の現在の値に変換する手続きにおいて、常に、識別す
ることができる。

【００１８】発明の実施の形態以下に本発明を単に一例として付録Ａのテーブルおよび図面の図１〜２との関
連で説明する。

【００１９】図１に示すように、データベースは複数のデータテーブル（テーブル１〜５）
から構成される。各データテーブルは複数のデータ変数のデータ値を含む。例え
ば、テーブル１においては、各データレコードは、データ変数："製品（Product
）"、"価格（Price）"および"部品（Part）"のデータ値を含む。データレコード
のあるフィールド内に特定な値が存在しない場合は、このフィールドは無効（NU
LL）値を保持するものとみなされる。同様に、テーブル２においては、各データ
レコードは変数："日付（Date）"、"顧客（Client）"、"製品（Product）"、お
よび"数（Number）"の値を含む。典型的には、日付の値はASCII-コード化された
文字列の形式内に格納される。

【００２０】本発明による方法はコンピュータプログラムによって実現される。第一のステ
ップ（ステップ１０１）において、プログラムは、データベース内の全てのデー
タレコードを読み出す。これは、例えば、データベースの全てのテーブル、つま
り、説明の実施例においては、テーブル１〜５を選択するSELECT（選択）ステー
トメントを用いて行なわれる。典型的には、このデータベースは、コンピュータ
の一次メモリ内に読み込まれる。

【００２１】評価速度を向上させるために、好ましくは、前記データベース内の各データ変
数の各一意な値に異なる２進コードが割当てられ、これらデータレコードは二進
コード化された形式にて格納される（ステップ１０１）。これは、典型的には、
プログラムが最初にデータベースからデータレコードを読み出すとき行なわれる
。各入力テーブルに対して、以下のステップが遂行される。最初に、テーブルの
列名、つまり、変数が順次的に読み出される。新たなデータ変数が現われる度に
、それに対するデータ構造が例示（instantiated）される（データ変数に対応す
るデータ構造のインスタンスが作成される）。次に、全てのデータレコードを二
進形式にて含む内部テーブル構造が例示され（内部テーブル構造のインスタンス
が作成され）、その後、データレコードが順次的に読み出され、二進コード化さ
れる。各データ値について、対応するデータ変数のデータ構造が、その値に既に
２進コードが割当てられていないか確定するためにチェックされる。割当てられ
ている場合は、その２進コードが上述のテーブル構造内に適切な位置に挿入され
る。割当てられていない場合は、そのデータ値がそのデータ構造に追加され、新
たな２進コード、好ましくは、昇順にて次のコードが割当てられ、割当てられた
コードがそのテーブル構造内に挿入される。換言すれば、各データ変数について
、一意な２進コードが各一意なデータ値に割当てられる。

【００２２】付録Ａのテーブル６〜１２は、図１のデータベース内に含まれる様々なデータ
変数の異なるデータ値に割当てられた２進コードを示す。

【００２３】データベース内の全てのデータレコードを読み出した後に、プログラムはデー
タテーブル間の全ての接続を識別するためにデータベースを分析する（ステップ
１０２）。２つのデータテーブル間の接続は、これらデータテーブルが一つの変
数を共通に持つことを意味する。このような分析を遂行するための様々なアルゴ
リズムが当分野において周知である。分析の後、全てのデータテーブルが仮想的
に接続される。図１においては、このような仮想接続が両端に矢印を持つ矢（ａ
）によって示される。仮想的に接続されたデータテーブルは、少なくとも一つの
いわゆるスノーフレーク構造（snowflake structure）、すなわち、ブランチン
グデータ構造（branching data structure）を形成すべきである。このスノーフ
レーク構造においては、データベース内の任意の２つのデータテーブル間にたっ
た一つのみの接続経路が存在し、このため、スノーフレーク構造はどのようなル
ープも含まない。万一、仮想接続されたデータテーブル間にループが発生した場
合でも、つまり、２つのテーブルが複数の変数を共通に持つ場合でも、幾つかの
ケースにおいては、このようなループを解決するための当分野において周知の特
別なアルゴリズムを用いてスノーフレーク構造を形成することができる。

【００２４】この初期分析の後、ユーザはデータベースの探索を開始する。探索を遂行する
ためには、ユーザは数学的関数を定義するが、これは数式の組合せであり得る（
ステップ１０３）。ユーザは、図１のデータベースから、年ごとおよび顧客ごと
の総売上を抽出することを望むものと想定する。ユーザは、対応する数学的関数
"合計(x×y)"を定義し、この関数内に含まれるべき計算変数："価格"と"数"を選
択する。ユーザは、さらに、分類変数："顧客"と"年"を選択する。

【００２５】コンピュータプログラムは、次に、スノーフレーク構造内の全ての対象となる
データテーブル、つまり、選択された計算変数および分類変数の任意の１つを含
む全てのデータテーブル（これらデータテーブルは境界テーブルと呼ばれる）、
並びに、これら境界テーブル間の接続経路内の全ての中間データテーブル（これ
らデータテーブルは接続テーブルと呼ばれる）を識別する（ステップ１０４）。
明快さの目的で、これら対象となるデータテーブルのグループ（テーブル１〜３
）が図１の第一の枠（Ａ）内に含まれる。図からわかるように、この特定のケー
スにおいては接続テーブルは存在しない。

【００２６】説明のケースにおいては、数学的関数の評価のために、選択された計算変数の
個々の値、つまり、頻度データの全ての発生を含めることが要求される。図１に
おいて、このような頻度データを必要とする選択された変数（"価格"と"数"）は
太い矢印（ｂ）によって示され、残りの選択された変数は点線（ｂ’）によって
示される。次に、スノーフレーク構造内のこれら計算変数を含む全ての境界テー
ブル（テーブル１〜２）およびこれら境界テーブル間の任意の接続テーブルを含
むサブセット（Ｂ）が定義される。特定の変数の頻度要件は、その変数がその中
に含まれる数式によって決定されることに注意する。つまり、平均あるいは中間
値の決定には頻度情報が必要となる。一般に合計の決定にも頻度情報が必要とさ
れるが、最大あるいは最小の決定には計算変数の頻度データは必要とされない。
分類変数も一般に頻度データを必要としない。

【００２７】次に、好ましくは、サブセット（Ｂ）内のデータテーブル、より好ましくは、
このサブセット内の最も多数のデータレコードを持つデータテーブルから開始テ
ーブルが選択される（ステップ１０５）。図１においては、テーブル２が開始テ
ーブルとして選択される。こうして、開始テーブルは、選択された変数（"顧客"
、"数"）、および接続変数（"日付"、"製品"）を含む。これら接続変数は、開始
テーブル（テーブル２）を境界テーブル（テーブル１および３）にリンクする。

【００２８】その後、テーブル１３および１４に示すような変換構造が構築される（ステッ
プ１０６）。この変換構造は、開始テーブル（テーブル２）内の各接続変数（"
日付"、"製品"）の各値を、境界テーブル（それぞれ、テーブル３および１）内
の対応する選択された変数（"年"、"価格"）の値に翻訳するために用いられる。
テーブル１３は、テーブル３のデータレコードを順次的に読み出し、接続変数（
"日付"）の各一意な値と選択された変数（"年"）の対応する値との間のリンクを
作成することで構築される。値４（"日付:1999-01-12"）からのリンクは、この
値が境界テーブル内には含まれていないために存在しないことに注意する。同様
に、テーブル１４は、テーブル１のデータレコードを順次的に読み出し、接続変
数"製品"の各一意な値と選択された変数（"価格"）の対応する値との間のリンク
を作成することで構築される。説明のケースにおいては、値２（"製品：練り歯
磨き"）が、この接続が境界テーブル内で２度発生するために、選択された変数
（"価格：6.5"）の２つの値にリンクされ、こうして、この変換構造内には頻度
データが含められることに注意する。さらに、値３（"製品：シャンプー"）から
のリンクは存在しないことにも注意する。

【００２９】変換構造の構築を終えると、仮想データレコードが作成される。仮想データレ
コードはテーブル１５に示すように、データベース内の全ての選択された変数（
"顧客"、"年"、"価格"、"数"）を含む。仮想データレコードの構築（ステップ１
０７〜１０８）においては、最初に開始テーブル（テーブル２）からデータレコ
ードが読み出される。次に、開始テーブルの現在のデータレコード内の各選択さ
れた変数（"顧客"、"数"）の値が仮想データレコード内に組み込まれる。さらに
、変換構造（テーブル１３〜１４）を用いることで、開始テーブルの現在のデー
タレコード内の各接続変数（"日付"、"製品"）の各値が対応する選択された変数
（"年"、"価格"）の値に変換され、この値が仮想データレコード内にも組み込ま
れる。

【００３０】この段階で（ステップ１０９）、仮想データレコード（テーブル１５）を用い
て、中間データ構造（テーブル１６）が構築される。中間データ構造の各データ
レコードは、各選択された分類変数（次元）および数学的関数によって含意され
る各数式に対する総合フィールドを含む。中間データ構造（テーブル１６）は、
仮想データレコード（テーブル１５）内の選択された変数の値に基づいて構築さ
れる。こうして、各数式が仮想データレコード（テーブル１５）内の一つあるい
は複数の考慮中の計算変数に基づいて評価され、結果が、該当する総合フィール
ド内に、分類変数（"顧客"、"年"）の現在の値の組合せに基づいて合計される。

【００３１】上述の手続きが開始テーブルの全てのデータレコードに対して反復される（ス
テップ１１０）。こうして、開始テーブルのデータレコードを順次的に読み出し
、選択された変数の現在の値を仮想データレコード内に組み込み、各数式を仮想
データレコードの内容に基づいて評価することで中間データ構造が構築される。
仮想データレコード内の分類変数の値の現在の組合せが新たなものである場合は
、新たなデータレコードが中間データ構造内に評価の結果を保持するために作成
される。新たなものでない場合は、該当するデータレコードが迅速に見つけられ
、評価の結果が総合フィールド内で合計される。こうして、開始テーブルが横断
（探索）される度に、データレコードが中間データ構造に追加される。好ましく
は、中間データ構造は、効率的な索引系、例えば、AVLあるいはハッシュ構造と
関連するデータテーブルから構成される。殆どのケースにおいては、総合フィー
ルドは総合レジスタとして実現され、この中に評価された数式の結果が累積され
る。幾つかのケース、例えば、中間値を評価する場合は、総合フィールドは、代
わりに、指定された分類変数の値の一意な組合せに対する全ての個々の結果を保
持するように実現される。開始テーブルから中間データ構造を構築するための手
続きにおいては、たった一つの仮想データレコードが必要とされるのみであるこ
とに注意する。こうして、仮想データレコードの内容が、開始テーブルの各デー
タレコードに対して更新される。これによってコンピュータのプログラムを実行
する際のメモリ要件が最小化される。

【００３２】以下では中間データ構造を構築する手続きについて、テーブル１５〜１６との
関連でさらに詳しく説明する。テーブル１５内に示す第一の仮想データレコード
R1を作成するためには、選択された変数：" 顧客"および"数"の値が、開始テー
ブル（テーブル２）の第一のデータレコードから直接に取られる。次に、接続変
数："日付"の値"1999-01-02"が、変換構造（テーブル１３）を用いて、選択され
た変数："年"の値"1999"に変換される。同様にして、接続変数："製品"の値"練
り歯磨き"が、変換構造（テーブル１４）を用いて、選択された変数："価格"の
値"6.5"に変換され、この結果として仮想データレコードR1が作成される。次に
、中間データ構造内のデータレコードがテーブル１６に示すように作成される。
説明のケースにおいては、中間データ構造は、３つの列を持ち、２つの列は、選
択された分類変数（"顧客"、"年"）を保持し、第三の列は、合計欄を保持する。
総合フィールド内には、選択された計算変数（"数"、"価格"）に関して動作（演
算）する数式（"x×y"）の評価結果が合計される。仮想データレコードR1を評価
するためには、最初に分類変数の現在の値（２進コード：0,0）が読み出され、
中間データ構造の対応するデータレコード内に組み込まれる。次に、計算変数の
現在の値（２進コード：2,0）が読み出され、これら値に対して数式が評価され
、結果が関連する総合フィールドに加えられる。

【００３３】次に、開始テーブルに基づいて仮想データレコードが更新される。変換構造（
テーブル１４）が、選択された変数"価格"の値"6.5"が、接続変数"製品"の値"練
り歯磨き"について重複することを示すために、更新された仮想データレコードR
2は変更されず、R1と同一とされる。次に、仮想データレコードR2が上述と同様
にして評価される。説明のケースにおいては、中間データ構造は、分類変数の現
在の値（２進コード：0,0）に対応するデータレコードを含む。こうして、数式
を評価した結果が関連する総合フィールド内に累積される。

【００３４】次に、開始テーブルの第二のデータレコードに基づいて仮想データレコードが
更新される。更新された仮想データレコードR3を評価するために、中間データ構
造内に新たなデータレコードが作成され、同様な動作が繰り返される。

【００３５】説明の例においては、無効（NULL）値は、−２なる２進コードにて表されるこ
とに注意する。さらに、説明の例において、計算変数の任意の１つに無効値（−
2）を保持する全ての仮想データレコードは、無効値は数式（"x×y"）において
は評価されることはないために、直接削除されることに注意する。さらに、分類
変数の全ての無効値（−2）は全ての他の有効（valid）値と同様に扱われ、中間
データ構造内に置かれることにも注意する。

【００３６】開始テーブルを横断した後で、中間データ構造は、４個のレコードを持ち、お
のおのが、分類変数の値の一意な組合せ（0,0;1,0;2,0;3,-2）、および対応する
評価された数式の累積結果（41;37.5;60;75）を含む。

【００３７】好ましくは、中間データ構造は一つあるいはそれ以上の分類変数（次元）を削
除するためにも処理される。好ましくは、これは上述の中間データ構造を構築す
る過程の際に行なわれる。仮想データレコードが評価される度に、中間データ構
造内に追加のデータレコードが作成され、あるいはそれらが既に存在する場合は
見つけられる。追加の各データレコードは、一つあるいは複数の分類変数の全て
の値に対する数式の評価結果の合計を保持するよう予定される。こうして、中間
データ構造は、開始テーブルの横断（探索）が完了した時点で、分類変数の値の
全ての一意な組合せに対する合計結果、および関連する各分類変数が削除された
後の合計結果の両方を含むこととなる。

【００３８】以下では、中間データ構造の次元を削除するためのこの手続きについて、テー
ブル１５および１６との関連でさらに詳しく説明する。仮想データレコードR1（
テーブル１５）が評価され、中間データ構造内に第一のデータレコード（0,0）
が作成されると、中間データ構造内に追加のデータレコードが作成される。これ
ら追加のデータレコードは、一つあるいは複数の次元が削除されたときの対応す
る結果を保持することを予定される。テーブル１６において、中間データ構造内
の分類変数に−１なる２進コードが割当てられている場合、これはその変数の全
ての値が評価されることを示す。説明のケースにおいては、３つの追加のデータ
レコードが作成され、各データレコードは分類変数の値の新たな組合せ（-1,0;0
,-1;-1,-1）を保持する。評価結果がこれら追加のデータレコードの関連する総
合フィールド内に合計される。これら追加のデータレコードの第一のレコード（
-1,0)は、分類変数"年"が値"1999"を持つときの、分類変数"顧客"の全ての値に
対する合計結果を保持することを予定される。第二の追加のデータレコード（0,
-1）は、分類変数"顧客"が"Nisse"であるときの、分類変数"年"の全ての値に対
する合計結果を保持することを予定される。第三の追加のデータレコード（-1,-
1）は、分類変数"顧客"および"年"の両方の全ての値に対する合計結果を保持す
るように予定される。

【００３９】仮想データレコードR2が評価されると、結果が、分類変数の値の現在の組合せ
（２進コード：0,0）と関連する総合フィールド内、並びに考慮中の追加のデー
タレコード（２進コード：-1,0;0,-1;-1,-1）と関連する総合フィールド内に合
計される。仮想データレコードR3が評価されると、結果が、分類変数の値の現在
の組合せ（２進コード：1,0）と関連する総合フィールド内に合計される。この
結果は、さらに、中間データ構造内に新に作成された追加のデータレコード（２
進コード：1,-1）の総合フィールドおよび考慮中の現存のデータレコード（２進
コード：-1,0;-1,-1）と関連する総合フィールド内にも合計される。

【００４０】開始テーブルが横断（探索）を終えた時点で、中間データ構造はテーブル１６
に示すような１１個のデータレコードを含む。

【００４１】好ましくは、中間データ構造が２つより多くの分類変数を含む場合は、中間デ
ータ構造は、各削除された分類変数に対して、この分類変数の全ての値について
合計された評価結果を、残りの分類変数の値の各一意な組合せに対して含む。

【００４２】中間データ構造の構築を終えると、最終データ構造、つまり、テーブル１７に
非２進表記にて示すような多次元立方体が、数学的関数（"合計(x×y)）を中間
データ構造内に含まれる数式（"x×y)"の結果に基づいて評価することで作成さ
れる（ステップ１１１）。これを行なうためには、分類変数の値の各一意な組合
せに対する総合フィールド内の結果が結合される。説明のケースにおいては、最
終データ構造の作成は、この数学的関数が本質的に単純であるために非常に率直
なものとなる。最終データ構造の内容は、その後、ユーザに、テーブル１８に示
されるような２次元テーブルにて提出することも（ステップ１１２）、代替とし
て、最終データ構造が多くの次元を含む場合は、データをピボットテーブルにて
提出し、当分野において周知のように、ユーザがこれら次元内に対話的に上下に
移動できるようにすることもできる。

【００４３】以下では、本発明の第二の実施例についてテーブル２０〜２９との関連で説明
する。説明はこの実施例の幾つかの特徴についてのみ、つまり、接続テーブルか
らのデータを含む変換構造の構築、およびより複雑な数学的関数に対する中間デ
ータ構造の構築についてのみ行なわれる。この実施例においては、ユーザは、テ
ーブル２０〜２３に示すようなデータテーブルを含むデータベースから顧客ごと
の売上データを抽出することを希望するものと想定する。理解を容易にするため
に、この実施例においては２進コード化については省略されている。

【００４４】ユーザは、結果がそれに対して顧客ごとに分割されるべき以下の数学的関数を
指定するものと想定する：ａ）"IF（Only (環境インデックス）＝'I') THEN 合計(数×価格)×2, ELSE 合計(数×価格))"、and ｂ）"平均((数×価格)" 数学的関数（ａ）は、売上高が'I'なる環境インデックスを持つ製品群に属す
る製品に対しては２倍されるべきであり、他の製品に対しては実際の売上高が用
いられるべきことを指定する。数学的関数（ｂ）は参照の目的で含めるられてい
る。

【００４５】この実施例においては、分類変数として"環境インデックス（Environment ind
ex）"と"顧客"選択され、計算変数として"数"と"価格"選択される。テーブル２
０、２２および２３は境界テーブルとして識別され、テーブル２１は接続テーブ
ルとして識別される。テーブル２０が開始テーブルとして選択される。こうして
、開始テーブルは、選択された変数（"数"、"顧客"）、および接続変数（"製品"
）を含む。接続変数は、開始テーブル（テーブル２０）を、接続テーブル（テー
ブル２１）を介して境界テーブル（テーブル２２〜２３）にリンクする。

【００４６】次に、変換構造の作成についてテーブル２４〜２６との関連で説明する。変換
構造の第一の部分（テーブル２４）は、第一の境界テーブル（テーブル２３）の
データレコードを順次的に読み出し、接続変数（"製品群"）の各一意な値と選択
された変数（"環境インデックス"）の対応する値との間にリンクを作成すること
で構築される。同様にして、変換構造の第二の部分（テーブル２５）が第二の境
界テーブル（２２）のデータレコードを順次的に読み出し、接続変数（"価格群"
）の各一意な値と選択された変数（"価格"）の対応する値との間にリンクを作成
することで構築される。次に、接続テーブル（テーブル２１）のデータレコード
が順次的に読み出される。テーブル２４と２５内の接続変数（それぞれ、"製品
群"と"価格群"）の各値がテーブル２１内の接続変数（"製品"）の対応する値に
代わりとして用いられ、結果が、テーブル２６に示すような一つの最終変換構造
に併合される。

【００４７】次に、中間データ構造が構築される。これは、開始テーブル（テーブル２０）
のデータレコードを順次的に読み出し、変換構造（テーブル２６）を用いて、選
択された変数（"環境インデックス"、"顧客"、"数"、"価格"）の現在の値を仮想
データレコード内に組み込み、各数式を仮想データレコードの現在の内容に基づ
いて評価することで行なわれる。

【００４８】簡潔さの目的で、テーブル２７は、開始テーブルの各データレコードに対する
仮想データレコードの対応する内容を表示する。第一の実施例との関連でも説明
したように、たった１つの仮想データレコードのみが必要とされる。この仮想デ
ータレコードの内容が、開始テーブルの各データレコードに対して、更新、つま
り、置換される。

【００４９】中間データ構造の各データレコードは、テーブル２８に示すように、各選択さ
れた分類変数（"顧客"、"環境インデックス"）の値、および数学的関数によって
含意される各数式に対する総合フィールドを含む。このケースにおいては、中間
データ構造は２つの総合フィールドを含む。一方の総合フィールドは、選択され
た計算変数（"数"、"価格"）に関して演算する数式（"x×y"）の合計結果、並び
にこれら動作の回数のカウンタを含む。この総合フィールドのレイアウトは、平
均量（"平均(x×y)）が計算されるべきである事実のために与えられる。他方の
総合フィールドは分類変数の値の各組合せに対して、分類変数"環境インデック
ス"の最低値と最高値を保持するように設計される。

【００５０】第一の実施例の場合と同様に、中間データ構造（テーブル２８）は、数式を仮
想データレコード（テーブル２７内の各行）の現在の内容に対して評価し、結果
を分類変数（"顧客"、"環境インデックス"）の現在の値の組合せに基づいて該
当する総合フィールド内に合計することで構築される。中間データ構造は、さら
に、値"<ALL>"が分類変数の一方あるいは両方に割当てられているデータレコー
ドを含み、対応する総合フィールドは、この一つあるいは複数の変数（次元）が
削除されたときの合計結果を含む。

【００５１】中間データ構造の構築を終えると、最終データ構造、つまり、多次元立方体が
、数学的関数を中間データ構造内に含まれる数式の評価結果に基づいて評価する
ことで作成される。最終データ構造の各データレコードは、テーブル２９に示す
ように、各選択された分類変数（"顧客"、"環境インデックス"）の値、およびユ
ーザによって選択された各数学的関数に対する総合フィールドを含む。

【００５２】最終データ構造は、分類変数の値の各一意な組合せに対する中間データ構造の
総合フィールド内の結果に基づいて構築される。関数（ａ）を、テーブル２８の
データレコードを順次的に読み出すことで評価されるときは、プログラムは、最
初に、テーブル２８の最後の列内の両方の値が'I'に等しいかチェックする。そ
うである場合は、テーブル２８の第一の総合フィールド内に含まれる関連結果に
２が乗じられ、テーブル２９内に格納される。そうでない場合は、テーブル２８
の第一の総合フィールド内に含まれる関連結果が直接にテーブル２９内に格納さ
れる。関数（ｂ）を評価するときは、選択された計算変数（"数"、"価格"）に関
して動作する数式（"x×y"）の合計結果が、動作の回数によって割られ（合計結
果と動作の回数は両方ともテーブル２８の第一の総合フィールド内に格納されて
いる）、結果がテーブル２９の第二の総合フィールド内に格納される。

【００５３】上の説明から明らかなように、本発明によると、ユーザは数学的関数を自由に
選択し、これら数学的関数内に計算変数を組み入れることができるとともに、分
類変数を自由に選択し、その結果を得ることができる。

【００５４】上述の開始テーブルからデータレコードを順次的に読み出すことに基づいて中
間データ構造を構築する手続きに対する代替として、メモリ効率は落ちるが、最
初に、いわゆる結合テーブル（join table）を作成することもできる。結合テー
ブルを構築するためには、開始テーブルの全てのデータレコードを横断（探索）
され、変換構造を用いて、開始テーブル内の各接続変数が、境界テーブル内の少
なくとも一つの対応する選択された変数の値に変換される。こうして、結合テー
ブルのデータレコードは、選択された変数の値の全ての発生する組合せを含むこ
ととなる。次に、結合テーブルの内容に基づいて中間データ構造が構築される。
このためには、結合テーブルの各レコードに対して、各数式が評価され、結果が
、各選択された分類変数の現在の値に基づいて、該当する総合フィールド内に合
計される。ただし、この代替の手続きは、所望の情報を抽出するためにより多く
のコンピュータメモリを必要とする。

【００５５】数学的関数が、頻度データに対する異なる矛盾する要求を持つ数式を含むこと
もあり得る。この場合は、ステップ１０４〜１１０（図２）がこれら各数式に対
して反復され、結果が一つの共通の中間データ構造内に格納される。代替として
、一つの最終データ構造、つまり、多次元立方体を各数式に対して構築し、これ
ら多次元立方体の内容をユーザへの提出の際に融合することもできる。

【表１】

【表２】

【表３】

【表４】

【図面の簡単な説明】

【図１】本発明の方法に従って考慮中のデータテーブルの識別の後のデータテーブルの
内容を示す。

【図２】本発明の方法の一つの実施例のステップのシーケンスを示す。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＧＷ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＬ，ＳＺ，ＴＺ，ＵＧ，ＺＷ )，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＥ，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＲ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＤＭ，ＤＺ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＤ，ＧＥ，ＧＨ，ＧＭ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＮ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＡ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＴＺ，ＵＡ，ＵＧ，ＵＳ，ＵＺ，ＶＮ，ＹＵ，ＺＡ，ＺＷ

Claims

【特許請求の範囲】

【請求項１】データベースが複数の変数の値を含む複数のデータテーブルから構成され、各
データテーブルが前記複数の変数の値の少なくとも２つを含む少なくとも一つの
データレコードから成り、前記情報が一つあるいは複数の選択された計算変数に
関して演算する少なくとも一つの数学的関数を評価することで抽出され、前記抽
出された情報が一つあるいは複数の選択された分類変数に基づいて分割される、
データベースから情報を抽出するための方法において：前記選択された変数の一つの少なくとも一つの値を含む全てのデータテーブル
であって、これらデータテーブルが境界テーブルであるデータテーブルを識別す
るステップと、直接的あるいは間接的に前記境界テーブルと共通の変数を持ち、これらを接続
する全てのデータテーブルであって、これらのデータテーブルが接続テーブルで
あるデータテーブルを識別するステップと、前記境界テーブルおよび接続テーブルの間から開始テーブルを選択するステッ
プと、前記境界テーブル内の各選択された変数の値を前記開始テーブル内の一つある
いは複数の接続変数の対応する値にリンクする変換構造を構築するステップと、前記変換構造を用いて各接続テーブルの各値を少なくとも一つの対応する選択
された変数の少なくとも一つの値に変換することによって、前記開始テーブルの
各データレコードに対して前記数学的関数を評価するステップとを含み、この評価によって、各分類変数の個々の全ての一意な値に対する前記数学的関
数の結果を含む最終データ構造が得られることを特徴とするデータベースから情
報を抽出するための方法。
【請求項２】さらに、結果としてのデータ構造の関連部分を人が読むことが可能な形式でユ
ーザに提出するステップを含むことを特徴とする請求項１記載の方法。
【請求項３】さらに、最初に前記データベースの前記データレコードをコンピュータの一次
メモリ内に読み出すステップを含むことを特徴とする請求項１または２記載の方
法。
【請求項４】さらに、最初に前記データベース内の各データ変数の各一意な値に異なる２進
コードを割当るステップと、前記データレコードを２進コード化された形式にて
格納するステップを含むことを特徴とする請求項１乃至３のいずれかに記載の方
法。
【請求項５】さらに、最初に前記データベース内の、変数を共通に持つ全てのデータテーブ
ルを識別するステップと、データテーブルの間に仮想接続を割当るステップと、
これによりスノーフレーク構造を持つデータベースを作成するステップと、を備
え、前記接続テーブルが前記スノーフレーク構造内において前記複数の境界テー
ブルの間に位置するように構成されていることを特徴とする請求項１乃至４のい
ずれかに記載の方法。
【請求項６】さらに、前記数学的関数の正確な評価にはそれらの各値の発生の回数が必要と
される全ての計算変数を識別するステップと、このような変数を含む境界テーブ
ルとこのような境界テーブルを接続するデータテーブルから成るデータテーブル
のサブセットを定義するステップと、前記サブセットから前記開始テーブルを選
択するステップと、各値の前記発生の回数に関するデータを前記変換構造内に含
めるステップと、を備えたことを特徴とする請求項１乃至５のいずれかに記載の
方法。
【請求項７】前記開始テーブルが前記境界テーブルおよび接続テーブルの内の最も多数のデ
ータレコードを持つデータテーブルから選択されることを特徴とする請求項１乃
至６のいずれかに記載の方法。
【請求項８】さらに、複数のデータレコードを含み、各データレコードが各選択された分類
変数に対するフィールドおよび前記数学的関数に対する総合フィールドを含む前
記最終データ構造を構築するステップを含み、この最終データ構築ステップが、
前記開始テーブルのデータレコードを順次的に読み出すステップと、前記変換構
造を用いて、前記データレコード内の各接続変数の各値を少なくとも一つの対応
する選択された変数の値に変換することで前記選択された変数の複数の値の現在
の値の組合せを作成するステップと、前記数学的関数を前記値の現在の組合せに
対して評価するステップと、前記評価の結果を各選択された分類変数の現在の値
に基づいて該当する総合フィールド内に集めるステップとを含むことを特徴とす
る請求項１乃至７のいずれかに記載の方法。
【請求項９】さらに、前記選択された変数の値の組合せを含む仮想データレコードを作成す
るステップを含み、この作成ステップが前記開始テーブルのデータレコードを読
み出すステップと、前記変換構造を用いて前記データレコード内の各接続変数の
各値を少なくとも一つの対応する選択された変数の値に変換するステップとを含
むことを特徴とする請求項１乃至７のいずれかに記載の方法。
【請求項１０】さらに、複数のデータレコードを含み、各データレコードが各選択された分類
変数に対するフィールドおよび前記数学的関数に対する総合フィールドを含む前
記最終データ構造を構築するステップを含み、この構築ステップが、前記開始テ
ーブルのデータレコードを順次的に読み出すステップと、前記仮想データレコー
ドの内容をこうして読み出される各データレコードの内容に基づいて更新するス
テップと、前記数学的関数を前記更新された仮想データレコードに基づいて評価
するステップと、および前記評価の結果を前記更新された仮想データレコード内
の各選択された分類変数の現在の値に基づいて該当する総合フィールド内に集め
るステップと、を含むことを特徴とする請求項９記載の方法。
【請求項１１】さらに、複数のデータレコードを含み、各データレコードが各選択された分類
変数に対するフィールドおよび前記数学的関数によって含意される各数式に対す
る総合フィールドを含む中間データ構造を構築するステップを含み、この構築ス
テップが、前記開始テーブルのデータレコードを順次的に読み出すステップと、
前記仮想データレコードの内容をこうして読み出される各データレコードの内容
に基づいて更新するステップと、各数式を前記更新された仮想データレコードに
基づいて評価するステップと、前記評価の結果を前記更新された仮想データレコ
ード内の各選択された分類変数の現在の値に基づいて該当する総合フィールド内
に集めるステップとを含むことを特徴とする請求項９記載の方法。
【請求項１２】前記中間データ構造を構築するステップが：前記中間データ構造内の前記分類変数の一つを削除するステップを含み、この
削除ステップが、前記結果を前記一つの分類変数の全ての値を通じて残りの分類
変数の複数の値の各一意な組合せに対して集めるステップと、追加のデータレコ
ードを作成するステップと、前記合計結果を前記中間データ構造の前記追加のデ
ータレコード内に組み込むステップと、を含むことを特徴とする請求項１１記載
の方法。
【請求項１３】さらに、前記数学的関数を前記分類変数の値の各一意な組合せに対して前記総
合フィールド内の結果に基づいて評価することで、前記最終データ構造を構築す
るステップを含むことを特徴とする請求項１１乃至１２記載の方法。
【請求項１４】前記変換構造を構築するステップが、ａ）境界テーブルのデータレコードを読み出し、前記境界テーブル内の少なく
とも一つの接続変数の各一意な値とこの中の少なくとも一つの選択された変数の
各対応する値との間のリンクを含む変換構造を作成するステップと、ｂ）前記境界テーブルから前記開始テーブルに向って移動するステップと、ｃ）接続テーブルが見つかった場合は、前記接続テーブルのデータレコードを
読み出し、前記変換構造内の前記少なくとも一つの接続変数の各一意な値を前記
接続テーブル内の少なくとも一つの接続変数の少なくとも一つの対応する一意な
値の代わりに用いるステップと、ｄ）ステップ（ｂ）〜（ｃ）を前記開始テーブルが見つかるまで反復するステ
ップと、を含むことを特徴とする請求項１乃至１３のいずれかに記載の方法。
【請求項１５】請求項１乃至１４のいずれかに記載するデータベースから情報を抽出するため
の方法の前記複数のステップを実行するためのコンピュータプログラムを格納す
るコンピュータにて読み出し可能な記録媒体を備えた製品。