JP2001522495A

JP2001522495A - 動的に増加しているデータベース・データ・セットの増加集計方法

Info

Publication number: JP2001522495A
Application number: JP54735498A
Authority: JP
Inventors: モハーン、サンカラン; サンカラン、サレッシュ; モン、ウォン; ディアス、ネサマネー
Original assignee: インフォーマティカ、コーポレーション
Priority date: 1997-04-30
Filing date: 1998-04-29
Publication date: 2001-11-13
Also published as: US5794246A; EP0979469A1; WO1998049636A1

Abstract

(57)【要約】動的に増加するデータベース・データ・セットの増加集計を行う方法。本発明の実施例は、データ市場またはデータ倉庫内で作動し新たに受けたデータに対応して演算データベースに記憶されているデータを集計し現在の情報を提供する。最初に、コンピュータ・サーバは、集合データ・セットでサーバによって初期化される中間ファイルを作成する。集合データ・セットはデータ値および特定グループ識別子に各々対応する計数値からなる。コンピュータは新しい入力データ・セット内のグループ識別子のいずれかが中間ファイルに記憶されているグループ識別子のいずれかと同一であるかを判定する。入力されたグループ識別子が記憶されているグループ識別子と同一である場合、入力されたデータ値は記憶されているデータ値と集計されかつ特定の記憶されているグループ識別子に対応する計数値を１増加させる。入力されたグループ識別子が記憶されてるグループ識別子のいずれとも一致しない場合、入力されたグループ識別子および対応するデータ値が中間ファイル内に記憶され、かつ計数値１が特定グループ識別子に加えられる。新しい入力データ・セット内の全てのグループ識別子が一旦決められると、コンピュータは中間ファイルに対してなされた変更の全てを集合データ・セットに記憶する。

Description

【発明の詳細な説明】動的に増加しているデータベース・データ・セットの増加集計方法発明の分野本発明はデータベース・システムに関する。より詳しくは、本発明は動的に増加しているコンピュータ・データベース・データ・セットの増加集計方法に関する。発明の背景コンピュータは、金銭上の取引並びに商取引、製造、保健、電気通信等、多様な分野において多様な応用がなされている。これらのアプリケーションのほとんどは通常、データを入力し、コンピュータ・プログラムに従ってデータを処理し、その後、結果をデータベースに記憶するものである。コンピュータがより強力、高速および多様になるにつれて、処理可能なデータの量がそれに応じて増加している。コンピュータ技術の進歩に遅れないように、データベースをピークの演算効率に対して設計することが絶対的に必要となった。従って、演算データベースは最大の処理量、アクセス時間、および記憶容量に合わせて構築、類別、およびフォーマットされている。残念ながら、これらの演算データベースに見られる原データは、人から見た場合、当惑させ理解不可能と思われる数字および符号の行列としてしばしば存在する。さらに、現代のデータベースに記憶されている原データの範囲および広大さに、たまたま居合わせた観察者は圧倒される。従って、人が容易に理解できるようにデータを解釈、分析、および編集する助けとなるようにアプリケーションが開発されている。これは表示する前に原データを選別、分類、および要約することによってなされる。これにより人はデータを解釈し、データに基づいて重要な決定をすることができる。原データを１以上の演算データベースから取り出して有用な情報に変換することが、データ「倉庫」およびデータ「市場」の機能である。データ倉庫およびデータ市場において、データは演算上の必要よりもむしろ決定支援の役割を満足させるように構成されている。データをデータ倉庫またはデータ市場に格納する前に、演算データベースからの対応する源データを濾過し無関係かつ間違っている記録を取り除き、暗号および相反する符号を解読し、原データを意味のあるものに変換し、決定支援、傾向分析その他のエンドユーザーの要求に役立つ要約データを予め計算する。結局、データ倉庫は決定支援に役立つ非常に大量のデータを含む分析データベースからなる。データ市場はデータ倉庫と似ているが、但し財政、販売、在庫品、または人材のような事業の単一局面に対する集合データのサブセットを収容している。データ倉庫およびデータ市場で、決定者は有用な情報を自由に保持している。データ倉庫を使用するであろう会社としては例えば、何千件ものホテルを世界中に有し各顧客の滞在の詳細をすべて記録しているホテル・チェーンが挙げられる。このデータを貯蔵しておくことによって、ホテル・チェーンの取締役はデータ倉庫から記憶されているデータにアクセスして、世界中の顧客に対するサービスをいかに改善するかに関する重要な決定をするためにデータを使用することができる。データ倉庫およびデータ市場の両方に関する一つの課題は、演算データベースに記憶されている非常に大量のデータを、頻繁に入力される非常に大量のデータと集計することである。データ倉庫またはデータ市場に記憶されているデータを新たに入力されたデータと集計することによって、原データは決定者が頼りにできる最新で有意義な情報に変換される。重要な決定が決定時の事業を最もよく表している情報に基づくように決定者が最新の現在情報を有することが重要である。データ市場またはデータ倉庫に記憶されているデータを、新たに入力されたデータと集計することに関する問題は実行に非常に時間がかかるということである。集計処理時間が長い理由はデータ市場またはデータ倉庫に記憶されている全ての関連データを新たに入力されたデータと再集計するからである。集計処理時間が長いという問題は非常に多くの量のデータが頻繁にデータ市場またはデータ倉庫に入力されると悪化する。例えば、データ倉庫に何テラバイトものデータが記憶されかつ１００万レコードのデータが毎週入力されている場合、データ倉庫にアクセスする中央コンピュータは新データが入力される毎に記憶されている全データを再集計しようとして圧倒される。従って、中央コンピュータがデータ倉庫、データ市場、およびデータベースにアクセスし、これらに記憶されている何セットものデータを頻繁に入力される大量のデータと容易に集計することができる方法を提供すると好都合であろう。本発明はこのような利点を提供する。発明の要約本発明は、動的に増加しているデータベース・データ・セットの増加集計を行う方法である。本発明の実施例は、データ市場またはデータ倉庫内で作動し新たに受けた即ち入力されたデータに応じて演算データベースに記憶されているデータを集計し最新情報を提供する。最初に、コンピュータ・サーバが集合データ・セットで初期化される中間ファイルを生成する。集合データ・セットは特定のグループ識別子に各々対応するデータ値および計数値からなる。集合データ・セットがデータ市場またはデータ倉庫の中間ファイルに一旦記憶されると、本発明は新たな入力データ・セットを受ける準備ができるが、データは特定グループ識別子に各々対応するデータ値からなる。その後、コンピュータは新しい入力セット内に設けられているグループ識別子のいずれかが中間ファイルに記憶されているグループ識別子のいずれかと同一であるかを判定する。入力されたグループ識別子が記憶されているグループ識別子と一致すると、入力されたグループ識別子に対応する入力データ値を、記憶されている記憶グループ識別子に対応する記憶データ値と集計する。記憶されているグループ識別子に対応する計数値は値１だけ増加する。入力されたグループ識別子が中間ファイルに記憶されてるグループ識別子のいずれとも一致しない場合、入力されたグループ識別子および対応する入力データ値が中間ファイルに記憶されかつ計数値１が特定グループ識別子に加えられる。新しい入力データ・セット内の全てのグループ識別子が一旦決められると、コンピュータは中間ファイルになされた変更の全てを集合データ・セットに記憶する。中間ファイルに生じた変更のみを記憶することによって、集合データ・セットは最新情報で更新され集合データ・セット全体を更新する必要がない。図面の簡単な説明本発明は添付図面において限定的ではなく例によって示され、同一の構成要素には同一の参照番号が付される。図１は動的に増加するデータベース・データ・セットに対して増加集計の演算を行う本発明が適用されたコンピュータ・システム・データベースを示す図。図２は動的に増加するデータベース・データ・セットに対して合計、平均または計数からなる増加集計を行う本発明の実施例のフローチャートを示す図。図３Ａは本発明がどのように作動して動的に増加するデータベース・データ・セットを増加集計するかを示しているブロック図および表。図３Ｂはソース・テーブル３００ａ'および図３Ａのターゲット・テーブル３０２ａを示し、本発明が動的に増加するデータベース・データ・セットをどのように増加集計するかをより十分に示す図。詳細な説明動的に増加しているデータベース・データ・セットの増加集計方法を説明する。以下の記載において、説明の目的で、本発明が完全に理解されるように数多くの詳細を述べる。しかしながら、これらの詳細がなくても本発明が実施可能であることは当業者には明らかである。一方、本発明が不明瞭になることを回避するために周知の構造および装置はブロック図形式で示す。図１はデータベース・システムに入力されたデータの集計演算を行う本発明が適用されたコンピュータ・システム・データベースを示す図である。このデータべース・システムは、サーバ１１０（例えばＵｎｉｘまたはＮＴサーバ・コンピュータ）にアクセス可能な情報にアクセスするために使用される専用コンピュータ端末１０１〜１０５（例えばパソコン、ラップトップコンピュータ、ワークステーション、ターミナル等）からなる。各コンピュータ端末１０１〜１０５は、データを記憶かつ処理するためのそれ自身の物理的メモリ・システム（例えば、ハードドライブ、ランダムアクセスメモリ、読み出し専用メモリ等）を有する。サーバ１１０が接続されている大容量記憶装置１１２によってコンピュータ端末１０１〜１０５は大容量記憶装置１１２内に設けられている非常に多くの量のデータにアクセスできる。サーバ１１０はコンピュータ端末１０１〜１０５がアクセス可能なそれ自身の物理的メモリ・システムも有する。サーバ１１０のメモリ・システム内に設けられている中間ディスク・ファイル１１４のメモリ表現は、サーバ１１０内での本発明による集計演算時に使用されコンピュータ端末１０１〜１０５に表示される。大容量記憶装置１１２に設けられている演算データベース１１６はデータ市場またはデータ倉庫用の原データを記憶する。データ市場／倉庫１１３は、大容量記憶装置１１２に設けられているが、演算データベース１１６に記憶されている原データを決定支援に対してより有意義な情報に変換する。大容量記憶装置１１２に設けられている中間ディスク・ファイル１１５およびメモリ内表現中間ディスク・ファイル１１４のいずれかを使用して本発明はその集計演算を行うことができる。サーバ１１０および大容量記憶装置１１２はデータ倉庫、データ市場、または大容量データベースを表している。指摘すべき重要なことは、データ市場／倉庫１１３、中間ディスク・ファイル１１５、演算データベース１１６が別の大容量記憶装置に設けてもよくかつ各大容量記憶装置は別体のサーバに接続可能であるということである。図２は動的に増加しているデータベース・データ・セットに対して合計、平均または計数からなる増加集計を行う本発明の実施例のフローチャートを示す。図２はステップ２０２で開始する工程２００を含む。ステップ２０４で図１のサーバ１１０はデータ市場／倉庫１１３に設けられているターゲット・テーブルに現在記憶されている集計されたデータ・セットで中間ディスク・ファイル１１４および１１５のいずれかを生成かつ初期化する。ステップ２０４の目的は、中間ディスク・ファイル１１４および１１５のいずれかを作成して演算データベース１１６から新たに入力されたデータと、データ市場／倉庫１１３内のターゲット・テーブルにすでに記憶されているデータとの集計を記憶することである。本発明は、集計演算に中間ディスク・ファイル１１４および１１５のいずれかを使用することができる。本発明の作動を明瞭に説明するために、工程２００の更なる説明には中間ディスク・ファイル１１５を使用する。ステップ２０４の完了後、図２のステップ２０６でサーバ１１０は新たな入力列を受けるが、入力列にはグループ識別子および対応するデータ値が含まれている。グループ識別子が特定グループの項目（例えばハンバーガ）を規定する一方でデータ値はグループがどれだけ多く売れたかを示すであろう。ステップ２０７でサーバ１１０は入力列を調べるが、入力列にはグループ識別子と対応するデータ値が含まれ、グループ識別子および対応するデータ値に対してステップ２１０または２１４で行われる機能の型が決定される。例えば、グループ識別子および対応するデータ値に対してサーバ１１０が行うであろう機能は挿入、更新、または削除機能である。挿入機能によってサーバ１１０は入力列のデータを中間ディスク・ファイル１１５に追加する一方で削除機能によってサーバ１１０は中間ファイル１１５から入力列のデータを削除する。更新機能によってサーバ１１０は入力列のデータにおける単数または複数の変更を中間ファイル１１５に送る。本発明の作動の説明を明瞭にするために、挿入機能は中間ファイル１１５における各入力列のグループ識別子および対応するデータ値に対して行われるものとする。ステップ２０７の完了後、ステップ２０８でサーバ１１０は入力列の受信したグループ識別子が中間ディスク・ファイル１１５の記憶情報にすでに記憶されているかを判定する。受信したグループ識別子が中間ディスク・ファイル１１５に設けられていない場合、サーバ１１０はステップ２１４に進む。ステップ２１４でサーバ１１０は新しい独自のグループ識別子と対応するデータ値を中間ディスク・ファイル１１５に記憶されているデータのリストに追加する。ステップ２１６でサーバ１１０は中間ディスク・ファイル１１５内の記憶データに追加されたばかりの新グループ識別子に対応する値１に等しい計数値を記憶する。入力列のグループ識別子が中間ディスク・ファイル１１５に設けられている場合、図２のステップ２０８でサーバ１１０はステップ２１０に進む。ステップ２１０でサーバ１１０は新たに受信したデータ値を中間ディスク・ファイル１１５内の記憶データ値と集計するが、両データ値は同じグループ識別子に対応している。ステップ２１２でサーバ１１０はステップ２１０の同じグループ識別子に対応する記憶計数値を１増加させる。記憶された計数値は、特定グループ識別子に対応しているが、特定グループ識別子がサーバ１１０に受信された回数を表している。ステップ２１２および２１６の両方でサーバ１１０は図２のステップ２１８に進む。ステップ２１８でサーバ１１０は最後のグループ識別子および対応するデータ値が工程２００で受信かつ処理されたかを判定する。最後のグループ識別子および対応するデータ値が受信かつ処理されていない場合、ステップ２１８でサーバ１１０はステップ２０６へ進む。サーバ１１０は最後のグループ識別子およびデータ値がサーバ１１０によって受信かつ処理されるまでステップ２０６〜２１８を繰り返す。最後のグループ識別子およびデータ値がサーバ１１０によって一旦受信かつ処理されると、サーバ１１０はステップ２１８からステップ２２０へ進む。ステップ２２０でサーバ１１０は中間ディスク・ファイル１１５内で行われた変更を、データ市場/倉庫１１３に記憶されているターゲット・テーブルへ送信しテーブルを新情報で更新する。速度を最適にするために、中間ディスク・ファイル１１５内で生じた変更のみをデータ市場／倉庫１１３に設けられているターゲット・テーブルに記憶する。このように最適化することによって記憶が高速化され不必要な記憶手順が取り除かれる。ステップ２２０が一旦完了すると、サーバ１１０はステップ２２２へ進み工程２００が終了する。図２の工程２００が完了すると、図１のデータ市場／倉庫１１３に設けられているターゲット・テーブルには各々の特定のグループ識別子がデータ値の対応する合計および各特定グループ識別子が受信された回数を示す各特定グループ識別子に対応する計数とともに記憶される。これら三変数で、本発明によってサーバ１１０は集計演算の一部として各グループ識別子の平均データ値を決めることもできる。ある特定グループ識別子の平均データ値「平均」を以下に示す関係に基づいてサーバ１１０が計算する。平均＝合計／計数上式において、「合計」はグループ識別子のデータ値の合計に等しく、「計数」はこの特定グループ識別子に対応する計数に等しい。各グループ識別子に対して平均データ値を計算することができるので記憶されている原データに関する重要な情報が得られる。図２の工程２００において説明した工程と同様、本発明によってサーバ１１０（図１）はグループ識別子のデータ値を使用して最大および最小データ値を計算することもできる。最大および最小データ値を計算することは各々本発明の集計演算の別々の機能である。全てのグループの最大データ値を決めることは例えば最大金額を使った顧客を判定する際、有用となるであろう。同様に全てのグループ識別子の最小データ値を計算することによって決定者に有用な情報を与えることができる。本発明における増加集計演算の機能に含まれるものとしてサーバ１１０（図１）は使用者が規定した値の分散即ち変数ｘを計算することができる。サーバ１１０は以下の式に示す関係に基づいて数値の分散を計算する。上式において、ｘｉは使用者規定値ｘの要素の一つであり、ｎはｘのセットにおける要素の数である。ｎの値が１に等しい場合、分散は０に等しい。使用者規定値の分散を計算することによって原データを決定者に有用である有意義な情報に変換することができる。本発明の増加集計演算に含まれる更なる機能として、サーバ１１０は使用者規定値即ち変数ｘの標準偏差を計算することができる。標準偏差は上述したように最初に分散を計算し次に分散を表す値の平方根を求めることによって計算される。使用者規定値の標準偏差を計算することによって難解なデータを重要な決定を行う際、使用する有用な情報に変換することができる。さらに、本発明による増加集計演算においてサーバ１１０は使用者規定値即ち変数ｘの中央値を計算することができる。さらに本発明による増加集計演算において、サーバ１１０は使用者規定値即ち変数ｘの階数を計算することができる。階数機能において、例えばサーバ１１０は中間ファイル１１５に設けられている１０個の大きなデータ値を階数の高いものから低いものへと順次にリストに並べる必要がある。使用者規定値の中央値または階数を計算することによって、難解なデータを重要な決定をする際、使用する有用な情報に変換することができる。図３Ａは本発明がどのように作動してサーバ１１０（図１）が動的に増加するデータベース・データ・セットの増加集計を行うかを示すブロック図および表を示す図である。ソース・テーブル３００は、サーバ１１０が受信し、結果としてデータ市場／倉庫１１３内のターゲット・テーブル３０２に記憶される演算データベース１１６の新入力データを示している。ソース・テーブル３００に設けられているソース・フィールド３０４および３０８は共に特定の新たに入力されたデータを示す。ソース・フィールド３０８が新たに入力されたグループ識別子を示す一方でソース・フィールド３０４は対応するデータ値を示している。ターゲット・テーブル３０２に設けられているターゲット・フィールド３０６および３１０は共に、各対応グループ識別子に対して記憶されている集計されたデータ値を示している。詳しくは、ターゲット・フィールド３１０が記憶されている独自のグループ識別子を示す一方で、ターゲット・フィールド３０６は各グループ識別子の対応する集計された合計データ値を示している。図３Ａのソース・テーブル３００ａおよびターゲット・テーブル３０２ａには本発明によってサーバ１１０（図１）がどのように集計演算を行うかの具体例が示されている。ソース・テーブル３００ａおよびターゲット・テーブル３０２ａは各々、ソース・テーブル３００およびターゲット・テーブル３０２の詳細な説明を表している。ソース・テーブル３００ａのソース・フィールド３０４ａがデータ値を示す一方で、ソース・フィールド３０８ａは対応するグループ識別子を示している。ソース・フィールド３０４ａの各データ値はソース・テーブル３００ａの同じ列に設けられているソース・フィールド３０８ａのグループ識別子に対応している。同様に、ターゲット・フィールド３０６ａの集計された合計データ値は、各々ターゲット・テーブル３０２ａの同じ列に設けられているターゲット・フィールド３１０ａのグループ識別子に対応している。本発明の集計演算をより十分に理解するために、図３Ａのソース・テーブル３００ａおよびターゲット・テーブル３０２ａを具体例において使用する。ハンバーガ・グループに対応するデータ値は一時間以内に売れたハンバーガの量を表している。アップルパイ・グループに対応するデータ値は一時間以内に売れたアップルパイの量を表している。ミルクシェイキ・グループに対応するデータ値は一時間以内に売れたミルクシェイキの量を表している。図３Ａのソース・フィールド３０８ａが異なるグループ識別子を示す一方でソース・フィールド３０４ａはこれらに対応するデータ値を示している。見ればわかるように、ソース・テーブル３００ａにおける第一列は５個のハンバーガが一時間以内に売れた事実を示し、第二列は６個のアップルパイが一時間以内に売れた事実を示している。ソース・テーブル３００ａにおける第三列は３個のハンバーガが一時間以内に売れた事実を示し、第四列は４個のミルクシェイキが一時間以内に売れた事実を示している。ソース・テーブル３００ａの第五列は７個のアップルパイが一時間以内に売れた事実を示している。本発明によるとこの新入力データが集計された後、この情報はターゲット・テーブル３０２ａに記憶される。図３Ａのターゲット・テーブル３０２ａに示されているように、本発明によるサーバ１１０はハンバーガ・グループの全てのデータ値を受信かつ集計し、ターゲット・テーブル３０２ａの第一列に示されているように一時間以内に売れた合計８個のハンバーガとして記憶する。本発明によるサーバ１１０はアップルパイ・グループの全てのデータ値を受信かつ集計し、ターゲット・テーブル３０２ａの第二列に示されているように一時間以内に売れた合計１３個のアップルパイとして記憶する。また、本発明によるサーバ１１０はミルクシェイキ・グループのデータ値を受信し、ターゲット・テーブル３０２ａの第三列に示されているように一時間以内に売れた合計４個のミルクシェイキとして記憶する。本例は本発明によってサーバ１１０（図１）が行う集計演算を示している。本発明がその集計演算をどのように行うかをより十分に理解するために、図３Ｂは本発明によるサーバ１１０が情報の新ソース・テーブルに対してどのように受信かつ集計を行うか、およびターゲット・テーブル３０２ａにすでに存在している値にどのように変更が行われるかを示している。図３Ｂが示すソース・テーブル３００ａ'および図３Ａのターゲット・テーブル３０２ａは本発明が動的に増加するデータベース・データ・セットをどのように増加集計するかをより詳しく示している。ターゲット・テーブル３０２ａは図３Ａに示されているものと全く同じ表であるが、但し本発明によるサーバ１１０がデータ値をどのように変更し、新グループ識別子およびそれらに対応するデータ値が受信された場合どのように追加するかを示している。ソース・テーブル３００ａ'は図３Ａのソース・テーブル３００ａと同じ型の表であるが、但しソース・テーブル３００ａ'は新しい入力データ・セット値を対応するグループ識別子とともに示している。ソース・テーブル３００ａ'およびターゲット・テーブル３０２ａの両方に設けられているグループ識別子は図３Ａに対して上述した内容と同じことを示している。唯一の違いは、まだ規定されていない新グループ識別子があるということである。サラダ・グループに対応するデータ値は一時間以内に売れたサラダの量を示している。図３Ｂのソース・フィールド３０８ａ'が異なるグループ識別子を示す一方で、ソース・フィールド３０４ａ'はそれらに対応するデータ値を示している。見ればわかるように、ソース・テーブル３００ａ'における第一列は５個のミルクシェイキが一時間以内に売れた事実を示し、第二列は６個のサラダが一時間以内に売れた事実を示している。ソース・テーブル３００ａ'における第三列は４個のハンパーガが一時間以内に売れた事実を示している。本発明によるサーバ１１０は、この二セットの新入力データを受信した後、増加集計しかつターゲット・テーブル３０２ａに記憶する。図３Ｂのターゲット・テーブル３０２ａに示されているように、本発明によるサーバ１１０（図１）は、ハンバーガ・グループの全てのデータ値を受信しかつそれらを図３Ａにおいてすでに存在していたデータ値と増加集計し、ターゲット・テーブル３０２ａの第一列に示されているように一時間以内に売れた合計１２個のハンバーガを新たに記憶する。本発明はアップルパイ・グループに関するデータ値を何等受け取っていないので、アップルパイ・グループに対してターゲット・テーブル３０２ａにすでに存在するデータ値は変更されず一時間以内に売れた１３個のアップルパイのままである。このアップルパイ・グループの一定データ値はターゲット・テーブル３０２ａの第二列に示されている。本発明によるサーバ１１０は、ミルクシェイキ・グループの全てのデータ値を受信しかつそれらを図３Ａにおいてすでに存在していたデータ値と集計し、ターゲット・テーブル３０２ａの第三列に示されているように一時間以内に売れた合計９個のミルクシェイキを新たに記憶する。また、本発明によるサーバ１１０（図１）は新サラダ・グループおよびそれに対応するデータ値を受信し、テーブルの第四列に示されているように一時間以内に売れた合計６個のサラダとしてターゲット・テーブル３０２ａに記憶する。この例は、動的に増加するデータベース・データ・セットに対して本発明によって行われる増加集計演算を示している。本発明の一実施例において、高速検索機構を使用して図１のサーバ１１０に設けられている中間ディスク・ファイル１１４、または中間ディスク・ファイル１１５を検索する。この高速検索機構を本発明において実施する一手法は、ｂ−ツリーを使用することであるが、これは当業者には周知である。例えば、図１の中間ディスク・ファイル１１４に１００万個のグループが記憶されているとする。新グループが演算データベース１１６からサーバ１１０に入力されると、新たに受信されたグループが１００万の記憶されているグループに設けられているか否かを判定する必要がある。ｂ−ツリー方法論によると、新たに受信されたグループが１００万個の記憶されているグループに設けられているかを各記憶グループを全て評価することなく素早く判定することができる。集計演算を高速化するための本発明の更なる実施例は、中間ディスク・ファイル１１４および１１５のいずれかに記憶されているデータを図１のサーバ１１０のランダム・アクセス・メモリ（ＲＡＭ）へ移動させることである。これにより本発明の集計演算はサーバ１１０のハード・ドライブから実行される場合よりも高速に行うことができる。言い換えれば、本発明は利用するＲＡＭにｂ−ツリー・ディスク・ファイルを記憶する。本発明の更に別の実施例は、図１の中間ディスク・ファイル１１４および１１５のいずれかを完全に維持する方法である。この方法を達成するため、演算データベース１１６からの新入力データを本発明によって集計する前後において中間ファイル１１４および１１５のいずれかを複写する。これらの写しを新入力データ集計の前後に取ることによって、中間ディスク・ファイル１１４および１１５のいずれかに記憶されている情報は前回保存された写しを消去するまで正確なままであることが確実になる。この複写は集計が行われる前または後に生じるシステムの故障から守るためにも行われる。システムの故障時にデータの損失を防ぐために行われる工程は中間ディスク・ファイル１１４および１１５のいずれかが密閉された有効なデータ・ビットを有することによってデータの正確さを確実にすることである。さらに、本発明において、各ターゲット・テーブル３０２（図３Ａ）の集計に対して個々に中間ディスク・ファイル１１４または１１５（図１）を作成してもよい。言い換えれば、いくつかのターゲット・テーブルがあり、かつ異なる項目が集計される場合、異なる中間ディスク・ファイルが存在しうる。この中間ディスク・ファイルは、データがその特定ターゲット・テーブルに対して適切であることを確実にするために、各特定のターゲットに対して保存される。本発明の更なる実施例は、障害復旧支援を行うことができることである。ｂ− ツリーを構築する時、構築の前または後にシステムの故障が生じる可能性がある。ｂ−ツリーを構築する前に故障が生じた場合、本発明は前回保存した点に戻りかつデータを完全に維持することができる。ｂ−ツリーが首尾よく構築された後であるがターゲット・データベースが更新される前にシステムの故障が生じた場合、中間ディスク・ファイル１１４または１１５は集計されたデータの正確な写しを保持しているがターゲット・データは一致していない。この問題を解決するために、ｂ−ツリーから直接ターゲット・テーブルに高速で誤差なしで装填可能である特定の機構が使用される。以上、本発明の具体的な実施例を例示および説明の目的で記載した。この記載は、徹底的に記載されたものでも開示した正確な形態に発明を限定するように意図したものでもなく、上記教示に照らしてみると多くの改良および変形が明らかに可能である。発明の原則およびその実際上の適用を最もよく説明するために実施例を選択かつ記載したので、それにより当業者は発明および様々な実施例を様々な改良とともに意図されている特定の用途に適するように最大限に利用することができる。発明の範囲は添付する請求の範囲および均等範囲によって定義されると考えられている。

───────────────────────────────────────────────────── フロントページの続き (72)発明者モン、ウォンアメリカ合衆国カリフォルニア州、サンノゼ、ヘデオック、コート、1685 (72)発明者ディアス、ネサマネーアメリカ合衆国カリフォルニア州、サンフランシスコ、ダローリス、ストリート、 870 【要約の続き】ータ・セット内の全てのグループ識別子が一旦決められると、コンピュータは中間ファイルに対してなされた変更の全てを集合データ・セットに記憶する。

Claims

【特許請求の範囲】１．コンピュータ・システム・データベースにおいて、動的に変化する演算データベース・データ・セットを増加集計するための方法であって、ａ）中間ファイルを作成し、ｂ）一組の記憶されたグループ識別子およびこの記憶グループ識別子に対応する一組の記憶データ値を含む前記演算データベースに記憶されている集合データ・セットで中間ファイルを初期化し、ｃ）一組の新入力データに含まれている入力グループ識別子と、この入力グループ識別子に対応する入力データ値とを受取り、ｄ）前記入力グループ識別子が前記中間ファイルに記憶されている前記記憶グループ識別子のいずれかと同一であるかを判定し、ｅ）前記入力グループ識別子が前記中間ファイルに見られるいずれかの前記記憶グループ識別子と同一である場合、前記入力データ値を対応する前記記憶データ値と集計し、ｆ）前記入力グループ識別子が前記中間ファイルに記憶されている前記記憶グループ識別子のいずれとも同一でない場合、前記入力グループ識別子を前記中間ファイルに記憶し、ｇ）前記中間ファイルになされた変更を、前記演算データベースに記憶されている前記集合データ・セットに記憶するステップからなる方法。２．ステップｃ）〜ｆ）が前記一組の新入力データの次の入力グループ識別子に対して繰り返される、請求の範囲第１項記載の方法。３．前記集合データ・セットが前記記憶グループ識別子に対応する計数値をさらに含み、前記計数値は前記コンピュータ・システム・データベースが前記グループ識別子を受けた回数を示している、請求の範囲第１項または第２項に記載の方法。４．前記集計ステップは、前記中間ファイルに設けられている前記記憶グループ識別子に対応する計数値を増加させるステップをさらに備える、請求の範囲第２項または第３項に記載の方法。５．前記入力グループ識別子を記憶する前記ステップは、前記中間ファイルに新たに記憶された入力グループ識別子に対応する１の計数を記憶するステップを備える、請求の範囲第３項に記載の方法。６．前記中間ファイルに記憶されている前記データ値を特定グループ識別子の前記計数値で割ることによって平均データ値を決定するステップを更に備える、請求の範囲第１項〜第５項のいずれか１つに記載の方法。７．前記中間ファイルに記憶されている最大データ値を決定するステップをさらに備える、請求の範囲第１項〜第５項のいずれか１つに記載の方法。８．前記中間ファイルに記憶されている最小データ値を決定するステップをさらに備える、請求の範囲第１項〜第７項のいずれか１つに記載の方法。９．使用者が規定した値、または前記中間ファイルに記憶されている変数の中央値を決定するステップをさらに備える、請求の範囲第１項〜第８項のいずれか１つに記載の方法。１０．使用者規定値、または前記中間ファイルに記憶されている変数の階数を決定するステップをさらに備える、請求の範囲第１項〜第９項のいずれか１つに記載の方法。１１．使用者規定値、または前記中間ファイルに設けられている変数ｘの分散を下記式：（上式において、ｘｉは使用者規定値Ｘの要素の一つであり、ｎは一組のｘにおける要素の数であり、ｎの値が１に等しい場合、前記分散は０に等しい）に従って決定するステップをさらに備える、請求の範囲第１項〜第１０項のいずれか１つに記載の方法。１２．ｘの分散の平方根を求める関係に基づいて標準偏差を決定するステップをさらに備える、請求の範囲第８項に記載の方法。１３．前記決定ステップが検索機構としてｂ−ツリーを使用して前記中間ファイルを検索するステップを備える、請求の範囲第１項〜第１２項のいずれか１つに記載の方法。１４．前記初期化ステップが前記中間ファイルを前記コンピュータ・システムのランダム・アクセス・メモリに記憶するステップを備える、請求の範囲第１項〜第１３項のいずれか１つに記載の方法。１５．前記初期化ステップが、前記集合データ・セットを前記中間ファイルに記憶した後に前記中間ファイルに記憶されている要素の写しを作成するステップを備える、請求の範囲第１項〜第１４項のいずれか１つに記載の方法。１６．前記記憶ステップが、前記中間ファイルになされた変更を前記演算データベースに記憶されている前記集合データ・セットに記憶する前に、前記中間ファイルに記憶されている要素の写しを作成するステップを備える、請求の範囲第１項〜第１５項のいずれか１つに記載の方法。