JP2001331353A

JP2001331353A - データベースへのデータ入力システム及びそのプログラムを記憶した記録媒体

Info

Publication number: JP2001331353A
Application number: JP2000149648A
Authority: JP
Inventors: Masahiko Kawakami; 晶彦川上; Shuichi Osaki; 修一大崎; Falker Markle; マークル・フォルカー; Robert Fenk; フェンク・ロバート
Original assignee: Teijin Ltd
Current assignee: Teijin Ltd
Priority date: 2000-05-22
Filing date: 2000-05-22
Publication date: 2001-11-30

Abstract

(57)【要約】（修正有）【課題】インデックス値がキー項目の複数の項目から
演算を含む所定の方式により導出されるようなインデッ
クスのデータベースに対して、大量のデータであっても
高速にデータをロードできるデータベースの入力方法を
提供する。【解決手段】入力データ集合を同時に処理できるデー
タ数以下の部分集合に分割して、該部分集合について順
次その各データのインデックス値を前記所定の方式によ
り求め、各データをインデックス値順に並べ替えてその
インデックス値を付加して補助記憶装置に設けたテンポ
ラリファイルに一時記憶する部分ソート部と、得られた
テンポラリファイルから、各インデックス値付きデータ
を読み出してインデックス値順に出力するマージソート
部と、マージソート部からのデータをデータベースにペ
ージ毎に入力するロード部とからなることを特徴とする
データベースのデータ入力システム。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、データが複数の項
目からなり、これらデータを順序付けるインデックスが
所定の方式により該項目のうちの少なくとも二つの項目
から導き出されるインデックス値からなり、その範囲に
より管理単位のページに区分して管理するデータベース
へのデータ集合を入力するデータベースへのデータ入力
システムに関する。

【０００２】

【従来の技術】データベースとして最もよく利用されて
いる関係データベース（以下、「ＲＤＢ」と略称す
る。）では、ＲＤＢが保持するデータに対する検索を高
速に行うため、インデックスが用いられる。インデック
スは、ＲＤＢのテーブルが持つ各種の属性に関する複数
の項目の組み合わせ（以下、キー項目と呼ぶ）に対し
て、キー項目の値からある決められた方式に従って求め
られる値（以下、インデックス値と呼ぶ）によって順序
付けを行い、このインデックス値によりデータへのアク
セスを直接行う方法を提供することにより、検索の高速
性をもたらす。

【０００３】ＲＤＢでは、大量のデータを、ハードディ
スク、光ディスク等の補助記憶装置上のある特定の区画
（以下、ページと呼ぶ）に格納する。このとき、あるイ
ンデックスに対して、インデックス値を所定の範囲で区
切ってその範囲に収まるデータを一つのページに格納す
る（以下、データ編成と呼ぶ）方法が一般的に用いられ
ている。このようなインデックスをプライマリインデッ
クスと呼ぶ。プライマリインデックスを用いると、デー
タがそのインデックス値の順にそのままページに格納さ
れているため、より高速に検索を行うことができる。

【０００４】また、各ページへアクセスするために、Ｒ
ＤＢ内では、各ページが持つインデックス値の範囲とそ
のページへの参照をひとつの組とする管理データも、同
じように保持される必要がある。このような各ページに
関するデータ全てを編成し、ページ内に格納することを
インデックス構築と呼ぶ。

【０００５】ＲＤＢにおいて、複数のデータに対してデ
ータ編成とインデックス構築を一度に行うことをデータ
のロードと呼び、そのための機能を提供するものをロー
ダと呼んでいる。

【０００６】インデックスは、インデックス値を求める
方式具体的にはその算出方式によって特徴づけられる。
例えば、キー項目の各項目の値をそのまま結合したもの
をインデックス値とするコンパウンドＢツリーや、キー
項目の各項目の値から特定の演算式により算出して得ら
れる値をインデックス値とするＵＢツリーなどがある。

【０００７】ＵＢツリーで施される演算の一つとして、
各キー項目の値を２進数のビットで表現し、まず最上位
ビットをキー項目内の属性の順番に取得する。次に上か
ら２番目のビットをキー項目の属性の順番に取得して、
ということを全てのビットについて取得して作り上げた
２進数のビットの値をインデックス値とする、ビットイ
ンターリーブ方式がある。

【０００８】一般に、このＵＢツリーのようにキー項目
の値から何らかの演算を施してインデックス値を得るよ
うなインデックスは、たとえその処理が多少複雑であっ
たとしても、それを補ってあまりある検索速度の優位性
をもたらすものであるため、規定する属性項目が多くな
り、データ自体が複雑な構成となる傾向にある近年は当
然そのようなインデックスも実用上よく使われる。

【０００９】

【発明が解決しようとする課題】ところで、大量のデー
タを扱うデータベースにおいては、上述のように検索に
より必要なデータが高速に得られることが重要であると
共に、データベースの立ち上げ、運用管理においてデー
タのロード自体も出来るだけ短時間で行うことができる
ことが重要であり、日常の運用では求められる。

【００１０】この大量のデータに対してロードを行う際
には、データを一件一件読み込んでそのインデックス値
に応じてページに格納する逐次入力方法よりも、あらか
じめインデックス値の順番にデータを並べ替え、その並
べられた順にまとめてページに格納する並び替え入力方
法がきわめて高速にデータをロードでき、有利であると
考えられる。

【００１１】しかしながら、インデックス値がキー項目
の複数の項目から演算を含む所定の方式により求められ
るＵＢツリーのようなインデックスのデータベースに対
しては、データ数が管理に使用する計算機で一度の処理
できる量を越えるような大量の場合データのインデック
ス値を算出しつつインデックス値順に順序付けて並べ替
えることができず、上述の並び替え入力方法は適用でき
なかった。

【００１２】従って、従来はこのようなインデックスの
データベースに対してデータをロードする場合は、デー
タ一件ごとにインデックス値を演算により求め、得られ
たインデックス値に基づいてこれを格納する適切なペー
ジを探索してそれに格納するという逐次入力方法が用い
られていた。この従来法は、多大なる時間を要し、その
ため、たとえそのインデックスによって検索の高速性が
もたらされたとしても、データのロードに時間がかかり
すぎるため、実務上大きな問題となっていた。

【００１３】本発明は、かかる問題の解決を課題とした
もので、その目的は、インデックス値がキー項目の複数
の項目から演算を含む所定の方式により導出されるよう
なインデックスのデータベースに対して、大量のデータ
であっても高速にデータをロードできるデータベースの
入力方法を提供することにある。

【００１４】

【課題を解決するための手段】上記課題は、以下の本発
明により解決される。すなわち、本発明は、データが複
数の項目からなり、これらデータを順序付けるインデッ
クスが所定の方式により該項目のうちの少なくとも二つ
の項目から導き出されるインデックス値からなり、その
範囲により管理単位のページに区分して管理するデータ
ベースへのデータ集合を入力するデータベースへのデー
タ入力システムにおいて、入力データ集合を計算機の利
用可能な主記憶装置で同時に処理できるデータ数以下の
部分集合に分割して、該部分集合について順次その各デ
ータのインデックス値を前記所定の方式により求めると
共に各データをインデックス値順に並べ替えてそのイン
デックス値を付加して補助記憶装置に設けたテンポラリ
ファイルに一時記憶する部分ソート部と、得られた全て
の部分集合のテンポラリファイルから、各インデックス
値付きデータを読み出してインデックス値順に出力する
マージソート部と、マージソート部からのデータをデー
タベースにページ毎に入力するロード部とからなること
を特徴とするデータベースのデータ入力システムであ
る。

【００１５】上述の通り、本発明では、入力する入力デ
ータ集合を処理するシステムの処理に適したデータ数の
部分集合に分割して各部分集合においてインデックス値
を求めると共に求められたインデックス値順に並べ替え
ており、大量の入力データに対しても並べ替えができ、
前述の並べ替え入力方法が実現され、入力の高速化が達
成される。

【００１６】そして、上述の本発明において、マージソ
ート部が、テンポラリファイルのファイル数が補助記憶
装置から一度に読み込むことができるファイル処理数を
越えた場合に、該ファイル処理数のテンポラリファイル
を読み込み、このファイル処理数のテンポラリファイル
を一つの２次テンポラリファイルにマージするマージ処
理により、テンポラリファイルのファイル数を該ファイ
ル処理数以下にするマージ手段を備えることにより、小
型の計算機でも大量のデータ数の入力データ集合を処理
できる。

【００１７】また、本発明の部分ソート部を、主記憶装
置に所定数のデータを記憶できるテンポラリ記憶領域を
設定し、入力データ集合から順次データを読み出してそ
のインデックス値を求めて該テンポラリ記憶領域にイン
デックス値を付加して記憶し、該テンポラリ記憶領域が
満たされると、記憶されたインデックス値付データをイ
ンデックス順に並べ替えてテンポラリファイルに出力す
ることにより、入力データ集合を所定数のデータからな
るテンポラリファイルに連続的に分割する構成とするこ
とにより、入力データ集合のデータ順に連続処理でき、
部分集合への分割処理が高速に処理できる。

【００１８】一方、本発明のロード部を、ロード部は、
主記憶装置にデータベースの管理単位の１ページ分のデ
ータが展開できるメモリページ領域を設定すると共に予
め設定された指定ページを読み出してメモリページ領域
に展開し、マージソート部からの入力データをメモリペ
ージ領域に展開された展開ページに順次挿入し、そのイ
ンデックス値が展開ページのインデックス値の範囲を越
えた入力データとなった場合に、データベースの指定ペ
ージを展開ページの内容に更新すると共に次のページを
メモリページ領域に読み出して展開して展開された展開
ページに入力データを入力することにより、入力データ
をインデックス値順に対応するデータベースの各ページ
にページ毎に一括して入力する構成とすることにより、
ページ展開は必要最小限で既存のデータと整合させつつ
入力データを高速に入力できる。

【００１９】さらに、このロード部に、データベースに
如何なる入力データも格納できるインデックス値の範囲
が無限大の無限値ページを設けて置き、指定ページとし
て無限値ページが展開された場合は、メモリページ領域
に展開された該無限値ページに入力データをインデック
ス順に順次入力し、入力したデータ数が予め設定した設
定値以上に達した場合若しくは入力終了の場合にメモリ
ページ領域に格納されているデータを無限値ページから
別のページとしてページ分割し、データーベースに新ペ
ージとして格納するイニシャルロード手段を備えること
により、データベースの立ち上げの際のインデックス構
築を伴う大量のデータの入力も前述のデータ入力と同様
に高速に実施できる。また、これを実施するプログラム
も簡単となる。

【００２０】また、これらのロード部に、メモリページ
領域に展開したページのデータ数が入力データの追加に
より予め設定した設定個数に達すると、該ページをこれ
に収納したデータ数を二分するように２個のページに分
割する構成を加えることにより、対象のデータベースの
インデックスを保持したままで、簡単に大量のデータが
追加できる。

【００２１】なお、本発明は、上述の本発明になるデー
タベースのデータ入力システムのプログラムを記憶した
機械読み取り可能な記録媒体を包含するものである。か
かる記録媒体としては、周知のフロッピディスク、ハー
ドディスク等に磁気記録媒体、ＣＤ−ＲＯＭ、ＤＶＤ、
ＭＯ等の光記録媒体、更には半導体メモリ等が挙げられ
る。

【００２２】

【発明の実施の形態】以下、本発明を関係データベース
（ＲＤＢ）に適用した実施例に基づいて詳説する。とこ
ろで、ＲＤＢは、公知の通り、以下の構成となってい
る。すなわち、ＲＤＢは、データを論理的な方法と物理
的な方法で分けて保持している。論理的には、テーブル
と呼ばれる、一つ以上の属性からなる情報の集まりを一
つのデータ単位（以下、レコード）としたレコードの集
まりとして保持しており、物理的には、ページと呼ばれ
るＲＤＢが管理する補助記憶装置上の特定の区画に、イ
ンデックス値が所定範囲のデータからなるレコード単位
で保持する。

【００２３】そこで、データ編成とは、インデックス値
をある範囲で区切り、テーブル内のレコード集合のデー
タをそのインデックス値に応じてその範囲ごとに分類
し、一つの範囲に含まれるレコード集合を特定の各ペー
ジに格納することを指す。

【００２４】また、インデックス構築とは、インデック
ス値とそのインデックス値付データが収納されたページ
の関係を示すインデックス参照システムを構築すること
である。以下、ＵＢツリーインデックスシステムを例に
説明する。

【００２５】先ず、ＲＤＢの物理上のデータの管理単位
となるページの補助記憶装置上の格納場所（以下、参照
という）と、そのページに割り当てられたインデックス
値の範囲の最大値（以下、ページ値という）を一組とし
て参照データを構成し、そのページ値の順に並べる。そ
して、一定数（以下、ノード容量という）ずつまとめて
一つのリーフノードにし、このリーフノード単位でペー
ジに格納する。

【００２６】次いで、このようにして得られたリーフノ
ードの数がノード容量を越えて存在するときには、それ
らリーフノードを格納したページの参照とリーフノード
に含まれるデータのページ値の最大値（以下、ノード
値）を一組にしてノードデータを構成してノード値順に
並べ、再びノード容量ずつまとめて一つのノードにし、
各ページに格納する。

【００２７】さらに、このようにして得られたノードが
ノード容量を越えて存在するときには、上述のノード構
築と同様にしてそれらのノードのページの参照とそのノ
ードに含まれるデータのノード値の最大値（これも、ノ
ード値という）を１組にしてノードデータを構成して並
べノード容量ずつまとめて新しくノードを作るという手
順を、新しくできたノードがノード容量以下に収まるま
で繰り返す。そして、出来上がった全てのノードを各ペ
ージに格納することによりインデックス参照システムを
構築することをいう。

【００２８】次に、データのロードとは、複数のデータ
に対してインデックス構築を行いつつ、データ編成を行
うことをいう。

【００２９】また、データをＲＤＢに格納する前には、
データを保持するテーブルを作成しなければならない。
また、ＲＤＢは、最初にテーブルを作成する際、中身が
空で、如何なるデータも収納できるようにページ値が無
限大であるページを自動的に作成し、同時にそのページ
の参照とページ値を組にしたデータを格納したリーフノ
ードを１枚作成し、リーフノードをページに格納する。

【００３０】以下、多数の入力すべきデータが記録され
たファイル（以下、入力データファイル）から全てのデ
ータを読み込んでロードする実施例について説明する。
なお、本例のインデックスシステムには上述したＵＢツ
リーインデックスを用い、各データのインデックス値の
算出方法には前述のビットインターリーブ方式を用い
る。

【００３１】図１は、本実施例におけるシステム構成で
ある。図示のように計算機とハードディスク等の補助記
憶装置で構成される。計算機には本入力システムのプロ
グラムが収納され、その実行に際して、その主記憶装置
には適当な大きさのメモリ領域として、テンポラリ領域
とメモリページ領域の２つが確保される。また、補助記
憶装置の一方には、入力すべきデータ集合が記録された
入力データファイルや、入力データをインデックス値順
に並べ替える過程で生じるテンポラリファイルが格納さ
れる。また、他方の補助記憶装置にＲＤＢのデータがペ
ージを管理単位として格納される。以下、その詳細を説
明する。

【００３２】図２は、本例の入力システムの機能構成の
説明図である。本システムは、大きく、入力データに対
しそのインデックス値を計算してデータをインデックス
値順に並べ直してインデックス順に出力するソート部
と、インデックス値順に入力されるデータを編成しＲＤ
Ｂ内に格納する共に必要に応じてそのインデックスを構
築あるいは更新するロード部とからなる。

【００３３】さらに本例のソート部は、図示のように大
量のデータを限られた計算機資源で扱えるように、入力
データを主記憶装置上で扱える範囲のサイズの部分集合
に分割すると共に各部分集合のデータのインデックス値
を計算しその順にデータを並べ替えてデータとインデッ
クス値をファイル（以下、テンポラリファイル）に記憶
する作業を行い、最終的にテンポラリファイルの集合
（以下、テンポラリファイルリスト）を出力する部分ソ
ート部と、部分ソート部が出力したテンポラリファイル
リストを入力として、部分集合の全てをまとめてその全
データをインデックス値順に出力するマージソート部と
で構成し、マイコン等の小型計算機システムでも実行で
きるようにしている。

【００３４】以下、部分ソート部、マージソート部、ロ
ード部の詳細を説明する。図３は、部分ソート部のフロ
ーチャートである。本例では、部分ソート部はスタート
すると、まずテンポラリ領域作成ステップで主記憶装置
上にテンポラリ領域を確保する。テンポラリ領域は、入
力されてきたデータそのものと、そのデータに対応する
インデックス値をセットで保持しておくための領域であ
る。

【００３５】テンポラリ領域を確保後、部分ソート部は
入力データ取得ステップにおいて補助記憶装置上の入力
データファイルから、入力データを１件ずつ受け取り、
以下のように処理していく。

【００３６】ところで、テンポラリ領域は主記憶装置上
に確保されているため、その大きさには限界がある。そ
のため、巨大な入力データ集合に対してその全てのデー
タを格納することはできない。

【００３７】そこで、次の入力終了またはテンポラリ領
域満杯判別ステップにおいて、以下の処理を行ってい
る。もしテンポラリ領域に今入力したデータを格納する
スペースがある、すなわち満杯でない図で「ＮＯ」なら
ば、次の計算ステップに進み、入力データのインデック
ス値を計算する。そして、次の格納ステップで、テンポ
ラリ領域にデータと得られたインデックス値をテンポラ
リ領域に格納する。

【００３８】一方、もしテンポラリ領域が満杯で今入力
されたデータをテンポラリ領域に格納できない図で「Ｙ
ＥＳ」の場合、先ず次のステップでテンポラリ領域に格
納されている全データをインデックス値順にソート具体
的には並べ替え、次のステップに進み、データとインデ
ックス値をテンポラリファイルに全て出力して保存す
る。

【００３９】次の入力終了判別ステップでは、上述の場
合は入力終了でない図で「ＮＯ」に進む。従って、次の
ステップでテンポラリ領域をクリアしてから、前述の計
算ステップに進み、テンポラリ領域に入力できなかった
入力データに対して前述の通りそのインデックス値を計
算してテンポラリ領域にデータとインデックス値を格納
する。

【００４０】また、前述の入力終了またはテンポラリ領
域満杯判別ステップにおいて、入力データがない、即ち
入力が終了した図で「ＹＥＳ」の時は、その時点で前述
の満杯の場合と同様に「ＹＥＳ」の方に進み、同じよう
にテンポラリ領域に格納されている全データをインデッ
クス値順に並べ替え、データとインデックス値をテンポ
ラリファイルにすべて保存する。

【００４１】ところが、入力終了の場合は、次の入力終
了判別ステップにおいて「ＹＥＳ」となるので、「ＹＥ
Ｓ」の方に進み、終了処理として次のテンポラリ領域削
除ステップでテンポラリ領域自体を削除すると共に、そ
れまでに作成した全てのテンポラリファイルをテンポラ
リファイルリストとしてマージソート部への入力し、本
部分ソート部の処理を終わる。

【００４２】部分ソート部からテンポラリファイルリス
トを与えられたマージソート部は、これら全てのテンポ
ラリファイルからその全てのデータについて、以下のよ
うに各データおよびそのインデックス値をインデックス
値の順にロード部に出力する。

【００４３】ここで、テンポラリファイル内のデータ
は、部分ソート部により既にインデックス値の順に並べ
替えられた状態で保持されているから、マージソート部
は、与えられた全てのテンポラリファイルの先頭から一
件ずつ順番にデータを読み込んで、それらをインデック
ス値の順に出力するという簡単な処理で、全データをイ
ンデックス値順に出力することができる。

【００４４】ところで、一般的にディスク操作システム
には、一度に読み込むことの出来るファイルの上限が設
けられているため、大量データが入力で与えられるなど
してテンポラリファイルの数が増えた場合、全てのテン
ポラリファイルを同時に開いて読み込むことは出来な
い。

【００４５】そこで、本例では、以下の構成のテンポラ
リファイルを統合してファイル数を少なくするマージ手
段を備えている。このマージ手段は、テンポラリファイ
ルの内許される数のテンポラリファイルだけを開き、そ
れらのテンポラリファイルだけからデータおよびインデ
ックス値をインデックス値順に取り出して別のファイル
に出力してこれらのファイルを統合した統合したファイ
ルを作成し、読み出したテンポラリファイルを削除して
作成した統合ファイルをテンポラリファイルとしてテン
ポラリファイルリストに追加するという構成となってい
る。従ってこのマージ処理を繰り返すことにより、テン
ポラリファイルのファイル数を一度の処理できる所望の
ファイル数まで削減できる。

【００４６】なお、この処理過程においては、開いたフ
ァイル１つに対して、まだ読み込まれていないデータ１
件のみが処理される領域が主記憶上にあればよく、その
領域の大きさは、テンポラリ領域に比して圧倒的に小さ
い。したがって、マージソート部では、入力データの
量、すなわちテンポラリファイルの大きさは問題にはな
らない。

【００４７】次に以上のマージ手段の処理を図４〜図７
により具体的に説明する。本説明では、テンポラリファ
イル数７つのテンポラリファイルリストが、マージソー
ト部に与えられ、また、一度に読み込めるファイル数を
３とする。

【００４８】この例のマージ処理前のテンポラリファイ
ルの初期状態を図４に示す。マージ手段は、まず図示の
ように統合ファイルとなる空のテンポラリファイル２−
１を設定し、テンポラリファイルリストの中から、テン
ポラリファイル１・２・３の３つのファイルを開き、こ
れらのファイルからインデックス値の順番にデータを取
得し、テンポラリファイル２−１にデータとインデック
ス値を書き出す。テンポラリファイル１・２・３全ての
ファイルから全てのデータを読み込んだら、開いていた
テンポラリファイル１・２・３を閉じて削除し、代わり
にこれらを統合したテンポラリファイル２−１をテンポ
ラリファイルリストに加える。その第１回マージ後のテ
ンポラリファイルの状態を図５に示す。図示のように、
まだ、処理すべきテンポラリファイルの数は５個であ
り、同時処理ができない。

【００４９】そこで、マージ手段は、次にテンポラリフ
ァイル４・５・６の３つのファイルを開き、前述と同様
にしてこれらを統合したテンポラリファイル２−２を作
成する。テンポラリファイル４・５・６内の全てのデー
タをテンポラリファイル２−２に書き出せたら、開いて
いたテンポラリファイル４・５・６を閉じて削除し、代
わりにこれらの統合ファイルのテンポラリファイル２−
２をテンポラリファイルリストに加える。この第２回の
マージ処理後のテンポラリファイルの状態を図６に示
す。図より、問題のテンポラリファイルリスト内のファ
イル数を、一度に読み込めるファイル数にまで減らすこ
とができた事がわかる。

【００５０】マージ手段によりテンポラリファイルリス
ト内のファイル数を、一度に読み込める数にまで減らせ
れば、マージソート部はそれらのファイルを全て開い
て、インデックス値の順に全てのデータを順々に出力す
ることができる。そこで、インデックス値の順番にデー
タを取ってきて、インデックス値とともにそれをロード
部に入力として順々に引き渡す。

【００５１】ロード部は、マージソート部からの入力デ
ータをＲＤＢに以下のようにしてロードする。図７は、
このロード部の動作を表すフローチャートである。本例
では、図示のように、ロード部はメモリページ領域（Ｍ
ＰＡ）作成ステップで先ず主記憶装置上に、ＲＤＢの１
つのページに保持される全データを格納するのに十分な
大きさのメモリページ領域を確保する。メモリページ領
域には、ページ値も保持される。

【００５２】次いで、最小ページ取得ステップで、入力
データを受け入れる準備として、予め指定された指定ペ
ージ本例では一番小さいページ値すなわち最小インデッ
クス値の範囲を持っているページの内容をＲＤＢから取
得する。なお、この指定ページは、最初の入力データが
格納されるページ本例では具体的にはそのデータのイン
デックス値を含むページ値最小のページを取得するよう
にしてもよい。こうすると最初の入力データのインデッ
クス値が大きい場合には処理時間が短縮できる。

【００５３】そして、判定ステップに進み、イニシャル
・インクリメンタル具体的には今回のデータ入力が既設
のページへのデータの追加か否かの判定を行う。すなわ
ち、取得したページを調べ、それがページ値が無限大の
無限値ページの場合は、イニシャルすなわち初めてのデ
ータ入力と判定してそのイニシャルフラグをセットす
る。一方、ページに既に何らかのデータが格納されてい
る場合、インクリメンタルすなわちデータの追加と判定
し、イニシャルフラグをリセットする。

【００５４】イニシャル・インクリメンタルの判定を行
った後、ページ内容取得ステップに進み、先ほど取得し
たページ内容をメモリページ領域に展開する。

【００５５】この後入力データ取得ステップに進み、マ
ージソート部からインデックス値順に１件１件の入力デ
ータを受け取り、以下のように処理していく。

【００５６】先ずイニシャルロードの判定ステップにお
いて、前述のイニシャルかインクリメントかをイニシャ
ルフラグで判定する。そして、イニシャルの「ＹＥＳ」
の場合は、入力データが既にインデックス値順に並んで
いるため、その基本処理は入力データを順々にメモリペ
ージ領域に展開されたページ本例では無限値ページに格
納していけばよい。

【００５７】ところが、ページに格納できるデータ数は
予め管理に適した所定収納容量に定められており、一般
には対象とする全ての入力データを一つのページに収め
ることはできない場合が生ずる。そこで、本例ではこれ
に対処するため次の必要ならＭＰＡ内容をページに格納
のステップにおいて、以下の処理を行うようにしてい
る。すなわち、当該入力データを入力するとメモリペー
ジ領域に格納したデータ量がそのページの該所定収納容
量に対して予め定めた充足率を越える場合には、メモリ
ページ領域のその際の全データを別のページとして分割
しこれを収納する新ページをＲＤＢに作成して該別のペ
ージを格納してページ分割すると共に、メモリページ領
域に展開された無限値ページから格納した全データを削
除して、当該入力データを入力するようにしている。

【００５８】本実施例では、このページ分割処理は以下
のようにしている。当該入力データを加えることで、メ
モリページ領域に格納されるデータ数が当該ページの所
定収納容量の７５％（設定充足率）を越えるならば、今
メモリページ領域に格納されているデータを、新ページ
としてＲＤＢに格納するようにしている。また、この
際、この新ページのページ値として、このページに含ま
れるデータの中でインデックス値が最大のデータのイン
デックス値と入力待機中の当該入力データのインデック
ス値との平均値を用いている。

【００５９】このページ分割処理の具体例を図８に示
す。図８の例では、説明を分かり易くするためにページ
の収納容量すなわち格納できるデータ量を５個とする。
なお、当該ページはイニシャルのためＲＤＢのページ値
が如何なるインデックス値のデータも入力できるように
無限大に設定された無限値ページが展開されている。

【００６０】図示のようにインデックス値が１２，１
３，１５である３つのデータが既にメモリページ領域
に格納されているとして、この状態で次に入力データと
してインデックス値が１７のデータを入力する場合を説
明する。この入力データを格納すると、充足率が８０％
となってその設定充足率の７５％を越えるため、既に格
納されている３つのデータを、ＲＤＢに新しくページを
作成してそこに格納する。この際、作成された新ページ
のページ値は、１５と１７の平均値即ち１６となる。そ
して、ＲＤＢに新ページを格納後、メモリページ領域に
展開された無限値ページから３つのデータを削除する共
に無限値ページに図示のように当該入力データ具体的に
は図でインデックス値１７のデータを格納して、このペ
ージ分割処理を終了する。

【００６１】ここで、メモリページ領域のページ分割の
際の設定充足率を７５％にした理由について説明する。
一つのページにはできるだけ多数のデータが入っている
ことが検索効率上は望ましいが、全てのページに１００
％データを入れると、次にデータを追加する際に必ず上
述のページ分割が発生する。ページ分割はそれ自体が相
応の時間を必要とするため、ページ分割の回数は少なく
するのが望ましい。そこで本実施例では７５％を設定充
足率としてページ格納の判断基準としているが、この設
定充足率は個々のケースで最適値を求めるべきである
が、通常は５０〜９０％の範囲で選定する。

【００６２】そして、ページ分割処理終了後又はその必
要がない場合は直ちに次の入力終了の判定ステップに進
み、対象の全ての入力データの入力が終了したか否かを
判定する。そして、入力すべきデータがまだあり、入力
終了でない場合は、図の「ＮＯ」の方に進み、入力デー
タ取得ステップに戻り、次の入力データを取得する。一
方、入力すべきデータが無くなった入力終了の場合は、
図の「ＹＥＳ」の方に進み、次のＭＰＡ削除ステップに
おいて、メモリページ領域の内容をこれに展開されてい
るＲＤＢの当該ページに格納した後、メモリページ領域
を主記憶装置から削除して、ロード処理を終了する。

【００６３】一方、イニシャルロードの判定ステップに
おいて、データの追加のインクリメンタルすなわち図の
「ＮＯ」の場合は、まず図のＭＰＡの範囲外の判定ステ
ップに進み、現在の入力対象の当該入力データがメモリ
ページ領域に展開されている当該ページに収納できる範
囲内は否かをそのインデックス値で判定する。

【００６４】そして、メモリページ領域のページ値が当
該入力データのインデックス値以下の場合は、ＭＰＡの
範囲内であり、図の「ＮＯ」の方に進み、以下のように
処理する．この場合の基本的処理は、当該入力データを
そのインデックス値に基づいてメモリページ領域に格納
済みのデータの間にインデックス値順になるように格納
することである。

【００６５】ところが、この格納により前述のイニシャ
ルロードの場合と同様にページ分割が必要となる場合が
あり、本例では図のＭＰＡ内容を分割しページに格納の
ステップを設け、以下のように処理している。すなわ
ち、当該入力データを入力するとメモリページ領域に格
納されたデータ数が予め設定した設定収納容量を越えて
メモリページ領域に格納できない場合は、まずメモリペ
ージ領域のデータに当該入力データを加えてその全デー
タを二分して展開された既設ページと新ページにページ
分割し、当該入力データを含まないページをＲＤＢに格
納する共に該メモリページ領域に残りの当該入力データ
を含むページを展開して、次の入力データに備えるペー
ジ分割処理を行う。

【００６６】この際、本例のページ分割処理では該設定
収納数をメモリページ領域に展開されているページの収
納容量に対する充足率で１５０％に設定し、当該入力デ
ータを格納することでメモリページ領域に格納されてい
るデータ数が当該ページの収納容量の１５０％を越える
場合に、ページ分割を行うようにしている。そして、こ
のページ分割は、メモリページ領域内の全データに当該
入力データを加えて、インデックス値の小さい集合と大
きい集合にほぼ二等分し、前者のデータのインデックス
値の最大値と、後者のデータのインデックス値の最小値
の平均を、前者のデータを格納するページのページ値と
して新たな新ページとする共に、メモリページ領域から
前者のデータを削除する。これにより、前者のデータか
らなる新ページと後者のデータからなる当該ページとの
２ページに分割される。そして、これらのページの内当
該入力データを含まない方のページをＲＤＢに格納し、
残ったページの内容をメモリページ領域に展開する。な
お、展開済みの場合はそのままでよい。

【００６７】このページ分割処理の具体例を、図９、図
１０により説明する。なお、図８同様、ページに格納で
きるデータ量を５とする。また、図示のようにメモリペ
ージ領域に展開されているページのページ値は２７と
し、メモリページ領域にはインデックス値が１２，１
３，１５，１７，１９，２２，２３である７
個のデータ（充足率１４０％）が既に格納されていると
する。

【００６８】そして、図９ではインデックス値が２１、
図１０では１４である入力データを入力する場合につい
て説明する。いずれのケースも、入力データをメモリペ
ージ領域に格納すると充足率が１６０％となって前述の
設定充足率１５０％を越えるため、メモリページ領域の
データの分割が必要で、以下のように分割される。図９
では入力データを加えるとデータ全体は１２，１３，１
５，１７，１９，２１，２２，２３となり、これをイン
デックス値で二等分すると図示のように１２，１３，１
５，１７のインデックス値のデータからなる新ページと
１９，２１，２２，２３のインデックス値のデータから
なる展開された当該ページに分けられ、同様に図１０で
は１２，１３，１４，１５のインデックス値のデータか
らなる新ページと１７，１９，２２，２３のインデック
ス値のデータからなる展開された当該ページに二等分さ
れる。そして、図９では前者の入力データが含まれない
新ページを、図１０では後者の当該ページをＲＤＢに格
納し、メモリページ領域には図９では当該ページがその
まま、図１０では新ページを新たに展開する。なお、こ
の際各新ページのページ値は、図９では１７と１９の平
均値１８となり、図１０では１５と１７の平均値１６と
なる。

【００６９】ここで、メモリページ領域の分割の際の判
断基準を充足率で１５０％にした理由について説明す
る。ページにはできるだけ多数のデータが入っているこ
とが望ましく、またページ分割回数はできるだけ減らす
ことが望ましい。もし１００％未満の充足率でメモリペ
ージ領域を分割させると、分割後のページの充足率が下
がるため、充足率は１００％以上が良い。また、充足率
２００％以上で分割を発生させると、二分割ではページ
にデータを格納できなくなるため、分割処理が複雑にな
って処理時間の低下を招くので、望ましくはこの充足率
は実験等により最適値を決めるべきであるが、通常は分
割後の各ページの充足率が５０〜９０％になるように選
択する。本実施例では、メモリページ領域の節約および
イニシャルロードの時とページ平均的な充足率を合わせ
るために、１５０％の充足率を判断基準とした。

【００７０】本ページ分割処理の終了後またはこれが必
要ない場合は直ちにイニシャルロードで前述した入力終
了の判定ステップに進む。

【００７１】一方、メモリページ領域のページ値が当該
入力データのインデックス値よりも大きい場合、もしく
はもう入力データがない場合は、その入力データをもう
メモリページ領域に格納することはできないため、ＭＰ
Ａ範囲外と判断して図の「ＹＥＳ」に進む。

【００７２】ところで、この範囲外の場合は、メモリペ
ージ領域を当該入力データを格納できるページに切り替
える必要があり、以下のページ切替処理を行うようにな
っている。すなわち、基本的な処理としては、メモリペ
ージ領域の現内容をＲＤＢの当該ページに格納し、当該
入力データを入力できるページをＲＤＢから取得してメ
モリページ領域に展開して、当該入力データを入力する
処理となる。

【００７３】ところが、前述の通り、メモリページ領域
に格納できるデータ数はこれに展開した当該ページの収
納容量に対して充足率で１００％以上本例では１５０％
に設定されおり、ＲＤＢの当該ページに格納できない場
合がある。そこで、本例では次のＭＰＡ分割ステップ
で、必要に応じて前述と同様の以下のページ分割処理を
行うようにしている。すなわち、メモリページ領域のデ
ータ数が当該ページの収納容量を越えていた場合には、
メモリページ領域の全データを二等分して、２つのペー
ジにページ分割する。

【００７４】この分割処理は、本例では前述のページ分
割と同様にメモリページ領域内のデータをインデックス
値の大きさの小さい集合と大きい集合に二等分して、前
者のデータを格納する新ページは前者のデータのインデ
ックス値の最大値と後者のデータのインデックス値の最
小値の平均値をページ値とし、後者のデータを格納する
ページはメモリページ領域の当該ページのページ値をそ
のまま採用する。

【００７５】このページ分割処理の終了後、またこの必
要のない場合直ちに、図のＭＰＡ内容をページに格納す
るステップに進む。このステップでは、メモリページ領
域の内容を、もしくは一つ前の分割ステップでメモリペ
ージ領域が二等分されていたならそれら２ページの内容
を、ＲＤＢのそれぞれのページに格納すると共に、当該
入力データを格納するＲＤＢのページを取得してメモリ
ページ領域に展開して当該入力データをメモリページ領
域に格納する。なお、入力終了の場合は、このページ取
得以降の処理は行わない。

【００７６】そして、いずれのケースでも次にイニシャ
ルロードで説明した入力終了の判定ステップに進み、以
下同じ処理を行う。すなわち、入力終了でない場合は、
図の「ＮＯ」の方に進み、入力データ取得ステップに戻
って次の入力データを読み込む。入力終了の場合は、図
の「ＹＥＳ」の方向に進み、ＭＰＡ削除ステップで、メ
モリページ領域の内容をＲＤＢの該当ページに格納後、
メモリページ領域を主記憶装置から削除して本処理を終
了する。

【００７７】なお、インデックス構築については、フロ
ーチャートは省略するが、ページを格納した段階で、そ
の参照およびページ値を組にしたデータを、ページ値の
順序に基づいて適切なリーフノードに挿入するようにし
ている。この際、このデータを挿入することでノード容
量をオーバーする場合は、前述したページ分割処理と基
本的に同様にして、このリーフノードに含まれるデータ
を、ページ値の小さいものの集合と大きいものの集合で
二等分してそれぞれに対応するリーフノードを作成し、
前者のページ値の最大値と後者のページ値の最小値の平
均を前者が含まれるリーフノードのノード値に決定し、
新しく出来たリーフノードの参照とノード値を組にした
データを追加していく作業を、より上位のノードに対し
て繰り返すことでインデックス構築を行うようにしてい
る。

【００７８】以上，本発明をＲＤＢに適用した実施例に
基づいて説明したが、本発明はかかる実施例に限定され
ないことは、その趣旨から明らかである。

【００７９】

【発明の効果】本発明は、ソート部で入力すべきテータ
集合を部分集合に分けてインデックス順に並び換えたフ
ァイルを作成してインデックス順に連続してデータ出力
できるようにし、ロード部でこのデータをデータベース
に入力するようにしており、従ってデータ入力に際しデ
ータの複数の項目から求める複雑なインデックス値処理
が必要なデータベースに対して大量のデータをインデッ
クス順に連続的に並べ替えることができ、データ入力の
高速化が達成される。

【００８０】さらに、本発明では、ロード部への入力デ
ータはインデックス値の順に与えられるので、一度メモ
リページ領域に確保したデータベースから取得したペー
ジに、このページに収納できる入力データの全てを連続
的に主記憶装置のみで入力し、データベースにはページ
毎に一括して入力できる。従って、処理に時間を要する
ページの取得、ページへの格納処理が最小限具体的には
一度でデータ入力できるので、高速のデータ入力が達成
される。

【００８１】このように、本発明はデータベースの維持
管理、立ち上げ等に必要なデータ入力を高速化するもの
で、インデックス値が高度化してその処理が複雑化する
傾向にある特に大容量のデータベースの運用の効率向上
に大きな寄与を為すものである。

【図面の簡単な説明】

【図１】図１は、実施例におけるシステム構成の説明図
である。

【図２】図２は、実施例における処理の流れを表す説明
図である。

【図３】図３は、部分ソート部での処理の流れを表すフ
ローチャートである。

【図４】図４は、マージ手段のテンポラリファイルの初
期状態の説明図である。

【図５】図５は、マージ手段の第１回マージ後のテンポ
ラリファイルの状態の説明図である。

【図６】図６は、マージ手段の第２回マージ後のテンポ
ラリファイルマージの状態の説明図である。

【図７】図７は、ロード部での処理の流れを表すフロー
チャートである。

【図８】図８は、ロード部のイニシャルロードでのペー
ジ分割の具体例の説明図である。

【図９】図９は、ロード部のインクリメンタルロードで
のページ分割の具体例の説明図である。

【図１０】図１０は、ロード部のインクリメンタルロー
ドでのページ分割の他の具体例の説明図である。

───────────────────────────────────────────────────── フロントページの続き (72)発明者マークル・フォルカードイツ連邦共和国ミュンヘンディー− 81667 オルレアンストラーセ 34 ババリアン・リサーチ・センター・フォー・ナレッジ・ベースド・システムズ内 (72)発明者フェンク・ロバートドイツ連邦共和国ミュンヘンディー− 81667 オルレアンストラーセ 34 ババリアン・リサーチ・センター・フォー・ナレッジ・ベースド・システムズ内Ｆターム(参考） 5B082 CA18 GA03

Claims

【特許請求の範囲】

【請求項１】データが複数の項目からなり、これらデ
ータを順序付けるインデックスが所定の方式により該項
目のうちの少なくとも二つの項目から導き出されるイン
デックス値からなり、その範囲により管理単位のページ
に区分して管理するデータベースへのデータ集合を入力
するデータベースへのデータ入力システムにおいて、入
力データ集合を計算機の利用可能な主記憶装置で同時に
処理できるデータ数以下の部分集合に分割して、該部分
集合について順次その各データのインデックス値を前記
所定の方式により求めると共に各データをインデックス
値順に並べ替えてそのインデックス値を付加して補助記
憶装置に設けたテンポラリファイルに一時記憶する部分
ソート部と、得られた全ての部分集合のテンポラリファ
イルから、各インデックス値付きデータを読み出してイ
ンデックス値順に出力するマージソート部と、マージソ
ート部からのデータをデータベースにページ毎に入力す
るロード部とからなることを特徴とするデータベースの
データ入力システム。
【請求項２】マージソート部が、テンポラリファイル
のファイル数が補助記憶装置から一度に読み込むことが
できるファイル処理数を越えた場合に、該ファイル処理
数のテンポラリファイルを読み込み、このファイル処理
数のテンポラリファイルを一つの２次テンポラリファイ
ルにマージするマージ処理により、テンポラリファイル
のファイル数を該ファイル処理数以下にするマージ手段
を備えた請求項１記載のデータベースのデータ入力シス
テム。
【請求項３】部分ソート部は、主記憶装置に所定数の
データを記憶できるテンポラリ記憶領域を設定し、入力
データ集合から順次データを読み出してそのインデック
ス値を求めて該テンポラリ記憶領域にインデックス値を
付加して記憶し、該テンポラリ記憶領域が満たされる
と、記憶されたインデックス値付データをインデックス
順に並べ替えてテンポラリファイルに出力することによ
り、入力データ集合を所定数のデータからなるテンポラ
リファイルに連続的に分割する請求項１又は２記載のデ
ータベースのデータ入力システム。
【請求項４】ロード部は、主記憶装置にデータベース
の管理単位の１ページ分のデータが展開できるメモリペ
ージ領域を設定すると共に予め設定された指定ページを
読み出してメモリページ領域に展開し、マージソート部
からの入力データをメモリページ領域に展開された展開
ページに順次挿入し、そのインデックス値が展開ページ
のインデックス値の範囲を越えた入力データとなった場
合に、データベースの指定ページを展開ページの内容に
更新すると共に次のページをメモリページ領域に読み出
して展開して新しく展開された新展開ページに入力デー
タを入力することにより、入力データをインデックス値
順に対応するデータベースの各ページにページ毎に一括
して入力する請求項１〜３のいずれかに記載のデータベ
ースのデータ入力システム。
【請求項５】指定ページがページを区分するインデッ
クス値の範囲の最大値が最小のページである請求項４記
載のデータベースのデータ入力システム。
【請求項６】指定ページがマージソート部からの最初
の入力データを格納するページである請求項４記載のデ
ータベースのデータ入力システム。
【請求項７】データベースは如何なる入力データも格
納できるインデックス値の範囲が無限大の無限値ページ
を備えており、ロード部は、指定ページとして無限値ペ
ージが展開された場合は、メモリページ領域に展開され
た該無限値ページに入力データをインデックス順に順次
入力し、入力したデータ数が予め設定した設定値以上に
達した場合若しくは入力終了の場合にメモリページ領域
に格納されているデータを無限値ページから別のページ
としてページ分割し、データーベースに新ページとして
格納するイニシャルロード手段を備えている請求項４〜
６記載のいずれかのデータベースのデータ入力システ
ム。
【請求項８】ロード部は、メモリページ領域に展開し
たページのデータ数が入力データの追加により予め設定
した設定値以上に達すると、該ページをインデックス値
によりこれに収納したデータ数を二分するように２つの
ページに分割する請求項４〜６記載のいずれかのデータ
ベースのデータ入力システム。
【請求項９】設定値がページ分割後のページのデータ
数がページの収納容量に対する充足率で５０〜９０％の
範囲である請求項７又は８記載のデータベースのデータ
入力システム。
【請求項１０】データベースがリレーショナルデータ
ベースである請求項１〜９記載のいずれかのデータベー
スのデータ入力システム。
【請求項１１】請求項１〜１０記載のいずれかのデー
タベースのデータ入力システムのプログラムを記憶した
機械読み取り可能な記録媒体。