JPH10269225A

JPH10269225A - データベース分割方法

Info

Publication number: JPH10269225A
Application number: JP9071312A
Authority: JP
Inventors: Kazuo Masai; 一夫正井
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1997-03-25
Filing date: 1997-03-25
Publication date: 1998-10-09

Abstract

(57)【要約】【課題】並列データベースにて大規模なデータを処理す
る場合、全プロセッサが同時に並列に検索することが出
来る一方全件検索の範囲を限定することで検索時間を短
縮することが出来るようにデータを分割する。【解決手段】複数のプロセッサから構成され、各プロセ
ッサ間の通信が可能なシステムで、データを分割して並
列に検索できるようにした並列データベースにおけるデ
ータの分割で、各プロセッサ間でデータを均等分割し、
各プロセッサ内では、データをさらにキーレンジ分割し
て格納する。検索要求は、各プロセッサで同時に実行す
るが、各プロセッサ内では、キーレンジ条件がヒットす
る可能性のある格納領域だけを全件検索する。並列な全
件検索を全プロセッサで行い、かつ検索する範囲を記レ
ンジ条件にて限定することが出来るため、検索時間を１
／（プロセッサ数×キーレンジ分割数）に短縮できる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、複数のプロセッサ
で超大規模なデータベースを並列に検索する方式に関す
る。

【０００２】

【従来の技術】大規模なデータベースから特定のデータ
検索する場合、索引（インデクス）をつけることが一般
的である。インデクスは、検索をする際のキーとなる項
目が特定できる場合には有効である。インデクスは、デ
ータベースの特定のキー項目を集めて、その上位にバラ
ンスドトリーの形にポインタを設け、特定の値のキーが
どの範囲にあるかという情報からトリーのリーフに当た
る位置まで高速にたどれるように仕掛けであり、アン
イントロダクショントゥデータベースシステム
ズ、シージェイデイト、アディソンウェズリー、
１９８６、第５８頁から第６７頁（Ａn Ｉnroduction t
o Ｄatabase Ｓystems，Ｃ.Ｊ.Ｄate，ＡＤＤＩＳＯＮ
−ＷＥＳＬＥＹ，１９８６，pp５８−pp６７）において
論じられている様に、全データ項目についてその格納位
置に相当する情報が得られる仕掛けになっている。この
ため、百万件程度のデータベースでは問題がないが、十
億件とか一兆件といった超大規模なデータベースにおい
ては、インデクスそのものの維持が膨大な処理となる。

【０００３】インデクスを付加することが非現実的なほ
ど大きなデータベースでは、並列プロセッサを用いた全
件検索を行うことが有効である。これは、複数のプロセ
ッサを用いてデータベースの部分を各プロセッサで並行
に検索することで、ｎ台のプロセッサを用いて検索時間
を１／ｎにすることを狙いとしている。このためには、
「信学技法」、鳥居他、電気通信学会ＤＥ９４−４９、
１９９４年９月に示されているようにｎ台のプロセッサ
が均等に検索作業を行うことが必要であり、検索対象と
なるデータは、均等に分割しておくことが考えられる。
しかし、ハッシング分割やラウンドロビン分割は、ラン
ダム分割であるため、特定のキーの範囲の検索であって
も完全な全件検索となり、超大規模なデータベースにお
いては、非常に時間のかかる検索となる。一方、キーレ
ンジ分割してあれば、検索する部分が特定できるため、
検索対象は小さくなるが、これを実施するプロセッサも
特定されてしまうため、結局高速化に結び付かない。

【０００４】

【発明が解決しようとする課題】上記従来技術は、デー
タの検索の高速化のためには、キー項目一件ずつに対応
するインデクスを作成していたが、これではインデクス
のデータ量が大きくなりすぎてしまう。

【０００５】また、並列プロセッサを用いた全件検索の
高速化においてもハッシング分割やラウンドロビン分割
に代表される均等分割手法用いると全プロセッサを用い
て並列検索を行えるが、対象となるデータは、特定の範
囲条件のデータであっても全データとなる。逆にキーレ
ンジ分割を用いると、検索対象となるデータは絞り込め
るが、検索を実行するプロセッサの数も絞りこまれてし
まい、高速な検索が出来ない。

【０００６】超大規模なデータベースにおいては、全プ
ロセッサで並列検索を行い、かつ特定の範囲条件がつい
ている場合は、検索対象となるデータベースの部分を絞
りこむことが必要である。

【０００７】

【課題を解決するための手段】前記課題を解決するため
に、データベースのデータ分割手法として一つの分割手
法だけでなく、複数の分割手法を階層的に用いることで
超大規模なデータベースを実現的なサイズのデータベー
スに分割することができる。プロセッサ間でハッシング
分割やラウンドロビン分割に代表される均等分割手法を
適用し、プロセッサ内では、特定の範囲に絞りこむこと
が出来るキーレンジ分割で分割することで、全プロセッ
サで並列検索を行い、かつ特定の範囲条件がついている
場合は、検索対象となるデータベースの部分を絞りこむ
ことができる。

【０００８】本発明の階層型データ分割方法を用いるこ
とで、インデクスが無くとも超大規模データベース全体
を検索すること無く特定の範囲だけを全プロセッサで全
件検索することで目的とするデータをアクセスすること
が出来る。

【０００９】また、データの分割を階層的に行うこと
で、１回の分割での分割数を現実的な範囲の抑えること
が出来る。

【００１０】

【発明の実施の形態】以下、本発明の一実施例を図１か
ら図７を参照しながら説明する。

【００１１】図１は、本発明を実施する階層型データ分
割方法を用いたデータベース管理システムの全体構成図
である。

【００１２】図１において各ノード１は、高速ネットワ
ーク２を介して相互に接続されている。各ノード１に
は、各々の役割に応じてＳＱＬ処理プログラム１０、デ
ィクショナリ管理プログラム１１、データアクセス管理
プログラム１２が動作している。ディクショナリ管理プ
ログラム１１には、外部記憶装置上のディクショナリ４
を有し、データアクセス処理プログラム１２には、デー
タベースの表データを格納する外部記憶装置３を有す
る。該外部記憶装置３は、格納領域３０という単位に分
けられている。格納領域３０は、複数の物理的な外部記
憶装置上にまたがっていることも出来る。

【００１３】図２は、ディクショナリ４の構成を示す。
ディクショナリ４は、表に関する情報を管理する表情報
管理表４１と表の分割情報を管理する表分割情報管理表
４２が存在する。該表情報管理表４１には、表名称列４
１１、表均等分割フラグ列４１２、表キーレンジ分割フ
ラグ列４１３およびその他の表情報４１４が存在する。
表均等分割フラグ列４１２がＯＮであれば少なくとも初
段の分割は均等分割であることを示す。均等分割の方法
はいろいろ存在するが、ここではハッシングによる分割
を仮定する。表キーレンジ分割フラグ列４１３がＯＮで
あれば、キーレンジ分割方法が少なくとも併用されてい
ることを示す。表分割情報管理表４２には、表名称４２
１、格納ノード名称４２２、キーレンジ先頭の値４２
３、キーレンジ最後の値４２４および格納領域情報４２
５が存在する。このキーレンジ先頭の値４２３とキーレ
ンジ最後の値４２４の中間に存在するキー値は、全てこ
のキーレンジの格納位置に格納される。

【００１４】図３は、このデータベースへのデータの初
期格納の流れを示す。初段が均等分割の場合、各ノード
への分割は均等でありさえすれば良い。そこで、事前に
均等なデータ量となるように入力データを分割する。分
割された入力データ５を入力とし、各ノードでお互いに
独立してデータの初期格納（ローディング）を行う。ロ
ーディング時は、二段目がキーレンジ分割なので、入力
データのキー値にしたがって、格納すべきデータ格納領
域３０に分配して格納する。この方法のローディングで
は、各ノードが独立して走行するため、非常に並列度が
高く、ノード数が増えたぶんだけ高速となりスケーラビ
リティの高いローディング方法である。

【００１５】図４は、事前にデータを分割せずにデータ
ロードする方法である。この場合、均等分割に近い方法
としてハッシングを使用する。従って、入力データ５の
特定のキー値にしたがって、ハッシングを行い格納され
るべきノードを決める。あとは、図３のケースと同様に
各々のノード内で格納すべき格納領域３０を決めるデー
タを格納する。

【００１６】次にこのように構成された本実施例の並列
ＲＤＢの階層型データ分割方式の動作について説明す
る。

【００１７】まず、データ定義の際に初段が均等分割で
二段目をキーレンジ分割とすることを指定する。このこ
とで、ディクショナリ４中の表情報管理表４１に表名称
４１１、表均等分割フラグ４１２、表キーレンジ分割フ
ラグ４１３が定義される。

【００１８】データベースの検索は、一般的に図５に示
す流れで実行する。すなわち、入力されたＳＱＬで記述
された問い合わせは、まず、構文解析し、次に最適に実
行すべきアクセスパスを最適化して求める。最適化によ
って求められたアクセスパスを実行すれば問い合わせに
対する結果が求められる。本実施例では、インデクスが
利用できずに全件検索となるケースについて説明する。
構文解析の結果データベースから特定の条件を満たすデ
ータを検索する必要があると分かると図６に示す最適化
の流れで最適化を行う。まずインデクスが利用できない
ので全件検索が必要であることが決まる。たとえインデ
クスがあっても検索結果（ヒット率）が１０％以上であ
ることが予想されると全件検索を行う。次に表データが
どのように分割されているかをディクショナリの情報を
検索して求める。キーレンジ分割が使用されているかを
調べ、キーレンジ分割情報４１３が存在すると、そのキ
ーレンジ検索条件に指定されているかを調べキーレンジ
条件でありの場合、均等分割フラグ４１２がオンかを調
べオンであれば階層分割されているので、全ノードにキ
ーレンジ条件付きで指示を出す。元々キーレンジ分割を
使用していない場合は、全ノードにキーレンジ条件無し
での全件検索を指示する。これで、各データアクセス処
理プログラムのあるノードへの指示であるアクセスパス
が決まる。

【００１９】最適化でアクセスパスが決まると次は、図
７に示すように検索が実行される。各データアクセスの
ノードへ全件検索の指示がでると該データアクセスのノ
ードは、キーレンジ条件付きか否かを調べ、キーレンジ
条件付きであれば、その条件に対応するデータが格納さ
れている格納領域３０だけを検索する。従って、全プロ
セッサを使用しての全件検索でありながら、キーレンジ
分割の一部だけを検索することが出来、全件に対し、キ
ーレンジ分割数分の１の時間で検索が出来る。

【００２０】

【発明の効果】並列データベースのインデクス無しの検
索または、ヒット率が高くインデクスを使用するより全
件検索の方が効率がよいケースにおいて、全件検索をす
るが、記レンジ分割を行う分割キーの条件が指定されて
いる場合、約１（プロセッサ数×キーレンジ分割数）の
時間で検索することが出来るようになる。

【図面の簡単な説明】

【図１】本発明の１実施例を示す説明図である。

【図２】ディクショナリでの構成管理を示す説明図であ
る。

【図３】データロードのデータの流れ（１）を示す説明
図である。

【図４】データロードのデータの流れ（２）を示す説明
図である。

【図５】検索の流れを示す流れ図である。

【図６】最適化の流れを示す流れ図である。

【図７】検索の実行を示す流れ図である。

【符号の説明】

１…ノード、２…高速ネットワーク、３…外
部記憶装置、４…ディクショナリ、１０…ＳＱＬ処理プ
ログラム、１１…ディクショナリ管理プログラム、１２
…データアクセス処理プログラム、３０…格納
領域、４１…表情報管理表、４２…表分割情報管理
表、４１１…表名称列、４１２…表均等分割フラグ
列、４１３…表キーレンジ分割フラグ列、４
１４…その他の表情報、４２１…表名称、４２２…
格納ノード名称、４２３…キーレンジ先頭の値、４２４
…キーレンジ最後の値、４２５…格納
領域情報。

Claims

【特許請求の範囲】

【請求項１】複数のプロッセサを高速なネットワークで
結合し、各プロセッサ上でデータベースの検索を並列に
行うことで高速化する並列データベースのデータ分割方
法においてデータ分割を複数階層にわたって行うこと
で、大規模なデータベースのデータ分割を小規模な分割
の繰り返しで実現し、全件検索を多段の分割の必要部分
だけを行うことを特徴としたデータベース分割方法。
【請求項２】複数のプロッセサを高速なネットワークで
結合し、各プロセッサ上でデータベースの検索を並列に
行うことで高速化する並列データベースのデータ分割方
法においてデータ分割をプロセッサ間にはハッシング分
割やラウンドロビン分割等の均等分割手法で均等に振り
分け、該プロセッサ内では、キーレンジ分割でデータ分
割する階層型データ分割を用いることで、データベース
にインデクスを付加すること無く、キーレンジの特定の
範囲を全プロセッサで並列に検索することができ、大規
模なデータベースの全件検索を高速に実現することを特
徴としたデータベース分割方法。