JP3395208B2

JP3395208B2 - 分散データベースのソート方法およびアクセス方法

Info

Publication number: JP3395208B2
Application number: JP18345392A
Authority: JP
Inventors: 真二藤原; 洋一新谷; 充長坂; 直樹濱中; 未来子鈴木
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1991-07-10
Filing date: 1992-07-10
Publication date: 2003-04-07
Anticipated expiration: 2018-04-07
Also published as: JPH05242049A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、データの各レコードを
複数の記憶装置に分割して格納した分散データベースシ
ステムにおいて、複数の記憶装置に格納されたデータの
ソート、およびアクセスを行なう方法に関する。

【０００２】

【従来の技術】並列計算機システム技術の発展にともな
い、それらを用いた分散データベースシステムが実用化
されてきた。分散データベースシステムでは一般にリレ
ーショナルデータベースが用いられる。その理由は、リ
レーショナルデータベースではデータテーブルと呼ばれ
る表単位でデータの管理および処理が実行されるのでデ
ータの管理および分散が容易であることが挙げられる。
さらに近年ではＳＱＬと呼ばれる標準的な処理言語が定
められ、リレーショナルデータベースはますます普及し
ていくものと考えられる。

【０００３】従来の分散データベースシステムでは、シ
ステムが管理するデータの各表をレコード単位で各プロ
セッサに分散して格納することがなされている。この方
式では一つの表が複数のプロセッサに分散されるので、
データ表の検索等の処理が各プロセッサで並列に実行で
きる。従って大規模処理のターンアラウンドタイムの短
縮に効果を発揮する。一方、この方式では一つの表が複
数のプロセッサに分散するために表全体のソートや２つ
の表の突合せ等の処理を複数のプロセッサで協調して実
行する必要がある。

【０００４】分散データベースシステムにおけるソート
のための手法として、従来、種々のものが開示されてい
る。それらの中で代表的な方法について以下に簡単に説
明する。

【０００５】第１の方法として、各プロセッサに分散し
て格納されている部分データについて、各プロセッサ毎
にソートを行なった後、それら各プロセッサごとのソー
ト処理の結果をキー値に基づいてマージしながら中央プ
ロセッサに集める方法がある。このような方法は、例え
ば、特開平2−118756号に開示されている。

【０００６】次に、第２の方法として、中央プロセッサ
において予めキー値を複数の範囲に区分しておき、ソー
トすべきデータを区分したキー値の範囲のそれぞれに対
応する複数のグループに分割し、各グループのデータを
異なるプロセッサに分散する。その後、各グループのデ
ータをそれぞれのプロセッサにおいてソートし、各プロ
セッサにおけるソート処理の結果を中央プロセッサに転
送する方法がある。

【０００７】また、第３の方法では、各プロセッサに分
散して格納されている部分データについて、各プロセッ
サ毎にソーティングを独立に実行した後、それらの部分
ソート処理の結果を、キー値の値域ごとに分割してそれ
ぞれ異なるプロセッサに分散する。この際、各プロセッ
サへは、各レコードのキー値と、レコード識別子のみを
転送し、データの本体は動かさない。そして各部分範囲
ごとにそれぞれのプロセッサで分散されたキー値のマー
ジ処理を行い、その結果に基づいて中央プロセッサでキ
ー値とレコード識別子とからなる部分ソート列を各プロ
セッサから逐次集める。この方法を用いるとデータ本体
の移動がなく、また、キー値のマージ処理が各プロセッ
サで並列に実行できる。

【０００８】第２及び第３の方法に関しては、例えば、
特開平2−228730 号に開示されている。これらの方法で
は、中央プロセッサにおいてキー値の分割処理を行な
い、その結果を各プロセッサに通知し、各プロセッサに
おいて割り当てられたキー値の範囲毎にソート処理を行
なうので、分散ソート処理を並列に実行するのに有効で
ある。また、各プロセッサに割り当てるキー値の量を均
等化することによりソート処理自体の高速化を図ること
ができる。

【０００９】

【発明が解決しようとする課題】上記第１の方法では、
各プロセッサに分散して格納されている部分データのソ
ート結果をマージしながら中央プロセッサに集めてい
る。このため、マージすべきデータの量が多いと、この
マージのために中央プロセッサにおける処理の負荷は大
きくなる。

【００１０】これに対して、上記第２又は第３の方法に
よれば、ソート処理は、各プロセッサで分散して並列に
実行することができ、中央プロセッサでは、各プロセッ
サにおけるソート結果を集める処理を行なうだけですむ
ため、第１の方法に比べ中央プロセッサにおける負荷は
軽減される。しかし、上記第２の方法においても、各プ
ロセッサで生成された部分ソート列を中央プロセッサに
遂次リターンする必要がある。したがって、処理するデ
ータ数が多くなると、この処理結果のリターンに要する
負荷が大きくなり、並列化の効果が上がらない。

【００１１】一方、上記第３の方法では、ソート結果の
リターン処理を各デ−タレコードに対応したレコード識
別子を用いて行うことにより遂次処理の軽減を図ってい
る。このため、第２の方法よりも処理結果のリターンに
要する負荷は小さくなる。しかし、それでもなお、レコ
ード数に比例した識別子を中央プロセッサにリターンす
る必要がある。このため、各プロセッサにおけるマージ
処理の負荷がプロセッサの台数の増加に伴い増加する。

【００１２】従って、以上説明した従来のソート方法で
は、ソート処理自体に要する時間を短縮するためにプロ
セッサ台数を増やしたとしても、ソート処理に付随する
マージ処理、キー値の分割範囲の決定等の処理に要する
中央処理装置の負荷が増大し、全体としての処理時間を
向上させることは困難であった。

【００１３】また、分散データベースシステムでは、ソ
ート結果をキー値を用いてアクセスする場合、２分探索
法（ULLMAN著，國井，大久保訳，「データベースシステ
ムの原理」参照）等が用いられている。従って、上記従
来の手法では、キー値の特定の区間に対するアクセスの
場合でもそれぞれのプロセッサに格納されている全デー
タをユーザにリターンする必要があった。

【００１４】従って、本発明の目的は、中央プロセッサ
における負荷を軽減し、ソート処理を効率的に行ない得
る分散データベースシステムにおけるソート方法を提供
することにある。

【００１５】

【課題を解決するための手段】本発明による分散データ
ベースのソート方法は、データベースを構成する表デ−
タの全レコードのキー値が分布する範囲を複数の区間に
分割する。これら、複数の区間を複数の第１のプロセッ
サのそれぞれに割当て、データベースの部分デ−タを保
持する複数の第２のプロセッサから、それらが保持する
レコードのキー値とそのレコードの記憶位置を示す情報
をそのキー値の属する区間が割り当てられた第１のプロ
セッサに転送する。第１のプロセッサでは、第２のプロ
セッサからそれぞれ転送されてきた複数のキー値をソー
トし、ソートされたキー値と共にレコードの記憶位置を
示す情報を登録したキー値表をソート結果として生成す
る。

【００１６】また、好ましくは、第２のプロセッサは、
分割したキー値の区間とその区間に割り当てた第１のプ
ロセッサとの対応を示す情報を中央プロセッサに転送す
る。

【００１７】さらに、本発明による分散データベースの
ソート方法では、好ましくは、全レコードのキーの値域
を複数の区間に分割する際、キーの値域をプロセッサ数
よりも多くの区間に等分割し、等分割の結果生成された
複数の区間を各々のレコード数が等しくなるようにプロ
セッサ数に等しい複数の区間に併合する。このようにし
て併合された複数の区間のそれぞれにその区間のソート
結果を格納するプロセッサを割り当てる。また、キー値
の値域の分割併合の際、各プロセッサ間で行なわれる情
報の収集／分散は、階層的に行なわれる。

【００１８】

【作用】本発明によれば、複数のプロセッサにソート結
果を分散して格納し、中央プロセッサには、分割したキ
ー値の区間とその区間に割り当てた第１のプロセッサと
の対応を示す情報を転送することにより、中央プロセッ
サにおけるデータのマージ処理を実行する必要がなくな
る。その結果としてソート処理時間の大幅な削減を実現
することができる。また、中央プロセッサに対してはレ
コードデータの転送は行われず、中央プロセッサとデー
タベース処理プロセッサの間のデータの通信量を必要最
小限にすることができる。

【００１９】さらに本発明によれば、レコードのキーの
値域を複数の区間に分割し、各区間に属するレコード数
を等しくすることにより、各プロセッサ間の均等な負荷
分散を実現できる。また、この分割の手続きを各々のプ
ロセッサで並列に実行することにより、分割に伴う中央
プロセッサへの負荷の集中を削減することができる。さ
らに、このような分割の処理行なう際、各々のプロセッ
サ間での情報の収集／分散を階層的にすることにより、
情報の交換に要する通信時間を短縮することができる。

【００２０】

【実施例】以下、図面を用い、本発明を詳細に説明す
る。

【００２１】（システム構成および処理の流れ）図１
は、本発明によるソート方法の一実施例である並列ソー
ト手順の流れを示す図である。図２は、本発明によるソ
ート方法を適用するのに好適な分散データベースシステ
ムの構成を示す図である。図２に示される分散データベ
ースシステムは利用者とのインタフェースである端末２
００、端末２００を介して入力された利用者の要求を解
析して実行命令を発行する中央プロセッサ２０１と、デ
ータベースプロセッサ群２１０からなる。データベース
プロセッサ群２１０は、ソート処理の対象となるデータ
を記憶する２次記憶装置２０５が接続されたＮ台のデー
タプロセッサ（以下、これをソースプロセッサという）
２０３、およびソート処理結果を格納する２次記憶装置
２０６が接続されたＭ台のデータプロセッサ（以下、こ
れをシンクプロセッサという）２０４で構成される。

【００２２】本実施例では各データベースプロセッサと
２次記憶装置が物理的に１対１に対応しているが、デー
タベースプロセッサと２次記憶装置は論理的に１対１に
対応していれば、物理的に、一台のデータベースプロセ
ッサに複数の２次記憶装置を設けても、複数のデータベ
ースプロセッサで１台の２次記憶装置を共有して設けて
もよい。また、図２ではソースプロセッサ２０３とシン
クプロセッサ２０４は、それぞれ独立したプロセッサと
して示されているが、一台のプロセッサにソースプロセ
ッサ２０３としての機能とシンクプロセッサ２０４とし
ての機能を持たせ、ソースプロセッサ２０３（または、
シンクプロセッサ２０４）の一部、又は、全部によりシ
ンクプロセッサ２０４（または、ソースプロセッサ２０
３）の機能を実現してもよい。以下、本実施例では各デ
ータベースプロセッサ２０３および２０４は、ソースプ
ロセッサとしてもシンクプロセッサとしても使用できる
機能を持つものとして説明する。

【００２３】本システムはさらに、端末２００と中央プ
ロセッサ２０１を接続する端末通信回線２０９と、中央
プロセッサ２０１と各データベースプロセッサ２０３お
よび２０４とを接続する通信ネットワーク２０２とを有
する。通信ネットワーク２０２としては、バス，ＬＡ
Ｎ，ハイパキューブ，バタフライスイッチ，ハイパクロ
スバ等の様々なものが適用できる。

【００２４】なお、以下の説明では、データは２次記憶
装置上に格納されているものとするが、データベースプ
ロセッサの主記憶上にデータを格納することも可能であ
り、この構成においても本発明が全く同様に適用でき
る。

【００２５】本実施例では、データベースを構成する表
データ（以下、テーブルと呼ぶ）はレコード単位で分割
され、小さな表（以下、部分テーブルと呼ぶ）として複
数のソースプロセッサ２０３に接続されている２次記憶
装置２０５に分散して格納されている。図３は本システ
ムにおけるテーブルの分割形態の一例を示す図である。
図３では、データベースの一例として、図書目録を用い
ている。図書目録テーブル２２０は、Ｎ個の２次記憶装
置２０５にレコード単位で分割され、複数の部分テーブ
ル２０７として分散して格納されている。それぞれの記
憶装置２０５に格納される図書目録の部分テーブル２０
７のレコード数は全レコード数をｄ_n とした場合、およ
そｄ_n／Ｎとなる。

【００２６】次に、本実施例における並列ソート処理の
全体的な処理手順を図１および図４乃至図７を用いて簡
単に説明する。

【００２７】本実施例における並列ソート手順は、４つ
のフェーズから成る。

【００２８】第１のフェーズでは、端末２００から利用
者の要求を受け、中央プロセッサ２０１がソート対象と
なる部分テーブルを有する全てのソースプロセッサ２０
３およびソート結果を格納すべき全てのシンクプロセッ
サ２０４に対してソート開始命令を通知する（１０１，
１１２）。図４は、フェーズ１におけるメッセージの流
れを示している。

【００２９】第２のフェーズでは、ソート開始命令を受
信したソースプロセッサ＃１〜＃Ｎの各々において、そ
れぞれの区間に属するレコード数が概ね等しくなるよう
に全レコードのキー値の範囲を複数の区間に分割する
（１０２）。

【００３０】本フェーズでは、まず、各ソースプロセッ
サ２０３が、対応する２次記憶装置２０５から部分テー
ブルを読み出し、そのプロセッサが保持する部分テーブ
ル内のキーの値域を算出する（１０３）。次に各々のソ
ースプロセッサ２０３が相互にこの結果を通信して（１
１３）、各ソースプロセッサで全レコードのキーの値域
を算出する（１０４）。そして、このキーの値域を複数
の区間に細かく分割し、それぞれの区間に属する自己の
部分テーブルのレコード数をカウントしてキー値の分布
情報を得る。この局所的なキー値の分布情報をさらに各
ソースプロセッサ２０３で交換して全レコードのキー値
の分布情報３００を得る。この大域的なキー値の分布情
報を基にして、各シンクプロセッサに割り当てるレコー
ド数が概ね等しくなるようにキーの値域を分割する（１
０５）。図５に、各ソースプロセッサ２０３が２次記憶
装置２０５より部分テーブル２０７を読み出し、ソース
プロセッサ２０３相互でキー値の分布情報を交換する際
のメッセージの流れを示す。

【００３１】以上の手順で得られた分割結果はキー値分
割表３０１として各ソースプロセッサ２０３ごとに保持
する。図８（ａ）は、フェーズ２において、各ソースプ
ロセッサ２０３内で生成されるキー値分布情報３００の
構成例を、図８（ｂ）は、キー値分割表２１１の構成例
を示している。キー値分布情報３００は、分割されたキ
ー区間と、それぞれのキー区間に属するレコードの数を
示す表として生成される。また、キー値分割表２１１
は、分割されたキー区間と各キー区間についての処理を
担当するシンクプロセッサ２０４とを対応付けた表であ
り、シンクＰＩＤの欄にそのキー区間のソート処理を担
当するシンクプロセッサ２０４の番号が登録される。本
実施例では、各シンクプロセッサ２０４が処理すべきデ
−タ量のバラツキをより小さくするために、キー値分割
表２１１に、１つのキー区間をさらに２分割するための
分割点情報を設けている。分割点情報が登録されている
キー区間では、分割点の値以上のキー値がそのエントリ
に登録されているシンクプロセッサの担当となり、分割
点の値より小さなキー値を持つレコードは、その前のエ
ントリに登録されているシンクプロセッサ２０４の担当
となることを示す。例えば、図８（ｂ）中では、キー区
間“２００−２９９”がキー値“２４８”で２分割され
ていることを示しており、このキー区間ではキー値“２
４８”未満のレコードは、シンクプロセッサ＃１が担当
し、キー値“２４８”以上のレコードは、シンクプロセ
ッサ＃２が担当することを示している。分割点情報が登
録されていないエントリでは、そのキー区間全体のレコ
ードをシンクＰＩＤの欄に登録されているシンクプロセ
ッサ２０４が担当する。なお、分割点情報は特に設けな
くてもよく、この場合は、各キー区間の境界が各シンク
プロセッサの担当範囲の境界となる。

【００３２】第３のフェーズでは、各ソースプロセッサ
２０３は、フェーズ２で作成したキー値分割表２１１を
参照しながら自己の部分テーブルの各レコードのキー値
と、レコード本体へのポインタの組をそのキー値のソー
ト処理を担当するシンクプロセッサ２０４に送信する
（１０６，１１４，１１５，１０７）。図６はフェーズ
３におけるデータの流れを示す。

【００３３】第４のフェーズでは、各シンクプロセッサ
２０４が受信したキー値とレコードポインタとの組をそ
れぞれ独立してソートする。そのソート処理の結果とし
て、キー値表２１２を生成し（１０８）、それぞれ対応
する２次記憶装置２０６に格納する（１０９）。

【００３４】シンクプロセッサ２０４からのソート終了
通知は、シンクプロセッサ２０４間において、階層的に
収集される。例えばシンクプロセッサが８台のときに
は、まず、シンクプロセッサ＃４〜＃７からの終了通知
がシンクプロセッサ＃０〜＃３に送信される。次に、シ
ンクプロセッサ＃２，＃３が、シンクプロセッサ＃０，
＃１にソート終了通知を送信し、さらにシンクプロセッ
サ＃１から＃０に送信され、最後に、シンクプロセッサ
＃０から中央プロセッサにソート終了通知が送信される
（１１７）。

【００３５】一方、シンクプロセッサ２０４へのキー値
とレコードポインタの組の転送が終了したソースプロセ
ッサ２０３は、終了通知をシンクプロセッサ２０４と同
様の方法で階層的に収集し、最終的にソースプロセッサ
＃０が中央プロセッサ２０１にキー値分割表２１１およ
び転送処理の了通知を送信する（１１６、１１７）。中
央処理装置２０１では、ソースプロセッサ２０３からキ
ー値分割表２１１を受信し（１１０）、さらに、ソース
プロセッサ２０３及びシンクプロセッサ２０４からの終
了通知を受信してソート処理を終了する（１１８）。図
７には、フェーズ４におけるメッセージの流れを示す。

【００３６】以上述べたソート処理終了後、各プロセッ
サに保持される情報の様子を図９に示す。中央プロセッ
サ２０１には、ソースプロセッサ２０３から送られてき
たキー値分割表２１１が保持される。ソースプロセッサ
２０３には、ソート対象となった部分テーブル２１３
が、また、シンクプロセッサ２０４には、ソートされた
キー値表２１２が保持される。ソートされたテーブルに
対する中央プロセッサ２０１からのアクセスは、キー値
分割表２１１とキー値表２１２を用いて行なわれる。ソ
ート済みのテーブルへのアクセス方法については後述す
る。

【００３７】なお、本実施例によるソート方法ではソー
トに伴うレコード本体の移動は全く行わない。従って、
大量なデータのソート処理を効率的に行なうことができ
る。さらにソート結果として、ソート済みのキー値表そ
のものやレコード本体を中央プロセッサ２０１にリター
ンしないので、ソート処理における逐次処理を排除する
ことが可能となる。

【００３８】以下、以上の処理についてさらに詳細に説
明する。

【００３９】（全データレコードの値域の算出−ステッ
プ１０４）全レコードのキーの値域の算出には、例え
ば、カスケードサム法（関口智嗣、小柳義夫：科学技術
計算における並列化技術，情報処理，Vol.２７，No.
９， pp.９８５−９９４(Sep.１９８６）に記述されて
いる公知の手法）を適用することができる。カスケード
サム法によりキーの値域を求める方法を図１０を用いて
説明する。図１０では(２∧ｎ）個（演算子＾はべき乗
を表す）のソースプロセッサ２０３からなるシステムに
おいて全レコードの値域の計算をｎ回の通信で求める方
法をソースプロセッサ＃０に着目して示している。各ソ
ースプロセッサ２０３には論理的に０から順にプロセッ
サ番号を割り当てるとする。以下の式ではプロセッサ番
号はこの論理プロセッサ番号を表し、その値は２進数で
扱うものとする。

【００４０】まず、各ソースプロセッサ２０３で自己が
保持する部分テーブル２１３のレコードのキーの値域を
算出する(２３０)。次に全てのソースプロセッサ２０３
が (自プロセッサ番号) xor (２∧０）番目のプロセッサと通信して、それぞれが求めた値域を
相互に交換して自プロセッサの保持するキーの値域と受
信したキーの値域の結合演算を行い、新しいキーの値域
を求める（２３１−１）。但し、演算子ｘｏｒは排
他的論理和を意味するものとする。例えば、ソースプロ
セッサ＃０はソースプロセッサ＃１と値域を交換して結
合することにより、結果としてソースプロセッサ＃０と
＃１が保持するレコードのキーの値域を得る。同様に次
のステップ２３１−２においても全てのソースプロセッ
サが (自プロセッサ番号) xor (２∧１) 番目のソースプロセッサと通信して前ステップ２３１−
１で求めたキーの値域を相互に交換して結合する。例え
ばソースプロセッサ＃０はソースプロセッサ＃２と値域
を交換することによりソースプロセッサ＃０からソース
プロセッサ＃３が保持するレコードのキーの値域を得
る。以降ｉ番目のステップ２３１−ｉでは (自プロセッサ番号) xor (２∧(ｉ−１)) 番目のプロセッサとキーの値域の交換を行うことにより
ｎ回の通信処理で全てのソースプロセッサが全レコード
のキーの値域を得る。

【００４１】ソースプロセッサ台数が８台の場合におけ
るキーの値域の計算の一例を表１に示す。

【００４２】

【表１】

【００４３】以上の例では、ソースプロセッサの台数は
２のｎ乗であると仮定したが、ソースプロセッサの台数
Ｎが２∧(ｎ−１)＜Ｎ＜２∧ｎなる場合には２∧ｎ
−Ｎ個の仮想ソースプロセッサを生成し、それらの処
理を実ソースプロセッサ２０３に割り当てることにより
論理的に(２∧ｎ）個のソースプロセッサを生成する。
例えばソースプロセッサｉ（ｉ＜（２＾ｎ）−Ｎ）は仮
想ソースプロセッサ（ｉ＋Ｎ）の動作も併せて行う。そ
の際、仮想ソースプロセッサの保持するデータは０個と
し、キーの値域の初期値は空であるとする。

【００４４】（キーの値域の区間分割−ステップ１０
５）次に、各区間に属するレコード数が均等になるよう
に全レコードのキーの値域を複数のキー区間に分割する
ステップ１０５について図１１に従って説明する。

【００４５】キーの値域の分割は、各ソースプロセッサ
２０３で行なわれ、キーの値域を複数の区間に等分割す
る処理（キー分割の第１ステップ）と、各キー区間を併
合して各シンクプロセッサ２０４に割り当てるととも
に、各シンクプロセッサ２０４に割り当てられるレコー
ド数を均等化する処理（キー分割の第２ステップ）とか
らなる。

【００４６】キー分割の第１ステップでは、まず、キー
の値域の分割数ｃとして適切な値を設定する。ここで、
分割数ｃはソート結果を格納するシンクプロセッサの台
数Ｍ以上とする。本実施例では、分割数ｃはＭの２倍に
設定するものとする（２４１）。次に、ステップ２４１
で設定した分割数ｃによりキーの値域を等分割して、ｃ
個のキー区間を得る。各キー区間の境界となる等分割点
をａ₀，ａ₁，…，ａ_cとする（２４４）。次に、各ソー
スプロセッサ２０３が保持する部分テーブルのキー値を
走査し、ステップ２４４で分割したキーの値域の各キー
区間に属するレコード数をカウントし、局所的なキー値
分布情報を生成する（２４５)。次に、全レコードのキ
ーの値域を求める方法と同様の方法により、各ソースプ
ロセッサ２０３で求めた局所的なキー値分布情報をソー
スプロセッサ２０３間で交換しながら集計し、最終的に
全レコードのキー値の分布情報を各ソースプロセッサ２
０３が得る（２４６）。

【００４７】キー分割の第２ステップでは、複数のキー
区間を併合して、シンクプロセッサ台数に等しい併合区
間を生成する（２４７）。ここでは先に求めた全レコー
ドのキー値分布情報を参照することにより、各併合区間
のレコード数がなるべく等しくなるように併合を行い、
それぞれの併合区間についての処理を行なうシンクプロ
セッサ２０４を決定する。以下、分割数ｃを１６に設定
してキーの値域の分割を行い、その結果を８つの区間に
併合して８台のシンクプロセッサに割り当てる場合の処
理について具体的に説明する。

【００４８】いま、キー分割の第１ステップの結果とし
て、全レコードのキー値が、図１２に示すように分布し
ていることが判ったものとする。グラフの縦軸は各キー
区間に属するレコードの数、横軸はキー値であり、本図
ではキーの値域を１６のキー区間に等分割している。一
般にキーの値域を等分割すると各区間に属するレコード
数には、図１２に示すようにかなりのばらつきが生じ
る。そこで各キー区間を併合して、各併合区間のレコー
ド数が等しくなるようにシンクプロセッサを割り当て
る。図１３は区間を併合してシンクプロセッサに割り当
てる方法を説明するための図である。グラフの縦軸はキ
ー分割の第１ステップにより求められた各キー区間まで
に属するレコード数の累積値、横軸は分割されたキー区
間である。各キー区間までに属するレコードの累積度数
をｓ₀，ｓ₁，…，ｓ₁₆（ｓ₀＝０），キー分割の第１ス
テップで求められた等分割点の値をａ₀，ａ₁，…，ａ₁₆
(ａ₀＝ＭＩＮ，ａ₁₆＝ＭＡＸ）とする。なお、キー値が
ａ_i以上ａ_i+1未満のキー区間をキー区間ａ_iと呼ぶ。キ
ー分割の第２ステップでは、１６に分割されたキー区間
を併合してシンクプロセッサ２０４に割り当てる８の併
合区間にする。各併合区間の境界ｂ_i(ｂ₀＝ＭＩＮ,ｂ₈
＝ＭＡＸ）はｓ_k+1≧(全レコード数)／(プロセッサ数)＊ｉかつｓ_k ＜(全レコード数)／(プロセッサ数)＊ｉを満たすｋの等分割点ａ_k に等しくなるように決定す
る。このようにして決定した各併合区間の分割点ｂ₁，
ｂ₂，ｂ₃，ｂ₄，ｂ₅，ｂ₆，ｂ₇は、本実施例では、それ
ぞれ等分割点ａ₁，ａ₃，ａ₅，ａ₆，ａ₁₀，ａ₁₂，ａ₁₄と
なる。そしてｂ_i≦ＫＥＹ＜ｂ_i+1 を満たすキー値ＫＥＹを持つレコードをシンクプロセッ
サ＃Ｐ_i に割り当てる。

【００４９】次に、各シンクプロセッサ２０４に割り当
てられたレコード数のばらつきが一定の許容範囲Ｄｈ内
であるかどうかの判定をする(２４８)。Ｄｈとしては例
えば平均レコード数の±４０％以内といった値を用い
る。各併合区間のレコード数のばらつきが許容範囲Ｄｈ
内であった場合にはキー区間の併合処理を終了する。一
方、各併合区間のレコード数のばらつきが許容範囲Ｄｈ
内に入らなかった場合には、分割数ｃをｔ₁ 倍に上げて
（２４９）再度キー値の分割をする。分割数ｃをどの程
度上げるかは各併合区間のレコード数の最大偏差によっ
て求める。例えば、各併合区間の平均レコード数ｘから
の最大偏差をｙとしたとき、分割数ｃの増加率ｔ₁ をｔ₁＝２∧ＩＮＴ(２＊(ｙ／ｘ＋１)) （ＩＮＴ( ）は小数点以下を切り捨てる関数）に設定して新たな分割数ｃを求め、この新たな分割数ｃ
を用いて再度キーの値域の分割を行なう。

【００５０】本実施例において分割数ｃを１６として各
シンクプロセッサ２０４に割り当てられた各併合区間に
属するレコード数の相対値を比較した結果を図１４に示
す。本図では各併合区間のレコード数の平均を１として
いる。図１４より、レコード数の最大偏差が３０％であ
り、レコード数の最大値と最小値の比率が２倍以内に収
まっていることが判る。

【００５１】以上の手順で各併合区間をシンクプロセッ
サ２０４に割り当てた後、各シンクプロセッサ２０４が
処理するレコード数をさらに均等化するために、併合区
間の分割点ｂ_iをそれぞれ該当するキー区間内で修正す
る（２５２）。全レコード数をＮｒ、シンクプロセッサ
２０４の台数をＭ、各キー区間の幅をｗ、併合区間の分
割点ｂ_iが属するキー区間ａ_jにおけるレコード数を
ｒ_j、等分割点ａ_j-1までのキー値の累積数をｓ_j-1とす
ると、ｂ_i＝ａ_j＋ｗ×（Ｎ_r／Ｍ×ｉ−ｓ_j-1）／ｒ_j として修正後の併合区間の分割点ｂ_iを求める。このよ
うにして、求められた修正後の分割点ｂ₁，ｂ₂，・・
・，ｂ₇のキー値は、それぞれ１３８，３３４，５１
８，６７５，１０４１，１２４６，１４３６となる。

【００５２】以上の結果として得られるキー区間、各キ
ー区間毎のレコード数、各キー区間を担当するシンクプ
ロセッサ番号、および分割点の情報を図１５に示すキー
値分割表２１１−ａとして生成する。分割点の修正を行
なわない場合には、キー区間とシンクプロセッサ番号を
エントリとして有するキー値分割表を生成するようにす
ればよい。キー値分割表をこのように構成することによ
り、あるキー値の属するキー区間に割り当てられたシン
クプロセッサ２０４の検索を高速に行なうことができ
る。

【００５３】図１６には、キー値分割表の他の一例を示
す。図１６に示すキー値分割表２１１−ｂは、併合区間
とその併合区間のレコードの処理を担当するシンクプロ
セッサ番号をエントリとして有する。各併合区間は等分
割されていないため、このようなキー値分割表を用いた
場合には、あるキー値がどの併合区間に属しているかを
求めるには、２分探索法を用いる必要がある。しかし、
キー値分割表のエントリ数が図１５に示すキー値分割表
よりも少なくてすむという特徴を持っている。

【００５４】なお、同一のテーブルに対する２回目以降
のソート処理におけるキー値の分割は、前回用いた分割
数ｃを初期値として用いることにより、キー値分割処理
を高速に行なうことができる。また、テーブルのキーフ
ィールドに変更がない場合には、前回求めたキー値分割
表を用いることにより、ソート処理におけるキー値分割
の処理を省略することも可能である。この場合には、ソ
ートの結果生成されるキー値分割表をテーブルの属性と
してソート結果とは別に格納しておけばよい。

【００５５】（分割区間ごとのキー値の転送及び受信−
ステップ１０６、１０７）ステップ１０６では、以上述
べてきたような手順により作成されたキー値分割表２１
１を参照し、各ソースプロセッサ２０３が保持する部分
テーブルの各レコードのキー値とレコード本体の格納場
所を示すレコードポインタをそのキー値の処理を担当す
るシンクプロセッサ２０４に転送する。ここでは、キー
値からキー値分割表２１１の対応するエントリを検索
し、キー値及びレコードポインタの転送先となるシンク
プロセッサ２０４の番号を得る。任意のキー値からキー
値分割表の該当エントリを引く手順を、図１７に従って
説明する。ここで、キー値の最大値と最小値の差は、最
大ｋビットであり、キー値がｌビットであると仮定す
る。例えば、キー値が２バイトの整数で、１０００から
８９９９であるとすると、ｋは１３ビット、ｌは１６ビ
ットとなる。

【００５６】まず、キー値２９０とキー値の最小値２９
１との差２９３を求める。この差２９３を相対キー値と
呼ぶ。相対キー値のビット数はｋビットである。次に相
対キー値のｋビットの中から上位ｐビットを分割ビット
２９４としてシフト演算（２９６）により求める。ｐは
キー値の値域の分割数ｃに対して、ｐ＝［log₂ ｃ］（［ｘ］はｘを超えない最大の整
数）で求められる。このようにして得られた分割ビット２９
４の値をキー値分割表２１１のインデクスとして用いる
ことにより、そのレコードが属する区間に対応するエン
トリをアクセスする。このようにしてキー値に対応する
エントリをアクセスすることにより、任意のキー値に対
応する区間のエントリへのアクセスが１回の減算と１回
のシフト演算と１回のインデックスを用いた表参照によ
り実現できる。さらに本手順を図１７に従ってハードウ
ェア化することにより、処理効率を上げることが実現で
きる。また、キーの値域の実分割数ＰＮはＰＮ＝ＩＮＴ((最大値−最小値)／２∧(ｋ−ｐ))＋１となる。一般に分割ビットをｐとすると、キー値の区間
の実分割数ＰＮは、キーの最大値および最小値に応じて
変化し、その範囲は２∧(ｐ−１)＜ＰＮ≦２∧ｐとなる。従ってキー値分割表は２∧ｐのエントリから
なるテーブル２９８のうち、上位ＰＮエントリのみを実
テーブル２９９として使用する。

【００５７】次に、先の例を用いてキー値表の参照手順
を示す。先の例で分割数ｃを２５６とすると、分割ビッ
トｐは８ビットとなり、各区間の幅は３２となる。従っ
て、１０００から８９９９までのキーの値域が２５０個
の区間に等分割できる。キー値の分割数ｃと実際の分割
区間数には若干の違いが生じることがあるが、このこと
は本方法に基づくキー値分割法に全く影響を与えない。
上記の例でキー値５０００に対するキー値分割表のエン
トリを参照するには、まず、キー値５０００とキーの最
小値１０００の差を取る。その値４０００は２進数１３
桁で(0111111000000)であるのでその上位８ビットを取
ると1０進数で１２６である。そこで、キー値分割表の
１２６番目のエントリを参照し、当該区間を担当するシ
ンクプロセッサ番号を得て、キー値５０００とそのキー
値に対応するレコードポインタの組をそのシンクプロセ
ッサに転送する。

【００５８】このような方法は、キー値の分割区間の幅
を２のｎ乗とした場合に適用することができる。キー値
の分割区間の幅が、２のｎ乗でない場合には、キー値と
キー値の最小値の差をキー値の分割区間の幅で割った商
をインデックスとしてキー値分割表のエントリを参照す
る。また、キー値分割表が、図１６のように併合区間と
シンクプロセッサ番号の組で記述されている場合には、
先に述べたとおり２分探索法を用いてキー値に該当する
併合区間を検索する。

【００５９】（キー値分割表を用いたデータのアクセ
ス）次に、本実施例によりソートした結果を中央プロセ
ッサ２０１でアクセスする手順について述べる。

【００６０】図９は、先に説明したように、ソート処理
終了後の各プロセッサに保持されている情報の様子を示
す図である。ソースプロセッサ２０３に接続する２次記
憶装置２０５には、部分テーブル２１３が、シンクプロ
セッサ２０４に接続する２次記憶装置２０６には、ソー
ト結果であるキー値表２１２が、また、中央プロセッサ
２０１には、ソート処理により生成されたキー値分割表
２１１がそれぞれ保持されている。

【００６１】基本的には、ソート結果のレコードに対す
るアクセスはキー値分割表２１１とソート済みのキー値
表２１２の２種類のテーブルを参照することにより実行
される。

【００６２】中央プロセッサ２０１でのソート結果の利
用形態としては、（１）キー値の順番を指定してアクセ
スする場合、（２）キー値を指定してアクセスする場
合、（３）それぞれいずれかのソースプロセッサに保持
されている２つのソートされたデータを突き合わせて結
合演算を行う場合、などがある。以下では（１）〜
（３）の各々の場合について、データのアクセス手順を
述べる。

【００６３】(１) キー値の先頭からａ番目のレコード
をアクセスする場合中央プロセッサ２０１が保持するキー値分割表２１１の
各区間ごとのレコード数を累計して、累積度数ｓ₁，
ｓ₂，…，ｓ_nを求める。次に、先頭から各キー区間まで
の累積度数ｓ₁，ｓ₂，…，ｓ_nとａとを比較して、ｓ_i≦ａ＜ｓ_i+1 なるｉをもとめ、そのキー区間のレコードを保持するシ
ンクプロセッサ＃Ｐ_i を得る。そして、シンクプロセッ
サ＃Ｐ_iが保持するソート済みキー値表２１２の(ａ−ｓ
_i) 番目のエントリを参照し、レコード本体へのポイン
タを得る。そのレコードポインタを用いてレコード本体
を保持するソースプロセッサ２０３の部分テーブル２１
３の該当レコードをアクセスする。

【００６４】(２) キー値がｋであるレコードを検索す
る場合ソート処理のステップ１０６の転送処理と同様に、キー
値からキー値分割表の対応するエントリを検索し、その
キー値が属する区間が割り当てられたシンクプロセッサ
２０４の番号を求める。シンクプロセッサ２０４の番号
が得られたら、当該シンクプロセッサのキー値表２１２
を検索し、そのキー値に一致するエントリからそのキー
値に対応するレコードの格納先を示すレコードポインタ
得る。そして、このレコードポインタを用いてレコード
本体を保持するソースプロセッサ２０３の部分テーブル
２１３の該当レコードをアクセスする。

【００６５】(３) ２つのテーブルを突き合わせて結合
演算を行なう場合突合せを行おうとするテーブルのそれぞれについて、ま
ず、ソート処理を行う。ソート処理の結果として、各テ
ーブルの本体である部分テーブルは複数のソースプロセ
ッサ２０３に保持され、対応するキー値表は複数のシン
クプロセッサ２０４に保持されている、２組のソートさ
れたテーブルＡ及びＢのキー値に関する突合せを行う場
合は、まず、テーブルＡのキー値表の各エントリを、テ
ーブルＢのキー値分割表で指定されるシンクプロセッサ
２０４に転送する。

【００６６】次に、各々のシンクプロセッサ２０４で２
つのテーブルのキー値表の突合せを行う突合せ処理は各
々のテーブルのキー値のみを参照して実行される。突合
せの結果は、突合せに成功したキー値と各々のレコード
に対するポインタの組からなる結合表として各シンクプ
ロセッサ２０４に格納し、中央プロセッサ２０１には終
了通知のみを知らせる。この結合表の各エントリをアク
セスするために用いるキー値分割表はテーブルＢのもの
と同じとなる。

【００６７】（他の実施例）以上述べた実施例は、キー
値の範囲を分割した後、各レコードのキー値とレコード
ポインタのみをシンクプロセッサに転送するようにして
いるが、その時にレコード全体をシンクプロセッサに転
送してもよい。このようにすると、シンクプロセッサ２
０４にソートすべきレコード本体を移動しなければなら
ないというデメリットはあるが、各ソースプロセッサ２
０３が各レコードを適当なシンクプロセッサに分配する
ので、レコードの分配のオーバヘッドは、一台のプロセ
ッサ、たとえば、中央プロセッサ２０１がこれを行う場
合に比べて小さくすることができる。また、キー値の分
割処理を各ソースプロセッサ２０３がそれぞれ独立して
実行するので、中央プロセッサ２０１にて集中してこの
判断を行う場合に比べて負荷が小さい。

【００６８】さらに、上述の実施例ではソートを実行す
る際にソースプロセッサ２０３からシンクプロセッサ２
０４へキー値を送信しているが、この方法にはソート結
果の格納形態に応じてさらに以下の２つの方法が考えら
れる。

【００６９】第１の方法では、各シンクプロセッサ２０
４でソートされたキー値表２１２に基づき、そのキー値
表２１２に属する各キー値が対応するレコード本体をそ
れを保持するソースプロセッサ２０３からそのシンクプ
ロセッサ２０４へ転送して、その結果をそのシンクプロ
セッサ２０４に接続される２次記憶装置２０６に格納す
る。このようにすることで、キー値の各部分区間に属す
るそれぞれのレコード本体が同一の２次記憶装置に格納
されるため、ソート結果のレコードデータをキー値の順
に連続アクセスするような場合に効率が良い。従って、
ソート結果のあるキー区間に対して統計演算を施すよう
な場合には有効である。

【００７０】第２の方法では、各シンクプロセッサ２０
４でソートされたキー値表２１２を中央プロセッサ２０
１に送信し、中央プロセッサでレコード全体の一群のキ
ー値表２１２を管理する。本方法では、中央プロセッサ
２０１からソート結果のデータに対して連続したアクセ
スを行う場合に、シンクプロセッサ２０４を経由せずに
いずれかのソースプロセッサ２０３に対する２次記憶装
置２０５に対して、直接該データのためにアクセスする
ことが可能である。従って、ソート結果を中央プロセッ
サ２０１を経由して、端末２００や外部記憶装置（図示
せず）に送信する場合に効果を発揮する。

【００７１】

【発明の効果】以上述べたように、本発明を用いると、
ソート処理の中間段階で生成されるキー値分割表のみを
中央プロセッサにリターンして、ソート結果そのものは
キー値の区間ごとに複数の２次記憶装置に分散格納する
ことにより、分散データベースシステムにおけるソート
処理の効率を向上させることができる。

【００７２】また、分散ソートにおけるキーの値域の分
割が各プロセッサで並列に実行できるので中央プロセッ
サにかかる負荷を軽減することができる。

【００７３】さらに、キー値の分割表を参照することに
より与えられたキーの属する区間を効率良く求めること
ができる。

【図面の簡単な説明】

【図１】本発明の一実施例による並列ソート処理の流れ
を示す図。

【図２】本発明が適用される分散データベースマシンの
概略図。

【図３】データテーブルの分割のようすを示す図。

【図４】本発明の一実施例による並列ソート処理のフェ
ーズ１におけるデータの流れを示す図。

【図５】本発明の一実施例による並列ソート処理のフェ
ーズ２におけるデータの流れを示す図。

【図６】本発明の一実施例による並列ソート処理のフェ
ーズ３におけるデータの流れを示す図。

【図７】本発明の一実施例による並列ソート処理のフェ
ーズ４におけるデータの流れを示す図。

【図８】キー値分布情報およびキー値分割表の一例を示
す図。

【図９】並列ソート処理終了後に、各プロセッサに保持
される情報の様子を示す図。

【図１０】全レコードの値域計算の詳細な流れを示す
図。

【図１１】キーの値域の分割処理の手順を示す流れ図。

【図１２】全レコードのキー値の分布の一例を示す図。

【図１３】キー区間の併合の様子を説明するための図。

【図１４】キー区間の併合後の各併合区間におけるレコ
ード数の偏差を示す図。

【図１５】キーの値域の分割処理により生成されるキー
値分割表を示す図。

【図１６】キーの値域の分割処理により生成されるキー
値分割表の変形例を示す図。

【図１７】キー値分割表のアクセス処理を示す図。

【符号の説明】

２００…端末、２０１…中央プロセッサ、２０２…通信
ネットワーク、２０３…ソースプロセッサ、２０４…シ
ンクプロセッサ、２０５，２０６…２次記憶装置。

───────────────────────────────────────────────────── フロントページの続き (72)発明者濱中直樹東京都国分寺市東恋ケ窪１丁目280番地株式会社日立製作所中央研究所内 (72)発明者鈴木未来子東京都国分寺市東恋ケ窪１丁目280番地株式会社日立製作所中央研究所内 (56)参考文献特開平２−228730（ＪＰ，Ａ) 特開昭62−118435（ＪＰ，Ａ) 特開平２−178854（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/30 G06F 12/00 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】複数の部分に分割されたデータベースの一
部分のレコードのそれぞれを保持する複数の第１のプロ
セッサと該第１のプロセッサの各々をアクセスする中央
プロセッサとを有する分散データベースにおけるアクセ
ス方法であって、中央プロセッサはデータベース中のレコードのキー値の
区間と該区間が割り当てられた第２のプロセッサとの対
応関係を示すキー値分割表を有し、該第２のプロセッサは割り当てられた区間のキー値と該
キー値に該当する第１のプロセッサが保持するレコード
の位置情報を登録するキー値表を有し、（ａ）アクセスしようとする前記データベースのレコー
ドのキー値により前記キー値分割表を検索して、該キー
値の属するキー区間が登録されている前記キー値表をア
クセスし、（ｂ）該アクセスされたキー値表に登録された前記キー
値に対応するレコード記憶位置に基づいて前記レコード
をアクセスする、分散データベースのアクセス方法。
【請求項２】複数の部分に分割されたデータベースの一
部分のレコードのそれぞれを保持する複数の第１のプロ
セッサと該第１のプロセッサの各々をアクセスする中央
プロセッサとを有する分散データベースにおけるアクセ
ス方法であって、（ａ）前記第１のプロセッサの各々において、該デー
タベースのレコードのキー値が分布する範囲を分割して
得られる複数の区間の各々を複数の第２のプロセッサに
割り当て、（ｂ）それぞれのキー値の区間が第２のプロセッサの
いずれに割り当てられているかを示すキー値分割表を生
成し、（ｃ）前記第１のプロセッサのいずれかより前記キー
値分割表を前記中央プロセッサに転送し、（ｄ）前記第１のプロセッサの各々が保持する前記デ
ータベースのそれぞれの部分の複数のレコードのキー値
と該レコードの記憶位置情報を、それぞれのレコードが
属するキー値の区間が割り当てられた前記第２のプロセ
ッサに転送し、（ｅ）前記第２のプロセッサの各々において、受信し
た複数のキー値をソートし、ソートされたキー値ととも
に受信したレコード記憶位置を登録したキー値表を生成
し、（ｆ）アクセスしようとする前記データベースのレコ
ードのキー値により前記キー値分割表を検索して、該キ
ー値の属するキー区間が登録される前記キー値表をアク
セスし、（ｇ）該アクセスされたキー値表に登録された前記キ
ー値に対応するレコード記憶位置に基づいて前記レコー
ドをアクセスする、分散データベースのアクセス方法。
【請求項３】前記ステップ（ｅ）は、前記第２のプロセ
ッサの各々により生成されたキー値表を、そのシンクプ
ロセッサに対応する記憶装置に記憶する処理を有し、前記ステップ（ｆ）は，前記判別された第２のプロセッ
サで実行され、（ｆ−１）前記中央プロセッサにより、前記キー値分割
表に基づいて、前記選択されたキー区間が割り当てられ
た第２のプロセッサを判別する処理、（ｆ−２）判別された第２のプロセッサに選択されたキ
ー区間を通知する処理、（ｆ−３）該第２のプロセッサにより、前記通知された
キー値区間に対するキー値表をアクセスする処理、を有する請求項２記載の分散データベースのアクセス方
法。
【請求項４】前記ステップ（ｅ）は、前記第２のプロセ
ッサにより生成されたキー値表を前記中央プロセッサに
転送する処理を有し、前記ステップ（ｆ）は、前記中央プロセッサで実行さ
れ、前記キー値分割表に基づいて、該選択されたキー値区間
が割り当てられたシンクプロセッサに対するキー値表を
アクセスする処理を有する、請求項２記載の分散データベースのアクセス方法。
【請求項５】前記（ａ）の処理は、さらに、以下の処理
を有する請求項２記載の分散データベースのアクセス方
法；（ａ―１）前記第１のプロセッサの各々において、それ
ぞれが保持するレコードのキー値の分布情報を得る処
理、（ａ―２）第１のプロセッサのそれぞれが得たキー値分
布情報を他の第１のプロセッサに転送する処理、（ａ―３）第１のプロセッサの各々において、他の第１
のプロセッサから転送されたキー値分布情報と該第１の
プロセッサにおいて得られたキー値分布情報とから、前
記データベースのレコードのキー値の分布情報を求める
処理。