JPH0434783B2

JPH0434783B2 -

Info

Publication number: JPH0434783B2
Application number: JP2394284A
Authority: JP
Inventors: Kazunari Miura; Kyoshi Aoki
Original assignee: Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1984-02-10
Filing date: 1984-02-10
Publication date: 1992-06-09
Also published as: JPS60168232A

Description

【発明の詳細な説明】〔技術分野〕本発明は電子計算機による事務データ処理の分
類方式に関し、特に、電子計算機の内部記憶装置
と外部記憶装置を利用し、かつ個々のデータの制
御フイールド（キー項目）の密度に着目して分類
処理する大容量データの高速分類方式を提供する
ものである。

〔従来技術〕

従来、大容量データの分類方式は、第１図に示
したように、次のステツプから成る。

第１ステツプ；プリソート（presort）フエー
ズ複数個の糸連（又はストリング）の作成を
行う。

第２ステツプ；マージ（Merge）フエーズスト
リング数がラストパスのマージオーダ以下に
なるまでストリングの併合を行う。

第３ステツプ；ラストパス（Last pass）フエ
ーズ１本のストリングを作成する。これが分
類済出力フアイルである。

即ち、第１ステツプで複数個のストリングを作
成し、第２ステツプで該ストリングを併合して、
ストリング数を第３ステツプが処理できる所まで
減らす。ここで、ストリングをマージ（併合）し
なければならないのは、第２図のように、ストリ
ング10同志がオーバーラツプするデータ１０ａを
含んでいること（ストリング１０内のデータのキ
ー項目がオーバーラツプしていること）及びラス
トパスのマージオーダ以上のストリングが生成さ
れるからである。したがつて、第３図のように、
生成されるストリング１０がオーバーラツプせ
ず、かつ論理的にでもラストパスのマージオーダ
以下にできれば、第２ステツプ（マージフエー
ズ）は不要となり、第１ステツプから第３ステツ
プへ直接進むことができる。

一般に、大容量データの分類処理時間に占める
マージフエーズの処理時間は、非常に大きくなつ
ている。従つて、第２ステツプを常にバイパスで
きる分類方式が見つかれば、ソーテイング手法と
して大変有効なわけである。

〔発明の目的〕

本発明の目的は、上述した欠点を除去し、スト
リング同志のオーバーラツプを前述の第１ステツ
プのプリソートフエーズの段階で取り除き、前述
の第２ステツプのマージフエーズを削除して直接
第３ステツプのラストパスフエーズへ進めること
ができるようにして、大容量のデータを高速で分
類処理できるようにした分類方式を提供すること
にある。

〔発明の構成〕

本発明によれば、第１及び第２の記憶装置を有する電子計算機を
使用してデータを分類する方式において、分類すべきデータを前記第１の記憶装置の分類
作業領域にて個々のデータの制御フイールドを基
にして順序付けすること、及びその中で最も密度
の高い所定個数（ただし複数個）のデータ部分の
みを最適ブロツクとして前記第２の記憶装置に格
納し、該最適ブロツク以外のデータを前記分類作
業領域に残すことを、繰り返して分類処理するプ
リソート手段と、該最適ブロツクが前記第２の記憶装置に出力さ
れる毎に、出力された最適ブロツクの分類順序を
制御する結合順エントリーを、前記第１の記憶装
置に設けられた結合領域に格納する同期処理手段
とを備え、個々の分類データの制御フイールドの密度を解
析し、分類処理することを特徴とする密度解析分
類方式が得られる。

〔実施例〕

次に本発明の実施例について図面を参照して説
明する。

第４図を参照すると、本発明の一実施例による
密度解析分類方式に従つたデータの流れが示され
ている。

本発明の一実施例による密度解析分類方式は、
内部記憶装置１００と外部記憶装置２００とを有
する電子計算機を使用してデータを分類する。

本実施例による密度解析分類方式は、いずれ
も、前記電子計算機のCPU（中央処理ユニツト）
によつて達成されるプリソート手段と同期処理手
段とを有している。

前記プリソート手段は、分類すべきデータを内
部記憶装置１００の分類作業領域RSAにて個々
のデータの制御フイールド（キー項目）を基にし
て順序付けすること、及びその中で最も密度の高
い所定固数（ただし複数個）のデータ部分（キー
項目の差の小さい部分）のみを最適ブロツク（ベ
ストブロツク）として内部記憶装置１００の入出
力バツフアＩ／Ｏ Bufferを介して外部記憶装
置２００に格納し、該最適ブロツク以外のデータ
を内部記憶装置１００の前記分類作業領域RSA
に残すことを、繰り返して分類処理する機能を有
する。

また、前記同期処理手段は、前記最適ブロツク
（ベストブロツク）が外部記憶装置２００に出力
される毎に、出力された最適ブロツクの分類順序
を制御する結合順エントリーを、内部記憶装置１
００に設けられた結合領域LPAに格納する機能
を有する。これによつて内部記憶装置１００上の
データと外部記憶装置２００上のデータとの同期
処理がとられる。

以下、本実施例の動作を詳細に説明する。

１オーバーラツプしないストリングの作成方法
を第５図を参照して説明する。

従来同様入力データを読み、内部記憶装置１
００上の分類作業領域（これを以後Record
Strage Area略してRSAと呼ぶ）単位に１本
のストリングを作成するという考え方は同じで
あるが、その過程で分類すべきデータを各入力
データの制御フイールド（キー項目）を基にし
て順序付けすると共に外部記憶装置２００へ出
力する入れもの（つまりＩ／Ｏ Buffer）の
大きさ単位に制御フイールド（キー項目）の値
の差を取る。そして、この差が最小となる組
（つまりストリング内の最も密度の濃い部分）
を最適ブロツク（これを以後Best Blockと呼
ぶ）として選択し、このBest Block自身、他
のBest Blockとは一般にオーバーラツプしな
いようにする。

２録理的にラストパスのマージオーダ以下にす
る方法を、第６図及び第７図を参照して説明す
る。ここで論理的にと言つているのは物理的に
データを移動させてマージ（併合）するのでは
なく、データ自身は動かさずに併合することを
言う。

さて、１）で生成したBest Blockを外部記憶
装置２００に出力するときに、同時にストリング
が書かれる番地（相対番地）とストリング内の最
小キーとを対にしたエントリーを内部記憶装置１
００上にキー値の昇順に並べて格納しておく。こ
の格納領域のことを結合領域（Link Pool Area
略してLPA）という。こうすることによつて第
６図のようにBest Block同志を連結していく。

また、結合領域へエントリーを登録する場合、
該エントリーのキー値が登録されているエントリ
ーの最大キー値より大きければその後へ、小さけ
ればバイナリイ・サーチにて登録位置をつかまえ
挿入する（サーチ条件は、自分より大きいか等し
い）。このとき、以前にその位置にあつたエント
リーがはみだされるわけであるが、このエントリ
ーを、第７図に示すように、そのときのBest
Blockを外部記憶装置２００に書き込むとき、先
頭にくつつけて書いておく。この先頭の部分のこ
とを連結番地と云う。これにより外部記憶装置２
００上からBest Blockを読んできたとき、次に
連結しているBest Blockがどこにあるかわかる
ようにする。第７図は、新しいエントリー（４番
地でキーが14）を登録した場合の例である。

故に、この方法を用いれば、論理的に全ての
Best Blockは結合されてしまい、１ストリング
にすることができる。

以上にプリソートフエーズを説明したが、以下
にプリソートフエーズのみならずラストパスフエ
ーズを、より具体的な例について説明する。本例
では、入力データ（キイ）：７，14，１，４，６，19，
20，２，３，15，５，８，11，９分類作業領域（RSA）の大きさ：５個Ｉ／Ｏ Bufferの大きさ：３個結合領域（LPA）の大きさ：３個とする。

Best Block（最適ブロツク）の生成を、第８
図を参照して説明する。

内部記憶装置１００において、分類作業領域
（RSA）内で１ストリングとなつたストリング
からキーの値が一番接近したBest Blockを選
択し、その作業フアイル上での相対番地と最小
キーとからなるエントリーを結合領域（LPA）
へ格納すると同時に外部記憶装置２００の作業
フアイルへBest Blockを書き出す。そのとき、
連結番地も先頭につける。以下この処理を、入
力データがすべてなくなるまで続ける。尚、第
８図において、△は空エリアを示している。入
力データが空になりRSAのレコードが全部処
理されたとき、結合領域に格納されたエントリ
ーを次のラストパスフエーズの前で一端、作業
フアイル上へデータと区別するために先頭に識
別子“INDEXED”をつけて出力しておく。こ
れは、ここで一度区切りを設けることにより、
内部記憶装置１００での矛盾を防ぐこと及び、
時点を違えて履行する場合に有効である。

ラストパス（１ストリングに併合してソート
結果を出力フアイルへ書く）動作を、第９図を
参照して説明する。

の終りで作業フアイル上へ出力しておいた
INDEXEDブロツクをまず読んで結合領域
（LPA）にそのエントリーを移す。あとは、結
合領域（LPA）内のエントリーを順次にたぐ
つていけば、外部記憶装置２００にソート結果
が得られる原理である。ラストパスの終了の判
定は結合領域（LPA）内のエントリーがすべ
て処理されたとき、つまり全てゼロにクリアさ
れた時に終了し、結果は外部記憶装置２００の
出力フアイルへ出される。

次に、入力データ（キイ）：７，14，１，４，
…，９がどこのでどのようにして分類作業領域
RSAに格納されるかについて説明する。

RSAの各エントリは第１０図に示すように、
ポインタ部１１、およびレコード格納部１２から
構成される。RSA内エントリはａ，ｂ，ｃ，ｄ，
ｅの５個から構成される。また、RSAとは別に
ストリングの先頭をポイントするストリング先頭
ポインタ１３がある。

ポインタ部１１は他のエントリをポイントする
ためのポインタ領域で、初期値としてポインタ部
１１が何もポイントしていないことを示す
NULL値を設定しておく。また、ストリング先
頭ポインタ１３もNULL値で初期設定を行う。

第１１図はRSAの状態遷移図である。ストリ
ングを生成する過程を第１１図を用いて説明す
る。

入力フアイルからレコードを入力すると、レコ
ードをRSA内の先頭の領域ａに格納する。スト
リング先頭ポイント１３がMULL値なので、比
較すべきレコードが存在しないために無条件でス
トリング先頭ポインタ１３が領域ａをポイントす
るようにする（第１１図(1)の状態）。

次のレコードを入力し領域ｂに格納する。スト
リング先頭ポインタ１３が領域ａをポイントして
いるので、領域ｂのレコードと領域ａのレコード
との比較を行う。比較の結果、領域ｂのキー値が
大きいので、次に領域ｂのレコードと比較すべき
レコードの侯補を求めるために領域ａのポインタ
部１１を参照するが、領域ａのポインタ部１１が
NULL値なのでストリングの終端であることが
解る。そこで、次のレコードの探索を止め、領域
ａのポインタ部１２が領域ｂをポイントするよう
に設定する。これによつて、領域ｂのレコードが
ストリングの終端になる（第１１図(2)の状態）。

次のレコードを入力し領域ｃに格納する。スト
リング先頭ポインタ１３が領域ａをポイントして
いるので、領域ｃのレコードと領域ａのレコード
との比較を行う。比較の結果、領域ｃのレコード
のキー値が小さいので、領域ｃのポインタ部１１
が領域ａをポイントするようにセツトし、更に先
頭ポインタ１３が領域ｃをポイントするように変
更する（第１１図(3)の状態）。

次のレコードを入力し領域ｄに格納する。スト
リング先頭ポインタ１３が領域ｃをポイントして
いるので、領域ｄのレコード領域ｃのレコードと
の比較を行う。比較の結果領域ｄのレコードのキ
ー値が大きいので、次に領域ｃのポインタ部１２
がポイントする領域ａのレコードと比較する。比
較の結果、領域ｄのレコードのキー値が小さいの
で領域ｄのポインタ１２が領域ａをポイントする
ようにセツトし、領域ａのポインタ部１１から領
域ｄをポイントするように修正する（第１１図(4)
の状態）。

次のレコードを入力し領域ｅに格納する。スト
リング先頭ポインタ１３が領域ｃをポイントして
いるので、領域ｅのレコードと領域ｃのレコード
との比較を行う。比較の結果、領域ｅのレコード
のキー値が大きいので、次に領域ｃのポインタ部
１１がポイントする領域ｄのレコードと比較す
る。比較の結果、領域ｅのレコードのキー値が大
きいので、更に領域ｄのポインタ部１１がポイン
トする領域ａのレコードと比較する。比較の結
果、領域ｅのレコードのキー値が小さいので、領
域ｅのポインタ１２が領域ａをポイントするよう
にセツトし、領域ｄのポインタ部１２から領域ｅ
をポイントするように修正する（第１１図(5)の状
態）。

領域ｅまでレコードが格納された状態（第１１
図(5)の状態）が第８図の一番最初の状態である。
ここで明らかなようにRSA内でレコードは物理
的に並んでいる訳ではなく、各領域内の持つポイ
ンタ値１１を辿ることによつてストリングを形成
している。

上述したように該当の最適ブロツクが領域ｄ，
ｅ，ａであることが判明すると、領域ｄ，ｅ，
ａ，のレコードをＩ／Ｏバツフアに順次転送を行
う。

この操作過程を引き続き第１１図を用いて説明
を行う。

領域ｄをＩ／Ｏバツフアに転送する。転送は領
域ｄのレコード格納部１２のみを行い、ポインタ
部１１は転送しない。領域ｄのポインタ部１１に
はNULL値を設定し再度初期化する。レコード
転送後、領域ｄをポイントする領域ｃのポインタ
部１１は領域ｄがポイントしていた領域ｅをポイ
ントするように修正する（第１１図(6)の状態）。

次に、領域ｅのレコードを同様に転送する。領
域ｅのポインタ部１１にはNULL値を設定し再
度初期化する。領域ｃのポインタ部１１は領域ｅ
がポイントしていた領域ａをポイントするように
修正する。第１１図(7)の状態）。

更に、領域ａのレコードを同様に転送する。領
域ａのポインタ部１１にはNULL値を設定し再
度初期化する。領域ｃのポインタ部１１は領域ａ
がポイントしていた領域ｂをポイントするように
修正する（第１１図(8)の状態）。

必要なレコードのＩ／Ｏバツフアへの転送が終
了すると、入力フアイルからのレコードの入力が
再開される。入力レコードのRSA領域への転送
はＩ／Ｏバツフアにレコードが転送され、空き領
域になつている領域ａ，ｄ，ｅに対して順次行わ
れる。その過程を示したのが、第１１図の(9)，(10)
および(11)である。

次に、密度が同じ場合どうするかについて説明
する。

密度が同じものが存在する場合、各々の最適ブ
ロツクの侯補と選んだブロツク内の最小キー値の
小さいものを選択する。更に、重複キーが多く存
在し最小キー値が等しいブロツクの侯補がある場
合は物理的に先に現れたものを選択する。

次に、ラストパスにおいて、作業フアイルから
読み出されたブロツクとRSAの合成がどこでど
のようにされるか（空きエリアの場合も含む）、
更には、出力フアイルが１キーであつたり、３キ
ーであつたりする理由について説明する。

ラストパスにおける作業フアイルから読み出さ
れたブロツクとRSAの合成（マージ操作）は作
業フアイルのブロツクに読み出された時点で行わ
れる。

第９図を用いて詳細に説明する。第９図の作業
フアイル番地のブロツクを入力した時点で、最
初のマージ操作が行われる。マージ操作は作業フ
アイルに入力したレコードの最小キー値を持つも
のと、RSA内のストリングの最小キー値と比較
する。比較の結果、RSA内のストリングの最小
キー値を持つ値１のレコードが出力フアイルに出
力される。その結果、RSA内に３個のレコード
格納領域が確保され、以後のマージ操作の結果は
順次RSA内に転送できるようになる。

つまり、作業フアイルのブロツク内のキー値４
を持つレコードとRSA内の最小キー値の次の値
を持つキー値２のレコードと比較する。比較の結
果、RSAのレコードのキー値が小さいため、引
き続き、RSA内の次のキー値３と比較する。比
較の結果、RSAのレコードのキー値が小さいた
め、次に比較すべきレコードの侯補を捜すが
RSA内にレコードが最早存在しないため、作業
フアイルのブロツクから順次キー値４，６，７の
レコードをRSAに移送する。

次に、作業フアイルの番地のブロツクを入力
する。のブロツクはレコードが１件でこれを
RSA内に移送するには、RSA内が一杯の状態で
あるため、RSAから１個のレコードを出力フア
イルへ出力する必要がある。上記と同様にRSA
内の最小キー値を持つレコード（キー値２のレコ
ード）と作業フアイル内の最小キー値を持つレコ
ード（キー値５のレコード）との比較が行われ、
比較の結果、キー値２のレコードが出力フアイル
に書き出される。次にRSA内で小さい値を持つ
キー値４のレコードと比較を行い、比較の結果
RSA内のレコードが小さいため、更にRSA内の
次のレコード、キー値６のレコード比較する。比
較の結果作業フアイルのレコードの値が小さいの
で、RSA内にキー値５のレコードを転送する。

次にのブロツクを入力する。のブロツクは
レコードが３個あり、これをRSA内に移送する
には、RSA内が一杯の状態であるためRSAから
３個のレコードを出力フアイルへ出力する必要が
ある。上記と同様にRSA内の最小キー値を持つ
レコード（キー値３のレコード）と作業フアイル
内の最小キー値を持つレコード（キー値８のレコ
ード）との比較が行われ、比較の結果、キー値３
のレコードが出力フアイルに書き出される。同様
にキー値４，５のレコードが出力フアイルに書き
出され、作業フアイルのブロツクの内容を
RSAへに移送する。

以後、同様に作業フアイル内の，，番地
のブロツクを順次入力しマージしてRSA内に格
納できないレコードを出力フアイルに出力する。
作業フアイルから入力すべきレコードが存在しな
くなつたら、RSA内に残つたストリングを順次
出力フアイルに出力する。

〔発明の効果〕

本発明は以上説明したように、第１の記憶装置
（内部記憶装置）と第２の記憶装置（外部記憶装
置）とを有する電子計算機を使用して、個々のデ
ータの制御フイールド（キー項目）の密度に着目
して大容量データを高速に分類できるという効果
がある。

【図面の簡単な説明】

第１図は従来方式の分散処理の流れ図、第２図
及び第３図は従来方式と本発明の方式のストリン
グ作成の相異を説明するための図、第４図は本発
明の一実施例による密度解析分類方式に従つたデ
ータの流れを示した図、第５図は本発明に従う最
適ブロツクの作成方法のブロツク図、第６図は本
発明における分類作業領域とエントリー結合領域
の対応図、第７図は本発明に従う結合領域と外部
記憶装置上との順序付け維持のため方式を示すブ
ロツク図、第８図は本発明に従う最適ブロツクの
生成の具体例を説明するための図、第９図は本発
明に従うラストパス（１ストリングに併合して出
力フアイルに書く）処理過程を説明するための図
である、第１０図及び第１１図は本発明の動作を
説明するためのブロツク図である。１０…ストリング、１００…内部記憶装置、
RSA…分類作業領域、Ｉ／Ｏ Buffer…入出力
バツフア、LPA…結合領域、２００…外部記憶
装置。

Claims

【特許請求の範囲】１第１及び第２の記憶装置を有する電子計算機
を使用してデータを分類する方式において、分類すべきデータを前記第１の記憶装置の分類
作業領域にて個々のデータの制御フイールドを基
にして順序付けすること、及びその中で最も密度
の高い所定個数（ただし複数個）のデータ部分の
みを最適ブロツクとして前記第２の記憶装置に格
納し、該最適ブロツク以外のデータを前記分類作
業領域に残すことを、繰り返して分類処理するプ
リソート手段と、該最適ブロツクが前記第２の記憶装置に出力さ
れる毎に、出力された最適ブロツクの分類順序を
制御する結合順エントリーを、前記第１の記憶装
置に設けられた結合領域に格納する同期処理手段
とを備え、個々の分類データの制御フイールドの密度を解
析し、分類処理することを特徴とする密度解析分
類方式。