JPH048816B2

JPH048816B2 -

Info

Publication number: JPH048816B2
Application number: JP60207506A
Authority: JP
Priority date: 1985-09-19
Filing date: 1985-09-19
Publication date: 1992-02-18
Also published as: JPS6266326A

Description

【発明の詳細な説明】〔概要〕日本語データのレコードを、レコード先頭の漢
字とその読みをキーとして分類整列する場合の処
理方式である。同一読みのレコード群の全レコー
ドが、所定の作業記憶領域にすべて入る第１の場
合、各レコード全体は入らないが、キー情報とア
ドレス情報のみ入る第２の場合、それらの情報も
入らない第３の場合に分けて、第３の場合はフア
イル装置上で分類処理し、未処理レコードが減少
して、第１または第２の場合に対応する状況にな
れば、処理を切り換えて、なるべく作業記憶領域
を利用して処理効率を上げるようにする。

〔産業上の利用分野〕

本発明は、情報処理システムにおける、日本語
データのレコードを、レコード先頭の漢字とその
読みをキーとして分類整列する場合の処理方式に
関する。

日本語データの処理として、例えば人名簿を作
成する場合等、日本語データレコードの例えば姓
について、姓の読みの第１字と、第１の漢字をキ
ー情報として、該読みの50音順、同一読みの群内
では第１漢字の文字コードの大小順等によつて分
類整列する処理が必要になる。

〔従来の技術と発明が解決しようとする問題点〕

第２図は、情報処理システムの一構成例を示す
ブロツク図である。

日本語データレコードを、キー情報の読みの50
音順と、同一読み内の第１漢字の文字コードの、
例えば昇順に、分類整列する場合には、磁気デイ
スク装置等のフアイル装置１に、予め例えば入力
順に順不同の配列で保持されている原データフア
イル２を、処理装置３において、読みのカナ１字
をキーとして通常の方法で分類することにより、
同一読みのレコードに群分けされて、フアイル装
置４上に作業フアイル５が作成される。

次に処理装置３は、作業フアイル５の、同一読
みのレコード群ごとに、そのキー情報の第１漢字
の文字コードの昇順にレコードを整列するよう
に、フアイル装置６へ順次出力して、出力データ
フアイル７を構成する。

第３図は、この整列処理の一例を説明する図で
ある。

作業フアイル５の各レコードは、フラグ部１
０、キー部１１、データ部１２からなり、キー部
１１には、例えばデータ部１２内の姓を示すデー
タの、読みを示す読み情報１３と、姓の第１漢字
を示す漢字情報１４が含まれる。

処理装置３は、例えば主記憶に作業領域８を設
けて、読み情報１３の第１文字のカナが同一のレ
コード（図は、第１文字が「サ」の例とする）群
の全レコードを作業領域８に読み出し、各レコー
ドの漢字情報部１４を順に相互に照合して、値の
最も小さい文字コードを持つレコードの１つを決
定すると、そのコードを記憶し、そのレコードを
出力データフアイル７に出力し、作業領域８上の
該レコードのフラグ部１０を処理済の表示にす
る。

次に、記憶したコード値と同一か、同一のもの
が無ければ、新たに最も小さい値の文字コードを
持つレコードの１つを、フラグ部１０に処理済の
表示の無いレコード（未処理レコードという）の
中から決定し、前記と同様に処理する。

以上の処理を、作業領域８に未処理レコードが
無くなるまで繰り返して、読み「サ」の群の整列
処理を終わり、次の読み（図では「タ」）の群を
作業領域８へ読み込んで、処理を開始する。

以上の整列処理は、主記憶上に取つた作業領域
８の上のデータについて実行され、その間に作業
フアイル５へのアクセスを必要としないので、高
速に整列処理を実行することができる（以下にお
いて、これを第１方式という）。

しかし、そのためには作業領域８に１群の全レ
コードが保持することが必要であり、もし作業領
域８が全レコードを保持し切れない大きさであつ
た場合には、少なくともそのレコード群について
は、別の方式で処理しなければならない。

例えばそのような相対的な大きな群について
は、作業フアイル５から１レコードづつ順番に読
み出して、それが未処理レコードであれば、前に
読み出して保持する１レコードと比較し、両レコ
ードのうち漢字情報１４の文字コードの大きくな
い１レコードを選択して保持し、次のレコードを
読み出す、という処理を１群の全レコードについ
て繰り返して、全レコードの読出し／比較処理ご
とに出力すべき１レコードが決定する（以下にお
いて、これを第３方式という）。

第３方式によれば、群の大きさに関わらず、２
レコードを保持する作業領域があれば常に整列処
理を実行することができるが、作業フアイル５へ
のアクセスが多くなるので、処理に時間を要する
ことは明らかである。

そのために、データ量に対して作業領域が比較
的小さく制限される場合の別の方式（第２方式と
する）として、第４図に示すように、作業領域８
には作業フアイル５の各レコードのデータ部１２
の代わりにレコードアドレス１５を保持すること
にする。

ここでレコードアドレスとは、作業フアイル５
上の該レコード位置を示すアドレスであつて、通
常は４バイト程度のデータ長を有し、一般にレコ
ードのデータ部１２のデータ長よりは十分に短
い。従つて、このようにすることによつて、作業
領域８には比較的多数のレコードの情報の保持が
可能になる。

この場合、出力１レコードを決定すると、その
レコードアドレス１５によつて、作業フアイル５
から改めて該当レコードを読み出し、それを出力
データフアイル７へ出力する必要があるが、キー
部に関しては第１方式の場合と同様に、作業領域
８上ですべて処理することができるので、第３方
式よりは大幅に高速の処理ができる。

しかし、この方式をとる場合にも、準備した作
業領域の大きさを越えるレコード群については、
例えば前記第３方式によつて処理しなければなら
ない。

第５図は、以上の従来の処理の流れを示す図で
ある。整列処理を開始すると、処理のステツプ２
０において、最初の群のレコード情報を作業フア
イル５から作業領域８に読み込むことを試みる。
読み込みレコード情報は、システムによつて定ま
る、第１方式又は第２方式の情報である。

その結果、ステツプ２１で１群の全レコードの
所定情報を作業領域８に読み込み及び設定したと
判定した場合には、ステツプ２２で、第１又は第
２方式による整列出力処理を実行する。

又ステツプ２１で、全レコードの情報を読み込
めなかつたと判定したときは、ステツプ２３に進
んで、第３方式により作業フアイル上での整列出
力処理を実行する。

何れかの方式による処理を終わると、ステツプ
２４で全群の処理を終わつたか識別し、未処理の
群があればステツプ２０へ戻り、全群完了で処理
を終了する。

従つて、高速に処理するためには、データ量を
推定して、作業領域８を十分に大きく確保してお
く必要があり、又その大きさが処理対象のデータ
量に対して少しでも小さい場合には、極端に処理
時間が遅くなるという問題があつた。

〔問題点を解決するための手段〕

第１図は、本発明の構成を示す処理の流れ図で
ある。

図において、処理のステツプ３０は第１方式に
よるレコード情報の読み込み、ステツプ３２はそ
の結果全レコードを読み込んだ場合の第１方式整
列出力処理、ステツプ３４は第２方式によるレコ
ード情報の読み込み、ステツプ３６は第２方式整
列出力処理、ステツプ３８は第３方式による整列
出力処理、ステツプ４２，４３は第３方式による
１ブロツクのレコード出力ごとに未処理レコード
数を監視して処理方式を切り換える制御である。

〔作用〕

処理を開始すると、先ず前記第１方式として、
作業フアイル５から作業領域８へ、１群の全レコ
ードの読み込みを行う、全レコードの読み込みに
成功すればステツプ３２で第１方式によつてその
群の整列出力処理を完了した後、次の群の処理が
あればステツプ３０に戻る。

全レコード読み込みができなかつた場合には、
ステツプ３４で、第２方式のレコード情報を作業
領域８に読み込み及び設定し、群の全レコードの
情報が作業領域８に入つたときは、ステツプ３６
で第２方式の整列出力処理を実行した後、次の群
の処理があればステツプ３０に戻る。

第２方式のレコード情報の全レコード読み込み
もできなかつた場合には、ステツプ３８におい
て、第３方式により整列出力のレコードを１ブロ
ツク出力した後、ステツプ４２，４３で処理中の
群の未処理レコード数をチエツクする。

未処理レコード数が第１方式の可能な数に減少
していればステツプ３０に戻り、第２方式の可能
な数になつていればステツプ３４に戻り、以上の
何れでもなければステツプ３８の第３方式処理を
継続する。

以上の構成により、適当な大きさの作業領域８
を設けておけば、それを越えるデータ量の場合に
も、作業領域が有効に利用されて、処理効率の改
善が得られる。

〔実施例〕

第１図の、ステツプ３２における第１方式の整
列出力処理、ステツプ３６における第２方式の整
列出力処理、及びステツプ３８における第３方式
の整列出力処理は、それぞれ従来の各方式処理と
同様である。

しかし、本発明により、処理方式は固定される
ことなく、第１、第２、第３方式の順に、データ
量と作業領域の大きさとの関係で、可能な最も効
率のよい処理方式が選択され、且つ第３方式で処
理が開始された後も、処理が進んで未処理レコー
ド数が減少すると、第１又は第２の方式へ処理が
自動的に切り換えられる。

即ち、処理を開始すると、先ず前記第１方式と
して、作業フアイル５から作業領域８へ、１群の
全レコードの読み込みを行う、ステツプ３１の判
定で、全レコードの読み込みに成功していれば、
ステツプ３２で第１方式によつてその群の整列出
力処理を完了した後、ステツプ４４で未処理の群
があるが識別し、次の群の処理があればステツプ
３０に戻る。

ステツプ３１で、全レコード読み込みができな
かつたと判定した場合には、ステツプ３３で、読
み込み試行により得られた、作業領域８に保持可
能なレコード数（第１レコード数とする）を適当
な記憶領域に記憶した後、ステツプ３４で、第２
方式のレコード情報を作業領域８に読み込み及び
設定する。

ステツプ３５で、第２方式の所要情報を全レコ
ードについて、作業領域８に読み込んだと識別す
ると、ステツプ３６で第２方式の整列出力処理を
実行する。その後、次の群の処理があればステツ
プ３０に戻る。

ステツプ３５で、第２方式のレコード情報の全
レコード読み込みもできないと識別した場合に
は、ステツプ３７で、第２方式のレコード情報の
作業領域８に保持可能なレコード数（第２レコー
ド数とする）を適当な記憶領域に記憶する。

次のステツプ３８で第３方式の処理を実行す
る。ステツプ３８では、前記のように作業フアイ
ル５の上でレコードを順次走査して出力レコード
を決定する処理を実行し、出力レコードが決定す
ると、そのレコードを要すれば出力バツフアに書
込み、１ブロツクの所定数の出力レコードが出力
バツフアに蓄積されると、それを出力データフア
イル７へ出力する。

以上のステツプ３８の処理のレコード走査にお
いて、処理中の群の未処理レコード数をカウント
しておき、ステツプ４１〜４３で未処理レコード
数による処理の分岐を制御する。

即ち、ステツプ４１の判定で、未処理レコード
数が０であれば、ステツプ４４に進み、次に処理
する群があればステツプ３０に戻る。

未処理レコードがある場合、ステツプ４２で先
に記憶した第１レコード数と比較し、未処理数が
第１レコード数より大きくなければ、ステツプ３
０に戻り、残りのレコードの処理を第１方式の処
理に切り換える。

未処理レコード数が第１レコード数より大きい
場合には、ステツプ４３で先に記憶した第２レコ
ード数と比較し、未処理数が第２レコード数より
大きくなければ、ステツプ３４に戻り、残りのレ
コードの処理を第２方式の処理に切り換える。

未処理レコード数が第２レコード数より大きい
場合にはステツプ３８に戻つて第３方式の処理を
継続する。

〔発明の効果〕

以上の説明から明らかなように、本発明によれ
ば、日本語データの整列出力処理において、作業
領域が常に有効に利用されるようになるので、情
報処理システムの処理効率を改善するという著し
い工業的効果がある。

【図面の簡単な説明】

第１図は本発明の処理の流れ図、第２図は情報
処理システムの一構成例ブロツク図、第３図は整
列処理の第１の例の説明図、第４図は整列処理の
第２の例の説明図、第５図は従来の処理の流れ図
である。図において、１，４，６はフアイル装置、２は
原データ、３は処理装置、５は作業フアイル、７
は出力データフアイル、８は作業領域、１０はフ
ラグ部、１１はキー部、１２はデータ部、１３は
読み情報、１４は漢字情報、１５はレコードアド
レス、２０〜２４、３０〜３８、４１〜４４は処
理のステツプを示す。

Claims

【特許請求の範囲】１フアイル装置に保持され、複数のレコードか
らなる日本語データを、該各レコードのキー情報
の、読みの先頭文字と先頭の漢字をキーとして整
列する処理において、処理装置に作業用の記憶領域を設け、該キー情報の読みの先頭文字の同一なレコード
の群について、未処理の該全レコードを該記憶領
域に配列できる場合には、該全レコードを該記憶
領域に読み出して、該記憶領域上のデータによつ
て第１の前記整列処理を実行し、第１の整列処理を実行することができないが、
該各レコードごとの所要キー情報と該レコードの
前記フアイル装置上の記憶アドレス情報とからな
る部分情報が、該全レコードについて該記憶領域
に配列できる場合には、該全レコードの該部分情
報を該記憶領域に読み出して、該記憶領域上のデ
ータによつて第２の前記整列処理を実行し、第１及び第２の整列処理を何れも実行できない
場合には、該フアイル装置から順次レコードを読
み出して、次に整列するレコードを探索すること
によつて、第３の前記整列処理を実行し、第３の整列処理の実行中に、当該群の未処理レ
コード数を監視して、該未処理レコード数が第１
又は第２の整列処理の可能なレコード数に減少し
た場合には、第１又は第２の整列処理に切り換え
るように構成されていることを特徴とする日本語
データ整列処理方式。