JPH05143287A

JPH05143287A - ハードウエアソート処理装置

Info

Publication number: JPH05143287A
Application number: JP3303063A
Authority: JP
Inventors: Masaharu Yabushita; 正治薮下; Hiroyuki Kitajima; 弘行北嶋; Masamichi Kato; 正道加藤; Kousuke Sakota; 行介迫田
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1991-11-19
Filing date: 1991-11-19
Publication date: 1993-06-11

Abstract

(57)【要約】【目的】ｎ個のプロセッサを一次元に接続し（２＊＊
ｎ）次のソートを実現するハードウェアソート処理装置
を提供する。【構成】大容量ファイルを少ないＩ／Ｏ回数でソートす
るためのｎ段からなる多段ソータで、ｎ個のプロセッサ
エレメント(ＰＥ)をもち、ｋ番目のＰＥは２＊＊（ｋ−
１）個の比較済みデータ対からなるソートデータを前段
ＰＥとの共有メモリに格納し、各段のＰＥは、データ対
のアドレスを次段ＰＥに出力して、あらかじめ定めた整
列順（昇順または降順）の早い方のデータを選択して上
段から、順次、リードすることによって、２＊＊ｎ次の
ソートを実現する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、logＮ個のソートプロ
セッサを一次元に接続し、Ｎ個のデータを指定された順
番に並べかえるハードウェアソータに係り、特に、ソー
トに使用するメモリ容量以上の大容量のデータをソート
するのに好適なハードウェアソート処理装置に関する。

【０００２】

【従来の技術】従来のＮ次ソータ（Ｎ個のデータを昇順
または、降順に並べ換えて整列する装置）に関して、
「大容量ファイルを整列するシストリック・ソータ」
（電子通信学会論文誌Ｊ６７−Ｄ，１９８４年３月）に
記載されているように、一バイトの転送路を持つプロセ
ッサをlogＮ個（Ｎは２のｎ乗で表される数と考える）
一次元に並べ、入力をボトムアップかつパイプライン的
に与えることにより整列されたＮ個のファイルを一つの
ファイルに整列するＮ次整列併合（Ｎ−Ｗay sort merg
e）が実現できる。上記ソータでは、各プロセッサが一
バイトのソート処理を行うとき、下記のように動作す
る。ここで、説明の都合のため、次の四つの用語を定義
しておく。

【０００３】（１）勝者データ・・・二つのデータを比
較し、整列したい順（昇順または降順）に並べ換えると
き、比較した結果、整列の順番の早い方を勝者データと
呼ぶ。（２）敗者データ・・・二つのデータを比較し、整列し
たい順（昇順または降順）に並べ換えるとき、比較した
結果、整列の順番の遅い方を敗者データと呼ぶ。（３）ノード・アドレス・・・二進木構造の各分岐点を
一個のノードと定義すると、ｉ番目のレベルには、２＊
＊（ｉ−１）（以後、＊＊をべき乗（この場合２の（ｉ
−１）乗と表わす）個のノードが存在する。これに左か
ら右に２＊＊（ｉ−１）から（（２＊＊ｉ）−１）のア
ドレスをつけ、これをノード・アドレスと呼ぶ。ノード
・アドレスＡ_iの左または右の分枝につながる下のレベ
ルのノード・アドレスは、それぞれ２Ａ_iまたは（２Ａ_i
＋１）で表すことができる。各ノードに勝者データと敗
者データを対とする一対のデータを配置する。従って、
ｉ番目のレベルには２＊＊（ｉ−１）対のデータが配置
される。（４）ヒストリ・・・勝者データが右の分枝からきた
か、左の分枝からきたかを示す情報をヒストリとして表
す。ヒストリが１のとき右の分枝、０のとき左の分枝か
ら来たことを示す。

【０００４】上記文献「大容量ファイルを整列するシス
トリックソータ」においては、二進木の各レベルに一個
のプロセッサを割り付けこれをＮ個一次元に接続する。
Ｎ個のプロセッサのうちｉ番目のプロセッサをＰＥ_iと
すると、ＰＥ_iは次の三つの基本サイクルで動作する。

【０００５】サイクル０：前回の比較結果をＲＡＭ_iに
格納する。ＰＥ_i-1からノードアドレスＡ_iを受け取り、
ヒストリに基づいてＡ_i番地の勝者データと敗者データ
の対の勝者データをＰＥ_i-1に送り出す。ＰＥ_i+1にソー
トアドレスＡ_i+1＝（２Ａ_i＋ヒストリ）を送り出し、デ
ータを要求する。敗者データをＲＡＭ_iからプロセッサ
ＰＳＣ_iに出力する。

【０００６】サイクル１：敗者データをＰＳＣ_iのレジ
スタに読み込む。次段プロセッサの勝者データを読出す
ための同期のためのサイクル。

【０００７】サイクル２：ＰＥ_i+1から送られてきたデ
ータを敗者データと比較し、新しい勝者データと敗者デ
ータの対をノードアドレスＡ_iに格納するためＲＡＭ_iに
転送する。

【０００８】ここで、ＰＥ_iが、サイクルＣ_iのとき、
ＰＥ_i-1とＰＥ_i+1は、各々サイクルＣ_i＋１（モード
３）、サイクルＣ_i−１（モード３）である（Ｘをｋで
割った剰余をＸモードｋで表す) 。すなわちＰＥ_i+1
がサイクル０で送り出したデータは、ＰＥ_iのサイクル
２で受け取られる。

【０００９】サイクル０からサイクル２までの動作を図
９により説明する。図９は、従来方式におけるプロセッ
サとメモリの動作説明図である。図９に示すように、プ
ロセッサとメモリ間ではデータ転送の同期のため一サイ
クル遅れでリードおよびライトが行われている。また、
各基本サイクルは、メモリのリードとライトが同時にで
きないので、二メモリサイクルを要している。さらに、
基本サイクルではライトメモリサイクルが先に実行さ
れ、その後、リードメモリサイクルが実行されている。
このため、例えば、サイクル０のリードメモリサイクル
でメモリＲＡＭ_iから読まれたデータ対のうち敗者デー
タはサイクル１でプロセッサＰＳＣ_iにリードされてい
る。

【００１０】このように、従来のソータでは、各基本サ
イクルにデータのライトとリードの二メモリサイクルが
存在し、合計で六メモリバスサイクルを要する。これ
は、一バイトのソートが二つの比較データを取り出すの
に二回、比較結果を書き込むのに一回の合計三回のメモ
リバスサイクルが必要であるのに比べると、明らかに性
能低下の要因となっている。

【００１１】図８は、従来方式によるソータをｎ台のプ
ロセッサで実現するときの構成図である。このソータで
は、図８に示すように、データ長をＬバイトとすると、
ソート専用のプロセッサＰＳＣ_iと制御回路付きメモリ
ＲＡＭ_iからなるプロセッサエレメントｎ個を一次元に
配列して、順次パイプライン処理する。上からｉ段目の
メモリＲＡＭ_iは、２＊＊ｉ個のデータを持ち、データ
長をＬバイトとすると（２＊＊ｉ）×Ｌバイトの容量を
持つ。データ長Ｌバイトのときの従来方式のＰＳＣ_iと
ＲＡＭ_iの動作を図１０に示す。図１０に示すようにデ
ータ長Ｌバイトのデータをこのソータでソートするには
先の三つの基本サイクルのうちのサイクル２をＬ回繰り
返すことになり、一プロセッサエレメントにおける一デ
ータの処理サイクルは、（Ｌ＋２）基本サイクル、すな
わち、２（Ｌ＋２）メモリサイクルである。

【００１２】

【発明が解決しようとする課題】上記従来のソート方式
は、二つの１バイトのレコードを比較し、指定された順
で出力するソートの基本サイクル数を最小にする点にお
いて、考慮がされていない。すなわち、基本的なソート
およびマージにかかるサイクル数が６メモリバスサイク
ルを要している。これは、二つのデータを比較するとき
の最小のメモリバスサイクルすなわち、比較する二つの
データを読み出して、比較器に入力する二回のデータ読
み出しサイクルと、比較したデータを指定された順にメ
モリに書き込むサイクルとを合わせて、最低限必要な合
計三回のメモリバスサイクルの二倍ものメモリバスサイ
クルであり、ソート処理の性能を低くしている点で問題
があった。メモリバスサイクル数が多くなっている原因
は、データ比較をプロセッサで行うためプロセッサにデ
ータを取り込むとき、および比較結果をプロセッサから
メモリに出力するときに、プロセッサとメモリ間で一サ
イクルの転送遅れがあることが主要因と思われる。

【００１３】本発明の目的は、このソートに必要なメモ
リバスサイクルを少なくし、高速なハードウェアソート
処理装置を提供することにある。

【００１４】

【課題を解決するための手段】上記目的を達成するため
に、本発明はｎ個のプロセッサエレメントＰＥ_k（１≦
ｋ≦ｎ）を一次元に接続したソート処理装置の各プロセ
ッサエレメントＰＥ_kにおいて、第一の比較データおよ
び第二の比較データからなる一対の比較済みデータを２
＊＊（ｋ−１）対格納する第一の記憶手段を設け、上記
二つのデータを比較するデータ比較手段を設け、第一の
比較データおよび第二の比較データの比較結果を示すヒ
ストリと呼ぶ一ビットのフラグを設け、ヒストリフラグ
を上記一対の比較済みデータに対応してそれぞれ一個づ
つ格納する第二の記憶手段を設け、また、前段プロセッ
サから入力したアドレスに基づいて、次段プロセッサの
二つの比較データのうちの一方を読み出すために、上記
アドレスを一ビット上位に配置し、第二の記憶手段から
読み出したヒストリフラグを最下位ビットとするアドレ
スを生成して、次段プロセッサエレメントに出力するア
ドレス発生手段を設け、２＊＊ｎ個のデータをｎ個の上
記プロセッサエレメントを一次元に接続したハードウエ
アソート処理装置の入力端から入力することによって他
方の出力端に一個のソーティング結果データを取り出す
ことを特徴とする。

【００１５】本発明では、メモリからリードしたデータ
を直接比較器に取り込むことにより、同期のための遅れ
を最少にしたものである。

【００１６】

【作用】本発明によるハードウェアソート処理装置で
は、前段プロセッサエレメントから出力されるアドレス
に基づき第一の比較データと第二の比較データからなる
一対の比較済みデータが第一の記憶手段から読み出され
る。第一の比較データは、あらかじめ指定された整列順
（昇順または、降順）の早い方のデータ、第二の比較デ
ータは、あらかじめ指定された整列順（昇順または、降
順）の遅い方のデータである。第一および第二の比較デ
ータの読み出しと同時に、アドレスに基づき第二の記憶
手段から読み出される第一および第二の比較データの比
較結果を示す一ビットのヒストリフラグと、アドレスと
に基づいて、次段プロセッサエレメントから第三の比較
データを読み出すアドレスを生成するアドレス生成手段
を設けた。この構成により、次の三つのメモリバスサイ
クルで１ワードのデータのソートができることを説明す
る。

【００１７】第一のメモリバスサイクル：前段プロセッ
サエレメントからのデータ読み出し要求に基づいて、第
一および第二の比較データの読み出しと、次段プロセッ
サエレメントへの第三の比較データ読み出しのためのア
ドレス出力とを第一のメモリバスサイクルの中で同時に
実行する。第一の比較データを前段プロセッサに転送す
る。

【００１８】第二のメモリバスサイクル：第二のメモリ
バスサイクルにおいて、アドレス生成手段により、次段
プロセッサエレメントへのデータ読み出しアドレスを出
力することによって、次段プロセッサエレメントの第一
の記憶手段から第三の比較データがこのサイクルで読み
出される。第三の比較データは次段プロセッサから読み
だされた第一及び第二の比較データ中のあらかじめ指定
された整列順（昇順または、降順）の早い方のデータで
ある次段プロセッサの第一の比較データである。第一お
よび第二の比較データのうち前段プロセッサエレメント
へ転送しなかった方のあらかじめ指定された整列順（昇
順または、降順）の遅い方である第二の比較データと第
三の比較データとを比較するため、比較手段へ二つの比
較データが直接入力される。

【００１９】第三のメモリバスサイクル：比較データ
は、直ちに、次の第三のメモリバスサイクルで比較さ
れ、一対の比較済みデータとして、前段プロセッサエレ
メントから出力されたアドレスに基づいて第一の記憶手
段に格納される。このとき、例えば、入力時のアドレス
にしたがって、第一の記憶手段に格納され、同時に比較
手段の比較結果を示すヒストリフラグが、第二の記憶手
段に格納される。

【００２０】以上のように、第一のメモリリードサイク
ル、第二のメモリリードサイクル、第三のデータ書き込
みサイクルの三つのメモリバスサイクルで基本データ長
（一ワード）のデータのソート処理が完了する。

【００２１】本発明においては、基本データ長のデータ
をプロセッサ間にパイプラインで順次転送しながらデー
タを整列する。一バイトのデータ長に限れば、三メモリ
サイクルでソートすることができるが、データ長が複数
になる場合は、パイプラインのデータ同期のために一シ
ステムサイクルの中にデータをリードするメモリサイク
ルとソート結果を格納するライトメモリサイクルの二つ
のメモリサイクルが必要である。そこで本発明では、三
つのメモリサイクルを二つのシステムサイクルに割り付
け、四メモリサイクルで基本データ長のソート処理が実
行できる。すなわち、第一のリードメモリサイクルを第
一のシステムサイクルで実行し、第二のリードメモリサ
イクルと第三のライトメモリサイクルを第二のシステム
サイクルで実行することによって、四メモリバスサイク
ルで上記の基本データ長のソート処理が実行できる。

【００２２】ソータとして使用しないとき、または、ソ
ート途中のデータをアクセスしたいときは、ホスト側か
らモード設定できるモードレジスタを各プロセッサエレ
メントに設けたことによって、各プロセッサエレメント
が三つのメモリバスサイクルを繰り返すソートモード
と、ホストからソート結果を出力する出力バッファ、あ
るいは、データ入力バッファとして、第一の記憶手段お
よび第二の記憶手段をアクセスできるメモリモードとを
切り替える。

【００２３】

【実施例】以下、本発明の実施例を説明する。図１は、
本発明による実施例の全体構成図である。１は、ｎ個の
プロセッサエレメントからなるハードウエアソータ部、
２は、データ処理に必要なデータを格納する主記憶装
置、３は、システム全体を制御するホストプロセッサ、
４は、データファイルを格納したディスク装置、５は、
ディスク装置４とハードウエアソータ１とを制御するデ
ィスク／ソータ制御装置、６は、ハードウエアソータ１
とシステムバス７との間のデータ転送制御を行うＤＭＡ
制御装置である。８は、システムバス７とＤＭＡ制御装
置６との間の転送路である。９は、ＤＭＡ制御装置６か
らハードウエアソータ部１へのアドレス転送路、１０
は、ハードウエアソータ部１からＤＭＡ制御装置へのデ
ータ転送路、１１は、ハードウエアソータ部からディス
ク／ソータ制御装置へのアドレス転送路、１２は、ディ
スク／ソータ制御装置からハードウエアソータ部へのデ
ータ転送路、１３は、ディスク装置４とディスク／ソー
タ制御装置との間の転送路、１４は、ディスク／ソータ
制御装置５とシステムバス７との間の転送路である。１
５−１〜１５−ｎは、各プロセッサエレメントＰＥ１〜
ＰＥｎとシステムバスとの間の転送路である。１６は、
主記憶装置２とシステムバス７との間の転送路である。
ハードウエアソータ部１のなかのｎ個のプロセッサエレ
メントＰＥ_kは、それぞれ、プロセッサエレメント内を
制御する内部プロセッサ１０１，ソート結果を格納する
第一の記憶手段１０２、ソートデータの比較結果を格納
する第二の記憶手段１０３、ソートデータを比較する比
較装置１０４、次段プロセッサエレメントへ出力するア
ドレスを生成するアドレス発生装置１０５、各プロセッ
サエレメントの動作モードを格納するモードレジスタ１
０６、内部プロセッサ１０１と前段プロセッサエレメン
トのバスを調整して切り替えるバススイッチ１０７、プ
ロセッサエレメント内の内部バス１０８を持つ。

【００２４】１０９は、内部プロセッサ１０１とバスス
イッチ１０７との間の転送路、１１０は、バススイッチ
１０７からアドレス発生装置１０５へのアドレス転送路
である。ハードウエアソータ部１とＤＭＡ制御装置６と
の間のアドレス転送路９は、一段目のプロセッサエレメ
ントＰＥ１のバススイッチ１０７へのアドレス転送路１
１１に接続されている。ハードウエアソータ部１とＤＭ
Ａ制御装置６との間のデータ転送路１０は、一段目のプ
ロセッサエレメントＰＥ１のバススイッチ１０７へのデ
ータ転送路１１２に接続されている。１１３は、アドレ
ス発生装置の出力アドレス転送路で、次段のプロセッサ
エレメントのアドレス転送路１１１に接続されるが、最
下段のプロセッサエレメントＰＥｎでは、ハードウエア
ソータ部１とディスク／ソータ制御装置５との間のアド
レス転送路１１に接続される。同様に、１１４は、比較
手段１０４へのデータ転送路で、次段のプロセッサエレ
メントとのデータ転送路１１２に接続されるが、最下段
のプロセッサエレメントＰＥｎでは、ハードウエアソー
タ部１とディスク／ソータ制御装置５との間のデータ転
送路１２に接続される。

【００２５】プロセッサエレメント内の内部バス１０８
には、バススイッチ１０７、比較済みデータ対を格納す
る第一の記憶手段１０２、比較結果を示すヒストリフラ
グを格納する第二の記憶手段１０３、二つのソートデー
タを比較する比較手段１０４、次段プロセッサエレメン
トへのアドレスを出力するアドレス発生装置１０５、お
よび、モードレジスタ１０６が接続されている。

【００２６】１５−１〜１５−ｎは、各プロセッサエレ
メントＰＥ１〜ＰＥｎとシステムバス７との間の転送路
である。第一の記憶手段１０２は、各段のプロセッサエ
レメントに対応して容量が異なり、ｋ段目のプロセッサ
エレメントの第一の記憶手段の容量は、２＊＊ｋ個のデ
ータを格納できる。第二の記憶手段１０３も、プロセッ
サエレメントの配置段ｋに応じて容量が異なり、２＊＊
ｋ個のフラグを格納できる。

【００２７】次に、図１により、動作を説明する。プロ
セッサエレメントＰＥ１〜ＰＥｎは、二つのモードを持
っていて、第一のモードは、上下の隣接プロセッサエレ
メントとアドレス転送路およびデータ転送路を介して、
交信するプロセッサモードである。第二のモードは、ｎ
個のプロセッサエレメントが一次元に接続され、全体と
してｎ段のパイプラインソータとして動作するソータモ
ードである。第一のモードにおいては、ＨＯＳＴプロセ
ッサ３からバススイッチ１０７を介して内部の第一およ
び第二の記憶手段をアクセスすることができる。つま
り、ＨＯＳＴからみれば、ｎ個のＰＥをまとめて２＊＊
（ｎ＋１）個のデータを格納できるメモリとして見え
る。第一のモードおよび第二のモードの設定は、バス制
御部２にモードレジスタを設けて、モードをＨＯＳＴか
ら書きかえることにより容易に実現できる。第一のモー
ドにおいて、初期設定等の処理を行い、第二のモードで
ソート処理を行う。

【００２８】第二のモードにおけるソータは、ｎ個のプ
ロセッサエレメントＰＥ１からＰＥｎを一次元に接続し
て２＊＊ｎ個のデータを一本の整列されたデータ列に整
列する２＊＊ｎ次のソータである。

【００２９】以下、本発明による２＊＊ｎ次のソータの
動作原理を図１２により説明する。図１２は、二進木構
造のトーナメント法によるソートアルゴリズムの説明図
である。図１２のトーナメントの下に示す八つのデータ
列Ａ〜Ｈは、各々整列された三つのデータからなるサブ
ソート列である。二進木の各交点をノードと定義する。
整列の順は昇順とする。各ノードで二つのデータが比較
されたとき小さい方のデータを勝者データ、大きい方の
データを敗者データと定義する。図１２は、比較が進ん
で最小のデータが出力端に現れた状態を示す。最初、最
下位のレベルでＡとＢ、ＣとＤ、ＥとＦ、ＧとＨのデー
タがそれぞれ比較され、最下位のレベルのノードの勝者
データ(３０３、３０６、３０２、３０１)は、一つ上の
レベルに進み、二個づつ比較され、その勝者データ(３
０３、３０１)が、さらに、上に進んで比較され３０１
が最小のデータとして出力端に現れている。図１２の状
態では、図１２の太線で示した経路のデータ(３０１、
３０２、３０４、３０９、３２０)が、各々一つ上のレ
ベルに進む。データの入力がボトムアップであることを
除けば、ヒープソート（田中氏の考案したソートアルゴ
リズムで、木構造の最上端からソートしながらデータを
入力し、出力時は、逆に最上端から指定した順にソート
されたデータを取り出すことによって木構造に展開した
だけのデータを取り出す）の出力モードと同じ原理とな
り、プロセッサの一次元配列でソータを実現できる。

【００３０】図１３は、二進木構造の勝者−敗者データ
対表現によるソートアルゴリズムの説明図である。図１
２を図１３で表すことができ。これを勝者−敗者データ
対表現と名付ける。ここで、勝者データ、敗者データ、
ノードアドレス、ヒストリという用語に関する定義は、
従来技術で定義したものと同じと考える。二進木の各交
点をノードと定義し、図１３に示すように各交点にか
らまでのノード・アドレスをつける。各ノードで二つ
のデータが比較されたとき小さい方のデータが勝者デー
タ、大きい方のデータが敗者データとなる。勝者−敗者
データ対表現は、二つのデータの比較結果を表してい
る。勝者データが左右のどちらの枝からきたかを示す出
身ノードの方向をヒストリとして表す。ヒストリが１の
ときは、勝者データが右の枝からきたことを示し、ヒス
トリが０のときは、勝者データが左の枝からきたことを
示す。従って、上からｋ番目のレベルには、２＊＊（ｋ
−１）個の勝者−敗者データ対が存在する。この勝者−
敗者データ対に左から右、上から下に１から昇順にノー
ド・アドレスをつけるとノード・アドレスＡ_kの左
（右）の枝につながる下のレベルのノード・アドレス
は、２Ａ_k（２Ａ_k＋１）で表すことができ、勝者データ
がきた枝につながる下のレベルのノード・アドレスは、
２Ａ_k＋ヒストリで表される。プロセッサエレメントＰ
Ｅ_kは、受けたノード・アドレスＡ_kを１ビット上にシフ
トし、プロセッサエレメントＰＥ_kの内部メモリのＡ_k番
地のヒストリを最下位ビットに加えて下のレベルに出力
するだけで良い。

【００３１】図１３においては、一番目のレベルには、
ノード・アドレスＡ₁＝１のノードのデータ対が一つだ
けあり、勝者データが３０２、敗者データが３０３であ
る。ノード・アドレスＡ₁＝１のノードのヒストリは１
であり、勝者データ３０２がノード・アドレスＡ₁＝１
のノードの下にある二つのノードのうちの左のノードす
なわちノード・アドレスＡ₂＝３のノードから勝ち上が
ってきたデータであることを示す。図１３においては、
太線で示した経路のデータ対の中の勝者データ（３０
２、３０４、３０９、３２０）が次の段階で一つ上のレ
ベルに進み、各レベルに残った敗者データと比較され
る。図１３に示すように、一段目のレベルにプロセッサ
エレメントＰＥ１を、二段目のレベルにプロセッサエレ
メントＰＥ２を、三段目のレベルにプロセッサエレメン
トＰＥ３を割り付ける。各プロセッサエレメントは、太
線で示した経路の勝者データを取り出すために次のよう
に動作する。

【００３２】まずプロセッサエレメントＰＥ１は、ソー
トデータを取り出すＨＯＳＴプロセッサからノード・ア
ドレスＡ₁＝１を受信する。ＰＥ１は、受信したノード
アドレスＡ₁番地のデータ対（３０２、３０３）とヒス
トリを読み出し、ヒストリが１であることに基づいて勝
者データ３０２を選択し、ＨＯＳＴプロセッサへ出力す
るとともに、次段プロセッサＰＥ２にノード・アドレス
Ａ₂をＡ₂＝２Ａ₁＋ヒストリ＝２×１＋１＝３となるように生成して、出力する。

【００３３】次のステップでＰＥ２は、Ａ₂（＝３）番
地のデータ対（３０４、３０５）とヒストリを読み出
し、ＰＥ１が前のステップで動作したのと同様にヒスト
リが０であることに基づいて勝者データ３０４を選択し
ＰＥ１に転送する。転送と同時に次段プロセッサエレメ
ントＰＥ３にアドレスＡ₃をＡ₃＝２Ａ₂＋ヒストリ＝２×３＋０＝６となるように、生成してＰＥ３に出力する。ＰＥ３は、
ＰＥ１，ＰＥ２と同様にしてＡ₃（＝６）番地のデータ
対を読み出し勝者データをＰＥ２に転送するとともにノ
ード・アドレスＡ₄（＝２Ａ₃＋ヒストリ＝２×６＋
０＝１２）を出力し、入力バッファからＡ₄番地に相当
する次のデータ（３２０）を入力する。図１３に示すよ
うに勝者−敗者データ対表現の各レベルを一つのプロセ
ッサに対応させると、プロセッサエレメントＰＥ_kの一
次元配列でソータが実現できる。

【００３４】本発明によるソータでは、二進木構造状に
一対のデータを配置したとき、ｋ番目のレベルには、２
＊＊（ｋ−１）個のデータ対が存在し、これに左から右
に２＊＊（ｋ−１）から（（２＊＊ｋ）−１）のアドレ
スをつける。アドレスＡ_kの左または右の分枝につなが
る下のレベルのアドレスは、それぞれ２Ａ_kまたは（２
Ａ_k＋１）で表すことができる。二進木構造において、
二進木の各レベルに一個のプロセッサエレメントを割り
付け、これをｎ個一次元に接続する。

【００３５】データは、ディスク装置４に格納されてお
り、ハードウエアソータ部１から転送路１１を介してデ
ィスク／ソータ制御装置５に出力されるアドレスに基づ
いて、ディスク／ソータ制御装置５、転送路１２を介し
てハードウエアソータ部１に入力される。ハードウエア
ソータ部１に転送されたデータは、ｎ個のプロセッサエ
レメントで整列され、２＊＊ｎ個のソートデータ列とな
ってＤＭＡ制御装置６から転送路９を介して出力される
アドレスに基づき転送路１０を介して、ＤＭＡ制御装置
６に出力され、転送路８、システムバス７、転送路１６
を介して主記憶装置２に転送される。

【００３６】主記憶装置２に転送されたソートデータ列
は、ＨＯＳＴプロセッサ３によって処理され、ＤＭＡ制
御装置６により転送路１６、システムバス７、転走路１
４を介してディスク／ソータ制御装置５に転送され、デ
ィスク装置４にソートデータ列として格納される。一回
のソートで整列できないような大容量のファイルをソー
トする場合、ディスク装置４に複数のソートデータ列を
２＊＊ｎ本作成し、上記ソートを繰り返すことにより２
＊＊ｎ個のデータを格納するメモリバッファ以上の大容
量ファイルをソートできる。

【００３７】次にハードウエアソータ部１の内部動作に
ついて説明する。ハードウエアソータ部１は、ｎ個のプ
ロセッサエレメントＰＥ１〜ＰＥｎから構成される。Ｐ
Ｅ１はＤＭＡ制御装置６からアドレス転送路９を介して
出力されるアドレスに基づき、順次、ソートデータ列を
データ転送路１０を介してＤＭＡ制御装置６に転送さ
れ、さらに、転送路８、システムバス７、転送路１６を
介して主記憶装置２に格納される。ＤＭＡ制御装置６か
ら出力されたアドレスＡ₁はバススイッチ７を介して内
部バス１０８に転送され、第一の記憶手段から、第一、
第二の比較データで構成される比較済みデータ対と、第
二の記憶手段から第一、第二の比較データの比較結果を
示すヒストリフラグを読み出し、バススイッチ１０７と
比較装置１０４に第一、第二の比較データを、アドレス
発生装置１０５と比較装置１０４およびバススイッチ１
０７にヒストリフラグを内部バス１０８を介して転送す
る。バススイッチ１０７は第一、第二の比較データから
ヒストリフラグによって選択した指定された整列順の早
い方の比較データである第一の選択データをデータ転送
路１０を介してＤＭＡ制御装置６に転送する。アドレス
発生装置１０５は、バススイッチ１０７から入力したア
ドレスＡ₁とアドレスＡ₁によって第二の記憶手段から読
み出されたヒストリフラグとから次段プロセッサエレメ
ントに出力するアドレスＡ₂を生成して次段プロセッサ
ＰＥ２に出力する。比較装置１０４は、アドレスＡ₁に
よって第一の記憶手段から読み出された第一、第二の比
較データを第二の記憶手段から読みだされたヒストリフ
ラグに基づき、指定された整列順の遅い方の比較データ
である第二の選択データを選択し、アドレス発生装置１
０５から出力されたアドレスＡ₂に基づき次段プロセッ
サエレメントＰＥ２から読み出されて入力される第三の
比較データを読み込み、第二の選択データと第三の比較
データを比較して、比較結果により指定された整列順の
早い方の比較データを示す新ヒストリを作成するととも
に、第三の比較データを入力する時の出力アドレスＡ₂
が奇数である方を第一の比較データ、偶数である方を第
二の比較データとする比較済みデータ対を作成してデー
タバス１０８に出力する。

【００３８】比較済みデータ対を第一の記憶手段に新ヒ
ストリを第二の記憶手段にＡ₁番地のデータとして書き
込む。バススイッチ１０７は、モードレジスタ１０６の
内容に応じて内部バス１０８と１０９へのアドレスおよ
びデータの入出力先を切り換える。例えば、モードレジ
スタの内容をＭＯＤＥとすると下記のようにバスを切り
換える。

【００３９】ＭＯＤＥ＝０の場合：内部プロセッサ１０
１、システムバス１５、およびＤＭＡ制御装置または前
段プロセッサエレメントの三つのバスマスタからのアク
セスを受け付け、内部のメモリバス１０８、１０９に、
接続する切り換え装置として動作する。この場合は、デ
ータのソートは、実行しない。

【００４０】ＭＯＤＥ＝１の場合：ＤＭＡ制御装置また
は、前段プロセッサエレメントからのアクセスのみを受
け付け、第一の記憶手段から読み出した比較済みデータ
対からヒストリフラグによって指定された整列順の早い
方の比較データを第一の選択データとしてのＤＭＡ制御
装置または、前段プロセッサエレメントに出力する。ＭＯＤＥ＝２の場合：ＭＯＤＥ１と同様にＤＭＡ制御装
置または、前段プロセッサエレメントからのアドレスを
入力するが、内部メモリには、アクセスせず、アドレス
を次段プロセッサエレメントにそのまま通過させる。内
部メモリは、システムバス７、転送路１５を介してアク
セスされ、ソート用のバッファとして利用される。

【００４１】ＭＯＤＥ＝１のとき、各プロセッサエレメ
ントＰＥ_kは、第０サイクルと第１サイクルの二つのサ
イクルを持つ。ｋ段目のプロセッサエレメントＰＥ_kに
おいて、この二つの動作サイクルをまとめたのが図２の
プロセッサエレメントＰＥ_kの動作説明図である。まず、
サイクル０において、前段ＰＥ_k-1からアドレスＡ_kを入
力し、このＡ_kに基づいて第一の記憶手段１０２および
第２の記憶手段１０３をリードする。第一の記憶手段１
０２には、第一および第二の比較データを一つの対とす
る、２＊＊（ｋ−１）個の比較済みデータ対が格納され
ている。第一の比較データと第二の比較データは、次段
プロセッサから読みだされたときのアドレスに基づきア
ドレス順に格納されており、第一の比較データは奇数ア
ドレス、第二の比較データは偶数アドレスのデータに対
応する。さらに、比較データに関して、第一の比較デー
タと第二の比較データの比較結果を示す一ビットのフラ
グ（以下ヒストリフラグと呼ぶ）が第二の記憶手段に格
納されており、第一の記憶手段をリードすると同時に、
第二の記憶手段も読み出される。第一の記憶手段１０２
から読み出された比較済みデータは、ヒストリフラグに
基づき第一の選択データと第二の選択データとして選択
される。

【００４２】第一の選択データは、比較済みデータ対の
うち、指定された整列順の早い方の比較データであり、
第二の選択データは、指定された整列順の遅い方の比較
データである。第一の選択データは、第三の比較データ
として、前段プロセッサエレメントＰＥ_k-1に転送され
る。他方、第二の選択データとヒストリフラグは、旧比
較データおよび旧ヒストリフラグとして、それぞれラッ
チされる。さらに、前段プロセッサエレメントＰＥ_k-1
から入力したアドレスＡ_kと旧ヒストリフラグに基づい
て、次段プロセッサエレメントＰＥ_k+1へのＮｅｘｔア
ドレスＡ_k+1を出力する。Ａ_k+1は、アドレスＡ_kを上位
ビット側に１ビットシフトし、旧ヒストリフラグを最下
位ビットとして指定される。従って、Ａ_k+1＝２×Ａ_k＋旧ヒストリで表される。

【００４３】なお、第一の比較データおよび第二の比較
データには、それぞれタグビットが一ビットあり、これ
らを、それぞれタグ１、タグ２とする。タグ１、および
タグ２は、異なるデータ列の整列の優先度を調整するた
めに使用される。

【００４４】次に、サイクル１におけるプロセッサエレ
メントＰＥ_kの動作について述べる。まず、サイクル０
で出力しておいたアドレスＡ_k+1に基づき、次段のプロ
セッサエレメントＰＥ_k+1から読み出された第３の比較
データとタグをリードする。つづいて、リードした第三
の比較データと、サイクル０でラッチしておいた旧比較
データとを比較し、両者の比較結果を新しいヒストリ
（新ヒストリ）として生成する。

【００４５】新ヒストリに基づいて、比較データを整列
し、第一の記憶手段１０２に格納し、新ヒストリを第二
の記憶手段１０３に格納する。動作をｎ個のプロセッサ
エレメントＰＥ１からＰＥｎにプロセッサ間の動作が一
サイクル遅れとなるように２＊＊ｎ回実行させ、順次パ
イプライン処理させることによって、２＊＊ｎ個のデー
タを一本の比較済みソート列に並べ換える２＊＊ｎ次の
ソートが実行できる。次に、図１のデータ比較装置１０
４について、図３により説明する。図３は比較装置１０
４の構成を示すブロック図である。図３において、４０
１は内部データバス１０８から読み出された比較済みデ
ータをヒストリに基づき、指定された整列順の遅い方の
比較データをデータセレクタ４０８により第二の選択デ
ータとして選択しラッチする第一のラッチ、４０２は内
部データバス１０８から読み出されたヒストリを旧ヒス
トリとしてラッチする第二のラッチである。４０３は第
二の選択データと次段プロセッサエレメントから読み出
された第三の比較データとをアドレス順に並べ換える第
一のデータＳＷＡＰ装置、４０４、４０５は４０３でＳ
ＷＡＰされたデータをアドレス順に格納する第一のバッ
ファ、および第二のバッファである。４０６は、４０
４、４０５の出力データを比較する比較器、４０７は比
較器の比較結果を格納する第三のラッチである。

【００４６】４０９はデータセレクタ４０８と内部デー
タバス１０８との間の転送路、４１０はデータセレクタ
４０８と第一のラッチ４０１との間の転送路、４１１は
第一のラッチ４０１とデータＳＷＡＰ装置４０３との間
の転送路、４１４は第二のラッチ４０２の出力でデータ
ＳＷＡＰ装置４０３に入力されるＳＷＡＰ制御信号、４
１２は、次段プロセッサエレメントとデータＳＷＡＰ装
置４０３との間の転送路である。４１５、４１６はそれ
ぞれデータＳＷＡＰ装置４０３と第一のデータバッファ
４０４および第二のデータバッファ４０５との間の転送
路、４１９、４２０は、第一のデータバッファ４０４と
第二のデータバッファ４０５から比較器４０６および内
部データバス１０８へのデータ転送路、４１７は比較器
４０６の出力を第三のラッチ４０７へ入力する比較結果
出力信号線である。４１８は第三のラッチの出力信号で
内部データバス１０８へ接続される。

【００４７】図２は、本発明によるソートプロセッサの
動作説明図である。プロセッサエレメントＰＥ_kは、図
２に示すようにサイクル０とサイクル１の二つのサイク
ルを繰り返すことによって全体としてデータを整列す
る。図２に示すように、サイクル０でデータを読み込
み、サイクル１でデータが比較される。サイクル０で第
一の記憶手段１０２から読み出された比較済みデータ対
は、内部データバス１０８から転送路４０９を介してデ
ータセレクタ４０８に入力され第二のラッチ４０２の出
力である旧ヒストリに基づき指定された整列順の遅い方
のデータである第二の選択データを選択して転送路４１
０を介して第一のラッチ４０１に出力する。上記第二の
選択データは旧比較データとして第一のラッチ４０１に
ラッチされ、４０１の出力は転送路４１１を介してデー
タＳＷＡＰ装置４０３に入力される。データＳＷＡＰ装
置４０３のもう一方のデータは、次段プロセッサエレメ
ントＰＥ_k+1からのデータ転送路４１２を介して次段プ
ロセッサエレメントＰＥ_k+1の第一の選択データを第三
の比較データとして入力する。

【００４８】データＳＷＡＰ装置４０３では、サイクル
０で第二の記憶手段から読み出したヒストリフラグを第
二のラッチ４０２に旧ヒストリとして格納し、第二のラ
ッチの出力である旧ヒストリをデータ並べ換え制御信号
線４１４としてデータＳＷＡＰ装置４０３に入力し４１
４に基づいてデータのＳＷＡＰ方向を決定する。例え
ば、第三の比較データとして入力するときに出力したア
ドレスＡ_k+1が、奇数のときは論理“０”、偶数のとき
は論理“１”が、旧ヒストリフラグとして第一のラッチ
に格納されており、旧ヒストリフラグが論理“１”のと
きは、前段プロセッサエレメントＰＥ_k-1に転送した第
一の選択データの入力時のアクセスアドレスＡ_k+1は、
偶数アドレスであったことを示しており、第二の選択デ
ータである旧比較データは、アクセスアドレスＡ_k+1が
奇数アドレスであったことを示す。従って、旧比較デー
タのラッチ４０１の出力はデータＳＷＡＰ装置４０３を
介して、奇数アドレス用の第一のバッファ４０４に入力
され、同様にして次段プロセッサエレメントＰＥ_k+1か
らの第三の比較データはデータＳＷＡＰ装置４０３を介
して、偶数アドレス用の第二のバッファ４０５に入力さ
れる。次に、第二のラッチ４０２にラッチされた旧ヒス
トリフラグが、論理“０”のときは、前段プロセッサエ
レメントＰＥ_k-1に転送した第一の選択データの入力時
のアクセスアドレスＡ_k+1が奇数アドレスであったこと
を示しており、第一および第二のバッファ４０４、４０
５に入力されるデータは、旧ヒストリフラグが１のとき
と逆にＳＷＡＰされる。すなわち、データＳＷＡＰ装置
４０３を介して旧比較データのラッチ４０１の出力は奇
数アドレス用の第一のバッファ４０４に入力され、次段
プロセッサエレメントＰＥ_k+1からの第三の比較データ
は偶数アドレス用の第二のバッファ４０５に入力され
る。

【００４９】次に、比較器４０６で第一と第二のバッフ
ァの内容が大小比較され、比較結果が、第三のラッチ４
０７に新ヒストリフラグとしてラッチされる。新ヒスト
リフラグの値は、例えば、奇数アドレス用である第一の
バッファ４０４の比較データが指定された順（降順また
は昇順）の早い方に相当するとき論理“０”、偶数アド
レス用である第二のバッファ４０５の比較データが指定
された順の早い方に相当するとき論理“１”が設定され
る。第一のバッファ４０４と第二のバッファ４０５の比
較済みデータは、そのまま第一の記憶手段１０２へ格納
され、新ヒストリフラグも第二の記憶手段１０３に同時
に格納される。データ長が二バイト以上のときは、比較
結果が最後のデータ比較まで定まらない場合があるので
最後のデータが比較されて、結果が判明したときに新ヒ
ストリフラグが格納される。従って、新ヒストリフラグ
が確定したかどうかをデータ比較のときに記憶しておく
ため、第三のラッチを二ビットとし、上位一ビットが１
のとき確定、０のとき未確定とする。

【００５０】第三のラッチの初期値をバイナリデータで
（００）とし、指定順に相当するデータが第一のバッフ
ァの内容であるとき（１０）、第二のバッファの内容で
あるとき（１１）とする。最後のデータ比較まで同じに
なったときは、原則として新ヒストリラッチ４０７の値
を（１０）として奇数アドレス側のデータを指定する
が、整列するデータ列を格納した複数の入力ファイルか
らのデータリードの割合を平均させたいときは、入力フ
ァイルのリード回数を比較したり、あるいは、前回リー
ド時と逆のアドレス側を指定するなど、適宜、指定順デ
ータを振り分けることで対応できる。とにかく、第三の
ラッチ４０７の内容である新ヒストリフラグの上位ビッ
トが１のときは、比較結果が確定したことを示す。比較
結果が確定したときは、その後のデータの比較を中止し
て、第一、第二のバッファ４０４、４０５からデータバ
ス１０８を介して第一の記憶手段１０２にデータを転送
するだけで良い。第三のラッチの出力は、下位の一ビッ
トをヒストリとして、最後のデータ転送と同じタイミン
グで第二の記憶手段１０３に格納する。

【００５１】図４は、図１のアドレス発生装置１０５の
ブロック図である。ソータモードでは、前段プロセッサ
エレメントＰＥ_k-1からのアドレスＡ_kがサイクル１であ
らかじめ出力される。プロセッサエレメントＰＥ_kはア
ドレスＡ_kをサイクル０の前縁で入力する。アドレスＡ_k
は、バススイッチ１０７に入力され、プロセッサエレメ
ントＰＥ_kの内部アドレスバス１１０上にに出力され
る。ここで、簡単のために、各サイクルは、サイクルの
前半をデータリード期間、後半をデータライト期間とす
る二つの期間になるようにマイクロプロセッサ１０１で
制御されるとする。サイクル０のデータリード期間で、
マイクロプロセッサ１０１からリードストローブ（ＲＤ
ＳＴＢ）が出力されるとともにアドレスＡ_kがバススイ
ッチ１０７を介して、内部アドレスバスに出力されアド
レス発生装置１０５に入力され、内部アドレスバス１０
８とアドレスラッチ５０１との間のアドレス転送路５０
４を介してアドレスラッチ５０１の上位ビット側に一ビ
ットシフトして入力される。サイクル０のデータリード
期間で内部アドレスバス１１０にアドレスＡｋが出力さ
れると、第一の記憶手段から比較済みデータ対が内部デ
ータバス１０８に読み出される。データバスは、八ビッ
ト単位でデータを比較すると仮定すると、比較済みデー
タ対が十六ビット、各データのタグ一ビット、比較結果
を示すヒストリフラグが一ビットの計十九ビットで構成
される。比較済みデータ対は、メモリアドレスでは、区
別せず、ヒストリフラグで判別する。従って、内部デー
タバス１０８は、次段プロセッサからの入力時に出力し
た比較データのアクセスアドレスの奇数／偶数に対応し
て奇数アドレスデータ、偶数アドレスデータをリード／
ライトする。タグも同様である。

【００５２】データバスにリードされたデータのヒスト
リは、旧ヒストリデータラッチ５０２に記憶され、サイ
クル０のライトメモリサイクルにおいて、出力アドレス
ラッチ５０１の最下位ビットに出力され、入力アドレス
Ａ_kとともに、次段プロセッサエレメントＰＥ_k+1へのア
ドレスＡ_k+1（＝２Ａ_k＋ヒストリ）として、出力され
る。ソートデータが一バイトのときは、前段プロセッサ
エレメントＰＥ_k-1からのアドレスＡ_kによって、第一の
記憶手段１０２をアクセスできるが、ソートデータ長
が、二バイト以上のときは、オフセットアドレスカウン
タ５０３によって、オフセットアドレスを内部アドレス
バス１１０に出力する。オフセットアドレスは、サイク
ル１におけるライトメモリサイクルでの共有メモリライ
トの直後にインクリメントされて、更新され、データ長
Ｌに達するとオフセットアドレスカウンタは、０にクリ
アされる。具体的には、データ長Ｌに対して、ｌｏｇ₂
Ｌの小数点以下を切り上げた整数の数だけ入力アドレス
Ａ_kを上位ビット側にシフトして、オフセットアドレス
とともにメモリアドレスとして出力すればよい。

【００５３】図５に、データ長が一バイトのときのｋ段
目のプロセッサエレメントＰＥ_kの各信号のタイミング
チャートを示す。システムサイクルは、サイクル０とサ
イクル１があり、各サイクルは、リードメモリサイクル
とライトメモリサイクルの二つのメモリサイクルからな
る。サイクル０のリードメモリサイクルでは、前段プロ
セッサエレメントＰＥ_k-1から出力されたアドレスＡ_kが
一つ前のサイクルで出力されているので、プロセッサエ
レメントＰＥ_kは、サイクル０のリードメモリサイクル
の前縁でアドレスを新しいアドレスＡ_kとして取り込
む。マイクロプロセッサ１０１は、リードストローブＲ
ＤＳＴＢを出力して、プロセッサエレメントＰＥ_kの第
一の記憶手段からアドレスＡ_kに相当する比較済みデー
タ対ＤＡＴＡ１をリードする。

【００５４】比較済みデータ対ＤＡＴＡ１は、同時に第
二の記憶手段から読みだされたヒストリフラグとともに
バススイッチに入力され、ヒストリフラグに基づき指定
された整列順の早い方の比較データが選択され、第一の
選択データとして前段プロセッサエレメントＰＥ_k-1へ
出力される。同様にして、比較済みデータ対ＤＡＴＡ１
とヒストリフラグが比較装置１０４に入力され、あらか
じめ指定した整列順の遅い方の比較データがヒストリフ
ラグに基づいて第二の選択データとして比較装置１０４
内のラッチに格納される。

【００５５】次にサイクル０のライトサイクルにおい
て、ヒストリとアドレスＡ_kから(２Ａ_k＋ヒストリ）を
次段のアドレスＡ_k+1としてプロセッサエレメントＰＥ_k
の出力アドレスラッチ５０１に記憶し、次段プロセッサ
エレメントＰＥ_k+1に出力する（図５の矢印５５０、５
５１の動作）。サイクル１のリードサイクルにおいて、
プロセッサエレメントＰＥ_kの出力アドレスラッチ５０
１から次段プロセッサエレメントＰＥ_k+1に出力された
アドレスＡ_k+1（＝２Ａ_k＋ヒストリ)により、次段プロ
セッサエレメントＰＥ_k+1のサイクル０のリードサイク
ルでリードされた比較済みデータ対ＤＡＴＡ２のうち指
定順の早い方に相当する第一の選択データがプロセッサ
エレメントＰＥ_kのもう一つの比較データである第三の
比較データとして入力され、すでに、プロセッサエレメ
ントＰＥ_kのサイクル０でラッチされているＤＡＴＡ１
の第二の選択データとが比較装置１０４において比較さ
れる。これに続いて、サイクル１のライトサイクルにお
いて、比較結果として、新しい比較済みデータ対が第一
の記憶手段のＡ_k番地に（図５の矢印５５３の動作）、
ヒストリフラグが第二の記憶手段に格納される（図５の
矢印５５２の動作）。

【００５６】次に、整列するデータ長が三バイトのとき
のプロセッサエレメント間のデータ移動の様子を図６に
より説明する。本ソータでは、各ＰＥ間の転送データバ
ス巾を一バイトと仮定しているので、Ｌバイトのとき
は、（Ｌ＋１）システムサイクルで一つのソートデータ
を転送できる。もし、システムサイクルを少なくしたい
ときは、実装上のピン数、メモリバス巾などの拡張が許
される範囲でデータバス巾を拡張すればよく、例えば、
ＰＥ間のデータ転送巾をＬバイトに拡張すると、各段の
メモリバスの巾は、二Ｌバイト＋三ビット（ヒストリ一
ビット、タグ二ビット)となり二システムサイクルのソ
ータが実現できる。

【００５７】図６は、プロセッサエレメントＰＥ間デー
タバスの巾を一バイトとしたとき、データ長三バイトの
データを整列する場合の各ＰＥ間のデータの流れを示
す。箱の中の数字は、各プロセッサエレメントＰＥのシ
ステムサイクルを示す。各プロセッサエレメントから読
み出される一対のデータのうち指定された整列順の早い
方のデータを第一の選択データ、指定された整列順の遅
い方のデータを第二の選択データとする。三バイトの第
一の選択データをＷ１、Ｗ２、Ｗ３で表し、タグをＴＡ
Ｇ−Ｗで表している。第二の選択データは、次段プロセ
ッサエレメントから第一の選択データをリードするより
一システムサイクル早く読み出されて、比較装置１０４
内にラッチされている。すなわち、前段への第一の選択
データ転送と同時に、比較装置内の入力ラッチにラッチ
している。縦軸は、一システムサイクルを刻みとする時
刻を示し横軸は、前段からのプロセッサエレメントＰＥ
の並びを示す。ＰＥ１を最上段として、ＰＥ２，ＰＥ
３，・・・ＰＥｎの順に一次元に接続される。

【００５８】ＰＥ１は、時刻Ｔでは、システムサイクル
３であり、ＰＥ２から最後のデータＷ３を入力し、整列
を完了するところである（６０１）。時刻Ｔ＋１では、
ソータ全体をコントロールするソートコントローラから
一サイクル前に出力されたアドレスＡ１を入力し、整列
データの一バイト目をソートコントローラに転送する
（６０２）。時刻Ｔ＋２では、ＰＥ１自身が出力したア
ドレスＡ２（６０７）に基づき、ＰＥ２からＰＥ１へ第
一バイト目が転送される（６０３）。同様にして、時刻
Ｔ＋３では、第二バイト目が転送される（６０４）。以
下、この動作を順次繰り返すことにより、各段のＰＥの
データが、整列されてＰＥ１から出力される。すなわ
ち、データ長Ｌ＝３Ｂyteのデータ一個を転送するの
に、（Ｌ＋１）＝四システムサイクルかかることにな
る。

【００５９】データ長Ｌバイトのときのｉ段目のプロセ
ッサエレメントＰＥ_iの動作をシステムサイクル毎に記
述すると下記のようになる。これをまとめて、図１１に
示す。図１１は、データ長Ｌバイトのときの本発明によ
るプロセッサＰＥ_iおよび内部メモリの動作説明図であ
る。

【００６０】システムサイクル０：［リード] ＰＥ_i-1
からアドレスＡ_iを入力し、第一の記憶手段から比較済
みデータ対の一ワード目と、第二の記憶手段からヒスト
リ(Ａ_i)を読み出し、第一の選択データ(Ａ_i)をＰＥ_i-1
に転送し、第二の選択データおよびヒストリ(Ａ_i)を比
較装置内にラッチする。

【００６１】[ライト] ＰＥ_i+1にアドレスＡ_i+1＝２Ａ_i
＋ヒストリ(Ａ_i)を出力する。

【００６２】（この場合は、このタイミングでアドレス
を出力するだけでライト動作ではない。）システムサイクル１：［リード] ＰＥ_i+1に出力したア
ドレスＡ_i+1から第一の選択データ（Ａ_i+1)の一バイト
目を読み出し、ＴＡＧ−Ｌおよび第二の選択データの一
バイト目と比較し、入力時のアドレス対応にデータを比
較装置内のバッファにラッチする。比較結果が確定すな
わち、第一の選択データが確定したならば、新ヒストリ
ラッチの上位一ビットを１とし、下位一ビットに確定し
た第一の選択データのアドレスの奇数／偶数に対応した
値を設定する。第一の選択データ（Ａ_i)の第二バイト目
をＰＥ_i-1に転送する。第二の選択データ(Ａ_i)の二バイ
ト目を比較部の入力レジスタにラッチする。

【００６３】[ライト] リードサイクルでのアドレスＡ_i
のデータ比較結果に従い、第一バイト目の比較済みデー
タ対(Ａ_i)を共有メモリのＡ_i番地に格納する。ライト直
後にオフセットアドレスカウンタをポストディクレメン
トして更新する。

【００６４】システムサイクルｋ（２≦ｋ≦Ｌ−１）：
［リード］ＰＥ_i+1から第一の選択データ（Ａ_i+1)のｋ
バイト目を読み出し、第二の選択データのｋバイト目と
比較し、アドレスの奇数／偶数対応にデータを比較装置
のバッファにラッチする。比較結果が確定すなわち、第
一の選択データが確定したならば、新ヒストリラッチの
上位一ビットを１とし、下位一ビットに確定した第一の
選択データのアドレスの奇数／偶数に対応した値を設定
する第一の選択データ（Ａ_i）の第(ｋ＋１)バイト目を
ＰＥ_i-1に転送する。第二の選択データ(Ａ_i)の(ｋ＋１)
バイト目を比較装置の入力レジスタにラッチする。

【００６５】[ライト] リードサイクルでのノードアド
レスＡ_iのデータ比較結果に従い、第ｋバイト目の比較
済みデータ対(Ａ_i)を第一の記憶手段のＡ_i番地に格納す
る。ライト直後にオフセットアドレスカウンタをポスト
ディクレメントして更新する。システムサイクルＬ：［リード］ＰＥ_i+1から第一の選
択データ（Ａ_i+1)のＬバイト目を読み出し、第二の選択
データのＬバイト目と比較し、出身ノード対応にデータ
を比較装置のバッファにラッチする。新ヒストリが確定
するので新ヒストリをラッチする。

【００６６】[ライト] リードサイクルでのノードアド
レスＡ_iのデータ比較結果に従い、第Ｌバイト目の比較
済みデータ対(Ａ_i)と新ヒストリを第一の記憶手段およ
び、第二の記憶手段のＡ_i番地に格納する。ライト直後
にオフセットアドレスカウンタを初期値０にクリアす
る。

【００６７】図２の動作説明図および図５の動作タイミ
ングでは、システムサイクルの中にリードメモリサイク
ルとライトメモリサイクルを含んでいるため、四メモリ
サイクルとなっているが、システムサイクル０のライト
サイクルでは、メモリバスを使用していないので、ライ
トメモリサイクルを省略すると、三メモリサイクルでソ
ートが実現できる。図７は、三メモリサイクルで一バイ
トのデータ長のデータ列を整列する時のプロセッサエレ
メントの動作説明図である。図７に示すように、サイク
ル０、１、２の順に第一のリードサイクル、第二のリー
ドサイクル、最後にライトサイクルを実行するようにな
っている。第一のリードサイクルでは、ｋ段目のプロセ
ッサエレメントＰＥ_kは、アドレス入力Ａ_kを入力し、ア
ドレスＡ_kに相当する比較済みデータ対をリードし、比
較済みデータ対と同時に読みだしたヒストリに基づき、
あらかじめ定められた整列順の早い方のデータである第
一の選択データを前段プロセッサエレメントＰＥ_k-1に
出力するとともに、あらかじめ定められた整列順の遅い
方のデータである第二の選択データをラッチし、ヒスト
リとアドレスＡ_kに基づき次段アドレスＡ_k+1（＝２＊Ａ
_k＋ヒストリ）を出力する。次のサイクル１は、第二の
リードサイクルであり、第一のリードサイクルで出力し
た次段アドレスＡ_k+1に基づいて次段の比較済みデータ
対から第一の選択データをリードし、先に読み出してお
いた第二の選択データとを比較し、比較結果を新ヒスト
リとする。

【００６８】次のサイクル２は、ライトサイクルでサイ
クル１で比較した結果に基づき、第一の選択データおよ
び第二の選択データを入力したアドレス順に並べて一つ
のデータ対を構成し第一の記憶装置に格納し、ヒストリ
を第二の記憶装置のＡ_k番地に格納する。次段プロセッ
サＰＥ_k+1も同様に三つのメモリサイクルを実行するが
ｋ段目のプロセッサエレメントＰＥ_kより一メモリサイ
クル遅れて動作する。以上のように、三つのメモリサイ
クルでも、動作可能である。三つのメモリサイクルで動
作させる場合、リードおよびライトがサイクルによって
異なるのでタイミング制御を実行するバススイッチの部
分にあるリードおよびライトのタイミング発生装置でリ
ードおよびライトのタイミング制御信号を発生させる。
従って、このタイミング発生装置が異なる以外は、図１
の構成で三メモリバスサイクルでデータ長１バイトのデ
ータ列をソートできる。

【００６９】最後に、本発明は、ディスクソートに関す
るものであるため、シーク時間が長い場合は、入力バッ
ファへのデータ入力が一時的に遅れる場合が生じる。こ
れを解決するためには、大容量のメモリを準備すればよ
いが、Ｎ次整列併合の場合には、Ｎが大きいとメモリの
総容量が膨大になるので、メモリを増すことはせず、ソ
ータを一時止めることによって、比較的小さなバッファ
でソートを可能とする。ソータを一時停止するには、ソ
ートコントローラまたは、ＨＯＳＴプロセッサから出力
段プロセッサエレメント、すなわち、ＰＥ１を停止させ
ればよい。従って、プロセッサエレメントのモードレジ
スタに停止、起動用の制御ビットを設け、ここに、ソー
トコントローラまたは、ＨＯＳＴプロセッサが書き込む
ことによって、制御する。モードレジスタへの書き込み
は、プロセッサモードと同様のバススイッチを利用すれ
ば一サイクルで実行できる。ただし、ソートプロセッサ
数が多い場合は、数回に分けて書き込むのでこれに相当
するだけのサイクル数でソートするデータの数以下にな
ったら、ソータを停止すればよい。

【００７０】

【発明の効果】本発明による並列ソータでは、各ＰＥ
は、前段ＰＥからのメモリアクセスと次段ＰＥへのアド
レス出力を同時に実行して、パイプライン化を実現して
おり、高速な並列ソータが提供できる。

【００７１】さらに、メモリバスサイクルは、データ長
１バイトのソートについては、従来六メモリバスサイク
ルであったものを四メモリバスサイクルで実現できる。
なお、同期のために、リードメモリバスサイクルとライ
トメモリバスサイクルの二メモリバスサイクルを組合せ
て一システムサイクルとしている。また、Ｌバイト長の
データに対しても、Ｌ＋２システムサイクルで処理して
いたものが、Ｌ＋１システムサイクルで可能となり、性
能が向上する。ソートモードとプロセッサモードの切り
替えによりソートメモリを入力バッファメモリとして使
用でき、少ないバッファメモリで大容量ファイルのソー
トが実行できる効果がある。本発明によるソートプロセ
ッサをｎ個一次元配列に接続することにより、２＊＊ｎ
次の整列併合をパイプラインで処理することが可能とな
り、ソートバッファメモリの容量を越えるような大容量
データの外部ソートに特に効果がある。

【図面の簡単な説明】

【図１】本発明によるソートプロセッサエレメントのブ
ロック図。

【図２】本発明によるソートプロセッサのバス制御装置
の説明図。

【図３】本発明によるソートプロセッサの比較部のブロ
ック図。

【図４】本発明によるソートプロセッサの動作説明図。

【図５】本発明によるソートプロセッサの動作タイミン
グチャート。

【図６】本発明によるソートプロセッサ間のデータの流
れの説明図。

【図７】本発明によるソートプロセッサの各サイクルの
処理内容の説明図。

【図８】従来方式によるソータをｎ台のプロセッサで実
現するときの説明図。

【図９】従来方式におけるプロセッサＰＳＣ_iとメモリ
ＲＡＭ_iの動作説明図。

【図１０】データ長Ｌのときの従来方式におけるプロセ
ッサとメモリの動作説明図。

【図１１】データ長Ｌのときの本発明におけるプロセッ
サと内部メモリの動作説明図。

【図１２】２進木構造のトーナメント法によるソートア
ルゴリズムの説明図。

【図１３】２進木構造の勝者ー敗者データ対表現による
ソートアルゴリズムの説明図。

【符号の説明】

１：ハードウエアソータ部、２：主記憶装置、３：ＨＯ
ＳＴプロセッサ、４：ディスク装置、５：ディスク／ソ
ータ制御装置、６：ＤＭＡ制御装置、７：システムバ
ス、８〜１６，１０９：６、７間の転送路、１０１：内
部プロセッサ、１０２，１０３：記憶手段、１０４：比
較装置、１０５：アドレス発生装置、１０６：モードレ
ジスタ、１０７：バススイッチ、１０８：内部データバ
ス、１１０：アドレスバス。

───────────────────────────────────────────────────── フロントページの続き (72)発明者迫田行介神奈川県川崎市麻生区王禅寺1099番地株式会社日立製作所システム開発研究所内

Claims

【特許請求の範囲】

【請求項１】パラグラフ先頭の半角スペース２ケを全角
スペース１ケに全文訂正ｎ個のプロセッサエレメントＰ
Ｅ_k（１≦ｋ≦ｎ）を一次元アレイに接続して、隣りの
前記プロセッサエレメントに、順次、データを転送しな
がらデータを整列（ソート）する多段のハードウェアソ
ータにおいて、各段の前記プロセッサエレメントにデー
タを処理するプロセッサと、あらかじめ定めた整列順序
（昇順または降順）に整列する順序を決定したｋ段目の
データ対を２の（ｋ−１）乗個分格納する第一の記憶手
段と、前記第一の記憶手段の一対のデータの整列の順序
を決定した結果を示す一ビットのフラグをそれぞれのデ
ータ対に対応して格納した第二の記憶手段と、前記第二
の記憶手段から読み出したフラグと前段プロセッサエレ
メントから出力されるアドレスＡ_kに基づき次段プロセ
ッサエレメントＰＥ_k+1に出力するアドレスＡ_k+1を生成
し出力するアドレス発生手段と、前段プロセッサエレメ
ントから出力されるアドレスＡ_kにより読み出した一対
のデータのうちあらかじめ指定された整列順の遅い方に
該当する第二のデータと前記アドレス発生手段により次
段に出力したアドレスＡ_k+1に基づいて次段プロセッサ
エレメントＰＥ_k+1から読み出した第三のデータを比較
するデータ比較手段とを設け、前段プロセッサエレメン
トから出力されるアドレスＡ_kに基づき前記第一の記憶
手段から読み出した一対のデータのうちあらかじめ指定
された整列順の早い方に該当する第一のデータを選択し
前段プロセッサエレメントＰＥ_k-1に転送すること、前
記アドレス発生手段から次段プロセッサエレメントＰＥ
_k+1に出力したアドレスＡ_k+1に対して次段プロセッサエ
レメントＰＥ_k+1から転送される第三のデータを入力す
ることを特徴とするハードウェアソート処理装置。
【請求項２】請求項１において、ｋ段目（１≦ｋ≦ｎ）
の前記プロセッサエレメントＰＥ_kの受けるアドレスＡ_k
に対して、前記プロセッサエレメントから入力したアド
レスＡ_kに基づき読み出した前記一対のデータのうちあ
らかじめ指定された整列順の早い方に該当する前記第一
のデータを選択するために、前記第二の記憶手段から読
み出した一ビットのフラグを格納する第六の記憶手段を
設け、プロセッサエレメントＰＥ_kから出力するアドレ
スＡ_k+1が、前記第六の記憶手段の出力（ヒストリ）と
アドレスＡ_kに関連し、Ａ_k+1＝２Ａ_k＋ヒストリとなるように次段プロセッサエレメントＰＥ_k+1へのア
ドレスＡ_k+1を生成して、出力するアドレス発生手段を
設けたハードウェアソート処理装置。
【請求項３】請求項１において、前段プロセッサエレメ
ントから出力されたアドレスＡ_kにより読み出した前記
一対のデータのうちあらかじめ指定された整列順の遅い
方に該当する前記第二のデータと、アドレス発生手段に
より次段に出力したアドレスＡ_k+1に基づいて次段のプ
ロセッサから読み出した前記第三のデータとを入力し、
前記第二、第三の二つの入力データを次段プロセッサエ
レメントから入力するためにアクセスしたアドレスの奇
数/偶数に対応して並べ換えるデータＳＷＡＰ手段を設
けたこと、その出力を記憶する第四の記憶手段を設け、
前記第四の記憶手段から出力される二つのデータを比較
する比較器を設け、その比較結果により前段プロセッサ
エレメントに転送すべきデータを指定するフラグとして
格納する第五の記憶手段を設け、前段プロセッサエレメ
ントから入力した第四の記憶手段の出力を前記第一の記
憶手段に記憶し、前記第五の記憶手段の出力を前記第二
の記憶手段に記憶すること、前記第二の記憶手段を読み
出したときの出力により、データＳＷＡＰ手段のデータ
ＳＷＡＰの方向を指定し、前記第一の記憶手段に格納さ
れた二つのデータからあらかじめ指定された整列順の早
い方に該当する第一のデータを選択するハードウェアソ
ート処理装置。
【請求項４】請求項１において、前段プロセッサからの
データのリード要求による第一のサイクル、次段プロセ
ッサへのデータリードにより、前記第三のデータを読み
出す第二のサイクル、第一のサイクルでリードしたデー
タ中の前記第二のデータと前記第二のサイクルでリード
した前記第三のデータを比較し、比較した結果によりあ
らかじめ定めた整列順序の早い方に該当する方のデータ
を指定するフラグを前記第二の記憶手段に、前記第二の
データおよび前記第三のデータを一対のデータとして前
記第一の記憶手段に格納する前記第三のサイクルを一次
元アレイに接続された全ＰＥが順次繰り返すことによっ
て、データを整列するハードウェアソート処理装置。
【請求項５】請求項１において、データをソートするソ
ートモードとホストプロセッサまたは自プロセッサから
共有記憶手段をアクセスするプロセッサモードを切り替
えるモード切り替え手段を設け、前記ホストプロセッサ
または前記自プロセッサと共有記憶手段間に共有記憶手
段にアクセスする複数のプロセッサからのアクセスを切
り替えるバス切り替え手段を設けたハードウェアソート
処理装置。