JPH04348451A

JPH04348451A - 並列計算機

Info

Publication number: JPH04348451A
Application number: JP3139065A
Authority: JP
Inventors: Shingo Tsujimichi; 辻道　信吾; Tomomasa Kondo; 近藤　倫正
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1991-03-14
Filing date: 1991-06-11
Publication date: 1992-12-03
Anticipated expiration: 2013-07-02
Also published as: JP2770603B2; US5649106A

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、複数のプロセッサを
備えた並列計算機に関するものである。

【０００２】

【従来の技術】図１１は例えば「中田ほか：並列回路シ
ミュレーションマシンＣｅｎｊｕ，情報処理，ＶＯＬ．
３１，ＮＯ．５，通巻３０３号，ｐｐ．５９３−６０１
」に示された従来の並列計算機を示すシステム構成図で
あり、図において、１はプロセッサ（ＰＥ）であり、２
はクラスタ内のＰＥを接続するクラスタバス、３はクラ
スタ間を接続する多段接続ネットワーク、４はクラスタ
間のデータ転送を補助するネットワークプロセッサ、５
は同じくクラスタ間のデータ転送を補助するネットワー
クアダプタである。図においてメモリは各ＰＥに分散配
置され、かつ、それぞれがシステム全体でユニークなア
ドレスを持つ、分散共有メモリ方式である。

【０００３】また、図１２は図１１におけるクラスタ内
の構成を示す。図において、１はＰＥ（プロセッサ）で
あり、８は各ＰＥに分散配置されローカルメモリの性質
を持ちながら、かつそれぞれがシステム全体でユニーク
なアドレスを持つ分散共有メモリである。２はＰＥ１お
よび分散共有メモリ８を接続するクラスタバスである。ここで、分散共有メモリ８と直接接続しているＰＥ１を
そのメモリの所有者、クラスタバス２によって接続して
いるＰＥ１を非所有者と呼ぶ。

【０００４】次に動作について説明する。図１１のシス
テムにおいて、ＰＥ１間のデータ転送は分散共有メモリ
を経由して行なう。各ＰＥ１がクラスタ内の他のＰＥ１
のメモリにアクセスする場合はクラスタバス２を経由し
て直接アクセスするのに対して、他のクラスタのＰＥ１
のメモリをアクセスする場合はクラスタバス２を経由し
てネットワークプロセッサ４とネットワークアダプタ５
に依頼を出し、更に多段接続ネットワーク３を経由して
アクセスすることになる。どちらの転送形態もハードウ
ェア及び基本ソフトウェアのサポートによりアプリケー
ションプログラムからの見かけは変わらないが、実際の
アクセス速度は大きく異なる。

【０００５】次に図１２の動作について説明する。この
システムにおいて、各ＰＥ１は、自分が所有する分散共
有メモリ８に格納されたデータに対して演算を行なう場
合は、直接高速にメモリをアクセスできるが、他のＰＥ
１の分散共有メモリ８に格納されたデータに対して演算
を行なう場合は、クラスタバス２を経由して分散共有メ
モリ８をアクセスする必要がある。この例の場合分散共
有メモリ８に２ポートメモリを使用しているので、各Ｐ
Ｅ１は分散共有メモリ８の所有者のメモリアクセスを妨
げる事なく、他者の分散共有メモリ８をアクセスできる
。しかし、非所有ＰＥ１間で同時に分散共有メモリ８を
アクセスしようとした場合は、クラスタバス２が競合す
るからクラスタバス２を使用する順序についての調停が
必要になり、メモリアクセスに待ちが生じる。そして、
この方式では演算とデータ転送を一つのＰＥ１が時分割
で行なうので、データ転送時にオーバヘッドが増えれば
演算に影響を与え、性能が低下する。

【０００６】

【発明が解決しようとする課題】図１１の従来のクラス
タ構成を持つ並列計算機では、クラスタ内に閉じた並列
処理とクラスタ間にまたがった並列処理でデータ転送な
ど性質が異なる為、各クラスタに割り付けるアプリケー
ションプログラムの負荷が変動した場合に、柔軟に対応
できずクラスタ内のＰＥを遊ばせてしまうか、または逆
に、データ転送性能を桁違いに低下させながら他クラス
タのＰＥを利用するしかなかった。

【０００７】また図１１においてクラスタ数が多い場合
、あるいは、クラスタ間にまたがった処理が多い場合は
、多段接続ネットワークを経由してアクセスすることが
多くなりクラスタによる多段接続ネットワークの競合が
起きる。したがって、あるときには、スムーズに多段接
続ネットワークを経由して処理が実行できたり、別なと
きには、多段接続ネットワークがあくのを待たされたり
して、同一処理に費やす処理時間が異なってくることが
あった。リアルタイムの処理においては、処理時間が一
定でないことにより結果が異なる場合があり、処理時間
を所定の時間で終了する必要があることが多く、同一処
理は、どのようなタイミングであっても、処理を一定時
間で終了できるシステムが必要であった。

【０００８】以上のように、図１１の従来の並列計算機
では、ＰＥを有効に利用できなかったり、クラスタ間の
独立性という利点を確保できずにリアルタイム性の保証
が困難になったり、データ転送効率を落としたりという
問題点があった。

【０００９】従来の図１２における並列計算機でも、同
時に複数の非所有ＰＥが分散共有メモリをアクセスしよ
うとした場合は、クラスタバスが競合するから待ちが生
ずる。この待ちの制御をハードウェアで行なう場合でも
、ソフトウェアで行なう場合でも、各ＰＥは余分のオー
バヘッドを負うことになる。また、データ転送をデータ
が発生した時、またはデータが必要になってから行なう
という基本的な性質から、データ転送が集中する場合が
ある。それらの結果、ＰＥを有効に利用できなかったり
、クラスタバスのデータ転送性能を落としたりという問
題点があった。

【００１０】この発明は、クラスタ構成を計算機の稼働
中に再構成可能とすることによって、各クラスタに割り
付けられるアプリケーションプログラムの負荷の変動に
あわせてクラスタ内のＰＥ数を変更することにより、資
源（ＰＥ）を有効活用するとともに、クラスタ間の独立
性という利点を確保してリアルタイム性および再現性を
保証することができ、また、バス等のデータ転送性能の
低下を防止することができる並列計算機を得ることを目
的としている。

【００１１】またこの発明は、クラスタバスを介したＰ
Ｅと分散共有メモリの間でのデータ転送を、ＰＥとは別
に設けたデータ転送用ＰＥに任せることにより、ＰＥの
転送オーバヘッドを減少させ、またデータの転送をデー
タが発生した時点、およびデータが必要とされた時点か
ら独立させ、データ転送タイミングの選択の自由度を向
上させることによって、クラスタバスの実質的なデータ
転送性能向上を目的としている。

【００１２】また、この発明は転送用ＰＥの同期待ちオ
ーバヘッドを減少させ、データ転送効率を向上させるこ
とを目的としている。

【００１３】また、この発明はコンパイラにより、新し
いアーキテクチャで必要となるデータ転送用プログラム
の作成を容易にすることを目的としている。

【００１４】

【課題を解決するための手段】この発明に係る並列計算
機は、以下の要素を有するものである。（ａ）　　情報
を処理する複数のプロセッサ手段、（ｂ）　　上記の各
プロセッサ手段に接続可能な複数のデータ転送手段、（
ｃ）　　上記の各プロセッサ手段に対応して設けられ、
各プロセッサ手段に接続可能な複数のデータ転送手段の
中からひとつのデータ転送手段を選択してプロセッサ手
段に接続するセレクタ手段。

【００１５】また、この発明に係る並列計算機は、以下
の要素を有するものである。（ａ）　　クラスタ内にあ
る複数のプロセッサ、（ｂ）　　上記各プロセッサに接
続されたローカルメモリ、（ｃ）　　上記各プロセッサ
間のデータ転送を行うデータ転送路、（ｄ）　　上記各
プロセッサ間のデータ転送制御を行うデータ転送制御用
プロセッサ。

【００１６】また、この発明に係る並列計算機は、以下
の要素を有するものである。（ａ）　　あるプロセッサ
から他のプロセッサに転送するデータを格納するバッフ
ァメモリ、（ｂ）　　任意のタイミングで上記バッファ
メモリをアクセスし、転送するデータが上記バッファメ
モリに格納されていない場合、割り込み処理により上記
バッファメモリを再アクセスするデータ転送制御用プロ
セッサ。

【００１７】また、この発明に係るコンパイラは以下の
要素を有するものである。（ａ）　　ソースプログラムから演算部分とデータ転送
部分を分離する手段、（ｂ）　　上記演算部分と上記デ
ータ転送制御部分に同期・通信制御機能を追加し、独立
した演算用プログラムとデータ転送用プログラムを作成
する手段。

【００１８】

【作用】この発明における並列計算機は、セレクタ手段
により、計算機稼働中の適当なタイミングで各プロセッ
サ手段（ＰＥ）と複数のデータ転送手段の接続関係を変
更できるので、各アプリケーションプログラムの負荷量
が変動したときに、計算機全体のクラスタ構成を再構成
でき、各アプリケーションプログラムを適当な演算パワ
ーを持ったクラスタで実行できる。

【００１９】またこの発明における並列計算機は、デー
タ転送制御をＰＥと別に設けた転送用ＰＥが行なう。ま
た、データ転送はデータが発生した時点またはデータを
必要とする時点とは別のタイミングで行われ、転送が不
成功の場合は再転送する。

【００２０】また、ソースプログラムからデータ転送部
分を自動的に抽出し、演算用プログラムとデータ転送用
プログラムを分離、再構成する。

【００２１】

【実施例】

実施例１．以下、この発明の一実施例を図について説明
する。図１において、１はプロセッサ（ＰＥ）、２はク
ラスタ内のデータ転送を受け持つクラスタバス（データ
転送手段）で、２１は第一のクラスタバスで、２２は第
二のクラスタバスである。第一のクラスタバス２１は、
サブクラスタバス２１ａ、２１ｂ、２１ｃ、２１ｄ、・
・を有し、第二のクラスタバス２２は、サブクラスタバ
ス２２ａ、２２ｂ、２２ｃ、・・を有している。そして
、各ＰＥが２本のクラスタバス２１、２２に接続可能な
ように配置されており、図に示すようにサブクラスタバ
スは、互い違いに切断されている。各サブクラスタバス
は４個のＰＥに接続可能であり、各ＰＥは２本のサブク
ラスタバスに接続可能である。

【００２２】６はＰＥを２本のクラスタバス２１、２２
の内どちらのバスに接続するかを切り替えるためのセレ
クタ（セレクタ手段）である。７はシステム全体を接続
するシステムバスでクラスタ間のデータ転送を受け持つ
。８はメモリであり、９はプロセッサ（ＰＥ）１とメモ
リ８を有するプロセッサ手段である。

【００２３】次に動作について説明する。たとえば、本
システムではセレクタの切り替えは、システム内の全セ
レクタについて一斉に行なう。逆に言えば、システムの
一部分についてのみセレクタの切り替えを行なうことは
できないし、また、１データの転送ごとにセレクタの切
り替えを許すものでもない。このセレクタの切り替えタ
イミングをシステム再構成タイミングと呼ぶ。

【００２４】この再構成タイミングは本システムで同時
に実行される複数のリアルタイムプロセスの開始、終了
のタイミングから適切に規定される。本システムでは各
ＰＥは２本のバスに接続可能になっているが、どちらの
バスに接続するかを検討し、実際に接続を変更するのは
システム再構成タイミングにおいてのみである。それ以
外のタイミングでは、各ＰＥは２本のクラスタバス２１
、２２のどちらか一方のバスに固定的に接続されており
、その結果、システムのクラスタ構成は固定であり、ク
ラスタ内の各ＰＥは１本のバスで接続されている。

【００２５】再構成された各クラスタはクラスタバスに
関しては互いに独立であり、他のクラスタでの処理内容
や処理状況に影響されない。図１の例の場合、各サブク
ラスタバスは４個のＰＥに接続可能であり、各ＰＥは２
本のサブクラスタバスに接続可能である。このクラスタ
バスとＰＥの接続関係を変更することによりシステムの
クラスタ構成を変更することができる。

【００２６】このクラスタバスとＰＥの接続関係を変更
することによりシステムのクラスタ構成を変更した例を
、図２、及び図３に示す。図２は、サブクラスタバス２
１ａによりプロセッサ手段２個からなるクラスタａを構
成し、サブクラスタバス２２ａによりプロセッサ手段１
個からなるクラスタｂを構成し、サブクラスタバス２１
ｂによりプロセッサ手段３個からなるクラスタｃを構成
し、サブクラスタバス２２ｂによりプロセッサ手段２個
からなるクラスタｄを構成し、サブクラスタバス２１ｃ
によりプロセッサ手段１個からなるクラスタｅを構成し
、サブクラスタバス２２ｃによりプロセッサ手段３個か
らなるクラスタｆを構成した例を示すものである。図２
に示すように、２重に張られたクラスタバスを活用する
と各クラスタ内のＰＥ数を１個から４個の範囲で変更す
ることができる。

【００２７】また、全てのクラスタバスを利用する必要
はなく、例えば、図３のようにクラスタバス２１をまっ
たく使用せず、クラスタバス２２のみでクラスタを構成
してもよい。図３は、サブクラスタバス２２ａによりプ
ロセッサ手段４個からなるクラスタａを構成し、サブク
ラスタバス２２ｂによりプロセッサ手段４個からなるク
ラスタｂを構成し、サブクラスタバス２２ｃによりプロ
セッサ手段４個からなるクラスタｃを構成した例を示す
ものである。この場合、各クラスタに最大数の４個のＰ
Ｅを接続することができる。ただし、この場合は、クラ
スタバス２１は使用されないので無駄になる。なお、図
２及び図３には図示していないが、本実施例でもリアル
タイム性の要求が低いような場合はシステムバス７を経
由したクラスタ間のデータ転送が可能である。

【００２８】図２及び図３に示したように、各クラスタ
ａ、ｂ、ｃ、・・は、与えられた処理がそのクラスタ内
で他のクラスタから独立して実行できるように構成され
る。この構成はセレクタ６が所定のサブクラスタバスを
選択することにより達成される。

【００２９】このように、実行されるプロセスに先立っ
て、クラスタを再構成しておくと各プロセスは、他のク
ラスタをまったくアクセスすることなく自分自身のクラ
スタ内だけで処理を実行し終了することができる。たと
えば、プロセスａ、ｂ、ｃ、ｄ、ｅ、ｆが並列実行可能
で、かつ、それぞれのプロセスがプロセッサを２個、１
個、３個、２個、１個、３個必要としている場合、あら
かじめセレクタが図２に示すクラスタ構成を取るように
切り替えられる。したがって、プロセスａ、ｂ、ｃ、ｄ
、ｅ、ｆは、他のクラスタをまったくアクセスすること
なく自分自身のクラスタ内だけで処理を実行し終了する
ことができる。

【００３０】このように、プロセスａ、ｂ、ｃ、ｄ、ｅ
、ｆの実行前に、図２に示すような構成にすることで、
プロセスの動作環境は常に一定し、処理時間及び処理結
果の再現が可能になり、従来の並列計算機で問題とされ
ていた、ＰＥを有効に利用できなかったり、クラスタ間
の独立性という利点を確保できずに、リアルタイム性の
保証が困難になったり、データ転送効率を落としたりと
いう問題点が解消できる。

【００３１】実施例２．また、上記実施例ではクラスタ
バスを２重に張る場合について説明したが、図４に示す
ように３重に張ってもよいし、更に４重、５重にしても
よい。この様にすると、システム内のクラスタ数や、各
クラスタ内のＰＥ数の変動幅を大きくすることができ、
全体としてクラスタ構成の自由度を高くすることができ
る。

【００３２】実施例３．また、上記実施例ではクラスタ
バスを４個のプロセッサごとに切断してサブクラスタバ
スを構成した場合をしめしたが、更に２個、３個、５個
、６個、・・・にしてもよい。また、この数は一定でな
くてもよく、２個、３個、５個、６個、・・ごとに区切
られたクラスタが混在してもよい。この様にすると、シ
ステム内のクラスタ数や、各クラスタ内のＰＥ数の変動
幅を大きくすることができ、全体としてクラスタ構成の
自由度を高くすることができる。

【００３３】実施例４．また、上記実施例１ではクラス
タバスは、互い違いに切断されている場合を示したが、
図５に示すように、クラスタバス２１とクラスタバス２
２は切断されていなくてもよい。そして、このように切
断のない状態で、更にバスを４重、５重にしてもよい。この様にすると、システム内のクラスタ数や、各クラス
タ内のＰＥ数の変動幅を大きくすることができ、全体と
してクラスタ構成の自由度を高くすることができる。あ
るいは、図示しないが、クラスタバス２１は切断されて
いて、クラスタバス２２は切断されていない場合でもよ
い。

【００３４】実施例５．また、上記実施例１ではクラス
タバスは、互い違いに切断されている場合を示したが、
図６に示すように、サブクラスタバスとサブクラスタバ
スを結合するバス結合器１０を設けてもよい。バス結合
器１０は、図示したように隣り合うサブクラスタバスを
結合するだけでなく、図示しないが離れたサブクラスタ
バスを結合できるようにしてもよく、こうすることによ
りクラスタ構成の自由度を高くすることができる。また
、同じクラスタバス内のサブクラスタバスを結合するだ
けでなく他のクラスタバスのサブクラスタバスを結合で
きるようにしてもよい。

【００３５】実施例６．また、上記実施例ではクラスタ
内の接続バスをバスとしたが、その他の形式のネットワ
ークでもよい。

【００３６】実施例７．更に、上記実施例ではローカル
メモリの性質を強く保持した分散共有メモリ方式だが、
完全な共有メモリ方式でもよいし、完全なローカルメモ
リ方式でもよい。

【００３７】実施例８．更に、上記実施例ではシステム
の再構成をシステム全体を対象として一斉に行なったが
、システムの一部分を対象にした再構成を許し、その結
果、飛び飛びに生じる未利用ＰＥを再利用するために、
適当な間隔でガーベッジコレクション、すなわちシステ
ム全体を対象にした再構成を行なってもよい。

【００３８】以上、上記実施例では、クラスタ構造を持
つ並列計算機において、プロセッサ間を接続してクラス
タを構成するための、プロセッサごとに準備された複数
のデータ転送手段（クラスタバス）と、複数のデータ転
送手段のうちの一つを各プロセッサごとに計算機稼働中
に選択するセレクタ手段とを備え、データ転送手段の選
択及び固定をアプリケーションプログラム群の要求にあ
わせて再構成できるように、計算機稼働中の適当なタイ
ミングで制御する手段を備えた並列計算機を説明した。

【００３９】なお、特開昭６１−１４８５６４号公報に
、「並列処理計算機」として、複数のプロセッサを２次
元配列し、各々の行及び列でプロセッサ間を結合してな
る並列処理計算機において、任意数の異なる行または列
のプロセッサ間を直列接続する機能を持つバス接続機構
を設けたことを特徴とする並列計算機が開示されている
が、この技術は、発明の構成の点から、プロセッサを２
次元配列した計算機に応用したものであること、及び、
あらかじめ定まった行または列のプロセッサ間を直列接
続するためのものであり、行または列のプロセッサ内に
おいては、プロセッサの接続形態が変更できないこと等
の点でこの発明にかかる並列計算機とは異なり、また、
発明の目的及び以下に述べる効果においてもこの発明に
かかる並列計算機とは異なるものである。

【００４０】実施例９．図７にクラスタ内における実施
例を示す。図７において、１はＰＥ、８はローカルメモ
リの性質を強く持った分散共有メモリ、２はクラスタ内
のデータ転送を受け持つクラスタバス、３１はＰＥ１間
のデータ転送制御用の転送用ＰＥ、３２は転送用ＰＥ３
１のデータ転送動作を規定する転送用プログラムを格納
するプログラムメモリ、３３は他のＰＥ１に転送すべき
出力データを格納するＦＩＦＯレジスタである。

【００４１】次に図８はＦＩＦＯレジスタのデータ転送
タイミング制御手段の具体的実施例を示す図である。図
８において、４１はＦＩＦＯレジスタのデータ格納部で
ある２ポートメモリ、４２は２ポートメモリへの書き込
み用アドレスカウンタ、４３は２ポートメモリからの読
み出し用アドレスカウンタ、４４は転送用ＰＥ３１がデ
ータが準備される前にＦＩＦＯをアクセスした場合に割
込信号を発生する割込信号生成回路、４５は転送用ＰＥ
４からのリードストローブ信号、４６は割込信号生成回
路４４が出力する割込信号である。

【００４２】また、図９はデータ転送用プログラム抽出
機能付きコンパイラの機能図である。図９において、５
１は並列言語で記述した並列型ソースプログラム、５２
は並列型ソースプログラム５１を自動的に並列型演算用
ソースプログラムと転送用ソースプログラムに分離する
転送用ソースプログラム抽出分離用プリプロセッサ、５
３はプリプロセッサ５２が出力する並列型演算用ソース
プログラム、５４はプリプロセッサ５２が出力する転送
用ソースプログラム、５５は従来の並列言語用コンパイ
ラ、５６は並列言語用コンパイラ５５が出力する演算用
オブジェクトプログラム、５７は並列言語用コンパイラ
５５が出力する転送用オブジェクトプログラムである。

【００４３】また、図１０はプリプロセッサ５２の機能
を説明する図である。図１０において、６１はＰＥ１間
のデータ転送に関わる部分を抽出する抽出部、６２は演
算用プログラムと転送用プログラムを分離・再構成する
分離・再構成部である。

【００４４】次に動作について説明する。図７の４個の
ＰＥ１がひとまとまりの処理を分担して並列処理する場
合、ＰＥ１間（その分散共有メモリ８間）でデータ転送
が必要になる。その場合に各ＰＥ１は出力するデータを
自分の出力用ＦＩＦＯレジスタ３３に出力する。そこか
ら先の相手先ＰＥ１（その分散共有メモリ８）への転送
は、転送用ＰＥ３１が担当し以下のように実行する。

【００４５】このアーキテクチャでは、あるまとまった
処理を行なっている間は、ＰＥ１間での処理の分担法や
処理手順を変更しないというスタティックスケジューリ
ングの考え方を前提としている。つまりプログラムを作
成する時点で、ＰＥ１への分割法と同期タイミングを一
意に規定する。そこで、データ転送が発生する大まかな
タイミングがわかるし、各ＰＥ１からデータが出力され
る順序は完全に規定される。また、それぞれのデータが
どこに転送されるかもあらかじめわかっている。

【００４６】そこでデータ転送を受け持つプログラムを
あらかじめ作成することができる。この転送用プログラ
ムは演算用プログラムと同じ時に作成され、同じ時に転
送用ＰＥ３１のプログラムメモリ３２にローディングさ
れる。転送用ＰＥ３１はこのプログラムに従いＦＩＦＯ
３３からデータを読みだし、それを指定のＰＥ１の分散
共有メミリ８に転送する。

【００４７】あるＦＩＦＯ３３からデータを読み出す順
序は、そのＦＩＦＯ３３のＰＥ１がデータを出力した順
である。また、複数のＦＩＦＯ３３のうち次にどのＦＩ
ＦＯ３３をアクセスするかは、上でのべたように、あら
かじめプログラム作成時に規定しておき、実行時に順序
を変更することはない。

【００４８】この様にしてデータ転送を実施する場合、
ＦＩＦＯ３３にデータが格納されていることが必要だが
、この同期制御を高速に行なうデータ転送タイミング制
御手段を図７，図８を参照して説明する。

【００４９】まず、ＰＥ１は演算用プログラムに従がい
演算を行い、その結果をＦＩＦＯ３３に格納する。一方
、転送用ＰＥ３１は自分のプログラムの進行状態にのみ
従い、ＦＩＦＯ３３へのアクセスを実行する。この際、
当然ＦＩＦＯ３３にデータが準備されていないこともあ
りえる。そこで、この状態をＦＩＦＯ３３から転送用Ｐ
Ｅ３１に通知する為に、割り込み信号を利用する。ＦＩＦＯ３３は図８のように構成されており、割込信号
生成回路４４は、書き込み用アドレスカウンタ４２と読
み出し用アドレスカウンタ４３を比較して、条件によっ
て割込信号を生成する比較回路を供えている。

【００５０】転送用ＰＥ３１がＦＩＦＯ３３をアクセス
してデータを読み出そうとすると、転送用ＰＥ３１から
のリードストローブ信号４５により、ＦＩＦＯ３３は読
みだし動作を検出し比較回路のチェックを行なう。そし
て読み出し用アドレスカウンタ４３の方が大きい場合、
ＦＩＦＯ３３はデータがまだ準備されていないと判断し
て割り込み信号４６を出力し、転送用ＰＥ３１に通知す
る。転送用ＰＥ３１はこの割り込み信号４６を受け付け
たら、今実行したデータ転送に失敗したと判断し、割り
込み処理プログラムにより読み出し動作を再実行する。割り込み信号４６が発生しなかった場合、データ転送が
正常に実行されたものと判断し、データ転送プログラム
に従い次のＦＩＦＯアクセスを行なう。

【００５１】以上のように、転送用ＰＥ３１が、ＦＩＦ
Ｏ３３にデータが準備されていることを仮定して転送動
作を開始し、失敗した場合だけ割り込み処理により再実
行を行なうことにより、オーバヘッドを減らすことがで
きる。以上説明したように、この方式によるデータ転送
は転送用ＰＥ３１が制御するため、データの発生にも、
ＰＥ１からのデータの要求にも無関係に行われるが、デ
ータ転送能力を十分に持たせれば、ほぼデータ発生のタ
イミングで転送を行なうことができる。その結果、デー
タ転送のタイミングの自由度が大きくなり、バスを有効
に活用することができる。

【００５２】また、プログラマが上で述べたようなデー
タ転送用プログラムを作成することはもちろん可能であ
るが、従来無かった作業になるので、ある程度負担が大
きい作業であると考えられる。そこで、転送用ソースプ
ログラム抽出分離用プリプロセッサ５２を利用する。こ
のプリプロセッサ５２は並列言語コンパイラと組合わせ
て用いる。その場合の処理の流れについて図９によって
説明する。

【００５３】まず、プログラマは従来の並列言語によっ
てプログラムを記述する。このプログラムをプリプロセ
ッサ５２に通すと、演算部とＰＥ１間データ転送部が自
動的に分離され、並列型演算用ソースプログラム５３と
転送用ソースプログラム５４が生成される。これらをそ
れぞれ従来の並列言語用コンパイラ５５に通すことによ
って、演算用オブジェクトプログラム５６と転送用オブ
ジェクトプログラム５７が生成される。

【００５４】次に、プリプロセッサ５２の機能を図１０
により説明する。プリプロセッサ５２はまず、抽出部６
１がメモリのリード、ライトを全てチェックして他のＰ
Ｅ１の分散共有メモリ８をアクセスしている部分を検出
する。次に分離・再構成部６２において、抽出部６１で
検出したＰＥ１間データ交換に関わる部分を分離して、
ＦＩＦＯ３３を用いたデータ転送機構用のプログラムに
再構成する。また、残った演算用プログラムも他のＰＥ
１の分散共有メモリ８へのアクセスを、自分の分散共有
メモリ８からの読みだし、または自分のＦＩＦＯ３３へ
の書き込みに変更して再構成する。同時に、転送用、演
算用のそれぞれに対して必要な同期制御命令を追加する
。

【００５５】実施例１０．また、上記実施例９ではクラ
スタ内のＰＥが４個の場合について説明したが、２個以
上の任意の個数でよい。

【００５６】実施例１１．また、上記実施例９ではクラ
スタ内の接続パスをバスとしたが、その他の形式のネッ
トワークでもよい。

【００５７】実施例１２．更に、上記実施例９ではロー
カルメモリの性質を強く保持した分散共有メモリ方式だ
が、完全なローカルメモリ方式でもよい。

【００５８】実施例１３．また、上記実施例９ではＦＩ
ＦＯを用いたが、別の方式のデータバッファリングを行
なっても良い。その一例として、分散共有メモリ自体に
出力データを置いても良く、その場合も、アドレスは予
め既知のものとして転送用プログラムを作成することが
できる。

【００５９】実施例１４．また、上記実施例９ではプリ
プロセッサを並列言語コンパイラと組合わせたが、自動
抽出、分離、再構成機能を並列言語コンパイラ、または
、自動並列化コンパイラに組み込んでも良い。

【００６０】

【発明の効果】以上のように、この発明によれば並列計
算機のクラスタ構成を、計算機の稼働中の適当なタイミ
ングに再構成できるように構成したので、各クラスタに
割り当てられたアプリケーションプログラムの負荷量の
変動に合わせて各クラスタ内のＰＥ数を変更することが
でき、計算機資源を有効に活用できるとともに、各アプ
リケーションプログラムの実行環境の独立性を保持する
ことができ、その結果、各アプリケーションプログラム
のリアルタイム実行の保証及び結果の再現性の保証が得
られるという効果がある。

【００６１】以上のように、この発明によれば各ＰＥ間
のデータ転送を転送用ＰＥが行なうように構成したので
、ＰＥの転送に関わるオーバヘッドを削減することがで
きるという効果がある。また、データの発生またはデー
タの要求から直接規定されないタイミングでデータ転送
を行なうことができ、ＰＥに余分なオーバヘッドを追加
することなく、その演算タイミングに影響を与えずにデ
ータ転送タイミングを変更することができ、その結果、
全体としての実質的データ転送能力を向上させることが
できるという効果がある。

【００６２】以上のように、この発明によれば準備でき
ていないデータをアクセスした場合に割り込み信号が発
生するように構成したので、データが準備できているこ
とを仮定して転送動作を開始することができ、転送が不
成功の場合だけデータの到着を待つことができ、その結
果、正常転送時の転送用ＰＥのオーバヘッドを削減し、
転送効率を上げることができるという効果がある。

【００６３】以上のように、この発明によれば、コンパ
イラがデータ転送プログラムを演算用プログラムから自
動的に抽出できるように構成したので、プログラマは特
殊なアーキテクチャを意識せずにプログラムを記述する
ことができ、その結果、プログラムの作成が容易になる
という効果がある。

【図面の簡単な説明】

【図１】この発明の実施例１による並列計算機のシステ
ム構成図である。

【図２】この発明の実施例１におけるクラスタ構成の一
例図である。

【図３】この発明の実施例１におけるクラスタ構成の別
の一例図である。

【図４】この発明の実施例２におけるバスを三重に張っ
た場合の実施例図である。

【図５】この発明の実施例４におけるクラスタ構成の別
の一例図である。

【図６】この発明の実施例５におけるクラスタ構成の別
の一例図である。

【図７】この発明の実施例９による並列計算機のシステ
ム構成図である。

【図８】この発明の実施例９における割込信号発生機能
付きＦＩＦＯレジスタの構成図である。

【図９】この発明の実施例９におけるコンパイラの機能
系統図である。

【図１０】この発明の実施例９におけるプリプロセッサ
の機能説明図である。

【図１１】従来の並列計算機のシステム構成図である。

【図１２】従来の並列計算機のクラスタ内の構成図であ
る。

【符号の説明】

１　　プロセッサ（ＰＥ）２　　クラスタバス（データ転送手段）６　　セレクタ
（セレクタ手段）７　　システムバス８　　メモリ９　　プロセッサ手段１０　　バス結合器２１　　第一のクラスタバス２１ａ　　第一のクラスタバスのサブクラスタバス２１
ｂ　　第一のクラスタバスのサブクラスタバス２１ｃ　
　第一のクラスタバスのサブクラスタバス２１ｄ　　第
一のクラスタバスのサブクラスタバス２２　　第二のク
ラスタバス２２ａ　　第二のクラスタバスのサブクラスタバス２２
ｂ　　第二のクラスタバスのサブクラスタバス２２ｃ　
　第二のクラスタバスのサブクラスタバス３１　　転送
用ＰＥ３３　　ＦＩＦＯ４４　　割込信号生成回路５２　　プリプロセッサ６１　　抽出部６２　　分離・再構成部

Claims

【特許請求の範囲】

【請求項１】　　以下の要素を有する並列計算機（ａ）
　　情報を処理する複数のプロセッサ手段、（ｂ）　　
上記の各プロセッサ手段に接続可能な複数のデータ転送
手段、（ｃ）　　上記の各プロセッサ手段に対応して設
けられ、各プロセッサ手段に接続可能な複数のデータ転
送手段の中からひとつのデータ転送手段を選択してプロ
セッサ手段に接続するセレクタ手段。
【請求項２】　　以下の要素を有する並列計算機（ａ）
　　クラスタ内にある複数のプロセッサ、（ｂ）　　上
記各プロセッサに接続されたローカルメモリ、（ｃ）　
　上記プロセッサ間のデータ転送を行うデータ転送路、
（ｄ）　　上記各プロセッサ間のデータ転送制御を行う
データ転送制御用プロセッサ。
【請求項３】　　以下の要素を有する請求項第２項記載
の並列計算機（ａ）　　上記あるプロセッサから上記他のプロセッサ
に転送するデータを格納するバッファメモリ、（ｂ）　
　任意のタイミングで上記バッファメモリをアクセスし
、転送するデータが上記バッファメモリに格納されてい
ない場合、割り込み処理により上記バッファメモリを再
アクセスする上記データ転送制御用プロセッサ。
【請求項４】　　以下の要素を有するコンパイラ（ａ）
　　複数のプロセッサを保有する並列計算機に使用する
プログラムから、演算部分とデータ転送部分を分離する
手段、（ｂ）　　上記演算部分と上記データ転送制御部
分に同期・通信制御機能を追加し、独立した演算用プロ
グラムとデータ転送用プログラムを作成する手段。