JPH07253954A

JPH07253954A - 並列コンピュータ

Info

Publication number: JPH07253954A
Application number: JP6042322A
Authority: JP
Inventors: Tatsuyuki Ootsuka; 竜志大塚; Hideki Yoshizawa; 英樹吉沢; Katsuto Fujimoto; 克仁藤本
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1994-03-14
Filing date: 1994-03-14
Publication date: 1995-10-03
Anticipated expiration: 2017-06-10
Also published as: JP3290798B2; US5715471A

Abstract

(57)【要約】【目的】ネットワーク構成を変更しても実行時のプロ
セッサへの処理プログラムの再割り付け、データの再配
置を不要とし、高速に処理を行うこと。【構成】各ノード１〜ｎに少なくとも２個以上のプロ
セッサＰＥ1,ＰＥ2 を設ける。また、データの転送方向
とは対応づけず、ノード１〜ｎの順番にプロセッサＰＥ
1,ＰＥ2 に処理プログラムを割り付け、各プロセッサＰ
Ｅ1,ＰＥ2 に対応付けてデータを配置する。そして、各
プロセッサＰＥ1,ＰＥ2 にデータが転送された際、各プ
ロセッサは各プロセッサに配置されたデータと転送デー
タの演算を行い、行列の積を求める等の処理を行う。ノ
ードの順番にプロセッサを割り付けているので、ネット
ワーク構成の変更を容易に行うことができる。またネッ
トワーク構成を変更しても、実行時のデータの再配置が
不要となり、高速に処理することが可能となる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、各ノードの持つデータ
を転送して処理を行う、各ノードを往路と復路が通過す
るリング型ネットワークにおいて、効率的に処理を実現
するための並列コンピュータに関する。

【０００２】

【従来の技術】図１１は本発明の前提となる並列コンピ
ュータを備えたシステムの構成を示す図であり、同図に
おいて、ＣＰＵ１はリング型ネットワークを備えた並列
コンピュータ、ＣＰＵ２はホストコンピュータ、１はホ
ストコンピュータのプロセッサ、２はホストコンピュー
タＣＰＵ２の主記憶装置、３はインタフェースである。

【０００３】並列コンピュータＣＰＵ１のプロセッサ・
エレメントＰＥ1,ＰＥ2 はプロセッサとメモリから構成
され、並列演算の１つの計算処理単位となる。また、ノ
ードNode1 ，…，Nodex は２個のプロセッサ・エレメン
トＰＥ1,ＰＥ2 から構成され、これがリング型ネットワ
ークのデータ転送単位となる。並列コンピュータＣＰＵ
１は上記ノードNode-1，…，Node-xをリング型ネットワ
ークで結合し、各プロセッサ・エレメントＰＥ1,ＰＥ2
で演算処理を施しながらリングRING上をデータを循環さ
せることで最終的な結果を得る。

【０００４】また、ホストコンピュータＣＰＵ２は並列
コンピュータＣＰＵ１の各プロセッサ・エレメントＰＥ
1,ＰＥ2 に直結したホストバス４を持ち、並列コンピュ
ータＣＰＵ１に対してデータの設定、データの読み出
し、演算処理の制御を行う。そして、計算すべき課題は
ホストコンピュータＣＰＵ２が受け付け、プログラムや
データを並列コンピュータＣＰＵ１内の各プロセッサ・
エレメントＰＥ1,ＰＥ2 のメモリmem にローディングし
た後、並列コンピュータＣＰＵ１で実行する。

【０００５】実行した結果は、演算終了後、各プロセッ
サ・エレメント内のメモリmem からホストコンピュータ
ＣＰＵ２側のメモリ２に読み出した後、出力される。図
１２は本発明の前提となる上記した並列コンピュータＣ
ＰＵ１における、往路と復路が通過するリング型ネット
ワークの構成を示す図である。同図において、Node-1，
…，Node-nはリング型ネットワークの各ノードであり、
各ノードNode-1，…，Node-nには２個のプロセッサ・エ
レメントが用意され、各ノードのプロセッサ・エレメン
トは同図に示すようにリング状に接続されている。ま
た、各プロセッサ・エレメントにはネットワークの物理
的な順序に従いＰＥ1 からＰＥ2nの番号が付けられてお
り、データもこの順に各プロセッサ・エレメントに分散
して配置される。

【０００６】図１３，図１４は（１）式に示す行列演算
を行う場合に、各プロセッサ・エレメントへのデータ配
置を行うための処理を示すフローチャートである。な
お、同図はフローチャートを簡略化するため、ｎ，ｍは
何方も偶数の場合を示している。ｎ，ｍが奇数の場合に
は、空きプロセッサ・エレメントを割り出す例外処理が
追加されるだけて本質的には上記フローチャートと変わ
らない。

【０００７】

【数１】

【０００８】図１３，図１４のフローチャートにより、
従来における各プロセッサ・エレメントへのデータ配置
について説明する。なお、以下の説明においては、分か
りやすくするため、ｍ＝６，ｎ＝４の行列を例にとり説
明するが、ｍ，ｎは６，４に限定されるものではない。
図１３のステップＳ１において、ｉ＝１、および、ｍｎ
＝ｍａｘ（ｍ，ｎ）、すなわち、ｍｎをｍ，ｎ内の大き
い方の値、この場合には６に設定する。ステップＳ２に
おいて、ｉ＜＝ｍｎ／２か否か判別し、ｉ＜＝ｍｎ／２
の場合には、ステップＳ３において、ｎ１＝ｉ，ｐ１＝
１に設定し、また、ｉ＞ｍｎ／２の場合、すなわち、ｉ
が３より大きくなった場合には、ステップＳ４におい
て、ｎ１＝ｍｎ−ｉ＋１，ｐ１＝２に設定する。

【０００９】ついで、ステップＳ５において、ｉ＜＝ｎ
であるか否かを判別し、ｉ＞ｎの場合には、図１４のス
テップＳ１２に行き後述する処理を行う。また、ｉ＜＝
ｎの場合には、ステップＳ６に行き、ｊ＝１に設定し、
ステップＳ７に行き、ｉ＋ｊ−１＜＝ｍか否かを判断す
る。そして、ｉ＋ｊ−１＜＝ｍの場合には、ステップＳ
８に行き、NODE(n1),PE(p1),mem(j)=a(i,i+j-1) とす
る。すなわち、まず、ノードNode-1のプロセッサ・エレ
メントＰＥ1 のメモリmem の第１番目の領域にａ1,1 の
データを配置する。以上の処理が終わると、図１４のス
テップＳ１０に行き、ｊ＝ｊ＋１として、ステップＳ１
１において、ｊ＜＝ｍか否かを判断し、ｊ＜＝ｍの場合
には、ステップＳ７に戻り上記処理を行う。

【００１０】これにより、ノードNode-1のプロセッサ・
エレメントＰＥ1 のメモリmem の第２番目の領域にａ1,
2 が配置される。同様に以上の処理を繰り返し、ｊ＝６
になるとノードNode-1のプロセッサ・エレメントＰＥ1
のメモリmem の第６番目の領域にａ1,6 が配置される。
以上の処理により、ノードNode-1のプロセッサ・エレメ
ントＰＥ1 のメモリmem の１〜６番目の領域にａ1,1 、
ａ1,2 、ａ1,3 、ａ1,4 、ａ1,5 、ａ1,6 のデータが配
置される。

【００１１】そして、ステップＳ１０でｊ＝ｊ＋１とす
ると、ｊは６を越えるので、ステップＳ１１からステッ
プＳ１２に行き、ｉ＜＝ｍか否かを判別する。この場合
には、ｉ＜＝ｍであるので、ステップＳ１３に行き、NO
DE(n1),PE(p1),mem(x)=x(i)とする。すなわち、ノードN
ode-1のプロセッサ・エレメントＰＥ1 のメモリmemのｘ
の領域にｘ1 のデータを配置する。

【００１２】ついで、ステップＳ１４において、ｉ＝ｉ
＋１とし、ステップＳ１５において、ｉ＜＝ｍｎである
か否かを判別し、ｉ＜＝ｍｎの場合には、ステップＳ２
に戻り、上記処理を繰り返し、ノードNode-2のプロセッ
サ・エレメントＰＥ1 のメモリmem の各領域に、上記の
ようにデータを配置する。ここで、ｉ＝２でｊ＝６にな
ったとき、ステップＳ７でｉ＋ｊ−１＞ｍとなるので、
ステップＳ９に行き、NODE(n1),PE(p1),mem(j)=a(i,i+j
-m-1) とする。すなわち、ノードNode-2のプロセッサ・
エレメントＰＥ1 のメモリmem の第６番目の領域にはａ
2,1 のデータが配置される。

【００１３】以上の処理により、ノードNode-2のプロセ
ッサ・エレメントＰＥ1 のメモリmem の１〜６番目の領
域にａ2,2 、ａ2,3 、ａ2,4 、ａ2,5 、ａ2,6 、ａ2,1
が配置され、メモリmem のｘの領域にｘ2 のデータが配
置される。同様な処理を行うことにより、ノードNode-3
のプロセッサ・エレメントＰＥ1のメモリmem の１〜６
番目の領域にａ3,3 、ａ3,4 、ａ3,5 、ａ3,6 、ａ3,1
、ａ3,2 が配置され、メモリmem のｘの領域にｘ3 の
データが配置される。

【００１４】そして、ステップＳ２において、ｉ＞ｍｎ
／２、すなわち、ｉ＝４となると、ステップＳ４に行
き、ｎ１＝ｍｎ−ｉ＋１、すなわち、ｎ１＝３、ｐ１＝
２に設定し、ステップＳ５からＳ１１において、ｊ＝１
からｊ＝６まで上記処理を繰り返す。これにより、ノー
ドNode-3のプロセッサ・エレメントＰＥ2 のメモリmem
の１〜６番目の領域にａ4,4 、ａ4,5 、ａ4,6 、ａ4,1
、ａ4,2 、ａ4,3 が配置され、メモリmem のｘの領域
にｘ4 のデータが配置される。

【００１５】以上の処理を行ったのち、ステップＳ１４
でｉを１増加し（ｉは５となる）、ｎ１＝ｍｎ−ｉ＋１
＝２、Ｐ１＝２に設定した後、ステップＳ５に行くと、
ｉ＞ｎ（この場合はｎは４）となるので、ノードNode-2
のプロセッサ・エレメントＰＥ2 のメモリmem の１〜６
番目の領域にはデータを配置せず、ステップＳ１２に行
き、ノードNode-2のプロセッサ・エレメントＰＥ2 のメ
モリmem のｘの領域にｘ5 のデータを配置する。

【００１６】同様に、ｉ＝６になると、ノードNode-1の
プロセッサ・エレメントＰＥ2 のメモリmem のｘの領域
にｘ6 のデータを配置し、ｉ＜ｍｎとなるので、ステッ
プＳ１５からｅｎｄに行き終了する。以上の処理を行う
ことにより、ノードNode-1〜 Node-3 のプロセッサ・エ
レメントＰＥ1 と、ノードNode-3のプロセッサ・エレメ
ントＰＥ2 のメモリmem の第１〜第６の領域に、それぞ
れ、ａ1,1 〜ａ1,6 、ａ2,2 〜ａ2,1 、ａ3,3 〜ａ3,2
、ａ4,4 〜ａ4,3 のデータが配置され、ノードNode-1
〜 Node-3 のプロセッサ・エレメントＰＥ1 と、ノード
Node-3〜 Node-1 のプロセッサ・エレメントＰＥ2 のメ
モリmem のｘの領域に、それぞれ、ｘ1 〜ｘ6 のデータ
が配置される。

【００１７】次に、上記リング型ネットワークによる並
列計算の一例として、２ｎ行、２ｎ列の要素を持つ行列
Ｗと２ｎ個の要素を持つベクトルｘの積和計算Ｗｘにつ
いて示す。まず、各プロセッサ・エレメントには、図１
５に示すように、Ｗの各行の要素Ｗ_ij（ｉ＝１，…，２
ｎ，ｊ＝１，…，２ｎ）を持たせ、リング上にｘの各要
素ｘ_j（ｊ＝１，…，２ｎ）を配置し、次の手順で演算
を行う。各プロセッサ・エレメントは図１６に示すようにリ
ング上のデータを取り込み、内部に持つＷ_ijと積算し、
内部のワークエリアに書き込む。リング上のデータを全体に一段シフトする。その結
果、リング上のデータ配置は図１７に示すようになる。再度、プロセッサ・エレメントはリング上のデータ
を取り込み、図１８に示すように内部にもつＷ_ijの次の
要素と積算し、内部のワークエリアに書き込まれた前回
の結果に加算する。以下、全データに渡って上記処理を繰り返す。

【００１８】

【発明が解決しようとする課題】図１２においては、ｎ
個のノードを通るリング型ネットワークを構成し、２ｎ
個のプロセッサ・エレメントにより処理を行っている
が、往路と復路が通過する図１２に示すようなリング型
ネットワークの特徴として、リングを通過するノード数
を変更することが可能であり、これにより、例えば、大
きさの異なった行列を次々に計算することができる。

【００１９】図１２に示したリング型ネットワークのノ
ード数を変更し、ｍ個のノードを通るリングを構成した
場合、プロセッサ・エレメントの割り付けは図１９に示
すようになる。同図に示すように、この場合にはプロセ
ッサ・エレメントの番号はＰＥ1 からＰＥ2mとなり、Ｐ
Ｅn+1 からＰＥ2mまでのプロセッサ番号はネットワーク
を変更する前と後ろで異なったものとなる。

【００２０】したがって、図１５に示したプロセッサ・
エレメントに処理プログラムを割り付け、データ配置処
理をした後、ネットワークの構成を図１９に示すように
変更する場合には、その時点でプロセッサ番号の移動に
伴うデータの再配置が必要となる。以上のように、従来
の技術においては、演算規模が変わってネットワーク構
成が変更されるとき、ネットワーク上を通るデータがプ
ロセッサ・エレメントに投入される順序が変わるため、
データの再配置をしなければならない。これは、全ての
データを把握しているホストコンピュータＣＰＵ２でし
か行えないため、並列コンピュータＣＰＵ１側の演算を
中断し、一つもしくは少数のホストコンピュータ内のプ
ロセッサでプロセッサ・エレメントのメモリを更新しな
れければならず、並列コンピュータの高速性能が犠牲に
なる。

【００２１】上記のような問題を避けるため、一連の演
算の中で、最も規模の大きい場合のプロセッサ・エレメ
ント数を通るようにネットワーク構成を固定してしまう
方法もあるが、演算規模が小さいときも全てのプロセッ
サ・エレメント上をデータが通過しなければならず、転
送時間の無駄が生ずる。したがって、往路と復路が各ノ
ードを通過する本発明の前提となるリング型ネットワー
クにおいて、その特徴を生かすために演算途中でプロセ
ッサ構成が変わってもデータの再配置が不要となるプロ
セッサへの処理プログラムの割り付けが望ましい。

【００２２】なお、各ノードに一つのプロセッサ・エレ
メントしかもたず、復路がプロセッサ・エレメントを通
過しないリング型ネットワークのように、ネットワーク
構成が可変にできない通常の１通りリングの場合には、
上記問題点は生じない。本発明は上記した従来技術の問
題点を考慮してなされたものであって、ネットワーク構
成を変更しても実行時のデータの再配置を不要とするこ
とにより、高速に処理を行うことができる並列コンピュ
ータを提供することを目的とする。

【００２３】

【課題を解決するための手段】図１は本発明の原理図で
ある。同図において、ノードNode-1, …,Node-n は往路
と復路が通過するリング型ネットワークにおけるノー
ド、ＰＥ1,ＰＥ2 は各ノードに設けられたプロセッサ・
エレメントであり、各ノードNode-1, …,Node-nには、
プロセッサ・エレメントＰＥ1,ＰＥ2 が少なくとも２個
以上設けられている。

【００２４】上記課題を解決するため、本発明の請求項
１の発明は、各ノードNode-1, …,Node-n に少なくとも
２個のプロセッサ・エレメントＰＥ１，ＰＥ２を備え、
各ノードを往路と復路が通過するリング型ネットワーク
で構成され、各ノードNode-1, …,Node-n のプロセッサ
・エレメントＰＥ１，ＰＥ２が持つデータを各プロセッ
サ・エレメントＰＥ１，ＰＥ２間で転送して、各プロセ
ッサ・エレメントＰＥ１，ＰＥ２により処理を行う並列
コンピュータにおいて、ノードNode-1, …,Node-n の順
番に、当該ノードに備えられたプロセッサ・エレメント
ＰＥ１，ＰＥ２から順次ネットワーク上を転送されるデ
ータを処理する処理プログラムを割り付けたものであ
る。

【００２５】本発明の請求項２の発明は、各ノードNode
-1, …,Node-n に少なくとも２個のプロセッサ・エレメ
ントＰＥ１，ＰＥ２を備え、各ノードを往路と復路が通
過するリング型ネットワークで構成され、各ノードNode
-1, …,Node-n のプロセッサ・エレメントＰＥ１，ＰＥ
２が持つデータを各プロセッサ・エレメントＰＥ１，Ｐ
Ｅ２間で転送して、各プロセッサ・エレメントＰＥ１，
ＰＥ２により処理を行う並列コンピュータにおいて、ノ
ードNode-1, …,Node-n の順番に、当該ノードに備えら
れたプロセッサ・エレメントＰＥ１，ＰＥ２から順次、
ネットワーク上を転送されるデータを処理する処理プロ
グラムを割り付け、ノードNode-1, …,Node-n の順番
に、当該ノードに備えられた各プロセッサ・エレメント
ＰＥ１，ＰＥ２から順次データを配置したものである。

【００２６】

【作用】図１に示すリング型ネットワークにおいて、各
ノードに少なくとも２個以上のプロセッサ・エレメント
ＰＥ1,ＰＥ2 を設ける。また、データ転送方向が同図矢
印に示す方向の場合、ノードNode-1, …,Node-n の順番
に、当該ノードに備えられたプロセッサ・エレメントＰ
Ｅ１，ＰＥ２から順次ネットワーク上を転送されるデー
タを処理する処理プログラムを割り付ける。

【００２７】そして、同図に示す転送方向で各プロセッ
サ・エレメントＰＥ1,ＰＥ2 にデータが転送された際、
各プロセッサ・エレメントＰＥ1,ＰＥ2 は各プロセッサ
・エレメントに配置されたデータと転送データの演算を
行い、例えば、行列の積を求める等の所定の処理を行
う。なお、上記のようにノードNode-1, …,Node-n の順
番に、当該ノードに備えられたプロセッサ・エレメント
ＰＥ１，ＰＥ２から順次ネットワーク上を転送されるデ
ータを処理する処理プログラムを割り付けることによ
り、リング上から見たプロセッサ番号が不連続となり、
転送されるデータが順番に並ばなくなるが、プロセッサ
・エレメントＰＥ1,ＰＥ2 が内部に持つデータおよび計
算順序を予め再配置しておけば、この問題は解決でき
る。これは、従来のような実行時のデータ再配置ではな
いので、処理時間に及ぼす影響は無視できる。

【００２８】本発明の請求項１の発明においては、上記
のように、ノードNode-1, …,Node-n の順番に、当該ノ
ードに備えられたプロセッサ・エレメントＰＥ１，ＰＥ
２から順次ネットワーク上を転送されるデータを処理す
る処理プログラムを割り付けているので、リング型ネッ
トワークにおいて、ネットワーク構成によらずに、プロ
セッサの割り付けを一意に決定することができる。

【００２９】本発明の請求項２の発明においては、ノー
ドNode-1〜Node-nの順番にプロセッサ・エレメントＰＥ
1,ＰＥ2 ，…を割り付け、ノードNode-1, …,Node-n の
順番に、当該ノードに備えられたプロセッサ・エレメン
トＰＥ１，ＰＥ２から順次ネットワーク上を転送される
データを処理する処理プログラムを割り付け、ノードNo
de-1, …,Node-n の順番に、当該ノードに備えられた各
プロセッサ・エレメントＰＥ１，ＰＥ２から順次データ
を配置しているので、ネットワーク構成を変更しても、
実行時のデータの再配置が不要となり、高速に処理する
ことが可能となる。

【００３０】

【実施例】図２は本発明の第１の実施例の処理プログラ
ムの割り付けを示す図であり、同図において、Node-1か
らNode-nのノードには、２個のプロセッサ・エレメント
が割り付けられており、ノードNode-1にはプロセッサ・
エレメントＰＥ1 〜ＰＥ2が、また、ノードNode-2には
プロセッサ・エレメントＰＥ3 〜ＰＥ4 というように、
ノードの順番にＰＥ1 からＰＥ2nのプロセッサに処理プ
ログラムが割り付けられている。

【００３１】図３、図４、図５は本実施例において、式
（１）に示す行列演算を行うため、各ノードのプロセッ
サ・エレメントにデータ配置を行う処理を示すフローチ
ャートであり、同図はフローチャートを簡略化するた
め、従来例の場合と同様、ｎ，ｍは何方も偶数の場合を
示している。図３，図５のフローチャートにより、本実
施例における各プロセッサ・エレメントへのデータ配置
について説明する。なお、この場合においても、分かり
やすくするため、ｍ＝６、ｎ＝４の場合について説明す
る。

【００３２】図３のステップＳ１において、ｉ１＝１，
ｉ２＝ｍａｘ（ｍ，ｎ）、ｊ＝１に設定し、ステップＳ
２において、ｔａｂｌｅ（ｉ１）＝ｊ、ｔａｂｌｅ（ｉ
２）＝ｊ＋１に設定する。ついで、ステップＳ３におい
て、ｉ１＝ｉ１＋１，ｉ２＝ｉ２−１、ｊ＝ｊ＋２とし
て、ステップＳ４において、ｉ１＜ｉ２であるか否か判
断し、ｉ１＜ｉ２の場合には、ステップＳ２に戻り、上
記処理を繰り返す。

【００３３】その結果、ｍ＝６、ｎ＝４の場合、ｔａｂ
ｌｅは次のように設定される。ｔａｂｌｅ（１）＝１，ｔａｂｌｅ（２）＝３，ｔａｂ
ｌｅ（３）＝５ｔａｂｌｅ（４）＝６，ｔａｂｌｅ（５）＝４，ｔａｂ
ｌｅ（６）＝２次に、ステップＳ５に行き、ｉ１＝１，ｍｎ＝ｍａｘ
（ｍ，ｎ）に設定し、ステップＳ６において、ｉ＜＝ｍ
ｎ／２であるか否か判別する。そして、ｉ＜＝ｍｎ／２
の場合には、ステップＳ７に行き、ｉ１＝ｔａｂｌｅ
（ｉ）、ｎ１＝ｉ、ｐ１＝１に設定する。また、後述す
るように、ｉが増加してｉ＞ｍｎ／２、すなわち、ｉが
４以上となると、ｉ１＝ｔａｂｌｅ（ｉ）、ｎ１＝ｍｎ
−ｉ＋１、ｐ１＝２に設定する。したがって、最初は、
ｉ１＝１、ｎ１＝１、ｐ１＝１に設定される。

【００３４】ついで、図４のステップＳ９に行き、ｉ１
＜＝ｎか否かを判別し、ｉ１＞ｎになると後述するよう
に図５のステップＳ１６に行く。ｉ１＜＝ｎの場合に
は、ステップＳ１０に行き、ｊ＝１とし、ステップＳ１
１において、ｉ＋ｊ−１＜＝ｍか否かを判断する。そし
て、ｉ＋ｊ−１＜＝ｍの場合には、ステップＳ１２に行
き、NODE(n1),PE(p1),mem(j)=a(i1,table(i+j-1)) とす
る。すなわち、ｔａｂｌｅ（ｉ＋ｊ−１）＝ｔａｂｌｅ
（１）＝１であるので、まず、ノードNode-1のプロセッ
サ・エレメントＰＥ1 のメモリmem の第１番目の領域に
ａ1,1 のデータを配置する。

【００３５】ついで、ステップＳ１４に行き、ｊ＝ｊ＋
１とし、ステップＳ１５において、ｊ＜＝ｍであるか否
かを判別し、ｊ＜＝ｍの場合には、ステップＳ１１に戻
り上記処理をｊ＝６まで繰り返す。これにより、ノード
Node-1のプロセッサ・エレメントＰＥ1 のメモリmem の
第１〜６番目の領域にそれぞれ、ａ1,1 、ａ1,3 、ａ1,
5 、ａ1,6 、ａ1,4 、ａ1,2 のデータが配置される。

【００３６】そして、ステップＳ１４でｊ＝ｊ＋１とす
ると、ｊは６を越えるので、ステップＳ１５から図５の
ステップＳ１６に行き、ｉ＜＝ｍか否かを判別する。こ
の場合には、ｉ＜＝ｍであるので、ステップＳ１７に行
き、NODE(n1),PE(p1),mem(x)=x(i) とする。すなわち、
ノードNode-1のプロセッサ・エレメントＰＥ1 のメモリ
mem のｘの領域にｘ1 のデータを配置する。

【００３７】以上の処理により、ノードNode-1のプロセ
ッサ・エレメントＰＥ1 のメモリmem の１〜６番目の領
域に上記のようなａ1,1 〜ａ1,2 のデータが配置され、
メモリmem のｘの領域にｘ1 のデータが配置される。つ
いで、ステップＳ１８において、ｉ＝ｉ＋１とし、ステ
ップＳ１９において、ｉ＜＝ｍｎであるか否かを判別
し、ｉ＜＝ｍｎの場合には、ステップＳ６に戻る。

【００３８】今度は、ｉ＝２となっているので、ｉ１＝
３、ｎ１＝２、ｐ１＝１に設定され、ノードNode-2のプ
ロセッサ・エレメントＰＥ1 のメモリmem の領域にデー
タが配置される。つまり、ｉ＋ｊ−１＜＝ｍの場合に
は、ステップＳ１１からステップＳ１２に行き、NODE(n
1),PE(p1),mem(j)=a(i1,table(i+j-1)) とする。すなわ
ち、ｔａｂｌｅ（ｉ＋ｊ−１）＝ｔａｂｌｅ（２）＝３
であるので、ノードNode-2のプロセッサ・エレメントＰ
Ｅ1 のメモリmem の第１番目の領域にａ3,3 のデータを
配置する。

【００３９】ついで、ステップＳ１４に行き、ｊ＝ｊ＋
１とし、ステップＳ１５において、ｊ＜＝ｍであるか否
かを判別し、ｊ＜＝ｍの場合には、ステップＳ１１に戻
り上記処理をｊ＝５まで繰り返す。これにより、ノード
Node-2のプロセッサ・エレメントＰＥ1 のメモリmem の
第２〜５番目の領域には、ａ3,5 、ａ3,6 、ａ3,4 、ａ
3,2 のデータが配置される。

【００４０】ｊ＝６になると、ｉ＋ｊ−１＞ｍになるの
で、ステップＳ１３に行き、NODE(n1),PE(p1),mem(j)=a
(i1,table(i+j-1-m)) とする。すなわち、ｔａｂｌｅ
（ｉ＋ｊ−１−ｍ）＝ｔａｂｌｅ（１）＝１であるの
で、ノードNode-2のプロセッサ・エレメントＰＥ1 のメ
モリmem の第６番目の領域にａ3,1 のデータを配置す
る。そして、ステップＳ１４でｊ＝ｊ＋１とすると、ｊ
は６を越えるので、ステップＳ１５から図５のステップ
Ｓ１６に行き、ｉ＜＝ｍか否かを判別する。この場合に
は、ｉ＜＝ｍであるので、ステップＳ１７に行き、NODE
(n1),PE(p1),mem(x)=x(i) とする。すなわち、ノードNo
de-2のプロセッサ・エレメントＰＥ1 のメモリmem のｘ
の領域にｘ3 のデータを配置する。

【００４１】以上の処理により、ノードNode-2のプロセ
ッサ・エレメントＰＥ1 のメモリmem の１〜６番目の領
域に上記のようなａ3,3 〜ａ3,1 のデータが配置され、
メモリmem のｘの領域にｘ3 のデータが配置される。以
上の処理を行ったのち、ステップＳ１８でｉを１増加し
（ｉは３となる）、ステップＳ１９でｉ＜ｍｎが否か判
別し、ステップＳ６に戻る。

【００４２】そして、ステップＳ７において、ｉ１＝ｔ
ａｂｌｅ（３）＝５、ｎ１＝３、ｐ１＝１に設定し、ス
テップＳ９に行く。今度は、ｉ１＝５であり、ｉ１はｎ
（この場合は４）を越えるので、ステップＳ１６におい
て、ｉ１＜ｍであるか否かを判別し、ｉ１＜ｍの場合に
は、ステップＳ１７に行き、NODE(n1),PE(p1),mem(x)=x
(i) とする。すなわち、ノードNode-3のプロセッサ・エ
レメントＰＥ1 のメモリmem の１〜６番目の領域にはデ
ータを配置せず、ノードNode-3のプロセッサ・エレメン
トＰＥ1 のメモリmem のｘの領域にｘ5 のデータを配置
する。

【００４３】そして、ステップＳ１８において、ｉを１
増加し（ｉは４となる）、ステップＳ１９でｉ＜ｍｎが
否か判別し、ステップＳ６に戻る。ステップＳ６におい
て、ｉ＜＝ｍｎ／２を判別すると、ｉは４でｍｎ／２＝
３を越えるので、ステップＳ８に行き、ｉ１＝ｔａｂｌ
ｅ（４）＝６、ｎ１＝ｍｎ−ｉ＋１＝３、ｐ２＝２に設
定する。ついで、ステップＳ９に行き、ｉ１＜＝ｎであ
るか否かを判別すると、ｉ１はｎを越える（この場合ｎ
は４）、ステップＳ１６に行き、前記と同様、ノードNo
de-3のプロセッサ・エレメントＰＥ2 のメモリmem の１
〜６番目の領域にはデータを配置せず、ノードNode-3の
プロセッサ・エレメントＰＥ2 のメモリmem のｘの領域
にｘ6 のデータを配置する。

【００４４】ついで、ステップＳ１８において、ｉ＝ｉ
＋１とし、ステップＳ１９において、ｉ＜＝ｍｎである
か否かを判別し、ｉ＜＝ｍｎの場合には、ステップＳ６
に戻る。今度は、ｉ＝５となっているので、ステップＳ
８において、ｉ１＝４、ｎ１＝２、ｐ１＝２に設定さ
れ、ノードNode-2のプロセッサ・エレメントＰＥ2 のメ
モリmem の領域にデータが配置される。

【００４５】そして前記と同様、ノードNode-2のプロセ
ッサ・エレメントＰＥ2 のメモリmem の第１〜６番目の
領域には、ａ4,4 、ａ4,2 、ａ4,1 、ａ4,3 、ａ4,5 、
ａ4,6 が配置され、メモリmem のｘの領域にｘ4 のデー
タが配置される。そして、ｉ＝６となると、ノードNode
-1のプロセッサ・エレメントＰＥ2 のメモリmem の第１
〜６番目の領域には、ａ2,2 、ａ2,1 、ａ2,3 、ａ2,5
、ａ2,6、ａ2,4 が配置され、メモリmem のｘの領域に
ｘ2 のデータか配置される。

【００４６】そして、ステップＳ１８でｉを１増加する
と、ｉ＞ｍとなるので、ステップＳ１９からｅｎｄに行
き終了する。以上の処理を行うことにより、ノードNode
-1のプロセッサ・エレメントＰＥ1, ＰＥ2 とノードNod
e-2のプロセッサ・エレメントＰＥ1 とＰＥ2 のメモリm
emの第１〜第６の領域に、それぞれ、上記したようにａ
1,1 〜ａ1,2 、ａ2,2 〜ａ2,4 、ａ3,3 〜ａ3,1 、ａ4,
4 〜ａ4,6 のデータが配置され、ノードNode-1〜 Node-
3 のプロセッサ・エレメントＰＥ1 と、ノードNode-3〜
Node-1 のプロセッサ・エレメントＰＥ2 のメモリmem
のｘの領域に、それぞれ、ｘ1 〜ｘ6 のデータが配置さ
れる。

【００４７】図６は図２に示したプロセッサへ処理プロ
グラムの割り付けを行ったリング型ネットワークにおい
て、上記した処理により、前記した２ｎ行、２ｎ列の要
素を持つ行列Ｗと２ｎ個の要素を持つベクトルｘのデー
タ配置を示す図である。同図に示すように、本実施例に
おいては、各プロセッサ・エレメントＰＥ1 からＰＥ2n
に、行列Ｗ_ijの各行の要素Ｗ_ij（ｉ＝１，…，２ｎ，ｊ
＝１，…，２ｎ）を各プロセッサ・エレメントＰＥ1 〜
ＰＥ2nの番号に対応させて配置し、また、リング上のｘ
の各要素ｘ_j（ｊ＝１，…，２ｎ）を同様に各プロセッ
サ・エレメントＰＥ1 〜ＰＥ2nの番号に対応させて配置
する。

【００４８】そして、２ｎ行、２ｎ列の要素を持つ行列
Ｗと２ｎ個の要素を持つベクトルｘの積和計算Ｗｘを求
める場合には、図１５から図１８に示した場合と同様、
リング上のデータを取り込み、内部に持つＷ_ijと積算し
て内部のワークエリアに書込み、リンク上のデータを全
体にシフトしながらそれらの和を求める。以上の処理を
行うことにより、図１５から図１８に示した従来例とは
演算の順序は若干異なるが、同一の結果を得ることがで
きる。

【００４９】図７は上記実施例において、ネットワーク
の構成を変更しノード数をｎからｍにした場合を示して
いる。ノード数を変更した場合、ノードNode-1からNode
-nについての処理プログラムの割り付けは図２の場合と
同一であり、ノードNode-n+1からNode-mについて、新た
にノードの順番にプロセッサ・エレメントが割り付けら
れる。

【００５０】したがって、図６に示したような行列Ｗと
ベクトルｘの積和計算Ｗｘを行った後、大きさが異なっ
た行列とベクトルの積和を求める場合には、プロセッサ
・エレメントはノードNode-n+1からNode-mについて割り
付ければよく、また、データについても、ノードNode-n
+1からNode-mのプロセッサ・エレメントに新たに配置す
ればよい。

【００５１】すなわち、ノードNode-1からNode-nについ
ては図２の場合と同一であり、ノードNode-n+1からNode
-mについて、プロセッサへの処理プログラムの割り付
け、データの配置をすればよいので、従来方法のように
ネットワーク全体のプロセッサへの処理プログラムの再
割り付けおよびデータの再配置を行う必要がない。図８
は従来方法と、本実施例の方法における処理プログラム
の割り付け、データの配置を示す図である。同図は、入
力データがｘ1 ，ｘ2 ，…，ｘ6 の６個、出力データが
ｙ1 ，ｙ2 ，…，ｙ4 の４個の次の式（２）示す行列演
算を行う場合の処理プログラムの割り付けとデータの配
置を示しており、同図（ａ）は従来方法による場合、
（ｂ）は本実施例の方法による場合を示している。

【００５２】

【数２】

【００５３】ここで、演算開始前のデータの配置を見る
限り２つの方法に優劣はない。しかし、演算結果のｙ1
，ｙ2 ，…，ｙ4 について、次の式（３）の演算を行
う場合に決定的な差が生ずる。

【００５４】

【数３】

【００５５】図９は式（２）の演算結果を示す図であ
り、同図（ａ）は従来例の場合、（ｂ）は本実施例の場
合を示している。同図に示すように、従来方法の場合に
は、出力データはノードNode-1からNode-3のＰＥ１とノ
ードNode-3のＰＥ２に配置され、本実施例の方法の場合
には、出力データはノードNode-1からNode-2のＰＥ１と
ＰＥ２に配置される。

【００５６】図９に示すように、従来例においては、ノ
ードNode-3にｙ3 ，ｙ4 が残されるため、ノードNode-2
までの４つのプロセッサ・エレメントで演算できる処理
であっても、ノードNode-3まで含めた６つのプロセッサ
・エレメントで処理するか、さもなくば、一旦データを
ホストプロセッサで読み出した後、再度、式（３）の行
列データｂ11，…，ｂ24とともに前記した図１３、図１
４のフローチャートに従ってノードNode-1とNode-2に再
配置しなければならない。

【００５７】これに対して、本実施例では、ｙ1 ，ｙ2
，…，ｙ4 も、最初のデータｘ1 ，ｘ2 ，…，ｘ6 と
本質的に同じであるため、予め行列データｂ11，…，ｂ
24を配置しておくことにより計算処理を短縮することが
できる。図１０は本発明の第２の実施例を示す図であ
り、本実施例は各ノードに４個のプロセッサ・エレメン
トを設け、最大８個のノード間をリングで接続したリン
グ型ネットワークを示している。

【００５８】本実施例においても、ノードNode-1からNo
de-8へのプロセッサ・エレメントＰＥ1 〜ＰＥ32の割り
付けは図２に示した第１の実施例と同様にノード順に割
り付けられる。そして、図６に示したような行列とベク
トルの積和を求める場合には、図６と同様に、各プロセ
ッサ・エレメントＰＥ1 からＰＥ32に、行列Ｗ_ijの各行
の要素を各プロセッサ・エレメントＰＥ1 〜ＰＥ32の番
号に対応させて配置し、また、リング上のｘの各要素を
同様に各プロセッサ・エレメントＰＥ1 〜ＰＥ32の番号
に対応させて配置する。

【００５９】これにより、前記した場合と同様な手順で
行列とベクトルの積和を求めることができる。以上のよ
うに、各ノードに２以上のプロセッサ・エレメントを配
置した場合にも第１の実施例と同様、本発明を適用する
ことが可能である。

【００６０】

【発明の効果】以上説明したように、本発明において
は、データの転送方向とは対応づけず、ノードの順番に
プロセッサ・エレメントへ処理プログラムを割り付けて
いるので、リング型ネットワークにおいて、ネットワー
ク構成の変更を容易に行うことができる。また、ノード
の順番に各プロセッサ・エレメントにデータを配置する
ことにより、ネットワーク構成を変更しても、実行時の
データの再配置が不要となり、高速に処理することが可
能となる。

【図面の簡単な説明】

【図１】本発明の原理図である。

【図２】本発明の第１の実施例の処理プログラムの割り
付けを示す図である。

【図３】本実施例におけるデータ配置処理のフローチャ
ートである。

【図４】本実施例におけるデータ配置処理のフローチャ
ート（続き）である。

【図５】本実施例におけるデータ配置処理のフローチャ
ート（続き）である。

【図６】本実施例におけるデータ配置を示す図である。

【図７】本実施例において構成を変更したリング型ネッ
トワークを示す図である。

【図８】従来方法と本実施例の方法におけるデータの配
置を示す図である。

【図９】従来方法と本実施例の方法における演算の結果
を示す図である。

【図１０】本発明の第２の実施例を示す図である。

【図１１】本発明の前提となるシステムの構成を示す図
である。

【図１２】本発明の前提となるリング型ネットワークの
構成を示す図である。

【図１３】従来例におけるデータ配置処理のフローチャ
ートである。

【図１４】従来例におけるデータ配置処理のフローチャ
ート（続き）である。

【図１５】従来のリング型ネットワークにおけるデータ
配置を示す図である。

【図１６】従来のリング型ネットワークにおける積算処
理を示す図である。

【図１７】従来のリング型ネットワークにおける転送処
理を示す図である。

【図１８】従来のリング型ネットワークにおける次段の
積算処理を示す図である。

【図１９】従来例において構成を変更したリング型ネッ
トワークを示す図である。

【符号の説明】

Node-1〜Node-n ノードＰＥ1 〜ＰＥ2m, ＰＥ2n プロセッサ・エ
レメントＣＰＵ１並列コンピュー
タＣＰＵ２ホストコンピュ
ータ１プロセッサ２主記憶装置３インタフェース

Claims

【特許請求の範囲】

【請求項１】各ノード(Node-1,…,Node-n)に少なくと
も２個のプロセッサ・エレメント(PE1,PE2) を備え、各
ノードを往路と復路が通過するリング型ネットワークで
構成され、各ノード(Node-1,…,Node-n)のプロセッサ・エレメント
(PE1,PE2) が持つデータを各プロセッサ・エレメント(P
E1,PE2) 間で転送して、各プロセッサ・エレメント(PE
1,PE2) により処理を行う並列コンピュータにおいて、ノード(Node-1,…,Node-n)の順番に当該ノードに備えら
れたプロセッサ・エレメント(PE1,PE2, …) から順次ネ
ットワーク上を転送されるデータを処理する処理プログ
ラムが割り付けられていることを特徴とする並列コンピ
ュータ。
【請求項２】各ノード(Node-1,…,Node-n)に少なくと
も２個のプロセッサ・エレメント(PE1,PE2) を備え、各
ノードを往路と復路が通過するリング型ネットワークで
構成され、各ノード(Node-1,…,Node-n)のプロセッサ・エレメント
(PE1,PE2) が持つデータを各プロセッサ・エレメント(P
E1,PE2) 間で転送して、各プロセッサ・エレメント(PE
1,PE2) により処理を行う並列コンピュータにおいて、ノード(Node-1,…,Node-n)の順番に当該ノードに備えら
れたプロセッサ・エレメント(PE1,PE2) から順次ネット
ワーク上を転送されるデータを処理する処理プログラム
が割り付けられており、ノード(Node-1,…,Node-n)の順
番に当該ノードに備えられた各プロセッサ・エレメント
(PE1,PE2) から順次データが配置されていることを特徴
とする並列コンピュータ。