JPH07271744A

JPH07271744A - 並列計算機

Info

Publication number: JPH07271744A
Application number: JP6062215A
Authority: JP
Inventors: Junji Nishikawa; 順二西川
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1994-03-31
Filing date: 1994-03-31
Publication date: 1995-10-20
Also published as: US5842035A

Abstract

(57)【要約】【目的】本発明は、メモリの使用効率を高めるととも
にプロセッサ間のデータ通信を高速化することのできる
並列計算機を提供することを目的とする。【構成】分割されてメモリ１１に格納されている配列
データの中の１つのブロックについて、アドレス生成回
路２０ａ、２０ｂで生成されるアドレスに従ってメモリ
１１と入出力ポート１４と間のデータ転送による分割変
換を行い、データ転送装置１３における別のブロックの
分割変換のデータ転送とプロセッサ１０における変換後
の配列ブロックに対する演算処理とを並行して実行し、
カウンタ２１ａ、２１ｂでデータ全体の処理が終わるま
で繰り返す。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、データをプロセッサエ
レメントに分散し、プロセッエレメント間でデータを分
散／収集しながら並列処理を行う並列計算機に関する。

【０００２】

【従来の技術】近年、大規模なデータに対する数値計算
の分野では、並列計算機による処理の高速化が図られて
おり、多数のプロセッサエレメントから構成される並列
システムが開発されている。並列システムの１つに、各
プロセッサエレメントがローカルメモリをもちデータを
プロセッサエレメントに分散する分散メモリ型システム
がある。分散メモリシステムでは、各プロセッサエレメ
ントにおいて各ローカルメモリに割り当てられているデ
ータに対して演算を行う。この分散メモリ型システム
は、データパラレル型の並列処理に適したシステムであ
る。このような分散メモリ型の並列システムでは、並列
化の処理に応じてプロセッサエレメント間のデータ転送
が必要である。並列計算機では、プロセッサエレメント
間のデータ転送ネットワークを通じて、プロセッサエレ
メントに分配された配列データの分散及び収集を実行す
る。

【０００３】並列処理を行うためのプログラミング言語
として、ＨＰＦ（"High Performance Fortran Language
Specification Version 1.0", High Performance Fort
ranForum, May 1993）や、ＡＤＥＴＲＡＮ（野木達夫
著「Parallel Programming Language ADETRAN」京都大
学紀要第５１巻第４号）などの並列プログラミング言語
が使用される。並列処理による高速化が求められている
大規模な数値計算の分野においては扱うデータは通常は
配列で表される。配列の次元は通常は２次元または３次
元であるが、どの次元に従って分散するかによって各プ
ロセッサエレメントへの割当が異なり、分散方向の異な
るデータが必要な場合にはプロセッサエレメント間でデ
ータの分散と収集を行う。

【０００４】図２４にＡＤＥＴＲＡＮによるプログラム
例を示す。この例では、プロセッサエレメントへの配列
の分散の記述６０、６１、６２、６３と、並列に演算を
実行する記述６４、６５、６６、７０、７１、７２と、
プロセッサエレメント間のデータ転送の記述６７、６
８、６９によって並列処理を実行する。まず、プロセッ
サエレメントへの配列データの割当は／／で示し、配列
６０、６１は／／で囲まれている部分の第２の添え字に
ついて各プロセッサエレメントに分割されていることを
表し、配列６２、６３は／／で囲まれている部分の第１
の添え字について各プロセッサエレメントに分割されて
いることを表す。

【０００５】このときの各プロセッサエレメントにおけ
る配列６０、６１、６２、６３のメモリマップを図２５
に示す。配列の大きさは４×４であり、プロセッサエレ
メント数は４である。配列データは、２次元の場合２通
りの１次元配列による分散が可能である。この図に示す
ように１次元化した配列が各プロセッサに分散されてお
り、例えばプロセッサエレメント（ＰＥ１）には、配列
Ａ（１：４、／１／）、Ｂ（１：４、／１／）、Ａ（／
１／、１：４）、Ｂ（／１／、１：４）を割り当てる。
配列のサイズが４×４よりも大きい場合には、１次元で
分割した配列の複数のブロックを１つのプロセッサエレ
メントに割り当てる。

【０００６】このように分散された配列データに対する
並列の演算の実行はＰＤＯ文６４、７０で表す。ＰＤＯ
文６４、７０では、／／によって分割されているデータ
について並列に実行することを指定する。分散メモリシ
ステムであるので、各プロセッサエレメントにおいては
各ローカルメモリに割り当てられているデータに対して
演算を行う。１つめのＰＤＯ文６４で、第１の添え字方
向であるＸ方向の演算６６を行い、２つめのＰＤＯ文７
０で、第２の添え字方向であるＹ方向の演算７２を行
う。この時、ＰＤＯ文６４の演算結果を使ってＰＤＯ文
７０で演算を行うため、プロセッサエレメント間のデー
タ転送をＰＡＳＳ文６７で指定する。このような分散方
向の変換後の配列データに対して更に演算７２を行うこ
とにより、配列データ全体にまたがる処理を行うことが
できる。２次元配列の場合であれば、Ｘ方向とＹ方向の
両方向について隣接するデータ間の演算を行うことがで
き、これを繰り返して実行することで、２次元領域全体
の状態変化を求めるような数値計算を行うことができ
る。

【０００７】ＰＡＳＳ文６７で指定されている配列デー
タの分散に関する変換は、プロセッサエレメント間を接
続するネットワークを通じたプロセッサエレメント間の
通信である。通信に必要なアドレス生成機構をもったデ
ータ転送装置によってこの通信を実行することができ
る。例えば、文献（K.Kaneko et al, "VLSI Implementa
tion of a Parallel Computer Network" IEICE transac
tions, Vol.E74, No.11,Nov.1991, pp3810-3818）に示
すハードウエアは、図２５に示したようなメモリ上の配
列のアクセスをＤＭＡ方式で実行するものである。

【０００８】

【発明が解決しようとする課題】上記従来の並列計算機
では、例えば図２５に示したように２次元配列を２方向
に分割して並列処理する場合には、１つの配列に対して
その配列サイズの２倍のメモリ領域が必要となる。この
ように、配列の次元に沿った分割を行う場合には、１つ
の配列に対して分割する次元の数だけ領域を割り当てる
必要があり、並列化によってメモリの使用量が増大する
という問題点がある。

【０００９】また、並列計算機でのプロセッサ間の通信
量は、上記のように１つの配列に対して分割する次元の
数だけ領域を割り当てるので非常に大きいため、データ
転送時には各プロセッサエレメントにおいてプロセッサ
間通信の為のメモリアクセスが多量に発生することにな
り、メモリのボトルネックが問題となる。本発明は、上
記問題点を解決するためにメモリの使用効率を高めると
ともにプロセッサ間のデータ通信を高速化することので
きる並列計算機を提供することを目的とする。

【００１０】

【課題を解決するための手段】上記の課題を解決するた
め、請求項１の発明に係る並列計算機は、複数のプロセ
ッサエレメントと、プロセッサエレメント間を相互に結
合するネットワークとを有する並列計算機であって、プ
ロセッサエレメントの各々は、メモリ手段とプロセッサ
と第１のデータ転送手段と第２のデータ転送手段とを有
し、メモリ手段は、プロセッサに対するプログラムと、
プロセッサエレメントに割当てられたデータとを記憶す
る第１の領域と、作業用データを一時的に記憶する第２
の領域とを有し、第１のデータ転送手段は、他のプロセ
ッサエレメントの第１の領域に割当てられたデータのう
ち自身のプロセッサの演算処理に必要なデータを、ネッ
トワークを介して自身の第２の領域に転送する第１のデ
ータ転送を実行し、プロセッサは、プログラムに従って
第１の領域のデータを用いて演算を実行し、演算結果を
第１の領域に書き戻す第１の演算処理と、プログラムに
従って第２の領域のデータを用いて演算を実行し、演算
結果を第２の領域に書き戻す第２の演算処理とを実行
し、第２のデータ転送手段は、他のプロセッサエレメン
トにおける第２の領域に格納された演算結果を、ネット
ワークを介して自身のプロセッサエレメントの第１の領
域に転送する第２のデータ転送を実行するように構成さ
れている。

【００１１】また、請求項２の発明に係る並列計算機
は、請求項１において、前記プロセッサは、プログラム
に従って第１の演算処理及び第２の演算処理のいずれか
を異なるデータに対してくり返し実行し、前記第１のデ
ータ転送手段は、プロセッサの第１又は第２の演算処理
と並行して次の第２の演算処理に対する第１のデータ転
送を実行し、前記第２のデータ転送手段はプロセッサの
第１又は第２の演算処理と並行して１つ前の第２の演算
処理に対する第２のデータ転送を実行するように構成さ
れている。

【００１２】請求項３の発明に係る並列計算機は、請求
項１又は２において、前記メモリ手段は第１の領域に、
２次元以上の配列データが１つの次元方向に沿って分割
された分割データであって第１の演算処理の対象となる
分割データを記憶し、前記第１のデータ転送手段は、前
記配列データを異なる次元方向に沿って分割された分割
データに対してプロセッサが第２の演算処理を行う場合
に、前記異なる次元方向に沿って分割された分割データ
の配列要素を他のプロセッサエレメントから第２の領域
に転送するように構成されている。

【００１３】請求項４の発明に係る並列計算機は、請求
項３において、前記メモリ手段は第２の領域として、他
のプロセッサエレメントに割当てられた第１の領域のデ
ータのうち自身のプロセッサの演算処理に必要なデータ
を保持する第１のバッファと、第１のバッファと同じ容
量の第２のバッファとを有し、前記第１のデータ転送手
段は、第１のデータ転送を実行する毎に転送先として第
１、第２のバッファを交互に切り替え、前記プロセッサ
は、第２の演算処理を実行する毎に演算処理の対象とな
るデータとして第１のバッファと第２のバッファとを交
互に切り替え、前記第２のデータ転送手段は、第２のデ
ータ転送を実行する毎に転送元として他のプロセッサエ
レメントの第１、第２のバッファを交互に切り替えるよ
うに構成されている。

【００１４】また、請求項５の発明に係る並列計算機
は、複数のプロセッサエレメントと、プロセッサエレメ
ント間を相互に結合するネットワークとを有する並列計
算機であって、プロセッサエレメントの各々は、バス接
続されたプロセッサ、メモリ手段およびデータ転送手段
を有し、メモリ手段は、プロセッサに対するプログラム
と、２次元以上の配列データが１つの次元方向に沿って
分割された分割データのうちプロセッサエレメントに割
当てられたデータを記憶する第１の領域と、作業用デー
タを一時的に記憶する第２の領域とを有し、プロセッサ
は、プログラムに従って第１の領域のデータに対して演
算を実行する第１の演算処理と、プログラムに従って第
２の領域のデータに対して演算を実行する第２の演算処
理とを実行し、データ転送手段は、第１の領域に記憶さ
れた分割データの先頭アドレス及びデータサイズを含む
第１の制御情報と、第２の領域に記憶すべき分割データ
の先頭アドレス及びデータサイズを含む第２の制御情報
とを記憶する制御情報記憶手段と、第１の制御情報に基
づいて第１の領域のアドレスを生成する第１のアドレス
生成手段と、第２の制御情報に基づいて第２の領域のア
ドレスを生成する第２のアドレス生成手段と、メモリ手
段から読み出されたデータをネットワークに出力し、メ
モリ手段に書き込むべきデータをネットワークから入力
するデータ入出力手段と、第１のアドレス生成手段のア
ドレスに従って自身のプロセッサエレメントの第１の領
域のデータを読み出して、データ入出力手段を介して他
のプロセッサエレメントに出力する分散制御と、データ
入出力手段を介して入力される他のプロセッサエレメン
トの第１の領域のデータを、第２のアドレス生成手段の
アドレスに従って自身のプロセッサエレメントの第２の
領域へ収集する収集制御とを行う制御手段とを有するよ
うに構成されている。

【００１５】請求項６の発明に係る並列計算機は、請求
項５において、前記プロセッサは、プログラムに従って
第１の演算処理及び第２の演算処理のいずれかを繰り返
し実行し、前記制御手段は、プロセッサの第１又は第２
の演算処理と並行して、他のプロセッサエレメントの演
算処理に対する分散制御を実行し、プロセッサの第１又
は第２の演算処理と並行して１つ前の第２の演算処理に
対する収集制御を実行するように構成されている。

【００１６】請求項７の発明に係る並列計算機は、請求
項５又は６において、前記メモリ手段は、第２の領域が
第１の領域よりもアクセスタイムが短いメモリ素子で構
成されている。また、請求項８の発明に係る並列計算機
は、複数のプロセッサエレメントと、プロセッサエレメ
ント間を相互に結合するネットワークとを有する並列計
算機であって、プロセッサエレメントの各々は、２ポー
トメモリ手段と、１ポートメモリ手段と、プロセッサ
と、データ転送装置と、２ポートメモリ手段の一方のポ
ートと１ポートメモリ手段とプロセッサとデータ転送装
置とを接続する第１のバスと、２ポートメモリ手段の他
方のポートとデータ転送装置とを接続する第２のバスを
有し、１ポートメモリ手段は、２次元以上の配列データ
について１つの次元方向に沿って分割された分割データ
のうちプロセッサエレメントに割り当てられた分割デー
タを記憶する第１の領域を有し、２ポートメモリ手段
は、前記配列データの異なる次元方向に沿って分割され
た分割データに対してプロセッサが第２の演算処理を行
う場合に、前記異なる次元方向に沿って分割された分割
データを記憶すべき第２の領域を有し、プロセッサは、
プログラムに従って第１の領域のデータに対して演算を
実行する第１の演算処理と、プログラムに従って第２の
領域のデータに対して演算を実行する第２の演算処理と
を実行し、データ転送手段は、第１の領域に記憶された
分割データの先頭アドレス及びデータサイズを含む第１
の制御情報と、第２の領域に記憶すべき分割データの先
頭アドレス及びデータサイズを含む第２の制御情報とを
記憶する制御情報記憶手段と、第１の制御情報に基づい
て第１の領域のアドレスを生成する第１のアドレス生成
手段と、第２の制御情報に基づいて第２の領域のアドレ
スを生成する第２のアドレス生成手段と、１ポートメモ
リ手段から読み出されたデータをネットワークに出力
し、２ポートメモリ手段に書き込むべきデータをネット
ワークから入力するデータ入出力手段と、第１のアドレ
ス生成手段のアドレスに従って自身のプロセッサエレメ
ントの第１の領域のデータを読み出して、データ入出力
手段を介して他のプロセッサエレメントに出力する分散
制御と、データ入出力手段を介して入力される他のプロ
セッサエレメントの第１の領域のデータを、第２のアド
レス生成手段のアドレスに従って自身のプロセッサエレ
メントの第２の領域へ収集する収集制御とを行う制御手
段とを有するように構成されている。

【００１７】請求項９の発明に係る並列計算機は、請求
項８において、前記プロセッサは、プログラムに従って
第１の演算処理及び第２の演算処理のいずれかを繰り返
し実行し、前記制御手段は、プロセッサの第１又は第２
の演算処理と並行して、他のプロセッサエレメントの演
算処理に対する分散制御を実行し、プロセッサの第１又
は第２の演算処理と並行して１つ前の第２の演算処理に
対する収集制御を実行するように構成されている。

【００１８】また、請求項１０の発明に係る並列計算機
は、複数のプロセッサエレメントと、プロセッサエレメ
ント間を相互に結合するネットワークとを有する並列計
算機であって、プロセッサエレメントの各々は、プロセ
ッサと、データ転送手段と、プロセッサとデータ転送手
段を接続するｎ（ｎは整数）本のバスと、ｎ本のバスの
それぞれに接続されたｎ個のメモリ手段とを有し、ｎ個
のメモリ手段のそれぞれは、２次元以上の配列データに
ついて互いに異なる次元方向に沿って分割された分割デ
ータを記憶する第１の領域と、作業用データを一時的に
記憶する第２の領域とを有し、プロセッサは、プログラ
ムに従って各メモリ手段の第１の領域又は第２の領域の
データに対して演算を実行する演算処理を実行し、デー
タ転送手段は、ｊ（ｊは１以上ｍ以下）番目のメモリ手
段の第１の領域に記憶された分割データの先頭アドレス
及びデータサイズを含む第１の制御情報と、ｋ（ｋはｊ
以外で１以上ｍ以下）番目のメモリ手段の第２の領域に
記憶すべき分割データの先頭アドレス及びデータサイズ
を含む第２の制御情報とを記憶する制御情報記憶手段
と、第１の制御情報に基づいてｊ番目のメモリ手段の第
１の領域のアドレスを生成する第１のアドレス生成手段
と、第２の制御情報に基づいてｋ番目のメモリ手段の第
２の領域のアドレスを生成する第２のアドレス生成手段
と、メモリ手段から読み出されたデータをネットワーク
に出力し、メモリ手段に書き込むべきデータをネットワ
ークから出力するデータ入出力手段と、第１のアドレス
生成手段のアドレスに従って自身のプロセッサエレメン
トのｊ番目のメモリ手段の第１の領域のデータを読み出
して、データ入出力手段を介して他のプロセッサエレメ
ントに出力する分散制御と、データ入出力手段を介して
入力される他のプロセッサエレメントのデータを、第２
のアドレス生成手段のアドレスに従って自身のプロセッ
サエレメントのｋ番目のメモリ手段の第２の領域へ収集
する収集制御とを行う制御手段とを有するように構成さ
れている。

【００１９】請求項１１の発明に係る並列計算機は、請
求項１０において、前記プロセッサは、プログラムに従
って演算処理を繰り返し実行し、前記制御手段は、プロ
セッサの演算処理と並行して、他のプロセッサエレメン
トの演算処理に対する分散制御を実行し、プロセッサの
第１又は第２の演算処理と並行して１つ前の第２の演算
処理に対する収集制御を実行するように構成されてい
る。

【００２０】

【作用】上記手段により請求項１の発明に係る並列計算
機においては、プロセッサエレメントの各々のメモリ手
段は、プロセッサに対するプログラムと、プロセッサエ
レメントに割当てられたデータとを記憶する第１の領域
と、作業用データを一時的に記憶する第２の領域とを有
する。第１のデータ転送手段は、他のプロセッサエレメ
ントの第１の領域に割当てられたデータのうち自身のプ
ロセッサの演算処理に必要なデータを、ネットワークを
介して自身の第２の領域に転送する第１のデータ転送を
実行する。プロセッサは、プログラムに従って第１の領
域のデータを用いて演算を実行し、演算結果を第１の領
域に書き戻す第１の演算処理と、プログラムに従って第
２の領域のデータを用いて演算を実行し、演算結果を第
２の領域に書き戻す第２の演算処理とを実行する。第２
のデータ転送手段は、他のプロセッサエレメントにおけ
る第２の領域に格納された演算結果を、ネットワークを
介して自身のプロセッサエレメントの第１の領域に転送
する第２のデータ転送を実行する。

【００２１】これにより、メモリ手段は、各プロセッサ
エレメントに割り当てられたデータを記憶する容量と、
プロセッサの第２の演算処理に必要なデータ容量とが確
保されていればよいので、メモリ容量を大幅に削減する
ことができる。請求項２の発明に係る並列計算機では、
請求項１における前記第１のデータ転送手段は、プロセ
ッサの第１又は第２の演算処理と並行して次の第２の演
算処理に対する第１のデータ転送を実行する。前記第２
のデータ転送手段はプロセッサの第１又は第２の演算処
理と並行して１つ前の第２の演算処理に対する第２のデ
ータ転送を実行する。

【００２２】これにより、プロセッサの演算処理と第１
のデータ転送と第２のデータ転送とを並行して実行させ
るので、見かけ上プロセッサの演算処理時間に、第１、
第２のデータ転送時間を隠すことが可能となるので、並
列計算の全体の処理速度を向上させることができる。請
求項３の発明に係る並列計算機では、請求項１又は２に
おいて前記メモリ手段は第１の領域に、２次元以上の配
列データが１つの次元方向に沿って分割された分割デー
タであって第１の演算処理の対象となる分割データを記
憶する。前記第１のデータ転送手段は、前記配列データ
を異なる次元方向に沿って分割された分割データに対し
てプロセッサが第２の演算処理を行う場合に、前記異な
る次元方向に沿って分割された分割データの配列要素を
他のプロセッサエレメントから第２の領域に転送する。

【００２３】請求項４の発明に係る並列計算機では、請
求項３において前記メモリ手段は第２の領域として、他
のプロセッサエレメントに割当てられた第１の領域のデ
ータのうち自身のプロセッサの演算処理に必要なデータ
を保持する第１のバッファと、第１のバッファと同じ容
量の第２のバッファとを有する。前記第１のデータ転送
手段は、第１のデータ転送を実行する毎に転送先として
第１、第２のバッファを交互に切り替える。前記プロセ
ッサは、第２の演算処理を実行する毎に演算処理の対象
となるデータとして第１のバッファと第２のバッファと
を交互に切り替える。前記第２のデータ転送手段は、第
２のデータ転送を実行する毎に転送元として他のプロセ
ッサエレメントの第１、第２のバッファを交互に切り替
える。

【００２４】これにより、第１のデータ転送と第２のデ
ータ転送を異なるバッファに対して実行できるので、さ
らに処理速度を向上させることができる。請求項５の発
明に係る並列計算機では、メモリ手段は、プロセッサに
対するプログラムと、２次元以上の配列データが１つの
次元方向に沿って分割された分割データのうちプロセッ
サエレメントに割当てられたデータを記憶する第１の領
域と、作業用データを一時的に記憶する第２の領域とを
有する。プロセッサは、プログラムに従って第１の領域
のデータに対して演算を実行する第１の演算処理と、プ
ログラムに従って第２の領域のデータに対して演算を実
行する第２の演算処理とを実行する。

【００２５】データ転送手段において、第１、第２のア
ドレス生成手段は、それぞれ第１、第２の制御情報に基
づいて第１の領域のアドレスを生成する。データ入出力
手段は、メモリ手段から読み出されたデータをネットワ
ークに出力し、また、メモリ手段に書き込むべきデータ
をネットワークから入力する。制御手段は、第１のアド
レス生成手段のアドレスに従って自身のプロセッサエレ
メントの第１の領域のデータを読み出して、データ入出
力手段を介して他のプロセッサエレメントに出力する分
散制御と、データ入出力手段を介して入力される他のプ
ロセッサエレメントの第１の領域のデータを、第２のア
ドレス生成手段のアドレスに従って自身のプロセッサエ
レメントの第２の領域へ収集する収集制御とを行う。

【００２６】これにより、メモリ手段は、各プロセッサ
エレメントに割り当てられたデータを記憶する容量と、
プロセッサの第２の演算処理に必要なデータ容量とが確
保されていればよいので、メモリ容量を大幅に削減する
ことができる。請求項６の発明に係る並列計算機では、
請求項５において前記プロセッサは、プログラムに従っ
て第１の演算処理及び第２の演算処理のいずれかを繰り
返し実行する。前記制御手段は、プロセッサの第１又は
第２の演算処理と並行して、他のプロセッサエレメント
の演算処理に対する分散制御を実行し、プロセッサの第
１又は第２の演算処理と並行して１つ前の第２の演算処
理に対する収集制御を実行する。

【００２７】これにより、プロセッサの演算処理と第１
のデータ転送と第２のデータ転送とを並行して実行させ
るので、見かけ上プロセッサの演算処理時間に、第１、
第２のデータ転送時間を隠すことが可能となるので、並
列計算の全体の処理速度を向上させることができる。請
求項７の発明に係る並列計算機では、請求項５又は６に
おいて前記メモリ手段は、第２の領域が第１の領域より
もアクセスタイムが短い。

【００２８】これにより、第２の領域に対するデータ転
送をより高速に実現できる。請求項８の発明に係る並列
計算機では、プロセッサエレメントの各々は、２ポート
メモリ手段と、１ポートメモリ手段と、プロセッサと、
データ転送装置と、２ポートメモリ手段の一方のポート
と１ポートメモリ手段とプロセッサとデータ転送装置と
を接続する第１のバスと、２ポートメモリ手段の他方の
ポートとデータ転送装置とを接続する第２のバスを有す
る。１ポートメモリ手段は、２次元以上の配列データに
ついて１つの次元方向に沿って分割された分割データの
うちプロセッサエレメントに割り当てられた分割データ
を記憶する第１の領域を有する。２ポートメモリ手段
は、前記配列データの異なる次元方向に沿って分割され
た分割データに対してプロセッサが第２の演算処理を行
う場合に、前記異なる次元方向に沿って分割された分割
データを記憶すべき第２の領域を有する。プロセッサ
は、プログラムに従って第１の領域のデータに対して演
算を実行する第１の演算処理と、プログラムに従って第
２の領域のデータに対して演算を実行する第２の演算処
理とを実行する。

【００２９】データ転送手段において、第１、第２のア
ドレス生成手段は、第１、第２の制御情報に基づいて第
２の領域のアドレスを生成する。データ入出力手段は、
１ポートメモリ手段から読み出されたデータをネットワ
ークに出力し、また、２ポートメモリ手段に書き込むべ
きデータをネットワークから入力する。制御手段は、第
１のアドレス生成手段のアドレスに従って自身のプロセ
ッサエレメントの第１の領域のデータを読み出して、デ
ータ入出力手段を介して他のプロセッサエレメントに出
力する分散制御と、データ入出力手段を介して入力され
る他のプロセッサエレメントの第１の領域のデータを、
第２のアドレス生成手段のアドレスに従って自身のプロ
セッサエレメントの第２の領域へ収集する収集制御とを
行う。

【００３０】これにより、第１のデータ転送と第２のデ
ータ転送におけるアクセスの競合を低減できるので、よ
り高速なデータ転送が可能となる。請求項９の発明に係
る並列計算機では、請求項８において前記プロセッサ
は、プログラムに従って第１の演算処理及び第２の演算
処理のいずれかを繰り返し実行する。前記制御手段は、
プロセッサの第１又は第２の演算処理と並行して、他の
プロセッサエレメントの演算処理に対する分散制御を実
行し、プロセッサの第１又は第２の演算処理と並行して
１つ前の第２の演算処理に対する収集制御を実行するこ
れにより、プロセッサの演算処理と第１のデータ転送と
第２のデータ転送とを並行して実行させるので、見かけ
上プロセッサの演算処理時間に、第１、第２のデータ転
送時間を隠すことが可能となるので、並列計算の全体の
処理速度を向上させることができる。

【００３１】請求項１０の発明に係る並列計算機では、
プロセッサエレメントの各々は、プロセッサと、データ
転送手段と、プロセッサとデータ転送手段を接続するｎ
（ｎは整数）本のバスと、ｎ本のバスのそれぞれに接続
されたｎ個のメモリ手段とを有する。ｎ個のメモリ手段
のそれぞれは、２次元以上の配列データについて互いに
異なる次元方向に沿って分割された分割データを記憶す
る第１の領域と、作業用データを一時的に記憶する第２
の領域とを有する。プロセッサは、プログラムに従って
各メモリ手段の第１の領域又は第２の領域のデータに対
して演算を実行する演算処理を実行する。

【００３２】データ転送手段において、第１、第２のア
ドレス生成手段はそれぞれ、第１、第２の制御情報に基
づいてｊ番目、ｋ番目のメモリ手段の第１の領域のアド
レスを生成する。データ入出力手段は、メモリ手段から
読み出されたデータをネットワークに出力し、また、メ
モリ手段に書き込むべきデータをネットワークから出力
する。制御手段は、第１のアドレス生成手段のアドレス
に従って自身のプロセッサエレメントのｊ番目のメモリ
手段の第１の領域のデータを読み出して、データ入出力
手段を介して他のプロセッサエレメントに出力する分散
制御と、データ入出力手段を介して入力される他のプロ
セッサエレメントのデータを、第２のアドレス生成手段
のアドレスに従って自身のプロセッサエレメントのｋ番
目のメモリ手段の第２の領域へ収集する収集制御とを行
う。

【００３３】これにより、多次元の配列データを異なる
次元方向に分割した分割データのうち、全ての次元方向
の分割データを記憶しなくても、複数個の分割データを
メモリ手段に割り当てられるのでより少ないメモリ容量
で並列処理を実現することができる。請求項１１の発明
に係る並列計算機では、請求項１０において前記プロセ
ッサは、プログラムに従って演算処理を繰り返し実行す
る。前記制御手段は、プロセッサの演算処理と並行し
て、他のプロセッサエレメントの演算処理に対する分散
制御を実行し、プロセッサの第１又は第２の演算処理と
並行して１つ前の第２の演算処理に対する収集制御を実
行する。

【００３４】これにより、プロセッサの演算処理と第１
のデータ転送と第２のデータ転送とを並行して実行させ
るので、見かけ上プロセッサの演算処理時間に、第１、
第２のデータ転送時間を隠すことが可能となるので、並
列計算の全体の処理速度を向上させることができる。

【００３５】

【実施例】図３は、本発明の実施例に係る並列計算機の
構成を示すブロック図である。同図に示すように並列計
算機は、複数のプロセッサエレメント１ａ〜１ｂと、そ
れらを接続するネットワーク２から構成されている。同
図では、便宜上２つのプロセッサエレメント１ａと１ｂ
とが示されているが、その個数は実際には２個以上例え
ば４、１６、１２８・・・など任意の個数が設定され、
各プロセッサエレメントは何れも同じものである。本実
施例では、プロセッサエレメント１の個数は４であるも
のとする。

【００３６】各プロセッサエレメント（以下、ＰＥとも
称す）１は、プロセッサ１０、メモリ１１、データ転送
装置１３から構成され、バス１２がそれらを接続してい
る。プロセッサ１０は、メモリ１１のプログラムを実行
する。メモリ１１は、プロセッサ１０により実行される
プログラム、およびその実行に必要なデータを格納す
る。メモリ１１に格納されるデータは、プログラムに基
づいて分割されてプロセッサエレメント毎に割当てられ
たデータを記憶するデータ領域と、他のプロセッサエレ
メントに割当てられたデータを一時的に記憶するワーク
エリアとしての一時記憶領域とを有している。

【００３７】データ転送装置１３は、バス１２に接続さ
れ、かつ入出力ポート１４を通じてネットワーク２にも
接続されていて、メモリ１１とネットワーク２間でデー
タを転送する。バス１２は、アドレスバスとデータバス
と制御信号を含む。このなかの制御信号は、プロセッサ
１０とデータ転送装置１３の間でバス１２の調停を行う
信号とメモリ１１の制御信号とデータ転送装置１３から
プロセッサ１０への割り込み信号から構成される。

【００３８】図４は、図３に示したネットワーク２の構
成を示す図である。同図のように、各ＰＥ１〜４は、送
信用ラインと受信用ラインに接続されている。Ｆ１１〜
４４はＦＩＦＯメモリであり、格子状に配された送信用
ラインと受信用ラインとの各格子点上に設けられ、送信
ラインから入力されるデータを一時的に保持し、受信ラ
インに出力する。つまり、各ＦＩＦＯは対応するＰＥ間
のデータ転送に際して、転送データを一時的に保持する
バッファとして用いられる。例えば、ＰＥ１からＰＥ２
へのデータを転送は、ＰＥ１からＦＩＦＯメモリＦ１２
へ、さらにＦＩＦＯメモリＦ１２からＰＥ２へと２段階
のデータ転送による実現される。逆にＰＥ２からＰＥ１
へのデータ転送は、ＰＥ２→ＦＩＦＯメモリＦ２１→Ｐ
Ｅ１の２段階のデータ転送により実現される。

【００３９】図１は、図３に示したプロセッサエレメン
ト１内のデータ転送装置１３の内部構成を示すブロック
図である。このデータ転送装置１３は、アドレス生成回
路Ｒ２０ａ、アドレス生成回路Ｓ２０ｂ、Ｒカウンタ２
１ａ、Ｓカウンタ２１ｂ、制御レジスタ２２、データ入
出力回路２３、転送制御回路２４とから構成され、これ
らがデータバス２５、アドレスバス２６により接続され
ている。さらに、データバス２５とアドレスバス２６と
割込み等の制御信号とが内部バス２７に統合されて、プ
ロセッサエレメント１のバス１２に接続されている。

【００４０】アドレス生成回路Ｒ２０ａとアドレス生成
回路Ｓ２０ｂは、同じ構成でありそれぞれデータ転送に
際してプロセッサエレメント内のメモリ１１のアドレス
を生成する。このアドレス生成回路Ｒ、Ｓの２つを設け
ているのは、データ転送には２つの方向があるからであ
り、独立して制御できるようになっている。一方がＦＩ
ＦＯメモリからＰＥへのデータ転送用、他方がＰＥから
ＦＩＦＯメモリへのデータ転送用に使用することができ
る。本実施例では主としてアドレス生成回路Ｒ２０ａは
ＰＥがＦＩＦＯからデータを受信する場合のメモリ１１
の書込みアドレス生成、アドレス生成回路Ｓ２０ｂはＰ
ＥがＦＩＦＯにデータを送信する場合のメモリ１１の読
み出しアドレス生成に使用するものとする。

【００４１】Ｒカウンタ２１ａは、アドレス生成回路Ｒ
２０ａにおけるデータ転送の回数をカウントする。カウ
ントの初期値は、プロセッサ１０から設定されカウント
値が所定の値に達する（例えば、初期値からダウンカウ
ントして０になる）までデータ転送が行われる。Ｓカウ
ンタ２１ｂは、上記と同様にアドレス生成回路Ｓ２０ｂ
におけるデータ転送回数をカウントする。

【００４２】制御レジスタ２２は、データ転送を制御す
る各種のパラメータを保持する。このパラメータとし
て、データサイズ、ステータス、データ転送モードを指
定するフィールドなどがある。データサイズは、転送す
べきデータのサイズを表す。ステータスは、データ転送
の実行中または終了を示す。モードビットは、アドレス
生成回路Ｒ２０ａとアドレス生成回路Ｓ２０ｂのそれぞ
れについて、読み出しアドレスであるか書き込みアドレ
スであるかを表し、データ転送の方向を示す。

【００４３】データ入出力回路２３は、ネットワーク２
の送信用ライン及び受信用ラインとデータバス２５との
間でデータを入出力する。データ入出力回路２３の入出
力ポート１４は、ネットワーク２の送信用ラインおよび
受信用ラインに接続されている。転送制御回路２４は、
制御レジスタ２２とＲカウンタ２１ａとＳカウンタ２１
ｂの内容に従って上記のデータ転送を制御する。より具
体的には、アドレス生成回路Ｒ２０ａとアドレス生成回
路Ｓ２０ｂにメモリ１１のアドレスを生成させ、データ
入出力回路２３にメモリ１１と入出力ポート１４の間で
データ転送を行わせる。この転送制御回路２４は、アド
レス生成回路Ｒ２０ａ及びＲカウンタ２１ａを用いるデ
ータ転送と、アドレス生成回路Ｓ２０ｂ及びＳカウンタ
２１ｂを用いるデータ転送の２つデータ転送を独立して
制御する。

【００４４】図２は、図１に示したデータ転送装置１３
の中のアドレス生成回路Ｒ２０ａ、アドレス生成回路Ｓ
２０ｂの構成を示す。２つのアドレス生成回路は、同じ
構成であり、パラメータレジスタ４１、アドレスレジス
タ４２、セレクタ４３、加算器４４から構成されてい
る。パラメータレジスタ４１は、アドレス生成に必要な
パラメータを保持する。パラメータは、データ転送すべ
き配列のベースアドレスや増分値を含み、データバス２
５を通じてプロセッサ１０により設定され、データ転送
すべき配列のベースアドレス、増分値などを含む。

【００４５】このパラメータレジスタ４１からベースア
ドレスがセレクタ４３で選択され、アドレスレジスタ４
２に設定される。このアドレスレジスタ４２の値とパラ
メータレジスタ４１の中の増分値とが加算器４４におい
て加算される。加算器４４は、加算値をアドレスバス２
６に出力しメモリ１１のアドレスとして使用する。ま
た、このアドレスバス２６の加算値は、セレクタ４３に
おいて選択され再度アドレスレジスタ４２に設定され
る。これによりアドレスレジスタ４２の値は順次更新さ
れる。

【００４６】図５は、上記並列計算機に対する並列計算
用のソースプログラムを目的コードに変換するコンパイ
ラの処理を表すフローチャートである。このコンパイラ
は、ソースプログラムを構文解析して一旦中間言語に変
換した（ステップ１）後、並列化されているプログラム
部分に必要なデータを実際のプロセッサエレメント数に
応じて分割する（ステップ２〜４）。ここまでの処理に
ついては、従来のコンパイラと同様である（中田育男著
「コンパイラ」産業図書、"ADVANCED COMPILER OPTIMIZ
ATIONS FOR SUPERCOMPUTERS",DAVID A PADUA,Communica
tion of the ACM,Dec.1986,Vol.29,No.12）。

【００４７】さらに、コンパイラは並列化されているプ
ログラム部分がデータ転送を必要とするか否かを判定す
る（ステップ５）。より具体的に説明すると、ステップ
５においてコンパイラは、ステップ３で抽出された並列
実行すべきプログラム部分における／／で指示された分
散方向と、ステップ４で分割された分割方向とが一致し
ていなければ、データ転送が必要と判断する。

【００４８】データ転送を必要と判断された場合にはデ
ータの分割を変換するためのデータ転送文をプログラム
部分の前後に付加する（ステップ６）。より具体的に
は、ステップ６においてコンパイラは、並列実行すべき
プログラム部分に必要なデータを／／内の変数に基づい
て判別し、そのプログラム部分の直前に必要なデータを
収集するデータ転送文を付加し、プログラム部分の直後
に演算結果を戻すデータ転送文を付加する。ここで、直
前に付加されるデータ転送文は、ステップ４で分割され
たデータ（他のＰＥ１のメモリ１１のデータ領域に割当
てられたデータ）で、かつプログラム部分の実行に必要
なデータを収集する（自身のＰＥ１のメモリ１１の一時
記憶領域に転送する）ことを双方のデータ転送装置１３
に指示する。また、直後に付加されるデータ転送文は、
必要に応じてプログラム部分の実行結果（自身のＰＥ１
のメモリ１１の一時記憶領域のデータ）を収集元に戻す
（元のＰＥ１のメモリ１１のデータ領域に転送する）こ
とを双方のデータ転送装置１３に指示する。このように
して付加されるデータ転送文は、図１に示したデータ転
送装置１３の制御レジスタ２２やアドレス生成回路Ｒ２
０ａに対する各種パラメータの設定をその内容とする。
データ転送装置１３は、各種パラメータが設定されると
独立してデータ転送を行えるので、プロセッサ１０にお
けるプログラム部分の演算処理とデータ転送動作とは並
行して動作することが可能になる。

【００４９】この後、データ転送文が付加された中間言
語に基づいて目的コードを生成する（ステップ７）。こ
の目的コードの生成については従来技術（上記の参考文
献）と同じなので、説明を省略する。以上のように構成
された本発明の実施例における並列計算機について、プ
ロセッサエレメント１の個数が４の場合のデータの割当
と並列処理の動作について説明する。

【００５０】図６は、並列処理の対象となる配列データ
が１６×１６の場合のソースプログラムの例である。こ
のソースプログラムは、ＦＯＴＲＡＮをベースにした並
列処理用のプログラムである。ＤＩＭＥＮＳＩＯＮ文５
０、５１における配列Ａ、Ｂ中の／／で囲まれた添え字
は、その添え字毎に配列を分割し、分割された配列を複
数のプロセッサエレメント１のメモリ１１対応させて割
当てることを指示する。この例では、配列の大きさは１
６×１６であるので、配列の第２の添え字毎に配列を１
６分割し、１６個のプロセッサエレメントに割当てるこ
とを指示している。プログラム上は、実際のプロセッサ
エレメント１の個数（本実施例では４）とは無関係に分
割の指定ができるので、プログラム上想定されるプロセ
ッサエレメントを仮想プロセッサエレメントと呼ぶ。こ
のプログラム例では、１６個の仮想プロセッサエレメン
トが存在することになる。

【００５１】ＰＤＯ文５２は、そこからＰＥＮＤ文まで
のプログラム部分を、指定した添え字に関してプロセッ
サエレメントで並列実行させることを指示する。この例
では、ＰＤＯＪ＝１、１６となっているので配列の第
２の添え字Ｊに関して、１６個の仮想的なプロセッサエ
レメントを用いてプログラム部分５３、５４を並列実行
させることを指示している。

【００５２】ＰＤＯ文５５は、この例では１６個の仮想
的なプロセッサエレメントを用いて、配列の第１の添え
字Ｉに関してプログラム部分５６、５７を並列実行させ
ることを指示している。図７は、図６に示したソースプ
ログラムがコンパイルされた結果である目的コードの説
明図である。コンパイル結果の目的コードは、実際には
各メモリ１１に格納される機械語命令のプログラムであ
るが、ここでは説明の便宜上ソースプログラムの形式で
記載している。

【００５３】図７の１１１、１１２は、図６のＤＩＭＥ
ＮＳＩＯＮ５０、５１と同じ形式で記述されているが、
上記ステップ４により分割されたデータを各ＰＥに割当
てて格納する指示を含む。即ち、配列Ａ、Ｂは／／で指
示された方向に分割されて、各ＰＥ１のメモリ１１に格
納される。図８に、図７のＤＩＭＥＮＳＩＯＮ文１１１
における配列データＡ（１：１６、／１：１６／）が分
割された状態と、分割されたデータと１６個の仮想ＰＥ
との対応関係を示す説明図を示す。同図の配列分割（５
０ａ）に示すように２次元の配列Ａは、／／で指示され
た第２の添え字について分割され、第１の添え字の方向
であるＸ方向の１次元配列ごとに１つの仮想プロセッサ
エレメントに割り当てられる。本実施例では実際のプロ
セッサエレメント１は４個であるため、ＰＥ１のそれぞ
れは４つの仮想プロセッサエレメント３を分担する必要
がある。

【００５４】図７の１１３〜１１５、１１７〜１１９
は、４つのＰＥに対する１６個の仮想ＰＥの多重割当を
制御する文である。図９に、２番目のプロセッサエレメ
ント（ＰＥ２）に対する仮想プロセッサエレメント３の
多重割当の説明図を示す。同図に示すようにＰＥ２は、
仮想プロセッサエレメント３の番号２、６、１０、１４
の処理を受け持つ。１つのプロセッサエレメントの受け
持つ仮想プロセッサエレメントの処理を［ｎ］で表す。
この場合はｎは１から４までであり、［１］、［２］、
［３］、［４］によって仮想プロセッサエレメント３の
４つ分が１つのプロセッサエレメントに多重されている
ことを区別する。１つのプロセッサエレメントは多重の
カウントｎを１から４まで実行することで仮想プロセッ
サエレメント３の処理を行う。

【００５５】図１０に、上記のように配列分割及び仮想
ＰＥ３の多重割当がなされた場合の各ＰＥのメモリマッ
プを示す。例えば２番のプロセッサエレメント（ＰＥ
２）にはＡ（１：１６、／２／）、Ａ（１：１６、／６
／）、Ａ（１：１６、／１０／）、Ａ（１：１６、／１
４／）の１６×４個のデータが分散されている。ここで
注意すべき点は、このメモリマップによれば、図６のプ
ログラム中のＰＤＯ文５２とＰＤＯ文５５とで配列デー
タの取り扱いに次のような違いが生じることである。

【００５６】ＰＤＯ文５２は、第２の添え字であるＪに
ついて並列実行、つまり、メモリ１１に割り当てたられ
たＸ方向の１次元配列に対する処理を行う。したがっ
て、図１０のメモリマップでは、各プロセッサエレメン
ト１内のメモリ１１はＰＤＯ文５２に必要なＸ方向の１
次元配列のデータを格納しているので、プロセッサエレ
メント１間の相互のデータ転送は不要である。

【００５７】図７の１１６（ｐｄｏ＿ｂｏｄｙ１（））
は、このＰＤＯ文５２で指示される実行文５３、５４に
対応する目的コードである。このｐｄｏ＿ｂｏｄｙ
１（）１１６の実行に当たってデータ転送は不要である
ので、図１０に示したように分割された配列Ａ、Ｂに対
して各ＰＥ内で演算処理が行われる。これに対して、Ｐ
ＤＯ文５５は、第１の添え字であるＩについて並列実
行、つまり、メモリ１１に割り当てたられたＸ方向とは
異なるＹ方向の処理を行う。したがって、図１０のメモ
リマップでは、各プロセッサエレメント１内のメモリ１
１にはＰＤＯ文５５に必要なＹ方向の１次元配列のデー
タが各プロセッサエレメント１内のメモリ１１に分散し
て格納されているので、プロセッサエレメント１間の相
互のデータ転送が必要である。そのため、ＰＤＯ文５５
の実行時においては、図８に示した配列データの分割
は、ＰＤＯ文５５に適するように分割方法が変換される
必要がある。

【００５８】図７の１２２（ｐｄｏ＿ｂｏｄｙ２（））
は、このＰＤＯ文５５で指示される実行文５６、５７に
対応する目的コードである。このｐｄｏ＿ｂｏｄｙ
２（）１２２の実行に当たってデータ転送が必要である
ので、図７に示すようにその前にデータ転送文１２０、
１２１が、後にデータ転送文１２３、１２４がコンパイ
ラによって付加（図５：ステップ６）されている。

【００５９】図７のデータ転送文１２０、１２１によ
る、ＰＥ１に分散している配列データの分割の変換につ
いて説明する。ｐｄｏ＿ｂｏｄｙ２（）１２２では、配
列データは第１の添え字Ｉで分割されている必要があ
る。図１１に式５７で必要とする配列に分割した状態の
配列分割（５７ａ）と、仮想プロセッサエレメント３へ
の割当の状態を示す。同図に示すように、配列Ａは、第
２の添え字の方向であるＹ方向の１次元配列ごとに１６
に分割され、それぞれが仮想プロセッサエレメント３に
割り当てられる。ここでも、仮想プロセッサエレメント
３は１６個であり１つのプロセッサエレメント１には４
個の仮想プロセッサエレメント３が多重に割り当てられ
る。例えば２番のプロセッサエレメント（ＰＥ２）の一
次記憶領域にはＡ（／２／、１：１６）、Ａ（／６／、
１：１６）、Ａ（／１０／、１：１６）、Ａ（／１４
／、１：１６）の１６×４個のデータが割り当てられ
る。図１１の分割データは、データ転送文１２０、１２
１によって、図１０に示した各ＰＥ内のメモリ１１の一
時記憶領域に配列Ｔ１又はＴ２として格納される。つま
り、図１０のメモリマップに示される配列Ａをプロセッ
サエレメント１の間で相互に転送し、一時記憶領域にお
いて割当を図１１のように変換している。

【００６０】図１２にメモリ上に割り当てられている配
列分割（５０ａ）と演算対象となる配列（５７ａ）の変
換を示す。仮想プロセッサエレメントの１番（ＰＥ１）
が変換後に演算するのに必要なデータは配列Ａ（／１
／、１：１６）であり、配列５７ａの斜線で示した部分
である。このデータは配列５０ａの割当の斜線で示した
部分であり、４つのＰＥのメモリ１１のデータ領域に分
散されている。例えばＰＥ２のメモリ１１のデータ領域
には、Ａ（１、／２／）、Ａ（１、／６／）、Ａ（１、
／１０／）、Ａ（１、／１４／）の４つの仮想プロセッ
サエレメント３のデータが割り当てられている。この４
つのプロセッサエレメント１の各々が保持しているデー
タを、ＰＥ１のメモリ１１の一時記憶領域に集めること
によって分割方向を変換することができる。他の仮想プ
ロセッサエレメントについても同様に他のプロセッサエ
レメント１に割り当てられているデータを転送すること
で配列の分割方向を変換する。

【００６１】次に、図１２に示したように配列データの
分割を変換するため、データ転送文１２０、１２１によ
るＰＥ間のデータ転送時のアドレスの生成について説明
する。ＰＤＯ文５５の中の式５７で使用する配列５７ａ
は、メモリ上には図１０に示す一時領域Ｔ１、Ｔ２に割
り当てられる。配列の分割変換は、ＰＥ間相互におい
て、１つのＰＥのデータ領域から他のＰＥの一時領域Ｔ
１、Ｔ２へのデータ転送で実現される。この一時領域Ｔ
１、Ｔ２の大きさは、配列の１次元の長さが格納できる
大きさとする。一時領域が２つ設けられているので、１
つのＰＥに４つの仮想ＰＥが多重化されているので、仮
想ＰＥ毎にＴ１、Ｔ２を切り替えて使用するためであ
る。この切り替えは、図７の１２５の文により行われ
る。

【００６２】各ＰＥ内のデータ転送装置１３中のアドレ
ス生成回路Ｒ２０ａとアドレス生成回路Ｓ２０ｂは、配
列の割当をデータ転送文１２０、１２１に従って図１０
のように割当てられた配列に対して、ベースアドレスと
増分からアドレスを発生する。ＰＥ１とＰＥ２間のデー
タ転送の様子を図１３（ａ）に示す。例えば、ＰＥ２の
Ａ（１、／２／）をＰＥ１に転送する場合、ＰＥ２→Ｆ
２１→ＰＥ１と２段階での転送が行われる。より具体的
にはＰＥ２→Ｆ２１の段階では、ＰＥ２においてデータ
転送装置１３のアドレス生成回路Ｓ２０ｂが生成する配
列要素Ａ（１、／２／）の読出しアドレスを用いて、メ
モリ１１のデータ領域から配列要素Ａ（１、／２／）の
データが読み出され、データ入出力回路２３を介してＦ
２１に転送される。Ｆ２１→ＰＥ１の段階では、ＰＥ１
においてアドレス生成回路Ｒ２０ａが生成するＴ１
（１）の書込みアドレスを用いて、Ｆ２１からデータ入
出力回路２３を介して入力される配列要素Ａ（１、／２
／）のデータをＴ１（１）として一時記憶領域に書き込
む。このときデータ転送装置１３は、制御レジスタ２２
の分割データサイズ（本実施例では配列要素１６個分）
毎に前記メモリ制御手段を停止させるとともに前記プロ
セッサへ転送終了を通知する。データサイズは、Ｒカウ
ンタ２１ａによって計数される。また、転送終了の通知
は、制御レジスタ２２の値に従って転送制御回路が停止
した時点でプロセッサに割り込みを発生するか、また
は、制御レジスタ２２の中の転送状態を示すステータス
をプロセッサからチェックすることで行われる。

【００６３】他のＰＥ間でも同様にして、一時記憶領域
に配列分割が変換された配列データが収集される。その
結果、各ＰＥ内のメモリ１１の一時記憶領域にはＡ（／
Ｉ／、Ｊ）がＴ１（Ｊ）又はＴ２（Ｊ）として格納され
る。（演算と転送の動作）上記ように各ＰＥにおいて一次領
域に配列が格納される処理と並行して、図７のｐｄｏ＿
ｂｏｄｙ２（）１２２に必要なデータが揃ったもの演算
処理が実行される。プロセッサ１０は、必要なデータが
揃ったかどうかを、前記転送終了の通知により判断す
る。転送終了の通知を受けた後、プロセッサ１０は、配
列データＡ（／Ｉ／、Ｊ）を読み出して演算処理を実行
する。配列データＡ（／Ｉ／、Ｊ）（ＰＤＯ文５５参
照）へのアクセスは、実際にはＴ１（Ｊ）またはＴ２
（Ｊ）へのアクセスによって実行される。演算処理の結
果（式５７において代入される値）は、一時領域Ｔ１、
Ｔ２に書き込まれる。

【００６４】さらに、ｐｄｏ＿ｂｏｄｙ２（）１２２の
演算処理と並行して、一時記憶領域に格納された演算結
果を元のデータ領域に戻すデータ転送がなされる。図１
３（ｂ）にＰＥ１とＰＥ２間で演算結果を戻すデータ転
送の説明図を示す。例えば、ＰＥ１のＴ１（１）をＰＥ
２のＡ（１、／２／）に戻す場合、ＰＥ１→Ｆ１２→Ｐ
Ｅ２と２段階での転送が行われる。より具体的にはＰＥ
１→Ｆ１２の段階では、ＰＥ１においてデータ転送装置
１３のアドレス生成回路Ｓ２０ｂが生成するＴ１（１）
の読出しアドレスを用いて、メモリ１１の一時記憶領域
からＴ（１）のデータが読み出され、データ入出力回路
２３を介してＦ１２に転送される。Ｆ１２→ＰＥ２の段
階では、ＰＥ２においてアドレス生成回路Ｒ２０ａが生
成するデータ領域Ａ１（１、／２／）の書込みアドレス
を用いて、Ｆ１２からデータ入出力回路２３を介して入
力されたデータＴ１（１）を配列要素Ａ（１、／２／）
としてデータ領域に書き込む。

【００６５】他のＰＥ間でも同様にして、一時記憶領域
からデータ領域に対して演算結果である配列データが再
収集される。その結果、各ＰＥ内のメモリ１１のデータ
領域に演算結果Ａ（Ｉ、／Ｊ／）が格納される。図１０
のメモリマップ中には省略しているが、配列Ｂについて
も同様に第２の添え字について分割されてＸ方向の１次
元配列ごとに多重割当されており、式５７の配列Ｂにつ
いても一時領域Ｔ１’、Ｔ２’（図外）に割り当てられ
る。ただし、式５７の配列Ｂは参照のみで代入していな
いのでこの例の場合は演算後にＴ１’、Ｔ２’から配列
Ｂの分割に戻すデータ転送は不要である。

【００６６】図１４は、上記のプロセッサ１０の演算処
理とデータ転送装置１３のデータ転送処理の動作順序を
示す。横軸は時間の経過を表す。実行文の前のデータ転
送、つまりデータ領域から一時記憶領域への（図１３
（ａ）に示したＡからＴ１またはＴ２への）データ転送
をＲで表し、実行文の後のデータ転送、つまり一時記憶
領域からデータ領域への（図１３（ｂ）に示したＴ１、
Ｔ２からＡへの）データ転送をＳで表す。前述したよう
に多重割当てされている１次元配列について、多重の回
数分の仮想プロセッサエレメント３の処理をおこなうた
め、１つのプロセッサエレメントはデータ転送Ｒ、Ｓと
もに［１］から［４］まで実行する。

【００６７】データ転送装置１３における一時領域Ｔ
１、Ｔ２に変換するＲ［ｎ］の転送の終了に従って、転
送されたデータに対するプロセッサ１０の演算処理を開
始する。プロセッサ１０の演算終了後は、データ転送装
置１３を起動しＳ［ｎ］のデータ転送を行う。プロセッ
サ１０からデータ転送装置１３へは、制御レジスタ２２
への設定と転送制御回路２４の起動によってデータ転送
が起動される。

【００６８】プロセッサ１０からのデータ転送の起動
は、次の２通りがある。１つはＲ［ｎ］の転送であり、
もう１つはＳ［ｎ］の転送とこのＳ［ｎ］に引き続いて
Ｒ［ｎ＋２］の転送を行うデータ転送の起動である。２
つめの転送の起動では、転送制御回路２４でプロセッサ
１０への割り込みによってＳからＲに切り替える処理を
行うかまたは、転送制御回路２４においてＳの後にＲの
処理を連続して実行する。

【００６９】最初にＲ［１］が起動され（図７：データ
転送文１２０）、この終了後に１つめの仮想プロセッサ
エレメントの処理ＰＤＯ［１］が実行される（実行文１
２２）。このＰＤＯ［１］に入るときに、次の仮想プロ
セッサエレメントの処理に必要なデータの転送Ｒ［２］
が起動される（データ転送文１２１）。２つめの仮想プ
ロセッサエレメントの処理ＰＤＯ［２］に入るときに
は、処理結果を戻すＳ［１］を起動する（データ転送文
１２３、１２４）。このときデータ転送文１２３でデー
タ転送文１２１の終了を待ってからｄｏループが実行さ
れる。これにより次のｄｏループの実行文１２２が正し
く処理されるようになる。データ転送装置１３は、Ｓ
［１］の処理が終了した後に次の仮想プロセッサエレメ
ントの処理ＰＤＯ［３］のためのデータ転送Ｒ［３］を
実行する（データ転送文１２１）。このような処理を続
けることにより図１４に示したようにプロセッサ１０の
演算処理とデータ転送装置１３のデータ転送処理とが並
列に実行される。仮想プロセッサエレメントの最後の処
理ＰＤＯ［４］とその１つ前の処理ＰＤＯ［３］のあと
は、Ｒのデータ転送はもはや起動されない。

【００７０】ここでは、配列Ｂについても同様にＲ
［１］からＲ［４］までの処理を行なう。このとき、Ｐ
ＤＯ文内では配列Ｂは参照のみで値が変化していないの
で、元のメモリ領域に戻す必要がなく、Ｓのデータ転送
は不要である。なお、３次元配列以上の次元の配列につ
いても同様に１次元配列ごとに分割し、この分割したデ
ータごとにデータ転送とプロセッサの処理と並行して実
行することで効率のよい並列処理を行うことができる。

【００７１】また、多重割当をせずに配列全体をて一旦
すべて一時領域に転送し、この後でプロセッサの演算を
行ない最後に元のメモリ領域に戻すことも、多重の数が
１であるとして処理すれば容易に実行可能である。ま
た、多重の代わりに複数の配列についてデータ転送と演
算処理を繰り返して実行することもできる。この場合
は、複数の配列について、配列単位にＲとＳのデータ転
送を行い、プロセッサエレメントにおける演算処理と並
行して実行する。

【００７２】以上のように、各ＰＥのメモリ１１は、配
列データを１つの方向に分割して割り当てておくデータ
領域と、分割された１方向分の配列データの容量をもつ
一時記憶領域とを確保するけで済むので、メモリの使用
量を削減することができる。配列のサイズが大きくなっ
て１つのプロセッサエレメントの受け持つ仮想プロセッ
サエレメントの個数が多くなっても、一時領域は各変数
毎に１つの次元の長さの領域を確保するだけでよい。メ
モリの使用量は、次元の数だけ分割して割り当てるのに
比べて、３次元配列では１／３であり２次元配列では１
／２に削減される。

【００７３】また、データ転送は、メモリのアドレス生
成によって順次実行されるので、メッセージ通信や必要
なデータを要求してから応答するシステムに発生するよ
うな待ち時間がない。図１４に示したように、演算処理
とデータ転送処理は並行して実行されるので、転送時間
の大部分を演算時間に隠すことができ、効率の良い並列
処理が可能となる。特に大規模なデータ処理になるほど
多重割当の数が大きくなり、全体の転送時間のうち隠れ
る部分の割合が大きくなり効果が大きい。

【００７４】本発明の他の実施例における並列計算機に
ついて説明する。図１５は、本実施例におけるＰＥの構
成を示す図である。このＰＥは、プロセッサ１０、メモ
リコントローラ（以下、ＭＣＵと称す）３２ａ、データ
転送装置１３、ＭＣＵ３２ｂ、ＤＲＡＭ１１ｃ、ＳＲＡ
Ｍ１１ｄとから構成され、バス１２にＭＣＵ３２ａ、３
２ｂ、ＤＲＡＭ１１ｃ、ＳＲＡＭ１１ｄが接続されてい
る。第１の実施例におけるメモリ１１がＤＲＡＭ１１ｃ
とＳＲＡＭ１１ｄとから構成されている。第１の実施例
と同じ符号の構成要素は同一のものなので、説明を省略
する。

【００７５】ＳＲＡＭ１１ｄ、ＤＲＡＭ１１ｃは、前者
が後者よりも高速なアクセスタイムを有するメモリであ
る。この両者を併せて、第１の実施例におけるメモリ１
１と等価であり、リニアなアドレス空間上にマッピング
されている。る。ＤＲＡＭ１１ｃは第１の実施例で説明
したデータ領域即ち各ＰＥ毎に分割されたデータを記憶
し、ＳＲＡＭ１１ｄは一時記憶領域即ちワークエリアと
して用いられる。

【００７６】ＭＣＵ３２ａは、プロセッサ１０がＤＲＡ
Ｍ１１ｃ又はＳＲＡＭ１１ｄにアクセスするときに、ア
クセス先がＤＲＡＭ１１ｃであるかＳＲＡＭ１１ｄであ
るかに応じてそれぞれに適したアクセスタイムになるよ
うにアクセスを制御する。ＭＣＵ３２ｂは、ＭＣＵ３２
ａと同じであり、データ転送装置１３からのアクセスを
制御する。以降２つのＭＣＵに共通の説明ではＭＣＵ３
２と略記する。

【００７７】図１６は、ＭＣＵ３２の構成を示す図であ
る。ＭＣＵ３２はメモリコントロールレジスタ３３、ア
クセス制御回路３４とから構成される。同図において内
部バス２７は、プロセッサ１０またはデータ転送装置１
３を接続するバスであり、内部バス制御線８３、アドレ
スバス８４、データバス８５からなる。内部バス制御線
８３は、メモリコントロールレジスタ３３は、ＤＲＡＭ
１１ｃ、ＳＲＡＭ１１ｄそれぞれのアドレス空間とサイ
クルタイムを保持している。

【００７８】アクセス制御回路３４は、プロセッサ１０
またはデータ転送装置１３から内部バス２７を介してメ
モリアクセスを要求されると、アドレスバス８４のアド
レスがＤＲＡＭ１１ｃ、ＳＲＡＭ１１ｄのいずれのアド
レス空間に属するかを判別し、アドレス空間に応じたサ
イクルタイムでアクセスを制御する。以上の構成の並列
計算機における並列処理の動作について説明する。本実
施例においても、図６および図７に示したプログラム例
を用いる。

【００７９】図１７にＤＲＡＭ１１ｃ、ＳＲＡＭ１１ｄ
のアドレス空間を示す。同図に示すようにＤＲＡＭ領域
は、配列Ａ５０と配列Ｂを記憶するデータ領域、ＳＲＡ
Ｍ空間は配列分割の変換に用いるワークエリアである一
時記憶領域として割り当てられる。ＳＲＡＭ領域は、例
えば図７の実行文１２２（図６ではＰＤＯ文５５）に必
要なデータで、データ領域の配列の分割方向とは異なる
方向の配列データＴ２が割り当てられる。

【００８０】図７の実行文１１６（図６：ＰＤＯ文５
２）については、プロセッサエレメント１の間のデータ
転送は不要であり、このときはＤＲＡＭ領域から配列Ａ
と配列Ｂとがアクセスされる。より具体的には、ＭＣＵ
３２ａにおいてアドレス空間がＤＲＡＭ１１ｃの空間で
あることが判別されると、メモリサイクルがＤＲＡＭサ
イクルにてアクセスされる。

【００８１】図７の実行文１２２（図６：ＰＤＯ文５
５）については、前述したように、配列の分割方向が異
なるためデータ転送装置１３によって一時領域Ｔ１、Ｔ
２にデータ転送が行われる（データ転送文１２０、１２
１）。このとき、図１３（ａ）に示したように、各ＰＥ
内のデータ転送装置１３のメモリアクセスは、ＤＲＡＭ
１１ｃからの配列Ａ、Ｂの読み出しと、ＳＲＡＭ１１ｄ
への配列データＴ１、Ｔ２の書き込みとがなされる。Ｍ
ＣＵ３２ｂによってアドレス空間がＳＲＡＭ１１ｄ、Ｄ
ＲＡＭ１１ｃのいずれであるかが判別され、ＳＲＡＭ１
１ｄ、ＤＲＡＭ１１ｃのサイクルタイムに合わせてメモ
リアクセスを行う。

【００８２】このデータ転送と並行してプロセッサ１０
が演算処理を行う（実行文１２２）。このとき、プロセ
ッサ１０のメモリアクセスはＴ１、Ｔ２を格納するＳＲ
ＡＭ１１ｄに対して行われるため、プロセッサ１０側の
ＭＣＵ３２ａのメモリサイクルはＳＲＡＭ１１ｄのサイ
クルタイムで行われる。さらに、演算結果に対するデー
タ転送（データ転送文１２３、１２４）が図１３（ｂ）
に示したよう行われる。

【００８３】図１８にＤＲＡＭ１１ｃとＳＲＡＭ１１ｄ
のサイクルタイムが３：１の場合のメモリ１１ｃ、１１
ｄのアクセスのシーケンスの例を示す。この図は１つの
データについてのアクセスだけを示したものであり、例
えば、ＤＲＡＭ１１ｃに割り当てられている配列データ
Ａ（１、／１／）について見ると、プロセッサエレメン
ト１（ＰＥ１）でのデータ転送装置１３からの読み出し
（Ｒ−Ｒ）はＤＲＡＭ１１ｃのアクセスとなる。データ
転送装置１３は、このデータを一時領域Ｔ１、Ｔ２に書
き込む（Ｒ−Ｗ）ときは、ＳＲＡＭ１１ｄへのアクセス
となる。同様に、一時領域Ｔ１、Ｔ２からの読み出し
（Ｓ−Ｒ）はＳＲＡＭ１１ｄへのアクセスであり、この
データがネットワーク２を通じて転送されてきた後に格
納される配列データＡ（１、／１／）への書き込み（Ｓ
−Ｗ）はＤＲＡＭ１１ｃのアクセスとなる。この間のプ
ロセッサ１０の演算は一時領域Ｔ１、Ｔ２に対して実行
されＳＲＡＭ１１ｄへのアクセスとなる。従って、１つ
の配列データに関する合計６回のアクセスのうち、４回
のアクセスをＳＲＡＭ１１ｄに対して実行することにな
る。

【００８４】以上述べたように、アドレス空間を分割し
て一時領域として速度の速いメモリを小量付加するだけ
でデータ転送処理と演算処理におけるメモリアクセスを
高速化することができ、メモリアクセスのボトルネック
を減少することが可能となる。特に、大規模配列を格納
するために低コストな速度の遅いＤＲＡＭを使用したシ
ステムにおいて効果が大きい。この一時領域は配列の一
部分の大きさでよいので、多重割当を行う場合なのどの
プログラム上の配列サイズが大きい場合でも、一時領域
のサイズは小量で済む。また、図１７では、メモリ割り
当てをアドレスの小さい方から大き方へＳＲＡＭとＤＲ
ＡＭの順に割り当てているが、Ｔ１、Ｔ２のサイズがＳ
ＲＡＭのサイズよりも大きいときは、ＳＲＡＭを越える
部分が自動的にＤＲＡＭ領域にかかるだけであり、プロ
グラムの制限はない。

【００８５】なお、上記ＳＲＡＭ領域は、配列の分散／
収集に使用しないときは、システム領域として使用して
もよい。この場合は、メッセージ通信などにおいて、ラ
ンダムに受信するデータを、一時的にシステム領域に書
き込む。プロセッサエレメント上のＯＳ（オペレーティ
ングシステム）によって、システム領域のメッセージを
解読して、ユーザープログラムに渡す処理を、高速なメ
モリ領域において実行可能なため高速化が可能となる。

【００８６】図１９は、本発明の第３の実施例における
並列計算機の構成を示す図である。同図において、プロ
セッサエレメント１は、プロセッサ１０、１ポートメモ
リ９０、２ポートメモリ９１、データ転送装置１３１か
ら構成される。前述の実施例と同じ符号の構成要素は、
同じものなので説明を省略する。１ポートメモリ９０、
２ポートメモリ９１は、前述の実施例のメモリ１１に相
当するメモリであり、それぞれデータ領域、一時記憶領
域に対応する。

【００８７】バス９２は、プロセッサ１０、１ポートメ
モリ９０、２ポートメモリ９１の一方のポート、データ
転送装置１３１を接続する。バス９３は、２ポートメモ
リ９１の他方のポートとデータ転送装置１３１とを接続
する。バス切り替え回路３５、３６は、バス９２、バス
９３とデータ転送装置１３の内部バス２７及びアドレス
バス２６ａ、２６ｂとの接続を切り替える。このバス切
り替え回路３５、３６によって、データ転送装置は１ポ
ートメモリ９０及び２ポートメモリ９１にアクセスを行
う。プロセッサ１０からは、１ポートメモリ９０と２ポ
ートメモリ９１のアドレス空間を切り替えることで１つ
のバス９２を通じてメモリアクセスする。

【００８８】以上の構成の並列計算機についての動作を
説明する。図２０に１ポートメモリ９０、２ポートメモ
リ９１のメモリマップを示す。図面２のプログラム例に
おける配列Ａ及び配列Ｂは、１ポートメモリ９０に割り
当てられる。実行文１２２（式５７）でアクセスされる
配列データＴ１、Ｔ２は、を２ポートメモリ９１に割り
当てられる。

【００８９】図２１にメモリアクセスの発生順序の例を
示す。バス９２とバス９３にそれぞれ、前述したのと同
様にデータ転送装置１３のデータ転送処理に必要なメモ
リアクセス（Ｒ−Ｒ、Ｒ−Ｗ、Ｓ−Ｒ、Ｓ−Ｗ）とプロ
セッサ１０の演算処理に必要なメモリアクセス（プロセ
ッサ１、プロセッサ２）が発生する。図２１の中のそれ
ぞれに付与されている番号１、２は２種類のデータが次
々とアクセスされて処理される状態を区別したものであ
る。データ転送装置１３における配列Ａ（１、／１／）
の読みだし（Ｒ−Ｒ）と書き込み（Ｓ−Ｗ）は１ポート
メモリ９０のメモリアクセスである。プログラム上の分
割方向の異なる配列Ａ（／１／、１）の読みだし（Ｓ−
Ｒ）と書き込み（Ｒ−Ｗ）については、Ｔ１、Ｔ２の領
域となる２ポートメモリ９１へのメモリアクセスとな
る。従って、データ転送装置１３のメモリアクセスは、
図２１に示したように１つめと２つめを重ねることがで
き、メモリのアクセスする回数を見かけ上減少させるこ
とができる。

【００９０】以上説明したように、２ポートメモリ９１
に一時領域Ｔ１、Ｔ２を割り当てることにより、プロセ
ッサエレメント間のデータ転送におけるデータ転送装置
１３のメモリアクセスを並行して実行することができ、
メモリアクセスを高速化することができる。また、この
２ポートメモリ９１は一時領域Ｔ１、Ｔ２のため小容量
でよいので、コストの増加を抑えることができる。な
お、２ポートメモリ９１を高速なアクセスタイムのメモ
リとし、前記他の実施例に示したようなアドレス空間に
応じてメモリサイクルを変化させることのできるＭＣＵ
３２を使用することで、プロセッサ１０における演算処
理のメモリアクセスも高速化することができ、データ転
送処理とともに演算処理も高速化することができる。

【００９１】なお、図２２に示すように、バス９２ａ、
９２ｂ、９２ｃを複数にしてそれぞれに１ポートメモリ
９０ａ、９０ｂ、９０ｃを接続し、２ポートメモリ９１
ｃをバス９３ｃに接続する構成も可能である。この場合
には、図２３のメモリマップに示すように、３次元配列
の分割を３通りにして、それぞれの１ポートメモリ９０
ａ、９０ｂ、９０ｃに割り当てる。配列は、Ｘ方向の１
次元配列ごとの分割であるＡ（１：１６、／１、１／）
とＹ方向の分割であるＣ（１／、１：１６、／１）とＺ
方向の分割であるＢ（／１、１／、１：１６）の３通り
をそれぞれ割り当てる。プロセッサ１０における、ある
方向についての演算処理は、他の方向から必要とするデ
ータ転送のためのデータ転送装置のメモリアクセスと競
合することがなくなり、メモリアクセスを並列化するこ
とが可能となり、メモリアクセスを高速化することが可
能となる。また、一時領域として２ポートメモリ９１ｃ
を割り当てることで、データ転送装置１３におけるこの
一時領域のメモリアクセスを、１ポートメモリ９０ｃと
並行に行うことも可能である。

【００９２】

【発明の効果】以上説明してきたように、請求項１の発
明に係る並列計算機において、メモリ手段は、各プロセ
ッサエレメントに割り当てられたデータを記憶する容量
と、プロセッサの第２の演算処理に必要なデータ容量と
が確保されていればよいので、メモリ容量を大幅に削減
することができるという効果がある。

【００９３】請求項２の発明に係る並列計算機では、請
求項１の効果に加えて、プロセッサの演算処理と第１の
データ転送と第２のデータ転送とを並行して実行させる
ので、見かけ上プロセッサの演算処理時間に、第１、第
２のデータ転送時間を隠すことが可能となるので、並列
計算の全体の処理速度を向上させることができるという
効果がある。

【００９４】請求項３の発明に係る並列計算機では、請
求項１又は２と同様の効果があり、特に、２次元以上の
配列データが１つの次元方向に沿って分割し、異なる分
割方向に再分割・収集する必要がある場合の並列計算に
効果を奏する。請求項４の発明に係る並列計算機では、
請求項３と同様の効果に加えて、第１のデータ転送と第
２のデータ転送を異なるバッファに対して実行できるの
で、さらに処理速度を向上させることができるという効
果がある。

【００９５】請求項５の発明に係る並列計算機では、請
求項４と同様の効果に加えて、メモリ手段は、各プロセ
ッサエレメントに割り当てられたデータを記憶する容量
と、プロセッサの第２の演算処理に必要なデータ容量と
が確保されていればよいので、並列計算に必要なメモリ
容量を削減することができるという効果がある。請求項
６の発明に係る並列計算機では、請求項５と同様の効果
に加えて、プロセッサの演算処理と第１のデータ転送と
第２のデータ転送とを並行して実行させるので、見かけ
上プロセッサの演算処理時間に、第１、第２のデータ転
送時間を隠すことが可能となるので、並列計算の全体の
処理速度を向上させることができる。

【００９６】請求項７の発明に係る並列計算機では、請
求項５又は６と同様の効果に加えて、第２の領域に対す
るデータ転送をより高速に実現できる。請求項８の発明
に係る並列計算機では、第１のデータ転送と第２のデー
タ転送におけるアクセスの競合を低減できるので、少な
いメモリ容量でより高速なデータ転送が可能となる。

【００９７】請求項９の発明に係る並列計算機では、請
求項８と同様の効果加えて、プロセッサの演算処理と第
１のデータ転送と第２のデータ転送とを並行して実行さ
せるので、見かけ上プロセッサの演算処理時間に、第
１、第２のデータ転送時間を隠すことが可能となるの
で、並列計算の全体の処理速度を向上させることができ
る。

【００９８】請求項１０の発明に係る並列計算機では、
多次元の配列データを異なる次元方向に分割した分割デ
ータのうち、全ての次元方向の分割データを記憶しなく
ても、複数個の分割データをメモリ手段に割り当てられ
るのでより少ないメモリ容量で並列処理を実現すること
ができる。請求項１１の発明に係る並列計算機では、請
求項１０と同様の効果に加えて、プロセッサの演算処理
と第１のデータ転送と第２のデータ転送とを並行して実
行させるので、見かけ上プロセッサの演算処理時間に、
第１、第２のデータ転送時間を隠すことが可能となるの
で、並列計算の全体の処理速度を向上させることができ
る。

【図面の簡単な説明】

【図１】本発明の実施例におけるプロセッサエレメント
の構成図である。

【図２】同実施例におけるアドレス生成回路の構成図で
ある。

【図３】同実施例における並列計算機の構成図である。

【図４】同実施例におけるネットワークの構成図であ
る。

【図５】同実施例における並列計算機に供するコンパイ
ラの処理フロー図である。

【図６】同実施例における並列計算機用のソースプログ
ラム例を示す図である。

【図７】同実施例における並列計算機用の目的プログラ
ム例を示す図である。

【図８】同実施例における仮想プロセッサエレメントへ
のデータ割当図である。

【図９】同実施例におけるプロセッサエレメントへの仮
想プロセッサエレメントの多重割当を示す図である。

【図１０】同実施例におけるプロセッサエレメントのメ
モリマップ図である。

【図１１】同実施例におけるプロセッサエレメントへの
仮想プロセッサエレメントの多重割当を示す図である。

【図１２】２種類の分割方法の間のプロセッサエレメン
トへのデータの割当の変換を示す図である。

【図１３】（ａ）配列の分割を変換（再分散）する場合
のデータ転送の説明図である。（ｂ）配列の分割を変換（収集）する場合のデータ転送
の説明図である。

【図１４】同実施例におけるプロセッサの演算処理とデ
ータ転送装置のデータ転送処理の動作順序を示す図であ
る。

【図１５】本発明の他の実施例におけるプロセッサエレ
メントの構成を示す図である。

【図１６】同実施例におけるメモリコントロールユニッ
トの構成図である。

【図１７】同実施例におけるメモリマップを示す図であ
る。

【図１８】同実施例におけるプロセッサの演算処理とデ
ータ転送装置のデータ転送処理の動作順序を示す図であ
る。

【図１９】本発明の第３の実施例のプロセッサエレメン
トの構成を示す図である。

【図２０】同実施例におけるメモリマップを示す図であ
る。

【図２１】同実施例におけるプロセッサの演算処理とデ
ータ転送装置のデータ転送処理の動作順序を示す図であ
る。

【図２２】図１９のプロセッサエレメントのバスの拡張
例の構成図である。

【図２３】図２２の構成におけるメモリマップを示す図
である。

【図２４】従来技術におけるのプログラム例である。

【図２５】従来技術におけるメモリマップを示す図であ
る。

【符号の説明】

１プロセッサエレメント２ネットワーク３仮想プロセッサエレメント１０プロセッサ１１メモリ１１ｃＤＲＡＭ１１ｄＳＲＡＭ１２バス１３データ転送装置１４入出力ポート２０ａアドレス生成回路Ｒ２０ｂアドレス生成回路Ｓ２１ａＲカウンタ２１ｂＳカウンタ２２制御レジスタ２３データ入出力回路２４転送制御回路２５データバス２６アドレスバス２６ａアドレスバス２７内部バス３２ＭＣＵ３２ａＭＣＵ３２ｂＭＣＵ３３メモリコントロールレジスタ３４アクセス制御回路３５バス切り替え回路４１パラメータレジスタ４２アドレスレジスタ４３セレクタ４４加算器

Claims

【特許請求の範囲】

【請求項１】複数のプロセッサエレメントと、プロセ
ッサエレメント間を相互に結合するネットワークとを有
する並列計算機であって、プロセッサエレメントの各々は、メモリ手段とプロセッ
サと第１のデータ転送手段と第２のデータ転送手段とを
有し、メモリ手段は、プロセッサに対するプログラムと、プロ
セッサエレメントに割当てられたデータとを記憶する第
１の領域と、作業用データを一時的に記憶する第２の領
域とを有し、第１のデータ転送手段は、他のプロセッサエレメントの
第１の領域に割当てられたデータのうち自身のプロセッ
サの演算処理に必要なデータを、ネットワークを介して
自身の第２の領域に転送する第１のデータ転送を実行
し、プロセッサは、プログラムに従って第１の領域のデータ
を用いて演算を実行し、演算結果を第１の領域に書き戻
す第１の演算処理と、プログラムに従って第２の領域の
データを用いて演算を実行し、演算結果を第２の領域に
書き戻す第２の演算処理とを実行し、第２のデータ転送手段は、他のプロセッサエレメントに
おける第２の領域に格納された演算結果を、ネットワー
クを介して自身のプロセッサエレメントの第１の領域に
転送する第２のデータ転送を実行することを特徴とする
並列計算機。
【請求項２】前記プロセッサは、プログラムに従って第
１の演算処理及び第２の演算処理のいずれかを異なるデ
ータに対してくり返し実行し、前記第１のデータ転送手段は、プロセッサの第１又は第
２の演算処理と並行して次の第２の演算処理に対する第
１のデータ転送を実行し、前記第２のデータ転送手段はプロセッサの第１又は第２
の演算処理と並行して１つ前の第２の演算処理に対する
第２のデータ転送を実行することを特徴とする請求項１
記載の並列計算機。
【請求項３】前記メモリ手段は第１の領域に、２次元以
上の配列データが１つの次元方向に沿って分割された分
割データであって第１の演算処理の対象となる分割デー
タを記憶し、前記第１のデータ転送手段は、前記配列データを異なる
次元方向に沿って分割された分割データに対してプロセ
ッサが第２の演算処理を行う場合に、前記異なる次元方
向に沿って分割された分割データの配列要素を他のプロ
セッサエレメントから第２の領域に転送することを特徴
とする請求項１又は２記載の並列計算機。
【請求項４】前記メモリ手段は第２の領域として、他の
プロセッサエレメントに割当てられた第１の領域のデー
タのうち自身のプロセッサの演算処理に必要なデータを
保持する第１のバッファと、第１のバッファと同じ容量
の第２のバッファとを有し、前記第１のデータ転送手段は、第１のデータ転送を実行
する毎に転送先として第１、第２のバッファを交互に切
り替え、前記プロセッサは、第２の演算処理を実行する毎に演算
処理の対象となるデータとして第１のバッファと第２の
バッファとを交互に切り替え、前記第２のデータ転送手段は、第２のデータ転送を実行
する毎に転送元として他のプロセッサエレメントの第
１、第２のバッファを交互に切り替えることを特徴とす
る請求項３記載の並列計算機。
【請求項５】複数のプロセッサエレメントと、プロセ
ッサエレメント間を相互に結合するネットワークとを有
する並列計算機であって、プロセッサエレメントの各々は、バス接続されたプロセ
ッサ、メモリ手段およびデータ転送手段を有し、メモリ手段は、プロセッサに対するプログラムと、２次
元以上の配列データが１つの次元方向に沿って分割され
た分割データのうちプロセッサエレメントに割当てられ
たデータを記憶する第１の領域と、作業用データを一時
的に記憶する第２の領域とを有し、プロセッサは、プログラムに従って第１の領域のデータ
に対して演算を実行する第１の演算処理と、プログラム
に従って第２の領域のデータに対して演算を実行する第
２の演算処理とを実行し、データ転送手段は、第１の領域に記憶された分割データの先頭アドレス及び
データサイズを含む第１の制御情報と、第２の領域に記
憶すべき分割データの先頭アドレス及びデータサイズを
含む第２の制御情報とを記憶する制御情報記憶手段と、第１の制御情報に基づいて第１の領域のアドレスを生成
する第１のアドレス生成手段と、第２の制御情報に基づいて第２の領域のアドレスを生成
する第２のアドレス生成手段と、メモリ手段から読み出されたデータをネットワークに出
力し、メモリ手段に書き込むべきデータをネットワーク
から入力するデータ入出力手段と、第１のアドレス生成手段のアドレスに従って自身のプロ
セッサエレメントの第１の領域のデータを読み出して、
データ入出力手段を介して他のプロセッサエレメントに
出力する分散制御と、データ入出力手段を介して入力さ
れる他のプロセッサエレメントの第１の領域のデータ
を、第２のアドレス生成手段のアドレスに従って自身の
プロセッサエレメントの第２の領域へ収集する収集制御
とを行う制御手段とを有することを特徴とする並列計算
機。
【請求項６】前記プロセッサは、プログラムに従って第
１の演算処理及び第２の演算処理のいずれかを繰り返し
実行し、前記制御手段は、プロセッサの第１又は第２の演算処理
と並行して、他のプロセッサエレメントの演算処理に対
する分散制御を実行し、プロセッサの第１又は第２の演
算処理と並行して１つ前の第２の演算処理に対する収集
制御を実行することを特徴とする請求項５記載の並列計
算機。
【請求項７】前記メモリ手段は、第２の領域が第１の領
域よりもアクセスタイムが短いメモリ素子で構成されて
いることを特徴とする請求項５又は６記載の並列計算
機。
【請求項８】複数のプロセッサエレメントと、プロセ
ッサエレメント間を相互に結合するネットワークとを有
する並列計算機であって、プロセッサエレメントの各々は、２ポートメモリ手段
と、１ポートメモリ手段と、プロセッサと、データ転送
装置と、２ポートメモリ手段の一方のポートと１ポート
メモリ手段とプロセッサとデータ転送装置とを接続する
第１のバスと、２ポートメモリ手段の他方のポートとデ
ータ転送装置とを接続する第２のバスを有し、１ポートメモリ手段は、２次元以上の配列データについ
て１つの次元方向に沿って分割された分割データのうち
プロセッサエレメントに割り当てられた分割データを記
憶する第１の領域を有し、２ポートメモリ手段は、前記配列データの異なる次元方
向に沿って分割された分割データに対してプロセッサが
第２の演算処理を行う場合に、前記異なる次元方向に沿
って分割された分割データを記憶すべき第２の領域を有
し、プロセッサは、プログラムに従って第１の領域のデータ
に対して演算を実行する第１の演算処理と、プログラム
に従って第２の領域のデータに対して演算を実行する第
２の演算処理とを実行し、データ転送手段は、第１の領域に記憶された分割データの先頭アドレス及び
データサイズを含む第１の制御情報と、第２の領域に記
憶すべき分割データの先頭アドレス及びデータサイズを
含む第２の制御情報とを記憶する制御情報記憶手段と、第１の制御情報に基づいて第１の領域のアドレスを生成
する第１のアドレス生成手段と、第２の制御情報に基づいて第２の領域のアドレスを生成
する第２のアドレス生成手段と、１ポートメモリ手段から読み出されたデータをネットワ
ークに出力し、２ポートメモリ手段に書き込むべきデー
タをネットワークから入力するデータ入出力手段と、第１のアドレス生成手段のアドレスに従って自身のプロ
セッサエレメントの第１の領域のデータを読み出して、
データ入出力手段を介して他のプロセッサエレメントに
出力する分散制御と、データ入出力手段を介して入力さ
れる他のプロセッサエレメントの第１の領域のデータ
を、第２のアドレス生成手段のアドレスに従って自身の
プロセッサエレメントの第２の領域へ収集する収集制御
とを行う制御手段とを有することを特徴とする並列計算
機。
【請求項９】前記プロセッサは、プログラムに従って第
１の演算処理及び第２の演算処理のいずれかを繰り返し
実行し、前記制御手段は、プロセッサの第１又は第２の演算処理
と並行して、他のプロセッサエレメントの演算処理に対
する分散制御を実行し、プロセッサの第１又は第２の演
算処理と並行して１つ前の第２の演算処理に対する収集
制御を実行することを特徴とする請求項８記載の並列計
算機。
【請求項１０】複数のプロセッサエレメントと、プロ
セッサエレメント間を相互に結合するネットワークとを
有する並列計算機であって、プロセッサエレメントの各々は、プロセッサと、データ
転送手段と、プロセッサとデータ転送手段を接続するｎ
（ｎは整数）本のバスと、ｎ本のバスのそれぞれに接続
されたｎ個のメモリ手段とを有し、ｎ個のメモリ手段のそれぞれは、２次元以上の配列デー
タについて互いに異なる次元方向に沿って分割された分
割データを記憶する第１の領域と、作業用データを一時
的に記憶する第２の領域とを有し、プロセッサは、プログラムに従って各メモリ手段の第１
の領域又は第２の領域のデータに対して演算を実行する
演算処理を実行し、データ転送手段は、ｊ（ｊは１以上ｍ以下）番目のメモリ手段の第１の領域
に記憶された分割データの先頭アドレス及びデータサイ
ズを含む第１の制御情報と、ｋ（ｋはｊ以外で１以上ｍ
以下）番目のメモリ手段の第２の領域に記憶すべき分割
データの先頭アドレス及びデータサイズを含む第２の制
御情報とを記憶する制御情報記憶手段と、第１の制御情
報に基づいてｊ番目のメモリ手段の第１の領域のアドレ
スを生成する第１のアドレス生成手段と、第２の制御情報に基づいてｋ番目のメモリ手段の第２の
領域のアドレスを生成する第２のアドレス生成手段と、メモリ手段から読み出されたデータをネットワークに出
力し、メモリ手段に書き込むべきデータをネットワーク
から出力するデータ入出力手段と、第１のアドレス生成手段のアドレスに従って自身のプロ
セッサエレメントのｊ番目のメモリ手段の第１の領域の
データを読み出して、データ入出力手段を介して他のプ
ロセッサエレメントに出力する分散制御と、データ入出
力手段を介して入力される他のプロセッサエレメントの
データを、第２のアドレス生成手段のアドレスに従って
自身のプロセッサエレメントのｋ番目のメモリ手段の第
２の領域へ収集する収集制御とを行う制御手段とを有す
ることを特徴とする並列計算機。
【請求項１１】前記プロセッサは、プログラムに従って
演算処理を繰り返し実行し、前記制御手段は、プロセッサの演算処理と並行して、他
のプロセッサエレメントの演算処理に対する分散制御を
実行し、プロセッサの第１又は第２の演算処理と並行し
て１つ前の第２の演算処理に対する収集制御を実行する
ことを特徴とする請求項１０記載の並列計算機。