JP2717850B2

JP2717850B2 - 高速通信機構を持った並列計算機

Info

Publication number: JP2717850B2
Application number: JP13669689A
Authority: JP
Inventors: 達也進藤
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1989-05-30
Filing date: 1989-05-30
Publication date: 1998-02-25
Anticipated expiration: 2013-02-25
Also published as: JPH032989A

Description

【発明の詳細な説明】〔概要〕多数のプロセッシング・エレメントPEを結合して構成
したSIMD型の並列計算機に関し、 PE間の通信を伴う演算と伴わない演算とを同一の処理
時間で実行することを目的とし、各PEに、自己の演算レジスタからのデータを自己の演
算器に送る場合の時間と自己の演算レジスタからのデー
タを隣接するPEの演算器に送る時間を等しくすると共に
自己の演算器からのデータを自己の演算レジスタに送る
場合の時間と自己の演算器からのデータを隣接するPEの
演算レジスタに送る場合の時間とを等しくするための段
合わせレジスタを設けると同時に、複数のPEをパイプラ
イン制御する１個の制御装置を設け、演算レジスタから
データを読み出すステージと、読み出したデータを隣接
するPEに転送するステージと、演算を実行するステージ
と、演算器からのデータを隣接するPEに転送するステー
ジと、演算結果を演算レジスタに書き込むステージとを
持つように，制御装置を構成したものである。

〔産業上の利用分野〕

本発明は、多数のプロセッシング・エレメントを通信
用のポートを介して結合して構成したSIMD型（Single I
nstruction Multi Data型）の並列計算機に関する。

LSI設計のためのCAD（配置配線，論理シミュレーショ
ン，回路シミュレーション等）のように処理の対象が年
々大きくなり、それに伴い演算の高速化が要求される分
野に対して、並列計算機の適用が検討されている。この
ような並列計算機を効率良く動かすためにはプロセッシ
ング・エレメント間の通信を高速に実現する技術が重要
である。

〔従来の技術〕

従来の並列計算機におけるプロセッシング・エレメン
ト間通信は、プロセッシング・エレメント間が別のLSI
あるいは別のプリント基板に跨がる場合に、信号の伝播
が同一のLSI内に比べて遅くなることと、プロセッシン
グ・エレメントが通信を直接サポートする命令をサポー
トしていない場合に通信処理そのものを行うために複数
の命令の実行を必要とすることの２点により、通信を伴
う演算の実行は、通信を伴わない場合に比べて処理時間
にオーバヘッドが生ずる。

〔発明が解決しようとする課題〕

従って、プロセッシング・エレメント間の通信が処理
時間の中で大きな割合を占めるアプリケーション（例え
ば、プロセッシング・エレメントを格子上に結合した並
列計算機上で迷路法による配線プログラムを動かす場
合）を実行する場合には、通信によるオーバヘッドのた
めに、並列処理による高速化が生かされないと言う問題
が生じていた。

本発明は、この点に鑑みて創作されたものであって、
プロセッシング・エレメント間の通信を伴う演算と伴わ
ない演算とを同一の処理時間で実行する機能を設け、通
信処理の多いアプリケーションに対して、通信のための
オーバヘッドなく実行できる並列計算機を実現すること
を目的としている。

〔課題を解決するための手段〕

第１図に本発明を適用したプロセッシング・エレメン
トのデータ・バス系の回路図の例を示す。同図におい
て、１は演算レジスタ用の３ポートSRAM、２は演算器、
３は演算器入力セレクタ、４は演算レジスタ入力セレク
タ、５は隣接通信入力セレクタ、６は隣接通信出力セレ
クタ、７ないし17はレジスタをそれぞれ示している。

斜線の入っていない四角で表されるレジスタ7,9,11,1
3〜17は、パイプラインを動かすために最低限必要なレ
ジスタ（話を簡単にするために、３ポートSRAMのアクセ
ス・タイムとセレクタ＋演算器の論理回路の遅延時間と
を等しいものとして扱う）である。また、斜線の入った
四角で表されるレジスタ8,10,12は、本発明を実現する
上で必要な段数合わせレジスタである。これは、複数の
プロセッシング・エレメントを格子状に接続することを
想定した回路となっている。

隣接通信入力セレクタ５の入力に接続されている４つ
のレジスタ13〜14には、それぞれ隣接する４方向のプロ
セッシング・エレメントの出力（隣接通信出力セレクタ
６の段数のレジスタ17の出力）が接続される。

第２図はプロセッシング・エレメント間の接続を示す
図である。同図において、PEはプロセッシング・エレメ
ント、E,W,N,Sは入力端子、OUTは出力端子をそれぞれ示
している。

プロセッシング・エレメントPEは、４個の出力端子OU
Tを有しているが、４個の出力端子OUTからは同一のデー
タが出力される。プロセッシング・エレメントPEの左側
出力は左側のプロセッシング・エレメントPEの入力端子
に接続され、プロセッシング・エレメントPEの右側出力
は右側のプロセッシング・エレメントPEの入力端子Ｗに
接続され、プロセッシング・エレメントPEの下側出力は
下側のプロセッシング・エレメントPEの入力端子Ｎに接
続され、プロセッシング・エレメントPEの上側出力は上
側のプロセッシング・エレメントPEの入力端子Ｓに接続
されている。

本発明では、プロセッシング・エレメントの実行のパ
イプラインのステージの１つとしてプロセッシング・エ
レメント間の通信のためのステージを設けることによ
り、通信のある演算と通信のない演算が混合したシーケ
ンスにおいても、実質的に何れの処理も１マシン・サイ
クルで実行可能としている。

第１図と第２図の回路では、通信を伴った演算として
２種類を想定している。１つは、隣接プロセッシング・
エレメント内の演算レジスタの値を通信によって得て、
その値と自分の演算レジスタ内の値を用いて演算し、そ
の結果を自分の演算レジスタ内に格納するもので、“レ
ジスタALU転送演算”と呼ぶことにする。もう１つ
は、隣接プロセッシング・エレメント内の演算レジスタ
の値を２つ用いて隣接プロセッシング・エレメント内の
演算器で演算した結果を通信によって得て、その結果を
自分の演算レジスタ内に格納するもので、“ALUレジ
スタ転送演算”と呼ぶことにする。当然のことながら、
本発明では、“通信を伴わない演算”、即ち自分の演算
レジスタ内の値を２つ用いて演算し、その演算結果を自
分の演算レジスタ内に格納する演算をも実行することが
出来る。

“レジスタALU転送演算",“ALUレジスタ転送演
算",“通信を伴わない演算”の３つのタイプの演算が混
合しても、パイプラインに乱れが生じないようにする工
夫を本発明では行っている。それはパイプライン中の１
つのデータに着目した場合に、演算レジスタから読み出
した値が演算器に到達するまでに必要なマシン・サイク
ル数と、演算器の出力した値が演算レジスタに到達する
までに必要なマシン・サイクル数を、演算のタイプによ
らず一定にすることで行う。即ち、第１図に斜線を入れ
た四角で示した段数合わせレジスタを挿入することによ
り、実現する。

〔作用〕

第３図は本発明におけるパイプライン動作のタイミン
グ・チャートを示す図である。同図において、“R"とし
て示してある部分は演算レジスタからの値の読み出しを
意味し、“ＲA"と示してある部分は演算レジスタから
読み出したデータの隣接プロセッシング・エレメントの
演算器への転送を意味し、“E"と示してある部分は演算
器における演算の実行を意味し、“ＡR"と示してある
部分は演算レジスタからの演算結果の隣接プロセッシン
グ・エレメントの演算レジスタへの転送を意味し、“W"
と示してある部分は演算結果の演算レジスタへの書き込
みを意味する。ここで、“ＲA"と“ＡR"に関して
は、その機能を必要としないタイプの演算では、単に段
数合わせレジスタを通過するだけになる。

このパイプラインを毎サイクル連続して実行すること
により、パイプラインの立ち上がり後には、実質的に１
マシン・サイクルで全てのタイプの演算が可能となる。

但し、注意事項として、“ALUレジスタ転送演算”
の後の２クロック以内に“レジスタALU転送演算”を
開始することが出来ない。これは、隣接プロセッシング
・エレメント間の通信路を“ＡR"と“ＲA"の両方で
共有していることから、このような条件で使うと競合が
発生するためである。

〔実施例〕

第４図は本発明の制御回路の構成例を示すブロック図
である。同図において、20はプログラム・カウンタ、21
は制御コード・メモリ、22はレジスタ、23はデコーダ、
24はパイプライン制御用調整レジスタ、25はセレクタを
それぞれ示している。また、＊WE 演算レジスタへの書込み制御 0:書き込む,1:書き込まない ALUSEL 演算器入力セレクタの制御 0:自分の値,1:隣接の値 OUTSEL 隣接通信出力セレクタ制御 0:レジスタ,1:演算器 INSEL 隣接通信入力セレクタ制御 00:東,01:西,10:南,11:北 REGSEL 演算レジスタ入力セレクタ制御 0:自分の値,1:隣接の値 RADRS1 演算レジスタ読出しアドレス上側 RADRS2 演算レジスタ読出しアドレス下側 WADRS 演算レジスタ書込みアドレス OPC 演算器へのオペレーション・コードをそれぞれ示す。

SIMD型の並列計算機においては、全てのプロセッシン
グ・エレメントが同一の動作を行い、１個の制御回路が
全てのプロセッシング・エレメントを制御する。制御コ
ード・メモリ21には複数の制御コードが格納されてい
る。制御コードは、モードや通信方向，読出しアドレス
1,読出しアドレス2,書込みアドレス，演算器オペレーシ
ョン・コード，順序制御のための情報からなる。モード
としては、NOP,RA,AR,NOCOM（通信を伴わない演
算）等がある。プログラム・カウンタ20から出力された
アドレスに対応する制御コードが制御コード・メモリ21
から読み出され、読み出された制御コードはレジスタ22
にセットされる。

レジスタ22に格納された制御コードの内のモードを示
す部分は、デコーダ23によってデコードされる。モード
がNOPの場合には、デコーダ23のNOP出力端子からは１が
出力され、ＲＡ出力端子からは０が出力され、ＡＲ
出力端子からは０が出力される。モードがＲＡの場合
には、デコーダ23のNOP出力端子からは０が出力され、
ＲＡ出力端子からは１が出力され、ＡＲ出力端子か
らは０が出力される。モードがＡＲの場合には、デコ
ーダ23のNOP出力端子からは０が出力され、ＲＡ出力
端子からは０が出力され、ＡＲ出力端子からは１が出
力される。モードがNOCOMの場合には、デコーダ23のNOP
出力端子からは０が出力され、ＲＡ出力端子からは０
が出力され、ＡＲ出力端子からは０が出力される。

レジスタ22に格納された制御コードの演算器オペレー
ション・コードは、３段のパイプライン制御用タイミン
グ調整レジスタ24を介して演算器２に供給される。制御
コードの書込みアドレスは、５段の調整レジスタ24を介
して演算レジスタ１（３ポートSRAMで構成）に与えられ
る。読出しアドレス２は１段の調整レジスタ24を介して
演算レジスタ１に与えられ、同様に読出しアドレス１は
１段の調整レジスタ24を介して演算レジスタ１に与えら
れる。制御コードの通信方向は、３段の調整レジスタ24
または５段の調整レジスタ24を介して隣接通信入力セレ
クタ５に与えられる。セレクタ25は、選択制御信号とし
て０が入力された場合には左側入力を選択出力し、選択
制御信号として１が入力された場合には右側入力を選択
出力する。デコーダ23のＡＲ出力端子から出力される
データは、５段の調整レジスタ24を介して演算レジスタ
入力セレクタ４にREGSELとして与えられ、３段の調整レ
ジスタ24を介して隣接通信出力セレクタ６にOUTSELとし
て与えられる。デコーダ23のＲＡ出力端子から出力さ
れるデータは、３段の調整レジスタ24を介して演算器入
力セレクタ３にALUSELとして与えられる。デコーダ23の
NOP出力端子から出力されるデータは、３段の調整レジ
スタ24を介して演算レジスタ１に＊WEとして与えられ
る。なお、＊WEは、０で有効である。

モードがNOPの場合には、この制御コードによっては
演算レジスタ１は更新されない。

モードがＲＡの場合には、＃１クロックに同期して
演算レジスタ１からデータが読み出される。＃２クロッ
クに同期して、演算レジスタ１の上側出力は隣接通信出
力セレクタ６（OUTSEL＝０）を介してレジスタ17にセッ
トされ、下側出力はレジスタ９にセットされる。＃３ク
ロックに同期して、レジスタ17のデータは隣接するプロ
セッシング・エレメントのレジスタ13〜16にセットさ
れ、レジスタ９のデータはレジスタ10に移される。これ
と同時に、隣接通信入力セレクタ５は１個のデータを選
択出力し、演算器入力セレクタ３（ALUSEL＝１）は上側
入力を選択出力し、演算器２にオペレーション・コード
が与えられる。＃４クロックに同期して、演算器２の出
力は、レジスタ11にセットされる。＃５クロックに同期
して、レジスタ11のデータはレジスタ12に移される。こ
れと同時に、演算レジスタ入力セレクタ４（REGSEL＝
０）は下側入力を選択出力すると共に、演算レジスタ１
に０の書込み指示＊WEが与えられる。

モードがＡＲの場合には、＃１クロックに同期して
演算レジスタ１からデータが読み出される。＃２クロッ
クに同期して、演算レジスタ１の上側出力はレジスタ８
にセットされ、下側出力はレジスタ９にセットされる。
＃３クロックに同期して、レジスタ７のデータはレジス
タ８に移され、レジスタ９のデータはレジスタ10に移さ
れる。これと同時に、演算器入力セレクタ３（ALUSEL＝
０）は下側入力を選択出力し、演算器２にオペレーショ
ン・コードが与えられ、隣接通信出力セレクタ６（OUTS
EL＝１）は下側入力を選択出力する。＃４クロックに同
期して、演算器２の出力は、レジスタ17にセットされ
る。＃５クロックに同期して、レジスタ17のデータは、
隣接するプロセッシング・エレメントの入力レジスタ13
〜16にセットされる。これと同時に、隣接通信入力セレ
クタ５は指定された入力を選択出力し、演算レジスタ入
力セレクタ４（REGSEL＝１）は上側入力を選択出力し、
演算レジスタ１に０の書込み指示＊WEが与えられる。

モードがNOCOMの場合には、＃１クロックに同期して
演算レジスタ１からデータが読み出される。＃２クロッ
クに同期して、演算レジスタ１の上側出力はレジスタ７
にセットされ、下側出力はレジスタ９にセットされる。
＃３クロックに同期して、レジスタ７のデータはレジス
タ８に移され、レジスタ９のデータはレジスタ10に移さ
れる。これと同時に、演算器入力セレクタ３（ALUSEL＝
０）は下側入力を選択出力し、演算器２にオペレーショ
ン・コードが与えられる。＃４クロックに同期して、演
算器２の出力は、レジスタ11にセットされる。＃５クロ
ックに同期して、演算レジスタ入力セレクタ４（REGSEL
＝０）は下側入力を選択出力し、演算レジスタ１に０の
書込み指示＊WEが与えられる。

〔発明の効果〕

以上の説明から明らかなように、本発明によれば、SI
MD型の並列計算機において、パイプライン処理をするこ
とにより、隣接プロセッシング・エレメント間の通信を
含む演算を、通信を含まない演算と同様に１マシン・サ
イクルで実行でき、通信を多く含む並列プログラムの高
速化に大きく寄与できる。

【図面の簡単な説明】

第１図は本発明を適用したプロセッシング・エレメント
のデータ・バスを示す図、第２図は第１図のプロセッシ
ング・エレメントを格子結合して構成された並列計算機
を示す図、第３図は本発明によるパイプライン動作を示
したタイミング・チャート、第４図は本発明を実施する
上で必要な制御回路の構成例を示すブロック図である。１……演算レジスタ用の３ポートSRAM、２……演算器、
３……演算器入力セレクタ、４……演算レジスタ入力セ
レクタ、５……隣接通信入力セレクタ、６……隣接通信
出力セレクタ、７ないし17……レジスタ、20……プログ
ラム・カウンタ、21……制御コード・メモリ、22……レ
ジスタ、23……デゴーダ、24……パイプライン制御用調
整レジスタ、25……セレクタ。

Claims

(57)【特許請求の範囲】

【請求項１】格子状に結合された複数のプロセッシング
・エレメント（PE）と、複数のプロセッシング・エレメント（PE）をパイプライ
ン制御する１個の制御装置とを具備する単一命令多重データ型の並列計算機であっ
て、各プロセッシング・エレメント（PE）は、複数のデータを格納する演算レジスタ（１）と、演算器（２）と、隣接するプロセッシング・エレメント（PE）から送られ
て来たデータ又は自己の演算レジスタ（１）から出力さ
れたデータを選択し、選択したデータを自己の演算器
（２）に入力する演算器入力セレクタ（３）と、隣接するプロセッシング・エレメント（PE）から送られ
て来たデータ又は自己の演算器（２）から出力されたデ
ータを選択し、選択されたデータを自己の演算レジスタ
（１）に入力する演算レジスタ入力セレクタ（４）と、隣接したプロセッシング・エレメント（PE）から送られ
た来たデータを選択し、選択したデータを自己の演算レ
ジスタ入力セレクタ（４）および自己の演算器入力セレ
クタ（３）に入力する隣接通信入力セレクタ（５）と、自己の演算レジスタ（１）から出力されたデータまたは
自己の演算器（２）から出力されたデータを選択し、選
択されたデータを隣接するプロセッシング・エレメント
（PE）に送る隣接通信出力セレクタ（６）と、自己の演算レジスタ（１）からのデータを自己の演算器
（２）に送る場合の時間と自己の演算レジスタ（１）か
らのデータを隣接するプロセッシング・エレメント（P
E）の演算器（２）に送る時間を等しくすると共に、自
己の演算器（２）からのデータを自己の演算レジスタ
（１）に送る場合の時間と自己の演算器（２）からのデ
ータを隣接するプロセッシング・エレメント（PE）の演
算レジスタ（１）に送る場合の時間とを等しくするため
の段合わせレジスタ（8,10,12）とを有し、制御装置は、演算レジスタ（１）からデータを読み出すステージと、読み出したデータを隣接するプロセッシング・エレメン
ト（PE）に転送するためのステージと、演算を実行するステージと、演算器（２）から出力されるデータを隣接するプロセッ
シング・エレメント（PE）に転送するためのステージと演算器（２）から出力されたデータを演算レジスタ
（１）に書き込むステージを具備するように構成されていることを特徴とする高速通信機構を持った並列計算機。