JPH032989A

JPH032989A - 高速通信機構を持った並列計算機

Info

Publication number: JPH032989A
Application number: JP13669689A
Authority: JP
Inventors: Tatsuya Shindo; 達也進藤
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1989-05-30
Filing date: 1989-05-30
Publication date: 1991-01-09
Anticipated expiration: 2013-02-25
Also published as: JP2717850B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔概要〕ｌのプロセッシング・エレメントＰＥを結合して構成し
たＳＩＭＤ型の並列計算機に関し、ＰＥ間の通信を伴う
演算と伴わない演算とを同一の処理時間で実行すること
を目的とし、各ＰＥに、自己の演算レジスタからのデー
タを自己の演算器に送る場合の時間と自己の演算レジス
タからのデータを隣接するＰＥの演算器に送る時間を等
しくすると共に自己の演算器からのデータを自己の演算
レジスタに送る場合の時間と自己の演算器からのデータ
を隣接するＰＥの演算レジスタに送る場合の時間とを等
しくするための段合わせレジスタを設けると同時に、複
数のＰＥをパイプライン制御する１個の制御装置を設け
、演算レジスタからデータを読み出すステージと、読み
出したデータを隣接するＰＥに転送するステージと、演
算を実行するステージと、演算器からのデータを隣接す
るＰＥに転送するステージと、演算結果を演算レジスタ
に書き込むステージとを持つように、制御装置を構成し
たものである。

〔産業上の利用分野］本発明は、多数のプロセッシング・エレメントを通信用
のポートを介して結合して構成したＳＩＭＤ型（Ｓｉｎ
ｇｌｅ　Ｉｎ５ｔｒｕｃｔｉｏｎ　Ｍｕｌｔｉ　Ｄａｔ
ａ型）の並列計算機に関する。

ＬＳＩ設計のためのＣＡＤ　（配置配線、論理シミュレ
ーション、回路シミュレーション等）のように処理の対
象が年々大きくなり、それに伴い演算の高速化が要求さ
れる分野に対して、並列計算機の適用が検討されている
。このような並列計算機を効率良く動かすためにはプロ
セッシング・エレメント間の通信を高速に実現する技術
が重要である。

〔従来の技術〕

従来の並列計算機におけるプロセッシング・エレメント
間通信は、プロセッシング・エレメント間が別のＬＳＩ
あるいは別のプリント基板に跨がる場合に、信号の伝播
が同一のＬＳＩ内に比べて遅くなることと、プロセッシ
ング・エレメントが通信を直接サポートする命令をサポ
ー１−　していない場合に通信処理そのものを行うため
に複数の命令の実行を必要とすることの２点により、通
信を伴う演算の実行は、通信を伴わない場合に比べて処
理時間にオーバヘッドが生ずる。

〔発明が解決しようとする課題〕

従って、プロセッシング・エレメント間の通信が処理時
間の中で大きな割合を占めるアプリケーション（例えば
、プロセッシング・エレメントを格子上に結合した並列
計算機上で迷路法による配線プログラムを動かす場合）
を実行する場合には、通信によるオーバヘッドのために
、並列処理による高速化が生かされないと言う問題が生
じていた。

本発明は、この点に鑑みて創作されたものであって、プ
ロセッシング・エレメント間の通信を伴う演算と伴わな
い演算とを同一の処理時間で実行する機能を設け、通信
処理の多いアプリケーションに対して、通信のためのオ
ーバヘッドなく実行できる並列計算機を実現することを
目的としている。

〔課題を解決するための手段］第１図に本発明を適用したプロセッシング・エレメント
のデータ・バス系の回路図の例を示す。

同図において、１は演算レジスタ用の３ボ一トＳＲＡＭ
、２は演算器、３は演算器入力セレクタ、４は演算レジ
スタ入力セレクタ、５は隣接通信入力セレクタ、６は隣
接通信出力セレクタ、マないし１７はレジスタをそれぞ
れ示している。

斜線の入っていない四角で表されるレジスタ７゜９．１
１．１３〜１７は、パイプラインを動かすために最低限
必要なレジスタ（話を簡単にするために、３ポ一トｓＲ
ＡＭのアクセス・タイムとセレクタ＋演算器の論理回路
の遅延時間とを等しいものとして扱う）である。また、
斜線の入った四角で表されるレジスタ８，１０．１２は
、本発明を実現する上で必要な段数合わせレジスタであ
る。

これは、複数のプロセッシング・エレメントを格子状に
接続することを想定した回路となっている。

隣接通信入力セレクタ５の入力に接続されている４つの
レジスタ１３〜１４には、それぞれ隣接する４方向のプ
ロセッシング・エレメントの出力（隣接通信出力セレク
タ６の後段のレジスタ１７の出力）が接続される。

第２図はプロセッシング・エレメント間の接続を示す図
である。同図において、ＰＥはプロセッシング・エレメ
ント、Ｅ、Ｗ、Ｎ、Ｓは入力端子、ＯＵＴは出力端子を
それぞれ示している。

プロセッシング・エレメントＰＥは、４個の出力端子Ｏ
ＵＴを有しているが、４個の出力端子ＯＵＴからは同一
のデータが出力される。プロセッシング・ニレメン１−
ＰＥの左側出力は左側のプロセッシング・ニレメンｌ−
ＰＥの入力端子Ｅに接続され、プロセッシング・エレメ
ントＰＥの右側出力は右側のプロセッシング・エレメン
トＰＥの入力Ｅ子Ｗに接続され、プロセッシング・ニレ
メン１−　Ｐ　Ｅの下側出力は下側のプロセッシング・
エレメントＰＥの入力端子Ｎに接続され、プロセッシン
グ・エレメントＰＥの上側出力は上側のプロセッシング
・エレメントＰＥの入力端子Ｓに接続されている。

本発明では、プロセッシング・エレメントの実行のパイ
プラインのステージの１つとしてプロセッシング・エレ
メント間の通信のためのステージを設けることにより、
通信のある演算と通信のない演算が混合したシーケンス
においても、実質的に何れの処理も１マシン・サイクル
で実行可能としている。

第１図と第２図の回路では、通信を伴った演算として２
種類を想定している。１つは、隣接プロセッシング・エ
レメント内の演算レジスタの値を通信によって得て、そ
の値と自分の演算レジスタ内の値を用いて演算し、その
結果を自分の演算レジスタ内に格納するもので、“レジ
スタ→ＡＬＵ転送演算”と呼ぶことにする。もう１つは
、隣接プロセッシング・エレメント内の演算レジスタの
値を２つ用いて隣接プロセッシング・エレメント内の演
算器で演算した結果を通信によって得て、その結果を自
分の演算レジスタ内に格納するもので、“ＡＬＵ悼レジ
スタ転送演算”と呼ぶことにする。当然のことながら、
本発明では、“通信を伴わない演算゛、即ち自分の演算
レジスタ内の値を２つ用いて演算し、その演算結果を自
分の演算レジスタ内に格納する演算をも実行することが
出来る。

′°レジスタ→ＡＬＵ転送演算”’、”ＡＬＵ→レジス
タ転送演算゛、“通信を伴わない演算゛の３つのタイプ
の演算が混合しても、パイプラインに乱れが生じないよ
うにする工夫を本発明では行っている。それはパイプラ
イン中の１つのデータに着目した場合に、演算レジスタ
から読み出した値が演算器に到達するまでに必要なマシ
ン・サイクル数と、演算器の出力した値が演算レジスタ
に到達するまでに必要なマシン・サイクル数を、演算の
タイプによらず一定にすることで行う。即ち、第１図に
斜線を入れた四角で示した段数合わせレジスタを挿入す
ることにより、実現する。

〔作用］第３図は本発明におけるパイプライン動作のタイミング
・チャー１・を示す図である。同図において、“Ｒｏ“
として示しである部分は演算レジスクからの値の読み出
しを意味し、Ｒ＝＞　Ａ　’”と示しである部分は演算
レジスタから読み出したデータの隣接プロセッシング・
エレメントの演算器への転送を意味し、“Ｅ′”と示し
である部分は演算器における演算の実行を意味し、“Ａ
　＝＋Ｒ”と示しである部分は演算レジスタからの演算
結果の隣接プロセッシング・エレメントの演算レジスタ
への転送を意味し、“Ｗ　＋＋と示しである部分は演算
結果の演算レジスタへの書き込みを意味する。ここで、
ＩＩ　Ｒに）Ａ″と“′Ａに）Ｒ１１に関しては、その
機能を必要としないタイプの演算では、単に段数合わせ
レジスタを通過するだけになる。

このパイプラインを毎サイクル連続して実行することに
より、パイプラインの立ち上がり後には、実質的に１マ
シン・サイクルで全てのタイプの演算が可能となる。

但し、注吉事項として、“ＡＬＵ→レジスタ転送演算゛
の後の２クロック以内に゛レジスタ→ＡＬＵ転送演算゛
を開始することが出来ない。これは、隣接プロセッシン
グ・エレメント間の通信路をＡに）Ｒ”と“Ｒ→Ａ゛の
両方で共有していることから、このような条件で使うと
競合が発生するためである。

〔実施例〕

第４図は本発明の制御回路の構成例を示すブロツク図で
ある。同図において、２０はプログラム・カウンタ、２
１は制御卸コード・メモリ、２２はレジスタ、２３はデ
ゴーダ、２４はパイプライン制′４１■用調整レジスタ
、２５はセレクタをそれぞれ示している。また、 ■ＡＷＥ　　　演算レジスタへの書込み制御０：書き込
む、１：書き込まない ■ＡＬＵＳＥＬ　　演算器入力セレクタの制？ｆｆ１ｌ
Ｏ；自分の値、ｘ：￥Ａ接の値 ■０ＵＴＳＥＬ　　隣接通信出力セレクタ制？ｆｆ１Ｏ
：レジスタ１１：演算器 ■ｌＮ５ＥＬ　　隣接通信入力セレクタ制御００：東、
０１：西、　１０：南、１１：北■ＲＥＧＳＥＬ　　演
算レジスタ入力セレクタ制御０：自分の値、１：隣接の
値 ■ＲＡＤＲ５Ｉ　　演算レジスタ続出しアドレス上側■
ＲＡＤＲ３２演算レジスタ続出しアドレス下側■ＷＡＤ
ＲＳ　　演算レジスタ書込みアドレス■ＯＰＣ’ＧｎＲ
５へのオペレーション・コードをそれぞれ示す。

Ｓ　ｒＭＤ型の並列計算機においては、全てのプロセッ
シング・エレメントが同一の動作を行い、１個の制御回
路が全てのプロセッシング・エレメントを制御する。制
御コード・メモリ２１には複数の制御コードが格納され
ている。制御コードは、モードや通信方向、読出しアド
レス１．読出しアドレス２．書込みアドレス、演算器オ
ペレーション・コード、順序制御のための情報からなる
。モーＬ！：Ｌテハ、ＮＯＰ、Ｒ→Ａ、Ａ＝＝＝＞Ｒ，
ＮＯＣＯＭ（通信を伴わない演算）等がある。プログラ
ム・カウンタ２０から出力されたアドレスに対応する制
御コードが制御コード・メモリ２１から読み出され、読
み出された制御コードはレジスタ２２にセットされる。

レジスタ２２に格納された制御コードの内のモードを示
す部分は、デコーダ２３によってデコードされる。モー
ドがＮＯＰの場合には、デコーダ２３のＮＯＰ出力端子
からは１が出力され、Ｒ→Ａ出力端子からは０が出力さ
れ、Ａ＝＞Ｒ出力端子からはＯが出力される。モードが
Ｒ＝＞Ａの場合には、デコーダ２３のＮＯＰ出力端子か
らはＯが出ノ】され、Ｒ＝＋Ａ＝＋端子からは１が出力
され、Ａに）Ｒ出力端子からはＯが出力される。モード
がΔ−＋Ｒの場合には、デコーダ２３のＮＯＰ出力端子
からは０が出力され、Ｒ＝＝＝＞Ａ出力端子からは０が
出力され、Ａ→Ｒ出力端子からは１が出力される。

モードがＮＯＣＯＭの場合には、デコーダ２３のＮＯＰ
出力端子からは０が出力され、Ｒ＝＋人出力出力端子は
Ｏが出力され、Ａ→Ｒ出力端子からは０が出力される。

レジスタ２２に格納された制御コードの演算器オペレー
ション・コードは、３段のパイプライン制御用タイミン
グ調整レジスタ２４を介して演算器２に供給される。制
御コードの書込みアドレスは、５段の調整レジスタ２４
を介して演算レジスタ１　　（３ポ一トＳＲＡＭで構成
）に与えられる。

続出しアドレス２は１段の調整レジスタ２４を介して演
算レジスタ１に与えられ、同様に読出しアドレス１は１
段の調整レジスタ２４を介して演算レジスタ１に与えら
れる。制？１１コードの通信方向は、３段の調整レジス
タ２４または５段の調整レジスタ２４を介して隣接通信
入力セレクタ５に与えられる。セレクタ２５は、選択制
御信号として０が入力された場合には左側入力を選択出
力し、選択制御信号として１が入力された場合には右側
入力を選択出力する。デコーダ２３のＡに）Ｒ出力端子
から出力されるデータは、５段の調整レジスタ２４を介
して演算レジスタ入ツノセレクタ４にＲＥＧＳＥＬとし
て与えられ、３段の調整レジスタ２４を介して隣接通信
出力セレクタ６に０ＵＴＳＥＬとして与えられる。デコ
ーダ２３のＲ＝＞Ａ出力端子から出力されるデータは、
３段の調整レジスタ２４を介して演算器入力セレクタ３
にＡＬＵＳＥＬとして与えられる。デコーダ２３のＮＯ
Ｐ出力端子から出力されるデータは、３段の調整レジス
タ２４を介して演算レジスタ１に＊ＷＥとして与えられ
る。なお、＊ＷＥは、０で有効である。

モードがＮＯＰの場合には、この制御″Ｊ■コードによ
っては演算レジスタ１は更新されない。

モードがＲ→Ａの場合には、＃１クロックに同期して演
算レジスタｌからデータが読み出される。

＃２クロックに同期して、演算レジスタ１の上側出力は
隣接通信出力セレクタ６　（ＯＵＴＳＥＬ＝　Ｏ）を介
してレジスタ１７にセントされ、下側出力はレジスタ９
にセットされる。＃３クロックに同期して、レジスタ１
７のデータは隣接するプロセッシング・エレメントのレ
ジスタ１３〜１６にセントされ、レジスタ９のデータは
レジスタ１ｏに移される。これと同時に、隣接通信入力
セレクタ５は１個のデータを選択出力し、演算器入力セ
レクタ３　（ＡＬＵＳＥＬ＝　１　）は上側入力を選択
出力し、演算器２にオペレーション・コードが与えられ
る。μ４クロンクに同期して、演算器２の出力は、レジ
スタ１１にセントされる。＃５クロックに同期して、レ
ジスタ１１のデータはレジスタ１２に移される。これと
同時に、演算レジスタ入力セレクタ４　（ＲＥＧＳＥＬ
＝　Ｏ）は下側入力を選択出力すると共に、演算レジス
タ１にＯの書込み指示＊ＷＥが与えられる。

モードがＡ＝＞Ｒの場合には、＃１クロツタに同期して
演算レジスタ１からデータが読み出される。

＃２クロンクに同期して、演算レジスタ１の上側出力は
レジスタ８にセットされ、下側出力はレジスタ９にセン
トされる。＃３クロンクに同期して、レジスタ７のデー
タはレジスタ８に移され、レジスタ９のデータはレジス
タ１０に移される。これと同時に、演算器入力セレクタ
３（＾ＬＵＳＥＬ＝　Ｏ）は下側入力を選択出力し、演
算器２にオペレーション・コードが与えられ、隣接通信
出力セレクタ６　（ＯＩＪＴＳＥＬ＝　１　）は下側入
力を選択出力する。＃４クロックに同期して、演算器２
の出力は、レジスタ１７にセットされる。＃５クロック
に同期して、レジスタ１７のデータは、隣接するプロセ
ッシング・エレメントの入力レジスタ１３〜１６にセッ
トされる。これと同時に、隣接通信入力セレクタ５は指
定された入力を選択出力し、演算レジスタ入力セレクタ
４　（ＲＥＧＳＥＬ＝　１　）は上側入力を選択出力し
、演算レジスタ１に０の書込み指示＊ＷＥが与えられる
。

−Ｅ−ＦがＮＯＣＯＭの場合には、＃１クロックに同期
して演算レジスタ１からチ゛−夕が読み出される。＃２
クロンクに同期して、（寅算しジスク１の上側出力はレ
ジスタ７にセットされ、下側出力はレジスタ９にセット
される。＃３クロンクに同期して、レジスタ７のデータ
はレジスタ８に移され、レジスタ９のデータはレジスタ
１ｏに移される。これと同時に、演算器入力セレクタ３
　（ＡＬＩＩＳＥＬ＝０）は下側入力を選択出力し、演
算器２にオペレーション・コードが与えられる。＃４ク
ロックに同期して、演算器２の出力は、レジスタ１１に
セットされる。＃５クロックに同期して、演算レジスタ
入力セレクタ４　（ＲＥＧＳＥＬ＝　０　）は下側入力
を選択出力し、演算レジスタｌに０の書込み指示＊ＷＥ
が与えられる。

〔発明の効果〕

以上の説明から明らかなように、本発明によれば、Ｓ　
ＩＭＤ型の並列計算機において、パイプライン処理をす
ることにより、隣接プロセッシング・エレメント間の通
信を含む演算を、通信を含まない演算と同様に１マシン
・サイクルで実行でき、通信を多く含む並列プログラム
の高速化に大きく寄与できる。

スタ、２０・・・プログラム・カウンタ、２１・・・制
御’Ｉｌ！コード・メモリ、２２・・・レジスタ、２３
・・・デゴーダ、２４・・・パイプライン制御用調整レ
ジスタ、２５・・・セレクタ。

特許出願人　　　冨士通株式会社代理人弁理士　　京　谷　四　部

【図面の簡単な説明】

第１図は本発明を適用したプロセッシング・エレメント
のデータ・バスを示す図、第２図は第１図のプロセッシ
ング・エレメントを格子結合して構成された並列計算機
を示す図、第３図は本発明によるパイプライン動作を示
したタイミング・チャート、第４図は本発明を実施する
上で必要な制御回路の構成例を示すブロフク図である。１・・・演算レジスタ用の３ポ一トＳＲＡＭ、２・・・
演算器、３・・・演算器入力セレクタ、４・・・演算レ
ジスタ入力セレクタ、５・・・隣接通信入力セレクタ、
６・・・隣接通信出力セレクタ、７ないし１７・・・レ
ジデロセッシ〉グ・エレメント間捧撓第２　図１に午ぐ本ＷＥ　　ＡＬＬ５ＥＬ　ＣＬｆｆＳＥＬ　ＲＥＧＳＥ
ＬＩＮｓＥＬ　　Ｒ旺択Ｓ１　　剛りＲ父　Ｗ＾ＯＲ５
ＰＣ制＃口外第４図

Claims

【特許請求の範囲】格子状に結合された複数のプロセッシング・エレメント
（ＰＥ）と、複数のプロセッシング・エレメント（ＰＥ）をパイプラ
イン制御する１個の制御装置とを具備する単一命令多重データ型の並列計算機であって
、各プロセッシング・エレメント（ＰＥ）は、複数のデー
タを格納する演算レジスタ（１）と、演算器（２）と、隣接するプロセッシング・エレメント（ＰＥ）から送ら
れて来たデータ又は自己の演算レジスタ（１）から出力
されたデータを選択し、選択したデータを自己の演算器
（２）に入力する演算器入力セレクタ（３）隣接するプ
ロセッシング・エレメント（ＰＥ）から送られて来たデ
ータ又は自己の演算器（２）から出力されたデータを選
択し、選択されたデータを自己の演算レジスタ（１）に
入力する演算レジスタ入力セレクタ（４）と、隣接したプロセッシング・エレメント（ＰＥ）から送ら
れた来たデータを選択し、選択したデータを自己の演算
レジスタ入力セレクタ（４）および自己の演算器入力セ
レクタ（３）に入力する隣接通信入力セレクタ（５）と
、自己の演算レジスタ（１）から出力されたデータまたは
自己の演算器（２）から出力されたデータを選択し、選
択されたデータを隣接するプロセッシング・エレメント
（ＰＥ）に送る隣接通信出力セレクタ（６）と、自己の演算レジスタ（１）からのデータを自己の演算器
（２）に送る場合の時間と自己の演算レジスタ（１）か
らのデータを隣接するプロセッシング・エレメント（Ｐ
Ｅ）の演算器（２）に送る時間を等しくすると共に、自
己の演算器（２）からのデータを自己の演算レジスタ（
１）に送る場合の時間と自己の演算器（２）からのデー
タを隣接するプロセッシング・エレメント（ＰＥ）の演
算レジスタ（１）に送る場合の時間とを等しくするため
の段合わせレジスタ（８、１０、１２）とを有し、制御装置は、演算レジスタ（１）からデータを読み出すステージと、読み出したデータを隣接するプロセッシング・エレメン
ト（ＰＥ）に転送するためのステージと、演算を実行す
るステージと、演算器（２）から出力されるデータを隣接するプロセッ
シング・エレメント（ＰＥ）に転送するためのステージ
と演算器（２）から出力されたデータを演算レジスタ（
１）に書き込むステージを具備するように構成されてい
ることを特徴とする高速通信機構を持った並列計算機。