JPH0814816B2

JPH0814816B2 - 並列計算機

Info

Publication number: JPH0814816B2
Application number: JP63234545A
Authority: JP
Inventors: 達也進藤; 薫河村; 政信梅田; 利行澁谷; 秀樹三渡
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1988-09-19
Filing date: 1988-09-19
Publication date: 1996-02-14
Anticipated expiration: 2011-02-14
Also published as: JPH0281258A

Description

【発明の詳細な説明】〔概要〕 SIMD型計算機等において，多数のプロセッサの総意や
同期をとる収集回路を設けた並列計算機に関し，全プロセッサが出力するデータを，必要な演算を施し
つつ，効率よく収集することができるようにすることを
目的とし，木構造状に結合された複数の演算回路であって，最初
の段では各プロセッサの出力を,2段目以降では前段の演
算回路の出力を入力し，演算結果を後段の演算回路また
は最後の段ではコントローラに出力する演算回路と，木
構造の段数に応じてグループ化された上記演算回路に対
し，それぞれ演算制御信号を供給する木構造の段数分の
パイプライン接続された演算制御用レジスタとを備え，
各プロセッサからコントローラへの出力データを，演算
制御用レジスタへの制御情報の設定により，演算回路を
介して収集するように構成する。

〔産業上の利用分野〕

本発明は,SIMD（Single Instruction stream Multipl
e Data stream）型計算機等において，多数のプロセッ
サの総意や同期をとる収集回路を設けた並列計算機に関
する。

例えば，配線処理等のLSI-CADを含む大規模組み合わ
せ問題は，非常に高速な演算能力を必要とする。これを
解決するためには，多数のプロセッサを用いて構成する
超並列計算機によって，高速演算処理を行うことが有望
であり，多数のプロセッサを効率よく動作させる技術が
必要となる。

〔従来の技術〕

ある目的のために，多数のプロセッサを動作させる場
合，それらの全プロセッサの同期をとることがしばしば
必要となる。従来，この同期に関する問題を解決するた
めに，次のような方式が用いられている。

（ａ）プロセッサ間通信路を用いて，同期のためのデー
タをやりとりする。

（ｂ）同期専用の信号を各プロセッサが出力し，それら
のワイヤド・オア（wired-OR）論理をとり，その結果を
全プロセッサが読む。

上記（ａ）の方式は，特に専用の回路を必要としない
が，全プロセッサと通信しなければならないために，プ
ロセッサ間が完全結合していない限り，効率が悪い。

上記（ｂ）の方式は，プロセッサ台数が数十〜数百規
模の場合には可能であるが，それ以上になる場合には，
ワイヤド・オアのとれる入力数の制限や，オア論理をと
るための遅延時間等の関係から，効率のよい同期処理の
実現は不可能となる。

また，同期とは別に，次のような問題もある。１つの
プロセッサのデータを，他の全プロセッサに伝えるため
の効率のよい方法は，バスを使ったデータ転送である。
この場合，確かにデータ転送が始まってしまえば問題は
ないが，データ転送前に，どのプロセッサがバスを使う
かを調停しなければならない。プロセッサ台数が，例え
ば数千〜数万といった大規模になると，バス調停のため
のオーバヘッドが無視できなくなる。

また，従来，全プロセッサが現在持っている値のうち
最大値または最小値を得るとか，全プロセッサが持つ値
の総和を求めるとかいうような場合に，統一的に効率よ
く処理するというような技術手段はなかった。

〔発明が解決しようとする課題〕

本発明は，同期をとるなど，全プロセッサの総意を必
要とする演算を，超並列計算機において，効率よく実行
できるようにすることを目的とする。また，全プロセッ
サから１つのプロセッサを選ぶというバスの調停等に相
当する処理を，超並列計算機において，効率よく実行で
きるようにすることを目的とする。さらに，全プロセッ
サがそれぞれ持つデータ間の論理演算を，効率よく実行
できるような手段を提供することを目的とする。

〔課題を解決するための手段〕

第１図は本発明の原理構成図である。

第１図において,10はコントローラ,11は出力制御信号
の情報等を含むマイクロ命令が格納された制御メモリ,1
2は全プロセッサに対するデータ入出力用のグローバル
データレジスタ,13はプロセッサの出力データを収集す
る収集回路,14はプロセッサ（PE:Processing Elemen
t）,15Aないし15Dは演算制御用レジスタ,16Aないし16D
は収集演算回路（GLU:Gathering Logic Unit）,17は演
算制御用信号線,18はプロセッサ制御用信号線を表す。

プロセッサ14は，各々，処理対象となるデータを記憶
する回路と演算回路とを持ち，コントローラ10からプロ
セッサ制御用信号線18を介して送られてくる制御信号に
よる同一の命令の流れによって，各プロセッサ14に与え
られたデータを処理する。

本発明に係る収集回路13は，演算制御用レジスタ15A
〜15Dと，収集演算回路16A〜16Dとによって構成され
る。

収集演算回路16A〜16Dは，各プロセッサ14からコント
ローラ10への出力データを，収集する処理を行う回路で
ある。第１図に示すように，木構造状に結合され,1段目
の各収集演算回路16Aは，何個かのプロセッサ14の出力
データを入力し，その入力による演算結果を,2段目の収
集演算回路16Bへ出力する。同様に,2段目から３段目,3
段目から４段目というようにデータを収集していき，こ
の例では収集演算回路16Dが最終段になっている。最終
段の収集演算回路16Dは，全プロセッサ14の出力をまと
めた結果を，コントローラ10のグローバルデータレジス
タ12へ送り出す。

これらの回路は，木構造の段数に応じてグループ化さ
れており，その各グループに対して，演算制御信号を供
給する演算制御用レジスタ15A〜15Dが設けられる。演算
制御用レジスタ15Aは，最初のグループに属する各収集
演算回路16Aに対し，同じ演算制御信号を送る。次段の
演算制御用レジスタ15Bは，各収集演算回路16Bに対し，
演算制御信号を送る。以下，同様である。

演算制御用レジスタ15A〜15Dは，木構造の段数分だけ
直列にパイプライン接続され，そのレジスタにセットさ
れる演算制御信号は，コントローラ10から演算制御用信
号線17を介して所定のクロックに応じて送出される。従
って，例えば演算制御用レジスタ15Aに加算命令の制御
信号がセットされると，収集演算回路16Aは，各プロセ
ッサ14の出力データについての加算を行い，その結果を
次段の収集演算回路16Bへ出力する。次のクロックで
は，演算制御用レジスタ15Aの加算命令が，演算制御用
レジスタ15Bへ移され，収集演算回路16Bが同様に加算演
算を実行する。このようなパイプライン制御による演算
が進み，最終的に，演算制御用レジスタ15Dにセットさ
れた加算命令によって，収集演算回路16Dが加算を行う
と，その結果は，コントローラ10のグローバルデータレ
ジスタ12に書き込まれる。

〔作用〕

コントローラ10が，全プロセッサ14に対して指示した
処理の同期を取る場合には，例えば，プロセッサ制御用
信号線18を通して，各プロセッサ14における処理が完了
したときに“1"を出力するように，プロセッサ14に指示
を出す。そして，演算制御用信号線17に，アンド論理演
算を指示する制御信号を送出する。

演算制御用レジスタ15Aにアンド論理演算の信号がセ
ットされると，第１段目の収集演算回路16Aは，各プロ
セッサ14の出力のアンド論理演算を実行する。次のクロ
ックで,2段目の収集演算回路16Bが同様にアンド論理演
算を実行する。こうして，パイプライン制御を進め，最
終段の収集演算回路16Dが，アンド論理演算を実行した
ときに，その結果が“1"であれば，コントローラ10は，
全プロセッサ14が“1"を出力したことを認知することが
できる。

全プロセッサ14の中から，ある条件を満たす１つのプ
ロセッサを選ぶ処理は，次のように実行することができ
る。各プロセッサ14には，それぞれプロセッサを一意に
識別するプロセッサ番号が，あらかじめ付与されている
ものとする。

まず，ある条件を満たすプロセッサ14は，そのプロセ
ッサ番号を出力し，それ以外のプロセッサ14は，例えば
“111…1"（または“000…0"を出力するよう指示を出
す。そして，収集回路13には，最小値（または最大値）
を選ぶ演算制御信号を送る。

こうすることにより，収集回路13の出力として，条件
を満たす１つのプロセッサ番号を得ることができる。条
件を満たすプロセッサが複数あるとき，最小値による選
択を行う場合には，小さいプロセッサ番号を持つものが
優先的に選択されることになる。このように，バスの調
停に相当する処理も，簡単に行うことができる。

加算やその他の演算についても，収集回路13により，
同様にパイプライン化による高速処理が可能となる。

〔実施例〕

第２図は本発明のシステム構成例，第３図は本発明の
実施例に係るプロセッサの構成例，第４図は本発明の実
施例に係る収集演算回路の例，第５図は第４図に示す収
集演算回路の外部信号説明図，第６図は本発明の実施例
に係る収集回路の構成例，第７図は第６図に示す収集回
路の動作説明図，第８図は本発明の実施例に係る収集演
算回路の内部構成例，第９図は第８図に示す最大／最小
／加算演算回路の例を示す。

第２図は本発明を適用したシステムの例を示してい
る。第２図において，第１図と同符号のものは，第１図
に示すものに対応し,20はプロセッサ14を格子状に結合
したプロセッサ・アレイ,21はシーケンサを表す。

プロセッサ・アレイ20の全プロセッサ14および収集回
路13は，コントローラ10により制御される。コントロー
ラ10からは，プロセッサ14内部のファシリティ単位で制
御が可能であり，プロセッサ間通信の通信方向，内部に
おけるセレクタの入力選択，演算回路のオペレーショ
ン，データレジスタのアドレス等が制御の対象となる。

これらのファシリティへの制御用信号線により，プロ
セッサ14とコントローラ10とが接続され，コントローラ
10の内部にある制御メモリ11に，所定の制御フォーマッ
トで書かれた値が，各マシンサイクルごとに制御用信号
線に出力される。収集回路13に対しても同様に，収集時
に必要となる演算制御信号がコントローラ10から送出さ
れる。

コントローラ10におけるシーケンサ21は，制御メモリ
11から制御情報を読み出すシーケンスを決定する回路で
ある。グローバルデータレジスタ12は，全プロセッサ14
に共通に送り出すデータを保持したり，収集回路13の出
力結果を受け取るためのレジスタである。

第２図に示す各プロセッサ14は，第３図に示すような
構成になっている。内部に，処理対象となるデータを保
持するデータレジスタ30と，入出力データおよびデータ
レジスタ30に記憶されているデータについての演算を行
う演算回路（ALU）31を持つ。

各プロセッサ14は，コントローラから送られる同一の
制御信号で制御される。この制御信号には，データレジ
スタ30のアドレス，演算回路31に対するオペレーション
・コード等が含まれる。

プロセッサ14は，東（Ｅ），西（Ｗ），南（Ｓ），北
（Ｎ）の４方向の隣接プロセッサとの通信を行うための
EWNSポートを持つ。また，全プロセッサ14に対して，コ
ントローラから同じ値を与えるためのグローバルデータ
入力と，第２図に示す収集回路13への収集データ出力の
端子を持つ。

第３図に示すプロセッサ14は,1ビット・プロセッサで
あり，データレジスタ30への入出力や外部とのデータ入
出力は，すべて１ビットを基本としている。１ビットよ
り大きいデータは，その大きさに応じて１ビットずつ，
上位ビットまたは下位ビット側から連続して処理する。
これにより，何ビットのデータでも処理することができ
るようになっている。収集データ出力についても,1ビッ
トである。もちろん，本発明は，この例のような１ビッ
ト・プロセッサに限らず，複数ビットの入出力を行うプ
ロセッサにも同様に適用することが可能である。

プロセッサ14の内部構成については，種々のものが知
られており，本発明の要旨とするところから外れるの
で，この程度の説明にとどめる。

収集演算回路16は，例えば第４図に示すような外部信
号の入出力を行う。その外部信号の詳細な内容を，第５
図に示す。

本実施例の収集演算回路16は，内部に論理和演算回路
40と，論理積演算回路41と，最大／最小／加算演算回路
42とを持つ。

GLIは，収集演算回路16への32ビットの入力データで
ある。すなわち,1つの収集演算回路16で，最大32個のプ
ロセッサ14または他の収集演算回路16の収集データ出力
を処理することができるようになっている。GLOは，演
算結果の出力データであり,1ビットである。

制御系の信号として，以下のものがある。

（ａ）XGOPS（２ビット）収集演算回路16のオペレーションコードである。これ
が“00"のときアンド（AND），“01"のときオア（O
R），“10"のとき最小（MIN）または最大（MAX），“1
1"のとき加算（ADD）の演算を行う。

（ｂ）XGCR（１ビット）加算時などにおいて，キャリー（内部で記憶する桁上
がり等のビット）をクリアするか，クリアしないかを指
示する。

（ｃ）GLSTS（２ビット）収集演算回路16への入力段数を切り換える。すなわ
ち,32ビットの全部を入力するか,16ビットだけ入力する
か,8ビットだけ入力するか,4ビットだけ入力するかを選
択する。入力段数は，収集演算回路16の接続構成によっ
て静的に決まる。この例では，汎用的に収集演算回路16
を用いることができるようにするために，入力段数を切
り換え可能としているが，この切り換え機能はなくても
よい。

（ｄ）GMAXS（１ビット） XGOPSが“10"のとき，最大または最小のどちらの演算
を行うかを指定する。

（ｅ）GNOPS（１ビット）強制０入力信号であり，このビットが“0"のとき,GLI
の入力データを無効化する。

第６図は，第１段目に４個の収集演算回路16-1〜16-4
と，第２段目に１個の収集演算回路16-5を用いて,128入
力の収集演算を行う収集回路の例を示している。

説明を簡単にするために，演算制御用レジスタ15-1,1
5-2におけるオペレーションコードXGOPSとキャリー制御
信号XGCR以外の信号は，省略する。50〜58は，それぞれ
パイプライン制御のためのレジスタである。

OP1は，演算制御用レジスタ15-1にセットされた信号,
OP2は演算制御用レジスタ152にセットされた信号,D1は
レジスタ50〜53にセットされたデータ,D2はレジスタ54
〜57にセットされたデータ,D3はレジスタ58にセットさ
れたデータを表す。

第７図は，第６図に示す収集回路の動作を説明するた
めのタイムチャートである。第７図では，代表的な演算
の１つとして,4ビット長のデータの加算を行うときの例
を示している。

B0〜B3は，処理対象となる４ビットのデータであり,B
0は最下位ビット（LSB）,B3は最上位ビット（MSB）であ
る。加算の場合，これらのデータは，下位ビット側のB0
から順次B3へ１ビットずつ，各クロックごとにレジスタ
50〜53に入力される。

このデータに同期して，演算制御用レジスタ15-1（OP
1）に，加算のオペレーションコードがセットされる。X
GCRは，最初のクロックでは“0"でキャリー・クリア，
以後のクロックでは“1"で通常となるように入力され
る。

第１段目の収集演算回路16-1〜16-4は，最初にB0につ
いて,OP1により，それぞれ32ビットの加算演算を実行す
る。次のクロックでは、B1について,B0の加算結果によ
るキャリーを考慮した加算演算を実行する。以下，同様
にB3まで，加算演算を繰り返す。

収集演算回路16-1〜16-4の加算結果は，レジスタ54〜
57にセットされる。また,OP1は，毎クロック,OP2へ移さ
れる。

収集演算回路16-5は,OP2に応じて,4入力の加算演算を
実行し，結果をレジスタ58に出力する。すなわち，収集
演算回路16-5は,1クロック遅れて，収集演算回路16-1〜
16-4と同様に動作する。

以上のようにパイプライン制御による動作が行われる
になっている。４ビット長ではなく，他のビット長の加
算も，同様に連続的に実行することができる。また，最
大／最小等の演算についても，任意のビット長について
同様に実行可能である。ただし，最大／最小の演算の場
合には，ビット列について，最下位ビット側からではな
く，最上位ビット側から１ビットずつ入力する。

第６図に示す回路を，さらに多段化することなどによ
り,128入力に限らず，多数の入力データを処理すること
ができる。

本実施例における収集演算回路16の内部構成は，第８
図に示すようになっている。

第８図において,A1はアンド回路,N1〜N5はノア回路,N
A1〜NA5はナンド回路,S1〜S5はセレクタ,MA00〜MA40は
最大／最小／加算演算回路を構成する回路ブロックを表
す。

アンド回路A1は，強制０入力信号GNOPSが“0"のと
き，入力データGLIをオール・ゼロにする。ノア回路N1
〜N4,ナンド回路NA1は，入力データGLIについて，入力
段数に応じた論理和演算を行う。

ナンド回路NA2〜NA5,ノア回路N5は，入力データGLIに
ついて，論理積演算を行う回路である。

MA00ないしMA40は，最大／最小／加算演算を行うため
の回路であり,2ビットずつ，トーナメント式に，最大／
最小／加算の演算を実行するようになっている。その詳
細な内部構成については，第９図に従って後述する。

セレクタS1〜S4は，オペレーションコードXGOPSに応
じた出力の選択を行い，セレクタS5は，入力段数に応じ
た出力の選択を行う。

最大／最小／加算演算回路を構成するMA00〜MA40の１
ブロックは，第９図に示すような回路構成になってい
る。

第９図において,A10〜A16はアンド回路,N10〜N12はノ
ア回路,NT0〜NT6はノット回路,O1〜O2はオア回路,R0〜R
1はキャリーを記憶するレジスタ,S10〜S11はセレクタ,9
0は３入力の加算器である。

前述のように，第９図に示す回路は,2入力の最大／最
小または加算演算を実行する。DM0,DM1は，最大／最小
を求めるための各１ビットの入力信号である。DA0,DA1
は加算対象となる各１ビットの入力信号である。XMは最
大／最小の演算結果,XAは加算の演算結果である。最初
の段，すなわち，第８図に示すMA00〜MA015では,DM0とD
A0,DM1とDA1は，それぞれ同じ値である。

最初に，第９図に示す回路の加算の動作について説明
する。

加算のデータは，最下位ビットから１ビットずつ,DA
0,DA1に入力される。最初のビットでは,XGCRが“0"であ
るため，キャリー・クリアとなって，アンド回路A10の
出力であるキャリーCARRY0が“0"となる。DA0,DA1につ
いて，加算器90による加算が行われ，加算結果XAが出力
される。加算による桁上がりがない場合，キャリー出力
CARRYOUTは“0"となり，桁上がりがある場合，キャリー
出力CARRYOUTは，“1"となる。

このキャリー出力CARRYOUTは，次のクロックにおける
加算のために，セレクタS10を経て，レジスタR0に保持
される。

最下位ビットの次からは，レジスタR0の内容がキャリ
ーCARRY0として取り出され,DA0,DA1と共に加算される。

最大値を求めるときの動作は，以下のとおりである。
最大値を求める場合，信号GMAXSは，“0"である。

入力データは，最上位ビットから１ビットずつ,DM0,D
M1に入力される。最初のビットでは,XGCRが“0"とさ
れ，アンド回路A10,A11の出力が“0"となって，ノア回
路N12の出力が“1",アンド回路A14,A15,オア回路O1の出
力が“0"になる。従って，セレクタS11の選択信号は，
“10"となり，最大値の出力XMとして，オア回路O2の出
力によるDM0とDM1の論理和が選択出力される。

簡単な論理演算によって明らかなように，レジスタR
0,R1には,DM0とDM1のいずれか一方だけが先に“1"にな
った場合，その対応する側に“1"がセットされる。すな
わち,DM0が“1"で,DM1が“0"の場合，レジスタR0に“1"
がセットされ，これとは反対に,DM0が“0"で,DM1が“1"
の場合，レジスタR1に“1"がセットされる。以後，その
状態を保持する。

レジスタR0,R1のいずれか一方に，“1"がくると，次
のクロックからは，ノア回路N12の出力が“0"になり，
また，オア回路O1の出力は,R0が“1"の場合に“1",R1が
“1"の場合に“0"になる。従って，セレクタS11は,DM0
またはDM1のうち，先に“1"が検出された側の値を，そ
れ以後，選択して出力を続ける。

最小値を求める場合，信号GMAXSは“1"である。最大
値を求める場合と動作は同様であるが，ノア回路N12の
出力が“1"であるときの，セレクタS11に対する選択信
号は“11"であり，アンド回路A16の出力が選択される。

DM0,DM1のいずれか一方が“1"になると，それに対応
してR0,R1の一方が“1"にセットされ，セレクタS11に対
する選択信号は，“00"または“01"になる。以後,DM0ま
たはDM1の最小値側が選択されて出力される。

第９図に示す回路を，第８図に示すように５段重ねれ
ば,32ビットの入力に対する最大／最小または加算の演
算を実行できることになる。入力段数が，例えば８にな
っている場合には，第８図に示す３段目の出力XM8また
はXA8を取り出せば，求める演算結果を得ることができ
る。

第２図に示す並列計算機は，例えばLSI設計における
配線処理等に用いることができる。配線処理を行うため
の代表的な方法として，迷路法があるが，収集回路13を
用いることにより，このような迷路法の処理において必
要となる以下の機能の実現が可能になる。

各処理の終了判定，すなわち，プロセッサ全体の同期
制御。

複数ターゲットにおけるコストの最小値計算。

クロス・オーバラップしたネット番号の読み出しな
ど，ある条件を満たしているもののプロセッサ番号等の
読み出し。

クロス・オーバラップした全ネット数の加算など，あ
る条件を満たしたもののカウント処理。

もちろん，本発明に係る並列計算機を，他にも種々の
用途に適用して実施することが可能である。

〔発明の効果〕

以上説明したように，本発明によれば，全プロセッサ
が出力するデータを，必要な演算を施しつつ，効率よく
収集することができるようになり,SIMD型の多数のプロ
セッサを持つ並列計算機等を有効に利用できるようにな
る。また，機能拡張により，並列計算機の適用対象とな
る分野の拡大が可能になる。

【図面の簡単な説明】

第１図は本発明の原理構成図，第２図は本発明のシステム構成例，第３図は本発明の実施例に係るプロセッサの構成例，第４図は本発明の実施例に係る収集演算回路の例，第５図は第４図に示す収集演算回路の外部信号説明図，第６図は本発明の実施例に係る収集回路の構成例，第７図は第６図に示す収集回路の動作説明図，第８図は本発明の実施例に係る収集演算回路の内部構成
例，第９図は第８図に示す最大／最小／加算演算回路の例を
示す。図中,10はコントローラ,11は制御メモリ,12はグローバ
ルデータレジスタ,13は収集回路,14はプロセッサ,15A〜
15Dは演算制御用レジスタ,16A〜16Dは収集演算回路,17
は演算制御用信号線,18はプロセッサ制御用信号線を表
す。

フロントページの続き (72)発明者澁谷利行神奈川県川崎市中原区上小田中1015番地富士通株式会社内 (72)発明者三渡秀樹神奈川県川崎市中原区上小田中1015番地富士通株式会社内 (56)参考文献特開昭61−30832（ＪＰ，Ａ) 特開平２−90357（ＪＰ，Ａ)

Claims

【特許請求の範囲】

【請求項１】処理対象となるデータを記憶する回路と演
算回路とをそれぞれ有する複数のプロセッサ（14）と，
これらのプロセッサを制御するコントローラ（10）とを
備え，コントローラから送出する一連の命令によって，
各プロセッサに与えられたデータを処理する並列計算機
において，木構造状に結合された複数の収集演算回路であって，最
初の段では上記各プロセッサの出力を,2段目以降では前
段の収集演算回路の出力を入力し，演算結果を後段の収
集演算回路または最後の段では上記コントローラに出力
する収集演算回路（16A,16B,…）と，木構造の段数に応じてグループ化された上記収集演算
回路に対し，それぞれ演算制御信号を供給する木構造の
段数分のパイプライン接続された演算制御用レジスタ
（15A,15B,…）とを備え，上記各プロセッサから上記コントローラへの出力データ
を，上記演算制御用レジスタへの制御情報の設定によ
り，上記収集演算回路を介して収集するようにしたこと
を特徴とする並列計算機。