JPH08235149A

JPH08235149A - 単一命令・多データ型並列計算機の命令生成・分配装置

Info

Publication number: JPH08235149A
Application number: JP3711895A
Authority: JP
Inventors: Motohiko Matsuda; 元彦松田
Original assignee: Sumitomo Metal Industries Ltd
Current assignee: Nippon Steel Corp
Priority date: 1995-02-24
Filing date: 1995-02-24
Publication date: 1996-09-13

Abstract

(57)【要約】（修正有）【目的】一般的に専用の演算器に比して高性能である
マイクロプロセッサをプロセッサエレメントとして使用
してSIMD並列計算機を構成することにより、高性能且つ
プログラミング的に有利な並列計算機を提供する。【構成】フロントエンド計算機１から発行される並列
命令計算の命令を解釈し、複数のプロセッサエレメント
(PE)40, 41, 42…が共通に処理すべき命令列を生成する
命令デコーダ２と、生成された命令列を複数のPE40, 4
1, 42…に対して同時に転送するブロードキャストバス
３とを備え、更に複数のPE40, 41, 42…それぞれに、 M
PU 404と、命令デコーダ２からブロードキャストバス３
を介して与えられる所定の信号に従ってそれぞれの MPU
404を起動する MPU起動機構402 と、命令デコーダ２か
らブロードキャストバス３を介して転送される命令列を
保持すると共に、保持した命令列をそれぞれの MPU 404
が MPU起動機構402 により起動される際に供給する命令
バッファ401 とを備える。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は単一命令・多データ型並
列計算機、即ちSIMD並列計算機に関し、特にその命令生
成・分配装置に関する。

【０００２】

【従来の技術】複数のプロセッサエレメントを使用して
計算を並列実行する並列計算機は、一般的には単一命令
・多データ型(Single Instruction stream Multiple Da
ta stream:SIMD) 並列計算機と多命令・多データ型(Mul
tiple Instruction stream Multiple Data stream:MIM
D) 並列計算機とに分類される。SIMD並列計算機は、フ
ロントエンドとしての逐次計算機にプロセッサエレメン
トとしての演算器を多数接続して構成されており、基本
的には逐次型の処理を行なう。しかし、命令処理の実行
中に並列命令が存在する場合には、プロセッサエレメン
ト群を同時に動作させることにより並列計算を実行す
る。

【０００３】このようなSIMD並列計算機はプログラムモ
デルが単純であるため、数値処理等に適しており、その
ような分野のアプリケーションに対してはMIMD並列計算
機に比してよりプログラミングが容易であるという特徴
を有する。

【０００４】一方、MIMD並列計算機は多プロセス, 多ジ
ョブのプログラムモデルであるため、より一般的な処理
を行なうことが可能である。しかし、MIMD並列計算機で
は、プロセッサエレメント間の同期、あるいはプロセッ
サエレメント間の時間関係による非決定的な動作など、
SIMD並列計算機に比して実行状況が複雑になる等の問題
点があるため、処理等の面ではSIMD並列計算機の方が有
利である。

【０００５】即ち、従来は汎用マイクロプロセッサによ
り並列計算機を構成する場合、叙述のような事情からMI
MD並列計算機として構成することが一般的であった。MI
MD並列計算機においては、プロセッサエレメント群中の
個々のプロセッサエレメントは命令シーケンサ等を有す
る独立した一つの計算機であり、各プロセッサエレメン
トは自身のメモリに保持されている命令列に従って並列
計算を実行する。一方、SIMD並列計算機ではフロントエ
ンド、即ち並列計算機の逐次実行部分を処理する通常の
計算機で構成された部分からプロセッサエレメントアレ
イへ発行された命令が複数のプロセッサエレメントによ
り一斉に実行される。換言すれば、プロセッサエレメン
ト群中のそれぞれのプロセッサエレメントは基本的には
命令列を保持しておらず、フロントエンドから発行され
る命令に逐一従って並列計算を実行する。従来において
並列計算機を構成する場合には、プロセッサエレメント
にマイクロプロセッサを使用するのであれば、マイクロ
プロセッサにて構成される独立した計算機を並べる形の
MIMD並列計算機として構成されることが一般的であっ
た。

【０００６】従って、従来において並列計算機をSIMD並
列計算機として構成する場合、プロセッサエレメントと
しては専用の演算器、たとえば加算器等を使用すること
が一般的であって汎用マイクロプロセッサをプロセッサ
エレメントとして使用することはなかった。即ち、SIMD
並列計算機ではフロントエンドから全てのプロセッサエ
レメントが制御される必要があるため、マイクロプロセ
ッサを直接使用するには種々の問題があった。また同時
に、フロントエンドから全てが制御されることから、プ
ロセッサエレメントには命令制御が不要であり、従って
構成が簡単であることから、専用の演算器が製作されて
使用されていた。しかし、一般的にはマイクロプロセッ
サの近年の性能向上が著しいため、専用のプロセッサエ
レメントを使用するよりも、マイクロプロセッサをプロ
セッサエレメントとして使用することが今後のSIMD並列
計算機にとっては重要な課題になりつつある。

【０００７】

【発明が解決しようとする課題】ところで、従来からSI
MD並列計算機による命令実行をMIMD並列計算機により代
替させるための言語あるいはコンパイラが知られてい
る。しかしそれらによる場合には、実行時に処理が決定
する対話的な言語、あるいはデバッグに関しては問題が
存在する。また、それらによる場合には、一面ではアプ
リケーションソフトウェアからみた対策であるので、非
本質的な非決定性により複雑になる動作の正当性をコン
パイラに頼ることになり、充分な効果が得られない。

【０００８】本発明は以上のような事情に鑑みてなされ
たものであり、一般的に専用の演算器に比して高性能で
あるマイクロプロセッサをプロセッサエレメントとして
使用してSIMD並列計算機を構成することにより、高性能
且つプログラミング的に有利な並列計算機を提供するこ
とを目的とする。ここでの問題は、汎用マイクロプロセ
ッサは命令列を自身に接続されたメモリからロードする
ように構成されていることに対して、SIMD並列計算機で
は計算処理の実行中に短い命令列を頻繁に解釈，分配，
ロードする必要があることである。換言すれば、SIMD並
列計算機のプロセッサエレメントとしてマイクロプロセ
ッサを使用する場合には、そのための特別な構成が必要
になるので、本発明ではその点に関して新規性をする。

【０００９】

【課題を解決するための手段】本発明に係る単一命令・
多データ型並列計算機の命令生成・分配装置は、逐次計
算を処理するフロントエンド計算機と、フロントエンド
計算機から発行される並列計算の命令を処理する複数の
プロセッサエレメントとを備えた単一命令・多データ型
並列計算機のための命令生成・分配装置であって、フロ
ントエンド計算機から発行される並列命令計算の命令を
解釈し、複数のプロセッサエレメントが共通に処理すべ
き命令列を生成する命令列生成手段と、命令列生成手段
により生成された命令列を複数のプロセッサエレメント
に対して同時に転送するブロードキャストバスとを備
え、更に複数のプロセッサエレメントそれぞれに、マイ
クロプロセッサと、命令列生成手段からブロードキャス
トバスを介して与えられる所定の信号に従ってそれぞれ
のマイクロプロセッサを起動するマイクロプロセッサ起
動手段と、命令列生成手段からブロードキャストバスを
介して転送される命令列を保持すると共に、保持した命
令列をそれぞれのマイクロプロセッサがマイクロプロセ
ッサ起動手段により起動される際に供給する命令列保持
手段とを備えたことを特徴とする。

【００１０】

【作用】本発明に係る単一命令・多データ型並列計算機
の命令生成・分配装置では、命令列生成手段により、フ
ロントエンド計算機から発行される並列命令計算の命令
が解釈されて複数のプロセッサエレメントが共通に処理
すべき命令列が生成され、この命令列が複数のプロセッ
サエレメントに対してブロードキャストバスにより同時
に転送される。更に、複数のプロセッサエレメントそれ
ぞれでは、命令列生成手段からブロードキャストバスを
介して与えられる所定の信号に従ってそれぞれのマイク
ロプロセッサがマイクロプロセッサ起動手段により起動
され、命令列保持手段が保持している命令列がそれぞれ
のマイクロプロセッサがマイクロプロセッサ起動手段に
より起動される際に供給される。

【００１１】

【実施例】以下、本発明をその実施例を示す図面に基づ
いて詳述する。

【００１２】図３はマイクロプロセッサをプロセッサエ
レメントとして使用する単一命令・多データ型並列計算
機の全体の構成例を示すブロック図である。

【００１３】図３において、参照符号１はフロントエン
ド計算機を、参照符号２は命令列生成手段として機能す
る命令デコーダを、参照符号３はブロードキャストバス
を、参照符号４は複数のプロセッサエレメント（以下、
PEと言う) 40, 41, 42…で構成されるプロセッサエレメ
ントアレイ（以下、PEアレイと言う) をそれぞれ示して
いる。フロントエンド計算機１からは命令列が発行され
て命令デコーダ２に与えられる。命令デコーダ２とPEア
レイ４の各PE40, 41, 42…との間はブロードキャストバ
ス３でそれぞれ接続されている。

【００１４】フロントエンド計算機１は通常のたとえば
ワークステーション等の計算機である。SIMD並列計算機
では、フロントエンド計算機１から並列処理の要求があ
る場合にのみ、PEアレイ４の各PE40, 41, 42…が動作を
開始する。フロントエンド計算機１とPEアレイ４の各PE
40, 41, 42…との間はブロードキャストバス３で接続さ
れているが、このブロードキャストバス３は特殊なバス
ではなく、一般的なバスである。

【００１５】図１は本発明の単一命令・多データ型並列
計算機の命令生成・分配装置の命令デコーダ２内部に含
まれる部分の構成例を示すブロック図である。この命令
デコーダ２の構成はフロントエンド計算機１から出力さ
れる並列命令に対応して構成する必要がある。しかし、
ここでは一例として、マイクロプロセッサ及びメモリ等
で構成した例を示す。図１において、参照符号20は命令
キューを、21は命令列テーブルを、22はマイクロプロセ
ッサ（以下、 MPUと言う) を、23は出力バッファをそれ
ぞれ示している。

【００１６】命令デコーダ２は、フロントエンド計算機
１から発行される並列命令を解釈し、後述するPEアレイ
４の各PE40, 41, 42…に内蔵されているMPU により実行
が可能な命令列に変換する。並列命令はSIMD並列計算機
として動作するために定義された仮想的な命令である。
命令デコーダ２は上述のように、フロントエンド計算機
１とブロードキャストバス３とに接続されており、フロ
ントエンド計算機１から発行された並列計算の命令をた
とえばテーブルルックアップ等の従来公知の手法により
MPU用の命令列に変換した後、ブロードキャストバス３
へ出力する。SIMD並列計算機により処理される並列計算
としては、たとえばPEアレイ４中の全てのPE40, 41, 42
…で一斉に加算を行なう等の演算が一般的である。命令
デコーダ２はそのような命令を各PE40, 41, 42…のMPU
が実行するために必要なメモリからのデータのロード，
演算，演算結果のメモリへのストアを指示する命令列に
変換してブロードキャストバス３へ出力する。

【００１７】以下、具体的に説明する。フロントエンド
計算機１から発行された命令は命令デコーダ２内の命令
キュー20に一旦保持される。この命令キュー20は複数の
命令をキューイング可能なように構成されている。命令
キュー20に保持された命令はMPU 22により解釈される
が、複数の命令を組み合わせて解釈することにより、よ
り効率的な MPU命令列を生成することも可能である。

【００１８】また、MPU 22が命令を解釈する上で必要が
あれば、各命令の命令フィールドから必要な情報を得る
ための専用のハードウェアを備えることも可能である。
たとえば、命令のオペランドが即値であって命令フィー
ルドにビット列として埋め込まれているような場合に
は、 MPUによるソフトウェアでの解釈には時間が多く必
要になるため、そのような場合に即値データを直接読み
出せる専用のハードウェアを備えれていれば、より迅速
な命令の解釈が可能になる。

【００１９】命令デコーダ２によるPEアレイ４の各PE4
0, 41, 42…の MPU用の命令列（以下、MPU 命令列と言
う）の生成は以下のようにして行なわれる。命令列テー
ブル21には予め、フロントエンド計算機１が発行する種
々の並列計算の命令に対応したMPU命令列が格納されて
いる。従って、上述のような必要な命令フィールドの処
理に続いて、たとえばテーブルルックアップ等の手法に
より命令列テーブル21から対応する MPU命令列を読み出
すことにより、フロントエンド計算機１から与えられた
命令が MPU命令列に変換される。これにより、フロント
エンド計算機１から発行された命令の解釈が完了する。

【００２０】この際、必要であれば命令列テーブル21に
予め格納されているテーブルから得られた MPU命令列を
部分的に変更することも可能である。たとえば、フロン
トエンド計算機１から発行された命令にデータあるいは
アドレスが含まれている場合、それらをテーブルから読
み出した MPU命令列に埋め込む必要がある。即ち、ブロ
ードキャストバス３を通じて各PE40, 41, 42…へ送られ
る命令列は純粋な命令のみならずデータあるいはアドレ
スをも含んでいる場合がある。このようにして生成され
た MPU命令列は出力バッファ23から順次ブロードキャス
トバス３へ出力される。

【００２１】なお、命令デコーダ２は命令の解釈を行な
う他にも種々の機能を有している。PEアレイ４中の各PE
40, 41, 42…のMPU で直接実行することが不可能な処
理、たとえば各PE40, 41, 42…が有するある値に対する
総和を計算するというような処理に関しては、命令デコ
ーダ２自身が実際の計算処理を行なうことも可能であ
る。更に、全てのPEの MPUの同期をとる等のSIMD並列計
算機を構成する上で必要な幾つかの機能を命令デコーダ
２が有している必要がある。そのような機能はMPU22に
より容易に実現が可能である。

【００２２】ブロードキャストバス３は命令デコーダ２
とPEアレイ４中の各PE40, 41, 42…との間を接続し、命
令デコーダ２により生成された命令列を全てのPE40, 4
1, 42…へ転送する。SIMD並列計算機では、PEアレイ４
を構成する全てのPE40, 41, 42…は同一の命令列を必要
とするため、ブロードキャストバス３による命令列の転
送はブロードキャスト (同報通信) になる。ブロードキ
ャストバス３そのものは通常の一般的なバスであるが、
信号の転送方式が一対一の転送ではなく、命令デコーダ
２から全てのPE40, 41, 42…に対して同時かつ一斉に行
なわれる。

【００２３】図２は本発明の単一命令・多データ型並列
計算機の命令生成・分配装置のPEアレイ４を構成する複
数のPE40, 41, 42…それぞれの内部に含まれる部分の構
成例を示すブロック図であり、全て共通の構成を有して
いる。各PE40, 41, 42…は、命令列保持手段として機能
する命令バッファ401 と、 MPU起動手段として機能する
MPU起動機構402 と、メモリ403 と、 MPU 404とで主と
して構成されている。なお、ブロードキャストバス３と
命令バッファ401 及び MPU起動機構402 の入力側が直接
接続されており、命令バッファ401 の出力側は内部バス
である MPUバス405 に、 MPU起動機構402 の出力側は M
PU 404にそれぞれ接続されている。また、メモリ403 及
び MPU 404は MPUバス405 に入出力側共に接続されてい
る。

【００２４】命令バッファ401 は所謂FIFO(First In Fi
rst Out)型のバッファであり、 MPU404が処理を実行開
始する時点で MPU 404に命令列を供給するために使用さ
れる。具体的には、命令バッファ401 はブロードキャス
トバス３から与えられる命令列を順次的に保持し、それ
らを MPU 404が起動する都度、順次的に MPU 404へ転送
する。一般的には、 MPU 404がある並列計算の命令の処
理を実行している時点において、次の並列命令を実行す
るための命令列がブロードキャストバス３からロードさ
れる。

【００２５】なお、命令バッファ401 はその構成にもよ
るが、一般的には主メモリ、即ちメモリ403 とは物理的
に独立したメモリとして構成する必要がある。その理由
は、MPU 404が命令列の処理を実行する際には、メモリ4
03 は MPU 404の処理に専ら使用されると考えられるた
め、メモリ403 がたとえばインタリーブ等により多重化
されていない限りは命令バッファ401 をメモリ403 内に
構成した場合には性能の低下を招来するからである。

【００２６】また、命令バッファ401 は MPU 404の構成
に対応した構成が必要である。たとえば、 MPU 404が独
立した命令キャッシュとデータキャッシュとを備えてい
る所謂ハーバードアーキテクチャを採用している場合、
あるいは少なくとも命令キャッシュを有する場合にはそ
れらを有効に活用すべく、命令バッファを命令バスに接
続する配慮、ある命令バッファを命令キャッシュの一部
として利用する配慮が必要である。

【００２７】MPU 404の起動に際しては、 MPU 404に命
令バッファ401 内の命令を実行させる必要がある。 MPU
404の起動は割り込みあるいはその起動のタイミングま
で MPU 404をホールド状態に維持する等の手法が可能で
あり、 MPU 404の特性に応じて選択すればよい。 MPU 4
04への命令のロードは、命令バッファ401 をメモリと見
做して参照することにより行なわれる。但し、 MPU 404
が外部から直接命令をロードする機能を有している場合
はその機能を利用してもよい。

【００２８】命令バッファ401 に保持される命令は MPU
404に実際に実行される演算命令である場合も、あるい
は実際に実行される命令は事前にサブルーチンとして M
PU 404にロードされており、そのサブルーチンへのジャ
ンプ命令が命令バッファ401に保持されている場合もあ
り得る。全ての処理がそのような形態で行なわれる場
合、縮退した状況としてたとえば命令バッファ401 に保
持される命令がただ一つになっている場合もあり得る。

【００２９】MPU起動機構402 は、ブロードキャストバ
ス３を介して命令デコーダ２から与えられる所定の信号
により、命令バッファ401 内に保持されている命令列に
従った演算処理の実行を MPU 404に開始させる。命令デ
コーダ２は、各PE40, 41, 42…の MPU 404がその時点で
実行している処理を終了し且つ命令バッファ401 への次
の命令列のロードが完了した時点で所定の信号をブロー
ドキャストバス３へ出力する。各PE40, 41, 42…の MPU
起動機構402 は、命令デコーダ２がブロードキャストバ
ス３へ出力した所定の信号を受信すると、割り込み等の
適宜の手法により MPU 404を起動させる。

【００３０】以上のように、本発明の単一命令・多デー
タ型並列計算機の命令生成・分配装置では、フロントエ
ンド計算機１から並列計算の命令が発行されると、その
命令が命令デコーダ２により各PE40, 41, 42…の MPU 4
04のための MPU命令列に命令列テーブル21を利用して変
換され、それぞれのPE40, 41, 42…にブロードキャスト
バス３を介して同時に転送される。そして、複数のプロ
セッサエレメントそれぞれにおいては、命令デコーダ２
からブロードキャストバス３を介して与えられる所定の
信号に従ってそれぞれの MPU 404が MPU起動機構402 に
より起動され、命令バッファ401 が保持している命令列
がそれぞれの MPU 404 MPU起動機構402により起動され
る際に供給される。これにより、PEアレイ４の各PE40,
41, 42…は同一の命令列を同時に実行する。

【００３１】なお、特にここで使用する MPU 404として
は、ベクタ演算を行なうMPU はベクタ演算に要する時間
が長いため、命令のデコードあるいはブロードキャスト
に使用可能な時間を充分にとれるため、本発明のSIMD並
列計算機に適している。

【００３２】

【発明の効果】以上に詳述したように本発明の単一命令
・多データ型並列計算機の命令生成・分配装置によれ
ば、一般的に専用の演算器に比して高性能であるマイク
ロプロセッサをプロセッサエレメントとして使用してSI
MD並列計算機を構成したので、高性能且つプログラミン
グ的に有利な並列計算機を提供することが可能になる。

【図面の簡単な説明】

【図１】本発明の単一命令・多データ型並列計算機の命
令生成・分配装置の命令デコーダ内部に含まれる部分の
構成例を示すブロック図である。

【図２】本発明の単一命令・多データ型並列計算機の命
令生成・分配装置のプロセッサエレメントそれぞれの内
部に含まれる部分の構成例を示すブロック図である。

【図３】マイクロプロセッサをプロセッサエレメントと
して使用する単一命令・多データ型並列計算機の全体の
構成例を示すブロック図である。

【符号の説明】

１フロントエンド計算機２命令デコーダ３ブロードキャストバス 40 (41, 42…）プロセッサエレメント(PE) 401 命令バッファ 402 MPU起動機構 404 マイクロプロセッサ(MPU)

Claims

【特許請求の範囲】

【請求項１】逐次計算を処理するフロントエンド計算
機と、前記フロントエンド計算機から発行される並列計
算の命令を処理する複数のプロセッサエレメントとを備
えた単一命令・多データ型並列計算機の命令生成・分配
装置において、前記フロントエンド計算機から発行される並列命令計算
の命令を解釈し、前記複数のプロセッサエレメントが共
通に処理すべき命令列を生成する命令列生成手段と、前記命令列生成手段により生成された命令列を前記複数
のプロセッサエレメントに対して同時に転送するブロー
ドキャストバスとを備え、更に前記複数のプロセッサエレメントそれぞれに、マイクロプロセッサと、前記命令列生成手段から前記ブロードキャストバスを介
して与えられる所定の信号に従ってそれぞれのマイクロ
プロセッサを起動するマイクロプロセッサ起動手段と、前記命令列生成手段から前記ブロードキャストバスを介
して転送される命令列を保持すると共に、保持した命令
列をそれぞれのマイクロプロセッサが前記マイクロプロ
セッサ起動手段により起動される際に供給する命令列保
持手段とを備えたことを特徴とする単一命令・多データ
型並列計算機の命令生成・分配装置。