JP2638613B2

JP2638613B2 - プログラマブルアクセラレータ及びその方法

Info

Publication number: JP2638613B2
Application number: JP15511488A
Authority: JP
Inventors: アグラワルプラシマ; ジェー．ダリーウィリアム; エス．クリシュナクマーアンジュア
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1987-06-25
Filing date: 1988-06-24
Publication date: 1997-08-06
Anticipated expiration: 2012-08-06
Also published as: JPS6426969A

Description

【発明の詳細な説明】発明の技術分野本発明は一般的にはコンピュータシミュレーション
に、より具体的には回路設計のコンピューターシミュ
レーションに用いられる通常ハードウェアアクセラレ
ータと呼ばれる専用高速プロセッサに関する。

発明の技術的背景ハードウェアアクセラレータは特定のアルゴリズム
或はあるクラスのアルゴリズムの効率的な使用のために
特別な設計された専用処理装置である。これら要素は広
範囲のコンピュータ支援設計問題に対する実現可能な解
決としてますます注目を集めており、これらの使用は結
果として顕著な性能の向上に結びついている。今日のシ
ミュレーション要素を用いた場合は、秒当り10⁶以上の
ゲート評価を遂行することが可能であり、これはソフト
ウェア論理シミュレーションと比較して桁違いの向上で
ある。

シミュレーション要素はこれらの高いレベルの性能を
１つ或は複数の以下の手段を通じて達成する。つまり、
複数の同一ハードウェアユニットが用いられ、これら
の間でシミュレーション問題が分割され、動作がこれら
ユニットを通じてパイプライニングされ、また手元のア
プリケーションに合せられた専用論理、及び処理ユニッ
ト間の専用の相互接続が用いられる。ハードウェアア
クセラレータに関してその貴重な調査がトムブランク
（Tom Blank）によってIEEEコンピュータの設計及びテ
スト（IEEE Desing and Test of Computers）、1984年
８月号に掲載の論文［コンピュータ支援設計に用いられ
るハードウェアアクセラレータの調査（A Surver of
Hardware accelerators used in Computer−Aided Desi
gn）］に紹介されている。更に適当な資料として、［論
理シミュレーションマシン（A Logic Simulation Mac
hine）］、マイロンアブラモビシ（Miron Abramovic
i）、IEEE、Vol−CAD−２、No.2、1983年４月号；［デ
ータフローアーキテクチャーを用いての論理シミュ
レーションのハードウェアアクセラレーション（Hard
ware Acceleration of Logic Simulation using a Date
Flow Architecture）］、IEEE、1985;［VLSI設計にお
けるシリコン溶液彫刻ナイチェ（Silicon Solutions Ca
rves Niche in VLSI Design）］、エレクトロニクス、1
985年８月12日号；［パワースパイスによる回路のより
高速より正確なシミュレーション（Powerspic Simulate
s Circuits Faster and More Accurately）］、エレク
トロニクス、1985年８月26日号；及びスイッチ−レベル
シミュレーションに対するハードウェアアーキテク
チャー（A Hardware Architecture for Switch−Level
Simulation）］、W.J.ダリー（W.J.Dally）その他、IEE
E、1985年を挙げることができる。

これら先行技術によるシステムに用いられるハードウ
ェアアクセラレータの殆どは、特定のタスクを非常に
効率的に遂行するために専用化された多くの処理要素、
或は要素を含み、これら要素が密着した相互作用システ
ムを形成するように相互接続される。周知のシミュレー
ション要素の全てが共通にもつ短所は、これらが処理要
素間の固定された相互接続を採用し、これによって、柔
軟性が失われ、また処理要素自体が特定のアプリケーシ
ョンに専用化され、このため異なるアプリケーションを
扱う場合に異なる設計が必要となることである。

本発明の概要本発明はスイッチを通じてクラスタを形成するように
フレキシブルに相互接続された複数の実質的に同一の高
速専用処理要素（processing element、PE）を採用する
ことによって先行技術による回路シミュレーション技術
と比較して大きな向上を達成する。この処理要素（PE）
がプログラマブルであるのに加えて、この相互接続スイ
ッチは処理要素間の信号の経路の動的切り換えを可能と
する。この処理要素は要素間の高速非同期通信を可能と
するキューユニットを含む。本発明においては、複数
のクラスタがｎ−立体構成に相互接続され、クラスタの
全てが１つのホストコンピュータと通信するが、この
階層構成によって追加の利点が得られる。

実施例第１図は本発明による高速シミュレーション用マイク
ロプログラマブルアクセラレータ（Microprogrammabl
e Accelerator for Rapid Simulation、MARS）の一般ブ
ロック図である。これは双方向ライン12−24を介してブ
ーリアン３−キューブ（Boolean 3−cube）に相互接
続された８個のクラスタ10と１つのホストコンピュー
タ11を含む。これらはまた共通の双方向バス11を介して
相互接続される。個々のクラスタは（ｎ−空間内の）ｎ
−キューブ（立体）上そのクラスタの座標に対応する２
進アドレスをもつ。第１図は３−キューブ相互接続を示
すが、更に高次元にするため（15個の処理要素をもつ）
ブーリアン４−キューブに拡張することも簡単であ
る。第２図は相互接続スイッチのノードを示す。ブーリ
アンｎ−キューブの説明に関しては、例えば、W.Dヒ
リス（W.D.Hillis）、サイエンティフックアメリカン
（Scientific American）、1987年６月号（ページ108−
115）による“接続マシーン（The Connectio Machin
e）”にみられる。

第１図のシステム内の個々のクラスタはｎ−キューブ
へのインタフェースノード、メモリと関連する複数の
処理要素、及び相互接続スイッチを含む。

動作において、MARSによって遂行されるべきシミュレ
ーションタスクはホストプロセッサ11からクラスタに
バス25を介してダウンロードされる。バス25はクラスタ
内のメモリへの直接アクセスを提供し、バス25を通じて
データを通信するためのプロトコールは通常のDMA（dir
ect memory access、直接メモリアクセス）プロトコ
ールである。一方、バス12−24はメッセージにて通信す
る。個々のメッセージは１つの見出し語及びこれに続く
１から16の間のデータ語から成り、本実施態様における
個々の語は16ビット長である。個々の語は事前に選択さ
れた情報の欄（Field）を異なるビット増分にて含む。
見出し語はメッセージ長、クラスタ、アドレス、メッセ
ージがそれに向けられる着信先クラスタ内の特性の処理
エンジンを指定する。クラスタアドレスはｎ−キューブ
が隣接クラスタのみに接続を提供するために必要であ
る。隣接クラスタ以外への接続が要求される場合は、複
数のノードインタフェースを通じての“デイジーチ
ェーン（daisy chain）”接続が必要である。

第２図は処理要素とｎ−キューブ相互接続網の間のク
ラスタノードインタフェースを示し、ここで、ｎは
３である。これは４つの入力及び４つの出力をもつクロ
スバースイッチ30、個々の入力に接続された入力コント
ローラ31、及び個々の出力に接続された出力バッファ32
を含む。１つの入／出力ペアがノードの所の処理要素と
インタフェースするために割り当てられ、一方他の３つ
の入／出力ペアは信号ｎ−キューブ相互接続網に沿って
送るために用いられる。入力コントローラは従来のアド
レス計算回路であり、個々は自体のアドレス（そのコン
トローラが位置するノードのアドレス）を認識してい
る。コントローラは入力メッセージの所望のクラスタ
アドレスを読み出し、所望のアドレスを自体のアドレス
と比較することによって（ビットワイズ排他的OR）メ
ッセージがそれにスイッチされるべき好ましい出力リン
クを計算し、結果としての経路情報をメッセージととも
にクロスバースイッチ30に加える。バッファ32は着信
先クラスタがビジーの場合、或は所望の経路上のリンク
がブロックさらた場合、メッセージが待ち行列上に置か
れることを保証する機能をもつ。

第３図は第１図のクラスタ10のアーキテクチャーを示
す。第３図の構成は14個の処理要素（PE−０からPE−1
3）を含み、個々の処理エンジンは関連するランダム
アクセスメモリ（RAM−０からRAM−13）を含む。個々
のPEはそれと関連するRAMと専用双方向バス（例えば、3
3）を通じて通信し、これに加え、個々のPEはスイッチ4
0と通信する。RAMはまた双方向バス41と通信する。バス
41はインタフェース回路42を通じ、ホストプロセッサ
11とバス25を介して通信する。こうして、個々のPE/RAM
セットはバス41及びスイッチ40の両方に接続される。バ
ス41にはまたハウスキーパーブロック43、クラスタRA
M44、及び大容量記憶のためのローカルディスクメ
モリ45が接続される。ブロック43はスイッチ40にも接続
される。最後に、スイッチ40もコントローラ31に接続さ
れ、コントローラ31はクラスタをｎ−キューブ網に接続
する。

スイッチ40はPEをラウンドスピーカブロック及び網
インタフェースと接続するローカルメッセージスイ
ッチである。これは、第４図に示されるように、クロス
ポイントスイッチ（41）のクロスバー構成である。よる
具体的には、第４図は（ソース）PEからのロウに沿って
の16個のデータラインの１つ（ライン51）、別の（着
信先）PEからのカラムに沿っての16個のデータライン
の１つ（ライン52）、及びソースを着信先に接続する１
つのクロスポイント41を示す。このデータラインに
加えて、ソースPEは、４つのアドレスライン、１つの
出力要求（REQ）ライン、１つのアクノレッジライン
（64）、及び１つの要求／アクノレッジ出力ライン（RA
−アウト）を与える。着信先PEはRA−アウトラインに
対応する要求／アクノレッジ入力ライン（RA−アウト）
を含む。クロクポイント41の個々のコラムはまた１つの
優先ライン及び１つのロック指標ラインを含む。この優
先ラインは、衝突が起った場合、どのソースPEが他のソ
ースPEに優先して所望の着信先PEへのアクセスを得るべ
きかの決定ができるように、PEに対する優先割り当てを
設定する。ロック指標ラインはソースPEが着信先へPEへ
のアクセスをいったん得ると、このアクセスがソースPE
が接続を放棄することを選択するまで維持されることを
保証する。

動作において、アドレスラインがロウ内の個々のク
ロスポイント41内でプリワイヤード復号器53によって復
号される。適当なクロスポイントの所で、この復号され
たアドレスがREQライン（ゲート54内）を起動し、信号
がゲート55及び56に送くられる。ゲート55及び56の出力
はゲート57に加えられ、これはGRANT信号を生成するた
めにラッチされる。GRANT信号はゲート55に加えられ、
従って、GRANT信号が高値のとき、REQパルスが出現し、
このパルスがゲート55及び57を介してラッチ58に送くら
れ、ここでこれはGRANT信号のその高値の状態に保持す
るために捕獲される。GRANT信号が高値でないときは、
ゲート55は不能にされる。

ゲート56は、ゲート54によって制御されるのに加え
て、ロック指標ライン及び優先ラインエンタリング
クロスポイント（priorityline entering crosspoint）
41によって制御される。エンタリング優先ラインが高値
であるかぎり（これはより高い優先PEが接続を求めてい
ないことを意味する）そしてロック指標ラインが高値で
あるかぎり（これは他のどのPEも接続を確立してないこ
とを意味する）、REQパルスはゲート55と無関係にラッ
チ58から56に届き、GRANT信号が高値にラッチされる。
優先ラインはクロスポイント41からスイッチ61を通じて
出る。スイッチ61は優先ライン出力をGRANT信号が高値
であるか低値であるかによって、優先ライン入力かアー
スのいずれかに接続する。優先ラインをアースすること
は、そのカラム上のその後のクロスポイントがGRANT信
号を与えることを防止する。同様に、ロック指標ライン
はスイッチ60によって分枝される。これはカラム内の任
意のクロスポント41にGRANT信号が与えられたときアー
スレベルにされ、これはそのカラム内の他の全てのク
ロスポイントがGRANT信号を得ることを防ぐ。

GRANT信号がクロスポイント41に与えられると、ゲー
ト54のREQ信号出力はこの情報をライン37上のアクノレ
ッジメント信号としてソースPEにパスする。また、ソー
スPEのデータラインがスイッチ35を通じて着信先PEの
データラインに接続され、RA−アウトラインがスイ
ッチ36を通じてRa−インラインに接続される。

スイッチ60、61、35、36が第４図にGRANT信号が高値
のときに対応するモードにて示される。

RA−イン及びRA−アウトラインが第４図にスイッチ
36を介して相互接続される単一ラインとして示される。
機能的には、これらは４つの双方向ラインとみなすこと
ができる。但し、実際には、これらの機能は１つのライ
ン、スイッチ36へのラッチング、及び１つの２フェーズ
クロックにて実現できる。RAラインはソースと着信先
PEとの間の通信を許す機能をもつ。単一ラインとの動作
においては、クロックの最初のフェーズにおいて、ソー
スPEはRA−アウトライン上に着信先にメッセージが送
くられてくることを知らせる１つの信号を送くる。RA−
インは着信先へPEがその入力キュー（input queue）内
に空きをもつか否かを示す１つの信号を送くる。第２の
クロックパルスにおいて、RA−アウト信号が着信先PE
のRA−インラインに到達し、ここでこれは送られた情
報を入力キュー内に書き込むのに用いられる（入力キュ
ー内に空きがあるとき）。同時に、キュー内に空きがあ
り、データが受け入れられたという事実がソースPEに到
達し、ここでこれはメッセージ受信のアクノレッジメン
トとして用いられる。

PEは本はハードウェアアクセラレータの回路シミュ
レーションを遂行する。個々のPEは複数の論理的に分離
可能なユニット、例えば、事象スケジューラ、ファンア
ウトリストプロセッサ、機能評価ユニット等を含む
シミュレーションパイプラインの１つの段として働く
ようにプログラムされる。ハウスキーパーブロック43
は、従来のマイクロプロセッサ、例えば、モトローラM6
8020（Motorola M68020）である。これは基本的にシミ
ュレーション情報をPE（回路及びI/Oベクトル）内にロ
ードすること、及び例外的な事態の扱い、例えば、シス
テムクラッシュ後のタワチのチェックポイントからの
再開の任務をもつ。ハウスキーパーはクロック内の個々
のPEのローカルメモリにバス41を介して直接にアクセ
スでき、またスイッチ40を介してPEにメッセージを送る
ことができる。ハウスキーパーは回路区画（circuit pa
rtitions）を格納するためにディスク45を用いる。

本発明によるアクセラレータの最も重要の属性の１つ
は、クラスタ内の全てのPEが同一のアーキテクチャー設
計をもち、また個々のPEがアプリケーション問題を解く
ためのパイプライン段として機能するように専用化され
たマイクロプログラマブルプロセッサであることであ
る。このアーキテクチャーは、第５図に示されるよう
に、命令をレジスタ80を通じて復号器ユニット82−86に
分配するマイクロプログラムRAM71を含む。ユニット82
−86は、一方、ユニット72−76を制御する。つまり、外
部（データ）RAMインタフェースユニット72、レジス
タアレイユニット73、欄操作ユニット（field oper
ation unit、FOU）74、アドレス演算ユニット（AAU）7
5、及びメッセージキューユニット76を含む。

プログラムが外部ソースからデータバス92（16ビッ
ト）及びアドレスバス93（ｂ＋m16ビット）を介してR
AM71にロードされる。アドレスバスは外部アクセス
ライン（External Access line）94上に出現する信号の
制御下においてマルチプレクサ87に接続する。ライン94
はマルチプレクサ87に接続されているのに加えて、RAM
インタフェースコントロール82に接続される。ブロッ
ク82と関連してこの機能はRAM71がロードされていると
き、RAMインタフェース72を外部から加えられた信号か
ら分離することである。通常の動作においては、マイク
ロ命令RAM71は64ビットマイクロ命令をレジスタ80にく
ばる。この64ビットはレジスタ80によってさまざまなユ
ニット、つまり、条件ストール及びストラップ論理ブロ
ック81、RAMインタフェース制御ブロック82、レジスタ
復号器83、FOU復号器84、AAU復号器85、及びキュー復号
器86にくばられる複数の欄をもつ。要素82−86は受信さ
れたこれら欄を復号し、後に詳細に説明されるように要
素72−76に夫々適当な制御信号を加える。ブロック81も
さまざまなアラーム信号、例えば、キューユニット76
からのQ EMPTY及びQ FULL信号に応答し、この機能はア
ラームが発生したときPEの正常の動作を変更することに
ある。例えば、キュー76が一杯で、書込み命令が発生し
た場合、ブロック81はこの書込みを阻止するためクロッ
クの最後のフェーズを不能にする。

ユニット72−76は３つのフェーズから成るマイクロ命
令サイクルにおいて16ビットバス77、78、及び79を通
じて通信する。フェーズ１において、データがユニット
73内のレジスタからバス上に読み出される。機能ユニッ
トAAU（75）及びFOU（74）はフェーズ２においてデータ
に関して動作し、これらの結果をフェーズ３においてバ
ス上に送くる。バスの内容がフェーズ３において選択さ
れたレジスタに書き込まれる。

レジスタアレイ73は32個のレジスタ（R0−R31）を
含む。殆どはそれらの内容をゲートし、クロックのフェ
ーズ１において３つのバスの１つに加えることができ
る。これらバスの任意の１つの上の信号はクロックのフ
ェーズ３の間にこれらレジスタ内に格納できる。幾つか
のレジスタは追加の目的、例えば、メモリのアドレシン
グ、メモリ或はメッセージキューへのポートとしての
働き、或は機能ユニットの構成などの目的を果す。

レジスタアレイ73内のさまざまな専用レジスタの説
明に入いる前に、PEのパラレルアーキテクチャーは（こ
れは異なる経路を通じて互いに通信でき、また幾つかの
ユニットはパラレル経路を通じて通信できるさまざまな
ユニットをもつことを特徴とするが）ある１つの特定機
能に対して１つ以上のレジスタを使用することを示唆
し、結果として利用可能なパラレリズム（parallelis
m）がより良く活用できることを意味する。これ及び後
に明白となるその他の理由から、後に説明される多くの
機能はアレイ73内の２つのレジスタによって処理され
る。

レジスタアレイ73内のレジスタR2及びR3は、例え
ば、プログラムアドレスレジスタであり、またこれ
らは経路91を介してRAM71にアドレスするのに用いられ
る。この２つのレジスタは２つの目的に供される。第１
に、片方のレジスタがRAM71にデータを検索する指令を
行なっている間、他方のレジスタに次のRAM71アドレス
がロードできるように（或は単にプログラムのシーケン
スを通じて増分できるように）される。第２に、分岐状
況（branching situations）において、両方のアドレス
がターゲットアドレスにロードされ、分岐決定に達し
たとき、次のRAM71アドレスを決定するのにクロック
サイクルが消費されないようにされる。換言すれば、高
速分岐が通信バスを用いることなしに達成される。バス
91にR2が加えられるか或はR3が加えられるかは、復号器
83によって制御される。バス91はアドレスをRAM71にマ
ルチプレクサ87を通じて送くる。マルチプレクサ87は、
上に説明のごとく、ローディングプロセスの間はバス
94を選択するが、通常の動作においてはバス91を選択す
る。

データRAMインタフェースユニット72は２つのレジ
スタの連結によってアドレスされる。レジスタR0或はR1
はライン99上のアドレスの16の最下位ビットを供給し、
一方、レジスタ10或は11はライン96上のアドレスの８個
の有効ビットを供給する。ライン99及び96によって供給
される24ビットアドレスは、適当なときに、夫々イン
タフェースユニット72の出力の所のライン89及び90に
加えられる。データはバス88とバス77、78、及び79の間
をコントロールユニット82からの信号に応答して送く
られる。レジスタアレイ73もバス97上の外部RAMイン
タフェースユニット72に信号を供給する。メモリから
端を発するバス97はアレイ73内のレジスタR6或はR7を選
択し、このバス上の信号は外部メモリの友好的な“アス
ペクト比（aspect ratio）”を構成するためにRAMイン
タフェースユニット（72）を制御する。つまり、ライ
ン97はインタフェースユニット72を制御し、ライン88
−90に接続された任意の外部メモリ、例えば、個々が16
ビットの64K語メモリがPEに対してあたかもこれが個々
が16ビットの64K語、個々が１ビットの1M語、或はこの
間の任意の他のアスペクト比を持つものとみえるように
される。24ビットアドレス（ライン99及び96）を用い
て、そのPEと関連する外部メモリは読出し及び書込みの
目的であたかもこれがレジスタアレイユニット73内
のレジスタR29であるかのようにアクセスされる。メモ
リは個々のサイクルにおいて読出し或は書込みできる
が、メモリアドレスを正しく設定することが必要であ
る。

キューユニット76は実際には２つのユニット；つま
り、１つの４語入力キュー、及び１つの４語出力キュー
である。両方とも循環FIFOメモリであり、両方ともレジ
スタ31としてアドレスされる。アレイユニット73内の
レジスタR14はメッセージ着信先アドレスをライン95を
通じて直接にキューユニット76に供給する。このアド
レスはキューユニット76の出力の所のバス62にメッセ
ージデータがバス98に配ばられるのと同時に配ばられ
る。RA−イン及びRA−アウト信号も又キューユニット
76によってライン66及び67上に配ばられ、これらライン
は一緒にローカルメッセージスイッチ40に送くられ
る。Ｑ EMPTY及びＱ FULLライン（68及び69）はブロ
ック81に接続されたアラーム信号であり、これは夫々出
力キューがフルであるか否か、或は入力キューが空であ
るか否かを示す。こうして、R31への書込みによってメ
ッセージが出力キューに送くられ、一方、R31からの読
出しによって入力キューからメッセージ語が受信され
る。

レジスタアレイユニット73内のレジスタR30は非
存在（non−existent）であり、このアドレスは不用デ
ータ（unwanted date）に対する情報シンクとして機能
する。この能力はこれによると命令を常にソースアド
レスと着信先アドレスによって表わることができるため
に採用されている。

レジスタアレイ73内に提供されるもう１つの追加の
専用レジスタは欄選択レジスタ（field select regis
ter、FSR）、つまり、レジスタR4或はR5である。このレ
ジスタはその入力及び出力ビット欄の幅及び開始ビット
位置を選択することによってバス63を介して欄動作ユニ
ット74を構成する。

FOUユニット74はビット欄動作（bit field operati
on）を遂行する。つまり、これはその二つのソースオ
ペランドからビット欄を抽出し、これらビット欄に関し
て操作し、次にこの結果をそのオペランドの１つの欄
に、或は出力バスの１つの更に別の欄に挿入する。FOU
動作はADD、SUBTRACT、INCREMENT、DECREMENT、NEGATE
（演算）、AND、OR、XOR、NOT、MAX、及びMINを含む。F
OUは複数の独立した欄が同一語にパックされたパックド
構造（packed structures）の高速操作を行うことによ
ってシュミレーションアプリケーションを加速する。
１つのサイクルにおいて、FOUは２つの語から欄を抽出
し、これら欄に関して操作し、その結果を１つの語に挿
入する。可能な欄の幅は１、２、４及び８ビットであ
る。バスＡ、Ｂ及びＣのグルーピングから、FOUがバス
Ａ及びＢにのみ接続されることがわかる。但し、FOUは
レジスタアレイ73からのバス63にも接続され、この場
合、レジスタR4及びR5がアクセスされる。

FOUはこの入力の１つをバスからではなく、アレイ73
内の専用レジスタから取ることもできる。FOUはバス64
を介してレジスタR15にアクセスできる。これは同一サ
イクルにおいてもう１つ多くのバス関連操作を行なうこ
とを可能にする。

第６図はFOUユニットのブロック図を表わす。このユ
ニットへの１つの入力は復号器84から来る。これは遂行
されるべき所望の動作を指定するFOU−OP4ビットバ
ス；第１のオペランドのソースを決定するFOU−ASELラ
イン、つまり、ＡバスあるいはレジスタR15に接続され
たバス（バス64）；着信先バスを指定するFOU−OSEL;ラ
イン；及び信号をバス63に配ばるためにレジスタR4或は
R5のいずれかを用いるかを指定するFSR−SELラインを含
む。バス63は回路を通じて用いられるＡ−START、Ｂ−S
TART、OUT−START、IN−SIZE、及びOUT−SIZE制御信号
を供給する。FOUユニットへの他の入力はＡバス、Ｂバ
ス、及びバス64から来る。

Ａバス及びバス64はセレクタ201に加えられ、ここ
で、１つがFOU−ASEL信号の制御下において選択され
る。セレクタ201の出力及びＢバスはラッチ回路202に加
えられ、回路202はベーシッククロック（basic cloc
k）の第１のフェーズによって制御される。このラッチ
されたＢバスは入力セレクタ203に加えられ、一方、も
う一方のラッチされたバスは入力セレクタ204に加えら
れる。セレクタ203及び204は所望の欄をIN−SIZE制御信
号及びＡ−START及びＢ−START制御信号の制御下で抽出
する。後者は抽出された欄の開始ビットを決定し、一
方、前者は欄の長さ（１、２、４或は８ビット）を決定
する。

セレクタ203及び204の出力は機能ブロック205に加え
られ、これは上に同定されたFOU動作の全て（例えば、A
DD及びINCREMENT）を実現する。これら動作はオプコ
ード及び駆動論理ブロック（opcode and drive logic b
lock）206から派生される機能制御信号の制御下で遂行
される。ブロック206は復号器84によって供給される信
号に応答し、これは従来の組合せ回路から成る。機能ブ
ロック205は、同様に、従来の組合せ回路から成る。機
能ブロック205の出力は出力挿入論理207に加えられる。
制御信号OUT−SIZE及びOUT−STARTに応答し、ブロック2
07はブロック205によって生成された欄を所望の位置に
挿入し、これを出力セレクタ208及び209に転送する。セ
レクタは復号器84からの制御信号FOU−AEN及びFOU−BEN
に応答し、この出力を夫々Ａ BUS（77）及びＢ BUS
（78）に転送する。

異なる長さの欄に関して操作するFOUと正反対に、AAU
ユニット（75）は16−ビット演算を遂行する。フェーズ
１において、２つのソースオペランド、Ａ及びＣが指
定のレジスタ、つまりキューユニット76及び／或はRA
Mインタフェース72からＡバス（77）及びＣバス（79）
上に読み出される。これらはAAUへの入力である。AAU動
作の結果はフェーズ３においてＣバスにリターンされ
る。AAU命令は、ADD、SUBTRACT、INCREMENT、DECREMEN
T、MULTIPLY、DIVIDE、NEGATE（演算）、AND、OR、XO
R、NOT、BIT TEST、BIT SET、BIT CLEAR、及びROTAT
Eを含む。

AAUもまたその入力の１つをバスからでなくアレイ73
内の専用レジスタから取る。AAUはレジスタR13にバス65
を介してアクセスすることができる。これは同一サイク
ルにおいてもう１つ多くのバス関連動作を行なことを可
能にする。

フェーズ３におけるレジスタの書込みはフェーズ２に
おいて遂行されたAAU動作の結果に依存させることがで
きる。これはPE内での唯一の条件付実行メカニズムであ
る。条件付分岐は、上に説明のごとく、ターゲットア
ドレスを２つのレジスタに書き込むことによって遂行さ
れる。

第７図はアドレス演算ユニット75のブロック図であ
る。ユニットへの１つの入力は復号器85から来る。そし
てこれは遂行されるべき動作を指定する信号AAU−OP;シ
フティングを指定する信号AAU−SH;及びＡバス或はレジ
スタR13（バス65）に接続されたバスのいずれかが選択
されるべきかを指定する信号AAU−ASELを含む。

バス65及びＡバスはAAU−ASEL信号によって制御され
るセレクタ211に接続される。選択されたバスは、Ｃバ
スと同様にラッチ212に加えられる。ラッチされたＣバ
スはセレクタ231及び214に接続され、ラッチされたＡバ
ス（或はバス65）はセレクタ214に接続される。セレク
タ213の出力はシフト論理ブロック215に接続される。ブ
ロック213、214及び215はAAUのBIT TEST、BIT SET、
及びBIT CLEAR動作、並びにAAUのSHIFT及びROTATE動作
を実現する働きをする。このビット操作動作はＡ BUS
（これはOPCODE及び駆動論理ブロック216に加えられ
る）上の制御信号及び４つの最下位ビットに応答して生
成されマスクを採用することによって実現される。論理
ブロック216はまた上に説明の復号器85の出力信号にも
応答し、機能ブロック217に加えられる制御信号を生成
する。機能ブロック217はセレクタ214及びシフット論理
215から入力信号を受信する。これは上に説明の残りのA
AU動作を遂行する。この機能は従来の組合せ論理によっ
て実現される。最後に、ブロック21の出力は出力セレク
タ218に加えられ、セレクタ218は復号器85からのAAU−E
N信号に応答する。ブロック217は又情報をブロック219
に供給するが、ブロック219は専用標識状態（specific
flag conditions）の存在を確かめる。これら状態はAAU
−EN信号に影響を与える。これら標識には、動作結果の
信号を示すAAU−SIGN;AAUキャリー標識であるAAU−CARR
Y;オーバーフロー標識であるAAU−OVF;バスＡ及びＣが
同一情報を運ぶことを示すAAU−AEQC;及び動作結果がゼ
ロであることを示すAAU−ZEROが含まれる。

マイクロプログラムRAM（71）はデータ経路の個々の
部分を制御するマイクロ命令を提供する。個々のサイク
ルにおいて、選択されたプログラムアドレスレジス
タが次のサイクルにおいて遂行されるべきマイクロ命令
を読み出すのに用いられる。

64−ビットPEマイクロ命令は２つのフォーマット、つ
まり、コンスタント（constant）或はノーマル（norma
l）をもつ。コンスタントマイクロ命令はバスＡ及び
Ｂ上に２つの16−ビットコンスタントを置き、コンス
タントをレジスタにロードするのに用いることができ
る。但し、コンスタント命令の際にAAU或はFOU動作が遂
行されることはない。ノーマルマイクロ命令は全ての
他のケースにおいて用いることができ、以下を指定する
欄を含む。

1. ３つのバスの各々のためのソースレジスタ及び着
信先レジスタ。短い（５−ビット）コンスタントもまた
バスＡ上にマイクロ命令から直接に置くことができる。

2. AAU及びFOU動作。

3. アドレスレジスタの選択。

4. トラップ起動。

5. 条件選択及び個々のバスのこの条件へのセンシタイ
ゼーション（sensitization）。

MARSを多重遅延論理シミュレータとして用いることに
よって、個々のクラスタによって最大64Kゲートまで扱
うことができる。64Kゲート以上が存在するような用途
においては、第１図に従って、１つ以上のクラスタを採
用することができる。ここで、個々のクラスタは回路の
あらかじめ選択された部分のシミュレーションに捧げら
れる。勿論、回路の区画はクラスタ間の通信が最小化さ
れるように選択される。

クラスタ内のシミュレーションはシーケンスのタイム
ステップ及び２つのシミュレーションフェーズ：つ
まり、ファンアウト（fanout）及び評価（evaluation）
フェーズにて遂行される。ファンアウトシミュレーシ
ョンフェーズの際に、現時間ステップにおいて起こる
事象がゲートの入力に伝搬され、これらゲートが評価の
ためにスケジュールされる。次に評価フェーズにおい
て、これらゲートがシミュレートされる。２つのシミュ
レーションフェーズの使用は単一の評価サイクル内で
の単一ゲートの複数の評価を防止する。全てのゲート入
力はゲートが評価される前に更新され、このゲートは一
度のみ評価される。従って、この設計は慣性遅延モデル
に対する事象キャンセルをサポートする。

シミュレータの主な構造が第８図に流れ図にて示され
る。ここでは、シミュレーションフェーズの個々に対
して別個のパイプラインが示される。第８図内の個々の
ブロックはクラスタ内の処理要素を表わす（第３図に示
されるハウスキーパーブロック43であるハウスキーパ
ーブロック115を除く）。これらブロックの相互接続
はローカルメッセージスイッチ（40）を通じて達成
される。従って、第８図の左側のファンアウト構成から
の第８図の右側の評価構成への交互のスイッチングは、
後に説明のように簡単に達成できる。第８図を通してみ
ることからわかるように、個々のPEが１シミュレーショ
ンフェーズ当たり最高でも１回使用され、PEの幾つか
は両方のシミュレーションフェーズにおいて用いられ
る。以下にファンアウトフェーズパイプライン及び
評価パイプラインの説明が行なわれる。但し、一般的に
言うと、シミュレーションはこの２つのフェーズの間を
交互しながら進む。

ファンアウトフェーズ内の最初のブロックは信号ス
ケジューラ101であるが、これは信号値の変化をスケジ
ュールする。これはハウスキーパーがシミュレートされ
るべきステップの回数を示すサイクルカウントを送く
るとシミュレーションを開始する。サイクルカウン
トレジスタ（アレイ73内のレジスタの１つ）はシミュ
レーションが終端するまでに残された時間ステップの数
を追跡し、終端すると制御がハウスキーパーに戻され
る。この信号スケジューラデータ構造は事象のリンク
リストへのポインタを含むテーブルから成る。シミュ
レーションが開始されると、信号スケジューラ評価モー
ド（後に説明）に入いり、事象をスケジュールする。ゼ
ロメッセージを受信すると、信号スケジューラは最初
にその時間ステップカウントを減分することによって
ファンアウトシミュレーションを開始する。このカウ
ントがゼロでない間、信号スケジューラは出力フィルタ
ブロック102に現時間に対してスケジュールされた全
てのゲートに関する現時間及びゲート識別子メッセージ
を送くる。最後のゲートメッセージが送られた後、ゼ
ロメッセージが評価フェーズを開始するためにパイプ
ラインに送くられる。時間ステップカウントがゼロに
達すると、制御がハウスキーパー115に逆戻りする。

出力フィルタ102は現在及び未決の信号値の追跡を行
ない、必要に応じて事象キャンセルを遂行する。ファン
アウトシミュレーションフェーズにおいて、出力フ
ィルタが時間メッセージを発振検出器ブロック103に送
くり、ゲートメッセージを処理する。個々のゲート
メッセージに対して、出力フィルタはゲート出力上の最
も最近の事象が現時間ステップに対してスケジュールさ
れているか否か決定する。現時間ステップに対してスケ
ジュールされている場合は、未決値が調べられ、ゲート
番号及び未決値を含む２語メッセージが発振検出器ブロ
ック103に送くられる。そうでない場合は、この事象が
キャンセルされる。信号スケジューラからのゼロメッ
セージの受信は、出力フィルタを評価モードに戻す。

発振検出器ブロック103はゼロ遅延発振を検出する。
この状態はシミュレートされた回路内にフィードバック
経路が存在するときに発生する。発振状態が検出される
と、ブロック103は割込み信号をハウスキーパー115に送
くり、ここで、専用サブルーチンがインタフェース42及
びバス25（第３図）を介して例外（exception）をユー
ザ（ホスト）に送くるために開始される。発振検出器10
3は単にゼロ遅延発振を追跡し、あらかじめ選択された
発振カウントが抜かされていないことを保証する。これ
はまたこの入力信号を出力ログブロック104に送く
る。

ブロック104は監視されている信号の事象を記録す
る。これら信号は所望のゲート出力を同定するビット
ベクトル（１ビット／ゲート）によって同定される。

ポインタリストブロック105は出力ログ104からゲ
ート値メッセージを受信し、そのゲートのファンアウト
リスト内のポインタを調べ、ポインタ及びこの値をフ
ァンアウトリスト106に送くる。このポインタ18ビッ
トである。

ファンアウトリストブロック106はポインタリ
ストからポインタ106及び値メッセージを取り、このポ
インタをそのゲートに対するファンアウトリストを調
べるために用いる。個々のファンアウト項目はゲートと
入力番号のペア（gate and input number pair）から成
る。個々のファンアウトに対して、入力メッセージから
この値がこの項目に附加され、これによって入力テーブ
ル107に送くられる１つのゲート入力及び値メッセージ
（gate input and value message）が形成される。

入力テーブルブロック107は個々のゲートに対する
入力値のリストを保持する。これがファンアウトリス
トから１つのゲート値及び入力メッセージを受信する
と、テーブルをこれに従って更新し、そしてゲート識別
子を含むメッセージをゲートスケジューラ108に送く
る。

ゲートスケジューラブロック108はその入力が評
価（evaluation）に対して変更されたゲートをスケジュ
ールする。入力テーブルから受信された個々のメッセー
ジに対して、このゲートはこれが既にスケジュールされ
ているかチェックし、されていない場合は、スケジュー
リングスタック上に押される。スケジュールされたゲ
ートを追跡するためにビットベクトルが用いられる。

ブロック101−108を通じてゼロメッセージが伝搬す
ると、評価フェーズが開始され、結果として、ゲート
スケジューラ（第８図の右側の上側ブロック）はそのス
ケジュールされたゲートを入力テーブルに送くる。

評価フェーズにおいて（第８図の右側部分）ゲート
スケジューラはそのスタックからスケジュールされたゲ
ートを取り出し、ゲートをスケジュールされていないと
マークし、ゲートメッセージを入力テーブルブロッ
ク107上に送くる。最後のゲートがスタックから取り出
されると、ゼロメッセージが入力テーブルに送くられ
る。

この入力テーブルはゲートメッセージを受信し、ゲ
ートに対する現入力値を調べる。受信された個々のゲー
トメッセージに対し、ゲート識別子及びその入力値を
含む２語メッセージがゲートタイプテーブル112上
に送られる。ゼロメッセージは入力テーブルをファン
アウトフェーズに戻す。

ゲートタイプテーブルはゲートタイプを調べ、
この情報を入力テーブルから受信されたメッセージに附
加する。結果としての２語メッセージが機能ユニット11
1に送くられる。

機能ユニットブロック111は指定されたゲート機能
ユニットをシミュレートし、入りメッセージ内のゲート
タイプ及び入力値を用いてそのゲートによって生成さ
れる出力値を計算する。結果としての出力値は、ゲート
識別子とともに、遅延テーブル110に送くられる。

遅延テーブル110はゲート及び信号の変化の方向によ
って正しい遅延を調べる。こうして決定された遅延がゲ
ート値メッセージに附加され、そして入力ベクトルリ
ストブロック109にパスされる。

入力ベクトルリストブロック109は遅延を時間に
変換し、メッセージを出力フィルタ（102）にパスす
る。これは次に現時間がそれに対して入力ベクトルがス
ケジュールされた最後の時間に進んだか否かチェックす
る。現時間がこのベクトル時間以上である場合は、次の
スケジュールされたベクトルがメッセージ流内に挿入さ
れ、出力フィルタ上にパスされる。

この出力フィルタはゲート評価の結果がゲート出力の
遅延を変えたか否かを調べる。変えた場合は、出力フィ
ルタが未決事象をログし、ゲート及び時間メッセージを
信号スケジューラに送くる。

信号スケジューラは出力フィルタから受信される事象
をスケジュールする。ゼロメッセージによって、サイ
クルカウントがゼロでないことを条件として、次のフ
ァンアウトサイクルが開始される。

【図面の簡単な説明】

第１図は８個のクラスタが個々のノードに接続され、別
個のバスを通じて１つのホストコンピュータと通信する
３−キューブ通信網を示し；第２図は個々のノードの一般構造を示し；第３図はクラスタを構成する処理要素及び処理要素を相
互接続するローカルメッセージスイッチを示すブロ
ック図であり；第４図は第３図に示されるローカルメッセージスイ
ッチの詳細なブロック図であり；第５図は処理要素自体の詳細なブロック図であり；第６図はFOUユニットのブロック図であり；第７図はAAUユニットのブロック図であり；そして第８図は論理シミユレーションを実現するためのクラス
タの使用を図解する。＜主要部分の符号の説明＞ 10……クラスタ 11……ホストコンピュータ 12−24……双方向ライン 25……バス 30……クロスバースイッチ 32……出力バッファ

───────────────────────────────────────────────────── フロントページの続き (72)発明者アンジュアエス．クリシュナクマーアメリカ合衆国 07060 ニュージャーシイ，ウォーレン，マウントホレブロード 205 (56)参考文献特開昭58−205870（ＪＰ，Ａ) 特開昭58−146947（ＪＰ，Ａ)

Claims

(57)【特許請求の範囲】

【請求項１】プログラマブルアクセラレータにおい
て、該アクセラレータが：情報を該アクセラレータに向けてあるいはこれから伝送
するための通信網；及び該通信網に応答する複数のプロ
グラマブル処理要素を含み、個々の該処理要素が複数のデータバス該バスと該通信網の間でメッセージを通信するための入
力及び出力キューブロック、及び該バス上の信号に応答して１つのバス上のメッセージの
選択された１つの欄及び別のバス上のメッセージの選択
された別の欄を選択し、これら２つの選択されたメッセ
ージの欄に関して操作し、その操作結果を該バスの１つ
の上のメッセージのあらかじめ選択された欄内に置くた
めの欄操作ユニットをもつことを特徴とするプログラマ
ブルアクセラレータ。
【請求項２】該キューが空或いはフルのとき選択された
動作を中断するためのストール手段がさらに含まれるこ
とを特徴とする請求項１記載のプログラマブルアクセ
ラレータ。
【請求項３】１つのメモリ及び該メモリを任意の所望の
語幅に構成するための手段がさらに含まれることを特徴
とする請求項１記載のプログラマブルアクセラレー
タ。
【請求項４】ハードウェアアクセラレータにおいて、
該アクセラレータが：第１の複数のクラスタ；第２の複数のノード及び第３の複数の通信リンクをも
ち、該リンクが該ノードを相互接続し、該ノードが該ク
ラスタを該リンクに接続する通信網；該ノードに接続されたクラスタに対する入力信号の所定
の経路を該入力信号の所定の着信先に基づいて評価する
ためのコントローラ要素、該コントローラに加えられた該信号の経路を該信号の該
着信先に基づいて決定するためのスイッチ、及び該スイッチに応答して該信号を該ノードに接続された出
力リンク及び該ノードに接続された該クラスタに送るた
めのバッファを含み；該クラスタが更に専用のランダムアクセスメモリをもつ複数のプログ
ラマブル処理要素、及び該プロセッサを１つのノード及び互いに相互接続しパイ
プライン構成を形成するためのスイッチを含むことを特
徴とするプログラマブルアクセラレータ。
【請求項５】グラフ処理用のプログラマブルアクセラ
レータにおいて、該アクセラレータが：複数の実質的に同一のプログラマブル処理要素；該処理要素をパイプライン構成に相互接続し、該処理要
素の間でメッセージをパスするための通信網；及び該処理要素の個々にプログラム及びアクセラレータによ
って遂行されるべき所定のタスクの特性であるデータ情
報をロードするための手段を含むことを特徴とするプロ
グラマブルアクセラレータ。
【請求項６】グラフ処理用のプログラマブルアクセラ
レータにおいて、該アクセラレータが：複数の処理要素；及び各々が複数のデータ欄からなる語によって構成されてい
るメッセージを介して該処理要素との及び処理要素間の
通信を行なうための手段を含み、該個々の処理要素がデ
ータ欄の選択されたいくつかに対して操作するように構
成されていることを特徴とするプログラマブルアクセ
ラレータ。
【請求項７】複数の実質的に同一の処理要素、及び語か
らなるメッセージを介して該処理要素との及び該処理要
素間の通信を行なうための手段を含むシステムにて論理
回路のシミュレーションを展開するためにシミュレーシ
ョンアルゴリズムを実行するための方法において、該
個々の処理要素がデータ欄の選択されたいくつかに対し
て操作するように構成され、該方法が該処理要素をバイプラインに構成するステップ、及び個々の該処理要素にて該シミュレーションアルゴリズ
ムのあらかじめ指定された部分を実行するステップを含
むことを特徴とする方法。