JPH0644196A

JPH0644196A - 並列計算機用マイクロプロセッサ

Info

Publication number: JPH0644196A
Application number: JP4198746A
Authority: JP
Inventors: Noboru Tanabe; 昇田邊
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1992-07-24
Filing date: 1992-07-24
Publication date: 1994-02-18

Abstract

(57)【要約】【目的】ピーク性能と実行性能との差が少なく、マル
チユーザによるプロセッサ内での並行処理ができ、低コ
スト・低消費電力を両立し得るシステムを実現すること
を目的とする。【構成】複数の先入れ先出しメモリ（ＦＩＦＯ）と、
演算に必要な全ての入力オペランドに対応するＦＩＦＯ
またはスカラレジスタにデータが存在する際に演算が実
行される１以上のベクトル演算器と、他のプロセシング
エレメントとの通信を行うルーティング回路と、外部メ
モリアクセスポートとの間をＬＳＩ内で接続する可変接
続部句を具備して構成される。【効果】演算性能を向上させることができる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は超並列型スーパーコンピ
ュータなどに用いることを想定し、演算性能を強化する
ためにベクトル演算器を内蔵した並列計算機用マイクロ
プロセッサに関する。

【０００２】

【従来の技術】ベクトル型スーパーコンピュータはこれ
までデバイスの速度的向上を元にクロック周波数を上げ
ることにより性能向上をはかってきたが、ＣＲＡＹ−３
のように１ＧＨｚの周波数で動作するシステムが予定を
大幅に遅れる長い開発期間を要して実現されているのが
現状であり、このアプローチによる速度向上に対する限
界が見えてきている。

【０００３】一方、スーパーコンピュータの性能に対す
るユーザーからの要求は現時点でも１テラＦＬＯＰＳと
いう性能が様々な応用について要求されている。しか
し、複数の並列浮動小数演算パイプラインを備えたプロ
セッサを数台から十数台集中型共有メモリにより密結合
した従来型のベクトル型スーパーコンピュータは現時点
で３０ギガＦＬＯＰＳ程度の性能しか達成できておら
ず、１テラＦＬＯＰＳにはほど遠い。この方式では集中
型の共有メモリがプロセッサの台数を制約しているの
で、デバイスの速度向上だけでなく並列処理による高速
化にも限界がある。

【０００４】このため近年、ＴｈｉｎｋｉｎｇＭａｃ
ｈｉｎｅ社のＣＭ−５やＩｎｔｅｌ社のＰａｒａｇｏｎ
ＸＰ／Ｓなどに代表される超並列型スーパーコンピュ
ータがテラＦＬＯＰＳを実現するためのアプローチとし
て注目されている。これらはｉ８６０や専用のチップを
用いたベクトル演算器を有するため単体のプロセッサの
演算能力は１００メガＦＬＯＰＳ程度と高いので一万台
程度の構成にすればピーク性能でテラＦＬＯＰＳを実現
できる。

【０００５】しかしこれらの商用超並列型スーパーコン
ピュータはプロセッサ間通信部と演算部が分離していて
プロセッサ間通信には必ず一回メモリを経由し、なおか
つプロセッサ間通信を行うためにはＯＳなどの通信用関
数を実行する必要があるので通信オーバーヘッドが大き
い。このためピーク性能と実効性能の間に差ができやす
く、あまり頻繁に通信するような応用には向かない。

【０００６】またメモリポートへの負担が大きいために
超並列計算機のように台数の多いプロセッサでは、大容
量の高速メモリを搭載してコストや消費電力を上昇させ
たり、メモリバンド幅を十分に取れずに実効性能の低下
をまねいている。

【０００７】一方、並列計算機用に開発されたマイクロ
プロセッサであるトランスピューターを用いた商用超並
列マシンも存在する。トランスピュータはスカラ演算器
をコアに比較的低オーバーヘッドな通信リンクを１チッ
プ化しているので、前述の弊害が比較的少ないシステム
を構築できる。

【０００８】しかしトランスピュータでも通信の際にメ
モリを必ず経由する上、プロセスに受信データが渡りそ
れを使った演算を開始するにはソフトウェアオーバーヘ
ッドは皆無ではないので、上記のｉ８６０などのベクト
ル演算器を使った方式例とは程度の差こそあれ問題は残
ったままになっている。

【０００９】またトランスピュータはスカラの浮動小数
演算器しか持たないので、浮動小数演算能力がｉ８６０
などのベクトル演算器を持つマイクロプロセッサに比べ
ると、現在出荷が予告されている開発中のトランスピュ
ータであるＴ９０００でも２５ＭＦＬＯＰＳであり、ｉ
８６０などのベクトル型演算器の数分の一程度に過ぎな
い。

【００１０】このためトランスピュータだけで１テラＦ
ＬＯＰＳのピーク性能を実現するには数万台もの大規模
な構成にせざるを得ないためシステムサイズや消費電
力、コストの上で問題がある。

【００１１】

【発明が解決しようとする課題】以上のように、従来の
集中共有メモリ型低並列ベクトル型スーパーコンピュー
タにはクロック周波数向上の限界と共有メモリアクセス
ボトルネックによる並列度向上に、越え難い課題があり
１テラＦＬＯＰＳを実現するめどが立たない。

【００１２】従来の超並列型スーパーコンピュータで
は、通信ソフトウェアオーバーヘッド、マルチユーザ時
のプロテクション処理に伴うＯＳのオーバーヘッド、結
合網遅延時間などによる演算器の空回り、ベクトル演算
器を用いた場合はメモリバンド幅の不足、これを補うた
めの高速ＳＲＡＭ使用によるコスト上昇と消費電力上
昇、スカラ演算器を用いた場合は演算能力自体の不足や
これによる使用プロセッサ数の増大などの課題が山積す
る。

【００１３】このため、プロセッサ数が一万台程度の規
模でピーク性能で１テラＦＬＯＰＳ程度の超並列マシン
を実現する際、ピーク性能と実効性能の差が少なく、マ
ルチユーザによるプロセッサ内での並行処理ができ、低
コスト・低消費電力を両立するシステムを実現すること
は困難であった。

【００１４】この発明はこのような従来の課題を解決す
るためになされたもので、その目的とするところは、ピ
ーク性能と実行性能との差が少なく、マルチユーザによ
るプロセッサ内での並行処理ができ、かつ、低コスト・
低消費電力を両立し得るシステムを実現する並列計算機
用マイクロプロセッサを提供することにある。

【００１５】

【課題を解決するための手段】上記目的を達成するた
め、本発明は、複数の先入れ先出しメモリ（ＦＩＦＯ）
と、演算に必要な全ての入力オペランドに対応するＦＩ
ＦＯまたはスカラレジスタにデータが存在する際に演算
が実行される１以上のベクトル演算器と、他のプロセシ
ングエレメントとの通信を行うルーティング回路と、外
部メモリアクセスポートと、前記ベクトル演算器とＦＩ
ＦＯとルーティング回路と外部メモリアクセスポートと
の間をＬＳＩ内で接続する可変接続部を具備することが
特徴である。

【００１６】

【作用】上述の如く構成された本発明では外部メモリア
クセスポートからＦＩＦＯにロードされたベクトルデー
タは可変接続部を介してベクトル演算器の入力ポートに
導かれ、全ベクトルがＦＩＦＯにロードされ終わる前で
も、ベクトル演算器の入力ポートに接続された全てのＦ
ＩＦＯに１データ以上ロードされるとそれらのＦＩＦＯ
のデータ存在信号がベクトル演算器の制御部により検出
され、演算が開始される。

【００１７】演算結果は可変接続部を介してＦＩＦＯに
格納され、可変接続部を介して外部メモリポートへ書き
出されたり、再びベクトル演算器にチェイニングされた
り、ルーティング回路に送られ他のプロセシングエレメ
ントとの通信を行うことができる。ベクトル演算器とＦ
ＩＦＯとルーティング回路と外部メモリアクセスポート
の間の接続がＬＳＩ内部で行われるので、ＬＳＩ外部で
行うより配線ネックを回避しやすい。

【００１８】またＦＩＦＯ経由で複数のベクトル演算器
がチェイニングされると演算回数あたりの外部メモリア
クセス回数が減少するので、メモリポートへの負担を軽
くすることが可能になる。

【００１９】同様に一旦メモリに演算結果を書いてか
ら、再びこれを読みだしてルーティング回路へ送り他の
プロセシングエレメントに送信するとメモリアクセスが
頻繁に起こるのに対して、ＦＩＦＯ経由でベクトル演算
器とルーティング回路をチェイニングすると、外部メモ
リアクセスを削減することができる。

【００２０】

【実施例】以下、本発明の実施例を図面に基づいて説明
する。図１，図２は本発明の一実施例にかかる並列計算
機用マイクロプロセッサの構成を示すブロック図であ
る。

【００２１】図示のように、このマイクロプロセッサ
は、複数の先入れ先出しメモリ（ＦＩＦＯ）と、演算に
必要な全ての入力オペランドに対応するＦＩＦＯまたは
スカラレジスタにデータが存在する時に演算が実行され
るベクトル演算器７，８と、他のプロセシングエレメン
トとの通信を行うルーティング制御部１と、上記ベクト
ル演算器７，８とＦＩＦＯとルーティング制御部１との
間をＬＳＩ内で接続する可変接続部５を具備している。

【００２２】また、所定のＦＩＦＯにデータが入力され
たら送信先プロセシングエレメント宛の所定のヘッダー
情報を付けるメッセージパケット生成部３と、転送先の
プロセシングエレメントのどの回路ブロックへのデータ
であるか指定するヘッダー情報を付けるとともに、受信
したメッセージのヘッダー情報からメッセージを格納す
べき回路ブロックを選択するメッセージヘッダー解析部
２と、演算に必要な全ての入力オペランドに対応するＦ
ＩＦＯにデータの存在をもとに所定の条件が成立した場
合にベクトル演算器の演算種類とベクトル演算器７，８
の入力および出力に接続するＦＩＦＯまたはスカラレジ
スタを切り換える命令切り換え制御部１９と、プログラ
ム上で使用されるＦＩＦＯの番号を物理的なＦＩＦＯの
番号に変換するＦＩＦＯ番号変換部６と、連続アクセス
時に高速なＤＲＡＭを制御可能なＲａｍｂｕｓＩ／Ｆ１
３と、ベクトルのロードストアを適切なポートに振り分
けるメモリポート選択部１２と、適切なブロックにベク
トルデータを区切るアクセスブロック化アドレス生成部
１０とを具備している。

【００２３】また、これらの他にベクトル演算器７，８
からアクセス可能なスカラレジスタ９や、ベクトル演算
器７，８への命令列を外部メモリからＬＳＩ内部に取り
込んでおく命令バッファ１５や、命令バッファの所有プ
ロセス番号を設定する命令バッファアクセス権限設定部
１７や、命令をフェッチし解読してベクトル演算器７，
８等を制御するベクトル演算制御部１８や、メモリアク
セスがスムースに行えるようにするデータバッファ１１
や、ベクトル演算器７，８を用いることが不適当である
スカラ処理を実行し、本プロセッサの管理制御用に用い
られるＣＰＵ２１と接続するためのＣＰＵインターフェ
ース１６およびＣＰＵ２１から発行される本プロセッサ
へのコマンドをやりとりするコマンド制御部２０などを
具備する。

【００２４】このように構成された本実施例では、ベク
トル演算器７，８と、ベクトルレジスタの代わりに用い
られるＦＩＦＯおよびスカラレジスタ９と、ルーティン
グ制御部１と、外部メモリポートが可変接続部５を中心
としてＬＳＩ内部で接続されている。このようにＬＳＩ
内部でこれらの回路ブロックが接続されるので、これら
をチップ間にまたがって接続する場合に比べてＬＳＩパ
ッケージのピンネックを起こす心配がなく、より多くの
ビット幅でより多くのブロック間を密に接続することが
できる。

【００２５】例えば、もし可変接続部の各ポートが倍精
度の浮動小数を１サイクルで転送できるように６４ビッ
トのデータ幅を持たせるとすると、可変接続部５を単独
のＬＳＩとして実現し他の回路ブロックを含むＬＳＩ群
とチップ間で接続するならば、ベクトル演算器７，８を
１個で３ポート、スカラレジスタへのロード１ストア１
の２ポート、ＦＩＦＯバンク数を３バンクで６ポート、
ルータとの接続を送信１受信１の２ポート外部メモリか
らのデータパスとしてロード１ストア１の２ポートポー
ト数を１５ポート程度に絞ったとしても、可変接続部５
に必要なピン数が１０００本を越えてしまい実装が困難
になる。より高い性能を確保するためには上記のポート
数では十分とは言えない。

【００２６】しかしＬＳＩ内部での接続を行えばこのよ
うな問題は回避できる。つまり現在のＬＳＩの集積度の
現状および将来のさらなる進歩の見通しからみて、ベク
トル演算器７，８と、十数本のＦＩＦＯおよびスカラレ
ジスタ９と、ルーティング制御部１と、外部メモリポー
トを可変接続部５を介してＬＳＩ内部で接続したものを
１チップで実現することは不可能ではない。

【００２７】この実施例で用いられるＦＩＦＯには、Ｃ
ＲＡＹ−１などに代表される従来のベクトル型スーパー
コンピュータにおけるベクトルレジスタの代わりの働き
をさせる。従来のベクトルレジスタは、基本的には１個
のベクトルレジスタの語長分のベクトルデータをベクト
ルレジスタにロードし終わってから、それをオペランド
として用いるベクトル演算が開始される。一方、本実施
例で用いられるＦＩＦＯは可変接続部５を介して外部メ
モリポートと接続されており、これらから供給されるベ
クトルデータがＦＩＦＯに存在するかというデータ存在
信号がベクトル演算制御部１８に供給されていて、ベク
トル演算の全入力オペランドに対応するＦＩＦＯにデー
タが存在するときはＦＩＦＯが一杯にならなくてもベク
トル演算が開始される。このためベクトル演算の立上が
り時間は従来型より少なくて済む。

【００２８】本実施例のプロセッサではベクトル演算器
７，８を２個具備し、ＦＩＦＯおよびベクトル演算器
７，８間は可変接続部５を介してチップ内で十分なデー
タ幅で接続されているので、ベクトル演算器間のＦＩＦ
Ｏを介した効率的なチェイニングが可能である。

【００２９】例えば一方のベクトル演算器７がベクトル
乗算器、他方のベクトル演算器８がベクトル加算器とい
う構成である場合、ベクトルＡおよびベクトルＢの要素
ごとの積をベクトルＣと要素ごとに加算し、結果をベク
トルＤとする一連の演算を行うとすると、チェイニング
しなければベクトルＡとベクトルＢの要素ごとの積をテ
ンポラリのベクトルＴとして一旦メモリに格納し、改め
てベクトルＴをメモリからロードしてベクトルＣと加算
して結果ベクトルＤをメモリにストアすることになる。
つまり４回のベクトルロードと２回のベクトルストアと
いうメモリアクセスをしなければならないので１チップ
化されたプロセッサにとってはメモリポートへの負担が
大きすぎるため、十分な性能が得られない。

【００３０】一方、上記の処理をチェイニングにより実
行すれば例えばベクトルＡをＦＩＦＯ００、ベクトルＢ
をＦＩＦＯ０１、ベクトルＴをＦＩＦＯ０２、ベクトル
ＣをＦＩＦＯ０３、ベクトルＤをＦＩＦＯ０４に割り当
てるとベクトル乗算器からの結果ベクトルＴはＦＩＦＯ
０２を経由してベクトル加算器に供給されるので、ベク
トルＴに関するメモリアクセスがベクトルロード１回
分、ベクトルストア１回分が省略されることになる。こ
のようにして、１チップ化されたプロセッサにとって貴
重なメモリバンド幅を有効に活用することが可能にな
る。また片方の演算器の結果をもう片方の演算器が使用
する上記の例のような処理でもベクトル長が十分に長け
ればチェイニングにより両方の演算器はほぼ並列に稼働
させることができる。

【００３１】さらに本実施例におけるプロセッサでは可
変接続部５を介してルーティング制御部１ともＦＩＦＯ
が接続可能となっているので、ＦＩＦＯへのデータの入
出力を行うことができるのは外部メモリポートやベクト
ル演算器７，８ばかりでなく、別のプロセッサへのＦＩ
ＦＯに自分のプロセッサのＦＩＦＯからデータを転送す
ることによりチップ間にまたがるチェイニングが可能に
なる。このため本プロセッサを複数並べて接続した並列
計算機上ではプロセッサ間通信を行う際にメモリを経由
させずに行うことが可能になるので、単なるチップ内で
のチェイニングだけの場合よりも、さらにメモリアクセ
スを省略させることができる。

【００３２】このように本実施例では従来ベクトル演算
器を搭載したプロセシングエレメントによる並列計算機
におけるメモリアクセスを、一連の処理開始および終了
に伴うメモリ上のデータのロードストアのような本質的
に必要な外部メモリアクセスと、ベクトル演算器間のベ
クトルデータ受け渡しに伴うチップ内通信と、プロセッ
サ間通信の３つのデータ転送に分散させ、外部メモリポ
ートへの一局集中を防止することにより演算器の効率的
な稼働を実現している。

【００３３】また、可変接続部５とルーティング制御部
１との間にはメッセージパケット生成部３が設けられて
いる。図３にメッセージパケット生成部３の一実施例の
ブロック図を示す。メッセージパケット生成部３には本
実施例では４個のチャネルを持っており、送り元プロセ
ッサ番号レジスタはこれらにより共有される。

【００３４】各チャネルには送り先プロセッサ番号レジ
スタ２４と、プロセス番号レジスタ２６と、送り先仮想
ＦＩＦＯ番号レジスタ２７と、送り元仮想ＦＩＦＯ番号
レジスタ２８と、残りベクトル長カウンタ２９と、メッ
セージ長カウンタ３０と、デフォルトメッセージ長レジ
スタ３１と、比較器６１と、メッセージバッファ３２
と、データ読みだし制御部３３と、送信制御部２３が具
備される。また、レジスタ２６，２７，２８でアクセス
権限情報設定部４ｂが構成される。

【００３５】図４にメッセージの構成の一実施例を示
す。これらのヘッダー情報は各チャネルのレジスタやカ
ウンタなどから生成される。これらのレジスタ類にはベ
クトル送信命令の実行開始時にベクトル演算制御部１８
によって命令内で指定された値が設定される。

【００３６】メッセージパケット生成部３は送り元仮想
ＦＩＦＯ番号レジスタ２８で指定されるＦＩＦＯにデー
タが入力されたら送信先プロセシングエレメント宛の所
定のヘッダー情報を付ける。上記ＦＩＦＯからデータを
メッセージバッファ３２に取り込むたびに残りベクトル
長カウンタ２９はデクリメントされ、メッセージ長カウ
ンタ３０はインクリメントされる。デフォルトメッセー
ジ長レジスタ３１に設定されている長さのデータを上記
ＦＩＦＯからメッセージバッファ３２に取り込むか、ま
たは残りベクトル長カウンタが０になるか、メッセージ
バッファ３２が一杯になった場合、送信制御を介して生
成されたメッセージをルーティング制御部１に送信す
る。

【００３７】メッセージパケット生成部３は転送先のプ
ロセシングエレメントのどの回路ブロックへのデータで
あるか指定するヘッダー情報を付けるメッセージ生成部
を具備することもできるので、本実施例では転送先で何
番のＦＩＦＯに受信データを格納すれば良いかというこ
とをメッセージの中で指定できるようになっている。こ
のようにして隣接しないプロセッサへの転送に必要なヘ
ッダー情報がハードウェアにより適宜ベクトルデータに
付加されるので、ベクトルデータの送信が実行時にＯＳ
の介在無しに行われ、隣接しないプロセッサ間の柔軟な
チェイニングの効率的実行が可能になる。

【００３８】さらに、可変接続部５とルーティング制御
部１の間にはメッセージヘッダー解析部２が配置され
る。図５にメッセージヘッダー解析部２の一実施例のブ
ロック図を示す。本実施例ではルーティング制御部１か
ら４個のメッセージを並列に受信できるデータパスを持
つ直接ＦＩＦＯ受信成否判定部３４と４個のメッセージ
ヘッダー解析チャネルが具備されるものを示す。

【００３９】本実施例の直接ＦＩＦＯ受信成否判定部３
４はルーティング制御部１からメッセージを受信する
と、現在アイドル中のメッセージヘッダー解析チャネル
に対しヘッダー情報を流し、受信できるメッセージヘッ
ダー解析チャネルが存在するかを判定する。もし予期せ
ぬメッセージが来てメッセージヘッダー解析部でＦＩＦ
Ｏへの直接受信ができなかった場合、制御ＣＰＵに割り
込みをかけ、一旦外部メモリのシステム領域にメッセー
ジを取り込み、警告メッセージの返送などの処理を行わ
せる。

【００４０】また、本実施例のメッセージヘッダー解析
部２は内部にアクセス権限情報設定部４ａが設置され、
アクセス権限情報設定部４ａには送り先仮想ＦＩＦＯ番
号レジスタ３６とプロセス番号レジスタ３７が具備され
る。これらのレジスタにはベクトル受信命令実行開始時
にベクトル演算制御部１８により設定される。

【００４１】この他に各メッセージヘッダー解析チャネ
ルにはアクセス権限情報設定部４ａに設定された情報と
受信メッセージのヘッダー内部の情報を比較する比較器
３８と、削除すべきヘッダーのデータ数を設定する削除
データ数レジスタ３９を参照しながら直接ＦＩＦＯ受信
成否判定部３４と可変接続部５の間を制御するハンドシ
ェイク制御部４０が具備される。削除データ数レジスタ
３９のデフォルト値はメッセージパケット生成部３が生
成する図４のメッセージのヘッダーのデータ数になって
いて、メッセージのデータ部のみがＦＩＦＯに転送され
る。

【００４２】複数のユーザまたはジョブを並行処理させ
る場合、送信先のある番号のＦＩＦＯにメッセージを送
信する際、そのＦＩＦＯを他人に使用させるように割り
当てられていてそのＦＩＦＯに格納してはいけない場合
でも、受信したメッセージのヘッダー情報からメッセー
ジを格納すべき回路ブロックを選択するメッセージ受信
部を具備するので、そこでアクセス違反をチェックする
ことが可能になる。

【００４３】例えば図４に示したメッセージのように
「どのプロセシングエレメントのどのプロセスＩＤに対
して割り当てられた何番のＦＩＦＯ」という形でのアク
セス権限情報を具備したヘッダー情報を付けて送信すれ
ば、受信したメッセージのヘッダー情報からメッセージ
を格納すべき回路ブロックをメッセージヘッダー解析部
２が選択するので、他人のＦＩＦＯに誤って書き込むこ
とが排除できる。

【００４４】ＦＩＦＯを複数のプロセスに割り当てる場
合の割当て方法としてはＦＩＦＯにふられた番号の上位
をユーザ番号、下位をユーザーに見せるＦＩＦＯ番号と
するのが簡単明瞭である。このような簡単な規則は後述
するＦＩＦＯ番号変換機構を簡単化するように作用す
る。

【００４５】以上のようなプロテクション機能の実施に
あたっては、ＦＩＦＯや命令バッファがどのプロセスに
割り当てているかなどの情報は管理プロセッサの特権モ
ード、すなわちＯＳからしか変更できないようにマッピ
ングしておく。このようにするとマルチユーザ環境でメ
モリ管理ユニットのＴＬＢに複数のユーザや複数のジョ
ブに対応するエントリどうしが保護された状態で混在で
きるように、本実施例のプロセッサでは複数のユーザや
複数のジョブに対応するＦＩＦＯや命令バッファ１５ど
おしが互いに保護された形で混在できる。

【００４６】また、メッセージヘッダー解析部２は受信
したメッセージのヘッダー情報からメッセージを格納す
べき回路ブロックを選択する。例えば何番のＦＩＦＯに
受信データを格納すれば良いかということをメッセージ
のヘッダー情報から読み取り、外部メモリにメッセージ
をバッファリングすることなしに受信メッセージを直接
指定されたＦＩＦＯに格納することが可能になる。

【００４７】正常のメッセージが届いた場合の動作はメ
ッセージヘッダー解析部２がハードウェアにより行うの
で受信時のＯＳの介在が無く高速に処理される。よって
隣接しないプロセッサ間の柔軟なチェイニングの効率的
実行が可能になる。

【００４８】従来の多くの並列計算機におけるプロセッ
サ間通信の大半の時間は、ＯＳによる送信処理および受
信処理といったソフトウェアオーバーヘッドに費やされ
ていたが、メッセージパケット生成部３，メッセージヘ
ッダ解析部２により送信処理および受信処理がハードウ
ェアで高速実行する仕組みを持っているために、メッセ
ージ長がそれほど長くなくても通信オーバーヘッドのた
めに並列処理効率が激減する心配が少なくなる。

【００４９】このため図６のように本プロセッサをアレ
イ状に並べそれぞれのルーティング制御部に具備される
通信ポート間を接続すると、演算器のアレイがパイプラ
イン的に処理するシストリックアレイ的な動作をも実行
可能となっている。

【００５０】グローバルなクロックによりデータの入出
力のタイミングが規定されている狭義のシストリックで
はないが、本発明を適用したプロセッサではデータの到
着がＦＩＦＯのデータ存在信号によりベクトル演算制御
部１８に通知され演算が実行されるので、グローバルな
クロックに動作が規定されない広義のシストリックであ
るウェーブフロントアレイのような非同期なファイング
レイン動作をすることが可能である。

【００５１】次に８×８のサイズの正方行列Ａ，Ｂの積
Ｃを４×４の二次元プロセッサアレイによる処理時の動
作例を引きながらウェーブフロントアレイ動作を説明す
る。８×８の正方行列間の積は行列Ａ，ＢおよびＣを図
７に示すように４×４の部分行列４個に分割し、これら
の部分行列をＡ１１，Ａ１２，Ａ２１，Ａ２２，Ｂ１
１，Ｂ１２，Ｂ２１，Ｂ２２およびＣ１１，Ｃ１２，Ｃ
２１，Ｃ２２とした場合、次のような関係が成り立つ。

【００５２】Ｃ１１＝Ａ１１・Ｂ１１＋Ａ１２・Ｂ２１Ｃ１２＝Ａ１１・Ｂ１２＋Ａ１２・Ｂ２２Ｃ２１＝Ａ２１・Ｂ１１＋Ａ２２・Ｂ２１Ｃ２２＝Ａ２１・Ｂ１２＋Ａ２２・Ｂ２２つまり行列積Ｃ＝Ａ・Ｂは上記のように４×４の部分行
列間の積８個とそれぞれの結果となる部分行列積間の和
４個に分解され、８個の積および４個の和の間にはそれ
ぞれ依存関係はないので並列処理（ベクトル処理）可能
である。

【００５３】そこで上記の８個の処理をベクトル処理す
る場合、各プロセシングエレメントでは図８のようにパ
イプラインをチェイニングする。入力ポートＷ（４４）
から入ったベクトルａ_ikはＦＩＦＯ０に入力され、可変
接続部５のディスティネーションをＦＩＦＯ１およびＦ
ＩＦＯ２にすることで２本のベクトルにコピーする。Ｆ
ＩＦＯ１は出力ポートＥ（４８）に接続し、入力ポート
Ｗ（４４）からのベクトルをたれ流しにする。入力ポー
トＮ（４６）から入ったベクトルｂ_kjはＦＩＦＯ３に入
力され、可変接続部のディスティネーションをＦＩＦＯ
４およびＦＩＦＯ５にすることで２本のベクトルにコピ
ーする。ＦＩＦＯ５は出力ポートＳ（４６）に接続し、
入力ポートＮ（４６）からのベクトルをたれ流しにす
る。

【００５４】ＦＩＦＯ２およびＦＩＦＯ４は乗算器５２
に接続され、乗算結果はＦＩＦＯ６へ出力される。ＦＩ
ＦＯ７には最初に０が８個入力され初期化される。ＦＩ
ＦＯ６とＦＩＦＯ７は加算器５３に接続され、その出力
は再びＦＩＦＯ７に戻される。

【００５５】ＦＩＦＯ８は入力ポートＥ（４９）からの
ベクトルを出力ポートＷ（４５）へたれ流し、最初にＡ
の８個の部分行列積に関連する所定の行列要素が８個ず
つ入力され初期化される。ＦＩＦＯ９は入力ポートＳ
（５１）からのベクトルを出力ポートＮ（４７）へたれ
流し、最初にＢの８個の部分行列積に関連する所定の行
列要素が８個ずつ入力され初期化される。

【００５６】なお、図６に示したプロセシングエレメン
ト００，０１，０２，０３ではＦＩＦＯ９の出力が図８
の点線で示されるようにＦＩＦＯ３の出力の部分に接続
され、ＦＩＦＯ３は不要である。同様にプロセシングエ
レメント００，１０，２０，３０ではＦＩＦＯ８の出力
が図８の点線で示されるようにＦＩＦＯ０の出力の部分
に接続され、ＦＩＦＯ０は不要である。

【００５７】４×４のプロセッサアレイにおけるデータ
のマッピングは図９に示すように４×４の部分行列の各
要素をすなおに４×４のアレイ状にならぶ個々のプロセ
ッサに割り当て、各プロセッサはＡ，Ｂ，Ｃのために４
個ずつの要素を保持する。

【００５８】以上のようなデータの配置におけるＦＩＦ
Ｏ８の初期化されるデータを図１０に示す。２桁の番号
は行列Ａの二次元インデックスを示している。同様にＦ
ＩＦＯ９の初期化されるデータを図１１に示す。

【００５９】以上の初期化データは全て各プロセシング
エレメントのローカルメモリから自身のＦＩＦＯに設定
できるのでこのための通信は必要ない。以上のように初
期化が終了したらバリア同期などをとって図１０や図１
１のようなデータ流の順序が保証されるようにして演算
を開始させる。すると二次元的にチェイニングされたベ
クトル演算器ネットワークの中をベクトル長３２のベク
トルが流れ、効率良くベクトル処理が行われる。その結
果、部分行列間の積がＦＩＦＯ７中に８個できあがる。

【００６０】以上のような処理をもし本発明を用いるこ
となく通常のメッセージ交換で行うならば一回の乗算と
一回の加算を行ってすぐにメッセージ送信をしなければ
ならないという細粒度通信のため、通信にかかるソフト
ウェアオーバーヘッドが処理時間全体の大部分を占めて
しまうので性能は格段に低下してしまう。

【００６１】上記の初期化を行った場合、ＦＩＦＯ７に
出来上がった８個の要素は一番目がＡ１１・Ｂ１１に対
応し、二番目がＡ１２・Ｂ２１に対応し、三番目がＡ１
１・Ｂ１２に対応し、四番目がＡ１２・Ｂ２２に対応
し、五番目がＡ２１・Ｂ１１に対応し、六番目がＡ２２
・Ｂ２１に対応し、七番目がＡ２１・Ｂ２２に対応し、
八番目がＡ２２・Ｂ２２に対応する。ゆえに一番目と二
番目を加算したものがＣ１１に対応し、三番目と四番目
を加算したものがＣ１２に対応し、五番目と六番目を加
算したものがＣ２１に対応し、七番目と八番目を加算し
たものがＣ２２に対応する。これらはプロセッサごとに
スカラ演算により並列化できる。

【００６２】以上に示したようなウェーブフロントアレ
イ処理は、マルチユーザー、マルチジョブのためのプロ
テクション付きでの並行処理も可能となっている。

【００６３】さて、本実施例ではＦＩＦＯのデータ存在
検査信号などを入力とするベクトル命令切換制御部１９
の制御の元で動作するベクトル演算制御部１８を具備す
る。この命令切り換え機構は演算に必要な全ての入力オ
ペランドに対応するＦＩＦＯにデータの存在をもとに所
定の条件が成立した場合にベクトル演算器７，８の演算
種類とベクトル演算器７，８の入力および出力に接続す
るＦＩＦＯまたはスカラレジスタを切り換える。

【００６４】例えば外部メモリポートが他のベクトルデ
ータのロードなどに使われていたり、他のプロセシング
エレメントからのデータの受信が結合網のブロッキング
などによって、なかなか現在ベクトル演算中の演算に必
要なデータをＦＩＦＯにロードできなかった場合に、所
定の条件、例えばある指定された期間そのような演算器
の待ち状態が続いた場合などに、別のベクトル演算命令
に対してベクトル演算器を明け渡すことが可能になる。

【００６５】すると、入れ替わるベクトル演算命令のオ
ペランドに対応する全てのＦＩＦＯに既にデータが貯ま
っていた場合には、そのベクトル演算を開始することが
できる。その間に先ほど演算器を明け渡した演算に必要
なデータがＦＩＦＯにロードされることが見込まれ、や
がて逆に今度は演算器を明け渡されてベクトル命令の実
行が再開される。

【００６６】つまり、結合網の遅延やメモリの高速アク
セスのためのバースト転送などに起因する外部メモリア
クセス遅延を許容し、これらに起因するベクトル演算パ
イプラインの空回りを削減し、パイプラインの有効利用
がはかられる。

【００６７】また、物理的に存在する演算器の個数より
多くのベクトル演算命令を同時に発行することができる
ので十分な本数のＦＩＦＯがあればＦＩＦＯを介したチ
ェイニングの機会を多くすることができ、メモリアクセ
スの回数をさらに減らすことが可能になる。

【００６８】以下に実例を引き上記の現象を説明する。
次のような演算を行う場合について考える。（Ａ，Ｂ，
Ｃはベクトル、ｓ，ｔはスカラー）Ａ（ｉ）＝Ａ（ｉ）＋ｓ×Ｂ（ｉ）＋ｔ×Ｃ（ｉ）この例ではハードウェアが十分ある場合を想定すると図
１２のような主記憶とベクトルレジスタと演算器の関係
が成り立つ。つまりＡ，Ｂ，Ｃのロードおよび結果Ａの
ストアに対応する４つのメモリアクセスとベクトル加算
２個（５７，５８）、ベクトル乗算２個（５４，５５）
の演算が必要になる。さらにベクトルレジスタを７本、
スカラレジスタを２本必要になる。ところが本実施例の
プロセッサのように加減算器と乗除算器をそれぞれ１個
しか持っていない場合は図１３，図１４のように２回に
わけて実行せざるを得なかったため、メモリアクセスが
２回余計に必要になる。

【００６９】つまり、本実施例のように演算器が２個
（即ち、加算器５３，乗算器５２）しか存在しないなら
ば、たとえ３個以上のベクトル演算命令がハードウェア
の制約を外して考えた場合に論理的にはチェイニングで
実行可能だったとしても、２個の演算器がそれぞれ１個
のベクトル演算の完了までそのベクトル演算命令に占有
されるのであれば、２演算以上のチェイニングは不可能
である。つまり２命令のみがチェイニングされ、その結
果ベクトルはメモリへ一旦格納されることになってしま
う。

【００７０】一方、本実施例のプロセッサではＦＩＦＯ
が足りなくなるまではたとえ演算器が２個しかなかった
としても３個以上のベクトル演算を同時に発行できる。
上記の演算の例を実行する場合はＦＩＦＯが６本以上あ
るので図１２に示されている全ての処理に対応する命令
が発行され、２つのベクトル加算命令が一つの物理的な
加減算器に時分割的に割り当てられ、２つのベクトル乗
算命令が一つの物理的な乗除算器に時分割的に割り当て
られる。

【００７１】その動作を示すタイムチャートの例を図１
５に示す。本実施例ではベクトルＡとベクトルＢ，Ｃは
実質的に並列にアクセスできるようにメモリポートコン
フリクトが無いように主記憶上に格納されているとし、
ベクトルＢとＣは並列にはアクセスできなかった場合の
動作を示している。同図において、太い実線は実資源す
なわちメモリポートや演算器がそれぞれの処理に割り当
てられている期間を示し、点線は実資源が他の処理に奪
われている期間を示している。また、鋸歯状の矢印は実
資源割り当ての切換、実線矢印はデータ依存関係を示
す。

【００７２】実際に演算器を割り当てられて実行可能状
態になる演算命令は物理的な演算器の個数である２個が
最大であるが、やがてチェイニング先のＦＩＦＯが一杯
になったり、入力となるＦＩＦＯが空になったりするこ
とにより、ベクトル命令切り換え機構が待たされていた
ベクトル演算命令実行のために演算器を明け渡し、条件
が満たされたベクトル演算命令の間を演算器使用権限が
回りながら演算器を共有しつつ、見た目にはあたかも３
個以上の演算器がチェイニングされているかのように実
行される。このようにして中間結果ベクトルのメモリへ
の退避・復帰がＦＩＦＯの本数が足りている間は回避さ
れ、メモリポートや演算器が暇にならないように制御さ
れる。

【００７３】以上の動作例はＦＩＦＯへのデータ入力や
ＦＩＦＯからのデータ出力が４個のメモリアドレス生成
部が制御する主記憶とのアクセスによって行われた場合
を示しているが、前述のとおりＦＩＦＯへアクセスでき
るのは他にもメッセージヘッダー解析部２やメッセージ
パケット生成部３が存在するので、他のプロセッサとの
間で交わされるメッセージがＦＩＦＯに入出力されるデ
ータにもなりうる。

【００７４】さて、本実施例ではプログラム上で使用さ
れるＦＩＦＯの番号を物理的なＦＩＦＯの番号に変換す
るＦＩＦＯ番号変換部６を具備する。このため、複数の
ユーザーまたはジョブによる並行処理が行われた場合で
も、同じ番号のＦＩＦＯをプログラム上で指定してもユ
ーザーごとに割り当てられた別のＦＩＦＯをアクセスし
てくれるので、他人から自分のＦＩＦＯをアクセスされ
ることもなく、かつプログラム中で実行時のＦＩＦＯの
割り当てを気にせずオペランドを指定できる。つまり、
多重仮想記憶システムにおいて各ユーザおよびジョブが
独立の記憶空間を持っているものと思ってプログラミン
グでき、どの物理メモリが割り当てられたかによりアド
レスを変更したり、コンパイルしなおしたりしなくても
すむように、本発明によれば各ユーザおよびジョブは独
自のＦＩＦＯレジスタセットを持っているものと思って
プログラミングでき、どの物理ＦＩＦＯが割り当てられ
たかによりＦＩＦＯレジスタ番号を変更したり、コンパ
イルしなおしたりしなくてもすむ。

【００７５】さらに外部メモリアクセスポートは連続ア
クセス時に高速なＤＲＡＭであるＲ−ＤＲＡＭ１４を制
御可能なメモリ制御機構としてＲａｍｂｕｓインタフェ
ース１３を備える。

【００７６】ＲａｍｂｕｓとはこれまでのＤＲＡＭとは
メモリセルは全く同様の技術を用いて大容量を安価に提
供できるメモリであるＲ−ＤＲＡＭ１４のためのバス規
格である。パケット型のアクセスプロトコルを想定して
おり、連続的なアクセスに関してはデータ長を指定でき
るためにアドレス指定のオーバーヘッドが軽減され、２
５０ＭＨｚという高速な転送クロックの両エッジに同期
した転送方式と相まってデータ幅９ビットながら最大転
送速度は５００Ｍバイト／秒を実現できる。

【００７７】Ｒ−ＤＲＡＭ１４内部ではＤＲＡＭセルア
レイからページ単位で転送される２バンクのキャッシュ
が存在するので、長いベクトルの連続アクセスに対する
キャッシュのペナルティは通常のキャッシュシステムに
比べて少ないものと考えられる。

【００７８】なぜなら通常のキャッシュシステムではキ
ャッシュサイズを越えるような長いベクトルを扱う処理
に関しては、再びそのデータが利用される前に後続のベ
クトルデータによってリプレースされてしまうため、ほ
ぼ常にミスヒットが生じ効果が薄い若しくは逆効果であ
るのに対し、Ｒ−ＤＲＡＭ１４ではＤＲＡＭセルとキャ
ッシュの間がチップ内で接続された極めて高い転送バン
ド幅を持っているため、連続アクセスをしている限りミ
スヒットのペナルティは低い。

【００７９】つまり以上のようなＲａｍｂｕｓおよびＲ
−ＤＲＡＭ１４のもろもろの性質はベクトルデータの連
続アクセスを基本とする本発明のプロセッサの主記憶と
して好ましい性質であり、Ｒａｍｂｕｓと本発明の相乗
効果により、高価で消費電力の高い高速ＳＲＡＭを用い
ることなしに、実質的に高いメモリバンド幅を活用し高
い実効演算性能を実現できる並列計算機用プロセシング
エレメントが構築できる。

【００８０】また図１５のタイムチャートに示されてい
るようにベクトル演算制御と併用される場合、限られた
外部メモリアクセスポートに対して複数のベクトルロー
ド命令やベクトルストア命令からのアクセス要求が重な
り、長期間ベクトルロードやベクトルストアが待たされ
た場合でも、これが原因で待たされているベクトル演算
命令を切り換えて他のベクトル演算命令に演算器を割り
当てることにより、パイプラインの有効利用と連続アク
セスによる高速メモリアクセスを両立させることが可能
になる。

【００８１】さらに、通常のメッセージ交換型並列プロ
グラミングを行った場合、他のプロセシングエレメント
からの受信メッセージはメモリにバッファリング時や、
メッセージ送信時には連続アドレスに対するアクセスが
生じるが、ルーティング回路１からこの高速連続アクセ
スモードで制御されるＲａｍｂｕｓメモリポートが利用
可能なので、メッセージの送受信も高速化される。

【００８２】さらに、スカラ処理および制御を受け持つ
ＣＰＵ２１としてキャッシュを持つＣＰＵを利用した場
合、キャッシュのリプレースは比較的短いながらも連続
アクセスとなるのでＣＰＵ２１からみた実質的なメモリ
バンド幅の向上にも寄与する。

【００８３】さらに本実施例ではＲａｍｂｕｓインタフ
ェース１３を二系統１３ａ，１３ｂ備え、Ｒａｍｂｕｓ
へのアクセスを適当なデータ長に区切るメモリアクセス
ブロック化部と、２系統のうちどちらのＲａｍｂｕｓポ
ートへアクセスするかを判定し適切なポートにアクセス
を振り分けるメモリポート選択部１２を具備する。

【００８４】Ｒａｍｂｕｓはデータ・アドレス共有バス
幅が９ｂｉｔ幅なので使用ピン数が少ないため複数ポー
ト具備させたとしてもＬＳＩのピンネックにはなりにく
い。またＲａｍｂｕｓはメモリとバスマスタとなるチッ
プが直結され通常のメモリバスのようにアドレスラッチ
やバストランシーバという類の外付け部品が無いので、
バスを複数ポート持たせたことによるコスト上昇は低
い。

【００８５】Ｒａｍｂｕｓプロトコルは１パケットで最
大２５６バイトのバーストメモリアクセスを許している
ため、２５６バイト以上のベクトルデータのロードまた
はストアを行う場合は、複数の２５６バイト以下のアク
セスパケットに分割する必要がある。

【００８６】またメモリポートが空いているならば、デ
フォルトのパケット長（例えば１２８バイト）にストア
すべきデータが滞留していなくても、空いているほうに
ＦＩＦＯに滞留しているベクトルデータの一部でもメモ
リにストアしておいたほうがメモリポートを空いたまま
にしておくよりはメモリポートのバンド幅を有効に活用
できる。

【００８７】つまり、アクセスブロック化アドレス生成
部１０を設けることによりメモリポートが空いているこ
とを検知して適宜ストアするベクトルデータをブロック
化し、デフォルトパケット長よりも短いライトパケット
を生成することで、メモリポートを最大限に活用するた
めの機能を実現できる。

【００８８】またベクトルのロードに関してもロード先
のＦＩＦＯ及び予備のデータバッファの空き領域が少な
い場合は、空き領域以上の長さのリードパケットを作っ
てしまうとデータを受け切れなくなってしまうので、ア
クセスブロック化アドレス生成部１０によりデフォルト
のパケット長よりもアクセスを短くブロック化したリー
ドパケットを生成することにより、リードしそこねる事
態を防止することが可能になる。例えばデフォルトのリ
ードパケット長をＦＩＦＯの容量の半分としておき、Ｆ
ＩＦＯの容量の半分が消費された段階で発せられる警報
信号を元にリードパケット長を短く制御させるようにす
ると比較的簡単に溢れ防止制御が実現できる。

【００８９】Ｒａｍｂｕｓを本実施例のように２系統具
備すると、どちらのポートへのアクセスなのかに応じて
パケットの転送先を切り換える必要があるが、アクセス
ブロック化アドレス生成部１０から生成されるメモリア
クセスパケットはそのアドレスによりどちらのＲａｍｂ
ｕｓポートへのアクセスであるかが判定でき、メモリポ
ート選択部１２はメモリアクセスパケットを所定のＲａ
ｍｂｕｓポートに転送する。

【００９０】このように一つのメモリアクセスパケット
が二つのポートにまたがるようなアドレスおよびパケッ
ト長にならないように、アクセスブロック化アドレス生
成部１０はパケットの生成を行うように制御する。

【００９１】例えばベクトルプロセッサがアクセスする
領域が制御ＣＰＵの仮想記憶機構によりページングされ
ていない場合は、アクセスブロック化アドレス生成部１
０においてベクトルのメモリアクセスがポート境界に達
した場合にポート境界までのメモリアクセスパケットの
処理を先に完了させ、次にそれに引き続く別ポート向け
のメモリアクセスパケットを生成すれば良い。この場合
制御ＣＰＵへの割り込みは発生しない。

【００９２】一方、メモリ空間が制御ＣＰＵの仮想記憶
機構によりページングされている場合は、少なくとも１
ページ分は同一のＲａｍｂｕｓポートへのアクセスとな
るようにアドレスを割り当てておけば、アクセスブロッ
ク化アドレス生成部１０においてベクトルのメモリアク
セスがページ境界に達した場合には、ページ境界までの
メモリアクセスパケットの処理を完了した後に、制御Ｃ
ＰＵに割り込みをかけ、次のページの物理アドレスを制
御ＣＰＵからコマンド制御部を介してアクセスブロック
化アドレス生成部に設定させれば、一つのメモリアクセ
スパケットが二つのポートにまたがるようなアドレス及
びパケット長にならないようにすることが可能になる。

【００９３】Ｒａｍｂｕｓが本実施例のように２系統具
備され、アクセスブロック化アドレス生成部が生成する
二つのメモリアクセスパケットが別ポートあてのパケッ
トとなり２系統のＲａｍｂｕｓが並列に動作した場合は
最大１Ｇバイト／秒のメモリバンド幅が実現できる。

【００９４】通常チェイニングが可能なベクトルプロセ
ッサにおける様々なアプリケーションから解析された必
要なメモリバンド幅は１浮動小数演算（１ＦＬＯＰ）あ
たり浮動小数（８バイト）の転送１回といわれており、
１Ｇバイト／秒のメモリバンド幅は１２５ＭＦＬＯＰＳ
の演算性能とつり合う転送速度と言える。

【００９５】つまり本実施例のプロセッサを１万台並べ
ることにより実質的に１．２５ＴＦＬＯＰＳのスーパー
コンピュータをプロセッサ間通信の無いプログラムで実
現するためのメモリバンド幅に対する一つの必要条件が
満たされるということができる。

【００９６】実際にはプロセッサ間通信が行われるため
さらにメモリバンド幅が必要になることが予想される
が、本実施例のプロセッサでプロセッサ間通信を実現す
る場合はメモリを経由せずに行うことができる場合があ
るので、この機能を用いることが可能な場合はメモリバ
ンド幅に対する要求はプロセッサ間通信を行う場合でも
少なくすることができる。

【００９７】

【発明の効果】以上のように本発明によれば、超並列型
のアプローチによりスーパーコンピュータを構築する場
合、通信ソフトウェアオーバーヘッド、マルチユーザ時
のプロテクション処理に伴う０Ｓのオーバーヘッド、結
合網遅延時間などによる演算器の空回り、従来のベクト
ル演算器を用いた場合に生じたメモリバンド幅の不足、
これを補うための高速ＳＲＡＭ使用によるコスト上昇と
消費電力上昇、従来のスカラ演算器を用いた場合に生じ
た演算能力自体の不足やこれによる使用プロセッサ数の
増大などの課題を解決した超並列マシン構築用のマイク
ロプロセッサを実現できる。

【００９８】本発明によるプロセッサを一万台程度の規
模で並べた場合、ピーク性能で１テラＦＬＯＰＳ程度の
超並列スーパーコンピュータが実現でき、ピーク性能と
実効性能の差が少なく、マルチユーザによるプロセッサ
内での並行処理ができ、低コスト・低消費電力を両立す
るシステムを実現することが可能となる。

【図面の簡単な説明】

【図１】本発明が適用された並列計算機用マイクロプロ
セッサの一実施例の構成を示すブロック図の第１の分図
である。

【図２】本発明が適用された並列計算機用マイクロプロ
セッサの一実施例の構成を示すブロック図の第２の分図
である。

【図３】メッセージパケット生成部の構成を示す説明図
である。

【図４】メッセージの構成例を示す図である。

【図５】メッセージヘッダ解析部の構成を示す説明図で
ある。

【図６】本プロセッサによる並列計算機構成時のプロセ
シングエレメント間接続の例を示す図である。

【図７】部分行列に分けた正方行列間の積の説明図であ
る。

【図８】二次元ベクトルプロセッサアレイを用いたウェ
ーブフロントアレイ処理による行列積計算におけるプロ
セシングエレメント内でのパイプラインチェイニングを
示す図である。

【図９】係数行列Ａ，Ｂ，Ｃのプロセッサアレイへのマ
ッピング状態を示す図である。

【図１０】プロセッサアレイにおける各プロセシングエ
レメント内のＦＩＦＯ８が初期化された状態を示す図で
ある。

【図１１】プロセッサアレイにおける各プロセシングエ
レメント内のＦＩＦＯ９が初期化された状態を示す図で
ある。

【図１２】実演算器数より多くの演算器を仮想的に用い
ることができればチェイニングが行われる場合のプロセ
ッサ内でのチェイニングの例を示す図である。

【図１３】実演算器数より多くの演算器を仮想的に用い
ることができない場合の動作の前半部のプロセッサ内で
のチェイニングの例を示す図である。

【図１４】実演算器数より多くの演算器を仮想的に用い
ることができない場合の動作の後半部のプロセッサ内で
のチェイニングの例を示す図である。

【図１５】演算器やメモリポートが仮想化された場合の
図１２で示されるチェインドパイプラインの動作を示す
タイムチャートである。

【符号の説明】

１ルーティング制御部２メッセージヘッダ解析部３メッセージパケット生成部４ａ，４ｂアクセス権限情報設定部５可変接続部６ＦＩＦＯ番号変換部７，８ベクトル演算器９スカラレジスタ１０アクセスブロック化アドレス生成部１１データバッファ１２メモリポート選択部１３ＲａｍｂｕｓＩ／Ｆ１４Ｒ−ＤＲＡＭ１５命令バッファ１６ＣＰＵインタフェース１７命令バッファアクセス権限設定部１８ベクトル演算制御部１９ベクトル命令切換制御部２０コマンド制御部２１ＣＰＵ

Claims

【特許請求の範囲】

【請求項１】複数の先入れ先出しメモリ（ＦＩＦＯ）
と、演算に必要な全ての入力オペランドに対応するＦＩ
ＦＯまたはスカラレジスタにデータが存在する際に演算
が実行される１以上のベクトル演算器と、他のプロセシ
ングエレメントとの通信を行うルーティング回路と、外
部メモリアクセスポートと、前記ベクトル演算器，ＦＩ
ＦＯ，ルーティング回路及び外部メモリアクセスポート
との間をＬＳＩ内で接続する可変接続部を具備すること
を特徴とする並列計算機用マイクロプロセッサ。