JP3149348B2

JP3149348B2 - 代理命令を用いる並列処理システム及び方法

Info

Publication number: JP3149348B2
Application number: JP00183296A
Authority: JP
Inventors: ジェラルド・ジィ・ペカネック; クレア・ジョン・グロスナー; ラリー・ディ・ラーセン; スタマティス・ヴァシリアディス
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1995-01-17
Filing date: 1996-01-09
Publication date: 2001-03-26
Anticipated expiration: 2016-01-09
Also published as: EP0723220A3; US5649135A; KR100190738B1; EP0723220A2; JPH08249293A; KR960029956A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は一般にデータ処理シ
ステム及び方法に関し、特に並列処理アーキテクチャに
おける改良に関する。

【０００２】

【従来の技術】例えばＩＳＰ−５．６などの多くの信号
プロセッサが、１命令サイクル当たり複数の独立実行ア
クションを発生する命令を使用する。これらの"複合命
令（compound instruction）"は通常、複数オペレーシ
ョンを指定しなければならないので単一の命令ワード内
で符号化することが困難である。結果的に複合命令の体
系化において妥協が行われ、オペランド及び結果の宛先
の指定における柔軟性及び一般性が制限されることにな
る。複合命令を提供する多数の代替例が提案されてお
り、特にG．D．Jonesらによる"Selecting Predecoded I
nstructions with a Surrogate"（IBM TDB、Vol．36、N
o．6A、June 1993、p．35）、及びJonesらによる"Pre-C
omposed Superscaler Architecture"（IBM TDB、Vol．3
7、No．9、Sept．1994、p．447）がこれらに含まれる。
本発明で使用されるアプローチは、これら２つの論文で
述べられる概念の拡張に当たる。本発明は主に、上述の
従来技術においてカバーされなかった新たな概念に関す
る。

【０００３】代理概念（surrogate concept）において
は、複数のシンプレックス命令からＶＬＩＷ（超長命令
ワード：Very Long Instruction Word）が作成される。
複数のＶＬＩＷが読出し専用メモリ（ＲＯＭ）内で生成
され実現されるか、代理メモリをロードするように識別
される命令シーケンスにより生成される。次に代理シン
プレックス命令により、特定のＶＬＩＷがその実行のた
めに指し示される。ＰＥ（処理要素：processing eleme
nt）において、ＶＬＩＷは代理メモリに記憶される。代
理メモリは、各々が３２ビット実行ユニットに関連付け
られる複数の命令スロットと、ロード及びストア命令の
結合したＳＰ／ＰＥ命令（ＳＰはシーケンス・プロセッ
サを表す）に割当てられるスロットから成る。

【０００４】

【発明が解決しようとする課題】本発明の目的は、並列
処理アレイのための改良されたプログラマブル・プロセ
ッサ・アーキテクチャを提供することである。

【０００５】本発明の別の目的は、並列処理アレイのプ
ロセッサ要素のオペレーションにおいて高度な柔軟性及
び汎用性を提供することである。

【０００６】

【課題を解決するための手段】これらの及びその他の目
的、特長及び利点が、並列処理アレイのための改良され
た命令配布機構を提供する本開示による並列処理システ
ム及び方法により達成される。本発明は複数の各プロセ
ッサ要素に基本命令を同報する。各プロセッサ要素は、
同一の命令を各それぞれのプロセッサ要素に記憶される
固有のオフセット値に関連付けることによりその命令を
解読し、そのプロセッサ要素に固有の導出命令を生成す
る。第１のタイプの基本命令はプロセッサ要素に論理演
算を実行させる。第２のタイプの基本命令はポインタ・
アドレスを提供する。ポインタ・アドレスは固有のアド
レス値を有する。なぜならポインタ・アドレスは、基本
命令をプロセッサ要素に記憶される固有のオフセット値
に関連付けることにより生成されるからである。ポイン
タ・アドレスは、プロセッサ要素における実行のために
代替命令記憶から代替命令をアクセスするために使用さ
れる。

【０００７】代替命令はＶＬＩＷであり、その長さは例
えば基本命令の長さの整数倍であり、単一の命令により
表現されるよりもより多くの情報を含む。このようなＶ
ＬＩＷは、プロセッサ要素内に存在する複数のプリミテ
ィブ実行ユニットの並列制御を提供するのに有用であ
る。このように、並列処理アレイのプロセッサ要素のオ
ペレーションにおいて高度な柔軟性及び汎用性が獲得さ
れる。

【０００８】本発明がそのアプリケーションを見い出す
並列処理アレイは、単一命令ストリーム複数データ・ス
トリーム（ＳＩＭＤ）システム構成にもとづく。本発明
はまた、プロセッサ要素の複数のＳＩＭＤクラスタが、
全体的な複数命令ストリーム複数データ・ストリーム
（ＭＩＭＤ）システム構成に編成される場合にも適用さ
れる。

【０００９】

【発明の実施の形態】本発明は、図１９に示されるＭＩ
ＭＤアレイ１００などの並列処理アレイのための改良さ
れた命令配布機構を提供する。本発明は、図１９に示さ
れる複数の各プロセッサ要素１０２に図１７に示される
基本命令１０１を同報する。各プロセッサ要素１０２
は、同一の命令１０１を各それぞれのプロセッサ要素１
０２に記憶される図１５の固有のオフセット値１０４に
関連付けることによりその命令を解読し、プロセッサ要
素に固有の導出命令を生成する。第１のタイプの基本命
令１０１は、プロセッサ要素に論理演算または算術演算
を実行させる。第２のタイプの基本命令１０１は図１６
のポインタ・アドレス１０７を生成する。ポインタ・ア
ドレス１０７は固有のアドレス値を有する。なぜなら、
これは基本命令１０１'をプロセッサ要素１０２に記憶
される固有のオフセット値１０４に関連付けることによ
り生成されるからである。ポインタ・アドレス１０７
は、プロセッサ要素１０２における実行のために、図１
６の代替命令記憶１１０から代替命令１０８をアクセス
するために使用される。代替命令１０８はＶＬＩＷであ
り、その長さは例えば基本命令１０１または１０１'の
長さの整数倍であり、単一の命令により表現されるより
も多大に多くの情報を含む。このようなＶＬＩＷ１０８
は、図８のプロセッサ要素１０２内に存在する複数のプ
リミティブ実行ユニットＥＸ１、ＥＸ２などの並列制御
を提供するのに有用である。このように、高度な柔軟性
及び汎用性が、並列処理アレイのプロセッサ要素のオペ
レーションにおいて獲得される。

【００１０】本発明がそのアプリケーションを見い出す
並列処理アレイは、図１１及び図１３に示されるよう
に、単一命令ストリーム複数データ・ストリーム（ＳＩ
ＭＤ）システム構成１１２にもとづく。本発明はまた、
プロセッサ要素１０２の複数のＳＩＭＤクラスタ１１２
が、図１９に示されるような全体的な複数命令ストリー
ム複数データ・ストリーム（ＭＩＭＤ）システム構成に
編成される場合にも適用される。

【００１１】図１１のＳＩＭＤ並列処理アレイ１１２は
メモリ手段１１４を含み、これは実行時に論理演算を実
行する第１のタイプの基本命令１０１と、実行時にアド
レス・ポインタ１０７を生成する第２のタイプの基本命
令とを記憶する。この命令はまた、ローカル命令または
ストア命令などの制御機能も提供できる。デコーダ１１
６（ＥＤ）は、第１及び第２の代替命令１０８のための
記憶１１０を含み、これらの代替命令は、それぞれ第１
及び第２のアドレス・ポインタ１０７によりアクセスさ
れる第１及び第２のロケーションに記憶される。

【００１２】図１１の第１のプロセッサ要素１０２（Ｐ
Ｅ−０）は命令バス１１８を介してメモリ手段１１４に
接続され、命令１０１及び１０１'を実行するための第
１の固有のオフセット値１０４を有する。第１のプロセ
ッサ要素１０２（ＰＥ−０）は命令バス１１８に接続さ
れる命令デコーダ１１６を含み、これは命令バス１１８
上に受信される第１のタイプの基本命令１０１を、論理
演算を実行するように処理する。

【００１３】本発明によれば、第１のプロセッサ要素１
０２（ＰＥ−０）の命令デコーダ１１６が、その第１の
固有のオフセット値１０４を命令バス１１８上に受信さ
れる第２のタイプの基本命令１０１'と一緒に処理し、
記憶１１０内の第１の代替命令１０８を指す第１のアド
レス・ポインタ１０７を生成し、それに応答して記憶１
１０が第１の代替命令１０８を第１のプロセッサ要素１
０２（ＰＥ−０）に出力する。

【００１４】図１１の第２のプロセッサ要素１０２（Ｐ
Ｅ−１）は命令バス１１８を介してメモリ手段１１４に
接続され、命令１０１及び１０１'を実行するための第
２の固有のオフセット値１０４を有する。第２のプロセ
ッサ要素１０２（ＰＥ−１）は、命令バス１１８に接続
される命令デコーダ１１６を含み、これは命令バス１１
８上に受信される第１のタイプの基本命令１０１を、論
理演算を実行するように処理する。

【００１５】更に本発明によれば、第２のプロセッサ要
素１０２（ＰＥ−１）の命令デコーダ１１６が、その第
２の固有のオフセット値１０４を命令バス１１８上に受
信される第２のタイプの基本命令１０１'と一緒に処理
し、記憶１１０内の第２の代替命令１０８を指す第２の
アドレス・ポインタ１０７を生成し、それに応答して、
記憶１１０が第２の代替命令１０８を第２のプロセッサ
要素１０２（ＰＥ−１）に出力する。

【００１６】このように、メモリ手段１１４から同報さ
れる単一命令１０１または１０１'が、第１及び第２の
プロセッサ要素内で異なるオペレーションを選択的に制
御することができる。

【００１７】メモリ手段は単一の記憶装置であってもよ
いし、基本命令１０１及び１０１'を記憶するメモリ手
段１１４に対応して階層メモリとして区分化されてもよ
い。また、代替命令１０８を記憶するための第２の記憶
手段１１０が、プロセッサ要素１０２内に提供される。

【００１８】本発明の好適な実施例では、第２のタイプ
の基本命令１０１'は代理命令であり、代替命令１０８
は基本命令１０１または１０１'よりも長いＶＬＩＷで
ある。基本命令１０１及び１０１'は例えば３２バイナ
リ・ビットの単位長を有し、代替命令１０８はこの単位
長の整数倍の長さ（例えば３２バイナリ・ビットの８
倍、すなわち２５６バイナリ・ビット）を有する。

【００１９】本発明の別の特長として、図１１の第１及
び第２の各プロセッサ要素ＰＥ−０及びＰＥ−１が、第
１のタイプの実行ユニットＥＸ１及び第２のタイプの実
行ユニットＥＸ２を有し、第１及び第２の各代替命令１
０８が、第１のタイプの実行ユニットＥＸ１で実行され
る第１の実行可能部分１２０（図１６参照）、及び第２
のタイプの実行ユニットＥＸ２で実行される第２の実行
可能部分１２２（図１６参照）を有することである。

【００２０】ＰＥ−０の第１の固有オフセット値１０
４、及びＰＥ−１の第２の固有オフセット値１０４は固
定値であってもよいし、各プロセッサ要素１０２に対応
して時間の経過と共に変化するプログラマブルな値であ
ってもよい。また、２つの各プロセッサ要素１０２のオ
フセット値１０４は同一であってもよく、この場合に
は、２つのプロセッサ要素に対応して同一のオペレーシ
ョン・モードが望まれることになる。

【００２１】本発明の別の特長として、第１の代替命令
１０８が基底値と第１のオフセット値との合計に等しい
値を有する第１のポインタ・アドレス１０７に配置され
る。第２のタイプの基本命令１０１'は基底値を含む。
命令の解読において、第１のプロセッサ要素１０２（Ｐ
Ｅ−０）が第１の固有オフセット値１０４と第２のタイ
プの基本命令１０１'からの基底値とを加算し、図１６
に示される第１のポインタ・アドレス１０７を生成す
る。同様に第２の代替命令１０８が、基底値と第２のオ
フセット値との合計に等しい値を有する第２のポインタ
・アドレス１０７に配置される。第２のタイプの基本命
令１０１'は基底値を含む。命令の解読において、第２
のプロセッサ要素１０２（ＰＥ−１）が第２の固有オフ
セット値１０４と第２のタイプの基本命令１０１'から
の基底値とを加算し、図１６に示される第２のポインタ
・アドレス１０７を生成する。

【００２２】ＳＩＭＤクラスタ１１２'内の２つのプロ
セッサ要素１０２（ＰＥ−１、０及びＰＥ−１、１）
が、図１９に示される第１の２つのプロセッサ要素１０
２と結合され、ＭＩＭＤアレイ１００を形成する。ここ
でメモリ手段１１４'は、実行時に論理演算または制御
オペレーションを実行する第３のタイプの基本命令１０
１と、実行時にアドレス・ポインタ１０７を生成する第
４のタイプの基本命令１０１'と、それぞれが第３及び
第４のアドレス・ポインタ１０７によりアクセスされる
第３及び第４のロケーションに記憶される第３及び第４
の代替命令１０８とを記憶する。

【００２３】第３のプロセッサ要素１０２（ＰＥ−１、
０）は第２の命令バス１１８'を介してメモリ手段１１
４'に接続され、命令１０１及び１０１'を実行するため
の第３の固有のオフセット値１０４を有する。第３のプ
ロセッサ要素１０２は第２の命令バスに接続される命令
デコーダを含み、これは第２の命令バス１１８'上に受
信される第３のタイプの基本命令１０１を、論理演算ま
たは制御オペレーションを実行するように処理する。

【００２４】本発明によれば、第３のプロセッサ要素１
０２（ＰＥ−１、０）の命令デコーダが、その第３の固
有のオフセット値１０４を、第２の命令バス１１８'上
に受信される第４のタイプの基本命令１０１'と一緒に
処理し、メモリ手段内の第３の代替命令を指す第３のア
ドレス・ポインタ１０７を生成し、それに応答してメモ
リ手段が第３の代替命令を第３のプロセッサ要素に出力
する。

【００２５】第４のプロセッサ要素１０２（ＰＥ−１、
１）は第２の命令バス１１８'を介してメモリ手段１１
４'に接続され、命令を実行するための第４の固有のオ
フセット値１０４を有する。第４のプロセッサ要素は第
２の命令バス１１８'に接続される命令デコーダを含
み、これは第２の命令バス１１８'上に受信される第３
のタイプの基本命令１０１を、論理演算または制御オペ
レーションを実行するように処理する。

【００２６】更に本発明によれば、第４のプロセッサ要
素１０２（ＰＥ−１、１）の命令デコーダが、その第４
の固有のオフセット値を命令バス１１８'上に受信され
る第４のタイプの基本命令１０１'と一緒に処理し、メ
モリ手段内の第４の代替命令１０８を指す第４のアドレ
ス・ポインタ１０７を生成し、それに応答してメモリ手
段が第４の代替命令を第４のプロセッサ要素に出力す
る。

【００２７】このように第１、第２、第３及び第４のプ
ロセッサ要素が、図１９に示されるような複数命令複数
データ（ＭＩＭＤ）・マルチプロセッサ・アレイを形成
する。

【００２８】ＭfastはＭＬＩＷマシンのスケーラブル・
アレイであり、本発明によれば特定のＶＬＩＷを指すア
ドレスを含む代理命令が実行される。このセクションで
は、ＭfastプロセッサＶＬＩＷ制御フローをサポートす
る概念が述べられる。最初に、基本ユニプロセッサ・モ
デルのハイ・レベルの抽象について述べ、その後、基本
Ｍfast制御フロー・モデルへと徐々に拡張していくこと
にする。条件付きレジスタ選択モデルを用いてＭfastの
ＶＬＩＷ概念について述べる。以降で参照される図面に
おいて基本ブロック・ニーモニックが図面内で命名さ
れ、各図面は新たに追加されるブロックに対応する用語
のみを含み、それ以外は以前の図を参照する。

【００２９】基本ＲＩＳＣユニプロセッサ単一命令単一
データ（ＳＩＳＤ）制御フロー・モデルが図１に示され
る。この図では、図示のモデルのブロックが２つの基本
セクション、すなわち制御パスと実行パスとに分割され
る。図示のように制御パス・セクションはデータ・パス
の一部を含む。なぜならこれらのモデルの定義により、
ロードやストアなどの制御命令がメモリとプロセッサ間
でデータを転送する唯一の手段であるからである。この
ロード／ストア・アーキテクチャ機構は様々なモデルを
通じて維持される。更に全てのモデルが、別々の命令メ
モリ（ＩＭ）及び別々のデータ・メモリ（ＤＭ）を有す
るHarvardアーキテクチャである。各メモリは、たとえ
それがメモリ階層を表すとしても単一のブロックとして
示される。各メモリに対して別々のメモリ・アドレッシ
ング機構、すなわちデータ・アドレス（ＤＡ）発生器及
びプログラム・カウンタ（ＰＣ）が提供される。プログ
ラム・カウンタは、分岐もしくはジャンプ・タイプの制
御命令、またはインタセプトにより変更されうる順次ア
ドレッシング・モデルにより、命令メモリを指すアドレ
スを生成する。アドレス指定された命令は命令メモリか
らフェッチされ解読されて、制御状態信号（ＩＳ）及び
データ信号（ＤＳ）を生成する。オペレーションの次の
状態が、実行パス内で生成される解読結果の命令信号
（ＩＳ）及び条件信号（Ｃ）に部分的にもとづき、シー
ケンサにより決定される。フェッチされた実行ユニット
（ＥＸ）命令が解読され（ＩＤ）、オペランドのフェッ
チ及び実行を制御するデータ信号（ＤＳ）が生成され
る。オペランドは、例えば読出しポートなどの選択機能
により汎用レジスタ・ファイル（ＧＲ）からフェッチさ
れ、実行ユニットに提供される。そして実行ユニットか
らデータ出力（ＤＯ）及び条件信号（Ｃ）が生成され
る。

【００３０】制御パスと実行パス間で共有される基本Ｒ
ＩＳＣＳＩＳＤモデルの機能ブロックは、ＲＩＳＣ区
分化ＳＩＳＤモデルを生成するために分離される。図１
のＲＩＳＣＳＩＳＤモデルは次のように変更される。
第１に、独立実行手段がアドレス生成機能をサポートし
てシーケンサ内に提供されるならば、レジスタ・ファイ
ルの制御パスの使用が実行パスと独立になる。性能的な
理由によりこのタイプのサポートは、アドレス生成機能
がデータ実行機能と同時並行にオペレートされることを
可能にするために度々提供される。結果的に図１の汎用
レジスタ（ＧＲ）が、図２に示されるように２つの独立
の別々のレジスタ・ファイル、すなわちシーケンサ汎用
レジスタ（ＳＲ）とデータ・パス汎用レジスタ（ＤＲ）
とに分割される。第２に命令解読論理が２つの独立のユ
ニット、すなわちシーケンサ命令解読論理（ＳＤ）とデ
ータ・ユニット命令解読論理（ＤＤ）とに分割される。

【００３１】制御パスと実行パスのそれぞれに対応する
命令及びデータを区別するために、追加の制御が必要と
なる。これらの制御は命令オペコードから得られたり、
レジスタ・ファイル特有のロード／ストア命令などによ
るプログラム制御により獲得される。基本制御フローの
他のオペレーションは図１に示されるモデルに関連して
述べられよう。

【００３２】ここでの議論のために、図２のＲＩＳＣ区
分化モデルは、シーケンサ汎用レジスタ（ＳＲ）及びシ
ーケンサ命令解読論理（ＳＤ）を図３のシーケンサ内に
移動することにより単純化される。

【００３３】分岐無し条件付きレジスタ選択の概念につ
いて次に述べる。使用される制御フロー・モデルが図４
に示され、ここでは以前のモデルからの変更として２つ
のタイプの条件信号、すなわち大域条件信号（Ｃｙ）と
ローカル・データ・パス条件信号（Ｃｘ）との分離が含
まれる。また、レジスタ選択可能ビット（Ｓ）がレジス
タ・ファイルから発信され、新たなデータ解読及び条件
選択論理ユニット（ＤＸ）内で使用される。新たなＤＸ
ユニットは条件付き選択論理を含み、入力であるＣｘ及
び（または）Ｓにもとづき、変更レジスタ選択信号
（Ｌ'）、大域条件信号（Ｃｙ）及びデータ信号（Ｄ
Ｓ）を生成する。概念的には、単一の出所または宛先を
指定する２つのレジスタの選択を含む命令が形成され、
実際にはレジスタが、条件信号（Ｃｘ）またはレジスタ
・ビット（Ｓ）などのオペコードにより指定される術語
（predicate）により選択される。このタイプの命令の
結果、データ依存型条件付きオペレーションが順次命令
ストリームを変更する分岐命令を要求すること無く実行
される。換言すると、命令シーケンスのデータ依存型制
御がデータ依存型実行シーケンスに変換され、命令制御
フローを順次的に維持することを可能にする。例えば３
２ビット命令ワード・アーキテクチャにおけるデータ転
送タイプの命令は、術語選択のための２つの出所オペラ
ンドまたは２つの宛先オペランドを識別するための、追
加のレジスタ選択フィールドを識別するのに十分な空間
を含みうる。最小の２命令ステップによりテスト条件術
語が生成され、条件付き転送命令がそれに続く。このタ
イプの命令がどのように使用されるかを示すために、"
ｚ"要素を有する最小及び最大の順序不同順次整数アレ
イ"Ｂ"を見い出す既知のプログラムを示すことにする。
最小／最大と表題を付けられるこのプログラムが図５及
び図６に示される。図６のアセンブリ・プログラムで
は、実行命令が分岐命令後に配置されるように要求す
る、実行付き分岐モデルが使用される。このプログラム
では、この命令に対応して無動作（ＮＯＰ）命令が使用
される。

【００３４】図４の条件付きレジスタ選択モデルを使用
すると、コードが図７に示されるように短縮される。こ
の条件付き選択プログラムの重要性は、２つの分岐命令
が以前のコード・ストリームから除去されることであ
り、これは"Ｂ"アレイのサイズに依存して多大な性能改
良を提供する。図４を参照すると、制御パス内で実現さ
れたデータ依存型条件付き分岐機能が、今度は実行パス
内で実現されるデータ依存型条件付き選択機能に変換さ
れていることが分かる。この変更は分岐の数を最小化す
ることにより制御パスの順次命令ストリームを改良す
る。この概念は、例えばレジスタの符号ビットなどのレ
ジスタ・ビットを除去するように拡張されうる。レジス
タ・ビットは条件コードの場合同様、実行ユニットによ
り影響されないので、レジスタ・ビット・ベースの条件
付き選択機能はレジスタ内ビットとして記憶されるテス
ト条件に影響すること無く、複数の算術演算を可能にす
る。

【００３５】ＶＬＩＷマシンの概念及びＶＬＩＷ条件付
きレジスタ選択は、このセクションで導入される２つの
新たな概念である。以前のモデルに対する変更が図８に
示され、ここでは複数命令ユニット（ＥＸ１、ＥＸ
２、．．．、ＥＸｍ）、複数ポート・レジスタ（Ｍ
Ｒ）、複数データ出力バス（ＤＯ１、ＤＯ２、．．．、
ＤＯｍ）、複数ＥＸ条件信号（Ｃ１、Ｃ２、．．．、Ｃ
ｍ）、複数ポート・レジスタ選択信号Ｌ'、複数レジス
タ選択可能ビットＳ'及び複数大域条件信号Ｃｙ'が実行
パスに追加される。

【００３６】ＶＬＩＷマシンは科学アプリケーションに
おける数値処理加速において使用されてきており、これ
らの多くのアプリケーションにおいて拡張命令レベルの
並列性を確立してきた。ＶＬＩＷアーキテクチャは、各
々が長い命令ワード内の独立フィールドにより個々に制
御される複数機能ユニットを使用することにより、特長
付けられる。ＶＬＩＷコンパイラは通常、長い命令ワー
ドの効率的なコーディングを達成するために使用され
る。例えば既に使用されているＶＬＩＷコンパイラ技法
には、トレース・スケジューリング（J．Fisher、"Trac
e Scheduling：ATechnique for Global Microcode Comp
action"、IEEE Transactions on Computers、July 198
1、C-30、pp．478-490）、及びソフトウェア・パイプラ
イニング（K．Ebcioglu、"A Compilation Technique fo
r Software Pipelining of Loopswith Conditional Jum
ps"、IEEE Micro-20、Dec．1987）がある。

【００３７】多くの信号プロセッサ、例えばＭＳＰ
１．０及びＴＩ社のＭＶＰ"Mediastation 5000：Integr
ating Video and Audio"（W．Leeら、IEEE Multimedi
a、Summer 1994、p．50-61）が、１命令サイクル当たり
複数の独立実行アクションを生成する命令を使用する。
これらの"複合命令"は複数オペレーションを指定しなけ
ればならないので、単一の命令ワード内で符号化するの
が通常困難である。結果的に、ＴＩ社の６４ビット命令
ワードを使用するＭＶＰＲＩＳＣプロセッサの場合の
ように、命令ワード・サイズが増加されたり、２４ビッ
ト命令によるｍｓｐ１．０の場合のように、複合命令の
体系化において、既存のワード・サイズに適合するよう
に妥協が許容されたりする。固定ワード・サイズのマシ
ンに複合命令を埋め込むことは通常、柔軟性、一般性、
及び体系化される"複合"命令の数を制限する。

【００３８】代理概念ではＶＬＩＷが複数シンプレック
ス命令から生成される。複数ＶＬＩＷが生成され、固定
形式で読出し専用メモリ（ＲＯＭ）に記憶されるか、プ
ログラマブル形式でランダム・アクセス・メモリ（ＲＡ
Ｍ）に記憶される。代理シンプレックス３２ビット命令
により、特定のＶＬＩＷが実行のために指し示される。
ＰＥにおいて、ＶＬＩＷは複数命令スロットから成る代
理命令メモリ（ＳＩＭ）に記憶される。各スロットは特
定の機能、すなわち各実行ユニット、ロード命令用のス
ロット及びストア命令用のスロットに関連付けられる。
なぜなら、Ｍfastアーキテクチャが、並行ＰＥロード及
びストア・オペレーションを許容するからである。これ
は、複数の"固有の（unique）"実行ユニットが各ＰＥ内
に提供されることを意味する。各ＰＥ及びＳＰ内の代理
命令メモリは、"セグメント区切り命令（ＳＤＩ：segme
nt delimiter instruction）"の使用によりロードされ
る。ＳＤＩはコード・ストリームに挿入され、次の命令
セットが各ＰＥ及びＳＰ内の特定の代理メモリ・ロケー
ションにロードされることを識別する。

【００３９】図８では、代理及びＳＤＩ論理がＳＩＭと
同様に、実行解読（ＥＤ）ブロック内に配置される。

【００４０】図７では、独立のステップが表１に示され
るように識別され、ここでａ←ｂはｂがａの完了に依存
することを表す。

【００４１】図７の順次リストにより示されるプログラ
ム・フローは、制御関係の上述リストにより管理され
る。制御フロー制限の理解にもとづき、順次最小／最大
プログラム例を"並列化（parallelize）"する多数の方
法が存在し、これらの方法はプログラムを成功裡に完了
させるために、オペレーションの正しい要求順序を維持
する。"固有"実行ユニットを含む図８のＶＬＩＷ条件付
き選択モデルでは、オペレーション（ｄ）がオペレーシ
ョン（ｃ）と並列に実行される。これに対応するコード
が図９に示され、ここでは代理ＶＬＩＷが初期化の間に
生成されたものと仮定し、アレイ・アドレス・ポインタ
及び最大整数値／最小整数値初期化コードは明確化のた
め除去されている（注：実行ユニットにおける機能（例
えば比較及び条件付き転送機能など）が複製される場合
には、他のレベルの並列性が提供される。本Ｍfastモデ
ルは"固有"実行ユニットの使用により、具現化及びアー
キテクチャ・モデルの単純化を維持する）。

【００４２】ここで、下記の表１を参照されたい。

【表１】

【００４３】この表１の制御関係から、シーケンサ比較
（ｆ）命令がＰＥコードの実行と並列に実行されること
に気付かれよう。Ｍfast上でのこの並列実行を達成する
ために、シーケンサ算術及び分岐命令がＰＥオペレーシ
ョンと並列に実行されることが要求される。１命令毎に
この並列実行を達成する１方法は、シーケンサ・オペレ
ーションを含むように拡張されるＶＬＩＷ概念の使用に
よる。結果的に代理命令メモリがシーケンサ命令解読論
理（ＳＤ）内に配置され、シーケンサ代理ＶＬＩＷとＰ
Ｅ代理ＶＬＩＷとの間で、１対１の関係が維持される。
換言すると、２つのＶＬＩＷが存在し、一方はシーケン
サ内、他方はＰＥ内の同一の代理アドレスに存在し、Ｐ
Ｅ及びシーケンサの両方において独立の並行実行の発生
を可能にする。この実現により、ＶＬＩＷプログラム・
コードが図１０に示されるように更に短縮される。図１
０では、代理ＶＬＩＷが初期化の間に生成されるものと
仮定する。

【００４４】区分化ＲＩＳＣモデルが、図８に示される
ＶＬＩＷモデル内で維持されるものと仮定すると、Ｍ
Ｒ、ＥＤ及びＥＸ１、ＥＸ２、．．．、ＥＸｍブロック
が、処理要素（ＰＥ）として見なされる。ＰＥを複製す
ることにより、図１１に示されるような１×２アレイが
生成される。ＳＩＭＤ概念により２つのＰＥが両ＰＥ上
で同一の命令を実行するので、２つの独立データ・アレ
イを並列に処理するか、単一のデータ・アレイを２つの
セグメントに区分化し、サブ・データ・アレイを並列に
処理することができる。一般的には図１１にＰＭで示さ
れるように、各ＰＥ内に配置されるデータ・メモリを仮
定する。処理の後、結果がシーケンス・プロセッサに伝
達されるかＰＥ間で伝達され、他の処理を可能にする。
例えば、データ・アレイがｎ要素長で、ｎが奇数の場合
（９ｎ−１）／２の長さの２つのアレイが最終アルゴリ
ズム・ステップ、すなわち２つのサブ・データ・アレイ
結果及びｎ番目の要素から選択するステップと並列に処
理される。このアプローチは、Ｍfastで使用される一般
的なＮ²２次元モデルと同様に、図１３に示されるＮ個
のＰＥを有する線形アレイに拡張される。ＰＥの他にシ
ーケンサ内の代理の使用により、図１２に示されるよう
に、最小／最大コード・リストが一層短縮される。この
コードは並列計算により、ループ繰返し回数を低減す
る。

【００４５】Ｍfastは多数のタイプの条件付き実行をサ
ポートする。それらには例えば、以下が含まれる。 −条件付き転送シンプレックス命令。 −条件付きＶＬＩＷスロット選択。

【００４６】ＶＬＩＷ概念はまた、Dijkstraにより最初
に提案されたCoBegin及びCoEndのプログラミング概念の
変形による別の方法によっても表現され（K．Hwangらに
よる"Computer Architecture and Parallel Processin
g"、McGraw-Hill、1984、pp．535-545参照）、これが図
１４に示される。図１４（Ａ）は元の概念を示し、Ｓ
０、Ｓ１、Ｓ２、．．．、Ｓｎ及びＳｘはプロセスのセ
ットであり、次のコード・シーケンスが使用される。 Begin SO Cobegin S1; S2; ...Sn; CoEnd Sx End

【００４７】このコードは独立のタスクＳ１、Ｓ
２、．．．、Ｓｎの並行実行を明示的に制御する。図１
４（Ｂ）は、CoBegin／CoEndプログラミング構成体の代
理ＶＬＩＷバージョンを示す。代理ＶＬＩＷの場合に
は、プロセスはそれぞれが自身のターゲットを指定する
単一の独立命令に短縮される。図１４（Ｃ）は図１４
（Ｂ）の記号表記であり、代理ＶＬＩＷフローを表現す
るために使用される。Ｍfastでは、算術論理演算ユニッ
ト（ＡＬＵ）、乗加算ユニット（ＭＡＵ）、データ選択
ユニット（ＤＳＵ）、ロード及びストアの各スロットを
含む５スロットＶＬＩＷが、各ＰＥにおいて使用され
る。

【００４８】表１を参照すると、問題を２つのＶＬＩＷ
ＰＥ間で区分することにより、別のレベルの並列処理
が得られる。例えば一方のＰＥが最小比較を実行し、並
行して他のＰＥが最大比較を実行する。これを達成する
には、各ＰＥが異なる命令／代理を並行して実行するこ
とが必要である。これはＳＩＭＤマシンのオペレーショ
ン・モードではなく、複数命令複数データ（ＭＩＭＤ）
タイプのオペレーションである。しかしながらＳＩＭＤ
モードは処理要素間における効率的な通信機構を提供
し、これは従来のＭＩＭＤ構成が提供しないものであ
る。結果的に、両構成の長所を取り込むハイブリッド・
オペレーション・モードがＰＥアレイにおいて必要とさ
れる。

【００４９】代理／ＶＬＩＷ概念の重要な態様は、代理
アドレスとその関連ＶＬＩＷとの間で１対１のマッピン
グが存在することである。この態様は、単一の代理が各
々がＮ²個のＰＥのアレイに含まれる最大Ｎ²個のＶＬＩ
Ｗの実行を開始することを可能にする。この１対１のマ
ッピング制限を緩和し、図１４に示されるCoBegin／CoE
ndプログラミング概念の変形を用いることにより、各Ｐ
Ｅにおいて異なるＶＬＩＷを同期を維持しながら実行す
ることが可能になる。これは、代理アドレスから代理グ
ループの単一の入口点アクセスへの１対１のマッピング
を維持する。各ＰＥ内の単一の入口点代理アドレスに対
する小さなオフセット・アドレス変更を可能にすること
により、ハザードを回避するために必要な特定の制限の
下で各ＰＥ内の代理グループからの選択が可能になる。

【００５０】全てのシーケンサ及び処理要素（ＰＥ）は
実行ユニットの共通のセットを含み、実行ユニットは固
定少数点／浮動小数点乗加算ユニット（ＭＡＵ）、ＡＬ
Ｕ及びデータ選択ユニット（ＤＳＵ）を含む。更に各シ
ーケンサ及びＰＥはＳＤＩ及び代理論理を有する。

【００５１】体系化される全てのＭfast命令はシンプレ
ックス・タイプである。なぜならこれらの命令は、任意
のＳＰまたはＰＥにおいて単一の機能ユニット実行アク
ションを指定するからである。複数の機能ユニットの単
一の実行アクションは、バイト、ハーフワード或いはワ
ードのオペレーションが指定されたかに依存して、デュ
アル／クワッド・オペレーションを含みうる。複合命令
すなわちロード／ストアと組合わされて複数機能ユニッ
トを用いる命令が、代理命令概念により構築される。代
理概念ではＶＬＩＷが複数のシンプレックス命令から生
成される。複数ＶＬＩＷ代理は、代理メモリをロードす
ると識別される命令シーケンスにより生成される。代理
シンプレックス命令により特定のＶＬＩＷが実行のため
に指し示される。代理ＶＬＩＷは複数命令スロットから
成る代理メモリに記憶され、各スロットは１実行ユニッ
トと、ロード命令用に割当てられる１スロット及びスト
ア結合ＳＰ／ＰＥ命令用の１スロットとに関連付けられ
る。本Ｍfastプロセッサは、最大８スロットＶＬＩＷワ
ードに対応して体系化される。第１のＭfast態様では、
各ＰＥ代理ＶＬＩＷが最大５スロット（ＡＬＵ、１６×
１６／３２×３２ＭＡＵ、ＤＳＵ、ロード、及びスト
ア）から成る。図１７に示されるように、最大２５６Ｖ
ＬＩＷ代理が各シーケンサ／ＰＥにおいて指定される。
代理命令のロード及びストア・オプションは、アレイ・
データ・バスの適正で安全な使用のためにＳＰ及びＰＥ
の協動（joint cooperation）を要求する。

【００５２】各ＰＥ及びＳＰ内の代理命令メモリは"セ
グメント区切り命令（ＳＤＩ）"を通じてロードされ
る。ＳＤＩはコード・ストリーム内に挿入され、次の命
令セットが各ＰＥ及びＳＰ内の特定の代理メモリ・ロケ
ーションにロードされることを識別する。ＳＤＩはまた
次の項目を指定する。代理命令メモリ・アドレス、すな
わち代理番号。指定代理にロードされるＳＤＩに続く命
令の数。ロード及び実行の制御すなわち、シンプレック
ス命令だけのロード、またはシンプレックス命令の実
行、及びそれに続くそのシンプレックス命令の代理メモ
リ内のＶＬＩＷへのロード。シンプレックス命令だけの
ロード或いは既存のスロット命令を置換する新たな命令
による代理の実行。新たな命令のロード以前に代理を無
動作（ＮＯＰ）にするか否か。

【００５３】代理メモリ内のスロットは特定のＰＥ実行
ユニットに関連付けられるので、新たな代理を生成する
とき新たな命令が既存の命令を置換する。スロットが置
換されない場合には以前に指定された命令が残る。結果
的に、ＳＤＩは代理ロケーション全体をロード以前に無
動作にするフィールドを含む。

【００５４】図１６はＰＥ代理データ・フローを示す。
代理メモリがロードされると代理命令により適切なＶＬ
ＩＷが実行のために選択される。各代理は、それが表現
するＶＬＩＷを識別するアドレス・フィールドを含む。
ここでは２つのタイプの代理が体系化される。代理０
（ＳＲＧＴ−０）は代理アドレスとＶＬＩＷとの間の１
対１の関係を提供する。代理（ＳＲＧＴ−１）は、代理
グループの１入口点すなわち代理アドレスとの１対１の
関係を提供し、そのグループの１ＶＬＩＷをアクセスす
ることを可能にする。ＳＲＧＴ−１はオフセット・レジ
スタと共に使用され、各ＰＥ内の代理ＶＬＩＷアドレス
を生成し、各ＰＥにおいて異なるＶＬＩＷが同時並行に
実行されることを可能にする。ハザードが存在しないよ
うに保証するために、特殊ＳＤＩ−Ｍ命令によりＳＲＧ
Ｔ−１により使用される代理がロードされる。予めＳＤ
Ｉ−Ｍを使用すること無しにＳＲＧＴ−１を発行すると
エラーと見なされる。図１６は、代理アドレスを生成す
るために使用されるlog₂Ｎビットのオフセット・レジス
タ及び小加算器を示す。特殊ＰＥロード命令は、４×４
Ｍfastプロセッサ内の全てのＰＥオフセット・レジスタ
が単一サイクル内にロードされることを可能にする。更
にハザードを防止するために、ＳＤＩ−Ｍ命令リスト
が、最大Ｎ個の全てのＳＲＧＴ−１ＶＬＩＷに対応す
るロード及びストア用スロットの１つの指定だけを可能
にする。

【００５５】図１７に示されるように、セグメント区切
り命令ＳＤＩ−Ｍ、ＳＤＩ−Ｌ、ＳＤＩ−Ｘ及び代理命
令（ＳＲＧＴ−０／１）は５つの特殊結合ＳＰ／ＰＥ命
令（Ｓ／Ｐ＝１１）を表す。ＳＤＩ−Ｌ及びＳＤＩ−Ｘ
命令は、代理命令を生成及び変更する命令リストが続く
ように指定し、これらの代理命令は代理アドレス（ＳＲ
ＧＴ）アドレス・フィールドにより指定される。ＳＤＩ
−Ｍ命令は、指定代理アドレスから始まるＳＤＩ−Ｍ命
令に続く命令リストから、最大'Ｓ'個の代理命令が生成
されるように指定する。ＳＤＩ及び代理命令に対応し
て、ＳＲＧＴアドレス・フィールドが代理メモリから２
５６存在しうる代理の１つを指定する。ＳＤＩ−Ｌ命令
は、命令リストからの命令が実行されロードされるべき
か、或いは単に指定代理にロードされるべきかを指定す
る。ＳＤＩ−Ｘ命令は代理命令がリストの各命令に対し
て実行されるべきかを指定する。ここでリスト内の命令
はその実行以前に既存のＶＬＩＷスロットを置換する。
このことは例えば代理の繰返し実行を可能にし、各実行
に対してスロットが置換され、それによりオペランドの
出所フィールド及び（または）宛先フィールドが変更さ
れる。図１７のＩｓＬフィールドは、指定代理にロード
するための最大８命令のリストがＳＤＩ−Ｌ及びＳＤＩ
−Ｘ命令に続くことを示す。命令実行制御（Instr E×C
ntrl）フィールドはリスト内の最大８命令に個々に対応
して、代理ＶＬＩＷが指定スロットのロード後に実行さ
れるべきか、或いは単にスロットのロードが発生すべき
かを指定する。ＳＤＩ−Ｘは代理の実行以前に１乃至８
スロット／秒を変更する低待ち時間方法を可能にする。
特殊ビットであるＺビットは、ＳＤＩに続く命令のロー
ドまたは実行−ロード以前に指定代理アドレスの全ての
スロットにＮＯＰがロードされることを示す。

【００５６】代理命令内の別のビットすなわちＥビット
は、これが"１"であれば指定代理が無条件に実行される
ことを示す。このビットが"０"の場合にはＰＥ条件付き
実行レジスタにより、ＶＬＩＷスロットが実行されるべ
きか、ＮＯＰされるべきかが指定される。ＰＥ条件付き
実行レジスタは特殊目的レジスタとして体系化され、Ｄ
ＳＵ転送命令及びＤＳＵ条件付き転送命令によりアクセ
スされる。ＳＤＩ−Ｘ及びＳＲＧＴ−０／１命令はＮＩ
ｓｅｌフィールドを含み、これはＰＥ−ＮＥＴインタフ
ェース・ポート（例えば最隣接（nearest neighbor）ポ
ート）へのアクセスを有するＶＬＩＷスロットを指定す
る。すなわちＮＩｓｅｌフィールドは、１指定スロット
の宛先（ＤＥＳＴ）フィールドをイネーブルにする。未
選択の他のスロットは、結果をローカル宛先ターゲット
・レジスタに送る。

【００５７】ＳＤＩ−Ｍ命令、ＳＲＧＴ−１命令及びＰ
Ｅオフセット・レジスタ・ロード命令は、各ＰＥにおい
て異なるＶＬＩＷが単一ケースの代理命令（ＳＲＧＴ−
１）により制御されて、同時並行かつ同期してロード及
び実行する能力を提供するために使用される。ＳＤＩ−
Ｍは次に示すハイ・レベル擬似キャッシュ形式を使用す
る。１．ＳＤＩ−ＭＳＲＧＴアドレス＝Ｘ、全ての代理ロ
ケーションのＮＯＰを強制、ＳＲＧＴの数＝Ｓ-set。ａ．スロット・ロード命令（ロードされる全てのＳＤＩ
−Ｍ代理に対して共通）。ｂ．スロット・ストア命令（保管される全てのＳＤＩ−
Ｍ代理に対して共通）。ｃ．代理メモリ・アドレスＸにおける代理番号Ｘ＋０命
令。代理番号０のＭＡＵスロット（全てのＭＡＵ命令ス
ロットに対してＮＩｓｅｌが同一）。代理番号０のＡＬ
Ｕスロット（全てのＡＬＵ命令スロットに対してＮＩｓ
ｅｌが同一）。代理番号０のＤＳＵスロット（全てのＤ
ＳＵ命令スロットに対してＮＩｓｅｌが同一）。他の算
術ＰＥスロットに対して継続。ｄ．代理メモリ・アドレスＸ＋１における代理番号Ｘ＋
１命令。代理番号１のＭＡＵスロット（全てのＭＡＵ命
令スロットに対してＮＩｓｅｌが同一）。代理番号１の
ＡＬＵスロット（全てのＡＬＵ命令スロットに対してＮ
Ｉｓｅｌが同一）。代理番号１のＤＳＵスロット（全て
のＤＳＵ命令スロットに対してＮＩｓｅｌが同一）。他
の算術ＰＥスロットに対して継続。ｅ．代理メモリ・アドレスＸ＋Ｓ-setにおける代理番号
Ｘ＋Ｓ-set命令。代理番号Ｓ-setのＭＡＵスロット（全
てのＭＡＵ命令スロットに対してＮＩｓｅｌが同一）。
代理番号Ｓ-setのＡＬＵスロット（全てのＡＬＵ命令ス
ロットに対してＮＩｓｅｌが同一）。代理番号Ｓ-setの
ＤＳＵスロット（全てのＤＳＵ命令スロットに対してＮ
Ｉｓｅｌが同一）。他の算術ＰＥスロットに対して継
続。

【００５８】各ＰＥはＳＲＧＴ−１命令と共に使用され
る"オフセット"・レジスタを含む。"オフセット"・レジ
スタは、任意の特定の態様において、log₂Ｎ以下の値を
含む。このオフセット値はＰＥオフセット・ロード命令
によりロードされる。ＰＥがＳＲＧＴ−１を受信する
と、これはそのオフセット・レジスタ値をＳＲＧＴ−１
の代理アドレス・フィールドに加算し、各ＰＥにおいて
代理を選択するアドレスを生成する。ネットの結果とし
て異なる代理命令が各ＰＥ内で選択され、同期して実行
される。ロード／ストア・スロットは各ＰＥ内で生成さ
れる最大Ｎの代理に対して同一であるので、たとえ異な
る命令が各ＰＥ内で実行されていてもローカル・メモリ
のアクセスにおいて衝突は発生しない。ハザードが発生
しないように保証するために、ＳＤＩ−Ｍが発行される
とき、ＳＤＩ−Ｍ代理アドレスにおいて有効な代理アド
レスであることを示すフラグ・ビットがセットされる。
ＳＲＧＴ−１が発行される度に、ＳＲＧＴ−１の代理ア
ドレスにおけるフラグ・ビットがセットされているかど
うかがテストされる。セットされていない場合にはエラ
ー条件が強制され、ＳＲＧＴ−１はＮＯＰとして作用す
る。それ以外では実行される。更にＳ-setは、各ＳＲＧ
Ｔ−１に対応して許容可能な有効オフセット範囲を示
し、ハザードの発生を防止するための別のエラー条件テ
ストを可能にする。

【００５９】図１８は単一ＰＥ処理コードに対応する提
案フローを示す。図示のように、ノードは、単一のＰＥ
（ＭＡＵ、ＡＬＵ、ＤＳＵ及びＧＰＲＦ（汎用レジスタ
・ファイル））により提供される要素の完全な補数に加
え、最隣接ポート及びＤ（データ）バスに対して、レジ
スタとの間でデータを転送するように指令するスイッチ
／選択論理を含む。提供される命令パイプライン・パス
論理はシンプレックス命令及び代理命令を規則正しく解
読し、実行する。各ＰＥ内には、ＰＥ命令解読レジスタ
及びＰＥ実行レジスタ（省略名はそれぞれＰＤＲ及びＰ
ＸＲ）及び命令解読論理が設けられる。ＰＥが実行でき
ないことの１つに自身の命令スレッドの決定がある（Ｐ
Ｅは命令アドレス・レジスタ及び関連順序化論理を有さ
ない）。Ｍfastマシンでは、シーケンス・プロセッサ
（ＳＰ）は、自身及び関連ＰＥの両方の命令フェッチ・
タスクの実行に寄与する。次にＰＥがＳＰから命令を供
給される。ＰＥは次にこれらの命令を（ＰＤＲ内に）登
録し、これらを順次解読及び実行する。

【００６０】ＰＥ命令パイプライン・フローの別の部分
は、代理命令メモリまたは略してＳＩＭである。ＳＩＭ
（レジスタ、ＲＡＭ及び（または）ＲＯＭの組合わせ）
は、ＰＥが代理ＶＬＩＷ命令（複数フロー要素内で実行
アクションを生成する命令）を実行できるようにするた
めに含まれる。代理が（ＰＥ内の論理により）命令スト
リーム内で検出されると、代理により指定されるＶＬＩ
Ｗ命令がＳＩＭからアクセスされ、代理の代わりに実行
される。ＰＥ内の他の論理は、特殊なＳＤＩ命令の使用
によりＳＩＭへのＶＬＩＷ命令のロードを容易にする。
もちろん、幾つかのＶＬＩＷ命令がＲＯＭ内に保持され
る場合には、それらをロードする必要はない。ほとんど
のアプリケーションにおいて、ＲＯＭ及びＲＡＭベース
の特定の組合わせのＳＩＭが望ましい。

【００６１】図１９はハイ・レベルのＭwaveアレイ・プ
ロセッサ・マシン構成を示す。マシン構成は、大域メモ
リ及び外部Ｉ／Ｏを含むシステム・インタフェースと、
ローカル・メモリを有する複数制御ユニットと、分散制
御ＰＥを有する実行アレイの３つの主要部分に区分化さ
れる。システム・インタフェースはアプリケーション依
存型インタフェースであり、これを介してＭwaveアレイ
・プロセッサ・インタフェースは大域メモリ、Ｉ／Ｏ、
他のシステム・プロセッサ及びパーソナル・コンピュー
タ／ワークステーション・ホストとインタフェースす
る。結果的にシステム・インタフェースはアプリケーシ
ョン及びシステム設計全体に依存して変化する。制御ユ
ニットは、命令及びデータ記憶用のローカル・メモリ、
命令フェッチ（Ｉ−Fetch）機構、及びオペランドまた
はデータ・フェッチ機構（Ｄ−Fetch）を含む。分散制
御ＰＥを有する実行アレイは、特定のアプリケーション
に対応して選択される処理要素の計算トポロジである。
例えば、実行アレイは１制御ユニット当たりＮ処理要素
（ＰＥ）を含み、各ＰＥは命令バッファ（ＩＢＦＲ）、
汎用レジスタ・ファイル（ＧＰＲＦ）、機能実行ユニッ
ト（ＦＮＳ）、通信機構（ＣＯＭ）及びその命令／デー
タ・バスとのインタフェースを含む。ＰＥはまたＰＥロ
ーカル命令及びデータ用メモリを含みうる。更に各ＰＥ
は複数ＰＥの分散制御をサポートする命令解読レジスタ
を含む。ローカル・メモリ・アクセスの同期は制御ユニ
ット、ローカル・メモリ及びＰＥの間の協動プロセスで
ある。ＰＥのアレイは計算機能（ＦＮＳ）が複数ＰＥ内
で並列に実行され、結果が（ＣＯＭにより）ＰＥ間で伝
達されることを可能にする。

【００６２】例えば図１９に示されるようなＭＩＭＤ
Ｍfastマシン構成により単一または複数スレッド・マシ
ンを生成することが可能であり、そこではＰＥ及び通信
機構のトポロジがアプリケーションに依存して、より最
適なトポロジとして構成される。例えば可能なマシン構
成として、複数線形リング、最隣接２次元メッシュ・ア
レイ、折り畳み（folded）最隣接２次元メッシュ、複数
折り畳みメッシュ、２次元六方アレイ（hexagonal arra
y）、折り畳み２次元六方アレイ、折り畳みツリー・メ
ッシュ、及び上述の組合わせなどが挙げられる。

【００６３】多くのアルゴリズムがデータに対して、高
速フーリエ変換または離散余弦変換などの"バタフライ"
・タイプのオペレーションを要求する。Ｍfastプロセッ
サはバタフライ・オペレーションを並列に処理すること
ができる。例えば、８×８データ・アレイに対応して、
各々が１列／行当たり８ペルを含む全８列／行に対し
て、バタフライ出力を計算するコード例が提供される。
Ｍfastは２つの加減算機能ユニット、すなわちＭＡＵ及
びＡＬＵを含み、これら両者がハーフワード及びデュア
ルバイト・オペレーションに対応して体系化されるの
で、６４の加減算が１サイクルで処理される（すなわち
１ＰＥ当たり４つの加減算）。このレベルの並列処理を
達成するために代理命令が生成されなければならず、こ
うした代理命令は初期化時にロードされるか、ＰＥがア
クセス可能なＲＯＭに記憶される。この例では、バタフ
ライ出力がＰＥのＧＰＲＦ内のローカル・レジスタに返
却される。図２０は４列から成るバタフライを実行し、
１命令の実行により全３２＋及び全３２−値を生成する
ＶＬＩＷ命令１０８を示す。図２１は、バタフライＶＬ
ＩＷ命令１０８及び行の実行結果を示す。図から、全て
のバタフライ計算において１６ビット精度が維持されて
いる点に注目されたい。

【００６４】図２０及び図２１の折り畳みアレイ・プロ
セッサはまた、８×８形式に配列される６４個のデータ
値に対して、バタフライ・オペレーションを提供するこ
とができる。これが図２２に示され、ここではセル内の
上部の単一の添字表記"ｐ"値により６４個のデータ値が
８×８アレイに編成される。Ｎ×Ｎアレイではバタフラ
イはｐ_bとＰ_N ² _-1-bとの組合わせ、すなわちＮ＝８で
は、ｐ₀とｐ₆₃、ｐ₁とｐ₆ ₂（以下同様）の組合わせを要
求する。より大きなサイズのデータ・アレイでは他のバ
タフライの組合わせが可能である。図２３は６４データ
値に対応するバタフライＶＬＩＷ命令１０８及びその結
果を示す。

【００６５】以上から、問題及びそれらを解決する方法
は次のように要約される。１．各々が複数機能ユニットを含む処理要素のアレイに
対する、スケーラブル複合命令能力の提供。処理要素の
アレイに対して使用されるように、代理命令概念が拡張
される。２．スケーラブル複合命令を変更する低待ち時間プログ
ラマブル方法の提供。ＶＬＩＷスロットのロード情報と
結合される代理命令を、ＰＥの単一の解読パイプライン
・ステージにおいて２レベル解読することにより、処理
要素が実行する最終結合複合実行アクションを決定す
る。

【００６６】まとめとして、本発明の構成に関し以下の
事項を開示する。

【００６７】（１）実行時にオペレーションを実行する
第１のタイプの基本命令、アドレス・ポインタを提供す
る第２のタイプの基本命令、及び第１及び第２のアドレ
ス・ポインタによりそれぞれアクセスされる第１及び第
２のロケーションに記憶される第１及び第２の代替命令
を記憶するメモリ手段と、前記メモリ手段に接続され、
前記命令を実行するための第１の固有のオフセット値を
有する第１のプロセッサ要素であって、前記プロセッサ
要素が前記第１のタイプの基本命令をオペレーションの
実行のために処理する命令解読を含み、前記命令解読が
前記第１の固有のオフセット値を前記第２のタイプの基
本命令と共に処理し、前記メモリ手段内の前記第１の代
替命令を指す前記第１のアドレス・ポインタを生成し、
それに応答して前記メモリ手段が前記第１の代替命令を
前記第１のプロセッサ要素に出力する、前記第１のプロ
セッサ要素と、前記メモリ手段に接続され、前記命令を
実行するための第２の固有のオフセット値を有する第２
のプロセッサ要素であって、前記第２のプロセッサ要素
が前記第１のタイプの基本命令をオペレーションの実行
のために処理する命令解読を含み、前記命令解読が前記
第２の固有のオフセット値を前記第２のタイプの基本命
令と共に処理し、前記メモリ手段内の前記第２の代替命
令を指す前記第２のアドレス・ポインタを生成し、それ
に応答して前記メモリ手段が前記第２の代替命令を前記
第２のプロセッサ要素に出力する、前記第２のプロセッ
サ要素と、を含み、前記メモリ手段から同報される単一
の命令が前記第１及び第２のプロセッサ要素内で異なる
オペレーションを選択的に制御する、データ処理システ
ム。（２）前記メモリ手段が、前記基本命令を記憶する第１
の記憶手段と、前記代替命令を記憶する第２の記憶手段
と、を含む、前記（１）記載のデータ処理システム。（３）前記第２のタイプの基本命令が代理命令であり、
前記代理命令が前記基本命令よりも長い超長命令ワード
（ＶＬＩＷ）である、前記（１）記載のデータ処理シス
テム。（４）前記基本命令が単位長を有し、前記代替命令が前
記単位長の整数倍の長さを有する、前記（１）記載のデ
ータ処理システム。（５）前記第１及び第２の各プロセッサ要素が第１のタ
イプの実行ユニット及び第２のタイプの実行ユニットを
有し、前記第１及び第２の各代替命令が前記第１のタイ
プの実行ユニットにおける実行のための第１の実行可能
部分、及び前記第２のタイプの実行ユニットにおける実
行のための第２の実行可能部分を有する、前記（１）記
載のデータ処理システム。（６）前記第１の固有のオフセット値及び前記第２の固
有のオフセット値がプログラマブル値である、前記
（１）記載のデータ処理システム。（７）前記第１の代替命令を、基底値と前記第１の固有
のオフセット値との合計に等しい値を有する第１のポイ
ンタ・アドレスに配置するステップと、前記第１の固有
のオフセット値が前記固有のオフセット値であるステッ
プと、前記第２のタイプの基本命令が前記基底値を含む
ステップと、前記第１のプロセッサ要素が前記第１の固
有のオフセット値と前記第２のタイプの基本命令からの
前記基底値とを加算し、前記第１のポインタ・アドレス
を生成するステップと、前記第２の代替命令を、基底値
と前記第２の固有のオフセット値との合計に等しい値を
有する第２のポインタ・アドレスに配置するステップ
と、前記第２の固有オフセット値が前記第２のオフセッ
ト値であるステップと、前記第２のタイプの基本命令が
前記基底値を含むステップと、前記第２のプロセッサ要
素が前記第２の固有のオフセット値と前記第２のタイプ
の基本命令からの前記基底値とを加算し、前記第２のポ
インタ・アドレスを生成するステップと、を含む、前記
（１）記載のデータ処理システム。（８）前記第１及び第２の処理要素が単一命令複数デー
タ（ＳＩＭＤ）・アレイの一部である、前記（１）記載
のデータ処理システム。（９）実行時にオペレーションを実行する第３のタイプ
の基本命令、アドレス・ポインタを提供する第４のタイ
プの基本命令、及び第３及び第４のアドレス・ポインタ
によりそれぞれアクセスされる第３及び第４のロケーシ
ョンに記憶される第３及び第４の代替命令を記憶する前
記メモリ手段と、前記メモリ手段に接続され、前記命令
を実行するための第３の固有のオフセット値を有する第
３のプロセッサ要素であって、前記第３のプロセッサ要
素が前記第３のタイプの基本命令をオペレーションの実
行のために処理する命令解読を含み、前記第３のプロセ
ッサ要素の命令解読が前記第３の固有のオフセット値を
前記第４のタイプの基本命令と共に処理し、前記メモリ
手段内の前記第３の代替命令を指す前記第３のアドレス
・ポインタを生成し、それに応答して前記メモリ手段が
前記第３の代替命令を前記第３のプロセッサ要素に出力
する、前記第３のプロセッサ要素と、前記メモリ手段に
接続され、前記命令を実行するための第４の固有のオフ
セット値を有する第４のプロセッサ要素であって、前記
第４のプロセッサ要素が前記第３のタイプの基本命令を
オペレーションの実行のために処理する命令解読を含
み、前記第４のプロセッサ要素の命令解読が前記第４の
固有のオフセット値を前記第４のタイプの基本命令と共
に処理し、前記メモリ手段内の前記第４の代替命令を指
す前記第４のアドレス・ポインタを生成し、それに応答
して前記メモリ手段が前記第４の代替命令を前記第４の
プロセッサ要素に出力する、前記第４のプロセッサ要素
と、を含み、前記第１、第２、第３及び第４のプロセッ
サ要素が複数命令複数データ（ＭＩＭＤ）・マルチプロ
セッサ・アレイ内に存在する、前記（１）記載のデータ
処理システム。（１０）実行時にオペレーションを実行する第１のタイ
プの基本命令、アドレス・ポインタを提供する第２のタ
イプの基本命令、及び第１及び第２のアドレス・ポイン
タによりそれぞれアクセスされる第１及び第２のロケー
ションに記憶される第１及び第２の代替命令を記憶する
メモリ手段と、前記メモリ手段に接続され、前記命令を
実行するための第１の固有のオフセット値を有する第１
のプロセッサ要素であって、前記第１の固有のオフセッ
ト値を前記第２のタイプの基本命令と共に処理し、前記
メモリ手段内の前記第１の代替命令を指す前記第１のア
ドレス・ポインタを生成し、それに応答して前記メモリ
手段が前記第１の代替命令を前記第１のプロセッサ要素
に出力する、前記第１のプロセッサ要素と、前記メモリ
手段に接続され、前記命令を実行するための第２の固有
のオフセット値を有する第２のプロセッサ要素であっ
て、前記第２の固有のオフセット値を前記第２のタイプ
の基本命令と共に処理し、前記メモリ手段内の前記第２
の代替命令を指す前記第２のアドレス・ポインタを生成
し、それに応答して前記メモリ手段が前記第２の代替命
令を前記第２のプロセッサ要素に出力する、前記第２の
プロセッサ要素と、を含み、前記メモリ手段から同報さ
れる単一の命令が前記第１及び第２のプロセッサ要素内
で異なるオペレーションを選択的に制御する、データ処
理システム。（１１）実行時にオペレーションを実行する第１のタイ
プの基本命令、アドレス・ポインタを提供する第２のタ
イプの基本命令、及び第１及び第２のアドレス・ポイン
タによりそれぞれアクセスされる第１及び第２のロケー
ションに記憶される第１及び第２の代替命令を記憶する
メモリ手段と、前記メモリ手段に接続され、前記命令を
実行するための第１の固有のオフセット値を有する第１
のプロセッサ要素であって、第１の論理演算の実行のた
めに前記第１の固有のオフセット値を前記第１のタイプ
の基本命令と共に処理する命令解読を含む、前記第１の
プロセッサ要素と、前記メモリ手段に接続され、前記命
令を実行するための第２の固有のオフセット値を有する
第２のプロセッサ要素であって、前記第１の論理演算と
は異なる第２の論理演算の実行のために前記第２の固有
のオフセット値を前記第１のタイプの基本命令と共に処
理する命令解読を含む、前記第２のプロセッサ要素と、
前記第１の固有のオフセット値を前記第２のタイプの基
本命令と共に処理し、前記メモリ手段内の前記第１の代
替命令を指す前記第１のアドレス・ポインタを生成す
る、前記第１のプロセッサ要素の前記命令解読であっ
て、それに応答して前記メモリ手段が前記第１の代替命
令を前記第１のプロセッサ要素に出力する前記第１のプ
ロセッサ要素の前記命令解読と、前記第２の固有のオフ
セット値を前記第２のタイプの基本命令と共に処理し、
前記メモリ手段内の前記第２の代替命令を指す前記第２
のアドレス・ポインタを生成する、前記第２のプロセッ
サ要素の前記命令解読であって、それに応答して前記メ
モリ手段が前記第２の代替命令を前記第２のプロセッサ
要素に出力する、前記第２のプロセッサ要素の前記命令
解読と、を含み、前記メモリ手段から同報される単一の
命令が前記第１及び第２のプロセッサ要素内で異なるオ
ペレーションを選択的に制御する、データ処理システ
ム。（１２）前記メモリ手段が、前記基本命令を記憶する第
１の記憶手段と、前記代替命令を記憶する第２の記憶手
段と、を含む、前記（１１）記載のデータ処理システ
ム。（１３）前記第２のタイプの基本命令が代理命令であ
り、前記代理命令が前記基本命令よりも長い超長命令ワ
ード（ＶＬＩＷ）である、前記（１１）記載のデータ処
理システム。（１４）実行時にオペレーションを実行する第１のタイ
プの基本命令、アドレス・ポインタを提供する第２のタ
イプの基本命令、及び第１及び第２のアドレス・ポイン
タによりそれぞれアクセスされる第１及び第２のロケー
ションに記憶される第１及び第２の代替命令を記憶する
ステップと、第１のプロセッサ要素に第１の固有のオフ
セット値を割当てるステップと、前記第１の固有のオフ
セット値を前記第２のタイプの基本命令と共に処理し、
前記第１の代替命令を指す前記第１のアドレス・ポイン
タを生成するステップであって、それに応答して前記第
１の代替命令を前記第１のプロセッサ要素に出力する、
前記処理ステップと、第２のプロセッサ要素に第２の固
有のオフセット値を割当てるステップと、前記第２の固
有のオフセット値を前記第２のタイプの基本命令と共に
処理し、前記第２の代替命令を指す前記第２のアドレス
・ポインタを生成するステップであって、それに応答し
て前記第２の代替命令を前記第２のプロセッサ要素に出
力する、前記処理ステップと、を含み、単一の同報命令
が前記第１及び第２のプロセッサ要素内で異なるオペレ
ーションを選択的に制御する、データ処理方法。（１５）前記第２のタイプの基本命令が代理命令であ
り、前記代理命令が前記基本命令よりも長い超長命令ワ
ード（ＶＬＩＷ）である、前記（１４）記載のデータ処
理方法。（１６）前記基本命令が単位長を有し、前記代替命令が
前記単位長の整数倍の長さを有する、前記（１４）記載
のデータ処理方法。（１７）前記第１及び第２の各プロセッサ要素が、第１
のタイプの実行ユニット及び第２のタイプの実行ユニッ
トを有し、前記第１及び第２の各代替命令が、前記第１
のタイプの実行ユニットにおける実行のための第１の実
行可能部分、及び前記第２のタイプの実行ユニットにお
ける実行のための第２の実行可能部分を有する、前記
（１４）記載のデータ処理方法。（１８）前記第１の固有のオフセット値及び前記第２の
固有のオフセット値がプログラマブル値である、前記
（１４）記載のデータ処理方法。（１９）前記第１の代替命令を、基底値と前記第１の固
有のオフセット値との合計に等しい値を有する第１のポ
インタ・アドレスに配置するステップと、前記第１の固
有のオフセット値が前記オフセット値であるステップ
と、前記第１の基本命令が前記基底値を含むステップ
と、前記第１のプロセッサ要素が前記第１の固有のオフ
セット値と前記第２のタイプの基本命令からの前記基底
値とを加算し、前記第１のポインタ・アドレスを生成す
るステップと、を含む、前記（１４）記載のデータ処理
方法。（２０）前記第２の代替命令を、基底値と前記第２の固
有のオフセット値との合計に等しい値を有する第２のポ
インタ・アドレスに配置するステップと、前記第２の固
有のオフセット値が前記第２のオフセット値であるステ
ップと、前記第２の基本命令が前記基底値を含むステッ
プと、前記第２のプロセッサ要素が、前記第２の固有の
オフセット値と前記第２のタイプの基本命令からの前記
基底値とを加算し、前記第２のポインタ・アドレスを生
成するステップと、を含む、前記（１９）記載のデータ
処理方法。（２１）実行時にオペレーションを実行する第１のタイ
プの基本命令、アドレス・ポインタを提供する第２のタ
イプの基本命令、及び第１及び第２のアドレス・ポイン
タによりそれぞれアクセスされる第１及び第２のロケー
ションに記憶される第１及び第２の代替命令を記憶する
メモリ手段であって、前記メモリ手段がセグメント区切
り命令及び第１及び第２のシンプレックス命令を含み、
前記の各代替命令が前記第１のシンプレックス命令を記
憶する第１のスロット部分、及び前記第２のシンプレッ
クス命令を記憶する第２のスロット部分を有する、前記
メモリ手段と、前記メモリ手段に接続され、前記命令を
実行するための第１の固有のオフセット値を有する第１
のプロセッサ要素であって、前記プロセッサ要素が、前
記第１のタイプの基本命令をオペレーションの実行のた
めに処理する命令解読を含み、前記第１のプロセッサ要
素の命令解読が前記第１の固有のオフセット値を前記第
２のタイプの基本命令と共に処理し、前記メモリ手段内
の前記第１の代替命令を指す前記第１のアドレス・ポイ
ンタを生成し、それに応答して前記メモリ手段が前記第
１の代替命令を前記第１のプロセッサ要素に出力する、
前記第１のプロセッサ要素と、前記第１の固有のオフセ
ット値を前記セグメント区切り命令と共に処理し、前記
第１のシンプレックス命令を前記第１の代替命令の前記
第１のスロット部分に挿入し、前記第２のシンプレック
ス命令を前記第１の代替命令の前記第２のスロット部分
に挿入する、前記第１のプロセッサ要素の前記命令解読
と、前記メモリ手段に接続され、前記命令を実行するた
めの第２の固有のオフセット値を有する第２のプロセッ
サ要素であって、第２の前記プロセッサ要素が前記第１
のタイプの基本命令をオペレーションの実行のために処
理する命令解読を含み、前記第２のプロセッサ要素の命
令解読が前記第２の固有のオフセット値を前記第２のタ
イプの基本命令と共に処理し、前記メモリ手段内の前記
第２の代替命令を指す前記第２のアドレス・ポインタを
生成し、それに応答して前記メモリ手段が前記第２の代
替命令を前記第２のプロセッサ要素に出力する、前記第
２のプロセッサ要素と、前記第２の固有のオフセット値
を前記セグメント区切り命令と共に処理し、前記第１の
シンプレックス命令を前記第２の代替命令の前記第１の
スロット部分に挿入し、前記第２のシンプレックス命令
を前記第２の代替命令の前記第２のスロット部分に挿入
する、前記第２のプロセッサ要素の前記命令解読と、を
含み、前記メモリ手段から同報される単一の命令が、前
記第１及び第２のプロセッサ要素内で異なるオペレーシ
ョンを選択的に制御する、データ処理システム。（２２）前記セグメント区切り命令が、前記第１のシン
プレックス命令に対応する第１の実行フラグと前記第２
のシンプレックス命令に対応する第２の実行フラグとを
含み、前記プロセッサ要素が、前記第１の実行フラグに
応答して前記第１のシンプレックス命令を選択的に実行
し、当該命令を前記代替命令の前記第１のスロット部分
に挿入し、前記プロセッサ要素が、前記第２の実行フラ
グに応答して前記第２のシンプレックス命令を選択的に
実行し、当該命令を前記代替命令の前記第２のスロット
部分に挿入する、前記（２１）記載のデータ処理システ
ム。（２３）前記セグメント区切り命令が、前記第１のシン
プレックス命令に対応する第１の実行フラグと前記第２
のシンプレックス命令に対応する第２の実行フラグとを
含み、前記プロセッサ要素が、前記第１の実行フラグに
応答して前記代替命令の前記第１のスロット部分の前記
第１のシンプレックス命令を選択的に実行し、前記プロ
セッサ要素が、前記第２の実行フラグに応答して前記代
替命令の前記第２のスロット部分の前記第２のシンプレ
ックス命令を選択的に実行する、前記（２１）記載のデ
ータ処理システム。

【００６８】

【発明の効果】以上説明したように本発明によれば、並
列処理アレイのための改良されたプログラマブル・プロ
セッサ・アーキテクチャを提供することができる。

【００６９】更に本発明によれば、並列処理アレイのプ
ロセッサ要素のオペレーションにおいて高度な柔軟性及
び汎用性を提供することができる。

【図面の簡単な説明】

【図１】ＲＩＳＣＳＩＳＤ制御フローを示す図であ
る。

【図２】ＲＩＳＣ区分化ＳＩＳＤ制御フローを示す図で
ある。

【図３】単純化したＲＩＳＣ区分化ＳＩＳＤ制御フロー
を示す図である。

【図４】分岐無しの条件付き選択モデルを示す図であ
る。

【図５】最小／最大ハイ・レベル・プログラムを示す図
である。

【図６】最小／最大アセンブリ・レベル・プログラムを
示す図である。

【図７】最小／最大条件付き選択アセンブリ・プログラ
ムを示す図である。

【図８】ＶＬＩＷ条件付き選択モデルを示す図である。

【図９】ＶＬＩＷ最小／最大条件付き選択アセンブリ・
プログラム番号１を示す図である。

【図１０】単一ＶＬＩＷＰＥ最小／最大条件付き選択
アセンブリ・プログラム番号２を示す図である。

【図１１】２ＶＬＩＷデータ・パス単一制御フローを示
す図である。

【図１２】ＶＬＩＷ最小／最大条件付き選択アセンブリ
・プログラム番号３を示す図である。

【図１３】ＮＶＬＩＷデータ・パス単一制御フローを
示す図である。

【図１４】ＶＬＩＷ優先度グラフを示す図である。

【図１５】複数ＶＬＩＷＰＥ優先度グラフを示す図で
ある。

【図１６】ＰＥ代理データ・フローを示す図である。

【図１７】ＳＤＩ及び代理命令結合形式を示す図であ
る。

【図１８】接続インタフェースを有する単一ＰＥ（対
角）ノード・フローを示す図である。

【図１９】ハイ・レベルＭウェーブ・アレイ・マシン構
成複数制御ユニットを示す図である。

【図２０】代理クワッド・カラム・バタフライ実行結果
を示す図である。

【図２１】代理クワッド・ロウ・バタフライ実行結果を
示す図である。

【図２２】線形変換２次元アレイ・データ形式を示す図
である。

【図２３】代理クワッド・アレイ・バタフライ実行結果
を示す図である。

【符号の説明】

１００ＭＩＭＤアレイ１０１基本命令１０２プロセッサ要素１０４固有のオフセット値１０７ポインタ・アドレス１０８代替命令１１０代替命令記憶１１２ＳＩＭＤシステム構成１１４メモリ手段１１６デコーダ１１８命令バス１２０第１の実行可能部分１２２第２の実行可能部分

───────────────────────────────────────────────────── フロントページの続き (72)発明者クレア・ジョン・グロスナーアメリカ合衆国27707、ノース・カロライナ州ダーラム、ウォーリングフォード・プレース 4144 (72)発明者ラリー・ディ・ラーセンアメリカ合衆国27609、ノース・カロライナ州ローリー、エモリー・レーン 912 (72)発明者スタマティス・ヴァシリアディスニュージーランド、ゾエターメア2726、ケンフォブ91、ピエール（番地なし) (56)参考文献特開平５−282266（ＪＰ，Ａ) 特開平２−211535（ＪＰ，Ａ) 特開昭63−163543（ＪＰ，Ａ) 特開昭58−58651（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 15/16 610 G06F 9/38 310 G06F 15/80 ＷＰＩ（ＤＩＡＬＯＧ)

Claims

(57)【特許請求の範囲】

【請求項１】実行時にオペレーションを実行する第１の
タイプの基本命令、アドレス・ポインタを提供する第２
のタイプの基本命令、及び第１及び第２のアドレス・ポ
インタによりそれぞれアクセスされる第１及び第２のロ
ケーションに記憶される第１及び第２の代替命令を記憶
するメモリ手段と、前記メモリ手段に接続され、前記命令を実行するための
第１の固有のオフセット値を有する第１のプロセッサ要
素であって、前記プロセッサ要素が前記第１のタイプの基本命令をオ
ペレーションの実行のために処理する命令解読を含み、前記命令解読が前記第１の固有のオフセット値を前記第
２のタイプの基本命令と共に処理し、前記メモリ手段内
の前記第１の代替命令を指す前記第１のアドレス・ポイ
ンタを生成し、それに応答して前記メモリ手段が前記第
１の代替命令を前記第１のプロセッサ要素に出力する、
前記第１のプロセッサ要素と、前記メモリ手段に接続され、前記命令を実行するための
第２の固有のオフセット値を有する第２のプロセッサ要
素であって、前記第２のプロセッサ要素が前記第１のタイプの基本命
令をオペレーションの実行のために処理する命令解読を
含み、前記命令解読が前記第２の固有のオフセット値を前記第
２のタイプの基本命令と共に処理し、前記メモリ手段内
の前記第２の代替命令を指す前記第２のアドレス・ポイ
ンタを生成し、それに応答して前記メモリ手段が前記第
２の代替命令を前記第２のプロセッサ要素に出力する、
前記第２のプロセッサ要素と、を含み、前記メモリ手段から同報される単一の命令が前
記第１及び第２のプロセッサ要素内で異なるオペレーシ
ョンを選択的に制御する、データ処理システム。
【請求項２】前記メモリ手段が、前記基本命令を記憶する第１の記憶手段と、前記代替命令を記憶する第２の記憶手段と、を含む、請求項１記載のデータ処理システム。
【請求項３】前記第２のタイプの基本命令が代理命令で
あり、前記代理命令が前記基本命令よりも長い超長命令
ワード（ＶＬＩＷ）である、請求項１記載のデータ処理
システム。
【請求項４】前記基本命令が単位長を有し、前記代替命
令が前記単位長の整数倍の長さを有する、請求項１記載
のデータ処理システム。
【請求項５】前記第１及び第２の各プロセッサ要素が第
１のタイプの実行ユニット及び第２のタイプの実行ユニ
ットを有し、前記第１及び第２の各代替命令が前記第１のタイプの実
行ユニットにおける実行のための第１の実行可能部分、
及び前記第２のタイプの実行ユニットにおける実行のた
めの第２の実行可能部分を有する、請求項１記載のデータ処理システム。
【請求項６】前記第１の固有のオフセット値及び前記第
２の固有のオフセット値がプログラマブル値である、請
求項１記載のデータ処理システム。
【請求項７】前記第１の代替命令を、基底値と前記第１
の固有のオフセット値との合計に等しい値を有する第１
のポインタ・アドレスに配置するステップと、前記第１の固有のオフセット値が前記固有のオフセット
値であるステップと、前記第２のタイプの基本命令が前記基底値を含むステッ
プと、前記第１のプロセッサ要素が前記第１の固有のオフセッ
ト値と前記第２のタイプの基本命令からの前記基底値と
を加算し、前記第１のポインタ・アドレスを生成するス
テップと、前記第２の代替命令を、基底値と前記第２の固有のオフ
セット値との合計に等しい値を有する第２のポインタ・
アドレスに配置するステップと、前記第２の固有オフセット値が前記第２のオフセット値
であるステップと、前記第２のタイプの基本命令が前記基底値を含むステッ
プと、前記第２のプロセッサ要素が前記第２の固有のオフセッ
ト値と前記第２のタイプの基本命令からの前記基底値と
を加算し、前記第２のポインタ・アドレスを生成するス
テップと、を含む、請求項１記載のデータ処理システム。
【請求項８】前記第１及び第２の処理要素が単一命令複
数データ（ＳＩＭＤ）・アレイの一部である、請求項１
記載のデータ処理システム。
【請求項９】実行時にオペレーションを実行する第３の
タイプの基本命令、アドレス・ポインタを提供する第４
のタイプの基本命令、及び第３及び第４のアドレス・ポ
インタによりそれぞれアクセスされる第３及び第４のロ
ケーションに記憶される第３及び第４の代替命令を記憶
する前記メモリ手段と、前記メモリ手段に接続され、前記命令を実行するための
第３の固有のオフセット値を有する第３のプロセッサ要
素であって、前記第３のプロセッサ要素が前記第３のタイプの基本命
令をオペレーションの実行のために処理する命令解読を
含み、前記第３のプロセッサ要素の命令解読が前記第３の固有
のオフセット値を前記第４のタイプの基本命令と共に処
理し、前記メモリ手段内の前記第３の代替命令を指す前
記第３のアドレス・ポインタを生成し、それに応答して
前記メモリ手段が前記第３の代替命令を前記第３のプロ
セッサ要素に出力する、前記第３のプロセッサ要素と、前記メモリ手段に接続され、前記命令を実行するための
第４の固有のオフセット値を有する第４のプロセッサ要
素であって、前記第４のプロセッサ要素が前記第３のタイプの基本命
令をオペレーションの実行のために処理する命令解読を
含み、前記第４のプロセッサ要素の命令解読が前記第４の固有
のオフセット値を前記第４のタイプの基本命令と共に処
理し、前記メモリ手段内の前記第４の代替命令を指す前
記第４のアドレス・ポインタを生成し、それに応答して
前記メモリ手段が前記第４の代替命令を前記第４のプロ
セッサ要素に出力する、前記第４のプロセッサ要素と、を含み、前記第１、第２、第３及び第４のプロセッサ要
素が複数命令複数データ（ＭＩＭＤ）・マルチプロセッ
サ・アレイ内に存在する、請求項１記載のデータ処理システム。
【請求項１０】実行時にオペレーションを実行する第１
のタイプの基本命令、アドレス・ポインタを提供する第
２のタイプの基本命令、及び第１及び第２のアドレス・
ポインタによりそれぞれアクセスされる第１及び第２の
ロケーションに記憶される第１及び第２の代替命令を記
憶するメモリ手段と、前記メモリ手段に接続され、前記命令を実行するための
第１の固有のオフセット値を有する第１のプロセッサ要
素であって、前記第１の固有のオフセット値を前記第２のタイプの基
本命令と共に処理し、前記メモリ手段内の前記第１の代
替命令を指す前記第１のアドレス・ポインタを生成し、
それに応答して前記メモリ手段が前記第１の代替命令を
前記第１のプロセッサ要素に出力する、前記第１のプロ
セッサ要素と、前記メモリ手段に接続され、前記命令を実行するための
第２の固有のオフセット値を有する第２のプロセッサ要
素であって、前記第２の固有のオフセット値を前記第２のタイプの基
本命令と共に処理し、前記メモリ手段内の前記第２の代
替命令を指す前記第２のアドレス・ポインタを生成し、
それに応答して前記メモリ手段が前記第２の代替命令を
前記第２のプロセッサ要素に出力する、前記第２のプロ
セッサ要素と、を含み、前記メモリ手段から同報される単一の命令が前
記第１及び第２のプロセッサ要素内で異なるオペレーシ
ョンを選択的に制御する、データ処理システム。
【請求項１１】実行時にオペレーションを実行する第１
のタイプの基本命令、アドレス・ポインタを提供する第
２のタイプの基本命令、及び第１及び第２のアドレス・
ポインタによりそれぞれアクセスされる第１及び第２の
ロケーションに記憶される第１及び第２の代替命令を記
憶するメモリ手段と、前記メモリ手段に接続され、前記命令を実行するための
第１の固有のオフセット値を有する第１のプロセッサ要
素であって、第１の論理演算の実行のために前記第１の固有のオフセ
ット値を前記第１のタイプの基本命令と共に処理する命
令解読を含む、前記第１のプロセッサ要素と、前記メモリ手段に接続され、前記命令を実行するための
第２の固有のオフセット値を有する第２のプロセッサ要
素であって、前記第１の論理演算とは異なる第２の論理演算の実行の
ために前記第２の固有のオフセット値を前記第１のタイ
プの基本命令と共に処理する命令解読を含む、前記第２
のプロセッサ要素と、前記第１の固有のオフセット値を前記第２のタイプの基
本命令と共に処理し、前記メモリ手段内の前記第１の代
替命令を指す前記第１のアドレス・ポインタを生成す
る、前記第１のプロセッサ要素の前記命令解読であっ
て、それに応答して前記メモリ手段が前記第１の代替命
令を前記第１のプロセッサ要素に出力する前記第１のプ
ロセッサ要素の前記命令解読と、前記第２の固有のオフセット値を前記第２のタイプの基
本命令と共に処理し、前記メモリ手段内の前記第２の代
替命令を指す前記第２のアドレス・ポインタを生成す
る、前記第２のプロセッサ要素の前記命令解読であっ
て、それに応答して前記メモリ手段が前記第２の代替命
令を前記第２のプロセッサ要素に出力する、前記第２の
プロセッサ要素の前記命令解読と、を含み、前記メモリ手段から同報される単一の命令が前
記第１及び第２のプロセッサ要素内で異なるオペレーシ
ョンを選択的に制御する、データ処理システム。
【請求項１２】前記メモリ手段が、前記基本命令を記憶する第１の記憶手段と、前記代替命令を記憶する第２の記憶手段と、を含む、請求項１１記載のデータ処理システム。
【請求項１３】前記第２のタイプの基本命令が代理命令
であり、前記代理命令が前記基本命令よりも長い超長命
令ワード（ＶＬＩＷ）である、請求項１１記載のデータ
処理システム。
【請求項１４】実行時にオペレーションを実行する第１
のタイプの基本命令、アドレス・ポインタを提供する第
２のタイプの基本命令、及び第１及び第２のアドレス・
ポインタによりそれぞれアクセスされる第１及び第２の
ロケーションに記憶される第１及び第２の代替命令を記
憶するステップと、第１のプロセッサ要素に第１の固有のオフセット値を割
当てるステップと、前記第１の固有のオフセット値を前記第２のタイプの基
本命令と共に処理し、前記第１の代替命令を指す前記第
１のアドレス・ポインタを生成するステップであって、
それに応答して前記第１の代替命令を前記第１のプロセ
ッサ要素に出力する、前記処理ステップと、第２のプロセッサ要素に第２の固有のオフセット値を割
当てるステップと、前記第２の固有のオフセット値を前記第２のタイプの基
本命令と共に処理し、前記第２の代替命令を指す前記第
２のアドレス・ポインタを生成するステップであって、
それに応答して前記第２の代替命令を前記第２のプロセ
ッサ要素に出力する、前記処理ステップと、を含み、単一の同報命令が前記第１及び第２のプロセッ
サ要素内で異なるオペレーションを選択的に制御する、データ処理方法。
【請求項１５】前記第２のタイプの基本命令が代理命令
であり、前記代理命令が前記基本命令よりも長い超長命
令ワード（ＶＬＩＷ）である、請求項１４記載のデータ
処理方法。
【請求項１６】前記基本命令が単位長を有し、前記代替
命令が前記単位長の整数倍の長さを有する、請求項１４
記載のデータ処理方法。
【請求項１７】前記第１及び第２の各プロセッサ要素
が、第１のタイプの実行ユニット及び第２のタイプの実
行ユニットを有し、前記第１及び第２の各代替命令が、前記第１のタイプの
実行ユニットにおける実行のための第１の実行可能部
分、及び前記第２のタイプの実行ユニットにおける実行
のための第２の実行可能部分を有する、請求項１４記載のデータ処理方法。
【請求項１８】前記第１の固有のオフセット値及び前記
第２の固有のオフセット値がプログラマブル値である、
請求項１４記載のデータ処理方法。
【請求項１９】前記第１の代替命令を、基底値と前記第
１の固有のオフセット値との合計に等しい値を有する第
１のポインタ・アドレスに配置するステップと、前記第１の固有のオフセット値が前記オフセット値であ
るステップと、前記第１の基本命令が前記基底値を含むステップと、前記第１のプロセッサ要素が前記第１の固有のオフセッ
ト値と前記第２のタイプの基本命令からの前記基底値と
を加算し、前記第１のポインタ・アドレスを生成するス
テップと、を含む、請求項１４記載のデータ処理方法。
【請求項２０】前記第２の代替命令を、基底値と前記第
２の固有のオフセット値との合計に等しい値を有する第
２のポインタ・アドレスに配置するステップと、前記第２の固有のオフセット値が前記第２のオフセット
値であるステップと、前記第２の基本命令が前記基底値を含むステップと、前
記第２のプロセッサ要素が、前記第２の固有のオフセッ
ト値と前記第２のタイプの基本命令からの前記基底値と
を加算し、前記第２のポインタ・アドレスを生成するス
テップと、を含む、請求項１９記載のデータ処理方法。
【請求項２１】実行時にオペレーションを実行する第１
のタイプの基本命令、アドレス・ポインタを提供する第
２のタイプの基本命令、第１及び第２のアドレス・ポイ
ンタによりそれぞれアクセスされる第１及び第２のロケ
ーションに記憶される第１及び第２の代替命令、セグメ
ント区切り命令、並びに第１及び第２のシンプレックス
命令を記憶するメモリ手段と、前記の各代替命令が、前記第１のシンプレックス命令を
記憶する第１のスロット部分及び前記第２のシンプレッ
クス命令を記憶する第２のスロット部分を有すること
と、前記メモリ手段に接続され、前記命令を実行するための
第１の固有のオフセット値を有する第１のプロセッサ要
素であって、前記第１のタイプの基本命令をオペレーシ
ョンの実行のために処理する命令解読を含む第１のプロ
セッサ要素と、前記第１のプロセッサ要素の命令解読は、前記第１の固
有のオフセット値を前記第２のタイプの基本命令と共に
処理し、前記メモリ手段内の前記第１の代替命令を指す
前記第１のアドレス・ポインタを生成し、それに応答し
て前記メモリ手段が前記第１の代替命令を前記第１のプ
ロセッサ要素に出力することと、前記第１のプロセッサ要素の前記命令解読は、前記第１
の固有のオフセット値を前記セグメント区切り命令と共
に処理し、前記第１のシンプレックス命令を前記第１の
代替命令の前記第１のスロット部分に挿入し、前記第２
のシンプレックス命令を前記第１の代替命令の前記第２
のスロット部分に挿入することと、前記メモリ手段に接続され、前記命令を実行するための
第２の固有のオフセット値を有する第２のプロセッサ要
素であって、前記第１のタイプの基本命令をオペレーシ
ョンの実行のために処理する命令解読を含む第２のプロ
セッサ要素と、前記第２のプロセッサ要素の命令解読は、前記第２の固
有のオフセット値を前記第２のタイプの基本命令と共に
処理し、前記メモリ手段内の前記第２の代替命令を指す
前記第２のアドレス・ポインタを生成し、それに応答し
て前記メモリ手段が前記第２の代替命令を前記第２のプ
ロセッサ要素に出力することと、前記第２のプロセッサ要素の前記命令解読は、前記第２
の固有のオフセット値を前記セグメント区切り命令と共
に処理し、前記第１のシンプレックス命令を前記第２の
代替命令の前記第１のスロット部分に挿入し、前記第２
のシンプレックス命令を前記第２の代替命令の前記第２
のスロット部分に挿入することと、を含み、前記メモリ手段から同報される単一の命令が、
前記第１及び第２のプロセッサ要素内で異なるオペレー
ションを選択的に制御する、データ処理システム。
【請求項２２】前記セグメント区切り命令が、前記第１
のシンプレックス命令に対応する第１の実行フラグと前
記第２のシンプレックス命令に対応する第２の実行フラ
グとを含み、前記プロセッサ要素が、前記第１の実行フラグに応答し
て前記第１のシンプレックス命令を選択的に実行し、当
該命令を前記代替命令の前記第１のスロット部分に挿入
し、前記プロセッサ要素が、前記第２の実行フラグに応答し
て前記第２のシンプレックス命令を選択的に実行し、当
該命令を前記代替命令の前記第２のスロット部分に挿入
する、請求項２１記載のデータ処理システム。
【請求項２３】前記セグメント区切り命令が、前記第１
のシンプレックス命令に対応する第１の実行フラグと前
記第２のシンプレックス命令に対応する第２の実行フラ
グとを含み、前記プロセッサ要素が、前記第１の実行フラグに応答し
て前記代替命令の前記第１のスロット部分の前記第１の
シンプレックス命令を選択的に実行し、前記プロセッサ要素が、前記第２の実行フラグに応答し
て前記代替命令の前記第２のスロット部分の前記第２の
シンプレックス命令を選択的に実行する、請求項２１記載のデータ処理システム。