JP2002536738A

JP2002536738A - 間接ｖｌｉｗプロセッサにおける実行時間並列処理のための動的ｖｌｉｗサブ命令選択システム

Info

Publication number: JP2002536738A
Application number: JP2000596762A
Authority: JP
Inventors: ジェラルド，ジー．ペカネック，; ジュアン，ギレルモレヴィッラ，; エドウィン，エフ．バリー，
Original assignee: ボプスインコーポレイテッド
Priority date: 1998-12-04
Filing date: 1999-12-02
Publication date: 2002-10-29
Also published as: US6467036B1; US20030079109A1; EP1247196A1; WO2000034887A9; WO2000034887A1; US6173389B1; IL143430A0; US6851041B2

Abstract

(57)【要約】パイプラインされた処理装置（１００）であって、超長命令語（ＶＬＩＷＳ）を含むランダム・アクセス・メモリ（５１６）を有する命令シーケンサ（１０１）と、ｎ個の演算を並列に実行することができるｎ個の機能ユニットを備える。各ＶＬＩＷは、ＶＬＩＷメモリ（ＶＩＭ）（５１６）の各アドレスまたはエントリでロードおよび連結され、間接的なＶＬＩＷ（ｉＶＬＩＷ）を形成する複数の短命令語（ＳＩＷ）で構成される。各ＳＩＷは、固有の機能ユニットと関連付けられた固有の命令タイプに対応する。ｉＶＬＩＷはＶＬＩＷ実行（ＸＶ）命令を介して実行される。ＸＶ１命令は、ＸＶ１命令が実行されるたびに変更することのできるマスク・フィールドを使用して、ｉＶＬＩＷの実行中にどの機能ユニットが使用可能あるいは使用不可能であるかを指定する。ＶＩＭ（５１６）は、さらに分離したメモリ（５２０、５２２、５２４、５２６、５２８）に区分することができ、それぞれが機能的デコードおよび実行ユニット（５４０、５４２、５４４、５４６、５４８）と関連付けられる。第２のＸＶ命令ＸＶ２は、独立してＶＩＭ（５１６）の各機能ユニット部分をアドレス指定することができる。

Description

【発明の詳細な説明】

【０００１】関連出願本発明は、１９９７年１２月４日に提出された「ＭｅｔｈｏｄａｎｄＡｐ
ｐａｒａｔｕｓＦｏｒＤｙｎａｍｉｃａｌｌｙＭｏｄｉｆｙｉｎｇＩｎ
ｓｔｒｕｃｔｉｏｎｓｉｎａＶｅｒｙＬｏｎｇＩｎｓｔｒｕｃｔｉｏ
ｎＷｏｒｄＰｒｏｃｅｓｓｏｒ」という名称の、米国仮出願第６０／０６７
，５１１号の利益を請求するものである。

【０００２】発明の分野本発明は、一般には並列処理の改良に関し、より詳細には、非間接ＶＬＩＷプ
ロセッサにおける実行時間並列処理のために超長命令語（ＶＬＩＷ）のサブ命令
を動的に選択するための有利な技術に関する。

【０００３】発明の背景ＶＬＩＷプロセッサにおける典型的な問題は、ハードウェアで使用可能な固定
長のＶＬＩＷの全能力を効果的に使用するのが困難なことである。従来の設計で
はこの設計上の問題により、ＶＬＩＷメモリは、ＶＬＩＷ内に多くのノー・オペ
レーション（ＮＯＰ）命令を含む、非常に穴の多いものとなっていた。いくつか
のマシンでは、ＮＯＰを符号化してＶＬＩＷメモリ空間をより完全に利用するこ
とが試みられている。この試みの一動機は、上記のような初期のプロセッサに含
まれる高コストのＶＬＩＷメモリをより多く利用しようとすることであった。符
号化されたＮＯＰは通常特定の各ＶＬＩＷに割当てられ、異なるプログラム領域
で可能なＶＬＩＷの再使用は行われない。

【０００４】ＶＬＩＷ並列データ・プロセッサが応えるべき要求は他にもある。例えば、ス
ループットを最大にするためデータの流れを安定させるためには、パイプライン
動作が望ましい。ＶＬＩＷごとに４つの短命令語（ＳＩＷ）を有するＶＬＩＷア
ーキテクチャを使用した行列乗算の場合を考えてみたい。図１の例では、４要素
のベクトル２と４×４の行列４とが乗算される。レジスタ・ファイルに記憶され
ているオペランドと、レジスタ・ファイルのソース・データ・オペランド上で動
作して結果データをレジスタ・ファイルに納めるＶＬＩＷ実行ユニットとがプロ
セッサに与えられているとすると、ベクトル要素はデータ・レジスタＲ２０＝ａ ₀ 、Ｒ２１＝ａ₁、Ｒ２２＝ａ₂、Ｒ２３＝ａ₃に記憶され、４×４の行列４はプロ
セッサがアクセス可能なメモリに記憶されることが合理的に憶測される。図２は
、典型的な従来技術によるアプローチでどのように全体の動作が扱われるかを示
している。表１０の各行は、ひとつの固有な短命令語（ＳＩＷ）またはＶＬＩＷ
命令を表しており、プログラムの流れは表の上部から始まり、時間の経過に従っ
てページの下方へと進行する。Ｌｏａｄオペレーションは、リストされたデータ
・エレメントをフェッチするために増分しながらメモリのアドレスを指定し、そ
のデータ・エレメントを指定のレジスタＲ０またはＲ１にロードする、索引付き
のロードである。Ａｄｄ命令およびＭｐｙ命令は、Ｒｔａｒｇｅｔ＝ＲｘＯｐ
ｅｒａｔｉｏｎＲｙなる関数を提供し、ここでＲｔａｒｇｅｔは関数名に最も
近いオペランド・レジスタであり、ソース・オペランドＲｘおよびＲｙは指定さ
れた第２および第３のレジスタである。ひとつの固有なＶＬＩＷメモリ・アドレ
スはそれぞれ第１列の番号で識別される。図２の表１０は、従来技術では、固有
なＶＬＩＷメモリ・アドレスそれぞれに記憶されている最低で７つのＶＬＩＷと
、３つの固有なＳＩＷが所望の結果を達成するのに必要であることを示している
。７つのＶＬＩＷのうち、３つのＶＬＩＷ、すなわちナンバー１、２、７は、Ｖ
ＬＩＷごとに２つのＳＩＷしか使用せず、他の４つのＶＬＩＷはＶＬＩＷごとに
３つのＳＩＷを使用する点は重要である。４つの命令スロットＶＬＩＷが２つの
ＳＩＷしか含まないとき、他の２つのスロットはＮＯＰ命令を含む。４つの命令
スロットＶＬＩＷが３つのＳＩＷを含むとき、もう１つのスロットは単一のＮＯ
Ｐを含む。下記で詳細に説明するが、命令スロットＶＬＩＷが５つの場合は、従
来技術を使用するとＶＬＩＷメモリの使用率がさらに低くなる。ベクトル行列の
例では、５番目のスロットがこの行列乗算の例には使用されないとすると、５ス
ロットのＶＬＩＷは、１７のＮＯＰを含む７×５＝３５個のＶＬＩＷメモリ位置
を使用することになる。従来技術による手法は、結果として多数のＮＯＰ命令が
ある非常に穴の多い（ｐｏｒｏｕｓ）ＶＬＩＷメモリを生じさせる。

【０００５】使用可能なハードウェアをより効率的に使用できるようになるので、同一のタ
スクを達成するためには一意のＶＬＩＷメモリ・アドレスの数を減らすことが望
ましい。またＶＬＩＷメモリ・ストレージ中の重複命令を減らすことも望まれる
。これは、より小さなＶＬＩＷメモリをプロセッサ中に設計し、それによりその
コストを最小限にすることを可能にする重要な考察である。さらに同一のＶＬＩ
Ｗメモリ・アドレスを複数のコード・セクションで、さらには複数のプログラム
によっても共用することができれば、従来技術の手法に比べてＶＬＩＷメモリを
ロードする際の待ち時間コストを最小限にし、複数のプログラムにわたって償却
する（ａｍｏｒｔｉｚｅ）ことができ、それにより全体の性能を向上させること
が可能になる。さらにはこの概念を、複数処理エレメント（ＰＥ）、および単一
命令多重データ・ストリーム（ＳＩＭＤ）マシンのコントローラ・シーケンス・
プロセッサ（ＳＰ）に拡張することが望ましい。

【０００６】本発明の概要本発明は、圧縮されたＶＬＩＷメモリと、ＶＬＩＷの命令構成要素を再使用す
る機能を極めて有利な方法で提供することの必要性に向けられる。本発明の一態
様は、ＳＩＷメモリ（ＳＩＭ）から命令を読み出すためのＳＩＷフェッチ・コン
トローラと、構成されたＶＬＩＷを指定アドレスに記憶するためのＶＬＩＷメモ
リ（ＶＩＭ）と、ＶＩＭから命令を間接的にロードし読み出すためのＶＬＩＷコ
ントローラと、命令のデコード・ユニットおよび実行ユニットを備える。本発明
のＶＬＩＷは、その実行前に、ＶＩＭアドレス中の複数のＳＩＷをロードし連結
することにより構成される。

【０００７】ＳＩＭＤマシンでは、ＳＩＷフェッチ・コントローラは、フェッチされた３２
ビットの命令を配列ＰＥにディスパッチするＳＩＭＤ配列コントローラＳＰ中に
備えられる。ＳＰおよびＰＥには、ＶＩＭ、ＶＩＭコントローラ、命令およびデ
コード実行ユニットが含まれる。この開示中で述べる概念は、ＳＰコントローラ
中に置かれる間接ＶＬＩＷ（ｉＶＬＩＷ）の装置およびメカニズムと、複数ＰＥ
配列ＳＩＭＤマシン内の各ＰＥの双方に適用される。

【０００８】少なくとも１つのＶＬＩＷがＶＩＭにロードされると、それをＶＬＩＷ実行（
ＸＶ）命令によって選択することができる。この発明で説明するＸＶ命令には２
つのタイプがある。第１のタイプであるＸＶ１は、実行時間並列処理のために、
スロットを超えて、同一のＶＩＭアドレスにサブＶＬＩＷＳＩＷ選択を提供す
る。第２タイプのＸＶ２は、実行時間並列処理のために、各スロットＶＩＭセク
ション内の使用可能なＳＩＷから独立して選択可能なＳＩＷにより、サブＶＬＩ
ＷＳＩＷ選択を提供する。最初に、ＸＶ１命令についてこのアプローチの利点
を立証する例により説明する。それに続きＸＶ２命令について、その固有の利点
を立証する例により説明する。

【０００９】ＸＶ１命令により、ＶＩＭベース・アドレス・レジスタから計算されたアドレ
ス情報と、ＸＶ１命令中にある即値のオフセット値に基づいて、記憶されている
ＶＬＩＷが間接的に読み出される。ＸＶ１命令は、実行のためにスケジュールす
べき読み出しＶＬＩＷから命令を選択するマスク・イネーブル・ビットを含んで
いる。好適なＭａｎＡｒｒａｙの実施例では、実行ユニットごとに１ビットずつ
、８ビットのマスク・イネーブル・ビットがあり、単一のＶＬＩＷで８つまでの
ＳＩＷをサポートする。第１の態様については、５つのＳＩＷを使用することが
好ましい。

【００１０】ＶＩＭベース・レジスタＶｂを使用することにより、ＶＩＭの無制限の記憶が
可能になる。第１の実施方法では、Ｖｂベース・アドレスごとに、ＸＶ１命令は
８ビットのオフセットをサポートし、それによりＶｂアドレスごとに２５６個の
ＶＬＩＷを可能にすることが好ましい。好適なＭａｎＡｒｒａｙアーキテクチャ
は、ＶＩＭアドレスごとに８つまでのＳＩＷが記憶でき、本好適な実施形態では
最低限８ビットのマスク・イネーブル・ビットがスロットにつき１ビットずつサ
ポートされるよう指定している。また各ＶＩＭエントリに固有のアドレスがある
ので、各ＶＩＭを独立してロードし、修正し、実行し、あるいは使用不可能にす
ることができる。

【００１１】ＶＩＭエントリごとに８つのＳＩＷスロットが使用できると、ＳＩＷタイプの
一意の組み合わせを２５５個まで各エントリに記憶することができ、例えばＳＩ
Ｗ命令のタイプは、ストア、ロード、算術論理演算ユニット（ＡＬＵ）、乗算累
算ユニット（ＭＡＵ）、データ選択ユニット（ＤＳＵ）の命令タイプを含むこと
ができる。組み合わせはそれぞれ、ＸＶ１の実行に使用できる固有の間接ＶＬＩ
Ｗ（ｉＶＬＩＷ）を表す。さらに、８ビットのマスクを含むＸＶ１を介して以前
にロードされたＶＩＭエントリからＳＩＷの実行を呼び出すときには、そのＶＩ
Ｍエントリだけで、固有のｉＶＬＩＷ演算を２５５個まで呼び出すことができる
。

【００１２】ＸＶ２命令により、ＶＩＭのスロット固有セクション内のＶＬＩＷグループ中
の重複命令を取り除くことができるようになる。この機能により、ＶＩＭ内で命
令を最適にパックし、これによりその効率をさらに最適化し、特定のアプリケー
ションのためにそのサイズを最小限にすることができる。

【００１３】本発明の完全な理解、ならびに発明の他の特徴および利点は、下記の詳細な説
明および添付の図面から明らかになろう。

【００１４】詳細な説明図３に示す本発明の好適な実施形態では、処理エレメント０（ＰＥ０）ＳＰ／
ＰＥ０１０１と組み合わされたコントローラ・シーケンス・プロセッサ（ＳＰ
）を含んだ、ＭａｎＡｒｒａｙ２×２ｉＶＬＩＷ単一命令多重データ・スト
リーム（ＳＩＭＤ）プロセッサ１００（「Methods and Apparatus for Dynamic
Merging an Array Controller with an Array Processing Element」という名称
の同時係属出願第０９／１６９，０７２号により詳細に扱われる）と、３つの追
加ＰＥ１５１、１５３、１５５が利用され、本発明の動的ｉＶＬＩＷ修正技術を
実施する。ＳＰ／ＰＥ０１０１にはフェッチ・コントローラ１０３が含まれ、
３２ビットの命令メモリ１０５からＳＩＷをフェッチすることを可能にする。フ
ェッチ・コントローラ１０３は、プログラム・カウンタ（ＰＣ）、ブランチ機能
、デジタル信号処理ループ操作、割り込みに対するサポートなどプログラム可能
なプロセッサで必要とされる典型的な機能を提供し、また、アプリケーションに
必要である場合には命令キャッシュを含むことのできる、命令メモリ・コントロ
ールも提供する。さらに、ＳＩＷＩ−フェッチ・コントローラ１０３は、３２
ビットの命令バス１０２を介して、３２ビットのＳＩＷをシステム中のその他の
ＰＥにディスパッチする。

【００１５】この例示システムでは、説明を平易にするために最初から最後まで共通のエレ
メントを使用する。他の実施方法がこの限定に制限されるものではないことは理
解されよう。例えば、組み合わされたＳＰ／ＰＥ０１０１中の実行ユニット１
３１は、コントロール機能のために最適化された実行ユニットのセット、例えば
固定小数点実行ユニットに分割することができ、他のＰＥと同様にＰＥ０も、浮
動小数点アプリケーションのために最適化することができる。発明の説明のため
に、実行ユニット１３１は、ＳＰ／ＰＥ０およびＰＥの実行ユニットと同一のタ
イプであると想定する。同様の方式で、ＳＰ／ＰＥ０および他のＰＥはＶＩＭメ
モリ１０９および命令デコードを含む、５つの命令スロットｉＶＬＩＷアーキテ
クチャと、ＳＰ／ＰＥ０のＩ−フェッチ・ユニット１０３からディスパッチされ
る命令を受け取り、ＶＩＭに記憶されブロック１０９に文字ＳＬＡＭＤで示され
る、ｉＶＬＩＷにアクセスするのに必要なアドレス／制御信号を生成するＶＩＭ
コントローラ機能ユニット１０７を使用する。ｉＶＬＩＷのローディングは、１
９９８年の１１月６日に出願された「Methods and Apparatus for Efficient Sy
nchoronous MIMD Operations with iVLIW PE-to-PE Communications」という名
称の同時係属特許出願第０９／１８７，５３９号により詳細に記載されている。
ＳＰ／ＰＥ０およびその他のＰＥには、共通のＰＥ構成可能レジスタ・ファイル
１２７も含まれる。これについては、１９９８年１０月９日に出願された「Meth
od and Apparatus for Dynamic Instruction Controlled Reconfiguration Regi
ster File with Extended Precision」という名称の同時係属特許出願第０９／
１６９，２５５号に、より詳細に記載されている。ＳＰ／ＰＥ０１０１の結合
的性質のため、データ・メモリ・インタフェース・コントローラ１２５は、メモ
リ１２１中のＳＰデータでＳＰコントローラのデータ処理をする必要性と、メモ
リ１２３中のＰＥ０データでＰＥ０のデータ処理をする必要性の両方に対処しな
ければならない。ＳＰ／ＰＥ０コントローラ１２５は、３２ビットのブロードキ
ャスト・データ・バス１２６を通じて送られるデータのソースでもある。その他
のＰＥ１５１、１５３、１５５は共通物理データ・メモリ・ユニット１２３'、
１２３''、１２３'''を含むが、それらに記憶されるデータは一般に、各ＰＥで
行われるローカル処理で必要とされるデータとは異なる。これらのＰＥデータ・
メモリへのインタフェースは、ＰＥ１、２、３中でも共通の設計になっており、
ＰＥローカル・メモリおよびデータ・バス・インタフェース論理１５７、１５７
’、１５７”によって指定される。データ転送通信のためにＰＥを相互接続して
いるのはクラスタ・スイッチ１７１であり、これについては、１９９７年６月３
０日に出願された「Manifold Array Processor」という名称の同時係属特許出願
第０８/８８５,３１０号と、１９９７年１０月１０日に出願された「Methods an
d Apparatus for Manifold Array Processing」という名称の特許出願第０８/９
４９,１２２号と、１９９８年１０月９日に提出された「Methods and Apparatus
for ManArray PE-to-PE Switch Control」という名称の特許出願第０９／１６
９，２５６号中に、より完全に記載される。上記の出願は本発明の譲受人に譲渡
され、本明細書に参照として完全に組み込まれる。ホスト・プロセッサ、他の周
辺装置、および／または外部メモリへのインタフェースは多くの方法で実現する
ことができる。完全を期すため示される主要なメカニズムはＤＭＡコントロール
・ユニット１８１に含まれ、このユニットは、ＭａｎＡｒｒａｙコアの外部にあ
る装置およびインタフェース装置に接続するスケーラブルなＭａｎＡｒｒａｙデ
ータ・バス１８３を提供する。ＤＭＡコントロール・ユニット１８１は、上記の
外部装置がバス１８５を介してＭａｎＡｒｒａｙコア・メモリにインタフェース
するのに必要とされる、データ・フローおよびバス仲裁メカニズムを提供する。

【００１６】図４Ａは基本的なｉＶＬＩＷデータ経路４００の全体を示し、フェッチされた
命令は、ＶＩＭをロードおよび記憶するコントロール機能ユニット４０３に接続
された命令レジスタ４０１に記憶される。ＶＩＭをロードおよび記憶するコント
ロール機能は、ＶＩＭ４０５へのインタフェース信号を提供する。ＶＩＭ４０５
の出力は、ｉＶＬＩＷレジスタ４０７にパイプラインで供給される。

【００１７】図４Ｂに、現在好適であるとされる１つのＸＶ１命令４２５を示す。ＸＶ１命
令４２５は、符号化ブロック４３０に見られるように３２ビットの符号化を行う
ものであり、以下でさらに述べるように、構文／演算ブロック４３５に示す現在
好ましいとされる構文／演算を有する。ＸＶ１命令４２５は、グループ・フィー
ルド・ビット３０および３１によって定義される命令コントロール・グループの
１つであり、ＶＬＩＷ（ＶＩＭ）からＶＬＩＷを選択し、ＳＰ／ＰＥのビット２
９によって選択可能な、指定されたＳＰまたはＰＥの個々の命令スロットを実行
するのに使用される。ＶＩＭアドレスは、ベースＶＩＭアドレス・レジスタＶｂ
（Ｖ０またはＶ１）と、図４Ｂの符号化ブロック４３０のビット・ブロック４３
１のビット０〜７に示される無符号の８ビットのオフセットＶＩＭＯＦＦＳとの
和として計算される。ＶＩＭアドレスはハードウェアを構成するのに有効な範囲
内になければならず、そうでない場合この命令の演算は定義されない。

【００１８】同様に図４Ｃは、ＶＬＩＷ−２機能をロード／修正するための現在好適とされ
るＬＶ２命令４５５を示す。３２ビットの符号化用の符号化ブロック４５０、お
よび構文／演算ブロック４６０が示される。図４Ｄは、３２ビットの符号化ブロ
ック４７０と構文／演算ブロック４８０を有するＸＶ２命令４７５を示す。

【００１９】動的ＳＰおよびＰＥｉＶＬＩＷスロット間圧縮操作ＸＶ１命令は、サブｉＶＬＩＷ命令を修正し、使用可能／使用不可能にし、Ｓ
ＰおよびＰＥでｉＶＬＩＷ命令を間接的に実行するのに使用されると有利である
。ｉＶＬＩＷは、この出願中の他の個所ではＬＶ１とも呼ばれるＬＶ命令を使用
してＶＩＭにロードされるが、これについては前述の同時係属出願第０９／１８
７，５３９号により詳細に記載されている。図５に示すように、各ＶＩＭ５１６
のエントリは５つのＳＩＷスロットからなり（実行ユニットにつき１つずつ）、
各ＳＩＷスロットには追加の状態ビットが関連付けられることが好ましいが、図
には５つだけを示している（スロットごとに１つのｄビット）。５つの実行ユニ
ットに含まれるのは、ＶＩＭ５１６のストア命令スロット５２０と関連付けられ
たストア・ユニット５４０と、ロード命令スロット５２２と関連付けられたロー
ド・ユニット５４２と、ＡＬＵ命令スロット５２４と関連付けられた演算論理ユ
ニット（ＡＬＵ）５４４と、ＭＡＵ命令スロット５２６と関連付けられた乗算累
算ユニット（ＭＡＵ）５４６と、ＤＳＵ命令スロット５２８と関連付けられたデ
ータ選択ユニット（ＤＳＵ）５４８である。

【００２０】５つの状態ｄビット５２１、５２３、５２５、５２７、５２９は、ＳＩＷスロ
ットが実行に使用可能であるかまたは実行に使用不可能であるかのいずれかを指
定する命令スロットのための、ＬＶによってロードされたディセーブル・ビット
である。２進値でこの２つの状態を十分に区別できる。そのｄビットが実行に使
用不可能な状態にセットされた命令スロットは、実行ユニットによりＮＯＰ（ノ
ー・オペレーション）命令として解釈される。さらにその機能スロット位置に適
したｄビットが、そのスロットのビット３１にロードされる。またはｄビットを
グループ化してＶＩＭアドレス・ライン内の異なる位置に記憶しながら、ｄビッ
トおよびそれに関連付けられた実行ユニットと、ｉＶＬＩＷ内の命令スロットと
の関係を維持することもできる。

【００２１】図５は、ｉＶＬＩＷＸＶ１のパイプライン５００を示し、受領されたＸＶ１
命令は命令レジスタ１（ＩＲ１）５１０にロードされる。ＩＲ１の出力は、ＶＬ
ＩＷ命令レジスタ２の値（ＩＲ２）５１４をロードする前に、パイプラインサイ
クルの初期にプリ・デコード５１２される。ＸＶ１命令をＩＲ１５１０で受領
すると、ＩＲ１５１０のビット９をソースとするＶｂ信号５０９によって選択
された指定のＶｂレジスタ５０１あるいは５０２を使用して、ＶＩＭアドレス５
１１が計算され、加算器５０４により経路５０３を介してＸＶ１命令に含まれる
オフセット値に加算される。ビット８およびビット９をともに使用することによ
り、４つまでのＶｂレジスタを指定できることに留意されたい。結果として得ら
れるＶＩＭアドレス５０７は、マルチプレクサ５０８を通じて渡され、ＶＩＭ５
１６のアドレスを指定する。指定アドレスにあるｉＶＬＩＷはＶＩＭ５１６から
読み出され、マルチプレクサ５３０、５３２、５３４、５３６、５３８を通って
、ＩＲ２レジスタ５１４に渡される。ＶＩＭ５１６読み出しのアクセス・タイミ
ングのクリティカル・パスを最小限にするための代替策として、ＶＩＭ５１６の
出力を、デコード状態論理の前に出力がマルチプレクサを通じて渡されるレジス
タにラッチすることができる。ＩＲ１５１０に記憶されるＸＶ１命令のビット
１０〜１７であるイネーブル・マスク・ビットは、経路５３７を介してビット・
ストア・ラッチに分配される。すなわちＳのビット１４はＳラッチ５５０に、Ｌ
のビット１３はＬラッチ５５２に、Ａのビット１２はＡラッチ５５４に、Ｍのビ
ット１１はＭラッチ５５６に、Ｄのビット１０はＤラッチ５５８に分配される。

【００２２】これらのイネーブル・マスク・ビットは、ＸＶ実行サイクルの各命令スロット
についてのｄビットの実行使用可能な設定を無効にする。より詳細には、ＶＬＩ
Ｗ−１ロード（ＬＶ１）命令は、ｄビットの設定を各ＶＩＭスロットにロードさ
せる。実行ユニット・スロットごとのｄビットは、そのスロット位置の使用可能
あるいは使用不可能なステータスを表す。このビットの非活動状態、例えば「０
」は使用不可能な状態を表し、このビットの活動状態、例えば「１」は使用可能
な状態を表す。スロット内のｄビットが使用可能である場合、そのビットはその
スロットに適したＸＶ１マスク・イネーブル・ビットによって無効にされる。ス
ロット内のｄビットが使用不可能である場合、そのビットを、そのスロットに適
したＸＶ１マスク・イネーブル・ビットで無効にすることはできない。すなわち
、ＬＶ１命令によって使用不可能になったスロットを、ＸＶ１命令により再度使
用可能にすることはできない。逆にＬＶ１命令で使用可能になったスロットは、
ＸＶ１命令で使用不可能にするかあるいは使用可能な状態に維持することができ
る。これを達成する単純論理は、各機能ユニットに位置する。この機能は、本明
細書に述べる機能性のために必要であり、また１９９８年１１月６日に提出され
た同時係属特許出願第０９／１８７，５３９号により詳細に記載される、同期Ｍ
ＩＭＤ操作を効率的にサポートするためにも必要である。あるいはタイミング経
路により、オーバーライド論理をＩＲ２の刻時の前にＶＩＭの出力に位置させる
ことが可能になれば、ラッチ５５０〜５５８は回避することができる。いずれの
場合も、機能ユニットのデコードおよび実行論理５４０〜５４８は、ＶＩＭから
受け取ったすべての命令を実行するか、またはｄビットおよびマスク・イネーブ
ル・ビットの設定に基づいてＮＯＰを実行する。ＸＶ１を実行するには、ＩＲ２
ＭＵＸ１制御信号５１９が、プリ・デコードＸＶｃ１制御信号５１７とともに、
すべてのＩＲ２マルチプレクサ５３０、５３２、５３４、５３６、５３８に、Ｖ
ＩＭ出力経路５４１、５４３、５４５、５４７、５４９を選択させる。マスク・
イネーブル・ビットはそのラッチ入力にある。プリ・デコード・サイクルの終わ
りに、ＶＬＩＷＩＲ２５１４およびマスク・イネーブル・ビット・ラッチは
クロックされ、その出力が機能ユニットの入力にあるようになる。この時点で、
パイプラインの５つの個々のデコードおよび実行段階５４０、５４２、５４４、
５４６、５４８は完了し、命令またはＮＯＰを実行して、同時にｉＶＬＩＷの並
列実行を遂行する。ＸＶでない単一の３２ビット機能命令がＰＥまたはＳＰでそ
れ自体で実行できるようにするために、バイパスＶＩＭ経路５３５が示される。
例えば、単一のＡＤＤ命令が並列配列実行のためにＩＲ１５１０で受領される
と、プリ・デコード機能ユニット５１２はＩＲ２ＭＵＸ１５１９制御信号を生
成する。この信号はＡＤＤ命令プリ・デコード信号とともに、ＡＬＵマルチプレ
クサ５３４にバイパス経路５３５を選択させる。この場合は実行中にＸＶ命令が
ないので、イネーブル・マスク・ビットは機能ユニット論理に無視される。

【００２３】個々の命令スロットの任意の組み合わせは、実行スロット・パラメータ「Ｅ＝
｛ＳＬＡＭＤ｝」を介して実行してもよく、この場合Ｓ＝ストア・ユニット（Ｓ
Ｕ）、Ｌ＝ロード・ユニット（ＬＵ）、Ａ＝演算論理ユニット（ＡＬＵ）、Ｍ＝
乗算累算ユニット（ＭＡＵ）、Ｄ＝データ選択ユニット（ＤＳＵ）である。ブラ
ンクの「Ｅ＝」パラメータはどのスロットも実行しない。Ｖｘビット２４は、こ
のＸＶ１がＬＶＵＡＦの設定を無効にするかどうかを指定する。Ｖｘ＝０は、
ＬＶＵＡＦの設定を無効にするなということを意味し、Ｖｘ＝１は、このＸＶ
１のＵＡＦフィールドのビット２２および２３で指定される設定で、ＬＶＵＡ
Ｆ設定を無効にせよということを意味する。ＵｎｉｔＡｆｆｅｃｔｉｎｇＦ
ｌａｇｓ（ＵＡＦ）パラメータ「Ｆ＝〔ＡＭＤＮ〕」はＬＶ命令を介してロード
されると、ＶＬＩＷのために指定されたＵＡＦを無効にする。オーバーライドは
、どの演算命令スロットにＶＬＩＷのこの実行についての条件フラグをセットさ
せるか（Ａ＝ＡＬＵ、Ｍ＝ＭＡＵ、Ｄ＝ＤＳＵ）、あるいはどの演算命令スロッ
トにもセットさせないか（Ｎ＝ＮＯＮＥ）を選択する。オーバーライドは、ＬＶ
命令を介して指定されたＵＡＦ設定に影響を与えない。ブランク「Ｆ＝」は、Ｖ
ＬＩＷがロードされると、指定されたＵＡＦを選択する。

【００２４】条件フラグは個々の単一命令により、元のＬＶ命令からの「Ｆ＝」パラメータ
の設定によって指定されたスロット中にセットされるか、またはＸＶ１命令中の
「Ｆ＝〔ＡＭＤ〕」パラメータによって無効にされる。条件フラッグは「Ｆ＝Ｎ
」であるときには影響を受けない。

【００２５】実行される各スロット中の個々の単一命令に基づいてパイプラインが考慮され
ねばならないが、ＸＶ１演算は完了に１実行サイクルを要する。

【００２６】本発明の動作の全体は、従来技術の説明において例を示した課題へのその応用
例を検討することにより一層理解できよう。図６の表６００で、各行はｉＶＬＩ
Ｗを表している。固有のＶＩＭアドレス６１０はそれぞれ第１列の番号で識別さ
れる。四角で囲った表項目は、実行中にＸＶ１命令によってマスクされる（すな
わち使用不可能にされる）ＳＩＷを表す。図６の表６００で、影をつけたＶＩＭ
アドレス−０のｉＶＬＩＷ６１２、６１４、６１６、６１８は、ＶＩＭアドレス
−０に記憶されているＳＩＷがそのたびごとに異なるマスクでＸＶ１命令によっ
て呼び出される、４つの場合を目立たせるように示している。命令が最初に呼び
出されるとき、実行を許されるのはロード・ユニットだけであり、乗算累算ユニ
ットおよびストア・ユニットはＸＶ１命令によってマスクされる。２度目にＶＩ
Ｍアドレス−０のｉＶＬＩＷ命令が呼び出されるときには、ロード・ユニットお
よび乗算累算ユニットが実行を許され、ストア・ユニットはＸＶ１命令によって
マスクされる。３度目には、３つのユニットすべてを実行することができる。最
終的に、アドレス−０のｉＶＬＩＷに記憶されている命令が４度目に呼び出され
るときには、ストア・ユニットだけが実行を許され、ロード・ユニットおよび乗
算累算ユニットはマスクされる。図３の２×２ＭａｎＡｒｒａｙ１００では、
４つの独立したベクトル×行列の演算が、各ＰＥのローカル・データ・メモリに
記憶された独立ローカルＰＥデータ上で並列にかつ同期して行われ、その一方で
各ＰＥに３２ビットのＸＶ１命令をディスパッチして、制御を単一のスレッドに
維持する。この例で識別されるｉＶＬＩＷは各ＰＥで識別されるｉＶＬＩＷと同
一であり、各ＰＥのローカル・レジスタ・ファイルおよびローカル・データ・メ
モリからアクセスされるオペランドを有する。

【００２７】図７は、ＶＩＭアドレス０〜３７１０に記憶された図６の例の４つのｉＶＬ
ＩＷと、サイクルごとにデコードおよび実行ユニットにディスパッチされる命令
シーケンス７２０を示している。ディスパッチされた命令シーケンス７２０は、
実行時間に並列で実行されるｉＶＬＩＷの再使用とサイクルごとの再定義を示し
ている。この再定義とは、ｉＶＬＩＷ中の固有のＶＩＭアドレスに記憶されてい
るＳＩＷを選択することである。例えば図のｉＶＬＩＷ−０は、ｉＶＬＩＷ−０
のＳＩＷの異なるグループ化により、命令実行サイクル１、３、７で使用されて
いる。サイクル１では、ロード・ユニット命令だけが使用される。サイクル３で
はロード・ユニットおよびＭＡＵユニットが使用され、サイクル７ではストア・
ユニット、ロード・ユニット、ＭＡＵが使用される。図７は、本発明が、いくつ
かのＶＬＩＷ演算を単一のＶＬＩＷメモリ・エントリに効果的に「パック」する
ことにより、プログラムが必要とする固有のＶＬＩＷメモリ・エントリ数の大幅
な節減を達成する仕組みを示している。したがって本発明によると、複数のｉＶ
ＬＩＷを同一のＶＩＭアドレスに記憶することにより、複数のプログラムが単一
のＶＬＩＷメモリ・エントリを共用することができる。この例は、ソフトウェア
・パイプラインの構築および解体を行うための本発明の使用例も示している。さ
らに並列プロセッサ中のｉＶＬＩＷメモリのサイズは、構築するのに極端に高い
コストがかからないように維持することができる。図７Ａは、ＸＶ１命令を使用
して、図３の２ｘ２ＭａｎＡｒｒａｙ１００で図１のベクトルと行列の乗算を
行うための例示的プログラム・コード７３０を示している。

【００２８】動的ＳＰおよびＰＥｉＶＬＩＷスロット内圧縮操作スロット内圧縮メカニズムの場合、ＶＩＭは、それぞれが機能的なデコードお
よび実行ユニットと関連付けられた別個のＶＩＭセクションに分割される。ＶＩ
Ｍの各アドレス・マップは、アドレス指定可能な複数の４ビットのセクションに
分割され、各ＶＩＭスロット・セクションに対して指定することのできる分離し
たオフセットを有する、実行ｉＶＬＩＷ命令の第２バージョンすなわちＸＶ２に
含まれるオフセット・フィールドによって制御（ｇｏｖｅｒｎ）される。このＶ
ＩＭの構成とＸＶ２のアドレス指定オプションにより、各ＶＩＭスロットの４ビ
ットのアドレス範囲内で命令を独立して選択することが可能になる。この機能が
提供されることにより、アドレス指定可能な１６個のｉＶＬＩＷの範囲内で重複
ＳＩＷを取り除くことができ、複合ＶＩＭ内でＳＩＷをより多くパックすること
ができるようになる。無論、区分されたＶＩＭ内での独立したＳＩＷの選択を可
能にする発明技術を利用することにより、アドレス指定オプションに対して多く
の変形例を構想することができるが、下記に１つの変形例を説明し、本発明によ
るスロット内圧縮の多様な態様を明らかにする。

【００２９】ＸＶ２命令は、それがサブｉＶＬＩＷ命令を修正し、使用可能／使用不可能に
し、ＳＰおよびＰＥでｉＶＬＩＷ命令を間接的に実行するために使用されるとい
う点でＸＶ１命令に類似する。ただしＸＶ１命令とは異なる方法で上記の動作を
行う。ＸＶ２命令の場合は、ＶＬＩＷロード命令の新バージョン、すなわち図４
ＣのＬＶ２４５５を使用して、ｉＶＬＩＷがこの新しい区分ＶＩＭにロードさ
れていることがなお想定される。ＬＶ２の符号化ブロック４５０は、ＬＶ２命令
の演算コードを表すビット２５〜２８のＣｔｒｌＯｐフィールドと、少なくとも
１つの命令をロードすべきかまたは指定アドレスについてのディセーブルｄビッ
トだけをロードすべきかを指定する、ロード命令ビット２３とからなる。ビット
２２はロードされたディセーブルｄビットである。ビット１８〜２１は、ビット
１５〜１７の指定された機能ユニットのＶＩＭに１６個までの命令をロードする
ことを指定し、ビット９のＶｂレジスタ・アドレスとビット０〜７のＶＩＭＰＯ
ＦＦＳオフセット・アドレスによって指定されたアドレスで始まる。構文／演算
についての詳細はブロック４６０に示す。ＸＶ２命令４７５が図４Ｄに示される
。符号化フォーマットは、下記の新しいビット・フィールドを備える符号化ブロ
ック４７０に示される。ＸＶ２ではＵＡＦフィールド・ビット２３および２４は
任意選択ではなく、ＸＶ２を使用するたびに指定しなければならない。ＶＩＭベ
ース・レジスタ選択Ｖｂはビット２０であり、５つのオフセット・フィールドは
、ストアＶＩＭオフセット（ＳＯＦＳ）ビット１６〜１９と、ロードＶＩＭオフ
セット（ＬＯＦＳ）ビット１２〜１５と、ＡＬＵＶＩＭオフセット（ＡＯＦＳ
）ビット８〜１１と、ＭＡＵＶＩＭオフセット（ＭＯＦＳ）ビット４〜７と、
ＤＳＵＶＩＭオフセット（ＤＯＦＳ）ビット０〜３である。構文／演算はブロ
ック４８０に示す。

【００３０】ｉＶＬＩＷＸＶ２のパイプライン８００の態様を示す図８を参照すると、Ｖ
ＩＭ８１６は、それぞれがその機能的デコードおよび実行ユニットと関連付けら
れた複数の独立メモリ・ユニットからなっている。独立アドレス指定論理は、ス
ロットＶＩＭごとに提供される。図８に示すように、各ＶＩＭエントリは５つの
ＳＩＷスロット（実行ユニットごとに１つ）からなり、各ＳＩＷスロットには、
図にそのうちの５つを示す追加の状態ビットが関連付けられることが好ましい（
スロットごとに１つのｄビット）。５つの実行ユニットに含まれるのは、ストア
命令ＶＩＭ８２０と関連付けられたストア・ユニット８４０と、ロード命令ＶＩ
Ｍ８２２と関連付けられたロード・ユニット８４２と、ＡＬＵ命令ＶＩＭ８２４
と関連付けられた演算論理ユニット（ＡＬＵ）８４４と、ＭＡＵ命令ＶＩＭ８２
６と関連付けられた乗算累算ユニット（ＭＡＵ）８４６と、ＤＳＵ命令ＶＩＭ８
２８と関連付けられたデータ選択ユニット（ＤＳＵ）８４８である。

【００３１】ＡＬＵＶＩＭアドレス加算器８０４によって例示される、図８のＶＩＭアド
レス加算器機能ブロックは、構文／演算ブロック４６０に示す図４ＣのＶＬＩＷ
−２ロード命令（ＬＶ２）が必要とするＶＩＭアドレス増分機能をサポートする
ために、図５の加算器機能ブロック５０４とは異なる。この機能により、ＬＶ２
命令に続く命令をロードさせることが可能になる。・（Ｖ［０１］＋ＶＩＭＯＦＦＳ）［ＵｎｉｔＶＩＭ］←ＬＶ２に続く第１番目
の命令・（Ｖ［０１］＋ＶＩＭＯＦＦＳ＋１）［ＵｎｉｔＶＩＭ］←ＬＶ２に続く第２
番目の命令：・（Ｖ［０１］＋ＶＩＭＯＦＦＳ）＋ＩｎｓｔｒＣｎｔ）［ＵｎｉｔＶＩＭ］←
ＬＶ２に続く（ＩｎｓｔｒＣｎｔ）番目の命令命令カウントＩｎｓｔｒＣｎｔは、コード化された０からＦの２進数であり、
これらは、１６個までの連続したＵｎｉｔＶＩＭ位置にロードできる１〜１６個
の命令を表す。

【００３２】５つの状態ｄビット８２１、８２３、８２５、８２７、８２９は、ＳＩＷスロ
ットが実行に使用可能であるか、あるいは実行に可能でないかのいずれかを指定
する命令スロットのために、ＬＶでロードされたディセーブル・ビットである。
２進値はこの２つの状態を区別するのに十分である。そのｄビットが実行に使用
不可能な状態にセットされた命令スロットは、実行ユニットによりＮＯＰ（ノー
・オペレーション）として解釈される。さらに、その機能スロット位置に適した
ｄビットがそのスロットのビット３１にロードされる。

【００３３】ｉＶＬＩＷＸＶ２のパイプライン８００の動作は以下の通りである。受領さ
れたＸＶ２命令は、命令レジスタ１（ＩＲ１）８１０にロードされる。ＩＲ１の
出力は、ＩＲ２８１４内のＶＬＩＷ命令レジスタ２の値をロードする前に、パ
イプライン・サイクルの早い段階にプリ・デコード機能ユニット８１２によって
プリ・デコードされる。ＩＲ１８１０でＸＶ２命令を受け取ると、複数のＶＩ
Ｍアドレスが並列に計算される。各ＶＩＭスロット・セクションが、ＸＶ２命令
によってセットされたそれ自体のオフセット値を有するので、計算はＶＩＭスロ
ット・セクションごとに異なる。ＶＩＭスロットの各計算は、Ｖｂ＋０ｅｘｔｅ
ｎｄ｛ｕｎｉｔＯＦＳ［４］｝の形をとり、Ｖｂは２つのＶＩＭアドレス・レジ
スタのうち１つを表し、０ｅｘｔｅｎｄは、４ビット（ｕｎｉｔＯＦＳ［４］）
の値をＶｂの範囲に位置合わせする。例えば、ＡＬＵＶＩＭのアドレス８１１
は、Ｖｂ＋０ｅｘｔｅｎｄ｛ＡＯＦＳ［４］｝によって計算され、このＶｂの値
は、ＩＲ１のビット２０であるＶｂフィールドによって選択されたＶ０またはＶ
１のいずれかをソースとする。加算は加算器８０４によって行われる。ＡＯＦＳ
［４］＝ＩＲ１のビット８〜１１は加算器８０４に接続され、加算器８０４の出
力８０７はマルチプレクサ８０８を通じて渡されて、ＡＬＵＶＩＭスロット・
アドレス８１１を生成する。ゼロ拡張論理は説明を平易にするために示していな
い。エントリをＸＶ２でマスクする機能は、ＸＶ１の演算の説明に関連して述べ
たイネーブル・マスク・ビットを使用せずに行うことができる。プログラマがエ
ントリをマスクする機能を望む場合は、そのために事前に計画を立てなければな
らず、オフセット・フィールドによって提供される１６アドレスのグループの中
で、ＳＩＷのうち少なくとも１つはディセーブルｄビットを使用して使用不可能
としてマークされる。マスク・オフされた特定のスロットで実行すべき特定のｉ
ＶＬＩＷについては、そのユニットのＶＩＭのｕｎｉｔＯＦＳオフセットが使用
され、以前に記憶された使用不可能なＳＩＷを選択する。スロットを使用不可能
にする必要がない場合は、１６のアドレスは、「使用可能」なＳＩＷが完全に使
用することができる。使用不可能にしたいスロットが１つだけである場合、その
スロットのＶＩＭだけが、使用不可能な命令を含む必要がある。ＶＩＭアドレス
が選択されると、適切なＳＩＷが読み出されそのデコードおよび実行ユニットに
送られる。ＸＶ２操作ではイネーブル・マスク・ビットが必要でないので、デコ
ードおよび実行ユニットへの入力に必要とされる追加状態ビットのラッチはない
。ＸＶ１とＸＶ２の演算のもう１つの違いは、ＸＶ２の場合はＵＡＦフィールド
が常に選択される点である。実行される各スロット内の個々の単一命令に基づい
てパイプラインを考慮しなければならないが、ＸＶ２の演算は完了に１実行サイ
クルを要する。

【００３４】本発明は、従来技術の説明中において例を示した課題へのＸＶ２の応用を考察
することにより、その理解を深めることができよう。図９は、ＸＶ２のアプロー
チを使用する場合に必要なｉＶＬＩＷを示している。デコードおよび実行ユニッ
トはそれぞれ、ｉＶＬＩＷの使用のためにそれぞれ異なる記憶要件でそれ自体の
ＶＩＭに関連付けられる。これは図８にも示され、機能ユニットＶＩＭごとに異
なるアドレス範囲が示される；（０−（Ａ−１））ストアＶＩＭ８２０と、（０
−（Ｂ−１））ロードＶＩＭ８２２と、（０−（Ｃ−１））ＡＬＵＶＩＭ８２
４と、（０−（Ｄ−１））ＭＡＵＶＩＭ８２６と、（０−（Ｅ−１））ＤＳＵ
ＶＩＭ８２８である。図９で、複合ＶＩＭ９１０は５つのデコードおよび実行
ユニットのＶＩＭを示している。この複合ＶＩＭ９１０の記憶要件は以下の通り
である。ＳｔｏｒｅＶＩＭは２つだけの位置を必要とし、ＬｏａｄＶＩＭは
３つの位置を使用し、ＡＬＵＶＩＭは４つの位置を使用し、ＭＡＵＶＩＭは
５つの位置を使用し、ＤＳＵＶＩＭは１つだけの位置を必要とする。各ＶＩＭ
で１セットだけの使用不可能位置が使用され、これは従来のように各ユニットの
ＶＩＭのＶＩＭアドレス０にある。ディスパッチされた命令シーケンス９２０は
、実行時間に並列に実行されるｉＶＬＩＷの再使用およびサイクルごとの再定義
を表す。この再定義は、ユニットＶＩＭに記憶されたＳＩＷを選択することであ
るが、同一のＶＩＭアドレスにあるすべてがＸＶ１で行われるわけではない。例
えばシーケンス９２０の命令実行サイクル４で、ＳｔｏｒｅＳＩＷは、Ｓｔｏ
ｒｅＶＩＭのアドレス０からアクセスされる使用不可能化されたｄビット命令
であり、ＬｏａｄＳＩＷは、ＬｏａｄＶＩＭのアドレス２からアクセスされ
るＲ１ロード、データ命令であり、ＡＬＵＳＩＷは、ＡＬＵＶＩＭのアドレ
ス３からアクセスされるＲ９、Ｒ５、Ｒ６加算命令であり、ＭＡＵＳＩＷは、
ＭＡＵＶＩＭのアドレス３からアクセスされるＲ５、Ｒ０、Ｒ２２乗算命令で
あり、ＤＳＵＳＩＷは、ＤＳＵＶＩＭのアドレス０からアクセスされる使用
不可能化されたｄビット命令である。図１０は、ＸＶ２命令を使用して、図３の
２×２ＭａｎＡｒｒａｙ６００で図１のベクトルと行列の乗算を行うための、
プログラム・コード１０００を示す。具体的には図３の２×２ＭａｎＡｒｒａ
ｙでは、各ＰＥのローカル・データ・メモリに記憶された独立のローカルＰＥデ
ータ上で、４つの独立ベクトル×行列の演算が並に、かつ同期して行われ、一方
で３２ビットのＸＶ２命令を各ＰＥにディスパッチして、制御を単一スレッドに
維持する。この例示的説明で識別されるｉＶＬＩＷは、オペランドが各ＰＥのロ
ーカル・レジスタ・ファイルおよびローカル・データ・メモリからアクセスされ
る各ＰＥ中のｉＶＬＩＷと同一である。

【００３５】ＸＶ２のアプローチとＸＶ１のアプローチを比較すると、図９に示すＸＶ２ア
プローチの複合ＶＩＭ９１０では１５個だけの位置が使用され、図７に示すＸＶ
１アプローチのＶＩＭ７１０では２０個の位置が使用されることが分かる。どち
らのアプローチも、そのＶＬＩＷメモリ・ストレージの利用に関して従来技術を
大幅に凌ぐ。通常、従来技術のシステムによる５スロットのＶＬＩＷでは３５個
の位置が必要とされた。コストに配慮する応用例では、ＸＶ２アプローチが、各
機能ユニットのＶＩＭをその応用例のためにコストを最適化することを可能にす
ることにも留意されたい。

【００３６】本発明は、この発明を実行するのに現在好ましいとされる方法および装置との
関連で説明したが、当分野の技術者には多様な応用的態様および変形例が容易に
明らかになろう。

【図面の簡単な説明】

【図１】行列によるベクトルの乗算を示す図である。

【図２】従来技術による図１の乗算演算の手法を示す図である。

【図３】本発明と併せて使用するための配列トポロジで接続された複数の処理エレメン
トへの接続を示す、ＭａｎＡｒｒａｙ２ｘ２ｉＶＬＩＷプロセッサの図であ
る。

【図４Ａ】本発明の現在好ましいとされる実施形態による、ＶＩＭとのｉＶＬＩＷデータ
経路の図である。

【図４Ｂ】現在好ましいとされるＸＶ１（ＶＬＩＷ実行）命令、およびその構文／演算の
詳細図である。

【図４Ｃ】現在好ましいとされるＬＶ２（ＶＬＩＷ−２のロード／修正）命令、およびそ
の構文／演算の詳細図である。

【図４Ｄ】現在好ましいとされるＸＶ２（ＶＬＩＷ実行）命令、およびその構文／演算の
詳細図である。

【図５】本発明により、例示的ＸＶ１命令フォーマットとともに利用されるスロット間
圧縮を使用したｉＶＬＩＷＸＶ１パイプラインの態様を示す図である。

【図６】図１の乗算演算に応用された本発明のアプローチを示す図である。

【図７】実行時間並列処理のための、命令スロットを超えたサイクルごとの動的なｉＶ
ＬＩＷ命令の選択を示す図である。

【図７Ａ】ＸＶ１命令を使用して図１の乗算演算を行うためのプログラム・コードを示す
図である。

【図８】本発明による、例示的ＸＶ２命令フォーマットを利用したスロット内圧縮によ
るｉＶＬＩＷＸＶ２パイプラインの態様を示す図である。

【図９】実行時間並列処理のための、スロット内圧縮によるサイクルごとの動的なｉＶ
ＬＩＷ命令の選択を示す図である。

【図１０】ＸＶ２命令を使用して図１の乗算演算を行うためのプログラム・コードを示す
図である。

───────────────────────────────────────────────────── フロントページの続き (72)発明者レヴィッラ，ジュアン，ギレルモアメリカ合衆国ノースカロライナ州 27513，キャリー，ワゴントレイルドライブ 211 (72)発明者バリー，エドウィン，エフ．アメリカ合衆国ノースカロライナ州 27511，キャリー，ラークホールコート 1208 Ｆターム(参考） 5B013 DD00 DD01 5B033 AA13 CA00 DB02 【要約の続き】６）の各機能ユニット部分をアドレス指定することができる。

Claims

【特許請求の範囲】

【請求項１】間接超長命令語（ＶＬＩＷ）プロセッサであって、複数の別個の演算を並列に実行することができる複数の実行ユニットと、ＶＬＩＷを記憶するためのＶＬＩＷメモリ（ＶＩＭ）と、ＶＩＭ中の各メモリ・エントリへのアクセスを提供するアドレス指定メカニズ
ムであって、前記メモリ・エントリがそれぞれ固有の実行ユニットと関連付けら
れた少なくとも１つの命令スロットを含むアドレス指定メカニズムを備えるプロ
セッサ。
【請求項２】各命令スロットと関連付けられた少なくとも１つの状態ビッ
トをさらに含み、前記状態ビットは、命令が実行に使用可能であるかまたは実行
に使用不可能であるかを示す請求項１に記載の間接ＶＬＩＷプロセッサ。
【請求項３】ＶＩＭに記憶されたＶＬＩＷを実行する命令であって、ＶＩ
Ｍアドレスを指定するためのフィールドと、少なくとも１つのマスク・イネーブ
ル・ビットを含む命令をさらに備える請求項１に記載の間接ＶＬＩＷプロセッサ
。
【請求項４】前記複数の実行ユニットは、ストア・ユニット、ロード・ユ
ニット、演算論理ユニット、乗算累算ユニット、データ選択ユニットを備える請
求項１に記載の間接ＶＬＩＷプロセッサ。
【請求項５】前記メモリ・ユニットはそれぞれ、ストア命令スロット、ロ
ード命令スロット、演算論理命令スロット、乗算累算命令スロット、データ選択
ユニット・スロットを含む請求項１に記載の間接ＶＬＩＷプロセッサ。
【請求項６】前記アドレス指定メカニズムは、ベースＶＩＭアドレスを記
憶するためのベースＶＩＭアドレス・レジスタと、ベースＶＩＭアドレスを加算
するための加算器と、ＶＩＭアドレスを生成するためのオフセット（ＶＩＭＯＦ
Ｆ）を備える請求項１に記載の間接ＶＬＩＷプロセッサ。
【請求項７】前記命令は、命令スロットごとに少なくとも１つのマスク・
イネーブル・ビットを含み、各マスク・イネーブル・ビットを記憶するための少
なくとも１つのストレージ・ラッチをさらに備える請求項３に記載の間接ＶＬＩ
Ｗプロセッサ。
【請求項８】各命令スロットと関連付けられた少なくとも１つの状態ビッ
トであって、命令が実行に使用可能であるかまたは使用不可能であるかを示す前
記状態ビットと、少なくとも１つのストレージ・ラッチについて記憶されたマス
ク・イネーブル・ビットとそれに関連付けられた命令スロットの前記状態ビット
から、命令が実行されるかされないかを判定する実行ユニット・デコーダとをさ
らに備える請求項７に記載の間接ＶＬＩＷプロセッサ。
【請求項９】複数の別個の演算を並列に実行することができる複数の実行
ユニットと、ＶＬＩＷを記憶するためのＶＬＩＷメモリ（ＶＩＭ）であって、前記複数の実
行ユニットのうち１つとそれぞれが関連付けられた別個のＶＩＭセクションに分
割され、前記ＶＩＭセクションが各メモリ・エントリ・スロット中に命令を記憶
するＶＬＩＷメモリと、関連付けられたそのＶＩＭセクション内の各メモリ・エントリへの独立したア
クセスを提供する、前記各ＶＩＭセクションのためのアドレス指定メカニズムと
を備える間接超長命令語（ＶＬＩＷ）プロセッサ。
【請求項１０】各ＶＩＭセクションと関連付けられた少なくとも１つの状
態ビットをさらに含み、前記状態ビットは、命令が実行に使用可能であるかまた
は使用不可能であるかを示す請求項１に記載の間接ＶＬＩＷプロセッサ。
【請求項１１】ＶＩＭに記憶されたＶＬＩＷを実行するための命令をさら
に備え、前記命令は、実行ユニットＶＩＭごとに１つのオフセット・フィールド
でＶＩＭアドレスを指定するための複数のオフセット・フィールドを含む請求項
１に記載の間接ＶＬＩＷプロセッサ。
【請求項１２】複数の実行ユニットは、ストア・ユニット、ロード・ユニ
ット、演算論理ユニット、乗算累算ユニット、データ選択ユニットを備える請求
項１１に記載の間接ＶＬＩＷプロセッサ。
【請求項１３】前記アドレス指定メカニズムは、ベースＶＩＭアドレスを
記憶するためのベースＶＩＭアドレス・レジスタと、ベースＶＩＭアドレスを加
算するための加算器と、ＶＩＭアドレスを生成するためのオフセットを備える請
求項９に記載の間接ＶＬＩＷプロセッサ。
【請求項１４】前記アドレス指定メカニズムは、ベースＶＩＭアドレスを
記憶するためのベースＶＩＭアドレス・レジスタと、ベースＶＩＭアドレスを加
算するための加算器と、アドレスを生成するためのオフセットと、命令をＶＩＭ
の複数のＶＩＭアドレス中にロードするための増分メカニズムを備える請求項９
に記載の間接ＶＬＩＷプロセッサ。
【請求項１５】シーケンス・プロセッサ（ＳＰ）および複数の処理エレメ
ント（ＰＥ）を備えた単一命令多重データ・ストリーム（ＳＩＭＤ）プロセッサ
であって、ＳＰおよび各ＰＥは、複数の別個の演算を並列に実行することができる複数の実行ユニットと、ＶＬＩＷを記憶するための超長命令語（ＶＬＩＷ）メモリ（ＶＩＭ）と、ＶＩＭ中の各メモリ・エントリへのアクセスを提供する、前記ＶＩＭのための
アドレス指定メカニズムであって、前記メモリ・エントリがそれぞれ、固有の実
行ユニットと関連付けられた少なくとも１つの命令スロットと、各命令スロット
と関連付けられた少なくとも１つの状態ビットとを含み、前記状態ビットが命令
スロットのためのロード標識ビットとして作用するアドレス指定メカニズムとを
備えるＳＩＭＤプロセッサ。
【請求項１６】ＶＩＭに記憶されているＶＬＩＷを実行するための命令で
あって、ＶＩＭアドレスを指定するためのフィールドと、ＶＬＩＷ命令実行時間
に実行ユニットを使用可能にするかあるいは使用不可能にする制御を行うための
少なくとも１つのマスク・ビットを含む命令をさらに備える請求項１５に記載の
ＳＩＭＤプロセッサ。
【請求項１７】複数のＶＬＩＷ演算が単一のＶＬＩＷメモリ・エントリに
パックされ、ＰＥで同時に実行されている複数のプログラムが単一のＶＬＩＷメ
モリ・エントリを共用することができる請求項１５に記載のＳＩＭＤプロセッサ
。
【請求項１８】シーケンス・プロセッサ（ＳＰ）および複数の処理エレメ
ント（ＰＥ）を備えた単一命令多重データ・ストリーム（ＳＩＭＤ）プロセッサ
であって、ＳＰおよび各ＰＥが、複数の別個の演算を並列に実行することができる複数の実行ユニットと、ＶＬＩＷを記憶するための超長命令語（ＶＬＩＷ）メモリ（ＶＩＭ）であって
、前記複数の実行ユニットのうち１つとそれぞれが関連付けられた別個のＶＩＭ
セクションに分割され、前記ＶＩＭセクションが各メモリ・エントリ・スロット
に命令を記憶するＶＩＭと、関連付けられたそのＶＩＭセクション内の各メモリ・エントリへの独立したア
クセスを提供する、前記各ＶＩＭセクションのためのアドレス指定メカニズムと
を備えるＳＩＭＤプロセッサ。
【請求項１９】各ＶＩＭセクションと関連付けられた少なくとも１つの状
態ビットをさらに備え、命令が実行に使用可能であるかまたは実行に使用不可能
であるかを前記状態ビットが示す請求項１８に記載のＳＭＩＤプロセッサ。
【請求項２０】ＶＩＭに記憶されているＶＬＩＷを実行するための命令で
あって、複数のオフセット・フィールドを含み、実行ユニットＶＩＭごとに１つ
のオフセット・フィールドでＶＩＭアドレスを指定する前記命令をさらに備える
請求項１８に記載のＳＭＩＤプロセッサ。
【請求項２１】複数の実行ユニットが、ストア・ユニット、ロード・ユニ
ット、演算論理ユニット、乗算累算ユニット、データ選択ユニットを備える請求
項１８に記載のＳＭＩＤプロセッサ。
【請求項２２】前記アドレス指定メカニズムが、ベースＶＩＭアドレスを
記憶するためのベースＶＩＭアドレス・レジスタと、ベースＶＩＭアドレスを加
算するための加算器と、ＶＩＭアドレスを生成するためのオフセットを備える請
求項１８に記載のＳＭＩＤプロセッサ。