JP2003536132A

JP2003536132A - Ｖｌｉｗプロセッサでの部分的パイプライン式命令の同期

Info

Publication number: JP2003536132A
Application number: JP2002502587A
Authority: JP
Inventors: トレンブレイ，マーク; イェルリ，シャレイダ; チャン，ジェフリー・メン・ワ
Original assignee: Sun Microsystems Inc
Current assignee: Sun Microsystems Inc
Priority date: 2000-06-02
Filing date: 2001-05-30
Publication date: 2003-12-02
Also published as: KR20030017982A; AU2001264560A1; WO2001095101A3; EP1290548A2; WO2001095101A2

Abstract

(57)【要約】ＶＬＩＷプロセッサは、ＶＬＩＷ命令のサブコマンドを並列に実行するための複数のパイプライン（４１０、４２５）を有する。各パイプラインは、少なくとも１つの実行ステージ（４１２、４１４）およびトラップ・ステージ（４２２、４３０）を有する。少なくとも１つのパイプラインは、第１ワード長および第２ワード長のオペランドに対して演算することができ、第２ワード長は第１ワード長よりも長く、第１ワード長は、パイプライン（４１０、４２５）のデータ・パス幅と同じである。第２ワード長のオペランドに対するオペレーションの実行は、パイプラインの少なくとも１つの実行ステージ（４１２、４１４）で複数のサイクルを必要とする。命令デコーダ（４０４）は、ＶＬＩＷ命令のシーケンスのサブコマンドをパイプライン・サブコマンドにデコードし、それを第１パイプラインおよび第２パイプライン（４１０、４２５）にディスパッチし、ＶＬＩＷ命令の第１サブコマンドが第２ワード長のオペランドに対して演算するとき、命令デコーダ（４０４）は、少なくとも１つのヘルパ・サブコマンドを第１パイプライン（４１０）に投入する。同じＶＬＩＷ命令の第２サブコマンドに関連し、かつ第２パイプライン（４２５）にディスパッチされる情報が第２パイプライン（４２５）のトラップ・ステージ（４３０）に到達すると同時に、第１サブコマンドに関連する情報が第１パイプライン（４１０）のトラップ・ステージ（４２２）に進入することが必要であるとき、命令デコーダは、ノーオペレーション・ヘルパ・サブコマンドも第２パイプライン（４２５）に挿入する。このノーオペレーション・ヘルパ・サブコマンドは、第１サブコマンドが第２ワード長のオペランドに対して演算し、第２サブコマンドが第１ワード長のオペランドに対して演算する場合であっても、トラップ・ステージ（４２２、４２５）で情報が同期して到達することを維持する。

Description

【発明の詳細な説明】

【０００１】（発明の分野）本発明は、超長命令ワード（ＶＬＩＷ）プロセッサ・アーキテクチャの分野に
関する。詳細には、本発明は、ＶＬＩＷマシンのパイプライン中のサブコマンド
の同期に関する。

【０００２】（発明の背景）今日製造されている、すべての高性能マシンを含むほとんどのマシンは、少な
くともある程度パイプライン化されている。パイプラインは一般に、それぞれが
１つまたは複数のクロック・サイクルを占有する複数の実行ステージを備えるハ
ードウェア実行ユニットである。さらに、複数の実行ステージのうちの異なる各
ステージに、同時に実行されているいくつかの命令が存在することができる。

【０００３】現代のコンピューティング・マシンは、しばしば２つ以上の実行ユニット・パ
イプラインを有する。この各パイプラインは、複数の実行ステージを有する。例
えば、プロセッサは、整数サブコマンド実行用の整数実行パイプラインと、浮動
小数点サブコマンド実行用の浮動小数点実行パイプラインとを有することができ
る。マシンの整数実行パイプラインと浮動小数点実行パイプラインが、サブコマ
ンドのうち１つまたは複数のステージを同時に実行することが多い。

【０００４】典型的な実行パイプラインにしばしば見られる後ろのステージは、「トラップ
」ステージである。トラップ・ステージは、（ＩＥＥＥ７５４仕様でのトラッ
プ条件のいずれかを含む）プロセッサ例外を行うべきか、または現在実行中の命
令シーケンスの実行を中断すべきかが判定されるステージである。

【０００５】トラップまたは割込みが行われるとき、トラップまたは割込みが行われるとき
のプロセッサの状態を判定することがしばしば必要となる。プロセッサの状態を
容易に診断し、可能な補正を行い、かつ実行を再開することができるようにトラ
ップを正確に処理することが好ましい。トラップを正確に処理すべき場合、トラ
ップが必要かどうかを判定することができるときは、現命令を実行するすべての
パイプラインがトラップ・ステージに到達する前に、前の状態のデータを現命令
または後の命令で上書きしてしまわないことが望ましい。

【０００６】多くの技術者は、命令をデコードすることができ、オペランドをフェッチする
ことができ、かつそれらを並列に高速でパイプラインに供給することができるこ
とを条件として、並列に実行することができる多数のパイプラインを有するプロ
セッサの方がパイプラインの少ないプロセッサよりも良好な総合性能を実現でき
ると考えている。

【０００７】遺憾ながら、多くのプロセッサは、固有の並列性を有さない２進の命令言語を
理解する。この２進言語を実行して、並列に命令を実行するプロセッサの場合、
プロセッサは、その命令シーケンスを構文解析し、どの命令が並列に実行するこ
とができるかを見つけなければならず、それは自明のタスクではない。さらに、
潜在的並列性を求めるこの構文解析は実行時に行われるので、非常に複雑なハー
ドウェアで迅速に行わなければならない。

【０００８】ＶＬＩＷプロセッサは通常、明示的並列性を有する２進命令言語を実行する。
明示的並列性を有する２進命令言語では、各命令が、別々のパイプラインで並列
に同時実行するためのサブコマンドを組み込むことができる。ＶＬＩＷプロセッ
サは、従来型プロセッサに対して必要な２進命令ワードあたりのビット数よりも
多くのビットを必要とする。各サブコマンドが、命令ワード中にビット・フィー
ルドを必要とし、したがってこれらの命令ワードは非常に長くなるからである。
このために超長命令ワードという用語が用いられている。

【０００９】ＶＬＩＷプロセッサにより、潜在的並列性を求める構文解析を、実行から分離
することが可能となる。したがってこの構文解析は、別々の命令変換ユニットで
行うことができ、またはコンパイル時に行うことができる。コンパイル時に潜在
的並列性を求める構文解析を行うことは、普通なら同様の高い性能を実現するの
に必要となるハードウェアよりも単純なハードウェアを使用することができると
いう利点を有する。

【００１０】多くのプロセッサは、すべての命令を全く同じクロック・サイクル数では実行
しないパイプラインを有する。除算は一般に乗算よりも多くのクロック・サイク
ルを必要とすることが知られている。さらに、整数オペレーションは浮動小数点
オペレーションよりも実行がずっと単純であり、したがって浮動小数点パイプラ
インは、一般に、加算を実行するのに整数パイプラインよりも多くのクロック・
サイクルを必要とすることが知られている。パイプラインが命令を実行するのに
かかるクロック・サイクル数は、パイプラインのレイテンシィである。整数パイ
プラインが同じマシンの浮動小数点パイプラインと同じレイテンシィを有するよ
うに余分なステージを整数パイプラインに加えることができ、かつすべての命令
が同じレイテンシィを有するように余分なステージを浮動小数点パイプラインに
加えることができるが、これは非効率的であることが知られている。パイプライ
ンで実行中のサブコマンドは、依存関係により別のパイプラインが実行を完了す
るのを待つことが必要である場合を除き、可能な限り早期に完了することが望ま
しい。

【００１１】ＶＬＩＷプロセッサを含む多くの現代のプロセッサは、３２ビット・データの
実行用に最適化されている。

【００１２】ＩＥＥＥ−７５４浮動小数点仕様に記載されているような倍精度浮動小数点命
令などの６４ビット・オペランド命令は、３２ビット実行ハードウェアと非常に
似たハードウェアで実行することができる。しかし一般には、６４ビット・デー
タに対しては３２ビット・データよりも多くのクロック・サイクルが必要となる
。例えば、６４ビットの乗算は、整数パイプラインの３２ビット・アレイ乗算器
ステージで、そのアレイ乗算器を４回通すことによって実行できるのに対し、３
２ビットの乗算はアレイ乗算器を１回通すだけでよい。

【００１３】パイプライン中の６４ビット命令の実行は、基本命令と、それに続くヘルパ命
令とをパイプラインに通すことによって制御することができる。例えば基本命令
は、６４ビット加算の下半分を処理し、その加算からの桁上げ出力を保存するこ
とができる。次いでそのパイプラインに対する後のヘルパ命令が６４ビット加算
の上半分を処理し、その加算中に、保存した桁上げを投入することができる。

【００１４】ＶＬＩＷプロセッサは、複数のしばしば異なるパイプラインで、命令のサブコ
マンドの並列実行を提供する。これらのサブコマンドは、特に一部が３２ビット
、一部が６４ビットであり、かつパイプラインが３２ビット・データ用に最適化
されている場合、わずかに異なる時間に完了する傾向がある。さらに悪いことに
、所与のパイプラインは、一部のサブコマンドを他のサブコマンドよりもかなり
迅速に完了することがある。したがって、所与のパイプラインは、命令ごとに異
なるレイテンシィを有する可能性がある。

【００１５】トラップを正確に処理するために、特定のＶＬＩＷ命令のすべてのサブコマン
ドがパイプラインのトラップ・ステージに同時に到達することが望ましい。効率
的な高速オペレーションを維持するために、任意のサブコマンドが、同じ命令の
他の任意のサブコマンドの実際のレイテンシィより長く待機しないことが望まし
い。したがって、命令のサブコマンドを最初に完了するパイプラインにストール
を入れるか、または制御された最小の遅延をそのパイプラインに導入し、それに
よって、その命令のサブコマンドを最後に完了するパイプラインと同時にトラッ
プ・ステージに到達することが望ましい。

【００１６】（発明の概要）命令のサブコマンドを最初に完了するＶＬＩＷプロセッサのパイプラインにス
トールを入れ、それによって高速なパイプラインが、その命令のサブコマンドを
最後に完了する低速なパイプラインと同時にトラップ・ステージに到達するハー
ドウェアを説明する。このハードウェアは、命令のデコードに応じてストール・
ヘルパ命令を生成し、次いでそのストール・ヘルパ命令が、ストールを必要とす
るパイプライン・ステージに投入され、それによって各パイプライン中の有効な
結果が、より低速に命令のサブコマンドを実行するパイプラインと同時にトラッ
プ・ステージに到達する。

【００１７】本発明の上述の特徴および他の特徴、有用性、ならびに利点は、添付の図面に
図示される、以下の本発明の好ましい実施形態のより具体的な説明から明らかと
なろう。

【００１８】（好ましい実施例の詳細な説明）コンピュータ・システムは、内部第１レベル・キャッシュを有する少なくとも
１つのプロセッサ１００（図１）を有する。このシステムはまた、第２レベル・
キャッシュ１０１も有し、必須ではないが、第３レベル・キャッシュ１０２も有
することができる。必須ではないが、それ自体の第２レベルキャッシュおよび任
意選択の第３レベル・キャッシュ（図示せず）を有する追加のプロセッサ１０５
があってもよい。キャッシュによって満たされないプロセッサ１００からの参照
は、高速ローカル・バス１０６を介してメイン・メモリ１０７に向けて送られ、
またはバス・ブリッジ１０８を介してシステム・バス１０９に向けて送られる。
システム・バス１０９はＰＣＩバスであることが好ましい。

【００１９】ＰＣＩバスには、１つまたは複数の記憶サブシステム１１６を接続するための
ストレージ・コントローラ１１５が取り付けられる。ストレージ・コントローラ
１１５は、典型的にはＵｌｔｒａＷｉｄｅＳＣＳＩタイプである。記憶サブ
システム１１６は、一般にＣＤリーダおよび／またはライタ、ならびにディスク
・ドライブを含む。ＲＡＩＤ記憶システムおよびテープ・ドライブなどの他の周
辺機器と同様に、複数のディスク・ドライブを使用することができる。多くのコ
ンピュータ・システムは、ビデオ表示装置サブシステム１１８、ネットワーク・
インターフェース１２０、ＵＳＢ（ユニバーサル・シリアル・バス）インターフ
ェース１２２、ならびにキーボード・ポート、マウス・ポート、シリアル・ポー
ト、プリンタ・ポート、およびフロッピィ・ディスク・ポート１２４も有する。

【００２０】プロセッサ１００の第１レベル・キャッシュは、別々の命令キャッシュ１２６
およびデータ・キャッシュ１２８として実装することができる。あるいは、これ
らを組み合わせて単一の高速組合せキャッシュとすることもできる。

【００２１】コンピュータ・システムのプロセッサ１００はＶＬＩＷプロセッサでよい。Ｖ
ＬＩＷプロセッサでは、命令キャッシュ１２６からの命令は、命令アライナ２０
０（図２）によって整列させられ、命令バッファ２０２内に入れられる。次いで
命令は命令デコーダおよびディスパッチャ２０４によって処理され、プロセッサ
の様々な実行パイプライン２０６、２０８、および２１０にディスパッチされる
。図が見やすいように、図２には、４つ以上のパイプラインを有することができ
るマシンの３つのパイプラインを示す。図示するパイプラインは、レジスタ・フ
ァイル２１８に接続され、かつレジスタ・ファイル２１８からオペランドをフェ
ッチすることができるオペランド・フェッチ・ステージ２１２、２１４、および
２１６と、レジスタ・ファイル２１８に接続され、かつレジスタ・ファイル２１
８への結果を格納することができるオペランド格納ステージ２２０、２２２、お
よび２２４とを有する。このプロセッサはまた、データ・キャッシュ１２８とレ
ジスタ・ファイル２１８との間で転送するためのロード／ストア・ユニット２２
６も有する。

【００２２】ＶＬＩＷ命令が、３２ビット減算サブコマンドをあるパイプラインにディスパ
ッチし、６４ビット加算サブコマンドを別のパイプラインにディスパッチすると
仮定する。さらに、本発明の好ましい実施形態と同様に、６４ビット・オペレー
ションが３２ビット・サブオペレーションのシーケンスの実行によって実行され
ると仮定する。すると図３に示すように、６４ビット・サブコマンドは、オペラ
ンドをフェッチするために、実行されるパイプラインのフェッチ・ステージでそ
れぞれ１サイクルかかる一対のフェッチ・オペレーション３００を必要とし、か
つ一対の演算サイクル３０１を必要とするのに対して、３２ビット・オペランド
はパイプラインのデータ・パスの幅と一致するので、３２ビット・サブコマンド
は、オペランドをフェッチするためのサイクル３０２と、そのオペランドに対す
る演算３０３とが少なくて済む。トラップ・ステージは、６４ビット・オペレー
ションが完了するまで開始することができないと仮定し、したがって加算３０１
ａの２番目のヘルパ・サイクルが終わるまでトラップ・ステージには進入するこ
とができないと仮定する。これを保証するためにパイプラインのストール・ステ
ージ３０７を使用する。ストール・ステージ３０７がより長いオペランド、中間
結果、または最終結果用にリサイクル・バッファ内に十分な記憶域を有すると仮
定して、ストール・ステージ３０７は、パイプラインのステージ内のオペレーシ
ョンをリサイクルした形を取ることができる。したがって、３２ビットサブコマ
ンドにストールが投入されない場合、３２ビット・サブコマンドがそのトラップ
・サイクル３０６に到達した後に、６４ビット・サブコマンドがそのトラップ・
サイクル３０５に到達することになる。

【００２３】本発明によるプロセッサでは、命令が、命令キャッシュ１２６から命令アライ
ナ４００（図４）および命令バッファ４０２に受け取られ、命令デコーダおよび
ディスパッチャ４０４によって処理される。ヘルパ・サブコマンド・インサータ
４０６は、命令デコーダおよびディスパッチャ４０４の一部でよく、任意の６４
ビット・サブコマンド、あるいは実行に追加の時間を必要とする他のサブコマン
ドを適切に実行するのに必要なヘルパ・サブコマンドを挿入する。

【００２４】プロセッサの第１パイプラインが３２ビット・データ・パスに基づいていると
きに、その第１パイプライン４１０で６４ビット加算を実行する場合を考慮する
。したがってパイプラインのフェッチ・ステージ４１２が、サイクル５００（図
５）でオペランドの下半分をフェッチし、演算ステージ４１４がオペランド５０
２の下半分に対する加算を実行する間、フェッチ・ステージ４１２は、後のサイ
クル５０１でオペランドの上半分をフェッチする。次のサイクルでは、ヘルパ・
サブコマンドが演算ステージ４１４で５０４を実行する間、オペランドの下半分
の結果が、５０６で演算ステージのリサイクル・バッファ４１６内、またはパイ
プラインのストール・ステージ内に保持される。次のサイクル５１０では、任意
のトラップ条件を解決し、次のサイクル５１２および５１４では、オペレーショ
ンの結果が、パイプラインの格納ステージ４１８によってレジスタ・ファイル４
２０内に格納される。

【００２５】トラップ・ステージの前に、同じＶＬＩＷ命令ワードからの３２ビット・サブ
コマンドのタイミングを超過して１オペレーション・サイクルを必要とする６４
ビット・サブコマンドが処理されるとき、ヘルパ・サブコマンド・インサータ４
０６は、その３２ビット・サブコマンドが実行される第２パイプライン４２５に
対する命令ストリーム・フローに、ＮＯＰヘルパ・サブコマンド、すなわちノー
オペレーション・ヘルパ・サブコマンドも挿入し、そのサブコマンドをストール
を有するものとしてマークする。ＮＯＰヘルパ・サブコマンドはヘルパ・ストー
ル・サブコマンドとしても知られ、各ＮＯＰヘルパ・サブコマンドは、パイプラ
インにディスパッチされるサブコマンドの後に挿入される。各ＮＯＰヘルパ・サ
ブコマンドにより、関連するパイプラインのトラップ・ステージより前のステー
ジは変化せず、または１サイクルだけリサイクルされる。これにより、トラップ
・ステージの前のステージのデータは、ヘルパ・ストール・サブコマンドの任意
のシーケンスの最後が完了するまで変化しない。第２パイプライン４２５のため
のタイミングと同様のタイミングを有する３２ビット・サブコマンドを第１パイ
プライン４１０が受け取る場合、このＮＯＰヘルパ・サブコマンドは投入されな
い。したがってこの３２ビット・サブコマンドは、フェッチ・ステージで、第１
サイクル５３０でのフェッチと、第２サイクル５３２でのＮＯＰを用いて実行さ
れる。第２サイクルでは、演算ステージはオペレーション５３４を実行し、第３
サイクルでは、演算ステージはＮＯＰ５３６を行う。サブコマンドはストールを
有するものとしてマークされるので、オペレーションの結果は５３８で保持され
、それによってオペレーションの結果は、第１パイプライン４１０中で実行中の
６４ビット・サブコマンドの結果がそのトラップ・ステージ４２２に到達するの
と同時に、第２パイプライン４２５のトラップ・サイクル５４０、すなわちステ
ージ４３０に進入する。したがって、長い６４ビットオペレーションの結果と、
短い３２ビット・オペレーションの結果は、トラップ・ステージで同期する。

【００２６】代替実施形態では、トラップ・ステージの前に、同じＶＬＩＷ命令ワードから
の３２ビット・サブコマンドのタイミングを超過して１オペレーション・サイク
ルを必要とする６４ビット・サブコマンドが処理されるとき、ヘルパ・サブコマ
ンド・インサータ４０６は、その３２ビット・サブコマンドが実行される第２パ
イプライン４２５に対する命令ストリーム・フローに、ＮＯＰヘルパ・サブコマ
ンド、すなわちノーオペレーション・ヘルパ・サブコマンドも挿入する。ＮＯＰ
ヘルパ・サブコマンドはヘルパ・ストール・サブコマンドとしても知られ、図６
に示すように、各ＮＯＰヘルパ・サブコマンドは、関連する３２ビット命令の前
にディスパッチされる。第２パイプライン４２５のためのタイミングと同様のタ
イミングを有する３２ビット・サブコマンドを第１パイプライン４１０が受け取
る場合、このＮＯＰヘルパ・サブコマンドは投入されない。この実施形態での６
４ビット・サブコマンドの実行は、図５に示すのと同様である。

【００２７】したがって３２ビット・サブコマンドは、フェッチ・ステージで、第２サイク
ル６３０でのフェッチと、第１サイクル６３２でのＮＯＰとを用いて実行される
。第３サイクルでは、演算ステージはオペレーション５３４を実行し、第２サイ
クルでは、演算ステージはＮＯＰ５３６を行う。次いでこのサブコマンドに関連
するデータは、第１パイプライン４１０中で実行中の６４ビット・サブコマンド
の結果が５１２でそのトラップ・ステージ４２２に到達するのと同時に、第２パ
イプライン４２５のトラップ・サイクル６４０、すなわちステージ４３０に進入
する。したがって、長い６４ビットオペレーションの結果と、短い３２ビット・
オペレーションの結果は、トラップ・ステージで同期する。

【００２８】トラップ・ステージで６４ビット・サブコマンドの結果が３２ビット・サブコ
マンドの結果と同期することを保証するために、複数のＮＯＰヘルパ・サブコマ
ンドをパイプラインに進入させなければならないサブコマンドが存在する。好ま
しい実施形態では、６４ビット乗算オペレーションは３２ビット・アレイ乗算器
で実行される。３２ビット乗算器で一対の６４ビット・オペランドを乗算し、１
２８ビットの結果を生成するには乗算器を４回通す必要がある。したがってＶＬ
ＩＷ命令ワードがデコードされ、６４ビット乗算サブコマンドを受け取るパイプ
ラインの命令ストリームに３つのヘルパ・サブコマンドが挿入される。このよう
な乗算サブコマンドを有するＶＬＩＷ命令ワードがデコードされ、６４ビット加
算を実行するときに必要なＮＯＰヘルパ・サブコマンドの代わりに、同時に実行
される各３２ビット加算オペレーションまたは３２ビット減算オペレーションの
後に３つのＮＯＰヘルパ・サブコマンドが投入される。同様に、同時に実行され
る任意の６４ビット加算は、２つのＮＯＰヘルパ・サブコマンドを受け取り、そ
れによってその結果が実行ステージのリサイクル・バッファ内に保持され、６４
ビット乗算サブコマンドの結果と同時にトラップ・ステージに進入する。

【００２９】本発明をその好ましい実施形態を参照しながら具体的に図示し、説明したが、
本発明の精神および範囲から逸脱することなく、形態および細部に他の様々な変
更を行えることを当業者は理解されよう。具体的には、パイプライン・ステージ
の数を、ここで論じた数から変更することができ、かつ加算および減算以外のオ
ペレーションが実行できることが予想される。本明細書で開示した３２ビット・
ハードウェア上で動作する３２ビット長および６４ビット長以外のワード単位の
データを処理するマシンに対して本発明が適用可能であり、ハードウェアの幅よ
りも長いデータ・ワードに対して実行することができる複数のパイプラインを有
するマシンに対して適用可能であることも予想される。

【００３０】３２ビット・サブコマンドの後ろにあるものとして本明細書で説明したノーオ
ペレーション・ヘルパ・サブコマンドを、代わりに３２ビット・サブコマンドの
前に投入し、それによって３２ビット・サブコマンドの結果が６４ビット・サブ
コマンドの結果と同時にトラップ・ステージに到達するようにできることも予想
される。

【図面の簡単な説明】

【図１】ＶＬＩＷプロセッサを有するコンピュータ・システムのブロック図である。

【図２】精密なトラップを実施しないいくつかのパイプラインを有する、従来技術のＶ
ＬＩＷプロセッサのブロック図である。

【図３】ストールが投入されない場合にサブコマンドが異なる時間にトラップ・ステー
ジに到達する傾向を示す、ＶＬＩＷプロセッサのパイプライン中のデータ・フロ
ーのタイミング図である。

【図４】本発明を組み込むＶＬＩＷプロセッサのブロック図である。

【図５】命令の実行後にいくつかのパイプラインのトラップ・ステージを整列するのに
必要なストール状態を示す、本発明のＶＬＩＷプロセッサの好ましい実施形態の
パイプライン中のデータ・フローのタイミング図である。

【図６】命令の実行中にいくつかのパイプラインのトラップ・ステージを整列するのに
必要なストール状態を示す、本発明のＶＬＩＷプロセッサのパイプライン中のデ
ータ・フローのタイミング図である。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ０６Ｆ 9/30 ３５０Ｇ０６Ｆ 9/30 ３５０Ｆ (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ，ＴＲ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＧＷ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＭＺ，ＳＤ，ＳＬ，ＳＺ，ＴＺ，ＵＧ，ＺＷ)，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＥ，ＡＧ，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＢＺ，ＣＡ，ＣＨ，ＣＮ，ＣＲ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＤＭ，ＤＺ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＤ，ＧＥ，ＧＨ，ＧＭ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＮ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＡ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＭＺ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＴＺ，ＵＡ，ＵＧ，ＵＺ，ＶＮ，ＹＵ，ＺＡ，ＺＷ (72)発明者イェルリ，シャレイダアメリカ合衆国・95131・カリフォルニア州・サンノゼ・フミアドライブ・1720 (72)発明者チャン，ジェフリー・メン・ワアメリカ合衆国・94040・カリフォルニア州・マウンテンビュー・レイザムストリート・1984・ナンバー10 Ｆターム(参考） 5B013 AA05 AA13 AA17 AA18 DD00 5B033 AA13 AA14 BE05 DC01 【要約の続き】投入する。同じＶＬＩＷ命令の第２サブコマンドに関連し、かつ第２パイプライン（４２５）にディスパッチされる情報が第２パイプライン（４２５）のトラップ・ステージ（４３０）に到達すると同時に、第１サブコマンドに関連する情報が第１パイプライン（４１０）のトラップ・ステージ（４２２）に進入することが必要であるとき、命令デコーダは、ノーオペレーション・ヘルパ・サブコマンドも第２パイプライン（４２５）に挿入する。このノーオペレーション・ヘルパ・サブコマンドは、第１サブコマンドが第２ワード長のオペランドに対して演算し、第２サブコマンドが第１ワード長のオペランドに対して演算する場合であっても、トラップ・ステージ（４２２、４２５）で情報が同期して到達することを維持する。

Claims

【特許請求の範囲】

【請求項１】サブコマンドを実行し、かつ少なくとも１つの実行ステージ
およびトラップ・ステージを有する第１パイプラインと、サブコマンドを実行し、かつ少なくとも１つの実行ステージおよびトラップ・
ステージを有する第２パイプラインであって、第１パイプラインと並列に演算す
ることができ、第１パイプラインが、第１ワード長および第２ワード長のオペラ
ンドに対して演算することができ、ただし第２ワード長が第１ワード長よりも長
く、第１ワード長が第１パイプラインのデータ・パス幅と同じであり、かつ第２
ワード長のオペランドに対するオペレーションの実行が、第１パイプラインの少
なくとも１つの実行ステージで複数のサイクルを必要とする第２パイプラインと
、ＶＬＩＷ命令のシーケンスのサブコマンドをパイプライン・サブコマンドにデ
コードし、かつパイプライン・サブコマンドを第１パイプラインおよび第２パイ
プラインにディスパッチする命令デコーダであって、ＶＬＩＷ命令の第１サブコ
マンドが第２ワード長のオペランドに対するオペレーション用のコマンドであり
、かつ第１パイプラインにディスパッチされるとき、少なくとも１つのヘルパ・
サブコマンドを第１パイプラインに投入する命令デコーダとを備え、第１サブコマンドに関連する情報が、同じＶＬＩＷ命令の第２サブコマンドに
関連し、かつ第２パイプラインのトラップ・ステージに到達する第２パイプライ
ンにディスパッチされた情報と同時に、確実に第１パイプラインのトラップ・ス
テージに進入するために必要であるとき、命令デコーダが、ノーオペレーション
・ヘルパ・サブコマンドを第２パイプラインに挿入することができ、ノーオペレーション・ヘルパ・サブコマンドの投入が、第１サブコマンドおよ
び第２サブコマンドに対して調整されるＶＬＩＷプロセッサ。
【請求項２】第１パイプラインのトラップ・ステージに進入する第１サブ
コマンドに関連する情報が、第２ワード長のオペランドに対して実行され、かつ
第１パイプライン中の第１パイプライン・サブコマンドおよびヘルパ・サブコマ
ンドの実行によって生成された算術オペレーションの結果であり、第２パイプラ
インのトラップ・ステージに進入する第２サブコマンドに関連する情報が、第１
ワード長のオペランドに対して実行された算術オペレーションの結果である請求
項１に記載のＶＬＩＷプロセッサ。
【請求項３】第１ワード長が３２ビットであり、第２ワード長が６４ビッ
トである請求項１に記載のＶＬＩＷプロセッサ。
【請求項４】プロセッサの複数のパイプラインでのデータの到達を、前記
複数のパイプラインのトラップ・ステージに対して同期する方法であって、プロセッサの命令を、プロセッサのパイプライン上で実行するための少なくと
も１つのサブコマンドにデコードするステップであって、プロセッサの可能な命
令の少なくとも一部の組が、複数のサブコマンドにデコードする命令であるステ
ップと、少なくとも１つのサブコマンドをプロセッサのパイプラインにディスパッチす
るステップと、各サブコマンドに関連するいくつかのヘルパ・ストール・サブコマンドを決定
するステップであって、サブコマンドを受け取る各パイプライン中に投入するた
めに、ヘルパ・ストール・サブコマンドの数が非負整数の集合からなるグループ
から選択され、所与の命令からデコードされる各サブコマンドの実行に関連する
情報が、同じ命令からデコードされた任意の他のサブコマンドの実行に関連する
情報と同時に、そのサブコマンドがディスパッチされるパイプラインのトラップ
・ステージを実行するようにヘルパ・ストール・サブコマンドの数が決定される
ステップと、決定したヘルパ・ストール・サブコマンドの数を命令のサブコマンドがディス
パッチされる各パイプラインに投入するステップとを含む方法。
【請求項５】いくつかのヘルパ・ストール・サブコマンドを決定する前記
ステップが、命令と、命令からデコードされたサブコマンドの組とからなるグル
ープから選択されるビット・パターンをデコードすることによって実行される請
求項４に記載の方法。
【請求項６】Ｎを正の整数として、前記パイプラインが、幅Ｎビットのデ
ータと、Ｎビットの２倍の幅のデータに対するサブコマンドを実行することがで
き、Ｍを０より大きい正の整数として、Ｎビットの２倍の幅のデータに対する、
トラップ・ステージまでの所与のオペレーションの実行が、幅Ｎビットのデータ
に対するトラップ・ステージまでの実行よりもＭサイクル多くかかる請求項５に
記載の方法。
【請求項７】第１サブコマンドが幅Ｎビットのデータに対して実行され、
第２サブコマンドがＮビットの２倍の幅のデータに対して実行され、第１サブコ
マンドがディスパッチされるパイプラインに投入されるヘルパ・サブコマンドの
数がＭである請求項６に記載の方法。
【請求項８】前記ヘルパ・ストール・サブコマンドが、実行するためにパ
イプラインのうちの少なくとも１つにそのサブコマンドがディスパッチされる前
に、前記パイプラインに投入される請求項５に記載の方法。
【請求項９】前記ヘルパ・ストール・サブコマンドが、実行するためにパ
イプラインのうちの少なくとも１つにそのサブコマンドがディスパッチされた後
に、前記パイプラインに投入される請求項５に記載の方法。