JPH08249183A

JPH08249183A - 推論並列命令スレッドの実行

Info

Publication number: JPH08249183A
Application number: JP8011080A
Authority: JP
Inventors: Pradeep Kumar Dubey; プラデープ・クマル・ダビー; Charles Marshall Barton; チャールズ・マーシャル・バートン; Chiao-Mei Chuang; チャオ＝メイ・チュアン; Linh Hue Lam; リン・フエ・ラム; John Kevin O'brian; ジョン・ケヴィン・オブライエン; Kathryn Mary O'brian; キャスリン・メアリー・オブライエン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1995-02-03
Filing date: 1996-01-25
Publication date: 1996-09-27
Anticipated expiration: 2016-01-25
Also published as: US5812811A; JP3093626B2; EP0725334A1

Abstract

(57)【要約】【課題】複数の命令スレッドの推論並列実行を可能に
する、コンピュータ内の中央演算処理装置（ＣＰＵ）を
提供する。【解決手段】このＣＰＵは、ＣＰＵの命令セットに追
加され、並列実行用の潜在的な将来スレッドを示すため
に実行時以前にプログラムに挿入される、フォーク−中
断命令を使用する。このＣＰＵは、１つまたは複数の命
令キャッシュ・ポートを備えた命令キャッシュと、１つ
または複数のプログラム・カウンタからなるバンクと、
１つまたは複数のディスパッチャからなるバンクと、ス
レッド間通信を処理し、依存関係に違反する将来スレッ
ドを破棄するスレッド管理ユニットと、すべてのスレッ
ドに共通する１組のアーキテクチャ化レジスタと、ＣＰ
Ｕ内の１つまたは複数の機能ユニット上での命令の並列
実行をスケジューリングするスケジューラとを有する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、コンピュータ・シ
ステム上での複数の命令からなる並列スレッドの実行の
分野に関する。より具体的には、本発明は、コンピュー
タ・プログラム内のどの命令スレッドを並列に実行でき
るかを判定し、この並列実行を推論方式で実施すること
に関する。

【０００２】

【従来の技術】市販のマイクロプロセッサは、現在、単
一プロセッサ・アーキテクチャを使用している。このア
ーキテクチャは、共通する１組のアーキテクチャ上可視
のレジスタを共用する１つまたは複数の機能ユニット
（分岐ユニット、ロード／ストア・ユニット、整数演算
ユニット、浮動小数点演算ユニットなど）を含むことが
できる。（レジスタは、そのプロセッサのアセンブリ・
レベルのプログラマか、またはより上位レベルのプログ
ラムをマシンのアセンブリ・レベルに変換するプロセッ
サのコンパイラにとってアクセス可能であれば、アーキ
テクチャ上可視であると見なされる。）

【０００３】コンピュータ・システムでは、コンパイラ
またはアセンブリ・プログラマにより生成された命令
は、実行時以前に命令メモリに１つのシーケンスとして
置かれ、そこから取り出して実行することができる。こ
のシーケンスは静的順序と呼ばれている。動的順序は、
コンピュータがこのような命令を実行する順序である。
動的順序は静的順序である場合もあれば、そうではない
場合もある。（以下の説明で使用する「コンパイル時」
という表現は、実行時以前の処理のタイミングを意味す
る。ただし、このような処理はコンパイラによって行わ
れる可能性が非常に高いが、アセンブリ・レベル・プロ
グラミングなどの他の手段が代わりに使用されることも
あることに留意されたい。）

【０００４】先行技術のスカラー・コンピュータすなわ
ち非スーパースカラー・コンピュータ、または一度に１
つずつ命令を実行するマシンには、順次追跡順序と呼ば
れる固有の動的実行順序が備わっている。この順次追跡
順序で命令Ａを別の命令Ｂより先行させると、このよう
な命令Ａは、命令Ｂより早期の命令とも呼ばれる。この
ようなコンピュータは、制御命令が検出されるまで、そ
の静的順序で命令を実行する。この検出時点では、元の
順次順序から外れた（不連続）位置から命令を取り出す
ことができる。その後、次の制御命令が検出されるま
で、命令はもう一度、静的順次順序で実行される。制御
命令とは、以降の命令取出しを不連続位置から強制的に
始めさせることにより、順次命令取出しを変更する可能
性のある命令である。制御命令としては、分岐、ジャン
プなどの命令がある。

【０００５】先行技術のマシンの中には、プログラムの
依存関係に違反しなければ、順次追跡順序から外れた命
令を実行できるものもある。このようなマシンは、順次
追跡順序の順に命令を取り出すか、または順次追跡順序
で同時に命令グループを取り出す。しかし、このような
マシンは、順次追跡順序から外れた命令を取り出すこと
はしない。たとえば、順次追跡順序で命令Ａが命令Ｂよ
り先行する場合、先行技術のマシンでは、命令Ａの次に
命令Ｂを順に取り出すか、または命令ＡとＢを同時に取
り出すことができるが、命令Ａより前に命令Ｂを取り出
すことはない。このような制約は単一プログラム・カウ
ンタを備えたマシンの特徴である。したがって、このよ
うな制約のあるマシンは、単一スレッドまたはユニスレ
ッド・マシンと言われている。このようなマシンは、順
次追跡順序で先行する命令を取り出す前に順次追跡順序
で後続の命令を取り出すことができない。

【０００６】発明者らが把握している現行世代の市販マ
イクロプロセッサは、単一スレッドの制御の流れを備え
ている。このようなプロセッサは、所与のプログラムの
様々な部分の制御とデータからの独立性を活用する能力
が制限されている。重要な制限としては、以下のものが
ある。 ○ 単一スレッドとは、マシンが複数の命令からなる単
一シーケンスの取出しに制限され、プログラム制御の複
数の流れ（スレッド）を同時に追跡できないことを意味
する。 ○ さらに単一スレッド制御とは、データ非依存命令が
まとめて取り出すべきスレッド内で時間的に十分接近し
ていて（たとえば、複数の命令を命令バッファに同時に
取り出す場合）、データ独立性を検出するためにまとめ
て検査される場合のみ、データ独立性を活用できること
を意味する。 ○ 上記の制限は、制御非依存命令とデータ非依存命令
をまとめてグループ化するためにコンパイラを頼りにす
ることを意味する。 ○ 先行技術のマイクロプロセッサの中には、制御流れ
推測という何らかの形態の制御命令（分岐）予測を含む
ものがある。この場合、制御命令の結果が正しく推測さ
れたと期待して、順次追跡順序で制御命令に続く命令を
取り出して実行することができる。制御流れの推測は、
より高度の並列性を活用するために必要な技法としてす
でに認められている。しかし、制御への依存性に関する
知識が欠けているため、単一スレッド動的推測は、制御
流れ推測誤り（不良推測）が発生するまで先読みする能
力しか拡張することができない。不良推測が行われる
と、多くの実行サイクルが浪費される可能性がある。制
御依存性分析のハードウェア・コストを無視しても、単
一スレッド制御流れ推測により制御への依存性を実行時
に学習することはよく見ても適用範囲が制限されること
に留意されたい。ここで使用する適用範囲とは、命令間
の制御およびデータの依存関係を同時に検査することが
できる命令の数を意味する。通常、実行時よりコンパイ
ル時に得られる適用範囲の方がかなり大きくなる可能性
がある。 ○ 制御流れに関するコンパイル時推測は、実行時推測
より適用範囲がかなり大きくなる可能性があるが、制御
依存性分析から利益を得る場合もある。しかし、単一ス
レッドの実行時制限により、コンパイラは、実行時に並
列性が活用可能になるように非推論命令とともに推論命
令をまとめてグループ化する必要がある。

【０００７】実行時により多くの並列性を発揮するため
にコンパイル時制御流れ推測を使用することについて
は、上記に述べた。現行マシンのコンパイラは、この推
測をコード化する能力が制限されている。保護と格上げ
のような一般に使用される手法では、単一スレッド実行
の早期に推論実行すべき一部の命令をパーコレーション
するためにコンパイラを頼りにしている。また、このよ
うな手法では、制御流れ推測を推論命令にコード化する
必要もある。この手法には、次のような重要な制限があ
る。 ○ 通常、かなり浅い制御流れ推測をコード化するため
にすべての命令で十分な未使用ビットを見つけることは
非常に難しいことである。逆方向互換性の制約（いかな
る変換も行わずに古い２進コードを実行できる能力）が
あるため、制御流れ推測のコード化を含めるために命令
コード化を任意に再配置（新しいアーキテクチャを意味
する）することができないことに留意されたい。 ○ 前述のパーコレーション技法は、推測誤りを処理す
るために余分なコードまたはコード・コピーあるいはそ
の両方を必要とする場合が多い。その結果、コードが拡
大する。 ○ アーキテクチャ上、推論命令によって発生する例外
の順次処理や、割込みの精密処理が必要になる場合が多
い。しかし、前述のパーコレーション技法は上方推論コ
ード・モーションを使用するので、このような順序外推
論実行のコンテキストでこれらを実施することは非常に
難しい場合が多い。パーコレーションした命令を区別
し、その元の位置を追跡するには、特殊な機構が必要で
ある。ただし、外部命令の観点から見ると、精密割込み
処理の制約下では順次追跡順序から外れた命令実行は推
論的と見なすことができることに留意されたい。しか
し、制約はあるもののより広く使用される意味では、命
令（より正確には、その命令の特定の動的インスタン
ス）が順次追跡順序の一部であると設定する前に命令処
理が開始される場合、またはある命令のオペランドの妥
当性を確立する前にそのオペランドが提供される場合
に、実行が推論的と見なされる。

【０００８】制御依存性を知らないと、ネストされたル
ープのパフォーマンスにとって特に高価なものになる場
合がある。たとえば、外側反復がデータ依存の内側ルー
プ反復とは無関係の制御とデータであるようなネストさ
れたループについて検討する。外側ループ反復とは無関
係の制御およびデータの知識が活用されない場合は、内
側ループに関する順次制御流れ推測のため、その取出し
および実行を遅延させなければならない。さらに、この
ように制御依存性の知識が欠けているため、制御および
データ非依存の内側ループ反復の１つの予測を誤ったと
きに、外側ループから推論実行される命令を不必要に破
棄する場合もある。また、内側ループの制御流れがデー
タに依存し、そのため、極めて予測不能である場合に
は、内側ループの制御流れ推測について予測誤りが発生
する確率が非常に高くなる可能性があることにも留意さ
れたい。このような例としては、以下のものがある。

【０００９】/* 環境リストを検査する */ for (fp = xlenv; fp; fp = cdr (fp) ) for (ep = car (fp); ep; ep = cdr (ep) ) if (sym == car (car (ep) ) ) cdr (car (ep) ) = new_p;

【００１０】これは二重にネストされたループであっ
て、内側ループは連係リストを詳しく検討し、その反復
はどちらも前の反復に依存する制御とデータである。し
かし、内側ループのそれぞれの活動化（すなわち、外側
ループの反復）は前の反復とは無関係である。［これ
は、SPECint92ベンチマークの１つ（Li）で最も頻繁に
実行されるループの１つ（Xlgetvalue）をわずかに変更
したバージョンである。］

【００１１】前述のように、単一制御流れを備えたマシ
ンは、推論または非推論あるいはその両方のデータ非依
存命令をまとめてグループ化するためにコンパイラに頼
らなければならない。しかし、すべてのデータおよび制
御非依存命令を効率よくまとめてグループ化するには、
コンパイラは、適切なコード化のためにアーキテクチャ
化した十分なレジスタを必要とする。このため、レジス
タ圧力は高まり、追加のスピル・コードのオーバヘッド
のためにこのようなコード・モーションが実を結ばなく
なるような点を上回っている。

【００１２】大規模並列アーキテクチャの実現を主な目
的とする、複数スレッドを備えたプロセッサを構築する
ために、研究の試みがいくつか行われてきた。複数スレ
ッドを管理するというオーバヘッドは、実行の並行性が
追加されるというパフォーマンス上の利得を潜在的に上
回る可能性がある。スレッド管理に関連するオーバヘッ
ドとしては、以下のものがある。 ○ 明示または暗黙同期プリミティブによる、データお
よび制御依存性のための部分順序の管理と通信 ○ 別のスレッドが使用するためにあるスレッドが生成
した値の通信 ○ 静的すなわちコンパイル時のスレッド・スケジュー
リングと、動的すなわち実行時のスレッド・スケジュー
リングとの対照に関連するトレードオフ。静的スレッド
・スケジューリングは、実行時のハードウェアを簡略化
するが、フレキシビリティが低く、実現したマシンのス
レッド資源をコンパイラに公表してしまうため、各種の
実施態様に対応する再コンパイルを必要とする。これに
対して、動的スレッド・スケジューリングは様々な実施
態様に適応可能で、いずれも同じ実行可能命令を共用す
るが、追加の実行時ハードウェア・サポートを必要とす
る。

【００１３】定義さらに詳述する前に、以下の一連の作業定義は非常に有
用である。 ○ スレッド：単一命令順序付け制御（単一プログラ
ム・カウンタを意味する）と共用される１組のアーキテ
クチャ上可視のマシン状態とを使用して実行可能な命令
のシーケンス。 ○ 順次追跡順序：プログラム命令の実行シーケンスの
動的順序であって、一度に１つずつ命令を実行する単一
制御スレッド非推論マシン上でそのプログラムを完全実
行した結果得られるもの。 ○ メイン・スレッドと将来スレッド：所与の時点での
１組のスレッドのうち、順次追跡順序で最も早い命令を
実行するスレッドをメイン・スレッドという。残りのス
レッドは将来スレッドという。

【００１４】

【発明が解決しようとする課題】本発明の一目的は、様
々な命令スレッドを同時に取り出して実行するための改
良された方法および装置である。

【００１５】本発明の一目的は、１つまたは複数の制御
およびデータ依存関係を備えた様々な命令スレッドを同
時に取り出して実行するための改良された方法および装
置である。

【００１６】本発明の一目的は、１つまたは複数の制御
およびデータ依存関係を備えた様々な命令スレッドを同
時に取り出して推論実行するための改良された方法およ
び装置である。

【００１７】本発明の一目的は、コンピュータ・アーキ
テクチャの様々な実施態様上で１つまたは複数の制御お
よびデータ依存関係を備えた様々な命令スレッドを同時
に取り出して推論実行するための改良された方法および
装置である。

【００１８】

【課題を解決するための手段】本発明は、複数の命令ス
レッドの推論並列実行を可能にする、コンピュータ内の
中央演算処理装置（ＣＰＵ）の改良策である。本発明で
は、ＣＰＵの命令セットに追加され、並列実行のために
潜在的将来スレッドを示すために実行時以前にプログラ
ムに挿入される、新規のフォーク−中断命令を開示す
る。これは、コンパイラによって実行されることが好ま
しい。

【００１９】ＣＰＵは、１つまたは複数の命令キャッシ
ュ・ポートを備えた命令キャッシュと、その命令キャッ
シュ内の命令を独立してアドレス指定できる１つまたは
複数のプログラム・カウンタからなるバンクとを有す
る。プログラム・カウンタが１つの命令をアドレス指定
すると、アドレス指定された命令は、命令キャッシュ・
ポートにポートされる。さらにＣＰＵは、１つまたは複
数のディスパッチャも有する。ディスパッチャは、命令
キャッシュ・ポートにポートされた命令をそのディスパ
ッチャに関連する命令バッファで受け取る。また、ディ
スパッチャは、そのバッファ内の命令間の依存関係も分
析する。ＣＰＵ内のスレッド管理ユニットは、すべての
スレッド間通信を管理し、プログラム依存関係に違反す
る将来スレッドを破棄する。ＣＰＵスケジューラは、Ｃ
ＰＵ内のすべてのディスパッチャから命令を受け取り、
ＣＰＵ内の１つまたは複数の機能ユニットでの命令の並
列実行をスケジューリングする。通常、メイン・プログ
ラム・スレッド内の命令の実行は１つのプログラム・カ
ウンタが追跡し、将来スレッドの並列実行は残りのプロ
グラム・カウンタが追跡することになる。命令のポーテ
ィングとその機能ユニット上での実行は、推論方式で実
行することができる。

【００２０】

【発明の実施の形態】本発明は、複数のプログラム位置
からの命令を同時に取り出して、推論し、実行し、その
結果、複数の制御スレッドを追跡するように従来の単一
スレッド推論スーパースカラーＣＰＵを強化するため
に、フォーク−中断命令を提案している。

【００２１】図１は、本発明で提案した方法を実行する
と思われる典型的なプロセッサ編成のハードウェアのブ
ロック図である。実行方法については、後述する。図１
の詳細説明は以下の通りである。

【００２２】ブロック１００は、プロセッサ上で実行す
るためのプログラム・データおよび命令を保持する、プ
ロセッサの中央演算処理装置（ＣＰＵ）のメモリ・ユニ
ットである。このメモリ・ユニットは、このメモリ・ユ
ニットの頻繁に使用する命令およびデータ部分が通常、
命令キャッシュ・ユニット（ブロック１１０）とデータ
・キャッシュ・ユニット（ブロック１７０）にそれぞれ
保管されるように、キャッシュ・ユニットとのインタフ
ェースが取られている。あるいは、命令キャッシュとデ
ータ・キャッシュは、単一一体化ユニットに統合するこ
とができる。キャッシュ・ユニットのアクセス時間は、
通常、メモリ・ユニットのアクセス時間よりかなり短
い。上記のようなメモリ・ユニットとキャッシュ・ユニ
ットは当技術分野では周知のものである。たとえば、メ
イン・メモリとそのポートをキャッシュ・メモリとその
ポートに使用することにより、キャッシュ・ユニットを
置き換えることができる。また、キャッシュは、周知の
ように、複数のキャッシュまたは１つまたは複数のレベ
ルを備えたキャッシュで構成することもできる。

【００２３】ブロック１１０は、プロセッサ上で実行す
るためのプログラム命令を保持する、プロセッサ（ＣＰ
Ｕ）の命令キャッシュ・ユニットである。これは、FOR
K、SKIP、SUSPEND、UNCOND_SUSPEND（ブロック１１２）
など、本発明で提案した新しい命令を含む。上記および
その他の新しい命令の意味の詳細については、後述す
る。

【００２４】命令キャッシュの複数ポートＰ１、Ｐ２、
・・・、ＰＮ（ブロック１１５−１、１１５−２、・・
・、１１５−Ｎ）を含むブロック１１５は、現行技術で
は新規のものである。この複数ポートにより、並列実行
される命令スレッドへの命令の同時ポーティングが可能
になる。あるいは、単一幅広ポートを使用して所与のス
レッドに複数の命令をポートし、そのスレッドがポート
された命令を実行していて使用中の間に、同じポートを
使用して、複数の命令を別のスレッドにポートすること
も可能である。

【００２５】ブロック１２０は、プログラム・カウンタ
ＰＣ１、ＰＣ２、・・・、ＰＣＮ（ブロック１２０−
１、１２０−２、・・・、１２０−Ｎ）からなるバンク
である。これらのカウンタは、当技術分野で周知であれ
ば、どのカウンタであってもよい。それぞれのプログラ
ム・カウンタは所与のスレッドの実行を追跡する。現在
までに設計されたすべての商用ＣＰＵは、所与のプログ
ラムについて、単一命令スレッドの実行だけを制御する
必要がある。このため、現行技術および従来技術は単一
プログラム・カウンタに制限されており、したがって、
複数プログラム・カウンタからなるバンクは本発明の新
規の態様である。それぞれのプログラム・カウンタは、
命令キャッシュ内の１つまたは複数の連続命令をアドレ
ス指定することができる。図１および図２のブロック図
に示す好ましい実施例では、それぞれのプログラム・カ
ウンタが１つの命令キャッシュ・ポートに関連づけられ
ている。あるいは、各種のプログラム・カウンタが１つ
の命令キャッシュ・ポートを共用することもできる。

【００２６】さらに、好ましい実施例では、特定のプロ
グラム・カウンタがメイン・スレッドに関連づけられ、
残りのプログラム・カウンタが将来スレッドの実行を追
跡する。図１のＰＣ１（ブロック１２０−１）は、メイ
ン・スレッド・プログラム・カウンタである。残りのプ
ログラム・カウンタは、将来スレッド・プログラム・カ
ウンタ（ブロック１２０−２、・・・、１２０−Ｎ）と
呼ぶ。

【００２７】ブロック１３０は新規のスレッド管理（Ｔ
Ｍ）ユニットを示しているが、これは、新しいスレッド
をフォークすることができる新しい命令の実行と、組合
せプロセス（後述する）によるスレッド間通信の処理と
を担当する。

【００２８】また、このユニットは、１つまたは複数の
将来スレッドの命令の一部または全部を破棄することも
できる。さらにこのユニットは、１つまたは複数の推測
の結果として、いずれかの将来スレッドが実行した１つ
または複数の命令をプログラム依存関係の違反のために
破棄する必要があるかどうかを判定することもできる。
実行時に推測が行われる場合は、推測ユニットによって
ＴＭユニットにそれが連絡される。たとえば、ディスパ
ッチャ・ブロック（後述するブロック１４０）内の分岐
命令結果の推測は、ＴＭユニットに連絡する必要があ
る。コンパイル時に推測が行われ、命令としてコード化
される場合は、このような命令をデコードするブロック
１４０のディスパッチャによってそれがＴＭユニットに
連絡される。その結果、推論方式で複数スレッドを実行
できるようになることは、本発明の固有の特徴である。

【００２９】また、メイン・スレッドと将来スレッドの
並列取出しおよび実行とは、提案したマシンがその順次
追跡順序から外れる命令を取り出して実行できることを
意味することにも留意されたい。このマシンのこのよう
な固有の特徴により、単一プログラム・カウンタのため
にその順次追跡順序から外れる命令を取り出すことがで
きない先行技術のマシンとは区別される。

【００３０】ブロック１４０は、ディスパッチャ−１、
ディスパッチャ−２、・・・、ディスパッチャ−Ｎ（ブ
ロック１４０−１、１４０−２、・・・、１４０−Ｎ）
という複数のディスパッチャからなるバンクを示し、そ
れぞれのディスパッチャは１つの特定のプログラム・カ
ウンタに関連づけられ、その結果、そのディスパッチャ
に関連する命令バッファ（ブロック１４１−１、１４１
−２、・・・、１４１−Ｎ）で命令キャッシュ・ポート
の１つから命令を受け取ることができる。また、ディス
パッチャは、そのバッファ内の命令間の依存関係をデコ
ードして分析することもできる。さらにディスパッチャ
は、後述するSKIP、FSKIP、またはSKPMGの各命令の意味
の実現も担当する。

【００３１】ディスパッチャが検出する命令は、スレッ
ドをフォークまたは中断することができるが、スレッド
管理ユニット（ブロック１３０）に転送される。このＴ
Ｍユニットは、対応するプログラム・カウンタに適切な
開始命令をロードすることにより、将来スレッドの活動
化を担当する。また、ＴＭユニットは、UNCOND_SUSPEND
命令を検出したときに将来スレッド・ディスパッチャを
中断する。

【００３２】順序外実行のための実行時依存性分析の実
施技法は、当技術分野では周知である。メイン・プログ
ラム・カウンタに関連し、そのため、メイン・スレッド
に関連するディスパッチャは、メイン・スレッド・ディ
スパッチャと呼ばれる。図１のディスパッチャ−１（ブ
ロック１４０−１）はメイン・スレッド・ディスパッチ
ャである。残りのディスパッチャ（ブロック１４０−
２、・・・、１４０−Ｎ）は将来プログラム・カウンタ
および将来スレッドに関連し、将来スレッド・ディスパ
ッチャと呼ばれる。

【００３３】本発明で提案するディスパッチャのバンク
の新規の態様は、１つのディスパッチャのバッファ内の
命令の実行時依存性分析を他のディスパッチャのものと
は無関係に（したがって並列に）実行できる点である。
これは、指定の条件下で命令スレッドの非依存性を保証
することができるコンパイル時依存性分析によって可能
になる。したがって、一方で、実行時依存性分析はコン
パイル時分析の方が潜在的に適用範囲がかなり広いこと
による恩恵を受けることになる（適用範囲が広いという
ことは、相互依存性について多数の命令を同時に検査で
きる能力を意味する）。もう一方で、コンパイル時分析
はフォーク−中断機構による恩恵を受けるが、この機構
により実行時結果に関する推測によって独立スレッドを
明示的に識別することができる。実行時またはコンパイ
ル時の依存性分析技法は当技術分野では周知であるが、
実行時依存性分析ハードウェアにコンパイル時依存性分
析を明示推論方式で連絡することは、本発明の新規な点
である。

【００３４】ブロック１５０は、ディスパッチャのバン
ク（ブロック１４０）内のすべてのディスパッチャから
命令を受け取って、機能ユニット（ブロック１８０）の
１つで実行するためにそれぞれの命令をスケジューリン
グする、スケジューラである。１つまたは複数のディス
パッチャから同一サイクル中に受け取ったすべての命令
は、互いに独立していると想定する。このようなスケジ
ューラも、スーパースカラー・マシンの先行技術では周
知である。代替実施例では、このスケジューラを１組の
スケジューラに分割し、それぞれが機能ユニット（ブロ
ック１８０）の規定のサブセットを制御するようにする
こともできる。

【００３５】ブロック１６０は、１組のレジスタ・セッ
トを含むレジスタ・ファイルである。このセットは、ア
ーキテクチャ上可視のレジスタ・セットと、アーキテク
チャ上不可視のレジスタとにさらに分割される。アーキ
テクチャ上可視すなわちアーキテクチャ化したレジスタ
とは、マシンのアセンブリ・レベルのプログラマ（また
はコンパイラ）にとってアクセス可能なレジスタの固定
セットを意味する。レジスタ・ファイルのアーキテクチ
ャ上可視のサブセットは、通常、すべてのスレッド（メ
イン・スレッドと将来スレッド）に共通するはずであ
る。アーキテクチャ上不可視のレジスタはＣＰＵの様々
な物理レジスタを含み、そのサブセットはアーキテクチ
ャ化したレジスタにマッピングされる。すなわち、アー
キテクチャ化したレジスタに関連する値を含む。レジス
タ・ファイルは、多くの命令を実行するための機能ユニ
ットにオペランドを提供し、実行の結果も受け取る。こ
のようなレジスタ・ファイルは先行技術では周知であ
る。

【００３６】組合せプロセス（後述する）の実施態様の
一部として、ＴＭユニット（ブロック１３０）はレジス
タ・ファイルとやりとりし、組合せ後にすべてのアーキ
テクチャ化したレジスタが適切な非アーキテクチャ化物
理レジスタに関連づけられるようにする。

【００３７】ブロック１７０は、命令によってソース・
オペランドとして使用されるデータ値の一部と、実行さ
れた命令によって生成されるデータ値の一部とを保持す
る、プロセッサのデータ・キャッシュ・ユニットであ
る。複数の機能ユニットが複数のメモリ常駐データ値を
同時に要求し、複数のメモリ束縛結果を同時に生成する
可能性があるので、データ・キャッシュは通常、マルチ
ポート化されているはずである。マルチポート化データ
・キャッシュは先行技術では周知である。

【００３８】ブロック１８０は、複数の機能ユニット
（機能ユニット−１、機能ユニット−２、機能ユニット
−Ｋ）からなるバンクであり、それぞれのユニットは一
部またはすべてのタイプの命令を実行することができ
る。機能ユニットは、レジスタ・ファイル（ブロック１
６０）またはデータ・キャッシュ（ブロック１７０）か
ら入力ソース・オペランドを受け取り、そこに出力結果
を書き込む。図１および図２に示す好ましい実施例で
は、すべての機能ユニットが同一であり、そのため、ど
のような命令も実行することができる。あるいは、バン
ク内の複数の機能ユニットを非対称にして、特定のユニ
ットが所与のサブセットの命令だけを実行できるように
することもできる。スケジューラ（ブロック１５０）
は、この非対称を認識し、適切に命令をスケジューリン
グする必要がある。このようなトレードオフも先行技術
では一般的である。

【００３９】ブロック１９０は、アーキテクチャによっ
て有効な順序と見なされる順序での命令実行の完了を担
当する命令完了ユニットである。ＣＰＵが順序外の命令
を実行できるとしても、それを同一順序で完了できるか
どうかは、アーキテクチャ上の制約による。将来スレッ
ド・ディスパッチャによる実行のためにスケジューリン
グされた命令は、推論スレッドの場合にＴＭユニット
（ブロック１３０）が将来スレッドの妥当性を確認した
あとでのみ、完了ユニットによる完了の対象となる。

【００４０】本発明では、コンパイル時に命令シーケン
スに挿入可能な新しい命令をいくつか提案する。このよ
うな命令の意味の詳細は以下の通りである。

【００４１】１．FORK この命令は、１つまたは複数の命令スレッドの開始アド
レス（複数も可）を識別する。識別されたそれぞれの命
令スレッドは将来スレッドと呼ばれる。このような将来
スレッドは、FORKのあとに順に続く一連の命令シーケン
スを引き続き実行するフォーキング・スレッドと同時に
実行することができる。将来スレッド用の開始ＣＰＵ状
態は、FORK命令を検出した時点のＣＰＵ状態のコピーで
ある。

【００４２】２．UNCOND_SUSPEND この命令を検出すると、将来スレッドは、無条件にその
スレッドを中断し、フォーキング・スレッドとの組合せ
を待たなければならない。これは、たとえば、無条件中
断命令後の命令が別のスレッド上の何らかの命令との重
要なデータ依存性を有する場合に必要になる可能性があ
る。提案したこの命令は他のいかなる属性も必要としな
いので、SUSPEND命令（後述する）とも組み合わせるこ
とが可能である。すなわち、SUSPEND命令のコード化の
１つは単に無条件中断を指定することができるだけにな
る。

【００４３】３．SUSPEND この命令を検出すると、将来スレッドは、引き続きその
命令取出しと実行を続行することができるが、第１のSU
SPEND命令に関連するコンパイル時指定条件が実行時に
偽と評価された場合は、そのプログラムの順次追跡順序
での第１のSUSPEND命令と第２のSUSPEND命令またはUNCO
ND_SUSPEND命令との間の一連の命令シーケンスの結果が
破棄される。

【００４４】以下の命令を簡略化するため、SUSPEND命
令の依存領域という用語は、SUSPEND命令後の最初の命
令から始まり、他のSUSPEND命令を検出した時点またはU
NCOND_SUSPEND命令を検出時点に終了する、順次追跡順
序での一連の命令シーケンスであると定義する。

【００４５】４．SKIP この命令を検出すると、将来スレッドは、次のコンパイ
ル時指定数の命令（通常はスピル・ロード）をデコード
し、対応するソース・レジスタと宛先レジスタに有効の
マークを付けることによってこれらの命令の実行を引き
受けることができるが、このスレッドはその命令に関連
する動作を実際に実行する必要はない。メイン・スレッ
ドはこの命令をＮＯＰとして取り扱う。

【００４６】５．FORK_SUSPEND この命令の命令コードは、将来スレッドの先頭を識別す
るアドレスと、一連の数値（Ｎ１、Ｎ２、・・・、Ｎ
ｎ）とに関連づけられ、それぞれの数値には条件が付い
ている場合もあれば付いていない場合もある。所与の一
連のｎ個の数値は、FORK命令に関連するアドレスから始
まる命令のｎ個の連続グループを意味する。関連条件が
一切付いていない数値は、対応するグループの命令を将
来スレッドとして無条件に実行できることを意味する。
関連条件が付いている数値は、コンパイル時指定条件が
実行時に真と評価された場合のみ、対応するグループの
命令の将来スレッドによる実行が有効になるはずである
ことを意味する。

【００４７】６．FORK_S_SUSPEND この命令の命令コードは、将来スレッドの先頭を識別す
るアドレスと、数値ｓと、一連の数値（Ｎ１、Ｎ２、・
・・、Ｎｎ）とに関連づけられ、それぞれの数値には条
件が付いている場合もあれば付いていない場合もある。
所与の一連のｎ個の数値は、FORK命令に関連するアドレ
スから始まる命令のｎ個の連続グループを意味する。関
連条件が一切付いていない数値は、対応するグループの
命令を将来スレッドとして無条件に実行できることを意
味する。関連条件が付いている数値は、コンパイル時指
定条件が実行時に真と評価された場合のみ、対応するグ
ループの命令の将来スレッドによる実行が有効になるは
ずであることを意味する。関連数値ｓは、スレッドの先
頭にあって、対応するソース・レジスタと宛先レジスタ
に有効のマークを付けるためにデコード可能なｓ個の命
令を意味するが、このスレッドはその命令に関連する動
作を実際に実行する必要はない。

【００４８】７．FORK_M_SUSPEND この命令の命令コードは、将来スレッドの先頭を識別す
るアドレスと、１組のマスク（Ｍ１、Ｍ２、・・・、Ｍ
ｎ）とに関連づけられ、それぞれのマスクには条件が付
いている場合もあれば付いていない場合もある。関連条
件が一切付いていないマスクは、将来スレッドの実行用
の有効なソース・オペランドを無条件に保持する、１組
のアーキテクチャ化レジスタを表している。関連条件が
付いているマスクは、コンパイル時指定条件が実行時に
真と評価された場合のみ、将来スレッドの実行用の有効
なソース・オペランドを保持すると想定することができ
る、１組のアーキテクチャ化レジスタを意味する。

【００４９】８．FSKIP この命令の命令コードは、１つのマスクと、数値ｓとに
関連づけられている。この命令を検出すると、将来スレ
ッドは、次のｓ個の命令の取出し、デコード、実行をス
キップすることができる。さらに将来スレッドは、１組
の定義済みレジスタ・セットに有効なオペランドを保持
しているというマークを付けるためにこのマスクを使用
する。メイン・スレッドはこの命令をＮＯＰとして取り
扱う。

【００５０】９．SKPMG この命令を検出すると、将来スレッドは、次のコンパイ
ル時指定数の命令（通常はスピル・ロード）をデコード
し、対応するソース・レジスタと宛先レジスタに有効の
マークを付けることができるが、このスレッドはその命
令に関連する動作を実際に実行する必要はない。この命
令がメイン・スレッドによって検出された場合は、将来
スレッドが個のSKPMG命令のアドレスの先頭に事前にフ
ォークされているかどうかを判定するために検査が行わ
れる。フォークされている場合は、メイン・スレッドと
対応する将来スレッドという２つのスレッドのマシン状
態を適切に組み合わせることにより、メイン・スレッド
が対応する将来スレッドと組み合わされ、メイン・スレ
ッドは、将来スレッドが中断された命令に続く命令から
実行を再開する。このアドレスへの事前フォークが一切
ない場合は、メイン・スレッドは、この命令に続く一連
の命令シーケンスを引き続き実行する。このような命令
の重要性については後述する。

【００５１】新しい命令の形式の詳細説明：新しい命令
の形式を示す図５ないし図１３の詳細説明は以下の通り
である。

【００５２】１．FORK <addr_1>, <addr_2>, ..., <add
r_n> 図５のFORK命令（ブロック１０）は、１つの命令コード
・フィールド（ブロック１１）と、それぞれが１つの将
来スレッドの開始命令アドレスを識別する１つまたは複
数のアドレス・フィールドaddr_1、addr_2、・・・、ad
dr_n（ブロック１２−１、１２−２、・・・、１２−
ｎ）とを含む。

【００５３】２．UNCOND_SUSPEND 図６のUNCOND_SUSPEND命令（ブロック２０）は、１つの
命令コード・フィールドを含む。

【００５４】３．SUSPEND <mode>, <cond_1> <cond_2>
... <cond_n> 図７のSUSPEND命令（ブロック３０）は、SUSPEND命令コ
ード・フィールド（ブロック３１）と、モード・フィー
ルド（ブロック３２）と、条件フィールド（ブロック３
３）とを含む。本発明の好ましい実施例では、１つまた
は複数の分岐からなるシーケンスの結果に関するコンパ
イル時推測をcond_1、cond_2、・・・、cond_n（ブロッ
ク３３−１、３３−２、・・・、３３−ｎ）としてコー
ド化するために条件フィールドを使用することができ
る。この特定の条件フィールド・コード化の意味につい
ては、以下に詳述する。

【００５５】モード・フィールドは、２通りの方法のう
ちの１つで条件フィールド内の１組の条件を解釈するた
めに使用する。モード・フィールドが有効（Ｖ）に設定
されている場合は、スレッド管理ユニットは、SUSPEND
命令に関連する<cond_1>〜<cond_n>のうち、コンパイル
時指定条件のいずれか１つが実行時に偽と評価された場
合に、SUSPEND命令に関連する依存領域内の１組の命令
の結果を破棄する。モード・フィールドが無効（Ｉ）に
設定されている場合は、スレッド管理ユニットは、SUSP
END命令に関連する<cond_1>〜<cond_n>というコンパイ
ル時指定条件のすべてが実行時に真と評価された場合
に、SUSPEND命令に関連する依存領域内の１組の命令の
結果を破棄する。直観的に言えば、コンパイラは、フォ
ーク点から組合せ点までの優良経路をコード化するため
に有効モード設定を使用し、フォーク点から組合せ点ま
での不良経路をコード化するために無効モード設定を使
用するはずである。

【００５６】一連の条件のうちの第１の条件cond_1は、
SUSPEND命令を含む将来スレッドをフォークしたあとで
実行時にフォーキング・スレッドによって検出された第
１の固有の条件付き分岐に関連づけられ、一連の条件の
うちの第２の条件cond_2は、SUSPEND命令を含む将来ス
レッドをフォークしたあとで実行時にフォーキング・ス
レッドによって検出された第２の固有の条件ブランチに
関連づけられ、以下同様になる。異なる命令位置に常駐
する分岐だけが固有と見なされる。さらに、好ましい実
施例では特定の分岐結果のコンパイル時推測をコード化
する条件は、実行（Ｔ）、非実行（Ｎ）、無指定（Ｘ）
のいずれかにすることができる。あるいは、これらの条
件に関連する推測は、実行（Ｔ）または非実行（Ｎ）の
いずれかになるように制限することができる。

【００５７】条件コード化形式をさらに明確にするた
め、以下のコード化例を検討する。

【００５８】○ SUSPEND V, T X N このコード化は、推測が該当する場合のみ、この条件付
き中断命令のあとに続く命令が有効であることを意味す
る。すなわち、SUSPEND命令に関連する<cond_1>〜<cond
_n>というコンパイル時指定条件のすべてが実行時に真
と評価された場合に、SUSPEND命令に関連する依存領域
内の１組の命令の結果である。第１の制御流れ条件で
は、SUSPEND命令を含むスレッドをフォークしたあとで
実行時にフォーキング・スレッドによって検出された第
１の固有の条件付き分岐が実行されると想定する。第２
のこのような分岐は、どちらに進んでもよい（すなわ
ち、制御非依存分岐）とコンパイラによって認められ、
第３のこのような分岐は、非実行であるとコンパイラに
よって想定されている。

【００５９】○ SUSPEND I, N T X N T X T このコード化は、推測が該当する場合のみ、この条件付
き中断命令のあとに続く命令が無効であることを意味す
る。すなわち、SUSPEND命令に関連する<cond_1>〜<cond
_n>というコンパイル時指定条件のすべてが実行時に真
と評価された場合にのみ、SUSPEND命令に関連する依存
領域内の１組の命令の結果が破棄される。第１の制御流
れ条件では、SUSPEND命令を含むスレッドをフォークし
たあとで実行時にフォーキング・スレッドによって検出
された第１の固有の条件付き分岐が実行されないと想定
する。第２のこのような分岐は、実行であるとコンパイ
ラによって想定され、第３のこのような分岐は、どちら
に進んでもよい（すなわち、制御非依存分岐）とコンパ
イラによって認められ、第４のこのような分岐は、非実
行であるとコンパイラによって想定され、第５のこのよ
うな分岐は、実行であると想定され、第６のこのような
分岐は、どちらに進んでもよいと認められ、第７のこの
ような分岐は、実行であると想定されている。

【００６０】ただし、フォーク後で組合せ前の領域内の
フォーキング・スレッド・コードがループなしになるよ
うに制限されている場合は、フォーク後にフォーキング
・スレッド内で検出される分岐の動的シーケンスがすべ
て固有のものになるはずであることに留意されたい。す
なわち、このような状況では、第１の固有の条件付き分
岐は単に第１の動的検出条件付き分岐になり、第２の固
有の条件付き分岐は単に第２の動的検出条件付き分岐に
なり、以下同様になるはずである。

【００６１】上記の条件形式は、FORK_SUSPEND、FORK_S
_SUSPEND、FORK_M_SUSPENDの各命令の場合にコンパイル
時推測条件を指定する際にも使用する。好ましい実施例
では、FORK_SUSPEND、FORK_S_SUSPEND、FORK_M_SUSPEND
の各命令で使用する条件フィールド・コード化におい
て、SUSPEND命令に関連する<cond_1>〜<cond_n>のう
ち、コンパイル時指定条件のいずれか１つが実行時に偽
と評価された場合に、スレッド管理ユニットがSUSPEND
命令に関連する依存領域内の１組の命令の結果を破棄す
ることを意味する、有効モード・フィールド設定を想定
している。

【００６２】４．FORK_SUSPEND <addr>, <N1,cond_1>
... <Nn,cond_n> 図８のFORK_SUSPEND命令（ブロック４０）は、命令コー
ド・フィールド（ブロック４１）と、アドレス・フィー
ルド（ブロック４２）と、それぞれが１つのカウント・
フィールドと１つまたは複数の条件とに関連づけられて
いる１つまたは複数の条件フィールド（ブロック４３−
１、４３−２、・・・、４３−ｎ）とを含む。条件用の
好ましい形式は、有効モード・フィールドを想定し、SU
SPEND命令のコンテキストで前述したものと同じであ
る。

【００６３】５．SKIP <n> 図９のSKIP命令（ブロック５０）は、命令コード（ブロ
ック５１）と、SKIP命令のコンテキストで前述したよう
に、この命令以降で実行をスキップすることができる命
令の数を指定するカウント・フィールド（ブロック５
２）とを含む。

【００６４】６．FORK_S_SUSPEND <addr>, <N>, <N1,co
nd_1> ... <Nn,cond_n> 図１０のFORK_S_SUSPEND命令（ブロック６０）は、命令
コード・フィールド（ブロック６１）と、アドレス・フ
ィールド（ブロック６２）と、（SKIP命令のコンテキス
トで）前述した意味で実行をスキップすることができ
る、スレッドの先頭にある命令の数を指定するカウント
・フィールド（ブロック６３）と、それぞれが１つのカ
ウント・フィールドと１つまたは複数の条件とに関連づ
けられている１つまたは複数の条件フィールド（ブロッ
ク６４−１、６４−２、・・・、６４−ｎ）とを含む。
条件用の好ましい形式は、有効モード・フィールドを想
定し、SUSPEND命令のコンテキストで前述したものと同
じである。

【００６５】７．FORK_M_SUSPEND <addr>, <M1,cond_1>
... <Mn,cond_n> 図１１のFORK_M_SUSPEND命令（ブロック７０）は、命令
コード・フィールド（ブロック７１）と、アドレス・フ
ィールド（ブロック７２）と、それぞれが１つのマスク
・フィールドと１つまたは複数の条件とに関連づけられ
ている１つまたは複数の条件フィールド（ブロック７３
−１、７３−２、・・・、７３−ｎ）とを含む。それぞ
れのマスク・フィールドは、有効なソース・オペランド
を保持する１組のアーキテクチャ化レジスタを指定する
レジスタ・マスクを含むが、関連条件は実行時に適用さ
れるものとする。条件用の好ましい形式は、有効モード
・フィールドを想定し、SUSPEND命令のコンテキストで
前述したものと同じである。

【００６６】８．FSKIP <mask> <n> 図１２のFSKIP命令（ブロック８０）は、命令コード・
フィールド（ブロック８１）と、１組のレジスタを定義
するマスク・フィールド（ブロック８２）と、FSKIP命
令のコンテキストで前述したように、完全にスキップす
ることができる命令の数を指定するカウント・フィール
ド（ブロック８３）とを含む。

【００６７】９．SKPMG <n> 図１３のSKPMG命令（ブロック９０）は、命令コード・
フィールド（ブロック９１）と、SKPMG命令のコンテキ
ストで前述したように、この命令以降で実行をスキップ
することができる命令の数を指定するカウント・フィー
ルド（ブロック9２）とを含む。

【００６８】組合せアクション：フォーク済みスレッド
とフォーキング・スレッドとの組合せ：対応するフォー
キング・スレッド（たとえば、メイン・スレッド）がフ
ォーク済み（将来）スレッドの先頭に達すると、フォー
ク済み将来スレッドがフォーキング・スレッドと組み合
わされる。この組合せは、フォーク済みスレッドによっ
て定義されたＣＰＵ状態が置き換えられ、残りの状態が
フォーキング・スレッドから保持されるように、２つの
スレッドのＣＰＵ状態を組み合わせることによって実施
される。通常、あるスレッドのＣＰＵ状態は、そのスレ
ッドによって使用され定義されるアーキテクチャ上可視
のレジスタを含むはずである。フォーキング・スレッド
・プログラム・カウンタは、組み合わされたフォーク済
みスレッドによって正しく実行された命令が再実行され
ず、組み合わされたフォーク済みスレッドによって実行
されていない命令が適切に実行されるように実行を続行
するために更新される。この場合、正しく実行された命
令とは、重要なプログラム依存関係に違反しないような
命令を意味する。フォーキング・スレッドは、組み合わ
されたスレッドの最新実行点を過ぎても実行を続行し、
組み合わされた将来スレッドによって正しく実行された
命令は、組合せプロセスの終わりに完了の対象となる。
組み合わされた将来スレッドに関連する資源は、組合せ
プロセスの終わりに解放される。ただし、組合せの時点
では、フォーク済み将来スレッドがすでに中断されてい
るか、まだ活発に実行中であるかのいずれかであること
に留意されたい。いずれも場合も、組合せプロセスが終
わると、組み合わされた将来スレッドが効果的に存在を
停止する。また、UNCOND_SUSPENDなどの明示的な中断プ
リミティブがない場合は、組合せが行われるまでフォー
ク済み将来スレッドがいつも実行を続けるはずであるこ
とにも留意されたい。

【００６９】フォークの任意選択性：本発明で提案した
命令の新規の特徴は、コンパイル時にそれを使用する場
合、実行時ＣＰＵ資源に関するいかなる想定も必要とし
ない点である。実際の実施態様の積極性に応じて、特定
のＣＰＵが将来スレッドを実際にフォークできる場合も
あれば、できない場合もある。すなわち、ＣＰＵの観点
から見ると、FORK命令の検出に応答して実行時に実際に
フォークするかどうかは、完全に任意選択である。この
ような命令のユーザ（たとえば、コンパイラ）は、保留
の将来スレッドの数を追跡する必要がなく、また、実行
時に確かに従う（すなわち、将来スレッドをフォークす
る）べき特定のフォークを想定することもできない。

【００７０】コンパイラは、個別の（将来）スレッドと
して実行可能な制御およびデータ非依存コード領域を識
別する。ただし、コンパイラは、このようなスレッドが
並列実行されることを想定するような追加の再構造化ま
たは最適化を一切実行しない。たとえば、コンパイラ
は、挿入されたFORK命令のいずれかが実行時にＣＰＵに
よって無視されると、正しいプログラム実行の保証が必
要になるはずのスピル・コードを保持する。スピル・コ
ードとは、アーキテクチャ上可視のＣＰＵレジスタの内
容を命令キャッシュ内の所与の位置に格納し、その後、
別の介入格納を行わずに同じ位置の内容を再ロードする
ためにコンパイル時に挿入される１組の命令を意味す
る。ただし、スピル・コードの実行は、将来スレッドと
してそれを実行している間は冗長になる可能性があるこ
とに留意されたい。将来スレッド実行中のこのようなス
ピル・コードの処理を最適化するため、本発明はSKIP命
令とFSKIPおよびSKPMGなどのその変形態様を追加してい
る。これらは、冗長なスピル・コードの実行を低減また
は解消するためのコンパイル時のヒントを可能にするも
のである。この新しい命令の意味の詳細は、前述の通り
である。

【００７１】FORK命令の任意選択性の直接的な結果とし
て、それぞれが０個またはそれ以上のスレッドをフォー
クできる、この強化型マシン・アーキテクチャの各種実
施態様に応じて再コンパイルする必要がないことに留意
されたい。同様に、新しい命令のいずれも含まない古い
２進コードについても、再コンパイルの必要はない。

【００７２】将来スレッドでの複数条件付き中断の解
釈：FORK命令に応答してフォークされた将来スレッド
が、無条件中断を検出する前に一連の条件付き中断を検
出する可能性がある。それぞれの条件付き中断は、いま
だに共通のフォーク点に関連してしかも他の条件付き中
断とは無関係に解釈されている。したがって、各種の制
御流れ推測を将来スレッドの様々な部分に関連づけるこ
とは可能である。ここでSUSPEND命令Ａについて検討す
る。FORK、SUSPEND、UNCOND_SUSPEND、FORK_S_SUSPEN
D、FORK_M_SUSPEND、またはSKPMG命令以外のいくつかの
命令の後で、別のSUSPEND命令ＢがＡの後に続くと想定
する。通常、SUSPEND命令Ｂの後にはUNCOND_SUSPEND命
令が続くはずである。ここで、SUSPEND命令Ａに関連す
るコンパイル時条件が実行時に偽になると判定されてい
ると想定する。コンパイルを簡略化し、将来スレッドで
の状態維持を低減するために、本発明の好ましい実施例
では、破棄の時期を命令ＡとＢとの間に限定するのでは
なく、命令ＡとUNCOND_SUSPEND命令との間にすべての命
令の結果を破棄できるだけである。

【００７３】組合せ点の識別の簡略化：コンパイル時に
は、将来スレッド内のすべてのスピル・ロードをグルー
プ化し、そのグループを将来スレッドの実行が始まるブ
ロックの先頭に移動させることが可能な場合もある。す
べての潜在的将来スレッドの最初の実行が新しいSKPMG
命令になるようにさらにコンパイラが保証する場合、こ
の命令は、スキップ可能なスピル・ロードの標識ならび
に将来スレッドの開始用のマーカの両方の役割を果た
す。この命令の意味については、前述の通りである。た
だし、（SKPMGの形での）このような将来スレッド・マ
ーカがない場合、メイン・スレッドは、絶えずその命令
アドレスをすべての事前フォーク済み将来スレッドと照
らし合わせて検査し、組合せが必要かどうかを検出する
必要がある場合もあることに留意されたい。また、スキ
ップされる命令の数がゼロであっても、この解釈では将
来スレッド・マーカの追加機能を果たすので、コンパイ
ラはこのSKPMG命令を挿入しなければならない。

【００７４】図３および図４は、１次実行方法（ＰＥ
Ｍ）と呼ばれる本発明の実行方法の諸ステップを示す流
れ図である。本発明の方法の説明とともに、図３および
図４の詳細説明を以下に示す。

【００７５】１．フォーク点の検出（ブロック２１
０）：本発明で提案した新しい命令とは無関係に、当技
術分野で既知の技法を使用して静的順序の命令シーケン
スを生成する。この命令シーケンスを分析して、１組の
フォーク点を判定する。フォーク点とは、静的命令シー
ケンス中の位置であって、使用可能なマシン状態が順次
追跡順序で後から（ただし、フォーク点の直後ではな
い）現れる１組または複数組の命令の並列実行を開始で
きる位置を意味する。フォーク点の識別には、先行技術
で既知の技法を使用して対応するプログラム依存性グラ
フ（制御依存性グラフとデータ依存性グラフの組合せ）
の一部または全部に基づいて行う、データおよび制御依
存性分析が含まれる。たとえば、分岐命令を解決する
と、実質的に分岐命令に制御依存している命令のスレッ
ド用のフォーク点に到達することができる。

【００７６】２．FORKの挿入（ブロック２２０）：コン
パイル時に潜在的フォーク点のうちの０個またはそれ以
上に０個またはそれ以上のFORK命令を挿入する。この位
置では、FORK命令は、フォーク点に関連する０個または
それ以上の潜在的将来スレッドの開始アドレスを識別す
ることができる。特定のFORK命令とそのフォーク済み将
来スレッド（複数も可）との関連づけがある場合は、そ
の関連づけが前述のＴＭユニットによって管理される。

【００７７】３．静的シーケンスのロード（ブロック２
３０）：固定位置から始まるメモリ・システム（図１の
ブロック１００）に前のステップ（FORKの挿入、ブロッ
ク２２０）後に生成した静的順序の命令シーケンスをロ
ードする。この固定位置では、メモリ・システムと中央
演算処理装置の命令キャッシュとのインタフェースが取
られ、静的シーケンスの続きが定期的に命令キャッシュ
に転送される。

【００７８】４．取出しと組合せ検査（ブロック２４
０）：現行アドレス以降について、メイン・プログラム
・カウンタ（すなわち、メイン・スレッドとして）によ
りシーケンスをアドレス指定し、プログラム・カウンタ
を更新することにより、命令キャッシュから命令シーケ
ンスを取り出す。命令キャッシュ内で見つからない命令
はメイン・メモリからキャッシュに取り出される。命令
の取出しとともに、現行命令取出しアドレス以降につい
て、組み合わされていない１つまたは複数の将来スレッ
ドがあるかどうかを判定するための検査も行われる。こ
の暗黙の組合せ検査の実行は、ＴＭユニット（図１のブ
ロック１３０）も担当する。この検査は通常、組み合わ
されていない（保留）すべての将来スレッドの開始アド
レスとそれぞれの命令取出しアドレスとの比較を含むは
ずである。

【００７９】５．スレッド妥当性検査（ブロック２５
０）：１つまたは複数の将来スレッドが別の実行スレッ
ド（たとえば、メイン・スレッド）の命令取出しアドレ
スに事前にフォークされていると前のステップ（ブロッ
ク２４０）で判定された場合は、１つまたは複数の推測
の結果、プログラム依存関係の違反のためにこのような
将来スレッドのそれぞれによって実行された命令の一部
または全部を破棄する必要があるかどうかを確認するた
めに、追加の検査がＴＭユニットによって行われる。

【００８０】６．組合せ（ブロック２６０）：前のステ
ップ（スレッド妥当性検査、ブロック２５０）で識別さ
れたフォーク済み将来スレッドのうち、有効に実行され
た部分が、前述の組合せ動作によりメイン・スレッドと
組み合わされる。

【００８１】７．デコード（ブロック２７０）：取り出
した命令をディスパッチャでデコードする。その命令の
うちの１つまたは複数がFORK命令としてデコードされた
かどうかを確認するために検査する。

【００８２】８．メイン・スレッドの実行（ブロック２
８０）：前のステップ（デコード、ブロック２７０）で
いずれかの命令がFORK以外の命令としてデコードされた
場合、（図１のブロック１４０を使用して）命令依存関
係を分析し、適切な機能ユニット（図２のブロック１８
０）上で実行するために（図１のブロック１５０を使用
して）それらをスケジューリングすることにより、実行
を続行する。

【００８３】９．完了（ブロック２９０）：前述のよう
に、完了ユニット（図２のブロック１９０）により命令
実行を完了する。ステップ４〜９に記載した取出し、デ
コード、実行のプロセスは続行される。

【００８４】１０．フォーク能力の判定（ブロック３０
０）：上記のブロック２７０に関連するステップ（デコ
ード）で命令がFORK命令としてデコードされた場合は、
追加の将来スレッドをフォークするために使用可能なマ
シン資源があるかどうかを判定するための検査が行われ
る。将来スレッドをフォークするのに必要なマシン資源
としては、使用可能なプログラム・カウンタと、スレッ
ド状態を保管するために使用可能な内部バッファ空間な
どがある。

【００８５】１１．フォーク（ブロック３１０）：使用
可能な資源がある場合は、FORK命令に関連するアドレス
（複数も可）を将来プログラム・カウンタ（複数も可）
にロードすることにより、ＴＭユニットが将来スレッド
（複数も可）をフォークする。これにより将来スレッド
（複数も可）の実行が始まるが、将来スレッドの開始マ
シン状態（プログラム・カウンタを除く）は、フォーク
点でのメイン・スレッド（関連FORK命令をデコードする
スレッド）のものと同じになる。

【００８６】１２．将来スレッドの実行（ブロック３２
０）：上記のステップ（４）〜（８）と同様に、フォー
キング・スレッドの実行と並行して将来スレッドの実行
が続行される。ただし、メイン・プログラム・カウンタ
とメイン・スレッド・ディスパッチャの代わりに、将来
プログラムカウンタの１つと将来スレッド・ディスパッ
チャの１つをそれぞれ使用し、メイン・スレッドをフォ
ーキング・スレッドと呼ぶ。

【００８７】１３．将来スレッドの停止（ブロック３３
０）：将来スレッドがフォーキング・スレッドと組み合
わされた後、または将来スレッドがＴＭユニットによっ
て破棄された後、将来スレッドの実行が中断され、関連
資源が解放される。

【００８８】前述の１次実行方法（ＰＥＭ）の強化例を
いくつか以下に説明する。

【００８９】代替実施例１：１．ＰＥＭのステップ（２）は、以下の追加サブステッ
プを有する。 ○ すべての将来スレッドの終わりにUNCOND_SUSPEND命
令が挿入される。

【００９０】２．ＰＥＭのステップ（１２）は、以下の
追加サブステップを有する。 UNCOND_SUSPEND命令を検出すると、その対応将来スレッ
ドの実行中に将来スレッドは無条件にそのスレッドを中
断する。

【００９１】３．ＰＥＭのステップ（８）は、以下の追
加サブステップを有する。 ○ その対応将来スレッド以外のスレッドが（たとえ
ば、メイン・スレッド内で）実行するためにUNCOND_SUS
PEND命令が検出された場合は、その命令は無視される。

【００９２】代替実施例２：１．代替実施例１を含むＰＥＭのステップ（１）は、以
下の追加サブステップを有する。 ○ すべてのUNCOND_SUSPEND命令に対応して、対応将来
スレッドに０個またはそれ以上のSUSPEND命令を挿入す
ることができ、そこでそれぞれのSUSPEND命令が１つの
条件に関連づけられる。

【００９３】２．代替実施例１を含むＰＥＭのステップ
（２）は、以下の追加サブステップを有する。 ○ SUSPEND命令に関連するコンパイル時指定条件が実
行時に真と評価される場合のみ、SUSPEND命令に関連す
る依存領域内の１組の命令が対応将来スレッドでの実行
に有効であると見なされる。したがって、将来スレッド
の実行が条件付き中断命令を検出するときまでに関連推
測が無効であると分かっている場合には、条件付き中断
点で（ＴＭユニットによって）将来スレッドを強制的に
中断することもできる。

【００９４】３．代替実施例１を含むＰＥＭのステップ
（３）は、以下の追加サブステップを有する。 ○ その対応将来スレッド以外のスレッドが（たとえ
ば、メイン・スレッド内で）実行するためにSUSPEND命
令が検出された場合は、その命令は無視される。

【００９５】代替実施例３：１．代替実施例２を含むＰＥＭのステップ（１）は、以
下の追加サブステップを有する。 ○ ０個またはそれ以上のSKIP命令を将来スレッドに挿
入することができ、そこで、それぞれのSKIP命令が数値
ｓに関連づけられる。

【００９６】２．代替実施例２を含むＰＥＭのステップ
（２）は、以下の追加サブステップを有する。 ○ その対応将来スレッドの実行中に関連数値ｓを含む
SKIP命令を検出すると、この命令に続く次のｓ個の命令
だけをデコードする必要が生じ、これらの命令の残りの
実行はスキップすることができる。これらの命令で使用
するソース・レジスタと宛先レジスタは、有効オペラン
ドを保持するものとしてマークを付けることができる
が、いずれかの機能ユニット上で実行するためにこれら
のｓ個の命令をスケジューリングする必要はない。

【００９７】３．代替実施例２を含むＰＥＭのステップ
（３）は、以下の追加サブステップを有する。 ○ その対応将来スレッド以外のスレッドが（たとえ
ば、メイン・スレッド内で）実行するためにSKIP命令が
検出された場合は、その命令は無視される。

【００９８】代替実施例４：１．代替実施例２を含むＰＥＭのステップ（１）は、以
下の追加サブステップを有する。 ○ ０個またはそれ以上のFSKIP命令を将来スレッドに
挿入することができ、そこで、それぞれのFSKIP命令
が、１組のアーキテクチャ化レジスタを定義するマスク
と、数値ｓとに関連づけられる。

【００９９】２．代替実施例２を含むＰＥＭのステップ
（２）は、以下の追加サブステップを有する。 ○ その対応将来スレッドの実行中にマスクと数値ｓを
含むFSKIP命令を検出すると、この命令に続く次のｓ個
の命令をスキップすることができる。すなわち、これら
の命令は、取出し、デコード、または実行を行う必要が
ない。マスクで識別されたレジスタは、有効オペランド
を保持するものとしてマークを付けることができる。

【０１００】３．代替実施例２を含むＰＥＭのステップ
（３）は、以下の追加サブステップを有する。 ○ その対応将来スレッド以外のスレッドが（たとえ
ば、メイン・スレッド内で）実行するためにFSKIP命令
が検出された場合は、その命令は無視される。

【０１０１】代替実施例５：１．代替実施例２を含むＰＥＭのステップ（１）は、以
下の追加サブステップを有する。 ○ すべての将来スレッドの先頭に１つのSKPMG命令が
挿入され、そこで、それぞれのSKPMG命令が数値ｓに関
連づけられる。

【０１０２】２．代替実施例２を含むＰＥＭのステップ
（２）は、以下の追加サブステップを有する。 ○ その対応将来スレッドの実行中に関連数値ｓを含む
SKPMG命令を検出すると、この命令に続く次のｓ個の命
令だけをデコードする必要が生じ、これらの命令の残り
の実行はスキップすることができる。これらの命令で使
用するソース・レジスタと宛先レジスタは、有効オペラ
ンドを保持するものとしてマークを付けることができる
が、いずれかの機能ユニット上で実行するためにこれら
のｓ個の命令をスケジューリングする必要はない。

【０１０３】３．代替実施例２を含むＰＥＭのステップ
（３）は、以下の追加サブステップを有する。 ○ その対応将来スレッド以外のスレッドが（たとえ
ば、メイン・スレッド内で）実行するためにSKPMG命令
が検出された場合は、SKPMG命令の命令アドレス以降に
ついて、将来スレッドがすでにフォークされているかど
うかを判定するための組合せ検査が行われる。

【０１０４】４．ＰＥＭのステップ（４）の暗黙の組合
せ検査はここでは不要であり、そのため除去される。

【０１０５】代替実施例６：１．ＰＥＭのFORKの挿入ステップ（すなわち、ステップ
３）は、以下のステップに置き換えられる。 ○ ０個またはそれ以上の潜在的フォーク点に０個また
はそれ以上のFORK_SUSPEND命令を挿入する。その場合、
FORK_SUSPEND命令は、関連の潜在的将来スレッドの開始
アドレスを識別するアドレスと、一連の数値とを含み、
それぞれの数値には条件が付いている場合もあれば付い
ていない場合もある。所与の一連の数値は、FORK_SUSPE
ND命令に関連するアドレスから始まる命令の連続グルー
プを意味する。特定のFORK_SUSPEND命令とそのフォーク
済み将来スレッドとの関連づけがある場合は、前述のＴ
Ｍユニットによってその関連づけが管理される。

【０１０６】２．ＰＥＭのフォーク能力の判定ステップ
（すなわち、ステップ１０）は、以下のステップに置き
換えられる。 ○ 命令がFORK_SUSPEND命令としてデコードされた場合
は、追加の将来スレッドをフォークするために使用可能
なマシン資源があるかどうかを判定するための検査が行
われる。

【０１０７】３．ＰＥＭのフォーク・ステップ（すなわ
ち、ステップ１１）は、以下のステップに置き換えられ
る。 ○ 使用可能な資源がある場合は、FORK_SUSPEND命令に
関連するアドレス（複数も可）を将来プログラム・カウ
ンタ（複数も可）にロードすることにより、将来スレッ
ドをフォークする。

【０１０８】４．ＰＥＭの将来スレッドの実行ステップ
（すなわち、ステップ１２）は、以下の追加サブステッ
プを有する。 ○ FORK_SUSPEND命令に関連する数値列は、以下のよう
に対応将来スレッドの実行を制御する。数値たとえばｎ
に関連条件が一切付いていない場合は、ｎ個の命令から
なる対応グループを将来スレッドとして無条件に実行で
きることを意味し、数値たとえばｍに関連条件が付いて
いる場合は、コンパイル時指定条件が実行時に真と評価
される場合のみ、ｍ個の命令からなる対応グループの将
来スレッド実行が有効になるはずである。

【０１０９】代替実施例７：１．ＰＥＭのFORKの挿入ステップ（すなわち、ステップ
３）は、以下のステップに置き換えられる。 ○ ０個またはそれ以上の潜在的フォーク点に０個また
はそれ以上のFORK_S_SUSPEND命令を挿入する。その場
合、FORK_S_SUSPEND命令は、関連の潜在的将来スレッド
の開始アドレスを識別するアドレスと、数値たとえばｓ
と、一連の数値とを含み、それぞれの数値には条件が付
いている場合もあれば付いていない場合もある。所与の
一連の数値は、FORK_S_SUSPEND命令に関連するアドレス
から始まる命令の連続グループを意味する。

【０１１０】２．ＰＥＭのフォーク能力の判定ステップ
（すなわち、ステップ１０）は、以下のステップに置き
換えられる。 ○ 命令がFORK_S_SUSPEND命令としてデコードされた場
合は、追加の将来スレッドをフォークするために使用可
能なマシン資源があるかどうかを判定するための検査が
行われる。

【０１１１】３．ＰＥＭのフォーク・ステップ（すなわ
ち、ステップ１１）は、以下のステップに置き換えられ
る。 ○ 使用可能な資源がある場合は、FORK_S_SUSPEND命令
に関連するアドレス（複数も可）を将来プログラム・カ
ウンタ（複数も可）にロードすることにより、将来スレ
ッドをフォークする。

【０１１２】４．ＰＥＭの将来スレッドの実行ステップ
（すなわち、ステップ１２）は、以下の追加サブステッ
プを有する。 ○ FORK_S_SUSPEND命令に関連する数値列は、以下のよ
うに対応将来スレッドの実行を制御する。対応スレッド
を将来スレッドとして実行している間は最初のｓ個の命
令だけをデコードすることができ、これらの命令で使用
するソース・レジスタと宛先レジスタは、有効オペラン
ドを保持するものとしてマークを付けることができる
が、いずれかの機能ユニット上で実行するためにこれら
のｓ個の命令をスケジューリングする必要はない。さら
に、数値たとえばｎに関連条件が一切付いていない場合
は、ｎ個の命令からなる対応グループを将来スレッドと
して無条件に実行できることを意味し、数値たとえばｍ
に関連条件が付いている場合は、コンパイル時指定条件
が実行時に真と評価される場合のみ、ｍ個の命令からな
る対応グループの将来スレッド実行が有効になるはずで
ある。

【０１１３】代替実施例８：１．ＰＥＭのFORKの挿入ステップ（すなわち、ステップ
３）は、以下のステップに置き換えられる。 ○ ０個またはそれ以上の潜在的フォーク点に０個また
はそれ以上のFORK_M_SUSPEND命令を挿入する。その場
合、FORK_M_SUSPEND命令は、関連の潜在的将来スレッド
の開始アドレスを識別するアドレスと、１組のマスクと
を含み、それぞれのマスクには条件が付いている場合も
あれば付いていない場合もある。

【０１１４】２．ＰＥＭのフォーク能力の判定ステップ
（すなわち、ステップ１０）は、以下のステップに置き
換えられる。 ○ 命令がFORK_M_SUSPEND命令としてデコードされた場
合は、追加の将来スレッドをフォークするために使用可
能なマシン資源があるかどうかを判定するための検査が
行われる。

【０１１５】３．ＰＥＭのフォーク・ステップ（すなわ
ち、ステップ１１）は、以下のステップに置き換えられ
る。 ○ 使用可能な資源がある場合は、FORK_M_SUSPEND命令
に関連するアドレス（複数も可）を将来プログラム・カ
ウンタ（複数も可）にロードすることにより、将来スレ
ッドをフォークする。

【０１１６】４．ＰＥＭの将来スレッドの実行ステップ
（すなわち、ステップ１２）は、以下の追加サブステッ
プを有する。 ○ FORK_M_SUSPEND命令に関連するマスク列は、以下の
ように対応将来スレッドの実行を制御する。対応スレッ
ドを将来スレッドとして実行している間、FORK_M_SUSPE
NDに関連し、条件が一切付いていないマスクは、将来ス
レッドの実行のための有効ソース・オペランドを無条件
に保持する１組のアーキテクチャ化レジスタを表し、条
件に関連するマスクは、コンパイル時指定条件が実行時
に真と評価される場合のみ、将来スレッドの実行のため
の有効ソース・オペランドを保持すると想定することが
できる１組のアーキテクチャ化レジスタを意味する。命
令のソース・レジスタ・オペランドに関連するコンパイ
ル時指定条件が実行時に真に該当しない場合は、ＴＭユ
ニットが将来スレッド内の命令の一部または全部の結果
を破棄する。

【０１１７】代替実施例９：１．ＰＥＭのメイン・スレッドの実行ステップ（すなわ
ち、ステップ８）は、以下の追加サブステップを有す
る。 ○ スレッド実行中のすべての分岐解決（すなわち、条
件付き分岐を実行するかどうかの判定と、関連目標アド
レス）はＴＭユニットに連絡される。ＴＭユニットはこ
の情報を使用して、間違った分岐アドレスにフォークさ
れた将来スレッドと依存スレッドを破棄する必要がある
かどうかを判定する。これにより、後述するように命令
の制御依存ブロックの同時実行が可能になる。

【０１１８】代替実施例１０：１．ＰＥＭの取出しと組合せ検査ステップ（すなわち、
ステップ４）は、以下の追加サブステップを有する。 ○ 事前にフォークされたスレッドのいずれかが既定の
タイムアウト期間より長い間、組み合わされずにいたか
どうかを確認する検査を含むように、組合せ検査が拡張
される。このようなスレッドはすべてＴＭユニットによ
って破棄される。

【０１１９】新しい命令のコード化の詳細説明：図１４
ないし図１７は、新しい命令の一部の好ましいコード化
例を示している。ビット位置０は最上位ビット位置を意
味し、ビット位置３１は最下位ビット位置を意味する。

【０１２０】１．FORK（図１４）この命令（ブロック１１１）では、ビット０〜５を使用
して１次命令コード４を使用している。将来スレッドの
開始アドレスの相対アドレスはビット位置６〜２９の２
４ビットのアドレス・フィールドにコード化される。最
後の２ビットであるビット位置３０と３１は、FORK命令
の代替形式のコード化を行うための拡張命令コード・フ
ィールドとして使用される。この２ビットは、FORK命令
のこのバージョンでは０に設定される。

【０１２１】２．UNCOND_SUSPEND（図１５）この命令（ブロック２２２）では、ビット位置０〜５の
１次命令コード１９を使用している。拡張命令コード・
フィールドのビット２１〜３０は、それを同じ１次命令
コードを含む他の命令と区別するために５１４に設定さ
れている。ビット３１は、この無条件中断命令を条件付
き中断（SUSPEND）命令と区別するために０に設定され
ている。

【０１２２】３．SUSPEND（図１６）この命令（ブロック３３３）では、ビット位置０〜５の
１次命令コード１９を使用している。拡張命令コード・
フィールドのビット２１〜３０は、それを同じ１次命令
コードを含む他の命令と区別するために５１４に設定さ
れている。ビット３１は、この条件付き中断命令を無条
件中断（UNCOND_SUSPEND）命令と区別するために１に設
定されている。コンパイル時分岐推測は、実行、非実
行、無指定のいずれかになる。したがって、ビット位置
７〜２０を使用して７つのコンパイル時分岐推測Ｃ１〜
Ｃ７のそれぞれについて、２ビットずつ使用する。この
シーケンスの第１の条件Ｃ１（ビット７と８）は、SUSP
END命令を含む将来スレッドのフォーク後に実行時にフ
ォーキング・スレッドによって検出される第１の固有の
条件付き分岐に関連づけられ、このシーケンスの第７の
条件Ｃ７は、SUSPEND命令を含む将来スレッドのフォー
ク後に実行時にフォーキング・スレッドによって検出さ
れる第７の固有の条件付き分岐に関連づけられている。
モード・フィールドはビット位置６にコード化される。
このコード化に関連する意味については、SUSPEND命令
のコンテキストで既に前述した通りである。

【０１２３】４．FORK_SUSPEND（図１７）この命令（ブロック４４４）でも、ビット位置０〜５で
上記のFORK命令に使用したものと同じ１次命令コード４
を使用している。しかし、拡張命令コード・フィールド
（ビット３０と３１）は、それをFORK命令と区別するた
めに１に設定されている。将来スレッドの開始アドレス
の相対アドレスはビット位置２０〜２９の１０ビットの
アドレス・フィールドにコード化される。コンパイル時
分岐推測は、実行、非実行、無指定のいずれかになる。
したがって、４つのコンパイル時分岐推測Ｃ１〜Ｃ４の
それぞれについて、２ビットずつ使用する。このシーケ
ンスの第１の条件Ｃ１は、SUSPEND命令を含む将来スレ
ッドのフォーク後に実行時にフォーキング・スレッドに
よって検出される第１の固有の条件付き分岐に関連づけ
られ、このシーケンスの第４の条件Ｃ４は、SUSPEND命
令を含む将来スレッドのフォーク後に実行時にフォーキ
ング・スレッドによって検出される第４の固有の条件付
き分岐に関連づけられている。第１の数値Ｎ１（ビット
６〜８）は、Ｃ１（ビット９と１０）とＣ２（ビット１
１と１２）の両方に関連する条件が実行時に真に該当す
ると評価されると想定して、将来スレッドの開始アドレ
スから始まる有効な命令の数を意味する。これに対し
て、Ｎ２（ビット１３〜１５）は、Ｃ３（ビット１６と
１７）とＣ４（ビット１８と１９）の両方に関連する条
件が実行時に真に該当すると評価されると想定して、将
来スレッドの開始アドレスから始まる有効な命令＋Ｎ１
個の命令の数を意味する。

【０１２４】例図１８ないし図２０は、本発明で提案した命令の一部を
コード・シーケンスのサンプルで使用した場合を示して
いる。図示のコード・シーケンスは、任意で分岐命令で
終わる、非分岐命令のブロックに分割されている。使用
する命令ニーモニックは、本発明で導入したもの（たと
えば、FORK）か、またはＰｏｗｅｒＰＣアーキテクチャ
（ＰｏｗｅｒＰＣはＩＢＭの商標である）のものかのい
ずれかである。条件付き分岐で終わるコードシーケンス
のブロックは、分岐を実行しない場合に制御の転送先に
なるブロックに続く辺Ｎと、分岐を実行する場合に制御
の転送先になるブロックに続くもう１つの辺Ｔとを有す
る。

【０１２５】図１８および図１９は、複数の命令からな
る制御非依存ブロック間で推測するために本発明で提案
した命令を使用する場合を示している。図１８および図
１９のＢ１とＢ１２のような様々な制御非依存ブロック
の同時取出し、デコード、推測、実行を可能にするため
に、FORK、SUSPEND、UNCOND_SUSPENDの各命令が使用さ
れている。制御がブロックＢ０からＢ１に達すると、ブ
ロックＢ１のFORK命令を使用して、制御非依存ブロック
Ｂ１２とＢ１との並行実行を開始する。ただし、Ｂ１を
実行するメイン・スレッドはいくつかの経路の１つをた
どることができるが、それらの経路はいずれも将来スレ
ッドとして実行されるブロックＢ１２に到達することに
留意されたい。同様に、ブロックＢ１の終わりにある分
岐の解決によってＢ３に至る場合には、制御非依存Ｂ９
の並行実行のためにFORK命令が使用される。ブロックＢ
３を実行するスレッドは、ブロックＢ６またはＢ７の実
行後にＢ９から始まる将来スレッドと組み合わされる。

【０１２６】アーキテクチャ化レジスタ２とメモリ位置
ｍｅｍ６それぞれの更新の結果発生する重要な依存関係
を観察するために、ブロックＢ９とＢ１２を実行する将
来スレッドで無条件中断すなわちUNCOND_SUSPEND命令が
使用される。ブロックＢ３の終わりにある分岐の結果と
して、フォーキング・スレッド（ブロックＢ３を実行す
るもの）が実行時にブロックＢ７に移行し、ブロックＢ
６（レジスタ３を更新するもの）を回避すると想定し
て、次の２つの命令を推論実行するために、ブロックＢ
９では条件付き中断すなわちSUSPEND命令が使用され
る。同様に、制御がブロックＢ１０（レジスタ４を更新
するもの）に移行しないと想定して、次の４つの命令を
推論実行するためにSUSPEND命令が使用される。ただ
し、回避される経路、すなわちブロックＢ２とＢ１０を
介してブロックＢ１のフォーク点からブロックＢ１２の
組合せ点に至る経路は、経路表現ＴＸＴを使用してコン
パイル時にコード化されることに留意されたい。この表
現は、フォーク点後の第１の固有の条件付き分岐すなわ
ちＢ１の終わりにある分岐が実行され、第２の分岐すな
わちＢ２の終わりにある分岐はどちらにも進むことがで
き、Ｂ８の終わりにある分岐も実行されることを意味す
る。ただし、この場合、複数の優良経路（すなわち、レ
ジスタ４を一切更新しない経路）が存在することに留意
されたい。ブロックＢ２の終わりにある分岐はブロック
Ｂ４またはブロックＢ５のいずれかに進むことができ、
Ｂ８の終わりにある分岐が実行されず、Ｂ１１に至る場
合はこれらの経路のいずれも優良と見なされるはずであ
る。

【０１２７】フォークの任意選択性を保証するために、
図１９のブロックＢ１２の先頭にあるスピル・ロードが
コンパイラによって保存されていることに留意された
い。また、Ｂ１２が将来スレッドとして実行される場合
は、スピル・ロードの冗長実行を最適化するために図１
９でSKIP命令が使用されることにも留意されたい。

【０１２８】図２０は、複数の命令からなる制御依存ブ
ロック間で推測するためにFORK命令とSUSPEND命令を使
用する場合を示している。FORK命令は、ブロックＢ１０
０から制御依存ブロックＢ２００とＢ３００にフォーク
するために使用されている。制御依存ブロックＢ２００
とＢ３００は、推論実行され、並列である。メイン・ス
レッドはブロックＢ１００を実行するが、フォーク済み
将来スレッドはブロックＢ２００とブロックＢ３００を
実行する。ブロックＢ１００の終わりにある分岐を解決
すると、ＴＭユニットは間違った分岐結果に関して条件
付けされた将来スレッドを破棄する。たとえば、分岐を
実行する場合、Ｂ２００から始まる将来スレッドが破棄
される。

【０１２９】潜在的利点この項では、上記で提案した命令が前述の諸問題を解決
するのにどのように役立つかを詳しく説明する。

【０１３０】１．命令取出しのボトルネックの緩和上記の例に示したように、提案したフォーク命令と中断
命令は、現行スーパースカラー・プロセッサの命令取出
しのボトルネックに対処する新規の方法を提供する。コ
ンパイラは、これらの命令を使用して、任意の距離にあ
る（動的に）制御非依存ブロックを指し示すことができ
る。制御非依存とは、プログラム制御がフォーク点に達
した場合に、これらの将来ブロックに達するように拘束
される（当然のことながら、予測できないような流れの
変更を行うことができる割込みは一切ないものと想定す
る）ことを意味する。したがって、そのブロックの制御
依存性が解決されるとただちに（制御の流れを待たず
に）命令を取り出すことができる。また、その制御依存
性が得られる分岐（制御の流れが得られる分岐ではな
い）が間違って予測された場合のみ、推論方式で取り出
した命令を破棄しなければならない。たとえば、ブロッ
クＢ９の命令は、ブロックＢ１でのその共用制御依存性
が解決されるか、推測された直後に、ブロックＢ３の命
令とともに取り出すことができる。さらに、ブロックＢ
９からの命令は、ブロックＢ３の終わりにある分岐が間
違って予測された場合ではなく、ブロックＢ１の終わり
にある制御依存分岐が間違って予測された場合のみ、無
駄な取出しと見なすか、破棄しなければならない。制御
依存性の概念を持たない従来のスーパースカラーは、ブ
ロックＢ７とＢ９がブロックＢ３の終わりにある分岐の
従来の制御流れ推測により取り出され、その後、これが
予測謝りであると判明した場合、ブロックＢ７（または
Ｂ６）ならびにＢ９のその推論取出しを破棄するはずで
ある。

【０１３１】２．制御非依存ブロック間でのデータ非依
存性の活用これらのブロックに至る可能性のあるすべての制御流れ
経路とはデータ非依存でもある制御非依存ブロックの命
令は、このような制御非依存ブロックへの複数フォーク
を介して、同時かつ非推論方式で実行することができ
る。たとえば、ブロックＢ９（Ｂ３とは制御非依存であ
る）の最初の３つの命令は、ブロックＢ３、Ｂ６、Ｂ７
（Ｂ３からＢ９への１組の制御流れ経路上の１組の基本
ブロック）の命令とはデータ非依存である。したがっ
て、これらの命令は、提案したフォーク命令と中断命令
を使用して、非推論方式で取り出して実行することがで
きる。

【０１３２】３．制御非依存ブロック間でのデータ依存
性の推測将来スレッドの活動とメイン・スレッドの活動とのオー
バラップを高めるためには、将来スレッド内の潜在的デ
ータ依存性に関する何らかの形式の推測が必要である。
図１８および図１９の例を検討する。この場合、ブロッ
クＢ１〜Ｂ１１にはレジスタ４の定義が１つしかない。
これはブロックＢ１０で定義されている。メイン・スレ
ッドの制御の流れについて推測する、すなわち、メイン
・スレッドの制御の流れがブロックＢ１０に達しないと
想定すると、ブロックＢ１２の先頭から始まる将来スレ
ッドとブロックＢ１に継続するメイン・スレッドとのオ
ーバラップを高めることが可能である。ブロックＢ１０
の違反命令に至る正確な制御の流れは、提案した条件付
き中断命令の一部として、＜ＴＸＴ＞としてコード化さ
れる。ただし、制御流れの推測はコンパイル時に行わ
れ、このため、静的分岐予測（またはプロファイル主導
あるいはその両方）の技法だけに基づいて行われること
に留意されたい。また、この場合の正味効果は、条件付
き中断命令と無条件中断命令との間の命令を推論方式で
格上げすることと同様であることにも留意されたい。し
かし、それぞれの保護された（格上げされた）命令の一
部として制御流れ条件をコード化する、保護された（ま
たは格上げされた）命令の既知の技法とは異なり、提案
した技法では、条件付き中断命令と無条件中断命令とを
使用して１群の命令用の条件をコード化する。この手法
の重要な利点としては以下のものがある。

【０１３３】○ アーキテクチャ上の影響が小さいこと前に示したように、提案した方式の主な利点は、そのア
ーキテクチャ上の影響が相対的に最小限であることであ
る。フォーク命令と中断命令（そのうち、フォーク命令
だけが１次命令コード空間を必要とする）の追加を除
き、既存の命令コード化は影響を受けない。したがっ
て、格上げ手法とは異なり、提案した方式では、制御流
れの推測をコード化するために格上げしたそれぞれの命
令の命令コードで使用可能なビット数に依存しない。

【０１３４】○ 推測した制御流れのコード化の正確さ新しい（中断）命令では制御流れの推測が排他的にコー
ド化されるので、より多くのビット数を使用してそれを
正確にコード化することができる。たとえば、格上げ方
式では、想定した流れ経路に沿って格上げした命令の深
さをコード化するためにのみ、ある妥協点に達しなけれ
ばならなかった（それぞれの分岐は想定した結果ビット
を有し、最も可能性の高い追跡経路を示していた）。こ
の妥協点は、格上げしたそれぞれの命令の命令コードに
収容できるように、推測した制御流れを簡潔にコード化
するために必要であった。この妥協点の結果、制御非依
存分岐の予測を誤ると、推論方式で実行し格上げした命
令が不必要に破棄されてしまった。本明細書で提案した
手法では、推測した制御流れ経路に沿った制御非依存分
岐が、ＮまたはＴではなくＸによって正しくコード化さ
れる。このため、将来スレッドで推論方式で実行された
命令は、制御非依存分岐の予測を誤っても破棄されな
い。

【０１３５】○ 小規模なコード拡大典型的なパーコレーションおよび格上げ技法では、想定
した追跡から外れる経路でのコード・コピーまたはパッ
チアップ・コードが必要になる場合が多い。これは、コ
ード・サイズの大幅な拡大に至る可能性がある。提案し
た技法はこれらのオーバヘッドのいずれも持たないの
で、唯一のコード拡大は、１組の命令によって共用され
るフォーク命令と中断命令によるものである。

【０１３６】○ 順次例外処理の実施の単純化提案した技法には上方コード・モーションが一切なく、
推論方式で実行したコードは依然としてその元の位置だ
けにとどまっている。したがって、メイン・スレッドが
命令の原因である例外を含む将来スレッドと組み合わさ
れるまで、例外処理を容易に遅延させることができる。
すなわち、例外を引き起こす可能性のある推論命令の元
の位置に明示的にマークを付ける必要もなく、正しい順
序で例外を処理することができる。

【０１３７】○ 正確な割込みの実施の単純化この提案の固有のメイン・スレッドは、順次プログラム
順序で完了する最後の命令をいつも正確に把握してい
る。したがって、割込みを正確に処理するために重要な
余分なハードウェアを設ける必要は全くない。

【０１３８】４．コンパイルとマシン実施態様との結合
解除前述のように、フォークの任意選択性のため、提案した
アーキテクチャのコンパイルは、多数の活動スレッドが
可能なマシンを想定して行うことができることに留意さ
れたい。しかも、実際のマシン実施態様は、使用可能な
マシン資源に応じて、このようなフォークのほとんどま
たはこのようなフォークの一部に従うか、このようなフ
ォークのいずれにも従わないかを選択することができ
る。したがって、このコンテキストの大部分では、マシ
ン実施態様からコンパイルを結合解除することができ
る。これは、少数または多数の活動スレッドが可能なマ
シンについて個別に再コンパイルする必要がないことも
意味する。

【０１３９】５．ループ反復の並列実行提案したフォーク命令と中断命令は、ネストしたループ
での反復並列性を効率よく活用するためにも使用するこ
とができる。たとえば、SPECint92ベンチマークの１つ
から前述したサンプル・ループについて検討する。この
ループの内側ループ反復は、前の反復に対して制御とデ
ータの両面で依存している。しかし、内側ループのそれ
ぞれの活動化（すなわち、外側ループ反復）は前のもの
とは無関係である。このため、前のものが完了するまで
待たずに、しかも内部ループの何らかの制御およびデー
タ非依存反復の予測を誤ったときに外側ループ反復から
実行した命令を不必要に破棄せずに、マシンが内側ルー
プの活動化を何度も開始できるようにするため、提案し
たフォーク命令（外側ループ・ボディを開始する）をコ
ンパイラが使用することは可能である。

【０１４０】６．レジスタ・プレッシャの緩和互いにデータ非依存でもある制御非依存基本ブロック内
の命令は、取り出すことも実行することもできない。起
こりうる明らかな疑問は、このようなデータおよび制御
非依存命令が、同一基本ブロック内にまとめて入れるの
に十分なほどパーコレーションされていないのかという
ことである。優良コンパイラはこのようなパーコレーシ
ョンを実施しようと最善を尽くすはずであるが、必ずこ
れらの命令をまとめてグループ化できるわけではない。
前述のように、すべてのデータおよび制御非依存命令を
効率よくまとめてグループ化できるようにするには、コ
ンパイラは、適切なコード化を行うのに十分なアーキテ
クチャ化レジスタを有する必要がある。たとえば、図１
８および図１９で使用する例の推測上のマシンが４つの
アーキテクチャ化レジスタ、すなわちレジスタ１〜レジ
スタ４しか提供しないものと想定する。このようなマシ
ン用のコンパイラは、追加のスピル・コードを挿入せず
に、制御およびデータ非依存命令を基本ブロックＢ１お
よびＢ１２に単純にグループ化することはできない。フ
ォーク機構により、コンパイラは追加のスピル・コード
がなくても基礎となるデータ非依存性を伝えることがで
きる。事実、既存のスピル・コードの一部は、Ｂ１２が
実行時に実際にフォークされると冗長（たとえば、基本
ブロックＢ１２内の最初の２つのロード）になる可能性
がある。このようなスピル・コードは、前述のようにSK
IP命令を使用して最適化することができる。

【０１４１】７．制御依存ブロック間の推測これまでの説明でフォークを使用したのは、制御非依存
ブロックの並列実行の場合だけであった。この概念は、
制御依存ブロックを含むようにさらに拡張することがで
きる。さらにこれは、両方の分岐経路を推論方式で実行
できる能力を意味する。追加の実施コストが必要ではあ
るが、このような推測はいずれもアーキテクチャに対し
てこれ以上影響を及ぼすことはない。この形式の推測の
追加の有用性は、ある程度は（１つの分岐経路に沿っ
て）現行推論スーパースカラーにすでに使用されている
が、さらに検討する必要がある。図２０で使用する例
は、どちらもＢ１００に対して制御依存しているブロッ
クＢ２００およびＢ３００のような制御依存ブロック間
で推測するためにフォーク命令と中断命令を使用する場
合を示している。ブロックＢ１００のフォークも、両方
の分岐経路に沿って推測し、実行時の実際の制御の流れ
（Ｂ２００またはＢ３００）に基づいて適切に命令を破
棄するためのものである。

【０１４２】８．スレッド管理の簡略化 ○ スレッド間の同期：固有のメイン・スレッドと残り
の将来スレッドという概念は、スレッド間の同期を簡略
化した機構を提供し、低いオーバヘッドを意味する。明
示的な中断点では、将来スレッドは単にそれ自体を中断
し、メイン・スレッドの制御が将来スレッドに到達する
のを待つだけである。あるいは、その実行中の様々な時
点で将来スレッドが他のスレッドとの明示的スレッド間
同期を試みることもできる。しかし、このようにスレッ
ド間同期がさらに精巧になると、ハードウェア／ソフト
ウェアのオーバヘッドが増すことを意味する。

【０１４３】○ スレッド間通信：アーキテクチャ化マ
シン状態のコピーによるフォークと、前述の組合せ動作
の概念により、オーバヘッドの低いスレッド間通信の機
構が提供される。オーバヘッドがこれよりかなり高い代
替機構は、たとえば、メッセージにより、活動スレッド
間の連続通信プロトコルを提供する明示通信プリミティ
ブをもたらすことができる。

【０１４４】○ スレッドのスケジューリング：本発
明で提案した機構では、結果的に（前述のように）フォ
ークの任意選択性が得られるが、FORK命令に応答してス
レッドをスケジューリング（フォーク）するために実行
時スレッド・スケジューリング・ハードウェアを必要と
しないので、動的スレッド・スケジューリングも簡略化
される。したがって、スレッド・スケジューリング・ハ
ードウェアは、すべてのFORK命令が暗示する将来スレッ
ド（複数も可）の待ち行列化と管理を負担する必要がな
い。動的スレッド・スケジューリングのオーバヘッドが
このように低下しているので、再コンパイルせずに各種
のマシン実施態様に適合できることなど、その他の利点
により、静的スレッド・スケジューリングに比べ、それ
がより魅力的なものになる。

【０１４５】まとめとして、本発明の構成に関して以下
の事項を開示する。

【０１４６】（１）コンピュータ内の中央演算処理装置
において、ａ．複数の命令を有する命令キャッシュ・メモリであっ
て、その命令キャッシュが１つまたは複数の命令キャッ
シュ・ポートをさらに有する命令キャッシュ・メモリ
と、ｂ．複数のプログラム・カウンタからなるプログラム・
カウンタ・バンクであって、それぞれのプログラム・カ
ウンタが命令キャッシュ内の１つまたは複数の命令を独
立してアドレス指定し、アドレス指定した命令を命令キ
ャッシュ・ポートの１つにポーティングすることができ
る、プログラム・カウンタ・バンクと、ｃ．複数のディスパッチャからなり、それぞれのディス
パッチャが命令バッファを１つずつ有し、それぞれのデ
ィスパッチャが１つまたは複数の命令キャッシュ・ポー
トから命令を受け取り、受け取った命令をその命令バッ
ファに入れ、命令をデコードし、その関連バッファ内の
命令間の依存関係を分析することができる、ディスパッ
チャ・バンクと、ｄ．それぞれのスレッドがプログラム・カウンタの１つ
を使用して実行した一連の命令シーケンスを有する、１
つまたは複数のスレッドをフォークし、０または１つ以
上のスレッド間通信を処理するスレッド管理ユニット
と、ｅ．すべてのディスパッチャから命令を受け取り、１つ
または複数の機能ユニット上で実行するために命令をス
ケジューリングするスケジューラと、ｆ．すべてのスレッド内の命令によってアクセス可能な
１つまたは複数のアーキテクチャ化レジスタからなる固
定セットを含むレジスタ・ファイルとを含み、それによ
り、１つまたは複数の命令スレッドが機能ユニットによ
って並列に実行されることを特徴とする、中央演算処理
装置。（２）プログラム・カウンタ・バンク内のプログラム・
カウンタの１つがメイン・スレッド内の命令を追跡し、
メイン・スレッドが順次追跡順序で最も早いスレッドで
あることを特徴とする、上記（１）に記載の装置。（３）１つまたは複数のディスパッチャが、そのディス
パッチャが分析中に解決できない１つまたは複数の依存
関係について推測し、スレッド管理ユニットが、１つま
たは複数の推測の結果として、プログラム依存関係の違
反のために将来スレッドのいずれかによって実行された
１つまたは複数の命令を破棄する必要があるかどうかを
判定することができ、スレッド管理ユニットがこのよう
な違反命令を破棄することを特徴とする、上記（２）に
記載の装置。（４）スレッド管理ユニットは、FORK命令が検出された
ときに指定のアドレスから始まる将来スレッドをフォー
クすることができ、FORK命令がコンパイル時に命令スレ
ッドに挿入され、FORK命令が１つまたは複数の将来スレ
ッドの先頭を識別することを特徴とする、上記（３）に
記載の装置。（５）FORK命令が１つの命令コード・フィールドと１つ
または複数のアドレス・フィールドとを含み、それぞれ
のアドレスが将来スレッドの開始位置を識別することを
特徴とする、上記（４）に記載の装置。（６）FORK命令の命令コード・フィールドがビット０〜
５を含み、アドレス・フィールドがビット６〜２９を含
み、拡張命令コード・フィールドがビット３０と３１と
を含むことを特徴とする、上記（５）に記載の装置。（７）スレッド管理ユニットは、FORK命令が検出された
ときに指定のアドレスから始まる将来スレッドをフォー
クすることができ、UNCOND_SUSPEND命令が検出されたと
きにその将来スレッドを無条件に中断し、FORK命令とUN
COND_SUSPEND命令がコンパイル時に挿入されることを特
徴とする、上記（３）に記載の装置。（８）FORK命令が１つの命令コード・フィールドと１つ
または複数のアドレス・フィールドとを含み、それぞれ
のアドレスが将来スレッドの開始位置を識別し、UNCOND
_SUSPEND命令が１つの命令コード・フィールドを含むこ
とを特徴とする、上記（７）に記載の装置。（９）FORK命令の命令コード・フィールドがビット０〜
５を含み、アドレス・フィールドがビット６〜２９を含
み、拡張命令コード・フィールドがビット３０と３１と
を含み、UNCOND_SUSPENDの命令コードがビット０〜５を
含む１つの１次命令コード・フィールドと、ビット２１
〜３１を含む１つの拡張命令コード・フィールドとを有
することを特徴とする、上記（８）に記載の装置。（１０）１つまたは複数のSUSPEND命令を有し、将来ス
レッドの１つの実行中にSUSPEND命令が検出され、SUSPE
ND命令に関連するコンパイル時指定条件が実行時に偽と
評価された場合にスレッド管理ユニットがSUSPEND命令
に関連する依存性領域内の１組の命令の結果を破棄し、
SUSPEND命令がコンパイル時に挿入されることを特徴と
する、上記（７）に記載に装置。（１１）SUSPEND命令が、１つのSUSPEND命令コード・フ
ィールドと、１つのモードビットと、１つの条件フィー
ルドとを含むことを特徴とする、上記（１０）に記載の
装置。（１２）SUSPEND命令コードが、ビット０〜５を含む１
つの１次命令コード・フィールドと、ビット６を占有す
る１つのモード・フィールドと、ビット６〜２０を占有
し、それぞれが２ビットの長さの７つの条件サブフィー
ルドから構成される１つの条件フィールドと、ビット２
１〜３１を含む１つの拡張命令コード・フィールドとを
有することを特徴とする、上記（１１）に記載の装置。（１３）スレッド管理ユニットは、FORK_SUSPEND命令が
検出されたときに指定のアドレスから始まる将来スレッ
ドをフォークすることができ、FORK_SUSPEND命令がコン
パイル時に命令スレッドに挿入され、FORK_SUSPEND命令
が１組または複数組の命令を識別することができ、それ
ぞれの組の命令がそれぞれの組の命令の有効実行を判定
する関連条件を任意で有することを特徴とする、上記
（３）に記載の装置。（１４）FORK_SUSPEND命令が、１つの命令コード・フィ
ールドと、１つのアドレス・フィールドと、１つまたは
複数の条件フィールドとを含み、それぞれの条件フィー
ルドが１つのカウント・フィールドと１つまたは複数の
条件とを有することを特徴とする、上記（１３）に記載
の装置。（１５）FORK_SUSPEND命令が、ビット０〜５を含む１つ
の命令コードと、ビット６〜８を含む第１のカウント・
フィールドと、第１のカウント・フィールドに関連し、
ビット９〜１０および１１〜１２をそれぞれ含む２つの
条件とを有する第１の条件フィールドと、ビット１３〜
１５を含む第２のカウント・フィールドと、第２のカウ
ント・フィールドに関連し、ビット１６〜１７および１
８〜１９をそれぞれ含む２つの条件とを有する第２の条
件フィールドと、ビット２０〜２９を含む１つのアドレ
ス・フィールドと、ビット３０および３１を含む１つの
拡張命令コード・フィールドとを有することを特徴とす
る、上記（１４）に記載の装置。（１６）SKIP命令を検出したときに、将来スレッドが、
SKIP命令によって指定された複数の命令をデコードし、
実行を行わずに識別された命令の実行を引き受けること
を特徴とする、上記（１０）に記載の装置。（１７）SKIP命令が１つの命令コード・フィールドと１
つのカウント・フィールドとを含むことを特徴とする、
上記（１６）に記載の装置。（１８）スレッド管理ユニットは、FORK_S_SUSPEND命令
が検出されたときに指定のアドレスから始まる将来スレ
ッドをフォークすることができ、FORK_S_SUSPEND命令が
コンパイル時に命令スレッドに挿入され、FORK_S_SUSPE
ND命令が１組または複数組の命令を識別することがで
き、それぞれの組の命令がそれぞれの組の命令の有効実
行を判定する関連条件を任意で有し、スレッドに開始時
に複数の命令を識別するスキップ・カウント・フィール
ドをさらに有し、実行を行わずに識別された命令の実行
を引き受けることを特徴とする、上記（３）に記載の装
置。（１９）FORK_S_SUSPEND命令が、１つの命令コード・フ
ィールドと、１つのアドレス・フィールドと、１つのス
キップ・カウント・フィールドと、１つまたは複数の条
件フィールドとを含み、それぞれの条件フィールドが１
つのカウント・フィールドと１つまたは複数の条件とを
有することを特徴とする、上記（１８）に記載の装置。（２０）スレッド管理ユニットは、FORK_M_SUSPEND命令
が検出されたときに指定のアドレスから始まる将来スレ
ッドをフォークすることができ、FORK_M_SUSPEND命令が
コンパイル時に命令スレッドに挿入され、FORK_M_SUSPE
ND命令が１組のレジスタ・マスクを識別することがで
き、マスクに関連する条件がある場合にその条件が実行
時に該当するのであれば、それぞれのマスクが有効ソー
ス・オペランドを保持する複数のアーキテクチャ化レジ
スタからなるサブセットを識別することを特徴とする、
上記（３）に記載の装置。（２１）FORK_M_SUSPEND命令が、１つの命令コード・フ
ィールドと、１つのアドレス・フィールドと、１つまた
は複数の条件フィールドとを含み、それぞれの条件フィ
ールドが１つのレジスタ・マスクと１つまたは複数の条
件とを有することを特徴とする、上記（２０）に記載の
装置。（２２）FSKIP命令を検出したときに、将来スレッド・
ディスパッチャが取出しと、その結果、この命令に続く
指定の数の命令の実行をスキップし、FSKIP命令が有効
オペランドを保持する１組のアーキテクチャ化レジスタ
を指定するレジスタ・マスクを識別することができ、メ
イン・スレッド・ディスパッチャがこれをＮＯＰとして
扱い、FSKIP命令がコンパイル時に命令スレッドに挿入
されることを特徴とする、上記（１０）に記載の装置。（２３）FSKIP命令が、１つの命令コード・フィールド
と、１つのマスク・フィールドと、１つのカウント・フ
ィールドとを含むことを特徴とする、上記（２２）に記
載の装置。（２４）SKPMG命令を検出したときに、将来スレッド
が、SKPMG命令によって指定された複数の命令をデコー
ドし、実行を行わずに識別された命令の実行を引き受
け、メイン・スレッド・ディスパッチャがこの命令を潜
在的将来スレッドの開始アドレス用のマーカとして扱
い、SKPMG命令がコンパイル時に命令スレッドに挿入さ
れることを特徴とする、上記（１０）に記載の装置。（２５）SKPMG命令が１つの命令コード・フィールドと
１つのカウント・フィールドとを含むことを特徴とす
る、上記（２４）に記載の装置。（２６）スレッド管理ユニットが任意でフォークするこ
とができることを特徴とする、上記（１）に記載の装
置。（２７）命令キャッシュがメイン・メモリで置き換えら
れることを特徴とする、上記（１）に記載の装置。（２８）中央演算処理装置を備えたコンピュータ・シス
テム上で命令を実行する方法において、（ａ）複数の命
令からなる静的シーケンスをコンパイル時に生成し、そ
の命令の静的シーケンスを分析して１組のフォーク点を
判定するステップと、（ｂ）コンパイル時に０個または
それ以上のFORK命令を０個またはそれ以上のフォーク点
に挿入するステップと、（ｃ）メモリ内の固定位置から
始まるメイン・メモリにその命令の静的シーケンスをロ
ードし、その静的シーケンスのサブシーケンスを命令キ
ャッシュに転送するステップと、（ｄ）現行アドレスか
ら始まるメイン・プログラム・カウンタによりそのシー
ケンスをアドレス指定することにより、命令キャッシュ
から命令シーケンスをメイン・スレッドとして取り出
し、現行アドレスから始まり、まだ組み合わされていな
い１つまたは複数の将来スレッドがあるかどうかを判定
するために検査するステップと、（ｅ）組み合わされて
いない将来スレッドの妥当性を検査するステップと、
（ｆ）０個またはそれ以上の組み合わされていない将来
スレッドの有効に実行された部分をメイン・スレッドに
組み合わせるステップと、（ｇ）取り出した命令をディ
スパッチャでデコードし、１つまたは複数の命令がFORK
命令としてデコードされたかどうかを確認するために検
査するステップと、（ｈ）命令がFORK命令以外の命令と
してデコードされた場合に、命令依存関係を分析し、適
切な機能ユニット上で実行するために命令をスケジュー
リングすることにより、メイン・スレッドを実行するス
テップと、（ｉ）完了ユニットにより命令実行を完了
し、ステップ（ｄ）からこのステップまでを繰り返すス
テップと、（ｊ）命令がFORK命令としてデコードされた
場合に、追加の将来スレッドをフォークするために使用
可能なマシン資源があるかどうかを判定するために検査
するステップと、（ｋ）使用可能資源がある場合に、FO
RK命令に関連するアドレスを将来プログラム・カウンタ
にロードすることにより、将来スレッドをフォークする
ステップと、（ｌ）それぞれメイン・プログラム・カウ
ンタとメイン・スレッド・ディスパッチャの代わりに将
来プログラム・カウンタの１つと将来スレッド・ディス
パッチャの１つを使用することによってステップ（ｄ）
〜（ｈ）を実行することにより、フォーキング・スレッ
ドの実行と並列して将来スレッドを実行し、将来スレッ
ドがメイン・スレッドと組み合わされるか、または将来
スレッドがスレッド管理ユニットによって消去された場
合に、将来スレッドの実行を中断するステップとを含む
ことを特徴とする方法。（２９）前記ステップ（ｂ）が、（ｂ．１）すべての
将来スレッドの終わりにUNCOND_SUSPEND命令を挿入する
という追加のサブステップを有し、前記ステップ（ｌ）
が、（ｌ．１） UNCOND_SUSPEND命令を検出したときに
将来スレッドの実行を中断するという追加のサブステッ
プを有し、前記ステップ（ｈ）が、（ｈ．１）その対
応将来スレッド以外のスレッドによって実行するために
検出された場合に、UNCOND_SUSPEND命令をＮＯＰとして
扱うという追加のサブステップを有することを特徴とす
る、上記（２８）に記載の方法。（３０）前記ステップ（ｂ）が、（ｂ．２）すべての
UNCOND_SUSPEND命令に対応する０個またはそれ以上のSU
SPEND命令を挿入するという追加のサブステップを有
し、前記ステップ（ｌ）が、（ｌ．２） SUSPEND命令
に関連するコンパイル時指定条件が実行時に偽と評価さ
れた場合に、SUSPEND命令に関連する依存性領域内の１
組の命令を破棄するという追加のサブステップを有し、
前記ステップ（ｈ）が、（ｈ．２）その対応将来スレ
ッド以外のスレッドによって実行するために検出された
場合に、SUSPEND命令をＮＯＰとして扱うという追加の
サブステップを有することを特徴とする、上記（２９）
に記載の方法。（３１）前記ステップ（ｂ）が、（ｂ．３）０個また
はそれ以上のSKIP命令を将来スレッドに挿入するという
追加のサブステップを有し、前記ステップ（ｌ）が、
（ｌ．３） SKIP命令に続く指定の数の命令をデコード
し、将来スレッドとしての実行中に、実行を行わずにそ
の指定の数の命令の実行を引き受けるという追加のサブ
ステップを有し、前記ステップ（ｈ）が、（ｈ．３）
その対応将来スレッド以外のスレッドによって実行する
ために検出された場合に、SKIP命令をＮＯＰとして扱う
という追加のサブステップを有することを特徴とする、
上記（３０）に記載の方法。（３２）前記ステップ（ｂ）が、（ｂ．４）０個また
はそれ以上のFSKIP命令を将来スレッドに挿入するとい
う追加のサブステップを有し、前記ステップ（ｌ）が、
（ｌ．４）将来スレッドとしての実行中にFSKIP命令
に続く指定の数の命令の取出しをスキップし、関連マス
クで識別されたレジスタに有効オペランドを保持するも
のとしてマークを付けるという追加のサブステップを有
し、前記ステップ（ｈ）が、（ｈ．４）その対応将来
スレッド以外のスレッドによって実行するために検出さ
れた場合に、FSKIP命令をＮＯＰとして扱うという追加
のサブステップを有することを特徴とする、上記（３
０）に記載の方法。（３３）前記ステップ（ｂ）が、（ｂ．５）すべての
将来スレッドの先頭にSKPMG命令を挿入するという追加
のサブステップを有し、前記ステップ（ｌ）が、（ｌ．
５） SKIP命令に続く指定の数の命令をデコードし、将
来スレッドとしての実行中に、実行を行わずにその指定
の数の命令の実行を引き受けるという追加のサブステッ
プを有し、前記ステップ（ｈ）が、（ｈ．５）その対
応将来スレッド以外のスレッドによって実行するために
SKPMGが検出された場合に、SKPMG命令の命令アドレス以
降について、過去に将来スレッドがフォークされたかど
うかを判定するために検査するという追加のサブステッ
プを有し、前記ステップ（ｄ）が、（ｄ．１）メイン
・プログラム・カウンタによりそのシーケンスをアドレ
ス指定することにより、命令キャッシュから命令シーケ
ンスを取り出すというステップで置き換えられることを
特徴とする、上記（３０）に記載の方法。（３４）前記ステップ（ｂ）が、（ｂ．６）０個また
はそれ以上のFORK_SUSPEND命令を０個またはそれ以上の
潜在的フォーク点に挿入するというステップで置き換え
られ、前記ステップ（ｊ）が、（ｊ．１）命令がFORK
_SUSPEND命令としてデコードされた場合に、追加の将来
スレッドをフォークするために使用可能なマシン資源が
あるかどうかを判定するために検査するというステップ
で置き換えられ、前記ステップ（ｋ）が、（ｋ．１）
使用可能資源がある場合に、FORK_SUSPEND命令に関連す
るアドレス（複数も可）を将来プログラム・カウンタ
（複数も可）にロードすることにより、将来スレッドを
フォークするというステップで置き換えられ、前記ステ
ップ（ｌ）が、（ｌ．６）関連するコンパイル時指定
条件が実行時に真に該当しない場合に、将来スレッド内
の命令の一部または全部の結果を破棄するという追加の
サブステップを有することを特徴とする、上記（２８）
に記載の方法。（３５）前記ステップ（ｂ）が、（ｂ．７）０個また
はそれ以上のFORK_S_SUSPEND命令を０個またはそれ以上
の潜在的フォーク点に挿入するというステップで置き換
えられ、前記ステップ（ｊ）が、（ｊ．２）命令がFO
RK_S_SUSPEND命令としてデコードされた場合に、追加の
将来スレッドをフォークするために使用可能なマシン資
源があるかどうかを判定するために検査するというステ
ップで置き換えられ、前記ステップ（ｋ）が、（ｋ．
２）使用可能資源がある場合に、FORK_S_SUSPEND命令
に関連するアドレス（複数も可）を将来プログラム・カ
ウンタ（複数も可）にロードすることにより、将来スレ
ッドをフォークするというステップで置き換えられ、前
記ステップ（ｌ）が、（ｌ．７）将来スレッドの先頭
にある指定の数の命令をデコードし、これらの命令の実
行を行わずに指定の数の命令の実行を引き受け、関連す
るコンパイル時指定条件が実行時に真に該当しない場合
に、将来スレッド内の命令の一部または全部の結果を破
棄するという追加のサブステップを有することを特徴と
する、上記（２８）に記載の方法。（３６）前記ステップ（ｂ）が、（ｂ．８）０個また
はそれ以上のFORK_M_SUSPEND命令を０個またはそれ以上
の潜在的フォーク点に挿入するというステップで置き換
えられ、前記ステップ（ｊ）が、（ｊ．３）命令がFO
RK_M_SUSPEND命令としてデコードされた場合に、追加の
将来スレッドをフォークするために使用可能なマシン資
源があるかどうかを判定するために検査するというステ
ップで置き換えられ、前記ステップ（ｋ）が、（ｋ．
３）使用可能資源がある場合に、FORK_M_SUSPEND命令
に関連するアドレス（複数も可）を将来プログラム・カ
ウンタ（複数も可）にロードすることにより、将来スレ
ッドをフォークするというステップで置き換えられ、前
記ステップ（ｌ）が、（ｌ．８）命令のソース・レジ
スタ・オペランドに関連するコンパイル時指定条件が実
行時に真に該当しない場合に、将来スレッド内の命令の
一部または全部の結果を破棄するという追加のサブステ
ップを有することを特徴とする、上記（２８）に記載の
方法。（３７）前記ステップ（ｈ）が、（ｈ．６）スレッド
実行中のすべての分岐解決をＴＭユニットに連絡し、Ｔ
Ｍユニットがこの情報を使用して、間違った分岐アドレ
スにフォークされた将来スレッドとすべての依存スレッ
ドを破棄する必要があるかどうかを判定するという追加
のサブステップを有することを特徴とする、上記（２
８）に記載の方法。（３８）前記ステップ（ｄ）が、（ｄ．２）ＴＭユニ
ットが、事前フォーク済みスレッドのいずれかが既定の
タイムアウト期間より長い間、組み合わされない状態を
維持していたかどうかを判定するために検査し、このよ
うなスレッドを破棄するという追加のサブステップを有
することを特徴とする、上記（２８）に記載の方法。

【図面の簡単な説明】

【図１】本発明の方法を実行すると思われる典型的なプ
ロセッサ編成のハードウェアのブロック図である。

【図２】本発明の方法を実行すると思われる典型的なプ
ロセッサ編成のハードウェアのブロック図である。

【図３】本発明の方法の諸ステップを示す流れ図であ
る。

【図４】本発明の方法の諸ステップを示す流れ図であ
る。

【図５】FORK命令の形式構造を示すブロック図である。

【図６】UNCOND_SUSPEND命令の形式構造を示すブロック
図である。

【図７】SUSPEND命令の形式構造を示すブロック図であ
る。

【図８】FORK_SUSPEND命令の形式構造を示すブロック図
である。

【図９】SKIP命令の形式構造を示すブロック図である。

【図１０】FORK_S_SUSPEND命令の形式構造を示すブロッ
ク図である。

【図１１】FORK_M_SUSPEND命令の形式構造を示すブロッ
ク図である。

【図１２】FSKIP命令の形式構造を示すブロック図であ
る。

【図１３】SKPMG命令の形式構造を示すブロック図であ
る。

【図１４】FORK、UNCOND_SUSPEND、SUSPEND、FORK_SUSP
ENDの各命令の形式構造のコード化の好ましい実施例を
示す１組のブロック図である。

【図１５】FORK、UNCOND_SUSPEND、SUSPEND、FORK_SUSP
ENDの各命令の形式構造のコード化の好ましい実施例を
示す１組のブロック図である。

【図１６】FORK、UNCOND_SUSPEND、SUSPEND、FORK_SUSP
ENDの各命令の形式構造のコード化の好ましい実施例を
示す１組のブロック図である。

【図１７】FORK、UNCOND_SUSPEND、SUSPEND、FORK_SUSP
ENDの各命令の形式構造のコード化の好ましい実施例を
示す１組のブロック図である。

【図１８】本発明で提案した命令の一部をアセンブリ・
コード・サンプルで使用した場合を示す図である。

【図１９】本発明で提案した命令の一部をアセンブリ・
コード・サンプルで使用した場合を示す図である。

【図２０】本発明で提案した命令の一部をアセンブリ・
コード・サンプルで使用した場合を示す図である。

【符号の説明】

１００メモリ１１０命令キャッシュ１１５ポート１２０プログラム・カウンタ１３０スレッド管理ユニット１４０ディスパッチャ１４１命令バッファ１５０スケジューラ１６０レジスタ・ファイル１７０データ・キャッシュ１９０完了ユニット

───────────────────────────────────────────────────── フロントページの続き (72)発明者チャールズ・マーシャル・バートンアメリカ合衆国07641 ニュージャージー州ハワースプロスペクト・アベニュー 28 (72)発明者チャオ＝メイ・チュアンアメリカ合衆国95014 カリフォルニア州キュパーティノレインボウ・ドライブ 7585 (72)発明者リン・フエ・ラムアメリカ合衆国10598 ニューヨーク州ヨークタウン・ハイツブラックベリー・レーン 770 (72)発明者ジョン・ケヴィン・オブライエンアメリカ合衆国10590 ニューヨーク州サウス・サーレムサーレム・ヒル・ロードピー・オー・ボックス 370 (72)発明者キャスリン・メアリー・オブライエンアメリカ合衆国10590 ニューヨーク州サウス・サーレムサーレム・ヒル・ロードピー・オー・ボックス 370

Claims

【特許請求の範囲】

【請求項１】コンピュータ内の中央演算処理装置におい
て、ａ．複数の命令を有する命令キャッシュ・メモリであっ
て、その命令キャッシュが１つまたは複数の命令キャッ
シュ・ポートをさらに有する命令キャッシュ・メモリ
と、ｂ．複数のプログラム・カウンタからなるプログラム・
カウンタ・バンクであって、それぞれのプログラム・カ
ウンタが命令キャッシュ内の１つまたは複数の命令を独
立してアドレス指定し、アドレス指定した命令を命令キ
ャッシュ・ポートの１つにポーティングすることができ
る、プログラム・カウンタ・バンクと、ｃ．複数のディスパッチャからなり、それぞれのディス
パッチャが命令バッファを１つずつ有し、それぞれのデ
ィスパッチャが１つまたは複数の命令キャッシュ・ポー
トから命令を受け取り、受け取った命令をその命令バッ
ファに入れ、命令をデコードし、その関連バッファ内の
命令間の依存関係を分析することができる、ディスパッ
チャ・バンクと、ｄ．それぞれのスレッドがプログラム・カウンタの１つ
を使用して実行した一連の命令シーケンスを有する、１
つまたは複数のスレッドをフォークし、０または１つ以
上のスレッド間通信を処理するスレッド管理ユニット
と、ｅ．すべてのディスパッチャから命令を受け取り、１つ
または複数の機能ユニット上で実行するために命令をス
ケジューリングするスケジューラと、ｆ．すべてのスレッド内の命令によってアクセス可能な
１つまたは複数のアーキテクチャ化レジスタからなる固
定セットを含むレジスタ・ファイルとを含み、それにより、１つまたは複数の命令スレッドが機能ユニ
ットによって並列に実行されることを特徴とする、中央
演算処理装置。
【請求項２】プログラム・カウンタ・バンク内のプログ
ラム・カウンタの１つがメイン・スレッド内の命令を追
跡し、メイン・スレッドが順次追跡順序で最も早いスレ
ッドであることを特徴とする、請求項１に記載の装置。
【請求項３】１つまたは複数のディスパッチャが、その
ディスパッチャが分析中に解決できない１つまたは複数
の依存関係について推測し、スレッド管理ユニットが、
１つまたは複数の推測の結果として、プログラム依存関
係の違反のために将来スレッドのいずれかによって実行
された１つまたは複数の命令を破棄する必要があるかど
うかを判定することができ、スレッド管理ユニットがこ
のような違反命令を破棄することを特徴とする、請求項
２に記載の装置。
【請求項４】スレッド管理ユニットは、FORK命令が検出
されたときに指定のアドレスから始まる将来スレッドを
フォークすることができ、FORK命令がコンパイル時に命
令スレッドに挿入され、FORK命令が１つまたは複数の将
来スレッドの先頭を識別することを特徴とする、請求項
３に記載の装置。
【請求項５】FORK命令が１つの命令コード・フィールド
と１つまたは複数のアドレス・フィールドとを含み、そ
れぞれのアドレスが将来スレッドの開始位置を識別する
ことを特徴とする、請求項４に記載の装置。
【請求項６】FORK命令の命令コード・フィールドがビッ
ト０〜５を含み、アドレス・フィールドがビット６〜２
９を含み、拡張命令コード・フィールドがビット３０と
３１とを含むことを特徴とする、請求項５に記載の装
置。
【請求項７】スレッド管理ユニットは、FORK命令が検出
されたときに指定のアドレスから始まる将来スレッドを
フォークすることができ、UNCOND_SUSPEND命令が検出さ
れたときにその将来スレッドを無条件に中断し、FORK命
令とUNCOND_SUSPEND命令がコンパイル時に挿入されるこ
とを特徴とする、請求項３に記載の装置。
【請求項８】FORK命令が１つの命令コード・フィールド
と１つまたは複数のアドレス・フィールドとを含み、そ
れぞれのアドレスが将来スレッドの開始位置を識別し、
UNCOND_SUSPEND命令が１つの命令コード・フィールドを
含むことを特徴とする、請求項７に記載の装置。
【請求項９】FORK命令の命令コード・フィールドがビッ
ト０〜５を含み、アドレス・フィールドがビット６〜２
９を含み、拡張命令コード・フィールドがビット３０と
３１とを含み、UNCOND_SUSPENDの命令コードがビット０
〜５を含む１つの１次命令コード・フィールドと、ビッ
ト２１〜３１を含む１つの拡張命令コード・フィールド
とを有することを特徴とする、請求項８に記載の装置。
【請求項１０】１つまたは複数のSUSPEND命令を有し、
将来スレッドの１つの実行中にSUSPEND命令が検出さ
れ、SUSPEND命令に関連するコンパイル時指定条件が実
行時に偽と評価された場合にスレッド管理ユニットがSU
SPEND命令に関連する依存性領域内の１組の命令の結果
を破棄し、SUSPEND命令がコンパイル時に挿入されるこ
とを特徴とする、請求項７に記載に装置。
【請求項１１】SUSPEND命令が、１つのSUSPEND命令コー
ド・フィールドと、１つのモードビットと、１つの条件
フィールドとを含むことを特徴とする、請求項１０に記
載の装置。
【請求項１２】SUSPEND命令コードが、ビット０〜５を
含む１つの１次命令コード・フィールドと、ビット６を
占有する１つのモード・フィールドと、ビット６〜２０
を占有し、それぞれが２ビットの長さの７つの条件サブ
フィールドから構成される１つの条件フィールドと、ビ
ット２１〜３１を含む１つの拡張命令コード・フィール
ドとを有することを特徴とする、請求項１１に記載の装
置。
【請求項１３】スレッド管理ユニットは、FORK_SUSPEND
命令が検出されたときに指定のアドレスから始まる将来
スレッドをフォークすることができ、FORK_SUSPEND命令
がコンパイル時に命令スレッドに挿入され、FORK_SUSPE
ND命令が１組または複数組の命令を識別することがで
き、それぞれの組の命令がそれぞれの組の命令の有効実
行を判定する関連条件を任意で有することを特徴とす
る、請求項３に記載の装置。
【請求項１４】FORK_SUSPEND命令が、１つの命令コード
・フィールドと、１つのアドレス・フィールドと、１つ
または複数の条件フィールドとを含み、それぞれの条件
フィールドが１つのカウント・フィールドと１つまたは
複数の条件とを有することを特徴とする、請求項１３に
記載の装置。
【請求項１５】FORK_SUSPEND命令が、ビット０〜５を含
む１つの命令コードと、ビット６〜８を含む第１のカウ
ント・フィールドと、第１のカウント・フィールドに関
連し、ビット９〜１０および１１〜１２をそれぞれ含む
２つの条件とを有する第１の条件フィールドと、ビット
１３〜１５を含む第２のカウント・フィールドと、第２
のカウント・フィールドに関連し、ビット１６〜１７お
よび１８〜１９をそれぞれ含む２つの条件とを有する第
２の条件フィールドと、ビット２０〜２９を含む１つの
アドレス・フィールドと、ビット３０および３１を含む
１つの拡張命令コード・フィールドとを有することを特
徴とする、請求項１４に記載の装置。
【請求項１６】SKIP命令を検出したときに、将来スレッ
ドが、SKIP命令によって指定された複数の命令をデコー
ドし、実行を行わずに識別された命令の実行を引き受け
ることを特徴とする、請求項１０に記載の装置。
【請求項１７】SKIP命令が１つの命令コード・フィール
ドと１つのカウント・フィールドとを含むことを特徴と
する、請求項１６に記載の装置。
【請求項１８】スレッド管理ユニットは、FORK_S_SUSPE
ND命令が検出されたときに指定のアドレスから始まる将
来スレッドをフォークすることができ、FORK_S_SUSPEND
命令がコンパイル時に命令スレッドに挿入され、FORK_S
_SUSPEND命令が１組または複数組の命令を識別すること
ができ、それぞれの組の命令がそれぞれの組の命令の有
効実行を判定する関連条件を任意で有し、スレッドに開
始時に複数の命令を識別するスキップ・カウント・フィ
ールドをさらに有し、実行を行わずに識別された命令の
実行を引き受けることを特徴とする、請求項３に記載の
装置。
【請求項１９】FORK_S_SUSPEND命令が、１つの命令コー
ド・フィールドと、１つのアドレス・フィールドと、１
つのスキップ・カウント・フィールドと、１つまたは複
数の条件フィールドとを含み、それぞれの条件フィール
ドが１つのカウント・フィールドと１つまたは複数の条
件とを有することを特徴とする、請求項１８に記載の装
置。
【請求項２０】スレッド管理ユニットは、FORK_M_SUSPE
ND命令が検出されたときに指定のアドレスから始まる将
来スレッドをフォークすることができ、FORK_M_SUSPEND
命令がコンパイル時に命令スレッドに挿入され、FORK_M
_SUSPEND命令が１組のレジスタ・マスクを識別すること
ができ、マスクに関連する条件がある場合にその条件が
実行時に該当するのであれば、それぞれのマスクが有効
ソース・オペランドを保持する複数のアーキテクチャ化
レジスタからなるサブセットを識別することを特徴とす
る、請求項３に記載の装置。
【請求項２１】FORK_M_SUSPEND命令が、１つの命令コー
ド・フィールドと、１つのアドレス・フィールドと、１
つまたは複数の条件フィールドとを含み、それぞれの条
件フィールドが１つのレジスタ・マスクと１つまたは複
数の条件とを有することを特徴とする、請求項２０に記
載の装置。
【請求項２２】FSKIP命令を検出したときに、将来スレ
ッド・ディスパッチャが取出しと、その結果、この命令
に続く指定の数の命令の実行をスキップし、FSKIP命令
が有効オペランドを保持する１組のアーキテクチャ化レ
ジスタを指定するレジスタ・マスクを識別することがで
き、メイン・スレッド・ディスパッチャがこれをＮＯＰ
として扱い、FSKIP命令がコンパイル時に命令スレッド
に挿入されることを特徴とする、請求項１０に記載の装
置。
【請求項２３】FSKIP命令が、１つの命令コード・フィ
ールドと、１つのマスク・フィールドと、１つのカウン
ト・フィールドとを含むことを特徴とする、請求項２２
に記載の装置。
【請求項２４】SKPMG命令を検出したときに、将来スレ
ッドが、SKPMG命令によって指定された複数の命令をデ
コードし、実行を行わずに識別された命令の実行を引き
受け、メイン・スレッド・ディスパッチャがこの命令を
潜在的将来スレッドの開始アドレス用のマーカとして扱
い、SKPMG命令がコンパイル時に命令スレッドに挿入さ
れることを特徴とする、請求項１０に記載の装置。
【請求項２５】SKPMG命令が１つの命令コード・フィー
ルドと１つのカウント・フィールドとを含むことを特徴
とする、請求項２４に記載の装置。
【請求項２６】スレッド管理ユニットが任意でフォーク
することができることを特徴とする、請求項１に記載の
装置。
【請求項２７】命令キャッシュがメイン・メモリで置き
換えられることを特徴とする、請求項１に記載の装置。
【請求項２８】中央演算処理装置を備えたコンピュータ
・システム上で命令を実行する方法において、（ａ）複
数の命令からなる静的シーケンスをコンパイル時に生成
し、その命令の静的シーケンスを分析して１組のフォー
ク点を判定するステップと、（ｂ）コンパイル時に０個
またはそれ以上のFORK命令を０個またはそれ以上のフォ
ーク点に挿入するステップと、（ｃ）メモリ内の固定位
置から始まるメイン・メモリにその命令の静的シーケン
スをロードし、その静的シーケンスのサブシーケンスを
命令キャッシュに転送するステップと、（ｄ）現行アド
レスから始まるメイン・プログラム・カウンタによりそ
のシーケンスをアドレス指定することにより、命令キャ
ッシュから命令シーケンスをメイン・スレッドとして取
り出し、現行アドレスから始まり、まだ組み合わされて
いない１つまたは複数の将来スレッドがあるかどうかを
判定するために検査するステップと、（ｅ）組み合わさ
れていない将来スレッドの妥当性を検査するステップ
と、（ｆ）０個またはそれ以上の組み合わされていない
将来スレッドの有効に実行された部分をメイン・スレッ
ドに組み合わせるステップと、（ｇ）取り出した命令を
ディスパッチャでデコードし、１つまたは複数の命令が
FORK命令としてデコードされたかどうかを確認するため
に検査するステップと、（ｈ）命令がFORK命令以外の命
令としてデコードされた場合に、命令依存関係を分析
し、適切な機能ユニット上で実行するために命令をスケ
ジューリングすることにより、メイン・スレッドを実行
するステップと、（ｉ）完了ユニットにより命令実行を
完了し、ステップ（ｄ）からこのステップまでを繰り返
すステップと、（ｊ）命令がFORK命令としてデコードさ
れた場合に、追加の将来スレッドをフォークするために
使用可能なマシン資源があるかどうかを判定するために
検査するステップと、（ｋ）使用可能資源がある場合
に、FORK命令に関連するアドレスを将来プログラム・カ
ウンタにロードすることにより、将来スレッドをフォー
クするステップと、（ｌ）それぞれメイン・プログラム
・カウンタとメイン・スレッド・ディスパッチャの代わ
りに将来プログラム・カウンタの１つと将来スレッド・
ディスパッチャの１つを使用することによってステップ
（ｄ）〜（ｈ）を実行することにより、フォーキング・
スレッドの実行と並列して将来スレッドを実行し、将来
スレッドがメイン・スレッドと組み合わされるか、また
は将来スレッドがスレッド管理ユニットによって消去さ
れた場合に、将来スレッドの実行を中断するステップと
を含むことを特徴とする方法。
【請求項２９】前記ステップ（ｂ）が、（ｂ．１）すべての将来スレッドの終わりにUNCOND_S
USPEND命令を挿入するという追加のサブステップを有
し、前記ステップ（ｌ）が、（ｌ．１） UNCOND_SUSPEND命令を検出したときに将来
スレッドの実行を中断するという追加のサブステップを
有し、前記ステップ（ｈ）が、（ｈ．１）その対応将来スレッド以外のスレッドによ
って実行するために検出された場合に、UNCOND_SUSPEND
命令をＮＯＰとして扱うという追加のサブステップを有
することを特徴とする、請求項２８に記載の方法。
【請求項３０】前記ステップ（ｂ）が、（ｂ．２）すべてのUNCOND_SUSPEND命令に対応する０
個またはそれ以上のSUSPEND命令を挿入するという追加
のサブステップを有し、前記ステップ（ｌ）が、（ｌ．２） SUSPEND命令に関連するコンパイル時指定
条件が実行時に偽と評価された場合に、SUSPEND命令に
関連する依存性領域内の１組の命令を破棄するという追
加のサブステップを有し、前記ステップ（ｈ）が、（ｈ．２）その対応将来スレッド以外のスレッドによ
って実行するために検出された場合に、SUSPEND命令を
ＮＯＰとして扱うという追加のサブステップを有するこ
とを特徴とする、請求項２９に記載の方法。
【請求項３１】前記ステップ（ｂ）が、（ｂ．３）０個またはそれ以上のSKIP命令を将来スレ
ッドに挿入するという追加のサブステップを有し、前記ステップ（ｌ）が、（ｌ．３） SKIP命令に続く指定の数の命令をデコード
し、将来スレッドとしての実行中に、実行を行わずにそ
の指定の数の命令の実行を引き受けるという追加のサブ
ステップを有し、前記ステップ（ｈ）が、（ｈ．３）その対応将来スレッド以外のスレッドによ
って実行するために検出された場合に、SKIP命令をＮＯ
Ｐとして扱うという追加のサブステップを有することを
特徴とする、請求項３０に記載の方法。
【請求項３２】前記ステップ（ｂ）が、（ｂ．４）０個またはそれ以上のFSKIP命令を将来ス
レッドに挿入するという追加のサブステップを有し、前記ステップ（ｌ）が、（ｌ．４）将来スレッドとしての実行中にFSKIP命令
に続く指定の数の命令の取出しをスキップし、関連マス
クで識別されたレジスタに有効オペランドを保持するも
のとしてマークを付けるという追加のサブステップを有
し、前記ステップ（ｈ）が、（ｈ．４）その対応将来スレッド以外のスレッドによ
って実行するために検出された場合に、FSKIP命令をＮ
ＯＰとして扱うという追加のサブステップを有すること
を特徴とする、請求項３０に記載の方法。
【請求項３３】前記ステップ（ｂ）が、（ｂ．５）すべての将来スレッドの先頭にSKPMG命令
を挿入するという追加のサブステップを有し、前記ステップ（ｌ）が、（ｌ．５） SKIP命令に続く指定の数の命令をデコード
し、将来スレッドとしての実行中に、実行を行わずにそ
の指定の数の命令の実行を引き受けるという追加のサブ
ステップを有し、前記ステップ（ｈ）が、（ｈ．５）その対応将来スレッド以外のスレッドによ
って実行するためにSKPMGが検出された場合に、SKPMG命
令の命令アドレス以降について、過去に将来スレッドが
フォークされたかどうかを判定するために検査するとい
う追加のサブステップを有し、前記ステップ（ｄ）が、（ｄ．１）メイン・プログラム・カウンタによりその
シーケンスをアドレス指定することにより、命令キャッ
シュから命令シーケンスを取り出すというステップで置
き換えられることを特徴とする、請求項３０に記載の方法。
【請求項３４】前記ステップ（ｂ）が、（ｂ．６）０個またはそれ以上のFORK_SUSPEND命令を
０個またはそれ以上の潜在的フォーク点に挿入するとい
うステップで置き換えられ、前記ステップ（ｊ）が、（ｊ．１）命令がFORK_SUSPEND命令としてデコードさ
れた場合に、追加の将来スレッドをフォークするために
使用可能なマシン資源があるかどうかを判定するために
検査するというステップで置き換えられ、前記ステップ（ｋ）が、（ｋ．１）使用可能資源がある場合に、FORK_SUSPEND
命令に関連するアドレス（複数も可）を将来プログラム
・カウンタ（複数も可）にロードすることにより、将来
スレッドをフォークするというステップで置き換えら
れ、前記ステップ（ｌ）が、（ｌ．６）関連するコンパイル時指定条件が実行時に
真に該当しない場合に、将来スレッド内の命令の一部ま
たは全部の結果を破棄するという追加のサブステップを
有することを特徴とする、請求項２８に記載の方法。
【請求項３５】前記ステップ（ｂ）が、（ｂ．７）０個またはそれ以上のFORK_S_SUSPEND命令
を０個またはそれ以上の潜在的フォーク点に挿入すると
いうステップで置き換えられ、前記ステップ（ｊ）が、（ｊ．２）命令がFORK_S_SUSPEND命令としてデコード
された場合に、追加の将来スレッドをフォークするため
に使用可能なマシン資源があるかどうかを判定するため
に検査するというステップで置き換えられ、前記ステップ（ｋ）が、（ｋ．２）使用可能資源がある場合に、FORK_S_SUSPE
ND命令に関連するアドレス（複数も可）を将来プログラ
ム・カウンタ（複数も可）にロードすることにより、将
来スレッドをフォークするというステップで置き換えら
れ、前記ステップ（ｌ）が、（ｌ．７）将来スレッドの先頭にある指定の数の命令
をデコードし、これらの命令の実行を行わずに指定の数
の命令の実行を引き受け、関連するコンパイル時指定条
件が実行時に真に該当しない場合に、将来スレッド内の
命令の一部または全部の結果を破棄するという追加のサ
ブステップを有することを特徴とする、請求項２８に記載の方法。
【請求項３６】前記ステップ（ｂ）が、（ｂ．８）０個またはそれ以上のFORK_M_SUSPEND命令
を０個またはそれ以上の潜在的フォーク点に挿入すると
いうステップで置き換えられ、前記ステップ（ｊ）が、（ｊ．３）命令がFORK_M_SUSPEND命令としてデコード
された場合に、追加の将来スレッドをフォークするため
に使用可能なマシン資源があるかどうかを判定するため
に検査するというステップで置き換えられ、前記ステップ（ｋ）が、（ｋ．３）使用可能資源がある場合に、FORK_M_SUSPE
ND命令に関連するアドレス（複数も可）を将来プログラ
ム・カウンタ（複数も可）にロードすることにより、将
来スレッドをフォークするというステップで置き換えら
れ、前記ステップ（ｌ）が、（ｌ．８）命令のソース・レジスタ・オペランドに関
連するコンパイル時指定条件が実行時に真に該当しない
場合に、将来スレッド内の命令の一部または全部の結果
を破棄するという追加のサブステップを有することを特
徴とする、請求項２８に記載の方法。
【請求項３７】前記ステップ（ｈ）が、（ｈ．６）スレッド実行中のすべての分岐解決をＴＭ
ユニットに連絡し、ＴＭユニットがこの情報を使用し
て、間違った分岐アドレスにフォークされた将来スレッ
ドとすべての依存スレッドを破棄する必要があるかどう
かを判定するという追加のサブステップを有することを
特徴とする、請求項２８に記載の方法。
【請求項３８】前記ステップ（ｄ）が、（ｄ．２）ＴＭユニットが、事前フォーク済みスレッ
ドのいずれかが既定のタイムアウト期間より長い間、組
み合わされない状態を維持していたかどうかを判定する
ために検査し、このようなスレッドを破棄するという追
加のサブステップを有することを特徴とする、請求項２８に記載の方法。