JP2001523854A

JP2001523854A - ルックアヘッド結果を発生し移動命令、比較命令および簡単な算術命令をまとめるよう構成されるプロセッサ

Info

Publication number: JP2001523854A
Application number: JP2000521433A
Authority: JP
Inventors: ウィット，デイビッド・ビィ
Original assignee: Advanced Micro Devices Inc
Current assignee: Advanced Micro Devices Inc
Priority date: 1997-11-17
Filing date: 1998-10-19
Publication date: 2001-11-27
Anticipated expiration: 2018-10-19
Also published as: DE69835100D1; JP3866918B2; WO1999026132A2; US6112293A; EP1031074B1; DE69835100T2; EP1031074A2; WO1999026132A3

Abstract

(57)【要約】プロセッサは、１以上の命令のソースオペランドに対応するオペランド情報（オペランド値を生成するであろう命令を特定するタグまたはオペランドのいずれか）を受けるよう構成されるルックアヘッドアドレス／結果計算ユニットを含む。もしオペランドが利用可能であれば、ルックアヘッドアドレス／結果計算ユニットは、命令のメモリオペランド用のルックアヘッドアドレスまたは命令の機能的命令演算に対応するルックアヘッド結果のいずれかを発生するであろう。ルックアヘッドアドレスは、命令に対応するメモリ演算の早期開始のためロード／ストアユニットへ与えられるであろう。ルックアヘッド結果は、投機的オペランドソース（フューチャファイル）内での更新のため投機的オペランドソースへ与えられるであろう。それによってレジスタに対するルックアヘッド状態がパイプライン内で早期に与えられるであろう。その後の命令は、ルックアヘッド状態を受取るであろうし、早期に付加的なルックアヘッド状態を発生するため、そのルックアヘッド状態を使用するであろう。他方、その後の命令は、ルックアヘッド状態を受取るであろうし、そのため、（前の命令の実行を命令ウインドウ内で待つのではなく）命令ウインドウへのディスパッチに際し実行の準備ができているであろう。一実施例では、プロセッサはさらに、ルックアヘッド結果をその後同時にデコードされる命令（ライン内依存性）にまとめるよう構成されるオペランドまとめユニットを含む。さらに、オペランドまとめユニットは、比較命令を、比較の結果に依存する次の分岐命令にまとめるように構成され得る。

Description

【発明の詳細な説明】

【０００１】

【発明の分野】

この発明は、プロセッサの分野に関し、特に、プロセッサ内の命令実行の並列
化に関する。

【０００２】

【従来の技術】

スーパースカラプロセッサは、１クロックサイクルあたり複数の命令をディス
パッチし実行することによって、かつ、設計と一貫した可能な限り短いクロック
サイクルタイムで動作することによって、高い性能を達成しようとする。所与の
プロセッサが、１クロックサイクルあたり複数の命令をディスパッチおよび／ま
たは実行することに成功する範囲内で、高い性能が実現されよう。１クロックサ
イクルあたりにディスパッチされる命令の平均数を増加させるため、プロセッサ
設計者は、より幅の広い発行速度を用いるスーパースカラプロセッサを設計して
きた。「発行が広い」スーパースカラプロセッサは、「発行が狭い」スーパース
カラプロセッサがディスパッチできるよりも、クロックサイクル当りディスパッ
チ（または発行）することができる命令の最大数がより大きい。発行が狭いプロ
セッサが処理できる数よりも、ディスパッチ可能な命令の数が多いクロックサイ
クルの間に、発行が広いプロセッサはより多くの命令をディスパッチするであろ
うし、それによって、１クロックサイクルあたりにディスパッチされる命令の平
均数の増加を達成する。

【０００３】残念ながら、より幅の広い発行速度をサポートするためには、通常、プロセッ
サ内の実行ハードウェアの量を増やす必要がある。もし十分な実行ハードウェア
が設けられていなければ、そのプロセッサが同時に多数の命令を発行できるもの
であったとしても、プロセッサの命令のスループットに悪影響があるであろう。
命令ハードウェアは、半導体基板面積の相当量を占めるであろうから、プロセッ
サの総ダイサイズしたがって、プロセッサのコストを増加させる。

【０００４】加えて、多くの命令は、簡単な実行ハードウェアによって処理され得る比較的
簡単な命令である。たとえば、レジスタオペランドのみを指定する移動命令（す
なわちソースレジスタから行先レジスタへの移動）は、実行のためにほとんどハ
ードウェアを必要としない簡単な命令である。メモリおよびレジスタのオペラン
ドを有する移動命令は、アドレス発生を伴う比較的小さな付加的ハードウェアし
か伴わない。さらに、レジスタオペランドを有する加算系命令（たとえば加算／
減算／インクリメント／デクリメント）も同様に比較的簡単な命令である。さら
に、通常のコードシーケンスにおいては、簡単な命令の方が比較的頻繁であろう
。しかし、実行ハードウェアはさらに、複雑な命令の一方を実行できなければな
らない。いくつかのスーパースカラプロセッサは、複雑な実行ユニットおよび簡
単な実行ユニットの両方を設け、実行ユニットへの命令の発行を、簡単な実行ユ
ニットは簡単な命令のみを受取り、より複雑なユニットは簡単な命令または複雑
な命令を受取るように制御することによって、よりコストの低い実行ハードウェ
アを提供しようと試みてきた。このような方策によって実行ハードウェアにより
占有される面積は減じられるであろうが、発行論理はより複雑となる。複雑な論
理はより多くの面積をとるであろうし、または、クロックサイクルタイムを律速
するであろう。したがって、簡単な命令および複雑な命令の混ざったものを処理
するためのより効率的な方法が望ましい。

【０００５】より高いクロック周波数（すなわちより短いクロックサイクルタイム）をサポ
ートするため、スーパースカラプロセッサはより幅の広い発行速度と同時により
長いパイプライン（すなわちより多くの段を含むパイプライン）を用いてきた。
パイプラインがより長いとより高いクロック周波数が達成されるであろうが、パ
イプラインがより長いと、同時に付加的な設計の課題が生じる。特に、前の命令
の実行が完了する前に、パイプラインにより多くの命令がフェッチされ投入され
るかもしれないので、並列実行をサポートするためにフォワードのためのハード
ウェアの追加が必要であろう。たとえば、前の命令の実行よりも前に、オペラン
ドフェッチ段よりも先に進む命令が多くなるだろう。もしこれらの命令が前の命
令に依存するものであれば、これらの命令のためのオペランドは命令がオペラン
ドフェッチ段に到達したときに利用可能ではないであろう。命令がパイプライン
を通じて実行へと進むにつれて命令に対しオペランドを与えるためフォワードの
ためのハードウェアが設けられていれば、これらの命令が次のパイプライン段へ
進むことは可能であろう。残念ながら、フォワードのためのハードウェアは、面
積の点と同時に複雑性の点でもコストがかかるであろう。したがって、依存型命
令に対しオペランドを与えるためのより効率的な解決策が望ましい。

【０００６】ここでは、「依存」という語は、第２の命令の実行よりも前に第１の命令が実
行されていることを第２の命令が必要とするような、第１の命令とそれに続く第
２の命令との関係を指すため使用する。たとえば、第２の命令が、第１の命令の
実行を通じて発生されるソースオペランドを含むようなときである。一般に、オ
ペランドとは、命令の実行の間にそれに対する操作が行なわれる値である。特定
の命令についてのオペランドが命令内にエンコードされたオペランド指示子を通
じて位置特定される。たとえば、あるオペランドは、プロセッサ内で用いられる
レジスタ内に記憶されるであろう。命令内にエンコードされたレジスタオペラン
ド指示子は、オペランドを記憶している特定のレジスタを選択する。さらに、レ
ジスタオペランド指示子は、レジスタアドレスまたはレジスタ番号とも呼ばれる
。一方、他の命令は、プロセッサと結合されたメインメモリ内のメモリ場所内に
記憶されたメモリオペランドを指定するであろう。メモリアドレスもオペランド
指示子を通じて指定される。たとえば、命令は、メモリオペランドを記憶するメ
モリ場所を特定する変位を含むであろう。他の命令は、メモリアドレスを形成す
るために使用されるレジスタオペランドを指定するアドレスオペランド指示子を
含むであろう。もしそのオペランドが命令のための入力値であれば、オペランド
はソースオペランドであろう。もしそのオペランドが命令の結果であれば、オペ
ランドは行先オペランドであろう。行先オペランド指示子は、命令実行の結果が
記憶されるべき記憶場所を指定する。

【０００７】

【発明の概要】

上記問題は、この発明によるプロセッサによりほぼ解決される。プロセッサは
、１以上の命令のソースオペランドに対応するオペランド情報（オペランド値を
生成するであろう命令を特定するタグまたはオペランドのいずれか）を受取るよ
う構成されるルックアヘッドアドレス／結果計算ユニットを含む。もしオペラン
ドが利用可能であれば、ルックアヘッドアドレス／結果計算ユニットは、命令の
メモリオペランドのためのルックアヘッドアドレス、または、命令の機能的命令
演算に対応するルックアヘッド結果のいずれかを発生するであろう。ルックアヘ
ッドアドレスは、命令に対応するメモリ演算の早期開始のためロード／ストアユ
ニットへ与えられるであろう。ルックアヘッド結果は、投機的オペランドソース
（たとえばフューチャファイル）へ、その中での更新のため与えられるであろう
。レジスタのためのルックアヘッド状態が、パイプライン内に早期に与えられる
という効果がある。その後の命令はそのルックアヘッド状態を受取り、そのルッ
クアヘッド状態を使用して早期にルックアヘッド状態を追加して発生するであろ
う。他方、その後の命令はそのルックアヘッド状態を受取るであろうし、そして
それによって、（前の命令の実行を命令ウィンドウ内で待つのではなく）命令ウ
ィンドウへディスパッチされればすぐ実行できる状態となるであろう。

【０００８】プロセッサは、さまざまな態様でより効率的なフォワーディングを達成するで
あろう。たとえば、多数の命令がオペランドフェッチに際してルックアヘッド結
果を受取ってもよく、その場合その後のオペランドのフォワーディングを待つ必
要がない。さらに、いくつかの命令オペランドはルックアヘッドアドレス／結果
計算ユニットにおいて完了されるであろうから、幅の広い発行速度をサポートす
るために必要とされる機能ユニットがより少ないであろう。したがって、より少
ないフォワーディングバスが（機能ユニットがより少ないことを反映して）実現
されるであろう。加えて、ルックアヘッドオペランドを生成する命令がプロセッ
サパイプラインの実行段に到達するよりも前に、命令に対するルックアヘッドオ
ペランドを提供することによって、性能が上がるであろう。

【０００９】一実施例においては、プロセッサはさらに、ルックアヘッド結果をその後の、
同時にデコードされる命令（ライン内依存性）にまとめる（collapse）よう構成
されるオペランドまとめユニットを含む。さらに、オペランドまとめユニットは
、比較命令を、比較の結果に依存する次の分岐命令内にまとめるよう構成される
であろう。比較／分岐の組合せは単一の機能ユニットしか占めないという効果が
ある。

【００１０】概括すると、この発明は、ライン内依存性チェックユニット、ルックアヘッド
計算ユニット、オペランドまとめユニットおよび１以上の命令ウィンドウを含む
プロセッサを企図する。ライン内依存性チェックユニットは、命令のラインに対
応する複数のオペランド指示子を受取るよう結合され、複数のオペランド指示子
を比較することによって、命令のライン中の命令の間の依存性を判定するよう構
成される。ルックアヘッド計算ユニットは、複数のオペランド指示子により指定
される１以上のオペランドを受けるよう結合され、もし、命令のライン内の第１
の命令に対応するルックアヘッド結果を発生するために第１の命令により使用さ
れる各オペランドが１以上のオペランド中にあれば、ルックアヘッド結果を計算
するよう構成される。オペランドまとめユニットは、ルックアヘッド計算ユニッ
トおよびライン内依存性チェックユニットと結合され、ルックアヘッド結果を命
令ライン中の第２の命令のオペランドとして提供するよう構成される。オペラン
ドまとめユニットは、ルックアヘッド結果をオペランドとして（ｉ）ルックアヘ
ッド計算ユニットからのルックアヘッド結果が有効であるとの表示に応答して、
かつ（ii）ライン内依存性チェックユニットからの第２の命令は第１の命令に依
存するとの表示に応答して、提供するであろう。命令ウィンドウは、オペランド
まとめユニットと結合され、対応するオペランドが与えられるまで命令を記憶し
その後実行のためにその命令を選択するよう構成される。オペランドまとめユニ
ットは、もしルックアヘッド結果が有効であれば、ルックアヘッド結果により表
わされる第１の命令の少なくとも第１の命令演算の実行を禁止するよう命令ウィ
ンドウに信号を送るよう構成される。

【００１１】この発明はさらに、オペランドまとめユニットおよび１以上の命令ウィンドウ
を含むプロセッサを企図する。オペランドまとめユニットは、命令のラインに対
応する複数のオペランドを受取るよう結合される。オペランドまとめユニットは
、命令のライン中の第１の命令に対応する複数のオペランドのうち１以上のオペ
ランドを、命令のライン中の第２の命令のオペランドとして、（ｉ）比較命令で
ある第１の命令に応答して、（ii）条件付き分岐命令である第２の命令に応答し
て、および（iii）第１の命令に続いた第２の命令に応答して、与えるよう構成される。命令ウィンドウは、オペランドまとめユニットと結合され、対応するオ
ペランドが与えられるまで命令を記憶しその後実行のためにその命令を選択する
よう構成される。オペランドまとめユニットは、もし（ｉ）第１の命令が比較命
令であれば、（ii）第２の命令が条件付き分岐命令であれば、および（iii）第２の命令が第１の命令に続いていれば、第１の命令の受取りを禁止するよう命令
ウィンドウに信号を送るよう構成される。

【００１２】さらに、この発明は、プロセッサにおいて命令のラインを実行するための方法
を企図する。複数のオペランド指示子を検出するため、命令のラインがデコード
される。ライン内依存性を検出するため、命令のライン中の各命令の行先オペラ
ンド指示子が、命令のライン中の各次の命令のソースオペランド指示子と比較さ
れる。ソースオペランド指示子により指定されるソースオペランドを取込むため
投機的オペランドソースの読出が行なわれる。ソースオペランドが投機的オペラ
ンドソースにおいて利用可能であれば、ライン中の第１の命令に対するルックア
ヘッド結果が計算される。もしルックアヘッド結果が成功裡に計算されたならば
、ルックアヘッド結果を生成する第１の命令の少なくとも第１の命令演算の実行
を禁止するため、第１の命令を受取るよう構成された命令ウィンドウに、信号が
送られる。もし比較が第２の命令の第１の命令に対する依存性を示せば、命令の
ライン中の第２の命令にルックアヘッド結果が与えられる。与えるステップは、
第２の命令を命令ウィンドウ内に記憶するよりも前に行なわれる。

【００１３】この発明はまたさらに、プロセッサおよび入力／出力（Ｉ／Ｏ）装置を含むコ
ンピュータシステムを企図する。プロセッサは、命令のラインを複数の発行位置
へ整列させるよう構成される整列ユニットと、投機的オペランドを記憶するよう
構成される投機的オペランドソースと、命令をそれらの命令に対してオペランド
が提供されるまで記憶するよう構成される命令ウィンドウと、ルックアヘッド／
まとめユニットとを含む。ルックアヘッド／まとめユニットは、投機的オペラン
ドソース、命令ウィンドウおよび整列ユニットと結合され、整列ユニットから受
取った命令のラインに応答して投機的オペランドソースからオペランドを読出す
よう構成される。ルックアヘッド／まとめユニットは、オペランドに応答して命
令のライン内の第１の命令に対応するルックアヘッド結果を発生するよう構成さ
れる。ルックアヘッド／まとめユニットはさらに、ルックアヘッド結果で投機的
オペランドソースを更新するよう構成され、さらに、第１の命令に依存する、命
令のライン内の第２の命令にルックアヘッド結果をフォワードするよう構成され
る。ルックアヘッド／まとめユニットは、ルックアヘッド結果を生成する第１の
命令の少なくとも第１の命令演算の実行を禁止するよう命令ウィンドウに信号を
送るよう構成される。Ｉ／Ｏ装置は、プロセッサと結合され、コンピュータシス
テムとＩ／Ｏ装置が結合された他のコンピュータシステムとの間で通信するよう
構成される。

【００１４】この発明の他の目的および利点は、添付の図面を参照し以下の詳細な説明を読
むことで明らかとなるであろう。

【００１５】この発明にはさまざまな変更および代替的な形態が可能であるが、この発明の
特定の実施例を例として図面に示し以下で詳細に説明する。しかし、図面および
詳細な説明はこの発明を開示される特定の形態に限定することを意図するもので
はなく、逆に、前掲特許請求の範囲により規定されるこの発明の精神および範囲
内にあるすべての変更、均等物および代替例を包含することが意図されることが
理解されねばならない。

【００１６】

【詳細な説明】

さて図１を参照し、スーパースカラプロセッサ１０の一実施例のブロック図を
示す。他の実施例が可能であり企図される。図１に示す実施例においては、プロ
セッサ１０は、プリデコードユニット１２、Ｌ１Ｉ−キャッシュ１４、Ｌ０
Ｉ−キャッシュ１６、フェッチ／スキャンユニット１８、命令キュー２０、整列
ユニット２２、ルックアヘッド／まとめユニット２４、フューチャファイル２６
、リオーダバッファ／レジスタファイル２８、第１の命令ウィンドウ３０Ａ、第
２の命令ウィンドウ３０Ｂ、複数の機能ユニット３２Ａ、３２Ｂ、３２Ｃおよび
３２Ｄ、複数のアドレス発生ユニット３４Ａ、３４Ｂ、３４Ｃおよび３４Ｄ、ロ
ード／ストアユニット３６、Ｌ１Ｄ−キャッシュ３８、ＦＰＵ／マルチメディ
アユニット４０および外部インターフェイスユニット４２を含む。ここで特定の
参照番号に異なった文字を付けた参照符号で示される要素は、集合的に参照番号
のみを使用して示されるであろう。たとえば、機能ユニット３２Ａ、３２Ｂ、３
２Ｃおよび３２Ｄは、集合的には機能ユニット３２として示されるであろう。

【００１７】図１の実施例では、外部インターフェイスユニット４２は、プリデコードユニ
ット１２、Ｌ１Ｄ−キャッシュ３８、Ｌ２インターフェイス４４およびバスイ
ンターフェイス４６と結合される。プリデコードユニット１２はさらにＬ１Ｉ
−キャッシュ１４と結合される。Ｌ１Ｉ−キャッシュ１４は、Ｌ０Ｉ−キャ
ッシュ１６およびフェッチ／スキャンユニット１８と結合される。フェッチ／ス
キャンユニット１８はさらに、Ｌ０Ｉ−キャッシュ１６および命令キュー２０
と結合される。命令キュー２０は、整列ユニット２２と結合され、整列ユニット
２２はさらに、ルックアヘッド／まとめユニット２４と結合される。ルックアヘ
ッド／まとめユニット２４はさらに、フューチャファイル２６、リオーダバッフ
ァ／レジスタファイル２８、ロード／ストアユニット３６、第１の命令ウィンド
ウ３０Ａ、第２の命令ウィンドウ３０ＢおよびＦＰＵ／マルチメディアユニット
４０と結合される。ＦＰＵ／マルチメディアユニット４０は、ロード／ストアユ
ニット３６およびリオーダバッファ／レジスタファイル２８と結合される。ロー
ド／ストアユニット３６は、Ｌ１Ｄ−キャッシュ３８と結合される。第１の命
令ウィンドウ３０Ａは、機能ユニット３２Ａ〜３２Ｂおよびアドレス発生ユニッ
ト３４Ａ〜３４Ｂと結合される。同様に、第２の命令ウィンドウ３０Ｂは、機能
ユニット３２Ｃ〜３２Ｄおよびアドレス発生ユニット３４Ｃ〜３４Ｄと結合され
る。Ｌ１Ｄ−キャッシュ３８、機能ユニット３２およびアドレス発生ユニット
３４は各々、複数の結果バス４８と結合され、複数の結果バス４８はさらに、ロ
ード／ストアユニット３６、第１の命令ウィンドウ３０Ａ、第２の命令ウィンド
ウ３０Ｂ、リオーダバッファ／レジスタファイル２８およびフューチャファイル
２６と結合される。

【００１８】概して、ルックアヘッド／まとめユニット２４は、所定の命令のためのルック
アヘッド結果を、これらの命令が実行のためにディスパッチされる前に発生する
よう構成される。もし結果を生成するために使用されるオペランドが、フューチ
ャファイルからのオペランドのフェッチに際してフューチャファイル２６内で利
用可能であれば、ルックアヘッド結果が所定の命令のために発生される。（実行
の際の結果としてオペランドを生成するであろう命令を特定する結果キュータグ
である場合とは異なり）もしその値がフューチャファイル２６内で有効であれば
、オペランドはフューチャファイル２６内で利用可能である。もしルックアヘッ
ド結果が成功裡に発生されれば、結果はフューチャファイル２６へ与えられて記
憶され、命令の同じ「ライン」内の（すなわち命令とともに同時にデコードされ
る）従属している命令へ与えられる。投機的結果が、パイプライン内でより早期
に後の命令に対し利用可能となるという効果が奏されるであろう。したがって、
後の命令のためにルックアヘッド結果が計算されるであろう。さらに、フォワー
ディングがフューチャファイル２６を通じてより頻繁に達成されるので、フォワ
ーディングがより効率的となろう。したがって、フォワードするためのハードウ
ェアが減じられるであろう。さらに、所定の命令に対して実行ハードウェアの外
で結果が発生されるために、幅の広い発行速度を依然サポートしつつも、プロセ
ッサ１０内で用いられる実行ハードウェアの量が減じられるであろう。

【００１９】一実施例においては、ルックアヘッド／まとめユニット２４は、メモリオペラ
ンドを有する命令のためのルックアヘッドアドレスを発生するよう構成される。
このような命令については、さもなくば、アドレス発生ユニット３４の１つによ
って行なわれるアドレス発生命令演算が、ルックアヘッド／まとめユニット２４
により行なわれるであろう。したがって、ロード／ストアユニット３６は、さも
なくば達成可能であったであろうよりも、早期にパイプライン内でアドレスを受
取るであろう。もし、命令が加算系命令演算またはレジスタからレジスタへの移
動を指定するならば、そして、メモリオペランドを含んでいなければ、ルックア
ヘッド／まとめユニット２４はルックアヘッド結果を発生するであろう。したが
って、さもなくば機能ユニット３２の１つによって実行されたであろう機能的命
令演算が、パイプライン内でより早期にルックアヘッド／まとめユニット２４に
より行なわれる。

【００２０】プリデコードユニット１２は、外部インターフェイスユニット４２によりフェ
ッチされた命令バイトを受取り、命令バイトがＬ１Ｉ−キャッシュ１４内に記
憶されるより前に命令バイトをプリデコードする。プリデコードユニット１２に
よって発生されたプリデコード情報は、同様にＬ１Ｉ−キャッシュ１４内に記
憶される。一般に、プリデコード情報は、命令のフェッチおよび発行の間に有用
であろう命令特徴の特定を助けるため提供されるが、フェッチおよび発行演算の
間に迅速に発生することは困難であろう。ここで使用する際は「プリデコード」
という語は、デコードされる命令バイトとともに後に命令キャッシュ（たとえば
Ｌ１Ｉ−キャッシュ１４および／またはＬ０Ｉ−キャッシュ１６など）内に
記憶されるプリデコード情報を発生するためのデコード命令を指す。

【００２１】一実施例では、プロセッサ１０は、命令バイトごとにプリデコード情報２ビッ
トを用いる。これらのビットの１つは、「開始ビット」と呼ばれ、その命令バイ
トが命令の最初のバイトであるのか否かを示す。命令バイトの群がフェッチされ
るとき、対応する開始ビットの組が命令バイトの群の中の命令間の境界を特定す
る。したがって、対応する開始ビットをスキャンすることによって、命令バイト
の群から複数の命令が同時に選択されよう。開始ビットが、各命令の最初のバイ
トを特定することによって命令の境界を位置特定するため使用される一方で、代
替的に各命令の最後のバイトを特定することによって命令の境界を位置特定する
よう、終了ビットが使用できよう。

【００２２】この実施例において使用される第２のプリデコードビットは、「転送制御」ビ
ットと呼ばれ、どの命令が分岐命令であるかを特定する。命令の最初のバイトに
対応する転送制御ビットは、その命令が分岐命令であるか否かを示す。命令の後
のバイトに対応する転送制御ビットは、小変位フィールドを有する相対分岐命令
以外についてはドントケアである。具体的一実施例によれば、小変位フィールド
は８ビットフィールドである。一般に、「小変位フィールド」は、分岐命令によ
り発生されるターゲットアドレスよりも少ないビットを有する変位フィールドを
指す。小変位フィールドを有する相対分岐命令については、変位バイトに対応す
る転送制御ビットが以下に説明するように使用される。

【００２３】命令バイトに対応するプリデコード情報を発生するのに加えて、プリデコード
ユニット１２は、この実施例においては、ターゲットアドレスを実際に記憶する
ため相対分岐命令の変位フィールドを再コードするよう構成される。すなわち、
プリデコードユニット１２は、相対分岐命令の変位を、プロセッサ１０により用
いられる命令セットにより規定されるように、相対分岐命令に対応するアドレス
に加える。得られたターゲットアドレスは、変位の代わりとして変位フィールド
にエンコードされ、更新された変位フィールドが元の変位フィールドの代わりに
Ｌ１Ｉ−キャッシュ１４に記憶される。相対ターゲットアドレスを前もって計
算することによって、ターゲットアドレス発生が簡単にされ、それによって分岐
予測機構がより効率的に動作するであろう。

【００２４】ｘ８６命令セットを用いるプロセッサ１０の一実施例においては、プリデコー
ドユニット１２は、８ビットの変位フィールドおよび３２ビットの変位フィール
ドを再コードするよう構成される。３２ビットの変位フィールドはターゲットア
ドレス全体を記憶するであろう。一方、８ビットの変位フィールドはエンコード
される。特に、８ビットの変位フィールドおよび対応する転送制御プリデコード
ビットは、キャッシュラインオフセット部と相対的キャッシュライン部とに分割
される。キャッシュラインオフセット部は、ターゲットアドレスのキャッシュラ
インオフセット部である。相対キャッシュライン部は、相対分岐命令を記憶して
いるキャッシュラインよりも上または下のキャッシュライン数という形で、ター
ゲットアドレスにより特定されるキャッシュライン（「ターゲットキャッシュラ
イン」）を定義する。第１のキャッシュライン内の各バイトが第２のキャッシュ
ライン内のバイトが記憶されているアドレスよりも数値的に大きいアドレスに記
憶されているとき、第１のキャッシュラインは第２のキャッシュラインよりも上
であるという。逆に、第１のキャッシュライン内の各バイトが、第２のキャッシ
ュライン内のバイトが記憶されているアドレスよりも数値的に小さいアドレスに
記憶されていれば、第１のキャッシュラインは第２のキャッシュラインよりも下
であるという。符号付の８ビット変位は、分岐命令に対応するアドレスから＋／
−１２８バイトのアドレスを指定する。したがって、８ビット変位を有する相対
分岐命令により到達可能な上のおよび下のキャッシュラインの数は限定される。
相対キャッシュライン部は、この限定された上のおよび下のキャッシュラインの
組をエンコードする。通常、小変位フィールドを有する分岐命令は、予め定めら
れた範囲内に変位を有するが、より大きな変位フィールドは、予め定められた範
囲外の値を記憶するであろう。

【００２５】次の表１および表２は、プロセッサ１０の一実施例による、バイトに対応する
プリデコード情報のエンコードの例を示す。

【００２６】

【表１】

【００２７】

【表２】

【００２８】プリデコードユニット１２は、受取った命令バイトと対応するプリデコード情
報とを記憶するためＬ１Ｉ−キャッシュ１４へ送る。Ｌ１Ｉ−キャッシュ１
４は、命令バイトおよびプリデコード情報を記憶するための高速キャッシュメモ
リである。Ｌ１Ｉ−キャッシュ１４は、ダイレクトマッピング構成およびセッ
トアソシアティブ構成を含む任意の適切な構成を用いてよい。具体的一実施例で
は、Ｌ１Ｉ−キャッシュ１４は、６４バイトのキャッシュラインを用いる１２
８ＫＢの２ウェイセットアソシアティブキャッシュである。Ｌ１Ｉ−キャッシ
ュ１４は、中に記憶される命令バイトに対応するプリデコード情報用の付加的記
憶装置を含む。付加的記憶装置は、命令バイト記憶装置と同様に編成される。こ
こで使用する際には、「キャッシュライン」という語は、特定のキャッシュ内の
記憶装置の割当の単位を指す。一般に、キャッシュライン内のバイトが、１単位
としてキャッシュにより操作される（すなわち割当てられ割当て解除される）。

【００２９】一実施例では、Ｌ１Ｉ−キャッシュ１４は、線形にアドレス指定され、物理
的タグが付けられる。キャッシュを索引するために使用されるアドレスビットの
少なくとも１つが、後から物理的アドレスビットに変換される線形アドレスビッ
トであれば、キャッシュは線形にアドレス指定されているという。線形にアドレ
ス指定された／物理的タグが付けられたキャッシュのタグは、インデックスのた
めに使用されないビットに加え変換された各ビットを含む。ｘ８６アーキテクチ
ャの指定によれば、命令は論理アドレスを発生し、それはセグメンテーション変
換機構を通じて線形アドレスに変換されさらにページ変換機構を通じて物理アド
レスに変換されるように規定されている。論理アドレスと対応する線形アドレス
とが等しいフラットアドレッシングモードの使用がますます一般的となってきて
いる。プロセッサ１０は、フラットアドレッシングモードを用いるよう構成され
てもよい。したがって、実行中の命令により発生されるフェッチアドレス、ター
ゲットアドレスなどは線形アドレスである。Ｌ１Ｉ−キャッシュ１４において
ヒットが検出されるか否かを判定するため、フェッチ／スキャンユニット１８に
よりキャッシュに提示される線形アドレスは、変換ルックアサイドバッファ（Ｔ
ＬＢ）を使用して対応する物理アドレスに変換され、この物理アドレスが指し示
されたキャッシュラインからの物理的タグと比較されてヒット／ミスが判定され
る。フラットアドレッシングモードが使用されないときは、プロセッサ１０はや
はりコードを実行するであろうが、論理アドレスから線形アドレスを発生するた
めに付加的なクロックサイクルが使用されるであろう。

【００３０】さらに、Ｌ０Ｉ−キャッシュ１６は、命令バイトを記憶するための高速キャ
ッシュメモリである。Ｌ１Ｉ−キャッシュ１４は大きいために、Ｌ１Ｉ−キ
ャッシュ１４のアクセスタイムは長いであろう。具体的一実施例では、Ｌ１Ｉ
−キャッシュ１４は２クロックサイクルのアクセスタイムを使用する。単一サイ
クルでのフェッチアクセスを可能にするため、Ｌ０Ｉ−キャッシュ１６が用い
られる。Ｌ０Ｉ−キャッシュ１６は、Ｌ１Ｉ−キャッシュ１４と比較してよ
り小さく、そのためより高速のアクセスタイムをサポートするであろう。具体的
一実施例では、Ｌ０Ｉ−キャッシュ１６は５１２バイトのフルアソシアティブ
キャッシュである。Ｌ１Ｉ−キャッシュ１４と同様、Ｌ０Ｉ−キャッシュ１
６は、命令バイトのキャッシュラインおよび対応するプリデコード情報を記憶す
るよう構成される（たとえば５１２バイトで、８つの６４バイトキャッシュライ
ンを記憶し、対応するプリデコードデータは付加的記憶装置内に記憶される）。
一実施例では、Ｌ０Ｉ−キャッシュ１６は線形にアドレス指定され線形タグが
付けられるであろう。

【００３１】フェッチ／スキャンユニット１８は、Ｌ０Ｉ−キャッシュ１６に対してフェ
ッチアドレスを発生するよう、そして、Ｌ１Ｉ−キャッシュ１４に対してフェ
ッチまたはプリフェッチアドレスを発生するよう構成される。Ｌ０Ｉ−キャッ
シュ１６からフェッチされた命令は、フェッチ／スキャンユニット１８によって
スキャンされ、ディスパッチのために命令を特定すると同時に分岐命令を位置特
定し、さらに、位置特定された分岐命令に対応する分岐予測を形成する。命令ス
キャン情報および対応する命令バイトは、フェッチ／スキャンユニット１８によ
って命令キュー２０へ記憶される。さらに、特定された分岐命令および分岐予測
は、Ｌ０Ｉ−キャッシュ１６に対しその後のフェッチアドレスを発生するため
使用される。

【００３２】フェッチ／スキャンユニット１８は、プリフェッチされるキャッシュラインが
プロセッサ１０へのディスパッチのためにフェッチ／スキャンユニット１８によ
りフェッチされるよりも前に、Ｌ１Ｉ−キャッシュ１４からＬ０Ｉ−キャッ
シュ１６へのキャッシュラインのプリフェッチを試みるためプリフェッチアルゴ
リズムを用いる。任意の適当なプリフェッチアルゴリズムが使用されてよい。プ
リフェッチアルゴリズムの一実施例を以下にさらに詳細に示す。

【００３３】フェッチ／スキャンユニット１８は、１クロックサイクルの間に命令のより大
きな「ラン」をフェッチしようとする試みにおいて、攻撃的な分岐予測機構を用
いる。ここで使用する際には、命令の「ラン」とは、そのセットの中で指定され
たシーケンスで実行されると予測される、１以上の命令のセットである。たとえ
ば、フェッチ／スキャンユニット１８は、Ｌ０Ｉ−キャッシュ１６から２４個
の命令バイトのランをフェッチするであろう。各ランは、いくつかのセクション
に分割され、フェッチ／スキャンユニット１８はこれらのセクションを並列でス
キャンして、分岐命令を特定し、命令キュー２０のために命令スキャン情報を発
生する。一実施例では、フェッチ／スキャンユニット１８は、大きな命令のラン
をサポートするため、クロックサイクル当り最大２つの分岐命令を予測するよう
試みる。

【００３４】命令キュー２０は、続いてのディスパッチのために、フェッチ／スキャンユニ
ット１８により与えられる命令バイトを記憶するよう構成される。命令キュー２
０は、ファーストインファーストアウト（ＦＩＦＯ）バッファとして動作してよ
い。一実施例では、命令キュー２０は、複数のエントリを記憶するよう構成され
、各エントリは、命令のラン、ランの各セクション内の最大５つの命令を特定す
るスキャンデータおよびランの各セクションに対応するアドレスを含む。さらに
、命令キュー２０は、整列ユニット２２への提示のため、ランの最大４つの連続
したセクション内から最大６つの命令を選択するよう構成されてもよい。命令キ
ュー２０は、たとえば２〜３のエントリを用いてよい。

【００３５】整列ユニット２２は、命令キュー２０により特定された命令をルックアヘッド
／まとめユニット２４内の発行位置のセットへ割り振るよう構成される。すなわ
ち、整列ユニット２２は、命令キュー２０により与えられるスキャン情報に応答
して、命令キュー２０によって与えられるランのセクションから各命令を形成す
るバイトを選択する。命令はプログラム順に発行位置へと与えられる（すなわち
、プログラム順において１番目の命令が第１の発行位置に与えられ、プログラム
順において第２番目の命令が第２の発行位置に与えられる、等々）。

【００３６】ルックアヘッド／まとめユニット２４は、整列ユニット２２により与えられる
命令をデコードする。ルックアヘッド／まとめユニット２４により検出されたＦ
ＰＵ／マルチメディア命令は、ＦＰＵ／マルチメディアユニット４０へ与えられ
る。他の命令は、第１の命令ウィンドウ３０Ａ、第２の命令ウィンドウ３０Ｂお
よび／またはロード／ストアユニット３６に与えられる。一実施例では、特定の
命令が、その命令が整列ユニット２２により整列させられた発行位置に基づいて
、第１の命令ウィンドウ３０Ａまたは第２の命令ウィンドウ３０Ｂへ与えられる
。具体的一実施例では、発行位置からの命令が命令ウィンドウ３０ａおよび３０
ｂに交互に与えられる。たとえば、発行位置０、２および４からの命令が第１の
命令ウィンドウ３０Ａに与えられてよく、発行位置１、３および５からの命令が
第２の命令ウィンドウ３０Ｂに与えられてよい。メモリ演算を含む命令はさらに
、Ｌ１Ｄ−キャッシュ３８へのアクセスのためロード／ストアユニット３６へ
与えられる。

【００３７】さらに、ルックアヘッド／まとめユニット２４は、特定のタイプの命令のため
にルックアヘッドアドレスまたは実行結果を発生しようと試みる。ルックアヘッ
ドアドレス／結果発生は、特にｘ８６命令セットを用いる実施例において有益で
あろう。ｘ８６命令セットの性質のため、典型的なコードシーケンスにおける多
くの命令は、簡単な移動の一種である。この特徴の理由は、ｘ８６命令が２つの
オペランドを含み、その両方がソースオペランドであり一方が行先オペランドで
あるからである。このため、各命令のソースオペランドの一方が実行結果でオー
バーライトされる。さらに、ｘ８６命令セットは、レジスタオペランドの記憶の
ため極めて少数のレジスタしか指定しない。したがって、多くの命令はメモリ内
に維持されるスタックへのオペランドの移動およびスタックからのオペランドの
移動である。さらに、多くの命令の依存性は、ＥＳＰ／ＥＢＰレジスタに対する
依存性であるが、これらのレジスタへの更新の多くは前に記憶された値へのイン
クリメントおよびデクリメントである。

【００３８】これらの命令の実行を加速するため、ルックアヘッド／まとめユニット２４は
、クロックサイクルの間にデコードされる各命令のためにＥＳＰおよびＥＢＰレ
ジスタのルックアヘッドコピーを発生する。さらに、ルックアヘッド／まとめユ
ニット２４は、各命令により選択されるレジスタオペランドのためフューチャフ
ァイル２６にアクセスする。各レジスタオペランドに対して、フューチャファイ
ル２６は、このレジスタを行先オペランドとして有する最も最近の命令に対応す
るリオーダバッファ結果キューエントリを特定するタグまたは実行結果のいずれ
かを記憶しているであろう。

【００３９】一実施例では、ルックアヘッド／まとめユニット２４は、（ｉ）メモリオペラ
ンドを含む、および（ii）メモリオペランドのアドレスを形成するため使用され
るレジスタオペランドがフューチャファイル２６またはＥＳＰ／ＥＢＰのルック
アヘッドコピーから利用可能である、各命令に対してアドレス計算を行なうよう
試みる。加えて、ルックアヘッド／まとめユニット２４は、（ｉ）メモリオペラ
ンドを含まない、（ii）（インクリメントおよびデクリメントを含む）加算／減
算演算を指定する、および（iii）レジスタオペランドがフューチャファイル２６またはＥＳＰ／ＥＢＰのルックアヘッドコピーから利用可能である、各命令に
対して結果計算を行なうよう試みる。上記態様において、多くの簡単な演算が、
命令が命令ウィンドウ３０Ａ〜３０Ｂに送られるよりも前に完了されるであろう
。

【００４０】ルックアヘッド／まとめユニット２４は、ディスパッチされてくる命令の群の
間の依存性を検出し、中で発生される実行結果をすべてこれらの命令結果に依存
する命令中にまとめる。さらに、ルックアヘッド／まとめユニット２４は、ルッ
クアヘッド実行結果でフューチャファイル２６を更新する。ルックアヘッド／ま
とめユニット２４により完了される命令演算（すなわち、アドレス発生および／
または命令結果が発生され、ロード／ストアユニット３６またはフューチャファ
イル２６および結果キューが更新される）は、命令ウィンドウ３０Ａ〜３０Ｂへ
ディスパッチされない。

【００４１】ルックアヘッド／まとめユニット２４は、ディスパッチされる各命令に対して
リオーダバッファ／レジスタファイル２８内の結果キューエントリを割当てる。
具体的一実施例では、リオーダバッファ／レジスタファイル２８は、ライン指向
型で編成された結果キューを含み、この結果キュー内では、実行結果のための記
憶場所が、同時にディスパッチ可能な命令の最大数に対応する実行結果用の十分
な記憶場所を有するライン内で割当てられかつ割当て解除される。もし最大数に
満たない命令がディスパッチされれば、ライン内の特定の記憶場所が空となる。
その後ディスパッチされる命令は、次に利用可能なラインを使用し所定の記憶場
所は空のままとする。一実施例では、結果キューは４０個のラインを含み、各ラ
インは同時にディスパッチされる命令に対応する最大６つの実行結果を記憶する
であろう。実行結果は、リオーダバッファ／レジスタファイル２８内に含まれる
レジスタファイルへと順番に結果キューからリタイアされる。さらに、リオーダ
バッファは分岐予測誤りを処理し、分岐命令の実行により発生される訂正された
フェッチアドレスをフェッチ／スキャンユニット１８へ送る。同様に、他の例外
を発生する命令は、リオーダバッファ内で処理される。例外を発生した命令の後
の命令に対応する結果は、リオーダバッファにより廃棄される。レジスタファイ
ルは設計されたレジスタ各々に対する記憶場所を含む。たとえば、ｘ８６命令セ
ットは８つの設計されたレジスタを規定する。このような実施例に対するレジス
タファイルは８つの記憶場所を含む。レジスタファイルはさらに、マイクロコー
ドユニットを用いる実施例においてはマイクロコードユニットにより一時レジス
タとして使用される記憶場所を含むであろう。

【００４２】フューチャファイル２６は、命令がルックアヘッド／まとめユニット２４によ
りディスパッチされる間、設計されたレジスタ各々の投機的状態を維持する。レ
ジスタ行先オペランドを有する命令がルックアヘッド／まとめユニット２４によ
りデコードされるに伴い、命令に割当てられるリオーダバッファ／レジスタファ
イル２８の結果キュー部分内の記憶場所を特定するタグが、レジスタに対応する
フューチャファイル２６の記憶場所へ記憶される。対応する実行結果が与えられ
たとき、（レジスタを更新する次の命令がまだディスパッチされていないと仮定
して）その実行結果は対応する記憶場所へ記憶される。

【００４３】一実施例では、命令キュー２０から最大６つの命令の群が選択され、１単位と
してルックアヘッド／まとめユニット２４内のパイプラインを移動することが注
意される。もし、この群内の１以上の命令がストール条件を発生すれば、群全体
がストールする。この規則の例外は、その群の中でのＥＳＰ更新の数のためにル
ックアヘッド／まとめユニット２４がライン分離条件を発生する場合である。こ
のような命令の群を、ここでは命令の「ライン」と呼ぶ。

【００４４】命令ウィンドウ３０はルックアヘッド／まとめユニット２４から命令を受取る
。命令ウィンドウ３０はその命令に対応するオペランドが受取られるまでその命
令を記憶し、実行のため命令を選択する。一旦メモリ演算を含む命令のアドレス
オペランドが受取られると、命令はアドレス発生ユニット３４の１つに送られる
。アドレス発生ユニット３４はアドレスオペランドからアドレスを発生し、アド
レスをロード／ストアユニット３６へフォワードする。一方、一旦命令の実行オ
ペランドが受取られると、命令は実行のため機能ユニット３２の１つへ送られる
。一実施例では、各整数ウィンドウ３０Ａ〜３０Ｂは命令のための２５個の記憶
場所を含む。各整数ウィンドウ３０Ａ〜３０Ｂは、各整数ウィンドウに接続され
るアドレス発生ユニット３４および機能ユニット３２内の最大で２つのアドレス
発生および２つの機能ユニット演算を各クロックサイクルについて実行のために
選択するよう構成される。一実施例では、Ｌ０Ｉ−キャッシュ１６からフェッ
チされた命令は、命令ウィンドウ３０の１つに記憶されるまではフェッチされた
ときの順番のままで維持され、命令ウィンドウ３０の１つに記憶された時点で命
令はアウトオブオーダで実行されるであろう。

【００４５】ｘ８６命令セットを用いるプロセッサ１０の実施例では、命令はロード／スト
アユニット３６のための暗黙のメモリ演算と機能ユニット３２のための明示的機
能演算とを含むであろう。メモリオペランドを持たない命令はメモリ演算を全く
含まず、機能ユニット３２によって処理される。ソースメモリオペランドおよび
レジスタ行先オペランドを有する命令は、ロード／ストアユニット３６により処
理される暗黙のロードメモリ演算および機能ユニット３２により処理される明示
的機能演算を含む。メモリソース／行先オペランドを有する命令は、ロード／ス
トアユニット３６により処理される暗黙のロードおよびストアメモリ演算および
機能ユニット３２により処理される明示的機能演算を含む。最後に、明示的機能
演算を持たない命令はロード／ストアユニット３６により処理される。各メモリ
演算の結果、ルックアヘッド／まとめユニット２４またはアドレス発生ユニット
３４のいずれかにより処理されるアドレス発生が生じる。ここではメモリ演算お
よび命令（すなわち機能演算）を別個に述べるであろうが、この２つは単一の命
令から生じ得る。

【００４６】アドレス発生ユニット３４は、アドレス発生演算を行ないそれによってロード
／ストアユニット３６内でのメモリ演算のためのアドレスを発生するよう構成さ
れる。発生されたアドレスは結果バス４８を通じてロード／ストアユニット３６
へフォワードされる。機能ユニット３２は、整数算術／論理演算を行ない分岐命
令を実行するよう構成される。実行結果はフューチャファイル２６、リオーダバ
ッファ／レジスタファイル２８および命令ウィンドウ３０Ａ〜３０Ｂへ結果バス
４８を通じてフォワードされる。アドレス発生ユニット３４および機能ユニット
３２は、実行されている命令を特定するため、実行されている命令に割当てられ
た結果キュータグを結果バス４８上で運ぶ。上記態様で、フューチャファイル２
６、リオーダバッファ／レジスタファイル２８、命令ウィンドウ３０Ａ〜３０Ｂ
およびロード／ストアユニット３６が、実行結果を対応する命令に対して特定す
るであろう。ＦＰＵ／マルチメディアユニット４０は、浮動小数点およびマルチ
メディア命令を実行するよう構成される。

【００４７】ロード／ストアユニット３６は、メモリ演算を行なうためＬ１Ｄ−キャッシ
ュ３８とインターフェイスするよう構成される。メモリ演算は、プロセッサ１０
と外部メモリとの間でのデータの転送である。メモリ演算は、やはり機能ユニッ
ト３２により実行される演算を含む、命令の暗黙の部分であってもよく、または
明示的命令であってもよい。ロードメモリ演算は、外部メモリからプロセッサ１
０へのデータの転送を指定し、ストアメモリ演算は、プロセッサ１０から外部メ
モリへのデータの転送を指定する。もし、Ｌ１Ｄ−キャッシュ３８内でのメモ
リ演算についてヒットが検出されれば、外部メモリにアクセスすることなくそこ
でメモリ演算が完了する。ロード／ストアユニット３６は、ルックアヘッド／ま
とめユニット２４から（ルックアヘッドアドレス計算を通じて）またはアドレス
発生ユニット３４からメモリ演算のためのアドレスを受取るであろう。この一実
施例では、ロード／ストアユニット３６は、クロックサイクル当り３つのメモリ
演算をＬ１Ｄ−キャッシュ３８に対して行なうよう構成される。この実施例で
は、ロード／ストアユニット３６は、Ｄ−キャッシュ３８にまだアクセスしてい
ない最大で３０のロード／ストアメモリ演算をバッファするよう構成されるであ
ろう。この実施例はさらに、Ｄ−キャッシュ３８をミスしたロードメモリ演算を
バッファするための９６個のエントリのミスバッファおよび３２個のエントリの
記憶データバッファを含むよう構成されるであろう。ロード／ストアユニット３
６は、ロードおよびストアメモリ演算の間、メモリ依存性チェックを行なうよう
構成される。

【００４８】Ｌ１Ｄ−キャッシュ３８はデータを記憶するための高速キャッシュメモリで
ある。セットアソシアティブ構成およびダイレクトマッピング構成を含む、任意
の適切な構成をＬ１Ｄ−キャッシュ３８のために使用してよい。一具体例では
、Ｌ１Ｄ−キャッシュ３８は、６４バイトのラインを用いる１２８ＫＢの２ウ
ェイセットアソシアティブキャッシュである。Ｌ１Ｄ−キャッシュ８３は、た
とえば、ウェイごとに３２個のバンクのキャッシュメモリとして編成されてもよ
い。さらに、Ｌ１Ｄ−キャッシュ３８は、Ｌ１Ｉ−キャッシュ１４と同様、
ＴＬＢを用いる線形にアドレス指定され／物理的タグが付けられるキャッシュで
あってよい。

【００４９】外部インターフェイスユニット４２は、キャッシュのミスに応答して、命令バ
イトおよびデータバイトのキャッシュラインをプロセッサ１０へ転送するよう構
成される。命令キャッシュラインは、プリデコードユニット１２へ割り振られ、
データキャッシュラインはＬ１Ｄ−キャッシュ３８に割り振られる。さらに、
外部インターフェイスユニット４２は、Ｌ１Ｄ−キャッシュ３８により廃棄さ
れるキャッシュラインを、もしその廃棄されるキャッシュラインがプロセッサ１
０に対し変更されていれば、メモリへ転送するよう構成される。図１に示すよう
に、外部インターフェイスユニット４２は、バスインターフェイス４６を介して
コンピュータシステムへインターフェイスすると同時にＬ２インターフェイス４
４を介して外部Ｌ２キャッシュにインターフェイスするよう構成される。一実施
例では、バスインターフェイスユニット４６はＥＶ／６バスインターフェイスを
含む。

【００５０】次に図２を参照し、フェッチ／スキャンユニット１８の一実施例のブロック図
を示す。他の実施例も可能であり企図される。図２に示すように、フェッチ／ス
キャンユニット１８は、フェッチ制御ユニット５０、複数の次選択ブロック５２
Ａ〜５２Ｃ、命令選択マルチプレクサ（ｍｕｘ）５４、命令スキャナ５６、分岐
スキャナ５８、分岐履歴テーブル６０、分岐選択ｍｕｘ６２、リターンスタック
６４、間接アドレスキャッシュ６６、およびフォワードまとめユニット６８を含
む。フェッチ制御ユニット５０は、Ｌ１Ｉ−キャッシュ１４、Ｌ０Ｉ−キャ
ッシュ１６、間接アドレスキャッシュ６６、リターンスタック６４、分岐履歴テ
ーブル６０、分岐スキャナ５８および命令選択ｍｕｘ５４と結合される。次選択
ブロック５２ＡはＬ１Ｉ−キャッシュ１４と結合され、他方、次選択ブロック
５２Ｂ〜５２ＣはＬ０Ｉ−キャッシュ１６と結合される。各次選択ブロック５
２は、命令選択ｍｕｘ５４と結合され、命令選択ｍｕｘ５４はさらに、分岐スキ
ャナ５８および命令スキャナ５６と結合される。命令スキャナ５６は命令キュー
２０と結合される。分岐スキャナ５８は分岐履歴テーブル６０、リターンスタッ
ク６４および分岐選択ｍｕｘ６２と結合される。分岐選択ｍｕｘ６２は間接アド
レスキャッシュ６６と結合される。分岐履歴テーブル６０および分岐スキャナ５
８は、フォワードまとめユニット６８と結合され、フォワードまとめユニット６
８は命令キュー２０と結合される。

【００５１】フェッチ制御ユニット５０は、分岐スキャナ５０、分岐履歴テーブル６０、リ
ターンスタック６４および間接アドレスキャッシュ６６から（ターゲットアドレ
スおよびテイクン／ノットテイクン予測を含む）分岐予測情報を受取る。フェッ
チ制御ユニット５０は、分岐予測情報に応答して、Ｌ０Ｉ−キャッシュ１６の
ためのフェッチアドレスを発生し、Ｌ１Ｉ−キャッシュ１４のためのフェッチ
アドレスまたはプリフェッチアドレスを発生する。一実施例では、フェッチ制御
ユニット５０は、Ｌ０Ｉ−キャッシュ１６のために２つのフェッチアドレスを
発生する。第１のフェッチアドレスは、分岐スキャナ５８により特定される第１
の分岐命令（もしあれば）に対応するターゲットアドレスとして選択される。第
２のフェッチアドレスは、前のクロックサイクル中に選択されたフェッチアドレ
スの次のアドレスである（すなわち、命令選択ｍｕｘ５４により選択されたラン
に対応するフェッチアドレス）。

【００５２】Ｌ０Ｉ−キャッシュ１４は、２つのフェッチアドレスに対応するキャッシュ
ライン（およびプリデコード情報）と、これらのキャッシュライン各々の次のキ
ャッシュライン（およびプリデコード情報）とを、次選択ブロック５２Ｂ〜５２
Ｃへ与える。特に、次選択ブロック５２Ｂは、次のアドレスに対応する次のキャ
ッシュラインおよびこの次のキャッシュラインの次のインクリメントしたキャッ
シュラインを受ける。次選択ブロック５２Ｃは、ターゲットアドレスに対応する
ターゲットキャッシュラインとターゲットキャッシュラインの次のキャッシュラ
インとを受ける。さらに、次選択ブロック５２Ｂ〜５２Ｃは、対応するフェッチ
アドレスのオフセット部を受ける。各次選択ブロック５２Ｂ〜５２Ｃは、対応す
るフェッチアドレスのオフセット部を含むランセクションで始めて、受取ったキ
ャッシュラインから命令バイト（および対応するプリデコード情報）のランを選
択する。各フェッチアドレスのオフセット部はキャッシュラインのどこからでも
始まり得るので、選択されたランは、フェッチされたキャッシュライン部および
フェッチされたキャッシュラインの次のキャッシュライン部を含み得る。したが
って、フェッチされたキャッシュラインおよび次のキャッシュラインの両方が次
選択ブロック５２Ｂ〜５２Ｃにより受取られる。

【００５３】同様に、次選択ブロック５２Ａは、Ｌ１Ｉ−キャッシュ１４からプリフェッ
チされたキャッシュライン（および対応するプリデコード情報）を受け、そこか
ら命令のランを選択する。１つのキャッシュラインがＬ１Ｉ−キャッシュ１４
からプリフェッチされるので、そこから選択されるランは、もしプリフェッチア
ドレスのオフセット部がキャッシュラインの終りに近ければ、含むのはラン全体
よりも少ないであろう。Ｌ０Ｉ−キャッシュ１６からのフェッチキャッシュラ
インは、対応するアドレスがフェッチ制御ユニット５０によって発生されるため
、同一のクロックサイクル中に与えられるであろうが、プリフェッチキャッシュ
ラインはＬ１Ｉ−キャッシュ１４のサイズがより大きくアクセスタイムがより
遅いために１クロックサイクル遅延され得ることが留意される。Ｌ１Ｉ−キャ
ッシュ１４は、プリフェッチされたキャッシュラインを次選択ブロック５２Ａへ
与えるのに加えて、Ｌ０Ｉ−キャッシュ１６へプリフェッチされたキャッシュ
ラインを与える。もし、プリフェッチされたキャッシュラインが既にＬ０Ｉ−
キャッシュ１６内に記憶されていれば、Ｌ０Ｉ−キャッシュ１６はプリフェッ
チされたキャッシュラインを廃棄するであろう。しかしながら、もしプリフェッ
チされたキャッシュラインがまだＬ０Ｉ−キャッシュ１４内に記憶されていな
ければ、プリフェッチされたキャッシュラインはＬ０Ｉ−キャッシュ１６へ記
憶される。上記態様で、現在アクセスされているであろうキャッシュラインが、
Ｌ０Ｉ−キャッシュ１６からの迅速なアクセスのためにＬ０Ｉ−キャッシュ
１６へ送られる。具体的一実施例によれば、Ｌ０Ｉ−キャッシュ１６は８つの
エントリのフルアソシアティブキャッシュ構造を含む。フルアソシアティブ構造
は、Ｌ０Ｉ−キャッシュ１６に含まれるキャッシュラインの数が比較的少ない
ので用いられ得る。他の実施例では他の編成（たとえばセットアソシアティブま
たはダイレクトマッピング）を用いてもよい。

【００５４】フェッチ制御ユニット５０は、命令選択ｍｕｘ５４を制御することによって、
分岐予測情報に応答して次選択ブロック５２の１つにより与えられる命令ランを
選択する。以下にさらに詳細に説明するように、フェッチ制御ユニット５０はク
ロックサイクルの早期において分岐スキャナ５８、リターンスタック６４および
間接アドレスキャッシュ６６から（この実施例では）ターゲットアドレスを受取
り、かつ、分岐スキャナ５８により特定される第１の分岐命令のオペコードバイ
トの少なくとも一部を受取る。フェッチ制御ユニット５０は、オペコードバイト
の部分をデコードして、さまざまなターゲットアドレスソースから、Ｌ０Ｉ−
キャッシュ１６からフェッチされるべきターゲットアドレスを選択し、選択され
たターゲットアドレスをＬ０Ｉ−キャッシュ１６へ与える。並行して、前のク
ロックサイクル中に選択されたフェッチアドレスの次のアドレス（前のクロック
サイクルからの分岐予測に依存して、ターゲットアドレスまたは前のクロックサ
イクルの次のアドレスのいずれか）が計算され、Ｌ０Ｉ−キャッシュ１６へ与
えられる。クロックサイクルの後の方で、分岐予測情報（すなわちテイクンまた
はノットテイクン）が分岐履歴テーブル６０により与えられる。もし、Ｌ０Ｉ
−キャッシュ１６からフェッチされたターゲットアドレスに対応する分岐命令が
、テイクン予測されれば、フェッチ制御ユニット５０は次選択ブロック５２Ｃに
より与えられた命令ランを選択する。一方、もし分岐命令がノットテイクン予測
されれば、次選択ブロック５２Ｂにより選択された命令ランが選択される。もし
、前のクロックサイクルにおいて、予測されたフェッチアドレスがＬ０Ｉ−キ
ャッシュ１６でミスしＬ１Ｉ−キャッシュ１４からフェッチされていれば、次
選択ブロック５２Ａにより与えられる命令ランが選択される。さらに、分岐命令
が３２ビット変位または間接ターゲットアドレス発生を有すること、またはＬ０
Ｉ−キャッシュミスがフェッチされたことに応答して、命令ランがフェッチさ
れていたならば、Ｌ１Ｉ−キャッシュ１４からの命令ランが選択される。

【００５５】選択された命令ランは、命令スキャナ５６および分岐スキャナ５８に与えられ
る。命令スキャナ５６は、選択された命令ランに対応するプリデコード情報をス
キャンし、命令ラン内の命令を特定する。一実施例では特に、命令スキャナ５６
は並行して各ランセクションに対応する開始ビットをスキャンし、各ランセクシ
ョン内の最高５つの命令を特定する。特定された命令に対するポインタ（ランセ
クション内でのオフセット）が発生される。ポインタ、命令バイトおよび（ラン
セクション当り１つの）アドレスが命令スキャナ５６によって命令キュー２０へ
送られる。もし、特定のランセクションが６以上の命令を含んでいれば、特定の
ランセクションの後のランセクションに対応する情報は無効とされ、この特定の
ランセクションおよびその後のランセクションが次のクロックサイクルの間に再
びスキャンされる。

【００５６】分岐スキャナ５８は、命令スキャナ５６と並行して、命令ランをスキャンする
。分岐スキャナ５８は命令ランの開始ビットおよび転送制御ビットをスキャンし
、命令ラン中の最初の２つの分岐命令を特定する。上述のように、分岐命令は、
設定されている（開始ビットにより特定される）命令の開始バイトに対応する転
送制御ビットにより特定される。第１の２つの分岐命令を見出すと、分岐スキャ
ナ５８は命令が相対分岐命令であるとみなし、分岐命令の開始バイトの後の命令
バイトから、対応するエンコードされたターゲットアドレスを選択する。ｘ８６
命令セットを用いる実施例においては、９ビットのターゲットアドレス（変位バ
イトおよび対応する転送制御ビット）が選択され、同様に３２ビットのターゲッ
トアドレスが選択される。さらに、開始ビットおよび転送制御ビットにより特定
されたオペコードバイトの少なくとも一部が選択される。ターゲットアドレスお
よびオペコードバイトは、Ｌ０Ｉ−キャッシュ１６からのフェッチのためのタ
ーゲットアドレスの選択において使用するため、フェッチ制御ユニット５０へ与
えられる。（各分岐命令を含むランセクションのフェッチアドレスおよびセクシ
ョン内の分岐命令の位置から決定される）各分岐命令のフェッチアドレスは、各
分岐命令に対応するテイクン／ノットテイクン予測を選択するため分岐履歴テー
ブル６０へ与えられる。さらに、各分岐命令に対応するフェッチアドレスが分岐
選択ｍｕｘ６２へ与えられ、さらに間接アドレスキャッシュ６６へ与えられる。
各分岐命令のターゲットアドレスは、フォワードまとめユニット６８へ与えられ
る。一実施例によれば、分岐スキャナ５８は、第１の２つの分岐命令について並
行して各ランセクションをスキャンするよう構成され、その後スキャン結果を組
合せてラン内の第１の２つの分岐命令を選択するよう構成される。

【００５７】分岐スキャナ５８はさらに、クロックサイクル中にサブルーチン呼出命令がス
キャンされるか否かを判定するよう構成されてもよい。分岐スキャナ５８は、検
出されたサブルーチン呼出命令に続く次の命令のフェッチアドレスをリターンス
タック６４に記憶するためリターンスタック６４へフォワードするであろう。

【００５８】一実施例においては、もしラン内に３以上の分岐命令があれば、次の分岐命令
を特定するため、次のクロックサイクル中にランが再びスキャンされる。

【００５９】特定された分岐命令のフェッチアドレスは、各命令についてテイクン／ノット
テイクン予測を判定するため、分岐履歴テーブル６０へ与えられる。分岐履歴テ
ーブル６０は、以前に検出された分岐命令の挙動に対応する複数のテイクン／ノ
ットテイクン予測子を含む。最新の予測の履歴を維持し、これらの最新の予測と
分岐命令に対応するフェッチアドレスの部分とを排他的論理和演算することによ
って、予測子の１つが選択される。最も新しくない（最も古い）予測は、フェッ
チアドレスの部分の中の最上位ビットと排他的論理和演算され、以下同様に、最
新の予測までフェッチアドレスの部分の中の最下位ビットと排他的論理和演算さ
れる。クロックサイクルごとに２つの予測子が選択されるので、第２の分岐命令
に対応する予測子は、（対応するフェッチアドレスの最下位ビットとの排他的論
理和演算のため）第１の分岐命令の予測に依存する。分岐履歴テーブル６０は、
選択される可能性のある予測子両方を（すなわち、第１の分岐命令がノットテイ
クン予測されるならば選択されるであろう予測子および第１の分岐命令がテイク
ン予測されるならば選択されるであろう予測子を）選択し、次に、第１の分岐命
令について選択された実際の予測に基づいて２つの予測子の一方を選択すること
により、第２の予測子を与える。

【００６０】分岐履歴テーブル６０は、機能ユニット３２Ａ〜３２Ｄから分岐命令の実行に
関する情報を受取る。実行された分岐命令に対応する最近の予測の履歴および実
行された分岐命令のフェッチアドレスが、更新するべき予測子および実行された
分岐命令のテイクン／ノットテイクン結果を選択するために与えられる。分岐履
歴テーブル６０は、対応する予測子を選択し、テイクン／ノットテイクン結果に
基づいて予測子を更新する。一実施例においては、分岐履歴テーブルは２モード
カウンタを記憶する。２モードカウンタは、最小値および最大値において飽和す
る飽和カウンタである（すなわち、最小値に続いてデクリメントおよび最大値に
続いてインクリメントしても、カウンタには変化が起らない）。分岐命令がテイ
クンであるごとに、対応するカウンタがインクリメントされ、分岐命令がノット
テイクンであるごとに、対応するカウンタがデクリメントされる。カウンタの最
上位ビットは、テイクン／ノットテイクン予測を示す（たとえばセットであれば
テイクン、クリアであればノットテイクン）。一実施例では、分岐履歴テーブル
６０は６４Ｋの予測子を記憶し、１６個の最も最近の予測の履歴を維持する。各
クロックサイクルにおいて、そのクロックサイクル中に選択された予測は履歴に
シフトされ、最も古い予測は履歴からシフトアウトされる。

【００６１】リターンスタック６４が、検出されたサブルーチン呼出命令に対応するリター
ンアドレスを記憶するため使用される。リターンスタック６４は、分岐スキャナ
５８からサブルーチン呼出命令のフェッチアドレスを受取る。（リターンスタッ
ク６４に与えられたフェッチアドレスから計算された）呼出命令の次のバイトの
アドレスは、リターンスタック６４の一番上に置かれる。リターンスタック６４
は、もしリターン命令が分岐スキャナ５８およびフェッチ制御ユニット５０によ
り検出されたならば、リターンスタックの一番上に記憶されたアドレスを、ター
ゲットアドレスとしての選択のためにフェッチ制御ユニット５０へ与える。上記
態様において、各リターン命令は、最も最近に検出された呼出命令に対応するア
ドレスをターゲットアドレスとして受取る。一般にｘ８６命令セットにおいては
、呼出命令は、呼出命令の次のアドレスがｘ８６アーキテクチャにより規定され
るスタックの上に置かれることを指定する転送制御命令である。リターン命令は
、スタックの一番上からターゲットアドレスを選択する命令である。一般に、呼
出命令およびリターン命令は、コードシーケンス内で（それぞれ）サブルーチン
に入るため使用され、サブルーチンから出るため使用される。リターンスタック
６４内に呼出命令に対応するアドレスを置き、リターンスタック６４の一番上の
アドレスをリターン命令のターゲットアドレスとして使用することにより、リタ
ーン命令のターゲットアドレスが正確に予測され得る。一例においては、リター
ンスタック６４は１６個のエントリを含むであろう。

【００６２】間接アドレスキャッシュ６６は、間接分岐命令の前の実行に対応するターゲッ
トアドレスを記憶する。間接分岐命令に対応するフェッチアドレスおよび間接分
岐命令の実行に対応するターゲットアドレスは、機能ユニット３２Ａ〜３２Ｄに
より間接アドレスキャッシュ６６へ与えられる。間接アドレスキャッシュ６６は
、対応するフェッチアドレスにより索引されるターゲットアドレスを記憶する。
間接アドレスキャッシュ６６は、（間接分岐命令の検出に応答して）分岐選択ｍ
ｕｘ６２により選択されたフェッチアドレスを受け、もしフェッチアドレスが間
接アドレスキャッシュ６６でヒットすれば、対応するターゲットアドレスをフェ
ッチ制御ユニット５０へ与える。一例においては、間接アドレスキャッシュ６６
は、３２個のエントリを含むであろう。

【００６３】企図される一実施例によれば、もし間接アドレスキャッシュ６６がフェッチア
ドレスのミスを検出すれば、間接アドレスキャッシュ６６はエントリの１つから
ターゲットアドレスを選択して提供するよう構成されてもよい。上記態様におい
て、間接分岐命令がデコードされる場合に、分岐ターゲットの「推測」が与えら
れる。間接分岐命令の実行によるアドレスを待つよりもむしろ、推測からのフェ
ッチが行なわれるであろう。代替的に、企図される他実施例では、間接分岐命令
の実行から与えられるアドレスを待つ。

【００６４】なお、もしエンコードされたターゲットアドレスが選択されるならば、実際の
ターゲットアドレスはＬ０Ｉ−キャッシュ１６へ提示されるであろう。フェッ
チ制御ユニット５０は、可能性のある上の／下のターゲットアドレス各々を予め
計算しエンコードされたターゲットアドレスに基づいて正しいアドレスを選択す
るように構成されてもよい。代替的に、フェッチ制御ユニット５０は、どのＬ０
Ｉ−キャッシュの記憶場所が上のおよび下のキャッシュラインを記憶している
のかを記録しタグ比較なしに直接記憶場所を選択してもよい。

【００６５】フォワードまとめユニット６８は、ターゲットアドレスならびに、選択された
分岐命令各々の命令ラン内の位置およびテイクン／ノットテイクン予測を受取る
。フォワードまとめユニット６８は、ラン内のどの命令が、受取られた予測に基
づいて取消されるべきであるかを判定する。もし、第１の分岐命令がテイクン予
測され後ろ向きであれば（すなわち変位が負であれば）、第１の分岐命令の後の
すべての命令が取消される。もし第１の分岐命令がテイクン予測され前向きであ
るが変位が小さければ（たとえば命令ランの中であれば）、第１の分岐命令とタ
ーゲットアドレスとの間の命令が取消される。第２の分岐命令は、もし第１の分
岐命令の予測によりやはりラン内にあれば、同様に処理される。ラン内の命令に
ついての取消表示は、命令キュー２０に設定される。

【００６６】次に図３を参照し、ルックアヘッド／まとめユニット２４の一実施例のブロッ
ク図を示す。他の実施例も可能であり企図される。図３に示すように、ルックア
ヘッド／まとめユニット２４は、複数のデコードユニット７０Ａ〜７０Ｆ、ＥＳ
Ｐ／ＥＢＰルックアヘッドユニット７２、即値フィールド発生ユニット７３、ラ
イン内依存性チェックユニット７５、ルックアヘッドアドレス／結果計算ユニッ
ト７４、ディスパッチ制御ユニット７６およびオペランドまとめユニット７８を
含む。デコードユニット７０Ａ〜７０Ｆは、整列ユニット２２からの命令を受取
るよう結合される。デコードユニット７０Ａ〜７０Ｆは、デコードされた命令お
よび／または命令の情報を、ＦＰＵ／マルチメディアユニット４０、ＥＳＰ／Ｅ
ＢＰルックアヘッドユニット７２、即値フィールド発生ユニット７３、ライン内
依存性チェックユニット７５、フューチャファイル２６およびルックアヘッドア
ドレス／結果計算ユニット７４に与えるよう結合される。ＥＳＰ／ＥＢＰルック
アヘッドユニット７２は、フューチャファイル２６、即値フィールド発生ユニッ
ト７３およびライン内依存性チェックユニット７５と同様に、ルックアヘッドア
ドレス／結果計算ユニット７４と結合される。ルックアヘッドアドレス／結果計
算ユニット７４はさらに、ロード／ストアユニット３６およびディスパッチ制御
ユニット７６と結合される。ディスパッチユニット７６はさらに、オペランドま
とめユニット７８、フューチャファイル２６、ロード／ストアユニット３６およ
びリオーダバッファ２８と結合される。オペランドまとめユニット７８は、命令
ウィンドウ３０と結合される。

【００６７】各デコードユニット７０Ａ〜７０Ｆは、整列ユニット２２が命令を整列させる
発行位置を形成する。図面を簡単にするため図３を通じて特に示していないが、
特定の命令が、その命令がルックアヘッド／まとめユニット２４を通じて移動す
る間その発行位置内に留まり、もしルックアヘッド／まとめユニット２４内で完
了されなければ命令ウィンドウ３０Ａ〜３０Ｂの１つに与えられる。

【００６８】デコードユニット７０Ａ〜７０Ｆは、ＦＰＵ／マルチメディア命令をＦＰＵ／
マルチメディアユニット４０に与える。しかし、もしＦＰＵ／マルチメディア命
令がメモリオペランドを含むと、メモリ演算はさらに、命令に応答してルックア
ヘッドアドレス／結果計算ユニット７４を通じてロード／ストアユニット３６へ
ディスパッチされる。さらに、もし、メモリ演算のためのアドレスがルックアヘ
ッドアドレス／結果計算ユニット７４により発生され得なければ、アドレス発生
演算が、命令ウィンドウ３０Ａ〜３０Ｂを通じてアドレス発生ユニット３４Ａ〜
３４Ｄの１つへディスパッチされる。さらに、リオーダバッファ２８内のエント
リは、プログラムの順序を維持するためＦＰＵ／マルチメディア命令に割当てら
れる。一般に、リオーダバッファ２８内のエントリは、デコードユニット内で受
取られる各命令について、デコードユニット７０Ａ〜７０Ｆから、割当てられる
。

【００６９】各デコードユニット７０Ａ〜７０Ｆは、その中でデコードされる命令のオペコ
ードおよびｍｏｄｒ／ｍバイトをＥＳＰ／ＥＢＰルックアヘッドユニット７２
へ与えるよう構成され得る。ＥＳＰ／ＥＢＰルックアヘッドユニット７２は、（
ｉ）命令がＥＳＰまたはＥＢＰレジスタをソースオペランドとして使用するか否
か、および（ｉｉ）命令がＥＳＰ／ＥＢＰレジスタを変更するか否か（すなわち
、ＥＳＰまたはＥＢＰレジスタを行先オペランドとして有するか否か）を判定す
るであろう。ＥＳＰ／ＥＢＰルックアヘッドユニット７２は、ＥＳＰレジスタま
たはＥＢＰレジスタをソースオペランドとして使用する各命令のためにルックア
ヘッド情報を発生する。ルックアヘッド情報は、対応するレジスタの現在のルッ
クアヘッド値に加えられるべき定数および／または前の発行位置内の命令に対す
る依存性の表示を含み得る。一実施例においては、ＥＳＰ／ＥＢＰルックアヘッ
ドユニット７２は、デコードユニット７０Ａ〜７０Ｆにより与えられる命令のラ
インが、（ｉ）（定数値でＥＳＰレジスタをデクリメントする）３以上のプッシ
ュ演算、（ii）（定数値でＥＳＰレジスタをインクリメントする）３以上のポッ
プ演算、（iii）ＥＳＰレジスタへの２以上の移動、（iv）ＥＳＰを行先として有する２以上の算術／論理命令または（ｖ）ＥＳＰを更新する４以上の命令を含
まない限り、ルックアヘッド情報を与えるよう構成される。これらの制約の１つ
が超えられると、ＥＳＰ／ＥＢＰルックアヘッドユニット７２は、次のクロック
サイクルまで、制約を超えていない命令より先の命令をストールするよう構成さ
れる（「スプリットライン」の例）。同じクロックサイクル内だがより早い発行
位置にある、ＥＳＰレジスタをインクリメントまたはデクリメントする命令の後
にある命令については、ＥＳＰ／ＥＢＰルックアヘッドユニット７２は、先行す
る命令のＥＳＰレジスタに対する変更をすべて組合わせたものを示す定数を発生
する。ＥＳＰまたはＥＢＰレジスタにおける移動または算術演算の後の命令につ
いては、ＥＳＰ／ＥＢＰルックアヘッドユニット７２は、移動または算術命令を
含む発行位置を特定する値を発生する。

【００７０】ルックアヘッド値は、発行位置内の命令に対応する（したがって、さもなくば
アドレス発生ユニット３４Ａ〜３４Ｄの１つにより行なわれるであろうアドレス
発生演算を禁止する）ルックアヘッドアドレス、または、命令に対応する（それ
によってパイプライン内でより早期にフューチャファイル２６へルックアヘッド
状態を与える）ルックアヘッド結果のいずれかを発生するため、ルックアヘッド
アドレス／結果計算ユニット７４により使用され得る。アドレス発生演算を取除
くおよび／または機能ユニット３２Ａ〜３２Ｄおよびアドレス発生ユニット３４
Ａ〜３４Ｄ内での命令演算の実行よりも前にルックアヘッド状態を与えることに
よって、性能を上げることができよう。多くのｘ８６コードシーケンスは、算術
／論理演算を伴わないソースから行先への値の移動などの比較的簡単な演算また
はレジスタオペランドの小さな定数による加算／減算もしくはインクリメント／
デクリメントなどの簡単な算術演算を多数含む。したがって、機能ユニット３２
Ａ〜３２Ｄは、典型的には、より複雑な算術／論理演算および分岐命令を実行す
るであろうし、アドレス発生ユニット３４Ａ〜３４Ｄは、典型的には、より複雑
なアドレス発生を行なうであろう。したがって、命令スループットが上がるであ
ろう。

【００７１】即値フィールド発生ユニット７３は、その中でデコードされる命令のラインか
ら即値データフィールドを抽出するよう構成されるであろう（ここで使用する場
合には、即値データとは、アドレス発生において使用するための変位または機能
的命令演算において使用するための即値データであろう）。即値データは、ルッ
クアヘッドアドレス／結果計算ユニット７４に与えられる。さらに、デコードユ
ニット７０Ａ〜７０Ｆは、命令によって使用されるレジスタオペランド指示子を
特定しレジスタオペランド要求をフューチャファイル２６へ与えるよう構成され
る。フューチャファイル２６は、各レジスタオペランドに対して、対応する投機
的レジスタ値または結果キュータグをリターンする。ライン内依存性チェックユ
ニット７５は、１ラインの命令間での依存性チェックを行なう。オペランドまと
めユニット７８は、適切なオペランドを各命令に対して割振るため、ライン内依
存性チェックユニット７５により発生された依存性情報を受取る。

【００７２】ルックアヘッドアドレス／結果計算ユニット７４は、ＥＳＰ／ＥＢＰルックア
ヘッドユニット７２からルックアヘッド値を受取り、即値フィールド発生ユニッ
ト７３から即値データを受取り、フューチャファイル２６から投機的レジスタ値
または結果キュータグを受取る。ルックアヘッドアドレス／結果計算ユニット７
４は、命令のメモリオペランドに対応するルックアヘッドアドレスか、または命
令がメモリオペランドを含まない場合ならばルックアヘッド結果のいずれかを発
生しようと試みる。たとえば、簡単なレジスタからレジスタへの移動演算は、ソ
ースオペランドを行先オペランドとして与えることによって（機能ユニット３２
およびアドレス発生ユニット３４について）完了できる。メモリ演算およびレジ
スタ行先を用いる移動演算は、アドレス発生がルックアヘッドアドレス／結果計
算ユニット７４により行なわれ得るのであれば、（機能ユニット３２およびアド
レス発生ユニット３４に関して）完了され得る。一実施例においては、ルックア
ヘッドアドレス／結果計算ユニット７４は、変位のみ、レジスタおよび変位、Ｅ
ＳＰ／ＥＢＰおよび変位、ならびに索引またはベースレジスタがＥＳＰ／ＥＢＰ
である場合以外についてはスケール−インデックス−ベースアドレッシングモー
ドを使用してアドレスを計算するよう構成される。ロード／ストアユニット３６
は、メモリ演算を行ないメモリ演算の結果を結果バス４８を通じてリターンする
。メモリ演算に対してルックアヘッドアドレス／結果計算ユニット７４により全
くアドレスが発生されなかった場合でも、ルックアヘッドアドレス／結果計算ユ
ニット７４は、メモリ演算のためにロード／ストアユニット３６内の記憶場所を
割当てるため、メモリ演算および対応する結果キュータグをロード／ストアユニ
ット３６へ示す。

【００７３】ソースオペランドをインクリメントもしくはデクリメントする、ソースオペラ
ンドに小さな即値を加算／減算する、または２つのレジスタソースオペランドを
加算／減算する、簡単な算術演算はさらに、ソースオペランドがフューチャファ
イル２６から利用可能であれば（すなわち投機的レジスタ値が結果キュータグの
代わりに受取られるのであれば）ルックアヘッドアドレス／結果計算ユニット７
４を通じて完了され得る。ルックアヘッドアドレス／結果計算ユニット７４によ
り完了された命令は、完了されたことが表示され、リオーダバッファ２８内のエ
ントリが割当てられるが、命令ウィンドウ３０にディスパッチャはされない。ル
ックアヘッドアドレス／結果計算ユニット７４は、たとえば、ルックアヘッド値
、即値データおよび投機的レジスタ値の中から選択するため、対応する制御論理
とともに各発行位置のための加算器を含み得る。この実施例によると、条件フラ
グの発生のために、簡単な算術演算がやはり命令ウィンドウ３０へフォワードさ
れ得ることが注意される。しかし、ルックアヘッドアドレス／結果計算ユニット
７４内で機能的結果を発生すると、早期にルックアヘッド状態が与えられ、その
後のアドレス発生／命令を同様に早期に行なうことが可能である。

【００７４】ルックアヘッドアドレス／結果計算ユニット７４は、フューチャファイルのコ
ピーに加えて、ＥＳＰ／ＥＢＰレジスタの別個のルックアヘッドコピーを維持す
るよう構成されてもよい。しかし、もし、ルックアヘッドアドレス／結果計算ユ
ニット７４により計算できないＥＳＰ／ＥＢＰへの更新が検出されたならば、Ｅ
ＳＰ／ＥＢＰの新しいルックアヘッドコピーがフューチャファイル２６から（規
定されない態様でのＥＳＰ／ＥＢＰの更新の命令の実行後に）与えられ得るよう
になるまで、その後の命令がストールされ得る。

【００７５】ディスパッチ制御ユニット７６は、パイプラインフロー制御を行なうため、命
令の群がディスパッチされたか否かを判定する。ディスパッチ制御ユニット７６
は、命令ウィンドウ３０から命令のカウントを受取り、ロード／ストアユニット
３６からロード／ストアのカウントを受取り、可能な最大数の命令がディスパッ
チ制御ユニット７６、命令ウィンドウ３０およびロード／ストアユニット３６の
間をパイプライン段を通過中であるとみなし、命令ウィンドウ３０および／また
はロード／ストアユニット３６内でディスパッチされるべき命令が、その中に到
達したときに命令を記憶するために空間が利用可能であろうか否かを判定する。
もし、ディスパッチ制御ユニット７６が、ロード／ストアユニット３６内でおよ
び命令ウィンドウ３０のいずれかで利用可能となるであろう空間が不十分である
と判定すれば、ディスパッチ制御ユニット７６の受取る命令のカウントが十分に
低い値にまで減じられるまでディスパッチがストールされる。

【００７６】ディスパッチ制御ユニット７６を通じてのディスパッチのための命令の解放に
際し、フューチャファイル２６およびリオーダバッファ２８は、投機的に発生さ
れたルックアヘッド結果で更新される。一実施例においては、サポートされる非
ＥＳＰ／ＥＢＰ更新の数は、フューチャファイル２６のポートの数を制限するた
め、たとえば２に限定されるであろう。さらに、オペランドまとめユニット７８
は、投機的に発生されたルックアヘッド結果を、前に判定されたライン内依存性
により示されるようにこれらの結果に依存する、その後の同時にデコードされる
命令へとまとめる。上記態様において、投機的に発生されたルックアヘッド結果
は、機能ユニット３２Ａ〜３２Ｄからその後フォワードされないであろうから、
依存性の命令は、投機的に発生されたルックアヘッド結果を受取る。ルックアヘ
ッドアドレス／結果計算ユニット７４により完了されないこれらの命令は、次に
、これらの命令が整列ユニット２２より整列させられた発行位置に基づいて、命
令ウィンドウ３０Ａ〜３０Ｂの１つへ送られる。

【００７７】なお、プロセッサ１０の一実施例は、マイクロコードルーチンと呼ばれる、複
数のより簡単な命令をディスパッチすることによって複雑な命令を実行するため
の（図示しない）マイクロコードユニットを用いてもよい。デコードユニット７
０Ａ〜７０Ｆは、どの命令がマイクロコード命令であるかを検出しマイクロコー
ド命令をマイクロコードユニットへ割振るよう構成されてもよい。たとえば、有
効な命令を受取ったデコードユニット７０からの直接デコードされた命令出力が
ないことは、対応する有効な命令に対し実行を開始するようにというマイクロコ
ードユニットに対する表示であり得る。さらに、図２および図３にさまざまな記
憶装置が図示されていることが注意される（たとえば、図２の装置７９Ａ、７９
Ｂおよび同様の装置ならびに図３の装置７９Ｃ、７９Ｄおよび同様の装置）。記
憶装置は、パイプライン段を分離するために使用され得る、ラッチ、レジスタ、
フリップフロップなどを表わす。しかし、図２および図３に示す特定のパイプラ
イン段は、プロセッサ１０の一実施例のための適当なパイプライン段の一実施例
にすぎない。他の実施例では他のパイプライン段を用い得る。

【００７８】ｘ８６命令セットおよびアーキテクチャが、上で例として使用され、以下で例
として使用されるであろうが、どのような命令セットおよびアーキテクチャでも
使用できることが注意される。さらに、変位は（ここで例として使用される８ビ
ットサイズおよび３２ビットサイズに加え）任意の所望のサイズであり得る。さ
らに、ここでキャッシュラインのフェッチが説明されるであろうが、所望であれ
ば、フェッチされることが望ましいキャッシュラインのサイズおよびバイトの数
に基づいて、キャッシュラインはセクタでもあり得、セクタがフェッチされても
よいことが注意される。

【００７９】次に図４を参照し、デコードユニット７０Ａ、ＥＳＰ／ＥＢＰルックアヘッド
ユニット７２、ライン内依存性チェックユニット７５、即値フィールド発生ユニ
ット７３および命令バイト記憶装置８０を示すブロック図が示される。プロセッ
サ１０の一実施例による図示されるブロック間の相互接続は図４に示される。付
加的な、代替的なおよび／または異なった相互接続方式を用いる他の実施例が企
図される。図４の実施例では、デコードユニット７０Ａが、オペコード／ｍｏｄ
Ｒ／Ｍバス８２Ａ、ソースおよび行先レジスタ指示子バス８４Ａ、ならびに開
始位置バス８６Ａと結合される。開始位置バス８６Ａおよびオペコード／ｍｏｄ
Ｒ／Ｍバス８２Ａは、即値フィールド発生ユニット７３と結合され、即値フィ
ールド発生ユニット７３はさらに命令バイト記憶装置８０と結合される。オペコ
ード／ｍｏｄＲ／Ｍバス８２Ａはさらに、ＥＳＰ／ＥＢＰルックアヘッドユニ
ット７２と結合される。ソースおよび行先レジスタ指示子バス８４Ａは、ライン
内依存性チェックユニット７５と結合され、ライン内依存性チェックユニット７
５はさらに、他のデコードユニット７０からの同様のソースおよび行先レジスタ
指示子バス８４Ｂ〜８４Ｆと結合される。ＥＳＰ／ＥＢＰルックアヘッドユニッ
ト７２は、ルックアヘッドＥＳＰ／ＥＢＰバス８８および定数バス９０Ａと結合
され、ルックアヘッドＥＳＰ／ＥＢＰバス８８および定数バス９０Ａはさらに、
ルックアヘッドアドレス／結果計算ユニット７４と結合される。ライン内依存性
チェックユニット７５は、依存性バス９２と結合され、依存性バス９２はさらに
オペランドまとめユニット７８と結合される。即値フィールド発生ユニット７３
は、即値フィールドバス９４Ａおよび比較ライン９６Ａと結合される。比較ライ
ン９６Ａは、オペランドまとめユニット７８と結合され、即値フィールドバス９
４Ａはルックアヘッドアドレス／結果計算ユニット７４と結合される。参照番号
の後に文字を付して示すバスおよびラインは、デコードユニット７０Ａによりデ
コードされる命令に対応する。デコードユニット７０Ｂ〜７０Ｆにより同時にデ
コードされる命令に対応して同様の相互接続が設けられるであろう。図面では簡
単にするため、同時にデコードされる他の命令に対応する相互接続は、図４（お
よびそれに続く他の図）では必ずしも示していない。しかし、図示する相互接続
と同様の相互接続がライン内の他の命令についても設けられるであろう。

【００８０】デコードユニット７０Ａは、命令整列ユニット２２により与えられた命令をデ
コードし、命令整列ユニット２２によりデコードユニット７０Ａ〜７０Ｆに同時
に与えられた命令のラインに対応する命令バイト内の命令の開始位置を検出する
。ラインに対応する命令バイトは、（たとえばレジスタであり得る）命令記憶装
置８０内に記憶され、デコードユニット７０Ａがそのデコードを行なうためにデ
コードユニット７０Ａにより使用される命令の部分を受取る。一例においては、
デコードユニット７０Ａは、デコードされる命令に対応するプレフィックス、オ
ペコードおよびｍｏｄＲ／Ｍバイトと同様にラインに対応する命令バイト内の
命令の開始位置を受取る。他の実施例では、その実施例において用いられる命令
セットのアーキテクチャに依存して命令の異なった部分が受取られるであろう。

【００８１】デコードユニット７０Ａは、命令のためのソースおよび行先レジスタオペラン
ド指示子を特定し、ソースおよび行先レジスタ指示子バス８４Ａ上で指示子を運
ぶ。好ましい実施例においては、命令は、最大２つのソースオペランドおよび１
つの行先オペランドを有するであろう。もし命令が、メモリオペランドを含むの
であれば、ソースオペランドはアドレスオペランドを含むであろう。さらに、デ
コードユニット７０Ａは開始位置バス８６Ａ上で命令の開始位置を運ぶ。

【００８２】ＥＳＰ／ＥＢＰルックアヘッドユニット７２は、オペコードおよびｍｏｄＲ
／Ｍバイトを受取り、対応する命令がソースオペランドとしてＥＳＰレジスタま
たはＥＢＰレジスタを有するか否か、および、命令がいずれかのレジスタの更新
を指定しているか否かを判定する。ＥＳＰ／ＥＢＰルックアヘッドユニット７２
は、ルックアヘッドＥＳＰ／ＥＢＰバス８８上でルックアヘッドＥＳＰおよびル
ックアヘッドＥＢＰ値を与える。ルックアヘッドレジスタ値は、デコードユニッ
ト７０Ａ〜７０Ｆによりデコードされる命令のラインよりも前にディスパッチさ
れた命令の結果の累積に対応する。さらに、ＥＳＰ／ＥＢＰルックアヘッドユニ
ット７２は、デコードユニット７０Ａによりデコードされる命令に対するソース
オペランドを発生するため、ルックアヘッドＥＳＰまたはＥＢＰ値に加えられる
べき定数を発生する。ライン内の他の命令のためにも同様の定数が発生されるで
あろう。各発行位置のための定数は、ライン内のその発行位置に対応する命令を
含めてこの命令よりも前の命令の累積効果を表わす。デコードユニット７０Ａの
場合には、ライン内の命令よりも前には命令は存在しないので、命令のためのソ
ースオペランドとして値を使用する前に行なわれる、対応するレジスタに対する
変更に、定数は対応する。たとえば、ｘ８６命令セットにより規定されるＰＵＳ
Ｈ命令は、命令のためのアドレスオペランドとしてＥＳＰレジスタ値を使用する
前にＥＳＰレジスタ値をデクリメントするよう指定する。

【００８３】ライン内依存性チェックユニット７５は、デコードユニット７０Ａおよび他の
デコードユニット７０Ｂ〜７０Ｆからソースおよび行先レジスタ指示子を受取る
。ライン内依存性チェックユニット７５は、特定の発行位置内の命令に対応する
各ソースオペランドに対しライン内の前の命令各々の行先オペランドに対しての
依存性チェックを行なう。もし依存性が検出されれば、依存性バス９２上で対応
の表示が与えられる。したがって、依存性バス９２は、可能性のあるソースオペ
ランド各々について、そのソースオペランドに対して依存性が検出されたか否か
、およびどの発行位置にソースオペランドが依存しているかを示す表示を含む。
たとえば、依存性バス９２は、各ソースオペランドに対応する依存性信号および
各ソースオペランドに対応する発行位置番号を含むであろう。

【００８４】即値フィールド発生ユニット７３は、命令のオペコードおよびｍｏｄＲ／Ｍ
バイトをデコードし、即値フィールドが命令内に含まれているかを判定する。即
値フィールド発生ユニット７３は、命令バイト記憶装置８０から即値フィールド
を抽出し、即値フィールドバス９４Ａ上に即値フィールドを与える。一実施例に
おいては、さまざまなサイズの即値フィールドがサポートされる（たとえば８ビ
ットおよび３２ビット）。即値フィールド発生ユニット７３は、より小さな即値
フィールドを符号拡張（sign extend）またはゼロ拡張（zero extend）して、適
宜サポートされる最大の即値フィールドサイズにするよう構成され得る。さらに
、もし命令がインクリメント／デクリメント命令であれば、即値フィールド発生
ユニット７３は、インクリメント／デクリメントのサイズを反映した即値フィー
ルドのための定数を発生するよう構成されるであろう。もし、命令が即値フィー
ルドを含まずインクリメント／デクリメント命令でなければ、即値フィールド発
生ユニット７３は、即値フィールドバス９４Ａ上でゼロ値を発生するよう構成さ
れるであろう。即値フィールド発生ユニット７３はさらに、他のデコードユニッ
ト７０内の命令に対応して、同様の動作を行なうよう構成されるであろう。即値
フィールド発生ユニット７３は、デコードユニット７０Ａにより与えられた開始
位置およびオペコードおよびｍｏｄＲ／Ｍバイトのデコードにより、命令バイ
ト記憶装置８０から即値フィールドを選択する。

【００８５】この実施例においては、命令バイト記憶装置８０は、同時にデコードされる命
令のラインに対応する命令バイトを記憶する。命令バイトは、命令のラインとと
もにパイプライン化され、所望に従い命令のさまざまなフィールドを抽出するこ
とが可能である。他の実施例では、命令は（命令バイト記憶装置８０内の命令に
対して命令のサブセットおよびポインタを割振るのではなく）完全に各発行位置
内で割振られるであろう。

【００８６】この実施例では、即値フィールド発生ユニット７３はさらに、特定の発行位置
内の比較命令であって、その比較結果に依存する分岐命令が（すなわち条件付き
分岐命令が）直後の発行位置にある、比較命令を検出するよう構成される。この
ような組合せを検出すると、即値フィールド発生ユニット７３はオペランドまと
めユニット７８に対して比較表示をアサートする。他の実施例では、比較／分岐
の組合せを検出するために別個の制御ユニットを設けることもでき、または、他
のユニットの１つをこの機能を提供するため構成することもできる。さらに、比
較／分岐の組合せが検出されない実施例も企図される。オペランドまとめユニッ
ト７８は、比較演算および分岐演算を１つの発行位置にとまとめるよう構成され
るであろう（すなわち、１つの機能ユニットが比較演算と依存性の分岐演算とを
両方同時に行なうであろう）。

【００８７】図４中、図示されるユニットの所定の出力が、たとえばオペランドまとめユニ
ット７８までパイプライン化されているものとして示されていることが注意され
る。これは、これらの出力が発生され対応する命令とともにパイプラインを通っ
て受取ユニットへ運ばれることを示すよう意図されている。代替的に、これらの
出力は、受取ユニットによって取り込まれ得、受取ユニットへの命令の到着に際
して対応する命令と関連づけられることも可能である。

【００８８】次に図５を参照し、ルックアヘッドアドレス／結果計算ユニット７４の一実施
例の部分を示す。他の実施例も可能であり企図される。図５の実施例においては
、発行位置０に対応する（すなわちデコードユニット７０Ａに対応する）ルック
アヘッドアドレス／結果計算ユニット７４の部分が図示される。他の発行位置に
ついても同様のハードウェアが同様に提供されるであろう。制御ユニット１００
は、デコードユニット７０Ａからパイプライン化されたオペコード／ｍｏｄＲ
／Ｍバス８２Ａと結合されるよう示される。制御ユニット１００はさらに、バス
１０２を介してフューチャファイル２６により与えられる命令のソースオペラン
ドに対応する有効な表示を受取るよう結合される。ソースオペランドは、もし、
実行に際してそのソースオペランドを生成するであろう命令を示す結果キュータ
グの代わりにそのソースオペランドが与えられるのであれば、フューチャファイ
ル２６内で有効である。制御ユニット１００は、オペランド選択マルチプレクサ
（ｍｕｘ）１０４Ａおよび１０４Ｂに選択制御を与えるよう結合される。オペラ
ンド選択ｍｕｘ１０４Ａは、ルックアヘッドＥＳＰバス８８−１（ルックアヘッ
ドＥＳＰ値を与えるルックアヘッドＥＳＰ／ＥＢＰバス８８の部分）、定数バス
９０Ａおよびフューチャファイル２６からのソース１バス１１２と結合される。
オペランド選択ｍｕｘ１０４Ｂは、ルックアヘッドＥＢＰバス８８−２（ルック
アヘッドＥＢＰ値を与えるルックアヘッドＥＳＰ／ＥＢＰバス８８の部分）、定
数バス９０Ａおよびフューチャファイル２６からのソース２バス１１４と結合さ
れる。加算器１０６が、即値フィールドバス９４Ａおよびセグメントバス１０８
と同様にオペランド選択ｍｕｘ１０４と結合されるものとして示される。加算器
１０６は、結果バス１１０Ａ上で、ロード／ストアユニット３６、フューチャフ
ァイル２６およびオペランドまとめユニット７８に与えられる結果を与える。制
御ユニット１００は、アドレス有効ライン１１６Ａ上へロード／ストアユニット
３６およびオペランドまとめユニット７８へのアドレス有効信号を生成し、結果
有効ライン１１８Ａ上へフューチャファイル２６およびオペランドまとめユニッ
ト７８への結果有効信号を生成する。上述のように、参照番号の後に文字を付し
て示す接続は、（図５には示さない）他の発行位置内の命令についても同様に設
けられるであろうことが注意される。

【００８９】制御ユニット１００は、命令のオペコードおよびｍｏｄＲ／Ｍバイトをデコ
ードし、（メモリオペランドを含む命令のために）ルックアヘッドアドレス発生
を行なうか、または、（メモリオペランドを含まず加算系命令演算または移動命
令演算を行なう命令のために）ルックアヘッド結果発生を行なうか、またはいず
れも行なわないかを判定するよう構成される。制御ユニット１００は、命令のデ
コードにより、オペランド選択ｍｕｘ１０４を介してオペランドを選択するであ
ろう。加算器１０６は、（ｉ）オペランド選択ｍｕｘ１０４Ａおよび１０４Ｂに
より与えられる値、即値フィールドバス９４上で与えられる即値、および（iii ）セグメントバス１０８上で与えられるセグメント基準アドレスを、結果を生成
するために加算するよう構成される。（アドレス発生ではなく）結果発生のため
、（図示しない）制御ユニット１００からの制御信号に応答して、セグメント値
はゼロであり得、または加算器１０６により無視され得る。

【００９０】たとえば、図６に示す真理値表１２０が、もし命令がメモリオペランドのため
のアドレス発生命令演算を含むのであれば、オペランド選択ｍｕｘ１０４の値を
選択するため、制御ユニット１００の一実施例のため用いられるであろう。真理
値表１２０は、メモリオペランドのアドレスを発生するため命令により用いられ
るアドレッシングモードを示すアドレッシングモード列、制御ユニット１００か
らの制御に応答してオペランド選択ｍｕｘ１０４Ａにより選択される値を示すｍ
ｕｘ１列、および制御ユニット１００からの制御に応答してオペランド選択ｍｕ
ｘ１０４Ｂにより選択される値を示すｍｕｘ２列を含む。他の実施例も可能であ
り、企図される。図６に示す例は、以下のアドレッシングモードをサポートする
：（ｉ）変位のみ、（ii）任意の変位および（ＥＳＰまたはＥＢＰレジスタを含
まない）１つまたは２つのアドレスオペランドの組合せ、または（iii）任意の変位およびソースオペランドとしてのＥＳＰまたはＥＢＰレジスタ。スケールフ
ァクタが、ｘ８６命令セットアーキテクチャ内において指定可能なスケール−イ
ンデックス−ベースアドレッシングモードに含まれるであろうことが注意される
。ｍｕｘ１０４Ａは、１ビットまたは２ビット左シフトされたソース１オペラン
ドを選択することにより、ソース１オペランドをスケーリングするよう構成され
得る。さらに、図６に示す変位は、この実施例では即値バス９４Ａ上で与えられ
ることが注意される。

【００９１】命令によって指定されるアドレッシングモードに依存して、制御ユニット１０
０は、フューチャファイル２６からの有効な指示を調べ、加算器１０６がメモリ
オペランドのアドレスを成功裡に発生したか否かを判定する。すなわち、アドレ
スオペランドである各ソースオペランドが有効であれば、加算器１０６は成功裡
にアドレスを発生するであろう。もしアドレスが成功裡に発生されれば、制御ユ
ニット１００は、アドレス有効ライン１１６Ａ上でアドレス有効信号をアサート
し、結果バス１１０Ａ上で与えられるアドレスが対応する命令のためにメモリオ
ペランドのアドレスとして取込まれ使用されるであろうということを、ロード／
ストアユニット３６に対して示す。もしアドレスが成功裡に発生されなければ、
アドレス発生ユニット３４が、続いてアドレスを発生するため使用されるであろ
うし、そのアドレスがその後ロード／ストアユニット３６にフォワードされるで
あろう。

【００９２】セグメントバス１０８は、ｘ８６命令セットアーキテクチャにより規定される
セグメンテーション変換機構によりセグメント基準アドレスを与える。他の命令
セットアーキテクチャを用いるプロセッサのための他の実施例では、セグメント
バス１０８は取除かれるかもしれない。セグメントバス１０８上で与えられるセ
グメント基準アドレスは、現在の発行位置内の命令に対応する選択されたセグメ
ントのセグメント基準アドレスである。代替的に、対応する命令によって、各利
用可能なセグメント基準アドレスが与えられ選択されてもよい。セグメント情報
は、当分野で周知のように適当な変換ユニットまたは特別なレジスタユニット内
で維持されるであろう。

【００９３】もし現在の発行位置内の命令がメモリオペランドを含んでいなければ、制御ユ
ニット１００は、命令のためのルックアヘッド結果を発生するためオペランドを
選択しようと試みるであろう。この実施例では、制御ユニット１００は、１つま
たは２つのソースオペランドおよび／または即値を含む加算／減算演算またはイ
ンクリメント／デクリメント演算をサポートするであろう。制御ユニット１００
はさらに、第２のソースオペランドを加算器１０６への唯一の入力として与える
ことによりレジスタからレジスタへの移動をサポートするであろう。

【００９４】たとえば、制御ユニット１００の一実施例は、図７に示す真理値表１２２によ
り動作するであろう。他の実施例も可能であり企図される。図７に示すような真
理値表１２２は、この実施例によるルックアヘッドアドレス／結果計算ユニット
７４によりサポートされる算術演算を示す算術演算列を含む。図６に示す真理値
表１２０と同様、真理値表１２２は、制御ユニット１００からのそれぞれの制御
に応答して、オペランド選択ｍｕｘ１０４Ａにより選択されるオペランドを示す
ｍｕｘ１列およびオペランド選択ｍｕｘ１０４Ｂにより選択されるオペランドを
示すｍｕｘ２列を含む。表によれば、（もしｍｕｘ１０４Ｂによりゼロが選択さ
れたならば）１個または２個のソースオペランドおよび任意の即値フィールドの
加算または減算が、インクリメントまたはデクリメントおよびレジスタからレジ
スタへの移動と同様にサポートされるであろう。

【００９５】制御ユニット１００は、加算器１０６が成功裡に結果バス１１０ＡＡでルック
アヘッド結果を生成したか否かを判定するよう構成される。制御ユニット１００
は、もし、フューチャファイル２６によって示されたところの、結果を発生する
ために使用された各ソースオペランドが有効であれば、そして命令によって指定
された機能的命令演算がルックアヘッドアドレス／結果計算ユニット７４により
サポートされるものであれば、成功裡に結果が生成されたと判定する。もし、結
果が成功裡に生成されたと判定されれば、制御ユニット１００はフューチャファ
イル２６およびオペランドまとめユニット７８に対して結果有効ライン１１８Ａ
上で結果有効信号をアサートする。フューチャファイル２６は、（結果バス１１
０Ａ上でも与えられ得る）命令の行先レジスタにより結果を記憶するよう構成さ
れるであろう。オペランドまとめユニット７８は、（ライン内依存性チェックユ
ニット７５により与えられる依存性表示により）依存性の命令のソースオペラン
ドへと、結果をまとめるよう構成されるであろう。

【００９６】次に図８を参照し、オペランドまとめユニット７８の一実施例の部分を示すブ
ロック図を示す。他の実施例も可能であり企図される。図８に示す部分において
は、制御ユニット１３０がオペランドまとめｍｕｘ１３２Ａ〜１３２Ｄとともに
示される。制御ユニット１３０は、（図５に示す結果有効ライン１１８Ａを含む
）複数の結果有効ライン１１８、（図５に示すアドレス有効ライン１１６Ａを含
む）複数のアドレス有効ライン１１６、ライン内依存性チェックユニット７５か
らの依存性バス９２、（図４に示す比較ライン９６Ａを含む）複数の比較ライン
９６および禁止バス１３４と結合される。制御ユニット１３０はさらに、（図８
に示されない他の発行位置のためのまとめｍｕｘと同様）各まとめｍｕｘ１３２
へ選択制御を与えるよう結合される。各まとめｍｕｘ１３２Ａ〜１３２Ｄは、１
つの発行位置内の１つのソースオペランドに対応する。各まとめｍｕｘ１３２Ａ
〜１３２Ｄは、ライン内の前の発行位置に対応する行先タグおよびこれらの発行
位置に対応するルックアヘッド結果を受取るよう結合される。さらに、各まとめ
ｍｕｘ１３２Ａ〜１３２Ｄは、まとめｍｕｘ１３２Ａ〜１３２Ｄに対応する発行
位置の直前の発行位置内の命令のソースオペランドのための、および、まとめｍ
ｕｘ１３２Ａ〜１３２Ｄに対応する発行位置内の命令のソースオペランドのため
のフューチャファイル出力を受けるよう結合される。たとえば、まとめｍｕｘ１
３２Ａは、発行位置１のためのソース１オペランドを与え、（ｉ）発行位置０内
の命令に対する行先タグ、（ii）結果バス１１０Ａ上で与えられる発行位置０に
対応するルックアヘッド結果、および（iii）発行位置０のソース１オペランドおよび発行位置１のソース１オペランドに対応するフューチャファイル２６から
のソース１オペランドを受けるよう結合される。図８に示すように、大文字Ｐの
後に数字をつけたものは、示された値に対応する発行位置を示す（すなわち、Ｐ
０は発行位置０であり、Ｐ１は発行位置１である）。

【００９７】上述のように、オペランドまとめユニット７８は、ルックアヘッドアドレス／
結果計算ユニット７４により発生されたルックアヘッド結果を、ライン内の依存
性命令のソースオペランドへとまとめる。図８に示す例においては、オペランド
まとめｍｕｘ１３２が、各ソースオペランドおよび、まとめが行なわれるであろ
う各発行位置に対して設けられる。したがって、発行位置０はライン内の第１の
発行位置であるためライン内依存性を経験しないであろうから、発行位置０につ
いてはオペランドまとめｍｕｘは示されていない。オペランドまとめｍｕｘ１３
２Ａおよび１３２Ｂは、発行位置１のためのソースオペランドを与え、一方、オ
ペランドまとめｍｕｘ１３２Ｃおよび１３２Ｄは、発行位置２のためのソースオ
ペランドを与える。同様のオペランドクラスのｍｕｘが、（図８に示さない）発
行位置３、４および５に対しソース１ソースオペランドを与える。

【００９８】制御ユニット１３０は、結果有効ライン１１８を通じてどの結果が有効である
かの表示および依存性バス９２の上でライン内依存性の表示を受取る。もし、依
存性が特定の発行位置内の特定のソースオペランドに関して依存性バス９２を通
じて知らされれば、そして、ソースオペランドが依存する発行位置についての、
結果有効ライン１１８により示される結果が有効であれば、制御ユニット１３０
は、対応するオペランドまとめｍｕｘ１３２を制御して、対応するルックアヘッ
ド結果バスから結果を選択するであろう。他方、もし対応する結果が有効ではな
いと依存性が示されれば、制御ユニット１３０は対応するオペランドまとめｍｕ
ｘ１３２を制御して、ソースオペランドが依存する発行位置の行先タグを選択す
るであろう。制御ユニット１３０はさらに、比較／分岐が検出されたことを示す
比較信号を比較ライン９６上で受取る。もし、比較／分岐の組合せが検出されて
いれば、制御ユニット１３０は、分岐命令を含む発行位置のオペランドまとめｍ
ｕｘ１３２のために、前の発行位置のソースオペランドに対するフューチャファ
イル出力を選択する。上記態様において、比較命令のソースオペランドが、分岐
命令を有する発行位置に与えられるであろう。その後、受取り機能ユニットが（
比較ソースオペランドを使用して）比較を行なうことができ、かつ、比較の結果
として分岐命令がテイクンであるのかノットテイクンであるのか判定できる。も
し、特定の発行位置の特定のソースオペランドについて依存性が認められず、発
行位置が比較／分岐の組合せの分岐部分でなければ、制御ユニット１３０は、対
応するオペランドまとめｍｕｘ１３２を制御し、（結果キュータグまたは有効ソ
ースオペランドであり得る）その発行位置内のソースオペランドのためにフュー
チャファイル出力を選択する。

【００９９】制御ユニット１３０が行なうであろう付加的なチェックは、特定の発行位置内
の特定のソースオペランドが、前の発行位置に依存することが示され、その前の
発行位置に対する結果がルックアヘッドアドレス／結果計算ユニット７４により
有効であると示されている場合の、判定である。もし前の発行位置に、ライン内
ソース依存性が示されていれば、ルックアヘッドアドレス／結果計算ユニット７
４に与えられる結果は実は（誤ったソースオペランドに基づくものであるから）
無効である。このような場合には、制御ユニット１３０は、ルックアヘッドアド
レス／結果計算ユニット７４により与えられるルックアヘッド結果の選択を禁止
するであろうし、その代わりに前の発行位置に対応する行先タグを選択するであ
ろう。一実現例では、対応する発行位置内で依存性が示されればマスキングされ
た結果有効信号がリセットされるよう制御ユニット１３０は、結果有効信号を依
存性バス９２からの対応する依存性表示でマスキングするであろう。フューチャ
ファイル２６およびロード／ストアユニット３６が、同様の態様で、ルックアヘ
ッド結果／アドレスを無効にするであろうことが注意される。

【０１００】制御ユニット１３０は、さらに、禁止バス１３４を介して命令ウインドウ３０
へ信号を送るよう構成されるであろう。ルックアヘッドアドレス／結果計算ユニ
ット７４により完了される各命令演算（アドレス発生または機能演算のいずれか
）に対して、制御ユニット１３０は、命令演算が機能ユニット３２またはアドレ
ス発生ユニット３４による実行のため選択されないように、命令ウインドウ３０
内の対応する演算を禁止するであろう。たとえば、禁止バス１３４は、各発行位
置についてアドレス発生禁止信号および機能演算禁止信号を含むであろう。もし
、ルックアヘッドアドレス／結果計算ユニット７４が（あらゆるライン内依存性
の影響を含む）特定の発行位置に対するルックアヘッドアドレスを成功裡に発生
したならば、制御ユニット１３０は、特定の発行位置に対するアドレス発生禁止
信号を活性化するであろう。他方、もし、ルックアヘッドアドレス／結果計算ユ
ニット７４が（あらゆるライン内依存性の影響を含む）特定の発行位置に対応す
るルックアヘッド結果を成功裡に発生したならば、制御ユニット１３０は、機能
演算禁止信号を活性化するであろう。さらに、もし特定の発行位置が比較／分岐
の組合せの比較部分を記憶していれば、制御ユニット１３０は、機能演算禁止信
号を活性化するであろう。上述のように、算術演算は、算術命令の機能演算に加
えフラグ発生を含むであろう。機能的結果が既に発生されていたとしても、フラ
グ結果の発生を可能とするため、このような命令は禁止されないであろう。代替
的に、フューチャファイル２６がルックアヘッド結果で更新されるよりも前にフ
ューチャファイル２６を読出すであろう命令に対するフォワーディングを行なう
ため機能的結果は禁止されないであろう。さもなくば、フューチャファイルの読
出とルックアヘッド結果の提供との間でパイプライン段の中で局所フォワーディ
ングが行なわれるであろう。制御ユニット１３０は、アドレス発生禁止信号を発
生するため、アドレス有効信号を受取る。さらに、制御ユニット１３０は、もし
対応する命令が条件コードおよび結果レジスタを更新するのであれば、機能演算
を禁止しないように構成されるであろう。したがって、条件コードの計算のため
、機能演算は機能ユニットへ与えられるであろう。

【０１０１】次に図９を参照し、特定の発行位置のための特定のソースオペランドを選択す
るための制御ユニット１３０の一実施例の演算を示すフローチャートを示す。他
の実施例も可能であり企図される。図９に示すステップは、各ソースオペランド
について並行して行なわれ得る。図９に示すステップは、理解を容易にするため
特定の順番で示しているが、任意の適切な順番で行ない得る。さらに、制御ユニ
ット１３０内の論理において、所望であれば、ステップを並行して行ない得る。

【０１０２】制御ユニット１３０は、特定のソースオペランドについて認められるライン内
依存性があるか否かを判定する（判定ブロック１４０）。もし、ライン内依存性
が認められれば、制御ユニット１３０は、ルックアヘッドアドレス／結果計算ユ
ニット７４が、特定のソースオペランドが依存する前の発行位置についてのルッ
クアヘッド結果が成功裡に発生されたか否かを判定する（判定ブロック１４２）
。もし、ルックアヘッド結果が成功裡に発生されていなければ、制御ユニット１
３０は、前の発行位置に対応する行先タグを選択する（ステップ１４４）。さら
に、もし、前の発行位置内で結果が有効であるが、前の発行位置の１以上のソー
スオペランドについてライン内依存性が認められれば（判定ブロック１４６）、
制御ユニット１３０は、同様に前の発行位置に対応する行先タグを選択する（ス
テップ１４４）。もし前の発行位置のソースオペランドについて依存性が認めら
れず、結果が有効であれば、制御ユニット１３０はルックアヘッドアドレス／結
果計算ユニット７４により与えられた結果を選択する（ステップ１４８）。

【０１０３】もし特定のソースオペランドについてライン内依存性が全く認められなければ
（判定ブロック１４０）、制御ユニット１３０は、比較／分岐の組合せであって
、特定の発行位置がその分岐部分である比較／分岐の組合せが検出されているか
否かを判定する（判定ブロック１５０）。もし比較／分岐の組合せが検出されて
いれば、制御ユニット１３０によって前の発行位置（すなわち比較命令を含む発
行位置）からのソースオペランドが選択される（ステップ１５２）。他方、もし
比較／分岐の組合せが検出されていなければ、制御ユニット１３０は特定のソー
スオペランドについてフューチャファイル出力を選択する（ステップ１５４）。

【０１０４】上にｍｕｘとしてさまざまな特徴を示したが、説明した選択を行なうため選択
論理のどのようなパラレルでのまたはシリアルでの組合せも使用され得ることが
注意される。さらに、この実施例は、ライン内結果および比較／分岐の組合せに
対してまとめを行なうが、これらの特徴の一方のみを提供する例も企図されるこ
とが注意される。さらに、この実施例ではオペランドのソースとしてフューチャ
ファイルが使用されるが、他の実施例では、オペランドのソースとして、リオー
ダバッファ、リネームレジスタファイルなど他の投機的記憶装置要素を用いても
よいことが注意される。

【０１０５】次に、図１０を参照し、バスブリッジ２０２を通じてさまざまなシステム構成
要素と結合されるプロセッサ１０を含むコンピュータシステム２００の一実施例
のブロック図を示す。他の実施例も可能であり企図される。図示されるシステム
中、メインメモリ２０４がメモリバス２０６を通じてバスブリッジ２０２と結合
され、グラフィックスコントローラ２０８がＡＧＰバス２１０を通じてバスブリ
ッジ２０２と結合される。最後に、複数のＰＣＩ装置２１２Ａ〜２１２ＢがＰＣ
Ｉバス２１４を通じてバスブリッジ２０２と結合される。第２のバスブリッジ２
１６がさらに、ＥＩＳＡ／ＩＳＡバス２２０を通じて１以上のＥＩＳＡまたはＩ
ＳＡ装置２１８への電気的インターフェイスに対処するため設けられてもよい。
プロセッサ１０は、バスインターフェイス４６を通じてバスブリッジ２０２と結
合される。

【０１０６】バスブリッジ２０２は、プロセッサ１０、メインメモリ２０４、グラフィック
スコントローラ２０８およびＰＣＩバス２１４と接続された装置の間のインター
フェイスを提供する。バスブリッジ２０２に接続される装置の１つから演算が受
取られるとき、バスブリッジ２０２は演算のターゲットを特定する（たとえば特
定の装置またはＰＣＩバス２１４の場合にはターゲットはＰＣＩバス２１４上に
ある）。バスブリッジ２０２は、演算をターゲットである装置に与える。バスブ
リッジ２０２は通常、演算をソース装置またはバスにより使用されるプロトコル
からターゲット装置またはバスにより使用されるプロトコルに変換する。

【０１０７】ＰＣＩバス２１４のためのＩＳＡ／ＥＩＳＡバスへのインターフェイスを提供
するのに加えて、必要であれば、第２のバスブリッジ２１６がさらに付加的な機
能を組入れるであろう。たとえば、一実施例においては、第２のバスブリッジ２
１６はＰＣＩバス２１４の所有権を調停するための（図示しない）マスタＰＣＩ
アービタを含む。第２のバスブリッジ２１６の外部であるかまたは第２のバスブ
リッジ２１６と統合される（図示しない）入力／出力コントローラがさらに、所
望であればキーボードおよびマウス２２２ならびにさまざまなシリアルポートお
よびパラレルポートのための動作的サポートを与えるためコンピュータシステム
２００内に含まれ得る。（図示しない）外部キャッシュユニットがさらに、他の
実施例においてはプロセッサ１０とバスブリッジ２０２との間のバスインターフ
ェイス４６と結合され得る。代替的に、外部キャッシュは、バスブリッジ２０２
と結合され、外部キャッシュ用のキャッシュ制御論理がバスブリッジ２０２へ統
合され得る。

【０１０８】メインメモリ２０４は、その中にアプリケーションプログラムが記憶され、そ
こからプロセッサが主として実行を行なうメモリである。適当なメインメモリ２
０４は、ＤＲＡＭ（ダイナミック・ランダム・アクセス・メモリ）を含み、好ま
しくは、ＳＤＲＡＭ（シンクロナスＤＲＡＭ）の複数のバンクを含む。

【０１０９】ＰＣＩ装置２１２Ａ〜２１２Ｂは、たとえば、ネットワークインターフェイス
カード、ビデオアクセラレータ、オーディオカード、ハードディスクドライブも
しくはフロッピーディスクドライブまたはドライブコントローラ、ＳＣＳＩ（ス
モール・コンピュータ・システムズ・インターフェイス）アダプタおよび電話通
信カードなどのさまざまな周辺装置の例である。同様に、ＩＳＡ装置２１８は、
モデム、サウンドカード、およびＧＰＩＢまたはフィールドバスインターフェイ
スカードなどのさまざまなデータアクイジションカードなどのさまざまな種類の
周辺装置の例である。

【０１１０】グラフィックスコントローラ２０８は、ディスプレイ２２６上でのテキストお
よび画像のレンダリングを制御するために設けられる。グラフィックスコントロ
ーラ２０８は、メインメモリ２０４へ、およびメインメモリ２０４から効果的に
移動され得る３次元データ構造をレンダリングするための当分野では一般に公知
の典型的なグラフィックアクセラレータであり得る。グラフィックスコントロー
ラ２０８はしたがって、バスブリッジ２０２内のターゲットインターフェイスへ
のアクセスを要求し受けることができ、それによってメインメモリ２０４へのア
クセスを得るという点で、ＡＧＰバス２１０のマスタであり得る。専用グラフィ
ックスバスが、メインメモリ２０４からのデータの迅速な取出しに対処する。所
定の動作については、グラフィックスコントローラ２０８はさらに、ＡＧＰバス
２１０上でＰＣＩプロトコルトランザクションを発生するよう構成され得る。バ
スブリッジ２０２のＡＧＰインターフェイスはしたがって、ＡＧＰプロトコルト
ランザクションおよびＰＣＩプロトコルターゲットとイニシエータとのトランザ
クションの両方をサポートする機能を含み得る。ディスプレイ２２６は、上に画
像またはテキストが提示され得る任意の電子的ディスプレイである。適切なディ
スプレイ２２６は、陰極線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）などを含
む。

【０１１１】上述の説明においては例としてＡＧＰ、ＰＣＩおよびＩＳＡまたはＥＩＳＡバ
スが使用されたが、所望であれば任意のバスアーキテクチャで置換えられること
が注意される。さらに、コンピュータシステム２００は付加的なプロセッサ（た
とえばコンピュータシステム２００の任意構成要素として示されるプロセッサ１
０ａなど）を含むマルチプロセッシングコンピュータシステムであり得ることが
注意される。プロセッサ１０ａはプロセッサ１０と同様のものであり得る。特に
、プロセッサ１０ａはプロセッサ１０の同一コピーであり得る。プロセッサ１０
ａは、（図１０に示すように）プロセッサ１０とバスインターフェイス４６を共
有し得、または、独立バスを通じてバスブリッジ２０２へ接続され得る。

【０１１２】上の開示により、命令の実行よりも前にルックアヘッドアドレスおよび／また
は結果を発生するよう試みるプロセッサが示された。ライン内依存性が認められ
、ルックアヘッド結果は依存性の命令のソースオペランドへとまとめされる。（
フューチャファイルおよびまとめ機構を通じてフォワーディングを提供すること
で）早期にルックアヘッド結果を与えることによりフォワーディングはより効率
的になり得る。さらに、機能ユニット内で実行されるべき必要な命令演算の数が
より少ないことで、サポートされる機能ユニットがより少なくなり得る。

【０１１３】一旦本開示が十分に理解されれば、当業者には多くの変形および変更が明らか
となるであろう。前掲の特許請求の範囲は、これらの変形および変更すべてを包
含するものと解釈されるよう意図される。

【図面の簡単な説明】

【図１】プロセッサの一実施例のブロック図である。

【図２】図１に示すフェッチ／スキャンユニットの一実施例のブロック図
である。

【図３】図１に示すルックアヘッド／まとめユニットの一実施例のブロッ
ク図である。

【図４】図３に示すルックアヘッド／まとめユニットの部分の間の相互接
続を示す、図３に示すルックアヘッド／まとめユニットの部分のブロック図であ
る。

【図５】図３および図４に示すルックアヘッドアドレス／結果発生ユニッ
トの一実施例の部分を示す図である。

【図６】ルックアヘッドアドレス発生のための、図５に示す制御ユニット
の一実施例による真理値表の図である。

【図７】ルックアヘッド結果発生のための、図５に示す制御ユニットの一
実施例による真理値表の図である。

【図８】図３に示すオペランドまとめユニットの一実施例の部分のブロッ
ク図である。

【図９】図８に示す制御ユニットの一実施例を示すフローチャートのブロ
ック図である。

【図１０】図１に示すプロセッサを含むコンピュータシステムのブロック
図である。

【手続補正書】特許協力条約第３４条補正の翻訳文提出書

【提出日】平成１１年１１月２４日（１９９９．１１．２４）

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】特許請求の範囲

【補正方法】変更

【補正内容】

【特許請求の範囲】

【手続補正２】

【補正対象書類名】明細書

【補正対象項目名】０００６

【補正方法】変更

【補正内容】

【０００６】ここでは、「依存」という語は、第２の命令の実行よりも前に第１の命令が実
行されていることを第２の命令が必要とするような、第１の命令とそれに続く第
２の命令との関係を指すため使用する。たとえば、第２の命令が、第１の命令の
実行を通じて発生されるソースオペランドを含むようなときである。一般に、オ
ペランドとは、命令の実行の間にそれに対する操作が行なわれる値である。特定
の命令についてのオペランドが命令内にエンコードされたオペランド指示子を通
じて位置特定される。たとえば、あるオペランドは、プロセッサ内で用いられる
レジスタ内に記憶されるであろう。命令内にエンコードされたレジスタオペラン
ド指示子は、オペランドを記憶している特定のレジスタを選択する。さらに、レ
ジスタオペランド指示子は、レジスタアドレスまたはレジスタ番号とも呼ばれる
。一方、他の命令は、プロセッサと結合されたメインメモリ内のメモリ場所内に
記憶されたメモリオペランドを指定するであろう。メモリアドレスもオペランド
指示子を通じて指定される。たとえば、命令は、メモリオペランドを記憶するメ
モリ場所を特定する変位を含むであろう。他の命令は、メモリアドレスを形成す
るために使用されるレジスタオペランドを指定するアドレスオペランド指示子を
含むであろう。もしそのオペランドが命令のための入力値であれば、オペランド
はソースオペランドであろう。もしそのオペランドが命令の結果であれば、オペ
ランドは行先オペランドであろう。行先オペランド指示子は、命令実行の結果が
記憶されるべき記憶場所を指定する。ＷＯ９３／２０５０５は、アウトオブオーダでの実行が可能なスーパースカラ
ＲＩＳＣプロセッサにおける命令のスケジューリングを説明する。該文献は、ス
ケジューリング論理の部分であるレジスタリネーム回路であって、データ依存性
が依存性チェックユニットにおいて解決され、第１の命令の結果がレジスタファ
イルへ転送されることなく一時バッファ命令ウィンドウ内に記憶されるという形
で並列命令実行を高速化するレジスタリネーム回路を開示する。これによって、
第２の命令の結果を、入力オペランドとして結果を用いてフォワーディングする
ことが可能になる。しかし、この処理は、命令がディスパッチされて後のパイプ
ラインの命令実行段において発生する。ＵＳ−Ａ−５，６７５，７５８は、加算／移動ユニット（ＡＭＵ）と呼ばれ他
の実行ユニットに対して選択加算および移動を並列してアウトオブオーダで行な
う補助整数実行ユニットの付加によって、既存の実行ユニットが増強される、高
性能プロセッサを開示する。ＡＭＵは、データ依存性を取り除くことによって、
利用可能な命令レベルの並列性を高める。

【手続補正３】

【補正対象書類名】明細書

【補正対象項目名】０００７

【補正方法】変更

【補正内容】

【０００７】

【発明の概要】上記問題は、前掲の特許請求の範囲の請求項１に規定されるこの発明によるプ
ロセッサによりほぼ解決される。一実施例において、プロセッサは、１以上の命
令のソースオペランドに対応するオペランド情報（オペランド値を生成するであ
ろう命令を特定するタグまたはオペランドのいずれか）を受取るよう構成される
ルックアヘッドアドレス／結果計算ユニットを含む。もしオペランドが利用可能
であれば、ルックアヘッドアドレス／結果計算ユニットは、命令のメモリオペラ
ンドのためのルックアヘッドアドレス、または、命令の機能的命令演算に対応す
るルックアヘッド結果のいずれかを発生するであろう。ルックアヘッドアドレス
は、命令に対応するメモリ演算の早期開始のためロード／ストアユニットへ与え
られるであろう。ルックアヘッド結果は、投機的オペランドソース（たとえばフ
ューチャファイル）へ、その中での更新のため与えられるであろう。レジスタの
ためのルックアヘッド状態が、パイプライン内に早期に与えられるという効果が
ある。その後の命令はそのルックアヘッド状態を受取り、そのルックアヘッド状
態を使用して早期にルックアヘッド状態を追加して発生するであろう。他方、そ
の後の命令はそのルックアヘッド状態を受取るであろうし、そしてそれによって
、（前の命令の実行を命令ウィンドウ内で待つのではなく）命令ウィンドウへデ
ィスパッチされればすぐ実行できる状態となるであろう。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＪＰ，ＫＲ (72)発明者ウィット，デイビッド・ビィアメリカ合衆国、78759 テキサス州、オースティン、パスファインダー・ドライブ、6318 Ｆターム(参考） 5B013 AA12 【要約の続き】ろうし、そのため、（前の命令の実行を命令ウインドウ内で待つのではなく）命令ウインドウへのディスパッチに際し実行の準備ができているであろう。一実施例では、プロセッサはさらに、ルックアヘッド結果をその後同時にデコードされる命令（ライン内依存性）にまとめるよう構成されるオペランドまとめユニットを含む。さらに、オペランドまとめユニットは、比較命令を、比較の結果に依存する次の分岐命令にまとめるように構成され得る。

Claims

【特許請求の範囲】

【請求項１】プロセッサであって、命令のラインに対応する複数のオペランド指示子を受取るよう結合されるライ
ン内依存性チェックユニットを含み、前記ライン内依存性チェックユニットは、
前記複数のオペランド指示子を比較することによって、前記命令のライン中の命
令の間の依存性を判定するよう構成され、さらに、前記複数のオペランド指示子により指定される１以上のオペランドを受けるよ
う結合されるルックアヘッド計算ユニットを含み、前記ルックアヘッド計算ユニ
ットは、もし、前記命令のライン内の第１の命令に対応するルックアヘッド結果
を発生するために前記第１の命令により使用される各オペランドが前記１以上の
オペランド中にあれば、前記ルックアヘッド結果を計算するよう構成され、さら
に、前記ルックアヘッド計算ユニットおよび前記ライン内依存性チェックユニット
と結合されるオペランドまとめユニットを含み、前記オペランドまとめユニット
は、前記ルックアヘッド結果を前記命令ライン中の第２の命令のオペランドとし
て（ｉ）前記ルックアヘッド計算ユニットからの前記ルックアヘッド結果が有効
であるとの表示に応答して、および（ii）前記ライン内依存性チェックユニット
からの前記第２の命令は前記第１の命令に依存するとの表示に応答して、提供す
るよう構成され、さらに、前記オペランドまとめユニットと結合される１以上の命令ウィンドウを含み、
前記１以上の命令ウィンドウは対応するオペランドが与えられるまで命令を記憶
しその後実行のため前記命令を選択するよう構成される、プロセッサであって、前記オペランドまとめユニットは、もし前記ルックアヘッド結果が有効であれ
ば、前記ルックアヘッド結果により提示される前記第１の命令の少なくとも第１
の命令演算の実行を禁止するよう前記１以上の命令ウィンドウに信号を送るよう
構成される、プロセッサ。
【請求項２】前記ルックアヘッド計算ユニットは、前記命令がレジスタオ
ペランドのみ持つ移動命令であれば、前記ルックアヘッド結果を計算するよう構
成され、前記移動命令は、前記１以上の命令ウィンドウから禁止された前記第１
の命令演算を含む、請求項１に記載のプロセッサ。
【請求項３】前記ルックアヘッド計算ユニットは、もし前記命令がレジス
タソースオペランドのみ持つ加算系命令であれば、前記ルックアヘッド結果を計
算するよう構成される、請求項１に記載のプロセッサ。
【請求項４】前記加算系命令は、フラグ結果を生成するための次の実行の
ために前記１以上の命令ウィンドウに与えられ、前記第１の命令演算は前記加算
系演算を含む、請求項３に記載のプロセッサ。
【請求項５】前記ルックアヘッド計算ユニットは、もし前記第１の命令が
メモリオペランドを含み、前記１以上のオペランドが前記第１の命令に対応する
１以上のアドレスオペランドを含むならば、ルックアヘッドアドレスを計算する
よう構成され、前記第１の命令演算は前記アドレス発生を含む、請求項３に記載
のプロセッサ。
【請求項６】前記ルックアヘッド計算ユニットと結合されるロード／スト
アユニットをさらに含むプロセッサであって、前記ロード／ストアユニットは、
前記ルックアヘッド計算ユニットからの前記ルックアヘッドアドレスが有効であ
るとの表示に応答して、前記メモリオペランドのアドレスとして前記ルックアヘ
ッドアドレスを受取るよう構成され、前記オペランドまとめユニットは、前記命
令のラインの前記１以上の命令ウィンドウへの提供に際し、前記第１の命令に対
応するアドレス発生を不能化するよう構成される、請求項３に記載のプロセッサ
。
【請求項７】前記１以上の命令ウィンドウと結合されるアドレス発生ユニ
ットをさらに含み、前記アドレス発生ユニットは、もし前記ルックアヘッドアド
レスが無効であれば、前記アドレスを発生するよう構成される、請求項６に記載
のプロセッサ。
【請求項８】前記１以上の命令ウィンドウと結合される機能ユニットをさ
らに含み、前記機能ユニットは、前記１以上の命令ウィンドウにより前記機能ユ
ニットへ与えられる命令を実行するよう構成される、請求項１に記載のプロセッ
サ。
【請求項９】前記機能ユニットは、もし前記ルックアヘッド結果が有効で
あれば、前記ルックアヘッド結果により提示される前記第１の命令の前記部分を
実行しない、請求項８に記載のプロセッサ。
【請求項１０】前記ルックアヘッド計算ユニットと結合されるフューチャ
ファイルをさらに含み、前記フューチャファイルは、前記複数のオペランド指示
子に応答して前記ルックアヘッド計算ユニットに前記１以上のオペランドを与え
るよう構成される、請求項９に記載のプロセッサ。
【請求項１１】前記フューチャファイルは前記ルックアヘッド結果を受取
るよう結合され、前記ルックアヘッド結果に応答して前記ルックアヘッド結果に
対応して行先オペランドを更新するよう結合される、請求項１０に記載のプロセ
ッサ。
【請求項１２】前記フューチャファイルは前記機能ユニットと結合され、
前記フューチャファイルは、前記機能ユニットから与えられる実行結果に対応し
て前記行先オペランドを更新するよう構成される、請求項１１に記載のプロセッ
サ。
【請求項１３】前記オペランドまとめユニットは、もし前記第１の命令が
比較命令であり、前記第２の命令が条件付き分岐命令であり、前記第２の命令が
前記第１の命令に続いていれば、前記第２の命令のオペランドとして前記第１の
命令に対応するオペランドを与えるよう構成される、請求項１に記載のプロセッ
サ。
【請求項１４】前記オペランドまとめユニットはさらに、前記１以上の命
令ウィンドウの前記比較命令の受取りを禁止するよう構成される、請求項１に記
載のプロセッサ。
【請求項１５】命令のラインに対応する複数のオペランドを受取るよう結
合されるオペランドまとめユニットを含み、前記オペランドまとめユニットは、
前記命令のライン中の第１の命令に対応する前記複数のオペランドのうち１以上
のオペランドを、前記命令のライン中の第２の命令のオペランドとして、（ｉ）
比較命令である前記第１の命令に応答して、（ii）条件付き分岐命令である前記
第２の命令に応答して、および（iii）前記第１の命令に続いた前記第２の命令に応答して、与えるよう構成され、さらに、前記オペランドまとめユニットと結合される１以上の命令ウィンドウを含み、
前記１以上の命令ウィンドウは、対応するオペランドが与えられるまで命令を記
憶しその後実行のために前記命令を選択するよう構成され、前記オペランドまとめユニットは、もし（ｉ）前記第１の命令が比較命令であ
れば、（ii）前記第２の命令が条件付き分岐命令であれば、および（iii）前記第２の命令が前記第１の命令に続いていれば、前記第１の命令の受取りを禁止す
るよう前記１以上の命令ウィンドウに信号を送るよう構成される、プロセッサ。
【請求項１６】プロセッサ内の命令のラインを実行するための方法であっ
て、前記命令は、複数のオペランド指示子を検出するため、前記命令のラインをデコードするス
テップと、ライン内依存性を検出するため、前記命令のライン中の各命令の行先オペラン
ド指示子を、前記命令のライン中の各次の命令のソースオペランド指示子と比較
するステップと、前記ソースオペランド指示子により指定されるソースオペランドを取込むため
投機的オペランドソースの読出を行なうステップと、前記ソースオペランドが前記投機的オペランドソースにおいて利用可能であれ
ば、前記ライン中の第１の命令に対するルックアヘッド結果を計算するステップ
と、もし前記ルックアヘッド結果が成功裡に計算されたならば、前記ルックアヘッ
ド結果を生成する前記第１の命令の少なくとも第１の命令演算の実行を禁止する
よう、前記第１の命令を受取るよう構成された命令ウィンドウに、信号を送るス
テップと、もし前記比較が前記第２の命令の前記第１の命令に対する依存性を示せば、前
記命令のライン中の第２の命令に前記ルックアヘッド結果を与えるステップとを
含み、前記与えるステップは、前記第２の命令を前記命令ウィンドウ内に記憶す
るよりも前に行なわれる、プロセッサ内の命令のラインを実行するための方法。
【請求項１７】実行のために、前記命令ウィンドウから前記第２の命令を
選択するステップをさらに含む、請求項１６に記載のプロセッサ内の命令のライ
ンを実行するための方法。
【請求項１８】前記計算するステップは、もし、前記命令がレジスタオペ
ランドのみを有する加算系命令であり、前記レジストオペランド各々が前記読出
の際に前記投機的オペランド記憶装置内で利用可能であれば、成功である、請求
項１６に記載のプロセッサ内の命令のラインを実行するための方法。
【請求項１９】もし前記第１の命令がメモリオペランドを含み、前記第１
の命令に対応するアドレスオペランドが前記読出に際して前記投機的オペランド
ソースにおいて利用可能であれば、ルックアヘッドアドレスを計算するステップ
をさらに含む、請求項１８に記載のプロセッサ内の命令のラインを実行するため
の方法。
【請求項２０】コンピュータシステムであって、命令のラインを複数の発行位置に整列させるよう構成される整列ユニットと、投機的オペランドを記憶するよう構成される投機的オペランドソースと、命令に対してオペランドが与えられるまでそれらの命令を記憶するよう構成さ
れる命令ウィンドウと、前記投機的オペランドソース、前記命令ウィンドウおよび前記整列ユニットと
結合されるルックアヘッド／まとめユニットとを含むプロセッサを含み、前記ル
ックアヘッド／まとめユニットは、前記整列ユニットから受取られる前記命令の
ラインに応答して前記投機的オペランドソースからオペランドを読出すよう構成
され、前記ルックアヘッド／まとめユニットは、前記オペランドに応答して前記
命令のライン中の第１の命令に対応するルックアヘッド結果を発生するよう構成
され、前記ルックアヘッド／まとめユニットはさらに、前記投機的オペランドソ
ースを前記ルックアヘッド結果で更新するよう構成され、前記ルックアヘッド／
まとめユニットは、前記第１の命令に依存する、前記命令のライン中の第２の命
令に前記ルックアヘッド結果をフォワードするよう構成され、前記ルックアヘッ
ド／まとめユニットは、前記ルックアヘッド結果を生成する前記第１の命令の少
なくとも第１の命令演算の実行を禁止するよう前記命令ウィンドウに信号を送る
よう構成され、前記コンピュータシステムはさらに、前記プロセッサと結合される入力／出力（Ｉ／Ｏ）装置を含み、前記Ｉ／Ｏ装
置は、前記コンピュータシステムと、前記Ｉ／Ｏ装置が結合される他のコンピュ
ータシステムとの間で通信するよう構成される、コンピュータシステム。
【請求項２１】第２のプロセッサをさらに含むコンピュータシステムであ
って、前記第２のプロセッサは、命令のラインを複数の発行位置に整列させるよう構成される整列ユニットと、投機的オペランドを記憶するよう構成される投機的オペランドソースと、命令に対してオペランドが与えられるまでこれらの命令を記憶するよう構成さ
れる命令ウィンドウと、前記投機的オペランドソース、前記命令ウィンドウおよび前記整列ユニットと
結合されるルックアヘッド／まとめユニットとを含み、前記ルックアヘッド／ま
とめユニットは、前記整列ユニットから受取られる前記命令のラインに応答して
前記投機的オペランドソースからオペランドを読出すよう構成され、前記ルック
アヘッド／まとめユニットは、前記オペランドに応答して前記命令のライン中の
第１の命令に対応するルックアヘッド結果を発生するよう構成され、前記ルック
アヘッド／まとめユニットはさらに、前記投機的オペランドソースを前記ルック
アヘッド結果で更新するよう構成され、前記ルックアヘッド／まとめユニットは
、前記命令ライン中の、前記第１の命令に依存する第２の命令に前記ルックアヘ
ッド結果をフォワードするよう構成され、前記ルックアヘッド／まとめユニット
は、前記ルックアヘッド結果を生成する前記第１の命令の少なくとも第１の命令
演算の実行を禁止するよう、前記命令ウィンドウに信号を送るよう構成される、
請求項１に記載のコンピュータシステム。