JP2003519833A

JP2003519833A - 依存性連鎖の発行および再発行が可能なスケジューラ

Info

Publication number: JP2003519833A
Application number: JP2001550546A
Authority: JP
Inventors: ケラー，ジェイムズ・ビィ; ハダッド，ラムゼイ・ダブリュ; マイアー，ステファン・ジィ
Original assignee: Advanced Micro Devices Inc
Current assignee: Advanced Micro Devices Inc
Priority date: 2000-01-03
Filing date: 2000-08-16
Publication date: 2003-06-24
Also published as: CN1451115A; EP1244962A1; KR20020097149A; CN1210649C; DE60005860D1; DE60005860T2; KR100747128B1; WO2001050253A1; EP1244962B1

Abstract

(57)【要約】スケジューラは実行のための命令動作を発行するが命令動作の保留をも行なう。特定の命令動作が後で、非投機的に実行する必要があることが判明すると、特定の命令動作はスケジューラの中にまだストアされている。特定の命令動作が非投機的になったとの（特定の命令動作に先行する命令動作の発行および実行を介した）判断の後に、特定の命令動作はスケジューラから再発行され得る。非投機的に実行するべき命令動作の不正スケジューリングに対するペナルティは、特定の命令動作とパイプラインからのより若い命令動作とをパージして、特定の命令動作を再フェッチすることと比較すると、減じられる。さらに、スケジューラは、発行された命令動作ごとの依存性表示を維持し得る。もし特定の命令動作が再発行されれば、特定の命令動作に（直接または間接的に）依存する命令動作は、依存性表示を介して識別され得る。スケジューラはまた、依存性命令動作をも再発行する。プログラム順序において特定の命令動作の後に生じるが、特定の命令動作に依存していないものは再発行されない。したがって、非投機的に実行されるべき命令動作の不正スケジューリングに対するペナルティは、特定の命令とすべてのより若い命令動作とをパージし特定の命令動作を再フェッチすることに対して、さらに減じられる。

Description

【発明の詳細な説明】

【０００１】発明の背景１．技術分野この発明はプロセッサの分野に関し、より特定的には、プロセッサ内の命令ス
ケジューリング機構に関する。

【０００２】２．背景技術スーパースカラプロセッサは、クロックサイクルごとに多数の命令を発行およ
び実行し、かつ設計に整合した可能な限り高いクロック周波数を採用することに
より、高性能を達成しようと試みる。クロックサイクルごとに実行される命令の
数を増加させるための１つの方法は、アウトオブオーダー実行である。アウトオ
ブオーダー実行においては、命令はプログラムシーケンス（または「プログラム
順序」）において指定されるものとは異なった順序で実行され得る。プログラム
シーケンスでは互いに近傍に位置するある命令は、それらの並行実行を禁止する
依存性を有し得るのに対し、プログラムシーケンスにおける後の命令は、前の命
令に対する依存性を有さない可能性がある。したがって、アウトオブオーダー実
行は、並行して実行される命令の数を（平均して）増加させることにより、スー
パースカラプロセッサの性能を向上させ得る。アウトオブオーダー実行に関連す
る別の方法は投機的実行であるが、ここで命令は、プログラムを投機的実行を含
む経路とは異なった経路を進んで実行させ得る、他の命令の後に行なわれる。た
とえば、もし命令が、例外を引起す特定の命令より後のものであれば、これは投
機的である。また、命令がまだ実行されていない予測条件付き分岐命令より後の
ものであれば、これも投機的命令である。同様に、命令のアウトオブオーダーま
たは投機的なスケジューリング、発行などが行なわれる。

【０００３】残念ながら、アウトオブオーダーまたは投機的実行に対するスケジューリング
命令は、プロセッサに対して付加的なハードウェアの複雑性を提示する。「スケ
ジューリング」という用語は一般的に、実行のための命令の選択を指す。典型的
には、プロセッサは平均命令実行速度を最大化するために、命令を可能な限り速
くスケジューリングしようと（たとえば、依存性およびさまざまな命令タイプに
対するハードウェア利用性に対処するために命令をアウトオブオーダーで実行す
ることにより）試みる。これらの複雑性は、プロセッサが動作し得るクロック周
波数を制限するおそれがある。特に、命令間の依存性は、スケジューリングハー
ドウェアによって考慮されねばならない。一般的に、ここで用いられる「依存性
」という用語は、プログラム順序における第１の命令と後の第２の命令との間の
、第１の命令の実行の後で第２の命令が実行されることが要求される関係を指す
。さまざまな依存性が定義され得る。たとえば、ソースオペランド依存性は、も
し第２の命令のソースオペランドが第１の命令のデスティネーションオペランド
である場合に発生する。

【０００４】一般的に、命令は１つ以上のソースオペランドおよび１つ以上のデスティネー
ションオペランドを有する。ソースオペランドは、命令定義に従って操作され、
１つ以上の結果（デスティネーションオペランド）を生じさせるべき入力値であ
る。ソースおよびデスティネーションオペランドは、プロセッサ外部の記憶場所
にストアされるメモリオペランドであるか、またはプロセッサ内に含まれるレジ
スタ記憶位置にストアされるレジスタオペランドである。プロセッサによって採
用される命令セットアーキテクチャは、アーキテクチャ化レジスタの数を規定す
る。これらのレジスタは、命令セットアーキテクチャによって存在すると規定さ
れ、かつ命令はアーキテクチャ化レジスタをソースおよびデスティネーションオ
ペランドとして用いるよう符号化される。命令は、命令のオペランドフィールド
におけるレジスタ番号（またはレジスタアドレス）を介して、特定のレジスタを
ソースまたはデスティネーションオペランドと指定する。レジスタ番号は独自に
、アーキテクチャ化レジスタから選択されたレジスタを識別する。ソースオペラ
ンドはソースレジスタ番号によって識別され、デスティネーションオペランドは
デスティネーションレジスタ番号によって識別される。

【０００５】オペランド依存性に加えて、１つ以上の種類の順序依存性が、プロセッサによ
って課され得る。順序依存性は、たとえば採用されるハードウェアを簡略化する
か、または正しいプログラム実行を生成するために用いられ得る。ある特定の実
行がある特定の他の命令に対して順序どおりに実行されることを課すことにより
、命令のアウトオブオーダー実行の帰結に対処するためのハードウェアをなくす
ことができる。たとえば、一般プロセッサ動作状態を含む特殊レジスタを更新す
る命令は、特殊レジスタに明示的にアクセスしないさまざまな後の命令の実行に
影響を与えるおそれがある。一般的に、順序依存性は、マイクロアーキテクチャ
からマクロアーキテクチャにわたる。

【０００６】スケジューリング機構は依存性を考慮するが、実現される性能利得を最大化す
るために、アウトオブオーダーおよび／または投機的に命令をスケジューリング
するにおいては可能な限りアグレッシブであるべきである。しかしながら、スケ
ジューリング機構がよりアグレッシブになるにつれ（すなわち、特定の命令がス
ケジューリングされることを妨げる条件が少なくなるにつれ）、不正に実行され
る命令は増加する。不正に実行された命令に対する回復機構は、一般的に不正に
実行された命令とプロセッサパイプラインからのすべての後に続く命令とをパー
ジし、不正に実行された命令（および後の命令）を再フェッチすることで行なわ
れてきた。しばしば、パージおよび再フェッチは、ハードウェアの簡潔性のため
に不正実行の回復から（たとえば、不正に実行された命令が一連の命令の中で最
も古い命令になるまで）遅延する。クロックサイクルごとに実際に実行される命
令の平均数は、不正実行および後のパージ事象のために減少する。より頻繁に不
正実行が生じるアグレッシブなスケジューリング機構に対しては、これらの回復
機構に起因する性能劣化は実質的なものになり得る。したがって、アグレッシブ
な投機的またはアウトオブオーダースケジューリングによって可能となる、性能
利得を保護する、不正投機的実行から回復するための機構が所望となる。

【０００７】発明の開示上述の問題は、大部分がここに記載されるスケジューラによって解決される。
スケジューラは、実行のための命令動作を発行するが、また命令動作を保留する
。もし特定の命令動作が、後で不正に実行されたことが見出されると、特定の命
令動作はスケジューラから再発行される。有利には、命令実行の不正スケジュー
リングに対するペナルティは、特定の命令動作とパイプラインからのより若い命
令動作とをパージし、特定の命令動作をフェッチすることに比べると、減じられ
得る。性能は、不正実行に対するペナルティが減じられたことにより、向上する
。さらに、スケジューラは、不正実行に対するペナルティが減じられるために、
よりアグレッシブなスケジューリング機構を採用し得る。

【０００８】さらに、スケジューラは、発行された各命令動作に対する依存表示を保留し得
る。もし特定の命令動作が再発行されると、特定の命令動作に（直接にまたは間
接的に）依存する命令動作は、依存性表示によって識別され得る。スケジューラ
は、依存命令動作をも再発行する。プログラム順序において特定の命令動作の後
であるが、その特定の命令動作に依存はしない命令動作は、再発行されない。し
たがって、命令動作の不正スケジューリングに対するペナルティは、特定の命令
とすべてのより若い命令動作とをパージし、特定の命令動作を再フェッチするこ
とよりもさらに減じられる。性能は、こうしてさらに向上する。

【０００９】概略的には、スケジューラが企図される。スケジューラは、第１の命令動作を
ストアするよう構成される命令バッファと、命令バッファに結合される発行ピッ
ク回路と、制御回路とを含む。発行ピック回路は、命令バッファから発行するた
めに第１の命令動作を選択するよう構成される。発行ピック回路に結合されて、
制御回路は、第１の命令動作の第１の実行状態を維持するよう構成される。制御
回路は、発行ピック回路が第１の命令動作を発行のために選択したことに応答し
て、第１の実行状態を実行中状態に変えるよう構成される。さらに、制御回路は
、第１の実行命令が不正に実行されたことを示す第１の信号に応答して第１の実
行状態を非実行状態に変えるよう構成される。

【００１０】さらに、スケジューラと実行ユニットとを含むプロセッサが企図される。スケ
ジューラは、第１の命令動作をストアし、かつ実行のために命令動作を発行する
よう構成される。スケジューラは、第１の命令動作に対応する第１の実行状態を
維持するよう構成され、かつ第１の実行動作の発行に応答して第１の実行状態を
実行中状態に変えるよう構成される。実行ユニットは、第１の命令動作の発行に
応答して受取るようスケジューラに結合されて、第１の実行動作を実行するよう
構成される。制御回路は、第１の命令動作が不正に実行されたことを示す第１の
信号に応答して、第１の実行状態を非実行状態に変えるよう構成される。さらに
、プロセッサおよび入力／出力（Ｉ／Ｏ）装置を含むコンピュータシステムが企
図され、Ｉ／Ｏ装置は、コンピュータシステムとＩ／Ｏ装置が結合され得る他の
コンピュータシステムとの間で通信するよう構成される。

【００１１】さらに、方法が企図される。第１の命令動作は、スケジューラから実行ユニッ
トに発行される。第１の命令動作は、発行の後にスケジューラの中に保留される
。第１の命令動作が不正に実行されたという第１の信号が受取られる。第１の命
令動作が、第１の信号の受信に応答して再発行される。

【００１２】さらに、プロセッサが企図される。プロセッサは、スケジューラおよび実行ユ
ニットを含む。スケジューラは、第１の命令動作をストアし、第１の命令動作を
実行のために発行するよう構成される。スケジューラは、発行の後に第１の命令
動作を保留するよう構成され、かつ第１の命令動作が不正に実行されたことを示
す第１の信号を受けるよう結合される。第１の信号に応答して、スケジューラは
、第１の信号に応答して命令動作を再発行するよう構成される。実行ユニットは
、第１の命令動作の再発行に応答してこれを受けるようスケジューラに結合され
て、第１の命令動作を実行するよう構成される。

【００１３】この発明の他の目的および利点は、以下の詳細な説明を読み、添付の図面を参
照することにより明らかとなるであろう。

【００１４】この発明はさまざまな変更および代替的な形が可能であり、その特定の実施例
のみが例示のために図面に示され、以下に詳細に説明される。しかしながら、図
面およびその詳細な説明は、この発明を開示される特定の形に限定するものでは
なく、反対に、すべての変更、等価物および代替例を、前掲の特許請求の範囲に
よって規定されるこの発明の精神および範囲内にすべて含めることを意図する。

【００１５】発明を実行するためのモードプロセッサ概要図１を参照すると、プロセッサ１０の一実施例のブロック図が示される。他の
実施例も可能であり、企図される。図１の実施例においては、プロセッサ１０は
ラインプレディクタ１２、命令キャッシュ（Ｉキャッシュ）１４、整列ユニット
１６、分岐予測／フェッチＰＣ生成ユニット１８、複数のデコードユニット２４
Ａ−２４Ｄ、プレディクタミスデコードユニット２６、マイクロコードユニット
２８、マップユニット３０、リタイアキュー３２、アーキテクチャ再命名ファイ
ル３４、フューチャファイル２０、スケジューラ３６、整数レジスタファイル３
８Ａ、浮動小数点レジスタファイル３８Ｂ、整数実行コア４０Ａ、浮動小数点実
行コア４０Ｂ、ロード／ストアユニット４２、データキャッシュ（Ｄキャッシュ
）４４、外部インターフェイスユニット４６、およびＰＣサイロ４８を含む。ラ
インプレディクタ１２は、プレディクタミスデコードユニット２６、分岐予測／
フェッチＰＣ生成ユニット１８、ＰＣサイロ４８、および整列ユニット１６に結
合される。Ｉキャッシュ１４は、整列ユニット１６および分岐予測／フェッチＰ
Ｃ生成ユニット１８に結合され、これはさらにＰＣサイロ４８に結合される。整
列ユニット１６はさらに、プレディクタミスデコードユニット２６およびデコー
ドユニット２４Ａ−２４Ｄに結合される。デコードユニット２４Ａ−２４Ｄはさ
らに、マップユニット３０に結合され、デコードユニット２４Ｄはマイクロコー
ドユニット２８に結合される。マップユニット３０は、リタイアキュー３２（ア
ーキテクチャ再命名ファイル３４に結合される）、フューチャファイル２０、ス
ケジュール３６、およびＰＣサイロ４８に結合される。アーキテクチャ再命名フ
ァイル３４は、フューチャファイル２０に結合される。スケジューラ３６は、レ
ジスタファイル３８Ａ−３８Ｂに結合され、これはさらにそれぞれの実行コア４
０Ａ−４０Ｂに結合される。実行コア４０Ａ−４０Ｂはさらに、ロード／ストア
ユニット４２およびスケジューラ３６に結合される。実行コア４０ＡはさらにＤ
キャッシュ４４に結合される。ロード／ストアユニット４２はスケジューラ３６
、Ｄキャッシュ４４、および外部インターフェイスユニット４６に結合される。
Ｄキャッシュ４４はレジスタファイル３８に結合される。外部インターフェイス
ユニット４６は、外部インターフェイス５２およびＩキャッシュ１４に結合され
る。参照番号の後に文字が続く参照符号によってここに示される要素は、集合的
に参照番号のみにても示される。たとえば、デコードユニット２４Ａ−２４Ｄは
、集合的にデコードユニット２４として示される。

【００１６】図１の実施例においては、プロセッサ１０は可変バイト長、複雑命令セットコ
ンピューティング（ＣＩＳＣ）命令セットアーキテクチャを採用する。たとえば
、プロセッサ１０はｘ８６命令セットアーキテクチャ（ＩＡ−３２とも称する）
を採用し得る。他の実施例は、固定長命令セットアーキテクチャおよび縮小命令
セットコンピューティング（ＲＩＳＣ）命令セットアーキテクチャを含む他の命
令セットアーキテクチャを採用し得る。図１に示される特定の特徴は、そのよう
なアーキテクチャから省かれ得る。さらに、上述の実施例は、所望であれば６４
ビットアーキテクチャを採用し得る。

【００１７】分岐予測／フェッチＰＣ生成ユニット１８は、フェッチアドレス（フェッチＰ
Ｃ）を、Ｉキャッシュ１４、ラインプレディクタ１２、およびＰＣサイロ４８に
与えるよう構成される。分岐予測／フェッチＰＣ生成ユニット１８は、フェッチ
アドレスの生成を支援するために用いられる好適な分岐予測機構を含み得る。フ
ェッチアドレスに応答して、ラインプレディクタ１２は、複数の命令に対応する
整列情報を整列ユニット１６に与え、かつ与えられた命令情報によって識別され
る命令の後の命令をフェッチするための次のフェッチアドレスを与える。次のフ
ェッチアドレスは、分岐予測／フェッチＰＣ生成ユニット１８に与えられるか、
または直接Ｉキャッシュ１４に所望のように与えられる。分岐予測／フェッチＰ
Ｃ生成ユニット１８は、ＰＣサイロ４８からトラップアドレスを受取り（もしト
ラップが検出された場合）、トラップアドレスは分岐予測／フェッチＰＣ生成ユ
ニット１８によって生成されたフェッチＰＣを含み得る。そうでなければ、フェ
ッチＰＣは、分岐予測情報およびラインプレディクタ１２からの情報を用いて生
成され得る。一般的に、ラインプレディクタ１２は、プロセッサ１０によって先
行して投機的にフェッチされた情報に対応する情報をストアする。一実施例にお
いては、ラインプレディクタ１２は２Ｋエントリを含み、各々のエントリはここ
で命令の「ライン」と称する１つ以上の命令のグループを位置決めする。命令の
ラインは、スケジューラ３６を通して、プロセッサ１０の命令処理パイプライン
によって並行して処理され得る。

【００１８】Ｉキャッシュ１４は、命令バイトをストアするための高速キャッシュメモリで
ある。一実施例に従うと、Ｉキャッシュ１４は、たとえば１２８キロバイトの、
６４バイトキャッシュラインを採用する４方向セットアソシアティブ編成を含む
。しかしながら、どのようなＩキャッシュ構造も好適である（直接マッピング構
造を含む）。

【００１９】整列ユニット１６は、ラインプレディクタ１２からの命令整列情報と、Ｉキャ
ッシュ１４からのフェッチアドレスに対応する命令バイトを受ける。整列ユニッ
ト１６は、提供された命令動作情報に従って、命令バイトを各デコードユニット
２４Ａ−２４Ｄに選択する。より特定的には、ラインプレディクタ１２は、各デ
コードユニット２４Ａ−２４Ｄに対応する命令ポインタを提供する。命令ポイン
タは、対応のデコードユニット２４Ａ−２４Ｄへの伝達のためのフェッチされた
命令バイト内の命令を突き止める。一実施例においては、特定の命令は、１つ以
上のデコードユニット２４Ａ−２４Ｄに伝達され得る。したがって、示される実
施例においては、ラインプレディクタ１２からの命令のラインは最大４つまでの
命令を含み得るが、他の実施例はより多くまたはより少ないデコードユニット２
４を含み、１ライン内により多いまたはより少ない命令を提供し得る。

【００２０】デコードユニット２４Ａ−２４Ｄは、提供された命令をデコードし、各デコー
ドユニット２４Ａ−２４Ｄは、命令に対応する１つ以上の命令動作（またはＲＯ
Ｐ）を識別する情報を生成する。一実施例においては、各デコードユニット２４
Ａ−２４Ｄは、命令ごとに最大２つまでの命令動作を生成し得る。ここで用いら
れる場合、命令動作（またはＲＯＰ）は、実行コア４０Ａ−４０Ｂ内の実行ユニ
ットが、単一のエンティティとして実行するよう構成される動作を示す。簡単な
命令は単一の命令動作に対応し得る一方、より複雑な命令は多数の命令動作に対
応し得る。ある特定のより複雑な命令は、（本実施例においてはデコードユニッ
ト２４Ｄを介して内部の読出専用メモリからフェッチされる）マイクロコードル
ーチンとしてマイクロコードユニット２８内で実現され得る。さらに、他の実施
例は、命令ごとに単一の命令動作を採用し得る（すなわち、命令および命令動作
はそのような実施例においては同義語である）。

【００２１】ＰＣサイロ４８は、命令フェッチごとにフェッチアドレスおよび命令情報をス
トアし、かつ例外（たとえばプロセッサ１０によって採用される命令セットアー
キテクチャによって規定される命令トラップ、分岐後予測、および他のマイクロ
アーキテクチャに規定されたトラップ）のフェッチにおいては命令をリダイレク
ションする働きを有する。ＰＣサイロ４８は、プロセッサ１０内で未処理であり
得る多数の命令ラインに対応するフェッチアドレスおよび命令情報をストアする
ための循環バッファを含み得る。命令ラインのリタイアに応答して、ＰＣサイロ
４８は、対応のエントリを捨てる。例外に応答して、ＰＣサイロ４８は、分岐予
測／フェッチＰＣ生成ユニット１８へのトラップアドレスを提供し得る。リタイ
アおよび例外情報は、スケジューラ３６によって提供され得る。一実施例におい
ては、マップユニット３０は、各命令に連続番号（Ｒ♯）を割当てて、プロセッ
サ１０内の未処理の命令の順序を識別する。スケジューラ３６は、ＰＣサイロ４
８にＲ♯を返し、例外または命令動作リタイアに遭遇する命令動作を識別する。

【００２２】ラインプレディクタ１２にミスを検出すると、整列ユニット１６は、Ｉキャッ
シュ１４からプレディクタミスデコードユニット２６に対応の命令バイトを経路
制御する。プレディクタミスデコードユニット２６は、プロセッサ１０が対応し
て設計されている命令ラインに何らかの制約を課す（たとえば、命令動作の最大
数、命令の最大数、分岐命令の終了など）命令をデコードする。ラインの終了時
に、プレディクタミスデコードユニット２６は、ラインプレディクタ１２に情報
を与えてストアさせる。プレディクタミスデコードユニット２６は、デコードさ
れた情報をディスパッチするよう構成され得ることに留意されたい。これに代え
て、プレディクタミスデコードユニット２６は、命令情報のラインをデコードし
、かつこれをラインプリデコーダ１２に与えてストアさせてもよい。この後に、
失われたフェッチアドレスが、ラインプレディクタ１２によって再試行され、ヒ
ットが検出され得る。

【００２３】ラインプレディクタ１２におけるミス時の命令デコードに加えて、プレディク
タミスデコードユニット２６は、もしラインプレディクタ１２によって提供され
た命令情報が無効であれば命令をデコードするよう構成される。一実施例におい
ては、プロセッサ１０は、ラインプレディクタ１２における情報を、Ｉキャッシ
ュ１４内の情報と整合させて保つことを試みない（たとえば、命令がＩキャッシ
ュ１４内で置き換えまたは無効化されている場合、対応の命令情報は無効化され
ていない可能性がある）。デコードユニット２４Ａ−２４Ｄは、与えられた命令
情報を確認し、かつ無効命令情報が検出された場合にプレディクタミスデコード
ユニット２６に信号を送る。特定の実施例に従うと、以下の命令動作がプロセッ
サ１０によってサポートされる：整数（算術、論理、シフト／回転、および分岐
動作を含む）、浮動小数点（マルチメディア動作を含む）、およびロード／スト
アである。

【００２４】デコードされた命令、ソースおよびデスティネーションレジスタ番号が、マッ
プユニット３０に与えられる。マップユニット３０は、物理レジスタ番号（ＰＲ
♯）を、各命令動作の各デスティネーションレジスタオペランドおよびソースレ
ジスタオペランドに割当てるよう構成される。物理レジスタ番号は、レジスタフ
ァイル３８Ａ−３８Ｂ内のレジスタを識別する。マップユニット３０はさらに、
命令動作のソースオペランドに割当てられる物理レジスタ番号の各々を更新する
命令動作のＲ♯を与えることにより、各命令動作の依存性の表示を提供する。マ
ップユニット３０は、対応の論理レジスタ番号に基づいて各デスティネーション
レジスタに割当てられた物理レジスタ番号（および対応の命令動作のＲ♯）でフ
ューチャファイル２０を更新する。さらに、マップユニット３０は、デスティネ
ーションレジスタの論理レジスタ番号、割当てられた物理レジスタ番号、および
リタイアキュー３２における先行して割当てられた物理レジスタ番号を記憶する
。命令がリタイアされると（スケジューラ３６によってマップユニット３０に示
される）、リタイアキュー３２は、アーキテクチャ再命名ファイル３４を更新し
、かつ使われていないレジスタを空にする。したがって、アーキテクチャレジス
タファイル３４における物理レジスタ番号は、プロセッサ１０のコミットされた
アーキテクチャ状態をストアする物理レジスタを識別するのに対し、フューチャ
ファイル２０は、プロセッサ１０の投機的状態を表わす。言い換えると、アーキ
テクチャ再命名ファイル３４は、各論理レジスタに対してコミットされるレジス
タ状態を表わす各論理レジスタに対応する物理レジスタ番号をストアする。フュ
ーチャファイル２０は、各論理レジスタに対する投機的レジスタ状態を表わす各
論理レジスタに対応する物理レジスタ番号をストアする。

【００２５】命令動作のライン、ソース物理レジスタ番号、およびデスティネーション物理
レジスタ番号は、マップユニット３０によって割当てられたＲ♯に従ってスケジ
ューラ３６にストアされる。さらに、特定の命令動作に対する依存性は、スケジ
ューラにストアされた他の命令動作に対する依存性として記録される。一実施例
においては、命令動作はリタイアされるまでスケジューラ３６内に留まる。

【００２６】スケジューラ３６は、その命令動作に対して記録された依存性が満たされるま
で、各命令動作をストアする。実行のための特定の命令動作のスケジューリング
に応答して、スケジューラ３６は、その特定の命令動作がどのクロックサイクル
でレジスタファイル３８Ａ−３８Ｂを更新するかを判断する。異なった実行コア
４０Ａ−４０Ｂ内の実行ユニットは、異なった数のパイプラインステージを（よ
って異なったレイテンシを）採用し得る。さらに、ある特定の命令は、他のもの
よりもパイプライン内でより多くのレイテンシを経験し得る。したがって、特定
の命令動作に対するレイテンシを測定するカウントダウンが（クロックサイクル
の数で）生成される。スケジューラ３６は、（レジスタファイルを読出す依存性
命令動作の前または同時に更新が発生するまで）指定された数のクロックサイク
ルの分だけ待機する。次いで、スケジューラ３６は、その特定の命令動作に依存
する命令動作がスケジュールされるべきことを示す。スケジューラ３６は、その
依存性が満たされるとすぐその命令をスケジュールし得ることに留意されたい（
すなわち、スケジューラキューにおけるその順序に対して、アウトオブオーダー
である）。

【００２７】整数およびロード／ストア命令動作は、レジスタファイル３８Ａからのソース
物理レジスタ番号に従ってソースオペランドを読出し、かつ、実行のために実行
コア４０Ａに送られる。実行コア４０Ａは、命令動作を実行し、レジスタファイ
ル３８Ａ内のデスティネーションに割当てられた物理レジスタを更新する。さら
に、実行コア４０Ａは、命令動作についてのＲ♯と、（もしあれば）命令動作の
例外情報とを、スケジューラ３６に報告する。レジスタファイル３８Ｂおよび実
行コア４０Ｂは、同様の態様で浮動小数点命令動作について動作する（かつ浮動
小数点ストアのためのストアデータをロード／ストアユニット４２に提供し得る
）。依存性動作のためのオペランドは、それらが依存する動作が並行に完了する
のであれば、直接依存性動作にバイパスしてもよいことに留意されたい。

【００２８】一実施例においては、実行コア４０Ａは、たとえば、２つの整数ユニット、分
岐ユニットおよび２つのアドレス生成ユニットを含み得る（対応の変換索引バッ
ファ、またはＴＬＢを備える）。実行コア４０Ｂは、浮動小数点／マルチメディ
ア乗算器、浮動小数点マルチメディア加算器、およびストアデータをロード／ス
トアユニット４２に配信するためのストアデータユニットを含み得る。実行ユニ
ットの他の構成も可能であり、組合せ浮動小数点／整数実行コアが含まれる。

【００２９】ロード／ストアユニット４２は、Ｄキャッシュ４４へインターフェイスを提供
し、これはメモリ動作および、Ｄキャッシュ４４をミスするメモリ動作に対する
フィル動作をスケジューリングする。ロードメモリ動作は、アドレス生成を実行
し、かつデータを（Ｄキャッシュ４４またはロード／ストアユニット４２内のス
トアキューから）レジスタファイル３８Ａ−３８Ｂに転送する実行コア４０Ａに
よって完了し得る。ストアアドレスは、その生成時に実行コア４０ＡによってＤ
キャッシュ４４に（実行コア４０ＡとＤキャッシュ４４との間の接続を介して直
接）提示される。ストアアドレスは、ストアキューエントリに割当てられる。ス
トアデータは、設計選択に従って、並行して提供されるかまたは後に提供され得
る。ストア情報のリタイアの際に、データはＤキャッシュ４４にストアされる（
しかしながら、Ｄキャッシュ４４のリタイアと更新との間にいくらかの遅延が生
じ得る）。さらに、ロード／ストアユニット４２は、（外部インターフェイスユ
ニット４６を介して）後にキャッシュフィルするためにＤキャッシュ４４をミス
するロード／ストアアドレスをストアし、かつミスされたロッド／ストア動作を
再試行するための、ロード／ストアバッファを含み得る。ロード／ストアユニッ
ト４２はさらに、ロード／ストアメモリ依存性を扱うよう構成される。

【００３０】Ｄキャッシュ４４は、プロセッサ１０によってアクセスされるデータをストア
するための高速キャッシュメモリである。Ｄキャッシュ４４は（直接マッピング
およびセットアソシアティブ構造を含む）いかなる好適な構造をも有し得るが、
Ｄキャッシュ４４の一実施例は、１２８キロバイトの６４バイトラインを有する
２方向セットアソシアティブキャッシュである。

【００３１】外部インターフェイスユニット４６は、外部インターフェイス５２を介して他
の装置と通信するよう構成される。Ｌ２キャッシュへのインターフェイスまたは
プロセッサ１０を他の装置に接続するための外部バスを含む、どのような好適な
外部インターフェイス５２をも用い得る。外部インターフェイスユニット４６は
、Ｉキャッシュ１６およびＤキャッシュ４４のためのフィルをフェッチし、かつ
外部インターフェイスにＤキャッシュ４４からの捨てられた更新キャッシュライ
ンを書込む。さらに、外部インターフェイスユニット４６は、プロセッサ１０に
よって生成されたキャッシュ不可能読出および書込をも行なう。

【００３２】図２を参照すると、プロセッサ１０の一実施例によって採用し得るパイプライ
ンステージの例示的な組を示す例示的なパイプライン図が示される。他の実施例
は異なったパイプライン、または図２に示されるものよりもより多くのまたはよ
り少ないパイプラインステージを含むパイプラインを採用し得る。図２に示され
るステージは、垂直線によって区切られる。各ステージは、プロセッサ１０内で
記憶要素（たとえばレジスタ、ラッチ、フロップなど）にクロックを与えるため
に用いられるクロック信号の１サイクルである。

【００３３】図２に示されるように、明示的パイプラインは、ＣＡＭ０ステージ、ＣＡＭ１
ステージ、ラインプレディクタ（ＬＰ）ステージ、命令キャッシュ（ＩＣ）ステ
ージ、整列（ＡＬ）ステージ、デコード（ＤＥＣ）ステージ、マップ１（Ｍ１）
ステージ、マップ２（Ｍ２）ステージ、書込スケジューラ（ＷＲＳＣ）ステージ
、読出スケジューラ（ＲＤＳＣ）ステージ、レジスタファイル読出（ＲＦＲＤ）
ステージ、実行（ＥＸ）ステージ、レジスタファイル書込（ＲＦＷＲ）ステージ
、およびリタイア（ＲＥＴ）ステージを含む。いくつかの命令は、実行状態にお
いて多数のクロックサイクルを用いる。たとえば、メモリ動作、小数浮動点動作
、および整数乗算動作は、図２に拡大形式で示される。メモリ動作は、アドレス
生成（ＡＧＵ）ステージ、変換（ＴＬＢ）ステージ、データキャッシュ１（ＤＣ
１）ステージ、およびデータキャッシュ２（ＤＣ２）ステージを含む。同様に、
浮動小数点動作は、最大４つの浮動小数点実行（ＦＥＸ１−ＦＥＸ４）ステージ
を含み、整数乗算は最大４（ＩＭ１−ＩＭ４）ステージを含む。

【００３４】ＣＡＭ０およびＣＡＭ１ステージの間に、ラインプレディクタ１２は、分岐予
測／フェッチＰＣ生成ユニット１８によって提供されたフェッチアドレスを、そ
の中にストアされているラインのアドレスと比較する。さらに、フェッチアドレ
スは、仮想アドレス（たとえば、ｘ８６アーキテクチャにおける線形アドレス）
から、ＣＡＭ０およびＣＡＭ１ステージの間に物理アドレスに変換される。ＣＡ
Ｍ０およびＣＡＭ１ステージの間のヒット検出に応答して、対応するヒット情報
がラインプレディクタステージの間にラインプレディクタから読出される。また
、Ｉキャッシュ１４は、ラインプレディクタステージの間に（物理アドレスを用
いて）読出を開始する。読出は、命令キャッシュステージの間に完了する。

【００３５】図２に示されるパイプラインは２クロックサイクルを用いてフェッチアドレス
に対するラインプレディクタ１２におけるヒットを検出する一方、他の実施例は
単一のクロックサイクル（およびステージ）を用いてこの動作を行なってもよい
ことに留意されたい。さらに、一実施例においては、ラインプレディクタ１２は
、ヒットに対してＩキャッシュ１４に対する次のフェッチアドレスおよびライン
プレディクタ１２における次のエントリを提供するので、ラインプレディクタ１
２内の先行のヒットから生じたフェッチに対してＣＡＭ０およびＣＡＭ１ステー
ジをスキップすることができる。

【００３６】Ｉキャッシュ１４から提供された命令バイトは、ラインプレディクタ１２から
の対応のライン情報に応答して、整列ステージの間に整列ユニット１６によって
デコードユニット２４Ａ−２４Ｄに整列される。いくつかの命令は、１つ以上の
デコードユニット２４Ａ−２４Ｄに整列され得ることに留意されたい。デコード
ユニット２４Ａ−２４Ｄは、与えられた命令をデコードして、デコードステージ
の間に命令に対応するＲＯＰおよびオペランド情報を識別する。マップユニット
３０は、マップ１ステージの間に与えられた情報からＲＯＰを生成し、かつレジ
スタ再命名（フューチャファイル２０の更新）を行なう。マップ２ステージの間
に、ＲＯＰおよび割当てられた再命名は、リタイアキュー３２の中に記録される
。さらに、各ＲＯＰが依存するＲＯＰが決定される。各ＲＯＰは、フューチャフ
ァイルに記録される先行のＲＯＰに依存するレジスタ依存性であり得、かつ他の
種類の依存性をも示し得る（たとえば、先行の直列化命令などへの依存性）。

【００３７】生成されたＲＯＰは、書込スケジューラステージの間にスケジューラ３６に書
込まれる。このステージまでに、特定の情報ラインによって突きとめられたＲＯ
Ｐはユニットとしてパイプラインを通って流れる。マイクロコードルーチンを含
んだＲＯＰは、上述のステートメントに対しては例外的なものであることを留意
されたいが、これはこれらが多数のクロックサイクルをわたってマイクロコード
ＲＯＭから読出され得るためである。しかしながら、スケジューラ３６への書込
の後に、ＲＯＰは異なった時間において残りのステージを独立して流れ得る。一
般的に、特定のＲＯＰはスケジューラ３６によって実行のために選択されるまで
このステージにとどまる（たとえば、上述のように、特定のＲＯＰが依存するＲ
ＯＰが実行のために選択された後）。したがって、特定のＲＯＰは、書込ステー
ジおよび読出スケジューラステージの間の１つ以上のクロックサイクルの遅延を
経験し得る。読出スケジューラステージの間に、特定のＲＯＰは、スケジューラ
３６内の選択論理に関与し、実行のために選択され、かつスケジューラ３６から
読出される。特定のＲＯＰは次いで、レジスタファイル読出ステージにおけるレ
ジスタファイル３８Ａ−３８Ｂの一方（ＲＯＰのタイプに依存する）からの読出
レジスタファイル動作に進む。

【００３８】特定のＲＯＰおよびオペランドは、対応の実行コア４０Ａまたは４０Ｂに与え
られ、命令動作は実行ステージの間にオペランドに対して行なわれる。上述のよ
うに、いくつかのＲＯＰは、実行のいくつかのパイプラインステージを有する。
たとえば、メモリ実行動作（たとえばロードおよびストア）は、アドレス生成ス
テージ（ここでメモリ命令動作によってアクセスされる記憶場所のデータアドレ
スが生成される）、変換ステージ（ここでアドレス生成ステージから提供された
仮想データアドレスが変換される）およびＤキャッシュ４４がアクセスされるデ
ータキャッシュステージの対を通して実行される。浮動小数点動作は、最大４ク
ロックサイクルの実行を用い得、整数乗算は、同様に最大４クロックサイクルの
実行を採用し得る。

【００３９】実行ステージを完了するにおいて、特定のＲＯＰは、レジスタファイル書込ス
テージの間に割当てられた物理レジスタを更新する。最終的に、特定のＲＯＰは
、各先行のＲＯＰが（リタイアステージにおいて）リタイアされた後に、リタイ
アされる。再び、特定のＲＯＰに対して１つ以上のクロックサイクルが、レジス
タファイル書込ステージおよびリタイアステージの間に経過し得る。さらに、特
定のＲＯＰは、先行技術において公知であるように、パイプラインストール条件
によって、どのステージにおいてもストールするおそれがある。

【００４０】スケジューラ図３を参照すると、マップユニット３０、フューチャファイル２０、スケジュ
ーラ３６、整数実行コア４０Ａ、およびロード／ストアユニット４２の一実施例
を示すブロック図が示される。図３にある例示的な相互接続が、スケジューラ３
６以外のユニットの一実施例の内部の詳細と併せて示される。他の実施例も可能
であり企図される。図３の実施例においては、マップユニット３０はデコードユ
ニット２４Ａ−２４Ｄ、フューチャファイル２０、およびスケジューラ３６に結
合される。スケジューラ３６は、外部インターフェイスユニット４６、整数実行
コア４０Ａ、およびロード／ストアユニット４２にさらに結合される。図３の実
施例においては、マップユニット３０は、デスティネーション再命名回路６０、
ライン間依存性チェック回路６２、順序依存性回路６４、１組の順序依存性レジ
スタ６６Ａ−６６Ｎおよびマルチプレクサ６８を含む。デスティネーション再命
名回路６０、ライン間依存性チェック回路６２、および順序依存性回路６４は、
デコードユニット２４Ａ−２４Ｎから命令動作を受けるよう結合される。デステ
ィネーション再命名回路６０は、マルチプレクサ６８およびスケジューラ３６に
結合される。ライン間依存性チェック回路６２は、マルチプレクサ６８に結合さ
れ、これはさらにフューチャファイル２０に結合される。フューチャファイル２
０は、マップユニット３０によって受けられる命令動作に対応するソースオペラ
ンド識別子を受けるよう結合される。順序依存性回路６４は、順序依存性レジス
タ６６Ａ−６６Ｎおよびスケジューラ３６に結合される。ロード／ストアユニッ
ト４２は、ストアキュー７０を含み、これは整数実行コア４０Ａから物理アドレ
スを受けるよう結合される。整数実行コア４０Ａは、アドレス生成ユニット４０
ＡＡを含み、変換索引バッファ（ＴＬＢ）４０ＡＢに結合される。

【００４１】一般的に、マップユニット３０は、デコードユニット２４Ａ−２４Ｄから命令
動作を受ける。マップユニット３０は、各命令動作に対してレジスタ再命名を行
ない、かつスケジューラ３６内で進行中である（in flight）（または並行して
スケジューラ３６にディスパッチされる）最も古い命令動作に依存する各命令動
作を判断する。マップユニット３０は、ストアのために（および後の実行の発行
のために）スケジューラ３６に命令動作とレジスタ再命名を提供する。さらに、
マップユニット３０は、各命令動作に対して依存性の表示を提供する（図３にソ
ースオペランド依存性および順序依存性として示す）。より特定的には、マップ
ユニット３０はＲ♯（スケジューラ３６内の命令動作を識別する番号）によって
より古い命令動作を識別する。オペランドに割当てられる物理レジスタのＰＲ♯
は、スケジューラ３６に与えられて命令動作のための発行に用いられるが、依存
性の判断のためには用いられない。スケジューラ３６は、命令動作および関連の
依存性をストアし、かつ満たされた対応の依存性に応答して命令動作をスケジュ
ールする。スケジュールされた命令動作は、その命令動作を実行するよう構成さ
れる実行リソースを有する実行コア４０Ａ−４０Ｂに発行される。

【００４２】特定の命令動作は、発行されたときに実行を完了しないかもしれない。たとえ
ば、示される実施例においては、メモリ動作は実行を完了させないかもしれない
。もし命令動作が実行を完了しなければ、これは命令動作の実行に関与するユニ
ットによって「再試行」される。命令動作の再試行は、命令動作が再試行されて
いるとスケジューラ３６に信号を送ることを含む。スケジューラ３６は、発行さ
れた命令動作を保留し、もし発行された命令動作が再試行されれば、スケジュー
ラ３６は命令動作を再発行する。一実施例においてより特定的には、スケジュー
ラ３６は命令動作ごとに実行状態を維持する。先行して発行された命令動作の再
試行に応答して、スケジューラ３６は命令動作の実行状態を「非実行」状態にリ
セットする。次いで、実行動作が再発行される。さらに、スケジューラ３６は、
発行された各命令動作の依存性を保留する。再試行された命令動作に直接または
間接的に依存するどのような命令動作も、非実行状態に戻される。命令動作のグ
ループであって、第１のグループの命令動作が特定の命令動作に依存し、グルー
プ内の他の１つの命令動作が、各他の命令動作に依存し、かつその他の命令動作
を通して特定の命令動作に間接的に依存する命令動作のグループは、ここで「依
存性連鎖」と称する。命令動作の再試行、または命令動作が直接または間接的に
依存する別の命令動作の再試行に応答する、実行状態から非実行状態へのリセッ
トは、ここでその命令動作を「アンドゥ（undo）」と称する。

【００４３】命令動作の再試行（および再試行に応答する再発行）を可能にすることにより
、スケジューラ３６は、実行のためにアグレッシブに命令動作をスケジュールし
、かつ不正にスケジュールされた命令動作を後で再発行することにより、不正ス
ケジューリングから回復する。不正スケジューリングに対するペナルティは、不
正にスケジュールされた命令動作およびすべてのより若い命令動作をパージして
不正にスケジュールされた命令動作で開始する再フェッチすることよりも、実質
的に小さい。

【００４４】マップユニット３０は、デスティネーション再命名回路６０、ライン間依存性
チェック回路６２、フューチャファイル２０、および順序依存性回路６４を用い
て、各命令動作に対する依存性を判断する。デスティネーション再命名回路６０
は、命令動作ごとに、命令動作がレジスタデスティネーションオペランドを有し
ているか、またはもし命令動作がレジスタデスティネーションオペランドを有し
ていればデスティネーションレジスタ番号を有しているかどうかに対する表示を
受ける。もし命令動作がレジスタデスティネーションオペランドを有していれば
、デスティネーション再命名回路６０は、空き物理レジスタ番号を実行動作に割
当てる。割当てられたＰＲ♯は命令動作とともにスケジューラ３６に与えられる
。さらに、デスティネーション再命名回路６０は、各命令オペランドのＰ♯およ
びＰＲ♯をマルチプレクサ６８に与える。

【００４５】フューチャファイル２０は、ソースオペランドレジスタ番号ごとに、デスティ
ネーションオペランドとして最も直近に対応して構築されたレジスタを有する命
令動作のＰＲ♯およびＲ♯を与える。より特定的には、フューチャファイル２０
は、アーキテクチャ化レジスタごとのエントリを有する（およびマイクロコード
を用いる実施例においては、各マイクロコード一時レジスタを有する）テーブル
を含む。ソースオペランドレジスタ番号は、命令動作のソースオペランドに指定
されるレジスタのエントリを選択するために用いられる。各エントリは、最も古
い命令動作のＲ♯を（現在の命令動作ラインの前に）ストアし、そのレジスタと
、その最も古い命令動作のデスティネーションに割当てられた物理レジスタのＰ
Ｒ♯とを更新する。さらに、フューチャファイル２０は、各エントリに有効ビッ
ト（Ｖ）を含む。有効ビットは、そのレジスタに対して記録されたＲ♯が有効で
あるかどうかを示す（すなわち、対応の命令オペレーションがスケジューラ３６
において未だに有効であるかどうかを示す）。有効ビットは、Ｒ♯に対応する命
令動作のスケジューラ３６へのディスパッチの際にセットされ、命令動作がリタ
イアされた場合にリセットされる。有効ビットは、エントリがソースオペランド
依存性として選択された場合にスケジューラ３６に与えられる。スケジューラ３
６は、もし有効ビットがクリアであればそのソースオペランドに対して依存性を
記録せず、もし有効ビットがセットされていれば依存性を記録する。

【００４６】ライン間依存性チェック回路６２は、各命令動作のソースおよびデスティネー
ションレジスタ番号を受け、かつマップユニット３０によって受けられた命令動
作のライン内の依存性チェックを行なう。ライン間依存性チェック回路６２は、
ライン内より古い命令動作の各々のデスティネーションレジスタ番号と、ライン
内の特定の命令動作のソースレジスタ番号とを比較する。もし整合が１つのソー
スオペランドに対して見出されれば、ライン間依存性チェック回路６２は、その
ソースオペランドに対応するフューチャファイル２０からのＲ♯およびＰＲ♯を
、デスティネーション再命名回路６０によって提供される対応のＲ♯およびＰＲ
♯でオーバーライドする。もし整合が見出されなければ、フューチャファイル２
０からのＲ♯およびＰＲ♯は、そのソースオペランドに対して正確なレジスタ再
命名および依存性を提供する。ライン間依存性チェック回路６２は、マルチプレ
クサ６８に対して、各命令動作の各ソースオペランドに対する適切なＲ♯および
ＰＲ♯を選択するためのマルチプレクサ選択ラインを生成する。マルチプレクサ
６８は、ソースオペランド依存性を選択するためにいかなる適切な選択回路をも
表わし得ることに留意されたい。たとえば、マルチプレクサ６８は、ライン内の
可能な命令動作の各々の可能なソースオペランドの各々に対する別々のマルチプ
レクサを表わし得る。

【００４７】ライン間依存性チェック回路は、さらにライン内の命令動作ごとのデスティネ
ーションレジスタ番号を比較して、ライン内の最も古い命令動作を判断し、ライ
ン内の１つ以上の命令動作のデスティネーションオペランドである各アーキテク
チャ化レジスタを更新する。フューチャファイル２０は、次いでラインのデステ
ィネーションオペランドに対応するエントリにおいて、デスティネーション再命
名回路６０によってＲ♯およびＰＲ♯が割当てられて更新される。更新された経
路は、図面の簡略化のために図３には示さない。

【００４８】順序依存性回路６４は、特定の命令動作に対して記録され得る順序依存性を追
跡する。たとえば、ｘ８６命令セットアーキテクチャを用いる一実施例において
は、順序依存性は以下のように定義される。（ｉ）後のメモリ動作ごとの順序依
存性を発生させる、セグメントロード。（ii）後の浮動小数点命令動作ごとの順
序依存性を発生させる、浮動小数点制御ワード更新。一般的に、後の命令動作に
対する直線化バリアを生成させるどのような命令動作も、直線化命令動作から後
に影響された命令動作への順序依存性を生じさせる。「直列化バリア」とは、そ
のまわりではアウトオブオーダーまたは投機的実行が禁止されるプログラムシー
ケンスにおけるバリアのことである。いくつかの命令セットアーキテクチャは、
唯一の機能が直線バリアを提供することである命令を有する。

【００４９】上述の順序依存性は、順序依存性レジスタ６６Ａ−６６Ｎを用いることにより
追跡することができる。順序依存性回路６４は、順序依存性を生成する命令動作
に応答して、命令動作のＲ♯を順序依存性レジスタ６６Ａ−６６Ｎの１つにスト
アする。１つの順序依存性レジスタ６６Ａ−６６Ｎは、プロセッサ１０によって
検出される各順序依存性に対して与えられる。さらに、有効ビットが含まれ、（
フューチャファイル２０における有効ビットと同様に）Ｒ♯の記録に応答してセ
ットされ、対応の命令動作のリタイアの際にリセットされる。特定の順序依存性
によって順序依存性があると定義される命令動作に応答して、順序依存性回路６
４は、関連のＲ♯を、その命令動作に対する順序依存性の１つとして提供する。

【００５０】上述の状態に加えて、順序依存性回路６４は、より古いストアメモリ動作の前
にスケジュールされ、その後（ローディングによってアクセスされるメモリオペ
ランドに対して）より古いストアメモリ動作に依存することが見出される、ロー
ドメモリ動作の先行の発生を追跡するテーブルを採用する。テーブルは、ロード
メモリ動作のフェッチアドレスによって索引付けされ、かつ実行の間に依存性が
検出された場合、より古いストアメモリ動作のフェッチアドレスにより学習され
た第１のテーブルを含む。第２のテーブルは、ストアメモリ動作のフェッチアド
レスによって索引付けされ、ストアメモリ動作のディスパッチの際にストアメモ
リ動作のＲ♯で更新される。もしロードメモリ動作がテーブル内のヒットである
と、対応のＲ♯がロードメモリ動作に対する順序依存性として提供される。

【００５１】上述のように、スケジューラ３６は、その命令動作が満たされる各依存性の検
出に応答して適切な実行コアに対する命令動作をスケジューリングし発行する。
特定的には、メモリ動作は実行コア４０Ａ内のアドレス生成ユニット４０ＡＡに
対して発行される。アドレス生成ユニット４０ＡＡは、整数レジスタファイル３
８Ａから読出されたレジスタオペランドを受け、メモリ動作に対応するメモリオ
ペランドのアドレスを生成する。アドレスは仮想アドレスであり、これはプロセ
ッサ１０によって採用される命令セットアーキテクチャによって指定されるアド
レス変換方式によって、メモリ（およびＤキャッシュ４４）にアクセスするため
の物理アドレスに変換される。ＴＬＢ４０ＡＢは、先行の変換の結果のためのキ
ャッシュであり、その中で対応の物理アドレスへヒットする仮想アドレスの急速
な変換、および変換機構を介した対応の記憶場所に割当てられるさまざまな属性
の急速な判定を可能にする。ＡＧＵ４０ＡＡおよびＴＬＢ４０ＡＢの組合せは、
物理アドレスをロード／ストアユニット４２に（およびＤキャッシュ４４および
スケジューラ３６に並行に）与える。

【００５２】ロード／ストアユニット４２は、メモリ動作が成功して実行を完了したか、ま
たは再試行されるべきであるかどうかを判断する。もし再試行状態が検出される
と、ロード／ストアユニット４２は、スケジューラ３６に対して再試行信号をア
サートし、再試行タイプ信号を介して再試行に対する理由を提供する。一実施例
においては、メモリ動作は以下の理由により再試行される：（ｉ）メモリ動作はＤキャッシュ４４をミスするロードメモリ動作である；（ii）メモリ動作はフルであるロード／ストアユニット４２内のバッファを
必要とする（たとえば、外部インターフェイスユニット４６によってメインメモ
リからフェッチされるべきミスアドレスをストアするためのミスバッファ）；（iii）メモリ動作は、並行してＤキャッシュ４４にアクセスする別のメモ
リ動作に対して、Ｄキャッシュ４４内でバンクコンフリクトに遭遇する；（iv）メモリ動作は、ストアメモリ動作であり、自己修飾コード（ＳＭＣ）
チェックを必要とする；（ｖ）メモリ動作は、ストアキュー７０内で１つ以上のストアメモリにヒッ
トするロードメモリ動作であり（すなわち、１つ以上のメモリ動作が、ロードメ
モリ動作によってアクセスされる少なくとも１バイトのメモリオペランドを供給
する）、ストアキュー７０は対応のデータを転送することができない；（vi）メモリ動作は、非投機的に実行されるべきである。

【００５３】理由（ｉ）は、スケジューラ３６が、ロードメモリ動作をスケジューリングし
再発行する前に、外部インターフェイスユニット４６によって与えられる整合フ
ィルアドレスを待機する、別の再試行タイプとして符号化される。外部インター
フェイスユニット４６は、データがフィルアドレスからＤキャッシュ４４に対し
て記憶のために提供されたことを示すフィルアドレスを提供する（よって対応の
ロードメモリ動作はＤキャッシュ４４においてヒットであり得る）。スケジュー
ラ３６は、（実行コア４０Ａによって提供される）ロードメモリ動作の物理アド
レスを記録し、フィルアドレスと比較する。理由（ii）、（iii）および（ｖ）
は、単一の再試行タイプとして符号化され、ここでスケジューラ３６は、特定の
待機要件なしで対応のメモリ動作を再スケジューリングすることにより応答する
。理由（iv）は、再試行タイプとして符号化され、スケジューラ３６は、ＳＭＣ
チェックが完了した後で対応のストアメモリ動作を再発行のためにスケジューリ
ングする。理由（vi）は、再試行タイプとして符号化され、スケジューラ３６は
、対応のメモリ動作が非投機的になった後で、メモリ動作を再発行のためにスケ
ジューリングする。１つの特定的な実施例によれば、メモリ動作はもしメモリ動
作がページ境界を横断するメモリオペランドにアクセスすれば非投機的に行なわ
れるべきであり（すなわち、少なくとも１バイトのメモリオペランドが第１のア
ドレス変換によって第１のページに変換され、メモリ動作の少なくとも他の１バ
イトが、第１のアドレス変換とは異なった第２のアドレス変換によって第２のペ
ージに変換されてストアされる）、変換は、メモリオペランドのメモリタイプが
非投機的であること、またはメモリオペランドがＴＬＢにおいてミスすることを
示す。非投機的に実行することに対する第１および最後の理由は、ハードウェア
を簡略化するための設計選択であり、中間の理由は、プロセッサ１０によって用
いられる命令セットアーキテクチャによって義務づけられている。

【００５４】上述の説明はあるメモリ動作を非投機的に再発行することに関するが、他の命
令動作も非投機的に再発行されることに留意されたい。たとえば、例外に遭遇す
るどのような命令動作（たとえばアーキテクチャによって指定されるトラップま
たはフォールト、またはプロセッサ１０によって実現される特定のマイクロアー
キテクチャに対して規定されるマイクロアーキテクチャの例外）も、非投機的に
再発行され得る。この態様で、例外に関する情報は非投機的実行の間に獲得され
る。こうして、例外情報をストアしトラッキングするために用いられるハードウ
ェアの量を減じることができる。

【００５５】ストアキュー７０は、ヒットおよびストアＲ♯信号を介してストアキュー内の
ストアメモリ動作をヒットするロードメモリ動作に関する付加的な情報を提供す
る。ヒットおよびストアＲ♯は、ロードメモリ動作の再試行が起こったかどうか
にかかわらず提供される。ヒット信号は、ストアキューの中でヒットが検出され
たことを示し、ストアＲ♯は、ロードによってヒットされたストアのＲ♯を示す
。この情報は、ロードによってヒットされたストアが再実行され（かつ異なった
アドレスを受け）れば、ロードメモリ動作を再試行させるために用いられる。ス
トアＲ♯の使用は、以下により詳細に説明される。ストアＲ♯がこの例で用いら
れるが、ストアを識別するどのような識別子をも用い得ることに留意されたい。
たとえば、ロードによってヒットされるストアキュー７０内のストアキューエン
トリを識別するストアキュー番号が提供され得る。そのような実施例が企図され
る。

【００５６】上述のように、ストアキュー７０は、ストアキュー７０におけるストアメモリ
動作をヒットするロードメモリ動作のすべての場合においてデータの転送が可能
なわけではない。たとえば、ストアキュー７０における異なったストアによって
、さまざまなバイトのロードメモリオペランドが提供され得る。しかしながら、
ストアキュー７０は、特定のロードメモリオペランドを転送し得る別々のストア
の数を限定し得る。たとえば、もしストアキュー７０が、最大２つのストアメモ
リからのデータの転送が可能であると、特定のロードメモリオペランドの異なっ
たバイトに対する３つ以上のストアメモリ動作に対するヒットは、特定のロード
メモリオペランドのすべてのバイトの転送を妨害する。さらに、ストアキュー７
０のいくつかの実施例においては、ストアデータを受取る前にストアメモリオペ
ランドアドレスを受取る。もしストアデータが利用可能でなければ、ストアキュ
ーは、ヒットが検出されたとしてもストアデータを転送することができない。

【００５７】ここで命令動作は、他の命令動作よりも「古い」または「若い」と称すること
に留意されたい。第１の命令動作は、もし第１の命令動作がプログラム順序で第
２の命令動作の前に生じていれば、第２の命令動作よりも「古い」。これに対し
、もし第１の命令動作が、プログラム順序において第２の命令動作の後で起こる
ものであれば、第１の命令動作は第２の命令動作よりも「若い」。ここで用いら
れるように、「発行」という用語は、実行のために実行ユニットに命令動作を送
信することを指す。「再発行」という用語は、先行して発行された（かつ、命令
動作に対してスケジューラ３６によって記録された依存性を介して、直接または
間接的に、不正に実行されたと見出された）命令動作を発行することを指す。さ
らに、「メモリ動作」という用語はここで、メモリ動作を有する命令動作を指す
。ロードメモリ動作は、ソースオペランド（およびレジスタデスティネーション
オペランド）としてメモリソースオペランドを有し、かつソースオペランドから
レジスタデスティネーションオペランドへのデータの転送を指定する。ストアメ
モリ動作は、レジスタソースオペランドとメモリデスティネーションオペランド
とを有し、かつレジスタソースオペランドからメモリデスティネーションオペラ
ンドへのデータ転送を指定する。図３にはアドレス生成ユニット４０ＡＡおよび
対応のＴＬＢ４０ＡＢが示されているが、さまざまな実施例がどのような数のア
ドレス生成ユニットおよびＴＬＢをも含み得る。ロード／ストアユニット４２は
、各ＡＧＵに対応するメモリ動作のための別々の再試行信号、再試行タイプ信号
、ヒット信号およびストアＲ♯を提供し得る。

【００５８】図４を参照すると、スケジューラ３６の一実施例のブロック図が示される。他
の実施例も可能であり企図される。図４に示されるように、スケジューラ３６は
命令動作（ＲＯＰ）バッファ８０、発行ピック回路８２、リタイア制限ピック回
路８４、ＲＯＰ制御回路８６、依存性バッファ８８、物理アドレスバッファ９０
、ストアＲ♯バッファ９２、リタイア回路９４、および依存性デコーダ回路９６
を含む。ＲＯＰバッファ８０は、（即時および変位データなどの情報を含む）命
令動作を受けるよう結合され、マップユニット３０からＰＲ♯を割当てられ、か
つレジスタファイル３８Ａ−３８Ｂおよび実行コア４０Ａ−４０Ｂに結合されて
発行された命令動作およびＰＲ♯を提供する。ＲＯＰバッファ８０はさらに、発
行ピック回路８２に結合され、これはＲＯＰ制御回路８６に結合される。リタイ
ア制限ピック回路８４は、リタイア回路９４およびＲＯＰ制御回路８６に結合さ
れ、これはリタイア回路９４、依存性バッファ８８、物理アドレスバッファ９０
、およびストアＲ♯バッファ９２に結合される。ＲＯＰ制御回路８６はさらに、
ロード／ストアユニット４２から再試行および再試行タイプ信号を受取るよう結
合される。依存性デコーダ回路９６は、ソース依存性Ｒ♯および順序依存性Ｒ♯
をマップユニット３０から受取るよう結合され、依存性バッファ８８に結合され
る。物理アドレスバッファ９０は、外部インターフェイスユニット４６からフィ
ルアドレスを受取り、かつ１つ以上の物理アドレスを実行コア４０Ａから受取る
よう結合される。ストアＲ♯バッファ９２は、ロード／ストアユニット４２から
１つ以上のヒット信号および１つ以上のＲ♯を受けるよう結合される。

【００５９】依存性デコーダ回路９６は、スケジューラ３６に書込まれる各命令動作が依存
する命令動作を識別するＲ♯を受け、かつ対応の命令動作に対してＲ♯を依存性
表示にデコードする。上述のように、もし（たとえば、フューチャファイル２０
から）Ｒ♯が無効であると表示されると、そのＲ♯に基づく依存性は示されない
。依存性デコーダ回路９６に提供する代わりに、マップユニット３０は（たとえ
ば、各命令動作ごとに図５に示されるような依存性ベクトルを提供することによ
り）直接各命令動作に対して依存性表示を生成し得る。一般的に、依存性表示は
、第１の命令動作および第２の命令動作に対して割当てられ、第１の命令動作の
第２の命令動作に対する依存性（またはその欠如）を識別する。たとえば、各依
存性表示は、セットされている場合には第１の命令動作の第２の命令動作に対す
る依存性を表わすビットを含み、かつクリアされている場合には第１の命令動作
の第２の命令動作に対する依存性の欠如を示すビットを含み得る。ビットのセッ
トおよびクリアの意味は、他の実施例においては逆であり得、他の依存性表示の
符号化もまた可能である。

【００６０】依存性デコーダ回路９６は、記憶のために依存性表示を依存性バッファ８８に
与える。依存性バッファ８８は、多数の依存性エントリを含み、その各々がＲＯ
Ｐバッファ８０における２つのエントリに割当てられる。依存性エントリは、依
存性表示を記憶するが、これはＲＯＰバッファ８０内の２つのエントリのうちの
一方にストアされる第１の命令動作の、２つのエントリの他方にストアされる第
２の命令動作に対する依存性またはその欠如を識別する。もし依存性表示が依存
性を示せば、第１の命令動作は、第２の命令動作が依存性を満たすまで、スケジ
ューリングに対し適切ではない。

【００６１】ＲＯＰ制御回路８６は、依存性バッファ８８内の依存性表示およびこれらの依
存性を満足しているかをモニタし、スケジューリングに対して適切である命令動
作を識別する。ＲＯＰ制御回路８６は、発行ピック回路８２に適切な命令動作を
識別するが、これは適切な命令動作をスキャンして、実行コア４０Ａ−４０Ｂに
発行するための命令動作を選択する。選択された命令動作は、発行ピック回路８
２に応答してＲＯＰバッファ８０から読出され、かつ実行のためにレジスタファ
イル３８Ａ−３８Ｂおよび実行コア４０Ａ−４０Ｂに与えられる。一般的に、発
行ピック回路８２は、命令動作を（そのタイプの命令動作がスケジューリングに
対して適切である場合）各実行コア４０Ａ−４０Ｂ内の実行ユニットごとに選択
するよう構成される。選択された命令動作は、スケジューリングに対して適切で
あるそのタイプの命令動作の最も古いものである。一実施例においては、発行ピ
ック回路８２は、クロックサイクルごとに適切な命令動作を２回スキャンして、
所与のタイプの２つの命令動作の選択を可能にする。第２のスキャンは、所与の
タイプの第２の実行ユニットの発行のために第２の命令動作を選択する（たとえ
ば、実行コア４０Ａの一実施例においては２つのアドレス生成ユニットおよび２
つのＡＬＵが与えられる）。第２のスキャンにおいては、第１のスキャンにおい
て選択された命令動作はマスクされている（すなわち、不適切に見える）ので、
対応のタイプの２番目に古い命令動作が選択され得る。

【００６２】特定的な一実施例においては、発行ピック回路８２は、各命令タイプに対する
独立したピック回路を含み得る。各ピック回路は、他のピック回路の動作と並行
して、対応のタイプの命令動作に対してスキャンし得る。各命令タイプは、他の
命令タイプとは異なった実行リソース（たとえば実行ユニット）を用い得、それ
により、ピック回路の独立した動作が可能になる。

【００６３】発行ピック回路８２は、発行のためにどの命令動作が選択されたかを（ＲＯＰ
制御回路８６に）報告する。選択された命令動作はスケジューリングされたと称
され、命令動作は、それらがＲＯＰバッファ８０から読出されるとすぐに発行さ
れる（または再発行される）。ＲＯＰ制御回路８６は、命令動作ごとの実行状態
を維持する。実行状態は広く、「非実行（non executed）」状態、「実行中（ex
ecuting）」状態、および「終了（done）」状態を含むよう定義される。これら
の状態の各々は、設計選択に従って、図８に示されるように例示的なステートマ
シンに表わされるように多数の状態を含み得る。命令動作は、命令動作が発行さ
れるまで、スケジューラ３６へのストアの際に非実行であるとみなされる。命令
動作の実行状態は、発行に応答して実行中状態に変化し、その後実行の完了の際
に、終了状態に変化する。命令動作の実行状態は、もし実行状態が（たとえば、
ロード／ストアユニット４２からの再試行信号を介して）再試行されるか、また
はもしその命令動作が（直接的または非直接的に）依存する別の命令動作が未終
了である場合に、どの時点においても非実行状態（または「非終了（undone）」
）に変えられる。一般的に、ＲＯＰ制御回路８６は、もし特定の命令動作が実行
されていない実行状態を有し、かつもし特定の実行状態の各依存性が満たされて
いれば、特定の命令動作をスケジューリングに対して適切であると識別し得る。

【００６４】命令動作の実行状態は、その命令状態に対する再試行に応答して非実行状態に
変化するために、命令動作は再試行に応答して再スケジューリングおよび再発行
のために適切となる。しかしながら、ある種の再試行タイプは、後の事象（たと
えば、ミスの発生するロードメモリ動作の場合にフィルアドレスが与えられるこ
と、または命令動作が非投機的になること）が発生しない限り、命令動作は再ス
ケジューリングされないことを指定し得る。そのような場合においては、ＲＯＰ
制御回路８６は、再試行ＲＯＰの実行状態を非実行状態に変化させ得るが、後の
事象が発生するまで、その命令動作がスケジューリングに対して適切であるとい
う信号を発しない。

【００６５】依存性表示が、対応の命令動作の発行に応答して依存性バッファ８８から削除
されないので、依存性連鎖の中の命令動作は依存性が満たされると投機的に発行
され得る。特定の命令動作に対する他の命令動作の依存性は、もし特定の命令動
作が非終了状態であれば満たされていないとして再カテゴリ化され、よってこれ
らの他の命令動作もまた非終了状態となる。この態様で、投機的に発行された依
存性連鎖は非終了状態となり、連鎖の中の第１の命令動作の再試行に応答して再
発行される。

【００６６】ロードメモリ動作の実行の間に報告される再試行に加えて、ロードメモリ動作
はまた、ロードメモリ動作の後に発行されるより古いストアメモリ動作のために
も再試行され得る。物理アドレスバッファ９０は、これらの再試行シナリオを検
出するために提供される。一般的に、ロードメモリ動作は、より古いストアメモ
リ動作に依存するとは（依存性バッファ８８内の依存性表示を介して）示されな
い。その代わりに、ロードメモリ動作はより古いストアメモリ動作に関係なくス
ケジューリングされる（例外は、一実施例においては、上述の順序依存性機構で
ある）。しかしながら、ロードメモリ動作は、もしより古いストアメモリ動作が
ロードメモリ動作によってアクセスされるメモリオペランドの少なくとも１バイ
トを更新すれば、より古いメモリ動作に依存する可能性がある。このシナリオを
検出するために、物理アドレスバッファ９０は、（実行コア４０Ａから受取られ
る）ロードによってアクセスされる物理アドレスをストアする。物理アドレスバ
ッファ９０は、ＲＯＰバッファ８０と同じ数のエントリを含み、そのエントリの
各々はロードメモリ動作に対する物理アドレス情報をストアすることが可能であ
り、かつＲＯＰバッファ８０内の対応のエントリに割当てられる。実行ロードメ
モリ動作に対応するエントリは、ロードメモリ動作の物理アドレスで更新される
。

【００６７】ストアメモリ動作の実行の間に、ストアメモリ動作によって更新された物理ア
ドレスは実行コア４０Ａによって提供される。物理アドレスバッファ９０は、ス
トアアドレスと、より新しいロードメモリ動作に対応する物理アドレスバッファ
９０内の物理アドレスとを比較する。言い換えると、アドレス比較は、実行スト
アメモリ動作よりも若い命令動作に対応する物理アドレスバッファ９０内のこれ
らのエントリに対してマスクされている。もしロードアドレス上のストアアドレ
スの検出がヒットすると、対応のロードメモリ動作は非終了状態となる（物理ア
ドレスバッファ９０は、対応のロードメモリ動作がヒットしたことをＲＯＰ制御
回路８６に信号を送り、ＲＯＰ制御回路８６は、対応のロードメモリ動作の実行
状態を非実行状態に変える）。対応のロードメモリ動作は後で再発行される。再
発行の後の実行の間に、ロードメモリ動作は、ストアキュー７０内のより古いス
トアメモリ動作をヒットするか（ストアデータが転送されるか、ロードメモリ動
作が再試行される）または、より古いストアメモリ動作がキャッシュおよび／ま
たはメインメモリを更新される。いずれの場合においても、ロードメモリ動作は
、再発行しかつ成功して実行を完了させた後で、正しいメモリオペランドを受け
る。一実施例においては、もしロードメモリ動作が、より古いストアが物理アド
レスバッファ９０内の対応の物理アドレスをヒットしたことにより、非終了状態
であれば、ロードメモリ動作は、順序依存性回路６４内のテーブルに記録される
ことに留意されたい。

【００６８】物理アドレスバッファ９０が、ロードメモリ動作が依存するより古いストアメ
モリ動作の前に、ロードメモリ動作の不正スケジューリングから回復するための
機構を提供する一方、ロードメモリ動作を非終了にさせるおそれのある別の問題
が生じ得る。もしロードメモリ動作が、これが依存するストアメモリ動作の後に
スケジューリングされており、かつストアデータがロード／ストアユニット４２
内のストアキューから転送されていたとしても、ストアメモリ動作それ自体は非
終了状態になり得る。（メモリ動作のメモリオペランドのアドレスを生成するた
めに用いられる）ストアメモリ動作のアドレスオペランドは、再発行の間に異な
り得る（すなわち、不正なアドレスオペランドの受信が再発行の理由となり得る
）ので、ストアアドレスは再発行実行の間に物理アドレスバッファ９０をヒット
せず、ロードメモリ動作を非終了にするおそれがある。スケジューラ３６は、こ
の可能性に対処するためにストアＲ♯バッファ９２を装備する。

【００６９】ストアキュー７０へのストアの際のロードメモリ動作のヒット検出に応答して
、ロード／ストアユニット４２は、スケジューラ３６にヒット信号を与え、かつ
ロードメモリ動作によってヒットされたメモリ動作のストアＲ♯を提供する。物
理アドレスバッファ９０と同様に、ストアＲ♯バッファ９２は、ＲＯＰバッファ
８０と同じ数のエントリを含む。各エントリは、ＲＯＰバッファ８０における対
応のエントリに割当てられる。もしヒット信号がロードメモリ動作の実行のため
にアサートされると、ストアＲ♯バッファ９２は、ロード／ストアユニット４２
から提供されるストアＲ♯をストアする。

【００７０】ロード／ストアユニット４２は、ストアＲ♯バッファ９２にも、実行ストアの
Ｒ♯を与える。ストアＲ♯は、ストアＲ♯バッファ９２内にストアされるＲ♯と
比較される。もし整合が検出されると、ストアＲ♯バッファ９２は、ＲＯＰ制御
回路８６に、対応のロードメモリ動作が未終了であることという信号を発する。
ＲＯＰ制御回路８６は信号に応答して、対応のロードメモリ動作の実行状態を非
実行状態に変える。次いで、ロードメモリ動作は再スケジューリングされ再発行
される。ストアＲ♯は、所望であれば実行コア４０Ａからのストアメモリ動作の
実行の間に与えられてもよいことに留意されたい。

【００７１】上述のようにロード依存性に対するストアの検出に加えて、物理アドレスバッ
ファ９０は、他の目的に対しても用いられる。たとえば、物理アドレスバッファ
９０は、Ｄキャッシュ４４をミスしたロードメモリ動作がいつ再発行されるべき
かを判断するために用いられる。ロードメモリ動作は、外部インターフェイスユ
ニット４６によって与えられる対応のデータの後に再発行される。したがって、
外部インターフェイスユニット４６は、Ｄキャッシュ４４に与えられるフィルデ
ータを識別するフィルアドレスを与える。物理アドレスバッファ９０は、フィル
アドレスを、ストアされたアドレスと比較し、かつ整合があればＲＯＰ制御回路
８６に信号を送る。応答して、ＲＯＰ制御回路８６は、ロードメモリ動作に対す
るデータが与えられ、よって（ロードメモリ動作の他の依存性が満たされたと仮
定して）ロードメモリ動作が再スケジューリングされるべきことを記録する。

【００７２】外部インターフェイスユニット４６はさらに、外部インターフェイスで受けら
れたプローブに対応するプローブアドレスを提供し得る。一般的に、プローブは
、コンピュータシステムにおけるキャッシュコヒーレンシを維持し、かつ別の装
置によって獲得されたキャッシュブロックおよび、もしプロセッサ１０がキャッ
シュブロックのコピーを有していればそのキャッシュブロックに対する適切なキ
ャッシュ状態を特定するために用いられる。もしプローブアドレスが、物理アド
レスバッファ９０内のロード物理アドレスをヒットすれば、対応のロードは、コ
ヒーレンシを維持し、かつプロセッサ１０によって採用される命令セットアーキ
テクチャによって指定されるメモリ順序規則を維持するために再スケジューリン
グされる必要がある。たとえば、ｘ８６命令セットアーキテクチャは、強いメモ
リ順序付けを指定する。したがって、プローブによってヒットされた投機的ロー
ドは、もし先行のメモリ動作がスケジューラ３６において存在し、かつまだ実行
されていなければ、再スケジューリングされる必要がある。

【００７３】上述のように、ＲＯＰバッファ８０は、命令動作をストアし、かつ発行ピック
回路８２に応答してレジスタファイル３８Ａ−３８Ｂおよび実行コア４０Ａ−４
０Ｂに命令動作を発行する。ＲＯＰバッファ８０は、各々が命令動作のストアが
可能である複数のエントリを含む。特定の命令動作に割当てられたエントリは、
命令動作のＲ♯によって識別される。したがって、ＲＯＰバッファ８０内の各エ
ントリは、（ｉ）依存性バッファ８８内の依存性エントリの対応の第１の割当て
られた組であって、そのエントリ内の命令動作の、スケジューラ３６内の他の命
令動作への依存性表示をストアする組；（ii）依存性エントリの対応の第２の割
当てられた組であって、スケジューラ３６内の他の命令動作の、そのエントリ内
の命令動作への依存性表示をストアする組；（iii）対応の物理アドレスバッフ
ァエントリ；および（iv）対応のストアＲ♯バッファエントリ、を有する。集合
的に、所与のＲ♯に対応する、スケジューラ３６のさまざまなバッファ内のエン
トリは、ここで「スケジューラエントリ」と称する。

【００７４】リタイア制限ピック回路８４およびリタイア回路９４は、スケジューラ３６か
ら命令動作をリタイアするよう協働する。ＲＯＰ制御回路８６は、どの命令動作
が終了状態の実行状態を有するかをリタイア制限ピック回路に表示する。リタイ
ア制限ピック回路８４は、スケジューラ３６のヘッドから表示をスキャンし（す
なわち、スケジューラ３６内の最も古い命令動作）、終了されていない実行状態
を有する第１の命令動作、または予め定められた最大数の命令動作、のいずれか
をスキャンし、すべて終了状態にさせる。したがって、リタイア制限ピック回路
８４は、リタイアされるべき最も若い命令動作を決定する。リタイア制限ピック
回路８４は、リタイアされるべき最も若い命令動作と通信し、リタイア回路９４
は、いくつの命令動作が実際にリタイアされるべきかを判断する。リタイア回路
９４は、リタイアされる最後の命令動作のＲ♯をブロードキャストし、命令動作
がリタイアされるＲＯＰ制御回路８６と通信する。リタイアされる命令動作ごと
に、ＲＯＰ制御回路８６は、ＲＯＰバッファ８０、物理アドレスバッファ９０、
およびストアＲ♯バッファ９２内の対応のエントリを無効化する。さらに、リタ
イアされる命令動作ごとに、ＲＯＰ制御回路８６は、リタイアされる命令動作に
対する命令動作の依存性を表示する、依存性バッファ８８内の各依存性エントリ
をクリアする。

【００７５】ここで用いられる場合、「バッファ」という用語は、情報の項目をストアする
よう構成されるメモリを指す。バッファは、１つ以上のエントリを含み得、その
各々はバッファが対応して設計される情報の項目の１つをストアするために十分
な記憶領域を含むメモリ内の記憶位置である。

【００７６】物理アドレスバッファ９０およびストアＲ♯バッファ９２が、ＲＯＰバッファ
８０と同じ数のエントリを有すると説明されたが、他の実施例においてはより少
ないエントリを含むバッファを用い得ることに留意されたい。バッファ９０また
は９２内の各エントリは、たとえば、対応のロードメモリ動作をストアするＲＯ
Ｐバッファ８０におけるエントリを識別するタグを含む。さらに、上述のように
、ストアキュー番号は、ロードメモリ動作のヒットが検出されたストアメモリ動
作の再発行の検出に対するストアＲ♯の代わりに用いられてもよい。

【００７７】図５を参照すると、依存性ベクトル１００の一実施例のブロック図が示される
。依存性ベクトル１００は、複数の依存性表示１０２Ａ−１０２Ｎを含む。各依
存性表示１０２Ａ−１０２Ｎは、依存性ベクトル１００に対応する命令動作のス
ケジューラ３６内の１つの他の命令動作に対する依存性（またはその欠如）を示
す。命令動作は、こうして他の命令動作の任意の番号に依存し得る。さらに、依
存性は命令動作に従って記録され、依存性のタイプによっては記録されないので
、依存性は任意の理由に対して（たとえば、プロセッサ１００の設計を簡略化さ
せるために）生成され得る。上述のように、依存性ベクトル１００はマップユニ
ット３０によって与えられる依存性Ｒ♯をデコードし、依存性ベクトル１００内
の対応の依存性表示をセットして依存性を表示し、残りの依存性表示をセットし
て依存性の欠如を示すことにより生成され得る。これに代えて、マップユニット
３０は記憶のためにスケジューラ３６に図５に示される形で依存性ベクトルを提
供してもよい。

【００７８】図６を参照すると、依存性バッファ８８の一実施例のブロック図が示される。
他の実施例も可能であり企図される。図６の実施例においては、依存性バッファ
８８は依存性エントリ１０４Ａ−１０４Ｌを含む複数の依存性エントリを含む。
スケジューラ３６の特定のエントリにストアされる特定の命令動作の依存性を識
別する依存性エントリは（すなわち、ＲＯＰバッファ８０におけるエントリおよ
び物理アドレスバッファ９０およびストアＲ♯バッファ９２内の対応のエントリ
）依存性エントリの行と列として構成される。依存性エントリの各行は、特定の
スケジューラエントリ内の特定の命令動作の依存性を特定する依存性表示をスト
アする。たとえば、スケジューラエントリ０内の命令動作の依存性を識別する依
存性エントリは、依存性エントリ１０４Ａ−１０４Ｇ（および図示されないがそ
の行内の中間のエントリ）内に記録される。依存性エントリ１０４Ａ−１０４Ｇ
に示される例示的な依存性表示は、スケジューラエントリ０内の命令動作の、ス
ケジューラエントリＮ−２内の命令動作に対する依存性を示す（依存性エントリ
１０４Ｆ）。さらに、依存性エントリの各列は、特定の命令動作に対する、各他
の命令動作の依存性を特定する。たとえば、スケジューラエントリ０内の命令動
作に対する、各他の命令動作の依存性は、依存性エントリ１０４Ｈ−１０４Ｌに
記録される。示される例示的な依存性表示は、スケジューラエントリ２における
命令動作の、スケジューラエントリ０内の命令動作に対する依存性を示す（依存
性エントリ１０４Ｉ）。

【００７９】依存性バッファ８８は、１組の入力信号（Block(0)からBlock（Ｎ−１））を
受けるよう結合される。各Block信号は、スケジューラエントリの１つに対応す
る。Block信号は、アサートされた場合に、対応のスケジューラエントリに記憶
される命令動作が、その命令動作に対する依存性を満たさないことを示す。デア
サートされた場合は、Block信号は命令動作に対する依存性が満たされたことを
示す。一般的に、Block信号は、対応の命令動作をスケジューラ３６に書込む場
合にアサートされ、対応の命令動作の実行の間にデアサートされる。もし命令動
作が再試行されるかまたは非終了となれば、Block信号は対応の命令動作が再実
行されるまで再アサートされる。Block信号は、ＲＯＰ制御回路８６によって、
対応の命令動作の実行状態に従ってアサートおよびデアサートされる。各Block
信号は、対応の命令動作に対する他の命令動作の依存性を記録する依存性エント
リに経路制御される。たとえば、Block(0)は、依存性エントリ１０４Ｈ−１０４
Ｌに経路制御される。Block信号がデアサートされた場合、対応の依存性は満た
されたとみなされる。たとえば、Block(0)がデアサートされた場合、スケジュー
ラエントリ２内の命令動作の、スケジューラエントリ０内の命令動作に対する依
存性が満たされたと判断される。

【００８０】依存性バッファ８８は、さらに複数の出力信号を提供する（Not Blocked(0)か
らNot Blocked（Ｎ−１））。各Not Blocked信号は、スケジューラエントリの１
つに対応する。Not Blocked信号は、アサートされた場合に、対応のスケジュー
ラエントリ内にストアされる命令動作の依存性が満たされたことを示す。アサー
トされた場合、Not Blockedは、対応のスケジューラエントリにストアされる命
令動作の依存性が満たされていないことを示す。一般的に、Not Blocked信号は
対応の命令動作の依存性に対応する最後のBlock信号がデアサートされるまでデ
アサートされ、次いでNot Blocked信号がアサートされる。Not Blocked信号がア
サートされる命令動作は、少なくともその命令動作の依存性に関してはスケジュ
ーリングに適切である（すなわち、他の条件、たとえば後の事象に対する待機を
指定する再試行タイプなどはスケジューリングを阻むおそれがある）。Not Bloc
ked信号は、対応の命令動作の依存性を記録する依存性エントリに経路制御され
る。たとえば、Not Blocked(0)は、依存性エントリ１０４Ａ−１０４Ｇに経路制
御される。Not Blocked信号は各々がワイヤ−ＯＲラインであり得、これらはプ
リチャージされてアサートされ、次いで対応のBlock信号がアサートされる１つ
以上の依存性エントリによってデアサートされ、依存性表示は依存性を表示する
。

【００８１】リソースまたは依存性理由に基づくのではなく、スケジューラ内の命令動作の
位置に基づいて依存性を記録することにより（たとえばＲ♯により）、依存性バ
ッファ８８は、実現し高周波数で動作することがより容易になり得る。依存性バ
ッファ８８内の配線は非常に規則的である（すなわち、依存性バッファは配線に
関して過密ではなく、配線の重なり合いがほとんどない）。規則性は実現化を促
進し、かつ（たとえば、依存性バッファ８８の高密度な実現化により）高周波動
作に貢献し得る。

【００８２】図６に示されるように、左上から右下への対角線上の依存性エントリは、命令
動作のそれ自体への依存性を示唆する。これらの依存性エントリは実現されない
であろう（これらのエントリは点線のボックスによって示される）。

【００８３】ここで用いられる場合、「アサートされた」という用語は、信号またはビット
に対し論理的に真の値を提供することを意味する。信号またはビットは、特定の
条件が示される値を保持する場合にアサートされ得る。反対に、信号またはビッ
トは、特定の条件が欠如することを示す値を含む場合に「デアサート」され得る
。信号またはビットは、これが論理０値を保持するか、または反対に、これらが
論理１値を保持している場合にアサートされていると定義され、信号またはビッ
トは、反対の論理値を保持する場合にデアサートしていると定義され得る。

【００８４】図７を参照すると、依存性バッファ８８およびＲＯＰ制御回路８６の一実施例
の部分を示すブロック図が、より詳細に示される。他の実施例も可能であり企図
される。図７の実施例に従うと、ＲＯＰ制御回路８６は、複数の独立回路を含み
、各々がスケジューラ３６内のエントリに対応する。たとえば、スケジューラ内
のエントリ（ｉ）は図７に示される。ＲＯＰ制御回路（ｉ）８６Ａは、エントリ
（ｉ）内にストアされる命令動作の実行状態を追跡するために示される。さらに
、エントリ（ｉ）内にストアされる命令動作の依存性をストアするいくつかの依
存性エントリ１０４Ｍ−１０４Ｎが示される。より特定的には、エントリ（ｉ）
にストアされる命令動作の、エントリ（ｊ）にストアされる命令動作に対する依
存性（依存性エントリ１０４Ｍ）、およびエントリ（ｊ＋１）にストアされる命
令動作に対する依存性（依存性エントリ１０４Ｎ）を示す依存性エントリが示さ
れる。Block(i)およびNot Blocked(i)信号が、Block(j)およびBlock（ｊ＋１）
信号とともに示される。ＲＯＰ制御回路（ｉ）８６Ａは、Block(i)信号を提供す
るよう結合され、かつNot Blocked(i)信号を受けるよう結合される。さらに、Ｒ
ＯＰ制御回路（ｉ）８６Ａは、retry PA（ｉ）信号およびfill hit（ｉ）信号を
物理アドレスバッファ９０から、fill/probe信号を外部インターフェイスユニッ
ト４６から、retry stq（ｉ）信号をストアＲ♯バッファ９２から、再試行信号
および再試行タイプ信号をロード／ストアユニット４２から、almost done信号
を実行コア４０Ａ−４０Ｂから、およびpick（ｉ）信号を発行ピック回路８２か
ら受けるよう結合される。さらに、ＲＯＰ制御回路（ｉ）８６Ａは、発行ピック
回路８２にrequest（ｉ）信号を提供するよう結合される。

【００８５】ＲＯＰ制御回路（ｉ）８６Ａは、命令動作のエントリ（ｉ）への書込の際に、
エントリ（ｉ）にストアされる命令動作の依存性のモニタを開始する。命令動作
がその命令動作に対する他の命令動作の依存性を満たすまで、ＲＯＰ制御回路（
ｉ）８６Ａは、（図６に示されるように、他の命令動作の命令動作に対する依存
性を記録する依存性エントリに経路制御される）Block(i)信号をアサートする。
命令動作は、命令動作の実行状態が非実行状態にある間は依存性を満たさず、実
行状態が実行中状態にあるが実行完了に近くなければ、依存性を満たす。さらに
、ＲＯＰ制御回路（ｉ）８６Ａは、Not Blocked(i)信号をモニタして、命令動作
の依存性がいつ満たされたかを判断する。

【００８６】命令動作の別の命令動作への依存性表示をストアする各依存性エントリ１０４
は、結合されてNot Blocked(i)信号をデアサートし、命令動作がブロックされた
ことを示す。たとえば、依存性エントリ１０４ＭはＡＮＤゲート１０６Ａおよび
トランジスタ１０８Ａに結合され、依存性エントリ１０４ＮはＡＮＤゲート１０
６Ｂおよびトランジスタ１０８Ｂに結合される。もし依存性表示がストアされ、
依存性エントリが依存性を示し対応のBlock信号がアサートされると、ＡＮＤゲ
ートは対応のトランジスタを活性化させ、これがNot Blocked(i)信号をデアサー
トする。しかしながら、もし依存性表示が依存性を表示しないか、またはBlock
信号がデアサートされれば、ＡＮＤゲートは対応のトランジスタを非活性化させ
、したがってトランジスタはNot Blocked(i)信号をデアサートしない。したがっ
て、エントリ（ｉ）内の命令動作が依存しない命令動作は、命令動作の発行をブ
ロックしない。エントリ（ｉ）における命令動作が依存する命令動作は、依存性
が満たされるまでその命令動作の発行をブロックする（対応のBlock信号のデア
サートによって示される）。

【００８７】 Not Blocked(i)のアサートに応答して、ＲＯＰ制御回路（ｉ）８６Ａはreques
t（ｉ）信号を発行ピック回路８２にアサートする。発行ピック回路８２は、req
uest（ｉ）信号を、他のエントリに対応する他の制御回路からの同様の信号とと
もにスキャンする。一旦発行ピック回路８２が発行のために命令動作をスケジュ
ールすると、発行ピック回路８２はpick（ｉ）信号をアサートする。pick（ｉ）
信号に応答して、ＲＯＰ制御回路（ｉ）は実行状態を実行中に変化させる。上述
のように、この実施例においては、スケジューラ３６は命令動作のレイテンシを
記録し、命令動作の発行からのクロックサイクルをカウントして、依存性が満た
されるポイントを判断する。他の実施例は、たとえば他の実行ユニットから完了
信号を受取るか、または依存性が満たされたときを判断する他の代替的な機構を
用い得る。さらに、この実施例においては、ある命令動作は可変レイテンシを有
するか、またはカウントすることが所望であるより長いレイテンシを有し得る。
そのような命令動作に対しては、実行コア４０Ａ−４０Ｂは、almost done信号
を与える。almost done信号は、可変レイテンシ命令動作が完了から予め定めら
れた数のクロックサイクルに達したことを実行コアが判断するときにアサートさ
れる。almost done信号は、ＲＯＰ制御回路（ｉ）８６Ａによって、予め定めら
れた数までのサイクルのカウントを開始するために用いられ、この時点で命令動
作は実行を完了する。

【００８８】もし命令動作がメモリ動作であれば、ＲＯＰ制御回路（ｉ）８６Ａは、再試行
ステータスがエントリ（ｉ）内にストアされる命令動作に対して提供されている
クロックサイクルの間に、ロード／ストアユニット４２から再試行信号をサンプ
リングする。アサートされた再試行信号に応答して、ＲＯＰ制御回路（ｉ）８６
は、実行状態を非実行状態に変化させ、Block(i)信号を再アサートする。この態
様で、命令動作が実行前状態に戻され、命令動作を備えた依存性連鎖における後
の命令動作もまた発行前状態に（対応のNot Blocked(i)信号のデアサートを介し
て）戻される。さらに、ＲＯＰ制御回路（ｉ）８６Ａは、もし再試行信号がアサ
ートされていれば再試行タイプ信号をサンプリングする。もし再試行タイプが、
命令動作が再発行される前に後の事象が起こることを要求すれば、ＲＯＰ制御回
路（ｉ）８６Ａは、事象が観察されるべきことを記録し、かつ後の事象が生じる
まで、（request（ｉ）信号を再アサートすることにより）要求再発行を禁止す
る。

【００８９】実行の間に再試行されることに加えて、ロードメモリ動作は、実行ストアメモ
リ動作の物理アドレスが、ロードメモリ動作の物理アドレス（物理アドレスバッ
ファ９０内にストアされる）をヒットすることにより、または実行ストアメモリ
動作のＲ♯がロードメモリ動作に対して記録されるストアＲ♯をヒットすること
により、再試行され得る。前者の場合、物理アドレスバッファ９０は、retry PA
（ｉ）信号をアサートして、ＲＯＰ制御回路（ｉ）８６Ａと通信する（他のエン
トリごとに同様の信号を含み得る）。後者の場合、ストアＲ♯バッファ９２は、
retry stq（ｉ）信号をアサートして通信する（他のエントリごとに同様の信号
を含み得る）。いずれかの信号のアサートに応答して、ＲＯＰ制御回路（ｉ）８
６Ａが、実行状態を非実行状態に変化させ、Block(i)信号を再アサートする。No
t Blocked(i)信号がアサートされたと仮定すると、ＲＯＰ制御回路（ｉ）８６Ａ
は、request（ｉ）信号をアサートして、命令動作の再スケジューリングおよび
再発行の要求をする。

【００９０】再試行、retry PA（ｉ）およびretry stq（ｉ）信号に加えて、命令動作の状
態は、Not Blocked(i)信号がデアサートされていれば非実行状態に戻される。こ
の機構は、連鎖の開始における命令動作が非終了である場合、依存性連鎖の実行
済状態をアンドゥする（undo）ために用いられ、依存性連鎖内の命令動作を再発
行させる。したがって、もしNot Blocked(i)信号がデアサートされていれば、Ｒ
ＯＰ制御回路（ｉ）８６Ａは、実行状態を非実行状態に変え、Block(i)信号を再
アサートする（これにより後で他のNot Blocked(i)がデアサートされ、さらに依
存性連鎖をアンドゥする）。

【００９１】物理アドレスバッファ９０は、付加的な信号をＲＯＰ制御回路（ｉ）８６Ａに
与え、外部インターフェイスユニット４６によって与えられるアドレスが、物理
アドレスバッファ９０におけるロードの物理アドレスにヒットするかどうかを示
す。これをfill/hit（ｉ）として図７に示す。物理アドレスバッファ９０は、fi
ll/hit（ｉ）信号をアサートして、外部インターフェイスユニット４６によって
与えられたアドレスが、エントリ（ｉ）に割当てられた物理アドレスバッファ９
０における物理アドレスにヒットすることを示す。外部インターフェイスユニッ
ト４６はまた、fill/probe信号を与えて、与えられたアドレスのタイプを示す。
もしfill/probe信号がフィルを示すと、fill hit（ｉ）信号のアサートは、ロー
ドメモリ動作の物理アドレスを含むキャッシュラインのためのフィルデータが提
供されたことを示す。もしロードメモリ動作が先行の発行の間のキャッシュミス
の検出により、スケジューリングを禁止されていれば、ロードメモリ動作は再ス
ケジューリングのために適切であり、ＲＯＰ制御回路（ｉ）８６Ａは、フィルア
ドレスヒットに応答してrequest（ｉ）信号をアサートし得る。上述の実施例は
また、プローブを達成するために外部インターフェイスユニット４６からのアド
レスを提供する。もしfill hit（ｉ）信号がアサートされ、かつ外部インターフ
ェイスユニット４６からのfill/probe信号がプローブを示せば、訂正動作を必要
とし得るプローブヒットが検出される。一実施例においては、プローブに対する
fill hit（ｉ）信号のアサートは、ＲＯＰ制御回路（ｉ）８６Ａにその状態を実
行状態から非実行状態に変えさせる。他の実施例は、不所望に命令動作を再発行
することなく確実にメモリ順序付けを行なうために、より複雑な機構を試みる。
たとえば、ＲＯＰ制御回路（ｉ）８６Ａは、プローブアドレスによってヒットを
記録する。もしより古いロードメモリ動作が後でスケジューラからリタイアされ
ていれば、ＲＯＰ制御回路（ｉ）８６Ａは実行状態から非実行状態に変る。他の
代替例も可能である。

【００９２】図８を参照すると、ＲＯＰ制御回路（ｉ）８６Ａの一実施例によって採用され
得る、例示的なステートマシンが示される。他の制御回路は同様なステートマシ
ンを採用し得る。他の実施例が可能であり企図される。図８の実施例においては
、ステートマシンは無効状態１１０、ブロック状態１１２、要求状態１１４、実
行可変（ＥｘｅｃＶ）状態１１８、Ｅｘｅｃ６状態１２０、Ｅｘｅｃ５状態１１
２、Ｅｘｅｃ４状態１２４、Ｅｘｅｃ３状態１２６、Ｅｘｅｃ２状態１２８、Ｅ
ｘｅｃ１状態１３０、および終了状態１３２を含む。

【００９３】ステートマシンは、対応のエントリが命令動作を含まない場合、無効状態１１
０で開始する。命令動作の対応のエントリへの書込に応答して、ステートマシン
は、ブロック状態１１２または要求状態１１４のいずれかに遷移する。ブロック
状態１１２は、命令動作が１つ以上の満たされていない依存性を有する場合に選
択される。言換えると、ブロック状態１１２は、もしNot Blocked(i)信号がデア
サートされている場合に選択され、要求状態１１４はNot Blocked(i)信号がアサ
ートされている場合に選択される。他の実施例においては、命令動作は、（命令
動作が非実行状態に戻された後の再スケジューリングを禁止する事象と同様の態
様で）すべての依存性が満たされていたとしても、命令動作がスケジューリング
されることをブロックする予め定められた待機事象を備えてスケジューラに書込
まれる。そのような命令動作は、Not Blocked(i)信号がアサートされていたとし
ても、ブロック状態１１２への遷移を生じさせる。

【００９４】ステートマシンは、命令動作が非ブロック状態となるまでブロック状態１１２
にとどまる。無効状態１１０からブロック状態１１２または要求状態１１４への
遷移は、この実施例においてはNot Blocked(i)信号に基づくのに対し、ブロック
状態１１２から要求状態１１４への遷移は、命令動作が再スケジューリングに対
し適切となる前に後の事象が起こるべきことを特定する再試行条件の影響を考慮
する。図８のボックス１３４は、上述の実施例のための図８における矢印におい
て用いられたブロック遷移状態用語に対する方程式を含む。より特定的には、命
令動作は、もしNot Blocked(i)信号がデアサートされている場合、または先行の
発行が命令動作が非投機的に行なわれるべきこと（blocked non spec）を判断し
かつ未だに投機的である場合、または先行の発行がキャッシュミスをもたらし（
blocked until fill）かつフィルデータが未だに提供されていない場合に、ブロ
ックされる。他の実施例は所望のように、再スケジューリングをブロックする付
加的な事象を含み得る。命令動作がブロック解除されるとすぐに、ステートマシ
ンはブロック状態１１２から要求状態１１４に遷移する。

【００９５】ステートマシンが要求状態１１４にある間、ＲＯＰ制御回路（ｉ）８６Ａは、
request(i)信号をアサートする。もし命令動作が要求状態１１４にある間に再び
ブロックされると、ステートマシンはブロック状態１１２に遷移する。ステート
マシンは、pick(i)信号のアサートに応答して、（命令動作のレイテンシに基づ
いて）要求状態１１４から状態１１８−１２８のうちの１つに遷移する。一実施
例においては、pick(i)信号に応答して遷移した状態は、図２のパイプラインに
おける読出スケジューラステージに対応し得る。

【００９６】この実施例は、２から６クロックサイクルのレイテンシおよび、６クロックサ
イクルよりも大きな可変レイテンシをサポートする。ステートマシンは、実行コ
ア４０Ａ−４０Ｂによってalmost done信号がアサートされるまでＥｘｅｃＶ状
態１１８にとどまり、次いでＥｘｅｃ６状態１２０に遷移する。図８に示される
ように、Ｅｘｅｃ６状態１２０からＥｘｅｃ２状態１２８の各々は、もし命令動
作が非終了でなければ、レイテンシ連鎖の次の下位の状態に遷移する。Ｅｘｅｃ
１状態１３０から、ステートマシンはもし命令状態が非終了でなければ、終了状
態１３２に遷移する。最後に、ステートマシンは、もし命令動作がリタイアの前
に非終了でなければ、無効状態１１０に遷移する。

【００９７】図面をわかりやすくするために、pick(i)信号は、ここから状態１１８−１２
８の１つに入るピックノード１１６に入るように示される。ピックノード１１６
は、図面の混乱を避けるためにのみ用いられており、別の状態を示すものではな
い。

【００９８】この実施例においては、図８のステートマシンの目的に対する命令動作のレイ
テンシは、命令動作がその命令動作に対する依存性を満たす前のクロックサイク
ルの数である。このレイテンシは、命令動作が実行状態情報を返す前に（たとえ
ば、命令動作が例外に遭遇するかどうかにかかわらず）満了する可能性がある。
しかしながら、ステートマシンは、命令動作のスケジューリングと、その命令動
作のレジスタファイル３８Ａ−３８Ｂからのオペランド読出との間のパイプライ
ン遅延を利用して、レジスタファイルの更新によって物理的に依存性が満たされ
る前に、その依存性が満たされているかどうかを示す。したがって、Block(i)信
号は、この実施例においてもし命令動作がＥｘｅｃ２状態１２８に到達すればデ
アサートされ、もしステートマシンがＥｘｅｃ１状態１３０、終了状態１３２、
または無効状態１３４（ボックス１３４を参照）であればデアサートされたまま
である。Block(i)信号は、他の状態に対してアサートされる。

【００９９】スケジュールされた（pick(i)がアサートされた）後のどの時点においても、
命令動作が非終了状態になり、非実行状態に戻る。この動作は、図８において示
され、各状態１１８−１３２が「アンドゥ（undo）」方程式（ボックス１３４）
に基づく中央点１３６への遷移を示し、ここから遷移は、ボックス１３４に示さ
れるブロック（blocked）方程式に基づいてブロック状態１１２または要求状態
１１４に遷移する。中央点１３６は、図面の混乱を減じるためにのみ用いられて
おり、別の状態を示すものではない。中央点１３６への遷移を示す各状態ごとに
、もしundo方程式が真でありblocked方程式が真であればブロック状態１１２へ
の遷移が行われ、もしundo方程式が真でありかつblocked方程式が偽であれば、
要求状態１１４への遷移が行なわれる。

【０１００】この実施例において、もし命令動作が直接再試行されるか、またはNot Blocke
d(i)信号がデアサートされれば、命令動作は「非終了（undone）」となる（すな
わち、非実行状態の実行状態に戻る）。ボックス１３４におけるundo方程式は再
試行条件をretry this op値として示し、エントリ（ｉ）における命令状態が再
試行されたことを示す。ボックス１３８はさらに、示されたretry this op値を
、retry PA（ｉ）信号またはretry stq（ｉ）信号がアサートされているか、ま
たは命令動作が実行の間に再試行されていれば真である方程式として示す（たと
えば、ロード／ストアユニット４２からの再試行信号）。retry this op方程式
はさらに、命令動作がＥｘｅｃ１状態１３０にある場合の再試行信号のサンプリ
ングを示す。この実施例においては、再試行状態は、対応の命令動作がＥｘｅｃ
１状態１３０にある場合にロード／ストアユニット４２によって報告される。他
の実施例は、設計選択に従って、命令動作の実行の間の異なった時点で状態を報
告し得る。さらに、メモリ動作以外の命令動作を再試行する実施例においては、
設計選択に従って、これらの命令動作の実行の他の時点でこれらの信号をサンプ
リングし得る。

【０１０１】上述のように、命令動作の実行状態は広義に、非実行、実行中、および終了状
態を含む。図８の実施例においては、非実行状態はブロック状態１１２または要
求状態１１４を含み得る。実行中状態は実行状態１１８−１３０を含み得る。終
了状態は終了状態１３２を含み得る。実行状態１１８−１３０の数は、実現化特
定のものであり、設計選択に従って変化し得ることに留意されたい。さらに、依
存性が満足される命令動作の実行における時点は、設計選択によって変化し得る
。変化は、部分的に、依存する命令動作がスケジューリングされるステージと、
オペランドまたは順序依存性などの満たすことが要求される特定のステージとの
間の、パイプラインステージの数に基づく。この実施例においては、特定のステ
ージはレジスタファイル読出ステージである。

【０１０２】図９を参照すると、レジスタ１４０は、ＲＯＰ制御回路（ｉ）８６Ａによって
用いられ図８のステートマシンの状態と、所望であれば付加的な状態とを記憶す
る。他の実施例も可能であり企図される。図９の実施例においては、レジスタ１
４０は状態１４２、blocked non spec表示１４４、blocked until fill表示１４
６、および他の情報１４８をストアし得る。

【０１０３】状態１４２は、図８に示されるステートマシンの現在の状態をストアする。状
態は、どのような好適な態様でも状態１４２内に符号化され得る。レジスタ１４
２は、図８に示される状態遷移に従ってクロックサイクルごとに更新される。

【０１０４】 Blocked non spec表示１４４は、もし再試行タイプが命令動作が非投機的に行
なわれるべきことを示せば、命令動作の実行の間にロード／ストアユニット４２
からの再試行信号の受信に応答して、ブロック状態を示すよう設定される。Bloc
ked non spec表示１４４は、図８のボックス１３４に示されるblocked方程式に
おいて用いられる。より特定的には、Blocked non spec表示１４４は、ブロック
された状態を示す間、命令動作は命令動作が非投機的になるまでスケジューリン
グの要求を禁止される。命令動作が非投機的になったことに応答して、Blocked non spec表示は、非ブロックを示すよう設定され、命令動作がスケジューリング
され得る。一実施例においては、命令動作はもしスケジューラ３６内のより古い
命令動作の各々が終了の実行状態を有していれば、非投機的になる。

【０１０５】 blocked until fill表示１４６は、もし再試行タイプが命令動作がＤキャッシ
ュ４４をミスすることを示せば、命令動作の実行の間にロード／ストアユニット
４２からの再試行信号の受信に応答して、ブロック状態を示すよう設定される。
blocked until fill表示１４６は、図８のボックス１３４に示されるblocked方
程式において用いられ得る。より特定的には、blocked until fill表示１４６が
ブロックされた状態を示す間に、命令動作は、対応のフィルデータが提供される
まで、スケジューリング要求を禁止される。フィルデータが提供されたという表
示に応答して、blocked until fill表示は非ブロックを示すよう設定され、命令
動作がスケジューリングされる。

【０１０６】所望のように、他の情報もまた他の情報フィールド１４８に記録され得る。た
とえば、特定の実施例は、ＳＭＣチェックが行なわれるまでストア動作をリタイ
アすることを禁止する。他の情報フィールド１４８は、ＳＭＣチェック待機要件
を記録し、かつＳＭＣチェックの完了を記録し得る。他のいかなる情報も記録さ
れ得る。さらに、他の情報が記録されない実施例も企図される。

【０１０７】図１０を参照すると、スケジューラ３６の一実施例に従った依存連鎖をundoに
するための例が示される。クロックサイクルは、縦点線によって明示され、縦点
線の間の最上部のクロックサイクルごとの識別子がそのクロックサイクルを明示
する。（ＲＯＰ制御回路８６によって記録される）各命令動作に対する状態もま
た図１０に（「状態」という語および括弧内の対応の命令動作のＲ♯の隣に）示
され、「done」は終了状態１３２を示し、「blkd」はブロック状態１１２を示す
。図１０は、２つの依存性連鎖を含むボックス１５０を含む。第１の依存性連鎖
は、１０のＲ♯を割当てられた命令動作Ｉ０によって始まり、さらに命令動作Ｉ
１、Ｉ２、Ｉ３を含む。命令動作Ｉ１はＩ０に依存し、１５のＲ♯を有する。命
令動作Ｉ２は、Ｉ１に依存し、２３のＲ♯を有する。命令動作Ｉは、Ｉ２に依存
し、３４のＲ♯を有する。命令動作Ｉ４は、Ｉ０によって開始する第２の依存性
連鎖に存在し、よってＩ０に依存する。命令動作Ｉ４は４５のＲ♯を有する。Ｉ
１およびＩ４は直接Ｉ０に依存し、一方でＩ２およびＩ３は間接的にＩ０に依存
する。各命令動作に対するBlock信号およびNot Blocked信号を、図１０に示す（
括弧内に命令動作のＲ♯を示す）。他の事象を引き起こすある事象は、事象から
結果として生じる事象への矢印によって示される。たとえば、Not Blocked（１
０）のデアサートは、状態（１０）をブロック状態へ変化させるが、これがNot Blocked（１０）のデアサートから状態（１０）のブロック状態への矢印によっ
て示される。

【０１０８】クロックサイクルclk０の間に、各命令状態はdone状態にある。したがって、
対応のBlock信号はデアサートされ、Not Blocked信号がアサートされる。クロッ
クサイクルclk１の間に、（Ｉ０が依存する１つの以上の命令動作がundone状態
になることにより）Not Blocked（１０）信号がデアサートされる。Not Blocked
（１０）のデアサートに応答して、Ｉ０に対するステートマシン（状態（１０）
）はブロック状態に戻り、こうしてBlock（１０）信号はクロックサイクルclk２
において再アサートされる。Block（１０）のアサートおよびＩ１ならびにＩ４
のＩ０に対する記録された依存性に応答して、Not Blocked（１５）およびNot B
locked（４５）信号はデアサートされる（クロックサイクルclk２）。次いで、N
ot Blocked（１５）およびNot Blocked（４５）信号のデアサートは、Ｉ１およ
び４のundoをもたらす（状態（１５）および状態（４５）がクロックサイクルcl
k３においてBlock状態に変化する）。その後、Ｉ２およびＩ３はそれぞれ、それ
らのＩ１およびＩ２に対する直接的な依存性により、かつ間接的なＩ０に対する
依存性により、非終了となる。クロックサイクルclk５の終了時において、示さ
れる例における依存性連鎖は、非終了であり、各命令動作に対応する実行状態（
Ｉ０からＩ４）は非実行状態である。その後、命令動作はそれらの依存性を満た
され、次いで依存性連鎖内の命令動作として再発行し、依存性連鎖内の他の命令
動作に対する依存性を満たし得る。

【０１０９】 BlockおよびNot Blocked信号が図１０（および以下の図１１、図１２、および
図１５）において特定のクロックサイクルの間にアサートまたはデアサートされ
ることが示されていないが、Block信号はNot Blocked信号をプリチャージさせる
ためにクロックサイクルの第１の部分の間は非活性化されており、次いでBlock
信号はクロックサイクルの第２の部分の間にパルスを発生し得ることに留意され
たい（かつ、Not Blocked信号は記録された依存性に従って、放電するかプリチ
ャージされたままとなる）。さらに、図１０、図１１、図１２および図１５のタ
イミング図は、示されるBlock信号の遷移に基づいたNot Blocked信号の遷移を示
す。したがって、示される例は、例示される依存性連鎖が、依存性連鎖内で命令
動作ごとに満たされるべき最後の依存性である例を示す。もし他の依存性が満た
されていなければ、Not Blocked信号は、それらの他の依存性が満たされるまで
デアサートされたままである。同様に、タイミング図は、タイミング図の簡略化
のために、要求に応答してすぐにスケジューリングされる命令動作を示す。しか
しながら、スケジューリングはもし他の、同じタイプのより若い命令動作がスケ
ジューリングを要求していれば、１またはそれ以上のクロックサイクル分だけ遅
延し得る。

【０１１０】図１１を参照すると、依存性連鎖における例示的な命令動作の発行および再発
行を示すタイミング図が示され、再発行は依存性連鎖における第１の命令動作の
再試行により発生する。クロックサイクルは、縦点線によって明示され、縦点線
の間の最上部のクロックサイクルごとの識別子がそのクロックサイクルを明示す
る。ボックス１５２は、例示的な依存性連鎖を示すが、これは図１０の例の命令
動作Ｉ０からＩ２である。図１０の例と同様に、命令動作ごとのBlock信号およ
びNot Blocked信号と、（ＲＯＰ制御回路８６によって記録される）各命令動作
の状態とが示される。図１１に示される状態は、ブロックおよび終了状態を含み
、図１１において図１０と同様に「blkd」および「done」として表わされる。ま
た、要求状態１１４、Ｅｘｅｃ２状態１２８、Ｅｘｅｃ１状態１３０は、それぞ
れ「rqst」と、「ex２」、および「ex１」として示される。また図１０と同様に
、他の事象を引き起こす事象は、原因となる事象から結果として生じる事象への
矢印によって示される。この例においては、命令動作Ｉ０およびＩ１は両方とも
レイテンシ２である。

【０１１１】クロックサイクルclk０は、ブロック状態の命令動作Ｉ０−Ｉ２の各々を示し
、発行に適切になる前に、依存性が満たされるのを待機していることを示す。各
Not Blocked信号がデアサートされ、各Block信号がアサートされる。クロックサ
イクルclk１の間に、Not Blocked（１０）がアサートされる。Not Blocked（１
０）のアサートに応答して、状態（１０）はクロックサイクルclk２の間に要求
状態に変化する。Ｉ０は発行のためにピックされ、こうして状態（１０）はクロ
ックサイクルclk３の間にＥｘｅｃ２状態に遷移する。状態（１０）のＥｘｅｃ
１状態への遷移は、クロックサイクルclk４の間に起こる。

【０１１２】状態（１０）のＥｘｅｃ２状態に応答して、Block（１０）がクロックサイク
ルclk４の間にデアサートされる（これによりNot Blocked（１５）がアサートさ
れる）。状態（１５）は、Not Blocked（１５）のアサートに応答してクロック
サイクルclk４の間に要求状態に遷移し、ピックされたことに応答してクロック
サイクルclk５の間にＥｘｅｃ２状態に遷移する。

【０１１３】状態（１０）のＥｘｅｃ１の間（クロックサイクルclk４）に、ＲＯＰ制御回
路８６は、Ｉ０の再試行を検出する（図１０に再試行（Ｒ♯）信号を介して示さ
れる）。再試行は、Ｉ０のundoを引き起こし、こうして状態（１０）はクロック
サイクルclk５において非実行状態に遷移する。より特定的には、Not Blocked（
１０）がクロックサイクルclk４の間にアサートされているために、状態（１０
）は要求状態に遷移する。状態（１０）が非実行状態になることに応答して、Bl
ock（１０）信号は再アサートされる（よってNot Blocked（１５）はデアサート
される）。Not Blocked（１５）のデアサートは、状態（１５）を非実行状態に
戻す（クロックサイクルclk６）。

【０１１４】この例におけるＩ０の再試行は、Ｉ０の即時の再発行を可能にする再試行タイ
プである。したがって、状態（１０）はクロックサイクルclk５において要求状
態にある。Ｉ０は実行のためにピックされ、こうして状態（１０）はＥｘｅｃ２
、Ｅｘｅｃ１、および終了状態に、それぞれクロックサイクルclk６、clk７、お
よびclk８において遷移する。Ｉ０の再実行の間に、再試行は生じない。しかし
ながら、再試行は特定の命令動作が成功して完了する前に複数回起こり得ること
に留意されたい。

【０１１５】一旦状態（１０）がＩ０（クロックサイクルclk６）の再実行の間にＥｘｅｃ
２状態に達すると、Block（１０）信号がデアサートされ、Not Blocked（１５）
信号はアサートされる。Not Blocked（１５）のアサートに応答して、状態（１
５）は要求状態に遷移し（クロックサイクルclk７）、その後に発行のために選
択されることに応答してＥｘｅｃ２状態に遷移する（クロックサイクルclk８）
。状態（１５）は、Ｅｘｅｃ１および終了状態に、クロックサイクルclk９およ
びclk１０においてそれぞれ遷移する。

【０１１６】状態（１５）のＥｘｅｃ２状態の到達（クロックサイクルclk８）に応答して
、Block（１５）信号はデアサートされる。Not Blocked（２３）信号は、ブロッ
ク（１５）のデアサートに応答してクロックサイクルclk８の間にアサートされ
、こうして状態（２３）はクロックサイクルclk９の間に要求状態に遷移する。
Ｉ２の発行は、より後のクロックサイクル（図示せず）の間に生じ得る。

【０１１７】図１２を参照すると、命令動作の再試行を示すタイミング図が示され、命令動
作の再スケジューリングの前に後の事象が生じることを要求する再試行理由が示
される。より特定的には、図１２は、非投機的に実行するべき命令動作の再試行
を示す。クロックサイクルは、縦点線によって明示され、縦点線の間の最上部の
クロックサイクルごとの識別子がそのクロックサイクルを明示する。ボックス１
５２は、例示的な依存性連鎖を示し、これは図１１の例と同じ命令動作Ｉ０〜Ｉ
２および依存性である。命令動作ごとのBlockおよびNot Blockedおよび、（ＲＯ
Ｐ制御回路８６によって記録される）命令動作ごとの状態が示される。これは図
１１の例と同様である。図１２に示される状態は、図１１に示されるものと同様
の態様で表される。再び図１１と同様に、他の事象を引き起こす事象は、その事
象から結果として生じる事象への矢印によって示される。この例においては、命
令動作Ｉ０はレイテンシ２である。

【０１１８】クロックサイクルclk０からclk６は、図１１の対応のクロックサイクルclk０
からclk６と同様であるが、例外なのはクロックサイクルclk４におけるＩ０の再
試行は再試行として示されていることであり、これはＩ０が非投機的に実行され
るべきためである。こうして、Ｉ０は投機的に発行され、その非投機的な性質は
発行の後に明らかとなる。スケジューラ３６は、この状態をＩ０（およびその依
存する命令動作Ｉ１およびＩ２）をundoし、発行する前に非投機的になることを
待機することにより、この状態を解決する。より特定的には、再試行タイプが「
非投機的を待機」になることに応答して、ＲＯＰ制御回路８６はＩ０に対応する
Blocked non spec表示を設定し得る。こうして、ＲＯＰ制御回路８６は、Not Bl
ocked（１０）信号がアサートされているにもかかわらずＩ０が非投機的になる
まで、Ｉ０のスケジューリング要求を禁止される。いくつかの数のクロックサイ
クルが経過し、次いでＲＯＰ制御回路８６は、Ｉ０が非投機的であると判断し得
る（たとえば、図１２のnon spec（Ｒ♯１０）信号のアサートによって示される
図１２におけるクロックサイクルclkｎ）。上述のように、スケジューラ３６内
の（プログラム順の）先行の命令動作の各々が終了状態にあるとき、一実施例に
従うと、命令動作は非投機的であり得る。

【０１１９】Ｉ０が非投機的になったことに応答して、状態（１０）は要求状態に遷移する
（クロックサイクルclk＋１）。その後、I0は発行のために選択され（クロック
サイクルclk＋２における状態（１０）のＥｘｅｃ２状態）実行される。依存す
る命令動作Ｉ１およびＩ２はそれらのＩ０に対する依存性が満たされると、次い
で実行され得る。

【０１２０】図１３を参照すると、物理アドレスバッファ９０の一実施例によって採用され
得る例示的な物理アドレスバッファエントリ１６０が示される。さらに、例示的
な組合せ論理回路１７２が示される。回路１７２は、fill hit（ｉ）およびretr
y PA（ｉ）信号を生成するために用いられ得る。他の実施例も可能であり企図さ
れる。より特定的には、図１３に示す論理のブール等価物を含む、どのような好
適な組合せ論理回路をも用い得る。さらに、エントリ１６０に記憶されている情
報は設計選択に従って、形状および内容が変化し得る。図１３の実施例において
は、エントリ１６０は有効ビット１６２、第１のロードＰＡフィールド１６４、
第１のバイトマスクフィールド１６６、第２のロードＰＡフィールド１６８、お
よび第２のバイトマスクフィールド１７０を含む。

【０１２１】一般的に、もしエントリ１６０が割当てられる命令バッファエントリにおける
命令動作がロードメモリ動作であれば、エントリ１６０は、ロードメモリ動作に
よってアクセスされるメモリオペランド（「ロードメモリオペランド」）の物理
アドレス情報によって更新され、有効ビット１６２がセットされる。この実施例
においては、情報はロードメモリオペランドの第１のバイトを含むクワッドワー
ドの物理アドレス（第１ロードＰＡフィールド１６４）および、クワッドワード
内のどのバイトがロードメモリオペランドの一部であるかを示すバイトマスク（
第１のバイトマスクフィールド１６６）によって示される。バイトマスクは、各
クワッドワード内のバイトごとにビットを含む。もしビットがセットされていれ
ば、対応のバイトはロードメモリオペランドの一部である。もしビットがクリア
されていれば、対応のバイトはロードメモリオペランドの一部ではない。

【０１２２】ロードメモリオペランドは、メモリ内で任意で整列されてもよい。したがって
、ロードメモリオペランドの１つ以上のバイトは、１つのクワッドワード内に存
在し、かつロードメモリオペランドの１つ以上のバイトは、次のシーケンシャル
なクワッドワード内にあり得る。こうして、エントリ１６０は第２のロードＰＡ
フィールド１６８および第２のバイトマスクフィールド１７０を提供する。第２
のロードＰＡフィールド１６８は、第１ロードＰＡフィールド１６８に対する次
のシーケンシャルクワッドワードの物理アドレスをストアする。この実施例にお
いては、物理アドレスのページ内部分（in-page portion）は第２のロードＰＡ
フィールド１６８にストアされる。この実施例においてページ境界を横断するロ
ードメモリ動作は非投機的であるので、次のシーケンシャルクワッドワードのペ
ージ内部分のみをストアすれば十分である（もしページが跨っていれば、ロード
メモリ動作は非投機的に再発行されて、ロードメモリ動作の再発行の後により古
いストアは発行されないからである）。他の実施例は、次のシーケンシャルクワ
ッドワードの全体をストアするか、または所望のように他のいずれか適切な部分
をストアしてもよい。さらに、この実施例がクワッドワード細分性に対するアド
レスをストアするのに対し、他の実施例は他の好適な細分性を用い得る（たとえ
ば、オクトワード、ダブルワードなど）。第２のバイトマスクフィールド１７０
は、第１のバイトマスクフィールド１６６と同様に、次のシーケンシャルクワッ
ドワード内のどのバイトがロードメモリオペランドの一部であるかを示す。

【０１２３】実行コア４０Ａは、ストアメモリ動作の実行の間にストア物理アドレスおよび
対応のバイトマスクを提供する。回路１７２は、ストア物理アドレスと、第１の
ロードＰＡフィールド１６４および第２のロードＰＡフィールド１６８にストア
されている値の対応する部分とを比較する。さらに、対応するストアバイトマス
クが提供される。回路１７２内のストアおよびロードバイトマスクを受けるＡＮ
Ｄゲートは、ストアメモリ動作によって少なくとも１バイトのロードメモリオペ
ランドが更新されたことを示して、ロードバイトマスク内の少なくとも１ビット
およびストアバイトマスク内の対応する少なくとも１ビットがセットされている
かどうかを判断する、論理を表わす。たとえば、ビットごとに、出力が論理和を
取られるＡＮＤゲートを用い得る。もしエントリ１６０が有効であり、物理アド
レス部分が整合し、対応のクワッドワード内の少なくとも１バイトがロードメモ
リオペランドの一部でありストアメモリ動作によって更新されれば、retry PA（
ｉ）信号が生成される。retry PA（ｉ）信号はまた、もしストアメモリ動作がプ
ログラム順序でメモリ動作の前になければ、マスクされることに留意されたい（
図３には示さず）。

【０１２４】ストアメモリオペランドも、メモリセル内に任意で整列されてもよいことに留
意されたい。したがって、ストアメモリオペランドの１以上のバイトは、１クワ
ッドワード以内であり、ストアメモリオペランドの１以上のバイトは、次のシー
ケンシャルクワッドワード内以内であり得る。したがって、ストアＰＡ＋１は（
ロードＰＡ＋１と同様に）、ストアされたロードＰＡと比較されて、ロードＰＡ
にヒットするストアＰＡを検出する。以下の数式は、retry PA（ｉ）信号を表わ
す（もしＡ（ｎ：０）の少なくとも１ビットがセットされ、Ｂ（ｎ：０）の対応
のビットがセットされれば、ＭＡＴＣＨ（Ａ（ｎ：０），Ｂ（ｎ：０）関数はバ
イナリ１を返す）。

【０１２５】

【数１】４つの項の内の最後（Ｌｏａｄ＿ＰＡ（１１：３）＋１とＳｔｏｒｅ＿（１１
：３）＋１とを比較する）は冗長であり、この実施例においては省略されてもよ
いことに留意されたいが、これは次のシーケンシャルクワッドワードにおいて有
効バイトを有するメモリオペランドに対しては、メモリオペランドは少なくとも
１つの有効バイト（バイト７、マスクビット７によって表わされる）を第１のク
ワッドワードに有するためである。こうして、４番目の項の中の整合は、第１の
項（Ｌｏａｄ＿ＰＡ（１１：３）＋１とＳｔｏｒｅ＿（１１：３）とを比較する
）の中でも整合があった場合にのみ、生じ得る。

【０１２６】さらに、エントリ１６０は、外部インターフェイスユニット４６によって与え
られるfill/probeアドレスと比較される。示される実施例においてはフィル内で
提供されるキャッシュラインのアドレスが、比較のために物理アドレスバッファ
９０に与えられる。第１のロードＰＡフィールド１６４および第２のロードＰＡ
フィールド１６８の対応部分は、フィルアドレスに対して比較される。もし整合
が検出されると、fill hit（ｉ）信号がアサートされる。他の実施例においては
キャッシュラインは複数のパケットとしてＤキャッシュ４４に与えられ得る。そ
のような実施例において、キャッシュラインを識別するアドレス部分と与えられ
るパケットとが比較される。

【０１２７】 store PAに対応するストアメモリ動作が、エントリ１６０に対応するロードメ
モリ動作よりも若ければ、retry PA（ｉ）信号はマスクされることに留意された
い。

【０１２８】図１４を参照すると、ストアＲ♯バッファ９２の一実施例によって採用され得
る例示的なストアＲ♯バッファエントリ１８０が示される。さらに、例示的な組
合せ論理回路１９０が示される。回路１９０は、retry stq（ｉ）信号を生成す
るために用いられる。他の実施例も可能であり企図される。より特定的には、図
１４に示される論理のどのようなブール等価物をも含むどのような好適な組合せ
論理回路をも用い得る。さらに、設計選択に従って、エントリ１８０に含まれる
情報は形式および内容が異なり得る。図１４の実施例においては、エントリ１８
０は、有効ビット１８２および１８６およびストアＲ♯フィールド１８４および
１８８を含む。

【０１２９】一般的に、もしエントリ１８０が割当てられる、命令バッファエントリ内の命
令動作がロードメモリ動作であれば、エントリ１８０は、ロードメモリ動作によ
ってヒットされるストアキュー７０内のストアのストアＲ♯で更新される。この
実施例は、最大２つのストアメモリ動作からロードメモリ動作への転送を提供し
、こうして２つのＲ♯フィールド１８４および１８８が、各転送ストアのＲ♯を
記録するために提供される。それぞれの有効ビット１８２および１８６はもし対
応の転送ストアが検出されればセットされる。他の実施例は、一方のストアから
のみ転送し、かつエントリ１８０は一方のストアＲ♯のみを記録する。さらに別
の実施例においては、２つより多くのストアから転送が行なわれ、エントリ１８
０は対応の数のストアＲ♯を記録する。

【０１３０】ストアメモリ動作が実行されると、ロード／ストアユニット４２が、ストアＲ
♯バッファ９２にストアメモリ動作のＲ♯を与える。Ｒ♯は、エントリ１８０内
にストアされているＲ♯と比較され、もし整合が検出されると（かつ対応の有効
ビットがセットされると）、回路１９０はretry stq（ｉ）信号をアサートする
。上述のように、別の代替例においては、ストアキュー番号はバッファ９２内に
ストアされ、ストアキュー番号は比較のために提供される。

【０１３１】図１５を参照すると、物理アドレスバッファ９０におけるヒットを介したロッ
ドメモリ動作の再試行を示すタイミング図が示される。ストアＲ♯バッファ９２
におけるヒットを介したロードメモリ動作の再試行もまた同様である。クロック
サイクルは、縦点線で明示され、縦点線の間の最上部のクロックサイクルごとの
識別子がそのクロックサイクルを明示する。ボックス１９２は、図１１の例の命
令動作Ｉ０〜Ｉ２および依存性と同様である（ここではＩ０がロードメモリ動作
であることのみ異なる）例示的な依存性連鎖を示す。図１１の例と同様に、命令
動作ごとのBlockおよびNot Blocked信号および、（ＲＯＰ制御回路８６によって
記録された）命令動作ごとの状態が示される。図１２に示される状態は、図１１
と同様の態様で示される。さらに、Ｅｘｅｃ４およびＥｘｅｃ３は、それぞれ「
ｅｘ４」および「ｅｘ３」として示される。再び図１１と同様に、他の事象を引
起す特定の事象は、その事象から結果として生じる事象への矢印によって示され
る。この例においては、ロードメモリ動作Ｉ０はレイテンシ４である。

【０１３２】クロックサイクルclk０において、各命令動作Ｉ０−Ｉ２は発行されかつ実行
され、こうして終了状態にある。対応のBlock信号はデアサートされ、Not Block
ed信号はアサートされる。しかしながら、物理アドレスバッファ９０におけるヒ
ットはＲ♯１０に対して検出される（retry PA（１０）はクロックサイクルclk
０の間にアサートされる）。応答して、状態（１０）は、クロックサイクルclk
１において要求状態に遷移する。さらに、Block（１０）信号がアサートされ、
クロックサイクルclk２からclk３の間にＩ１およびＩ２が続いてundoとなる。

【０１３３】ロードメモリ動作Ｉ０は、クロックサイクルclk２からclk６において、実行の
ために選択され、実行状態から終了状態に移る。Ｉ０がクロックサイクルclk４
においてＥｘｅｃ２状態に到達するのに応答して、Block（１０）信号はデアサ
ートされる（したがってNot Blocked信号（１５）信号はアサートされる）。命
令動作Ｉ１およびＩ２はこうして図１５に示されるように再スケジューリングさ
れ再発行される。

【０１３４】図１５は、ロード命令動作が、これが依存するストアメモリ動作の前に発行さ
れ実行され得ることを示す。その後、ストアメモリ動作が発行され、依存性が検
出される。依存性は、ロードメモリ動作（およびその依存性連鎖）を依存性の検
出の際にスケジューラ３６から再発行することにより考慮される。retry stq（
１０）信号がアサートされる同様のタイミング図は、不正に実行され後で再発行
された先行のストアメモリ動作に対する、ロードメモリ動作の偽依存性の検出を
示す。ここでも、スケジューラ３６は、ロードメモリ動作およびその依存性連鎖
を再発行することによりこの問題に対処する。正しい動作は、最小限の性能劣化
のみで提供されるので、アブレッシブな投機的実行が行なわれ、より高い性能が
実現され得る。

【０１３５】コンピュータシステム図１６を参照すると、バスブリッジ２０２を通してさまざまなシステム要素に
結合されるプロセッサ１０を含むコンピュータシステム２００の一実施例のブロ
ック図が示される。他の実施例も可能であり企図される。示されるシステムにお
いては、メインメモリ２０４はメモリバス２０６によってバスブリッジ２０２に
結合され、グラフィックコントローラ２０８はＡＧＰバス２１０を介してバスブ
リッジ２０２に結合される。最後に、複数のＰＣＩ装置２１２Ａ−２１２ＢがＰ
ＣＩバス２１４を介してバスブリッジ２０２に結合される。二次的なバスブリッ
ジ２１６がさらに、ＥＩＳＡ／ＩＳＡバス２２０を介した１つ以上のＥＩＳＡま
たはＩＳＡ装置２１８との電気的インターフェイスに対処するために設けられ得
る。プロセッサ１０は、ＣＰＵバス２２４を介してバスブリッジ２０２に結合さ
れ、かつ任意のＬ２キャッシュ２２８に結合される。ＣＰＵバス２２４およびＬ
２キャッシュ２２８へのインターフェイスは併せて、外部インターフェイス５２
を含み得る。

【０１３６】バスブリッジ２０２は、プロセッサ１０、メインメモリ２０４、グラフィック
コントローラ２０８、およびＰＣＩバス２１４に装着される装置の間にインター
フェイスを提供する。バスブリッジ２０２に結合される装置の１つから動作が受
信されると、バスブリッジ２０２は動作の対象を識別する（たとえば、特定の装
置、またはＰＣＩバス２１４の場合、対象はＰＣＩバス２１４上にある）。バス
ブリッジ２０２は、目標となる装置に動作を経路制御する。バスブリッジ２０２
は、一般的にソース装置またはバスによって用いられるプロトコルから、目的の
装置またはバスによって用いられるプロトコルに動作を変換する。

【０１３７】ＰＣＩバス２１４に対するＩＳＡ／ＥＩＳＡへのインターフェイスを提供する
ことに加えて、二次的なバスブリッジ２１６はさらに所望のように付加的な機能
を含んでいてもよい。二次的なバスブリッジ２１６の外部からの、またはこの中
に組込まれた、入力／出力コントローラ（図示せず）もまた、コンピュータシス
テム２００内に含まれて、所望のようにキーボードおよびマウス２２２とさまざ
まなシリアルおよびパラレルポートとに対する操作上のサポートを提供し得る。
外部キャッシュユニット（図示せず）はさらに、他の実施例においてはプロセッ
サ１０とバスブリッジ２０２との間にＣＰＵバス２２４を結合されてもよい。こ
れに代えて、外部キャッシュはバスブリッジ２０２に結合されて、外部キャッシ
ュに対するキャッシュ制御論理はバスブリッジ２０２に一体化されてもよい。Ｌ
２キャッシュ２２８はさらに、プロセッサ１０の背部構成において示される。Ｌ
２キャッシュ２２８はプロセッサ１０とは分離しているか、カートリッジ（たと
えばスロット１またはスロットＡ）でプロセッサ１０に一体化されるか、または
プロセッサ１０の半導体基板上に一体化されてもよい。

【０１３８】メインメモリ２０４は、アプリケーションプログラムがストアされ、プロセッ
サ１０が一次的に実行するメモリである。適切なメインメモリ２０４はＤＲＡＭ
（ダイナミックランダムアクセスメモリ）を含む。たとえば、ＳＤＲＡＭ（シン
クロナスＤＲＡＭ）の複数のバンクまたはＲａｍｂｕｓＤＲＡＭ（ＲＤＲＡＭ）
が好適である。

【０１３９】ＰＣＩ装置２１２Ａ−２１２Ｂは、たとえばネットワークインターフェイスカ
ード、ビデオアクセラレータ、オーディオカード、ハードまたはフロッピー（Ｒ
）ディスクドライブまたはドライブコントローラ、ＳＣＳＩ（スモールコンピュ
ータシステムインターフェイス）アダプタおよび電話カードなどの、さまざまな
周辺機器を示す。同様に、ＩＳＡ装置２１８は、モデム、サウンドカード、さま
ざまなＧＰＩＢまたはフィールドバスインターフェイスカードなどのデータ獲得
カードなどの、さまざまな種類の周辺装置を示す。

【０１４０】グラフィックコントローラ２０８が設けられて、テキストおよび画像のディス
プレイ２２６上の制御を可能にする。グラフィックコントローラ２０８は、一般
的に当該分野において公知である典型的なグラフィックスアクセラレータを組入
れ、メインメモリ２０１との間で効率的にシフトできる３次元データ構造のレン
ダリングを行なう。したがってグラフィックコントローラ２０８は、メインメモ
リ２０４へのアクセスを得るためにバスブリッジ２０２内のターゲットインター
フェイスへのアクセスを要求および受信できる点で、ＡＧＰバス２１０へのマス
タとなる。専用グラフィックバスは、メインメモリ２０４からの高速なデータの
検索に対処する。ある特定の動作に対して、グラフィックコントローラ２０８は
さらに、ＡＧＰバス２１０にＰＣＩプロトコルトランザクションを生成するよう
構成される。バスブリッジ２０２のＡＧＰインターフェイスはこうして、ＡＧＰ
プロトコルトランザクションとＰＣＩプロトコルターゲットおよびイニシエータ
トランザクションとの両方をサポートする機能を含む。ディスプレイ２２６は、
画像またはテキストを表示し得る同様な電気的ディスプレイであってもよい。好
適なディスプレイ２２６は、陰極線管（「ＣＲＴ」）、液晶ディスプレイ（ＬＣ
Ｄ）などを含む。

【０１４１】上述の説明において、ＡＧＰ、ＰＣＩ、およびＩＳＡまたはＥＩＳＡバスが例
として用いられてきたが、所望のようにどのようなバスアーキテクチャと置き換
えてもよいことに留意されたい。コンピュータシステム２００は、付加的なプロ
セッサを含むマルチプロセシングコンピュータシステムであってもよい（たとえ
ば、プロセッサ１０ａがコンピュータシステム２００の任意の構成要素として示
される）ことに、さらに留意されたい。プロセッサ１０ａは、プロセッサ１０と
同様のものである。より特定的には、プロセッサ１０ａは、プロセッサ１０と全
く同様の複製である。プロセッサ１０ａは、独立バスを介してバスブリッジ２０
２に接続されるか（図１６に示す）、またはプロセッサ１０とＣＰＵバス２２４
を共用する。さらに、プロセッサ１０ａは、Ｌ２キャッシュ２２８と同様に任意
のＬ２キャッシュ２２８ａに結合される。

【０１４２】図１７を参照すると、コンピュータシステム３００の別の実施例が示される。
他の実施例も可能であり企図される。図１７の実施例において、コンピュータシ
ステム３００はいくつかの処理ノード３１２Ａ、３１２Ｂ、３１２Ｃ、３１２Ｄ
を含む。各処理ノードは、各処理ノード３１２Ａ−３１２Ｄにそれぞれ含まれる
メモリコントローラ３１６Ａ−３１６Ｄを介してそれぞれのメモリ３１４Ａ−３
１４Ｄに結合される。さらに、処理ノード３１２Ａ−３１２Ｄは、処理ノード３
１２Ａ−３１２Ｄの間で通信するために用いるインターフェイス論理を含む。た
とえば、処理ノード３１２Ａは、処理ノード３１２Ｂと通信するためのインター
フェイス論理３１８Ａ、処理ノード３１２Ｃと通信するためのインターフェイス
論理３１８Ｂ、およびさらに別の処理ノード（図示せず）と通信するための第３
のインターフェイス論理３１８Ｃを含む。同様に、処理ノード３１２Ｂはインタ
ーフェイス論理３１８Ｄ、３１８Ｅ、および３１８Ｆを含む。処理ノード３１２
Ｃはインターフェイス論理３１８Ｇ、３１８Ｈ、および３１８Ｉを含む。処理ノ
ード３１２Ｄはインターフェイス論理３１８Ｊ、３１８Ｋ、および３１８Ｌを含
む。処理ノード３１２Ｄは、インターフェイス論理３１８Ｌを介して複数の入力
／出力装置（たとえばデイジーチェーン構成における装置３２０Ａ−３２０Ｂ）
と通信するよう結合される。他の処理ノードは同様の態様で他のＩ／Ｏ装置と通
信し得る。

【０１４３】処理ノード３１２Ａ−３１２Ｄは、処理ノード間通信のためのパケットベース
リンクを実現する。この実施例においては、リンクは単方向リンクの組として実
現される（たとえばライン３２４Ａは処理ノード３１２Ａから３１２Ｂにパケッ
トを送信するために用いられ、ライン３２４Ｂは処理ノード３１２Ｂから処理ノ
ード３１２Ａにパケットを送信するために用いられる）。他のライン組３２４Ｃ
−３２４Ｈは、図１７に示されるように他の処理ノード間でパケットを送信する
ために用いられる。一般的に、各ライン組３２４は、１つ以上のデータライン、
データラインに対応する１つ以上のクロックライン、および運ばれるパケットの
タイプを示す１つ以上の制御ラインを含む。リンクは、処理ノード間通信のため
にキャッシュコヒーレント様式で動作されるか、または処理ノードとＩ／Ｏ装置
との間の（またはバスブリッジからＰＣＩバスまたはＩＳＡバスなどの従来の構
造のＩ／Ｏバスへの）通信のためにキャッシュ非コヒーレント様式で動作される
。さらに、リンクは示されるようにＩ／Ｏ装置の間でデイジーチェーン構造を用
いて非コヒーレント様式でも動作される。１つの処理ノードから別のものへ送信
されるパケットは、１つ以上の中間ノードを通過することに留意されたい。たと
えば、図１７に示されるように処理ノード３１２Ａから３１２Ｄに送信されるパ
ケットは、処理ノード３１２Ｂまたは処理ノード３１２Ｃのいずれかを通過し得
る。他のいかなる適切な経路制御アルゴリズムをも用い得る。コンピュータシス
テム３００の他の実施例は、図１７に示される実施例よりも多くのまたは少ない
処理ノードを含み得る。

【０１４４】一般的に、パケットはノード間でライン３２４上で１つ以上のビット時間とし
て送信される。ビット時間は、対応のクロックライン上でのクロック信号の立上
がりまたは立下がりエッジであり得る。パケットは、トランザクションを開始す
るためのコマンドパケット、キャッシュコヒーレンシを維持するためのプローブ
パケット、およびプローブとコマンドとに応答するための応答パケットを含み得
る。

【０１４５】処理ノード３１２Ａ−３１２Ｄは、メモリコントローラおよびインターフェイ
ス論理に加えて、１つ以上のプロセッサを含み得る。概して、処理ノードは、少
なくとも１つのプロセッサを含み、任意でメモリおよび所望の他の論理と通信す
るためにメモリコントローラを含む。より特定的には、処理ノード３１２Ａ−３
１２Ｄはプロセッサ１０を含む。外部インターフェイスユニット４６は、ノード
内にインターフェイス論理３１８およびメモリコントローラ３１６を含む。

【０１４６】メモリ３１４Ａ−３１４Ｄは、どのような好適なメモリ装置をも含む。たとえ
ば、メモリ３１４Ａ−３１４Ｄは、１つ以上のＲＡＭＢＵＳＤＲＡＭ（ＲＤＲ
ＡＭ）、シンクロナスＤＲＡＭ（ＳＤＲＡＭ）、スタティックＲＡＭなどを含み
得る。コンピュータシステム３００のアドレス空間は、メモリ３１４Ａ−３１４
Ｄに分割される。各処理ノード３１２Ａ−３１２Ｄは、どのアドレスがどのメモ
リ３１４Ａ−３１４Ｄにマッピングされるかを判断する、よってどの処理ノード
３１２Ａ−３１２Ｄに特定のアドレスに対するメモリ要求が経路制御されるべき
かを判断するメモリマップを含む。一実施例においては、コンピュータシステム
３００におけるコヒーレンシポイントは、アドレスに対応するバイトをストアす
るメモリに結合されるメモリコントローラ３１６Ａ−３１６Ｄである。言い換え
ると、メモリコントローラ３１６Ａ−３１６Ｄは、対応のメモリ３１４Ａ−３１
４Ｄに対する各メモリアクセスを確実にキャッシュコヒーレント様式で生じさせ
る責任を有する。メモリコントローラ３１６Ａ−３１６Ｄは、メモリ３１４−Ａ
３１４Ｄにインターフェイスするための制御回路を含み得る。さらに、メモリコ
ントローラ３１６Ａ−３１６Ｄは、メモリ要求を待ち行列に入れるための要求キ
ューを含む。

【０１４７】一般的に、インターフェイス論理３１８Ａ−３１８Ｌは、リンク上で送信され
るべきパケットを受け、かつバッファリングするためのさまざまなバッファを含
み得る。コンピュータシステム３００は、パケットを送信するためのいかなる好
適なフロー制御機構をも採用し得る。たとえば、一実施例においては、各インタ
ーフェイス論理３１８はインターフェイス論理が接続されるリンクの他端におけ
るレシーバ内に各種類のバッファの数のカウントをストアし得る。インターフェ
イス論理は、受取ったインターフェイス論理がパケットをストアするための空き
バッファを有さない限り、パケットを送信しない。受信バッファがパケットを次
に経路制御することにより空になると、受信インターフェイス論理は、バッファ
が空いたことを示すメッセージを送信インターフェイス論理に送信する。そのよ
うな機構を、「クーポンに基づく」システムと称する。

【０１４８】Ｉ／Ｏ装置３２０Ａ−３２０Ｂは、どのような好適なＩ／Ｏ装置であってもよ
い。たとえば、Ｉ／Ｏ装置３２０Ａ−３２０Ｂは、ネットワークインターフェイ
スカード、ビデオアクセラレータ、オーディオカード、ハードまたはフロッピー
（Ｒ）ディスクドライブまたはドライブコントローラ、ＳＣＳＩ（スモールコン
ピュータシステムインターフェイス）アダプタおよび電話カード、モデム、サウ
ンドカード、およびさまざまなＧＰＩＢまたはフィールドバスインターフェイス
カードなどのデータ獲得カードを含み得る。

【０１４９】上の開示を十分に理解することにより、当業者においてはさまざまな展開例お
よび変形が明らかとなるであろう。前掲の特許請求の範囲は、そのような展開例
および変形をすべて包括すると解釈される。

【０１５０】産業上の用途この発明は、プロセッサおよびコンピュータシステムの分野に適用される。

【図面の簡単な説明】

【図１】プロセッサの一実施例のブロック図である。

【図２】図１に示されるプロセッサの一実施例によって採用される例示的
なパイプラインの図である。

【図３】図１に示されるマップユニット、スケジューラ、整数実行コア、
およびロード／ストアユニットの一実施例をより詳細に示すブロック図である。

【図４】図１および図３に示されるスケジューラの一実施例のブロック図
である。

【図５】依存性ベクトルの一実施例のブロック図である。

【図６】依存性バッファの一実施例のブロック図である。

【図７】図６に示される依存性バッファの部分の一実施例をより詳細に示
すブロック図である。

【図８】スケジューラの一実施例内の１つの命令動作に対するステートマ
シン図である。

【図９】スケジューラの一実施例内の命令動作ごとにストアされるステー
ト情報を示すブロック図である。

【図１０】依存性連鎖のアンドゥ（undo）を示すタイミング図である。

【図１１】スケジューラの一実施例からの命令動作の発行および再発行を
示すタイミング図である。

【図１２】スケジューラの一実施例からの命令動作の発行および非投機的
再発行を示すタイミング図である。

【図１３】図４に示される物理アドレスバッファの一実施例における例示
的なエントリおよび、エントリの際に動作されるべき例示的な論理の図である。

【図１４】図４に示されるストア識別バッファの一実施例における例示的
なエントリおよび、エントリの際に動作されるべき例示的な論理の図である。

【図１５】ストアアドレスのロードアドレスのヒットに応答してロードを
再試行する一実施例および、後の依存性動作のアンドゥを示すタイミング図であ
る。

【図１６】図１に示されるプロセッサを含むコンピュータシステムの第１
の実施例のブロック図である。

【図１７】図１に示されるプロセッサを含むコンピュータシステムの第２
の実施例のブロック図である。

【手続補正書】特許協力条約第３４条補正の翻訳文提出書

【提出日】平成１４年３月７日（２００２．３．７）

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】特許請求の範囲

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【手続補正２】

【補正対象書類名】明細書

【補正対象項目名】０００６

【補正方法】変更

【補正の内容】

【０００６】スケジューリング機構は依存性を考慮するが、実現される性能利得を最大化す
るために、アウトオブオーダーおよび／または投機的に命令をスケジューリング
するにおいては可能な限りアグレッシブであるべきである。しかしながら、スケ
ジューリング機構がよりアグレッシブになるにつれ（すなわち、特定の命令がス
ケジューリングされることを妨げる条件が少なくなるにつれ）、不正に実行され
る命令は増加する。不正に実行された命令に対する回復機構は、一般的に不正に
実行された命令とプロセッサパイプラインからのすべての後に続く命令とをパー
ジし、不正に実行された命令（および後の命令）を再フェッチすることで行なわ
れてきた。しばしば、パージおよび再フェッチは、ハードウェアの簡潔性のため
に不正実行の回復から（たとえば、不正に実行された命令が一連の命令の中で最
も古い命令になるまで）遅延する。クロックサイクルごとに実際に実行される命
令の平均数は、不正実行および後のパージ事象のために減少する。より頻繁に不
正実行が生じるアグレッシブなスケジューリング機構に対しては、これらの回復
機構に起因する性能劣化は実質的なものになり得る。したがって、アグレッシブ
な投機的またはアウトオブオーダースケジューリングによって可能となる、性能
利得を保護する、不正投機的実行から回復するための機構が所望となる。米国特許第５，９８７，５９４は、符号化された命令を受取り、実行のために
発行する命令スケジューリングユニットを用いて符号化命令を実行するプロセッ
サを開示する。プロセッサは、データがキャッシュに返されたときキャッシュに
おいてミスするメモリ動作と、そのメモリ動作に依存する命令とを再発行する。
さらに、プロセッサは「リードアフタライト」ハザードを検出し、書込データを
読出命令に転送することにより、メモリ動作のアウトオブオーダー実行を行ない
得る。

───────────────────────────────────────────────────── フロントページの続き (31)優先権主張番号０９／４７６，５７８ (32)優先日平成12年１月３日(2000．1．3) (33)優先権主張国米国（ＵＳ） (31)優先権主張番号０９／４７６，２０４ (32)優先日平成12年１月３日(2000．1．3) (33)優先権主張国米国（ＵＳ） (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＣＮ，ＪＰ，ＫＲ，ＳＧ (72)発明者ケラー，ジェイムズ・ビィアメリカ合衆国、94303 カリフォルニア州、パロ・アルト、アイリス・ウェイ、 210 (72)発明者ハダッド，ラムゼイ・ダブリュアメリカ合衆国、95014 カリフォルニア州、キューパーティーノ、セレステ・サークル、20728 (72)発明者マイアー，ステファン・ジィアメリカ合衆国、94043 カリフォルニア州、サニィベイル、ビーマー・アベニュ、 297 Ｆターム(参考） 5B013 AA12 AA17 CC01 CC07 DD00 【要約の続き】作の不正スケジューリングに対するペナルティは、特定の命令とすべてのより若い命令動作とをパージし特定の命令動作を再フェッチすることに対して、さらに減じられる。

Claims

【特許請求の範囲】

【請求項１】スケジューラ（３６）であって、第１の命令動作をストアするよう構成されるバッファ（８０）と、前記バッファ（８０）に結合される回路（８２；８６）とを含み、前記回路（
８２；８６）は、前記第１の命令動作を前記バッファ（８０）から発行のために
選択するよう構成され、前記回路（８２；８６）は、発行の後に前記バッファ（
８０）における前記第１の命令動作を保留するよう構成され、前記回路（８２；
８６）は、もし前記第１の命令動作が不正に実行されていれば前記第１の命令動
作を再発行するよう構成される、スケジューラ。
【請求項２】前記回路（８２；８６）に結合される依存性バッファ（８８
）をさらに含み、前記依存性バッファ（８８）は、前記バッファ（８０）内の前
記第１の命令動作の第２の命令動作に対する依存性を示す第１の依存性表示をス
トアするよう構成され、前記回路（８２；８６）は前記第２の命令動作の再発行
に応答して前記第１の命令動作を再発行するよう構成される、請求項１に記載の
スケジューラ。
【請求項３】前記第１の命令動作が不正に実行されたことを示す第１の信
号を実行ユニット（４２）から受けるよう結合され、前記回路（８２；８６）は
前記第１の信号に応答して前記第１の命令動作を再発行するよう構成され、前記
第１の信号はさらに、前記第１の命令動作が非投機的に実行されるべきことを示
し、前記回路（８２；８６）は、前記第１の命令動作が非投機的になるまで前記
第１の命令動作の再発行を遅延させるよう構成される、請求項１に記載のスケジ
ューラ。
【請求項４】前記命令動作が不正に実行されたことを示す第１の信号を実
行ユニット（４２）から受けるよう結合され、前記回路は前記第１の信号に応答
して第１の命令動作を再発行するよう構成される、請求項１に記載のスケジュー
ラ。
【請求項５】前記回路（８２；８６）に結合されるアドレスバッファ（９
０）をさらに含み、前記第１の命令動作は第１のメモリ動作であり、前記アドレ
スバッファ（９０）は、前記第１のメモリ動作によってアクセスされる第１のア
ドレスをストアするよう構成され、前記アドレスバッファは前記第１のアドレス
を受けるよう結合される、請求項１に記載のスケジューラ。
【請求項６】前記アドレスバッファ（９０）は、ストアメモリ動作の第２
のアドレスを受けるよう結合され、前記第１の命令動作は、もし前記ストアメモ
リ動作が第１の命令動作によってアクセスされる少なくとも１バイトを更新し、
かつ前記ストアメモリ動作がプログラム順序で前記第１のメモリに先行すれば、
不正に実行される、請求項５に記載のスケジューラ。
【請求項７】前記アドレスバッファ（９０）はデータキャッシュ（４４）
に転送されるデータを表示するフィルアドレスを受けるよう結合され、もし第１
のアドレスが前記データキャッシュに転送される前記データ内のデータを示せば
、前記回路は第１のメモリ動作を再発行するよう構成される、請求項５に記載の
スケジューラ。
【請求項８】ストアメモリ動作に対応するストアタグを受けるよう結合さ
れるタグバッファ（９２）をさらに含み、前記第１の命令動作は第１のメモリ動
作であり、前記ストアメモリ動作は前記第１のメモリ動作によってアクセスされ
る少なくとも１バイトを更新し、前記ストアメモリ動作はプログラム順序におい
て前記第１のメモリ動作に先行し、前記タグバッファ（９２）は、前記第１のメ
モリ動作の実行に応答して前記第１のメモリ動作に対応するエントリにおける前
記ストアタグをストアするよう構成される、請求項１に記載のスケジューラ。
【請求項９】前記タグバッファ（９２）はさらに実行ストアに対応する第
２のストアタグを受けるよう結合され、前記タグバッファ（９２）は、前記第２
のストアタグを前記ストアタグと比較するよう構成され、前記回路は、前記スト
アタグと前記第２のストアタグとが等しいことに応答して前記第１のメモリ動作
を再発行するよう構成される、請求項８に記載のスケジューラ。
【請求項１０】プロセッサ（１０）であって、請求項１から請求項９のいずれかに記載されるスケジューラ（３６）と、前記スケジューラに結合される実行ユニット（４２）とを含み、前記実行ユニ
ットは前記第１の命令動作を実行するよう構成される、プロセッサ（１０）。
【請求項１１】方法であって、実行のためにスケジューラ（３６）から第１の命令動作を発行するステップと
、前記発行するステップの後に、前記スケジューラ（３６）に前記第１の命令動
作を保留するステップと、前記第１の命令動作の不正な実行に応答して、前記スケジューラ（３６）から
前記第１の命令動作を実行のために再発行するステップとを含む、方法。
【請求項１２】前記第１の命令動作の前記第２の命令動作に対する依存性
を検出するステップと、第２の命令動作を再発行するステップとを含み、前記第１の命令動作は、もし前記第２の命令動作が再発行されており、かつ前
記第１の命令動作が前記第２の命令動作に依存していれば、不正に実行されてい
る、請求項１１に記載の方法。
【請求項１３】前記第１の命令動作が不正に実行されていることを示す信
号を受けるステップをさらに含み、前記再発行するステップは前記信号に応答す
る、請求項１１に記載の方法。
【請求項１４】前記信号はさらに、前記第１の命令動作が非投機的に実行
されるべきことを示し、前記第１の命令動作を再発行するステップは、前記第１
の命令動作が非投機的になるまで遅延される、請求項１３に記載の方法。
【請求項１５】前記発行に応答して前記第１の命令動作を実行するステッ
プと、前記再発行するステップに応答して前記第１の命令動作を実行するステッ
プとをさらに含む、請求項１１に記載の方法。
【請求項１６】前記第１の命令動作は第１のメモリ動作であって、前記方
法はさらに、アドレスバッファ（９０）に前記第１の命令動作の第１のアドレスをストアす
るステップと、前記第１の命令動作の発行の後に、プログラム順序で前記第１の命令動作に先
行するメモリ動作を発行するステップと、前記アドレスバッファ（９０）内の前記第１のアドレスと、前記ストアメモリ
動作に対応するストアアドレスとを比較するステップと、もし前記比較するステップが、前記ストアメモリ動作が前記第１のメモリ動作
によってアクセスされる少なくとも１バイトを更新していれば、前記第１の命令
動作は不正に実行されていることを検出するステップとを含む、請求項１１に記
載の方法。
【請求項１７】前記第１の命令動作は第１のメモリ動作であって、方法は
さらに、アドレスバッファ（９０）に前記第１の命令動作の第１のアドレスをストアす
るステップと、データキャッシュ（４４）に転送されるデータを示すフィルアドレスを比較す
るステップと、もし前記第１のアドレスが前記データ内のデータが前記データキャッシュに送
信されることを示せば、前記第１のメモリ動作を再発行するステップを含む、請
求項１１に記載の方法。
【請求項１８】前記第１の命令動作は第１のメモリ動作であって、方法は
さらに、ストアメモリ動作に対応するストアタグを、前記第１のメモリ動作に対応する
タグバッファ（９２）のエントリにストアするステップを含み、前記ストアメモ
リ動作は、前記第１のメモリ動作によってアクセスされる少なくとも１バイトを
更新し、前記ストアメモリ動作はプログラム順序で前記第１のメモリ動作に先行
し、方法はさらに、実行されたストアに対応する第２のストアタグと前記タグバッファ（９２）内
の前記ストアタグとを比較するステップと、前記比較するステップが等しいことを示すことに応答して、前記第１のメモリ
動作を再発行するステップとを含む、請求項１１に記載の方法。