JP2003280896A

JP2003280896A - 命令発行装置及び命令発行方法

Info

Publication number: JP2003280896A
Application number: JP2002077091A
Authority: JP
Inventors: Tatsuo Teruyama; 竜生照山
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2002-03-19
Filing date: 2002-03-19
Publication date: 2003-10-02
Anticipated expiration: 2022-03-19
Also published as: US20030182536A1; JP3577052B2

Abstract

(57)【要約】【課題】ロード命令において、キャッシュ・ミスが発
生した際、このロード命令と多段の依存関係を有する命
令を高速に検出することが困難であった。【解決手段】第１の検出回路１６ａは、ロード命令と
直接的に依存したレジスタを検出する。第２の検出回路
１６ｂは、第１の検出回路１６ａの出力信号及びキャッ
シュ・ミス信号Ｌ０Ｍｉｓｓ１Ｗに応じて、実行状態に
ある全ての命令とパイプラインの各ステージにある全て
ロード命令との間で多段の間接的な依存関係を検出す
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、例えばアウト・オ
ブ・オーダ（Out-of-order）に命令を発行するマイクロ
プロセッサに係わり、特に、命令スケジュールユニット
に使用される命令発行装置及び命令発行方法に関する。

【０００２】

【従来の技術】マイクロプロセッサにおける命令の実行
方式としてアウト・オブ・オーダ実行がある。このアウ
ト・オブ・オーダ実行は、先行命令と依存関係の無い後
続命令を順不同に実行する方式である。アウト・オブ・
オーダ実行は、演算器を有効に利用することが可能であ
り、マイクロプロセッサを高速に動作させることができ
る。

【０００３】ところで、アウト・オブ・オーダに命令を
発行するマイクロプロセッサは、投機的に命令を発行し
実行する。このため、ロード命令にキャッシュ・ミスが
発生した場合、このロード命令にデータが依存した幾つ
かの命令を無効とする必要がある。この後、キャッシュ
・メモリがリフィルされると、キャッシュ・ミスしたロ
ード命令に依存関係のある命令群が再発行され、実行さ
れる。

【０００４】図１４は、ロード命令に続いて発行された
複数の命令とロード命令との依存関係を示している。こ
こで、Ｉ、Ｒ、Ｅ、Ｍは、パイプラインの各ステージを
示し、Ｉは命令フェッチ、Ｒはレジスタ・リネーミン
グ、Ｅは実行、Ｍはデータ・キャッシュ・アクセスであ
る。ロード命令が発行されてから命令がオペランドを読
み出すまでのレイテンシは３サイクルある。このため、
ロード命令が発行された次のサイクルと、その次のサイ
クル（図１４に示すスロット１、２）にロード命令とデ
ータが依存のある命令を発行できないようにスケジュー
ルされる。スロット３とスロット４では、キャッシュが
ヒットすると仮定してロード命令に依存関係のある命令
が投機的に発行される。キャッシュ・ミスが判明するの
はＭステージである。このため、命令のスケジューリン
グによる遅延のため、スロット４の命令発行の時点にお
いて、スロット０のキャッシュ・ミスの有無を考慮でき
ない。

【０００５】ところが、スロット０のロード命令がキャ
ッシュ・ミスしているため、データを得ることができな
い。このため、スロット3とスロット４の命令は発行さ
れたものの正しく実行できないこととなる。したがっ
て、キャッシュ・ミスしたスロット０のロード命令と、
スロット３、４にある命令を全て破棄した後、キャッシ
ュのリフィルを行い、ロード命令を再発行する。さら
に、スロット３、４にあった破棄された命令を再発行す
る。スロット３と４には、ロード命令とデータが依存関
係のない命令が配置されることもある。この場合、命令
を破棄する必要はない。しかし、依存関係の有無によっ
て破棄するかどうかを決定することは困難である。この
ため、スロット３、４の命令をとにかく破棄し、後に再
実行する。したがって、無駄に命令を破棄してしまい命
令実行効率が低下する。

【０００６】各スロットは、複数の命令を実行できる。
近時、１つのスロットにおいて、２つの整数演算命令を
同時に実行できるマイクロプロセッサが開発されてい
る。この場合、合計４命令を破棄することになる。４命
令が全てロード命令に依存のない場合、全てが無駄に破
棄されたことになる。

【０００７】例えば、文献「R.E. Kessler、"The Alpha
21264 Microprocessor Architecture"、Proceedings I
nternational Conference on Computer Design: VLSI i
n Computers and processors、1998、ICCD "98、p90-9
5」には、キャッシュ・ミスしたロード命令に依存関係
のある命令群を再実行するための方法が開示されてい
る。

【０００８】上記文献場合、ロード命令がヒットするか
否かを予測し、ヒットと予測した場合のみ依存関係のあ
る命令を発行することによって、命令を破棄する確率を
下げている。しかし、ロード命令がヒットと予測され、
ロード命令と依存関係のない命令が発行された場合にお
いても、実際にはロード命令がミスヒットすることがあ
る。この場合、ロード命令と依存関係のない命令が無駄
に破棄されることになる。

【０００９】

【発明が解決しようとする課題】上記依存関係のない命
令を無駄に破棄しないようにするため、スロット３、４
の命令がロード命令に依存するかどうかを判定し、依存
関係のある命令だけを破棄するようにしたとする。しか
し、実際には、ロード命令以降の命令がロード命令の結
果に依存するかどうかを判断するだけでは不十分であ
る。すなわち、ロード命令に直接依存しなくとも、例え
ばロード命令に直接依存するスロット３の命令にスロッ
ト４の命令がさらに依存するかどうかも調べる必要があ
る。つまり、ロード命令に直接依存する命令だけでな
く、ロード命令に直接依存する命令に、さらに依存する
命令といった多段の間接依存関係にある命令もキャンセ
ルする必要がある。

【００１０】しかし、一般に、間接的に依存する命令は
検出せず、投機的に発行した依存関係を有する全ての命
令をキャンセルする。この場合、キャンセルしなくても
よい命令をキャンセルしてしまい、実行効率が低下す
る。また、多段の間接依存関係を全て検出するために
は、データ・フロー・グラフをトレースする必要があ
る。これを実現しようとする場合、ハードウエアコスト
が大きくなるとともに、周波数低下の原因にもなる。

【００１１】本発明は、上記課題を解決するためになさ
れたものであり、その目的とするところは、ロード命令
において、キャッシュ・ミスが発生した際、このロード
命令と多段の依存関係を有する命令を高速に検出するこ
とが可能な命令発行装置及び命令発行方法を提供しよう
とするものである。

【００１２】

【課題を解決するための手段】本発明の命令発行装置
は、上記課題を解決するため、命令をアウト・オブ・オ
ーダに投機的に発行する命令発行部と、前記命令発行部
により発行された命令と、パイプランの各ステージにあ
るロード命令を含む複数の命令との直接的な依存関係を
検出する第１の検出回路と、前記第１の検出回路の出力
信号と、前記ロード命令のキャッシュ・ミス信号とに基
づき、前記命令発行部により発行された命令と、前記パ
イプランの各ステージにあるキャッシュ・ミスしたロー
ド命令との間接的な依存関係を検出する第２の検出回路
とを具備している。

【００１３】本発明の命令発行方法は、第１の検出回路
でロード命令と後続の命令との直接的な依存関係を検出
し、第２の検出回路で前記ロード命令と後続の命令との
間接的な依存関係を検出し、この検出した間接的な依存
関係を直接的な依存関係に変換し、前記ロード命令にキ
ャッシュ・ミスが発生したことを示す信号と変換された
前記直接的な依存関係とにより、前記ロード命令と間接
的な依存関係を有する命令を検出することを特徴とす
る。

【００１４】

【発明の実施の形態】以下、本発明の実施の形態につい
て図面を参照して説明する。

【００１５】図１は、命令発行装置と実行ユニットの構
成を示している。先ず、図１の構成について概略的に説
明する。

【００１６】命令発行装置は、例えばＴステージ、Ｒス
テージ、Ｓステージ、Ｄステージ、Ａステージを有して
いる。Ｒステージ以降の各ステージは、整数ユニット
（ＩＵ）及び浮動小数点ユニット（ＦＰＵ）からなる２
系統の回路を有している。

【００１７】Ｔステージは、命令フェッチステージであ
り、命令をフェッチする命令フェッチユニット１１を有
している。命令フェッチユニット１１は、例えば２命令
を同時にフェッチする。

【００１８】Ｒステージはレジスタ・リネーミング・ス
テージである。Ｒステージは、前記命令フェッチユニッ
ト１１に接続された命令デコーダ１２、レジスタ・リネ
ーミング・ユニット１３ａ、１３ｂを有している。レジ
スタ・リネーミング・ユニット１３ａ、１３ｂは、さら
に命令デコーダ１２に接続されている。命令デコーダ１
２は命令フェッチユニット１１から供給される命令をデ
コードする。各レジスタ・リネーミング・ユニット１３
ａ、１３ｂは、例えばデコードされた２命令の論理レジ
スタに未使用の物理レジスタをそれぞれ割り当てる。

【００１９】Ｓステージは、命令スケジューリングステ
ージである。このＳステージは、命令・ウィンドウ・バ
ッファ（命令発行部）１４ａ、１４ｂ、レジスタ・スコ
ア・ボード・ユニット１５ａ、１５ｂを有している。命
令・ウィンドウ・バッファ１４ａは、命令デコーダ１
２、レジスタ・リネーミング・ユニット１３ａ、及びレ
ジスタ・スコア・ボード・ユニット１５ａに接続されて
いる。また、命令・ウィンドウ・バッファ１４ｂは、命
令デコーダ１２、レジスタ・リネーミング・ユニット１
３ｂ、及びレジスタ・スコア・ボード・ユニット１５ｂ
に接続されている。

【００２０】前記レジスタ・スコア・ボード・ユニット
１５ａ、１５ｂは、例えばフリップフロップ回路により
構成され、パイプラインで実行中の命令の書き込みレジ
スタに有効なデータが有るか否かを示す情報（フラグ）
を保持する。命令・ウィンドウ・バッファ１４ａ、１４
ｂは、レジスタ・リネーミング後の物理レジスタ番号等
を保持し、レジスタ・スコア・ボード・ユニット１５
ａ、１５ｂからの命令ステータスに基づき、所定の条件
を満足した場合、命令を発行する。命令・ウィンドウ・
バッファ１４ａは、パイプラインＩ０、Ｉ１に命令を発
行する。

【００２１】前記レジスタ・スコア・ボード・ユニット
１５ａは、依存関係検索回路（ＤＬＣ）１６に接続され
ている。ＤＬＣ１６は、ロード命令に直接的、又は間接
的に依存した命令を検索する。ＤＬＣ１６はレジスタ・
スコア・ボード・ユニット１５ａに設けられている。こ
れは、一般に、ロード命令が直接データを書き込むのは
整数レジスタファイルだからである。しかし、命令セッ
トによっては、浮動小数点レジスタファイルでデータを
書き込むこともある。したがって、図１に破線で示すよ
うに、ＤＬＣ１６をレジスタ・スコア・ボード・ユニッ
ト１５ｂに設けてもよい。

【００２２】命令・ウィンドウ・バッファ１４ａ、レジ
スタ・スコア・ボード・ユニット１５ａ及びＤＬＣ１６
の詳細については後述する。

【００２３】Ｄステージは、レジスタ・リード・ステー
ジである。Ｄステージは、レジスタ・ファイル１７ａ、
１７ｂを有している。レジスタ・ファイル１７ａは前記
命令ウィンドウ・バッファ・１４ａに接続され、レジス
タ・ファイル１７ｂは前記命令ウィンドウ・バッファ・
１４ｂに接続されている。

【００２４】Ａステージは、ＡＬＵ演算ステージであ
る。Ａステージは、演算ユニット１８、１９、及び浮動
小数点ユニット２０を有している。演算ユニット１８
は、整数ユニット１８ａ、ロード・ストア・ユニット１
８ｂを有している。演算ユニット１９は、整数ユニット
１９ａ、乗算除算ユニット１９を有している。整数ユニ
ット１８ａ、ロード・ストア・ユニット１８ｂ、整数ユ
ニット１９ａ、乗算除算ユニット１９は、レジスタ・フ
ァイル１７ａに接続されている。浮動小数点ユニット２
０はレジスタ・ファイル１７ｂに接続されている。

【００２５】前記ロード・ストア・ユニット１８ｂは、
アウト・オブ・オーダ実行を行うプロセッサにおいて、
アウト・オブ・オーダに処理されるロード命令、ストア
命令に対して、メモリを介したデータ依存関係を維持す
る。具体的には、ロード・ストア・ユニット１８ｂは、
メモリアクセス命令の順番を把握し、アウト・オブ・オ
ーダに発行されるメモリアクセス命令の順序を管理す
る。さらに、ロード・ストア・ユニット１８ｂは、ロー
ド命令の実行において、図示せぬデータ・キャッシュが
ミスヒットした場合、キャッシュ・ミス信号Ｌ０Ｍｉｓ
ｓ１ｎ（ｎはパイプラインのステージ）を出力する。こ
のキャッシュ・ミス信号Ｌ０Ｍｉｓｓ１ｎは前記ＤＬＣ
１６に供給される。

【００２６】図２は、本実施例のパイプラインの一例を
示すダイアグラムである。各ステージの意味は、次の通
りである。

【００２７】Ｆ：命令フェッチステージ１Ｉ：命令フェッチステージ２Ｔ：命令転送Ｒ：レジスタ・リネーミングＳ：命令スケジューリングＤ：レジスタ・リードＡ：ＡＬＵ演算Ｗ：ライト・バックＸ：Ｗの次Ｙ：Ｘの次Ｚ：Ｙの次Ｃ：完了Ｍ：データ・キャッシュ・アクセス図１に示す構成において、Ｔステージは、図２のＦ、
Ｉ、Ｔステージに対応している。

【００２８】次に、図１に示す各部の動作について説明
する。

【００２９】（命令フェッチ）命令フェッチユニット１
１は、実行すべき２命令をフェッチする。この命令フェ
ッチユニット１１によりフェッチされた２命令は、Ｒス
テージに供給される。

【００３０】（レジスタ・リネーミング）命令デコーダ
１２は、命令フェッチユニット１１から供給される命令
をデコードし、その命令がソースオペランドを必要とす
るか、及び演算結果はデスティネーション・レジスタに
書き込まれるかを判断する。レジスタ・リネーミング・
ユニット１３ａ、１３ｂは、命令とデコード情報に基づ
き、命令のソース・レジスタとデスティネーション・レ
ジスタの論理レジスタ番号に物理レジスタ番号を割り当
てる。図示せぬマッピングテーブルには、論理レジスタ
番号に対してそれまでに割り当てられた物理レジスタ番
号が対応して保存されている。このため、論理レジスタ
番号をキーとして最後に割り当てられた物理レジスタ番
号を検索することができる。ソース・レジスタを割り当
てる場合、命令コードから取り出した論理レジスタ番号
（Ｒｓ、Ｒｔ）をマッピングテーブルにインデックスと
して入力し、物理レジスタ番号（ＰＲｓ、ＰＲｔ）を検
索する。デスティネーション・レジスタ（Ｒｄ）を割り
当てる場合、先ず、未使用の物理レジスタ番号を保持し
ているフリーリストから未使用の物理レジスタ番号を取
り出す。この物理レジスタ番号をデスティネーション・
レジスタに割り当てる。さらに、割り当てた物理レジス
タ番号（ＰＲｄ）を論理レジスタ番号をキーとして参照
できるように、マッピングテーブルに書き込む。同じ論
理レジスタ番号にそれまで割り当てられていた物理レジ
スタ番号（マッピングテーブルにおいて上書きされた物
理レジスタ番号）は、論理レジスタ番号とあわせてアク
ティブリストに書き込まれる。アクティブリストは、最
大で６４個の命令をキューイングすることができる。ア
クティブリストには各エントリにインデックス番号が設
けられている。このインデックス番号は、ＩＴａｇとし
て他のユニットにおいて命令をアイデンティファイする
ために用いられる。

【００３１】（命令・ウィンドウ・バッファ）図３は、
前記命令・ウィンドウ・バッファ１４ａ、１４ｂの一例
を示している。命令・ウィンドウ・バッファ１４ａ、１
４ｂは、例えば１６個のエントリを有している。各エン
トリは命令の古い順に並んでいる。新しい命令が命令フ
ェッチユニット１１から供給された場合、空いているエ
ントリうち、最も古い命令が入っているエントリに近い
エントリに書き込まれる。

【００３２】命令・ウィンドウ・バッファ１４ａ、１４
ｂは、命令デコーダ１２から供給される命令デコード情
報と、レジスタ・リネーミング・ユニット１３ａ、１３
ｂから供給される物理レジスタ番号と、命令フェッチユ
ニット１１から供給される命令コードと、命令バリッド
（Valid）信号とを記憶する。すなわち、命令フェッチ
ユニット１１から出力された命令バリッド信号が“１”
であるとき、命令・ウィンドウ・バッファ１４ａ、１４
ｂは、命令コードと、物理レジスタ番号などを空いたエ
ントリに書き込む。命令・ウィンドウ・バッファに空き
エントリが無くなった場合、命令フェッチユニット１１
に対してフェッチ停止要求（Fetch Stall Request）信
号をアサートする。

【００３３】命令・ウィンドウ・バッファ１４ａ、１４
ｂは、コンプレッサ１４ｃを有している。命令を実行ユ
ニットに発行した後、このコンプレッサ１４ｃは、発行
された命令のエントリを無効化し、空きエントリを作成
する。

【００３４】前述したように、Ｒステージ以降の各ステ
ージは、整数ユニット（ＩＵ）及び浮動小数点ユニット
（ＦＰＵ）からなる２系統の回路を有している。しか
し、以下の説明において、ＦＰＵの動作は省略し、ＩＵ
の動作のみ説明する。

【００３５】図４は、命令・ウィンドウ・バッファを構
成する各エントリのフォーマットを示している。図４に
示す各フィールドについて簡単に説明する。

【００３６】ＩＴａｇ：命令に対してユニークに振られ
た識別子であり、０〜６３のいずかの値をとる。この値
は、アクティブリストのエントリ番号と等しい。

【００３７】Ｉｎｓｔｒｕｃｔｉｏｎ：３２ｂｉｔ長の
命令コードそのもの。

【００３８】ＦＵ：命令を発行すべきＦｕｎｃｔｉｏｎ
ａｌＵｎｉｔを示すフィールド。Ｒステージで命令が
デコードされ、命令の種類によってＦＵ（ファンクショ
ン・ユニット）が決定される。このＦＵは、レジスタ・
リネーミング情報とともに命令・ウィンドウ・バッファ
に書き込まれる。ＦＵは４ビットにより構成されてい
る。ｂｉｔ３は命令がＡＬＵ命令であり、Ｉ０の整数ユ
ニットに発行されるべきものを示す。ｂｉｔ２はロード
・ストア・ユニットである。ｂｉｔ１はＩ１の整数ユニ
ットに命令が発行されるべきことを示し、ｂｉｔ０は乗
除算ユニットに命令が発行されるべきことを示してい
る。

【００３９】ＰＲｓ、ＰＲｔ、ＰＲｆ：ソースオペラン
ドの物理レジスタ番号。

【００４０】ＰＲｄ：デスティネーションの物理レジス
タ番号。

【００４１】ＲｓＲｄｙ、ＲｔＲｄｙ、ＲｆＲｄｙ：ソ
ース・レジスタのＰＲｓ、ＰＲｔ、ＰＲｆが使用可能で
あることを示すフラグ。すなわち、Ｒｓ、Ｒｔ、Ｒｆと
同一番号の物理レジスタに書き込む命令が実行を終了し
て演算結果が（内部バイパスや、レジスタ・ファイルを
通して）使える状態になる３サイクル前にセットされ
る。この３サイクルは、このＲｄｙビットを参照してか
ら命令を発行し、さらに命令がオペランドを読み出すま
でのレイテンシ分に当たる。

【００４２】ＥｎｔｒｙＲｄｙ：グローバルなエントリ
Ｒｅａｄｙビットであり、何らかの理由、例えば命令が
イン・オーダーに実行される場合にセットされる。ま
た、ある時点で実行不可能な場合にはクリアされる。

【００４３】Ｌ１ＭｉｓｓＳＭ：ロード命令又はストア
命令である場合、キャッシュ・ミス、非キャッシュ・ア
クセス等のステートを保持するレジスタ。命令のキャッ
シュ・ミス後において、再発行（ロールバック）タイミ
ングを決めるためのもの。

【００４４】ＩｎＦｌｉｇｈｔ：エントリの命令が現在
実行中であることを示す。

【００４５】Ｒｓｖ：エントリが次のサイクルでどのユ
ニット（Ｉ０／Ｉ１）に発行予定であるかを示す。

【００４６】Ｖａｌｉｄ：有効なエントリであるかどう
かを示す。

【００４７】（命令・ウィンドウ・バッファ・エントリ
のアップデート）命令・ウィンドウ・バッファ１４ａ
は、各エントリをアップデートするためのアップデート
回路を有している。

【００４８】図５は、命令・ウィンドウ・バッファ１４
ａのアップデート回路２１の一例を示している。図５に
おいて、図１と同一部分には同一符号を付している。

【００４９】命令・ウィンドウ・バッファ１４ａの各エ
ントリには、アップデート回路２１が接続されている。
このアップデート回路２１は、命令・ウィンドウ・バッ
ファ１４ａに蓄えられた命令を、先行する命令の実行進
度に応じて各種ステータスビットを更新する。すなわ
ち、アップデート回路２１には、ＲＡＴ（Register Ava
ilability Table）２２が接続されている。このＲＡＴ
２２には、レジスタ・スコア・ボード・ユニット１５ａ
が接続されている。レジスタ・スコア・ボード・ユニッ
ト１５ａ及びＲＡＴ２２は、物理レジスタ番号をキーと
して参照する記憶部であり、物理レジスタが使用可能か
どうかを示している。このＲＡＴ２２は、データの演算
が終了すると、レジスタ・スコア・ボード・ユニット１
５ａから供給される信号に応じて、演算結果を格納する
物理レジスタにフラグがセットされる。アップデート回
路２１は、ＲＡＴ２２から供給されるレジスタのステー
タス及びレジスタ・スコア・ボード・ユニット１５ａか
ら供給される命令のステータスに基づき、エントリを毎
サイクルアップデートする。

【００５０】さらに、命令・ウィンドウ・バッファ１４
ａの各エントリには、前記ＤＬＣ１６が接続されてい
る。このＤＬＣ１６は、ロード・ストア・ユニット１８
ｂから出力されるキャッシュ・ミス信号に応じてロード
命令に依存する命令を検索する。ＤＬＣ１６から出力さ
れる依存関係を示す信号Ｄｐｅｎｄ１Ａは、レジスタ・
スコア・ボード・ユニット１５ａ、及びＲＡＴ２２に供
給される。ＤＬＣ１６から信号Ｄｅｐｅｎｄ１Ａが出力
された場合、レジスタ・スコア・ボード・ユニット１５
ａの命令のステータスに基づき、依存関係のある物理レ
ジスタに対するＲＡＴ２２のエントリを無効化する。さ
らに、アップデート回路２１は、命令・ウィンドウ・バ
ッファ１４ａ内において、依存関係のある物理レジスタ
を無効状態にリセットする。ロード命令の実行時におい
て、キャッシュ・ミスが発生した時の詳細な動作は後述
する。

【００５１】（命令発行）前述したように、本実施形態
の命令発行装置は、同時に２つの命令を発行する。命令
・ウィンドウ・バッファ１４ａの各エントリの命令は、
次の条件を満たした時、発行可能な状態となる。

【００５２】（１）ＲｓＲｄｙ、ＲｔＲｄｙ、ＲｆＲｄ
ｙ、ＨｓＲｄｙ、ＥｎｔｒｙＲｄｙが全てセットされて
いる（発行許可の状態になっている）。

【００５３】（２）ＦＵで指定される命令実行ユニット
（ＩＵ０、ＩＵ１、ＬＳＵ、ＭＡＣ）が以前の演算を終
了し、命令を受けられる状態であること。

【００５４】（３）レジスタ・ファイルのライトポート
コンフリクトがないこと（レジスタ・ファイルに結果を
書き込むべきタイミングの時、ライトポートが空いてい
ること）。

【００５５】（４）ＩｎＦｌｉｇｈｔビットがクリアさ
れていること（同一命令が実行中でないこと）。

【００５６】（５）Ｌ１ＭｉｓｓＳＭが発行停止状態で
ないこと。

【００５７】図６は、上記条件を判定するためのディス
パッチ決定回路３１の一例を示している。このディスパ
ッチ決定回路３１は、命令・ウィンドウ・バッファ１４
ａの各エントリに独立に設けられている。図６は、１つ
のエントリのディスパッチ・ロジックを示している。デ
ィスパッチ決定回路３１は、命令・ウィンドウ・バッフ
ァ１４ａの各エントリとレジスタ・スコアボード・ユニ
ット１５ａに接続されている。ディスパッチ決定回路３
１は、命令・ウィンドウ・バッファ１４ａの各エントリ
とレジスタ・スコアボード・ユニット１５ａから供給さ
れる信号に応じて上記条件を判定する。この判定に応じ
てディスパッチ決定回路３１は、各エントリがそれぞれ
どの実行ユニットに命令を発行することが可能であるか
を示す信号dispatchable to Ｉ０、Ｉ１を出力する。

【００５８】図７は、発行可能なエントリから発行予定
エントリを決定する回路の一例を示している。各エント
リのディスパッチ決定回路から出力される信号dispatch
ableto Ｉ０、Ｉ１は、プライオリティ・セレクタ４１
の入力端に供給される。このプライオリティ・セレクタ
４１の出力端は、アップデート回路４２に供給される。

【００５９】プライオリティ・セレクタ４１は、複数の
エントリが同時に同一実行ユニットに対して発行可能で
あった場合、そのうちの最も古いエントリから出力され
る信号dispatchable to Ｉ０、Ｉ１を選択する。さら
に、プライオリティ・セレクタ４１は、選択されたエン
トリに対して信号dispatch EntX to IY ( X=0,1〜15)、
(Y=0,1)を出力する。この信号dispatch EntX to IY ( X
=0,1〜15)、(Y=0,1)は、アップデート回路４２に供給さ
れる。このアップデート回路４２は、信号dispatchEntX
to IY ( X=0,1〜15)、(Y=0,1)がアサートされたエント
リに対応するＲｓｖビットをセットする。

【００６０】（１６−１Ｍｕｘ制御について）図８は、
命令・ウィンドウ・バッファ１４ａの一例を示す構成図
である。図８は、１６個のエントリからパイプラインＩ
０とパイプラインＩ１に命令を発行する様子を示してい
る。各エントリ０〜１５にはマルチプレクサ（ＭＵＸ）
５１、５２の入力端が接続されている。マルチプレクサ
５１、５２は、各エントリのＲｓｖビットの内容に応じ
て制御される。マルチプレクサ５１の出力端は、ラッチ
回路５３に接続され、マルチプレクサ５２の出力端は、
ラッチ回路５４に接続されている。ラッチ回路５３は、
パイプラインＩ０に命令を発行し、ラッチ回路５４は、
パイプラインＩ１に命令を発行する。

【００６１】前述したように、命令・ウィンドウ・バッ
ファ１４ａの各エントリに設けられた命令発行予定を示
すＲｓｖビットがセットされている場合、そのエントリ
は、次のサイクルでディスパッチされる命令である。こ
のため、Ｒｓｖ［１］がセットされている場合、マルチ
プレクサ５２を介してパイプＩ０に進み、Ｒｓｖ［０］
がセットされている場合、マルチプレクサ５１を介して
パイプＩ１に進む。すなわち、Ｓステージの最後（Ｒｓ
ｖビットが既にセットされているサイクル）において、
Ｒｓｖビットの値に応じて、マルチプレクサ５１、５２
によりパイプＩ０とＩ１それぞれに対して、１６個のエ
ントリのうち、１つのエントリが選択される。この選択
されたエントリは、ラッチ回路５３、５４にラッチされ
る。ラッチ回路５３、５４の出力信号はレジスタ・ファ
イル１７ａを介して各演算ユニットに送られる。ラッチ
回路５３の出力信号は、パイプラインＩ０に設けられた
整数ユニット１８ａ、及びロード・ストア・ユニット１
８ｂに供給される。ラッチ回路５４の出力信号は、パイ
プラインＩ１に設けられた整数ユニット１９ａ、乗算・
除算ユニット１９ｂに供給される。各演算ユニットは、
レジスタ・ファイル１７ａからデータを読み出し、決め
られた演算やメモリアクセスを行う。各演算ユニットの
演算結果はレジスタ・ファイル１７ａに書き込まれる。

【００６２】（ＲＡＴの参照と更新）図５に示すＲＡＴ
２２は、前述したように、物理レジスタ番号をキーにし
て参照するテーブルであり、その物理レジスタが使用可
能かどうかを示している。このＲＡＴ２２はレジスタ・
スコア・ボードロジックの一部でもある。ＲＡＴ２２の
エントリに例えば“１”がセットされている場合、その
エントリに対応する物理レジスタのデータは既に求めら
れており、参照可能であることを示している。また、Ｒ
ＡＴ２２のエントリに例えば“０”がセットされている
場合、そのエントリに対応する物理レジスタのデータは
参照できない。

【００６３】アップデート回路２１は、命令・ウィンド
ウ・バッファ１４ａの各エントリのＲｓ、Ｒｔ、Ｒｆに
対応するＲＡＴ２２を参照する。この結果、ＲＡＴ２２
のＲｓ、Ｒｔ、Ｒｆに対応するエントリに“１”がセッ
トされている場合、ＲｓＲｄｙ、ＲｔＲｄｙ、ＲｆＲｄ
ｙをセットする。また、アップデート回路２１は、命令
・ウィンドウ・バッファ１４ａの各エントリのＲｓ、Ｒ
ｔ、Ｒｆに対応するＲＡＴ２２を参照する。この結果、
ＲＡＴ２２のＲｓ、Ｒｔ、Ｒｆに対応するエントリに
“０”がセットされている場合、ＲｓＲｄｙ、ＲｔＲｄ
ｙ、ＲｆＲｄｙをクリアする。

【００６４】データの依存関係をチェックするため、命
令ディスパッチ時にＲＡＴ２２を参照するタイミング
と、実際にデータを参照する（レジスタ・ファイル１７
ａを読み出す、あるいはデータをバイパスする）タイミ
ングにはずれがある。このため、ある命令の実行が終了
した時、その物理デスティネーション・レジスタにデー
タが書き込まれるよりも３サイクル早いタイミングで、
その書き込みレジスタのＲＡＴ２２をセットする。

【００６５】図９は、ＡＬＵ命令の動作タイミングの一
例を示している。図９において、ＲＡＴ２２はＳステー
ジでセットされる。一方、データが実際に得られるのは
３サイクル後のＷステージである。このため、ＲＡＴ２
２のセットタイミングと書き込みタイミングとがずれて
いる。

【００６６】図１０は、ロード命令の動作タイミングの
一例を示している。ロード命令の場合、Ｗステージの３
サイクル前であるＤステージでＲＡＴ２２をセットす
る。

【００６７】また、その物理レジスタを使用しなくなっ
たとき、その物理レジスタに対応するＲＡＴ２２をクリ
アする。すなわち、同一論理レジスタに別の物理レジス
タが割り当てられ、その使用が終了した場合、以前に割
り付けられていた物理レジスタを開放する。このとき、
その物理レジスタに対応するＲＡＴ２２をクリアする。

【００６８】また、通常、ＲＡＴ２２は投機的に実行さ
れた命令のデスティネーション・レジスタに対しても即
座に更新される。これは依存関係のある命令を最短のレ
イテンシで実行し、アウト・オブ・オーダのメリットを
生かすためである。しかし、分岐予測ミスや、例外が発
生した場合、予測ミスした分岐命令や、例外を発生した
命令が終了したイン・オーダーの時点にＲＡＴ２２を戻
す必要がある。例えば例外が発生した命令の次の命令は
実行前で止まる必要がある。このため、その命令が書き
込む物理レジスタは、ＲＡＴ内において無効にしなけれ
ばならない。このようなＲＡＴを便宜上ワーキングＲＡ
Ｔと呼ぶ。

【００６９】ところが、実際は投機的に命令を実行して
いる。このため、既にワーキングＲＡＴはセットされて
いる可能性がある。したがって、命令の実行が完了した
時、例外発生や分岐予測ミスを判定し、実行が完了した
時のステートを持つイン・オーダーで更新するＲＡＴ
（便宜上、イン・オーダーＲＡＴと呼ぶ）を別に１セッ
ト設けておく。例外発生、分岐予測ミス時、イン・オー
ダーＲＡＴの内容をワーキングＲＡＴに一括コピーす
る。これによって、ワーキングＲＡＴを、分岐予測ミス
や例外発生直後の状態にリストアすることができる。

【００７０】（データ・キャッシュ・ミス時の動作）図
１０に示すロード命令のタイミング図から分かるよう
に、ロード命令のデスティネーション・レジスタＲｄに
対応するＲＡＴのセットは、レイテンシを最短にするた
め、ロード命令のＤステージで行われる。これはロード
命令のキャッシュ・ミスが判明するＷステージの３サイ
クル前である。すなわち、この３サイクル間はロード命
令がミスするかもしれない状況にもかかわらず、ロード
命令の実行結果にデータが依存した命令を発行してしま
う。このような構成とすることにより、仮に、ロード命
令がヒットした場合、最短のレイテンシで命令を実行す
ることが可能となる。

【００７１】本質的には、ＲＡＴの更新のためのサイク
ル、参照のためのサイクルと、ディスパッチのためのサ
イクルの３サイクルがこれに当たる。しかし、これを０
サイクルとすることはできない。このため、そのサイク
ル分だけ、投機実行となる期間が確実に存在する。

【００７２】キャッシュがヒットした場合、何も問題は
生じない。したがって、命令の実行を続ければよい。し
かし、キャッシュ・ミスが発生した場合、次のような処
理を行う必要がある。すなわち、（１）キャッシュ・ミスしたロード命令、ならびに、ロ
ード命令に依存しスケジュールが完了し、又は実行中の
命令を無効化する。

【００７３】（２）ＲＡＴにおけるロード命令のデステ
ィネーション・レジスタ、及びロード命令に依存した命
令のデスティネーション・レジスタをクリアする。

【００７４】（３）無効化された命令をキャッシュがリ
フィルされた後、再実行する。

【００７５】上記処理を行うため、先ず、ロード命令に
依存した実行中の命令と、ロード命令と無関係な命令と
を区別しなければならない。また、上述したように、ロ
ード命令は、３サイクルの投機的実行期間がある。この
ため、ロード命令に直接的に依存した命令だけでなく、
ロード命令に依存した第１の命令に、依存する第２の命
令、さらに第２の命令に依存する第３の命令といった３
重の依存関係まで検出する必要がある。また、ある命令
のソース・レジスタＲｓは第１のロード命令に依存し、
ソース・レジスタＲｔは第２のロード命令に依存すると
いうように、複数のロード命令に並列した依存関係も検
出する必要がある。さらに、それらが複合した依存関係
も検出する必要がある。

【００７６】図１１は、上記ロード命令と他の命令との
依存関係の例を示すパイプライン・ダイアグラム、及び
データ・フロー・グラフを示している。図１１（ａ）
（ｂ）（ｃ）に示す例は、全てキャッシュ・ミスが判明
する前に命令発行しなければならないケースである。こ
れらの例において、レジスタ番号は論理レジスタではな
く物理レジスタを示すものとする。

【００７７】図１１（ｃ）に示す２並列２重間接依存の
場合を例に説明する。データ・フロー・グラフにおい
て、○印で示すレジスタはキャッシュ・ミスが判別され
る前のロード命令の結果である。ロード命令に着目する
と、ｒ４はｒ１に依存し，ｒ７はｒ２に依存する。さら
に、ｒ８はｒ４、ｒ７に依存し、ｒ１０はｒ４に依存す
る。

【００７８】図１１（ｃ）において、（１）のｌｗ（ロ
ード）命令がキャッシュ・ミスし、（２）のｌｗ（ロー
ド）命令がキャッシュ・ヒットした場合、次のように処
理する。

【００７９】先ず、（１）のロード命令に対応するｒ１
に依存するものは全て無効化する。しかし、（２）のロ
ード命令に対応するｒ２に依存するものは有効である。
このため、ＲＡＴのｒ４、ｒ１０、ｒ８を無効化する。
さらに、これらｒ４、ｒ１０、ｒ８を使用する（３）、
（５）、（６）の命令を無効化し、再発行する。ただ
し、ＲＡＴのｒ７と（４）のｓｕｂ命令は無効化しな
い。

【００８０】上記一連の動作を実行するため、次の処理
を行う。

【００８１】（１）依存関係検索回路（ＤＬＣ）１６に
よる間接依存の検出。

【００８２】（２）ＲＡＴの更新。

【００８３】（３）命令・ウィンドウ・バッファでのロ
ールバック動作。

【００８４】（ＤＬＣによる間接依存の検出）先ず、Ｄ
ＬＣ１６によるロード命令と依存した命令の検出につい
て説明する。

【００８５】図１２は、ＤＬＣ１６の一実施例を示して
いる。図１２において、第１の検出回路１６ａは、ロー
ド命令と直接的に依存したレジスタを検出する。また、
第２の検出回路１６ｂは、多段の間接的な依存関係を検
出する。

【００８６】第１の検出回路１６ａは、パイプラインス
テージの数と同数のレジスタＲ１〜Ｒ６、比較器Ｃ１〜
Ｃ６、Ｃ１１〜Ｃ１６オア回路ＯＲ１〜ＯＲ６を有して
いる。前記レジスタＲ１〜Ｒ６は、直列接続され、所謂
シフトレジスタを構成している。これらレジスタＲ１〜
Ｒ６は、Ｄステージの命令・ウィンドウ・バッファ１４
ａから命令の実行に応じて順次出力されるデスティネー
ション・レジスタ（Ｒｄ）の番号を保持する。前記比較
器Ｃ１〜Ｃ６の一方入力端には、命令・ウィンドウ・バ
ッファ１４ａから順次出力されるソース・レジスタ（Ｒ
ｔ）の番号が供給される。これら比較器Ｃ１〜Ｃ６の他
方入力端には、前記レジスタＲ１〜Ｒ６の出力信号がそ
れぞれ供給される。また、前記比較器Ｃ１１〜Ｃ１６の
一方入力端には、命令・ウィンドウ・バッファ１４ａか
ら順次出力されるソース・レジスタ（Ｒｓ）の番号が供
給される。これら比較器Ｃ１１〜Ｃ１６の他方入力端に
は、前記レジスタＲ１〜Ｒ６の出力信号がそれぞれ供給
される。前記比較器Ｃ１〜Ｃ６の出力端はオア回路ＯＲ
１〜ＯＲ６の一方入力端に供給される。前記比較器Ｃ１
１〜Ｃ１６の出力端は前記オア回路ＯＲ１〜ＯＲ６の他
方入力端に供給される。

【００８７】一方、第２の検出回路１６ｂは、アンドオ
ア回路ＡＯＲ１〜ＡＯＲ６、アンド回路Ａ１〜Ａ４、ラ
ッチ回路ＸＡ、ＹＡ、ＺＡ、ＺＺＡ、ＹＭ、ＺＭ、Ｚ
Ｗ、Ｌ０Ｍｉｓｓ１Ｘ、Ｌ０Ｍｉｓｓ１Ｙ、Ｌ０Ｍｉｓ
ｓ１Ｚ、及びオア回路ＯＲ７により構成されている。ア
ンドオア回路ＡＯＲ１〜ＡＯＲ６は、アンド回路とオア
回路が直列接続されている。アンドオア回路ＡＯＲ１〜
ＡＯＲ６は、ロード命令に間接的に依存する命令を検出
し、この検出した依存関係を直接依存にマッピングす
る。

【００８８】前記オア回路ＯＲ１の出力信号ＥｑＡは、
アンドオア回路ＡＯＲ１、ＡＯＲ２、ＡＯＲ３を構成す
るアンド回路の一方入力端に供給される。前記オア回路
ＯＲ２の出力信号ＥｑＭは、アンドオア回路ＡＯＲ４、
ＡＯＲ５を構成するアンド回路の一方入力端に供給され
る。前記オア回路ＯＲ３の出力信号ＥｑＷは、アンドオ
ア回路ＡＯＲ６を構成するアンド回路の一方入力端、及
びアンド回路Ａ１の一方入力端に供給される。前記オア
回路ＯＲ４の出力信号ＥｑＸは、アンド回路Ａ２の一方
入力端に供給される。前記オア回路ＯＲ５の出力信号Ｅ
ｑＹは、アンド回路Ａ３の一方入力端に供給される。前
記オア回路ＯＲ６の出力信号ＥｑＺは、アンド回路Ａ４
の一方入力端に供給される。

【００８９】一方、ロード・ストア・ユニット１８ｂか
ら供給されるキャッシュ・ミス信号Ｌ０Ｍｉｓｓ１Ｗ
は、前記アンド回路Ａ１の他方入力端に供給されるとと
もに、ラッチ回路Ｌ０Ｍｉｓｓ１Ｘに供給される。ラッ
チ回路Ｌ０Ｍｉｓｓ１Ｘの出力信号は、前記アンド回路
Ａ２の他方入力端に供給されるとともに、ラッチ回路Ｌ
０Ｍｉｓｓ１Ｙに供給される。ラッチ回路Ｌ０Ｍｉｓｓ
１Ｙの出力信号は、前記アンド回路Ａ３の他方入力端に
供給されるとともに、ラッチ回路Ｌ０Ｍｉｓｓ１Ｚに供
給される。ラッチ回路Ｌ０Ｍｉｓｓ１Ｚの出力信号は、
前記アンド回路Ａ４の他方入力端に供給される。

【００９０】前記アンド回路Ａ４、Ａ３、Ａ２の出力信
号ＤＤＺ、ＤＤＹ、ＤＤＸは、前記アンドオア回路ＡＯ
Ｒ６、ＡＯＲ５、ＡＯＲ３を構成するオア回路の一方入
力端にそれぞれ供給される。前記アンドオア回路ＡＯＲ
６を構成するオア回路の出力信号は、前記アンドオア回
路ＡＯＲ４を構成するオア回路の一方入力端に供給され
る。前記アンドオア回路ＡＯＲ４を構成するオア回路の
出力信号は、前記アンドオア回路ＡＯＲ１を構成するオ
ア回路の一方入力端に供給される。前記アンドオア回路
ＡＯＲ５を構成するオア回路の出力信号は、前記アンド
オア回路ＡＯＲ２を構成するオア回路の一方入力端に供
給される。

【００９１】前記アンド回路Ａ１の出力信号ＤＤＷは、
ラッチ回路ＸＡに供給される。前記アンドオア回路ＡＯ
Ｒ１、ＡＯＲ２、ＡＯＲ３を構成するオア回路の出力信
号は、前記ラッチ回路ＺＺＡ、ＺＡ、ＹＡの入力端に供
給される。これらラッチ回路ＸＡ、ＹＡ、ＺＡ、ＺＺＡ
の出力信号は、オア回路ＯＲ７の入力端に供給される。
また、ラッチ回路ＸＡ、ＹＡ、ＺＡの出力信号は、前記
アンドオア回路ＡＯＲ３、ＡＯＲ２、ＡＯＲ１を構成す
るアンド回路の他方入力端にそれぞれ供給される。

【００９２】前記ラッチ回路ＸＡの出力信号は、ラッチ
回路ＹＭに供給され、前記ラッチ回路ＹＡの出力信号
は、ラッチ回路ＺＭに供給される。前記ラッチ回路ＹＭ
の出力信号はラッチ回路ＺＷに供給される。前記ラッチ
回路ＺＭ、ＹＭの出力信号は、前記アンドオア回路ＡＯ
Ｒ４、ＡＯＲ５を構成するアンド回路の他方入力端にそ
れぞれ供給される。前記ラッチ回路ＺＷの出力信号は、
前記アンドオア回路ＡＯＲ６を構成するアンド回路の他
方入力端に供給される。前記オア回路ＯＲ７の出力端か
ら、後述する依存関係の有無を示す信号Ｄｅｐｅｎｄ１
Ａが出力される。

【００９３】上記構成のＤＬＣ１６は、次のステップで
依存関係を検出する。

【００９４】（１）物理レジスタ番号比較。

【００９５】（２）直接依存の検出。

【００９６】（３）間接依存を検出し、検出した間接依
存を直接依存へ写像。

【００９７】（４）依存信号の生成。

【００９８】（５）直接依存のステージング。

【００９９】図１１（ｃ）を参照して、上記ＤＬＣ１６
の動作について説明する。図１１（ｃ）において、
（１）のｌｗ（ロード）命令がキャッシュ・ミスを発生
するものとする。

【０１００】命令・ウィンドウ・バッファ１４ａから
は、図１１（ｃ）に（１）〜（６）で示す順序に従っ
て、各命令のデスティネーション・レジスタ番号、ソー
ス・レジスタＲｓ、Ｒｔの番号が出力される。デスティ
ネーション・レジスタ番号はＤＬＣ１６のレジスタＲ１
に供給される。レジスタＲ１に保持されたデスティネー
ション・レジスタ番号は、パイプラインの各ステージの
実行に従ってレジスタＲ１〜Ｒ６に順次シフトされる。
また、各命令のソース・レジスタＲｔの番号は、比較器
Ｃ１〜Ｃ６に同時に供給され、ソース・レジスタＲｓの
番号は、比較器Ｃ１１〜Ｃ１６に同時に供給される。

【０１０１】時刻ｔ４において、（３）のａｄｄ命令が
Ｄステージにある。このため、ａｄｄ命令の２つのソー
ス・レジスタＲｓ、Ｒｔの番号が、実行状態（in-fligh
t）のロード命令のデスティネーション・レジスタ番号
と一致するかどうかが検索される。同時に、ａｄｄ命令
の２つのソース・レジスタＲｓ、Ｒｔの番号が、実行状
態のロード命令に依存する別の命令のデスティネーショ
ン・レジスタ番号と一致するかどうかが検索される。具
体的には、比較器Ｃ１〜Ｃ６、Ｃ１１〜Ｃ１６により、
ソース・レジスタＲｓ、Ｒｔの番号と、Ａ、Ｍ、Ｗ、
Ｘ、Ｙ、Ｚの各ステージのデスティネーション・レジス
タ番号Ｒｄとを比較する。

【０１０２】すなわち、時刻ｔ４において、Ｄステージ
のソース・レジスタＲｓの番号と、（１）のｌｗ命令の
Ｗステージに対応するレジスタＲ３に保持されたデステ
ィネーション・レジスタＲｄの番号が共にレジスタ番号
“ｒ１”である。このため、比較器Ｃ１３から一致信号
が出力され、オア回路ＯＲ３の出力信号ＥｑＷが“１”
となる。比較器Ｃ１３以外の比較器から一致信号が出力
されないため、オア回路ＯＲ３以外のオア回路の出力信
号は“０”となる。

【０１０３】一方、キャッシュ・ミスは（１）のｌｗ命
令のＷステージで判明する。このため、時刻ｔ４におい
て、キャッシュ・ミス信号Ｌ０Ｍｉｓｓ１Ｗは“１”と
なり、このキャッシュ・ミス信号Ｌ０Ｍｉｓｓ１Ｗと、
オア回路ＯＲ３の出力ＥｑＷがアンド回路Ａ１に供給さ
れる。このため、ＡＮＤ回路Ａ１の出力信号ＤＤＷは
“１”となる。この信号ＤＤＷは、Ｗステージのロード
命令にＤステージの命令が直接依存するかどうかを示す
信号である。さらに、この信号ＤＤＷが“１”である場
合、Ｗステージのロード命令にＤステージの命令が直接
依存し、且つキャッシュ・ミスが発生していることを示
している。

【０１０４】また、ラッチ回路Ｌ０Ｍｉｓｓ１Ｘは、前
記キャッシュ・ミス信号Ｌ０Ｍｉｓｓ１Ｗを１サイクル
遅らせた信号を保持する。このため、ラッチ回路Ｌ０Ｍ
ｉｓｓ１Ｘは、Ｘステージのロード命令がキャッシュ・
ミスしているとき“１”となる。同様に、ラッチ回路Ｌ
０ＭｉｓｓＹ、Ｌ０ＭｉｓｓＺは、Ｙステージ、Ｚステ
ージのロード命令がキャッシュ・ミスしているとき
“１”となる。ラッチ回路Ｌ０Ｍｉｓｓ１Ｘ、Ｌ０Ｍｉ
ｓｓＹ、Ｌ０ＭｉｓｓＺの出力信号は、オア回路ＯＲ
４、ＯＲ５、ＯＲ６の出力信号ＥｑＸ、ＥｑＹ、ＥｑＺ
とともにアンド回路Ａ２、Ａ３、Ａ４にそれぞれ供給さ
れる。このため、アンド回路Ａ２、Ａ３、Ａ４の出力信
号ＤＤＸ、ＤＤＹ、ＤＤＺが“１”である場合、Ｘステ
ージ、Ｙステージ、及びＺステージのロード命令にＤス
テージの命令が直接依存し、且つキャッシュ・ミスが発
生していることとなる。

【０１０５】次に、時刻ｔ５において、信号ＤＤＷが前
のサイクルで“１”であったため、ラッチ回路ＸＡが
“１”となる。ラッチ回路ＸＡの信号は、信号ＤＤＷを
１サイクル遅らせたことになる。このため、ラッチ回路
ＸＡ信号は、Ａステージの命令がＸステージのロード命
令に依存することを意味している。ラッチ回路ＸＡの出
力信号に応じてオア回路ＯＲ７の出力信号Ｄｅｐｅｎｄ
１Ａが“１”となる。信号Ｄｅｐｅｎｄ１Ａは、ラッチ
回路ＸＡ、ＹＡ、ＺＡ、ＺＺＡのオアである。このた
め、信号Ｄｅｐｅｎｄ１Ａは、パイプラインのＸステー
ジ、Ｙステージ、Ｚステージ、ＺＺステージのいずれか
のロード命令にＡステージの命令が依存しており、且つ
そのロード命令がキャッシュ・ミスしていることを示し
ている。ラッチ回路ＸＡ、ＹＡ、ＺＡ、ＺＺＡは、キャ
ッシュ・ミスの情報を含んだ信号を保持する。したがっ
て、ラッチ回路ＸＡ、ＹＡ、ＺＡ、ＺＺＡの出力信号
は、キャッシュ・ミスの確認済みの信号となる。

【０１０６】また、図１１（ｃ）に示す（２）のｌｗ
（ロード）命令と（４）のｓｕｂ命令が依存関係を有し
ている。（２）のｌｗ命令はキャッシュ・ヒットすると
の仮定であるため、アンド回路Ａ１の出力信号ＤＤＷは
“０”となる。

【０１０７】次に、時刻ｔ６において、図１１（ｃ）に
示す（５）のｘｏｒ命令がＤステージにある。このた
め、ｘｏｒ命令が依存するロード命令の有無が検索され
る。すなわち、Ｄステージにあるｘｏｒ命令のソース・
レジスタＲｓ、Ｒｔの番号“ｒ４”“ｒ７”と、各ステ
ージのレジスタＲ１〜Ｒ６に保持されたデスティネーシ
ョン・レジスタの番号とが比較される。この場合、Ｍス
テージのデスティネーション・レジスタの番号が（３）
のａｄｄ命令に使用されるレジスタ番号“ｒ４”となっ
ている。さらに、Ａステージのラッチ回路Ｒ１に保持さ
れた（４）のｓｕｂ命令のデスティネーション・レジス
タ番号は“ｒ７”である。このため、比較器Ｃ１２、Ｃ
１の出力信号が“１”となる。したがって、オア回路Ｏ
Ｒ２の出力信号ＥｑＭが“１”となり、オア回路ＯＲ１
の出力信号ＥｑＡが“１”となる。

【０１０８】また、時刻ｔ６において、前記レジスタＸ
Ａの出力信号“１”が、レジスタＹＭにセットされる。
このため、レジスタＹＭの出力信号が“１”となる。こ
のレジスタＹＭの出力信号は、オア回路ＯＲ２の出力信
号ＥｑＭとともに、アンドオア回路ＡＯＲ５に供給され
る。このため、アンドオア回路ＡＯＲ５から信号“１”
が出力される。この信号はアンドオア回路ＡＯＲ２を介
してラッチ回路ＺＡに信号ＹＤとして供給される。

【０１０９】さらに、前記ＯＲ回路ＯＲ１の出力信号
は、アンドオア回路ＡＯＲ１、ＡＯＲ２、ＡＯＲ３を構
成するアンド回路の一方入力端に供給される。しかし、
このとき、ラッチ回路ＸＡ、ＹＡ、ＺＡ、ＺＺＡの出力
信号は、いずれも“０”である。このため、アンドオア
回路ＡＯＲ１、ＡＯＲ２、ＡＯＲ３を構成する各アンド
回路の入力条件は成立しない。このため、Ａステージに
ある（４）のｓｕｂ命令との間の依存関係は保持されな
い。この理由は、（４）のｓｕｂ命令が依存関係を有す
る（２）のｌｗ命令がキャッシュ・ヒットしている。こ
のため、時刻ｔ６において、ラッチ回路ＸＡの出力信号
が“０”となっているためである。このようにして、キ
ャッシュ・ミスが発生したロード命令に直接的、及び間
接的に依存した命令を検出することができる。

【０１１０】すなわち、第２の検出回路１６ｂは、実行
状態にある全ての命令の依存関係をＡ〜Ｚステージにあ
るキャッシュ・ミスした全てのロード命令との間で依存
関係を検出している。換言すると、第２の検出回路１６
ｂは、多段の間接的な依存関係を検出して直接依存関係
に変化し、このうちのキャッシュ・ミスの場合だけ依存
関係を検出する。第２の検出回路１６ｂにより、キャッ
シュ・ミスしたロード命令に依存する全ての命令がどの
ステージに存在するかを、複雑なリストを用いることな
く、直接検出することができる。

【０１１１】上記説明において、ロード命令のキャッシ
ュ・ミスは、Ｗステージで判明すると仮定した。しか
し、ロード命令のキャッシュ・ミスがＸステージ、又は
Ｙステージにおいて判明するような場合も考えられる。
このような場合、投機的実行期間が長くなるため、投機
命令数が増加し、間接依存の段数が増える。しかし、上
記構成のＤＬＣ１６を用いることにより、最小限のハー
ドウェア構成により、直接的及び間接的な依存関係を検
出することが可能である。

【０１１２】上記のように、ＤＬＣ１６によりキャッシ
ュ・ミスが発生したロード命令に依存した命令が検出さ
れると、第２の検出回路１６ｂを構成するＯＲ回路ＯＲ
７から依存関係の有無を示す信号Ｄｅｐｅｎｄ１Ａが出
力される。この信号Ｄｅｐｅｎｄ１Ａは、図５に示すレ
ジスタ・スコア・ボード・ユニット１５ａ、及びＲＡＴ
２２に供給される。レジスタ・スコア・ボード・ユニッ
ト１５ａ、及びＲＡＴ２２は、信号Ｄｅｐｅｎｄ１Ａに
応じて内容が更新される。

【０１１３】（キャッシュ・ミスによるＲＡＴの更新）
図１３は、ＲＡＴ２２の更新回路２２ａの一例を示して
いる。この更新回路２２ａは、例えば複数のアンド回路
Ａ２１〜Ａ２５、複数の比較器Ｃ２１〜Ｃ２４、オア回
路ＯＲ１１、ＯＲ１２、ノア回路ＮＲ１により構成され
ている。

【０１１４】通常、ＡＬＵ命令の最後のＳステージ、又
はロード命令のＤステージにおいて、その命令が書き込
むデスティネーション・レジスタＲｄに対応するＲＡＴ
のエントリがセットされる。これはその物理レジスタを
参照する命令の発行遅延を考慮したものである。

【０１１５】図１３において、ＡＬＵ命令の場合、比較
器Ｃ２１により最後のＳステージにおけるデスティネー
ション・レジスタ（物理レジスタ）Ｒｄの番号と、ＲＡ
Ｔ２２のエントリ番号（ｎ）とを比較する。また、ロー
ド命令の場合、比較器Ｃ２２により、Ｄステージにおけ
るデスティネーション・レジスタＲｄの番号と、ＲＡＴ
２２のエントリ番号とを比較する。これらデスティネー
ション・レジスタＲｄの番号とＲＡＴ２２のエントリ番
号が一致し、かつ有効な命令がそのステージに存在する
場合はＲＡＴ２２がセットされる。

【０１１６】尚、図１３は、ワーキングＲＡＴであり、
分岐予測ミスを回復するためのイン・オーダーＲＡＴか
らのリストアと、物理レジスタが開放された場合にＲＡ
Ｔをクリアするパスは含んでいない。

【０１１７】一方、ロード命令にキャッシュ・ミスが発
生した場合において、ロード命令に依存した命令がＡス
テージにある時、そのデスティネーション・レジスタＲ
ｄの番号と、ＲＡＴ２２のエントリ番号とが比較器Ｃ２
３により比較される。この比較の結果、これらが一致
し、且つ、ＤＬＣ１６から供給される信号Ｄｅｐｅｎｄ
１Ａが“１”のとき、ロード命令に依存する命令の結果
を書き込むデスティネーション・レジスタに対するＲＡ
Ｔ２２のフラグがクリアされる。前述したように、信号
Ｄｅｐｅｎｄ１Ａが“１”であることは、Ａステージに
ある命令がロード命令に依存関係を有し、且つロード命
令がキャッシュ・ミスしたことを意味する。すなわち、
Ａステージにある命令は、正しいソースオペランドを得
ることができなくなる。したがって、この命令の実行結
果も正しくないため、ＲＡＴ２２のその命令のデスティ
ネーション・レジスタのフラグをクリアする。

【０１１８】また、キャッシュ・ミスしたロード命令の
実行結果が供給されるデスティネーション・レジスタＲ
ｄもクリアする。すなわち、ロード命令においてキャッ
シュ・ミスが発生した場合、Ｘステージにあるロード命
令のデスティネーション・レジスタＲｄと、ＲＡＴ２２
のエントリ番号が比較器Ｃ２４により比較される。この
比較の結果、両者が一致し、且つキャッシュ・ミス信号
Ｌ０Ｍｉｓｓ１Ｘが“１”である場合、ＲＡＴ２２のキ
ャッシュ・ミスしたロード命令の実行結果が供給される
デスティネーション・レジスタＲｄのフラグがクリアさ
れる。

【０１１９】このようにキャッシュ・ミスしたロード命
令のデスティネーション・レジスタＲｄと、それに依存
した命令のデスティネーション・レジスタＲｄであっ
て、既にＲＡＴ２２の対応するレジスタのエントリにセ
ットされているフラグは全てクリアされる。

【０１２０】また、ＲＡＴ２２のフラグをクリアするこ
とにより、キャッシュ・ミスが判明したロード命令のＸ
ステージ以降のタイミングでは、多重間接依存を含めて
Ｒｄを参照できなくなる。さらに、図５に示すアップデ
ート回路２１は、ＲＡＴ２２の内容に基づいて命令ウィ
ンドウ・バッファ１４ａのＲｓＲｄｙ、ＲｔＲｄｙ、Ｒ
ｆＲｄｙをクリアする。このため、キャッシュ・ミスが
発生したロード命令と依存関係を有する命令は発行でき
なくなる。

【０１２１】上記のような動作が、毎サイクル実行され
ることにより、キャッシュ・ミスを起こしたロード命令
と直接的、及び間接的に依存するレジスタが無効化さ
れ、且つキャッシュ・ミスが発生したロード命令と依存
関係を有する命令が無効される。

【０１２２】（ＩＷＢでのロールバック動作）ロード命
令がキャッシュ・ミスを発生した場合、キャッシュ・ミ
スしたロード命令と、それに依存した全ての命令を再実
行する。この動作をロールバックと呼ぶ。ここでは、そ
のロールバック方法について述べる。

【０１２３】命令・ウィンドウ・バッファ１４ａから命
令を発行したあと、キャッシュ・ミスの判明しない実行
中のロード命令、又はストア命令と、それ以降の全ての
命令を命令・ウィンドウ・バッファ１４ａに保持したま
まにする。その際、命令・ウィンドウ・バッファ１４ａ
のＩｎＦｌｉｇｈｔビットをセットしておく。ロード命
令、又はストア命令は、キャッシュがヒットした場合、
Ｘステージで命令・ウィンドウ・バッファ１４ａのＶａ
ｌｉｄビットをクリアして命令・ウィンドウ・バッファ
から消去する。キャッシュ・ミスが発生した場合、Ｉｎ
ＦｌｉｇｈｔビットをクリアするとともにＶａｌｉｄビ
ットはセットしたままとする。同時にＬ１ＭｉｓｓＳＭ
ビットをキャッシュ・ミスの状態に変更する。キャッシ
ュのリフィルが終了すると、Ｌ１ＭｉｓｓＳＭビットが
初期状態にリセットされる。この後、ロード命令、又は
ストア命令が再度スケジューリングされ発行される。

【０１２４】一方、ロード命令に依存した命令と、ロー
ド命令に対して間接的に依存した命令について、命令が
Ａステージに到達した時に、信号Ｄｅｐｅｎｄ１Ａが
“１”である場合、間接的な依存関係も含めて依存元で
あるロード命令がキャッシュ・ミスしている。このた
め、命令・ウィンドウ・バッファからこの命令を消去せ
ずに残しておく。また、信号Ｄｅｐｅｎｄ１Ａが“０”
である場合、依存するロード命令はヒットしているので
命令・ウィンドウ・バッファからこの命令をクリアす
る。

【０１２５】上記実施形態によれば、ＤＬＣ１６は、ロ
ード命令に直接的に依存する命令を検出する第１の検出
回路１６ａと、ロード命令に間接的に依存する命令を検
出する第２の検出回路１６ｂとを有し、第２の検出回路
１６ｂは、実行状態にある全ての命令とＡ〜Ｚステージ
にある全てロード命令との間で多段の間接的な依存関係
を検出し、このうち、キャッシュ・ミスが発生している
場合だけ、間接的な依存関係を検出している。このた
め、このＤＬＣ１６は、キャッシュ・ミスが発生したロ
ード命令に対して直接的、又は間接的に依存する命令を
高速に検出することができる。

【０１２６】しかも、このＤＬＣ１６は、キャッシュ・
ミスしたロード命令に依存する全ての命令がどのステー
ジに存在するかを、複雑なリストを用いたり、データ・
フロー・グラフを全てトレースしたりすることなく、直
接検出することができる。したがって、回路規模の増大
を防止できる利点を有している。

【０１２７】さらに、このＤＬＣ１６は、キャッシュ・
ミスしたロード命令に対して直接的、及び間接的に依存
する命令のみ無効化している。このため、キャッシュ・
ミスしたロード命令以降の全ての命令を無効化する場合
に比べて、命令の無駄な無効化を防止できる。したがっ
て、再発行する命令の数を削減できるため、命令発行効
率を向上できる。

【０１２８】また、ＤＬＣ１６の出力信号に基づき、レ
ジスタ・スコア・ボード１５ａ、及びＲＡＴ２２の内容
は毎サイクル変更されている。このため、ＤＬＣ１６に
より検出されたロード命令に依存するレジスタ、及び命
令を効率よく破棄することができる。さらに、命令・ウ
ィンドウ・バッファ１４ａの内容は、レジスタ・スコア
・ボード１５ａ、及びＲＡＴ２２の内容に従って毎サイ
クル更新されている。このため、キャッシュがリフィル
された後、破棄された命令を確実に再発行することがで
きる。

【０１２９】本発明は、上記実施形態に限定されるもの
ではなく、その他、本発明の要旨を変えない範囲におい
て種々変形実施可能なことは勿論である。

【０１３０】

【発明の効果】以上、詳述したように本発明によれば、
ロード命令において、キャッシュ・ミスが発生した際、
このロード命令と多段の依存関係を有する命令を高速に
検出することが可能な命令発行装置を提供できる。

【図面の簡単な説明】

【図１】本発明の命令発行装置の実施形態を示す構成
図。

【図２】本実施例のパイプラインの一例を示すダイアグ
ラム。

【図３】命令・ウィンドウ・バッファの一例を示す構成
図。

【図４】命令・ウィンドウ・バッファを構成する各エン
トリの一例を示す構成図。

【図５】命令・ウィンドウ・バッファのアップデート回
路の一例を示す構成図。

【図６】ディスパッチ決定回路の一例を示す構成図。

【図７】発行予定エントリを決定する回路の一例を示す
構成図。

【図８】命令・ウィンドウ・バッファの一例を示す構成
図。

【図９】ＡＬＵ命令の動作タイミングの一例を示す図。

【図１０】ロード命令の動作タイミングの一例を示す
図。

【図１１】図１１（ａ）（ｂ）（ｃ）は、ロード命令と
他の命令との依存関係の例を示すパイプライン・ダイア
グラム及びデータ・フロー・グラフ。

【図１２】ＤＬＣ（依存関係検索回路）の一実施例を示
す回路図。

【図１３】ＲＡＴの更新回路の一例を示す回路図。

【図１４】ロード命令に続いて発行された複数の命令と
の依存関係を示す図。

【符号の説明】

１１…命令フェッチユニット、１２…命令デコーダ、１４ａ、１４ｂ…命令・ウィンドウ・バッファ、１５ａ、１５ｂ…レジスタ・スコア・ボード・ユニッ
ト、１６…ＤＬＣ、１６ａ…第１の検出回路、１６ｂ…第２の検出回路、Ｒ１〜Ｒ６…レジスタ、Ｃ１〜Ｃ６、Ｃ１１〜Ｃ１６…比較器、ＯＲ１〜ＯＲ６…オア回路、ＡＯＲ１〜ＡＯＲ６…アンドオア回路、Ａ１〜Ａ４…アンド回路、ＸＡ、ＹＡ、ＺＡ、ＺＺＡ、ＹＭ、ＺＭ、ＺＷ…ラッチ
回路。

Claims

【特許請求の範囲】

【請求項１】命令をアウト・オブ・オーダに投機的に
発行する命令発行部と、前記命令発行部により発行された命令と、パイプランの
各ステージにあるロード命令を含む複数の命令との直接
的な依存関係を検出する第１の検出回路と、前記第１の検出回路の出力信号と、前記ロード命令のキ
ャッシュ・ミス信号とに基づき、前記命令発行部により
発行された命令と、前記パイプランの各ステージにある
キャッシュ・ミスしたロード命令との間接的な依存関係
を検出する第２の検出回路とを具備することを特徴とす
る命令発行装置。
【請求項２】前記第１の検出回路は、前記パイプライ
ンステージの数と同数設けられ、命令の実行結果が順次
書き込まれるデスティネーション・レジスタの番号を保
持する直列接続された第１の記憶部と、前記第１の記憶部に保持された前記デスティネーション
・レジスタの番号と前記ロード命令に続く命令のソース
・レジスタの番号とを比較し、前記他の命令が前記ロー
ド命令に直接的に依存関係を有しているかどうかを判定
する複数の比較器とを具備することを特徴とする請求項
１記載の命令発行装置。
【請求項３】前記第２の検出回路は、複数のロード命
令に対する依存関係を保持するため、パイプラインステ
ージごとに依存元のロード命令に対する依存関係を保持
する第１のラッチ回路と、前記キャッシュ・ミス信号を前記パイプラインの動作に
同期して保持する複数の第２のラッチ回路と、前記第２のラッチ回路の出力信号と、前記各比較器の出
力信号とに応じて、前記ロード命令に直接依存し、前記
キャッシュ・ミス信号を含んだ信号を発生する複数の第
１の論理回路と、前記第１のラッチ回路の出力信号と前記比較器の出力信
号、及び前記第１の論理回路の出力信号に応じて、前記
ロード命令に間接的に依存する命令を検出する第２の論
理回路とを具備することを特徴とする請求項２記載の命
令発行装置。
【請求項４】前記命令発行部は、前記第２の検出回路
の出力信号に応じて、前記ロード命令に依存する命令を
無効化することを特徴とする請求項３記載の命令発行装
置。
【請求項５】前記命令発行部は、キャッシュがリフィ
ルされた後、前記無効化された命令を再発行することを
特徴とする請求項４記載の命令発行装置。
【請求項６】命令をアウト・オブ・オーダに投機的に
発行する命令発行部と、前記命令発行部により発行された命令と、パイプランの
各ステージにあるロード命令を含む複数の命令との直接
的な依存関係を検出する第１の検出回路と、前記第１の検出回路の出力信号と、前記ロード命令のキ
ャッシュ・ミス信号とに基づき、前記命令発行部により
発行された命令と、前記パイプランの各ステージにある
キャッシュ・ミスしたロード命令との間接的な依存関係
を検出する第２の検出回路と、パイプラインで実行中の命令の書き込みレジスタに有効
なデータが有るか否かを示す情報を保持する第１の記憶
部と、前記第１の記憶部の出力信号に応じて、レジスタが使用
可能かどうかを示す情報を記憶する第２の記憶部と、前記第１、第２の記憶部の出力信号に応じて、前記命令
発行部のソースオペランドの有効性を示す情報を更新す
る更新回路とを具備することを特徴とする命令発行装
置。
【請求項７】前記第２の記憶部は、前記第２の検出回
路の出力信号に応じて、キャッシュ・ミスした前記ロー
ド命令に依存するレジスタに対応するフラグをクリアす
る第３の論理回路を有することを特徴とする請求項６記
載の命令発行装置。
【請求項８】第１の検出回路でロード命令と後続の命
令との直接的な依存関係を検出し、第２の検出回路で前記ロード命令と後続の命令との間接
的な依存関係を検出し、この検出した間接的な依存関係
を直接的な依存関係に変換し、前記ロード命令にキャッシュ・ミスが発生したことを示
す信号と変換された前記直接的な依存関係とにより、前
記ロード命令と間接的な依存関係を有する命令を検出す
ることを特徴とする命令発行方法。
【請求項９】前記検出されたロード命令と直接的な依
存関係を有する命令、及び前記検出されたロード命令と
間接的な依存関係を有する命令を無効化することを特徴
とする請求項８記載の命令発行方法。
【請求項１０】キャッシュがリフィルされた場合、前
記無効化された命令を再発行することを特徴とする請求
項９記載の命令発行方法。