JP3096451B2

JP3096451B2 - データを転送する方法およびプロセッサ

Info

Publication number: JP3096451B2
Application number: JP10091330A
Authority: JP
Inventors: カート・アラン・ファイスト; ジョン・スティーブン・ムーヒック; ラリー・エドワード・サッチャー; スティーブン・ウェイン・ホワイト
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1997-04-10
Filing date: 1998-04-03
Publication date: 2000-10-10
Anticipated expiration: 2018-04-03
Also published as: BR9801230A; US6021485A; EP0871109A2; ATE242509T1; JPH10320198A; CN1195809A; DE69815201D1; EP0871109A3; IL123426A0; KR100303673B1; TW360848B; IL123426A; MY121300A; KR19980079702A; CN1095117C; EP0871109B1

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、一般にはデータ処
理システムに関し、具体的にはプロセッサにおけるロー
ド命令とストア命令の順序外れの実行に係わる。

【０００２】

【従来の技術】パフォーマンスの向上を達成するため
に、プロセッサおよびシステムの設計者はプロセッサ速
度とシステム・クロック速度を高速化し、１クロック期
間に実行される作業量を増大させようと試みている。多
くの影響の中でも特に、クロック速度向上を目指す努力
は、ユニット間の同期化を最小限にした分離設計と半自
立ユニットに向かう傾向にある。１クロック期間当たり
の作業量の増大は、追加の機能ユニットを使用し、使用
可能な命令レベルの並列性を十分に活用しようと試みる
ことによって達成されることが多い。

【０００３】コンパイラは、プログラム中に存在する命
令レベルの並列性の現出を試みることができるが、経路
長を最短にする試みとアーキテクチャ・レジスタの数が
有限であることとが組合わさって、コンパイラがプログ
ラムの本質的な並列性を十分に現出できないようにしば
しば人為的に妨げられる。レジスタ資源が命令のより最
適な順序づけを妨げる（以下の命令シーケンスのよう
な）状況が多い。ＦＭＦＰＲ５＜− ＦＰＲ４、ＦＰＲ４ＦＭＡＦＰＲ２＜− ＦＰＲ３、ＦＰＲ４、ＦＰＲ５ＦＭＡＦＰＲ４＜− ＦＰＲ６、ＦＰＲ７、ＦＰＲ８

【０００４】上記の例で、ほとんどのプロセッサが複数
サイクル浮動小数点パイプラインを備えていると仮定す
れば、第２の命令は第１の命令が実行を開始してから数
サイクル後まで実行することができない。この場合、第
３の命令のソース・レジスタが使用可能であると予測さ
れる場合があり、第３の命令は第２の命令の前に実行可
能状態になっていると予測されるが、（第３の命令が命
令２が使用しているＦＰＲ４値を並行して上書きするた
め）コンパイラは異なるレジスタ割振りを選択せずにこ
の２つの命令を入れ替えることができない。この命令対
にとってより最適であると思われるレジスタ割振りを選
択すると、プログラム中の他の命令対のための最適レジ
スタ割振りと競合することが多い。

【０００５】キャッシュ・ミスの動的作用は、順序外れ
の実行の方がインオーダー機で可能なよりも高い命令レ
ベル並列度を利用することができる他の例を示す。Ｌｏｏｐ：ＬｏａｄＧＰＲ４，８（ＧＰＲ５）ＡｄｄＧＰＲ６，ＧＰＲ６，ＧＰＲ４ＬｏａｄＧＰＲ７，８（ＧＰＲ３）ＡｄｄＧＰＲ８，ＧＰＲ８，ＧＰＲ７ＬｏａｄＧＰＲ９，０（ＧＰＲ６）ＬｏａｄＧＰＲ２，０（ＧＰＲ８）．．．ｂｒａｎｃｈｃｏｎｄｉｔｉｏｎａｌＬｏｏｐ

【０００６】この例では、第１のロードについてキャッ
シュ・ミスが発生する反復もあれば、第２のロードにつ
いてキャッシュ・ミスが発生する場合もある。論理的に
は２つの独立した演算の流れがあるが、インオーダー・
プロセッサではキャッシュ・ミス直後に処理が停止し、
キャッシュ・ミスが解決されるまで再開しない。

【０００７】この例は、順序外れの実行のカスケード効
果も示す。ストールした命令（この例ではキャッシュ・
ミスのあるロードに依存する命令）を超えて進むことが
できるようにすることによって、その後のキャッシュ・
ミスを検出することができ、それに付随するキャッシュ
・ミス・ペナルティを（少なくとも部分的に）元のミス
とオーバーラップさせることができる。複数ミスの場合
にオーバーラップするキャッシュ・ミス・ペナルティの
確率は、順序外れのロード／ストア命令をサポートする
能力と共に高くなる。

【０００８】クロック速度がますます高くなるにつれ
て、キャッシュ・ミス・ペナルティを有用な演算や他の
キャッシュ・ミスとオーバーラップさせることができる
ことがますます重要になる。

【０００９】現在の多くのプロセッサは、ロード／スト
ア・ユニットを除くすべてのユニットについて順序外れ
の実行を可能にすることによって、利用可能な多くの命
令レベル並列度を抽出する。非ロード／非ストアユニッ
トについて順序外れの実行をサポートする機構について
はよくわかっている。２つの命令の間に発生する可能性
のある競合はすべて、命令内に静的に指定されているレ
ジスタ・フィールドを比較するだけで検出することがで
きる。

【００１０】競合が記憶場所によって生じる可能性があ
り、参照されるアドレスを知らなければそれらの競合を
検出することができないため、記憶域参照命令の順序外
れの実行ははるかに難しい問題である。有効／仮想アド
レスの生成と実アドレスへの変換は、通常、記憶域参照
命令の実行の一部として行われる。したがって、記憶域
参照命令が論理上それより前にある命令よりも先に実行
されると、現行命令の実行中に論理上前にある命令のア
ドレスを比較のために使用することができない。

【００１１】順序外れの実行とオーバーラップ実行を行
う機械でロードおよびストア命令を実行するとき、実行
中のロード命令が、まだ完了していない前のストア命令
とオーバーラップするアドレスを持っている場合、通常
はストアが完了するまでロード命令をストールするか、
またはロード命令とその後続の命令を取り消す必要があ
る。

【００１２】本出願は以下の出願と関連している。米国
特許出願第０８／８２９６６２号「ＭＥＴＨＯＤＦＯ
ＲＦＡＳＴＵＮＩＦＩＥＤＩＮＴＥＲＲＵＰＴ
ＡＮＤＢＲＡＮＣＨＲＥＣＯＶＥＲＹＳＵＰＰＯＲ
ＴＩＮＧＦＵＬＬＯＵＴ−ＯＦ−ＯＲＤＥＲＥＸ
ＥＣＵＴＩＯＮ」（特開平１０−２８３１８１号公
報）。米国特許出願第０８／９３４９６０号「ＣＨＥＣ
ＫＰＯＩＮＴＴＡＢＬＥＦＯＲＳＥＬＥＣＴＩＶＥ
ＩＮＳＴＲＵＣＴＩＯＮＦＬＵＳＨＩＮＧＩＮ
ＡＳＰＥＣＵＬＡＴＩＶＥＥＸＥＣＵＴＩＯＮＵ
ＮＩＴ」（米国特許第５９６１６３６号明細書）。米国
特許出願第０８／８２９６６９号「ＳＵＰＰＯＲＴＦ
ＯＲＯＵＴ−ＯＦ−ＯＲＤＥＲＥＸＥＣＵＴＩＯＮ
ＯＦＬＯＡＤＳＡＮＤＳＴＯＲＥＳＩＮＡ
ＰＲＯＣＥＳＳＯＲ」（米国特許第５９３１９５７号
明細書）。

【００１３】

【発明が解決しようとする課題】したがって、当技術分
野では、ストアが完了するまでロード命令をストールさ
せたり、ロード命令とその後続の命令を取り消したりす
ることなく、ストアされたデータをそのデータを必要と
するロード命令に転送するシステムおよび方法が必要で
ある。

【００１４】

【課題を解決するための手段】本発明は、ストア命令が
すでに変換されており、ロード・アドレス範囲がストア
・アドレス範囲内に含まれ、ストア・データが使用可能
である場合、ストア・データをロード命令に転送するこ
とによって、上記の必要に対処する。

【００１５】一実施例では、本発明は、１２ビットのス
ケールでストア命令とロード命令の有効アドレス・ビッ
トの突き合わせを行う。一致がある場合、１６ビットの
スケールでもう一度有効アドレス・ビットの突き合わせ
を行う。このプロセスで一致がある場合、ロード命令と
ストア命令の実アドレスに関して比較を行う。実アドレ
スが一致する場合、ストア・データをロード命令に転送
する。

【００１６】他の実施例では、実アドレスが一致する場
合、ストア転送プロセスが使用可能になっているか使用
不能になっているかを判断する。

【００１７】ストア・データの転送を行う場合、ロード
命令はそのデータをメモリ・サブシステムではなくスト
ア・データ待ち行列から受け取る。

【００１８】

【発明の実施の形態】以下の説明では、本発明を十分に
理解することができるように、特定のワード長やバイト
長など多くの特定の詳細を記載する。しかし、本発明は
そのような特定の詳細がなくても実施可能であることが
当業者には明らかであろう。他の場合には、無用な詳細
で本発明が不明瞭にならないように、周知の回路につい
てはブロック図の形で示してある。多くの場合、タイミ
ング上考慮すべき事柄などに関する詳細は、そのような
詳細が本発明を完全に理解するのに必要ではなく、当業
者の技術の範囲内に収まるため省略した。

【００１９】次に図面を参照すると、図示されている要
素は必ずしも一定の縮尺で図示されているわけではな
く、いくつかの図面を通して同様または類似の要素は同
じ参照番号で示してある。

【００２０】まず図１を参照すると、本発明により構成
可能なデータ処理システムの例が図示されている。この
システムは、「ＰｏｗｅｒＰＣＡｒｃｈｉｔｅｃｔｕ
ｒｅ：ＡＳｐｅｃｉｆｉｃａｔｉｏｎｆｏｒａ
ＮｅｗＦａｍｉｌｙｏｆＲＩＳＣＰｒｏｃｅｓｓ
ｏｒ」（第２版、１９９４年、ＣａｔｈｙＭａｙ等
編。これは参照により本明細書に組み込まれる。）に準
拠したＰｏｗｅｒＰＣマイクロプロセッサ（「Ｐｏｗｅ
ｒＰＣ」はアイ・ビー・エム・コーポレイションの商
標）などの中央演算処理装置（「ＣＰＵ」）２１０を有
する。ＰｏｗｅｒＰＣマイクロプロセッサのより具体的
な実施態様については「ＰｏｗｅｒＰＣ６０４ＲＩＳ
ＣＭｉｃｒｏｐｒｏｃｅｓｓｏｒＵｓｅｒ'ｓＭ
ａｎｕａｌ」（１９９４年、ＩＢＭＣｏｒｐｏｒａｔ
ｉｏｎ）に記載されており、これは参照により本明細書
に組み込まれる。本明細書で（たとえば特定の命令を説
明するために）記載されている頭字語の多くはＰｏｗｅ
ｒＰＣ命令であり、これらの参照資料に詳細に記載され
ている。

【００２１】ＣＰＵ２１０はシステム・バス２１１によ
って他の様々な構成要素に結合されている。読取り専用
メモリ（「ＲＯＭ」）１１６がシステム・バス２１１に
結合され、基本入出力システム（「ＢＩＯＳ」）が組み
込まれている。システム・バス２１１には、ランダム・
アクセス・メモリ（「ＲＡＭ」）２５０、入出力アダプ
タ１１８、通信アダプタ１３４も結合されている。入出
力アダプタ１１８は、ディスク記憶装置１２０またはテ
ープ記憶ドライブ１４０と通信する小型コンピュータ・
システム・インタフェース（「ＳＣＳＩ」）アダプタと
することができる。本明細書では、入出力アダプタ１１
８、ディスク記憶装置１２０、およびテープ記憶装置１
４０を大容量記憶装置２５２とも呼ぶ。通信アダプタ１
３４は、バス２１１を外部ネットワークと相互接続す
る。外部ネットワークは、この種のデータ処理システム
が他のこの種のデータ処理システムと通信することがで
きるようにする。システム・バス２１１にはユーザ・イ
ンタフェース・アダプタ１２２およびディスプレイ・ア
ダプタ１３６を介して入出力装置も接続される。キーボ
ード１２４、トラックボール１３２、マウス１２６、お
よびスピーカ１２８はすべてユーザ・インタフェース・
アダプタ１２２を介してバス２１１に相互接続されてい
る。ディスプレイ・モニタ１３８がディスプレイ・アダ
プタ１３６によってシステム・バス２１１に接続され
る。このようにして、ユーザはキーボード１２４、トラ
ックボール１３２、またはマウス１２６を介してシステ
ムに入力したり、スピーカ１２８およびディスプレイ１
３８を介してシステムから出力信号を受け取ったりする
ことができる。さらに、ＡＩＸ（「ＡＩＸ」はアイ・ビ
ー・エム・コーポレイションの商標）などのオペレーテ
ィング・システムを使用して、図１に示す様々な構成要
素の機能を調整する。

【００２２】次に図２を参照すると、添付の特許請求の
範囲に記載されている本発明により情報を処理する、デ
ータ処理システムの実施例のブロック図が図示されてい
る。図の実施例では、ＣＰＵ２１０は単一の集積回路ス
ーパスカラ・マイクロプロセッサを含む。したがって、
以下で詳述するように、ＣＰＵ２１０は様々な実行ユニ
ット、レジスタ、バッファ、メモリ、およびその他の機
能ユニットを含み、これらはすべて集積回路によって形
成される。図２に示すように、ＣＰＵ２１０はバス・イ
ンタフェース・ユニット（「ＢＩＵ」）２１２およびプ
ロセッサ・バス２１３を介してシステム・バス２１１に
結合されている。プロセッサ・バス２１３はシステム・
バス２１１と同様にアドレス・バス、データ・バス、お
よび制御バスを含む。ＢＩＵ２１２は、バス・アービト
レーションに関与することによって、プロセッサ２１０
と、メイン・メモリ（「ＲＡＭ」）２５０や不揮発性大
容量記憶装置２５２などシステム・バス２１１に結合さ
れている他の装置との間の情報の伝送を制御する。図２
に示すデータ処理システムは、システム・バス２１１に
結合されたその他の図示されていない装置を含むことも
できるが、それらは以下の説明を理解するのに必要では
なく、したがって説明を簡単にするために省略してい
る。

【００２３】ＢＩＵ２１２は命令キャッシュおよびＭＭ
Ｕ（メモリ管理ユニット）２１４と、ＣＰＵ２１０内の
データ・キャッシュおよびＭＭＵ２１６とに接続されて
いる。命令キャッシュおよびＭＭＵ２１４とデータ・キ
ャッシュおよびＭＭＵ２１６内にあるような高速キャッ
シュによって、ＣＰＵ２１０は、メイン・メモリ２５０
からキャッシュに前に転送されているデータおよび命令
のサブセットへの比較的高速のアクセス時間を達成する
ことができ、したがって、データ処理システムの動作速
度が向上する。それぞれデータ・キャッシュおよび命令
キャッシュに記憶されているデータおよび命令は、アド
レス・タグによって識別され、アクセスされる。各アド
レス・タグは、メイン・メモリ２５０内のデータまたは
命令の物理アドレスの選択された数の上位ビットを含
む。命令キャッシュとＭＭＵ２１４は、さらに順次フェ
ッチ機構２１７に結合されている。順次フェッチ機構２
１７は、各サイクル中に命令キャッシュとＭＭＵ２１４
から実行のために命令をフェッチする。順次フェッチ機
構２１７は、命令キャッシュおよびＭＭＵ２１４からフ
ェッチした分岐命令を実行のために分岐処理ユニット
（「ＢＰＵ」）２１８に送るが、順次命令はＣＰＵ２１
０内の他の実行回路によって実行するために命令待ち行
列２１９に一時的に格納する。

【００２４】図の実施例では、ＣＰＵ２１０の実行回路
はＢＰＵ２１８のほかに、順次命令を実行する複数の実
行ユニットを含み、これには固定小数点ユニット（「Ｆ
ＸＵ」）２２２、ロード／ストア・ユニット（「ＬＳ
Ｕ」）２２８、および浮動小数点ユニット（「ＦＰ
Ｕ」）２３０が含まれる。各実行ユニット２２２、２２
８、および２３０は、典型的には、各プロセッサ・サイ
クル中に特定のタイプの順次命令の１つまたは複数の命
令を実行する。たとえば、ＦＸＵ２２２は、指定された
汎用レジスタ（「ＧＰＲ」）２３２から受け取ったソー
ス・オペランドを使用して、加算、減算、論理積、論理
和、排他的論理和などの固定小数点数学演算および論理
演算を実行する。固定小数点命令の実行に続いて、ＦＸ
Ｕは、結果バス２６２で受け取った結果に記憶域を提供
するＧＰＲバッファ２３２に命令のデータ結果を出力す
る。それに対してＦＰＵ２３０は、典型的には、浮動小
数点レジスタ（「ＦＰＲ」）２３６から受け取ったソー
ス・オペランドに対して、浮動小数点乗算および除算な
どの単精度および倍精度浮動小数点算術演算および論理
演算を実行する。ＦＰＵ２３０は、浮動小数点命令の結
果であるデータを、結果データを記憶する選択されたＦ
ＰＲバッファ２３６に出力する。名前が示すように、Ｌ
ＳＵ２２８は典型的には、メモリ（すなわちデータ・キ
ャッシュおよびＭＭＵ２１６内のデータ・キャッシュ、
またはメイン・メモリ２５０）からデータを選択された
ＧＰＲ２３２またはＦＰＲ２３６にロードするか、また
はＧＰＲ２３２またはＦＰＲ２３６のうちの選択された
一方からメモリ２５０にデータをストアする、浮動小数
点命令および固定小数点命令を実行する。

【００２５】ＣＰＵ２１０は、命令のパイプライン実行
と順序外れの実行の両方を使用して、そのスーパースカ
ラ・アーキテクチャのパフォーマンスをさらに向上させ
る。したがって、データ依存関係が守られている限り、
命令はＦＸＵ２２２、ＬＳＵ２２８、およびＦＰＵ２３
０によって任意の順序で実行することができる。さら
に、命令は一連のパイプライン・ステージでＦＸＵ２２
２、ＬＳＵ２２８、およびＦＰＵ２３０のそれぞれによ
って処理される。高パフォーマンス・プロセッサに典型
的である通り、各順次命令は５段階の別個のパイプライ
ン・ステージ、すなわちフェッチ、デコード／ディスパ
ッチ、実行、終了、および完了ステージで処理される。

【００２６】フェッチ・ステージ中には、順次フェッチ
機構２１７が命令キャッシュおよびＭＭＵ２１４から１
つまたは複数のメモリ・アドレスに関連づけられらた１
つまたは複数の命令を取り出す。命令キャッシュおよび
ＭＭＵ２１４からフェッチされた順次命令は、順次フェ
ッチ機構２１７によって命令待ち行列２１９に格納され
る。それに対して、順次フェッチ機構２１７は命令スト
リームから分岐命令を除去（フォールド・アウト）し、
それらを実行のためにＢＰＵ２１８に転送する。ＢＰＵ
２１８は分岐予測機構を含む。分岐予測機構は、一実施
例では分岐履歴テーブルなどの動的予測機構を含む。分
岐履歴テーブルによって、ＢＰＵ２１８は分岐をとるか
とらないかをを予測することによって未解決の条件付き
分岐命令を推測的に実行する。

【００２７】デコード／ディスパッチ・ステージでは、
ディスパッチ・ユニット２２０が命令待ち行列２１９か
ら１つまたは複数の命令を実行ユニット２２２、２２
８、および２３０に、典型的にはプログラム順序でディ
スパッチする。従来のプロセッサでは、ディスパッチユ
ニット２２０は、各ディスパッチ命令の結果データのた
めにＧＰＲリネーム・バッファ２３３またはＦＰＲリネ
ーム・バッファ２３７内にリネーム・バッファを割り振
り、ディスパッチ時に、命令は完了ユニット２４０の複
数スロット完了バッファにも格納される。しかし、本発
明は、リネーム・レジスタも完了ユニットも必要としな
い実施態様に適応させることができる。図の実施例によ
ると、ＣＰＵ２１０は順序外れの実行中に固有の命令識
別子を使用してディスパッチ命令のプログラム順序を追
跡する。

【００２８】実行ステージでは、実行ユニット２２２、
２２８、および２３０がディスパッチ・ユニット２２０
から受け取った命令を、指示された演算のためにオペラ
ンドと実行資源が使用可能になるとその機会をつかんで
実行する。一実施例では、各実行ユニット２２２、２２
８、および２３０は、その実行ユニットにディスパッチ
された命令をオペランドまたは実行資源が使用可能にな
るまで格納しておくリザベーション・ステーションを備
える。命令の実行が終了した後、実行ユニット２２２、
２２８、および２３０はデータ結果があればそれを命令
のタイプに応じてＧＰＲまたはＦＰＲに格納する。従来
のプロセッサでは、実行ユニット２２２、２２８、およ
び２３０は完了ユニット２４０にどの命令が実行を終了
したかを通知する。最後に、命令は完了ユニット２４０
の完了バッファからプログラム順序で完了する。ＦＸＵ
２２２およびＦＰＵ２３０によって実行された命令は、
命令のデータ結果をＧＰＲリネーム・バッファ２３３お
よびＦＰＲリネーム・バッファ２３７からそれぞれＧＰ
Ｒ２３２およびＦＰＲ２３６に転送することによって完
了する。ＬＳＵ２２８によって実行されたロードおよび
ストア命令は、終了した命令を、ストア完了待ち行列ま
たはロード完了待ち行列に転送することによって完了
し、それらの待ち行列から、命令によって開始されたロ
ード操作とストア操作が行われることになる。

【００２９】本発明は、プロセッサのディスパッチ論理
回路を使用して、従来のフォン・ノイマン命令ストリー
ムをデータ・フロースタイル形式に「トークン化」す
る。したがって、データ依存関係を、レジスタ・リネー
ムの場合のように各命令が必要とするソース・データの
記憶場所を追跡することによって処理するのではなく、
ソース・データを供給する他の命令を参照することによ
ってソース・データの追跡を可能にする特定の情報を命
令に関連づけることによって処理する。したがって、プ
ロセッサは、トークン、すなわち各タグがディスパッチ
時に命令に固有に関連づけられるタグを生成するターゲ
ット標識（「ＴＩＤ」）生成機構を備える。ＴＩＤは、
プログラム順序情報を保持し、データ依存関係を追跡す
るのに使用される。

【００３０】本発明のディスパッチ・ユニット２２０
は、ＴＩＤを割り当てて命令をディスパッチするだけで
なく、ディスパッチされた命令の状況を追跡するために
使用される様々なテーブルの更新も行う。

【００３１】ＣＰＵ２１０は、順序外れの推測命令実行
をサポートする。命令は、予測分岐方向に対する推測命
令か、または割込み条件を生じさせる可能性がある命令
を超える推測命令の場合がある。分岐予測外れまたは割
込みが起こった場合、ハードウェアは望ましくない命令
をパイプラインから自動的にフラッシュし、望ましくな
い結果を破棄して、正確な例外と順次実行された命令の
効果を適切な分岐経路に送る。誤った推測結果は、１ク
ロック・サイクル中にすべてのユニットから選択的にフ
ラッシュされ、命令ディスパッチはその次のクロック・
サイクルを開始することができる。未解決の分岐または
割込み可能命令によって区切られた１組の命令に１つの
グループ識別子タグ（「ＧＩＤ」）が割り当てられる。

【００３２】以下に、本発明について、複数のロード・
ユニットと単一のストア・ユニットを含む実施態様に関
して説明する。しかし、当業者なら、本発明は単一のロ
ード／ストア・ユニットなど他の構成を扱うように修正
することができることは明らかであろう。提案する本発
明によって、ロードは他のロードおよびストアを基準に
して順序外れで実行することができ、ストアはすべての
ロードを基準にして順序外れで実行することができる。

【００３３】前述のように、任意の２つの命令の間の相
対的エイジが容易に判断できるようにしてすべての命令
にタグが付けられる。この説明で前提とする機構は、単
調に増加する値（ＴＩＤ）である。各命令のＴＩＤ値
は、その命令が入っている待ち行列項目とパイプライン
・ステージに関連づけられる。

【００３４】このＴＩＤに基づく手法によって、ハード
ウェアは、プロセッサが生成したフラッシュ・コマンド
に応答して、そのフラッシュ・コマンドに関連づけられ
たＴＩＤと特定の待ち行列項目または機能ユニット・ス
テージに関連づけられたＴＩＤの値の絶対値比較を行
い、その項目がフラッシュした命令と同じかまたはそれ
より若い命令の項目である場合、その項目を無効化する
ように、命令フラッシュ機構を実施することができる。
フラッシュされた命令の残り全部（およびすべての後続
命令）はＣＰＵから「フラッシュ」され、フェッチ・ユ
ニットは「フラッシュ」された命令のアドレスからフェ
ッチを開始するようにリダイレクトされる。

【００３５】次に図３を参照すると、命令待ち行列２１
９と命令キャッシュ２１４に結合されたロード／ストア
・ユニット２２８が図示されている。浮動小数点ユニッ
ト２３０も図示されている。図３には、基本機能ユニッ
トと命令待ち行列が図示されている。機能ユニットはク
ラスタＡ３０７、クラスタＢ３０８、およびストア・ユ
ニット３０２である。本発明は、３つの待ち行列と、こ
れらの待ち行列とロード・ユニットとストア・ユニット
の両方の間の連動とを中心にしている。待ち行列は次の
３つである。・ストア・アドレス待ち行列３０３・「プリロード」待ち行列３０９・「ロード−ヒット−ロード」待ち行列３１５

【００３６】これらの各待ち行列内の項目は典型的に
は、その項目に関連づけられた命令のＴＩＤ（またはエ
ージ標識）と、オペランド・アドレスと、オペランド・
バイト・カウントとを含む。この情報によって、項目と
他の記憶参照との間の相対エージ判断が可能になるだけ
でなく、所望の場合はバイト・レベルまでのオーバーラ
ップ検出が可能になる。

【００３７】一実施例では、ディスパッチ・ユニットの
「下」とロードおよびストア・ユニットの「上」に２つ
の命令待ち行列がある。ディスパッチされたロードはす
べて、ストア・ユニット３０２を待つ間、「ＰＥＱ」３
０６内で待機し、ストアはすべて、ストア・ユニット３
０２を待つ間、「ＳＰＱ」３０１内で待機する。各サイ
クルの始めにハードウェアウェアは、まだ変換されてい
ないディスパッチ済みストアがある場合、どれが最も古
いストアであるかを判断する。上述の命令待ち行列構造
の場合、これは１つまたは複数のストア・ユニットの中
に未変換ストアがないか検査するステップから成る。未
変換ストアがある場合、最も古いものが「最も古い未変
換ストア」とみなされる。未変換ストアが１つもない場
合、ＳＰＱ３０１を調べて最も古い未変換ストアを探
す。そのようなストアが見つかった場合、それが「最も
古い未変換ストア」とみなされる。見つからなかった場
合、「最も古い未変換ストア」ポインタは次にディスパ
ッチされる命令をデフォルトとしてとる。

【００３８】ストア・アドレス待ち行列３０３は、変換
されたがそれに付随するデータがまだＬ１キャッシュ３
１０、３１１に書き込まれていないすべてのストアのＦ
ＩＦＯリストである。項目は、実行時にストア命令の変
換の結果として作成される。付随データがＬ１キャッシ
ュ３１０、３１１に書き込まれた結果として項目が削除
される。ストア・アドレス待ち行列３０３にはストア・
データ待ち行列３０４が関連づけられている。ストアが
ディスパッチされると、ストア・データ待ち行列３０４
内に項目が割り振られる。項目が割り振られるときにス
トア・データが使用可能な場合、そのデータがストア・
データ待ち行列３０４に入れられる。そうでない場合
は、機能ユニットによってデータが生成されると、スト
ア・データ待ち行列３０４は結果バスをスヌープし、ス
トア・データ待ち行列３０４内のデータをキャプチャす
る。ストア・アドレス待ち行列３０３と同様に、バイト
がＬ１キャッシュ３１０、３１１に書き込まれると項目
が削除される。

【００３９】ストア・データ待ち行列３０４およびスト
ア・アドレス待ち行列３０３はストア・データ待ち行列
処理ユニット３０５に結合され、ストア・データ待ち行
列処理ユニット３０５はロード・ミス待ち行列３１２に
結合されている。ロード・ミス待ち行列３１２はＬ２キ
ャッシュ・アービトレーション論理回路３１３に結合さ
れている。これらのユニットの詳細は、本発明を説明す
るのに必要でないため詳述しない。ロード／ストア実行
ユニット２２８内には他の機能ブロックも実装可能であ
るが、説明を簡単にし明確にするために図示していない
ことに留意されたい。

【００４０】実行ユニット３０２とＳＰＱ３０１の両方
を同時に同じ重みで検査したとすれば、本発明はストア
が他のストアを基準にして順序外れで実行される事例に
拡張することができる。この説明では、ストアが順序通
りに実行されるものと仮定しているため、ストアを「最
も古い未変換ストア」として確立するために実行ユニッ
ト３０２の方を先に、より高い優先順位で検査する。ス
トアのインオーダー実行は、ストア・アドレス待ち行列
３０３を先入れ先出し（ＦＩＦＯ）待ち行列として管理
することができると同時に、ストア・アドレス待ち行列
空間から生じるデッドロック問題が回避される。

【００４１】プリロード待ち行列３０９は本発明に特有
のものであり、論理的に「最も古い未変換ストア」の後
に続くすべての変換済みロードのアドレスを保持する。
各サイクルの始めに、ロード・ユニットで実行されてい
るロードが「最も古い未変換ストア」の論理的な後続命
令であるかどうかを判断する。そうである場合、それら
の命令は「プリロード」とみなされ、実行のためにプリ
ロード待ち行列３０９内に項目を必要とする。プリロー
ド待ち行列３０９に空きがなく、項目が必要な場合、以
下の２つの処置のいずれかが行われる。・実行中のロードがプリロード待ち行列３０９内のす
べてのロードより若い（論理的に後にある）場合、当該
ロード（およびすべての後続命令）が装置２１０からフ
ラッシュされ、命令フェッチ・ユニット２１７はフラッ
シュされたロード命令のアドレスからフェッチを開始す
るようにリダイレクトされる。・プリロード待ち行列３０９内の項目がプリロード待
ち行列項目を必要とする実行中のロードよりも若い場
合、プリロード待ち行列３０９内の最も若いロード（お
よびその後続命令）がフラッシュされ、再フェッチさ
れ、実行中のロードにプリロード待ち行列３０９内のフ
ラッシュされたロードの項目が与えられる。

【００４２】同じサイクル中に実行中の複数のロードが
プリロード待ち行列項目を必要とすることが可能な実施
態様の場合、上述の態様を簡単な方式で修正する。すな
わち、ロードは、上述の規則により、最も古いロードか
ら始めて一度に１ロードずつ処理されたかのような結果
になる。たとえば、実行中の２つのロードがそれぞれプ
リロード待ち行列項目を必要とし、項目が１つしかない
場合、実行中の最も古いロードがその使用可能な項目を
獲得し、実行中の最も若いロードは、いっぱいになった
待ち行列３０９に関する上述の規則に従う。

【００４３】各サイクルの終わりに、プリロード待ち行
列３０９内の有効な項目が「最も古い未変換ストア」エ
ージと比較される。「最も古い未変換ストア」よりも古
い（論理的に前にある）項目は無効化（廃棄）される。
プリロード待ち行列項目は、プリロード待ち行列項目が
フラッシュ・コマンドの対象となる（すなわちより若
い）ロード命令の項目である場合にフラッシュ・コマン
ドの結果として無効化されることもある。

【００４４】ストア・アドレス待ち行列３０３には、変
換されたがそのデータがまだＬ１キャッシュ３１０、３
１１に書き込まれていないストアのアドレスが入れられ
る。本発明で使用する目的のほかに、この待ち行列３０
３によって、ストア・データを待たずに、ストアの変換
と例外の検出を行うことができる。ストア命令のこの２
つの部分を分離することが、プロセッサ２１０の（通常
は記憶参照のためのアドレス生成／変換を行う）固定小
数点部２３０を、（浮動小数点データの生成／正規化を
行う）浮動小数点から分離する鍵になる。現在のいくつ
かの設計には、このようなストア・アドレス待ち行列３
０３が含まれている。大部分の既存の実施態様のよう
に、ストア・アドレス待ち行列３０３はＦＩＦＯ方式で
管理され、ストア・アドレス待ち行列３０３内の最も古
い項目が次にＬ１キャッシュ３１０、３１１に書き込ま
れる。当業者なら、最も古い項目以外の項目をＬ１キャ
ッシュ３１０、３１１に書き込んで、データを持ってい
るより若いストアが、データを処理するより古いストア
より前に書込みを行えるようにすることができることは
明らかであろう。また、上述の本発明はこの改良を扱う
ために修正を必要としないことも明らかであろう。

【００４５】ストア・アドレス待ち行列項目は以下の２
つの条件の下で無効化（廃棄）される。・関連づけられたストア操作がＬ１キャッシュ３１
０、３１１に対して行われる。・ストア・アドレス待ち行列項目が命令フラッシュ・
コマンドの対象よりも若いため、廃棄されるべきである
ことがフラッシュ・コマンドによって通知される。

【００４６】ロード−ヒット−ロード待ち行列３１５は
本発明に特有のものであり、最も古い未変換ロードまた
はストアより論理的に後にあるすべての変換済みロード
のアドレスを保持する。各サイクルの始めに、ロード・
ユニットで実行中のロードが、最も古い未変換ロードま
たはストアより論理的に後の命令であるかどうかが判断
される。そうである場合、それらの命令は実行のために
ロード−ヒット−ロード待ち行列３１５内に項目を必要
とする。ロード−ヒット−ロード待ち行列３１５に空き
がなく、項目が必要な場合、以下の２つの処置のいずれ
かが行われる。・実行中のロードがロード−ヒット−ロード待ち行列
３１５内のすべてのロードよりも若い（論理的に後にあ
る）場合、当該ロード（およびすべての後続命令）が装
置２１０からフラッシュされ、命令フェッチ・ユニット
２１７はフラッシュされたロード命令のアドレスからフ
ェッチを開始するようにリダイレクトされる。・ロード−ヒット−ロード待ち行列３１５内の項目
が、プリロード待ち行列項目を必要とする実行中のロー
ドよりも若い場合、ロード−ヒット−ロード待ち行列３
１５内の最も若いロード（および後続命令）がフラッシ
ュされ、再フェッチされ、実行中のロードに、ロード−
ヒット−ロード待ち行列３１５内のフラッシュされたロ
ードの項目が与えられる。

【００４７】同じサイクル中に実行中の複数のロードが
ロード−ヒット−ロード待ち行列を必要とすることがあ
る実施態様の場合、上記の態様を簡単な方式で修正す
る。すなわち、ロードが上述の規則によって最も古いロ
ードから始めて一度に１ロードずつ処理されたかのよう
な結果になる。たとえば、実行中の２つのロードがそれ
ぞれロード−ヒット−ロード待ち行列項目を必要とし、
項目が１つしかない場合、実行中の最も古いロードがそ
の使用可能な項目を獲得し、実行中の最も若いロード
は、いっぱいになった待ち行列３１５に関する上述の規
則に従う。

【００４８】各サイクルの終わりに、ロード−ヒット−
ロード待ち行列３１５内の有効な項目が最も古い未変換
ロードまたはストアのエージと比較される。最も古い未
変換ロードまたは最も古い未変換ストアよりも古い（論
理的に前にある）項目は無効化（廃棄）される。ロード
−ヒット−ロード待ち行列項目は、ロード−ヒット−ロ
ード待ち行列項目がフラッシュ・コマンドの対象となる
（すなわちより若い）命令であるロード命令の項目であ
る場合、フラッシュ・コマンドの結果として無効化され
ることもある。

【００４９】プリロード待ち行列３０９およびロード−
ヒット−ロード待ち行列３１５には同様の情報が入れら
れ、実施態様によっては併合して単一の構造体とするこ
ともできることに留意されたい。

【００５０】以上の説明では、プリロード待ち行列３０
９とストア・アドレス待ち行列３０３とロード−ヒット
−ロード待ち行列３１５という本発明のための３つの基
本待ち行列において項目の作成と廃棄が行われる条件に
ついて詳述した。以下では、前述のアーキテクチャ記憶
整合性要件に対応するために待ち行列間で行われるアド
レス検査について詳述する。

【００５１】考慮する例は以下の場合である。・ロードがストアからデータを必要とする・ストアが実行された後でロードを実行する・ストア操作がまだストア・アドレス待ち行列３０３
に入れられている間に（すなわち、完了とも呼ぶＬ１キ
ャッシュ３１０、３１１を更新するストア操作の前）、
ロード操作がＬ１キャッシュ３１０、３１１からデータ
を入手した

【００５２】ストアがすでに変換されており、ロード・
アドレス範囲がストア・アドレス範囲内に含まれ、スト
ア・データが使用可能である場合、ストア・データをロ
ード命令に転送して装置２１０が実行に取りかかれるよ
うにすることができる。本発明のストア転送／ロード−
ヒット−ストア検出論理回路は、プロセッサ２１０がロ
ードおよびストアをそれぞれ３２バイト境界および１６
バイト境界を超えて分割することによって可能な最適化
を利用する。さらに、どのデータが転送可能であるかに
関する制限によって、フォーマットおよび転送ハードウ
ェアを最適化することができる。ロード／ストア実行サ
イクル中のアドレス変換の待ち時間のために、パフォー
マンス上の理由からページ・オフセット・ビットに基づ
いて転送検査を複数の検査に区分化してからロードおよ
びストア・アドレスの変換済みビットを検査するのが望
ましい場合がある。別名化の可能性があるため、命令の
コミットを含むオーバーラップ検査は実アドレスに基づ
いて行う。しかし、推測実行の場合、ロード−ヒット−
ストアと可能性のある転送の予測は有効アドレスに基づ
いて行う。

【００５３】ストア転送は、ロード−ヒット−ストア事
例の特殊な場合であり、したがって、ロード−ヒット−
ストア検出論理とハードウェアの一部を共用する。ロー
ド−ヒット−ストア機構およびストア−ヒット−ロード
機構については、前述の米国特許出願第０８／８２９６
６９号（米国特許第５９３１９５７号明細書）に記載さ
れている。ロード−ヒット−ストア状況が発生したと
き、ロード・アドレス範囲がストア・アドレス範囲内に
含まれ、後述の条件が満たされている場合、ロード命令
は、Ｌ１キャッシュ３１０、３１１またはその他のメモ
リ・サブシステム構成要素からではなくストア・データ
待ち行列３０４からデータを受け取る。

【００５４】以下に、転送操作の概要を述べる。サイク
ル１中にロード命令（ロード複数／ストリングＬＭＷ、
ＬＳＷＸ、およびＬＳＷＩを除き、すべての固定小数点
ロードおよび浮動小数点ロード、ＬＷＡＲＸ、ＥＣＩＷ
Ｘを含む）を実行し、それがストア・アドレス待ち行列
３０３に入っている（論理的に前にある）ストア操作と
ぶつかる場合（この文脈では「ストア」にはストア・ア
ドレス待ち行列項目を必要とするすべての命令、すなわ
ち固定小数点および浮動小数点ストア、ＳＴＷＣＸ、Ｓ
ＹＮＣ、ＩＣＢＩ、ＤＣＢｘ、ＥＩＥＩＯ、ＴＬＢＳＹ
ＮＣ、ＴＬＢＩＥ、およびＥＣＯＷＸを含む）、ロード
はクラスタ実行ユニット３０７、３０８内に保持され、
１サイクルの間に再実行される。ストア・アドレス待ち
行列項目が対象となるロードより論理的に前にあるかど
うかを判断する際、それに関連づけられたＴＩＤを比較
する。「コミット済み」（ストアが変換され、ＩＩＴ
（図示せず）から除去された）としてマークされたすべ
てのストア・アドレス待ち行列項目は、ＴＩＤ比較の結
果に関係なく、このロードよりも古いと見なされる。ロ
ードが複数のストア・アドレス待ち行列項目とぶつかる
場合、最も若い障害となるストアのみがヒットと見なさ
れる。

【００５５】サイクル２では、ロードおよびストア命令
の３２ビットの実アドレス（「ＲＡ」）ビットを比較し
て、真のロード−ヒット−ストア条件であるかどうかを
判断する。サイクル２ではアドレス／ＴＩＤ比較が行わ
れ、サイクル１で変換されたストアはストア・アドレス
待ち行列３０３に組み込まれるが、ライトバック比較サ
イクル（サイクル２）で変換するストアは組み込まれな
い。

【００５６】３２ビットの実アドレス比較によってそれ
がロード−ヒット−ストアではない（すなわちバイト・
オーバーラップがない）ことが示された場合、ＩＤＵ２
２０はサイクル３でフラッシュを通知する。３２ビット
の実アドレス比較によって、ロード−ヒット−ストア
（すなわち１つまたは複数のバイト・オーバーラップが
ある）であることが示された場合、ａ）ストア転送が使用不能化されている場合は、ＩＤＵ
２２０はサイクル３でロードのフラッシュを通知し、ｂ）ストア転送が使用可能になっている場合は、データ
が使用可能であれば再実行の最初のサイクル中にロード
は（フラッシュなしに）完了する。データが使用可能な
のは次の場合である。ａ）単一のＳＤＱ項目にロード・データが入っているｂ）ＳＤＱ項目内のデータが有効であるｃ）ロードもストアもＩ＝１スペースではない（両方と
もキャッシュ可能なアドレスである）ｄ）ロードが１６バイト境界を超えていないｅ）以下のストア／ロードのサイズ／位置合わせの対が
真である１．ＳＴＢＬＢへの転送２．ＳＴＨＬＨへの転送３．ＳＴＷ／ＳＴＦＳＬＷまたはＬＦＳへの転送４．ＳＴＷＢＲＸＬＷＢＲＸへの転送５．ＳＴＨＷＢＲＸＬＨＢＲＸへの転送６．ワード位置合わせされたＳＴＷＬＢまたはＬＨの転送７．ワード位置合わせされたＳＴＦＳＬＢ、ＬＨ、ＬＷ、またはＬＦＳへの転送８．ワード位置合わせされたＳＴＦＤＬＢ、ＬＨ、ＬＷ、またはＬＦＳへの転送９．ワード位置合わせされたＳＴＭＷＬＢ、ＬＨ、ＬＷ、またはＬＦＳへの転送１０．ワード位置合わせされたＳＴＳＷＸ／ＩＬＢ、ＬＨ、ＬＷまたはＬＦＳへの転送

【００５７】９および１０の事例は、ＳＤＱ項目が個々
のワード位置合わせされたワード・アクセス（６の事
例）の集合によって作成されたかのように適用される。
事例１０で、ワードに入っているのが４バイト未満の場
合、転送はできない。

【００５８】データが使用可能でない場合、ＩＤＵ２２
０はサイクル３中にロードのフラッシュを通知する。デ
ータが使用可能な場合、データ転送はＬ１キャッシュ−
ヒットの場合と比較して１サイクル遅延される。

【００５９】ストア・アドレス待ち行列３０３およびス
トア・データ待ち行列３０４には、潜在的なストア転送
シナリオの検出に関連づけられた追加の論理が含まれ、
ストア転送のためのデータを供給し、有用なストア転送
機械をフラッシュする。ロード−ヒット−ストア論理
と、ストア転送論理がどのように有効アドレスおよび実
アドレス比較を使用するかを以下に説明する。ここで
は、ストア／ロード・サイズおよび位置合わせ（上記の
規則）によってどのようにしてストア転送を行うことが
できるか、また、必要なフォーマット化を行う方法につ
いて説明する。この説明では、ロード−ヒット−ストア
・オーバーラップが検証済みであるものと仮定する。次
に、データ使用可能性と最も若い障害となるストア／ロ
ード・サイズ／位置合わせ（上記のａ〜ｅの規則）によ
って、転送を行うかどうかを決定する。

【００６０】上記の「規則ｅ」の最初の５項目は、ロー
ドとストアとの間の厳密なサイズおよび位置合わせの一
致に対応する。この条件の検出には、単にロードとスト
アとの厳密な実アドレス比較（したがって同じ位置合わ
せ）と、ロードとストアが同じサイズであることが必要
なだけである。ロードとストアは１６バイト境界を超え
ない限りは位置合わせされていなくてもよい。

【００６１】「規則ｅ」の項目６〜１０では、異なるサ
イズのロードとストアの限定された転送が可能である。
ストア・ワードまたはストア・ダブルがワード位置合わ
せされている場合、ストア・データをロード・ワード
（これも最初の５項目に含まれる）に加えてロードバイ
トおよびロード・ハーフに転送することができる。項目
６〜１０が適用可能であるかどうかの検出には、最後の
２ビットを除くロードとストアの厳密な実アドレス比較
が必要である。ロードがバイト・ロードの場合、ストア
・ワードをロードに転送することができる。ロードがハ
ーフ・ワードである場合、ロード・アドレスの最後の２
ビットがｂ'１１'でない限り、ストア・ワードをロード
に転送することができる。

【００６２】「規則ｅ」の最初の５項目は、ストア転送
を行うためにフォーマット化を必要としない。各実行ク
ラスタ３０７、３０８の１２ポート・マルチプレクサ
（図示せず）が、転送するストア・データ待ち行列を選
択する。フォーマット化が不要なため、クラスタに信号
を送って項目を結果バス２６２に直接渡す。項目６〜１
０は、ストア・データを結果バス２６２で返す前に０バ
イトから３バイトにシフトさせる必要があることがあ
る。これらの規則におけるストアはワード位置合わせさ
れるため、実行クラスタはロード・アドレスによって正
しいシフト量に合わせてすでに適切に構成されている制
御を使用してＬ１キャッシュの出力から必要な同じフォ
ーマッタを使用することができる。ストア転送論理は、
転送データをそのままの状態でとるべきか、またはロー
ド・フォーマッタがロード・アドレスに基づいてデータ
をシフトさせなければならないかどうかを示すだけで済
む。

【００６３】ロード−ヒット−ストアが検出されると、
最も若い障害となるストアが判断され、それに対応する
ストア・データ待ち行列項目が１２ポート・マルチプレ
クサ（図示せず）によって選択される。実行クラスタ３
０７、３０８がロード−ヒット−ストア条件のために保
留状態にされると、クラスタ３０７、３０８はストア・
データ待ち行列３０４から有効データを受け取るものと
見なす。上記のストア転送規則が満たされていない場
合、ストア転送論理はロード命令のＦＬＵＳＨを発行す
る。

【００６４】図４に、ストア転送を実施しないストア検
出を示す。図５に、Ｌ１キャッシュ・ヒットとＴＳＡ
（変換シャドウ・アレイ）ヒットを前提としたロードに
ついて可能なタイミングを示す。ロードの実行サイクル
中に、ロードと、ストア・アドレス待ち行列３０３内の
すべての有効項目との間で１２ビット有効アドレス・オ
ーバーラップ比較が行われる。実行サイクル中の１２ビ
ット有効アドレス・オーバーラップ比較によって、変換
アドレスが使用可能な場合に次のサイクルで必要な比較
論理が最小限になる。次のサイクルで、ロードが正常に
変換された場合、実アドレス比較が行われる。前のサイ
クルで実行された１２ビット・オーバーラップ有効アド
レス比較のためと、３２バイト境界および１６バイト境
界を超える場合にロードおよびストアが複数のロードお
よびストアに分割されるため、２４ビット・ページ・ア
ドレス等価比較だけを行うだけでよい。１２ビット・オ
ーバーラップ検査は２４ビット等価比較よりも遅い１組
の絶対値比較から成るため、全変換アドレスの前に１２
ビット・オーバーラップ比較を行うことができることに
よってクリティカル・パス・タイミングが削減される。
ストア転送がサポートされていないとき、順序外れの実
行機でのデッドロックを避けるため、ロードがストア・
アドレス待ち行列３０３内のストアとオーバーラップす
る場合、ロードとそのロードに続くすべての命令および
結果をプロセッサ２１０からフラッシュする。

【００６５】図６に、一実施例におけるロード−ヒット
−ストア・シナリオの検出とストア転送の実施のフロー
チャートを示す。図７に、そのようなロード−ヒット−
ストア・シナリオのあるストア転送のサイクルごとのタ
イミングを示す。ロードの実行サイクル中に、ロードと
ストア・アドレス待ち行列３０３内のすべての有効項目
との１２ビット有効アドレス・オーバーラップ比較が行
われる。１２ビット有効アドレスがストア・アドレス待
ち行列と一致する場合、実行クラスタ３０７、３０８が
保留にされる（ストールされる）。次のサイクルで、ロ
ードが正常に変換されると、実アドレス比較が行われ
る。実アドレスが一致しない場合、前のサイクルでＬ１
キャッシュ３１０、３１１からロードされたデータが結
果バス２６２でＧＰＲ２３２に返される。実アドレスが
一致し、ストア転送規則が満たされている場合、ストア
・データがロードに転送される。実アドレスは一致して
いるが、ストア転送要求を満たすことができない場合、
ロードはフラッシュされる。

【００６６】残念ながら、図７に示す事例Ｂでは、実行
クラスタ３０７、３０８は実行サイクル中にＬ１キャッ
シュ３１０、３１１からロードされたデータを保持でき
なければならず、ロード−ヒット−ストア条件が偽であ
る場合、次のサイクルで結果バス２６２でデータを転送
できなければならない。その結果、すでにタイミング・
クリティカル・パスで必要サイクル時間が増大する。調
査したもう一つの選択肢では、１２ビットＥＡオーバー
ラップ比較を使用してクラスタ３０７、３０８を保留
（ストール）すべきかどうかを判断し、その後、次のサ
イクル中に、ストア・データ転送がロード要求を満たす
ことができればロードがフラッシュされることになる。
この選択肢の結果、余分なロード・フラッシュが行わ
れ、それによって全体的なパフォーマンスが低下する。

【００６７】本発明は、すでに設計済みのロード−ヒッ
ト−ストア・ハードウェアに基づいて構築された他のス
トア転送機構を実施する。ストア転送の結果として最終
的なパフォーマンス向上を実現するためには、図６およ
び図７の実施例のようにプロセッサのサイクル時間を長
くすることはできない。図６および図７の実施例は、ロ
ード−ヒット−ストアを判断する間、ロードの結果を１
サイクルの間保持するデータフロー経路を必要とする。
このデータフロー経路によってチップ全体のサイクル時
間が決まる可能性があり、したがってストア転送を行う
経路を長くすると全体的パフォーマンスが向上しない。
したがって、実行後のサイクルまで実アドレス比較が行
われなくてもロード結果の保持を必要としない代替策を
開発した。実行クラスタを保留状態にするかどうかの決
定を実行サイクル中に行うが、実行クラスタが保留（ス
トール）されると、ストア待ち行列からデータを転送す
るかまたはロードをフラッシュしなければならない。

【００６８】この代替実施例を図８および図９に示す。
事例Ａ、Ｂ、Ｃ、Ｄについては以下で詳述する。実行サ
イクル中に、１２ビットと１６ビットの両方の有効アド
レス・オーバーラップ比較を行う。１２ビット有効アド
レス・オーバーラップ比較がすべての有効ストア・アド
レス待ち行列項目について偽の場合、ロード−ヒット−
ストアはなく、ロードはその結果バス２６２でＧＰＲ２
３２にデータを返すことができる。１２ビット有効アド
レスはストア・アドレス待ち行列項目と一致するが、１
６ビット有効アドレスは一致しない場合、本発明はロー
ド−ヒット−ストアがないものと推測予測し、クラスタ
３０７、３０８は保留（ストール）されない。まれに仮
想−実別名アドレス化がある場合で、有効アドレスはオ
ーバーラップしないが実アドレスはオーバーラップする
場合、ロードはフラッシュされる。（実行クラスタ３０
７、３０８は保留（ストール）されないため、プロセッ
サ２１０はストア・データをロードに転送することがで
きない。）ロードの１６ビット有効アドレスがストア・
アドレス待ち行列項目と一致する場合、ロード−ヒット
・ストア・フラッシュまたはストア・データ転送を見越
して実行クラスタ３０７、３０８は保留（ストール）さ
れる。次のサイクルで実アドレスが一致する場合、本発
明は転送が前述の規則に従っているかどうかを判断す
る。一致しない場合はロードがフラッシュされる。

【００６９】１６ビット有効アドレスは一致するが実ア
ドレスは一致しない場合、ロード−ヒット−ストア条件
が発生しない場合でもフラッシュが行われる。その結
果、偽ロード−ヒット−ストアが検出され、それによっ
て命令実行の不要な取消しが行われることに留意された
い。本発明は４ビットの追加有効アドレス・ビットを比
較してこれが発生するのを少なくする。これらの偽ロー
ド−ヒット−ストアの不利は、ストア転送の発生によっ
て得られるパフォーマンス向上よりもはるかに少なかっ
た。その結果としてのストア転送の実施によって、サイ
クル時間を増大させずに実行することができるロードの
割合が大きくなる。したがって、このストア転送の実施
によってマイクロプロセッサ２１０の全体的パフォーマ
ンスが向上する。

【００７０】図８の注１を参照すると、前のサイクル中
にロード・データは正しく取り出すことができた。しか
し、１６ビットＥＡ比較のために、このプロセスは潜在
的なロード−ヒット−ストア条件が発生したと判断し、
実行クラスタ３０７、３０８を保留にすることを選択
し、ストア・ユニット３０２に強制的にストア・データ
待ち行列３０４からデータを転送させるか、またはロー
ド命令をフラッシュさせる。

【００７１】図８の注２を参照すると、１６ビット有効
アドレスはオーバーラップしないが、実アドレスがオー
バーラップする場合、アドレス空間別名化が行われる。
プロセッサ２１０はこの状況を検出して適切に実行す
る。実行クラスタ３０７、３０８は保留（ストール）さ
れなかったため、本発明はストア・データをロードに転
送する選択肢を失う。しかし、この状況はきわめてまれ
である。

【００７２】１２ビット比較で使用される下位アドレス
・ビットは変換の影響を受けず、一致がないことによっ
てロード−ヒット−ストア競合やストア転送の機会がな
いことが保証される。しかし、１６ビット比較を行うた
めに使用される残りのビットは変換される。したがっ
て、１６ビット比較の結果によって生じる初期ステップ
は基本的に、追加の有効アドレス・ビット間の一致（ま
たは不一致）が両方のアドレスの変換済みビットの組全
体の間の一致（または不一致）を実際に反映していると
いう予測に基づく。この予測が誤っている場合はすべ
て、ロード操作（およびその後続命令）はフラッシュさ
れ、再フェッチされて、予測外れから回復することに留
意されたい。

【００７３】図８および図９に示す事例は以下の通りで
ある。事例Ａ−ロード・ストア・オーバーラップなし。ＥＡの
下位１２ビットがどのストア項目とも一致しなかった
か、または下位１２ビットが一致した場合は、ＥＡの下
位１６ビットが一致せず、次のサイクルのページ・アド
レス比較がそのストア項目について偽だった。事例Ｂ−クラスタ保留が行われ、データを転送すること
ができない。１６ビットＥＡオーバーラップ比較を行
い、データ転送が不能ー＞フラッシュ。ロード−ヒット
−ストアを行い、データ転送不能、またはページ・アド
レス不一致でデータ転送不能。事例Ｃ−ロードへのデータのストア転送を行うロード−
ヒット−ストア。事例Ｄ−下位１６ビット有効アドレスが一致しないが、
仮想アドレスから実アドレスへの別名化のために、ロー
ドの実アドレスがストアの実アドレスとオーバーラップ
する。このまれな別名化の場合に、実アドレスは等しい
が有効アドレスが一致しない場合、プロセッサ２１０は
データを転送せず、サイクル時間問題が緩和される。

【００７４】

【００７５】

【図面の簡単な説明】

【図１】本発明により構成可能なデータ処理システムを
示す図である。

【図２】本発明により構成されたプロセッサを示す図で
ある。

【図３】本発明により構成されたロード／ストア・ユニ
ットを詳細に示す図である。

【図４】ストア転送が実施されていないロード−ヒット
−ストアのフローチャートである。

【図５】ストア転送が実施されていないロード−ヒット
−ストア事例のサイクルごとのタイミングを示す図であ
る。

【図６】ロード−ヒット−ストア事例の検出とストア転
送の実施を示すフローチャートである。

【図７】本発明による、ロード−ヒット−ストア事例に
おけるストア転送のサイクルごとのタイミングを示す図
である。

【図８】本発明による、ロード−ヒット−ストアの検出
とストア転送の実施を示すフローチャートである。

【図９】本発明によるストア転送のロード−ヒット−ス
トア事例のサイクルごとのタイミングを示す図である。

【符号の説明】

１１８入出力アダプタ１２０ディスク記憶装置１２２ユーザ・インタフェース・アダプタ１３４通信アダプタ１３６ディスプレイ・アダプタ１４０テープ記憶ドライブ２１０中央演算処理装置２１１システム・バス２１４命令キャッシュ２１６メモリ管理ユニット２１７順次フェッチ機構２１９命令待ち行列２２２固定小数点ユニット２２８ロード／ストア・ユニット２３０浮動小数点ユニット２３２汎用レジスタ２３６浮動小数点レジスタ２４０完了ユニット２５０ランダム・アクセス・メモリ２５２大容量記憶装置３０２ストア・ユニット３０７クラスタＡ３０８クラスタＢ

───────────────────────────────────────────────────── フロントページの続き (72)発明者ジョン・スティーブン・ムーヒックアメリカ合衆国78731 テキサス州オースチンスピネーカー・コーブ 4203 (72)発明者ラリー・エドワード・サッチャーアメリカ合衆国78759 テキサス州オースチンディーケイ・ランチ・ロード 11507 (72)発明者スティーブン・ウェイン・ホワイトアメリカ合衆国 78750 テキサス州オースチン・ウェスターカーク・ドライブ 9104 (56)参考文献特開昭58−161043（ＪＰ，Ａ) 特開平３−36646（ＪＰ，Ａ) 特開平５−143335（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 9/38 G06F 12/00 - 12/06

Claims

(57)【特許請求の範囲】

【請求項１】ロード命令がアクセスしようとしているデ
ータをストア命令がまだ更新していない場合に、前記ス
トア命令の結果であるデータを前記ロード命令に転送す
る方法であって、前記ロード命令及び前記ストア命令の有効アドレスのう
ち変換の影響を受けない下位Ｎビットを比較するステッ
プと、前記下位Ｎビットが一致した場合に、前記ロード命令及
び前記ストア命令の前記有効アドレスのうち変換される
ビットを含む下位Ｍビットを比較するステップと、前記下位Ｍビットが一致した場合に、前記ロード命令及
び前記ストア命令の実アドレスを比較するステップと、前記ロード命令が前記ストア命令より論理的に後にある
か否かを判断するステップと、前記ロード命令及び前記ストア命令の前記実アドレスが
一致し、且つ前記ロード命令が前記ストア命令より論理
的に後にある場合、前記データを前記ロード命令に転送
するステップと、を含む方法。
【請求項２】前記データが使用可能か否かを判断するス
テップをさらに含む、請求項１に記載の方法。
【請求項３】前記実アドレスが一致し且つ前記データが
使用可能であれば、前記データを前記ロード命令に転送
し、前記実アドレスが一致しないかまたは前記データが
使用可能でなければ、前記ロード命令をフラッシュす
る、請求項２に記載の方法。
【請求項４】前記下位Ｍビットが一致しない場合に、前
記ロード命令及び前記ストア命令の実アドレスを比較
し、該実アドレスが一致すれば前記ロード命令をフラッ
シュし、前記実アドレスが一致しなければ前記ロード命
令の通常の実行に進む、請求項２に記載の方法。
【請求項５】システム・バスを介してメモリに結合され
たプロセッサを含むデータ処理システムにおいて、ストア実行ユニットにストア命令をディスパッチするス
テップと、前記ストア実行ユニットで前記ストア命令を実行するス
テップと、前記ストア命令に付随するデータがストア・データ待ち
行列内にあり、前記ストア命令の実行後に前記ストア命
令をストア・アドレス待ち行列に転送するステップと、前記ストア命令より論理的に後にあるロード命令をロー
ド実行ユニットにディスパッチするステップと、前記ロード実行ユニットで前記ロード命令を実行するス
テップと、前記ロード命令及び前記ストア命令の有効アドレスのう
ち変換の影響を受けない下位Ｎビットを比較するステッ
プと、前記下位Ｎビットが一致した場合に、前記有効アドレス
のうち変換されるビットを含む下位Ｍビットを比較する
ステップと、前記下位Ｍビットが一致した場合に、前記ロード命令及
び前記ストア命令の実アドレスを比較するステップと、前記実アドレスが一致したる場合に、前記ストア・デー
タ待ち行列から前記データを前記ロード命令に転送する
ステップと、を含む方法。
【請求項６】命令ディスパッチ・ユニットと、前記命令ディスパッチ・ユニットからロード命令を受け
取るように動作可能なロード実行ユニットと、前記ロード命令より論理的に前にあるストア命令を前記
命令ディスパッチ・ユニットから受け取るように動作可
能なストア実行ユニットと、前記ストア実行ユニットに結合され、前記ストア命令に
付随するデータを受け取るストア・データ待ち行列と、前記ストア実行ユニットに結合されたストア・アドレス
待ち行列と、前記ストア実行ユニットで前記ストア命令を実行する回
路と、前記ストア命令の実行後に前記ストア命令を前記ストア
・アドレス待ち行列に転送する回路と、前記ロード実行ユニットで前記ロード命令を実行する回
路と、前記ロード命令のアドレスを前記ストア命令のアドレス
と比較する回路と、前記ロード命令の前記アドレスが前記ストア命令の前記
アドレスと一致する場合、前記ストア・データ待ち行列
から前記データを前記ロード命令に転送する回路とを含
み、前記比較する回路が、前記ロード命令及び前記ストア命令の有効アドレスのう
ち変換の影響を受けない下位Ｎビットを比較し、前記下
位Ｎビットが一致した場合に、前記有効アドレスのうち
変換されるビットを含む下位Ｍビットを比較し、前記下
位Ｍビットが一致した場合に、前記ロード命令及び前記
ストア命令の実アドレスを比較することを特徴とする、プロセッサ。
【請求項７】プロセッサにおいて、ロード実行ユニット
内でロード命令が実行されている間に、ストア命令の結
果であるデータをストア・データ待ち行列から前記ロー
ド命令に転送する方法であって、前記ロード命令及び前記ストア命令の有効アドレスのう
ち、変換の影響を受けない下位Ｎビットを比較するステ
ップと、前記下位Ｎビットが一致した場合に、前記ロード命令及
び前記ストア命令の前記有効アドレスのうち、変換され
るビットを含む下位Ｍビットを比較するステップと、前記下位Ｍビットが一致した場合に、前記ロード実行ユ
ニット内に前記ロード命令を保持するステップと、前記ロード命令の実アドレスが前記ストア命令の実アド
レスと一致するか否かを判断するステップと、前記実アドレスが一致した場合に、前記データを前記ロ
ード実行ユニットに転送するステップと、を含む方法。
【請求項８】プロセッサにおいて、ロード命令の有効アドレスとストア命令の有効アドレス
とを比較するステップと、前記ロード命令の前記有効アドレスが前記ストア命令の
前記有効アドレスと一致するか否かに応じて、前記ロー
ド命令の実アドレスが前記ストア命令の実アドレスと一
致するか否かを予測するステップと、を含み、前記予測するステップが、前記ロード命令及び
前記ストア命令の前記有効アドレスのうち変換されるビ
ットを含む下位Ｍビットが一致した場合に、前記ロード
命令の前記実アドレスが前記ストア命令の前記実アドレ
スと一致すると予測するステップをさらに含むむ方法。
【請求項９】プロセッサにおいて、ロード命令の有効アドレスとストア命令の有効アドレス
とを比較するステップと、前記ロード命令の前記有効アドレスが前記ストア命令の
前記有効アドレスと一致するか否かに応じて、前記ロー
ド命令の実アドレスが前記ストア命令の実アドレスと一
致するか否かを予測するステップと、前記ロード命令の前記実アドレスが前記ストア命令の前
記実アドレスと一致しない場合、前記ロード命令をフラ
ッシュするステップと、を含む方法。