JP3290372B2

JP3290372B2 - 最適化された記憶アクセス待ち時間コード順序を生成する方法、命令およびデータを処理する方法、コンピュータ・システム

Info

Publication number: JP3290372B2
Application number: JP05361997A
Authority: JP
Inventors: チャールズ・マーシャル・バートン・サード; プラディープ・クマール・デュベイ; ジェイム・ハムバート・モレノ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1996-03-14
Filing date: 1997-03-07
Publication date: 2002-06-10
Anticipated expiration: 2017-03-07
Also published as: JPH1091455A; US5761515A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、コンピュータ処理
装置に関し、より詳細には、コンピュータ処理装置の階
層記憶からの命令およびデータの取り出しに関連する遅
延のコンパイラ支援容認（compiler-assisted toleranc
e）に関する。

【０００２】

【従来の技術】プロセッサの性能は１年で約５０％向上
しているが、記憶アクセス時間は１年でわずか５〜１０
％しか改善されていない。その結果、プロセッサ・サイ
クルのキャッシュ・ミスの待ち時間が急激に増大してい
る。加えて、より高い程度の命令レベル並列性をサポー
トするのに要するデータ・バンド幅の増大により、キャ
ッシュ・ミス待ち時間は、プロセッサ全体の性能のより
大きな割合を占めようとしている。従って、キャッシュ
・ミス待ち時間を減らし、容認できるように種々の試み
が成されてきた。

【０００３】現在のマイクロプロセッサのいくつか、例
えばＩＢＭ社によって商標「POWERPC」の下で販売され
ているものや、Hewlett-Packard 社によって商標「PA-R
ISC」の下で販売されているものは、キャッシュ・ブロ
ックの先取りに対するサポートを提供している。このサ
ポートは通常、識別されたラインをその最初の使用の前
にキャッシュの中に取り込もうとする（先取りしようと
する）コンパイラ挿入タッチ命令の形態である。従っ
て、データ・キャッシュのタッチ命令は、例外の場合に
誤り処理プログラムを呼び出させないことを除き、ロー
ド命令に類似している。このアプローチが、現在のプロ
セッサにおける比較的大きなキャッシュと相まって、キ
ャッシュ・ミスを減らすのに様々な程度に効果的であっ
た。それでもなお、多くのアプリケーション、特に大き
なデータ・セットを伴う商業的アプリケーションの場合
に、キャッシュ・ミスが今も浪費サイクルの大部分を占
めている。先取りの潜在的な性能上の利点は、以下の要
因のために限られている。まず、キャッシュ・ミス待ち
時間（プロセッサのクロック・サイクル数で表される）
が増すにつれ、先取りがますます困難になり、より非効
果的になる。先取りを開始するには、命令キャッシュお
よび／またはデータ・キャッシュのラインに関するアド
レスが、タッチを実行するのに十分に早く利用できなけ
ればならない。しかし、非常に早くに取り出されたライ
ンは、そのラインが使用される前に、置換アルゴリズム
によりキャッシュから放り出される可能性が高い。その
うえ、非常に早い先取りはまた、プログラムの制御フロ
ーの不確実性に遭遇する。その結果、キャッシュ・ミス
を減らそうとする最善の努力にもかかわらず、高性能プ
ロセッサは、キャッシュ・ミス待ち時間を容認するよう
に設計されなければならない。これが、本発明が取り組
もうとする他ならぬ問題である。従来技術では、この問
題は以下の２つの方法で扱われてきた。

【０００４】１．遅延スロットこのアプローチは、データのロードと使用との間に、ロ
ードされるデータから独立した命令を導入する。その結
果、ロードにおいて起こりうる遅延（キャッシュ・ミス
によるもの）を容認することができる。このような命令
の使用可能性が、このアプローチを使用してキャッシュ
・ミス待ち時間を容認することができる程度を決定す
る。これを、図１の従来技術のサンプル・コード順序に
示す。この図の命令Ｉがデータのロードを開始し、命令
Ｉ＋ｍ＋１がロードされたデータの使用を含む。間にあ
る命令Ｉ＋１およびＩ＋ｍは、命令Ｉにおけるロードか
ら独立した命令を指す。これらの中間命令の実行される
セットは、命令Ｉにおけるロードがキャッシュ・ヒット
またはキャッシュ・ミスのいずれを有するのかというこ
とから独立している。従って、実行されるセットは、キ
ャッシュ・ヒットおよびキャッシュ・ミスの両方の場合
に良好な性能が得られるようには独自に最適化すること
ができない。換言すると、コンパイラが、キャッシュ・
ヒットおよびキャッシュ・ミスの両方の場合にも最適な
性能を有する共通の静的順序を決定することができない
ならば、コンパイラは、キャッシュ・ヒットまたはキャ
ッシュ・ミスのどちらかだけに対して最適化することを
強要される。従って、中間命令の実行されるセットが命
令Ｉにおけるロードがキャッシュ・ヒットまたはキャッ
シュ・ミスのいずれを有するのかということに依存する
ような、命令およびデータを取り出す方法が求められ
る。従って、実行されるセットは、キャッシュ・ヒット
およびキャッシュ・ミスの両方の場合にも良好な性能が
得られるように最適化される。

【０００５】２．マルチスレッド処理このアプローチは、実行を異なる実行スレッドに切り換
えることによって待ち時間容認の問題に対処する。「ス
レッド」とは、単一の命令順序制御（単一のプログラム
・カウンタを暗示する）およびアーキテクチャ可視性の
機械状態（例えば設計されたレジスタ）の共用セットを
使用して実行できる一連の命令をいう。従って、マルチ
スレッド処理は、異なるスレッド間で文脈切り換えを可
能にするために多数のプログラム文脈をサポートする能
力を必要とする。これはさらに、そのような独立したス
レッドの検出を必要とし、それにはしばしばオペレーテ
ィング・システムの関与が求められる。従って、単一の
スレッド文脈においてキャッシュ・ミス待ち時間を容認
する、命令およびデータを取り出す方法が求められる。
本発明の実施態様は、単一のスレッドの文脈における待
ち時間容認を扱う。

【０００６】概して、従来技術のコンピュータ・システ
ムでは、コンパイラまたはアセンブリ言語のプログラマ
によって生成される命令は通常、実行時の前に、命令記
憶に順番に格納される。この順序を「静的順序」と呼
ぶ。「動的順序」は、コンピュータがこれらの命令を実
行する順序である。動的順序は静的順序と同じでも同じ
でなくてもよい。以下の記述において「コンパイル時」
とは、実行時前の処理の期間をいう。しかし、そのよう
な処理はコンパイラによって実行することが非常に一般
的であるが、他の手段、例えばアセンブリ・レベル・プ
ログラミングを代わりに利用してもよい。

【０００７】本発明は、階層記憶の複数のレベルにかけ
て命令およびデータを取り出す改良された方法を提供す
る。このような階層記憶は当分野では周知であり、広く
使用されている。通常、そのような、例えばＭ個のレベ
ルからなる階層記憶は、最低レベル、例えばレベル１で
は最小（サイズの点で）かつ最速（アクセス時間の点
で）の記憶からなり、階層記憶の最高、すなわちＭ番目
のレベルでの最大かつ最低速の記憶へと進む。換言する
と、或るレベル、例えばＩでの記憶は、次のレベルＩ＋
１の記憶よりも小さく、かつ高速である。また、レベル
Ｍでは、いかなる項目（命令またはデータ）も確かに使
用可能であるが、このレベルでその項目にアクセスする
には最も長い時間を要する。他方、それよりも低いレベ
ルの記憶は通常、より高速のアクセスを有するが、その
項目がより低いレベルでミスしている確率がますます高
くなる。従って、通常の記憶アクセスは、最低レベルか
らのデータ項目（あるならば）を待つことから始まる。
このレベルでミスした場合、次に高いレベルにアクセス
するためには追加の待機が必要である。換言すると、最
初にヒットするまで、アクセスは次々と高いレベルで試
みられる。これはさらに、その項目が最終的に見つかる
ところの記憶レベルがどこであるかにより、項目の取り
出しに関連する命令の待ち時間（遅延）が広く異なるこ
とを暗示する。例えば、レベル１記憶のアクセス遅延は
通常１プロセッサ・サイクルであるが、より高レベルの
記憶のアクセス遅延は、プロセッサ・サイクルの何十倍
または何百倍にもなるおそれがある。レベル１記憶は通
常オン・チップであり、以下の記述においてしばしば
「キャッシュ」と呼ぶ。

【０００８】命令待ち時間の知識（「待ち時間」とは、
命令の実行を完了するためのサイクル数をいう）は、例
えば、典型的なスーパスケーラ機およびスーパパイプラ
イン機におけるコード順序変更の際およびＶＬＩＷ（長
大命令語）機におけるスケジューリングの際に、多くの
コンパイル時最適化にとってきわめて重要である。スー
パスケーラ・マイクロプロセッサは当分野では周知であ
る（例えば、Mike Johnsonによる「Superscalar Microp
rocessor Design」Prentice Hall（1991）を参照）。

【０００９】例えば、表１〜３および添付の図面に示す
コード順序を考えてみる。表１〜３に示すサイクル数
は、仮定上の目標スーパスケーラ・プロセッサの命令を
完了するのに予想されるサイクルを指す。このプロセッ
サは、整数装置、ロード／ストア装置および分岐装置か
らなる。命令は順番に発行され、発行される準備のでき
たソース・オペランドを有しない最初の命令で発令が止
められる。１サイクルで３個までの命令（整数１個、ロ
ード／ストア１個、そして分岐１個）を発行することが
できる。さらに、ロード命令の待ち時間が、キャッシュ
・ヒットの際には２サイクルであり、キャッシュ・ミス
の際には７サイクルであると仮定する。

【００１０】例えば、表１の最適化されていないコード
順序を考えてみる。これは、表１に示すように、ラベル
Ｌのロード命令についてキャッシュ・ヒットを仮定する
と、１６サイクルを要する。キャッシュミスの場合に
は、このコード順序は２１サイクルを要する。ラベルＫ
１〜Ｋ６の命令の順序を「Ｋスレッド」と呼び、残りの
命令を「Ｕスレッド」と呼ぶことにする。

【００１１】

【表１】

【００１２】次に、表２を考えてみる。表２は、表１の
ＫスレッドおよびＵスレッドからの命令をインタリーブ
するキャッシュ・ヒット最適化コード順序の例を示す。
２個のスレッドの適切なインタリービングはしばしば、
資源の競合の際に比較的重要でないスレッドよりも優先
順位を与えられるより重大な（全体の待ち時間がより長
い）スレッドを決定するため、命令待ち時間の知識を必
要とする。例えば、ラベルＫ２およびＵ１の命令はいず
れもサイクル３で単一の整数装置に発行される準備がで
きており、よって資源の競合を暗示している。ラベルＬ
のロード命令についてキャッシュ・ヒットを仮定して、
コンパイラは、残りのＫスレッド（Ｋ２〜Ｋ６）が、残
りのＵスレッド（Ｕ１〜Ｕ３）よりも長い全体の待ち時
間を有するものと判断する。従って、この資源競合の
間、Ｋスレッドからの命令は、Ｕスレッドからの命令よ
りも優先順位を与えられる。従って、ラベルＵ１の命令
は、コンパイル時コード順序付けにおいて、ラベルＫ２
の命令の次になるように延期される。同様に、ラベルＫ
５およびＵ３の命令はいずれもサイクル８で単一の実行
装置に発行される準備ができている。残りのＫスレッド
（Ｋ５〜Ｋ６）の全待ち時間が残りのＵスレッド（Ｕ
３）の全待ち時間よりも長いため、Ｋスレッドは再び優
先順位を与えられ、ラベルＵ３の命令はラベルＫ５の命
令の次になるように延期される。表２に示すように得ら
れたキャッシュ・ヒット最適化コード順序は、キャッシ
ュ・ヒットの際には１０サイクルしか要しないが、キャ
ッシュ・ミスの際には１４サイクルを要する。

【００１３】

【表２】

【００１４】あるいは、コンパイラは、ロード命令につ
いてキャッシュ・ミスを仮定して、表３に示すようなキ
ャッシュ・ミス最適化コード順序を生成することもでき
る。ここで、ラベルＵ１およびＫ５の命令がいずれも単
一の整数装置に発行される準備ができているとき、サイ
クル８において資源の競合を考えてみる。残りのＵスレ
ッド（Ｕ１〜Ｕ３）の待ち時間が残りのＫスレッド（Ｋ
５〜Ｋ６）の待ち時間よりも長いため、表２の場合とは
異なり、ＵスレッドがＫスレッドよりも優先順位を与え
られる。その結果、ラベルＫ５の命令はラベルＵ３の命
令の次になるように延期される。得られる順序は、キャ
ッシュ・ミスの際に実行するのに、表２の順序（１４サ
イクル）よりも少ないサイクル（１２サイクル）しか要
しない。逆に、この順序は、キャッシュ・ヒットの際に
は、表２のキャッシュ・ヒット最適化コード順序（１０
サイクル）よりも長い時間（１２サイクル）を実行に要
する。

【００１５】

【表３】

【００１６】従来技術の機械では、コンパイラは、ロー
ド命令が実行時にヒットすると事前に仮定するのかミス
すると事前に仮定するのかに依存して、２つの順序（表
２および表３の順序）の一方を選択しなければならな
い。換言すると、２つの順序の一方だけが生成される。
前記のように、コンパイラが表２の順序を生成すること
を選択するならば、ロード命令がキャッシュ・ミスを引
き起こすような実行時の場合に、性能が最適未満とな
る。逆に、コンパイラが表３の順序を生成することを選
択するならば、ロード命令がキャッシュ・ヒットを引き
起こすような実行時の場合に、性能が最適未満となる。
当業者であれば、実行時に特定の項目が階層記憶のより
低い特定のレベルに存在するかどうかを、コンパイル時
に正確に予測することが非常に困難であることを認識す
るであろう。従って、コンパイル時の予測が不正確であ
る場合には、性能がさらに悪影響を受けるおそれがあ
る。

【００１７】

【発明が解決しようとする課題】従って、本発明の目的
は、階層記憶の複数のレベルにかけて命令およびデータ
を取り出す改良された方法を提供することにある。

【００１８】本発明の他の目的は、階層記憶の異なるレ
ベルでヒットおよびミスのいずれの場合にも性能を改善
するコンパイル時最適化により、階層記憶の複数のレベ
ルにかけて命令およびデータを取り出す改良された方法
を提供することにある。本発明の他の目的および利点
は、以下の記述を考察することによって明白になり、ま
た、一部にはその記述から明白であるか、または、本発
明の実施によって学ぶことができる。

【００１９】

【課題を解決するための手段】本発明の目的に従って課
題を達成するために、本明細書に記載する本発明のコン
ピュータ処理装置の態様は、異なる２つのコード順序、
すなわち、一方はコンパイル時にキャッシュ・ヒットを
仮定して最適化されたものと、もう一方はコンパイル時
にキャッシュ・ミスを仮定して最適化されたものとの間
で適切に動的な切り換えを行うことにより、キャッシュ
・ミス待ち時間を容認する問題を解決する。

【００２０】階層記憶を有するコンピュータ・システム
上の実行に対して最適化された記憶アクセス待ち時間特
定的コード順序（memory access latency specific cod
e sequences：以下単に「記憶アクセス待ち時間コード
順序」という）を生成するための本発明の方法の好まし
い実施態様は、静的コード順序において記憶アクセス命
令を識別するステップと、階層記憶の或るレベルでのヒ
ットに対して最適化された、記憶アクセス命令に関連す
る第１の記憶アクセス待ち時間コード順序と、階層記憶
のそのレベルでのミスに対して最適化された、記憶アク
セス命令に関連する第２の記憶アクセス待ち時間コード
順序とを生成するステップと、記憶アクセス命令の実行
がヒットを起こしたときには第１の記憶アクセス待ち時
間コード順序を実行し、記憶アクセス命令の実行がミス
を起こしたときには第２の記憶アクセス待ち時間コード
順序を実行するための命令を挿入するステップとを含
む。

【００２１】階層記憶を含むコンピュータ・システムに
おいて命令およびデータを処理するための本発明のコン
パイル時最適化方法の好ましい実施態様は、記憶アクセ
ス命令を含む静的命令順序と、それぞれが階層記憶の或
るレベルでのヒットまたはミスの一方を起こす記憶アク
セス命令の実行に依存して最適化された関連の記憶アク
セス待ち時間特定的コード順序を生成するステップと、
記憶アクセス命令をデコードし、実行し、記憶アクセス
命令の実行がヒットを起こしたのかミスを起こしたのか
を示す情報を格納するステップと、格納ステップに応答
して、その情報がヒットを示すときにはそのレベルでの
ヒットに対して最適化されたコード順序に分岐し、その
情報がミスを示すときにはそのレベルでのミスに対して
最適化されたコード順序に分岐するステップとを含む。

【００２２】

【発明の実施の形態】本発明の実施態様は、「ブランチ
・オン・ミス（ミスならば分岐）命令」または「ＭＢＲ
ＡＮＣＨ命令」と呼ぶことができる新規な命令を提案す
る。この命令は、キャッシュ・ヒットまたはキャッシュ
・ミスのいずれがあるのかに依存して、２つに１つのコ
ード順序に分岐する実行時能力を提供する。まず図２を
参照すると、このＭＢＲＡＮＣＨ命令はラベルＸ１で
「ｍｂｒａｎｃｈｍ，１，ＫＫ２」と符号化されてい
る。つまり、階層記憶の１（レベル）でミス（ｍ）の場
合にはラベルＫＫ２に分岐せよ、ということである。こ
れは、コンパイラが２つの順序、すなわち、一方がキャ
ッシュ・ヒットを仮定して最適化されたもの、もう一方
がキャッシュ・ミスを仮定して最適化されたものを生成
することを可能にする。キャッシュ・ヒット最適化コー
ド順序（表２）は、ブランチ・オン・ミス命令のフォー
ルスルー経路（ラベルＫ２→Ｋ６）で生成され、キャッ
シュ・ミス最適化コード順序（表３）は、ブランチ・オ
ン・ミス命令の分岐経路（ラベルＫＫ２→ＵＵ３）で生
成される。その結果、実行時の性能は今やキャッシュ・
ヒットおよびキャッシュ・ミスの両方の際に最適であ
り、性能はさらにキャッシュ・ヒットまたはキャッシュ
・ミスのコンパイル時の予測の精度に感応しない。本発
明のＭＢＲＡＮＣＨ命令の意味（セマンティクス）の実
施態様ならびにＭＢＲＡＮＣＨ命令を実行することがで
きるコンピュータ・システムの動作を以下に説明する。
既存の命令コードの未使用のコードを例えば既存の条件
付き分岐命令の変形として使用して、この命令の機能を
既存のアーキテクチャで符号化することも可能である。

【００２３】本発明の好ましい実施態様はまた、それぞ
れが「キャッシュ・レコード・レジスタ」と呼ばれる１
個以上のレジスタのセットを提案する。このようなレジ
スタそれぞれは、好ましくは１個以上のフィールドから
なり、各フィールドが、階層記憶の特定のレベルと関連
している。フィールドは、その関連のレベルの記憶アク
セスの状態を符号化する。フィールドのデフォルト値ま
たは初期設定値は、そのレベルでのヒットを示すことが
できる。当業者であれば、機械アーキテクチャが１個以
上の既存の設計されたレジスタにおいて十分な予約ビッ
トを有する場合、そのような存在する予約ビットを使用
して、新たな明示的レジスタを機械アーキテクチャ状態
に加えることなく、キャッシュ・レコード・レジスタの
機能を加えることができることを察知するであろう。そ
うでなければ、十分に利用できるレジスタ・ビットを持
たない他の機械アーキテクチャの場合に、追加のアーキ
テクチャ可視性のレジスタを加えて、キャッシュ・レコ
ード・レジスタ・セットの機能をサポートすることもで
きる。

【００２４】ＭＢＲＡＮＣＨ命令の詳細な説明好ましい実施態様において、本発明のＭＢＲＡＮＣＨ命
令は、階層記憶の識別されたレベルでキャッシュ・ミス
があるならば、静的順序でＭＢＲＡＮＣＨ命令の直後に
ある順序を取り出し、実行する代わりに、識別された目
標アドレスに関連する命令順序を取り出し、実行するな
らば、性能がおそらくは改善するであろうというヒント
である。この命令は単にヒントであり、従って、所与の
機械実現形態は、この命令を無視し、その意味を無視
し、キャッシュ・ヒットまたはキャッシュ・ミスにかか
わらず順番に取り出しを続けることも自由である。従っ
て、プログラムの正当性は、この命令の意味が遵守され
るのか無視されのるかには依存しない。むしろ、プログ
ラム実行の性能は、潜在的には、この命令に関連する意
味が遵守されるかどうかの関数である。

【００２５】次に図３を参照すると、本発明のＭＢＲＡ
ＮＣＨ命令３００のフォーマットの実施態様が示され、
これは、命令コード・フィールド３０２と、ミス識別フ
ィールド３０４と、キャッシュ・レコード・レジスタ・
フィールド３０５と、アドレス・フィールド３０６とを
含む。アドレス・フィールド３０６は、命令順序のアド
レスを明瞭に識別する。ミス識別フィールド３０４は、
識別された命令アドレスに分岐するために命令取り出し
および実行の変更が推奨される記憶レベルのミスまたは
ヒットを指定する。極端な場合には、ミス識別フィール
ド３０４は、選択肢を何も提供しなくてもよく、従っ
て、その意味は命令コード・フィールド３０２によって
暗示することができ、明示的なミス識別フィールドの必
要はないかもしれない。しかし、一般的な場合には、ミ
ス識別フィールド３０４は、ミス指定のためのいくつか
の選択肢の１つを符号化することができる。本発明の好
ましい実施態様は、ミス識別フィールド３０４を２個の
サブフィールドに分割する。第１のヒット／ミス・サブ
フィールド３０４１は、キャッシュ・ミスまたはキャッ
シュ・ヒットのどちらの検出をもって分岐をとるかを識
別する。これはさらに、ヒット／ミス検出保留のオプシ
ョンを含むように拡張してもよい。第２の記憶レベル・
サブフィールド３０４２は、ヒットまたはミスが検出さ
れるべき階層記憶の或る記憶レベルを指定する。指定さ
れた記憶レベルが、実現形態でサポートされている最高
の記憶レベルよりも高いならば、アクセスは常にヒット
であると仮定することができる。キャッシュ・レコード
・レジスタ・フィールド３０５は、識別されたヒット／
ミス状態を決定するために検査すべきキャッシュ・レコ
ード・レジスタ（後述）を指定する。キャッシュ・レコ
ード・レジスタが１個だけの場合、このフィールド３０
５は不要である。

【００２６】変更記憶アクセス命令の詳細な説明１個以上の記憶アクセスを伴う命令を「記憶アクセス命
令」と呼ぶ。図４は、本発明の記憶アクセス命令４００
の変更フォーマットを示す。図４に示すように、任意の
記憶アクセス命令の既存のフォーマット４０２は、１個
以上のキャッシュ・レコード・レジスタの識別を含むキ
ャッシュ・レコード・レジスタ・フィールド４０４を含
むように変更することができる。ここでもまた、キャッ
シュ・レコード・レジスタが１個だけの場合、フィール
ド４０４は不要である。そして、識別されたレジスタを
実行時に使用して、関連の記憶アクセスの状態を記録す
ることができる。例えば、記憶アクセス命令４００の実
行の間、より低いレベル、例えばレベル１およびレベル
２でのミスは、これらレベル１および２に関連するサブ
フィールドを、この命令によって識別されるレジスタ中
に設定することによって記録することができる。

【００２７】コンピュータ・システムの詳細な説明図５は、本発明に従って命令およびデータを取り出す改
良された方法を実行するマルチレベルの階層記憶を含む
コンピュータ・システムのブロック図である。このコン
ピュータ・システムは、プロセッサ５００および関連の
階層記憶１００を含む。階層記憶１００は、プロセッサ
５００で実行するためのプログラム・データおよび命令
を保持している。記憶装置は、階層記憶１００の１個以
上のレベル１００−１〜１００−Ｍからなる（Ｍは最高
レベル、すなわち主記憶を表す）。最小（サイズの点
で）かつ最速（アクセス時間の点で）の記憶レベルが通
常「キャッシュ」と呼ばれ、プロセッサ５００中に、そ
の最低レベルであるＬＥＶＥＬ＿１（１００−１）で組
み込まれている。記憶レベルは順次に直前の記憶レベル
よりも大きく、かつ遅くなる。換言すると、或るレベ
ル、例えばｉの記憶は、次のレベルｉ＋１の記憶よりも
小さく、かつ高速である。どの項目（命令またはデー
タ）も最高レベル（主記憶）ＬＥＶＥＬ＿Ｍで利用でき
るが、頻繁に使用される命令およびデータの部分は通
常、それぞれ命令キャッシュ１０１−１およびデータ・
キャッシュ１０３−１に保持されている。あるいは、命
令キャッシュおよびデータ・キャッシュを単一のキャッ
シュに統合することもできる。より高いレベルの記憶も
また、命令用とデータ用とに分割することもできるし、
統合することもできる。

【００２８】従来どおり、命令キャッシュ１０１−１お
よびデータ・キャッシュ１０３−１にそれぞれ格納され
た命令／データはラインまたはブロックに分割される。
命令取り出し装置１０４が命令キャッシュ１０１−１に
格納された命令の１個以上のブロックをデコード装置１
０８に取り込む。デコード装置１０８は、一般的な分岐
命令、ＭＢＲＡＮＣＨ命令および条件レジスタ更新命令
を実行するために分岐装置１１０に送り、他の順序どお
り（非分岐）の命令をディスパッチ実行装置１１２に送
る。ディスパッチ実行装置１１２は、保留中の命令の間
で依存性を解析し、１個以上の機能装置における命令の
実行をスケジューリングする。多様なトレードオフの結
果としてのこのようなディスパッチ実行装置１１２は当
分野では周知である（例えば、Mike Johnsonによる「Su
perscalar Microprocessor Design」Prentice Hall（19
91）を参照）。代替的な実現形態は、複雑な命令間依存
性解析ハードウェアから、実行時依存性解析を実施しな
い非常に簡単なディスパッチ実行エンジンにまで及ぶ。
後者の場合、多くのＶＬＩＷ（長大命令語）機における
ように、依存性解析はもっぱらコンパイル時に行われ
る。

【００２９】図６に示す好ましい実施態様では、ディス
パッチ実行装置１１２は、ディスパッチ装置１１３と、
複数の機能装置１１５−１〜１１５−Ｋと、スケジュー
ラ１１６とからなる。ディスパッチ装置１１３は、デコ
ード装置１０８によって送られた命令の間で依存性を解
析し、これらの命令をスケジューラ１１６に送る。スケ
ジューラ１１６によって同じサイクル中に受け取られる
すべての命令は、互いに独立しているとみなすことがで
きる。このようなスケジューラ１１６もまた、スーパス
ケーラ機の分野では周知である。そして、スケジューラ
１１６は命令を機能装置１１５に対してスケジューリン
グする。機能装置１１５は、１個以上の機能装置１１５
−１〜１１５−Ｋからなり、各装置が、いくつかまたは
すべてのタイプの命令を実行することができる。機能装
置１１５は、データ取り出し装置１０６を介して入力ソ
ース・オペランドをレジスタ・ファイル１１８またはデ
ータ・キャッシュ１０３−１から受け、出力結果をそれ
らに書き込む。図６に示す好ましい実施態様では、すべ
ての機能装置１１５−１〜１１５−Ｋは同一であり、従
って、いかなる命令をも実行することができる。あるい
は、これらの機能装置は非対称的であってもよい。ここ
では、特定の機能装置は、命令のサブセット、例えばロ
ード／ストア命令または整数命令もしくは浮動小数点命
令だけを実行することができる。従来どおり、スケジュ
ーラ１１６は、そのような非対称性を認知し、命令を適
切にスケジューリングできなければならない。

【００３０】データ取り出し装置１０６は、データ・キ
ャッシュ１０３−１からディスパッチ実行装置１１２の
機能装置１１５へのデータのブロックの取り込みを扱
う。データ・キャッシュ１０３−１は通常、命令によっ
てソース・オペランドとして使用されるデータ値と、実
行された命令によって生成されるデータ値とを保管して
いる。

【００３１】プロセッサ５００はまた、レジスタのセッ
トを含むレジスタ・ファイル１１８を含む。レジスタ・
ファイル１１８は、命令を実行するためにディスパッチ
実行装置１１２に関連する機能装置１１５にオペランド
を提供し、また、実行の結果を受け取る。このレジスタ
・ファイル１１８は、アーキテクチャ可視性のレジスタ
のセットと、アーキテクチャ不可視性のレジスタとにさ
らに分けられる。「アーキテクチャ可視性のレジスタ」
または「設計されたレジスタ」とは、機械のアセンブリ
・レベル・プログラマ（またはコンパイラ）がアクセス
することができる固定されたレジスタのセットをいう。
このようなレジスタ・ファイル１１８は当分野では周知
である。プロセッサ５００はまた、アーキテクチャによ
って有効とみなされる順序で命令を実行する責任を負う
完了装置１２０を含む。ディスパッチ実行装置１１２
は、この順序を無視して命令をディスパッチし、実行す
ることができるとしても、プロセッサ５００は、アーキ
テクチャの制約に依存して、命令を同じ順序で完了させ
てもよいし、そうしなくてもよい。

【００３２】分岐装置１１０は、分岐命令、すなわち、
機械の順序制御の流れを潜在的に変えることができる命
令の意味を実現する責任を負う。分岐装置１１０はま
た、未解決の分岐を予測し、分岐解決ごとに各予測の有
効性を決定することもできる。分岐装置１１０はまた、
条件付き分岐命令の結果を評価するのに使用される条件
レジスタ（ＣＲ）と、ディスパッチ実行装置１１２によ
って実行される演算の結果に従って条件レジスタを更新
する論理とを含むことができる。

【００３３】本発明の実施態様によると、命令取り出し
装置１０４は、命令キャッシュ１０１−１に格納された
ＭＢＲＡＮＣＨ命令３００（前出）を取り出し、それを
デコード装置１０８に送る。デコード装置１０８は、Ｍ
ＢＲＡＮＣＨ命令３００を識別し、それを分岐装置１１
０に送る。ＭＢＲＡＮＣＨ命令３００に関連する条件の
有効性を決定するため、分岐装置１１０の論理が、キャ
ッシュ・レコード・レジスタ管理装置１０２に対し、Ｍ
ＢＲＡＮＣＨ命令３００のミス識別フィールド３０４で
識別されたキャッシュ・レコード・レジスタ・フィール
ド３０５の値に関して問い合わせる。この条件の有効性
が、分岐の是非を決定する。キャッシュ・レコード・レ
ジスタ管理装置１０２は、キャッシュ・レコード・レジ
スタ・セット２００中の１個以上のキャッシュ・レコー
ド・レジスタ２００−１〜２００−Ｎに対する読み出し
または書き込みを管理する責任を負う。キャッシュ・レ
コード・レジスタ・セット２００は、主として、本発明
のＭＢＲＡＮＣＨ命令３００の意味を実現する責任を負
う。キャッシュ・レコード・レジスタ・セット２００の
各レジスタは、それぞれのサブフィールド２００−１．
１〜２００−１．Ｍおよび２００−Ｎ．１〜２００−
Ｎ．Ｍを含む。各サブフィールドは、階層記憶１００の
特定の記憶レベル１００−１〜１００−Ｍと１対１で関
連していることができる。記憶アクセス命令の実行は、
好ましくは、適切なキャッシュ・レコード・レジスタ２
００−ｉのサブフィールドをデフォルト設定値に初期化
することから始まる。命令実行が進むにつれ、それは、
階層記憶１００の種々のレベルでのヒットまたはミスに
依存して、これらのサブフィールドのデフォルト設定値
を更新する結果をもたらすことができる。例えば、階層
記憶のＬＥＶＥＬ＿１（１００−１）およびＬＥＶＥＬ
＿２（１００−２）でミスしたのち、ＬＥＶＥＬ＿３で
ヒットした場合、この状態を適切なキャッシュ・レコー
ド・レジスタ２００−１の対応するサブフィールドに連
続的に記録することができる。すなわち、ＬＥＶＥＬ＿
１およびＬＥＶＥＬ＿２に対応するサブフィールド２０
０−１．１および２００−１．２をセットし、ＬＥＶＥ
Ｌ＿３に対応するサブフィールド２００−１．３をリセ
ットすることによって、この状態を表示することができ
る。他の実施態様では、キャッシュ・レコード・レジス
タ・セット２００をレジスタ・ファイル１１８の一部に
してもよい。その場合、レジスタ・ファイル１１８中の
他のレジスタと同様に、キャッシュ・レコード・レジス
タ２００−ｉを、ＭＢＲＡＮＣＨ命令３００および記憶
アクセス命令それぞれの意味の一部として読み出し、更
新してもよい。さらに別の実施態様では、キャッシュ・
レコード・レジスタ・セット２００を分岐装置１１０の
一部にして、その中に含まれる条件レジスタと同様に更
新／管理してもよい。

【００３４】実行方法の詳細な説明図７は、図５に示すコンピュータ・システムを使用して
ＭＢＲＡＮＣＨ命令３００を処理する方法を説明する流
れ図を示す。ステップ１０００で、コンパイル時に、コ
ンパイラが、ＭＢＲＡＮＣＨ命令３００を考慮せずに静
的な命令順序を生成する。説明を明確にするため、以下
の記述では、別段指定しない限り、キャッシュとはデー
タ・キャッシュ１０３−１のみを指す。しかし、以下に
説明する方法は、命令キャッシュ１０１−１のアクセス
性能を最適化する場合にも応用することができる。ステ
ップ１００２で、コンパイラは静的順序を解析して、キ
ャッシュ・アクセス時間が最適化されたならば性能が有
意に強化される可能性のある特定の場所を識別する。こ
れらの場所を「臨界ミス・ポイント」と呼ぶ。ステップ
１００４で、識別された臨界ミス・ポイントごとに、コ
ンパイラは、このデータ・アクセスから生じるおそれの
あるキャッシュ・アクセス待ち時間のセットを考慮す
る。これらの可能なキャッシュ・アクセス待ち時間ごと
に、コンパイラは、対応する最適化されたコード順序
（記憶アクセス待ち時間コード順序）を生成する。

【００３５】「キャッシュ・アクセス待ち時間」とは、
キャッシュからデータを検索するのに要する時間をい
う。キャッシュ・アクセス待ち時間は、データが見いだ
される階層記憶１００の記憶レベル１００−１〜１００
−Ｍの関数である（図５に関連するアクセス処理の説明
を参照）。

【００３６】図７に戻ると、ステップ１００５で、臨界
ミス・ポイントに関する記憶アクセス命令を変更して、
関連の記憶アクセスの結果を記録するために実行時に使
用することができるレジスタを識別する。そのような変
更記憶アクセス命令４００を示す本発明の態様は、図４
を参照しながら先に説明したものである。ステップ１０
０６で、コンパイラがＭＢＲＡＮＣＨ命令３００を挿入
して、ステップ１００４で生成された、最適化されたコ
ード順序に分岐できるようにする。前述のように、これ
らのコード順序は、関連の記憶アクセス命令の実行の際
に階層記憶１００の種々のレベルでのアクセス結果に対
応する。ステップ１００８で、実行時に、コンピュータ
・システムが、ステップ１００６で静的順序に挿入され
たＭＢＲＡＮＣＨ命令３００を含むコンパイルされた命
令の静的順序を階層記憶１００にロードする。階層記憶
１００は、最低レベルの命令キャッシュ１０１−１を含
む複数の記憶レベル１００−１〜１００−Ｍからなる。
従来どおり、階層記憶１００のより高いレベルに格納さ
れた静的順序の一部は、より低いレベルに頻繁に転送さ
れ、最後には、実行されるために最低レベルの命令キャ
ッシュ１０１−１に転送される。ステップ１０１０で、
命令取り出し装置１０４が、命令キャッシュ１０１−１
にアドレスすることにより、次の命令順序を命令キャッ
シュ１０１−１から取り出す。その命令順序が命令キャ
ッシュ１０１−１に見当たらないならば、それは、前述
したように、階層記憶１００のより高いレベルから取り
出される。命令取り出し装置１０４によって取り出され
た命令順序は、デコード装置１０８に転送される。ステ
ップ１０１２で、デコード装置１０８が１個以上の命令
を同時にデコードする。ＭＢＲＡＮＣＨ命令３００を含
む、分岐命令としてデコードされた命令または条件レジ
スタ更新を伴う命令は、分岐装置１１０に送られる。ス
テップ１００５でフォーマットを変更された変更記憶ア
クセス命令４００を含む他の命令は、依存性解析、ディ
スパッチおよび実行のためにディスパッチ実行装置１１
２に送られる。ステップ１０１４で、分岐装置１１０
が、本発明のＭＢＲＡＮＣＨ命令３００を含む、分岐命
令としてデコードされた命令または条件レジスタ更新を
伴う命令を処理する（ステップ１０１４のより詳細な説
明は図８に示す）。ステップ１０１６で、ディスパッチ
実行装置１１２が、分岐命令および条件レジスタ更新命
令以外の、本発明の変更記憶アクセス命令４００を含む
命令を処理する（ステップ１０１６のより詳細な説明は
図９に示す）。最後に、ステップ１０１８で、完了装置
１１４が、前述したようなアーキテクチャによって有効
であるとみなされる順序で命令実行を完了する。処理は
ステップ１０１０に戻って、次の命令順序を命令キャッ
シュ１０１−１から取り出し、プログラム実行の間、こ
のような処理が繰り返される。

【００３７】ステップ１０１２で、デコード装置１０８
が１個以上の命令を同時にデコードすることを想起され
たい。本発明のＭＢＲＡＮＣＨ命令３００を含む、デコ
ード済みの分岐命令または条件レジスタ更新を伴う命令
は、ステップ１０１４で処理されるために分岐装置１１
０に送られる。

【００３８】次に図８を参照して、図７のステップ１０
１４を詳述する。ステップ１０１４１で、分岐装置１１
０が、デコード装置１０８から送られた命令をデコード
して、その命令がＣＲ命令、すなわち、条件レジスタ更
新を伴う命令であるかどうかを決定する。それがＣＲ命
令であるならば、処理に影響を加えないことが好まし
く、従って、ステップ１０１４２で従来の方法で実施す
る。

【００３９】デコードされた命令がＣＲ命令ではないな
らば、ステップ１０１４３で、分岐装置１１０が、それ
がＭＢＲＡＮＣＨ命令３００であるかどうかを決定す
る。そうであれば、ステップ１０１４４で、分岐のため
に比較すべき特定のミス・ビットを識別する。ＭＢＲＡ
ＮＣＨ命令３００のキャッシュ・レコード・レジスタ・
フィールド３０５を使用して、ミス・ビットを含むキャ
ッシュ・レコード・レジスタ・セット２００中の適切な
レジスタを識別することができる。記憶レベル・サブフ
ィールド３０４２で識別された記憶レベルを使用して、
特定のミス・ビットをさらに識別することができる。ス
テップ１０１４５で、ＭＢＲＡＮＣＨ命令３００のヒッ
ト／ミス・サブフィールド３０４１をデコードして、分
岐がヒットで推奨されるのかミスで推奨されるかを決定
する。ステップ１０１４５で、ＭＢＲＡＮＣＨ命令３０
０がブランチ・オン・ミスとしてデコードされるなら
ば、ステップ１０１４６で、ステップ１０１４４で識別
されたミス・ビットのセット状態または非セット状態を
試験する。ミス・ビットがセット状態であって、所与の
記憶レベルでのミス（データは見つからず）を示すなら
ば、流れ制御はステップ１０１４９に移り、これが、ア
ドレス・サブフィールド３０６で指定された目標アドレ
スでの命令に対する分岐を実現する。ミス・ビットが非
セット状態であるならば、識別された目標アドレスに分
岐しないまま、ＭＢＲＡＮＣＨ命令３００の処理が完了
する。

【００４０】ステップ１０１４５で、ＭＢＲＡＮＣＨ命
令３００がブランチ・オン・ヒットとしてデコードされ
るならば、ステップ１０１４７で、ステップ１０１４４
で識別されたミス・ビットのセット状態または非セット
状態を試験する。ミス・ビットが非セット状態であっ
て、適切な記憶レベルでのヒット（データを発見）を示
すならば、流れ制御はステップ１０１４９に移り、これ
が、アドレス・フィールド３０６で指定された目標アド
レスでの命令に対する分岐を実現する。ステップ１０１
４７で、ミス・ビットがセット状態である（データは見
つからず）ならば、識別された目標アドレスに分岐しな
いまま、ＭＢＲＡＮＣＨ命令３００の処理が完了する。

【００４１】ステップ１０１４３で、送られた命令がＭ
ＢＲＡＮＣＨ命令３００ではないとしてデコードされる
（通常の分岐命令を暗示する）ならば、ステップ１０１
４８が実行される。好ましくは、本発明は、非ＭＢＲＡ
ＮＣＨ分岐命令の処理には変更を加えない。従って、そ
のような命令はステップ１０１４８で従来の方法で処理
される。

【００４２】再び図７を参照して、ステップ１０１６
で、ディスパッチ実行装置１１２が、本発明に従ってフ
ォーマットを変更された変更記憶アクセス命令４００を
含む命令を処理することを想起されたい。

【００４３】次に図９を参照して、本発明に従って、記
録を伴うキャッシュ・アクセスを含む、図７の「ディス
パッチおよび実行」（ステップ１０１６）を実施する方
法を説明する。ステップ１０１６１で、従来どおり、デ
ィスパッチ実行装置１１２が、デコード装置１０８によ
って送られる命令に関して命令間依存性を解析する。独
立した命令は、実行のための機能装置１１５におけるス
ケジューリングのためにスケジューラ１１６にディスパ
ッチされる。ステップ１０１６２で、ディスパッチ実行
装置１１２が、命令の実行がデータ・キャッシュ１０３
−１のアクセスを伴うかどうかを決定する。そうであれ
ば、ステップ１０１６３で、キャッシュ・アクセスが記
録を伴うべきかそうではないかに関してさらに決定を下
す。「記録を伴うキャッシュ・アクセス」とは、キャッ
シュ・アクセスの結果（ヒットまたはミス）が後の処理
のために格納されることをいう。図１０を参照して、本
発明による記録を伴うキャッシュ・アクセスの方法の詳
細な実施態様を説明する。ステップ１０１６３にかかわ
る決定は、本発明により、ステップ１００５の記憶アク
セス命令のフォーマット変更によって簡略化される。あ
るいは、すべての記憶アクセス命令が記録を伴うキャッ
シュ・アクセスを要するものと仮定することもできる。

【００４４】図９に戻ると、ステップ１０１６３で、記
録を伴うデータ・キャッシュ・アクセスが指定される
と、ステップ１０１６４が実行される。ステップ１０１
６４で、変更記憶アクセス命令４００のフィールド４０
４をデコードすることにより、記録に関連するキャッシ
ュ・レコード・レジスタ２００−ｉを識別する。再び、
この特定の場合に、本発明の実施態様が１個のキャッシ
ュ・レコード・レジスタしか含まないとき、キャッシュ
・レコード・レジスタ２００−ｉの明示的な識別が不要
になる。次に、ステップ１０１６５で、識別されたキャ
ッシュ・レコード・レジスタ２００−ｉをキャッシュ管
理装置１０２によってそのサブフィールドの適当なデフ
ォルト設定値に初期化することができる。好ましくは、
デフォルト設定値は、すべての記憶レベルでヒットを暗
示する。ステップ１０１６６で、データ・キャッシュに
アクセスして結果を記録する。ステップ１０１６３で、
キャッシュ・アクセスが記録を伴わないならば、従来の
キャッシュ・アクセスをステップ１０１６８で実行す
る。データ・キャッシュ・アクセスがステップ１０１６
８または１０１６６で完了したのち、ステップ１０１６
７で命令を実行し、従来どおりに完了させる。ステップ
１０１６２で、命令の実行がデータ・キャッシュ・アク
セスを要しないならば、ステップ１０１６７で、命令
は、実行装置１１２および完了装置１１４によって実行
され、完了する。

【００４５】図９において、ステップ１０１６３で、デ
ータ・キャッシュ・アクセスがかかわるならば、キャッ
シュ・アクセスが記録を伴うべきかそうではないかに関
してさらなる決定が下されることを想起されたい。ま
た、キャッシュ・アクセスが記録を伴うとき、ステップ
１０１６４で、キャッシュ・レコード・レジスタ２００
−ｉが好ましくはキャッシュ管理装置１０２によって初
期化されて、すべての記憶レベルでのヒットを暗示する
ことを想起されたい。

【００４６】図１０は、マルチレベルのキャッシュ記憶
１００−１〜１００−ｉ環境において記録を伴うキャッ
シュ・アクセスを実施する図９のステップ１０１６６を
詳細に説明する。ステップ５００１で、階層記憶１００
中の最低レベル１００−１にアクセスすることにより、
記録を伴うキャッシュ・アクセスが始まる。キャッシュ
・アクセスがヒットである（データを発見）ならば、ス
テップ５００２を実行する。ステップ５００２で、ステ
ップ１０１６４で識別されたキャッシュ・レコード・レ
ジスタ２００−ｉ中のＬＥＶＥＬ＿１に対応するサブフ
ィールドをリセットし、記録を伴うキャッシュ・アクセ
ス（ステップ１０１６６）が完了する。そうでなけれ
ば、ステップ５００１のアクセスはミスであり、ステッ
プ５００３で、先のステップ１０１６４で識別されたキ
ャッシュ・レコード・レジスタ２００中のＬＥＶＥＬ＿
１に対応するサブフィールドをセットした後、記録を伴
うキャッシュ・アクセス（ステップ１０１６６）はステ
ップ５００４に進む。ステップ５００４で、次の記憶レ
ベルが階層記憶１００の最高レベル（主記憶）、すなわ
ち１００−Ｍよりも低いかどうかを検査する。ステップ
５００４で次の記憶レベルがＭ未満であると決定される
と、ステップ５００５で次の記憶レベルにアクセスす
る。ステップ５００５でのアクセスがヒットであるなら
ば、ステップ５００６で、先のステップ１０１６４で識
別されたキャッシュ・レコード・レジスタ２００−ｉ中
のこのレベルに対応するサブフィールドをセットし、記
録を伴うキャッシュ・アクセス（ステップ１０１６６）
が完了する。そうではなく、アクセスがミスであるなら
ば、ステップ５００７で、先のステップ１０１６４で識
別されたキャッシュ・レコード・レジスタ２００−ｉ中
のこのレベルに対応するサブフィールドをセットし、前
述したように、処理はステップ５００４に戻る。ステッ
プ５００４で、次の記憶レベルがＭに等しいと決定され
るならば、ステップ５００８で、次の記憶レベル、すな
わちＬＥＶＥＬ＿Ｍにアクセスする。これが階層記憶１
００の最高レベルであるため、アクセスはヒットである
はずと仮定され、記録を伴うキャッシュ・アクセス（ス
テップ１０１６６）が完了する。

【図面の簡単な説明】

【図１】データのロードと使用との間に、キャッシュ・
ミスまたはキャッシュ・ヒットから独立した命令を導入
する従来技術の方法を示す図である。

【図２】キャッシュ・ヒットに対して最適化されたコー
ド順序と、キャッシュ・ミスに対して最適化されたコー
ド順序との間で動的に切り換えるための、本発明のＭＢ
ＲＡＮＣＨ命令の態様を含むプログラム順序を示す図で
ある。

【図３】本発明で提案されるＭＢＲＡＮＣＨ命令の態様
を示す図である。

【図４】本発明に従って変更された記憶アクセス命令の
態様を示す図である。

【図５】本発明のコンピュータ・システムの態様を示す
ブロック図である。

【図６】図５に示すディスパッチ実行の態様を示すブロ
ック図である。

【図７】図５に示すコンピュータ・システムを使用す
る、提案した実行方法の態様を説明する流れ図である。

【図８】図７の「分岐命令およびＣＲ命令」ステップに
関連するサブステップを示す図である。

【図９】図７の「ディスパッチおよび実行」ステップに
関連するサブステップを示す図である。

【図１０】図９の「記録を伴うキャッシュ・アクセス」
ステップに関連するサブステップを示す図である。

【符号の説明】

１００記憶装置１０２キャッシュ・レコード管理装置１０４命令取り出し装置１０６データ取り出し装置１０８デコード装置１１０分岐装置１１２ディスパッチ実行装置１１３ディスパッチ装置１１５機能装置１１６スケジューラ１１８レジスタ・ファイル１２０完了装置２００キャッシュ・レコード・レジスタ・セット５００プロセッサ

───────────────────────────────────────────────────── フロントページの続き (72)発明者プラディープ・クマール・デュベイアメリカ合衆国10606、ニューヨーク州ホワイトプレインズマーティンアヴェニュー 25 アパートメント 1015 (72)発明者ジェイム・ハムバート・モレノアメリカ合衆国10530、ニューヨーク州ハーツデールホルムスアヴェニュー 205 (56)参考文献特開昭63−198130（ＪＰ，Ａ) 特開平５−108352（ＪＰ，Ａ) 特開平３−282734（ＪＰ，Ａ) 特開平４−239323（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 9/45 G06F 12/08

Claims

(57)【特許請求の範囲】

【請求項１】階層記憶を有するコンピュータ・システム
上の実行に対して最適化された記憶アクセス待ち時間コ
ード順序を生成する方法であって、（ａ）静的コード順序において記憶アクセス命令を識別
するステップと、（ｂ）前記階層記憶の或るレベルでのヒットに対して最
適化された、前記記憶アクセス命令に関連する第１の記
憶アクセス待ち時間コード順序と、前記階層記憶の前記
レベルでのミスに対して最適化された、前記記憶アクセ
ス命令に関連する第２の記憶アクセス待ち時間コード順
序とを生成するステップと、（ｃ）前記記憶アクセス命令の実行が前記ヒットを起こ
したときには前記第１の記憶アクセス待ち時間コード順
序を実行し、前記記憶アクセス命令の実行が前記ミスを
起こしたときには前記第２の記憶アクセス待ち時間コー
ド順序を実行するための第１の命令を挿入するステップ
と、（ｄ）前記階層記憶の他のレベルでのヒットに対して最
適化された、前記記憶アクセス命令に関連する第３の記
憶アクセス待ち時間コード順序と、前記階層記憶の前記
他のレベルでのミスに対して最適化された、前記記憶ア
クセス命令に関連する第４の記憶アクセス待ち時間コー
ド順序とを生成するステップと、（ｅ）前記記憶アクセス命令の実行が前記他のレベルで
前記ヒットを起こしたときには前記第３の記憶アクセス
待ち時間コード順序を実行し、前記記憶アクセス命令の
実行が前記他のレベルで前記ミスを起こしたときには前
記第４の記憶アクセス待ち時間コード順序を実行するた
めの第２の命令を挿入するステップと、を含むことを特徴とする前記方法。
【請求項２】前記識別ステップ（ａ）が、前記記憶アク
セス命令を臨界ミス・ポイントとして識別するステップ
を含み、前記生成ステップ（ｂ）または（ｄ）が、前記
記憶アクセス命令を前記臨界ミス・ポイントとして識別
する前記ステップに応答する請求項１記載の方法。
【請求項３】前記記憶アクセス命令の前記実行が前記ミ
スを起こしたかどうかを示すためのミス・ビットを識別
するように、前記記憶アクセス命令を変更するステップ
をさらに含み、前記第１または第２の命令が前記ミス・
ビットに応答する請求項１記載の方法。
【請求項４】前記第１の命令が、前記第１の記憶アクセ
ス待ち時間コード順序に分岐するためのブランチ・オン
・ヒット命令および前記第２の記憶アクセス待ち時間コ
ード順序に分岐するためのブランチ・オン・ミス命令の
一方を含む請求項１記載の方法。
【請求項５】前記コンピュータ・システムがコンパイラ
を含み、前記ステップ（ａ）ないし（ｅ）をコンパイル
時に実施する請求項１記載の方法。
【請求項６】階層記憶と、記憶アクセス命令を含む静的
命令順序と、それぞれが前記階層記憶の或るレベルでの
ヒットまたはミスの一方を起こす前記記憶アクセス命令
の実行に依存して最適化された関連の記憶アクセス待ち
時間コード順序とを含むコンピュータ・システムにおい
て命令およびデータを処理する方法であって、（ａ）前記記憶アクセス命令をデコードし、実行し、前
記記憶アクセス命令の前記実行が前記ヒットを起こした
のか前記ミスを起こしたのかを示す情報と、前記ヒット
または前記ミスに関連する前記階層記憶の前記レベルを
示す情報とを格納するステップと、（ｂ）前記格納ステップ（ａ）の間に格納された前記情
報に応答して、前記情報が前記ヒットを示すときには前
記階層記憶の前記レベルでのヒットに対して最適化され
た記憶アクセス待ち時間コード順序に分岐し、前記情報
が前記ミスを示すときには前記階層記憶の前記レベルで
のミスに対して最適化された記憶アクセス待ち時間コー
ド順序に分岐するステップと、を含むことを特徴とする前記方法。
【請求項７】前記記憶アクセス命令が、ロード命令、ス
トア命令およびタッチ命令の１つである請求項６記載の
方法。
【請求項８】前記記憶アクセス命令を臨界ミス・ポイン
トとして識別するステップをさらに含み、前記記憶アク
セス待ち時間コード順序が前記臨界ミス・ポイントと関
連している請求項６記載の方法。
【請求項９】前記記憶アクセス命令に関連する分岐命令
を挿入するステップと、前記分岐命令をデコードするステップとをさらに含み、前記分岐ステップ（ｂ）が、前記分岐命令をデコードす
る前記ステップに応答する請求項６記載の方法。
【請求項１０】前記分岐命令が、前記分岐ステップ
（ｂ）が推奨される前記階層記憶の或るレベルを指定す
る請求項９記載の方法。
【請求項１１】階層記憶と、記憶アクセス命令を含む静
的命令順序と、それぞれが前記階層記憶の或るレベルで
のヒットまたはミスの一方を起こす前記記憶アクセス命
令の実行に依存して最適化された関連の記憶アクセス待
ち時間コード順序とを含むコンピュータ・システムにお
いて命令およびデータを処理する方法であって、（ａ）前記記憶アクセス命令をデコードし、実行し、前
記記憶アクセス命令の前記実行が前記ヒットを起こした
のか前記ミスを起こしたのかを示す情報を格納するステ
ップと、（ｂ）前記格納ステップ（ａ）の間に格納された前記情
報に応答して、前記情報が前記ヒットを示すときには前
記階層記憶の前記レベルでのヒットに対して最適化され
た記憶アクセス待ち時間コード順序に分岐し、前記情報
が前記ミスを示すときには前記階層記憶の前記レベルで
のミスに対して最適化された記憶アクセス待ち時間コー
ド順序に分岐するステップとを含み、前記階層記憶がマルチレベル・キャッシュ記憶を含み、
前記コンピュータ・システムがレジスタ・セットを含
み、前記レジスタ・セット中の各レジスタが複数のサブ
フィールドを含み、前記複数のサブフィールドの各々が
前記キャッシュ記憶の或るレベルと関連していることを
特徴とする前記方法。
【請求項１２】前記格納ステップ（ａ）が、前記記憶アクセス命令の前記実行に応答して前記複数の
サブフィールドをデフォルト設定値に初期化するステッ
プと、前記キャッシュ記憶の複数のレベルにアクセスし、前記
キャッシュ記憶の連続するレベルでの前記ヒットおよび
前記ミスに従って前記情報を前記複数のサブフィールド
に記録するステップとをさらに含み、前記分岐ステップ
（ｂ）が前記複数のサブフィールドに記録された前記情
報に応答する請求項１１記載の方法。
【請求項１３】階層記憶と、記憶アクセス命令を含む静
的命令順序と、それぞれが前記階層記憶の或るレベルで
のヒットまたはミスの一方を起こす前記記憶アクセス命
令の実行に依存して最適化された関連の記憶アクセス待
ち時間コード順序とを含み、前記階層記憶に格納された
命令およびデータを処理するためのコンピュータ・シス
テムであって、前記命令順序を取り出し、デコードし、実行するため
の、前記階層記憶に結合されたプロセッサを備え、前記プロセッサが、前記記憶アクセス命令の前記実行が前記ヒットを起こし
たのか前記ミスを起こしたのかを示す情報と、前記ヒッ
トまたは前記ミスに関連する前記階層記憶の前記レベル
を示す情報とを格納するための手段と、前記格納手段に格納された前記情報に応答して、前記情
報が前記ヒットを示すときには前記階層記憶の前記レベ
ルでのヒットに対して最適化された記憶アクセス待ち時
間コード順序に分岐し、前記格納手段に格納された前記
情報が前記ミスを示すときには前記階層記憶の前記レベ
ルでのミスに対して最適化された記憶アクセス待ち時間
コード順序に分岐するための、分岐論理とを含むことを
特徴とする前記システム。
【請求項１４】前記記憶アクセス命令が、ロード命令、
ストア命令およびタッチ命令の１つである請求項１３記
載のシステム。
【請求項１５】前記プロセッサが、キャッシュ・レコー
ド・レジスタ・セットをさらに含み、前記記憶アクセス
命令が、前記キャッシュ・レコード・レジスタ・セット
中のレジスタを識別するキャッシュ・レコード・レジス
タ・フィールドを含む請求項１３記載のシステム。
【請求項１６】前記階層記憶の他のレベルでのヒットに
対して最適化された、前記記憶アクセス命令に関連する
第３の記憶アクセス待ち時間コード順序と、前記階層記
憶の前記他のレベルでのミスに対して最適化された、前
記記憶アクセス命令に関連する第４の記憶アクセス待ち
時間コード順序とを生成するための手段をさらに含み、前記分岐論理が、前記記憶アクセス命令の実行が前記他
のレベルで前記ヒットを起こしときには前記第３の記憶
アクセス待ち時間コード順序に分岐し、前記記憶アクセ
ス命令の実行が前記他のレベルで前記ミスを起こしとき
には前記第４の記憶アクセス待ち時間コード順序に分岐
する請求項１３記載のシステム。
【請求項１７】前記記憶アクセス命令を臨界ミス・ポイ
ントとして識別するための手段をさらに含み、前記記憶
アクセス待ち時間コード順序が前記臨界ミス・ポイント
と関連している請求項１３記載のシステム。
【請求項１８】前記格納手段に格納された前記情報が前
記ヒットを示すときには前記ヒットに対して最適化され
た記憶アクセス待ち時間コード順序を指定し、前記格納
手段に格納された前記情報が前記ミスを示すときには前
記ミスに対して最適化された記憶アクセス待ち時間コー
ド順序を指定するための分岐命令を挿入するための手段
をさらに含み、前記分岐論理が前記分岐命令に応答する
請求項１３記載のシステム。
【請求項１９】前記分岐命令が、前記分岐論理が応答す
る前記階層記憶の或るレベルを指定する請求項１８記載
のシステム。
【請求項２０】階層記憶と、記憶アクセス命令を含む静
的命令順序と、それぞれが前記階層記憶の或るレベルで
のヒットまたはミスの一方を起こす前記記憶アクセス命
令の実行に依存して最適化された関連の記憶アクセス待
ち時間コード順序とを含み、前記階層記憶に格納された
命令およびデータを処理するためのコンピュータ・シス
テムであって、前記命令順序を取り出し、デコードし、実行するため
の、前記階層記憶に結合されたプロセッサを備え、前記プロセッサが、前記記憶アクセス命令の前記実行が前記ヒットを起こし
たのか前記ミスを起こしたのかを示す情報を格納するた
めの手段と、前記格納手段に格納された前記情報が前記ヒットを示す
ときには前記階層記憶の前記レベルでのヒットに対して
最適化された記憶アクセス待ち時間コード順序に分岐
し、前記格納手段に格納された前記情報が前記ミスを示
すときには前記階層記憶の前記レベルでのミスに対して
最適化された記憶アクセス待ち時間コード順序に分岐す
るための、分岐論理とを含み、前記階層記憶がマルチレベル・キャッシュ記憶を含み、
前記コンピュータ・システムがレジスタ・セットを含
み、前記レジスタ・セット中の各レジスタが複数のサブ
フィールドを含み、前記複数のサブフィールドの各々が
前記キャッシュ記憶の或るレベルと関連していることを
特徴とする前記システム。
【請求項２１】前記格納手段が、前記キャッシュ記憶の
複数のレベルにアクセスし、前記キャッシュ記憶の連続
するレベルでの前記ヒットおよび前記ミスに従って前記
情報を前記複数のサブフィールドに記録するためのキャ
ッシュ・レコード・レジスタ管理装置をさらに含み、前
記分岐論理が前記複数のサブフィールドに記録された前
記情報に応答する請求項２０記載のシステム。
【請求項２２】前記キャッシュ・レコード・レジスタ・
セットが、アーキテクチャ可視性のレジスタを含むレジ
スタ・ファイルの一部である請求項１５記載のシステ
ム。