JPH10207772A

JPH10207772A - キャッシュミス予測方法

Info

Publication number: JPH10207772A
Application number: JP9024327A
Authority: JP
Inventors: Takayoshi Iizuka; 孝好飯塚
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1997-01-23
Filing date: 1997-01-23
Publication date: 1998-08-07

Abstract

(57)【要約】【課題】プログラムを予め実行することなしに、プロ
グラムの実際の実行に際して、ループが実行される度毎
のキャッシュミスを正確に予測すること、及びプリフェ
ッチングによって性能が低下する場合があるという問題
を回避すること。【解決手段】キャッシュメモリを有する計算機システ
ムで実行されるプログラムに対して、プリフェッチング
の単位であるループを単位として、該ループのキャッシ
ュミス率がある閾値以上であるかを、該プログラムの実
行時に予測するループ内キャッシュミス実行時予測コー
ドを付加する。更に、該ループのキャッシュミス率が閾
値以上であると予測された場合は、該ループにプリフェ
ッチング実施済みのコードを実行し、そうでない場合は
該ループにプリフェッチングを実施していないコードを
実行するプリフェッチング実行制御コードを付加する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】キャッシュを有する計算機で
実行されるプログラムに対して、ループ内でのキャッシ
ュミスの発生を予測するキャッシュミス予測方法に関す
る。

【０００２】

【従来の技術】今日、計算機システムのＣＰＵの性能
は、クロック周波数の高速化に伴って急激に向上してい
るが、主メモリのアクセス速度は十分に追随していな
い。そのため、ＣＰＵと主メモリの速度比は非常に大き
くなっており、今後もますます大きくなる傾向にある。
そこで、現在の殆どの高性能計算機では、ＣＰＵと主メ
モリの間に、主メモリ上のデータのコピーを保持する高
速なキャッシュを置き、ＣＰＵの速度に合わせたアクセ
ス速度を達成している。しかし、キャッシュの容量は、
主メモリに較べて数十分の１から数百分の１程度と小さ
いので、全てのデータがキャッシュに置かれるわけでは
ない。ＣＰＵから要求されたデータがキャッシュに無い
場合は、主メモリからキャッシュに転送する必要があ
る。この転送では、主メモリからデータを読み出す必要
があるので、ＣＰＵと主メモリの速度比がそのまま反映
され、ＣＰＵのマシンサイクルで計測すると数十サイク
ル程度と、大きなメモリ遅延を生じる。

【０００３】そこで、このメモリ遅延を隠蔽するため
に、データが必要になる前に、予め、データをキャッシ
ュに転送する方法（プリフェッチング）が考案されてい
る。このような方法の例は、文献１「Todd C. Mowry, M
onica S. Lam, AnoopGupta, "Design and Evaluation o
f a Compiler Algorithm forPrefetching," ASPLOSV, p
p.62-73, 1992」に示されている。該文献のアルゴリズ
ムでは、ループ内のデータ参照を対象として、データの
参照よりも「メモリ遅延のサイクル数」分だけ前にプリ
フェッチ命令を発行し、メモリ上にあるデータをキャッ
シュへ転送する。なお、プリフェッチ命令以降の命令
は、プリフェッチ命令によるデータ転送の完了を待たず
に実行される。これにより、データ参照時には該データ
がキャッシュ上にあることが保証され、また、データ転
送の間は他の命令を実行できるので、メモリ遅延を隠蔽
することができる。なお、生成されるコードはプリフェ
ッチ命令を含んでいるので、実行命令数自体は増加す
る。しかし、ループの実行時間に対するメモリ遅延時間
の占める割合が大きな場合は、ループ実行時間の大幅な
削減が可能である。

【０００４】プリフェッチが有効であるためには、プリ
フェッチ命令の追加による命令数の増加をなるべく抑え
る必要がある。そこで、メモリとキャッシュの転送単位
であるキャッシュラインを共有する複数のデータに対し
て、プリフェッチを１度のみに限定することによってプ
リフェッチ命令数を削減する方法が、文献１に書かれて
いる。また、一度キャッシュに載ったデータが後で再び
参照される場合、後者の参照ではプリフェッチが不要な
場合がある。そこで、これらの参照の間で参照されるデ
ータの量がキャッシュの容量よりも大きい場合に限定し
てプリフェッチすることによって、プリフェッチ命令数
を削減する方法が、文献２「David Callahan,Ken Kenne
dy, Allen Porterfield, "SoftwarePrefetching," PLD
I'92, pp.40-52, 1991」に述べられている。

【０００５】プリフェッチが有効に働くためのもう一つ
の条件として、実行時間に対するメモリ遅延時間の占め
る割合が十分に大きいことが重要である。メモリ遅延時
間の占める割合が大きいためには、ループ内のメモリ参
照命令のキャッシュミス率が大きい必要がある。キャッ
シュミス率を求めるための方法としては、文献３「Sant
osh G. Abraham, Rabin A. Sugumar, B. R. Rau, Rajav
i Gupta ,"Predictability of Load/Store Instruction
Lagencies," MICRO-26,pp.139-152, 1993」では、プロ
グラム内の各メモリ参照の直前にキャッシュのシュミレ
ーションを行うコードを挿入し、コード挿入後のプログ
ラムを１度実行することにより、各メモリ参照命令のキ
ャッシュミス率を実測する方法が記述されている。

【０００６】なお、キャッシュミスの予測とは別の分野
であるが、プログラム内の分岐命令での分岐の発生を予
測する方法が、文献４「T.-Y. Yeh, Yale N. Patt,"Alt
ernative Implementations of Two-level Adaptive Bra
nch Prediction,"19th Annual International Symposiu
m on Computer Architecture, May1992, pp.124-134」
に記述されている。文献４では、各分岐命令で、分岐の
発生履歴と、分岐発生履歴のパターンをテーブルに記録
し、直前までの分岐発生履歴とパターンテーブルから次
の分岐の発生を予測する２レベル分岐予測について書か
れている。なお、分岐のパターンはプログラムの実行中
に変化するため、各パターン毎に２ビットのカウンタを
設けている。具体的には、直前までの分岐のパターンに
対して次の分岐が発生したかどうか応じてこの２ビット
カウンタを増減させることにより、直前までの分岐パタ
ーンに対する次回の分岐の発生予測を動的に更新してい
る。このような動的な分岐パターン解析により、高い精
度で分岐予測を行う。

【０００７】

【発明が解決しようとする課題】プリフェッチングは、
主メモリからキャッシュへのデータ転送に伴うメモリ遅
延を隠蔽するために有効な技術であり、実行時間に対す
るメモリ遅延時間の占める割合が十分に大きいループに
対しては性能が向上する。しかし、プリフェッチ命令の
追加によって実行命令数が増加するために、メモリ遅延
時間の割合が小さいループに対しては、性能が低下する
という欠点がある。プリフェッチ命令の追加による命令
数増加をなるべく少なくすることを目的とした従来技術
があるが、これによってプリフェッチ命令が無くなるわ
けではない。文献２によると、プリフェッチ命令の追加
によって、実行命令数が１２％程度増加すると述べられ
ている。つまり、これらの方法では、プリフェッチング
によって性能が低下する場合、これを回避することが出
来ないと言う欠点がある。メモリ遅延時間の割合が小さ
いループに対して性能が低下しないようにするために
は、ループ内のメモリ参照命令のキャッシュミス率を知
る必要がある。キャッシュミス率を求めるための従来技
術としては、プログラム内の各メモリ参照の直前にキャ
ッシュのシュミレーションを行うコードを挿入して実行
するという方法がある。しかし、この方法は、キャッシ
ュミス率測定のために、予めプログラムを１度実行する
必要があるという欠点がある。加えて、この方法では、
キャッシュミス率の平均値しか求められないため、ルー
プが実行される度にキャッシュミス率が変わる場合に
は、正確な予測が出来ないという欠点もある。さらに、
キャッシュのシュミレーションでは、全てのメモリ参照
命令で付加的な処理を行うので、実行時間が大きくなる
という欠点もある。予測という意味では、分岐に対する
予測方法である２レベル分岐予測が関連する。しかし、
２レベル分岐予測の適用範囲は、分岐の予測に限られて
いる。また、分岐予測の発生は、分岐が発生するか、発
生しないかという１ビットの情報であり、そのままで
は、キャッシュミス率の予測に用いることが出来ないと
言う欠点がある。

【０００８】本発明の目的の１つは、プログラムを予め
実行することなしに、プログラムの実際の実行に際し
て、ループが実行される度毎のキャッシュミスを正確に
予測すると共に、プログラムの実行時間に影響しない程
度の少ないオーバーヘッドで、上記の予測を行う方法を
提供することである。本発明のもう１つの目的は、プリ
フェッチングによって性能が低下する場合があるという
問題を回避することである。

【０００９】

【課題を解決するための手段】上記目的を達成するた
め、本発明は、キャッシュを有する計算機システムで実
行されるプログラムに対してキャッシュミスの発生を予
測する方法であり、該プログラム内のあるループを実行
した場合のキャッシュミス率がある閾値以上であるかを
該プログラムの実行時に予測するループ内キャッシュミ
ス実行時予測コードを該プログラムに付加し、該コード
付加後のプログラムの実行時にキャッシュミス予測を行
うようにしている。

【００１０】また、ループ内キャッシュミス実行時予測
コードとして、該ループ内で発生するキャッシュミス回
数測定コードと、該ループ内で発生するメモリ参照回数
測定コードと、該キャッシュミス回数と該メモリ参照回
数から該ループのキャッシュミス率が該閾値以上である
か否かを判定し、この判定結果をキャッシュミス履歴と
キャッシュミスパターンテーブルに記録するキャッシュ
ミス記録コードと、該キャッシュミス履歴と該キャッシ
ュミスパターンテーブルから、該ループの次回の実行で
のキャッシュミス率が該閾値以上であるかを予測するキ
ャッシュミス予測コードとを付加するようにしている。

【００１１】また、前記キャッシュミス回数測定コード
は、キャッシュミス回数をカウントするハードウェアカ
ウンタを用いてループ内で発生するキャッシュミスの回
数を測定するようにしている。

【００１２】また、前記メモリ参照回数測定コードは、
メモリ参照回数をカウントするハードウェアカウンタを
用いてループ内で発生するメモリ参照の回数を測定する
ようにしている。

【００１３】また、前記メモリ参照回数測定コードは、
静的に算出したループ１回当たりのメモリ参照に実行時
のループ回数を乗ずることによってループ内で発生する
メモリ参照の回数を測定するようにしている。

【００１４】また、キャッシュを有する計算機で実行さ
れるプログラムに対するコンパイル方法であり、該プロ
グラム内のあるループに対して前記ループ内キャッシュ
ミス実行時予測コードを付加し、かつ該ループのキャッ
シュミス率が閾値以上であると予測された場合は該ルー
プにプリフェッチング実施済みのコードを実行し、そう
でない場合は該ループにプリフェッチングを実施してい
ないコードを実行するプリフェッチング実行制御コード
を付加するようにしている。

【００１５】

【発明の実施の形態】本発明は、キャッシュを有する計
算機で実行されるプログラムに対して、ループ内でのキ
ャッシュミスの発生を予測するキャッシュミス予測方法
に関するものである。以下では、本発明の１実施形態を
図面を用いて説明する。図１は、本発明が実施されたプ
ログラムが実行される計算機システムの１構成図であ
る。計算機システムは、ＣＰＵ１０、キャッシュメモリ
２０、主メモリ３０から構成される。ＣＰＵ１０には、
キャッシュミス回数カウンタ１１とメモリ参照回数カウ
ンタ１５が含まれる。キャッシュミス回数カウンタ１１
は、プログラムの実行に際して、キャッシュミスが１回
起こる度に１増えるよう構成されているものとする。ま
た、メモリ参照回数カウンタは、メモリ参照命令が１つ
実行される度に１増えるよう構成されているものとす
る。更に、これらのカウンタの値を０にリセットする命
令、及び、これらのカウンタの値をレジスタに読み出す
命令があるものとする。これらのカウンタ及びその操作
命令を実現するハードウェアの詳細は、本発明の実施に
大きな影響を与えないので、省略する。主メモリ３０に
は、本発明が実施されたプログラム４０が置かれ、ＣＰ
Ｕ１０によって実行される。

【００１６】本発明が実施されたプログラム４０は、ル
ープに対して本発明が実施されたコード（命令列を意味
する）５０を含んでおり、該コード５０は、ループ内キ
ャッシュミス実行時予測コード６０、プリフェッチング
実行制御コード７０、プリフェッチング実施済みコード
８０、プリフェッチング未実施コード９０、および、ル
ープ内キャッシュミス実行時予測コード６０で用いるデ
ータであるキャッシュミス履歴６４とキャッシュミスパ
ターンテーブル６６から構成される。ループ内キャッシ
ュミス実行時予測コード６０は、キャッシュミス回数カ
ウンタ１１、メモリ参照回数カウンタ１５、キャッシュ
ミス履歴６４、キャッシュミスパターンテーブル６６を
用いて、ループ内でのキャッシュミスのミス率が閾値以
上であるかを実行時に予測する。ここで、ミス率は、
（キャッシュミス回数）／（メモリ参照回数）であ
る。プリフェッチング実行制御コード７０では、ループ
内キャッシュミス実行時予測コード６０での予測に応じ
て、次回のループ実行におけるキャッシュミス率がある
閾値以上であると予測された場合はプリフェッチング実
施済みコード８０を実行し、そうでない場合はプリフェ
ッチング未実施コード９０を実行することにより、プリ
フェッチング実施済みコード８０の実行を制御する。

【００１７】図２は、本発明のループ内キャッシュミス
実行時予測コード６０とプリフェッチング実行制御コー
ド７０の付加を行うコンパイラ１００が動作する計算機
システムの１構成図である。本システムは、ＣＰＵ１
０、キャッシュメモリ２０、主メモリ３０、外部記憶装
置３５から構成される。主メモリ３０には、コンパイラ
１００が置かれ、コンパイラ１００はＣＰＵ１０によっ
て実行されることにより、外部記憶装置３５にあるソー
スプログラム３７から本発明が実施されたプログラム４
０を生成する。ソースプログラム３７には、本発明実施
前のループ４５が含まれており、コンパイラ１００にお
けるループ内キャッシュミス実行時予測コード付加１１
０、プリフェッチング実行制御コード付加１２０が実施
された後に実行コードに変換されることにより、本発明
が実施されたループコード５０に変換される。

【００１８】図３は、本実施例のコンパイラ１００の処
理手順を示す。コンパイラ１００は、ソースプログラム
３７を入力として構文解析１０２を行った後、ステップ
１０４とステップ１３０〜１６０とステップ１２０とス
テップ１８０で、プログラム内の全てのループに対し
て、ループ内キャッシュミス実行時予測コード付加１１
０、プリフェッチング実行制御コード付加１２０と、プ
リフェッチング１８０を実施し、最後にコード生成１０
６を実施して、本発明が実施されたプログラム４０を生
成する。ステップ１０４では、未処理ループＬが有るか
判定し、無い場合はコード生成１０６に進む。有る場合
は、ステップ１３０にすすみ、ループＬに対して、ステ
ップ１３０〜１６０とステップ１２０とステップ１８０
の処理を行う。ステップ１３０では、ループＬのキャッ
シュミス回数測定コードをプログラムに付加し、ステッ
プ１４０では、ループＬのメモリ参照回数測定コードを
プログラムに付加する。これらのステップの詳細は、後
述する。ステップ１５０では、ループＬのキャッシュミ
ス回数とメモリ参照回数の比率が閾値ＴＣ以上であるか
判定し、この結果をキャッシュミス履歴６４とキャッシ
ュミスパターンテーブル６６に記録するキャッシュミス
記録コードをプログラムに付加する。この、キャッシュ
ミス記録コードの詳細は、後述する。ステップ１６０で
は、ループＬのキャッシュミス履歴６４とキャッシュミ
スパターンテーブル６６から、次回のループＬの実行に
おけるキャッシュミス率が閾値ＴＣ以上であるかを予測
するキャッシュミス予測コードを付加する。この、キャ
ッシュミス予測コードについては、後述する。ステップ
１２０では、ループＬのコピーを作り（このコピーをＬ
Ｐと呼ぶ）、ステップ１６０で付加されたキャッシュミ
ス予測コードにより、次回のループＬの実行におけるキ
ャッシュミス率が閾値ＴＣ以上であると予測された場合
は、ＬＰに分岐し、そうでない場合はＬに分岐するコー
ドをプログラムに付加する。ステップ１８０では、上記
のループＬＰにプリフェッチングを実施し、プリフェッ
チング実施済みコードが生成される。

【００１９】なお、本実施例で使われている閾値ＴＣの
値としては、任意の値を用いることが出来る。しかし、
キャッシュミス率がＴＣ未満の場合は、キャッシュミス
が無いと仮定したコード（プリフェッチング未実施コー
ド９０）を実行するので、余りＴＣが大きいと、該実行
においてキャッシュミスによって実行性能が大きく低下
する可能性がある。よって、ＴＣとしては、十分に小さ
な値を用いる必要がある。例えば、メモリを連続アクセ
スをした場合には、キャッシュが有効に使われる場合に
おいてもプリフェッチ効果は高いが、この場合のキャッ
シュミス率は「アクセスデータの要素長／キャッシュラ
インの大きさ」であり、データの要素長が４バイト、キ
ャッシュラインの大きさが３２バイトと標準的な構成で
も、１／８、即ち、１２．５％に過ぎない。つまり、キ
ャッシュラインの最初の要素に対するアクセスでキャッ
シュミスが生じれば、メモリからキャッシュラインのフ
ェッチを行うことにより以後のキャッシュミスは起こら
ず、キャッシュラインに対して最初の要素だけがキャッ
シュ未ストなるため、すなわち、８要素のうち１要素だ
けがキャッシュミスとなるため、キャッシュミス率は、
１／８＝１２．５％となる。また、連続アクセスの場合
にも上記のようにプリフェッチの効果は大きいので、連
続アクセスの場合にもプリフェッチを出来るようにした
い。目安としては、プリフェッチング未実施コード９０
の実行に際してミス率ＴＣでキャッシュミスが発生した
ときの実行時間が、プリフェッチング実施済みコード８
０の実行時間よりも小さくなる様にすべきである。即
ち、ループ１回当たりのメモリ参照の数をＭ，プリフェ
ッチング未実施コード９０のループ１回当たりの実行時
間をＴＮ（キャッシュミスはないとしたときの実行時
間）、プリフェッチング実施済みコード８０のループ１
回当たりの実行時間をＴＰ、メモリ遅延時間をＴＭとし
たとき、ＴＮ＋ＴＣ＊ＴＭ＊Ｍ＜ＴＰとすべきである。この式から、ＴＣ＜（ＴＰ−ＴＮ）／（ＴＭ＊Ｍ）となるようにＴＣの値を選べばよい。

【００２０】図４は、ループに対する本発明が実施され
たコード５０の詳細を示す。具体的には、ループに対し
て図３におけるステップ１３０〜１６０とステップ１２
０とステップ１８０の処理を実施した後のコードの詳細
を示す。以下、図３でのステップと、付加される処理の
対応を示す。図３のステップ１３０では、キャッシュミ
ス回数測定コード（ループ直前部分）６１０と、キャッ
シュミス回数測定コード（ループ直後部分）６４０が付
加される。図３のステップ１４０では、メモリ参照回数
測定コード（ループ直前部分）６２０と、メモリ参照回
数測定コード（ループ直後部分）６５０が付加される。
図３のステップ１５０では、キャッシュミス記録コード
６６０が付加される。図３のステップ１６０では、キャ
ッシュミス予測コード６３０が付加される。図３のステ
ップ１２０では、プリフェッチングの対象となるループ
のコピーＬＰ（該コピーにプリフェッチングを実施した
コードがコード８０になる）が作成されると共に、プリ
フェッチング実行制御コード７０を付加される。更に、
コード７０、コード８０、コード９０、コード６４０の
間の制御フローも付加される。図３のステップ１８０で
は、ステップ１２０で作成されたループのコピーＬＰに
プリフェッチングが実施され、プリフェッチング実施済
みコード８０が生成される。

【００２１】図５は、図３のステップ１３０キャッシュ
ミス回数測定コード付加の１実施形態−１を示す。この
実施形態−１は、キャッシュミス回数をカウントするハ
ードウェアカウンタ１１が実装されていることを前提と
している。ステップ１３１１では、キャッシュミス回数
カウンタ１１を０にリセットするコードを、ループＬの
直前に付加する。付加されるコードは、図４のコード６
１０となる。ステップ１３１２では、キャッシュミス回
数カウンタ１１の値を得て、ループＬのキャッシュミス
回数とするコードを、ループＬの直後に付加する。付加
されるコードは、図４のコード６４０となる。本実施形
態では、ステップ１３１２でキャッシュミス回数を直接
得られるという利点がある。しかし、ループの直前でカ
ウンタをリセットするため、ループがネストしているプ
ログラムに対しては適用できないという欠点もある。た
だし、この欠点は、ネストしたループに対してはネスト
内の１つのループに対してのみキャッシュミス予測を行
うように限定することにより回避出来る。

【００２２】図６は、図３のステップ１３０のキャッシ
ュミス回数測定コード付加の別の実施形態−２を示す。
この実施形態−２は、キャッシュミス回数をカウントす
るハードウェアカウンタ１１が実装されていることを前
提としている。ステップ１３２１では、キャッシュミス
回数カウンタ１１の値を得て、ループＬ実行直前のキャ
ッシュミス回数とするコードを、ループＬの直前に付加
する。付加されるコードは、図４のコード６１０とな
る。ステップ１３２２では、キャッシュミス回数カウン
タ１１の値を得て、この値から、ステップ１３２１の付
加コードで求められるループＬ実行直前のキャッシュミ
ス回数を、引いた結果をループＬのキャッシュミス回数
とするコードを、ループＬの直後に付加する。付加され
るコードは、図４のコード６４０となる。本実施形態で
は、ネストしたループに対しても、各ループに対して同
時にキャッシュミス予測が出来るという利点がある。し
かし、ステップ１３２１で求めてループＬ実行直前のキ
ャッシュミス回数を保持する必要があり、また、ステッ
プ１３２２では、ループＬ実行直後と直前のキャッシュ
ミス回数の差を計算する必要があるので、処理量は大き
くなるという欠点がある。

【００２３】図７は、図３のステップ１４０メモリ参照
回数測定コード付加の１実施形態−１を示す。この実施
形態−１は、メモリ参照回数をカウントするハードウェ
アカウンタ１５が実装されていることを前提としてい
る。ステップ１４１１では、メモリ参照回数カウンタ１
５を０にリセットするコードを、ループＬの直前に付加
する。付加されるコードは、図４のコード６２０とな
る。ステップ１４１２では、メモリ参照回数カウンタ１
５の値を得て、ループＬのメモリ参照回数とするコード
を、ループＬの直後に付加する。付加されるコードは、
図４のコード６５０となる。本実施形態では、ステップ
１４１２で、メモリ参照回数を直接得られるという利点
がある。しかし、ループの直前でカウンタをリセットす
るため、ループがネストしているプログラムに対しては
適用できないという欠点もある。ただし、この欠点は、
ネストしたループに対しては、ネスト内の１つのループ
に対してのみキャッシュミス予測を行うように限定する
ことにより回避出来る。

【００２４】図８は、図３のステップ１４０のメモリ参
照回数測定コード付加の別の実施形態−２を示す。この
実施形態−２は、メモリ参照回数をカウントするハード
ウェアカウンタ１５が実装されていることを前提として
いる。ステップ１４２１では、メモリ参照回数カウンタ
１５の値を得て、ループＬ実行直前のメモリ参照回数と
するコードを、ループＬの直前に付加する。付加される
コードは、図４のコード６２０となる。ステップ１４２
２では、メモリ参照回数カウンタ１５の値を得て、この
値から、ステップ１４２１の付加コードで求められるル
ープＬ実行直前のメモリ参照回数を、引いた結果をルー
プＬのメモリ参照回数とするコードを、ループＬの直後
に付加する。付加されるコードは、図４のコード６５０
となる。本実施形態では、ネストしたループに対して
も、各ループに対して同時にキャッシュミス予測が出来
るという利点がある。しかし、ステップ１４２１で求め
てループＬ実行直前のメモリ参照回数を保持する必要が
あり、また、ステップ１４２２では、ループＬ実行直後
と直前のメモリ参照回数の差を計算する必要があるの
で、処理量は大きくなるという欠点がある。

【００２５】図９は、図３のステップ１４０のメモリ参
照回数測定コード付加の別の実施形態−３を示す。この
実施形態−３は、メモリ参照回数をカウントするハード
ウェアカウンタ１５を必要としない。本実施例では、図
４のコード６２０は、空とする。ステップ１４３１で
は、ループＬの１イタレーション（繰り返し）当たりの
メモリ参照点の数Ｍを求める。ステップ１４３２では、
ＭにループＬのループ回数を乗じた結果をループＬのメ
モリ参照回数とするコードを、ループＬの直後に付加す
る。付加されるコードは、図４のコード６５０となる。
本実施形態では、特別なハードウェアを付加せずにメモ
リ参照回数がカウントできるという利点がある。しか
し、この計算に際して乗算が必要である、ループ内に分
岐があるためにメモリ参照命令が実行されない場合に正
確なカウントが出来ない、などの欠点がある。

【００２６】図１０は、キャッシュミス履歴６４の構造
を示す。キャッシュミス履歴６４は、ｎ_h個のビットか
ら構成され、それぞれには、番号がついている。キャッ
シュミス履歴６４の値は、ｈで参照され、それぞれのビ
ットはｈ（ｎ_h−１）からｈ（０）で参照される。ま
た、任意のｉ，ｊ（０≦ｉ≦ｊ≦ｎ_h−１）に対して、
ｈ（ｉ：ｊ）で、ｈ（ｉ）からｈ（ｊ）までの部分ビッ
ト列を表す。任意のｋ（０≦ｋ≦ｎ_h−１）に対して、
ｈ（ｋ）は、現在のループＬの実行よりｋ＋１回前のル
ープＬの実行におけるキャッシュミス率が閾値ＴＣ以上
であるとき１であり、それ以外では０となるように設定
される。なお、ｈの値は、キャッシュミス実行時予測コ
ード６０内で更新されるが、初期値としては、全てのビ
ットを１に設定する。即ち、初期状態としては、過去ｎ
_h回の実行でキャッシュミス率が閾値ＴＣ以上であった
ことにしておく。ｎ_hを大きくするほど予測精度が高ま
るが、ループＬの最初のｎ_h回の実行はスタートアップ
処理に過ぎず、キャッシュミス予測が行われないので、
余り大きくすべきではない。ｎ_hの値としては、６程度
で十分である。なお、後述するように、キャッシュミス
パターンテーブル６６の大きさは、２＊＊ｎ_h（２のｎ_h
乗）に比例する。そこで、キャッシュミスパターンテー
ブルが、ＣＰＵの１本の整数レジスタに収まるように、
本実施形態では、ｎ_hの値が４であるとする。

【００２７】図１１は、キャッシュミスパターンテーブ
ル６６の構造を示す。キャッシュミスパターンテーブル
６６は、２＊＊ｎ_h（２のｎ_h乗）個の要素から構成され
る。本実施形態では、各要素は１ビットとする。別の実
施形態として、分岐の予測における２レベル分岐予測で
の最善の実施形態と同様に各要素に２ビット割り当てる
ことも考えられるが、要素の値を更新する処理が大きく
なるので、本実施形態では採用しなかった。要素の更新
を行うハードウェアを用意するのであれば、要素を２ビ
ットにすることも考えられるが、詳細は省略する。キャ
ッシュミスパターンテーブル６６の値は、ｐで参照さ
れ、それぞれの要素はｐ（２＊＊ｎ_h−１）からｐ
（０）で参照される。ｐの各要素の初期値としては、１
を設定し、キャッシュミス実行時予測コード６０内での
更新に際しては、次のようにする。即ち、任意のｋ（０
≦ｋ≦２＊＊ｎ_h−１）に対して、次のようにｐ（ｋ）
を更新する。ループＬのキャッシュミス履歴６４の値が
ｋで、該ループＬの直前の実行でのキャッシュミス率が
閾値ＴＣ以上であれば、ｐ（ｋ）の値を１に更新する。
ループＬのキャッシュミス履歴６４の値がｋで、該ルー
プＬの直前の実行でのキャッシュミス率が閾値ＴＣ未満
であれば、ｐ（ｋ）の値を０に更新する。それ以外のｋ
に対しては、ｐ（ｋ）の値は不変とする。また、キャッ
シュミス履歴も更新する。例えば、後述する図１７の例
を用いて説明すると、例えば、Ｓ＝６の場合、キャッシ
ュミス履歴の値は“０１０１”であり、キャッシュミス
パターンテーブルの値は“０１０１１１１１１１１１１
１１１”である。このときのループＬの実行でのキャッ
シュミス率が閾値ＴＣ未満であれば、キャッシュミス履
歴の値の最下位桁が“０”に更新され、すなわち、Ｓ＝
６の“０１０１”の上位３桁の値が下位３桁の値に入れ
替えられ、最下位桁の値が“０”に更新されて、Ｓ＝７
の場合のキャッシュミス履歴の値“１０１０”が得ら
れ、また、Ｓ＝６の“０１０１”を１０進数の値“５”
に変換し、キャッシュミスパターンテーブルの値“０１
０１１１１１１１１１１１１１”の下から６桁目の値を
“０”に更新し、Ｓ＝７の場合のキャッシュミスパター
ンテーブルの値は“０１０１１１１１１１０１１１１
１”となる。

【００２８】図１２では、キャッシュミス履歴をｈと
し、キャッシュミスパターンテーブルをｐとして、キャ
ッシュミス記録コード６６０の詳細フローを記述してあ
る。ステップ６６１では、コード６４０で求めたキャッ
シュミス回数とコード６５０で求めたメモリ参照回数か
ら、「キャッシュミス回数＊ＵＢ２（１／ＴＣ）≧メモ
リ参照回数」であるか判定する。ここで、ＵＢ２（ｘ）
は、値がｘ以上の２ベキ数の中で一番値が小さいものを
表す。これにより、１／ＴＣの値を２ベキ数で近似して
いる。この条件は、条件「キャッシュミス回数／メモリ
参照回数≧ＴＣ」に対する近似になっている。このよう
な判定方法を用いるのは、計算機上でシフト命令で実現
できる２ベキの掛け算を用いることにより、判定処理の
処理量を小さくするためである。ステップ６６１の判定
結果が真の場合は、ステップ６６２へ分岐し、ミス判定
ビットの値を１にする。偽の場合は、ステップ６６３に
分岐し、ミス判定ビットの値を０にする。ステップ６６
１からステップ６６３では、ミス判定ビットの設定のた
めに分岐を用いているが、上記比較を行った場合に条件
が真ならばキャリービットが１になるという性質と、キ
ャリーの値を含めた加算命令を用いることにより、分岐
は無くすことが出来る。ステップ６６４では、ｐ（ｈ）
にミス判定ビットの値を設定する。ステップ６６６で
は、ｈ（ｎ_h−１：１）にｈ（ｎ_h−２：０）の値を設定
する。ステップ６６８では、ｈ（０）ににミス判定ビッ
トの値を設定する。ステップ６６４、６６６、６６８で
は、ビット操作を行っている。ビット操作のマシン命令
での実現方法は、計算機の命令アーキテクチャに依存す
るが、例えば、ＨＰ社のＰＡ−ＲＩＳＣアーキテクチャ
では、ビット操作のための命令が豊富であり、１命令で
実現可能である。ビット操作の実現例は、例題プログラ
ムを用いた説明で示す。

【００２９】図１３では、キャッシュミス履歴をｈと
し、キャッシュミスパターンテーブルをｐとして、キャ
ッシュミス予測コード６３０の詳細フローを記述してあ
る。ステップ６３５では、「ｐ（ｈ）＝１」であるか判
定し、これが真の場合は、ステップ６３６でループＬの
次回の実行でのキャッシュミス率はＴＣ以上であると予
測し、偽の場合は、ステップ６３７で、ループＬの次回
の実行でのキャッシュミス率はＴＣ未満であると予測す
る。ステップ６３５では、ビット操作を行っている。ビ
ット操作のマシン命令での実現方法は、計算機の命令ア
ーキテクチャに依存するが、例えば、ＨＰ社のＰＡ−Ｒ
ＩＳＣアーキテクチャでは、ビット操作のための命令が
豊富であり、１命令で実現可能である。ビット操作の実
現例は、例題プログラムを用いた説明で示す。図１４
は、本発明のプログラムへの適用効果を説明するための
例題プログラムである。このプログラムの、行１〜９は
メインプログラムであり、行１０〜１６はメインプログ
ラムから呼び出されるサブルーチンである。行２〜８
と、行１３〜１５はループである。以下では、本発明実
施前のループ４５である行１３〜１５のループに本実施
例を適用した場合の適用効果を示す。以下、このループ
をループＬと呼ぶ。本例題プログラムの特徴としては、
行４でのサブルーチン呼び出しと行６でのサブルーチン
呼び出しに対して、呼び出し先のサブルーチンのループ
Ｌでのキャッシュミス率が大きく異なる点である。行４
でのサブルーチン呼び出しでは、毎回同じ配列領域Ａ
（１：２００）とＢ（１：２００）が参照され、２回目
以降のサブルーチン呼び出しではキャッシュミスが殆ど
起こらないのに対して、行６のサブルーチン呼び出しで
は、配列領域Ａ（１：２００）とＣ（１：２００、Ｋ）
が参照され、Ｃ（１：２００、Ｋ）については、毎回キ
ャッシュミスが起こる点である。即ち、キャッシュミス
率が実行時に大きく変化する。具体的には、Ｋの値が奇
数の場合は、キャッシュミス率が小さく、Ｋの値が偶数
の場合はキャッシュミス率が大きい。よって、Ｋが奇数
の場合は、プリフェッチングを行わない方が良く、Ｋが
偶数の場合は、プリフェッチングを行った方が良い。し
かし、従来のキャッシュミス予測では、プログラム全体
を実行した後の平均キャッシュミス率しか求められな
い。そのため、本プログラムに対しては、プリフェッチ
ングを毎回必ず行うことになる。これに対して本発明で
は、最適なプリフェッチングを行うことを、以下で示
す。なお、以下では、キャッシュラインの大きさが３２
バイトとする。また、メモリ遅延は２０サイクルとす
る。配列Ａ、Ｂの要素長は８バイトなので、１つのキャ
ッシュラインには４個の連続した要素が入る。

【００３０】図１５は、ループＬにプリフェッチングを
実施した後のコード８０を、ソースプログラム形式で示
す。行１〜４、及び、行６〜７がプリフェッチ命令であ
る。行１では、Ａ（１）をプリフェッチする事により、
Ａ（１）を含むキャッシュラインを主メモリ３０からキ
ャッシュメモリ２０へ転送する。これにより、Ａ（１）
〜Ａ（４）がキャッシュに転送される。行２〜４も同
様。行６は、ループの２回先の繰り返しでアクセスする
配列要素Ａ（Ｊ＋８）〜Ａ（Ｊ＋１１）をプリフェッチ
する。行５〜１２のループには、プリフェッチ命令を含
めて１０個のメモリ参照と、５個の浮動小数点加算と、
５個の浮動小数点乗算が含まれる。近年の計算機では、
整数命令と浮動小数点命令は並列に実行されることが多
く、また、浮動小数点加算と浮動小数点乗算も同時に処
理されることが多いので、このループの処理は、メモリ
参照がネックとなる。メモリ参照命令が１サイクルに１
つ実行できるとすると、ループ１回当たりの処理時間は
１０サイクル以上となる。そこで、以下では、ループプ
リフェッチング実施後コード８０の実行においては、ル
ープ１回当たり１０サイクルの時間が掛かるものと仮定
する。行１３〜１５のループも同様に、ループ１回当た
り２サイクルの時間が掛かるものと仮定する。行１〜４
のプリフェッチングには４サイクル掛かる。また、Ｎの
実際の値は２００であることから、行５〜１２のループ
は１９２／４回、即ち、４８回まわり、行１３〜１５の
ループは８回まわる。よって、行１〜１５の実行時間
は、４＋１０＊４８＋２＊８サイクル、即ち、５００サ
イクルとなる。上記と同様の手法で、プリフェッチング
未実施コード９０の実行時間を図１４のループＬから計
算すると、ループは２００回まわり、メモリ参照が２個
あることから、４００サイクルとなる。よって、ループ
内でキャッシュミスが起こらない場合は、プリフェッチ
ング未実施の場合の方が処理時間が短い。

【００３１】図１６は、ループＬに本発明実施後のコー
ド５０の例を示す。なお、閾値ＴＣの値は、図３での説
明におけるＴＣの計算方法と、図１４、図１５での説明
における数字から、（１０−８）／（８＊２０）よりも
小さな値として、０．０１２４（＝１．２４％）とし
た。これにより、図１２のステップ６６１において、Ｕ
Ｂ２（１／ＴＣ）の値は、１２８となる。命令番号１６
１０は、説明で参照するために付けた一連番号である。
命令１６２０は、ループＬに対する本発明実施後のコー
ド５０をアセンブラ命令形式で表現したものである。た
だし、ループＬのプリフェッチング実施済みコード８０
と、ループＬのプリフェッチング未実施コード９０につ
いては、詳細を省略した。コード番号１６３０は、図４
内での対応するコードの番号である。例えば命令番号１
の命令は、キャッシュミス回数測定コード（ループ直前
部分）６１０を実現する命令である。ただし、命令番号
１２〜１９については、キャッシュミス記録コード６６
０の詳細を示す図１２で付加した、詳細なステップ番号
を付加してある。ｒ１〜ｒ５、及び、ｒ３１はレジスタ
を表現する。また、＃付きの数字は即値を、ＣＭＣはキ
ャッシュミス回数カウンタ１１を、ＭＭＣはメモリ参照
回数カウンタ１５を、ｈはキャッシュミス履歴６４を、
ｐはキャッシュミスパターンテーブル６６を、＄付きの
数字はラベルを表現する。

【００３２】ｌｏａｄ命令、ｓｔｏｒｅ命令、ｃｏｐｙ
命令、ｓｕｂｔｒａｃｔ命令、ｂｒａｎｃｈ命令につい
ては、説明を省略する。ａｄｄｃは、２つの入力オペラ
ンドの和にキャリーの値を加えてターゲットレジスタに
格納する命令である。命令番号５、１２のｅｘｔｒａｃ
ｔ命令、及び、命令番号１５、１７のｄｅｐｏｓｉｔ命
令、命令番号１６のｚｄｅｐｏｓｉｔ命令はレジスタ内
でのビット操作命令であり、以下の動作をする。「ｅｘ
ｔｒａｃｔｓ，ｐ，ｌｅｎ，ｔ」は、レジスタｓの下
からｐビット目から上の長さｌｅｎビットのビット列を
取り出し、これをレジスタｔに格納する命令である。た
だし、ビット位置は、最下位ビットが０番目とする。
「ｄｅｐｏｓｉｔｓ，ｐ，ｌｅｎ，ｔ」は、レジスタ
ｔの下からｐビット目から上の長さｌｅｎビットのビッ
ト列を、レジスタｓの下から０ビット目からの上の長さ
ｌｅｎのビット列によって置き換える命令である。「ｚ
ｄｅｐｏｓｉｔｓ，ｐ，ｌｅｎ，ｔ」は、レジスタｔ
の下からｐビット目から上の長さｌｅｎビットのビット
列を、レジスタｓの下から０ビット目から上の長さｌｅ
ｎのビット列によって置き換え、レジスタｔの残りのビ
ットは０にする命令である。

【００３３】上記の命令仕様の説明と、各命令１６２０
に対応したコードのコード番号１６３０から、それぞれ
の命令の命令毎の処理内容は明らかなので、１命令毎の
実行の詳細は省略する。

【００３４】図１７に、ループＬに本発明を実施後のコ
ード５０の実行状況を示す。１７１０は、図１４の例題
プログラムの主プログラムのループ（行２〜４）におけ
るＳの値を示し、該ループの実行順に並べられている。
各Ｓでの値に応じて、１７２０はＳ番目イタレーション
実行直後でのキャッシュミス履歴６４の値を示し、１７
３０はＳ番目イタレーション実行直後でのキャッシュミ
スパターンテーブル６６の値を示し、１７４０は実行さ
れたコードがプリフェッチング実施済みコード８０であ
ったか（Prefetchingと表記）、プリフェッチング未実
施コード９０であったか（Non-Prefetchingと表記）を
示し、１７５０は本発明を実施後のコード５０の実行時
間（サイクル数）を示す。

【００３５】図１７の内容について、概略説明する。最
初のＳ＝１では、キャッシュミス履歴、キャッシュミス
パターンテーブルともに全てビットは“１”に初期化さ
れ、実行コードはＰｒｅｆｅｔｃｈｉｎｇにされる。Ｓ
＝１でのループＬの実行におけるキャッシュミス率が閾
値ＴＣ以上であれば、Ｓ＝２でのキャッシュミス履歴
は、図１２のステップ６６６、６６８により“１１１
１”になり、また、Ｓ＝１でのループＬの実行における
キャッシュミス率が閾値ＴＣ以上であれば、図１２のス
テップ６６４に従い、Ｓ＝１での“１１１１”を１０進
数の値“１５”に変換し、キャッシュミスパターンテー
ブルの値“１１１１１１１１１１１１１１１１”の下か
ら１６桁目の値を“１”に更新し、Ｓ＝２の場合のキャ
ッシュミスパターンテーブルの値は“１１１１１１１１
１１１１１１１１”となり、また、図１３のフローに従
い、Ｓ＝１での“１１１１”を１０進数の値“１５”に
変換し、キャッシュミスパターンテーブルの値“１１１
１１１１１１１１１１１１１”の下から１６桁目の値を
求めると“１”であるので、Ｓ＝２での実行コードはＰ
ｒｅｆｅｔｃｈｉｎｇにされる。また、Ｓ＝６でのルー
プＬの実行におけるキャッシュミス率が閾値ＴＣ未満で
あれば、Ｓ＝７でのキャッシュミス履歴は、図１２のス
テップ６６６、６６８により“１０１０”になり、ま
た、Ｓ＝６でのループＬの実行におけるキャッシュミス
率が閾値ＴＣ未満であれば、図１２のステップ６６４に
従い、Ｓ＝６での“０１０１”を１０進数の値“５”に
変換し、キャッシュミスパターンテーブルの値“１１１
１１１１１１１１１１１１１”の下から６桁目の値を
“０”に更新し、Ｓ＝７の場合のキャッシュミスパター
ンテーブルの値は“１１１１１１１１１１０１１１１
１”となり、また、図１３のフローに従い、Ｓ＝６での
“０１０１”を１０進数の値“５”に変換し、キャッシ
ュミスパターンテーブルの値“１１１１１１１１１１１
１１１１１”の下から６桁目の値を求めると“１”であ
るので、Ｓ＝７での実行コードはＰｒｅｆｅｔｃｈｉｎ
ｇにされる。

【００３６】本発明を実施後のコード５０の実行時間
は、ループＬのプリフェッチング実施済みコード８０、
或いは、ループＬのプリフェッチング未実施コード９０
の実行時間に、本発明の実施によって付加されるキャッ
シュミス実行時予測コード６０とプリフェッチング実行
制御コードの実行時間を加えた値である。図１５での説
明から、ループＬのプリフェッチング実施済みコード８
０の実行時間は５００サイクルであり、ループＬのプリ
フェッチング未実施コード９０の実行時間は４００サイ
クルである。図１６では、本発明の実施によって付加さ
れたコードが１７命令であることが分かる。それぞれは
単純な整数命令なので、１サイクルで実行できると考え
られる。よって、本発明の実施によって付加されたコー
ドの実行時間は、１７サイクルとする。よって、プリフ
ェッチング実施済みコード８０が実行される場合の実行
時間１７５０は５１７サイクルであり、プリフェッチン
グ未実施コード９０が実行される場合の実行時間１７５
０は４１７サイクルである。よって、ループＬに本発明
実施後のコード５０の実行時間１７５０の合計は、９３
８００サイクルである。

【００３７】図１８に、ループＬに本発明を実施する前
のループコード４５の実行状況を示す。１８１０は、図
１４の例題プログラムの主プログラムのループ（行２〜
４）におけるＳの値を示し、該ループの実行順に並べら
れている。各Ｓでの値に応じて、１８４０は実行された
コードがプリフェッチング実施済みコード８０であった
か（Prefetchingと表記）、プリフェッチング未実施コ
ード９０であったか（Non-Prefetchingと表記）を示
し、１８５０は実行時間（サイクル数）を示す。本発明
を実施しない場合、常にプリフェッチング実施済みコー
ド８０が実行されるので、実行時間１８５０の合計は１
０００００サイクルである。

【００３８】図１７と図１８から、本発明の実施によ
り、実行時間が６２００サイクル（１０００００−９３
８００）削減されており、常にプリフェッチング実施済
みコード８０を実行する場合に較べて、実行時間が６．
３％削減されていることが分かる。なお、本実施形態で
は、ハードウェアの追加を少なくするために、単純はハ
ードウェアであるキャッシュミスカウンタ１１とメモリ
参照回数カウンタ１５のみを設けて、ループ内キャッシ
ュミス実行時予測コード６０の大部分はソフトウェアで
実現した。しかし、本発明は、キャッシュミス実行時予
測コード６０の実現をソフトウェアでの実現に制限する
ものではない。更なるハードウェアを追加すれば、キャ
ッシュミス実行時予測コード６０の処理を高速化でき、
本発明の実施効果は更に高まる。以上述べてきたよう
に、本発明によるキャッシュミス予測方法は、プログラ
ムを予め実行することなしに、プログラムの実際の実行
に際して、ループが実行される度毎のキャッシュミスを
正確に予測することが可能である。更に、プログラムの
実行時間に影響しない程度の少ないオーバーヘッドで、
上記の予測を行うことが可能である。また、プリフェッ
チングによって性能が低下する場合があるという問題を
回避することが出来る。

【００３９】

【発明の効果】本発明の効果の一つは、プログラムを予
め実行することなしに、プログラムの実際の実行に際し
て、ループが実行される度毎のキャッシュミスを正確に
予測出来ることである。これにより、プリフェッチング
実施済みのコードとプリフェッチング未実施コードのど
ちらを実行するかを、実行時に正確に制御できるので、
プリフェッチングによって性能が低下する場合があると
いう問題を回避することが出来、プリフェッチング実施
済みのコードが必ず実行される場合に較べて、実行時間
を短縮できる。

【図面の簡単な説明】

【図１】本発明が実施されたプログラムが実行されるシ
ステムの構成を示す図である。

【図２】コンパイラが動作するシステムの構成を示す図
である。

【図３】コンパイラの処理手順を示す図である。

【図４】ループに対する本発明が実施されたコードの詳
細を示す図である。

【図５】キャッシュミス回数測定コード付加の実施形態
−１を示す図である。

【図６】キャッシュミス回数測定コード付加の実施形態
−２を示す図である。

【図７】メモリ参照回数測定コード付加の実施形態−１
を示す図である。

【図８】メモリ参照回数測定コード付加の実施形態−２
を示す図である。

【図９】メモリ参照回数測定コード付加の実施形態−３
を示す図である。

【図１０】キャッシュミス履歴の構造を示す図である。

【図１１】キャッシュミスパターンテーブルの構造を示
す図である。

【図１２】キャッシュミス記録コードの詳細を示す図で
ある。

【図１３】キャッシュミス予測コードの詳細を示す図で
ある。

【図１４】例題プログラムを示す図である。

【図１５】プリフェッチング実施済みのコードを示す図
である。

【図１６】本発明が実施されたコードの例を示す図であ
る。

【図１７】本発明が実施されたコードの実行状況を示す
図である。

【図１８】本発明が実施されないコードの実行状況を示
す図である。

【符号の説明】

１０ＣＰＵ１１キャッシュミス回数カウンタ１５メモリ参照回数カウンタ２０キャッシュメモリ３０主メモリ４０本発明実施後のプログラム５０ループに対する本発明実施後のコード６０ループ内キャッシュミス実行時予測コード６４キャッシュミス履歴６６キャッシュミスパターンテーブル７０プリフェッチング実行時制御コード８０プリフェッチング実施済みコード９０プリフェッチング未実施コード

Claims

【特許請求の範囲】

【請求項１】キャッシュを有する計算機システムで実
行されるプログラムに対してキャッシュミスの発生を予
測する方法であって、該プログラム内のあるループを実行した場合のキャッシ
ュミス率がある閾値以上であるかを該プログラムの実行
時に予測するループ内キャッシュミス実行時予測コード
を該プログラムに付加し、該コード付加後のプログラム
の実行時にキャッシュミス予測を行うことを特徴とする
キャッシュミス予測方法。
【請求項２】請求項１記載のキャッシュミス予測方法
において、ループ内キャッシュミス実行時予測コードとして、該ループ内で発生するキャッシュミス回数測定コード
と、該ループ内で発生するメモリ参照回数測定コードと、該キャッシュミス回数と該メモリ参照回数から該ループ
のキャッシュミス率が該閾値以上であるか否かを判定
し、この判定結果をキャッシュミス履歴とキャッシュミ
スパターンテーブルに記録するキャッシュミス記録コー
ドと、該キャッシュミス履歴と該キャッシュミスパターンテー
ブルから、該ループの次回の実行でのキャッシュミス率
が該閾値以上であるかを予測するキャッシュミス予測コ
ードとを付加することを特徴とするキャッシュミス予測
方法。
【請求項３】請求項２記載のキャッシュミス予測方法
において、前記キャッシュミス回数測定コードは、キャッシュミス
回数をカウントするハードウェアカウンタを用いてルー
プ内で発生するキャッシュミスの回数を測定することを
特徴とするキャッシュミス予測方法。
【請求項４】請求項２記載のキャッシュミス予測方法
において、前記メモリ参照回数測定コードは、メモリ参照回数をカ
ウントするハードウェアカウンタを用いてループ内で発
生するメモリ参照の回数を測定することを特徴とするキ
ャッシュミス予測方法。
【請求項５】請求項２記載のキャッシュミス予測方法
において、前記メモリ参照回数測定コードは、静的に算出したルー
プ１回当たりのメモリ参照の回数に実行時のループ回数
を乗ずることによってループ内で発生するメモリ参照の
回数を測定することを特徴とするキャッシュミス予測方
法。
【請求項６】キャッシュを有する計算機で実行される
プログラムに対するコンパイル方法であって、該プログラム内のあるループに対して請求項１記載のル
ープ内キャッシュミス実行時予測コードを付加し、かつ
該ループのキャッシュミス率が閾値以上であると予測さ
れた場合は該ループにプリフェッチング実施済みのコー
ドを実行し、そうでない場合は該ループにプリフェッチ
ングを実施していないコードを実行するプリフェッチン
グ実行制御コードを付加することを特徴とするコンパイ
ル方法。