JP3177950B2

JP3177950B2 - キャッシュ最適化処理方法およびキャッシュ最適化処理プログラムを記録した記録媒体

Info

Publication number: JP3177950B2
Application number: JP25500097A
Authority: JP
Inventors: 政昭船間
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1997-09-19
Filing date: 1997-09-19
Publication date: 2001-06-18
Anticipated expiration: 2017-09-19
Also published as: JPH1196015A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ノンブロッキング
キャッシュ機構を採用する計算機システム用のコードを
生成するコンパイラのキャッシュミスによるペナルティ
を回避するキャッシュ最適化処理方法およびその処理プ
ログラムを記録した記録媒体に関する。

【０００２】

【従来の技術】現在、計算機システムは、ＣＰＵとメモ
リの間に高速、小容量のキャッシュメモリを配置し、メ
モリに置かれたデータへのアクセスの高速化を図ってい
るものが一般的となっている。

【０００３】計算機システムは、キャッシュを配置する
ことにより、必要なデータがキャッシュ上に存在する場
合に、より低速な主記憶にアクセスする必要がないた
め、実行性能が向上する。しかし、計算機システム
は、単純なキャッシュ機構では逆に必要なデータがキャ
ッシュ上に存在しない（キャッシュミス）場合、データ
の主記憶からキャッシュへの読み込みを完了するまでＣ
ＰＵが停止するため実行性能が低下するという問題が存
在する。

【０００４】そこで、その対策として、計算機システム
は、キャッシュミスが発生した場合でもＣＰＵの動作は
停止せず、またキャッシュミスが存在しても他の命令に
よるキャッシュへのアクセスが可能なノンブロッキング
キャッシュ機構が考案され、今後は、この機構を採用す
るものが主流となると思われる。［参考文献：COMPUTER ARCHITECTURE: A QUANTATIVE AP
PROACH (John L.Henessy& David A. Patterson, 1996,
p414-416)］しかし、現在の計算機システムは、依然としてキャッシ
ュミスに起因する実行性能低下が残っており、この性能
低下を低減する方法がいくつか提案されている。

【０００５】特開平３−２８２７３４号公報には、パイ
プライン処理を行うＣＰＵとメモリの間に高速、小容量
のキャッシュを持つ計算機での命令実行時のキャッシュ
ミスペナルティを小さくするための命令再配置を行う方
法が記載されている。

【０００６】ここでキャッシュミスペナルティとは、主
記憶からレジスタにデータをロードする場合にデータが
キャッシュ上に存在しない場合に、主記憶からキャッシ
ュへのデータの読み込み（これをキャッシュ置き換えと
呼ぶ）が完了するまでＣＰＵが停止し、実行効率が低下
することを意味する。

【０００７】つぎに図６を参照して、特開平３−２８２
７３４号公報に記載された方法の構成を説明する。プロ
グラム６１はコンパイル部６３によりコンパイルされ機
械語命令に変換される。命令再配置最適化部６４は、出
力された命令を調べ、キャッシュミスの発生する命令を
見つけだし、メモリからキャッシュへの読み込みを行っ
ている時間に実行でき、かつその実行に複数サイクルを
要する命令をその命令の直前に配置することで、キャッ
シュミスの結果としてメモリからキャッシュへの読み込
みを実行している間もＣＰＵを無駄に止めないようにす
る。

【０００８】この方法に関し、上記公報は、メモリのア
クセスパターンが比較的予想しやすい命令フェッチ実行
時の命令キャッシュへのアクセスに関して述べられてお
り、データへのアクセスについては、命令フェッチの場
合と同様に主記憶を逐次的に参照する場合のみしか述べ
られていない。また、ノンブロッキングキャッシュに関
しても考慮されていない。

【０００９】また、特開平４−４４１３９号公報には、
プログラムの処理上必要とするデータについて、そのデ
ータがキャツシュに存在するか否かを調べ、存在しない
場合にはデータのキャッシュへの読み込みを他の命令の
実行と同時に行なうことが可能なプリフェッチ命令を命
令セットに追加し、そのデータ参照の前方にプリフェッ
チ命令を挿入することでメモリへのデータ参照の処理効
率を上げる方法が記載されている。しかし、公報にはプ
リフェッチ命令をハードウェアとして実現する方法につ
いて述べられているが、プリフェッチ命令をどのように
配置するかについては述べられていない。また、COMP
UTER ARCHITECTURE: A QUANTATIVE APPROACH (John L.
Henessy & David A. Patterson, 1996, p402-404 )にお
いて、ノンブロッキングキャッシュ機構について考慮し
た方法としては、ループ中で後のループの繰り返し（こ
れをイタレーションと呼ぶ）で使うデータをプリフェッ
チするという方法が記載されているが、これはループ内
のデータ参照に限られている。

【００１０】

【発明が解決しようとする課題】従来の命令キャッシュ
のミスペナルティを小さくするためのスケジューリング
方法は、ループ内にないロード命令でキャッシュミスを
起こし、そのデータのキャッシュへの読み込みが終らな
いうちに、そのデータを参照する命令が実行されるよう
にスケジューリングされる場合に、キャッシュミスペナ
ルティ（これをAccess Before Refillと呼び、以後ＡＢ
Ｒと表す）が依然として発生すると言う問題がスケジュ
ーリング方法に残っている。

【００１１】また、John L. Henessy & David A. Patte
rsonによるノンブロッキングキャッシュを考慮したスケ
ジューリング方法は、ノンブロッキングキャッシュ機構
にある種の条件を必要とする。彼らの提案したループ内
でプリフェッチを行うスケジューリング方法は、一般に
ループの繰り返しで、ロード命令が多数回実行されるこ
とにより、多重にキャッシュミスが発生し易いため、多
数回キャッシュミスが発生しても引き続きキャッシュへ
のアクセスを許す機構が必要となる。このノンブロツキ
ングキャッシュ機構の特性は、1 hit under n miss（ｎ
は整数）と呼ばれ、キャッシュミスがｎ個起こっている
状態でも後続の命令がキャッシュをアクセス可能である
が、そこでさらにキャッシュミスが起こると、以前にキ
ャッシュミスしたデータのキャッシュへの読み込みが終
わらない限り後続の命令がキャッシュをアクセスできな
いことを意味する。

【００１２】彼らの提案したスケジューリング方法は、
許されるキャッシュミスの回数が少ない機構（特に1 hi
t under 1 miss）を採用するＣＰＵにおいては、逆にペ
ナルティが大きくなる可能性がある。そのスケジューリ
ング方法は、最も制限の厳しい1 hit under 1 miss特性
を持つＣＰＵの場合、ロード命令がキャッシュミスを起
こした後、キャッシュの置き替えが終らないうちに、再
度キャッシュへアクセスを行なった場合、さらにキャッ
シュミスが発生する（これをDouble Cache Miss と呼
び、以後ＤＣＭと表す）場合のキャッシュミスペナルテ
ィの問題がスケジューリング方法に存在する。以後、1
hit under 1 missの場合を想定して説明するが、1 hit
under n missの場合も同様に扱うことができる。

【００１３】以後、単にキャッシュミスペナルティと記
述した場合には、キャッシュミスペナルティは上記の２
つ（ＡＢＲ，ＤＣＭ）のキャッシュミスペナルティを指
すこととする。

【００１４】上記スケジューリング方法の問題点を解決
する方法としてプログラムのコンパイル時にそのコンパ
イルの結果であるプログラムコード本体の中にプリフェ
ッチのための命令を挿入する方法が考えられる。そのス
ケジューリング方法の構成は図７に示す通りである。

【００１５】まず、コンパイラ７２においてコードスケ
ジューリング部１３を無効にして目的コード７３を生成
する。生成した目的コードをシュミレータもしくはター
ゲットマシン上で実行し、実行時のＣＰＵの動作を記録
したプロファイルデータ７４を得る。次に、コードスケ
ジューリング部１３を有効にして、入力コード７１を入
力としてコンパイルを行う。コードスケジューリング部
１３ではプロファイルデータ７４を利用してキュッシュ
ミスペナルティを軽減するためのプリフェッチ命令をコ
ード中に挿入する。

【００１６】すなわち、改良されたスケジューリング方
法は、プログラムのコード中にプリフェッチ命令を挿入
し、プロファイルデータからキャッシュミスを起こす命
令を調べ、キャッシュミスする命令の前方で、キャッシ
ュリフィル処理をしていない最長の期間を見つけ、最長
期間の直前に実行されるようにプリフェッチ命令を挿入
する。

【００１７】しかし、1 hit under 1 missのノンブロッ
キングキャッシュ機構を持つシステムでは、リフィル処
理中に更にキャッシュミスが起こるとそのリフィル処理
が完了するまでＣＰＵが停止する。（ＤＣＭと呼ぶ）こ
の方法では、挿入したプリフェッチ命令によってキュッ
シュミスペナルティの軽減は達成できるが、上記のＣＰ
Ｕ処理の停止の発生を完全に防ぐことはできない。

【００１８】その理由は、プログラムコード中にはメモ
リ中のデータへのアクセスが頻繁にあり、ＤＣＭの発生
が避けられない場合があるからである。

【００１９】本発明の目的は、コンパイラを用いてコー
ドを生成する場合にキャッシュミスによるペナルティを
回避するキャッシュ最適化処理方法およびその処理プロ
グラムを記録した記録媒体を提供することである。

【００２０】

【課題を解決するための手段】本発明のキャッシュ最適
化処理方法およびその処理プログラムを記録した記録媒
体は、ＣＰＵとメモリの間にキャッシュのリフィル処理
中にパイプラインが停止しない高速なノンブロッキング
キャッシュを配置し、メモリに置かれたデータへのアク
セスの高速化を図り、メモリ書き込み時に、キャッシュ
へのアクセスがない計算機システムにおけるキャッシュ
最適化処理方法およびその処理プログラムを記録した記
録媒体において、コンパイラを用いて目的コードを生成
する場合に、キャッシュミスによるペナルティを回避す
るために、プログラム中にグローバルな初期値ありデー
タがある場合に、そのデータを選択してコンパイラによ
り結合されるスタートアップルーチンの初期化処理部分
に、予めデータをキャッシュにまとめて格納することを
命令するコードを挿入する挿入ステップを有するととも
に、命令のために発生したリフィル処理中に実行可能な
命令を、リフィル処理が完了するまで実行させることを
特徴とするキャッシュ最適化処理方法およびその処理プ
ログラムを記録した記録媒体。

【００２１】また、予めグローバルな初期値ありデータ
を選択してキャッシュにまとめて格納するコードは、コ
ンパイラにより付加されるスタートアップルーチンの初
期化処理部にグローバル変数の初期値ありデータの為の
プリフェッチ命令である。

【００２２】また、挿入ステップは、入力コードをコン
パイラによりコンパイルしプロファイルデータを生成す
るためのオブジェクトコードを得るコンパイルステップ
と、プロファイルデータを生成するプロファイルデータ
生成ステップと、プリフェッチを行うコードを含んだス
タートアップルーチンを生成するスタートアップルーチ
ン生成ステップと、プリフェッチするデータをまとまっ
た領域に配置するための情報を含んだ変数配置マップを
生成する変数配置マップ生成ステップと、プリフェッチ
コードを含んだスタートアップルーチンとオブジェクト
とを変数配置マップの配置に従ってリンカによりリンク
し、実行可能な目的コードを生成するリンクステップ
と、を有する。

【００２３】更に、リンカは、変数配置マップを利用し
てプリフェッチするデータをまとまった領域へ配置する
配置ステップと、プリフェッチするデータの領域がキャ
ッシュライン境界から始まるように境界を合わせるアラ
イメント考慮ステップを有する。

【００２４】

【発明の実施の形態】次に本発明の実施の形態について
図面を参照して詳細に説明する。図１は、本発明の一実
施例における構成を示すブロック図である。本発明のキ
ャッシュ最適化処理の構成は、入力コード５からコンパ
イラ６を用いてオブジェクトコード７を得る部分と、こ
のオブジェクトコード７をシュミレータもしくはターゲ
ットマシン上で実行することにより得られる、図には示
さない、プロファイルデータ１と、キャッシュへのアク
セスに関する情報を含んでいるプロファイルデータ１か
ら高速にアクセスする必要のあるデータを選択するスタ
ートアップルーチン生成部２と、スタートアップルーチ
ン生成部２からキャッシュに、選択したデータを予めま
とまった領域に格納しておくための変数配置マップ３
と、スタートアップルーチン生成部２が挿入したプリフ
ェッチコードを含んだプログラムの実行前処理を行うス
タートアップルーチン４と、変数配置マップ３の配置に
従ってスタートアップルーチン４とオブジェクトコード
７を再リンクするリンカ８と、最終的に得られる目的コ
ード９より構成されている。

【００２５】本発明のキャッシュ最適化処理の動作は、
大略次のステップをとる。１．入力コードをコンパイラによりコンパイルし、オブ
ジェクトコードを得る。このオブジェクトコードはプロ
ファイルデータを生成するときにも用いる。２．プロファイルデータを生成する。詳細については後
述の「プロファイルデータの生成」により説明する。３．プリフェッチコードを含んだスタートアップルーチ
ンを生成する。このときプリフェッチするデータをまと
まった領域に配置するための情報を含んだ変数配置マッ
プも生成する。４．プリフェッチコードを含んだスタートアップルーチ
ンとオブジェクトとをリンカによりリンクし、実行可能
な目的コードを生成する。このときリンカは、変数配置
マップを利用してプリフェッチするデータをまとまった
領域へ配置する。変数配置マップは、図２に示すよう
に、メモリ上の初期値ありグローバルデータ領域にプリ
フェッチするデータがまとめられて配置されている。

【００２６】このときプリフェッチするメモリ上のデー
タの領域は、その領域の始まりを、キャッシュラインの
境界から始まるように、その境界に合わせて配置する。
（これを“アライメントを考慮する。”という）。

【００２７】次にプロファイルデータの生成について、
プロファイルデータ取得のための方法の一例を図を用い
て説明する。図３はプロファイルデータの生成について
の動作ステップの構成図である。１．プロファイルデータを得るための目的コード（一時
目的コード）を以下のようなステップで作成する。（ａ）入力コード３１をコンパイラ３２によりコンパイ
ルし、オブジェクトコード３３を得る。ただし、プロフ
ァイルデータ取得のために、グローバル変数を参照する
部分にプロファイル用のコードを挿入する。このコード
はグローバル変数が参照されたときに必ず実行され、グ
ローバル変数の更新された参照回数と参照した時刻をプ
ロファイルデータとして記録する。（ｂ）得られたオブジェクトコード３３と通常のスター
トアップルーチン３４とをリンカ３５によりリンクして
目的コード３６を生成する。２．得られたプロファイルデータ生成用の一時目的コー
ド３６をターゲットマシンもしくはシミュレータ３７上
で実行しプロファイルデータ３８を得る。

【００２８】この他シミュレーションによるプロファイ
ルデータの収集なども考えられるが発明の本質ではない
ので説明は省略する。

【００２９】次に、スタートアップルーチン生成部２に
ついて説明する。１．プロファイルデータの解析プロファイルデータには各グローバル変数に対して参照
回数と、アクセス時刻のデータが記録されている。以下
にプリフェッチするデータを選択するアルゴリズムの一
例を示す。（ａ）それぞれのグローバル変数について、その変数に
最初にアクセスした時刻でソートし、設定された時刻閾
値（Time Threshold）以降のものを選択する候補から除
外する。（ｂ）残ったグローバル変数をさらに参照回数でソート
する。（ｃ）プリフェッチ可能なデータサイズ（一般に最大プ
リフェッチサイズと称している）を上限に参照回数の多
いほうからグローバル変数を選択する。２．配置マップの作成選択したグローバル変数を初期値ありグローバルデータ
領域のまとまった領域に配置するようリンカに指示する
ための変数配置マップを作成する。リンカはこのマップ
を参照し、プリフェッチするデータを初期値ありグロー
バルデータ領域のあるまとまった領域に配置する。これ
によりメモリを順次アクセスすることで効率良くプリフ
ェッチを行うことができる。３．スタートアップルーチンの作成メモリ上からキャッシュラインをキャッシュに読み込む
プリフェッチ命令をスタートアップルーチンへ挿入し、
プリフェッチコードを含んだスタートアップルーチンを
作成する。プリフェッチするデータは初期値ありグロー
バルデータ領域（ＢＳＳ領域）のまとまった部分に配置
されているのでこれを順次キャッシュに読み込むことに
なる。

【００３０】プリフェッチ命令挿入の候補となるのは、
キャッシュへのアクセスがないような部分である。例え
ば、領域を特定の値で初期化するループなどがその部分
として考えられる。

【００３１】ここで、プリフェッチ命令より発生したリ
フィル処理中に次のループイタレーションのプリフェッ
チ命令の実行によるキャッシュアクセスが発生する場合
は、図４に示すように、ループの展開を行う必要があ
る。これにより現在のリフィル処理が終ってから次のプ
リフェッチ命令が実行されることになる。

【００３２】メモリからキャッシュへの読み込みは、あ
る一定のサイズ（キャッシュラインと言う）毎に行われ
る。このため読み込みの効率を上げるために、プリフェ
ッチ用データはキャッシュライン境界に合わせて配置す
る必要がある。

【００３３】グローバルな初期値ありデータについてグ
ローバル変数の参照回数と参照された時刻についての２
つの情報をプロファイルデータとし、これを用いてプロ
グラムの実行の最初のほうで頻繁に参照されるグローバ
ル変数を選択し、プリフェッチの対象とする。

【００３４】

【実施例】次に、具体的な実施例についてプログラムの
記述例を掲げる。

【００３５】プログラムの初期条件は、・ＢＳＳ領域が６４ＫＢ（６５５３６バイト）であり、・キャッシュラインサイズが１６バイトであり、・st.w命令（store word命令：４バイトデータ書き込
み）の実行クロックが４クロックであり、・リフィル処理に必要な時間が６４クロックであるとす
る。初期値無しグローバルデータ領域（ＢＳＳ領域）の初期
化部分の処理概要を以下に記述する。

【００３６】まず、__sbssから__ebssまでの領域（ＢＳ
Ｓ領域：６４ＫＢ）を０で初期化する部分を示す。

【００３７】 mov #__sbss, r13 __clear bss section mov #__ebss, r12 .L15: st.w r0, 0[r13] add 4, r13 cmp r12, r13 j1 .L15 .L14: 次に、以上のようなループを展開して、プリフェッチ命
令を挿入する処理について説明する。プリフェッチ命令
は上記ループの先頭（st.w r0,0[r13]の前）に挿入す
る。しかし、単に挿入のみを行うと次のループイタレー
ションで実行されるプリフェッチ命令によりＤＣＭが発
生してしまう。このため、プリフェッチ命令のために発
生したリフィル処理の完了後に次のプリフェッチ命令を
実行するように、リフィル中に実行可能（キャッシュに
アクセスしない）な命令（ここではst.w命令）をリフィ
ル処理が完了するまで並列に実行させる必要がある。こ
のため、以下のようにループの展開を同時に行う。

【００３８】 mov #__sbss, r13 __clear bass section mov #__ebss, r12 mov #__global_data, r14 .L15: ld.w [r14], r15 __prefetch st.w r0, 0[r13] st.w r0, 4[r13] st.w r0, 8[r13] st.w r0, 12[r13] : st.w r0, 48[r13] st.w r0, 52[r13] st.w r0, 56[r13] st.w r0, 60[r13] __以上１６個のst.w 命令（６４クロック必要） add 16, r14 __cache line size add 64, r13 cmp r12, r13 j1 .L15 .L14: 図４に示すように、１６バイトのキャッシュラインサイ
ズをプリフェッチしている間に並行してＢＳＳ領域６４
バイトを０クリアすることができる。

【００３９】６４ＫＢ（６５５３６バイト）を初期化す
るためには、上記のループを１０２４回繰り返すことに
なる。１回のループで１キャッシュラインサイズ分のデ
ータをプリフェッチできるので１０２４×１６＝１６３
８４（１６ＫＢ）分のデータがプリフェッチ可能（これ
を最大プリフェッチサイズと呼ぶ）である。

【００４０】ここで、以下の場合は図５に示すようにル
ープ処理の分割が必要になる。・この最大プリフェッチ
サイズがデータキャッシュのサイズを越えてしまう場合
・プリフェッチするデータ量が最大プリフェッチサイズ
以下である場合この場合オリジナルループ５１は、プリ
フェッチ用ループ５２と補正用ループ５３の２つのルー
プに分割される。

【００４１】次にループ処理の分割が必要になる実際の
例を示す。例プリフェッチするデータが８ＫＢ（半分）の場合前方のプリフェッチ用ループで８ＫＢをプリフェッチ
（同時に３２ＫＢのＢＳＳ領域を初期化）している。後
方の補正用ループで残り３２ＫＢのＢＳＳ領域を初期化
している。

【００４２】 __プリフェッチ用ループ mov #__sbss, r13 __clear bass section mov #__sbss+8192*4, r12 mov #__global_data, r14 .L15: ld.w [r14], r15 __prefetch st.w r0, 0[r13] st.w r0, 4[r13] st.w r0, 8[r13] st.w r0, 12[r13] : st.w r0, 48[r13] st.w r0, 52[r13] st.w r0, 56[r13] st.w r0, 60[r13] add 16, r14 __cache line size add 64, r13 cmp r12, r13 j1 .L15 .L14: mov #__ebss, r12 __補正用ループ .L17: st.w r0, [r13] add 4, r13 cmp r12, r13 j1 .L17 .L16:

【００４３】

【発明の効果】本発明によれば、コンパイラを用いてコ
ードを生成する場合にキャッシュミスによるペナルティ
を回避するキャッシュ最適化処理方法およびその処理プ
ログラムを記録した記録媒体を提供できると言う効果が
ある。

【図面の簡単な説明】

【図１】本発明のキャッシュ最適化処理の構成を示す図
である。

【図２】初期値ありグローバル変数の配置を示す図であ
る。

【図３】プロファイルデータの生成のフローチャートを
示す図である。

【図４】本発明のキャッシュ最適化処理の記述例を示す
図である。

【図５】ループの分割を示す図である。

【図６】従来の命令再配置を行う方法による言語処理の
構成を示す図である。

【図７】従来のプリフェッチ命令の挿入方法による言語
処理の構成を示す図である。

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 9/45

Claims

(57)【特許請求の範囲】

【請求項１】ＣＰＵとメモリの間にキャッシュのリフ
ィル処理中にパイプラインが停止しない高速なノンブロ
ッキングキャッシュを配置し、メモリに置かれたデータ
へのアクセスの高速化を図り、メモリ書き込み時に、キ
ャッシュへのアクセスがない計算機システムにおけるキ
ャッシュ最適化処理方法において、コンパイラを用いて目的コードを生成する場合に、キャ
ッシュミスによるペナルティを回避するために、プログ
ラム中にグローバルな初期値ありデータがある場合に、
前記データを選択してコンパイラにより結合されるスタ
ートアップルーチンの初期化処理部分に、予め前記デー
タをキャッシュにまとめて格納することを命令するコー
ドを挿入する挿入ステップを有するとともに、前記命令のために発生したリフィル処理中に実行可能な
命令を、前記リフィル処理が完了するまで実行させるこ
とを特徴とするキャッシュ最適化処理方法。
【請求項２】予め前記データを選択して、キャッシュ
にまとめて格納する前記コードが、コンパイラにより付加されるスタートアップルーチンの
初期化処理部にグローバル変数の初期値ありデータの為
のプリフェッチ命令である請求項1記載のキャッシュ最
適化処理方法。
【請求項３】前記挿入ステップが、入力コードをコンパイラによりコンパイルしプロファイ
ルデータを生成するためのオブジェクトコードを得るコ
ンパイルステップと、前記オブジェクトコードによりプロファイルデータを生
成するプロファイルデータ生成ステップと、プリフェッチを行うコードを含んだスタートアップルー
チンを生成するスタートアップルーチン生成ステップ
と、プリフェッチするデータをまとまった領域に配置するた
めの情報を含んだ変数配置マップを生成する変数配置マ
ップ生成ステップと、プリフェッチコードを含んだスタートアップルーチンと
オブジェクトコードとを変数配置マップの配置に従って
リンカによりリンクし、実行可能な目的コードを生成す
るリンクステップと、を有する請求項1記載のキャッシュ最適化処理方法。
【請求項４】前記リンカが、変数配置マップを利用してプリフェッチするデータをま
とまった領域へ配置する配置ステップと、プリフェッチするデータの領域がキャッシュライン境界
から始まるように境界を合わせるアライメントステップ
を有する請求項３記載のキャッシュ最適化処理方法。
【請求項５】ＣＰＵとメモリの間にキャッシュのリフ
ィル処理中にパイプラインが停止しない高速なノンブロ
ッキングキャッシュを配置し、メモリに置かれたデータ
へのアクセスの高速化を図り、メモリ書き込み時に、キ
ャッシュへのアクセスがない計算機システムにおけるキ
ャッシュ最適化処理プログラムを記録した記録媒体にお
いて、コンパイラを用いて目的コードを生成する場合に、キャ
ッシュミスによるペナルティを回避するために、プログ
ラム中にグローバルな初期値ありデータがある場合に、
前記データを選択してコンパイラにより結合されるスタ
ートアップルーチンの初期化処理部分に、予め前記デー
タをキャッシュにまとめて格納するコードを挿入する挿
入ステップを有することを特徴とするキャッシュ最適化
処理プログラムを記録した記録媒体。
【請求項６】予め前記データを選択してキャッシュに
まとめて格納する前記コードが、コンパイラにより付加されるスタートアップルーチンの
初期化処理部にグローバル変数の初期値ありデータの為
のプリフェッチ命令である請求項５記載のキャッシュ最
適化処理プログラムを記録した記録媒体。
【請求項７】前記挿入ステップが、入力コードをコンパイラによりコンパイルしプロファイ
ルデータを生成するためのオブジェクトコードを得るコ
ンパイルステップと、プロファイルデータを生成するプロファイルデータ生成
ステップと、プリフェッチを行うコードを含んだスタートアップルー
チンを生成するスタートアップルーチン生成ステップ
と、プリフェッチするデータをまとまった領域に配置するた
めの情報を含んだ変数配置マップを生成する変数配置マ
ップ生成ステップと、プリフェッチコードを含んだスタートアップルーチンと
オブジェクトとを変数配置マップの配置に従ってリンカ
によりリンクし、実行可能な目的コードを生成するリン
クステップと、を有する請求項５記載のキャッシュ最適化処理プログラ
ムを記録した記録媒体。
【請求項８】前記リンカが、変数配置マップを利用してプリフェッチするデータをま
とまった領域へ配置する配置ステップと、プリフェッチするデータの領域がキャッシュライン境界
から始まるように境界を合わせるアライメント考慮ステ
ップを有する請求項７記載のキャッシュ最適化処理プロ
グラムを記録した記録媒体。