JP2000207224A

JP2000207224A - ソフトウェアプリフェッチ方法

Info

Publication number: JP2000207224A
Application number: JP11008234A
Authority: JP
Inventors: Ichiro Kushima; 伊知郎久島
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1999-01-14
Filing date: 1999-01-14
Publication date: 2000-07-28

Abstract

(57)【要約】【課題】最内側ループ中にないデータの参照に対し
て、プリフェッチしたデータが使用される前にキャッシ
ュから追い出されるのを防止する。【解決手段】配列参照Ａ（ｉ）の直前にあるループ
（６０５〜６０７）を取り出し、ループ（６０５〜６０
７）全体の予測実行サイクル数ｄがデータをプリフェッ
チするのに必要なサイクル数（メモリレイテンシ）ｋよ
り大きければ、ループ（６０５〜６０７）のループ１回
あたりの予測実行サイクル数ｅを求め、メモリレイテン
シに相当するループ回数β＝［ｋ／ｅ］を計算する。そ
して、ループ（６０５〜６０７）を、１〜（Ｍ−β）回
の繰り返しを実行する前半ループ（６２４〜６２７）
と、（Ｍ−β＋１）〜Ｍ回の繰り返しを実行する後半ル
ープ（６２８〜６３０）の２つのループに分割し、前半
ループ（６２４〜６２７）と後半ループ（６２８〜６３
０）の間に、プリフェッチ命令（６２７）を挿入する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、計算機利用技術に
おけるコンパイル方法に関し、特に、プリフェッチ命令
をコードに挿入することによりキャッシュミスの削減を
図るソフトウェアプリフェッチ方法に関する。

【０００２】

【従来の技術】近年、命令レベルの並列度や動作周波数
の向上によってマイクロプロセッサの性能は飛躍的に向
上している。これに対して、計算機の主記憶を構成する
ＤＲＡＭの性能向上はプロセッサ性能の向上に比べて低
いレベルに留まっている。この結果、主記憶参照に要す
るサイクル数（メモリレイテンシ）は増加する傾向にあ
る。

【０００３】これに対して、従来のシステムでは、デー
タ参照の局所性に着目して、主記憶と比較して高速な少
容量のメモリ（キャッシュ）をプロセッサと主記憶の間
に配置し、最近参照したデータをキャッシュ上に置くこ
とによって、主記憶参照の回数を減らし、全体として主
記憶参照に要する時間を短縮するという方式をとってい
た。ところが、数値計算処理などの大規模なデータを使
用する計算では、データ参照の局所性が低いためキャッ
シュミスが多発し、主記憶参照によって生じる待ち時間
によってプログラムの性能が大幅に低下してしまうとい
う問題があった。

【０００４】このような大規模データに対するキャッシ
ュミスの増加に対処するため、例えば、文献「T.C.Mowr
y 他,"Design and Evaluation of a Compiler Algorith
ms for Prefetching", Proceedings of the 5th Intern
ational Conference on Architectural Support for Pr
ogramming Languages and Operating Systems, pp.62-7
3, 1992」に記載されているように、主記憶からキャッ
シュへデータを先行的に読み出す特別な命令（プリフェ
ッチ命令）をプロセッサの命令セットに用意し、コンパ
イラによってプログラム中にプリフェッチ命令を挿入す
る方式（ソフトウェアプリフェッチ）が検討されてい
る。このプリフェッチ命令を利用すれば、後続のループ
繰り返し等で使用するデータを予め主記憶からキャッシ
ュへ読み込みながら、同時に別の演算を行うことがで
き、これによって主記憶参照による待ち時間を隠蔽する
ことができる。

【０００５】図１１は、従来のソフトウェアプリフェッ
チ方法の例を示す図である。同図（ａ）は、コンパイル
処理の対象となるＦＯＲＴＲＡＮで記述されたソースプ
ログラムを表す。

【０００６】ここでは、同図（ａ）に示すプログラムに
おいて、配列要素Ａ（ｉ）の参照（５０４）について、
プリフェッチ命令を挿入する場合を考える。同図（ａ）
に示すように、ｉ番めのループ繰り返しで配列要素Ａ
（ｉ）を参照するようなループ（５０３〜５０５）があ
った場合、まず、ループの１回の繰り返しにかかる実行
サイクル数ｃを見積もり、データをメモリからキャッシ
ュに移動するのに要するサイクル数（メモリレイテン
シ）Ｌをｃで割った値α=［Ｌ／ｃ］（ここで、［］
は、小数点以下切り上げを表す記号）を計算する。そし
て、ｉ回目の繰り返しで配列要素Ａ（ｉ＋α）をプリフ
ェッチする命令を配列要素Ａ（ｉ）の直前に挿入する。

【０００７】同図（ｂ）は、プリフェッチ命令（５０
９）を挿入した後のプログラムをソースコードイメージ
で表したものである。このようにα回後の繰り返しで参
照するデータに対して予めプリフェッチ命令を発行して
おくことにより、L（＝ｃ＊α）サイクル後にそのデー
タを参照するときは当該データが既にキャッシュに到着
しているので、キャッシュヒットとなる。これによりキ
ャッシュミスによるプログラム実行性能の低下が防止で
きる。

【０００８】

【発明が解決しようとする課題】上記文献に示されてい
るソフトウェアプリフェッチ方法では、プリフェッチし
ようとする配列の参照が最内側ループ（すなわち、その
内側に他のループを含まないループ）にあるような単純
な場合のみを仮定している。

【０００９】前述したソフトウェアプリフェッチ方法
を、プリフェッチの対象とする配列参照を有するループ
の内側にさらに別のループがある場合に適用すると、プ
リフェッチしたデータが、内側ループの実行によりキャ
ッシュから追い出されてしまう恐れがある。

【００１０】図１２は、このような場合のソフトウェア
プリフェッチ方法の例を示す図である。同図（ａ）は、
コンパイル処理の対象となるＦＯＲＴＲＡＮで記述され
たソースプログラムを示す。同図（ａ）に示したプログ
ラムにおいて、配列参照Ａ（ｉ）（６０８）をプリフェ
ッチの対象とした場合、同図（ｂ）のようにプリフェッ
チ命令（６１７）が挿入される。つまり、ループのｉ番
めの繰り返しで配列要素Ａ（ｉ＋α）をプリフェッチし
ている。しかし、このプリフェッチ命令の発行の後、次
以降のｉの繰り返しで、内側ループ（６１４〜６１６）
の実行がされるので、そこで参照されるデータＢ（ｊ，
ｉ）と、データＡ（ｉ＋α）との間でキャッシュライン
の競合が発生すると、プリフェッチによってキャッシュ
にロードされたデータＡ（ｉ＋α）がキャッシュから追
い出されてしまい、実際に値を使用するときはキャッシ
ュミスを起こすことになり、プリフェッチの効果がなく
なることになる。

【００１１】本発明の目的は、最内側ループ中にないデ
ータの参照に対して、プリフェッチの効果を得ることが
できるソフトウェアプリフェッチ方法を提供することに
ある。

【００１２】

【課題を解決するための手段】本発明に係るソフトウェ
アプリフェッチ方法は、プリフェッチ命令を持つプロセ
ッサに対するオブジェクトコードを生成するコンパイラ
におけるソフトウェアプリフェッチ方法である。そし
て、プリフェッチの対象とするメモリ参照を含む第１の
ループがその内側に第２のループを有する場合に、当該
第２のループのループ繰り返し１回あたりの実行サイク
ル数と、データをプリフェッチするのに要するサイクル
数であるメモリレイテンシとに基づいて、当該メモリレ
イテンシに相当する第２のループの繰り返し回数βを求
め、前記第２のループを、終わりのβ回を実行する後半
ループと、その前までの繰り返しを実行する前半ループ
とに分割し、前半ループと後半ループの間にプリフェッ
チ命令を挿入することを特徴とする。

【００１３】この場合、プリフェッチ命令とメモリ参照
との間に実行される第２のループは、β回しか回らず、
βは一般に分割前の元のループ繰り返し回数に比べて小
さいので、その間に参照されるデータは一般に小さく、
プリフェッチしたデータがキャッシュから追い出される
可能性は少なくなる。また、ループのβ回の実行サイク
ル数は、メモリレイテンシ、すなわち、データをメモリ
からプリフェッチをするのに要するサイクル数に相当す
るので、データを参照するときにプリフェッチデータの
到着が間に合っていないということがない。

【００１４】なお、第２のループが多重ループになって
いる場合には、第２のループを分割してできた後半ルー
プの内側ループをさらに分割することにより、より適当
な位置にプリフェッチ命令を挿入するようにしてもよ
い。

【００１５】また、本発明に係る第２のソフトウェアプ
リフェッチ方法は、プリフェッチの対象とするメモリ参
照を含む第１のループがその内側に第２のループを有す
る場合に、当該第２のループのループ繰り返し１回あた
りの実行サイクル数と、データをプリフェッチするのに
要するサイクル数であるメモリレイテンシとに基づい
て、当該メモリレイテンシに相当する第２のループの繰
り返し回数βを求め、前記第２のループの最後からβ回
目の繰り返しのときにプリフェッチ命令を実行する、条
件付きのプリフェッチ命令実行コードを挿入することを
特徴とする。

【００１６】また、本発明に係る第３のソフトウェアプ
リフェッチ方法は、プリフェッチの対象とするメモリ参
照を含むプログラム手続き内にループがある場合に、当
該ループのループ繰り返し１回あたりの実行サイクル数
と、データをプリフェッチするのに要するサイクル数で
あるメモリレイテンシとに基づいて、当該メモリレイテ
ンシに相当する前記ループの繰り返し回数βを求め、前
記ループを、終わりのβ回を実行する後半ループと、そ
の前までの繰り返しを実行する前半ループとに分割し、
前半ループと後半ループの間にプリフェッチ命令を挿入
することを特徴とする。

【００１７】また、本発明に係る第４のソフトウェアプ
リフェッチ方法は、プリフェッチの対象とするメモリ参
照を有するプログラム手続き内にループが含まれる場合
に、当該ループのループ繰り返し１回あたりの実行サイ
クル数と、データをプリフェッチするのに要するサイク
ル数であるメモリレイテンシとに基づいて、当該メモリ
レイテンシに相当する前記ループの繰り返し回数βを求
め、前記ループの最後からβ回目の繰り返しのときにプ
リフェッチ命令を実行する、条件付きのプリフェッチ命
令実行コードを挿入することを特徴とする。

【００１８】本発明に係るコンパイル装置は、プリフェ
ッチ命令を持つプロセッサに対するオブジェクトコード
を生成する装置である。そして、プリフェッチの対象と
するメモリ参照を含む第１のループがその内側に第２の
ループを有する場合に、当該第２のループのループ繰り
返し１回あたりの実行サイクル数と、データをプリフェ
ッチするのに要するサイクル数であるメモリレイテンシ
とに基づいて、当該メモリレイテンシに相当する第２の
ループの繰り返し回数βを求める手段と、前記第２のル
ープを、終わりのβ回を実行する後半ループと、その前
までの繰り返しを実行する前半ループとに分割する手段
と、前半ループと後半ループの間にプリフェッチ命令を
挿入する手段とを備えることを特徴とする。

【００１９】また、本発明に係る第２のコンパイル装置
は、プリフェッチの対象とするメモリ参照を含む第１の
ループがその内側に第２のループを有する場合に、当該
第２のループのループ繰り返し１回あたりの実行サイク
ル数と、データをプリフェッチするのに要するサイクル
数であるメモリレイテンシとに基づいて、当該メモリレ
イテンシに相当する第２のループの繰り返し回数βを求
める手段と、前記第２のループの最後からβ回目の繰り
返しのときにプリフェッチ命令を実行する、条件付きの
プリフェッチ命令実行コードを挿入する手段とを備える
ことを特徴とする。

【００２０】また、本発明に係る第３のコンパイル装置
は、プリフェッチの対象とするメモリ参照を含むプログ
ラム手続き内にループがある場合に、当該ループのルー
プ繰り返し１回あたりの実行サイクル数と、データをプ
リフェッチするのに要するサイクル数であるメモリレイ
テンシとに基づいて、当該メモリレイテンシに相当する
前記ループの繰り返し回数βを求める手段と、前記ルー
プを、終わりのβ回を実行する後半ループと、その前ま
での繰り返しを実行する前半ループとに分割する手段
と、前半ループと後半ループの間にプリフェッチ命令を
挿入する手段とを備えることを特徴とする。

【００２１】また、本発明に係る第４のコンパイル装置
は、プリフェッチの対象とするメモリ参照を有するプロ
グラム手続き内にループが含まれる場合に、当該ループ
のループ繰り返し１回あたりの実行サイクル数と、デー
タをプリフェッチするのに要するサイクル数であるメモ
リレイテンシとに基づいて、当該メモリレイテンシに相
当する前記ループの繰り返し回数βを求める手段と、前
記ループの最後からβ回目の繰り返しのときにプリフェ
ッチ命令を実行する、条件付きのプリフェッチ命令実行
コードを挿入する手段とを備えることを特徴とする。

【００２２】本発明に係る第５のコンパイル装置は、ソ
ースコードが、第１のループを有し、更に、当該第１の
ループの内側に、プリフェッチの対象とされるメモリ参
照及び第２のループを有する場合、前記第２のループに
対応する前半ループ及び後半ループと、前半ループと後
半ループの間にプリフェッチ命令とを有し、前記後半ル
ープの繰り返し回数は、データをプリフェッチするのに
要するサイクル数に相当する回数であるオブジェクトコ
ードを生成することを特徴とする。

【００２３】また、本発明に係る第６のコンパイル装置
は、ソースコードが、第１のループを有し、更に、当該
第１のループの内側に、プリフェッチの対象とされるメ
モリ参照及び第２のループを有する場合、前記第２のル
ープの最後からβ回の繰り返しのときにプリフェッチ命
令を実行するコードを有し、前記βは、データをプリフ
ェッチするのに要するサイクル数に相当する第２のルー
プの繰り返し回数であるオブジェクトコードを生成する
ことを特徴とする。

【００２４】また、本発明に係る第７のコンパイル装置
は、ソースコードが、プログラム手続きを有し、更に、
当該プログラム手続き内に、プリフェッチの対象とする
メモリ参照及びループを有する場合、前記ループに対応
する前半ループ及び後半ループと、前半ループと後半ル
ープの間にプリフェッチ命令とを有し、前記後半ループ
の繰り返し回数は、データをプリフェッチするのに要す
るサイクル数に相当する回数であるオブジェクトコード
を生成することを特徴とする。

【００２５】また、本発明に係る第８のコンパイル装置
は、ソースコードが、プログラム手続きを有し、更に、
当該プログラム手続き内に、プリフェッチの対象とする
メモリ参照及びループを有する場合、前記ループの最後
からβ回目の繰り返しのときに、プリフェッチ命令を実
行するコードを有し、前記βは、データをプリフェッチ
するのに要するサイクル数に相当する前記ループの繰り
返し回数であるオブジェクトコードを生成することを特
徴とする。

【００２６】本発明に係る第１の記録媒体は、プリフェ
ッチ命令を持つプロセッサに対するオブジェクトコード
を生成するコンパイラを記録した記録媒体である。そし
て、当該コンパイラは、プリフェッチの対象とするメモ
リ参照を含む第１のループがその内側に第２のループを
有する場合に、当該第２のループのループ繰り返し１回
あたりの実行サイクル数と、データをプリフェッチする
のに要するサイクル数であるメモリレイテンシとに基づ
いて、当該メモリレイテンシに相当する第２のループの
繰り返し回数βを求めるステップと、前記第２のループ
を、終わりのβ回を実行する後半ループと、その前まで
の繰り返しを実行する前半ループとに分割するステップ
と、前半ループと後半ループの間にプリフェッチ命令を
挿入するステップとを備えることを特徴とする。

【００２７】また、本発明に係る第２の記録媒体は、第
２のコンパイラを記録した記録媒体である。この第２の
コンパイラは、プリフェッチの対象とするメモリ参照を
含む第１のループがその内側に第２のループを有する場
合に、当該第２のループのループ繰り返し１回あたりの
実行サイクル数と、データをプリフェッチするのに要す
るサイクル数であるメモリレイテンシとに基づいて、当
該メモリレイテンシに相当する第２のループの繰り返し
回数βを求めるステップと、前記第２のループの最後か
らβ回目の繰り返しのときにプリフェッチ命令を実行す
る、条件付きのプリフェッチ命令実行コードを挿入する
ステップとを備えることを特徴とする。

【００２８】また、本発明に係る第３の記録媒体は、第
３のコンパイラを記録した記録媒体である。この第３の
コンパイラは、プリフェッチの対象とするメモリ参照を
含むプログラム手続き内にループがある場合に、当該ル
ープのループ繰り返し１回あたりの実行サイクル数と、
データをプリフェッチするのに要するサイクル数である
メモリレイテンシとに基づいて、当該メモリレイテンシ
に相当する前記ループの繰り返し回数βを求めるステッ
プと、前記ループを、終わりのβ回を実行する後半ルー
プと、その前までの繰り返しを実行する前半ループとに
分割するステップと、前半ループと後半ループの間にプ
リフェッチ命令を挿入するステップとを備えることを特
徴とする。

【００２９】また、本発明に係る第４の記録媒体は、第
４のコンパイラを記録した記録媒体である。この第４の
コンパイラは、プリフェッチの対象とするメモリ参照を
有するプログラム手続き内にループが含まれる場合に、
当該ループのループ繰り返し１回あたりの実行サイクル
数と、データをプリフェッチするのに要するサイクル数
であるメモリレイテンシとに基づいて、当該メモリレイ
テンシに相当する前記ループの繰り返し回数βを求める
ステップと、前記ループの最後からβ回目の繰り返しの
ときにプリフェッチ命令を実行する、条件付きのプリフ
ェッチ命令実行コードを挿入するステップとを備えるこ
とを特徴とする。

【００３０】本発明に係る第５及び第６の記録媒体は、
オブジェクトコードを記録した記録媒体である。そし
て、第５の記録媒体において、前記オブジェクトコード
は、１つのループ処理に相当する前半ループ及び後半ル
ープと、後半ループのうしろにメモリ参照をする命令
と、前半ループと後半ループの間に、前記メモリ参照に
ついてのプリフェッチ命令とを有し、前記後半ループの
繰り返し回数は、前記オブジェクトコードを実行可能な
コンピュータにおいて、データをプリフェッチするのに
要するサイクル数に相当する回数であることを特徴とす
る。

【００３１】また、第６の記録媒体において、前記オブ
ジェクトコードは、ループと、当該ループのうしろに、
メモリ参照をする命令と、前記ループの最後からβ回目
の繰り返しのときに、前記メモリ参照についてのプリフ
ェッチ命令を実行するコードとを有し、前記βは、前記
オブジェクトコードを実行可能なコンピュータにおい
て、データをプリフェッチするのに要するサイクル数に
相当する前記ループの繰り返し回数であることを特徴と
する。

【００３２】なお、前記記録媒体は、コンピュータが読
みとり可能な任意の記録媒体であり、例えば、半導体メ
モリ、フロッピーディスク、ＣＤ−ＲＯＭ、磁気ディス
ク、光磁気ディスク等が該当する。

【００３３】

【発明の実施の形態】以下、本発明の実施の形態につい
て図面を参照して詳細に説明する。

【００３４】図１は、本発明によるコンパイラが稼動す
る計算機システムの構成を示す図である。同図に示すよ
うに、本計算機システムは、ＣＰＵ１０１、ディスプレ
イ装置１０２、キーボード１０３、主記憶装置１０４、
及び外部記憶装置１０５を備える。

【００３５】ＣＰＵ１０１は、主記憶装置１０４にロー
ドされたコンパイラ１０８を実行することにより、コン
パイル処理を行う。

【００３６】ディスプレイ装置１０２は、例えば、ＣＲ
Ｔ表示装置や液晶表示装置等で構成され、コンパイルの
終了やエラー等をユーザに知らせる各種メッセージ等を
表示する。

【００３７】キーボード１０３は、ユーザが、ソースプ
ログラム１０６のコーディングを行ったり、コンパイラ
１０８を起動するコマンドを入力する際等に使われる入
力装置である。

【００３８】主記憶装置１０４は、例えば、ＤＲＡＭ等
の半導体メモリで構成され、コンパイラ１０８や、コン
パイル処理過程で必要となる中間コード１０９およびル
ープ表１１０等を格納する。

【００３９】外部記憶装置１０５は、例えば、磁気ディ
スク等で構成され、ソースプログラム１０６、オブジェ
クトプログラム１０７等を格納する。

【００４０】図１に示したような計算機システムにおい
て、ユーザがキーボード１０３等を使ってコンパイル処
理の実行を指示すると、コンパイラ１０８は、ソースプ
ログラム１０６を読み込んで、コンパイル処理を行い、
対応するオブジェクトプログラム１０７を生成する。

【００４１】図２は、コンパイラ１０８のコンパイル処
理の流れを示すフローチャートである。コンパイラ１０
８は、まず、構文解析処理を行う（Ｓ２０１）。ここで
は、ソースプログラム１０６を読み込み、字句解析、構
文解析、意味解析等を行って、コンパイラ内部で処理可
能な中間コード１０９を作成する。構文解析処理の詳細
については、例えば、「エイホ、セシィ、ウルマン著：
コンパイラＩ（サイエンス社、１９９０年）」の３０頁
〜７４頁に記載されている。

【００４２】次に、コンパイラ１０８はループ解析処理
を行う（Ｓ２０２）。ここでは、プログラムに含まれる
ループの集合や各ループの間の関係等が求められ、ルー
プ表１１０に記録される。ループ表１１０に記録された
情報は、後のコンパイル処理において適宜参照される。
ループ解析処理の詳細については、例えば、「エイホ、
セシィ、ウルマン著：コンパイラII（サイエンス社、１
９９０年）」の７３４頁〜７３７頁に記載されている。

【００４３】次に、コンパイラ１０８は、各ループに対
して、ソフトウェアプリフェッチ処理を行う（Ｓ２０３
〜Ｓ２０５）。そのため、まず、未処理のループがある
か否かを調べ（Ｓ２０３）、未処理のループがあれば
（Ｓ２０３：ｙｅｓ）、未処理のループを１つ取り出し
て、処理対象ループｎとする（Ｓ２０４）。そして、処
理対象ループｎ中の配列参照に対してソフトウェアプリ
フェッチ処理を行う（Ｓ２０５）。このソフトウェアプ
リフェッチ処理の詳細については後述する。ソフトウェ
アプリフェッチ処理が終了すると、他の未処理ループに
ついての処理に進む（Ｓ２０３）。

【００４４】そして、すべてのループについて処理を終
了すると（Ｓ２０３：ｎｏ）、オブジェクトコードを生
成し（Ｓ２０６）、コンパイル処理を終了する。オブジ
ェクトコード生成処理の詳細については、例えば、前記
「コンパイラII」の６２４頁〜７０７頁に記載されてい
る。

【００４５】図３は、前述したステップＳ２０５におけ
るソフトウェアプリフェッチ処理の流れを示す図であ
る。ここでは、処理対象ループｎの中の配列参照に対し
て、適切な位置にプリフェッチ命令を挿入する処理を行
う。

【００４６】まず、処理対象ループｎ中に未処理かつプ
リフェッチの対象とすべき配列参照があるか否かを調べ
る（Ｓ３０１）。ある配列参照をプリフェッチの対象と
すべきか否かは、例えば、その配列参照のメモリアドレ
スを予め求めることができるか否か、配列の添字がルー
プ制御変数の線形関数となっているか否か、配列データ
が既にキャッシュにあるか否か、等に基づいて判断す
る。

【００４７】その結果、未処理かつプリフェッチの対象
とすべき配列参照があれば（Ｓ３０１：ｙｅｓ）、その
配列参照を１つ取り出して、処理対象配列参照ｓとする
（Ｓ３０２）。次に、変数Ｌに、メモリレイテンシ（プ
リフェッチに要するサイクル数）を代入する（Ｓ３０
３）。Ｌに代入する値は、ターゲットマシンによって、
適当な値がコンパイラに予め与えられるが、コンパイラ
起動時等に、ユーザがパラメータとして与えるようにし
てもよい。

【００４８】次に、処理対象ループｎが最内側ループで
あるか否かを調べる（Ｓ３０４）。処理対象ループｎが
最内側ループであるか否かは、例えば、ループ表１１０
を参照して調べる。その結果、処理対象ループｎが最内
側ループであれば（Ｓ３０４：ｙｅｓ）、従来と同様の
方法で、プリフェッチ命令の挿入を行う（Ｓ３０５、Ｓ
３０６）。すなわち、まず、処理対象ループｎのループ
１回あたりの予測実行サイクル数ｃを求め、データをプ
リフェッチするのに必要なサイクル数（メモリレイテン
シ）Ｌに相当するループ回数α＝［Ｌ／ｃ］を計算する
（Ｓ３０５）。そして、処理対象配列参照ｓの添字式中
のループ繰り返し変数ｉをｉ＋αに置き換えた配列要素
をプリフェッチする命令を生成し、処理対象配列参照ｓ
の直前に挿入する（Ｓ３０６）。

【００４９】一方、処理対象ループｎが最内側ループで
ない場合は（Ｓ３０４：ｎｏ）、従来とは異なる方法
で、処理対象配列参照ｓのプリフェッチ命令を挿入すべ
き位置を求める処理を行う（Ｓ３０７）。このステップ
Ｓ３０７における処理の詳細については、後述する。プ
リフェッチ命令を挿入すべき位置が求まると、その位置
に、処理対象配列参照ｓをプリフェッチする命令を挿入
する（Ｓ３０８）。

【００５０】以上の処理Ｓ３０１〜Ｓ３０８を繰り返し
て、すべてのプリフェッチ対象となる配列参照について
処理を終了すると（Ｓ３０１：ｎｏ）、ソフトウェアプ
リフェッチ処理を終了する。

【００５１】次に、ステップＳ３０７におけるプリフェ
ッチ命令を挿入すべき位置を求める処理について詳細に
説明する。図４は、ステップＳ３０７における処理の流
れを示す図である。ここでは、処理対象配列参照ｓのＬ
サイクル前に実行される位置を求める。その際、必要に
応じてループの分割を行う。

【００５２】まず、処理対象ループｎ中の処理対象配列
参照ｓの直前にあるループを分割対象ループｍとして取
り出す（Ｓ４０１）。ここで、処理対象配列参照ｓの前
にループが存在しない場合は、処理対象ループｎ中の最
後のループを分割対象ループｍとして取り出す。なお、
ここでの処理対象ループｎは、最内側ループではないの
で、処理対象ｎループ中には、必ずループが存在する。

【００５３】次に、変数ｋの初期値として、Ｌの値を代
入する（Ｓ４０２）。そして、分割対象ループｍの全体
（全繰り返し）の予測実行サイクル数を求め、それをｄ
とする（Ｓ４０３）。分割対象ループｍの繰り返し数が
コンパイル時に不明で、全体の予測実行サイクル数が求
まらないときは、ｄ←∞（例えば、ｄとしてとりえない
特定の値）としておく。

【００５４】次に、ｄがｋより大きいか否かを調べる
（Ｓ４０４）。その結果、ｄがｋ以下の場合は（Ｓ４０
４：ｎｏ）、現在の分割対象ループｍの分割は行わず、
分割対象ループｍを、現在の分割対象ループｍの直前の
ループに変更し、また、ｋから現在の分割対象ループｍ
の全体の予測実行サイクル数ｄを減算する（Ｓ４１
０）。なお、分割対象ループｍの前にループがない場合
は、処理対象ループｎ中の最後のループを新たな分割対
象ループｍとして選択する。そして、ステップＳ４０３
〜Ｓ４０４の処理を再度行う。

【００５５】一方、ｄがｋより大きければ（Ｓ４０４：
ｙｅｓ）、分割対象ループｍの分割を行うため、まず、
分割対象ループｍのループ１回分の予測実行サイクル数
ｅを求め、ｋに相当する分割対象ループｍのループ回数
β＝［ｋ／ｅ］を計算する（Ｓ４０５）。

【００５６】そして、分割対象ループｍを、最後のβ回
のみを実行する後半ループｍ２と、その前までの繰り返
しを実行する前半ループとに分割する（Ｓ４０６）。す
なわち、分割対象ループｍの繰り返し回数をＮとしたと
き、１〜（Ｎ−β）回の繰り返しを実行する前半ループ
ｍ１と、（Ｎ−β＋１）〜Ｎ回の繰り返しを実行する後
半ループｍ２の２つのループに分割する。なお、β＝１
の場合は、後半ループｍ２は１回しか実行されないので
ループにしなくてもよい。また、ループの分割にあわせ
て、ループ表１１０の更新を行う。

【００５７】次に、後半ループｍ２が多重ループである
か否か、すなわち、その内側に他のループを含むループ
であるかを否かを調べる（Ｓ４０７）。その結果、後半
ループｍ２が多重ループである場合は（Ｓ４０７：ｙｅ
ｓ）、更なるループ分割を行うため、後半ループｍ２の
内側ループを、分割対象ループｍとして、ステップＳ４
０３〜Ｓ４０７の処理を再度行う。なお、後半ループｍ
２が複数の（同階層の）内側ループを有する場合は、一
番最後のループを分割対象ループｍとする。

【００５８】一方、後半ループｍ２が多重ループでなけ
れば（Ｓ４０７：ｎｏ）、これ以上、ループ分割をする
ことはできないので、その時点での前半ループｍ１と後
半ループｍ２の間を、プリフェッチ命令を挿入する位置
とし（Ｓ４０９）、処理を終了する。

【００５９】次に、上述したコンパイラ１０８の処理
を、具体例に基づいて説明する。まず、図５（ａ）に示
したソースプログラム（図１２（ａ）と同じソースプロ
グラム）をコンパイルする場合について説明する。

【００６０】図５（ａ）に示したプログラムのコンパイ
ルが指示されると、コンパイラ１０８は、ソースプログ
ラムを読み込み、構文解析処理Ｓ２０１を行った後、ル
ープ解析処理Ｓ２０２を行う。

【００６１】図５（ｂ）は、このループ解析処理Ｓ２０
２によって作成されるループ表１１０の構成例を示す図
である。同図に示すように、ループ表１１０は、各ルー
プに対して、ループ番号７０１、ループ繰り返し変数７
０２、繰り返し回数７０３、内側ループ７０４、直前ル
ープ７０５、直後ループ７０６、予測実行サイクル７０
７等の情報を格納する。

【００６２】図５（ａ）のプログラムには、ループが２
つあり、外側ループ（６０３〜６０９）には、「１」、
内側ループ（６０５〜６０７）には、「２」というルー
プ番号が付けられている。なお、以下では、ループ番号
が「１」のループをループ１、ループ番号が「２」のル
ープをループ２、等と呼ぶ。

【００６３】ループ１のループ繰り返し変数は「ｉ」、
繰り返し回数は「Ｎ」、内側ループは、ループ「２」、
直前ループ、直後ループは、「なし」である。また、ル
ープ２のループ繰り返し変数は「ｊ」、繰り返し回数は
「Ｍ」、内側ループ、直前ループ、直後ループはいずれ
も「なし」である。

【００６４】予測実行サイクル数７０７には、各ループ
のループ１回あたりの予測実行サイクル数が格納され
る。この予測実行サイクル数は、ループ内の命令数と各
命令の実行サイクル数、内側ループの繰り返し回数等か
ら計算される。図５の例では、ループ２のループ１回あ
たりの予測実行サイクルを「ｃ」と見積り、ループ１の
ループ１回あたりの予測実行サイクルは、ループ２以外
の部分の実行サイクル数を無視して、「ｃ＊Ｍ」と計算
している。

【００６５】以上のようなループ表の作成を終了する
と、続いて、コンパイラ１０８は、まず、ループ１を処
理対象ループｎとして取り出し（Ｓ２０４）、ループ１
に対してソフトウェアプリフェッチ処理を行う（Ｓ２０
５）。

【００６６】そのため、まず、処理対象ループｎである
ループ１内の未処理の配列参照Ａ（ｉ）を処理対象配列
参照ｓとして取り出す（Ｓ３０２）。また、変数Ｌに、
ターゲットマシンのメモリレイテンシを代入する（Ｓ３
０３）。

【００６７】次に、ループ１が最内側ループか否かを調
べる（Ｓ３０４）。ループ１は、内側ループとして、ル
ープ２を有し、最内側ループではないので（Ｓ３０４：
ｎｏ）、次に、プリフェッチ命令を挿入すべき位置を求
める（Ｓ３０７）。

【００６８】そのため、まず、処理対象配列参照ｓであ
るＡ（ｉ）の直前のループであるループ２を分割対象ル
ープｍとする（Ｓ４０１）。また、ｋにＬを代入する
（Ｓ４０２）。そして、分割対象ループｍであるループ
２の全体予測実行サイクル数を求める（Ｓ４０３）。こ
の場合、ループ２の繰り返し回数Ｍは、コンパイル時に
は不明なので、ｄ←∞とする。

【００６９】そして、ｄがｋより大きいか否かを調べる
（Ｓ４０４）。この場合、ｄ（＝∞）はｋ（＝Ｌ）より
大きいので（Ｓ４０４：ｙｅｓ）、現時点の分割対象ル
ープｍであるループ２の分割を行うため、ループ２のル
ープ１回分の予測実行サイクル数ｃを求め、β＝［Ｌ／
ｃ］を計算する（Ｓ４０５）。そして、ループ２を、１
〜（Ｍ−β）回を実行する前半ループｍ１と（Ｍ−β＋
１）〜Ｍ回を実行する後半ループｍ２とに分割する（Ｓ
４０６）。

【００７０】そして、後半ループｍ２が多重ループであ
るか否かを調べる（Ｓ４０７）。この場合、後半ループ
ｍ２は多重ループではないので（Ｓ４０７：ｎｏ）、現
時点での前半ループｍ１と後半ループｍ２の間をプリフ
ェッチ命令を挿入すべき位置とする（Ｓ４０９）。そし
て、その位置にプリフェッチ命令「prefetch（Ａ
（ｉ））」を挿入する（Ｓ３０８）。

【００７１】図５（ｃ）は、プリフェッチ命令を挿入し
た後のプログラムをソースコードイメージで示したもの
である。同図（ｃ）に示すように、同図（ａ）のループ
（６０５〜６０７）が、始めの（Ｍ−β）回を実行する
前半ループ（６２４〜６２６）と終わりのβ回を実行す
る後半ループ（６２８〜６３０）の２つに分割されて、
その間に、配列参照Ａ（ｉ）のプリフェッチ命令（６２
７）が挿入されている。

【００７２】このようにすると、プリフェッチ命令（６
２７）とデータ参照（６３１）の間に実行されるループ
は、β回しか回らず、βは一般に元のループ回数Ｍに比
べて小さいので、その間に参照されるデータ量は一般に
小さく、プリフェッチしたデータがキャッシュから追い
出される可能性は低くなる。また、ループのβ回の実行
には、Ｌサイクル、すなわち、データをメモリからプリ
フェッチをするのに要するのと等しいサイクル数が必要
となるので、データを参照するときにプリフェッチデー
タの到着が間に合っていないということがない。

【００７３】次に、コンパイラ１０８のコンパイル処理
を、別の具体例に基づいて説明する。図６（ａ）は、コ
ンパイル処理の対象とされる別のソースプログラムを示
す図である。ここでは、配列参照Ａ（ｉ１）（８１１）
に対してプリフェッチを行う場合を考える。

【００７４】図６（ｂ）は、同図（ａ）のプログラムに
対して、コンパイラ１０８が作成するループ表１１０の
構成例を示す図である。同図（ａ）のプログラムにはル
ープが４つあり、ループ（８０２〜８１２）がループ
１、ループ（８０３〜８０７）がループ２、ループ（８
０４〜８０６）がループ３、ループ（８０８〜８１０）
がループ４とされる。

【００７５】また、ループ１のループ繰り返し変数は
「ｉ１」、繰り返し回数は「１０」、内側ループは、ル
ープ「２」、「４」、直前ループ、直後ループは、「な
し」である。ループ２のループ繰り返し変数は「ｉ
２」、繰り返し回数は「２０」、内側ループは、ループ
「３」、直前ループは「なし」、直後ループは、ループ
「４」である。ループ３のループ繰り返し変数は「ｉ
３」、繰り返し回数は「３０」、内側ループ、直前ルー
プ、直後ループは、いずれも「なし」である。ループ４
のループ繰り返し変数は「ｉ４」、繰り返し回数は「４
０」、内側ループ、直後ループはいずれも「なし」、直
前ループは、ループ「２」である。

【００７６】また、ループ３及びループ４のループ１回
あたりの予測実行サイクルを、それぞれ、「５」及び
「１」と見積り、ループ２のループ１回あたりの予測実
行サイクルを「１５０」（＝５＊３０）、ループ１のル
ープ１回あたりの予測実行サイクルを、「３０４０」
（＝１５０＊２０＋１＊４０）と算出している。

【００７７】このようなループ表１１０の作成を終了す
ると、コンパイラ１０８は、まず、処理対象ループｎと
して、ループ１を取り出し（Ｓ２０４）、ループ１に対
してソフトウェアプリフェッチ処理を行う（Ｓ２０
５）。

【００７８】そのため、まず、処理対象配列参照ｓとし
て、Ａ（ｉ１）を取り出す（Ｓ３０２）。また、Ｌにタ
ーゲットマシンにおけるメモリレイテンシを代入する
（Ｓ３０３）。ここでは、Ｌ＝１００とする。次に、処
理対象ループｎであるループ１が最内側ループか否かを
調べる（Ｓ３０４）。ループ１は、内側ループとしてル
ープ２，４を含み、最内側ループではないので、続い
て、プリフェッチ命令を挿入すべき位置を求める（Ｓ３
０７）。

【００７９】そのために、まず、処理対象配列参照ｓで
あるＡ（ｉ１）の直前のループ、すなわち、ループ４を
分割対象ループｍとする（Ｓ４０１）。またｋにＬ（＝
１００）を代入する（Ｓ４０２）。

【００８０】次に、分割対象ループｍであるループ４の
全体予測実行サイクル数ｄを求める（Ｓ４０３）。ルー
プ４のループ１回分の予測実行サイクルは、「１」で、
ループ繰り返し回数が「４０」なので、ｄ←４０（＝１
＊４０）となる。

【００８１】次に、ｄがｋより大きいか否かを調べる
（Ｓ４０４）。この場合、ｄ（＝４０）は、ｋ（＝１０
０）より小さいので（Ｓ４０４：ｎｏ）、分割対象ルー
プｍを、現在の分割対象ループであるループ４の直前の
ループ、すなわち、ループ２とし、また、ｋ←６０（＝
ｋ−ｄ＝１００−４０）とする（Ｓ４１０）。

【００８２】そして、改めて、現在の分割対象ループｍ
であるループ２の全体予測実行サイクル数ｄを求める
（Ｓ４０３）。ループ２のループ１回分の予測実行サイ
クルは「１５０」で、ループ繰り返し回数が「２０」な
ので、ｄ←３０００（＝１５０＊２０）となる。

【００８３】次に、ｄがｋより大きいか否か調べる（Ｓ
４０４）。この場合、ｄ（＝３０００）は、ｋ（＝６
０）より大きいので、分割対象ループｍであるループ２
の分割を行うため、次に、ループ２のループ１回あたり
の予測実行サイクル数ｅ（＝１５０）を求め、β＝［ｋ
／ｅ］＝［６０／１５０］＝１を計算する（Ｓ４０
５）。次に、その結果に基づいて、ループ２を２つのル
ープに分割する（Ｓ４０６）。ループ２の繰り返し回数
は２０、β＝１なので、ループ２を１〜１９回を実行す
る前半ループｍ１と、最後の１回を実行する後半ループ
ｍ２に分割する。

【００８４】図７（ａ）は、図６（ａ）に示したプログ
ラムのループ２を、前半ループｍ１と後半ループｍ２に
分割した時点でのプログラムをソースコードイメージで
示したものである。同図に示すように、元のループ（８
０３〜８０７）が、前半ループ（９０３〜９０７）と、
後半ループ（９０８〜９１２）に分割されている。

【００８５】図７（ｂ）は、ループ２の分割に伴って、
コンパイラ１０８が更新した後のループ表１１０を示す
図である。同図（ａ）に示すように、ループ２の分割に
よって、２つのループが増えているが、ループ（９０８
〜９１２）がループ５、ループ（９０９〜９１１）がル
ープ６とされる。

【００８６】また、ループ５のループ繰り返し変数は
「ｉ２」、繰り返し回数は「１」、内側ループは、ルー
プ「６」、直前ループは、ループ「２」、直後ループ
は、ループ「４」、予測実行サイクルは、「１５０」と
なる。ループ６のループ繰り返し変数は「ｉ３」、繰り
返し回数は「３０」、内側ループ、直前ループ、直後ル
ープは、いずれも「なし」、予測実行サイクルは、
「５」となる。

【００８７】更に、ループ１の内側ループに、ループ
「５」が追加されており、ループ２の繰り返し回数及び
直後ループがそれぞれ、「１９」及びループ「５」に更
新され、ループ４の直前ループが、ループ「５」に更新
されている。

【００８８】コンパイラ１０８は、ループ２の分割を終
了すると、次に、後半ループｍ２であるループ５が多重
ループであるか否かを調べる（Ｓ４０７）。この場合、
ループ５は、内側ループとして、ループ６を含み、多重
ループあるので（Ｓ４０７：ｙｅｓ）、分割対象ループ
ｍを、ループ６に変える（Ｓ４０８）。

【００８９】その後、改めて、分割対象ループｍである
ループ６の全体予測実行サイクルを求める（Ｓ４０
３）。この場合、１５０（＝３０＊５）であるので、そ
れをｄとする。次に、ｄがｋより大きいか否かを調べる
（Ｓ４０４）。この場合、ｄ（＝１５０）は、ｋ（＝６
０）より大きいので（Ｓ４０４：ｙｅｓ）、ループ６の
分割を行うため、ループ６のループ１回あたりの予測実
行サイクル数ｅ（＝５）を求め、β＝［ｋ／ｅ］＝［６
０／５］＝１２を計算する（Ｓ４０５）。

【００９０】そして、ループ６を最後のβ回のみを実行
する後半ループｍ２と、その前までの繰り返しを実行す
る前半ループｍ１とに分割する（Ｓ４０６）。ループ６
の繰り返し回数は３０なので、ループ６を、１〜１８
（＝３０−１２）回実行する前半ループｍ１と、１９〜
３０回実行する後半ループｍ２に分割する。続いて、後
半ループｍ２が多重ループか否かを調べると（Ｓ４０
７）、そうではないので（Ｓ４０７：ｎｏ）、現時点で
の前半ループｍ１と後半ループｍ２の間をプリフェッチ
命令を挿入すべき位置とし（Ｓ４０９）、その位置に、
処理対象配列参照ｓであるＡ（ｉ１）についてのプリフ
ェッチ命令を挿入する（Ｓ３０８）。

【００９１】図８は、プリフェッチ命令を挿入した時点
でのプログラムをソースコードイメージで示したもので
ある。同図に示すように、前半ループ（１００９〜１０
１１）と後半ループ（１０１３〜１０１５）の間にプリ
フェッチ命令（１０１２）が挿入されている。なお、こ
の場合、ループ（１００８〜１０１６）は１回しか回ら
ないので、前述したように、ここはループにしなくても
よい。

【００９２】図８のプログラムでは、配列要素Ａ（ｉ
１）のプリフェッチ命令（１０１２）と配列要素Ａ（ｉ
１）の参照（１０２０）の間で、ループ（１０１３〜１
０１５）とループ（１０１７〜１０１９）が実行され
る。ループ（１０１３〜１０１５）の予測実行サイクル
数は、５＊（３０−１９＋１）＝６０であり、ループ
（１０１７〜１０１９）の予測実行サイクル数は、１＊
４０＝４０である。つまり、合計１００サイクルであ
り、メモリレイテンシＬと等しくなる。従って、データ
の参照にちょうど間に合うように、プリフェッチ命令が
発行されることになる。

【００９３】以上の実施形態では、プリフェッチ命令を
挿入するためにループを分割していたが、ループを分割
せず、ループ中に条件付きのプリフェッチ命令を挿入す
るようにしてもよい。

【００９４】図９は、図５（ａ）に示したプログラムに
おいて、ループを分割してプリフェッチ命令を挿入する
かわりに、ループ中に条件付きのプリフェッチ命令実行
コード（１１０６〜１１０７）を挿入した場合のプログ
ラムをソースコードイメージで示した図である。この場
合、制御変数ｊが（Ｍ−β＋１）と等しいとき、すなわ
ち最後からβ番めの繰り返しのときにＡ（ｉ）のプリフ
ェッチ命令が実行され、プリフェッチ命令が実行される
タイミングは、図５（ｃ）の場合と同じになる。このよ
うな処理を行うには、例えば、図４のステップＳ４０６
でループを分割するかわりに、プリフェッチ命令を発行
すべきループｍの繰り返し回数Ｎ−β＋１を記憶してお
いて、その後、その条件に該当するときに処理対象配列
参照ｓのプリフェッチ命令を実行するようなコードを挿
入するようにすればよい。

【００９５】また、以上の実施形態では、メモリ参照が
ループ内にある場合を対象にしていたが、ループ内にな
い場合に適用することもできる。図１０は、プログラム
手続き「subroutine f(A,B,i)」に対して、本発明を適
用した例を示す図である。

【００９６】ここでは、図１０（ａ）に示したプログラ
ム手続き内の配列参照Ａ（ｉ）（１２０７）に対して、
同図（ｂ）のように直前のループを分割してプリフェッ
チ命令（１２１５）を挿入している。このような処理に
よって、メモリレイテンシ分だけ前にプリフェッチ命令
を実行することができる。このような処理を行うには、
図２のステップＳ２０３〜Ｓ２０４でループを取り出す
とき、プログラム手続き全体を１つの仮想的なループと
考えて処理すればよい。

【００９７】

【発明の効果】以上詳細に説明したように、本発明によ
れば、最内側ループ中にないデータの参照に対して、プ
リフェッチしたデータが使用される前にキャッシュから
追い出されることに起因するキャッシュミスを減少さ
せ、プログラム実行の高速化を図ることができる。

【図面の簡単な説明】

【図１】本発明によるコンパイラが稼動する計算機シ
ステムの構成を示す図である。

【図２】コンパイラ１０８のコンパイル処理の流れを
示すフローチャートである。

【図３】ソフトウェアプリフェッチ処理の流れを示す
図である。

【図４】プリフェッチ命令を挿入すべき位置を求める
処理の流れを示す図である。

【図５】本発明によるソフトウェアプリフェッチ処理
の例を示す図である

【図６】コンパイル処理の対象とされるプログラムの
例とそのループ表を示す図である。

【図７】ループ分割をした時点でのプログラムのソー
スコードイメージとそのループ表を示す図である。

【図８】プリフェッチ命令を挿入した時点でのプログ
ラムをソースコードイメージで示した図である。

【図９】ループ中に条件付きのプリフェッチ命令実行
コードを挿入した場合のプログラムをソースコードイメ
ージで示した図である。

【図１０】プログラム手続き内の配列参照に対するソ
フトウェアプリフェッチ処理の例を示す図である。

【図１１】従来のソフトウェアプリフェッチ方法の例
を示す図である。

【図１２】従来のソフトウェアプリフェッチ方法の例
を示す図である

【符号の説明】

１０８コンパイラＳ２０５ソフトウェアプリフェッチ処理

Claims

【特許請求の範囲】

【請求項１】プリフェッチ命令を持つプロセッサに対
するオブジェクトコードを生成するコンパイラにおい
て、プリフェッチの対象とするメモリ参照を含む第１のルー
プがその内側に第２のループを有する場合に、当該第２のループのループ繰り返し１回あたりの実行サ
イクル数と、データをプリフェッチするのに要するサイ
クル数であるメモリレイテンシとに基づいて、当該メモ
リレイテンシに相当する第２のループの繰り返し回数β
を求め、前記第２のループを、終わりのβ回を実行する後半ルー
プと、その前までの繰り返しを実行する前半ループとに
分割し、前半ループと後半ループの間にプリフェッチ命令を挿入
することを特徴とするソフトウェアプリフェッチ方法。
【請求項２】プリフェッチ命令を持つプロセッサに対
するオブジェクコードを生成するコンパイラにおいて、プリフェッチの対象とするメモリ参照を含む第１のルー
プがその内側に第２のループを有する場合に、当該第２のループのループ繰り返し１回あたりの実行サ
イクル数と、データをプリフェッチするのに要するサイ
クル数であるメモリレイテンシとに基づいて、当該メモ
リレイテンシに相当する第２のループの繰り返し回数β
を求め、前記第２のループの、最後からβ回目の繰り返しのとき
にプリフェッチ命令を実行する、条件付きのプリフェッ
チ命令実行コードを挿入することを特徴とするソフトウ
ェアプリフェッチ方法。
【請求項３】プリフェッチ命令を持つプロセッサに対
するオブジェクトコードを生成するコンパイラにおい
て、プリフェッチの対象とするメモリ参照を含むプログラム
手続き内にループがある場合に、当該ループのループ繰り返し１回あたりの実行サイクル
数と、データをプリフェッチするのに要するサイクル数
であるメモリレイテンシとに基づいて、当該メモリレイ
テンシに相当する前記ループの繰り返し回数βを求め、前記ループを、終わりのβ回を実行する後半ループと、
その前までの繰り返しを実行する前半ループとに分割
し、前半ループと後半ループの間にプリフェッチ命令を挿入
することを特徴とするソフトウェアプリフェッチ方法。
【請求項４】プリフェッチ命令を持つプロセッサに対
するオブジェクトコードを生成するコンパイラにおい
て、プリフェッチの対象とするメモリ参照を有するプログラ
ム手続き内にループが含まれる場合に、当該ループのループ繰り返し１回あたりの実行サイクル
数と、データをプリフェッチするのに要するサイクル数
であるメモリレイテンシとに基づいて、当該メモリレイ
テンシに相当する前記ループの繰り返し回数βを求め、前記ループの、最後からβ回目の繰り返しのときに、プ
リフェッチ命令を実行する、条件付きのプリフェッチ命
令実行コードを挿入することを特徴とするソフトウェア
プリフェッチ方法。
【請求項５】プリフェッチ命令を持つプロセッサに対
するオブジェクトコードを生成するコンパイル装置であ
ってプリフェッチの対象とするメモリ参照を含む第１の
ループがその内側に第２のループを有する場合に、当該
第２のループのループ繰り返し１回あたりの実行サイク
ル数と、データをプリフェッチするのに要するサイクル
数であるメモリレイテンシとに基づいて、当該メモリレ
イテンシに相当する第２のループの繰り返し回数βを求
める手段と、前記第２のループを、終わりのβ回を実行する後半ルー
プと、その前までの繰り返しを実行する前半ループとに
分割する手段と、前半ループと後半ループの間にプリフェッチ命令を挿入
する手段とを備えることを特徴とするコンパイル装置。
【請求項６】プリフェッチ命令を持つプロセッサに対
するオブジェクコードを生成するコンパイル装置であっ
て、プリフェッチの対象とするメモリ参照を含む第１のルー
プがその内側に第２のループを有する場合に、当該第２
のループのループ繰り返し１回あたりの実行サイクル数
と、データをプリフェッチするのに要するサイクル数で
あるメモリレイテンシとに基づいて、当該メモリレイテ
ンシに相当する第２のループの繰り返し回数βを求める
手段と、前記第２のループの、最後からβ回目の繰り返しのとき
にプリフェッチ命令を実行する、条件付きのプリフェッ
チ命令実行コードを挿入する手段とを備えることを特徴
とするコンパイル装置。
【請求項７】プリフェッチ命令を持つプロセッサに対
するオブジェクコードを生成するコンパイル装置であっ
て、プリフェッチの対象とするメモリ参照を含むプログラム
手続き内にループがある場合に、当該ループのループ繰
り返し１回あたりの実行サイクル数と、データをプリフ
ェッチするのに要するサイクル数であるメモリレイテン
シとに基づいて、当該メモリレイテンシに相当する前記
ループの繰り返し回数βを求める手段と、前記ループを、終わりのβ回を実行する後半ループと、
その前までの繰り返しを実行する前半ループとに分割す
る手段と、前半ループと後半ループの間にプリフェッチ命令を挿入
する手段とを備えることを特徴とするコンパイル装置。
【請求項８】プリフェッチ命令を持つプロセッサに対
するオブジェクコードを生成するコンパイル装置であっ
て、プリフェッチの対象とするメモリ参照を有するプログラ
ム手続き内にループが含まれる場合に、当該ループのル
ープ繰り返し１回あたりの実行サイクル数と、データを
プリフェッチするのに要するサイクル数であるメモリレ
イテンシとに基づいて、当該メモリレイテンシに相当す
る前記ループの繰り返し回数βを求める手段と、前記ループの最後からβ回目の繰り返しのときにプリフ
ェッチ命令を実行する、条件付きのプリフェッチ命令実
行コードを挿入する手段とを備えることを特徴とするコ
ンパイル装置。
【請求項９】ソースコードを読み込んで、プリフェッ
チ命令を持つプロセッサに対するオブジェクトコードを
生成するコンパイル装置において、前記ソースコードが、第１のループを有し、更に、当該
第１のループの内側にプリフェッチの対象とされるメモ
リ参照及び第２のループを有する場合、前記オブジェクトコードは、前記第２のループに対応する前半ループ及び後半ループ
と、前半ループと後半ループの間にプリフェッチ命令とを有
し、前記後半ループの繰り返し回数は、データをプリフェッ
チするのに要するサイクル数に相当する回数であること
を特徴とするコンパイル装置。
【請求項１０】プリフェッチ命令を持つプロセッサに
対するオブジェクトコードを生成するコンパイラであっ
て、プリフェッチの対象とするメモリ参照を含む第１のルー
プがその内側に第２のループを有する場合に、当該第２
のループのループ繰り返し１回あたりの実行サイクル数
と、データをプリフェッチするのに要するサイクル数で
あるメモリレイテンシとに基づいて、当該メモリレイテ
ンシに相当する第２のループの繰り返し回数βを求める
ステップと、前記第２のループを、終わりのβ回を実行する後半ルー
プと、その前までの繰り返しを実行する前半ループとに
分割するステップと、前半ループと後半ループの間にプリフェッチ命令を挿入
するステップとを備えることを特徴とするコンパイラを
記録した記録媒体。
【請求項１１】オブジェクトコードを記録した記録媒
体であって、前記オブジェクトコードは、１つのループ処理に相当する前半ループ及び後半ループ
と、後半ループのうしろに、メモリ参照をする命令と、前半ループと後半ループの間に、前記メモリ参照につい
てのプリフェッチ命令とを有し、前記後半ループの繰り返し回数は、前記オブジェクトコ
ードを実行可能なコンピュータにおいて、データをプリ
フェッチするのに要するサイクル数に相当する回数であ
ることを特徴とする記録媒体。
【請求項１２】オブジェクトコードを記録した記録媒
体であって、前記オブジェクトコードは、ループと、当該ループのうしろに、メモリ参照をする命令と、前記ループの最後からβ回目の繰り返しのときに、前記
メモリ参照についてのプリフェッチ命令を実行するコー
ドとを有し、前記βは、前記オブジェクトコードを実行可能なコンピ
ュータにおいて、データをプリフェッチするのに要する
サイクル数に相当する前記ループの繰り返し回数である
ことを特徴とする記録媒体。