JP3417984B2

JP3417984B2 - キャッシュ競合削減コンパイル方法

Info

Publication number: JP3417984B2
Application number: JP25001493A
Authority: JP
Inventors: 孝好飯塚
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1993-09-10
Filing date: 1993-09-10
Publication date: 2003-06-16
Anticipated expiration: 2018-06-16
Also published as: US5862385A; JPH0784799A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、キャッシュメモリを有
するコンピュータで動作させるプログラムをコンパイル
する方法に関し、特に、動作時にキャッシュのアクセス
競合によって生じるキャッシュ競合をできる限り削減す
るようなコードを生成できるコンパイル方法に関する。

【０００２】

【従来の技術】キャッシュメモリおよびキャッシュ競合
については、例えば、「J. Hennessy,D. Patterson, "C
omupter Architecture: A Quantitive Approach", Morg
an Kaufmann Publisher, Palo Alto, California, 199
0, pp.408-425 」などの文献に述べられている。

【０００３】キャッシュメモリ（以下、単にキャッシュ
と呼ぶ）は、高速アクセス可能なメモリの一種である。
キャッシュに主メモリ上のデータのコピーを置くことに
より、データ参照を高速化することができる。キャッシ
ュと主メモリ間の転送単位はブロックと呼ばれ、キャッ
シュ上のブロックはキャッシュブロック、主メモリ上の
ブロックはメモリブロックと呼ばれる。

【０００４】キャッシュの実現方式としては、メモリブ
ロックのコピーが置かれるキャッシュブロックのマッピ
ング方法に応じて、フル・アソシアティブ方式、セット
・アソシアティブ方式、およびダイレクト・マップ方式
の３種類がある。近年、キャッシュの大容量化および高
速化のため、構成が簡単なダイレクトマップ方式が主流
になりつつある。

【０００５】ダイレクトマップ方式では、各メモリブロ
ックがマッピングされるキャッシュブロックは一意に決
定される。なお、一般にキャッシュの容量は主メモリの
容量より小さいため、複数のメモリブロックが１つのキ
ャッシュブロックにマッピングされる。そのため、一度
キャッシュブロックに転送されたデータであっても、同
一のキャッシュブロックにマッピングされる別のメモリ
ブロックの参照によりキャッシュブロックから追い出さ
れ、次の参照ではキャッシュミスを生じる。

【０００６】このような現象をキャッシュ競合といい、
これによって生じるキャッシュミスを競合性キャッシュ
ミスという。プログラムによってはキャッシュ競合が多
発し性能が大きく低下するのがダイレクト・マップ方式
の欠点である。

【０００７】図２〜図７を用いて、キャッシュ競合につ
いてより詳細に説明する。なお、以下では、ブロック長
が16バイト、容量256Kバイトのダイレクトマップ方式の
キャッシュを仮定する。

【０００８】以下、図２はソースプログラム、図３は主
メモリのキャッシュへのマッピング状況の概要、図４、
５は主メモリのキャッシュへのマッピング状況の詳細、
図６は図２のソースプログラムに対するオブジェクトプ
ログラムの例、図７はキャッシュ競合の発生状況を示
す。

【０００９】まず、図２は、キャッシュ競合が多発する
プログラムの例をソースプログラムで示したものであ
る。このソースプログラム３では、COMMON宣言により、
配列Ａ、Ｂ、Ｃはこの順番で連続したメモリ領域に配置
される。また、それぞれの配列は実数型で要素長４バイ
トであり、宣言寸法は A(256,128) 、 B(256,128,3) 、
C(256,128) である。実行部分は２重ループであり、最
内側ループでは、I=1 から255 に対してA(I,J)、 B(I,
J,2) 、 A(I+1,J) 、 B(I,J,3) 、 B(I,J,1) の値を用
いてC(I,J)の値を計算している。

【００１０】図３は、主メモリ１２０内の各配列のどの
部分がキャッシュ１１０のどの部分に対応するか、その
対応関係を示している。各配列の部分領域 A(1:256,1:1
28)、 B(1:256,1:128,1) 、 B(1:256,1:128,2) 、 B(1:
256,1:128,3) 、 C(1:256,1:128) の大きさは、それぞ
れ、128Kバイト(=256*128*4)である。したがって、A(1:
256,1:128)とB(1:256,1:128,2)とC(1:256,1:128)はキャ
ッシュ１１０内の同一領域にマッピングされ、B(1:256,
1:128,1)とB(1:256,1:128,3)もキャッシュ１１０内の同
一領域にマッピングされる。

【００１１】なお、上記の表現「ｍ：ｎ」は、下限ｍか
ら上限ｎまでの添え字範囲を表すものとする。

【００１２】図４および図５は、キャッシュ１１０の構
造および主メモリ１２０とのマッピングを詳細に示した
ものである。

【００１３】キャッシュ１１０は、16バイトのキャッシ
ュブロックの集まりである。１１１〜１１６はキャッシ
ュブロックの例である。主メモリ１２０もメモリブロッ
クを単位として示してある。メモリブロックのキャッシ
ュブロックへのマッピングは矢印で示してある。

【００１４】例えば、図４では、３つのメモリブロック
A(1:4,J) 、B(1:4,J,2)、C(1:4,J)が１つのキャッシュ
ブロック１１１にマッピングされ、キャッシュブロック
１１１上にはこれらのメモリブロックのデータのうち何
れか１つだけが置かれる。そのため、これらのメモリブ
ロック内のデータの参照に際しては、キャッシュ競合が
発生する。キャッシュブロック１１２、１１３でも同様
にキャッシュ競合が発生する。

【００１５】図５では、２つのメモリブロックが１つの
キャッシュブロックにマッピングされるため、同様にキ
ャッシュ競合が発生する。なお、図５に示したように、
キャッシュ競合は同一配列内でも発生する。

【００１６】図６は、図２のソースプログラムに対応し
たオブジェクトプログラムの例である。ただし、一般に
プログラムの実行においては、最内側ループが処理時間
の大部分を占め、他の部分は余り重要ではないので、図
２の最内側ループのオブジェクトプログラムのみを示し
てある。

【００１７】図６において、各命令には識別のため最左
側に命令番号を付加してある。ラベルは分岐命令の分岐
先として用いられる。各命令の処理内容は、図の最右側
に示してある。これらのうち、命令番号１、２、４、
５、８、１０の命令がメモリ参照命令であり、それぞ
れ、A(I,J)、B(I,J,2)、A(I+1,J)、B(I,J,3)、B(I,J,
1)、C(I,J)が参照される。

【００１８】図７では、図６に示したオブジェクトプロ
グラム内のメモリ参照命令によって発生するキャッシュ
競合の発生状況を、メモリ参照命令の実行順に示してい
る。なお、各行は左から、最内側ループでの制御変数Ｉ
の値、命令番号、命令での参照配列要素、キャッシュの
ヒット状況（参照されたデータがキャッシュ上に存在す
るか否かを示す）、主メモリ１２０から転送されてキャ
ッシュ１１０に置かれるメモリブロック、キャッシュ１
１０から追い出されるメモリブロック、およびキャッシ
ュ競合を原因とするキャッシュミス（競合性キャッシュ
ミス）であるか否かを示している。

【００１９】図７から分かるように、すべてのメモリ参
照でキャッシュミスが発生するが、このうち大半は競合
性キャッシュミスである。例えば、I=1 での命令１と命
令４では同一のメモリブロックA(1:4,J)を参照している
が、A(1:4,J)と同一のキャッシュブロックにマッピング
されるB(1,J,2)が命令２で参照されるため、A(1:4,J)は
キャッシュから追い出される。そのため、命令４ではキ
ャッシュミスが発生している。

【００２０】図７のキャッシュミスのうち、同一のメモ
リブロックに対する２回目以降の参照で生じるキャッシ
ュミスは、全て競合性キャッシュミスである。I=1 から
I=4までの24回のキャッシュミスのうち、18回は競合性
キャッシュミスなので、キャッシュ競合がキャッシュミ
スの主要な原因であることが分かる。

【００２１】

【発明が解決しようとする課題】キャッシュ競合を削減
する方法の１つは、上記従来技術に示されているよう
に、フル・アソシアティブ方式またはセット・アソシア
ティブ方式のキャッシュを用いることである。しかし、
これらはハードウェアが複雑になるので、キャッシュの
参照速度が低下し、大容量化も困難である。

【００２２】更に、セット・アソシアティブ方式のキャ
ッシュであっても、メモリブロックがマッピングされる
キャッシュブロック候補の数（連想度）が小さい場合
は、キャッシュ競合を十分に回避できない。即ち、セッ
ト・アソシアティブ方式のキャッシュでも、連想度が小
さい場合には、更なるキャッシュ競合削減方法が必要で
ある。

【００２３】また、上記従来技術に示された別の方法
は、ダイレクト・マップ方式のままで単にキャッシュの
容量を増やすことである。しかし、キャッシュのコスト
は容量の同じ主メモリのコストと比較してかなり高価な
ので、キャッシュ容量増大には限度がある。そのため、
この方法は実用的でない。

【００２４】上記のように、ダイレクト・マップ方式の
キャッシュは構成が簡単なため、高速化および大容量化
が容易であるという利点があるが、プログラムによって
はキャッシュ競合が発生し性能が大幅に低下するという
欠点がある。しかし、従来、ダイレクト・マップ方式キ
ャッシュのキャッシュ競合を削減する十分な手段は無か
った。

【００２５】更に、キャッシュ競合の発生が比較的少な
いセット・アソシアティブ方式のキャッシュでも、連想
度が小さい場合には、キャッシュ競合が発生し性能が大
幅に低下する。連想度を十分に大きくすればキャッシュ
競合はすべて回避できるが、ハードウェアの構成が複雑
になるため、キャッシュの参照速度の低下および大容量
化の困難を招く。このような理由により、現在、市場で
使われているセット・アソシアティブ方式キャッシュの
連想度は２〜４程度であり、キャッシュ競合の多発する
プログラムに対してはキャッシュ競合を十分に回避でき
ない。

【００２６】本発明の目的は、キャッシュ競合により大
幅な性能低下を引き起こすプログラムに対して、キャッ
シュ競合の発生を削減する方法を提供することである。

【００２７】

【課題を解決するための手段】上記目的を達成するため
に、本発明は、キャッシュメモリを有するコンピュータ
に対するオブジェクトプログラムを生成するコンパイル
方法において、入力プログラム内のメモリ参照間で生じ
るキャッシュ競合の発生を検出することを特徴とする。
また、プログラム内のどのメモリ参照とどのメモリ参照
の間でキャッシュ競合が発生しているかを解析するキャ
ッシュ競合解析を行うことを特徴とする。

【００２８】さらに、そのようなキャッシュ競合解析の
結果に基づいて、キャッシュ競合が発生する場合は、一
度キャッシュブロックに転送されたメモリブロックへの
すべての参照が完了する前にそのブロックをキャッシュ
から追い出すことのないように、プログラム内のメモリ
参照の順番を並び替えるメモリ参照順序制御を行うこと
を特徴とする。

【００２９】メモリ参照順序制御は、コンパイラの中間
コード、あるいはコンパイラが生成したオブジェクトプ
ログラムに対して実施する。また、メモリ参照順序制御
をコンパイラの中間コードに対して実施し、その結果の
中間コードに対して生成されたオブジェクトプログラム
に対してもメモリ参照順序制御を実施するようにしても
よい。さらに、メモリ参照順序制御を、プログラムの中
間コードに対して実施し、この結果の中間コードをソー
スプログラムに逆変換して外部に出力するようにしても
よい。

【００３０】さらに、本発明は、キャッシュメモリを有
するコンピュータに対するオブジェクトプログラムを生
成するコンパイル方法において、入力プログラム中のメ
モリ参照に関するキャッシュ競合の発生を検出し、その
発生状況を解析してキャッシュ競合情報として出力する
キャッシュ競合解析ステップと、該キャッシュ競合情報
に基づいて、一度キャッシュブロックに転送されたメモ
リブロックへのすべての参照が完了する前にそのブロッ
クをキャッシュから追い出すことがないように、プログ
ラム内のメモリ参照の順番を並び替えるメモリ参照順序
制御ステップとを備えたことを特徴とする。

【００３１】前記キャッシュ競合解析ステップは、前記
入力プログラム中のメモリ参照を抽出して、同一のメモ
リブロックへのメモリ参照をキャッシュ参照群としてま
とめるとともに、これらのキャッシュ参照群を分類して
キャッシュ参照群情報を作成し、該キャッシュ参照群情
報をキャッシュ競合情報として出力するキャッシュ参照
群解析ステップと、該キャッシュ参照群情報に基づい
て、キャッシュ参照群どうしの間でのキャッシュ競合状
況を表すキャッシュ競合グラフを作成し、該キャッシュ
競合グラフをキャッシュ競合情報として出力するキャッ
シュ競合グラフ解析ステップとを備えるようにするとよ
い。

【００３２】前記キャッシュ参照群解析ステップは、前
記入力プログラム中のメモリ参照どうしの主メモリ上の
距離が所定値以下のとき、それらのメモリ参照が同一の
メモリブロックを参照するものと判定して、それらのメ
モリ参照を同じキャッシュ参照群に登録するようにする
とよい。

【００３３】また、前記キャッシュ参照群解析ステップ
は、前記入力プログラム中のメモリ参照の主メモリ上の
位置から参照するメモリブロックを求め、同じメモリブ
ロックを参照するメモリ参照を同じキャッシュ参照群に
登録するようにしてもよい。

【００３４】前記キャッシュ競合グラフ解析ステップ
は、前記キャッシュ参照群情報に含まれる任意の第１お
よび第２のキャッシュ参照群について、第１のキャッシ
ュ参照群に含まれるすべてのメモリ参照と第２のキャッ
シュ参照群に含まれるすべてのメモリ参照との間のキャ
ッシュ上の距離の最小値を求め、該最小値が所定値以下
のとき、上記第１のキャッシュ参照群のメモリ参照と第
２のキャッシュ参照群のメモリ参照との間にキャッシュ
競合が発生すると判定するようにするとよい。

【００３５】また、前記キャッシュ競合グラフ解析ステ
ップは、前記キャッシュ参照群情報に含まれる任意の第
１および第２のキャッシュ参照群について、第１のキャ
ッシュ参照群に含まれるすべてのメモリ参照の主メモリ
上の位置からマッピングされるキャッシュブロックを求
め、同様に第２のキャッシュ参照群に含まれるすべての
メモリ参照の主メモリ上の位置からマッピングされるキ
ャッシュブロックを求め、同じキャッシュブロックにマ
ッピングされるメモリ参照がある場合に、これら第１の
キャッシュ参照群のメモリ参照と第２のキャッシュ参照
群のメモリ参照との間にキャッシュ競合が発生すると判
定するようにしてもよい。

【００３６】前記メモリ参照順序制御ステップは、前記
入力プログラム中のループに対しループ展開を行った後
に、前記メモリ参照の順番の並び替えを行うようにする
とよい。特に、ループ展開後の各メモリ参照範囲の長さ
がキャッシュのブロック長にほぼ一致する展開対象ルー
プとループ展開数を選んでループ展開するとよい。

【００３７】

【作用】上記構成により、キャッシュ競合の多発により
性能が低下しているプログラムに対して、キャッシュ競
合を削減したオブジェクトプログラムあるいはソースプ
ログラムを生成することができる。

【００３８】キャッシュ競合の発生を検出することによ
り、キャッシュ競合削除を主体とした処理を集中的に行
える。一般にキャッシュ競合が発生すると大幅な性能低
下が生じる。そこで、キャッシュ競合の発生部分の検出
により特定された対象に対しては、キャッシュ競合削減
を最優先した処理を行うよう判断できる。

【００３９】キャッシュ競合解析を行うことにより、後
続するメモリ参照順序制御で、どのメモリ参照とどのメ
モリ参照がキャッシュ競合を起こしているか判断するこ
とができる。

【００４０】メモリ参照順序制御を行うことにより、キ
ャッシュ競合を起こしている部分に対して、キャッシュ
競合を回避するようにできる。例えば、一度キャッシュ
ブロックに転送されたメモリブロックへのすべての参照
が完了する前にそのブロックをキャッシュから追い出さ
ない並び方にプログラム内のメモリ参照の順番を並び替
えるようにすれば、結果として、競合性キャッシュミス
はすべて回避することができる。

【００４１】メモリ参照順序制御を中間コードに対して
実施することにより、少数のレジスタをメモリ参照命令
に割り当ることによって生じる余分なデータ依存関係が
無いので、メモリ参照の並び替えの自由度が増す。その
ため、メモリ参照を最適な位置に移動可能となり、キャ
ッシュ競合の削減率が向上する。

【００４２】メモリ参照順序制御をオブジェクトプログ
ラムに対して実施することにより、中間コードの段階で
は生成を予期できなかった命令語を含めたすべての命令
語を対象として命令語の並び替えが実施できるので、よ
り精密な並び替えを行える。

【００４３】メモリ参照順序制御をプログラムの中間コ
ードとオブジェクトプログラムの両方に行うことによ
り、最適なキャッシュ競合削減が行える。

【００４４】メモリ参照順序制御をプログラムの中間コ
ードに対して実施し、この結果をソースプログラムに再
変換して外部に出力することにより、キャッシュ競合削
減の効果をどのコンパイラでも利用できるので、キャッ
シュ競合削減の汎用性が増大する。

【００４５】メモリ参照順序制御においてループ展開も
実施すれば、複数のループ繰り返しにまたがったキャッ
シュ競合も削除できるので、キャッシュ競合の削減率が
向上する。特に、ループ展開における展開対象ループと
ループ展開数を選ぶことにより、ループ展開の効果が高
いループに対して必要最小限のループ展開数でループ展
開するので、ループ展開数が多すぎる場合に発生するレ
ジスタの不足を回避できる。

【００４６】

【実施例】以下、本発明の一実施例を図面を参照しなが
ら説明する。

【００４７】図１に、本発明の一実施例に係るコンパイ
ル方法を適用したコンパイラの構成を示す。まず、この
図を参照して、本実施例の処理の概要を説明する。

【００４８】コンパイラ１は、ソースプログラム３を入
力して、最終的にオブジェクトプログラム７を生成す
る。コンパイラ１の処理では、構文解析１０、キャッシ
ュ競合削減２０、およびコード生成６０を、順に実行す
る。構文解析１０は、ソースプログラム３をコンパイラ
１の中間コード５に変換する。キャッシュ競合削減２０
は、中間コード５に対してキャッシュ競合の削減を行
う。コード生成６０は、キャッシュ競合削減２０により
変更された中間コード５からオブジェクトプログラム７
を生成する。

【００４９】以上により、入力したソースプログラム２
に対してキャッシュ競合削減２０を実施したオブジェク
トプログラム７を生成する。

【００５０】次に、キャッシュ競合削減２０の処理内容
を説明する。キャッシュ競合削減２０の処理は、大きく
３つのステップより構成され、これら３つのステップよ
りなる処理を中間コード５内の各最内側ループ内中間コ
ードに対して適用する。

【００５１】なお、本実施例では処理対象を各最内側ル
ープ内中間コードに限定したが、それ以外の中間コード
も処理対象とできるようにすることも容易である。しか
しながら、最内側ループは実行時間が大きいため、ほと
んどの場合、最内側ループを処理対象とすれば十分であ
る。

【００５２】以下では、キャッシュ競合削減２０の３つ
のステップの各処理内容を説明する。

【００５３】まず、キャッシュ競合解析３０では、中間
コード５に対してキャッシュ競合の発生を検出すると共
にキャッシュ競合の発生状況を解析する。キャッシュ競
合発生の検出結果は、次のステップ４０で使われる。ま
た、キャッシュ競合の発生状況は、キャッシュ競合情報
９として出力され、メモリ参照順序制御５０で使われ
る。

【００５４】次に、ステップ４０では、キャッシュ競合
解析３０の結果に基づき、次のメモリ参照順序制御５０
を実施するか否かを判定する。キャッシュ競合解析３０
でキャッシュ競合の発生が検出された場合は、キャッシ
ュ競合有りと判断し、次のメモリ参照順序制御５０に処
理を進める。そうでない場合は、次のメモリ参照順序制
御５０をスキップして処理を終える。

【００５５】メモリ参照順序制御５０では、キャッシュ
競合情報９に基づきメモリ参照の順番の入れ替えを行
い、キャッシュ競合を削減する。メモリ参照の順番の入
れ替えに際しては、一度キャッシュブロックに転送され
たメモリブロックへのすべての参照が完了する前にその
ブロックをキャッシュから追い出さないように制御す
る。

【００５６】次に、各処理で入出力されるデータの構造
について説明する。ただし、ソースプログラム３および
オブジェクトプログラム７の構造は、キャッシュ競合削
減２０と無関係なので説明を省略し、中間コード５とキ
ャッシュ競合情報９の構造を説明する。

【００５７】中間コード５は、図２に示したようなソー
スプログラムを表現するコンパイラ１の内部表現であ
る。この実施例では、中間コード５の形式として、３番
地文と呼ばれる構造を用いる。３番地文については、
「A.V.エイホ・J.D.ウルマン著／土居範久訳”コンパイ
ラ”、倍風館、情報処理シリーズ７、昭和６１年３月発
行、231 頁〜233 頁」に記載されている。ただし、キャ
ッシュ競合削減２０で用いる情報の欄が必要なので、３
番地文に対して文番号（後述の図１６の３０５）の欄と
参照群番号（後述の図１６の３３０）の欄を付加してあ
る。

【００５８】図１６に、中間コード５の例を示す。図１
６は、図２のソースプログラム３に対応する中間コード
５である。中間コード５内の各文は、実行順に並んでい
る。各文は、１から始まり１ずつ増える文番号３０５
と、分岐先を示すためのラベル３１０と、処理の内容を
示す３番地文３２０と、キャッシュ競合削減２０で作業
領域として用いる参照群番号３３０とから構成される。

【００５９】ただし、ラベル３１０は分岐先になる文以
外には付かない。また、参照群番号３３０は、メモリ参
照にのみ付加され、更に、キャッシュ競合削減２０の入
力段階では何も付加されていない。

【００６０】中間コード５の形式として３番地文を用い
ると、各メモリ参照が別々の文に分離されるので、番号
付けやメモリ参照文の並び替えが容易である。なお、処
理が多少複雑になるが、中間コード５の形式として他の
形式を用いて本発明を実施することも可能である。

【００６１】また、３番地文への変換はキャッシュ競合
削減２０の直前で実施すれば十分なので、構文解析１０
からキャッシュ競合削減２０までの間で最適化処理を行
う場合は、その最適化処理では別の形式を使用すること
も可能である。更に、３番地文は、最適化処理で一般的
に用いられる構文木の一例として表現可能なので、中間
コード５の形式を構文木に統一することも可能である。

【００６２】キャッシュ競合情報９は、中間コード５内
の文のメモリ参照どうしの間でのキャッシュ競合の発生
状況を表す情報である。図１７を用いて、キャッシュ競
合情報９の構造について説明する。

【００６３】キャッシュ競合情報９は、キャッシュ参照
群情報９９００およびキャッシュ競合グラフ９５００よ
り構成される。キャッシュ参照群情報９９００は、同一
のメモリブロックへのメモリ参照を要約してキャッシュ
参照群９０１０としてまとめ、これらを分類した情報で
ある。キャッシュ競合グラフ９５００は、キャッシュ参
照群９０１０どうしの間でのキャッシュ競合状況を表
す。

【００６４】すなわち、キャッシュ参照群情報９９００
は、キャッシュ参照群９０１０の集まりであり、各キャ
ッシュ参照群９０１０は、中間コード５内で同一メモリ
ブロックへのメモリ参照を行う文の集まりである。

【００６５】具体的には、各キャッシュ参照群９０１０
は、１つのキャッシュ参照群番号９０２０、メモリ参照
文ごとの文番号９０４０、参照配列要素９０６０、およ
び参照配列要素９０６０のアドレス計算式９０９０から
構成される。

【００６６】また、キャッシュ競合グラフ９５００は、
キャッシュ参照群９０１０の番号をノードとし、キャッ
シュ競合を発生するキャッシュ参照群９０１０どうしの
間ではエッジが張られている。２つのキャッシュ参照群
９０１０どうしの間にキャッシュ競合が発生するとは、
各キャッシュ競合群９０１０内のメモリ参照文が参照す
るメモリブロックどうしが同一のキャッシュブロックに
マッピングされることである。図１７において、９５１
０、９５２０はキャッシュ競合グラフ９５００のノード
であり、９５９０はエッジである。

【００６７】以上で、図１のコンパイラの概要説明を終
える。以下では、図１のキャッシュ競合削減２０の処理
ステップであるキャッシュ競合解析３０とメモリ参照順
序制御５０の処理内容を適用例を交えながら順に詳しく
説明する。

【００６８】まず、キャッシュ競合解析３０について詳
しく説明する。キャッシュ競合解析３０では、図１６に
示したような中間コード５内のメモリ参照を解析して、
図１７に示したキャッシュ競合情報９を作成する。

【００６９】図８は、キャッシュ競合解析３０の処理手
順の概要を示す。

【００７０】まず、キャッシュ参照群解析３２で、中間
コード５（図１６）内のメモリ参照文を解析することに
より、同一のメモリブロックへの参照をキャッシュ参照
群９０１０（図１７）として要約し、キャッシュ参照群
情報９９００を作成する。次に、キャッシュ競合グラフ
解析３４では、キャッシュ参照群情報９９００に基づい
て、キャッシュ参照群９０１０間のキャッシュ競合状況
を解析し、この結果を表現するキャッシュ競合グラフ９
５００を作成する。

【００７１】ステップ３６では、作成したキャッシュ競
合グラフ９５００内にエッジがあるか否か判定する。こ
れが真の場合はステップ３８に進んでキャッシュ競合有
りと判定して処理を終え、偽の場合はステップ３９に進
んでキャッシュ競合無しと判定して処理を終える。この
判定結果は、図１のステップ４０で用いる。

【００７２】次に、図９〜図１２を参照して、キャッシ
ュ参照群解析３２およびキャッシュ競合グラフ解析３４
の処理の詳細を説明する。

【００７３】図９は、キャッシュ参照群解析３２の詳細
な処理手順を示すフローチャートである。上述したよう
に、キャッシュ参照群解析３２は、中間コード５からキ
ャッシュ参照群情報９９００を作成する。

【００７４】まず、ステップ３２０２で、キャッシュ参
照群番号ｎの初期値として０を設定する。ステップ３２
０４〜３２３４は繰り返し処理であり、中間コード５の
先頭の文から最後の文まで順に処理する。ただし、処理
対象の文をSiとする。

【００７５】ステップ３２０６では処理対象の文Siがメ
モリ参照文であるか否か判定する。判定結果が真の場合
はステップ３２０８に進み、偽の場合は以下の処理をス
キップしてステップ３２３４に進む。ステップ３２０８
では、処理対象の文Siが何れかのキャッシュ参照群９０
１０に登録済みであるか否か判定する。判定結果が偽の
場合はステップ３２１０に進み、真の場合は以下の処理
をスキップしてステップ３２３４に進む。

【００７６】ステップ３２１０では、ｎの値を１増やす
と共に、ｎの値をｍに代入する。ｍは以下のステップで
処理対象となるキャッシュ参照群９０１０の番号の初期
値であり、処理の途中で変わる場合もある。

【００７７】ステップ３２１２では、キャッシュ参照群
番号がｍのキャッシュ参照群CAG(m)を作成し、このキャ
ッシュ参照群CAG(m)に処理対象の文Siを登録する。登録
に際しては、図１７に示したように、文番号９０４０、
参照配列要素９０６０、およびアドレス計算式９０９０
を書き込む。なお、参照配列要素９０６０からそのアド
レス計算式９０９０を求める方法は公知なので省略す
る。

【００７８】次に、ステップ３２１４からステップ３２
３２までの繰り返し処理を実行する。この繰り返し処理
は、処理対象の文Siの次の文から最後の文までを対象と
して実施する。その処理対象の文をSjとする。

【００７９】まず、ステップ３２１６では、処理対象の
文Sjがメモリ参照文であるか否か判定する。判定結果が
真の場合はステップ３２１８に進み、偽の場合は以下の
処理をスキップしてステップ３２３２に進む。

【００８０】ステップ３２１８では、処理対象の文Sjで
のメモリ参照とキャッシュ参照群CAG(m)との距離ｄを計
算する。メモリ参照ｘとキャッシュ参照群ｙとの距離と
は、キャッシュ参照群ｙ内に登録されている全メモリ参
照とメモリ参照ｘとの間の主メモリ１２０上での距離の
最小値である。この距離の計算方法については、後に図
１０を用いて、詳しく説明する。

【００８１】次に、ステップ３２２０では、距離ｄが所
定値Ｄmax 以下であるか否か判定する。判定結果が真の
場合はステップ３２２２に進み、偽の場合は以下の処理
をスキップしてステップ３２３２に進む。

【００８２】所定値Ｄmax は、メモリ参照の主メモリ上
での距離をもとにメモリ参照どうしが同一のメモリブロ
ックを参照するか否かを判定するための「しきい値」で
ある。その値は、０〜「メモリブロック長／２」程度が
適当である。距離ｄが、０〜「メモリブロック長／２」
程度のしきい値Ｄmax 以下なら、ほぼ同一のメモリブロ
ックを参照するといえるからである。以下、本実施例で
は、Ｄmax が４であると仮定する。ただし、これに限ら
ず、しきい値Ｄmax の値は、同一のメモリブロックを参
照するか否かを判定できるような値であればよい。

【００８３】本実施例では、このステップ３２２０の判
定により、処理対象の文Sjでのメモリ参照とキャッシュ
参照群CAG(m)内のメモリ参照とが同一のメモリブロック
を参照するか否か判定している。

【００８４】なお、メモリ参照が同一のメモリブロック
を参照するか否かを判定する他の方法として、参照配列
要素の主メモリ上での位置から、参照するメモリブロッ
クを直接求めるようにしてもよい。ただし、この場合、
ループの繰り返し回によって配列要素のアドレスが変わ
るため、参照するメモリブロックも変化することを十分
に考慮する必要があり、処理は多少複雑になる。本実施
例での判定方法を、そのように拡張することも可能であ
る。

【００８５】ステップ３２２２では、処理対象の文Sjが
何れかのキャッシュ参照群９０１０に登録済みであるか
否かを判定する。判定結果が偽の場合はステップ３２２
４に進み、真の場合はステップ３２２６に進む。ステッ
プ３２２４では、処理対象の文Sjをキャッシュ参照群CA
G(m)に登録し、ステップ３２３２に進む。

【００８６】ステップ３２２６からステップ３２３０で
は、キャッシュ参照群CAG(m)内の参照を既存のキャッシ
ュ参照群にマージする。まず、ステップ３２２６では、
キャッシュ参照群CAG(m)に登録されたすべてのメモリ参
照を、処理対象の文Sjの属するキャッシュ参照群９０１
０に再登録する。ステップ３２２８では、ｎを１減らし
て、キャッシュ参照群CAG(m)を削除する。ステップ３２
３０では、処理対象の文Sjの属するキャッシュ参照群９
０１０のキャッシュ参照群番号９０２０をｍに再設定す
る。

【００８７】ステップ３２３２とステップ３２３４は、
繰り返し処理の終端であり、ステップ３２３６はキャッ
シュ参照群解析３２の終端である。

【００８８】次に、上記のステップ３２１８の処理、す
なわち処理対象の文Sjのメモリ参照とキャッシュ参照群
CAG(m)との距離ｄの計算処理について、説明する。

【００８９】図１０は、このステップ３２１８の処理の
詳細な手順を示すフローチャートである。まず、ステッ
プ３２５２で、処理対象の文Sjでのメモリ参照のアドレ
ス計算式AEj を求める。アドレス計算式AEj は、メモリ
参照で参照される配列要素から容易に求められる。この
方法は公知なので詳細は省略する。

【００９０】次に、ステップ３２５４では、ｄの初期値
としてＤmax ＋１を設定する。その後、ステップ３２５
６〜ステップ３２６８の繰り返し処理を行う。ここで
は、キャッシュ参照群９０１０の１つであるCAG(m)に登
録されたすべてのメモリ参照Aiについて、順にステップ
３２５６〜ステップ３２６８の繰り返し処理を行う。

【００９１】ステップ３２５８では、キャッシュ参照群
９０１０からメモリ参照Aiのアドレス計算式９０９０を
取り出し、これをAEi とする。ステップ３２６０では、
アドレス計算式AEi とAEj との差を計算し、diffに設定
する。ここの処理では簡単な数式処理が必要となるが、
詳細は省略する。要するにメモリ参照するアドレスの差
を求めるということである。

【００９２】ステップ３２６２では、差diffが定数であ
るか否かを判定する。判定結果が真の場合はステップ３
２６４に進み、偽の場合はステップ３２５６〜ステップ
３２６８の繰り返し処理を終え、ステップ３２７２で距
離ｄに差diffの値を設定した後、終端ステップ３２７０
に進む。

【００９３】ステップ３２６４では、差diffの絶対値が
距離ｄより小さいか判定する。判定結果が真の場合は、
ステップ３２６６に進み、距離ｄの新たな値として差di
ffの絶対値を設定する。ステップ３２６４の判定結果が
偽の場合は、ステップ３２６６の処理をスキップして、
ステップ３２６８に進む。

【００９４】以上の処理により、処理対象の文Sjのメモ
リ参照とキャッシュ参照群CAG(m)内の全メモリ参照との
メモリ上での距離の最小値がｄに設定される。ただし、
距離が定数にならない場合は、ステップ３２７２によっ
て距離を表す式がそのままｄに設定される。

【００９５】なお、距離ｄが式の場合は、ｄとＤmax と
の大小関係が不明になるので、ここで設定された距離ｄ
の値を用いる図９のステップ３２２０での判定結果は偽
となり、処理対象の文Sjでのメモリ参照はキャッシュ参
照群CAG(m)内のメモリ参照と同一のキャッシュブロック
にマッピングされないと判定される。

【００９６】以上で、キャッシュ参照群解析３２の説明
を終える。ここまでで、キャッシュ参照群情報９９００
が作成されたことになる。

【００９７】次に、キャッシュ競合グラフ解析３４の処
理の詳細を説明する。

【００９８】図１１は、キャッシュ競合グラフ解析３４
の詳細な処理手順を示すフローチャートである。キャッ
シュ競合グラフ解析３４は、キャッシュ参照群情報９９
００に基づいてキャッシュ競合グラフ９５００（図１
７）を作成する。

【００９９】まず、ステップ３４０２で、キャッシュ競
合グラフ９５００のノードを作成する。ノードは、各キ
ャッシュ参照群９０１０に対応して作られ、キャッシュ
参照群９０１０のキャッシュ参照群番号９０２０が付加
される。

【０１００】ステップ３４０４からステップ３４１８で
は、上記で作成されたノード間のエッジを設定する。エ
ッジは、キャッシュ競合を発生するキャッシュ参照群９
０１０の間で張られる。ステップ３４０４からステップ
３４１８は繰り返し処理であり、ｉについて１から「キ
ャッシュ参照群の個数」まで処理する。ステップ３４０
６〜ステップ３４１６も繰り返し処理であり、ｊについ
てｉ＋１から「キャッシュ参照群の個数」まで処理す
る。

【０１０１】ステップ３４０８では、キャッシュ参照群
CAG(i)とCAG(j)のキャッシュ１１０上の距離dcを求め
る。距離dcの求め方については、後に図１２を用いて詳
細に説明する。

【０１０２】ステップ３４１０では、距離dcが所定値Ｄ
Ｃmax 以下であるか否かを判定する。判定結果が真の場
合はステップ３４１２に進み、偽の場合は以下の処理を
スキップしてステップ３４１６に進む。

【０１０３】所定値ＤＣmax は、メモリ参照のキャッシ
ュ上での距離をもとにキャッシュ競合が発生するか否か
を判定するための「しきい値」である。その値は、０〜
「キャッシュブロック長」程度の値が適当である。以下
では、ＤＣmax が４であると仮定する。ただし、これに
限らず、しきい値ＤＣmax の値は、キャッシュ競合が発
生するか否かを判定できるような値であればよい。本実
施例では、ここでの判定により、CAG(i)内のメモリ参照
のメモリブロックとCAG(j)内のメモリ参照のメモリブロ
ックとが同一のキャッシュブロックにマッピングされる
か否か、すなわち、これらのメモリ参照どうしがキャッ
シュ競合を起こすか否かを判定している。

【０１０４】なお、同一のキャッシュブロックにマッピ
ングされるか否かを判定する他の方法として、参照配列
要素の主メモリ上での位置からマッピングされるキャッ
シュブロックを直接求めるようにしてもよい。ただし、
この場合、ループの繰り返し回によって配列要素のアド
レスが変化するので、マッピングされるキャッシュブロ
ックも変化することを十分に考慮する必要があり、処理
は多少複雑になる。本実施例での判定方法をそのように
拡張することも可能である。

【０１０５】ステップ３４１２では、キャッシュ競合グ
ラフ９５００内のノードｉとｊの間に既にエッジがある
か否かを判定する。判定結果が偽の場合は、ステップ３
４１４に進んで、ノードｉとｊの間に新たなエッジを張
る。判定結果が真の場合は、ステップ３４１４をスキッ
プして、ステップ３４１６に進む。

【０１０６】次に、上記のステップ３４０８の処理、す
なわちキャッシュ参照群CAG(i)とCAG(j)のキャッシュ１
１０上の距離dcを求める処理について説明する。

【０１０７】図１２は、このステップ３４０８の処理の
詳細な手順を示すフローチャートである。まず、ステッ
プ３４５２で、距離dcの初期値としてＤＣmax ＋１を設
定する。ステップ３４５４からステップ３４６６は繰り
返し処理であり、キャッシュ参照群CAG(i)に登録された
すべてのメモリ参照Aiについて処理する。

【０１０８】ステップ３４５６では、メモリ参照Aiとキ
ャッシュ参照群CAG(j)の距離diffcを求める。この処理
方法は、図１０で説明したステップ３２１８の処理とほ
ぼ同じなので、詳細は省略する。ステップ３４５８で
は、距離diffc が定数であるか否かを判定する。判定結
果が真の場合はステップ３４６０に進み、偽の場合はス
テップ３４７０に進む。

【０１０９】ステップ３４６０では、距離diffc をキャ
ッシュサイズで割った余りを計算し、結果をdiffc に再
設定する。この計算により、キャッシュ１１０上での距
離を求めている。ステップ３４６２では、距離diffc の
絶対値がdc未満か判定する。判定結果が真の場合はステ
ップ３４６４に進んで、diffc の絶対値をdcに再設定す
る。偽の場合は、ステップ３４６４をスキップして、ス
テップ３４６６に進む。ステップ３４７０では、diffc
を式のままdcに代入する。

【０１１０】以上で、キャッシュ競合グラフ解析３４が
終了し、キャッシュ競合グラフ９５００が作成されたこ
とになる。そして、図８で説明したように、ステップ３
６の判定を経て、キャッシュ競合解析３０が終了する。

【０１１１】図１８に、図２のソースプログラム３の中
間コード５（図９）に対してキャッシュ競合解析３０
（図８〜図１２）を行った場合に出力されるキャッシュ
競合情報９の内容を示す。図１８において、９５０はキ
ャッシュ競合グラフ９５００であり、９９０はキャッシ
ュ参照群情報９９００である。９０１、９１１、９２
１、９３１、９４１は、それぞれ１つのキャッシュ参照
群９０１０である。また、９５１〜９５５はキャッシュ
競合グラフ９５０のノードであり、各キャッシュ参照群
９０１０のキャッシュ参照群番号９０２０が付加されて
いる。

【０１１２】図１８のキャッシュ競合グラフ９５０によ
り、番号が１と２と５のキャッシュ参照群９０１と９１
１と９４１は、互いにキャッシュ競合を起こすことが分
かる。また、番号が３と４のキャッシュ参照群９２１と
９３１は、互いにキャッシュ競合を起こすことが分か
る。

【０１１３】さらに、キャッシュ参照群９０１は、A(I,
J)とA(I+1,J)の２つのメモリ参照から成り、他は、単独
のメモリ参照から成ることが分かる。A(I,J)とA(I+1,J)
が同じキャッシュ参照群９０１に入るのは、キャッシュ
参照群解析３２において、これらのアドレス計算式「Ａ
の先頭＋ 4*(I-1+256*(J-1))」と「Ａの先頭＋ 4*(I+1-
1+256*(J-1))」の差が−４になり、絶対値がＤmax （こ
こではＤmax ＝４）以下になるからである。

【０１１４】また、キャッシュ競合グラフ９５０におい
て、ノード９５２とノード９５１の間にエッジがあるの
は、キャッシュ競合グラフ解析３４において、これらの
ノードの番号に対応したキャッシュ参照群９１１とキャ
ッシュ参照群９０１内のメモリ参照B(I,J,2)とA(I,J)の
アドレス計算式「Ｂの先頭＋ 4*(I-1+256*(J-1)+256*12
8*(2-1))」と「Ａの先頭＋ 4*(I-1+256*(J-1))」との差
が「4*256*128 ＋Ｂの先頭−Ａの先頭」となり、また、
図３に示したように配列Ｂの先頭が配列Ａの先頭から12
8Kバイト後にあることから、上記の差が256Kバイトにな
り、キャッシュサイズ（256Kバイト）で割った余りが０
となり、絶対値がＤＣmax （ここでは、ＤＣmax ＝４）
以下になるためである。

【０１１５】図１８の他の部分については、説明を省略
する。

【０１１６】以上のようにして、キャッシュ競合情報を
作成したら、次に図１のステップ４０の判定を介してメ
モリ参照順序制御５０を行う。以下、メモリ参照順序制
御５０の処理について詳細に説明する。メモリ参照順序
制御５０では、一度キャッシュブロックに転送されたメ
モリブロックへのすべての参照が完了する前にそのブロ
ックをキャッシュ１１０から追い出さすことがないよう
に、メモリ参照の順序を並び替え、キャッシュ競合を削
減する。

【０１１７】図１３は、メモリ参照順序制御５０の処理
手順の概略を示すフローチャートである。

【０１１８】まず、ステップ５１では、キャッシュ競合
情報９に基づき、キャッシュ競合を起こすキャッシュ参
照群９０１０のみを対象として、これに含まれるメモリ
参照の文の中間コード５の参照群番号３３０の部分にキ
ャッシュ参照群番号９０２０を書き込む。

【０１１９】例えば、図１８のキャッシュ競合情報９に
基づき図１６の中間コード５にこの処理を行うと、図１
９に示される中間コード５になる。参照群番号３３０の
欄に、対応するキャッシュ参照群番号が書き込まれてい
る。

【０１２０】次に、ステップ５２では、キャッシュ競合
情報９に基づき、次のステップ５３で行うループ展開の
方法を決定する。メモリ参照順序制御５０でループ展開
５３を行うのは、同一メモリブロックへのメモリ参照が
複数のループ繰り返しにまたがって起こるためである。
ループ展開５３によって、メモリ参照の並び替えを複数
のループ繰り返しにまたがって実施できるので、キャッ
シュ競合削減２０の効果を増大することができる。ステ
ップ５２では、そのために最適なループ展開方法を決定
する。なお、このステップ５２のループ展開方法決定に
ついては、後に詳細に説明する。

【０１２１】例えば、図１８のキャッシュ競合情報に基
づき図１９の中間コード５のループ展開方法を決定する
と、I についての最内側ループに対して４倍展開すると
良いことが分かる。

【０１２２】次に、ステップ５３では、ステップ５２で
決められたループ展開方法に従ってループ展開を行う。
なお、ループ展開５３の処理方法は公知なので、処理の
詳細は省略する。

【０１２３】次に、ステップ５４では、ステップ５３の
ループ展開によって生成された中間コード５内におい
て、同一の変数への代入文を探し、その変数名のリネー
ミングが可能であればリネームする。この処理により、
必要な場合以外は代入先変数が異なるようになるので、
中間コード並び替えの自由度が増し、より最適な並び替
えが行える。逆に、同一の変数への代入文がそのまま残
っていると、それらの代入文どうしは順序を入れ替えら
れないので、中間コード並び替えが困難になる。このス
テップ５４の変数名リネーミングの処理も公知技術なの
で、処理の詳細は省略する。

【０１２４】例えば、図１９の中間コード５に対してス
テップ５３のループ展開とステップ５４の変数名リネー
ミングとを行うと、図２０のような中間コード５にな
る。上述したように、ステップ５２のループ展開方法決
定で、Ｉについての最内側ループに対して４倍展開する
と良いことが分かっているので、図２０ではそのように
Ｉについて４倍に展開されている。また、リネーミング
が可能な変数についてはリネームが成されている。

【０１２５】次に、ステップ５５で、中間コード５内の
同一配列要素への参照を削除する。これにより、冗長な
メモリ参照が削除される。このステップ５５の配列共通
式削除の処理も公知技術なので、処理の詳細は省略す
る。

【０１２６】例えば、図２０の中間コード５に対してス
テップ５５の配列共通式削除を行うと、図２１のような
中間コード５になる。ここでは、図２０のコード番号３
０５が１１と２１と３１の文が削除されている。ループ
展開を実施するとこのような冗長な配列参照が多数発生
するので、本ステップが必要となる。

【０１２７】次に、ステップ５７で、キャッシュ競合情
報９と中間コード５に書き込まれた参照群番号３３０に
基づき、中間コード５を並び替えてキャッシュ競合を削
減する。具体的には、一度キャッシュブロックに転送さ
れたメモリブロックへのすべての参照が完了する前にそ
のブロックをキャッシュ１１０から追い出すことがない
ように、メモリ参照の順序を並び替える。

【０１２８】以上で、メモリ参照順序制御５０の処理の
概要を説明した。

【０１２９】本実施例では、本発明の最良の構成を示し
ているので、メモリ参照順序制御５０は多くの処理ステ
ップを含んでいるが、上記の処理うち、ループ展開方法
決定５２、ループ展開５３、変数名リネーミング５４、
および配列共通式削除５５については、一部のみ実施し
てもある程度の効果が得られる。

【０１３０】例えば、ループが十分にループ展開されて
いるソースプログラム３に対しては、ループ展開方法決
定５２およびループ展開５３は無くてもよい。逆に、ル
ープ本体が全く展開されていないソースプログラムに対
しては、これら２つのステップは不可欠である。このよ
うな部分的な実施例も種々に考えられるが、詳細は省略
する。

【０１３１】また、ループ展開５２から配列共通式削除
５５の処理によって中間コード５は種々の変更を受ける
ため、ステップ５７の直前で再びキャッシュ競合解析３
０とキャッシュ参照群番号９０１０の中間コード５への
書き込み５１を実施するようにしてもよいが、キャッシ
ュ競合削減２０の効果は余り変わらないので、詳細は省
略する。

【０１３２】次に、図１３のメモリ参照順序制御のう
ち、ステップ５２のループ展開方法決定の処理、および
ステップ５７の中間コード並び替えによるキャッシュ競
合削減の処理について詳細に説明する。まず、ループ展
開方法決定の処理の詳細について説明する。

【０１３３】図１４は、図１３のステップ５２のループ
展開方法決定処理の詳細なフローチャートである。ま
ず、ステップ５２１で、キャッシュ競合情報９を用い
て、ループ展開方法の候補の一覧であるループ展開候補
表８を作成する。

【０１３４】図２２（ａ）に、ループ展開候補表８の構
造を示す。ループ展開候補表８は、キャッシュ競合を起
こす各キャッシュ参照群９０１０ごとに、そのキャッシ
ュ参照群番号８２、最適な展開対象ループ候補８４、お
よびループ展開数候補８６を保持する。

【０１３５】ステップ５２１でループ展開候補表８を作
成したら、ステップ５３６で、ループ展開候補表８に一
番多く現われる展開対象ループ候補８４を探し、これを
展開対象ループとする。次に、ステップ５３８では、展
開対象ループのループ展開数候補のうち最大のものをル
ープ展開数とする。

【０１３６】以上により、キャッシュ競合削減２０に最
適なループ展開方法が決定される。

【０１３７】次に、ステップ５２１のループ展開候補表
作成の処理について詳細に説明する。ループ展開候補表
作成５２１では、各キャッシュ参照群CAG(i)について、
ステップ５２２〜ステップ５３４の処理を繰り返す。

【０１３８】まず、ステップ５２４では、キャッシュ競
合情報９を用いて、キャッシュ参照群CAG(i)が他のキャ
ッシュ参照群９０１０とキャッシュ競合するか否かを判
定する。判定結果が真の場合はステップ５２６に進み、
偽の場合は以下の処理をスキップしてステップ５３４に
進む。

【０１３９】ステップ５２６では、キャッシュ参照群CA
G(i)内のメモリ参照の１つを選んで、そのアドレス計算
式９０９０をAEとする。ステップ５２８では、展開対象
ループ候補８４を決定する。展開対象ループ候補８４と
しては、ループ展開可能なループのうち、ループ制御変
数をii、その増分をinc としたとき、abs(AE[ii+inc]−
AE[ii])が最小となるループとする。abs(AE[ii+inc]−
AE[ii])は、メモリ参照のストライドとよばれ、メモリ
参照のメモリ上での間隔を表わしている。

【０１４０】次に、ステップ５３０では、展開対象ルー
プ候補８４に対するループ展開数候補８６を求める。ル
ープ展開数候補８６としては、キャッシュ参照群CAG(i)
内のすべてのメモリ参照がループ展開後も１つのメモリ
ブロックに収まるようなループ展開数のうち最大のもの
とする。ステップ５３２では、キャッシュ参照群番号８
２、最適な展開対象ループ候補８４、およびループ展開
数候補８６を、ループ展開候補表８に書き込む。

【０１４１】図２２（ｂ）は、図１８のキャッシュ参照
競合情報９に対して上述の手順で作成されたループ展開
候補表８を示す。展開対象ループ候補８４として「DO
20I=1,255 」が多く現れており、ループ展開数候補８６
の最大が「４」になっている。したがって、ステップ５
３６，５３８では、これらがループ展開の対象および展
開数として選択される。

【０１４２】次に、図１３のステップ５７の中間コード
並び替えによるキャッシュ競合削減５７について詳細に
説明する。

【０１４３】図１５は、中間コード並び替えによるキャ
ッシュ競合削減５７の詳細なフローチャートである。こ
こでの処理は、プログラム高速化のための一般的な命令
並び替え処理であるリストスケジューリングをベースに
している。リストスケジューリングについては、例えば
「日経エレクトロニクス 1991.3.4 (no. 521), pp.165
- 185 」に示されている。

【０１４４】なお、命令並び替えの方法は、ここで示す
方法以外にも種々の方法が適用できる。キャッシュ競合
を削減するために必要なことは、一度キャッシュブロッ
クに転送されたメモリブロックへのすべての参照が完了
する前にそのブロックをキャッシュから追い出すことが
ないように、メモリ参照の順序を調整することである。
本実施例では、そのために、スケジューリングする命令
を途中で篩い分ける処理を追加している。後述のステッ
プ５８４がこのための処理である。これに加え、メモリ
参照の並び替えができない部分があっても正しく動作す
るように、ステップ５８２、ステップ５８６、ステップ
５９０の処理を付け加えてある。

【０１４５】中間コード並び替えによるキャッシュ競合
削減５７での処理は、大きく分けて２つのステップより
なる。まず、ステップ５７０では、中間コード５の各文
をスケジュール表２６に割り当てる。ス

【０１４６】スケジュール表２６は、プログラム実行の
各時刻（タイムスロット）毎の実行文を示す表であり、
図２４のような形式を有する。各行は、タイムスロット
値３０３、文番号３０５、３番地文３２０、および参照
群番号３３０より成る。なお、１つのタイムスロットで
複数の文が実行可能な場合は、３０５、３２０、３３０
の欄が複数回繰り返された構造となる。

【０１４７】ステップ５７０で中間コード５の各文をス
ケジュール表２６に割り当てた後、ステップ５９２で、
スケジュール表２６内での文の順番に従って、中間コー
ド５を並び替える。これにより、中間コードの並び替え
が実現される。

【０１４８】次に、上記ステップ５７０の中間コード５
の各文をスケジュール表２６に割り当てる処理について
詳細に説明する。

【０１４９】まず、ステップ５７２では、中間コード５
に対するデータ依存グラフ２４を作成する。データ依存
グラフ２４は、中間コード５内の各文間での実行の順序
関係を示すグラフである。次に、ステップ５７４では、
データ依存グラフ２４内の各ノードに対してクリティカ
ルパス法による優先順位を付ける。

【０１５０】図２３に、図２１の中間コード５に対する
データ依存グラフ２４を示す。データ依存グラフ２４
は、中間コード５の各文をノードとして、文間での実行
順序関係をノードを接続するアークで表現している。各
ノードおよびアークには、付加的な情報が付けられてい
る。例えば、ノード２４２内の、左側の数字はコード番
号３０５であり、右側の文はコード番号３０５での３番
地文である。ノードの右側に付加された数字は、文を実
行する際の優先度と参照群番号３３０である。ただし、
参照群番号３３０はキャッシュ競合を起こすメモリ参照
にのみ付加されている。

【０１５１】アーク２４４は、ノード２４２の文がノー
ド２４６の文に先行して実行しなければならないことを
表わす。アークについた数字は、先行する文の実行の所
要時間を表わす。なお、クリティカルパス法による優先
順位は、各ノードから終端ノードへ至る最長パスの所要
時間である。

【０１５２】ステップ５７４で優先順位を決定した後、
ステップ５７６で、現在タイムスロットを表わす変数ｔ
に１を設定する。ステップ５７８では、まだスケジュー
ル表に割り当てられていない文のうち、タイムスロット
ｔで実行可能なものの集まりＳＲを検出する。ただし、
文がタイムスロットｔで実行可能とは、直接の先行文が
すべてスケジュール表に割り当てられていて、タイムス
ロットｔ以前にそれらの実行が完了していることを示
す。

【０１５３】次に、ステップ５８０ではＳＲが空か判定
する。判定結果が真の場合はステップ５９２へ進み、偽
の場合はステップ５８２に進む。ステップ５８２では、
ＳＲの内容をＳＲorigに保存する。

【０１５４】ステップ５８４では、「一部のメモリ参照
のみがスケジュール表に割り当て済みのキャッシュ参照
群」とキャッシュ競合するキャッシュ参照群に属するメ
モリ参照の文をＳＲから除く。このステップにより、一
度キャッシュブロックに転送されたメモリブロックへの
すべての参照が完了する前にそのブロックをキャッシュ
から追い出さないように制御している。

【０１５５】なお、ここでＳＲから除かれたメモリ参照
文は、スケジュール表への割り当てを中止したわけでは
なく、延期するだけである。各メモリ参照文は、その文
でのメモリ参照がキャッシュ競合するメモリ参照を含む
キャッシュ参照群内の文がすべてスケジュール表に割り
当てられた後に、スケジュール表に割り当てられる。

【０１５６】次に、ステップ５８６では、ＳＲが空か否
か判定し、真の場合はステップ５９０に進み、偽の場合
はステップ５８８に進む。ここでの判定により、キャッ
シュ競合を生じるメモリ参照文以外にタイムスロットｔ
で実行可能な文が無いかどうかを判定している。すなわ
ち、ＳＲが空の場合は、そのようなメモリ参照文以外に
タイムスロットｔで実行可能な文が無い場合であり、ス
テップ５９０に進む。ＳＲが空でない場合は、キャッシ
ュ競合を生じない文がタイムスロットｔで実行可能な場
合であり、ステップ５８８に進む。

【０１５７】ステップ５９０は、キャッシュ競合を生じ
るメモリ参照文以外にタイムスロットｔで実行可能な文
が無い場合の処理であり、それらのメモリ参照文の中か
らスロットｔに割り当てる文が選ばれるように、ＳＲの
値が再設定される。すなわち、ステップ５７８で求めら
れた時点でのＳＲの内容であるＳＲorigをＳＲに再設定
している。この場合、キャッシュ競合が必ず発生する
が、このように実行可能な文がメモリ参照文のみで、し
かも、キャッシュ競合を生じる文だけである状況は希で
あり、大きな問題は無い。

【０１５８】また、このような場合、別法として、タイ
ムスロットｔに文を割り当てるのを諦め、ｔの値を１増
やしてステップ５７８からの処理を続けるようにしても
よい。ただし、この方法では、何も割り当てないタイム
スロットをいくつまで許すか判定しないと、処理が終了
しないことがあるので注意が必要である。この様な種々
の別法を用いることも本発明の範囲である。

【０１５９】次に、ステップ５８８では、ＳＲ内で優先
度が一番高い文の１つをスケジュール表のタイムスロッ
トｔの部分に割り当て、ステップ５７８に進んで、ルー
プ処理を繰り返す。なお、ステップ５８８がステップ５
８６の直後に実行される場合は、タイムスロットｔで実
行可能な文の内、キャッシュ競合を生じず、かつ、優先
度が一番高い文がスケジュール表に割り当てられる。ま
た、ステップ５９０の直後に実行される場合は、キャッ
シュ競合を生じる文がスケジュール表に割り当てられる
が、優先度が一番高い文が選ばれる。ステップ５８８で
優先度が一番高い文が複数ある場合の選択法については
種々の従来技術があるが、本発明には大きく影響しない
ので、詳細は省略する。

【０１６０】ステップ５９２では、スケジュール表にま
だ割り当てていない文が残っているか否か判定し、これ
が真の場合はステップ５９６で現在タイムスロットｔを
１増やして、ステップ５７８に進んでループする。偽の
場合は処理を終える。

【０１６１】図２４は、上述の手順で割り当てたスケジ
ュール表の例を示す。これは、図２３のデータ依存グラ
フ２４に対するスケジュール表である。ステップ５８４
の処理の効果として、互いにキャッシュ競合を起こすキ
ャッシュ参照群番号９０２０が１、２、５のキャッシュ
競合群９０１０に属するメモリ参照文は互いに混じらず
に並んでいる。３、４のキャッシュ競合群９０１０も同
様である。これにより、一度キャッシュブロックに転送
されたメモリブロックへのすべての参照が完了する前に
そのブロックをキャッシュから追い出されることを防い
でいる。

【０１６２】図２５は、図２４のスケジュール表２６に
従って並び替えた後の中間コード５である。この後、図
１に示したようにコンパイラ１の処理のうちキャッシュ
競合削減２０に引き続くステップであるコード生成６０
を実行することにより、最終的には図２６に示すオブジ
ェクトプログラム７が生成される。

【０１６３】図２７に、図２６のオブジェクトプログラ
ム７に対するキャッシュ競合発生状況を示す。従来技術
の欄で説明したように、図７に、キャッシュ競合削減２
０を適用しない場合のキャッシュ競合発生状況を示す。
図２７では、図７の場合に較べて、キャッシュ競合によ
って発生する競合性キャッシュミスが全く無くなってい
ることが分かる。

【０１６４】本実施例の効果について定量的に評価して
みる。現在市場に出ているコンピュータでは、通常は１
命令当り１サイクルで実行を終えるが、キャッシュミス
を起こすと１０サイクル程度の時間がかかるので、その
ような尺度で計算する。

【０１６５】まず、本実施例によるキャッシュ競合削減
を行う前の図６のオブジェクトプログラム５を実行した
ときの図７のキャッシュ競合発生状況から、ループ４回
分の実行サイクルを求める。１ループに対しキャッシュ
ミスが６回（各キャッシュミスに対し１０サイクルかか
るとする）発生しており、キャッシュミスが発生した命
令以外の命令の数は７つであるから、４ループ＊（キャ
ッシュミス６回＊１０サイクル＋その他の命令実行７
回）＝２６８サイクルである。

【０１６６】一方、本実施例によりキャッシュ競合削減
を行った結果の図２６のオブジェクトプログラム５を実
行したときの図２７のキャッシュ競合発生状況から、ル
ープ４回分の実行サイクルを求めると、キャッシュミス
６回＊１０サイクル＋その他の命令実行３３＝９３サイ
クルとなる。したがって、約２．９倍高速化されたこと
になる。

【０１６７】本実施例によれば、メモリ参照順序制御５
０をプログラムの中間コード５に対して実施するため、
少数のレジスタをメモリ参照命令に割り当ることによっ
て生じる余分な依存関係が生じず、メモリ参照の並び替
えの自由度が増す。そのため、メモリ参照を最適な位置
に移動することが可能となり、キャッシュ競合の削減率
が向上する。

【０１６８】なお、本実施例ではメモリ参照順序制御５
０をプログラムの中間コード５に対して実施したが、オ
ブジェクトプログラム７に対して実施することも可能で
ある。その場合、中間コード５の段階では生成を予期で
きなかった命令語を含めたすべての命令語を対象として
命令語の並び替えが実施できるので、より精密な並び替
えを行える。

【０１６９】また、メモリ参照順序制御５０をプログラ
ムの中間コード５とオブジェクトプログラム７の両方で
行うことも可能である。この場合、上記の２つの実施例
の両者の利点を同時に生かせるので、最適なキャッシュ
競合削減が行える。

【０１７０】また、メモリ参照順序制御５０をプログラ
ムの中間コード５に対して実施した後で、この結果をソ
ースプログラム５に再変換して外部に出力することも可
能である。この場合、キャッシュ競合削減２０の効果を
何れのコンパイラ１でも利用できるので、キャッシュ競
合削減２０の汎用性が増大する。

【０１７１】なお、上記実施例では、ダイレクトマップ
方式のキャッシュに対して本発明を適用した例を示した
が、本発明は、これに限らず、セット・アソシアティブ
方式のキャッシュに対しても適用できる。

【０１７２】

【発明の効果】以上説明したように、本発明によれば、
キャッシュ競合により大幅な性能低下を引き起こすプロ
グラムに対して、キャッシュ競合の発生を削減すること
ができ、その実行を高速化することができる。特に、ダ
イレクトマップ方式のキャッシュを備えたコンピュータ
で動作するプログラムをコンパイルする際に用いて好適
である。

【図面の簡単な説明】

【図１】本発明の一実施例に係るコンパイル方法を適用
したコンパイラの構成図。

【図２】キャッシュ競合削減の例題ソースプログラムを
示す図。

【図３】主メモリのキャッシュへのマッピング状況の概
況を示す図。

【図４】主メモリのキャッシュへのマッピング状況の詳
細（その１）を示す図。

【図５】主メモリのキャッシュへのマッピング状況の詳
細（その２）を示す図。

【図６】実施例によるキャッシュ競合削減を行う前のオ
ブジェクトプログラムを示す図。

【図７】実施例によるキャッシュ競合削減を行う前のキ
ャッシュ競合状況を示す図。

【図８】キャッシュ競合解析のフローチャート図。

【図９】キャッシュ参照群解析の詳細フローチャート
図。

【図１０】キャッシュ参照群解析における距離計算の詳
細フローチャート図。

【図１１】キャッシュ競合グラフ解析の詳細フローチャ
ート図。

【図１２】キャッシュ競合グラフ解析における距離計算
の詳細フローチャート図。

【図１３】メモリ参照順序制御の概略フローチャート
図。

【図１４】ループ展開方法決定の詳細フローチャート
図。

【図１５】中間コード並び替えによるキャッシュ競合削
除の詳細フローチャート図。

【図１６】キャッシュ競合削減実施前の中間コードを示
す図。

【図１７】キャッシュ競合情報の構造を示す図。

【図１８】例題プログラムのキャッシュ競合情報を示す
図。

【図１９】キャッシュ参照群番号書き込み後の中間コー
ドを示す図。

【図２０】ループ展開および変数リネーミング完了後の
中間コードを示す図。

【図２１】配列共通式削除後の中間コードを示す図。

【図２２】ループ展開候補表の構造、および例題プログ
ラムに対するループ展開候補表を示す図。

【図２３】データ依存グラフを示す図。

【図２４】スケジュール表を示す図。

【図２５】キャッシュ競合削減実施後の中間コードを示
す図。

【図２６】キャッシュ競合削減実施後のオブジェクトプ
ログラムを示す図。

【図２７】キャッシュ競合削減実施後のキャッシュ競合
状況を示す図。

【符号の説明】

１…コンパイラ、３…ソースプログラム、５…中間コー
ド、７…オブジェクトプログラム、８…ループ展開候補
表、９…キャッシュ競合情報、１０…構文解析、２０…
キャッシュ競合削減、２４…データ依存グラフ、３０…
キャッシュ参照群解析、３２〜３９…キャッシュ競合解
析の処理ステップ、５０…メモリ参照順序制御、５１…
キャッシュ参照番号の中間コードへの書き込みステッ
プ、５２…ループ展開方法決定、５３…ループ展開、５
４…変数名リネーミング、５５…配列共通式削除、５７
…中間コード並び替えによるキャッシュ競合削除ステッ
プ、６０…コード生成、８２…キャッシュ参照番号、８
４…展開ループ候補、８６…ループ展開数候補。１１０
…キャッシュ、１１２〜１１６…キャッシュブロック、
１２０…主メモリ、２４２…データ依存グラフのノー
ド、２４４…データ依存グラフのアーク、３０３…タイ
ムスロッット値、３０５…文番号、３１０…ラベル、３
２０…３番地文、３３０…参照群番号、５２１〜５３８
…ループ展開候補表作成の処理ステップ、５７０〜５９
２…中間コード並び替えによるキャッシュ競合削減の詳
細ステップ、９５０…例題プログラムのキャッシュ競合
グラフ、９０１, ９１１, ９２１, ９３１, ９４１…例
題プログラムのキャッシュ参照群、９５１〜９５５…例
題プログラムでのキャッシュ競合グラフのノード、９９
０…例題プログラムのキャッシュ参照群情報、３２０２
〜３２３６…キャッシュ参照群解析の処理ステップ、３
２５２〜３２７２…ステップ３２１８の詳細ステップ、
３４０２〜３４１８…キャッシュ競合グラフ解析の処理
ステップ、３４５２〜３４７０…３４０８の詳細ステッ
プ、９５００…キャッシュ競合グラフ、９５１０, ９５
２０…キャッシュ競合グラフのノード、９５９０…キャ
ッシュ競合グラフのエッジ、９０１０…キャッシュ参照
群、９０２０…キャッシュ参照群番号、９０４０…文番
号、９０６０…参照配列要素、９０９０…アドレス計算
式、９９００…キャッシュ参照群情報。

Claims

(57)【特許請求の範囲】

【請求項１】データキャッシュメモリを有するコンピュ
ータに対するオブジェクトプログラムを生成するコンパ
イル方法において、入力されたソースプログラムを中間コードに変換する構
文解析ステップと、該中間コード中の複数のメモリ参照命令でそれぞれ参照
するデータのアドレス計算式どうしを比較して参照デー
タのデータキャッシュ上での位置どうしの間の距離を求
めることによりメモリ参照命令間でのキャッシュ競合発
生状況を解析してキャッシュ競合情報として出力するキ
ャッシュ競合解析ステップと、該キャッシュ競合情報に基づいて、メモリ参照命令の実
行によって一度キャッシュブロックに転送されたメモリ
ブロックを参照するすべてのメモリ参照命令の実行が完
了するまで該メモリ参照命令のいずれかとキャッシュ競
合するメモリ参照命令の実行開始を遅延させるように、
前記中間コード内のメモリ参照命令の順番を並び替える
メモリ参照順序制御ステップと、前記中間コードからオブジェクトプログラムを生成する
コード生成ステップとを備えたことを特徴とするコンパ
イル方法。
【請求項２】請求項１に記載のコンパイル方法におい
て、前記キャッシュ競合解析ステップは、前記中間コード中のメモリ参照命令を抽出して同一のメ
モリブロックへのメモリ参照命令をキャッシュ参照群と
してまとめた情報であるキャッシュ参照群情報を作成
し、該キャッシュ参照群情報を出力するキャッシュ参照
群解析ステップと、該キャッシュ参照群情報に基づいて、任意の２つのキャ
ッシュ参照群のペアがキャッシュ競合するメモリ参照命
令のペアを含むときそれらのキャッシュ参照群間が競合
すると判定し、そのような判定を各２つのキャッシュ参
照群のペアに対して行なうことにより、キャッシュ参照
群どうしの間でのキャッシュ競合状況を表すキャッシュ
競合グラフを作成し、該キャッシュ競合グラフをキャッ
シュ競合情報として出力するキャッシュ競合グラフ解析
ステップとを備えたことを特徴とするコンパイル方法。
【請求項３】請求項２に記載のコンパイル方法におい
て、前記キャッシュ参照群解析ステップは、前記中間コード
中のメモリ参照命令で参照するデータどうしの主メモリ
上の距離が所定値以下のとき、それらのメモリ参照命令
が同一のメモリブロックを参照するものと判定して、そ
れらのメモリ参照命令を同じキャッシュ参照群に登録す
ることを特徴とするコンパイル方法。
【請求項４】請求項２に記載のコンパイル方法におい
て、前記キャッシュ参照群解析ステップは、前記中間コード
中のメモリ参照命令で参照する主メモリ上の位置から、
そのメモリ参照命令で参照するメモリブロックを求め、
同じメモリブロックを参照するメモリ参照命令を同じキ
ャッシュ参照群に登録することを特徴とするコンパイル
方法。
【請求項５】請求項２に記載のコンパイル方法におい
て、前記キャッシュ競合グラフ解析ステップは、前記キャッ
シュ参照群情報に含まれる任意の第１および第２のキャ
ッシュ参照群について、第１のキャッシュ参照群に含ま
れるすべてのメモリ参照命令で参照するデータと第２の
キャッシュ参照群に含まれるすべてのメモリ参照命令で
参照するデータとの間のキャッシュ上の距離の最小値を
求め、該最小値が所定値以下のとき、上記第１のキャッ
シュ参照群と第２のキャッシュ参照群との間にキャッシ
ュ競合が発生すると判定することを特徴とするコンパイ
ル方法。
【請求項６】請求項２に記載のコンパイル方法におい
て、前記キャッシュ競合グラフ解析ステップは、前記キャッ
シュ参照群情報に含まれる任意の第１および第２のキャ
ッシュ参照群について、第１のキャッシュ参照群に含ま
れるすべてのメモリ参照命令で参照する主メモリ上の位
置からマッピングされるキャッシュブロックを求め、同
様に第２のキャッシュ参照群に含まれるすべてのメモリ
参照命令で参照する主メモリ上の位置からマッピングさ
れるキャッシュブロックを求め、同じキャッシュブロッ
クにマッピングされるメモリ参照命令がある場合に、こ
れら第１のキャッシュ参照群と第２のキャッシュ参照群
との間にキャッシュ競合が発生すると判定することを特
徴とするコンパイル方法。
【請求項７】請求項１に記載のコンパイル方法におい
て、前記メモリ参照順序制御ステップは、前記中間コード中
のループに対しループ展開を行った後に、前記メモリ参
照命令の順番の並び替えを行うことを特徴とするコンパ
イル方法。
【請求項８】請求項７に記載のコンパイル方法におい
て、前記ループ展開は、ループ展開可能なループのうち、そ
のループ内のメモリ参照命令が参照するメモリ上での間
隔が最小となるループを展開対象ループとし、ループ展
開後の各メモリ参照命令が参照する範囲が１つのメモリ
ブロックに収まるようなループ展開数のうち最大のもの
をループ展開数として、ループ展開することを特徴とす
るコンパイル方法。