JP2003108386A

JP2003108386A - 間接参照データプリフェッチ方法

Info

Publication number: JP2003108386A
Application number: JP2001299718A
Authority: JP
Inventors: Hiroyasu Nishiyama; 博泰西山
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2001-09-28
Filing date: 2001-09-28
Publication date: 2003-04-11
Also published as: US7165148B2; US20050262308A1; US20030065888A1; US6934808B2

Abstract

(57)【要約】【課題】命令オーバヘッドを削減して、間接参照配列
についてもデータプリフェッチを行なうことにより、間
接配列参照を行なうプログラムの実行性能を向上するこ
と。【解決手段】従来のコンパイラでは、はデータ参照の
局所性が検出できなかったため、間接参照配列はデータ
プリフェッチの対象とならなかった。間接参照配列につ
いて、添字の値が、単調増加あるいは単調減少する傾向
を持つことを、ユーザ指示やコンパイラによる解析によ
って検出し、この情報を利用することによって冗長なプ
リフェッチ命令の発行を抑止するとともに、間接参照配
列についてもデータプリフェッチを行なう。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明はデータプリフェッチ
方式に関し、さらに詳しくは、プリフェッチ命令を備え
るプロセッサ向けに、プリフェッチを効果的に利用する
ことによって間接配列参照を高速化するコンパイル方法
に関する。

【０００２】

【従来の技術】命令レベル並列度や周波数の向上によっ
てマイクロプロセッサの性能は飛躍的に向上を続けてい
る。これに対して、計算機の主記憶を構成するＤＲＡＭ
の性能向上はプロセッサ性能の向上に比べ低いレベルに
留まっている。この結果、主記憶参照に要するサイクル
数は増加を続ける傾向にある。

【０００３】図２に示すように、多くのマイクロプロセ
ッサでは、このような主記憶参照時間を隠蔽するための
方式として、主記憶と比較して高速に参照可能なキャッ
シュと呼ばれる少容量のメモリをプロセッサと主記憶の
間に配置し、最近参照したデータをキャッシュ上に置く
ことによって、主記憶参照に要する時間を短縮するとい
う方式を採っている。ただし、これだけでは、キャッシ
ュ上に無いデータを参照した場合に待ちが生じるので、
主記憶からキャッシュへ指定したアドレスのデータを、
他の命令の実行と並行して先行的に転送するデータプリ
フェッチ命令を用意している。

【０００４】コンパイラはソースプログラムを解析し
て、主記憶参照サイクルが隠蔽できるようにプリフェッ
チ命令を生成するコードの最適化を行なう。ここで、演
算に利用するデータ長は一般に１〜８バイト程度の大き
さである。また、主記憶からキャッシュへのデータ転送
は１２８バイトや６４バイトの大きさのキャッシュライ
ンと呼ばれる単位毎に行なわれる。従って、一度のデー
タプリフェッチによって複数回のループ繰返しで参照す
るデータをキャッシュ上に転送することができる。

【０００５】文献「T.C.Mowry 他、 Design and Evaluat
ion of a Compiler Algorithm forPrefetching， Proce
edings of the 5th International Conference on Arch
itectural Support for Programming Languages and Op
erating Systems， pp.62-73， 1992」に示されている
ような従来技術では、ループ中のデータ参照の空間的局
所性あるいは時間的局所性をループ中の配列添字の解析
から求め、転送したキャッシュラインの再利用率が一定
以上の場合にプリフェッチを行なう。この際、ループ展
開と組み合わせることにより、同一キャッシュラインへ
の冗長なプリフェッチを行なわないようにし、プリフェ
ッチに伴う命令オーバヘッドを低減している。

【０００６】図３を用いて従来技術を説明する。

【０００７】図３（ａ）は本願発明を適用して効果のあ
る、間接参照を伴うループ繰返し処理を行なうソースコ
ードの例を示す。このコードは、配列Ｌ［．．．］の値
を添え字として、配列Ａ［．．．］の値の総和を求める
処理をｉからＮまで実行せよ、ということを意味する。
このような間接参照コードは、疎行列の処理などで頻繁
に利用されるものである。

【０００８】図３（ｂ）は、このソースコードを従来技
術で最適化するとともにプリフェッチ命令を挿入したコ
ードの例を示す。従来技術では、コンパイル時に配列添
字を解析し、キャッシュラインの再利用率の高い配列参
照のみをプリフェッチ対象とするので、連続参照される
配列Ｌ［．．．］のみがプリフェッチの対象となり、再
利用率の不明な配列Ａ［．．．］についてはプリフェッ
チの対象となっていない。なお、ここでαはプリフェッ
チによって主記憶からキャッシュへデータが到着するま
でのループ繰返し回数を表す。また、この例では、プロ
セッサのキャッシュラインの大きさは３２バイトとす
る。演算に利用するデータ長がたとえば８バイトの大き
さである場合は、４要素のデータが主記憶から一括して
転送される。従って、この例では、４回の繰返しに一度
プリフェッチを行なうようにコード化されている。

【０００９】従来方式でも、キャッシュラインの再利用
率が不明な配列Ａ［．．．］についても、常にプリフェ
ッチを発行するようにすることでプリフェッチの適用対
象とすることは可能である。但し、その場合には、１つ
の間接参照に対して１つのプリフェッチを発行する必要
が生じ命令オーバヘッドが増大する。このようにして最
適化されたコードの例を図３（ｃ）に示す。図３（ｃ）
に示すコードを図３（ｂ）のコードと比較すると、プリ
フェッチのための添え字参照と配列Ａ［．．．］のプリ
フェッチのための命令が増加するために、命令数が多く
なっている。このため、一般には間接参照に対するプリ
フェッチは行なわれていない。

【００１０】

【発明が解決しようとする課題】従来技術による最適化
コードでは、間接参照データのプリフェッチのための命
令オーバヘッドを削減しながら、間接参照される配列の
参照時におけるキャッシュミスサイクルを隠蔽すること
ができないので、プログラムの実行性能が低下してしま
うという問題が生じる。

【００１１】

【課題を解決するための手段】上記、従来技術におい
て、間接参照配列に対するプリフェッチのためのオーバ
ヘッドが増加するのは、添字配列の要素の値が離散的で
あることを、プログラム解析の結果、コンパイラが想定
しているためである。すなわち、添字配列の要素の値が
離散的であると、再利用率が悪くなるからである。添字
配列の要素は任意の値をとり得るので、不正な最適化を
行なわないためにはこのように仮定する必要がある。

【００１２】しかしながら、実際のプログラムでは、添
字配列の要素の値は、完全に離散的な値ではなく、例え
ば｛１、２、３、４、６、７、８、９、５１、５２、５
３、５４、５６．．．｝のように、局所的に見るとほぼ
連続的な値をとることが多い。プリフェッチ命令は主記
憶からキャッシュメモリへデータを移動するだけであ
り、キャッシュへのデータ移動はアプリケーションプロ
グラムから見た場合には、データをロードする際のサイ
クル数のみが変化することとなる。

【００１３】従って、上記の添字配列に関して、添字配
列の値が連続的、あるいは、一定の規則に従って変化す
ると認識した結果と、プログラムが実際に動作する際に
添字配列がとった値に一部相違があったとしても、プロ
グラムの結果には違いは生じないことが分かる。

【００１４】本発明では、このように配列添字が連続的
あるいは、一定の規則にしたがって変化する可能性が高
い場合を、コンパイラ解析、ユーザ指示などを元に認識
することにより、従来技術において、間接参照データの
プリフェッチのための命令オーバヘッドを削減しなが
ら、間接参照される配列の参照時におけるキャッシュミ
スサイクルを隠蔽することができない、という問題を解
決する。

【００１５】具体的には、まず、コンパイラ解析、ユー
ザ指示などにより、添字配列の値が一定の増分値を持つ
ことを認識する。この結果、当該添字配列を添字として
参照される配列要素が一定のアドレス間隔で参照される
ことがわかる。よって、ループ展開などの従来技術の最
適化と組み合わせて、プリフェッチを一定のループ繰返
し毎に発行するようにする。この結果、同一キャッシュ
ラインを参照する間接参照配列に対するプリフェッチの
命令数の増加を抑止することが可能となる。

【００１６】以上により、プリフェッチのための命令数
のオーバヘッドの増加を低く保って、間接参照配列に対
するプリフェッチを適用することが可能になり、プリフ
ェッチ命令の実行によるメモリ参照サイクルの隠蔽効果
と併せて、プログラムの実行性能を向上することができ
る。

【００１７】

【発明の実施の形態】以下、本発明の１つの実施例を図
を参照しながら説明する。

【００１８】図２は本発明を実施する計算機システムの
１つの例である。計算機システムはキャッシュメモリ２
０２を含むマイクロプロセッサ２０１、主記憶２０３、
ディスク２０４からなり、プログラムはディスク２０４
に格納される。コンパイラおよびソースプログラムはデ
ィスク２０４に格納され、プロセッサ２０１に読み出さ
れコンパイル処理を行なう。コンパイル結果のプログラ
ムはディスク２０４に格納され、同様にプロセッサ２０
１に読み出され実行される。プロセッサ２０１で通常の
メモリ参照命令の実行を行なう場合には、まずキャッシ
ュメモリ２０２に参照対象のデータがあるかどうかを調
べ、キャッシュメモリ２０２にデータが存在すればその
データを参照し、キャッシュメモリ２０２に参照対象の
データが存在しなければ主記憶２０３上の当該データを
参照すると共に、当該データの属するキャッシュライン
のコピーをキャッシュメモリ２０２に置く。キャッシュ
メモリの参照は主記憶の参照に比べて高速であり、参照
対象のデータがキャッシュメモリ上にあればメモリ参照
によって発生する待ち時間を減少することができる。プ
リフェッチ命令は、他の命令の実行と同時に主記憶２０
３からキャッシュメモリ２０２へ参照対象のデータが属
するキャッシュラインを移動する命令であり、主記憶２
０３からキャッシュメモリ２０２へキャッシュラインを
移動するのに十分なサイクル数だけ前にプリフェッチ命
令を発行しておけば、主記憶２０３からキャッシュメモ
リ２０２へのデータの転送を行なっている間に他の命令
を実行することができるので、当該データを参照するた
めの待ちは無くなる。

【００１９】図１は本発明を実施するコンパイラの最適
化処理フローの構成の１つの例を示す。図１において、
実線は制御の流れを、破線はデータの流れを示してい
る。なお、一般にコンパイラの最適化処理フローは様々
な最適化処理から成るが、ここでは本発明に関連する処
理のみを示している。

【００２０】図１に示す実施例では、最適化処理処理１
０１により中間語１０５に対して、間接参照に対するプ
リフェッチ命令を生成する最適化処理を適用し、中間語
１０９を生成する。最適化処理１０１では、まずループ
構造認識処理１０２によって中間語１０５を解析してプ
ログラム中のループを認識し、中間語１０６とループ表
１０８を生成する。次に、間接参照認識処理１０３で
は、ループ構造認識処理１０２で認識したループに関し
て解析を行ない、ループ中の間接参照を認識する。次
に、間接参照プリフェッチ生成処理１０４では、認識し
た間接参照に関して、プリフェッチ命令を生成し、最適
化された中間語１０９を生成する。これらの処理のう
ち、ループ構造認識処理１０２および間接参照認識処理
１０３は、例えば「A.V.Aho他、Compilers: Principles、
Techniques and Tools、Addison-Wesley、1986, pp.513-
584, Chapter 9: Code Generation, pp. 585-722, Chap
ter 10:Code Optimization」などに開示されている従来
技術により実施することができる。

【００２１】本発明の特徴的な処理である、間接参照プ
リフェッチ生成処理１０４の処理フローを図４に示す。
間接参照プリフェッチ生成処理１０４は、ステップ４０
１で処理を開始し、ステップ４０２でプログラム中のル
ープ集合を図１のループ表１０８を参照して変数Ｌに求
める。次にステップ４０３では、集合Ｌが空集合である
か否かを確かめ、処理すべきループが存在しなければス
テップ４１０に制御を移して、処理を終了する。処理す
べきループがある場合、Ｌから１要素取り出し変数Ｉに
代入する。次に、ステップ４０５では、図１の間接参照
認識処理１０３の結果を参照して、ループＩ中の間接参
照の集合を変数Ｍに求める。次に、ステップ４０６では
集合Ｍが空集合であるか否かを確かめる。Ｍが空集合で
あれば、ステップ４０３に制御を移し次のループを処理
する。Ｍが空集合でなければ、ステップ４０７に制御を
移し、集合Ｍから間接参照を１つ取り出して変数ｍに代
入する。次にステップ４０８では、変数ｍに代入された
間接参照を調べ、ｍの参照が連続であるか否かを確かめ
る。ｍの参照が連続であれば、プリフェッチによる主記
憶参照サイクルの隠蔽効果が期待できるので、ステップ
４０９に制御を移し、間接参照に対するプリフェッチを
生成する。ｍの参照が連続でなければプリフェッチによ
る主記憶参照サイクルの隠蔽効果が期待できないので、
ステップ４０６に制御を移して次の間接参照を処理す
る。ステップ４０９のプリフェッチ生成については、文
献「V.Santhanam他、Data Prefetching on the HP PA-80
00、In Proceedings of the 24th Annual International
Symposium on Computer Architecture、 pp.264-273、 1
997」に示されているような技術を利用して、同一キャ
ッシュラインを参照するプリフェッチ命令の発行を削減
して、プリフェッチを生成する。

【００２２】ステップ４０８では、ループ中の間接参照
について、当該参照が連続であるか否かを判定する。先
にも述べたように、本発明は、実際のプログラムでは、
添字配列の要素の値は、完全に離散的な値ではなく、例
えば｛１、２、３、４、６、７、８、９、５１、５２、
５３、５４、５６．．．｝のように、局所的に見るとほ
ぼ連続的な値をとることが多いことに着目したものであ
るから、この例では、配列の要素の値が１から９までの
部分および５１、５２、５３、５４、５６の部分では
「連続である」と判定するものでなければならない。勿
論、配列の要素の値が９から５１と飛ぶ部分では「不連
続である」と判定するものでなければならない。

【００２３】この判定に関しては、以下に示すような方
法で実現するのが良い。（１）ソースプログラムのコードを解析することにより
自動判定する。（２）コンパイラオプションによりユーザが指示する。（３）コンパイラディレクティブによりユーザがソース
コード上に指示する。（４）提示されたソースコードに対して、ユーザが対話
的に指示する。

【００２４】図５は、上記（１）のコンパイラによる自
動解析を行なう場合の処理フロー４０８を表している。
図５の自動解析処理では、ステップ５０１で処理を開始
し、解析対象となる配列をステップ５０２で変数ｍに格
納する。次に、ステップ５０３でｍの定義式を求め、変
数ｅに格納する。次にステップ５０４で式ｅが「ｉ^*α
＋β」の形式の線形式であるか否かを確かめる。なお、
ここで、ｉは帰納変数とする。線形式でない場合は、ス
テップ５０７に制御を移し、ｍは非連続であるものと
し、ステップ５０８に制御を移して処理を終了する。ｅ
が線形式の場合は、ステップ５０５でｅの増分値｜α｜
が一定値以下であるか否かを判定する。｜α｜が一定値
以下であれば、ステップ５０６に制御を移してｍは連続
であるものとし、ステップ５０８で処理を終了する。｜
α｜が一定値以下でなければ、ステップ５０７に制御を
移してｍは連続でないものとし、ステップ５０８で処理
を終了する。例として、添字配列Ｌの定義ループが図８
に示すものであるとする。ここで、Ｌの添字定義式は
「ｉ^*２」であるので、添字の増分値は２であることが
わかる。連続性の判定の閾値の判定値が４であるものと
すると、Ｌを添字配列として利用する間接参照はプリフ
ェッチ適用対象であると認識される。

【００２５】図６は上記（２）のコンパイラオプション
による指示の例を示している。この例では、添字配列Ｌ
の増分値が２であることをオプションにより指示してい
る。コンパイラは、この増分値を元に、上記の自動解析
の場合と同様に、プリフェッチの適用の可否を判定す
る。

【００２６】同様に、図７は上記（３）のコンパイラデ
ィレクティブの使用例を示している。この例では、「^*o
ption increase(L、2)」というディレクティブにより、
後続ループ中の添字配列Ｌの増分値が２であることを指
示している。図５の例と同様に、この増分値を元に、プ
リフェッチの適用の可否を判定する。

【００２７】図７のようなループに対するディレクティ
ブ指示をユーザが与える場合、ユーザが直接ソースプロ
グラム中にディレクティブを記述しても良いが、上記
（４）のように、図１の間接参照認識処理１０３で認識
した間接参照を含むループをコンピュータのディスプレ
ー上に表示するものとして、各間接参照について添字の
変化量の予測をユーザが対話的に指示することも可能で
ある。

【００２８】図９に、図３（ａ）の例に本発明を適用し
て最適化を実現した結果のコードを示す。添字配列の自
動解析、あるいは、ディレクティブ等によるユーザ指示
の解析の結果、間接参照Ａ［Ｌ［ｉ］］の添字配列Ｌの
増分値が２であることがわかったものとする。キャッシ
ュラインの大きさが３２バイト、参照するデータ長が４
バイトであるとすると、ループを４倍展開して図９に示
すように、元のソースコードの繰返し４回に一度配列Ｌ
およびＡに対するプリフェッチを行なうようにする。こ
れにより、図３（ｃ）と対比しても明らかなように、プ
リフェッチによる命令オーバヘッドを低減して、間接参
照に対するプリフェッチを行なうことができる。

【００２９】

【発明の効果】本発明によれば、間接配列参照を行なう
ようなプログラムに関して、データプリフェッチを効果
的に適用し、プログラムの実行性能を向上することがで
きる。

【図面の簡単な説明】

【図１】本発明を実施するコンパイラの最適化処理フロ
ーの構成の１つの例を示す図。

【図２】本発明を実施する計算機システムの例を示すブ
ロック図。

【図３】（ａ）は本願発明を適用して効果のある、間接
参照を伴うループ繰返し処理を行なうソースコードの例
を、（ｂ）および（ｃ）は従来技術によりプリフェッチ
を導入して最適化したプログラムの例を、それぞれ示す
図。

【図４】本願発明による間接参照プリフェッチ処理の処
理フローの例を示す図。

【図５】本願発明によるループ中の間接参照が連続であ
るか否かを判断する処理フローの例を示す図。

【図６】ループ中の間接参照が連続であるか否かを判断
するためにコンパイラオプションにより添字配列Ｌの増
分値を指示するためのオプションの例を示す図。

【図７】ループ中の間接参照が連続であるか否かを判断
するためにディレクティブにより添字配列Ｌの増分値を
指示する例を示す図。

【図８】添字配列定義コードの例を示す図。

【図９】本願発明を適用してプリフェッチを導入して最
適化したプログラムの例を示す図。

【符号の説明】

１０１…最適化処理フロー、１０２…ループ構造認識処
理、１０３…間接参照認識処理、１０４…間接参照プリ
フェッチ生成処理、１０５，１０６，１０７，１０９…
中間語、１０８…ループ表、２０１…マイクロプロセッ
サ、２０２…キャッシュメモリ、２０３…主記憶２０
３、２０４…ディスク。

Claims

【特許請求の範囲】

【請求項１】プリフェッチ命令を持つマイクロプロセッ
サに対する命令を生成するプログラミング言語のコンパ
イラにおいて、配列の間接参照を行なうようなプログラ
ムに対して、添字として使われる間接参照の配列の値
が、一定の規則に従って増減すること、および、その増
加率あるいは減少率が一定範囲内であるとき、キャッシ
ュラインに対応して間接参照のプリフェッチの命令を作
成するデータプリフェッチ方法。
【請求項２】前記添字として使われる間接参照の配列の
値の増減、および、その増加率あるいは減少率の判定が
ソースコード上に記述されたディレクティブの解析によ
り行われる請求項１記載のデータプリフェッチ方法。
【請求項３】前記添字として使われる間接参照の配列の
値の増減、および、その増加率あるいは減少率の判定が
コンパイラに対して指定されたオプションの解析により
行われる請求項１記載のデータプリフェッチ方法。
【請求項４】前記添字として使われる間接参照の配列の
値の増減、および、その増加率あるいは減少率の判定が
添字配列の要素の定義式の解析により行われる請求項１
記載のデータプリフェッチ方法。
【請求項５】前記添字として使われる間接参照の配列の
値の増減、および、その増加率あるいは減少率の判定が
間接参照を含むループのソースコードをユーザに提示し
て、各添字に関してその変化量をユーザが指示すること
により行われる請求項１記載のデータプリフェッチ方
法。
【請求項６】他の命令の実行と並行して主記憶からキャ
ッシュメモリにデータを転送するプリフェッチ命令を有
する計算機上で実行されるプログラムをコンパイルする
コンパイラであって、(ａ)プログラム中のループのソー
スプログラムを中間語へ変換する処理、(ｂ)前記変換さ
れた中間語に基づいて、前記ループのループ構造を認識
して第２の中間語とループ表を生成する処理、（ｃ）前
記生成された第２の中間語とループ表を参照してループ
に関して解析を行ないループ中の間接参照を認識し第３
の中間語を生成する処理する処理、（ｄ）前記生成され
た第３の中間語とループ表を参照して、認識した間接参
照に関するプリフェッチ命令を生成する処理、よりなる
ことを特徴とするコンパイラ。
【請求項７】(ａ)プログラム中のループのソースプログ
ラムを中間語へ変換する処理のためのプログラム、(ｂ)
前記変換された中間語に基づいて、前記ループのループ
構造を認識して第２の中間語とループ表を生成する処理
のためのプログラム、（ｃ）前記生成された第２の中間
語とループ表を参照してループに関して解析を行ないル
ープ中の間接参照を認識し第３の中間語を生成する処理
する処理のためのプログラム、（ｄ）前記生成された第
３の中間語とループ表を参照して、認識した間接参照に
関するプリフェッチ命令を生成する処理のためのプログ
ラム、を格納した記憶媒体。