JP3218932B2

JP3218932B2 - データプリフェッチコード生成方法

Info

Publication number: JP3218932B2
Application number: JP17067495A
Authority: JP
Inventors: 博泰西山; 純男菊池
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1995-07-06
Filing date: 1995-07-06
Publication date: 2001-10-15
Anticipated expiration: 2015-07-06
Also published as: JPH0922361A; US5950007A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明はデータプリフェッチ方法
に関し、さらに詳しくは、ループに対してプリフェッチ
命令をスケジュールすることによりデータのプリフェッ
チを行ないプログラムの実行時間を短縮するために有効
なコンパイル方法に関する。

【０００２】

【従来の技術】計算機上でのプログラムの実行において
は、命令間の依存関係によって生じる待ちと，メモリ参
照によって生じる待ちが、実行時間の多くを占めてい
る。

【０００３】ループ内の命令間の依存関係による待ち
は、ソフトウェアパイプライニンングと呼ばれるスケジ
ューリング手法によってかなり低減できる。ソフトウェ
アパイプライニングとは，例えば、ラマクリシュナン、
ソフトウエアパイプライニングインＰＡ−ＲＩＳＣ
コンパイラ、ヒュ−レットパッカ−ドジャ−ナル、３９
−４５頁、１９９２年(S. Ramakrishnan, Software pip
elining in PA-RISC compilers, Hewlett-Packard Jour
nal, pp.39-45,1992)に述べられているように、ループ
の異なる繰り返しを重ね合わせて実行することにより命
令間の依存関係による待ちを減少させ、命令実行の並列
度を高める方式である。ソフトウェアパイプライニング
が適用されたループでは、ループの実行開始前にプロロ
ーグと呼ばれる初期化処理を行なうコードを実行し、カ
ーネルと呼ばれるコードを繰り返すことによりループ本
体の実行を行ない、ループの実行を終了した時点でエピ
ローグと呼ばれるコードを実行して終了処理を行い、か
つ、1回前の繰り返しの完了を待たずに後続する繰り返
しの実行を開始することをその特徴とする。

【０００４】命令間の依存関係による待ちに対して、メ
モリ参照による待ちはソフトウェアによる手法のみでは
低減することが難しい。そのため、多くの計算機システ
ムにおいては、メモリ参照による待ちを減少するため
に、キャッシュと呼ばれる高速少容量の記憶装置を主記
憶とプロセッサの間に配置し、最近参照されたデータを
キャッシュ上に置いて高速に参照できるようにしてい
る。ただし、キャッシュを付加した場合においても、デ
ータの再利用がない場合などには、キャッシュミスが発
生した場合の待ちは避けられない。

【０００５】そこで、例えば、モウリ−他、デザイン
アンドエバリュエ−ションオブアコンパイラアルゴ
リズムフォプリフェッチング、プロシ−ディングオ
ブザ５インタ−ナショナルコンファレンスオンア
−キテクチュアルサポ−トフォプログラミングラン
ゲ−ジアンドオペレ−ティングシステム、６２−７
３頁、１９９２年(T.C.Mowry, et al., Design and Eva
luation of a Compiler Algorithm for Prefetching,Pr
oceedings of the 5th International Conference on A
rchitectural Support for Programming Languages and
Operating Systems, pp.62-73,1992)に述べられている
ように、主記憶からキャッシュにデータを先行的に移動
(プリフェッチ)する命令を利用することによって、メモ
リ参照による待ちを低減することが試みられている。

【０００６】

【発明が解決しようとする課題】上記従来技術では、プ
リフェッチ命令をスケジュールするための方式として，
プリフェッチ命令の遅延をループ本体の最短パスの長さ
で割った値以上の最小の整数回分だけ前の繰り返し前に
プリフェッチ命令が発行されるようにソフトウェアパイ
プライニングを適用とすると述べられているが，実現の
詳細については明らかにされていない。

【０００７】そこで、本発明の目的は、プリフェッチ命
令を含んだループにおけるプログラム実行時のメモリ参
照による待ちと命令間の依存関係による待ちを低減でき
る効率的な命令スケジューリング方法を提供することに
ある。

【０００８】

【課題を解決するための手段】本発明の目的を達成する
ため、本発明では、プログラムのコンパイルの際に、以
下に示す３種の方式のいずれかにより、プログラム中の
ループに対してプリフェッチ命令のスケジューリングを
行なう。

【０００９】キャッシュへのデータのプリフェッチはデ
ータの値に変更を加えない。このため、一般的なデータ
の定義と使用の関係に従うと、キャッシュへのデータの
プリフェッチと、ロード命令やストア命令によるメモリ
の参照との間には依存関係は存在しない。ただし、メモ
リ参照による待ちを隠蔽するには、プリフェッチ命令に
よるキャッシュへのデータの転送の完了後にメモリ参照
命令を発行しなければならないという制約から、プリフ
ェッチ命令とメモリ参照を行なう命令の間に、暗黙の依
存関係があるとみなすと既存のスケジューリング方式を
そのまま適用でき都合が良い。そこで、方式１では以下
のように、プリフェッチ命令とメモリ参照命令の間に依
存関係を設けてスケジューリングを行なう。

【００１０】方式１: (１)キャッシュミスを生じると予想されるメモリ参照命
令のそれぞれに対してプリフェッチ命令を生成する。

【００１１】(２)上記(１)で生成したプリフェッチ命令
と、対応するメモリ参照命令の間に枝を持つ依存グラフ
を生成する。この際、プリフェッチ命令が発行されてか
ら、プリフェッチ命令によるキャッシュへのデータ転送
に要するサイクル数を経た後でメモリ参照命令が発行さ
れるよう、プリフェッチ命令とメモリ参照命令との間の
遅延を、プリフェッチ命令によるキャッシュへのデータ
転送に要するサイクル数以上に設定する。

【００１２】(３)上記(２)で構成した依存グラフに対し
て、ソフトウェアパイプライニングを適用し、命令スケ
ジュールを得る。上記のように、ソフトウェアパイプラ
イニングとはループの異なる繰り返しを重ね合わせて実
行することにより、命令間の依存関係による待ちを減少
させる方式であり、これを上記(２)で構成した依存グラ
フへ適用することによって、プリフェッチ命令と対応す
るメモリ参照命令の間を十分離すことができる。

【００１３】主記憶からキャッシュへのデータの転送単
位が一般的には32バイトや128バイトといった単位であ
るのに対して、ループ中での配列などの参照は4バイト
や8バイトといった、より小さな単位で行なわれること
が多い。このため、ループ中で配列などに対して連続的
なメモリ参照を行なう場合には、一度のプリフェッチ命
令によって、複数回分の繰り返しの実行で参照するデー
タを主記憶からキャッシュへ移動することができる場合
が多い。すなわち、一度のプリフェッチ命令によってＮ
回分の繰り返しの実行で参照するデータを主記憶からキ
ャッシュへ移動することができるとすると、プリフェッ
チ命令の発行はＮ回に１度行なえばよいことになる。

【００１４】方式１で生成したスケジュールでは、繰り
返し１回毎にプリフェッチ命令を発行するため、冗長な
プリフェッチ命令が多数発行されることになってしま
う。そこで、方式２および方式３では、ループ本体を展
開し冗長なプリフェッチ命令がなるべく発行されないよ
うにプリフェッチ命令をスケジュールする。

【００１５】まず、方式２では、上記方式１の(１)から
(３)までの処理によって生成されたソフトウェアパイプ
ライン化されたプリフェッチ命令を含むループのカーネ
ル部を展開し、冗長なプリフェッチ命令を取り除くこと
で無駄なプリフェッチ命令が発行されないようにする。

【００１６】方式２: (４)プリフェッチ命令の発行は、一回のプリフェッチ命
令でプリフェッチできるデータ数をＮとすると、Ｎ回の
繰り返し毎に行なえばよいので、まず、上記(３)で構成
されたソフトウェアパイプライン化されたスケジュール
のカーネル部を展開し、その展開数がNの倍数となるよ
うにする。

【００１７】(５)上記(４)の展開コードでは、カーネル
部がＮの倍数回展開され、展開されたカーネル部の１回
の繰り返しで元のループのＮの倍数回分の繰り返しが実
行されることになる。そこで、展開されたコードから、
Ｎ回に一回プリフェッチ命令が発行されるよう、冗長な
プリフェッチ命令を削除すれば、無駄なプリフェッチ命
令の発行がなくなる。

【００１８】方式２では、プリフェッチ命令にソフトウ
ェアパイプライニングを適用した後で無駄なプリフェッ
チ命令を削除するので、プリフェッチ命令を削除したこ
とによって命令間の距離がソフトウェアパイプライニン
グを適用した際に期待したものよりも短くなり、これに
よって命令間の依存などによる待ちが生じやすくなって
しまう可能性がある。

【００１９】そこで、方式３では、ループをソフトウェ
アパイプライン化してスケジュールを得た後でカーネル
部を展開するすることを考慮して、まず、複数のプリフ
ェッチ命令をまとめて１つの仮想的なプリフェッチ命令
に置き換え、この仮想的なプリフェッチ命令を含んだ依
存グラフを作成する。ただし、方式１や方式２の場合と
異なり、方式３では仮想的なプリフェッチ命令と、対応
するメモリ参照命令との間に依存は設けなくともよい。

【００２０】次に、ソフトウェアパイプライニングを依
存グラフに適用し、ソフトウェアパイプライン化された
スケジュールを得、カーネル部の展開数が一度のプリフ
ェッチ命令でプリフェッチできるデータ数の倍数となる
ように必要に応じてル−プを展開する。展開された仮想
的なプリフェッチ命令を元のプリフェッチ命令に置き換
え、プリフェッチ命令が，対応するメモリ参照命令より
も十分前の繰り返しで発行されるよう、プリフェッチ命
令が参照するアドレスを調節する。

【００２１】これにより、方式２で命令を削除したこと
によって発生した命令間の依存を減少させる。

【００２２】方式３: (１)キャッシュミスを生じると予想されるメモリ参照命
令それぞれに対してプリフェッチ命令を生成する。

【００２３】(２)上記(１)で生成したプリフェッチ命令
を複数個組にして仮想的なプリフェッチ命令に置き換え
る。

【００２４】(３)元のループボディーの命令と上記(２)
で生成した仮想的なプリフェッチ命令からなる依存グラ
フを作成して、ソフトウェアパイプライニングを適用す
る。依存グラフの作成を行なう場合には、仮想的なプリ
フェッチ命令と、対応するメモリ参照命令との間の依存
は考えなくとも良い。

【００２５】(４)上記(３)で構成されたカーネル部の展
開数が、一度のプリフェッチ命令でデータをプリフェッ
チできる繰り返し数の倍数となるように必要に応じてル
ープの展開を行なう。展開後のスケジュールにおいて、
仮想的なプリフェッチ命令は元のプリフェッチ命令を挿
入する候補となる命令スロットを表している。

【００２６】(５)上記(４)の展開コード中にスケジュー
ルされた仮想的なプリフェッチ命令を、元のプリフェッ
チ命令に置き換える。この置き換えは、一度のプリフェ
ッチ命令でデータをプリフェッチできる繰り返し数の倍
数毎に、同一のプリフェッチ命令が発行されるようにす
る。これによって無駄なプリフェッチ命令の発行が抑制
される。

【００２７】(６)上記(５)で置き換えたプリフェッチ命
令が参照するアドレスをプリフェッチ命令によるデータ
の転送が完了するのに十分先の繰り返しで参照されるデ
ータのアドレスとする。

【００２８】

【作用】本発明の方法によれば、メモリの参照が連続的
でない場合には、方式１によってプリフェッチ命令と対
応するメモリ参照命令の間を十分離してソフトウェアパ
イプライニングを適用することができる。また、メモリ
の参照が連続的である場合には、方式２によってソフト
ウェアパイプライニングを適用した後で命令の削除を行
なうか、方式３によって複数のプリフェッチ命令を仮想
的なプリフェッチ命令に置き換えてソフトウェアパイプ
ライニングを適用し、その後、元のプリフェッチ命令に
復元することで無駄なプリフェッチ命令を発行を抑制し
効率的にスケジュールすることができる。これにより本
発明の目的を達成できる。

【００２９】

【実施例】以下、図面を参照しながら本発明の一実施例
について説明する。

【００３０】図２は本発明の方法を実施する計算機の１
つの例である。この例では、CPU201上で動作するコンパ
イラが外部記憶装置202からソースコード203を読み込
み、これをオブジェクトコード204へ変換し外部記憶装
置202へ格納する。

【００３１】図３は、本発明によるデータのプリフェッ
チ方法を適用する計算機の１つの例である。CPU301で通
常のメモリ参照命令の実行を行なう場合には、まず、キ
ャッシュ 302に参照対象のデータがあるかどうかを調
べ、キャッシュ302にデータが存在すればそのデータを
参照し、キャッシュ302に参照対象のデータが存在しな
ければ主記憶303上の当該データを参照すると共に、当
該データの属するキャッシュブロックをキャッシュ302
に置く。キャッシュの参照は主記憶の参照に比べて高速
であり、参照対象のデータがキャッシュにあればメモリ
参照によって発生する待ちを低減できる。

【００３２】プリフェッチ命令は、他の命令の実行と同
時に主記憶303からキャッシュ302へ参照対象のデータが
属するキャッシュブロックを移動する命令である。主記
憶303からキャッシュ302へキャッシュブロックを移動す
るのに十分なサイクル数だけ前にプリフェッチ命令を発
行しておけば、主記憶303からキャッシュ302へのデータ
の転送を行なっている間に他の命令を実行できるので、
当該データを参照するための待ちは無くなる。

【００３３】図１に本発明の一実施例の構成を示す。図
１において、スケジューリング処理部101はループ本体
に対する中間語102を入力し、プリフェッチ命令を含ん
だメモリ間の依存およびメモリ参照による待ちの少ない
命令スケジュール103を出力する。処理117および118は
本発明に特徴的な処理であり、処理117ではプリフェッ
チ命令の生成と、スケジューリングの前処理を行ない、
処理118では無駄なプリフェッチ命令の除去やプリフェ
ッチアドレスの調整などの後処理を行なう。

【００３４】始めに、方式１によりループをスケジュー
ルする場合の実施例を示す。図４は方式１によってプリ
フェッチ命令のスケジュールを行なう場合の命令スケジ
ューラの構成図である。方式１では、プリフェッチ命令
生成部109が中間語102を入力し、ループ本体の中間語に
含まれるメモリ参照命令のうち、キャッシュミスを起こ
す可能性の高いものについてプリフェッチ命令を生成し
て、プリフェッチ命令を加えた中間語104を構成する。

【００３５】ここで、あるメモリ参照命令に対してキャ
ッシュミスが起きる可能性があるかどうかについては、
例えば、モウリ−他、デザインアンドエバリュエ−シ
ョンオブアコンパイラアルゴリズムフォプリフェ
ッチング、プロシ−ディングオブザ５インタ−ナシ
ョナルコンファレンスオンア−キテクチュアルサポ
−トフォプログラミングランゲ−ジアンドオペレ
−ティングシステム、６２−７３頁、１９９２年(T.C.
Mowry他, Design and Evaluation of a Compiler Algor
ithm for Prefetching, Proceedings of the 5th Inter
national Conference on Architectural Support for P
rogramming Languages and Operating Systems,pp.62-7
3, 1992)で述べられている公知技術やプログラムの実行
のトレースを用いて推測することができる。生成するプ
リフェッチ命令がプリフェッチするアドレスは、対応す
るメモリ参照命令と同じとする。

【００３６】すなわち、ループ中のロード命令、 LOAD X[i] がキャッシュミスを起こしやすいとすると、同一要素を
プリフェッチする命令、 FETCH X[i] を作り、これを中間語に加える。

【００３７】次に、依存グラフ作成部111では、プリフ
ェッチ命令を含んだ中間語104を入力として依存グラフ1
05を作成する。この際、プリフェッチ命令と対応するメ
モリ参照命令との間に必要な遅延が主記憶からキャッシ
ュへキャッシュブロックを転送するのに要する時間以上
であることを表す枝を、プリフェッチ命令と対応するメ
モリ参照命令との間に設ける。次に、依存グラフ105に
対してソフトウェアパイプライニング部112 でソフトウ
ェアパイプライニングを適用して、ソフトウェアパイプ
ライン化された命令スケジュール 103を得る。

【００３８】以上のように、プリフェッチ命令と対応す
るメモリ参照命令の間に、必要な遅延が主記憶からキャ
ッシュへキャッシュブロックを転送するのに要する時間
以上であることを表す枝を設けた依存グラフを作成する
ことにより、ソフトウェアパイプライニングを適用する
際に、プリフェッチ命令とそれに対応するメモリ参照命
令との間が、主記憶からキャッシュへキャッシュブロッ
クを転送するのに要する時間だけ離れることが保証され
るので、メモリ参照による待ちが隠蔽されるようプリフ
ェッチ命令をスケジュールすることができる。

【００３９】上記説明におけるプリフェッチ命令生成部
109を、図7に示す動作フローチャートを参照しつつ説明
する。まず、ステップ701では処理すべきメモリ参照命
令が残っているかどうかを判定し、あればステップ702
へ制御を移し、なければ処理を終了する。ステップ702
では、処理すべきメモリ参照命令を選択して変数MIに記
憶する。ステップ703では、MIに記憶されたメモリ参照
命令がキャッシュミスを起こす可能性が高いかどうかを
判定し、キャッシュミスを起こす可能性が高いならばス
テップ704 へ制御を移し、低い場合にはステップ701へ
制御を移して次のメモリ参照命令を処理する。ステップ
704ではMIに記憶したメモリ参照命令と同じアドレスを
参照するプリフェッチ命令を作成する。

【００４０】次に、方式２によりループをスケジュール
する場合の実施例を説明する。方式２では、方式１の処
理に加えて、以下のような処理を行なう。まず、方式１
の処理によって得られたソフトウェアパイプライン化さ
れた命令スケジュール 106のカーネル部を、ループ展開
部113 で複数回展開して、命令スケジュール107を得
る。このループ展開数は、１度のプリフェッチ命令の実
行で主記憶からキャッシュへ移動可能なキャッシュブロ
ックの大きさをＢ、メモリ参照命令によって参照される
要素の大きさをＤ、配列参照の要素の増分値をＮとする
と、例えば、Ｂ/ＤとＮの最小公倍数とすればよい。

【００４１】ループの展開を行なうと、続いて、プリフ
ェッチ命令削除部114により、ループを展開して得られ
た命令スケジュール 107から冗長なプリフェッチ命令を
削除する。これにより、冗長なプリフェッチ命令を含ま
ない最終的な命令スケジュール103が得られる。この冗
長なプリフェッチ命令の削除に関しては、プリフェッチ
命令はＢ/Ｄ回に１度発行すれば十分であることから、
展開された各々のプリフェッチ命令に対して、Ｂ/Ｄ個
おきにプリフェッチ命令が発行されるよう、それ以外の
命令を削除する。

【００４２】以上に述べた方式では、ループ展開数が多
くなる場合もあり得るので、ループ展開数を低く押えた
い場合には、例えば、適当な回数だけループを展開し
て、先に述べたように、Ｂ/Ｄ個回の繰り返しおきにプ
リフェッチ命令が発行されるように、それ以外の命令を
削除すれば、多少冗長なプリフェッチ命令が発行される
こととなるが、展開数が大きくなるのを防ぐことができ
る。

【００４３】上記説明におけるプリフェッチ命令削除部
114の動作を，図８に示すフローチャートを参照しつつ
説明する。まず、ステップ801ではキャッシュブロック
の大きさを定数Ｂ、参照対象要素の大きさを定数Ｄとし
て設定する。ステップ802では、未処理プリフェッチ命
令が残っているかどうかを判定し、あればステップ803
へ制御を移し、なければ処理を終了する。ステップ803
では、図１におけるループ展開部113によってコピーさ
れた同一の未処理プリフェッチ命令を順に変数PFi(0≦i
≦n)に記録する。ステップ804では、0≦i≦nに対して、
(１をＢ/Ｄで割った余り：(ｉ mod (Ｂ/Ｄ)) ≠ ０)な
らば、すなわちｉがＢ/Ｄの整数倍でなければプリフェ
ッチ命令PFiを削除し、ステップ802へ制御を移して次の
プリフェッチ命令を処理する。これにより、プリフェッ
チ命令がＢ/Ｄ回の繰り返しおきに発行されることにな
る。

【００４４】次に、方式３によりループをスケジュール
する場合の実施例を説明する。方式３によりループをス
ケジュールする場合には、まず、方式１と同様にプリフ
ェッチ命令生成部109で、入力となる中間語102から、キ
ャッシュミスを起こす可能性の高いメモリ参照命令に対
するプリフェッチ命令を生成し、プリフェッチ命令を加
えた中間語104を得る。

【００４５】次に、プリフェッチ命令置換部110におい
て、プリフェッチ命令生成部109で生成した複数のプリ
フェッチ命令を組にして仮想的なプリフェッチ命令に置
き換える。この置き換えは、１度のプリフェッチ命令の
実行で主記憶からキャッシュへ移動可能なキャッシュブ
ロックの大きさをＢ、メモリ参照命令によって参照され
る要素の大きさをＤ、中間語104に含まれるプリフェッ
チ命令の数をＭとすると、例えば、Ｍ/(Ｂ/Ｄ)以上の最
小の整数個の仮想的なプリフェッチ命令を作成し、Ｂ/
Ｄ個毎のプリフェッチ命令と1つの仮想的なプリフェッ
チ命令を対応させる。仮想的なプリフェッチ命令を作成
すると、中間語104中の元のプリフェッチ命令を削除
し、新たに生成した仮想的なプリフェッチ命令を加え
る。

【００４６】次に、依存グラフ作成部111では、中間語1
04を入力として依存グラフ105を生成する。この場合に
は、方式１および２の場合と異なり、仮想的なプリフェ
ッチ命令とメモリ参照命令の間には依存は設けない。続
いて、依存グラフ105を入力として、ソフトウェアパイ
プライニング部112でループに対してソフトウェアパイ
プライニングを適用し、ソフトウェアパイプライン化さ
れた命令スケジュール106を得る。方式３では方式１お
よび２の場合と異なり、プリフェッチ命令と対応するメ
モリ参照命令との間に依存関係を設けないので、ソフト
ウェアパイプライニングを適用する際の命令配置の自由
度が高くなる。

【００４７】次に、ソフトウェアパイプライン化された
命令スケジュール106 をループ展開部113で複数回展開
し、命令スケジュール107を得る。この展開数は、方式
２の場合と同様に、１度のプリフェッチ命令の実行で主
記憶からキャッシュへ移動可能なキャッシュブロックの
大きさをＢ、メモリ参照命令によって参照される要素の
大きさをＤ、配列参照の要素の増分値をＮとすると、例
えば、Ｂ/ＤとＮの最小公倍数とすればよい。ループ展
開部113によるループ展開処理が終了すると、得られた
命令スケジュール107に含まれる仮想的なプリフェッチ
命令を、プリフェッチ命令復元部115においてプリフェ
ッチ命令置換部110で置き換えた対応するプリフェッチ
命令に復元する。ある仮想的プリフェッチ命令VPに、ｎ
個のプリフェッチ命令 PF1,PF2,...,PFnが対応してお
り、仮想的プリフェッチ命令VPが，ループ展開部113に
よってｍ個の仮想的プリフェッチ命令VP1,VP2,...,VPm
に展開されているものとすると、この復元処理は、例え
ば、以下のように行なわれる。

【００４８】ｎ=Ｂ/Ｄの場合、ｊ=ｉ mod (Ｂ/Ｄ)とす
ると、VPiをPFjに置き換える。ｎ<Ｂ/Ｄの場合、ｊ=ｉ
mod (Ｂ/Ｄ)とすると、１ ≦ ｊ ≦ ｎならばVPiをPFj
に置き換え、ｎ < ｊならば、VPiを削除する。

【００４９】これによって、元のプリフェッチ命令から
なる命令スケジュール108が得られる。

【００５０】次に、プリフェッチアドレス調整部116 に
よって、プリフェッチ命令によるデータの転送が完了す
るのに十分先の繰り返しでデータがプリフェッチされる
よう、命令スケジュール108のプリフェッチ命令の参照
対象のアドレスを調節し、冗長なプリフェッチ命令を含
まない命令スケジュール103を得る。

【００５１】このアドレスの調節は、例えば、配列Ｘに
対して、 FETCH Ｘ[i] というプリフェッチ命令があった場合、次のように行な
われる。

【００５２】すなわち、スケジュールされたループの１
回あたりの実行に要するサイクル数をＬ、プリフェッチ
命令によって主記憶からキャッシュへ対象データのキャ
ッシュブロックを転送するのに要するサイクル数をＭと
すると、Ｍ/Ｌ+(Ｂ/Ｄ)より以上の最小の整数回先繰り
返しで参照する配列要素をプリフェッチするようにすれ
ば良い。

【００５３】すなわち、この繰り返し数をαとすると、
上記のプリフェッチ命令の参照アドレスを、 FETCH Ｘ[i+α] のように調節すれば良い。

【００５４】以下、上記方式３におけるプリフェッチ命
令置換部110とプリフェッチ命令復元部115の処理につい
て、フローチャートを参照しつつ説明する。

【００５５】図９は、図１におけるプリフェッチ命令置
換部110の動作フローチャートである。まず、ステップ9
01では、キャッシュブロックの大きさを定数Ｂ、参照対
象要素の大きさを定数Ｄ、プリフェッチ命令の数を記録
するための変数ｎの値を０として設定する。ステップ90
2では、プリフェッチ命令が残っているかどうか判定
し、残っていればステップ903へ制御を移し、残ってい
なければ処理を終了する。ステップ903では、変数ｎの
値が０かどうか判定し、真であればステップ904へ制御
を移し、偽であればステップ906へ制御を移す。ステッ
プ904では、新たに仮想的なプリフェッチ命令を生成
し、これを変数VPFに記憶する。ステップ905では変数VP
Fに記憶された仮想的プリフェッチ命令を中間語列に挿
入する。

【００５６】ステップ906ではプリフェッチ命令を選択
し、変数PFに記憶する。ステップ907では変数PFに記録
したプリフェッチ命令と変数VPFに記録した仮想的なプ
リフェッチ命令を対応させる。ステップ908では中間語
列から変数PFに記録したプリフェッチ命令を削除する。
ステップ909では変数ｎの値を１だけ増す。ステップ910
では、ｎの値がＢ/Ｄに等しいかどうか判定し、真であ
ればステップ911へ制御を移し、偽であればステップ902
へ制御を移して次のプリフェッチ命令を処理する。ステ
ップ911では、ｎの値を０に設定し、ステップ902へ制御
を移して次のプリフェッチ命令を処理する。これによっ
て、プリフェッチ命令がＢ/Ｄ個に１個の割合で仮想的
プリフェッチ命令に置き換えられる。

【００５７】図１０は、図１におけるプリフェッチ命令
復元部115の動作フローチャートである。まず、ステッ
プ1001ではキャッシュブロックの大きさを定数Ｂ、参照
対象要素の大きさを定数Ｄとして設定する。ステップ10
02では仮想的プリフェッチ命令が残っているかどうか判
定し、残っていればステップ1003へ制御を移し、残って
いなければ処理を終了する。ステップ1003では、図１に
おけるループ展開部113によってコピーされた同一の仮
想的プリフェッチ命令を順に変数VPi(0≦i＜m)に記憶す
る。ステップ1004では、VPiに対応する元のプリフェッ
チ命令を変数PFj(0 ≦j＜n)に記憶する。

【００５８】ステップ1005では、プリフェッチ命令PFj
の数ｎがＢ/Ｄであるかどうかを判定し、真であればス
テップ1006へ、偽であればステップ1007へ制御を移す。
ステップ1006では、各VPiに対して、ｊ=ｉ mod (Ｂ/Ｄ)
とすると、VPiをPFjに置き換え、制御をステップ1002へ
移して次の仮想的プリフェッチ命令を処理する。ステッ
プ1007では、各VPiに対して、ｊ=ｉ mod (Ｂ/Ｄ)とする
と、0≦j＜nならばVPiをPFjに置き換え、n≦jならばVPi
を削除して、制御をステップ1002へ移して次の仮想的プ
リフェッチ命令を処理する。これによって、仮想的なプ
リフェッチ命令が元のプリフェッチ命令に復元されると
共に、各プリフェッチ命令がＢ/Ｄ回の繰り返しが１度
実行されるようになる。

【００５９】図１１は、図１におけるプリフェッチアド
レス調整部116の動作フローチャートである。まず、ス
テップ1101ではキャッシュブロックの大きさを定数Ｂ、
参照対象要素の大きさを定数Ｄ、ループ１回あたりの実
行サイクルをＬ、主記憶からキャッシュへデータを転送
するのに要するサイクル数をＭ、プリフェッチ命令を先
行して発行すべき繰り返し数αをＭ/Ｌ+(Ｂ/Ｄ)以上の
最小の整数として設定する。ステップ1102では、未処理
プリフェッチ命令が残っているかを判定し、残っていれ
ばステップ1103へ制御を移し、残っていなければ処理を
終了する。ステップ1103では、未処理のプリフェッチ命
令を選択し、変数PFへ記録する。ステップ1104では、変
数PFへ記憶したプリフェッチ命令で参照するアドレスを
α回先の繰り返しで参照するアドレスへ変更する。これ
によって、メモリ参照命令が発行されるよりも十分先に
プリフェッチ命令が発行されることになり、メモリ参照
による待ちを隠蔽することができる。

【００６０】続いて、具体例を用いて各方式の一実施例
によるスケジューリングの効果について説明する。図１
２は実施例の説明に用いるFORTRANプログラムのループ
の例である。このプログラムのループ本体から、例えば
図１３に示すような中間語が構成される。以下では、こ
の中間語を入力とした場合の各方式によるプリフェッチ
命令のスケジュールの例を示す。

【００６１】図１３の例では、命令1301、1302、1303で
メモリ参照が行なわれるが、このうち命令1301と命令13
03が参照するアドレスは同一であるので、配列Ｘおよび
配列Ｙそれぞれについて１つづつプリフェッチ命令を作
成する。なお、この例ではメモリ参照命令およびプリフ
ェッチ命令と演算命令を並列に実行できるスーパスカラ
型のプロセッサを仮定する。ただし、本発明はスーパス
カラ型のプロセッサのみに適用可能というわけではな
く、逐次型のプロセッサや超多長命令形式 (VLIW) のプ
ロセッサについても適用可能である。なお、以下の例で
は、一度のプリフェッチで４回分の繰り返しで使用する
データをキャッシュに転送可能であり、主記憶からキャ
ッシュへのデータの転送には50サイクル必要であると仮
定する。

【００６２】方式１： (１)プリフェッチ命令の生成配列Ｘおよび配列Ｙについて、プリフェッチ命令を生成
する。プリフェッチ命令を付加した中間語は図１４に示
すようになる。この図で、命令1401および命令1402はそ
れぞれ配列Ｘおよび配列Ｙに対するプリフェッチ命令で
ある。

【００６３】(２)依存グラフの生成図１５にプリフェッチ命令を加えた中間語に対する依存
グラフを示す。この図で、ノードは命令を表し、ノード
間のエッジは依存関係を表している。各エッジの右に付
加している数字は命令間を離すべきサイクル数を表して
いる。この図に示すように、配列Ｘに対するプリフェッ
チ命令1501と配列Ｘに対するロード命令1503との間、お
よび、配列Ｙに対するプリフェッチ命令1502と配列Ｙの
ロード命令1504との間に主記憶からキャッシュへデータ
を転送するのに必要な50サイクルの遅延を持つ依存関係
を設ける。

【００６４】(３)ソフトウェアパイプライニング図１５の依存グラフに対して、ソフトウェアパイプライ
ニングを適用する。ソフトウェアパイプライン化された
スケジュールは図１６のようになる。図１６に示すスケ
ジュ−ルは、ループの初期化を行なうプロローグ部160
1、ループの繰り返しを行なうカーネル部1602、ループ
の終了処理を行なうエピローグ部1603からなり、図１６
の各エントリは各サイクルに対応する命令スロットを表
している。プリフェッチ命令は命令スロット1604および
1605に割り当てられており、ソフトウェアパイプライニ
ングによって、対応するメモリ参照命令の10回前の繰り
返しで実行されるようにスケジュールされている。以上
のように、ソフトウェアパイプライニングによって各命
令間の依存を満たすようなスケジュールが得られたの
で、メモリ参照に伴う待ちが除去されることになる。

【００６５】方式２：上記方式１の実施例では、１回の
繰り返しにつき２つのプリフェッチ命令が発行されるこ
とになる。プリフェッチ命令では４回分の繰り返しで利
用するデータをプリフェッチすることが可能なので、毎
回プリフェッチ命令を発行するのは無駄である。そこ
で、方式２では以下の処理を方式１の結果に適用するこ
とで、無駄なプリフェッチ命令の発行を抑制する。

【００６６】(４)ループ展開方式１の(３)で構成されたソフトウェアパイプライン化
されたループのカーネル部を展開する。本実施例では、
一度のプリフェッチで４回分の繰り返しで参照するデー
タをキャッシュへ転送可能であると仮定しているので、
繰り返し４回に１回の割合でプリフェッチ命令を発行す
れば良い。そこで、カーネルを４回展開すると、図１７
に示すようなスケジュールが得られる。図１７に示すス
ケジュ−ルは、プロローグ部1701、展開されたカーネル
部1702、及びエピローグ部1703からなる。カーネル部17
02において配列Ｘに対するプリフェッチ命令は、命令ス
ロット1704、1706、1708、1710に展開され、配列Ｙに対
するプリフェッチ命令は、命令スロット1705、1707、17
09、1711に展開されている。

【００６７】(５)冗長なプリフェッチの削除ループ展開された図１７の命令スケジュールに対して、
プリフェッチ命令の発行が４回の繰り返し毎に行なわれ
るよう配列Ｘおよび配列Ｙに対する冗長なプリフェッチ
命令を削除する。これによって無駄なプリフェッチ命令
の発行が抑制され、図１８に示すようなスケジュールが
得られる。図１８において、プロローグ部1802では冗長
なプリフェッチ命令1805、1806、1807、1808、1810、18
11が削除され、配列Ｘに対しては命令スロット1804、配
列Ｙに対しては命令スロット1809のそれぞれのプリフェ
ッチ命令によって、４回分の繰り返しのデータが無駄な
くプリフェッチされるようになる。

【００６８】方式３：方式３では、無駄なプリフェッチ
命令を発行しないことを考慮して以下のようにプリフェ
ッチ命令のスケジュールを行なう。

【００６９】(１)プリフェッチ命令の生成プリフェッチ命令の生成は方式１の場合と同様に行な
う。

【００７０】(２)プリフェッチ命令の置換と依存グラフ
の作成上記(１)で生成した複数のプリフェッチ命令を命令をま
とめて仮想的なプリフェッチ命令を生成し、依存グラフ
を構成する。結果の依存グラフを図１９に示す。図１９
に示すように、配列Ｘに対するプリフェッチ命令1901
と、配列Ｙに対するプリフェッチ命令1902をまとめて仮
想的なプリフェッチ命令1903に置き換える。方式１や方
式２の場合と異なり、方式３では仮想的なプリフェッチ
命令と対応するメモリ参照命令の間に依存関係は設けな
い。

【００７１】(３)ソフトウェアパイプライニング仮想的なプリフェッチ命令を加えたループ本体にソフト
ウェアパイプライニングを適用する。この結果、例え
ば、図２０に示すようなソフトウェアパイプライン化さ
れたスケジュールが得られる。図２０に示すスケジュ−
ルは、プロローグ部2001、カーネル部2002、及びエピロ
ーグ部2003からなる。カーネル部2002の命令発行スロッ
ト2004には仮想的なプリフェッチ命令がスケジュールさ
れている。

【００７２】(４)ループ展開方式２の場合と同様に上記(３)で構成したソフトウェア
パイプライン化されたスケジュールのカーネル部を４回
分展開する。これにより、図２１のようなスケジュール
が得られる。図２１にしめすスケジュ−ルは、プロロー
グ部2101、展開されたカーネル部2102、及びエピローグ
部2103からなる。ループ展開によってカーネル部2103に
スケジュールされた仮想的なプリフェッチ命令は命令発
行スロット2104、2105、2106、2107に展開されている。

【００７３】(５)プリフェッチ命令の復元図２１のカーネル部2102の命令スロット2104、2105、21
06、2107に展開された仮想的プリフェッチ命令を元のプ
リフェッチ命令に置き換える。この結果を図２２に示
す。図２１の命令スロット2104、2105、2106、2107に展
開された仮想的プリフェッチ命令は配列Ｘおよび配列Ｙ
に対するプリフェッチ命令を置き換えたものであるの
で、各々の配列に対するプリフェッチ命令が４回の繰り
返しに１回発行されるように、図２２の命令スロット22
04および命令スロット2206にプリフェッチ命令を挿入し
する。この場合、元のプリフェッチ命令数が一度のプリ
フェッチで主記憶からキャッシュへ転送可能なデータを
参照する繰り返し数に満たないので、展開された仮想的
なプリフェッチ命令に対応する命令スロット2205と2207
については空きスロットとする。

【００７４】(６)プリフェッチアドレスの調節プリフェッチ命令の発行とプリフェッチ命令によってキ
ャッシュに転送されるデータを参照する命令の発行と
が、主記憶からキャッシュへのキャッシュブロックの転
送が終了するのに十分なサイクル数だけ離れて行なわれ
るようプリフェッチ対象のアドレスを調整する。ここ
で、主記憶からキャッシュへキャッシュブロックを転送
するのに要するサイクルは50サイクルで、１回あたりの
繰り返しに要するサイクルは４サイクルであるので、図
２２に示すように、ここでは１４回先の繰り返しで参照
されるデータをプリフェッチするようにプリフェッチ命
令の参照先を変更している。

【００７５】以上の説明により、図１の中間語102を入
力としてスケジューラ101によりプリフェッチ命令を含
んだ命令スケジュール103を作成することができる。す
なわち、ループ繰り返しにおいて、データの参照が連続
的でない場合には方式１を用いることで、プリフェッチ
命令と対応するメモリ参照命令を、主記憶からキャッシ
ュへデータを転送するのに必要なサイクル数だけ離して
発行することができるので、メモリ参照に伴う待ちを隠
蔽することができる。また、データの参照が連続的な場
合には、方式２および３を用いることで、冗長なプリフ
ェッチ命令の発行を抑制することができる。さらに、方
式３では方式２と比較して、仮想的なプリフェッチ命令
とメモリ参照命令との間に依存関係を設けないので、命
令配置の自由度が高くなり、また、カーネル部の展開を
考慮してソフトウェアパイプライニングを適用するので
命令間の依存などによる待ちの発生を低く押えることが
できる。

【００７６】

【発明の効果】本発明によれば、プリフェッチ命令を効
果的にスケジュールし、プログラムの実行時のメモリ参
照等による待ちを減少することができる。これにより計
算機プログラムの実行の高速化に効果がある。

【００７７】すなわち、本発明の方法によれば、メモリ
の参照が連続的でない場合には、方式１によってプリフ
ェッチ命令と対応するメモリ参照命令の間を十分離して
ソフトウェアパイプライニングを適用することができ
る。また、メモリの参照が連続的である場合には、方式
２によってソフトウェアパイプライニングを適用した後
で命令の削除を行なうか、方式３によって複数のプリフ
ェッチ命令を仮想的なプリフェッチ命令に置き換えてソ
フトウェアパイプライニングを適用し、その後、元のプ
リフェッチ命令に復元することで無駄なプリフェッチ命
令を発行を抑制し効率的にスケジュールすることができ
る。

【図面の簡単な説明】

【図１】プリフェッチ命令をスケジュールする命令スケ
ジューラの構成図である。

【図２】本発明を実施する計算機システムの例である。

【図３】本発明の対象とする計算機システムの例であ
る。

【図４】方式1による命令スケジューラの構成図であ
る。

【図５】方式2による命令スケジューラの構成図であ
る。

【図６】方式3による命令スケジューラの構成図であ
る。

【図７】プリフェッチ命令生成部のフローチャートであ
る。

【図８】プリフェッチ命令削除部のフローチャートであ
る。

【図９】プリフェッチ命令置換部のフローチャートであ
る。

【図１０】プリフェッチ命令復元部のフローチャートで
ある。

【図１１】プリフェッチアドレス調節部のフローチャー
トである。

【図１２】FORTRANソースプログラムの例である。

【図１３】中間語の例である。

【図１４】プリフェッチ命令を含んだ中間語の例であ
る。

【図１５】方式1の依存グラフの例である。

【図１６】方式1のソフトウェアパイプライン化された
スケジュールの例である。

【図１７】方式2の展開したスケジュールの例である。

【図１８】方式2の冗長なプリフェッチ命令削除を行な
ったスケジュールの例である。

【図１９】方式3の依存グラフの例である。

【図２０】方式3のソフトウェアパイプライン化された
スケジュールの例である。

【図２１】方式3の展開したスケジュールの例である。

【図２２】方式3のプリフェッチ命令の置換えを行なっ
たスケジュールの例である。

【符号の説明】

101：ループに対するスケジューリング処理部 109：プリフェッチ命令生成部 110：プリフェッチ命令置換部 111：依存グラフ作成部 112：ソフトウェアパイプライニング部 113：ループ展開部 114：プリフェッチ命令削除部 115：プリフェッチ命令復元部 116：プリフェッチアドレス調整部

───────────────────────────────────────────────────── フロントページの続き (56)参考文献Ｍｏｗｒｙ，Ｔ．Ｃ．「ＳｔａｎｆｏｒｄＣＳＬ−ＴＲ−94−628」”ＴｏｌｅｒａｔｉｎｇＬａｔｅｎｃｙＴｈｒｏｕｇｈＳｏｆｔｗａｒｅ−ＣｏｔｒｏｌｌｅｄＤａｔａＰｒｅｆｅｔｃｈｉｎｇ”，Ｐ．67−71（1994− ６) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 9/45

Claims

(57)【特許請求の範囲】

【請求項１】他の命令の実行と並列して主記憶からキャ
ッシュメモリにデータを転送するプリフェッチ命令を有
する計算機上で実行されるプログラムをコンパイルする
コンパイラにおけるデータプリフェッチコード生成方法
であって、（ａ）プログラム中のループのソースプログラムを中間
コードへ変換し、（ｂ）プログラム中のループに含まれる複数のプリフェ
ッチ命令を１つの仮想的なプリフェッチ命令に置き換
え、（ｃ）前記中間コードに基づいて、前記仮想的なプリフ
ェッチ命令とメモリ参照を行なう命令との間に枝を持つ
依存グラフを生成し、（ｄ）前記依存グラフにソフトウエアパイプライニング
を適用して命令スケジューリングを行ない、（ｅ）前記命令スケジューリングに対してループ展開を
適用することを特徴とするデータプリフェッチコード生
成方法。
【請求項２】前記方法の前記ステップ（ｅ）において、（ｅ１）得られたスケジュールを複数回ループ展開し、（ｅ２）前記ループ展開により複写された仮想的なプリ
フェッチ命令を元の複数のプリフェッチ命令に置き換え
ることを特徴とする請求項１記載のデータプリフェッチ
コード生成方法。
【請求項３】前記方法の前記ステップ（ｅ）は、さら
に、前記置き換えられたプリフェッチ命令が参照するアドレ
スを、前記プリフェッチ命令によるデータの転送が完了
する繰り返しよりも先を参照するように調節することを
特徴とする請求項２記載のデータプリフェッチコード生
成方法。