JPH05265770A

JPH05265770A - 計算機言語処理方法

Info

Publication number: JPH05265770A
Application number: JP4061984A
Authority: JP
Inventors: Naoji Nakahira; 直司中平
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1992-03-18
Filing date: 1992-03-18
Publication date: 1993-10-15
Anticipated expiration: 2012-11-17
Also published as: JP2677482B2

Abstract

(57)【要約】【目的】本発明は，階層型メモリを有する計算機上で動
作するプログラム10について，オブジェクトプログラム
15への翻訳時に最適化処理を行う計算機言語処理方法に
関し，多重ループ中のデータを高速にアクセスすること
ができる最適化を広範囲に実施し，プログラムの実行性
能を向上させることを目的とする。【構成】最適化処理部13において，タイトな構造を持つ
ループを検出し，ブロッキング可能なループを認識す
る。そして，データの重なり解析を利用することによ
り，最内ループにおける配列データのアクセス距離が短
くなるようにループを入れ換える。次に，ブロッキング
可能な候補配列を抽出し，候補配列の中から分割対象配
列と分割対象インデックスを決定する。分割後の配列が
キャッシュメモリのサイズに収まるように，分割のブロ
ック長を決定し, ループの変形を行う。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は，階層型メモリを有する
計算機上で動作するプログラムについて，オブジェクト
プログラムへの翻訳時に最適化処理を行う計算機言語処
理方法に関する。

【０００２】最近のハードウェアは，主記憶の他に，よ
り高速なメモリ（以下，キャシュメモリという）を実装
した階層型メモリ構造を持つものが一般的である。アク
セス頻度の高いデータは，キャシュメモリに格納され高
速にアクセスされる。一般に，キャシュメモリと主記憶
のアクセスとの差は数〜数十マシンサイクルと言われて
おり，主記憶の方が圧倒的にメモリアクセスのコストが
大きい。

【０００３】従って，高級言語で記述されたプログラム
をコンパイルする際に，できるだけキャッシュメモリが
有効利用されるように最適化を行えば，プログラムの実
行性能が向上する。そのための適切な技術手段が必要と
される。

【０００４】

【従来の技術】従来の最適化コンパイラでは，ユーザが
記述したソースプログラムに対して，命令数の削減／命
令の並べ換えにより，メモリアクセスの縮小化／パイプ
ラインにおけるディレイの縮小化を実施し，処理の向上
を図ってきた。

【０００５】しかし，頻繁にメモリアクセスが必要な配
列データ等のデータをキャシュメモリに保持する方法
は，ほとんどの場合，ハードウェアのキャシュメモリの
管理方式に処理が委ねられている。ハードウェアで実現
されているキャシュメモリの制御方式では，ソースプロ
グラム上でキャシュメモリのミスヒットが認識できる場
合でも，キャシュメモリへのデータの配置・更新が一意
的に処理される。このため，ソフトウェアにより，ユー
ザプログラムの特徴に合わせてデータをキャシュメモリ
上へ配置することが，性能向上の観点から重要な問題と
なる。

【０００６】上記の問題点をソフトウェアで解決する手
段として，ブロッキングと呼ばれる最適化技術が存在す
る。ブロッキング最適化の目的は，多重のループで構成
されるループ構造に対して，その最内ループで使用され
る配列をキャシュサイズに収まるように分割して，配列
データが常にキャシュメモリ上に保持されるようにルー
プの変形を行うことにある。

【０００７】図１０の（イ）にブロッキングの最適化が
適用可能なループの例を示す。このループでは，配列ｂ
（ｋ，ｊ）は，インデックスｉが更新される毎に，同一
の配列要素をアクセスする。従って，最内ループにおけ
る配列ｂに対するメモリアクセスの軌跡は，図１０の
（ロ）に示すように，同じ軌跡が繰り返される。

【０００８】もし，最内ループの配列ｂのサイズがキャ
シュサイズを超えているならば，一定間隔ごとに，キャ
シュメモリ上でミスヒットが生じることになる。キャシ
ュメモリを有効に利用するためには，配列ｂをキャシュ
サイズに格納できる大きさに分割し，分割を指示するル
ープを，最外ループの外に生成することが必要となる。

【０００９】現状のブロッキングによる最適化では，以
下の問題点があった。 (1) 通常のユーザプログラムでは，ループ変形を実施せ
ずに，ブロッキングの最適化を実施できることは非常に
稀である。そのため，本最適化機能をより広範囲に適用
するためには，インデックス交換／ループ分割といっ
た，各種のループ変形の最適化との融合が必要になる。
この適用順序によって，ブロッキングが適用できるルー
プが認識できる場合とできない場合がある。しかしなが
ら，従来技術では，これらを考慮する処理が行われてい
ないので，広範囲に最適化を適用することはできなかっ
た。

【００１０】(2) ブロッキング可能なデータが検出でき
た場合，どのインデックスで配列を分割するかの決定が
性能向上に大きな影響を及ぼす。どのインデックスで配
列データを分割するかは，配列データの大きさ，対象候
補の個数およびループの実行順序関係に依存するが，従
来の処理系では，発見的な方法を取っているため，適切
な分割がなされないことがあった。

【００１１】(3) ハードウェアに実装されているキャシ
ュサイズとブロッキング対象となった配列データとか
ら，最適な分割値（またはブロック長）を決定する必要
がある。しかしながら，複数の配列データが分割対象と
なった場合を含めて最適な分割値の決定方式が確立され
ておらず，適切な分割値が得られないことがあった。

【００１２】

【発明が解決しようとする課題】本発明は上記問題点の
解決を図り，翻訳対象プログラムについて，多重ループ
中のデータを高速にアクセスすることができる最適化を
広範囲に実施し，かつ適切な分割を可能とすることによ
り，プログラムの実行性能を向上させることを目的とす
る。

【００１３】

【課題を解決するための手段】図１は，本発明の原理説
明図である。図１において，１０はコンパイル対象とな
るソースプログラム，１１はコンパイラが動作するＣＰ
Ｕおよびメモリなどからなる処理装置，１２はソースプ
ログラム１０を入力し，構文解析および意味解析を行う
構文・意味解析部，１３は構文・意味解析部１２の処理
結果による中間テキストについて最適化を行う最適化処
理部，１４は命令スケジューリングやレジスタ割り付け
を行い，オブジェクトコードを生成して出力するオブジ
ェクト生成出力部，１５はコンパイル結果のオブジェク
トプログラムを表す。

【００１４】本発明では，主記憶とキャッシュメモリの
階層型メモリを有する計算機をターゲットとするソース
プログラム１０をコンパイルする際に，最適化処理部１
３において以下の処理を行う。

【００１５】タイトな構造を持つループを検出し，
ブロッキング可能なループを認識する。タイトな構造と
は，ループ制御変数以外のループ回帰変数がないこと，
ループ外への飛び出しがないこと，手続き呼出しが存在
しないことである。

【００１６】検出したループがタイトな構造を持た
ない場合，処理を行う。データの重なり解析を利用することにより，インデ
ックス交換が可能なループの範囲を識別し，最内ループ
における配列データのアクセス距離が短くなるように外
側ループと最内ループとを入れ換えて，インデックス交
換を実施する。

【００１７】ループの深さとインデックスとの関
係，最内ループの配列をアクセスするインデックスとル
ープとの関係により，ブロッキング可能な候補配列を抽
出し，候補配列の中から分割対象配列と分割対象インデ
ックスを決定する。

【００１８】分割後の配列がキャッシュメモリのサ
イズに収まるように，キャッシュメモリのサイズおよび
ループ回転数に基づいて，分割のブロック長を決定す
る。分割すべき配列データ，分割すべきインデックスお
よび分割のブロック長をもとに，分割数を指示するルー
プを元のループの外に生成し，ループの変形を行う。

【００１９】検出したループがタイトな構造でない
場合には，ループ分割によってタイトなループ構造に再
構成する。タイトなループ構造への再構成が成功したならば，
処理以下を実行する。失敗したならば，そのループの
最適化を諦め，次のループの検出を行う。

【００２０】処理によるループ変形によって，キャッ
シュメモリにおけるミスヒットを減少させ，実行性能を
向上させることができる。

【００２１】

【作用】本発明は，以下の方式を採用することにより，
従来技術によるブロッキングの問題点を改善するもので
ある。

【００２２】(1) ブロッキング可能な配列を認識する場
合に，ループ分割，インデックス交換等のループ変形の
最適化を利用して，ブロッキングの適用範囲を広げる。 (2) 最適な分割値（またはブロック長）を決定する。

【００２３】ブロッキング可能な配列データを分割する
場合には，ループの回転数で割り切れて，かつキャシュ
メモリに十分に収まる大きさとなるように分割値を決定
する。また，ブロッキング可能な配列データが複数存在
する場合においても，複数の配列データがキャシュサイ
ズに十分収まるように，最適な分割値を決定する。

【００２４】これによって，主記憶へのアクセスを少な
くした効率のよいオブジェクトプログラムを生成するこ
とが可能になる。

【００２５】

【実施例】以下，図１に示す最適化処理部１３における
本発明に関係する部分の実施例の処理を，詳細に説明す
る。

【００２６】１）ブロッキング可能なループの認識ブロッキングにより，実行結果が変わらない条件は，最
内ループに対して，(1) ループ制御変数以外のループ回
帰変数がない，(2) ループ外への飛び出しがない，(3)
手続き呼出しが存在しない，という３つの要件を満たす
タイトなループ構造を持つことである。また，この条件
に付け加えて，ブロッキングの最適化処理が実施可能で
あるためには，多重ループにおいて，最内ループの配列
の演算が最外ループのインデックスに依存せず，最外ル
ープのインデックスが変化しても，最内ループでは，常
にデータアクセスの法則性が変化しないことが必要であ
る。

【００２７】ブロッキングの対象ループは，上述したよ
うに，タイトなループに対してのみ実施されるため，対
象となる多重ループがタイトなループでない場合，タイ
トなループ構造への再構成を実施する。この処理によ
り，ブロッキング可能なループの適用範囲を広げること
ができる。

【００２８】図２は，そのループ分割によるループ再構
成の例を示している。ループ分割とは，図２の（イ）に
示すように，１つのループをそれぞれ同じループ制御変
数を持つ複数のループに分ける処理である。本発明で
は，タイトでない多重ループを複数のタイトなループに
分割することにより，タイトなループの最適化を可能と
する。タイトな多重ループとは，ループが直列の入れ子
をなし，最内のループのみに，実行文が出現する多重ル
ープのことを言う。

【００２９】ループ分割は，以下の手順で行う。 (1) タイトなループの検出最内ループから最外ループへとループを検出し，最内ル
ープにしか実行文が存在しないループをタイトなループ
として認識する。それ以外のループは，タイトなループ
として検出できないので，タイトでない多重ループを複
数のタイトなループに分割する必要がある。

【００３０】(2) タイトでない多重ループの検索と分割
対象ループの検索最内ループから外側ループへと検索し，以下のいずれか
の条件を満足するループをループ分割の対象とする。

【００３１】−最内ループと外側ループとの間に実行文
（ループ制御のための命令は除く）が存在する。 −同じ深さのタイトな兄弟ループが存在する。

【００３２】−ループ内からの飛び出しが存在しない。 (3) ループ分割例えば，図２（ロ）の(a) に示す多重ループは，最内ル
ープと外側ループとの間に実行文Ａが存在する。のル
ープから検索すると，とのループの間に，実行文Ａ
が存在することがわかるので，がループ分割の対象と
なる。このループ分割により，ループは図２（ロ）の
(b) に示すようになる。

【００３３】図２（ハ）の(a) に示す多重ループは，同
じ深さのタイトな兄弟ループが存在する例である。の
ループから検索する。，のループは分割の対象とは
ならない。双方を検索した後，とを比較すると，同
じ深さのタイトな兄弟ループであることがわかるので，
図２（ハ）の(b) に示すようにループ分割を行う。

【００３４】２）ループ入れ換え処理 2.1) インデックス交換可能ループの判定例えば，多次元配列がタイトな多重ループ内で，最内ル
ープの制御変数が一次元目以外の次元を引用している場
合，一次元目の配列要素を引用している外側ループが最
内ループになるようにループを入れ換える処理を，ルー
プのインデックス交換という。インデックス交換を実施
することにより，メモリ上の連続領域をアクセスするこ
とになり，メモリアクセス効率が向上する。

【００３５】例えば図３の（イ）に示すループでは，
（ロ）に示す，，，…の順番で配列Ａの各要素に
アクセスすることになる。従って，不連続領域へのアク
セスとなる。配列Ｂも同様である。なお，この飛び飛び
にアクセスするデータの間隔を，配列データのアクセス
距離という。

【００３６】インデックス交換により，図３の（ハ）に
示すように，最内ループと外側ループとを入れ換える
と，アクセスの順番は，（ニ）に示す，，，…の
ようになり，最内ループの配列Ａ（Ｉ，Ｊ），Ｂ（Ｉ，
Ｊ）は，連続領域のアクセスとなる。

【００３７】インデックス交換の目的は，このように配
列データのアクセス距離が最小となるようにすることで
ある。インデックス交換が可能であるかどうかは，ルー
プ中の配列要素の依存関係による。そこで，“データの
重なり解析”により，インデックス交換が可能なループ
の範囲を識別し，インデックス交換を実施する。

【００３８】データの重なり解析とは，次のような処理
である。一般に，多重ループのインデックス交換やルー
プ分割等のループの構造を大幅に変換する最適化では，
そのループ中の配列要素の依存関係を認識する必要があ
る。このとき，ループ内の配列要素の振る舞いを，添字
と制御変数の関係から単純化した形にすることで，デー
タの重なり（依存）関係を調べて，上記で述べた最適化
処理が実施できるかどうかを判断する。データの重なり
解析は，このようなときに行う処理であり，具体的には
次の情報を解析する処理である。

【００３９】(1) 配列要素のインデックス空間上での定
義・参照の順序関係。この情報解析では，個々の配列要素の定義・参照情報の
他に，最内ループで演算を実施する異なる配列要素同士
が，互いに同一領域をアクセスするかの情報も収集す
る。

【００４０】(2) 単純変数同士の演算における先行順序
関係。以上のデータの重なり解析処理は，ベクトル化コンパイ
ラで採用されているデータの依存関係の解析と同様でよ
く，よく知られている処理であるので，ここでの説明は
この程度にとどめる。

【００４１】もし，インデックス交換が不可能なループ
であれば，現状のインデックスの並びで，ブロッキング
可能かどうかの判定を行う。本方式を以下のような順序
に拡張することにより，ブロッキングを実施する配列が
決定した後に，インデックス交換を実施することが可能
である。

【００４２】(1) インデックス交換をする部分を，交換
できるインデックス空間に置き換える。 (2) “ブロッキング可能な配列データ”の候補集合を求
める。

【００４３】(3) “交換できるインデックス空間”でイ
ンデックス交換を実施する。 (1) 〜(3) の操作を繰り返し実施することにより，より
きめこまかなブロッキングの処理を実現できる。

【００４４】３）ブロッキング可能な配列データの検出 3.1) 配列データ再利用の解析ループの深さとインデックスとの関係，最内ループの配
列をアクセスするインデックスとループとの関係によ
り，ブロッキング可能な配列を決定する。

【００４５】本解析方法は，“データの重なり解析”の
ように，最内ループで主記憶アクセスされる定義と参照
のデータが重なっているか等の情報は一切収集しない。
ブロッキングに必要なデータの依存関係の解析は，解析
中のインデックスＸに対して，最内ループで，Ｘの値が
変化した時，同一順序の配列のアクセスが存在するかど
うかだけを調べればよい。

【００４６】この配列データ再利用の解析処理について
の詳しい説明は，本実施例の説明の後に〔補足説明１〕
として述べる。 3.2) 分割対象配列および分割対象インデックスの決定ブロッキングをどの配列に対して実施するか，またどの
インデックスで実施するかの決定プロセスを図４に示
す。

【００４７】(a) 分割対象インデックスの決定では，ま
ずブロッキング可能な候補配列およびインデックスの候
補の抽出を行う。 (b) 次に，キャッシュメモリのサイズと，ブロッキング
対象データのサイズとを比較する。

【００４８】(c) 配列データのアクセス距離を計算す
る。 (d) 以上の結果から，配列の次元数を考慮し，分割イン
デックスを決定する。以上の処理(a) 〜(d) を繰り返
す。このときに注意すべき点は以下のとおりである。

【００４９】(1) もしループの回転数が翻訳時に確定し
ないならば，配列の宣言を参照して，要素すべてをアク
セスするとみなして計算する。 (2) ブロッキング対象の配列データの形状が翻訳時に確
定しない場合，例えば“ｂ（ｉ＊８，ｋ＊８）”や“ｂ
（ｃ（ｉ，ｋ））”の場合，翻訳時に正確な分割値を求
めることができない。この場合には，ブロッキングを実
施しない。

【００５０】(3) 次元数の考慮は，１次元配列，２次元
配列，Ｎ次元（Ｎ＞＝３）配列と分離して考える。な
お，この次元数の考慮については，後述する〔補足説明
２〕で詳しく説明する。

【００５１】４）ブロック長の決定ブロッキングを行うにあたり，性能を大きく左右する要
因となるのが，“ブロッキング対象の配列をいくつに分
割するか”である。分割のブロック長をＳＴＲＩＤＥと
呼び，最適なＳＴＲＩＤＥを求めることが，ブロッキン
グ最適化の鍵となる。このＳＴＲＩＤＥを決定する方法
を，〔補足説明３〕として後述する。

【００５２】ブロック長を決定する場合の最大の要因
は，ハードウェアが持つデータキャシュの大きさであ
る。データキャシュが大きい場合，より多量のデータを
データキャシュ上に保持することが可能（ＳＴＲＩＤＥ
を大きくとることが可能）であり，反対に少量のデータ
しかキャシュ上に保持することができないときには，Ｓ
ＴＲＩＤＥを小さくすることが必要となる。以下に，Ｓ
ＴＲＩＤＥの決定要因を示す。

【００５３】(1) ループの回転数が翻訳時に確定してい
る場合分割後の配列がキャシュサイズに収まり，かつループの
回転数で割り切れるＳＴＲＩＤＥを選択する。ブロッキ
ング対象ループが２つあり，相互の回転数が違う場合に
は，最内ループの回転数に合わせて，ＳＴＲＩＤＥを決
定する。また回転数が素数の場合には，配列要素が収ま
る最大値をＳＴＲＩＤＥとする。

【００５４】(2) ループの回転数が翻訳時に確定してい
ない場合回転数が翻訳時に確定しない場合にもブロッキングを実
施することができる。このとき注意すべき点は，“ＳＴ
ＲＩＤＥの合計が回転数を超える場合”を常に考慮しな
ければならないことである。この場合には，以下の手順
でＳＴＲＩＤＥを決定する。

【００５５】ｉ) 回転数が翻訳時に確定しない場合に
は，配列の要素すべてをアクセスするとみなし，キャシ
ュサイズに格納可能なＳＴＲＩＤＥを決定する。方法は
回転数が既知の場合と同様である。

【００５６】ii) ＳＴＲＩＤＥが決定した後，新たにル
ープを生成する。ループの回転数が不明であるため，Ｓ
ＴＲＩＤＥと回転数との比較のためのコードを生成する
必要がある。このとき，条件付転送命令を持つハードウ
ェアでは，ＳＴＲＩＤＥと回転数との比較を条件付転送
命令に置き換える。この置き換えにより，分岐のオーバ
ヘッドを縮小することが可能となる。

【００５７】図５に，ＳＴＲＩＤＥの和とループの回転
数（Ｎ）の関係を示す。この図から明らかなように，ル
ープの回転数が不明である場合には，比較判断の命令が
必要になる。

【００５８】図６は，そのためのループの終了条件を判
定する命令の例を示している。例えば図６に示す“do i
=ii,min(ii+istride-1, n)”のように，翻訳時にループ
の回転数（変数ｎ）が確定しない場合には，ＳＴＲＩＤ
Ｅ（変数ｉｓｔｒｉｄｅ）のそれまでの合計値と，回転
数（ｎ）のうち小さいほうを選び，それをループの終了
条件とする。５）ループ変形分割すべき配列データ，分割すべきインデックス，およ
びブロック長（ＳＴＲＩＤＥ）が決定した後，分割数を
指示するループをオリジナルループの外に生成する。ブ
ロッキングを実施した場合，オリジナルループと比較し
て，ループが深くなるが，最内ループのブロッキング対
象となったデータがキャシュにミスヒットしないことを
考慮すると，新たに生成したループのオーバヘッドは無
視できる。〔補足説明１〕配列データの再利用解析配列データの再利用解析では，“最内ループで使用され
る配列データが，どのインデックス空間で使用されるの
か”のデータを収集する。このデータをインデックス・
ディペンデンス・ベクトル(Index dependence vector)
と呼ぶ。

【００５９】例えば，図７の（イ）に示す例で説明する
と，Index dependence vector は，以下のようになる。
最内ループの配列データのインデックスｊ，ｋ，ｉと，
ループの深さとの関係は，図７の（ロ）に示すようにな
る。この各インデックスに対応したループの深さが，In
dex vectorの並びになる。このケースでは，Index vect
orは｛ｊ，ｋ，ｉ｝の順番になる。ここで，インデック
スが関与するものを“１”，関与しないものを“０”と
し，Index dependence vector を定める。

【００６０】その結果，Index dependence vector は，
図７の（ハ）に示すように， c(i,j) ＝｛1,0,1 ｝： a(i,k) ＝｛0,1,1 ｝： b(k,
j) ＝｛1,1,0 ｝となる。

【００６１】これをもとに，最外ループに対して再利用
(Reuse)可能な配列データを求める。各ループのインデ
ックスのIndex vectorを定義し，Index dependence vec
torとの減算を実施する。減算した結果は，結果Vector
に格納される。

【００６２】Result(k1,・・・,kn) ＝ Idv(j1,・・・,jn)
− Iv(i1,・・・,in) （ｎ：ループの深さ）各インデックスに対して減算の結果を求める。Result
(1) ＝｛r1,・・・,rn ｝，インデックスIn(1＜in＜n)で再
利用可能なデータは，該当するIndex Vectorの欄が('−
1'）の場合である。それ以外の数値の場合('０')は，ア
クセスする配列が調査対象のインデックスを含んでいる
ため，最外ループに対して再利用不可能となる。

【００６３】図７の例で説明すると，まず， Index Dependence Vector ： c(i,j) ＝ (1,0,1) a
(i,k) ＝ (0,1,1) b(k,j) ＝ (1,1,0) を求め，次に，Index ｊに対して再利用可能なデータを
収集する。インデックス'ｊ' のIndex Vectorは， Iv
(j)＝ (1,0,0)である。

【００６４】Index Dependence Vector とIndex Vector
の減算を行う。 c(i,j) : (1,0,1)− (1,0,0)＝ ( 0,0,1) a(i,k) : (0,1,1)− (1,0,0)＝ (-1,1,1) ★再利用可能 b(k,j) : (1,1,0)− (1,0,0)＝ ( 0,1,0) このとき，インデックス 'ｊ' に対して，配列ａ（ｉ，
ｋ）は再利用があることを意味し，インデックス 'ｉ',
'ｋ' に対してブロッキング可能となる。

【００６５】以上のように簡単なベクトルの減算によ
り，再利用可能な配列データと，対象インデックスを求
めることができる。〔補足説明２〕ブロッキング対象データの次元数の考
慮［１次元配列の場合］分割対象の配列が１次元のとき，
分割対象となるインデックスは１つしかない。再利用可
能な配列データのインデックスが最内ループのインデッ
クスに依存していないならば，ブロッキングは実施しな
い。最内ループのインデックスに依存しているときのみ
分割する。

【００６６】［２次元配列の場合］対象となる配列デー
タの各要素が，最内とそのすぐ外側のループのインデッ
クスでアクセスされるならば，両方のインデックスに対
して，ブロッキングを実施する。もし最内ループしか含
まないとき，最内ループのインデックスのみで分割す
る。両方のインデックスを含まないとき，ブロッキング
は実施しない。

【００６７】［３次元以上配列の場合］ −最内ループに着目してブロッキングを実施する。外側
ループに着目したブロッキングは翻訳コストの面から実
施しない。

【００６８】−ブロッキングを行うためにインデックス
交換が必要なときは，ブロッキングは実施しない。最内
ループのインデックスでアクセスされる配列のみブロッ
キングの対象とする。〔補足説明３〕ＳＴＲＩＤＥ（分割長）の決定ループの回転数が翻訳時に確定している場合，分割後の
配列がキャシュサイズに収まり，かつループの回転数で
割り切れるＳＴＲＩＤＥ（分割長）を選択する。

【００６９】(1) 正方形に分割する場合キャシュサイズをＣ（Ｂｙｔｅ），ブロッキング対象の
配列データがＮ個存在するものとし，配列の１要素の大
きさをＥ（Ｂｙｔｅ）とすると，１つの配列に分配する
ことができるキャシュサイズはＳＴＲＩＤＥ＝ＳＱＲＴ((Ｃ／Ｅ) ／Ｎ) の式で求められる。なお，ＳＱＲＴは，平方根を求める
関数である。

【００７０】回転数は翻訳時に確定しているので，分割
値に近似していて，かつループの回転数で割り切れる数
値が最適なＳＴＲＩＤＥになる。ブロッキング対象ループが２つあり，相互の回転数
が違う場合最内ループの回転数をベースとして，最適なＳＴＲＩＤ
Ｅ値を決定する。外側のループの回転数の決定では，回
転数を超えるかどうかの判定を生成する。

【００７１】回転数が素数のとき上記の式で求めたＳＴＲＩＤＥで分割する。ＳＴＲＩＤ
Ｅ値が回転数を超えたかの判定を生成する。

【００７２】(2) 最内ループのみブロッキングを実施す
る場合最内ループの最適なＳＴＲＩＤＥ値をＸとして，その他
のＮ−１個のループの回転数を Ic(i)｛１≦ｉ≦Ｎ−
１｝，対象配列の１要素の大きさをＢとすると，一つの
配列要素に分配できるキャシュサイズは，ＳＴＲＩＤＥ＝Ｃ／Ｂ＊ (Π Ic(Ｎ−１)) の式で求めることができる。これが，キャシュに収まる
ＳＴＲＩＤＥ長の最大値となる。以下，正方形に分割す
る方式と同様にして，最適なＳＴＲＩＤＥ長を決定す
る。次に，本発明の具体的な適用例について，図８およ
び図９に従って説明する。

【００７３】図８の（イ）に示すＦＯＲＴＲＡＮソ
ースプログラムについて，本発明による最適化を実施す
るものとする。なお，実際には，ソースプログラムを中
間テキストに変換したものについて最適化を行うが，こ
こでは，説明をわかりやすくするため，ソースプログラ
ム形式で表記する。

【００７４】このプログラムのループを検出し，タイト
なループ構造であることがわかったならば，データの依
存関係の情報収集を実施した後に，最内ループの配列要
素のアクセスができるだけ連続となるように，インデッ
クス交換を実施する。

【００７５】インデックスＩが最内ループ，インデ
ックスＪが最外ループのインデックスとなるようにルー
プを変形する。これにより，図８の（ロ）に示すように
変形される。

【００７６】個々の配列要素に対して，Index depe
ndence vector を求める。インデックスとループの深さ
との関係から, Index dependence vector は，図８の
（ハ）に示すようになる。

【００７７】最外ループに対して，常に同じデータ
アクセスの軌跡を描く配列を求める。図９の（イ）に示
すように，Ｊの Index vector は（１，０，０）であ
る。これをもとに，各配列のIndex dependence vector
と，Ｊの Index vector との減算を行う。この結果，Ｊ
のインデックス部が“−１”の配列要素，すなわちＡ
（Ｉ，Ｋ）が，インデックスＪに対して，常に同じデー
タのアクセスの軌跡を描くデータであることがわかる。

【００７８】図９の（ロ）に示す処理を行う。すな
わち，配列Ａ（Ｉ，Ｋ）とキャッシュサイズ（Ｃとす
る）を比較し，Ａ（Ｉ，Ｋ）＜Ｃのとき，本最適化は必
要ないので，ループ変形は実施しない。Ａ（Ｉ，Ｋ）＞
Ｃのとき，Ａ（Ｉ，Ｋ）＜Ｃとなるように，Ｉ，Ｋを分
割する。

【００７９】ここで，Ａ（Ｉ，Ｋ）＞Ｃであるとする。
前述した方法により，分割のサイズを計算し，それぞれ
ＩＳＴＲＩＤＥ，ＫＳＴＲＩＤＥとする。この分割長ＩＳＴＲＩＤＥ，ＫＳＴＲＩＤＥに従っ
て，ループ変形を実施する。すなわち，分割数を指示す
るループ“DO KK=1,R,KSTRIDE", “DO II=1,N,ISTRIDE
”を，元のループの外に生成する。また，Ｋ，Ｊの回
転数が不明であることから，Ｋの回転数Ｒと分割数の合
計，Ｉの回転数Ｎと分割数の合計の比較によるループ終
了条件を定める命令を生成する。この結果，ループは，
図９の（ハ）に示すように変形される。図９の（ハ）に
示す最適化結果に従って，オブジェクトプログラムを生
成すれば，キャッシュメモリのミスヒットが少ない性能
のよいオブジェクトプログラムが得られることになる。

【００８０】

【発明の効果】以上説明したように，本発明によれば，
ブロッキングを行う前に，ループ分割，インデックス交
換等のループ変形を実施することにより，ブロッキング
の適用範囲を広げることが可能となる。また，ブロッキ
ングの効果により，一番実行コストが高い最内ループで
のキャシュメモリへのミスヒットを減少させ，主記憶参
照アクセスのオーバヘッドを削減することができるよう
になる。

【図面の簡単な説明】

【図１】本発明の原理説明図である。

【図２】本発明の実施例に係るループ分割によるループ
再構成の例を示す図である。

【図３】本発明の実施例に係るインデックス交換の説明
図である。

【図４】本発明の実施例に係る分割対象インデックス決
定プロセス説明図である。

【図５】本発明の実施例に係るＳＴＲＩＤＥの合計と回
転数の比較判断説明図である。

【図６】本発明の実施例に係るループの終了条件の判定
説明図である。

【図７】本発明の実施例に係るループの深さ／インデッ
クス／配列アクセスの関係説明図である。

【図８】本発明の適用例説明図である。

【図９】本発明の適用例説明図である。

【図１０】本発明に関係する最内ループのメモリアクセ
スの軌跡説明図である。

【符号の説明】

１０ソースプログラム１１処理装置１２構文・意味解析部１３最適化処理部１４オブジェクト生成出力部１５オブジェクトプログラム

Claims

【特許請求の範囲】

【請求項１】多重ループを含むソースプログラム(10)
を，階層型メモリを有する計算機上で動作するオブジェ
クトプログラム(15)に変換する計算機言語処理方法にお
いて，タイトな構造を持つループを検出し，ブロッキン
グ可能なループを認識する処理過程（，）と，デー
タの重なり解析を利用することにより，インデックス交
換が可能なループの範囲を識別し，最内ループにおける
配列データのアクセス距離が短くなるように外側ループ
と最内ループとを入れ換えて，インデックス交換を実施
する処理過程（）と，ループの深さとインデックスと
の関係，最内ループの配列をアクセスするインデックス
とループとの関係により，ブロッキング可能な候補配列
を抽出し，候補配列の中から分割対象配列と分割対象イ
ンデックスを決定する処理過程（）と，分割後の配列
がキャッシュメモリのサイズに収まるように，キャッシ
ュメモリのサイズおよびループ回転数に基づいて，分割
のブロック長を決定する処理過程（）と，分割すべき
配列データ，分割すべきインデックスおよび分割のブロ
ック長をもとに，分割数を指示するループを元のループ
の外に生成し，ループの変形を行う処理過程（）とを
有し，生成するオブジェクトプログラムの最適化処理を
行うことを特徴とする計算機言語処理方法。
【請求項２】請求項１記載の計算機言語処理方法にお
いて，ブロッキング対象ループがタイトなループ構造で
ない場合に，ループ分割によってタイトなループ構造に
再構成する処理過程（）を有することを特徴とする計
算機言語処理方法。