JPH0675987A

JPH0675987A - ループ変換方法

Info

Publication number: JPH0675987A
Application number: JP5150130A
Authority: JP
Inventors: Ichiro Kushima; 伊知郎久島; Masahiro Uminaga; 正博海永
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1992-06-22
Filing date: 1993-06-22
Publication date: 1994-03-18

Abstract

(57)【要約】【目的】メモリ上でのアドレスが連続する２つのデー
タを１つの命令でそれぞれレジスタにロードができるプ
ロセッサに対して、該命令を利用できるようにループを
変換する方法を与える。【構成】ステップ１０１でプログラム中で繰り返し実
行される部分を特定し、ステップ１０２でループ内でア
クセスされている配列参照を同じ配列への参照であるか
という基準で同値類に分類する。ステップ１０３では同
値類のうち、配列転置化により一括ロードまたはストア
命令が利用できるものを選ぶ。ステップ１０４で選ばれ
た同値類に対応する配列を転置化してコピーする中間語
を生成する。ステップ１０５で、転置化される前の配列
の要素への参照を、転置化した配列への参照となるよう
に変更する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明はループ変換方法に係り、
特に、一度に２つ分のデータをロードまたはストアする
命令を持つプロセッサに対して、多次元配列にアクセス
するループを高速に実行するオブジェクトコードを生成
するためのループ変換方法に関する。

【０００２】

【従来の技術】コンパイラが生成するオブジェクトコー
ドの実行時の効率を向上させる最適化技術が従来より種
々提案されている。中でも、プログラム中で実行頻度が
高く、実行時間の多くの割合を占める部分はループであ
るので、ループの最適化手法が特に重要である。これら
従来のループ最適化技法については、佐々正孝著「プロ
グラミング言語処理系」（岩波講座ソフトウェア科学
５，１９８９年）４５９頁から４９３頁や、笠原博徳著
「並列処理技術」（コロナ社、１９９１年）１１３頁か
ら１２８頁などに記載されている。

【０００３】一方、ハードウェアの面からもオブジェク
トコードの実行を高速化する方式が提案されている。そ
の一つに、スーパースカラ方式によるプロセッサがあ
る。スーパースカラプロセッサは、連続する複数の命令
（２または４）を同時にフェッチし、それらが並列に実
行可能であれば並列実行する。

【０００４】スーパースカラ方式では並列実行可能な場
合だけ並列に実行するので、プロセッサを高速に動作さ
せるには、実行されるオブジェクトプログラム内にそれ
だけの並列性が存在することが必要である。例えば、あ
る命令で計算した値を直後の命令で使用する場合、この
二つの命令は並列には実行できない。そこで、ＲＯＲＴ
ＲＡＮやＣのような高級言語で書かれたプログラムをコ
ンパイルして、スーパースカラプロセッサで実行しよう
とする場合、ソースプログラムに並列性が陽に現れてい
ない場合は、コンパイラが、ソースプログラムを機械語
に翻訳する際に、並列性を引き出すような最適化を行う
ことが普通である。特にループ部分に関しては並列性の
引き出しが顕著な効果をあげる。

【０００５】例えば、以下のＦＯＲＴＲＡＮの３重ルー
プを考えてみる。 DO 8 I=1,256 …(1) R(I,I) = 1.DO /R(I,I) …(2) DO 8 J = I+1, 256 …(3) R(J,I) = R(J,I)*R(I,I) …(4) DO 8 K = I+1, 256 …(5) R(J,K) = R(J,K) - R(J,I)*R(I,K) …(6) 8 CONTINUE このプログラムの実行で、最も実行回数の多いのは、ル
ープの最も内側の部分、すなわち(6)の文である。した
がって、このプログラムの最適化（並列化）はこの部分
に対して行うのが最も効果的である。(6)の文は、配列
のアドレス計算などを無視すると、以下の５つの命令に
よって実行される。 R(J,K)のロード …(8) R(I,K)のロード …(9) R(J,I)*R(I,K)の計算 …(10) R(J,K)-((10)の結果)の計算 …(11) ((11)の結果)をR(J,K)へストア …(12) R(J,I)のロードが含まれていないのは、この式の値がル
ープ中で変わらないので、ループ外で最初に一度ロード
しておけば、ループ内ではロードする必要がないからで
ある。

【０００６】上の５つの命令のうち、並列に実行できる
のは(8)と(9)だけである。その他の命令はいずれもそれ
以前の命令の結果を使っているため、並列には実行でき
ない。よって同時に複数命令を発行できるというスーパ
ースカラプロセッサの特性はほとんど活かされていない
ことになる。

【０００７】このようなプログラムから並列性を引き出
す手法の１つにループ展開がある。ループ展開とは、ル
ープ内部を複数コピーして展開し、ループ反復を減らす
とともに、ループ内部の独立した命令を増やすことによ
り並列実行の可能性を増加させるような最適化である。
例えば、さきほどのプログラムでは、最も内側のループ
を２倍に展開することにより、次のように展開できる。
（最も内側のループのみを示す。Kの値は２ずつ増える
ことに注意）。 DO 8 K = I+1, 256, 2 …(13) R(J,K) = R(J,K) - R(J,I)*R(I,K) …(14) R(J,K+1) = R(J,K+1) - R(J,I)*R(I,K+1) …(15) 8 CONTINUE …(16) この場合、ループ中のステートメント(14)と(15)で実行
される命令列は以下の通りである。 R(J,K)のロード …(17) R(I,K)のロード …(18) R(J,I)*R(I,K)の計算 …(19) R(J,K)-((19)の結果)の計算 …(20) ((20)の結果)をR(J,K)へストア …(21) R(J,K+1)のロード …(22) R(I,K+1)のロード …(23) R(J,I)*R(I,K+1)の計算 …(24) R(J,K+1)-((24)の結果)の計算 …(25) ((25)の結果)をR(J,K+1)へストア …(26) これらの命令のうち、(17)と(22)、(18)と(23)、(19)と
(24)、…は互いに独立であるので、（論理的には）並列
に実行可能である。つまり、ループ展開によりプログラ
ムの並列性を上げることがする。

【０００８】しかし、論理的には並列実行可能であって
も、プロセッサのハードウェア的制約により命令が並列
実行できない場合がある。すなわち２つの命令が同一の
実行ユニット（加算器、乗算器、メモリポートなど）を
競合して使用する場合、２つの命令は並列実行できな
い。たとえば加算命令と加算命令、ロード命令とロード
命令、ロード命令とストア命令などである。上記命令列
の場合、(17)と(22)、(18)と(23)などはともにロード命
令であるので物理的に並列実行できない。上記の(17)か
ら(26）の命令列では、１０個の命令のうち６つまでが
ロードまたはストア命令であるので十分な並列性が得ら
れない。一般のプログラムではこのようにロード・スト
アが高速化のボトルネックとなることが多い。

【０００９】このような問題を解決するため、１つの命
令で２つのデータを一度にロードまたはストアする命令
を持つプロセッサがある。（ただしロードまたはストア
すべきデータがメモリ上に連続的に配置されていなけれ
ばならない。またロードとストアは同時には実行できな
い。）この命令を使えば、ロード・ストア命令数が減
り、よって実行ユニット（メモリポート）の競合の可能
性を減らすことができる。

【００１０】

【発明が解決しようとする課題】上記従来技術で述べ
た、一度に２つ分のデータをロードまたはストアする命
令は、ロードまたはストアすべき２つのデータがメモリ
上で連続領域に配置されていなければならない。ところ
が、ループ展開を行っても、ロードまたはストアするデ
ータが必ずしも連続的に配置されているとは限らない。

【００１１】例えばループ展開後の命令列（(17)から(2
6)）でロードするデータは、R(J,K),R(J,K+1),R(J,K+
2),R(J,K+2)の４つであるが、これらはメモリ上では連
続していない。これら４つの参照は右側の添字が連続的
に変化しているが、ＦＯＲＴＲＡＮの多次元配列は、R
(1,1),R(2,1),R(3,1),…というように、最も左側の添字
が変化しながらメモリに配置されるからである（逆にＣ
言語では添字の右側から変わるように配置される）。ま
た、ストアされるデータはR(J,K),R(J,K+1)の２つであ
るが、これらもメモリ上では連続していない。したがっ
て例のプログラムは、一度に２つ分のデータをロードま
たはストアする命令があってもそれを有効利用できな
い。したがって、ロード／ストアのボトルネックは解消
されないままである。

【００１２】このような問題を解決する一つの方法とし
て、公知文献にも記載があるように、ループ交換（ルー
プインタチェンジ）という最適化手法がある。ループ交
換は、多重ループがあったとき、内側と外側のループを
入れ換える手法である。しかし、この手法はすべてのル
ープに適用できるわけではない。ループ交換によりプロ
グラムの意味（実行結果）が変わってしまう場合は適用
できない。例のループの場合も内側のループとその外側
のループを交換すると、プログラムの意味が変わってし
まう。

【００１３】本発明の目的は、一度に２つ分のデータを
ロードまたはストアする命令を持つプロセッサに対し
て、例のように、多次元配列へのアクセスがあるループ
において、そのような命令を有効利用し、ロードまたは
ストア命令数を減らすようなループ変換方法を与えるこ
とにある。

【００１４】

【課題を解決するための手段】上記目的は、ループ内で
連続的にアクセスする配列要素が、メモリ上でも連続的
に配置されるように、配列の内容を配置し直すことで達
成される。すなわち、ループネスト中で、時間的に連続
的にアクセスされる配列要素が、空間的には連続的にア
クセスされない配列を選択するステップと、選択された
配列全体を別の配列に複写するコードを、該ループネス
トの前に挿入するステップと、該ループネスト中での元
の配列要素へのアクセスコードを、複写先の配列要素へ
のアクセスコードに置換するステップと、必要に応じ
て、複写先の配列を、もとの配列に複写し直すコード
を、該ループネストの後に挿入するステップ、を有する
ループ変換方法により達成される。

【００１５】上記の複写では、もとの配列をＡ、複写先
の配列をＢとしたとき（ともにｎ次元配列とする）、Ｆ
ＯＲＴＲＡＮのように１番目の次元（最も左側）の添字
が連続的に変化するようにメモリ空間上に配置され、し
かもループ内ではｉ番目（ｉ≠１）の次元の添字が連続
的に変化しながら配列にアクセスする場合には、Ａ（Ｉ₁，Ｉ₂，…，Ｉ_i，…，Ｉ_n）＝Ｂ（Ｉ_i，Ｉ₂，
…，Ｉ₁，…，Ｉ_n）が、すべての配列要素に対して満たされるようにＡから
Ｂへ複写する。

【００１６】一方、Ｃ言語のように最後の次元（最も右
側）の添字が連続的に変化するようにメモリ空間上に配
置される場合には、Ａ（Ｉ₁，Ｉ₂，…，Ｉ_i，…，Ｉ_n）＝Ｂ（Ｉ₁，Ｉ₂，
…，Ｉ_n，…，Ｉ_i，）が、すべての配列要素に対して満たされるようにＡから
Ｂへ複写する。

【００１７】また、上記配列を選択するステップでは、
少なくともループネスト中ですべての配列要素が２回以
上アクセスされるような配列を選択する。

【００１８】

【作用】従来技術で示したループを例として説明する。
ループ展開後、最深のループ１回の繰り返しでアクセス
する配列要素は、R(J,K),R(J,K+1),R(J,K+2),R(J,K+3)
であり、配列の２番目の次元（右側）の添字が変化して
いる。一方、ＦＯＲＴＲＡＮの２次元配列は、１番目の
次元（左側）の添字が一番速く変化するようにメモリ空
間上に配置される。

【００１９】そこで、まず元の配列Ｒを、１番目と２番
目の添字を交換して別の配列Ｘへ複写するコードを目的
のループの直前に挿入する。次に、目的のループ内で、
配列Ｒの要素を参照する箇所があれば、それを対応する
配列Ｘの要素を参照するように置き換える。たとえば、
R(J,K)をX(K,J)で置き換える。置換により目的のループ
は以下のように変換される。 DO 8 I=1,256 X(I,I) = 1.DO / X(I,I) DO 8 J = I+1, 256 X(I,J) = X(I,J) * X(I,I) DO 8 K = I+1, 256, 2 X(K, J) = X(K,J) - X(I,J) * X(K,I) X(K+1,J) = X(K+1,J) - X(I,J) * X(K+1,I) 8 CONTINUE そして配列Ｘを、１番目と２番目の添字を交換して元の
配列Ｒへ複写するコードを目的のループの直後に挿入す
る。

【００２０】ループ変換後、目的のループの最も内側で
ロードされるデータは、X(K,J),X(K+1,J),X(K+2,J),X(K
+3,J)の４つである。これらはそれぞれメモリの連続領
域に配置されている。したがって、たとえばX(K,J)とX
(K+1,J)や、X(K,I)とX(K+1,I)を１度にロードできる。
必要なロード命令の数が半分で済む。ストアについても
同様に半分の命令数で済む。

【００２１】上記ループ変換では、目的のループネスト
の前後に配列を複写するコードが挿入されるため、実行
時に複写によるオーバーヘッドがある。しかし、複写は
配列Ｘの全要素が１回だけアクセスされるのに対し、目
的のループネストでは、３重ループネストであるため全
要素が２５６回アクセスされている。すなわち、目的の
ループネスト中のアクセスの方が実行時間の点でよりク
リティカルな部分であり、配列複写のオーバーヘッドは
無視できる。

【００２２】

【実施例】以下の本発明の一実施例を説明する。

【００２３】図２は本発明に基づくＣコンパイラが稼働
する計算機システムの構成図である。計算機システムは
ＣＰＵ２０１、主記憶装置２０２、外部記憶装置２０
３、ディスプレイ装置２０４、キーボード２０５より構
成されている。キーボード２０５より、ユーザからのコ
ンパイラ起動命令を受け付ける。コンパイル終了メッセ
ージやエラーメッセージはディスプレイ装置２０４に表
示される。外部記憶装置２０３にはＣソースプログラム
２０６と、オブジェクトプログラム２０７が格納され
る。主記憶装置２０２にはコンパイル過程で必要となる
中間語２０８、シンボルテープ２０９、ループ内配列参
照テーブルテーブル２１０、およびループテーブル２１
１が格納される。コンパイル処理はＣＰＵ２０１によっ
て制御される。

【００２４】図３はコンパイラの処理を示すフローチャ
ートである。コンパイルは語彙解析３０１、構文解析３
０２、転置化３０３、最適化３０４、コード生成３０５
の順に進む。このうち語彙解析、構文解析、最適化、コ
ード生成は従来のコンパイラにおける処理と同じである
ので、以下、簡単に説明する。

【００２５】（ステップ３０１）ステップ３０１の語彙
解析では、単に文字の列として格納されているＣソース
プログラムを、単語（lexicon）の列にする。語彙解析
の方法については例えばAHo他著「コンパイラＩ−原理
・技法・ツール」（サイエンス社）に記載がある。

【００２６】図４はＣソースプログラムの例である。こ
れを語彙解析とすると、図５のような単語の列となる。
図５で、各単語は種別５０１と字句５０２の組で表現さ
れ、また各単語はソースプログラムの出現順に並んでい
る。種別のkeywordはプログラムのキーワード、idは識
別子、puncは区切り記号、numは数字を表す。

【００２７】（ステップ３０２）ステップ３０２におい
て単語の列を解析する。構文解析は解析される文が宣言
文であるか実行文であるかによって処理が異なる。宣言
文に対しては、宣言される識別子をシンボルテーブルに
登録する。実行文に対しては中間語を作成する。構文解
析の方法、シンボルテーブルの作成方法、中間語の作成
方法についてはやはり前記文献に記載がある。

【００２８】シンボルテーブルの例を図６に示す（これ
は図４のプログラムに対応している）。図６のインボル
テーブルに登録されている情報は名称６０１、出現位置
６０２、型６０３、転置化フラグ６０４等である。名称
６０１は識別子の名称、出現位置６０２は識別子が宣言
された位置（関数内か関数外か）を表す。型６０３は識
別子の型を表し、たとえば「array(int,200,300」は
「要素型がintで要素数が３００＊２００の（２次元）
配列」という型を表現する。転置化フラグ６０４は後述
する転置化処理３０３で設定されるフラグであり、最初
はすべてオフとなっている。

【００２９】中間語の例を図７に示す（これも図４のプ
ログラムに対応している）。図７の中間語は木で表現さ
れている。木はノード（節）とエッジ（辺）の集合であ
る。計算機のメモリ上では、ノードは一定長または可変
長のメモリ領域で、エッジはその領域の番地を表すポイ
ンタとして表現されるが、図７では見やすさのため、ノ
ードは四角で、エッジはそれらを結ぶ線で表す。各ノー
ドは１つの親ノードと０個以上の子ノードを指す（ただ
しルートと呼ばれる特別なノードだけは親ノードを指さ
ない）。図では各ノードから上に延びたエッジが親ノー
ドを、下に延びたエッジが子ノードを指す。子は左から
第１子、第２子、…と呼ぶ。たとえば「｛｝」(703）の
親ノードは「func」(701)であり、子ノードは「for」(7
04)である。ルートノードは「func」(701)である。木は
プログラムの論理構造を表現するのに適しているので多
くのコンパイラで用いられている。

【００３０】（ステップ３０３）転置化処理を行う。詳
しくは後述する。

【００３１】（ステップ３０４）ステップ３０４では、
木構造で表現された実行文の部分を走査する。そして冗
長な部分を見つけてその冗長部分を削除するなどの最適
化処理を行う。この最適化処理はやはり前記文献に記載
があり、また本発明の本質的部分と無関係であるのでこ
れ以上の説明は省略する。

【００３２】（ステップ３０５）ステップ３０５では、
アセンブリ言語表現されたオブジェクトプログラムを生
成し、オブジェクトファイル２０７に出力する（機械語
表現のオブジェクトモジュールを生成するコンパイラも
ある）。シンボルテーブルからはアセンブリ言語の領域
定義命令や定数定義命令を生成し、中間語からはアセン
ブリ言語の機械語命令を生成する。このコード生成処理
も本発明の本質的部分と無関係であり、これ以上の説明
は省略する。

【００３３】次に本発明の特徴であるステップ３０３の
処理について詳しく説明する。

【００３４】図１は転置化３０３をさらに詳しくしたフ
ローチャートである。転置化処理は、ループ構造の認識
１０１、ループ内配列参照の解析１０２、転置化対象配
列の選択１０３、配列コピーコードの生成１０４、配列
要素参照の転置化配列参照への変更１０５の順で進む。
以下これらの処理を具体的に説明していく。

【００３５】（ステップ１０１）まずステップ１０１で
ループ構造の認識を行う。この処理では中間語を走査
し、ループを表すノードを見つけ、そのループで繰り返
し実行される文（これを以降単に「ループ実行文」と呼
ぶ）を認識し、それをループテーブル２１１に登録す
る。Ｃ言語でループを表すノードはfor,whileなどであ
る。ループ認識処理を図７の中間語の例で示す。木のル
ートから走査を始める。ルートのfunc(701)は関数定義
を表し、その第１子が関数名mainを、第２子が関数本体
を表す。第２子は｛｝(703)である。｛｝の第１子に移
ると、ループノードの１種であるfor(704)が見つかる
（最初のfor文）。forノードで実行される文を表すのは
第４子である（第１子は初期値設定文、第２子は繰り返
し判定文、第３子は制御変数更新文である。後述）の
で、第４子に移る。第４子のfor(705)は再びforノード
である（２番目のfor文）。そこでさらにその第４子へ
移ると、再びforノード(706)である３番目のfor文）の
でさらにその第４子へ移る。第４子は｛｝(707)であ
り、さらに｛｝(707)の子は＝(707)である（＝は代入を
表すノードである）。したがって704以下のループネス
トは３重ループであり、そのループ実行文はノード708
で表されることがわかる。

【００３６】ループテーブルの構造を図１０に示す。各
ループについて、ループ番号1001、ノード1002、制御変
数1003、子ループリスト1004、実行文リスト1005を、繰
り返し回数1006を登録する。ループ番号は出現順に1,2,
3,…とつける。ノードはそのループを表すノードであ
る。ループ制御変数は、ループノードの第１子で定義さ
れ、第２子で比較され、第３子で１だけ加算される変数
である。例えばforノード(706)の場合は、変数ｋが、第
１子の＝(715)で定義され、第２子の＜(716)で比較さ
れ、第３子の++(717)で１だけ加算されている。したが
ってｋがループ制御変数となる。子ループリストはその
ループに直接含まれるループの番号をリストしたもので
ある。実行文リストはそのループに直接含まれる実行文
のノードをリストしたものである。例えばforノード(70
6)は代入ノード＝(708)を実行文として含む。繰り返し
回数は、制御変数の動く範囲、すなわち最終値−初期値
＋１である。例えばforノード(706)の場合はｋの初期値
は０、最終値は299であるので（ループはｋ＜300が成り
立っているあいだ繰り返すので、ｋの最終値は299）、
繰り返し回数は300となる。以上でループ構造の認識が
終わる。

【００３７】（ステップ１０２）次にステップ１０２
で、ループ内の配列要素参照解析を行う。この処理では
ループ実行文の中間語を走査し、配列要素参照ノードを
見つけ、配列名、添字式、参照状況などを調べ、結果を
配列要素参照テーブル210に登録する。この処理を図７
の中間語の例を用いて説明する。この中間語では、配列
要素参照ノード（［］で示される）のうち、第２子がよ
り右側の次元の添字を、第１子がより左側の次元の添字
または配列名を表す。また代入ノード（＝で示される）
の第１子が代入先（定義側）を、第２子が代入元（使用
側）を表す。図７の例におけるループ実行文はノード70
8の代入文であるのでここから処理を始める。708の第１
子は［］(709)であり、その第２子はj(710)である。し
たがってこの配列要素式の最も右側の添字はｊである。
［］(709)の第１子は再び［］(711)であり、その第２子
はk(712)である。したがってこの配列要素式の右から２
番めの添字はｋである。［］(711)の第１子はａ(713)で
あり、これは配列名である。以上をまとめると、＝(70
9)以下の配列参照式の配列名はａ、配列次元は２、１次
元目（最も左）の添字式はｋ、２次元目の添字式はｊ、
であることがわかる。またこの配列参照式は代入ノード
＝(708)の第１子であるので、定義側である。＝(708)の
第２子の配列要素参照式についても同様の解析を行う。

【００３８】以上のような解析を行って図８に示す配列
要素参照テーブルを作成する。配列参照テーブルは実行
文中の各配列参照式について、その配列名801、次元数8
02、添字式リスト803（各次元の添字式をリストしたも
の）、参照状況（定義・使用の区別）、ループリスト
（該配列要素式を含むループノードをリストしたもの）
を保持する。

【００３９】（ステップ１０３）次にステップ１０３
で、転置化の対象とする配列を選ぶ。ここでは配列要素
参照テーブルに出現する配列（配列名）ごとに、転置化
フラグｃおよび転置する次元ｐを求める。ｃ＝falseま
たはｐ＝０であればその配列は転置化の対象としない。
与えられた配列に対してｃとｐを求めるアルゴリズム
を、図９のフローチャートを使って説明する。例として
図８の配列参照式テーブルと図７の中間語を用いる。図
８のテーブルに出現する配列はａだけであるので、ａに
対するｃとｐを求める。

【００４０】（ステップ９０１）ｃ＝オフ，ｐ＝０とす
る。

【００４１】（ステッ９０２）与えられた配列に対し
て、まだ処理していない配列要素参照式があるかを調べ
る。もしなければ終了する。あればそのうちの１つの参
照式をとりだしてステップ９０３へ進む。配列ａの場合
は２つの参照式があるのでまず１つめの参照式806を取
り出す。

【００４２】（ステップ９０３）参照式の添字リストの
中に、最も内側のループの制御変数があるかを調べる。
なければステップ９０２に戻る。あればステップ９０４
へ進む。最も内側のループは、ループリストの中の最後
（最も右側）のループ番号で示され、その制御変数はル
ープテーブルの制御変数９０３で示される。参照式８０
６の場合、ノードリストの最後のループは１であり、そ
の制御変数はｋである。参照式８０６の添字式リストに
は先頭にｋがあるのでステップ９０４へ進む。

【００４３】（ステップ９０４）最も内側のループ制御
変数を含む添字式の次元をｑとする。参照式８０６の添
字式リストではｋが１番目にリストされているので、ｑ
＝１である。

【００４４】（ステップ９０５）ｑが参照式の次元数と
等しいか、すなわちｑが最も右側の次元であるかを調べ
る。そうであればｃ＝falseとして（ステップ９０
６）、終了する。参照式８０６の場合はｑ＝１、次元数
＝２であるのでステップ９０７へ進む。

【００４５】（ステップ９０７）ｐ＝０かまたはｐ＝ｑ
が成立するかを調べる。成立すればステップ９０８へ進
み、しなければｃ＝falseとして終了する。参照式の場
合はｐ＝０であるのでステップ９０８へ進む。

【００４６】（ステップ９０８）参照式で指されるメモ
リロケーションが、ループ中で２回以上アクセスされる
かを調べる。されればｃ＝true（ステップ９０９）と
し、されなければｃはそのままにしてステップ９０２へ
戻る。ループ中で２回以上アクセスされるかどうかは、
ループの総繰り返し回数と、参照式が指すメモリロケー
ションの数を比較して行う。前者の方が大きければ２回
以上アクセスされると判断する。ループの総繰り返し回
数はループリストで示されるループの繰り返し回数を掛
け合わせたものである。参照式の指すメモリロケーショ
ンの数は、各次元の添字式の動く範囲をすべての次元に
ついて掛け合わせたものである。参照式８０６の場合、
ループの総繰り返し回数は１０２４＊２００＊３００＝
６１４４００００である（ループ１，２，３の繰り返し
回数はループテーブルからそれぞれ１０２４，２００，
３００であることがわかる）。一方、参照式の指すメモ
リロケーションの数は３００＊２００＝６００００であ
る（１次元目の添字式であるｋは０から２９９を、２時
限目の添字式であるｊは０から１９９を動く）。前者の
方が大きいので、参照式８０６で指されるメモリロケー
ションはループ中で２回以上アクセスされる。よってｃ
＝trueとなる。

【００４７】以上で参照８０６の処理が終る。次にステ
ップ９０２に戻り、参照８０７についても同様にステッ
プ９０３からステップ９０８の処理が行われる。そして
再びステップ９０３に戻り、ａに対する参照はもう残っ
てないので終了する。終了した時点で、ｐ＝１，ｃ＝tr
ueであるのでａは転置化の対象となる。

【００４８】以上、ステップ１０３の説明した。

【００４９】（ステップ１０４）次にステップ１０４
で、転置化対象となった配列のコピーコード生成を行
う。

【００５０】まず、コピー先の配列シンボルを生成し、
シンボルテープに登録する。シンボルの名前はユニーク
な（他のシンボル名と一致しない）名前とする。シンボ
ルの型は、転置化対象の配列の型をarray(e,N1,…，Np,
…,Nm)、転置する次元をｐとすると、array(e,N1,…,N
m,…Np)とする。図１１に、例題プログラムの転置化処
理後のシンボルテーブルを示す。配列ａ(605)が転置化
対象となっているので、これに対してコピー先配列シン
ボルta(606)を生成されている。ａの型はarray(int,30
0,200)、ｐ＝１であるので、taの型はarray(int,200,30
0)となる。また、転置化対象の配列の転置化フラグ(60
4)をオンにし、転置化配列フィールド(607)にtaを設定
し、転置化次元フィールド(608)にｐの値、すなわち１
を設定する。

【００５１】次に転置化対象配列をコピー先配列に転置
しながらコピーする中間語を生成する。転置しながらコ
ピーするノードはtcopyノードの第１子はコピー先の配
列名、第２子はコピー元の配列名とする。このノード
を、ループネストを表すノードの直前または直後または
両方に挿入する。この処理を図１３のフローチャートで
説明する。

【００５２】（ステップ１３０１）配列要素参照テーブ
ルにおける、各参照式の参照状況を調べる。参照状況が
「使用」になっている参照式が少なくとも１つあればス
テップ１３０２へ進み、なければステップ１３０３へ進
む。図８の例（例題プログラム）では参照式８０７の参
照状況が「使用」となっているのでステップ１３０２へ
進む。

【００５３】（ステップ１３０２）新たに生成した配列
名を第１子、転置化対象の配列名を第２子とするtcopy
ノードを作り、ループネストの直前に挿入する。例題プ
ログラムの場合を図１３に示す。tcopyノード(1401)が
挿入され、その第１子はta(1402)、第２子がａ(1403)で
ある。

【００５４】（ステップ１３０３）各参照式の参照状況
を調べ、参照状況が「定義」になっている参照式が少な
くとも１つあればステップ１３０４へ進み、なければス
テップ終了する。図８の例では参照式８０６の参照状況
が「定義」となっているのでステップ１３０２へ進む。

【００５５】（ステップ１３０４）新たに生成した配列
名を第２子、転置化対象の配列名を第１子とするtcopy
ノードを作り、ループネストの直後に挿入する。例題プ
ログラムの場合を同じく図１３に示す。tcopyノード(14
04)が挿入され、その第２子はta(1406)、第１子がａ(14
05)である。

【００５６】図１３のtcopyノードの表す処理をＣプロ
グラムのイメージで示したのが図１５である。図１５
(ａ）はａからtaへのコピー、（ｂ）はtaからａへのコ
ピーに対応する。tcopyノードを生成するのではなく、
図１５のプログラムに対応する中間語を生成してもよ
い。

【００５７】（ステップ１０５）次にステップ１０５
で、配列要素参照の転置化メンバ参照への変更を行う。
すなわち、ループネストに対応する中間語を再度走査
し、転置化フラグがオンである配列要素への参照が見つ
かったら、それを転置化した後の配列要素参照（コピー
先配列要素参照）に置き換える。例題プログラムの場
合、ａへの参照をtaへの参照に置き換える。これを図１
３と図１４を用いて説明する。図１３で、forノード(70
4)が書き換え対象のループであるので、そこから走査を
始める。するとノード713で転置化フラグ(604)がオンで
ある配列ａが見つかる。そこでａを転置化配列(607)で
示されるtaに置き換える。これを図１４に示す(ノード1
410)。さらに転置化次元(608)で表される添字式を、最
も右側の添字式と交換する。すなわち、図１３のノード
712で示される添字式を、最も右側の添字式と交換す
る。すなわち、図１３のノード７１２で示されるｋ（第
１次元）とノード７１０で示されるｊ（最右次元）を交
換する。これを図１４に示す（ノード1409とノード141
1)。以上で最初の置き換えが終わる。さらに木の走査を
続けると、ノード715で再びａが見つかるので、これも
同様に置換を行う。その結果が図１４に示されている。

【００５８】以上でステップ３０３の転置化処理の詳細
な説明を終わる。

【００５９】ステップ３０３を終った時点での中間語お
よびシンボルテーブルの内容をＣプログラムのソースイ
メージで表したのが図１２である（本コンパイラがこの
ようなプログラムを生成・出力するわけではないが、出
力することもできる）。行1202では新たにコピー先配列
taの宣言がされている。これは図１１のシンボルテーブ
ルの606のエントリのシンボルに対応している。また行1
206と行1212ではtcopyという文があるが、これは中間語
の1401,1404で示されるノードに対応している。また行1
210の代入文は配列ａではなくtaを参照し、添字の順序
もソースプログラムと異なる。ステップ303以降の、ス
テップ304（最適化）およびステップ305（コード生成）
は、あたかも図１２のＣプログラムがソースプログラム
であったかのように処理を行う。この処理は従来のコン
パイラと同じである。

【００６０】ステップ３０４で行われる最適化の中に、
ループ展開という最適化が従来からある。これはループ
１回の繰り返しで、本来の２回分（またはそれ以上）を
実行するようにプログラムを書き換えるものである。こ
れによりループの終了判定の回数が半分になるなどの効
果がある。図１６のプログラムは図４の例題プログラム
を最も内側ループに関してループ展開したものである。
図１６プログラムでは代入文が行1608と行1609の２つあ
るが、行1607で示されているようにｋは２ずつ増加する
のでループの繰り返し回数は半分になる。また図１７の
プログラムは図１２のプログラムを同様に展開したもの
である。

【００６１】次に図１６と図１７、および図１８を用い
て、転置化処理を行わなかった場合と行った場合のプロ
グラムの振舞いを、配列アクセスの面から説明し、本実
施例の効果を示す。

【００６２】図１６のプログラムではループ実行文（16
08と1609）で４つの配列要素がアクセスされる。すなわ
ちａ［ｋ］［ｊ］，ａ［ｋ＋１］［ｊ−１］，ａ［ｋ＋
１］［ｊ］，ａ［ｋ＋１］［ｊ−１］である。これらの
要素のメモリ上での位置を示したのが図１８（ａ）であ
る。あるマイクロプロセッサでは、メモリ上で連続的に
配置されている２つまたはそれ以上のデータを１つの命
令で１度に読み出す（ロード）、もしくは書き込む（ス
トア）命令を持っている。図１８では４つの要素のうち
ａ［ｋ＋１］［ｊ−１］とａ［ｋ＋１］［ｊ］の２つは
隣接しているが、そのうちａ［ｋ＋１］［ｊ−１］は使
用（ロード）であり、ａ［ｋ＋１］［ｊ］は定義（スト
ア）であるので上述の命令は使用できない。また他の要
素は隣接していない。したがってループ実行文中では各
要素に１つのロードまたはストア、計４つの命令が必要
となる。

【００６３】次に図１７のプログラムの転置化を行った
プログラムを考えてみる。図１７のプログラムではルー
プ実行文（１７０９と１７１０）で同じく４つの配列要
素がアクセスされる。すなわちta［ｊ］［ｋ］，ta
［ｊ］［ｋ＋１］，ta［ｊ−１］［ｋ＋１］，ta［ｊ−
１］［ｋ＋２］である。これらの要素のメモリ上での位
置を示したのが図１８（ｂ）である。図から明らかなよ
うにta［ｊ］［ｋ］とta［ｊ］［ｋ＋１］、およびta
［ｊ−１］［ｋ＋１］とta［ｊ−１］［ｋ＋２］は隣接
している。また前者２つはともにロードであり、後者２
つはストアである。よって前述の、１度に２つのデータ
をロード・ストアする命令がそれぞれ使え、計２命令で
済む。

【００６４】以上示したように、本実施例では１度に２
つのデータをロードまたはストアする命令を有する計算
機（プロセッサ）に対して有利な命令列を生成すること
ができる。

【００６５】

【発明の効果】本発明によれば、ループ中で時間的に連
続してアクセスされる配列要素が空間的にも連続的にア
クセスされるようになるため、１度に２つのデータをロ
ードまたはストアする命令を利用したオブジェクトコー
ドが生成できる。

【００６６】また、本ループ変換方法によれば、ループ
交換できないループに対してもループ交換と同様の効果
を得ることができるという効果がある。

【００６７】また、本ループ変換方法によれば、配列コ
ピーのオーバーヘッドが無視できる場合にしか変換がな
されないという効果がある。

【図面の簡単な説明】

【図１】配列転置化処理のフローチャート。

【図２】本発明のコンパイラが稼働する計算機システム
の構成図。

【図３】コンパイル処理のフローチャート。

【図４】例題プログラム。

【図５】図４のプログラムの語彙解析結果。

【図６】シンボルテーブルの例。

【図７】中間語の例。

【図８】配列要素参照テーブル。

【図９】配列を転置化対象とするかを判定するフローチ
ャート。

【図１０】ループテーブル。

【図１１】配列転置化処理後のシンボルテーブル。

【図１２】変換後のプログラムイメージ。

【図１３】コピーノード挿入処理フローチャート。

【図１４】転置化後の中間語。

【図１５】tcopyノードの処理。

【図１６】図４のプログラムをループ展開したもの。

【図１７】図１２のプログラムをループ展開したもの。

【図１８】ループ実行文でアクセスされる配列要素。

【符号の説明】

１０１…ループ構造の認識、１０２…ループ内配列参照
の解析、１０３…転置化対象とする配列の選択、１０４
…配列コピーコードの生成、１０５…配列要素参照の置
換。

Claims

【特許請求の範囲】

【請求項１】メモリ空間上に連続的に配置された、２個
またはそれ以上の配列要素を、一度にロードまたはスト
アする命令を有するマシンに対して、多次元配列にアク
セスするループを変換する方法であって、ループネストを認識するステップと、転置複写する配列を選択するステップと、該配列の全要素を別の配列に転置複写するコードを、該
ループネストの前に挿入するステップと、該ループ内での元の配列要素へのアクセスコードを、複
写先の配列要素へのアクセスコードに変換するステッ
プ、とを有するループ変換方法。
【請求項２】請求項１のループ変換方法であって、さら
に複写先の配列を、もとの配列に転置複写するコード
を、該ループネストの後に挿入するステップ、を含むル
ープ変換方法。
【請求項３】請求項１のループ変換方法であって、転置
複写する配列を選択するステップで選択される配列は、
少なくとも該ループネスト中ですべての要素が２回以上
参照される配列である、ループ変換方法。
【請求項４】請求項１のループ変換方法であって、転置
複写は、もとの配列をＡ、複写先の配列をＢとしたとき
（Ａ，Ｂはともにｎ次元配列）、ある自然数ｉに対し
て、Ａ（Ｉ₁，Ｉ₂，…，Ｉ_i，Ｉ_n）＝Ｂ（Ｉ_i，Ｉ₂，…，Ｉ
₁，…，Ｉ_n）が、すべての配列要素に対して満たされるようにＡから
Ｂへ複写する、ループ変換方法。
【請求項５】請求項１のループ変換方法であって、転置
複写は、もとの配列をＡ、複写先の配列をＢとしたとき
（Ａ，Ｂはともにｎ次元配列）、ある自然数ｉに対し
て、Ａ（Ｉ₁，Ｉ₂，…，Ｉ_i，Ｉ_n）＝Ｂ（Ｉ₁，Ｉ₂，…，Ｉ
_n，…，Ｉ_i）が、すべての配列要素に対して満たされるようにＡから
Ｂへ複写する、ループ変換方法。
【請求項６】請求項１記載のループ変換方法を用いるコ
ンパイラ。