JP2023166881A

JP2023166881A - コンパイラプログラム、情報処理装置およびコンパイラ方法

Info

Publication number: JP2023166881A
Application number: JP2022077718A
Authority: JP
Inventors: 茂木村; Shigeru Kimura
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2022-05-10
Filing date: 2022-05-10
Publication date: 2023-11-22
Also published as: US20230367570A1

Abstract

【課題】多次元ループの配列処理を含むソースコードのコンパイルを最適化する。【解決手段】情報処理装置１は、複数階層のループを含むソースプログラム２１において、最内ループ内の命令コードに含まれるｎ次元配列（ｎ≧３）に関し、第１の引数および第２の引数の配列サイズと、ループにおける第１の引数に対応する第１のインデックスおよび第２の引数に対応する第２のインデックスの回転数とがそれぞれ一致するか否かを判定し、それぞれ一致する場合には、第１のインデックスおよび第２のインデックスの開始がそれぞれ１であり、且つ第１のインデックスおよび第２のインデックスの増分値が１である場合に、命令コードに含まれるｎ次元配列の第１の引数と第２の引数とを別の引数に置き換えてｎ－１次元の配列に変更し、第１のインデックスおよび第２のインデックスのそれぞれのループを統合する。【選択図】図１

Description

本発明は、コンパイラプログラムなどに関する。

コンパイラの最適化手法として、多次元ループの配列処理をループ一重化にするＬｏｏｐｃｏｌｌａｐｓｅがある。Ｌｏｏｐｃｏｌｌａｐｓｅ（以降、Ｌｃという場合がある）は、例えば、３次元配列の領域を３重ループでアクセスしている処理を、あたかも１次元配列の領域を１ループでアクセスしているとみなす処理である。

図１２は、３次元配列のループ１重化を示す参考図である。図１２に示すように、３重ループで処理される３次元配列Ｃ（ｋ，ｊ，ｉ）、Ａ（ｋ，ｊ，ｉ）およびＢ（ｋ，ｊ，ｉ）が、それぞれ１重ループで処理される１次元配列ＣＸ（Ｉ）、ＣＡ（Ｉ）およびＣＢ（Ｉ）に置き換えられる。

これにより、Ｌｃの最適化処理は、ループネストが減るため、ループ中の分岐命令を減らすことができる。Ｌｃの最適化処理は、分岐命令を減らすことで、有限なハードウェア資源である、分岐予測に使用される分岐テーブルを効率的に利用できる。また、ループ長（ループの中の命令数）が長くなるため、ループ長が長いと有効であるソフトウェアパイプラインなどの最適化がされやすくなる。また、Ｌｃの最適化処理は、１重化処理に先だって、ループのインデックスの最適化により、最内ループの配列の内側からアクセスするように変更することで、メモリを飛び飛びから連続してアクセスすることができる。この結果、キャッシュ効率が向上し、さらに連続域アクセスのハードウェアプリフェッチなどが適用されることとなり、データアクセスの効率が向上する。

すなわち、Ｌｏｏｐｃｏｌｌａｐｓｅは、配列を一次元化、および連続域のメモリアクセスになることに着目した最適化手法である。

また、コンパイラの最適化手法として、ループアンロール機能がある。ループアンロール機能は、単純な繰り返しの処理を展開することでループ処理の回数を減らし、プログラムの処理速度を上げる機能である。ループアンロール機能は、分岐命令を減らすことで、有限なハードウェア資源である、分岐予測に使用される分岐テーブルを効率的に利用できる。また、ループアンロール機能は、分岐命令を含まない命令列（基本ブロック）の長さが長くなるので、命令の入れ換えやレジスタの使用の範囲を多く組合せられるため、最適化を促進できる。

特開２０１７－２１７２６号公報

しかしながら、多次元ループの配列処理を含むソースコードにおいて、コンパイルを最適化できない場合があるという問題がある。例えば、ループを一重化にするＬｃの最適化では、配列の一次元化および連続域アクセスとなることで性能向上が期待される反面、連続域アクセスとならない場合には、最適化できない。すなわち、完全に１重ループで処理される１次元配列に置き換えられない場合には、最適化できない。

また、ループアンロール機能による最適化では、ハードウェア資源の分岐テーブルの削減効果には貢献できるものの、基本ブロックのコードサイズが増加し、基本ブロックのコード当たりの実行回数が減る現象が発生する。すなわち、コード効率が低下する。また、基本ブロックのコードサイズが増加すると、命令列を一旦命令バッファに貯めておき、命令デコードを省略して命令バッファから直接命令を取り出して実行するハードウェア機構（ショートループ機構）の適用効率が低下してしまう。また、基本ブロックのコードサイズが増加すると、基本ブロックの命令数が増えるので、キャッシュ効率が低下してしまう。

本発明は、１つの側面では、多次元ループの配列処理を含むソースコードのコンパイルを最適化することを目的とする。

１つの態様では、コンパイラプログラムは、複数階層のループを含むソースコードにおいて、最内ループ内の命令コードに含まれるｎ次元配列（ｎ≧３）に関し、第１の引数および第２の引数の配列サイズと、ループにおける前記第１の引数に対応する第１のインデックスおよび前記第２の引数に対応する第２のインデックスの回転数とがそれぞれ一致するか否かを判定し、それぞれ一致する場合には、前記第１のインデックスおよび前記第２のインデックスの開始がそれぞれ１であり、且つ前記第１のインデックスおよび前記第２のインデックスの増分値が１である場合に、前記命令コードに含まれる前記ｎ次元配列の前記第１の引数と前記第２の引数とを第３の引数に置き換えてｎ－１次元の配列に変更し、前記第１のインデックスおよび前記第２のインデックスのそれぞれのループを統合する処理をコンピュータに実行させる。

１実施態様によれば、多次元ループの配列処理を含むソースコードのコンパイルを最適化することができる。

図１は、実施例に係る情報処理装置の機能構成の一例を示すブロック図である。図２は、ソースプログラムの一例を示す図である。図３は、ループ管理テーブルの一例を示す図である。図４は、配列構文情報の一例を示す図である。図５は、配列定義情報の一例を示す図である。図６Ａは、実施例に係る最適化を説明する図（１）である。図６Ｂは、実施例に係る最適化を説明する図（２）である。図６Ｃは、実施例に係る最適化を説明する図（３）である。図６Ｄは、実施例に係る最適化を説明する図（４）である。図７は、配列のメモリ領域を用いて最適化を説明する図である。図８Ａは、実施例に係る最適化の一例を示す図（１）である。図８Ｂは、実施例に係る最適化の一例を示す図（２）である。図８Ｃは、実施例に係る最適化の一例を示す図（３）である。図９は、実施例に係る最適化の別の例を示す図である。図１０は、実施例に係る最適化処理のフローチャートの一例を示す図である。図１１は、コンパイラプログラムを実行するコンピュータの一例を示す図である。図１２は、３次元配列のループ１重化を示す参考図である。

以下に、本願の開示するコンパイラプログラム、情報処理装置およびコンパイラ方法の実施例を図面に基づいて詳細に説明する。なお、本発明は、実施例により限定されるものではない。

［実施例に係る情報処理装置の機能構成］
図１は、実施例に係る情報処理装置の機能構成の一例を示すブロック図である。図１に示す情報処理装置１は、多重ループを含むソースプログラム２１のコンパイラの最適化手法に関わり、ループネストを削減し、ループの回転数を多くして、基本ブロックのコード当たりの実行回数を増加させる。これにより、情報処理装置１は、ループネストを削減することで、ループ中の分岐命令を削減することができ、分岐予測に使用される分岐テーブルを効率的に利用できるようになる。また、情報処理装置１は、ループネストを削減することで、基本ブロックのコード当たりの実行回数を増加させることができ、ループの実行密度を高めることができる。そして、情報処理装置１は、命令列を一旦命令バッファに貯めておき、命令デコードを省略して命令バッファから直接命令を取り出して実行するハードウェア機構（ショートループ機構）の適用効率を向上させることができる。なお、多重ループとは、ループが入れ子となった階層構造のループのことをいう。基本ブロックとは、分岐命令を含まない命令列のことをいう。

ここで、実施例に係る情報処理装置１で扱うソースプログラム２１の一例を、図２を参照して説明する。図２は、ソースプログラムの一例を示す図である。図２には、ＦＯＲＴＲＡＮ言語で記述されたソースプログラム２１が表わされている。図２に示すソースプログラム２１は、３次元配列を、３重ループで処理するプログラムである。各ＤＯループについて、ネストレベルが「１」を示す制御変数「ｘ」は、初期値として「１」、終値として「１０」、増分値として「１」を示している。ネストレベルが「２」を示す制御変数「ｙ」は、初期値として「１」、終値として「２０」、増分値として「１」を示している。ネストレベルが「３」を示す制御変数「ｚ」は、初期値として「１」、終値として「３０」、増分値として「１」を示している。配列のサイズは、図示していないが、ソースプログラム２１に配列の宣言として記述される。ここでは、ソースプログラム２１は、３次元配列を３重ループで処理する一例を示したが、配列の次元数やループ数に限定されない。また、言語についても、ＦＯＲＴＲＡＮに限定されず、Ｃ言語などであっても良い。

図１に戻って、情報処理装置１は、制御部１０と、記憶部２０とを有する。制御部１０は、構文解析部１１、最適化部１２およびコード生成部１３を有する。記憶部２０は、ループデータ記憶部２０－１および配列データ記憶部２０－２を有する。ループデータ記憶部２０－１は、ソースプログラム２１に記述されるループに関する情報を記憶する。ループデータ記憶部２０－１は、ループ管理テーブル２２を有する。配列データ記憶部２０－２は、ソースプログラム２１に記述される配列に関する情報を記憶する。配列データ記憶部２０－２は、配列構文情報２３および配列定義情報２４を有する。

ループ管理テーブル２２は、ソースプログラム２１に記述される多重ループごとのループに関する情報である。なお、ループ管理テーブル２２は、後述する構文解析部１１によって生成される。

ここで、ループ管理テーブル２２の一例を、図３を参照して説明する。図３は、ループ管理テーブルの一例を示す図である。図３に示すように、ループ管理テーブル２２は、１つの多重ループについて、ネストレベル、制御変数、初期値、終値、増分値、配列構文情報および兄弟フラグを対応付けて記憶する。ネストレベルは、最内ループを１としてループの入れ子の深さを示す。制御変数は、インデックスを制御する変数である。初期値は、制御変数の初期値を示す。終値は、制御変数の終値を示す。終値は、定数である。増分値は、制御変数の増分値を示す。配列構文情報は、多重ループに対応する配列の配列構文情報２３のアドレスを示す。なお、配列構文情報２３については、後述する。

兄弟フラグは、ループの階層構造のネスト中に並行して、ループ以外の処理を含むか否かを示すフラグである。例えば、兄弟フラグは、ＦＯＲＴＲＡＮ言語の場合、ループの階層構造のネスト中に並行して、ＤＯ文以外の処理を含む場合に「１」が設定され、ＤＯ文以外の処理を含まない場合に「０」が設定される。

一例として、ネストレベルが「１」である場合に、制御変数として「ｘ」、初期値として「１」、終値として「１０」、増分値として「１」、配列構文情報として配列構文情報アドレス、兄弟フラグとして「０」を記憶している。ネストレベルが「２」である場合に、制御変数として「ｙ」、初期値として「１」、終値として「２０」、増分値として「１」、配列構文情報として「－」、兄弟フラグとして「０」を記憶している。ネストレベルが「３」である場合に、制御変数として「ｚ」、初期値として「１」、終値として「３０」、増分値として「１」、配列構文情報として「－」、兄弟フラグとして「０」を記憶している。

配列構文情報２３は、ソースプログラム２１に記述される配列の構文情報である。配列構文情報２３は、ループのネストレベルに対応する配列の添字次元ごとに添字を格納したテーブルである。なお、配列構文情報２３は、後述する構文解析部１１によって生成される。

ここで、配列構文情報２３の一例を、図４を参照して説明する。図４は、配列構文情報の一例を示す図である。図４に示すように、配列構文情報２３は、配列名に対し、添字次元と、添字とを対応付けた情報である。添字は、配列が示す要素に割り振られた添字次元ごとの番号を示し、変数で与えられる。添字は、関数で与えられる場合もある。一例として、配列名が「ａ３」である場合に、添字次元が「１」の添字が関数「ｍｏｄ（ｘ，３）＋１」、添字次元が「２」の添字が変数「ｙ」、添字次元が「３」の添字が変数「ｚ」を記憶している。この情報は、配列がａ３（ｍｏｄ（ｘ，３）＋１，ｙ，ｚ）の場合である。同様に、配列名が「ｂ３」である場合に、添字次元が「１」の添字が関数「ｍｏｄ（ｘ，３）＋１」、添字次元が「２」の添字が変数「ｙ」、添字次元が「３」の添字が変数「ｚ」を記憶している。この情報は、配列がｂ３（ｍｏｄ（ｘ，３）＋１，ｙ，ｚ）の場合である。

図１に戻って、配列定義情報２４は、ソースプログラム２１に記述される配列の定義情報である。なお、配列定義情報２４は、後述する構文解析部１１によって生成される。

ここで、配列定義情報２４の一例を、図５を参照して説明する。図５は、配列定義情報の一例を示す図である。図５に示すように、配列定義情報２４は、配列名、次元数、添字次元および定義サイズを対応付けた情報である。次元数は、配列名が示す配列の次元の数を示す。添字次元は、配列構文情報２３の添字次元に対応する。定義サイズは、添字次元ごとの配列のサイズである。

一例として、配列名が「ａ３」である場合に、次元数として「３」を記憶している。そして、添字次元が「１」の定義サイズとして「１０」、添字次元が「２」の定義サイズとして「２０」、添字次元が「３」の定義サイズとして「３０」を記憶している。

図１に戻って、構文解析部１１は、ソースプログラム２１の構文を解析する。例えば、構文解析部１１は、ソースプログラム２１に記述されたループを解析し、解析結果をループ管理テーブル２２に格納する。構文解析部１１は、ソースプログラム２１に記述されたループ内の配列を解析し、解析結果を配列構文情報２３および配列定義情報２４に格納する。一例として、構文解析部１１は、ソースプログラム２１に記述された配列の宣言を解析し、解析した配列名に対する添字次元ごとの定義サイズを配列定義情報２４に格納する。

最適化部１２は、ソースプログラム２１を最適化する。最適化部１２は、配列解析部１２１、抽出部１２２および統合部１２３を有する。なお、配列解析部１２１は、判定部、変更部の一例である。抽出部１２２は、変更部の一例である。統合部１２３は、統合部の一例である。

配列解析部１２１は、最内ループ内の命令コードに含まれるｎ次元配列（ｎ≧３）に関し、第１の添字および第２の添字の配列サイズと、ループにおける第１の添字に対応する第１のインデックスおよび前記第２の添字に対応する第２のインデックスの回転数とがそれぞれ一致するか否かを判定する。なお、配列解析部１２１は、ループ管理テーブル２２を参照して、対象の多重ループのいずれかのネストレベルで兄弟フラグが設定されている場合には、兄弟処理を別処理にするようにする。すなわち、配列解析部１２１は、兄弟処理をループ分割したうえで、兄弟処理を含まない多重ループ構成に変換してから配列を解析する。この後または並行して、配列解析部１２１は、兄弟処理の配列を解析する。

例えば、配列解析部１２１は、多重ループの最内ループで、命令コードに含まれる配列を選択する。配列解析部１２１は、選択した配列の１からｎ（次元数）までの添字次元ｋについて、以下の＜１＞＜２＞の条件を満たすかを判定する。
＜１＞配列構文情報２３の対象の配列の添字次元ｋに対応する添字と、ループ管理テーブル２２の、添字次元ｋと同一のネストレベルｋに対応する制御変数が一致すること。
＜２＞ループ管理テーブル２２のネストレベルｋに対応する初期値が「１」であり、増分値が「１」であり且つ終値が配列定義情報２４の添字次元ｋに対応する定義サイズと一致すること。
すなわち、＜２＞の条件は、ループのネストレベルｋの回転数が添字次元ｋの配列の定義サイズと一致するか否かを判定する。

抽出部１２２は、命令コードに含まれるｎ次元配列の連続した添字次元について、＜１＞＜２＞の条件を満たすと判定した場合には、連続した添字次元に対応するネストレベルのループを削減対象として抽出する。

統合部１２３は、命令コードに含まれるｎ次元配列の第１の添字と第２の添字とを別名の添字に置き換えてｎ－１次元の配列に変更する。加えて、統合部１２３は、第１の添字に対応する第１のインデックスを用いたループを削除し、別名の添字に対応する第２のインデックスの終値を変更することで、ループを統合する。

例えば、統合部１２３は、配列について、＜１＞＜２＞の条件を満たすと判定された、連続した添字次元の小さい方の次元を置き換え次元とし、置き換え次元の添字を各次元の添字（制御変数）を結合して得られた添字（制御変数）に置き換える。そして、統合部１２３は、ループ中の配列を置き換える。

加えて、統合部１２３は、ループについて、連続する添字次元のうち最大次元以外のネストレベルのループを削除する。そして、統合部１２３は、ループ管理テーブル２２を参照して、最大次元のループの終値を、連続する添字次元に対応するネストレベルの終値を乗算した値に変更する。そして、統合部１２３は、対応するループの制御変数を、配列において置き換えた制御変数（添字）に変更する。

コード生成部１３は、変更したソースプログラムを中間コードに変換する。そして、コード生成部１３は、中間コードを機械語プログラム３０に変換する。

［最適化の説明］
ここで、実施例に係る最適化について、図６Ａ～図６Ｄを参照して説明する。図６Ａ～図６Ｄは、実施例に係る最適化を説明する図である。

まず、図６Ａを用いて、配列サイズが（ｘ，ｙ）の２次元配列Ａ（ｉ，ｊ）に対するメモリアクセスについて考える。ここでは、配列サイズは、図６Ａ右図に示すように、ｘを「５」とし、ｙを「１０」として、宣言されるとする。ソースプログラム２１は、図６Ａ左図に示すプログラムを一部に含むものとする。最内ループ内に２次元配列Ａ（ｉ，ｊ）が記述されている。かかるソースプログラム２１では、添字ｊが１である場合に、最内ループの添字ｉが１～５の順に、２次元配列Ａ（ｉ，１）のアドレスがアクセスされる。次に、添字ｊが２である場合に、最内ループの添字ｉが１～５の順に、２次元配列Ａ（ｉ，２）のアドレスがアクセスされる。

かかる２次元配列Ａの先頭域から添字（ｉ，ｊ）の配列要素の相対位置は、要素サイズをＬとすると、以下の式（１）で求められる。Ｌは、Ｉｎｔｅｇｅｒである場合には、４バイトである。
添字（ｉ，ｊ）の配列要素の相対位置＝｛（ｉ－１）＋（ｊ－１）＊ｘ｝＊Ｌ・・（１）

例えば、図６Ａ中図に示すように、Ａ（１，１）の配列要素の相対位置は、０である。Ａ（２，１）の配列要素の相対位置は、１である。Ａ（５，１）の配列要素の相対位置は、４である。Ａ（５，２）の配列要素の相対位置は、９である。したがって、かかるソースプログラム２１および配列サイズの場合には、かかる配列サイズのメモリは、昇順にアクセスされる。

同様に、配列サイズがＬである３次元配列Ａ（ｉ，ｊ，ｋ）の場合、３次元配列Ａの先頭域から添字（ｉ，ｊ，ｋ）の配列要素の相対位置は、以下の式（２）で求められる。
添字（ｉ，ｊ，ｋ）の配列要素の相対位置＝｛（ｉ－１）＋（ｊ－１）＊ｘ＋（ｋ－１）＊（ｘ＊ｙ）｝＊Ｌ・・（２）

つまり、前提として、配列Ａの配置アドレス方向に（昇順に）メモリをアクセスするためには、配列Ａの添字の次元の小さい方から順にメモリをアクセスするようにループを対応付けることが必要である。

図６Ｂに示すように、配列サイズが（ｘ，ｙ，ｚ）の３次元配列Ａ（ｉ，ｊ，ｋ）についてメモリアクセスするとする。ここでは、ソースプログラム２１は、図６Ｂ上段に示すプログラムであるとする。最内ループ内に３次元配列Ａ（ｉ，ｊ，ｔ（ｋ））が記述されている。かかる３次元配列Ａの添字次元が「３」の添字は、「ｔ（ｋ）」であり、最外ループのループ変数ｋを用いた関数「ｔ（ｋ）」で計算される番号である。

かかる３次元配列Ａの先頭域からの位置のオフセットOffset3は、要素サイズをＬとすると、式（２）を用いて、以下の式（３）で求められる。
Offset3（A(i,j,t(k))）＝｛（ｉ－１）＋（ｊ－１）＊ｘ＋（ｔ（ｋ）－１）＊（ｘ＊ｙ）｝＊Ｌ・・（３）

ここで、３次元配列Ａについて、添字次元が「２」の添字を「１」とし、添字次元が「１」の添字を「ｉｊ」とした場合の３次元配列Ａ（ｉｊ，１，ｔ（ｋ））の先頭域からの位置のオフセットoffset3は、式（２）を用いて、以下の式（４）で求められる。
Offset3（A(ij,1,t(k))）＝｛（ｉj－１）＋（ｔ（ｋ）－１）＊（ｘ＊ｙ）｝＊Ｌ・・（４）

かかる３次元配列Ａのソースプログラム２１は、図６Ｂ中段で表わされる。すなわち、３次元配列Ａについて、添字次元「２」の添字が「１」であり、添字次元「１」の添字が「ｉｊ」である。加えて、ネストレベル「２」の制御変数「ｊ」の終値が「１」であり、ネストレベル「１」の制御変数「ｉｊ」の終値が変更前の制御変数「ｊ」の終値「ｙ」と制御変数「ｉ」の終値「ｘ」とを乗じた値（回転数）「ｘｙ」になる。

一方、配列サイズが（（ｘ＊ｙ），＊）の２次元配列Ａ（ｉｊ，ｔ（ｋ））の先頭域からの位置のオフセットoffset2は、式（１）を用いて、以下の式（５）で求められる。
Offset2（A(ij,t(k))）＝｛（ｉｊ－１）＋（ｔ（ｋ）－１）＊（ｘ＊ｙ｝｝＊Ｌ・・（５）
そして、かかる２次元配列Ａのソースプログラム２１は、図６Ｂ下段で表わされる。

かかる式（５）は、式（４）と一致する。
Offset2（A(ij,t(k))）＝Offset3（A(ij,1,t(k))）
つまり、２次元配列Ａ（ｉｊ，ｔ（ｋ））の先頭域からアクセスする位置のオフセットは、３次元配列Ａ（ｉｊ，１，ｔ（ｋ））の先頭域からの位置のオフセットと一致する。

すなわち、ある配列のアクセスサイズ（定義サイズ）がループの回転数（ｘ＊ｙ）と等しい場合には、３次元配列を２次元配列のループアクセスとみなすことができる。これは、ｎ次元配列Ａをｎ－１次元配列Ａに置き換え、ループ統合することで、ループネストを削減することができることを意味する。つまり、ｎ－１次元配列Ａは、ｎ次元配列Ａの配列次元を１つ減らしたアクセスとなるため、ソースプログラム２１は、ループを統合することでループネストを減らすことができる。ループネストを減らすことで、ソースプログラム２１は、ループ中の分岐削減、基本ブロックの実行回数の増大、ループの実行密度を高めることができる。そして、ソースプログラム２１は、分岐予測に使用される分岐テーブルを効率的に利用できる。ソースプログラム２１は、命令列を一旦命令バッファに貯めておき、命令デコードを省略して命令バッファから直接命令を取り出して実行するハードウェア機構（ショートループ機構）を効率的に適用できる。

図６Ｃ左図に示す３次元配列も、図６Ｃ右図に示す２次元配列のループアクセスとみなすことができる。ここでは、配列サイズが（ｘ，ｙ，ｚ）の３次元配列Ａの先頭域から添字（ｉ，ｊ，ｋ）の配列要素の相対位置を、Offset3（A(i,j,k),d(x,y,z)）とする。同様に、配列サイズが（ｘ，ｙ）の２次元配列Ａの先頭域から添字（ｉ，ｊ）の配列要素の相対位置をOffset2（A(i,j),d(x,y)）とする。

すると、３次元配列Ａの先頭域からの位置のオフセットOffset3（A(i,j,k),d(x,y,*)）は、以下のように求められる。
Offset3（A(i,j,k),d(x,y,*)）＝｛（ｉ－１）＋（ｊ－１）＊ｘ＋（ｋ－１）＊（ｘ＊ｙ）｝＊Ｌ

また、添字次元が「２」の添字を「１」とした場合の、Offset3（A(ij,1,k),d(x,y,*)）は、以下のように求められる。
Offset3（A(ij,1,k),d(x,y,*)）＝｛（ｉj－１）＋（ｋ－１）＊（ｘ＊ｙ）｝＊Ｌ
かかるOffset3（A(ij,1,k),d(x,y,*)）は、２次元配列のアクセスサイズがループ回転数（ｘ＊ｙ）と等しいので、Offset2（A(ij,k),d(x,y,*)）と一致する。

また、添字次元が「３」の添字を「１」とした場合の、Offset3（A(i,jk,1),d(x,y,*)）は、以下のように求められる。
Offset3（A(i,jk,1),d(x,y,*)）＝｛（ｉ－１）＋（ｊｋ－１）＊（ｘ＊ｙ）｝＊Ｌ
かかるOffset3（A(i,jk,1),d(x,y,*)）は、２次元配列のアクセスサイズがループ回転数（ｘ＊ｙ）と等しいので、Offset2（A(i,jk),d(x,y,*)）と一致する。

したがって、添字次元が「１」の添字を関数ｉ（ｋ）とした場合であっても、図６Ｃに示すように、３次元配列Ａ（ｉ（ｋ），ｊ，ｋ）を２次元配列Ａ（ｉ（ｋ），ｊｋ）のループアクセスとみなすことができる。これは、配列のアクセスサイズ（定義サイズ）がループの回転数（ｘ＊ｙ）と等しいからである。

図６Ｄ左図に示す４次元配列も、図６Ｄ右図に示す３次元配列のループアクセスとみなすことができる。ここでは、配列サイズが（ｘ，ｙ，ｚ，ｗ）の４次元配列Ａの先頭域から添字（ｉ，ｊ，ｋ，ｍ）の配列要素の相対位置を、Offset4（A(i,j,k,m),d(x,y,z,w)）とする。

すると、４次元配列Ａの先頭域からの位置のオフセットOffset4（A(i,j,k,m),d(x,y,z,*)）は、以下のように求められる。
Offset4（A(i,j,k,m),d(x,y,z,*)）＝｛（ｉ－１）＋（ｊ－１）＊ｘ＋（ｋ－１）＊（ｘ＊ｙ）＋（ｍ－１）＊（ｘ＊ｙ＊ｚ）｝＊Ｌ

また、添字次元が「２」の添字を「１」とした場合の、Offset4（A(ij,1,k,m),d(x,y,z,*)）は、以下のように求められる。
Offset4（A(ij,1,k,m),d(x,y,z,*)）＝｛（ｉj－１）＋（ｋ－１）＊（ｘ＊ｙ）＋（ｍ－１）＊（ｘ＊ｙ＊ｚ）｝＊Ｌ
かかるOffset4（A(ij,1,k,m),d(x,y,z,*)）は、Offset3（A(ij,k,m),d(x*y,z,*)）と一致する。

したがって、添字次元が「４」の添字を関数「ｔ（ｍ）」とした場合であっても、図６Ｄに示すように、４次元配列Ａ（ｉ，ｊ，ｋ，ｔ（ｍ））を３次元配列Ａ（ｉｊ，ｋ，ｔ（ｍ））のループアクセスとみなすことができる。これは、配列のアクセスサイズ（定義サイズ）がループの回転数（ｘ＊ｙ）と等しいからである。

同様に、４次元配列Ａ（ｉ，ｊ，ｋ，ｍ）の隣り合う添字ｊ，ｋについて、ループ回転数ｙ＊ｚが定義サイズと一致する場合、４次元配列Ａ（ｉ，ｊｋ，１，ｍ）を３次元配列Ａ（ｉ，ｊｋ，ｍ）とみなし、ループネストを４ループから３ループに削減できる。同様に、４次元配列Ａ（ｉ，ｊ，ｋｍ，１）からループ回転数ｘ＊ｙの３次元配列Ａ（ｉ，ｊ，ｋｍ）にみなしてループネストを４ループから３ループに削減できる。同様に、４次元配列Ａ（ｉｊｋ，１，１，ｍ）からループ回転数ｘ＊ｙ＊ｚの２次元配列Ａ（ｉｊｋ，ｍ）とみなしてループネストを４ループから２ループに削減できる。同様に、同様に、４次元配列Ａ（ｉ，ｊ，ｋ，ｍ）をＡ（ｉｊ，１，ｋｍ，１）と変形し、ループ回転数をｘ＊ｙ、ｚ＊ｗの２次元配列Ａ（ｉｊ，ｋｊ）とみなしてループネストを４ループから２ループに削減できる。

図７は、配列のメモリ領域を用いて最適化を説明する図である。なお、図７では、３次元配列の配列サイズが（４，６，２）である場合とする。

図７上段には、配列サイズが（４，６，２）の３次元配列Ａ３（ｉ，ｊ，ｋ）におけるメモリ領域の位置オフセットOffset3（A3(i,j,k)）が表わされている。各行の配列のメモリ領域には、添字ｉが１～４に対応する要素が位置付けられる。各列の配列のメモリ領域には、添字ｊが１～６に対応する要素が位置付けられる。そして、１行～６行の配列のメモリ領域には、添字ｋが１に対応する要素が位置付けられ、７行～１２行の配列のメモリ領域には、添字ｋが２に対応する要素が位置付けられる。

図７中段には、配列サイズが（２４，１，２）の３次元配列Ａ３（ｉ，１，ｋ）におけるメモリ領域の位置オフセットOffset3（A3(i,1,k)）が表わされている。１行～６行の配列のメモリ領域には、添字ｋが１および添字ｊが１に対応する要素が添字ｉ（１～２４）を替えてアドレス方向に位置付けられる。７行～１２行の配列のメモリ領域には、添字ｋが２および添字ｊが１に対応する要素が添字ｉ（１～２４）を替えてアドレス方向に位置付けられる。すなわち、配列サイズが（４，６，２）のＡ３（ｉ，ｊ，ｋ）の先頭域からアクセスする位置のオフセットは、配列サイズが（２４，１，２）のＡ３（ｉ，１，ｋ）の先頭域からの位置のオフセットと一致する。どちらの配列も、配列の先頭域から昇順にアクセスすることがわかる。

一方、図７下段には、配列サイズ（２４，２）の２次元配列Ａ２（ｉ，ｋ）におけるメモリ領域の位置オフセットOffset2（A2(i,k)）が表わされている。１行～６行の配列のメモリ領域には、添字ｋが１に対応する要素が添字ｉ（１～２４）を替えてアドレス方向に位置付けられる。７行～１２行の配列のメモリ領域には、添字ｋが２に対応する要素が添字ｉ（１～２４）を替えてアドレス方向に位置付けられる。

そうすると、Offset2（A2(i,k)）は、Offset3（A3(i,1,k)）と一致する。つまり、２次元配列Ａ２（ｉ，ｋ）の先頭域からアクセスする位置のオフセットは、３次元配列Ａ３（ｉ，１，ｋ）の先頭域からの位置のオフセットと一致する。どちらの配列も、配列の先頭域から昇順にアクセスする。

すなわち、配列のアクセスサイズ（定義サイズ）がループの回転数（６＊４）と等しい場合には、３次元配列を２次元配列のループアクセスとみなすことができる。これは、ｎ次元配列Ａをｎ－１次元配列Ａに置き換え、ループ統合することで、ループネストを削減することができることを意味する。つまり、ｎ－１次元配列Ａは、ｎ次元配列Ａの配列次元を１つ減らしたアクセスとなるため、ソースプログラム２１は、ループを統合することでループネストを減らすことができる。

このように、実施例に係る最適化処理では、３次元配列Ａ（ｉ，ｊ，ｋ）を２次元配列Ａ（ｉｊ，ｋ）に置き換え、ループ統合することでループネストを削減できると説明した。ここで、コンパイラ内部では、ループ統合する添字部分を「１」と扱う（Ａ（ｉｊ，１，ｋ）に置き換える）ようにすることで、配列の次元を減らさなくても同一の次元数の配列定義情報２４をそのまま使用できる。したがって、以降では、配列の次元削減では、削減対象となる次元の添字を「１」として同一の次元数の配列定義情報２４を使用する例について説明する。

［最適化の一例］
図８Ａは、実施例に係る最適化の一例を示す図（１）である。図８Ａ左図には、ソースプログラム２１が表わされている。構文解析部１１は、このソースプログラム２１に記述されたループを解析し、解析結果を図３に示すループ管理テーブル２２に格納したとする。構文解析部１１は、ソースプログラム２１に記述されたループ内の配列を解析し、解析結果を図４に示す配列構文情報２３および図５に示す配列定義情報２４に格納したとする。

配列解析部１２１は、ループ管理テーブル２２のネストレベルを１から最終レベルまで検索する。配列解析部１２１は、ループ管理テーブル２２のネストレベルｋに対応する制御変数と、配列構文情報２３の対象の配列の添字次元ｋに対応する添字が一致する（＜１＞）か否かを判定する。また、配列解析部１２１は、ループ管理テーブル２２のネストレベルｋに対応する初期値が「１」であり、増分値が「１」である、且つ終値が配列定義情報２４の添字次元ｋに対応する定義サイズと一致する（＜２＞）か否かを判定する。すなわち、＜２＞の条件は、ループのネストレベルｋの回転数が添字次元ｋの配列サイズと一致するか否かを判定する。

ここでは、ネストレベルが「１」の場合には、＜１＞について、ネストレベルｋ（＝１）の制御変数は「ｘ」であるが、配列ａ３の添字次元ｋ（＝１）の添字が「mod(x,3)+1」であり、一致しないため、条件を満たさない。

ネストレベルが「２」の場合には、＜１＞について、ネストレベルｋ（＝２）の制御変数は「ｙ」であり、配列ａ３の添字次元ｋ（＝２）の添字が「ｙ」であり、一致するため、条件を満たす。また、＜２＞について、ネストレベルｋ（＝２）に対応する初期値は「１」であり、増分値は「１」であり、終値「１０」は、配列定義情報２４の添字次元ｋ（＝２）に対応する定義サイズ「１０」と一致するため、条件を満たす。ループの回転数は、配列定義（配列のアクセスサイズ）と一致する。

次に、ネストレベルが「３」の場合には、＜１＞について、ネストレベルｋ（＝３）の制御変数は「ｚ」であり、配列ａ３の添字次元ｋ（＝３）の添字が「ｚ」であり、一致するため、条件を満たす。また、＜２＞について、ネストレベルｋ（＝３）に対応する初期値は「１」であり、増分値は「１」であり、終値「３０」は、配列定義情報２４の添字次元ｋ（＝３）に対応する定義サイズ「３０」と一致するため、条件を満たす。ループの回転数は、配列定義（配列のアクセスサイズ）と一致する。

配列ｂ３も配列ａ３と同じ結果となる。

そして、連続したネストレベルｋで＜１＞＜２＞の条件を満たしたので、抽出部１２２は、対象の配列ａ３、ｂ３を抽出する。抽出部１２２は、連続したネストレベルｋのループ２，３を削減可能なループとして抽出する。

そして、統合部１２３は、連続する次元「２」，「３」の小さい方「２」を置き換え次元とし、各次元の添字を結合して得られた変数「ｙｚ」に置き換える。また、統合部１２３は、置き換え次元でない方「３」の添字「ｚ」を定数「１」に置き換える。ここでは、配列ａ３、ｂ３は、以下の左式から右式へ置き換えられる。
ａ３（ｍｏｄ（ｘ，３）＋１，ｙ，ｚ）→ａ３（ｍｏｄ（ｘ，３）＋１，ｙｚ，１）
ｂ３（ｍｏｄ（ｘ，３）＋１，ｙ，ｚ）→ａ３（ｍｏｄ（ｘ，３）＋１，ｙｚ，１）

そして、統合部１２３は、連続する次元の小さい方「２」に対応するネストレベル「２」のループを削減する。そして、統合部１２３は、統合するループの終値を、ループ管理テーブル２２を参照して、連続したネストレベルの各ループの終値を乗じた回転数（２０＊３０）に変更する。そして、統合部１２３は、統合するループの制御変数を、配列で置き換えられた変数ｙｚに変更する。ここでは、「ｄｏｙ＝１，２０」が削除される。そして、「ｄｏｚ＝１，３０」が「ｄｏｙｚ＝１，２０＊３０」に変更される。

この結果、図８Ａ左図に示すソースプログラム２１は、図８Ａ右図に示すプログラムに変更される。

図８Ａでは、２つのループを１つのループに統合する場合を説明した。しかしながら、２つのループを１つのループに統合する場合に限定されず、３つ以上のループを１つのループに統合する場合であっても良い。そこで、３つ以上のループを１つのループに統合する場合を、図８Ｂを参照して説明する。

図８Ｂは、実施例に係る最適化の一例を示す図（２）である。なお、図８Ｂに示す配列名がａ４およびｂ４の定義サイズは、それぞれ（１０，２０，３０，４０）であるとする。図８Ｂ左図には、ソースプログラム２１が表わされている。ネストレベルが「１」の場合には、＜１＞について、ネストレベルｋ（＝１）の制御変数は「ｘ」であるが、配列ａ４の添字次元ｋ（＝１）の添字が「mod(x,3)+1」であり、一致しないため、条件を満たさない。

ネストレベルが「２」の場合には、＜１＞について、ネストレベルｋ（＝２）の制御変数は「ｙ」であり、配列ａ４の添字次元ｋ（＝２）の添字が「ｙ」であり、一致するため、条件を満たす。また、＜２＞について、ネストレベルｋ（＝２）に対応する初期値は「１」であり、増分値は「１」であり、終値「２０」は、配列定義情報２４の添字次元ｋ（＝２）に対応する定義サイズ「２０」と一致するため、条件を満たす。ループの回転数は、配列定義（配列のアクセスサイズ）と一致する。

次に、ネストレベルが「３」の場合には、＜１＞について、ネストレベルｋ（＝３）の制御変数は「ｚ」であり、配列ａ４の添字次元ｋ（＝３）の添字が「ｚ」であり、一致するため、条件を満たす。また、＜２＞について、ネストレベルｋ（＝３）に対応する初期値は「１」であり、増分値は「１」であり、終値「３０」は、配列定義情報２４の添字次元ｋ（＝３）に対応する定義サイズ「３０」と一致するため、条件を満たす。ループの回転数は、配列定義（配列のアクセスサイズ）と一致する。

次に、ネストレベルが「４」の場合には、＜１＞について、ネストレベルｋ（＝４）の制御変数は「ｗ」であり、配列ａ４の添字次元ｋ（＝４）の添字が「ｗ」であり、一致するため、条件を満たす。また、＜２＞について、ネストレベルｋ（＝４）に対応する初期値は「１」であり、増分値は「１」であり、終値「４０」は、配列定義情報２４の添字次元ｋ（＝４）に対応する定義サイズ「４０」と一致するため、条件を満たす。ループの回転数は、配列定義（配列のアクセスサイズ）と一致する。

配列ｂ４も配列ａ４と同じ結果となる。

そして、連続したネストレベルｋで＜１＞＜２＞の条件を満たしたので、抽出部１２２は、対象の配列ａ４、ｂ４を抽出する。抽出部１２２は、連続したネストレベルｋのループ２，３，４を削減可能なループとして抽出する。

そして、統合部１２３は、連続する次元「２」，「３」、「４」の小さい方「２」を置き換え次元とし、各次元の添字を結合して得られた変数「ｙｚｗ」に置き換える。また、統合部１２３は、置き換え次元でない方「３」および「４」の添字「ｚ」および「ｗ」をそれぞれ定数「１」に置き換える。ここでは、配列ａ４、ｂ４は、以下の左式から右式へ置き換えられる。
ａ４（ｍｏｄ（ｘ，３）＋１，ｙ，ｚ，ｗ）→ａ４（ｍｏｄ（ｘ，３）＋１，ｙｚｗ，１，１）
ｂ４（ｍｏｄ（ｘ，３）＋１，ｙ，ｚ，ｗ）→ａ４（ｍｏｄ（ｘ，３）＋１，ｙｚｗ，１，１）

そして、統合部１２３は、連続する次元の小さい方「２」および「３」に対応するネストレベル「２」および「３」のループを削減する。そして、統合部１２３は、統合するループの終値を、ループ管理テーブル２２を参照して、連続したネストレベルの各ループの終値を乗じた回転数（２０＊３０＊４０）に変更する。そして、統合部１２３は、統合するループの制御変数を、配列で置き換えられた変数ｙｚｗに変更する。ここでは、「ｄｏｙ＝１，２０」および「ｄｏｚ＝１，３０」が削除される。そして、「ｄｏｗ＝１，４０」が「ｄｏｙｚｗ＝１，２０＊３０＊４０」に変更される。

また、図８Ａでは、２つのループを１つのループに統合する場合を説明した。図８Ｂでは、３つ以上のループを１つのループに統合する場合を説明した。しかしながら、３つ以上のループを１つのループに統合する場合に限定されず、ループ内に複数の削減対象のループがある場合であっても良い。そこで、ループ内に複数の削減対象のループがある場合を、図８Ｃを参照して説明する。

図８Ｃは、実施例に係る最適化の一例を示す図（３）である。なお、図８Ｃに示す配列名がａ５およびｂ５の定義サイズは、それぞれ（１０，２０，３０，４０，５０）であるとする。図８Ｃ左図には、ソースプログラム２１が表わされている。

ネストレベルが「３」の場合には、＜１＞について、ネストレベルｋ（＝３）の制御変数は「ｚ」であるが、配列ａ５の添字次元ｋ（＝３）の添字が「mod(ｚ,ＤＶ１)+1」であり、一致しないため、条件を満たさない。

ネストレベルが「１」の場合には、＜１＞について、ネストレベルｋ（＝１）の制御変数は「ｘ」であり、配列ａ５の添字次元ｋ（＝１）の添字が「ｘ」であり、一致するため、条件を満たす。また、＜２＞について、ネストレベルｋ（＝１）に対応する初期値は「１」であり、増分値は「１」であり、終値「１０」は、配列定義情報２４の添字次元ｋ（＝１）に対応する定義サイズ「１０」と一致するため、条件を満たす。ループの回転数は、配列定義（配列のアクセスサイズ）と一致する。

また、ネストレベルが２の場合には、＜１＞について、ネストレベルｋ（＝２）の制御変数は「ｙ」であり、配列ａ５の添字次元ｋ（＝２）の添字が「ｙ」であり、一致するため、条件を満たす。また、＜２＞について、ネストレベルｋ（＝２）に対応する初期値は「１」であり、増分値は「１」であり、終値「２０」は、配列定義情報２４の添字次元ｋ（＝２）に対応する定義サイズ「２０」と一致するため、条件を満たす。ループの回転数は、配列定義（配列のアクセスサイズ）と一致する。

次に、ネストレベルが４の場合には、＜１＞について、ネストレベルｋ（＝４）の制御変数は「ｗ」であり、配列ａ５の添字次元ｋ（＝４）の添字が「ｗ」であり、一致するため、条件を満たす。また、＜２＞について、ネストレベルｋ（＝４）に対応する初期値は「１」であり、増分値は「１」であり、終値「４０」は、配列定義情報２４の添字次元ｋ（＝４）に対応する定義サイズ「４０」と一致するため、条件を満たす。ループの回転数は、配列定義（配列のアクセスサイズ）と一致する。

また、ネストレベルが５の場合には、＜１＞について、ネストレベルｋ（＝５）の制御変数は「ａ」であり、配列ａ５の添字次元ｋ（＝５）の添字が「ａ」であり、一致するため、条件を満たす。また、＜２＞について、ネストレベルｋ（＝５）に対応する初期値は「１」であり、増分値は「１」であり、終値「５０」は、配列定義情報２４の添字次元ｋ（＝５）に対応する定義サイズ「５０」と一致するため、条件を満たす。ループの回転数は、配列定義（配列のアクセスサイズ）と一致する。

配列ｂ４も配列ａ４と同じ結果となる。

そして、連続したネストレベル「１」，「２」および「４」，「５」で＜１＞＜２＞の条件を満たしたので、抽出部１２２は、対象の配列ａ５、ｂ５を抽出する。抽出部１２２は、連続したネストレベルｋのループ「１」，「２」および「４」，「５」を削減可能なループとして抽出する。

そして、統合部１２３は、連続する次元「１」，「２」の小さい方「１」を置き換え次元とし、各次元の添字を結合して得られた変数「ｘｙ」に置き換える。また、統合部１２３は、置き換え次元でない方「２」の添字「ｙ」を定数「１」に置き換える。また、統合部１２３は、連続する次元「４」，「５」の小さい方「４」を置き換え次元とし、各次元の添字を結合して得られた変数「ｗａ」に置き換える。また、統合部１２３は、置き換え次元でない方「５」の添字「ａ」を定数「１」に置き換える。ここでは、配列ａ５、ｂ５は、以下の左式から右式へ置き換えられる。
ａ５（ｘ，ｙ，ｍｏｄ（ｚ，ＤＶ１）＋１，ｗ，ａ）→ａ５（ｘｙ，１，ｍｏｄ（ｚ，ＤＶ１）＋１，ｗａ，１）
ｂ５（ｘ，ｙ，ｍｏｄ（ｚ，ＤＶ１）＋１，ｗ，ａ）→ｂ５（ｘｙ，１，ｍｏｄ（ｚ，ＤＶ１）＋１，ｗａ，１）

そして、統合部１２３は、連続する次元の小さい方「１」に対応するネストレベル「１」のループを削減する。そして、統合部１２３は、統合するループの終値を、ループ管理テーブル２２を参照して、連続したネストレベルの各ループの終値を乗じた回転数（１０＊２０）に変更する。そして、統合部１２３は、統合するループの制御変数を、配列で置き換えられた変数「ｘｙ」に変更する。また、統合部１２３は、もう１つの連続する次元の小さい方「４」に対応するネストレベル「４」のループを削減する。そして、統合部１２３は、統合するループの終値を、ループ管理テーブル２２を参照して、連続したネストレベルの各ループの終値を乗じた回転数（４０＊５０）に変更する。そして、統合部１２３は、統合するループの制御変数を、配列で置き換えられた変数「ｗａ」に変更する。ここでは、「ｄｏｘ＝１，１０」および「ｄｏｗ＝１，４０」が削除される。そして、「ｄｏｙ＝１，２０」が「ｄｏｘｙ＝１，１０＊２０」に変更される。「ｄｏａ＝１，５０」が「ｄｏｗａ＝１，４０＊５０」に変更される。

［最適化の別の例］
図９は、実施例に係る最適化の別の例を示す図である。図９に示すソースプログラム２１には、ネストレベルが「２」のループに兄弟処理が含まれている。ループ管理テーブル２２のネストレベル「２」に対応する兄弟フラグに「１」が設定される。

配列解析部１２１は、ループ管理テーブル２２を参照して、多重ループのネストレベル「２」で兄弟フラグが設定されているので、兄弟処理を別処理とする。すなわち、配列解析部１２１は、兄弟処理を符号ｄ１に示すようにループ分割する。そして、配列解析部１２１は、符号ｄ２に示すように兄弟処理を含まない多重ループ構成にしてから配列を解析する。また、配列解析部１２１は、ループ分割した兄弟処理の多重ループ構成の配列を解析する。これにより、配列解析部１２１は、兄弟処理を別処理とすることで、最適化を簡易化できる。

［最適化処理のフローチャート］
図１０は、実施例に係る最適化処理のフローチャートの一例を示す図である。なお、構文解析部１１は、ソースプログラム２１に対するループ管理テーブル２２、配列構文情報２３および配列定義情報２４を生成したものとする。

図１０に示すように、配列解析部１２１は、ループ管理テーブル２２（ＤＯＴＢＬと略記）のネストレベル（lvl）を選択する（ステップＳ１１）。

そして、配列解析部１２１は、ネストレベルに対応する兄弟フラグが設定されているか否かを判定する（ステップＳ１２）。兄弟フラグが設定されていると判定した場合には（ステップＳ１２；Ｙｅｓ）、配列解析部１２１は、兄弟処理をループ分割する（ステップＳ１３）。そして、配列解析部１２１は、兄弟処理を含まない多重ループ構成と、兄弟処理とをそれぞれ最適化処理を実行すべく、ステップＳ１４に移行する。

一方、兄弟フラグが設定されていないと判定した場合には（ステップＳ１２；Ｎｏ）、配列解析部１２１は、ステップＳ１４に移行する。

ステップＳ１４において、配列解析部１２１は、配列構文情報２３を参照する（ステップＳ１４）。配列解析部１２１は、配列名の添字次元（lvl）に対応する記述ＡＳＴＲがＤＯＴＢＬの制御変数と一致するか否かを判定する（ステップＳ１５）。すなわち、配列解析部１２１は、配列構文情報２３の対象の配列の添字次元lvlに対応する添字と、ループ管理テーブル２２の、添字次元と同一のネストレベルlvlに対応する制御変数が一致するか否かを判定する（＜１＞の条件）。

配列名の添字次元（lvl）に対応する記述ＡＳＴＲがＤＯＴＢＬの制御変数と一致しないと判定した場合には（ステップＳ１５；Ｎｏ）、配列解析部１２１は、次のネストレベル（lvl）を選択すべく、ステップＳ１８に移行する。

一方、配列名の添字次元（lvl）に対応する記述ＡＳＴＲがＤＯＴＢＬの制御変数と一致すると判定した場合には（ステップＳ１５；Ｙｅｓ）、配列解析部１２１は、以下の処理を行う。配列解析部１２１は、ＤＯＴＢＬの初期値が「１」、増分値が「１」且つ終値が配列定義情報２４の定義サイズと一致するか否かを判定する（＜２＞の条件）（ステップＳ１６）。すなわち、配列解析部１２１は、ループのネストレベル(lvl)の回転数が添字次元（lvl）の配列の定義サイズと一致するか否かを判定する。

ＤＯＴＢＬの初期値が「１」、増分値が「１」または終値が配列定義情報２４の定義サイズと一致しないと判定した場合には（ステップＳ１６；Ｎｏ）、配列解析部１２１は、次のネストレベル（lvl）を選択すべく、ステップＳ１８に移行する。

一方、ＤＯＴＢＬの初期値が「１」、増分値が「１」且つ終値が配列定義情報２４の定義サイズと一致すると判定した場合には（ステップＳ１６；Ｙｅｓ）、配列解析部１２１は、配列名に対し、ネストレベルに対応する添字次元（lvl）と添字を統合配列候補テーブルに格納する（ステップＳ１７）。そして、配列解析部１２１は、ステップＳ１８に移行する。なお、統合配列候補テーブルは、ループを統合するために用いられるテーブルを示す。統合配列候補テーブルは、配列名ごとに、統合候補のループのネストレベルに対応する添字次元ごとの添字を記憶する。

ステップＳ１８において、配列解析部１２１は、ネストレベル（lvl）を全て選択したか否かを判定する（ステップＳ１８）。ネストレベル（lvl）を全て選択していないと判定した場合には（ステップＳ１８；Ｎｏ）、配列解析部１２１は、次のネストレベルを選択すべく、ステップＳ１１に移行する。

一方、ネストレベル（lvl）を全て選択したと判定した場合には（ステップＳ１８；Ｙｅｓ）、抽出部１２２は、統合配列候補テーブルを参照し、次元数が連続するか否かを判定する（ステップＳ１９）。次元数が連続しないと判定した場合には（ステップＳ１９；Ｎｏ）、抽出部１２２は、ループ統合できないので、最適化処理を終了する。

次元数が連続すると判定した場合には（ステップＳ１９；Ｙｅｓ）、抽出部１２２は、連続した次元数に対応するネストレベルのループを削減対象として抽出する。そして、統合部１２３は、連続する次元の最小値を置き換え次元とし、置き換え次元の添字を各次元の添字（制御変数）を結合して得られる添字に置き換える。そして、統合部１２３は、最小次元以外の添字（制御変数）を定数「１」として置き換える（ステップＳ２０）。例えば、統合配列候補テーブルが、配列名ａ３に対し、次元数「２」に対応する添字（制御変数）として「ｙ」、次元数「３」に対応する添字（制御変数）として「ｚ」を記憶する。すると、統合部１２３は、配列ａ３（ｘ，ｙ，ｚ）を配列ａ３（ｘ，ｙｚ，１）に置き換える。

そして、統合部１２３は、連続する次元の最大次元以外の次元に対応するループネストのループを削除する（ステップＳ２１）。そして、統合部１２３は、連続する最大次元のループの終値および制御変数名を変更する（ステップＳ２２）。例えば、連続する次元は、「２」「３」である。次元「２」に対応するループネストは「２」であり、ループネスト「２」のループの制御変数は「ｙ」である。次元「３」に対応するループネストは「３」であり、ループネスト「３」のループの制御変数は「ｚ」である。すると、統合部１２３は、例えば「ｄｏｙ＝１，２０」を削除する。そして、統合部１２３は、「ｄｏｚ＝１，３０」を「ｄｏｙｚ＝１，２０＊３０」に変更する。

そして、コード生成部１３は、置き換えたソースプログラム２１を翻訳する（ステップＳ２３）。例えば、コード生成部１３は、置き換えたソースプログラム２１を中間コードに変換する。そして、コード生成部１３は、中間コードを機械語プログラムに変換する。そして、コード生成部１３は、最適化処理を終了する。

これにより、情報処理装置１は、ループネストを削減することで、ループ中の分岐命令を削減することができ、分岐予測に使用される分岐テーブルを効率的に利用できるようになる。また、情報処理装置１は、ループネストを削減することで、基本ブロックのコード当たりの実行回数を増加させることができ、ループの実行密度（実行回数／コードサイズ）を高めることができる。そして、情報処理装置１は、命令列を一旦命令バッファに貯めておき、命令デコードを省略して命令バッファから直接命令を取り出して実行するハードウェア機構（ショートループ機構）の適用効率を向上させることができる。

なお、実施例では、配列解析部１２１が、ソースプログラム２１について、最内ループ内のｎ次元配列（ｎ≧３）における連続する添字の配列サイズと、ループにおける連続する添字に対応する制御変数の回転数とを用いて削減するループを抽出する。そして、配列解析部１２１は、抽出するループのループネストを削減すると説明した。しかしながら、配列解析部１２１は、さらに、プロファイル情報を基に、コンパイラが高コストで効果のある、削減するループを抽出し、ループネストを削減しても良い。ここでいうプロファイル情報とは、ループごとのループ長、ループ回数および配列アクセス回数を対応付けた情報である。ループ長（Ｌ）とは、ループ内のコードの長さのことをいう。ループ回数（Ｍ）とは、ループの初期値から終値までのループの回転数のことをいう。配列アクセス回数（Ｄ）とは、１回のループの中で配列をアクセスする回数のことをいう。プロファイル情報は、ソースプログラム２１を翻訳した結果得られるオブジェクトを実行した際に出力される情報である。

例えば、ループ長（Ｌ）が長すぎると、命令デコードや命令フェッチを省略できなくなるので、ある閾値以下である程、プログラムの命令デコードや命令フェッチのコストを削減できる。ループ内の配列の配列アクセス回数（Ｄ）やループ回数（Ｍ）が多い程、ループ実行密度を高めることができる。そこで、性能向上が期待できるのは、Ｍが大、Ｌが大、Ｄが大の場合である。そこで、Ｍ、Ｌ、Ｄが大きい程、効果が大きくなる評価値（重み係数）が予め用意されるようにする。そして、配列解析部１２１は、プロファイル情報からループｉごとのループ長（Ｌ）、配列アクセス回数（Ｄ）およびループ回数（Ｍ）を取得し、これらの値に応じた重み係数を掛け合わせて加算した値（L(i)＊I(i)+M(i)＊m(i)+D(i)*d(i)）を計算する。なお、Ｉ(i)、m(i)、d(i)は、それぞれループｉのループ長、配列アクセス回数、ループ回数の重み係数である。そして、配列解析部１２１は、ループ毎の計算値を予め定められた閾値と比較して、削減するループの候補を抽出しても良い。そして、配列解析部１２１は、実施例に係る最適化処理によって抽出された、削減するループの候補と、プロファイル情報を参照して抽出された、削減するループの候補とを用いて、削減するループを抽出し、ループネストを削減すれば良い。

評価関数は、（L(i)＊I(i)+M(i)＊m(i)+D(i)*d(i)）に限定されるものではない。また、評価関数は、Ｍ，Ｌ，Ｄ以外の属性を追加したり、組み合わせたりしても良い。また、予め定められた閾値は、プロセッサの取得した実測値（経験値）や論理値でも良く、限定されるものではない。

また、実施例では、配列解析部１２１が、ソースプログラム２１について、最内ループ内のｎ次元配列（ｎ≧３）における連続する添字の配列サイズと、ループにおける連続する添字に対応する制御変数の回転数とを用いて削減するループを抽出し、ループネストを削減すると説明した。しかしながら、配列解析部１２１は、これに限定されず、ユーザによって指定されたループを取得し、ループネストを削減しても良い。例えば、ユーザはソースプログラム２１にＯＣＬ（Object Constraint Language）文で明示的に削減するループを指定する。そして、配列解析部１２１は、ソースプログラム２１からＯＣＬ文で指定されたループを取得し、ループネストを削減すれば良い。

また、実施例では、ループ管理テーブル２２のループの終値が定数である場合を説明した。しかしながら、配列解析部１２１が、回転数を格納する終値が配列の定義サイズと同じであるか否かを判定できれば、回転数は定数でなく変数であっても良い。

また、上記実施例では、情報処理装置１は、ソースプログラム２１を内部的に別のソースプログラムに置き換えて、中間言語から機械語にオブジェクト展開する場合を説明した。しかしながら、情報処理装置１は、ソースプログラム２１を中間言語に展開してから、中間言語レベルで配列の置き換えやループの統合を実施し、その後機械語にオブジェクト展開しても良い。

また、上記実施例では、配列の定義サイズは、翻訳時に確定している固定のサイズである場合を説明した。しかしながら、配列の定義サイズは、実行時に動的に獲得した配列の定義サイズであっても良い。すなわち、配列解析部１２１が、回転数を格納する終値が配列の定義サイズと同じであるか否かを判定できれば良い。

［実施例の効果］
上記実施例によれば、情報処理装置１は、複数階層のループを含むソースコードにおいて、最内ループ内の命令コードに含まれるｎ次元配列（ｎ≧３）に関し、第１の引数および第２の引数の配列サイズと、ループにおける第１の引数に対応する第１のインデックスおよび第２の引数に対応する第２のインデックスの回転数とがそれぞれ一致するか否かを判定する。情報処理装置１は、それぞれ一致する場合には、第１のインデックスおよび第２のインデックスの開始がそれぞれ１であり、且つ第１のインデックスおよび第２のインデックスの増分値が１である場合に、命令コードに含まれるｎ次元配列の第１の引数と第２の引数とを第３の引数に置き換えてｎ－１次元の配列に変更する。そして、情報処理装置１は、第１のインデックスおよび第２のインデックスのそれぞれのループを統合する。かかる構成によれば、情報処理装置１は、ループを統合することで、ループネストを削減できる。この結果、情報処理装置１は、ループ中の分岐命令を削減することができ、分岐予測に使用できる分岐テーブルを効率的に利用できるようになる。また、情報処理装置１は、ループネストを削減することで、基本ブロックのコード当たりの実行回数を増加させることができ、ループの実行密度を高めることができる。

また、上記実施例によれば、情報処理装置１は、さらに、第１の引数を示す変数と第１のインデックスの制御変数とが一致し、且つ第２の引数の変数と第２のインデックスの制御変数とが一致する場合に、ｎ次元の配列をｎー１次元の配列に変更する。かかる構成によれば、情報処理装置１は、同じレベルの配列の引数を示す変数とループのインデックスの制御変数とが一致する場合には、配列サイズから割り当てられたメモリ領域に対して連続アクセスになるのでループネストの削減を実現できる。一方、情報処理装置１は、同じレベルの配列の引数を示す変数とループのインデックスの制御変数とが一致しない場合には、飛び飛びのアクセスになるので、ループネストを削減できない。

また、上記実施例によれば、情報処理装置１は、さらに、前記第１の引数と前記第２の引数とが隣り合う場合に、ｎ次元の配列をｎ－１次元の配列に変更する。かかる構成によれば、情報処理装置１は、配列の次元を削減することができる。この結果、情報処理装置１は、削減した引数に対応するループを削減することができる。

また、上記実施例によれば、情報処理装置１は、第１の引数に対応する第１のインデックスを用いたループを削除し、第３の引数に対応する前記第２のインデックスの終値を変更する。かかる構成によれば、情報処理装置１は、ループネストを削減することができる。

また、上記実施例によれば、情報処理装置１は、ソースコードを実行する際に取得される、ループごとのループ内コード長、ループの回転数および１回のループでｎ次元配列をアクセスする回数を含むプロファイル情報を用いて、統合するループ候補を取得し、取得したループ候補を含んで統合するループを決定する。かかる構成によれば、情報処理装置１は、さらにソースコードのコンパイルを最適化することができる。

また、上記実施例によれば、情報処理装置１は、ユーザの指定に基づいて、統合するループを決定する。かかる構成によれば、情報処理装置１は、ソースコードのコンパイルを柔軟に最適化することができる。

［その他］
なお、図示した情報処理装置１の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、情報処理装置１の分散・統合の具体的態様は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、配列解析部１２１を、＜１＞の条件を満たすかを判定する判定部と、＜２＞の条件を満たすかを判定する判定部とに分散しても良い。一方、配列解析部１２１と抽出部１２２とを１つの部として統合しても良い。また、記憶部２０を情報処理装置１の外部装置としてネットワーク経由で接続するようにしても良い。

また、上記実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図１に示した情報処理装置１と同様の機能を実現するコンパイラプログラムを実行するコンピュータの一例を説明する。図１１は、コンパイラプログラムを実行するコンピュータの一例を示す図である。

図１１に示すように、コンピュータ７００は、各種演算処理を実行するＣＰＵ７０３と、ユーザからのデータの入力を受け付ける入力装置７１５と、表示装置７０９を制御する表示制御部７０７とを有する。また、コンピュータ７００は、記憶媒体からプログラムなどを読取るドライブ装置７１３と、ネットワークを介して他のコンピュータとの間でデータの授受を行う通信制御部７１７とを有する。また、コンピュータ７００は、各種情報を一時記憶するメモリ７０１と、ＨＤＤ７０５を有する。そして、メモリ７０１、ＣＰＵ７０３、ＨＤＤ７０５、表示制御部７０７、ドライブ装置７１３、入力装置７１５、通信制御部７１７は、バス７１９で接続されている。

ドライブ装置７１３は、例えばリムーバブルディスク７１１用の装置である。ＨＤＤ７０５は、コンパイラプログラム７０５ａおよびコンパイラ処理関連情報７０５ｂを記憶する。

ＣＰＵ７０３は、コンパイラプログラム７０５ａを読み出して、メモリ７０１に展開し、プロセスとして実行する。かかるプロセスは、情報処理装置１の各機能部に対応する。コンパイラ処理関連情報７０５ｂは、ループ管理テーブル２２、配列構文情報２３、配列定義情報２４などに対応する。そして、例えばリムーバブルディスク７１１が、コンパイラプログラム７０５ａなどの各情報を記憶する。

なお、コンパイラプログラム７０５ａについては、必ずしも最初からＨＤＤ７０５に記憶させておかなくても良い。例えば、コンピュータ７００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に当該プログラムを記憶させておく。そして、コンピュータ７００がこれらからコンパイラプログラム７０５ａを読み出して実行するようにしても良い。

１情報処理装置
１０制御部
１１構文解析部
１２最適化部
１２１配列解析部
１２２抽出部
１２３統合部
１３コード生成部
２０記憶部
２０－１ループデータ記憶部
２２ループ管理テーブル
２０－２配列データ記憶部
２１ソースプログラム
２３配列構文情報
２４配列定義情報
３０機械語プログラム

Claims

複数階層のループを含むソースコードにおいて、
最内ループ内の命令コードに含まれるｎ次元配列（ｎ≧３）に関し、第１の引数および第２の引数の配列サイズと、ループにおける前記第１の引数に対応する第１のインデックスおよび前記第２の引数に対応する第２のインデックスの回転数とがそれぞれ一致するか否かを判定し、
それぞれ一致する場合には、前記第１のインデックスおよび前記第２のインデックスの開始がそれぞれ１であり、且つ前記第１のインデックスおよび前記第２のインデックスの増分値が１である場合に、前記命令コードに含まれる前記ｎ次元配列の前記第１の引数と前記第２の引数とを第３の引数に置き換えてｎ－１次元の配列に変更し、
前記第１のインデックスおよび前記第２のインデックスのそれぞれのループを統合する
処理をコンピュータに実行させるコンパイラプログラム。
該変更する処理は、さらに、前記第１の引数を示す変数と前記第１のインデックスの制御変数とが一致し、且つ前記第２の引数の変数と前記第２のインデックスの制御変数とが一致する場合に、前記ｎ－１次元の配列に変更する
ことを特徴とする請求項１に記載のコンパイラプログラム。
該変更する処理は、さらに、前記第１の引数と前記第２の引数とが隣り合う場合に、前記ｎ－１次元の配列に変更する
ことを特徴とする請求項２に記載のコンパイラプログラム。
該統合する処理は、前記第１の引数に対応する前記第１のインデックスを用いたループを削除し、前記第３の引数に対応する前記第２のインデックスの終値を変更する
ことを特徴とする請求項１に記載のコンパイラプログラム。
該統合する処理は、前記ソースコードを実行する際に取得される、ループごとのループ内コード長、ループの回転数および１回のループで前記ｎ次元配列をアクセスする回数を含むプロファイル情報を用いて、統合するループ候補を取得し、取得したループ候補を含んで統合するループを決定する
ことを含むことを特徴とする請求項１に記載のコンパイラプログラム。
該統合する処理は、ユーザの指定に基づいて、統合するループを決定する
ことを含むことを特徴とする請求項１に記載のコンパイラプログラム。
複数階層のループを含むソースコードにおいて、
最内ループ内の命令コードに含まれるｎ次元配列（ｎ≧３）に関し、第１の引数および第２の引数の配列サイズと、ループにおける前記第１の引数に対応する第１のインデックスおよび前記第２の引数に対応する第２のインデックスの回転数とがそれぞれ一致するか否かを判定する判定部と、
それぞれ一致する場合には、前記第１のインデックスおよび前記第２のインデックスの開始がそれぞれ１であり、且つ前記第１のインデックスおよび前記第２のインデックスの増分値が１である場合に、前記命令コードに含まれる前記ｎ次元配列の前記第１の引数と前記第２の引数とを第３の引数に置き換えてｎ－１次元の配列に変更する変更部と、
前記第１のインデックスおよび前記第２のインデックスのそれぞれのループを統合する統合部と、
を有することを特徴とする情報処理装置。
複数階層のループを含むソースコードにおいて、
最内ループ内の命令コードに含まれるｎ次元配列（ｎ≧３）に関し、第１の引数および第２の引数の配列サイズと、ループにおける前記第１の引数に対応する第１のインデックスおよび前記第２の引数に対応する第２のインデックスの回転数とがそれぞれ一致するか否かを判定し、
それぞれ一致する場合には、前記第１のインデックスおよび前記第２のインデックスの開始がそれぞれ１であり、且つ前記第１のインデックスおよび前記第２のインデックスの増分値が１である場合に、前記命令コードに含まれる前記ｎ次元配列の前記第１の引数と前記第２の引数とを第３の引数に置き換えてｎ－１次元の配列に変更し、
前記第１のインデックスおよび前記第２のインデックスのそれぞれのループを統合する
処理をコンピュータが実行するコンパイラ方法。