JP7460902B2

JP7460902B2 - コンパイラプログラム、コンパイル方法、情報処理装置

Info

Publication number: JP7460902B2
Application number: JP2020100151A
Authority: JP
Inventors: 健介渡辺; 正寿原口; 俊鎌塚; 恭伸谷村
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-06-09
Filing date: 2020-06-09
Publication date: 2024-04-03
Anticipated expiration: 2040-06-09
Also published as: US20210382700A1; US11693638B2; JP2021196637A

Description

本発明は、コンパイラプログラム、コンパイル方法、情報処理装置に関する。

コンパイラは、Fortran（フォートラン）やC言語のような高水準言語のプログラムを、アセンブリコードまたはオブジェクトコード（機械語）に翻訳するプログラムである。コンパイラの主な機能は、ソースコードである高水準言語プログラムを解析する解析機能と、ソースコードから中間言語の中間コードを生成する機能と、その中間コードを最適化する機能と、最適化された中間コードをアセンブリコードまたはオブジェクトコードに変換するコード生成機能などである。最適化機能では、例えば、複数のスカラー命令をベクトル命令（またはSIMD命令、Single Instruction Multiple Data、以下ベクトル命令と称する。）に変換したり、ループを展開（ループアンローリング）したり、命令の順番を変更するスケジューリングなどが行われる。

コンパイラについては以下の特許文献に記載されている。

特開２０１６－２１２５７３号公報特開平０９－１６０７８４号公報

ベクトル命令は、ベクトル命令が処理する最初の配列からベクトル長の個数の配列を、メモリ内の連続するアドレスからロードし、ベクトルレジスタに格納し、ベクトル長の個数の配列要素を単一の命令コードで実行する。また、マスクレジスタ付きベクトル命令は、ベクトル長の配列要素のうちアクセスされる要素か否かを示すマスクビットに基づいて、メモリ内の配列の要素にアクセスする。

一方、マイクロプロセッサは、命令列をデコードする際に、ストア命令とその後のロード命令がアクセスするメモリアドレスが互いに重なるか否かチェックし、チェック結果が真の場合は、プログラムコード順に、つまりストア命令を実行した後にロード命令を実行するルールで命令を実行する。このように、ロード命令が直前のストア命令の完了まで実行を待たされることを、SFI（Store Fetch Interlock）と呼ばれる。

前述のマスクレジスタ付きベクトル命令は、マスクレジスタのマスクビットの一部がTRUE（アクセス要）で、残りのマスクビットがFALSE（アクセス不要）の場合、ベクトル長の配列要素の一部の要素しかアクセスしない。そのため、マスクレジスタ付きベクトル命令では、本来のSFIの発生は、連続するストア命令とロード命令それぞれのマスクレジスタのマスクビットに基づいて判定すべきである。

しかしながら、マイクロプロセッサによっては、ベクトル命令について、連続するベクトルストア命令とベクトルロード命令が処理する最初の配列要素からベクトル長の個数の要素のデータのメモリアドレスが重なるか否かで、SFIの判定を行う。このように、ベクトル長の個数の要素のメモリアドレスは重なるが、ベクトル命令がマスクレジスタに基づきアクセスする配列要素のメモリアドレスは重ならない場合は、本来のSFIではなく、マイクロプロセッサのアーキテクチャに依存したSFIである。マイクロプロセッサのベクトル長が長くなると、ベクトル命令が処理する配列長が長くなり、ベクトル長の個数の配列要素のメモリアドレスの領域が長くなる。それに伴い、上記のアーキテクチャに依存したSFIの発生頻度が高くなる。

マイクロプロセッサが、アーキテクチャに依存したSFIに基づいて連続するストア命令とロード命令をインオーダーで実行すると、アウトオブオーダーで実行する場合に比較して、命令の実行時間が長くなる。アーキテクチャに依存したSFIは、本来のSFIではなく連続するストア命令とロード命令をインオーダーで実行する必要はないので、アウトオブオーダーで実行させて実行時間を短くすることが望ましい。

そこで、本実施の形態の第1の側面の目的は、ベクトル命令をアーキテクチャに依存したSFIの判定を回避するように最適化するコンパイラプログラム、コンパイル方法、情報処理装置を提供することにある。

本実施の形態の第１の側面は、最適化対象プログラムについて最適化処理をコンピュータに実行させるコンパイラプログラムであって、
前記最適化対象プログラムは、配列変数のベクトルストア命令とベクトルロード命令を有するループを有し、
前記最適化処理は、
前記ループ内の前記ベクトルストア命令とベクトルロード命令を、ベクトル長を前記配列変数の配列サイズで除算して余りを切り上げた第１アンロール数または前記第１アンロール数より１つ少ない第２アンロール数だけアンローリングを行い、
前記アンローリングした複数のベクトルロード命令のうち先頭のベクトルストア命令より後ろのベクトルロード命令を、前記先頭のベクトルストア命令より前に移動させるスケジューリングを行う、コンパイラプログラムである。

第１の側面によれば、コンパイラプログラムを実行するプロセッサが、ベクトル命令をアーキテクチャに依存したSFIの判定を回避するように最適化する。

コンパイラを実行する情報処理装置の構成例を示す図である。コンパイラによるコンパイル処理のフローチャートを示す図である。コンパイラによる最適化処理S102の詳細なフローチャートを示す図である。 SFI_2の発生例を示す図である。マスクレジスタ付ベクトルロード命令の配列の要素のメモリ上の位置とベクトルレジスタとマスクレジスタの関係例を示す図である。一重ループ化によるSFI_2を回避する方法を示す図である。アンパック化によるSFI_2を回避する方法を示す図である。アセンブリ擬似コードC22のベクトルロード命令vload（行05）とベクトルストア命令vstore（行07）のアクセスアドレスの関係を示す図である。アセンブリ擬似コードC23のベクトルロード命令vload（行05）とベクトルストア命令vstore（行07）のアクセスアドレスの関係を示す図である。一重ループ化またはアンパック化ではSFI_2を回避できない例を示す図である。実施の形態におけるSFI_2を回避する最適化処理（１）を示す図である。本実施の形態におけるSFI_2を回避する最適化処理のループアンローリングとスケジューリングを示す図である。ベクトル長VL＝１６の場合の配列サイズnに対応するセイル関数ceil(VL/n)の数の関係を示す図である。実施の形態におけるSFI_2を回避する最適化処理（２）を示す図である。本実施の形態におけるSFI_2を回避する最適化処理のループアンローリングとスケジューリングを示す図である。ループ内でロード命令がストア命令に先行するソースコードの場合のループアンローリングとスケジューリングを示す図である。ループ内でストア命令がロード命令に先行するソースコードの場合のループアンローリングとスケジューリングを示す図である。第２の実施の形態の最適化対象ループを有するソースコードとベクトル化後の中間擬似コードの例を示す図である。上記のループ（行03-06）をケース別ループに変換した分岐構造の中間擬似コードC42を示す図である。図１９のケース別ループに変換した分岐構造の中間擬似コードC42の各ケース別ループをそれぞれのアンロール数だけアンローリングした後の中間擬似コードC43を示す図である。第２の実施の形態の最適化対象ループを有するソースコードとベクトル化後の中間擬似コードの例を示す図である。ベクトル化後の中間擬似コードC51の最内ループ（行03-07）をケース別ループに変換した分岐構造の中間擬似コードC52を示す図である。図２２のケース別ループに変換した分岐構造の中間擬似コードC52の各ケース別ループをそれぞれのアンロール数だけアンローリングした後の中間擬似コードC53を示す図である。コンパイラの最適化処理の全体のフローチャートを示す図である。ループ構造体の一例を示す図である。ループ構造分析S1の処理のフローチャートを示す図である。 SFI_2の判定処理S20のフローチャートを示す図である。 SFI_2の判定処理S20のフローチャートを示す図である。同じループ内及び前後のループ内のベクトルストア命令及びベクトルロード命令の関係性の判定処理S40のフローチャートを示す図である。同じループ内及び前後のループ内のベクトルストア命令及びベクトルロード命令の関係性の判定処理S40のフローチャートを示す図である。

［用語の定義］
本明細書では、ベクトルストア命令とその後のベクトルロード命令がアクセスする配列要素のメモリアドレスが互いに重なる場合に発生する本来のSFIを、「一次SFI」または「SFI_1」と称する。また、ベクトルストア命令とその後のベクトルロード命令が、マスクレジスタに基づいてアクセスする配列要素のメモリアドレスは重ならない（一次SFIは起きない）が、ベクトル命令の先頭の配列要素からベクトル長の個数の配列要素のメモリアドレスが重なる場合、マイクロプロセッサのアーキテクチャに依存したSFIが発生する。このマイクロアーキテクチャに依存したSFIを、「二次SFI」または「SFI_2」と称する。また、「ベクトル命令の先頭の配列要素からベクトル長の個数の配列要素までのメモリアドレス」を、以下簡単の為に、「ベクトル命令のベクトル長の配列要素のメモリアドレス」と称する。

コンパイラは、高水準言語プログラムであるソースコードから生成した中間コードを最適化し、アセンブリコードまたはオブジェクトコードに変換する。中間コードは、コンパイラに依存して様々な言語で記述される。そこで、本明細書では、中間コードを擬似的に記載した「中間擬似コード」を示して実施の形態の説明を行う。中間擬似コードは、アセンブリコードに類似するコードで記述する場合もある。同様に、アセンブリコードとして「アセンブリ擬似コード」を示す。

［コンパイラを実行する情報処理装置及びコンパイル方法］
図１は、コンパイラを実行する情報処理装置の構成例を示す図である。情報処理装置１は、プロセッサであるセントラルプロセッサユニット（CPU）１０と、プロセッサがアクセスするメインメモリ１２と、外部とのインターフェース１４と、補助記憶装置であるストレージ２０と、それらを接続する内部バス１６とを有する。

ストレージ２０には、コンパイラ２１と、コンパイル対象のソースコード２３と、コンパイラがソースコードから変換したアセンブリコードまたはオブジェクトコード２５が格納される。また、コンパイラを実行中、メインメモリ１２には、コンパイラがコンパイルするときに生成するパラメータ２２とソースコードから生成した中間コード２４とが格納される。プロセッサは、コンパイラ２１をメモリ１２内に展開し、展開されたコンパイラを実行する。ソースコードは、Fortran、C言語、C++などの高水準言語プログラムのコードである。中間コードは、コンパイラを実行するプロセッサが、ソースコードから生成したプログラムコードであり、コンパイル処理の最適化処理の対象である。

図２は、コンパイラによるコンパイル処理のフローチャートを示す図である。プロセッサは、コンパイラを実行して次の処理を実行する。プロセッサは、コンパイル対象のソースコード２３の解析を行う（S100）。ソースコードの解析は、例えば、ソースコードの字句解析、構文解析、意味解析等を含む。次に、プロセッサは、ソースコードの解析結果に基づいて、ソースコード２３から中間コード２４を生成する（S101）。そして、プロセッサは、中間コードを最適化処理し、演算時間を短くできる中間コードに変更する（S102）。最適化処理後に、中間コードをアセンブリコードに変換、またはオブジェクトコードに変換する（S103）。

図３は、コンパイラによる最適化処理S102の詳細なフローチャートを示す図である。プロセッサは、コンパイラを実行して図３に示した最適化処理S102を実行する。プロセッサは、中間コードに対して第１の最適化処理を実行する（S110）。第１の最適化処理は、例えば、多重ループ構造の一重ループ化などが含まれる。そして、プロセッサは、中間コードの複数のデータを処理する同じ命令コードをベクトル命令に置換するベクトル化を行う（S111）。そして、プロセッサは、ループ構造を分析し本実施の形態による最適化対象のループ構造を検出する（S112）。更に、プロセッサは、最適化対象のループ構造について、ループアンローリング（S112）、スケジューリング（S113）を実行する。最後に、プロセッサは、第２の最適化処理を実行する（S114）。

ループアンローリングは、ループ内の命令を展開（アンローリング）してループ回数を減らす処理である。また、スケジューリングは、命令の順番を変更し、プロセッサがアウトオブオーダーで命令を実行できるようにする処理等である。

［SFI_2］
図４は、SFI_2の発生例を示す図である。コードC1はソースコードの一例である。ソースコードC1では、単精度４byteの実数real(4)として配列a(8,32)とb(8,32)を宣言し（行02）、二次ループ（行03～07）内に、一次ループ（行04～06）が含まれる。最内（一次）ループ（行04～06）に、配列a(j,i)とb(j,i)を加算して配列a(j,i)に入力する演算命令が記載される（行05）。また、ベクトルレジスタのサイズを512bitとし、上記の通り配列の要素のサイズが単精度の４byteとすると、ベクトル長VL(Vector Length)は以下のとおりである。
ベクトル長VL＝ベクトルレジスタのサイズ（512bit）/配列の要素のサイズ（4byte）＝16
つまり、ベクトル長VLは、ベクトル命令が処理できる配列の最大要素数である。ベクトルレジスタのサイズを512bit、配列の要素サイズを倍精度の8byteとすると、ベクトル長VLは８となる。

ソースコードC1の最内ループの演算命令をベクトル化すると、ベクトル化された中間擬似コードC2が生成される。中間擬似コードC2では、ソースコードC1の最内ループの演算命令がベクトル化され、配列a(1:8,i)とb(1:8,i)を加算して配列a(1:8,i)に入力する演算命令（行04）に変更されている。中間擬似コードC2は、ソースコードC1と同様のコードで擬似的に表現されている。

そこで、コードC2がアセンブリコードに変換されると、アセンブリ擬似コードC3となる。アセンブリ擬似コードC3には主要な命令のみが抜粋して記載される。コードC2のループ（行03～05）が、コードC3では、ロード命令、add命令、ストア命令、減算命令のアセンブリコードを含むループ（行03～09）に変換されている。行02と行04～07と行08のコードの意味は次の通りである。
行02：マスクレジスタpredicate_true ps0は、要素が４byte（ps：predicate single）であり、先頭の８要素がTRUEで残りの８要素がFALSEである。具体的なマスクレジスタMASKが行02の右側に示されている。
行04：配列b(1:8,i)の１～８要素のデータをメモリからベクトルレジスタvs2にロードするマスクレジスタps0付きベクトルロード命令vload。ベクトルレジスタvs2は要素が単精度の４byte（vs：vector single）である。
行05：配列a(1:8,i)の１～８要素のデータをメモリからベクトルレジスタvs1にロードするマスクレジスタps0付きベクトルロード命令vload。ベクトルレジスタvs1も配列要素が単精度の４byteである。
行06：ベクトルレジスタvs1とvs2を加算し、vs1に格納する。
行07：ベクトルvs1のデータをメモリ内の配列a(1:8,i)にストアするマスクレジスタps0つきベクトルストア命令vstore。
行08：ループの制御変数iを格納するレジスタd2の値を－１する。

図５は、マスクレジスタ付ベクトルロード命令の配列の要素のメモリ上の位置とベクトルレジスタとマスクレジスタの関係例を示す図である。図４と同様にベクトルレジスタサイズが512ビット、配列の要素サイズが4byte、レジスタ長VLが16である。メモリ上には、配列a(8,32)の各要素のデータが、a(1,1)～a(8,1), a(1,2)～a(8,2)の順に、連続するアドレスに記憶される。ベクトルレジスタサイズが512bitで、配列の１つの要素のサイズが４byte（単精度）の場合、前述したとおりベクトル長は１６になり、１６個の配列要素は１６×４byte×８bit = 512 bitの容量でメモリ内に記憶される。図中、VLの矢印が、先頭の配列要素からベクトル長VL個の配列要素までのメモリ上のアドレスの領域を示す。

そして、ベクトルロード命令では、プロセッサは、メモリ内の１６個の配列要素のデータにアクセスし、１６個の要素をベクトルレジスタに格納する。逆にベクトルストア命令では、プロセッサは、512bitのベクトルレジスタ内に格納される１６個の配列要素を、512bitの容量でメモリ内に記憶する。

図中一番上のマスクレジスタ付ベクトルロード命令vloadは、そのマスクレジスタMASKの最初の８要素がTRUE（T）であり、後半の８要素がFALSE(F)である。このマスクレジスタ付ベクトルロード命令を実行すると、プロセッサは、マスクレジスタに基づいて、メモリ上の配列a(8,32)の８要素a(1,1)～a(8,1)をベクトルレジスタの８個の要素にロードする。この場合、プロセッサは、ベクトルロード命令が処理する１番目の要素a(1,1)のアドレスから８番目の要素a(8,1)のアドレスまでメモリにアクセスし、８要素のロードしたデータをベクトルレジスタの８個の要素に格納する。

二番目のマスクレジスタ付ベクトルロード命令vloadは、そのマスクレジスタの１６要素のうち先頭の４要素がTRUE（T）で、残りの１２要素がFALSE（F）である。この場合、プロセッサは、マスクレジスタに基づいて、メモリ上の配列a(8,32)の４要素a(1,1)～a(4,1)のアドレスにアクセスし、読みだした４要素のデータをベクトルレジスタの先頭の４個の要素にロードする。

このようにマスクレジスタ付きベクトル命令を実行すると、プロセッサは、ベクトル長VLの全要素のうち一部の要素についてメモリにアクセスし、ベクトルレジスタに一部の要素を格納またはベクトルレジスタの一部の要素をメモリに記憶する。マスクレジスタは、通常、コンパイラがアセンブリコードまたはオブジェクトコードを生成するときにコードC3のように生成する。コンパイラは、ベクトル命令がベクトル長の全要素を処理しない場合、マスクレジスタを生成する。

図４に戻り、コードC3がプロセッサにより実行されると、図４の最下に示したとおり、１回目のループのベクトルストア命令vstore1と２回目のループのベクトルロード命令vload2がマスクレジスタに基づいてアクセスする要素（マスクレジスタがTRUEの要素）のメモリアドレスは重なっていない。但し、ベクトル命令vstore1とvload2のベクトル長VLの配列要素のメモリアドレス（矢印VLのメモリアドレス）は一部で重なっている。この場合、両ベクトル命令がマスクレジスタに基づいてアクセスする要素のメモリアドレスは重なっていないので、SFI_1は発生せず、一方で、両ベクトル命令のベクトル長VLの配列要素のメモリアドレスでは一部で重なっているので、SFI_2が発生する。

したがって、プロセッサのデコーダがコードC3を解析すると、SFI_2が発生すると判定され、隣接するベクトル命令vstore1とvload2がインオーダーで実行される。その結果、プロセッサがアウトオブオーダーで実行しないため処理時間が長くなる。

［一重ループ化によるSFI_2回避］
図６は、一重ループ化によるSFI_2を回避する方法を示す図である。図６のソースコードC10は、図４のソースコードC1と同じである。図４では、ベクトル長VL＝16に対して最内ループでは制御変数j = 1～8で回転する。そのため、最内ループの命令をベクトル命令に変換すると、ベクトル命令はベクトル長16の要素のうち先頭の８要素のデータにアクセスする。その結果、前のベクトルストア命令vstore1と後ろのベクトルロード命令vload2は、それぞれがマスクに基づいてアクセスする要素のアドレスは互いに重ならないが、ベクトル長VL＝16の要素のアドレスでは互いに重なり、SFI_1は発生しないがSFI_2が発生した。

それに対して、図６の例では、コンパイラを実行するプロセッサは、ソースコードC10の最内ループ（行04～06）を削除して一重ループ化した中間コードC12を生成し、更に、ベクトル長16と同じ数の要素にアクセスするベクトル命令（行04）に変換した中間擬似コードC13を生成する。中間擬似コードC13のベクトル命令（行04）は、次のとおりである。
a(1:16,i) = a(1:16,i) + b(1:16,i)
つまり、ベクトル命令のデータ数（要素数）はベクトル長VL=16と等しく、ループの制御変数iは1～256で16飛びに変更されている。

コンパイラを実行するプロセッサは、中間擬似コードC13からアセンブリ擬似コードC14を生成する。このアセンブリ擬似コードC14では、マスクレジスタps0がベクトル長16の全要素でTRUEとなる。その結果、アセンブリ擬似コードC14の場合、配列a(1:16, i)のベクトルストア命令vstore1とベクトルロード命令vload2がアクセスする16要素のアドレスは、互いに重ならない。つまり、SFI_1もSFI_2も発生しない。

このように、ソースコードC10の変数a(8:32)の配列サイズ８と、最内ループ（行04-06）の回転数８（j=1-8）とが一致する場合、ループを跨いで連続するストア命令とロード命令がメモリ上の連続するアドレスの要素データにアクセスするため、最内ループを削除して一重ループ化することでストア命令とロード命令が連続アドレスにアクセスするようにする。つまり、両命令をベクトル長16の要素のベクトル命令に変換すると、SFI_1は発生せず、またSFI_2を回避可能になる。図６のアセンブリ擬似コードC14の下には、１回転目のベクトルストア命令vstore1と２回転目のベクトルロード命令vload2それぞれがアクセスするベクトル長16の16要素のアドレスが重ならないことが示される。

［アンパック化によるSFI_2回避］
図７は、アンパック化によるSFI_2を回避する方法を示す図である。図７のソースコードC20では、配列変数a(9,32)、b(9,32)に対し、最内ループ（行04-06）は回転数８（j=1-8）である。つまり、配列変数a(9,32)の配列サイズnはn=9であるのに対して、最内ループの回転数mはm=8と、両者は異なっている。

ソースコードC20の最内ループの命令をベクトル化すると、中間擬似コードC21が生成される。更に、中間擬似コードC21をアセンブリコードに変換するとアセンブリ擬似コードC22が生成される。アセンブリ擬似コードC22では、マスクレジスタps0は単精度singleの配列に対応し、ベクトル長16のうち８要素がTRUE、残りの８要素がFALSEである。このアセンブリ擬似コードC22の変数aについてのベクトルロード命令vload（行05）とベクトルストア命令vstore（行07）のアクセスアドレスの関係は、図８に示されるとおりになる。

図８は、アセンブリ擬似コードC22のベクトルロード命令vload（行05）とベクトルストア命令vstore（行07）のアクセスアドレスの関係を示す図である。図８には、１回転目のベクトルストア命令vstore1のマスクレジスタMASKとメモリ上の変数aの配列要素a(1,1) - a(9,1), a(1,2) - a(7,2)と、２回転目のベクトルロード命令vload2のマスクレジスタMASKとメモリ上の変数aの配列要素a(1,2) - a(9,2), a(1,3) - a(2,3)が示される。この場合、配列サイズ９に対してループ回転数８であり、配列要素a(9,1)はアクセスされないので、連続アドレスにはアクセスされない。図８の処理順とメモリアドレスの関係に示されるように、１回転目のベクトルストア命令vstore1と２回転目のベクトルロード命令vload2では、それぞれがアクセスするメモリ上のアドレス（マスクレジスタがTRUEの要素のアドレス）は重ならないが、両命令のベクトル長VL=16の要素のアドレスは重なる。つまり、SFI_1は発生しないが、SFI_2が発生する可能性がある。

図７に戻り、そこで、コンパイラを実行するプロセッサは、アセンブリ擬似コードC22からアセンブリ擬似コードC23を生成する。具体的には、コンパイラを実行するプロセッサは、アンパック命令を利用して、アセンブリ擬似コードC22の命令を、１要素のサイズを４byteから８byteと二倍に変更し、ベクトル長16のベクトル命令をベクトル長8のベクトル命令に変更する。

図５内のunpackedに、アンパック命令におけるメモリ上の配列aとベクトルレジスタとの関係が示される。図５では単精度4byteでベクトル長VL=16の例である。図５に示されるとおり、それぞれ４byteの８要素は、ベクトルレジスタ内のそれぞれ８byteの８要素の上位ビット側（または下位ビット側）にそれぞれ格納され、下位ビット側（または上位ビット側）は０等にされる。つまり、VL=16において、ベクトルレジスタ内の各４byteの要素に16個のデータが格納されるのがパック命令であるのに対して、アンパック命令では各８byteの要素に８個のデータが格納される。つまり、アンパック命令ではベクトルレジスタ内に８byte間隔で４byteのデータが８個格納される。

図７のアセンブリ擬似コードC23では、倍精度８byteの要素に対応する倍精度のマスクレジスタpd0の全要素（８要素）が全てTRUEであり、配列長８のベクトル命令vload, vstoreのベクトルレジスタvd1, vd2はいずれも倍精度（vd: vector double）の８要素を有する。そのため、アセンブリ擬似コードC23の変数aについてのベクトルロード命令vload（行05）とベクトルストア命令vstore（行07）のアクセスアドレスの関係は、図９に示されるとおりになる。

図９は、アセンブリ擬似コードC23のベクトルロード命令vload（行05）とベクトルストア命令vstore（行07）のアクセスアドレスの関係を示す図である。図９には、１回転目のベクトルストア命令vstore1のマスクレジスタMASKとメモリ上の変数aの配列要素a(1,1) - a(9,1)と、２回転目のベクトルロード命令vload2のマスクレジスタMASKとメモリ上の変数aの配列要素a(1,2) - a(2,2)が示される。左右方向がメモリのアドレスに対応する。１回転目のベクトルストア命令vstore1がマスクレジスタに基づいてアクセスする８要素のメモリ上のアドレスと、２回転目のベクトルロード命令vload2がマスクレジスタに基づいてアクセスする８要素のメモリ上のアドレスは重ならない。これによりSFI_1が発生しないことは変わらない。そして、１回転目のベクトルストア命令vstore1のベクトル長８の個数の要素のアドレスと、２回転目のベクトルロード命令vload2のベクトル長８の個数の要素のアドレスも、重ならない。これによりSFI_2が回避される。

図９の縦軸の処理順と横軸のメモリアドレスの関係に示されるとおり、１回転目のベクトルストア命令vstore1がアクセスするベクトル長８の個数の要素のアドレスと、２回転目のベクトルロード命令vload1がアクセスするベクトル長８の個数の要素のアドレスが重なっていないので、SFI_2は回避されることが理解できる。

上記の通り、配列サイズnがn=9でループの回転数mがm=8のように、配列サイズnとループ回転数mが一致しない（m<n）場合、連続したアドレスアクセスができず、一重ループ化は利用できない。しかし、ループ回転数mとベクトル長VLが１：２のように特定の比率であれば、アンパック化により、SFI_2を回避することができる。

［一重ループ化またはアンパック化ではSFI_2を回避できない例］
図１０は、一重ループ化またはアンパック化ではSFI_2を回避できない例を示す図である。図１０に示したソースコードC30は、配列変数a(4,32)の配列サイズnがn=4で、最内ループ（行04-06）のループ回転数mがm=3と、m<nである。そして、ソースコードC30の最内ループ内の演算命令をベクトル化すると、中間擬似コードC31が生成される。この例は、最内ループ内は、ロード命令の後にストア命令がある例（ロード後ストア）である。

図１０には、中間擬似コードC31のループ（行03-05）の１回転目のベクトルロード命令vload1及びベクトルストア命令vstore1のマスクレジスタMASKとメモリ上の配列と、２～４回転目のベクトルロード命令vload2, vload3, vload4のメモリ上の配列が示される。これによれば、１回転目のベクトルストア命令vstore1がマスクに基づいてアクセスする要素と、２～４回転目のベクトルロード命令vload2～vload4がマスクに基づいてアクセスする要素とはアドレスが重ならない。しかし、１回転目のベクトルストア命令vstore1のベクトル長16の要素のメモリアドレスと、２～４回転目のベクトルロード命令vload2～vload4のベクトル長16の要素のメモリアドレスが重なる。よって、SFI_1は発生しないが、SFI_2が発生する可能性がある。

前述の通り、ソースコードC30では、配列変数a(4,32)の配列サイズn=4と、最内ループ（行04-06）のループ回転数m=3（ベクトル命令のアクセス要素数と同じ）とが、m<nと一致せず、最内ループを繰り返した場合ベクトル命令が連続アドレスへアクセスしない。また、ループ回転数m=3は、ベクトル長VL=16と１：２，１：４等、アンパック命令を利用できる特定の比率ではない。よって、図１０のソースコードC30の例では、前述した一次ループ化またはアンパック化ではSFI_2を回避することはできない。

［第１の実施の形態例、変数の配列サイズnとループ回転数mとベクトル長VLが定数の例］
［ループ内でロード命令の後にストア命令がある例（ロード後ストア）］
第１の実施の形態では、コンパイラを実行するプロセッサが、図１０に示した配列サイズnとループ回転数mとがm＜nと異なり且つループ回転数mがベクトル長VLと前述の特定の比率ではないループを、最適化する。また、第１の実施の形態では、最適化対象ループの変数の配列サイズnとループ回転数mとベクトル長VLが定数の例である。

図１１は、実施の形態におけるSFI_2を回避する最適化処理（１）を示す図である。最内ループ内がロード命令の後にストア命令がある例（ロード後ストア）である。図１１には、図１０のソースコードC30とその最内ループの演算命令をベクトル化した中間擬似コードC31が示される。

図１０には、中間擬似コードC31をアセンブリコードに変換した場合の１回転目のベクトルロード命令vload1及びベクトルストア命令vstore1のメモリ上の配列a(1,1)-a(4,4)と、２～４回転目のベクトルロード命令vload2, vload3, vload4のメモリ上の配列a(1,1)-a(4,4)とが示される。各ループでは制御変数iが１～３２にインクリメントされ、制御変数jについてはj = 1 - 3の配列がベクトル命令でアクセスされる。つまり、１回転目では配列a(1,1)-a(3,1)が、２回転目では配列a(1,2)-a(3,2)が、３回転目では配列a(1,3)-a(3,3)が、４回転目では配列a(1,4)-a(3,4)が、それぞれのベクトル命令でアクセスされる。そして、１回目のベクトルストア命令vstore1がアクセスする配列a(1,1)-a(3,1)のアドレスは、２～４回目のベクトルロード命令vload2, vload3, vload4がそれぞれアクセスする配列のアドレスとは、重なっていない。このことは、１回目のベクトルストア命令vstore1と、その後の２～４回目のベクトルロード命令vload2, vload3, vload4との間では、SFI_1は発生しないことを意味する。但し、１回目のベクトルストア命令vstore1のベクトル長16の要素のアドレスと、２～４回転目のベクトルロード命令vload2, vload3, vload4のベクトル長16の要素のアドレスそれぞれとが重なるので、SFI_2が発生する可能性がある。

そこで、図１１に示す本実施の形態では、コンパイラを実行するプロセッサが、ベクトル化後の中間擬似コードC31のベクトル演算命令（行04）を有する最内ループ（行03-06）を、４アンローリングを行って、中間擬似コードC32を生成する。中間擬似コードC31のループ（行03-05）が、中間擬似コードC32では行03-08のアンローリングされたループに変更されている。４アンローリングにより、中間擬似コードC32のループ（行03-08）には、以下の４つのベクトル演算命令が含まれる。これら４つのベクトル演算命令は、元のコードC31の１～４回転目（i = 1-4）の演算命令である。
a(1:3,i) = a(1:3,i) + b(1:3,i)
a(1:3,i+1) = a(1:3,i+1) + b(1:3,i+1) // 元2回転目
a(1:3,i+2) = a(1:3,i+2) + b(1:3,i+2) // 元3回転目
a(1:3,i+3) = a(1:3,i+3) + b(1:3,i+3) // 元4回転目
これに伴い、行03のDO文では、制御変数iが４つ飛びで３２までインクリメントされる。

アンローリングの数を４としたのは、ベクトル長VL＝16と変数aの配列サイズn＝４の除算の余りを切り上げる関数、セイルceil(VL/n)＝ceil(16/4)＝４に基づく。すなわち、図１０に示したとおり、１回転目のベクトルストア命令vstore1のベクトル長の要素のアドレスと、１～４回転目のベクトルロード命令vload1～vload4のマスクに基づきアクセスする要素（それぞれ3個の要素）のアドレスが重なり、５回転目以降のベクトルロード命令のマスクに基づきアクセスする要素のアドレスとは重ならない。これが４アンローリングの理由である。

図１２は、本実施の形態におけるSFI_2を回避する最適化処理のループアンローリングとスケジューリングを示す図である。図１２には、図１０と同様の１回転目のベクトルストア命令vstore1のベクトル長の要素のアドレスと、１～４回転目のベクトルロード命令vload1～vload4のマスクに基づきアクセスする要素（それぞれ3個の要素）のアドレスが示される。

図１２に示すとおり、４アンローリング（unrolling）により、１回転目のベクトルストア命令vstore1の後ろ（垂直方向の下）に２～４回転目のベクトルロード命令vload2～vload4が位置する。一方、１回転目のベクトルロード命令vload1は、１回転目のベクトルストア命令vstore1より前（垂直方向の上）に位置する。そして、１回転目のベクトルストア命令vstore1のアクセスアドレスは、２～４回転目のベクトルロード命令vload2～vload4のアクセスアドレスとは重なっておらず、本来のSFIであるSFI_1は発生しない。

そして、コンパイラを実行するプロセッサは、４アンローリングしたベクトル演算命令のうち２～４回転目のベクトルロード命令vload2～vload4を、１回転目のベクトルストア命令vstore1の前に移動させるスケジューリングを実行する。図１２に示すスケジューリング（Scheduling）の破線矢印に示す命令の移動である。このスケジューリングをした結果、コンパイルされたオブジェクトコードを実行するプロセッサは、１～４回転目のベクトルロード命令vload1～vload4が1回転目のベクトルストア命令vstore1より前に位置するので、両命令間でSFI_2が発生せず、オブジェクトコードを実行するプロセッサはSFIを検出しない。そのため、プロセッサは、１～４回転目のベクトルロード命令vload1～vload4を１回転目のベクトルストア命令vstore1より前に実行でき、４つのベクトルロード命令をアウトオブオーダーで実行することもでき、４命令を並列実行するなどにより演算時間を短縮できる。

図１１には、ループアンローリングされた中間擬似コードC32のスケジューリングの処理が擬似的に示される。中間擬似コードC33は、中間擬似コードC32の４つのベクトル演算命令からロード命令（temp#＝a(1:3,#) 但し、#=1-4）を抽出して生成した。抽出されたロード命令は、変数a(1:3,#)をレジスタtemp#に入力する命令である。それに伴い、変数a(1:3,#)に、レジスタtemp#と変数b(1:3,#)の和がストアされている。

そして、コンパイラを実行するプロセッサが、中間擬似コードC33の２～４回転目のベクトルロード命令vload2～vload4を、１回転目のベクトルストア命令vstore1より前に移動するスケジューリングを行って、中間擬似コードC34を生成する。

アンローリングの数は、ベクトルストア命令のベクトル長の要素のアドレスと、マスクに基づきアクセスする要素のアドレスが重なるベクトルロード命令の数である。つまり、前述した、ベクトル長VLと変数aの配列サイズnについてのセイル関数ceil(VL/n)の数である。

図１３は、ベクトル長VL＝１６の場合の配列サイズnに対応するセイル関数ceil(VL/n)の数の関係を示す図である。ベクトル長VL＝16で、変数aの配列サイズnがn＜VLを満たす場合、n＝１～１５である。図１３には、n＝１～１６に対するセイル関数ceil(VL/n)の数と、ceil(VL/n)-1の数とが示される。図１１、図１２に示した配列サイズn＝４の場合は、セイル関数ceil(VL/n)の数が４になっている。

［ループ内がロード命令の後にストア命令があるロード後ストアの例］
図１４は、実施の形態におけるSFI_2を回避する最適化処理（２）を示す図である。最内ループ内にストア命令の後にロード命令があるストア後ロードの例である。ソースコードC30_2では、最内ループ（行04-07）に、メモリ内の配列変数ａへのストア命令（行05）とメモリ内の配列変数aからのロード命令（行06）が示される。中間擬似コードC31_2では、最内ループで繰り返す複数の命令がベクトル命令（行04-05）に変換されている。

図１５は、本実施の形態におけるSFI_2を回避する最適化処理のループアンローリングとスケジューリングを示す図である。図１５には、中間擬似コードC31_2をアセンブリコードに変換した場合の１回転目のベクトルストア命令vstore1のベクトル長VLのメモリ上の配列a(1,1)-a(4,4)と、１～３回転目のベクトルロード命令vload1, vload2, vload3のメモリ上の配列a(1,2)-a(4,2), a(1,3)-a(4,3), a(1,4)-a(4,4)とが示される。各ループでは制御変数iが１～３２にインクリメントされ、制御変数jについてはj = 1-3の配列がベクトル命令でアクセスされる。ベクトルロード命令では、１回転目では配列a(1,2)-a(3,2)が、２回転目では配列a(1,3)-a(3,3)が、３回転目では配列a(1,4)-a(3,4)が、それぞれのベクトル命令でアクセスされる。そして、１回目のベクトルストア命令vstore1がマスクに基づきアクセスする配列a(1,1)-a(3,1)のアドレスは、１～３回目のベクトルロード命令vload1, vload2, vload3がそれぞれマスクに基づきアクセスする配列のアドレスとは、重なっていない。このことは、１回目のベクトルストア命令vstore1と、その後の１～３回目のベクトルロード命令vload1, vload2, vload3との間では、SFI_1は発生していないことを意味する。但し、SFI_2が発生する可能性がある。

図１４に戻り、本実施の形態では、コンパイラを実行するプロセッサが、ベクトル化後の中間擬似コードC31_2のベクトル演算命令（行04-05）を、３アンローリングして、中間擬似コードC32_2を生成する。中間擬似コードC31_2のループ（行03-06）が、中間擬似コードC32_2では行03-10のループに変更されている。３アンローリングにより、中間擬似コードC32_2のループ（行03-10）には、以下の３つのベクトル演算命令が含まれる。これら３つのベクトル演算命令は、元のコードC31_2の１～３回転目（i = 1-3）の演算命令である。
a(1:3,i) = b(1:3,i)
c(1:3,i) = a(1:3,i+1) + i
a(1:3,i+1) = b(1:3,i+1) // 元2回転目
c(1:3,i+1) = a(1:3,i+2) + i+1 // 元2回転目
a(1:3,i+2) = b(1:3,i+2) // 元3回転目
c(1:3,i+2) = a(1:3,i+3) + i+2 // 元3回転目
これに伴い、行03のDO文では、制御変数iが３つ飛びでインクリメントされる。

アンローリングの数を３としたのは、セイルceil(VL/n)-1＝ceil(16/4)-1＝３に基づく。すなわち、１回転目のベクトルストア命令vstore1のベクトル長の要素のアドレスと、１～３回転目のベクトルロード命令vload1～vload3のマスクに基づきアクセスする要素のアドレスが重なり、４回転目以降のベクトルロード命令のマスクに基づきアクセスする要素のアドレスとは重ならない。これが３アンローリングの理由である。

図１５には、図１２と同様の１回転目のベクトルストア命令vstore1のベクトル長の要素のアドレスと、１～３回転目のベクトルロード命令vload1～vload3がマスクに基づきアクセスする要素のアドレスが示される。図１５に示すとおり、３アンローリングにより、１回転目のベクトルストア命令vstore1の後ろに１～３回転目のベクトルロード命令vload1～vload3が位置する。そして、１回転目のベクトルストア命令vstore1のマスクに基づくアクセスアドレスは、１～３回転目のベクトルロード命令vload1～vload3のマスクに基づくアクセスアドレスとは重なっておらず、本来のSFIであるSFI_1は発生しない。

そこで、本実施の形態では、コンパイラを実行するプロセッサは、３アンローリングしたベクトル演算命令のうち１～３回転目のベクトルロード命令vload1～vload3を、１回転目のベクトルストア命令vstore1の前に移動させるスケジューリングを実行する。図１４に示すスケジューリング（Scheduling）の破線矢印に示す命令の移動である。このスケジューリングをした結果、コンパイルされたオブジェクトコードを実行するプロセッサは、１～３回転目のベクトルロード命令vload1～vload1が1回転目のベクトルストア命令vstore1より前に位置するので、両命令間でSFI_2を検出しない。そのため、プロセッサは、１～３回転目のベクトルロード命令vload1～vload3を１回転目のベクトルストア命令vstore1より前に実行でき、３つのベクトルロード命令をアウトオブオーダーで実行することもでき、並列実行などにより演算時間を短縮できる。

図１５には、ループアンローリングされた中間擬似コードC32_2のスケジューリングの処理が擬似的に示される。中間擬似コードC33_2と、スケジューリング後の中間擬似コードC34_2は、図１１のコードC33とC34に対応する。よって、詳細な説明は省略する。

最内ループ内がストア後ロードの例では、アンローリングの数は、ベクトルストア命令のベクトル長の要素のアドレスと、マスクに基づきアクセスする要素のアドレスが重なるベクトルロード命令の数である。１回目のループでベクトルストア命令vstore1とベクトルロード命令vload1の配列の位置がずれているので、アンローリングの数は、ベクトル長VLと変数aの配列サイズnについてのセイル関数から１減じたceil(VL/n)-1の数である。図１１，１２の例より１つ少ない数である。

［ループ内がロード後ストアの例とストア後ロードの例のまとめ］
［ループ内がロード後ストアの例］
図１６は、ループ内でロード命令がストア命令に先行するソースコードの場合のループアンローリングとスケジューリングを示す図である。図１１と同様に、先行するロード命令とその後ろのストア命令は、同じ変数の同じ要素にアクセスする命令である。図１６には、ループアンローリング後とスケジューリング後における、各ループのベクトルストア命令Svstoreベクトルロード命令vloadとのメモリアドレス（横方向）の関係が示される。図中ベクトル長VLは、１回転目のストア命令vstore1がアクセスするベクトル長の要素のメモリアドレスの位置を示す。

本実施の形態が対象としているのは、SFI_2を回避することができるループ構造であり、ループ回転数mが配列サイズより小さく（m＜n）で、配列サイズnがベクトル長VL以下（n=<VL）のループ構造である。よって、ベクトルロード命令vloadとベクトルストア命令のマスクレジスタは、配列の最初のm個の要素でTRUE（T）、またその後ろn－m個の要素でFALSE（F）、更にその後ろのVL-n個の要素もFALSE（F）である。そして、１回転目のループと２回転目のループでは、両命令の最初要素のアドレスが配列サイズn個ずつずれている。３回転目以降も同様である。したがって、図１１と同様にVL=16、n=4とすると、１回転目のベクトルストア命令vstore1と２～４回転目のベクトルロード命令vload2～vload4との間でSFI_2が発生する可能性がある。

この例では、コンパイラを実行するプロセッサが、最適化対象ループに対して４アンローリングを実行して、図示されるように１～４回転目までのベクトルロード命令vloadとベクトルストア命令vstoreを展開（アンローリング）する。そして、コンパイラを実行するプロセッサが、先頭のベクトルストア命令vstore1の後ろの２～４回転目のベクトルロード命令vload2～vload4を、先頭のベクトルストア命令vstore1の前に移動するスケジューリングを行う。スケジューリング後の状態から理解できるとおり、４つのベクトルロード命令vload1～vload4は４つのベクトルストア命令vstore1～vstore4の前にあるので、コンパイルされたオブジェクトコードを実行するプロセッサによってSFI_2と判定されることはない。そして、プロセッサは、４つのベクトルロード命令vload1～vload4をアウトオブオーダーで実行することができる。

［ループ内がストア後ロードの例］
図１７は、ループ内でストア命令がロード命令に先行するソースコードの場合のループアンローリングとスケジューリングを示す図である。図１４と同様に、同じループ内の先行するストア命令とその後ろのロード命令は、同じ変数の異なる要素にアクセスする命令である。そして、１回転目のループでは、ストア命令とロード命令の先頭要素のアドレスが配列サイズｎ個ずつずれている。２回転目以降も同様である。したがって、VL=16、n=4とすると、１回転目のベクトルストア命令vstore1と１～３回転目のベクトルロード命令vload1～vload3との間でSFI_2が発生する可能性がある。

この例では、コンパイラを実行するプロセッサが、最適化対象のループに対して３アンローリングを実行して、図示されるように３回転目までのベクトルロード命令vloadとベクトルストア命令vstoreを展開（アンローリング）する。そして、プロセッサが、先頭のベクトルストア命令vstore1の後ろの１～３回転目のベクトルロード命令vload1～vload3を、先頭のベクトルストア命令vstore1の前に移動するスケジューリングを行う。スケジューリング後の状態では、３つのベクトルロード命令vload1～vload3は３つのベクトルストア命令vstore1～vstore3の前にあるので、オブジェクトコードを実行するプロセッサによってSFI_2と判定されることはない。そして、プロセッサは、３つのベクトルロード命令vload1～vload3を、アウトオブオーダーで実行することができる。

［第２の実施の形態例、変数の配列サイズnとループ回転数mが変数でベクトル長VLが定数または不明の例］
第２の実施の形態も、コンパイラを実行するプロセッサが、図１０に示した配列サイズnとループ回転数mとがm＜nと異なり、ループ回転数mとベクトル長VLとの比が前述のアンパック化を適用できる比ではないループを最適化する。更に、第２の実施の形態では、最適化対象ループの変数の配列サイズnとループ回転数mが変数で、ベクトル長VLが定数または不明の例である。但し、n＞VLの例は、最適化対象ループから除く。ここで、変数の配列サイズnとループ回転数mが変数とは、コンパイルされたオブジェクトコードをプロセッサが実行したときに両変数の値が確定し、コンパイル時は両変数が確定しないことを意味する。また、ベクトル長VLが不明とは、ソースプログラムをコンパイルしたオブジェクトコードを実行するプロセッサのベクトル長がコンパイル時に不明であることである。

［ループ内がロード命令の後にストア命令の例］
図１８は、第２の実施の形態の最適化対象ループを有するソースコードとベクトル化後の中間擬似コードの例を示す図である。この例は、最内ループ（行04-06）内でロード命令の後にストア命令がある例である。ソースコードC40では、配列変数a(n,32), b(n,32), c(n,32)の配列サイズnが変数であり、最内ループの回転数mが変数であり、そして、ベクトル長VLが定数または不明である。この場合、論理的にm=<nであり、n>VLのループを最適化対象ループから除くとすると、m=<VLが保証される。

ソースコードC40の最内ループを回転数mでベクトル化すると、ベクトル化後の中間擬似コードC41が生成される。中間擬似コードC41では、C40の最内ループ（行04-06）が、以下の演算命令に変換されている。

do j = 1, m, VL //VL: 16
a(j:j+VL-1,i) = a(j:j+VL-1,i) + b(j:j+VL-1,i)
enddo
ベクトル化後の中間擬似コードC41の場合、配列サイズnとベクトル長VLの関係によっては、SFI_2に該当する場合がある。この場合のSFI_2は、図１０で説明したように、ベクトルストア命令とその後のベクトルロード命令との間で、両命令のベクトル長の要素のアドレスは重なるが、両命令がマスクに基づきアクセスする要素のアドレスは重ならない場合である。

このようなループについて、本実施の形態では、コンパイラがSFI_2を回避する最適化処理を行う。SFI_2を回避する最適化処理の概略は次の通りである。

（１）ソースコード内で配列変数の宣言された配列サイズnが変数の場合、コンパイル時は配列サイズnが不明である。そこで、ベクトル化後のコードC41のループ（行03-06）を、ベクトル長VLを配列サイズnで除算して余りを切り上げる関数ceil(VL/n）（またはループ内にストア命令の後にロード命令がある場合はceil(VL/n)-1）の数別（ケース別）に、それぞれ最内ループ（行03-06）内のベクトルロード命令とベクトルストア命令を有する、ケース別ループに変換する。

図１９は、上記のループ（行03-06）をケース別ループに変換した分岐構造の中間擬似コードC42を示す図である。コードC42は、ベクトル長VLをVL=16の例である。コードC42において、行02-34が、ベクトル長VLが後述するベクトル長配列VL_array（SFI_2が起こるVLを格納した配列）に含まれる場合で且つn<=VLという条件を有するif文の条件が真の場合のケース別ループである。行35-42が、if文の条件が偽の場合のループである。

行02-34のケース別ループでは、行03のselect文の条件ceil(VL/n)が０～１６の場合に対応するケース0-16（case 0 ～ case 16）それぞれに、コードC41の最内ループ（行04-06）のベクトル演算命令（行04）が記載される。if文の条件n<=VLの場合m<=VLが満たされるので、コードC41の最内ループ（行04-06）のベクトル演算命令は、図１９のコードC42では、例えば行06-08のコードとされる。以下のとおりである。
06 do i = 1, 32
07 a(1:m,i) = a(1:m,i) + b(1:m,i)
08 enddo
図１３のceil(VL/n)に示したとおり、配置サイズnがn=8～15の場合ceil(VL/n)＝２であるので、図１９のコードC42では、ケース２（case 2）に該当する。

（２）次に、図１９のコードC42のケース別のループそれぞれについて、アンロール数ceil(VL/n)だけアンローリング（展開）を行い、更に、アンローリングした命令のうち、先頭のベクトルストア命令の後のベクトルロード命令を、先頭のベクトル命令の前に移動するスケジューリングを行う。

図２０は、図１９のケース別ループに変換した分岐構造の中間擬似コードC42の各ケース別ループをそれぞれのアンロール数だけアンローリングした後の中間擬似コードC43を示す図である。図２０ではスケジューリングは未実行である。コードC43において、行09-37のケース２～８までのケース別ループでは、ベクトル演算命令がアンローリングされている。行09-19のケース２、３では、ケースの数（２、３）でそれぞれアンローリングされている。それに対して、行20-37のケース４、６、８では、宣言サイズnmがケースの数ceil(VL/n)=4, 6, 8以下であるので、アンロール数は宣言サイズnに制限される。行38-43のケース１６は、ceil(VL/n)=16の例であり、配列サイズn=1であるので、ループの回転数m=n=1故、ベクトル化せず、元のコードC40 のスカラー命令のループ構造に戻される。そして、行44-50は、n＞VLの条件を満たす場合であり、SFI_2が発生しないのでコードC41のループ構造のままである。

［ループ内がストア命令の後にロード命令の例］
図２１は、第２の実施の形態の最適化対象ループを有するソースコードとベクトル化後の中間擬似コードの例を示す図である。この例は、最内ループ（行04-07）内でストア命令のあとにロード命令がある例である。ソースコードC50では、配列変数a(n,33), b(n,33), c(n,33)の配列サイズnが変数であり、最内ループの回転数mが変数であり、そして、ベクトル長VLが定数または不明である。この場合、論理的にm=<nであり、n>VLのループを最適化対象ループから除くとすると、m=<VLが保証される。

ソースコードC50の最内ループを回転数mでベクトル化すると、ベクトル化後の中間擬似コードC51が生成される。中間擬似コードC51では、C50の最内ループ（行04-07）が、以下の演算命令に変換されている。
do j = 1, m , VL //VL: 16
a(j: j+VL, i) = b(j: j+VL, i)
c(j: j+VL, i) = a(j: j+VL, i+1) + i
enddo

ループ内がストア命令後ロード命令の場合も、コンパイラがSFI_2を回避する最適化処理は、ループ内がロード命令後ストア命令の場合（図１８、１９，２０）と同様に、（１）ベクトル化された中間擬似コードC51をケース別ループに変換し、各ループでアンローリングとスケジューリングを行う。但し、ループ内がストア命令後ロード命令であるので、アンローリング数がCeil(VL/n)-1となることが、ループ内がロード命令後ストア命令の場合と異なる。

図２２は、ベクトル化後の中間擬似コードC51の最内ループ（行03-07）をケース別ループに変換した分岐構造の中間擬似コードC52を示す図である。アンロール数以外は、図１９と同等であるので、図２２の説明は省略する。

図２３は、図２２のケース別ループに変換した分岐構造の中間擬似コードC52の各ケース別ループをそれぞれのアンロール数だけアンローリングした後の中間擬似コードC53を示す図である。アンローリング数がCeil(VL/n)-1となること以外は、図２０と同等であるので、図２３の説明は省略する。

［第１及び第２の実施の形態のためのコンパイラの最適化処理］
次に、コンパイラの最適化処理についてフローチャートを参照して説明する。以下説明するコンパイラの最適化処理は、第１の実施の形態の最適化対象ループと第２の実施の形態の最適化対象ループの両方について行う最適化処理である。第１の実施の形態の最適化対象ループとは、ベクトル長VLと変数の配列サイズnが定数で、n＜VLが真で、ループ内プログラムがSFI_2を発生する可能性があるループである。第２の実施の形態の最適化対象ループとは、ベクトル長VLと変数の配列サイズnが変数で、n＜VLが不明で、ループ内プログラムがSFI_2を発生する可能性があるループである。

図２４は、コンパイラの最適化処理の全体のフローチャートを示す図である。コンパイラを実行するプロセッサは、ソースプログラムから生成した中間コード内の所定のループ構造を、一重ループ化（最内ループ消滅）またはアンパック化ストア命令及びロード命令で、SFI_2を回避できるように最適化する（S0）。

そして、コンパイラを実行するプロセッサは、処理S0では最適化できないループについて、ループ構造を分析し、ループ毎のループ構造情報を格納したループ構造体を生成する（S1）。分析対象のループは、既にベクトル化されたストア命令及びロード命令を有するループである。

図２５は、ループ構造体の一例を示す図である。ループ構造体LOOP_STRUCTは、ループを最適化するために必要なループの特徴等を含むパラメータを格納したデータ構造である。ループ構造体は、最適化対象ループか否か（TRUE/FALSE）、ループタイプLoop_typeが１か２か、アンロール数、ベクトル長VLが不明（unknown）か否か、SFI_2が発生するか否か（TRUE/FALSE）、SFI_2のタイプSFI_2_typeが０か１か、SFI_2が発生するベクトル長VLの配列（VL_array）、などのパラメータを含む。

ループタイプ１は、VL、nが定数で、n<VLが真のループであり、第１の実施の形態のループである。ループタイプ２は、VLが定数または不明、nが変数でn<VLが不明（unknown）のループであり、第２の実施の形態のループである。アンロール数は、ループタイプ１の場合はceil(VL/n) - SFI_2_type(0 or 1)であり、ループタイプ２の場合はNULLである。SFI_2のタイプSFI_2_typeは、ループ内がロード命令の後にストア命令の場合SFI_2_type=0であり、ループ内がストア命令の後にロード命令の場合SFI_2_type=1である。ループタイプ２は、ベクトル長VLが不明であるので、コンパイラを実行するプロセッサは、SFI_2が発生するベクトル長を調査し、発生することが検出されたベクトル長VLの値を、SFI_2が発生するベクトル長配列VL_arrayに格納する。

図２４に戻り、コンパイラを実行するプロセッサは、各ループのループ構造を分析し上記のループ構造体を生成する（S1）。そして、コンパイラを実行するプロセッサは、中間コードの各ループが最適化対象のループか否かを、ループ構造体を参照して判断する（S2）。プロセッサは、最適化対象ループ全てについて（S2のYES）、処理S3、S3-1、S3-2a、S3-2bを実行し、最適化対象ループが存在しない場合（S2のNO）は処理を終了する。

コンパイラを実行するプロセッサは、最適化対象ループがタイプ１かタイプ２かをループ構造体に基づいて判定する（S3）。ループタイプLoop_type=１の場合、プロセッサは、ループを［Ceil(VL/n)-SFI_2_type］個だけアンローリングし（または［Ceil(VL/n)-SFI_2_type］＞配列の宣言サイズn 、の場合はn個だけアンローリングし）、アンローリングした命令のうち、１回転目のベクトルストア命令の後ろのベクトルロード命令を１回転目のベクトルストア命令の前に移動（スケジューリング）する（S3-1）。移動させるベクトルロード命令は、［1-SFT_2_type］回転目以降のロード命令である。ループタイプ１の場合の上記処理S3-1は、図１１－１２、図１６、図１８－２０で説明した。

一方、ループタイプ２の場合、コンパイラを実行するプロセッサは、ループをCeil(VL/n)別に分岐するケース別ループのプログラム（分岐プログラム）に変換する（S3-2a）。更に、プロセッサは、分岐プログラムのケース別ループをそれぞれ、［Ceil(VL/n)-SFI_2_type］個だけアンローリングする（または［Ceil(VL/n)-SFI_2_type］＞配列の宣言サイズn、の場合はn個だけアンローリングする）。更に、プロセッサは、アンローリングした命令のうち、１回転目のベクトルストア命令の後ろのベクトルロード命令を１回転目のベクトルストア命令の前に移動（スケジューリング）する（S3-2b）。移動させるベクトルロード命令は、［2-SFT_2_type］回転目以降のロード命令である。ループタイプ２の場合の上記処理S3-2a,S3-2bは、図１４－１５、図１７、図２１－２３で説明した。

図２６は、ループ構造分析S1の処理のフローチャートを示す図である。コンパイラを実行するプロセッサは、中間コードのループが、２重以上のループ（多重ループ）、最内ループに１つの制御変数(j)を有し、最内ループに同じ配列変数(a)のベクトルストア命令とベクトルロード命令が１組だけ存在し、対象の配列変数(a)と同じ変数型で異なる配列サイズ（要素数n）の変数が存在しない、がすべてTRUEか否かを判定する（S11）。プロセッサは、判定結果がYESなら以下の処理を続行し、NOなら処理S1を終了する。

コンパイラを実行するプロセッサは、最内ループで更新される配列変数のサイズと配列サイズ（n）を取得する（S12）。さらに、プロセッサは、ベクトルレジスタサイズ（byte数）を変数の型サイズ（byte数）で除算して、ベクトル長VLを算出する（S13）。配列サイズｎが定数の場合ベクトル長VLが判明するが、配列サイズnが変数の場合ベクトル長VLは不明となる。

更に、プロセッサは、n＜VLが真か否か判定し、ceil(VL/n)を算出する（S14）。そして、プロセッサは、以下のループタイプの判定を行う。
S15：ベクトル長VLが定数、配列サイズnが定数、n＜VLが真の場合は、ループタイプをタイプ１と判定する。
S16：ベクトル長VLが定数、配列サイズnが変数、n＜VLが不明の場合は、ループタイプをタイプ２と判定する。
S17：ベクトル長VLが変数、配列サイズnが変数、n＜VLが不明の場合は、ループタイプをタイプ２と判定する。
上記S15～S17が全てNOなら終了する。
ループタイプがタイプ１または２の場合は、プロセッサは、図２７以降のSFI_2の判定処理を実行する。

図２７、図２８は、SFI_2の判定処理S20のフローチャートを示す図である。コンパイラを実行するプロセッサは、ループがループタイプ１か２を判定し（S21）、ループタイプ１の場合は以下の処理S40,S22,S23,S23(2)を実行する。

［ループタイプ１の場合］
コンパイラを実行するプロセッサは、連続するベクトルストア命令及びベクトルロード命令の関係を分析する（S40）。この分析で、ループがSFI_2を発生するか否かと（SFI_2＝TRUE or FALSE）、ロード命令がストア命令の前か（SFI_2_type=0）後ろか（SFI_2_type=1）の判定を行う。詳細は図２９、図３０で行う。ループがSFI_2を発生する(SFI_2=TRUE)場合（S22のYES）、プロセッサは、ループ構造体に、SFI_2 = TRUEとSFI_2_type = 0 or 1を記録し、VL_arrayをNULLにする（S23）。VL_arrayをNULLにするのはベクトル長VLが定数で調査の必要性がないからである。ループがSFI_2を発生しない(SFI_2= FALSE)場合（S22のNO）、プロセッサは、ループ構造体に、SFI_2 = FALSEを記録する（S23(2)）。

［ループタイプ２の場合］
ループタイプ２の場合、コンパイラを実行するプロセッサは、ベクトル長VLが不明か否か判定する（S24）。不明でない場合（S24のFALSE）、プロセッサは、変数である配列サイズnを１からベクトル長VLまでインクリメントしながら、つまり、配列サイズｎが１からベクトル長VLの値それぞれについて（S26）、以下の処理を実行する。つまり、プロセッサは、配列サイズn＝VLに達してceil(VL/n)=1が真になる（S27のTRUE）と終了し（S27）、ceil(VL/n)=1が偽の場合（S27のFALSE）、連続するベクトルストア命令及びベクトルロード命令の関係を分析する（S40）。

ループがSFI_2を発生する(SFI_2=TRUE)場合（S22のYES）、プロセッサは、ループ構造体に、SFI_2 = TRUEとSFI_2_type = 0 or 1を記録し、VL_arrayをNULLにする（S23）。そして、SFI_2の判定処理S20を終了する。ループがSFI_2を発生しない(SFI_2=FALSE)場合（S22のNO）、プロセッサは、全配列サイズｎをチェックしてなければ（S33のNO）、S26に戻り配列サイズｎをインクリメントする。全配列サイズｎを終了していれば（S33のYES）、プロセッサは、ループ構造体にループがSFI_2を発生しない（SFI_2=FALSE）を記録し（S23(2)）、終了する。つまり、配列サイズｎを１からVLまでインクリメントしながら、一度でもSFI_2=TRUEを検出したら、そのループはSFI_2を発生する可能性があると判定する。

図２８に移り、ループタイプ２の場合で且つベクトル長VLが不明の場合（S24のTRUE）、プロセッサは、ベクトル長を２，４，８… と変更しながら、つまり取りうるベクトル長（２のべき乗）それぞれについて（S25）、処理S26～S30,S33を実行する。処理S26～S30のうち、S29とS30を除くS26, S27, S40, S28, S33は図２８と同じである。処理S29では、プロセッサは、ループ構造体に、SFI_2=TRUE、SFI_2_type = 0 or 1を保存し、ベクトル長配列VL_arrayに現在のVLを保存する。プロセッサは、全ベクトル長VLの判定が終了するまで上記の処理を繰り返す（S30）。つまり、全てのベクトル長VLそれぞれにおいて、配列サイズｎを変更しながらSFI_2=TRUEを判定するまで処理S26, S27, S40, S28, S29, S33を繰り返す。これにより、プロセッサは、SFI_2が発生するベクトル長VLを全て検出し、ループ構造体内のクトル長配列VL_array内に検出したVLを全て登録する。

プロセッサは、全ベクトル長VLに対する判定が終了したとき、ループ構造体のクトル長配列VL_array内が空の場合（S31のYES）、ループ構造体にSFI_2=FALSE、ループタイプ＝NULLを記録する（S32）。この場合は、全VLでSFI_2が発生しないので、分析したループは最適化対象ループから除外される。

［連続するベクトルストア命令及びベクトルロード命令の関係性の判定S40］
図２９、図３０は、同じループ内及び前後のループ内のベクトルストア命令及びベクトルロード命令の関係性の判定処理S40のフローチャートを示す図である。コンパイラを実行するプロセッサは、同じループ内でロード命令の後ろにストア命令があるという順番か否かを判定する（S41）。判定が真の場合（S41のTRUE）、プロセッサは処理S42～S45を実行する。判定が偽の場合（S41のFALSE）、プロセッサは図３０の処理を実行する。

S41の判定がTRUE(真)の場合、プロセッサは、第１に、ループ構造において、ループ間で前のループのベクトルストア命令vstore1と後ろのループのベクトルロード命令vload2の先頭の要素からベクトル長番目の要素までのアドレスが互いに重なるか否か判定する（S42）。この判定S42がFALSE（偽）であれば、SFI_1は発生せず、したがって、SFI_2も発生しないので、プロセッサはループ構造体にSFI_2はFALSEと記録する（S45）。S45のブロックの上に１回転目のベクトルストア命令vstore1と２回転目のベクトルロード命令vload1の関係が示される。

判定S42がTRUE（真）の場合、プロセッサは、第２に、ループ構造において、ループ間で前のループのベクトルストア命令と後ろのループのベクトルロード命令がマスクに基づきアクセスする要素のアドレスが互いに重なるか否か判定する（S43）。この判定S43がFALSE（偽）であれば、SFI_2が発生する可能性があるので、プロセッサは、ループ構造体にSFI_2はTRUEと記録し、SFI_2_type = 0と記録する（S44）。判定S43がTRUE（真）であれば、SFI_1が発生し、したがって、SFI_2は発生しないので、プロセッサは、ループ構造体にSFI_2はFALSEと記録する（S46）。S44、S46のブロックの下に、１回転目のベクトルストア命令vstore1と２回転目のベクトルロード命令vload1の関係が示される。

図３０に示すとおり、S41の判定がFALSE（偽）の場合、プロセッサは、第１に、ループ構造において、ループ間の前のループのベクトルストア命令vstore1と同じ前のループ及び後ろのループのベクトルロード命令vload1, vload2の先頭の要素からベクトル長番目の要素までのアドレスが互いに重なるか否か判定する（S52）。つまり、同じループ内において前のベクトルストア命令vstore1と後ろのベクトルロード命令vload1との間で、先頭からベクトル長番目までの要素のアドレスが互いに重なるか否か判定する。この判定S52がFALSE（偽）であれば、SFI_1は発生せず、したがって、SFI_2も発生しないので、プロセッサはループ構造体にSFI_2はFALSEと記録する（S55）。S55のブロックの上に同じループ内の前のベクトルストア命令vstore1と後ろのベクトルロード命令vload1の関係が示される。

判定S52がTRUE（真）の場合、プロセッサは、第２に、ループ構造において、ループ間の前のループのベクトルストア命令vstore1と同じ前のループ及び後ろのループのベクトルロード命令vload1, vload2がマスクに基づきアクセスする要素のアドレスが互いに重なるか否か判定する（S53）。つまり、同じループ内において前のベクトルストア命令vstore1と後ろのベクトルロード命令vload1との間で、両命令がマスクに基づきアクセスする要素のアドレスが互いに重なるか否か判定する。この判定がFALSE（偽）であれば、SFI_2が発生する可能性があるので、プロセッサは、ループ構造体にSFI_2はTRUEと記録し、SFI_2_type = 1と記録する（S54）。判定S53がTRUE（真）であれば、SFI_1が発生し、したがって、SFI_2は発生しないので、プロセッサは、ループ構造体にSFI_2はFALSEと記録する（S56）。S54、S56のブロックの下に、同じループ内の前のベクトルストア命令vstore1と後ろのベクトルロード命令vload1の関係が示される。

以上の通り、プロセッサは、本実施の形態のコンパイラの最適化処理を実行し、アセンブリコードまたはオブジェクトコードを生成する。これにより、コンパイラを実行するプロセッサは、オブジェクトコードを実行するプロセッサが、ループ構造においてSFI_2が発生すると判定することを回避するように中間コードを最適化できる。また、プロセッサは、ループ構造において、配列サイズｎが変数で、ベクトル長VLが不明の場合でも、プロセッサがオブジェクトコードを実行したときに判明する配列サイズｎとベクトル長VLに対して、プロセッサがSFI_2と判定することを回避するよう中間コードを最適化できる。SFI_2と判定されることを回避できれば、プロセッサは、ロード命令をアウトオブオーダーで実行することができる。

配列サイズnとループの回転数mが不一致m＜nで連続アドレスへのアクセスでない場合、及び配列サイズnがベクトル長VLと所定の比率でない場合、コンパイラを実行するプロセッサは、SFI_2と判定されることを回避できるようにプログラムを最適化することができる。コンパイル時にベクトル長VLが定数または不明の場合や、配列サイズnが定数または変数の場合なども、コンパイラを実行するプロセッサは、コンパイル後のオブジェクトコードが実行されるときに判明した配列サイズnやベクトル長VLに対応してSFI_2と判定されることを回避できるようにプログラムを最適化できる。

１０：プロセッサ
１２：メモリ
２１：コンパイラ
２２：パラメータ（ループ構造体）
２３：ソースコード
２４：中間コード
２５：アセンブリコード（オブジェクトコード）
VL：ベクトル長
n：配列変数の配列サイズ
ｍ：ループの回転数
SFI_1：一次SFI
SFI_2：二次SFI
vload：ベクトルロード命令
vstore：ベクトルストア命令
MASK：マスクレジスタ
Ceil()：セイル関数、除算の余りを切り上げる関数
T：TRUE
F：FALSE

Claims

最適化対象プログラムについて最適化処理をコンピュータに実行させるコンパイラプログラムであって、
前記最適化対象プログラムは、配列変数のベクトルストア命令とベクトルロード命令を有するループを有し、
前記最適化処理は、
前記ループ内の前記ベクトルストア命令とベクトルロード命令を、ベクトル長を前記配列変数の配列サイズで除算して余りを切り上げた第１アンロール数または前記第１アンロール数より１つ少ない第２アンロール数だけアンローリングを行い、
前記アンローリングした複数のベクトルロード命令のうち先頭のベクトルストア命令より後ろのベクトルロード命令を、前記先頭のベクトルストア命令より前に移動させるスケジューリングを行う、コンパイラプログラム。
前記ループは、前記配列変数の配列サイズが定数でベクトル長が定数で、前記ループの回転数(m)が前記配列サイズより小さく、前記ループの回転数と前記ベクトル長の比がアンパック可能な特定の比ではない、請求項１に記載のコンパイラプログラム。
前記最適化対象プログラムの前記ループは、
前記ループの複数の回転ループの前の回転ループ内のベクトルストア命令と後の回転ループ内のベクトルロード命令のベクトル長の要素に対するメモリアドレスが重なるが、両命令がマスクに基づきアクセスする要素のメモリアドレスは重ならない二次ストアフェッチインターロックに該当する、請求項２に記載のコンパイラプログラム。
前記ループが前記ベクトルロード命令の後に前記ベクトルストア命令を有する場合、
前記二次ストアフェッチインターロックは、
（１）前記ループの第１回転目のベクトルストア命令のベクトル長の要素に対するメモリアドレスと、前記第１回転目の次の第２回転目のベクトルロード命令のベクトル長の要素に対するメモリアドレスとが重なるが、（２）前記第１回転目のベクトルストア命令がマスクに基づきアクセスする要素のメモリアドレスと、前記第２回転目のベクトルロード命令がマスクに基づきアクセスする要素のメモリアドレスとが重ならない場合である、請求項３に記載のコンパイラプログラム。
前記ループが前記ベクトルストア命令の後に前記ベクトルロード命令を有する場合、
前記二次ストアフェッチインターロックは、
（１）前記ループの第１回転目のベクトルストア命令のベクトル長の要素に対するメモリアドレスと、前記第１回転目のベクトルロード命令のベクトル長の要素に対するメモリアドレスとが重なるが、（２）前記第１回転目のベクトルストア命令がマスクに基づきアクセスする要素のメモリアドレスと、前記第１回転目のベクトルロード命令がマスクに基づきアクセスする要素のメモリアドレスとが重ならない場合である、請求項３に記載のコンパイラプログラム。
前記ループが前記ベクトルロード命令の後に前記ベクトルストア命令を有する場合、アンロール数は前記第１アンロール数であり、
前記ループが前記ベクトルストア命令の後に前記ベクトルロード命令を有する場合、アンロール数は前記第２アンロール数である、請求項１に記載のコンパイラプログラム。
前記最適化処理は、更に、
前記配列変数の配列サイズが変数でベクトル長が定数または不明の場合、
前記ループを、前記配列サイズと前記ベクトル長の取り得る組み合わせに基づいて算出される前記第１アンロール数または前記第２アンロール数の複数のケースそれぞれについて、前記ループ内の前記ベクトルストア命令とベクトルロード命令を有するケース別ループに変換し、
前記アンローリングは、
前記ケース別ループそれぞれにおいて、前記アンローリングを行う処理を有し、
前記スケジューリングは、
前記ケース別ループそれぞれについて、前記スケジューリングを行う処理を有する、請求項１に記載のコンパイラプログラム。
最適化対象プログラムについて最適化処理を行うコンパイル方法であって、
前記最適化対象プログラムは、配列変数のベクトルストア命令とベクトルロード命令を有するループを有し、
前記最適化処理は、
前記ループ内の前記ベクトルストア命令とベクトルロード命令を、ベクトル長を前記配列変数の配列サイズで除算して余りを切り上げた第１アンロール数または前記第１アンロール数より１つ少ない第２アンロール数だけアンローリングを行い、
前記アンローリングした複数のベクトルロード命令のうち先頭のベクトルストア命令より後ろのベクトルロード命令を、前記先頭のベクトルストア命令より前に移動させるスケジューリングを行う、コンパイル方法。
プロセッサと、
前記プロセッサがアクセスするメモリを有し、
前記プロセッサは、最適化対象プログラムについて最適化処理を実行し、
前記最適化対象プログラムは、配列変数のベクトルストア命令とベクトルロード命令を有するループを有し、
前記最適化処理は、
前記ループ内の前記ベクトルストア命令とベクトルロード命令を、ベクトル長を前記配列変数の配列サイズで除算して余りを切り上げた第１アンロール数または前記第１アンロール数より１つ少ない第２アンロール数だけアンローリングを行い、
前記アンローリングした複数のベクトルロード命令のうち先頭のベクトルストア命令より後ろのベクトルロード命令を、前記先頭のベクトルストア命令より前に移動させるスケジューリングを行う処理を有する、情報処理装置。