JP2023002165A

JP2023002165A - コンパイラ及びコンパイル方法

Info

Publication number: JP2023002165A
Application number: JP2021103222A
Authority: JP
Inventors: 佳祐津金; Keisuke Tsugane
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2021-06-22
Filing date: 2021-06-22
Publication date: 2023-01-10
Also published as: US20220405110A1

Abstract

【課題】プログラムの実行速度が低下するのを抑制すること。【解決手段】ループ処理を固定長SIMD命令で実行した場合にループ処理を開始してから終了するまでの第１の実行時間と、ループ処理を可変長SIMD命令で実行した場合にループ処理を開始してから終了するまでの第２の実行時間とを比較する第１のコードと、比較によって第１の実行時間が第２の実行時間よりも長いことが判明した場合に、可変長SIMD命令でループ処理を実行する第２のコードと、を含むプログラムを生成する処理をコンピュータに実行させるためのコンパイラによる。【選択図】図６

Description

本発明は、コンパイラ及びコンパイル方法に関する。

コンパイラの最適化手法の一つに、プログラムに記述されたループ処理内の命令をSIMD(Single Instruction Multiple Data)命令に置換する手法がある。この手法では、命令のオペランドである複数の要素の各々が複数のベクトルレジスタに割り当てられ、これらのベクトルレジスタにおいて命令が並列して実行される。これにより、ループ処理内の命令を逐次的に実行する場合と比較してプログラムの実行速度が向上する。

但し、SIMD命令のビット長はプロセッサごとに固定されているため、レジスタのビット長が異なる複数のプロセッサでSIMD命令を実行する場合には、プロセッサごとにコンパイルを実行する必要があり、プログラムの可搬性が低下する。以下ではこのようにビット長がプロセッサごとに固定されているSIMD命令を固定長SIMD命令と呼ぶ。

固定長SIMD命令のこの問題を解消するための命令として可変長SIMD命令がある。可変長SIMD命令のビット長は、プロセッサが備えるレジスタのビット長に合わせて可変である。そのため、一度プログラムをコンパイルして実行可能プログラムを生成すれば、レジスタのビット長が異なる他のプロセッサでも実行可能プログラムを実行でき、プログラムの可搬性が高まる。

ループ処理を可変長SIMD命令で実行しようとする場合、ループ処理の総実行回数がレジスタのビット長で割り切れずに剰余が発生する場合がある。この場合は、剰余に相当するレジスタの各ビットにループ処理の演算結果を格納する必要がない。そのため、ループ処理に可変長SIMD命令を使用する場合は、剰余を求めるためのマスク命令と呼ばれる命令が実行される。

しかし、そのマスク命令のオーバーヘッドが原因で固定長SIMD命令を実行する場合と比較してプログラムの実行速度が低下することがある。

特開２０１２－１７４０１６号公報特開２０１８－９２３８３号公報

Stephens, Nigel, et al. 「The ARM scalable vector extension」 IEEE micro 37.2 (2017): 26-39. 李珍泌、佐藤三久「アプリに特化したSIMD最適化のためのOpenMP仕様拡張の提案とARM SVEを用いた評価」、研究報告ハイパフォーマンスコンピューティング(HPC) 2017.10 (2017): 1-8.

一側面によれば、プログラムの実行速度が低下するのを抑制することを目的とする。

一側面によれば、ループ処理を固定長SIMD命令で実行した場合にループ処理を開始してから終了するまでの第１の実行時間と、ループ処理を可変長SIMD命令で実行した場合にループ処理を開始してから終了するまでの第２の実行時間とを比較する第１のコードと、比較によって第１の実行時間が第２の実行時間よりも長いことが判明した場合に、可変長SIMD命令でループ処理を実行する第２のコードと、を含むプログラムを生成する処理をコンピュータに実行させるためのコンパイラが提供される。

一側面によれば、プログラムの実行速度が低下するのを抑制できる。

図１は、本実施形態に係るコンパイル装置の模式図である。図２は、ターゲットマシンのハードウェア構成図である。図３は、ターゲットマシンのプロセッサが備えるレジスタファイルの模式図である。図４（ａ）は、マスク命令について説明するためのC言語の疑似ソースコードであり、図４（ｂ）、（ｃ）は、SVEが備えるマスク命令の一例であるwhilelo命令について説明するための模式図である。図５は、マスクレジスタのpredicateベクトルが図４（ｃ）で表される場合に可変長SIMD命令でループ処理を実行するときの模式図である。図６は、本実施形態に係るコンパイラ装置の制御部が行う処理について説明するための模式図である。図７は、入力ソースプログラムと中間ソースプログラムの具体例について示す模式図である。図８は、本実施形態に係るコンパイラ装置の機能構成図である。図９（ａ）は入力ソースプログラムの模式図であり、図９（ｂ）はこの入力ソースプログラムからコールグラフ生成部が生成したコールグラフの模式図である。図１０（ａ）は、制御フローグラフの元となる関数func1()が記述された入力ソースプログラムの模式図であり、図１０（ｂ）は、図１０（ａ）の入力ソースプログラムに基づいて制御フローグラフ生成部が生成した関数func1()の制御フローグラフの模式図である。図１１は、本実施形態に係るコンパイル方法のフローチャートである。図１２は、本実施形態に係るコンパイラ装置のハードウェア構成図である。

図１は、本実施形態に係るコンパイル装置の模式図である。

コンパイラ装置１０は、物理マシンや仮想マシン等のコンピュータであって、入力ソースプログラム１２を実行可能プログラム１３に変換する制御部６４を備える。実行可能プログラム１３は、HPC(Hight Performance Computer)等のターゲットマシンで実行可能なバイナリファイルである。

図２は、ターゲットマシンのハードウェア構成図である。図２に示すように、ターゲットマシン１５はプロセッサ１６とメモリ１７とを有しており、プロセッサ１６とメモリ１７が協同して実行可能プログラム１３を実行する。そのプロセッサ１６には、命令やデータ等を格納するレジスタファイル１８が設けられる。

以下では、プロセッサ１６が富士通株式会社製のA64FXである場合を例にして説明する。A64FXは、Armv8.2-A命令セットを拡張した可変長SIMD命令のSVE（Scalable Vector Extension）と、固定長SIMD命令の命令セットであるARM社のNEONの両方を実行可能なプロセッサである。

図３は、ターゲットマシン１５のプロセッサ１６が備えるレジスタファイル１８の模式図である。

図３に示すように、レジスタファイル１８は、ベクトルレジスタ２１、マスクレジスタ２２、及びスカラレジスタ２３をそれぞれ複数備える。

このうち、ベクトルレジスタ２１は、SIMD命令を実行するための(LEN×128+128)ビット長のレジスタである。「LEN」は、可変長SIMD命令のビット長がサポートする0～15の整数値である。以下では、複数のベクトルレジスタ２１の各々を「z0」、「z1」、…「z31」の文字列で識別する。

一方、マスクレジスタ２２は、マスク命令を実行するための(LEN×16)ビット長のレジスタであって、「p0」、「p1」、…「p15」の文字列で識別される。

また、スカラレジスタ２３はスカラ変数を保持するためのレジスタである。以下では、複数のスカラレジスタ２３の各々を「x0」、「x1」、…の文字列で識別する。

次に、マスクレジスタ２２を用いたマスク命令について説明する。
図４（ａ）は、マスク命令について説明するためのC言語の疑似ソースコードである。なお、これ以降に現れるソースコードは全てC言語の疑似ソースコードである。

ここでは、for文によるループ処理３０を例にして説明する。このループ処理３０における「i」は、ループ処理３０の実行回を示すイテレーションである。また、「N」は、ループ処理３０の総実行回数であるループ長を示す。

図４（ｂ）、（ｃ）は、SVEが備えるマスク命令の一例であるwhilelo命令について説明するための模式図である。

ループ処理３０を実行する際には、「x8」のスカラレジスタ２３にイテレーション「i」が格納され、「x9」のスカラレジスタ２３にループ長「N」が格納される。なお、以下では「LEN」の値が3であり、ベクトルレジスタ２１とマスクレジスタのビット長がそれぞれ512ビット及び48ビットである場合を想定する。

whilelo命令は、「x9」のスカラレジスタ２３に格納されているループ長「N」が、「x8」のスカラレジスタ２３に格納されているイテレーション「i」に0、1、…、7を加算した各値よりも大きいかを判定する命令である。この判定が肯定された場合、whilelo命令は、48ビット長の「p0」のマスクレジスタ２２を6ビットずつに区切った8個の記憶領域２２ａに「1」を格納する。

図４（ｂ）の例では、「p0」のマスクレジスタ２２の全ての記憶領域２２ａに「1」が格納されている。この場合は、図４（ａ）のループ処理３０の実行回数は「N」に達しておらず、ループ処理３０が継続されることになる。なお、各記憶領域２２ａに格納された値を成分とするベクトルはpredicateベクトルと呼ばれる。図４（ａ）の例ではpredicateベクトルは(1, 1, 1, 1, 1, 1, 1, 1)となる。

一方、図４（ｃ）の例では、「i+3」の値は「N」より小さいものの、「i+4」、「i+5」、「i+6」、「i+7」の各値は「N」より大きい。この場合、whilelo命令は、「i+4」、「i+5」、「i+6」、「i+7」の各々に対応する記憶領域２２ａに「0」を格納する。これにより、「p0」のマスクレジスタ２２に格納されるpredicateベクトルは(0, 0, 0, 0, 1, 1, 1, 1)となる。そのpredicateベクトルの成分のうち値が「1」の成分はループ処理３０を実行する必要があるイテレーションに対応する。また、「0」の成分は、イテレーションがループ処理３０の総実行回数「N」よりも大きく、実行する必要のないイテレーションに対応する。また、このように「0」が格納された各記憶領域２２ａの個数は、ループ処理３０の総実行回数「N」を記憶領域２２ａの個数である8個で除したときの剰余に等しい。

マスク命令であるwhilelo命令は、このようなpredicateベクトルに基づいて、ループ処理の総実行回数「N」よりも大きく実行する必要のないイテレーションを特定する命令である。

図５は、マスクレジスタ２２のpredicateベクトルが図４（ｃ）で表される場合に可変長SIMD命令でループ処理３０を実行するときの模式図である。

図５の例では、図４（ａ）のループ処理３０における「演算」が、配列「A」と配列「B」を要素ごとに加算してその結果を配列「C」の要素に格納する可変長SIMD命令の演算である場合を想定している。

また、「z1」のベクトルレジスタ２１の各記憶領域２１ａに配列「A」の要素「A[0]」～「A[7]」が格納されており、「z2」のベクトルレジスタ２１の各記憶領域２１ａの各々に配列「B」の要素「B[0]」～「B[7]」が格納されているものとする。

なお、要素「A[0]」～「A[7]」は、ループ処理３０の各イテレーション「i」～「i+8」に相当する要素である。要素「B[0]」～「B[7]」についても同様である。同様に、要素「C[0]」～「B[3]」はイテレーション「i」～「i+3」に相当する。

この場合、可変長SIMD命令は、「p0」のマスクレジスタ２２のpredicateベクトルにおいて成分が「1」のイテレーションに対応した要素同士を演算し、その演算結果を「z3」のベクトルレジスタ２１に書き込む。一方、可変長SIMD命令は、predicateベクトルにおいて成分が「0」のイテレーションにおける演算結果を「z3」のベクトルレジスタ２１に書き込まない。

これにより、イテレーションがループ長「N」よりも小さい場合の演算結果のみが「z3」のベクトルレジスタ２１に書き込まれる。そのため、ベクトルレジスタ２１のビット長がプロセッサ１６によって異なる場合でも、イテレーションがループ長「N」以下の場合の演算結果のみをベクトルレジスタ２１に格納することができる。

このようにマスク命令を使用すると可変長SIMD命令を実行でき、ベクトルレジスタ２１の長さが異なる複数のプロセッサ１６で実行可能な単一の実行可能プログラム１３が得られる。

しかし、可変長SIMD命令を実行するにはマスク命令であるwhilelo命令のオーバーヘッドが必要となるため、固定長SIMD命令よりも実行可能プログラム１３の実行速度が低下する場合がある。

そこで、本実施形態では、コンパイラ装置１０の制御部６４が、可変長SIMD命令と固定長SIMD命令のうちで実行可能プログラム１３の実行時間が短くなる命令でループ処理を実行するコードを以下のように生成する。

図６は、本実施形態に係るコンパイラ装置１０の制御部６４が行う処理について説明するための模式図である。

まず、制御部６４は、コンパイル対象の入力ソースプログラム１２を取得する（ステップＰ１）。その入力ソースプログラム１２には、前述のループ処理３０が記述されているものとする。

次に、制御部６４は、入力ソースプログラム１２をコンパイルすることにより、第１～第３のコード３１ａ～３１ｃが記述された中間ソースプログラム３１を生成する（ステップＰ２）。制御部６４は更にこの中間ソースプログラム３１をコンパイルして実行可能プログラム１３を生成するが、その詳細についてはここでは省略する。

中間ソースプログラム３１における第１のコード３１ａは第１の実行時間t1と第２の実行時間t2とを比較するコードである。なお、第１の実行時間t1は、ループ処理３０を固定長SIMD命令で実行した場合に当該ループ処理３０を開始してから終了するまでの実行時間である。また、第２の実行時間t2は、ループ処理３０を可変長SIMD命令で実行した場合にループ処理３０を開始してから終了するまでの実行時間である。

一方、第２のコード３１ｂは、第１のコード３１ａによって第１の実行時間t1が第２の実行時間t2よりも長いことが判明した場合に、可変長SIMD命令でループ処理３０を実行するコードである。そのような可変長SIMD命令の命令セットとしては、例えばARM社のSVE(Scalable Vector Extension)がある。

そして、第３のコード３１ｃは、第１のコード３１ａによって第１の実行時間t1が第２の実行時間t2よりも長くないことが判明した場合に、固定長SIMD命令でループ処理３０を実行するコードである。そのような固定長SIMD命令の命令セットとしては、例えばARM社のNEONがある。

次に、第１の実行時間t1と第２の実行時間t2の算出方法について説明する。

まず、パラメータを以下のように定義する。
・a: ループ処理３０におけるループ長。図６の例ではa=Nとなる。
・b: マスク命令のコスト。この例ではwhilelo命令のレイテンシをbとする。
・c: ループ処理３０の内部で使用する変数のビット長。例えば、図５のように配列A、B、Cをループ処理３０の内部で使用する場合、これらの配列の要素A[i]、B[i]、C[i]のビット長がcとなる。なお、ビット長が異なる複数の変数がループ処理３０の内部に存在する場合は、複数の変数のうちでビット長が最も大きいものがcとなる。

・d: ベクトルレジスタ２１のビット長。
・e: 固定長SIMD命令のビット長。
・f: ループ処理３０を可変長SIMD命令で実行するときのループ長。可変長SIMD命令を１回実行した場合に一つのベクトルレジスタ２１で実行可能なイテレーション数はd/cであり、元々のループ長がaであるから、f = a/(d/c)となる。

・g: ループ処理３０を固定長SIMD命令で実行するときのループ長。固定長SIMD命令を１回実行した場合に一つのベクトルレジスタ２１で実行可能なイテレーション数はe/cであり、元々のループ長がaであるから、f = a/(e/c)となる。
・h: ループ処理３０を１回実行したときのコスト。以下ではこのコストをイテレーションコストと呼ぶ。ここでは、イテレーション「i」がループ長「a」よりも小さいかを判定するcmp命令のレイテンシをhとする。

以上の定義の下で、本実施形態では第１の実行時間t1と第２の実行時間t2の各々を以下の式で与える。
・t1 = g×h
・t2 = f×(b + h)

ここで、第１の実行時間t1をg×hとしたのは、元のループ処理３０と同じ実行結果を得るにはイテレーションコストがhの処理を全部でg回実行する必要があるためである。これにより、イテレーションコストhを加味したループ処理３０の第１の実行時間t1を得ることができる。

これと同様の理由により第２の実行時間t2はf×(b + h)とした。なお、第２の実行時間t2にf×bを含めたのは、１回のイテレーションごとにマスク命令を実行する必要であり、ループ長fに等しい回数だけイテレーションを行うとマスク命令のコストが全部でf×bとなるためである。このように第２の実行時間t2をf×(b + h)とすることで、イテレーションコストhとマスク命令のコストbの両方を加味したループ処理３０の第２の実行時間t2が得られる。

この中間ソースプログラム３１によれば、t2 < t1が成立する場合には可変長SIMD命令でループ処理３０を行う第２のコード３１ｂをプロセッサ１６が実行する。そのため、固定長SIMD命令でループ処理３０を実行する場合と比較して実行可能プログラム１３の高速化が図られる。

一方、t2 < t1が成立しない場合には固定長SIMD命令でループ処理３０を行う第３のコード３１ｃをプロセッサ１６が実行する。よって、この場合は可変長SIMD命令でループ処理３０を実行する場合と比較して実行可能プログラム１３の高速化が図られる。

更に、第２の実行時間t2にマスク命令のコストf×bが含まれているため、当該コストを加味しながらt2 < t1が成立するかを第１のコード３１ａが判定できる。

なお、この例では入力ソースプログラム１２と中間ソースプログラム３１のいずれもソースプログラムであるが、本実施形態はこれに限定されない。例えば、入力ソースプログラム１２に代えて、入力ソースプログラム１２と等価なアセンブリプログラム等の中間コードをコンパイラ１０の制御部６４が取得してもよい。同様に、中間ソースプログラム３１に代えて、中間ソースプログラム３１と等価なアセンブリプログラム等の中間コードを制御部６４が生成してもよい。

次に、入力ソースプログラム１２と中間ソースプログラム３１の具体例について説明する。

図７は、入力ソースプログラム１２と中間ソースプログラム３１の具体例について示す模式図である。なお、図７において図６と同じ要素には図６におけるのと同じ符号を付し、以下ではその説明を省略する。

この例では、入力ソースプログラム１２のループ処理３０は、i番目のイテレーションにおいて、配列要素「B[i]」と「C[i]」とを乗じた値を配列要素「A[i]」に代入する演算を実行する処理である。なお、配列A、B、Cの各要素はいずれもdouble型であるとする。

この入力ソースプログラム１２を取得した制御部６４は中間ソースプログラム３１を生成する。その中間ソースプログラム３１には第１～第３のコード３１ａ～３１ｃが含まれる。

このうち、第１のコード３１ａは、図６の例と同様に第１の実行時間t1が第２の実行時間t2よりも長いかを判定するコードである。

また、第２のコード３１ｂに含まれる関数func_sve()は、SVEの可変長SIMD命令でループ処理３０を実行するコードである。そして、第３のコード３１ｃに含まれる関数func_neon()は、NEONの固定長SIMD命令でループ処理を実行するコードである。

更に、制御部６４は、上記の各関数func_sve()とfunc_neon()を定義する第４のコード３１ｄと第５のコード３１ｅを中間ソースプログラム３１に生成する。

また、この例では、制御部６４は、ベクトルレジスタ２１のビット長を返す関数svcntd()が記述されたC言語のヘッダファイル３３も生成する。ヘッダファイル３３は、名前が「arm_sve.h」であって、中間ソースプログラム３１の第１行目において参照される。

次に、プロセッサ１６としてA64FXプロセッサを使用する場合の各パラメータの値について説明する。
・ループ長a = N。
・マスク命令のコストb = 4。A64FXプロセッサが実行するwhilelo命令のレイテンシが4であるためb = 4とする。

・変数のビット長c = sizeof(double)×8。ループ処理３０に含まれる配列A、B、Cの各要素はいずれもdouble型であり、double型の変数のバイト長がsizeof(double)であるから、各要素のビット長はsizeof(double)×8となる。なお、関数sizeofは引数のバイト長を返す関数である。

・ベクトルレジスタ２１のビット長d = svcnd()×sizeof(double)×8。関数svcnd()の返り値がdouble型であるため、当該返り値に「sizeof(double)」と8とを乗じた値がビット長dとなる。
・固定長SIMD命令のビット長e = 128。NEONの固定長SIMD命令のビット長が128ビットであるためe = 128となる。

・ループ処理３０を可変長SIMD命令で実行するときのループ長f = a/(d/c) = N/(svcntd()×sizeof(double)×8/sizeof(double)×8) = N/svcntd()。
・ループ処理３０を固定長SIMD命令で実行するときのループ長g = a/(e/c) = N/(128/sizeof(double)×8)。
・ループ処理を１回実行したときのコストh = 2。A64FXプロセッサが実行するcmp命令のレイテンシが2であるためh = 2とする。

各パラメータがこのように与えられる場合、第１の実行時間t1と第２の実行時間t2はそれぞれ次のようになる。
・t1 = g×h = N/(128/sizeof(double)×8)×2
・t2 = f×(b + h) = N/svcntd()×(4+2)

これにより、プロセッサ１６は、t1 > t2が成立する場合には第２のコード３１ｂのfunc_sve()を実行し、t1 > t2が成立しない場合には第３のコード３１ｃのfunc_neon()を実行することになる。

次に、本実施形態に係るコンパイラ装置１０の機能構成について説明する。
図８は、本実施形態に係るコンパイラ装置１０の機能構成図である。図８に示すように、コンパイラ装置１０は、通信部６１、入力部６２、表示部６３、制御部６４、及び記憶部６５を備える。

通信部６１は、コンパイラ装置１０をインターネットやLAN(Local Area Network)等のネットワークに接続するための処理部である。また、入力部６２は、ユーザがコンパイラ装置１０に各種のデータを入力するための処理部である。

表示部６３は、コンパイル結果やコンパイル時に発生したエラー等を表示する処理部である。また、記憶部６５は、入力ソースプログラム１２、実行可能プログラム１３、及び中間ソースプログラム３１の各々を記憶する。

制御部６４は、コンパイラ装置１０の各部を制御する処理部である。一例として、制御部６４は、取得部７１、コールグラフ生成部７２、制御フローグラフ生成部７３、中間ソースプログラム生成部７４、機械語生成部７５、及び出力部７６を備える。

このうち、取得部７１は、通信部６１を介してコンパイル対象の入力ソースプログラム１２を取得し、それを記憶部６５に格納する。

また、コールグラフ生成部７２は、入力ソースプログラム１２に記述されている呼び出し元の関数と呼び出し先の関数とを特定することにより、これらの関数をノードとするコールグラフを生成する処理部である。

図９（ａ）は入力ソースプログラム１２の模式図であり、図９（ｂ）はこの入力ソースプログラム１２からコールグラフ生成部７２が生成したコールグラフ８１の模式図である。

図９（ａ）に示すように、入力ソースプログラム１２には、関数main()、関数func1()、関数func2()、及び関数func3()が記述されているとする。また、ここでは関数main()が関数func1()と関数func2()を呼び出しており、更に関数func1()と関数func2()のそれぞれが関数func3()を呼び出しているものとする。

この場合、コールグラフ生成部７２は、図９（ｂ）のコールグラフ８１を生成する。

図９（ｂ）に示すように、コールグラフ８１は、入力ソースプログラム１２に記述されている関数をノード８１ａとする関数である。また、コールグラフ８１は有効グラフであって、呼び出し元の関数から呼び出し先の関数に向かう方向がエッジの向きとなる。

再び図８を参照する。制御フローグラフ生成部７３は、コールグラフ８１の各ノード８１ａに対応した関数の制御フローグラフを生成する処理部である。

図１０（ａ）は、制御フローグラフの元となる関数func1()が記述された入力ソースプログラム１２の模式図である。

図１０（ａ）に示すように、関数func1()にはfor文によるループ処理３０が記述されているものとする。

一方、図１０（ｂ）は、図１０（ａ）の入力ソースプログラム１２に基づいて制御フローグラフ生成部７３が生成した関数func1()の制御フローグラフ８２の模式図である。

図１０（ｂ）に示すように、制御フローグラフ８２は、関数func1()の基本ブロックをノード８２ａとするグラフである。なお、基本ブロックは、内部に分岐を含まない逐次的コード列を指す。

各ノード８２ａに付された「entry:」等のコロン付きの文字列は、各ノード８２ａを識別するために制御フローグラフ８２が生成したラベルである。例えば、「for.cond:」は、ループ処理３０においてイテレーション「i」がループ長「N」よりも小さいかを判定する基本ブロックのラベルである。

また、制御フローグラフ８２は有向グラフであって、エッジの向きはプログラムの流れを示す。

再び図８を参照する。中間ソースプログラム生成部７４は、図６や図７に示した方法に従って、入力ソースプログラム１２から中間ソースプログラム３１を生成し、それを記憶部６５に格納する処理部である。

また、機械語生成部７５は、中間ソースプログラム３１から実行可能プログラム１３を生成し、それを記憶部６５に格納する処理部である。

一例として、機械語生成部７５は、中間ソースプログラム３１に対して字句解析、構文解析、及び意味解析をすることにより中間コードを生成し、その中間コードから実行可能プログラム１３を生成する。

出力部７６は、記憶部６５に格納されている実行可能プログラム１３を通信部６１を介してコンパイラ装置１０の外部に出力する処理部である。

次に、本実施形態に係るコンパイル方法について説明する。
図１１は、本実施形態に係るコンパイル方法のフローチャートである。まず、取得部７１が入力ソースプログラム１２を取得する（ステップＳ１１）。次いで、この入力ソースプログラム１２に基づいてコールグラフ生成部７２が図９（ｂ）のコールグラフ８１を生成する（ステップＳ１２）。

更に、制御フローグラフ生成部７３が、入力ソースプログラム１２に基づいて図１０（ｂ）の制御フローグラフ８２を生成する（ステップＳ１３）。

次に、中間ソースプログラム生成部７４が、コールグラフ８１に含まれる複数のノード８１ａのうちの一つを選択する（ステップＳ１４）。この例では、ステップＳ１４を最初に実行する場合は、中間ソースプログラム生成部７４はコールグラフ８１のリーフノードを選択する。

次に、中間ソースプログラム生成部７４が、選択したノード８１ａに対応した制御フローグラフ８２に「for.cond:」で識別されるループ処理３０がある場合に、そのループ処理３０がSIMD化可能かを判定する（ステップＳ１５）。SIMD化は、ループ処理を固定長SIMD命令や可変長SIMD命令で実行することを言う。

例えば、イテレーション「i」の結果をイテレーション「j」(i≠j)で使用する伝搬依存がループ処理３０にあると、一つのベクトルレジスタ２１を利用して同時に複数のイテレーションを実行できない。また、そもそもループ処理３０に含まれる演算がスカラ演算である場合にはSIMD化による並列実行の効果が少ない。よって、中間ソースプログラム生成部７４は、ループ処理３０に伝搬依存やスカラ演算が含まれている場合にSIMD化できないと判定し、そうでない場合にはSIMD化できると判定する。

ステップＳ１５の判定が否定された場合にはステップＳ１４に戻り、中間ソースプログラム生成部７４がコールグラフ８１において未選択のノード８１ａを選択する。なお、各ノード８１ａを選択していく順序は特に限定されない。この例では、中間ソースプログラム生成部７４は、リーフノードから順に深さが浅くなる方向に各ノード８１ａを選択していく。

一方、ステップＳ１５の判定が肯定された場合にはステップＳ１６に移る。ステップＳ１６においては、中間ソースプログラム生成部７４が、ステップＳ１４で選択したノード８１ａに含まれるループ処理３０を変形する。

例えば、中間ソースプログラム生成部７４は、図６や図７に示した方法に従うことにより、ループ処理３０から第１～第３のコード３１ａ～３１ｃを生成する。前述のように、第１のコード３１ａは、第１の実行時間t1と第２の実行時間t2とを比較するコードである。そして、第２のコード３１ｂは可変長SIMD命令でループ処理３０を実行するコードであり、第３のコード３１ｃは固定長SIMD命令でループ処理３０を実行するコードである。

次に、中間ソースプログラム生成部７４が、コールグラフ８１の全てのノード８１ａを選択したかを判定する（ステップＳ１７）。この判定が否定された場合にはステップＳ１４に戻る。一方、ステップＳ１７の判定が肯定された場合にはステップＳ１８に移る。

ステップＳ１８においては、中間ソースプログラム生成部７４が、ノード８１ａごとに生成した第１～第３のコード３１ａ～３１ｃを含む中間ソースプログラム３１を生成し、それを記憶部６５に格納する。

なお、図７に示したように、中間ソースプログラム生成部７４が、ベクトルレジスタ２１のビット長を返す関数svcntd()が記述されたC言語のヘッダファイル３３を生成してもよい。これに代えて、中間ソースプログラム生成部７４が、関数svcntd()を中間ソースプログラム３１に記述してもよい。

次いで、機械語生成部７５が、中間ソースプログラム３１から実行可能プログラム１３を生成し、それを記憶部６５に格納する（ステップＳ１９）。その後に、出力部７６が実行可能プログラム１３を出力する（ステップＳ２０）。

以上により、本実施形態に係るコンパイル方法の基本的な処理を終える。

上記した本実施形態によれば、ステップＳ１８において、中間ソースプログラム生成部７４が、第１～第３のコード３１ａ～３１ｃを含む中間ソースプログラム３１を生成する。その第１のコード３１ａにおいてt2 < t1が成立すると判定された場合には、可変長SIMD命令でループ処理３０を行う第２のコード３１ｂをプロセッサ１６が実行する。その結果、固定長SIMD命令でループ処理３０を実行する場合と比較して実行可能プログラム１３の高速化が図られる。

一方、t2 < t1が成立しない場合には固定長SIMD命令でループ処理３０を行う第３のコード３１ｃをプロセッサ１６が実行するため、可変長SIMD命令でループ処理３０を実行する場合よりも実行可能プログラム１３の高速化が図られる。

（ハードウェア構成）
次に、本実施形態に係るコンパイラ装置１０のハードウェア構成について説明する。

図１２は、本実施形態に係るコンパイラ装置１０のハードウェア構成図である。

コンパイラ装置１０は、仮想マシンや物理マシン等のコンピュータであって、記憶装置１０ａ、メモリ１０ｂ、プロセッサ１０ｃ、通信インターフェース１０ｄ、入力装置１０ｅ、表示装置１０ｆ、及び媒体読取装置１０ｇを備える。これらの各部は、バス１０ｉにより相互に接続される。

このうち、記憶装置１０ａは、HDD(Hard Disk Drive)やSSD(Solid State Drive)等の不揮発性のストレージであって、本実施形態に係るコンパイラ１１を記憶する。

なお、コンパイラ１１をコンピュータが読み取り可能な記録媒体１０ｈに記録し、媒体読取装置１０ｇを介してプロセッサ１０ｃにそのコンパイラ１１を読み取らせるようにしてもよい。

そのような記録媒体１０ｈとしては、例えばCD-ROM (Compact Disc - Read Only Memory)、DVD (Digital Versatile Disc)、及びUSB (Universal Serial Bus)メモリ等の物理的な可搬型記録媒体がある。また、フラッシュメモリ等の半導体メモリやハードディスクドライブを記録媒体１０ｈとして使用してもよい。これらの記録媒体１０ｈは、物理的な形態を持たない搬送波のような一時的な媒体ではない。

更に、公衆回線、インターネット、及びLAN(Local Area Network)等に接続された装置にコンパイラ１１を記憶させてもよい。その場合は、プロセッサ１０ｃがそのコンパイラ１１を読み出して実行すればよい。

一方、メモリ１０ｂは、DRAM(Dynamic Random Access Memory)等のようにデータを一時的に記憶するハードウェアである。

プロセッサ１０ｃは、コンパイラ装置１０の各部を制御するCPU(Central Processing Unit)やGPU(Graphical Processing Unit)である。また、プロセッサ１０ｃは、メモリ１０ｂと協働してコンパイラ１１を実行する。

このようにプロセッサ１０ｃとメモリ１０ｂとが協働してコンパイラ１１を実行することにより、図１０の制御部６４の機能が実現される。その制御部６４には、取得部７１、コールグラフ生成部７２、制御フローグラフ生成部７３、中間ソースプログラム生成部７４、機械語生成部７５、及び出力部７６が含まれる。

更に、通信インターフェース１０ｄは、コンパイラ装置１０をインターネットやLAN等のネットワークに接続するためのNIC(Network Interface Card)等のハードウェアである。その通信インターフェース１０ｄにより通信部６１（図８参照）が実現される。

入力装置１０ｅは入力部６２（図８参照）を実現するためのハードウェアである。一例として、入力装置１０ｅは、ユーザがコンパイラ装置１０に各種のデータを入力するためのマウスやキーボード等である。

また、表示装置１０ｆは、コンパイル結果やコンパイル時に発生したエラー等を表示する液晶ディスプレイ等のハードウェアである。その表示装置１０ｆによって図８の表示部６３が実現される。

媒体読取装置１０ｇは、記録媒体１０ｈを読み取るためのCDドライブ、DVDドライブ、及びUSBインターフェース等のハードウェアである。

１０…コンパイラ装置、１１…コンパイラ、１２…入力ソースプログラム、１３…実行可能プログラム、１５…ターゲットマシン、１６…プロセッサ、１７…メモリ、１８…レジスタファイル、２１…ベクトルレジスタ、２１ａ…記憶領域、２２…マスクレジスタ、２２ａ…記憶領域、２３…スカラレジスタ、３０…ループ処理、３１…中間ソースプログラム、３１ａ～３１ｅ…第１～第５のコード、３３…ヘッダファイル、６１…通信部、６２…入力部、６３…表示部、６４…制御部、６５…記憶部、７１…取得部、７２…コールグラフ生成部、７３…制御フローグラフ生成部、７４…中間ソースプログラム生成部、７５…機械語生成部、７６…出力部、８１…コールグラフ、８１ａ…ノード、８２…制御フローグラフ、８２ａ…ノード。

Claims

ループ処理を固定長SIMD(Single Instruction Multiple Data)命令で実行した場合に前記ループ処理を開始してから終了するまでの第１の実行時間と、前記ループ処理を可変長SIMD命令で実行した場合に前記ループ処理を開始してから終了するまでの第２の実行時間とを比較する第１のコードと、
前記比較によって前記第１の実行時間が前記第２の実行時間よりも長いことが判明した場合に、前記可変長SIMD命令で前記ループ処理を実行する第２のコードと、
を含むプログラムを生成する処理をコンピュータに実行させるためのコンパイラ。
前記コンピュータに、
前記比較によって前記第１の実行時間が前記第２の実行時間よりも長くないことが判明した場合に、前記固定長SIMD命令で前記ループ処理を実行する第３のコードを前記プログラムに生成する処理を実行させるための請求項１に記載のコンパイラ。
前記可変長SIMD命令は、レジスタが備える複数の記憶領域に格納された各々の要素に対して、前記ループ処理の各々の実行回の演算を行う命令であり、
前記第２の実行時間には、前記ループ処理の総実行回数よりも大きい前記実行回に対応する前記記憶領域を特定するマスク命令のコストが含まれることを特徴とする請求項１に記載のコンパイラ。
前記マスク命令のコストは、前記マスク命令のレイテンシであることを特徴とする請求項３に記載のコンパイラ。
前記第２の実行時間は、前記可変長SIMD命令で前記ループ処理を実行した場合の当該ループ処理の総実行回数に、前記ループ処理の実行回が前記総実行回数よりも小さいかを判定する命令のレイテンシと前記マスク命令のレイテンシとの和を乗じた値であることを特徴とする請求項４に記載のコンパイラ。
前記第１の実行時間は、前記固定長SIMD命令で前記ループ処理を実行した場合の当該ループ処理の総実行回数と、前記ループ処理の実行回が前記総実行回数よりも小さいかを判定する命令のレイテンシとの積であることを特徴とする請求項１に記載のコンパイラ。
コンピュータが、
ループ処理を固定長SIMD命令で実行した場合に前記ループ処理を開始してから終了するまでの第１の実行時間と、前記ループ処理を可変長SIMD命令で実行した場合に前記ループ処理を開始してから終了するまでの第２の実行時間とを比較する第１のコードと、
前記比較によって前記第１の実行時間が前記第２の実行時間よりも長いことが判明した場合に、前記可変長SIMD命令で前記ループ処理を実行する第２のコードと、
を含むプログラムを生成する処理を実行することを特徴とするコンパイル方法。