JP7339537B2

JP7339537B2 - 情報処理装置、情報処理プログラム、及び情報処理方法

Info

Publication number: JP7339537B2
Application number: JP2020002837A
Authority: JP
Inventors: 正樹新井
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-01-10
Filing date: 2020-01-10
Publication date: 2023-09-06
Anticipated expiration: 2040-01-10
Also published as: JP2021111136A

Description

本発明は、情報処理装置、情報処理プログラム、及び情報処理方法に関する。

コンパイラが行う最適化技術の一つにループ分割がある。ループ分割は、アプリケーションプログラムに含まれるループを複数個に分割することにより、一つのループに含まれる文の個数を減らす技術である。これにより、例えば分割後のループの実行時に発生するキャッシュミスを抑制でき、アプリケーションプログラムを高速に実行できる。

但し、一つのループを複数個に分割する方法は多数あり、それらのうちで最適な分割方法を限られた時間内で精度よく求めるのは容易ではない。

国際公開ＷＯ２０１８／０６６０７４号公報特開２０１５－１４１５４３号公報特開２０１２－１３３４４９号公報

中田育男、コンパイラの構成と最適化（第２版）、朝倉書店、２００９年、Ｐ４６６～Ｐ４６８

一側面によれば、限られた時間内にループ分割を精度よく行うことを目的とする。

一側面によれば、第１のループを分割して得られる複数の第２のループの各々に含まれる命令の参照先の個数がハードウェア数を超えない条件の下で、前記第１のループを複数の前記第２のループに分割する整数線形計画法の問題を解くのに要する時間と、前記第１のループの命令数との関係を取得する取得部と、前記第１のループの前記命令数であって、第１の時間内に前記問題を解くことが可能な第１の命令数を算出する算出部と、入力ループを分割することにより、前記第１の命令数よりも少ない第２の命令数の前記第１のループを複数生成する第１の分割部と、前記関係から前記第２の命令数に対応する第２の時間を求め、前記第２の時間をかけて前記問題を解くことにより、前記第１のループを複数の前記第２のループに分割する第２の分割部とを有する情報処理装置が提供される。

一側面によれば、限られた時間内にループ分割を精度よく行うことができる。

図１は、本願発明者が検討したループ分割について模式的に説明するための図である。図２は、本実施形態に係るターゲットマシンのハードウェア構成図である。図３は、本実施形態におけるループ分割の方法を模式的に示す図である。図４は、近似モデルと詳細モデルを利用したときにループ分割に要する時間について説明するための模式図である。図５は、本実施形態に係る情報処理装置のハードウェア構成図である。図６は、本実施形態に係る情報処理装置の機能構成図である。図７は、本実施形態に係るパラメータの決定方法を示すフローチャートである。図８は、本実施形態に係る情報処理方法を示すフローチャートである。

本実施形態の説明に先立ち、本願発明者が検討した事項について説明する。

図１は、本願発明者が検討したループ分割について模式的に説明するための図である。

図１の例では、アプリケーションプログラム１に含まれるループ１ａを複数のループ１ｂに分割することにより出力プログラム２を生成した場合を想定している。アプリケーションプログラム１は、HPC(High Performance Computing)用のプログラムであって、ループ１ａには数百～数千の命令が記述されているものとする。

このように一つのループ１ａに多数の命令が記述されていると、それらの命令が参照するレジスタの個数が、CPU(Central Processing Unit)のレジスタの個数を超えることがある。同様に、ループ１ａ内の命令が参照するメモリストリームの個数がハードウェアで規定された個数を超えることがある。

この場合には、分割後のループ１ｂに含まれる命令が参照するレジスタやメモリストリームの個数がハードウェアで規定される個数を超えないという制約条件の下でループ分割を行えばよい。

但し、この制約条件のみを満たすようにループ分割を行うと、命令数が最小のループ１ｂが多量に生成されることになる。これでは、多量のループ１ｂを実行するためのオーバヘッドが増大してしまい、プログラムの実行速度がかえって低下してしまう。更に、多量のループ１ｂが存在すると、後続のソフトウェアパイプライニングを適用するのが難しくなるという問題も発生する。

そこで、レジスタやメモリストリームの個数がハードウェアで規定される個数を超えないという制約条件を満たしつつ、更に分割後のループの個数を表す目的関数を最小にするのが好ましい。

また、ループの個数を表す目的関数だけでなく、プログラムの実行速度を向上させるのに有用な様々な目的関数が極値をとるようにループ分割を実行するのが好ましい。そのような目的関数としては、例えば、レジスタとメインメモリとの間で発生するスピルの回数等がある。

このように、ループ分割は、レジスタやメモリストリームの個数に対する制約条件を満たしつつ、目的関数の極値を求める問題に帰着される。このような問題は整数線型計画法と呼ばれる。整数線型計画法はNP困難であることが知られており、解を求めるのに要する時間は、問題の複雑さに対して指数関数的に増加してしまう。

そのため、図１のように膨大な命令を含むループ１ａを限られた時間でループ１ｂに分割するのは困難である。
以下に、本実施形態について説明する。

（本実施形態）
まず、アプリケーションプログラムを実行するターゲットマシンについて説明する。

図２は、本実施形態に係るターゲットマシン１０のハードウェア構成図である。

ターゲットマシン１０は、HPC用の並列計算機やPC(Personal Computer)であって、プロセッサ１１とメインメモリ１２とを有する。

プロセッサ１１は、各種の計算を行うハードウェアであって、計算コア１３とキャッシュメモリ１５とを有する。

このうち、計算コア１３は、算術演算や論理演算を行うALU(Arithmetic Logic Unit)、レジスタファイル１４、及び記憶部１６を備えた回路素子である。レジスタファイル１４は、計算コア１３が使用するデータを格納した複数のレジスタ１４ａを有する。これらのレジスタ１４ａの総数を以下ではレジスタ数H_Rと呼ぶ。

そして、記憶部１６は、ハードウェアプリフェッチを実行するためのハードウェアである。ハードウェアプリフェッチは、メモリアクセスのパターンを監視し、連続的に参照されるメモリストリームを検出して自動的にプリフェッチを行う機構である。

その記憶部１６には複数のブロック１６ａが設けられる。各ブロック１６ａは、キャッシュメモリ１５に転送されるデータのアドレスやアクセスの規則性を保持するために割り当てられる記憶領域の単位である。以下ではブロック１６ａの個数のことをメモリストリーム数H_Sと呼ぶ。

また、キャッシュメモリ１５は、計算コア１３で使用するデータを保持するSRAM(Static Random Access Memory)等のメモリである。

一方、メインメモリ１２は、計算コア１３で実行するアプリケーションプログラム１７を記憶したDRAM(Dynamic Random Access Memory)等のハードウェアである。

アプリケーションプログラム１７は、例えばC言語やFortranで記述されたHPC用のソースプログラムであり、数百～数千の命令を含む入力ループ１７ａを有する。このように大規模な入力ループ１７ａにおいては、ループの実行時に参照するレジスタやメモリストリームの個数がレジスタ数H_Rやメモリストリーム数H_Sを超えてしまい、アプリケーションプログラム１７の実行速度が低下する。

そこで、本実施形態では以下のように入力ループ１７ａを分割し、アプリケーションプログラム１７の実行速度を速める。

[ループ分割の方法]
図３は、本実施形態におけるループ分割の方法を模式的に示す図である。

この例では、まず、入力ループ１７ａが記述されたアプリケーションプログラム１７の入力を受け付ける。そして、近似モデルを利用して入力ループ１７ａを複数の第１のループ１７ｂに分割し、その後に詳細モデルを利用して第１のループ１７ｂを複数の第２のループ１７ｃに分割する。

なお、アプリケーションプログラム１７がC言語のソースプログラムである場合には、for文やwhile文によるループ処理により入力ループ１７ａを実現できる。第１のループ１７ｂと第２のループ１７ｃについても同様である。

近似モデルは、入力ループ１７ａに含まれる複数の命令を半分に分けることによりループ分割を行うモデルである。その近似モデルでは、レジスタ数H_Rやメモリストリーム数H_S等のようにハードウェアで規定される制約条件を用いずに大雑把にループ分割が行われる。

その近似モデルを複数回繰り返して適用することにより、第１のループ１７ｂの命令数が半分ずつ減っていく。

一方、詳細モデルは、レジスタ数H_Rやメモリストリーム数H_S等のハードウェアから規定される制約条件を考慮しながら、第１のループ１７ｂを複数の第２のループ１７ｃに分割するモデルである。近似モデルとは異なり、詳細モデルでは、分割後のループの個数は２個とは限らず、３個以上のループが生成される場合もある。

本実施形態では、近似モデルで入力ループ１７ａを分割するとき、分割後のループに含まれる命令数を任意とはせずに、一回の分割で命令数が半分になるようにする。これにより複数の第１のループ１７ｂの各々が同程度の命令数となるため、第１のループ１７ｂを第２のループ１７ｃに分割するのに要する時間が第１のループ１７ｂごとに大きくばらつくのを抑制できる。

近似モデルと詳細モデルは、いずれも整数線型計画法でループ分割を行うモデルである。
次に、近似モデルと詳細モデルの各々について詳しく説明する。

＜近似モデルと詳細モデルの共通事項＞
ループ内に含まれる命令の各々を以下の式（１）のようにiで表す。

式（１）において、N_Iは、ループに含まれる命令の総数である。

iとjをIに属する二つの命令とする。命令jが命令iにデータ依存する場合には、命令iの後に命令jを配置する必要がある。なお、データ依存には、レジスタ１４ａによる依存とメモリ参照による依存の二種類がある。

また、r番目のレジスタ１４ａにアクセスする命令の集合をTOUCH(r)とする。

更に、同じループ内に命令iと命令jを配置した場合のキャッシュ利用率の増加値をG_i,jとする。なお、キャッシュ利用率は、キャッシュメモリ１５を有効に利用できているかどうかを表す指標である。例えば、キャッシュヒット率をキャッシュ利用率として採用し得る。

また、増加値G_i,jは、ループ内に命令iと命令jが配置されていない場合を基準としたときのキャッシュ利用率の増加値である。増加値G_i,jが正の大きい値であるほど、命令iと命令jを同じループに配置することでキャッシュ利用値が高まり、ループ分割後のプログラムの実行速度が向上する。また、増加値G_i,jが負の値である場合には、命令iと命令jとを別々のループに配置することによりプログラムの実行速度が向上する可能性が高まる。

＜近似モデル＞
前述のように、近似モデルは、入力ループ１７ａを二つの第１のループ１７ｂに分割するモデルである。

その近似モデルでは、以下の（Ａ）～（Ｅ）の観点から目的関数や制約条件が決定される。

（Ａ）分割後の二つの第１のループ１７ｂの両方が参照するレジスタの個数についての目的関数

分割後の二つの第１のループ１７ｂが同一のレジスタ１４ａを参照する場合には、一方の第１のループ１７ｂの終了時にレジスタ１４ａからメインメモリ１２にデータがスピルアウトされる。そして、他方の第１のループ１７ｂの開始時にそのデータがメインメモリ１２からレジスタ１４ａにスピルインされる。このようにスピルが頻繁に発生するとプログラムの実行速度が低下してしまう。

そこで、近似モデルでは、分割後の二つの第１のループ１７ｂが共通に参照するレジスタ１４ａの個数が最小となるようにループ分割を行う。

まず、近似モデルで分割された二つの第１のループ１７ｂのうち、命令iが属するループの番号を表す変数D_iを以下の式（２）で定義する。

式（２）に示すように、変数D_iは、0と1のいずれかの値をとる整数である。以下では、D_i=0の第１のループ１７ｂを先に実行し、その後にD_i=1の第１のループ１７ｂを実行するものとする。このとき、データの依存関係によって命令iの後に命令jを実行しなければいけないという制約は、次の式（３）のように表現できる。

また、分割された二つの第１のループ１７ｂに含まれる命令のうち、r番目のレジスタ１４ａを参照する命令の個数をR=|TOUCH(r)|とする。R=1の場合には、r番目のレジスタ１４ａを参照する命令が二つの第１のループ１７ｂのいずれか一方のみに存在するため、二つの第１のループ１７ｂが共通に参照するレジスタ１４ａは存在しない。そこで、以下ではR>1とする。

二つの第１のループ１７ｂの両方がr番目のレジスタ１４ａを参照することがないのは以下の（ａ）、（ｂ）の場合のみである。

（ａ）D_i=1の第１のループ１７ｂ内でr番目のレジスタ１４ａを参照する命令がR個存在する場合。

この場合は、D_i=0の第１のループ１７ｂ内でr番目のレジスタ１４ａを参照する命令は存在しない。

（ｂ）D_i=1の第１のループ１７ｂ内でr番目のレジスタ１４ａを参照する命令が0個存在する場合。

この場合は、r番目のレジスタ１４ａを参照する全ての命令がD_i=0の第１のループ１７ｂ内に存在することになる。

D_i=1の第１のループ１７ｂ内でr番目のレジスタ１４ａを参照する命令の個数Xは次の式（４）のように表現することができる。

よって、二つの第１のループ１７ｂの両方がr番目のレジスタ１４ａを参照するという条件は、次の式（５）のように表現できる。

二つの第１のループ１７ｂの両方がr番目のレジスタ１４ａを参照するかどうかを表す変数を次の式（６）で定義する。

なお、C_r=0は、二つの第１のループ１７ｂがr番目のレジスタ１４ａを参照していないことを表す。そして、C_r=1は、二つの第１のループ１７ｂがr番目のレジスタ１４ａを参照していることを表す。
この場合、次の式（７）が成立する。

そして、二つの第１のループ１７ｂのそれぞれが参照しているレジスタ１４ａの総数S_0,1は、次の式（８）で定義することができる。

よって、前述のように分割後の二つの第１のループ１７ｂの両方が参照するレジスタ１４ａの個数を最小とする目的関数は、次の式（９）のように表すことができる。

（Ｂ）分割後の二つの第１のループ１７ｂの両方が参照するメモリストリーム数についての目的関数

配列は、その要素のアドレスが連続しているためメインメモリ１２においてメモリストリームとなる。同一の配列が分割前の一つのループの異なる文に含まれている場合には、一方の文の実行時にレジスタ１４ａに格納されたメモリストリームを他方の文が参照することができる。

これに対し、分割後の二つの第１のループ１７ｂの各々に同一の配列が記述されていると、二つの第１のループ１７ｂで二つのメモリストリームを消費することになる。そのため、メインメモリ１２からレジスタ１４ａにメモリストリームを再ロードする場合が生じ、メモリストリームの使用量が増え、ハードウェアが扱うことのできるメモリストリーム数を超過する可能性が高くなる。例えば、二つの第１のループ１７ｂの一方の実行を終了して他方を開始するときにそのようなメモリストリームの再ロードが発生する。また、キャッシュメモリ１５の利用率が低下するため性能が低下する可能性が高まる。

そこで、近似モデルでは、分割後の二つの第１のループ１７ｂの両方が参照するメモリストリームの個数が最小となるようにループ分割を行う。

まず、分割した二つの第１のループ１７ｂに含まれる命令のうち、メモリストリームaを参照する命令の個数をA=|ACCESS(a)|とする。A=1の場合には、メモリストリームaを参照する命令が二つの第１のループ１７ｂのいずれか一方のみに存在するため、第１のループ１７ｂが共通に参照するメモリストリームは存在しない。そこで、以下ではA>1とする。

二つの第１のループ１７ｂの両方が同一のメモリストリームaを参照することがないのは以下の（ａ）、（ｂ）の場合のみである。

（ａ）D_i=1の第１のループ１７ｂ内でメモリストリームaを参照する命令がA個存在する場合。

この場合は、D_i=0の第１のループ１７ｂ内でメモリストリームaを参照する命令は存在しない。

（ｂ）D_i=1の第１のループ１７ｂ内でメモリストリームaを参照する命令が0個存在する場合。

この場合は、メモリストリームaを参照する全ての命令がD_i=0の第１のループ１７ｂ内に存在することになる。

D_i=1の第１のループ１７ｂ内でメモリストリームaを参照する命令の個数Xは次の式（１０）のように表現することができる。

よって、二つの第１のループ１７ｂの両方が同一のメモリストリームaを参照するという条件は、次の式（１１）のように表現できる。

二つの第１のループ１７ｂの両方が同一のメモリストリームaを参照するかどうかを表す変数を次の式（１２）で定義する。

なお、T_a=0は、二つの第１のループ１７ｂの両方が同一のメモリストリームaを参照していないことを表す。そして、T_a=1は、二つの第１のループ１７ｂの両方が同一のメモリストリームaを参照していることを表す。
この場合、次の式（１３）が成立する。

そして、二つの第１のループ１７ｂの両方が参照しているメモリストリームの総数S_0,2は、次の式（１４）で定義することができる。

よって、前述のように分割後の二つのループの両方が参照するメモリストリームの個数を最小とする目的関数は、次の式（１５）のように表すことができる。

（Ｃ）分割後の二つの第１のループ１７ｂを合わせた全体のキャッシュ利用率

前述のように、同じループ内に命令iと命令jを配置した場合のキャッシュ利用率の増加値G_i,jが大きいほどプログラムの実行速度が速くなる。そのため、近似モデルでは、分割後の二つの第１のループ１７ｂを合わせた全体のキャッシュ利用率が最大となるようにループ分割を行う。

まず、d番目の第１のループ１７ｂに命令iと命令jが存在することを表す変数P_i,j,dを以下の式（１６）のように定義する。

P_i,j,d=1は、d番目の第１のループ１７ｂ内に命令iと命令jの両方が存在することを表す。また、P_i,j,d=0は、命令iと命令jのいずれか一方又は両方が第１のループ１７ｂ内に存在しないことを表す。
このとき、次の式（１７）が成り立つ。

また、d番目の第１のループ１７ｂにおけるキャッシュ利用率の増加値は次の式（１８）のように表される。

更に、二つの第１のループ１７ｂのキャッシュ利用率の増加値S_0,3を以下の式（１９）のように定義する。

これによれば、分割後の二つの第１のループ１７ｂを合わせた全体のキャッシュ利用率を最大化するための目的関数は次の式（２０）のように表すことができる。

（Ｄ）分割後の二つのループの各々の命令数
近似モデルでは、分割後の二つの第１のループ１７ｂの各々の命令数を同程度とする。そこで、次の式（２１）の制約条件を導入する。

なお、Mは、一つの第１のループ１７ｂに許容される命令数の範囲を定めるための整数である。例えば、N_Iが偶数でM=0の場合には、二つの第１のループ１７ｂの命令数は同じになる。また、N_Iが偶数でM=1の場合には、D_i=1の第１のループ１７ｂの命令数は、D_i=0の第１のループ１７ｂの命令数の±１まで許容される。

（Ｅ）近似モデル全体の目的関数
上記した式（９）、（１５）、（２０）により、近似モデルにおける目的関数は次の式（２２）のように表すことができる。

なお、W_0,1とW_0,2は、それぞれ目的関数に対するS_0,1とS_0,2の影響度を定義するための重み付け変数である。例えば、ループ分割においてS_0,1の重要度を最も高くし、S_0,2、S_0,3の順に重要度を低くした場合には、このような重要度の相違が式（２２）に反映されるようにW_0,1とW_0,2とを決定するのが好ましい。

また、この例では、式（２２）のようにS_0,1、S_0,2、S_0,3の全てを考慮した目的関数を利用したが、これらのいずれかが極値をとるような目的関数を採用してもよい。

以上のように、近似モデルでは、式（２１）の制約条件の下で、式（２２）のように目的関数を最小化する整数線形計画法に帰着される。そして、その整数線形計画法で求めるべき解は、各命令iに付される整数値の変数D_iである。D_i=0の場合には命令iが0番目のループに属し、D_i=1の場合には命令iが1番目のループに属することになる。よって、整数線形計画法で変数D_iの値を求めるということは、式（２２）の目的関数が最小となるように、複数の命令の各々を二つの第１のループ１７ｂのいずれかに分けるということである。

＜詳細モデル＞
詳細モデルでは、複数の第２のループ１７ｃの各々の参照先の個数がメモリストリーム数H_Sやレジスタ数H_Rを超えないように、第１のループ１７ｂを複数の第２のループ１７ｃに分割する。このループ分割は、分割前の第１のループ１７ｂに属する複数の命令の各々を、分割後の複数の第２のループ１７ｃのどれに割り当てるのかという問題を解くことにより実現される。

そこで、第２のループ１７ｃへの命令の割り当てを表現する方法について説明する。

まず、分割後の第２のループ１７ｃの各々を識別する番号として整数値の変数dを導入する。なお、1≦d≦Z_Dである。Z_D(>0)はループ分割で得られる第２のループ１７ｃの最大個数であり、第２のループ１７ｃの個数がZ_Dよりも多くなるような分割は行わないものとする。更に、ループ分割によって実際に得られた第２のループ１７ｃの個数をN_D(≦Z_D)とする。

そして、分割前の第１のループ１７ｂに配置されていた各命令iについて、命令iがd番目の第２のループ１７ｃに存在するかどうかを表す変数D_i,dを次の式（２３）のように定義する。

ここで、D_i,d=0は、d番目の第２のループ１７ｃに命令iが存在しないことを表す。そして、D_i,d=1は、d番目の第２のループ１７ｃに命令iが存在することを表す。

また、命令iが属する第２のループ１７ｃの番号を表す関数をD(i)とすると、D(i)は次の式（２４）のように定義することができる。

また、データ依存関係によって、命令iの後に命令jを実行しなければならないという条件は次の式（２５）のように表すことができる。

そして、分割後の複数の第２のループ１７ｃのいずれか一つのみに命令iが存在するという条件は、次の式（２６）のように表すことができる。

次に、詳細モデルにおける目的関数と制約条件について説明する。目的関数と制約条件は、次の（Ｆ）～（Ｍ）の観点から決定される。

（Ｆ）全ての第２のループ１７ｃが参照するレジスタ１４ａの総数についての目的関数

全ての第２のループ１７ｃが参照するレジスタ１４ａの総数が多いと、異なる第２のループ１７ｃが同一のレジスタ１４ａを参照する可能性が高まり、スピルインやスピルアウトによってプログラムの実行速度が低下する。そのため、詳細モデルにおいては、以下のように全ての第２のループ１７ｃが参照するレジスタ１４ａの総数を最小にする。

まず、d番目の第２のループ１７ｃ内においてr番目のレジスタ１４ａを参照する命令が存在するかどうかを表す変数C_r,dを次の式（２７）のように定義する。

ここで、C_r,d=0は、d番目の第２のループ１７ｃ内においてr番目のレジスタ１４ａを参照する命令が存在しないことを表す。一方、C_r,d=1は、d番目の第２のループ１７ｃ内においてr番目のレジスタ１４ａを参照する命令が存在することを表す。
この変数C_r,dについて、次の式（２８）が成立する。

また、全ての第２のループ１７ｃが参照するレジスタ１４ａの総数S_1,1は次の式（２９）のように表すことができる。

よって、全ての第２のループ１７ｃが参照するレジスタ１４ａの総数S_1,1を最小にする目的関数は、次の式（３０）のように表すことができる。

なお、分割前の第１のループ１７ｂが参照するレジスタ１４ａの総数をN_Rとすると、S_1,1の取り得る範囲は次の式（３１）で表すことができる。

なお、N_Dは、第２のループ１７ｃの総数である。

また、次の式（３２）の条件が成立する場合には、同じレジスタ１４ａを参照する複数の第２のループ１７ｃが存在しないことになる。

（Ｇ）各々の第２のループ１７ｃが参照するレジスタ１４ａの個数についての制約条件

一つの第２のループ１７ｃが参照するレジスタ１４ａの個数がH_R（図２参照）を超えると、その第２のループ１７ｃの実行時にスピルインやスピルアウトが発生し、プログラムの実行速度が低下する。そこで、詳細モデルでは、以下のようにして、第２のループ１７ｃの各々が参照するレジスタ１４ａの個数をH_R以下とする制約条件を課してループ分割を行う。

まず、d番目の第２のループ１７ｃが参照するレジスタ１４ａの個数をH_R以下にする条件は、次の式（３３）のように表すことができる。

よって、全ての第２のループ１７ｃにおいて、ループ内で参照するレジスタ１４ａの個数をH_R以下とする制約条件は次の式（３４）のようになる。

なお、Z_Dは、前述のようにループ分割で得られる第２のループ１７ｃの最大個数である。

この制約条件を加味してループ分割を行うことにより、プログラムの実行速度がスピルインやスピルアウトによって低下するのを抑制することができる。

（Ｈ）スピルインとスピルアウトの数
第２のループ１７ｃ内で参照するレジスタ１４ａがループの外側で定義されていると、そのループの実行前にメインメモリ１２からレジスタ１４ａにデータを転送する必要があるためスピルインが発生する。これとは逆に、第２のループ１７ｃ内で定義したレジスタ１４ａをループの外側で参照すると、ループの実行を終了した後にレジスタ１４ａのデータがメインメモリ１２に書き出されるためスピルアウトが発生する。

これらのスピルインやスピルアウトは、メモリ空間でアドレスが連続した領域にアクセスするストリームアクセス命令により行われる。よって、第２のループ１７ｃが参照するメモリストリームの個数をメモリストリーム数H_S以下にするという制約条件を設定する場合には、第２のループ１７ｃ内におけるスピルインやスピルアウトの個数を考慮する必要がある。

そこで、以下では、d番目の第２のループ１７ｃ内でのr番目のレジスタ１４ａに対するスピルインやスピルアウトが必要な条件を定義する。

まず、全ての第２のループ１７ｃが使用するレジスタの総数をU_Aとする。また、d番目の第２のループ１７ｃが使用するレジスタ１４ａの総数をUとする。更に、d番目の第２のループ１７ｃにr番目のレジスタ１４ａの定義がある場合には１となり、その定義がない場合には0となる変数Dを導入する。そして、次の式（３５）を導入する。

ここで、Rは、U_Aよりも大きな整数の定数である。
次に、スピルインの数について説明する。

式（３５）のXが0<X<Rを満たす場合、r番目のレジスタ１４ａに関してd番目の第２のループ１７ｃ内でスピルインが必要となる。

ここで、第２のループ１７ｃ内でr番目のレジスタ１４ａについてスピルインが必要かどうかを表す変数SI_r,dを次の式（３６）で定義する。

なお、SI_r,d=0は、d番目の第２のループ１７ｃ内でr番目のレジスタ１４ａについてスピルインが必要ないことを表す。また、SI_r,d=1は、d番目の第２のループ１７ｃ内でr番目のレジスタ１４ａについてスピルインが必要であることを表す。
この変数SI_r,dは、次の式（３７）で定義できる。

次に、スピルアウトの数について説明する。

式（３５）のXがR<X<U_A+Rを満たす場合、r番目のレジスタ１４ａに関してd番目の第２のループ１７ｃ内でスピルアウトが必要となる。

ここで、d番目の第２のループ１７ｃ内でr番目のレジスタ１４ａについてスピルアウトをする必要があるかどうかを表す変数SO_r,dを次の式（３８）で定義する。

なお、SO_r,d=0は、d番目の第２のループ１７ｃ内でr番目のレジスタ１４ａについてスピルアウトする必要がないことを表す。また、SO_r,d=1は、d番目の第２のループ１７ｃ内でレジスタrについてスピルアウトをする必要があることを表す。
この変数SO_r,dは、次の式（３９）で定義できる。

（Ｉ）メモリストリーム数についての制約条件
第２のループ１７ｃの各々のメモリストリーム数がハードウェアで規定される個数H_S（図２参照）を超えると、プログラムの実行時にメモリストリームを使わないメモリアクセスが必要となり、プログラムの実行速度が低下する。そこで、メモリストリーム数をH_S以下にする制約条件について以下に説明する。

まず、d番目の第２のループ１７ｃ内でメモリストリームaへの参照があるかどうかを表す変数A_a,dを次の式（４０）で定義する。

なお、A_a,d=0は、d番目の第２のループ１７ｃ内でメモリストリームaへの参照がないことを表す。また、A_a,d=1は、d番目の第２のループ１７ｃ内でメモリストリームaへの参照があることを表す。
この変数A_a,dは、次の式（４１）で定義することができる。

前述の各変数SI_r,d、SO_r,d、A_a,dを使うと、d番目の第２のループ１７ｃにおけるメモリストリーム数がH_Sを超えないという条件は、次の式（４２）のように表すことができる。

そして、全ての第２のループ１７ｃにおけるメモリストリーム数がH_Sを超えないという条件は、次の式（４３）のように表すことができる。

このような制約条件を考慮してループ分割を行うことにより、メモリストリームを使わないメモリアクセスによってプログラムの実行速度が低下するのを抑制できる。

（Ｊ）全ての第２のループ１７ｃが参照するメモリストリームの総数についての目的関数

全ての第２のループ１７ｃが参照するメモリストリームの総数が多いと、異なる第２のループ１７ｃが同一のメモリストリームを参照する可能性が高まり、メモリストリームを使わないメモリアクセスによってプログラムの実行速度が低下する。これを防ぐには、全ての第２のループ１７ｃが参照するメモリストリームの総数を最小にすればよい。

そこで、詳細モデルでは、以下のように全ての第２のループ１７ｃが参照するメモリストリームの総数S_1,2を最小にする目的関数を導入する。
総数S_1,2は、次の式４４のように定義できる。

そして、全ての第２のループ１７ｃが参照するメモリストリームの総数S_1,2を最小にする目的関数は次の式（４５）のように定式化することができる。

（Ｋ）キャッシュ利用率についての目的関数
前述のように、キャッシュ利用率は、キャッシュメモリ１５を有効に利用できているかどうかを表す指標である。そのような指標としては、例えばキャッシュヒット率がある。

キャッシュ利用率が高いほど、キャッシュメモリ１５からメインメモリ１２へのデータの追い出しが抑制され、プログラムの実行速度を向上させることができる。

そこで、詳細モデルでは、以下のようにしてキャッシュ利用率の増加値を最大にする目的関数を導入する。

まず、命令iと命令jがd番目の第２のループ１７ｃに存在することを表す変数P_i,j,dを次の式（４６）で定義する。

なお、P_i,j,d=1は、d番目の第２のループ１７ｃ内に命令iと命令jの両方が存在することを表す。また、P_i,j,d=0は、命令iと命令jのいずれか一方又は両方がd番目の第２のループ１７ｃ内に存在しないことを表す。
この変数P_i,j,dについて次の式（４７）が成立する。

このとき、d番目の第２のループ１７ｃにおけるキャッシュ利用率の増加値は、次の式（４８）で定義できる。

そして、全ての第２のループ１２ａにおけるキャッシュ利用率の増加値S_1,3は、次の式（４９）のように定義できる。

よって、全ての第２のループ１２ａにおけるキャッシュ利用率の増加値S_1,3を最大にする目的関数は次の式（５０）のように定式化することができる。

（Ｌ）第２のループ１７ｃの総数についての目的関数
第２のループ１７ｃの総数が多すぎると、多量のループを実行するためのオーバヘッドが増大してプログラムの実行速度が低下してしまう。これを防ぐために、第２のループ１７ｃの総数は最小にするのが好ましい。

そこで、詳細モデルでは、以下のようにして第２のループ１７ｃの総数を最小にする目的関数を導入する。

まず、第２のループ１７ｃの総数S_1,4を次の式（５１）で定義する。

このとき、第２のループ１７ｃの総数を最小にする目的関数は次の式（５２）のように定式化できる。

（Ｍ）詳細モデル全体の目的関数
詳細モデルにおける個々の目的関数は、式（３０）のS_1,1、式（４５）のS_1,2、式（５０）のS_1,3である。よって、詳細モデルの全体の目的関数は、次の式（５３）のように定義できる。

なお、式（５３）におけるW_1,1、W_1,2、W_1,3は、それぞれ目的関数に対するS_1,1、S_1,2、S_1,3の影響度を定義するための重み付け変数である。例えば、ループ分割においてS_1,1の重要度を最も高くし、S_1,2、S_1,3、S_1,4の順に重要度を低くした場合には、このような重要度の相違が式（５３）に反映されるようにW_1,1、W_1,2、W_1,3を決定するのが好ましい。

また、この例では、式（５３）のようにS_1,1、S_1,2、S_1,3、S_1,4の全てを考慮した目的関数を利用したが、これらのいずれかが極値をとるような目的関数を採用してもよい。

以上のように、詳細モデルでは、式（３４）と式（４３）の制約条件の下で、式（５３）のように目的関数を最小化する整数線形計画法に帰着される。そして、その整数線形計画法で求めるべき解は、各命令iに付される整数値の変数D_i,dである。D_i,d=1の場合には命令iがd番目の第２のループ１７ｃに属し、D_i,d=0の場合には命令iがd番目以外の第２のループ１７ｃに属することになる。よって、整数線形計画法で変数D_i,dの値を求めるということは、式（５３）のように目的関数が最小となるように、複数の第２のループ１７ｃの各々に複数の命令を割り当てるということである。

[ループ分割に要する時間]
次に、ループ分割に要する時間について説明する。
図４は、近似モデルと詳細モデルを利用したときにループ分割に要する時間について説明するための模式図である。

以下では、入力ループ１７ａから全ての第２のループ１７ｃを得るのに要する時間に制限時間T_maxを設定し、全てのループ分割に要する時間が制限時間T_maxを超えないようにするための条件を考える。なお、制限時間T_maxは第１の時間の一例であり、その長さはアプリケーションプログラム１７の性質等によってユーザが適宜設定し得る。

まず、近似モデルでループ分割を一回行うのに許容される時間を第１の許容時間T₀とし、詳細モデルでループ分割を一回行うのに許容される時間を第２の許容時間T₁とする。なお、第２の許容時間T₁は第２の時間の一例である。

更に、入力ループ１７ａに含まれる命令の命令数をN_Iとする。また、詳細モデルによるループ分割の対象となる第１のループ１７ｂに含まれる命令の個数を第１の命令数S₁と呼ぶ。そして、整数N₀を次の式（５４）で定義する。

この場合、入力ループ１７ａから第２のループ１７ｃの全てを得るのに要する時間はN₀(T₀+T₁)となる。この時間が制限時間T_maxを超えないという条件は次の式（５５）のように表される。

式（５５）によれば、N_IとT_maxを定数とみなすことにより、S₁、T₀、T₁の各パラメータの値を決定することができる。この場合、各パラメータの以下の性質を考慮して値を決定するのが好ましい。

例えば、第１の命令数S₁は、その値を過度に小さくすると、詳細モデルにおける整数線形計画法の解が、第２のループ１７ｃの全てを考慮した大域的な最適解から離れてしまうおそれがある。これとは逆に、第１の命令数S₁の値を過度に大きくすると、詳細モデルで整数線形計画法を解くのに要する時間が長くなり、制限時間T_max以内に解を見つけることができくなってしまう。

また、第２の許容時間T₁を過度に短くすると、詳細モデルで整数線形計画法を解けないか、解けたとしても最適解から離れた解が得られてしまう。一方、第２の許容時間T₁を過度に長くすると、第２の許容時間T₁以内に最適解に近い解が得られた場合に、その解の精度を高めようとして無駄に時間を浪費するおそれがある。

一方、第１の許容時間T₀は、第１の命令数S₁と第２の許容時間T₁とを決めてしまえば式（５５）から決定することができる。

本実施形態では、ループ分割を行う情報処理装置が、ある程度の精度の解が得られる第１の命令数S₁と第２の許容時間T₁とを決定することにより、時間と解の精度とのバランスをとる。
その情報処理装置について次に説明する。

[情報処理装置]
図５は、本実施形態に係る情報処理装置のハードウェア構成図である。

情報処理装置２１は、前述のターゲットマシン１０（図２参照）で実行するアプリケーションプログラム１７に対してループ分割を行うPCやサーバ等の計算機である。

この例では、情報処理装置２１は、記憶装置２２、メインメモリ２３、プロセッサ２４、入力装置２５、及び表示装置２６を備える。これらの各部はバス２７によって相互に接続される。

このうち、記憶装置２２は、例えばHDD(Hard Disk Drive)やSSD(Solid State Drive)等の二次記憶装置であり、本実施形態に係る情報処理プログラム３０を記憶する。情報処理プログラム３０は、前述の近似モデルと詳細モデルとを用いてループ分割を行うプログラムである。

なお、その情報処理プログラム３０をコンピュータが読み取り可能な記録媒体２８に記録させておき、プロセッサ２４に記録媒体２８の情報処理プログラム３０を読み取らせるようにしてもよい。

そのような記録媒体２８としては、例えばCD-ROM(Compact Disc - Read Only Memory)、DVD(Digital Versatile Disc)、及びUSB(Universal Serial Bus)メモリ等の物理的な可搬型記録媒体がある。また、フラッシュメモリ等の半導体メモリやハードディスクドライブを記録媒体２８として使用してもよい。これらの記録媒体２８は、物理的な形態を持たない搬送波のような一時的な媒体ではない。

更に、公衆回線、インターネット、及びLAN(Local Area Network)等に接続された装置に情報処理プログラム３０を記憶させておき、プロセッサ２４が情報処理プログラム３０を読み出して実行するようにしてもよい。

一方、メインメモリ２３は、DRAM等のようにデータを一時的に記憶するハードウェアであって、その上に前述の情報処理プログラム３０が展開される。

プロセッサ２４は、自装置の各部を制御したり、メインメモリ２３と協働して情報処理プログラム３０を実行したりするCPU等のハードウェアである。

入力装置２５は、キーボードやマウス等の入力デバイスである。ユーザがこれらの入力デバイスを操作することにより、情報処理プログラム３０でループ分割を行うべきアプリケーションプログラム１７を指定したり、ループ分割後のアプリケーションプログラム１７の出力先が指定されたりする。

また、表示装置２６は、情報処理プログラム３０の実行時にユーザが使用する様々なコマンドを表示する液晶ディスプレイ等の表示デバイスである。

＜機能構成＞
図６は、本実施形態に係る情報処理装置２１の機能構成図である。
図６に示すように、この情報処理装置２１は、受付部４１、取得部４２、算出部４３、第１の分割部４４、第２の分割部４５、及び出力部４６を備える。これらの各部は、プロセッサ２４とメインメモリ２３が協働して前述の情報処理プログラム３０を実行することにより実現される。

このうち、受付部４１は、アプリケーションプログラム１７やサンプルプログラム５１の入力を受け付ける機能ブロックである。サンプルプログラム５１は、アプリケーションプログラム１７に対してループ分割を行う前に、第１のループ１７ｂの適切な命令数を見積もるためのプログラムである。

また、取得部４２は、詳細モデルで第１のループ１７ｂを複数の第２のループ１７ｃに分割する問題を解くのに要する時間と、第１のループ１７ｂに含まれる命令の個数との関係を表す関数f_iを取得する機能ブロックである。その問題は、前述のように、第２のループ１７ｃの各々に含まれる命令の参照先の個数が、メモリストリーム数H_Sやレジスタ数H_R等のハードウェア数を超えない条件下で、整数線形計画法でループ分割を行う問題である。

そして、算出部４３は、この問題を制限時間T_max内に解くことが可能な第１の命令数S₁を算出する。

第１の分割部４４は、近似モデルを用いて入力ループ１７ａを複数の第１のループ１７ｂに分割することにより、第１のループ１７ｂの各々の命令数を第１の命令数S₁よりも少ない第２の命令数S₂とする。

そして、第２の分割部４５は、詳細モデルを用いて、第１のループ１７ｂを複数の第２のループ１７ｃに分割する。このとき、第２の分割部４５は、S₂に対応する第２の許容時間T₁を関係f_iから求め、第２の許容時間T₁をかけてループ分割を行う。これにより、制限時間T_max内に規定精度で第１のループ１７ｂを第２のループ１７ｃに分割できる。

出力部４６は、これらの第２のループ１７ｃが記述されたプログラムを出力プログラム５２として出力する。

[パラメータの決定方法]
本実施形態では、前述のようにループ分割の前に第１の命令数S₁等のパラメータを事前に決定しておく。そこで、これらのパラメータの決定方法について以下に説明する。

図７は、本実施形態に係るパラメータの決定方法を示すフローチャートである。

まず、ステップＰ１において、受付部４１が、第１の命令数S₁や第２の許容時間T₁のそれぞれの範囲の入力をユーザから受け付ける。

例えば、第１の命令数S₁の範囲はS_min≦S₁≦S_maxとし、第２の許容時間T₁の範囲はT_min≦T₁≦T_maxとする。これらの範囲は、第１の命令数S₁や第２の許容時間T₁の候補を絞り込むために、ユーザが経験的に設定し得る。なお、第２の許容時間T₁の範囲の上限は、前述の制限時間T_maxである。

次に、ステップＰ２に移り、受付部４１が、複数のサンプルプログラム５１の入力を受け付ける。各々のサンプルプログラム５１は、一つのループが記述されたプログラムであり、そのループに近似モデルを適用することで機械学習の様々な学習データが取得される。その学習データのバリエーションを広げるため、ここではループに含まれる命令の個数をサンプルプログラム５１ごとに異なるようにする。

続いて、ステップＰ３に移り、取得部４２が、複数のサンプルプログラム５１の各々のループを近似モデルで分割することにより、サンプル用の複数の第１のループ１７ｂを作成する。サンプル用の第１のループ１７ｂの命令数は、サンプル用の複数の第１のループ１７ｂごとに異なる。以下では、命令数がs個のサンプル用の第１のループ１７ｂの全体を集合Z_sで表す。

次に、ステップＰ４に移り、取得部４２が、集合Z_sの要素であるサンプル用の第１のループ１７ｂの特徴データdを取得する。その特徴データdとしては、サンプル用の第１のループ１７ｂに含まれる命令の命令数がある。また、第１のループ１７ｂにおけるデータ依存グラフの辺の数、第１のループ１７ｂが参照するレジスタ数やメモリストリーム数等を特徴データdとして採用してもよい。更に、第１のループ１７ｂにおけるキャッシュ利用率を特徴データdとして採用してもよい。

次いで、ステップＰ５に移り、取得部４２が、複数のサンプル用の第１のループ１７ｂの各々に対して詳細モデルにおける整数線形計画法の解の取得を試みる。

前述のように、その整数線形計画法は、式（３４）と式（４３）の制約条件の下で式（５３）の目的関数が最小となるような整数値の変数D_i,dを求める問題である。変数D_i,dは、i番目の命令が属するd番目の第２のループ１７ｃを特定する整数である。よって、この問題を解くことにより、サンプル用の第１のループ１７ｂが複数の第２のループ１７ｃに分割される。

続いて、ステップＰ６に移り、取得部４２が、複数のサンプル用の第１のループ１７ｂの各々について到達時間T_Bを取得する。到達時間T_Bは、第３の時間の一例であって、詳細モデルの整数線形計画法の解を探索し始めてからその解の精度が閾値Qに到達するまでの時間である。
閾値Qは特に限定されないが、ここでは閾値Qを９０％とする。
本実施形態では、整数線形計画法の解の精度を次のように定義する。

まず、詳細モデルにおける整数線形計画法を、変数D_i,dの値を有理数にまで拡張した線型計画法に置き換える。このように有理数の解を許容する線形計画法は、整数線形計画法と比較して高速に解ける。そこで、まずこの線型計画法の有理数解を求める。そして、その有理数解を式（５３）の目的関数(W_1,1S_1,1+W_1,2S_1,2-W_1,3S_1,3+ S_1,4)に代入することにより、この目的関数の値G’を算出する。また、ステップＰ６で得た解を目的関数(W_1,1S_1,1+W_1,2S_1,2-W_1,3S_1,3+ S_1,4)を代入したときの当該目的関数の値をGとする。

この場合、解の精度は、G’とGとの比（G’/G）の百分率として定義される。例えば、前述のように閾値Qを９０％とする場合は、G’/Gの値が０．９となった時間が到達時間T_Bとなる。

このように整数線形計画法の解を有理数まで拡張することにより、目的関数の値から簡単に解の精度を求めることができる。

次に、ステップＰ７に移り、取得部４２が、複数のサンプル用の第１のループ１７ｂの各々の特徴データdと到達時間T_Bとを対応させた学習データLを作成する。

本実施形態では、制限時間T_max内に解の精度が閾値Q以上となった場合に、詳細モデルにおける整数線形計画法の問題が到達時間T_Bにおいて解けたとみなす。一方、第１のループ１７ｂのうちで、制限時間T_max内に解の精度が閾値Q以上とならなかったものについては問題が解けなかったとみなし、当該第１のループ１７ｂの特徴データdは学習データLに追加しない。

これにより、学習データLは、制限時間T_max内に問題を解くことができる特徴データdと到達時間T_Bとを対応させたデータとなる。そのような学習データLにおいては、特徴データdと到達時間T_Bとの間に統計的な相関関係があると考えられる。

そこで、次のステップＰ８では、取得部４２が、学習データLを利用した機械学習により、特徴データdと到達時間T_Bとの関係を表す関数f_iを取得する。到達時間T_Bは整数線形計画法の問題を解くのに要する時間であるから、f_i(d)を計算することにより、特徴データdを有する第１のループ１７ｂを第２のループ１７ｃに分割するのに要する時間を取得することができる。

次いで、ステップＰ９に移り、算出部４３が、第１のループ１７ｂの命令数のうち、詳細モデルにおける整数線形計画法を制限時間T_max内に解くことが可能な第１の命令数S₁を算出する。

第１の命令数S₁の算出方法は特に限定されない。例えば、算出部４３は、複数のサンプル用の第１のループ１７ｂのうち、ステップＰ５において制限時間T_max内に解の精度が閾値Qとなったループを選択する。これらのループの各々に含まれる命令の命令数は、制限時間T_max内に解の精度が閾値Qとなる命令数である。そこで、算出部４３は、このように選択した複数の第１のループ１７ｂの各々の命令数を平均し、その平均値を第１の命令数S₁とする。これにより、制限時間T_max内に閾値Q以上の精度の解を取得可能な第１の命令数S₁を算出することができる。

次に、ステップＰ１０に移り、算出部４３が、全てのサンプル用の第１のループ１７ｂの各々について、ステップＰ５で解の探索に要した時間を平均し、その平均値を平均時間T_1Aとする。

以上により、本実施形態におけるパラメータの決定方法の基本ステップを終える。

次に、ステップＰ８で作成した関数f_iとステップＰ９で算出した命令数S₁とを利用した情報処理方法について説明する。

[情報処理方法]
図８は、本実施形態に係る情報処理方法を示すフローチャートである。

この情報処理方法は、アプリケーションプログラム１７に対して近似モデルと詳細モデルの各々でループ分割を行う方法であり、以下のように実行される。

まず、ステップＰ２０において、受付部４１がアプリケーションプログラム１７の入力を受け付ける。

次に、ステップＰ２１に移り、第１の分割部４４が、近似モデルでループ分割を一回行うのに許容される第１の許容時間T₀を算出する。例えば、第１の分割部４４は、次の式を満たすような第１の許容時間T₀を算出する。

なお、N_Iは、前述のように入力ループ１７ａに含まれる命令の命令数である。また、S₁はステップＰ９で算出した第１の命令数であり、T_1AはステップＰ１０で算出した平均時間である。

次に、ステップＰ２２に移り、第１の分割部４４が、変数Xに命令数N_Iを代入する。変数Xは、詳細モデルによるループ分割の対象となるループに含まれる命令数を表す。

続いて、ステップＰ２３に移り、第１の分割部４４が、ステップＰ９で算出した第１の命令数S₁よりも変数Xの値が小さいかどうかを判断する。

ここでＮＯと判断された場合には、詳細モデルで入力ループ１７ａをループ分割しようとしても、制限時間T_max内にループ分割を終えることができない。よって、この場合にはステップＰ２４に移り、第１の分割部４４が、第１の許容時間T₀をかけて近似モデルで入力ループ１７ａを分割する。

次に、ステップＰ２５に移り、第１の分割部４４が変数XにX/2を代入する。その後、ステップＰ２３からやり直す。

一方、ステップＰ２３においてＹＥＳと判断された場合にはステップＰ２６に移る。

この段階においては、入力ループ１７ａから分割された複数の第１のループ１７ｂが生成されており、各々の第１のループ１７ｂの第２の命令数S₂が第１の命令数S₁よりも少なくなっている。ステップＰ２６においては、第２の分割部４５が、これらの第１のループ１７ｂの特徴データdを取得する。

前述のように、特徴データdには、第１のループ１７ｂの第２の命令数S₂、第１のループ１７ｂにおけるデータ依存グラフの辺の数、第１のループ１７ｂが参照するレジスタ数やストリーム数が含まれる。また、第１のループ１７ｂにおけるキャッシュ利用率を特徴データdとして採用してもよい。

次に、ステップＰ２７に移り、第２の分割部４５が、複数の第１のループ１７ｂの各々に対して第２の許容時間T₁を求める。ここでは、第２の分割部４５が、ステップＰ８で作成した関数f_iと特徴データdを利用して、T₁=f_i(d)により第１のループ１７ｂごとに第２の許容時間T₁を求める。

前述のように、特徴データdには第１のループ１７ｂの第２の命令数S₂が含まれている。よって、この第２の許容時間T₁は、分割前の第１のループ１７ｂの命令数がS₂である場合に、詳細モデルにおける整数線形計画法の解を得るのに要する時間となる。

そして、ステップＰ２８に移り、第２の分割部４５が、第２の許容時間T₁をかけて詳細モデルにおける整数線形計画法の問題を解くことにより、第１のループ１７ｂの各々を複数の第２のループ１７ｃに分割する。

続いて、ステップＰ２９に移り、出力部４６がステップＰ２８で得られた複数の第２のループ１７ｃを出力プログラム５２（図６参照）に記述し、その出力プログラム５２を出力する。

以上により、本実施形態に係る情報処理方法の基本ステップを終了する。

上記した本実施形態によれば、ステップＰ２４（図８）のループ分割により、制限時間T_max内に詳細モデルの問題が解けることを保証する第１の命令数S₁よりも少ない第２の命令数S₂に第１のループ１７ｂの命令数を減らす。これにより、ステップＰ２８において詳細モデルの解を高い精度で求めることができ、その解に基づいて第１のループ１７ｂを第２のループ１７ｃに精度よく分割できる。

しかも、レジスタ数H_Rやメモリストリーム数H_S等のハードウェア数を考慮してステップＰ２８のループ分割を行うため、出力プログラム５２の実行速度が低下するのを抑制できる。

更に、T₁=f_i(d)で定まる第２の許容時間T₁は、第２の命令数S₂等の特徴データdを有する第１のループ１７ｂを第２のループ１７ｃに分割する問題を解くのに要する時間である。よって、この第２の許容時間T₁をかけてその問題を解くことで確実に第１のループ１７ｂを第２のループ１７ｃに分割できる。更に、このように第２の許容時間T₁を設定することにより、第１のループ１７ｂの分割に必要以上の時間を割り当てるおそれがなくなり、残りの時間を入力ループ１７ａの分割に割り当てることができる。
以上説明した各実施形態に関し、更に以下の付記を開示する。

（付記１）第１のループを分割して得られる複数の第２のループの各々に含まれる命令の参照先の個数がハードウェア数を超えない条件の下で、前記第１のループを複数の前記第２のループに分割する整数線形計画法の問題を解くのに要する時間と、前記第１のループの命令数との関係を取得する取得部と、
前記第１のループの前記命令数であって、第１の時間内に前記問題を解くことが可能な第１の命令数を算出する算出部と、
入力ループを分割することにより、前記第１の命令数よりも少ない第２の命令数の前記第１のループを複数生成する第１の分割部と、
前記関係から前記第２の命令数に対応する第２の時間を求め、前記第２の時間をかけて前記問題を解くことにより、前記第１のループを複数の前記第２のループに分割する第２の分割部と、
を有することを特徴とする情報処理装置。
（付記２）前記ハードウェア数は、レジスタ数又はメモリストリーム数であることを特徴とする付記１に記載の情報処理装置。
（付記３）前記第１の分割部は、前記入力ループに含まれる複数の命令を半分ずつ分ける分割を繰り返すことにより、前記入力ループから複数の前記第１のループを生成することを特徴とする付記１に記載の情報処理装置。
（付記４）前記第１の分割部は、二つの前記第１のループの両方が参照するレジスタ数、二つの前記第１のループの両方が参照するメモリストリーム数、及び二つの前記第１のループのキャッシュ利用率のいずれかが極値をとるように、前記入力ループを分割することを特徴とする付記３に記載の情報処理装置。
（付記５）前記問題は、前記条件の下で、複数の前記第２のループの全てが参照するレジスタの総数、複数の前記第２のループの全てが参照するメモリストリームの総数、複数の前記第２のループの全てのキャッシュ利用率、及び前記第２のループの総数のいずれかを表す目的関数が極値となるように、前記第１のループを前記第２のループに分割する問題であることを特徴とする付記１に記載の情報処理装置。
（付記６）前記取得部は、
サンプル用の複数の前記第１のループの各々に対して前記問題の解の取得を試みることにより、前記解の精度が閾値に到達する第３の時間と、前記第１のループの前記命令数とを対応付け、
相互に対応する前記第３の時間と前記命令数とを学習データとする機械学習により前記関係を取得することを特徴とする付記１に記載の情報処理装置。
（付記７）前記算出部は、
サンプル用の複数の前記第１のループの各々に対して前記問題の解の取得を試みたときに、前記第１の時間内に前記解の精度が閾値以上となった前記命令数の平均値を前記第１の命令数とすることを特徴とする付記１に記載の情報処理装置。
（付記８）前記精度は、
前記整数線形計画法の目的関数に前記解を代入して得られた値と、前記問題を有理数に拡張した線型計画法の有理数解を前記目的関数に代入して得られた値との比の百分率であることを特徴とする付記７に記載の情報処理装置。
（付記９）第１のループを分割して得られる複数の第２のループの各々に含まれる命令の参照先の個数がハードウェア数を超えない条件の下で、前記第１のループを複数の前記第２のループに分割する整数線形計画法の問題を解くのに要する時間と、前記第１のループの命令数との関係を取得する処理と、
前記第１のループの前記命令数であって、第１の時間内に前記問題を解くことが可能な第１の命令数を算出する処理と、
入力ループを分割することにより、前記第１の命令数よりも少ない第２の命令数の前記第１のループを複数生成する処理と、
前記関係から前記第２の命令数に対応する第２の時間を求め、前記第２の時間をかけて前記問題を解くことにより、前記第１のループを複数の前記第２のループに分割する処理と、
をコンピュータに実行させるための情報処理プログラム。
（付記１０）第１のループを分割して得られる複数の第２のループの各々に含まれる命令の参照先の個数がハードウェア数を超えない条件の下で、前記第１のループを複数の前記第２のループに分割する整数線形計画法の問題を解くのに要する時間と、前記第１のループの命令数との関係を取得する処理と、
前記第１のループの前記命令数であって、第１の時間内に前記問題を解くことが可能な第１の命令数を算出する処理と、
入力ループを分割することにより、前記第１の命令数よりも少ない第２の命令数の前記第１のループを複数生成する処理と、
前記関係から前記第２の命令数に対応する第２の時間を求め、前記第２の時間をかけて前記問題を解くことにより、前記第１のループを複数の前記第２のループに分割する処理と、
をコンピュータが実行することを特徴とする情報処理方法。

１…アプリケーションプログラム、１ａ、１ｂ…ループ、１０…ターゲットマシン、１１…プロセッサ、１２…メインメモリ、１３…計算コア、１４…レジスタファイル、１４ａ…レジスタ、１５…キャッシュメモリ、１６…記憶部、１６ａ…ブロック、１７…アプリケーションプログラム、１７ａ…入力ループ、１７ｂ…第１のループ、１７ｃ…第２のループ、２１…情報処理装置、２２…記憶装置、２３…メインメモリ、２４…プロセッサ、２５…入力装置、２６…表示装置、２７…バス、２８…記録媒体、４１…受付部、４２…取得部、４３…算出部、４４…第１の分割部、４５…第２の分割部、４６…出力部、５１…サンプルプログラム、５２…出力プログラム。

Claims

第１のループを分割して得られる複数の第２のループの各々に含まれる命令の参照先の個数がハードウェア数を超えない条件の下で、前記第１のループを複数の前記第２のループに分割する整数線形計画法の問題を解くのに要する時間と、前記第１のループの命令数との関係を取得する取得部と、
前記第１のループの前記命令数であって、第１の時間内に前記問題を解くことが可能な第１の命令数を算出する算出部と、
入力ループを分割することにより、前記第１の命令数よりも少ない第２の命令数の前記第１のループを複数生成する第１の分割部と、
前記関係から前記第２の命令数に対応する第２の時間を求め、前記第２の時間をかけて前記問題を解くことにより、前記第１のループを複数の前記第２のループに分割する第２の分割部と、
を有することを特徴とする情報処理装置。
前記ハードウェア数は、レジスタ数又はメモリストリーム数であることを特徴とする請求項１に記載の情報処理装置。
前記取得部は、
サンプル用の複数の前記第１のループの各々に対して前記問題の解の取得を試みることにより、前記解の精度が閾値に到達する第３の時間と、前記第１のループの前記命令数とを対応付け、
相互に対応する前記第３の時間と前記命令数とを学習データとする機械学習により前記関係を取得することを特徴とする請求項１に記載の情報処理装置。
第１のループを分割して得られる複数の第２のループの各々に含まれる命令の参照先の個数がハードウェア数を超えない条件の下で、前記第１のループを複数の前記第２のループに分割する整数線形計画法の問題を解くのに要する時間と、前記第１のループの命令数との関係を取得する処理と、
前記第１のループの前記命令数であって、第１の時間内に前記問題を解くことが可能な第１の命令数を算出する処理と、
入力ループを分割することにより、前記第１の命令数よりも少ない第２の命令数の前記第１のループを複数生成する処理と、
前記関係から前記第２の命令数に対応する第２の時間を求め、前記第２の時間をかけて前記問題を解くことにより、前記第１のループを複数の前記第２のループに分割する処理と、
をコンピュータに実行させるための情報処理プログラム。
第１のループを分割して得られる複数の第２のループの各々に含まれる命令の参照先の個数がハードウェア数を超えない条件の下で、前記第１のループを複数の前記第２のループに分割する整数線形計画法の問題を解くのに要する時間と、前記第１のループの命令数との関係を取得する処理と、
前記第１のループの前記命令数であって、第１の時間内に前記問題を解くことが可能な第１の命令数を算出する処理と、
入力ループを分割することにより、前記第１の命令数よりも少ない第２の命令数の前記第１のループを複数生成する処理と、
前記関係から前記第２の命令数に対応する第２の時間を求め、前記第２の時間をかけて前記問題を解くことにより、前記第１のループを複数の前記第２のループに分割する処理と、
をコンピュータが実行することを特徴とする情報処理方法。