JP7302728B2

JP7302728B2 - ループアンローリング処理装置、方法およびプログラム

Info

Publication number: JP7302728B2
Application number: JP2022500197A
Authority: JP
Inventors: 善之大野
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2020-02-14
Filing date: 2020-02-14
Publication date: 2023-07-04
Anticipated expiration: 2040-02-14
Also published as: US20230161590A1; JPWO2021161532A1; WO2021161532A1

Description

本発明は、ソースプログラム内に記述されたループ処理に対してループアンローリングを行うループアンローリング処理装置、ループアンローリング処理方法、および、ループアンローリング処理プログラムに関する。

ループアンローリングとは、ループ処理におけるループ１回当たりの処理を増やすことによって、元のループ処理よりもループ回数を減少させることである。

ループアンローリングを行うことによって、ループ回数が減少する。従って、ループ処理を終了するか否かを判定する判定処理の回数も減少し、その結果、その判定処理に起因するオーバヘッドを減少させることができる。

上記のように、ループアンローリングでは、ループ１回当たりの処理を増やす。処理を増やした場合におけるループ１回当たりの処理が、元のループ処理におけるループ１回当たりの処理の何回分に相当するかを示す値をアンロール段数と称する。

以下に、ループアンローリングの具体例を示す。図１４は、ループアンローリングの対象となる元のループ処理の例を示す図である。図１４に示すループ処理では、ループ回数は１００００回である。

また、配列を表す括弧内の値が整数でない場合には、小数点以下を切り捨てることによって、括弧内の値を整数とみなす。

図１５は、図１４に示すループ処理に対して、アンロール段数を４としてループアンローリングを行った結果の一例を示す図である。図１５に示す処理では、ループ１回当たりの処理を、図１４に示すループ１回当たりの処理よりも増加させ、ループ回数を１００００／４＝２５００回に減少させている。また、図１５に示す例では、ｉの値を４ずつ増加させながら、ループ処理を実行する。

ループアンローリングの結果は１種類に限定されるわけではない。図１６は、図１４に示すループ処理に対して、アンロール段数を４としてループアンローリングを行った結果の他の例を示す図である。図１６に示す例でも、ループ回数を１００００／４＝２５００回に減少させている。また、図１６に示す例では、ｊの値を１ずつ増加させながら、ループ処理を実行する。

図１５および図１６に示す例では、図１４に示すループ処理に比べて、ループ回数を減少させているので、ループ処理を終了するか否かを判定する判定処理に起因するオーバヘッドを減少できる。

また、前述のように、配列を表す括弧内の値が整数でない場合には、小数点以下を切り捨てることによって、括弧内の値を整数とみなす。従って、図１６に示す例において、B[(4*j+0)/2]と、B[(4*j+1)/2]は同一の値となる。同様に、図１６に示す例において、B[(4*j+2)/2]と、B[(4*j+3)/2]は同一の値となる。従って、例えば、B[(4*j+0)/2]およびC[4*j+0]の値を読み込んで、A[4*j+0] = B[(4*j+0)/2] + C[4*j+0]の計算を行った後、A[4*j+1]
= B[(4*j+1)/2] + C[4*j+1]の計算を行う際には、B[(4*j+1)/2]の値を読み込む必要はない。

図１７は、アンロール段数と、ループアンローリングを行った場合のプログラムの性能との関係の傾向を示す模式図である。この性能の具体例の１つとして、ループアンローリングを行った場合のループ処理の処理時間が挙げられる。この場合、ループ処理の処理時間が短いほど性能が良いと言え、処理時間が長いほど性能が悪いと言える。

図１７に示すように、一般的に、アンロール段数を増加させるにつれ、性能も上昇する。しかし、アンロール段数を増加させ過ぎると、性能が悪化する。アンロール段数を増加させ過ぎると性能が悪化する理由は、ループ１回分の処理量が多くなり過ぎて、レジスタの容量が不足する状態となり、レジスタからメモリに移動するデータが増えるためであると考えられる。

特許文献１には、元のループ処理のループ回数をループ展開回数で割った余りの繰り返しループと、残りの回数分のループとを分けて展開する技術が記載されている。なお、特許文献１に記載の「展開」とは、ループアンローリングのことであり、特許文献１に記載の「ループ展開回数」とは、アンロール段数のことである。特許文献１に記載された上記の技術の具体例を、図１８に示す。

図１８に示す上段は、元のループ処理を表し、図１８に示す下段はそのループ処理に対して特許文献１に記載された上記の技術を適用した結果を表す。図１８に示す演算式Ａ１は、元のループ処理のループ回数Ｎをループ展開回数（すなわち、アンロール段数。本例では４とする。）で割った余りの繰り返しループを表す。演算式Ａ１に含まれる“% ”は、除算の余りを導出する演算を意味する。図１８に示す演算式Ａ２は、残りの回数分のループ処理を表す。

特開平４－３４４５３５号公報

特許文献１に記載された上記の技術には、ループアンローリング後の処理をより効率的にする余地がまだある。図１８に示す演算式Ａ１が示すループ処理では、アンロール段数が１段となっている。すなわち、演算式Ａ１が示すループ処理では、ループ１回当たりの処理量が、元のループ処理（図１８の上段を参照）におけるループ１回当たりの処理量と変わらず、演算式Ａ１が表す“N%4 ”回分のループ処理では、元のループ処理における同じ回数分のループ処理と同様のオーバヘッドが生じる。

そこで、本発明は、ループアンローリング後の処理をより効率化することができるループアンローリング処理装置、ループアンローリング処理方法、および、ループアンローリング処理プログラムを提供することを目的とする。

本発明によるループアンローリング処理装置は、入力されたソースプログラムから、ループ処理を表す演算式の記述箇所を特定する特定部と、前記ループ処理のループ回数をＮとし、指定されたアンロール段数の下限をＬとし、指定されたアンロール段数の上限をＭとし、ＮをＬで除算した際の商をＱとし、ＮをＬで除算した際の余りをＲとしたときに、Ｒ－Ｑ＊（Ｍ－Ｌ）＞０である場合に、前記ループ処理におけるループ１回分の処理をＲ－Ｑ＊（Ｍ－Ｌ）回行うこと、および、その後に、アンロール段数をＭとしてループ処理を行うことを示す演算式と、Ｒ－Ｑ＊（Ｍ－Ｌ）＞０でない場合に、アンロール段数をＭとして、Ｒを（Ｍ－Ｌ）で除算した際の商の回数のループ処理を行うこと、その後、Ｒを（Ｍ－Ｌ）で除算した際の余りが０以外である場合に当該余りとＬとの和をアンロール段数とするループ１回分の処理を行うこと、および、その後に、アンロール段数をＬとしてループ処理を行うことを示す演算式とを含む演算式を生成する生成部と、前記特定部によって特定された前記記述箇所の演算式を、前記生成部によって生成された演算式に置き換える置き換え部とを備えることを特徴とする。

本発明によるループアンローリング処理方法は、入力されたソースプログラムから、ループ処理を表す演算式の記述箇所を特定し、前記ループ処理のループ回数をＮとし、指定されたアンロール段数の下限をＬとし、指定されたアンロール段数の上限をＭとし、ＮをＬで除算した際の商をＱとし、ＮをＬで除算した際の余りをＲとしたときに、Ｒ－Ｑ＊（Ｍ－Ｌ）＞０である場合に、前記ループ処理におけるループ１回分の処理をＲ－Ｑ＊（Ｍ－Ｌ）回行うこと、および、その後に、アンロール段数をＭとしてループ処理を行うことを示す演算式と、Ｒ－Ｑ＊（Ｍ－Ｌ）＞０でない場合に、アンロール段数をＭとして、Ｒを（Ｍ－Ｌ）で除算した際の商の回数のループ処理を行うこと、その後、Ｒを（Ｍ－Ｌ）で除算した際の余りが０以外である場合に当該余りとＬとの和をアンロール段数とするループ１回分の処理を行うこと、および、その後に、アンロール段数をＬとしてループ処理を行うことを示す演算式とを含む演算式を生成し、前記記述箇所の演算式を、生成した演算式に置き換えることを特徴とする。

本発明によるループアンローリング処理プログラムは、コンピュータに、入力されたソースプログラムから、ループ処理を表す演算式の記述箇所を特定する特定処理、前記ループ処理のループ回数をＮとし、指定されたアンロール段数の下限をＬとし、指定されたアンロール段数の上限をＭとし、ＮをＬで除算した際の商をＱとし、ＮをＬで除算した際の余りをＲとしたときに、Ｒ－Ｑ＊（Ｍ－Ｌ）＞０である場合に、前記ループ処理におけるループ１回分の処理をＲ－Ｑ＊（Ｍ－Ｌ）回行うこと、および、その後に、アンロール段数をＭとしてループ処理を行うことを示す演算式と、Ｒ－Ｑ＊（Ｍ－Ｌ）＞０でない場合に、アンロール段数をＭとして、Ｒを（Ｍ－Ｌ）で除算した際の商の回数のループ処理を行うこと、その後、Ｒを（Ｍ－Ｌ）で除算した際の余りが０以外である場合に当該余りとＬとの和をアンロール段数とするループ１回分の処理を行うこと、および、その後に、アンロール段数をＬとしてループ処理を行うことを示す演算式とを含む演算式を生成する生成処理、および、前記特定処理で特定された前記記述箇所の演算式を、前記生成処理で生成された演算式に置き換える置き換え処理を実行させることを特徴とする。

本発明によれば、ループアンローリング後の処理をより効率化することができる。

本発明の第１の実施形態のループアンローリング処理装置の例を表すブロック図である。入力されるソースプログラム内における、アンロール段数の指定およびループ処理を表す演算式の例を示す図である。生成部が生成する演算式の例を示す図である。演算式Ｘ２が表す処理、および、その後に実行される演算式Ｘ３が表す処理を示す模式図である。本発明の第１の実施形態の処理経過の例を示すフローチャートである。アンロール段数毎のループ処理１回分の処理時間の例を示す図である。入力されるソースプログラム内における、アンロール段数の下限およびアンロール段数の上限の指定並びにループ処理を表す演算式の例を示す図である。第２の実施形態の生成部が生成する演算式の例を示す図である。演算式Ｙ２が表す処理を示す模式図である。演算式Ｙ１が表す処理の一例を示す模式図である。本発明の第２の実施形態の処理経過の例を示すフローチャートである。本発明の各実施形態のループアンローリング処理装置に係るコンピュータの構成例を示す概略ブロック図である。本発明のループアンローリング処理装置の概要を示すブロック図である。ループアンローリングの対象となる元のループ処理の例を示す図である。図１４に示すループ処理に対して、アンロール段数を４としてループアンローリングを行った結果の一例を示す図である。図１４に示すループ処理に対して、アンロール段数を４としてループアンローリングを行った結果の他の例を示す図である。アンロール段数と、ループアンローリングを行った場合のプログラムの性能との関係の傾向を示す模式図である。特許文献１に記載された技術の具体例を示す図である。

以下、本発明の実施形態を図面を参照して説明する。

本発明の各実施形態のループアンローリング処理装置には、ソースプログラムが入力される。そして、各実施形態のループアンローリング処理装置は、ソースプログラム内のループ処理に対してループアンローリングを行った結果を表す演算式を生成する。そして、各実施形態のループアンローリング処理装置は、ソースプログラム内のループ処理を表す演算式を、生成した演算式に置き換える。

実施形態１．
図１は、本発明の第１の実施形態のループアンローリング処理装置の例を表すブロック図である。第１の実施形態のループアンローリング処理装置１は、入力部２と、特定部３と、生成部４と、置き換え部５とを備える。

入力部２は、ソースプログラムを取得するための入力装置である。入力部２は、例えば、光学ディスク等のデータ記録媒体に記録されたソースプログラムを読み込むデータ読み込み装置であるが、入力部２は、このようなデータ読み込み装置に限定されない。

入力部２を介してループアンローリング処理装置１に入力されるソースプログラムは、ループ処理を含んでいるものとする。

また、入力されるソースプログラム内で、所定の書式によって、アンロール段数が指定されていてもよい。

アンロール段数の指定は、ソースプログラムの入力とは別に行われてもよい。例えば、ソースプログラムの入力とは別に、キーボード等の入力デバイス（図１において図示略）を介してアンロール段数が入力されることによって、アンロール段数が指定されてもよい。

以下に示す例では、入力されるソースプログラム内で、所定の書式によって、アンロール段数が指定されていている場合を例にして説明する。

図２は、入力されるソースプログラム内における、アンロール段数の指定およびループ処理を表す演算式の例を示す図である。ソースプログラムには、図２に示す演算式以外の演算式も含まれている。

図２に示す“#pragma unroll()”は、アンロール段数を指定するための所定の書式の一例である。図２では、この書式の括弧内に示された“４”がアンロール段数として指定された場合を例示している。以下、指定されたアンロール段数が４である場合を例にして説明する。また、以下の説明では、アンロール段数を指定するための所定の書式は、元のループ処理を表す演算式の直前に記述されるものとする。

特定部３は、入力されたソースプログラムから、ループ処理を表す演算式の記述箇所を特定する。ループ処理は、プログラム言語に応じた規則で記述されている。特定部３は、ループ処理に合致する演算式を、ソースプログラム中から特定し、その演算式の記述箇所を特定すればよい。例えば、本例では、ループ処理が“for () {}”という書式で記述されるものとする。この場合、図２に示す２行目から４行目までの演算式が“for () {}”という書式に適合するので、特定部３は、図２に示す２行目から４行目までの演算式がループ処理を表していると判定し、その演算式の記述箇所を特定する。

さらに、ソースプログラム内でアンロール段数が指定されている場合には、特定部３は、アンロール段数を指定している文字列の記述箇所も特定する。

本例では、特定部３は、ソースプログラム内で、図２に示す演算式の記述箇所を特定する。

生成部４は、特定部３が特定したソースプログラム内の記述箇所に記述された文字列を参照することによって、アンロール段数の指定を受け付ける。本例では、生成部４は、図２に示す１行目の所定の書式の文字列に基づいて、アンロール段数“４”の指定を受け付ける。

なお、生成部４は、キーボード等の入力デバイス（図１において図示略）を介して入力されたアンロール段数を取得することによって、アンロール段数の指定を受け付けてもよい。

また、生成部４は、入力されたソースプログラム内に記述されたループ処理（本例では、図２に示す２行目から４行目までの演算式が表すループ処理）に対してループアンローリングを行った結果を表す演算式を生成する。

図３は、生成部４が生成する演算式の例を示す図である。図３に例示する演算式は演算式Ｘ１と、演算式Ｘ２と、演算式Ｘ３とを含む。

演算式Ｘ１は、入力されたソースプログラムに記述された元のループ処理のループ回数Ｎ（図２参照）が指定されたアンロール段数よりも小さいという例外的な場合の処理を表す。そのため、演算式Ｘ１が表す処理については後述する。

演算式Ｘ２が表す処理について説明する。演算式Ｘ２は、ソースプログラムに記述された元のループ処理のループ回数Ｎを、指定されたアンロール段数で除算した際の余りが０以外である場合に、その余りと指定されたアンロール段数との和をアンロール段数とするループ１回分の処理を行うことを表している。

演算式Ｘ２において、元のループ処理のループ回数Ｎを、指定されたアンロール段数（本例では４）で除算した際の余りは、“N%4 ”と表される。この場合、０以外の余りは、“１”，“２”，“３”のいずれかである。余りが１の場合を例にして説明すると、余りと、指定されたアンロール段数“４”との和は、１＋４＝５となる。従って、この場合には以下に示すアンロール段数が５のループ１回分の処理を行うことを、演算式Ｘ２は表している。

{
A[i+0]
= B[i+0] + C[i+0];
A[i+1]
= B[i+1] + C[i+1];
A[i+2]
= B[i+2] + C[i+2];
A[i+3]
= B[i+3] + C[i+3];
A[i+4]
= B[i+4] + C[i+4];

i+=5
}

同様に、演算式Ｘ２は、余りが２である場合にはアンロール段数が６のループ１回分の処理を行い、余りが３である場合にはアンロール段数が７のループ１回分の処理を行うことを表している。

そして、図３に示す演算式は、演算式Ｘ２が表す処理の後に、演算式Ｘ３が表す処理を行うことを表している。また、演算式Ｘ２は、N%4=0 である場合には（すなわち、元のループ処理のループ回数Ｎを、指定されたアンロール段数で除算した余りが０である場合には）、処理を行わないことを表し、次の演算式Ｘ３が表す処理を行うことになる。

演算式Ｘ３が表す処理は、指定されたアンロール段数でループ処理を行うことを表している。

図４は、演算式Ｘ２が表す処理、および、その後に実行される演算式Ｘ３が表す処理を示す模式図である。

図４に模式的に示す処理５１は、演算式Ｘ２（図３参照）が表す処理である。処理５１は、元のループ処理のループ回数を、指定されたアンロール段数で除算した際の余りと、その指定されたアンロール段数の和をアンロール段数とするループ１回分の処理である。

図４に模式的に示す処理５２は、演算式Ｘ３（図３参照）が表す処理である。処理５２は、処理５１の後に実行される。処理５２は、指定されたアンロール段数でのループ処理である。

なお、元のループ処理のループ回数を、指定されたアンロール段数で除算した際の余りが０である場合には、処理５１は実行されずに、処理５２が実行されることになる。

次に、図３に示す演算式Ｘ１が表す処理について説明する。演算式Ｘ１は、入力されたソースプログラムに記述された元のループ処理（図２参照）のループ回数Ｎが、指定されたアンロール段数よりも小さい場合には、元のループ処理と同じループ処理を行うことを表している。

演算式Ｘ２以降は、元の処理のループ回数が指定されたアンロール段数以上の場合に実行される処理を表している。従って、演算式Ｘ１が表す処理が実行される場合には、演算式Ｘ２が表す処理および演算式Ｘ３が表す処理は実行されない。

演算式Ｘ１，Ｘ２，Ｘ３（図３参照）は例示であり、演算式Ｘ１，Ｘ２，Ｘ３の具体的な内容は、元のループ処理に応じて変わる。ただし、生成部４は、演算式Ｘ１，Ｘ２，Ｘ３のそれぞれに相当する演算式を含む演算式を生成する。

なお、生成部４は、演算式Ｘ１に相当する演算式の代わりに、入力されたソースプログラムに記述された元のループ処理のループ回数が、指定されたアンロール段数よりも小さい場合には、そのループ回数をアンロール段数とするループ１回分の処理を行うことを表す演算式を定め、その演算式と、演算式Ｘ２，Ｘ３のそれぞれに相当する演算式を含む演算式を生成してもよい。

置き換え部５は、特定部３によって特定されたソースプログラム内の記述箇所（すなわち、元のループ処理の記述箇所）の演算式を、生成部４が生成した演算式に置き換える。また、元のループ処理を表す演算式の直前にアンロール段数を指定するための所定の書式の文字列が記述されている場合には、その文字列も併せて、生成部４が生成した演算式に置き換える。

特定部３、生成部４および置き換え部５は、例えば、ループアンローリング処理プログラムに従って動作するコンピュータのＣＰＵ（Central Processing Unit ）によって実現される。例えば、ＣＰＵが、コンピュータのプログラム記憶装置等のプログラム記録媒体からループアンローリング処理プログラムを読み込み、そのループアンローリング処理プログラムに従って、特定部３、生成部４および置き換え部５として動作すればよい。

次に、本発明の第１の実施形態の処理経過について説明する。既に説明した事項については、適宜、説明を省略する。図５は、本発明の第１の実施形態の処理経過の例を示すフローチャートである。

入力部２を介してソースプログラムが入力されると、特定部３は、入力されたソースプログラムから、ループ処理を表す演算式の記述箇所を特定する（ステップＳ１）。なお、特定部３が、ループ処理を表す演算式がソースプログラム内に存在しないと判定した場合には、その時点で処理を終了してよい。この点は、後述の第２の実施形態でも同様である。

ステップＳ１の後、生成部４は、アンロール段数の指定を受け付ける（ステップＳ２）。

次に、生成部４は、演算式Ｘ１，Ｘ２，Ｘ３（図３参照）のそれぞれに相当する演算式を含む演算式を生成する（ステップＳ３）。

次に、置き換え部５は、ステップＳ１で特定された記述箇所の演算式を、ステップＳ３で生成された演算式に置き換える（ステップＳ４）。元のループ処理を表す演算式の直前にアンロール段数を指定するための所定の書式の文字列が記述されている場合には、置き換え部５は、その文字列も併せて、ステップＳ３で生成された演算式に置き換える。

なお、入力されたソースプログラム内に、ループ処理を表す演算式の記述箇所が複数存在する場合には、その記述箇所毎に、ステップＳ１～Ｓ４を実行すればよい。

図４に示すように、本実施形態におけるループアンローリングの結果に基づく処理では、元のループ処理のループ回数を指定されたアンロール段数で除算した際の余りと、指定されたアンロール段数との和をアンロール段数とするループ１回分の処理５１（図４参照）を行い、その後、指定されたアンロール段数でループ処理を行う。演算式Ｘ１（図３参照）が示す例外的な処理を行う場合や、アンロール段数として１が指定される場合を除けば、アンロール段数を１としてループ処理を行うことがない。よって、本実施形態によれば、ループアンローリング後の処理をより効率化することができる。

特許文献１に記載の技術と、本願の第１の実施形態とを具体的な数値を用いて比較する。アンロール段数毎のループ処理１回分の処理時間が、図６に示す時間であるとする。また、元の処理のループ回数が７回であり、指定されるアンロール段数が４であるとする。この場合、７を４で除算した際の商は１であり、余りは３である。

上記の例を特許文献１の技術に適用した場合、アンロール段数“１”でループ３回分の処理を行い、アンロール段数“４”でループ１回分の処理を行うことになる。この場合の処理時間は、４＊３＋４＊１＝１６となる。

また、上記の例を本発明の第１の実施形態に適用したとする。この場合、３＋４＝７をアンロール段数とするループ１回分の処理を行う。この例では、この処理で元のループ処理に相当する処理が終了するので、演算式Ｘ３（図３）が表す処理は実行されない。この場合の処理時間は、７＊１＝７となる。

従って、特許文献１の技術と、本発明の第１の実施形態とを比較すると、ループアンローリング結果の処理を実行する際の処理時間は、後者の方が短い。よって、本実施形態によれば、ループアンローリング後の処理をより効率化できていると言える。

また、指定されるアンロール段数の値は、例えば、ソースプログラムを作成するプログラマによって決定される。この場合、プログラマは、種々のアンロール段数を公知のループアンローリング（特許文献１に記載された技術でもよい。）に適用し、良い性能が得られる場合のアンロール段数を特定し、そのアンロール段数を本実施形態のループアンローリング処理装置１に対して指定すればよい。

実施形態２．
第１の実施形態では、元のループ処理のループ回数を指定されたアンロール段数で除算した際の余りと、指定されたアンロール段数との和をアンロール段数とするループ１回分の処理を行うことを表す演算式（図３に示す例では、演算式Ｘ２）を含む演算式を生成する。

前述のように、アンロール段数を増加させ過ぎると性能が悪化する傾向がある。従って、元のループ処理のループ回数を指定されたアンロール段数で除算した際の余りと、指定されたアンロール段数との和が大きすぎると、その和をアンロール段数とするループ１回分の処理に時間がかかってしまうことも考えられる。

そこで、本発明の第２の実施形態では、ループアンローリング処理装置は、アンロール段数の下限、および、アンロール段数の上限の指定を受け付ける。

また、本発明の第２の実施形態のループアンローリング処理装置は、第１の実施形態のループアンローリング処理装置と同様に、図１に示すブロック図で表すことができるので、図１を用いて第２の実施形態を説明する。

入力部２は、第１の実施形態における入力部２と同様である。

入力部２を介して入力されるソースプログラム内で、所定の書式によって、アンロール段数の下限およびアンロール段数の上限が指定されていてもよい。

アンロール段数の下限およびアンロール段数の上限の指定は、ソースプログラムの入力とは別に行われてもよい。例えば、ソースプログラムの入力とは別に、キーボード等の入力デバイス（図１において図示略）を介してアンロール段数の下限およびアンロール段数の上限が入力されることによって、アンロール段数の下限およびアンロール段数の上限が指定されてもよい。

以下に示す例では、入力されるソースプログラム内で、所定の書式によって、アンロール段数の下限およびアンロール段数の上限が指定されていている場合を例にして説明する。

図７は、入力されるソースプログラム内における、アンロール段数の下限およびアンロール段数の上限の指定並びにループ処理を表す演算式の例を示す図である。ソースプログラムには、図７に示す演算式以外の演算式も含まれている。

図７に示す“#pragma unroll( , ) ”は、アンロール段数の下限およびアンロール段数の上限を指定するための所定の書式の一例である。図７では、この書式の括弧内に示された“８”，“１１”がそれぞれアンロール段数の下限、アンロール段数の上限として指定された場合を例示している。また、以下の説明では、アンロール段数の下限およびアンロール段数の上限を指定するための所定の書式は、元のループ処理を表す演算式の直前に記述されるものとする。

特定部３は、入力されたソースプログラムから、ループ処理を表す演算式の記述箇所を特定する。この動作は、第１の実施形態における特定部３の動作と同様であり、説明を省略する。

さらに、ソースプログラム内でアンロール段数の下限およびアンロール段数の上限が指定されている場合には、特定部３は、その指定の記述箇所も特定する。

本例では、特定部３は、ソースプログラム内で、図７に示す演算式の記述箇所を特定する。

生成部４は、特定部３が特定したソースプログラム内の記述箇所に記述された文字列を参照することによって、アンロール段数の下限およびアンロール段数の上限の指定を受け付ける。本例では、生成部４は、図７に示す１行目の所定の書式の文字列に基づいて、アンロール段数の下限として“８”の指定を受け付け、アンロール段数の上限として“１１”の指定を受け付ける。

なお、生成部４は、キーボード等の入力デバイス（図１において図示略）を介して入力された値を取得することによって、アンロール段数の下限およびアンロール段数の上限の指定を受け付けてもよい。

また、生成部４は、入力されたソースプログラム内に記述されたループ処理（本例では、図７に示す２行目から４行目までの演算式が表すループ処理）に対してループアンローリングを行った結果を表す演算式を生成する。

図８は、第２の実施形態の生成部４が生成する演算式の例を示す図である。図８では、演算式の一部を省略している。図８に例示する演算式は、演算式Ｙ０と、演算式Ｙ１と、演算式Ｙ２をと含む。さらに、演算式Ｙ１は、演算式Ｙ１１と、演算式Ｙ１２とを含む。演算式Ｙ２は、演算式Ｙ２１と、演算式Ｙ２２と、演算式Ｙ２３とを含む。

以下の説明では、ソースプログラム内に記述された元のループ処理のループ回数をＮとする。また、指定されたアンロール段数の下限をＬとし、指定されたアンロール段数の上限をＭとする。さらに、ＮをＬで除算した際の商をＱとし、ＮをＬで除算した際の余りをＲとする。

演算式Ｙ０は、Ｌに、指定されたアンロール段数の下限を代入する処理、Ｍに、指定されたアンロール段数の上限を代入する処理、および、Ｑ，Ｒを計算する処理を表している。

演算式Ｙ１は、Ｒ－Ｑ＊（Ｍ－Ｌ）＞０である場合の処理を表し、演算式Ｙ２は、Ｒ－Ｑ＊（Ｍ－Ｌ）＞０でない場合の処理を表す。なお、図８では、Ｒ－Ｑ＊（Ｍ－Ｌ）を変数Ｓで表している。

まず、演算式Ｙ２が表す処理を先に説明する。前述のように、演算式Ｙ２は、演算式Ｙ２１と、演算式Ｙ２２と、演算式Ｙ２３とを含む。

演算式Ｙ２１が表す処理について説明する。演算式Ｙ２１は、アンロール段数をＭとして、Ｒを（Ｍ－Ｌ）で除算した際の商（図８では、R/(M-L) と記述している。）の回数のループ処理を行うことを表している。

図８に示す演算式Ｙ２は、演算式Ｙ２１が表す処理の後に、演算式Ｙ２２が表す処理を行うことを表している。そして、演算式Ｙ２２は、Ｒを（Ｍ－Ｌ）で除算した際の余り（図８では、R % (M-L) と記述している。）が０以外である場合に、その余りとＬとの和をアンロール段数とするループ１回分の処理を行うことを表している。

演算式Ｙ２は、演算式Ｙ２２が表す処理の後に、演算式Ｙ２３が表す処理を行うことを表している。そして、演算式Ｙ２３は、アンロール段数をＬとしてループ処理を行うことを表している。

なお、演算式Ｙ２２が示す処理は、Ｒを（Ｍ－Ｌ）で除算した際の余り（R % (M-L) ）が０である場合には、処理を行わないことを表し、この場合には、演算式Ｙ２１が示す処理の後に、演算式Ｙ２３が表す処理を行うことになる。

図９は、演算式Ｙ２が表す処理を示す模式図である。

図９に模式的に示す処理６１は、演算式Ｙ２に含まれる演算式Ｙ２１（図８参照）が表す処理である。処理６１は、アンロール段数をＭとする、R/(M-L) 回のループ処理である。R/(M-L) は、Ｒを（Ｍ－Ｌ）で除算した際の商であり、整数である。

図９に模式的に示す処理６２は、演算式Ｙ２に含まれる演算式Ｙ２２（図８参照）が表す処理である。処理６２は、アンロール段数をL+R%(M-L) とするループ１回分の処理である。R%(M-L) は、Ｒを（Ｍ－Ｌ）で除算した際の余りである。

図４に模式的に示す処理６３は、演算式Ｙ２に含まれる演算式Ｙ２３（図８参照）が表す処理である。処理６３は、処理６２の後に実行される。処理６３は、アンロール段数の下限Ｌでのループ処理である。

なお、R%(M-L) が０である場合には、処理６１の後に、処理６２は実行されずに、処理６３が実行される。

演算式Ｙ２が表す処理（図８、図９を参照）では、段数Ｒ分の処理を、段数（Ｍ－Ｌ）分の処理に分割し、その段数（Ｍ－Ｌ）分の処理をループ処理の各回に配分していると言える。また、段数Ｒ分の処理を、段数（Ｍ－Ｌ）分の処理に分割した場合の余りに該当する処理（段数R%(M-L) 分の処理）は、処理６２のループ１回分の処理に配分される。また、処理６３は、そのような配分が行われない回のループ処理である。

次に、演算式Ｙ１（図８参照）が表す処理について説明する。前述のように、演算式Ｙ１は、演算式Ｙ１１と、演算式Ｙ１２とを含む。

演算式Ｙ１は、元のループ処理のループ回数Ｎをアンロール段数の下限Ｌで除算した際の余りＲが大きく、ループ処理の各回に配分しきれない場合の処理を示している。

例えば、Ｎ＝７、Ｌ＝４、Ｍ＝６であるとする。この場合Ｑ＝７／４＝１であり、Ｒ＝７％４＝３である。Ｑ＝１であるということは、ループ回数が１回であることを意味する。従って、（Ｍ－Ｌ）段分（すなわち、２段分）の処理を、ループ１回分の処理にしか配分できず、Ｒ＝３段分の処理を全て配分できるわけではない。演算式Ｙ１は、本例のような状態になった場合の例外的な処理を表している。

演算式Ｙ１に含まれる演算式Ｙ１１（図８参照）は、元のループ処理におけるループ１回分の処理を、Ｒ－Ｑ＊（Ｍ－Ｌ）回行うことを示している。上記の例のような、Ｎ＝７、Ｌ＝４、Ｍ＝６、Ｑ＝１、Ｒ＝３の場合には、Ｒ－Ｑ＊（Ｍ－Ｌ）＝３－１＊（６－４）＝１となる。従って、上記の例の場合、元のループ処理におけるループ１回分の処理を１回行うことになる。

図８に示す演算式Ｙ１は、演算式Ｙ１１が表す処理の後に、演算式Ｙ１２が表す処理行うことを表している。そして、演算式Ｙ１２は、アンロール段数をＭとしてループ処理を行うことを表している。上記の例において、アンロール段数をＭとした場合のループ処理のループ回数は１回である。

従って、上記の例の場合における演算式Ｙ１が表す処理は、図１０のように表される。処理７１は、元のループ処理におけるループ１回分の処理を、Ｒ－Ｑ＊（Ｍ－Ｌ）＝１回行う処理である。処理７２は、アンロール段数をＭ＝６とした場合のループ処理である。ただし、本例では、処理７２におけるループ回数は１回である。

図８に示す演算式Ｙ０，Ｙ１，Ｙ２は例示であり、演算式Ｙ０，Ｙ１，Ｙ２の具体的な内容は、元のループ処理に応じて変わる。ただし、第２の実施形態の生成部４は、演算式Ｙ０，Ｙ１，Ｙ２のそれぞれに相当する演算式を含む演算式を生成する。

置き換え部５は、特定部３によって特定されたソースプログラム内の記述箇所（すなわち、元のループ処理の記述箇所）の演算式を、生成部４が生成した演算式に置き換える。また、元のループ処理を表す演算式の直前にアンロール段数の下限およびアンロール段数の上限を指定するための所定の書式の文字列が記述されている場合には、その文字列も併せて、生成部４が生成した演算式に置き換える。

次に、本発明の第２の実施形態の処理経過について説明する。既に説明した事項については、適宜、説明を省略する。図１１は、本発明の第２の実施形態の処理経過の例を示すフローチャートである。

入力部２を介してソースプログラムが入力されると、特定部３は、入力されたソースプログラムから、ループ処理を表す演算式の記述箇所を特定する（ステップＳ１）。ステップＳ１は、第１の実施形態におけるステップＳ１（図５参照）と同様である。

ステップＳ１の後、生成部４は、アンロール段数の下限およびアンロール段数の上限の指定を受け付ける（ステップＳ１２）。

次に、生成部４は、演算式Ｙ０，Ｙ１，Ｙ２（図８参照）のそれぞれに相当する演算式を含む演算式を生成する（ステップＳ１３）。

次に、置き換え部５は、ステップＳ１で特定された記述箇所の演算式を、ステップＳ１３で生成された演算式に置き換える（ステップＳ１４）。元のループ処理を表す演算式の直前にアンロール段数の下限およびアンロール段数の上限を指定するための所定の書式の文字列が記述されている場合には、置き換え部５は、その文字列も併せて、ステップＳ１３で生成された演算式に置き換える。

なお、入力されたソースプログラム内に、ループ処理を表す演算式の記述箇所が複数存在する場合には、その記述箇所毎に、ステップＳ１～Ｓ１４を実行すればよい。

図９に示すように、本実施形態におけるループアンローリングの結果に基づく処理では、アンロール段数をＭとして、Ｒを（Ｍ－Ｌ）で除算した際の商の回数のループ処理を行い、その後、Ｒを（Ｍ－Ｌ）で除算した際の余りと、アンロール段数の下限Ｌとの和をアンロール段数とするループ１回分の処理を行い、さらにその後、アンロール段数をＬとしてループ処理を行う。従って、Ｒ段分の処理をループ処理の各回に配分できないような例外的な場合や、アンロール段数の下限として１が指定される場合を除けば、アンロール段数を１としてループ処理を行うことがない。よって、本実施形態によれば、ループアンローリング後の処理をより効率化することができる。

さらに、本実施形態では、アンロール段数が上限のＭより大きくなることはない。従って、アンロール段数が大きくなり過ぎて、実行プログラムの性能が悪化することを防止できる。

なお、各実施形態において、ループアンローリング処理装置１は、ステップＳ４（図５参照）の後や、ステップＳ１４（図１１参照）の後に、書き換え後のソースプログラムをデータ記録媒体に記録してもよい。また、ループアンローリング処理装置１は、書き換え後のソースプログラムに基づいて、実行プログラムを生成してもよい。

図１２は、本発明の各実施形態のループアンローリング処理装置１に係るコンピュータの構成例を示す概略ブロック図である。例えば、コンピュータ１０００は、ＣＰＵ１００１と、主記憶装置１００２と、補助記憶装置１００３と、インタフェース１００４と、データ記録媒体に記録されたソースプログラムを読み込むデータ読み込み装置１００５とを備える。

本発明の各実施形態のループアンローリング処理装置１は、コンピュータ１０００によって実現される。ループアンローリング処理装置１の動作は、プログラム（ループアンローリング処理プログラム）の形式で、補助記憶装置１００３に記憶されている。ＣＰＵ１００１は、プログラムを補助記憶装置１００３から読み出して主記憶装置１００２に展開し、そのプログラムに従って、上記の各実施形態で説明した処理を実行する。この場合、入力部２は、データ読み込み装置１００５によって実現される。特定部３、生成部４および置き換え部５は、ＣＰＵ１００１によって実現される。

補助記憶装置１００３は、一時的でない有形の媒体の例である。一時的でない有形の媒体の他の例として、インタフェース１００４を介して接続される磁気ディスク、光磁気ディスク、ＣＤ－ＲＯＭ（Compact Disk Read Only Memory ）、ＤＶＤ－ＲＯＭ（Digital Versatile Disk Read Only Memory ）、半導体メモリ等が挙げられる。また、プログラムが通信回線によってコンピュータ１０００に配信される場合、配信を受けたコンピュータ１０００がそのプログラムを主記憶装置１００２に展開し、そのプログラムに従って上記の実施形態で説明した処理を実行してもよい。

また、各構成要素の一部または全部は、汎用または専用の回路（circuitry ）、プロセッサ等やこれらの組合せによって実現されてもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各構成要素の一部または全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。

各構成要素の一部または全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。

次に、本発明の概要について説明する。図１３は、本発明のループアンローリング処理装置の概要を示すブロック図である。ループアンローリング処理装置は、特定部３と、生成部４と、置き換え部５とを備える。

特定部３は、入力されたソースプログラムから、ループ処理を表す演算式の記述箇所を特定する。

生成部４は、そのループ処理のループ回数を、指定されたアンロール段数で除算した際の余りが０以外である場合に、当該余りと指定されたアンロール段数との和をアンロール段数とするループ１回分の処理を行うこと、および、その後に、指定されたアンロール段数でループ処理を行うことを表す演算式を生成する。

置き換え部５は、特定部３によって特定された記述箇所の演算式を、生成部４によって生成された演算式に置き換える。

そのような構成により、ループアンローリング後の処理をより効率化することができる。

また、生成部４が、入力されたソースプログラムに記述されたループ処理のループ回数が、指定されたアンロール段数よりも小さい場合には、そのループ処理と同じループ処理を行うことを表す演算式を含む演算式を生成してもよい。

また、生成部４が、入力されたソースプログラムに記述されたループ処理のループ回数が、指定されたアンロール段数よりも小さい場合には、そのループ回数をアンロール段数とするループ１回分の処理を行うことを表す演算式を含む演算式を生成してもよい。

また、生成部４が、入力されたソースプログラムに記述された所定の書式によって、アンロール段数の指定を受け付けてもよい。

また、図１３に示す生成部４は、以下の動作を行ってもよい。すなわち、生成部４は、元のループ処理のループ回数をＮとし、指定されたアンロール段数の下限をＬとし、指定されたアンロール段数の上限をＭとし、ＮをＬで除算した際の商をＱとし、ＮをＬで除算した際の余りをＲとしたときに、Ｒ－Ｑ＊（Ｍ－Ｌ）＞０である場合に、元のループ処理におけるループ１回分の処理をＲ－Ｑ＊（Ｍ－Ｌ）回行うこと、および、その後に、アンロール段数をＭとしてループ処理を行うことを示す演算式と、Ｒ－Ｑ＊（Ｍ－Ｌ）＞０でない場合に、アンロール段数をＭとして、Ｒを（Ｍ－Ｌ）で除算した際の商の回数のループ処理を行うこと、その後、Ｒを（Ｍ－Ｌ）で除算した際の余りが０以外である場合に当該余りとＬとの和をアンロール段数とするループ１回分の処理を行うこと、および、その後に、アンロール段数をＬとしてループ処理を行うことを示す演算式とを含む演算式を生成してもよい。

この場合、生成部４が、入力されたソースプログラムに記述された所定の書式によって、アンロール段数の下限およびアンロール段数の上限の指定を受け付けてもよい。

以上、実施形態を参照して本願発明を説明したが、本願発明は上記の実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

産業上の利用の可能性

本発明は、ソースプログラム内に記述されたループ処理に対してループアンローリングを行うループアンローリング処理装置、方法およびプログラムに好適に適用可能である。

１ループアンローリング処理装置
２入力部
３特定部
４生成部
５置き換え部

Claims

入力されたソースプログラムから、ループ処理を表す演算式の記述箇所を特定する特定部と、
前記ループ処理のループ回数をＮとし、指定されたアンロール段数の下限をＬとし、指定されたアンロール段数の上限をＭとし、ＮをＬで除算した際の商をＱとし、ＮをＬで除算した際の余りをＲとしたときに、
Ｒ－Ｑ＊（Ｍ－Ｌ）＞０である場合に、前記ループ処理におけるループ１回分の処理をＲ－Ｑ＊（Ｍ－Ｌ）回行うこと、および、その後に、アンロール段数をＭとしてループ処理を行うことを示す演算式と、
Ｒ－Ｑ＊（Ｍ－Ｌ）＞０でない場合に、アンロール段数をＭとして、Ｒを（Ｍ－Ｌ）で除算した際の商の回数のループ処理を行うこと、その後、Ｒを（Ｍ－Ｌ）で除算した際の余りが０以外である場合に当該余りとＬとの和をアンロール段数とするループ１回分の処理を行うこと、および、その後に、アンロール段数をＬとしてループ処理を行うことを示す演算式と
を含む演算式を生成する生成部と、
前記特定部によって特定された前記記述箇所の演算式を、前記生成部によって生成された演算式に置き換える置き換え部とを備える
ことを特徴とするループアンローリング処理装置。
前記生成部は、
入力された前記ソースプログラムに記述された所定の書式によって、アンロール段数の下限およびアンロール段数の上限の指定を受け付ける
請求項１に記載のループアンローリング処理装置。
入力されたソースプログラムから、ループ処理を表す演算式の記述箇所を特定し、
前記ループ処理のループ回数をＮとし、指定されたアンロール段数の下限をＬとし、指定されたアンロール段数の上限をＭとし、ＮをＬで除算した際の商をＱとし、ＮをＬで除算した際の余りをＲとしたときに、
Ｒ－Ｑ＊（Ｍ－Ｌ）＞０である場合に、前記ループ処理におけるループ１回分の処理をＲ－Ｑ＊（Ｍ－Ｌ）回行うこと、および、その後に、アンロール段数をＭとしてループ処理を行うことを示す演算式と、
Ｒ－Ｑ＊（Ｍ－Ｌ）＞０でない場合に、アンロール段数をＭとして、Ｒを（Ｍ－Ｌ）で除算した際の商の回数のループ処理を行うこと、その後、Ｒを（Ｍ－Ｌ）で除算した際の余りが０以外である場合に当該余りとＬとの和をアンロール段数とするループ１回分の処理を行うこと、および、その後に、アンロール段数をＬとしてループ処理を行うことを示す演算式と
を含む演算式を生成し、
前記記述箇所の演算式を、生成した演算式に置き換える
ことを特徴とするループアンローリング処理方法。
コンピュータに、
入力されたソースプログラムから、ループ処理を表す演算式の記述箇所を特定する特定処理、
前記ループ処理のループ回数をＮとし、指定されたアンロール段数の下限をＬとし、指定されたアンロール段数の上限をＭとし、ＮをＬで除算した際の商をＱとし、ＮをＬで除算した際の余りをＲとしたときに、
Ｒ－Ｑ＊（Ｍ－Ｌ）＞０である場合に、前記ループ処理におけるループ１回分の処理をＲ－Ｑ＊（Ｍ－Ｌ）回行うこと、および、その後に、アンロール段数をＭとしてループ処理を行うことを示す演算式と、
Ｒ－Ｑ＊（Ｍ－Ｌ）＞０でない場合に、アンロール段数をＭとして、Ｒを（Ｍ－Ｌ）で除算した際の商の回数のループ処理を行うこと、その後、Ｒを（Ｍ－Ｌ）で除算した際の余りが０以外である場合に当該余りとＬとの和をアンロール段数とするループ１回分の処理を行うこと、および、その後に、アンロール段数をＬとしてループ処理を行うことを示す演算式と
を含む演算式を生成する生成処理、および、
前記特定処理で特定された前記記述箇所の演算式を、前記生成処理で生成された演算式に置き換える置き換え処理
を実行させるためのループアンローリング処理プログラム。