JPH0241562A

JPH0241562A - ベクトル演算列分割処理方式

Info

Publication number: JPH0241562A
Application number: JP19228888A
Authority: JP
Inventors: Masaki Aoki; 正樹青木
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1988-08-01
Filing date: 1988-08-01
Publication date: 1990-02-09

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔概要〕ベクトルプロセッサで実行するプログラムの最適化処理
機能を持つコンパイラにおけるベクトル演算列分割処理
方式に関し。

ベクトルプロセッサにおける各パイプラインの使用密度
を高め、演算実行の効率がよいオブジェクトプログラム
を生成する手段を提供することを目的とし。

ベクトル化されたベクトル演算列の演算の種類数および
ベクトル長に基づく所定の条件により。

ベクトル演算列に関する分割処理を行うか否かを判定す
るベクトル演算列分割条件判定部と、所定の分割条件が
満たされたベクトル演算列について。

異なるベクトルレジスタの組を用いて、多重に展開する
ベクトル演算列分割部とを備え、処理構造制御用のベク
トル長に応じて必要となるループについて、外部ループ
の有無に関係なく、ループアンローリングを行うように
構成゛する。

〔産業上の利用分野〕

本発明は、ベクトルプロセッサで実行するプログラムの
最適化処理機能を持つコンパイラにおけるベクトル演算
列分割処理方式に関する。

例えば、ＦＯＲＴＲＡＮ言語ＴＲ上り作成されたプログ
ラムを、ベクトルプロセッサを用いて実行させるために
、自動的にベクトル演算列を生成するコンパイラが用い
られている。このコンパイラが生成するオブジェクトプ
ログラムについてベクトル化率を上げるとともに、ベク
トルプロセッサにおけるパイプラインによる演算実行の
密度を高め、ベクトルプロセッサの資源を最大限存効に
使用できるようにする技術が必要とされている。

〔従来の技術〕

ＦＯＲＴＲＡＮ言語ＴＲ上り作成されたプログラムのＤ
Ｏループを、ループアンローリングすることによって、
実行性能の向上を狙う最適化／チューニングの技術が、
従来から用いられている。

ループアンローリングは、同じ命令列が何回か繰り返し
実行される場合に、その繰り返し対象となる命令列を多
重に展開することにより、ループ回数を削減し、実行の
高速化を図る処理である。

例えば、オリジナルのソースプログラムが、以下のとお
りであったとする。

Ｄｏ　１０　Ｊ、１．ＮＤｏ　１０　Ｉ＝１．ＶＬ１０　　Ａ（１，Ｊ）・Ｂ　（１、Ｊ）　＋Ｃ（１、Ｊ
）このプログラムについて１通常のスカラ計算機での実
行性能を向上させるために、ループアンローリングをし
た結果は１次のような内容となる。

Ｄｏ　１０　、ｒ＝ｔ、ＮＤｏ　１０１＝１．ＶＬ、２Ａ　（１、Ｊ）　＝８　（１、Ｊ）　＋Ｃ（Ｔ　、　Ｊ
）１０　　Ａ（１＋１．Ｊ）＝Ｂ（Ｉ＋１．Ｊ）＋Ｃ（
１＋１．Ｊ）このループアンローリングでは、配列Ｂと
配列Ｃのデータとを加算し配列Ａに設定する処理を二重
化することにより、ループ回数を半減させている。

このループアンローリングを、ベクトルプロセッサで実
行するプログラムに適用した場合、ループ回数が半分に
なるので、ベクトル長が半減し。

また、距離付きのメモリアクセスとなって、かえって実
行速度が低下することがある。

そこで、ベクトルプロセッサで実行するプログラム用に
は、その最適化のために、従来、ループが多重化されて
いる場合に、外側ループ中のデータ依存関係を解析し、
その結果に従って、外側ループの回転数を１／Ｎとし、
ベクトル化後のベクトル演算列をＮ倍に展開するループ
アンローリングが用いられている（参照：特開昭６２−
１６９２７２号公報等）。

前述のソースプログラムを、ベクトルプロセッサによる
実行用にループアンローリングした結果は、以下のとお
りである。

Ｄｏ　１０　Ｊ＝ＬＮ＋２Ａ（率、Ｊ）＝８（＊、Ｊ）＋Ｃ（＊、Ｊ）１０　　　
　Ａ（＊、Ｊ＋１）＝８（＊、Ｊ＋１）＋Ｃ（本、Ｊ＋
１）ここで、＊は、１からＶＬまでの値をとるベクトル
を示している。

〔発明が解決しようとする課題〕

以上のような従来のベクトル演算列ループアンローリン
グ処理方式の場合には、ベクトル演算列の外側にループ
が構えていなければ、適用することができないという問
題がある。すなわち、ループが多重化されていない場合
を含めて、もっとも内側のループに対してのみ、ループ
アンローリングを行うことはできず、無理してループア
ンローリングを行うと、ベクトルプロセッサ用では、か
えって実行速度が低下することがあるという問題がある
。

本発明は上記問題点の解決を図り、構造を制御するため
のベクトル長に応じて必要となるベクトル処理のループ
に着目して、ソースプログラムではループが多重化され
ていない場合でも、ループアンローリングを行い、ベク
トルプロセッサにおける各パイプラインの使用密度を高
め、演算実行の効率がよいオブジェクトプログラムを生
成できるようにすることを目的としている。

〔課題を解決するための手段〕

第１図は本発明の構成例を示す。

第１図において、１０は計算機用の高級言語により記述
されたソースプログラム、１１はＣＰＵおよびメモリ等
からなる処理装置、１２はソースプログラム１０を計算
機が実行可能な機械語に翻訳するコンパイラ、１３はソ
ースプログラム１０を入力し解析するプログラム入力部
、１４は中間テキストについてベクトル化を行うベクト
ル化処理部、１５は実行性能を上げるための最適化を行
う最適化処理部、１６はベクトル演算列分割条件判定部
、１７はベクトル演算列分割部、１８は最適化に応じて
ベクトル長を決定するベクトル長決定部、１９はオブジ
ェクト生成部、２０はソースプログラム１０に対応する
機械語コード列からなるオブジェクトプログラムを表す
。

プログラム入力部１３は、ソースプログラム１０から処
理すべきソースステートメントを入力する。この人力プ
ログラムを解析することにより。

中間テキストを生成する。コンパイラ１２は、自動ベク
トル化機能を備えており、ベクトル化処理部１４によっ
て、中間テキストを解読し、ヘクトル化可能なものを検
出して、ベクトル演算列を生成する。

ベクトル演算列分割条件判定部１６は、ベクトル化され
たベクトル演算列の演算の種類、数およびベクトル長に
基づく所定の条件により、ベクトル演算列に関する分割
処理を行うか否かを判定する処理を行うものである。ベ
クトル演算列に関する分割処理を行う場合、ベクトル演
算列分割部１７を起動する。分割処理を行わない場合、
ベクトル演算列分割部１７による処理を省略し、従来と
同様なオブジェクト展開が行われるように処理する。

ベクトル演算列分割部１７は、所定の分割条件が満たさ
れたベクトル演算列について、異なるベクトルレジスタ
の組を用いて、多重に展開する処理を行うものである。

この展開にあたって、処理構造制御用のベクトル長に応
じて必要となるループに着目し、外部ループの有無に関
係なく、ループアンローリングを行う。

ベクトル長決定部１日は、ベクトル演算列のベクトル長
を決定する。最適化処理部１５においてループアンロー
リングされた中間テキストは、必要に応して、さらに他
の手段により最適化される。

オブジェクト生成部１９は、最終的にオブジェクトプロ
グラム２０を生成し、指定された記憶媒体に出力する。

〔作用〕ベクトル化されたベクトル演算列のベクトルの長さが、
使用可能なベクトルレジスタ数などにより決定したベク
トル長よりも十分に長いと予想される場合に、構造を制
御するために設定したベクトル長でもって、ベクトル処
理を操り返す必要がある。そこで１本発明では、その部
分について分割処理によるループアンローリングの対象
とする。

ベクトル演算列分割条件判定部１６による判定の条件値
は、厳密には、実行マシンの演算パイプラインの特性に
よって異なる０例えば、以下の場合には１分割処理によ
って、実行速度が低下するおそれがあるので３分割処理
を行わずに、従来と同様な通常処理とする。

［ベクトル長に関する分割不可条件］ベクトル演算列のベクトル長が短い。

［演算列に関する分割不可条件］演算の数が多い（例えば２０以上のとき）。

演算の種顕が、ロード・ストアのみである。

このような条件をクリアしたベクトル演算列について、
ベクトル演算列分割部１７により、所定のベクトル長以
上のベクトル演算列を分割して。

多重に展開する。これによって、実行時にパイプライン
の演算密度が高まり、高速な実行が可能になる。

〔実施例〕

第２図は本発明の一実施例処理フロー、第３図および第
４図は本発明による展開例を示す。

本発明に関連する部分のコンパイラの処理は例えば第２
図に示すようになる。以下の説明における■〜■は、第
２図に示す処理■〜■に対応する。

■　コンパイル対象プログラム中のループまたは配列の
ベクトル記述により、中間テキストがベクトル化されて
いる場合に、１回設定したベクトル長が存効となる制御
範囲の中で、使用可能なベクトルレジスタの数を調べ、
それから構造を制御するためのベクトル長を仮定する。

■　最適化対象となっているベクトル演算列のベクトル
長が、所定の条件値より短いかどうかを判定する。短い
場合、処理０へ移る。

■　ベクトル演算列における演算の数が多いかどうかを
判定する。演算の数が多い場合、処理■へ移る。

■　ベクトル演算列における演算の種類が、ロードおよ
びストアのみであるかどうかを判定する。

ロード・ストアのみである場合には、処理◎へ移る。

■　ソースプログラム中のループ回数またはベクトル記
述の長さを、処理■で仮定したベクトル長で割った余り
の部分について、そのベクトル演算を行うベクトル命令
のテキストを生成する。

■　ソースプログラム中のループ回数またはベクトル記
述の長さを、処理■で仮定したベクトル長で割った商を
、ベクトル処理回数とする。

■　何重に展開するかの分割数を決定する。この分割数
は、固定とするのではなく、ベクトル演算列と各マシン
のパイプライン特性とにより決定するのが望ましい。

■　ベクトル処理回数を分割数で割った余りの部分につ
いて、そのベクトル演算を行うベクトル命令のテキスト
を生成する。

■　ベクトル演算列を分割数に応じて多重に展開したテ
キストを生成する。実行時には、この部分の実行が、パ
イプラインの効率的な使用により、高速化することにな
る。

［相］　展開結果に従って、ベクトル長を決定する。

ここで、前に仮定したベクトル長による展開がうまくい
かない場合には、再度、ベクトル長を仮定しなおすとか
１通常処理による展開に移行するとかしてもよい。

■　処理■、■、■により５分割不可条件のいずれかに
該当し１分割処理を行わないと判定された場合、従来と
同様な通常のベクトル演算列によるテキストとし１本発
明に係るループアンローリングによる最適化を行わない
。

次に、第３図および第４図に従って、ＦＯＲＴＲＡＮプ
ログラムについて１本発明を通用した具体例を説明する
。

この例で用いているベクトル命令の記述は、それぞれ次
の意味を持つ。

・ＶＬＶＬ　（ベクトル長設定命令）ベクトルレジスタで扱うベクトルの長さを設定する。

・ＶＬ（ベクトルロード命令）ベクトルデータを、第２オペランドで指定されたメモリ
から、第１オペランドで指定されたベクトルレジスタに
ロードする。

・ＶＡ（ベクトル加算命令）第２オペランドと第３オペランドのベクトルレジスタ中
のデータを加算し、第１オペランドで指定されたベクト
ルレジスタに設定する。

・ＶＳＴ　（ベクトルストア命令）第２オペランドで指定されたベクトルレジスタ中のデー
タを、第１オペランドで指定されたメモリにストアする
。

なお、他の記述については、ＦＯＲＴＲＡＮ等の記述に
準じているので、説明を省略する。

第３図（イ）に示すソースプログラム１０を展開すると
する。ベクトル長は５１２と仮定し、このプログラム中
におけるループ回数Ｎは、５１２で割り切れないものと
する。

分割処理の判定条件が満たされない場合の通常処理によ
る展開結果は、第３図に示す（ロ）または（ハ）のよう
になる、この展開は、従来から行われていた展開で、特
に、　（ロ）はベクトル長制御ループ方式、　（ハ）は
ＭＯＤ方式と呼ばれている。通常処理の場合、ベクトル
長制御のための処理構造は、この２つのいずれかが選択
される。

第３図（ロ）では、ループ回数Ｎをベクトル長の５１２
で割り、それに１を加えたものをベクトル処理回数とし
、１回目の処理では、Ｎを５１２で割った剰余部分の演
算を行い、２回目以降ではベクトル長を５１２として、
演算を行っている。

なお、変数■Ｓはメモリ上の配列に対するインデックス
として用いられている。

第３図（ハ）では、ループ回数Ｎを５１２で割った剰余
のベクトル長により、まず演算を行い。

そこで演算が終了した場合には３図示省略した９９のラ
ベル位置（最終行の次の位置）へ分岐する。

そして、演算が未終了の部分について、ベクトル長を５
１２としたベクトル処理を繰り返す。

分割処理の判定条件が満たされている場合には。

第３図（ニ）に示すように２本発明に係る分割処理によ
る展開が行われる。ここでは、Ｎが変数であり、ベクト
ル長を５１２と仮定している。

第３図（ニ）における最初のＣａ＋の部分では、第３図
（ハ）に示したＭＯＤ方式の場合と同様に。

ループ回数Ｎを５１２で割った剰余のベクトル長により
、まず演算を行っている。（′ｂ１．　ｆｃｌでは１分
割数を２とし、まず、ループ回数Ｎを５１２で割った商
りが、奇数である場合に、ループアンローリング対象の
ベクトル処理を偶数回にするために。

１回分の演算を実行するテキストを、（ｂ）のように生
成する。

そして、（Ｇ）に示すように、ループ処理回数りを２分
の１にし、ベクトルレジスタＶＲＩ〜ＶＲ３と、ベクト
ルレジスタＶＲ４〜ＶＲ６の異なる組を用いて、ベクト
ル演算列を２重に展開する。この部分の実行が速くなる
ことになる。

ループ回数Ｎが定数である場合には、ＮやＬに関する判
定処理等を省略した展開を行うことは言うまでもない。

第４図（イ）に示すソースプログラム１０に対する展開
は１次のように行われる。

このソースプログラム１０中における内部ループのルー
プ回数ＶＬが、１２２４であるとする。

このソースプログラムｌＯについてのベクトル化後のソ
ースイメージは、第４図（ロ）図示のようになる。ここ
で、＊は、配列の１：ＶＬ（１からＶＬまで）がベクト
ルであることを示す。

分割処理を行わない従来方式によるベクトル演算列の展
開は、第４図（ハ）に示すようになる。

構造を制御するためのベクトル長は５１２と仮定してい
る。ループ回数ＶＬが１２２４であるので。

これを５１２で割った余りのＬｌは２００となり。

最初に１　：　２００のベクトルデータについての処理
を行っている０次にベクトル長を５１２にした処理を２
回繰り返している。

本発明に係る分割処理によるループアンローリングを行
った結果は、第４図（ニ）に示すようになる。第４図（
ハ）では、ベクトル長を５１２にしたベクトル演算の処
理を２回繰り返しているがその部分が、第４図（ニ）で
は、ベクトルレジスタＶＲＩ〜ＶＲ３の他に、ベクトル
レジスタＶＲ４〜ＶＲ６を用いることにより、２重に展
開され。

それによって、内部ループが解消されている。

〔発明の効果〕

以上説明したように１本発明によれば、ベクトル演算列
の分割処理を、外部ループのを無に関係なく行うので、
これによって生成されたプログラムを、ベクトルプロセ
フすで実行させると、各パイプラインの使用密度が高ま
り、効率のよい演算実行が可能となる。

【図面の簡単な説明】

第１図は本発明の構成例。第２図は本発明の一実施例処理フロー第３図および第４図は本発明による展開例を示す。図中、１０はソースプログラム、１１は処理装置、１２
はコンパイラ、１３はプログラム入力部。１４はベクトル化処理部、１５は最適化処理部。１６はベクトル演算列分割条件判定部、１７はべクトル
演算列分割部、１８はベクトル長決定部。１９はオブジェクト生成部、２０はオブジェクトプログ
ラムを表す。

Claims

【特許請求の範囲】命令列のループまたは配列のベクトル記述を持つソース
プログラムについてベクトル化を行い、ベクトル演算列
を含むオブジェクトプログラムを生成するコンパイル処
理機能を有するデータ処理システムにおいて、ベクトル化されたベクトル演算列の演算の種類、数およ
びベクトル長に基づく所定の条件により、ベクトル演算
列に関する分割処理を行うか否かを判定するベクトル演
算列分割条件判定部（１６）と、所定の分割条件が満た
されたベクトル演算列について、異なるベクトルレジス
タの組を用いて、多重に展開するベクトル演算列分割部
（１７）とを備え、処理構造制御用のベクトル長に応じて必要となるループ
について、外部ループの有無に関係なく、ループアンロ
ーリングを行うようにしたことを特徴とするベクトル演
算列分割処理方式。