JPH04293150A

JPH04293150A - コンパイル方法

Info

Publication number: JPH04293150A
Application number: JP8054991A
Authority: JP
Inventors: Kyoko Iwazawa; 岩澤　京子; Giichi Tanaka; 義一田中
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1991-03-20
Filing date: 1991-03-20
Publication date: 1992-10-16

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、並列計算機システムに
係わり、特に逐次プロセッサ用のソースプログラムに対
してベクトル処理と並列処理を最適に選択することによ
り、実行効率の高いオブジェクトコードを生成するコン
パイル方法に関する。

【０００２】

【従来の技術】従来、１プロセッサのベクトル計算機に
対しては、「プログラム実行方法（特開昭６１−２８５
５４４）」に記したように、スカラ処理とベクトル処理
の両方のオブジェクトを生成し、ループ長が確定する実
行時にいずれを実行するかを判定をする手法も取られて
きた。しかし、ベクトル処理かスカラ処理の二者択一の
時は２種類のオブジェクトだからよいが、これにループ
構造変換や並列処理化が加わると場合の数が多くなりオ
ブジェクトサイズも非現実的になってしまう。計算速度
の向上のために、プロセッサを複数台並べて同時に動か
す、並列計算機システムが考案されてきた。既に製品化
されているスーパーコンピュータと呼ばれるメモリ共有
型のものでもＣＲＡＹ社のＸ−ＭＰやＹ−ＭＰ，ＥＴＡ
社のＥＴＡシリーズ、Ａｌｌｉａｎｔ社のＦＸシリーズ
、Ｃｏｎｖｅｃ社のＣシリーズなどがある。これらは、
並列に動作するプロセッサがベクトル演算器やベクトル
レジスタを有し、各々ベクトル処理が可能である。このような計算機を以下ベクトル並列計算機と呼ぶ。

【０００３】ベクトル計算機を並列に動かすスーパーコ
ンピュータのコンパイラについての論文には、Ｄａｖｉ
ｄ　　Ａ．Ｐａｄｕａ，Ｍｉｃｈａｅｌ　　Ｊ．Ｗｏｌ
ｆｅ著ＡＤＶＡＮＣＥＤ　　ＣＯＭＰＩＬＥＲ　　ＯＰＴＩＭ
ＩＺＡＴＩＯＮＳ　　ＦＯＲＳＵＰＥＲＣＯＭＰＵＴＥ
Ｒ，Ｃｏｍｍｕｎｉｃａｔｉｏｎｓ　　ｏｆ　　ｔｈｅ
ＡＣＭＤｃｅｍｂｅｒ　　１９８６　　Ｖｏｌ．２９　
　Ｎｏ．１２　　ｐ１１８４ｐ〜ｐ１２０１がある。ここでは、配列データをまとめて演算するベク
トル処理や、独立した処理を並列に別々のプロセッサで
実行する並列処理の各々についてのデータ依存関係から
の適用条件やプログラム変換例が記述されているが、ベ
クトル処理と並列処理の優先順位やその組み合わについ
ては、何も論じられていない。

【０００４】Ａｌａｎ　　Ｈ．Ｋａｒｐ，Ｒｏｂｅｒｔ
　　Ｇ．ＢａｂｂＩＩ著Ａ　　Ｃｏｍｐａｒｉｓｏｎ　　ｏｆ　　１２　　Ｐａ
ｒａｌｌｅｌ　　ＦｏｒｔｒａｎＤｉａｌｅｃｔｓＩＥ
ＥＥ　　Ｓｏｆｔｗａｒｅ　　０７４０−７４５９／８
８／０９００／００５２／Ｓ０１．００Ｓｅｐｔｅｍｂ
ｅｒ　　１９８８　　ｐ５２〜ｐ６６には、様々の並列
計算機に対して、独立した処理を並列に別々のプロセッ
サで実行させるためにＦＯＲＴＲＡＮ言語で記述したソ
ースプログラムについて述べられている。ここには、Ａ
ｌｌｉａｎｔ　　ＦＸ／８や　　ＣＲＡＹ　　Ｘ−ＭＰ
のようにベクトルプロセッサを並列に動かす計算機の例
もあるが、並列処理を行なうときに、配列データをまと
めて計算するベクトル処理をどのように行なうかついて
は述べられていない。したがって、Ａｌｌｉａｎｔ　　
ＦＸ／８やＣＲＡＹ　　Ｘ−ＭＰにおいては、どの繰り
返し処理をベクトル処理で実行し、どの処理を並列処理
で実行するかはユーザが判断し、ソースプログラムに指
示文を挿入する必要がある。また、特開平１−１０８６
３８公報には、逐次実行型の高級言語で記述されたソー
スプログラムを並列計算機システムで並列に実行させる
ことについて述べられており、逐次実行型の高級言語で
記述されたソースプログラムについて並列化の可能性を
検査し、可能な並列化の手段のそれぞれについて処理時
間を推定し、最も処理時間の少ない並列化の手段を採用
してオブジェクトプログラムを生成する並列化コンパイ
ル方式について記載されている。

【０００５】

【発明が解決しようとする課題】Ａｌｌｉａｎｔ　　Ｆ
Ｘ／８やＣＲＡＹ　　Ｘ−ＭＰにおける上記従来技術で
は、並列に実行する処理をユーザが指示しなければなら
ない。オブジェクトを生成するコンパイル処理において
、コンパイラは自動的にベクトル化変換処理を行い、ユ
ーザにより並列化変換処理が指示された場合にコンパイ
ラは並列化変換処理を行うというように、ベクトル化変
換処理と並列化変換処理が別々に行なわれていたため、
常に一方の変換処理が優先され、他方は付随的な変換処
理になってしまう。その結果、生成したオブジェクトは
ベクトル化変換や並列化変換の処理は各々実施されてい
るが、その実行速度はベクトル並列計算機システムとし
ての最大性能とはいえない。また、上記公報に記載され
た従来技術では、オブジェクトを生成するコンパイル処
理において、コンパイラは自動的に並列化変換処理を行
っているが、上記公報には、ベクトル化変換可否、並列
化変換可否を判定し、ベクトル処理、並列処理等の処理
の可能な組合せの内の最も処理効率のよい組合せについ
てオブジェクトを生成するコンパイル方法については記
載されていない。

【０００６】例えば、図２ａ〜図２ｃのソースプログラ
ムに対して、上記ＡｌｌｉａｎｔＦＸ／８やＣＲＡＹ　
　Ｘ−ＭＰにおける従来技術では以下の問題点があった
。図２ａのソースプログラムの場合、従来技術では、ルー
プ長が長いにもかかわらずユーザ指示文があれば並列化
変換処理を施し、なければ自動的にベクトル化変換処理
を施すだけで、図５ａにＦＯＲＴＲＡＮイメージで示す
ようなベクトル処理を並列に行なう図５ａに示すような
中間コード（図５ａは中間コードで記述したものではな
く、中間コードで記述したものと同じ内容をＦＯＲＴＲ
ＡＮイメージで記述したものである。図５ｂ、図５ｃに
ついても同様である。）を生成することができず、した
がって、そのオブジェクトを生成することができない。このため、計算機システムの最大性能を引き出すことが
できない。図２ｂのソースプログラムの場合には、内側
ループ（２３−２３）にユーザ指示文があれば並列化変
換処理を施し、なければ自動的にベクトル化変換処理を
施すだけで、外側ループがあっても、図５ｂのように該
ループ（２２−２２）を分割（２２’−２２’，２２”
−２２”）して、一部ループを交換（２２”−２２”と
２３’−２３’）し、ベクトル化変換と並列化変換の両
方の処理を施すことができず、計算機システムの最大性
能を引き出すことができない。図２ｃのソースプログラ
ムの場合には、ユーザの指示により内側ループ（２７−
２７）か外側ループ（２６−２６）のいずれかを並列化
からベクトル化へ変換処理するため、外側一重部の文２
８に対して、図５ｃのように外側ループを分割し、並列
処理より速くなるベクトル処理にするための変換処理を
施すことができない。従って、計算機システムの最大性
能を引き出すことができない。本発明の目的は、上記欠
点をなくすため、コンパイラがベクトル化変換処理の可
否、並列化変換処理の可否、ループ分割や交換などのル
ープ構造変換の可否を判定し、ループ分割やループ交換
と各ループに対する並列処理やベクトル処理の種々の組
み合わせについて評価し、生成するオブジェクトの実行
速度を考慮して、ベクトル並列計算機システムの最大性
能を引き出すオブジェクトコードを生成するコンパイル
方法を提供することにある。

【０００７】

【課題を解決するための手段】上記目的は、従来の１Ｃ
ＰＵの計算機のためにコーディングされたソースプログ
ラムを入力として、ベクトル並列計算機用のオブジェク
トコードを生成するため、入力されたソースプログラム
の制御フローを解析して、繰り返しループのネスト（ル
ープの中にループがあること）や並び方の情報を得て、
データフローを解析して変数や配列についてデータ依存
関係の情報を得て、（１）各種ループ構造変換を行なう
ことにより新たに並列化変換やベクトル化変換ができる
ようになる可能性があるため、各種ループ構造変換の可
否を判定し、（２）変換可能なループ構造に対して各々
並列化変換可否とベクトル化変換可否を判定し、（３）
変換可能なループ構造に対して、各ループにベクトル処
理や並列処理を施した場合のオブジェクトの実行速度を
推定し、（４）上記推定結果からオブジェクトが最も速
くなるループ構造と処理実行方法を選択する、ように構
成したコンパイル方法により実現することができる。

【０００８】

【作用】上記コンパイル方法を適用したコンパイラによ
り、ＦＯＲＴＲＡＮソースプログラムをコンパイルする
ことにより、コンパイラがベクトル並列計算機システム
の性能を充分引き出すような効率のよいオブジェクトコ
ードを生成することができる。与えられたソースプログ
ラムの、変換可能なループ構造の全てに対して、各ルー
プをスカラ処理、ベクトル処理、並列処理の実行方法で
実行させたときの実行時間を見積もり、最も実行時間の
短いものを選ぶことにより、ベクトルプロセッサを並列
に走らせる計算機システムの最大性能を引き出すオブジ
ェクトを生成することができる。

【０００９】

【実施例】以下、本発明を、本発明を適用したＦＯＲＴ
ＲＡＮコンパイラにおける一実施例の図面を参照しつつ
説明する。図１に、本発明を適用するコンパイラの全体
の構造を示す。図１の構文解析５や、ソースプログラム
２を入力し、これらの字句や構文を解析して中間コード
４生成する。最適化処理６が、この中間コード４を入力
として、ベクトル化・並列化の可否とループ構造変換可
否を解析し、各々の推定実行速度から採用する変換を選
択し、採用を決定した変換処理に合わせて、中間コード
４をベクトルオブジェクトや並列オブジェクトを生成で
きる形に変換する。そして、メモリ割り付け・レジスタ
割り当て７、コード生成８を順次行なう。本発明は、最
適化処理６に係わり、オブジェクトコード３の実行効率
をあげるものである。

【００１０】ベクトル並列最適選択のための最適化処理
６の処理概要を図２ａ〜図２ｃのソースプログラムを例
に説明する。これは図１のＦＯＲＴＲＡＮソースプログ
ラム２の一例である。まず、最適化処理６の制御フロー
解析１１がソースプログラムのループを検出し、その構
成を解析して図３のような表を作る。これは、図１のル
ープテーブル９である。制御フロー解析１１が作った段
階では、ループ長のフィールド３１を除いて、レコード
３８〜４６の各フィールドは空白である。図２ａ〜図２
ｃの例では、最外側ループがＤＯ２０，ＤＯ２２，ＤＯ
２６の３つである。ＤＯ２２はＤＯ２３を、ＤＯ２５は
ＤＯ２７を各々内側ループとして持ち、これらは、ルー
プとして一重部と多重部（この場合、二重部）があるこ
とを示している。

【００１１】次に、データフロー解析１２が、ソースプ
ログラム上にある変数や配列で示されているデータの流
れを解析して、図１のデータ依存関係のテーブル１０を
作る。ループテーブル９とデータ依存関係のテーブル１
０を入力として、ループ構造変換判定１３が各ネストレ
ベルのループ分割の可否、ループ交換の可否、ループ一
重化の可否を判定して、図３のループテーブルのフィー
ルド３４の３５〜３７に結果を格納する。また、ベクト
ル化変換可否判定１４が各ループごとにベクトル化変換
可否を判定し、結果を図３のループテーブルのフィール
ド３２に格納する。さらに、並列化変換可否判定１５が
各ループごとに並列化変換可否を判定し、結果を図３の
ループテーブルのフィールド３３に格納する。

【００１２】なお、これらの判定法は既に公知のもので
ある。例えば、ベクトル化変換の判定は以下のようにし
て行う。図６を参照して説明する。ソースプログラムの
最内側ループの各実行文が、同じ変数や配列をアクセス
している場合、その定義と使用（定義は値を更新する。使用は値を読み出して計算に使うだけで、更新しない。）、定義と定義の順序を、有向線分で表現してデータ依
存グラフを作る。データ依存グラフに対して、グラフ理
論のアルゴリズムに従って、サイクルを検出し、このサ
イクルを構成する文は、ベクトル化することができない
と判定する。サイクル以外の文は、ソースプログラムで
指定する実行順序と、有向線分の方向が等しくなるよう
に、文を並び換えることによりベクトル化することがで
きる。図６を参照すると、ソースプログラム（１）につ
いてデータ依存グラフを作り、サイクルを検出する。こ
の場合、Ｓ２、Ｓ４がサイクルをなし、文Ｓ２、Ｓ４は
ベクトル化することができない。次いで、サイクルを構
成する文以外の文を、ソースプログラムで指定する実行
順序と有向線分の方向が等しくなるように並べ換え、ベ
クトル化する。ベクトル化変換されたプログラムをプロ
グラム（１’）として示す。ここで、Ａ（２：Ｎ）は、
Ａ（２），Ａ（３）……Ａ（Ｎ）の要素のことである。

【００１３】図３に示すように、ループテーブル９の全
てのフィールドが埋められた状態で、最適変換組合せの
選択１６を施す。最適変換組合せの選択１６の処理概要
を図４に示す。ソースプログラムの最外側ループごとに
以下の処理を繰り返す。図３のフィールド３４の３５〜
３７に可能と登録されているループ構造と、オリジナル
のソースのループ構造（ソースプログラムそのまま）と
が可能なループ構造である。これらに各ループ構造につ
いて以下の処理を施す。個々のループ構造変換可否の条
件や適用例については、公知例にあげた、Ｄａｖｉｓ　
　Ａ．ＰＡＤＵＡ，Ｍｉｃｈａｅｌ　　Ｊ．ＷＯＬＦＥ
　　著「ＡＤＶＡＮＣＥＤ　　　　ＣＯＭＰＩＬＥＲ　
　ＯＰＴＩＭＩＺＡＴＩＯＮ　　ＦＯＲ　　ＳＵＰＥＲ
　　ＣＯＭＰＵＴＥＲ」に記されている。

【００１４】ネスト（ループの中にループがあること）
の有無を判定する。もともとソース上で最外側ループと
最内側ループが等しい場合や、ループ一重化が可能な場
合は、ネストなしの場合の処理を行なう。すなわち、ベ
クトル化変換可否を判定し、可能な場合は、ループ長や
演算量、メモリアクセスの状態、適用ハードウェアの構
成や性能、ベクトル加速率などからベクトル実行速度を
推定する。ベクトル加速率とは、ベクトル実行すると同
一演算をスカラで実行した場合の何倍の速さかを示す尺
度である。一般にはループ長に比例して大きくなりベク
トルレジスタ長のところが最大となって収束する。また
、並列化変換の可否を判定し、可能な場合は、並列処理
の粒度（各並列処理の演算量の大きさの程度のこと）、
同期の回数、同期オーバヘッド、メモリアクセスの状態
、ハードウェアの構成（プロセッサ台数等）や性能、な
どからスカラ並列処理、ベクトル並列処理の両方の並列
処理実行速度を推定する。この結果、スカラ逐次処理、
ベクトル逐次処理、スカラ並列処理、ベクトル並列処理
、の中で、最も実行速度が速いと推定されるものを選択
する。（ここで、スカラ逐次処理を選ぶのは、ベクトル
処理や並列処理のオーバヘッドにより、ベクトル処理や
並列処理がむしろスカラ逐次処理より遅くなる場合であ
る。）

【００１５】ループがネストしている場合は、各ネスト
レベルごとに、ネストなしの場合と同様にベクトル化変
換可否・並列化変換可否と各々の実行速度を推定する。この時は、最内側ループや内側一重部以外については、
ベクトル化変換不能とみなす。この結果、与えられたル
ープ構造においては、どの部分をベクトル化変換し、ど
のレベルのループを並列化変換すると、最も実行速度が
早くなるかを選択する。可能な全てのループ構造におい
て（ループ交換可能な場合はその全ての組み合わせにつ
いて）、最も実行速度が速くなるループの構成を選ぶ。

【００１６】実行速度を推定する処理５７や５９では、
以下に示すベクトル加速率ＶＰ、プロセッサ台数ｎ、各
処理に係るオーバーヘッドのようなシステム固有のコン
タクトを用いる。ＶＰ：ベクトル加速率ベクトル加速率とは、ベクトル処理を実行した場合速さ
が同一演算をスカラで実行した場合の速さの何倍かを示
す尺度である。一般にはループ長に比例して大きくなり
ベクトルレジスタ長のところが最大となって収束する。ｎ：プロセッサ台数 α：並列処理の同期オーバヘッド並列処理を行なうためには元々逐次の処理を複数の処理
に分けるＦＯＲＫ処理と、並列に実行している処理の終
了を持つＪＯＩＮ処理が必要である。また、複数のプロ
セッサがメモリ上の同一アドレスをアクセスする場合は
、処理の終了を通知したり確認することが必要となる。これらを並列処理の同期オーバヘッドという。 β：メモリアクセスの順序保証オーバヘッドベクトル演
算中に、ベクトルデータをベクトルレジスタからメモリ
にストアし、これをまたベクトルレジスタにロードする
処理が必要になることがある。一般にベクトル処理は高
度にパイプライン化されており、各ベクトル命令の開始
順に各要素も実行される保証はない。そこで前記のよう
な場合は、パイプラインを断ち切って完全にメモリのス
トアの終了を待たねばならない。これをメモリアクセス
の順序保証オーバヘッドという。 γ：ループ分割オーバヘッドループ交換やベクトル化のために行なうループ分割は、
元々一つのループを複数に分ける。ループが増えると内
部の計算部は増えなくても、ループ回数のカウントや終
了判定の演算も増えるわけで、これらのことをループ分
割オーバヘッドという。

【００１７】スーパーコンピュータと呼ばれるようなも
のは、一般にベクトル加速率ＶＰが大きくプロセッサ台
数ｎが小さい。また、小規模なパソコンを並べるような
ときには、ベクトル加速率ＶＰが小さく、プロセッサ台
数ｎが大きくなる。これらのコンスタントは、ソースプ
ログラムに依存しないものもあるが、コンパイル時には
確定しないソースプログラムの情報に依存するものもあ
る。このような場合は、プログラムとして平均的データ
をコンパイラが仮定して用いる。例えば、前述のベクト
ル加速率ＶＰはループ長に依存するが、コンパイル時に
ループ長が確定しないことが多い。ループ内でアクセス
される配列の大きさなどから推定できる場合もあるが、
できないときは１００位を仮定したりする。

【００１８】図２ａ〜図２ｃのソースプログラムの例で
は以下のようになる。図２ａのソースプログラムではネ
ストがない。ベクトル化変換は可能で、ループ長は十分
長く、メモリアクセスは連続で順序保証のためのＷＡＩ
Ｔ命令（先立つメモリアクセス命令が完全に終了するの
を待つ）も不要である。この場合、スカラ逐次処理の実
行時間をＳ（ループの演算量に比例する）、ベクトル加
速率をＶＰとすると、ベクトル処理の実行時間はＳ／Ｖ
Ｐとなる。

【００１９】次にスカラの並列化変換では、並列処理の
同期オーバヘッドをαとして、プロセッサ台数をｎとす
ると、実行時間は（Ｓ＋α）／ｎである。ベクトル並列
処理では、実行時間は（Ｓ／ＶＰ＋α）／ｎである。オ
ーバヘッドαはシステムによるが、明らかに正の数であ
るので、Ｓ　＜　Ｓ＋αとなる。また、ベクトルの加速
率ＶＰがプロセッサ数ｎより大きいと仮定するとＶＰ　
＞　ｎが成り立つ。従って、　　Ｓ／ＶＰ　＜　（Ｓ＋
α）／ｎ　　となり、スカラ並列処理より、ベクトル逐
次処理の方が実行速度が速いことが分かる。次に、ベク
トル並列処理の実行時間（Ｓ／ＶＰ＋α）／ｎとＳ／Ｖ
Ｐを比較する。ｎ，Ｓ　＞＞　αの時、即ち、オーバヘ
ッドαに比べて、Ｓまたはプロセッサ台数ｎが十分大き
いと、両実行時間の関係は　　（Ｓ／ＶＰ＋α）／ｎ　
＜　Ｓ／ＶＰとなるため、ベクトル並列処理を選択する
。逆に、オーバヘッドαに比べて、Ｓまたはプロセッサ
台数ｎが小さいと、両実行時間の関係は（Ｓ／ＶＰ＋α
）／ｎ　＞　Ｓ／ＶＰ　　となり、ベクトル逐次処理を
選択する。ループ長が長いため十分な演算量があるとみ
なして、ベクトル並列処理を選択したときの変換例を図
５ａに示す。外側のＤＯ２０”で並列処理を行ない、内
側のＤＯ２０’でベクトル処理を行なう。

【００２０】図２ｂのソースプログラムは、内側に一重
部２４と多重部２５を持つ二重ループである。一重部２
４は、ベクトル化変換も並列化変換もできない（式の中
にＢ（Ｊ）とＢ（Ｊ−１）とが存在するため）。一重部
２４のスカラ逐次処理の実行時間をＳ１とする。二重部
２５は、内側ＤＯ２３ループについてはベクトル化変換
も並列化変換も可能である。外側ＤＯ２２ループについ
ては並列化変換はできないがメモリアクセスの順序保証
のためのＷＡＩＴ命令（先立つメモリアクセス命令が完
全に終了するのを待つ）を用いればベクトル化変換は可
能である。二重部２５のスカラ逐次処理の実行時間をＳ
２（内側ＤＯ２３ループと外側ＤＯ２２ループとが共に
スカラ逐次処理の場合の実行時間）とすると、一重部２
４と二重部２５の合計の実行時間は次のようになる。

【００２１】・二重部２５のＤＯ２２を逐次処理、ＤＯ
２３をベクトル逐次処理としたときの合計の実行時間は
Ｓ１＋Ｓ２／ＶＰ・二重部２５のＤＯ２２をベクトル逐次処理、ＤＯ２３
を並列処理としたときの合計の実行時間はＳ１＋（（Ｓ
２＋β）／ＶＰ＋α）／ｎ＋γ・二重部２５のＤＯ２２
をベクトル逐次処理、ＤＯ２３を逐次処理としたときの
合計の実行時間はＳ１＋（Ｓ２＋β）／ＶＰ＋γ

【００２２】「二重部２５のＤＯ２２をベクトル逐次処
理、ＤＯ２３を逐次処理」より「二重部２５のＤＯ２２
を逐次処理、ＤＯ２３をベクトル逐次処理」の方が実行
速度が速いのは明らかである。（βやγが正の数ゆえ）
各種オーバヘッドα，β，γが無視できるくらいベクト
ル加速率ＶＰやＳ２が大きければ「二重部２５のＤＯ２
２を逐次処理、ＤＯ２３をベクトル逐次処理」より、「
ＤＯ２２をベクトル逐次処理、ＤＯ２３を並列処理」の
方が実行速度が速くなるためこれを選ぶ。逆に、ベクト
ル加速率ＶＰやＳ２に比べて各種オーバヘッドα，β，
γが無視できない場合は、「二重部２５のＤＯ２２を逐
次処理、ＤＯ２３をベクトル逐次処理」を選ぶ。ベクト
ル加速率ＶＰが十分に大きい計算機向きに「二重部２５
のＤＯ２２をベクトル逐次処理、ＤＯ２３を並列処理」
を選択したときの変換例を図５ｂに示す。　　ＤＯ２２
のベクトル化変換のためにループ交換を施して、最内側
のＤＯ２２”をベクトル化変換し、外側のＤＯ２３’で
並列化変換を行なう。ループ交換の密多重化（例えば、
図５ｂにおいて、外側ループ２３’のＤＯ２３’と内側
ループ２２”のＤＯ２２”との間に実行文がなく、かつ
内側ループ２２”の終りと外側ループ２３’の間に実行
文がないような多重化のことを云う）のために分割した
一重部２４のループ２２’は、そのままスカラで処理を
行なう。

【００２３】図２ｃのソースプログラムは、内側に一重
部２８と多重部２９を持つ二重ループである。一重部２
８も二重部２９も、ベクトル化変換も並列化変換も可能
である。一重部２８のスカラ逐次処理の実行時間をＳ１
、二重部部２９のスカラ逐次処理の実行時間をＳ２とす
ると、実行時間は次のようになる。

【００２４】・ＤＯ２６を逐次処理、ＤＯ２７をベクト
ル逐次処理したときＳ１＋Ｓ２／ＶＰ・ＤＯ２６を逐次処理、ＤＯ２７を並列処理したときＳ
１＋（Ｓ２＋α）／ｎ・ＤＯ２６を並列処理、ＤＯ２７を逐次処理したとき（
Ｓ１＋Ｓ２＋α）／ｎ・ＤＯ２６を並列処理、ＤＯ２７をベクトル逐次処理し
たとき（Ｓ１＋Ｓ２／ＶＰ＋α）／ｎ・ＤＯ２６（Ｓ１）をベクトル逐次処理、ＤＯ２６（Ｓ
２）を並列処理、ＤＯ２７をベクトル逐次処理したとき
（Ｓ１／ＶＰ＋Ｓ２／ＶＰ＋α＋γ）／ｎ・ＤＯ２６（
Ｓ１）をベクトル処理、ＤＯ２６（Ｓ２）を逐次処理、
ＤＯ２７ベクトル処理したときＳ１／ＶＰ＋Ｓ２／ＶＰ
＋γ

【００２５】大小関係が白明のものもあるが、「ＤＯ２
６（全体）を並列処理、ＤＯ２７をベクトル逐次処理」
と「ＤＯ２６（Ｓ１）をベクトル逐次処理、ＤＯ２６（
Ｓ２）を並列処理、ＤＯ２７をベクトル逐次処理」など
は、Ｓ１のベクトル化変換の効果とループ分割のオーバ
ヘッドγにより実行速度の大小が決まるわけで、Ｓ１の
とＶＰによって、十分γを相殺できる場合に、「ＤＯ２
６（Ｓ１）をベクトル逐次処理、ＤＯ２６（Ｓ２）を並
列処理、ＤＯ２７をベクトル逐次処理」を選ぶ。　　ベ
クトル加算率ＶＰが十分に大きい計算機向きの変換例を
図５ｃに示す。一重部２８をループ分割により、独立な
ループ２６’にしてベクトル化変換する。残りの演算２
９は内側ループ２７でベクトル化変換し、外側ループ２
６”で並列化する。

【００２６】このようにして、与えられたベクトル並列
計算機に合わせて、システム固有のコンスタントを用い
て、各ループごとに可能なループ構造やベクトル処理、
並列処理の実行時間を推定して、最も実行時間の速い処
理を選択したうえでオブジェクトコードを生成する。一
般に、従来のスーパーコンピュータのようにスカラ処理
に比べ非常に高速なベクトル計算機を数台（二から十数
台くらいのオーダ）並べる並列計算機システムでは、ベ
クトル化処理優先の変換を施したオブジェクトコードが
生成され、対照的に、あまり速くない小規模なベクトル
計算機を（ミニコンやパソコン）を多数台（数十から数
百のオーダ）並べる並列計算機システムでは、並列化処
理優先の変換を施したオブジェクトコードが生成される
ことになる。

【００２７】

【発明の効果】本発明によれば、ユーザは対象とするベ
クトル計算機が並列に実行するシステムの細かいアーキ
テクチャ上の仕様を意識することなく、ソースプログラ
ムをコーディングすれば、このソースプログラムに基づ
き、ベクトル計算機システムで該ソースプログラムを最
も速く処理できるオブジェクトコードが生成される。す
なわち、本発明はベクトル計算機システムにその最大性
能を発揮させることができる。

【図面の簡単な説明】

【図１】本発明の一実施例のＦＯＲＴＲＡＮコンパイラ
の全体構成を示す図である。

【図２ａ】実施例を説明するためのソースプログラムの
例を示す図である。

【図２ｂ】実施例を説明するためのソースプログラムの
例を示す図である。

【図２ｃ】実施例を説明するためのソースプログラムの
例を示す図である。

【図３】ループテーブルを示す図である。

【図４】ベクトル並列最適選択処理の流れを示す図であ
る。

【図５ａ】図２ａのソースプログラムに本発明を適用し
た結果の出力を示した図である。

【図５ｂ】図２ｂのソースプログラムに本発明を適用し
た結果の出力を示した図である。

【図５ｃ】図２ｃのソースプログラムに本発明を適用し
た結果の出力を示した図である。

【図６】ベクトル化変換可否の判定の仕方を説明する図
である。

【符号の説明】

１　　ＦＯＲＴＲＡＮコンパイラ、２　　ソースプログラム３　　オブジェクトコード４　　中間コード５　　構文解析６　　最適化処理７　　メモリ割り付け・レジスタ割り当て８　　コード
生成９　　ループテーブル１０　　データ依存関係のテーブル１１　　制御フローの解析１２　　データフロー解析１３　　ループ構造変換判定１４　　ベクトル化変換可否判定１５　　並列化変換可否判定１６　　最適変換組合せの選択

Claims

【特許請求の範囲】

【請求項１】　　ベクトル処理機構を有し独立に動くプ
ロセッサを複数個備える並列計算機のためのオブジェク
トコードをソースプログラムに基づき生成するコンパイ
ル方法であって、（１）上記ソースプログラム中のルー
プに対して、これをベクトル逐次処理したときに必要な
処理時間とこれをベクトル並列処理したときに必要な処
理時間を推定し、（２）上記ベクトル逐次処理とベクト
ル並列処理のうち、上記推定され二つの処理時間の内の
短いものに対するものを選択し、（３）この選択された
処理を実行するオブジェクトを、上記ループから生成す
る、ことを特徴とするコンパイル方法。
【請求項２】　　ベクトル処理機構を有し独立に動くプ
ロセッサを複数個備える並列計算機のためのオブジェク
トコードをソースプログラムに基づき生成するコンパイ
ル方法であって、（１）上記ソースプログラム中のルー
プに対して、これをスカラ逐次処理、ベクトル逐次処理
、スカラ並列処理、ベクトル並列処理のそれぞれの処理
をしたときに必要な処理時間を推定し、（２）上記複数
の処理のうち、上記推定され処理時間の内の短いものに
対するものを選択し、（３）この選択された処理を実行
するオブジェクトを、上記ループから生成する、ことを
特徴とするコンパイル方法。
【請求項３】　　ベクトル処理機構を有し独立に動くプ
ロセッサを複数個備える並列計算機のためのオブジェク
トコードをソースプログラムに基づき生成するコンパイ
ル方法であって、（１）上記ソースプログラム中のルー
プに対して、ベクトル化変換可否、並列化変換可否を判
定し、（２）該判定に基づき、上記ソースプログラム中
のループに対して、これをベクトル逐次処理したときに
必要な処理時間とこれをベクトル並列処理したときに必
要な処理時間を推定し、（３）上記ベクトル逐次処理と
ベクトル並列処理のうち、上記推定され二つの処理時間
の内の短いものに対するものを選択し、（４）この選択
された処理を実行するオブジェクトを、上記ループから
生成する、ことを特徴とするコンパイル方法。
【請求項４】　　ベクトル処理機構を有し独立に動くプ
ロセッサを複数個備える並列計算機のためのオブジェク
トコードをソースプログラムに基づき生成するコンパイ
ル方法であって、（１）上記ソースプログラム中のルー
プに対し、ループ構造変換の可否を判定し、（２）可能
なループ構造に対して、ベクトル化変換可否、並列化変
換可否を判定し、（３）該判定に基づき、可能なループ
の組に対して、スカラ逐次処理、ベクトル逐次処理、ス
カラ並列処理、ベクトル並列処理の可能な組合せについ
て処理時間を推定して、上記可能な組合せのうち最も処
理時間の短い組合せを選択し、（４）この選択された処
理を実行するオブジェクトを、上記ループから生成する
、ことを特徴とするコンパイル方法。
【請求項５】　　ベクトル処理機構を有し独立に動くプ
ロセッサを複数個備える並列計算機のためのオブジェク
トコードをソースプログラムに基づき生成するコンパイ
ル方法であって、（１）上記ソースプログラム中のルー
プに対し、ループ分割の可否を判定し、（２）可能なル
ープに対して、ベクトル化変換可否、並列化変換可否を
判定し、（３）該判定に基づき、可能なループの組に対
して、スカラ逐次処理、ベクトル逐次処理、スカラ並列
処理、ベクトル並列処理の可能な組合せについて処理時
間を推定して、上記可能な組合せのうち最も処理時間の
短い組合せを選択し、（４）この選択された処理を実行
するオブジェクトを、上記ループから生成する、ことを
特徴とするコンパイル方法。
【請求項６】　　ベクトル処理機構を有し独立に動くプ
ロセッサを複数個備える並列計算機のためのオブジェク
トコードをソースプログラムに基づき生成するコンパイ
ル方法であって、（１）上記ソースプログラム中のルー
プに対し、ループ交換の可否を判定し、（２）可能なル
ープに対して、ベクトル化変換可否、並列化変換可否を
判定し、（３）該判定に基づき、可能なループの組に対
して、スカラ逐次処理、ベクトル逐次処理、スカラ並列
処理、ベクトル並列処理の可能な組合せについて処理時
間を推定して、上記可能な組合せのうち最も処理時間の
短い組合せを選択し、（４）この選択された処理を実行
するオブジェクトを、上記ループから生成する、ことを
特徴とするコンパイル方法。
【請求項７】　　ベクトル処理機構を有し独立に動くプ
ロセッサを複数個備える並列計算機のためのオブジェク
トコードをソースプログラムに基づき生成するコンパイ
ル方法であって、（１）上記ソースプログラム中のルー
プに対し、ループ一重化の可否を判定し、（２）可能な
ループに対して、ベクトル化変換可否、並列化変換可否
を判定し、（３）該判定に基づき、可能なループに対し
て、これをベクトル逐次処理したときに必要な処理時間
とこれをベクトル並列処理したときに必要な処理時間を
推定し、（４）上記ベクトル逐次処理とベクトル並列処
理のうち、上記推定され二つの処理時間の内の短いもの
に対するものを選択し、（５）この選択された処理を実
行するオブジェクトを、上記ループから生成する、こと
を特徴とするコンパイル方法。
【請求項８】　　ベクトル処理機構を有し独立に動くプ
ロセッサを複数個備える並列計算機のためのオブジェク
トコードをソースプログラムに基づき生成するコンパイ
ル方法であって、（１）上記ソースプログラム中のルー
プに対し、ループ分割、ループ交換、ループ一重化のル
ープ構造変換の可否を判定し、（２）可能なループ構造
に対して、ループ内の全ての実行文についてネストして
いる各ループごとに、ベクトル化変換可否、並列化変換
可否を判定し、（３）該判定に基づき、各実行文に対し
て、スカラ逐次処理、ベクトル逐次処理、スカラ並列処
理、ベクトル並列処理の可能な組合せについて処理時間
を推定して、上記可能な組合せのうち最も処理時間の短
い組合せを選択し、（４）この選択された処理を実行す
るオブジェクトを、上記ループから生成する、ことを特
徴とするコンパイル方法。
【請求項９】　　請求項１乃至請求項８のいずれかの請
求項記載のコンパイル方法において、前記処理時間の推
定をループの演算量、ベクトル加速率、プロセッサ台数
、処理に係るオーバヘッドを用いて行うことを特徴とす
るコンパイル方法。