JPH07311746A

JPH07311746A - コンパイル処理装置

Info

Publication number: JPH07311746A
Application number: JP6102610A
Authority: JP
Inventors: Tatsuya Shindo; 達也進藤
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1994-05-17
Filing date: 1994-05-17
Publication date: 1995-11-28
Anticipated expiration: 2019-07-07
Also published as: JP3540837B2

Abstract

(57)【要約】【目的】本発明は、ソースプログラムに記述される配列
データを複数の物理プロセッサに分散配置するコンパイ
ル処理装置に関し、通信のオーバーヘッドを招くことな
く高い並列性を実現する配列データの分散配置を提供す
るコンパイル処理装置の実現を目的とする。【構成】分散配置対象の配列データを、指定される次元
を分散対象の次元としつつ、規定のアルゴリズムに従っ
て複数の仮想プロセッサに割り付ける割付手段１１と、
割付手段１１の割り付けた分割配列データを、ツイスト
する形態でもって各物理プロセッサに割り付ける配置手
段１２とを備えるように構成する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、ソースプログラムに記
述される配列データを複数の物理プロセッサに分散配置
するコンパイル処理装置に関し、特に、通信のオーバー
ヘッドを招くことなく高い並列性を実現する配列データ
の分散配置を提供するコンパイル処理装置に関する。

【０００２】高速計算機を実現する方式として、複数の
プロセッシングエレメント（ＰＥ）を集めてネットワー
クで一体化した構成を採る並列計算機が普及しつつあ
る。この並列計算機を使用するにあたっては、処理対象
となるデータをどのようにＰＥに割り付けるかというデ
ータレイアウトが重要な問題である。なぜならば、この
データレイアウトは、プログラムから抽出できる並列
性、通信オーバーヘッド、負荷分散に大きな影響を与え
るからである。

【０００３】

【従来の技術】並列計算機の処理の並列を引き出し、か
つＰＥ間の通信のオーバーヘッドを小さくするために
は、別々のＰＥで並列に処理すべきデータは異なるＰＥ
に割り付けることが好ましく、また、同一の処理に必要
となる複数データは同じＰＥに割り付けることが好まし
い。

【０００４】これから、従来の並列計算機のデータレイ
アウト法では、プログラムで用いる配列データのある次
元を、そのまま順番にｎ次元格子に想定したＰＥのある
次元に割り付けていくという方式を用いている。この場
合、ＰＥ格子のある次元に割り付けられる配列データは
ＰＥ間で分散され、そうでない配列データは同一ＰＥ内
に割り付けられることになる。

【０００５】例えば、図１５に示すプログラムで説明す
るならば、外側のループ（ＤＯ１００）にのみ並列性
がある場合には、図１６（ａ）に示すような形態に従っ
て、２次元配列Ａの１次元目のみを１次元ＰＥアレイに
分散的に割り付け、一方、内側のループ（ＤＯ２０
０）にのみ並列性がある場合には、図１６（ｂ）に示す
ような形態に従って、２次元配列Ａの２次元目のみを１
次元ＰＥアレイに分散的に割り付けていくのである。

【０００６】ここで、配列データのある次元をＰＥ格子
のある次元に割り付けるにあたっては、ブロック割付方
式によるデータ分散方法と、サイクリック割付方式によ
るデータ分散方法という２つがある。

【０００７】すなわち、前者のブロック割付方式による
データ分散方法は、図１７に示すように、分散する次元
方向のサイズを割付対象のプロセッサ台数で割り算し、
等分になるようにと連続した領域に割り付けていく方法
である。このデータ分散方法は、連続した複数のデータ
を用いる処理を行うにあたって、通信量を小さくできる
という利点がある。ここで、図１７では、８×８サイズ
の２次元配列の２次元目を分散次元としつつ、ブロック
割付方式に従って分散配置する例を示してある。

【０００８】一方、後者のサイクリック割付方式による
データ分散方法は、図１８に示すように、分散する次元
方向のデータを１つ（あるいはサイクリックの幅分）ず
つ順番にプロセッサに割り付けていって、プロセッサ台
数分割り付けたら再び始めから順番に割り付けて、その
次元方向のサイズ分がすべて割り付けられるまでこれを
行う方法である。このデータ分散方法は、担当するデー
タの位置により処理の量が違う場合に、負荷分散を良く
できるという利点がある。ここで、図１８では、８×８
サイズの２次元配列の２次元目を分散次元としつつ、サ
イクリック割付方式に従って分散配置する例を示してあ
る。

【０００９】なお、これらの従来手法については下記の
文献に紹介されている。〔１〕High Performance Fortran Forum. High Perform
ance Fortran LanguageSpecification Ver. 1.0. 1933. 〔２〕S.Hiranandani,K.Kennedy,and C.Tseng. "Compil
er optimizations for Fortran D on MIMD Distributed
-Memory Machines" in Proc. Supercomputig'91pp.86-1
00, Nov. 1991. 〔３〕R.Ruhl and M.Annaratone. "Parallelization of
FORTRAN Code on Distributed-memory Parallel Proce
ssors" in Proc. International Conference onSUPERCO
MPUTING, pp342-353, June. 1990. 〔４〕H.Zima,H.Bast, and M.Gerndt. "SUPERB: A tool
for semi-automatic MIMD/SIMD parallelization" in
Parallel Computing, 6:1-18, 1988. 〔５〕A.Rogers and K.Pingali. "Process Decompositi
on Through Locality ofReference" in Proc. ACM SIG-
PLAN '89 Conf. Programming Language Desighand Impl
ementation, pp.69-80, June. 1989. 〔６〕C.Koelbel and P.Mehrotra. "Compiling global
Name-Space Parallel Loops for Distributed Executio
n" in IEEE Transactions on Parallel and Distribute
d Systems, pp.440-451, Oct. 1991. 〔７〕進藤達也，岩下英俊，土肥実久，萩原純一. "AP
1000を対象としたVPP Fortran 処理系の実現と評価” S
WoPP鞆の浦'93HPC研究会, Vol.93-HPC-48-2, pp.9-16,
Aug. 1993.

【００１０】

【発明が解決しようとする課題】プログラムのある部分
にとって、最適な配列データのデータレイアウトであっ
ても、そのプログラムの別の部分では、最適なものとな
らないことが起こる。

【００１１】例えば、図１９に示すプログラムについて
考えてみる。ここで、このプログラム中のＤＯＡＬＬル
ープとは、並列実行可能なＤＯループを意味する。この
プログラムの最初のループネスト（１００）内側のルー
プの並列性を活かすためには、２次元配列Ａの２次元目
を分散させるデータレイアウトが最適である。すなわ
ち、図１６（ｂ）に示すようなデータレイアウトが最適
である。これに対して、２番目のループネスト（２０
０）外側のループの並列性を活かすためには、この２次
元配列Ａの１次元目を分散させるデータレイアウトが最
適である。すなわち、図１６（ａ）に示すようなデータ
レイアウトが最適である。

【００１２】このような配列データの最適データレイア
ウトのコンフクリトが起こる場合に、従来手法で対処す
るには次の２つのやり方が考えられる。すなわち、その
１つとしては、一方のプログラム部分に最適なデータレ
イアウトを決定し、そのデータレイアウトに従ってデー
タ分散を行ってプログラム全体を実行するという方法で
ある。

【００１３】もう１つとしては、一方のプログラム部分
に最適なデータレイアウトを決定し、そのデータレイア
ウトに従ってデータ分散を行って処理を実行し、もう一
方のプログラム部分の処理に入る前に、そのプログラム
部分に最適なデータレイアウトを決定し、そのデータレ
イアウトに従ってデータ分散を変更して処理を実行する
という方法である。

【００１４】しかしながら、前者の方法に従うと、一方
のプログラム部分では、性能が出るものの、もう一方の
プログラム部分では、並列性が活かせないことや通信の
オーバーヘッドが大きくなることから、性能が出ないと
いう問題点がある。また、後者の方法に従うと、実行時
のデータレイアウトの変更に伴う通信のオーバーヘッド
により性能が低下するという問題点がある。

【００１５】本発明はかかる事情に鑑みてなされたもの
であって、ソースプログラムに記述される配列データを
複数の物理プロセッサに分散配置するときにあって、通
信のオーバーヘッドを招くことなく高い並列性を実現す
る配列データの分散配置を提供する新たなコンパイル処
理装置の実現を目的とする。

【００１６】

【課題を解決するための手段】図１に本発明の原理構成
を図示する。図中、１は本発明を具備するコンパイル処
理装置であって、ソースプログラムに記述される配列デ
ータを複数の物理プロセッサに分散配置しつつ、ソース
プログラムをコンパイルすることでオブジェクトを生成
するもの、２はコンパイル処理装置１に接続されるソー
スファイルであって、コンパイル対象となるソースプロ
グラムを格納するもの、３はコンパイル処理装置１に接
続されるオブジェクトファイルであって、コンパイル結
果のオブジェクトを格納するものである。

【００１７】このコンパイル処理装置１は、本発明を実
現するために、検出手段１０／割付手段１１／配置手段
１２／分割手段１３を備えるコンパイラ４を展開する。
この検出手段１０は、本発明の分散処理の対象となる配
列データ及びその次元を検出する。割付手段１１は、検
出手段１０の検出した配列データを、検出手段１０の検
出した次元を分散対象の次元（分散次元）としつつ、規
定のアルゴリズムに従って複数の仮想プロセッサに割り
付ける。配置手段１２は、割付手段１１の割り付けた配
列データを、ツイストする形態でもって各物理プロセッ
サに割り付ける。分割手段１３は、並列実行の対象とな
るループを、配置手段１２の配置した配列データに合わ
せて分割して各物理プロセッサに割り付ける。

【００１８】

【作用】本発明では、検出手段１０が、本発明の分散処
理の対象となる配列データ及びその次元を検出すると、
割付手段１１は、物理プロセッサの台数がｎ台のときに
あって、例えば、分散対象の配列データが２次元である
ときには（ｎ×ｎ）台、３次元であるときには（ｎ×ｎ
×ｎ）台というような複数の仮想プロセッサを想定し
て、検出手段１０の検出した配列データを、検出手段１
０の検出した次元を分散次元としつつ、規定のアルゴリ
ズムに従ってこれらの仮想プロセッサに割り付ける処理
を行う。例えば、ブロック単位やサイクリックのアルゴ
リズムに従って割り付けるのである。

【００１９】割付手段１１の処理に従って分散対象の配
列データが仮想プロセッサに割り付けられると、続い
て、配置手段１２は、この仮想プロセッサ上の配列デー
タをツイストする形態でもって各物理プロセッサに割り
付ける処理を行う。

【００２０】このツイスト分散処理は、仮想プロセッサ
の集合をＶ、物理プロセッサの集合をＰ、仮想プロセッ
サの次元数をｍ、分散対象の配列データのｋ次元目のサ
イズをｌ_k、物理プロセッサの台数をｎ、すなわち、

【００２１】

【数１】

【００２２】のように表すならば、

【００２３】

【数２】

【００２４】の変換式に従って実行される。例えば、４
×４（ｌ₁=4,ｌ₂=4 ）の２次元配列Ａと、４台の物理プ
ロセッサ（ｐ=0,1,2,3）と、次元数２（ｍ=2）の４×４
台の仮想プロセッサとを想定して、図２の上段に示すよ
うに、これらの仮想プロセッサｖ₁,ｖ₂(ｖ₁=0,1,2,3/ｖ
₂=0,1,2,3)の各々に、２次元配列データＡの配列要素Ａ
(i,j) が割り付けられたとすると、例えば、「ｖ₁=2,ｖ
₂=3 」に割り付けられた配列要素Ａ(2,3) は、この〔数
２〕式に従い、（２＋３）ｍｏｄ４＝１が指す「ｐ＝１」の物理プロセッサに割り付けられるこ
とになる。

【００２５】この変換処理に従って、図２の上段のよう
に仮想プロセッサに割り付けられた２次元配列データＡ
は、図２の下段に示すように、本来の２次元配列データ
Ａをツイストした形態で物理プロセッサに割り付けられ
ることになる。従って、２次元配列データＡの１次元目
と２次元目の双方が物理プロセッサに分散されることと
なって、例えば、配列要素Ａ(0,0),Ａ(1,0),Ａ(2,0),Ａ
(3,0) がそれぞれ別の物理プロセッサに割り付けられる
とともに、配列要素Ａ(0,0),Ａ(0,1),Ａ(0,2),Ａ(0,3)
がそれぞれ別の物理プロセッサに割り付けられることに
なるので、最適なデータ分散のコンフクリトを防止でき
るようになる。

【００２６】配置手段１２の処理に従って配列データが
ツイストする形態でもって各物理プロセッサに割り付け
られると、続いて、分割手段１３は、並列実行の対象と
なるループを、配置手段１２の配置した配列データに合
わせて分割して各物理プロセッサに割り付ける。

【００２７】このようにして、本発明によれば、ソース
プログラムに記述される配列データを複数の物理プロセ
ッサに分散配置するときにあって、通信のオーバーヘッ
ドを招くことなく高い並列性を実現する配列データの分
散配置を提供できるようになる。

【００２８】

【実施例】以下、実施例に従って本発明を詳細に説明す
る。図３に、本発明を実装する計算機システムのシステ
ム構成を図示する。

【００２９】この図に示すように、本発明を実現する計
算機システムは、全体の制御処理や入出力処理を実行す
るホスト計算機２０と、並列処理を実行する複数のプロ
セッサ２１と、ホスト計算機２０とプロセッサ２１との
間を接続するネットワーク２２とから構成される。な
お、以下では、プロセッサ２１のことを物理プロセッサ
２１と称することがある。

【００３０】このホスト計算機２０は、本発明により構
成されるコンパイラ２３を備えて、このコンパイラ２３
を使って実行対象のプログラムをコンパイルして、ネッ
トワーク２２を介して各プロセッサ２１にロードし、こ
のロード処理を受けて、各プロセッサ２１は、ネットワ
ーク２２を介して他プロセッサ２１と通信しつつ、ロー
ドされたプログラムを並列実行していくよう処理するこ
とになる。

【００３１】図４に、このコンパイラ２３の実行する処
理フローの一実施例を図示する。この図に示すように、
本発明により構成されるコンパイラ２３は、先ず最初
に、ステップ１で、分散対象となる配列データ及びその
次元を決定するローカルデータレイアウト決定処理を実
行し、続いて、ステップ２で、ツイスト分散対象となる
配列データ及びその次元を決定するツイストデータレイ
アウト決定処理を実行し、続いて、ステップ３で、ツイ
スト分散対象の配列データを各物理プロセッサ２１にど
のようにアロケーションするのかを決定するデータ領域
計算処理を実行し、続いて、ステップ４で、ツイスト分
散対象の配列データを分散して各物理プロセッサ２１に
割り付けるアドレス変換処理を実行し、続いて、ステッ
プ５で、並列実行対象のループを分割して各物理プロセ
ッサ２１に割り付けるループ分割処理を実行する。

【００３２】次に、これらの各処理について詳細に説明
する。図４の処理フローのステップ１で実行するローカ
ルデータレイアウト決定処理では、分散対象となる配列
データ及びその次元を決定する。

【００３３】この決定処理は、プログラマに対して、ル
ープネスト毎にそこでアクセス対象となっている配列デ
ータの分散方法を指定させる構成を採る場合には、その
指定値を検出することで実行する。

【００３４】例えば、プログラマに対して、「！DISTRI
BUTE 配列名次元名」を記述させることで配列データ
の分散方法を指定させる構成を採る場合には、このディ
レクティブを検出することで、それぞれのループにおけ
る分散対象の配列データ及びその次元を決定するのであ
る。図５のプログラム例で説明するならば、「！DISTRI
BUTE Ａ２」を検出することで、ループネスト１００
において配列データＡの２次元目を分散する必要がある
ということを決定するとともに、「！DISTRIBUTE Ａ
１」を検出することで、ループネスト２００において配
列データＡの１次元目を分散する必要があるということ
を決定することになる。

【００３５】また、この決定処理は、プログラマに対し
て配列データの分散方法を指定させる構成を採らない場
合には、並列実行可能なループの添え字を評価すること
で実行する。

【００３６】その方法の１つとして、並列実行可能なル
ープの添え字が、ループボディ内に記述される配列デー
タの特定の次元のみに表れるか否かをチェックして、表
れる場合には、その配列データをその次元を分散次元に
して分散するということを決定するのである。この決定
方法に従って、図５のプログラムで「！DISTRIBUTE」が
記述されていなくても、ループネスト１００において配
列データＡの２次元目を分散する必要があるということ
と、ループネスト２００において配列データＡの１次元
目を分散する必要があるということを決定できることに
なる。

【００３７】また、別の方法として、並列実行可能なル
ープの添え字が、ループボディ内に記述される配列デー
タの複数の次元に表れる場合に、最も出現頻度の高い次
元を検出して、その配列データをその次元を分散次元に
して分散するということを決定するのである。

【００３８】一方、図４の処理フローのステップ２で実
行するツイストデータレイアウト決定処理では、ツイス
ト分散対象となる配列データ及びその次元を決定する。
この決定処理は、プログラマに対して、配列データのツ
イスト法を指定させる構成を採る場合には、その指定値
を検出することで実行する。

【００３９】例えば、プログラマに対して、「！TWIST
配列名，次元名，・・，次元名」を記述させることで
配列データのツイスト法を指定させる構成を採る場合に
は、このディレクティブを検出することで、ツイスト対
象の配列データ及びその次元を決定するのである。例え
ば、「！TWIST Ａ，１，２」を検出するときには、配
列データＡの１次元目と２次元目とを処理対象にしてツ
イストするということを決定することになる。

【００４０】また、この決定処理は、プログラマに対し
て配列データのツイスト法を指定させる構成を採らない
場合には、ローカルデータレイアウト決定処理で決定し
た配列データ／次元を評価することで実行する。

【００４１】具体的には、ローカルデータレイアウト決
定処理で決定した配列データ／次元を配列データ毎に集
め、各配列データについて、異なるループネストで異な
る次元の分散要求があるか否かをチェックして、ある場
合には、その配列データとそれらの次元とをツイスト対
象として決定するのである。例えば、ローカルデータレ
イアウト決定処理に従って、図５のプログラム中のルー
プネスト１００において配列データＡの２次元目を分散
する要求があるということと、ループネスト２００にお
いて配列データＡの１次元目を分散する要求があるとい
うことが決定されると、この決定を受けて、配列データ
Ａの１次元目と２次元目とをツイスト対象として決定す
ることになる。

【００４２】また、この決定処理は、プログラマに対し
て配列データのツイスト法を指定させる構成を採らない
とともに、ローカルデータレイアウト決定処理で決定し
た配列データ／次元を用いない場合には、１つのループ
ネストに着目して、並列実行可能なループの添え字が、
同一ループボディ内の異なるステートメントで同一配列
データの異なる次元に表れる否かをチェックして、表れ
る場合には、その配列データとそれらの次元とをツイス
ト対象として決定する。図６のプログラム例で説明する
ならば、「statement １」では並列実行可能なループの
添え字Ｊが配列データＡの２次元目に表れ、「statemen
t ２」ではこの添え字Ｊが配列データＡの１次元目に表
れるので、配列データＡの１次元目と２次元目とをツイ
スト対象として決定するのである。

【００４３】一方、図４の処理フローのステップ３で実
行するデータ領域計算処理では、ツイストデータレイア
ウト決定処理で決定されたツイスト分散対象の配列デー
タを、各物理プロセッサ２１にどのようにアロケーショ
ンするのかを決定する。

【００４４】この決定処理は、物理プロセッサ２１の台
数をｎ、ツイスト分散対象の配列データＡの次元数を
Ｎ、この配列データＡの次元ｉのサイズをＤ_iで表すな
らば、各次元のサイズがｎのｍ次元仮想プロセッサを想
定することで実行されるものであって、先ず最初に、各
仮想プロセッサに、

【００４５】

【数３】

【００４６】により算出されるサイズＭ_iを持つ配列デ
ータＡ'(Ｍ_1,・・・_,Ｍ_N）を割り付け、続いて、ｍ次
元の仮想プロセッサから１次元の物理プロセッサ２１に
対して、

【００４７】

【数４】

【００４８】で規定される個数分の下記の配列データＡ''（Ｍ_1,・・・_,Ｍ_N，ｎ，・・・・，ｎ）但し、ｎは（ｍ−１）個をアロケートすることで実行する。

【００４９】この決定処理は、要するに、ツイスト分散
対象の配列データＡを仮想プロセッサに等分配する形態
で割り付けてから、「ｎ×（ｍ−１）」台の仮想プロセ
ッサの持つ配列データＡを１台の物理プロセッサ２１に
割り付けていくことを意味している。

【００５０】例えば、図７の上段に示すような８×８サ
イズの２次元配列データＡがツイスト分散対象であると
すると、物理プロセッサ２１が４台である場合、図７の
中段に示すように、各次元のサイズが４の２次元仮想プ
ロセッサ（１６台）を想定して、〔数３〕式に従って
「Ｍ_i＝２」を求めることで、各仮想プロセッサに、２
×２サイズの分割した２次元配列データＡを割り付ける
ことを決定し、〔数４〕式に従って、「４×（２−１）
＝４」を求めることで、図７の下段に示すように、４台
の仮想プロセッサの持つ配列データＡを１台の物理プロ
セッサ２１に割り付けることを決定するのである。

【００５１】一方、図４の処理フローのステップ４で実
行するアドレス変換処理では、データ領域計算処理での
アロケーション結果を踏まえて、ツイストデータレイア
ウト決定処理で決定されたツイスト分散対象の配列デー
タ（処理対象の次元についても決定されている）を分散
して、各物理プロセッサ２１に割り付けるアドレス変換
処理を実行する。

【００５２】このアドレス変換処理は、先ず最初に、配
列データＡの配列インデックスを使って、割り付け先と
なる仮想プロセッサの番号と、その仮想プロセッサ内で
のローカル位置番号とを求め、次に、仮想プロセッサの
番号を使って、割り付け先となる物理プロセッサ２１の
番号と、その物理プロセッサ２１内でのローカル位置番
号とを求めていくことで実行する。

【００５３】すなわち、配列データＡの配列インデック
スを（Ｉ_1,・・・，Ｉ_N）、仮想プロセッサの番号を
（Ｖ_1,・・・，Ｖ_m）、仮想プロセッサ内でのローカル
位置番号を（Ｉ₁ ^'・・・，Ｉ_N ^'）、物理プロセッサ
２１の番号をｐ、物理プロセッサ２１内でのローカル位
置番号を（Ｊ_1,・・・，Ｊ_m-1）で表すならば、

【００５４】

【数５】

【００５５】のように、第１段階の変換処理ｆ_Xに従っ
て、配列データＡの配列インデックスから、割り付け先
となる仮想プロセッサ番号と、仮想プロセッサ内ローカ
ル位置番号とを求め、次に、第２段階の変換処理ｆ_Yに
従って、仮想プロセッサ番号から、割り付け先となる物
理プロセッサ番号と、その物理プロセッサ内ローカル位
置番号とを求めていくのである。なお、物理プロセッサ
内ローカル位置で、更に、その位置内のどこに割り付け
るのかを指定する必要があるが、この位置（以下、ロー
カル内部位置と称することがある）については、〔数
５〕式に記述するように、仮想プロセッサ内ローカル位
置番号をそのまま用いている。

【００５６】この第１段階の変換処理ｆ_Xでは、上述し
たブロック割付方式によるデータ分散方法を用いる場合
には、ツイストデータレイアウト決定処理で決定された
次元をｉ次元で表すならば、データ領域計算処理で求め
たサイズＭ_iを用いて、

【００５７】

【数６】

【００５８】に従って、配列データＡの配列インデック
ス（Ｉ_1,・・・，Ｉ_N）から、仮想プロセッサ番号（Ｖ
_1,・・・，Ｖ_m）と、仮想プロセッサ内ローカル位置番
号（Ｉ ₁ ^'・・・，Ｉ_N ^'）とを求め、一方、上述した
サイクリック割付方式によるデータ分散方法を用いる場
合には、

【００５９】

【数７】

【００６０】に従って、配列データＡの配列インデック
ス（Ｉ_1,・・・，Ｉ_N）から、仮想プロセッサ番号（Ｖ
_1,・・・，Ｖ_m）と、仮想プロセッサ内ローカル位置番
号（Ｉ ₁ ^'・・・，Ｉ_N ^'）とを求めていくことにな
る。

【００６１】例えば、図８の上段に示す８×８サイズの
２次元配列データＡが、１次元目及び２次元目を処理対
象として指定されブロック分割されて、図７に示した１
６台の仮想プロセッサに割り付けられる場合には、この
２次元配列データＡの各配列要素は、図８の下段に示す
ように仮想プロセッサに割り付けられることになるが、
第１段階の変換処理ｆ_Xでは、上述の〔数６〕式に従っ
てこれを実行するものである。なお、図８の下段に示す
仮想プロセッサの番号は、図２に示したものと同じもの
である。

【００６２】配列データＡ（３，４）を例にして説明す
るならば、図７の所で説明したように、この例の場合に
は「Ｍ₁＝Ｍ₂＝２」であることから、〔数６〕式に、
「Ｉ ₁＝３，Ｉ₂＝４，Ｍ₁＝２，Ｍ₂＝２」を代入す
ることで、「Ｖ₁＝１，Ｖ₂＝２」の仮想プロセッサ番
号が求められるとともに、「Ｉ₁ ^'＝１，Ｉ₂ ^'＝０」
の仮想プロセッサ内ローカル位置番号（仮想プロセッサ
番号と同様にマトリクス位置で定義される）が求められ
ることで、図８のブロック分割処理が実行されるのであ
る。

【００６３】また、例えば、図９の上段に示すような８
×８サイズの２次元配列データＡが、１次元目及び２次
元目を処理対象として指定されサイクリック分割され
て、図７に示した１６台の仮想プロセッサに割り付けら
れる場合には、この２次元配列データＡの各配列要素
は、図９の下段に示すように仮想プロセッサに割り付け
られることになるが、第１段階の変換処理ｆ_Xでは、上
述の〔数７〕式に従ってこれを実行するものである。な
お、図９の下段に示す仮想プロセッサの番号は、図２に
示したものと同じものである。

【００６４】配列データＡ（３，４）を例にして説明す
るならば、〔数７〕式に、「Ｉ₁＝３，Ｉ₂＝４，ｎ＝
４」を代入することで、「Ｖ₁＝３，Ｖ₂＝０」の仮想
プロセッサ番号が求められるとともに、「Ｉ₁ ^'＝０，
Ｉ₂ ^'＝１」の仮想プロセッサ内ローカル位置番号が求
められることで、図９のサイクリック分割処理が実行さ
れるのである。

【００６５】一方、この第２段階の変換処理ｆ_yでは、

【００６６】

【数８】

【００６７】に従って、仮想プロセッサ番号（Ｖ_1,・・
・，Ｖ_m）から、物理プロセッサ２１の番号ｐと、その
物理プロセッサ２１内でのローカル位置番号（Ｊ_1,・・
・，Ｊ _m-1）とを求めていくことになる。

【００６８】例えば、図１０の上段に示す割付形態で仮
想プロセッサに割り付けられた２次元配列データＡの各
配列要素（図８の下段に示すものと同じ割付形態であ
る）は、この第２段階の変換処理ｆ_yで、図１０の下段
に示すように物理プロセッサ２１に割り付けられること
になる。

【００６９】仮想プロセッサ番号「Ｖ₁＝１，Ｖ₂＝
２」、仮想プロセッサ内ローカル位置番号「Ｉ₁ ^'＝
１，Ｉ₂ ^'＝０」に割り付けられた配列データＡ（３，
４）を例にして説明するならば、〔数８〕式に、「Ｖ₁
＝１，Ｖ₂＝２，ｎ＝４」を代入することで、「ｐ＝
３」の物理プロセッサ番号が求められるとともに、「Ｊ
₁＝１」の物理プロセッサ内ローカル位置（順番位置で
定義される）が求められ、そして、上述したように、物
理プロセッサ内ローカル位置でのローカル内部位置につ
いては、仮想プロセッサ内ローカル位置番号がそのまま
用いられるので、「Ｉ ₁ ^'＝１，Ｉ₂ ^'＝０」のローカ
ル内部位置が求められるのである。

【００７０】また、例えば、図１１の上段に示す割付形
態で仮想プロセッサに割り付けられた２次元配列データ
の各配列要素（図９の下段に示すものと同じ割付形態で
ある）は、この第２段階の変換処理ｆ_yで、図１１の下
段に示すように物理プロセッサ２１に割り付けられるこ
とになる。

【００７１】仮想プロセッサ番号「Ｖ₁＝３，Ｖ₂＝
０」、仮想プロセッサ内ローカル位置番号「Ｉ₁ ^'＝
０，Ｉ₂ ^'＝１」に割り付けられた配列データＡ（３，
４）を例にして説明するならば、〔数８〕式に、「Ｖ₁
＝３，Ｖ₂＝０，ｎ＝４」を代入することで、「ｐ＝
３」の物理プロセッサ番号が求められるとともに、「Ｊ
₁＝３」の物理プロセッサ内ローカル位置が求められ、
そして、上述したように、物理プロセッサ内ローカル位
置でのローカル内部位置については、仮想プロセッサ内
ローカル位置番号がそのまま用いられるので、「Ｉ₁ ^'
＝０，Ｉ₂ ^'＝１」のローカル内部位置が求められるの
である。

【００７２】この第２段階の変換処理ｆ_yで用いる〔数
８〕式の第１番目の式は、〔作用〕の欄で説明した〔数
１〕式と同一のものである。すなわち、図４の処理フロ
ーのステップ４で実行するアドレス変換処理は、要する
に、第１段階の変換処理ｆ_xで、ツイストデータレイア
ウト決定処理で決定された配列データを、ツイストデー
タレイアウト決定処理で決定された次元を分割次元とし
て、ブロック割付方式やサイクリック割付方式に従って
仮想プロセッサに割り付け、次に、第２段階の変換処理
ｆ_yで、仮想プロセッサに割り付けた配列データを、図
２に示すようにツイストする形態で物理プロセッサ２１
に割り付けていくものである。

【００７３】この処理に従って、最適なデータ分散のコ
ンフクリトの防止を実現できるのである。一方、図４の
処理フローのステップ５で実行するループ分割処理で
は、アドレス変換処理での配列データの分散結果を踏ま
えて、並列実行対象のループを分割して各物理プロセッ
サ２１に割り付けるループ分割処理を実行する。

【００７４】例えば、図１２に示すようなｍ重ループが
与えられ、この内のｉ_lが並列ループで、各ループがそ
れぞれ仮想プロセッサの各次元に割り付けられるとする
と、各物理プロセッサ２１におけるループが、図１３に
示すような（ｍ×２−１）重ループとなるようにとコー
ドジェネレーションを行うのである。ここで、ｉ_l以外
の全てのループは、仮想プロセッサのインデックスを表
すループと、その仮想プロセッサ内の配列インデックス
を表すループにストリップマインされることになる。

【００７５】このループ分割処理で用いる図１３中のＬ
（Ｖ_k）／Ｕ（Ｖ_k）／Ｖ_lについて説明する。このル
ープ分割処理で用いるＬ（Ｖ_k）は、仮想プロセッサ内
の配列インデックスの下限値、Ｕ（Ｖ_k）は、仮想プロ
セッサ内の配列インデックスの上限値を表しており、ア
ドレス変換処理でブロック割付方式を用いる場合には、

【００７６】

【数９】

【００７７】の式で導出され、サイクリック割付方式を
用いる場合には、

【００７８】

【数１０】

【００７９】の式で導出される。ここで、Ｖ_kは仮想プ
ロセッサ番号、Ｍ_kは仮想プロセッサに割り付けられる
配列データのブロックサイズ、Ｎ_kは配列データのｋ次
元目のサイズから１を引いた値、Ｓは飛び幅を表してい
る。

【００８０】ブロック割付方式により図１０の上段に示
す割付形態でもって仮想プロセッサに割り付けられた８
×８サイズの２次元配列データで説明するならば、例え
ば、仮想プロセッサ番号「Ｖ₁＝１，Ｖ₂＝０」の仮想
プロセッサには、〔数９〕式に、「Ｖ₁＝１，Ｖ₂＝
０，Ｍ₁＝２，Ｍ₂＝２，Ｎ₁＝７，Ｎ₂＝７」を代入
することで、Ｌ（Ｖ₁）＝２，Ｕ（Ｖ₁）＝３，Ｌ（Ｖ₂）＝０，Ｕ
（Ｖ₂）＝１という上下限値を持つ配列インデックスが展開されてい
ることが分かる。なお、このときの配列インデックスの
飛び幅は１である。

【００８１】また、サイクリック割付方式により図１１
の上段に示す割付形態でもって仮想プロセッサに割り付
けられた８×８サイズの２次元配列データで説明するな
らば、例えば、仮想プロセッサ番号「Ｖ₁＝１，Ｖ₂＝
０」の仮想プロセッサには、〔数１０〕式に、「Ｖ₁＝
１，Ｖ₂＝０，Ｎ₁＝７，Ｎ₂＝７」を代入すること
で、Ｌ（Ｖ₁）＝１，Ｕ（Ｖ₁）＝５，Ｌ（Ｖ₂）＝０，Ｕ
（Ｖ₂）＝４という上下限値を持つ配列インデックスが展開されてい
ることが分かる。なお、このときの配列インデックスの
飛び幅は４である。

【００８２】一方、このループ分割処理で用いるＶ
_lは、物理プロセッサ２１の担当する仮想プロセッサの
インデックスを表しており、

【００８３】

【数１１】

【００８４】の式で導出される。ここで、ｐは物理プロ
セッサ番号、ｎは物理プロセッサ台数、Ｖ_kは仮想プロ
セッサ番号である。

【００８５】上述したように、ループ分割処理では、並
列実行対象のループを分割して図１３に示すようなコー
ドを生成する処理を実行する。例えば、図１９に示す２
重ループのプログラムが、図８の上段に示す８×８サイ
ズの２次元配列データを処理するときにあって、アドレ
ス変換処理で、ブロック割付方式を用いる場合には、こ
のループ分割処理では、図１４に示すようなコードを生
成するのである。

【００８６】この場合、Ｌ（Ｖ_k）は、Ｌ（Ｖ_k）＝２×Ｖ_k と表され、Ｕ（Ｖ_k）は、Ｕ（Ｖ_k）＝２×（Ｖ_k＋１）−１と表され、〔数１１〕式は、Ｖ₁＝（ｐ＋（４−Ｖ₂))ｍｏｄ４Ｖ₂＝（ｐ＋（４−Ｖ₁))ｍｏｄ４と表される。

【００８７】従って、「ｐ＝０」の物理プロセッサ２１
が担当する仮想プロセッサは、この〔数１１〕式に、
「ｐ＝０，Ｖ₁＝０」を代入することで特定される「Ｖ
₁＝０，Ｖ₂＝０」の仮想プロセッサと、「ｐ＝０，Ｖ
₁＝１」を代入することで特定される「Ｖ₁＝１，Ｖ₂
＝３」の仮想プロセッサと、「ｐ＝０，Ｖ₁＝２」を代
入することで特定される「Ｖ₁＝２，Ｖ₂＝２」の仮想
プロセッサと、「ｐ＝０，Ｖ₁＝３」を代入することで
特定される「Ｖ₁＝３，Ｖ₂＝１」の仮想プロセッサと
であることが分かる。すなわち、〔数１１〕式に従っ
て、物理プロセッサ２１の担当する仮想プロセッサを特
定できるのである。

【００８８】このようにして、このループ分割処理で
は、仮想プロセッサ内の配列インデックスの下限値Ｌ
（Ｖ_k）と、仮想プロセッサ内の配列インデックスの上
限値Ｕ（Ｖ_k）と、物理プロセッサ２１の担当する仮想
プロセッサのインデックスを特定する〔数１１〕式とを
使いつつ、要するに、アドレス変換処理での配列データ
の分散結果を踏まえて、並列実行対象のループを分割し
て各物理プロセッサ２１に割り付けていく処理を実行す
るのである。

【００８９】図示実施例に従って本発明を詳細に説明し
たが、本発明はこれに限定されるものではない。例え
ば、実施例で使用した数値はあくまで一例に過ぎないも
のである。

【００９０】

【発明の効果】以上説明したように、本発明によれば、
ソースプログラムに記述される配列データを複数の物理
プロセッサに分散配置するときにあって、最適なデータ
分散方法がコンフリクトするときには、配列データをツ
イストして物理プロセッサに分散配置することで、この
コンフリクトを解消するようにとコンパイル処理するも
のである。

【００９１】これから、通信のオーバーヘッドを招くこ
となく高い並列性を実現する配列データの分散配置を提
供できるようになる。

【図面の簡単な説明】

【図１】本発明の原理構成図である。

【図２】ツイスト分散処理の説明図である。

【図３】本発明を実装する計算機システムのシステム構
成図である。

【図４】本発明のコンパイラが実行する処理フローの一
実施例である。

【図５】分散方法の指定されるプログラムの一例であ
る。

【図６】ツイスト対象となるプログラムの一例である。

【図７】データ領域計算処理の説明図である。

【図８】アドレス変換処理の説明図である。

【図９】アドレス変換処理の説明図である。

【図１０】アドレス変換処理の説明図である。

【図１１】アドレス変換処理の説明図である。

【図１２】ループ分割処理の説明図である。

【図１３】ループ分割処理の説明図である。

【図１４】ループ分割処理の説明図である。

【図１５】プログラムの一例である。

【図１６】従来技術の説明図である。

【図１７】従来技術の説明図である。

【図１８】従来技術の説明図である。

【図１９】最適データ分散がコンフリクトを起こすプロ
グラム例である。

【符号の説明】

１コンパイル処理装置２ソースファイル３オブジェクトファイル４コンパイラ１０検出手段１１割付手段１２配置手段１３分割手段

Claims

【特許請求の範囲】

【請求項１】ソースプログラムに記述される配列デー
タを複数の物理プロセッサに分散配置するコンパイル処
理装置において、分散配置の対象となる配列データを分割するとともに、
この分割配列データをツイストする形態でもって各物理
プロセッサに割り付ける配置手段を備えることを、特徴とするコンパイル処理装置。
【請求項２】ソースプログラムに記述される配列デー
タを複数の物理プロセッサに分散配置するコンパイル処
理装置において、分散配置の対象となる配列データを、指定される次元を
分散対象の次元としつつ、規定のアルゴリズムに従って
複数の仮想プロセッサに割り付ける割付手段(11)と、上記割付手段(11)の割り付けた分割配列データを、ツイ
ストする形態でもって各物理プロセッサに割り付ける配
置手段(12)とを備えることを、特徴とするコンパイル処理装置。
【請求項３】請求項２記載のコンパイル処理装置にお
いて、割付手段(11)は、配列データをブロック単位に仮想プロ
セッサに割り付けるよう処理することを、特徴とするコンパイル処理装置。
【請求項４】請求項２記載のコンパイル処理装置にお
いて、割付手段(11)は、配列データをサイリックに仮想プロセ
ッサに割り付けるよう処理することを、特徴とするコンパイル処理装置。
【請求項５】請求項２ないし４記載のコンパイル処理
装置において、並列実行の対象となるループを、配置手段(12)の配置し
た配列データに合わせて分割して各物理プロセッサに割
り付ける分割手段(13)を備えることを、特徴とするコンパイル処理装置。
【請求項６】請求項２ないし５記載のコンパイル処理
装置において、配列データ名及び次元名を指定する配列データ分散指示
のソースプログラム記述を検出する検出手段(10)を備
え、上記検出手段(10)の検出するプログラム記述が異なるル
ープネストで同一配列データの異なる次元の分散指示を
表示するときには、該配列データ及び該次元を指定して
割付手段(11)を起動していくよう構成されることを、特徴とするコンパイル処理装置。
【請求項７】請求項２ないし５記載のコンパイル処理
装置において、ソースプログラムに記述される並列実行可能なループの
添え字が、ループボディ内に記述される配列データの特
定の次元のみに表れる場合に、その次元を検出する検出
手段(10)を備え、上記検出手段(10)が異なるループネストで同一配列デー
タの異なる次元を検出するときには、該配列データ及び
該次元を指定して割付手段(11)を起動していくよう構成
されることを、特徴とするコンパイル処理装置。
【請求項８】請求項２ないし５記載のコンパイル処理
装置において、ソースプログラムに記述される並列実行可能なループの
添え字が、ループボディ内に記述される配列データの複
数の次元に表れる場合に、最も出現頻度の高い次元を検
出する検出手段(10)を備え、上記検出手段(10)が異なるループネストで同一配列デー
タの異なる次元を検出するときには、該配列データ及び
該次元を指定して割付手段(11)を起動していくよう構成
されることを、特徴とするコンパイル処理装置。
【請求項９】請求項２ないし５記載のコンパイル処理
装置において、配列データ名及び次元名を指定する配列データツイスト
指示のソースプログラム記述を検出する検出手段(10)を
備え、上記検出手段(10)の検出するプログラム記述が指定する
配列データ及び次元を指定して割付手段(11)を起動して
いくよう構成されることを、特徴とするコンパイル処理装置。
【請求項１０】請求項２ないし５記載のコンパイル処
理装置において、ソースプログラムに記述される並列実行可能なループの
添え字が、同一ループボディ内の異なるステートメント
で同一配列データの異なる次元に表れる場合に、それら
の次元を検出する検出手段(10)を備え、上記検出手段(10)の検出する配列データ及び次元を指定
して割付手段(11)を起動していくよう構成されること
を、特徴とするコンパイル処理装置。