JP2000112901A

JP2000112901A - データ再配置方法

Info

Publication number: JP2000112901A
Application number: JP10281692A
Authority: JP
Inventors: Makoto Sato; 真琴佐藤; Takashi Hirooka; 孝志廣岡
Original assignee: REAL WORLD COMPUTING PARTNERSH; Hitachi Ltd; Real World Computing Partnership
Current assignee: REAL WORLD COMPUTING PARTNERSH; Hitachi Ltd; Real World Computing Partnership
Priority date: 1998-10-02
Filing date: 1998-10-02
Publication date: 2000-04-21
Anticipated expiration: 2018-10-02
Also published as: JP3551353B2; US6681388B1

Abstract

(57)【要約】【課題】分散記憶型または分散共有記憶型並列機で、
プログラム実行中のデータ再分散におけるコピーを不要
にしプログラムの実行を高速化すること。【解決手段】各配列要素の分散メモリへの割付け方法
を表わすデータ分散形状を収集し(形状収集部103)、各
配列をどのデータ分散形状においても各部分配列が唯一
のプロセッサに属するような部分配列からなる集合に分
割し(配列細分化部105)、各部分配列内の配列要素が連
続アドレスになるように元の配列の次元数を増加させて
配列要素の順序を並び替え(配列高次元化部106)、配列
の各次元のデータ分散形状の種類が２種類以下であるこ
とを判定し(形状種別数判定104)、配列の高次元化され
る次元の添字にループ制御変数が含まれることを検出
し、そのループ制御変数を持つループを配列高次元化に
対応してネストする複数のループに変換し(ループ変換
部1071)、プログラム中の配列参照点における配列添字
を配列高次元化に対応して変更する(添字変更部1072)。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、逐次計算機向けの
プログラムまたは並列計算機向けのデータ再分散指示を
含むプログラムを入力してデータ再配置を行なったり、
あるいは、データ再配置指示を挿入した並列計算機向け
のプログラムまたはオブジェクトプログラムを生成する
コンパイラに係り、特に、バッファへのコピー時間を不
要とし、プログラムの実行時間を短縮することが可能な
データ再配置方法に関する。

【０００２】

【従来技術】従来、分散メモリ型並列計算機におけるデ
ータ再分散を高速化する技術として、ダニエル・ジェイ
・パレルモ、オイゲネ・ヴェー・ホッジ・フィエル、プ
リスヴィラージ・バナジー著「ダイナミックデータパ
ーティショニングフォーディストリビューテッド−メ
モリマルチコンピューターズ」ジャーナルオブパラ
レルアンドディストリビューテッドコンピューティ
ング３８、第１５８頁から第１７５頁（１９８８）（D
aniel J. Palermo, Eugene W. Hodges IV, andPrithvir
aj Banerjee. "Dynamic Data Partitioning for Distri
buted-Memory Multicomputers", Journal of Parallel
and Distributed Computing 38, pp. 158-175 (1998)）
中のpp.170-171で言及されているように、データ再分散
オペレーションのアグレゲーション、即ち、データ再分
散すべき複数の配列、または、データ再分散すべき一つ
の配列の中の非連続な部分を、１つのバッファの連続ア
ドレス領域へプログラム実行時にコピーし、そのバッフ
ァに対して再分散を唯１回、行なうことで、再分散の起
動オーバヘッドを削減するものがあった。

【０００３】また、従来、共有メモリ型並列計算機にお
けるFalse Sharingと呼ばれるキャッシュ間コンフリク
トを削減する技術として、ジェニファー・エム・アンダ
ースン、サマン・ピー・アマラシンハ、モニカ・エス・
ラム著「データアンドコミュニケーショントランス
フォーメーションズフォーマルチプロセッサーズ」ピ
ーピーオーピーピー９５、第１６６頁カラ第１７８頁、
１９９５（Jennifer M. Anderson, Saman P. Amarasing
he, and Monica S. Lam. "Data and Communication Tra
nsformations for Multiprocessors", PPOPP'95, pp. 1
66-178 (1995)）で述べられているように、配列の次元
の内、アドレスが連続する配列要素を特定するのに使わ
れる次元を、プロセッサ個数分に分割し、その次元を、
一つのプロセッサがアクセスする添字だけからなる次元
と、プロセッサ番号を指定する次元の２つの次元に分割
し、後者を、アドレスの増加が最も遅い次元になるよう
に配列を高次元化することで、キャッシュ内のデータが
２つのプロセッサにまたがる機会を減少させるものがあ
った。

【０００４】

【発明が解決しようとする課題】上記第１の従来技術
は、プログラム実行時にバッファへコピーするため、コ
ピーに余分な時間がかかるという問題点がある。また、
上記第１の従来技術は、再分散前後で配列の大きさが変
化する可能性があるため、再分散のたびに配列領域の確
保・開放が必要で、それらに余分な時間がかかるという
問題点がある。さらに、上記第１の従来技術は、上記配
列領域の確保・開放、および、再分散前後で配列の形状
が変化することにより、本来は不要な、再分散前後で同
一のプロセッサに割り当てられる部分配列のコピーも必
要で、それに余分な時間がかかるという問題点がある。

【０００５】上記第２の従来技術は、ある特定の次元の
配列要素を複数プロセッサが分担して計算する時には適
用可能だが、配列が３次元以上で、プログラム中に２つ
の異なるループが存在し、複数プロセッサが分担して計
算する配列の次元がそれらのループに対して、各々、ア
ドレスが連続になる次元から１次元目と２次元目である
時、前者のループに対してはキャッシュ間コンフリクト
の一種であるフォールスシェアリングがかなり削減可能
である。しかし、後者のループに対しては配列の２次元
目の、プロセッサ間の割り当て境界で、３次元目の各添
字に対してプロセッサ総数だけ両プロセッサがキャッシ
ュ共有する可能性があるため、フォールスシェアリング
はあまり削減できないという問題点がある。

【０００６】本発明の目的は、プログラム実行時にバッ
ファへのコピー処理をなくし、プログラムの実行時間を
短縮することである。また、本発明の別の目的は、再分
散時の、配列領域の確保・開放処理をなくし、プログラ
ムの実行時間を短縮することである。また、本発明の別
の目的は、再分散前後で同一のプロセッサに割り当てら
れる部分配列のコピーをなくすことにより、プログラム
の実行時間を短縮することである。また、本発明の別の
目的は、プログラム中に複数の異なるループが存在し、
各々のループで、複数プロセッサが分担して計算する配
列の次元が異なる時に、それら全てのループに対してキ
ャッシュ間コンフリクトを削減することにより、プログ
ラムの実行時間を短縮することである。

【０００７】

【課題を解決するための手段】本発明は、上記目的を達
成するために、プログラム中の各点における、各配列要
素の分散メモリへの割付け方法を表わすデータ分散形状
を収集する形状収集ステップ（図１の形状収集部１０
３）と、各配列を、上記形状収集で得られたどのデータ
分散形状においても、各部分配列が唯一のプロセッサに
属するような部分配列からなる集合に分割する配列細分
化ステップ（同、配列細分化部１０５）と、上記各部分
配列内の配列要素が連続アドレスになるように元の配列
の次元数を増加させて配列要素の順序を並び替える配列
高次元化ステップ（同、配列高次元化部１０６）と、配
列の各次元のデータ分散形状の種類が２種類以下である
ことを判定する形状種別数判定ステップ（同、形状種別
数判定１０４）と、配列の高次元化される次元の添字に
ループ制御変数が含まれることを検出し、そのループ制
御変数を持つループを、配列高次元化に対応して、ネス
トする複数のループに変換するループ変換ステップ
（同、ループ変換部１０７１）と、プログラム中の配列
参照点における配列添字を、配列高次元化に対応して変
更する添字変更ステップ（同、添字変更部１０７２）
と、分散メモリ型並列計算機の各プロセッサで、データ
分散前の元の配列全体を宣言するグローバルデータ宣言
作成ステップ（図７のステップ７０６）と、各配列参照
点における配列添字の値を、データ分散前の元の値を用
いるグローバル添字生成ステップ（図７のステップ７０
５２）と、通信データのバッファリングを行なわない再
分散通信を生成する非バッファリング再分散通信生成ス
テップ（図７のステップ７０４１）を含むものである。

【０００８】また、本発明は、上記別の目的を達成する
ために、複数プロセッサがその部分配列を分担して計算
すべき配列に対して、プログラム中の各点における、各
配列要素のプロセッサへの割付け方法を表わすデータ分
担形状を収集する形状収集ステップ（図２７の形状収集
部１０３）と、各配列を、上記形状収集で得られたどの
データ分担形状においても、各部分配列が唯一のプロセ
ッサの分担になるような部分配列からなる集合に分割す
る配列細分化ステップ（同、配列細分化部１０５）と、
上記各部分配列内の配列要素が連続アドレスになるよう
に元の配列の次元数を増加させて配列要素の順序を並び
替える配列高次元化ステップ（同、配列高次元化部１０
６）と、配列の各次元のデータ分担形状の種類が２種類
以下であることを判定する形状種別数判定ステップ
（同、形状種別数判定部１０４）と、配列の高次元化さ
れる次元の添字にループ制御変数が含まれることを検出
し、そのループ制御変数を持つループを、配列高次元化
に対応して、ネストする複数のループに変換するループ
変換ステップ（同、ループ変換部１０７１）と、プログ
ラム中の配列参照点における配列添字を、配列高次元化
に対応して変更する添字変更ステップ（同、添字変更部
１０７２）と、分散メモリ型並列計算機の各プロセッサ
で、データ分散前の元の配列全体を宣言するグローバル
データ宣言作成ステップ（図７のステップ７０６）と、
各配列参照点における配列添字の値を、データ分散前の
元の値を用いるグローバル添字生成ステップ（図７のス
テップ７０５２）と、通信データのバッファリングを行
なわない再分散通信を生成する非バッファリング再分散
通信生成ステップ（図７のステップ７０４１）を含むも
のである。

【０００９】

【発明の実施の形態】（第１の実施例）以下、本発明の
第１の実施例を図１から図２６を用いて説明する。第１
の実施例では分散メモリを持つ並列計算機を対象として
いる。図１は、本発明による並列化コンパイラの構成を
示したものである。１００は並列化コンパイラである。
並列化コンパイラ１００は、同図に示すように、ソース
プログラム１１０を入力して辞書１２０及び中間語１３
０を出力する構文解析部１０１、辞書１２０及び中間語
１３０を入力してデータ分散指示文を解析し、データ分
散情報１４０を出力するデータ分散指示文解析部１０
２、データ分散情報１４０を入力してプログラム内に現
れるデータ分散形状情報を収集し、その結果を辞書１２
０に反映させる形状収集部１０３、辞書１２０及びデー
タ分散情報１４０を入力して配列のデータ分散の種別数
を判定し、配列を細分化すべきか否かを辞書１２０に反
映させる形状種別数判定部１０４、辞書１２０及びデー
タ分散情報１４０を入力して配列を細分化し、その結果
を辞書１２０に反映させる配列細分化部１０５、辞書１
２０及びデータ分散情報１４０を入力して、データ分散
形状が変化する次元の配列添字範囲を分割して、その次
元を２つの次元に分けることによって配列を高次元化
し、その結果を辞書１２０に反映させる配列高次元化部
１０６、辞書１２０，データ分散情報１４０及び中間語
１３０を入力してプログラムを変換し、その結果を中間
語１３０に反映し、またループテーブル１５０を出力す
るプログラム変換部１０７，辞書１２０，データ分散情
報１４０，中間語１３０及びループテーブル１５０を入
力してプログラムを並列化し、その結果を辞書１２０，
中間語１３０，ループテーブル１５０に反映するプログ
ラム並列化部１０８、辞書１２０，中間語１３０，ルー
プテーブル１５０を入力して並列化プログラム１６０を
出力するコード生成部１０９よりなる。

【００１０】ここで、プログラム変換部１０７は、辞書
１２０，データ分散情報１４０及び中間語１３０を入力
して、配列を高次元化する時に添字範囲を分割すること
によって生じる、分割境界をまたいだ配列要素の参照と
そうでない配列要素の参照で添字が異なることに対処す
るために、分割境界をまたいだ配列要素を参照する文を
含むループ繰り返しと、そのような文を含まないループ
繰り返しを別のループにするループピーリングと、配列
高次元化に伴い、増加した添字に対するループを作成す
るループ多重化とを行い、その結果をループテーブル１
５０を作成してそこに反映し、また中間語１３０に反映
するループ変換部１０７１、配列の高次元化とループピ
ーリングに伴って、配列の添字を変更する添字変更部１
０７２、よりなる。

【００１１】本実施例におけるソースプログラム１１０
は、ＨＰＦ(High Performance Fortran)のようなデータ
分散指示文の入ったプログラムであり、並列化プログラ
ム１６０は、分散メモリマシン向けのＭＰＩ(Message P
assing Interface)のようなメッセージ通信入りの並列
化プログラムである。ここで、データ分散指示文とは、
データを分割して分割された個々のデータを複数の論理
プロセッサの内の一つに割り付けるように、コンパイラ
に指示する文である。

【００１２】ＨＰＦの言語仕様の説明は、ハイパフォ
ーマンスフォートランフォーラム編「ハイパフォー
マンスフォートランランゲージスペシフィケーショ
ンバージョン2.0.α.2」センターフォーリサーチオ
ンパラレルコンピュテーション、ライスユニバーシ
ティ、ヒューストン、テキサス、１９９６（High Perfo
rmance Fortran Forum, "High Performance Fortran La
nguage SpecificationVer. 2.0.α.2", Center for Res
earch on Parallel Computation, Rice Univ.,Houston,
Tx, 1996.）に詳しい。

【００１３】ＭＰＩの仕様の説明は、メッセージパッ
シングインターフェースフォーラム編「エムピーア
イ：アメッセージ ―パッシングインターフェースス
タンダード」ユニバーシティオブテネシー、ノックス
ビル、テネシー、１９９４（Message Passing Interfac
e Forum, "MPI: A Message-Passing Interface Standar
d", University of Tennessee, Knoxville, Tennessse
e, 1994.）に詳しい。

【００１４】次に、本発明の並列化コンパイラの動作
を、図１を元に、図２から図２６まで、具体例を用いて
説明する。図８はソースプログラム１１０の具体例であ
る。文８００は、Ｆｏｒｔｒａｎの文法による配列ａ及
びスカラ変数ｂ，ｃの宣言である。文８０３と文８１７
で囲まれた部分は、ｋをループ制御変数とするループ本
体である。文８０５と文８０９で囲まれた部分は、ｊを
ループ制御変数とするループ本体であり、文８０６と文
８０８で囲まれた部分は、ｉをループ制御変数とするル
ープ本体である。文８１１と文８１５で囲まれた部分も
同様に、ｊをループ制御変数とするループ本体であり、
文８１２と文８１４で囲まれた部分も同様に、ｉをルー
プ制御変数とするループ本体である。

【００１５】文８１６は、スカラ変数ｂ，ｃの値を変更
する手続き呼出し文である。文８０１，文８０２，文８
０４，及び文８１０はＨＰＦの指示文である。“！ＨＰ
Ｆ＄”は、それで始まる文がＨＰＦの指示文であること
を表わすキーワードである。文８０１は論理プロセッサ
の配置形状を指定する指示文である。“ＰＲＯＣＥＳＳ
ＯＲＳ”はキーワードであり、それに続く“ｐｒｏｃ
（４）”により、論理プロセッサ４台が直線状に配置さ
れていることを宣言している。文８０２は、配列ａの初
期分割を指示する文である。“ＤＩＳＴＲＩＢＵＴＥ”
はキーワードであり、それに続く“ａ（ｂｌｏｃｋ，
＊）ＯＮＴＯｐｒｏｃ”により、配列ａの１次元目を
ｂｌｏｃｋという方法で分割し、分割された各々の部分
配列を論理プロセッサｐｒｏｃ（１），ｐｒｏｃ
（２），ｐｒｏｃ（３），ｐｒｏｃ（４）に、それぞれ
割り付けることを表わす。

【００１６】ここで、上記の論理プロセッサ宣言におい
て、配列ａの１次元目をｂｌｏｃｋ分割するとは、配列
ａの１次元目の下限値を１、上限値をＮとすると、配列
ａの１次元目の添字を、１から［（Ｎ−１）／４］＋１
個ずつ区切って、ｐｒｏｃ（１）から順番に割り付ける
ことである。今の場合、ａ（１：３，１：１２），ａ
（４：６，１：１２），ａ（７：９，１：１２），ａ
（１０：１２，１：１２）がそれぞれ、ｐｒｏｃ
（１），ｐｒｏｃ（２），ｐｒｏｃ（３），ｐｒｏｃ
（４）に割り付けられる。

【００１７】文８０４は配列ａをプログラム実行中に再
分割することを指示する文である。“ＲＥＤＩＳＴＲＩ
ＢＵＴＥ”はキーワードであり、それに続く“ａ（ｂｌ
ｏｃｋ，＊）ＯＮＴＯｐｒｏｃ”により、配列ａの１
次元目をｂｌｏｃｋという方法で分割し、分割された各
々の部分配列を論理プロセッサｐｒｏｃ（１），ｐｒｏ
ｃ（２），ｐｒｏｃ（３），ｐｒｏｃ（４）に、それぞ
れ割り付けることを表わす。この指示文により、それま
で他の方法で論理プロセッサに割り付けられていた配列
要素は、配列ａの１次元目をｂｌｏｃｋ分割するような
割り付けられ方に変更される。これにより、一般に論理
プロセッサ間のデータ移動が発生する。

【００１８】文８１０も同様に配列ａをプログラム実行
中に再分割することを指示する文である。この文は、文
８０４とは異なり、配列ａの２次元目をｂｌｏｃｋ分割
するような割り付けかたを指示する。今の場合、ａ
（１：１２，１：３），ａ（１：１２，４：６），ａ
（１：１２，７：９），ａ（１：１２，１０：１２）が
それぞれ、ｐｒｏｃ（１），ｐｒｏｃ（２），ｐｒｏｃ
（３），ｐｒｏｃ（４）に割り付けられる。

【００１９】以下、並列化コンパイラ１００の中の個々
の処理を説明する。構文解析部１０１は上記ソースプロ
グラム１１０を入力して辞書１２０、中間語１３０を生
成する。中間語１３０はソースプログラム１１０に対応
しているので、以下の説明では、図８のソースプログラ
ム１１０を、中間語１３０のソースプログラムイメージ
の表現として用いる。

【００２０】図１０は、構文解析部１０１が生成する辞
書１２０を示したものである。１０００は、配列ａに対
する辞書１２０である。本説明ではスカラ変数ｂとｃに
対する辞書は説明で用いないため、省略する。１００１
は変数名を示し、配列名である“ａ”という文字列が設
定されている。１００２は変数の型で、実数型を示す
“ＲＥＡＬ”が設定されている。１００３は変数長で、
４バイト変数を示す“４”が設定されている。１００４
は変数が配列か否かを表わすフラグで、ａは配列なので
“ＴＲＵＥ”が設定されている。

【００２１】１００５は配列を細分化すべきか否かを表
わすフラグであり、“ＴＲＵＥ”は配列を細分化すべき
であることを表わす。この値は形状種別数判定１０４で
設定される。１００６は変数が配列の場合、その次元数
を表わす。配列ａは２次元配列なので、値２が設定され
ている。１００７は変数が配列の場合、その配列の各次
元の寸法宣言情報を格納した配列辞書１０４０を指すポ
インタである。１００８は細分化情報１１００へのポイ
ンタである。これは配列細分化１０５で設定される。１
００９は高次元化辞書１２００へのポインタである。こ
れは配列高次元化１０６で設定される。１０１０はデー
タ分散情報の収集リストの先頭１０２０へのポインタで
ある。これは形状収集１０３で設定される。

【００２２】１０４０は配列の各次元の寸法宣言情報を
格納した配列辞書であり、辞書１０００のフィールド１
００７から指されている。１０４１は配列ａの第１次元
目の下限値と上限値が、各々、１と１２であることを表
わしている。１０４２は配列ａの第２次元目の下限値と
上限値が、各々、１と１２であることを表わしている。

【００２３】データ分散指示文解析１０２は、辞書１２
０及び中間語１３０を入力して、データ分散情報１４０
を出力する。図９は、データ分散情報１４０を示したも
のである。上記説明した通り、中間語１３０として図８
のソースプログラム１１０を用いる。また、図８におけ
る文８０２に対するデータ分散情報は文８０４に対する
データ分散情報と同じなので、ここでは文８０４と文８
１０に対するデータ分散情報、及び文８０１に対する論
理プロセッサ情報のみ示す。

【００２４】９４０はＰＲＯＣＥＳＳＯＲＳ指示文８０
１を解析して得たＰＲＯＣＥＳＳＯＲＳ情報テーブルで
ある。９４１は論理プロセッサの変数名を表わす文字列
“ｐｒｏｃ”である。９４２は論理プロセッサの配列次
元数であり、値１は１次元配列であることを示す。９４
３は論理プロセッサの各次元の寸法情報を表わす配列辞
書９５０へのポインタである。９５０は論理プロセッサ
の各次元の寸法情報を表わす配列辞書であり、論理プロ
セッサｐｒｏｃの第１次元目の下限値と上限値が、各
々、０と３であることを示している。

【００２５】９００は再分散指示文８０４を解析して得
た、配列ａに対するデータ分散情報テーブルである。９
０１は８０４の指示文に対してデータ分散情報が変化す
る他の変数へのポインタである。今の場合、そのような
変数は存在しないので値ＮＵＬＬが設定されている。９
０２は配列ａの次元数であり、値２が設定されている。
９０３は各次元ごとのデータ分散情報を表わす次元毎デ
ータ分散情報テーブル９２０へのポインタである。９０
４は論理プロセッサに対するＰＲＯＣＥＳＳＯＲＳ情報
テーブルへのポインタであり、ｐｒｏｃに対するＰＲＯ
ＣＥＳＳＯＲＳ情報テーブル９４０を指している。

【００２６】９２０は配列ａに対する次元毎データ分散
情報テーブルである。９２１は第１次元目の分散形状が
ｂｌｏｃｋ分割であることを示している。９２２は第１
次元目のｂｌｏｃｋ分割により、連続する３個の配列要
素が各論理プロセッサに割り当てられることを示してい
る。この数値３は、配列辞書１０４０から得られる配列
ａの第１次元目の寸法「１２」を、配列辞書９５０から
得られる論理プロセッサ数「４」で割って、小数点以下
の端数を切り上げることで得られる。今の場合は「３」
となる。この計算方法は前出の“High PerformanceFort
ran Language Specification”に記述されている。９２
３は第２次元目が分散されないことを示している。９２
４は第２次元目の、連続する１２個の配列要素が各論理
プロセッサに割り当てられることを示している。即ち、
これは第２次元目の全部が各論理プロセッサに割り当て
られることを示している。

【００２７】９１０は再分散指示文８１０を解析して得
た、配列ａに対するデータ分散情報テーブルである。９
１１は再分散指示文８１０に対してデータ分散情報が変
化する他の変数へのポインタである。今の場合、そのよ
うな変数は存在しないので値NULLが設定されている。９
１２は配列ａの次元数であり、値２が設定されている。
９１３は各次元ごとのデータ分散情報を表わす次元毎デ
ータ分散情報テーブル９３０へのポインタである。

【００２８】９１４は論理プロセッサに対するＰＲＯＣ
ＥＳＳＯＲＳ情報テーブルへのポインタであり、ｐｒｏ
ｃに対するＰＲＯＣＥＳＳＯＲＳ情報テーブル９４０を
指している。９３０は配列ａに対する次元毎データ分散
情報テーブルである。９３１は第１次元目が分散されな
いことを示している。９３２は第１次元目の、連続する
１２個の配列要素が各論理プロセッサに割り当てられる
ことを示している。即ち、これは第２次元目の全部が各
論理プロセッサに割り当てられることを示している。９
３３は第２次元目の分散形状がｂｌｏｃｋ分割であるこ
とを示している。９３４は第２次元目のｂｌｏｃｋ分割
により、連続する３個の配列要素が各論理プロセッサに
割り当てられることを示している。この数値３の計算方
法は９２２の場合と同様である。

【００２９】データ分散指示文解析部１０２は、上記説
明したデータ分散情報テーブル９００及び９１０を得る
ものであり、通常の構文解析処理に、辞書の各次元ごと
の寸法と論理プロセッサ数から９２２及び９３４を計算
する処理を加えただけのものであるので、詳細なアルゴ
リズムは省略する。

【００３０】次に、形状収集部１０３はデータ分散情報
１４０を入力して、変数ごとのデータ分散情報をまとめ
るための収集リストを作成して、その収集リストの先頭
を変数の辞書１２０に接続する。図１０の１０２０と１
０３０はその結果得られるデータ分散情報の収集リスト
であり、１０２０はその内の先頭であり、辞書１０００
のフィールド１０１０から指されている。１０２１は次
の収集リストへのポインタであり、次の収集リスト１０
３０を指している。１０２２は形状収集１０３が収集す
るデータ分散情報９００へのポインタである。１０３１
は次の収集リストへのポインタであり、もうリストがな
いので、値ＮＵＬＬが設定されている。１０３２は形状
収集１０３が収集するデータ分散情報９１０へのポイン
タである。

【００３１】形状種別数判定部１０４は、辞書１２０及
びデータ分散情報１４０を入力して配列のデータ分散の
種別数を判定し、種別数が２の時は配列を細分化すべき
と判定し、その結果を辞書１２０に反映させる。まず、
配列ａに対する辞書１０００のフィールド１０１０から
収集リスト１０２０及び１０３０をたどり、そこから得
られるデータ分散情報テーブル９００及び９１０が各々
異なる分散形状（ｂｌｏｃｋ，＊），（＊，ｂｌｏｃ
ｋ）であることからデータ分散の種別数２を得る。その
結果、細分化すべきと判定し、細分化フラグ１００５の
値をＴＲＵＥに設定する。

【００３２】配列細分化部１０５は、辞書１２０及びデ
ータ分散情報１４０を入力して配列を細分化し、その結
果を辞書１２０に反映させる。図２は配列細分化部１０
５の処理手順を示したものである。以下、配列ａに対す
る処理を示す。まず、形状種別判定部１０４で設定され
た１００５のフラグの値がＴＲＵＥなので、配列ａは細
分化すべきであり、ステップ２００はＹｅｓとなる。次
に、ステップ２０１でＩの値が１となる。収集リスト１
０２０と１０３０から、配列ａのデータ分散情報テーブ
ル９００、９１０をたどり、それらから指される９２１
及び９３１より、配列ａの１次元目のデータ分散形状が
“ｂｌｏｃｋ”と“＊”とわかる。今の場合、２０２に
おけるブロック分割の記法におけるｍの値は、９２２の
値３にあたるので、ステップ２０２はＹｅｓとなる。

【００３３】ステップ２０３では、細分化フラグＴＲＵ
Ｅ、細分分散ｂｌｏｃｋ、細分幅ｍとして３、細分ＰＥ
数として１次元目がｂｌｏｃｋ分散となるデータ分散指
示文８０４の、ｂｌｏｃｋに対する論理プロセッサ数４
を、細分化情報の１次元目に設定する。

【００３４】図１１は細分化情報１１００を示したもの
である。１１０１は１次元目に対する細分化フラグの値
を、１１０２は１次元目に対する細分分散を、１１０３
は１次元目に対する細分幅を、１１０４は１次元目に対
する細分ＰＥ数を示している。同様にして、１１０５は
２次元目に対する細分化フラグの値を、１１０６は２次
元目に対する細分分散を、１１０７は２次元目に対する
細分幅を、１１０８は２次元目に対する細分ＰＥ数を示
す。今、Ｉが１なので、ステップ２０３で設定された情
報は細分化情報１１００の１次元目に対するフィールド
に格納される。即ち、細分化フラグの値ＴＲＵＥが１１
０１に、細分分散ｂｌｏｃｋが１１０２に、細分幅３が
１１０３に、細分ＰＥ数４が１１０４に格納される。

【００３５】次に、ステップ２０７において、Ｉの値が
２になる。配列ａは２次元なのでステップ２０８はＮｏ
となり、処理はステップ２０２に戻る。収集リスト１０
２０と１０３０から、配列ａのデータ分散情報テーブル
９００及び９１０をたどり、それらから指される９２
３，９３３より、配列ａの２次元目のデータ分散形状が
“＊”と“ｂｌｏｃｋ”とわかる。今の場合、ステップ
２０２におけるブロック分割の記法におけるｍの値は、
９３４の値３にあたるので、ステップ２０２はＹｅｓと
なる。

【００３６】ステップ２０３では、細分化フラグＴＲＵ
Ｅ、細分分散ｂｌｏｃｋ、細分幅ｍとして３、細分ＰＥ
数として２次元目がｂｌｏｃｋ分散となるデータ分散指
示文８１０の、ｂｌｏｃｋに対する論理プロセッサ数４
を、細分化情報の２次元目に設定する。今、Ｉが２なの
で、ステップ２０３で設定された情報は細分化情報１１
００の２次元目に対するフィールドに格納される。即
ち、細分化フラグの値ＴＲＵＥが１１０５に、細分分散
ｂｌｏｃｋが１１０６に、細分幅３が１１０７に、細分
ＰＥ数４が１１０８に格納される。

【００３７】次に、ステップ２０７において、Ｉの値が
３になる。配列ａは２次元なのでステップ２０８はＹｅ
ｓになる。他にデータ分散配列はないので、ステップ２
０９はＮｏとなり処理を終了する。

【００３８】次に、配列高次元化部１０６は、辞書１２
０及びデータ分散情報１４０を入力して配列宣言を高次
元化することにより配列要素のアドレス順序を変更し、
その結果を辞書１２０に反映させる。図３は配列高次元
化部１０６の処理手順を示したものである。以下、配列
ａに対する処理を示す。

【００３９】まず、形状種別判定部１０４で設定された
１００５のフラグの値がＴＲＵＥなので、配列ａは細分
化すべきであり、ステップ３００はＹｅｓとなる。ステ
ップ３０１では、配列ａの辞書１０００のフィールド１
００６より配列の次元数Ｋは２、細分化情報１１００の
フラグ１１０１と１１０５が両方ともＴＲＵＥなので、
細分化すべき次元数Ｊは２で、Ｋ＋Ｊ＝４となって、４
次元分の高次元化辞書の領域を確保する。

【００４０】図１２は高次元化辞書１２００を示したも
のである。１２０１は高次元化後の配列の次元数、１２
０２は高次元化後の配列の次元毎情報テーブル１２１０
へのポインタ、１２１０は次元毎情報テーブル、１２１
１，１２１４，１２１７，１２２０は各々、高次元化後
の配列の１，２，３，４次元目の高次元化フラグであ
る。高次元化フラグには、高次元化の対象次元なら“ｃ
ｈａｎｇｅｄ”が、高次元化により新しく作成される次
元なら“ｎｅｗ”が、高次元化の対象でない次元なら
“ｎｏｔｃｈａｎｇｅｄ”が設定される。

【００４１】１２１２，１２１５，１２１８，１２２１
は各々、高次元化後の配列の１，２，３，４次元目の高
次元化対応次元である。高次元化対応次元には、高次元
化の対象次元なら、その次元に対応する新しく作成され
る次元が、高次元化により新しく作成される次元なら、
その元の高次元化対象次元が設定され、高次元化の対象
でない次元なら０が設定される。１２１３，１２１６，
１２１９，１２２２は各々、高次元化後の配列の１，
２，３，４次元目の上下限値が設定される。

【００４２】次に、ステップ３０２でＩの値が１、Ｊの
値が０となる。細分化情報１１００の１次元目の細分化
フラグ１１０１の値がＴＲＵＥなので、ステップ３０３
はＹｅｓとなる。次に、ステップ３０４でＪの値を１に
する。ステップ３０５で高次元化辞書１２００の第１次
元目の高次元化フラグ１２１１の値をｃｈａｎｇｅｄに
設定する。辞書１０００中の１０４１で示された、配列
ａの第１次元の下限値１と上限値１２、細分化情報１１
００のフィールド１１０４が示す細分化ＰＥ数の値４よ
り、細分化後の下限値１、細分化後の上限値１＋（１２
／４）−１＝３を得る。これらから得られる下限値と上
限値の組１：３を高次元化辞書１２００の第１次元目に
対するフィールド１２１３に設定する。また、高次元化
対応次元Ｋ＋Ｊの値３を１２１２に設定する。

【００４３】ステップ３０６で、高次元化辞書のＫ＋Ｊ
＝３次元目の高次元化フラグ１２１７の値をｎｅｗ、下
限値を１、上限値を細分化ＰＥ数の値４として、組１：
４を１２１９に設定する。また、高次元化対応次元Ｉの
値１を１２１８に設定する。ステップ３０８で、Ｉの値
が２になる。Ｉの値２は、Ｋの値２より大きいことはな
いので、ステップ３０９はＮｏとなり、ステップ３１０
により次の次元に処理を移し、ステップ３０３に戻る。

【００４４】細分化情報１１００の２次元目の細分化フ
ラグ１１０５の値がＴＲＵＥなので、ステップ３０３は
Ｙｅｓとなる。ステップ３０４でＪの値は２になる。ス
テップ３０５で高次元化辞書１２００の第２次元目の高
次元化フラグ１２１４の値をｃｈａｎｇｅｄに設定す
る。辞書１０００中の１０４２で示された、配列ａの第
２次元の下限値１と上限値１２、細分化情報１１００の
フィールド１１０８が示す細分化ＰＥ数の値４より、細
分化後の下限値１、細分化後の上限値１＋（１２／４）
−１＝３を得る。これらから得られる下限値と上限値の
組１：３を高次元化辞書１２００の第２次元目に対する
フィールド１２１６に設定する。また、高次元化対応次
元Ｋ＋Ｊの値４を１２１５に設定する。

【００４５】ステップ３０６で、高次元化辞書のＫ＋Ｊ
＝４次元目の高次元化フラグ１２２０の値をｎｅｗ、下
限値を１、上限値を細分化ＰＥ数の値４として、組１：
４を１２２２に設定する。また、高次元化対応次元Ｉの
値２を１２２１に設定する。ステップ３０８で、Ｉの値
が３になる。Ｉの値３は、Ｋの値２より大きいので、ス
テップ３０９はＹｅｓとなる。データ分散配列は他にな
いので、ステップ３１１はＮｏとなり、配列高次元化の
処理を終了する。

【００４６】次に、プログラム変換部１０７は、辞書１
２０、データ分散情報１４０及び中間語１３０を入力し
てプログラムを変換し、その結果を中間語１３０に反映
し、またループテーブル１５０を出力するプログラム変
換を行なう。プログラム変換部１０７はループ変換部１
０７１と添字変換部１０７２からなる。ここでは、中間
語１３０として、図８の文８０３と文８１７に対応する
ループｋと、文８０５から文８０９までのループｊ、ル
ープｉのみを対象として説明し、文８１１と文８１５に
対応するループｊと文８１２から文８１４までに対応す
るループｉに関する処理は省略する。

【００４７】図４はループ変換部１０７１の処理手順を
説明したものである。プログラム分割解析ステップ４０
０では辞書１２０，データ分散情報１４０及び中間語１
３０を入力して、ループテーブル１５０を出力する。図
１３はループテーブル１５０を示す。１３００は図８の
文８０３と文８１７に対応するループｋのループテーブ
ル、１３１０は文８０５と文８０９に対応するループｊ
のループテーブル、１３３０は文８０６から文８０８ま
でに対応するループｉのループテーブル、１３２０は文
８１１と文８１５に対応するループｊのループテーブル
を示す。文８１２から文８１４までに対応するループｉ
のループテーブルは説明に使わないため省略されている
が、それは１３２０から接続されている。

【００４８】１３０１はループｋの一つ内側にあるルー
プ群の先頭ループのループテーブルへのポインタであ
り、１３１０を指している。１３０２はループｋの一つ
外側にあるループのループテーブルへのポインタであ
り、ループｋにはそのようなループはないので、値ＮＵ
ＬＬが設定されている。１３０３は当該ループのループ
制御変数の辞書へのポインタであり、ｋを指している。
１３０４はループネストであり、一番外側のループなの
で、１が設定されている。１３０５は当該ループをピー
リングするか否かを示すフラグであり、これはループピ
ーリング解析４０１で設定される。１３０６はループの
上下限値を示し、下限値１、上限値１０が設定されてい
る。１３０７はループをプログラム分割した結果、作成
されるプログラム分割テーブルの先頭テーブルへのポイ
ンタである。ループｋはプログラム分割対象ループでな
いので値ＮＵＬＬが設定されている。１３０８は後続の
ループのループテーブルへのポインタで、ループｋには
後続ループはないので値ＮＵＬＬが設定されている。

【００４９】同様にして、１３１１はループｊの内側ル
ープであるループｉのループテーブル１３３０へのポイ
ンタ、１３１２はループｊの外側ループであるループｋ
のループテーブル１３００へのポインタ、１３１３はル
ープ制御変数ｊの辞書へのポインタ、１３１４はループ
ｊのネスト２、１３１５はループｊをピーリングするか
否かを示すフラグ、１３１６はループｊの上下限値、１
３１７はプログラム分割テーブルの先頭テーブル１３４
０へのポインタ、１３１８は後続ループである、８１１
と８１５が示すループｊのループテーブルへのポインタ
を示す。

【００５０】同様にして、１３３１はループｉの内側ル
ープがないため値ＮＵＬＬ、１３３２はループｉの外側
ループであるループｊのループテーブル１３１０へのポ
インタ、１３３３はループｉのループ制御変数ｉの辞書
へのポインタ、１３３４はループｉのネスト３、１３３
５はループｉをピーリングするか否かを示すフラグ、１
３３６はループｉの上下限値、１３３７はプログラム分
割テーブルの先頭テーブル１３６０へのポインタ、１３
３８は後続ループがないため値ＮＵＬＬを示す。ループ
テーブルの内、以上の内容は中間語１３０から容易に得
られる。

【００５１】１３４０及び１３５０はループｊに対する
プログラム分割テーブルである。１３４１は本テーブル
が有効な論理プロセッサ番号の範囲を示し、論理プロセ
ッサ番号１に対して有効であることを示す。１３４２は
プログラム分割後のループの上下限値であり、下限値が
２、上限値が３であることを示す。１３４３は次のプロ
グラム分割テーブルへのポインタであり、１３５０を指
している。１３５１は本テーブルが有効な論理プロセッ
サ番号の範囲を示し、論理プロセッサ番号２から４まで
に対して有効であることを示す。１３５２はプログラム
分割後のループの上下限値であり、下限値が１、上限値
が３であることを示す。１３５３は次のプログラム分割
テーブルへのポインタであるが、もうないので値ＮＵＬ
Ｌが設定されている。上記２つのプログラム分割テーブ
ルにより、ループｊは論理プロセッサ番号１に対して
は、ループ上下限値が２と３、論理プロセッサ番号２か
ら４に対しては、ループ上下限値が１と３、になること
がわかる。

【００５２】上記プログラム分割テーブルを得るための
処理はジーマ・ヒラナンダニ、ケン・ケネディ、チャウ
・ウェン・ツェン著「コンパイリングフォートランデ
ィーフォーエムアイエムディーディストリビューテッ
ドメモリマシーンズ」コミュニケーションズオブザ
エーシーエム、ボリューム３５、ナンバー８、オーガ
スト、１９９２、第６６頁から第８０頁（Seema Hirana
ndani, Ken Kennedy, Chau-Wen Tseng, "Compiling For
tran D for MIMD Distributed-Memory Machines", Comm
unications of the ACM, Vol. 35, No. 8, August, 199
2, pp.66-80）に詳しい。

【００５３】次にループピーリング解析ステップ４０１
は中間語１３０中の配列参照テーブルとループテーブル
を入力し、各々に対してループピーリング後の情報を追
加する。

【００５４】図１４は文８０７中のａ（ｉ，ｊ−１）に
対する配列参照テーブルを示したものである。１４００
はａ（ｉ，ｊ−１）に対する配列参照テーブルである。
１４０１は配列ａの辞書へのポインタである。１４０２
は配列の各次元の添字情報を表わす添字テーブルの先頭
へのポインタであり、１４１０を指している。１４０３
は各次元ごとのピーリング情報を表わすテーブルへのポ
インタであり、１４３０を指している。これはループピ
ーリング解析ステップ４０１で設定される。１４１０は
ａ（ｉ，ｊ−１）の１次元目の添字テーブルである。１
４１１は２次元目に対する添字テーブルへのポインタで
あり、１４２０を指している。１４１２は添字を表わす
中間語へのポインタであり、ｉを表わす中間語を指して
いる。１４２０はａ（ｉ，ｊ−１）の２次元目の添字テ
ーブルである。１４２１は配列ａには３次元目が存在し
ないので、値ＮＵＬＬが設定されている。１４２２は添
字を表わす中間語へのポインタであり、ｊ−１を表わす
中間語を指している。１４３０及び１４４０は次のルー
プピーリング解析で作成されるテーブルであり、その処
理の中で説明する。

【００５５】図５はループピーリング解析ステップ４０
１の詳細な処理手順を示したものである。ここでは図１
４で示された配列参照テーブル１４００に対する処理の
み説明する。ステップ５００でＩの値は１になる。配列
ａの１次元目は細分化情報１１００中のフィールド１１
０１がＴＲＵＥなので細分化する次元であり、ステップ
５０１はＹｅｓとなる。

【００５６】１４１２より当次元に現れる変数はｉであ
り、これはループテーブル１３３０よりループ制御変数
であることがわかる。このｉに分散後ループ範囲１３６
２を代入して、当次元の添字範囲は１：３になる。一
方、データ分散後の当次元の添字範囲は高次元化辞書１
２００のフィールド１２１３より１：３であるから、分
散後ループ範囲から得られた添字範囲１：３からデータ
分散後の添字範囲１：３をひいた残りの範囲は空集合と
なり、ステップ５０２の結果は空集合である。よって、
ステップ５０３はＹｅｓとなる。

【００５７】ステップ５０５で当次元はピーリングしな
い、とし、ピーリングすべきループ範囲とピーリングす
べき添字のはみ出す方向を各々、０とする。次に、ステ
ップ５０６で、ピーリング情報テーブル１４３０を作成
する。ここで、１４３１は次のピーリング情報テーブル
へのポインタ，１４３２はピーリングするか否かを示す
フラグ，１４３３は当次元に現れるループ制御変数，１
４３４はピーリングすべきループ範囲，１４３５はピー
リングすべき添字のはみ出す方向，１４３６は当ループ
制御変数を持つループテーブルへのポインタである。

【００５８】よって、今の場合、１４３１には、まずＮ
ＵＬＬが設定される。但し、このフィールドは次の２次
元目の処理で、新規に作成されるピーリング情報テーブ
ル１４４０を指すように変更される。１４３２にはピー
リングしないのでＦＡＬＳＥが、１４３３には当次元に
現れるループ制御変数ｉが、１４３４には０が、１４３
５にも０が、１４３６にはループｉに対するループテー
ブル１３３０へのポインタが設定される。

【００５９】次に、ステップ５０７では、現在は１次元
目の処理をしているので、Ｙｅｓとなる。ステップ５０
８で、Ｉの値は２になる。配列ａの２次元目は細分化情
報１１００中のフィールド１１０５がＴＲＵＥなので細
分化する次元であり、ステップ５０１はＹｅｓとなる。
１４２２より当次元に現れる変数はｊであり、これはル
ープテーブル１３１０よりループ制御変数であることが
わかる。このｊに分散後ループ範囲１３４２、１３５２
を代入し、１３４１、１３５１の論理プロセッサ番号範
囲も合わせると、当次元の添字範囲は、論理プロセッサ
番号範囲が１：１の時は１：２、論理プロセッサ番号範
囲が２：４の時は０：２となる。

【００６０】一方、データ分散後の当次元の添字範囲は
高次元化辞書１２００のフィールド１２１６より１：３
であるから、分散後ループ範囲から得られた添字範囲か
らデータ分散後の添字範囲をひいた残りの範囲は論理プ
ロセッサ番号範囲が２：４の時に０：０となり、ステッ
プ５０２の結果は０：０である。よって、ステップ５０
３はＮｏとなる。

【００６１】ステップ５０４では、まず、「当次元はピ
ーリングする」とする。次に、０：０が２次元目の添字
であるｊ―１と等しくなることより、ｊの値は１：１と
なる。よって、はみ出す時のループ範囲であるピーリン
グ範囲は１：１である。また、このピーリング範囲は論
理プロセッサ番号範囲が２：４の時に生じるので、ルー
プテーブル１３１０の分散後ループ範囲のうち、この論
理プロセッサ番号範囲に対応するテーブル１３５０を細
分する。即ち、テーブル１３５０を、ピーリング範囲
１：１の範囲を持つテーブルとそれ以外の範囲からなる
テーブルに分割する。

【００６２】図１５は細分化後のループ分散範囲テーブ
ルである。テーブル１３５０のループ分散範囲は１：３
から１：１に変更されている。新たにテーブル１５００
が作成され、１３５３は１５００を指す。１５０１は細
分されるループ分散範囲の論理プロセッサ番号範囲２：
４に設定される。１５０２は元のループ分散範囲は１：
３から１：１を引いた範囲２：３に設定される。１５０
３は他に指すべきテーブルがないので、値ＮＵＬＬが設
定される。

【００６３】次に、ステップ５０６より、ピーリング情
報テーブル１４４０を作成する。まず、１４４１には次
のテーブルがないのでＮＵＬＬが設定され、１４３１に
は１４４０へのポインタが設定される。１４４２には、
ピーリングすることを示すフラグＴＲＵＥが、１４４３
には当次元に現れるループ制御変数であるｊが、１４４
４にはステップ５０４で計算した１：１を設定する。ル
ープ分散後のループ範囲１３４２及び１３５２の内、
１：１は１３５２の下限を含むので、はみ出す方向とし
て下限方向を示す−１を、１４４５に設定する。１４４
６には、ループｊに対するループテーブル１３１０への
ポインタを設定する。

【００６４】次に、配列ａにはもう処理すべき次元がな
いので、ステップ５０７はＮｏとなる。上記説明したよ
うに、図５では図１４の配列参照に対する処理だけを説
明するので、ステップ５０９はＮｏになり、これでルー
プピーリング処理の説明を終了する。

【００６５】ここで、図４に戻り、ループ変換の説明を
続ける。ループ変換の残りの処理では、図１３のループ
テーブル群から図１６及び１７で示されたループテーブ
ル群を生成し、図１８のプログラムを生成する。まず、
ステップ４０２で、最初の最内側ループであるループｉ
を検出する。以降の処理で、処理済みの分散ループに対
しては、ループ分散範囲テーブルへのポインタをＮＵＬ
Ｌにする。よって、ステップ４０３で、未処理の分散ル
ープであることは、分散ループであることを示すフラグ
がＴＲＵＥで、かつ、ループ分散範囲テーブルへのポイ
ンタがＮＵＬＬでないことからわかる。図１３の、ルー
プｉに対するループテーブル１３３０で、１３３５はＴ
ＲＵＥで、１３３７はＮＵＬＬでないので、ループｉは
未処理の分散ループであり、ステップ４０３はＹｅｓで
ある。

【００６６】ステップ４０４では、１３３０の一つ内側
にループテーブルを作成する。図１６はステップ４０４
により現ループテーブル１３３０（ＬＴ１）の一つ内側
に新たにループテーブル１６００（ＬＴ２）が作成され
た様子を表わした図である。

【００６７】以下、ステップ４０４に従って図１６を説
明する。まず、ループ分散テーブル１３６０は１個だけ
なので、ＬＴ１以下のループテーブルのコピーは作成す
る必要はない。ＬＴ１に対するループ制御変数名をｉ２
とし、１３３３に設定する。ＬＴ１のループ範囲１３３
６をループ分散範囲テーブル１３６０の論理プロセッサ
番号範囲１３６１である１：４に設定する。

【００６８】ループテーブル１６００は一つ内側のルー
プに対するテーブルなので、一つ内側のループ先頭を指
すポインタ１３３１を１６００を指すように設定する。
一つ外側のループテーブルへのポインタ１３３１，ルー
プネスト１３３４，分散ループフラグ１３３５，後続ル
ープへのポインタ１３３８はそのままである。ループ分
散範囲テーブル１３６０へのポインタ１３３７をＮＵＬ
Ｌに設定して、このループテーブルが処理済みであるこ
とを示す。

【００６９】次に、ＬＴ２に対するループ制御変数名を
ｉ１とし、１６０３に設定する。ＬＴ２のループ範囲１
６０６をループ分散範囲テーブル１３６０のループ分散
範囲１３６２である１：３に設定する。ループテーブル
１６００は最内側ループなので、１６０１はＮＵＬＬ
に、一つ外側のループテーブルへのポインタである１６
０２は１３３０を指すように設定される。また、１６０
４，１６０５，１６０７，１６０８は各々、０、ＴＲＵ
Ｅ、ＮＵＬＬ、ＮＵＬＬに初期化される。１６０５がＴ
ＲＵＥで１６０７がＮＵＬＬなので、ループテーブル１
６００は処理済みであることを示す。

【００７０】次に、１３３８はＮＵＬＬなので後続ルー
プはなく、ステップ４０５はＮｏである。１３３２は外
側ループテーブル１３１０を指しているので、ステップ
４０７はＴＲＵＥ（Ｙｅｓ）であり、ステップ４０８で
処理は外側ループテーブル１３１０に移り、ステップ４
０３へ戻る。１３１５はＴＲＵＥだが、１３１７はＮＵ
ＬＬでないので、ループテーブル１３１０は未処理の分
散ループであり、ステップ４０３はＹｅｓである。

【００７１】ループテーブル１３１０のループ分散範囲
テーブルの個数は図１５より３個なので、ステップ４０
４では、ループテーブル１３１０（ＬＴ１）の一つ内側
にループテーブル（ＬＴ２）を作成し、ＬＴ１以下のル
ープテーブルのコピーを２個作成して、ＬＴ１の後続ル
ープとして接続する。

【００７２】図１７はこれらのテーブルが作成された様
子を表わした図である。１７００がＬＴ２を、１７１
０，１７２０，１７３０，１７４０がＬＴ１以下のルー
プテーブルの第１のコピーを、１７５０，１７６０，１
７７０，１７８０がＬＴ１以下のループテーブルの第２
のコピーを表わす。

【００７３】以下、ステップ４０４に従って図１７を説
明する。まず、ＬＴ１とそのコピーに対するループ制御
変数名をｊ２とし、１３１３，１７１３，１７５３に設
定する。ＬＴ１とそのコピーのループ範囲１３１６，１
７１６，１７５６をループ分散範囲テーブル１３４０，
１３５０，１５００の論理プロセッサ番号範囲１３４
１，１３５１，１５０１である１：１，２：４，２：４
に設定する。ループテーブル１７００，１７２０，１７
６０は、各々、ループテーブル１３１０，１７１０，１
７５０の一つ内側のループに対するテーブルなので、一
つ内側のループ先頭を指すポインタ１３１１，１７１
１，１７５１を、各々、１７００，１７２０，１７６０
を指すように設定する。一つ外側のループテーブルへの
ポインタ１３１２はそのままであり、１７１２，１７５
２はＮＵＬＬに初期化される。

【００７４】ループネスト１３１４はそのままであり、
１７１４，１７５４は０に初期化される。これらの値は
後のループネスト決定ステップ４０９で、括弧内の値に
設定される。分散ループフラグ１３１５はそのままであ
り、１７１５，１７５５はＴＲＵＥに設定される。ルー
プ分散範囲テーブル１３４０へのポインタ１３１７、及
び１７１７，１７５７をＮＵＬＬに設定して、これらの
ループテーブルが処理済みであることを示す。後続ルー
プテーブルへのポインタは、１３２０を指していた１３
１８は１７１０を、１７１８は１７５０を、１７５８は
１３２０を指すように設定される。

【００７５】次に、ＬＴ２とそのコピーに対するループ
制御変数名をｊ１とし、１７０３，１７２３，１７６３
に設定する。ＬＴ２とそのコピーのループ範囲１７０
６，１７２６，１７６６をループ分散範囲テーブル１３
４０，１３５０，１５００のループ分散範囲１３４２，
１３５２，１５０２である２：３，１：１，２：３に設
定する。

【００７６】ループテーブル１３３０，１７３０，１７
７０は、各々、ループテーブル１７００，１７２０，１
７６０の一つ内側のループに対するテーブルなので、一
つ内側のループ先頭を指すポインタ１７０１，１７２
１，１７６１を、各々、１３３０，１７３０，１７７０
を指すように設定する。ループテーブル１３１０，１７
１０，１７５０は、各々、ループテーブル１７００，１
７２０，１７６０の一つ外側のループに対するテーブル
なので、一つ外側のループ先頭を指すポインタ１７０
２，１７２２，１７６２を、各々、１３１０，１７１
０，１７５０を指すように設定する。ループネスト１７
０４，１７２４，１７６４は０に初期化される。これら
の値は後のループネスト決定４０９で、括弧内の値に設
定される。分散ループフラグ１７０５，１７２５，１７
６５はＴＲＵＥに設定される。ループ分散範囲テーブル
へのポインタ１７０７，１７２７，１７６７をＮＵＬＬ
に設定して、こららのループテーブルが処理済みである
ことを示す。後続ループテーブルへのポインタは１７０
８，１７２８，１７６８はＮＵＬＬに初期化される。

【００７７】１７３０と１７７０、１７４０と１７８０
は各々、１３３０，１６００のコピーであり、外側ルー
プ、内側ループを指すポインタ、ループネスト以外は全
て同じ値となる。即ち、１７３３，１７７３とは１３３
３と同じ値で、１７３５から１７３８まで、１７７５か
ら１７７８までは１３３５から１３３８までと同じ値で
ある。また、１７４３，１７８３は１６０３と同じ値
で、１７４５から１７４８までと１７８５から１７８８
までは１６０５から１６０８までと同じ値である。ルー
プネストである１７３４，１７７４，１７４４，１７８
４は０に初期化される。一つ内側のループテーブルを指
すポインタは、１７３１が１７４０を、１７４１はＮＵ
ＬＬを、１７７１は１７８０を、１７８１はＮＵＬＬを
指すように設定される。一つ外側のループテーブルを指
すポインタは、１７３２が１７２０を、１７４２は１７
３０を、１７７２は１７６０を、１７８２は１７７０を
指すように設定される。

【００７８】次に、ループテーブル１３１０の元々の後
続テーブルは１３２０であるが、本実施例では１３２０
以降のテーブルに対する処理は説明しないので、ステッ
プ４０５はＮｏとなる。１３１２より、ループテーブル
１３１０の外側ループテーブル１３００が存在するの
で、ステップ４０７はＹｅｓとなり、ステップ４０８で
処理をループテーブル１３００に移し、ステップ４０３
へ戻る。

【００７９】１３０５がＦＡＬＳＥなので、ループテー
ブル１３００に対応するループｋは分散ループでなく、
ステップ４０３はＮｏとなる。１３０８はＮＵＬＬなの
で、後続ループはなく、ステップ４０５はＮｏとなる。
１３０２はＮＵＬＬなので、外側ループはなく、ステッ
プ４０７はＮｏとなる。

【００８０】次に、ループネスト決定ステップ４０９
で、図１７のループテーブルのネストを決定する。この
処理は最も外側のループから順番に決定する簡単な処理
なので、詳細は省略する。図１７の、１３０４，１３１
４，及び，１７０４，１３３４，１６０４，１７１４，
１７２４，１７３４，１７４４，１７５４，１７６４，
１７７４，１７８４の括弧内の数値が決定されたループ
ネストである。

【００８１】次にループ多重化・ループピーリングステ
ップ４１０で図１７のループテーブル群に従って、ルー
プを表わす元の中間語に、ループ多重化とループピーリ
ングを適用する。図１８は、元のループ中間語である図
８の文８０３から文８１７に、ループ多重化とループピ
ーリングを適用した結果のプログラムである。

【００８２】文１８１０から文１８３５までが図８の文
８０５から文８０９に対応する部分である。このうち、
文１８１０から文１８１５までがループテーブル１３１
０，１７００，１３３０，１６００に対応し、文１８２
０から文１８２５までがループテーブル１７１０，１７
２０，１７３０，１７４０に対応し、文１８３０から文
１８３５までがループテーブル１７５０，１７６０，１
７７０，１７８０に対応する。同様にして、文１８４０
から文１８８０までが図８の文８１１から文８１５に対
応する部分である。

【００８３】図４に戻り、最後に後続ループネストはな
いので、ステップ４１１はＮｏとなり、ループ変換部１
０７１の処理を終了する。

【００８４】次に、図１の添字変更部１０７２の処理を
行なう。図６は添字変更部１０７２の処理手順を説明し
た図である。ここでは、文１８１４と文１８２４中の配
列参照ａ（ｉ，ｊ−１）に対する処理を、その配列参照
テーブルを示した図１４、処理結果得られるプログラム
を示した図１９を用いて説明する。

【００８５】まず、ステップ６００でＩの値は１とな
り、１次元目の処理を行なう。細分化情報テーブル中の
１次元目の細分化フラグ１１０１の値がＴＲＵＥなの
で、この次元は細分化する次元であり、ステップ６０１
はＹｅｓとなる。高次元化辞書１２００の１次元目に対
する高次元化対応次元１２１２は３となっているので、
ステップ６０２では、配列参照に３次元目を追加する。
文１８１４はループ中にあるので、ステップ６０３はＹ
ｅｓである。

【００８６】ステップ６０４で、現在の配列参照テーブ
ル１４００の１次元目の添字は１４１１よりｉで、ルー
プ制御変数ｉを持っていたループテーブルへのポインタ
は１４３６より１３３０とわかるので、１次元目の添字
を値が先に増加する内側ループのループ制御変数である
１６０３のｉ１に、３次元目の添字を外側ループのルー
プ制御変数である１３３３のｉ２に設定する。現配列参
照の１次元目に対するピーリングフラグ１４３２はＦＡ
ＬＳＥなので、ステップ６０６はＮｏとなる。配列ａは
元々２次元なので、ステップ６０８はＹｅｓとなり、ス
テップ６１０でＩの値を２にして処理を２次元目に移
し、ステップ６０１に戻る。

【００８７】細分化情報テーブル中の２次元目の細分化
フラグ１１０５の値がＴＲＵＥなので、この次元は細分
化する次元であり、ステップ６０１はＹｅｓとなる。高
次元化辞書１２１０の２次元目に対する高次元化対応次
元１２１５は４となっているので、ステップ６０２で
は、配列参照に４次元目を追加する。文１８１４はルー
プ中にあるので、ステップ６０３はＹｅｓである。

【００８８】ステップ６０４で、現在の配列参照テーブ
ル１４００の２次元目の添字は１４２２よりｊ−１で、
ループ制御変数ｊを持っていたループテーブルへのポイ
ンタは１４４６より１３１０とわかるので、２次元目の
添字を値が先に増加する内側ループのループ制御変数で
ある１７０３のｊ１を用いてｊ１−１に、４次元目の添
字を外側ループのループ制御変数である１３１３のｊ２
に設定する。

【００８９】現配列参照の２次元目に対するピーリング
フラグ１４４２はＴＲＵＥだが、現配列参照のピーリン
グすべきループ範囲は１４４４より１：１である。一
方、現配列参照を含み、元々ピーリングループ制御変数
ｊを持っていたループのループテーブル１３１０の、一
つ内側ループのループ範囲１７０６は２：３であるか
ら、１：１は２：３に含まれておらず、ステップ６０６
はＮｏとなる。これは、ピーリングに伴って、ｊに対す
る添字変更の特別処理が必要なループ範囲が１：１であ
るが、現在のループ範囲はその範囲を含んでいないの
で、特別な処理が不要であることを示している。

【００９０】配列ａの次元はもうないので、ステップ６
０８はＮｏとなる。以上で、文１８１４中の配列参照ａ
（ｉ，ｊ−１）は、文１９１５中の配列参照ａ（ｉ１，
ｊ１−１，ｉ２，ｊ２）に変更される。配列参照はまだ
あるので、ステップ６０９はＹｅｓとなり、ステップ６
１１で次の配列参照である文１８２４のａ（ｉ，ｊ−
１）に処理を移す。

【００９１】この配列参照に対して、１次元目の処理は
文１８１４の場合と同じなので、省略して、２次元目の
場合のみ説明する。ステップ６０１，６０２，６０３，
６０４の処理は文１８１４の配列参照の場合と同様で、
その結果、文１８２４のａ（ｉ，ｊ−１）は、一旦、文
１９１５の配列参照ａ（ｉ１，ｊ１−１，ｉ２，ｊ２）
のように変更される。

【００９２】次に、ピーリングフラグ１４４２はＴＲＵ
Ｅで、現配列参照のピーリングすべきループ範囲は１４
４４より１：１である。一方、現配列参照を含み、元々
ピーリングループ制御変数ｊを持っていたループのルー
プテーブル１３１０のコピーになるループテーブルは１
７１０であり、その一つ内側ループのループ範囲１７２
６は１：１である。よって、両者は一致し、ステップ６
０６はＹｅｓとなる。ピーリング添字のはみ出す方向は
１４４５より−１、現次元の寸法は１２１６より３なの
で、ｊ１はｊ１＋３，ｊ２はｊ２−１となる。これよ
り、ｊ１−１はｊ１＋２に、ｊ２はｊ２−１になり、文
１９２５の配列参照ａ（ｉ１，ｊ１＋２，ｉ２，ｊ２−
１）が得られる。

【００９３】次に、配列ａは２次元配列なので、ステッ
プ６０８はＮｏとなる。本説明では２つの配列参照につ
いてのみ説明するので、ステップ６０９はＮｏとなり、
添字変更部１０７２の処理を終了する。他の配列参照に
ついても同様に処理することで、図１９の中間語が得ら
れる。以上により、プログラム変換部１０７の処理を終
了する。

【００９４】次に、プログラム並列化部１０８の処理を
説明する。図７はプログラム並列化部１０８の処理手順
を説明した図である。データ分散情報変更ステップ７０
０は、データ分散情報１４０と高次元化辞書１２００を
入力して、変更したデータ分散情報を出力する。図２０
は変更後のデータ分散情報である。データ分散情報変更
の処理は容易なので以下、概略を記す。

【００９５】配列高次元化部１０６の処理によって、配
列の次元が１２０１に示されるように４になったので、
図２０における９０２，９１２は図９における２から４
になる。これに伴い、２０００，２０１０には４次元分
のテーブルを確保する。次に、高次元化辞書において、
フラグの値が“ｃｈａｎｇｅｄ”で、かつ、データ分散
が指定された次元の分散形状は、次元毎分散情報テーブ
ルの該当する次元では“＊”と変更され、上記次元に対
応する、フラグの値が“ｎｅｗ”である次元の分散形状
は、上記“ｃｈａｎｇｅｄ”フラグを持つ次元の、元の
分散形状に設定される。但し、ブロック分割の幅は再計
算される。その他の次元は、“＊”と設定される。

【００９６】まず、図９のデータ分散情報テーブル９０
０について処理する。高次元化辞書の第１次元目は、フ
ラグ１２１１の値が“ｃｈａｎｇｅｄ”で、データ分散
情報テーブル９００に対応する第１次元目のデータ分散
形状９２１はｂｌｏｃｋなので、この次元の分散形状は
“＊”に変更される。２００１は“＊”となり、２００
２には１２１３より、高次元化辞書の第１次元目の寸法
３が設定される。上記第１次元目に対応する次元は１２
１２より３次元目であり、３次元目のフラグ１２１７の
値が“ｎｅｗ”なので、この次元はデータ分散するよう
に変更される。よって、２００５はｂｌｏｃｋとなり、
この次元の上下限１２１９よりわかる寸法４を、９５０
よりわかる論理プロセッサ数４で割った値１がブロック
分割の幅となるので、この値１を２００６に設定する。

【００９７】一方、第２次元目は、フラグ１２１４の値
は“ｃｈａｎｇｅｄ”であるが、データ分散情報テーブ
ル９００に対応する第２次元目のデータ分散形状９２３
は“＊”なので、この次元の分散形状は“＊”に設定さ
れる。よって、２００３は“＊”となり、２００４には
１２１６より、高次元化辞書の第２次元目の寸法３が設
定される。また、上記２次元目に対応する次元は１２１
５より４となり、第４次元目の分散形状も“＊”に設定
される。よって、２００７は“＊”となり、２００８に
は１２２２より、高次元化辞書の第４次元目の寸法４が
設定される。

【００９８】次に、図９のデータ分散情報テーブル９１
０について処理する。高次元化辞書の第１次元目は、フ
ラグ１２１１の値は“ｃｈａｎｇｅｄ”であるが、デー
タ分散情報テーブル９１０に対応する第１次元目のデー
タ分散形状９３１は“＊”なので、この次元はデータ分
散しないように設定される。よって、２０１１は“＊”
となり、２０１２には１２１３より、高次元化辞書の第
１次元目の寸法３が設定される。また、上記第１次元目
に対応する次元は１２１２より３となり、第３次元目も
データ分散されないように設定される。よって、２０１
５は“＊”となり、２０１６には１２１９より、高次元
化辞書の第３次元目の寸法４が設定される。

【００９９】一方、高次元化辞書の第２次元目は、フラ
グ１２１０の値が“ｃｈａｎｇｅｄ”で、データ分散情
報テーブル９１０に対応する第２次元目のデータ分散形
状９３３はｂｌｏｃｋなので、この次元はデータ分散し
ないように変更される。２０１３は“＊”となり、２０
１４には１２１６より、高次元化辞書の第２次元目の寸
法３が設定される。上記第２次元目に対応する次元は１
２１５より４次元目であり、４次元目のフラグ１２２０
の値が“ｎｅｗ”なので、この次元はデータ分散するよ
うに変更される。よって、２０１７はｂｌｏｃｋとな
り、この次元の上下限１２２２よりわかる寸法４を、９
５０よりわかる論理プロセッサ数４で割った値１がブロ
ック分割の幅となるので、この値１を２０１８に設定す
る。

【０１００】次に、図２０のデータ分散情報に基づい
て、プログラム分割解析ステップ７０１、通信解析ステ
ップ７０２を実行する。これらに対する処理方法はジー
マ・ヒラナンダニ、ケン・ケネディ、チャウ・ウェン・
ツェン著「コンパイリングフォートランディーフォ
ーエムアイエムディーディストリビューテッドメモ
リマシーンズ」コミュニケーションズオブザエーシ
ーエム、ボリューム３５、ナンバー８、オーガスト、１
９９２、第６６頁から第８０頁（Seema Hiranandani, K
en Kennedy, Chau-Wen Tseng, "Compiling Fortran D f
or MIMD Distributed-Memory Machines", Communicatio
ns of the ACM, Vol. 35, No. 8, August,1992, pp.66-
80）に書かれている。また、通信生成７０７、プログラ
ム分割コード生成７０８、分割データ宣言作成７０９に
ついても同文献に書かれている。

【０１０１】図２１はプログラム並列化の処理結果のプ
ログラムを示す図である。以下、図１０，図２０，図２
１を用い、処理手順の概略を説明する。配列ａは細分化
フラグ１００５がＴＲＵＥなので、ステップ７０３はＹ
ｅｓとなる。通信生成ステップ７０４では、通常のｓｅ
ｎｄ／ｒｅｃｅｉｖｅ型の論理プロセッサ間通信の生成
を行い、再分散処理ではステップ７０４１の非バッファ
リング再分散通信生成により、バッファリングしない再
分散通信を生成する。これは図２１の文２１０２及び文
２１４０に対応する。２１０１の再分散ルーチン“ｎｏ
ｎ＿ｂｕｆ＿ｒｅｍａｐ”は、配列ａを、ディスクリプ
タＤ１に記述されたデータ分散形状から、ディスクリプ
タＤ２に記述されたデータ分散形状に、バッファを使わ
ずにデータ再分散するルーチンである。

【０１０２】文２１０２のＤ１は、この時点における配
列ａのデータ分散形状を記述したディスクリプタであ
る。これは、ループｋの１回目の繰り返しでは、プログ
ラム先頭におけるデータ分散であり、文８０２と文８０
４が元々同じデータ分散であることから、文８０４での
データ分散に対応する、図２０のテーブル９００及び２
０００が示すデータ分散となる。また、ループｋの２回
目以降の繰り返しでは、文８１０でのデータ分散に対応
する、図２０のテーブル９１０及び２０１０が示すデー
タ分散となる。

【０１０３】文２１０２のＤ２は、再分散ルーチン“ｎ
ｏｎ＿ｂｕｆ＿ｒｅｍａｐ”により、配列ａが再分散さ
れた後のデータ分散形状を記述したディスクリプタであ
り、図２０のテーブル９００及び２０００が示すデータ
分散情報に対応している。文２１４０の再分散ルーチン
“ｎｏｎ＿ｂｕｆ＿ｒｅｍａｐ”は、配列ａを、ディス
クリプタＤ２に記述されたデータ分散形状から、ディス
クリプタＤ１に記述されたデータ分散形状に、バッファ
を使わずにデータ再分散するルーチンである。

【０１０４】文２１４０のＤ２は、この時点における配
列ａのデータ分散形状を記述したディスクリプタであ
り、図２０のテーブル９００及び２０００が示すデータ
分散情報に対応している。文２１４０のＤ１は、この時
点における配列ａのデータ分散形状を記述したディスク
リプタであり、図２０のテーブル９１０及び２０１０が
示すデータ分散情報に対応している。

【０１０５】プログラム分割コード生成ステップ７０５
では、ループインデックス生成ステップ７０５１とグロ
ーバル添字生成ステップ７０５２の処理を実行する。ル
ープインデックス生成ステップ７０５１では、データ分
散する配列次元の添字に含まれるループ制御変数に対応
するループのループ範囲を分散して、分散後のループの
上下限値を生成する。

【０１０６】本発明の配列高次元化部１０６の処理を適
用した後の配列では、データ分散情報変更ステップ７０
０によりデータ分散する次元は元のデータ分散次元の高
次元化対応次元であり、その次元の寸法は配列高次元化
部１０６の処理より論理プロセッサ数と等しい。ループ
変換部１０７１により上記データ分散される次元に現れ
るループ制御変数を持つループのループ長はループ分散
範囲テーブルの論理プロセッサ番号範囲に等しく、図８
に対する中間語を入力とした場合、それは論理プロセッ
サ数に等しいのでループは解消される。

【０１０７】グローバル添字生成ステップ７０５２で
は、データ分散した次元の添字として、データ分散前の
該当する配列要素を表わす添字を用いる。本発明では、
データ分散する配列次元の添字はデータ分散前は、論理
プロセッサ番号の内のいずれかと等しくなっているの
で、データ分散後の添字も同じ論理プロセッサ番号にす
る。

【０１０８】文１９１０から文１９３６までのデータ分
散は、データ分散情報テーブル９００と２０００で示さ
れたものであり、配列ａの第３次元目がブロック分割さ
れる。ａの第３次元目にあるループ制御変数は文１９１
４，１９１５，１９２４，１９２５，１９３４，１９３
５の配列参照においてｉ２であるので、ループｉ２は解
消され、配列ａの第３次元目の添字は論理プロセッサ番
号になる。図２１の文２１１３，２１１４，２１２３，
２１２４，２１３３，２１３４における配列ａの第３次
元目の添字“ｍｙｐｅ”が論理プロセッサ番号を表わし
ており、図２１の文２１１０から２１３５には、ループ
ｉ２がないことがわかる。

【０１０９】同様にして、文１９４０から文１９８０ま
でのデータ分散は、データ分散情報テーブル９１０と２
０１０で示されたものであり、配列ａの第４次元目がブ
ロック分割される。ａの第４次元目にあるループ制御変
数は文１９５２，１９５３，１９６２，１９６３，１９
７２，１９７３の配列参照においてｊ２であるので、ル
ープｊ２は解消され、配列ａの第４次元目の添字は論理
プロセッサ番号になる。図２１の文２１５２，２１５
３，２１６２，２１６３，２１７２，２１７３における
配列ａの第４次元目の添字“ｍｙｐｅ”が論理プロセッ
サ番号を表わしており、図２１の文２１４１から文２１
８０には、ループｊ２がないことがわかる。

【０１１０】次にグローバルデータ宣言作成ステップ７
０６では、データ分散配列に対しても、高次元化後で、
データ分散前の配列宣言を行なう。文２１００の宣言が
それに該当する。最後に、コード生成部１０９は、図２
１に対応する中間語を入力し、図２１のソースプログラ
ムまたはそれをオブジェクトプログラムの形にした並列
化プログラム１６０を出力する。これで第１の実施例の
処理フローの説明を終了する。

【０１１１】図２２は本願のデータ再配置やデータ分散
を適用する前の配列を用いて、データ再分散の様子を説
明したものである。２２００は１時限目および２次元目
の要素数が各々１２の２次元配列ａを表わし、縦方向は
配列の１次元目を表わす。この次元はＦＯＲＴＲＡＮで
はアドレスの連続する次元にあたる。また、横方向は配
列の２次元目を表わす。２２００中の１６個の矩形は各
々、３ｘ３の部分配列を表わす。

【０１１２】各部分配列中の矢印の左側の数字は、配列
ａが（ｂｌｏｃｋ，＊）という方法で４台の論理プロセ
ッサにブロック分散された時の、各々の部分配列が割り
付けられる論理プロセッサ番号を、矢印の右側の数字
は、配列ａが（＊，ｂｌｏｃｋ）という方法で４台の論
理プロセッサにブロック分散された時の、各々の部分配
列が割り付けられる論理プロセッサ番号を表わす。した
がって、各部分配列中の矢印とその両側の数字により、
その部分配列が（ｂｌｏｃｋ，＊）から（＊，ｂｌｏｃ
ｋ）へのデータ再分散によって、左側の番号の論理プロ
セッサから右側の番号の論理プロセッサへ送信されるこ
とを表わす。

【０１１３】図２３は従来技術による並列化プログラム
である。文２３００における配列ａの宣言が示すよう
に、配列は第１次元目が分割されて寸法が３になってい
る。文２３０２と文２３２０はバッファリングをするデ
ータ再分散ルーチンである。文２３０２の再分散ルーチ
ン“ｒｅｍａｐ”は、配列ａを、ディスクリプタＥ１に
記述されたデータ分散形状から、ディスクリプタＥ２に
記述されたデータ分散形状に、データ再分散するルーチ
ンである。

【０１１４】文２３０２のＥ１は、この時点における配
列ａのデータ分散形状を記述したディスクリプタであ
る。これは、ループｋの１回目の繰り返しでは、プログ
ラム先頭におけるデータ分散形状であり、文８０２と文
８０４が同じデータ分散であることから、文８０４のデ
ータ分散を表わす、図９のテーブル９００及び９２０が
示すデータ分散となる。また、ループｋの２回目以降の
繰り返しでは、文８１０でのデータ分散を表わす、図９
のテーブル９１０及び９３０が示すデータ分散となる。

【０１１５】文２３０２のＥ２は、再分散ルーチン“ｒ
ｅｍａｐ”により、配列ａが再分散された後のデータ分
散形状を記述したディスクリプタであり、図９のテーブ
ル９００及び９２０が示すデータ分散情報に対応してい
る。文２３２０の再分散ルーチン“ｒｅｍａｐ”は、配
列ａを、ディスクリプタＥ２に記述されたデータ分散形
状から、ディスクリプタＥ１に記述されたデータ分散形
状に、データ再分散するルーチンである。文２３２０の
Ｅ２は、この時点における配列ａのデータ分散形状を記
述したディスクリプタであり、図９のテーブル９００及
び９２０が示すデータ分散情報に対応している。文２３
２０のＥ１は、再分散ルーチン“ｒｅｍａｐ”により、
配列ａが再分散された後のデータ分散形状を記述したデ
ィスクリプタであり、図９のテーブル９１０及び９３０
が示すデータ分散情報に対応している。

【０１１６】図２４は従来の並列化によるデータ再分散
の様子を、特に、論理プロセッサ１（以下、Ｐ１と略
す）から論理プロセッサ２（以下、Ｐ２と略す）へ送信
されるデータに注目して表示したものである。２４０１
で示される３行１２列の部分配列は、配列ａを（ｂｌｏ
ｃｋ，＊）というデータ分散方法で従来の並列化方法に
より並列化した時、Ｐ１に割り付けられる分割データで
ある。２４００は分割データ２４０１の元の配列におけ
る相対的な位置を示すために、参考までに表示した１２
行１２列の元の配列である。配列ａは（ｂｌｏｃｋ，
＊）でデータ分散されるため、配列の１次元目が４分割
され、その内の一つである２４０１がＰ１に割り付けら
れるデータとなる。２４０１中の数字は、Ｐ１に割り付
けられたデータ２４０１の配列要素がアドレス順に並ぶ
様子を示している。

【０１１７】２４１１で示される１２行３列の部分配列
は、配列ａを（＊，ｂｌｏｃｋ）というデータ分散方法
で従来の並列化方法により並列化した時、Ｐ２に割り付
けられる分割データである。２４１０は分割データ２４
１１の元の配列における相対的な位置を示すために、参
考までに表示した１２行１２列の元の配列である。配列
ａは（＊，ｂｌｏｃｋ）でデータ分散されるため、配列
の２次元目が４分割され、その内の一つである２４１１
がＰ２に割り付けられるデータとなる。２４１１中の数
字は、Ｐ２に割り付けられたデータ２４１１の配列要素
がアドレス順に並ぶ様子を示している。

【０１１８】２４０１中の網掛け部分２４０２は、（ｂ
ｌｏｃｋ，＊）から（＊，ｂｌｏｃｋ）へのデータ再分
散により、Ｐ１からＰ２へ送信されるデータを表わす。
図中に示されたアドレス順により、このデータは１９番
目から２７番目までの配列要素からなる連続データであ
ることがわかる。一方、２４１１中の網掛け部分２４１
２は、（ｂｌｏｃｋ，＊）から（＊，ｂｌｏｃｋ）への
データ再分散により、Ｐ２がＰ１から受信するデータの
格納先を表わす。図中に示されたアドレス順により、こ
のデータは４番目から６番目，１６番目から１８番目，
２８番目から３０番目までの配列要素からなる非連続デ
ータであることがわかる。

【０１１９】従って、送信側データは連続であるが、受
信側では非連続な位置にデータを格納することが必要で
あるとわかる。データ通信ルーチンの中には、送信側デ
ータは非連続なものを許すものもあるが、受信側は通
常、連続になってないといけないので、この場合、１回
のデータ送信で済ます場合には、受信側でどうしてもバ
ッファリングが必要なことがわかる。即ち、送信側デー
タ２４０２は送信ルーチンにより、Ｐ２内のアドレスが
連続するバッファに送信され、受信したＰ２は、そのバ
ッファ内のデータを２４１２へ、各列毎に１回、少なく
とも計３回コピーを行なう。

【０１２０】図２５は、本発明の並列化によるデータ再
分散の様子を、Ｐ１からＰ２へ送信されるデータに注目
して表示したものである。２５００で示される１２行１
２列の配列は、配列ａを（ｂｌｏｃｋ，＊）というデー
タ分散方法で分割して、本発明の並列化方法により並列
化した時、Ｐ１に割り付けられるデータである。この配
列の大きさはデータ分散前の配列の大きさと同じであ
る。２５００中の数字は、Ｐ１に割り付けられたデータ
配列２５００の配列要素がアドレス順に並ぶ様子を示し
ている。左上角から始まる１２行３列の部分に、最初の
３６要素のアドレス順が示されている。これにより、太
線で区切られた３行３列の部分は連続アドレスであるこ
とがわかる。数字が表示されてない他の部分についても
同様である。

【０１２１】この、本発明による配列要素のアドレスの
変更は、一般に、配列ａを２次元配列ａ（Ｎ，Ｎ）、プ
ロセッサ数をＰ、ＮはＰで割り切れる、とする時、次の
式（１）によって表現される。 (i,j)→((i-1)modL+1，(j-1)modL+1，[(i-1)/L]+1，[(J-1)/L]+1) （１）ここで、矢印の左辺の（ｉ，ｊ）は元の配列ａの第ｉ行
第ｊ列の配列要素を表し、矢印の右辺は本発明による配
列再配置を適用した後の４次元配列における対応する配
列要素を表わす。また、ＬはＮ／Ｐを、［］は切り捨て
を表わすガウスの記号である。

【０１２２】この４次元配列の最初の２次元から作られ
る２次元配列は、データ配列２５００中の、太線で区切
られた３行３列の部分に対応し、最後の２次元から作ら
れる２次元配列は、この太線で区切られた３行３列の部
分を一つの配列要素とみなして得られる４行４列の位置
配列を表わす。

【０１２３】例として、図２５と同様に、Ｎ＝１２，Ｐ
＝４とすると、Ｌ＝Ｎ／Ｐ＝３となり、式（１）は次の
式となる。 (i,j)→((i-1)mod3+1，(j-1)mod3+1,[(i-1)/3]+1，[(J-1)/3]+1) （２）ここで、データ配列２５００の左上角にある配列要素
（１，１）は、式（２）より、（１，１，１，１）に移
される。これは、位置配列の配列要素が（１，１）、即
ち、データ配列２５００の左上角の太線で区切られた３
行３列の部分であり、その３行３列の部分からなる２次
元配列中の配列要素が（１，１）であることを示してお
り、元の（１，１）と同じアドレスを指していることが
わかる。

【０１２４】また、データ配列２５００中のアドレス番
号が８３の部分は、元の配列における配列要素が（５，
７）であり、これは式（２）により、（２，１，２，
３）に移される。これは、位置配列の配列要素が（２，
３）、即ち、２５０２を示しており、その位置配列要素
が指す、３行３列の部分からなる２次元配列中の配列要
素が（２，１）であることを示しており、アドレス番号
が８３の部分を指していることがわかる。

【０１２５】２５０１で示される、アドレス順で、１０
番目から１８番目，４６番目から５４番目，８２番目か
ら９０番目，１１８番目から１２６番目の、３行１２列
の部分配列は、配列ａを（ｂｌｏｃｋ，＊）というデー
タ分散方法で分割して、本発明の並列化方法により並列
化した時、Ｐ１がその配列要素の計算を担当するデータ
である。即ち、２５０２の配列要素の値の更新は、原則
的にＰ１が行なう。２５１０で示される１２行１２列の
配列は、配列ａを（＊，ｂｌｏｃｋ）というデータ分散
方法で分割して、本発明の並列化方法により並列化した
時、Ｐ２に割り付けられるデータである。この配列の大
きさはデータ分散前の配列の大きさと同じである。

【０１２６】２５１０中の一部の数字も同様に、Ｐ２に
割り付けられたデータ２５１０の配列要素がアドレス順
に並ぶ様子を示している。２５１１で示される、アドレ
ス順で、７３番目から１０８番目の、１２行３列の部分
配列は、配列ａを（＊，ｂｌｏｃｋ）というデータ分散
方法で分割して、本発明の並列化方法により並列化した
時、Ｐ２がその配列要素の計算を担当するデータであ
る。即ち、２５１１の配列要素の値の更新は、原則的に
Ｐ２が行なう。

【０１２７】２５０１中の網掛け部分２５０２は、（ｂ
ｌｏｃｋ，＊）から（＊，ｂｌｏｃｋ）へのデータ再分
散により、Ｐ１からＰ２へ送信されるデータを表わす。
図中に示されたアドレス順により、このデータは８２番
目から９０番目までの配列要素からなる連続データであ
ることがわかる。一方、２５１１中の網掛け部分２５１
２は、（ｂｌｏｃｋ，＊）から（＊，ｂｌｏｃｋ）への
データ再分散により、Ｐ２がＰ１から受信するデータを
表わす。図中に示されたアドレス順により、このデータ
はやはり、８２番目から９０番目までの配列要素からな
る連続データであることがわかる。

【０１２８】従って、送信側データも受信側データも連
続となり、データ通信に際してはバッファを介する必要
がないことがわかる。これは、配列からバッファへのコ
ピーが不要であることを意味している。以上により、従
来技術では、データ再分散に際し、データとバッファ間
のコピーが必要であったが、本願により、それが不要に
なることがわかる。

【０１２９】尚、本実施例では、分散メモリマシン向け
の並列化プログラムに関するデータ再分散の説明を行っ
たが、分散共有メモリマシンと呼ばれる、メモリは物理
的に分散しているが、ハードウエアやＯＳなどにより、
ユーザ側には共有メモリに見えるマシン向けの、並列化
プログラムに関するデータ再分散に対しても本発明は適
用可能である。

【０１３０】図２６は、本発明のコンパイラが対象とす
る並列計算機システムのハードウェア構成の一例を示し
たものである。同図において、２６０１はローカルメモ
リ、２６０２は論理プロセッサエレメント、２６０３は
ネットワーク、２６０４は入出力用論理プロセッサエレ
メント、２６０５は入出力用コンソールまたはワークス
テーションを表す。

【０１３１】本発明の並列化コンパイラ１００は、入出
力用コンソールまたはワークステーション２６０５にお
いて実行され、並列ソースプログラムまたは並列オブジ
ェクトプログラムに変換される。前者の並列ソースプロ
グラムは、さらに、論理プロセッサエレメント２６０２
向けのコンパイラにより並列オブジェクトプログラムに
変換される。上記並列オブジェクトプログラムはリンカ
によりロードモジュールに変換され、入出力用論理プロ
セッサエレメント２６０４を通じて各論理プロセッサエ
レメント２６０２のローカルメモリ２６０１にロードさ
れ、各論理プロセッサエレメント２６０２により実行さ
れる。実行時における各ロードモジュール間の通信はネ
ットワーク２６０３を通じて行われる。本発明に係る並
列化コンパイラは、上記並列計算機システムを有効利用
してプログラムを高速化するものである。

【０１３２】（第２の実施例）次に、本発明の第２の実
施例を図２７から図３３を用いて説明する。第２の実施
例では共有メモリを持つ並列計算機を対象としている。
図２７は、本発明による並列化コンパイラの構成を示し
たものである。２７００は並列化コンパイラである。並
列化コンパイラ２７００中、ループ並列化解析部２７０
１，データ分散形状決定部２７０２，プログラム並列化
部２７０３以外は、図１のものと同じであるので説明を
省略し、ループ並列化解析部２７０１，データ分散形状
決定部２７０２，プログラム並列化部２７０３について
のみ説明する。

【０１３３】ループ並列化解析部２７０１は辞書１２０
及び中間語１３０を入力し、ループの並列性を解析し、
ループテーブル１５０を出力する。この処理の詳細は、
ハンス・ジーマ、バーバラ・チャップマン著「スーパー
コンパイラーズフォーパラレルアンドベトトルコ
ンピューターズ」アディッソン−ウエスリー、１９９１
（Hans Zima and Barbara Chapman. "Supercompilers f
or Parallel and Vector Computers", Addison-Wesley,
1991）に説明されている。

【０１３４】データ分散形状決定部２７０２は辞書１２
０，中間語１３０，及びループテーブル１５０を入力
し、データ分散情報１４０を出力する。ここでは、ま
ず、並列化された各ループに対して、そのループのルー
プ制御変数が、配列のどの次元に出現するかを調べる。
次に、ループ並列化によるループ繰り返しのプロセッサ
への割り当て方法に対応して、配列要素がどのようなデ
ータ分散方法によってプロセッサに割り付けられるかを
調べる。これは、ループ中にある、代入文の左辺の配列
添字に、並列化後の各プロセッサへ割り当てられるルー
プ繰り返し範囲を代入することで得ることができる。

【０１３５】例えば、ループｉのループ繰り返しの１か
ら１０，１１から２０，２１から３０，３１から４０回
目が各々、プロセッサ０番，１番，２番，３番に割り当
てられ、そのループ中で要素数４０の配列ａが、“ａ
（ｉ）＝”の形で代入文の左辺に出現しているとする
と、ａ（１）からａ（１０），ａ（１１）からａ（２
０），ａ（２１）からａ（３０），ａ（３１）からａ
（４０）までが各々、プロセッサ０番，１番，２番，３
番によって、値が更新される。即ち、そのループの並列
化方法は配列がブロック分散でプロセッサに割り付けら
れた時と同じになる。後は、上記の方法で得られた分散
情報テーブル１４０を用いて、上述した第１の実施例と
同じ方法を適用することで並列化プログラム２７２０が
得られる。

【０１３６】次に、具体例を用いて説明する。図２８
は、ソースプログラム２７１０を示す図である。これ
は、図８のソースプログラムから、プロセッサ指示文８
０１、データ分散指示文８０２、データ再分散指示文８
０４及び８１０を除いたものである。プロセッサ数はソ
ースプログラム２７１０では指定されてないが、コンパ
イルオプションで４と指定されている、とする。

【０１３７】ループ並列化解析部２７０１は、ソースプ
ログラム２７１０を解析し、第１のループネストである
文２８０２から文２８０６に対してはループｉを並列化
し、第２のループネストである文２８０７から文２８１
１に対しては、ループｊを並列化する、と決定する。

【０１３８】データ分散形状決定部２７０２では、ルー
プ並列化解析部２７０１が出力したループテーブル１５
０，辞書１２０，及び中間語１３０を入力して以下の処
理を行なう。まず、プロセッサ数は上記コンパイルオプ
ションで４と指定されているので、第１のループネスト
中のループｉでは、ループ繰り返しの１から３，４から
６，７から９，１０から１２回目が各々、プロセッサ０
番，１番，２番，３番に割り当てられており、この割り
当て方法はデータ分散におけるブロック分散と同じであ
る。

【０１３９】また、ループｉ中で１次元目の要素数１２
の配列ａが、“ａ（ｉ，ｊ）＝”の形で代入文の左辺に
出現しているので、ａ（１，ｊ）からａ（３，ｊ），ａ
（４，ｊ）からａ（６，ｊ），ａ（７，ｊ）からａ
（９，ｊ），ａ（１０，ｊ）からａ（１２，ｊ）までが
各々、プロセッサ０番，１番，２番，３番によって、値
が更新される。即ち、配列ａの１次元目はブロック分散
される。同様にして、第２のループネスト中のループｊ
では、ループ繰り返しがブロック分散され、ループｊ中
で２次元目の要素数１２の配列ａが、“ａ（ｉ，ｊ）
＝”の形で代入文の左辺に出現しているので、配列ａの
２次元目はブロック分散される。よって、データ分散情
報１４０には、第１のループネストでは、配列ａの１次
元目がブロック分散され、第２のループネストでは配列
ａの２次元目がブロック分散される、という情報が設定
される。この結果、図９のデータ分散情報が得られる。
形状収集部１０３からプログラム変換部１０７までの処
理は前述した第１の実施例と同じである。

【０１４０】プログラム並列化部２７０３での処理も、
ほぼ、第１の実施例と同じであるが、通信生成ステップ
７０４（図７参照）におけるｒｅｍａｐやｓｅｎｄ，ｒ
ｅｃｅｉｖｅ通信のかわりにバリア同期を引き起こすル
ーチンであるｂａｒｉｅｒを呼出し、ループを並列化す
るために、並列化部分の最初でスレッド生成ルーチンｆ
ｏｒｋを、並列化部分の直後でスレッド消滅ルーチンｊ
ｏｉｎを呼ぶ。

【０１４１】これらのｆｏｒｋ，ｊｏｉｎは、しばし
ば、並列化ループよりも外側に、しかも、複数の並列化
ループに対して１組だけ呼出される。上記ｆｏｒｋとｊ
ｏｉｎによって囲まれる、実際の並列化ループよりも大
きい範囲はＳＰＭＤリージョンと呼ばれる。このＳＰ
ＭＤリージョンの作成処理については、チャウ・ヴェン
・ツェン著「コンパイラオプティマイゼーションフォ
ーエリミネイティングバリアシンクロナイゼーショ
ン」ピーピーオーピーピー９５、第１４４頁から第１５
５頁、1995(Chau-Wen Tseng." Compiler Optimizations
for Eliminationg Barrier Synchronization",PPOPP'9
5, pp.144-155, 1995)で説明されている。コード生成部
１０９の処理も第１の実施例と同じである。

【０１４２】図２９は、上記の処理の結果得られた並列
化プログラム２７２０を示す図である。文２９０３と文
２９４０では、図２１の、第１の実施例における並列化
プログラムにおける文２１０２及び文２１４０での再分
散ルーチンのかわりに、バリア同期が呼出されている。
文２９０１ではｆｏｒｋが、文２９８３ではｊｏｉｎが
呼出されている。これらｆｏｒｋとｊｏｉｎで囲まれた
部分がＳＰＭＤリージョンである。これら以外は図２１
のプログラムと同じである。

【０１４３】図３０は従来技術による並列化プログラム
を示す図である。文３００３と文３０２０では、やは
り、図２３の、第１の実施例における並列化プログラム
における文２３０２及び文２３２０での再分散ルーチン
のかわりに、バリア同期が呼出されている。また、文３
００１ではｆｏｒｋが、文３０４２ではｊｏｉｎが呼出
されている。これら以外に、図２３と異なる点は以下の
２つである。

【０１４４】図２３では、配列データが分散メモリに分
散されていたため、一つのプロセッサにはそのうちの一
部のみが割り付けられていた。そのため、図２３におけ
る配列ａの宣言はａ（３，１２）となっていた。しか
し、図３０は共有メモリ型並列計算機に対するプログラ
ムなので、配列ａは分散されず、宣言はａ（１２，１
２）である。

【０１４５】また、上記と同じ理由により、図２３で
は、各プロセッサは、分散された配列の要素を参照する
ように、文２３１１及び文２３３０で示されるように、
ループの繰り返し範囲も縮小されていた。ところが、図
３０の文３０１１及び文３０３０では、各プロセッサは
分散されない配列の一部分のみ参照するように、プロセ
ッサ番号が格納された変数ｍｙｐｅを用いて、ちょうど
自プロセッサが分担する配列要素のみ参照するようなル
ープ範囲を生成している。

【０１４６】図３１は、従来の並列化によるプロセッサ
への計算分担部分を、第１のループネストにおける論理
プロセッサ１（以下、Ｐ１と略す）の計算分担部分と、
第２のループネストにおける論理プロセッサ２（以下、
Ｐ２と略す）の計算分担部分に注目して表示したもので
ある。３１００は１２行１２列の配列ａ全体を示す。３
１００中の数字は、配列要素がアドレス順に並ぶ様子を
示している。左上角から始まる１２行３列の部分に、最
初の３６要素（１〜３６）のアドレス順が示されてい
る。これにより、１列中の部分は連続アドレスであるこ
とがわかる。数字が表示されてない他の部分についても
同様である。この本発明による配列要素のアドレスの変
更は、図２５の場合と同じである。

【０１４７】４つの角のアドレスが、４，６，１３６，
１３８番目になる矩形部分３１０１は、第１のループネ
ストにおける、配列ａを（ｂｌｏｃｋ，＊）というデー
タ分散方法で分散することに対応した、Ｐ１の計算分担
部分である。また、４つの角のアドレスが、３，４，１
３５，１３６番目になる網掛け部分３１０２はプロセッ
サがキャッシュを持ち、そのキャッシュライン長が配列
２要素分であり、配列ａの最初の要素がキャッシュライ
ン先頭にある場合に、Ｐ１とＰ０が共有するキャッシュ
ラインを示したものである。この条件の下では、キャッ
シュラインは、アドレスが奇数番目の配列要素から始ま
り、それより一つアドレスが大きい配列要素で終わる。
したがって、２つのプロセッサは、１２個のキャッシュ
ラインを共有し、フォールスシェアリングもその共有キ
ャッシュラインの数だけ発生しやすい。

【０１４８】４つの角のアドレスが、７３，８４，９
７，１０８番目になる矩形部分３１１１は、第２のルー
プネストにおける、配列ａを（＊，ｂｌｏｃｋ）という
データ分散方法で分散することに対応した、Ｐ２の計算
分担部分である。この矩形部分３１１１は、奇数番目の
アドレスで始まり、偶数番目のアドレスで終わる単一の
連続領域なので、他プロセッサとキャッシュを共有する
ことはない。よって、フォールスシェアリングは第１の
ループネストにおいてのみ発生する。

【０１４９】図３２は、本発明の並列化によるプロセッ
サへの計算分担部分を、第１のループネストにおけるＰ
１の計算分担部分と、第２のループネストにおけるＰ２
の計算分担部分に注目して表示したものである。３２０
０は１２行１２列の配列ａ全体を示す。３２００中の数
字は、配列要素がアドレス順に並ぶ様子を示している。
左上角から始まる１２行３列の部分に、最初の３６要素
（１〜３６）のアドレス順が示されている。これによ
り、太線で囲まれた３行３列中の部分は連続アドレスで
あることがわかる。数字が表示されてない他の部分につ
いても同様である。

【０１５０】４つの角のアドレスが、１０，１２，１２
４，１２６番目になる矩形部分３２０１は、第１のルー
プネストにおける、配列ａを（ｂｌｏｃｋ，＊）という
データ分散方法で分散することに対応した、Ｐ１の計算
分担部分である。アドレスが９と１０，４５と４６，８
１と８２，１１７と１１８の網掛け部分は、Ｐ１とＰ０
が共有する４つのキャッシュラインを示したものであ
る。図３１に比べて共有キャッシュラインの数が３分の
１になっているので、フォールスシェアリングはそれだ
け、発生しにくい。

【０１５１】４つの角のアドレスが、７３，７９，１０
２，１０８番目になる矩形部分３２１１は、第２のルー
プネストにおける、配列ａを（＊，ｂｌｏｃｋ）という
データ分散方法で分散することに対応した、Ｐ２の計算
分担部分である。この矩形部分３２１１は、奇数番目の
アドレスで始まり、偶数番目のアドレスで終わる、単一
の連続領域なので、他プロセッサとキャッシュを共有す
ることはない。よって、フォールスシェアリングは第１
のループネストにおいてのみ、発生する。

【０１５２】今の例では、共有キャッシュラインの数は
３分の１になっていたが、一般に、従来技術では、図３
１において配列ａの第２次元の寸法だけキャッシュライ
ンを共有する可能性があり、本発明では、図３２におい
て太線で囲まれた部分について１つだけ、即ち、プロセ
ッサ数分だけキャッシュラインを共有する可能性がある
ので、第２次元の寸法がプロセッサ数を上回れば、後者
の方がフォールスシェアリングは発生しにくい。

【０１５３】図３３は、本発明のコンパイラが対象とす
る並列計算機システムの構成の一例を示したものであ
る。同図において、３３０１は共有メモリ、３３０２は
論理プロセッサエレメント、３３０３は制御用ネットワ
ーク、３３０４は入出力用論理プロセッサエレメント、
３３０５は入出力用コンソールまたはワークステーショ
ンを表す。

【０１５４】本発明のコンパイラは、入出力用コンソー
ルまたはワークステーション３３０５において実行さ
れ、並列ソースプログラムまたは並列オブジェクトプロ
グラムに変換される。前者の並列ソースプログラムは、
さらに、論理プロセッサエレメント３３０２向けのコン
パイラにより並列オブジェクトプログラムに変換され
る。上記並列オブジェクトプログラムはリンカによりロ
ードモジュールに変換され、入出力用論理プロセッサエ
レメント３３０４を通じて共有メモリ３３０１にロード
され、各論理プロセッサエレメント３３０２により実行
される。論理プロセッサエレメント３３０２の起動、終
了などの制御は制御用ネットワーク３３０３を通じて行
われる。

【０１５５】

【発明の効果】本発明によれば、プロセッサｉからプロ
セッサｊへ送信される部分配列は、プロセッサｉ側でも
プロセッサｊ側でも連続アドレスになるので、非連続デ
ータを１回の通信で送信するために使われるバッファが
不要になり、バッファへのデータのコピー時間が削除さ
れるので、その分、プログラムの実行時間が短縮され
る。

【０１５６】また、本発明によれば、各プロセッサはデ
ータ分散前の配列全体を宣言して使用するので、データ
再分散の際に、データ領域の確保・開放が不要であり、
それにかかる実行時間が短縮される。また、本発明によ
れば、データ分散前の配列全体を宣言して使用している
ため、再分散されるデータの内、自プロセッサから自プ
ロセッサへ送信されるデータは、再分散前後でアドレス
が全く変わらないため処理が不要であり、従来、自プロ
セッサ内の異なるアドレスへコピーしていたのにかかる
時間が短縮される。

【０１５７】また、本発明によれば、プロセッサｉに割
り付けられたデータは、送信先プロセッサによって、高
々、プロセッサ総数分の非連続な領域に別れるだけなの
で、プロセッサｉに割り付けられたデータとプロセッサ
ｊに割り付けられたデータのアドレスが隣合う回数は、
全プロセッサ数以下となる。したがって、異なるプロセ
ッサが同じキャッシュラインを共有する機会が少ないた
め、異なるプロセッサが同じキャッシュラインをアクセ
スすることにより発生するフォールスシェアリングの発
生する機会が少なく、プログラムの実行時間が短縮され
る。

【図面の簡単な説明】

【図１】本発明の第１実施例による並列化コンパイラの
構成図である。

【図２】配列細分化部の処理を説明するためのフローチ
ャートである。

【図３】配列高次元化部の処理を説明するためのフロー
チャートである。

【図４】ループ変換部の処理を説明するためのフローチ
ャートである。

【図５】ループピーリング解析処理を説明するためのフ
ローチャートである。

【図６】添字変更部の処理を説明するためのフローチャ
ートである。

【図７】プログラム並列化部の処理を説明するためのフ
ローチャートである。

【図８】ソースプログラムの例を示す図である。

【図９】ソースプログラムに対するデータ分散情報を説
明するための図である。

【図１０】ソースプログラムに対する辞書を説明するた
めの図である。

【図１１】配列細分化による細分化情報を説明するため
の図である。

【図１２】配列高次元化による高次元化辞書を説明する
ための図である。

【図１３】ソースプログラムに対するループテーブルと
ループ分散範囲テーブルを説明するための図である。

【図１４】ソースプログラムに対する配列参照テーブル
とピーリングテーブルを説明するための図である。

【図１５】ループ範囲細分化後のループ分散範囲テーブ
ルを説明するための図である。

【図１６】ループｉのループ範囲細分化後のループテー
ブルを説明するための図である。

【図１７】ループｊのループ範囲細分化後のループテー
ブルを説明するための図である。

【図１８】ループピーリング後の中間語をプログラムイ
メージで表現した図である。

【図１９】添字変更後の中間語をプログラムイメージで
表現した図である。

【図２０】データ分散情報変更後のデータ分散情報を説
明するための図である。

【図２１】並列化後のプログラムを示した図である。

【図２２】データ分散前の配列によるデータ再分散の様
子を示した図である。

【図２３】従来技術による並列化プログラムを示した図
である。

【図２４】従来の並列化によるデータ再分散を説明する
ための図である。

【図２５】本発明の第１実施例の並列化によるデータ再
分散を説明するための図である。

【図２６】本発明の第１実施例のコンパイラが対象とす
る並列計算機システムの構成の一例である。

【図２７】本発明の第２実施例による並列化コンパイラ
の構成図である。

【図２８】ソースプログラムの例を示す図である。

【図２９】並列化後のプログラムを示す図である。

【図３０】従来技術による並列化プログラムを示す図で
ある。

【図３１】従来の並列化によるプロセッサへの計算分担
部分を説明するための図である。

【図３２】本発明の第２実施例の並列化によるプロセッ
サへの計算分担部分を説明するための図である。

【図３３】本発明の第２実施例のコンパイラが対象とす
る並列計算機システムの構成の一例を示す図である。

【符号の説明】１００：並列化コンパイラ１０１：構文解析部１０２：データ分散指示文解析部１０３：形状収集部１０４：形状種別数判定部１０５：配列細分化部１０６：配列高次元化部１０７：プログラム変換部１０７１：ループ変換部１０７２：添字変更部１０８：プログラム並列化部１０９：コード生成部１１０，２７１０：ソースプログラム１２０：辞書１３０：中間語１４０：データ分散情報１５０：ループテーブル１６０，２７２０：並列化プログラム２６０１：ローカルメモリ２６０２，３３０２：論理プロセッサエレメント２６０３：ネットワーク２６０４，３３０４：入出力用論理プロセッサエレメン
ト２６０５，３３０５：入出力用コンソールまたはワーク
ステーション２７０１：ループ並列化解析部２７０２：データ分散形状決定部２７０３：プログラム並列化部３３０１：共有メモリ３３０３：制御用ネットワーク

───────────────────────────────────────────────────── フロントページの続き (72)発明者廣岡孝志神奈川県川崎市麻生区王禅寺1099番地株式会社日立製作所システム開発研究所内Ｆターム(参考） 5B045 GG11 5B081 CC28 CC32

Claims

【特許請求の範囲】

【請求項１】逐次計算機向けのソースプログラムまた
はデータ分散指示文あるいはデータ再分散指示文を含む
並列計算機向けのソースプログラムを入力し、並列計算
機の各分散メモリにデータを分散し、データ再分散指示
文またはデータ再分散ルーチンを含む並列計算機向けソ
ースプログラムまたはオブジェクトプログラムを出力す
るコンパイラにおけるデータ再配置方法であって、プログラム中の各点における、各配列要素の分散メモリ
への割付け方法を表わすデータ分散形状を収集する形状
収集ステップと、各配列を、上記形状収集ステップで得られたどのデータ
分散形状においても、各部分配列が唯一のプロセッサに
属するような部分配列からなる集合に分割する配列細分
化ステップと、上記各部分配列内の配列要素が連続アドレスになるよう
に元の配列の次元数を増加させて配列要素の順序を並び
替える配列高次元化ステップを有することを特徴とする
データ再配置方法。
【請求項２】逐次計算機向けまたは並列指示文を含む
並列計算機向けのソースプログラムを入力し、共有メモ
リ型並列計算機向けの並列化指示文を含むソースプログ
ラムまたはオブジェクトプログラムを出力するコンパイ
ラにおけるデータ再配置方法であって、複数プロセッサがその部分配列を分担して計算すべき配
列に対して、プログラム中の各点における、各配列要素
のプロセッサへの割付け方法を表わすデータ分担形状を
収集する形状収集ステップと、各配列を、上記形状収集ステップで得られたどのデータ
分担形状においても各部分配列が唯一のプロセッサの分
担になるような部分配列からなる集合に分割する配列細
分化ステップと、上記各部分配列内の配列要素が連続アドレスになるよう
に元の配列の次元数を増加させて配列要素の順序を並び
替える配列高次元化ステップを有することを特徴とする
データ再配置方法。
【請求項３】請求項１または２記載のデータ再配置方
法において、上記形状収集ステップによって得られた配
列の各次元のデータ分散形状またはデータ分担形状の種
類が２種類以下であることを判定する形状種別数判定ス
テップをさらに有することを特徴とするデータ再配置方
法。
【請求項４】請求項１または２記載のデータ再配置方
法において、上記配列高次元化ステップは、元の配列の
各要素を、それぞれの請求項における配列細分化ステッ
プによって得られた部分配列中の要素と各部分配列の全
体配列中での位置を示す位置配列の要素との組で表現可
能なように、元の配列から、上記部分配列の次元数と上
記位置配列の次元数の和の次元数を持つ高次元化配列を
作成し、上記高次元化配列の連続アドレスを与える次元
から上記部分配列の次元数分の次元までの各寸法は、上
記部分配列の各次元の寸法とし、残りの次元の寸法は、
上記位置配列の各次元の寸法とすることを特徴とするデ
ータ再配置方法。
【請求項５】請求項１または２記載のデータ再配置方
法において、上記配列高次元化ステップに伴い、配列の
高次元化される次元の添字にループ制御変数が含まれる
ことを検出し、そのループ制御変数を持つループを、配
列高次元化ステップに対応してネストする複数のループ
に変換するループ変換ステップと、プログラム中の配列
参照点における配列添字を、配列高次元化ステップに対
応して変更する添字変更ステップとをさらに含むことを
特徴とするデータ再配置方法。
【請求項６】請求項５記載のデータ再配置方法におい
て、上記ループ変換ステップは、配列要素の参照が部分
配列間の境界をまたがるか否かを判定し、境界をまたが
る場合とまたがらない場合とで別ループになるようにル
ープの繰り返し範囲を分割するための解析を行なうルー
プピーリング解析ステップと、上記解析の結果を用いて
ループの繰返し範囲を分割するループピーリングステッ
プとを含むことを特徴とするデータ再配置方法。
【請求項７】請求項１記載のデータ再配置方法におい
て、通信データのバッファリングを行なわない再分散通
信を生成する非バッファリング再分散通信生成ステップ
をさらに含むことを特徴とするデータ再配置方法。
【請求項８】請求項７記載のデータ再配置方法におい
て、分散メモリ型並列計算機の各プロセッサで、データ
分散前の元の配列全体を宣言するグローバルデータ宣言
作成ステップと、各配列参照点における配列添字の値
を、データ分散前の元の値を用いるグローバル添字生成
ステップをさらに含むことを特徴とするデータ再配置方
法。