JP3047998B2

JP3047998B2 - 並列計算機におけるプロセッサ割り当て方法、及び装置

Info

Publication number: JP3047998B2
Application number: JP3019749A
Authority: JP
Inventors: 寛太田; 行介迫田; 鉄郎斉藤; 栄一郎前田; 俊之山本
Original assignee: Hitachi Ltd; Hitachi ULSI Systems Co Ltd
Current assignee: Hitachi Ltd; Hitachi Solutions Technology Ltd
Priority date: 1991-02-13
Filing date: 1991-02-13
Publication date: 2000-06-05
Anticipated expiration: 2015-06-05
Also published as: JPH04257928A; US5485612A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、分散メモリ方式の並列
計算機上で実行されるソフトウェアに関し、特に、逐次
処理計算機用に記述されたプログラムを、分散メモリ方
式の並列計算機上で実行可能なプログラムに変換する、
並列化変換ツール（並列化コンパイラ，並列化トランス
レータ，並列化支援ツールなど）に関する。

【０００２】

【従来の技術】複数のプロセッサから構成される計算機
システムで、各要素プロセッサ（以後、ＰＥと書く）ご
とにメモリが備えられているものがある（富田・末吉、
「並列処理マシン」、４章、１９８９年、オーム社）。
これは、分散メモリ型並列計算機などと呼ばれている。
また、各ＰＥに備えられたメモリは、ローカルメモリな
どと呼ばれている。

【０００３】分散メモリ型並列計算機で処理を実行する
には、使用するデータを各ＰＥのローカルメモリに分散
して割り付け、それらのデータを用いた演算などの処理
を各ＰＥで並列に実行する。このとき、他のＰＥに割り
付けられたデータを参照するには、ＰＥ間通信によっ
て、データの値を転送しなければならない。

【０００４】例えば、科学技術計算などに現れる大規模
配列の処理方式としては、配列の各要素を各ＰＥに分散
して割り付け、要素ごとの処理を並列に行うものが、考
えられている。配列要素の割り付け方は、様々なものが
考えられている（高橋編、「並列処理機構」、６章、１
９８９年、丸善）が、ここでは、既に与えられているも
のとする。その前提のもとで、それらの配列要素の処理
をどのような手順で行うかを考察する。

【０００５】例として、逐次処理用のFORTRANプログラ
ムで、 DIMENSION Ａ(１０２４)，Ｂ(１０２４)，Ｃ(１０２
４) DO 10 I=1,１０２２１０Ａ(Ｉ)＝Ｂ(Ｉ)＋Ｃ(Ｉ＋2) と記述される処理を並列計算機で実行する方法について
述べる。配列Ａ，Ｂ，Ｃの要素は、いずれも、図５に示
すように１個ずつ順に各ＰＥのローカルメモリに割り付
けられているものとする（情報処理学会第４０回全国大
会１Ｇ−４「並列計算機用FORTRANのＤＯループ実行制
御方式」）。

【０００６】並列計算機では、このループを次のように
実行する。各Ｉにつき、Ｃ(Ｉ＋２)が割り付けられたＰ
Ｅ（これを以後、ＰＥ(２)と呼ぶ）から、Ａ(Ｉ)とＢ
(Ｉ)を持つＰＥ（これを以後ＰＥ(０)と呼ぶ）にＣ(Ｉ
＋２)の値を転送し、ＰＥ(０)で、転送されてきたＣ(Ｉ
＋２)の値を用いて、代入文を実行する。これらの処理
を、各Ｉにつき各ＰＥで並列実行する。

【０００７】ここで述べたような処理は、並列計算機用
のプログラムにしたがって実行される。逐次処理用に記
述されたプログラムをもとにして、それと同等の処理を
行う並列計算機用のプログラムを作成するためには、並
列化コンパイラや並列化支援ツールなどが用いられる。
並列化コンパイラは、逐次処理プログラムから並列化可
能な部分を見つけだして、各ＰＥへの処理の割り当ての
決定や、ＰＥ間通信の挿入などを行って、並列処理用プ
ログラムを出力する。また、並列化支援ツールは、並列
化コンパイラだけでは最適な並列化が行えないような場
合に、人手によって並列処理用プログラムを作成するの
を支援するために、プログラムを解析して様々な情報を
提供する。

【０００８】

【発明が解決しようとする課題】式の中で、他のＰＥに
割り付けられたデータが２個以上参照されている場合に
は、式の中に現れる演算の一部を他のＰＥで実行した方
が良い場合がある。例として、ＤＯ１０Ｉ＝１,１０２２１０Ａ(Ｉ)＝Ｂ(Ｉ)＋Ｃ(Ｉ＋２)＊Ｄ(Ｉ＋２）という処理を並列計算機で実行する方法について説明す
る。配列Ａ，Ｂ，Ｃ，Ｄの要素は、いずれも図５に示す
のと同様に、１個ずつ順に各ＰＥのローカルメモリに割
り付けられているものとする。このとき、Ｉのとる値に
よらず、Ａ（Ｉ)とＢ(Ｉ)は同一のＰＥ上にあり、Ｃ(Ｉ
＋２)とＤ(Ｉ＋２)も同一のＰＥ上にある。並列計算機
でこのループを実行する二つの方法を述べる。第１の方
法は、各Ｉにつき、ＰＥ(２)からＰＥ(０)に、Ｃ(Ｉ＋
２)およびＤ(Ｉ＋２)の値を転送し、ＰＥ(０)で、転送
されてきたＣ(Ｉ＋２)およびＤ(Ｉ＋２)の値を用いて、
代入文を実行するというものである。第２の方法は、各
Ｉにつき、ＰＥ(２)でＣ(Ｉ＋２)＊Ｄ(Ｉ＋２)という部
分式の値を求めておいてから、その値をＰＥ(０)に転送
し、ＰＥ(０)で、転送されてきた値を用いて、代入文を
実行するというものである。言い変えれば、第１の方法
は、式の中に現れるすべての演算にＰＥ(０)を割り当て
る方法であり、第２の方法は、式の中の乗算にＰＥ(２)
を割り当て、加算にＰＥ(０)を割り当てる方法であると
言える。

【０００９】第１の方法では、各Ｉにつき、転送される
データの個数は２個である。一方、第２の方法では、転
送されるデータの個数は１個である。分散メモリ型並列
計算機では、ＰＥ間のデータ転送は、ＰＥ内のデータ参
照に比べて非常に長い時間がかかるので、できるだけ少
ない方が良い。したがって、第１の方法よりも第２の方
法の方が優れている。

【００１０】上述の例からも分かるように、式の中の演
算へのＰＥの割り当て方を工夫することによって、デー
タ転送回数を減らすことができる。しかし、従来は、デ
ータ転送回数を減らすための一般的な割り当て方法が無
かった。そのため、並列計算機で処理を行うときに、例
えば上述の第１の方法のように、必要以上のデータ転送
が生じてしまうという問題があった。

【００１１】本発明の目的は、与えられた式の値を評価
するときに、データ転送回数が最小になるように、式の
中の演算にＰＥを割り当てる方法を提供することにあ
る。

【００１２】

【課題を解決するための手段】上記目的は、データを葉
ノード，演算子を内部ノードとする木の形式で式を表現
し、木をボトムアップにたどって、各内部ノードに、該
内部ノードの演算に対して割り当てるＰＥの候補（候補
ＰＥ）の集合を付随させる第１のステップと、木をトッ
プダウンにたどって、該内部ノードの演算に対して割り
当てるＰＥを決定する第２のステップによって、演算に
ＰＥを割り当てることによって達成される。

【００１３】また、上記目的は、上記の割り当て方法の
第１のステップにおいて、（１）葉ノードの候補ＰＥ
は、その葉ノードが表すデータが配置されたＰＥのみと
し、(２)内部ノードの候補ＰＥは、その内部ノードの子
ノードの候補ＰＥの中で、最も多くの子ノードの候補Ｐ
Ｅになっているもののすべてとする、ことによって達成
される。

【００１４】また、上記目的は、上記の割り当て方法の
第２のステップにおいて、（１）該内部ノードがルート
ノードの場合は、該内部ノードの候補ＰＥの集合から任
意に選んだ１個のＰＥを、該内部ノードに割り当てるＰ
Ｅとし、(２)該内部ノードがルートノードでなく、か
つ、該内部ノードの候補ＰＥの集合に、該内部ノードの
親ノードに割り当てられたＰＥが含まれている場合に
は、該親ノードに割り当てられたＰＥを、該内部ノード
に割り当てるＰＥとし、（３）該内部ノードがルートノ
ードでなく、かつ、該内部ノードの候補ＰＥの集合に、
該内部ノードの親ノードに割り当てられたＰＥが含まれ
ていない場合には、該内部ノードの候補ＰＥの集合から
任意に選んだ１個のＰＥを、該内部ノードに割り当てる
ＰＥとする、ことによって達成される。

【００１５】

【作用】第１のステップで求められた候補ＰＥのいずれ
かをそのノードに割り当てることは、そのノードをルー
トとする部分木が表す式の値を最小のデータ転送回数で
評価するための必要十分条件になっている。さらに、第
２のステップでは、親ノードとの間のデータ転送回数が
最小になるようにＰＥ割り当てを決定するので、データ
転送回数が最小になるようにＰＥが割り当てられる。

【００１６】

【実施例】図４は、本発明を適用する対象となる並列計
算機の構成例である。並列計算機は、複数のＰＥ２００
から２０ｎ，各ＰＥに付属したローカルメモリ２１０か
ら２１ｎ，ＰＥ結合ネットワーク２２から構成される。
ＰＥ結合ネットワーク２２によってＰＥ間のデータ転送
ができる。各ＰＥにはＰＥを識別するための番号が１か
ら順に付けられているものとする。これを「絶対ＰＥ番
号」と呼ぶ。

【００１７】図５は、各ＰＥのローカルメモリ２１０，
２１１，２１２，…に配列Ａ，Ｂ，Ｃ，Ｄ，Ｅの要素を
分散して割り付けた例である。この例では、各ＰＥに１
個ずつ順に配列要素を割り付けている。

【００１８】以下では、このように分散割り付けされた
データから構成される式が与えられたとき、最小のデー
タ転送回数でその式の値が求められるように、式の中の
演算にＰＥを割り当てる方法を述べる。本割り当て方法
は、任意の式に対して適用することができるが、ここで
は、 (Ａ(Ｉ＋１)＊Ｂ(Ｉ＋１)＋Ｃ(Ｉ＋２))＊Ｄ(Ｉ＋３)＋Ｅ(Ｉ＋２) という式を例として述べる。添字がＩ＋ｋ(ｋは整数)と
いう形の配列要素を持つＰＥをＰＥ(ｋ)で表し、ｋを
「相対ＰＥ番号」と呼ぶことにする。以後は、相対ＰＥ
番号のことを単に「ＰＥ番号」と呼び、ＰＥを識別する
ために用いる。なお、初めは、式の値を評価することだ
けについて述べ、式の値を他の変数に代入する場合につ
いては、後で述べる。

【００１９】式は、データを葉ノード，演算子を内部ノ
ードとする木の形で与えられるものとする。もし、文字
列の形で与えられていたとしても、通常のコンパイラ技
術によって、木の形に変換することは容易である。図６
は、上述の式を、木の形で表現したものである。各葉ノ
ード３０１０から３０１４には、それに対応するデータ
を持つＰＥのＰＥ番号３０２０から３０２４を付随させ
ておく。

【００２０】図１は、上で述べたような木が与えられた
ときに、内部ノードにＰＥを割り当てる処理のフローチ
ャートである。ステップ１０では、木の各ノードをボト
ムアップにたどり、ステップ１００で各ノードの「候補
ＰＥ」の集合を求める。候補ＰＥは、そのノードに割り
当てるべきＰＥの候補であり、一般に１個のノードにつ
き複数の候補ＰＥがある。ステップ１１では、木の各ノ
ードをトップダウンにたどって、ステップ１１０で各ノ
ードの「確定ＰＥ」を求める。確定ＰＥは、そのノード
に割り当てるべきＰＥである。

【００２１】図２は、ステップ１００の各ノードの候補
ＰＥの集合を求める処理の詳細フローチャートである。
ステップ１０００では、そのノードが葉ノードか内部ノ
ードかを判定する。もし葉ノードならば、ステップ１０
０１に進み、内部ノードならばステップ１００２に進
む。ステップ１００１では、葉ノードが表すデータがも
ともと割り付けられた１個のＰＥのみを候補ＰＥとす
る。ステップ１００２では、その内部ノードの子ノード
の候補ＰＥを調べて、最も多くの子ノードの候補ＰＥに
なっているＰＥを、その内部ノードの候補ＰＥとする。
最も多くの子ノードの候補ＰＥになっているＰＥが２個
以上ある場合は、それらをすべてその内部ノードの候補
ＰＥとする。

【００２２】図７は、内部ノードの候補ＰＥの求め方の
例である。候補ＰＥは、候補ＰＥ番号を用いて表してい
る。図７(a）は、内部ノード３１００が２個の子ノード
3101および３１０２を持ち、子ノードの候補ＰＥ番号の
集合３１３１および３１３２が、それぞれ、{１，２，
３}と{１，２，４，５}である場合を示している。ＰＥ
番号「１」および「２」は、２個の子ノード３１０１お
よび３１０２の候補ＰＥ番号になっており、ＰＥ番号
「４」および「５」は１個の子ノード３１０１または３
１０２の候補ＰＥ番号になっている。したがって、この
内部ノード３１００の候補ＰＥ番号は、「１」および
「２」の両方とする。図７(b）は、内部ノード３２００
が２個の子ノード３２０１および３２０２を持ち、子ノ
ードの候補ＰＥ番号の集合３２３１および３２３２が、
それぞれ、{１，２}と{３，４}である場合を示してい
る。ＰＥ番号「１」，「２」，「３」、および「４」は
すべて、１個の子ノード３２０１または３２０２の候補
ＰＥ番号になっている。２個以上の子ノードの候補ＰＥ
番号になっているＰＥ番号はない。したがって、この内
部ノードの候補ＰＥ番号は「１」，「２」，「３」、お
よび「４」のすべてとする。図８は、図６の木３０の各
内部ノード３０００から３００３に対して、候補ＰＥ番
号の集合３０３０から３０３３を求めた様子を示してい
る。{}で囲まれた番号が、そのノードの候補ＰＥ番号で
ある。ただし、葉ノードの候補ＰＥ番号は、その葉ノー
ドに対応するデータを持つＰＥのＰＥ番号３０２０から
３０２４と同じなので、省略してある。

【００２３】図３は、図１のステップ１１０の各ノード
の確定ＰＥを求める処理の詳細フローチャートである。
ステップ１１００では、そのノードがルートノードかど
うかを判定する。もしルートノードならば、ステップ１
１０１に進み、そうでなければステップ１１０２に進
む。ステップ１１０１では、そのノードの候補ＰＥの中
の任意の１個を選んで、そのノードの確定ＰＥとする。
ステップ１１０２では、自ノードの候補ＰＥの中に親ノ
ードの確定ＰＥが含まれるかどうかを判定する。もし含
まれていればステップ１１０３に進み、そうでなければ
ステップ１１０２に進んでルートノードの場合と同じ方
法で確定ＰＥを求める。なお、木をトップダウンにたど
るので、ルートノード以外では親ノードの確定ＰＥは既
に求められている。ステップ１１０３では、親ノードの
確定ＰＥを自ノードの確定ＰＥとする。

【００２４】図９は、図８に示した候補ＰＥ番号３０３
０から３０３３をもとにして、木の各ノードの確定ＰＥ
番号３０４０から３０４３を求めた様子を示している。
ルートノード３００３では、図３のステップ１１０１に
したがって確定ＰＥ番号「２」３０４３が求められ、その
下の乗算ノード３０４２およびそのさらに下の加算ノー
ド３０４１では、図３のステップ１１０３にしたがって
確定ＰＥ番号「２」３０４２および３０４１が求められ
る。最下方の乗算ノード３０３０では、図３のステップ
１１０１にしたがって確定ＰＥ番号「１」３０４０が求
められる。葉ノード３０１０から３０１４の確定ＰＥ番
号は、その葉ノードに対応するデータを持つＰＥのＰＥ
番号３０２０から３０２４と同じである。

【００２５】求められた確定ＰＥ番号は、その演算に割
り当てるＰＥを示している。すなわち、この木３０が表
す式の値を、次のようにして評価することを表してい
る。まず、部分式Ａ(Ｉ＋１)＊Ｂ(Ｉ＋１)の値をＰＥ
(１)で評価して、その値をＰＥ(２)に転送する。また、
Ｄ(Ｉ＋３)の値をＰＥ(３)からＰＥ(２)に転送する。そ
の後、ＰＥ(２)で内部ノード上方の３個の内部ノード３
００１から３００３の演算を実行し、式全体の値を求め
る。このとき、データ転送回数は各Ｉについて２回であ
る。

【００２６】図１０は、本方法によるＰＥ割り当てにし
たがって、すべてのＩについて図６の木３０で表される
式の値を評価するときのタイムチャートである。縦軸は
時間を表し、横軸は各ＰＥを表す。ＰＥは、割り付けら
れている配列要素のインデックスが小さい方から順に、
左から右に並べて書いてある。各Ｉに対する処理は、各
ＰＥで並列に実行される。矢印は、ＰＥ間のデータ転送
を表す。フェーズ１では、各ＰＥが自分自身に割り付け
られている配列Ａの要素と配列Ｂの要素の積を求める。
これは図６の式３０の最下方の内部ノード３０００の演
算の実行に対応している。フェーズ２では、その積の値
を右隣のＰＥに転送する。フェーズ３では、各ＰＥが自
分自身に割り付けられている配列Ｄの要素の値を、左隣
のＰＥに転送する。フェーズ４以降では、各ＰＥが、左
隣から送られてきたＡとＢの積の値と、右隣から送られ
てきたＤの値、さらに自分自身に割り付けられている配
列ＣとＥの要素の値を用いて、図６の式３０の上方の３
個の内部ノード３００１から３００３の演算を実行す
る。

【００２７】従来は、データ転送回数を考慮して式の中
の演算にＰＥを割り当てる方法は、特に考えられていな
かった。そのため、例えば、式の内容によらず、すべて
の演算をＰＥ(０)で実行するなどの割り当てが行われ
た。図１１は、そのような割り当てにしたがって、図６
の木３０で表される式の値を評価するときのタイムチャ
ートである。フェーズ１からフェーズ５まででは、各Ｐ
Ｅが自分自身に割り付けられている配列ＡとＢの要素の
値を左隣のＰＥに転送し、配列ＣとＥの要素の値を二つ
左隣のＰＥに転送し、配列Ｄの要素の値を三つ左隣のＰ
Ｅに転送する。フェーズ６以降では、他のＰＥから転送
されてきた配列Ａ，Ｂ，Ｃ，Ｄ、およびＥの要素の値を
用いて、式３０の４個の内部ノード３０００から３００
３の演算を実行する。

【００２８】本発明の方法と従来方法を比べると、本発
明の方がデータ転送回数が少なく、その結果、全体とし
ての経過時間も短くなっている。

【００２９】図１２は、本発明の割り当て方法を実行す
るための、計算機内部での木のノードの表現を示してい
る。ノードを表す構造体４０は、割り当てＰＥ番号４
１，候補ＰＥ番号リストへのポインタ４２，子ノードの
数４３，子ノードへのポインタ４４，ノードが表す演算
・データ４５などの情報から構成される。葉ノードの場
合は、割り当てＰＥ番号４１は、それが表すデータが割
り付けられたＰＥのＰＥ番号を表す。内部ノードの場合
は、割り当てＰＥ番号４１は、本方法によるＰＥ割り当
ての結果その内部ノードに割り当てられたＰＥ番号を表
す。

【００３０】図１３は、図６の木３０の計算機内部にお
ける表現４００を示している。内部ノード４０００から
４００３については、割り当てＰＥ番号は未定となって
いる。また内部ノード４０００から４００３、および、
葉ノード４０１０から4014すべてについて、候補ＰＥ番
号リストへのポインタはｎｉｌポインタとなっている。

【００３１】図１４は、図１３に示した木４００に対し
て候補ＰＥ番号を求めた様子を示している。内部ノード
４０００から４００３、および、葉ノード４０１０から
４０１４について、候補ＰＥ番号リスト４６００から４
６０３および４６１０から４６１４へのポインタが設定
されている。候補ＰＥ番号リストの最後には、ｅｎｄマ
ークが付けられている。各ノードの候補ＰＥ番号は、図
２の処理にしたがって求められたものであり、図７に示
したものと同じである。

【００３２】図１５は、図１４に示した候補ＰＥ番号付
きの木４００をもとに、図３の処理にしたがって、各ノ
ードの確定ＰＥ番号を求めた様子を示している。内部ノ
ード４０００から４００３について、図８に示したもの
と同じ確定ＰＥ番号が求められている。

【００３３】図１６は、図１に示したＰＥ割り当て方法
を実行する装置の例である。ＰＥ割り当て装置５０は、
候補ＰＥ決定部５１および確定ＰＥ決定部５２を含む。
ＰＥ割り当て装置５０は、例えば図１３に示したような
式の木表現４００を入力して、図１５に示したような確
定ＰＥ番号付きの式の木表現４０２を出力する。候補Ｐ
Ｅ決定部５００は、図１のステップ１０の処理を実行し
て、木の各ノードの候補ＰＥ番号の集合を求める。確定
ＰＥ決定部５２は図１のステップ１１の処理を実行し
て、木の各ノードの確定ＰＥ番号を決定する。

【００３４】これまでは、求めた式の値を他の変数に代
入することは考えていなかったが、代入がある場合も、
ほとんど同様の方法で、データ転送回数が最小になるよ
うにＰＥの割り当てを行うことができる。図１７にその
例を示す。図１７(a)は、Ａ(Ｉ)＝Ｂ(Ｉ)＋Ｃ(Ｉ＋２)＊Ｄ(Ｉ＋２) という代入文を木の形で表現したものである。加算ノー
ド３３０１や乗算ノード３３０２は、必要なデータを転
送すればどのＰＥでも実行できるが、代入ノード３３０
０は、代入される配列要素Ａ(Ｉ)を持っているＰＥでな
いと実行できない。したがって、代入ノード３３００に
はもともとＰＥ(０)が割り当てられていると見なすべき
である。そこで、木を図１７(b）のように変形する。す
なわち、代入ノード３３００を代入される配列要素Ａ
(Ｉ)のノード３３１０と合併して、新たなノード３３１
４とする。さらに、そのノード３３１４を加算ノード３
３０１の子ノードとする。そしてそのノード３３１４に
は、Ａ(Ｉ)が割り付けられたＰＥのＰＥ番号「０」を付
随させる。変形した木３３１に対して、図１の割り当て
処理を適用する。その結果、加算ノード３３０１，乗算
ノード３３０２には、それぞれ、ＰＥ番号「０」，
「２」が割り当てられる。図１７(c）は、ＰＥ番号を割
り当てた木を示している。ただし、図１７(b）において
合併したノード3314は、もとの形の代入ノード３３００
と葉ノード３３１０に戻してある。

【００３５】第１８図は、本発明のＰＥ割り当て方法
を、並列化コンパイラに応用した実施例である。並列化
コンパイラ５１は、構文解析部５１０，ＰＥ割り当て部
５１１，中間プログラム生成部５１２，オブジェクトプ
ログラム生成部５１４を含む。ＰＥ割り当て部５１１
は、候補ＰＥ決定部５１１０および確定ＰＥ決定部5111
から構成される。並列化コンパイラ５１は、ソースプロ
グラム６０を入力して、並列計算機用のオブジェクトプ
ログラム６３を出力する。構文解析部５１０は、ソース
プログラムの構文を解析し、特に式を解析して木表現４
１０に変換する。

【００３６】ＰＥ割り当て部５１１は、式の木表現４１
０を入力して、確定ＰＥ付きの式の木表現４１１を出力
する。中間プログラム生成部５１２は、ソースプログラ
ムから得られた情報を入力として中間プログラム６１を
生成し、特に確定ＰＥ付きの式の木表現４１１を入力と
して、それに対応する中間プログラムを生成する。ＰＥ
用中間プログラム生成部５１３は中間プログラム６１を
入力としてＰＥ用中間プログラム６２を生成する。オブ
ジェクトプログラム生成部５１４は、ＰＥ用中間プログ
ラム６２を入力として、オブジェクトプログラム６３を
生成する。

【００３７】中間プログラム６１は、ソースプログラム
に記述されている処理の各々に対して、ＰＥ割り当てを
示す情報を付加したものである。また、必要なら、ソー
スプログラム内の処理の分解や、データ転送処理の挿入
を行なったものである。ＰＥ用中間プログラム６２は、
各ＰＥが担当する処理を記述したものである。以下で
は、中間プログラム生成部５１２、および、ＰＥ用中間
プログラム生成部５１３が実行する処理について述べ
る。オブジェクトプログラム生成部５１４が実行する処
理については、従来の並列化コンパイラと比べて特に新
しい処理ではないので、ここでは述べない。

【００３８】図１９は、並列化コンパイラ５１によるプ
ログラム変換例を示している。図１９(a）は、ソースプ
ログラムの例６００である。図１９(b）は、本発明のＰ
Ｅ割り当て方法を用いて変換した結果の中間プログラム
６１０である。中間プログラム６１０では、ソースプロ
グラム６００内の１個の代入文Ａ(Ｉ)＝Ｂ(Ｉ)＋Ｃ(Ｉ＋２)＊Ｄ(Ｉ＋２) によって表される処理が分解され、分解した各処理に割
り当てＰＥ番号６１００が付けられている。すなわち、
ＰＥ(２)で、Ｃ(Ｉ＋２)＊Ｄ(Ｉ＋２)の値を求め、ＰＥ
(０)に割り付けられているＴＭＰ(Ｉ)に転送する。ＴＭ
Ｐはコンパイラ５１が生成した一時的な配列名である。
ＰＥ(０)で、ＴＭＰ(Ｉ)がＰＥ(２)から転送されるのを
待って、Ａ(Ｉ)＝Ｂ(Ｉ)＋ＴＭＰ(Ｉ) という代入文を実行する。この中間プログラムは、図１
７(c)に示されたＰＥ割り当てに従っている。

【００３９】一方、図１９(c）は、従来のＰＥ割り当て
方法、すなわち、すべての演算にＰＥ(０)を割り当てる
方法を用いて変換した結果の中間プログラム６１１であ
る。中間プログラム６１１では、ＰＥ(２)に割り付けら
れているＣ(Ｉ＋２)およびＤ(Ｉ＋２)の値を、それぞ
れ、ＰＥ(０)に割り付けれらているＣ′(Ｉ)およびＤ′
(Ｉ)に転送する。Ｃ′およびＤ′はコンパイラ５１が生
成した一時的な配列名である。ＰＥ(０)で、Ｃ′(Ｉ)お
よびＤ′(Ｉ)がＰＥ(２)から転送されるのを待って、Ａ(Ｉ)＝Ｂ(Ｉ)＋Ｃ′(Ｉ)＊Ｄ′(Ｉ) という代入文を実行する。図１９(c)の従来方法による
中間プログラムに比べ、図１９(b）の本発明の方法によ
る中間プログラムの方が、データ転送回数が１回少な
く、明らかに効率が良い。

【００４０】確定ＰＥ付きの式の木表現４１１から、中
間プログラム６１を生成する方法を述べる。図２０は、
計算機内部での木のノードの表現の中から、中間プログ
ラム生成のために必要な情報を抜き出して示したもので
ある。図１２に示した情報の他に、親ノードへポインタ
４６が加えられている。また、割り当てＰＥ番号４１に
は、ＰＥ割り当て部５１１によって、確定ＰＥ番号が設
定されているものとする。

【００４１】図２１は、中間プログラム生成部５１２が
実行する処理のフローチャートである。ステップ１３０
では、確定ＰＥ番号付きの木の各ノードをボトムアップ
にたどり、ステップ１３０で各ノードの中間プログラム
生成処理を行う。

【００４２】図２２は、ステップ１３０の各ノードでの
中間プログラム生成処理の詳細フローチャートである。
ステップ１３００では、そのノードが代入を表すノード
かどうかを判定する。もし代入を表すノードならばステ
ップ１３０４に進み、そうでないならばステップ１３０
１に進む。ステップ１３０１では、そのノードの割り当
てＰＥ番号４１が親ノードの割り当てＰＥ番号と同じか
どうかを判定する。親ノードの割り当てＰＥ番号は、親
ノードへのポインタ４６をたどることによって分かる。
もし同じならば、そのノードでは何もしないで処理を終
る。もし同じでないならばステップ１３０２に進む。ス
テップ１３０２では、そのノードをルートとする部分式
の値を求めて、親ノードの割り当てＰＥ番号で表される
ＰＥへ転送する文を、中間プログラムに出力し、その文
に自ノードの割り当てＰＥ番号を付ける。データの転送
先として使用するための一時的変数は、他の変数と名前
が重ならないようにして生成する。なお、ノードが葉ノ
ードの場合には、そのノードをルートとする部分式と
は、そのノードが表すデータそのものである。ステップ
１３０３では、自ノードを、転送先の一時的変数を表す
葉ノードに置き換える。置き換えたノードの割り当てＰ
Ｅ番号４１は、転送先のＰＥ番号とする。そして、その
ノードに対する処理を終る。ステップ１３０４では、そ
のノードをルートとする木が表す代入文を、中間プログ
ラムに出力し、その文に自ノードの割り当てＰＥ番号を
付ける。ただし、他のＰＥからのデータの転送先になっ
ている一時的変数がある場合には、その転送を待つ文を
代入文の前に出力する。

【００４３】図２３は、確定ＰＥ番号付きの木から、中
間プログラムが生成される過程を示している。図２３
(a）は、図１９(a）のソースプログラム６００内の代入
文を表す、確定ＰＥ番号付きの木３３２である。図２１
のステップ１３に従い、木332をボトムアップにたど
る。各葉ノード３３１０から３３１３では、親ノードと
同じＰＥが割り当てられているので、何もしない。乗算
ノード３３０２では、親ノードと異なるＰＥが割り当て
られているので、図２２のステップ１３０２に従い、部
分式Ｃ(Ｉ＋２)＊Ｄ(Ｉ＋２)の値を一時的変数ＴＭＰ
(Ｉ)に転送する文を中間プログラムに出力し、また、図
２２のステップ１３０３に従い、自ノード3302を一時的
変数ＴＭＰ(Ｉ)を表す葉ノード３３１６に置き換える。
図２３(b）は、この様子を示している。加算ノード３３
０１では、親ノードと同じＰＥが割り当てられているの
で、何もしない。代入ノード３３００では、図２２のス
テップ１３０４に従い、一時的変数ＴＭＰ(Ｉ)の転送を
待つ文、および、代入文Ａ(Ｉ)＝Ｂ(Ｉ)＋ＴＭＰ(Ｉ) を中間プログラムに出力する。図２３(c)は、この様子
を示している。

【００４４】図２４はＰＥ用中間プログラム生成部５１
３によって生成されるＰＥ用中間プログラム６２の例で
ある。中間プログラム６１は、ソースプログラム６０に
記述された処理全体を表していたが、ＰＥ用中間プログ
ラム６２は、各ＰＥが担当する処理を表している。プロ
グラム中のｉは絶対ＰＥ番号である。図２４(a）は、本
発明の方法によって、図１９(b）に示した中間プログラ
ム６１０から生成されたＰＥ用中間プログラム６２０で
ある。自ＰＥの絶対ＰＥ番号ｉが３以上1024以下なら
ば、自ＰＥに割り付けられているデータから計算される
Ｃ(ｉ)＊ｄ(ｉ)を、絶対ＰＥ番号２だけ小さいＰＥに割
り付けられているデータＴＭＰ(ｉ−２)に転送する。そ
の後、自ＰＥの絶対ＰＥ番号が１以上１０２２以下なら
ば、自ＰＥに割り付けられているＴＭＰ(ｉ)に絶対ＰＥ
番号が２だけ大きいＰＥからデータが転送されてくるの
を待ち、転送されたらＡ(ｉ)＝Ｂ(ｉ)＋ＴＭＰ(ｉ)とい
う代入文を実行する。図２４(b）は、従来方法による中
間プログラム６１１から生成されたＰＥ用中間プログラ
ム６２１であり、本方法によるＰＥ用中間プログラム６
２０に比べて、データ転送が１回多い。

【００４５】次に本発明の別の実施例として、加算や乗
算などについて成り立つ演算の交換則や結合則を利用し
て、さらに転送回数を減らす方法について述べる。図２
５(a）は、Ａ(Ｉ＋１)＋Ｂ(Ｉ＋２)＋Ｃ(Ｉ＋２)＋Ｄ(Ｉ＋１) という式に対する木表現３４０である。各内部ノード３
４００から３４０２に対して、図１の方法にしたがって
付けた確定ＰＥ番号３４２０から３４２２が示されてい
る。このＰＥ割り当てによれば、データ転送回数は２で
ある。ところで、上の式で加算の順序を変更して、 (Ａ(Ｉ＋１)＋Ｄ(Ｉ＋１))＋(Ｂ(Ｉ＋２)＋Ｃ(Ｉ＋２)) という式に変形すれば、図２５(b）のような木３４１で
表される。この木３４１に対して、確定ＰＥ番号３４６
０から３４６２で示されるＰＥ割り当てを行えば、デー
タ転送回数は１となり、演算順序を変更しない場合に比
べて、１個少なくなっている。

【００４６】以下では、演算の交換結合法則を利用して
演算順序を変更しても良いという条件のもとで、木を変
形して各内部ノードにＰＥを割り当てる方法を述べる。
説明を簡単にするため、演算は加算と乗算だけに限るも
のとする。

【００４７】図２６は、この実施例におけるＰＥ割り当
て処理のフローチャートである。ステップ７０では実行
順序が交換可能な演算に対するノードを併合して、１個
のノードとする。すなわち、親子の関係にあるノード
が、ともに加算、またはともに乗算を表すノードなら
ば、それらを併合して、１個のノードとする。図２７は
ノードの併合の例である。図２７(a）の木３４０に対し
てノードの併合を行なうと、図２７(b）の木３４１とな
る。図２６のステップ７１では、木の各ノードをボトム
アップにたどり、ステップ７１０で各ノードの候補ＰＥ
番号の集合を求める。ステップ７２では、木の各ノード
をトップダウンにたどって、ステップ７２０で各ノード
の確定ＰＥ番号を求める。ステップ７３では併合したノ
ードを分割して、木を二分木の形に戻す。分割したこと
によって生成された新たなノードには、適切な確定ＰＥ
番号を付ける。本実施例における候補ＰＥ番号の求め
方、確定ＰＥ番号の求め方，ノード分割方法の詳細を、
以下順に述べる。

【００４８】図２８は、ステップ７１０の、候補ＰＥ番
号の集合を求める処理の詳細フローチャートである。ス
テップ７１００では、そのノードが葉ノードか内部ノー
ドかを判定する。もし葉ノードならばステップ７１０１
に進み、内部ノードならばステップ７１０２に進む。ス
テップ７１０１では、葉ノードが表すデータがもともと
割り付けられた１個のＰＥのＰＥ番号のみを候補ＰＥ番
号とする。ステップ７１０２では、その内部ノードの子
ノードの候補ＰＥ番号を調べて、子ノードを、「各グル
ープにつき、そのグループ内の全ての子ノードに共通す
る候補ＰＥ番号がある」…（条件１）という条件を満た
し、かつ、グループ数が最小であるようなグループに分
割する。ここで、グループ内の全ての子ノードに共通す
る候補ＰＥ番号を、そのグループの「代表ＰＥ番号」と呼
ぶことにする。代表ＰＥ番号は、１個のグループにつき
２個以上ある場合もある。グループ分割の後、ステップ
７１０３で、各グループの代表ＰＥ番号をすべて、自ノ
ードの候補ＰＥ番号とする。グループ数が最小となる分
割の仕方が２通り以上ある場合は、そのようなグループ
分割の仕方のすべてについて、各グループの代表ＰＥ番
号を求め、それらをすべて、自ノードの候補ＰＥ番号と
する。

【００４９】例として、図２９(a）の内部ノード３５０
０に対するグループ分割と候補ＰＥ番号の求め方につい
て述べる。内部ノード３５００は、４個の子ノード３５
０１から３５０４を持ち、４個の子ノード３５０１から
３５０４には、それぞれ{２,５}，{２，３，６}，{１，
４，６}，{１，３，６}という候補ＰＥ番号３５３１か
ら３５３４が付いている。上に述べた（条件１）を満た
すようなグループ分割で、グループ数が最小のものは、
２通りある。それらは、グループ分割Ａグループａ：３５０１，３５０２ (代表ＰＥ番号：
「２」) グループｂ：３５０３，３５０４ (代表ＰＥ番号：
「１」，「６」)および、グループ分割Ｂグループｃ：３５０１ (代表ＰＥ番号：
「２」，「５」) グループｄ：３５０２，３５０２，３５０３ (代表Ｐ
Ｅ番号：「６」)というものである。上記のグループ分割
Ａを図２９(b）に示す。そこで、内部ノード３５００の
候補ＰＥ番号は、すべての代表ＰＥ番号の集合、すなわ
ち、{１,２，５，６}とする。

【００５０】図３０は、図２６のステップ７２０の、確
定ＰＥ番号を求める処理の詳細フローチャートである。
ステップ７２００では、そのノードがルートノードかど
うかを判定する。もしルートノードならばステップ７２
０１に進み、そうでなければステップ７２０２に進む。
ステップ７２０１では、そのルートノードの候補ＰＥ番
号の中の任意の１個を選んで、そのルートノードの確定
ＰＥ番号とする。ステップ７２０２では、子ノードのグ
ループ分割の中から、自ノードの確定ＰＥ番号がいずれ
かのグループの代表ＰＥ番号の中に含まれるようなグル
ープ分割を任意に１個選ぶ。そして、そのグループ分割
の各グループについて、ステップ7203から７２０６まで
の処理を繰り返す。ステップ７２０３では、グループの
代表ＰＥ番号の中に自ノードの確定ＰＥ番号があるかど
うかを判定する。もしあればステップ７２０４に進み、
なければステップ７２０５に進む。ステップ７２０４で
は、自ノードの確定ＰＥ番号を、そのグループに属する
全ての子ノードの確定ＰＥ番号とする。ステップ７２０
５では、そのグループの代表ＰＥ番号の中の任意の１個
を選んで、そのグループに属する全ての子ノードの確定
ＰＥ番号とする。ステップ７２０６では未処理のグルー
プがあるかどうかを判定して、あればそのグループに対
してステップ７２０３からの処理を行い、なければ処理
を終了する。例として、図２９(b）の内部ノード３５０
０の確定ＰＥ番号が「１」に決定したときの、その子ノ
ード３５０１から３５０４に対する確定ＰＥ番号の求め
方を述べる。子ノード３５０１から３５０４のグループ
分割は、前に図２９(a）の説明のところで述べたよう
に、Ａ，Ｂの２通りある。内部ノード３５００の確定Ｐ
Ｅ番号「１」が代表ＰＥ番号の中に含まれるようなグル
ープ分割は、グループ分割Ａである。グループ分割Ａに
おいて、グループａの代表ＰＥ番号は「２」であるか
ら、子ノード３５０１、３５０２の確定ＰＥ番号は
「２」とする。また、グループｂの代表ＰＥ番号は
「１」と「６」の２個であるが、ノード３５００の確定
ＰＥ番号が「１」であるから、子ノード３５０３，３５
０４の確定ＰＥ番号は「１」とする。

【００５１】図３１は、図２６のステップ７３のノード
分割処理の詳細フローチャートである。ステップ７３で
は、確定ＰＥ番号が付けられた木の各ノードに対して、
このフローチャートで表される処理を行なう。ステップ
７３０では、子ノードの数が３個以上かどうかを判定す
る。もし３個以上ならばステップ７３１に進み、３個未
満ならば処理を終了する。ステップ７３１では、子ノー
ド同士で同じ確定ＰＥ番号が付けられたものがあるかど
うかを判定する。もしあればステップ７３２に進み、な
ければステップ７３３に進む。ステップ７３２では、同
じ確定ＰＥ番号が付けられた子ノードを、任意に２個選
び、また、ステップ７３３では、子ノードを任意に２個
選ぶ。ステップ７３４では、自ノードと同じ演算を表す
新しいノードを生成して、自ノードの子ノードとし、ま
た、ステップ７３２または７３３で選ばれた２個の子ノ
ードを新ノードの子ノードとして、自ノードの子ノード
から消去する。ステップ７３５では、ステップ７３４で
生成された新ノードに、自ノードと同じ確定ＰＥ番号を
付ける。そしてステップ７３０へ戻り、子ノードの数が
３個未満になるまで、ステップ７３０からの処理を繰り
返す。

【００５２】図３２は、ノード分割処理の例である。図
２９(a）は、図２７(b）に示した木３４１に対して、図
２６のステップ７１，７２にしたがって確定ＰＥ番号を
付けた様子を示している。この木３４１の各ノードに対
して図３１のフローチャートの処理を行って、ノードを
分割した結果が、図３２(b）の木３４２である。

【００５３】次に、本発明のまた別の実施例として、複
数の文にまたがって、データ転送回数を最小化する例に
ついて述べる。これは、図１のＰＥ割り当て処理の前
に、一時的に使用される変数を消去して、複数の文に現
れる複数の式を１個の式にまとめる処理を行なうことに
よって、実現できる。例として、ＤＯループ内のＴＭＰ(Ｉ)＝Ａ(Ｉ＋１)＊Ｂ(Ｉ＋１)＋Ｃ(Ｉ＋２) Ｑ(Ｉ)＝ＴＭＰ(Ｉ)＊Ｄ(Ｉ＋３)＋Ｅ(Ｉ＋２) という２個の文について述べる。通常のコンパイラで用
いられるような依存性解析によって、ＴＭＰ(Ｉ)の値が
後で使われることがあるかどうかを調べることができ
る。もし、後で使われることがないと分かれば、ＴＭＰ
(Ｉ)を消去して、この２個の文を、Ｑ(Ｉ)＝(Ａ(Ｉ＋１)＊Ｂ(Ｉ＋１)＋Ｃ(Ｉ＋２))＊Ｄ
(Ｉ＋３)＋Ｅ(Ｉ＋２)という１個の文にまとめることが
できる。この文の左辺の式は図６の木３０によって表さ
れる。したがって、図１の方法でＰＥ割り当てを行え
ば、Ｑ(Ｉ)への代入も含めて、この文を実行するのに必
要なデータ転送回数は３となる。一方、ＴＭＰ(Ｉ)がＰ
Ｅ(０)に割り付けられているものとして、もとの２個の
文にＰＥ割り当てを行なうと、必要なデータ転送回数は
５となってしまう。すなわち、一時的に使用される変数
ＴＭＰ(Ｉ)を消去したことによって、データ転送回数が
２回少なくなった。

【００５４】本発明のまた別の実施例として、式を構成
するデータがスカラー変数である場合について述べる。
これまでは式を構成するデータが配列要素である場合に
ついて述べてきたが、スカラー変数の場合でも、本発明
のＰＥ割り当て方法が適用できる。図３３(a）は、Ｐ＝Ｑ＋Ｒ＊Ｓという代入文を表す木３６０を示す。スカラー変数Ｐ，
Ｑは、絶対ＰＥ番号「１」のＰＥに割り付けられており、
Ｒ，Ｓは、絶対ＰＥ番号「２」のＰＥに割り付けられて
いるものとする。なお、データが配列要素の場合には、
Ａ(Ｉ)が割り付けられたＰＥからの相対ＰＥ番号を用い
てＰＥを識別していたが、ここでは、絶対ＰＥ番号を用
いてＰＥを識別する。図３３(a）の木の各葉ノード３６
１０から３６１３には、そのノードが表すデータが割り
付けられたＰＥの絶対ＰＥ番号３６２０から３６２３が
付加されている。図３３(ｂ)は、この木の各内部ノード
３６００から３６０２に対して、図１７に示したのと同
様の方法で確定ＰＥ番号３６４０から３６４２を決定し
た様子を示している。このように決定したＰＥ割り当て
によれば、１回のデータ転送で、この代入文を実行でき
る。

【００５５】本発明のまた別の実施例として、ＰＥ間の
データ転送に要する時間が一定でないときに、式の評価
に要する転送時間を最小にするＰＥ割り当て方法を述べ
る。これまでの実施例では、転送の回数だけに注目して
きた。しかし、同じ一回の転送でも、どのＰＥ間の転送
であるかによって、転送時間が異なる場合がある。例え
ば図３４のように８個のＰＥ２３０から２３７が立方体
状に結合していれば、対角線の両端の位置関係にある２
個のＰＥ間の転送は、隣合った２個のＰＥ間の転送に比
べて、３倍の時間を要すると考えられる。なお、本実施
例の方法は、データ転送に伴なう量ならば、時間以外の
量についても適用可能なので、以後そのような量を一般
に「転送コスト」と呼ぶことにする。

【００５６】ここで考える問題は以下の通りである。任
意の2個のPE間の転送コストが、あらかじめ与えられて
いるものとする。これを、ＴＣ(ｉ，ｊ)で表す。ただ
し、ｉ，ｊはそれぞれ転送元と転送先の絶対ＰＥ番号で
ある。ＴＣ(ｉ，ｊ)は整数値を取るものとする。式の木
表現に確定ＰＥ番号を付けたとき、木の各枝に対して、
両端のノードの確定ＰＥに応じて、コストＴＣ(ｉ，ｊ)
がかかる。全枝のコストの総和が、式の値を評価するの
に要するコストである。そこで問題は、葉ノードのみに
絶対ＰＥ番号が付けられた木が与えられたときに、全枝
のコストの総和が最小になるように、各ノードに確定Ｐ
Ｅ番号を付けるということになる。

【００５７】図３６(a）は、Ｐ＊Ｑ＋Ｒという式の木表現３７０、およびＰＥ間コスト表８０を
示している。スカラー変数Ｐ，Ｑ，Ｒは、それぞれ、絶
対ＰＥ番号「１」，「３」，「２」のＰＥに割り付けら
れているものとする。ＰＥ間コスト表８０は、絶対ＰＥ
番号ｉ，ｊのすべての組合せについてのＴＣ(ｉ，ｊ)の
値を表にしたものである。ここでは、ＰＥ台数は４とす
る。

【００５８】図３５は、本実施例におけるＰＥ割り当て
処理のフローチャートである。ステップ７５では、木の
各ノードをボトムアップにたどり、各ノードに対してス
テップ７５０で、図３６(b）に示されるようなノードコ
スト表８１０から８１４を作成する。ステップ７６で
は、木の各ノードをトップダウンにたどり、各ノードに
対してステップ７６０で、確定ＰＥ番号を求める。

【００５９】ノードコスト表８１０から８１４は、ノー
ドコストＮＣ(ｎ，ｉ)という量を表にしたものである。
さらに、内部ノードに対するノードコスト表８１３から
814には、左ＰＥ番号Ｌ(ｎ，ｉ)，右ＰＥ番号Ｒ(ｎ，
ｉ)という番号も表の中に含まれる。ノードコストＮＣ
(ｎ，ｉ)は、ノードｎに確定ＰＥ番号ｉを付けたという
条件のもとでの、そのノードをルートとする部分木内の
枝の転送コストの総和の最小値である。ノードコストＮ
Ｃ(ｎ，ｉ)は、図３５のステップ７５で木をボトムアッ
プにたどりながら、次の規則にしたがって求められる。
ノードｎが葉ノードならば、ＮＣ(ｎ，ｉ)＝ＴＣ(ＰＮ(ｎ),ｉ) とする。ここでＰＮ(ｎ)は、葉ノードｎによって表され
るデータが割り付けられているＰＥの絶対ＰＥ番号であ
る。ノードｎが内部ノードならば、ＮＣ(ｎ，ｉ)＝ＭＩＮｊ(ＮＣ(LCHILD(ｎ)，ｊ)＋ＴＣ(ｊ，ｉ)) ＋ＭＩＮｋ(ＮＣ(RCHILD(ｎ)，ｋ)＋ＴＣ(ｋ,ｉ)) とする。ここで、LCHILD(ｎ)，RCHILD(ｎ)は、それぞ
れ、内部ノードｎの左子ノードおよび右子ノードであ
り、また、ＭＩＮｊ()，ＭＩＮｋ()は、それぞれ、すべ
ての絶対ＰＥ番号ｊ，ｋについての、括弧内の量の最小
値を表す。そして、その最小値を与える絶対ＰＥ番号
ｊ，ｋを、それぞれ、左ＰＥ番号Ｌ(ｎ，ｉ)，右ＰＥ番
号Ｒ(ｎ，ｉ)とする。図３６(b）のノードコスト表８１
０から８１４は、このようにして求められたものであ
る。

【００６０】図３５のステップ７６０で、ノードｎの確
定ＰＥ番号を求める規則は、次の通りである。ノードｎ
がルートノードならば、ＮＣ(ｎ，ｉ)が最小であるよう
なＰＥ番号ｉを確定ＰＥ番号とする。また、ルートノー
ドを含む全ての内部ノードｎについて、その確定ＰＥ番
号がｉに決定したら、その左右の子ノードの確定ＰＥ番
号を、それぞれ、左ＰＥ番号Ｌ(ｎ，ｉ)，右ＰＥ番号Ｒ
(ｎ，ｉ)とする。図３６(c）の確定ＰＥ番号３７４０，
３７４１は、このようにして求められたものである。

【００６１】

【発明の効果】本発明のＰＥ割り当て方法によれば、並
列計算機のＰＥに分散割り付けされたデータから構成さ
れる式の値を評価するときに、データ転送回数が最小に
なるようにすることができる。また、その結果として、
式の値を評価するのに要する時間が短縮され、実行性能
が向上する。

【００６２】また、本発明ＰＥ割り当て方法を、並列化
コンパイラなどの並列化ツールに応用することにより、
実行効率の良い並列計算機用プログラムを作成すること
ができる。

【図面の簡単な説明】

【図１】ＰＥ割り当て処理のフローチャートである。

【図２】候補ＰＥの集合を求める処理のフローチャート
である。

【図３】確定ＰＥを求める処理のフローチャートであ
る。

【図４】並列計算機の構成例を示す図である。

【図５】配列の分散割り付けの例を示す図である。

【図６】式の木表現の例を示す図である。

【図７】候補ＰＥの求め方の説明図である。

【図８】候補ＰＥの例を示す図である。

【図９】確定ＰＥの例を示す図である。

【図１０】本発明の割り当てによる実行時タイムチャー
トである。

【図１１】従来の割り当てによる実行時タイムチャート
である。

【図１２】計算機内部でのノードの表現を示す図であ
る。

【図１３】計算機内部での木の表現を示す図である。

【図１４】計算機内部での候補ＰＥの表現を示す図であ
る。

【図１５】計算機内部での確定ＰＥの表現を示す図であ
る。

【図１６】ＰＥ割り当て装置を示す図である。

【図１７】代入の扱いを示す図である。

【図１８】並列化コンパイラの構成図である。

【図１９】プログラム変換例を示す図である。

【図２０】計算機内部でのノードの表現を示す図であ
る。

【図２１】中間プログラム生成処理のフローチャートで
ある。

【図２２】各ノードでの中間プログラム生成処理のフロ
ーチャートである。

【図２３】中間プログラム生成の過程を示す図である。

【図２４】ＰＥ用中間プログラムの例を示す図である。

【図２５】演算の交換則の利用例を示す図である。

【図２６】交換結合則を利用したＰＥ割り当て処理のフ
ローチャートである。

【図２７】ノードの併合の例を示す図である。

【図２８】候補ＰＥの集合を求める処理のフローチャー
トである。

【図２９】ノードのグループ化の例を示す図である。

【図３０】確定ＰＥを求める処理のフローチャートであ
る。

【図３１】ノードを分割する処理のフローチャートであ
る。

【図３２】ノードの分割の例を示す図である。

【図３３】スカラー変数の場合のＰＥ割り当て例を示す
図である。

【図３４】立方結合したＰＥを示す図である。

【図３５】転送コストを考慮する場合のＰＥ割り当て処
理のフローチャートである。

【図３６】転送コストを考慮する場合のＰＥ割り当て例
を示す図である。

【符号の説明】

１００…ノードの候補ＰＥの集合を求める処理、１１０
…ノードの確定ＰＥを求める処理、２００〜２０ｎ…Ｐ
Ｅ、２１０〜２１ｎ…ローカルメモリ、５０…ＰＥ割り
当て装置、５００…候補ＰＥ決定部、５０１…確定ＰＥ
決定部、５１…並列化コンパイラ、６０…ソースプログ
ラム、４１０…式の木表現、４１１…確定ＰＥ付きの式
の木表現、６１…中間プログラム、６２…ＰＥ用中間プ
ログラム。

───────────────────────────────────────────────────── フロントページの続き (72)発明者太田寛神奈川県川崎市麻生区王禅寺1099番地株式会社日立製作所システム開発研究所内 (72)発明者迫田行介神奈川県川崎市麻生区王禅寺1099番地株式会社日立製作所システム開発研究所内 (72)発明者斉藤鉄郎東京都小平市上水本町５丁目22番１号株式会社日立マイコンシステム株式会社内 (72)発明者前田栄一郎茨城県日立市幸町３丁目２番２号日立ニュークリアエンジニアリング株式会社内 (72)発明者山本俊之東京都小平市上水本町５丁目22番１号株式会社日立マイコンシステム内 (56)参考文献「情報処理学会第40回（平成２年前期）講演論文集」Ｐ．657−660 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 9/45 G06F 15/16

Claims

(57)【特許請求の範囲】

【請求項１】並列計算機に含まれる各プロセッサが有す
る各々のメモリに分散して配置されたデータから構成さ
れる式の中の演算を実行するプロセッサの割り当て方法
において、データを葉ノード、演算子を内部ノードとす
る木の形式で式を表現し、木をボトムアップにたどっ
て、各内部ノードに、該内部ノードの演算に対して割り
当てるプロセッサの候補（候補プロセッサ）の集合を決
定する第１のステップと、木をトップダウンにたどっ
て、該内部ノードの演算に対して割り当てるプロセッサ
を決定する第２のステップを含むことを特徴とする、並
列計算機におけるプロセッサ割り当て方法。
【請求項２】請求項１のプロセッサ割り当て方法におい
て、前記候補プロセッサの集合を決定する第１のステッ
プは、（１）葉ノードの候補プロセッサは、その葉ノー
ドが表すデータが配置されたプロセッサとし、（２）内
部ノードの候補プロセッサは、その内部ノードに対する
子ノードの候補プロセッサの中で、最も多くの子ノード
の候補プロセッサになっているもののすべてとすること
を特徴とする、請求項１のプロセッサ割り当て方法。
【請求項３】請求項１のプロセッサ割り当て方法におい
て、内部ノードの演算に対して割り当てるプロセッサを
決定する第２のステップは、（１）該内部ノードがルー
トノードの場合は、該内部ノードの候補プロセッサの集
合から任意に選んだ１個のプロセッサを、該内部ノード
に割り当てるプロセッサとし、（２）該内部ノードがル
ートノードでなく、かつ、該内部ノードの候補プロセッ
サの集合に、該内部ノードの親ノードに割り当てられた
プロセッサが含まれている場合には、該親ノードに割り
当てられたプロセッサを、該内部ノードに割り当てるプ
ロセッサとし、（３）該内部ノードがルートノードでな
く、かつ、該内部ノードの候補プロセッサの集合に、該
内部ノードの親ノードに割り当てられたプロセッサが含
まれていない場合には、該内部ノードの候補プロセッサ
の集合から任意に選んだ１個のプロセッサを、該内部ノ
ードに割り当てるプロセッサとすることを特徴とする、
請求項１のプロセッサ割り当て方法。
【請求項４】請求項１のプロセッサ割り当て方法におい
て、前記候補プロセッサの集合を決定する第１のステッ
プは、（１）葉ノードの候補プロセッサは、その葉ノー
ドが表すデータが配置されたプロセッサとし、（２）内
部ノードの候補プロセッサは、その内部ノードに対する
子ノードの候補プロセッサの中で、最も多くの子ノード
の候補プロセッサになっているもののすべてとし、内部
ノードの演算に対して割り当てるプロセッサを決定する
第２のステップは、（３）該内部ノードがルートノード
の場合は、該内部ノードの候補プロセッサの集合から任
意に選んだ１個のプロセッサを、該内部ノードに割り当
てるプロセッサとし、（４）該内部ノードがルートノー
ドでなく、かつ、該内部ノードの候補プロセッサの集合
に、該内部ノードの親ノードに割り当てられたプロセッ
サが含まれている場合には、該親ノードに割り当てられ
たプロセッサを、該内部ノードに割り当てるプロセッサ
とし、（５）該内部ノードがルートノードでなく、か
つ、該内部ノードの候補プロセッサの集合に、該内部ノ
ードの親ノードに割り当てられたプロセッサ番号が含ま
れていない場合には、該内部ノードの候補プロセッサの
集合から任意に選んだ１個のプロセッサを、該内部ノー
ドに割り当てるプロセッサとすることを特徴とする、請
求項１のプロセッサ割り当て方法。
【請求項５】並列計算機に含まれる各プロセッサが有す
る各々のメモリに分散して配置されたデータから構成さ
れる式の中の演算を実行するプロセッサの割り当て方法
において、データを葉ノード、演算子を内部ノードとす
る木の形式で式を表現し、木をボトムアップにたどっ
て、各内部ノードと各プロセッサとの組合せに対して、
該内部ノードの演算を該プロセッサで実行したときの転
送コストを決定する第１のステップと、木をトップダウ
ンにたどって、前記転送コストの総和が少なくなるよう
に該内部ノードの演算に対して割り当てるプロセッサを
決定する第２のステップを含むことを特徴とする、並列
計算機におけるプロセッサ割り当て方法。
【請求項６】並列計算機に含まれる各プロセッサが有す
る各々のメモリに分散して配置されたデータから構成さ
れる式の中の演算を実行するプロセッサの割り当て方法
において、データを葉ノード，演算子を内部ノードとす
る木の形式で式を表現し、実行順序が交換可能な複数の
演算に対応する複数のノードを併合する第１のステップ
と、木をボトムアップにたどって、各内部ノードに、該
内部ノードの演算に対して割り当てるプロセッサの候補
（候補プロセッサ）の集合を決定する第２のステップ
と、木をトップダウンにたどって、該内部ノードの演算
に対して割り当てるプロセッサを決定する第３のステッ
プと、併合したノードを分解して新ノードを生成し、該
新ノードの演算に対して割り当てるプロセッサを決定す
る第４のステップを含むことを特徴とする、並列計算機
におけるプロセッサ割り当て方法。
【請求項７】並列計算機に含まれる各プロセッサが有す
る各々のメモリに分散して配置されたデータから構成さ
れる式の中の演算を実行するプロセッサの割り当て装置
において、データを葉ノード，演算子を内部ノードとす
る木の形式で式を表現し、木をボトムアップにたどっ
て、各内部ノードに、該内部ノードの演算に対して割り
当てるプロセッサの候補（候補プロセッサ）の集合を決
定する第１の手段と、木をトップダウンにたどって、該
内部ノードの演算に対して割り当てるプロセッサを決定
する第２の手段を含むことを特徴とする、並列計算機に
おけるプロセッサ割り当て装置。