JPH0668051A

JPH0668051A - 並列計算機

Info

Publication number: JPH0668051A
Application number: JP4219599A
Authority: JP
Inventors: Shoichi Furuichi; 昌一古市
Original assignee: Agency of Industrial Science and Technology
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 1992-07-28
Filing date: 1992-07-28
Publication date: 1994-03-11

Abstract

(57)【要約】【目的】複数のプロセッサを有し、各プロセッサがジ
ョブを保持しておくジョブ保持部と、該ジョブ保持部か
らジョブを取り出して実行するとともに、ジョブ保持部
に実行すべきジョブがない場合に他のプロセッサに対し
て新たなジョブの要求を行う並列計算機において、ジョ
ブを要求するメッセージの移動距離を平均的に短くして
メッセージの到着の遅れが生じなくなるようにして効率
のよい負荷の動的な均等化を得るとともに、ジョブ間の
局所性を保つことができる並列計算機を提供することを
目的とする。【構成】複数のプロセッサ１〜１６を複数のグループ
１７〜２０に分けて構成し、各プロセッサは、そのプロ
セッサが属するグループ内のプロセッサにジョブを要求
し、そのグループ内でジョブが得られない場合に、他の
グループのプロセッサにジョブを要求する

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、複数のプロセッサから
構成される並列計算機に関するものであり、特に、該並
列計算機の負荷の動的均等化方式に関するものである。

【０００２】

【従来の技術】近時、負荷を分散化し、システム全体と
しての処理効率を向上させる分散処理システムが開発さ
れている。

【０００３】例えば、図４は、文献Parallel Algorithm
s in Machine Intelligence and Vision,Springer-Verl
ag 1990 にVipin Kumar らによって書かれた論文“ＳＣ
ＡＬＡＢＬＥＰＡＲＡＬＬＥＬＦＯＲＭＵＬＡＴＩ
ＯＮＳＯＦＤＥＰＴＨ−ＦＩＲＳＴＳＥＡＲＣ
Ｈ”の５頁右段上から４行目以降に記述されている並列
計算機の動的均等化方式の一例を示すものであり、１〜
１６はＣＰＵ（以後、「プロセッサ」とする）を示し、
２１〜３６は各プロセッサ内のジョブのスケジューリン
グを行うスケジューラを示し、各スケジューラはカウン
タを有している。また、４１〜５６は実行可能なジョブ
をキュー（待ち行列）として格納するバッファメモリを
示す。また、７０は各ＣＰＵを接続するネットワーク
を、６０〜６３はジョブをあらわす。

【０００４】次に動作について説明する。図４における
ＣＰＵ１〜１６中のスケジューラ２１〜３６が、バッフ
ァメモリ４１〜５６中のジョブをスケジューリングする
アルゴリズムを示す図５により説明すると、スケジュー
ラは、バッファメモリの中にジョブがあるか否かを判断
する（ステップ００１）。ジョブがある場合には、スケ
ジューラはジョブを１つ取り出して（ステップ００
２）、実行し（ステップ００３）、全てのプロセッサ上
で全体の実行が終了したか否かを判定し、まだ、終了し
ていなければ次のステップのスケジューリングを行う
（ステップ００１）。バッファメモリ中にジョブがなか
った場合には、カウンタのtargetが保持する値に１を加
えて、プロセッサの台数Ｎで割った余りの値を新たなta
rgetの値とし、その値が示すプロセッサに対してジョブ
を要求する（ステップ００５）。例えば、図４の場合に
は、プロセッサのカウンタのtargetの値が１である場
合、これに１を加えるとtargetの値は２となる。２をプ
ロセッサの台数１６で割った余りは２であるので、プロ
セッサＰＥ２に対してジョブを要求する。また、target
の値が１５である場合、これに１を加えるとtargetの値
は１６になる。１６を１６で割った余りは０であるの
で、プロセッサＰＥ０に対してジョブを要求する。

【０００５】そのようにして、新たなジョブが得られた
場合には、通常は１個以上のジョブをバッファメモリに
格納し（ステップ００６、００７）、次のステップのス
ケジューリングを行う。新たなジョブが得られなかった
場合には、ジョブが得られるまで別のプロセッサに対し
て要求を行う（ステップ００５）。例えば、前記例でプ
ロセッサＰＥ２に対してジョブを要求してジョブを得ら
れなかった場合には、カウンタのtargetの値をさらに１
加え、プロセッサＰＥ３に対してジョブを要求する。

【０００６】図４は、プロセッサＰＥ０上のバッファメ
モリには、ジョブが多数あり、その他のプロセッサ上に
はジョブが１つもない様子を示している。ここで、各プ
ロセッサのカウンタのtargetの値は、同図に示すよう
に、初期値としてそれぞれプロセッサの番号が与えられ
ているものとする。この時、プロセッサＰＥ０では、バ
ッファメモリから次々とジョブが取り出されては実行さ
れる。その他のプロセッサでは、カウンタのtargetの値
が示す値にしたがってジョブを要求する。すなわち、プ
ロセッサＰＥ１はプロセッサＰＥ２に、プロセッサＰＥ
２はプロセッサＰＥ３に、プロセッサＰＥ３はプロセッ
サＰＥ４に対してジョブを要求する。これを繰り返すこ
とによって、いずれ全てのプロセッサがジョブを得る。
さらに実行が進んで図６に示すようにＰＥ１とＰＥ７の
バッファメモリが空になった場合には、それぞれのプロ
セッサはtargetの値にしたがってＰＥ１５とＰＥ１３に
新たなジョブを要求する。

【０００７】

【発明が解決しようとする課題】しかし、以上のような
負荷の均等化方式においては、各プロセッサは自己以外
の全てのプロセッサに対して等しく順番にジョブを要求
するため、ジョブの要求及び移動のためにプロセッサ間
で通信されるメッセージの移動距離が平均的に長くな
り、プロセッサの台数が多くなった場合には、メッセー
ジの到着の遅れが顕著になると同時に、通信経路を占有
する時間も長くなるために負荷の均等化が効率よく行え
ない。また、ジョブ間の局所性が保たれないという問題
点があった。すなわち、例えば、ジョブＡとジョブＢを
実行する際に頻繁に通信しあう必要がある場合に、該２
つのジョブが離れたプロセッサで実行されると、通信の
オーバーヘッドによる遅れが生じるため、できるだけ近
くのプロセッサに割り付けられることが望ましい。

【０００８】そこで、本発明は、ジョブを要求するメッ
セージの移動距離を平均的に短くしてメッセージの到着
の遅れが生じなくなるようにして効率のよい負荷の動的
な均等化を得るとともに、ジョブ間の局所性を保つこと
ができる並列計算機を提供することを目的とするもので
ある。

【０００９】

【課題を解決するための手段】本発明は、複数のプロセ
ッサを有し、各プロセッサがジョブを保持しておくジョ
ブ保持部と、該ジョブ保持部からジョブを取り出して実
行するとともに、ジョブ保持部に実行すべきジョブがな
い場合に他のプロセッサに対して新たなジョブの要求を
行うスケジューラとを有する並列計算機において、上記
複数のプロセッサを複数のグループに分けて構成し、各
プロセッサは、そのプロセッサが属するグループ内のプ
ロセッサにジョブを要求し、そのグループ内でジョブが
得られない場合に、他のグループのプロセッサにジョブ
を要求することを特徴とするものである。

【００１０】

【作用】本発明におけるに並列計算機では、並列計算機
を構成する複数のプロセッサがグループに分けて構成さ
れ、各プロセッサは、まず、そのプロセッサが属するグ
ループ内のプロセッサにジョブを要求する。該グループ
内のプロセッサからジョブを要求することができない場
合には、他のグループのプロセッサに対してジョブを要
求する。本発明によれば、まず、グループ内でジョブの
要求を行うことから、メッセージの移動距離を少なくす
ることができ、効率のよい負荷の動的な平均化を行うこ
とができるほか、ジョブの局所性も保つことができる。

【００１１】

【実施例】以下、本発明の好適な実施例について図面に
基づき説明する。

【００１２】本発明に係る並列計算機は、図１に示すよ
うに構成され、１〜１６はプロセッサを、２１〜３６は
各プロセッサ内のジョブのスケジューリングを図２に示
したアルゴリズムに従い行うスケジューラを、４１〜５
６は実行可能なジョブを格納するバッファメモリをそれ
ぞれ示している。また、７０は各プロセッサを接続する
ネットワークを、６０〜６３はジョブを表す。本発明に
おいては、前記１〜１６の各プロセッサをそれぞれ４台
ごとのプロセッサでグループ化し、プロセッサグループ
１７〜２０を形成しており、前記スケジューラが有する
カウンタは、targetＰＥとtargetＰＧの２つの値を有し
ている。

【００１３】次に、本実施例の動作状態について説明す
る。各プロセッサのスケジューラは図２に示すアルゴリ
ズムに従い実行される。ここで、各グループに属するプ
ロセッサの台数がカウンタのＧＰＥに保持されるととも
に、グループの個数はＮｏｆＧに保持され、本実施例で
はＧＰＥは４で、ＮｏｆＧも４となる。まず、バッファ
メモリの中にジョブがあるか否かを判断し（ステップ０
０１）、ジョブがある場合には、スケジューラはジョブ
を１つ取り出して（ステップ００２）、実行し（ステッ
プ００３）、全てのプロセッサ上で全体の実行が終了し
たか否かを判定し、まだ、終了していなければ次のステ
ップのスケジューリングを行う（ステップ００１）。

【００１４】バッファメモリ中にジョブがなかった場合
には、カウンタのtargetが保持する値に１を加えた値を
ＧＰＥで割った余りを新たなtargetＰＥの値とする（ス
テップ００５）。そして、targetＰＥが自己を指示して
いない場合には、targetＰＥが指示するプロセッサに対
してジョブを要求する（ステップ００６、００７）。一
方、targetＰＥが自己を指示している場合には、自己を
指示する場合はプロセッサグループ内を一通り要求した
ことを意味しているので、targetＰＧが保持する値に１
を加えた値をＮｏｆＧで割った余りを新たなtargetＰＧ
の値とし、そのtargetＰＧが指すプロセッサグループ内
のtargetＰＥに対して新たなジョブを要求する（ステッ
プ００８）。ステップ００７又はステップ００８で新た
なジョブが得られる場合には、通常は１個以上のジョブ
をバッファメモリに格納し（ステップ００９、０１
０）、次のステップのスケジューリングを行う。ジョブ
が得られなかった場合には、ステップ００５に戻り、別
のプロセッサにジョブの要求を行う（ステップ００
９）。

【００１５】例えば、図１は、プロセッサグループＰＧ
０内のプロセッサＰＥ０のバッファメモリにはジョブが
多数あり、その他のプロセッサ上にはジョブが１つもな
い状態が示されており、スケジューラ２１〜３６が有す
るカウンタのtargetＰＧの値は初期値としてそれぞれの
プロセッサグループ番号に１を加えた値が与えられ、ta
rgetＰＥの値は初期値としてそれぞれのプロセッサ番号
が与えられている。具体的には、プロセッサＰＥ０につ
いては、プロセッサグループがＰＧ０でプロセッサグル
ープ番号が０であるので、targetＰＧにはこれに１を加
えた１の値が与えられ、また、プロセッサ番号が０であ
るので、targetＰＥには０の値が与えられている。

【００１６】ここで、プロセッサグループＰＧ０におけ
るプロセッサＰＥ０では、バッファメモリ５３から次々
とジョブが取り出されては実行される。プロセッサグル
ープＰＧ０における他のプロセッサＰＥ１、ＰＥ２、Ｐ
Ｅ３では、targetＰＧ及びtargetＰＥが示す値にしたが
って新たなジョブを要求する。すなわち、プロセッサＰ
Ｅ１はtargetＰＥの値１に１を加え、ＧＰＥすなわち４
で割った余り２をtargetＰＥの値として、プロセッサＰ
Ｅ２に対してジョブの要求を行う。同様にして、プロセ
ッサＰＥ２はプロセッサＰＥ３に、プロセッサＰＥ３は
プロセッサＰＥ０に対してジョブを要求する。プロセッ
サグループＰＧ０の他のプロセッサグループのプロセッ
サも同様なスケジューリングを行う。図１の例では、プ
ロセッサグループＰＧ０以外のプロセッサグループのプ
ロセッサはグループ内のプロセッサに対してジョブを要
求してもジョブを得られないので、targetＰＧの指示す
る別のプロセッサグループ内のプロセッサに対してジョ
ブの要求を行う。例えば、プロセッサグループＰＧ３の
プロセッサＰＥ３が、ステップ００５においてtargetＰ
Ｅの値が３となった場合には、targetＰＥは自己のプロ
セッサを示す事となり、ステップ００８に進んで、targ
etＰＧの値は、targetＰＧ値を１加えて４とし、この４
をＮｏｔＧ＝４で割った余りの０となるので、プロセッ
サグループＰＧ０のプロセッサＰＥ３に対してジョブを
要求する。その後、プロセッサグループＰＧ３のプロセ
ッサＰＥ３は、プロセッサグループＰＧ０内のＰＥ０、
ＰＥ１、ＰＥ２順にジョブを要求することになる。

【００１７】以上のような繰り返しでジョブの要求が行
われた後に、例えば、図３のような状態になったとす
る。この時に手持ちのジョブがないプロセッサはＰＧ０
のＰＥ１と、ＰＧ１のＰＥ３であるが、これらは同一グ
ループ内のＰＥ３とＰＥ１にジョブを要求してジョブを
得ることができる。

【００１８】なお、上記説明においては、プロセッサグ
ループの数を４とし、各グループに含まれるプロセッサ
の数を４とした場合について説明したが、上記例に限ら
れないことはいうまでもない。

【００１９】また、ネットワークで接続された疎結合の
並列計算機に利用する場合について述べたが、共有メモ
リを持った密結合の並列計算機、あるいはローカルネッ
トワークで接続された分散計算機環境にも適用できるこ
とはいうまでもない。また、上記上記説明では、各プロ
セッサのスケジューラはカウンタの初期値として各々が
別の値を持っているが、全体のジョブの実行が開始され
る時一番ジョブを多く持っているプロセッサがあらかじ
め分かっている場合には、初期値として一定値を与えた
方がさらに効率よく行えることはいうまでもない。さら
に、上記説明で用いたtargetＰＧはカウンタになってい
るが、固定とした場合には負荷の均等化の効率は悪くな
るが、同様の効果を得ることができる。

【００２０】

【発明の効果】本発明は以上のように構成され、プロセ
ッサをグループ化することによって、実行すべきジョブ
がなくなったときに、まず、グループ内のプロセッサに
対してジョブを要求し、そのいずれからもジョブが得ら
れなかった場合に、他のグループ内のプロセッサに対し
てジョブを要求するので、プロセッサの台数が多くなっ
た場合にも、要求するメッセージ及びジョブの移動距離
を従来の方式よりも平均的に短くでき、ジョブの局所性
も保たれやすく、並列計算機における負荷の動的均等化
方式を効率よく行うことができる。

【図面の簡単な説明】

【図１】本発明の実施例の並列計算機において、負荷の
均等化を行う前の状態を示す図である。

【図２】本発明の実施例における各プロセッサのスケジ
ューリングを示すアルゴリズムである。

【図３】本発明の実施例の並列計算機において、負荷の
均等化を行っている最中の状態を示す図である。

【図４】従来の並列計算機において、負荷の均等化を行
う前の状態を示す図である。

【図５】従来における各プロセッサのスケジューリング
を示すアルゴリズムである。

【図６】従来の並列計算機において、負荷の均等化を行
っている最中の状態を示す図である。

【符号の説明】

１〜１６プロセッサ１７〜２０プロセッサグループ２１〜３６スケジューラ４１〜５６バッファメモリ６０〜６３ジョブ７０ネットワーク

─────────────────────────────────────────────────────

【手続補正書】

【提出日】平成５年１０月５日

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】００１６

【補正方法】変更

【補正内容】

【００１６】ここで、プロセッサグループＰＧ０におけ
るプロセッサＰＥ０では、バッファメモリ５３から次々
とジョブが取り出されては実行される。プロセッサグル
ープＰＧ０における他のプロセッサＰＥ１、ＰＥ２、Ｐ
Ｅ３では、targetＰＧ及びtargetＰＥが示す値にしたが
って新たなジョブを要求する。すなわち、プロセッサＰ
Ｅ１はtargetＰＥの値１に１を加え、ＧＰＥすなわち４
で割った余り２をtargetＰＥの値として、プロセッサＰ
Ｅ２に対してジョブの要求を行う。同様にして、プロセ
ッサＰＥ２はプロセッサＰＥ３に、プロセッサＰＥ３は
プロセッサＰＥ０に対してジョブを要求する。プロセッ
サグループＰＧ０の他のプロセッサグループのプロセッ
サも同様なスケジューリングを行う。図１の例では、プ
ロセッサグループＰＧ０以外のプロセッサグループのプ
ロセッサはグループ内のプロセッサに対してジョブを要
求してもジョブを得られないので、targetＰＧの指示す
る別のプロセッサグループ内のプロセッサに対してジョ
ブの要求を行う。例えば、プロセッサグループＰＧ３の
プロセッサＰＥ３が、ステップ００５においてtargetＰ
Ｅの値が３となった場合には、targetＰＥは自己のプロ
セッサを示す事となり、ステップ００８に進んで、targ
etＰＧの値は、targetＰＧ値を１加えて４とし、この４
をＮｏｆＧ＝４で割った余りの０となるので、プロセッ
サグループＰＧ０のプロセッサＰＥ３に対してジョブを
要求する。その後、プロセッサグループＰＧ３のプロセ
ッサＰＥ３は、プロセッサグループＰＧ０内のＰＥ０、
ＰＥ１、ＰＥ２順にジョブを要求することになる。

【手続補正２】

【補正対象書類名】明細書

【補正対象項目名】００１９

【補正方法】変更

【補正内容】

【００１９】また、ネットワークで接続された疎結合の
並列計算機に利用する場合について述べたが、共有メモ
リを持った密結合の並列計算機、あるいはローカルネッ
トワークで接続された分散計算機環境にも適用できるこ
とはいうまでもない。また、上記説明では、各プロセッ
サのスケジューラはカウンタの初期値として各々が別の
値を持っているが、全体のジョブの実行が開始される時
一番ジョブを多く持っているプロセッサがあらかじめ分
かっている場合には、初期値として一定値を与えた方が
さらに効率よく行えることはいうまでもない。さらに、
上記説明で用いたtargetＰＧはカウンタになっている
が、固定とした場合でも負荷の均等化の効率は悪くなる
が、同様の効果を得ることができる。

【手続補正３】

【補正対象書類名】図面

【補正対象項目名】図６

【補正方法】変更

【補正内容】

【図６】

Claims

【特許請求の範囲】

【請求項１】複数のプロセッサを有し、各プロセッサ
がジョブを保持しておくジョブ保持部と、該ジョブ保持
部からジョブを取り出して実行するとともに、ジョブ保
持部に実行すべきジョブがない場合に他のプロセッサに
対して新たなジョブの要求を行うスケジューラとを有す
る並列計算機において、上記複数のプロセッサを複数のグループに分けて構成
し、各プロセッサは、そのプロセッサが属するグループ内の
プロセッサにジョブを要求し、そのグループ内でジョブ
が得られない場合に、他のグループのプロセッサにジョ
ブを要求することを特徴とする並列計算機。