JPH0540742A

JPH0540742A - 並列処理方法

Info

Publication number: JPH0540742A
Application number: JP19772991A
Authority: JP
Inventors: Shoji Suzuki; 昭二鈴木; Shinichiro Yamaguchi; 伸一朗山口; Yoshiki Kobayashi; 小林　　芳樹
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1991-08-07
Filing date: 1991-08-07
Publication date: 1993-02-19

Abstract

(57)【要約】【目的】マルチプロセッサにおける並列処理の効率を向
上する。【構成】１００，１０１はプロセッサ、１１はメモリ、
１２はプロセッサとメモリを接続する通信線、１３０〜
１３２はプロセッサで実行されるプロシージャ、特に１
３０，１３１は並行サブルーチン、１３２は戻り先メイ
ンルーチン、１８は並列実行制御、１４１はスタック領
域確保、１５はスケジューラ、１５１はQueue登録、１
６２はリターンプロシージャ共有化を表わす。各プロセ
ッサでは実行中の並行サブルーチンが終了する場合、１
５１を介さずに、１６２によってメインルーチンに戻
り、未だ実行されていない並行サブルーチンを実行す
る。【効果】リターンプロシージャ共有化１６２により、マ
ルチプロセッサにおける並列処理の効率を低下させるオ
ーバーヘッドの要因である、並列処理単位の待ち行列を
用いたスケジューリング操作、及びスタック領域生成操
作の操作回数を低減することにより、並列処理の効率が
向上する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は並列処理において、特に
複数のプロセッサより構成されるマルチプロセッサに適
した、高効率な並列処理方法に関する。

【０００２】

【従来の技術】複数のプロセッサより構成されるマルチ
プロセッサ上で、プログラムを並列実行させる為には、
該プログラムをユーザ自身が、あるいは自動並列化コン
パイラによって、マルチプロセッサ上で並列に動作でき
るように変更して、並列処理プログラムに作り直さなけ
ればならない。この変更とは具体的には、該プログラム
を複数のプロセッサが同時に実行しても構わない複数個
の処理の単位（以下、並列処理単位）に分割し、該並列
処理単位をマルチプロセッサ上で同時に実行できるよう
に、並列処理単位の実行制御操作（以下、並列実行制御
操作）を該プログラムに加えることである。この並列実
行制御操作は、以下の２種類の操作に大別出来る。

【０００３】(1) 並列処理単位をプロセッサ上で実行出
来るように、実行の為の環境（実行時に加工するデータ
を格納する、メモリ空間上のスタック領域等）を確保
し、処理の単位に割り与える、実行環境管理操作。

【０００４】(2) 並列処理単位間の実行順序制御を行
い、マルチプロセッサ上で複数の並列処理単位を同時に
実行させたり、並列処理単位間で待ち合わせを行うとい
った同期操作を行う、スケジューリング操作。

【０００５】また、ユーザに提供されている並列実行制
御機能は、並列処理単位間の通信機能等、種々のものが
存在するが、その中でも一番基本的なものは、分岐（fo
rk）操作と合流（join）操作である。分岐操作は、並列
処理単位を実行環境管理操作にて生成する操作である。
合流操作は、分岐操作により生成された並列処理単位の
実行終了待ちを行う同期操作（スケジューリング操作）
である。

【０００６】従来の並列処理方法では、各並列処理単位
はお互いに独立した、主従関係の無いコルーチンとして
実現している。従ってコルーチンの独立性より、分岐操
作時に生成される全ての並列処理単位に対して、実行環
境管理操作の一つであるスタック領域確保操作により、
スタック領域をブロック単位で生成し割り与えている。
またコルーチン間には主従関係が無いことにより、並列
処理単位間のスケジューリング操作は、スケジューラに
よる待ち行列(以下、Queue）への登録・取り出し操作に
よって実現している。

【０００７】また各並列処理単位に割り与えるスタック
領域は、並列処理単位実行時にサブルーチンコールを行
うことによっていくらでも拡張し得るので、拡張しても
オーバーフローしないように余裕のある大きさのブロッ
ク単位（システムによって異なるが、例えば１ＭＢ単
位）で割り与えることになる。

【０００８】図２は従来の並列処理方法の動作例を表し
たものである。なお図では説明を簡単にする為、マルチ
プロセッサを構成するプロセッサ数を２、また生成され
る並列処理単位数を５としている。図において、１０
０，１０１はプロセッサ、０，０１〜０５は並列処理プ
ログラムを構成する並列処理単位、１６０は分岐・合流
操作、１５はスケジューラ、１７１，１７２はQueue、
１５０はQueue操作、140はスタック領域確保操作、１１
０は該並列処理プログラムのメモリ空間、７２０，７２
０１〜７２０５は各並列処理単位の実行に必要なスタッ
ク領域を表す。

【０００９】従来は、以下の動作により並列処理を行っ
ている。

【００１０】処理単位０実行時に、図３に示す分岐・合
流操作１６０によって、５つの並列処理単位０１〜０５
の生成を行う。即ち分岐操作１６０１にて、スタック領
域確保操作１４０により、各並列処理単位の実行の為の
スタック領域７２０１〜7205をブロック単位で生成確保
して割り与え、次に操作１６０２にて、各並列処理単位
をスケジューラによる操作１５０により走行Queue１７
１に登録する。更に合流操作１６０３にて０の実行を中
断して、操作１５０により休止Queue １７２に登録す
る。そしてプロセッサ１００，１０１は、図４に示す基
本動作１０００により、並列処理単位を１つ１つ実行し
て行く。即ち操作１００１にて、操作150により走行Que
ue １７１に登録されている並列処理単位を１つ取り出
し、操作１００２にて、取り出した並列処理単位を実行
し、更に操作１００３にて、実行終了時に、該並列処理
単位終了待ちを行っている処理単位が存在するかチェッ
クし、操作１００４にて、終了待ち状態の処理単位が見
つかったら、それを休止Queue １７２より取り出し、走
行Queue １７１に登録する。以後、Queue に登録されて
いる全ての並列処理単位を実行し終えるまで操作１００
１〜１００４を繰り返す。

【００１１】即ち、従来技術の並列実行制御操作におい
ては、スケジューラはQueue を有し、生成された並列処
理単位を走行Queue に登録し、該走行Queue より１つ１
つ取り出して、該並列処理単位を実行する方法をとって
いる。またスタック領域確保操作は、生成された並行処
理単位に対して、予めブロック単位でメモリ空間を生成
確保して割り与える方法をとっていた。

【００１２】そして分岐操作においては、並列処理単位
に対して、スタック領域確保操作によってスタック領域
を生成し割り与え、スケジューラによって該並列処理単
位を走行Queue に登録する。また合流操作においては、
該操作を行う処理単位を休止Queue に登録し、分岐操作
にて生成した並列処理単位の終了待ちを行う。また各プ
ロセッサはスケジューラにより、走行Queue に登録され
ている並列処理単位を取り出して実行し、該並列処理単
位の実行が終了したら、再び走行Queue より並列処理単
位を取り出し、実行する…この操作を繰り返すことによ
り並列処理を実現していた。

【００１３】ところでこの並列実行制御操作は、シング
ルプロセッサシステムでは不要であることからもわかる
通り、並列処理プログラム実行時のオーバーヘッドとな
る。ところで細粒度高並列なプログラム、即ち各並列処
理単位の実行時間が小さく、また並列処理単位数が多い
並列処理プログラム程、並列実行制御操作時間、即ちオ
ーバーヘッドの占める割合が大きくなる。並列処理プロ
グラム実行時間中にオーバーヘッドの占める割合が大き
ければ、並列処理による速度向上は期待出来なくなって
しまう。

【００１４】当初は、並列実行制御操作はオペレーティ
ングシステムが行っていた。オペレーティングシステム
が行う操作は、ユーザプログラム内でシステムコールを
発行する形で依頼することになる。しかし一般に、シス
テムコールによる操作は時間がかかることが知られてお
り、そのためにオーバーヘッドは大きなものとなってし
まう。

【００１５】そこで、並列実行制御操作をオペレーティ
ングシステムに依頼するのではなく、ユーザプログラム
内で実行する方法が近年提案されている。本方法では並
列実行制御操作を提供するライブラリ関数をユーザプロ
グラムにリンクすることで実現する。本方法により、当
初の方法よりも各並列実行制御操作が十数倍〜百倍程度
高速になり、オーバーヘッドがかなり小さくなることが
知られている。

【００１６】なお従来技術の一例として、文献「根岸
康：密結合マルチプロセッサのためのスレッドの実現
法、情報処理学会第４１回全国大会講演論文集(ＩＶ)、
７Ｄ−５、ｐｐ．１２５−１２６、１９９０年」があげ
られる。

【００１７】

【発明が解決しようとする課題】高効率な並列処理実現
の為の課題は、上記並列実行制御操作によるオーバーヘ
ッドの低減にある。従来技術では各並列実行制御操作を
高速にすることによって、それを実現していた。しか
し、更により細粒度高並列な並列処理プログラムを実行
しようとすると、従来技術をもってしてもプログラム実
行時間中に、オーバーヘッドの占める割合が大きくな
り、並列処理の効率は低下してしまう。その中でもスタ
ック領域確保操作が行うスタック領域生成操作と、Queu
e を用いたスケジューリング操作は、実行時間を要する
操作の一つである。ところが従来技術によって、全ての
並列実行制御操作の実行時間の短縮はほぼ限界に達して
いる。即ち各並列実行制御操作の高速化をこれ以上は望
むのは難しい。

【００１８】そこで本発明が解決しようとする課題は、
並列処理方法そのものを変更し、並列処理プログラム実
行時に、特に上記２つの操作によるオーバーヘッドを低
減することにある。

【００１９】

【課題を解決するための手段】上記課題を解決する為
に、本発明による並列処理方法は、並列実行制御機能を
最も基本的な分岐操作，合流操作のみに限定する。この
場合、並列処理単位間に厳密な主従関係が存在する。即
ち分岐操作を発行する側の処理単位は、該操作によって
生成される全ての並列処理単位の実行が終了するまで、
合流操作にて処理を中断して待たなければならない。こ
の関係は、一般の逐次処理のサブルーチンコール／リタ
ーン操作における、メインルーチンとサブルーチンの主
従関係とほぼ同様である。異なる点は、メインルーチン
がコールする複数のサブルーチンは、同時に実行して構
わない点であり、更にメインルーチン側は、コールした
サブルーチンが全てリターンするまで待つことである。
ここでは以後、分岐操作発行側の並列処理単位をメイン
ルーチン、該操作によって生成される並列処理単位を並
行サブルーチン（或はＣＳＲ：Concurrent Subroutine)
と表記することにする。

【００２０】そこで上記課題を解決する為に上述の主従
関係を利用することにより、以下の方法を発明した。

【００２１】(1）スケジューリング操作によるオーバー
ヘッドを低減する為に、該操作を一般の逐次処理のサブ
ルーチンコール／リターン操作を並列処理用に拡張した
操作で実現する。即ちメインル−チンよりサブルーチン
コールによって、並行サブルーチンが実行される。各並
行サブルーチンでは並列処理を実現する為に、「リター
ンプロシージャ共有化操作」によってメインルーチンに
リターンする為の情報（プログラムカウンタ，スタック
ポインタ等）を「共有化リターン情報」として共有デー
タ領域上に登録し、該並行サブルーチン間で共有化す
る。そして該並行サブルーチンは、該情報によってメイ
ンルーチンへリターンする。リターン後、メインルーチ
ンでは、まだ実行していない並行サブルーチンをコール
するので、該並行サブル−チン間のスケジューリング操
作が該リターンプロシージャ共有化操作により実現出来
る。そして複数のプロセッサがメインルーチンへの共有
化リターン情報にアクセスし、それぞれ並行サブルーチ
ンを実行する場合、リターンプロシージャ共有化操作が
メインルーチンへの共有化リターン情報を常に最新のも
のに更新しているので、各プロセッサは未実行の並行サ
ブルーチンをプロセッサ間で重複することも取りこぼす
ことも無く、１つ１つ実行して行くことが出来る。

【００２２】(2）スタック領域確保操作が行う、スタッ
ク領域生成操作によるオーバーヘッドを低減する為に、
並行サブル−チンの実行に必要なスタック領域は、一般
のサブル−チンコ−ル操作を用いることで、メインル−
チン用のスタック領域をそのまま拡張する形で割り当て
て使用させる。更にその並行サブルーチンから分岐する
並行サブルーチンも該スタック領域を拡張して割り当て
る形で、主従関係のある並行サブルーチンが１つのスタ
ック領域を共有させる。

【００２３】ところで本発明による並列処理方法では、
各プロセッサは基本的に(1）のリターンプロシージャ共
有化操作によるサブルーチンコール／リターンベースの
スケジューリング操作を行う。しかし、リターン先のメ
インルーチンで実行すべき並行サブルーチンが既に無く
なり、且つ、他プロセッサで該メインルーチンより分岐
された並行サブルーチンを実行中の場合には、該メイン
ルーチンにリターンして処理を続行することは出来な
い。従ってこのような場合には、従来方法のようにQueu
e より実行可能な並列処理単位を見つけ出すことが必要
になる。そこで、(3）Queue を用いたスケジューリング
操作によるオーバーヘッドを低減する為に、各並列処理
単位に該並列処理プログラム開始時から、該並列処理単
位が生成されるまでに行われた分岐操作の段数を優先度
として与える。そして、分岐操作中（分岐操作を行って
から合流操作を行うまで）の並列処理単位を階層Queue
の該段数に対応するQueue に登録し、優先度の高いQueu
e より並列処理単位を取り出して実行するといった、階
層Queue を用いたスケジューリング操作を行う。

【００２４】

【作用】(1）サブルーチンコール／リターンベースのス
ケジューリング操作を用いることにより、従来方法のよ
うな、分岐する全ての並行プロシージャを予め走行Queu
eに登録することはせず、Queue を用いたスケジューリ
ング操作回数を低減する。また該スケジューリング操作
はQueueを用いるスケジューリング操作よりも実行時間
が短い。これにより、スケジューリング操作によるオー
バーヘッドを低減出来る。

【００２５】(2）スタック領域を主従関係のある並列処
理単位間で共有することにより、スタック領域確保の為
の生成操作回数を低減する。また該共有化操作は、一般
のサブルーチンコールを用いて実現する為、操作時間は
極めて小さい。これにより、スタック領域確保操作によ
るオーバーヘッドを低減出来る。

【００２６】(3）階層Queue を用いたスケジューリング
操作により、各プロセッサは分岐操作段数のなるべく浅
い並列処理単位より優先して実行して行くことになる。
これは別の言い方をすれば、段数の深い並列処理単位は
優先度が低くなるため、他プロセッサが階層Queue を用
いたスケジューリング操作により、該並列処理単位を取
り出して実行する可能性は低くなる。即ち該並列処理単
位より分岐される複数の並行サブルーチンは、該並列処
理単位を実行していたプロセッサが単独で全て実行する
可能性が高くなることを意味する。単独で実行している
間は、サブルーチンコール／リターンベースのスケジュ
ーリングのみで並列処理単位を次々と実行して行くこと
が出来、階層Queue を用いたスケジューリング操作を行
うことはない。

【００２７】ところで従来のQueue を用いたスケジュー
リング操作では、走行Queue への並列処理単位の登録・
取り出し操作がＦＩＦＯであり、並列処理単位に実行優
先度は存在しない。従って従来操作をそのまま適応する
場合と比較すると、上述の単独で実行する可能性が高く
なる分、Queue を用いたスケジューリング操作回数が低
減される。

【００２８】

【実施例】本発明の一実施例を以下、図を用いて説明す
る。なお実施例では説明を簡単にする為に、２台プロセ
ッサ構成のマルチプロセッサを例にあげているが、本発
明がプロセッサの台数に関わらず有効であることは自明
である。さらに、一般的なマイクロプロセッサである、
モトロ−ラ社の６８０ｘ０を念頭に置いて説明している
ところがあるが、他の汎用マイクロプロセッサに対して
も本発明が有効であることは言うまでもない。なお以降
は処理単位のことをプロシージャ、並列処理単位のこと
を並行プロシージャと呼ぶことにする。

【００２９】図１は本発明の全体構成図を表したもので
ある。図において、１００，１０１はプロセッサ、１１
はメモリ、１２はプロセッサとメモリを接続する通信
線、１３０〜１３２はプロセッサで実行されるプロシー
ジャ、特に１３０，１３１は並行サブルーチン、１３２
は戻り先メインルーチン、１８は並列実行制御、１４は
スタック領域確保操作、１５はスケジューラ、１５１は
Queue登録操作、162はリターンプロシージャ共有化操作
である。

【００３０】ここで図１による本発明の動作説明をより
わかり易くする為に、図５を用いて説明する。

【００３１】図５は、本発明方法の動作例を表したもの
で、図２と同じ並列処理プログラムを実行する場合の例
である。図において、１１０は該並行プログラムのメモ
リ空間、７２０００，７２０２０はブロック単位で確保
されたスタック領域、７２０，７２０１，７２０２はそ
れぞれプロシージャ０，０１，０２の実行に必要なスタ
ック領域、１４１はスタック領域確保操作、１００，１
０１はプロセッサ、０，０１〜０５は並列処理プログラ
ムを構成するプロシージャ、１６１は分岐・合流操作、
１５はスケジューラ、１７はQueue 、１５１はQueue 操
作、１６は共有化リターン情報、１６２はリターンプロ
シージャ共有化操作を表す。

【００３２】図６は本発明による並列処理プログラムを
表記したものである。まずプロシージャ０（メインルー
チン）実行時に分岐操作１６１１により、操作００１に
て０への共有化リターン情報１６内の分岐操作フラグを
ＯＮにセットし、操作００２にて０を操作１５１により
Queue １７に登録する。次に操作０１０〜０５０にて、
並行プロシージャ（並行サブルーチン）０１〜０５をコ
ールする。そして合流操作１６１２により、０を操作１
５１にて１７より取り出し、操作００４にて該分岐操作
フラグをＯＦＦにする。

【００３３】次に図６の表記を基に、複数のプロセッサ
による並列処理動作例を図５を用いて説明する。

【００３４】スタック確保操作１４１により、まずプロ
セッサ１００，１０１にそれぞれスタック領域７２００
０，７２０２０がブロック単位で生成され割り与えられ
る。１０１では７２０００内の７２０上でプロシージャ
０を実行し、分岐操作１６１により操作００１，００２
を実行し、操作０１０にて並行サブルーチン０１を７２
０１上で実行する。０１の実行は図７に示すように、０
１０２の本処理実行の前後でスケジューリング操作を行
う。即ち初期操作として、操作８０にて162により０へ
のリターン情報を１６に登録する。また終了操作とし
て、操作0103にて０の分岐操作フラグのチェックを行
い、ＯＮならば操作０１０４にて１６を基に０にリター
ンする。ＯＦＦならばまだ実行していない並行サブルー
チンは残っていないので、操作０１０５にて全ての並行
サブルーチンが実行終了したかチェックし、終了してい
たら０１０４を行って０にリターンし、終了していなけ
れば操作０１０６にて、Queue による実行プロシージャ
の検索を行う。

【００３５】他のプロセッサ１０１、或はリターンプロ
シージャにリターン出来ないプロセッサは、図８に示す
Queue による実行プロシージャの検索操作０１０６を行
う。即ち操作１７０１にて、１５１よりQueue １７に登
録されているプロシージャを検索し、操作９０５にて、
検索したプロシージャへの情報１６を基に該プロシージ
ャへリターンする。

【００３６】以上の操作により図５において、例えば１
００が０１を実行終了後、操作162により０にリターン
した後、０２ではなく０３をコールし、７２０００内の
720の直後のスタック領域にて実行する。また１０１は
０２を７２０２０内の先頭の領域７２０２にて実行して
いるが、０２実行終了時に０３は既に１００が実行中の
場合、同様に操作１６２により０にリターンした後、０
４をコールし、72020内の先頭の領域にて実行する。

【００３７】なお、１６，１７は共有データであり、該
データへのアクセスは排他制御を用いなければならない
ことは言うまでもない。

【００３８】図９は、ブロック単位で割り与えるスタッ
ク領域及びその管理情報の一実施例である。図において
７１はスタック領域管理情報、７１１は実行プロセッサ
へのポインタ、７１２は該スタックが空かどうかを示す
empty_flag、７１３は該スタック領域へのポインタ、７
２はブロック単位で割り与えるスタック領域を表わす。
また、主従関係を有する並行サブル−チン用のスタック
領域は、７２上で７２０，７２１のように連続して実現
される。

【００３９】図１０は並行サブルーチンの実行に必要な
スタック領域７２０の一実施例を示したものである。図
において１６は共有化リターン情報、７２００，７２０
１，…は一般のサブルーチンを実行するのに必要なフレ
ームを表す。

【００４０】並行サブルーチンは図のようにメモリ上
で、一般のサブルーチンを実現する為のフレーム７２０
０，７２００１，…（一般に並行サブルーチンから更に
一般のサブルーチンをコールすることが多いので、フレ
ームは複数個存在する場合が多い）と、該並行サブルー
チンの並列処理制御を行なう為の、共有化リターン情報
１６より構成される。１６は、図のようにスタック領域
７２０上に連続して実現するか、あるいは１６をデータ
領域上に置き、７２０とポインタでリンクする方法が考
えられる。

【００４１】図１１は共有化リターン情報１６の一実施
例である。図において６１２は該並行サブルーチンをコ
ールした、メインルーチン（上位並行サブルーチン）へ
のポインタ、６２１〜６２３は該並行サブルーチンの戻
り先メインルーチンに対するリターン情報で、６２１は
プログラムカウンタ、６２２はフレームポインタ、６２
３は該並行サブルーチンの引数領域幅、６２４は並行サ
ブルーチンが所属するスタック領域の、スタック領域管
理情報７１へのポインタを表わし、これらは該並行サブ
ルーチンに固有の情報である。６３１〜６３４は該並行
サブルーチンへのリターン情報で、６３１はプログラム
カウンタ、６３２はフレームポインタ、６３３はスタッ
クポインタ、６３４は一番最近コールした並行サブルー
チンの引数領域幅、６３５は１番最近リターンした並行
サブルーチンが所属するスタック領域の、スタック領域
管理情報への共有化ポインタを表わし、これらは該並行
サブルーチン自身がコールする、並行サブルーチンによ
って共有化される。６４は該並行サブルーチンが、所属
するスタック領域上で最上位であることを示すフラグ、
６５は該並行サブルーチンの分岐操作段数、６６は該並
行サブルーチンをロックして、同時期には１個のプロセ
ッサしか実行出来なくする為のキーフラグ、６７は該並
行サブルーチンがコールする並行サブルーチンを実行中
のプロセッサカウンタ、６８は該並行サブルーチンが分
岐操作実行状態であることを示すフラグである。また６
９はプロセッサのレジスタ内データを一時退避する為
の、レジスタ退避領域である。

【００４２】図９〜図１１を用いて、以下、図６〜図８
のより詳細な実施例を示す。

【００４３】図１２は、図７の並行サブルーチンの初期
操作８０の動作を示したものである。一連の操作１６２
１はリターンプロシージャ共有化操作１６２による、リ
ターン情報の共有化リターン情報１６への登録操作であ
る。操作８０１により上位ＣＳＲ、即ち戻り先メインル
ーチンへの戻り先プログラムカウンタを上位ＣＳＲのｓ
ｈａｒｅｄ＿ｐｃ６３１に登録する。次に操作８０１
５により自ＣＳＲ、即ち該並行サブルーチンの所属スタ
ック領域管理情報へのポインタ６２４の値として、上位
ＣＳＲが有する共有化リターン情報１６内のスタック領
域管理情報への共有化ポインタ６３５の値を登録する。
また操作８０２により、自ＣＳＲの所属するスタック領
域のスタック領域管理情報のempty_flag７１２がＯＮで
あるか調べ、ＯＮでない場合は操作８０３にて自ＣＳＲ
のtop_flag６４をＯＦＦにし、操作８０４で自ＣＳＲの
引数幅args６２３を求める。そして操作８０５により前
の操作で求めた自ＣＳＲのarg６２３を上位ＣＳＲが有
する１６内のshared_args６３４に登録し、操作８０６
で、上位ＣＳＲが有する１６内のkey ６６をアンロック
する。また操作８０２が真ならば、操作８０７で該empt
y_flag７１２をＯＦＦ、操作８０８にて自ＣＳＲのtop_
flag６４をＯＮにして、操作８０９で自ＣＳＲのargs６
２３を求める。そして操作８０５以降の処理を行なう。

【００４４】なお操作８０６を行なう理由は、操作８０
を実行する直前に必ず操作９０あるいは１６１２にてke
y ６６をロックしている為である。

【００４５】図１３は、図７の並行サブルーチンの終了
操作９０の動作を示したものである。操作９０１で上位
ＣＳＲが有する１６内のkey ６６をＴＡＳ命令等のリー
ド・モディファイ・ライト命令を用いてロックし、他プ
ロセッサが該ＣＳＲにアクセス出来ないようにする。次
に一連の操作１６２２にて、リターンプロシージャ共有
化操作１６２による、共有化リターン情報１６に基づ
く、上位ＣＳＲ（戻り先メインルーチン）へのリターン
操作を行う。まず操作９０２で上位ＣＳＲの分岐操作fl
ag ６８がＯＮであるか調べ、ＯＮならば操作９０３に
て自ＣＳＲのtop_flag６４がＯＮであるか調べ、ＯＮで
ないならば操作９０３１にて上位CSRが有する１６内の
所属スタック領域管理情報への共有化ポインタ６３５の
値を上位ＣＳＲが有する１６内の所属スタック領域管理
情報へのポインタ６２４の値にセットした後、操作９０
４を実行し上位ＣＳＲにリターンする。また６４がＯＮ
ならば、操作９０３２にて上位ＣＳＲが有する１６内の
所属スタック領域管理情報への共有化ポインタ６３５の
値を自ＣＳＲの所属スタック領域管理情報へのポインタ
６２４の値にセットした後、操作９０５により上位ＣＳ
Ｒへリターンする。また操作９０２が偽ならば、操作９
０６にて上位ＣＳＲが有する１６内のprocessor_counte
r６７を１減じる。更に操作９０７で６７が０であるか
調べ、０ならば操作９０８にて自ＣＳＲのtop_flag６４
がＯＮであるか調べ、ＯＮならば操作９０９により時Ｃ
ＳＲの所属スタック領域を解放し、操作９０３１，904
により上位ＣＳＲへリターンする。操作９０８が偽なら
ばそのまま操作９０３１，９０４を実行する。

【００４６】また操作９０７が偽ならば操作９１０にて
上位ＣＳＲが有する１６内のkey６６をアンロックす
る。そして操作９１１で自ＣＳＲのtop_flag６４がＯＮ
であるか調べ、ＯＮならば操作９１２にて所属スタック
領域を実行プロセッサの所有スタック領域として登録、
ＯＦＦならば操作９１３にて実行プロセッサの所有スタ
ックは無しとして、操作０１０６の実行可能プロシージ
ャ検索操作にジャンプする。

【００４７】図１４，図１５はそれぞれ、メインルーチ
ンへのリターン動作９０４，９０５を示したものであ
る。両者とも、リターンプロシージャ共有化操作１６２
によって登録されている、共有化リターン情報１６内の
リターン情報即ち、操作1001にて戻り先プログラムカウ
ンタとして上位ＣＳＲが有する１６内のshared_pc 631
を、操作１００２にて戻り先フレームポインタとして上
位ＣＳＲが有する１６内のshared_fp ６３２を得る。戻
り先スタックポインタは両者では異なり、自CSRと上位
ＣＳＲが同一スタック領域内で連続している前者では、
上位ＣＳＲが有する１６内のshared_sp ６３３を、別の
スタック領域に存在する後者では、自CSRの所属スタッ
ク領域の先頭アドレス７１３を得る。操作１００３，１
１０３がその操作に対応するが、更にメインルーチンに
戻ってから行う、並行サブルーチンの引き数領域分のず
れのリセット操作に備え、上位ＣＳＲが有する１６内の
shared_args ６３４を減じる。そして操作１００４に
て、戻り先プログラムカウンタにジャンプする。

【００４８】図１６は、図６の分岐操作１６１１の動作
を示したものである。操作１２０１で、プロセッサのレ
ジスタ内データを自ＣＳＲの共有化リターン情報１６内
のレジスタ退避領域６９に退避し、操作００１で、並列
処理実行の為の初期設定、即ち自ＣＳＲの段数depth ６
５、プロセッサカウンタprocessor_counter ６７，分岐
操作flag６８の設定を行う。次に操作１４０２にて、自
ＣＳＲへのリターン情報shared_fp６３２，shared_sp６
３３の登録を行う。そして操作００２で、スケジューリ
ング操作１５によってQueue に登録する。

【００４９】図１７は、図６の合流操作１６１２の動作
を示したものである。操作８０を実行した後、操作００
３にて上位ＣＳＲをQueue から削除し、操作００４によ
り上位ＣＳＲが有する１６内の分岐操作flag ６８をＯ
ＦＦにして、上位ＣＳＲは並列処理を終了することを宣
言する。次に操作１５０４にて、図１３の操作９０６以
降の一連の操作を行い、操作１３０１で、自ＣＳＲが有
する１６内のレジスタ退避領域６９内に退避されていた
データを実行プロセッサのレジスタに復帰する。

【００５０】なお並列処理実行時には、分岐・合流操作
時のみにてレジスタの退避・復帰操作を行い、各並行サ
ブルーチンの開始，終了時にはレジスタの退避・復帰操
作は行わない。

【００５１】図１８は、図８の実行可能プロシージャの
検索動作０１０６を示したものである。操作１６０１で
実行プロセッサに所有スタック領域があるか調べ、無い
場合は操作１６０２により新たにブロック単位のスタッ
ク領域７２と、該スタック領域のスタック領域管理情報
７１を確保し、操作１６０３で実行プロセッサの所有ス
タックに登録し、操作１６０４で該スタック領域管理情
報７１の初期設定、即ち実行プロセッサ７１１の登録、
empty_flag７１２をＯＮ、スタック領域７２への先頭ア
ドレス７１３の登録操作を行なう。次に操作１７０１に
てＣＳＲを検索し、操作１６０６にて、検索されたＣＳ
Ｒのprocessor_counter ６７を１増やし、操作１６０７
にて該ＣＳＲの所属スタック領域管理情報へのポインタ
を登録し、操作９０５にて該ＣＳＲに戻る。また操作１
６０１が真ならば、操作１７０１以降より続行する。

【００５２】図１９はＣＳＲを登録する階層Queue の構
成を表す。図において１７は階層Queue 、１７０１，１
７１１，…，１７ｎ１はそれぞれ分岐操作段数に対応す
るQueueである。各Queueは、該Queue をロックするため
のキー、１７０２，1712，…，１７ｎ２を所有する。

【００５３】図２０、図２１は、それぞれ図６の操作０
０２，００３に対応する、階層Queue 登録操作，削除操
作の動作を示したものである。両者とも動作の開始／終
了時に、自ＣＳＲの段数に該当する待ち行列に、ロック
操作１８０１／アンロック操作１８０３を行い、他プロ
セッサが該待ち行列に対し、同様の操作を実行出来ない
ようにする。そして自ＣＳＲを該当する待ち行列に対し
て、前者は登録操作１８０２を、後者は削除操作１９０
２を行う。

【００５４】図２２は、階層Queue 検索操作１７０１の
動作を示したものである。操作2001により段数の小さい
待ち行列から、登録されているＣＳＲを探す。次に操作
2002で、探し出した１ＣＳＲをロックし、他プロセッサ
が該ＣＳＲにアクセス出来ないようにする。そして操作
２００３により該ＣＳＲの活性化flag６８をチェック
し、ＯＮならば操作１６０５は終了、ＯＦＦならば操作
２００４にて該ＣＳＲをアンロックした後、操作２００
１に戻り、初めからやり直す。

【００５５】以下、図２３，図２４を用いて階層Queue
による並列処理の動作例を具体的に説明する。

【００５６】図２３においては、ツリーが分岐・合流操
作からなる並列処理を意味し、各ノードは並行サブルー
チンに対応する。１００〜１０２はプロセッサ、７２０
〜７２２はスタック領域である。図は、プロセッサ１０
０が並行サブルーチン０→０１→０１１→０１１１の順
番に実行し、現在０１１１を実行中であることを示して
いる。更にこれらの並行サブルーチンは、スタック領域
７２０を連続的に拡張することにより共有している。他
のプロセッサについても同様である。図２４は、図２３
における階層Queue へのプロシージャ登録状況を示した
ものである。段数１のQueue (1）１７１１に、プロシ
ージャ０１，０２が、段数２のQueue(2）１７２１に０
１１，０２１が登録されている。

【００５７】ここで、図２３のプロセッサ１０２が、並
行サブルーチン０３の処理を終えるとする。１０２はリ
ターンプロシージャ共有化操作により、メインルーチン
０にリターンしようとするが、０では実行すべき並行サ
ブルーチンは既に存在せず、且つ他プロセッサが０がコ
ールした並行サブルーチンを実行中なので、０にリター
ン出来ない。そこで優先度の一番高いプロシージャ、即
ち階層Queue に登録されている一番段数の浅いプロシー
ジャ０１にアクセスし、０１の並行サブルーチン０１２
をスタック領域７２２上で実行する。

【００５８】このように、なるべくツリーの根本に近い
プロシージャより実行することで、該プロシージャ以降
のサブツリーを１つのプロセッサで単独で実行する可能
性が高くなり、Queue より実行すべきプロシージャを見
つけ出す操作回数が低減する。

【００５９】

【発明の効果】本発明によれば、分岐かつ合流操作から
なる並列処理プログラムにおいて、並列処理実行時に伴
う並列実行制御操作によるオーバーヘッドを低減でき
る。本発明による効果を示す為に、図２５，図２６に
て、クイックソートの並列処理プログラムを従来方法と
発明方法で実現した場合のオーバーヘッドを比較する。
両図は共に、３３ＭＨｚ動作のモトローラ社製マイクロ
プロセッサ６８０３０×４台構成の密結合マルチプロセ
ッサを想定して、クイックソートプログラムを両方法で
実行させた時のオーバーヘッド予測値である。本予測値
は、両方法の並列実行制御を実現する操作プリミティブ
を作成し、各操作プリミティブ実行時間を実機にて測定
し、該プログラムを実行した場合のオーバーヘッドを該
実測値を基に算出したものである。

【００６０】図２５は、該プログラムを実行させた場合
の、並列処理単位当りのオーバーヘッドを表したグラフ
である。縦軸が該オーバーヘッド，横軸が該プログラム
の並列処理単位数を表す。図より発明方法は、従来方法
と比較して並列処理単位数１００以上で、オーバーヘッ
ドがおよそ４０％低減することが期待出来る。

【００６１】図２６は、図２５における並列処理単位数
１００時のオーバーヘッドの内訳を示したものである。
スタック領域生成操作によるオーバーヘッドは、スタッ
ク領域の共有化により無視出来る程に低減される。但し
クイックソートでは、各メインルーチンより分岐される
並行サブルーチン数は並列処理では最小値の２である
為、スケジューリング操作によるオーバーヘッドで１６
％の低減、またレジスタ退避／復帰操作等のコンテクス
ト切り替え操作によるオーバーヘッドで５３％の低減に
留まることが予想される。しかしメインルーチン当りの
分岐される並行サブルーチン数の多いプログラムに対し
ては、リターンプロシージャ共有化操作により、オーバ
ーヘッドは更に低減されることが期待される。

【図面の簡単な説明】

【図１】本発明の全体構成図。

【図２】従来の並列処理方法の動作例を表す図。

【図３】従来の並列処理方法の分岐・合流操作を表すフ
ローチャート。

【図４】従来の並列処理方法の各プロセッサの基本動作
を表すフローチャート。

【図５】本発明の、並列処理方法の動作例を表す図。

【図６】本発明による並列処理プログラム例。

【図７】並行サブルーチンの処理を表すフローチャー
ト。

【図８】実行可能プロシージャ検索操作の概略を表すフ
ローチャート。

【図９】スタック領域管理情報とスタック領域の一実施
例。

【図１０】共有化リターン情報と並行サブルーチンのス
タック領域の一実施例。

【図１１】共有化リターン情報の一実施例。

【図１２】並行サブルーチンの初期操作の動作を表わす
フローチャート。

【図１３】並行サブルーチンの終了操作の動作を表わす
フローチャート。

【図１４】メインルーチンへのリターン操作の動作を表
わすフローチャート１。

【図１５】メインルーチンへのリターン操作の動作を表
わすフローチャート２。

【図１６】分岐操作の動作を表わすフローチャート。

【図１７】合流操作の動作を表わすフローチャート。

【図１８】実行可能プロシージャ検索操作の動作を表す
フローチャート。

【図１９】階層Queue 構成図。

【図２０】階層Queue 登録操作の動作を表わすフローチ
ャート。

【図２１】階層Queue 削除操作の動作を表わすフローチ
ャート。

【図２２】階層Queue 検索操作の動作を表わすフローチ
ャート。

【図２３】階層Queue による並列処理の動作例を表す第
１の図。

【図２４】階層Queue による並列処理の動作例を表す第
２の図。

【図２５】本発明の効果を表す図である。

【図２６】本発明の効果を表す図である。

【符号の説明】

１００〜１０２…プロセッサ、１１…メモリ、１１０…
プロセス用メモリ空間、１２…通信線、１３０〜１３
２，０，０１〜０５，０１１，０１２，０２１，０１１
１，０２１１…並行プロシージャ、１４０，１４１…ス
タック領域確保、１５…スケジューラ、１５０，１５１
…Queue 登録、１６…共有化リターン情報、１６０，１
６１…分岐・合流操作、１６２…リターンプロシージャ
共有化、１８…並列実行制御、７２００，７２００１…
フレーム、７１…スタック領域管理情報、７１１…実行
プロセッサへのポインタ、７１２…空フラグ、７１３…
スタック領域へのポインタ、７２，７２０，７２１，７
２０１〜７２０５，72000，７２００５…スタック領
域、６１２…メインルーチンへのポインタ、６２１…プ
ログラムカウンタ、６２２…フレームポインタ、６２３
…引数領域幅、６２４…所属スタック領域管理情報への
ポインタ、６３１…共有プログラムカウンタ、６３２…
共有フレームポインタ、６３３…共有スタックポイン
タ、６３４…共有引数領域幅、６３５…所属スタック領
域管理情報への共有化ポインタ、６４…最上位フラグ、
６５…分岐操作段数、６６，１７０２〜１７ｎ２…ロッ
ク用キーフラグ、６７…プロセッサカウンタ、６８…分
岐操作フラグ、６９…レジスタ退避領域、１７…階層Qu
eue、１７１，１７２，１７０１〜１７ｎ１…Queue。

Claims

【特許請求の範囲】

【請求項１】複数の並列実行可能な処理単位より構成さ
れる並列処理プログラムを並列処理システム上で並列実
行させる為の並列実行制御操作を有する並列処理方法に
おいて、該並列実行制御操作は、該処理単位の実行順序
制御を行なうスケジューリング操作として、該処理単位
を待ち行列に登録して、該待ち行列より実行すべき処理
単位を選び出す待ち行列操作と、該処理単位実行後に戻
るべき処理単位を該処理単位間で共有化する共有化操作
を有し、該処理単位実行時に使用するデータを格納する
スタック領域の確保操作として、メモリ空間中で未使用
の部分からブロック単位で生成確保する操作と、既に確
保されている他処理単位のデータ格納の為のスタック領
域の未使用部分を確保する操作を有することを特徴とす
る並列処理方法。
【請求項２】請求項１において、待ち行列操作は、待ち
行列を複数個有する階層待ち行列を使用し、該待ち行列
への登録対象を少なくとも１つ以上の並列実行可能な処
理単位を生成できる状態の処理単位とし、該並列処理プ
ログラム実行開始時より該処理単位が生成されるまでに
行なわれた処理単位生成操作の段数を優先度として、該
優先度に対応する段数の待ち行列に登録され、該段数の
小さい待ち行列に登録されている処理単位より優先して
実行することを特徴とする並列処理方法。
【請求項３】請求項１において、共有化操作は、該操作
が使用する共有情報としてプログラムカウンタ，スタッ
クポインタ，フレ−ムポインタを有することを特徴とす
る並列処理方法。
【請求項４】請求項１において、共有化操作は、該操作
が使用する共有情報として処理単位の引数領域幅を有す
ることを特徴とする並列処理方法。
【請求項５】請求項１において、並列実行可能な処理単
位は、該処理単位を実行するスタック領域上で先頭であ
るかどうかを示す情報を有することを特徴とする並列処
理方法。
【請求項６】請求項１において、スタック領域確保操作
によって生成確保されるスタック領域は、該スタック領
域の管理情報を有することを特徴とする並列処理方法。