JPH09171503A

JPH09171503A - 並列処理方法および並列処理装置

Info

Publication number: JPH09171503A
Application number: JP8184626A
Authority: JP
Inventors: Guy E Blelloch; イー．ブレルロッチガイ; Phillip B Gibbons; ビー．ギボンズフィリップ; Yossi Matias; マティアスヨッシ
Original assignee: LE-SENTO TECHNOL Inc; Lucent Technologies Inc
Current assignee: LE-SENTO TECHNOL Inc; Nokia of America Corp
Priority date: 1995-07-14
Filing date: 1996-07-15
Publication date: 1997-06-30
Also published as: EP0753812A3; US5768594A; CA2181099A1; US6434590B1; EP0753812A2; CA2181099C

Abstract

(57)【要約】【課題】並列プログラミング言語における演算コス
ト、特に、プログラムが実行する演算の総数（ワーク）
と、依存性の最長シーケンス長（深さ）を、時間と空間
の双方の観点から減少させる。【解決手段】本発明の並列処理方法は、処理のために
タスクの逐次順序を決定するステップと、可能なタスク
に対して前記逐次順序に基づいてプライオリティを割り
当てる割当てステップと、利用可能な並列処理エレメン
トの総数よりも多い数のタスクを最高プライオリティを
有する可能なすべてのタスクから選択する選択ステップ
と、前記選択されたタスクを前記利用可能な並列処理エ
レメントの数と等しい数のグループに分割する分割ステ
ップと、前記並列処理エレメントにおいて前記タスクを
実行する実行ステップとからなる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明はパラレル（並列）プ
ロセッサによって実行されるタスクをスケジューリング
する方法およびその手段に関し、特に、アサインメント
（割当て）マネージャの制御下で複数個の機能ユニット
におけるオペレーションのコンカレント（同時）実行に
関する。

【０００２】

【従来の技術】従来技術に係るデータ処理システムにお
いては、インストラクションシーケンス（命令列）が一
度に一つずつ実行されている。コンピュータの実行速度
を増大させる目的で、アルゴリズムにおけるプリミティ
ブなオペレーション、あるいはタスク、の並列処理を実
行するマルチプルプロセッサが用いられる。この種の並
列化には、シーケンシャルオペレーションの場合よりも
実質的により多くの（メモリ）空間が必要とされる。

【０００３】

【発明が解決しようとする課題】数多くの並列プログラ
ミング言語により、個別の機能ユニットにおける並列処
理が可能になっている。これらの言語の目的は、ユーザ
に完全な並列処理を提供し、それら言語に並列処理のプ
ロセッサへのインプリメンテーションをさせることであ
る。この種のオペレーションのコストは、概念的には、
プログラムによって実行されるオペレーションの総数、
すなわち、“ワーク”と、依存の最長シーケンス長、す
なわち“深さ”（デプス）によって測られる。この種の
配置における性能異常は非常に一般的である。インプリ
メンテーションに用いられた論法は、しばしば失敗す
る。この種のシステムは、時間と空間の双方の観点か
ら、必ずしもよい性能を提供するとは限らない。

【０００４】本発明の目的は、この種の方法および手段
を改良することである。

【０００５】

【課題を解決するための手段】本発明の種々の特徴によ
れば、前記目的が、処理に係るタスクのシーケンシャル
な順序の決定、プライオリティの前記シーケンシャルな
順序付けに基づく可能なタスクへの割当て、最高のプラ
イオリティを有する可能なすべてからの、利用可能な処
理エレメントの総数よりも大きい個数のタスクの選択、
選択されたタスクの利用可能な並列処理エレメントの個
数と等しい数よりなるグループへの分割、および並列処
理エレメントにおけるタスクの実行、によって達成され
る。

【０００６】本発明に係るこれらおよびその他の側面は
特許請求の範囲において指摘されている。本発明のその
他の目的および利点は、添付図とともに本明細書を読み
込むことによって明らかとなる。

【０００７】

【発明の実施の形態】図１は、本発明の実施例を示すブ
ロック図である。ここで、プリプロセッサＰＰ１は、入
力されたプログラムを翻訳（コンパイル）し、例えば機
械語レベルのインストラクション（命令）などの、実行
に適した形態にする。本発明の実施例に従って、プリプ
ロセッサＰＰ１はオプションであり、省略されることも
可能である。入力プログラムは、タスクが並列処理によ
って実行されるべきであることを明らかにするが、それ
らタスクのプロセッサへの割当て（マッピング）を行わ
ないある種のプログラミング言語の形態を有するあらゆ
るシーケンシャルプログラムである。このプログラム
は、タスクの組およびそれらの間の関係が、プログラム
の入力データによって決定され（すなわち入力データに
依存し）、それがそのプログラムの入力データの並列処
理の間にのみ明らかになるようなものである。

【０００８】アサインメント（割当て）マネージャＡＭ
１は、スケジューリングされることが可能なタスクを決
定し、これらのタスクのサブセットを、図２に示されて
いる処理エレメントＰＥ１およびルータＲＴ１を有する
システムＳＹ１に対して割り当てる。詳細に述べれば、
割当てマネージャＡＭ１は、それぞれの処理エレメント
によって実行されるべき可能なタスクの組を供給する。
それぞれの処理エレメントＰＥ１に対して、ルータＲＴ
１は、割当てマネージャＡＭ１によって供給された実行
されるべきタスクの組をそれぞれの処理エレメントＰＥ
１内のタスクバッファ（図示せず）に対してルーティン
グする。システムＳＹ１内のそれぞれの処理エレメント
ＰＥ１は、そのタスクバッファ内のタスクのインストラ
クションを実行し、タスクが完了した際には割当てマネ
ージャＡＭ１に通知する。割当てマネージャＡＭ１は、
実行されるべきプログラムタスクがさらに存在する限
り、かつ、プログラムが完了していない限り、その機能
を継続する。

【０００９】処理エレメントＰＥ１は、並列プログラム
のタスクがオペレートする入力データを受信する。その
後、処理エレメントＰＥ１はプログラム出力データを出
力する。

【００１０】図３は、図２に示されたシステムＳＹ１の
別な実施例を示している。ここでは、処理エレメントＰ
Ｅ１の機能は、計算エレメントＣＥとメモリエレメント
ＭＥに分割されている。ルータＲＴ１は、割当てマネー
ジャＡＭ１から、計算エレメントＣＥとメモリエレメン
トＭＥの形態を有する処理エレメントＰＥ１宛にタスク
をルーティングする。それぞれの計算エレメントＣＥ
は、ルータＲＴ１を介して、メモリエレメントＭＥ（あ
るいはメモリエレメントＭＥのサブセットのみ）内のロ
ケーションを読み書きする。

【００１１】図４は、処理エレメントＰＥ１の詳細を示
した図である。ここでは、ルータインターフェースＲＩ
１が、タスクバッファＴＢ１、プロセッサＰＲ１、およ
びメモリＭＥ１をそれぞれ互いに接続している。タスク
は、割当てマネージャＡＭ１によってタスクバッファＴ
Ｂ１に配置される。プロセッサＰＲ１がアイドリング状
態にある場合には、プロセッサＰＲ１はタスクをタスク
バッファＴＢ１から読み出して実行することができる。

【００１２】タスク実行の完了に関連して、処理エレメ
ントＰＥ１から割当てマネージャＡＭ１へのフィードバ
ックが存在する。本発明の一実施例に従って、この種の
フィードバックは、タスクあるいはタスクの組が完了す
ると発生する。その後、処理エレメントＰＥ１は割当て
マネージャＡＭ１宛にルータＲＴ１を介してアクノレッ
ジ信号を送出する。本発明の別の実施例に従うと、処理
エレメントＰＥ１は、アクノレッジ信号を、割当てマネ
ージャによって読み出され得る個別のタスクバッファ宛
に出力する。

【００１３】メモリエレメントＭＥ１は、プロセッサＰ
Ｒ１が利用可能なメモリを含んでいる。本発明の望まし
い実施例においては、プロセッサは、ルータＲＴ１を介
して通信を行うことによって、他の処理エレメントＰＥ
１内に存在するメモリエレメントＭＥ１のあるロケーシ
ョンを読み書きすることが可能である。タスクバッファ
ＴＢ１は、メモリエレメントＭＥ１内に存在することも
可能であり、また、個別のメモリデバイスであることも
可能である。

【００１４】図１に示された割当てマネージャＡＭ１の
詳細が図５に示されている。ここでは、タスクキューＴ
Ｑ１が、スケジューリング可能なタスクの組（それらの
すべてである必要はない）を含んでいる。タスク割当て
器ＴＡ１は、タスクキューＴＱ１からタスクを読み取
り、それらを処理エレメントＰＥ１を含むシステムＳＹ
１に割り当て、それぞれの処理エレメントＰＥ１に係る
タスクバッファＴＢ１中にゼロあるいは複数個のタスク
よりなる組を供給する。

【００１５】タスクキューおよびステータスバッファマ
ネージャ（ＴＳＭ）ＢＭ１は、タスクをタスクキューＴ
Ｑ１に追加する。タスクキューおよびステータスバッフ
ァマネージャＢＭ１は、スケジューリング可能なタスク
を決定するために、タスクキューＴＱ１およびステータ
スバッファＳＢ１を利用する。ステータスバッファＳＢ
１は、タスク間の関係、例えば完了に際して同期が取ら
れなければならないタスク、に関する必要な情報を有し
ている。タスクキューおよびステータスバッファマネー
ジャＢＭ１は、タスクキューＴＱ１およびステータスバ
ッファＳＢ１を更新する目的で、処理エレメントＰＥ１
を含むシステムＳＹ１から得られたプログラムおよびフ
ィードバック情報を利用する。

【００１６】タスクは、そのタスクの実行の前に完了さ
れなければならない先行タスクが存在しない場合に実行
可能である。すなわち、ある種のタスクは、単一あるい
は複数個の先行タスクが完了するまでは実行されること
が出来ない。この種のタスクは、先行拘束を有している
と言われる。この種のタスクは、それに関連する先行拘
束タスクのすべてが完了した時点で実行可能になる。あ
る種のタスクは、始めから、完了を必要とする先行タス
クを有さない。この種のタスクは、スタート時から実行
可能である。

【００１７】単一のプロセッサとともに用いられること
が企図されたシーケンシャルプログラムは、プログラム
のそれぞれのタスクに対してインストラクションシーケ
ンス中でのタスクの順序を識別するコードすなわちキャ
ラクタリゼーションを指定する、シーケンシャルスケジ
ューラを通常利用する。よって、それぞれのタスクは、
スケジュール中の順序を識別する表示を有することにな
る。

【００１８】本発明に係る方法は、並列処理が可能なタ
スクのサブセットを選択する目的で、シーケンシャルス
ケジューリングにおけるタスクの順序を利用する。すな
わち、本発明に係る方法は、シーケンシャルスケジュー
リングにおいてより早い時点で可能になったタスクに対
してより高いプライオリティを割り当てることによっ
て、並列処理が可能なタスクよりなるサブセットを選択
する。

【００１９】図６は、図１から図４において示されたシ
ステムのオペレーションを示す流れ図である。ステップ
５０４において、プログラムがプリプロセッサＰＰ１に
ロードされる。ステップ５０７において、プリプロセッ
サＰＰ１は、システム内の特定のエレメントに適するよ
うな形態にプログラムを翻訳する。ステップ５１０にお
いては、割当てマネージャＡＭ１がスケジューリング可
能なタスクを決定し、ステップ５１４において、タスク
を、図７および図８に示された流れ図に示されているよ
うに、処理エレメントに割り当てる。ステップ５１７に
おいては、処理エレメントＰＥ１がタスクを実行し、ス
テップ５２０において、割当てマネージャＡＭ１がプロ
グラムが完了したか否かを調べる。完了した場合には、
割当てマネージャＡＭ１はオペレーションを停止する。
完了していない場合には、割当てマネージャはオペレー
ションをステップ５１０へ戻して続行する。

【００２０】ステップ５１４の詳細が図７に示されてい
る。ステッ６０４において、割当てマネージャＡＭ１
は、プログラム中のすべてのタスクに係る、本発明に係
る方法の開始時点で予め選択された特定のシーケンシャ
ルスケジューラによって決定された順序に従って、スケ
ジューリング可能なタスクにプライオリティを割り当て
る。このスケジューラは、例えば１ＤＦＴ(depth first
traversal)スケジューラ等の公知のものである。ＤＦ
Ｔスケジューラは、以下、“理論”の項で議論される。
シーケンシャルスケジューラは、現時点でスケジューリ
ング可能なタスクに関して機能するのみならず、プログ
ラムの並列実行とは独立なシーケンシャル実行によって
決定されるすべてのタスクに対しても機能する。

【００２１】本発明の一実施例に従って、割当てマネー
ジャＡＭ１は、並列にオペレート可能な複数個のプロセ
ッサを有している。別の実施例においては、割当てマネ
ージャＡＭ１は、並列処理を実行する複数個の処理エレ
メントＰＥ１を用いる。

【００２２】ステップ６０７においては、割当てマネー
ジャＡＭ１は、割り当てられた最高のプライオリティを
有する可能なタスクのうちからＮ個のタスクを選択す
る。ここで、Ｎは、通常、処理エレメントの個数よりも
大きく、また可能なタスクの最大数よりも小さいが、必
ずしもそうである必要はない。

【００２３】ステップ６１０においては、割当てマネー
ジャＡＭ１は、Ｎ個の選択されたタスクを、それぞれ
（Ｎ／ｐ）程度の大きさを有するｐ個のグループに分割
する。ここで、ｐは利用可能な処理エレメントＰＥ１の
個数である。ステップ６１４においては、割当てマネー
ジャＡＭ１は、それぞれのグループをそれぞれ処理エレ
メントＰＥ１のうちの一つに割り当てる。

【００２４】本発明の一実施例に従って、割当てマネー
ジャＡＭ１は複数個のパラレルプロセッサを有してい
る。割当てマネージャＡＭ１は、ステップ６０４、６０
７、６１０、および６１４に示されたそれぞれの機能
を、一群の並列処理として実行する。割当てマネージャ
が複数個のパラレルプロセッサを有していない場合に
は、それぞれの機能を通常のシーケンスで実行する。

【００２５】本発明の別の実施例は、選択されたタスク
の数Ｎが、過剰なメモリを占有してしまうことがない程
度な大きさであることを保証するように機能する。この
目的のために、ステップ６０７において選択されるタス
クの数Ｎに対して制限Ｌが置かれる。割当てマネージャ
ＡＭ１は、タスク群に対して常時利用可能なメモリ、お
よびこのタスク群に対して予約可能なメモリ、に基づい
て、選択されるタスクの数Ｎに制限Ｌを指定する。Ｌの
値は利用可能なメモリに従って変化する。あるいは、制
限Ｌは、プログラムの開始時に指定され入力される。も
し可能なタスク数Ｍが数Ｌ以上である場合には、Ｎ＝Ｌ
とセットされ、処理はステップ６１０へ進む。Ｍ＜Ｌで
ある場合には、処理はステップ６１０へ進む。

【００２６】図８は、本発明の別の実施例の流れ図であ
り、割当てマネージャＡＭ１のオペレーションの詳細を
示した図である。ステップ７０４において、割当てマネ
ージャＡＭ１内のタスクキューおよびバッファマネージ
ャＢＭ１（図５）が、最初のプログラムインストラクシ
ョンを読み取り、プログラムの開始時点で準備が整って
いるタスクの組を決定する。ステップ７０７において、
タスクキューおよびバッファマネージャＢＭ１は、これ
らのタスクの適切な記録を保持するためにステータスバ
ッファＳＢ１を初期化する。ステップ７１０において、
タスクキューおよびバッファマネージャＢＭ１は、バッ
ファ内のタスクにプライオリティを割り当て、記録に基
づいてステータスバッファＳＢ１内に存在するものから
高いプライオリティを有する準備が整ったＮ個のタスク
をタスクキューＴＱ１に配置する。本発明の別の実施例
に従うと、プライオリティの割当てはステータスバッフ
ァＳＢ１によって実行される。ステップ７１４において
は、タスク割当て器ＴＡ１が、タスクをタスクキューＴ
Ｑ１から削除して、それぞれの処理エレメントＰＥ１に
係るタスクバッファＴＢ１にＮ／ｐ個の相異なったタス
クを供給する。本発明のさらに別の実施例に従うと、プ
ライオリティの割当てはタスク割当て器ＴＡ１において
実行される。ステップ７１５においては、処理エレメン
トＰＥ１がタスクを実行する。

【００２７】次いで、ステップ７１７において、タスク
キューおよびバッファマネージャＢＭ１に対して、処理
エレメントＰＥ１よりなるシステムＳＹ１が、割り当て
られたタスクを完了したことを通知する。ステップ７２
０においては、タスクキューおよびバッファマネージャ
ＢＭ１がプログラムおよびフィードバック情報を用いて
ステータスバッファＳＢ１を更新し、新たに準備が整っ
たタスクの記録を含める。ステップ７２４においては、
タスクキューおよびバッファマネージャＢＭ１が、すべ
てのタスクが完了したか否かを確認する。完了している
場合にはオペレーションが終了し、完了していない場合
にはオペレーションはステップ７１０へ戻る。

【００２８】図９は、ステップ７１４の別の実施例を示
す流れ図である。このステップは、ステップ７１０に引
き続くものである。ステップ７５０においては、タスク
割当て器ＴＡ１がタスクキューＴＱ１からタスクを削除
する。本発明の一実施例に従って、タスクに対してはス
テップ７１０においてバッファマネージャＢＭ１あるい
はタスクキューＴＱ１によって既にプライオリティが割
り当てられており、タスクマネージャＴＡ１は高いプラ
イオリティを有するタスクのみを受信する。

【００２９】本発明の別の実施例に従うと、タスク割当
て器ＴＡ１はプライオリティを割り当てる。ステップ７
５４においては、タスク割当て器ＴＡ１が、その複雑さ
に基づいてタスクに重み付けを行う。ステップ７５７に
おいては、タスク割当て器ＴＡ１は、重み付けに基づい
て、選択されたタスクを複数個の利用可能な処理エレメ
ントＰＥ１からなるグループに分け、それぞれのグルー
プの総重み付けすなわち複雑さが、その時点で処理を行
うことに係る処理エレメントＰＥ１の能力に適合してい
るようにする。処理エレメントＰＥ１とその能力が同一
である場合には、タスク割当て器ＴＡ１は、選択された
タスクを、複数個の利用可能な処理エレメントＰＥ１の
間で重みがほぼ等しいようなグループに分割する。ステ
ップ７６０においては、タスク割当て器ＴＡ１は、タス
ク群をそれぞれの処理エレメントＰＥ１のタスクバッフ
ァＴＢ１に供給する。その後、処理は、ステップ７１５
へと戻る。

【００３０】図１０は、図５に示されたステータスバッ
ファＳＢ１の実施例を示す図である。ステータスバッフ
ァＳＢ１は、レディタスクマルチウェイスタックＲＳ１
およびタスクステータスサポートバッファＴＳＳＢ１を
有している。これらは、図１１および１３に示された割
当てマネージャＡＭ１のオペレーションの実施例におい
て用いられる。

【００３１】図１１のステップ９０４においては、割当
てマネージャＡＭ１内のタスクキューおよびバッファマ
ネージャＢＭ１（図５）が初期プログラムインストラク
ションを読み取り、プログラムの開始時点で準備が整っ
ているタスクの組を決定する。ステップ９０７において
は、タスクキューおよびバッファマネージャＢＭ１はこ
れらのタスクをレディタスクマルチウェイスタックＲＳ
１に、および、適切な記録をタスクステータスサポート
バッファＴＳＳＢ１にそれぞれ配置する。

【００３２】ステップ９１０においては、タスクキュー
およびバッファマネージャＢＭ１が、レディタスクマル
チウェイスタックＲＳ１内に存在している最初のＮ個の
タスクをタスクキューＴＱ１に配置する。ステップ９１
０のオペレーションの一部として、タスクキューおよび
バッファマネージャＢＭ１はバッファ内のタスクにプラ
イオリティを割り当て、タスクキューＴＱ１内に、記録
に基づいて、ステータスバッファＳＢ１のタスクステー
タスサポートバッファＴＳＳＢ１内に存在しているタス
クの内から準備が整っておりかつ高いプライオリティを
有するタスクをＮ個配置する。

【００３３】本発明の別の実施例に従うと、プライオリ
ティの割当ては、ステータスバッファＳＢ１のバッファ
ＴＳＳＢ１によって実行される。ステップ９１４におい
ては、タスク割当て器９１４はタスクキューＴＱ１から
タスクを削除し、それぞれの処理エレメントＰＥ１に係
るタスクバッファＴＢ１にＮ／ｐ個の相異なったタスク
を供給する。本発明のさらに別の実施例に従うと、プラ
イオリティの割り当ては、タスク割当て器ＴＡ１におい
て発生する。ステップ９１５においては、処理エレメン
トＰＥ１がタスクを実行する。

【００３４】ステップ９１７においては、タスクキュー
およびバッファマネージャＢＭ１に対して、処理エレメ
ントＰＭ１よりなるシステムＳＹ１が、割り当てられた
すべてのタスクが完了したことを通知する。ステップ９
２０においては、タスクキューおよびバッファマネージ
ャＢＭ１がプログラムおよびフィードバック情報を用い
てタスクステータスサポートバッファＴＳＳＢ１を適切
に更新し、新たに生じたタスクの記録を含める。

【００３５】その後、処理は図１２のステップ９５０へ
進む。ステップ９５０においては、タスクキューおよび
バッファマネージャＢＭ１がタスクステータスサポート
バッファＴＳＳＢ１情報を利用して、新たに準備が整っ
たタスクを決定する。ステップ９５４においては、タス
クキューおよびバッファマネージャＢＭ１がレディタス
クマルチウェイスタックＲＳ１を更新し、準備が整った
タスクすべてをＤＦＴ（デプスファーストトラバーサ
ル、深さ優先走査）順に含ませる。ステップ９５７にお
いては、すべてのステップが実行されたという観点でプ
ロセスが完了したか否かが調べられる。完了していない
場合には、処理はステップ９１０へ戻る。完了している
場合には処理は終了する。

【００３６】図１３は、ステップ９１４の別の実施例を
示す流れ図である。これらのステップは、ステップ９１
０に引き続くものである。ステップ９８０においては、
タスク割当て器ＴＡ１はタスクをタスクキューＴＱ１か
ら削除する。本発明の一実施例に従うと、タスクに対し
てはステップ９１０においてバッファマネージャＢＭ１
あるいはタスクキューＴＱ１によってプライオリティが
割り当てられており、タスク割当て器ＴＡ１は高いプラ
イオリティを有するタスクのみを受け取る。別の実施例
に従うと、タスク割当て器ＴＡ１はプライオリティを割
り当てる。

【００３７】ステップ９８４においては、タスク割当て
器ＴＡ１が、複雑さに基づいて、タスクの重み付けを行
う。ステップ９８７においては、タスク割当て器ＴＡ１
１は、重み付けに基づいて、選択されたタスクを、利用
可能な処理エレメントＰＥ１よりなるグループに、それ
ぞれのグループの総重みすなわち複雑さがほぼ等しくな
るように分割する。ステップ９９０においては、タスク
割当て器ＴＡ１はタスク群をそれぞれの処理エレメント
ＰＥ１に係るタスクバッファＴＢ１に供給する。その
後、処理はステップ９１５へ戻る。

【００３８】図１から図５に示された本発明の別の実施
例に従うと、割当てマネージャＡＭ１は、シーケンシャ
ルな（すなわち集中された）インプリメンテーションか
パラレルな（すなわち分散された）インプリメンテーシ
ョンのいずれかを有することが可能である。パラレルイ
ンプリメンテーションは、処理エレメントＰＥ１よりな
るシステムＳＹ１上、あるいは個別のシステム上で実行
される。ステータスバッファマネージャＢＭ１とタスク
割当て器ＴＡ１の動作は、処理エレメントＰＥ１によっ
て、あるいはパラレルプロセッサの個別の組によって、
それぞれ実行されうるものであり、タスクキューＴＱ１
およびタスクステータスバッファＳＢ１はタスクキュー
およびステータスバッファマネージャＢＭ１内あるいは
個別のメモリメモリデバイス内においてインプリメント
され得る。図１から図５に示されたエレメントは、所定
の機能を実行するディスクリート素子の形態を有する
か、あるいはプロセッサか、もしくは複数個のプロセッ
サの一部である。

【００３９】本発明は、並列処理可能なタスクの組を選
択し、シーケンシャルスケジュール中でより早くから利
用可能になったタスクに対してより高いプライオリティ
を割り当てることによって、並列処理に係るメモリ要求
を低減している。本発明のプロセスは、それぞれのプラ
イオリティに基づいて、タスク群を並列処理エレメント
に供給する。

【００４０】処理は、新たなタスクを生成すると、その
タスクを生成した親タスクのスケジュール順序に従って
タスクを配置する。本発明の別の実施例に従うと、シー
ケンシャルスケジュール中での順序が、生成されたタス
クに対する位置を予約し、生成されたタスクがその位置
に配置される。

【００４１】理論本発明は、以下に記述される理論的背景に基づいてい
る。ここで、時間と空間（すなわちメモリ）の双方の観
点から、性能の限界を保証するための役に立つ汎用のイ
ンプリメンテーションを規定する。これらは、実行時
間、およびワーク、デプスおよびシーケンシャル空間の
関数としてのインプリメンテーションの空間に上限を設
定することによって規定される。ここでは、ワーク、デ
プスおよび空間の表示法を、計算が進むに連れて動的に
展開する有向非巡回グラフ（ＤＡＧ、閉路を含まない有
向グラフ）として計算をモデル化することによって定式
化する。ＤＡＧは、R.D.Blumofe and C.E.Leiserson, i
n Proc. 25th ACM Symp. on Theory of Computing, pag
es 362-371, May 1993およびR.D.Blumofe and C.E.Leis
erson, Scheduling multithreaded computation by wor
k stealing, in Proc. 35th IEEE Symp. on Foundation
s of Computer Science pages 356-368, November 1994
という論文に記載されている。

【００４２】ＤＡＧにおけるノード（節点）は単位ワー
クタスクを表現しており、エッジ（辺）は、タスク間
の、インプリメンテーションの際に考慮されなければな
らない順序の依存関係を表現している。これは非常に一
般的なモデルであり、（J.J'aJ'aによるAn Introductio
n to Parallel Algorithms, Addition-Wesley, Readin
g, MA, 1992に記述されている並列クイックソート等の
ような）タスクストラクチャあるいはデータ間の依存関
係が計算が実行されていくに連れて初めて明らかになる
ようなプログラムをもモデル化することが可能である。
計算のワークはＤＡＧ内のノードの個数に対応し、デプ
スはＤＡＧ内の最長経路に対応する。メモリ使用法を考
慮するために、ＤＡＧのそれぞれのノードに対して、そ
のノードが割り当てたり割り当て解除したりすることが
必要なメモリ量を表現する重みが割り当てられる。その
後、計算に係るシーケンシャル空間が、入力空間にその
ＤＡＧのデプスファーストトラバーサル（ＤＦＴ）（標
準的なシーケンシャルインプリメンテーションによって
なされるトラバーサル）によって必要とされる空間を加
えたものとして定義される。

【００４３】図１４は、有向非巡回グラフとして表現さ
れた（“ｎ＝４”に対応する）行列乗算のタスクストラ
クチャを示した図である。ノードＮ０１は単位ワークタ
スクを表現しており、エッジＥＤ１（この図においては
下向きであると仮定されている）はタスク間の制御およ
び／あるいはデータフローを表現している。このグラフ
のレベル毎スケジュール法は、このグラフの最大幅レベ
ルにおいて必要とされるｎ³個の中間結果を保持するた
めに、プログラム変数に対して“Ｏ（ｎ³）”個の空間
を必要とする。さらに、このようなスケジュール法は、
スケジュールされ得る準備が整ったタスクを追跡するた
めに、タスク予約に関してＯ（ｎ³）個の空間を必要と
する可能性がある。ここで、このグラフの標準的なデプ
スファーストシーケンシャルスケジュール法では、入力
および出力行列に必要となる空間をも考慮して、わずか
Ｏ（ｎ²）個の空間しか用いないことに留意されたい。

【００４４】プロセッサを良好に利用するあらゆる並列
スケジュール法は、ほとんど常に、シーケンシャルイン
プリメンテーションにおけるものとは相異なった順序で
タスクをスケジューリングする。このことにより、（そ
れぞれの段階において準備が整っているタスクの組の最
大のものを追跡するために）タスク予約に関連して必要
とされるメモリと（割り当てられてはいるが未だ割当て
解除されていない変数の組の最大のものを保持する目的
で）プログラム変数を割り当てるために必要となるメモ
リ量の双方の増大をもたらす。

【００４５】効率的なスケジューリングを実現するため
に、動的に展開するあらゆるＤＡＧに関して空間および
ステップ数の双方において恐らく効率的である並列スケ
ジューリングのクラスがまず識別される。計算がワーク
“Ｗ”およびデプス“Ｄ”を有していて“Ｓ₁”シーケ
ンシャル空間を必要とする場合に、このクラスに属する
“ｐ”プロセッサスケジューリング法は以下の利点を有
している。

【００４６】このスケジューリング法においては、最大
“Ｗ／ｐ＋Ｄ”ステップが存在する。これは、すべての
スケジューリング法に関して可能な最良のものと比較し
て常にファクタ２以内に収まっている。充分な並列性
（すなわち、“Ｗ／ｐ＞＞Ｄ”）を有するプログラムに
関しては、最良で“１＋ｏ（１）”のファクタ内に収ま
る。計算は、“Ｓ₁＋Ｏ（ｐ・Ｄ）”の空間を利用する
のみである。これには、プログラム変数に係る空間およ
びタスク予約に係る空間が含まれる。よって、充分な並
列性（すなわち、“Ｗ／ｐ＞＞Ｄ”）を有するプログラ
ムに関しては、“Ｓ₁”が最小サイズの入力であること
を思い出すと、これはシーケンシャル空間の“１＋ｏ
（１）”のファクタ内に収まる。このことは、公知の限
界、例えば“Ｓ₁・ｐ”（例えば、F.W.Burton, Storage
management in virtual tree machines, IEEE Trans.
on Computers, 37(3):321-328, 1988; および、前掲の
R.D.Blumofe and C.E.Leisersonによる文献、およびF.
W.Burton and D.J.Simpson, Space efficient executio
n of deterministic parallel programs, 草稿、１９９
４年１２月）すなわちシーケンシャル空間のファクタ
“ｐ”倍、とは異なっている。

【００４７】これらの制限は、個別のタスクが常に一定
量のメモリを割り当てる場合に適用される。単位ワーク
タスクがメモリを任意量割り当てる場合には、同一の空
間制限が最大“（Ｗ＋Ｓ₁）／ｐ＋Ｄ”ステップを用い
て得られ、一般には、空間とステップとの間のトレード
オフ関係が存在する。空間制限は、例えば、行列乗算に
必要とされるメモリが“Ｓ₁＋Ｏ（ｐｌｏｇｎ）”で
あることを意味しており、これはすべての“ｏ（ｎ²／
ｌｏｇｎ）内のｐ”に関する最良値のファクタ“１＋
ｏ（１）”内に収まっている。上記制限は、スケジュー
リング法をインプリメントする際のオーバーヘッドを考
慮していない。

【００４８】（例えば前掲のR.D.Blumofe and C.E.Leis
erson, Space-efficient scheduling of multithreaded
computations, in Proc. 25th ACM Symp. on Theory o
f Computing, pages 362-371, May 1993,に記載されて
いる）共通のアプローチは、ＤＡＧのそれぞれのステッ
プにおいて“ｐ”個の独立のノードを可能な限り貪欲に
スケジューリングすることである。ここで、“ｐ”はプ
ロセッサの個数である。

【００４９】希望される空間制限を求めるために、プロ
グラム変数に対するメモリの増大を制限することに注意
が集中している。なぜなら、本発明に係る解は、タスク
予約に係るメモリの増大を制限することも可能であるか
らである。個別のノードにその必要とするメモリ量を表
わすラベルを付することにより、前述されたR.D.Blumof
e and C.E.Leisersonに係る文献に記述されているよう
な、計算における巣レッド全体に関してメモリ要求量を
関連付けるこれまでのモデルよりも、より詳細なメモリ
割り当てが可能になる。ブロックメモリ割り当て、例え
ばアレイ、は、その重みが、その割り当てられるべきブ
ロックの大きさであるようなノードによって表現され
る。

【００５０】基本的な疑問は、すべての計算ＤＡＧに関
する良好な空間制限を有する（貪欲な）並列スケジュー
リング法はどれかということである。第一のキーポイン
トは、与えられたシーケンシャルスケジュールに基づい
て並列スケジュールのクラスを規定し、シーケンシャル
スケジュールが並列スケジュールに対するスケジューリ
ングプライオリティを命ずるようにすることである。

【００５１】並列スケジューリングは、与えられたシー
ケンシャルスケジューリング法には基づいてはいるが、
通常、シーケンシャルスケジューリングに関連しては、
それぞれのステップにおいて希望される並列性を実現す
る目的で、ノードをアウト・オブ・オーダーで（すなわ
ち早期に）スケジューリングする。第二のキーポイント
は、これらの“早期”ノードに注目することであり、
“ｐ”個のプロセッサによるスケジューリング法のあら
ゆるステップにおいてこれらの早期ノードの数が最大で
ＤＡＧのデプス、“Ｄ”、の“ｐ”倍であることを注意
深い議論で示すことである。このことは、すでに示され
た低い方の制限と一致しており、シーケンシャルスケジ
ューリング法に基づく並列スケジューリング方の利用を
正当化するものである。

【００５２】第三のポイントは、空間に対する要求に制
限を与える目的で、早期ノードの数に係るこの制限を利
用することである。計算のそれぞれの並列ステップにお
いて、それぞれの早期ノードは、これらのノードによっ
て実行される付加的な割り当てのためおよびスケジュー
ルされ得る準備が整ったすべてのノードを追跡する目的
により、シーケンシャルスケジューリングにおいて必要
とされる空間以上の空間を必要とする。早期ノードが必
要とする余分の空間がそのノード数と比例関係にあるこ
とを保証するアプローチが示されている。最大で“ｐ・
Ｄ”個の早期ノードが存在するため、“Ｓ₁＋Ｏ（ｐ・
Ｄ）”という空間制限が得られる。ここで、“Ｓ₁”は
シーケンシャルスケジューリングに必要となる空間であ
る。

【００５３】上記結果は、シーケンシャルスケジューリ
ングに基づくあらゆる並列スケジューリングに適用され
る。標準的なシーケンシャルスケジューリングはＤＡＧ
のデプスファーストトラバーサル（ＤＦＴ）であるた
め、定義および考察が、“ｐ”−ＤＦＴスケジューリン
グに対して与えられる。これは、シーケンシャルデプス
ファーストスケジューリングに基づく並列スケジューリ
ングのクラスである。並列ＤＦＴを規定するために考慮
されるべき方法は数多く存在する。図示されている定義
は恐らく良好な性能制限を与えることになる。このスケ
ジューリング法は、“ｐ”−ＤＦＴスケジューリング法
と呼称されるものであるが、それぞれのステップにおい
て最も深いノードに対してプライオリティを与えるよう
なスケジューリングとは異なっている。

【００５４】効率的なスケジューリングプロセスを実現
するために、種々の定義が必要とされる。本明細書にお
いて定義される、並列スケジューリングにおける“ｐ”
−ＤＦＴクラスは、標準的なシーケンシャルデプスファ
ーストトラバーサルに対して、時間および空間の双方に
おいて効率的である。第二の主要な結果は、ネスティン
グされた粒度の細かい並列性を有する言語（直並列ＤＡ
Ｇに通ずる言語）に関して、“ｐ”−ＤＦＴスケジュー
リングを生成する効率的なランタイム（オンライン）ス
ケジューリングアルゴリズムである。以下に、“ｐ”−
ＤＦＴスケジューリングをインプリメントするために必
要とされるプロセッサ割り当ておよびタスク同期が、プ
ロセッサによって最小の時間でかつ最小のオーバーヘッ
ドでどのように実行されるかが記述される。“Ｗ”個の
ワーク、“Ｄ”個のデプス、および“Ｓ₁”個のシーケ
ンシャル空間に係る計算に関しては、これらのオーバー
ヘッドを含むスケジューリング計算の結果、以下の制限
が得られる。すなわち、ＥＲＥＷＰＲＡＭに関しては
“Ｏ（Ｗ／ｐ）＋Ｄ・ｌｏｇｐ）”時間が得られ、高
い確率を有する同一の時間制限が、超三次（ハイパーキ
ュービック）の、ＥＲＥＷスタイルの計算（すなわち、
同時に読み書きがなされないもの）に関して得られる。
より強いＣＲＣＷＰＲＡＭに関しては、アルゴリズム
を変形することにより、ワーストケースで“Ｏ（Ｗ／ｐ
＋Ｄ・ｌｏｇｌｏｇｐ）”時間が得られ、あるいはＣ
ＲＣＷスタイルの計算（すなわち同時読み書きがコスト
レスで許可されている場合）に関しては、より高い確率
で“Ｏ（Ｗ／ｐ＋Ｄ・ｌｏｇｐ）”時間が得られる。こ
れらのワーク効率の高いスケジューリング法は、“Ｔｈ
ｅｔａ（Ｓ１＋Ｄ・ｐｌｏｇｐ）”あるいはそれより
少ない空間しか用いない。タスクがメモリを任意量割り
当てることが可能な場合には、シーケンシャル実行時間
（すなわち“Ｏ（Ｗ）内のＳ₁”）に関してシーケンシ
ャル空間が最悪線型である限りは、同一の制限が得られ
る。

【００５５】これらの結果は、ネストされ得るものとさ
れ得ないものの双方を含むほとんどすべてのデータ並列
言語、さらには任意のファンアウトおよび任意のネステ
ィングを許可するものを含む、分岐−結合型並列性を実
現する大部分の言語に適用されるものである。

【００５６】まず第一に、考慮している言語のクラスに
関して、計算のタスクストラクチャは、動的に進展する
直列−並列ＤＡＧであり、ある個数のノードは任意のフ
ァンアウトを有し（ソースノードと呼称される）、その
他の対応するノードは任意のファンインを有している
（シンクノードと呼称される）ことを理解する。次に、
この種のＤＡＧに対して、単純なスタックに基づく並列
スケジューリングアルゴリズムにより、“ｐ”−ＤＦＴ
スケジュールおよびプロセッサがどのようにタスクに対
して割り当てられるべきかに係る規定が得られることを
理解する。よって、シーケンシャルスケジューリングに
基づく並列スケジューリングは、シーケンシャルスケジ
ュールを知ることなく高速に構成され得ることになる。
このアルゴリズムは、シーケンシャルデプスファースト
スケジューリングをあらわに構成するために必要とされ
る速度の低下を回避する。

【００５７】単純なスタックに基づくアルゴリズムに加
えて、スタック空間に係る制限を得る、レイジースタッ
ク割り当てを用いる修正されたアルゴリズムが与えられ
ている。さらに、ネスティングされた並列性計算におけ
る未知かつ変化する再帰的ネスティングレベルとノード
において可能な大きなファンインが与えられると、スケ
ジューリング可能になるノードを効率的に識別すること
が困難になる。ここでは、この問題が、シンクノードに
係るタスク同期問題として指摘される。次のキーポイン
トは、このタスク同期問題に関する効率的なアルゴリズ
ムである。ここでは、“ｐ”−ＤＦＴスケジューリング
の直列−並列ＤＡＧに係る性質が、本発明に係るアルゴ
リズムおよびそのデータストラクチャの正確さ、さらに
そのリソース制限を議論するために用いられる。

【００５８】本発明に係る、スタックに基づくスケジュ
ーリングアルゴリズムは、スケジューリングのそれぞれ
のラウンドにおいて、並列プリフィックス総和演算を固
定回数、およびＥＲＥＷＰＲＡＭステップを固定回
数、それぞれ実行する。これらのスケジューリングオー
バーヘッドを“償却”するために、スケジューリングデ
プスがプロセッサの個数よりも大きいような並列ＤＦＴ
を実行することによって、ラウンド毎に各プロセッサに
対して複数個のタスクを割り当てる。このことにより、
時間および空間の複雑が増大するが、並列ワークが最適
値から一定ファクタ倍以内に収まっていることが保証さ
れる。さらに、適切なプリフィックス総和を用いるスケ
ジューリングアルゴリズムが、よりパワフルなＣＲＣＷ
ＰＲＡＭモデルに関して時間の複雑さを改善するため
に用いられ得ることが示される。

【００５９】本発明が依拠している理論は、動的に展開
するＤＡＧとしての計算に基づいており、ＤＡＧに係る
与えられたスケジュールに従ってプログラムを実行する
ために必要とされる空間を測定するために用いられる一
般的なモデルを含む、計算ＤＡＧおよびそのスケジュー
リングを記述する術語を用いる。本明細書においては、
標準的なグラフ理論に基づく術語が用いられる（例え
ば、T.H.Cormen, C.E.Leiserson, and R.L.Rivest, Int
roduction to Algorithms, McGraw-Hill, New York, N
Y, 1990,を参照）。

【００６０】有向非巡回グラフ“Ｇ”を考える。“ｐ≧
１”に対する“Ｇ”の“ｐ”個のトラバーサル（すなわ
ち“ｐ”個のスケジュール）は、“τ≧１”ステップよ
りなるシーケンスである。ここで、それぞれのステップ
“ｉ”、“ｉ＝１，...，τ”はノード“Ｖ_i”（このス
テップにおいてスケジューリングされたノード）の組を
規定しており、以下の３つの性質が成り立つ。すなわ
ち、（ｉ）それぞれのノードはスケジュール内で正確に
一度現れる；（ｉｉ）ノードは、その直前のノードがそ
れ以前のステップにおいてスケジューリングされた後に
のみスケジューリングされる；および（ｉｉｉ）それぞ
れのステップは、最大“ｐ”個のノードから構成され
る。“Ｇ”のトラバーサル（すなわちスケジューリン
グ）は、ある“ｐ”に関する“Ｇ”の“ｐ”トラバーサ
ル（すなわち“ｐ”スケジュール）である。

【００６１】“Ｇ”のトラバーサル“Ｔ＝Ｖ₁，...，Ｖ
_T”を考える。“Ｇ内のノードｖ”は、“ｖ”が“Ｖ₁
ｃｕｐ・ｓｃｕｐＶ_i-1”内に現れる場合に、
“Ｔ”のステップ“ｉ”よりも先にスケジューリングさ
れる。スケジューリングされていないノード“ｖ”は、
その直前のノードすべて（そのすべての親ノードと等価
である）がステップ“ｉ”以前にスケジューリングされ
ている場合に、“Ｔ”内のステップ“ｉ”においてスケ
ジューリングされる準備が整っている。“Ｔ”内のステ
ップ“ｉ”における“Ｇ”の最前線は、“ｉ”以前にス
ケジューリングされた、スケジューリングされていない
子ノードを有するすべてのノードの組である。“貪欲
な”“ｐ”トラバーサル（R.D.Blumofe and C.E.Leiser
son, Space-efficient scheduling of multithreaded c
omputations, in Proc. 25th ACM Symp. on Theory of
Computing, pages 362-371, May 1993,を参照）とは、
それぞれのステップ“ｉ”において、少なくとも“ｐ”
このノードが準備が整っている場合には、“｜Ｖ_i｜＝
ｐ”であり、“ｐ”より少ない数のノードが準備が整っ
ている場合には，“Ｖ_i”が準備が整ったすべてのノー
ドから構成されるようなトラバーサルである。

【００６２】デプスファースト１トラバーサル（ＤＦＴ
あるいは１−ＤＦＴ）は、準備が整ったノードのスタッ
クを管理することによって得られる。スタックは、ルー
とノードを含むように（あらゆる順序で）初期化されて
おり、それぞれのステップにおいて、スタックの最上部
に位置するノードが読み出され（すなわちポップされ）
てスケジューリングされ、新たに準備が整ったノードが
スタックの最上部に（あらゆる順序で）配置（プッシ
ュ）される。ＤＦＴの“ｉ”番目のノードは、ＤＦＴ番
号“ｉ”を有していると呼称される。

【００６３】（ソースおよびシンクが１つずつの）直列
−並列ＤＡＧは以下のように規定される。グラフ
“Ｇ₀”は単一のノード（これはソースノードでもあり
シンクノードでもある）から構成された、エッジを有さ
ない直列−並列ＤＡＧである。“Ｇ₁”および“Ｇ₂”が
直列−並列である場合には、“Ｇ₁ ｃｕｐＧ₂”に対
してシンクノード“Ｇ₁”からソースノード“Ｇ₂”への
ディレクテッドエッジを追加することによって得られる
グラフは直列−並列である。“Ｇ₁，...，Ｇ_k”、“ｋ
≧１”が直列−並列である場合には、“Ｇ₁ ｃｕｐ
・ｓｃｕｐＧ_k”に対して、ソースノード
“Ｇ₁，...，Ｇ_k”へのディレクテッドエッジを有する
新たなソースノード“ｕ”を追加すること、およびシン
クノード“Ｇ₁，...，Ｇ_k”からのディレクテッドエッ
ジを有する新たなシンクノード“ｖ”を追加すること、
によって得られるグラフは直列−並列である。よって、
ノードは、１より大きい入射度（ｉｎｄｅｇｒｅｅ）あ
るいは出射度（ｏｕｔｄｅｇｒｅｅ）を有することはあ
るが、双方を有することはない。ソースノード“ｕ”
は、“ｉ≠ｊ”なる場合に“Ｇ_i中のｗ”および“Ｇ_j中
のｗ’”というノードよりなるあらゆるノード対に関し
て最低共通ソースノードである。

【００６４】シーケンシャルスケジューリングに基づい
た並列スケジューリングに関して、“ｐ”トラバーサ
ル、すなわち“Ｔ_p”が、“ｋ_i≦ｐ”なる“ｋ_i”に対
して、“Ｔ_p”のそれぞれのステップ“ｉ”において、
当該ステップ“ｉ”において準備が整った“Ｔ₁”内の
“ｋ_i”個の最先ノードがスケジューリングされる場合
に、１トラバーサルに基づいているものと定義される。
言い換えれば、準備が整っているすべてのノード“ｕ”
および“ｖ”に関して、“Ｔ₁”において“ｕ”が
“ｖ”に先立つものである場合には、双方がスケジュー
リングされるか、双方がスケジューリングされないか、
あるいは“ｕ”のみがスケジューリングされるかのいず
れかである。与えられた１トラバーサルに関して、その
１トラバーサルに基づいた“ｐ”トラバーサルが一意的
に定義されることに留意されたい。

【００６５】考慮すべき重要な“ｐ”トラバーサルは、
デプスファースト“ｐ”トラバーサルである。デプスフ
ァースト“ｐ”トラバーサル（“ｐ”−ＤＦＴ）は、デ
プスファースト１トラバーサルに基づく“ｐ”トラバー
サルである。一例が図１５に示されている。一般に、１
トラバーサルに基づいて“ｐ”トラバーサルをインプリ
メントするためには、“ｐ”トラバーサルのそれぞれの
ステップにおいて、準備が整っているノード間での１ト
ラバーサル間の相対的な順序を決定するための方法が必
要になる。

【００６６】図１５は、“ｐ＝３”の場合のＤＡＧ
“Ｇ”の“ｐ”−ＤＦＴを示している。“Ｇ”中の左側
のノードＮＯ２には、“Ｇ”の１−ＤＦＴの順序で番号
が付されている。右側では、“Ｇ”は、１−ＤＦＴに基
づく“ｐ”−ＤＦＴ、“Ｔ_p”に従ってラベルが付され
ている。ここで、“ｉ＝１，...，７”に関して“Ｔ_p＝
Ｖ₁，...，Ｖ₇”であり、“Ｖ_i”はステップ“ｉ”にお
いてスケジューリングされるノードの組であって図中で
は“ｉ”というラベルが付されたノードの組である。

【００６７】以下の説明は、動的に展開するＤＡＧに係
るものである。ここでは、計算が、プログラムが与えら
れた入力に関して実行されるに従って動的に展開するＤ
ＡＧとしてモデル化される。これまでの解析（例えば、
C.H.Papadimitriou and M.Yannakakis, Towards an arc
hitecture-independent analysis of parallel algorit
hms, in Proc. 20th ACM Symp. on Theory of Computin
g, pages 510-513, May 1988; R.D.Blumofe and C.E.Le
iserson, Space-efficient scheduling of multithread
ed computations, in Proc. 25th ACM Symp. on Theory
of Computing,pages 362-371, May 1993; R.D.Blumofe
and C.E.Leiserson, Scheduling multithreaded compu
tations by work stealing, in Proc. 35th IEEE Symp.
on Foundations of Computer Science, pages 356-36
8, November 1994）におけるのと同様、計算に係るＤＡ
Ｇがノードがスケジューリングされる順序に依存しない
という意味において、プログラムが決定論的であること
を仮定する。計算中のそれぞれの単位ワークタスクに関
してＤＡＧ中にノードが存在するが、これをタスクとと
もに識別する。エッジは、タスク間のあらゆる順序依存
関係を表わしている。プログラムが“ｕ”が“ｖ”より
も以前に実行されなければならないことを命ずる場合に
は、ＤＡＧ内に“ｕ”から“ｖ”への経路が存在する。
この種の順序付けは、データあるいは制御の依存関係に
基づくものである。（例えば、“ｕ”が“ｖ”を産み出
す場合には、“ｕ”は“ｖ”が読み出す値を書き込み、
“ｖ”は“ｕ”における出力に条件的に依存して実行さ
れ、あるいは“ｖ”は同期ポイントにおいて“ｕ”を待
機する。）ノードは任意の入射度および出射度を有す
る。プログラムは、ノードから出射するエッジの順序を
定義すると仮定されている。ここで、本発明に係るＤＡ
Ｇがデータフローグラフとは相異なっていることに留意
されたい。なぜなら、ノード“ｕ”から“ｖ”へのデー
タフローエッジは、“ｕ”から“ｖ”への別の経路が存
在する場合にはＤＡＧ中に含まれる必要がないからであ
る。ＤＡＧは順序間の拘束条件を厳密に表現しており、
データフローを表現している訳ではない。

【００６８】ＤＡＧは、以下のような意味で動的に展開
する。すなわち、（ｉ）ノードがスケジューリングされ
ると、その出射エッジが明らかになる、および、（ｉ
ｉ）すべての入射エッジが明らかになると、そのノード
が表現しきられたことになり、スケジューリングされ得
るようになる。

【００６９】動的に展開するＤＡＧに係るオンラインス
ケジューリングアルゴリズムにおいては、それぞれのス
テップにおけるスケジューリング決定は、ＤＡＧの表現
しきられたノードおよびエッジにのみ基づいている。初
期状態では、ルートノードのみが表現しきられており、
アルゴリズムは、新たなノードが表現しきられた場合に
は、それらをスケジューリングするために検出しなけれ
ばならない。

【００７０】ＤＡＧのデプスは、計算の並列デプス
“Ｄ”である。ＤＡＧ中のノード数は、計算中の単位ワ
ークタスクの総数、“Ｗ”、である。プログラムが決定
論的であるために、“Ｄ”および“Ｗ”はトラバーサル
の順序に依存しない。ここで、決定論的プログラムでさ
えもランダム化されたアルゴリズムに基づき得ることに
留意されたい。このような場合には、ＤＡＧは、プログ
ラムに対する入力データの一部として見られるランダム
ビットの値に依存する。本発明に係る結果は、非決定論
的プログラム、例えば競争条件を有するようなプログラ
ム、に対しても拡張可能であるが、その制限は、すべて
のトラバーサルに係るワーストケースＤＡＧに基づいて
いる。

【００７１】空間モデルに関して、ここでは２つの空間
カテゴリが考慮される。すなわち、（ｉ）タスクがスケ
ジューリングされた場合に当該タスクによって規定され
るプログラム変数空間；これには、タスク表現（“スタ
ックフレーム”）用の空間およびあらゆる動的メモリ利
用が含まれる；および、（ｉｉ）スケジューリング可能
なノードを追跡する目的でスケジューリングアルゴリズ
ムによって用いられるタスク予約空間；である。

【００７２】プログラム変数空間は、入力を保持するた
めのメモリ、スタックフレーム用メモリ、プログラムイ
ンストラクションによってあらわに割り当てられたメモ
リ、およびプログラムによって計算された値を保持する
ために陰に割り当てられたメモリである。入力空間は予
め割り当てられたメモリブロック内に存在することが仮
定されている。残りの変数空間は、個別のタスクによっ
て割り当てられる。ここでは、タスクによって割り当て
られるメモリの量がＤＡＧのトラバーサルに依存しな
い、ということを仮定する。割り当て解除に関しては、
この種の仮定は、もはや必要とされない値に対して割り
当てられていたメモリを自動的に割り当て解除するカー
ベジコレクションに依存する言語に対しては、過剰な拘
束条件である。特に、ある値に対するメモリは、その値
を参照した最後のタスクが完了するとすぐに割り当て解
除されることが可能になる。よって、このような割り当
て解除はタスクの組、すなわちその値を参照するタスク
の組に関連しており、スケジューリングされるべきその
ようなタスクのうちの最後のタスクが割り当て解除に関
する重要な役割を担っている。

【００７３】計算におけるあらゆる時点において、用い
られるプログラム変数空間は、入力空間にスケジューリ
ングされたタスクによって割り当てられた空間の総和を
加えたものからスケジューリングされたタスクによって
割り当て解除された空間の総和を減じたものである。こ
こで、それぞれのタスク“ｕ”に対して重み“ｗ
（ｕ）”を割り当てる。これは、タスクによって割り当
てられた空間量から割り当て解除された量を減じたもの
である。本明細書においては、この重みはノードをスケ
ジューリングする以前にスケジューラに対して利用可能
であること、あるいは、デプスが増大させられた場合に
は、ノードがひとたび割り当てられた後には割り当てに
係る重みとホールドオフを知ることが可能となる、とい
うことを仮定する。“ｐ≧１”なる“ｐ”トラバーサル
のプレフィックス“Ｔ＝Ｖ₁，...，Ｖ_j”に関して、
“Ｓｐａｃｅ（Ｔ）”を定義する。これは、“Ｔ”後に
用いられているプログラム変数空間が

【数１】となるものである。ここで、“ｎ”は入力を保持するた
めに必要とされる空間量である。この定義はプールされ
ている共通メモリを仮定しており、割り当て解除された
空間はすべてその後の割り当てによって再使用され得
る。さらに、単一のステップにおいて割り当てられたす
べてのタスクに係る空間についての全体としての影響の
みを考慮することによって、タスクが割り当てや割り当
て解除を実行することによる、そのステップ内でのメモ
リ使用量の揺らぎを無視する。この種の揺らぎは、希望
する場合には、それぞれのノードを、一方が割当てを行
って他方が割当て解除を行うような２つに分割すること
によって取り扱うことが可能である。

【００７４】空間の複雑さ、すなわち“ｐ”トラバーサ
ル、“Ｔ_p＝Ｖ₁，...，Ｖ_T”に係る最大空間は、（Ｓ_p
＝ｍａｘ_j=1,...,T｛Ｓｐａｃｅ（Ｖ₁，...，
Ｖ_j、）｝、すなわちトラバーサルのあらゆるステップ
の後に用いられている最大空間、として定義される。

【００７５】タスク予約に関しては、ＤＡＧ内のタスク
“ｕ”に関連して識別されているノードが一定サイズを
有しており、さらにそれぞれのエッジが一定サイズであ
ることが仮定されている。ここで、あるノードから出射
する、（あらわになった）エッジよりなるシーケンス、
“Ｓ”、を考える。“Ｓ”のすべての連続するサブシー
ケンスは、そのサブシーケンス内の最初および最後のエ
ッジをストアすることによって、一定空間内にコンパク
ト（ｃｏｍｐａｃｔ）に表現され得る。しかしながら、
エッジは、その他方の端点におけるノードを識別するた
めに用いられ得る前に、それ自体の一定ストレージが割
り当てられなければならない。ノードに係る予約空間は
そのノードがスケジューリングされ得るようになる前に
割り当てられなければならず、かつ、そのノードがスケ
ジューリングされた後に割り当て解除が可能になる。こ
こで、スケジューリングアルゴリズムがあるステップに
おけるＤＡＧのあらわになったノードおよびエッジのす
べてにその決定を基づかせることが可能であるにもかか
わらず、すべてのノードおよびエッジをストアする必要
がないことに留意されたい。実際、必要とされるのは、
スケジューリングアルゴリズムに係る希望されるリソー
ス制限の範囲内で準備が整ったノードを識別してスケジ
ューリングすることが可能であるために充分な数のノー
ドおよびエッジのみをストアすることである。

【００７６】本発明に係る計算モデルをその空間モデル
とともに定義するためになされた仮定は、大部分の粒度
の細かい言語に関してリーズナブルである。例えば、モ
デルはＮＥＳＬプログラムの実行を正確に反映する。

【００７７】巨大な割り当ての処理：本発明に係るア
プローチは、“ｋ”メモリを割り当てるそれぞれのノー
ドを、その最後のものがサイズ“ｋ”の実際の割当てを
実行する、“ｋ／ｍ”ダミーノードとして取り扱うこと
である。

【００７８】１トラバーサルに基づいた欲張りな“ｐ”
トラバーサルは、空間およびステップ数の双方に関して
効率的である。この種の“ｐ”トラバーサルをインプリ
メントする際には、それぞれのステップにおいて準備が
整っているノードに関して１トラバーサルの相対的な順
序を決定するための方法、および、スケジューリングさ
れたタスクをプロセッサに割り当てて準備が整っている
ノードを識別する技法が必要とされる。この節では、特
定の“ｐ”トラバーサル、デプスファースト“ｐ”トラ
バーサルを高速にインプリメントするアルゴリズムが提
供される。前節の結果から、“ｐ”−ＤＦＴが考察すべ
き最も興味深いトラバーサルであると考えられる。なぜ
なら、並列トラバーサルによって用いられる空間と標準
的なシーケンシャルトラバーサルによって用いられる空
間との直接的な比較を可能にするからである。

【００７９】本発明に係るスケジューリングアルゴリズ
ムは、動的に展開する直列−並列ＤＡＧに対して適用さ
れる。この種のＤＡＧは、ネスティングされた分岐−結
合型の並列性に係る言語から自然に生ずる。これには、
ほとんど統べてのデータ並列言語（ネスティングされ得
るものおよびされ得ないもの）および多くのその他の言
語が含まれる。これらのＤＡＧにおけるソースノード
は、複数個の子タスクを分岐すなわち産み出すタスクに
対応する。それぞれのソースノードは、それぞれのステ
ップにおいて任意の個数のタスクを産み出す。このこと
により、ソースノードをバイナリファンアウトに制限す
る場合よりも、より浅いＤＡＧが可能になる。しかしな
がら、この方法により、タスクのスケジューリングおよ
びその同期が複雑になる。データの依存関係は、ノード
間で、直列−並列ＤＡＧにおける経路によって順序付け
られる。

【００８０】本発明に係る計算モデルにおいては、ノー
ドから出射するエッジが順序付けられていることが仮定
されており、ここで、標準的な１−ＤＦＴがこの“左か
ら右への”順序を利用することが仮定される。さらに、
あるノードのそれぞれの子ノードがそれぞれの兄弟ノー
ド間での、“左から右へ”という順序付けに対応するそ
のインデックスを有していること仮定する。最後に、あ
るノードから出射されるエッジの数が、そのエッジに対
して空間が割り当てられる以前に、そのノードがスケジ
ューリングされた時点で明らかになることが仮定され
る。本発明に係るスケジューリングアルゴリズムは、ス
ケジューリングのそれぞれのラウンドに関して、一定数
のＥＲＥＷＰＲＡＭステップ（J'a J'aによる前掲文
献参照）および一定数のプレフィックス総和計算（R.E.
Ladner and M.J.Fischer, Parallelprefix computatio
n, Journal of the ACM, 27:831-838, 1980を参照）を
実行する。

【００８１】スタックに基づくスケジューリングアルゴ
リズムは、直列−並列ＤＡＧに係る“１”−ＤＦＴの以
下の性質を利用する。直列−並列ＤＡＧ“Ｇ”の１−Ｄ
ＦＴを考え、“ｕ”および“ｖ”を“Ｇ”における順序
付けがなされていない、かつ“ｕ”が“ｖ”よりもより
低いＤＦＴ番号を有するノードとする。すると、ＤＦＴ
は、“ｖ”あるいは“ｖ”のあらゆる派生ノードを訪れ
る前に、“ｕ”のあらゆる派生ノードであって“ｖ”の
派生ノードではないノードを訪れることになる。

【００８２】証明は、“ｕ”および“ｖ”の最低共通ソ
ースノードに係る以下の観察による。“ｗ”を、１−Ｄ
ＦＴ順序における“ｋ＞１”個の子ノード“ｃ₁，...，
ｃ_k”を有する、Ｇ内におけるソースノードとし、
“ｗ’”をその関連するシンクノードとする。“ｉ＝
１，...，ｋ”に対して、“Ｇ_i”を、“ｃ_i”と“ｃ_i”
の派生ノードであって“ｗ’”の上流ノードでもあるす
べてのノードとから構成される、“Ｇ”のサブグラフと
する。すると、ノード“ｗ”、“Ｇ₁”のすべて、
“Ｇ₂”のすべて，...，“Ｇ_k”のすべて、およびノー
ド“ｗ’”、は、１−ＤＦＴの連続するサブシーケンス
となる。

【００８３】レディノードアルゴリズム。ここで、ノ
ードが準備が整った時点、すなわちその最終親ノードが
スケジューリングされた時点を識別可能であると仮定す
る。動的に展開する直列−並列ＤＡＧ“Ｇ”を考える。
ここで、“Ｒ”を、“Ｇ”のルートノードを初期に含ん
でいるアレイとする。以下の２つのステップが、“Ｇ”
内のすべてのノードがスケジューリングされるまで反復
される。（１）“Ｒ”から最初の“ｍｉｎ（ｐ，｜Ｒ
｜）”個のノードをスケジューリングする。この際、
“Ｒ”内の“ｉ”番目のノードをプロセッサ“ｉ”に割
り当てる。（２）新たにスケジューリングされたノード
を、アレイ“Ｒ”内における左から右へという順序に従
って、その準備が整った子ノードと置換する。

【００８４】上記レディノードアルゴリズムは、“Ｇ”
の１−ＤＦＴに基づいた“ｐ”ＤＦＴを生成する。ここ
で、帰納法により、“ｐ”ＤＦＴのステップにおいて以
下の不変量が存在することが示される。“Ｒ”は、正確
に準備が整ったノードよりなる組であり、“Ｒ”内のノ
ードはその１−ＤＦＴ数に基づいて最低から最高へと順
序付けられており、および、スケジューリングされたノ
ードは“Ｇ”の“ｐ”ＤＦＴのプリフィックスである。
初期状態では、ルートノードが唯一準備が整ったノード
であり、この不変量は基本となる場合に関して成立して
いる。この不変量がステップ“ｔ≧１”の直前まで成り
立っていると仮定する。この仮定の下に、この不変量が
ステップ“ｔ”の後にも成り立つことが示される。この
不変量によって、“Ｒ”がステップ“ｔ”の直前におい
て準備が整ったノードを含み、かつそれらのノードが１
−ＤＦＴによって順序付けられているため、レディノー
ドアルゴリズムは、準備が整ったノードを最低ＤＦＴ数
とともにスケジューリングする。第二に、ステップ
“ｔ”の最後において、“Ｒ”は正確に準備が整ったノ
ードを含んでいる。なぜならスケジューリングされたノ
ードは“Ｒ”から除去され、新たに準備が整ったノード
はこのステップにおいてスケジューリングされた親ノー
ドを有し、よって“Ｒ”に追加されるからである。第三
に、ステップ“ｔ”の最後において、“Ｒ”内のノード
は１−ＤＦＴによって順序付けられている。これを見る
には、“Ｒ”内のノードが“Ｇ”においては順序付けら
れていないことを見ればよい。よって、直列−並列ＤＡ
Ｇに関連して述べられた前記性質によって、ノード
“ｕ”を置換する左から右へという順序付けがなされた
子ノードは、ステップ“ｔ”の直前において“Ｒ”内で
“ｕ”の右に存在していたあらゆるノード“ｖ”や
“ｖ”の子ノードよりも低いＤＦＴ数を有することにな
る。従って、帰納法により、このレディノードアルゴリ
ズムは“Ｇ”の“ｐ”ＤＦＴを生成することになる。

【００８５】以下は、Ｐレディノードアルゴリズムに関
連している。後者においては、本発明の実施例に従っ
て、それぞれの準備が整ったノードに関して、その親ノ
ードのうちの一つだけがストアされる。ここで、あるノ
ード“ｖ”の最終親ノードを、“ｖ”が準備が整うよう
になったステップにおいてスケジューリングされた、
“ｖ”の親ノードのうちの最も左にあるものと定義す
る。“ｖ”がソースノードである場合には単一の親ノー
ドしか有さないため、このような親ノードを区別するこ
とはシンクノードに関してのみ必要である。リソース要
求に関する制限を設定するために、準備が整ったノード
が、それらが直後のステップにおいてスケジューリング
される予定になった場合にのみデータストラクチャ中に
組み込まれる、レイジー割り当てを用いる。この節の残
りにおいては、Ｐレディノードアルゴリズムおよびデー
タストラクチャが詳細に議論される。

【００８６】Ｐレディアレイ：データストラクチャの
主要コンポーネントは、準備が整ったそれぞれのノード
に関する最終親ノードを保持しているアレイである“フ
ロンティア”である。詳細に述べれば、“フロンティ
ア”中には２つのタイプのノードが存在する。（ｉ）少
なくとも一つのスケジューリングされていないソース子
ノードを有するスケジューリングされたソースノード。
ここで、これらのスケジューリングされたノードの子ノ
ードは準備が整っていることに留意されたい。および、
（ｉｉ）スケジューリングされていない、準備が整った
子ノードの最終親ノードであるスケジューリングされた
シンクノード。ここでは、“フロンティア”内のそれぞ
れのノード“ｖ”に関して、その（スケジューリングさ
れていない）子ノードの数“ｃ（ｖ）”に注目する。
（それぞれのステップにおいて、その子ノードのうちの
一部のみがスケジューリングされたソースノードが最大
１つ存在する。）不変量として、ノードが“Ｐレディ”
アレイ内において、その１−ＤＦＴ数の順序で表現され
ている、ということを利用する。“Ｐレディ”アレイの
大きさは、“ｐ”ＤＦＴトラバーサルに係る空間要求に
よって制限される。

【００８７】以下のステップは、プロセッサ割当てに関
して機能する。“Ｐレディ”アレイの最初の“ｐ”エン
トリ中に表現されているノード“ｖ”に関する“ｃ
（ｖ）”値に係るプリフィックス総和計算を実行する。
出力シーケンスがアレイ“Ｃ”であるとする。“ｉ’”
が“Ｃ［ｉ’−１］＜ｐ≦Ｃ［ｉ’］”を満足するとす
る（簡単のために、“ｐ＝Ｃ［ｉ’］”と仮定する）。
最初の“ｉ’”ノードの子ノードはスケジュールされる
べきである。それらは、サイズ“ｐ”の補助アレイ“ア
クティブ”中に順に挿入される。“ｉ＝１，...，
ｉ’”に対して、（“Ｐレディ”内の）ノード“ｉ”の
子ノードの表現が、アレイ“アクティブ”のエントリ
“Ｃ［ｉ−１］＋１”から“Ｃ［ｉ］”内に順に配置さ
れる。プロセッサ“ｊ”は、“アクティブ［ｊ］”内に
表現されているノードに対して割り当てられており、そ
のノードを訪ねる。それぞれのノード“ｖ”に関して、
その子ノードの数“ｃ（ｖ）”がこの時点で明らかにな
る。“アクティブ”内のそれぞれのシンクノード“ｕ”
に関して、それがその子ノードの最終親ノードではない
場合には、“ｃ（ｕ）＝０”にセットされる。それらは
削除されるべきものとしてマークが付される。削除され
るべきものとしてマークが付されていない“アクティ
ブ”内のノードをまとめるためにプリフィックス総和計
算が用いられる。“Ｐレディ”アレイ内の最初の
“ｉ’”エントリはクリアされ、“アクティブ”の内容
が“Ｐレディ”アレイに対して（順に）プリペンドされ
る。

【００８８】ｐＤＦＴＰレディ補助定理：前述され
たＰレディノードアルゴリズムは“Ｇ”の１−ＤＦＴに
基づく“ｐ”ＤＦＴを生成する。そのインプリメンテー
ションには、一定数の“ｐ”プロセッサＥＲＥＷＰＲ
ＡＭオペレーションに、“ｐ”ＤＦＴのステップ当たり
サイズ“ｐ”の一定数のプリフィックス総和計算を加え
たものが必要とされる。

【００８９】タスク同期：レディノードの識別。イ
ンプリメンテーションを完了するために、ノードの準備
が整った時点をどのように識別するかが記述される。親
タスク（ＤＡＧ内のファンアウト“ｎ”のソースノー
ド）によって並列に生成された“ｎ”個の子タスクから
なる組を考える。タスク同期問題は、親ノードに係る計
算の再スタート（すなわち、ソースタスクに対応するシ
ンクタスクの開始）を可能にするために最終子ノードが
完了した時点をすばやく検出することである。計算が動
的であるため、どの子ノードが最後に終了するあるいは
子ノードに係る計算がどの位の時間を必要とするかを前
もって知ることは出来ない。さらに、親ノードをアクテ
ィブにしておくことも不可能である。なぜなら、このこ
とによって効率が低下するからである（この種の生成が
ネスティングされ得ることに留意されたい）。タスク同
期をインプリメントする一つの方法は、親ノードに対し
て、“ｎ”に初期化されていてそれぞれの子ノードが完
了するにつれてデクリメントされるようなカウンタを関
連付けることである。しかしながら、複数個の子ノード
が同時に完了し得るために、この方法は、（特にＥＲＥ
ＷＰＲＡＭに関して）理論および実際の双方の面で高
コストとなるフェッチ−アンド−追加動作を必要とす
る。第二の選択肢は、タスクが生成された時点で、それ
らが完了するにつれて同期をとるために用いられること
になるバイナリツリーを構成することである。しかしな
がら、この方法は、同期を取る際にツリーを登るために
“Ｏ（ｌｏｇｎ）”のスローダウンを必要とし、動的
負荷均衡法が用いられない限り、余分なワークが必要と
される。特に、このインプリメンテーションにおいて
は、任意のファンアウトを許可することによる利点が失
われる。シミュレーションコストは、バイナリファンア
ウトによって必要とされるＤＡＧ内の余分なデプスに等
しい。

【００９０】アルゴリズムおよびデータストラクチャに
係る記述：前述された問題点を回避するために、イン
プリメンテーションは以下のポイントに基づいている。
（１）“ｎ”個の子ノードが生成された時点でそれらの
調整リストを生成する。（２）それぞれの子ノードは、
それが終了した時点で、２つの隣接するノードを短絡す
ることによって、自分自身を除去する。同一のステップ
において隣接するノードのいずれもが終了しない場合に
は、短絡には一定の時間がかかる。（３）複数個の隣接
するノードが終了する場合には、すべての完了する隣接
ノードに関する短絡を計算するためにプリフィックス総
和計算が用いられる。これを可能にするために、完了す
るすべての隣接ノードがタスクアレイ中で隣接している
というＤＦＴの性質を用いる。完了しない隣接ノード
は、タスクアレイ中に存在しない。なぜなら、それらは
子ノードを生成して停止中であるからである。（４）最
終子ノードが終了すると、親ノードが再起動される。複
数個の子ノードが同時に終了した場合には、最も左側に
あるものが親ノードを再起動する。

【００９１】シンクポインタの構成。ソースノード
“ｖ”が（アレイ“アクティブ”を介して）スケジュー
リングされると、関連するシンクノード、“シンク
ｖ”、の表現が生成され、組“シンク”に挿入される。
（シンクノードでもあるソースノードは、ここではソー
スノード−シンクノード対として考慮される。）ソース
ノードは、この表現に係るポインタを維持している。ソ
ースノードの子ノードがスケジューリングされると、そ
れらはそれぞれ同様に関連するシンクノードに係る表現
を生成する。それぞれの子ノード“ｕ”は、スケジュー
リングに際して、その親ノード“ｖ”からポインタを
“シンクｖ”へコピーし、“シンクｖ”を指し示すため
に“シンクｕ”をセットする。“ｖ”の子ノードがスケ
ジューリングされた後、ノード“ｖ”はデータストラク
チャから削除されることに留意されたい。以下に記述さ
れているように、ノードは、スケジューリングのための
準備が整うまで、あるいは捨て去られるまで、“シン
ク”に保管される

【００９２】調整リンクリスト。ソースノード“ｖ”
の子ノードがスケジューリングされると、関連するシン
クノードに係るリンクリストが順次生成される。ここで
考慮する不変量は、リストが、元のリストから、データ
ストラクチャ内に依然として存在しているノード、すな
わち組“シンク”内に存在するかあるいは“Ｐレディ”
アレイ内に存在するノード、を正確にリンクしていると
いうことである。リストが空になると、シンクノード
“シンクｖ”がスケジューリングされる準備が整った状
態になる。それゆえ、（特定の時点において）リストの
先頭のものがスケジューリングされると、リストが空に
なったかがチェックされる。空になった場合には、アレ
イ“アクティブ”内に残り、“Ｐレディ”内に配置され
る。空になっていない場合には、リスト中のスケジュー
リングされていない次のノードがリストの先頭に来て、
スケジューリングされたものはデータストラクチャから
削除される。リストの、スケジューリングされていてリ
ストの先頭に位置していないそれぞれのノードは速やか
にデータストラクチャから削除されることに留意された
い。

【００９３】調整リストの管理：調整リストは、削除
がなされる際には管理されなければならない。予想され
る困難点は、リスト内の連続するノードからなるシーケ
ンスが同時に削除され得ることである。残存するノード
間のリンクを更新するためにポインタジャンプ法を用い
ることはむしろ遅く、標準的な技法を用いた効率的な
（しかしながら遅い）インプリメンテーションに係るこ
とになる。本発明に従って、本発明に係るデータストラ
クチャの特別の特徴を用いた、高速かつ簡潔な解法が提
供される。鍵となる観察は、２つあるいはそれ以上の隣
接する兄弟ノードからなるシーケンスが削除される場合
には、その表現がアレイ“アクティブ”の連続するエン
トリ中に存在するということである。よって、この削除
されたサブリストに係る調整リストを更新することは、
アレイ“アクティブの”、これらの表現を含むサブアレ
イ中の最初と最後のエントリを連鎖することと同様に容
易である。この種の局所的な連鎖計算は、アレイ“アク
ティブ”内に表現されたノードに係る全体的な連鎖計算
を用いることによって得られるものであり、例えばプリ
フィックス総和計算によってなされ得る。この観察が正
しい理由を示すために以下の事項をコメントする：
（ｉ）直列−並列ＤＡＧにおける１−ＤＦＴ数の一般的
な性質は、同一のシンク子ノード“ｓ”を共有する２つ
のノード“ｕ”および“ｖ”、および“ｕ”と“ｖ”と
の間の１−ＤＦＴ数を有するノード“ｗ”が与えられた
場合、“ｗ”は共通のシンク子ノード“ｓ”を共有する
ノード“ｖ’”の上流ノードでなければならない。この
際、“ｖ’”の１−ＤＦＴ数は、“ｕ”のそれより大き
く、かつ“ｖ”のそれ以下でなければならない（すなわ
ち、“ｖ’”は“ｖ”でありうる）。（ｉｉ）ノード
は、その１−ＤＦＴ数の順序に従って調整リストに置か
れる。（ｉｉｉ）“アクティブ”内のノードはその１−
ＤＦＴ数によって順序付けられている。（ｉｖ）ノード
は、アレイ“アクティブ”内に存在する場合に限り、削
除されうる。（ｖ）ノードがアレイ“アクティブ”に配
置された後は、その上流ノードは”アクティブ“には配
置され得ない。ここで、”ｕ“および”ｖ”を調整リス
トにおける隣接ノード、かつ“ｕ”が”ｖ“より前に存
在するとし、双方が削除されるものとする。（ｉｖ）に
よって双方はアレイ”アクティブ“内に存在する。調整
リスト内の”ｕ”と“ｖ”との間に存在するすべてのノ
ード“ｗ”に関して、”ｗ“が既に削除されていたた
め、（ｉｖ）および（ｖ）によって“ｗ“の上流ノード
は”アクティブ”内に存在しない。同様に、“ｖ”が”
アクティブ“内に存在するため、その上流ノードは”ア
クティブ”内に存在しない。観察は、（ｉ）、（ｉｉ）
および（ｉｉｉ）による。

【００９４】複雑性および拡張。 “ｐ”ＤＦＴのそれ
ぞれのステップには、最大“ｐ”個のユニットタイムタ
スクが関与している。ネスティングされた並列性計算
は、そのＤＡＧによって順序付けられていない２つある
いはそれ以上の個数のノードが同一のプログラム変数を
読み書きする場合に、同時アクセスプリミティブを用い
ると言われる。このようなノードが存在しない場合に
は、計算は、排他アクセスプリミティブを用いる。
“ｐ”ＤＦＴの１ステップに関して、上述されたスケジ
ューリングアルゴリズム内でのデータストラクチャに係
るオペレーションは、“ｐ”プロセッサＥＲＥＷＰＲ
ＡＭに係る一定数のステップにサイズ“ｐ”のプリフィ
ックス総和計算の一定回数の適用を加えたものを用いる
ことによってインプリメントされ得る。本発明に従っ
て、“ｐ”プロセッサに関する最適ワークインプリメン
テーションを、“（ｐｌｏｇｐ）”ＤＦＴを用いる
ことによって得ることが可能であり、それぞれのステッ
プにおけるリソース割り当てに係るオーバーヘッドを償
還することができる（簡潔に述べれば、シーケンシャル
空間がシーケンシャルな実行時間中で最悪線形であるよ
うな場合に係る制限を述べている）。

【００９５】排他アクセスインプリメンテーションに係
る定理。ワーク“Ｗ”、デプス“Ｄ”、および、排他
アクセスプリミティブ（のみ）を用いるシーケンシャル
空間“Ｓ₁”（Ｓ₁はＯ（Ｗ）に含まれる）を考える。上
述されたスケジューリングアルゴリズムは、計算を、
“ｐ”プロセッサＥＲＥＷＰＲＡＭ上で、“Ｏ（Ｗ／
ｐ＋Ｄ・ｌｏｇｐ）”時間内に“Ｏ（Ｓ₁＋Ｄ・ｐ
ｌｏｇｐ）”空間で、あるいは同一の制限内で、より
高い確率を有して“ｐ”プロセッサ超三次（ハイパーキ
ューブ）上で、インプリメントすることが可能である。

【００９６】証明：前述された（定数“ｍ”を有す
る）大規模割り当てに係る定理により、ここで用いられ
る“（ｐｌｏｇｐ）”ＤＦＴには“Ｏ（Ｗ／（ｐｌｏ
ｇｐ）＋Ｄ）”個のステップが存在する。これらのス
テップのそれぞれが、“ｐ”個のプロセッサ上で“Ｏ
（ｌｏｇｐ）”の時間がかかることが以下のように示
される。サイズ“ｐｌｏｇｐ”のプリフィックス総
和計算は、“ｐ”プロセッサＥＲＥＷＰＲＡＭ上ある
いはハイパーキューブ上で、“Ｏ（ｌｏｇｐ）”の時
間でインプリメントされ得る（Ladner and Fischerによ
る前掲の参考文献参照）。乱数ハッシング技法を用いる
と、“（ｐｌｏｇｐ）”プロセッサＥＲＥＷＰＲＡ
Ｍに係る共有メモリは、“（ｐｌｏｇｐ）”プロセッ
サＥＲＥＷＰＲＡＭのそれぞれのステップが高い確率を
有して“Ｏ（ｌｏｇ^* ｐ）”の時間でハイパーキュー
ブ上にインプリメントされ得るように、“ｐ”プロセッ
サハイパーキューブ上に配置され得る。（L.G.Valiant,
General purpose parallelarchitectures, in J.van L
eeuwen, editor, Handbook of Theoretical Computer S
cience, Volume A, pages 943-972, Elsevier Science
Publishers B.V., Amsterdam, The Netherlands, 1990,
を参照。）よって、スケジューリングは、“Ｏ（ｌｏ
ｇｐ）”時間で実行され得る。同様に、“ｐｌｏｇ
ｐ”単位ワークタスクも、“Ｏ（ｌｏｇｐ）”時間
で実行され得る。

【００９７】ＣＲＣＷＰＲＡＭ上でのより高速なイン
プリメンテーション。より高速な実行は、ＣＲＣＷ
ＰＲＡＭ上で、それぞれのプリフィックス総和計算を近
似プリフィックス総和計算あるいは連鎖計算によって置
換することによって実現され得る。近似プリフィックス
総和計算および連鎖計算に係るアルゴリズムは、“Ｏ
（ｔ_aps）”の時間がかかることが知られている。ここ
で、ワーストケースで“ｔ_aps＝ｌｏｇｌｏｇｐ”で
あり（Berkman and U.Vishkin, Recursive star-tree p
arallel data struture, SIAM Journal on Computing,
22(2), pages221-242, 1993, を参照。また、T.Goldber
g and U.Zwick, Optimal deterministic approximate p
arallel prefix sum and their applications, in Pro
c. 3rd Israel Symp. on Theory of Computing and Sys
tems, pages 220-228, January 1995,も参照）、高い確
率を有して“ｔ_aps＝ｌｏｇｐ”である（M.T.Goodric
h, Y.Matias, and U.Vishkin, Optimal parallel appro
ximation algorithms for prefix sums and integer so
rting, in Proc. 5th ACM-SIAM Symp. on Discrete Alg
orithms, pages 241-250, January 1994, P.L.Ragde, T
he parallel simplicity of compactation and chainin
g, Journal of Algorithms, vol.14, pages 371-380, 1
993, および、Berkman and Vishkinによる１９９３年の
文献を参照）。プリフィックス総和計算の近似バーショ
ンを用いるためには、アレイ“Ｐレディ”および“アク
ティブ”中にわずかの空セルが存在することを許可し、
さらに、“ｐ”だけ（大規模割り当てを扱うことが許可
されていた場合のように）利用可能である場合にも
“ｐ”よりわずかに少ないものだけがそれぞれのステッ
プにおいて割り当てられるということを許可することが
必要である。

【００９８】同時アクセスインプリメンテーションに係
る定理。ワーク“Ｗ”、デプス“Ｄ”、およびシーケ
ンシャル空間“Ｏ（Ｗ）内のＳ₁”を有し、同時アクセ
スプリミティブを利用する、ネスティングされた並列性
計算を考える。上記スケジューリングアルゴリズムは、
“ｐ”プロセッサＣＲＣＷＰＲＡＭ上で、“Ｏ（Ｗ／
ｐ＋Ｄ・ｔ_aps）”時間内かつ“Ｏ（Ｓ₁＋Ｄ・ｐ
ｔ_aps）”空間で計算をインプリメントすることが可能
である。ここで、“ｔ_aps”は確実に“Ｏ（ｌｏｇｌｏ
ｇｐ）”であり、高い確率を有して“Ｏ（ｌｏｇ^*
ｐ）”である。

【００９９】メモリ割り当て手続き。前記定理におけ
る空間制限は、データストラクチャと実行の間に宣言さ
れたプログラム変数とに係るあらわなメモリ割り当ての
問題を取り扱うことなく、用いられるメモリセルの絶対
数を説明している。アレイデータストラクチャに係るメ
モリ割り当ては直截的なものである。“シンク”データ
ストラクチャの組に係るメモリ割り当ては、プログラム
変数に係るものと同様、動的ディクショナリデータスト
ラクチャを用いて実行され得る。それぞれのステップに
おいて、“シンク”データストラクチャの表現の数、あ
るいはプログラム変数の数、に関して空間を線形に維持
する目的で、空間の適応割り当ておよび割り当て解除
が、ＥＲＥＷＰＲＡＭ上で“ｐ”個のプロセッサおよ
び対数的時間で（W.J.Paul, U.Vishkin, and H.Wagene
r, Parallel dictionaries on 2-3 trees, in Proc. 10
th Int. Colloquium on Automata Languages and Progr
amming, Springer LNCS 154, pages 597-609, 1983, を
参照）、および、ＣＲＣＷＰＲＡＭ上でより高い確率で
“Ｏ（ｌｏｇ^* ｐ）”時間および線形ワークで（前掲
のGil, Matias, Vishkinに係る１９９１年の参考文献参
照）、インプリメントされ得る。

【０１００】これらの自動メモリ割当て手続きは、粒度
の細かいネスティング済み並列性を有する言語によって
書かれたプログラムの、時間的、ワーク的、および空間
的に効率的な実行を実現する目的で、上記スケジューリ
ングアルゴリズムに関連して用いられる。

【０１０１】以上、オンライン並列計算の一般的なクラ
スを実行するための空間およびステップ制限が導出され
た。ネスティング済み並列計算のより限定されたクラス
に関しては、スケジューリングアルゴリズムが記述さ
れ、スケジューリングコストを含む時間制限が導出され
た。充分な並列性を有する計算に関しては、本発明の実
施例に従って、空間制限が、これまでに知られていた制
限より著しく改善された。

【０１０２】本発明は、並列言語、特にＮＥＳＬ言語、
の空間効率のよいインプリメンテーションを生成すると
いう利点を有している。

【０１０３】タスクは、プロセスのあらゆる段階におい
て新たに生成され得る。この種のタスクが生成された場
合には、それらはフィードバックされ、この種のタスク
を割り当てるコンポーネントがプライオリティを割り当
てる。

【０１０４】以上の説明は、本発明の一実施例に関する
もので，この技術分野の当業者であれば、本発明の種々
の変形例が考え得るが、それらはいずれも本発明の技術
的範囲に包含される。

【０１０５】

【発明の効果】以上述べたごとく、本発明によれば、並
列プロセッサを効率的に利用するようにスケジューリン
グする方法およびその手段が提供される。

【図面の簡単な説明】

【図１】本発明の特徴を実現するシステムを模式的に
示したブロック図である。

【図２】本発明の特徴を実現する図１の処理エレメン
トアレイの詳細を示すブロック図である。

【図３】図１に示された処理アレイの別の実施例を示
すブロック図である。

【図４】図２および図３に示された処理エレメントの
詳細を示すブロック図である。

【図５】図１に示された割当てマネージャのブロック
図である。

【図６】図１から図５までに示されたシステムのオペ
レーションを示す流れ図である。

【図７】図６のあるステップの詳細を示す図である。

【図８】割当てマネージャのオペレーションを示すよ
り詳細な流れ図である。

【図９】図８のある部分の処理の別の実施例を示す流
れ図である。

【図１０】図５の一部を示すブロック図である。

【図１１】割当てマネージャのオペレーションの別の
実施例を示す流れ図である。

【図１２】割当てマネージャのオペレーションの別の
実施例を示す流れ図である。

【図１３】図１１および図１２の一部における処理の
別の実施例を示す流れ図である。

【図１４】本発明に係るオペレーションセオリーにお
いて発生するノードを示す模式図である。

【図１５】本発明に係るオペレーションセオリーにお
いて発生するノードを示す模式図である。

───────────────────────────────────────────────────── フロントページの続き (71)出願人 596077259 600 ＭｏｕｎｔａｉｎＡｖｅｎｕｅ, ＭｕｒｒａｙＨｉｌｌ，ＮｅｗＪｅｒｓｅｙ 07974−0636Ｕ．Ｓ．Ａ. (72)発明者フィリップビー．ギボンズアメリカ合衆国，07090 ニュージャージー，ウェストフィールド，エンブリーコート 201 (72)発明者ヨッシマティアスアメリカ合衆国，20854 メリーランド, ポトマック，ロサリンダドライブ 11815

Claims

【特許請求の範囲】

【請求項１】処理のためにタスクの逐次順序を決定す
るステップと、可能なタスクに対して前記逐次順序に基づいてプライオ
リティを割り当てる割当てステップと、利用可能な並列処理エレメントの総数よりも多い数のタ
スクを最高プライオリティを有する可能なすべてのタス
クから選択する選択ステップと、前記選択されたタスクを前記利用可能な並列処理エレメ
ントの数と等しい数のグループに分割する分割ステップ
と、前記並列処理エレメントにおいて前記タスクを実行する
実行ステップとからなることを特徴とする並列処理方
法。
【請求項２】前記選択されたタスクの個数が可能なタ
スクの個数とは相異なり、かつ、前記並列処理エレメン
トの利用可能な個数と相異なることを特徴とする請求項
１の方法。
【請求項３】前記選択されたタスクの個数が前記並列
処理エレメントの利用可能な個数より多く、かつ、タス
クの最大数より小さいことを特徴とする請求項１の方
法。
【請求項４】前記選択されたタスクの個数がＮであ
り、前記並列処理エレメントの利用可能な個数がｐであ
り、前記分割ステップがＮ個の選択されたタスクをほぼ
Ｎ／ｐという大きさを有するグループに分割することを
特徴とする請求項１の方法。
【請求項５】前記分割ステップが、前記グループのそ
れぞれを前記並列処理エレメントのうちの一つに割り当
てるステップを有することを特徴とする請求項１の方
法。
【請求項６】前記割当てステップが、ある個数の並列
ステップで割り当てるステップを有することを特徴とす
る請求項１の方法。
【請求項７】生成されたステップが、それらを生成し
た親タスクの順序で配置されることを特徴とする請求項
１の方法。
【請求項８】前記分割ステップが、ある個数の並列ス
テップで実行されることを特徴とする請求項１の方法。
【請求項９】前記逐次順序が、デプスファーストトラ
バーサルスケジュールであることを特徴とする請求項１
の方法。
【請求項１０】前記実行ステップがある個数のタスク
を生成し、前記割当てステップが生成されたタスクにプ
ライオリティを割り当てることを特徴とする請求項１の
方法。
【請求項１１】前記選択されたタスクの個数がＮであ
り、前記並列処理エレメントの利用可能な個数がｐであ
り、前記分割ステップがＮ個の選択されたタスクをほぼ
Ｎ／ｐという大きさを有するグループに分割することを
特徴とする請求項１０の方法。
【請求項１２】前記選択ステップが、個数Ｍの可能な
タスクから選択されたタスクの個数Ｎに対して制限Ｌを
設定するステップを有しており、前記可能なタスクの個
数Ｍが前記制限Ｌと等しいかあるいはそれ以上である場
合にはＮ＝Ｌとし、Ｍ＜Ｌの場合にはＮ＝Ｍとすること
を特徴とする請求項１の方法。
【請求項１３】前記分割ステップが前記タスクの重み
付けを行うステップを有しており、前記分割ステップが
前記重みに基づいて前記タスクを前記グループに分割す
るステップを有することを特徴とする請求項１の方法。
【請求項１４】処理のためにタスクの逐次順序を決定
する手段と、可能なタスクに対して前記逐次順序に基づいてプライオ
リティを割り当てる割当て手段と、利用可能な並列処理エレメントと、前記利用可能な並列処理エレメントの総数よりも多い数
のタスクを最高プライオリティを有する可能なすべての
タスクから選択する手段と、前記選択されたタスクを前記利用可能な並列処理エレメ
ントの数と等しい数のグループに分割する分割手段と、前記並列処理エレメントに前記タスクを実行する実行手
段とからなることを特徴とする並列処理装置。
【請求項１５】前記選択されたタスクの個数が可能な
タスクの個数とは相異なり、かつ、前記並列処理エレメ
ントの利用可能な個数と相異なることを特徴とする請求
項１４の装置。
【請求項１６】前記選択されたタスクの個数が前記並
列処理エレメントの利用可能な個数より多く、かつ、タ
スクの最大数より小さいことを特徴とする請求項１４の
装置。
【請求項１７】前記選択されたタスクの個数がＮであ
り、前記並列処理エレメントの利用可能な個数がｐであ
り、前記分割手段がＮ個の選択されたタスクをほぼＮ／
ｐという大きさを有するグループに分割することを特徴
とする請求項１４の装置。
【請求項１８】前記分割手段が、前記グループのそれ
ぞれを前記並列処理エレメントのうちの一つに割り当て
る手段を有することを特徴とする請求項１４の装置。
【請求項１９】前記割当て手段が、ある個数の並列ス
テップで割り当てる手段を有することを特徴とする請求
項１４の装置。
【請求項２０】前記割当て手段が、生成されたステッ
プを、それらを生成した親タスクの順序で配置すること
を特徴とする請求項１４の装置。
【請求項２１】前記分割手段が、ある個数の並列ステ
ップで実行されることを特徴とする請求項１４の装置。
【請求項２２】前記逐次順序が、デプスファーストト
ラバーサルスケジュールであることを特徴とする請求項
１４の装置。
【請求項２３】前記実行手段がある個数のタスクを生
成し、前記割当て手段が生成されたタスクにプライオリ
ティを割り当てることを特徴とする請求項１４の装置。
【請求項２４】前記選択されたタスクの個数がＮであ
り、前記並列処理エレメントの利用可能な個数がｐであ
り、前記分割手段がＮ個の選択されたタスクをほぼＮ／
ｐという大きさを有するグループに分割することを特徴
とする請求項２３の装置。
【請求項２５】前記選択手段が、個数Ｍの可能なタス
クから選択されたタスクの個数Ｎに対して制限Ｌを設定
する手段を有しており、前記可能なタスクの個数Ｍが前
記制限Ｌと等しいかあるいはそれ以上である場合にはＮ
＝Ｌとし、Ｍ＜Ｌの場合にはＮ＝Ｍとすることを特徴と
する請求項１４の装置。
【請求項２６】前記分割手段が前記タスクの重み付け
を行う手段を有しており、前記分割手段が前記重みに基
づいて前記タスクを前記グループに分割する手段を有す
ることを特徴とする請求項１４の装置。