JPH05225153A

JPH05225153A - 高レベル命令の並列処理装置及び並列処理方法

Info

Publication number: JPH05225153A
Application number: JP4140195A
Authority: JP
Inventors: Jimmie D Edrington; ジミー・ダライアス・エドリントン; Mark A Einkauf; マーク・アラン・アインカウフ; Allen P Jensen; アレン・ピーター・イェンセン; Michael T Vanover; マイケル・テレル・ヴァノーヴァー
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1991-07-10
Filing date: 1992-06-01
Publication date: 1993-09-03
Anticipated expiration: 2018-06-16
Also published as: CN1036877C; CA2067576C; EP0523863B1; CN1068434A; EP0523863A2; DE69230700D1; DE69230700T2; KR970008527B1; CA2067576A1; US5548737A; JP3416877B2; EP0523863A3; KR930002961A

Abstract

(57)【要約】【目的】プロセッサを容易に付加し除去することので
きる能力、あるいはパイプライン全体にわたる作業負荷
の調整のしやすさを、多重処理パイプラインに提供する
こと。【構成】本発明による、高レベル命令を処理するため
の装置は、複数の処理ユニットと、上記の高レベル命令
を実行するための複数の命令を生成する手段と、上記の
生成された命令を、各グループが上記の処理ユニットの
１つによって処理される命令を少なくとも１つ含む、１
以上のグループに動的に編成する手段とを具備する。ま
た、本発明による、複数の処理ユニットによって高レベ
ル命令を処理する方法は、上記の高レベル命令を実行す
るための複数の命令を生成する段階と、上記の生成され
た命令を、各グループが上記の処理ユニットの１つによ
って処理される命令を少なくとも１つ含む、１以上のグ
ループに動的に編成する段階とを具備する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、一般に並列計算に関
し、より具体的には、処理負荷を多重プロセッサ・パイ
プラインの全体にわたって動的に平衡させることに関す
る。

【０００２】

【従来の技術】従来技術では、並列パイプライン処理を
実現するため、多くの種類のプロセッサ、メモリ、バス
及びその他資源の構成が用いられてきた。これらの構成
には、複数のプロセッサが共用メモリを利用するための
システムや、プロセッサが並列作業負荷を共有するため
のシステムが含まれる。

【０００３】次に、並列パイプライン処理に用いられ
る、様々な構成及び技法について述べる。

【０００４】米国特許第４９３０１０２号明細書は、様
々な物理的構成要素間のインターフェース・システムと
待機中の活動を保持する待ち行列構造とを含む、並列プ
ロセッサを用いるコンピュータ・アーキテクチャを対象
とする。より具体的には、このコンピュータ・アーキテ
クチャは、クロスバー回路及びアコーディオン記憶待ち
行列構造を含んでいる。

【０００５】米国特許第４９２０４８７号明細書は、そ
の中の各接続部で同じ計算が実行されるネットワークを
利用することにより、全計算負荷を平衡させる、複数の
処理ユニット及び共用メモリを備えた並列処理コンピュ
ータを対象とする。

【０００６】米国特許第４８７５１６１号明細書は、複
数プログラム実行パイプラインを支援するためのベクト
ル・ファイル編成を対象とする。各パイプラインは、フ
ァイル記憶域をセグメント化し、セグメントの様々な要
素をアドレス指定することにより、ベクトル・ファイル
の様々なブロックに同時にアクセスすることができる。

【０００７】米国特許第４８５００２７号明細書は、大
容量のメモリ及びバスなしで、多くのイメージ処理ネッ
トワークの選択肢を提供する、処理要素の接続が制限さ
れている、イメージ処理システムを対象とする。

【０００８】米国特許第４８３９７９８号明細書は、複
数のオンライン接続コンピュータ・システムを備えた、
コンピュータ・ネットワーク・システムを対象とする。
各コンピュータ・システムは、別のコンピュータ・シス
テムへのジョブの転送を要求することができる。

【０００９】米国特許第４８１４９７８号明細書は、多
数のＶＬＳＩ回路チップを用いるコンピュータ設計を対
象とする。この設計は、複数の処理要素が外部には入出
力回路により、内部では、任意の処理要素から他の任意
の処理要素への伝送経路を実施する経路指定ネットワー
クを介して送られるパケットにより通信するという、静
的データフロー・アーキテクチャである。

【００１０】米国特許第４７６６５６６号明細書は、複
式並列実行ユニットを用いるＲＩＳＣ型ＶＬＳＩプロセ
ッサを対象とする。複式ユニット間の負荷は、加算回
路、乗算回路、または演算論理回路をユニットに加える
ことにより平衡させることができる。

【００１１】米国特許第４７３６２９１号明細書は、大
容量メモリ中に記憶されている地震データを処理するた
めの、複数の独立した処理ユニットを内蔵する汎用アレ
イ・プロセッサを対象とする。ディジタル・ホスト・コ
ンピュータが、ホスト・インターフェース機構を介して
システムの全体的制御を行う。

【００１２】米国特許第４６３３３８７号明細書は、複
数制御ユニット周辺データ記憶システムなど、より多忙
でないユニットからの作業要求に基づいてより多忙なユ
ニットが当該より多忙でないユニットに作業を転送でき
る、複数ユニット・データ処理システムを対象とする。

【００１３】米国特許第４５４３６２６号明細書は、コ
マンドに応答して、多重プロセッサ・システムにおける
複数のプロセッサの動作を調整するための制御配置構成
を対象とする。受け取った各コマンドは、経路ベクトル
を含む所定の経路に関連づけられる。その経路用の制御
ブロックが生成される。各経路ベクトルは、実行すべき
動作と、動作を実行するステーションを識別する。各ス
テーションは、そのステーションが順次検索し処理する
制御ブロックを含む、作業待ち行列を有する。

【００１４】米国特許第４５０４９０９号明細書は、Ｃ
Ｔスキャナから獲得したデータを実時間処理するための
アレイ・プロセッサを対象とする。このシステムでは、
所与のアレイの下位部分の処理が、次のアレイ用に獲得
されるデータ・セットの入力とインターリーブされてい
る。

【００１５】米国特許第４４９５５６２号明細書は、プ
ロセッサの使用時間を定期的に測定して作業負荷を決定
する、並列処理システム用の制御方法を対象とする。

【００１６】米国特許第４４９３０２０号明細書は、各
高レベル命令が１つまたは複数のタスクによって実行さ
れ、次いで、各タスクが１つまたは複数のタスク・マイ
クロ命令を実行することによりマイクロプログラム式に
実行される、マイクロプログラム式データ処理システム
を対象とする。別々の３つのプロセッサが、メモリなど
同じ物理的ハードウェアを共用しながら、互いに１２０
度の位相ずれで動作する。資源は、割振り可能なレジス
タの状況に基づいて、要求に応じてプロセッサに割り振
られる。

【００１７】米国特許第４４９３０１９号明細書は、互
いに１２０度の位相で動作する別々の３つのプロセッサ
を用いて、マイクロ命令を実行するように実施されてい
る、３段ハイ・ポイント・アーキテクチャを有するマイ
クロプログラム式データ処理システムを対象とする。

【００１８】米国特許第４３８４３２４号明細書も、互
いに１２０度の位相で動作する別々の３つのプロセッサ
を用いて、マイクロ命令を実行するように実施されてい
る、３段ハイ・ポイント・アーキテクチャを有するマイ
クロプログラム式データ処理システムを対象とする。

【００１９】米国特許第４２２９７９０号明細書は、タ
スク及び命令を並行処理するためのシステムを対象とす
る。プロセッサは、制御ユニット及び機能ユニットはパ
イプライン方式を用いるが、優先順位制約のペナルティ
を回避する、多重命令多重データ表示画面ディジタル・
コンピュータである。

【００２０】米国特許第３９０５０２３号明細書は、交
換機を介して独立に動作する計算モジュール、入出力モ
ジュール、及びメモリを有する、多重プログラム式多重
処理情報処理システムを対象としている。

【００２１】

【発明が解決しようとする課題】本発明の目的は、多重
処理パイプラインに、プロセッサを容易に付加し除去す
ることができる能力、あるいはパイプライン全体にわた
る作業負荷の調整のしやすさを提供することである。

【００２２】

【課題を解決するための手段】本発明は、複数の処理ユ
ニットと、高レベル命令を実行するための複数の命令を
生成する手段と、上記の生成された命令を、各グループ
が上記の処理ユニットの１つによって処理される命令を
少なくとも１つ含む、１以上のグループに動的に編成す
る手段とを含む、高レベル命令を処理するための装置で
ある。

【００２３】あるいは、本発明は、上記の高レベル命令
を実行するための複数の命令を生成する段階と、上記の
生成された命令を、各グループが上記の処理ユニットの
１つによって処理される命令を少なくとも１つ含む、１
以上のグループに動的に編成する段階とを含む、高レベ
ル命令を複数の処理ユニットによって処理する方法であ
る。

【００２４】

【実施例】図１は、典型的なディジタル・コンピュータ
・システム１００の構成図である。コンピュータ・シス
テム１００は、ホスト・コンピュータ１０５を含んでい
る。ホスト・コンピュータ１０５は、メモリ１２０に結
合された主プロセッサ１１０を含み、主パイプライン１
２５、入力装置１３０、出力装置１４０を備えている。
主プロセッサ１１０は、単一プロセッサまたは複数のプ
ロセッサを含む。入力装置１３０には、鍵盤機構、マウ
ス、タブレットまたはその他の種類の入力装置が含まれ
る。出力装置１４０には、テキスト表示装置、作図装置
またはその他の出力装置が含まれる。ホスト・コンピュ
ータの主プロセッサ１１０は、また、図形アダプタ（gr
aphics adapter）２００を介して、図形表示装置などの
図形出力装置１５０に結合することができる。図形アダ
プタ２００は、バス１６０を介して、図形に関する命令
を主プロセッサ１１０から受け取る。これらの命令は、
光の数と位置などの属性、ならびに三角形、多辺形等の
レンダリングなどのタスクを含んでいる。次いで、図形
アダプタは、これらの命令を、図形プロセッサ２２０及
び図形メモリ２３０を含む図形パイプライン２１０で実
行する。次いで、図形パイプラインが、これらの命令を
実行し、フレーム・バッファ２４０をこれらの命令に基
づいて更新する。フレーム・バッファ２４０は、図形出
力装置に表示されるあらゆる画素用のデータを含んでい
る。ランダム・アクセス・メモリ・ディジタル・アナロ
グ変換器（ＲＡＭＤＡＣ）２５０が、フレーム・バッフ
ァに記憶されているディジタル・データをＲＧＢ（赤／
緑／青）信号に変換し、それが、図形表示装置１５０に
送られて、主プロセッサからの所望の図形出力をレンダ
リングする。

【００２５】図２は、本発明の好ましい実施例を利用し
た、可能な図形パイプライン２１０の構成図である。図
形パイプライン２１０は、３つのプロセッサ３００、３
１０、３２０を含んでいる。代替パイプラインでは、よ
り多いまたはより少ないプロセッサを含んでいてもよ
い。さらに、主パイプライン、または図形パイプライン
以外の他のパイプラインも、本発明の実施例を利用する
ことができる。さらに、各プロセッサは、それぞれがパ
イプライン、並列プロセッサなどのグループ化された複
数のプロセッサを含むことのある、処理ユニットと見る
ことができる。第１プロセッサ３００は、作業負荷をパ
イプライン内で分配する割振りプロセッサとして使用さ
れる。代替パイプラインでは、パイプラインに先行する
割振りプロセッサを有することができる。メモリには、
内部メモリ３３０、３４０、３５０と外部メモリ３６
０、３６５、３７０が含まれる。各内部メモリは、プロ
セッサに緊密結合され、頻繁に用いられる情報の小型で
かつ高速の記憶域を提供する。各外部メモリは、より大
きな記憶域を必要とする情報、またはプロセッサによっ
てそれほど頻繁に使用されない情報を格納する。外部メ
モリ３６０、３６５、３７０は、それぞれ、バス３８
０、３８５、３９０によってプロセッサ３００、３１
０、３２０に結合されている。

【００２６】図３は、好ましい実施例において、ルーチ
ンを処理パイプラインに割り振るのに用いられる、パイ
プライン・マップ４００、タスク分割コード４３０、ル
ーチン・テーブル４４０及び構成キャッシュ４５０を記
憶する、外部メモリ３６０などのメモリの構成図であ
る。属性バッファは、ウィンドウ位置、変形、光情報等
など、パイプラインによって使用される属性を記憶す
る。パイプライン・マップ４００は、プロセッサ・マッ
プ４１０及びメモリ・マップ４２０を含んでいる。プロ
セッサ・マップ４１０は、実行のためのルーチンが割り
振られた、パイプライン中の各プロセッサ用のプロセッ
サ・データ構造を含んでいる。割振りプロセッサがパイ
プライン中のプロセッサとしてルーチンを実行する場
合、割振りプロセッサ用のデータ構造も存在する。メモ
リ・マップ４２０は、パイプライン内の各メモリ用のメ
モリ・データ構造を含んでいる。上記のマップについて
は、下記の図４及び図５により詳しく記載されている。
内部メモリには、タスク分割コード４３０、ルーチン・
テーブル４４０、構成キャッシュ４５０も含まれてい
る。タスク分割コードは、プロセッサがそれを実行する
ように指令される、各タスクまたは各高レベル命令用の
ルーチンまたは命令を生成するためのコードを含んでお
り、それによって、タスクまたは高レベル命令が１組の
ルーチンまたは命令に分割される。たとえば、三角形作
図タスクは、入力、変換、クリッピング、光、変形、出
力の各ルーチンに分割することができ、これらのルーチ
ンが順に実行される。ルーチン・テーブル４４０は、処
理ＩＤ（ＰＩＤ）によって実行される、可能なルーチン
または命令のリストを含んでいる。各ルーチン・エント
リは、割振りプロセス中に利用されるルーチンに関する
情報を含んでいる。ルーチン・エントリについては、下
記でより詳しく説明する。構成キャッシュ４５０は、以
前に構成されたタスクのリストを含んでいる。現属性バ
ッファ４５５は、光の数や位置など、適用業務ソフトウ
ェアからアダプタに転送済みの現属性を含んでいる。タ
スク分割コード４３０、ルーチン・テーブル４４０、構
成キャッシュ４５０については、下記でより詳しく説明
する。

【００２７】図４及び図５は、上記の図３に示したパイ
プライン・マップ４００中のプロセッサ及びメモリに利
用できるデータ構造の例を示す。プロセッサ・データ構
造４６０は、上記の図２に示したパイプライン中に示さ
れているプロセッサＰ２３１０用の可能なデータ構造
を示している（図４）。このデータ構造は、それぞれ前
段プロセッサＰ１（３００）、次段プロセッサＰ３（３
２０）、内部メモリＭ２（３４０）、外部メモリＭ４
（３６０）及びＭ５（３６５）を指すポインタ４６１〜
４６５を含んでいる。このデータ構造はまた、プロセッ
サに割り当てられる内部メモリ量４６６及び外部メモリ
量４６７（ワード単位）を含んでいる。このデータ構造
はまた、プロセッサ速度など利用される他の情報４６８
を含んでいる。メモリ・データ構造４７０は、上記の第
２図に示したメモリＭ４用の可能なデータ構造を示して
いる（図５）。このメモリ・データ構造は、メモリの量
（ワード単位）４７３及びそのメモリを利用するプロセ
ッサを指すポインタ４７１を含んでいる。メモリ・デー
タ構造はまた、データを突きとめるため、各メモリ中を
ステップ式に進むためのロード段階で使われるパイプラ
イン中の前段メモリを指すポインタ４７２を含んでい
る。このデータ構造は、利用される他の情報４７４を含
むことができる。

【００２８】図６は、好ましい実施例で割振りプロセッ
サがタスクを割り振るのに利用できる、パイプライン・
マップから構築されたポインタまたは連係リスト５００
〜５８０を示す図である。パイプライン中の最後のメモ
リ５５０（Ｍ３）が、パイプラインの第１メモリ５６０
（Ｍ４）に導く連係リストを開始させることに留意され
たい。これは、割振りプロセッサが、あるメモリ・デー
タ構造から別のそれに単に移るだけで情報を見つけるの
に有用である。

【００２９】図７は、処理パイプラインでの処理のため
にタスクを割り振りまたは編成するのに使用される方法
の高レベル流れ図である。構成と称する第１段階８００
で、割振りプロセッサは、所与のタスクを実施するため
に実行すべきルーチンの構成リストを構築する。構成リ
ストは、各ルーチンの実行に必要な時間の長さ、及び各
ルーチンごとに実行する必要のある初期設定ルーチンを
含んでいる。初期設定ルーチンは、そのルーチンによっ
て使用されるいくつかの属性をセットアップし、あるい
はそのルーチン用の作業用記憶域を割り振る。第２段階
８０５で、構成キャッシュを検査して、タスクが以前に
実行されたかどうか調べる。そうでない場合は、分配と
称する段階８１０で、割振りプロセッサは、上記のパイ
プライン・マップを利用しながら、パイプライン内のプ
ロセッサ間でルーチンを動的に編成または分配し、それ
により、ルーチンまたは命令を、パイプライン中のプロ
セッサによって実行されるルーチンまたは命令のグルー
プにグループ化する。分配プロセスは、ルーチンまたは
命令の編成または割振りが、予め定義されておらず、割
り振られる命令を処理する時間の長さ、命令を実行する
のに利用されるプロセッサの数、プロセッサに対する現
処理負荷などの要因に応じて変化し得るという点で動的
である。処理スタックと呼ばれるデータ構造が構築され
るのは、この段階である。処理スタックとは、タスクの
その部分を実施するために、ある特定のプロセッサまた
は処理ユニットが実行する一群のルーチンまたは命令で
ある。好ましい実施例では、何らかのルーチンを実行す
る各プロセッサごとに１つずつの処理スタックが存在す
る。ロードと称する次の段階８２０で、処理タスクに、
プロセッサによって実行される適当なメモリ中のデータ
及び命令を指す適切なポインタがロードされる。タスク
が以前に実行されたと上記の段階８０５で判定された場
合は、処理スタックを検査して、必要なすべてのルーチ
ン及びデータ・ポインタがロードされていることを確認
する、代替の短縮ロード段階８２５が実行される。実行
と称する最終段階８３０で、所望のタスクを実施するた
め、パイプライン中の各プロセッサに割り振られた処理
スタックが、順次実行される。好ましい実施例では、次
いで、前のタスク用の処理スタックの実行が完了する前
に次の処理スタックの実行を開始することを含めて、後
続のタスクを上記のように処理することができる。これ
が可能なのは、パイプライン中のプロセッサが、処理ス
タックを順にしかし独立して処理できるからである。

【００３０】図８は、所定の１組のルーチン用に生成で
きる処理スタック９００を示す図である。処理スタック
は、実行されるルーチン９１０〜９４０の連係リスト
（linked list）である。連係リスト中の各ルーチン
は、ある作業を実施する。このルーチンは、ルーチン用
の処理ＩＤ（ＰＩＤ）９５０、ルーチン・コードの局所
アドレス９６０、ルーチンの入力データの入手先を示す
入力ポインタ９７０、出力データの書込み先を示す出力
ポインタ９８０、及び局所作業用記載域を指すポインタ
などの局所情報９９０を必要とする、自律機能である。
この情報は、下記でより詳しく述べるロード段階８２０
中に、処理スタックに付加される。各プロセッサは、こ
れらのポインタをその処理スタック・エントリから読み
取り、ルーチンをポインタにより呼び出し、次いで、処
理スタック中の次のルーチンについて同じ処理を繰り返
す。処理スタックは連係リストなので、制御プログラム
によって動的に容易に構築し操作することができる。

【００３１】図９は、上記の図７に記載されている、構
成段階８００のより詳細な流れ図である。第１段階１０
００で、所与のタスク用のタスク分割コードが実行さ
れ、所与のタスクを実施するために、順に実行すべきル
ーチンの構成リストをもたらす。タスク分割コードは、
属性命令によって以前にシステムにロードされた、シス
テムの様々な現属性を考慮している。第２段階１００５
で、タスク・タイプ用の構成ＩＤ（ＣＩＤ）を構成リス
トに加える。好ましい実施例では、ＣＩＤは、構成リス
トを生成する際にタスク分割コードがとる経路に基づく
ものである。その結果、同じ現属性をもつ同タイプの後
続のどのタスクでも、ＣＩＤは同じとなる。第３段階１
０１０で、構成ルーチン中の各ルーチンごとに、ルーチ
ン・テーブルを探索して、そのルーチンを実行するのに
必要な時間の長さ及びそのルーチンに対する制限条件を
決定する。ルーチンの制限条件としては、プロセッサが
ルーチンを実行する際の制限条件、たとえば、最初のプ
ロセッサが、アダプタ入力バッファにアクセスする必要
があるためにルーチンを実行しなければならないとか、
最後のプロセッサが、フレーム・バッファにアクセスす
る必要があるためにルーチンを実行しなければならない
とか、このルーチンには外部メモリが必要であるとかい
う制限条件、その他の可能なルーチン制限条件が含まれ
る。この情報は、分配段階中に最も有用となろう。ただ
し、これらの制限条件は、下記でより詳細に論じるよう
に、普通は分配段階中に使用されることはなく、通常は
どのような困難も起こさない。次いで、段階１０２０
で、この情報を反映するようにルーチン・リストが更新
される。

【００３２】図１０及び図１１は、本発明の好ましい実
施例で使用される構成リスト１０４０及びルーチン・テ
ーブル１０６５を示す図である。構成リストは、所与の
タスクを実行するのに必要な各ルーチンの処理ＩＤ（Ｐ
ＩＤ）１０４５、各ルーチンを実行するのに必要な時間
１０５０、及びルーチンを割り振る際の制限条件１０５
５を示す。構成リストはまた、そのタスク・タイプのＣ
ＩＤ１０６０も含んでいる。構成リストは、構成段階
（図７の８００）中に生成され、分配段階（図７の８１
０）中に大いに利用される。ルーチン・テーブルは、す
べての既知ルーチンのＰＩＤ１０７０、割振りプロセッ
サ・メモリ内のルーチン・コードのアドレス１０７５、
各ルーチンのサイズ１０８０、各ルーチンを実行するの
に必要な時間１０８５、各ルーチンの割振り制限条件１
０９０、及び時には初期設定ルーチンを指すポインタ１
０９５も含んでいる。これらの情報の一部は、構成段階
中に、構成リストを完成するために使用される。残りの
情報は、ロード段階中に利用される。

【００３３】図１２は、このタイプのタスクが以前に実
行されたかどうかを判定する、上記の図７に記載されて
いるステップ８０５のより詳細な流れ図である。第１段
階１１００で、構成キャッシュ中の所与のタスク用の第
１エントリを読み取る。第１エントリが見つからない場
合は（段階１１００）、現タスクが、関連する同じ属性
（モデル中で使用される光の数など）を用いて以前に実
行されていなかったので、分配段階に進む（段階１１５
０）。構成キャッシュ内で所与のタスク用のエントリが
見つかった場合、そのエントリの構成ＩＤ（ＣＩＤ）が
所与のタスクのＣＩＤと比較される。ＣＩＤが同じ場合
は、内部属性をもつ同じタスクが以前に実行されてい
る。その結果、短期ロード段階に進む（段階１１４
０）。ＣＩＤが同じでない場合は、現エントリを検査し
て、構成キャッシュ中に別の後続エントリが存在するか
どうか調べる（段階１１３０）。存在しない場合は、現
タスクが同じ内部属性を用いて以前に実行されていなか
ったので、分配段階に進む（段階１１５０）。存在する
場合は、段階１１２０へ戻る。

【００３４】図１３は、本発明の好ましい実施例で利用
される構成キャッシュ・エントリ１１６０を示す図であ
る。構成キャッシュ・エントリは、構成ＩＤ（ＣＩＤ）
１１６５、次のキャッシュ・エントリを指すポインタ１
１７０、以前に実行された処理スタックのコピー１１７
５、以前に実行された処理スタックの局所メモリ・アド
レスを指すポインタ１１８０、どの処理スタックがなお
局所メモリ中にロードされているかを示す、各処理スタ
ック用のロード・フラグ１１８５を含んでいる。その他
の情報１１９０も、所望に応じて含めることができる。

【００３５】図１４は、上記の図７に記載されている、
分配段階８１０のより詳細な流れ図である。第１段階１
２１０で、割振りプロセッサが目標ボトルネックを計算
する。これは、いずれかのプロセッサに割り振られる最
長の経路長（path length：ルーチン実行時間を表す）
である。好ましい実施例では、目標ボトルネックは、実
行されるすべてのルーチンの経路長の和（構成リストか
ら導出される）をプロセッサの数で割った商として計算
する。第２段階１２２０で、構成リストにリストされて
いるルーチンが、プロセッサに順次割り当てられる。こ
の処理中に、処理スタックの枠組みが割振りプロセッサ
のメモリ中で構築される。ルーチンを実行する各プロセ
ッサごとに処理スタックが１つとなるように、所与のプ
ロセッサ用に実行されるルーチンが処理スタックにロー
ドされる。ルーチンのプロセッサへの割当てについて
は、下記により詳細に述べる。第３段階１２３０で、最
終プロセッサに目標ボトルネックよりも長い経路長が割
り当てられているかどうか判定する。そうである場合
は、段階１２４０で、新しい目標ボトルネックが計算さ
れ、段階１２２０の割当て処理が繰り返される。新しい
目標ボトルネックの計算については、下記の図１６によ
り詳細に記載されている。すべてのプロセッサに目標ボ
トルネック以下の経路長が割り当てられている場合、段
階１２５０で、構成リストにリストされているルーチン
制限条件を検査して、プロセッサへのルーチンの現割当
てがこの制限条件を満たしているかどうか判定する。制
限条件を満たしている場合は、段階１２７０のロード段
階に進む。制限条件を満たしていない場合は、段階１２
６０で、それらのルーチン及び介在するルーチンを適当
なプロセッサに割り当てし直す。たとえば、あるルーチ
ンがパイプライン中の第２プロセッサに割り当てられて
いるが、そのルーチンがパイプライン中の第１プロセッ
サのみに制限されている場合、そのルーチンならびに第
２プロセッサに割り当てられたその他の先行ルーチン
を、第１プロセッサに割り当てし直す。再割当てが完了
すると、段階１２７０で、処理はロード段階に進む。

【００３６】図１５は、上記の図１４に記載されている
割当て段階１２２０のより詳細な流れ図である。第１段
階１３１０で、第１ルーチンを第１プロセッサに割り当
てる。この割当て中に、構成リスト中で与えられている
ルーチンの経路長が、そのルーチンを受け取るプロセッ
サ用の現割当て経路長に入力される。プロセッサ・デー
タ構造を使って、現割当て経路長を一時的に保持するこ
とができる。第２ステップ１３２０で、割振りプロセッ
サは、プロセッサに割り振るべきルーチンがまだ構成リ
スト中に残っているかどうか判定する。段階１３２０に
入るのはこれが最初なので、答は多分イエスである。次
の段階１３３０で、プロセッサに割り当てられている現
在の経路長と次に割り当てられるルーチンの経路長の和
を、目標ボトルネックと比較する。この量が目標ボトル
ネック以下の場合、段階１３１０で、次のルーチンがそ
のプロセッサに割り当てられ、現プロセッサ用の現割当
て経路長にそのルーチンの経路長が加えられる。プロセ
ッサに割り当てられた経路長に次のルーチンの経路長を
加えると目標ボトルネックを越えるようになるまで、こ
の処理が繰り返される。次いで、段階１３４０で、割振
りプロセッサがプロセッサ・データ構造中の次のプロセ
ッサを探すことにより、別のプロセッサがルーチンをま
だ割り当てられていないかどうか判定する。イエスの場
合、段階１３５０で、割当て処理は次のプロセッサに進
み、そのプロセッサ・データ構造にアクセスする。次い
で、段階１３１０で、そのプロセッサにルーチンが割り
当てられ、このルーチンの経路長が、ルーチンを受け取
るプロセッサ用の現割当て経路長に入力される。段階１
３４０でノーの場合は、段階１３６０で、残りのルーチ
ンが最終プロセッサに割り当てられ、このルーチンの経
路長が最終プロセッサの現割当て経路長に加えられる。

【００３７】図１６は、上記の図１４に記載されている
好ましい新しい目標ボトルネックの計算段階のより詳細
な流れ図である。この処理の目的は、現目標ボトルネッ
クよりも大きな経路の最小線形和に等しい新しい目標ボ
トルネックを得ることである。第１段階１４０５で、可
変の最小経路長が、それをその可能な最大値に設定する
ことによって初期設定され、カウンタｉが１にセットさ
れる。第２段階１４１０で、ルーチンｉが構成リスト中
にあるかどうか判定する。これは最初のルーチン（ｉ＝
１）なので、答はイエスである。次の段階１４１５で、
経路長の和を０に設定し、カウンタｊをカウンタｉに等
しく設定する。段階１４２０で、経路長の和が、目標ボ
トルネックよりも大きいかどうか判定する。これは初め
ての通過なので、答はノーである。段階１４２５で、構
成リスト中で与えられているルーチン経路長を経路長の
和に加え、カウンタｊを１だけ増分して、次のルーチン
に進む。段階１４３０で、ルーチンｊが構成リスト中に
あるかどうか判定する。イエスの場合は、段階１４２０
に戻る。ノーの場合あるいは段階１４２０でイエスの場
合には、段階１４３５で、経路長の和が最小経路長より
小さいかどうか判定する。イエスの場合、段階１４４０
で、最小経路長を経路長の和に等しく設定する。次い
で、段階１４４５で、カウンタｉを増分して、次の１組
のルーチンの処理を開始する。次いで、段階１４１０
で、ルーチンｉが構成リスト中にあるかどうか判定す
る。ノーの場合は、図１４の段階１２２０に戻る。

【００３８】図１７は、上記の図７に記載されているロ
ード段階のより詳細な流れ図である。最終プロセッサの
処理スタックから開始して、第１プロセッサの処理スタ
ックまで逆方向に作業することが望ましい。こうする
と、処理スタックを、最初の処理スタックから最終の処
理スタックまでのポインタを備えた連係リストとしてロ
ードすることが容易になる。第１段階１５１０で、処理
スタックから得られた処理ＩＤ（ＰＩＤ）を用いて、最
終処理スタックの第１ルーチンのアドレスをルーチン・
テーブルから読み取る。次いで、そのルーチンを局所メ
モリに、好ましくはプロセッサがアクセス可能な内部メ
モリにコピーする。次いで、局所ルーチンのアドレス
を、処理スタック中のルーチンのアドレスにロードす
る。段階１５２０で、ルーチンによって生成され使用さ
れるデータの入力アドレス及び出力アドレス用の入力ポ
インタ及び出力ポインタも生成される。これが処理スタ
ック中の最初のルーチンであるとすれば、この入力ポイ
ンタは入力ポート・アドレスである。この出力ポインタ
は、プロセッサがアクセス可能な内部メモリ中の局所ア
ドレスを指す。段階１５３０で、ある初期設定ルーチン
が、ルーチン・テーブルによって上記ルーチンが使用可
能なものとして指定されている場合、それが呼び出され
る。この初期設定ルーチンは、ウィンドウの位置、変
形、光情報等、そのルーチンが使用する属性を、局所メ
モリにロードする。さらに、この初期設定ルーチンは、
そのルーチンに必要な局所記憶域または作業用記憶域を
局所メモリ中でセットアップする。その作業用記憶域を
指すポインタが処理スタックにロードされる。ルーチ
ン、入力バッファ、出力バッファ、作業用記憶域へのメ
モリの割振り中に、構成キャッシュ中に記憶されてい
る、以前に実行された処理スタックのコピーを検査し
て、どのメモリ空間が使用可能か調べる。以前に実行さ
れた処理スタックに既に割り振られたメモリを現処理ス
タックに割り振りし直す場合、構成キャッシュ中のその
処理スタック用のロード・フラグがオフにされる。これ
は、以前に実行された処理スタック用の資源がもはやそ
の処理スタックに割り振られていないことを示す。この
フラグは、下記により詳細に述べる短縮ロード段階で使
用される。段階１５４０で、これが処理スタック上の最
終ルーチンなのかどうか判定する。ノーの場合、実行は
段階１５１０に戻り、処理スタック中の次のルーチンを
ロードする。イエスの場合は、段階１５５０で、これが
最終処理スタック（最初にロードされるが、処理スタッ
クの連係リスト中の最後にある処理スタック）なのかど
うか判定する。イエスの場合、段階１５５５で、復帰と
呼ばれる最終ルーチンを処理スタックに加える。この復
帰ルーチンは、実行段階中に実行されると、処理スタッ
クの実行を完了する。ノーの場合は、段階１５６０で、
ｓｅｎｄ−ｔｏ−ｎｅｘｔと呼ばれる、プロセッサ間で
データを移動させるための最終ルーチンを現処理スタッ
クの最後に加える。このルーチンの入力は前のルーチン
の出力アドレスであり、この出力アドレスはそのプロセ
ッサの出力バッファ・アドレスである。次いで段階１５
６５で、処理スタックならびに処理スタックを指すポイ
ンタを局所メモリ及び構成キャッシュにロードする。さ
らに、処理スタック及びその資源が局所メモリにロード
されていることを示す、その処理スタック用のオンにな
ったロード・フラグが、構成キャッシュに記憶される。
次いで段階１５７５で、これが最初の処理スタック（最
後にロードされるが、処理スタックの連係リスト中の最
初にある）であるかどうか判定する。ノーの場合、実行
は段階１５１０に戻り、前の処理スタックの最初のルー
チンを加える。イエスの場合は、段階１５８０で、実行
段階に進む。

【００３９】図１８は、上記の図７に記載されている短
縮ロード段階のより詳細な流れ図である。上記のロード
段階の場合と同様に、最終プロセッサ用の処理スタック
から始めて、第１プロセッサ用の処理スタックまで逆方
向に作業することが好ましい。こうすると、必要な場合
に、第１処理スタックから最終スタックまでのポインタ
を備えた連係リストとして、処理スタックを再ロードす
ることが容易になる。第１段階１６１０で、所与のタス
ク及び属性を求めて最終処理スタックに関して構成キャ
ッシュを読み取る。段階１６２０で、処理スタック用の
ロード・フラグを検査して、処理スタックが依然ロード
されているかどうか調べる。ノーの場合、上記のロード
段階中に、段階１６３０で、処理スタックを局所メモリ
に再ロードする。これには、ルーチン、入力ポインタ、
出力ポインタの再ロード、初期設定ルーチンの再実行等
が含まれる。段階１６２０がイエスの場合、あるいは処
理スタックの再ロードの後、最終処理スタックが構成キ
ャッシュから読み出されたかどうか判定する。ノーの場
合は、段階１６１０に戻る。そうでない場合は、段階１
６５０で、実行段階に進む。

【００４０】図１９は、図２に記載されているパイプラ
イン用の上記の構成段階、分配段階、ロード段階によっ
て生成される、１組の処理スタック１７００ないし１９
００を示している。処理スタックは、３次元モデルの三
角形を１つの環境光及び２つの指向性光（直接光）でレ
ンダリングするルーチンを含んでいる。処理スタックの
実行は、第１プロセッサが第１スタック１７００中の第
１ルーチン１７１０を実行することから開始される。こ
の場合、それは処理スタック中で与えられている局所ア
ドレスにあるメッシュ入力ルーチンとなるはずである。
このルーチンは、処理スタックからその入出力ポインタ
及び局所静的記憶域ポインタまたは作業用記憶域ポイン
タを拾い上げ、その機能を実行する。このルーチンは、
入力ポインタから、この場合はＭ１入力ポート・アドレ
スからデータを読み取り、出力ポインタに、この場合は
Ｍ１−Ａに結果を渡す。必要に応じて、このルーチンは
やはり処理スタックに割り振られた作業用記憶域を使用
する。次いで、次のルーチン１７２０に進み実行する。
処理スタック１７００中で実行される最終ルーチン１７
４０は、ｓｅｎｄ−ｔｏ−ｎｅｘｔルーチンである。こ
のルーチンは、次のプロセッサへデータの直接メモリ・
アクセス（ＤＭＡ）転送を開始する。ｓｅｎｄ−ｔｏ−
ｎｅｘｔルーチンが呼び出された後、プロセッサは、ｓ
ｅｎｄ−ｔｏ−ｎｅｘｔルーチンが完了するまで、ｓｅ
ｎｄ−ｔｏ−ｎｅｘｔ出力ポインタが指す出力バッファ
が書き込まれないようにする。その結果、プロセッサ
は、続いて割り振られるタスク用の後続の処理スタック
の処理を開始することができる。この場合、ｓｅｎｄ−
ｔｏ−ｎｅｘｔルーチンが完了した後、処理は第２プロ
セッサに進み、そこで第２の処理スタック１８００が実
行される。入力用にＭ２入力ポート・アドレス、出力用
にＭ２−Ａを用いて、周囲光ルーチン１８１０が実行さ
れる。この場合も、第２プロセッサはｓｅｎｄ−ｔｏ−
ｎｅｘｔルーチンに進み、そのルーチンが実行される。
処理は、第３プロセッサ用の処理スタック１９００に進
む。これらのルーチンは、最終ルーチンまで実行され
る。最終スタック１９００上の最終ルーチン１９３０
は、タスクが完了すると、実行を停止させる復帰ルーチ
ンである。

【００４１】以上本発明を特定の実現例に関して完全に
説明したが、当業者には、他の代替実施例も明白なはず
である。たとえば、必要に応じて各パイプラインにタス
クが割り振られる、多重パイプライン用の割振りプロセ
ッサを使用することもできる。さらに、上記の各プロセ
ッサは複数の処理ユニットを含むことができる。これら
の複数の処理ユニットも、多重プロセッサ・パイプライ
ンに編成することができる。さらに、処理パイプライン
は、共用メモリを利用することができる。代替分配方式
も使用できる。さらに、構成キャッシュとは別の構成キ
ャッシュを用いて、もはやロードされていない、以前に
実行された処理スタックを検出する方法を実施すること
もできる。

【００４２】

【発明の効果】本発明の利点は、プロセッサまたはメモ
リを付加または削減することにより、あるいはプロセッ
サ間またはメモリ間あるいはプロセッサとメモリとの間
の関係を変更することにより、パイプラインが容易に修
正できることにある。その後、ユーザは、単に、パイプ
ラインを表すパイプライン・マップを再構成し、以前に
割り振られた処理スタックを含む構成マップを消去する
だけでよい。こうすると、割振りプロセッサが、修正さ
れたパイプライン・マップを利用しながら、処理スタッ
クを新しいパイプライン構成用に割り振りし直すことに
より、パイプライン全体にわたって容易にタスクの平衡
をとり直すことが可能になる。

【図面の簡単な説明】

【図１】典型的なディジタル・コンピュータの構成図で
ある。

【図２】本発明の好ましい実施例を利用した、可能な図
形パイプラインの構成図である。

【図３】ルーチンを処理パイプラインに割り振るのに有
用な、パイプライン・マップ及びその他の情報を記憶す
るメモリの構成図である。

【図４】上記の図３に示したパイプライン・マップ中で
使用される、データ構造の例を示す図である。

【図５】上記の図３に示したパイプライン・マップ中で
使用される、データ構造の例を示す図である。

【図６】割振りプロセッサがタスクを割り振るのに利用
できる、パイプライン・マップから作成されたポインタ
または連係リストを示す図である。

【図７】タスクをパイプラインで処理するために割り振
りまたは編成するのに用いられる方法の高レベル流れ図
である。

【図８】所与の１組のルーチン用に生成できる、処理ス
タックを示す図である。

【図９】上記の第７図に記載されている構成段階のより
詳細な流れ図である。

【図１０】構成リストを示す図である。

【図１１】ルーチン・テーブルを示す図である。

【図１２】上記の図７に記載されている段階８０５のよ
り詳細な流れ図である。

【図１３】構成キャッシュ・エントリを示す図である。

【図１４】上記の図７に記載されている分配段階８１０
のより詳細な流れ図である。

【図１５】上記の図１４に記載されている割当て段階１
２２０のより詳細な流れ図である。

【図１６】上記の図１４に記載されている新しい目標ボ
トルネック計算のより詳細な流れ図である。

【図１７】上記の図７に記載されているロード段階のよ
り詳細な流れ図である。

【図１８】上記の図７に記載されている短縮ロード段階
のより詳細な流れ図である。

【図１９】１組の実行用処理スタックを示す図である。

【符号の説明】

１００ディジタル・コンピュータ・システム１０５ホスト・コンピュータ１１０主コンピュータ１２０メモリ１３０入力装置１４０出力装置１５０図形出力装置１６０バス２００図形アダプタ２１０図形パイプライン２２０図形プロセッサ２３０図形メモリ２４０フレーム・バッファ

───────────────────────────────────────────────────── フロントページの続き (72)発明者マーク・アラン・アインカウフアメリカ合衆国78641、テキサス州リーンダー、ノース・ウォーカー 2704番地 (72)発明者アレン・ピーター・イェンセンアメリカ合衆国78758、テキサス州オースチン、スウェアリンゲン 11901番地 11 号 (72)発明者マイケル・テレル・ヴァノーヴァーアメリカ合衆国78727、テキサス州オースチン、ウィスパリング・バレー・ドライブ 4603番地

Claims

【特許請求の範囲】

【請求項１】ａ）複数の処理ユニットと、ｂ）高レベル命令を実行するための複数の命令を生成す
る手段と、ｃ）各グループが上記処理ユニットの１つによって処理
される命令を少なくとも１つ含むように、上記の生成さ
れた複数の命令を１以上のグループに動的に編成する手
段とを含む、高レベル命令を並列処理するための装置。
【請求項２】上記処理ユニットが、上記各命令グループ
中の各命令を順次処理する手段を含むことを特徴とす
る、請求項１の装置。
【請求項３】上記処理ユニットを順次結合する手段を含
む、請求項２の装置。
【請求項４】上記グループを上記の処理ユニットによっ
て順次処理する手段を含む、請求項３の装置。
【請求項５】上記編成手段に結合され、上記各命令を処
理するための時間の長さを提供する手段と、上記編成手段が、各命令を処理するために提供される上
記時間の長さに基づいて、命令を上記グループに動的に
編成する手段とを含むことを特徴とする、請求項４の装
置。
【請求項６】上記編成手段に結合され、上記各命令を処
理するための時間の長さを提供する手段と、上記編成手段に結合され、上記処理ユニットの記述を提
供する手段と、上記編成手段が、各命令を処理するために提供される時
間の長さ及び上記処理ユニットについて提供される記述
に基づいて、命令を上記グループに動的に編成する手段
とを含むことを特徴とする、請求項４の装置。
【請求項７】上記処理ユニットの少なくとも１つが、複
数のプロセッサを含むことを特徴とする、請求項６の装
置。
【請求項８】上記編成手段に結合された、上記各処理ユ
ニットに利用可能なメモリ資源の記述を行う手段を含
む、請求項６の装置。
【請求項９】ａ）高レベル命令を実行するための複数の
命令を生成する段階と、ｂ）各グループが上記処理ユニットの１つによって処理
される命令を少なくとも１つ含むように、上記の生成さ
れた複数の命令を１以上のグループに動的に編成する段
階とを含む、高レベル命令を複数の処理ユニットによっ
て並列処理する方法。