JPH08212070A

JPH08212070A - プロセッサ・アーキテクチャにおける分散制御のための装置および方法

Info

Publication number: JPH08212070A
Application number: JP7318516A
Authority: JP
Inventors: Young Robert; ロバート・ヤング
Original assignee: Sun Microsystems Inc
Current assignee: Sun Microsystems Inc
Priority date: 1994-11-14
Filing date: 1995-11-14
Publication date: 1996-08-20
Anticipated expiration: 2015-11-14
Also published as: JP3771957B2; US5592679A; KR960018961A

Abstract

(57)【要約】【課題】本発明は、分散データ・フロー（ＤＤＦ）プ
ロセッサの複数の実行パイプを制御する多重レベル命令
スケジューリング・システムを提供する。【解決手段】この多重レベル・スケジューリング・シ
ステムは、単純な大域命令スケジューラと、実行パイプ
の数に対応する複数のローカル命令スケジューラとを備
える。大域命令スケジューラは、実行パイプへの命令の
分配を行う。各ローカル命令スケジューラは、分配され
た命令の分担分のスケジューリングと、ソース・オペラ
ンドがすべての使用可能なときに、数の減少した命令を
対応する実行パイプの実行ユニットとマッチさせること
のみを行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、コンピュータ・プ
ロセッサ・アーキテクチャの分野に関する。具体的に
は、本発明はコンピュータ・プロセッサにおける分散制
御の分野に関する。

【０００２】

【従来の技術】単一の実行ユニットを有するプロセッサ
を備えたコンピュータの処理速度は、主として２つの要
因によって左右される。第１の要因は、命令サイクル・
タイムである。第２の要因は、アーキテクチャ／マイク
ロアーキテクチャおよびその実施態様の並列性または複
雑さ、すなわち、各命令について実行ユニットが実行で
きる計算の総量である。したがって、このようなプロセ
ッサの有効な処理速度は、サイクル・タイムを減らす
か、マイクロプロセッサの並列性を高めるか、あるいは
その両方によって向上させることができる。

【０００３】しかし、上記の２つの要因は両立しないこ
とが多い。一方の要因を最適化すると、他方の要因を犠
牲にしなければならないことがある。たとえば、アーキ
テクチャを強化して、２次元配列の浮動小数点数を乗算
する命令を組み込むと、その命令のサイクル・タイムが
増える。逆に、平均サイクル・タイムを最小限にするた
めには、命令セットに単純な命令だけを組み込まなけれ
ばならない。パイプライン方式は複雑な命令に伴うサイ
クル・タイムの増加を軽減することができるが、パイプ
ライン方式によって命令待ち時間も増える。

【０００４】性能を向上させるために、複数の命令を同
時に実行することが可能な複数の実行ユニットを有する
データ・フロー・プロセッサなど様々なプロセッサ・ア
ーキテクチャが探求されてきた。商業的に実用化されて
いるものとしては、ＬＳＩロジックの「ライトニング」
やヒュンダイ・エレクトロニクスの「サンダー」ＳＰＡ
ＲＣプロセッサなどがある。従来のソフトウェア命令は
一般に順次プログラム順に作成、実行されるが、実際に
は命令のオペランド相互依存が１００％であることはめ
ったにないこと、すなわち、前の命令がすべて実行され
るまではどの命令も実行できないということはめったに
ないという所見から、データ・フロー・プロセッサの基
本アーキテクチャが発展した。命令オペランド相互依存
は一般には５０％未満である。したがって、いくつかの
独立した命令を１つのサイクルで別々の実行ユニットに
よって同時に処理することが可能である。さらに、命令
オペランド相互依存は、並列指向ソフトウェア・プログ
ラミング言語およびコンパイラ技法を用いることによっ
て減少させることができる。

【０００５】図１は、複数の実行ユニットを有する従来
のデータ・フロー・プロセッサ・アーキテクチャを示す
ブロック図である。データ・フロー・プロセッサ１００
は、命令キャッシュ・メモリ１１０、先取りバッファ１
２０、予測レジスタ・ファイル１３５を有する集中命令
スケジューラ１３０、複数の実行ユニット１４１、１４
２、．．．１４９、およびレジスタ・ファイル／メモリ
１９０を備えている。先取りバッファ１２０は、命令キ
ャッシュ・メモリ１１０と集中命令スケジューラ１３０
の間に結合されている。レジスタ・ファイル／メモリ１
９０は集中命令スケジューラ１３０に結合されている。
複数の実行ユニット１４１、１４２、．．．１４９はそ
れぞれ、集中命令スケジューラ１３０に結合されてい
る。

【０００６】データ・フロー・プロセッサ１００によっ
て各命令が処理されるとき、命令は保留、発行済み、完
了、およびリタイアの４つの状況の１つをとる。命令が
保留中であるとは、使用可能な実行ユニットや１つまた
は複数のソース・オペランドを待つ間、命令が命令キャ
ッシュ１１０から取り出され、先取りバッファ１２０に
格納されている場合である。発行済み状態では、集中命
令スケジューラ１３０によって実行ユニット１４１に対
して命令が出され、命令のソース・オペランドが使用可
能である。次に、命令は完了、すなわち実行ユニット１
４１によって実行される。最後に命令はリタイアされ
る。リタイアされると、適切な実行ユニット、たとえば
１４１がリタイアされた命令の状況と結果値を集中命令
スケジューラ１３０の先取りレジスタ・ファイル１３５
に返して、プロセッサ１００のそれに対応する命令状況
を更新する。集中命令スケジューラ１３０は、実行ユニ
ット１４１などの資源を実行ユニットの自由プールに返
し、リタイアされた命令の宛先オペランド値をレジスタ
・ファイル１９０に転送する。

【０００７】集中命令スケジューラ１３０には複数の実
行ユニット１４１、１４２、．．．１４９があるため、
理論的には、データ・フロー・プロセッサ１００は最大
Ｎ個の発行済み命令を持つことができる。この場合、Ｎ
は実行ユニットの総数に各実行ユニット内のステージ数
を掛けた数である。したがって、オペランド相互依存が
ない理想的な命令のセットでは、Ｎ個の発行済み命令を
同時に実行することもできる。実際には、通常、Ｎ個の
発行済み命令の間にはいくらかのオペランド依存があ
り、発行済みのいくつかの命令の実行は、それより古い
他の命令がすべて完了してソース・オペランド値が使用
可能になるのを待つ間、遅らせなければならない。先取
りレジスタ・ファイル１３５は、別々の実行ユニットに
対して出された命令の間のオペランド相互依存を満たす
ために必要なオペランド値の一時保管場所の役割を果た
す。レジスタ・ファイル１３５は、プログラマにとって
可視のファイルまたは永続レジスタ・ファイルとは異な
る。たとえば、プログラマ可視ファイルには、対応する
レジスタ設定命令が実行中に打ち切られた場合に無効化
される可能性のある一時レジスタ値が含まれていること
がある。それに対して、レジスタ・ファイル１３５は、
プログラマにとって透過、すなわち見えないファイルで
あり、集中命令スケジューラ１３０がアクセスすること
が可能なレジスタの専用プールとして使用される。した
がって、中程度の量の並行処理を行うことができ、それ
によってデータ・フロー・プロセッサ１００は、単一の
実行ユニットを有する従来のプロセッサと比較してより
高い命令スループットを実現することができる。

【０００８】残念ながら、この中程度の処理速度の高速
化に伴って、すべての命令をスケジュールし、すべての
実行ユニット１４１、１４２、．．．１４９の状況を追
跡するためのプロセッサ１００の制御回路が指数関数的
に複雑化する。集中命令スケジューラ１３０によって維
持されるこの制御情報とオペランド情報は、実行ユニッ
ト１４１、１４２、．．．１４９の数の増加や先取りバ
ッファ１２０内の保留中の命令数の増加につれて大幅に
増える。したがって、従来のデータ・フロー・プロセッ
サ１００は、単一命令スケジューラ１３０がこの大量の
制御情報とデータ情報を維持できる能力によって厳しく
制限されている。さらに、プロセッサ１００のスケーラ
ビリティは、実行ユニット１４１、１４２、．．．１４
９を制御するために必要な集中命令スケジューラ１３０
の回路の複雑化によって制限される。

【０００９】

【発明の要旨】本発明は、分散データ・フロー（ＤＤ
Ｆ）プロセッサの複数の実行パイプを制御する多重レベ
ル命令スケジューリング・システムを提供する。この多
重レベルスケジューリング・システムは、単純な大域命
令スケジューラと複数のローカル命令スケジューラを備
えている。各ローカル命令スケジューラにはそれぞれの
実行パイプの１つが関連づけられている。大域命令スケ
ジューラは、実行パイプに命令を分配することだけを行
う。したがって、その回路は従来の集中命令スケジュー
ラに比べて単純であり、他の制御機能はローカル命令ス
ケジューラにゆだねられる。同様に、各ローカル命令ス
ケジューラは、分配された命令の分担分のスケジューリ
ングおよび数の減少した命令とそれに対応する実行パイ
プの実行ユニットとのマッチだけを行うため、ローカル
命令スケジューラも集中命令スケジューラに比べて単純
である。多重レベル・スケジューリング・システムが単
純化される結果、ＤＤＦプロセッサは容易に拡張可能に
なる。

【００１０】大域命令スケジューラは、たとえば浮動小
数点、整数、またはブールなどの命令クラスやオペラン
ド依存などの適切な基準に基づいて、各実行パイプに命
令を分配する。実行パイプに命令が分配されると、それ
ぞれのローカル命令スケジューラはその命令の実行をス
ケジューリングすることだけを担当する。命令のソース
・オペランド値が入手可能な場合、命令は実行パイプの
使用可能な実行ユニットとマッチさせられる。命令のソ
ース・オペランド値は、３通りの方法の１つで取り出さ
れる。

【００１１】第１に、ローカル命令スケジューラは、ロ
ーカルで生成されたレジスタ・オペランド値が、実行パ
イプに分配されたより若い命令によって使用されるよう
に、ローカル・レジスタ・バッファに格納されるように
する。したがって、ローカルで生成されたレジスタの結
果値はローカルで、すなわち実行パイプ内で迅速に使用
可能になり、外部アクセスの必要がない。言い換える
と、パイプ間オペランド依存が、ローカル命令スケジュ
ーラによってローカルで迅速に解決される。

【００１２】第２に、ローカル・レジスタ・バッファに
命令のソース・オペランド値が入っていない場合、アー
ビタに対してパイプ間オペランド要求が行われる。パイ
プ間オペランド相互依存の解決を行うアービタは、その
要求をすべての実行パイプまたは一部の実行パイプに同
報通信することができる。あるいは、アービタは大域命
令スケジューラに問い合わせて、必要なソース・オペラ
ンドを持つ別の実行パイプの識別子を取り出す。他の実
施態様では、各命令の必要なオペランドのソース、すな
わち実行パイプの識別子が、命令とともに送られ、それ
によってその後のソース・オペランド値の生成が簡単に
なる。オペランド値を別の実行パイプから入手可能な場
合、第１の実行パイプと第２の実行パイプを結合するパ
イプ間バイパスを介してソース・オペランドの転送が開
始される。

【００１３】第３に、ソース・レジスタ・オペランド値
が他のどの実行パイプでも見つからない場合、レジスタ
・オペランド値は大域レジスタ・ファイルから取り出さ
れる。次に、要求されたオペランド値は、第１の実行ユ
ニットを大域レジスタ・ファイルに結合するパイプ間バ
イパスを介して転送される。

【００１４】すべてのソース・オペランド値が実行パイ
プに転送されると、命令が実行パイプ内の使用可能な実
行ユニットとマッチさせられる。最終的に、命令はその
実行パイプ内で実行を完了し、リタイアされる。実行パ
イプによって生成された結果のオペランド値は、大域レ
ジスタ・ファイルに書き込まれる。さらに、ローカル命
令スケジューラは、実行の完了を大域命令スケジューラ
に通知し、それによって命令の処理が完了する。

【００１５】本発明の分散データ・フロー（ＤＤＦ）プ
ロセッサには、従来のデータ・フロー・プロセッサより
優れたいくつかの利点がある。そのいくつかは、大域命
令スケジューラとローカル命令スケジューラのスケジュ
ーリングを単純化する階層多重レベル・スケジューリン
グによる利点である。単純化された大域命令スケジュー
ラは、実行パイプからの命令状況情報を処理するだけで
済み、オペランド値を扱う必要がなくなる。したがっ
て、ＤＤＦプロセッサは容易に拡張可能で、それに伴っ
て大域およびローカル命令スケジューラの回路が複雑化
することなく、追加の実行パイプを付加することができ
る。

【００１６】この複数実行パイプ・アーキテクチャは、
マルチタスク、システム例外／トラップ処理、および、
たとえば命令分岐予測技法のような先取り実行などのソ
フトウェア最適化技法に役立つ。たとえば、ＤＤＦプロ
セッサは、個々のタスクを別々の実行パイプで実行する
ことによってマルチタスクを行うことができる。同様
に、それぞれの累積確率に基づいて、別々の実行パイプ
で実行する複数の計算パスを選択することによって、先
取り実行を行うことができる。

【００１７】複数実行パイプ・アーキテクチャの他の利
点としては、実行パイプ間の制御／クロック同期論理回
路の減少がある。たとえば、各バイパスを介したパイプ
間交信が同期化されると同時に、各実行パイプはそれぞ
れの固有のクロック速度で、固有の同期またはクロック
方法を用いて動作することができる。さらに、様々な実
行パイプのクロック速度をそれぞれの機能に応じて最適
化することができる。

【００１８】

【発明の実施の形態】以下の説明では、多くの詳細によ
って本発明を十分に理解することができる。これらの詳
細には、開発者が分散データ・フロー（ＤＤＦ）プロセ
ッサを実現するための手助けとなる機能ブロックとスケ
ジューリング基準例が含まれている。さらに、本発明の
ＤＤＦプロセッサについて、特定の実施形態を参照しな
がら説明するが、本発明はデータ・フローと非データ・
フローの両方のアーキテクチャおよび環境に適用可能で
ある。他の実施形態では、本発明が不必要に不明瞭にな
らないように、周知の回路および構造については説明し
ない。

【００１９】図２は、本発明の１つの実施形態に従った
ＤＤＦプロセッサ・アーキテクチャを示すブロック図で
ある。ＤＤＦプロセッサ２００は、命令キャッシュ・メ
モリ２１０、複数の先取りバッファ２２１、２２
２、．．．２２９、大域命令スケジューラ２３０、複数
の実行パイプ２４１、２４２、．．．２４９、１つまた
は複数のパイプ間バイパス２５１、．．．２５９、アー
ビタ２６０、および大域レジスタ・ファイル／メモリ２
９０を備えている。各命令パイプは、固有のローカル命
令バッファ、ローカル命令スケジューラ、実行ユニッ
ト、および一時ローカルレジスタ・バッファを備えてい
る。たとえば、命令パイプ２４１は、ローカル命令バッ
ファ２４１ａ、ローカル命令スケジューラ２４１ｂ、実
行ユニット２４１ｃ、およびローカル・レジスタバッフ
ァ２４１ｄを備えている。同様に、命令パイプ２４２は
ローカル命令バッファ２４２ａ、ローカル命令スケジュ
ーラ２４２ｂ、実行ユニット２４２ｃ、およびローカル
・レジスタバッファ２４２ｄを備えている。したがっ
て、実行パイプ２４１の動作の説明は他の実行パイプ２
４２、．．．２４９にも等しく適用可能である。

【００２０】命令キャッシュ２１０と大域命令スケジュ
ーラ２３０の間に、先取りバッファ２２１、２２
２、．．．２９２が結合されている。大域命令スケジュ
ーラ２３０にはローカル命令バッファ２４１ａ、２４２
ａ、．．．２４９ａを介して実行パイプ２４１、２４
２、．．．２４９がそれぞれ接続されている。実行パイ
プ２４１、２４２、．．．２４９は相互に接続されてお
り、１つまたは複数のパイプ間バイパス２５１、．．．
２５９によってレジスタ・ファイル２９０にも接続され
ている。アービタ２６０が、バイパス２５１、．．．２
５９、大域命令スケジューラ２３０、およびレジスタ・
ファイル２９０に接続されている。

【００２１】本発明の他の態様に従うと、ＤＤＦプロセ
ッサ２００は、複数の命令を処理するための階層多重レ
ベル・スケジューリング構造を備えている。大域命令ス
ケジューラ２３０は、実行パイプ２４１、２４
２、．．．２４９に命令を割り振って分配することを必
要とする最上位レベルのスケジューリングを行う。それ
に対して、ローカル命令スケジューラ２４１ｂ、２４２
ｂ、．．．２４９ｂは、命令を実行ユニットとマッチさ
せ、それぞれ実行パイプ２４１、２４２、．．２４９に
命令のソース・レジスタ・オペランド値を入手すること
を必要とする、より低いレベルのスケジューリングを行
う。

【００２２】１つの実施形態では、以下のようにして命
令が処理される。まず、大域命令スケジューラ２３０が
先取りバッファ２２１、２２２、．．．２２９を介して
命令キャッシュ２１０から命令を取り出す。次に、大域
命令スケジューラ２３０は、それらの命令を実行パイプ
２４１、２４２、．．．２４９に分配する。別々の実行
パイプに分配された命令間のオペランド依存を最小限に
するために、命令クラスまたはオペランド依存による分
配など適切な資源（実行パイプ）割り振り基準を実施す
ることができる。一般に、浮動小数点、整数、およびブ
ール命令はそれぞれ浮動小数点、整数、およびブール・
オペランドに対して実行されるため、命令クラスによる
分配は有効である。好ましい実施形態では、命令は大域
命令スケジューラ２３０によってその命令のソース・オ
ペランドに関する情報とともに分配される。

【００２３】それぞれの実行パイプに命令が分配された
後は、大域命令スケジューラ２３０は命令間のオペラン
ド相互依存の解決は行わない。実行パイプ２４１、２４
２、．．．２４９、たとえばパイプ２４１に命令が分配
されると、それぞれのローカル命令スケジューラ２４１
ｂ、２４２ｂ、．．．２４９ｂ、たとえばスケジューラ
２４１ｂが、命令のローカル・スケジューリングを担当
する。命令は次に、大域命令スケジューラ２３０によっ
て、それぞれのローカル命令バッファ２４１ａ、２４２
ａ、．．．２４９ａ、たとえばバッファ２４１ａにロー
ドされる。次に、ローカル命令スケジューラ２４１ｂは
ローカル・バッファ２４１ａから実行可能になっている
命令を取り出し、実行ユニット２４１ｃに命令をディス
パッチする。

【００２４】実行パイプ２４１内の命令は、必ずしも大
域命令スケジューラ２３０によって分配された順序で実
行されるわけではないことに留意されたい。これは、命
令スケジューラ２４１ｂによるローカル・スケジューリ
ングが、実行パイプ２４１内の空き実行ユニット２４１
ｃの可用性と、ローカル命令バッファ２４１ａ内の命令
のソース・オペランドの可用性とに基づいて行われるた
めである。たとえば、バッファ２４１ａ内の古い方の
（プログラムの順でより早い方の）命令がソース・オペ
ランドを待っている間に、バッファ２４１ａ内のより若
い（プログラムの順でより遅い）命令が、必要なソース
・オペランド値がすべて揃って、実行可能になることが
ある。その場合、近い実行ユニットが使用可能であれ
ば、若い方の命令がディスパッチされる。

【００２５】本発明の他の態様に従うと、レジスタ・オ
ペランド値への迅速なアクセスを容易にするため、ロー
カル命令スケジューラ２４１ｂは、ローカルで生成され
たレジスタ・オペランド値をローカル・レジスタ・バッ
ファ２４１ｄに格納し、実行パイプ２４１に分配された
より若い命令がソース・オペランド値として使用できる
ようにする。その結果、ローカルで生成されたレジスタ
の結果値はすべてローカルで、すなわち実行パイプ２４
１内で入手可能になり、実行パイプ２４１の外部へのア
クセスが不要になる。言い換えると、パイプ間オペラン
ドの相互依存はローカル命令スケジューラ２４１ｂによ
って解決される。プログラムの正常実行時には、レジス
タ・バッファ２４１ｄ内のそれぞれのレジスタは再使用
の前に名前変更されるため、ローカル命令スケジューラ
２４１ｂによるレジスタ・バッファ２４１ｄに格納され
ているオペランド値の無効化は不要である。

【００２６】大域レジスタ・ファイル２９０と複数のロ
ーカル・レジスタ・バッファ２４１ｄ、２４２
ｄ、．．．２４９ｄを備えた階層レジスタ・ファイル・
システムは、以下のような理由で従来の技術より優れて
いる。単一の集中レジスタ・ファイルは、大容量高速大
域メモリを多数の実行ユニットと相互接続することによ
ってきわめて広いシリコン面積を要し、入出力ポートの
多いきわめて複雑な回路を必要とするため、理想的では
ない。この拡大は、大域メモリのサイズや実行ユニット
の数が増大するに従って指数関数的に増える。

【００２７】それに対して、本発明のように、実行ユニ
ットの小さなサブセットの近くに配置された少数の高速
レジスタ・バッファを専用化することにより、シリコン
面積における著しい不利を生ずることなく、最も頻繁に
アクセスされるオペランドへのアクセスの高速化が可能
になる。これは、統計的にソース・オペランドの大多数
（たとえば＞９０％）が、プログラム順で１０行未満の
命令行しか離れていない他の命令によって生成されるた
めである。したがって、単一の大域レジスタ・ファイル
の代わりに、ローカル・レジスタ・バッファ２４１ｄ、
２４２ｄ、．．．２４９ｄが大量オペランド・アクセス
を効率的に処理し、ＤＤＦプロセッサ２００の回路全体
が複雑化しない。その結果、階層レジスタ・ファイル・
システムは容易に拡張可能である。前記の階層レジスタ
・ファイル構成は、複数の実行ユニットを有する他のプ
ロセッサ・アーキテクチャ、たとえば複数の実行ユニッ
トを有する単一のパイプライン・プロセッサにも同様に
適用可能であることに留意されたい。

【００２８】実行パイプ２４１内の命令の１つまたは複
数のソース・オペランドがローカル・レジスタ・バッフ
ァ２４１ｄ内に見つからない場合（その確率は低い）、
実行パイプ２４１がアービタ２６０に対してパイプ間オ
ペランド要求を行う。パイプ間オペランド相互依存の解
決を行うアービタ２６０は、必要なソース・オペランド
を持っている実行パイプの識別子を求める要求を出す。
オペランド値が別の実行パイプにある場合、そのソース
・オペランドを持っている実行パイプ、たとえばパイプ
２４２の識別子を大域命令スケジューラ２３０から受け
取ると、アービタ２６０はパイプ間バイパス２５
１、．．．２５９のうちの適切な１つを介してそのソー
ス・オペランドの転送を開始する。通例、パイプ間バイ
パスは類似したクラスの実行ユニットを有する実行パイ
プを相互接続するために必要なものである。たとえば、
実行パイプ２４１、２４２、．．．２４９の第１の対と
第２の対が、それぞれ浮動小数点実行パイプと整数実行
パイプであるとすれば、第１のバイパスが浮動小数点実
行パイプの対を相互接続し、第２のバイパスが整数実行
パイプの対を相互接続することができる。

【００２９】したがって、アービタ２６０の主たる機能
は、パイプ間オペランド値トラフィックを調整すること
である。ある種の実施形態では、アービタ２６０は、た
とえば大域命令スケジューラ２３０に問い合わせること
によって、必要なソース・オペランド値のある場所（実
行パイプ）を判断することもできる。

【００３０】ソース・オペランド値がどの実行パイプ２
４１、２４２、．．．２４９にも見つからない場合（そ
の確率はさらに低い）、大域レジスタ・ファイル２９０
へのアクセス要求が出される。要求されたレジスタ・オ
ペランド値は、大域レジスタ・ファイル２９０から実行
パイプ２４１に転送される。必要なソース・オペランド
値をその命令がすでにすべて入手していれば、これでそ
の命令と実行パイプ２４１の実行ユニットとのマッチを
行うことができるようになる。

【００３１】同一パイプ２４１内から、パイプ間バイパ
ス２５１を介して他の実行パイプ２４２、．．．２４９
から、または大域レジスタ・ファイル２９０から、実行
パイプ２４１内の各命令のソース・オペランドがすべて
取り出されると、ローカル命令スケジューラ２４１ｂは
その命令を実行ユニット２４１ｃのうちの空き実行ユニ
ットとのマッチを行い、その実行ユニットに命令をディ
スパッチする。実行パイプ２４１のローカル・レジスタ
・バッファ２４１ｄを使用することにより、実行パイプ
２４１内で生成されたレジスタ値へのローカル・アクセ
スを高速化することができる。最後に、命令は実行パイ
プ２４１内で実行を完了し、リタイアされる。実行パイ
プ２４１によって生成された結果のオペランド値は、次
に大域レジスタ・ファイル２９０に書き込まれる。さら
に、ローカル命令スケジューラ２４１ｂは実行の完了を
大域命令スケジューラ２３０に通知し、それによって命
令の処理が完了する。

【００３２】分散データ・フロー（ＤＤＦ）プロセッサ
２００には、従来のデータ・フロー・プロセッサ１００
より優れたいくつかの利点がある。利点のいくつかは、
大域命令スケジューラ２３０とローカル命令スケジュー
ラ２４１ｂ、２４２ｂ、．．．２４９ｂによってスケジ
ューリングを単純化する階層多重レベル・スケジューリ
ングによるものである。また、ＤＤＦプロセッサ２００
の複数の先取りバッファ２２１、２２２、．．．２２９
と複数の実行パイプ２４１、２４２、．．．２４９によ
って実現される、本質的な並列性と同時性による利点も
ある。

【００３３】前述のように、大域命令スケジューラ２３
０は実行パイプ２４１、２４２、．．．２４９への命令
の分配だけを行うため、大域命令スケジューラ２３０の
制御回路は従来の集中命令スケジューラ１３０よりも単
純である。さらに、各実行パイプをビジーにしておくの
に必要な命令の数は、集中命令スケジューラ１３０をビ
ジーにしておくために必要な命令数と比較して少ないた
め、ローカル命令スケジューラ２４１ｂ、２４２
ｂ、．．．２４９ｂの制御回路はそれに対応して単純で
ある。したがって、ＤＤＦプロセッサ２００は容易に拡
張可能であり、比較的簡単に、すなわち、大域命令スケ
ジューラ２３０の回路の複雑さが指数関数的に増すこと
なく、追加の実行パイプを付加することができる。

【００３４】また、ＤＤＦプロセッサ２００の複数先取
りバッファおよび複数実行パイプ・アーキテクチャは、
マルチタスク、システム例外／トラップ処理、たとえば
命令分岐予測技法のような先取り実行など、ソフトウェ
アとシステムの最適化技法とにも役立つ。たとえばＤＤ
Ｆプロセッサ２００は、各タスクを先取りバッファ２２
１、２２２、．．．２２９の個別の１つに分離し、実行
パイプ２４１、２４２、．．．２４９の個別の１つで個
々のタスクを並行して実行することにより、マルチタス
クを行うことができる。マルチタスクをサポートするた
めに複数組のプロセッサ状態が必要になる可能性がある
が、実行ユニット２４１ｃ、２４２ｃ、．．．２４９ｃ
それぞれの専用のローカル・レジスタ・バッファ２４１
ｄ、２４２ｄ、．．．２４９ｄや、データの共有と複数
実行タスク／パスの間の連絡のためのパイプ間バイパス
２５１、．．．２５９などのハードウェアはすでに存在
している。

【００３５】同様に、ＤＤＦプロセッサ２００では、そ
れぞれの累積確率に基づいて個別の実行パイプでの実行
のために複数の計算パスを選択することによって、先取
り実行を行うことができる。先取り実行は、マルチタス
クの場合と同様、選択された各パスを先取りバッファ２
２１、２２２、．．．２２９の個別の１つに分離し、個
々のタスクを実行パイプ２４１、２４２、．．．２４９
の１つで並行して実行することによって行われる。

【００３６】これらのマルチタスクや先取り実行などの
最適化技法によって、プロセッサ２００では同時に複数
のコンテキストを実現することができ、それによって、
従来の単一パイプライン・アーキテクチャでは通常、必
要悪である、コンテキスト切換えが減少する。コンテキ
スト切換えオーバーヘッドの減少によって、特にタスク
またはプログラムがページ・フォルトなどの待ち時間の
短いイベントを待っているとき、プロセッサ２００の全
体の使用効率が向上して有利である。

【００３７】複数実行パイプ・アーキテクチャのハード
ウェア上の利点としては、実行パイプ２４１、２４
２、．．．２３９の実行ユニット間で必要な制御および
クロック同期が減少することと、より非同期的なアーキ
テクチャに伴う回路の単純さがある。たとえば、各バイ
パスを介したパイプ間連絡が同期化されると同時に、個
々の実行パイプがそれぞれの固有のクロック速度と固有
の同期またはクロック方法で動作することができる。さ
らに、様々な実行パイプのクロック速度をそれぞれの機
能に応じて最適化することができる。

【００３８】本発明の精神から逸脱することなく、他の
変更も可能である。たとえば、上記の分散データ・フロ
ー・アーキテクチャは、パイプライン化など他のソフト
ウェア技法およびハードウェア技法と組み合わせて実施
することができる。したがって、本発明の範囲は以下の
請求の範囲によって決定されるものとする。

【図面の簡単な説明】

【図１】プロセッサの従来のデータ・フロー・アーキ
テクチャを示すブロック図である。

【図２】本発明に従った、プロセッサの分散データ・
フロー・アーキテクチャを示すブロック図である。

【符号の説明】

２１０命令キャッシュ／メモリ２２１先取りバッファ２３０大域命令スケジューラ２４１ａローカル命令バッファ２４１ｂローカル命令スケジューラ２４１ｃ実行ユニット２４１ｄローカル・レジスタ・バッファ２５１パイプ間バイパス２６０アービタ２９０大域レジスタ・ファイル／メモリ

Claims

【特許請求の範囲】

【請求項１】複数の命令を命令の小グループに分ける
大域命令スケジューラと、前記大域命令スケジューラに結合され、各実行パイプが
命令の前記小グループのうちの対応する１つを受け取
り、各実行パイプが命令の前記対応する小グループをス
ケジューリングするローカル命令スケジューラを有する
複数の実行パイプとを備えた分散データ・フロー（ＤＤ
Ｆ）プロセッサ。
【請求項２】前記実行パイプのうちの２つに接続さ
れ、前記２つの実行パイプ間でオペランド値を転送する
パイプ間バイパスをさらに備えた請求項１に記載のＤＤ
Ｆ。
【請求項３】複数の命令を前記複数の実行パイプに分
配する大域命令スケジューラを備えた、前記複数の実行
パイプを有する分散データ・フロー・プロセッサと共に
使用して有用な命令スケジューリング・システム。
【請求項４】前記大域命令スケジューラに結合され、
前記各実行パイプ内の命令をスケジューリングする複数
のローカル命令スケジューラをさらに備えた請求項３に
記載の命令スケジューリング・システム。
【請求項５】分散データ・フロー・プロセッサと共に
使用して有用な複数の実行パイプであって、前記実行パ
イプのそれぞれが、前記各実行パイプ内の命令をスケジューリングするロー
カル命令スケジューラと、前記ローカル命令スケジューラに結合され、前記スケジ
ュールされた命令を実行する実行ユニットとを備えた実
行パイプ。
【請求項６】前記実行ユニットに接続され、前記実行
ユニットによって生成されたオペランド値を格納するレ
ジスタ・バッファをさらに備えた請求項５に記載の実行
パイプ。
【請求項７】複数の実行パイプを有するプロセッサと
共に使用して有用なアービタであって、前記実行パイプのうちの２つの間でのレジスタ・オペラ
ンド値の転送を指示する要素を備えたアービタ。
【請求項８】複数の実行パイプを有するプロセッサと
共に使用して有用なパイプ間バイパスであって、前記実行パイプのうちの２つに結合され、前記２つの実
行パイプ間でレジスタ・オペランド値を転送する要素を
備えた、パイプ間バイパス。
【請求項９】少なくとも第１および第２の実行パイプ
を有する分散データ・フロー・プロセッサにおいて命令
をスケジューリングする方法であって、複数の命令を前記第１および第２の実行パイプに分配す
るステップと、前記命令のうちの少なくとも２つを前記第１の実行パイ
プ内で実行するためにスケジューリングするステップと
を含む方法。
【請求項１０】複数の実行ユニットを有するプロセッ
サのための階層レジスタ・ファイル・システムであっ
て、前記実行ユニットの第１のサブセットに結合され、実行
ユニットの前記第１のサブセットによって生成された第
１のオペランド値を格納する第１の複数のローカル・レ
ジスタ・バッファと、前記実行ユニットの第２のサブセットに結合され、実行
ユニットの前記第２のサブセットによって生成された第
２のオペランド値を格納する第２の複数のローカル・レ
ジスタ・バッファとを備えたシステム。
【請求項１１】前記第１の複数のローカル・レジスタ
・バッファから前記第１のオペランド値と制御情報を実
行ユニットの前記第２のサブセットに転送する要素をさ
らに備えた請求項１０に記載の階層レジスタ・ファイル
・システム。
【請求項１２】複数の実行ユニットを有するプロセッ
サにおいて階層レジスタ・ファイル・システムを使用す
る方法であって、前記実行ユニットの第１のサブセットによって生成され
た第１のオペランド値を格納する第１の複数のローカル
・レジスタ・バッファを用意するステップと、前記実行ユニットの第２のサブセットによって生成され
た第２のオペランド値を格納する第２の複数のローカル
・レジスタ・バッファを提供するステップとを含む方
法。
【請求項１３】前記第１の複数のローカル・レジスタ
・バッファから前記第１のオペランド値と制御情報を実
行ユニットの前記第２のサブセットに転送する要素を提
供するステップとをさらに含む請求項１２に記載の方
法。