JP3098071B2

JP3098071B2 - 条件付き分岐を有するプログラムの効率的実行をするためのコンピュータシステム

Info

Publication number: JP3098071B2
Application number: JP03226149A
Authority: JP
Inventors: アリスラヴェンブルフヘリット; ミッシェルラブルースジャン
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1990-09-05
Filing date: 1991-09-05
Publication date: 2000-10-10
Anticipated expiration: 2015-10-10
Also published as: KR100242617B1; EP0474297A2; EP0474297A3; JPH04245540A; EP0474297B1; DE69129569T2; DE69129569D1; US5450556A; KR920006845A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、マシンサイクルにおい
て少なくとも１つの分岐オペレーションおよび少なくと
も１つの非分岐オペレーションを始動させるのに適し、
且つ少なくとも１つのマシンサイクルの分岐遅延を与え
るかもしれないようなパイプラインシステムの如きコン
ピュータに関する。

【０００２】

【従来の技術】多くの非数字プログラムに存在するパラ
レイズムは、そのプログラムのうちの比較的に小さな部
分に限られており、従って、主として、局部的である。
一方、並行処理アーキテクチャーは、せいぜい、多くの
科学的課題および通信処理において遭遇するような、相
当に長いステップに亘る大規模コアースグレインパラレ
イズムでプログラムを取り扱うときのものである。これ
らの理由のため、並行処理アーキテクチャーは、多くの
非数字またはアルゴリズムプログラムの実行をスピード
アップするのには不適当なものであるとわかった。

【０００３】非常に長い命令語（ＶＬＩＷ）アーキテク
チャーと呼ばれる１つの高度の並列コンピュータは、通
常の高度の言語プログラムにおいて固有の適度なファイ
ングレインパラレイズムを開発するために、Proceeding
s of the 10th Annual Symposium on Computer Archite
cture, June 1983の“Very Long Instruction Word Arc
hitectures and the ELI-512”において、J.A.Fisherに
よって提案されている。ＶＬＩＷマシンは、非常に長い
命令語（１００またはそれ以上のビット）によってサイ
クル−サイクルベースで制御される多数の独立した機能
ユニットからなる。それら機能ユニットのすべては、任
意にパイプライン制御されうるものであり、すなわち、
それらは、サイクル毎に新しいオペレーションをスター
トすることができ、ある１つのオペレーションを完了す
るのに一定数のサイクルを必要とする。しかし、ある１
つのオペレーションを完了するために必要なサイクルの
数は、機能ユニット毎に異なることがある。すべてのユ
ニットのパイプラインステージは、単一のグローバルク
ロックによって制御されるロックステップで動作する。
ＶＬＩＷ命令は、制御すべき各機能ユニットに対して１
つの複数のオペレーションサブフィールドの連結であ
る。

【０００４】すべての機能ユニットは、共用マルチポー
トレジスタファイルに接続されており、それら機能ユニ
ットは、そのファイルからそれらのオペランドを取り出
したり、それらの結果をそのファイルへ書き込んだりす
る。したがって、前に計算された結果は、すべて、どの
機能ユニットに対してもオペランドとして使用されう
る。ＶＬＩＷ命令は、サイクル毎にロードされる。各機
能ユニットは、そのサイクル中、そのマルチポートレジ
スタファイルにおけるソースおよび指定ロケーション、
並びにスタートすべきオペレーションを識別するそれ自
身の制御フィールドによって制御される。典型的なアー
キテクチャは、複数のアリスメチックおよびロジックユ
ニットと、複数のメモリインターフェースユニットと、
１つの分岐制御ユニットとを含む。これらの３つの型の
機能ユニットのすべては、オペレーションの速度を最大
とするために、パイプライン制御される。しかしなが
ら、特定のアプリケーションのために必要とされるファ
ンクションに依存して、任意の型の機能ユニットを設け
ることができる。バレルシフタ、マルチプライアおよび
その他の任意の機能ユニットは、それらがマシンサイク
ル毎にオペレーションの始動を許すようなパイプライン
機構を有するならば、含めうる。ＶＬＩＷマシンにおい
て“オペレーション”は、ＶＬＩＷ命令の対応するフィ
ールドの制御の下で単一の機能ユニットによって行われ
る原始動作である。それから、ＶＬＩＷ“命令”は、そ
のアーキテクチャにおける機能ユニットのすべてのオペ
レーションを並列に制御するための、複数のそのような
オペレーションフィールドの連結である。

【０００５】Proceedings of ASPLOS, 1987 の“A VLIW
Architecture for a Trace Scheduling Compiler"にお
いてR.P.Colwell 等によって教示されるように、ＶＬＩ
Ｗマシンの如き高度の並列マシンを効率的にプログラム
するために、トレーススケジューリングと呼ばれるコン
パイラー技法が使用されている。トレーススケジューリ
ングコンパイラーは、その入力として、あるプログラム
の命令およびそのプログラムにおける各異なるパスの実
行の見込みを指示する実行プロフィールを取り込む。そ
のトレーススケジューリングコンパイラーは、これらの
入力を使用して、もっとも実行されそうな命令パスの
“トレース”を構成する。このトレースは、それから、
ＶＬＩＷマシンにおいて利用しうるすべてのアリスメチ
ックおよび制御ユニットを使用して、できるだけ並列に
実行するようにスケジュールされる。

【０００６】ＶＬＩＷマシンを含む非常に高い性能のパ
イプラインプロセッサの場合には、いわゆる分岐遅延の
問題を解決する必要がある。システムが積極的パイプラ
イニングによってより速いものとされるにつれて、待ち
時間が増大する。この待ち時間は、マシンサイクルにお
ける、命令メモリへのある命令アドレスの送信と、実行
のためのその命令メモリからのその命令の受信との間の
時間である。条件付きジャンプオペレーションの場合に
は、その分岐条件を評価するのに必要な時間が、その待
ち時間に加えられねばならない。その合計時間が、“分
岐遅延”と呼ばれる。分岐遅延は、命令の実行がジャン
プオペレーションの結果によって影響されないような、
そのジャンプオペレーションに続く多数のマシンサイク
ルを表している。高速度パイプラインアーキテクチャに
おいては、命令の実行を継続する前に単に待つだけであ
るのは、非常に好ましくない。

【０００７】ブランチ遅延の問題の１つの解決方法が、
Urbana-Chmpaign のUniversity of IllinoisのP.Y-T.Hs
u の１９８６年の論文“Highly Concurrent Scalar Pro
cessing"において示されている。彼の解決方法によれ
ば、分岐遅延中に、すべての可能なプログラムパスを並
列に実行するが（限定数の機能ユニットによって許容さ
れる限り）、ブール演算式を用いて各オペレーションを
“ガード”する。ブール演算式を満足するオペレーショ
ンのみが、ＶＬＩＷマシンの状態に影響を与えることが
許される。このようなブール演算式は、意図されたプロ
グラムパスにおいてこれらのオペレーションのみが実行
されるようにするような仕方で、コンパイラーによって
構成される。Hsu は、一定数のファクタ、例えば、３を
有する通常形式のブール演算式を評価するため、各機能
ユニットに特別のハードウエアを設けることを提案して
いる。こうすることにより、形式ａ＆ｂ＆ｃまたはａ＆
反転ｂ＆ｃ等の演算式の評価を行うことができるように
なる。ここで、ファクタａ、ｂおよびｃは、３つの異な
るジャンプ条件評価の結果である。このような演算式を
評価するためのハードウエアは、比較的簡単である。し
かしながら、マルチポートレジスタファイルを、各機能
ユニットに対するファクタのすべてにアクセスするのに
必要な読出しポートで拡張するためのコストは、禁止的
である。

【０００８】それから、問題は、相当な分岐遅延の存在
において、ＶＬＩＷアーキテクチャーの如き高レベルに
パイプライン化されたコンピュータプロセッサアーキテ
クチャーの処理能力を最大にすることである。特に、分
岐遅延の問題に対する従来のブールガード演算式による
解決方法の主たる問題点は、より大きなマルチポートレ
ジスタファイルのコストが高いことである。

【０００９】

【本発明の概要】本発明によれば、コンピュータの中央
プロセッサーにおいて発生するが、しかし分岐遅延が終
了していない全ての分岐条件の評価結果の符号化された
表現を与える分岐制御ユニットを内蔵することによって
上述の問題が解決される。この符号化された表現は「パ
ス情報」と呼ばれ、そしてそれ自身分岐制御ユニットを
有するプロセッサーの全ての機能ユニットに割り当てら
れる。パス情報はオペレーションの効果を可能或いは不
可能にするために各々の選択されたオペレーションに関
連しているパス表現フィールドに対してマッチしてい
る。このパス表現フィールドの適当な使用によって、プ
ログラマー或いはコンパイラーは正しいプログラムパス
に関するオペレーションのみがマシンの状態に関するそ
れらの効果を有していることを保証することができる。
従って、有用なオペレーションは条件付き分岐の分岐遅
延の間になされ、その条件の下でオペレーションが実行
される条件にマッチしているオペレーションのみが進む
ことを許されるから正しいプログラムの働きを保証す
る。

【００１０】本発明の一つの見方によれば、プログラマ
ーにマシンの状態を見うるように変更するこれらのオペ
レーションのみがパス表現フィールドに与えられる必要
がある。これらのオペレーションは変数（ＶＬＩＷマシ
ンのマルチポートのレジスタファイルを含まない）、条
件付きジャンプオペレーション及び除外条件を生じる得
るオペレーションの割当を含んでいる。

【００１１】本発明の他の見方によれば、全ての可能な
アクティブプログラムパスから一つだけのオペレーショ
ンを可能にするように、或いは全ての可能なアクティブ
プログラムパスの任意のサブセットのオペレーションを
可能にするように、パス表現フィールドは符号化するこ
とが可能である。後者の場合、パス表現フィールドはパ
スセットフィールドと呼ばれる。

【００１２】本発明の完全な理解は添付図面と共に下記
の詳細な説明から得られるであろう。

【００１３】

【実施例】本発明の技術は２サイクル以上の分岐遅延を
有する任意のパイプライン化コンピュータに適用でき
る。しかしながら、図解のため、ＶＬＩＷコンピュータ
のアーキテクチャーについて説明する。この例示した実
施例は如何なる点においても限定することを意図したも
のではなく、その進歩的な技術は本願特許請求の範囲か
ら逸脱することなく当業者によって他の多くのコンピュ
ータのアーキテクチャーに適用できるものである。

【００１４】図１はＶＬＩＷコンピュータアーキテクチ
ャー用中央処理装置の全体的なブロック図である。図１
の中央処理装置は複数のプロセッサー機能ユニット１１
〜１５の間の通信に使用されるマルチポートレジスタフ
ァイル１０である。レジスタファイル１０はマシンサイ
クルの間の値を記憶する記憶容量を有するユニット１１
〜１５用のユニバーサルアクセス接続装置である。この
ようなレジスタファイルは当業界において周知であり、
その一つがS.Borkar他著、"iWap: Integrated Solution
to High Speed Parallel Computing", IEEE Proceedin
g on Supercomputing, pages 330-339, 1988 (IEEE Cat
alog #88CH2617-9) に記載されている。ＶＬＩＷ命令レ
ジスタ２１は機能ユニット１１〜１５の各々の動作を制
御するための制御フィールドを与えている。命令レジス
タ２１に配置された命令は命令発令パイプライン２２か
ら得られる。

【００１５】機能ユニット１１〜１５は複数（Ｎ）個の
演算・論理ユニット（ＡＬＵ）から成る。これらのＡＬ
Ｕの数は特定のアプリケーションにより許容できる並列
の量により決まり、代表的には２ないし８の間のオーダ
である。Ｎ個のＡＬＵの各々の制御フィールドは命令レ
ジスタ２１の各命令に含まれる。したがって、制御フィ
ールド１６がＡＬＵ１１を制御し、制御フィールド１７
がＡＬＵ１２を制御する。ＡＬＵ１１〜１２の各々は、
レジスタファイル１０からＡＬＵに供給されるオペラン
ドについて複数の種々の演算・論理オペレーションを実
行する標準的な周知の回路から成る。このようなＡＬＵ
の構造及びオペレーションは周知であり本発明の一部を
構成するものではないので、ここではこれ以上説明しな
い。

【００１６】機能ユニット１１〜１５には、複数（Ｋ）
個のデータメモリインタフェース（ＤＭＩ）回路１３，
……１４も含まれる。このようなＤＭＩの数は、他の機
能ユニットの動作に適応するために各マシンサイクル毎
に行なわなければならないメモリアクセスの数により決
まり、代表的には１ないし５のオーダである。Ｋ個のＤ
ＭＩ回路の各々の制御フィールドは命令レジスタ２１の
各命令に含まれる。このように、制御フィールド１８は
データメモリインタフェース１３を制御し、一方制御フ
ィールド１９はＤＭＩ１４を制御する。ＤＭＩ１３〜１
４は、図１の中央処理装置の外部のデータを記憶するた
めに使用されるランダムアクセスメモリ（ＲＡＭ）ユニ
ットのアクセスポートを表すことに注目されたい。ＤＭ
Ｉ１３〜１４の各々が別のデータＲＡＭとインタフェー
スしてもよいし、各ＤＭＩが一つのデータＲＡＭの別の
ポートとインタフェースしてもよいし、又はそのＤＭＩ
１３〜１４が命令発布パイプライン２２により一つの又
は多数のＲＡＭへのアクセスを共用してもよい。これら
のＲＡＭメモリの各々は、マルチバンキング、インター
リービング等の、何れも本発明の一部を構成しないよう
な周知のメモリ技術を用いる複雑な高性能のコンピュー
タメモリシステムで構成してもよい。命令レジスタ２１
の各命令がデータを記憶するか又はアクセスためのデー
タメモリを参照するオペレーションをＫ個まで含んでい
ることが必要なだけである。以下、このようなデータメ
モリインタフェースのオペレーションを図６及び図７に
ついて説明する。

【００１７】機能ユニット１１〜１５の最後の機能ユニ
ットはブランチ制御ユニット（ＢＣＵ）１５である。ブ
ランチ制御ユニット１５は命令レジスタ２１内の命令の
ジャンプ制御フィールド２０の飛び越しオペレーション
に応答する。ＶＬＩＷ命令のジャンプ制御フィールド２
０に含まれるジャンプオペレーションが分岐制御ユニッ
ト１５に送られ、図５について後述するように、図１の
中央処理装置において実行されるプログラムにおける別
の命令経路への条件付き分岐を制御するために使用され
る。この目的のために、条件付きジャンプオペレーショ
ンで表現される条件により決まるような、図１の中央処
理装置が従う複数の別の命令経路のどれかを決定するこ
とにより、分岐制御ユニット１５が命令発令パイプライ
ン２２の命令に入るアドレスを発生する。以下、分岐制
御ユニット１５を図５について説明する。

【００１８】図１の中央処理装置はＶＬＩＷプロセッサ
ーである。その理由は、その中央処理装置がすべてが一
つの命令レジスタ２１の内容により同時に制御される複
数の機能ユニット１１〜１５を含むからである。これは
それぞれユニット１１〜１５の動作に応答してその動作
を制御する複数のフィールド１６〜２０を有する。その
マルチポートレジスタファイル１０はユニット１１〜１
５間の相互動作を許容し、必要時にはオペランド値のバ
ッファ記憶を行う。特定のマシンサイクルの間に特定の
機能ユニット１１〜１５についてオペレーションが全く
計画されなければ、ＮＯＰ（オペレーション無し）コー
ドがその機能ユニットの制御フィールドに入れられる。プログラミング図１に示すようなＶＬＩＷプロセッサ・アーキテクチャ
ーをプログラムするコンパイラーは、コンピュ−タの全
スループットを最適化するように非常に長い命令語を発
生する。このような先行技術は、ＩＢＭ Journal of Re
search and Development １１巻、２５−３３頁、１９
６７年１月に掲載されている、R. M. Tomasuloの論文
「多数の計算ユニットを利用する効率的なアルゴリズ
ム」に記載されている。

【００１９】高度のパイプライン化コンピュータプロセ
ッサーをプログラミングするときの一つの大きな問題
は、そのようなアーキテクチャに固有のその条件付き分
岐遅延である。もし条件が（例えばａ＞ｂ）ステートメ
ント１とステートメント２というような、プログラム内
の２つの路の間での選択を決定するのであれば、中央処
理装置はステ−トメント１もしくはステ−トメント２の
蓄積コ−ドへ条件付きジャンプを実施しなければならな
い。このようなジャンプは連続した２つの遅延を必ず含
む。すなわち、１）条件（例えばａ＞ｂ）を評価し、そ
してその決定の結果が出たら、２）ステートメント１も
しくはステートメント２の命令アドレスを命令発令パイ
プライン２２に送り、そこでは命令発令の待ち時間が生
じる。現代の集積チップ装置はその条件を非常に迅速に
評価する。パイプラインが複雑化した、マルチプル・チ
ップ命令発令パイプラインでは、命令メモリへの命令ア
ドレスの伝達と命令レジスタへの該当命令の発令との間
の、マシンのサイクルの待ち時間は幾つもの命令実施サ
イクルとなることがある。転送中の命令はこの分岐遅延
期間中は入手できないので、この分岐遅延期間中に有用
な仕事をすることは、不可能ではないまでも、困難であ
る。本発明はこの問題の緩和を指向することである。

【００２０】高度に並列で、多機能となっているユニッ
トコンピュータプロセッサー・アーキテクチャーのプロ
グラミングをするときは、プログラマーは必要なオペレ
ーションを直列の形で表現する。このようなマシンのコ
ンパイラーは多数のそのようなオペレーションを単一の
命令語に折り込んで並列処理の発生量を最大とし、そし
て全スループットを最大とする。この目的を達成するた
め各命令語に関連のオペレーションはプログラムの直列
形式における順次のオペレーションと必ずしも一致しな
い。利用できる先のオペレーションの結果によって変わ
ってくるオペレーションのスケジュールが次のマシンサ
イクルでつくられる。それでも、相互の出力に依存しな
い複数のオペレーションを同時に実行することによりか
なりの時間を節約できる。

【００２１】条件付きジャンプオペレーションの分岐遅
延のため特別なスケジュール作成問題が生じる。ジャン
プオペレーションが条件付きジャンプを規定する時間と
行き先命令を命令レジスタへ送ることができる時間との
間で幾つかの命令を実行できる。既に説明したように、
このことはジャンプ条件を評価するに要する時間と命令
パイプラインの待ち時間（すなわち、命令アドレスの発
送とそのアドレスされた命令が命令レジスタへ送られる
時間との間の期間）とによるのである。本発明の目的の
一つは、この分岐遅延時間中にできる仕事の量を最大と
することである。簡単のため本発明の詳細な説明では分
岐遅延は２つのマシーンサイクルであるとしているが、
異なる分岐遅延に対しても本発明を簡単に拡大適用でき
る。

【００２２】先ず、ＶＬＩＷ命令の詳細の構成を、それ
らが分岐制御に関係しているので、説明する。ＶＬＩＷ命令図２は、典型的なＶＬＩＷ指令５０の構造を分解して示
すグラフである。命令５０は複数のフィールド３０−３
６を備え、各フィールドは図１の中央プロセッサーの異
なる一つの機能ユニットのための別々のオペレーション
制御コードを含んでいる。フィールド３０−３２は図１
の演算・論理ユニット１１−１２をそれぞれ制御する。
フィールド３４−３６は、図１のデータメモリ１３−１
４へのアクセスを制御する。フィールド３３はノーマル
なプログラム実施順序内でのジャンプを制御する。フィ
ールド３３は複数のサブフィールドから成り、各サブフ
ィールドはその特定のプロセッサのアーキテクチャで許
される複数の多重分岐のそれぞれに割り当てられてい
る。説明のため、３つのジャンプ制御のサブフィールド
３７−３９を図２に示す。各ジャンプ制御のサブフィー
ルド（例えば、サブフィールド３８）は５つのサブフィ
ールド４４−４８から成る。行き先アドレス（DESTINAT
ION ADDRESS ）のサブフィールド４８の規定するアドレ
スへのジャンプが生じるときの条件をＯＰコード（OPCO
DE) サブフィールド４４が規定する。他にもあるが、典
型的な一組みのジャンプオペレーション・コードを表１
に示す。

【００２３】

【表１】

【００２４】本発明に従えば、図２のパス表現サブフィ
ールド４５はこのジャンプオペレーションが可能化され
るパスを規定する。すなわち、ジャンプオペレーション
を実行し、そしてその規定されたジャンプが実際に起き
るのは、そのＯＰコードの条件となり、そしてパス表現
フィールド４５が図５に関連して説明されたパス情報に
マッチしたときである。フィールド３７−３９における
３つのジャンプのどれもが満足された両方の条件を有し
ないと、ジャンプは起きず、そしてその次の命令が実行
される。こうして、ｊの明白な分岐の行き先を規定する
各分岐オペレーションは実際に（ｊ＋１）枝を決め、そ
こでは余分の行き先はその次の命令である。

【００２５】選択（SELECT）サブフィールド４６、４７
は、ＯＰコード比較条件が満足されたか、否かを決定す
るため比較しなければならない２つのオペランドの場所
を明らかにする。サブフィールド４６、４７の内容は、
所望のオペランドが貯蔵されている図１のレジスタ・フ
ァイル１０のレジスタのアドレスを含んでいる。最後の
サブフィールド４８は転送しようとする命令の行き先の
アドレスを規定する。行き先は絶対的アドレス、相対的
アドレス、間接的アドレス、インデックスされたアドレ
ス等である。

【００２６】図３は、ＶＬＩＷ命令語の一部を形成する
典型的な演算・論理制御ユニットオペレーションフィー
ルド５１の分解を示す。ＡＬＵ制御フィールド５１は、
算術・論理ユニットが達成すべきオペレーションを特定
するオペレーションコードサブフィールド５２に分解さ
れる。パス表現フィールド５３は、後で或る程度詳しく
説明されるが、一般に、図２のパス表現フィールド４５
と全く同様に、以下に説明されるパス選択判断基準に基
づいてオペレーションの実行の条件付を行う。サブフィ
ールド５４及び５５は、サブフィールド５２内のオペレ
ーションコードによって特定されるオペレーション内で
使用されるべき２つのオペランドの、レジスタファイル
１０（図１）内での位置を特定する。最終に、サブフィ
ールド５６は、オペレーションの結果が向けられるべ
き、レジスタファイル１０内の、行き先を識別する。

【００２７】図４においては、ＶＬＩＷ命令語の部分を
形成する典型的メモリフィールド１２０の分解を示して
いる。フィールド１２０は、読み出し又は書き込みオペ
レーションを特定するオペレーションコードサブフィー
ルド１２１に分解される。パス表現サブフィールド１２
２は、それぞれ図２及び図３内のパス表現フィールド４
５及び５５と類似する機能を達成するが、更に以下で議
論される。サブフィールド１２３は、（読出し時）デー
タが取り出されるべき、または（書込み時）データが送
られるべきメモリー内のアドレスを特定する。サブフィ
ールド１２３は、図２のサブフィールド４８と全く同様
に、多くの方法でこの様なアドレスを識別する。サブフ
ィールド１２４は、（読出し時）データが送られるべ
き、または（書込み時）データが取り出されるべきレジ
スタファイル１０（図１）内のレジスタを特定する。読
出しオペレーションに対しては、データがＲＡＭデータ
メモリから取り出され、レジスタファイル１０に送られ
る。書込みオペレーションに対しては、データがレジス
タファイル１０から取り出され、ＲＡＭデータメモリに
送られる。

【００２８】図２乃至４に示されるＶＬＩＷ命令語構成
は、図１に示されるＶＬＩＷ機構と同様に、それらが簡
単で理解しやすいとの理由から本発明を説明するために
選択された。しかしながら、ＡＬＵオペレーション及び
ＤＭＩオペレーション間でフィールドを共有したり、バ
レルシフタ及び乗算ユニットの様な異なる形態の機能ユ
ニットを付加したりの別の構成が可能である。この様な
別の構成は、本発明に直ちに利用可能であるが、記述を
不必要に複雑にする。分岐制御ユニット図５は、図１の分岐制御ユニットの詳細ブロック図であ
る。これは、図２に示される様な条件ジャンプ操作を実
行するための必要な制御機能の全てを達成する。簡単の
ために、図２と同じ４方向分岐が適用され、「分岐遅
延」は再び２マシンサイクルであると仮定される。

【００２９】３つの目的値及び３つのＯＰコード状態は
図２の状態分岐操作３３で特定されるので、３つの比較
ユニットが６０、６１及び６２は、分岐条件を評価する
ために必要な３つの比較をなすために与えられる。条件
分岐操作の条件部分のＡ選択及びＢ選択フィールド４６
及び４７は、図１のレジスタファイル１０からのＡ１、
Ａ２、Ａ３、Ｂ１、Ｂ１、Ｂ２及びＢ３値の位置を指定
し、比較ユニット６０−６２の適当なものに通す。比較
ユニット６０−６２は、表１（例えば、＜、≦、＝及び
≠）に与えられる基本比較条件の幾つかを実行すること
ができ、図２のサブフィールド４４のＯＰコードに符号
化される。コード化された条件は、比較器６０−６２に
与えられて、この特定の条件分岐パスに対する適当な比
較を選択する。全ての３つの比較結果がＡＮＤゲート７
０、７１及び７２をそれぞれ通して、優先権エンコーダ
回路６３に送られる。ＡＮＤゲート７０−７２は、ジャ
ンプ条件の評価の結果を、以下に議論されるパス情報一
致の結果と結合する。ゲート７０−７２の一つ（又はそ
れ以上）の真出力は、ジャンプが取られることを結果す
る。コパイラーを、３つのジャンプ条件が相互に排他的
である様に設計することが可能である。本実施例におい
て、しかしながら、ジャンプ条件は互いに排他的でな
く、優先権エンコーダ６３は最高の優先ジャンプを選択
する。エンコーダ６３は２ビット出力信号を発生する。
この信号はマルチプレクサ６６に命令して、適当な入力
をプログラムカウンターレジスタ６７に接続する。優先
権エンコーダ６３及びマルチプレクサー６６のオペレー
ションは表２以下に詳細に記述される。

【００３０】

【表２】

【００３１】表に示される様に、プログラム６７にロー
ドされる新たな値６７は所望の値である。真を導く状態
であり、パス情報整合する最高優先ジャンプは、プログ
ラムカウンタレジスタ６７内にラッチされたアドレスを
有する。ジャンプがいずれの比較状態を満足しない場
合、プログラムカンター６７に次のアドレスがロードさ
れる。プログラムカウンター６７の出力は命令発令パイ
プライン２２（図１に示される）に加えられ、２つのサ
イクル待ち期間の後、命令レジスタ２１にロードされる
適当なインストラクションを結果する。要素２２はパイ
プライン化され、アドレスが各サイクル毎に要素２２に
送られる様にされる。対応する命令が、２サイクル待ち
の後、要素２２及び２３の結合から発生する。命令発令
パイプライン２２は、高度な読出し専用（ＲＯＭ）又は
ランダムアクセスメモリ（ＲＡＭ）素子から成る特殊な
命令専用メモリとすることができ、また、図１のデータ
メモリインターフェースと共用されるメモリーシステム
への別のポートとすることもできる。

【００３２】優先権エンコーダ６３の出力はレジスタ６
４及び６５によって２つの連続サイクル分だけ遅延させ
られる。レジスタ６４及び６５の連続した（ここでは４
ビット）出力はパス情報を形成し、例えば要素２１及び
２２から成る命令パイプラインを未だ通過していない２
つの最も近いジャンプのエンコードした結果を形成す
る。このパス情報は、分岐制御ユニット自体を含む全機
能ユニットに用いられ、パス表現マッチングオペレーシ
ョンを実施する。

【００３３】同等（EQUALS）コンパレータ７３〜７５
は、図２の３つのジャンプ制御オペレーションに対し
て、本発明の第１実施例（ここでは単一のプログラムパ
スに対して１つのパス表示コードを特定するオペレーシ
ョンが許される）によってマッチングオペレーションを
実施する。レジスタ６４及び６５のパス情報出力が、対
応するジャンプ制御サブフィールドのパス表示フィール
ド４５（図２）にマッチする場合（及びその場合にの
み）、同等コンパレータ７３〜７５は真（TRUE）出力を
発生する。

【００３４】同等コンパレータで成る回路は、図７を参
照して後に記載するように、コンパレータ７３〜７５の
代わりに３つの１６入力（１出力）マルチプレクサを使
用することにより、本発明の第２実施例（実行されるべ
きパスのセットを１つのオペレーションが特定できる）
によってマッチングを取扱うように修正され得る。図５
の分岐制御ユニットは全条件付きジャンプオペレーショ
ンの結果を決定するのに必要な比較及びパス情報のよう
な比較の結果をエンコードするのに必要な比較の全てを
行う。同時に、分岐制御ユニットはプログラムカウンタ
に適正なアドレスを発生して、条件付きジャンプオペレ
ーションに続く適正な“次の”命令へのアクセスを許
す。正確に１つのプログラム分岐パスでのオペレーショ
ンの実行を確保するためのメカニズムは図６及び図７に
関連して記載される。しかしながら、このメカニズム
は、条件付きジャンプオペレーション自身の実行を条件
付けするための、図５のものと似ている。

【００３５】２つまたはそれ以上の条件付きジャンプオ
ペレーションが、ジャンプの失敗の結果としてあるいは
実際に生じたジャンプの結果として、プログラムの連続
命令サイクルの中で直接相互に続いてもよい。複数の条
件付きジャンプオペレーションが連続命令サイクルの中
で直接相互に続く場合、２つの命令サイクルの分岐遅延
後の行き先の可能な数は、第１の条件付きジャンプオペ
レーションの可能な行き先の数に第２の条件付きジャン
プオペレーションの可能な行き先の数を掛けた積であ
る。レジスタ６４及び６５からのパス情報は、そのパス
情報が２つの最も近い命令のジャンプの結果を表示する
ので、前記の可能なものの全てを符号化する。

【００３６】図５の分岐制御ユニットからのパス情報
は、ジャンプオペレーションによって選択され得る可能
なパスの全てにおけるオペレーションの実行を条件付け
するのに使用される。しかしながら、プログラマーに見
得る結果を作るオペレーションの実行を条件付けするの
は必要である。図４に示すような、メモリ格納オペレー
ションはその最も自明なものであり、各メモリ格納オペ
レーションはパス表現フィールド（図４のサブフィール
ド１２２）を含む。しかしながら、他の条件付きジャン
プオペレーションもコンピュータオペレーションのプロ
グラマー可視状態に影響を及ぼすことがあり、該オペレ
ーションは図２に示すようにパス情報表現サブフィール
ド４５を含む。プログラムの制御流れを変更するような
演算オーバフローの如くいわゆる“例外提起”オペレー
ションは、それ程自明ではないが同じく重要である。従
って、ＡＬＵオペレーションでさえ、図３に示すパス選
択を許すようにパス表現サブフィールド５３を含む。こ
のパス情報コードは、発生しているがその結果は未だ命
令発生パイプラインを通っていない条件付きジャンプオ
ペレーションによって選択されたプログラムパスに対応
する前記のオペレーションのみをイネーブルにするのに
使用される。

【００３７】分岐の遅延がｎ個のマシンサイクルであり
且つ各条件付き分岐オペレーションのジャンプ制御サブ
フィールドの数がｋであれば、選択した１つの分岐パス
の識別をエンコードするのに必要なビット数は次式ｎ・ｌｏｇ₂(ｋ＋１）によって与えられる（ここでｌｏｇ₂は２を底とした対
数である）。図５の３つのジャンプ制御サブフィールド
の仮定と２つのサイクル分岐遅延に対して、４ビットが
プログラムパスの識別をエンコードするのに必要とされ
る。このコードは、２つの連続条件付きジャンプオペレ
ーションの結果として選択された１６個の可能なプログ
ラムパスからの１つを識別するので、パス表現と呼ばれ
る。

【００３８】２つ以上の分岐パスによって共有されるオ
ペレーションをスケジュールするのは時々は可能であ
る。その場合、２以上の可能なパスが選択されればオペ
レーションがエネーブルにされるのが望ましい。（たっ
た１つではなくて）可能なパスの全てを特定するのに、
必要なビット数は次式２ⁿ・ｌｏｇ₂(ｋ＋１）によって与えられる（ｎとｋは既に定義したものであ
る）。２つのサイクル分岐遅延と４方ジャンプオペレー
ションに対しては、１６個のビットが１６個までの違う
パスを識別しサブセットを作るのに必要とされる。この
コードは、“パスセット（pathset)”コードと呼ばれ、
２以上のこのコードは２以上の違うパスの特定のオペレ
ーションをイネーブルするのにセットされ得る。図６及
び図７に開示された本発明の各実施例はそれぞれパス表
現及びパスセットコードを利用する。メモリアクセス図６は、図１のデータメモリインタフェース１３〜１４
のメモリアクセス回路を図示したものである。前に述べ
たように、図１のデータメモリインタフェース１３〜１
４で実行される書き込みオペレーションは、プログラマ
ーにとって分かりやすいシステム状態変更を行うことが
可能である。それ故、これらの書き込みオペレーション
の実行は、前の２つのマシンサイクルから収集されたパ
ス情報によってイネイブル（あるいはディスエイブル）
されなければならない。図６は、命令レジスタ２１内の
命令フィールド１２１〜１２４を示しており、この命令
レジスタは図１の装置１３〜１４のようなデータメモリ
インタフェース機能ユニットと結びつけられている。こ
れらのフィールドには、読み出しあるいは書き込みを特
定するオペレーションコードフィールド１２１、このオ
ペレーションがイネイブルされるべきプログラムパスを
識別するパス表示フィールド１２２、（読み出しに基づ
いて）データが取り寄せられるべきアドレスはどれであ
るか、あるいは（書き込みに基づいて）データが配達さ
れるべきアドレスはどれであるかを特定するアドレス選
択フィールド１２３が含まれる。図６の実施例におい
て、アドレス選択フィールド１２３は、アドレスを含む
レジスタファイル１０内のレジスタを識別する。また、
命令レジスタ２１には、データを配達すべきあるいはま
たデータが配達されるべきレジスタファイル内のレジス
タを識別するデータソース／行き先サブフィールド１２
４も含まれている。

【００３９】図６において、活動中のＲＡＭメモリに対
するポートがデータメモリ８７として示されている。ア
ドレスはリード９１を経由してメモリ８７に与えられ、
一方、データはボックス８７の頭部においてメモリ８７
から与えられまた受け取られる。ライン８９上の制御入
力は、読み出しオペレーションがメモリから起こるの
か、あるいは書き込みオペレーションがメモリに対して
起こるのかを決定する。図５からのパス情報は、リード
８８上に同等コンパレータ８６に向けて与えられる。ま
た、命令レジスタ２１内のメモリ制御オペレーションの
パス表現サブフィールド１２２の内容も、同等コンパレ
ータ８６に与えられる。パス表現フィールドの内容がパ
ス情報と等しい場合には、メモリ書き込みオペレーショ
ンがイネイブルされる。この結果、コンパレータ８６の
出力は制御論理回路８１の一方の入力に与えられ、制御
論理回路８１のもう一方の入力には命令レジスタ２１内
のメモリ制御オレーションのフィールド１２１からのオ
ペレーションコードが与えられる。制御論理回路８１の
一方の出力は、リード８９上の書き込みあるいは読み出
しイネイブル信号である。制御論理回路８１はまた、制
御信号をリード９０上に与え、マルチポートレジスタフ
ァイル１０へのデータ移動の方向を制御する。制御論理
回路８１の詳細は、リード９０と９１上の制御信号に対
するタイミング要求によるため、図６には示されていな
い。

【００４０】図６の特定の例では、フィールド１２３は
レジスタ１０内のレジスタを特定してメモリオペレーシ
ョンのアドレスを見つける。従って、フィールド１２３
は、リード９２上のマルチポートレジスタファイル１０
の読み出しポート（ｉ）に対するアドレスを、直接的に
形成する。読み出しポート（ｉ）の出力は、リード９１
上にデータメモリ８７に対するアドレスを形成する。フ
ィールド１２４は、レジスタファイル１０内のレジスタ
を特定し、（読み出しオペレーションに基づいて）取り
出され、あるいは（書き込みオペレーションに基づい
て）書き込まれるデータを識別する。故に、フィールド
１２４は、レジスタファイル１０の読み出し／書き込み
ポート（ｉ＋１）に対するアドレスとして用いられる。
メモリからポート（ｉ＋１）に対するデータ、あるいは
ポート（ｉ＋１）からメモリに対するデータは、データ
メモリ８７の頭部に示されたリード上に転送される。図
６の回路は、他のメモリアドレッシング技術を利用する
ために拡張され得る。図６の回路オペレーションでは、
メモリ書き込みオペレーション（もし望むなら、メモリ
読み出し動作も）は、読み出しあるいは書き込みオペレ
ーションのパス表現フィールド１２２と図５のブランチ
制御装置からリード８８に与えられたパス情報との整合
によって調整されるというものである。

【００４１】図７の変形により、ある所定時間に活発に
され得る１つ以上のパス上（On Path)でオペレーション
が可能とされる。図７は、コンパレータ８６がマルチプ
レクサ９４に置き換えられたことを除けば、図６のそれ
と同様の回路を示す。パスセットフィールド１２２は１
６ビットフィールドであり、メモリオペレーションがイ
ネイブルされるパスの任意サブセットを特定することが
できる。回路は、これをマルチプレクサ９４によって達
成するように動作する。マルチプレクサ９４は、パスセ
ットフィールド１２２からの１６個の入力の１つを、パ
ス情報リード８８上のコードに従って、マルチプレクサ
９４の出力へと接続する。パスセットフィールド１２２
内の特定のロケーションに「１」ビットが存在するかど
うかにより、その特定のパスセットコードに対してオペ
レーションがイネイブルされるかどうかが決定されるで
あろう。パスセットコードのビットを選択的に設定する
ことにより、全ての可能な活動中のパスのいづれのサブ
セット（空のサブセットや満杯のセットを含む）をも選
択することができる。

【００４２】状態ブランチオペレーションの後に続くパ
ス表示フィールドあるいはパスセットフィールドは、発
生はされたがまだ命令発令システムを遂行していないよ
うな分岐状態の所定の結果に対して、そのようなオペレ
ーションが実際に実行されていないかどうかを判断する
ように見ることができる。特に、２つのサイクル分岐遅
延と４方向の分岐能力を有するような図示した実施例の
場合にあっては、サイクルｉでスケジュールされたオペ
レーションは、サイクル（ｉ─２）におけるジャンプが
方向「１」内に進んだ場合と、サイクル（ｉ−１）にお
けるジャンプが方向「３」（２進「１１」）に進んだ場
合にのみ、それを２進表示値０１１１（方向「３」に対
する２進コードがその後に続く方向「１」に対するバイ
ナリコード）に割り当てることによって実行されるよう
調整され得る。これによってコンパイラーは、サイクル
（ｉ−２）でそれらを配置しなければならない代わり
に、あたかもサイクルｉに対する分岐オペレーション
（ｉ−１）のデスティネイションにおけるものであるか
のようにそれらのオペレーションを移動させることがで
きる。故に、分岐遅延サイクルタイムを利用し、一方、
それと同時に、そのプログラムはマシーンの状態をプロ
グラマに明らかにするという同一の効果を作りだすであ
ろうことを保証できる。本発明の回路のコストは、最小
のものである。即ち、各々が図５の分岐制御回路に付加
されるような２つのビットの２つのレジスタと、更に、
マシンが有する並行オペレーションと同じ数だけのバイ
ナリ平等検出器が必要となる。その他には、図５のＡＮ
Ｄゲート７０〜７２と、図６あるいは図７の論理回路８
１のコストが含まれるだけである。

【図面の簡単な説明】

【図１】高度の並列コンピュータプロセッサー、例えば
本発明の条件付き分岐技術が使用できる非常に長いワー
ドプロセッサーの一般的なブロック図である。

【図２】図１のプロッセサーに適している典型的なＶＬ
ＩＷのホーマットであり、ジャンプ制御フィールドがど
のようにして４−ウエイ分岐能力のあるマシンのマルチ
ジャンプ制御フィールドに分解されるかを示しており、
且つ分岐制御ユニット自身のオペレーションのためのパ
ス表現フィールドの存在を示している。

【図３】図１のプロセッサーに適している典型的なＶＬ
ＩＷの一部のホーマットであり、算術及び論理制御フィ
ールドがどのようにしてパス表現フィールドを示すため
に分解されるかを示している。

【図４】図１のプロセッサーに適した典型的なＶＬＩＷ
の一部のフォーマットを示し、且つパス表現フィールド
を示すために如何にしてメモリ制御フィールドが分解さ
れるかを示している。

【図５】図１の並列プロセッサーにおいて使用される本
発明による分岐制御ユニットとして示している。

【図６】本発明による高度の並列プロセッサーのメモリ
へのアクセスを条件とするパス表現フィールドを使用す
るメモリインターフェイス制御回路を示す。

【図７】本発明による高度の並列プロセッサーのメモリ
へのアクセスを条件とするパスセットフィールドを使用
するメモリインターフェイス制御回路を示す。

───────────────────────────────────────────────────── フロントページの続き (73)特許権者 590000248 Ｇｒｏｅｎｅｗｏｕｄｓｅｗｅｇ１, 5621 ＢＡＥｉｎｄｈｏｖｅｎ，ＴｈｅＮｅｔｈｅｒｌａｎｄｓ (72)発明者ジャンミッシェルラブルースアメリカ合衆国カリフォルニア州 94303 パロアルトコリナウェイ 3750 (56)参考文献特開平１−310444（ＪＰ，Ａ) 特開平２−187824（ＪＰ，Ａ) 特開平２−77940（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 9/38

Claims

(57)【特許請求の範囲】

【請求項１】各マシンサイクルにおいて少なくとも一
つの分岐オペレーションと少なくとも一つの非分岐オペ
レーションとを開始するように設けられ、上記各マシン
サイクルの少なくとも一つの分岐遅延を有するパイプラ
イン化されたコンピュータシステムにおいて、上記分岐
遅延中に条件付きの分岐オペレーションのパス認識の結
果を符号化する分岐制御回路と、上記分岐操作の次の少
なくとも一つのオペレーションにおいて、実行されるべ
きそのようなオペレーションのプログラムパスを認識す
る制御フィールドと、上記パス認識と上記制御フィール
ドを用いて上記分岐オペレーションの次のオペレーショ
ンを可能とする手段と、を有することを特徴とするコン
ピュータシステム。
【請求項２】上記制御フィールドが、上記コンピュー
タシステムによって実行される各オペレーションの全て
に現れることを特徴とする請求項１記載のパイプライン
化されたコンピュータシステム。
【請求項３】上記制御フィールドが、上記コンピュー
タシステムのプログラマー可視状態に作用するオペレー
ションのみに現れることを特徴とする請求項１記載のパ
イプライン化されたコンピュータシステム。
【請求項４】上記制御フィールドが、実行のための一
若しくはそれ以上のプログラムパスの任意の部分集合を
特定することが出来ることを特徴とする請求項１乃至請
求項３のいずれかに記載のパイプライン化されたコンピ
ュータシステム。
【請求項５】デジタル・コンピュータ処理装置であっ
て、並行オペレーションのために結合された複数の機能
ユニットと、上記機能ユニットの全てを同時にオペレー
ションを開始することが可能な命令を記憶する命令登録
手段と、条件付きの分岐オペレーションにおいて分岐の
条件をテストする条件付き分岐制御手段と、上記テスト
の結果を符号化してパス認識を行う手段と、上記パス認
識と一致しない制御フィールドを含む上記条件付きの分
岐オペレーションの次の操作の実行を禁止する手段と、
を有することを特徴とするデジタル・コンピュータ処理
装置。
【請求項６】上記条件付きの分岐オペレーションの次
の各オペレーションが、上記パス認識と一致すべきフィ
ールドを含むことを特徴とする請求項５に記載のデジタ
ル・コンピュータ処理装置。
【請求項７】上記デジタル・コンピュータのプログラ
マー可視状態に作用するオペレーションのみが、上記パ
ス認認識一致すべきフィールドを含むことを特徴とする
請求項５に記載のデジタル・コンピュータ処理装置。
【請求項８】上記符号化手段が、一若しくはそれ以上
の目的パスを認識するコードにおいて上記パス認識を符
号化する手段を有することを特徴とする請求項６又は請
求項７記載のデジタル・コンピュータ処理装置。
【請求項９】上記分岐遅延は、少なくとも二つのマシ
ンサイクルであることを特徴とする請求項１乃至請求項
４の何れかに記載のコンピュータシステム。