JPH11249897A

JPH11249897A - Ｎウェイ分岐を有するスーパースカラまたは超長命令語コンピュータにおける次の命令を選択する方法および装置

Info

Publication number: JPH11249897A
Application number: JP10325230A
Authority: JP
Inventors: Kemal Ebcioglu; ケマル・エブジオウル; Kenneth J Kiefer; ケニス・ジェイ・キーファー; David Arnold Luick; デーヴィッド・アーノルド・ルイック; Gabriel Mauricio Silberman; ガブリエル・マウリチオ・シルバーマン; Philip Braun Winterfield; フィリップ・ブラウン・ウィンターフィールド
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1997-12-31
Filing date: 1998-11-16
Publication date: 1999-09-17
Also published as: WO1999034283A1; KR100284789B1; KR19990062575A; CN1225469A; CN1158597C; EP0927930A1; US6112299A

Abstract

(57)【要約】【課題】ＶＬＩＷ命令をＶＬＩＷプロセッサに送る高
周波数で大容量の単一サイクルの命令キャッシュを提供
する。【解決手段】コンピュータが並列実行可能ないくつか
の基本命令をコンパイルして各区画が１つの操作に対応
する複数の区画を有する単一の命令にする、スーパース
カラおよび超長命令語命令を実行することができるコン
ピュータにおいて、本発明は、すべての可能な後続命令
を記憶する改良された命令キャッシュと、いくつかの可
能な分岐が考えられ、評価しなければならない場合に後
続命令を選択する方法とである。１つの命令の可能性の
あるすべての後続命令のすべての分岐条件とすべてのア
ドレスを複製して命令キャッシュに記憶する。すべての
可能性のある後続命令が、同じ次アドレスを有する命令
キャッシュの同じブロックに記憶される。個々の命令
は、複製されたオフセット・アドレスによって識別され
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本出願はコンピュータ、特に
ＶＬＩＷ命令の処理に関する。

【０００２】

【従来の技術】最新のコンピュータの基本構造は、外界
との間で情報を通信する周辺装置を含む。このような周
辺装置には、キーボード、モニタ、テープ装置、ネット
ワークに結合された通信回線などがある。コンピュータ
内には、外界との間でこの情報の受信、処理、および配
信を行うのに必要なハードウェアがあり、これにはバ
ス、メモリ装置、入出力（Ｉ／Ｏ）コントローラ、記憶
装置、および少なくとも１つの中央処理装置（ＣＰＵ）
が含まれる。ＣＰＵおよびその他のプロセッサは、コン
ピュータ・アプリケーション・プログラムの命令を実行
し、他のすべてのシステム構成要素の動作を指示する。
プロセッサは実際には、論理比較、算術演算、および一
つの場所から他の場所へのデータの移動などの基本操作
を高速で行う。ユーザがコンピュータ・システムの新機
能または改良機能として知覚するのは、実際にはこのよ
うな同じ単純な操作をはるかに高速で行うプロセッサで
ある。したがって、コンピュータ・システムをさらに改
良するには、これらのシステムをさらに高速にすること
が必要である。

【０００３】「スループット」とも呼ばれるコンピュー
タ・システムの全体的速度の１つの測定値は、単位時間
当たりにプロセッサが実行する命令数で測られる。した
がって、システム速度に加えられる可能なすべての改良
のうち最も単純な改良は、様々な構成要素のクロック速
度、特にプロセッサのクロック速度を向上させることで
ある。すべてが２倍の速度で稼働し、その他はまったく
同じように動作する場合、システムは所与のタスクを半
分の時間で実行する。プロセッサは数年前には個別の構
成要素から作られていたが、サイズを小型化し、構成要
素数を減らし、それによって最終的にプロセッサ全体を
単一のチップ上の集積回路としてパッケージ化したこと
によって、実行速度が大幅に向上した。サイズの小型化
によって、プロセッサのクロック速度が向上し、したが
ってシステム速度の向上が可能になった。

【０００４】集積回路から得られる速度の大幅な向上に
もかかわらず、さらに高速なコンピュータ・システムを
求める要求が依然として存在する。ハードウェア設計者
は、これまで、集積度の向上、回路サイズの小型化、お
よびその他の様々な技法によって、速度をさらに向上さ
せることができた。しかし、設計者は、物理的なサイズ
の小型化を無限に続けることはできず、プロセッサのク
ロック速度をとどまることなく向上させることには限界
があることを知っている。したがって、コンピュータ・
システムの全体的速度を向上させるために、新しいコン
ピュータ・アーキテクチャを含む他の手法に注意が向け
られるようになっている。

【０００５】集積回路チップ上に個々のプロセッサをパ
ッケージ化するコストは低いため、クロック速度を変え
ずに複数のプロセッサを使用してシステム速度を向上さ
せるのが実際的である。さらに、ＣＰＵの作業負荷を、
限定された機能を持つスレーブ・プロセッサに肩代わり
させることによって、システム速度が大幅に向上する。
たとえば、スレーブ・プロセッサは、入出力装置の通信
や制御などの反復的な単一の特殊目的プログラムを機械
的に実行する。また、単一のコンピュータ・システム、
一般には同時に複数のユーザにサービスを提供するホス
ト・ペースのシステム内に、複数のＣＰＵを搭載するこ
とも可能である。異なるＣＰＵの各ＣＰＵが異なるユー
ザのために異なるタスクを同時に実行してシステムの全
体的速度を向上させる。図１にこの技法を示し、通信ネ
ットワークによって接続され、複数のプロセッサが異な
るタスクを同時に実行することができるように制御され
るいくつかのプロセッサＣＰＵ１、ＣＰＵ２、．．．を
例示する。タスクの下の短い各横線は１つの命令を表
し、１タスクについて多くの命令がある。実際の状況で
は、おそらく図１に図示されているよりもはるかに多く
の１タスク当たりの命令が存在するであろう。各ＣＰＵ
は一度に１つの命令を実行し、したがって複数のＣＰＵ
が同時に命令を実行する並列プロセッサによって、所要
時間が節約される。しかし、別々のプロセッサで別々の
タスクをすべて開始し、タスク間の通信を同期させ、そ
れらの部分的な結果をまとめて全体的な結果を生成する
オーバーヘッドがかなりある。特定の用途でこの種の従
来の並列プロセッサを使用するには、プログラマまたは
高度なコンパイラは問題を細かく砕き、適切な通信と制
御をセットアップしなければならない。並列実行によっ
て節約された時間よりも多くの時間がこのオーバーヘッ
ドに費やされる場合、並列プロセッサ手法には限界があ
る。この従来の並列処理は、科学数値計算の方法やその
他の高度に構造化された問題など、互いに通信をほとん
ど必要としない大きな部分に自然に分かれる問題にとっ
ては最もサイクルの節約になる。しかし、現実には、複
数の実行経路があったり、プロセッサ間で大量の共用と
通信を必要としたりする問題の場合、複数のＣＰＵでの
並列処理の適用分野は限定される。

【０００６】縮小命令セット・コンピュータ（ＲＩＳ
Ｃ）、スーパースカラ、および超長命令語（ＶＬＩＷ）
機のコンピュータ・アーキテクチャは、命令が単純なほ
どハードウェアによって効率的に実行可能であるという
前提に基づいている。これらのアーキテクチャは、アプ
リケーション・コードの並列処理のための複数の実行ユ
ニットとマルチウェイ分岐機構を有する。さらに、これ
らのアーキテクチャは、アプリケーションで使用可能な
並列処理を、その並列処理を高度に最適化されたコード
で表現する特別な言語に頼ることなく利用するコンパイ
ラ技法の開発を促した。コンパイル処理中に可能な限り
多くの決定を行って、プログラム実行中にハードウェア
が決定を行わなくても済むようにする。

【０００７】他の手法は、細粒度の並列処理を実施する
ように単一のＣＰＵがユニプロセッサと並列機の両方の
特性を持つハイブリッドである。この手法では、単一の
命令レジスタおよび命令シーケンス・ユニットが単一の
フロー制御下でプログラムを実行するが、ＣＰＵ内の複
数の演算／論理ユニット（ＡＬＵ）が同時に複数の基本
操作を実行することができる。同時に実行可能な操作を
判断するのにハードウェアに依存するのではなく、コン
パイラが、実行の前に並列操作を指定するように命令を
形式設定する。スーパスカラ・コンピュータは典型的に
は１プロセッサ・クロック・サイクルに最大４命令を実
行する。さらに、命令レジスタに入っている命令語を拡
張して異なるＡＬＵによって複数の独立した操作が行わ
れるようにするには、きわめて長い命令語が必要であ
る。超長命令語（ＶＬＩＷ）コンピュータは１プロセッ
サ・サイクル当たり１６命令以上を実行することができ
る。

【０００８】いくつかの学術論文によると、多くの応用
分野では、ＶＬＩＷアーキテクチャの方が、並列動作す
る複数の独立したプロセッサよりも並列度が高く、高速
であると示唆されている。図２に、タスク内の機械命令
レベルでの細粒度の並列機能を有するＶＬＩＷコンピュ
ータの一例のモデルを示す。図のように、典型的なアプ
リケーション・プログラムは図の左側に沿ったタイム・
ラインによって示されている単一の制御フローを有する
が、このフロー内の基本操作は並列して実行される。Ｖ
ＬＩＷコンパイラは、プログラム内の同時実行可能な基
本操作を「発見」し、次にそれらの操作の命令を複合命
令、すなわち超長命令語にコンパイルする。そのためＶ
ＬＩＷというコンピュータ・アーキテクチャおよび命令
の名称が付いている。したがって、ＶＬＩＷ機の自動コ
ンパイラは、プログラムの流れを変える必要がない。こ
れは並列プロセッサ機ではほとんど不可能だったことで
ある。ＶＬＩＷ機のコンパイラはどの基本操作を並列で
実行できるかを判断し、ハードウェアによって実行され
る複合命令を作成するだけでよい。さらに、うまく作成
されたコンパイラは、可能な限り多くの機械クロック・
サイクル中に別々のハードウェア・ユニットの有用な作
業を最適化するように命令ストリームを作り出す。基本
命令（プリミティブ）とは、ＶＬＩＷ命令のうちの別個
のハードウェア・ユニットを制御する部分である。ＣＰ
Ｕ内のこれらの別々のハードウェア・ユニットは算術演
算論理ユニット（ＡＬＵ）を含み、ＡＬＵには、指数算
術演算を行う浮動小数点ユニット、ＣＰＵの外部にある
メモリ記憶域への直接経路を提供するレジスタ−記憶域
（ＲＳ）ユニット、およびプロセッサ内の他のレジスタ
への直接経路を提供するレジスタ−レジスタ（ＲＲ）ユ
ニットが含まれる。したがって、１サイクル中にＶＬＩ
Ｗ機内のこれらの別々の資源をすべて使用することがで
き、それによっていくつかの基本機械命令を同時に実行
することができる。その利点は、従来のユニプロセッサ
で可能なよりも少ない機械サイクルでタスクを完了する
ことができることである。言い換えると、タスクの開始
からタスクの完了までの「ターンアラウンド・タイム」
が短縮され、その結果をより早期に入手することができ
る。各トランザクションが長い一連の順次操作を必要と
し、トランザクション処理タスク間の通信が無視できる
程度であるトランザクション処理の応用分野では、この
考え方には従来の並列処理よりもすぐれた固有の利点が
ある。

【０００９】ＶＬＩＷのサイズと形式は特別な考慮を必
要とする。命令語の予想サイズは、メモリ、命令キャッ
シュ、バスなど、ＣＰＵの外部のサポート・ハードウェ
アに大きな負担をかける。ＶＬＩＷ設計で大きな命令語
を使用するのはいくつかの理由がある。ＶＬＩＷは並列
操作を行うために複数のハードウェア・ユニットが同時
に動作する必要があることを想起されたい。これらのハ
ードウェア・ユニットのそれぞれが独自のコマンドを必
要とし、そのコマンドは命令コード、ソースおよび宛先
の指定などを含む。さらに、次に実行する命令を決定す
る機構がなければならない。この決定は、しばしば制御
フローと呼ばれ、どのようなコンピュータでもそれ独自
の特徴を示すが、それらの特徴はＶＬＩＷコンピュータ
ではさらにきわだって増大する。次の命令を決定する選
択肢または条件がない場合、制御フローは次の命令に
「ジャンプ」すると言う。制御フローの変更が条件付き
の場合、制御フローは次の命令に「分岐」する。ＶＬＩ
Ｗを含むほとんどのコンピュータでは、条件付き分岐が
制御フローを変更する主な機構を構成する。

【００１０】条件付き分岐機能を利用するために、コン
パイラはすべての条件付き分岐ステートメントを２つの
構成部分に分解する。すなわち、条件レジスタの検査お
よび設定を行う命令と、前に設定された条件レジスタを
検査する分岐命令である。コンパイラは、依存関係を乱
すことなく、条件レジスタの検査と設定を行う命令をそ
の可能な最も早い実行時点にスケジュールする。分岐ツ
リーをたどる可能な経路を決定する条件レジスタが設定
されている場合、コンパイラは最大１６個の条件レジス
タを検査する分岐条件命令をＶＬＩＷに形成することが
できる。コンパイラは次に、このＶＬＩＷに至る分岐経
路に存在する可能な限り多くの命令をスケジュールす
る。好ましくは６または８である任意の数までの分岐経
路上と１つの順次経路上の非依存命令が単一のＶＬＩＷ
に形成されるまで、上記のステップを繰り返す。

【００１１】適切な分岐を決定する条件の評価は、従来
いくつかの方法で行われている。第１の方法は、実行中
の命令内の条件コードと呼ばれる特別なビットを使用す
る。この条件コードは暗黙的または明示的に設定するこ
とができる。暗黙的に設定された条件コードは、分岐が
決定された時点を見つける困難さと、分岐遅延をスケジ
ュールする困難さが増す。これによって、条件評価と分
岐との間にスケジュールすることができる命令を見つけ
るのが難しくなり、条件コードが命令の大きなサブセッ
トまたは無計画に選択されたサブセットによって設定さ
れている場合には特に困難である。多くの新しいアーキ
テクチャは、条件コードを回避するか、または命令内の
ビットの制御下で条件コードを明示的に設定する。

【００１２】分岐条件を検査する他の技法は、たとえ
ば、（ａ）加算Ａ＋Ｂの結果がゼロ以上の場合はＣに進
む、または（ｂ）論理命令の結果がＴＲＵＥ／ＦＡＬＳ
Ｅに等しい／等しくない場合はＤに進むという単純な等
価または不等価検査を必要とする。たとえば図１０とそ
れに付随する説明を参照されたい。通常、単純な比較と
分岐命令は分岐の一部であるが、浮動小数点比較などの
より複雑な比較の場合は、条件レジスタを実施する。比
較の結果をレジスタに格納されている値を使用して検査
し、比較に応じて分岐を指定する。いずれにしても、分
岐条件を評価することによって次の命令を決定するのは
単純な処理ではない。次のＶＬＩＷを決定するために評
価する必要があるｎ個の分岐条件があるため、ＶＬＩＷ
では問題がＮ倍に複雑化する。

【００１３】典型的なオペレーティング・システムおよ
びその他のタイプのコードは、分岐によって分離された
数個の命令のシーケンスを特徴とする。ＶＬＩＷのよう
に複数の並列実行ユニットを備えるプロセッサでは、１
ＶＬＩＷ命令サイクル当たり１つの分岐しか行うことが
できない場合、コードを操作することによって使用可能
な実行ユニットを満たすコンパイラの能力がきわめて制
限される。問題は、複雑な分岐構造がコード移動を最適
化するコンパイラの能力に与える影響だけでなくＶＬＩ
Ｗプロセッサ・ハードウェアのクリティカル・パスとサ
イクル時間に与える影響も最小限にすることである。Ｎ
ウェイＶＬＩＷまたはスーパスカラ・プロセッサ（ただ
しＮは分岐数であり、多数、すなわち１６個以上であ
る）は、ほとんど毎サイクルに分岐しなければならない
確率がきわめて高く、最大８ウェイの分岐となることが
あり、恐らくは３〜４ウェイの分岐が存在するという問
題に直面する。プロセッサ複合体内の命令およびデータ
用のクリティカル・レジスタおよびキャッシュへのアク
セス時間が、サイクル時間にスーパースカラ・プロセッ
サまたはＶＬＩＷプロセッサのクロックおよびラッチ・
オーバーヘッドを加えた時間にほぼ等しいとすると、現
在のすべての縮小命令セット・コンピュータ（ＲＩＳ
Ｃ）アーキテクチャはすでに、成立した１分岐当たり２
サイクルのレイテンシを必要とする。分岐の解決とフェ
ッチを行う１反復当たり２サイクルでは、プロセッサの
有効実行速度は、分岐のない場合の半分に低下する。さ
らに、分岐予測失敗の場合の余分な１または２サイクル
があるのが一般的であり、平均分岐成立レイテンシは３
サイクル近くになる可能性がある。これは受け入れ不可
能なペナルティである。ＶＬＩＷ機における分岐予測の
問題をさらに悪化させることには、９５パーセントの総
合確度で８個の同時分岐を予測するという要件は不可能
な作業である。仮に、８個の可能な分岐ターゲットを持
つ１６ウェイ並列プロセッサで、きわめて高くつく８ポ
ート命令キャッシュを実装するか、または何らかのタイ
プの分岐予測方式を使用しなければならない。

【００１４】前述のように、ＶＬＩＷ機の能力は、どの
基本操作（プリミティブ）を並列して実行することがで
きるかを評価し、次にすべての基本操作（プリミティ
ブ）を並列して実行し、さらに処理のために次のＶＬＩ
Ｗを選択することである。したがって、Ｎウェイ分岐と
呼ばれる特性である、単一のＶＬＩＷから複数の分岐タ
ーゲットへの条件付き分岐を可能にする必要がある。さ
らに、命令に分岐条件と分岐ターゲットをすべて指定し
なければならない。

【００１５】エール大学のジョセフ・フィッシャー（Jo
seph Fisher）とそのグループは、特定のプログラム内
の分岐は予測可能な経路をたどる時間の割合が高いこと
を認めた。フィッシャー等はエクストラ長命令（ＥＬ
Ｉ）を作成し、最も一般的な実行経路を判断し、それら
の経路を同時に実行することができるかどうかを判断す
る分岐機構を設計した。フィッシャーが開発し、コルウ
ェル等の「HierarchicalPriority Branch Handling for
Parallel Execution in a Parallel Processor」とい
う名称の米国特許第４８３３５９９号で開示されている
トレース・スケジューリング技法と、Multiflow Corpor
ationのＶＬＩＷプロセッサは、プログラム分岐ツリー
内の最も可能性の高い経路のコンパイル時間予測を必要
とする。予測可能度の高い科学技術計算の場合、この手
法はかなりうまく機能する。しかし、コードが予測可能
な経路からそれる場合、高いペナルティを払わなければ
ならない。商業アプリケーションやオペレーティング・
システムにおけるものなどその他のコード構造は、予測
可能な分岐を持たず、したがってフィッシャーによって
開示されたトレース・スケジューリング技法を使用する
とＶＬＩＷユニットにおける使用可能な並列資源の使用
効率が悪くなる。

【００１６】商業アプリケーションおよびオペレーティ
ング・システムで使用される他の技法はパーコレーショ
ン・スケジューリングであり、多くの分岐を同時に実行
する。ケマル・エブジオウル（Kemal

【外１】）が作成したこのシステムは、分岐経路の予測は行わな
い。図３に、パーコレーションによって命令が命令スト
リームの上流に移動し、それによってそれらの命令のデ
ータが入手可能になったらただちにそれらの命令が実行
されるようになる様子を示す。図３の点線矢印は、フォ
ン・ノイマン実行の元のストリームにおける位置からＶ
ＬＩＷ命令における区画（parcel）としての最終位置へ
の命令の移動を示す。１つの命令３００が条件付き分岐
３２０の上方に移動している。命令ストリームにおける
元の位置では、命令３００の実行は条件付き分岐３２０
の結果に依存するが、結果としてのＶＬＩＷ命令ストリ
ームでは命令３００は分岐条件を検査する前に実行され
ることになる。これは、投機的実行の一例である。投機
的実行とは、作業が必要か否かがわかる前に作業を行う
ことを意味する。他の作業を妨げずにこの投機的作業を
行うのに十分な資源がＶＬＩＷ機にある場合、その投機
的作業が必要であることが後でわかれば必ず利得があ
る。資源が多くなるにつれて投機的実行はますます効果
的になる。たとえば、条件付き分岐の後でプログラムが
２つの枝に分かれ、両方の枝からいくつかの命令を分岐
点の上まで移動するのに十分な資源がある場合、投機的
実行はそのプログラムを完了するのに必要な時間を明ら
かに短縮する。シルバーマン（Silberman）、ガブリエ
ル（Gabriel）Ｍ.およびエブジオウルの「An Architect
ural Framework for Supporting Heterogeneous Instru
ction-Set Architectures」（IEEE COMPUTER 39-56、１
９９３年６月）を参照されたい。

【００１７】

【発明が解決しようとする課題】したがって、本発明の
目的は、ＶＬＩＷ命令をＶＬＩＷプロセッサに送る高周
波数で大容量の単一サイクルの命令キャッシュを提供す
ることである。通常、キャッシュ設計では、これらの要
件は両立しない。この命令キャッシュの周波数は１ナノ
秒未満であることが好ましく、大容量、単一サイクル
で、広範囲な並列アクセスを提供する。この目的を満た
す本発明の特徴は、各ブロックがミニＩキャッシュと呼
ばれる４キロバイトのブロックに物理的に分割された大
容量の６４キロバイト命令キャッシュである。この４キ
ロバイト・ブロックのミニＩキャッシュ設計により、各
ミニＩキャッシュは他のミニＩキャッシュからほぼ自律
することができる。したがって非常にわずかな配線しか
必要とせず、設計が大幅に簡素化される。したがって、
この命令キャッシュはスケーリング遅延の影響を受けな
い。

【００１８】本発明の他の目的は、高速で安価な１ポー
ト設計を使用して、命令キャッシュから実行中のＶＬＩ
Ｗ命令の可能なすべての複数経路分岐をフェッチするこ
とによって、ＶＬＩＷ命令内のすべての分岐のＮウェイ
分岐の評価を可能にすることである。この目的を可能に
する本発明の特徴は、ＶＬＩＷ命令の次の順次ＶＬＩＷ
命令以外のすべてのターゲットＶＬＩＷ命令が命令キャ
ッシュの同じ１キロバイト・ブロックに配置されること
である。さらに、ほとんどの状況では、この１キロバイ
ト・ブロックの境界を越えない。しかし、順次制御フロ
ーが１キロバイト境界を越えることができるようにする
ことによって、コンパイラの制約が緩和され、本発明を
（Ｎ＋１）ウェイ分岐と呼ぶことができる。

【００１９】本発明の他の目的は、ＶＬＩＷ命令の処理
のためにスケーラブルな命令キャッシュと不変一定の命
令キャッシュを提供することである。スケーラビリティ
を可能にする本発明の特徴は、命令内、およびそれに対
応して命令キャッシュ内における物理区画の使用であ
る。したがって、どのような幅のＶＬＩＷ命令にでも対
応することができる。ミニＩキャッシュが独立してお
り、ＶＬＩＷ命令の１つの物理区画をミニＩキャッシュ
に入れることができるようにし、より多くの物理区画を
追加することによって、設計者は命令キャッシュの幅を
増やし、サイズを大きくすることができる。命令キャッ
シュは統計的および物理的に影響を受けないという点で
不変である。すべての分岐条件とターゲット・アドレス
をその中に含む物理区画をミニキャッシュに入れる構成
には、命令キャッシュのブロックの構築が含まれる。物
理区画の数を増やしたり物理区画のサイズを大きくした
りすることによって、４個、５個、８個、１６個、１７
個、または３２個あるいは６４個を含む任意の数の区画
を有する命令語であっても新たな問題が生じることはな
い。

【００２０】本発明の他の目的は、分岐条件を評価して
次のＶＬＩＷ命令のアドレスの判断と計算を行うために
わずかなコンピュータの費用とオーバーヘッドを加える
だけで、コンピュータの効率を向上させることである。
次のアドレス、条件コード、および分岐条件を判断する
のに必要な余分なビットと計算は、それらを複製された
物理区画に入れ、次にすべての条件分岐を同時に評価す
ることによって軽減される。したがって、ＶＬＩＷ命令
を収容するのに既存のレジスタのサイズを最小限増やす
だけで済む。すべての条件付き分岐を同時に評価する他
の利点は、本発明によって誤った分岐予測を取り消す不
経済なペナルティが回避されることである。

【００２１】

【課題を解決するための手段】本発明は、予測可能な分
岐経路をコンパイル時に知る必要はなく、単に、分岐経
路がわかるまで完全に、可能なすべての経路の同時実行
の備えをするに過ぎない。単一の命令内に含まれる条件
付き分岐の複数同時投機評価の結果、並列実行ユニット
の使用効率が高まる。その結果、スーパースカラ処理お
よびＶＬＩＷ処理の全体的パフォーマンスが向上する。

【００２２】したがって、本発明の一態様は、まず、分
岐区画に付随する各オフセットを含むすべてのターゲッ
ト・アドレスと、複数の区画を有する命令のすべての分
岐区画内に含まれるすべての分岐条件を複製することに
よる、ディジタル計算の方法である。区画には分岐区画
と操作（operational）区画があるが、いずれの場合も
すべての区画がプロセッサで独立実行可能である。この
方法は、命令を、複製されたターゲット・アドレスおよ
び分岐条件を持つ区画と共に命令キャッシュにロード
し、次に、実行する命令を選択するステップをさらに含
む。以下の３つのイベントが同時に行われる。すなわ
ち、（１）各ユニットがそれぞれ１つの区画専用である
プロセッサの複数の実行ユニットで操作区画を実行し、
（２）命令のすべての分岐区画のすべての分岐条件を、
複数の条件コード・レジスタに照らして評価して成立す
る制御フロー分岐を判断し、（３）命令のすべての複製
されたオフセット・ターゲット・アドレスを論理回路に
よってデコードする。成立する制御フロー分岐の評価さ
れた分岐条件は、デコードされたターゲット・アドレス
と、操作区画の実行結果とに関連づけられる。成立する
制御フロー分岐の実行結果はメモリに記憶され、実行結
果によって生じる条件コードが、選択された命令の分岐
条件と照合して評価するために条件コード・レジスタに
格納される。

【００２３】本発明は、並列して実行することができる
最大Ｎ個の基本コンピュータ操作を第１の命令にコンパ
イルすることによる計算の方法でもある。第１の命令は
少なくともＮ個の区画を含み、そのうちのいくつかはタ
ーゲット・アドレスと、第２の命令を判断するために評
価される分岐条件とを有する分岐区画であり、いくつか
はコンピュータプロセッサで処理するために操作区画で
ある。第１の命令のＮ個の区画のすべてのターゲット・
アドレスとすべての分岐条件がＮ回複製されて命令キャ
ッシュに記憶される。第１の命令のすべての分岐区画内
のすべてのターゲット・アドレスによって示されたすべ
ての可能な後続命令が、次のアドレスによって識別され
た命令キャッシュの指定セクションに記憶され、可能な
各後続命令はオフセットによって個別にアドレス指定さ
れる。命令キャッシュ内では、複製されたターゲット・
アドレスと分岐条件を有するＮ個の区画の各１つの区画
が、命令キャッシュ内の複数のミニ・キャッシュの各１
つのミニキャッシュに位置合わせされる。この場合も、
この方法では３つの並行したイベントが行われる。すな
わち、（１）第１の命令のすべての分岐条件が同時にＮ
回評価されてすべての可能な後続命令のうちのどの命令
が第２の命令になるかを判断し、（２）第１の命令のす
べてのオフセットをＮ回デコードして第２の命令のター
ゲット・アドレスを選択し、（３）第１の命令のすべて
の操作区画を実行して、第２の命令の少なくとも１つの
条件コードを判断し、操作区画の論理結果を様々なメモ
リに記憶する。第２の命令のターゲット・アドレスは命
令キャッシュに転送され、第２の命令が実行のために命
令レジスタにロードされる。第１の命令の実行の結果と
して得られた少なくとも１つの条件コードが、第２の命
令の分岐条件に適用するために条件コード・レジスタに
送られる。

【００２４】本発明は、命令を命令レジスタに配信する
ことができる命令キャッシュを有するプロセッサでもあ
る。命令キャッシュはＮ個のミニキャッシュに位置合わ
せされた列と、区画の行とを有し、各区画は物理的にＮ
個のミニキャッシュの１つに入れられる。各区画が並列
実行可能な基本コンピュータ操作を有する任意の数の区
画が、１つの命令を構成することができる。プロセッサ
は、Ｎ個のターゲット・アドレス選択回路も有し、各タ
ーゲット・アドレス選択回路はＮ個のミニキャッシュの
うちのそれぞれ１つのミニキャッシュに接続され、最大
Ｎ個のターゲット・アドレスをデコードして、命令レジ
スタに配信する命令を選択する。命令レジスタはＬ個の
分岐区画を有し（ただしＬはＮ以下の数である）、Ｌ個
の分岐区画の各分岐区画が、後続命令のＬ個のターゲッ
ト・アドレスとＬ個の分岐条件とを有し、命令レジスタ
はさらにＭ個の操作区画を有する。Ｌ個の分岐区画のす
べてのターゲット・アドレスが次のアドレスとＬ個のオ
フセット・アドレスを含む。プロセッサは、Ｎ個の実行
ユニットも有し、Ｎ個の実行ユニットのうちの少なくと
も１つの実行ユニットがＭ個の操作区画のうちのそれぞ
れ１つの操作区画に操作可能に接続され、操作区画を実
行する。Ｎ個の選択回路にはオフセット・アドレス・デ
コード論理回路が操作可能に接続され、Ｌ個の分岐区画
の各分岐区画内のすべてのターゲット・アドレスをデコ
ードする。命令レジスタには条件コード・レジスタが操
作可能に接続され、Ｌ個の分岐区画の各分岐区画を評価
し、次にＮ個のターゲット・アドレス選択回路と通信し
て次の命令を選択する。

【００２５】プロセッサ内では、命令キャッシュはさら
にブロックに構成され、次アドレスが、すべてのターゲ
ット・アドレスによって示されたすべての後続命令が格
納される特定のブロックを示し、Ｌ個のオフセット・ア
ドレスの各オフセット・アドレスがそのブロック内の個
々の命令を示す。命令は命令キャッシュの行全体を占有
することができ、その場合、１つの区画は物理的に１つ
のミニキャッシュに入れられ、（Ｌ＋Ｍ）＝Ｎである。
しかし、命令は命令キャッシュの行全体に満たない部分
を占有することもでき、その場合１つの区画は物理的に
各ミニキャッシュに１つ入れられ、（Ｌ＋Ｍ）＜Ｎであ
る。あるいは、命令は命令キャッシュの複数の行を占有
することができ、その場合、１つの区画はそれぞれ１つ
のミニキャッシュに入れられ、（Ｌ＋Ｍ）＞Ｎである。
このプロセッサと命令キャッシュは、命令キャッシュに
一度に様々なサイズの命令を記憶することができる事例
に対応するように意図されている。

【００２６】本発明は、各区画を並列して実行すること
ができる複数の区画を有する命令を実行することができ
るプロセッサを含む、中央処理装置を有するデータ処理
システムでもある。中央処理装置は、ミニキャッシュに
分割された命令キャッシュも有し、各ミニキャッシュは
命令内の区画に対応する。中央処理装置は、少なくとも
１つの条件コード・レジスタに接続された分岐条件評価
論理ユニットとオフセット・デコード論理ユニットも有
する。これらのユニットは、レイト選択装置に接続さ
れ、レイト選択ユニットは命令レジスタにも機能可能に
接続されている。中央処理装置は、複数の実行ユニット
と、少なくとも１つの条件コード・レジスタとマルチポ
ート・レジスタを含む複数のレジスタと、複数のキャッ
シュ・メモリと、メイン・メモリも有する。実行ユニッ
トと、論理ユニットおよびレイト選択ユニット、レジス
タ、メモリ、命令レジスタ、および命令キャッシュは機
能的に相互接続されている。データ処理システムは、バ
ス・インタフェース、バス、少なくとも１つの入出力プ
ロセッサを含む複数の外部接続も含む。入出力プロセッ
サは、テープ・ドライブ・データ記憶装置、コンピュー
タ・ネットワーク、光ファイバ通信、ワークステーショ
ン、周辺装置、情報ネットワークのうちの少なくとも１
つに接続され、これらのいずれもバスを介して中央処理
装置にデータおよび命令を送信することができる。デー
タ処理システムでは、命令の実行と評価の結果として発
生する次の可能な命令の、すべての分岐条件、次アドレ
ス（仮想アドレスであってもよい）、およびすべてのオ
フセット・アドレスを複製し、すべての複製された情報
の命令キャッシュに記憶することによって、次の命令の
選択が行われる。可能な次の命令はすべて命令キャッシ
ュ内の次アドレスによって指定されたブロックにロード
される。中央処理装置の分岐条件評価ユニットと条件コ
ード・レジスタが組合わさってすべての条件を評価し、
オフセット・デコード論理ユニットが命令のすべてのオ
フセット・アドレスをデコードする。これらのデコード
されたアドレスは、命令レジスタに接続され、命令レジ
スタの次アドレスを選択するレイト選択ユニットに送ら
れる。正しい分岐として評価された分岐の結果のみが次
の命令を決定し、その分岐の実行結果のみがレジスタま
たはメモリのうちの少なくとも１つに保管されたり外部
接続のうちの少なくとも１つに転送されたりする。

【００２７】本発明は、まったく単純に、プロセッサで
実行する命令のすべての分岐情報が複製され、次に命令
キャッシュ内のＮ個のミニキャッシュに位置合わせさ
れ、各ミニキャッシュに複製されたすべての分岐情報が
入れられる方法である。すべての分岐情報が同時に評価
されて、プロセッサで実行する次の命令が判断される。

【００２８】本発明は、並列して実行可能な少なくとも
１つの分岐区画と少なくとも１つの操作（operationa
l）区画を有する命令内のすべての分岐区画を複製する
手段と、複製された区画の各１つの区画と操作区画の各
１つの区画が各１つのミニＩキャッシュに記憶されるよ
うに複製された分岐区画を有する命令を命令キャッシュ
に記憶する手段と、すべての可能な次の命令を命令キャ
ッシュ内の同じブロックに記憶する手段と、命令レジス
タに入れる命令を選択する手段と、すべてのミニＩキャ
ッシュ内の命令のすべての分岐区画内のすべての分岐条
件を同時に評価する手段と、評価手段と並列して機能
し、すべてのミニＩキャッシュ内の命令のすべての可能
な次の命令のすべてのアドレスを同時にデコードする手
段と、評価手段およびデコード手段と並列して、命令の
すべての操作区画を実行する手段と、評価手段の結果を
デコード手段と実行手段に相関させる手段と、命令キャ
ッシュから命令レジスタに送る次の命令を選択する手段
とを含む、コンピュータ処理のための装置である。

【００２９】

【発明の実施の形態】本発明の好ましい実施形態による
ＶＬＩＷプロセッサ・アーキテクチャを使用するコンピ
ュータ・システム４００の主なハードウェア構成要素を
図４に示す。命令を処理するＣＰＵ４０１が別々のキャ
ッシュ４０３および４０４に結合されている。キャッシ
ュは、ＣＰＵ４０１によって頻繁に使用される情報と最
も最近に使用された情報を記憶する高速メモリである。
図のように、命令キャッシュとデータ・キャッシュは実
際にはキャッシュの階層である。レベル１キャッシュ
（Ｌ１キャッシュ）は最も高速で、ＣＰＵに最も近い。
レベル２キャッシュ（Ｌ２キャッシュ）はレベル１キャ
ッシュよりも低速でＣＰＵから遠いが、メイン・メモリ
４０２よりは実質的に高速でＣＰＵの近くにある。レベ
ル１キャッシュとプロセッサの間、またはレベル１キャ
ッシュとレベル２キャッシュの間、またはレベル２キャ
ッシュとメモリの間の中間にキャッシュがある場合もあ
る。データ・キャッシュと命令キャッシュ（Ｄキャッシ
ュおよびＩキャッシュ）の両方に複数のレベルがあり、
本発明および本明細書のキャッシュの説明はこのキャッ
シュの階層を含むことを意図している。命令キャッシュ
（Ｉキャッシュ）４０３にはＣＰＵ４０１によって実行
される命令が記憶される。データ・キャッシュ（Ｄキャ
ッシュ）４０４にはＣＰＵ４０１によって使用されるデ
ータが記憶される。両方のキャッシュは、命令とデータ
の両方が入っているランダム・アクセス・メイン・メモ
リ４０２と通信する。このアーキテクチャは、上述のよ
うに別々のキャッシュを組み込むことによって、ＶＬＩ
Ｗ機またはスーパースカラ機における正常な実行に必要
な命令とデータの両方のための帯域幅を備える。ＣＰＵ
４０１とメイン・メモリ４０２はバス・インタフェース
４０５を介してシステム・バス４１０とも通信する。様
々な入出力（Ｉ／Ｏ）処理装置（ＩＯＰ）４１１〜４１
５がシステム・バス４１０に接続され、直接アクセス記
憶装置（ＤＡＳＤ）、テープ装置、ワークステーショ
ン、プリンタ、遠隔通信回線などの様々な記憶装置およ
びＩ／Ｏ装置との通信をサポートする。図４は、システ
ム４００の代表的な主要構成要素を高水準で図示するこ
とを意図したものであり、そのような構成要素の数とタ
イプは変わることがあることを理解されたい。

【００３０】ＶＬＩＷはその名前が示すように、約５０
０〜１０００ビット以上というきわめて長いコンピュー
タ命令を有する。ＶＬＩＷは複数の区画から成り、各区
画は同時に実行可能な操作に関連づけられている。これ
らの操作を実行するハードウェアはこれらの各区画専用
である。したがって、各個々の区画に関連づけられた、
算術演算論理ユニット、浮動小数点ユニット、レジスタ
・レジスタ・ユニット、レジスタ・ストア・ユニットな
どの処理ユニットがある。ＶＬＩＷ処理の特徴は、命令
依存関係違反または資源競合を検出するための特別なハ
ードウェアを必要とせずに、単一の語内のすべての操作
が並列して進行することである。コンパイラは命令を生
成する前にこれらのすべての検査を行い、したがって各
長命令内のすべての操作の並列実行が可能になる。各区
画が並列して実行され、単一サイクル中にいくつかの分
岐命令と、分岐条件がＴＲＵＥでない順次経路が実行さ
れる。

【００３１】ＶＬＩＷ機の略ブロック図を図５に示す。
ＶＬＩＷ命令は、図４で４０３として図示されているＩ
キャッシュから命令レジスタ５００にロードされるとハ
ードウェアと一体化した一部になる。１サイクル中にハ
ードウェアを制御するのに命令全体が必要なため、この
命令レジスタ５００は各サイクルに全ＶＬＩＷ命令を収
容するのに十分な大きさでなければならない。従来の技
術の項で言及したように、命令レジスタ５００はいくつ
かの区画５１０（parcel）を含み、各区画は１つの基本
操作すなわちプリミティブに相当する。各区画５１０は
命令レジスタ５００にロードされると特定のビット位置
を占有し、それらの位置にハード結線されたハードウェ
ア・ユニットを制御する。コンパイラがプログラムの当
該箇所について十分な並列処理を見つけることができな
いために、命令が最大区画数を含まない場合、未使用の
ビット位置はそれに応じてリセットされる。命令は、条
件コード・レジスタの比較対照となる値である分岐条件
５２０も含む。命令レジスタ５００内のＶＬＩＷの各分
岐ターゲット５２２には、条件コードが分岐条件５２０
と一致する場合に次に命令レジスタ５００にロードされ
るターゲットＶＬＩＷ命令の次アドレスが含まれる。

【００３２】各ＡＬＵ区画５１０が１つのＡＬＵ５５
０、５５２、５５４、５５６に命令を供給する。たとえ
ば１つのＡＬＵ区画にＡＤＤ命令が含まれているとす
る。この同じ区画にＡＬＵが付加するオペレーティング
ランドを見つけることができるようにする情報が入って
おり、オペレーティングランドは、場合によっては命令
レジスタ５００自体内の分岐ターゲット・データ５２２
内に入っているが、より一般的にはオペランドはマルチ
ポート・レジスタ・ファイル５４０に入っている。マル
チポート・レジスタ・ファイル５４０は、すべてのＡＬ
Ｕが使用することができる１組の汎用レジスタであり、
たとえば特許出願第７６４００４号に記載されている
「マルチポートおよびインタリーブ・キャッシュ・メモ
リ」とすることができ、同出願は参照により本明細書に
組み込まれる。実際には、マルチポート・レジスタ・フ
ァイル５４０内のレジスタがしばしば同一サイクル中に
複数のＡＬＵによって使用され、各ＡＬＵは同一サイク
ル中にマルチポート・レジスタ・ファイル５４０内の複
数のレジスタにアクセスすることができる。したがっ
て、レジスタ・ファイル５４０の「マルチポート」機能
はＶＬＩＷ機にとってきわめて重要である。

【００３３】マルチポート・レジスタ・ファイル５４０
はロード命令によってデータ・キャッシュ４０４との間
でやりとりされるデータを一時的に記憶するために使用
される。通常はロード命令が実行されてから後続ＡＬＵ
操作でそのデータが使用され、その後でＡＬＵ操作の結
果がただちにマルチポート・レジスタ・ファイル５４０
に入れられる。ストア命令は、マルチポート・レジスタ
・ファイル５４０からより大容量の主記憶装置４０２に
データを移動すると共にデータ・キャッシュ４０４にコ
ピーを送る。

【００３４】各ＡＬＵ５５０、５５２、５５４、５５６
は、各サイクル時に１つの条件コードを生成することが
できる。これらの条件コードは次のサイクル時に使用す
るために次アドレス生成機構５３０に転送され、そこで
実行中のＶＬＩＷ命令の分岐条件５２０と比較されて命
令レジスタ５００にロードする次のＶＬＩＷ命令が判断
される。次アドレス生成機構５３０は、条件コードの設
定値を使用して各サイクルの終わりにＡＬＵの結果を保
管するかどうかも判断する。「ＩＦ（条件）ＴＨＥＮ
（処理を行う）」形式の条件付き操作は２サイクルで解
決される。最初のサイクルでは条件を検査して条件コー
ドを設定し、次のサイクルでその条件コードを使用して
処置を制御する。たとえば、条件付き処置がＲ１＝Ｒ１
＋Ｒ２である場合（ただし、Ｒ１およびＲ２マルチポー
ト・レジスタ・ファイル５４０内の値である）、次のＶ
ＬＩＷ命令にはその区画が含まれ、条件コードによって
各サイクルの終わりにレジスタ・ファイル５４０Ｒ１を
更新するかどうかが決まる。

【００３５】１つのＶＬＩＷ命令の実際の実行を図６お
よび図７に示す。この２つの図は同時に参照されたい。
図７で、ＶＬＩＷコンパイラ７２０が通常のコード７０
５の特定の命令７１１、７１２、．．．７１８のコンパ
イルとパーコレートを行い、並列実行可能な単一のＶＬ
ＩＷ命令７１０にする。１つのＶＬＩＷ命令７１０が実
行される全時間は垂直線に沿って示された１機械サイク
ルであり、２つの図で同一またはほぼ同じ水平次元上に
ある機能は並列して行われる。たとえば、図６で、ステ
ップ６１０、６１２、および６１４は同時に行われる。
まず最初に、ステップ６０５で、Ｎ個の区画（図７の例
では５個の区画）を有するＶＬＩＷ命令７１０が命令レ
ジスタ５００にロードされる。次に、ステップ６１２お
よび６１４のように区画７２２、７２３、７１４、７１
５、７１８がアクティブにされ、それらの区画が「ハー
ド結線」されているハードウェア要素の実行を制御す
る。それと同時に、ステップ６１０で、すべての条件コ
ードの直前の機械サイクルから現行設定値が解析され
る。ステップ６２４でマルチポート・レジスタ・ファイ
ル５４０からＡＬＵにデータがロードされる間に、ステ
ップ６２０で次アドレス生成機構５３０が次の命令アド
レスを判断し、ステップ６２２に示すように、次に実行
するＶＬＩＷを決定するために条件コードのどの結果を
使用するかを判断する。この時点で、ステップ６３２の
ようにＡＬＵ区画７１１、７１２、７１５が実行され、
ステップ６３４で区画７１８がデータ記憶装置（データ
・キャッシュ４０４または主記憶装置４０２）からＣＰ
Ｕにデータをロードすると、プロセッサにおける作業が
行われ、それと同時に命令キャッシュ４０３から次のＶ
ＬＩＷ命令が入手される。最後に、ステップ６３６で条
件コード解析の結果を使用して、すべてのＡＬＵの結果
をゲートし、それによって「成立した」分岐上の区画だ
けがその実行結果を保管し、したがって、たとえば区画
７１１が次のサイクルに条件コード１を設定すると、ス
テップ６４２で次のＶＬＩＷの条件コードが設定され、
データが適切な記憶装置（マルチポート・レジスタ・フ
ァイル５４０、データ・キャッシュ４０４、または主記
憶装置４０２）に保管される。分岐ツリーの最後の葉は
「ＧＯＴＯ」命令に相当するため、命令内の「成立」分
岐を決定する条件コードの同じ解析によって、次に実行
するＶＬＩＷ命令も決定し、ステップ６５０で単一のＶ
ＬＩＷの実行制御が終了する。本明細書に記載の本発明
では、図６の中央にある破線の左側の事象と機構につい
て説明する。

【００３６】アーキテクチャ設計と選好に応じて、命令
レジスタ５００にロードされるＶＬＩＷ命令には任意の
数の区画を含めることができ、各区画は任意のサイズと
することができる。各区画が３２ビットまたは６４ビッ
トを有する８個〜１６個の区画のＶＬＩＷ命令の例を図
８および図９に示す。ＶＬＩＷ命令の例、区画の形式、
および各区画のビット構造の詳細は、本出願人が所有す
る米国特許出願第０８／７８０８３９号に記載されてお
り、参照により本明細書に組み込まれる。図８および図
９で、ＢＰｘは、次アドレス生成機構５３０で評価する
分岐条件を有する分岐区画を示す。図７の区画７１４、
ＩＦＣＣ３−１ＧＯＴＯＥＮＤが分岐区画の例であ
る。ＲＲｘは、ＣＰＵ内の１つのレジスタから他のレジ
スタにデータが転送されるレジスタ−レジスタ操作を示
す。図７に示す区画のうちで、区画７１１のＩＦＲ２
／Ｒ４ＣＣ１＝１、７１２のＲ２＝Ｒ２＋４、７１
５のＲ１＝Ｒ１＋Ｒ８はすべて、ＲＲｘ区画の例であ
る。図７に示す区画７１８のＬＯＡＤＲ５ＦＲＯＭ
Ａｄｄｒは、ＣＰＵ内のレジスタからメモリ階層へデ
ータを転送するレジスタ−記憶域操作を示すＲＳｘ区画
の例である。

【００３７】本明細書に記載の本発明は、１つの命令が
とることができるいくつかの分岐がある場合に次のＶＬ
ＩＷ命令を決定し、それによって分岐区画のより精細な
検査が保証される方法を教示する。ＶＬＩＷ命令におい
て６ウェイ分岐をサポートするＶＬＩＷ分岐区画のビッ
ト位置の形式の例を図１０に示す。ＶＬＩＷ命令では、
分岐が次の順次命令への分岐であっても、すべてのＶＬ
ＩＷ命令が、図８、図９、および図１０の分岐区画ＢＰ
０とＢＰ１の組合せによって決まる少なくとも１つの分
岐を有するという仮定がある。図９および図１０に示す
分岐区画２ないし６（ＢＰ２〜ＢＰ６）は、ＶＬＩＷ命
令の分岐条件に応じて任意選択である。たとえば４個の
区画を有する小さなＶＬＩＷ命令では、順次ＶＬＩＷ命
令であることを示すビットをＶＬＩＷ命令に付加するこ
とが好ましいことがある。図１０に示す分岐区画には以
下の特徴が含まれる。分岐区画ＢＰ０のｏｐコード９０
は、ＶＬＩＷの長さ、分岐ターゲットのソース、および
ＶＬＩＷ命令に含まれる分岐の数を指定することができ
るビット・フィールドを有する。命令仮想アドレス（Ｉ
ＶＡ）フィールドは、主記憶中の当該区画を識別するた
めにプログラマが使用できる追加ビットを提供する。次
アドレス（ＮＡ）は、当該ＶＬＩＷ命令内のすべての分
岐のターゲットであるすべてのＶＬＩＷを有するレベル
１命令キャッシュの１キロバイト・ブロック／モジュー
ルを指定する。これは、命令アドレス・レジスタに連結
され、ターゲット・ブロックのアドレス全体を生成す
る。条件コード（ＣＣＸ）ビット選択フィールドは、分
岐がないかどうかを検査する条件レジスタ・ビットを指
定する。ＶＬＩＷプロセッサでは、検査する好ましい最
大条件ビット数は５である。分岐条件（ＢＣ）フィール
ドは、実行する各分岐ごとに満たさなければならない条
件を指定する。分岐条件フィールドは条件コード・ビッ
ト選択フィールドに対応する。各条件について、０、
１、およびＸ（ドントケア）の３つの状態を検査するこ
とが好ましい。ターゲット実行マスク（ＴＥＭ）フィー
ルドは、当該区画の条件コードが満たされた場合に現行
ＶＬＩＷ命令のどの区間を実行すべきかを指定する。オ
フセット・フィールドは、分岐のターゲットである１キ
ロバイト・ブロック内の次のＶＬＩＷ命令のアドレスを
示す。各分岐について１つのオフセットがある。

【００３８】実行する次のＶＬＩＷの決定は、１プロセ
ッサ・サイクル中に行う必要があるため、複雑な作業で
あり、さらに重要になる。１処理サイクル以内でのこれ
らの分岐区画の評価は、後続ＶＬＩＷを特定の構成のレ
ベル１命令キャッシュ４０３にロードし、それと同時
に、次アドレス生成機構５３０で分岐条件を評価するこ
とによって行うことができる。大部分のＶＬＩＷは順次
であるが、平均すると、５命令ごとに実行パイプライン
を分岐させることが経験的にわかっている。典型的に
は、１つのＶＬＩＷ命令当たり３個の条件付き分岐があ
る。１つのＶＬＩＷ内に最大８個以上の分岐条件区画を
入れることができるが、実際には、ＶＬＩＷコンピュー
タ・システムを成功裏に実施するには６個の分岐条件区
画で十分である。６個を超える分岐条件区画は、論理的
に実施が難しく、めったに必要ではない。各条件レジス
タを条件コード・マスクによって検査する。このマスク
の評価は、ハードウェアのクリティカル・パス上にあ
り、したがって位置的にコード化してデコード論理を高
速化する。分岐成立経路上にあると評価された区画のＡ
ＬＬＵの結果だけがメモリ（キャッシュ・メモリまたは
メイン・メモリ）に記憶するためにコミットされ、次の
サイクルのために条件コード・レジスタで使用される。

【００３９】条件分岐を有する制御フローを図１１に視
覚的に示す。前に実行された条件付き命令の結果に応じ
て次のＶＬＩＷ命令が実行される。ＣＰＵで実行される
操作は、制御フローまたはツリーの分岐を表す線と交差
する短い線ｏｐ１〜ｏｐ６によって表されている。ツリ
ーのノードは評価する条件ｃｃ０、ｃｃ１、ｃｃ２に対
応し、そこで制御フローは方向を変えることができる。
ノードでは、条件コードについて二進検査を行う。ノー
ドから左側に出るノードはテストの偽の結果に対応し、
右側に出る分岐は検査の真の結果に対応する。たとえ
ば、図１１に示すように左端の分岐をたどり、まず、条
件ｃｃｏ＝ＬＴを評価して、第１の命令の結果が何らか
の任意の値（一般にはゼロ）よりも小さいかどうかを判
断する。これが偽の場合、左の制御フロー経路をｏｐ１
として識別されている操作まで進む、他の条件ｃｃ１＝
ＧＴについてｏｐ１の結果を評価する。すなわち、ｏｐ
１の結果が何らかの任意の値よりも大きくない場合、ｏ
ｐ３に進み、その後次の命令Ｌ０に進む。同様に、ｃｃ
０＝ＬＴが真の場合、ｏｐ２が実行され、ｃｃ２＝ＥＱ
も真の場合ｏｐ６が実行され、Ｌ３が次の命令になる。

【００４０】ＶＬＩＷアーキテクチャの実施の成功は、
レベル１命令キャッシュ（Ｌ１Ｉキャッシュ）の構造に
よって決まる。ゼロ・サイクルのレイテンシで最大６ウ
ェイ分岐に対適応させる第１の要件は、プロセッサに最
も近いレベル１命令キャッシュを、多くのシステムで一
般にマイクロコードのために使用される制御記憶メモリ
として扱うことである。また、完全即値アドレス・フィ
ールドのように、命令キャッシュ・アドレスが完全に命
令から取り出されるようにレベル１命令キャッシュを直
接アドレスすることも必要である。あるいは、命令アド
レス・レジスタから上位アドレスの一部を取り出し、残
りの下位アドレス・ビットは命令から直接取り出され、
このように取り出されたアドレスはＮ個の命令のモジュ
ール空間内の命令制御語の絶対アドレスのサブユニット
である。

【００４１】図１２に示すレベル１命令キャッシュ（Ｌ
１Ｉキャッシュ）４０３はＣＰＵと共に集積され、好ま
しくは列ブロックまたはそれぞれ４キロバイトのミニＩ
キャッシュ１１００に構成された６４キロバイトを有す
る。ミニＩキャッシュ内のバイト数と１ＶＬＩＷ命令当
たりのバイト数との間には関係がある。ミニＩキャッシ
ュの数は、異なるフィールド幅と異なる区画サイズを有
するＶＬＩＷ命令の処理に対応するように変化すること
ができる。さらに、レベル１命令キャッシュは１ポート
・レイト選択アレイとして簡単に構成できるようにする
ことが重要である。レベル１命令キャッシュは、可能な
最高速の単一サイクル・アクセスを可能にするようにダ
イレクト・マッピングされるが、アソシアティブ・キャ
ッシュも機能し、その場合はアクセス時間が長くなる。
レベル１命令キャッシュでは、ＶＬＩＷコンパイラが分
岐ターゲットをＶＬＩＷ命令から手配し、それによって
前に実行しているＶＬＩＷ命令のすべての可能なＶＬＩ
Ｗ命令が命令のうちの１キロバイトの境界上に位置合わ
せされた同じ１キロバイト・ブロック内に入れられるよ
うにする必要がある。すなわち６ウェイ分岐方式では、
可能な６個のターゲットＶＬＩＷ命令すべてを、１６×
６４バイト＝１０２４バイトの１６個のＶＬＩＷ命令か
ら成るモジュールに構成する必要がある。

【００４２】図１２には、１キロバイト・ブロック１１
２０と、もう一つの１キロバイト・ブロック１１２２の
最初の２つのＶＬＩＷ命令が示されている。各１キロバ
イト・ブロック１１２０内には、各行に１つずつ１６個
のＶＬＩＷ命令１１２４がある。本発明は、ＶＬＩＷ命
令がレベル１命令キャッシュ４０３内の１キロバイトの
境界上に位置合わせされるため、可変数の区画を有する
ＶＬＩＷ命令に対応する。各列１１００〜１１１５の個
々の行内に各ＶＬＩＷ命令１１２４の個々の区画１１２
６を位置合わせすることによって、１つのＶＬＩＷ命令
は４個または８個の区画しか持つことができないが、後
続のＶＬＩＷ命令は１６個の区画を持つことができる。

【００４３】ＶＬＩＷ機の重要な特徴は、命令キャッシ
ュにロードされる前に、ＶＬＩＷ命令１１２４の各区画
１１２６が、各区画内に複製された各区画の次アドレ
ス、オフセット、および分岐条件を有することである。
１サイクル・プリプロセッサが、分岐条件、次アドレ
ス、オフセットを、１区画について１アレイずつのフラ
グ・アレイ１３１０（図１７に図示）に移動させ、次
に、命令キャッシュにロードする前に各区画を複製す
る。より小さい列１１１１には、メイン・メモリ内の１
キロバイト・ブロックの次アドレスの数ビット（１１ビ
ット）が含まれる。その結果、このより小さい列１１１
１のビットの数と値は１キロバイト・ブロック１１２０
全体を通じて同じになる。

【００４４】ＶＬＩＷ命令の複数の１キロバイト・ブロ
ック（典型的には４〜８個の１キロバイト・ブロック）
が、メイン・メモリからレベル１命令キャッシュにロー
ドされる。たとえば、１１ビットの分岐アドレスがあ
り、そのうちの事前デコードされた８ビットによってメ
イン・メモリ内のブロックが識別され、コード化された
３ビットによって、メモリからロードされたうちの１キ
ロバイト・ブロックのアドレスが識別される。このアド
レスは、各区画の次アドレス（ＮＡ）フィールドにも入
れられる。レベル１命令キャッシュは、仮想アドレスを
使用してアドレスされ、それによって仮想−実アドレス
・マッピングを待つ必要がなくなる。アドレスは加算機
を通らずにＶＬＩＷ命令から直接入手される。あるい
は、アドレスの上位ビットがいくつかのレジスタのうち
の１つのレジスタから取り出される。オフセット選択１
１３０およびレイト選択１１４０がさらにオフセットを
デコードして、次に命令レジスタ５００にロードする個
々のＶＬＩＷ命令を得る。

【００４５】図１３から図１５に示す３つのイベントは
同時に発生する。まず、１２２０で、分岐条件を条件コ
ード・レジスタと比較することによって、ＶＬＩＷ命令
のすべての区画を同じ分岐条件について並列して評価す
る。直前のＶＬＩＷ命令によって１ミニＩキャッシュ当
たり１つずつ、１６コピーの条件コード・レジスタがロ
ードされた。これと同時に、１２４０ですべての区画が
並列評価され、可能なすべてのオフセットアドレスがデ
コードされて次のＶＬＩＷが何であるかが判断される。
分岐条件を解決してどの条件付き分岐が成立したかが判
断されると、その分岐に付随するオフセット・アドレス
が選択され、その情報がオフセット選択１１３０および
１１４０に転送され、キャッシュの１キロバイト・ブロ
ック内の１６個のＶＬＩＷから次のＶＬＩＷが選択され
る。これと同時に、１２６０でミニＩキャッシュのすべ
ての分岐が実行され、それによって、次のＶＬＩＷ命令
の分岐条件の評価のために条件コード・レジスタをその
実行結果と共にロードすることができるようになるとと
もに、「成立」分岐であると評価された分岐の結果を記
憶することができる。直前のＶＬＩＷｎ−１によって条
件コードが設定される。ＶＬＩＷｎはその条件をそれら
の条件コードと照らして評価させ、そのオフセット・ア
ドレスをデコードさせ、すべての区画を実行してどの結
果を記憶するかを判断する。

【００４６】したがって、かなり自律的に動作する１６
個（およびそれ以上またはそれ以下の数であってもよ
い）のミニＩキャッシュに分割されたレベル１命令キャ
ッシュの設計によって、ＶＬＩＷ命令のすべての条件付
き分岐を評価してどの分岐が正しい分岐であるかを判断
することが可能になる。正しい分岐の演算結果と条件コ
ードだけが保管される。この同時評価を可能にするため
に、各区画の次アドレス、条件コード、および分岐条件
が１６回（またはミニＩキャッシュの数と同数回）複製
される。次アドレスは、すべての条件分岐のターゲット
ＶＬＩＷ命令をすべて含む命令キャッシュ内の１キロバ
イト・ブロックを示す。オフセット・アドレスはデコー
ドされ、当該１キロバイト・ブロックのどの特定のＶＬ
ＩＷ命令が次に実行するＶＬＩＷ命令になるかが判断さ
れる。

【００４７】図１６および図１７に、単一の自律ミニＩ
キャッシュ１００の関係内での本発明のプロセスを示
す。分岐条件と次アドレスとオフセットを持つ複製され
た分岐区画ビットが、ミニＩキャッシュ１１００のフラ
グ・アレイ１３１０に記憶される。本発明を説明するた
めに、図１６および図１７に、現行サイクル中に実行さ
れ、評価される、複製された分岐区画ビットを持つ命令
１１２６を示す。命令１１２６内の分岐条件ＢＣ
１．．．ＢＣ６が、分岐条件評価論理ユニット１３５０
内の条件コード・レジスタ１３２０の選択された条件コ
ードと照らして評価される。条件コード・レジスタ１３
２０内の値は、前の命令の実行結果によって決定してい
る。これと同時に、命令１１２６のオフセットＯＦＦ
１．．．ＯＦＦ２がオフセット・デコード論理回路１３
３０に転送される。分岐条件論理回路の結果はオフセッ
ト選択回路１１３０に転送され、そこで、分岐条件によ
って判断された後続命令となる可能性がある各命令の、
デコードされたオフセットが選択される。デコードされ
たこれらのアドレスは次にレイト選択ユニット１１４０
に転送され、命令レジスタ５００のためにミニＩキャッ
シュ１１００から次の命令が選択される。選択された命
令は命令１１２６になり、プロセスが再び開始される。

【００４８】本発明について、現在のところ最も実際的
で好ましいと考えられる実施形態と関係づけて説明した
が、本発明は開示した実施形態に限定されるものではな
く、請求の範囲に記載の主旨および範囲内に含まれる様
々な修正および同等の構成も含むものである。たとえ
ば、すでに述べたように、命令キャッシュの設計はＶＬ
ＩＷ命令内の多様な数の区画に適応させることができ
る。本発明の柔軟性を高めるために、スーパスカラ・コ
ンピュータにおけるように、命令キャッシュ内のミニＩ
キャッシュの数を命令内のより少数またはより多数の区
画またはクワド語に合わせて変えることができる。動作
周波数を向上させるために、設計者はＡＬＵにおける実
行のサイクル数を増やし、パイプラインを縮小すること
もできる。

【００４９】まとめとして、本発明の構成に関して以下
の事項を開示する。

【００５０】（１）コンピュータの方法であって、
（ａ）いくつかの区画が分岐区画であり、いくつかの区
画が操作区画であり、すべての区画がプロセッサにおけ
る独立実行が可能である、複数の区画を有する命令のす
べての分岐区画内に含まれるすべてのターゲット・アド
レスとすべての分岐条件を複製するステップと、（ｂ）
複数の区画を有する命令を前記複製されたターゲット・
アドレスおよび分岐条件と共に命令キャッシュにロード
するステップと、（ｃ）実行のために命令を選択するス
テップと、（ｄ）各実行ユニットが前記区画のうちのそ
れぞれの区画専用である、プロセッサの複数の実行ユニ
ットにおいて操作区画を実行するステップと、（ｅ）前
記命令のすべての分岐区画のすべての分岐条件を同時に
評価して成立する制御フロー分岐を判断するステップ
と、（ｆ）デコード論理回路を使用して前記命令のすべ
てのターゲット・アドレスを同時にデコードするステッ
プと、（ｇ）評価した前記分岐条件の各１つの分岐条件
を前記デコードされたターゲット・アドレスの各１つの
ターゲット・アドレスと前記操作区画の実行結果とに相
関させるステップと、その結果として、（ｈ）前記成立
する制御フロー分岐を実行のために選択するステップ
と、（ｉ）前記成立する制御フロー分岐の実行結果を記
憶するステップと、（ｊ）前記成立する制御フロー分岐
の次の命令を実行のために選択するステップとを含む方
法。（２）前記成立する制御フロー分岐の実行結果を記憶す
る前記ステップ（ｇ）が、（ｇ１）前記実行結果をメモ
リに記憶するステップと、（ｇ２）前記実行結果によっ
て生じる複数の条件コードを複数の条件コード・レジス
タに記憶するステップとをさらに含む、上記（１）に記
載の方法。（３）すべてのターゲット・アドレスを複製する前記ス
テップ（ａ）が、（ａ１）各オフセットが分岐区画に関
連づけられた複数のオフセットをすべて複製するステッ
プをさらに含み、デコード論理回路を使用してすべての
ターゲット・アドレスを同時にデコードする前記ステッ
プ（ｆ）が、（ｆ１）前記複製されたオフセットをすべ
てデコードするステップをさらに含む、上記（２）に記
載の方法。（４）前記命令のすべての分岐区画のすべての分岐条件
を評価する前記ステップ（ｅ）が、（ｅ１）前記分岐条
件の各１つの分岐条件を、前記複数の条件コード・レジ
スタにそれぞれ入っている前記複数の分岐条件の各１つ
の分岐条件と比較するステップをさらに含む、上記
（２）に記載の方法。（５）（ａ）第１の命令が少なくともＮ個の区画を含
み、前記Ｎ個の区画のうちのいくつかが後続命令のター
ゲット・アドレスと第２の命令を判断するために評価す
る分岐条件とを有する分岐区画であり、前記Ｎ個の区画
のうちのいくつかがプロセッサで実行するための操作区
画である、並列して実行可能な最大Ｎ個の基本コンピュ
ータ操作を第１の命令にコンパイルするステップと、
（ｂ）命令キャッシュに記憶するために前記第１の命令
のＮ個の区画のすべてのターゲット・アドレスとすべて
の分岐条件をＮ回複製するステップと、（ｃ）各可能な
後続命令がオフセットによって個別にアドレスされる、
第１の命令のすべての分岐区画内のすべてのターゲット
・アドレスによって示されたすべての可能な後続命令
を、次アドレスによって識別された命令キャッシュの指
定セクション内に記憶するステップと、（ｄ）前記複製
されたターゲット・アドレスと分岐条件とを有するＮ個
の区画の各１つの区画を前記命令キャッシュ内の複数の
ミニキャッシュの各１つのミニキャッシュに位置合わせ
するステップと、（ｅ）前記第１の命令のすべての分岐
条件をＮ回評価し、同時に、すべての可能な後続命令の
うちのどの命令が第２の命令になるかを判断するステッ
プと、（ｆ）ステップ（ｅ）と同時に、前記第１の命令
のすべてのオフセットをＮ回デコードして前記第２の命
令に対応するターゲット・アドレスを選択するステップ
と、（ｇ）ステップ（ｆ）と同時に、前記第１の命令の
すべての操作区画を実行して前記第２の命令の少なくと
も１つの条件コードを判断し、前記操作区画の結果を少
なくとも１つのレジスタまたはメモリあるいはその両方
に記憶するステップと、（ｈ）前記命令キャッシュに、
前記第２の命令のターゲット・アドレスを伝達し、前記
第１の命令の結果生じる少なくとも１つの条件コードを
少なくとも１つの条件コード・レジスタに伝達するステ
ップとを含む方法。（６）（ａ）任意の数の区画が命令を構成し、各区画が
Ｎ個のミニキャッシュのうちの１つのミニキャッシュに
物理的に入れられる、Ｎ個のミニキャッシュに位置合わ
せされた列と複数の区画に位置合わせされた行とを有す
る命令キャッシュと、（ｂ）各ターゲット・アドレス選
択回路がＮ個のミニキャッシュのうちのそれぞれ１つの
ミニキャッシュに直接接続され、Ｎ個のターゲット・ア
ドレスをデコードし、前記命令レジスタに送る命令を選
択する、Ｎ個のターゲット・アドレス選択回路と、
（ｃ）ＬがＮ以下であり、命令レジスタがＬ個の分岐区
画を有し、各Ｌ個の分岐区画が後続命令のＬ個のターゲ
ット・アドレスとＬ個の分岐条件とを有し、前記命令レ
ジスタがＭ個の操作区画をさらに有する、前記命令を受
け取って実行を開始する命令レジスタと、（ｄ）Ｎ個の
実行ユニットのうちの少なくとも１つの実行ユニットが
Ｍ個の操作区画の各１つの操作区画に操作可能に接続さ
れ、前記操作区画を実行するＮ個の実行ユニットと、
（ｅ）前記Ｎ個の選択回路に操作可能に接続され、前記
Ｌ個の分岐区画の各分岐区画内のすべてのターゲット・
アドレスをデコードする、オフセット・アドレス・デコ
ード論理回路と、（ｆ）前記Ｎ個のターゲット・アドレ
ス選択回路に操作可能に接続され、前記Ｌ個の分岐区画
の各分岐区画を評価する条件コード・レジスタとを含む
プロセッサ。（７）前記命令キャッシュがさらに複数のブロックに構
成され、前記Ｌ個の分岐区画のすべてのターゲット・ア
ドレスが次アドレスとＬ個のオフセット・アドレスを含
み、次アドレスはすべてのターゲット・アドレスによっ
て示されたすべての後続命令が記憶されている複数のブ
ロックのうちの選択された１つのブロックを示し、Ｌ個
のオフセット・アドレスの各オフセット・アドレスは前
記複数のブロックのうちの選択された１つのブロック内
の個々の命令を示す、上記（６）に記載のプロセッサ。（８）前記命令が前記命令キャッシュの１行全体を占有
することができ、前記区画の各１つの区画がＮ個のミニ
キャッシュの各ミニキャッシュに物理的に入れられ、
（Ｌ＋Ｍ）＝Ｎである、上記（６）に記載のプロセッ
サ。（９）前記命令が前記命令キャッシュの１行全体未満を
占有することができ、前記区画の各１つの区画がＮ個の
ミニキャッシュの各ミニキャッシュに物理的に入れら
れ、（Ｌ＋Ｍ）＜Ｎである、上記（６）に記載のプロセ
ッサ。（１０）前記命令が前記命令キャッシュの複数の行を占
有することができ、前記区画の各１つの区画がＮ個のミ
ニキャッシュの各１つのミニキャッシュに入れられ、
（Ｌ＋Ｍ）＞Ｎである、上記（６）に記載のプロセッ
サ。（１１）（Ｌ＋Ｍ）＝Ｎ＝１６である、上記（８）に記
載のプロセッサ。（１２）Ｎ＝１６であり、（Ｌ＋Ｍ）＝４または８であ
る、上記（９）に記載のプロセッサ。（１３）Ｎ＝１６であり、（Ｌ＋Ｍ）＝３２または６４
である、上記（１０）に記載のコンピュータ。（１４）（ａ）各区画が並列して実行可能な複数の区画
を有する命令を実行することができるプロセッサと、各
ミニキャッシュが前記命令の区画に対応するミニキャッ
シュに分割された命令キャッシュと、少なくとも１つの
条件コード・レジスタおよびオフセット・デコード論理
ユニットに接続された条件評価論理ユニットと、命令レ
ジスタに接続されたレイト選択ユニットと、複数の実行
ユニットと、少なくとも１つの条件コード・レジスタお
よびマルチポート・レジスタ・ファイルを含む複数のレ
ジスタと、複数のキャッシュ・メモリと、メイン・メモ
リとを含み、前記実行ユニットと、前記論理ユニット
と、前記レイト選択ユニットと、前記レジスタと、前記
メモリと、前記命令レジスタと、前記命令キャッシュと
が機能的に相互接続されている中央処理装置と、（ｂ）
バス・インタフェースと、バスと、いずれもがバスを介
してデータおよび命令を前記中央処理装置に送信するこ
とができるテープ・ドライブ、データ記憶装置、コンピ
ュータ・ネットワーク、光ファイバ通信、ワークステー
ション、周辺装置、情報ネットワークのうちの少なくと
も１つに接続された少なくとも１つの入出力プロセッサ
とを含む複数の外部接続とを含み、次の命令の選択が、
前記命令の実行と評価の結果として生じたすべての分岐
条件と次アドレスとすべてのオフセット・アドレスとを
複製し、複製されたすべての情報を前記命令キャッシュ
に記憶することによって行われ、可能なすべての次の命
令が前記命令キャッシュ内の前記次アドレスによって指
定されたブロックにロードされ、前記条件コード・レジ
スタと前記分岐条件評価論理ユニットがすべての分岐条
件を評価し、前記オフセット・デコード論理ユニットが
前記命令のすべてのオフセット・アドレスをデコード
し、前記分岐条件評価論理ユニットが前記少なくとも１
つの条件コード・レジスタと少なくとも１つの他のレジ
スタとに伝達し、次の命令を決定する前記分岐条件評価
論理ユニットの結果のみを保管し、前記オフセット・デ
コード論理ユニットおよびレイト選択ユニットが前記命
令レジスタのために前記命令キャッシュから次の命令を
選択する、データ処理システム。（１５）（ａ）プロセッサで実行される命令のすべての
分岐情報を複製するステップと、（ｂ）各ミニキャッシ
ュにすべての前記複製された情報が入れられる、前記命
令の前記複製された分岐情報を命令キャッシュ内のＮ個
のミニキャッシュに位置合わせするステップと、（ｃ）
前記分岐情報をすべて同時に評価して前記プロセッサで
実行する次の命令を判断するステップとを含む、コンピ
ュータ処理の方法。（１６）（ａ）並列して実行可能な少なくとも１つの分
岐区画と少なくとも１つの操作区画とを有する命令内の
すべての分岐区画を複製する手段と、（ｂ）それによっ
て前記複製された区画の各１つの区画と前記操作区画の
各１つの操作区画が各１つのミニＩキャッシュに記憶さ
れるように、前記命令を前記複製された分岐区画と共に
命令キャッシュに記憶するステップと、（ｃ）前記命令
キャッシュ内の同じブロックにすべての可能な次の命令
を記憶する手段と、（ｄ）命令レジスタに入れる前記命
令を選択する手段と、（ｅ）すべてのミニＩキャッシュ
内の前記命令のすべての分岐区画内のすべての分岐条件
を同時に評価する手段と、（ｆ）ステップ（ｅ）と並列
して、すべてのミニＩキャッシュ内の前記命令のすべて
の可能な次命令のすべてのアドレスを同時にデコードす
る手段と、（ｇ）ステップ（ｅ）および（ｆ）と並列し
て前記命令のすべての操作区画を実行する手段と、
（ｈ）前記評価手段の結果を前記デコード手段と前記実
行手段に相関させる手段と、（ｉ）前記命令キャッシュ
から前記次の命令を選択して前記命令レジスタに入れる
手段とを含む、コンピュータ処理のための装置。（１
７）（ａ）各命令が独立実行または評価あるいはその両
方が可能な複数の実行区画を有する複数の命令を受け取
るためのメイン・メモリへのメモリ接続と、（ｂ）各ミ
ニＩキャッシュが前記命令の１つの実行区画のみが入る
ように構成されている、複数のミニＩキャッシュと、
（ｃ）前記区画の実行または評価あるいはその両方の独
立開始のために前記各区画を伝達するための命令レジス
タへの接続とを含む、コンピュータ処理において使用す
るための命令キャッシュ。

【図面の簡単な説明】

【図１】コードの順次行を並列して実行する複数のプロ
セッサを示す図である。

【図２】ＶＬＩＷコンピュータの概念による、コードの
複数の行を並列して実行する単一のプロセッサを示す図
である。

【図３】ＶＬＩＷコンピュータによってコンパイルされ
たＶＬＩＷ命令を示す図である。

【図４】ＶＬＩＷコンピュータの分岐機能を実施する高
水準コンピュータ・システムを示す図である。

【図５】本発明の分岐機能を実施するＶＬＩＷプロセッ
サの構成要素を示す図である。

【図６】ＶＬＩＷ命令の実行と並列して分岐条件を解決
する方法を示すフローチャートである。

【図７】ＶＬＩＷコンピュータにおけるＶＬＩＷ命令の
実行を示す図である。

【図８】８個の区画を有するＶＬＩＷ命令の例を示す図
である。

【図９】１６個の区画を有するＶＬＩＷ命令の例を示す
図である。

【図１０】ＶＬＩＷ命令内に含まれる分岐区画の形式を
示す図である。

【図１１】ＶＬＩＷ命令の分岐機構と制御フローを示す
図である。

【図１２】ＶＬＩＷコンピュータのレベル１命令キャッ
シュを示す図である。

【図１３】次のＶＬＩＷ命令を判断する本発明の３つの
同時プロセスを示す図である。

【図１４】次のＶＬＩＷ命令を判断する本発明の３つの
同時プロセスを示す図である。

【図１５】次のＶＬＩＷ命令を判断する本発明の３つの
同時プロセスを示す図である。

【図１６】ミニＩキャッシュの関係内での３つのプロセ
スを示す図である。

【図１７】ミニＩキャッシュの関係内での３つのプロセ
スを示す図である。

【符号の説明】

４００コンピュータ・システム４０１中央処理装置４０２ランダム・アクセス・メモリ４０３命令キャッシュ４０４データ・キャッシュ４０５バス・インタフェース４１０システム・バス５００命令レジスタ５１０ＡＬＵ区画５５０算術演算／論理ユニット５４０マルチポート・レジスタ・ファイル

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁶ 識別記号ＦＩＧ０６Ｆ 12/08 Ｇ０６Ｆ 12/08 Ｗ (72)発明者ケニス・ジェイ・キーファーアメリカ合衆国55906 ミネソタ州ロチェスタークワリ・コートノースイースト 1031 (72)発明者デーヴィッド・アーノルド・ルイックアメリカ合衆国55906 ミネソタ州ロチェスターホーソーン・ヒル・ロードノースイースト 2317 (72)発明者ガブリエル・マウリチオ・シルバーマンアメリカ合衆国10546 ニューヨーク州ミルウッドヒドゥン・ホロー・レーン 141 (72)発明者フィリップ・ブラウン・ウィンターフィールドアメリカ合衆国55902 ミネソタ州ロチェスターエイトス・アベニューサウスウエスト 822

Claims

【特許請求の範囲】

【請求項１】コンピュータの方法であって、（ａ）いくつかの区画が分岐区画であり、いくつかの区
画が操作区画であり、すべての区画がプロセッサにおけ
る独立実行が可能である、複数の区画を有する命令のす
べての分岐区画内に含まれるすべてのターゲット・アド
レスとすべての分岐条件を複製するステップと、（ｂ）複数の区画を有する命令を前記複製されたターゲ
ット・アドレスおよび分岐条件と共に命令キャッシュに
ロードするステップと、（ｃ）実行のために命令を選択するステップと、（ｄ）各実行ユニットが前記区画のうちのそれぞれの区
画専用である、プロセッサの複数の実行ユニットにおい
て操作区画を実行するステップと、（ｅ）前記命令のすべての分岐区画のすべての分岐条件
を同時に評価して成立する制御フロー分岐を判断するス
テップと、（ｆ）デコード論理回路を使用して前記命令のすべての
ターゲット・アドレスを同時にデコードするステップ
と、（ｇ）評価した前記分岐条件の各１つの分岐条件を前記
デコードされたターゲット・アドレスの各１つのターゲ
ット・アドレスと前記操作区画の実行結果とに相関させ
るステップと、その結果として、（ｈ）前記成立する制御フロー分岐を実行のために選択
するステップと、（ｉ）前記成立する制御フロー分岐の実行結果を記憶す
るステップと、（ｊ）前記成立する制御フロー分岐の次の命令を実行の
ために選択するステップとを含む方法。
【請求項２】前記成立する制御フロー分岐の実行結果を
記憶する前記ステップ（ｇ）が、（ｇ１）前記実行結果をメモリに記憶するステップと、（ｇ２）前記実行結果によって生じる複数の条件コード
を複数の条件コード・レジスタに記憶するステップとを
さらに含む、請求項１に記載の方法。
【請求項３】すべてのターゲット・アドレスを複製する
前記ステップ（ａ）が、（ａ１）各オフセットが分岐区画に関連づけられた複数
のオフセットをすべて複製するステップをさらに含み、
デコード論理回路を使用してすべてのターゲット・アド
レスを同時にデコードする前記ステップ（ｆ）が、（ｆ１）前記複製されたオフセットをすべてデコードす
るステップをさらに含む、請求項２に記載の方法。
【請求項４】前記命令のすべての分岐区画のすべての分
岐条件を評価する前記ステップ（ｅ）が、（ｅ１）前記分岐条件の各１つの分岐条件を、前記複数
の条件コード・レジスタにそれぞれ入っている前記複数
の分岐条件の各１つの分岐条件と比較するステップをさ
らに含む、請求項２に記載の方法。
【請求項５】（ａ）第１の命令が少なくともＮ個の区画
を含み、前記Ｎ個の区画のうちのいくつかが後続命令の
ターゲット・アドレスと第２の命令を判断するために評
価する分岐条件とを有する分岐区画であり、前記Ｎ個の
区画のうちのいくつかがプロセッサで実行するための操
作区画である、並列して実行可能な最大Ｎ個の基本コン
ピュータ操作を第１の命令にコンパイルするステップ
と、（ｂ）命令キャッシュに記憶するために前記第１の命令
のＮ個の区画のすべてのターゲット・アドレスとすべて
の分岐条件をＮ回複製するステップと、（ｃ）各可能な後続命令がオフセットによって個別にア
ドレスされる、第１の命令のすべての分岐区画内のすべ
てのターゲット・アドレスによって示されたすべての可
能な後続命令を、次アドレスによって識別された命令キ
ャッシュの指定セクション内に記憶するステップと、（ｄ）前記複製されたターゲット・アドレスと分岐条件
とを有するＮ個の区画の各１つの区画を前記命令キャッ
シュ内の複数のミニキャッシュの各１つのミニキャッシ
ュに位置合わせするステップと、（ｅ）前記第１の命令のすべての分岐条件をＮ回評価
し、同時に、すべての可能な後続命令のうちのどの命令
が第２の命令になるかを判断するステップと、（ｆ）ステップ（ｅ）と同時に、前記第１の命令のすべ
てのオフセットをＮ回デコードして前記第２の命令に対
応するターゲット・アドレスを選択するステップと、（ｇ）ステップ（ｆ）と同時に、前記第１の命令のすべ
ての操作区画を実行して前記第２の命令の少なくとも１
つの条件コードを判断し、前記操作区画の結果を少なく
とも１つのレジスタまたはメモリあるいはその両方に記
憶するステップと、（ｈ）前記命令キャッシュに、前記第２の命令のターゲ
ット・アドレスを伝達し、前記第１の命令の結果生じる
少なくとも１つの条件コードを少なくとも１つの条件コ
ード・レジスタに伝達するステップとを含む方法。
【請求項６】（ａ）任意の数の区画が命令を構成し、各
区画がＮ個のミニキャッシュのうちの１つのミニキャッ
シュに物理的に入れられる、Ｎ個のミニキャッシュに位
置合わせされた列と複数の区画に位置合わせされた行と
を有する命令キャッシュと、（ｂ）各ターゲット・アドレス選択回路がＮ個のミニキ
ャッシュのうちのそれぞれ１つのミニキャッシュに直接
接続され、Ｎ個のターゲット・アドレスをデコードし、
前記命令レジスタに送る命令を選択する、Ｎ個のターゲ
ット・アドレス選択回路と、（ｃ）ＬがＮ以下であり、命令レジスタがＬ個の分岐区
画を有し、各Ｌ個の分岐区画が後続命令のＬ個のターゲ
ット・アドレスとＬ個の分岐条件とを有し、前記命令レ
ジスタがＭ個の操作区画をさらに有する、前記命令を受
け取って実行を開始する命令レジスタと、（ｄ）Ｎ個の実行ユニットのうちの少なくとも１つの実
行ユニットがＭ個の操作区画の各１つの操作区画に操作
可能に接続され、前記操作区画を実行するＮ個の実行ユ
ニットと、（ｅ）前記Ｎ個の選択回路に操作可能に接続され、前記
Ｌ個の分岐区画の各分岐区画内のすべてのターゲット・
アドレスをデコードする、オフセット・アドレス・デコ
ード論理回路と、（ｆ）前記Ｎ個のターゲット・アドレス選択回路に操作
可能に接続され、前記Ｌ個の分岐区画の各分岐区画を評
価する条件コード・レジスタとを含むプロセッサ。
【請求項７】前記命令キャッシュがさらに複数のブロッ
クに構成され、前記Ｌ個の分岐区画のすべてのターゲッ
ト・アドレスが次アドレスとＬ個のオフセット・アドレ
スを含み、次アドレスはすべてのターゲット・アドレス
によって示されたすべての後続命令が記憶されている複
数のブロックのうちの選択された１つのブロックを示
し、Ｌ個のオフセット・アドレスの各オフセット・アド
レスは前記複数のブロックのうちの選択された１つのブ
ロック内の個々の命令を示す、請求項６に記載のプロセ
ッサ。
【請求項８】前記命令が前記命令キャッシュの１行全体
を占有することができ、前記区画の各１つの区画がＮ個
のミニキャッシュの各ミニキャッシュに物理的に入れら
れ、（Ｌ＋Ｍ）＝Ｎである、請求項６に記載のプロセッ
サ。
【請求項９】前記命令が前記命令キャッシュの１行全体
未満を占有することができ、前記区画の各１つの区画が
Ｎ個のミニキャッシュの各ミニキャッシュに物理的に入
れられ、（Ｌ＋Ｍ）＜Ｎである、請求項６に記載のプロ
セッサ。
【請求項１０】前記命令が前記命令キャッシュの複数の
行を占有することができ、前記区画の各１つの区画がＮ
個のミニキャッシュの各１つのミニキャッシュに入れら
れ、（Ｌ＋Ｍ）＞Ｎである、請求項６に記載のプロセッ
サ。
【請求項１１】（Ｌ＋Ｍ）＝Ｎ＝１６である、請求項８
に記載のプロセッサ。
【請求項１２】Ｎ＝１６であり、（Ｌ＋Ｍ）＝４または
８である、請求項９に記載のプロセッサ。
【請求項１３】Ｎ＝１６であり、（Ｌ＋Ｍ）＝３２また
は６４である、請求項１０に記載のコンピュータ。
【請求項１４】（ａ）各区画が並列して実行可能な複数
の区画を有する命令を実行することができるプロセッサ
と、各ミニキャッシュが前記命令の区画に対応するミニ
キャッシュに分割された命令キャッシュと、少なくとも
１つの条件コード・レジスタおよびオフセット・デコー
ド論理ユニットに接続された条件評価論理ユニットと、
命令レジスタに接続されたレイト選択ユニットと、複数
の実行ユニットと、少なくとも１つの条件コード・レジ
スタおよびマルチポート・レジスタ・ファイルを含む複
数のレジスタと、複数のキャッシュ・メモリと、メイン
・メモリとを含み、前記実行ユニットと、前記論理ユニ
ットと、前記レイト選択ユニットと、前記レジスタと、
前記メモリと、前記命令レジスタと、前記命令キャッシ
ュとが機能的に相互接続されている中央処理装置と、（ｂ）バス・インタフェースと、バスと、いずれもがバ
スを介してデータおよび命令を前記中央処理装置に送信
することができるテープ・ドライブ、データ記憶装置、
コンピュータ・ネットワーク、光ファイバ通信、ワーク
ステーション、周辺装置、情報ネットワークのうちの少
なくとも１つに接続された少なくとも１つの入出力プロ
セッサとを含む複数の外部接続とを含み、次の命令の選択が、前記命令の実行と評価の結果として
生じたすべての分岐条件と次アドレスとすべてのオフセ
ット・アドレスとを複製し、複製されたすべての情報を
前記命令キャッシュに記憶することによって行われ、可
能なすべての次の命令が前記命令キャッシュ内の前記次
アドレスによって指定されたブロックにロードされ、前
記条件コード・レジスタと前記分岐条件評価論理ユニッ
トがすべての分岐条件を評価し、前記オフセット・デコ
ード論理ユニットが前記命令のすべてのオフセット・ア
ドレスをデコードし、前記分岐条件評価論理ユニットが
前記少なくとも１つの条件コード・レジスタと少なくと
も１つの他のレジスタとに伝達し、次の命令を決定する
前記分岐条件評価論理ユニットの結果のみを保管し、前
記オフセット・デコード論理ユニットおよびレイト選択
ユニットが前記命令レジスタのために前記命令キャッシ
ュから次の命令を選択する、データ処理システム。
【請求項１５】（ａ）プロセッサで実行される命令のす
べての分岐情報を複製するステップと、（ｂ）各ミニキャッシュにすべての前記複製された情報
が入れられる、前記命令の前記複製された分岐情報を命
令キャッシュ内のＮ個のミニキャッシュに位置合わせす
るステップと、（ｃ）前記分岐情報をすべて同時に評価して前記プロセ
ッサで実行する次の命令を判断するステップとを含む、
コンピュータ処理の方法。
【請求項１６】（ａ）並列して実行可能な少なくとも１
つの分岐区画と少なくとも１つの操作区画とを有する命
令内のすべての分岐区画を複製する手段と、（ｂ）それによって前記複製された区画の各１つの区画
と前記操作区画の各１つの操作区画が各１つのミニＩキ
ャッシュに記憶されるように、前記命令を前記複製され
た分岐区画と共に命令キャッシュに記憶するステップ
と、（ｃ）前記命令キャッシュ内の同じブロックにすべての
可能な次の命令を記憶する手段と、（ｄ）命令レジスタに入れる前記命令を選択する手段
と、（ｅ）すべてのミニＩキャッシュ内の前記命令のすべて
の分岐区画内のすべての分岐条件を同時に評価する手段
と、（ｆ）ステップ（ｅ）と並列して、すべてのミニＩキャ
ッシュ内の前記命令のすべての可能な次命令のすべての
アドレスを同時にデコードする手段と、（ｇ）ステップ（ｅ）および（ｆ）と並列して前記命令
のすべての操作区画を実行する手段と、（ｈ）前記評価手段の結果を前記デコード手段と前記実
行手段に相関させる手段と、（ｉ）前記命令キャッシュから前記次の命令を選択して
前記命令レジスタに入れる手段とを含む、コンピュータ
処理のための装置。
【請求項１７】（ａ）各命令が独立実行または評価ある
いはその両方が可能な複数の実行区画を有する複数の命
令を受け取るためのメイン・メモリへのメモリ接続と、（ｂ）各ミニＩキャッシュが前記命令の１つの実行区画
のみが入るように構成されている、複数のミニＩキャッ
シュと、（ｃ）前記区画の実行または評価あるいはその両方の独
立開始のために前記各区画を伝達するための命令レジス
タへの接続とを含む、コンピュータ処理において使用す
るための命令キャッシュ。