JPH07182160A

JPH07182160A - スーパースカラマイクロプロセッサ

Info

Publication number: JPH07182160A
Application number: JP6263317A
Authority: JP
Inventors: David B Witt; デイビッド・ビィ・ウィット; William M Johnson; ウィリアム・エム・ジョンソン
Original assignee: Advanced Micro Devices Inc
Current assignee: Advanced Micro Devices Inc
Priority date: 1993-10-29
Filing date: 1994-10-27
Publication date: 1995-07-21
Anticipated expiration: 2020-07-13
Also published as: US5655097A; JP3670039B2; US5867683A; US5867682A; US5751981A; DE69429061T2; EP0651321A1; DE69429061D1; US5655098A; US5651125A; EP0651321B1; US5664136A

Abstract

(57)【要約】【目的】高性能のスーパースカラマイクロプロセッサ
を提供する。【構成】上記マイクロプロセッサ２００は、高性能主
データ処理バスを共有する整数機能ユニットと浮動小数
点機能ユニットとを含む。整数ユニットと浮動小数点ユ
ニットは、共通リオーダバッファ、レジスタファイル、
分岐予測ユニットおよびロード／ストアユニットも共有
し、これらはすべて同じ主データ処理バス上にある。命
令およびデータキャッシュが主メモリに、この間の通信
を扱う内部データアドレスバスを介して結合される。命
令デコーダが命令キャッシュに結合され、１マイクロプ
ロセッササイクルにつき複数の命令をデコードすること
ができる。命令は推論順にデコーダから発行され、投入
および完了は順序通りでない。命令はリオーダバッファ
からレジスタファイルに順序通りに格納される。機能ユ
ニットは複数のデータ幅を示すオペランドを収容する。

Description

【発明の詳細な説明】

【０００１】

【発明の背景】この発明は一般にマイクロプロセッサに
関し、より特定的には高性能スーパースカラマイクロプ
ロセッサに関する。

【０００２】他の多くの近代技術分野と同様に、マイク
ロプロセッサの設計も、技術者および科学者が常に速
度、効率および性能を高めようと努める技術である。一
般的に言えば、マイクロプロセッサは２つのクラス、す
なわちスカラおよびベクトルプロセッサに分けることが
できる。最も初期のスカラプロセッサは、１マシンサイ
クルにつき最大で１の命令を処理する。いわゆる「スー
パースカラ」プロセッサで、１マシンサイクルにつき処
理できる命令は、１を上回る。スカラプロセッサと対照
的に、ベクトルプロセッサは各マシンサイクル中に比較
的大きな値のアレイを処理できる。

【０００３】ベクトルプロセッサは処理効率を追求する
のにデータ並列性に頼り、一方スーパースカラプロセッ
サは動作の効率を高めるのに命令並列性に頼る。命令並
列性は、命令を並列に処理することを可能にするこのよ
うな命令シーケンスの固有の特性と考えることができ
る。対照的に、データ並列性はその要素を並列に処理す
ることを可能にするデータの流れの固有の特性と見るこ
とができる。命令並列性は、命令の特定のシーケンスが
示す従属性の数に関連する。従属性とは、ある特定の命
令が別の命令の結果に依存する程度と定義される。スカ
ラプロセッサでは、ある命令が別の命令に対する従属性
を示すと、一般に、その命令が実行のために機能ユニッ
トに渡され得る前にその従属性を解決しなくてはならな
い。この理由のため、従来のスカラプロセッサは、プロ
セッサがこのような従属性の未処理の解決を待つ間の望
ましくない時間遅延がある。

【０００４】ここ数年、プロセッサおよびマイクロプロ
セッサによる命令の実行を高速化するためにいくつかの
アプローチがとられてきた。現在でもマイクロプロセッ
サで広く用いられているアプローチの１つは、パイプラ
イン化である。パイプライン処理では、１）命令のフェ
ッチ、２）命令のデコードおよびオペランドの収集、な
らびに３）命令の実行および結果のライトバックの３つ
のマイクロプロセッサの動作が処理を速くするために重
ねられる、組立ラインのアプローチがとられる。言い換
えれば、それぞれのマシンサイクルにおいて命令１がフ
ェッチされ、命令１がデコードされる。命令１がデコー
ドされ、そのオペランドが集められている間、命令２が
フェッチされる。命令１が実行され、その結果が書込ま
れる間、命令２はデコードされ、そのオペランドが集め
られ、命令３がフェッチされる。実用において、組立ラ
インのアプローチは、上述したよりも多くの組立ライン
ステーションに分けられることがある。パイプライン技
術のより詳細な議論は、ディー・ダブリュー・アンダー
ソン（D. W. Anderson）らによる、１９６７年１月、Ｉ
ＢＭジャーナル第１１巻の８−２４頁、「ＩＢＭシステ
ム／３６０モデル９１：マシンフィロソフィ」（“The
IBM System/360 Model 91:Machine Philosophy”）に記
載される。

【０００５】以下の定義は、本明細書中、明確を期する
ために述べるものである。「発行」とは、命令を命令デ
コーダから機能ユニットに送る動作のことである。「投
入」とは、命令を機能ユニット内での実行の状態に置く
動作である。「完了」とは、命令が実行を終えて、その
結果が利用可能であるときに達成されるものである。命
令の結果がレジスタファイルに書込まれるとき、命令は
「用尽」されると言う。これはまた、「ライトバック」
とも称する。

【０００６】ウィリアム・ジョンソン（William Johnso
n)による最近の著書「スーパースカラマイクロプロセッ
サ設計」（“Superscalar Microprocessor Design", １
９９１年、プレンティス・ホール社（Prentice-Hall, I
nc.)）では、実用的なスーパースカラマイクロプロセッ
サの設計に関していくつかの一般的な考察が述べられて
いる。図１は、このジョンソンの著書で説明されている
スーパースカラマイクロプロセッサの実現例を示すマイ
クロプロセッサ１０のブロック図である。マイクロプロ
セッサ１０は、整数演算を処理するための整数ユニット
１５と、浮動小数点演算を処理するための浮動小数点ユ
ニット２０とを含む。整数ユニット１５および浮動小数
点ユニットの各々は、それぞれ別個で専用の命令デコー
ダと、レジスタファイルと、リオーダバッファと、ロー
ドおよびストアユニットとを含む。より特定的には、整
数ユニット１５は、命令デコーダ２５と、レジスタファ
イル３０と、リオーダバッファ３５と、ロードおよびス
トアユニット（６０および６５）とを含み、一方浮動小
数点ユニット２０は、固有の命令デコーダ４０と、レジ
スタファイル４５と、リオーダバッファ５０と、ロード
およびストアユニット（７５および８０）とを含み、図
１に示されるとおりである。リオーダバッファはマイク
ロプロセッサの推論状態を含み、一方レジスタファイル
はマイクロプロセッサのアーキテクチャの状態を含む。

【０００７】マイクロプロセッサ１０はメインメモリ５
５に結合され、これは２つの部分、すなわち命令をスト
アするための命令メモリ５５Ａとデータをストアするた
めのデータメモリ５５Ｂとを含むものとして考えること
ができる。命令メモリ５５Ａは、整数ユニット１５と浮
動小数点ユニット２０との両方に結合される。同様に、
データメモリ５５Ｂも、整数ユニット１５および浮動小
数点ユニット２０の両方に結合される。より詳細には、
命令メモリ５５Ａはデコーダ２５およびデコーダ４０に
命令キャッシュ５８を介して結合される。データメモリ
５５Ｂは、データキャッシュ７０を介して整数ユニット
１５のロード機能ユニット６０とストア機能ユニット６
５とに結合される。データメモリ５５Ｂはまた、データ
キャッシュ７０を介して浮動小数点ユニット２０の浮動
小数点ロード機能ユニット７５と浮動小数点ストア機能
ユニット８０とに結合される。ロードユニット６０は、
データメモリ５５Ｂから選択されたデータを整数ユニッ
ト１５へとロードする従来のマイクロプロセッサの機能
を実行し、一方ストアユニット７０は、整数ユニット１
５からのデータをデータメモリ５５Ｂにストアする従来
のマイクロプロセッサの機能を実行する。

【０００８】コンピュータプログラムは、マイクロプロ
セッサ１０によって実行されるべき命令のシーケンスを
含む。コンピュータプログラムは、典型的には、ハード
ディスク、フロッピィディスクまたはコンピュータシス
テム内に位置される他の不揮発性記憶媒体にストアされ
る。プログラムが実行されるとき、プログラムは記憶媒
体からメインメモリ５５にロードされる。プログラムの
命令および関連のデータが一旦メインメモリ５５内に入
れば、個々の命令を実行のために準備し、最終的にはマ
イクロプロセッサ１０によって実行することができる。

【０００９】メインメモリ５５内にストアされた後、命
令は、命令キャッシュ５８を介して命令デコーダ２５へ
と渡される。命令デコーダ２５は各命令を調べ、取るべ
き適切な動作を決定する。たとえば、デコーダ２５は、
特定の命令が、ＰＵＣＨ、ＰＯＰ、ＬＯＡＤ、ＡＮＤ、
ＯＲ、ＥＸＯＲ、ＡＤＤ、ＳＵＢ、ＮＯＰ、ＪＵＭ
Ｐ、条件付ＪＵＭＰ（ＢＲＡＮＣＨ）または他のタイプ
の命令であるかを決定する。デコーダ５８が決定した特
定のタイプの命令が存在するかに依存して、命令は適切
な機能ユニットに発行される。ジョンソンの著書で提案
されているスーパースカラアーキテクチャでは、デコー
ダ２５は１マシンサイクルにつき４つの命令をデコード
することのできるマルチ命令デコーダである。したがっ
て、デコーダ５８は４命令幅のバンド幅を示すと言え
る。

【００１０】図１に示されるように、ＯＰＣＯＤＥバ
ス８５は、デコーダ２５と機能ユニットの各々、すなわ
ち分岐ユニット９０、算術論理装置９５および１００、
シフタユニット１０５、ロードユニット６０およびスト
アユニット６５との間に結合される。この態様で、各命
令のためのｏｐコードは適切な機能ユニットに与えられ
る。

【００１１】ここでしばらく直接的な説明からは離れる
が、命令は、典型的には以下のフォーマットで、すなわ
ちｏｐコード、オペランドＡ、オペランドＢ、行先レジ
スタという複数のフィールドを含むことが認められる。
たとえば、サンプル命令ＡＤＤＡ、Ｂ、Ｃとは、レジ
スタＡの内容をレジスタＢの内容に加算し、その結果を
行先レジスタＣに置くことを意味するであろう。各命令
のｏｐコード部分の処理は、既に上述したとおりであ
る。ここで各命令のオペランドの処理を説明する。

【００１２】特定の命令のためのｏｐコードが適切な機
能ユニットに送られなくてはならないだけでなく、その
命令のための指定されたオペランドが検索されて、機能
ユニットに送られなくてはならない。特定のオペランド
の値がまだ計算されていなければ、機能ユニットが命令
を実行できる前に、その値をまず計算して、機能ユニッ
トに与えられなくてはならない。たとえば、現在の命令
が先行の命令に従属していれば、現在の命令が実行され
る前に先行の命令の結果を決定しなくてはならない。こ
の状況を従属性と称する。

【００１３】特定の命令を機能ユニットが実行するのに
必要とされるオペランドは、レジスタファイル３０また
はリオーダバッファ３５のいずれかによってオペランド
バス１１０に与えられる。オペランドバス１１０は、機
能ユニットの各々に結合される。したがって、オペラン
ドバス１１０はオペランドを適切な機能ユニットに送
る。実用において、オペランドバス１１０はオペランド
ＡおよびオペランドＢのための別個のバスを含む。

【００１４】機能ユニットにｏｐコードならびにオペラ
ンドＡおよびオペランドＢが与えられれば、機能ユニッ
トは命令を実行し、その結果を、すべての機能ユニット
の出力とリオーダバッファ３５とに（および、後述のよ
うに各機能ユニットの入力にあるそれぞれの待合わせス
テーションに）結合される結果バス１１５に置く。

【００１５】各機能ユニットの入力には、その命令のた
めのオペランドが機能ユニットに対してまだ利用可能で
ないという意味でまだ完全でない命令からのｏｐコード
をストアするための「待合わせステーション」が設けら
れる。待合わせステーションは、後に待合わせステーシ
ョンに到達する、抜けているオペランドのための場所を
確保するオペランドタグとともに命令のｏｐコードをス
トアする。この技術は、未処理の命令が待合わせステー
ションでそのオペランドとともに集められている間、マ
イクロプロセッサが他の命令を実行し続けることを可能
にすることによって性能を高める。図１に示されるよう
に、分岐ユニット９０には待合わせステーション９０Ｒ
が設けられ、ＡＬＵ９５および１００には待合わせステ
ーション９５Ｒおよび１００Ｒがそれぞれ設けられ、シ
フタユニット１０５には待合わせステーション１０５Ｒ
が設けられ、ロードユニット６０には待合わせステーシ
ョン６０Ｒが設けられ、ストアユニット６５には待合わ
せステーション６５Ｒが設けられる。このアプローチで
は、待合わせステーションが、より初期のマイクロプロ
セッサにおいて機能ユニットの入力で典型的には使用さ
れていた入力ラッチの代わりに使用される。待合わせス
テーションに関してのよく知られた参考文献は、１９６
７年１月、ＩＢＭジャーナル、第１１号、２５−３３
頁、アール・エム・トマシュロ（R. M. Tomasulo）の
「複数の算術装置を用いる効率的なアルゴリズム」
（“An Efficient Algorithm For Expoiting Multiple
Arithmetic Units”）である。

【００１６】先に述べたように、スカラマイクロプロセ
ッサでの効果的なスループットを１マシンサイクルにつ
き１つの命令という限界まで増大するのにパイプライン
を用いることができる。図１に示されるスーパースカラ
マイクロプロセッサでは、１マシンサイクルにつき複数
の命令の処理を達成するのに複数のパイプラインが用い
られる。この技術を、「スーパーパイプライン化」と称
する。

【００１７】「レジスタ再指定」と称する別の技術もま
た、スーパースカラマイクロプロセッサのスループット
を高めるために用いることができる。この技術は、命令
ストリームにおける２つの命令のどちらも同じレジス
タ、たとえば仮説レジスタ１を使用することを要求する
場合に有用である。第２の命令が第１の命令に従属して
いなければ、レジスタ１Ａと呼ぶ第２のレジスタが、レ
ジスタ１の代わりに第２の命令によって使用されるよう
に割当てられる。この態様で、レジスタ１を用いて第１
の命令が終了するのを待つことなく、第２の命令を実行
することができ、結果を得ることができる。図１に示さ
れるスーパースカラマイクロプロセッサ１０は、命令処
理能力を高めるのにレジスタ再指定のアプローチを用い
る。マイクロプロセッサ１０においてレジスタ再指定を
実現する態様を以下により詳細に説明する。

【００１８】上述のことから、レジスタ再指定がレジス
タに対するストアの競合をなくすことが認められる。レ
ジスタ再指定を実現するために、整数ユニット１５およ
び浮動小数点ユニット２０は、それぞれのリオーダバッ
ファ３５および５０と関連付けられる。簡略にするため
に、整数ユニット１５内のリオーダバッファ３５を介し
てのレジスタ再指定のみを議論するが、同じ議論が浮動
小数点ユニット２０内の同様の回路にも当てはまる。

【００１９】リオーダバッファ３５は、命令結果にダイ
ナミックに割当てられるいくつかのストア位置を含む。
より特定的には、デコーダ２５によって命令がデコード
されると、その命令の結果値にリオーダバッファ３５内
の位置が割当てられ、その行先レジスタ番号がこの位置
と関連付けられる。これが命令の行先レジスタ番号をリ
オーダバッファ位置に効果的に再指定する。タグ、また
は一時ハードウェア識別子が、結果を識別するためにマ
イクロプロセッサハードウェアによって発生される。こ
のタグもまた、割当てられたリオーダバッファ位置にス
トアされる。レジスタにストアされていると考えられる
値を得るために、命令ストリームにおける後の命令が再
指定された行先レジスタを参照するとき、命令はその代
わりにリオーダバッファにストアされた値、または値が
まだ計算されていなければその値に関するタグを得る。

【００２０】リオーダバッファ３５は、内容参照メモリ
である、先入れ先出し（ＦＩＦＯ）環状バッファとして
実現される。このことは、リオーダバッファ３５内のエ
ントリが、エントリを直接識別することによってではな
く、エントリが含むものを特定することによって識別さ
れることを意味する。より特定的には、エントリは、そ
れに書込まれたレジスタ番号を用いて識別される。レジ
スタ番号がリオーダバッファ３５に与えられると、リオ
ーダバッファはレジスタに書込まれた最新の値（または
値がまだ計算されていなければその値に関するタグ）を
与える。このタグは、リオーダバッファ３５内の特定の
命令の相対的な推論位置を含む。この構成は、レジスタ
番号を与えられるとレジスタ内の値を与えるレジスタフ
ァイル３０を模倣している。しかしながら、リオーダバ
ッファ３５およびレジスタファイル３０が用いる、その
中の値にアクセスするための機構はかなり異なる。

【００２１】リオーダバッファ３５が用いる機構では、
リオーダバッファは要求されたレジスタ番号をリオーダ
バッファのすべてのエントリ内のレジスタ番号と比較す
る。次に、リオーダバッファは一致するレジスタ番号を
有するエントリの値（またはタグ）を戻す。これは連想
ルックアップ技術である。対照的に、レジスタファイル
３０に要求されたレジスタ番号が与えられると、レジス
タファイルは単にレジスタ番号をデコードし、選択され
たエントリでの値を与える。

【００２２】命令デコーダ２５が命令をデコードする
と、デコードされた命令のソースオペランドのレジスタ
番号が、リオーダバッファ３５およびレジスタファイル
３０に同時にアクセスするのに用いられる。リオーダバ
ッファ３５が、そのレジスタ番号が要求されたソースレ
ジスタ番号と一致するエントリを持たない場合には、レ
ジスタファイル３０内の値がソースオペランドとして選
択される。しかしながら、リオーダバッファ３５が一致
するエントリを有する場合には、そのエントリ内の値が
ソースオペランドとして選択される、というのはこの値
はリオーダバッファに割当てられた最も最近の値である
はずだからである。値がまだ計算されていないために利
用可能でなければ、その値に関するタグがその代わりに
選択され、オペランドとして用いられる。いずれの場合
にせよ、値またはタグが適切な機能ユニットの待合わせ
ステーションにコピーされる。この手順が、デコードさ
れた命令の各々が要求する各オペランドについて行なわ
れる。

【００２３】典型的な命令シーケンスでは、所与のレジ
スタは何度も書込まれる。この理由のため、命令が同じ
レジスタを特定する場合には、それらの命令によって同
じレジスタがリオーダバッファ３５の異なるエントリに
書込まれる可能性がある。この状況で正しいレジスタ値
を得るために、リオーダバッファ３５は割当の順番によ
って複数の一致エントリに優先順位をつけ、特定のレジ
スタ値が要求されると最も最近のエントリを戻す。この
技術によって、リオーダバッファへの新しいエントリ
が、より古いエントリにとって替わる。

【００２４】機能ユニットが結果を生成すると、その結
果はリオーダバッファ３５、およびその結果に関するタ
グを含む何らかの待合わせステーションのエントリに書
込まれる。結果値がこの態様で待合わせステーションに
書込まれると、必要なオペランドを与えるかもしれず、
実行のために機能ユニットに投入されるべき１つまたは
それ以上の待合わせをしている命令を解放するかもしれ
ない。結果値がリオーダバッファ３５に書込まれた後、
後続の命令はリオーダバッファから結果値をフェッチし
続ける。このフェッチングは、エントリが新しい値にと
って替わられなければ、かつ、値をレジスタファイル３
０に書込むことによって値が用済とされるまで続く。用
尽は、元の命令シーケンスの順序で起こり、したがって
割込および例外に関して順序通りの状態を保つ。

【００２５】浮動小数点ユニット２０に関しては、浮動
小数点ロード機能ユニット７５および浮動小数点ストア
機能ユニット８０に加えて、浮動小数点ユニット２０は
他の機能ユニットも含むことがわかる。たとえば、浮動
小数点ユニット２０は、浮動小数点加算ユニット１２０
と、浮動小数点変換ユニット１２５と、浮動小数点乗算
ユニット１３０と、浮動小数点除算ユニット１４０とを
含む。ＯＰＣＯＤＥバス１４５が、デコーダ４０と浮
動小数点ユニット２０内の各機能ユニットとの間に結合
されて、デコードされた命令を機能ユニットに与える。
各機能ユニットはそれぞれの待合わせステーション、す
なわち浮動小数点加算待合わせステーション１２０Ｒ
と、浮動小数点変換待合わせステーション１２５Ｒと、
浮動小数点乗算待合わせステーション１３０Ｒと、浮動
小数点除算待合わせステーション１４０Ｒとを含む。オ
ペランドバス１５０は、レジスタファイル４５およびリ
オーダバッファ５０を機能ユニットの待合わせステーシ
ョンに結合して、オペランドがそれらに与えられるよう
にする。結果バス１５５は、浮動小数点ユニット２０の
すべての機能ユニットの出力をリオーダバッファ５０に
結合する。リオーダバッファ５０はレジスタファイル４
５に結合される。リオーダバッファ５０およびレジスタ
ファイル４５には、したがって、先に整数ユニット１５
に関して説明したのと同じ態様で結果が与えられる。

【００２６】整数リオーダバッファ３５は１６のエント
リを保持し、浮動小数点リオーダバッファ５０は８のエ
ントリを保持する。整数リオーダバッファ３５および浮
動小数点リオーダバッファ５０は、各々１マシンサイク
ルにつき２つの計算値を受入れることができ、１サイク
ルにつき２つの結果をそれぞれのレジスタファイルに格
納することができる。

【００２７】マイクロプロセッサがデコードされた命令
を順序通りに投入する（「順序通りの投入」）ように制
約されると、マイクロプロセッサは、デコードされた命
令が資源の競合を発生する（すなわち２つの命令の両方
がＲ１レジスタを使うことを要求する）と常に、または
デコードされた命令が従属性を有すると、命令のデコー
ドを停止しなくてはならない。対照的に、「順序通りで
ない投入」を用いる図１のマイクロプロセッサ１０は、
デコーダ２５を実行ユニット（機能ユニット）から分離
することによって、このタイプの命令の投入を達成す
る。これは、リオーダバッファ３５および機能ユニット
にある上述の待合わせステーションを用いて分配命令ウ
ィンドウを効果的に確立することによって行なわれる。
この態様で、デコーダは、命令を直ちに実行できなくて
も、命令をデコードし続けることができる。命令ウィン
ドウは、マイクロプロセッサが、先に進み命令を実行し
続けながらそこから引出すことのできる命令のプールと
して作用する。したがって、命令ウィンドウによってマ
イクロプロセッサに先見能力が与えられる。従属性がク
リアされてオペランドが利用可能になると、ウィンドウ
内のより多くの命令が機能ユニットによって実行され、
デコーダはさらに多くのデコードされた命令でウィンド
ウを充満し続ける。

【００２８】マイクロプロセッサ１０は、その性能を高
めるために分岐予測ユニット９０を含む。プログラムの
命令ストリームにおける分岐がマイクロプロセッサの命
令をフェッチする能力を妨げることはよく知られてい
る。これは、分岐が起こると、フェッチャがフェッチす
べき次の命令が分岐の結果に従属するからである。ユニ
ット９０等の分岐予測ユニットがなければ、マイクロプ
ロセッサの命令フェッチャは機能停止となるか、または
正しくない命令をフェッチする恐れがある。このこと
は、マイクロプロセッサが命令ウィンドウ内の並列に実
行する他の命令を探しあてる可能性を減じてしまう。ソ
フトウェア分岐予測ではなく、ハードウェア分岐予測が
分岐予測ユニット９０では用いられて、命令のフェッチ
の間に起こる分岐の結果を予測する。言い換えれば、分
岐予測ユニット９０は、分岐が発生されるべきであるか
否かを予測する。たとえば、先行の分岐結果の実行の履
歴を保持するために分岐先バッファが用いられる。この
履歴に基づいて、特定のフェッチされた分岐の間、フェ
ッチされた分岐命令がどの分岐をとるかに関して決定が
なされる。

【００２９】ソフトウェア分岐予測もまた、分岐の結果
を予測するのに用いることができることが認められる。
この分岐予測のアプローチでは、プログラムにおける各
分岐にいくつかのテストが行なわれて、統計的にどの分
岐結果が起こりそうかを判断する。ソフトウェア分岐予
測技術は、典型的にはプログラム自体に好ましい分岐結
果に関して統計的な分岐予測情報を組込むことを伴う。
コード列（分岐等）が、マイクロプロセッサがそのコー
ド列を実行するのが適切であることを確信する前に実行
されるマイクロプロセッサ設計の実用に、「推論実行」
という用語がしばしば適用される。

【００３０】スーパースカラマイクロプロセッサの動作
を理解するために、パイプラインの各ステージ、すなわ
ちフェッチ、デコード、実行、ライトバックおよび結果
コミットでのスカラおよびスーパースカラマイクロプロ
セッサを比較することが有用である。以下の表１はこの
ような比較を示す。

【００３１】

【表１】

【００３２】スーパースカラマイクロプロセッサ１０の
上述の説明より、このマイクロプロセッサは実に強力で
あるが、非常に複雑な構造であることが認められる。し
かしながら、設計の簡略化および処理性能のさらなる向
上が、マイクロプロセッサ１０等のマイクロプロセッサ
において常に望ましい。

【００３３】

【発明の概要】したがって、本発明のスーパースカラマ
イクロプロセッサのある利点は、並列に命令を処理する
ことに関しての性能の向上である。

【００３４】本発明のスーパースカラマイクロプロセッ
サの別の利点は、その複雑さが減じられたことである。

【００３５】本発明のスーパースカラマイクロプロセッ
サのさらに別の利点は、他のスーパースカラマイクロプ
ロセッサと比較して、ダイの寸法が減じられたことであ
る。

【００３６】本発明の一実施例に従えば、主メモリにス
トアされた命令を処理するためのスーパースカラマイク
ロプロセッサが提供される。マイクロプロセッサは、同
じマイクロプロセッササイクル内に複数の命令をデコー
ドするための複数命令デコーダを含む。デコーダは、同
じマイクロプロセッサ内に整数および浮動小数点命令の
両方をデコードする。マイクロプロセッサは、デコーダ
に結合されるデータ処理バスを含む。マイクロプロセッ
サはさらに、同じデータ処理バスに結合されて、これを
共有する整数機能ユニットおよび浮動小数点機能ユニッ
トを含む。共通のリオーダバッファが、データ処理バス
に結合されて、整数機能ユニットおよび浮動小数点機能
ユニットの両方に用いられる。共通レジスタファイルが
リオーダバッファに結合されて、リオーダバッファから
用済とされた命令結果を受入れる。

【００３７】新規であると考えられる本発明の特徴は、
前掲の特許請求の範囲に特定的に述べられる。しかしな
がら、この発明自体は、その構造および動作方法の両方
について、以下の説明および添付の図面を参照すること
によって最もよく理解されるであろう。

【００３８】

【実施例の詳細な説明】Ｉ．スーパースカラマイクロプロセッサ概説本発明の高性能スーパースカラマイクロプロセッサは、
望ましいことに、順序通りでない命令の投入と順序通り
でない命令の実行とを並列して可能にする。より特定的
には、開示されるスーパースカラマイクロプロセッサで
は、命令はプログラム順に発行され、投入および完了は
順序通りでなく、用尽（用済）は順序通りに行なわれ
る。高性能を可能にする本発明のいくつかの局面を、よ
り詳細な説明に入る前に議論する。

【００３９】図２のスーパースカラマイクロプロセッサ
２００は、いくかつの主な構成要素を共有することで、
ダイの寸法を増大することなく性能を向上することがで
きる。このマイクロプロセッサのアーキテクチャでは、
整数ユニット２１５および浮動小数点ユニット２２５は
共通のデータ処理バス５３５に結合される。データ処理
バス５３５は、主にその広いバンド幅のために、高速で
高性能のバスである。整数機能ユニットおよび浮動小数
点機能ユニットが別個のバスの上にある設計と比較し
て、これらの両方の機能ユニットをさらに活用すること
が可能になる。

【００４０】整数および浮動小数点機能ユニットは、複
数の待合わせステーションを含み、これらもまた同じデ
ータ処理バス５３５に結合される。図３ないし図５に示
される本発明のマイクロプロセッサのより詳細な表現か
らわかるように、整数および浮動小数点機能ユニットは
また、データ処理バス５３５を介して共通の分岐ユニッ
ト５２０を共有する。さらに、整数および浮動小数点機
能ユニットは、同じデータ処理バス５３５に結合される
共通のロード／ストアユニット５３０を共有する。開示
されるマイクロプロセッサアーキテクチャは、マイクロ
プロセッサダイの寸法をより効率的に用いながら、有利
に性能を高める。図２ないし図５に示されるこの発明の
実施例では、本発明のマイクロプロセッサは、マイクロ
プロセッサによって処理される命令が同じ幅を示し、か
つオペランドサイズが可変である縮小命令セットコンピ
ュータ（ＲＩＳＣ）である。

【００４１】図２に戻って、この発明のスーパースカラ
マイクロプロセッサの簡略化されたブロック図が、マイ
クロプロセッサ２００として示される。スーパースカラ
マイクロプロセッサ２００は、４命令幅、２ウェイセッ
トアソシアティブ、部分デコード８Ｋバイト命令キャッ
シュ２０５を含む。命令キャッシュ２０５は、分岐予測
を伴う１マシンサイクルにつき複数の命令のフェッチを
サポートする。この明細書の目的のため、マシンサイク
ルおよびマイクロプロセッササイクルという用語は、同
意語であると見なす。命令キャッシュ２０５はまた、Ｉ
ＣＡＣＨＥとも称する。

【００４２】マイクロプロセッサ２００はさらに、オペ
ランドの利用可能性に関わらず、１マシンサイクルにつ
き４つまでの命令をデコードし、６つの独立した機能ユ
ニットのいずれにも発行することのできる命令デコーダ
（ＩＤＥＣＯＤＥ）２１０を含む。図３ないし図５にマ
イクロプロセッサ５００として示される本発明のより詳
細な実施例においてわかるように、これらの機能ユニッ
トは、２つの算術論理ユニット（まとめてＡＬＵ５００
として示されるＡＬＵ０およびＡＬＵ１）を含む。これ
らの機能ユニットはさらに、シフタセクション５１０
（ＳＨＦＳＥＣ）を含み、これはＡＬＵセクション５０
５とともに、整数命令を処理するための整数ユニット５
１５を形成する。機能ユニットはさらに、命令分岐を処
理し、かつ分岐予測を行なうための分岐セクション（Ｂ
ＲＮＳＥＣ）５２０を含む。分岐ユニット５２０として
用いることができる分岐ユニットの１つは、１９９２年
８月４日に発行された、「キャッシュ内に各命令のブロ
ックとストアされたフェッチ情報を用いての適切に予測
された分岐命令に続く実行のための遅延を低減するため
のシステム」（“System For Reducing Delay For Exec
ution Subsequent ToCorrectly Predicted Branch Inst
ruction Using Fetch Information Stored With Each B
lock Of Instructions In Cache”）と題される米国特
許第５，１３６，６９７号に記載され、その開示をここ
に引用によって援用する。浮動小数点セクション（ＦＰ
ＴＳＥＣ）５２５およびロード／ストアセクション（Ｌ
ＳＳＥＣ）５３０もまた、デコーダ（ＩＤＥＣＯＤＥ）
２１０が命令を発行する機能ユニットに含まれる。上述
の機能ユニットはすべて、図３ないし図５に示されるよ
うに共通の主データ処理バス５３５を共有する（この明
細書の目的のため、図３ないし図５は併せてマイクロプ
ロセッサ５００を形成し、併せて横に並べて見るもので
ある）。

【００４３】図２のスーパースカラマイクロプロセッサ
２００の簡略化されたブロック図では、分岐は整数演算
と考えられ、分岐ユニットは整数コア２１５の一部とし
て見なされる。スーパースカラマイクロプロセッサ２０
０は、オペランド従属性の適切な順序付けを守り、かつ
順序通りでない投入を可能にするために命令のタグの付
与を行なう。マイクロプロセッサ２００はさらに、発行
された命令が実行を待つ間待ち行列にされる、機能ユニ
ットの複数の待合わせステーションを含む。この特定の
実施例では、各機能ユニットの入力に２つの待合わせス
テーションが設けられる。より特定的には、この特定の
実施例では、整数コア２１５は２つの待合わせステーシ
ョン２２０を含み、浮動小数点コア２２５は２つの待合
わせステーション２３０を含む。１機能ユニットについ
て用いられる待合わせステーションの数は、所望される
待ち行列の程度に従って変えてもよい。整数コア２１５
は整数命令を処理し、浮動小数点コア２２５は浮動小数
点命令を処理する。実用において、整数コア２１５およ
び浮動小数点コア２２５の各々は、複数の機能ユニット
を含み、この発明の一実施例では、その各々には複数の
待合わせステーションが備えられる。

【００４４】この特定の実施例において、マイクロプロ
セッサ２００は１マシンサイクルについて３つまでの機
能ユニット結果を処理することができる。これは、マイ
クロプロセッサ２００が、すべての機能ユニット（すな
わち図２の整数コア２２０および浮動小数点コア２３
０）に結合されるＲＥＳＵＬＴ０、ＲＥＳＵＬＴ１、お
よびＲＥＳＵＬＴ２と示される３つの結果バスを含むか
らである。この発明はこの数の結果バスに制限されるわ
けではなく、所望の性能レベルに見合った、より多いま
たは少ない数の結果バスを用いてもよい。同様に、この
発明は示される実施例における機能ユニットの特定の数
に制限されるわけではない。

【００４５】マイクロプロセッサ２００はさらに、リオ
ーダバッファ２４０から用済となった結果をストアする
ための統合されたレジスタファイル２３５を含む。レジ
スタファイル２３５は、一実施例においては１マシンサ
イクルにつき４つの読出および２つの書込を可能にする
マルチポートマルチレジスタ記憶領域である。レジスタ
ファイル２３５は様々なサイズのエントリ、すなわち一
実施例では同じレジスタファイルに３２ビット整数およ
び６４ビット浮動小数点オペランドエントリの両方を収
容する。レジスタファイル２３５は、この特定の実施例
では１９４の３２ビットレジスタのサイズを示す。リオ
ーダバッファ２４０もまた異なるサイズのエントリ、す
なわち一実施例では同じレジスタファイル内に３２ビッ
ト整数および６４ビット浮動小数点オペランドエントリ
の両方を収容する。これらの特定の数もまた、制限する
ものではなく例示する目的のために与えるものである。

【００４６】リオーダバッファ２４０は、環状バッフ
ァ、または順序通りでない機能ユニットの結果を受取り
かつ逐次命令プログラム順にレジスタファイル２３５を
更新するキューである。一実施例では、リオーダバッフ
ァ２４０は、１０のエントリを備えた先入れ先出し（Ｆ
ＩＦＯ）バッファとして実現される。ＦＩＦＯＲＯＢ
２４０内のキューは先頭および末尾を含む。この発明の
別の実施例では、１６のエントリを備えたリオーダバッ
ファを用いる。リオーダバッファ２４０は再指定された
レジスタに割当てられる位置を含み、推論的に実行され
た命令の結果を保持する。分岐論理がある分岐の発生を
予測すると、予測された分岐における命令が、分岐があ
る特定の例において適切に発生したとの推論の下に実行
されるように、命令が推論的に実行される。分岐が誤予
測されたと判断されるようなことがあれば、リオーダバ
ッファ２４０内にある分岐結果は、効果的にキャンセル
される。このことは、マイクロプロセッサが誤予測され
た分岐命令に対して効果的にバックアップし、マイクロ
プロセッサの推論状態をリセットし、誤予測された分岐
前のプログラム命令ストリームの点から実行を再開する
ことによって達成される。

【００４７】リオーダバッファの１０のエントリは各々
３２ビット幅（３２ビット整数量の幅に対応する）であ
るが、リオーダバッファはまた、たとえば６４ビット浮
動小数点量等の６４ビット量を収容することもできる。
これは、リオーダバッファ内で６４ビット量を２つの連
続ＲＯＰとしてストアすることによって達成される（ア
ール・オップと発音するＲＯＰは、マイクロプロセッサ
によって処理されるＲＩＳＣまたはＲＩＳＣ類似命令／
演算を指す）。このようにストアされた連続ＲＯＰは、
これらを１つの構造として連結する情報を有し、１つの
構造として一緒に用済とされる。各リオーダバッファエ
ントリは、１の３２ビット量、すなわち倍精度浮動小数
点量の１／２、１の単精度浮動小数点量または３２ビッ
ト整数を保持する容量を有する。

【００４８】プログラムカウンタ（ＰＣ）は、もう推論
的ではないものとしてレジスタファイル２３５に格納さ
れた命令と、推論的に実行されてその結果がリオーダバ
ッファ（ＲＯＢ）２４０にあり、用済が未定の命令との
間の境界である、プログラム命令ストリーム内の点を追
跡するために用いられる。このＰＣは、リタイアＰＣま
たは単にＰＣと称する。リタイアＰＣは、ＲＯＢキュー
の先頭にストアされ、更新される。ＲＯＢエントリは、
相対ＰＣ更新状態情報を含む。

【００４９】リタイアＰＣは、リオーダバッファキュー
の先頭と関連する状態情報によって更新される。より特
定的には、リオーダバッファキューは、この特定の実施
例では最大４の命令までの、用済とする準備のできてい
る命令の数を示す。リタイア論理２４２内に位置される
リタイアＰＣセクションは、現在の用済となったＰＣを
保持する。ある特定のクロックサイクル内に４つの逐次
命令が用済とされるべきであれば、リタイアＰＣ論理は
現在のリタイアＰＣに［４命令＊４バイト／命令］を加
えて新しいリタイアＰＣを生成する。発生された分岐が
存在すれば、リタイアＰＣは、一旦分岐が用済とされも
う推論的でなくなると、分岐先に進む。リタイアＰＣは
次に、その点から用済とされた命令の数だけ増分され
る。リタイアＰＣはリタイア論理２４２内の内部バス、
すなわちＰＣ（３１：０）に存在する。

【００５０】ＩＩ．スーパースカラマイクロプロセッサ
の簡略化されたブロック図このセクションでは、図２の簡略化されたマイクロプロ
セッサのブロック図のまだ述べていない局面を中心に議
論する。一般的な見方を述べる。

【００５１】図２は、マイクロプロセッサ２００とし
て、この発明の高性能スーパースカラマイクロプロセッ
サの一実施例の簡略化されたブロック図を示す。マイク
ロプロセッサ２００において、命令キャッシュ２０５お
よびデータキャッシュ２４５は、３２ビット幅内部アド
レスデータ（ＩＡＤ）バス２５０を介して互いに結合さ
れる。ＩＡＤバス２５０は、一実施例では、データ処理
バス５３５と比較すると比較的低速の通信バスである。
ＩＡＤバス２５０は、マイクロプロセッサ２００のいく
つかの主要な構成要素を相互接続して、このような構成
要素の間でアドレス情報およびデータの両方の通信を与
えるように機能する。ＩＡＤバス２５０は、データ処理
バス５３５が扱うオペランド処理および結果処理のよう
に高速の並列性を要求しないタスクのために用いられ
る。この発明の一実施例では、ＩＡＤバス２５０は、各
クロックサイクルにおいてデータおよびアドレス情報の
両方がそれにマルチプレクスされる３２ビット幅バスで
ある。ＩＡＤバス２５０のバンド幅は、したがってある
例では６４ビット／クロックである。

【００５２】主メモリ２５５が、図２に示されるように
バスインタフェースユニット２６０を介してＩＡＤバス
２５０に結合される。このように、主メモリ２５５へ
の、およびそこからの情報の読出および書込が可能にさ
れる。図示の目的のため、主メモリ２５５はマイクロプ
ロセッサ２００の一部として図２に示される。実用にお
いて、主メモリ２２５は、一般にマイクロプロセッサ２
００の外部に置かれる。

【００５３】しかしながら、たとえばマイクロコントロ
ーラの場合のように主メモリ２５５がマイクロプロセッ
サ２００内に配置される、マイクロプロセッサ２００の
実現例が企図される。

【００５４】デコーダ２１０は、命令キャッシュ２０５
に結合されるフェッチャ２５７を含む。フェッチャ２５
７は、デコーダ２１０によるデコードおよび発行のため
にキャッシュ２０５および主メモリ２５５から命令をフ
ェッチする。

【００５５】バスインタフェースユニット（ＢＩＵ）２
６０は、ＩＡＤバス２５０に結合されてマイクロプロセ
ッサ２００の外部にあるバス回路（図示せず）とマイク
ロプロセッサ２００をインタフェースさせる。より特定
的には、ＢＩＵバス２６０は、マイクロプロセッサ２０
０の外部にあるシステムバス、ローカルバスまたは他の
バス（図示せず）とマイクロプロセッサ２００をインタ
フェースさせる。ＢＩＵ２６０として用いることができ
るバスインタフェースユニットの１つは、アドバンスト
・マイクロ・ディバイシズ・インコーポレイテッド（Ad
vanced Micro Devices）が製造するＡＭ２９０３０マイ
クロプロセッサからのバスインタフェースユニットであ
る。ＢＩＵ２６０は、Ａ（３１：０）と示されるアドレ
スポートと、Ｄ（３１：０）と示されるデータポートと
を含む。ＢＩＵ２６０はまた、バスハンドシェークポー
ト（ＢＵＳＨＡＮＤＳＨＡＫＥ）と、ＸＢＲＥＱ
（バスリクエストなし）およびＸＢＧＲＴ（バスグラン
トなし）と示されるグラント／リクエストラインとを含
む。ＡＭ２９０３０マイクロプロセッサのバスインタフ
ェースユニットは、アドバンスト・マイクロ・ディバイ
シズ・インコーポレイテッドの出版するＡｍ２９０３０
ユーザーズマニュアルにより詳細に説明される。

【００５６】当業者には、命令列およびそのためのデー
タを含むプログラムが主メモリ２５５にストアされるこ
とが認められるであろう。命令およびデータがメモリ２
５５から読出されると、命令およびデータは、命令がデ
コーダ２１０によってフェッチされ、デコードされ、機
能ユニットに発行され得る前に、それぞれ命令キャッシ
ュ２０５およびデータキャッシュ２４５にストアされ
る。

【００５７】デコーダ２１０によって特定の命令がデコ
ードされると、デコーダ２１０はデコードされた命令の
ｏｐコードをその命令のタイプのための適切な機能ユニ
ットに送る。たとえば以下の命令、すなわちＡＤＤＲ
１，Ｒ２，Ｒ３（レジスタ１内の整数をレジスタ２内の
整数に加えてその結果をレジスタ３に置く）がフェッチ
されたと仮定する。ここで、Ｒ１はＡオペランドであ
り、Ｒ２はＢオペランドであり、Ｒ３は行先レジスタで
ある。

【００５８】実用において、デコーダ２１０は１度に１
ブロックにつき４つの命令をデコードし、各命令に関連
するｏｐコードを識別する。言い換えれば、デコード２
１０は、デコード２１０に含まれる４つの発行位置の各
々のためのｏｐコードタイプを識別する。４つのデコー
ドされたｏｐコードタイプは、それぞれ４つのＴＹＰＥ
バスを介して機能ユニットにブロードキャストされる。
４つのデコードされたｏｐコードはそれぞれのＯＰＣ
ＯＤＥバスを介して機能ユニットにブロードキャストさ
れる。もし利用可能であれば、オペランドがＲＯＢ２４
０およびレジスタファイル２３５から検索される。オペ
ランドは、ＡオペランドおよびＢオペランドバスを介し
て機能ユニットにブロードキャストされる。特定のオペ
ランドが利用可能でなければ、ＡおよびＢオペランドタ
グがその代わりに適切なＡまたはＢオペランドバスを介
して適切な機能ユニットに送られる。デコーダ２１０に
よってデコードされた４つの命令は、このように処理の
ために機能ユニットに発行される。

【００５９】この例でのＡＤＤｏｐコードに関して、
機能ユニットの１つ、すなわち整数コア２１５内の算術
論理装置（ＡＬＵ）は、ｏｐコードタイプを認め、その
待合わせステーション２２０においてｏｐコード、Ａオ
ペランドタグ、Ａオペランド（もし利用可能であれ
ば）、Ｂオペランドタグ、Ｂオペランド（もし利用可能
であれば）および行先タグを含む情報をラッチする。Ａ
ＬＵ機能ユニットは次に結果を判断し、その結果を、Ｒ
ＯＢ２４０でのストアのために、および未処理の命令を
処理するためにその結果を必要としている何らかの他の
機能ユニットによる検索のために、結果バス２６５に置
く。

【００６０】命令がデコーダ２１０によってデコードさ
れると、その結果のためにリオーダバッファ２４０内の
レジスタが割当てられることが認められる。次に命令の
行先レジスタが、割当てられたレジスタと関連付けられ
る。命令のまだ利用可能でない結果に対応する結果タグ
（一時の一意的ハードウェア識別子）が割当てられたレ
ジスタに置かれる。「レジスタ再指定」がこのように実
現される。プログラム命令列における後の命令が、リオ
ーダバッファ２４０内のこの再指定された行先レジスタ
を参照すると、リオーダバッファ２４０は、そのレジス
タに割当てられた位置にストアされた結果値か、または
その結果がまだ計算されていなければその値のためのタ
グのいずれかを与える。結果が計算されると、結果タグ
バスに信号が与えられ、リオーダバッファ２４０および
機能ユニットの待合わせステーションに結果バスを介し
て結果が利用可能となったことを知らせる。このように
して結果がリオーダバッファ２４０にストアされる。

【００６１】図３および４に示されるように、行先タグ
ラインはリオーダバッファ２４０から機能ユニットに延
びる。デコーダ２１０は、リオーダバッファに、リオー
ダバッファエントリの割当の準備が現在できている命令
の数を知らせる。リオーダバッファは次に、リオーダバ
ッファの現在の状態に基づいて行先タグを各命令に割当
てる。デコーダ２１０は次に、各命令が投入されるか否
かを確立する。リオーダバッファは投入された命令を取
込み、リオーダバッファエントリの一時的割当を確立す
る。

【００６２】特定の命令のためのオペランドは、共通デ
ータ処理バス５３５のＡオペランドバス（ＡＯＰＥ
Ｒ）およびＢオペランドバス（ＢＯＰＥＲ）を介し
て、適切な機能ユニットに送られる。それぞれの命令の
結果は、これらの命令に割当てられた機能ユニットで発
生する。これらの結果は、３つの結果バスＲＥＳＵＬＴ
０、ＲＥＳＵＬＴ１およびＲＥＳＵＬＴ２を含む複合結
果バス２６５を介してリオーダバッファ２４０に送られ
る。複合結果バス２６５は、データ処理バス５３５の一
部である。

【００６３】特定の命令がデコードされたときに、１つ
またはそれ以上のオペランドが現在利用可能でないこと
は、デコーダ２１０から機能ユニットへの命令の発行を
妨げるわけではない。そうではなく、１つまたはそれ以
上のオペランドがまだ利用可能でない場合には、オペラ
ンドタグ（一時の一意的ハードウェア識別子）が、抜け
ているオペランドの代わりに適切な機能ユニット／待合
わせステーションに送られる。オペランドタグおよび命
令のためのｏｐコードは、タグに対応するオペランドが
結果バスを介してリオーダバッファ２４０で利用可能と
なるまでは、その機能ユニットの待合わせステーション
にストアされる。抜けていたすべてのオペランドがリオ
ーダバッファ２４０で利用可能となれば、タグに対応す
るオペランドがリオーダバッファ２４０から検索され
る。オペランドおよびｏｐコードは、待合わせステーシ
ョンから実行のために機能ユニットに送られる。結果
は、リオーダバッファ２４０に伝送するために結果バス
に置かれる。

【００６４】上述のオペランドタグトランザクションに
おいて、ＡＯＰＥＲおよびＢＯＰＥＲバスを介して
機能ユニットの待合わせステーションにオペランドタグ
が実際に送られることが認められる。オペランドタグを
やりとりするためにこのような態様で用いられると、Ａ
ＯＰＥＲおよびＢＯＰＥＲバスは、図２に示される
ようにＡＴＡＧおよびＢＴＡＧと称する。

【００６５】ＩＩＩ．スーパースカラマイクロプロセッ
サ；より詳細な説明図３ないし図５は、マイクロプロセッサ５００として、
この発明のマイクロプロセッサのより詳しい実現例を示
す。図２ないし図５に示されるマイクロプロセッサ内の
同様の要素を示すのに同様の参照符号を用いる。マイク
ロプロセッサ５００のある部分は既に説明したことが認
められる。

【００６６】マイクロプロセッサ５００において、命令
は推論プログラム順に発行され、投入および完了は順番
通りではなく、順番通りに用済とされる。多くの信号お
よびバスが、特に命令の発行に関して並列性を促進する
ために複製されることが後の説明より明らかになるであ
ろう。デコーダ２１０は、１マイクロプロセッササイク
ルについて複数の命令をデコードし、デコードされた命
令がそこから機能ユニットに並列に発行される発行ウィ
ンドウを形成する。ＩＣＡＣＨＥ２０５は、１度に４つ
の命令をデコーダ２１０に、ＩＣＡＣＨＥ２０５をデコ
ーダ２１０に結合するラインＩＮＳ０、ＩＮＳ１、ＩＮ
Ｓ２およびＩＮＳ３を介して与えることができる。

【００６７】マイクロプロセッサ５００において、主デ
ータ処理バスは、やはりデータ処理バス５３５として示
される。データ処理バス５３５は４つのＯＰＣＯＤＥ
バスと、４つのＡＯＰＥＲ／ＡＴＡＧバスと、４つ
のＢＯＰＥＲ／ＢＴＡＧバスと、４つのＯＰＣＯ
ＤＥＴＹＰＥバスとを含む。４つのＯＰＣＯＤＥバ
ス、４つのＡＯＰＥＲ／ＡＴＡＧバス、４つのＢ
ＯＰＥＲ／ＢＴＡＧバス、および４つのＯＰＣＯＤ
ＥＴＹＰＥバスは、デコードされた命令を機能ユニッ
トに伝送するように協働するため、これらは併せて、Ｘ
Ｉ０Ｂ、ＸＩ１Ｂ、ＸＩ２ＢおよびＸＩ３Ｂ（図では別
個に符号を付けられるわけではない）と示される４つの
命令バスとしても参照される。これらの類似した命令バ
スの名称は、互いから１桁で区別される。この桁は０を
より早い命令として、０ｍｏｄ１６バイトメモリブロッ
クにおける命令の位置を示す。これらの名称はここでは
小文字「ｎ」でその桁を示す一般的な形で与えられる
（すなわち、４つの命令バスＸＩ０Ｂ、ＸＩ１Ｂ、ＸＩ
２ＢおよびＸＩ３Ｂは、ＸＩｎＢとして参照する）。

【００６８】順序通りでない命令の並列の実行を可能に
するスーパースカラマイクロプロセッサ５００の特徴
を、ここでマイクロプロセッサのより詳細な説明を始め
る前に簡単に繰返す。マイクロプロセッサ５００は、４
命令幅、２ウェイセットアソシアティブ、部分デコード
８Ｋバイト命令キャッシュ２０５（ＩＣＡＣＨＥ）を含
み、分岐予測を伴う、１マイクロプロセッササイクルに
つき４つの命令のフェッチをサポートする。マイクロプ
ロセッサ５００は、オペランドの利用可能性に関わら
ず、５つの独立した機能ユニットのうちの何らかのもの
へのデコーダ２１０（ＩＤＥＣＯＤＥ）による１サイク
ルにつき４つまでの命令のデコードおよび発行を与え
る。これらの機能ユニットは、分岐セクションＢＲＮＳ
ＥＣ５２０、算術論理装置ＡＬＵ５０５、シフタセクシ
ョンＳＨＦＳＥＣ５１０、浮動小数点セクションＦＰＴ
ＳＥＣ５２５、およびＬＯＡＤ／ＳＴＯＲＥセクション
５３０を含む。

【００６９】マイクロプロセッサ５００は、オペランド
の従属性の適切な順序付けを守り、順序通りでない投入
を可能にするために、命令のタグ付与を行なう。マイク
ロプロセッサ５００はさらに、まだ実行できない発行さ
れた命令がそこで待ち行列にされる、機能ユニット内の
待合わせステーションを含む。３つの結果バス（ＲＥＳ
ＵＬＴ０、ＲＥＳＵＬＴ１およびＲＥＳＵＬＴ２）が、
１サイクルにつき３つまでの機能ユニット結果を扱うこ
とを可能にするように設けられる。環状バッファまたは
ＦＩＦＯキュー、すなわちリオーダバッファ２４０が、
順序通りでない機能ユニットの結果を受取り、レジスタ
ファイル２３５を更新する。より特定的には、レジスタ
ファイルはリオーダバッファからの結果で正しいプログ
ラム順に更新される。言い換えれば、リオーダバッファ
からレジスタファイルへの結果の格納は、それが関係す
るすべての分岐、算術およびロード／ストア動作ととも
に正しい実行順に行なわれる。マルチポートレジスタフ
ァイル２３５は、１マシンサイクルにつき４つの読出お
よび２つの書込ができる。ＲＥＳＵＬＴ０、ＲＥＳＵＬ
Ｔ１およびＲＥＳＵＬＴ２は、ＲＯＢ２４０に並列に書
込まれる。結果がＲＯＢ２４０から用済とされる際、こ
れらは書込バスＷＲＩＴＥＢＡＣＫ０およびＷＲＩＴＥ
ＢＡＣＫ１を介して並列にレジスタファイル２３５に書
込まれる。マイクロプロセッサ５００はまた、ロードお
よびストア待ち時間を最少にするように、オンボードの
ダイレクトマッピング８Ｋバイトコヒーレントデータキ
ャッシュ２４５を含む。

【００７０】［ＩＩＩ（ａ）命令フロー−フェッチ］マ
イクロプロセッサ５００の命令フローをここで説明す
る。命令デコーダ（ＩＤＥＣＯＤＥ）２１０は、命令を
命令キャッシュ（ＩＣＡＣＨＥ）２０５からフェッチす
る命令フェッチャ２５７を含む。キャッシュ２０５とし
て用いることができる命令キャッシュの１つは、１９９
２年４月１２日に出願された、「命令デコーダおよびこ
れを用いるスーパースカラプロセッサ」（“Instructio
n Decoder And Superscalar Processor Utilizing Sam
e”）と題される同時係属中の米国特許出願連続番号第
０７／９２９，７７０号に説明され、本明細書において
これを引用によって援用する。デコーダ２１０（ＩＤＥ
ＣＯＤＥ）として用いることができるデコーダの１つも
また、１９９２年４月１２日に出願された「命令デコー
ダおよびこれを用いるスーパースカラプロセッサ」と題
される米国特許出願連続番号第０７／９２９，７７０号
に説明される。

【００７１】主メモリ２５５内の特定のプログラムがマ
イクロプロセッサ５００によって実行されるとき、プロ
グラムの命令は実行のためにプログラム順に検索され
る。命令は通常最初はＩＣＡＣＨＥ２０５にないので、
まず典型的なＩＣＡＣＨＥリフィル動作を説明する。キ
ャッシュミスの際に、０ｍｏｄ１６バイト（キャッシュ
ブロックサイズ）でメモリ内に整列された４ワードの命
令のブロックに対するリクエストがバスインタフェース
ユニット（ＢＩＵ）２６０に対して行なわれる。これ
は、後続のミスが起こるということを仮定して、命令ブ
ロックの継続するプリフェッチストリームを開始する。
この特定の実施例では、キャッシュ内のブロックにつき
有効ビットは１つしかないので、４ワードのブロックが
最小の転送サイズである。有効ビットは、現在の１６バ
イトエントリおよびタグが有効であることを示す。この
ことは、エントリがロードされ、現在実行されているプ
ログラムに対して確立されたことを意味する。

【００７２】命令ブロックが戻される際に（対象のワー
ドからではなく下位のワードから行なわれる）、これは
１つの命令につき４ビットの情報を発生するプリデコー
ドネットワーク（図示せず）を通る。前の命令ブロック
が発行されていれば、次の命令ブロック（新しい命令ブ
ロック）が命令レジスタ２５８およびＩＤＥＣＯＤＥ２
１０に進む。そうでなければ、次の命令ブロックはプリ
フェッチバッファ２５９で待つ。命令レジスタ２５８
は、推論実行のために発行されるべき次の命令である現
在の４つの命令を保持する。プリフェッチバッファ２５
９は、ＩＣＡＣＨＥ２０５がリクエストしたプリフェッ
チされた命令のブロックを保持する。これらの命令は、
後にプリデコードされてＩＣＡＣＨＥ２０５およびＩＤ
ＥＣＯＤＥ２１０に送られる。この態様でプリフェッチ
された命令のブロックを保持することによって、ＩＤＥ
ＣＯＤＥ２１０による発行およびプリフェッチがロック
状態で実行される必要がないように、バッファ動作が与
えられる。

【００７３】まだ解決されていない条件付分岐がなけれ
ば、予測実行された次の命令がデコードに進むと、次の
命令ブロックがＩＣＡＣＨＥ２０５に書込まれる。この
アプローチは、望ましいことには不必要な命令がキャッ
シュされることを防ぐ。プリデコード情報もまたキャッ
シュに書込まれる。プリデコード情報とは、特定の命令
を適切な機能ユニットに迅速に送るのを助ける命令のサ
イズおよび内容に関した情報である。プリデコードに関
するさらなる情報は、同時係属中の本譲受人に譲受され
た「可変バイト長命令に特に適したプリデコード命令キ
ャッシュおよびそのための方法」（“Pre-Decoded Inst
ruction Cache And Method Therefor Particularly Sui
table For Variable Byte-Length Instructions"）と題
される米国特許出願番号第１４５，９０５号に見いださ
れ、その開示をここに引用によって援用する。分岐予測
は、プログラムが実行される際にどの分岐が発生される
かを予測するために用いられるものであることが認めら
れる。予測は後に、分岐が実際に実行されるときに確立
される。予測は、マイクロプロセッサパイプラインのフ
ェッチ段階の間に起こる。

【００７４】プリフェッチストリームは、ＢＩＵ２６０
がそれに結合される外部バス（図示せず）を放棄しなく
てはならないか、データキャッシュ２４５が外部アクセ
スを必要とするか、プリフェッチバッファ２５９がオー
バーフローするか、キャッシュヒットが起こるか、また
は分岐もしくは割込が起こるまで続く。上述のことよ
り、プリフェッチストリームはあまり長くはならない傾
向にあることが認められるであろう。一般に、外部プリ
フェッチは、多くても発行されているものより２ブロッ
ク先である。

【００７５】この特定の実施例では、命令キャッシュ２
０５（ＩＣＡＣＨＥ）内のブロック１つにつき有効ビッ
トは１つなので、部分的なブロックは存在せず、すべて
の外部フェッチは４つの命令のブロックで行なわれるこ
とが認められる。キャッシュ内のブロックにつき有効ビ
ットは１つしかない。ＩＣＡＣＨＥ２０５はまた、各ブ
ロックについての分岐予測情報を含む。この情報はリフ
ィルの際にクリアされる。

【００７６】命令がＩＣＡＣＨＥ２０５に進んだので、
スーパースカラ実行を始めることができる。外部でフェ
ッチされたブロックがデコードに進むと、動作はＩＣＡ
ＣＨＥ２０５からフェッチされたのと同じであるが、全
体的な性能は、１サイクルにつき１の命令の最大外部フ
ェッチレートに制限される。４ワードの命令ブロックが
フェッチされ、プリデコード情報とともにデコードに進
む（ＰＨ２でキャッシュ読出、ＰＨ１で命令バス駆
動）。ＰＨ１はクロックの２つの相のうちの第１のもの
と規定され、ＰＨ２は、クロックの２つの相のうちの第
２のものと規定される。ＰＨ１およびＰＨ２が、パイプ
ライン化されるプロセッサの基本的なタイミングを構成
する。

【００７７】図３および４に示されるように、３２ビッ
トフェッチＰＣ（ＦＰＣ）バス、ＦＰＣ（３１：０）
は、命令キャッシュ（ＩＣＡＣＨＥ）２０５とデコーダ
（ＩＤＥＣＯＤＥ）２１０のフェッチャ２５７との間に
結合される。より特定的には、ＦＰＣバスは、ＩＣＡＣ
ＨＥ２０５内のＦＰＣブロック２０７とフェッチャ２５
７との間に延びる。命令キャッシュ２０５内のフェッチ
ＰＣまたはＦＰＣブロック２０７は、その中に位置され
るＦＰＣとして示される推論フェッチプログラムカウン
タを制御する。ＦＰＣブロック２０７は、デコーダ２１
０による機能ユニットへの命令の発行に先立ってフェッ
チャ２５７がプリフェッチする命令に関連するプログラ
ムカウント値ＦＰＣを保持する。ＦＰＣバスは、ＩＣＡ
ＣＨＥに例外または分岐予測に進む位置を示す。フェッ
チＰＣブロック２０７は、デコーダ２１０へと命令（４
の幅）をプリフェッチするのに、命令キャッシュ２０５
にストアされた分岐予測情報を用いる。フェッチＰＣブ
ロックは、逐次アクセスを予測することもでき、この場
合には新しいブロックが必要なときに現在のフェッチＰ
Ｃを１６バイトだけ増分し、これはまた新しいブロック
への分岐を予測することもできる。新しい分岐位置は、
予測された分岐に関して命令キャッシュから受取られた
ものでも、誤予測または例外の際に分岐機能ユニットか
ら受取られたものでもあり得る。フェッチＰＣまたはＦ
ＰＣは、先に述べたリタイヤＰＣとは区別されるべきで
ある。

【００７８】フェッチＰＣ（ＦＰＣ）はＰＨ１で増分さ
れ、次ブロックがＩＣＡＣＨＥ２０５から読出される
が、ＩＤＥＣＯＤＥ２１０は、第１のブロックからすべ
ての命令を発行していなければＨＯＬＤＩＦＥＴをアサ
ートすることによってフェッチャ２５７を停止させる。
ＨＯＬＤＩＦＥＴ信号の機能は、命令レジスタ２５８内
の４つの命令が進むことができないので命令のフェッチ
を抑えるというものである。

【００７９】フェッチャ２５７はまた、分岐予測の実行
を助ける。分岐予測は、命令キャッシュ２０５の出力で
ある。分岐が予測されると、予測された次ブロックの４
つの命令は、命令キャッシュ２０５によって命令ライン
ＩＮＳ０、ＩＮＳ１、ＩＮＳ２およびＩＮＳ３へと出力
される。命令キャッシュ２０５内のアレイＩＣ＿ＮＸＴ
ＢＬＫ（図示せず）は、キャッシュ内の各ブロックにつ
いてその特定のブロックでどの命令が予測実行されるか
を規定し、次ブロックがどう予測されるかを示す。分岐
がなければ、実行は常にブロック単位で逐次的に行なわ
れるであろう。したがって、発生される分岐は、このブ
ロック指向分岐予測を変える唯一の事象である。言い換
えれば、この発明の一実施例では、逐次的なブロック単
位での予測は、発生しないと予測された分岐が発生し、
誤予測されたときのみ起こる。

【００８０】分岐命令を含むブロックが初めてデコーダ
２１０（ＩＤＥＣＯＤＥ）に送られると、後続のフェッ
チは、分岐が発生されないと仮定して、逐次的である。
分岐が実行され、後に実際に発生したとわかると、分岐
予測ユニット（分岐ユニット）５２０は、ＩＣＡＣＨＥ
２０５に知らせ、１）分岐が発生したこと、２）分岐命
令のブロック内の位置、および、３）ターゲット命令の
キャッシュ内の位置を反映するように、そのブロックに
関する予測情報を更新する。フェッチャ２５７はまた、
ターゲットからフェッチを始めるように指示し直され
る。次にそのブロックがフェッチされると、フェッチャ
２５７は、それが前に発生された分岐を含むことを認
め、以下の動作で非逐次的フェッチを行なう、すなわち
１）命令有効ビットは、分岐遅延スロットを含みかつそ
こまでしかセットされない。分岐遅延は常に分岐の後の
命令を実行するという概念であり、遅延分岐とも称され
る。この命令は既にスカラＲＩＳＣパイプラインにおい
てプリフェッチされており、そのため分岐の際に、それ
を実行するのにオーバーヘッドが失われない。２）分岐
が発生予測されたという指示がそのブロックとともにデ
コーダ２１０に送られる。３）次のフェッチのためのキ
ャッシュインデックスが予測情報からとられる。（キャ
ッシュインデックスは、分岐が起こるときに予測実行さ
れた次ブロックのためのキャッシュ内の位置である。キ
ャッシュインデックスは絶対ＰＣでないことに注目され
たい。絶対ＰＣは、その位置のＴＡＧをキャッシュイン
デックスと連結することによって形成される。）４）こ
のキャッシュインデックスのブロックがフェッチされ、
予測されたターゲットアドレスがブロックのタグから形
成され、分岐情報が分岐ＦＩＦＯ（ＢＲＮＦＩＦＯ）
２６１に置かれる。５）この次ブロックのための有効ビ
ットが、予測されたターゲット命令から始まってセット
される。

【００８１】分岐ＦＩＦＯ２６１は、フェッチャ２５７
によって予測されたターゲットアドレスを分岐機能ユニ
ット（ＢＲＮＳＥＣ）５５０に伝えるために用いられ
る。別個に示されているが、分岐ＦＩＦＯ２６１は分岐
セクションＢＲＮＳＥＣ５５０の一部であると考えられ
ることが認められる。分岐ＦＩＦＯ２６１には、ターゲ
ットとともに分岐が発生予測された命令のＰＣがロード
される。分岐命令が実際に発行されると、分岐命令は分
岐ＦＩＦＯ内のエントリ、すなわちそこにストアされた
ＰＣと比較される。一致があれば、エントリは分岐ＦＩ
ＦＯから送られ、分岐命令がうまく予測されたものとし
てリオーダバッファ２４０に戻される。誤予測があれ
ば、正しいＰＣがリオーダバッファ２４０に与えられ
る。

【００８２】予測ビットは、分岐命令とともにデコーダ
２１０によって分岐ユニット５２０に発行される。予測
ビットは、特定の分岐がＩＣ＿ＮＸＴＢＬＫアレイにス
トアされた情報から発生予測されたかどうかを示す。

【００８３】分岐ユニット５２０が命令を実行すると、
その結果が予測と比較され、発生されれば、実際のター
ゲットアドレスが分岐ＦＩＦＯの上部のエントリ（必要
であればそれが現われるの待つ）と比較される。いずれ
のチェックも失敗すれば、分岐ユニット５２０はフェッ
チャ２５７に正しいターゲットアドレスを再指定し、予
測を更新する。これがフェッチャ２５７によるものでは
なく予測された非順次的フェッチに関してキャッシュミ
スを検出する方法であることに注目されたい。予測情報
は、フルアドレスではなくキャッシュインデックスのみ
を含むので、ターゲットブロックのタグはヒットに関し
てチェックすることができず、ターゲットアドレスはそ
のタグによって特定されるそのインデックスのブロック
のアドレスであると仮定される。分岐が最後に実行され
てから実際のターゲットブロックが置換えられていれ
ば、これは誤比較および実行の際の訂正となる。誤比較
が起これば、分岐を過ぎた多くの命令が、その遅延スロ
ットのみだけでなく、実行されているかもしれない。

【００８４】分岐予測ユニット５２０として用いること
のできる分岐予測ユニットの１つは、１９９２年８月４
日に発行された、ダブリュー・エム・ジョンソン（W.
M. Johnson)の「キャッシュ内の各命令ブロックとスト
アされたフェッチ情報を用いた正しく予測された分岐命
令に続く実行の遅延を減じるためのシステム」と題され
る米国特許番号第５，１３６，６９７号に説明され、そ
の開示はここに引用によって援用される。

【００８５】［ＩＩＩ（ｂ）命令フロー−デコード、
レジスタファイル読出、発行］命令は１度に１ブロック
ずつＩＤＥＣＯＤＥ２１０に進み、それらのメモリブロ
ック内の位置に対応する命令レジスタ２５８内の特定の
位置を占める（０＝列の最初）。各命令に付随するの
は、そのプリデコード情報および有効ビットである。

【００８６】ＩＤＥＣＯＤＥ２１０の主な機能は、命令
を扱う機能ユニットに従って命令を分類し、その命令を
それらの機能ユニットに発行することである。これは、
４つの３ビット命令タイプコード（ＩＮＳＴＹＰｎ）を
すべての機能ユニットにブロードキャストし、何らかの
所与のサイクル内で、発行されている各命令のための信
号（ＸＩＮＳＤＩＳＰ（３：０））をアサートすること
によって行なわれる。（本明細書中、Ｘ指示を伴って現
われる信号と、伴わない信号とがある。ＸＩＮＳＤＩＳ
Ｐ信号等のＸは、誤ったアサートがバスを放電すること
を示す。）図３ないし図５に示されるように、マイクロ
プロセッサ５００は、タイプコードを機能ユニットにブ
ロードキャストする目的のために４のタイプバス、ＩＮ
ＳＴＹＰｎ（７：０）を含む。特定の命令ブロックの４
つの命令の各々についてそれぞれのＴＹＰＥバスが設け
られる。

【００８７】特定の機能ユニットがそのタイプに対応す
るＴＹＰＥ信号を検出すると、その機能ユニットは、タ
イプバスにおいて検出されたタイプ信号の位置に従っ
て、ＩＤＥＣＯＤＥ２１０の現在の発行ウィンドウ内の
現在の命令ブロックの４つの命令のうちのどれを受取る
べきかを知る。タイプバスは、ＩＤＥＣＯＤＥ２１０の
それぞれの発行位置に対応する４つのセクションを有す
る。その機能ユニットはまた、検出されたタイプに対応
する発行情報バスのそのセクションで起こる操作コード
（ｏｐコード）によってその命令のオペランドデータに
どの機能を実行するべきかを定める。さらに、機能ユニ
ットはどの命令を実行すべきかがわかっているので、そ
のハードウェアをオペランドデータと行先タグとを受取
るためのオペランドデータバスおよびそれぞれの行先タ
グバスＤＥＳＴ．ＴＡＧ（０：３）と整列させる。

【００８８】命令が発行されると、それらの有効ビット
はリセットされ、そのタイプは「空」になる。特定のブ
ロックの４つの命令すべてが、命令の次ブロックがフェ
ッチされる前に発行されなくてはならない。ブロックの
４つの命令すべてが１度に発行されてもよいが、以下の
事象が起こる可能性があり、それもよく起こるので、こ
のプロセスを遅くする。１）クラスの競合−これは２つまたはそれ以上の命令
が同じ機能ユニットを必要とするときに起こる。整数コ
ードはマイクロプロセッサ５００にとって重要である。
この理由のため、本発明の一実施例は、機能ユニットＡ
ＬＵ０、ＡＬＵ１、ＳＨＦＳＥＣ、ＢＲＮＳＥＣ、ＬＳ
ＳＥＣ、ＦＰＴＳＥＣおよびＳＲＢＳＥＣの間でクラス
の競合が起こるのを減じるために２つのＡＬＵを含む。
命令は直列化の点でのみＳＲＢＳＥＣ５１２に発行され
る。言い換えれば、直列に実行されなくてはならない命
令のみがＳＲＢＳＥＣ５１２に送られる。２）機能ユニットが命令を受取ることができない３）レジスタファイル（ＲＦ）２３５のポートが利用
可能でない−この実施例において、８つのオペランドバ
スを与えるために通常考えるような８つではなく４つの
ＲＦ読出ポートしか存在しない。命令の多くはレジスタ
ファイル２３５から２つのオペランドを必要とすること
はなく、またはＲＯＢ２４０によるオペランド転送によ
って満たされ得るために、読出ポートの数がこのように
少ないことは最初に考えるほどは制限的ではないことが
わかった。たとえば８つの、より多くのＲＦ読出ポート
を用いて、レジスタファイルポートが利用可能でない状
態が起こる可能性を避けるような、この発明の他の実施
例も企図される。４）リオーダバッファ２４０におけるスペースの欠如
−各命令は対応するリオーダバッファのエントリを持た
なくてはならず（または倍および拡張精度浮動小数点命
令の場合のように、２つのリオーダバッファエントリが
設けられる）、リオーダバッファはＲＯＢＳＴＡＴ
（３：０）によって、予測された命令のうちのいくつに
場所を見つけられるかを示す。図３および４に示される
ように、ＲＯＢＳＴＡＴ（３：０）と示される状態バス
が、リオーダバッファ（ＲＯＢ）２４０とデコーダ（Ｉ
ＤＥＣＯＤＥ）２１０との間に結合される。ＲＯＢＳＴ
ＡＴ（３：０）は、ＲＯＢからＩＤＥＣＯＤＥに、４つ
の現在の命令のうちのいくつが割当てられるＲＯＢエン
トリを有するかを示す。ここでＲＯＢのエントリを充満
することが可能であることに注目されたい。５）直列化−命令の中には逐次状態を守る機構の範囲
を越えた状態を変更するものがある−これらの命令（た
とえばＭＴＳＲ、ＭＦＳＲ、ＩＲＥＴ命令）は周りの命
令に関してプログラム順に実行されなくてはならない。

【００８９】上に挙げた５つの状況のうちの１つが起こ
れば、影響を受ける命令は発行を停止し、後続の命令
は、それらを抑えるものが他に何もなくても発行され得
ない。各発行位置について、機能ユニットにソースオペ
ランドを供給するＡおよびＢオペランドバスの組（ＸＲ
ＤｎＡＢ／ＸＲＤｎＢＢバスとも称される）がある。レ
ジスタファイル２３５はデコードと並列にＰＨ２でアク
セスされ、オペランドがＰＨ１でこれらのバスに送られ
る。ソースレジスタを変更する命令がまだ実行中であれ
ば、レジスタファイル２３５内の値は無効である。この
ことは、レジスタファイル２３５およびＲＯＢ２４０が
データを含まず、したがってタグがデータの代わりとな
ることを意味する。リオーダバッファ（ＲＯＢ）２４０
はこれを追跡し、レジスタファイルアクセスと並列して
アクセスされる。オペランドが利用可能でないこと、ま
たはレジスタの競合は発行の際に問題とならないことに
注目されたい。ＲＯＢ２４０は、予め定められた数のエ
ントリならびに先頭および末尾ポインタを備えた環状バ
ッファとして見なすことができる。

【００９０】命令が発行されると、ＲＯＢ内のエントリ
がその行先レジスタのために確保される。ＲＯＢ内の各
エントリは、１）命令の行先レジスタアドレス、２）命
令の結果のためのスペース（これは倍精度動作またはＣ
ＡＬＬ／ＪＭＰＦＤＥＣタイプの命令には２つのエント
リを必要とするかもしれない）、および例外状態情報お
よび、３）ａ）エントリが割当てられたことと、ｂ）結
果が戻されたこととを示すビットからなる。

【００９１】エントリは末尾ポインタから始まって逐次
的に割当てられる。割当ビットは、セットされて命令が
発行されたことを示す。割当ビットは各ＲＯＢエントリ
と関連付けられる。割当ビットは、特定のＲＯＢエント
リが未処理の動作に割当てられたことを示す。割当ビッ
トは、エントリが用済となると、または例外が起こると
割当から外される。別個の有効ビットが、結果が完了さ
れレジスタファイルに書込まれたかどうかを示す。エン
トリのアドレス（結果または行先タグとも呼ばれる）が
発行から実行の間対応する命令に付随し、結果バスの１
つを介して命令の結果とともにＲＯＢ２４０に戻され
る。

【００９２】より詳細には、行先タグは、命令が機能ユ
ニットに発行されるときに用いられ、結果タグは命令が
戻されるとき、すなわち結果が機能ユニットからＲＯＢ
に戻されるときに用いられる。言い換えれば、行先タグ
は発行された命令に関連し、リオーダバッファによって
機能ユニットに特定の命令の結果がどこにストアされる
べきかに関して知らせるために機能ユニットに与えられ
る。

【００９３】より詳細には、命令に関連する行先タグは
機能ユニットにストアされ、次に結果バスに転送され
る。このような行先タグは、これらが結果バスを介して
転送されるときにはまだ行先タグとして示される。これ
らのタグは他の機能ユニットの待合わせステーションで
オペランドタグと比較され、このような他の機能ユニッ
トが特定の結果を必要かどうかを見る。特定の機能ユニ
ットからの結果は、ＲＯＢ内の対応する相対推論位置に
戻される。

【００９４】命令の結果は、効果的にこの命令の結果タ
グとなる命令の行先タグによって識別されるＲＯＢエン
トリ内に置かれる。その特定のＲＯＢエントリの有効ビ
ットがセットされる。結果は、レジスタファイルにライ
トバックされる順番が回ってくるまでそこに留まる。エ
ントリが除去されるよりも早くＲＯＢ２４０に割当てら
れることが可能であり、この場合にはＲＯＢ２４０は最
終的にはフルとなる。リオーダバッファフル状態は、Ｒ
ＯＢＳＴＡＴ（３：０）バスを介してデコーダ２１０に
伝えられる。これに応答して、デコーダ２１０はＨＯＬ
ＤＩＦＥＴ信号を発生して、命令がＩＣＡＣＨＥ２０５
からフェッチされるのを止める。したがって、ＲＯＢフ
ル状態はデコーダ２１０による発行を止めることが認め
られる。

【００９５】オペランドの処理の説明に戻って、ＲＯＢ
２４０でライトバックを待っている結果を、もし必要で
あれば他の機能ユニットに転送することができることに
注目されたい。これは、ＩＤＥＣＯＤＥ２１０内の命令
のソースレジスタアドレスをＲＯＢ内の行先レジスタア
ドレスと、デコード時にレジスタファイルアクセスと並
列して、比較することによって行なわれる。ＡおよびＢ
ソースオペランドに関して起こり、かつ結果有効ビット
がセットされている、最も最近のアドレス一致につい
て、ＲＯＢ２４０は対応する結果をレジスタファイル２
３５の代わりに適切なオペランドバスに送る。この一致
が起これば、ＲＯＢ２４０は、ＲＯＢ２４０とレジスタ
ファイル２３５との間のＯＶＥＲＲＩＤＥラインを活性
化して、レジスタファイル２３５に、ＡおよびＢオペラ
ンドバスにいかなるオペランドも送らないように指示す
る。

【００９６】たとえば、デコーダ２１０が、レジスタＲ
３の内容をレジスタＲ５の内容に加えてその結果をレジ
スタＲ７に置くことを意味するように規定される、命令
ＡＤＤＲ３、Ｒ５、Ｒ７をデコードしていると仮定す
る。この例において、ＩＤＥＣＯＤＥ内でデコードされ
るソースレジスタアドレスＲ３およびＲ５は、ＲＯＢ２
４０内の行先レジスタアドレスと比較される。この例の
目的のため、結果Ｒ３がＲＯＢ２４０内に含まれ、結果
Ｒ５がレジスタファイル２３５内に含まれると仮定す
る。これらの状況のもとでは、デコードされた命令内の
ソースアドレスＲ３とＲＯＢ２４０内の行先レジスタア
ドレスＲ３との比較は肯定である。レジスタＲ３のため
のＲＯＢエントリの結果がＲＯＢ２４０から検索され、
適切な機能ユニット、すなわちＡＬＵ０またはＡＬＵ１
の待合わせステーションによるラッチのためにオペラン
ドＡバスにブロードキャストされる。この場合にＲＯＢ
エントリと一致が見いだされるので、レジスタファイル
２３５が、それが含み得る何らかの用済となったＲ３値
でＡオペランドバスを駆動しないように、ＯＶＥＲＲＩ
ＤＥラインが駆動される。

【００９７】この例で、デコードされた命令内のソース
アドレスＲ５とＲＯＢ２４０内に含まれる行先レジスタ
アドレスとの比較はうまく行かない。したがって、レジ
スタファイル２３５内に含まれる結果値Ｒ５がＢオペラ
ンドバスへ駆動され、その結果が機能ユニットすなわち
ＡＬＵ０に実行のためにブロードキャストされる。Ａオ
ペランドおよびＢオペランドの両方がＡＬＵ０機能ユニ
ットの待合わせステーション内にあれば、命令がＡＬＵ
０に投入されて、ＡＬＵ０によって実行される。結果
（結果オペランド）は、この結果オペランドを求めてい
る他の機能ユニットの待合わせステーションに送るため
に結果バス２６５に置かれる。結果オペランドはまた、
その結果のために割当てられたエントリでそこにストア
するためにＲＯＢ２４０にも与えられる。

【００９８】所望のオペランド値がまだＲＯＢ２４０に
なくても（アサートされる有効ビットによって示され
る）、それでも命令をデコーダ２１０によって発行する
ことができる。この場合に、ＲＯＢ２４０は一致するエ
ントリのインデックス（すなわちその結果を最終的に生
成する命令の結果タグ）を機能ユニットにオペランドの
代わりに送る。ここでもやはり、８つのオペランドバス
に対応する効果的に８つのＡ／Ｂタグバス（すなわち４
つのＡタグバスおよび４つのＢタグバス、すなわちＴＡ
ＧｎＡＢ（４：０）およびＴＡＧｎＢＢ（４：０）ここ
でｎは整数である）があることに注目されたい。タグの
最上位ビット（ＭＳＢ）は、タグが有効であるときを示
す。

【００９９】２つ以上のＲＯＢエントリが同じ行先レジ
スタタグを有するときには、最も最近のエントリが用い
られる。これは、可能である並列性を減じてしまうであ
ろう独立した命令による行先としての同じレジスタの異
なる使用を区別する。（これはライトアフターライトハ
ザードとして知られる）命令のキャッシュ化の際に発生
されるプリデコード情報はデコード時に作用し始める。
プリデコード情報は、ＩＣＡＣＨＥ２０５からＰＲＥＤ
ＥＣＯＤＥラインを介してＩＤＥＣＯＤＥ２１０に渡さ
れることが認められる。

【０１００】プリデコードは以下の態様で行われる。各
命令について、ＲＯＢエントリの割当を、いくつのエン
トリが必要であるかを示すことによって（エントリを１
つ必要とする命令もあるし、２つのエントリを必要とす
る命令もある）速める２ビットコードを含むプリデコー
ド信号ＰＲＥＤＥＣＯＤＥがある。たとえば、加算命令
ＡＤＤ（ＲＡ＋ＲＢ）→ＲＣは、レジスタＲＣ内に置
かれるべき単一の３２ビット結果のために１つのエント
リを必要とする。対照的に、乗算命令ＤＦＭＵＬＴ
（ＲＡ＋ＲＢ）（倍精度）は、６４ビットの結果を保持
するのに２つのＲＯＢエントリを必要とする。本発明の
この特定の実施例では、各ＲＯＢエントリは３２ビット
幅である。この２ビットコードはさらに、所与の命令か
らいくつの結果オペランドが生じるかを示す（すなわ
ち、なし−分岐等、１−ほとんどのもの、または２−倍
精度）。プリデコード情報は、レジスタファイルアクセ
スがＡおよびＢオペランドに必要であるかどうかを示す
２つの付加的なビットを含む。したがって、マイクロプ
ロセッサ５００において３２ビット命令につき４ビット
のプリデコード情報がある。これらのビットはＰＨ２の
アクセスに先立って、ＰＨ１でレジスタファイルポート
の効率的な割当を可能にする。命令が必要とするレジス
タファイルポートを割当てられていないが、ＲＯＢ２４
０がオペランドを転送できることを示していれば、いず
れにしても命令は発行され得る。

【０１０１】［ＩＩＩ（ｃ）命令フロー−機能ユニッ
ト、待合わせステーション］図３ないし図５は、マイク
ロプロセッサ５００のすべての機能ユニットが共通のデ
ータ処理バス５３５上にあることを示す。データ処理バ
ス５３５は、その比較的広いバンド幅のために高速のバ
スである。各機能ユニットにはその入力で２つの待合わ
せステーションが備えられている。より多いまたは少な
い待合わせステーションが機能ユニットで用いられる本
発明の他の実施例も企図される。

【０１０２】整数ユニット５１５は算術論理装置ＡＬＵ
０およびＡＬＵ１を含む。ＡＬＵ０には待合わせステー
ション５４０が設けられ、ＡＬＵ１には待合わせステー
ション５４５が設けられる。分岐ユニット５２０（ＢＲ
ＮＳＥＣ）にはその入力で待合わせステーション５５０
が供給される。浮動小数点ユニット（ＦＰＴＳＥＣ）５
２５は、浮動小数点加算ユニット５５５を含み、これに
は待合わせステーション５６０が設けられる。浮動小数
点ユニット５２５はさらに、浮動小数点変換ユニット５
６５を含み、これには待合わせステーション５７０が設
けられる。浮動小数点ユニット５２５はさらに、浮動小
数点乗算ユニット５７５を含み、これには待合わせステ
ーション５８０が備えられる。最後に、浮動小数点ユニ
ット５２５はさらに、浮動小数点除算ユニット５８５を
含み、これにはその入力で待合わせステーション５９０
が備えられる。ロード／ストアユニット５３０もまた、
データ処理バス５３５上に存在し、待合わせステーショ
ン６００を含む。

【０１０３】図３ないし図５に示されるように、各機能
ユニットへの主入力（すなわち機能ユニットと関連する
各待合わせステーションへの入力）は、以下の主データ
処理バス５３５を構成するバスによって与えられる、す
なわち１）ＩＤＥＣＯＤＥ２１０からの４つのＯＰＣＯＤＥ
バス（ＩＮＳＯＰｎ（７：０）として示され、ｎは０な
いし３の整数である）２）ＩＤＥＣＯＤＥ２１０からの４つの命令タイプバ
ス（ＩＮＳＴＹＰｎ（７：０）として示され、ｎは０な
いし３の整数である）３）ＩＤＥＣＯＤＥ２１０からの４つの４ビット発行
ベクトルバス（ＸＩＮＳＤＩＳＰ（３：０）として示さ
れる）４）ＡオペランドバスおよびＢオペランドバスの４つ
の対（ＸＲＤｎＡＢ／ＸＲＤｎＢＢ（３１：０）と示さ
れ、ｎは０ないし３の整数である）５）関連するＡ／Ｂタグバスの４つの対（ＴＡＧｎＡ
Ｂ／ＴＡＧｎＢＢ（４：０）と示され、ｎは０ないし３
の整数である）６）３つの双方向結果オペランドバスを含む結果バス
２６５（ＸＲＥＳ０Ｂ（３１：０）、ＸＲＥＳ１Ｂ（３
１：０）、ＸＲＥＳ２Ｂ（３１：０）として示される）７）２つの結果タグバス（ＸＲＥＳＴＡＧ０Ｂ／ＳＲ
ＥＳＴＡＧ１Ｂ（２：０）として示される）および８）２つの結果状態バス（ＸＲＥＳＳＴＡＴ０Ｂおよ
びＸＲＥＳＳＴＡＴ１Ｂ（２：０）と示される）であ
る。

【０１０４】１つ以上の待合わせステーションが上述の
機能ユニットの各々の前部に置かれる。待合わせステー
ションは、本質的には、機能ユニットによる実行を待ち
ながらそこで命令が待ち行列にされる先入れ先出し（Ｆ
ＩＦＯ）バッファである。命令がオペランドの代わりに
タグを伴って発行されれば、または機能ユニットが停止
またはビジー状態であれば、命令は待合わせステーショ
ンで待ち行列にされ、後続の命令はその後で待ち行列に
される（特定の機能ユニット内の投入は全くの順番通り
であることに注目されたい）。待合わせステーションが
充満すれば、これを示す信号がＩＤＥＣＯＤＥにアサー
トされる。これは、同じタイプの別の命令に出会えば、
発行を止める。

【０１０５】命令の発行は以下のように起こる。各待合
わせステーションは対応する命令タイプに関して命令Ｔ
ＹＰＥバスを（ＰＨ２で）観察する待合わせステーショ
ン論理を含む。待合わせステーションは、対応するｏｐ
コード、ＡおよびＢオペランドならびにＡおよびＢオペ
ランドタグバスを、このような命令タイプに出会えば選
択する。関連する機能ユニットで実行する２つ以上の命
令が認められれば、プログラム順に関して先の命令が優
先される。しかしながら、対応する発行ビットがセット
されていることを認めるまで（ＰＨ１でＸＩＮＳＤＩＳ
Ｐ（ｎ））、命令は待合わせステーションに受入れられ
ない。

【０１０６】この時点で、必要とされるオペランドが利
用可能であり、かつ機能ユニットが何らかの理由のため
に停止されているわけでも、またはビジーであるわけで
もなく、さらに前の命令が待合わせステーションで待っ
ていなければ、命令は直ちに同じクロックサイクル内で
実行に移る。そうでなければ、命令は待合わせステーシ
ョンに置かれる。命令がオペランドの代わりにオペラン
ドタグを、伴って発行されていれば、待合わせステーシ
ョン論理は、オペランドタグを結果タグバス（ＸＲＥＳ
ＴＡＧ０ＢおよびＸＲＥＳＴＡＧ１Ｂ）で現われる結果
タグと比較する。一致が認められれば、その結果が結果
バス群２６５の対応する結果バスから取入れられる。こ
の結果は次に、命令を投入するのを可能にすれば機能ユ
ニットに転送される。そうでなければ、結果はオペラン
ドとして待合わせステーションに置かれ、ここで命令を
完了するのを助け、対応するタグ有効ビットはクリアさ
れる。両方のオペランドが、汎用結果バスのいずれかま
たは両方から同時に転送され得ることに注目されたい。

【０１０７】結果バス２６５を形成する３つの結果バス
は、２つの汎用結果バスＸＲＥＳ０Ｂ（３１：０）およ
びＸＲＥＳ１Ｂ（３１：０）を含み、さらに分岐および
ストア専用の１つの結果バスＸＲＥＳ２Ｂ（３１：０）
を含む。結果バスＸＲＥＳ２Ｂ（３１：０）は分岐およ
びストア専用なので、これが処理する結果（たとえば分
岐ＰＣアドレス等）は転送されない。機能ユニットは結
果バスＸＲＥＳ０Ｂ（３１：０）およびＸＲＥＳ１Ｂ
（３１：０）をモニタし、一方リオーダバッファ（Ｒ
Ｂ）２４０は３つの結果バスすべてをモニタする。

【０１０８】命令が待合わせステーションで待つ際に、
何らかの有効オペランドタグも同様に結果タグと比較さ
れ、同じような転送が行なわれる。機能ユニット間およ
び機能ユニット内での結果の転送がこの態様で行なわれ
る。待合わせステーションと関連して、このタグの付与
によって、従属性の適切なシーケンシングを維持しなが
ら、異なる機能ユニットで順序通りでない命令の実行を
可能にし、さらにオペランドハザードが無関係の後続の
命令の実行をブロックすることを防ぐ。命令タイプおよ
びＡ／ＢタグはＰＨ２で利用可能であり、一方投入する
決定は後続のＰＨ１で行なわれる。

【０１０９】待合わせステーションのオペランドは、こ
れらが送られた実際のオペランドデータでなければ、タ
グおよび有効ビットを有する。言い換えれば、命令が待
合わせステーションに発行され、かつ特定のオペランド
がまだ利用可能でなければ、そのオペランドに関連する
オペランドタグが実際のオペランドの代わりに待合わせ
ステーションに与えられる。有効ビットは各オペランド
タグと関連する。結果が機能ユニットで完了すると、結
果は他の機能ユニットおよびＲＯＢ２４０に結合される
結果バスに与えられる。結果は待合わせステーションの
オペランドタグと比較されて、ヒットが起これば、タグ
有効ビットがクリアされて、結果バスからのオペランド
は、オペランドに対して指定された機能ユニットの位置
に転送される。言い換えれば、待合わせステーション内
の何らかのエントリに一致する結果タグ０および１にお
けるタグ比較が値をそのステーションに転送する。

【０１１０】どの命令源（待合わせステーションまたは
待合わせステーションに結合される４つの入来するバス
のうちの１つ）が局所的デコードの次の候補であるかを
定め、待合わせステーションの先頭にあるエントリに関
する待合わせステーション有効ビットおよびデコード／
優先命令タイプバスを調べることによってＰＨ２で投入
が行なわれ、この際に待合わせステーションのエントリ
が優先する。待合わせステーションを２つ有する機能ユ
ニットでは、その２つの待合わせステーションは先入れ
先出し（ＦＩＦＯ）構成を形成し、待合わせステーショ
ンに発行される第１の命令がＦＩＦＯの先頭を形成し、
ＦＩＦＯに発行される最後の命令がＦＩＦＯの末尾を形
成する。

【０１１１】機能ユニットによる局所的デコードとは、
タイプバスをモニタすることによって、機能ユニットが
まず、そのタイプの命令が発行されていることを定める
ということを意味する。一旦機能ユニットが、それが処
理すべき命令を識別すると、機能ユニットはｏｐコード
バス上の対応するｏｐコードを調べて、機能ユニットが
実行すべき精確な命令を判断する。

【０１１２】本発明のこの実施例では、実行時間は、特
定の命令タイプおよびその命令を実行する機能ユニット
に依存する。より具体的には、実行時間は、すべてのＡ
ＬＵ、シフタ、分岐動作およびキャッシュでヒットする
ロード／ストアの１サイクルから、浮動小数点、ロード
／ストアミスおよび特殊レジスタ動作のための数サイク
ルにまでわたる。特殊レジスタとは、再指定されない何
らかの汎用でないレジスタと規定される。

【０１１３】機能ユニットは以下のように結果バスに対
して調停する。結果バス２は、オペランドを戻さないス
トアのため、および計算されたターゲットアドレスを戻
す分岐のために用いられる。分岐には優先順位があるこ
とが認められる。汎用結果バス０および１は、ＡＬＵ０
またはＡＬＵ１のいずれかから、シフタユニット５１０
から、浮動小数点ユニット５２５からの結果とロードお
よび特殊レジスタアクセスとを扱う。

【０１１４】結果バス０（ＸＲＥＳ０Ｂ（３１：０）と
も示される）および結果バス１（ＸＲＥＳ１Ｂ（３１：
０）とも示される）へのアクセスを得ることに関する機
能ユニット間での優先順位は、図６に示される。図６の
表において、「ＤＰの下位半分」という用語は、倍精度
数の下位半分を意味する。マイクロプロセッサ５００
は、倍精度（ＤＰ）数を送るのに３２ビットオペランド
バスを用いる。より具体的には、倍精度数がオペランド
バスを介して伝送されるとき、その数は２つの３２ビッ
ト部分、すなわち上位３２ビット部分と下位３２ビット
部分とで伝送される。上位および下位部分は、一般に２
サイクルで２オペランドバスを介して伝送される。機能
ユニットによる特定の結果バスに対するアクセスのリク
エストの拒否は、その機能ユニットを停止させ、待合わ
せステーションフル状態としてデコードにされるために
戻り得る。

【０１１５】結果は、結果のタイプ（なし、通常または
例外、および命令固有のコード、すなわちデータキャッ
シュミス、アサートトラップおよび分岐誤予測）を示す
３ビット状態コード（ＲＥＳＵＬＴＳＴＡＴＵＳ）を
含む。一実施例では、結果はまた、そのユニットおよび
命令に依存して、３２ビット結果オペランドおよび詳細
な実行または例外状態を含む。結果バス２３５は、結果
をＲＯＢ２４０に戻すため、および結果を機能ユニット
の待合わせステーションに転送するために用いられる。
結果情報のすべてがＲＯＢ２４０にストアされるが、機
能ユニットは結果状態コードおよび結果オペランドを見
るだけである。

【０１１６】ほとんどの機能ユニットは上述の態様で動
作する。しかしながら、特殊レジスタブロックセクショ
ン（ＳＲＢＳＥＣ）５１２およびロード／ストアセクシ
ョン（ＬＳＳＥＣ）５３０は、いくぶん異なる。ＳＲＢ
ＳＥＣ機能ユニットは、頻繁には更新されずかつレジス
タ再指定によってサポートされない状態および制御レジ
スタ等のマシン状態情報を保持する。ＳＲＢＳＥＣ５１
２の特殊レジスタへの、およびそこからの動きは、周り
の命令に関して常に直列化される。したがって、ＳＲＢ
ＳＥＣは、別個の機能ユニットでありながら、直列化の
ためにオペランドが常にレジスタファイル２３５から利
用可能であるので、待合わせステーションを必要としな
い。ＳＲＢＳＥＣ機能ユニットによって実行される命令
の例には、「スペシャルレジスタへ移動」ＭＴＳＲ、お
よび「スペシャルレジスタから移動」ＭＦＳＲ命令があ
る。直列化を必要とするこのような命令を実行する前
に、マイクロプロセッサ５００は、この命令の前のすべ
ての推論状態を直列化するか、または実行する。アドバ
ンスト・マイクロ・ディバイシズ・インコーポレイテッ
ドによって製造されるＡＭ２９０００マイクロプロセッ
サで用いられるのと同じ特殊レジスタブロックを、ＳＲ
ＢＳＥＣ５１２として用いてもよい。

【０１１７】ロード／ストアセクションＬＳＳＥＣ５３
０は、他の機能ユニットと同じ態様で待合わせステーシ
ョンを用いる。ロード／ストアセクション５３０は、デ
ータキャッシュ２４５からのデータのロードおよびデー
タキャッシュ２４５におけるデータのストアを制御す
る。しかしながら、命令の実行に関して、これは最も複
雑な機能ユニットである。ＬＳＳＥＣは、データキャッ
シュ（ＤＣＡＣＨＥ）２４５およびメモリ管理ユニット
（ＭＭＵ）２４７と密に結合する。マイクロプロセッサ
５００は、データキャッシュ２４５または主メモリ２５
５を変更する何らかの動作が未完了となり得ないように
設計される。さらに、このような変更は、周りの命令に
関してプログラム順に起こらなくてはならない。このこ
とは、すべてのストアおよびデータキャッシュでミスし
ているロードの実行がＲＯＢ２４０内のリタイア論理２
４２と協働しなくてはならないことを意味する。このこ
とは、対応するＲＯＢエントリにＲＯＢリタイア論理が
出会うまでこれらの動作が待ち行列にされるＦＩＦＯで
ある、アクセスバッファ６０５と呼ばれる機構を用いて
行なわれる。

【０１１８】データキャッシュ（ＤＣＡＣＨＥ）２４５
として用いることができるデータキャッシュの１つ、お
よびロード／ストアセクション（ＬＳＳＥＣ）５３０と
して用いることができる１つのロード／ストアセクショ
ンは、同時係属中であり本譲受人に譲受された「高性能
ロード／ストア機能ユニットおよびデータキャッシュ」
（“High Performance Load/Store Functional Unit An
d Data Cache”）と題される米国特許出願連続番号第１
４６，３７６号に記載され、その開示はここに引用によ
って援用される。命令キャッシュおよびデータキャッシ
ュのアドレス指定に関するさらなる情報は、同時係属中
であり、本譲受人に譲受された「線形アドレス可能なマ
イクロプロセッサキャッシュ」（“Linearly Addressab
le Microprocessor Cache"）と題される同時係属中の米
国特許出願連続番号第１４６，３８１号に記載され、そ
の開示はここに引用によって援用される。

【０１１９】アクセスバッファ６０５はＬＳＳＥＣ５３
０内に位置される。一実施例において、アクセスバッフ
ァ６０５はミスしているロードまたはストア（ヒット／
ミス）の２−４ワードＦＩＦＯである。ヒットしている
ストアは、それが実行されるべき次のものとなるまで書
込まれない。しかしながら、アクセスまたはストアバッ
ファによって、この状態は一時記憶装置に保持されるこ
とが可能となり、これはＲＯＢがレジスタ参照を転送す
るのと類似した態様でデータ参照を転送することができ
る。アクセスバッファは最後に、アクセスバッファの内
容がプログラム順で次であるときにデータキャッシュ２
４５（ＣＡＣＨＥ）に書込む。言い換えれば、アクセス
バッファまたはストアバッファは、他のロード／ストア
命令が処理され続けることが可能であるように１つまた
はそれ以上のロード／ストア命令をストアするＦＩＦＯ
バッファである。たとえば、アクセスバッファ６０５
は、後続のロードがロード／ストアユニットＬＳＳＥＣ
５３０によって実行されている一方で、ストアを保持す
ることができる。

【０１２０】ストアバッファとしても知られるアクセス
バッファ、およびデータキャッシュと関連して用いられ
るロード／ストア機能ユニットは、同時継続中で本譲受
人に譲受された「高性能ロード／ストア機能ユニットお
よびデータキャッシュ」と題される同時係属中の特許出
願により詳細に述べられ、その開示をここに引用によっ
て援用する。

【０１２１】ＲＯＢリタイア論理２４２の機能は、どの
命令がＲＯＢ２４０からレジスタファイル２３５へと格
納されるべきであるかを定めることである。ＲＯＢエン
トリのこの格納の基準は、エントリが有効かつ割当てら
れること、結果が機能ユニットから戻されていること、
およびエントリが誤予測または例外事象でマークされて
いないことである。

【０１２２】ストア動作は２つのオペランド、すなわち
メモリアドレスおよびデータを必要とする。ストアが投
入されると、これはＬＳＳＥＣ待合わせステーション６
００からアクセスバッファ６０５へと転送され、ストア
結果状態がＲＯＢ２４０に戻される。ストアは、データ
がまだ利用可能でなくても投入され得るが、アドレスは
そこになくてはならない。この場合、アクセスバッファ
は待合わせステーションと類似した態様でタグを用い
て、結果バス２３５からストアデータを選択する。スト
アが投入される際、メモリ管理ユニット（ＭＭＵ）２４
７で高速変換バッファ（ＴＬＢ）６１５のルックアップ
が行なわれ、データキャッシュがアクセスされてヒット
についてチェックする。

【０１２３】ＭＭＵからの物理アドレスおよび仮想アド
レスのページ部分は、データキャッシュからのステータ
ス情報とともにアクセスバッファに置かれる。言い換え
れば、キャッシュは物理的にアドレスされる。ＴＬＢミ
スが起こると、これは結果状態に反映され、適切なトラ
ップベクトルが結果バス２に送られ、この時点では他の
動作は行なわれない。（ロードに関するＴＬＢルックア
ップも同じように行なわれるが、何らかのトラップベク
トルは結果バス１に進む。）トラップベクトルは例外で
ある。マイクロプロセッサ５００はＴＬＢトラップを取
込み、新しいページを物理メモリにロードして、ＴＬＢ
を更新する。この動作には数百サイクルかかる可能性が
あるが、比較的頻繁には起こらない事象である。マイク
ロプロセッサ５００はＰＣを止めて、マイクロプロセッ
サレジスタをストアし尽し、ベクトルを実行して、レジ
スタ状態を復元し、割込リターンを実行する。

【０１２４】ストアがアクセスバッファの先頭に達する
と（次いで空であればすぐに行なわれる）、ＲＯＢ２４
０が、対応するＲＯＢエントリが用済の段階に達したこ
とを示すＬＳＲＥＴＩＲＥと符号を付される信号をアサ
ートし、次いでキャッシュアクセスを進める。しかしな
がら、キャッシュが前のリフィルを完了させること、ま
たはコヒーレンシー動作を行なうことでビジー状態であ
れば、遅延され得る。一方、ＲＯＢ２４０は動作を続
け、別のストア命令に出会うかもしれない。ＬＳＳＥＣ
がそれを完了する準備ができる前にそのストア命令が用
済とされないようにするために、以下のようにハンドシ
ェイクが用いられる。ＬＳＳＥＣ５３０はＲＯＢ２４０
に、ＬＳＤＯＮＥをアサートすることによってＬＳＳＥ
Ｃが動作を完了したときを示す信号を与える。ＲＯＢ２
４０は、前のストアが用済とされてからＬＳＤＯＮＥを
認めていなければ、ストア（またはロード）を停止する
ことが認められる。

【０１２５】データキャッシュ２４５においてヒットし
ているロード動作は、ＲＯＢ２４０と協働されなくても
よい。しかしながら、ミスはＲＯＢ２４０と協働され
て、不必要なリフィルおよび誤予測された分岐を越えて
の無効な外部参照を避けなくてはならない。ロードが投
入されると、（キャッシュがビジー状態でなければ）キ
ャッシュアクセスがすぐに行なわれる。キャッシュにお
いてヒットがあれば、結果が通常状態コードとともに結
果バスを介してＲＯＢに戻される。ミスがあれば、ロー
ドはアクセスバッファ６０５に置かれ、ロード＿ミス結
果コードが戻される。ＲＯＢ２４０のリタイア論理２４
２がこの条件に出会えば、これはＬＳＲＥＴＩＲＥをア
サートして、ロード＿有効結果状態コードとともに結果
バスに置かれている所望のワードから、これが現われる
とすぐにリフィルが始まる（リフィルが終了するのを待
たない）。ＲＯＢ２４０は、ストアの場合のようにＬＳ
ＲＥＴＩＲＥをアサートする際にロードを用済とできな
いことが認められる。その代わりに、ＲＯＢ２４０はデ
ータが戻るのを待たなくてはならない。

【０１２６】ロードは、アクセスバッファにおいて待っ
ている、前の未完了のストア動作があっても処理され得
る。ストアに関して順序通りでなくロードを行なうのを
可能にする際に、マイクロプロセッサ５００はロードが
（プログラム順に関して）前のストアによってこれから
変更される位置からは行なわれないことを確実にする。
このことは、ロードアドレスをアクセスバッファ６０５
内の何らかのストアアドレスと、キャッシュアクセスと
並列して、比較することによって行なわれる。どれも一
致しなければ、ロードは進められる。１つ一致するもの
があれば（２つ以上の場合は最も最近のエントリ）、ス
トアデータがアクセスバッファ６０５からキャッシュデ
ータの代わりに結果バス２６５に転送される。起こって
いるかもしれない何らかのキャッシュミスは無視される
（すなわちリフィルは起こらない）。ストアデータがま
だ存在しなければ、ロードはストアデータが到着するま
で停止される。さらに、これらの動作は、望ましいこと
にはメモリアクセスが不必要に並列性を損なうことを防
ぐ。

【０１２７】ここでさらにロード／ストアについて検討
する。１Ｋバイトおよび２Ｋバイトページサイズに関し
て、高速変換バッファ（ＴＬＢ）のルックアップが、キ
ャッシュアクセスに先立って行なわれる。これはさらな
るサイクルのロード／ストア待ち時間を起こす。ＬＳＳ
ＥＣがロードまたはストアを「完了する」とき、これは
関連するキャッシュ動作が完了することを意味しないこ
とに注目されたい。そうではなく、ＩＣＡＣＨＥまたは
ＤＣＡＣＨＥ、ＢＩＵ、および外部でリフィル等の動作
がまだあるかもしれない。

【０１２８】アクセスバッファ転送は、部分ワードロー
ド／ストア動作のためには行なわれない。ワード−アド
レス一致が検出され、かつロードとストアとの間で何ら
かのオーバーラップがあれば、ロードはキャッシュミス
のように見えるようにされ、ストアの後に実行されるよ
うにアクセスバッファ６０５で待ち行列にされる（実際
にはキャッシュでヒットしているかもしれないし、して
いないかもしれない）。オーバーラップがなければ、ロ
ードはアドレス一致がなかったかのように進められる。

【０１２９】ロード／ストアマルチ命令は、直列化の態
様で行なわれる、すなわちロード／ストアマルチ命令が
実行されているとき、他のどの命令も並列して行なわれ
ないことが認められる。ロードまたはストア（ロード／
ストア）マルチ命令は、レジスタファイルへの、または
そこからのブロックの動きである。この命令は、所与の
アドレス、所与のレジスタ、およびカウントフィールド
を含む。ロード／ストアのマルチ命令の一例に、ＬＯＡ
ＤＭ（Ｃ，Ａ，Ｂ）があり、Ｃは行先レジスタ、Ａはア
ドレスレジスタ、およびＢは転送の数である。

【０１３０】ロードミスは必ずしもリフィルを起こさな
いことも認められる。その代わりに、ページはキャッシ
ュ不可能としてマークされるかもしれず、ロードがアク
セスバッファから満たされているかもしれない。

【０１３１】［ＩＩＩ（Ｄ）命令フロー−リオーダバ
ッファおよび命令リタイア］結果がＲＯＢ２４０に戻さ
れると、これらは結果タグによって特定されるエントリ
に書込まれ、これはＲＯＢの先頭および末尾ポインタの
間の何らかの場所にある。ライトバック、ストアおよび
ロードミスの実行、トラップおよびＰＣ０、ＰＣ１およ
びＰＣ２の更新を制御するリタイア論理２４２は、プロ
グラム順に有効結果を伴うエントリを見る。

【０１３２】ＰＣ０、ＰＣ１およびＰＣ２は、ＤＥＣ、
ＥＸＥＣおよびＷＲＩＴＥＢＡＣＫ０，１の値を含むマ
ッピングレジスタである。信号ＤＥＣ、ＥＸＥＣおよび
ＷＲＩＴＥＢＡＣＫ０，１は、スカラＡＭ２９０００パ
イプラインからの段階であるデコード、実行およびライ
トバックを指し、ＡＭＤ２９００は、アドバンスト・マ
イクロ・ディバイシズ・インコーポレイテッドから入手
可能なマイクロプロセッサである。これらの信号は、実
行の際にパイプラインを再始動させるのに用いられる。
遅延分岐のために２つ以上のＰＣが用いられる。ＰＣ
０、ＰＣ１およびＰＣ２は、割込またはトラップの際に
用いられて、分岐誤予測または例外に出会うとマイクロ
プロセッサ５００が戻り得る、ＤＥＣ、ＥＸＥＣおよび
ＷＲＩＴＥＢＡＣＫ０、１の古い値を保持する。ＰＣ
０、ＰＣ１およびＰＣ２は、パイプラインを再始動させ
るために割込リターンの際に用いられ、リオーダバッフ
ァ２４０内のリタイア論理２４２内に含まれる。ＰＣ１
は現在のリタイアＰＣをマッピングする。

【０１３３】通常の結果を有するエントリに出会えば、
結果オペランド（もしあれば）がエントリにおいて特定
されたレジスタファイル（ＲＦ）２３５の位置に書込ま
れる。ＲＦ書込ポート（ＷＲ）は２つあるので、２つの
オペランドが同時にレジスタファイルに格納され得る。
ＲＯＢ２４０は、さらに１つのストアおよび１つの分岐
を用済とすることができ、最大で４つの命令を１マイク
ロプロセッササイクルについて用済とできる。

【０１３４】ＣＰＳビットおよびＦＰＳスティッキービ
ット等の他の状態は、この時点で更新され得る。ＣＰＳ
は現在のプロセッサ状態を指し、ＣＰＳはプログラム状
態および条件コードレジスタを示す。ＦＰＳは浮動小数
点状態レジスタビットを指す。ＦＰＳは、浮動小数点機
能ユニット５２５のための状態／条件コードレジスタを
示す。ＦＰＳスティッキービットとは、セット条件によ
ってセットされ、クリア条件でクリアされないビットの
ことである。ＦＰＳスティッキービットは、浮動小数点
数の丸め制御のために用いられる。たとえば、マイクロ
プロセッサ５００が値を減算するか、またはシフトすれ
ば、いくつかの最下位ビット（ＬＳＢ）が仮数部からシ
フトされる。ＦＰＳスティッキービットは、この条件が
起こったという指示を与える。

【０１３５】その結果がまだ戻されていないＲＯＢ２４
０内のエントリは、結果が戻ってくるまでそれ以上の処
理を停止させる。そのエントリを越えるものは、たとえ
有効であっても用済とはされない。ストア結果に出会え
ば、ＲＯＢ２４０は、実際にストアを行なって命令を用
済とするようにロード／ストアセクションにゴーアヘッ
ド指示を与える。ロードミス結果に出会えば、ＲＯＢ２
４０はロードを実行するようにゴーアヘッド指示を与え
る。ロードが完了すると、要求されたロードオペランド
はＲＯＢ２４０にロードヒット状態とともに戻され、こ
れが命令を用済とすることを可能にし、そのオペランド
を待っている何らかの待合わせステーションによって認
められる。分岐結果に出会えば、ＲＯＢ２４０はこれを
用いてＰＣ１を更新する。

【０１３６】マイクロプロセッサのアーキテクチャ状態
は、プログラム内のリタイアＰＣの現在の状態である。
マイクロプロセッサの推論状態は、ＦＥＴＣＨＰＣの現
在の値、デコーダおよびリオーダバッファ内のエントリ
のすべてである。これらは、ダイナミックに更新される
現在の命令の推論キューである。例外または誤予測の際
に、すべての推論状態はクリアされ得るが、アーキテク
チャ状態は、これがレジスタファイルの現在の状態なの
で、クリアされ得ない。

【０１３７】誤予測分岐遅延スロットを越える命令は、
誤予測が明らかとなる前に実行され得ることを先に述べ
た。この発生は、ＲＯＢ２４０によって区別される。誤
予測が検出されると、いかなる未発行の命令もクリアさ
れ、フェッチャ２５７が再び指示される。どの機能ユニ
ットも誤予測を知らされない（しかしながら分岐ユニッ
ト５２０はその待合わせステーション５５０内の何らか
の有効エントリにおける「キャンセル」ビットをセット
し、そのためこれらの分岐は害を受けずに実行され、誤
予測を起こすことなくＲＯＢ２４０に戻される）。

【０１３８】このような誤予測が起こると、ＲＯＢ内の
対応するエントリは誤予測されたものとして割当てられ
る。後続のエントリが機能ユニットから転送されると
き、これらは完了されているが誤予測されたものとして
マークされる。リオーダバッファ２４０内のリタイア論
理２４２は、これらのエントリを無視して、割当から外
す。

【０１３９】同時に、発生／非発生および正確／不正確
な予測を示す分岐結果状態がＲＯＢ２４０に戻される。
誤予測の結果は、ＲＯＢに、分岐エントリの後の２つ目
から（遅延スロットを考慮して）末尾ポインタまでのす
べてのエントリのキャンセルビットを直ちにセットさせ
る。この発生に続く第２のサイクルで、デコードがター
ゲット命令を発行し始め、これには通常通り末尾ポイン
タから始まってタグが割当てられる。キャンセルされた
エントリにＲＯＢリタイア論理２４２が出会えば、これ
らは破棄される。ロード／ストアユニット５３０は、Ｒ
ＯＢ２４０とロード／ストアセクションＬＳＳＥＣ５３
０との間のＬＳＣＡＮＣＥＬラインを介して伝送される
ＬＳＣＡＮＣＥＬ信号によってＲＯＢからゴーアヘッド
で、待っている何らかのキャンセルを知らされる。ＬＳ
ＣＡＮＣＥＬ信号は、キャンセルされるべきアクセスバ
ッファ６０５内の何らかの未処理のストアまたはロード
ミスを示す。アクセスバッファ６０５はＦＩＦＯとして
動作して、次に古いストアはキャンセルされる命令であ
る。ロード／ストアセクションＬＳＳＥＣ５３０および
アクセスバッファ（ストアバッファ）６０５として用い
てもよいロード／ストアセクションおよびアクセスバッ
ファの１つに関してのさらなる詳細は、「高性能ロード
／ストア機能ユニットおよびデータキャッシュ」と題さ
れる同時係属中の米国特許出願連続番号第１４６，３７
６号に記載され、その開示はここに引用によって援用さ
れる。

【０１４０】ある特定の命令の実行の際に例外が起これ
ば、どのグローバルアクションも要求されない。例外状
態は単に、ＲＯＢ２４０に戻される結果状態に反映され
る。適切なトラップベクトル数が、一般に通常の結果オ
ペランドの代わりに戻される（これはＲＦ更新が禁じら
れないときを除き、この場合にはＲＯＢはベクトル数を
発生する）。トラップベクトル数とは、様々な種類のベ
クトルのうちのどれが起こったか、および特定のトラッ
プの発生の際にどこに行くべきかを示す数である。トラ
ップの発生となる典型的な例は、０での除算、算術的オ
ーバーフロー、およびＴＬＢページの欠如がある。ＲＯ
Ｂ２４０が命令を用済とする処理の際に例外状態に出会
えば、これは、ＲＯＢ２４０からのすべてのエントリを
クリアし、すべての機能ユニットにＥＸＣＥＰＴＩＯＮ
信号をアサートしてこれら（およびＩＤＥＣＯＤＥ）を
クリアし、Ｖｆビットについてトラップベクトルを発生
し、フェッチャ２５７に処理コードをトラップするよう
に再び指示を与えることからなるトラップ動作を始め
る。Ｖｆビットは、トラップが外部フェッチとして（ベ
クトルテーブルからのロードとして）発生すべきか、ま
たは定数をベクトル数と連結させて内部的に発生される
べきかを示す。Ｖｆビットは、アドバンスト・マイクロ
・ディバイシズ・インコーポレイテッドのＡｍ２９００
０マイクロプロセッサシリーズのアーキテクチャの特徴
である。

【０１４１】レジスタファイル２３５内にストアされた
データは、マイクロプロセッサの現在の実行状態を表わ
すことがわかる。しかしながら、ＲＯＢ２４０にストア
されたデータは、マイクロプロセッサの予測実行状態を
表わす。命令が用済とされるべきとき、ＲＯＢ２４０に
ストアされた対応する結果が、レジスタファイル２３５
に送られ、それから用済とされる。

【０１４２】［ＩＩＩ（Ｅ）命令フロータイミング］
命令フローのタイミングに関して、スーパースカラマイ
クロプロセッサ５００の動作を説明するために、以下の
表２が与えられる。表２は、マイクロプロセッサ５００
のパイプラインステージと、これらの各ステージの間に
起こる重要な事象とを示す。パイプラインの段階は、表
２の第１の列に挙げられる。

【０１４３】

【表２】

【０１４４】表２は、機能停止のない、マイクロプロセ
ッサ５００における基本的な整数命令の流れにおいて各
相（各マイクロプロセッササイクルのＰＨ１およびＰＨ
２）で何が起こるかと分岐訂正タイミング（かっこ内）
を示す。

【０１４５】［ＩＩＩ（Ｆ）メモリ管理ユニット、デ
ータキャッシュおよびバスインタフェースユニット］メ
モリ管理ユニット（ＭＭＵ）２４７は、本質的には、ア
ドバンスト・マイクロ・ディバイシズ・インコーポレイ
テッドによって製造されるＡＭ２９０５０マイクロプロ
セッサのものと同じである。ＭＭＵ２４７は、命令フェ
ッチおよびデータアクセスのために仮想アドレスを物理
アドレスに変換する。ＡＭ２９０５０とマイクロプロセ
ッサ５００との命令フェッチに関しての違いは、ＡＭ２
９０５０では、分岐先キャッシュＢＴＣへの参照の際に
ＭＭＵが調べられるが、一方、マイクロプロセッサ５０
０は分岐先キャッシュを用いず、ＢＴＣ参照のためにＭ
ＭＵを調べない。分岐先キャッシュは、分岐先のみのキ
ャッシュである。分岐先キャッシュは、アドバンスト・
マイクロ・ディバイシズ・インコーポレイテッドが製造
するＡｍ２９０５０マイクロプロセッサのスカラパイプ
ラインの一部を形成する。ＢＴＣは、１クロックサイク
ルにつき１度命令をフェッチする。

【０１４６】命令フェッチアドレス変換のためのＭＭＵ
２４７の必要をさらになくすために、ＩＣＡＣＨＥ２０
５は、キャッシュミスの際にＩＣＡＣＨＥが参照する１
エントリ高速変換バッファ（ＴＬＢ）６１５を含む。Ｔ
ＬＢは、１エントリＴＬＢでヒットしない変換が必要な
ときにリフィルされる。したがって、ＴＬＢ６１５は、
ＭＭＵからの必要に応じてリフィルされる。ＭＭＵ２４
７はＩＣＡＣＨＥ２０５と密に結合されるわけではない
ので、これはリフィル時間を短縮し、ＭＭＵに対する負
荷を減じる。

【０１４７】データキャッシュ２４５は、物理アドレ
ス、２ウェイセットアソシアティブ８Ｋキャッシュとし
て構成される。この実施例では、４Ｋを下回るページサ
イズに関しては、アドレス変換がまず行なわれる。この
要件は、１Ｋおよび２Ｋページサイズについて当てはま
り、ヒットしているロードの待ち時間を２サイクルに増
大する。しかしながら、キャッシュインデックスにおい
て不確かな１ビットを有する４Ｋページサイズは、キャ
ッシュを２つの４Ｋアレイに分割して扱われ、これによ
って２つの可能なブロックへのアクセスが可能になる。
４ウェイ比較が、正しいものを選択するためにＭＭＵか
らの２つの物理アドレスと２つのキャッシュタグとの間
で行なわれる。

【０１４８】データキャッシュ２４５は、コピーバック
／ライトスルーが混合された方法をとる。より具体的に
は、書込ミスはライトスルーとして行なわれ、割当はな
く、書込ヒットは、ロードによって前に割当てられたブ
ロックに対してのみ起こり、キャッシュコヒーレンシー
に依存してライトスルーを起こし得る。マイクロプロセ
ッサ５００は、マルチプロセッサシステムおよびＭＯＥ
ＳＩ−モディファイド・オーンド・エクスクルーシブ・
シェアード・インバリッド（フューチャーバス）プロト
コルを用いるキャッシュ可能メモリの効率的なＩ／Ｏの
ためにデータキャッシュコヒーレンシーをサポートす
る。ＭＯＥＳＩプロトコルは、特定のキャッシュブロッ
クの５つの状態のうちの１つを示す。図３ないし図５の
マイクロプロセッサ５００がＭＯＥＳＩプロトコルを用
いるのに対して、後述の図１０および１１に示されるマ
イクロプロセッサは類似したＭＥＳＩプロトコルを用い
る。

【０１４９】バスインタフェースユニット（ＢＩＵ）２
６０は、アドバンスト・マイクロ・ディバイシズ・イン
コーポレイテッドが製造するＡＭＤ２９０３０マイクロ
プロセッサと同じ外部インタフェースを用いる。さら
に、ＢＩＵ２６０は、アドレス、命令、およびデータの
ために単一の内部３２ビットバス、すなわち内部アドレ
スデータ（ＩＡＤ）バス２５０を用いる。

【０１５０】この特定の実施例では、外部メモリとも称
される主メモリ２５５は、Ｉ／Ｏとデータ／命令とのみ
を区別する単一の平らなスペースである。示される特定
の実施例では、メモリ２５５はリードオンリーメモリ
（ＲＯＭ）を含まず、命令とデータとの区別を行なわな
い。他のタイプの外部メモリの構成を、主メモリ２５５
として用いてもよい。

【０１５１】図３ないし図５に示されるように、ＢＩＵ
２６０、ＩＣＡＣＨＥ２０５、ＤＣＡＣＨＥ２４５、Ｍ
ＭＵ２４７およびＳＲＢＳＥＣ５１２は、すべて３２ビ
ットＩＡＤバス２５０によって結合される。ＩＡＤバス
２５０は、キャッシュミスおよびコヒーレンシー動作の
際の外部アクセスのために、主にＢＩＵ２６０とキャッ
シュ（ＩＣＡＣＨＥ２０５、ＤＣＡＣＨＥ２４５）との
間の通信のために用いられる。ＩＡＤバス２５０は、ア
ドレスとデータの両方を扱う。これはスタティックバス
であり、ＰＨ１の間はＢＩＵ２６０が駆動し、ＰＨ２の
間は他のすべてのユニットが駆動する。ＩＡＤバス２５
０に対するいかなるリクエストも、図７に示されるバス
調停ブロックによって与えられるバス調停および許可を
通らなくてはならない。スペースを節約するために、バ
ス調停ブロック７００は、図３ないし図５のマイクロプ
ロセッサ５００のブロック図には図示しない。

【０１５２】ＩＡＤバスの調停は、調停動作の中で第１
の優先順位を得るバス観察（キャッシュコヒーレンシー
に関して）を含む。ＩＡＤバスに対するリクエストは、
ＰＨ１の早くに行なわれ、ＰＨ１の非常に遅くに応答さ
れる。機能ユニットがＰＨ１でＩＡＤバスを許可される
と、後続のＰＨ２の間にアドレスをＩＡＤバスに送り、
ＢＩＵによるある動作（たとえば命令フェッチ、ロー
ド）をリクエストし得る。

【０１５３】ＩＡＤバス２５０は、外部バスおよびマイ
クロプロセッサ５００内のすべての主要なアレイを互い
に連結する、比較的低周波数のアドレス、データおよび
制御バスである。ＩＡＤバス２５０は、マッピングアレ
イへの特殊レジスタ更新、ＭＭＵ変換、キャッシュリフ
ィル、バス観察等の比較的低周波数の動作の転送を与え
る。本発明の一実施例では、ＩＡＤバス２５０は、それ
にアドレスおよびデータがマルチプレクスされる３２ビ
ットを含む。ＩＡＤバス２５０はまた、１２の制御ライ
ン、すなわちＩＣＡＣＨＥ、ＤＣＡＣＨＥ、ＴＬＢ、Ｓ
ＲＢＳＥＣ、ＬＳＳＥＣおよびＢＩＵの各ブロックにつ
いての、それに結合される読出制御ラインおよび書込制
御ラインを含む。

【０１５４】図７に示されるＩＡＤ調停ブロック７００
は、どの構成要素（ＩＣＡＣＨＥ２０５、ＢＩＵ２６
０、ＢＲＮＳＥＣ５２０、ＤＣＡＣＨＥ２４５、ＳＲＢ
ＳＥＣ５１２またはＭＭＵ２４７）がある特定の時間に
ＩＡＤバス２５０に対してアクセスを許可されるかを決
定するために、リクエスト／許可プロトコルを用いる。
ＢＩＵ２６０を介して外部メモリ２５５が、バス観察の
目的のために最高の優先順位を許可される。バス観察
は、マイクロプロセッサ５００のためのデータ一致プロ
トコルの一部である。マイクロプロセッサ５００は、デ
ータキャッシュ内に局所的に保持される変更されたデー
タを含み得るので、このようなデータは、メモリへの書
込が起こるときに更新される。マイクロプロセッサ５０
０はまた、データキャッシュ内に局所的に保持される変
更されたブロックへの読出が起こると、変更されたデー
タを与える。バス観察を備えたコピーバック機構が、マ
イクロプロセッサ５００のキャッシュ動作において用い
られる。

【０１５５】図７に示されるように、ＩＡＤ調停ブロッ
ク７００とＩＡＣＨＥ２０５、ＢＩＵ２６０、ＢＲＮＳ
ＥＣ５２０、ＤＣＡＣＨＥ２４５、ＳＲＢＳＥＣ５１２
またはＭＭＵ２４７の各々との間に、それぞれのリクエ
ストラインが結合される。これらのリクエストラインの
各々は制御論理７０５に結合され、その出力はドライバ
７１０に結合される。ＩＡＤ調停ブロック７００は、Ｉ
ＣＡＣＨＥ２０５、ＢＩＵ２６０、ＢＲＮＳＥＣ５２
０、ＤＣＡＣＨＥ２４５、ＳＲＢＳＥＣ５１２またはＭ
ＭＵ２４７のためのそれぞれの許可ラインを含む。特定
の構成要素がＩＡＤバス２５０へのアクセスを求める
と、その構成要素はＩＡＤ調停ブロック７００と制御７
０５とにリクエスト信号を送る。たとえば、ＢＩＵがメ
モリアクセスを行なうためにＩＡＤバス２５０へのアク
セスを得たいと仮定する。この場合、ＢＩＵ２６０は、
ＩＡＤ調停ブロック７００および制御７０５にＩＡＤバ
スアクセスリクエストを送る。ＩＡＤ調停ブロック７０
０は、ＩＡＤバス２５０に対するアクセスのリクエスト
が同時に複数存在するとき、リクエストの優先順位を決
定する。調停ブロック７００は、優先順位の方式に従っ
てそれがＩＡＤバスへのアクセスを許可されるべきだと
決定した特定の装置の許可ラインに許可を投入する。こ
の例では、許可信号はＢＩＵ許可ラインに投入され、Ｂ
ＩＵ２６０はＩＡＤバス２５０へのアクセスを進める。

【０１５６】制御回路７０５の出力はＩＡＤバス２５０
に結合される。以下の構成要素ＩＣＡＣＨＥ２０５、Ｂ
ＩＵ２６０、ＢＲＮＳＥＣ５２０、ＳＲＢＳＥＣ５１
２、ＤＣＡＣＨＥ２４５およびＭＭＵ２４７の各々に
は、このような構成要素がＩＡＤバス２５０を駆動する
のを可能にするドライバ回路７１０が備えられる。これ
らの構成要素の各々にはさらに、これらの構成要素がＩ
ＡＤバス２５０からの値をラッチするのを可能にするラ
ッチ７１５が備えられる。制御回路７０５は、ＩＡＤバ
スのためのリクエスト許可プロトコルを与える。機能ユ
ニットは局所的に、ＩＡＤバスへのアクセスが求められ
ていることを認め、調停ブロック７００にリクエストを
送る。調停ブロック７００は最も優先順位の高いリクエ
ストを受取り、それにしたがってアクセスを許可する。
ラッチ７１５は、そのブロックに転送が起こっていれ
ば、リクエストされたデータの読出を示す。ドライバ７
１０は、局所的に利用可能な値の駆動を示し、別のブロ
ックがそれを読出す他の何らかの位置を駆動する。ＩＡ
Ｄバス２５０へのアクセスを得るためにこのバス調停を
通るとある待ち時間が加わるが、それでも許容可能な性
能を与えることが見いだされた。マイクロプロセッサ５
００にＩＡＤバス２５０を設けることは、ＩＡＤバスに
接続される上述のセクションすべての間に専用の経路を
設けることよりもコスト効率がはるかに良い。

【０１５７】図８は、マイクロプロセッサ５００のパイ
プラインの複数の段階を通してのその選択された信号の
状態を示すタイミング図である。図８は、逐次的処理の
ためのこのようなパイプラインを示す。対照的に、図９
のタイミング図は、マイクロプロセッサ５００の同様の
タイミング図ではあるが、図９のタイミング図は分岐誤
予測および回復が起こる場合のものである。

【０１５８】より具体的には、図８および図９は、フェ
ッチ、デコード、実行、結果／ＲＯＢ（結果転送−結果
がＲＯＢに転送される）、用尽／レジスタファイル（ラ
イトバック−オペランドがＲＯＢからレジスタファイル
に格納される）の５つの実効パイプライン段階を通して
のマイクロプロセッサ５００の動作を示す。マイクロプ
ロセッサパイプラインの５段階は、これらのタイミング
図の上部に横方向に挙げられる。これらのタイミング図
を構成する信号は、図の左に縦方向に挙げられ、以下の
とおりである。Ｐｈ１信号は、マイクロプロセッサ５０
０のクロック信号である。ＦＰＣ（３１：０）はフェッ
チＰＣバス（ＦＰＣ）である。ＩＲ０−３（３１：０）
は命令バスを表わす。タイミング図はまた、ＲＯＢ内の
特定のデコード命令が必要とする特定のオペランドを示
すソースＡ／Ｂポインタを示す。タイミング図はまた、
レジスタファイル／ＲＯＢアクセスを示すＲＥＧＦ／Ｒ
ＯＢアクセスを含む。Issue instr/dest tags 信号は、
命令／行先タグの投入を示す。A/B read operand buses
信号は、ＡおよびＢオペランドバスを介してのＡおよび
Ｂオペランドの転送を示す。Funct unit exec.信号は、
機能ユニットでの投入された命令の実行を示す。Result
bus arb信号は、結果バスに対する調停を示す。Result
bus forward信号は、機能ユニットによって結果が発生
された後の果バスを介しての結果の転送を示す。ROB wr
ite result信号は、結果がＲＯＢに書込まれることを示
す。ROB tag forward 信号は、ＲＯＢから機能ユニット
へのオペランドタグの転送を示す。REGF write/retire
信号は、ＲＯＢからレジスタファイルへの結果の格納を
示す。ＰＣ（３１：０）信号は、命令がもう推論的なも
のではないとして用済とされると必ず更新されるプログ
ラムカウンタ（ＰＣ）を示す。

【０１５９】図８のタイミング図では、パイプラインは
逐次的な命令ストリームの実行に関して示される。この
例では、予測実行経路が実際にとられ、キャッシュから
直接利用可能である。簡単に言えば、フェッチパイプラ
イン段階において、命令はマイクロプロセッサによる処
理のためにキャッシュからフェッチされる。命令はデコ
ードパイプライン段階でデコードされて、実行パイプラ
イン段階で実行される。ソースオペランドバスおよび結
果バスは、整数のサイズに対応する３２ビットの幅であ
ることがわかる。命令バスオペランドバスが倍精度浮動
小数点演算のために６４ビット値を駆動するには２サイ
クルが必要である。

【０１６０】結果パイプライン段階では、オペランド値
が、結果を発生した機能ユニットから実行のために他の
機能ユニットに直接転送される。結果段階のクロック相
ＰＨ１において、推論命令の位置に、何らかの状態とと
もに行先結果が書込まれる。言い換えれば、機能ユニッ
トによって発生された結果はリオーダバッファ内のエン
トリに置かれ、このエントリは、割当てられているとと
もに有効であるという指示を与えられる。この態様で、
リオーダバッファは、ここでは、要求されたオペランド
に関してオペランドタグではなくオペランドデータを直
接転送することができる。結果パイプライン段階のクロ
ック相ＰＨ２において、新しく割当てられたタグが、タ
グがそのソースオペランドの１つであることを必要とす
る後続の命令によって検出される。これは図８のタイミ
ング図において、図８の矢印に示されるようにソースＡ
／ＢオペランドバスへのＲＯＢタグ転送を介した結果
「ｃ」の直接転送で示される。図８において、「ａ」お
よび「ｂ」は結果「ｃ」をもたらすオペランドであり、
「ｃ」および「ｄ」は結果「ｅ」をもたらすオペランド
であることがわかる。

【０１６１】パイプラインの最後の段階である用尽パイ
プライン段階では、リアルプログラムカウンタ（ＰＣ）
またはリタイアＰＣが保持される。用尽パイプライン段
階のＰＨ１クロック相において、動作の結果はリオーダ
バッファからレジスタファイルに書込まれ、リタイアＰ
Ｃはこのライトバックを反映するように更新される。言
い換えれば、リタイアＰＣは、もう推論的なものではな
いとしてレジスタファイルに格納されたばかりの命令を
含むように更新される。この命令のためのエントリまた
はリオーダバッファ内の結果は割当から外される。エン
トリが割当から外されるので、レジスタ「ｃ」の後続の
参照は、リオーダバッファからの推論的読出ではなく、
レジスタファイルからの読出となる。

【０１６２】図９は、図８のタイミング図と同じ５パイ
プライン段階を示すが、図９のタイミング図は、分岐誤
予測が起こるときのマイクロプロセッサ５００の動作を
示す。ＸＦＰＣは、ＦＰＣバス信号の反転を示す。

【０１６３】ＩＶ．スーパースカラマイクロプロセッサ
の代替実施例上述のスーパースカラマイクロプロセッサの実施例は、
命令ｏｐコードがすべて同じサイズであるＲＩＳＣプロ
グラムを処理するのに最も有利に用いられるが、マイク
ロプロセッサ８００としてこれから説明するマイクロプ
ロセッサの実施例は、ｏｐコードのサイズが可変である
命令の処理が可能である。たとえば、マイクロプロセッ
サ８００は、可変長ｏｐコードを用いるよく知られたイ
ンテル（Intel ）（登録商標）命令セットによって用い
られる、いわゆるＸ８６命令を処理することができる。
マイクロプロセッサ８００は、上述のマイクロプロセッ
サ５００のＲＩＳＣコアに類似したＲＩＳＣコアを用い
る。「ＲＩＳＣコア」という用語は、マイクロプロセッ
サ５００の機能ユニット、リオーダバッファ、レジスタ
ファイルおよび命令デコーダを含む、本質的にＲＩＳＣ
（縮小命令セットコンピュータ）のアーキテクチャであ
るマイクロプロセッサ５００の中核を指す。

【０１６４】マイクロプロセッサ８００のアーキテクチ
ャは、インテルＸ８６命令セットに見られるようないわ
ゆるＣＩＳＣ（完全命令セットコンピュータ）命令を取
込み、これらの命令をＲＩＳＣ類似命令（ＲＯＰ）に変
換することができ、これらがＲＩＳＣコアによって処理
される。この変換プロセスは、図１０および１１に示さ
れるマイクロプロセッサ８００のデコーダ８０５で起こ
る。デコーダ８０５はＣＩＳＣ命令をデコードし、ＣＩ
ＳＣ命令をＲＯＰに変換し、ＲＯＰを実行のために機能
ユニットに発行する。デコーダ８０５の動作および構造
についてのさらなる詳細は、本譲受人に譲受された「ス
ーパースカラ命令デコーダ」（“Superscalar Instruci
on Decoder”）と題される同時係属中の米国特許出願連
続番号第１４６，３８３号から見いだされ、その開示は
ここに引用によって援用される。

【０１６５】マイクロプロセッサがそのＲＩＳＣコアに
１サイクルにつき多数の命令を供給する能力は、このス
ーパースカラマイクロプロセッサによって提供される著
しい性能の向上の理由の１つである。命令キャッシュ
（ＩＣＡＣＨＥ）８１０は、バイトのキューまたはバイ
トキュー（バイトＱ）８１５としてこの命令供給を行な
う、マイクロプロセッサ８００の構成要素である。本発
明のこの特定の実施例では、命令キャッシュ８１０は１
６Ｋバイト実効４ウェイセットアソシアティブ線形アド
レス命令キャッシュである。

【０１６６】図１０および１１に示されるように、命令
キャッシュ８１０のバイトＱ８１５は、命令デコーダ８
０５に供給される。命令デコーダ８０５は、それに与え
られる各命令を１つ以上のＲＯＰにマッピングする。デ
コーダ８０５のＲＯＰ発行ウィンドウ８２０は、ＩＣＡ
ＣＨＥ８１０からの命令がそれにマッピングされ得る４
つの発行位置を含む。４つの発行位置は、Ｄ０、Ｄ１、
Ｄ２、およびＤ３として示される。第１の例では、デコ
ーダ８０５にバイトＱ８１５によって与えられる命令
は、２つのＲＯＰ発行位置にマッピングされ得る命令で
あると仮定する。この場合、この第１の命令がデコーダ
８０５に与えられると、デコーダ８０５は命令を発行位
置Ｄ０に与えられる第１のＲＯＰと、発行位置Ｄ１に与
えられる第２のＲＯＰとにマッピングする。後続の第２
の命令が３つのＲＯＰ位置にマッピング可能であると仮
定する。この第２の命令がデコーダ８０５にバイトＱ８
１５によって与えられると、命令は発行位置Ｄ２に与え
られる第３のＲＯＰと、発行位置Ｄ３に与えられる第４
のＲＯＰとにマッピングされる。発行位置Ｄ０ないしＤ
３にあるＲＯＰは機能ユニットに発行される。第２の命
令がマッピングされる、残っている第３のＲＯＰは、こ
のようなＲＯＰが発行され得る前に次の発行ウィンドウ
が処理されるのを待たなくてはならないことがわかる。

【０１６７】命令キャッシュ８１０がどの特定のバイト
をバイトＱ８１５に送るかに関する情報は、命令キャッ
シュ８１０の入力である分岐予測ブロック８２５に含ま
れる。分岐予測ブロック８２５は、ブロック単位で次に
予測された分岐位置を示す次ブロックアレイである。分
岐予測機能ユニット８３５は、図３ないし図５に示され
るマイクロプロセッサ５００のＢＲＮＳＥＣ５２０と類
似した態様で、分岐を実行する。命令キャッシュ８１０
にはまた、外部メモリからリクエストされた命令キャッ
シュミスをフェッチするプリフェッチャブロック８３０
が備えられる。

【０１６８】マイクロプロセッサ８００は、デコーダ８
０５の４つのＲＯＰ位置がそれに投入され得る４つの整
数機能ユニット、すなわち分岐機能ユニット８３５、Ａ
ＬＵ０／シフタ機能ユニット８４０、ＡＬＵ１機能ユニ
ット８４５、および特殊レジスタ機能ユニット８５０を
含む。分岐機能ユニット８３５は、１クロックサイクル
につき１つの新しいＲＯＰが分岐機能ユニット８３５に
よって受入れられるように、１サイクルの待ち時間を有
する。分岐ユニット８３５は２エントリ待合わせステー
ション８３５Ｒを含む。本明細書の目的のため、２エン
トリを含む待合わせステーションは、２つの待合わせス
テーションと同じであると考えられる。分岐機能ユニッ
ト８３５は、すべてのＸ８６分岐、コールおよびリター
ン命令を扱う。これはまた条件付分岐ルーチンを扱う。

【０１６９】ＡＬＵ０／シフタ機能ユニット８４０は、
１サイクルの待ち時間を示す。１クロックサイクルにつ
き１つの新しいＲＯＰがユニット８４０に受入れられ
る。ＡＬＵ０／シフタ機能ユニット８４０は、２つまで
の推論ＲＯＰを保持する２エントリ待合わせステーショ
ン８４０Ｒを含む。すべてのＸ８６算術および論理計算
は、この機能ユニットまたはその代わりに他方の算術論
理装置ＡＬＵ１８４５に渡る。さらに、シフトローテ
ートまたはファインドファーストワンのような命令は、
ＡＬＵ０／シフタ機能ユニット８４０に与えられる。

【０１７０】ＡＬＵ１機能ユニット８４５もまた、１サ
イクルの待ち時間を示す。１クロックサイクルにつき１
の新しいＲＯＰがＡＬＵ１機能ユニット８４５によって
受入れられることがわかる。ＡＬＵ１機能ユニットは、
２つまでの推論ＲＯＰを保持する２エントリ待合わせス
テーション８４５Ｒを含む。すべてのＸ８６算術および
論理計算は、この機能ユニットかまたは他方の算術論理
装置ＡＬＵ０に渡る。ＡＬＵ０およびＡＬＵ１は、１サ
イクルにつき２つまでの整数結果演算を計算することを
可能にする。

【０１７１】特殊レジスタ機能ユニット８５０は、Ｘ８
６レジスタファイル８５５の外にある内部制御、ステー
タスおよびマッピング状態を扱うための特殊ブロックで
ある。本発明の一実施例では、特殊レジスタ機能ユニッ
ト８５０は、ＲＯＰが特殊レジスタ機能ユニット８５０
に投入されるときに未処理である推論状態がないので、
待合わせステーションを持たない。特殊レジスタブロッ
ク８５０は、その構造および機能の点で、上述の特殊レ
ジスタブロック５１２と類似している。

【０１７２】ロード／ストア機能ユニット８６０および
浮動小数点機能ユニット８６５は、デコーダ８０５のＲ
ＯＰ発行ウィンドウ８２０に結合される。ロード／スト
ア機能ユニット８６０は、複数エントリ待合わせステー
ション８６０Ｒを含む。浮動小数点機能ユニット８６５
は２つの待合わせステーション８６５Ｒを含む。データ
キャッシュ８７０が、データのストアおよびそのための
検索を与えるために、ロード／ストア機能ユニット８６
０に結合される。浮動小数点機能ユニット８６５は、４
１ビット整数／浮動小数点演算混在バス８７５および結
果バス８８０に連結される。より詳細には、オペランド
バス８７５は、４１ビット幅を示す８つの読出オペラン
ドバスを含む。結果バス８８０は、４１ビット幅を示す
５つの結果バスを含む。浮動小数点ユニットの整数／浮
動小数点混在オペランドおよび結果バスへの連結によっ
て、推論整数および浮動小数点ＲＯＰの両方のために、
１つのレジスタファイル８５５および１つのリオーダバ
ッファ８８５を用いることが可能になる。２つのＲＯＰ
は８０ビット拡張精度演算を形成し、これは浮動小数点
待合わせステーション８６５Ｒから浮動小数点機能８６
５内の８０ビット浮動小数点コアに入力される。

【０１７３】浮動小数点機能ユニット８６５の８０ビッ
ト浮動小数点コアは、浮動小数点加算器、浮動小数点乗
算器、および浮動小数点除算／平方根機能ユニットを含
む。浮動小数点ユニット８６５内の浮動小数点加算器機
能ユニットは、２サイクルの待ち時間を示す。浮動小数
点加算器は、８０ビットの拡張結果を計算し、これが転
送される。浮動小数点乗算器は、拡張精度乗算演算のた
めに６サイクルの待ち時間を示す。３２Ｘ３２乗算器
が、単精度乗算演算のために用いられる。浮動小数点機
能ユニット８６５内の３２Ｘ３２乗算器は、拡張精度を
必要とする６４ビット仮数演算のためにマルチサイクル
化される。浮動小数点除算／平方根機能ユニットは、６
４ビット仮数を２ビット／クロックで計算するために基
数−４対話型除算を用いる。

【０１７４】Ａ／Ｂオペランドバスのバス幅が４１ビッ
トであるこの実施例では、整数ユニットに延びるＡ／Ｂ
オペランドバスに関して、３２ビットがオペランド専用
であり、残りの９ビットが制御情報専用であることが認
められる。Ａ／Ｂオペランドバスのバス幅が４１ビット
ではなく、３２ビットまたは他のサイズである、本発明
の他の実施例も企図されることに注目されたい。このよ
うな３２ビットオペランドバス幅の構成では、オペラン
ドバスから分離される制御ラインが、制御情報の伝送の
ために用いられる。

【０１７５】ロードストア機能ユニット８６０は、４エ
ントリ待合わせステーション８６０Ｒを含む。ロードス
トア機能ユニット８６０は、２つのロードまたはストア
動作が１サイクルについて投入されることを可能にす
る。ロードストアセクションはまた、線形アドレスを計
算し、メモリのリクエストされたセグメントへのアクセ
ス権をチェックする。データキャッシュ８７０内のヒッ
ト／ミスのチェックに関してのロードまたはストア動作
の待ち時間は１サイクルである。２つまでのロード動作
が、同時にデータキャッシュ８７０にアクセスし、その
動作を結果バス８８０に送ることができる。ロードスト
アセクション８６０は、整数および浮動小数点ロードお
よびストア動作の両方を扱う。

【０１７６】図１０および１１に示されるように、マイ
クロプロセッサ８００は、リオーダバッファ８８５に結
合されるレジスタファイル８５５を含む。レジスタファ
イル８５５およびリオーダバッファ８８５の両方が、オ
ペランド振分回路８９０を介してオペランドバス８７５
に結合される。レジスタファイル８５５、リオーダバッ
ファ８８５およびオペランド振分回路８９０は協働し
て、オペランドを機能ユニットに与える。結果が機能ユ
ニットから得られると、これらの結果はリオーダバッフ
ァ８８５に送られ、その中のエントリとしてストアされ
る。

【０１７７】より詳細には、レジスタファイル８５５お
よびリオーダバッファ８８５は、プログラム実行の間の
オペランドのためのストアを与える。レジスタファイル
８５５は、整数および浮動小数点命令の両方のためのマ
ッピングされたＸ８６レジスタを含む。レジスタファイ
ルは、中間計算を保持するための、ならびに整数および
浮動小数点の一時レジスタを含む。本発明のこの特定の
実施例では、レジスタファイル８５５内のすべてのレジ
スタは、８つの読出および４つの書込ラッチとして実現
される。このように設けられた４つの書込ポートによっ
て、１クロックについて２つまでのレジスタファイル行
先が書込まれることを可能にする。これは、１ポートに
ついて１つの整数値であるか、またはレジスタファイル
に浮動小数点結果が書込まれている場合には、１ポート
につき浮動小数点値の半分であってもよい。８つの読出
ポートによって、２つのソース読出動作を伴う４つのＲ
ＯＰの各々が、１クロックサイクルについて投入される
ことが可能になる。

【０１７８】リオーダバッファ８８５は、１６までの推
論ＲＯＰのキューを保持する、１６エントリ環状ＦＩＦ
Ｏとして構成される。リオーダバッファ８８５はしたが
って、１６のエントリを割当てることができ、その各々
が整数結果または浮動小数点結果の半分を含むことがで
きる。リオーダバッファ８８５は、１クロックサイクル
につき４つのＲＯＰを割当てることができ、１クロック
サイクルにつき５までのＲＯＰを確立し、１クロックサ
イクルにつき４つまでのＲＯＰをレジスタファイル８５
５に格納することができる。マイクロプロセッサ８００
の現在の推論状態は、必要に応じて後続の転送のために
リオーダバッファ８８５内に保持される。リオーダバッ
ファ８８５はまた、各エントリについて各ＲＯＰの相対
順序を示す状態を維持する。リオーダバッファ８８５は
また、割込またはトラップルーチンによる処理のために
ミスしている分岐および例外をマークする。

【０１７９】リオーダバッファ８８５は、８つのオペラ
ンドでそれぞれ８つのオペランドバス８７５を駆動でき
る。リオーダバッファ８８５は、５つの結果バス８８０
を介して１サイクルにつき５つまでの結果を受取ること
ができる。オペランドバスは８つの４１ビット整数／浮
動小数点共通バスであることが認められる。８つのオペ
ランドバスは、デコーダ８０５のＲＯＰ発行ウィンドウ
８２０内の４つのＲＯＰ発行位置に対応する。４つのＲ
ＯＰ発行位置の各々は、ソースＡオペランドおよびソー
スＢオペランドを有することができる。このように形成
される４つのＡおよびＢ読出オペランド対の各々は、Ｒ
ＯＰ発行ウィンドウ８２０内の固定ＲＯＰおよびソース
読出位置専用である。

【０１８０】レジスタファイル８５５およびリオーダバ
ッファ８８５は、読出オペランドバス８７５を駆動する
マイクロプロセッサ８００内の装置である。デコードさ
れたＲＯＰに関して推論の行先がなければ、すなわちＲ
ＯＰによってリクエストされたオペランドがリオーダバ
ッファになければ、レジスタファイルがそのオペランド
を供給する。しかしながら、推論の行先が存在すれば、
すなわちデコードされたＲＯＰによってリクエストされ
たオペランドがリオーダバッファ内にあれば、そのオペ
ランドのためのリオーダバッファ内の最も新しいエント
リが、対応するレジスタの代わりに機能ユニットに送ら
れる。このリオーダバッファ結果値は、これがもしリオ
ーダバッファ内に存在すれば推論結果であるか、または
機能ユニット内でまだ完了されていない推論の行先に関
するリオーダバッファタグでもあり得る。

【０１８１】５つの結果バス８８０は４１ビットバスで
ある。読出オペランドおよび結果バスは、すべての整数
機能ユニットの入力および出力であることがわかる。こ
れらの同じ読出オペランドおよび結果バスはまた、浮動
小数点機能ユニット８６５の浮動小数点待合わせステー
ション８６５Ｒの入力および出力である。浮動小数点待
合わせステーション８６５Ｒは、４１ビットオペランド
および結果バスを、必要であればその構成する専用機能
ユニットに送る８０ビット拡張精度バスに変換する。

【０１８２】マイクロプロセッサ８００の整数および浮
動小数点機能ユニットには、これらのユニットの待合わ
せステーションを介してＲＯＰの局所バッファ処理が与
えられる。これらの機能ユニットのほとんどで、局所バ
ッファ処理は、ＦＩＦＯとして構成される２エントリ待
合わせステーションの形をとる。このような待合わせス
テーションの目的は、デコーダ８０５の発行論理が、機
能ユニットに推論ＲＯＰを、このような推論ＲＯＰのソ
ースオペランドが現在利用可能であるかどうかに関わら
ず、送ることを可能にすることである。本発明のこの実
施例では、したがって、長い計算またはロードが完了す
るのを待つことなく、多数の推論ＲＯＰ（１６まで）が
投入され得る。この態様で、はるかに高い命令レベルの
並列性が与えられ、マイクロプロセッサ８００は、その
ピーク性能に近く動作することが可能になる。

【０１８３】待合わせステーションの各エントリは、２
つのソースオペランドまたはタグと、各エントリに関連
するｏｐコードおよび行先に関しての情報を保持するこ
とができる。待合わせステーションはまた、リオーダバ
ッファが未処理であるとマークしたソースオペランド結
果（リオーダバッファがオペランド自体ではなくオペラ
ンドタグを与えることによってそれについてマークした
オペランド）を、このような結果を待っている他の機能
ユニットに直接送ることができる。本発明のこの特定の
実施例では、機能ユニットの待合わせステーションは、
典型的には１クロックサイクルにつき新しいエントリを
１つ受入れ、１サイクルにつき１つの新しいエントリを
機能ユニットに送ることができる。

【０１８４】これに対する例外は、その待合わせステー
ションから１クロックサイクルにつき２つのエントリを
受入れ、かつ用済とすることができるロード／ストアセ
クション８６０である。ロード／ストアセクション８６
０はまた、４つのエントリのより深い待合わせステーシ
ョンＦＩＦＯを有する。

【０１８５】すべての待合わせステーションのエントリ
は、例外が起こるようなことがあれば、１クロックサイ
クル以内に割当から外されることができる。分岐誤予測
が起こると、中間結果が機能ユニットから流し出され、
リオーダバッファからの割当から外される。

【０１８６】マイクロプロセッサ８００は、プリフェッ
チユニット８３０を介して命令キャッシュ８１０に、お
よびバスインタフェースユニット９００に結合される内
部アドレスデータバス８９５を含む。バスインタフェー
スユニット９００は、主メモリまたは外部メモリ（図示
せず）に結合され、そのためマイクロプロセッサ８００
には外部メモリアクセスが与えられる。ＩＡＤバス８９
５はまた、図１０および１１に示されるように、ロード
／ストア機能ユニット８６０に結合される。

【０１８７】データキャッシュ８７０は、ロード／スト
アユニット８６０に結合される。本発明のある特定的な
実施例では、データキャッシュ８７０は、８Ｋバイト、
線形アドレス、２ウェイセットアソシアティブ、デュア
ルアクセスキャッシュである。アドレスおよびデータラ
インは、図示されるようにデータキャッシュ８７０をロ
ード／ストア機能ユニット８６０に結合する。より具体
的には、データキャッシュ８７０は、キャッシュ８７０
とロード／ストアユニット８６０との間の２つの組のア
ドレスおよびデータ経路を含み、ロード／ストア機能ユ
ニット８６０からの２つの同時アクセスを可能にする。
これらの２つのアクセスは、１６バイトデータキャッシ
ュラインサイズに整列される、８ないし３２ビットロー
ドまたはストアアクセスであってもよい。データキャッ
シュ８７０は、１６バイトラインまたはブロックに構成
される。この特定的な実施例では、データキャッシュ８
７０は線形にアドレスされるか、またはセグメントベー
スのアドレスからアクセスされ、ページテーブルベース
の物理アドレスではない。データキャッシュ８７０は４
つのバンクを含み、これらは、データキャッシュ内の１
つのラインが４つのバンクの各々における４つのバイト
を有するように構成される。したがって、２つのアクセ
スのビット［３：２］の線形アドレスが同じでないかぎ
り、２つのアクセスは同時にキャッシュ８７０内のデー
タアレイにアクセスすることができる。

【０１８８】データキャッシュ８７０は、２ウェイアソ
シアティブである。これは、クロックの相ＰＨ１におい
て２つの線形アドレスをとり、その４つのバンクにアク
セスする。その結果としてのロード動作は、後続のクロ
ック相ＰＨ２で完了し、結果バスのうちの１つを駆動す
ることができる。機能ユニットによる結果バスのリクエ
ストは、結果をライトバックしようとする他の機能ユニ
ットからのリクエストと調停される。

【０１８９】命令キャッシュ８１０およびデータキャッ
シュ８７０は、それぞれの命令キャッシュ線形タグアレ
イおよびデータキャッシュ線形タグアレイを含み、これ
らのキャッシュにストアされたデータエントリおよび命
令のアドレスに対応する。図１０および１１に示される
ように、マイクロプロセッサ８００はまた、命令キャッ
シュ８１０およびデータキャッシュ８７０内のそれぞれ
命令およびデータの物理アドレスを追跡するためにＩＡ
Ｄバス８９５に結合される物理タグＩ／Ｄブロック９１
０を含む。より具体的には、物理タグＩ／Ｄブロック９
１０は、これらのキャッシュの物理アドレスを維持する
物理命令／データタグアレイを含む。ブロック９１０の
物理命令タグアレイは、命令キャッシュ８１０の対応す
る線形命令タグアレイに関する構成を反映する。同様
に、ブロック９１０内の物理データタグアレイの構成
は、命令キャッシュ８１０内の対応する線形データタグ
アレイの構成を反映する。

【０１９０】物理Ｉ／Ｄタグは、命令キャッシュタグで
あるかデータキャッシュタグであるかに依存して、有
効、共有、および変更ビットを有する。データキャッシ
ュ物理タグがセットされた変更ビットを有する場合に
は、これはリクエストされたデータエレメントが、線形
データキャッシュ内の等価な位置にあることを示す。マ
イクロプロセッサ８００は外部メモリへのバックオフサ
イクルを開始し、リクエストされた変更ブロックを、リ
クエストしている装置がそれを後で見ることができるメ
モリに書込む。

【０１９１】高速変換バッファ（ＴＬＢ９１５）が、図
示のようにＩＡＤバス８９５と物理タグＩ／Ｄブロック
９１０との間に結合される。ＴＬＢ９１５は、１２８の
線形−物理ページ変換アドレスおよび１２８までの４Ｋ
バイトページのためのページ権をストアする。この高速
変換バッファアレイは、ランダムな置換えを有する４ウ
ェイセットアソシアティブ構造として構成される。ＴＬ
Ｂ９１５は、Ｘ８６アーキテクチャのために規定される
線形−物理アドレス変換機構を扱う。この機構は、最も
最近の線形−物理アドレス変換のキャッシュを用いて、
有効な変換のために外部ページテーブルを探すのを防
ぐ。

【０１９２】バスインタフェースユニット９００は、Ｉ
ＡＤバス８９５をメモリ等の外部装置にインタフェース
させる。ＩＡＤバス８９５は、マイクロプロセッサ８０
０の様々な構成要素を接続するのに用いられるグローバ
ル６４ビット共有アドレス／データ／制御バスである。
ＩＡＤバス８９５は、キャッシュブロックリフィル、ラ
イトアウト変更ブロックのため、ならびに特殊レジスタ
ユニット８５０、ロード／ストア機能ユニット８６０、
データキャッシュ８７０、命令キャッシュ８１０、物理
Ｉ／Ｄタグブロック９１０、高速変換バッファ９１５、
およびバスインタフェースユニット９００等の機能ブロ
ックにデータおよび制御情報を渡すために用いられる。

【０１９３】Ｖ．代替実施例の動作概説ＣＩＳＣプログラムが実行されるとき、ＣＩＳＣプログ
ラムの命令およびデータが、これらの命令およびデータ
をストアするのに用いられた何らかの記憶媒体から主メ
モリにロードされる。一旦、バスインタフェースユニッ
ト９００に結合される主メモリにプログラムがロードさ
れると、命令はプログラム順にデコーダ８０５に、機能
ユニットによる発行および処理のためにフェッチされ
る。より具体的には、デコーダ８０５によって１度に４
つの命令がデコードされる。命令は、主メモリからバス
インタフェースユニット９００に、ＩＡＤバス８９５を
介して、プリフェッチユニット８３０を通り、命令キャ
ッシュ８１０に、そしてデコーダ８０５に流れる。命令
キャッシュ８１０は、デコーダ８０５によってデコード
されて発行されるべき命令の保管場所として機能する。
命令キャッシュ８１０は、分岐予測ユニット８３５と関
連して動作し、デコーダ８０５に、推論的に実行される
べき次の予測された命令ブロックである、４命令幅の命
令ブロックを与える。

【０１９４】より具体的には、命令キャッシュ８１０
は、主メモリからバスインタフェースユニット９００を
介してフェッチされた命令ブロックを含む、ＩＣＳＴＯ
ＲＥと示されるストアアレイを含む。ＩＣＡＣＨＥ８１
０は、１６バイトラインまたはブロックに構成される、
１６Ｋバイト実効線形アドレス命令キャッシュである。
各キャッシュラインまたはブロックは、１６のＸ８６バ
イトを含む。各ラインまたはブロックはまた、各バイト
について５ビットプリデコード状態を含む。ＩＣＡＣＨ
Ｅ８１０は、命令デコーダ８０５に次に予測されたＸ８
６命令バイトをフェッチする役目を果たす。

【０１９５】ＩＣＡＣＨＥ８１０は、ＦＥＴＣＨＰＣ
（ＦＰＣ）と示される推論プログラムカウンタを維持す
る。この推論プログラムカウンタＦＥＴＣＨＰＣは、キ
ャッシュ情報を維持する以下の３つの別個のランダムア
クセスメモリ（ＲＡＭ）アレイにアクセスするために用
いられる。より詳細には、キャッシュ情報を含む３つの
上述のＲＡＭアレイは、１）ストアアレイＩＣＳＴＯＲ
Ｅ内の対応するブロックに関するバイト有効ビットおよ
び線形タグを維持するアレイであるＩＣＴＡＧＶを含
む。キャッシュ内の各エントリは、１６バイト有効ビッ
トおよび２０ビット線形タグを含む。この特定の実施例
では、２５６のタグが用いられる。２）アレイＩＣＮＸ
ＴＢＬＫは、ストアアレイＩＣＳＴＯＲＥ内の対応する
ブロックに関する分岐予測情報を維持する。ＩＣＮＸＴ
ＢＬＫアレイは、各々が１６Ｋバイト実効Ｘ８６命令に
対応する、２５６エントリの４つの組に構成される。こ
の次ブロックアレイ内の各エントリは、シーケンシャル
ビット、最後に予測されたバイトおよびサクセッサイン
デックスから構成される。３）ＩＣＳＴＯＲＥアレイ
は、Ｘ８６命令バイトと５ビットのプリデコード状態と
を含む。プリデコード状態は、各バイトと関連し、特定
のバイトがマッピングされるＲＯＰの数を示す。このプ
リデコード情報は、命令のデコードを、これらがデコー
ダ８０５に与えられると速める。バイトキューまたはＩ
ＣＢＹＴＥＱ８１５は、プリフェッチユニット８３０に
よってＩＣＡＣＨＥ８１０に与えられる命令プリフェッ
チストリームの現在の推論状態を与える。ＩＣＡＣＨＥ
８１０として用いることができる命令キャッシュに関す
るより多くの情報は、同時係属中で本譲受人に譲受され
た、「可変バイト長命令に特に適した推論命令キューお
よびそのための方法」と題する米国特許連続出願番号第
１４５，９０２号に記載され、その開示がここに引用に
よって援用される。

【０１９６】デコーダ８０５（ＩＤＥＣＯＤＥ）は、マ
イクロプロセッサ８００内の命令デコードおよび発行動
作を実行する。より具体的には、デコーダ８０５は、デ
コード１およびデコード２と称するマイクロプロセッサ
パイプラインの２つの段階を実行する。デコード１の初
めの間、プリフェッチされ、予測実行されたバイトはバ
イトキューの指定された充満位置に送られる。これらの
バイトは次に、バイトキュー８１５内の独立バイトと併
合される。デコード２パイプラインステージにおいて、
リオーダバッファのエントリが、次のクロック相で投入
され得る対応するＲＯＰに割当てられる。

【０１９７】デコーダ８０５は、バイトキュー８１５か
ら未処理のＸ８６命令バイトおよびプリデコード情報を
取入れ、これらをＲＯＰ発行ユニット８２０内の４つの
ＲＯＰ位置に割当てる。デコーダ８０５は、どの特定の
機能ユニットに各ＲＯＰが伝送されるべきかを決定す
る。デコーダ８０５として用いることができるデコード
の１つのより詳細な説明は、ディビッド・ビィ・ウィッ
トおよびマイケル・ディ・ゴダード（Dabid B. Witt an
d Michael D. Goddard）による「スーパースカラ命令デ
コーダ」と題される米国特許出願連続番号第１４６，３
８３号に記載され、その開示をここに引用によって援用
する。ＩＣＡＣＨＥおよびデコーダ回路によって、マイ
クロプロセッサ８００は、１クロックサイクルにつき４
つのＲＯＰをデコードし、ＲＩＳＣ類似データ経路に送
ることができる。４つのＲＯＰは、機能ユニットに発行
され、これが結果をリオーダバッファ８８５と、これら
の結果を必要とする他の機能ユニットとに送る。

【０１９８】レジスタファイル８５５およびリオーダバ
ッファ８８５は、プログラムの流れにおける命令に推論
実行を与えるようにともに動作する。マイクロプロセッ
サ８００の整数コア、レジスタファイル８５５、リオー
ダバッファ８８５のより詳細な説明を、図１２を参照し
て行なう。マイクロプロセッサ８００の整数コアは、整
数コア９２０として示され、分岐予測ユニット８３５、
ＡＬＵ０、ＡＬＵ１、および特殊レジスタ８６０を含
む。

【０１９９】この特定の実施例において、レジスタファ
イル８５５は、１２の３２ビットレジスタ（整数レジス
タ）と２４の４１ビットレジスタ（浮動小数点レジス
タ）として構成される。これらのレジスタは、デコーダ
８０５から並列して４つまでのＲＯＰに関してアクセス
される。デコーダ８０５によって与えられるレジスタフ
ァイルポインタは、どの特定のレジスタが特定のＲＯＰ
におけるオペランド値としてリクエストされるか、およ
びアクセスのサイズを決定する。

【０２００】レジスタファイル８５５はマイクロプロセ
ッサ８００のアーキテクチャ状態を含む一方で、リオー
ダバッファ８８５はマイクロプロセッサ８００の推論状
態を含むことが認められる。レジスタファイル８５５の
タイミングは、８つまでの並列読出ポインタで、デコー
ダ２パイプラインステージの相ＰＨ２でアクセスされる
ようにされる。これらの８つまでの読出ポインタの受取
に応答して、レジスタファイル８５５は、このように選
択されたオペランド値を、後続のクロックＰＨ１相で対
応するオペランドバスに送る。

【０２０１】リオーダバッファ８８５をレジスタファイ
ル８５５に結合する不能化バスが図１２に示される。不
能化バスは８ライン幅であり、リクエストされた読出値
がリオーダバッファ８８５内の推論エントリとして見い
だされたことを示す８つの無効信号を含む。この例で
は、レジスタファイル８５５は無効にされ、リクエスト
された読出オペランド値をオペランドバスに置くことを
許されない。その代わりに、推論エントリがリオーダバ
ッファ８８５内に存在するので、リオーダバッファ８８
５は、リクエストされた実際のオペランド値か、または
その値に関するオペランドタグを与える。

【０２０２】リオーダバッファ８８５は、この特定の実
施例では１６のエントリを含み、推論ＲＯＰ結果値のキ
ューとして動作する。図１３により詳細に示されるよう
に、リオーダバッファ８８５は、キューの先頭および末
尾に対応する２つのポインタ、すなわち先頭ポインタお
よび末尾ポインタを含む。キューの割当の発行されるＲ
ＯＰへのシフトは、これらのポインタを増分または減分
することによって起こる。

【０２０３】リオーダバッファ８８５に与えられる入力
は、デコーダ８０５がそこで割当てようとするＲＯＰの
数（１ブロックにつき４つまでのＲＯＰ）、これらの４
つのＲＯＰのためのソースオペランドポインタ値、およ
びそれぞれの行先ポインタ値を含む。リオーダバッファ
８８５は次に、その現在の推論キューからこれらのエン
トリを割当てようとする。エントリスペースが発行され
るＲＯＰのために利用可能であれば、エントリは末尾ポ
インタの後に割当てられる。

【０２０４】より具体的には、エントリがデコーダ８０
５からリクエストされると、キューの先頭から次のエン
トリが割当てられる。特定のエントリの数は、デコーダ
８０５からのその特定のＲＯＰに関する行先タグとな
る。行先タグは、実行されるべき特定の命令とともに、
対応するＲＯＰ位置で機能ユニットに送られる。「４Ｒ
ＯＰ行先タグ」と示される専用行先タグバスは、図１２
において、リオーダバッファ８８５から整数コア９２０
の機能ユニットへ、およびマイクロプロセッサ８００の
残りの機能ユニットへの出力として示される。機能ユニ
ットはこのように、実行されるべき各ＲＯＰに関する行
先情報を与えられ、そのため機能ユニットは効果的に結
果バスを介してＲＯＰの結果がどこに送られるはずであ
るかを知る。

【０２０５】上述のことより、推論実行された結果値ま
たはオペランドは、このような結果オペランドがもはや
推論ではなくなるまで、リオーダバッファ８８５内に一
時的にストアされることが認められる。可能性のあるオ
ペランド値のプールは、したがってリオーダバッファに
よって与えられ、デコーダ８０５によって与えられてデ
コードされる後続のＲＯＰによって用いられる。

【０２０６】リオーダバッファ８８５内にエントリが存
在するときには、元のレジスタ番号（すなわちＥＡＸ）
が、特定のＲＯＰ結果に関して割当てられたリオーダバ
ッファエントリ内に保持される。図１３は、先頭および
末尾ポインタの間の推論状態にあるエントリを、これら
のエントリ内の縦の破線で示す。各リオーダバッファエ
ントリは、その元の行先レジスタ番号に参照し戻され
る。ＲＯＰ発行ユニット８２０の４つのＲＯＰ位置から
の８つの読出ポインタ値のうちの何らかのものがエント
リに関連する元のレジスタ番号に一致すると、そのエン
トリの結果データが、有効であれば転送され、またはそ
のエントリに関連する動作がまだ機能ユニットで未処理
であればタグが転送される。

【０２０７】リオーダバッファ８８５は、デコード８０
５によって発行された新しいＲＯＰの正しい推論状態
を、これらのＲＯＰをプログラム順に割当てることで維
持する。４つのＲＯＰはその現在の位置からリオーダバ
ッファキューの末尾位置まで、それらの読出オペランド
のいずれかにおける一致を探しながらスキャンする。特
定のリオーダバッファエントリにおいて一致が起これ
ば、レジスタファイル８５５内の対応する読出ポートが
不能化され、実際の結果オペランドまたはオペランドタ
グが、適切な機能ユニットによって受取られるようにオ
ペランドバスに与えられる。この構成によって、動作に
影響を与えることなく、リオーダバッファに存在する同
じレジスタの複数の更新を可能にする。結果転送がこの
ように達成される。

【０２０８】図１３に示されるように、リオーダバッフ
ァ８８５は、リオーダバッファキューまたはアレイ９３
０にストアされた結果オペランドの用尽を制御するリタ
イア論理９２５を含む。キュー９３０に格納された結果
オペランドがもはや推論でなければ、このような結果オ
ペランドはリタイア論理制御のもとでレジスタファイル
８５５に転送される。これを起こすためには、ＲＯＰの
格納をインタフェースするリタイア論理、レジスタファ
イルへのライトバック、最後の４つのＲＯＰエントリの
状態がスキャンされる。リタイア論理９２５は、割当て
られたＲＯＰエントリのうちのいくつが有効な結果を現
在有しているかを決定する。リタイア論理はまた、これ
らのＲＯＰエントリのうちのいくつが、ライトバックの
ないＲＯＰに対して、レジスタファイルへのライトバッ
ク結果を有するかをチェックする。さらに、リタイア論
理は、発生される分岐、ストアおよびロードミスについ
てスキャンする。完全な命令が最後の４つのＲＯＰ内に
存在すれば、このようなＲＯＰはレジスタファイルに格
納される。しかしながら、ＲＯＰエントリをスキャンす
る間に、特定のＲＯＰにおいて例外が起こったことを示
す状態が見いだされれば、その後のすべてのＲＯＰが無
効にされ、トラップベクトルフェッチリクエストが、Ｒ
ＯＰエントリに格納された例外状態情報により形成され
る。

【０２０９】さらに、リオーダバッファ内のＲＯＰをス
キャンしている際に分岐誤予測状態に出会えば、誤予測
された経路にあるとしてマークされなかった最初のＲＯ
Ｐに出会うまで、ＥＩＰレジスタの更新またはライトバ
ックなく、リタイア論理はこれらのＲＯＰエントリを無
効にする。リタイア論理９２５（図１３参照）内に含ま
れるＥＩＰレジスタ（図示せず）は、推論的ではない実
行された命令を推論で実行された命令から分ける、実行
下のプログラムにおけるロールする分解点を表わすリタ
イアＰＣまたはプログラムカウンタを保持する。ＥＩＰ
またはリタイアＰＣは、リオーダバッファ８８５からレ
ジスタファイル８５５への結果オペランドの格納の際
に、このように格納された命令がもはや推論的ではない
ことを反映するように、継続的に更新される。リオーダ
バッファ８８５は推論状態を素早く追跡し、１クロック
サイクルにつき複数のＸ８６命令またはＲＯＰを用済と
することができることが認められる。マイクロプロセッ
サ８００は、例外条件または分岐誤予測に出会えば、迅
速に無効とし、正しい命令ストリームをフェッチし始め
ることができる。

【０２１０】マイクロプロセッサ８００の機能ユニット
の一般的な構成を、ここで図１４に例示的な目的のため
に示される一般化された機能ユニットブロック図を参照
して説明する。ｏｐコード、Ａオペランド、Ｂオペラン
ド、および行先タグを含むＲＯＰは、図９の一般化され
た機能ユニットに発行されていることを思い起こされた
い。図１４の最も左の部分には、それに発行される命令
から特定のＡオペランドを選択する（１：４）Ａオペラ
ンドマルチプレクサ９３２に４つのＡオペランドバスが
与えられることが認められる。同様の態様で、４つのＢ
オペランドバスが、図１４の機能ユニットが実行すべき
対象の命令のための特定のＢオペランドを選択する
（１：４）Ｂオペランドマルチプレクサ９３５に結合さ
れる。４つの行先／ｏｐコードバスが、この機能ユニッ
トによって実行されている特定の命令のためのｏｐコー
ドおよび行先タグを選択するマルチプレクサ９４０に結
合される。

【０２１１】この機能ユニットは、マルチプレクサ９４
０への「ファインドファーストＦＵＮＣタイプ」入力で
タイプバスをモニタする。より特定的には、機能ユニッ
トは、その機能ユニットのタイプに一致する第１のＲＯ
Ｐを探し、１：４マルチプレクサ９３２、９３５、およ
び９４０を可能化して、対応するオペランドおよびタグ
情報を図１４の機能ユニットの待合わせステーション１
に送る。たとえば、実行ユニット９４５が算術論理装置
１（ＡＬＵ１）であり、かつマルチプレクサ９４０のＴ
ＹＰＥ入力で機能ユニットに与えられる命令タイプがＡ
ＤＤ命令であると仮定すると、発行された命令の行先タ
グ、ｏｐコード、Ａオペランド、およびＢオペランド
が、選択マルチプレクサ９３２、９３５および９４０を
介して待合わせステーション１に送られる。

【０２１２】第２の待合わせステーション、すなわち待
合わせステーション０が、待合わせステーション１と実
行ユニット９４５との間に認められる。図１４の機能ユ
ニットは、このように２つの待合わせステーションを含
むと言われ、または待合わせステーションは２つのエン
トリを保持することができると言う。この２エントリ待
合わせステーションは、最も古いエントリが待合わせ０
として示されるＦＩＦＯとして実現される。待合わせス
テーション０および１は、レジスタファイル８５５また
はリオーダバッファ８８５のいずれかからオペランドバ
スを介して機能ユニットに何が送られたかに依存して、
オペランドまたはオペランドタグのいずれかを保持する
ことができる。

【０２１３】その結果を５つの結果バスに与える他の機
能ユニットからの結果の転送を達成するために、機能ユ
ニットは、Ａ転送論理９５０およびＢ転送論理９５５を
有する。転送論理９５０は、ソースＡオペランドに一致
するタグを求めて５つの結果バスをスキャンし、一致が
起これば、Ａ転送論理９５０は、対応する結果バスを待
合わせステーション１のＡデータ部分９６０に送る。実
際のＡオペランドではなくＡオペランドタグがマルチプ
レクサ９３２を介して送られると、Ａオペランドタグ
は、Ａタグ９６５と示される位置にストアされることに
注目されたい。一致を求めて５つの結果バスにおいてス
キャンされる結果タグと比較されるのは、Ａタグ位置９
６５にストアされたＡオペランドタグである。同様の態
様で、Ｂ転送論理９５５は、Ｂオペランドタグ位置９７
０にストアされたＢオペランドタグに一致する何らかの
結果タグに関して５つの結果バスをスキャンする。一致
が見いだされれば、対応する結果オペランドが結果バス
から検索され、Ｂデータ位置９７５にストアされる。機
能ユニットによって実行されているＲＯＰのｏｐコード
および行先タグは、タグおよびｏｐコード位置９８０に
ストアされる。

【０２１４】ＲＯＰ命令を実行するのに必要なすべての
情報が機能ユニット内で集められれば、ＲＯＰ命令は実
行のために実行ユニット９４５に投入される。より具体
的には、ＡオペランドおよびＢオペランドが、待合わせ
ステーションによって実行ユニット９４５に送られる。
その命令のためのｏｐコードおよび行先タグが、タグお
よびｏｐコード位置９８０によって実行ユニット９４５
に送られる。実行ユニットは命令を実行し、結果を発生
する。実行ユニットは次に、アービトレータ（図示せ
ず）に結果リクエスト信号を送ることで結果バスへのア
クセスに対して調停する。実行ユニット９４５が結果バ
スへのアクセスを許可されると、結果許可信号がアービ
トレータから実行ユニット９４５によって受取られる。
実行ユニット９４５はその結果を指定された結果バスに
置く。

【０２１５】この結果と同じタグを有する未処理のオペ
ランドを有する他の機能ユニットに結果が転送される。
結果はまた、実行されたＲＯＰの行先タグと関連するエ
ントリでそこにストアするためにリオーダバッファ８８
５にも与えられる。

【０２１６】実用において、機能ユニットは、命令が実
行している間結果バスに対して調停する。より具体的に
は、機能ユニットに有効エントリが存在するとき、すな
わち実行のために必要なすべてのオペランド、ｏｐコー
ド、および行先タグ情報が集めらたとき、命令は実行ユ
ニット９４５に投入され、実行ユニット９４５が実際に
その命令を実行している間、機能ユニットは結果バスに
対して調停する。各待合わせステーションが行先タグと
ともに局所ｏｐコードのための記憶機構を含むことが認
められる。このタグは、結果パイプラインステージの間
にＲＯＰが最終的にライトバックする位置を示す。この
行先タグはまた、待合わせステーション内の各エントリ
と保持され、そのＦＩＦＯを介して押される。

【０２１７】一般化された機能ユニットブロック図を図
１４に関して説明したが、実行ユニット９４５は、分岐
予測ユニット８３５、ＡＬＵ０／シフタ８４０、ＡＬＵ
１８４５、ロード／ストア８６０、浮動小数点ユニット
８６５および特殊レジスタ８５０のいずれであってもよ
く、これらの特定の機能に関する適切な変更を加えても
よい。

【０２１８】特定の機能ユニットへの結果バスの許可が
行なわれると、結果値が結果バスに送られ、待合わせス
テーション内の対応するエントリがクリアされる。結果
バスは、４１ビットの結果と、行先タグと、通常、有効
および例外等の状態指示情報とを含む。マイクロプロセ
ッサ８００のパイプライン化された動作において、上述
の機能ユニットの動作のタイミングは、実行段階の間に
起こる。クロック相ＰＨ１の間、オペランド、行先タグ
およびｏｐコードは、ＲＯＰが発行され、待合わせステ
ーションに置かれる際に送られる。ＰＨ２クロック相の
間、ｏｐコードによって説明される動作は、すべてのオ
ペランドの準備ができていれば実行され、実行の間、機
能ユニットは値をリオーダバッファに送返すために結果
バスに対して調停する。

【０２１９】図１５は、分岐機能ユニット８３５のより
詳細な図である。分岐機能ユニット８３５は、ジャンプ
命令ならびにより複雑なコールおよびリターンマイクロ
ルーチンを含む非逐次的フェッチをすべて扱う。分岐ユ
ニット８３５は、待合わせステーション８３５Ｒと、予
測発生分岐を追跡するための分岐ＦＩＦＯ９８０を含
む。分岐機能ユニット８３５はまた、加算器９８５と、
インクリメンタ９９０と、分岐予測コンパレータ９９５
とを含み、これらはすべてＰＣ相対分岐を扱うためのも
のである。

【０２２０】分岐機能ユニット８３５は、図１５に示さ
れる分岐予測発生ＦＩＦＯ９８０を用いて推論分岐を制
御する。より具体的には、命令キャッシュ８１０によっ
て予測されたすべての非順次的フェッチは、分岐予測Ｆ
ＩＦＯ９８０に送られ、その分岐のＰＣ（プログラムカ
ウンタ）とともにそこでラッチされる。この情報は、タ
ーゲットバス（ＸＴＡＲＧＥＴ）およびデコードＰＣバ
スに送られて、分岐機能ユニットに渡る。対応する分岐
が後にデコードされ、投入されると、予測情報、オフセ
ット、および分岐のＰＣが、分岐機能ユニット８３５に
よって局所的に計算される。一致が起これば、この結果
はターゲットＰＣと一致を示す状態とともに、リオーダ
バッファ８８５に正しく送り返される。分岐誤予測が起
これば、正しいターゲットが、フェッチを始めるために
命令キャッシュ８１０へ送られ、またミスしている予測
された分岐に含まれる後続のＲＯＰをキャンセルために
リオーダバッファ８８５へ送られる。この態様で、実行
は正しいターゲットＰＣで再び始めることができ、この
ようにして実行プロセスの失敗を防ぐ。誤予測が起こる
と必ず、分岐機能ユニット８３５は、新しいターゲット
アドレスとインデックスとの両方を、予測情報があった
ブロックに送り、このアレイを更新する。このことは、
マイクロプロセッサが、予測アレイ情報を更新しながら
同時に、命令の新しく正しいストリームをフェッチし始
めることを意味する。マイクロプロセッサはまた、新し
いブロックで予測情報にアクセスして、どのバイトが予
測実行されるかを知ることに注目されたい。ＩＣＮＸＴ
ＢＬＫアレイは、予測情報がその第２のポートを介して
更新され得るように、デュアルポートである。誤予測が
起こるブロックからの予測情報は、逐次／非逐次、分岐
位置、およびキャッシュアレイ内の予測実行される第１
のバイトの位置等の情報である。

【０２２１】加算器９８５およびインクリメンタ９９０
は、現在の分岐命令の現在のＰＣ＋オフセット、および
逐次的であれば次のＰＣの命令長＋ＰＣを局所的に計算
する。これらの値は、コンパレータ９９５によって、局
所分岐発生キュー（ＦＩＦＯ９８０）内の予測発生分岐
と比較されて、このような分岐を予測する。

【０２２２】ここで、マイクロプロセッサ８００の動作
をそのパイプラインステージを通して示すタイミング図
を説明する前に、マイクロプロセッサ８００の主な内部
バスを概略的に説明する。バスラインの先頭のＸは、一
方の相でダイナミックにチャージされ、他方の相で条件
付でアサートされる偽バスを示す。マイクロプロセッサ
８００の内部バスは以下のものを含む。

【０２２３】ＦＰＣ（３１：０）−Ｐｈ１、スタティッ
ク。このフェッチＰＣバスは、命令キャッシュ８１０か
らバイトキュー８１５への推論命令プリフェッチのため
に用いられる。ＦＰＣバスは、図３ないし図５のマイク
ロプロセッサ５００のＦＰＣブロック２０７と実質的に
同じ機能を果たす、ＩＣＡＣＨＥ８１０内のＦＰＣブロ
ック８１３に結合される。

【０２２４】ＸＴＡＲＧＥＴ（４１：０）−Ｐｈ１、ダ
イナミック。このバスは、誤予測分岐および例外を指示
しなおすためにターゲットＰＣを命令キャッシュおよび
分岐予測ユニット（８２５／８３５）に送る。

【０２２５】ＸＩＣＢＹＴＥｎＢ（１２：０）−Ｐｈ
１、ダイナミック。このバスは、現在リクエストされて
いるプリフェッチＸ８６命令および対応するプリデコー
ド情報の命令キャッシュストアアレイＩＣＳＴＯＲＥの
出力である。この特定の実施例では、サイクルにつき全
部で１６のバイトが、次に予測実行されたバイトがバイ
トキューの第１のオープンバイト位置を充満するように
整列されてアサートすることができる。

【０２２６】ＢＹＴＥＱｎ（７：０）−Ｐｈ１、スタテ
ィック。これは、命令キャッシュからフリフェッチされ
た予測実行Ｘ８６命令バイトのキューを示す。この特定
の実施例では、全部で１６のバイトがデコーダ８０５の
デコード経路に送られる。各バイトは、ｏｐコード位
置、プリフィックスバイト、ならびに命令開始および終
了位置に関しての命令キャッシュからのプリデコード情
報を含む。各Ｘ８６命令のＲＯＰサイズもまた、プリデ
コード情報に含まれる。各バイトに加えられるプリデコ
ード情報は、バイトキュー内の１バイトについて全部で
６ビットのストアを表わし、すなわち１有効ビット＋５
つのプリデコードビットを表わす。

【０２２７】ＩＡＤ（６３：０）−Ｐｈ１、ダイナミッ
ク。ＩＡＤバス８９５は、主なマイクロプロセッサ８０
０のブロックのための一般的な相互接続バスである。こ
れは、このようなブロック間と、外部メモリへの、およ
びそこからのアドレス、データ、および制御転送のため
に用いられ、図１０および１１に示されるとおりであ
る。

【０２２８】ＸＲＤｎＡＢ（４０：０）−Ｐｈ１、ダイ
ナミック。この符号は、機能ユニットに与えられる各Ｒ
ＯＰのためのソースオペランドＡバスを表わし、オペラ
ンドバス８７５内に含まれる。より具体的には、これは
ＲＯＰ０ないしＲＯＰ３のための全部で４つの４１ビッ
トバスを含む。オペランドバスに含まれる対応するタグ
バスは、リオーダバッファ８８５からの実際のオペラン
ドデータの代わりに、リオーダバッファ８８５からの転
送されたタグが存在することを示す。

【０２２９】ＸＲＤｎＢＢ（４０：０）−Ｐｈ１、ダイ
ナミック。この符号は、機能ユニットに送られる各ＲＯ
ＰのためのソースオペランドＢバスを示す。このバス構
造は、ＲＯＰ０ないしＲＯＰ３のための４つの４１ビッ
トバスを含み、８つの読出オペランドバス８７５内に含
まれる。対応するタグバスは、リオーダバッファ８８５
からの実際のオペランドデータの代わりに、転送された
オペランドタグがこのバスに存在することを示すことが
やはり認められる。

【０２３０】ＸＲＥＳｎＢ（４０：０）−Ｐｈ１、ダイ
ナミック。この符号は、８、１６、３２ビット整数、ま
たは８０ビット拡張結果の１／２のための結果バス８８
０を示す。対応するタグおよび状態バス８８２は、この
結果バスでエントリを確立することがわかる。

【０２３１】マイクロプロセッサ８００は、フェッチ、
デコード１、デコード２、実行、結果／ＲＯＢおよび用
尽／レジスタファイルの段階を含む６段階パイプライン
を含む。明瞭にするために、デコードステージは図１６
においてデコード１およびデコード２に分割されてい
る。図１６は、逐次的な実行が行なわれているときのマ
イクロプロセッサパイプラインを示す。連続するパイプ
ライン段階は、図１６の縦方向の列で表わされる。マイ
クロプロセッサ８００において選択された信号は、パイ
プラインの種々の段階で現われることを横方向の列で表
わす。

【０２３２】図１６の逐次実行パイプライン図は、以下
の選択された信号を表わす。「Ｐｈ１」は、システムク
ロック信号の前縁を表わす。システムクロック信号は、
Ｐｈ１およびＰｈ２成分の両方を含む。

【０２３３】「ＦＰＣ（３１：０）」は、バイトキュー
８１５からのフェッチＰＣバスを表わす。

【０２３４】「ＩＣＢＹＴＥｎＢ（１２：０）」は、バ
イトキュー８１５に結合される命令キャッシュ８１０の
ＩＣＳＴＯＲＥアレイからのＩＣＢＹＴＥバスである。

【０２３５】「ＢＹＴＥＱｎ（７：０）」は、バイトキ
ューバスである。「ＲＯＰｍｕｘ（３：０）」は、命令
ブロックおよびプリデコード情報がデコーダに与えられ
ていることを示すデコーダ信号である。

【０２３６】「Source A/B pointers 」は、デコーダ８
０５によってリオーダバッファ８１５に与えられるＡお
よびＢオペランドのための読出／書込ポインタである。
図１０および１１には明確に図示されないが、ソースポ
インタは、デコードブロックからレジスタファイルおよ
びリオーダバッファの両方への入力であるレジスタファ
イル値である。

【０２３７】「REGF/ROB access 」は、機能ユニットへ
の伝送のためにオペランド値を得るためのレジスタファ
イルおよびリオーダバッファへのアクセスを示す。

【０２３８】「Issue ROPs/dest tags」は、デコーダ８
０５による機能ユニットへのＲＯＰおよび行先タグの投
入を示す。

【０２３９】「A/B read oper buses 」は、機能ユニッ
トによる、そのためのＡおよびＢオペランドまたはタグ
を得るためのＡおよびＢオペランドバスの読出を示す。

【０２４０】「Funct unit exec 」は、機能ユニットに
よる実行を示す。図１６および図１７において、符号ａ
＆ｂ→ｃおよびｃ＆ｄ→ｅおよびｃ＆ｇ→は、任意の演
算を表わし、「ソース１オペランド、ソース２オペラン
ド→行先」の形である。より具体的には、示されるソー
スレジスタは、レジスタ、すなわち一時またはマッピン
グＸ８６レジスタである。ａ＆ｂ→ｃの例では、「ｃ」
の値は行先を表わし、結果バスおよびリオーダバッファ
から、予測実行ストリームの次の参照への局所的な転送
を示す。

【０２４１】「Result Bus arb」は、結果をリオーダバ
ッファ、およびこの結果に対応するオペランドタグを保
持しているためにその結果を必要とするかもしれない他
の何らかの機能ユニットに伝送するために、結果バス８
８０へのアクセスを調停している時間を示す。

【０２４２】「Result Bus forward」は、結果がある機
能ユニットからこの結果を未処理のオペランドとして必
要としている他の機能ユニットに転送している時間を示
す。

【０２４３】「ROB write result」は、機能ユニットか
らの結果がリオーダバッファに書込まれている時間を示
す。

【０２４４】「ROB tag forward 」は、リオーダバッフ
ァが機能ユニットに、現在まだ結果が出ていないオペラ
ンドの代わりにオペランドタグを転送している時間を示
す。

【０２４５】「REGF write/retire 」は、結果がリオー
ダバッファのＦＩＦＯキューからレジスタファイルに格
納されている時間を示す。

【０２４６】「ＥＩＰ（３１：０）」はリタイアＰＣ値
を示す。割込リターンは遅延分岐を持たないので、マイ
クロプロセッサは、わずか１つのＰＣで割込リターンの
際に再始動できる。リタイアＰＣ値またはＥＩＰは、リ
オーダバッファ８８５のリタイア論理９２５内に含まれ
る。ＥＩＰは、マイクロプロセッサ５００に関して既に
説明したリタイアＰＣと類似している。リタイア論理９
２５は、マイクロプロセッサ５００のリタイア論理２４
２に類似した機能を果たす。

【０２４７】図１６のタイミング図は、Ｘ８６バイトの
逐次的ストリームを実行しているマイクロプロセッサ８
００を示す。この例では、予測実行経路が実際に行なわ
れ、また命令キャッシュから直接利用可能である。

【０２４８】命令処理の第１の段階は、命令フェッチで
ある。図示のとおり、このクロックサイクルは命令キャ
ッシュの動作を行なうのに費やされる。命令キャッシュ
８１０は、クロックサイクルのＰｈ１の間に新しいフェ
ッチＰＣ（ＦＰＣ）を形成し、第２のクロックサイクル
において命令キャッシュのキャッシュアレイにアクセス
する。フェッチＰＣプログラムカウンタ（タイミング図
ではＦＰＣ（３１：０）として示される）は、ストアア
レイと並列して線形命令キャッシュのタグアレイにアク
セスする。フェッチのクロック相Ｐｈ２の遅い時点で、
線形タグがフェッチＰＣ線形アドレスに一致するかどう
かの決定がなされる。一致が起これば、予測実行される
バイトはバイトキュー８１５に転送される。

【０２４９】命令キャッシュ内のタグおよびストアアレ
イにアクセスするのに加えて、フェッチＰＣはまたブロ
ック予測アレイＩＣＮＸＴＢＬＫにアクセスする。この
ブロック予測アレイは、どのＸ８６バイトが予測実行さ
れるかを識別し、次の予測実行されるブロックが逐次的
であるか非逐次的であるかを識別する。Ｐｈ２でアクセ
スされるこの情報は、現在フェッチされているブロック
のどのバイトがバイトキュー８１５に有効バイトとして
送られるかを決定する。

【０２５０】バイトキュー８１５は、前にフェッチされ
ているが機能ユニットにまだ投入されておらずそこにス
トアされたＸ８６バイトを現在有しているかもしれな
い。この場合には、バイト充満位置が命令キャッシュ８
１０に示されて、第１の予測バイトをこの量だけシフト
して、より古いＸ８６バイトの後を充満する。

【０２５１】フェッチのクロック相Ｐｈ２で分岐予測情
報が起こるので、プリフェッチユニット８３０によって
プリフェッチされるべき次のブロックは逐次的であって
も非逐次的であってもよい、というのはどちらの場合に
も、キャッシュアレイに再びアクセスするのに１クロッ
クサイクルあるからである。したがって、分岐予測アレ
イによって、ブロック外の分岐が、次の逐次的ブロック
にアクセスするのと同じ相対的性能を有することがで
き、性能の向上を与える。

【０２５２】デコード１／デコード２パイプライン段階
を次に説明する。デコード１の初めに、プリフェッチさ
れ、予測実行されたバイトが、指定された充満位置でバ
イトキュー８１５に送られる。これは図１６のタイミン
グ図にＩＣＢＹＴＥｎＢ（１２：０）として示され、デ
コード１のＰｈ１でアサートする。これらのバイトは、
バイトキュー内の何らかの未処理のバイトと併合され
る。バイトキューはプリデコード状態の５つのビット
と、未処理のＸ８６バイトとを含み、命令の境界がどこ
にあるかを示す。バイトキューの先頭は、次に予測実行
されたＸ８６命令の初めにある。デコード１のクロック
相Ｐｈ１の中程で、命令キャッシュからの次のバイトの
ストリームが、バイトキュー８１５内の既存のバイトと
併合され、併合されたストリームがスキャンのためにデ
コーダ８０５に与えられる。デコーダ８０５は、各命令
がとるＲＯＰの数、および対応するＲＯＰ投入位置Ｄ
０、Ｄ１、Ｄ２、およびＤ３とｏｐコードの整列を可能
にするようにｏｐコードの位置を決定し、ここでＤ０に
あるＲＯＰが投入すべき次のＲＯＰである。デコーダ８
０５は、バイトキュー８１５内の各Ｘ８６命令のプログ
ラムカウンタＰＣのコピーを、命令の境界間のバイト数
をカウントするか、または命令キャッシュ内の分岐を検
出して、その位置からフェッチされた第１のＸ８６バイ
トにターゲットＰＣ値を付けることによって維持する。

【０２５３】ｏｐコードおよびＲＯＰ位置付け情報、な
らびにバイトキュー８１５にストアされた即値フィール
ドを用いることで、デコーダ８０５はデコード１のクロ
ック相Ｐｈ２およびデコード２のクロック相Ｐｈ１の間
に以下の情報をスタティックに決定する。すなわち、
１）機能ユニット行先、２）ソースＡ／Ｂおよび行先オ
ペランドポインタ値、３）ソースおよび行先動作のサイ
ズ、および４）もしあれば、即値アドレスおよびデータ
値である。デコード２のクロック相Ｐｈ１の終わりに、
すべてのレジスタ読出および書込ポインタが解決され、
動作が決定される。これは図１６のタイミング図でソー
スＡ／Ｂポインタ値のアサートによって示される。

【０２５４】図１６のタイミング図に示されるデコード
２パイプライン段階において、リオーダバッファエント
リは、次のクロック相で投入され得る対応するＲＯＰに
割当てられる。したがって、４つまでの付加的なＲＯＰ
が、デコード２のＰｈ１クロック相の間に１６エントリ
リオーダバッファ８８５内のエントリを割当てられる。
デコード２のＰｈ２クロック相の間、割当てられたすべ
てのＲＯＰに関するソース読出ポインタが、リオーダバ
ッファに含まれる推論ＲＯＰのキューにアクセスしなが
ら、同時にレジスタファイルから読出される。レジスタ
ファイルおよびリオーダバッファアレイの両方のこの同
時アクセスによって、マイクロプロセッサ８００は、実
際のレジスタファイル値を用いるか、またはリオーダバ
ッファからオペランドもしくはオペランドタグを転送す
るかを後で選択することができる。Ｐｈ１においてリオ
ーダバッファ内の４つのＲＯＰエントリをまず割当て、
次にＰｈ２でリオーダバッファをスキャンすることによ
って、まだ推論状態にあるすべての前のＲＯＰと発行さ
れている現在のＲＯＰについて読出の従属性をマイクロ
プロセッサ８００は同時に探すことができる。これは、
図１６のタイミング図に、ＲＥＧＦ／ＲＯＢアクセスお
よびタグのチェックによって示される。

【０２５５】実行パイプライン段階において、ＲＯＰ
は、専用ｏｐコードバスおよび読出オペランドバスによ
って機能ユニットに投入される。専用ｏｐコードバス
は、ＲＯＰのｏｐコードを機能ユニットに送り、一方、
読出オペランドバスはオペランドまたはオペランドタグ
をこのような機能ユニットに伝送する。オペランドバス
がオペランドを機能ユニットに送っている間の時間は、
図１６のタイミング図では符号「A/B read operand bus
es」によって示される。

【０２５６】実行パイプライン段階のＰｈ１クロック相
の後半で、機能ユニットはこのような機能ユニットにど
のＲＯＰが投入されたか、およびこのような機能ユニッ
ト内の局所待合わせステーションから何らかの未処理の
ＲＯＰの投入準備ができているかを判断する。待合わせ
ステーション内に含まれる最も古い命令が最初に実行さ
れることが確実になるように、機能ユニットの待合わせ
ステーションでＦＩＦＯが維持されることに注目された
い。

【０２５７】命令が機能ユニット内で実行準備ができて
いる場合には、実行パイプライン段階のＰｈ１の遅くに
このような実行を始め、この段階のＰｈ２にわたってス
タティックに続く。Ｐｈ２の終わりに、機能ユニット
は、図１６の結果バスＲＯＢ信号によって示されるよう
に５つの結果バスのうちの１つに対して調停する。言い
換えれば、結果バス調停信号がこの時間の間にアサート
される。機能ユニットが結果バスへのアクセスを許可さ
れると、これは後続のＰｈ１で割当てられた結果バスを
駆動する。

【０２５８】図１６のタイミング図で示される結果パイ
プライン段階は、結果をある機能ユニットからこのよう
な結果を必要としている別のものへと転送することを示
す。結果パイプライン段階のクロック相Ｐｈ１におい
て、推論ＲＯＰの位置は、行先結果および何らかの状態
を伴ってリオーダバッファに書込まれる。リオーダバッ
ファ内のこのエントリは、割当てられたとともに有効で
あるという指示を与えられる。一旦割当てられたエント
リがこのように確立されると、リオーダバッファは、リ
クエストされた読出アクセスの受取の際に、オペランド
タグではなくオペランドデータを直接転送することがで
きる。結果パイプライン段階のクロック相Ｐｈ２におい
て、新しく割当てられたタグが、そのソースオペランド
の１つとしてこれを要求する後続のＲＯＰによって検出
され得る。これは、図１６のタイミング図において、
「ROB tag forward 」を介してソースＡ／Ｂオペランド
バスへの結果Ｃの直接転送として示される。

【０２５９】用尽パイプライン段階は、図１６のタイミ
ング図のパイプラインの最終段階である。この段階は、
ＥＩＰレジスタの形での真のプログラムカウンタ（リタ
イアＰＣ）が維持され、バス指示ＥＩＰ（３１：０）に
よって示されるように更新される段階である。図１６に
示されるように、ＥＩＰ（３１：０）のタイミング図
は、リオーダバッファからレジスタファイルへの命令の
格納の際に、新しいＰＣ（またはリタイアＰＣ）が発生
されるところを示す。リオーダバッファからレジスタフ
ァイルへの結果の格納の実際の動作は、図１６の「REGF
write/retier 」と符号を付される信号によって示され
る。図１６において、用尽パイプライン段階のクロック
相Ｐｈ１において、動作の結果はレジスタファイルに書
込まれ、ＥＩＰレジスタはこの命令がもう実行されたこ
とを反映するように更新される。リオーダバッファ内の
対応するエントリは、値がリオーダバッファからレジス
タファイルへと書込まれるのと同じクロック相Ｐｈ１に
おいて割当から外される。リオーダバッファ内のこのエ
ントリが割当から外されたので、レジスタＣへの後続の
参照は、リオーダバッファからの推論読出ではなく、レ
ジスタファイルからの読出となる。この態様で、マイク
ロプロセッサのアーキテクチャ状態が真に反映される。

【０２６０】図１７は、分岐誤予測の際のプロセッサ８
００のタイミング図である。図１７のタイミング図は、
以下を除いては図１６のタイミング図と同じ信号タイプ
を示す。

【０２６１】ＢＲＮ＿ＭＩＳＰ信号は、分岐誤予測が起
こったときを示す。ＸＴＡＲＧＥＴ（３１：０）信号
は、予測されたターゲット分岐命令が分岐ユニット８３
５に送られるときを示す。

【０２６２】図１７のタイミング図は、分岐誤予測およ
び回復の間のマイクロプロセッサ８００のパイプライン
の段階を示す。このタイミング図は、第１のサイクルが
分岐の実行サイクルであり、かつ後続のサイクルが予測
の訂正および新しい命令ストリームのフェッチに関わる
と仮定する。この特定の実施例において、誤予測された
分岐命令の実行の完了から正しい経路の実行の開始まで
３サイクルの遅延が存在することが認められる。

【０２６３】図１７に示されるパイプラインのフェッチ
段階は、ＸＴＡＲＧＥＴ（３１：０）バスが、命令キャ
ッシュ８１０に予測されたターゲットに関しての情報を
与えるために、分岐機能ユニット８３５から命令キャッ
シュ８１０に駆動されることを除いては、図１６の通常
のフェッチ段階に類似している。分岐機能ユニットは、
分岐誤予測が実際に起こったことを判断する、マイクロ
プロセッサ８００のブロックであることが認められる。
分岐機能ユニットはまた、正しいターゲットを計算す
る。このターゲットは、結果バス８８０を介して誤予測
状態指示とともに結果がリオーダバッファに戻されるの
と同じときに送られる。結果バスはまた、真の分岐が起
こった場合に分岐命令を用済とする際にＥＩＰレジスタ
を更新するための正しいＰＣ値を含む。ＸＴＡＲＧＥＴ
バスは、フェッチされたＰＣバスに駆動され、命令キャ
ッシュアレイがアクセスされる。ヒットが起これば、バ
イトは前と同様にバイトキューに送られる。

【０２６４】誤予測が起これば、バイトキュー８１５内
のすべてのバイトは、信号ＢＲＮ＿ＭＩＳＰのアサート
で、フェッチの第１の相において自動的にクリアされ
る。訂正された経路がフェッチされ、デコードされるま
では、さらなるＲＯＰはデコーダ８０５から発行されな
い。

【０２６５】誤予測の結果状態がリオーダバッファにフ
ェッチパイプライン段階のクロック相Ｐｈ１において戻
されるとき、誤予測状態指示が誤予測の後のすべての推
論ＲＯＰに送られ、そのためこれらはレジスタファイル
またはメモリに書込を許されない。これらの命令が次に
用済とされるべきとき、リオーダバッファ内のこれらの
エントリは割当から外されて、さらなるＲＯＰが投入さ
れることを可能にする。

【０２６６】分岐誤予測の間のデコード１パイプライン
段階に関して、訂正された経路をデコードするための経
路の残りは、命令キャッシュ８１０のＩＣＮＸＴＢＬＫ
アレイにおける予測情報の更新を除いて、逐次的なフェ
ッチの場合と同じである。分岐の正しい方向が、予測ア
レイＩＣＮＸＴＢＬＫの分岐が誤予測されたその中のキ
ャッシュブロックに書込まれる。

【０２６７】誤予測の間のパイプライン段階デコード
２、実行、結果、用済は、図１６で議論したものと実質
的に同じである。

【０２６８】ＶＩ．結論−スーパースカラ高性能特徴マイクロプロセッサによって実行されるコードから実質
的な並列性を引出すことで、本発明のマイクロプロセッ
サにおいて高性能が達成される。命令タグ付与、待合わ
せステーション、転送を伴う結果バスによって、オペラ
ンドハザードが無関係の命令の実行を妨げることを防
ぐ。マイクロプロセッサのリオーダバッファ（ＲＯＢ）
は多数の利点を達成する。ＲＯＢは一種のレジスタ再指
定を用いて、行先としての同じレジスタの異なる使用を
区別し、そうでなければこれは並列性を損なってしまう
恐れがある。リオーダバッファにストアされたデータは
マイクロプロセッサの予測実行状態を表わし、一方レジ
スタファイルにストアされたデータはマイクロプロセッ
サの現在の実行状態を表わす。さらに、リオーダバッフ
ァは割込の際のプログラムの逐次的状態を守る。さら
に、リオーダバッファは、未解決の条件付分岐を越える
実行を許可することによりさらなる並列性を可能にす
る。並列性はさらに、高いバンド幅の命令フェッチを与
えるオンボードの命令キャッシュ（ＩＣＡＣＨＥ）によ
って、分岐の影響を最小にする分岐予測によって、そし
てロードおよびストア動作に関する待ち時間を最小にす
るオンボードのデータキャッシュ（ＤＣＡＣＨＥ）によ
ってさらに促進される。

【０２６９】本発明のスーパースカラプロセッサは、い
くつかの構成要素を共有することによってダイの空間を
効率的に利用して、性能を向上する。より具体的には、
マイクロプロセッサの整数ユニットおよび浮動小数点ユ
ニットは、共通の、共有データ処理バス上にある。これ
らの機能ユニットは、同じデータ処理バスにやはり結合
される複数の待合わせステーションを含む。整数および
浮動小数点機能ユニットは、データ処理バス上の共通の
分岐ユニットを共有する。さらに、整数および浮動小数
点機能ユニットは、共通デコーダおよび共通ロード／ス
トアユニット５３０を共有する。内部アドレスデータ
（ＩＡＤ）バスは、本発明のマイクロプロセッサのいく
つかの構成要素間での局所的通信を与える。

【０２７０】本発明のある好ましい特徴のみを、例示す
るために示したが、多くの変更および変形が起こるであ
ろう。したがって、前掲の特許請求の範囲は本発明の真
の精神に包含されるすべての変更および変形を含むと意
図されることを理解されたい。

【図面の簡単な説明】

【図１】従来のスーパースカラマイクロプロセッサを示
すブロック図である。

【図２】本発明の高性能スーパースカラマイクロプロセ
ッサの一実施例の簡略化されたブロック図である。

【図３】本発明の高性能スーパースカラマイクロプロセ
ッサの別の実施例の一部のより詳細なブロック図であ
る。

【図４】本発明の高性能スーパースカラマイクロプロセ
ッサの別の実施例の一部のより詳細なブロック図であ
る。

【図５】本発明の高性能スーパースカラマイクロプロセ
ッサの別の実施例の一部のより詳細なブロック図であ
る。

【図６】結果バスに対して調停している際に機能ユニッ
トが受ける優先順位を表わす図である。

【図７】本発明のマイクロプロセッサにおける内部アド
レスデータバス調停構成のブロック図である。

【図８】図３ないし図５のマイクロプロセッサの、逐次
処理の間のそのパイプラインの複数の段階を通してのタ
イミング図である。

【図９】図８のタイミング図と類似しているが、分岐誤
予測および回復が起こる際のタイミング図である。

【図１０】本発明のスーパースカラマイクロプロセッサ
の別の実施例のブロック図の一部である。

【図１１】本発明のスーパースカラマイクロプロセッサ
の別の実施例のブロック図の一部である。

【図１２】図１０および図１１のマイクロプロセッサの
レジスタファイル、リオーダバッファおよび整数コアの
ブロック図である。

【図１３】図１２のリオーダバッファのより詳細なブロ
ック図である。

【図１４】図１０および図１１のマイクロプロセッサが
用いる一般化された機能ユニットのブロック図である。

【図１５】図１０および図１１のマイクロプロセッサが
用いる分岐機能ユニットのブロック図である。

【図１６】逐次実行の間の図１０および図１１のマイク
ロプロセッサの動作のタイミング図である。

【図１７】分岐誤予測および回復の間の図１０および図
１１のマイクロプロセッサの動作のタイミング図であ
る。

【符号の説明】

２００マイクロプロセッサ２０５命令キャッシュ２１０命令デコーダ２１５整数コア２２５浮動小数点コア２３５レジスタファイル２４０リオーダバッファ

───────────────────────────────────────────────────── フロントページの続き (72)発明者デイビッド・ビィ・ウィットアメリカ合衆国、78759 テキサス州、オースティン、パスファインダー・ドライブ、6318 (72)発明者ウィリアム・エム・ジョンソンアメリカ合衆国、78746 テキサス州、オースティン、クリスティ・ドライブ、102

Claims

【特許請求の範囲】

【請求項１】スーパースカラマイクロプロセッサであ
って、同じマイクロプロセッササイクル中に複数の命令をデコ
ードするための複数命令デコーダを含み、前記デコーダ
は同じマイクロプロセッササイクル内に整数および浮動
小数点命令の両方をデコードし、さらに前記デコーダに
結合されるデータ処理バスと、前記データ処理バスに結合される整数機能ユニットと、前記データ処理バスに結合される浮動小数点機能ユニッ
トと、前記データ処理バスに結合されて、前記整数機能ユニッ
トおよび前記浮動小数点機能ユニットの両方によって用
いられる共通リオーダバッファと、前記リオーダバッファに結合されて、前記リオーダバッ
ファから用済とされた命令結果を受入れる共通レジスタ
ファイルとを含む、スーパースカラマイクロプロセッ
サ。
【請求項２】前記整数機能ユニットが少なくとも１つ
の待合わせステーションを含む、請求項１に記載のマイ
クロプロセッサ。
【請求項３】前記整数機能ユニットが２つの待合わせ
ステーションを含む、請求項１に記載のマイクロプロセ
ッサ。
【請求項４】前記浮動小数点機能ユニットが少なくと
も１つの待合わせステーションを含む、請求項１に記載
のマイクロプロセッサ。
【請求項５】前記浮動小数点機能ユニットが２つの待
合わせステーションを含む、請求項１に記載のマイクロ
プロセッサ。
【請求項６】前記データ処理バスが、複数のｏｐコードバスと、複数のオペランドバスと、複数の命令タイプバスと、複数の結果バスと、複数の結果タグバスとを含む、請求項１に記載のマイク
ロプロセッサ。
【請求項７】前記オペランドバスがオペランドタグバ
スを含む、請求項６に記載のマイクロプロセッサ。
【請求項８】前記データ処理バスが予め定められたデ
ータ幅を示し、前記リオーダバッファが、前記データ処
理バス幅に等しい幅を示すエントリと、前記データ処理
バスのデータ幅の倍数に等しい幅を示すエントリとをス
トアするメモリ手段を含む、請求項１に記載のマイクロ
プロセッサ。
【請求項９】前記デコーダが、プログラム順に整数お
よび浮動小数点命令の両方を発行するための発行手段を
さらに含む、請求項１に記載のマイクロプロセッサ。
【請求項１０】前記データ通信バスに結合されて、前
記整数機能ユニットと前記浮動小数点機能ユニットによ
って共有される分岐予測機能ユニットをさらに含む、請
求項１に記載のマイクロプロセッサ。
【請求項１１】前記浮動小数点機能ユニットが、複数
のサイズを示すオペランドを処理する、請求項１に記載
のマイクロプロセッサ。
【請求項１２】前記浮動小数点機能ユニットが、単精
度／倍精度浮動小数点機能ユニットを含む、請求項１に
記載のマイクロプロセッサ。
【請求項１３】前記複数命令デコーダが、１マイクロ
プロセッササイクルにつき４つの命令をデコードするこ
とができる、請求項１に記載のマイクロプロセッサ。
【請求項１４】前記マイクロプロセッサを、命令およ
びデータがストアされる外部メモリにインタフェースさ
せるためのバスインタフェースユニットと、前記バスイ
ンタフェースユニットに結合される内部アドレスデータ
通信バスと、前記データ処理バスに結合されて、そこからロードおよ
びストア命令を受取るためのロード／ストア機能ユニッ
トとを含み、前記ロード／ストア機能ユニットは、前記
内部アドレスデータ通信バスに結合されて、前記外部メ
モリに前記ロード／ストア機能ユニットアクセスを与
え、さらに前記内部アドレスデータ通信バスおよび前記
デコーダに結合されて、前記デコーダに命令源を与える
命令キャッシュと、前記内部アドレスデータ通信バスおよび前記ロード／ス
トア機能ユニットに結合されるデータキャッシュとをさ
らに含み、前記内部アドレスデータ通信バスは、アドレスおよびデ
ータ情報を前記外部メモリ、前記命令キャッシュおよび
前記データキャッシュ間で通信する、請求項１に記載の
マイクロプロセッサ。
【請求項１５】命令およびデータを前記マイクロプロ
セッサに与えるための外部メモリと組合わされる、請求
項１に記載のマイクロプロセッサ。
【請求項１６】前記複数のオペランドバスが、オペラ
ンドおよびオペランドタグの両方がそれに伝達されるバ
スである、請求項６に記載のマイクロプロセッサ。
【請求項１７】スーパースカラマイクロプロセッサで
あって、同じマイクロプロセッササイクル内に複数の命令をデコ
ードするための複数命令デコーダを含み、前記デコーダ
は、同じマイクロプロセッササイクル内に整数および浮
動小数点命令の両方をデコードし、さらに前記デコーダ
に結合されるデータ処理バスと、前記データ処理バスに結合される整数機能ユニットとを
含み、前記整数機能ユニットは、前記マイクロプロセッ
サによる順序通りでない命令の実行を可能にするための
複数の待合わせステーションを含み、さらに前記データ
処理バスに結合される浮動小数点機能ユニットを含み、
前記浮動小数点機能ユニットは、前記マイクロプロセッ
サによる順序通りでない命令の実行を可能にするための
複数の待合わせステーションを含み、さらに前記データ
処理バスに結合されて、前記整数機能ユニットおよび前
記浮動小数点機能ユニットの両方によって、そこから命
令結果を受取って命令を推論的かつ順序通りではなく処
理することを可能にするために用いられる共通リオーダ
バッファと、前記リオーダバッファに結合されて、前記リオーダバッ
ファから用済とされた命令結果を受入れるためのレジス
タファイルと、前記データ処理バスに結合されて、前記整数機能ユニッ
トおよび浮動小数点機能ユニットの両方によって、コン
ピュータプログラム内のどの分岐が発生されるかを推論
的に予測するために用いられる分岐予測ユニットと、前記データ処理バスに結合されて、前記整数機能ユニッ
トおよび前記浮動小数点機能ユニットの両方によって、
情報のロードおよびストアを可能にするために用いられ
るロード／ストア機能ユニットとを含む、スーパースカ
ラマイクロプロセッサ。
【請求項１８】前記データ処理バスが、複数のｏｐコードバスと、複数のオペランドバスと、複数の命令タイプバスと、複数の結果バスと、複数の結果タグバスとを含む、請求項１７に記載のマイ
クロプロセッサ。
【請求項１９】前記オペランドバスがオペランドタグ
バスを含む、請求項１７に記載のマイクロプロセッサ。
【請求項２０】前記データ処理バスが予め定められた
データ幅を示し、前記リオーダバッファが、前記データ
処理バス幅に等しい幅を示すエントリと、前記データ処
理バスのデータ幅の倍数に等しい幅を示すエントリとを
ストアするためのメモリ手段を含む、請求項１７に記載
のマイクロプロセッサ。
【請求項２１】前記デコーダが、プログラム順に整数
および浮動小数点命令の両方を発行するための発行手段
をさらに含む、請求項１７に記載のマイクロプロセッ
サ。
【請求項２２】前記浮動小数点機能ユニットが、複数
のサイズを示すオペランドを処理する、請求項１７に記
載のマイクロプロセッサ。
【請求項２３】前記浮動小数点機能ユニットが、単精
度／倍精度浮動小数点機能ユニットを含む、請求項１７
に記載のマイクロプロセッサ。
【請求項２４】前記複数命令デコーダが、１マイクロ
プロセッササイクルにつき４つの命令をデコードするこ
とができる、請求項１７に記載のマイクロプロセッサ。
【請求項２５】前記マイクロプロセッサを、命令およ
びデータがストアされる外部メモリにインタフェースさ
せるためのバスインタフェースユニットと、前記バスインタフェースユニットに結合される内部アド
レスデータ通信バスと、前記内部アドレスデータ通信バスおよび前記デコーダに
結合されて、前記デコーダに命令源を供給する命令キャ
ッシュと、前記内部アドレスデータ通信バスおよび前記ロード／ス
トア機能ユニットに結合されるデータキャッシュとをさ
らに含み、前記内部アドレスデータ通信バスは、前記外部メモリ、
前記命令キャッシュおよび前記データキャッシュ間でア
ドレスおよびデータ情報を通信する、請求項１７に記載
のマイクロプロセッサ。
【請求項２６】前記マイクロプロセッサに命令および
データを与えるための外部メモリと組合わされる、請求
項１７に記載のマイクロプロセッサ。
【請求項２７】前記複数のオペランドバスが、オペラ
ンドおよびオペランドタグの両方がそれに伝達されるバ
スである、請求項１８に記載のマイクロプロセッサ。