JP2001521241A

JP2001521241A - 分岐予測を迅速に特定するための命令キャッシュ内のバイト範囲に関連する分岐セレクタ

Info

Publication number: JP2001521241A
Application number: JP2000518321A
Authority: JP
Inventors: トラン，サン・エム
Original assignee: Advanced Micro Devices Inc
Current assignee: Advanced Micro Devices Inc
Priority date: 1997-10-24
Filing date: 1998-06-13
Publication date: 2001-11-06
Anticipated expiration: 2018-06-13
Also published as: DE69802209D1; DE69802209T2; EP1025488B1; US5978906A; JP3794917B2; US6279107B1; US6141748A; WO1999022293A1; KR100577445B1; EP1025488A1; KR20010031396A

Abstract

(57)【要約】分岐予測ユニットは、命令キャッシュに記憶された連続する命令バイトの群の各々に対応する１組の分岐セレクタを記憶する。各分岐セレクタは、その分岐セレクタに対応するフェッチアドレスが提示されると、選択すべき分岐予測を特定する。連続する命令バイトの群に対して記憶された分岐セレクタの数を最小にするために、その群は複数のバイト範囲に分けられる。最大のバイト範囲は命令セット中の（復帰命令を除く）最短の分岐命令を含む多数のバイトを含み得る。たとえば、最短の分岐命令は一実施例では２バイトであり得る。したがって、最大のバイト範囲はこの例では２バイトである。群としての分岐セレクタは、テイクン予測された分岐命令のエンドバイトにおいてのみ値を変更する（すなわち別の分岐命令を示す）ので、群内のバイト数より少ない分岐セレクタが記憶され得る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】

本発明はマイクロプロセッサの分野に関し、より特定的には、マイクロプロセ
ッサ内の分岐予測機構に関する。

【０００２】

【関連技術の説明】

スーパースカラマイクロプロセッサは、１クロックサイクルあたり複数の命令
を実行すること、および設計と整合した可能な限り最短のクロックサイクルを選
択することにより、高性能を達成する。ここでは、用語「クロックサイクル」は
、マイクロプロセッサ内の命令処理パイプラインの種々の段階に与えられた時間
のインターバルを表わすものとして用いられる。記憶装置（たとえばレジスタお
よびアレイ）はクロックサイクルに従ってそれらの値を取込む。たとえば、記憶
装置はクロックサイクルを規定するクロック信号の立上がりエッジまたは立下が
りエッジに従って値を取込むであろう。この記憶装置はその後、それぞれクロッ
ク信号の後続の立上がりエッジまたは立下がりエッジまで、その値を記憶する。
用語「命令処理パイプライン」はここでは、パイプライン形式で命令を処理する
ために採用された論理回路を示すのに用いられる。このパイプラインは、命令処
理の部分が行なわれるいかなる数の段階に分けられてもよいが、命令処理は通常
、命令のフェッチ、命令のデコード、命令の実行、およびその実行の結果の、命
令によって特定された宛先をへの格納を含む。

【０００３】スーパースカラマイクロプロセッサ（およびスーパーパイプラインマイクロプ
ロセッサ）の重要な特徴は、その分岐予測機構である。分岐予測機構は分岐命令
に対して予測された方向（テイクンまたはノットテイクン）を示し、分岐予測に
よって示された予測命令ストリーム内で後続の命令のフェッチを続けることを可
能にする。分岐命令は少なくとも２つのアドレス（分岐命令に直接続く命令で始
まる命令ストリームを特定する順次アドレス、およびメモリ内の任意の場所で始
まる命令ストリームを特定するターゲットアドレス）のうちの１つから、後続の
命令をフェッチさせる命令である。無条件分岐命令は常にターゲットアドレスへ
分岐するのに対し、条件付き分岐命令は先行の命令の出力に基づいて順次アドレ
スかターゲットアドレスかのいずれかを選択し得る。予測命令ストリームからの
命令は、分岐命令の実行に先行して投機的に実行されてもよく、またいかなる場
合も、分岐命令の実行に先行して命令処理パイプラインに置かれる。予測命令ス
トリームが正しい場合、クロックサイクルごとに実行される命令の数が増加する
という効果を奏する。しかしながら、予測命令ストリームが正しくない場合（す
なわち１つ以上の分岐命令が誤って予測された場合）、誤って予測された命令ス
トリームからの命令は命令処理パイプラインから廃棄され、クロックサイクルご
とに実行される命令の数は減少する。

【０００４】効果を発揮するためには、分岐予測機構は予測命令ストリームができる限り高
い頻度で正しくなるように非常に正確でなければならない。典型的には、分岐予
測機構の正確さを増すには、分岐予測機構の複雑さを増すとよい。たとえば、分
岐予測が命令キャッシュ内の命令バイトの特定のキャッシュラインに対応して記
憶されるという、キャッシュラインベースの分岐予測スキームを採用してもよい
。キャッシュラインとは、キャッシュ内の記憶スペースを割当および割当解除す
る際の単位として扱われる、多数の連続するバイトである。命令キャッシュライ
ンがフェッチされると、対応する分岐予測もまたフェッチされる。さらに、特定
のキャッシュラインが廃棄されると、対応する分岐予測も同様に廃棄される。キ
ャッシュラインはメモリ内で整列される。キャッシュラインベースの分岐予測ス
キームは、各キャッシュラインに対してより多数の分岐予測を記憶することによ
りさらに正確にされ得る。所与のキャッシュラインは複数の分岐命令を含み、そ
れらの各々は異なる分岐予測によって表わされ得る。したがって、キャッシュラ
インにより多くの分岐予測を割当てると、より多くの分岐命令が分岐予測機構に
よって表わされかつ予測されることが可能になる。分岐予測機構内に代理を持た
ない分岐命令は予測されず、後に分岐がテイクンであるとわかると「予測誤り」
が検出され得る。しかしながら、追加された分岐予測の中から選択する必要があ
ることによって分岐予測機構の複雑さが増大する。ここでは「分岐予測」は、分
岐命令がテイクンまたはノットテイクンであるか否かの予測として、分岐予測機
構によって解釈され得る値として用いられる。さらに、分岐予測はターゲットア
ドレスを含み得る。キャッシュラインベースの分岐予測機構に関しては、フェッ
チされているキャッシュラインに対するシーケンシャルなラインの予測とは、キ
ャッシュラインからフェッチされている命令内に分岐命令が全くない場合の分岐
予測である。

【０００５】分岐予測機構の複雑さを増すことに関する問題は、複雑さが増すと、通常、分
岐予測を形成するのにかかる所要時間も増す必要があるということである。たと
えば、複数の分岐予測間での選択はかなりの時間を要し得る。フェッチアドレス
のオフセットは、キャッシュライン内のフェッチされている先頭バイトを特定す
る。すなわち、オフセットに先行する分岐命令の分岐予測は選択すべきではない
。いずれの分岐予測を用いるかを決定するために、キャッシュライン内のフェッ
チアドレスのオフセットをキャッシュラインに対して記憶された分岐予測によっ
て表わされる分岐命令のオフセットと比較する必要があり得る。フェッチアドレ
スのオフセットの後に続き、かつフェッチアドレスのオフセットに後続する他の
分岐命令と比べてフェッチアドレスのオフセットにより近い、分岐命令に対応す
る分岐予測が選択されるべきである。分岐予測の数が増大すると、選択論理の複
雑さ（および所要時間）も増大する。フェッチアドレスに対する分岐予測を形成
するための所要時間がマイクロプロセッサのクロックサイクル時間を超えると、
マイクロプロセッサの性能は低減し得る。分岐予測を単一クロックサイクルで形
成することはできないので、前のフェッチアドレスに対応する分岐予測がないこ
とにより、命令をフェッチすることができないクロックサイクル中に「バブル」
が命令処理パイプラインに入り込む。このバブルは、後続のクロックサイクル中
にも命令処理パイプラインのさまざまな段階を占め、バブルは命令を含まないの
でバブルを含む段階ではいかなる処理も行なわれない。したがって、マイクロプ
ロセッサの性能は低減し得る。

【０００６】

【発明の概要】上述した問題の大部分は、本発明に従った分岐予測ユニットによって解決され
る。分岐予測ユニットは、命令キャッシュに記憶された連続する命令バイトの群
の各々に対応する１組の分岐セレクタを記憶する。各分岐セレクタは、分岐セレ
クタに対応するフェッチアドレスが提示されると、選択すべき分岐予測を特定す
る。フェッチアドレスのオフセットと分岐命令のオフセットとの、時間のかかる
比較は省いてもよいという効果がある。よって、より複雑な分岐予測機構が、以
前に達成可能であったかもしれないものよりさらに高い周波数でサポートされ得
る。

【０００７】連続する命令バイトの群について記憶された分岐セレクタの数を最小にするた
めに、この群は複数のバイト範囲に分けられる。最大のバイト範囲は、命令セッ
ト内の（復帰命令を除く）最短の分岐命令を含む、複数のバイトを含み得る。た
とえば、最短の分岐命令は一実施例では２バイトであり得る。したがって、この
例では最大のバイト範囲は２バイトである。群としての分岐セレクタは、テイク
ン予測された分岐命令のエンドバイトにおいてのみ、値を変える（すなわち異な
る分岐命令を示す）ので、その群内のバイト数より少ない分岐セレクタが記憶さ
れ得る。分岐予測記憶部の大きさは、分岐セレクタが各バイトについて記憶され
るときよりも、より小さくなり得るという効果がある。より小さい分岐予測記憶
部はより速いアクセス時間を示すだろうし、分岐予測機構を用いて達成可能なク
ロックサイクル時間を向上させることができる。さらに、分岐予測記憶部が占め
る基板領域エリアも減少するので、費用も減じられ得る。

【０００８】概して、本発明は、分岐予測記憶部および選択装置を含む分岐予測機構を企図
する。命令キャッシュからフェッチされる連続する命令バイトの群に対応するフ
ェッチアドレスを受けるように結合されて、分岐予測記憶部は、複数の分岐セレ
クタを記憶するように構成される。連続する命令バイトの群は複数のバイト範囲
を含み、複数の分岐セレクタの各々が複数のバイト範囲の別の１つに対応する。
さらに、複数の分岐セレクタの各々は分岐予測を特定する。選択装置は複数の分
岐セレクタの選択された１つを選択するように構成される。複数の分岐セレクタ
の選択された１つは複数のバイト範囲の選択された１つに対応する。複数のバイ
ト範囲の選択された１つはフェッチアドレスによって特定されたバイトを含む。

【０００９】本発明はさらに、分岐予測を行なうための方法を企図する。連続する命令バイ
トの群に対応する複数の分岐セレクタが記憶される。複数の分岐セレクタの各々
は連続する命令バイトの群内の別のバイト範囲に対応し、そのバイト範囲内のバ
イトがフェッチされると選択される分岐予測を特定する。連続する命令バイトの
群の１つ以上が、フェッチアドレスを用いて命令キャッシュからフェッチされる
。フェッチアドレスに応答して、複数の分岐セレクタの１つが選択される。続い
て、複数の分岐セレクタの１つによって特定された分岐予測が選択される。

【００１０】さらに、本発明は命令キャッシュおよび分岐予測ユニットを含むマイクロプロ
セッサを企図する。命令キャッシュは、フェッチアドレスを受けるために、かつ
そのフェッチアドレスに応答して連続する命令バイトの群を与えるために、結合
される。命令キャッシュと同時にフェッチアドレスを受けるように結合されて、
分岐予測ユニットは、複数の分岐セレクタを記憶するように構成される。複数の
分岐セレクタは、連続する命令バイトの群に対応する。さらに、複数の分岐セレ
クタの各々は、連続する命令バイトの群内の複数のバイト範囲のうち対応するそ
れぞれに対応する。分岐予測ユニットは、フェッチアドレスに応答して複数の分
岐セレクタの１つを選択するように構成され、複数の分岐セレクタの１つによっ
て特定される分岐予測を用いて後続のフェッチアドレスを予測するようにさらに
構成される。

【００１１】本発明のその他の目的および利点は次の詳細な説明を読むことにより、また添
付の図面を参照することにより、明らかになるであろう。

【００１２】本発明は種々の変形および代替の形態が可能であるが、それらの特定の実施例
を例として図示し、ここに詳細に述べる。しかしながら、当然、図面およびその
詳細な説明は本発明を開示した特定の形態に限定することを意図するのではなく
、逆に、前掲の請求項に規定された本発明の精神および範囲内にあるすべての変
形例、等価物および代替例を包含することを意図するものである。

【００１３】

【詳細な説明】

ここで図１を参照して、マイクロプロセッサ１０の一実施例のブロック図が示
される。マイクロプロセッサ１０はプリフェッチ／プリデコードユニット１２、
分岐予測ユニット１４、命令キャッシュ１６、命令整列ユニット１８、複数のデ
コードユニット２０Ａ−２０Ｃ、複数の予約ステーション２２Ａ−２２Ｃ、複数
の機能ユニット２４Ａ−２４Ｃ、ロード／ストアユニット２６、データキャッシ
ュ２８、レジスタファイル３０、リオーダバッファ３２、およびＭＲＯＭユニッ
ト３４を含む。ここで特定の参照番号に続いてアルファベットを付して示した要
素は、その参照番号単独でまとめて示す。たとえば、デコードユニット２０Ａか
ら２０Ｃは、まとめてデコードユニット２０と示す。

【００１４】プリフェッチ／プリデコードユニット１２はメインメモリサブシステム（図示
せず）からの命令を受けるように結合され、さらに命令キャッシュ１６および分
岐予測ユニット１４に結合される。同様に、分岐予測ユニット１４は命令キャッ
シュ１６に結合される。またさらに、分岐予測ユニット１４はデコードユニット
２０および機能ユニット２４に結合される。命令キャッシュ１６はさらに、ＭＲ
ＯＭユニット３４および命令整列ユニット１８に結合される。命令整列ユニット
１８は次いでデコードユニット２０に結合される。デコードユニット２０Ａ−２
０Ｃの各々はロード／ストアユニット２６、およびそれぞれの予約ステーション
２２Ａ−２２Ｃに結合される。予約ステーション２２Ａ−２２Ｃはそれぞれの機
能ユニット２４Ａ−２４Ｃにさらに結合される。また、デコードユニット２０お
よび予約ステーション２２はレジスタファイル３０およびリオーダバッファ３２
に結合される。機能ユニット２４は、ロード／ストアユニット２６、レジスタフ
ァイル３０、およびリオーダバッファ３２にも同様に結合される。データキャッ
シュ２８は、ロード／ストアユニット２６およびメインメモリサブシステムに結
合される。最後に、ＭＲＯＭユニット３４はデコードユニット２０に結合される
。

【００１５】一般に、分岐予測ユニット１４は分岐命令を予測するためにキャッシュライン
ベースの分岐予測機構を採用する。各キャッシュラインに対して複数の分岐予測
が記憶され得る。さらに、キャッシュラインは複数のバイト範囲に分けられ、キ
ャッシュライン内の各バイト範囲について分岐セレクタが記憶される。特定のバ
イト範囲の分岐セレクタは、キャッシュラインに関して記憶され得る分岐予測の
うち、特定のバイト範囲内のあるバイトをフェッチする命令フェッチアドレスに
適切な分岐予測がどれであるかを示す。ここでは、バイト範囲は、キャッシュラ
イン（または以下に述べるように命令キャッシュ１６の出力で全キャッシュライ
ンに満たないものが与えられた場合はその一部）内の１つ以上の連続するバイト
として用いられる。適切な分岐予測とは、特定のバイトに後続するキャッシュラ
イン内にある第１のテイクン予測された分岐命令に対する分岐予測である。ここ
で用いる用語「後続の」および「先行の」はキャッシュライン内のバイトの順序
を示す。第２のバイトが記憶されるメモリアドレスより数の小さいメモリアドレ
スに記憶されたバイトは、第２のバイトに先行するという。逆に、第２のバイト
のメモリアドレスより数が大きいメモリアドレスに記憶されたバイトは、第２の
バイトに後続する、という。同様に、プログラムを形成する命令のシーケンスの
中を一度に１ずつ進むと、第１の命令が第２の命令の前にある場合、プログラム
順で第１の命令が第２の命令に先行する、という。

【００１６】一実施例では、マイクロプロセッサ１０は、命令セットが可変バイト長命令セ
ットであるマイクロプロセッサ・アーキテクチャ（たとえばｘ８６マイクロプロ
セッサ・アーキテクチャ）を採用する。可変バイト長命令セットが採用される場
合、キャッシュライン内のどのバイトでも、所与のフェッチアドレスによってフ
ェッチされる先頭バイトとして特定されることがあり得る。たとえば、分岐命令
はキャッシュライン内のバイト位置２にターゲットアドレスを有し得る。このよ
うな場合、バイト位置０およびバイト位置１のバイトは現在のキャッシュアクセ
ス中にはフェッチされていない。さらに、テイクン予測された分岐（第１のバイ
トに後続するもの）に後続するバイトは、現在のキャッシュアクセス中にはフェ
ッチされない。テイクン予測された分岐に対する分岐予測は、キャッシュライン
からフェッチされる第１のバイトを含むバイト範囲に対応する分岐セレクタを選
択することにより見つけることができる。分岐セレクタは、後に命令キャッシュ
１６の命令フェッチ論理に与えられる適切な分岐予測を選択するために用いられ
る。続いて起こるクロックサイクル中、分岐予測はフェッチアドレスとして用い
られる。フェッチされる第１のバイトのバイト位置と、テイクン予測された分岐
命令のバイト位置とを比較する処理を、フェッチアドレスに応答する分岐予測の
生成から省くことができるという効果がある。分岐予測を形成するための所要時
間もこれに従って減少し、分岐予測機構は、単一サイクル分岐予測を与えながら
も、より高いクロック周波数（すなわちより短いクロックサイクル）で動作する
ことが可能になる。

【００１７】これまでの論述で「キャッシュライン」という用語が用いられてきたが、命令
キャッシュ１６のいくつかの実施例は、所与のクロックサイクル中にその出力に
キャッシュライン全体を与えない場合もあることを述べておく。たとえば、ある
実施例では、命令キャッシュ１６は３２バイトのキャッシュラインで構成される
。しかしながら、所与のクロックサイクル（キャッシュラインの上半分または下
半分のいずれか）において１６バイトしかフェッチされない。分岐予測記憶場所
および分岐セレクタは、フェッチされているキャッシュラインの部分に割当てら
れる。ここでは、「連続する命令バイトの群」という用語は、フェッチアドレス
に応答して特定のクロックサイクルにおける命令キャッシュによって与えられる
、命令バイトを示すのに用いられる。連続する命令バイトの群は、さまざまな実
施例によれば、キャッシュラインの一部、またはキャッシュライン全体であり得
る。連続する命令バイトの群がキャッシュラインの一部である場合でも、それは
依然としてキャッシュラインの整列されている部分である。たとえば、連続する
命令バイトの群がキャッシュラインの半分である場合、それはそのキャッシュラ
インの上半分またはそのキャッシュラインの下半分のいずれかである。多数の分
岐予測記憶場所が連続する命令バイトの群の各々に割当てられ、分岐セレクタは
その群に関連する分岐予測記憶場所の１つを示す。さらに、分岐セレクタは復帰
スタック構造からの復帰スタックアドレス、または、連続する命令バイトの群に
おける対応のバイトと、最後のバイトとの間に分岐命令が全くない場合はシーケ
ンシャルアドレスを示し得る。

【００１８】命令キャッシュ１６は命令を記憶するために設けられる高速キャッシュメモリ
である。命令は命令キャッシュ１６からフェッチされ、デコードユニット２０へ
ディスパッチされる。ある実施例では、命令キャッシュ１６は、３２バイトのラ
イン（１バイトは８バイナリビットを含む）を有する４ウェイ・セットアソシア
ティブ構造で６４キロバイトの命令まで記憶するように構成される。代替的には
、２ウェイ・セットアソシアティビティおよび他の何らかの望ましいアソシアテ
ィビティを採用してもよい。命令キャッシュ１６はさらに、命令キャッシュへの
アクセス時間を速めるためにウェイ予測スキームを採用してもよい。命令の各ラ
インを特定するタグにアクセスし、それらのタグをフェッチアドレスと比較して
ウェイを選択する代わりに、命令キャッシュ１６はアクセスされるウェイを予測
する。この方法で、ウェイは命令記憶部へのアクセスの前に選択される。命令キ
ャッシュ１６のアクセス時間はダイレクトマップされたキャッシュと同様であり
得る。タグ比較が行なわれ、ウェイ予測が正しくない場合、正しい命令がフェッ
チされ、正しくない命令は廃棄される。なお、命令キャッシュ１６はフルアソシ
アティブ、セットアソシアティブ、またはダイレクトマップされた構成として実
現され得る。

【００１９】命令はメインメモリからフェッチされ、プリフェッチ／プリデコードユニット
１２によって命令キャッシュ１６内へ記憶される。命令はその要求前に、命令キ
ャッシュ１６からプリフェッチスキームに従ってプリフェッチされ得る。さまざ
まなプリフェッチスキームがプリフェッチ／プリデコードユニット１２によって
採用され得る。プリフェッチ／プリデコードユニット１２がメインメモリから命
令キャッシュ１６へ命令を転送すると、プリフェッチ／プリデコードユニット１
２はそれらの命令の各々のバイトについて３つのプリデコードビット（スタート
ビット、エンドビット、および機能ビット）を生成する。プリデコードビットは
各命令のバウンダリを示すタグを形成する。プリデコードタグはまた、以下に詳
細に述べるように、所与の命令がデコードユニット２０によって直接デコードさ
れ得るか否か、またはその命令がＭＲＯＭユニット３４によって制御されるマイ
クロコード手続きを呼出すことによって実行されるか否かなどの追加情報も伝達
し得る。またさらに、プリフェッチ／プリデコードユニット１２は、分岐命令を
検出し、かつその分岐命令に対応する分岐予測情報を分岐予測ユニット１４内へ
記憶するように構成され得る。

【００２０】次に、可変バイト長命令セットを採用するマイクロプロセッサ１０の実施例に
対するプリデコードタグのエンコーディングの一例について述べる。可変バイト
長命令セットとは、種々の命令が種々のバイト数を占め得る命令セットである。
マイクロプロセッサ１０の一実施例によって採用される可変バイト長命令セット
の例は、ｘ８６命令セットである。

【００２１】このエンコーディングの例では、所与のバイトが命令の最初のバイトである場
合、そのバイトに対してスタートビットがセットされる。このバイトが命令の最
後のバイトである場合、そのバイトに対してエンドビットがセットされる。デコ
ードユニット２０によって直接デコードできる命令は「ファストパス」命令と呼
ばれる。残りのｘ８６命令は一実施例ではＭＲＯＭ命令と呼ばれる。ファストパ
ス命令に対して、機能ビットは、命令に含まれるプレフィックスバイトの各々に
ついてはセットされ、他のバイトについてはクリアされる。これに代えて、ＭＲ
ＯＭ命令に対しては、機能ビットは各プレフィックスバイトについてはクリアさ
れ、他のバイトについてはセットされる。命令のタイプは、エンドバイトに対応
する機能ビットを調べることにより決定され得る。機能ビットがクリアされてい
る場合、命令はファストパス命令である。逆に、機能ビットがセットされている
場合、命令はＭＲＯＭ命令である。命令のオペコードは、したがって、デコード
ユニット２０によって直接デコードできる命令内では、その命令内の第１のクリ
ア機能ビットと関連するバイトとして見つけることができる。たとえば、２つの
プレフィックスバイト、ＭｏｄＲ／Ｍバイト、および即値バイトを含むファス
トパス命令はスタートビット、エンドビット、および機能ビットを次のとおり有
するであろう。

【００２２】スタートビット１００００エンドビット００００１機能ビット１００００ある特定の実施例に従うと、スケール−インデックス−基底（ＳＩＢ）バイト
を含む命令を早期に特定することは、ＭＲＯＭユニット３４については有利であ
る。このような実施例については、命令がオペコードバイトの後に少なくとも２
バイトを含む場合、ＭｏｄＲ／Ｍバイトに対する機能ビットはＳＩＢバイトの
存在を示す。ＭｏｄＲ／Ｍバイトに対する機能ビットがセットされている場合
、ＳＩＢバイトが存在する。これに代えて、ＭｏｄＲ／Ｍバイトに対する機能
ビットがクリアされている場合、ＳＩＢバイトは存在しない。

【００２３】ＭＲＯＭ命令は、デコードユニット２０によってデコードするには複雑すぎる
と判断される命令である。ＭＲＯＭ命令は、ＭＲＯＭユニット３４を呼出すこと
により実行される。より具体的には、ＭＲＯＭ命令に出会うと、ＭＲＯＭユニッ
ト３４はその命令を解析して、定められたファストパス命令のサブセットとして
発行し、所望の動作を実行する。ＭＲＯＭユニット３４はファストパス命令のサ
ブセットをデコードユニット２０へディスパッチする。ファストパス命令として
カテゴリ化されるｘ８６命令の例のリストは、後に示す。

【００２４】マイクロプロセッサ１０は条件付き分岐命令に後続する命令を投機的にフェッ
チするために分岐予測を採用する。分岐予測動作を行なうために分岐予測ユニッ
ト１４が含まれる。一実施例では、命令キャッシュ１６内の各キャッシュライン
の１６バイト部分の各々に対して２つまでの分岐ターゲットアドレスが記憶され
る。プリフェッチ／プリデコードユニット１２は、特定のラインがプリデコード
されると初期分岐ターゲットを決定する。キャッシュラインに対応する分岐ター
ゲットの後続する更新が、キャッシュライン内の命令の実行によって起こり得る
。命令キャッシュ１６はフェッチされる命令アドレスを示すので、分岐予測ユニ
ット１４は分岐予測を形成するためにいずれの分岐ターゲットアドレスを選択す
るかを判断し得る。デコードユニット２０および機能ユニット２４は分岐予測ユ
ニット１４に更新情報を与える。分岐予測ユニット１４はキャッシュラインの１
６バイト部分ごとに２つのターゲットを記憶するので、ライン内の分岐命令のい
くつかは分岐予測ユニット１４内に記憶されない場合もある。デコードユニット
２０は分岐予測ユニット１４によって予測されなかった分岐命令を検出する。機
能ユニット２４は分岐命令を実行し、予測された分岐方向が誤りであるかを判断
する。この分岐方向は、後続の命令が分岐命令のターゲットアドレスからフェッ
チされる「テイクン」であり得る。逆に、この分岐方向は、後続の命令が分岐命
令に連続するメモリ場所からフェッチされる「ノットテイクン」でもあり得る。
予測誤りのあった分岐命令が検出されると、予測誤りのあった分岐に続く命令が
マイクロプロセッサ１０のさまざまなユニットから廃棄される。種々の適切な分
岐予測アルゴリズムが、分岐予測ユニット１４によって採用され得る。

【００２５】命令キャッシュ１６からフェッチされた命令は、命令整列ユニット１８に与え
られる。命令が命令キャッシュ１６からフェッチされると、対応するプリデコー
ドデータが走査され、フェッチされている命令に関する情報を命令整列ユニット
１８（およびＭＲＯＭユニット３４）に与える。命令整列ユニット１８は、走査
データを用いて命令をデコードユニット２０の各々と整列する。一実施例では、
命令整列ユニット１８はデコードユニット２０の８つの命令バイトの３つのセッ
トからの命令を整列する。命令は８命令バイトの各組から互いに独立して予備発
行位置に選択される。この予備発行位置はこの後、デコードユニット２０に対応
する１組の整列された発行位置にマージされ、よって整列された発行位置は、プ
ログラム順において予備発行位置内の他の命令に先行する３つの命令を含む。デ
コードユニット２０Ａは、デコードユニット２０Ｂおよび２０Ｃによって（プロ
グラム順において）同時に受けられた命令に先行する命令を受ける。同様に、デ
コードユニット２０Ｂはデコードユニット２０Ｃによって同時に受けられた命令
にプログラム順において先行する命令を受ける。

【００２６】デコードユニット２０は、命令整列ユニット１８から受けた命令をデコードす
るように構成される。レジスタオペランド情報が検出され、レジスタファイル３
０およびリオーダバッファ３２に送られる。さらに、命令が１つ以上のメモリ演
算を行なうことを要する場合、デコードユニット２０はメモリ演算をロード／ス
トアユニット２６にディスパッチする。各命令は機能ユニット２４に対する１組
の制御値にデコードされ、これらの制御値はオペランドアドレス情報および命令
に含まれ得る変位または即値データとともに、予約ステーション２２にディスパ
ッチされる。

【００２７】マイクロプロセッサ１０はアウトオブオーダ実行をサポートし、したがってリ
オーダバッファ３２を採用してレジスタ読出および書込動作についての元のプロ
グラムシーケンスの記録を取り、レジスタ・リネーミングを実現し、投機的な命
令の実行および分岐予測誤りのリカバリを可能にし、かつ精密に例外を発生する
ことを容易にする。レジスタの更新を伴う命令のデコード時にリオーダバッファ
３２内の一時記憶場所が、投機的レジスタ状態を記憶するために予約される。分
岐予測が正しくない場合には、誤予測された経路に沿って投機的に実行された命
令の結果を、レジスタファイル３０へ書込む前にバッファ内で無効にすることが
できる。同様に、特定の命令が例外を生じる場合、その特定の命令に後続する命
令は廃棄できる。この態様では、例外は「精密」である（すなわち例外を引起こ
す特定の命令に後続する命令が例外に先行して完了されることはない）。なお、
特定の命令がプログラム順で特定の命令に先行する命令の前に実行される場合、
その特定の命令は投機的に実行される、といわれる。先行する命令は分岐命令ま
たは例外を引起こす命令であるかもしれず、その場合、投機的結果はリオーダバ
ッファ３２によって廃棄され得る。

【００２８】命令制御値およびデコードユニット２０の出力に与えられた即値または変位デ
ータは、それぞれの予約ステーション２２へ直接送られる。一実施例では、各予
約ステーション２２は命令情報（すなわち命令制御値、オペランド値、オペラン
ドタグおよび／または即値データ）を、対応の機能ユニットへの発行を待ってい
るペンディング中の命令３つまでについて保持することが可能である。なお、図
１の実施例では、各予約ステーション２２は専用機能ユニット２４に関連づけら
れる。したがって、３つの専用「発行位置」が、予約ステーション２２および機
能ユニット２４によって形成される。すなわち、発行位置０は予約ステーション
２２Ａおよび機能ユニット２４Ａによって形成される。予約ステーション２２Ａ
に整列されかつディスパッチされた命令は、機能ユニット２４Ａによって実行さ
れる。同様に、発行位置１は予約ステーション２２Ｂおよび機能ユニット２４Ｂ
によって形成され、発行位置２は予約ステーション２２Ｃおよび機能ユニット２
４Ｃによって形成される。

【００２９】特定の命令のデコード時に、必要なオペランドがレジスタ場所である場合、レ
ジスタアドレス情報はリオーダバッファ３２およびレジスタファイル３０に同時
に送られる。当業者は、ｘ８６レジスタファイルが８つの３２ビットリアルレジ
スタ（典型的にはＥＡＸ、ＥＢＸ，ＥＣＸ、ＥＤＸ、ＥＢＰ、ＥＳＩ、ＥＤＩお
よびＥＳＰと呼ばれる）を含むということがわかるであろう。ｘ８６マイクロプ
ロセッサアーキテクチャを採用するマイクロプロセッサ１０の実施例では、レジ
スタファイル３０は３２ビットリアルレジスタの各々についての記憶場所を含む
。ＭＲＯＭユニット３４が用いるために、さらなる記憶場所がレジスタファイル
３０内に含まれ得る。リオーダバッファ３２は、これらのレジスタの内容を変更
するような結果に対する一時記憶場所を含み、それによりアウトオブオーダ実行
が可能になる。リオーダバッファ３２の一時記憶場所が、リアルレジスタの１つ
の内容を修正するとデコード時に判定された各命令について予約される。したが
って、特定のプログラムの実行中のさまざまな点で、リオーダバッファ３２は所
与のレジスタの投機的に実行された内容を含む１つ以上の場所を有し得る。所与
の命令のデコードに続いて、リオーダバッファ３２が所与の命令内のオペランド
として用いられるレジスタに割当てられた先行の場所を有すると判断された場合
、リオーダバッファ３２は、１）最も最近割当られた場所の値、または２）最終
的に先行の命令を実行する機能ユニットによってその値がまだ生成されていない
場合は最も最近割当てられた場所に対するタグ、のいずれかを、対応の予約ステ
ーションに送る。リオーダバッファ３２が所与のレジスタのために予約された場
所を有する場合、オペランド値（またはリオーダバッファタグ）はレジスタファ
イル３０からではなくリオーダバッファ３２から与えられる。リオーダバッファ
３２内に必要なレジスタのために予約された場所がない場合は、その値はレジス
タファイル３０から直接取られる。オペランドがメモリ場所に対応する場合、オ
ペランド値はロード／ストアユニット２６を通って予約ステーションへ与えられ
る。

【００３０】ある特定の実施例では、リオーダバッファ３２は同時にデコードされた命令を
１つの単位として記憶し操作するように構成される。この構成はここでは「ライ
ン指向」と呼ばれる。複数の命令をともに走査することにより、リオーダバッフ
ァ３２内に採用されるハードウェアは単純化され得る。たとえば、この実施例に
含まれるライン指向リオーダバッファは、デコードユニット２０によって１つ以
上の命令がディスパッチされると常に、３つの命令（各デコードユニット２０か
ら１つずつ）に関する命令情報に対して十分な記憶部を割当てる。対照的に、従
来のリオーダバッファにおいては、実際にディスパッチされる命令の数に依存し
て可変量の記憶部が割当てられる。可変量の記憶部を割当てるには、比較的大き
な数の論理ゲートが要求され得る。同時にデコードされる命令の各々が実行され
ると、この命令結果はレジスタファイル３０に同時に記憶される。この記憶部は
その後、同時にデコードされた命令の別の組に割当てるために解放される。さら
に、１命令あたり使用された制御論理回路の量は、制御論理が複数の同時にデコ
ードされた命令にわたって共用されるので、減少する。特定の命令を特定するリ
オーダバッファタグは２つのフィールド（ラインタグおよびオフセットタグ）に
分けられる。ラインタグは特定の命令を含む同時にデコードされた命令の組を特
定し、オフセットタグはその組内のどの命令が特定の命令に対応するかを特定す
る。なお、命令結果をレジスタファイル３０へ記憶し、対応する記憶部を解放す
ることは、命令を「リタイアする」と呼ばれる。さらに、マイクロプロセッサ１
０のさまざまな実施例においていかなるリオーダバッファ構成を採用してもよい
。

【００３１】前に述べたように、予約ステーション２２は、命令が対応の機能ユニット２４
によって実行されるまで命令を記憶する。命令は、（ｉ）命令のオペランドが与
えられる場合、および（ii）同じ予約ステーション２２Ａ〜２２Ｃ内にありかつ
プログラム順においてその命令に先行する命令に、オペランドがまだ与えられて
いない場合、実行のために選択される。ある命令が機能ユニット２４の１つによ
って実行されると、その命令の結果は、結果が更新リオーダバッファ３２に伝達
されるのと同時に、その結果を待っている予約ステーション２２の全てへも直接
伝達される（この技術は通常「結果フォワーディング」と呼ばれる）。命令は実
行のために選択され、関連の結果がフォワーディングされるクロックサイクル中
に機能ユニット２４Ａ−２４Ｃへと伝達され得る。予約ステーション２２はこの
フォワーディングされた結果をこの場合は機能ユニット２４へ送る。

【００３２】一実施例では、機能ユニット２４の各々は整数の加算および減算などの算術演
算、シフト、ローテート、論理演算、ならびに分岐演算を行なうように構成され
る。これらの演算は、デコードユニット２０によって特定の命令についてデコー
ドされた制御値に応答して行なわれる。浮動小数点ユニット（図示せず）もまた
浮動小数点演算に対処するために採用され得る。浮動小数点ユニットはコプロセ
ッサとして動作し、ＭＲＯＭユニット３４から命令を受け、その後リオーダバッ
ファ３２と通信して命令を完了し得る。さらに、機能ユニット２４は、ロード／
ストアユニット２６によって行なわれたロードおよびストアメモリ演算に対して
アドレス生成を行なうように構成され得る。

【００３３】機能ユニット２４の各々はまた、条件付き分岐命令の実行に関する情報を分岐
予測ユニット１４に与える。分岐予測が正しくなかった場合、分岐予測ユニット
１４は命令処理パイプラインに入った予測誤りのあった分岐に続く命令をフラッ
シュし、必要な命令を命令キャッシュ１６またはメインメモリからフェッチさせ
る。そのような状況では、誤予測された分岐命令の後に起こる元のプログラムシ
ーケンスの命令結果は廃棄され、これは投機的に実行されたものと、ロード／ス
トアユニット２６およびリオーダバッファ３２で一時的に記憶されたものとを含
む。

【００３４】機能ユニット２４によって出された結果は、レジスタ値が更新されるべき場合
リオーダバッファ３２に送られ、メモリ場所の内容が変更される場合ロード／ス
トアユニット２６に送られる。この結果がレジスタに記憶される場合、リオーダ
バッファ３２は命令がデコードされるとレジスタの値に対して予約された場所に
結果を記憶する。機能ユニット２４およびロード／ストアユニット２６からの結
果のフォワーデイングのために、複数の結果バス３８が含まれる。結果バス３８
は生成された結果、および実行中の命令を特定するリオーダバッファタグを伝達
する。

【００３５】ロード／ストアユニット２６は機能ユニット２４とデータキャッシュ２８との
間にインターフェイスを設ける。一実施例では、ロード／ストアユニット２６は
、データのための８つの記憶場所およびペンディングのロードまたはストアにつ
いてのアドレス情報を有するロード／ストアバッファを備えて構成される。デコ
ードユニット２０はロード／ストアユニット２６へのアクセスを調停する。バッ
ファがフルになると、デコードユニットは、ロード／ストアユニット２６がペン
ディングのロードまたはストア要求情報のための空きを有するまで、待機しなけ
ればならない。ロード／ストアユニット２６はまた、ペンディングのストアメモ
リ演算に対するロードメモリ演算についての従属性検査を行ない、データのコヒ
ーレンシが確実に維持されるようにする。メモリ演算とは、マイクロプロセッサ
１０とメインメモリサブシステムとの間でのデータの転送である。メモリ演算は
、メモリに記憶されたオペランドを用いる命令の結果、またはデータ転送を生じ
るが他の動作は全く生じないロード／ストア命令の結果であり得る。さらに、ロ
ード／ストアユニット２６は、ｘ８６マイクロプロセッサアーキテクチャによっ
て規定されるアドレス変換機構に関するセグメントレジスタおよび他のレジスタ
などの特殊レジスタのための特殊レジスタ記憶部を含み得る。

【００３６】一実施例では、ロード／ストアユニット２６はロードメモリ演算を投機的に行
なうように構成される。ストアメモリ演算はプログラム順に行なわれるが、予測
されたウェイへ投機的に記憶されてもよい。予測されたウェイが正しくない場合
、ストアメモリ演算に先行するデータは、後に、予測されたウェイにストアし直
され、ストアメモリ演算は正しいウェイに対して行なわれる。別の実施例でも同
様に、ストアは投機的に実行され得る。投機的に実行されたストアは、更新前の
キャッシュラインのコピーとともにストアバッファ内に位置付けられる。投機的
に実行されたストアは分岐予測誤りまたは例外が原因で後に廃棄され、キャッシ
ュラインはバッファに記憶された値へとストアし直され得る。ロード／ストアユ
ニット２６はいかなる量の投機的実行でも（投機的実行が全くない場合も含む）
行なうように構成され得る。

【００３７】データキャッシュ２８はロード／ストアユニット２６とメインメモリサブシス
テムとの間で転送されているデータを一時的に記憶するように設けられた高速キ
ャッシュメモリである。一実施例では、データキャッシュ２８は８ウェイ・セッ
トアソシアティブ構造で１６キロバイトのデータまで記憶できる容量を有する。
命令キャッシュ１６と同様、データキャッシュ２８もウェイ予測機構を採用し得
る。当然、データキャッシュ２８は、セットアソシアティブ構成を含むさまざま
な特殊メモリ構成で実現され得る。

【００３８】ｘ８６マイクロプロセッサアーキテクチャを採用するマイクロプロセッサ１０
のある特定の実施例では、命令キャッシュ１６およびデータキャッシュ２８はリ
ニアにアドレスされる。このリニアアドレスは、命令によって特定されたオフセ
ットおよびｘ８６アドレス変換機構のセグメント部分によって特定された基底ア
ドレスから形成される。リニアアドレスはまた、必要であれば、メインメモリに
アクセスするために物理アドレスへ変換され得る。リニアから物理への変換は、
ｘ８６アドレス変換機構のページング部分によって特定される。リニアにアドレ
スされたキャッシュがリニアアドレスタグを記憶することも注目される。リニア
アドレスを物理アドレスへマッピングするために、また変換エイリアスを検出す
るために、１組の物理タグ（図示せず）が採用され得る。さらに、物理タグブロ
ックはリニアから物理へのアドレス変換を行なうこともできる。

【００３９】次に図２を参照して、デコードユニット２０Ｂおよび２０Ｃの一実施例のブロ
ック図が示される。各デコードユニット２０は命令整列ユニット１８から命令を
受ける。さらに、ＭＲＯＭユニット３４は各デコードユニット２０に結合されて
特定のＭＲＯＭ命令に対応するファストパス命令をディスパッチする。デコード
ユニット２０Ｂは初期デコードユニット４０Ｂ、マルチプレクサ４２Ｂ、および
オペコードデコードユニット４４Ｂを含む。同様に、デコードユニット２０Ｃは
、初期デコードユニット４０Ｃ、マルチプレクサ４２Ｃ、およびオペコードデコ
ードユニット４４Ｃを含む。

【００４０】ｘ８６命令セット中の特定の命令は、かなり複雑でありしかも頻繁に用いられ
るものである。マイクロプロセッサ１０の一実施例では、このような命令は、特
定の機能ユニット２４Ａ−２４Ｃ内に含まれるハードウェアが実行するように構
成されているものよりも複雑な演算を含む。このような命令は「二重ディスパッ
チ」命令と呼ばれる特殊タイプのＭＲＯＭ命令として分類される。これらの命令
は１対のオペコードデコードユニット４４にディスパッチされる。なお、オペコ
ードデコードユニット４４はそれぞれの予約ステーション２２に結合される。オ
ペコードデコードユニット４４Ａ−４４Ｃの各々は、対応の予約ステーション２
２Ａ−２２Ｃおよび機能ユニット２４Ａ−２４Ｃとともに発行位置を形成する。
命令はオペコードデコードユニット４４から対応の予約ステーション２２へ伝達
され、さらに対応の機能ユニット２４へ伝達される。

【００４１】ＭＲＯＭユニット３４によって与えられた命令と初期デコードユニット４０Ｂ
によって与えられた命令との間で選択を行なうためにマルチプレクサ４２Ｂが含
まれる。ＭＲＯＭユニット３４が命令をディスパッチしているときには、マルチ
プレクサ４２ＢはＭＲＯＭユニット３４によって与えられた命令を選択する。そ
の他のときは、マルチプレクサ４２Ｂは初期デコードユニット４０Ｂによって与
えられた命令を選択する。同様に、マルチプレクサ４２ＣはＭＲＯＭユニット３
４によって与えられた命令と、初期デコードユニット４０Ｂによって与えられた
命令と、初期デコードユニット４０Ｃによって与えられた命令との間で選択する
。ＭＲＯＭユニット３４からの命令は、ＭＲＯＭユニット３４が命令をディスパ
ッチしているときに選択される。デコードユニット２０Ａ（図示せず）内の初期
デコードユニットが二重ディスパッチ命令を検出するときには、初期デコードユ
ニット４０Ｂからの命令がマルチプレクサ４２Ｃによって選択される。それ以外
は、初期デコードユニット４０Ｃからの命令が選択される。初期デコードユニッ
ト４０Ｂからオペコードデコードユニット４４Ｃへの命令を選択することにより
、デコードユニット２０Ａによってデコードされる二重ディスパッチ命令と同時
に、デコードユニット２０Ｂによってデコードされるファストパス命令もディス
パッチすることが可能になる。

【００４２】ｘ８６命令セットを採用する一実施例によれば、初期デコードユニット４０は
以下の動作を行なう。

【００４３】（ｉ）命令のプレフィックスバイトをエンコードされたプレフィックスバイ
トにマージする。

【００４４】（ii）分岐予測中に検出されなかった無条件分岐命令（無条件ジャンプ、Ｃ
ＡＬＬ、およびＲＥＴＵＲＮも含み得る）をデコードする。

【００４５】（iii）ソースフラグおよび宛先フラグをデコードする。（iv）レジスタオペランドであるソースおよび宛先オペランドをデコードし
、オペランドサイズ情報を生成する。

【００４６】（ｖ）変位および即値データがオペコードデコードユニットへ送られ得るよ
うに変位および／または即値サイズを決定する。

【００４７】オペコードデコードユニット４４は命令のオペコードをデコードするように構
成され、機能ユニット２４の制御値を生じる。変位および即値データは制御値と
ともに予約ステーション２２へ送られる。

【００４８】初期デコードユニット４０がオペランドを検出するので、マルチプレクサ４２
の出力はレジスタファイル３０およびリオーダバッファ３２へ送られる。オペラ
ンド値またはタグはこれによって予約ステーション２２へ送られ得る。さらに、
メモリオペランドは初期デコードユニット４０によって検出される。したがって
、マルチプレクサ４２の出力はロード／ストアユニット２６へ送られる。メモリ
オペランドを有する命令に対応するメモリ演算は、ロード／ストアユニット２６
によって記憶される。

【００４９】次に図３を参照して、連続する命令バイト５０の群の例および対応するブラン
チセレクタ５２の組の図が表される。図３では、命令内の各バイトは短い垂直線
（たとえば参照番号５４）で示される。さらに、群５０において命令を分離する
垂直線はバイトを区分する（たとえば参照番号５６）。図３に示す命令は可変長
であり、したがって図３に示す命令を含む命令セットは可変バイト長命令セット
である。言い換えれば、可変バイト長命令セット内の第１の命令は、その命令セ
ット内の第２の命令が占める第２のバイト数とは異なる第１のバイト数を占め得
る。その他の命令セットは固定長であってもよく、その場合には命令セット内の
各命令は他の命令の各々と同じバイト数を占める。

【００５０】図３に示すように、群５０は非分岐命令ＩＮ０−ＩＮ５を含む。命令ＩＮ０、
ＩＮ３、ＩＮ４およびＩＮ５は２バイト命令である。命令ＩＮ１は１バイト命令
であり、命令ＩＮ２は３バイト命令である。２つのテイクン予測された分岐命令
ＰＢ０およびＰＢ１も同様に図示され、各々２バイトを占めるように表わされる
。なお、非分岐および分岐の両方の命令ともさまざまなバイト数を占めることが
できる。

【００５１】テイクン予測された分岐ＰＢ０およびＰＢ１の各々のエンドバイトは群５０を
３つの領域（第１の領域５８、第２の領域６０、および第３の領域６２）に分別
する。群５０を特定するフェッチアドレスが提示されると、このグループ内のフ
ェッチアドレスのオフセットは第１の領域５８内のバイト位置を特定し、その後
出会う第１のテイクン予測された分岐命令はＰＢ０であり、したがってＰＢ０の
分岐予測が分岐予測機構によって選択される。同様に、フェッチアドレスのオフ
セットが第２の領域６０内のバイトを特定すると、適切な分岐予測はＰＢ１の分
岐予測となる。最後に、フェッチアドレスのオフセットが第３の領域６２内のバ
イトを特定すると、命令バイトの群内にありかつ特定されたバイトに後続する、
テイクン予測された分岐命令は存在しない。したがって、第３の領域６２の分岐
予測はシーケンシャルである。このシーケンシャルアドレスはメインメモリ内の
群５０の直後に続く命令バイトの群を特定する。

【００５２】ここでは、アドレスのオフセットはそのアドレスの下位の複数ビットを含むも
のとして用いられている。この数は、オフセットに関連するバイト群内の各バイ
トについて異なるビットのエンコーディングを与える。たとえば、群５０は１６
バイトである。したがって、その群内のアドレスの下位４ビットがそのアドレス
のオフセットを形成する。そのアドレスの残りのビットは、メインメモリ内の連
続する命令バイトの他の群から群５０を特定する。さらに、残りのビットの下位
複数ビットは、群５０を記憶するのに適した一列の記憶場所を選択するために、
命令キャッシュ１６によって用いられるインデックスを形成する。

【００５３】セット５２は群５０の分岐セレクタのセットの例である。群５０内の各バイト
に対して１つの分岐セレクタが含まれる。セット５２内の分岐セレクタは図１２
に示すエンコーディングを用いる。この例では、ＰＢ０に対する分岐予測は群５
０に関連する２つの分岐予測のうちの２番目のもの（分岐セレクタ値「３」で示
す）として記憶される。したがって、第１の領域５８内の各バイトに対する分岐
セレクタは「３」にセットされる。同様に、ＰＢ１に対する分岐予測は、これら
の分岐予測のうち第１のもの（分岐セレクタ値「２」と示す）として記憶される
。したがって、第２の領域６０内の各バイトに対する分岐セレクタは「２」にセ
ットされる。最後に、シーケンシャル分岐予測は、第３の領域６２内のバイトに
対する分岐セレクタによって、分岐セレクタエンコーディング「０」で示される
。

【００５４】ｘ８６命令セットの可変バイト長の性質により、分岐命令は連続する命令バイ
トのある群内で開始し、連続する命令バイトの第２の群内で終了し得ることがわ
かる。そのような場合、分岐命令の分岐予測は連続する命令バイトの第２の群と
ともに記憶される。とりわけ、連続する命令バイトの第２の群内に記憶される分
岐命令のバイトはフェッチされかつディスパッチされる必要がある。連続する命
令バイトの第１の群における分岐予測を形成することにより、命令バイトの第２
の群内に存在する分岐命令のバイトはフェッチされないであろう。

【００５５】セット５２のような分岐セレクタのセットを採用することにより、予測された
フェッチアドレスの迅速な決定が（フェッチアドレスのオフセット部分をデコー
ドすることにより、またセット５２から対応のセレクタを選択することにより）
が可能になる。しかしながら、多数の分岐セレクタが（すなわち各バイトに対し
１つ）記憶される。分岐セレクタを記憶するために採用された分岐予測記憶部の
量も対応して増加するであろう。またさらに、フェッチアドレスのオフセットに
応答して分岐セレクタを選択するためには、比較的幅の広い選択装置（たとえば
ＭＵＸなど）が必要となる。一般に、選択装置の幅が広ければ広いほど、その選
択装置（たとえば選択された分岐セレクタ）を通じて選択された値の伝搬におけ
る遅延も、より大きくなる。

【００５６】図３は、１つの領域内の各バイトに対する分岐セレクタは同じであり、領域は
分岐命令（より具体的にはテイクン予測された分岐命令）によって区分されると
いうことを示す。分岐命令は一般に、少なくともオペコード（マイクロプロセッ
サ１０によって採用された命令セット内の分岐命令を特定する）および分岐命令
のアドレス（またはその分岐命令の直後の命令のアドレス）に加算されて分岐タ
ーゲットアドレスを形成する変位を含むであろう。したがって、分岐命令は少な
くとも２バイトを占める。この事実を利用することにより、連続する命令バイト
の群に対して記憶された分岐セレクタの数を減じることができる。

【００５７】これ以降の記述については、ｘ８６マイクロプロセッサアーキテクチャが例と
して用いられる。しかしながら、ここで述べる分岐セレクタ技術はいかなるマイ
クロプロセッサアーキテクチャ内で採用されてもよく、またそのような実施例も
企図される。なお、ｘ８６マイクロプロセッサアーキテクチャにおいては、サブ
ルーチン復帰命令（たとえばＲＥＴ命令）が規定されている。サブルーチン復帰
命令は、その分岐ターゲットアドレスがＥＳＰレジスタによって示されるスタッ
クのトップから引出されることを特定する。したがって、ＲＥＴ命令は単一バイ
ト（すなわちオペコードバイト）である。この単一バイトＲＥＴ命令を、１つの
分岐命令ごとに少なくとも２つのバイトという一般規則を利用して、分岐セレク
タで操作することが、より詳細に以下に示される。

【００５８】次に図４を参照して、群５０、領域５８、６０および６２、ならびに１組の分
岐セレクタ７０の一実施例を表わす図が示される。セット７０内の分岐セレクタ
は群５０内に規定されたバイト範囲に対応する。図４に示す例では、１６の連続
する命令バイトの群に対して９の分岐セレクタが用いられる。セット７０はした
がって、図３に示すセット５２が占めるものより少ない記憶部を分岐予測記憶部
内で占め、この分岐予測記憶部をより小さくすることを可能にする。さらに、フ
ェッチアドレスに応答して分岐セレクタを選択するためにより幅の狭い選択装置
が用いられ得る。この選択された分岐セレクタはより迅速に与えられ、よって予
測されたフェッチアドレスが各クロックサイクルに与えられる、高周波数の実現
をもたらす。

【００５９】通常、所与の分岐セレクタに対して規定された最大のバイト範囲は、最短の分
岐命令（以下により詳細に述べる復帰命令を除く）と等しくされ得る。バイト範
囲の大部分は最大サイズになるように選択される。しかしながら、特定の状況に
対応するために、図４に示す実施例は最大サイズより小さい２つのバイト範囲を
採用する。特に、群５０の初期バイトは単一バイトを有するバイト範囲（図６に
関して以下により詳細に説明する）を形成する。群５０は偶数のバイトであるの
で、初期バイトに対応するバイト範囲は初期バイトのみを含み、最大バイト範囲
はこの例では２バイトであり、別のバイト範囲は同様に単一バイトを有すると規
定される。セット７０については、初期バイトに連続する群５０内のバイトが単
一バイト範囲として選択される。この選択により、図５に示すようにフェッチア
ドレスのオフセットを比較的簡単にデコードして分岐セレクタを選択することが
可能になる。

【００６０】これらのバイト範囲は最短の分岐命令より大きくならないように選択されるの
で、分岐命令はあるバイト範囲で開始し、後続のバイト範囲で終了し得る。しか
しながら、連続する命令バイトの特定の群内で分岐命令が連続する場合でも、最
大で１つの分岐命令が特定のバイト範囲で終了する。特定のバイト範囲のエンド
ではなくそのバイト範囲内で終了する分岐命令の場合については、そのバイト範
囲に対する分岐セレクタは分岐命令に後続する命令バイトに対応する分岐セレク
タとして選択される。たとえば、バイト範囲７２（バイト３〜４を含み、初期バ
イトがバイト０の番号を付される）に対する分岐セレクタは、予測された分岐Ｐ
Ｂ１に対応する分岐予測を示す。バイト範囲内のフェッチアドレスが分岐命令（
先行するバイト範囲で開始する）をフェッチしていないので、上記の法則が用い
られる。したがって、正しい分岐予測は後続の分岐に対する予測である。

【００６１】一方、分岐命令がバイト範囲内の最後のバイトで終了する場合、バイト範囲に
ついての分岐セレクタは分岐命令（たとえばバイト範囲７４）に対応する分岐セ
レクタである。したがって、フェッチアドレスが予測された分岐ＰＢ１を特定す
る（すなわちオフセットがバイト範囲７４内にある）場合、そのフェッチに用い
られる分岐予測は分岐ＰＢ１に対応する分岐予測である。

【００６２】ここで図５を参照して、図４の例に示す分岐セレクタについてのバイト範囲の
選択に対応する表７６が示される。表７６の「バイト位置」と記された列は、各
バイト範囲に対応する群５０内のバイト位置（各バイト範囲内にある各バイトの
アドレスのオフセット部分）をリストする。「分岐選択位置」と記された列は、
各バイト範囲に対応する分岐セレクタのセット７０内の分岐セレクタ位置を表わ
す。「読出アドレス」と記された列は、（後続のクロックサイクルに対して予測
されたフェッチアドレスを形成するために）対応のバイト範囲内の分岐セレクタ
を選択するようにデコードされるフェッチアドレスオフセットを（バイナリで）
リストする。読出アドレス中の「ｘ」は、ドントケア位置を示す。最後に、「エ
ンコーディングアドレス」と記された列は、そこで分岐命令が終了でき、かつそ
の分岐命令に対応する分岐予測を示すバイト範囲に対する分岐セレクタをまだ有
しているフェッチアドレスのオフセットを（バイナリで）リストする。たとえば
、分岐セレクタ位置２は、バイト位置３または４のいずれかで終了する分岐命令
に対する分岐予測を示し得る。より具体的には、バイト位置２で終了する分岐命
令は、分岐セレクタ位置２の分岐セレクタでは表わされない（これは、分岐命令
が、分岐選択位置２に関連するものとは異なったバイト範囲で開始し、したがっ
てフェッチアドレスのオフセットが、分岐セレクタ位置２に関連するバイト範囲
内にある場合、フェッチされないからである）。

【００６３】表７６の「読出アドレス」列は、フェッチアドレスオフセットの比較的簡単な
デコーディングを用いて、そのフェッチアドレスに適切な分岐セレクタを選択し
得ることを示す。分岐セレクタ位置０および１のデコーディングは、フェッチア
ドレスオフセットビットの各々を含むが、残りの位置のデコーディングは（ドン
トケアであるため）最下位ビットを除くこともある。図４に示すバイト範囲の割
当てを用いて、迅速なデコードおよび分岐セレクタの選択を達成することができ
る。

【００６４】ここで図６を参照して、図４および５に示すバイト範囲の分岐セレクタの第１
の例８０が示される。例８０は連続する命令バイトの群のバイト０のみを含むバ
イト範囲の使用を表わす。例８０は、連続する命令バイトの第１の群のバイト「
Ｅ」で終了する命令ＩＮ０と、第１の群のバイト「Ｆ」から第１の群に続く連続
する命令バイトの第２の群のバイト０へと延びる予測分岐ＰＢ０と、第２の群の
バイト「１」で開始する命令ＩＮ１とを示す。

【００６５】分岐命令ＰＢ０は第２の群のバイト０まで終了しないので、第２の群は命令キ
ャッシュ１６からフェッチされる必要がある。したがって、第１の群のバイト「
Ｅ」および「Ｆ」に対応する分岐セレクタはシーケンシャルを示し、それによっ
て第２の群がフェッチされる。シーケンシャルなフェッチアドレスは（第１の群
の最後のバイトの直後のバイトがフェッチされるので）０にセットされたオフセ
ット部分を含む。したがって、第２の群のバイト「０」に対応する分岐セレクタ
が選択される。この分岐セレクタは、分岐命令ＰＢ０に対応する分岐予測を選択
するようにコード化される。

【００６６】第２の群のバイト０および１が、図４および５に示す他のバイト範囲と同様の
バイト範囲を形成した場合、分岐命令ＰＢ０は予測不可能となるであろう。命令
バイトの複数の群にわたって延びる分岐の予測を可能にするために、この実施例
では、バイト範囲はバイト「０」を含むバイト範囲を含むように規定される。

【００６７】次に図７を参照して、図４および５に示すバイト範囲の分岐セレクタの第２の
例８２が示される。例８２は、予測された分岐命令ＰＢ０の後に復帰命令ＲＥＴ
が続く状況を表わす。分岐命令ＰＢ０はバイト「４」で終了し、これは分岐セレ
クタ位置３に対応するバイト範囲内にある（すなわちバイト「４」はバイト範囲
の最後のバイトではない）。したがって、分岐セレクタ位置３の分岐セレクタは
、バイト範囲内で終了する分岐命令に関して上述したように、ＰＢ０に対する分
岐予測を選択しない。ＲＥＴ命令はバイト範囲の最後のバイトで終了する。した
がって、分岐セレクタ位置３に対する分岐セレクタは、復帰命令（すなわち例８
２のエンコーディング「１」）を示す。

【００６８】一方、図８は復帰命令が予測されない例８４を表わす。例８４は、予測された
分岐命令ＰＢ０、復帰命令ＲＥＴ、および命令ＩＮ１を含む。分岐命令ＰＢ０は
分岐セレクタ位置２に対応するバイト範囲の最後のバイトで終了し、したがって
対応する分岐セレクタは分岐命令ＰＢ０に対応する分岐予測を選択するようにエ
ンコードされる。この復帰命令は分岐セレクタ位置３に対応するバイト範囲内で
終了し、したがってこれに対応する分岐セレクタは復帰命令を示さない。この態
様において、命令ＩＮ０がフェッチアドレスによって示されると、復帰命令は分
岐セレクタ位置３の分岐セレクタによって誤って予測されることはないであろう
。しかしながら、この復帰命令がフェッチアドレスによって示されるバイトであ
る場合、誤った予測を生じる結果となる。

【００６９】なお、例８４に示すコードシーケンスは通常のものとは異なり得る。なぜなら
、ほとんどの場合、一時変数が復帰命令の実行の直前にスタックからポップされ
るからである。したがって、テイクン予測された分岐が復帰命令の直前にあるこ
とは珍しい。

【００７０】図９は復帰命令が誤予測され得る例８６を示す。例８６では、復帰命令の直後
に予測された分岐命令ＰＢ０が続く。分岐命令ＰＢ０を実行する唯一の方法がコ
ードシーケンスの他の場所からこの命令に直接分岐することであるので、このコ
ードシーケンスもまた稀なものであり得る。また、復帰命令は、例８６では直接
分岐された場合のみ誤予測される。命令ＩＮ０がフェッチされ実行されると、復
帰命令は正しく予測される。

【００７１】ここで図１０を参照して、分岐予測ユニット１４の一実施例の一部分が示され
る。分岐予測ユニット１４および図１０に示す部分の他の実施例が企図される。
図１０に示すように、分岐予測ユニット１４は分岐予測記憶部９０、ウェイマル
チプレクサ９２、分岐セレクタマルチプレクサ９４、分岐予測マルチプレクサ９
６、シーケンシャル／復帰マルチプレクサ９８、最終予測マルチプレクサ１００
、更新論理ブロック１０２、およびデコーダ１０４を含む。分岐予測記憶部９０
およびデコーダ１０４は、命令キャッシュ１６からフェッチアドレスバス１０６
に結合される。命令キャッシュ１６に同時に与えられたフェッチアドレスは、フ
ェッチアドレスバス１０６上に伝えられる。デコーダブロック１０４は分岐セレ
クタマルチプレクサ９４に選択制御を与える。ウェイマルチプレクサ９２の予測
制御は、命令キャッシュ１６からウェイ選択バス１０８を介して与えられる。ウ
ェイ選択バス１０８はフェッチアドレスバス１０６に与えられたフェッチアドレ
スに対応するキャッシュラインを記憶する命令キャッシュ１６のウェイを与える
。さらに、選択制御はキャッシュラインのどの部分がフェッチされているかに基
づいて、デコーダ１０４によって与えられる。ウェイマルチプレクサ９２はフェ
ッチアドレスバス１０６上のフェッチアドレスによって指された、分岐予測記憶
部９０の列内の各記憶場所の内容を受けるように結合される。さらに、分岐セレ
クタマルチプレクサ９４の出力はマルチプレクサ９６、９８および１００に選択
制御を与える。シーケンシャル／復帰マルチプレクサ９８は、命令キャッシュ１
６からシーケンシャルアドレスバス１１０上に与えられたシーケンシャルアドレ
スと、復帰スタックから復帰アドレスバス１１２上に与えられた復帰アドレスと
の間で、選択を行なう。マルチプレクサ９６および９８の出力は最終予測マルチ
プレクサ１００に与えられ、これは分岐予測バス１１４を命令キャッシュ１６に
与える。命令キャッシュ１６は分岐予測バス１１４上に与えられた分岐予測を、
後続のクロックサイクルのフェッチアドレスとして用いる。更新論理ブロック１
０２は、そこに記憶された分岐予測情報を更新するのに用いられる更新バス１１
６を介して分岐予測記憶部９０に結合される。更新論理ブロック１０２は予測誤
りバス１１８を介して、機能ユニット２４およびデコードユニット２０から信号
を与えられた予測誤りに応答して、更新を行なう。さらに、更新論理ブロック１
０２は、プリデコードバス１２０上のプリフェッチ／プリデコードユニット１２
によって示された新たにプリデコードされた命令に応答して更新を行なう。

【００７２】この実施例では、分岐予測記憶部９０は命令キャッシュ１６のウェイの数と等
しいウェイの数で配置される。各ウェイに対して、キャッシュライン内に存在す
る連続する命令バイトの各群について分岐予測エントリが記憶される。図１０の
実施例では、命令バイトの２つの群が各キャッシュラインに含まれる。したがっ
て、分岐予測エントリＰ₀₀は、第１のウェイにおける連続する命令バイトの第１
の群に対応する分岐予測エントリであり、分岐予測エントリＰ₀₁は、第１のウェ
イにおける連続する命令バイトの第２の群に対応する分岐予測エントリである。
同様に、分岐予測エントリＰ₁₀は、第２のウェイにおける連続する命令バイトの
第１の群に対応する分岐予測エントリであり、分岐予測エントリＰ₁₁は、第２の
ウェイにおける連続する命令バイトの第２の群に対応する分岐予測エントリであ
る点などである。指標付けされた行内の分岐予測エントリＰ₀₀からＰ₃₁の各々は
、分岐予測記憶部９０の出力として、したがってウェイマルチプレクサ９２の入
力として、与えられる。この指標づけされた行はキャッシュへの指標づけと同様
である。すなわちフェッチアドレスのオフセット部分に含まれない多数のビット
を用いて分岐予測記憶部９０の列のうち１つを選択する。なお、分岐予測記憶部
９０は、命令キャッシュ１６より少ない列で構成され得る。たとえば、分岐予測
記憶部９０は命令キャッシュ１６の列数の１／４を含み得る。そのような場合、
命令キャッシュ１６のインデックスビットであるが分岐予測記憶部９０のインデ
ックスビットではないアドレスビットが、分岐予測情報とともに記憶され、フェ
ッチアドレスの対応するビットに対して照合されて、分岐予測情報がアクセスさ
れている命令キャッシュ１６の列と関連していることを確認する。

【００７３】ウェイマルチプレクサ９２は、命令キャッシュ１６から与えられたウェイ選択
およびフェッチアドレスにより参照される命令バイトの群に基づいて、分岐予測
情報Ｐ₀₀からＰ₃₁の組のうち１つを選択する。ここに示す実施例では、たとえば
、３２バイトのキャッシュラインは２つの１６バイトの群に分けられる。したが
って、フェッチアドレスの最下位から５番目のビットが用いられ、２つの群のい
ずれがフェッチアドレスを含むかを選択する。下位５ビットが０である場合、連
続する命令バイトの第１の群が選択される。下位５ビットが１である場合、連続
する命令バイトの第２の群が選択される。なお、ウェイ選択バス１０８上に与え
られるウェイ選択は、一実施例に従うと、前のクロックサイクルからの分岐予測
によってもたらされたウェイ予測であり得る。これに代えて、ウェイ選択は、フ
ェッチアドレスと命令キャッシュの各ウェイに記憶されるキャッシュラインを特
定するアドレスタグとのタグ比較を介して生成され得る。なお、アドレスタグは
アドレス中の、キャッシュライン内のオフセットでも命令キャッシュへのインデ
ックスでもない部分である。

【００７４】ウェイマルチプレクサ９２によって選択された分岐予測エントリは、連続する
命令バイトの群に対応する１組の分岐セレクタと、分岐予測ＢＰ１およびＢＰ２
とを含む。分岐セレクタは分岐セレクタマルチプレクサ９４に与えられ、これは
デコーダ１０４によって与えられた選択制御に基づいて分岐セレクタの１つを選
択する。デコーダ１０４はフェッチアドレスのオフセットを連続する命令バイト
の群へとデコードし、対応の分岐セレクタを（たとえば一実施例では表７６の「
読出アドレス」の列に従って）選択する。たとえば、連続する命令バイトの群が
１６バイトである場合、デコーダ１０４はフェッチアドレスの下位４ビットをデ
コードする。この態様で、分岐セレクタは選択される。

【００７５】分岐予測マルチプレクサ９６、シーケンシャル／復帰マルチプレクサ９８、お
よび最終予測マルチプレクサ１００に選択制御を与えるために選択された分岐セ
レクタが用いられる。一実施例では、分岐セレクタのエンコーディングを直接マ
ルチプレクサ選択制御として用いることができる。他の実施例では、分岐セレク
タマルチプレクサ９４とマルチプレクサ９６、９８および１００との間に論理ブ
ロックが挿入され得る。ここに示す実施例では、分岐セレクタは２ビットを含む
。選択された分岐セレクタのうち１ビットは予測マルチプレクサ９６およびシー
ケンシャル／復帰マルチプレクサ９８に選択制御を与える。他のビットは最終予
測マルチプレクサ１００に対して選択制御を与える。したがって分岐予測は、フ
ェッチされる連続する命令バイトの群に対応する分岐予測記憶部９０に記憶され
た複数の分岐予測と、フェッチされる連続する命令バイトの群にシーケンシャル
な連続する命令バイトの群のシーケンシャルアドレスと、復帰スタック構造から
の復帰スタックアドレスとから選択される。なお、マルチプレクサ９６、９８お
よび１００は単一の４ｔｏ１マルチプレクサへ結合されてもよく、選択された分
岐セレクタはこれに選択制御を与えて分岐予測記憶部９０からの２つの分岐予測
、シーケンシャルアドレス、および復帰アドレスの中から選択する。

【００７６】復帰スタック構造（図示せず）が、マイクロプロセッサ１０によって前にフェ
ッチされたサブルーチン呼出命令に対応する復帰アドレスを記憶する。一実施例
では、分岐予測記憶部９０によって記憶される分岐予測はサブルーチン呼出命令
に対応する分岐予測の表示を含む。サブルーチン呼出命令は、命令ストリームを
サブルーチン呼出命令のターゲットアドレスにリダイレクトすることに加えてシ
ーケンシャル命令のアドレス（復帰アドレス）を保存する、分岐命令のサブセッ
トである。たとえば、ｘ８６マイクロプロセッサアーキテクチャでは、サブルー
チン呼出命令（ＣＡＬＬ）は復帰アドレスをＥＳＰレジスタによって示されるス
タック上にプッシュする。

【００７７】サブルーチン復帰命令は分岐命令の別のサブセットである。サブルーチン復帰
命令は、最も最近実行されたサブルーチン呼出命令によって保存された復帰アド
レスをターゲットアドレスとして用いる。したがって、分岐予測がその分岐予測
がサブルーチン呼出命令に対応するという表示を含むと、サブルーチン呼出命令
へのシーケンシャルアドレスは復帰スタックのトップに位置づけられる。サブル
ーチン復帰命令が（特定の分岐セレクタエンコーディングによって示したように
）存在すると、復帰スタックのトップに最も近い、前に予測として用いられてい
ないアドレスをアドレスの予測として用いる。復帰スタックのトップに最も近い
、前に予測として用いられていないアドレスは、復帰スタックによって復帰アド
レスバス１１２上に（ウェイ選択バス１０８上に与えられるのと同様に復帰スタ
ックに与えられる復帰アドレスの予測されたウェイとともに）伝達される。分岐
予測ユニット１４は復帰アドレスが予測として選択されると復帰スタックに知ら
せる。復帰スタック構造の例に関しては、１９９５年１０月３０日にMahalingai
ahらにより出願され「スーパースカラマイクロプロセッサのための同期的復帰ア
ドレス予測ユニット（Speculative Return Address Prediction Unit for a Sup
erscalar Microprocessor）」と題された、同一譲受人に譲渡された同時係属中の特許出願（出願番号０８／５５０，２９６号）により詳細に記載される。この
参照された特許出願の開示をその全体においてここに引用により援用する。

【００７８】シーケンシャルアドレスは命令キャッシュ１６によって与えられる。シーケン
シャルアドレスは、メインメモリ内の連続する命令バイトの次の群をフェッチア
ドレスバス１０６上のフェッチアドレスによって示された命令バイトの群として
特定する。なお、一実施例に従うと、ウェイ予測はシーケンシャルアドレスが選
択されるとシーケンシャルアドレスに供給される。ウェイ予測はフェッチアドレ
スについて選択されるウェイと同じになるように選択され得る。これに代えて、
シーケンシャルアドレスのウェイ予測は分岐予測記憶部９０内に記憶され得る。

【００７９】上述したように、更新論理ブロック１０２は分岐予測誤りの検出時または分岐
命令の検出時に分岐予測エントリを更新し、かつプリフェッチ／プリデコードユ
ニット１２で連続する命令バイトの対応する群をプリデコードするように構成さ
れる。各分岐予測に対応する分岐予測エントリは予測が実行されると更新論理ブ
ロック１０２に記憶され得る。分岐タグはフェッチされる命令とともに（分岐タ
グバス１２２を介して）伝達されるので、プリデコーディング中に予測誤りが検
出されるかまたは分岐命令が検出されると、対応の分岐予測エントリが分岐タグ
を介して特定され得る。一実施例では、図１１に示す分岐予測エントリは、フェ
ッチすべき分岐予測エントリを生じたフェッチアドレスのインデックスおよび分
岐予測エントリが記憶されるウェイと同様に、記憶される。

【００８０】分岐予測誤りが検出されると、分岐命令を実行する機能ユニット２４またはデ
コードユニット２０のいずれかから予測誤りバス１１８上に対応の分岐タグが与
えられる。デコードユニット２０が分岐タグを与えると、予測誤りは前に検出さ
れなかったタイプのものとなる（たとえば、群内に対応の分岐予測を用いて予測
できる以上の分岐命令がある）。デコードユニット２０は無条件分岐命令（すな
わち常にターゲットアドレスを選択する分岐命令）の予測誤りを検出する。機能
ユニット２４は前に検出されなかった条件付き分岐命令による、または誤ったテ
イクン／ノットテイクン予測による、予測誤りを検出し得る。更新論理１０２は
上述の記憶部から対応の分岐予測エントリを選択する。前に検出されなかった分
岐命令の場合は、分岐予測エントリ内の分岐予測の１つが前に検出されなかった
分岐命令に割当てられる。一実施例に従うと、前に検出されなかった分岐命令に
対する分岐予測を記憶するために分岐予測の１つを選択するアルゴリズムは次の
とおりである。分岐命令がサブルーチン復帰命令である場合、その命令の分岐セ
レクタは復帰スタックを示す値になるように選択される。それ以外は、現在ノッ
トテイクンと予測されている分岐予測が選択される。分岐予測の各々が現在テイ
クン予測である場合、分岐予測はランダムに選択される。

【００８１】新たに検出された分岐命令の分岐セレクタは、選択された分岐予測を示すよう
にセットされる。さらに、新たに検出された分岐命令に先行する第１の分岐命令
と新たに検出された分岐命令との間のバイト範囲に対応する分岐セレクタが、新
たな予測に対応する分岐セレクタとしてセットされる。図１４を参照して、分岐
セレクタを更新するためのある方法を以下に示す。予測をノットテイクン予測と
してしまう誤予測がされたテイクン予測に対しては、予測誤りのあった予測に対
応する分岐セレクタが、予測誤りのあった分岐命令に続くバイトに対応する分岐
セレクタとしてセットされる。この方法では、命令が後のクロックサイクルで再
びフェッチされると、後続の分岐命令の予測が用いられるであろう。

【００８２】プリフェッチ／プリデコードユニット１２が分岐命令を検出し、かつ連続する
命令バイトの群をプリデコードすると、プリフェッチ／プリデコードユニット１
２は、キャッシュラインの命令キャッシュに無効なプリデコード情報が記憶され
るので、プリデコーディングが行なわれると連続する命令バイトの群に分岐タグ
を与える。（例（ｉ））。これに代えて、キャッシュラインがメインメモリサブ
システムからフェッチされるときにプリデコーディングが行なわれる場合、プリ
フェッチ／プリデコードユニット１２はプリデコードされている連続する命令バ
イトの群のアドレスと、その群内の分岐命令のエンドバイトのオフセットと、そ
の群を記憶するように選択された命令キャッシュのウェイとを与える（例（ｉｉ
））。例（ｉ）では、上記の分岐予測誤りの場合と同様に更新が行なわれる。例
（ｉｉ）では、命令の群に対する分岐予測記憶部９０に記憶された有効な分岐予
測エントリはまだない。この場合、更新論理ブロック１０２は、検出された分岐
に先行する分岐セレクタを、検出された分岐のために選択された分岐セレクタに
初期化する。さらに、検出された分岐に続く分岐セレクタはシーケンシャル値に
初期化される。これに代えて、分岐セレクタの各々は、命令キャッシュ１６の対
応するキャッシュラインが割当てられるとシーケンシャルに初期化されてもよく
、プリデコード中に分岐命令の検出によって例（ｉ）と同様の方法で後に更新さ
れてもよい。

【００８３】更新の発生時、更新論理ブロック１０２は更新された分岐予測エントリをフェ
ッチアドレスインデックスおよび対応するウェイとともに更新バス１１６上に与
え、分岐予測記憶部９０に記憶する。なお、分岐予測記憶部９０は、分岐予測記
憶部９０を単一ポートの記憶部として維持するために分岐保持レジスタを採用し
得る。更新された予測情報は分岐保持レジスタ内に記憶され、フェッチアドレス
バス１０６におけるアイドルサイクル時に分岐予測記憶部へと更新される。キャ
ッシュ保持レジスタ構造の例は、１９９５年６月７日にTranらにより出願され「
アレイのための遅延更新レージング（Delayed Update Pegister for an Array）
」と題された同一譲受人の同時係属特許（出願出願番号０８／４８１，９１４号
）に記載され、その全体をここに引用により援用する。

【００８４】なお、正しく予測された分岐命令の結果、対応の分岐予測も同様に更新され得
る。分岐命令の前の実行を示すカウンタ（分岐命令のテイクン／ノットテイクン
予測を形成するのに用いられる）は、たとえば増分または減分される必要がある
かもしれない。このような更新は、対応の分岐予測のリタイア時に実行される。
リタイアはリオーダバッファ３２からリタイアタグバス１２４上の分岐タグを介
して示される。

【００８５】図１０の構造は、予測された分岐セレクタを用いることにより、さらに加速さ
れ得ることがわかる。予測された分岐セレクタは各分岐予測エントリとともに記
憶され、連続する命令バイトの対応する群の前のフェッチにおいて選択された分
岐セレクタとしてセットされる。予測された分岐セレクタは分岐予測を選択する
のに用いられ、分岐セレクタマルチプレクサ９４を分岐予測発生経路から取除く
。しかしながら、選択された分岐セレクタが予測された分岐セレクタと等しいこ
とを確認するために、分岐セレクタマルチプレクサ９４がなおも採用される。選
択された分岐セレクタと予測された分岐セレクタが等しくない場合、選択された
分岐セレクタが用いられ、後続のクロックサイクル中に正しい分岐予測を与え、
正しくない分岐予測のフェッチは取り消される。

【００８６】ここで図１１を参照して、図１０に示す分岐予測ユニット１４の一実施例によ
って採用された分岐予測エントリ１３０の例が示される。分岐予測エントリ１３
０は、１組の分岐セレクタ１３６、第１の分岐予測（ＢＰ１）１３２、および第
２の分岐予測（ＢＰ２）１３４を含む。分岐セレクタ１３６の組は、分岐予測エ
ントリ１３０に対応する連続する命令バイトの群の各バイト範囲について分岐セ
レクタを含む。

【００８７】第１の分岐予測１３２は図１１に分解図で示される。第２の分岐予測１３４も
同様に構成され得る。第１の分岐予測１３２はターゲットアドレスに対応する命
令バイトを含むキャッシュラインに対するインデックス１４０、およびキャッシ
ュラインに対するウェイ選択部１４４を含む。一実施例に従うと、インデックス
１４０はターゲットアドレスおよびインデックスのオフセット部分を含む。イン
デックス１４０はウェイ選択部１４４によって示されるウェイのタグと連結され
て分岐ターゲットアドレスを形成する。これに代えて、分岐ターゲットアドレス
全体がインデックスフィールド１４０に記憶されてもよい。分岐ターゲットアド
レス全体に加えてウェイ予測が与えられるか、またはは命令キャッシュ１６の指
標づけされた行内のタグに対してタグ比較を用いてウェイ選択が行なわれ得る。

【００８８】さらに、プレディクタ１４６が各分岐予測について記憶される。プレディクタ
１４６は、対応する分岐命令が実行されテイクンである毎に増分され、対応する
分岐命令が実行されてノットテイクンである毎に減分される。プレディクタ１４
６の最上位ビットはテイクン／ノットテイクン予測として用いられる。最上位ビ
ットがセットされると、分岐命令はテイクンとして予測される。逆に、最上位ビ
ットがクリアであると、分岐命令はノットテイクンとして予測される。一実施例
では、予測カウンタは２ビットの飽和カウンタである。このカウンタは、バイナ
リ「１１」で増分されると飽和し、またバイナリ「０１」で減分されると飽和す
る。別の実施例では、このプレディクタは強い（バイナリ１）または弱い（バイ
ナリ０）テイクン予測を示す単一ビットである。強いテイクン予測が誤って予測
されると、それは弱いテイクン予測となる。弱いテイクン予測が誤って予測され
ると、分岐はノットテイクンと予測されることになり、分岐セレクタが更新され
る（すなわち誤予測されノットテイクンとなる分岐の場合）。最後に、呼出ビッ
ト１４８が第１の分岐予測１３２に含まれる。呼出ビット１４８は、セット時に
は対応の分岐命令がサブルーチン呼出命令であることを示す。呼出ビット１４８
がセットされると、現在のフェッチアドレスおよびウェイは上述の復帰スタック
構造内へ記憶される。

【００８９】次に図１２を参照して、分岐セレクタエンコーディングの例を表す表１３８が
示される。分岐セレクタが対応する値でエンコードされたときに選択された分岐
予測に続いて、バイナリエンコーディングがリストされる（はじめに最上位ビッ
ト）。表１３８が表すように、分岐セレクタの最下位ビットは、分岐予測マルチ
プレクサ９６およびシーケンシャル／復帰マルチプレクサ９８に対する選択制御
として用いられ得る。最下位ビットがクリアされると、第１の分岐予測は分岐予
測マルチプレクサ９６によって選択され、シーケンシャルアドレスはシーケンシ
ャル／復帰マルチプレクサ９８によって選択される。一方、第２の分岐予測は、
最下位ビットがクリアされると、分岐予測マルチプレクサ９６によって選択され
、復帰アドレスはシーケンシャル／復帰マルチプレクサ９８によって選択される
。さらに、分岐セレクタの最上位ビットは最終予測マルチプレクサ１００に対す
る選択制御として用いられ得る。最上位ビットがセットされると、分岐予測マル
チプレクサ９６の出力が選択される。最上位ビットがクリアされると、シーケン
シャル／復帰マルチプレクサ９８の出力が選択される。

【００９０】次に図１３を参照して、図４および５で規定されたバイト範囲に従って、命令
キャッシュ１６からフェッチされた連続する命令バイトの群に対する有効マスク
の生成を表すフローチャートが示される。この有効マスクは群内の各命令バイト
について１ビットを含み、これはこのバイトが予測された命令ストリームの部分
であるか否かを示す。マスク内の有効ビットはフェッチアドレスのオフセット部
分によって選択されるバイトと、選択された分岐予測によって予測される分岐命
令との間にセットされる。これらのバイトは、命令キャッシュ１６から読出され
る連続する命令バイトの群からフェッチされる命令を含む。フェッチアドレスの
オフセットより前のバイトはフェッチされず、テイクン予測された分岐命令に後
続するバイトもまたフェッチされない。分岐命令のエンドは、対応の分岐セレク
タの最後の例によってほぼ位置づけられる。しかしながら、分岐命令がバイト範
囲内で終了する場合には、分岐命令の最終バイトを包含するように調整がなされ
得る。

【００９１】現在の分岐セレクタ（すなわちフェッチアドレスをデコードすることで分岐予
測ユニット１４によって選択された分岐セレクタ）は、連続する命令バイトの群
に対応する分岐セレクタで排他的ＮＯＲされ（ステップ１５０）、よってバイト
範囲ごとに１ビットを含む予備的マスクを作り出す。現在の分岐セレクタに等し
い分岐セレクタに対応するバイト範囲の各々はこの予備的マスクにおけるビット
がセットされていることによって表され、現在の分岐セレクタと異なる分岐セレ
クタを含むバイト範囲は予備的マスク内のクリアビットによって表される。第１
のマスクは、１バイトより大きいバイト（本実施例では２バイト）を有するバイ
ト範囲に対応する予備的マスクにおける各ビットを複製することにより予備的マ
スクから作成される（ステップ１５２）。一般に、このビットはバイト範囲を表
すビットの総数がバイト範囲内のビット数と等しくなるまでコピーされる。さら
に、第２のマスクは第１のマスクを右にシフトさせることにより作成される（ス
テップ１５４）。

【００９２】テイクン予測された分岐命令が（バイト範囲のエンドではなく）バイト範囲内
で終了する場合、有効マスクが第１のマスクと第２のマスクとを論理和すること
により作成される（判断ブロック１５６およびステップ１５８）。この様にして
、分岐命令が終了するバイト範囲内にあり分岐命令の一部であるバイトの有効が
確認される。一方、分岐命令がバイト範囲のエンドで終了する場合、そのバイト
範囲に対する分岐セレクタは分岐命令を示す。この場合、第１のマスクが第２の
マスクを用いて修正しなくても正しい。したがって、第１のマスクが有効マスク
として選択される（ステップ１６０）。

【００９３】ここで図１４を参照して、誤って予測された分岐命令に応答して連続する命令
バイトの群の分岐セレクタを更新するように採用されたステップを表すフローチ
ャートが示される。プリデコーディング中に発見された分岐命令に起因する更新
も同様に行なわれ得る。この予測誤りは、予測情報が分岐予測記憶部９０に記憶
されていない分岐命令を検出した結果であるか、または対応のプレディクタにノ
ットテイクンであると示させる誤ったテイクン／ノットテイクン予測の結果であ
り得る。

【００９４】予測誤りが検出されると、分岐予測ユニット１４は「エンドポインタ」、すな
わち連続する命令バイトの対応する群内の誤予測された分岐命令のエンドバイト
のオフセット、を用いる。さらに、予測誤りに応答して受取った分岐タグを用い
て、更新するための分岐予測エントリが選択される。分岐予測ユニット１４はエ
ンドポインタを更新マスクへデコードする（ステップ１７０）。更新マスクは、
連続する命令バイトの群内の各バイト範囲に対して１ビットを含む。分岐命令の
エンドバイトを含むバイト範囲の前のバイト範囲に対応するビットがセットされ
（エンドバイトがバイト範囲内の最終バイトであれば、分岐命令のエンドバイト
を含むバイト範囲に対応するビットがセットされる）、残りのビットはクリアさ
れる。したがって更新マスクは、分岐命令に先行しかつ分岐命令を含むバイト範
囲の各々を特定する。

【００９５】分岐予測ユニット１４は現在の分岐セレクタを特定する。誤って予測されたテ
イクン／ノットテイクン予測については、現在の分岐セレクタは誤って予測され
た分岐命令に対応する分岐セレクタである。検出されなかった分岐による予測誤
りに関しては、現在の分岐セレクタは検出されなかった分岐命令のエンドバイト
を含むバイト範囲に対応する分岐セレクタである。現在の分岐セレクタは分岐セ
レクタの各々で排他的ＮＯＲされて分岐マスクを作成する（ステップ１７２）。
分岐マスクは、現在の分岐セレクタに適合する分岐セレクタを有する各バイト範
囲についてセットされるビットと、現在の分岐セレクタに適合しない分岐セレク
タを有する各バイト範囲についてクリアされるビットとを含む。

【００９６】ステップ１７０で作成された更新マスクとステップ１７２で作成された分岐マ
スクとは後に論理積が行なわれ、最終更新マスクを生成する（ステップ１７４）
。最終更新マスクは、新たな分岐セレクタへ更新すべき連続する命令バイトの群
の各バイト範囲についてセットされるビットを含む。誤ってテイクン予測された
分岐については、新たな分岐セレクタは、誤ってテイクン予測された分岐命令に
後続するバイト範囲の分岐セレクタである。検出されなかった分岐に対しては、
新たな分岐セレクタは、更新論理ブロック１０２によって前に検出されなかった
分岐に割当てられた分岐予測記憶部を示す分岐セレクタである。

【００９７】拡張マスクもまた生成される（ステップ１７６および１７８）。この拡張マス
クは、分岐セレクタに対応する分岐予測が新たに発見された分岐命令に再び割当
てられていること、または分岐予測がここでノットテイクンを示すことから、い
ずれの分岐セレクタが消去されるべきかを示す。拡張マスクは、まず第２の分岐
マスクを作成し、これは現在の分岐セレクタの代わりに新たな分岐セレクタを用
いること以外は分岐マスクと同様である（すなわちこのマスクは連続する命令バ
イトの群に対応する分岐セレクタを新たな分岐セレクタで排他的ＮＯＲすること
により作成される（ステップ１７６））。結果として生じるマスクはその後、最
終更新マスクの反転と論理積され、拡張マスクを作成する（ステップ１７８）。
拡張マスク内のセットされているビットに対応する分岐セレクタは、拡張マスク
のビットがセットされている対応する最終バイト範囲の直後のバイト範囲の分岐
セレクタを示すように更新される。この態様で、分岐セレクタによって前に示さ
れていた分岐予測は消去され、次の分岐セレクタで置換される。ステップ１８０
で、分岐セレクタは最終更新マスクおよび拡張マスクに応答して更新される。

【００９８】次に図１５を参照して、命令バイト５０、領域５８、６０および６２、ならび
に１組の分岐セレクタ１９０の別の実施例の図が表される。セット１９０は最初
のバイト範囲と最後のバイト範囲とが各々単一バイトを含み、他の範囲が２バイ
トを含む、１組のバイト範囲に対応する。セット１９０は図４で割当てられたバ
イト範囲に対する代替のバイト範囲の割当てとして用いられ得る。多くの他のバ
イト範囲の割当ても可能であり、さまざまな実施例において企図される。図１６
は表７６と同様の表１９２である。表１９２は、図１５に表すバイト範囲につい
てのバイト位置、分岐セレクタ位置、読出アドレスおよびエンコーディングアド
レスを表す。

【００９９】ここで図１７を参照して、マイクロプロセッサ１０を含むコンピュータシステ
ム２００が示される。コンピュータシステム２００は、バスブリッジ２０２、メ
インメモリ２０４、および複数の入力／出力（Ｉ／Ｏ）装置２０６Ａ−２０６Ｎ
をさらに含む。複数のＩ／Ｏ装置２０６Ａ−２０６Ｎを、まとめてＩ／Ｏ装置２
０６と呼ぶことにする。マイクロプロセッサ１０、バスブリッジ２０２、および
メインメモリ２０４はシステムバス２０８に結合される。Ｉ／Ｏ装置２０６はバ
スブリッジ２０２と通信するためにＩ／Ｏバス２１０に結合される。

【０１００】バスブリッジ２０２は、Ｉ／Ｏ装置２０６とシステムバス２０８に結合された
装置との間の通信を補助するために設けられる。Ｉ／Ｏ装置２０６は典型的には
マイクロプロセッサ１０およびシステムバス２０８に結合された他の装置よりも
長いバスクロックサイクルを要求する。したがって、バスブリッジ２０２はシス
テムバス２０８と入力／出力バス２１０との間にバッファを設ける。さらに、バ
スブリッジ２０２はトランザクションをあるバスプロトコルから別のものへと変
換する。一実施例では、入力／出力バス２１０はＥＩＳＡ（Enhanced Industry
Standard Architecture）バスであり、バスブリッジ２０２はシステムバスプロトコルからＥＩＳＡバスプロトコルへ変換する。別の実施例では、入力／出力バ
ス２１０はＰＣＩ（Peripheral Component Imterconnect）バスであり、バスブリッジ２０２はシステムバスプロトコルをＰＣＩバスプロトコルへ変換する。な
お、システムバスプロトコルには多くの変形例が存在する。マイクロプロセッサ
１０は適切であればいかなるシステムバスプロトコルを採用してもよい。

【０１０１】Ｉ／Ｏ装置２０６はコンピュータシステム２００とコンピュータシステム外部
の他の装置との間にインタフェースを設ける。Ｉ／Ｏ装置の例はモデム、シリア
ルまたはパラレルポート、およびサウンドカードなどである。Ｉ／Ｏ装置２０６
もまた周辺装置と呼ばれ得る。メインメモリ２０４はマイクロプロセッサ１０が
用いるためのデータおよび命令を記憶する。一実施例では、メインメモリ２０４
は少なくとも１つのダイナミック・ランダム・アクセス・メモリ（ＤＲＡＭ）お
よびＤＲＡＭメモリコントローラを含む。

【０１０２】図１７に示すコンピュータシステム２００は１つのバスブリッジ２０２を含む
が、コンピュータシステム２００の他の実施例は、複数の異なるまたは同様のＩ
／Ｏバスプロトコルに変換するために複数のバスブリッジ２０２を含み得る。ま
たさらに、マイクロプロセッサ１０によって参照される命令およびデータをより
高速のメモリ記憶部に記憶することによりコンピュータシステム２００の性能を
向上させるためのキャッシュメモリも含まれ得る。このキャッシュメモリは、マ
イクロプロセッサ１０とシステムバス２０８との間に挿入されるか、またはシス
テムバス２０８上に「ルックアサイド」構成で存在し得る。さらに注目されるこ
とは、バスブリッジ２０２、メインメモリ２０４、およびキャッシュメモリの機
能はマイクロプロセッサ１０にインタフェースするチップセット内に集積され得
ることである。

【０１０３】またさらに、ここでの議論は、さまざまな信号のアサートに言及する。ここで
は、信号は特定の状態を示す値を伝達すると「アサートされる」という。逆に、
特定の状況がないことを示す値を伝達すると信号が「デアサート」されるという
。信号は、それが論理値０を伝達するとき、または逆に論理値１を伝達するとき
に、アサートされるというふうに定義できる。さらに、上記の議論においてはさ
まざまな値が廃棄されているとして述べられている。値は多くの態様で廃棄され
得るが、通常はその値を受ける論理回路によって無視されるような値に変更する
ことを含む。たとえば、ある値がビットを含むとき、その値を廃棄するためには
その論理状態を反転するようにしてもよい。値がｎビット値である場合、ｎビッ
トエンコーディングのうちの１つが、その値が無効であることを示すようにして
もよい。値を無効のエンコーディングにセットすることにより、その値は廃棄さ
れる。さらに、ｎビット値が、セットされるとそのｎビット値が有効であること
を示すような有効ビットを含んでもよい。有効ビットをリセットすることにより
値の廃棄がされる。値を廃棄するための他の方法を用いてもよい。

【０１０４】以下の表１は、ｘ８６命令セットを採用するマイクロプロセッサ１０の一実施
例に関するファストパス、二重ディスパッチ、およびＭＲＯＭ命令を示す。

【０１０５】

【表１】

【０１０６】

【表２】

【０１０７】

【表３】

【０１０８】

【表４】

【０１０９】上記の開示に従って、分岐セレクタを用いて後続のフェッチアドレスを作成す
る際に用いる分岐予測を選択するマイクロプロセッサについて述べてきた。分岐
セレクタの迅速な選択を提供するためには、各分岐セレクタはバイト範囲と関連
づけられており、最大のバイト範囲は最短の分岐命令と等しい（一実施例）。し
たがって、高度に正確かつ迅速な分岐予測をなおも提供しつつ、相対的に最小数
の分岐セレクタが設けられる。

【０１１０】上記の開示を完全に認識すると当業者には多くの変形例および修正例が明らか
になるであろう。前掲の請求の範囲はそのような変形例および修正例をすべて包
含すると解釈されることが意図される。

【図面の簡単な説明】

【図１】スーパースカラマイクロプロセッサの一実施例のブロック図であ
る。

【図２】図１に示す１対のデコードユニットの一実施例のブロック図であ
る。

【図３】図１に示すマイクロプロセッサの分岐予測機構の一実施例に従っ
た、連続する命令バイトの群および対応する組の分岐セレクタのブロック図であ
る。

【図４】図１に示すマイクロプロセッサの分岐予測機構の別の実施例に従
った、連続する命令バイトの群および対応する組の分岐セレクタのブロック図で
ある。

【図５】１組の連続する命令バイト内のバイト範囲の一実施例を表す表で
ある。

【図６】第１の組の命令の例に対する分岐セレクタの第１の例である。

【図７】第２の組の命令の例に対する分岐セレクタの第２の例である。

【図８】第３の組の命令の例に対する分岐セレクタの第３の例である。

【図９】第４の命令セットの例に対する分岐セレクタの第４の例である。

【図１０】図１に示す分岐予測ユニットの一実施例のブロック図である。

【図１１】連続する命令バイトの群に対応する分岐予測記憶部エントリの
一実施例のブロック図である。

【図１２】図１に示す分岐予測ユニットの一実施例に対する分岐セレクタ
エンコーディングの例を示す表である。

【図１３】図１に示すマイクロプロセッサの一実施例に従ったマスク生成
を表すフローチャートである。

【図１４】分岐セレクタ更新の一実施例を表すフローチャートである。

【図１５】図１に示すマイクロプロセッサの分岐予測機構のさらに別の実
施例に従った、連続する命令バイトの群および対応する組の分岐セレクタのブロ
ック図である。

【図１６】１組の連続する命令バイト内のバイト範囲の別の実施例を示す
表である。

【図１７】図１に示すマイクロプロセッサを含むコンピュータシステムの
一実施例のブロック図である。

【手続補正書】特許協力条約第３４条補正の翻訳文提出書

【提出日】平成１２年４月２１日（２０００．４．２１）

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】特許請求の範囲

【補正方法】変更

【補正内容】

【特許請求の範囲】

【手続補正２】

【補正対象書類名】明細書

【補正対象項目名】０００５

【補正方法】変更

【補正内容】

【０００５】分岐予測機構の複雑さを増すことに関する問題は、複雑さが増すと、通常、分
岐予測を形成するのにかかる所要時間も増す必要があるということである。たと
えば、複数の分岐予測間での選択はかなりの時間を要し得る。フェッチアドレス
のオフセットは、キャッシュライン内のフェッチされている先頭バイトを特定す
る。すなわち、オフセットに先行する分岐命令の分岐予測は選択すべきではない
。いずれの分岐予測を用いるかを決定するために、キャッシュライン内のフェッ
チアドレスのオフセットをキャッシュラインに対して記憶された分岐予測によっ
て表わされる分岐命令のオフセットと比較する必要があり得る。フェッチアドレ
スのオフセットの後に続き、かつフェッチアドレスのオフセットに後続する他の
分岐命令と比べてフェッチアドレスのオフセットにより近い、分岐命令に対応す
る分岐予測が選択されるべきである。分岐予測の数が増大すると、選択論理の複
雑さ（および所要時間）も増大する。フェッチアドレスに対する分岐予測を形成
するための所要時間がマイクロプロセッサのクロックサイクル時間を超えると、
マイクロプロセッサの性能は低減し得る。分岐予測を単一クロックサイクルで形
成することはできないので、前のフェッチアドレスに対応する分岐予測がないこ
とにより、命令をフェッチすることができないクロックサイクル中に「バブル」
が命令処理パイプラインに入り込む。このバブルは、後続のクロックサイクル中
にも命令処理パイプラインのさまざまな段階を占め、バブルは命令を含まないの
でバブルを含む段階ではいかなる処理も行なわれない。したがって、マイクロプ
ロセッサの性能は低減し得る。複数の命令に同時にアクセス可能なスーパスカラプロセッサシステムを開示す
るＥＰ６０５，８７６号が参照される。複数命令アクセス内の可能な命令フェッ
チ位置の各々に対する予測フィールドを含む分岐履歴表が確立される。また、Young H.C.ら，ＥＰ３９４７１１号（東京芝浦電気株式会社）、ＷＯ９
３／１７３８５号（インテル・コーポレイション）およびＵＳ４，８６０，１９
７号（Langendorf Brian Kら）も参照される。

【手続補正３】

【補正対象書類名】明細書

【補正対象項目名】０００８

【補正方法】変更

【補正内容】

【０００８】概して、本発明は、分岐予測記憶部および選択装置を含む分岐予測機構を企図
する。命令キャッシュからフェッチされる連続する命令バイトの群に対応するフ
ェッチアドレスを受けるように結合されて、分岐予測記憶部は、複数の分岐セレ
クタを記憶するように構成される。連続する命令バイトの群は複数のバイト範囲
を含み、複数の分岐セレクタの各々が複数のバイト範囲の別の１つに対応する。
さらに、複数の分岐セレクタの各々は分岐予測を特定する。また、特定のバイト
範囲に含まれる最大バイト数は、変位を含む最短の分岐命令内のバイト数であり
、少なくとも１つの他の命令はこの変位を含む上記の最短の分岐命令より少ない
バイトを含む。選択装置は複数の分岐セレクタの選択された１つを選択するよう
に構成される。複数の分岐セレクタの選択された１つは複数のバイト範囲の選択
された１つに対応する。複数のバイト範囲の選択された１つはフェッチアドレス
によって特定されたバイトを含む。

【手続補正４】

【補正対象書類名】明細書

【補正対象項目名】０００９

【補正方法】変更

【補正内容】

【０００９】本発明はさらに、分岐予測を行なうための方法を企図する。連続する命令バイ
トの群に対応する複数の分岐セレクタが記憶される。複数の分岐セレクタの各々
は連続する命令バイトの群内の別のバイト範囲に対応し、そのバイト範囲内のバ
イトがフェッチされると選択される分岐予測を特定する。また、上記の別のバイ
ト範囲の最大のものは、変位を含む最短の分岐命令内のバイト数を含み、少なく
とも１つの他の命令はこの変位を含む上記の最短の分岐命令より少ないバイトを
含む。連続する命令バイトの群の１つ以上が、フェッチアドレスを用いて命令キ
ャッシュからフェッチされる。フェッチアドレスに応答して、複数の分岐セレク
タの１つが選択される。続いて、複数の分岐セレクタの１つによって特定された
分岐予測が選択される。

【手続補正５】

【補正対象書類名】明細書

【補正対象項目名】００７７

【補正方法】変更

【補正内容】

【００７７】サブルーチン復帰命令は分岐命令の別のサブセットである。サブルーチン復帰
命令は、最も最近実行されたサブルーチン呼出命令によって保存された復帰アド
レスをターゲットアドレスとして用いる。したがって、分岐予測がその分岐予測
がサブルーチン呼出命令に対応するという表示を含むと、サブルーチン呼出命令
へのシーケンシャルアドレスは復帰スタックのトップに位置づけられる。サブル
ーチン復帰命令が（特定の分岐セレクタエンコーディングによって示したように
）存在すると、復帰スタックのトップに最も近い、前に予測として用いられてい
ないアドレスをアドレスの予測として用いる。復帰スタックのトップに最も近い
、前に予測として用いられていないアドレスは、復帰スタックによって復帰アド
レスバス１１２上に（ウェイ選択バス１０８上に与えられるのと同様に復帰スタ
ックに与えられる復帰アドレスの予測されたウェイとともに）伝達される。分岐
予測ユニット１４は復帰アドレスが予測として選択されると復帰スタックに知ら
せる。復帰スタック構造の例に関しては、１９９５年１０月３０日にMahalingai
ahらにより出願され「スーパースカラマイクロプロセッサのための同期的復帰ア
ドレス予測ユニット（Speculative Return Address Prediction Unit for a Sup
erscalar Microprocessor）」と題された、同一譲受人に譲渡された同時係属中の特許出願（出願番号０８／５５０，２９６号）により詳細に記載される。

【手続補正６】

【補正対象書類名】明細書

【補正対象項目名】００８３

【補正方法】変更

【補正内容】

【００８３】更新の発生時、更新論理ブロック１０２は更新された分岐予測エントリをフェ
ッチアドレスインデックスおよび対応するウェイとともに更新バス１１６上に与
え、分岐予測記憶部９０に記憶する。なお、分岐予測記憶部９０は、分岐予測記
憶部９０を単一ポートの記憶部として維持するために分岐保持レジスタを採用し
得る。更新された予測情報は分岐保持レジスタ内に記憶され、フェッチアドレス
バス１０６におけるアイドルサイクル時に分岐予測記憶部へと更新される。キャ
ッシュ保持レジスタ構造の例は、１９９５年６月７日にTranらにより出願され「
アレイのための遅延更新レージング（Delayed Update Pegister for an Array）
」と題された同一譲受人の同時係属特許（出願出願番号０８／４８１，９１４号
）に記載される。

【手続補正７】

【補正対象書類名】明細書

【補正対象項目名】０１１０

【補正方法】変更

【補正内容】

【０１１０】上記の開示を完全に認識すると当業者には多くの変形例および修正例が明らか
になるであろう。

───────────────────────────────────────────────────── フロントページの続き (72)発明者トラン，サン・エムアメリカ合衆国、78730 テキサス州、オースティン、イーグル・トレイス・トレイル、5209 Ｆターム(参考） 5B013 BB04

Claims

【特許請求の範囲】

【請求項１】分岐予測機構であって、フェッチアドレスを受けるように結合された分岐予測記憶部を含み、前記フェ
ッチアドレスは命令キャッシュからフェッチされる連続する命令バイトの群に対
応し、前記連続する命令バイトの群は複数のバイト範囲を含み、前記分岐予測記
憶部は前記連続する命令バイトの群に対応する複数の分岐セレクタを記憶するよ
うに構成され、前記複数の分岐セレクタの各々は前記複数のバイト範囲の別のも
のと対応し、前記複数の分岐セレクタの各々は分岐予測を特定し、前記複数の分岐セレクタの選択されたものを選択するように構成された選択装
置を含み、前記複数の分岐セレクタの前記選択されたものは前記フェッチアドレ
スによって特定されたあるバイトを含む前記複数のバイト範囲の選択されたもの
に対応する、分岐予測機構。
【請求項２】前記フェッチアドレスによって特定された前記バイトは前記
フェッチアドレスの１組の最下位ビットによって位置づけられたバイトである、
請求項１に記載の分岐予測機構。
【請求項３】前記複数のバイト範囲の特定のものは、前記複数のバイト範
囲の残りのものと比べて最大数の前記連続する命令バイトの群を含む、請求項１
に記載の分岐予測機構。
【請求項４】前記最大数は復帰命令を除く最短の分岐命令内の多数のバイ
トを含む、請求項３に記載の分岐予測機構。
【請求項５】前記最短の分岐命令は可変バイト長命令セットのメンバであ
る、請求項４に記載の分岐予測機構。
【請求項６】前記複数のバイト範囲の特定のものは、前記連続する命令バ
イトの群の最初のものを含む、請求項１に記載の分岐予測機構。
【請求項７】前記連続するバイトの群の前記最初のものは、前記連続する
命令バイトの群内のバイトを特定するアドレスのうち番号の最も小さいアドレス
によって特定される、請求項６に記載の分岐予測機構。
【請求項８】前記複数のバイト範囲の前記特定のものは、前記命令バイト
の群の前記最初のもののみを含む、請求項７に記載の分岐予測機構。
【請求項９】前記複数の分岐セレクタの前記選択されたものによって特定
される前記分岐予測は、前記連続する命令バイトの群内の分岐命令に対応する、
請求項１に記載の分岐予測機構。
【請求項１０】前記分岐命令は、前記フェッチアドレスによって特定され
る前記バイトに後続する、請求項９に記載の分岐予測機構。
【請求項１１】前記分岐命令に先行し、かつ前記フェッチアドレスによっ
て特定された前記バイトに後続する前記連続する命令バイトの群内の命令は、他
のテイクン予測された分岐命令を除く、請求項１０に記載の分岐予測機構。
【請求項１２】分岐予測を行なうための方法であって、連続する命令バイトの群に対応する複数の分岐セレクタを記憶するステップを
含み、前記複数の分岐セレクタの各々は前記連続する命令バイトの群内の別のバ
イト範囲に対応し、かつ前記別のバイト範囲内のバイトがフェッチされると選択
すべき分岐予測を特定し、フェッチアドレスを用いて命令キャッシュから１以上の前記連続する命令バイ
トの群をフェッチするステップと、前記フェッチアドレスに応答して前記複数の分岐セレクタの１つを選択するス
テップと、前記複数の分岐セレクタの前記１つによって特定された前記分岐予測を選択す
るステップとを含む、方法。
【請求項１３】前記複数の分岐セレクタの１つを選択する前記ステップが
、前記フェッチアドレスの複数の最下位ビットをデコードするステップを含む、
請求項１２に記載の方法。
【請求項１４】前記別のバイト範囲の最大のものが、復帰命令を除く最短
の分岐命令内の多数のバイトに等しい多数のバイトを含む、請求項１２に記載の
方法。
【請求項１５】前記別々のバイト範囲の各々が、前記連続する命令バイト
の群の最初のバイトを含む最初のバイト範囲および第２のバイト範囲以外の前記
別のバイト範囲の前記最大のものの中に前記多数のバイトを含む、請求項１４に
記載の方法。
【請求項１６】前記最初のバイト範囲が前記最初のバイトのみを含む、請
求項１５に記載の方法。
【請求項１７】前記第２の範囲が、前記連続する命令バイトの群内の前記
最初のバイトに続くバイトを含む、請求項１５に記載の方法。
【請求項１８】前記第２の範囲が、前記連続する命令バイトの群内の最終
バイトを含む、請求項１５に記載の方法。
【請求項１９】マイクロプロセッサであって、フェッチアドレスを受け、かつ前記フェッチアドレスに応答して連続する命令
バイトの群を与えるように結合された命令キャッシュと、前記命令キャッシュと同時に前記フェッチアドレスを受けるように結合された
分岐予測ユニットとを含み、前記分岐予測ユニットは前記連続する命令バイトの
群に対応する複数の分岐セレクタを記憶するように構成され、前記複数の分岐セ
レクタの各々は前記連続する命令バイトの群内の複数のバイト範囲のうち対応す
る１つに対応し、前記分岐予測ユニットは前記フェッチアドレスに応答して前記
複数の分岐セレクタのうち１つを選択し、かつ前記複数の分岐セレクタの前記１
つによって特定された分岐予測を用いて後続のフェッチアドレスを予測するよう
に構成される、方法。
【請求項２０】前記分岐予測は、前記連続する命令バイトの群内の分岐命
令に対応する、請求項１９に記載のマイクロプロセッサ。