JPH0773104A

JPH0773104A - キャッシュ・システム

Info

Publication number: JPH0773104A
Application number: JP6117056A
Authority: JP
Inventors: Gregory F Grohoski; グレゴリー・フレデリック・グロホスキー; Ravindra K Nair; ラヴィンドラ・クマー・ネイアー
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1993-07-01
Filing date: 1994-05-30
Publication date: 1995-03-17
Anticipated expiration: 2012-04-02
Also published as: JP2596712B2; US5794027A

Abstract

(57)【要約】（修正有）【目的】迅速にアクセスされる小さなＢＡＢを保持す
ることにより、実行アイドル・サイクルを更に低減す
る。【構成】分岐予測バッファ（ＢＡＢ）１０と呼ばれる
小バッファが、命令プリフェッチ・ミスの発生時に、命
令キャッシュ（Ｉ−キャッシュ３４）から要求される可
能性のある命令のグループを記憶する。プリフェッチ・
ミスが発生する時、目標アドレスに対応する命令が使用
可能かどうかを確認するために、ＢＡＢ１０がチェック
される。使用可能な場合、これらの命令が適切なバッフ
ァにコピーされる。目標アドレスに対応する命令が使用
不能な場合、これらの命令がＩ−キャッシュ３４からフ
ェッチされ、バッファ及び選択的にＢＡＢ１０に配置さ
れる。ＢＡＢ１０は以前に走査されておらず、遅延なく
プリフェッチされない分岐目標アドレス４６だけを保持
する。これは小バッファ・サイズを可能とし、実行され
る命令を求めてＢＡＢ１０をチェックする時、アクセス
時間をより高速化する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明はデータ処理システム及び
それにより実行される命令ストリーム内に含まれる分岐
命令の解析に関する。特に、本発明は命令ストリーム内
の分岐の近接による遅延の短縮に関する。

【０００２】

【従来の技術】コンピュータ・アーキテクチャは一般に
プログラム実行の順次モデルを基本とし、プログラム内
の各命令はメモリからフェッチされて完全に実行され、
次の命令が同様に処理される以前に全ての結果がメモリ
に戻される。このモデルでは、実行される次の命令は、
通常、実行された命令の直後の命令に相当し、その実行
された命令に対し次に高いアドレスを有するメモリ内の
位置に記憶される。

【０００３】次に続く位置と異なる位置は分岐命令によ
り指定され、これは典型的なプログラムではしばしば発
生する。次に実行される命令が分岐目標（ターゲット）
の場合、すなわち分岐命令内に指定される場合、分岐が
発生すると言われる。分岐が常に発生する場合、これは
無条件分岐と称される。それに対し条件分岐は、分岐命
令に遭遇する時に、先行する命令によりセットされるマ
シンの状態に依存して発生する。分岐が発生しない場
合、次の順次命令がフェッチされ実行される。分岐命令
は現行とは異なる実行プログラム内の同一パスへの制御
の条件付き転送を可能とする。

【０００４】この順次モデルの単純な実施では、分岐命
令に関連する遅延は重要ではない。なぜなら、次の命令
が次の順次命令であるか、或いは分岐目標の命令である
かに関わらず、それをアクセスするために同じ方法が使
用されるからである。先行命令がまだ実行されている間
に１つの命令がフェッチされるオーバラップの実施で
は、連続する命令が実行される限り遅延は生じない。分
岐に遭遇すると、現在実行が完了されようとしている命
令に依存して、異なる目標命令が支持されて、フェッチ
された命令が捨てられなければならない可能性がある。
これは遅延をもたらす。最近の実施では、１つの命令が
フェッチされる間に、複数の命令が実行される。分岐遅
延内の同数のマシン・サイクルは、プログラムの実行に
対し要求される合計マシン・サイクルの大きな割合を占
める。

【０００５】縮小命令セット・コンピュータ（ＲＩＳ
Ｃ）では、マシン命令の大部分が単一サイクルだけの実
行を有する。これはキャッシュの重要性を増す。キャッ
シュは近い将来使用される可能性の最も高いデータまた
は命令を保持する小サイズ・メモリである。キャッシュ
は従来の主メモリに比較して、はるかに速いアクセス時
間を有し、キャッシュが要求される命令ストリームを有
効に保持する限り、高レートの命令実行の維持を支援す
る。命令ストリームのキャッシュ（Ｉ−キャッシュ）を
有するマシン内において分岐命令に遭遇する時、目標命
令がキャッシュ内において調達できない可能性がある。
要求される命令ストリームが主メモリからキャッシュに
ロードされる間、プロセッサはアイドル状態でいなけれ
ばならないために遅延が発生する。

【０００６】IBM RISC System/6000（ＩＢＭの登録商
標）などのマシン構成の高性能性に寄与する重要な要因
は、別の分岐処理ユニットによる分岐の処理である。例
えば、Grohoski G．F．による"Machine Organization o
f the IBM RISC System/6000Processor" IBM Journal o
f Research and Development、vol．34、no．1、pp．37
-581（１９９０年１月）で述べられる機構は命令ストリ
ームを先取りし、分岐命令に実際に遭遇する以前に分岐
命令を検出し、分岐目標から命令をフェッチするために
使用される。分岐が条件付きの場合、順次ストリーム及
び目標ストリームの両方からの命令が別のバッファに保
持され、分岐条件の解析が遅れた場合にも、キャッシュ
・アクセスなしに適切なパスが実行される。

【０００７】分岐条件が遅れて解析される時、順次スト
リームを含むバッファから目標ストリームを含むバッフ
ァへの切替えにより、遅延が生じる。この遅延は条件分
岐が実際にどちらのパスを実行するかを推測することに
より低減される。分岐の直後に実行される最初の命令が
別の分岐でない限り、推測が正しければ障害は発生しな
い。予測技術については、例えば米国特許第４９９１０
８０号などの文献に述べられている。

【０００８】米国特許第４６９１２７７号で述べられる
ように、システム性能を向上するために分岐目標テーブ
ルすなわちＢＴＴが使用される。ＢＴＴは分岐の目標で
ある命令を保持する。分岐が発生する時、常にテーブル
がチェックされ、"分岐先"または目標の命令がＢＴＴ内
に含まれるかどうかが確認される。肯定の場合、命令が
システム・メモリの代わりにＢＴＴから実行ユニットに
供給される。ＢＴＴは命令キャッシュの代わりに使用さ
れる。このタイプのシステムは分岐に遭遇する時、あら
ゆる分岐目標命令をＢＴＴ内に配置する。これは命令キ
ャッシュの使用を排除するが、それによる結果的に長所
をも排除する。

【０００９】分岐ユニットが命令キャッシュから適切な
命令ストリームをフェッチするまで、分岐の近接がマシ
ンを待機させる幾つかの状況が存在する。例えば、実行
される条件分岐が再度分岐に相当する目標を有する場
合、事前処理及び分岐予測が最初の分岐の目標命令スト
リームのプリフェッチを支援する。しかし、第２の分岐
の目標ストリームは間に合って使用可能にはならない。
これは "命令プリフェッチ・ミス" と呼ばれる。未解析
の条件分岐による遅延を低減するために分岐予測技術が
実施される場合、分岐の近接による命令プリフェッチ・
ミスが分岐遅延の主な要因となる。更に、単一サイクル
内で実行される命令の数が増加すると、この分岐遅延は
一層データ処理システムの全体性能を制限する。

【００１０】

【発明が解決しようとする課題】本発明の目的は、デー
タ処理システムの全体システム性能を改良することであ
る。

【００１１】本発明の別の目的は、プロセッサにより命
令が実行されるレートを改良することである。

【００１２】本発明の更に別の目的は、命令キャッシュ
再ロードの間のプロセッサ・アイドル時間を最小化する
ことである。

【００１３】

【課題を解決するための手段】本発明では、命令プリフ
ェッチ・ミスが発生する時、命令キャッシュ（Ｉ−キャ
ッシュ）から要求される可能性のある命令のグループを
記憶するために、分岐予測バッファ（ＢＡＢ）と呼ばれ
る小バッファが使用される。好適な実施例では、このバ
ッファは３２エントリ長であるが、集積回路設計におけ
るサイズ制限内の任意のサイズであって良い。プリフェ
ッチ・ミスが発生する時、目標アドレスに対応する命令
が使用可能かどうかを確認するために、ＢＡＢがチェッ
クされる。これらが使用可能な場合、これらの命令が適
切なバッファにコピーされる。すなわち、分岐が既に解
析されている場合には順次バッファに、また分岐がまだ
解析されていない場合には目標バッファにコピーされ
る。目標アドレスに対応する命令が使用不能な場合、こ
れらの命令はＩ−キャッシュからフェッチされ、順次ま
たは目標バッファ及び選択的にＢＡＢに配置される。

【００１４】ＢＡＢのサイズを制限し、そのアクセス時
間を低減するために、ＢＡＢは好適な実施例では３２エ
ントリを有する直接マップ化バッファとして構成され、
各エントリは４つの隣接命令を記憶する。第１の命令の
アドレスもまた各エントリに記憶され、順次バッファに
コピーする以前に、所望の目標アドレスと比較される。
各エントリには有効ビットが組込まれ、現アドレス空間
に対しエントリが有効な場合に限り、論理１となる。

【００１５】ＢＡＢは目標レジスタ・ビットをハッシュ
することによりインデックスされる。有効命令アドレス
のビット３０乃至３１は常に論理０であるので、単純な
機構ではＢＡＢをインデックスするためにアドレスのビ
ット２５乃至２９を使用する。ＢＡＢへの早期アクセス
が所望される場合、バッファはプリフェッチ・ミスを生
じた分岐の目標ではなく、その分岐のアドレスをハッシ
ュすることによりインデックスされる。

【００１６】本発明の主要な特徴は、ＢＡＢが選択的分
岐目標アドレスだけを保持する点である。以前に走査さ
れていない及び遅延なくプリフェッチされなかった分岐
目標アドレスだけが、ＢＡＢに記憶される。これはＢＴ
Ｔなどで知られる従来技術よりも、より小さなバッファ
・サイズを可能とし、より迅速なアクセス時間を達成す
る。

【００１７】

【実施例】分岐予測バッファ（ＢＡＢ）１０は、実質的
には図１に示される構成のランダム・アクセス・メモリ
（ＲＡＭ）である。これは１ワード／エントリ当たり１
６１ビットを有する３２エントリ・テーブルである。テ
ーブル内の各エントリは５ビットのデコーダを使用して
アクセスされる。各エントリ内の１６１ビットは有効ビ
ット１２を含み、これが論理１の場合は対応するエント
リが有効であることを示し、論理０の場合には対応する
エントリが有効でないことを示す。残りの１６０ビット
は、それぞれが１４、１６、１８、２０及び２２で示さ
れる５つの３２ビット・ワードを含み、第１のワードは
アドレスであり、残りの４ワードは主メモリ内の前記ア
ドレスで始まる次の４つの隣接マシン命令のコピーであ
る。

【００１８】図２はＢＡＢ１０と残りの命令フェッチ機
構との関係を示し、単純化された形式で示されている。
詳細な形式については、本発明における従来技術として
参照されるGrohoski G．F．による"Machine Organizati
on of the IBM RISC System/6000 Processor" IBM Jour
nal of Research and Development、vol．34、no．1、p
p．37-58 （１９９０年１月）を参照されたい。最大４
命令を含む順次バッファ２４及び最大４命令を含む目標
バッファ２６が示される。目標バッファの内容を順次バ
ッファに転送するパス２８、及びアドレスされるＢＡＢ
エントリの内容を順次バッファまたは目標バッファに転
送するパス３０及び３２が示される。更にＩ−キャッシ
ュ３４が示され、これは順次バッファ、目標バッファ及
びＢＡＢへそれぞれ至るパス３６、３８及び４０を有す
る。また命令ディスパッチ論理４２と呼ばれる論理ブロ
ックが示され、これは順次バッファ２４内の命令のイン
ターロック分析を実行し、分岐を探して順次バッファを
走査し、分岐を実行するための分岐予測、アドレス計算
及び分岐解析を実行し、命令を４４にディスパッチし、
命令が固定小数点及び浮動小数点機能ユニットに対し準
備される。命令ディスパッチ論理はまた、命令をプリフ
ェッチするために、目標アドレス４６をＩ−キャッシュ
３４及びＢＡＢ１０の両方に提供する。命令ディスパッ
チ論理は更にロードＢＡＢ信号４９を生成する。この信
号はＢＡＢに目標命令ストリームがロードされるべきこ
とを示し、これについては図７を参照して詳細に述べら
れる。

【００１９】命令ディスパッチ論理４２の動作につい
て、図３乃至図６を参照しながら説明する。最初の分岐
を探して、順次バッファが５０で走査される。これは非
分岐命令が命令ディスパッチ論理４２により発行される
時にも実行される。順次バッファ内の次の命令が分岐で
ないと５２で判断される場合、分岐に遭遇する以前に
は、少なくとも１命令が命令ディスパッチ論理により遅
延なしに発行されることが保証される。５４で非分岐命
令が発行可能かどうかが判断される。肯定の場合、命令
が５５で発行され、処理は５０に戻り継続される。否定
の場合、命令発行が次のサイクルまで保留され（ブロッ
ク５６）、次に処理は５０で再開する。分岐命令が５２
で見い出される場合は、処理は５８に移行する。

【００２０】ブロック５２を参照して、順次バッファ内
の次の命令が分岐の場合、分岐が解析されたかどうか
（すなわちシステムが分岐が発生するか否かを知ってい
るかどうか）の判断が５８で実行される。分岐が解析さ
れているか、無条件（これは無条件であるその性質その
ものから解析される）の場合、６０で分岐が発生するか
否かが判断される。分岐が発生しない場合、６２で分岐
が発行され、処理は５０に戻り継続される。この特定の
過程（すなわち分岐が発生しない）における分岐の発行
または実行は、適切なバッファから分岐命令を除去し、
状況によってはレジスタを更新することを意味する。分
岐が６０で発生する場合、６４で分岐が以前に命令プリ
フェッチ論理により走査されたかどうかが判断される。
命令が以前のサイクルで走査された分岐の場合、目標命
令が目標バッファ内で使用可能であるはずである。この
場合、６６で分岐が発行され、目標バッファが順次バッ
ファに転送される。処理は次に５０に移行する。６４で
分岐が以前に走査されていないと判断される場合、この
分岐の目標は目標バッファ２６内で使用可能でない。こ
の時、命令がＩ−キャッシュから遅延を伴わずにプリフ
ェッチできないことを示す命令プリフェッチ・ミス信号
（図２の４８）が６８でアサートされる。なぜなら、こ
れはクリティカル・パスの実行中に発生するからであ
る。処理は次に図５の１１０に移行し、後述のように継
続される。

【００２１】ブロック５８に戻り、分岐がまだ解析され
ていない場合、分岐予測が７０で実行され、分岐が発生
するか否かが推測または予測される。従来技術の所で述
べられたように、分岐予測は命令ストリームをプリフェ
ッチすることによりシステム性能を改良する。７２で分
岐が発生すると予測されると、処理は図６に移行し、後
述されるように、分岐命令が以前に命令ディスパッチ論
理により走査されたかどうかが判断される。７２で分岐
が発生しないと判断されると、７４で目標命令がフェッ
チされたかどうかがチェックされる。肯定の場合、プリ
フェッチされた目標命令に対し実行されることは何も残
っておらず、次の順次命令を７８で問い合わす。７４で
目標命令がフェッチされていないと判断される場合、こ
れが７６でＢＡＢ（目標命令がＢＡＢに含まれている場
合）またはＩ−キャッシュ（目標命令がＢＡＢに含まれ
ていない場合）から目標バッファにフェッチされる。目
標バッファは分岐予測が誤りで、必要とされる目標命令
が順次バッファ内に存在しない場合に必要とされる目標
命令を保持するために使用される。これは推測が誤りの
場合に、低速なＩ−キャッシュをアクセスする代わり
に、目標命令を実行ユニットに即時供給することにより
１サイクルを節約する。目標命令を目標バッファにフェ
ッチした後、順次バッファ内の次の命令が７８でチェッ
クされる。７９でそれが分岐命令と判断される場合、処
理は８０で１サイクル遅延される。分岐命令でない場合
は、８１で非分岐命令が発行可能かどうかがチェックさ
れる。命令が発行可能な場合、それが８３で発行され、
処理は７８に移行する。８１で命令が発行できないと判
断される場合、処理は８０で１サイクル遅延される。

【００２２】ブロック８０の遅延の後、分岐命令または
まだ発行されていない非分岐命令のいずれかに対応し
て、ディスパッチ論理が８３で、ブロック５２で検出さ
れたプリフェッチ分岐命令が解析されたかどうかを確認
する（順次命令が順次バッファから発行または実行され
ることを理解することにより、分岐が発生するか否かの
解析が可能となる）。分岐命令がまだ解析されていない
場合、７８で順次バッファの走査が継続される。しかし
ながら、分岐が８２で解析されている場合は、処理は図
４に移行する。

【００２３】図４は、分岐命令が発生しないものと予測
され、分岐が遅れて解析される場合の命令プリフェッチ
論理を示す。１２０で分岐が実際に発生するかどうかが
判断される。分岐が発生しない場合（すなわち分岐予測
が正しかった場合）、目標バッファが１２２で廃棄され
る（なぜなら分岐が発生しないために、目標バッファ内
の目標命令が必要とされない）。処理は図３のブロック
５０に戻り再開する。

【００２４】分岐が１２０で発生する場合（すなわち分
岐予測が正しくない場合）、目標バッファの内容が１２
１で順次バッファに転送される。１サイクルの遅延が１
２８で発生し（なぜなら好適な実施例では１ストリーム
だけが１度に発行されるからである）、次に処理は図３
の処理５０に戻り再開する。

【００２５】図５は、分岐が発生する分岐命令が存在す
ると判断され、その命令が以前に走査されていない場合
の命令プリフェッチ論理の動作を示す。命令が以前に走
査されたかどうかの判別は、後述のようにＢＡＢの選択
的更新を許可する。１１０でＢＡＢヒットが存在するか
どうか（すなわち目標命令ストリームがＢＡＢ内に存在
するかどうか）がチェックされる。これは分岐の目標ア
ドレスをＩ−キャッシュ及びＢＡＢの両方に並列に提供
することにより実行される。ＢＡＢヒットが存在する場
合、関連するＢＡＢ内容が順次バッファにコピーされ、
１１２で最後のＢＡＢ値に続く次の順次ラインがＩ−キ
ャッシュからフェッチされる。処理は１１４で次のサイ
クルまで遅延され、５０に移行する。ＢＡＢヒットの発
生時に１１２でＢＡＢから次の命令をロードするこの機
能は、１１６でＩ−キャッシュから順次バッファをロー
ドする間に要求されるアイドル実行サイクルを除去す
る。

【００２６】またＢＡＢ内でヒットが存在する場合、Ｉ
−キャッシュに提供されるフェッチ・アドレスが増分さ
れ、ＢＡＢから獲得される命令に続く適切な命令が獲得
されなければならない。ＢＡＢヒットが発生する時、Ｂ
ＡＢからアクセスされる４つの命令が存在するので（好
適な実施例では各命令は４バイト長である）、Ｉ−キャ
ッシュへのフェッチ・アドレスは、ＢＡＢエントリ内の
最後の命令に続く次の命令を指示するために１６増分さ
れる。

【００２７】１１０でＢＡＢヒットが存在しないと判断
されると、Ｉ−キャッシュが目標命令ストリームのため
にアクセスされなければならない。１１６では目標命令
ストリームがＩ−キャッシュから読出され、順次バッフ
ァに配置される。以前に走査されていない目標命令スト
リームがＢＡＢ内に存在しない場合は、次にＢＡＢのフ
ィルタリング／選択的更新が発生する。実行ユニットが
アイドル状態であると判断されると（こうしたアイドル
状態は好適な実施例では２サイクル後に発生する）、１
１８で目標命令ストリームがＢＡＢにコピーされる。目
標命令ストリームは、順次バッファ及びＢＡＢの両方に
実質的に同時にロードまたはコピーされる。アイドル状
態の実行ユニットは、この命令ストリームがこの命令コ
ード・パスの続く実行において要求される可能性がある
ことを示し、即時使用可能な場合に性能を改良すると思
われる値によりＢＡＢを選択的に更新する。この指示は
アイドル・サイクルが前の分岐に近接する続く分岐命令
により引起こされ、第２の分岐命令の目標命令がまだフ
ェッチされていない事実に起因する。次に処理は５０に
移行する。

【００２８】図３を参照し、７２で分岐が発生すると予
測される場合、処理は図６で示されるように継続する。
図６は未解析の分岐が発生すると予測される時の命令プ
リフェッチ論理の動作を示す。８４で、図３のステップ
６４と同様に、また同様の理由により、分岐命令が以前
に走査されたかどうかをチェックする。命令が以前に走
査された場合、目標及び順次バッファが８６でスワップ
される。目標命令が順次バッファにフェッチされた以後
に分岐が解析され、その分岐が発生するものと不正に予
測された場合には、分岐の直後に続く命令がプリフェッ
チされなければならない点に注意を要する。これによる
障害は、これらの命令がＩ−キャッシュ／ＢＡＢからの
新たな命令により重ね書きされる時に、これらを目標バ
ッファにスワップすることにより低減される。８４に戻
り、命令が以前に走査されていない場合、プリフェッチ
・ミス信号が８８でアサートされる。９０で分岐目標ア
ドレスがＢＡＢ内に配置されている（すなわちＢＡＢヒ
ット）かどうかがチェックされる。ＢＡＢヒットが存在
する場合、９２で順次バッファが目標バッファにコピー
される。これは分岐予測論理が１０２でチェックされ誤
りであるとわかった時のために、順次バッファの内容の
一時記憶を提供する。ＢＡＢは次に９２で順次バッファ
にコピーされる。これは再度、Ｉ−キャッシュをアクセ
スする必要なしに、ＢＡＢが命令ストリームを即時順次
バッファに提供することにより、性能を改良することを
示す。９０でＢＡＢヒットが存在しないと判断される
と、目標命令ストリームのためにＩ−キャッシュがアク
セスされ、これが９４で順次バッファに配置される。９
４ではまた、順次バッファの内容が目標バッファに配置
される。

【００２９】図６の８６、９２及び９４の動作の後、命
令プリフェッチ論理は９６で次のサイクルまで待機す
る。９８では分岐命令が解析されたかどうかをチェック
する。解析されていない場合、１００で順次バッファか
らの次の命令がチェックされる。１０１でそれが分岐命
令と判断されると、処理は９６で１サイクル遅延され
る。それが分岐命令ではない場合には、１０３で非分岐
命令が発行可能かどうかがチェックされる。命令が発行
可能な場合、１０５でそれが発行され、処理は１００に
移行する。１０３で命令が発行可能でないと判断される
場合、処理は９６で１サイクル遅延される。

【００３０】分岐命令が９８で解析されている場合、１
０２で分岐が発生するかどうかがチェックされる。分岐
が発生しない場合（すなわち分岐予測が不正の場合）、
１０４で目標バッファの内容が順次バッファに転送され
る。これは８６で目標バッファとスワップされた順次バ
ッファの内容を復元するために要求される。７２で分岐
が発生するものと誤って予測された事実により、余分な
ステップが引起こされ、１０２において実際には発生し
ないと判断される。ストリーム変更動作により１０４で
１サイクルの遅延が発生し、処理は次に５０に移行す
る。１０２で分岐が発生すると判断されると（すなわち
分岐予測が正しかった場合）、１０６で目標バッファが
廃棄される。なぜなら、目標バッファは使用されない順
次命令を含むからである。次に１０８でＢＡＢのフィル
タリング／選択的更新が実行される。ここでＢＡＢは、
ＢＡＢミス及び実行ユニット内にアイドル・サイクルが
存在する場合に限り、目標命令ストリームにより更新さ
れる。これについては後述される。この目標命令ストリ
ームは潜在的にＢＡＢにロードされる値であり、従来の
一時レジスタ（図示せず）に保持される。別の実施例で
は、ＢＡＢが目標命令ストリームを保持するために、追
加の一時位置を含むように拡張される。ステップ１０８
の後、処理は５０に移行する。

【００３１】図７は、命令ディスパッチ論理４２（図
２）によりＢＡＢ１０に提供される分岐目標アドレス４
６を使用し、ＢＡＢ１０が更新／アクセスされる様子を
示す。分岐目標アドレス４６のビット２５乃至２９が、
ＢＡＢ１０内の３２個のエントリの１つをアクセスする
ために、９４でデコードされる。ロードＢＡＢ信号がア
サートされると（これの生成については後述）、Ｉ−キ
ャッシュ（図２の３４）から目標アドレスと共に４命令
が入来し、アドレスされるエントリに書込まれる。ＢＡ
Ｂへの命令のロードを許可するためにロードＢＡＢ信号
を使用することにより、続いて実行されると予想される
最小数の命令だけが実際にＢＡＢへロードされる。これ
によりＢＡＢは小サイズ且つ高速に維持される。

【００３２】ＢＡＢ１０をアクセスするために、有効ビ
ットがセットされており、目標アドレスが９６及び９８
で決定されるエントリに関連する目標アドレス・フィー
ルドの内容に一致する場合、アドレスされる入力が読出
され、順次または目標バッファの内の適切なバッファに
送られる。

【００３３】ＢＡＢをアドレスするために別の機構もま
た使用される。目標アドレスを一致フィールドとして使
用する代わりに（図１及び図７の１４を参照）、分岐を
引起こす分岐命令のアドレスが使用される。このアプロ
ーチでは、分岐目標アドレスが計算されるのを待機する
ことなく、ＢＡＢがアクセスされる。この場合、分岐目
標アドレス及び分岐命令のアドレスの両方がＢＡＢに記
憶される。しかしながら、この代替アドレスを使用する
ことは（すなわち結果アドレスではなく起因アドレスを
使用する）、制御機構を複雑化する。なぜなら、分岐命
令が続く実行の異なる位置に分岐する可能性があるため
に（すなわち異なる目標アドレスを生成する）、適切な
目標命令がフェッチされたかどうかのチェックが必要と
なる。このアドレス確認は、選択されたＢＡＢエントリ
に記憶される分岐目標アドレスを、命令により生成され
る分岐目標アドレスと比較することにより達成される。

【００３４】更に、ＢＡＢがアドレス一致を有するが、
対応する命令が不正の可能性が存在するために、命令の
確認が要求される。これは複数のプロセッサまたはプロ
グラムが同時に実行される多重処理環境において発生
し、それらのそれぞれの活動化／非活動化に際し、メモ
リがスワップ・イン／スワップ・アウトされる。これは
キャッシュ同期または等価の命令が実行される時に、単
にＢＡＢエントリを無効と記すことにより容易に扱われ
る。この命令またはそれに等価なものが多重処理オペレ
ーティング・システム内に存在し、基礎を成すハードウ
ェアに対し、メモリのスワップ・イン／スワップ・アウ
ト処理によりキャッシュが再同期されなければならない
ことを命令する。

【００３５】新たなエントリがＢＡＢに書込まれる必要
があり、ＢＡＢがフルの場合、既存のエントリが置換さ
れる必要が生じる。これはＬＲＵ法（最低使用頻度エン
トリを廃棄する）、区分化ＬＲＵ法（特定の区分内のＬ
ＲＵであり、３２エントリの全てに対し、必ずしもＬＲ
Ｕエントリをピックしない）などの既知の技術を使用し
て達成される。区分化ＬＲＵの実施例は次のようであ
る。各エントリに対し４つの潜在的位置が存在する場合
（すなわち合同クラスのサイズが４である）、これは各
々が２つのエントリを有する２つの区分に区分化され
る。各合同クラスに関連して、所望のＬＲＵ区分を指示
するビットが存在する（例えば論理０ビット値は区分０
を指示し、論理１ビット値は区分１を指示する）。各区
分に関連して、その区分内のＬＲＵエントリを指示する
ビットが存在する。

【００３６】図８はサンプル命令シーケンス１４０を示
し、これは相対命令アドレス０で開始する（１４２で示
される）。デコードされる命令シーケンスが１４０で示
される。示される例では、命令は４バイト長であり、第
１の命令Ｓ１は命令アドレス０を有し、第２の命令Ｓ２
は命令アドレス４を有する。命令アドレス８はこの命令
シーケンスでは第３の命令を含み、これは分岐命令Ｂ１
である。この分岐命令は目標命令Ｘを有する目標アドレ
ス２０を有する。目標命令Ｘの直後の命令アドレス２４
には別の分岐命令Ｂ２が配置される。この第２の分岐命
令Ｂ２の目標アドレスは４０であり、ここには第２の目
標命令Ｔ１が存在する。更に順次命令Ｔ２及びＴ３がこ
のＴ１命令に続き、それぞれ命令アドレス４４及び４８
に配置される。

【００３７】図９はＢＡＢを有さないシステムによりデ
コードされ実行される場合の、図８の命令シーケンスの
パイプライン・タイミング図を示す。命令シーケンスの
読出し及び実行には３つのステージが存在する。第１の
フェーズは命令フェッチ・ステージ１４４であり、図９
では'ＩＦ'と記されている。ここでは実行される次の命
令はＩ−キャッシュから読出される。第２のステージは
デコード・ステージ１４６であり、図９では'Ｄ'と記さ
れる。ここでは整数命令がデコードされ、分岐が処理さ
れ、目標アドレスが生成される。最後に、第３のステー
ジは実行サイクル１４８であり、図９では'Ｅ'と記され
る。実行ステージは整数命令を実行する。図９の形式を
更に説明するために、様々なサイクルが１５０、１５
２、１５４、．．．及び１６６で示される。

【００３８】第１サイクル１５０の間、命令Ｓ１、Ｓ２
及びＢ１がフェッチされる。好適な実施例では、１度に
４つの命令がフェッチされる。しかしながら、分岐命令
Ｂ１に続く４番目の命令は本説明または発明では重要で
はなく、図における無関係な記述を最小化するために示
されていない。第２サイクル１５２の間、命令がデコー
ドされる。ここでＢ１がＳ２より先にデコードされる点
に注意を要する。なぜなら、更に分岐処理及び目標アド
レス生成が必要だからである。Ｂ１の結果の目標アドレ
スが次にＩＦ１４４によりフェッチされ、一方、Ｓ２が
第３サイクル１５４の間にＤ１４６によりデコードされ
る。ここで、この第３サイクル１５４の間に、Ｓ１がＥ
１４８により実行される点に注意を要する。

【００３９】上述の第２サイクル１５２の場合同様に、
第４サイクル１５６は命令Ｘ及びＢ２をＤ１４６により
デコードする。更に第４サイクル１５６において、Ｓ２
命令がステージＥ１４８により実行される。

【００４０】第５サイクル１５８の間、第４サイクル１
５６の間に決定されたＢ２の分岐目標アドレスが４０で
あることがわかる（図８参照）。命令Ｔ１及びＴ２がス
テージＩＦ１４４によりアドレス位置４０からフェッチ
される。またこの第５サイクルの間に、第１の分岐Ｂ１
からの目標命令がステージＥ１５８による実行のために
使用可能となる。これまでに、サイクル３乃至５からパ
イプラインはフルとなり、アイドル実行ステージは存在
しない。しかしながら、サイクル６では、この実行ステ
ージがアイドル状態となる（すなわちＥ１４８により命
令が実行されない）。第６サイクル１６０の間の実行ユ
ニットのこのアイドリングは、前の分岐命令の目標アド
レスから近い距離にある命令シーケンス内で発生する第
２の分岐命令Ｂ２により引起こされる。目標命令アドレ
スと続く分岐との間のこの隣接により、通常有効な３ス
テージすなわちフェッチ／デコード／実行が遅延され
る。なぜなら、第４サイクル１５６において第２の分岐
命令の目標が計算され、第５サイクル１５８においてフ
ェッチされ、第６サイクル１６０においてデコードされ
るからである。従って、これは第７サイクル１６２まで
実行ユニットにとって使用可能ではなく、１サイクルの
遅延が発生する。第８及び第９サイクル１６４及び１６
６は完全化のために示され、Ｔ２及びＴ３に対する通常
のデコード及び実行処理が行われる。

【００４１】要するに、Ｂ２の目標アドレスの決定が遅
延される。これはＢ２の目標アドレスすなわちＴ１（目
標アドレス４０）が十分に早くフェッチされないことに
よる。これはプロセッサ実行ステージＥ１４８における
アイドル・サイクルを生じる。

【００４２】本発明は前述の分岐予測バッファ（ＢＡ
Ｂ）を使用することによりこの問題を解決する。更に、
次に示す信号が生成され、ＢＡＢへのアクセス（例えば
読出し及び書込み）を制御するために使用される。第１
に、分岐が発生すると判断される時、プリフェッチ・ミ
ス信号がデコード・ステージＤ１４６により生成され
る。第２に、実行アイドル信号が生成され、これは実行
ステージＥ１４８により生成される（また図９に示され
る例ではサイクル６の間に活動化される）。このアイド
ル・サイクルは２サイクル以前に生成されたプリフェッ
チ・ミス信号に起因する。従って、ＢＡＢに新たなエン
トリをロードするために使用されるロードＢＡＢ信号は
次のように示される。ロードＢＡＢ［i］：＝実行アイドル［i］＆プリフェッ
チ・ミス［i-2］ここで添字ｉは特定のクロック・サイクルを示す（例え
ば図９の１５０乃至１６６）。図９において、ロードＢ
ＡＢ信号は、ＢＡＢに目標命令をロードするために、サ
イクル６の間に活動状態となる。ここでロードＢＡＢは
サイクル４の間には活動状態でない点に注意を要する。
なぜなら、Ｅステージ１４８がビジーであり、命令Ｘ及
びＢ２のＢＡＢへのロードを不要に妨げるからである。

【００４３】ＢＡＢに目標命令をロードするためのロー
ドＢＡＢ信号の使用は、大きな性能改良を提供する。Ｂ
ＡＢは以前に実行された分岐命令の目標命令である高い
確率を有する値によってのみロードされる。ＢＡＢのロ
ードは上述の制御信号を使用してフィルタされるので、
ＢＡＢに以前にロードされた他の値が不要にフラッシュ
されることはない。その結果、ＢＡＢに要求されるサイ
ズは従来のＢＴＴの場合よりも小さくなる。

【００４４】図１０は図９に類似のパイプライン・タイ
ミング図を示す。しかしながら、図１０は上述の図８の
命令シーケンスの処理で述べられたＢＡＢ効果を示す。
図８の命令シーケンスの第１回目では、Ｂ１及びＢ２の
どちらの目標もＢＡＢ内に存在しないと仮定すると、図
９の振舞いと同一のサイクルが適用される（すなわち第
６サイクル１６０の間にＥステージ１４８がアイドル状
態となる）。しかし２回目には、Ｂ２の目標（命令Ｔ
１）が、生成された前回のロードＢＡＢ信号の結果（及
びＢＡＢにＴ１がロードされること）により、ＢＡＢ内
に存在するものと仮定する。第１４サイクル１６８で
は、ＢＡＢ内にＢ２の目標（命令Ｔ１）を見い出したこ
とに応答して、ＢＡＢヒット信号が生成される。ＢＡＢ
エントリが２命令の深さを有し、２つの有効な命令がそ
こに存在する場合には、Ｔ３のアドレスが生成され、第
１５サイクル１７０の間にＴ３がＩ−キャッシュからフ
ェッチされる（しかしながら、好適な実施例では、ＢＡ
Ｂは４命令の深さを有する。従って、Ｔ３がＴ２と同
様、既にＢＡＢ内に存在する。なぜなら、これはＴ１か
ら４命令以内に存在するからである。２命令長ＢＡＢに
よるＩ−キャッシュからのＴ３の続くフェッチは、４命
令長ＢＡＢでは要求されない。２命令長ＢＡＢは、単
に、ＢＡＢの異なる深さサイズがどのように調整される
かを示す例として示される）。第１６サイクル１７２の
間のＥステージ１４８はアイドル状態ではない。これは
Ｂ２の目標（命令Ｔ１）が、第５サイクル１５８（図
９）で実行されたように、低速アクセスのＩ−キャッシ
ュから読出される代わりに、第１５サイクル１７０の間
にはＢＡＢから読出されるためである。

【００４５】まとめとして、本発明の構成に関して以下
の事項を開示する。

【００４６】（１）命令プリフェッチ・ミスの発生時
に、実行される可能性のある命令を保持するためのシス
テムであって、前記命令を記憶する分岐バッファと、分
岐が発生する時に、前記分岐バッファに少なくとも１つ
の前記命令を選択的にロードする手段と、前記分岐バッ
ファが前記命令プリフェッチ・ミスに対応する目標命令
を含むかどうかを判断する手段と、前記目標命令を獲得
するために前記分岐バッファをアクセスする手段と、を
含むシステム。（２）前記目標命令を命令バッファに転送する手段を含
む、前記（１）に記載のシステム。（３）前記転送手段が、前記目標命令が無条件分岐であ
る場合に前記目標命令を順次バッファに転送する順次手
段と、前記目標命令がまだ解析されていない分岐命令の
場合に、前記目標命令を目標バッファに転送する目的手
段とを含む、前記（２）に記載のシステム。（４）データ処理システムのシステム性能を改良するシ
ステムであって、命令を実行するプロセッサと、前記プ
ロセッサに結合されるキャッシュと、前記キャッシュ及
び前記プロセッサに結合され、命令プリフェッチ・ミス
が発生する場合に、前記プロセッサにより実行される少
なくとも１つのプロセッサ命令を有するバッファと、処
理される分岐命令に応答して、前記バッファに前記少な
くとも１つのプロセッサ命令を選択的にロードする手段
と、を含むシステム。（５）データ処理システムのシステム性能を改良するシ
ステムであって、命令を実行するプロセッサと、前記プ
ロセッサに結合される分岐ユニットと、前記分岐ユニッ
トに結合される順次バッファと、前記分岐ユニットに結
合される目標バッファと、前記分岐ユニットに結合され
る分岐予測バッファと、前記順次バッファ、前記目標バ
ッファ、及び前記分岐予測バッファに結合される命令キ
ャッシュと、処理される分岐命令に応答して、前記分岐
予測バッファに前記少なくとも１つのプロセッサ命令を
ロードする手段と、を含むシステム。（６）前記少なくとも１つのプロセッサ命令が前記命令
キャッシュ内に含まれる、前記（５）に記載のシステ
ム。（７）前記目標バッファのロードと同時に、前記分岐予
測バッファに前記少なくとも１つのプロセッサ命令をロ
ードする同時手段を含む、前記（５）に記載のシステ
ム。（８）前記少なくとも１つのプロセッサ命令がまだ解析
されていない条件分岐の場合、前記目標バッファがロー
ドされる、前記（７）に記載のシステム。（９）前記分岐予測バッファが前記順次バッファのロー
ドと同時に前記少なくとも１つのプロセッサ命令により
ロードされる、前記（５）に記載のシステム。（１０）前記少なくとも１つのプロセッサ命令が無条件
分岐の場合、前記順次バッファがロードされる、前記
（９）に記載のシステム。（１１）未解析の分岐が発生するか否かを予測する手段
を含む、前記（９）に記載のシステム。（１２）前記少なくとも１つのプロセッサ命令が発生し
ないと予測される未解析の条件分岐の場合、前記目標バ
ッファがロードされる、前記（１１）に記載のシステ
ム。（１３）未解析の分岐が発生するか否かを予測する手段
を含む、前記（７）に記載のシステム。（１４）前記少なくとも１つのプロセッサ命令が発生す
ると予測される未解析の条件分岐の場合、前記順次バッ
ファがロードされる、前記（１３）に記載のシステム。（１５）プロセッサにより命令シーケンスを実行するデ
ータ処理システムのシステム性能を改良する方法であっ
て、プロセッサによりバッファから命令を読出すステッ
プと、前記命令が分岐命令かどうかを判断するステップ
と、前記分岐命令が前記データ処理システムにより以前
に走査されたかどうかを判断し、否定の場合、前記分岐
命令の少なくとも１つの目標命令を分岐予測バッファ内
に記憶するステップと、前記少なくとも１つの目標命令
を前記プロセッサに提供するために、前記分岐予測バッ
ファをアクセスするステップと、を含む方法。（１６）プロセッサにより命令シーケンスを実行するデ
ータ処理システムのシステム性能を改良するシステムで
あって、プロセッサによりバッファから命令を読出す手
段と、前記命令が分岐命令かどうかを判断する手段と、
前記分岐命令が前記データ処理システムにより以前に走
査されたかどうかを判断し、否定の場合、前記分岐命令
の少なくとも１つの目標命令を分岐予測バッファ内に記
憶する手段と、前記少なくとも１つの目標命令を前記プ
ロセッサに提供するために、前記分岐予測バッファをア
クセスする手段と、を含むシステム。（１７）少なくとも１つの分岐命令を含むプロセッサ命
令を有するデータ処理システムにおいて、前記少なくと
も１つの分岐命令の少なくとも１つの目標命令を記憶す
る装置であって、分岐バッファと、前記データ処理シス
テムによる前記少なくとも１つの分岐命令のプリフェッ
チがアイドル・サイクルを発生する場合、前記分岐バッ
ファに前記少なくとも１つの目標命令を選択的にロード
する手段と、を含む装置。（１８）前記少なくとも１つの分岐命令の続く少なくと
も１実行において、前記少なくとも１つの目標命令を獲
得するために、前記分岐バッファをアクセスする手段を
含む、前記（１７）に記載の装置。

【００４７】

【発明の効果】上述の説明から理解されるように、迅速
にアクセスされる小さなＢＡＢを保持することにより、
実行アイドル・サイクルが更に低減されるか、または除
去される。迅速なアクセスは、命令プリフェッチ・ミス
の検出の結果決定される予測分岐命令をＢＡＢに保持す
ることにより達成される。これは目標命令の選択的フィ
ルタリングが実行されない従来のＢＴＴ設計により要求
されるよりも、小さなバッファを可能とする。

【００４８】本発明は特定の実施例について述べられて
きたが、当業者には理解されるように、本発明の精神及
び範囲を逸脱することなく前述の及び他の変更が可能で
ある。

【図面の簡単な説明】

【図１】分岐予測バッファ（ＢＡＢ）の全体構成を示す
図である。

【図２】ＢＡＢと命令プリフェッチ・バッファ及び命令
キャッシュとの関係を示すブロック図である。

【図３】命令ディスパッチ論理の制御フローを示す図で
ある。

【図４】命令ディスパッチ論理の制御フローを示す図で
ある。

【図５】命令ディスパッチ論理の制御フローを示す図で
ある。

【図６】命令ディスパッチ論理の制御フローを示す図で
ある。

【図７】命令ディスパッチ論理により提供されるアドレ
スによりＢＡＢがアクセスされる様子を示す図である。

【図８】処理されるサンプル命令シーケンスを示す図で
ある。

【図９】パイプライン・タイミング図である。

【図１０】パイプライン・タイミング図である。

【符号の説明】

１０分岐予測バッファ（ＢＡＢ）１２有効ビット２４順次バッファ２６目標バッファ３４Ｉ−キャッシュ４２命令ディスパッチ論理４６分岐目標アドレス４９ロードＢＡＢ信号

───────────────────────────────────────────────────── フロントページの続き (72)発明者ラヴィンドラ・クマー・ネイアーアメリカ合衆国10510、ニューヨーク州ブライアークリフ・マナー、スクレイド・ロード 52

Claims

【特許請求の範囲】

【請求項１】命令プリフェッチ・ミスの発生時に、実行
される可能性のある命令を保持するためのシステムであ
って、前記命令を記憶する分岐バッファと、分岐が発生する時に、前記分岐バッファに少なくとも１
つの前記命令を選択的にロードする手段と、前記分岐バッファが前記命令プリフェッチ・ミスに対応
する目標命令を含むかどうかを判断する手段と、前記目標命令を獲得するために前記分岐バッファをアク
セスする手段と、を含むシステム。
【請求項２】前記目標命令を命令バッファに転送する手
段を含む、請求項１記載のシステム。
【請求項３】前記転送手段が、前記目標命令が無条件分
岐である場合に前記目標命令を順次バッファに転送する
順次手段と、前記目標命令がまだ解析されていない分岐
命令の場合に、前記目標命令を目標バッファに転送する
目的手段とを含む、請求項２記載のシステム。
【請求項４】データ処理システムのシステム性能を改良
するシステムであって、命令を実行するプロセッサと、前記プロセッサに結合されるキャッシュと、前記キャッシュ及び前記プロセッサに結合され、命令プ
リフェッチ・ミスが発生する場合に、前記プロセッサに
より実行される少なくとも１つのプロセッサ命令を有す
るバッファと、処理される分岐命令に応答して、前記バッファに前記少
なくとも１つのプロセッサ命令を選択的にロードする手
段と、を含むシステム。
【請求項５】データ処理システムのシステム性能を改良
するシステムであって、命令を実行するプロセッサと、前記プロセッサに結合される分岐ユニットと、前記分岐ユニットに結合される順次バッファと、前記分岐ユニットに結合される目標バッファと、前記分岐ユニットに結合される分岐予測バッファと、前記順次バッファ、前記目標バッファ、及び前記分岐予
測バッファに結合される命令キャッシュと、処理される分岐命令に応答して、前記分岐予測バッファ
に前記少なくとも１つのプロセッサ命令をロードする手
段と、を含むシステム。
【請求項６】前記少なくとも１つのプロセッサ命令が前
記命令キャッシュ内に含まれる、請求項５記載のシステ
ム。
【請求項７】前記目標バッファのロードと同時に、前記
分岐予測バッファに前記少なくとも１つのプロセッサ命
令をロードする同時手段を含む、請求項５記載のシステ
ム。
【請求項８】前記少なくとも１つのプロセッサ命令がま
だ解析されていない条件分岐の場合、前記目標バッファ
がロードされる、請求項７記載のシステム。
【請求項９】前記分岐予測バッファが前記順次バッファ
のロードと同時に前記少なくとも１つのプロセッサ命令
によりロードされる、請求項５記載のシステム。
【請求項１０】前記少なくとも１つのプロセッサ命令が
無条件分岐の場合、前記順次バッファがロードされる、
請求項９記載のシステム。
【請求項１１】未解析の分岐が発生するか否かを予測す
る手段を含む、請求項９記載のシステム。
【請求項１２】前記少なくとも１つのプロセッサ命令が
発生しないと予測される未解析の条件分岐の場合、前記
目標バッファがロードされる、請求項１１記載のシステ
ム。
【請求項１３】未解析の分岐が発生するか否かを予測す
る手段を含む、請求項７記載のシステム。
【請求項１４】前記少なくとも１つのプロセッサ命令が
発生すると予測される未解析の条件分岐の場合、前記順
次バッファがロードされる、請求項１３記載のシステ
ム。
【請求項１５】プロセッサにより命令シーケンスを実行
するデータ処理システムのシステム性能を改良する方法
であって、プロセッサによりバッファから命令を読出すステップ
と、前記命令が分岐命令かどうかを判断するステップと、前記分岐命令が前記データ処理システムにより以前に走
査されたかどうかを判断し、否定の場合、前記分岐命令
の少なくとも１つの目標命令を分岐予測バッファ内に記
憶するステップと、前記少なくとも１つの目標命令を前記プロセッサに提供
するために、前記分岐予測バッファをアクセスするステ
ップと、を含む方法。
【請求項１６】プロセッサにより命令シーケンスを実行
するデータ処理システムのシステム性能を改良するシス
テムであって、プロセッサによりバッファから命令を読出す手段と、前記命令が分岐命令かどうかを判断する手段と、前記分岐命令が前記データ処理システムにより以前に走
査されたかどうかを判断し、否定の場合、前記分岐命令
の少なくとも１つの目標命令を分岐予測バッファ内に記
憶する手段と、前記少なくとも１つの目標命令を前記プロセッサに提供
するために、前記分岐予測バッファをアクセスする手段
と、を含むシステム。
【請求項１７】少なくとも１つの分岐命令を含むプロセ
ッサ命令を有するデータ処理システムにおいて、前記少
なくとも１つの分岐命令の少なくとも１つの目標命令を
記憶する装置であって、分岐バッファと、前記データ処理システムによる前記少なくとも１つの分
岐命令のプリフェッチがアイドル・サイクルを発生する
場合、前記分岐バッファに前記少なくとも１つの目標命
令を選択的にロードする手段と、を含む装置。
【請求項１８】前記少なくとも１つの分岐命令の続く少
なくとも１実行において、前記少なくとも１つの目標命
令を獲得するために、前記分岐バッファをアクセスする
手段を含む、請求項１７記載の装置。