JP3182740B2

JP3182740B2 - 単一クロック・サイクルに非連続命令を取り出すための方法およびシステム。

Info

Publication number: JP3182740B2
Application number: JP11990699A
Authority: JP
Inventors: ロバート・グレッグ・マクドナルド
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1998-05-12
Filing date: 1999-04-27
Publication date: 2001-07-03
Anticipated expiration: 2019-04-27
Also published as: KR19990087940A; EP0957428B1; EP0957428A2; EP0957428A3; KR100431168B1; JP2000029701A; US6256727B1; DE69929936D1; DE69929936T2

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、全般的にはスーパ
ースカラ・プロセッサに関し、具体的には、そのような
プロセッサで非連続命令を取り出すためのシステムおよ
び方法に関する。

【０００２】

【従来の技術】この編成を有するプロセッサは、積極的
な技法を使用して、命令レベルの並列性を利用する。幅
広いディスパッチ経路および発行経路によって、ピーク
命令スループットの上限が決定される。並列性を検出す
るのに必要な命令のウィンドウを維持するために、大き
い発行バッファが使用され、大量の物理レジスタのプー
ルが、ウィンドウから発行される動作中の命令のすべて
のための宛先を提供する。命令の並列実行を可能にする
ために、実行エンジンは、多数の並列の機能ユニットか
ら構成される。取出エンジンは、ウィンドウに連続的な
命令ストリームを供給するために、過去の複数の分岐に
基づいて投機予測する。

【０００３】スーパースカラ設計の傾向は、これらの技
法をスケーリングすることすなわち、より幅広いディス
パッチ／発行、より大きいウィンドウ、より多くの物理
レジスタ、より多くの機能ユニット、より深い投機予測
である。この傾向を維持するためには、プロセッサのす
べての部分のバランスをとることが重要である。ボトル
ネックが１つでもあれば、積極的な技法の利益が減少す
る。

【０００４】命令取出の性能は、多数の要因に依存す
る。命令キャッシュのヒット率と分岐予測精度は、取出
性能における重要な問題として以前から認識され、十分
に研究された分野である。

【０００５】分岐とジャンプがあるので、所与のサイク
ルに取り出される命令は、連続したキャッシュ位置にな
い可能性がある。したがって、非連続の基本ブロックを
取り出し、位置合せし、パイプラインに渡すのに使用可
能な適当な経路および論理が存在しなければならない。
すなわち、命令がキャッシュに存在するだけでは十分で
はなく、命令に並列にアクセスできなければならない。

【０００６】現代のマイクロプロセッサは、通常は、分
岐履歴テーブル（Branch History Table）と分岐目標ア
ドレス・キャッシュを使用して、過去の分岐命令を効率
的に取り出す能力を改善している。分岐履歴テーブルお
よび他の予測機構を用いると、プロセッサが、分岐の結
果が既知になる前に分岐命令の先の命令を取り出せるよ
うになる。分岐目標アドレス・キャッシュを用いると、
プロセッサが、分岐の目標アドレスが計算される前に分
岐命令の先の命令を投機的に取り出せるようになる。こ
れらの技法の両方で、どの命令を取り出すかを投機的に
予測し、通常は浪費される「デッド」サイクルを除去す
るために、実行時履歴が使用される。これらの技法を用
いる場合であっても、現在のマイクロプロセッサは、単
一のクロック・サイクルの間には連続した命令しか取り
出すことができない。

【０００７】スーパースカラ・プロセッサがより積極的
になり、１サイクルあたりにより多くの命令を実行しよ
うとするにつれて、１サイクルあたりにより多くの命令
を取り出す能力も必要になる。頻繁な分岐命令は、プロ
セッサの有効取出帯域幅を大きく制限する可能性があ
る。統計的には、４命令のうちの１つが分岐命令であ
り、これらの分岐のうちの半分以上が実際に分岐する。
たとえば１サイクルあたり８つの連続命令などの幅広い
取出帯域幅を有するプロセッサは、半分の場合に、取り
出した命令のうちの半分を捨てることになる可能性があ
る。

【０００８】高性能スーパースカラ・プロセッサの編成
は、命令取出機構と命令実行機構に自然に分割される。
取出機構と実行機構は、たとえば待ち行列や予約ステー
ションなど、命令発行バッファによって分離される。概
念上、命令取出機構は、命令を取り出し、復号し、バッ
ファに置く「製作者」として働く。命令実行エンジン
は、バッファから命令を除去し、データ依存性と資源制
約の下で実行する「消費者」である。制御依存性（分岐
およびジャンプ）が、この製作者と消費者の間のフィー
ドバック機構を提供する。

【０００９】

【発明が解決しようとする課題】以前の設計では、操作
の対象となるプログラムが静的な形で格納される通常の
命令キャッシュが使用される。すべてのサイクルに、非
連続な位置からの命令を命令キャッシュから取り出し、
予測された動的シーケンスに組み立てなければならな
い。このアプローチに関連して、以下の問題が存在す
る。

【００１０】非連続な命令ブロックのすべてへのポイン
タを、取出の開始前に生成しなければならない。これ
は、命令キャッシュの前の追加のパイプライン・ステー
ジに変換される、なんらかの形の分岐目標テーブル（分
岐目標バッファ、分岐アドレス・キャッシュなど）を介
する１レベルのインダイレクションを意味する。

【００１１】命令キャッシュは、複数の非連続なキャッ
シュ・ラインへの同時アクセスをサポートしなければな
らない。これは、キャッシュがマルチポート式であるこ
とを必要とする。マルチポート化がインターリーブを介
して行われる場合、バンク衝突が生じる。

【００１２】非連続な命令をキャッシュから取り出した
後に、動的シーケンスに組み立てなければならない。命
令がデコーダにとって連続的に見えるようにするため
に、命令をシフトし、位置合せしなければならない。こ
れは、命令キャッシュの後の追加のパイプライン・ステ
ージに変換される可能性が高い。

【００１３】トレース・キャッシュ・アプローチでは、
デコーダのために準備ができている動的シーケンス自体
をキャッシュ記憶することによって、これらの問題を回
避している。予測された動的シーケンスがトレース・キ
ャッシュ内に存在する場合、命令キャッシュの静的表現
から動的シーケンスをその場で再作成する必要はない。
具体的に言うと、非連続命令を取り出すための、命令キ
ャッシュの前後の追加ステージが不要になる。ステージ
は存在するが、取り出しユニットのクリティカル・パス
上ではなく、トレース・キャッシュの書込側に存在す
る。このアプローチのコストは、冗長な命令記憶域であ
る。同一の命令が、プライマリ・キャッシュとトレース
・キャッシュの両方に常駐しなければならず、トレース
・キャッシュのラインの間にも冗長性が存在する可能性
がある。したがって、トレース・キャッシュ・アプロー
チを使用すると、複数の命令が、最も確度の高い経路に
基づいてグループ化される。これらの命令は、トレース
・キャッシュ内に一緒に格納される。このシステムで
は、命令セグメントのパックとキャッシュ記憶のために
複雑な機構が必要になる。

【００１４】したがって、スーパースカラ・プロセッサ
の総合スループットを改善するための方法およびシステ
ムが必要である。具体的に言うと、そのようなプロセッ
サで非連続命令を効率的に取り出すためのシステムおよ
び方法が必要である。本発明は、そのような必要に対処
する。

【００１５】

【課題を解決するための手段】データ処理システム内で
命令の非連続ブロックを取得するための方法およびシス
テムを開示する。第１の態様では、データ処理システム
内で命令の非連続ブロックを取り出すためのシステムを
開示する。このシステムには、第１の複数の命令を提供
するための命令キャッシュ手段と、第１の複数の命令を
受け取り、第１の複数の命令に関する分岐履歴情報を提
供するための分岐論理手段とが含まれる。このシステム
には、さらに、分岐履歴情報に基づいて、第２の複数の
命令を受け取るための補助キャッシュ手段が含まれる。
補助キャッシュ手段は、第１の複数の命令内に分岐があ
り、その分岐が第２の複数の命令への分岐である場合
に、第２の複数の命令のうちの少なくとも１つをオーバ
ーレイする。

【００１６】第２の態様では、命令の非連続ブロックを
取得するための方法に、第１の複数の命令を第１キャッ
シュに格納するステップと、第２キャッシュ内の第２の
複数の命令の取出と並列に第１の複数の命令を取り出す
ステップとが含まれる。本発明では、第２の複数の命令
の数が、第１の複数の命令の数より多い。この第２の態
様には、データ処理システムの分岐履歴情報に基づい
て、第１の複数の命令のうちの少なくとも１つを用いて
第２の複数の命令の一部を置換するステップが含まれ
る。

【００１７】上で述べた本発明を用いると、プロセッサ
が、分岐履歴情報と補助キャッシュとを使用して、単一
サイクル内に命令の複数の非連続グループを取り出せる
ようになる。さらに、この技法を用いると、複数のレベ
ルの入れ子になった分岐予測論理を単一サイクル内で評
価する必要なしに、非連続取出を実行できるようにな
る。

【００１８】

【発明の実施の形態】本発明は、全般的にはスーパース
カラ・プロセッサに関し、具体的には、そのようなプロ
セッサで非連続命令を取り出すためのシステムおよび方
法に関する。以下の説明は、当技術分野で通常の技術を
有する者が、本発明を作成、使用することを可能にする
ために提示され、特許出願書およびその必要条件に関連
して提供されるものである。好ましい実施例に対するさ
まざまな変更は、当業者には簡単に明白になり、本明細
書に記載の包括的な原理を、他の実施例に適用すること
ができる。したがって、本発明は、下に示す実施例に制
限されるものではなく、本明細書に記載の原理および特
徴と矛盾しない最も広い範囲に一致する。

【００１９】図１は、スーパースカラ式のプロセッサ１
０のブロック図である。図からわかるように、スーパー
スカラ・プロセッサ１０には、通常は、バス・インター
フェイス・ユニット（ＢＩＵ）１２に接続されたシステ
ム・バス１１が含まれる。ＢＩＵ１２は、プロセッサ１
０とシステム・バス１１の間の情報の転送を制御する。
ＢＩＵ１２は、プロセッサ１０の命令キャッシュ１４お
よびデータ・キャッシュ１６に接続される。命令キャッ
シュ１４は、命令をシーケンサ・ユニット１８に出力す
る。命令キャッシュ１４からの命令に応答して、シーケ
ンサ・ユニット１８は、プロセッサ１０の他の実行回路
に選択的に命令を出力する。

【００２０】ディスパッチ・ユニット４６および完了ユ
ニット４８という実行ユニットを含むシーケンサ・ユニ
ット１８の他に、好ましい実施例では、プロセッサ１０
の実行回路に、複数の実行ユニットすなわち、分岐ユニ
ット２０、固定小数点ユニットＡ（ＦＸＵＡ）２２、固
定小数点ユニットＢ（ＦＸＵＢ）２４、複合固定小数点
ユニット（ＣＦＸＵ）２６、ロード／ストア・ユニット
（ＬＳＵ）２８および浮動小数点ユニット（ＦＰＵ）３
０が含まれる。ＦＸＵＡ２２、ＦＸＵＢ２４、ＣＦＸＵ
２６およびＬＳＵ２８は、汎用アーキテクチャ・レジス
タ（ＧＰＲ）３２および固定小数点リネーム・バッファ
３４からソース・オペランド情報を入力する。さらに、
ＦＸＵＡ２２およびＦＸＵＢ２４は、キャリ・ビット
（ＣＡ）レジスタ４２から「キャリ・ビット」を入力す
る。ＦＸＵＡ２２、ＦＸＵＢ２４、ＣＦＸＵ２６および
ＬＳＵ２８は、固定小数点リネーム・バッファ３４内で
選択された項目での記憶のために、動作の結果（デステ
ィネーション・オペランド情報）を出力する。また、Ｃ
ＦＸＵ２６は、専用レジスタ（ＳＰＲ）４０との間でソ
ース・オペランド情報およびデスティネーション・オペ
ランド情報を入出力する。

【００２１】ＦＰＵ３０は、浮動小数点アーキテクチャ
・レジスタ（ＦＰＲ）３６および浮動小数点リネーム・
バッファ３８からソース・オペランド情報を入力する。
ＦＰＵ３０は、浮動小数点リネーム・バッファ３８内で
選択された項目への記憶のために、その動作の結果（デ
スティネーション・オペランド情報）を出力する。

【００２２】処理プロセッサ１０は、通常は、相対的に独立の処理を制御
する多数の状態機械を用いて実施される。これは、複数
の並列処理を伴う複雑な並列アルゴリズムとみなすこと
ができる。

【００２３】命令取出これは、命令キャッシュから命令の連続的なストリーム
を提供し、取出予測機構として分岐目標アドレス・キャ
ッシュ（ＢＴＡＣ）を使用する処理である。

【００２４】分岐予測これは、分岐を識別し、予測し、適当な命令が取り出さ
れることを検証し、情報を更新し、投機分岐に関する情
報を分岐待ち行列に置く処理である。

【００２５】分岐解決これは、予測が実際の分岐結果と一致したかどうかを検
査し、分岐誤予測が発生した場合に訂正を行う処理であ
る。

【００２６】分岐完了これは、完了した分岐に関する情報を分岐履歴テーブル
（ＢＨＴ）に書き込み、分岐待ち行列から項目を除去す
る処理である。

【００２７】本発明は、全般的には取出サイクルと非連
続命令を取り出す能力に関する。図２に、命令のグルー
プを取り出すための通常の技法のためのハードウェア機
構１００を示す。この実施例では、１時に８つの命令が
取り出されている。さらに、本発明を、４バイト長の命
令に関連して説明する。しかし、当業者は、１時に任意
の数の命令を取り出すことができ、命令長は任意の長さ
とすることができ、それらの数と長さが本発明の趣旨お
よび範囲に含まれることを容易に理解するであろう。

【００２８】図２を参照すると、分岐履歴テーブル（Ｂ
ＨＴ）１０４、命令キャッシュ１０６、分岐目標アドレ
ス・キャッシュ（ＢＴＡＣ）１０８、命令キャッシュ用
ディレクトリ（ＩＮＳＴＤｉｒ）１１０および＋３２
カウンタ１１１に供給される取出アドレス信号１０２が
図示されている。上で識別された機構の動作、特に命令
キャッシュ１０６に関連するものの完全な理解を提供す
るために、通常の命令キャッシュ項目を下で説明する。

【００２９】図３は、命令フェッチャが必要とする命令
の命令キャッシュおよびＢＴＡＣ項目２００（この項目
には、この説明には重要でない他の情報が含まれる可能
性がある）の単純な編成を示す図である。図３には、６
４Ｋバイト直接マッピング式キャッシュと指示された命
令アドレスを前提とする、コード・シーケンスのサンプ
ル・アドレス・タグ項目２０２、サクセッサ（successo
r）・インデックス・フィールド２０４および分岐ブロ
ック・インデックス・フィールド２０６を含む取出情報
２０１が図示されている。この例では、キャッシュ項目
に４つの命令２０８、２１０、２１２および２１４が保
持される。この項目には、命令取出情報も格納される。
取出情報には、命令フェッチャが使用する２つの追加フ
ィールド（図示せず）も含まれる。

【００３０】サクセッサ・インデックス・フィールド２
０４は、次に取り出されると予測されたキャッシュ・ブ
ロックと、この次ブロック内で最初に実行されると予測
された命令の両方が含まれる。サクセッサ・インデック
ス・フィールド２０４は、完全な命令アドレスを指定す
るのではなく、キャッシュ内の命令を選択するのに十分
なサイズである。たとえば、６４Ｋバイト直接マッピン
グ式のキャッシュは、すべての命令が３２ビット長であ
る場合に、１４ビット（キャッシュ・ブロックのアドレ
ッシングに１２ビットと、ブロック・サイズが４ワード
の場合にブロック内の命令のアドレッシングに２ビッ
ト）のサクセッサ・インデックスを必要とする。

【００３１】好ましい実施例では、分岐ブロック・イン
デックス・フィールド２０６が、対応する命令ブロック
内の分岐点の位置を示す。分岐点の先の命令は、実行さ
れないと予測される。

【００３２】図２に戻って、ＢＨＴ１０４は、ＢＨＴ更
新信号も受け取り、読取信号を出力する。ＢＨＴ１０４
からの読取信号は、分岐論理１１６に供給される。命令
キャッシュ１０６は、Ｌ２キャッシュなどの外部供給源
から書込信号を受け取る。命令キャッシュ１０６は、８
つの命令（命令グループ０）を分岐論理１１６に出力す
る。アドレス０信号は、分岐論理１１６に直接に供給さ
れる。分岐論理１１６は、マルチプレクサ１２０にオー
バーライド・アドレス信号を供給する。マルチプレクサ
１２０は、＋３２カウンタ１１１からの信号１１２と、
ＢＴＡＣ１０８の出力も受け取る。アドレス１信号は、
ＢＴＡＣ１０８から分岐論理１１６に供給される。命令
ディレクトリ１１０は、分岐論理１１６にヒット信号を
供給する。分岐論理１１６は、分岐結果信号も受け取
り、分岐待ち行列１２６に分岐情報を供給し、ＢＴＡＣ
アドレス１２８を出力し、有効な命令１２４を供給す
る。このタイプの機構は、１サイクルあたり８つの連続
命令を取り出すことができるが、グループ内の実際に分
岐すると予測された最初の分岐までの命令だけが使用さ
れる。これをさらに詳細に説明するために、添付図面と
共に以下の説明を参照されたい。

【００３３】前に説明したように、命令のグループの取
出に関連する処理は複数存在する。本発明は、分岐予測
アルゴリズムの改良と、それに関連する、図２の通常の
取出機構に対する変更に関する。

【００３４】図２の通常の機構に関する非連続命令の取
出に関連する問題をさらに示すために、図４を参照す
る。

【００３５】図４は、図２の通常の機構のための分岐予
測アルゴリズムの流れ図である。図２と図４を参照する
と、まず、ステップ３０２を介して、命令キャッシュ内
に有効な命令が見つかるかどうかが判定される。命令キ
ャッシュ内で有効な命令が見つからない場合、ステップ
３０４を介して、取り出された命令のすべてを無効化
し、ミス・ハンドラを開始する。しかし、命令キャッシ
ュ内で有効な命令が見つかる場合、ステップ３０６を介
して、分岐を識別し、目標アドレスを計算し、分岐論理
１１６およびＢＨＴ１０４に基づいて分岐が行われるか
どうかを予測する。その後、ステップ３０８を介して、
命令グループ０（命令の最初のグループ）に実行される
と予測された分岐があるかどうかを判定する。実行され
ると予測された分岐がある場合、ステップ３１０を介し
て、後続のすべての命令を無効化する。その後、ステッ
プ３１２を介して、ＢＴＡＣ１０８からのアドレス１
（命令の第２グループのアドレス）が、命令ディレクト
リの目標０と等しいかどうかを判定する。そうである場
合には、ステップ３１４を介して、分岐待ち行列１２６
にその分岐アドレスを格納し、すべての分岐の予測情報
を供給する。その一方で、アドレス１が目標０と等しく
ない場合には、ステップ３１６を介して、次のサイクル
に取り出される命令を無効化し、オーバーライド・アド
レスを目標０と等しい値にする。その後、ステップ３１
８を介して、ＢＴＡＣアドレスを更新して目標０と等し
い値にし、ステップ３１４を介して、分岐アドレスと予
測情報を分岐待ち行列に格納する。その一方で、ステッ
プ３０８で、実行されると予測された分岐がグループ０
に存在しない場合、アドレス１がアドレス０＋３２に等
しいかどうかを判定する。そうである場合には、ステッ
プ３１４に進む。その一方で、そうでない場合には、ス
テップ３２２を介して、次のサイクルに取り出される命
令グループのすべてを無効化し、オーバーライド・アド
レスを目標０＋３２と等しい値にする。その後、ステッ
プ３２４を介して、ＢＴＡＣアドレスを更新して無効に
し、ステップ３１４に進む。

【００３６】図４のこのアルゴリズムでは、単一のサイ
クルで非連続命令を取り出すことができない。この予測
アルゴリズムでは、分岐命令に遭遇した時に、その分岐
までの命令だけが使用可能になることが常に要求され
る。前に述べたように、単一サイクルで非連続命令を取
り出すための機構すなわち、トレース・キャッシュなど
が存在するが、これによってシステムが複雑になり、コ
ストが高くなる。

【００３７】本発明は、補助キャッシュを設け、単一サ
イクルで非連続命令を取り出すために補助キャッシュを
使用するオーバーレイ技法を提供することによって、こ
の問題を克服する。

【００３８】この技法には、次の３つの主なハードウェ
ア機構が必要である。（１）標準命令キャッシュ（または他のメモリ・ソー
ス）（２）分岐目標アドレス・キャッシュ（３）補助キャッシュ

【００３９】標準命令キャッシュおよび分岐目標アドレ
ス・キャッシュは、ほとんどのマイクロプロセッサで一
般的に使用されており、この技法のために変更なしで使
用することができる。補助キャッシュは、１つまたは複
数の命令とそれに関連するアドレスに関する複数の項目
を含む新規のハードウェア機構である。補助キャッシュ
は、主命令キャッシュと比較して、非常に連想性が高
く、比較的小さくなる可能性がある。

【００４０】本発明は、全般的に次の形で動作する。１．第１命令グループの分岐命令が、分岐履歴または他
の情報に基づいて、実際に分岐する可能性が高いと考え
られ、補助キャッシュから命令が供給されなかった場合
には、取出インデックスを使用して、分岐の目標アドレ
スと、そのアドレスにある１つまたは複数の命令を補助
キャッシュに追加する。また、適当な順次アドレスを、
必要に応じて（たとえば分岐目標＋１６バイト）ＢＴＡ
Ｃに供給する。２．そうではなく、第２命令グループの分岐命令が、実
際に分岐する可能性が高いと考えられる場合には、取出インデックスを使用し
て、分岐の目標アドレスをＢＴＡＣに追加する。３．そうではなく、どちらの命令グループにも実際に分
岐する可能性の高い分岐命令がない場合には、取出イン
デックスを使用してＢＴＡＣをクリアし、適当な順次ア
ドレスを省略時値とする。

【００４１】本発明の特徴および動作をさらに具体的に
説明するために、添付図面と共に以下の説明を参照され
たい。

【００４２】図５は、本発明に従って単一サイクルで非
連続命令を取り出すための、プロセッサ内の機構４００
のブロック図である。機構４００の要素は、現在ハード
ウェア機構１００に存在する要素の多くに類似してい
る。これらの類似の要素には、類似の符号を付す。前に
述べたように、異なる主要な要素は、補助キャッシュ４
１５と補助ディレクトリ４１７である。

【００４３】さらに、図からわかるように、命令グルー
プ０および命令グループ１があり、ＢＨＴ１０４’およ
び分岐論理１１６’から導出された分岐履歴情報に基づ
いて、命令キャッシュ１０６’からの命令グループ１内
で補助キャッシュ４１５からの命令のオーバーレイを可
能にする４つのマルチプレクサ４２５がある。同様に、
補助ディレクトリは、分岐履歴情報に基づいて、＋１６
カウンタ４２１のアドレス１信号にそのアドレスをオー
バーレイする。さらに、ＦＴＡＣ４１４も、図２のＢＴ
ＡＣ１０８によって供給されるアドレス１信号ではな
く、アドレス２信号を供給する。したがって、前に述べ
たように、補助キャッシュ４１５の追加と補助キャッシ
ュ４１５および補助ディレクトリ４１７の使用を介し
て、非連続命令の取出を可能にするための情報の累積が
可能になる。この機能をさらに詳細に説明するために、
図６を参照されたい。

【００４４】図６は、図５の非連続命令取出機構のため
の分岐予測アルゴリズムの流れ図である。図５および図
６を参照すると、まず、ステップ５０２を介して、命令
キャッシュ１０６’に有効な命令が格納されているかど
うかを判定する。命令キャッシュ１０６’で有効な命令
が見つからなかった場合、ステップ５０４を介して、す
べての命令を無効化し、ミス・ハンドラを開始する。そ
の一方で、命令キャッシュ１０６’に有効な命令がある
場合には、ステップ５０６を介して、補助キャッシュ４
１５内で有効な命令が見つかったかどうかを判定する。
補助キャッシュ４１５内で有効な命令が見つかった場合
には、ステップ５０８を介して、補助キャッシュ４１５
からの命令を、命令キャッシュ１０６’からの命令グル
ープにオーバーレイする。その一方で、補助キャッシュ
で有効な命令が見つからなかった場合には、ステップ５
１０を介して、命令キャッシュからのすべての命令を保
存する。

【００４５】ステップ５０８またはステップ５１０の後
に、ステップ５１２を介して、次の分岐を識別し、目標
アドレスを計算し、通常の形で動作する分岐論理１１
６’およびＢＨＴ１０４’に基づいて、それらが実際に
分岐するか否かを予測する。その後、ステップ５１４を
介して、命令グループ０に実際に分岐すると予測された
分岐があるかどうかを判定する。命令グループ０に実際
に分岐すると予測された分岐がある場合、ステップ５１
６を介して、後続命令を無効化する。

【００４６】次に、ステップ５１８を介して、アドレス
１が分岐の目標アドレス０と等しいかどうかを判定す
る。そうである場合には、ステップ５２０を介して、グ
ループ１内または命令の次のグループ内に実際に分岐す
ると予測される命令があるかどうかを判定する。そうで
ある場合には、ステップ５２２を介して、命令グループ
１内の後続命令を無効化する。その後、ステップ５２４
を介して、アドレス２が分岐の目標１と等しいかどうか
を判定する。そうである場合には、ステップ５２６を介
して、分岐待ち行列に分岐アドレスとすべての分岐に関
する予測情報を格納する。そうでない場合には、ステッ
プ５２８を介して、次のサイクルのグループを無効化
し、オーバーライド・アドレスに目標１と等しい値をセ
ットする。その後、ステップ５３０を介してＦＴＡＣア
ドレスを目標１と等しい値に更新し、ステップ５２６に
進む。

【００４７】ステップ５１８を介してアドレス１が目標
０と等しくないと判定される場合、ステップ５２１を介
して、グループ１および次サイクル・グループのすべて
の命令を無効化し、オーバーライド・アドレスに目標０
と等しい値をセットして、補助キャッシュ内の次のグル
ープを保管する準備をする。その後、ステップ５２３を
介して、補助アドレスを目標０に等しい値に更新し、Ｆ
ＴＡＣアドレスを目標０＋１６に等しい値に更新する。

【００４８】その一方で、ステップ５２０を介してグル
ープ１に実際に分岐すると予測された命令がないと判定
された場合には、ステップ５３２を介して、アドレス２
がアドレス１＋１６と等しいかどうかを判定する。そう
である場合には、ステップ５２６に進む。そうでない場
合には、ステップ５３４を介して、次サイクル・グルー
プのすべてを無効化し、オーバーライド・アドレスにア
ドレス１＋１６と等しい値をセットする。その後、ステ
ップ５３６を介して、ＦＴＡＣアドレスをアドレス１＋
１６に等しい値に更新し、ステップ５２６に進む。

【００４９】ステップ５１４に戻って、グループ０に実
際に分岐すると予測された分岐がない場合には、アドレ
ス１がアドレス０＋１６と等しいかどうかを判定する。
アドレス１がアドレス０＋１６と等しい場合には、ステ
ップ５２０に進み、その判断チェーンに基づくステップ
を実行する。その一方で、アドレス１がアドレス０＋１
６と等しくない場合には、ステップ５４０を介して、グ
ループ１および次のサイクル・グループのすべての命令
を無効化し、オーバーライド・アドレスにアドレス０＋
１６に等しい値をセットする。その後、ステップ５４２
を介して、補助アドレスを無効に等しい値に更新し、Ｆ
ＴＡＣアドレスを無効に等しい値に更新する。その後、
ステップ５２６に進む。したがって、この分岐予測処理
を介して、システムは、補助キャッシュのオーバーレイ
命令によって非連続命令の効率的な取出が可能になる形
で分岐履歴情報を累積することができる。具体的な例に
関して動作をより明瞭に説明するために、図７を参照さ
れたい。

【００５０】図７は、図６の分岐予測アルゴリズムを使
用する時の命令の流れを示す例６００である。図７に示
された例６００には、プログラム・セグメント６０４に
ついて、本発明に従って連続するサイクルに実行される
取出のシーケンス６０２が示されている。すべてのアド
レスが、１６進形式で示されていることに留意された
い。例６００のアスタリスク（＊）は、命令ストリーム
から無効化された、取り出された命令を示す。

【００５１】図からわかるように、このプログラム・セ
グメントには、複数の基本ブロック６０６、６０８、６
１０および６１２が含まれる。基本ブロック６０６、６
０８、６１０および６１２のそれぞれは、ロード命令か
ら始まり、分岐命令で終わる。これらの基本ブロックを
本発明と共に使用することによって、単一サイクルで非
連続命令を取得できるようなる。

【００５２】図５のハードウェア機構と共に図６の分岐
予測アルゴリズムを使用して分岐履歴情報を累積するこ
とによって、図７の非連続命令を単一サイクルで取得で
きる。

【００５３】単一サイクルで命令を取得するための方法
を示すために、図５、図６および図７を参照されたい。
前に示したように、サイクル０００に、８つの命令が供
給される。補助キャッシュ４１５には当初は命令が含ま
れないと仮定され、したがって、この時点では、ステッ
プ５０２で命令キャッシュ内で有効な命令が見つから
ず、その後、ステップ５０６で補助キャッシュ内に有効
な命令が見つかるかどうかが判定され、有効な命令は見
つからない。この場合、命令キャッシュからのすべての
命令が保存されるはずである。その時点で、ステップ５
１２を介して、分岐が識別され、目標アドレスが計算さ
れ、実際に分岐するかどうかが予測される。最初の命令
セットの分岐の目標は０ｘ１００であることがわかって
いる。次に、実際に分岐されると予測された分岐がグル
ープ０にあるかどうかが判定され、その回答は肯定であ
る。その命令は、アドレス０ｘ００８の第３の命令であ
る。この分岐予測処理を介して、アドレス０ｘ１００に
ある命令が補助キャッシュに供給され、そのアドレスが
補助ディレクトリに格納される。また、この分岐予測処
理を介して、アドレス０ｘ１１０が、ＦＴＡＣ４１４に
格納される（ステップ５３０）。

【００５４】その後、次の基本ブロック６０８をサイク
ル００３で使用して、目標アドレス０ｘ１００にある命
令をロードする。基本ブロック６０８の最後の命令は、
アドレス０ｘ２００への分岐である。その後、前で述べ
たように、アドレス０ｘ１００が取り出され、それに関
する同様の情報が、補助キャッシュ、補助ディレクトリ
およびＦＴＡＣに累積される。したがって、情報は、サ
イクル００８からわかるように、２つの非連続命令（０
ｘ０００と０ｘ１００）が単一サイクルで取り出される
まで、サイクル００３からサイクル００７にわたって累
積される。

【００５５】この分岐予測処理を、基本ブロック６１０
および６１２を介してもう一度繰り返し、サイクル０２
０からサイクル０２４の間に非連続命令を取り出す。し
たがって、この例からわかるように、分岐履歴情報を十
分な形で累積した後に、非連続命令を単一サイクルで取
得することができる。非連続命令の大多数を単一サイク
ルで取り出せるように、特に命令が再帰する情況で、こ
の処理を繰り返すことができる。これは、本発明による
分岐予測処理を使用しつつ、分岐履歴テーブルと共に働
く補助キャッシュおよび雑分岐論理の使用を介して達成
される。

【００５６】トレース・キャッシュや複数レベルの分岐
プレディクタ（predictor）などの他の複数の技法が、
プロセッサが単一サイクルで非連続命令を取り出すこと
を可能にするために提案されてきた。本発明による、本
明細書に記載の補助キャッシュおよび命令オーバーレイ
技法は、他の技法より単純でありながら同等に効率的で
ある。

【００５７】まとめとして、本発明の構成に関して以下
の事項を開示する。

【００５８】（１）第１の複数の命令を供給するための
命令キャッシュ手段と、上記第１の複数の命令を受け取
り、上記第１の複数の命令に関する分岐履歴情報を提供
するための分岐論理手段と、上記分岐履歴情報に基づい
て第２の複数の命令を受け取るための補助キャッシュ手
段とを含み、上記補助キャッシュ手段が、上記第１の複
数の命令内に分岐があり、上記分岐が上記第２の複数の
命令への分岐である場合に、上記第２の複数の命令のう
ちの少なくとも１つをオーバーレイする、データ処理シ
ステム内で命令の非連続ブロックを取り出すためのシス
テム。（２）上記補助キャッシュ手段が、補助キャッシュおよ
び補助ディレクトリを含む、上記（１）に記載のシステ
ム。（３）上記第１の複数の命令が、２ブロックの命令を含
む、上記（１）に記載のシステム。（４）上記第２の複数の命令が、１ブロックの命令を含
む、上記（１）に記載のシステム。（５）さらに、上記分岐論理手段に結合された分岐目標
アドレス・キャッシュを含む、上記（１）に記載のシス
テム。（６）（ａ）第１キャッシュに第１の複数の命令を格納
するステップと、（ｂ）第２キャッシュ内にあり、上記
第１の複数の命令の個数より多数の第２の複数の命令の
取出と並列に、上記第１の複数の命令を取り出すステッ
プと、（ｃ）データ処理システムの分岐履歴情報に基づ
いて、上記第２の複数の命令の一部を上記第１の複数の
命令のうちの少なくとも１つによって置換するステップ
とを含む、上記データ処理システム内で命令の非連続ブ
ロックを取り出すための方法。（７）上記第１キャッシュが、補助キャッシュを含み、
上記第２キャッシュが、命令キャッシュを含む、上記
（６）に記載の方法。（８）上記補助キャッシュが、補助ディレクトリを含
む、上記（７）に記載の方法。（９）上記第２の複数の命令が、２ブロックの命令を含
む、上記（６）に記載の方法。（１０）上記第１の複数の命令が、１ブロックの命令を
含む、上記（６）に記載の方法。（１１）第１の複数の命令を第１キャッシュに格納する
ための手段と、第２キャッシュ内にあり、上記第１の複
数の命令の個数より多数の第２の複数の命令の取出と並
列に、上記第１の複数の命令を取り出すための手段と、
データ処理システムの分岐履歴情報に基づいて、上記第
２の複数の命令の一部を上記第１の複数の命令のうちの
少なくとも１つを用いて置換するための手段とを含む、
上記データ処理システム内で命令の非連続ブロックを取
得するためのシステム。（１２）上記第１キャッシュが、補助キャッシュを含
み、上記第２キャッシュが、命令キャッシュを含む、上
記（１１）に記載のシステム。（１３）上記補助キャッシュが、補助ディレクトリを含
む、上記（１２）に記載のシステム。（１４）上記第２の複数の命令が、２ブロックの命令を
含む、上記（１１）に記載のシステム。（１５）上記第１の複数の命令が、１ブロックの命令を
含む、上記（１１）に記載のシステム。

【図面の簡単な説明】

【図１】スーパースカラ・プロセッサのブロック図であ
る。

【図２】非連続命令を取り出すための、プロセッサ内の
通常の機構のブロック図である。

【図３】命令キャッシュとＢＴＡＣ項目のブロック図で
ある。

【図４】図２および図３の通常の機構のための分岐予測
アルゴリズムの流れ図である。

【図５】本発明に従って単一サイクルで非連続命令を取
り出すための、プロセッサ内の機構のブロック図であ
る。

【図６】図４の非連続命令取出機構のための分岐予測ア
ルゴリズムの流れ図である。

【図７】図６の分岐予測アルゴリズムを使用する時の命
令の流れを示す表である。

【符号の説明】

１０４’ ＢＨＴ１０６’ 命令キャッシュ１１０’ 命令キャッシュ用ディレクトリ（ＩＮＳＴ
Ｄｉｒ）１１１’ ＋３２カウンタ１１６’ 分岐論理１２６’ 分岐待ち行列４００機構４１４ＦＴＡＣ４１５補助キャッシュ４１７補助ディレクトリ４２１＋１６カウンタ４２５マルチプレクサ

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩＧ０６Ｆ 12/08 ５１１Ｇ０６Ｆ 12/08 ５１１Ｃ５１５５１５Ｚ (56)参考文献特開平７−73104（ＪＰ，Ａ) 特開平６−214785（ＪＰ，Ａ) 特開平４−317130（ＪＰ，Ａ) 米国特許5889986（ＵＳ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 12/08 G06F 9/38

Claims

(57)【特許請求の範囲】

【請求項１】第１の複数の命令を供給するための命令キ
ャッシュ手段と、上記第１の複数の命令を受け取り、上記第１の複数の命
令に関する分岐履歴情報を提供するための分岐論理手段
と、上記分岐履歴情報に基づいて第２の複数の命令を受け取
るための補助キャッシュ手段とを含み、上記補助キャッ
シュ手段が、上記第１の複数の命令内に分岐があり、上
記分岐が上記第２の複数の命令への分岐である場合に、
上記第２の複数の命令のうちの少なくとも１つをオーバ
ーレイする、データ処理システム内で命令の非連続ブロ
ックを取り出すためのシステム。
【請求項２】上記補助キャッシュ手段が、補助キャッシ
ュおよび補助ディレクトリを含む、請求項１に記載のシ
ステム。
【請求項３】上記第１の複数の命令が、２ブロックの命
令を含む、請求項１に記載のシステム。
【請求項４】上記第２の複数の命令が、１ブロックの命
令を含む、請求項１に記載のシステム。
【請求項５】さらに、上記分岐論理手段に結合された分
岐目標アドレス・キャッシュを含む、請求項１に記載の
システム。
【請求項６】（ａ）第１キャッシュに第１の複数の命令
を格納するステップと、（ｂ）第２キャッシュ内にあり、上記第１の複数の命令
の個数より多数の第２の複数の命令の取出と並列に、上
記第１の複数の命令を取り出すステップと、（ｃ）データ処理システムの分岐履歴情報に基づいて、
上記第２の複数の命令の一部を上記第１の複数の命令の
うちの少なくとも１つによって置換するステップとを含
む、上記データ処理システム内で命令の非連続ブロック
を取り出すための方法。
【請求項７】上記第１キャッシュが、補助キャッシュを
含み、上記第２キャッシュが、命令キャッシュを含む、
請求項６に記載の方法。
【請求項８】上記補助キャッシュが、補助ディレクトリ
を含む、請求項７に記載の方法。
【請求項９】上記第２の複数の命令が、２ブロックの命
令を含む、請求項６に記載の方法。
【請求項１０】上記第１の複数の命令が、１ブロックの
命令を含む、請求項６に記載の方法。
【請求項１１】第１の複数の命令を第１キャッシュに格
納するための手段と、第２キャッシュ内にあり、上記第
１の複数の命令の個数より多数の第２の複数の命令の取
出と並列に、上記第１の複数の命令を取り出すための手
段と、データ処理システムの分岐履歴情報に基づいて、
上記第２の複数の命令の一部を上記第１の複数の命令の
うちの少なくとも１つを用いて置換するための手段とを
含む、上記データ処理システム内で命令の非連続ブロッ
クを取得するためのシステム。
【請求項１２】上記第１キャッシュが、補助キャッシュ
を含み、上記第２キャッシュが、命令キャッシュを含
む、請求項１１に記載のシステム。
【請求項１３】上記補助キャッシュが、補助ディレクト
リを含む、請求項１２に記載のシステム。
【請求項１４】上記第２の複数の命令が、２ブロックの
命令を含む、請求項１１に記載のシステム。
【請求項１５】上記第１の複数の命令が、１ブロックの
命令を含む、請求項１１に記載のシステム。