JPH0830454A

JPH0830454A - 非逐次アクセスの実効待ち時間が短いパイプライン・キャッシュシステム

Info

Publication number: JPH0830454A
Application number: JP7185054A
Authority: JP
Inventors: Dennis O'connor; デニス・オーコナー
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 1994-06-30
Filing date: 1995-06-29
Publication date: 1996-02-02
Anticipated expiration: 2021-01-05
Also published as: TW280880B; KR960002008A; US5561782A; KR100252569B1; JP3732555B2

Abstract

(57)【要約】【目的】本発明の目的は、非逐次メモリアクセスにお
ける実効待ち時間を短縮するための方法及び装置を提供
することにある。【構成】ヒットしたアドレスに応答して少なくとも１
つのキャッシュ出力レコードを出力する多段式パイプラ
イン・キャッシュで、出力レコードを出さないＬクロッ
クサイクルのアイドル期間後にレコードを出力するパイ
プライン・キャッシュと、分岐目標キャッシュ（ＢＴ
Ｃ）であってそこでヒットした非逐次レコードアドレス
に応答してアイドル期間中に少なくとも１つのレコード
を出力するためのＢＴＣとを具備した非逐次レコード・
アクセス用の短い実効待ち時間を有するキャッシュを用
いる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、キャッシュメモリを使
用するデータ処理システムに関し、より詳しく、キャッ
シュの非逐次アクセスの実効待ち時間を短縮する技術に
関する。

【０００２】

【従来の技術】キャッシュは、主メモリに記憶された命
令またはデータにプロセッサがアクセスするのに必要な
実効時間を短くするために様々な形で使用される。キャ
ッシュの理論は、大容量の比較的遅い主メモリと共に、
非常に速いメモリの小さい部分をキャッシュとして使用
することによって、コンピュータシステムはより高い処
理速度を達成することができるというものである。キャ
ッシュメモリは、動作上、データ処理装置と主メモリと
の間に置かれる。プロセッサは、主メモリにアクセスす
る必要があるとき、まずキャッシュメモリを検索して、
必要とする情報がキャッシュで利用可能可能かどうかを
判断する。データ及びまたは命令を主メモリから取り出
すときは、それらの情報は、主メモリの連続した記憶場
所から取り出される情報ブロックの一部（キャッシュラ
インとして知られる）としてキャッシュに格納される。
その後同じアドレスへのメモリアクセスを行うときは、
プロセッサは、主メモリよりむしろ高速キャッシュメモ
リとやり取りする。統計的には、情報を主メモリの特定
のブロックにアクセスして取り出したときは、次のアク
セスではその同じブロックから情報を呼び出すことにな
る確立が非常に高い。このメモリー参照の局所性という
性質があるために、平均メモリ・アクセスタイムは大幅
に短縮される。

【０００３】キャッシュの設計には、互いに相容れない
主要な目標が２つのある。第１には、キャッシュ・サイ
ズは、キャッシュミスの場合のオフチップメモリ・アク
セスが最小限となるように、十分大きいことが望まし
い。第２には、プロセッサが高速化するにつれて、シス
テム全体の性能が遅くならないように命令及びデータを
プロセッサへリターンすることができるよう、キャッシ
ュを十分高速に設計することが特に重要になる。不都合
なことに、キャッシュメモリは、大きくなるほど、寄生
キャパシタンスの増加のために遅くなる。

【０００４】これらの２つの目標を調和させるために、
従来多くの技術が用いられている。キャッシュをあるタ
イプのデータ専用にすることによって、キャッシュに要
求される相対的なサイズを小さくすることができる。例
えば、多くのプロセッサには、命令キャッシュとデータ
キャッシュが別個に組み込まれている。さらに、命令キ
ャッシュ用のアクセスのパターンは通常逐次式であるた
め、ヒット／ミス比が比較的高い。従って、命令を検索
するのにオフチップにアクセスする必要が少なくなり、
性能が高くなる。

【０００５】キャッシュの速度の大きさには２つの要素
が関与する。キャッシュの待ち時間は、キャッシュに対
するアドレスの呈示と要求されたデータのキャッシュか
らの受取りとの間の遅延時間（通常プロセッサ・サイク
ルで測定される）である。キャッシュのスループット
は、ある一定時間で実行することができるメモリアクセ
ス動作の回数の尺度である。待ち時間中は、キャッシュ
は、アドレスに応答してキャッシュからデータがリター
ンされないアイドル期間を持っていると見なすことがで
きる。アイドル期間の持続時間Ｌは、待ち時間より１サ
イクル短い。

【０００６】パイプライン・メモリシステムでは、先取
り法を用いてスループットを高くすることができるとい
うことは、当技術分野においては周知である。カリフォ
ルニア州サンタクララのインテル社（ＩｎｔｅｌＣｏ
ｒｐｏｒａｔｉｏｎｏｆＳａｎｔａＣｌａｒａ，
Ｃａｌｉｆｏｒｎｉａ）のＩｎｔｅｌｉ９６０ＣＡ^TM
及びｉ９６０ＣＦ^TMプロセッサは、パイプライン・メモ
リシステムをサポートするプロセッサの例である。特
に、命令キャッシュは、例えば２段パイプライン・キャ
ッシュとして実施することが可能である。パイプライン
の第１段においては、命令アドレス（命令ポインタ）が
キャッシュのタグアレイに呈示される。その結果は１サ
イクル間ラッチされ、第２段においては、ヒットの場合
はキャッシュの命令アレイラインにアクセスし、キャッ
シュミスの場合はメモリにアクセスすることによりメモ
リアクセスが続けられる。言い換えると、例えば命令ア
ドレスをサイクル１で呈示すると、キャッシュはサイク
ル２では待ち状態を取り、命令アドレスがキャッシュで
ヒットすれば、その命令がサイクル３でリターンされ
る。

【０００７】上記のパイプライン・キャッシュの待ち時
間は２サイクルである。しかしながら、実効待ち時間
は、アイドル・サイクルの間に後続の逐次アドレスから
命令を先取りすることによって１サイクル短縮すること
ができる。サイクル２においては、命令シーケンサ（プ
ログラムカウンタ）がフェッチすべき次の命令を指示す
るための命令ポインタをインクリメントし、そのポイン
タ・アドレスをキャッシュに呈示する。その結果、サイ
クル１で呈示されたアドレスで見付かった命令がサイク
ル３でリターンされ、次の命令はサイクル４でリターン
される。このようにして、キャッシュのスループット
は、１サイクルおきに１命令から１サイクルごとに１命
令へ１００パーセントの増加が達成されている。

【０００８】当業者であれば、パイプライン・キャッシ
ュの段数はシステムの要求に対応して広い範囲を取り得
るということは理解できよう。さらに、当業者ならば、
命令ポインタが各パイプライン段の間にインクリメント
される数は、プロセッサがスーパースカラ型（１サイク
ルにつき複数の命令を出す）であるかどうか、とりわけ
パイプライン段数によって変化するということは理解で
きよう。唯一必要なのは、前のサイクルでフェッチされ
た最後の命令の直後の命令を指示するように命令ポイン
タをインクリメントすることである。

【０００９】パイプライン・キャッシュからの命令を逐
次先取りする方法を用いると、命令スループットを比較
的高く保つことが可能である。しかしながら、非逐次メ
モリアクセスになると、パイプライン・キャッシュは性
能的な不利を被る。非逐次アクセスには、命令フローの
変化の中でも、とりわけ分岐コール（呼出し）及び割込
みなどがある。上に述べたように、命令シーケンサは、
命令ポインタを逐次インクリメントすることによって命
令を先取りさせる。しかしながら、分岐命令に遭遇する
と、命令フローは、その分岐命令によって指定された目
標アドレスへ転向されなければならない。プロセッサ
は、分岐命令を解読して分岐命令に遭遇したことを検知
し、命令フローを継続する分岐目標アドレスを決定する
ために多くのサイクル数を必要とする。この期間中に、
パイプライン・キャッシュは、分岐命令の直後の逐次命
令フロー中にある先取りされた命令をリターンする。分
岐が検出された後は、これらの先取りされた命令は、洗
い流す、すなわち実行せずにパイプラインから排出しな
ければならず、かつ命令フローを分岐目標アドレスへ転
向しなければならない。

【００１０】分岐目標アドレスがパイプライン・キャッ
シュに呈示されると、そのアドレスにある命令がパイプ
ライン・キャッシュの待ち時間に等しい期間後にリター
ンされる。典型的なコンピュータプログラムにおいて
は、おおよそ５命令毎に１つの割合で分岐命令が発生す
るので、この遅延は、命令スループットを大きく低下さ
せる。このスループットの低下は、各待ち時間サイクル
が１命令だけではなく多数の命令の遅延を表すスーパー
スカラ・マシンにおいては一層ひどくなる。

【００１１】

【発明が解決しようとする課題】従って、非逐次メモリ
アクセスによって生じる実効待ち時間を短縮することに
よってパイプライン・キャッシュの性能を向上させるこ
とが要望されている。

【００１２】

【課題を解決するための手段】上記目的達成のため、本
発明は、非逐次メモリアクセスにおける実効待ち時間を
短縮するための方法及び装置を提供するものである。本
発明のキャッシュは、パイプライン・キャッシュでのレ
コード・アドレスのヒットに応答して少なくとも１つの
キャッシュ出力レコードが得られる多段式パイプライン
・キャッシュを有する。このパイプライン・キャッシュ
は、出力レコードを全く出さないＬクロックサイクルの
アイドル期間後にレコードを出力する。本発明は、分岐
目標キャッシュ（ＢＴＣ）でヒットした非逐次レコード
・アドレスに応答してアイドル期間中に少なくとも１つ
のレコードを出すＢＴＣを設けることによってパイプラ
イン・キャッシュの実効待ち時間を短縮するものであ
る。このキャッシュは、さらに、アイドル期間に先行す
るゼロサイクルの間に非逐次レコード・アドレス（Ａ）
及びルックアヘッド・アドレス（Ａ＋（Ｌ×Ｗ）、Ｗは
レコードが出されるイシュー幅を示す）をパイプライン
・キャッシュに供給するルックアヘッド回路を有する。
パイプライン・キャッシュは、それぞれ、パイプライン
・キャッシュでヒットした非逐次レコード・アドレス及
びルックアヘッド・アドレスに応答して、アイドル期間
の後にルックアヘッド・アドレスに応じてルックアヘッ
ド・レコード及び非逐次レコードを出力する。非逐次レ
コードがＢＴＣでキャッシュミスになると、マルチプレ
クサが、パイプライン・キャッシュ中から出力として非
逐次レコードを選択する。非逐次アドレスがＢＴＣでヒ
ットしすると、マルチプレクサはルックアヘッド・レコ
ードを出力として選択する。

【００１３】もう一つの実施態様においては、ＢＴＣの
タグヒット論理装置が十分に速い場合、非逐次アドレス
がＢＴＣでヒットすると、ルックアヘッド回路はそのゼ
ロサイクル中にルックアヘッド・アドレスのみをパイプ
ライン・キャッシュに供給する。その場合、パイプライ
ン・キャッシュは、パイプライン・キャッシュでヒット
したルックアヘッド・アドレスに応答して、アイドル期
間の後にルックアヘッド・アドレスからルックアヘッド
・レコードを出力する。一方、非逐次アドレスがＢＴＣ
でキャッシュミスを起こすと、ルックアヘッド回路は、
そのゼロサイクル中に非逐次レコード・アドレスをパイ
プライン・キャッシュに供給する。パイプライン・キャ
ッシュでヒットした非逐次アドレスに応答して、パイプ
ライン・キャッシュは、アイドル期間の後にで非逐次レ
コードを出力する。

【００１４】上記のどちらの態様においても、非逐次ア
ドレスがＢＴＣでヒットすると、ルックアヘッド回路
は、そのゼロサイクルの後に、ルックアヘッド・アドレ
スに続いて少なくとも１つの逐次レコード・アドレスを
パイプライン・キャッシュに供給する。しかしながら、
ＢＴＣで非逐次アドレスのキャッシュミスが起こると、
ルックアヘッド回路は、そのゼロサイクルの後に、非逐
次アドレスに続いて少なくとも１つの逐次レコードアド
レスをパイプライン・キャッシュに供給する。ルックア
ヘッド回路によって供給された逐次レコード・アドレス
のパイプライン・キャッシュでのヒットに応答して、パ
イプライン・キャッシュは、少なくとも１つのレコード
を供給する。

【００１５】マルチサイクル・アイドル期間の場合は、
ＢＴＣは、アイドル期間の第１のサイクル中に、非逐次
レコード・アドレスによって指定された非逐次レコード
を出力する。アイドル期間の残りのサイクルにおいて
は、ＢＴＣは、非逐次レコード・アドレスに続く逐次レ
コード・アドレスから逐次レコードを出力する。イシュ
ー幅Ｗを有するスーパースカラ・システムの場合は、Ｂ
ＴＣは、アイドル期間の各サイクル中にＷ個のレコード
を出力する。

【００１６】アイドル期間の後、パイプライン・キャッ
シュは、前のサイクル中にＢＴＣによって出された最後
のレコードのレコード・アドレスに続く逐次レコード・
アドレスから少なくとも１つの逐次レコードを出力す
る。しかしながら、ＢＴＣがアイドル期間中にレコード
を出力しないと、パイプライン・キャッシュは、パイプ
ライン・キャッシュでヒットした非逐次レコード・アド
レスに応答して、アイドル期間の後に非逐次レコードを
出力する。

【００１７】好ましくは、キャッシュに記憶されるレコ
ードは命令を表すレコードとする。非逐次レコード・ア
ドレスは、例えば、分岐命令の目標アドレス、割込みハ
ンドラの開始アドレス、あるいはサブルーチンのコール
または戻りアドレス（復帰アドレス）である。

【００１８】以下、本発明を実施例について図面を参照
しつつ詳細に説明する。

【００１９】

【実施例】本発明によれば、非逐次アクセスにおける実
効待ち時間が短いパイプライン・キャッシュシステムが
得られる。以下の説明においては、本発明の完全な理解
を図るために、詳細な事項が特定的に記載してある。し
かしながら、本発明がこれらの詳細な事項の記載なしで
実施可能なことは当業者にとって明白であろう。また、
その他の場合においては、前記シーケンサ、その他の周
知の素子、装置、プロセス・ステップ等は、本発明が不
明確になるのを避けるため、詳細な記載は省略した。

【００２０】図１は、本発明のパイプライン・キャッシ
ュのアーキテクチャを示すブロック図である。プロセッ
サチップ１００は、ＣＰＵコア１０２及び本発明のオン
チップ命令キャッシュ１０４を有する。

【００２１】命令キャッシュ１０４は、メモリバス１０
８を介してメモリデバイス１０６に接続されている。当
業者であれば、発明の説明が不必要に複雑になるのを避
けるために、図１ではバスコントローラやデータキャッ
シュのような多数の接続や構成部品が省略されていると
いうことは理解できよう。命令キャッシュ１０４は、ル
ックアヘッド制御回路１１０、分岐目標命令キャッシュ
１１２、パイプライン・キャッシュ１１４及びマルチプ
レクサ（ＭＵＸ）１１６を有する。パイプライン・キャ
ッシュ１１４は、ＣＰＵコア１０２によって使用される
レコードの一種である命令を記憶する。このキャッシュ
は何段にでもパイプライン化することができる。分岐目
標命令キャッシュ（ＢＴＩＣ）１１２は、分岐、コー
ル、リターン及びその他の非逐次アクセスのために専用
に用いられる小さな高速キャッシュである。このＢＴＩ
Ｃは、これらの１つの動作から生じるアドレスがプロセ
ッサコア１０２によって送られたときだけアクティブに
なる。このＢＴＩＣの目的は、非逐次アクセスのために
パイプライン・キャッシュに生じる待ち時間を埋めるこ
とにある。

【００２２】ルックアヘッド制御（ＬＡＣ）回路１１０
は、パイプライン・キャッシュ１１４に与えるアドレス
を制御する。ＣＰＵコア１０２は、非逐次アクセスを実
行しようとするとき、アドレスを命令キャッシュ１０４
に呈示する。他のサイクル中に、アイドル期間中にＣＰ
Ｕコア１０２により消費された命令語の数だけ前回の命
令ポインタをインクリメントして、前記キャッシュに対
するアドレスがＬＡＣ１１０から生成される（ワード・
バイ・ワードアドレス指定であると仮定した場合）。非
逐次アクセスに遭遇すると、ＣＰＵコア１０２からのブ
ランチ・アドレスがＢＴＩＣ１１２に与えられて、分岐
目標アドレスの命令がＢＴＩＣ１１２に格納されている
かどうかの判断が行われる。同時に、ルックアヘッド制
御装置１１０は、分岐目標アドレスＡとルックアヘッド
・アドレスＡ＋Ｎを共にパイプライン・キャッシュ１１
４に与える。数Ｎは、ＣＰＵコア１０２がアイドル期間
中に消費する命令の数によって決まる。例えば、パイプ
ライン・キャッシュ１１４が２サイクルの待ち時間（す
なわち、アイドル期間Ｌ＝１サイクル）で、ＣＰＵコア
１０２がイシュー幅（issue width ）Ｗが３のスーパー
スカラ・プロセッサであるとすると、ルックアヘッド装
置１１０はＮ＝３命令だけ先取りする。一般に、アイド
ル期間中にＢＴＩＣ１１２によってＣＰＵコア１０２に
与えられる「充填（fill-in ）」命令の数Ｎは、次式に
従って計算される。Ｎ＝Ｌ×Ｗ

【００２３】ＢＴＩＣ１１２は、ヒットすると、ＣＰＵ
コア１０２が必要とする命令をアイドル期間中に出力す
る。アイドル期間に続いて、パイプライン・キャッシュ
１１４は後続の命令を出す（それらがパイプライン・キ
ャッシュ１１４中にある場合）。一方、ＢＴＩＣ１１２
でキャッシュミスが起こると、ＢＴＩＣ１１２によって
は命令が全く与えられず、プロセッサはそのアイドル期
間にわたって立ち往生（機能停止）する。アイドル期間
が終わった後、分岐目標アドレスの命令がパイプライン
・キャッシュ１１４によってＣＰＵコア１０２に供給さ
れ、ＢＴＩＣ１１２に格納される。これはそれらの命令
がパイプライン・キャッシュ１１４に格納されている場
合である。一方、命令がパイプライン・キャッシュ１１
４にない場合は、それらの命令は外部メモリ１０６から
ＣＰＵコア１０２に供給され、ＢＴＩＣ１１２及びパイ
プライン・キャッシュ１１４に格納される。本発明は、
分岐目標アドレスに関連して説明するが、当業者であれ
ば、本発明の動作はサブルーチンコール及び戻りアドレ
ス、割込みハンドラ・アドレス及びその他の非逐次アク
セス・アドレスにも同様に適用であるということは理解
できよう。さらに、本発明は、命令キャッシュばかりで
なく、あらゆる形の情報レコードを保持するキャッシュ
に適用することができる。

【００２４】以下、本発明の命令キャッシュの動作を、
図２及び３のタイミング図を参照しつつさらに詳細に説
明する。図２及び３に例示するシステムにおいては、こ
の実施例は、スカラ・プロセッサにおける２段パイプラ
イン・キャッシュであると仮定する（イシュー幅は１に
等しい）。図２に示すように、ＣＰＵコア１０２とキャ
ッシュ１０４の間では多数の信号がやり取りされる。分
岐信号（能動ハイ）は、ＣＰＵコア１０２が非逐次アク
セスを要求していることを示す。また、ＣＰＵコア１０
２は、非逐次アクセス、例えば分岐の目標アドレスＡを
ルックアヘッド制御装置１１０及び分岐目標命令キャッ
シュ１１２に与える。ＣＰＵ＿ＲＥＡＤＹ信号は、それ
がハイのとき、ＣＰＵが情報を処理することができる状
態にあるということを示し、逆に、ＣＰＵ＿ＲＥＡＤＹ
信号がローに落ちたときは、ＣＰＵが機能停止しなけれ
ばならないということを示す。

【００２５】図２に示すように、ＣＰＵコア１０２は、
サイクル０で分岐目標アドレスＡを出している。パイプ
ライン・キャッシュ１１４は２サイクルの待ち時間を呈
するので、ルックアヘッド制御回路１１０は、アドレス
Ａ及びルックアヘッド・アドレスＡ＋Ｎ＝Ａ＋（Ｌ×
Ｗ）＝Ａ＋（１×１）＝Ａ＋１（ＬＡＣ＿ＯＵＴ）を出
す。図２の例においては、サイクル０におけるハイのＢ
ＴＩＣ＿ＨＩＴ線によって示されるように、アドレスＡ
がＢＴＩＣ１１２でヒットする。ＢＴＩＣ１１２は比較
的高速のパイプライン・キャッシュであるため、サイク
ル１でアドレスＡの命令Ｉ［Ａ］をリターンする。この
ようにして、ＢＴＩＣ１１２は、サイクル１においてパ
イプライン・キャッシュ１１４のアイドル期間を埋め
る。

【００２６】ＢＴＩＣヒットに応答して、ＭＵＸ１１６
は、命令Ｉ［Ａ］を選択し、ＣＰＵコア１０２へ出力す
る（ＭＵＸ＿ＯＵＴ）。パイプライン・キャッシュ１１
４はデュアルポートであるため、２つのアドレスを与え
られると、２つの対応する命令を出力することができる
ようになっている。この例の場合、サイクル２におい
て、パイプライン・キャッシュ１１４（ＰＣ＿ＯＵＴ）
は、ＬＡＣ１１０によりサイクル０で呈示されたアドレ
スに応答して、２サイクルの待ち時間後にアドレスＡ及
びＡ＋１の命令をリターンする。サイクル２において
は、前のサイクルでＢＴＩＣヒットが検出されているの
で、ＭＵＸ１１６は、パイプライン・キャッシュ１１４
の出力からアドレスＡ＋１の命令のみを選択する。サイ
クル０の後の各サイクルについてはこの例の場合、ＣＰ
Ｕコア１０２は他に分岐目標アドレスを呈示していな
い。このように、これら後続のサイクルにおいては、Ｌ
ＡＣ１１０は、通常のように動作して、Ａ＋２、Ａ＋３
等の逐次ルックアヘッド・アドレスを出力する。通常の
２サイクルの待ち時間の後、パイプライン・キャッシュ
１１４は、ＬＡＣ１１０によってアドレスＡ＋２を呈示
されてからそのアドレスの命令を出力する（パイプライ
ン・キャッシュ１１４でヒットした場合）。命令が通常
のように逐次処理される間は、ＭＵＸ１１６は、パイプ
ライン・キャッシュ１１４の出力を選択して、命令をＣ
ＰＵコア１０２に供給する。ここで、ＣＰＵ＿ＲＥＡＤ
Ｙの線がローになって、ＣＰＵ機能停止を示しているこ
とが図から分かる。この場合、ＣＰＵコア１０２は命令
処理を延期しなければならない。このようにして、パイ
プライン・キャッシュ１１４は、アドレスＡ＋２の命令
の出力を続け、ＬＡＣ１１０は、サイクル４で機能停止
が解除されるまでＡ＋３のルックアヘッド・アドレスを
出し続ける。

【００２７】図３は、ＢＴＩＣミスの場合を示す。キャ
ッシュミスが起こった場合、ＢＴＩＣ１１２は、サイク
ル１にアドレスＡからの命令を入れることができない。
その代りに、２サイクルの待ち時間の後、ＭＵＸ１１６
は、パイプライン・キャッシュ１１４の出力から命令Ｉ
［Ａ］を選択する（パイプライン・キャッシュでヒット
した場合）。パイプライン・キャッシュ１１４が命令を
リターンするとき、その命令はＣＰＵコア１０２に供給
されるばかりでなく、以後におけるメモリアクセスのた
めにＢＴＩＣ１１２にも格納される。また、ＬＡＣ１１
０は、サイクル０でキャッシュミスが検出されると、こ
れに応答して、サイクル１でルックアヘッド・アドレス
Ａ＋１を繰り返し、その結果、パイプライン・キャッシ
ュ１１４はアドレスＡ＋１の命令をリターンする（パイ
プライン・キャッシュ１１４でヒットが起こった場
合）。また、図３には、図２と同様の機能停止の効果も
示されている。

【００２８】もう一つの実施例においては、ＢＴＩＣ１
１２のタグヒット論理装置は、ルックアヘッド制御１１
０の動作を変えるのに十分な速度で反応することができ
る。例えば、図２においては、ＬＡＣ１１０は、パイプ
ライン・キャッシュ１１４に分岐目標アドレスＡ及びル
ックアヘッド・アドレスＡ＋１を共に出力しなければな
らない。サイクル０では、ＬＡＣ１１０は、ＢＴＩＣで
ヒットが生じるか（パイプライン・キャッシュはＩ［Ａ
＋１］のみ出力すればよい）、キャッシュミスが起こる
か（この場合パイプライン・キャッシュ１１４はＩ
［Ａ］とＩ［Ａ＋１］を共に出力する必要がある）が不
確かである。しかしながら、ＢＴＩＣ１１２がルックア
ヘッド制御回路１１０にサイクル０でのヒットを通知す
るのに十分速ければ、ＬＡＣ１１０は、分岐アドレスと
ルックアヘッド・アドレスを両方とも出力すべきかどう
か、あるいはルックアヘッド・アドレスだけ出力すべき
かを決定することができるはずである。ヒットの場合
は、Ｉ［Ａ］がＢＴＩＣ１１２中にあることが分かり、
従ってアドレスＡをパイプライン・キャッシュ１１４に
呈示する必要がない。そして、ＬＡＣ１１０は、ルック
アヘッド・アドレスＡ＋１のみをパイプライン・キャッ
シュ１１４に呈示する。このような高速のＢＴＩＣは、
例えば、図２において、ＢＴＩＣ＿ＨＩＴ信号を左へ移
動させ、ＬＡＣ＿ＯＵＴ信号がアサートされる（立ち上
がる）前に論理ハイレベルに達するようにすることによ
り表すことができる。

【００２９】同様にＢＴＩＣでキャッシュミスが起こっ
た場合は、パイプライン・キャッシュ１１４がＢＴＩＣ
１１２の代りにサイクル２でＩ［Ａ］を出力する動作を
受け持つことになるから、ＬＡＣ１１０は分岐目標アド
レスＡをパイプライン・キャッシュ１１４に呈示しさえ
すればよいということが分かる。以後のサイクルでは、
非逐次アクセスがなければ、通常の逐次動作が続けられ
る。

【００３０】以上の説明では、パイプライン・キャッシ
ュ１１４は何らかのアドレスが呈示されたとき、これに
応答して生じたヒットを記録するものと仮定した。もち
ろん、アドレスがＢＴＩＣ１１２でもパイプライン・キ
ャッシュ１１４でもキャッシュミスになった場合は、プ
ロセッサは所望の命令が主メモリ１０６からリターンさ
れるまで不定数の待ち状態を経る必要がある。その命令
は、リターンされると同時にパイプライン・キャッシュ
１１４にもＢＴＩＣ１１２にも格納される。

【００３１】図４及び５は、スカラ・プロセッサ１００
で実施された４段パイプライン・キャッシュ１１４（ア
イドル時間＝３サイクル）の場合のＢＴＩＣのヒットと
ＢＴＩＣのキャッシュミスの結果をそれぞれ示すタイミ
ング図である。サイクル０においては、ルックアヘッド
制御回路１１０が分岐目標アドレスＡ及びルックアヘッ
ド・アドレスＡ＋Ｎ（ただしＮ＝３）をパイプライン・
キャッシュ１１４に呈示する。ルックアヘッド・アドレ
スＡ＋３＝Ａ＋（Ｌ×Ｗ）＝Ａ＋（３×１）（スカラ・
プロセッサの場合）＝Ａ＋３。あるいは、図２と３に関
連して説明したしように、ＬＡＣ１１０がルックアヘッ
ド・アドレスをパイプライン・キャッシュ１１４へ出力
する前にヒットかキャッシュミスかをルックアヘッド制
御回路１１０に示すことができるほどＢＴＩＣのタグヒ
ット論理装置が十分高速であれば、ルックアヘッド制御
回路１１０はＢＴＩＣヒットの場合はルックアヘッド・
アドレスのみ、ＢＴＩＣミス（キャッシュミス）の場合
は分岐目標アドレスのみを出力するだけでよい。

【００３２】この例においては、アイドル期間は３サイ
クルであり、このことは、パイプライン・キャッシュ１
１４は、サイクル０で呈示されたアドレスに応答してサ
イクル１、２または３中に命令をリターンするというこ
とを行わないということを意味する。パイプライン・キ
ャッシュ１１４の性能は、このアイドル期間にＢＴＩＣ
１１２によって供給される命令を充填することによって
強化することができる。この場合、ＢＴＩＣヒットが起
こると、ＢＴＩＣ１１２は、ＣＰＵコア１０２から受け
取った分岐目標アドレスに応答してサイクル１、２と３
中に命令Ｉ［Ａ］、Ｉ［Ａ＋１］とＩ［Ａ＋２］をそれ
ぞれ出力する。マルチプレクサ１１６は、ＢＴＩＣヒッ
トが起こった場合の３サイクルのアイドル期間中はＢＴ
ＩＣ１１２の命令出力を選択する。アイドル期間が経過
した後は、マルチプレクサ１１６はパイプライン・キャ
ッシュ１１４の出力を選択する。

【００３３】分岐目標アドレスＡがＢＴＩＣ１１２でキ
ャッシュミスになると、４サイクル待ち時間のために、
そのアドレスの命令は、サイクル４まではパイプライン
・キャッシュ１１４によってリターンされない（パイプ
ライン・キャッシュでヒットした場合）。

【００３４】本発明は、通常アイドル期間になるような
処理時間を埋めるための非逐次アクセス専用に用いられ
る小さな高速キャッシュを使用する。この性能強化は、
各アイドル・サイクルで、１つの命令だけではなく、多
くの命令を出す機会が失われるスーパースカラ・システ
ムにおいてとりわけ有用である。そのようなアイドル時
間によって通常生じる性能の低下は、１サイクルより長
い待ち時間を有する多段式のパイプライン・キャッシュ
を使用する場合にさらに顕著になる。従って、このよう
なアイドル時間を全て埋めることができる本発明は、従
来技術に対して著しい改善効果をもたらすものである。

【００３５】以上、本発明を特定実施例により詳細に説
明したが、当業者にとって、発明の要旨及び範囲を逸脱
することなく、様々な修正態様及び変更態様が可能なこ
とは明白であろう。特に、上記説明から、本発明は任意
の範囲のイシュー幅を有するスカラのプロセッサでもス
ーパースカラでも動作する任意の段数を有するパイプラ
イン・キャッシュに適用可能であるということは明らか
であろう。

【００３６】

【発明の効果】本発明によれば、非逐次メモリアクセス
によって生じる実効待ち時間を短縮することによってパ
イプライン・キャッシュの性能を向上させることができ
る。

【図面の簡単な説明】

【図１】本発明のキャッシュを組み込んだコンピュー
タシステムを示すブロック図である。

【図２】本発明をスカラ・プロセッサにおける２段パ
イプライン・キャッシュに適用した場合に、非逐次レコ
ード・アクセスが分岐目標キャッシュでヒットした場合
の一例の動作を説明するためのタイミング図である。

【図３】本発明をスカラ・プロセッサにおける２段パ
イプライン・キャッシュに適用した場合に、非逐次レコ
ード・アクセスが分岐目標キャッシュでキャッシュミス
を起こした場合の一例の動作を説明するためのタイミン
グ図である。

【図４】本発明をスカラ・プロセッサにおける４段パ
イプライン・キャッシュに適用した場合に、非逐次レコ
ード・アクセスが分岐目標キャッシュでヒットした場合
の動作を説明するためのタイミング図である。

【図５】本発明をスカラ・プロセッサにおける４段パ
イプライン・キャッシュに適用した場合に、非逐次レコ
ード・アクセスが分岐目標キャッシュでキャッシュミス
を起こした場合の一例の動作を説明するためのタイミン
グ図である。

【符号の説明】

１００…プロセッサチップ、１０２…ＣＰＵコア、１０
４…命令キャッシュ、１０６…メモリデバイス、１０８
…メモリバス、１１０…ルックアヘッド制御回路、１１
２…分岐目標命令キャッシュ、１１４…パイプライン・
キャッシュ、１１６…マルチプレクサ。

Claims

【特許請求の範囲】

【請求項１】ヒットしたレコード・アドレスに応答し
て少なくとも１つのキャッシュ出力レコードを出力する
ものであって、レコードを出力しないＬクロックサイク
ルのアイドル期間の後に前記少なくとも１つのキャッシ
ュ出力レコードを出力する多段式パイプライン・キャッ
シュと、逐次レコード・アドレスを前記パイプライン・
キャッシュに供給するシーケンサと、非逐次レコードの
非逐次レコード・アドレスを出力するためのプロセッサ
コアと、を有する情報を処理するためのコンピュータシ
ステムでそのシステムにおける非逐次レコード・アクセ
スのための実効待ち時間を短縮するための方法におい
て、アイドル期間中に、分岐目標キャッシュ（ＢＴＣ）でヒ
ットした前記非逐次レコード・アドレスに応答してその
ＢＴＣから少なくとも１つのレコードを出力するステッ
プ、を具備した方法。
【請求項２】アイドル期間の第１のサイクル中に、Ｂ
ＴＣが上記非逐次レコード・アドレスによって指定され
る非逐次レコードを出力するステップと、アイドル期間の残りのサイクル中に、ＢＴＣが前記非逐
次レコード・アドレスに引き続く逐次レコード・アドレ
スから逐次レコードを出力するステップと、を具備した
請求項１記載の方法。
【請求項３】上記コンピュータシステムがスーパース
カラ・システムであって、Ｗがそのシステムのイシュー
幅であり、上記少なくとも１つのレコードを出力するス
テップが、ＢＴＣが上記アイドル期間の各サイクル中に
Ｗ個のレコードを同時に出力するステップよりなる請求
項１記載の方法。
【請求項４】上記コンピュータシステムがスーパース
カラ・システムであり、Ｗがシステムのイシュー幅であ
り、上記少なくとも１つのレコードを出力するステップ
が、上記アイドル期間の第１のサイクル中にＢＴＣが上記非
逐次レコード・アドレスによって指定される非逐次レコ
ードを出力するステップと、上記アイドル期間の第１のサイクル中にＢＴＣが上記非
逐次レコード・アドレスに続いて逐次レコード・アドレ
スからＷ−１個の逐次レコードを同時に出力するステッ
プと、上記アイドル期間の残りのサイクル中に、ＢＴＣが前の
サイクルに出力された最後のレコードのレコード・アド
レスの次の逐次レコード・アドレスから各サイクル中に
Ｗ個の逐次レコードを出力するステップとを具備する請
求項１の方法。
【請求項５】さらに、上記アイドル期間の後に、上記
パイプライン・キャッシュが、前のサイクルにおいてＢ
ＴＣによりアイドル期間中に出力された最後のレコード
のレコード・アドレスに続く逐次レコード・アドレスか
ら少なくとも１つの逐次レコードを出力するステップを
具備した請求項１記載の方法。
【請求項６】情報を処理するためのコンピュータシス
テムにおける非逐次レコード・アクセス用の短い実効待
ち時間を有するキャッシュにおいて、ヒットしたレコード・アドレスに応答して少なくとも１
つのキャッシュ出力レコードを出力するものであって、
レコードを出力しないクロックサイクルのアイドル期間
後に出力する多段式パイプライン・キャッシュと、ヒットした非逐次レコードアドレスに応答してアイドル
期間中に少なくとも１つのレコードを出力する分岐目標
キャッシュ（ＢＴＣ）と、を具備したキャッシュ。
【請求項７】非逐次レコード・アクセスのための短い
実効待ち時間を有するコンピュータシステムにおいて、情報を処理するためのプロセッサと、上記プロセッサに接続されたメモリデバイスと、上記プロセッサに接続されたキャッシュで、ヒットしたレコード・アドレスに応答して少なくとも１
つのキャッシュ出力レコードを出力するものであって、
レコードを出力しないＬクロックサイクルのアイドル期
間後に出力する多段式パイプライン・キャッシュと、分岐目標キャッシュ（ＢＴＣ）であって、そこでヒット
した非逐次レコードアドレスに応答してアイドル期間中
に少なくとも１つのレコードを出力するＢＴＣと、を有
するキャッシュと、を具備したコンピュータシステム。