JP2003519835A

JP2003519835A - ウェイ予測がミスした時にサーチを方向付けるための、予測されないウェイからの部分的なタグを提供するキャッシュ

Info

Publication number: JP2003519835A
Application number: JP2001550564A
Authority: JP
Inventors: ケラー，ジェイムズ・ビィ; シャケル，キース・アール; シャーマ，プニート
Original assignee: Advanced Micro Devices Inc
Current assignee: Advanced Micro Devices Inc
Priority date: 2000-01-03
Filing date: 2000-08-08
Publication date: 2003-06-24
Also published as: EP1244970A1; DE60003235T2; DE60003235D1; WO2001050272A1; US6687789B1; CN1415092A; KR20020067596A; CN1208726C; KR100747127B1; EP1244970B1

Abstract

(57)【要約】キャッシュ（１４）は予測されるウェイに応答して出力バイトを与える。さらに、予測されるウェイからタグが読取られてもよく、予測されないウェイからは部分タグのみが読取られる。タグは入力アドレスのタグ部分と比較され、部分タグは入力アドレスの対応する部分タグ部分と比較される。予測されるウェイにおけるミスが検出されると、部分タグ比較が用いられる。どの部分タグも入力アドレスの対応する部分タグ部分とマッチしないとき、そのキャッシュにおけるミスが定められる。一方、部分タグの１つまたはそれ以上が入力アドレスの対応する部分タグ部分とマッチするとき、キャッシュ（１４）は対応するウェイをサーチして、入力アドレスがキャッシュ（１４）においてヒットするかまたはミスするかどうかを定める。

Description

【発明の詳細な説明】

【０００１】

【発明の背景】

１．技術分野この発明はプロセッサの分野に関し、より特定的にはプロセッサ内のキャッシ
ング機構に関する。

【０００２】２．背景技術スーパースカラプロセッサは、クロックサイクル中で複数の命令を同時に実行
し、またその設計に一致する可能な最短クロックサイクルを特定化することによ
って高性能を達成する。ここで用いられる「クロックサイクル」という語は、プ
ロセッサのパイプラインステージがその意図される機能を行なう時間間隔を示す
。クロックサイクルの最後に、その結果得られた値が次のパイプラインステージ
に移動される。クロックサイクルを定めるクロック信号に応答して、クロックさ
れた記憶装置（たとえばレジスタ、ラッチ、フロップなど）がそれらの値を捕捉
してもよい。

【０００３】有効なメモリ待ち時間を減少させるため、プロセッサは典型的にキャッシュを
含む。キャッシュは、以前にフェッチされた命令および／またはデータバイトを
記憶するために用いられる高速メモリである。キャッシュメモリは、プロセッサ
を含むコンピュータシステム内で用いられるメインメモリよりも実質的に低いメ
モリ待ち時間を提供できてもよい。

【０００４】キャッシュは「セット連想型」構造に組織化されてもよい。セット連想型構造
において、キャッシュは行（しばしば「セット」と呼ばれる）および列（しばし
ば「ウェイ」と呼ばれる）を有する二次元アレイとして組織化される。あるアド
レスに存在するバイトに対してキャッシュがサーチされるとき、キャッシュへの
「索引」としてアドレスからのいくつかのビットが用いられる。索引は二次元ア
レイ内の特定のセットを選択するため、索引に必要なアドレスビットの数は、キ
ャッシュに構成されるセットの数によって定められる。索引によってセットを選
択する作用を「索引付け」と呼ぶ。キャッシュの各ウェイは、選択されたセット
のメンバである１つのキャッシュライン記憶場所を有する（ここでキャッシュラ
インとはキャッシュにおける記憶のための単位として扱われるいくつかの連続し
たバイトであり、典型的には１６−６４バイトの範囲であってもよいが、キャッ
シュラインを構成するためにあらゆる数のバイトが定められてもよい）。選択さ
れたセットのウェイに記憶されるバイトに関連するアドレスが調べられて、その
セットに記憶されるアドレスのいずれかが要求されるアドレスにマッチするかど
うかが定められる。マッチが見出されれば、そのアクセスは「ヒット」であると
いわれ、キャッシュは関連するバイトを提供する。マッチが見出されないときは
、そのアクセスは「ミス」であるといわれる。ミスが検出されると、そのバイト
はメインメモリシステムからキャッシュに移される。キャッシュに記憶されるバ
イトに関連するアドレスも記憶される。これらの記憶されたアドレスは「タグ」
または「タグアドレス」と呼ばれる。

【０００５】前述のとおり、キャッシュの各ウェイからのキャッシュライン記憶場所は選択
されたセットのメンバである（すなわちセットの選択に応答してアクセスされる
）。ウェイの１つに記憶される情報はキャッシュの出力として与えられ、そのウ
ェイはキャッシュにウェイ選択を与えることによって選択される。ウェイ選択は
出力として選択されるウェイを識別する。典型的なセット連想型キャッシュにお
いて、ウェイ選択は、セット内のタグを調べ、タグの１つと要求されるアドレス
とのマッチを見出すことによって定められる。

【０００６】残念ながら、出力に対するウェイ選択を定めるためのタグ比較のために、セッ
ト連想型キャッシュは直接マップされたキャッシュ（索引ごとに１つのキャッシ
ュライン記憶場所を与える）よりも待ち時間が長くなり得る。さらに、ウェイ選
択はアクセス前には知られないため、各ウェイが典型的にアクセスされ、対応す
るウェイ選択は後でヒットが検出されたときに出力バイトを選択するために用い
られる。すべてのウェイにアクセスすることは、望ましくない高電力消費をもた
らし得る。最近のプロセッサにおいて、電力消費の制限は動作速度（または周波
数）の増加と急速に同等になってきている。したがって、セット連想型キャッシ
ュにアクセスするための待ち時間が少なく電力消費の低い方法が望まれている。

【０００７】

【発明の開示】

上に概略的に述べた問題の大部分は、ここに開示されるキャッシュによって解
決される。このキャッシュは、入力アドレスおよび対応するウェイ予測を受取る
ように結合される。このキャッシュは（出力バイトを選択するためにタグ比較を
行なう代わりに）予測されるウェイに応答して出力バイトを与えることによって
、タグ比較を行なう場合に比べてアクセス待ち時間を減らし得る。さらに、タグ
は予測されるウェイから読取られてもよく、予測されないウェイからは部分的な
タグのみが読取られる。タグは入力アドレスのタグ部と比較され、部分的なタグ
は入力アドレスの対応する部分的なタグ部と比較される。タグが入力アドレスの
タグ部とマッチするときは、予測されるウェイにおけるヒットが検出され、予測
されるウェイに応答して与えられたバイトは正しい。タグが入力アドレスのタグ
部とマッチしないときは、予測されるウェイにおけるミスが検出される。部分的
なタグのいずれも入力アドレスの対応する部分的なタグ部とマッチしないときに
は、キャッシュにおけるミスが定められる。一方、部分的なタグの１つまたはそ
れ以上が入力アドレスの対応する部分的なタグ部とマッチするときには、キャッ
シュは対応するウェイをサーチして、（たとえば部分的なタグマッチが検出され
たウェイに対する全タグ比較を行なうことによって）入力アドレスがキャッシュ
においてヒットまたはミスしたかどうかを定める。予測されないウェイからは部
分的なタグが読取られるため、各ウェイから全タグを読取る場合に比べて電力を
節約できる。有利には、アクセス待ち時間および電力消費の両方を減少できる。
さらに、部分的なタグを与えることによって、サーチされる他のウェイが識別さ
れてもよく、サーチされるウェイの数が減少されてもよい（たとえば部分的なタ
グミスを有する各ウェイはサーチされなくてもよい）。

【０００８】概して、キャッシュが予期される。このキャッシュはタグアレイと、そのタグ
アレイに結合される制御回路とを含む。タグアレイは読取アドレスの索引および
ウェイ選択を受取るように結合され、複数のウェイを含む。タグアレイは複数の
部分タグを出力するように構成され、部分タグの各々は複数のウェイの１つから
のものである。制御回路は、読取アドレスがタグアレイの複数のウェイの第１の
ウェイにおいてミスしたことに応答してサーチウェイを識別するサーチウェイ選
択を生成するように構成される。第１のウェイはウェイ選択によって識別される
。サーチウェイからの第１の部分タグは読取アドレスの対応する部分にマッチす
る。

【０００９】加えて、プロセッサが予期される。このプロセッサは、フェッチアドレスに応
答してウェイ予測を与えるように構成されるライン予測子と、ウェイ予測および
フェッチアドレスを受取るように結合される命令キャッシュとを含む。命令キャ
ッシュはセット連想型であり、フェッチアドレスの索引に応答して複数の部分タ
グを出力するように構成されるタグアレイを含む。命令キャッシュは、フェッチ
アドレスがウェイ予測によって識別される第１のウェイにおいてミスしたことに
応答して、複数の部分タグの対応する部分タグがフェッチアドレスの対応する部
分にマッチするようなタグアレイの第２のウェイをサーチするように構成される
。さらに、コンピュータシステムが予期され、このコンピュータシステムはプロ
セッサと入力／出力（Ｉ／Ｏ）装置とを含み、このＩ／Ｏ装置はコンピュータシ
ステムとこのＩ／Ｏ装置が結合可能な別のコンピュータシステムとを通信するよ
うに構成される。

【００１０】さらに、方法が予期される。フェッチアドレスに応答してキャッシュから複数
の部分タグが読取られる。キャッシュの予測されるウェイにおいてフェッチアド
レスがヒットしたかどうかが判断される。フェッチアドレスがキャッシュの予測
されるウェイにおいてヒットしないという判断に応答して、キャッシュの第２の
ウェイでヒットがサーチされる。第２のウェイは予測されるウェイとは異なり、
第２のウェイに対応する複数の部分タグのうち第１の部分タグがフェッチアドレ
スの対応する部分とマッチする。

【００１１】以下の詳細な説明を読み、添付の図面を参照することによって、この発明のそ
の他の目的および利点が明らかになるであろう。

【００１２】この発明にはさまざまな変更形および代替形が可能であり、ここではその特定
の実施例を例として図面に示し、詳細に説明する。しかし、図面およびその詳細
な説明は、この発明を開示される特定の形に制限することを意図するものではな
く、反対に添付の請求項によって定められるこの発明の趣旨および範囲内にある
すべての変更形、同等のものおよび代替形を包含することを意図するものである
ことが理解されるべきである。

【００１３】

【この発明を実行するためのモード】

プロセッサの概観図１を参照すると、プロセッサ１０の実施例の１つのブロック図が示される。
その他の実施例も可能であり予期される。図１の実施例において、プロセッサ１
０はライン予測子１２と、命令キャッシュ（Ｉ−キャッシュ）１４と、整列ユニ
ット１６と、分岐予測／フェッチＰＣ生成ユニット１８と、複数のデコードユニ
ット２４Ａ−２４Ｄと、予測子ミスデコードユニット２６と、マイクロコードユ
ニット２８と、マップユニット３０と、リタイアキュー３２と、アーキテクチャ
再命名ファイル３４と、フューチャファイル２０と、スケジューラ３６と、整数
レジスタファイル３８Ａと、浮動小数点レジスタファイル３８Ｂと、整数実行コ
ア４０Ａと、浮動小数点実行コア４０Ｂと、ロード／ストアユニット４２と、デ
ータキャッシュ（Ｄ−キャッシュ）４４と、外部インターフェイスユニット４６
と、ＰＣサイロ４８とを含む。ライン予測子１２は予測子ミスデコードユニット
２６と、分岐予測／フェッチＰＣ生成ユニット１８と、ＰＣサイロ４８と、整列
ユニット１６とに結合される。ライン予測子１２はまたＩ−キャッシュ１４に結
合されてもよい。Ｉ−キャッシュ１４は整列ユニット１６と分岐予測／フェッチ
ＰＣ生成ユニット１８とに結合され、分岐予測／フェッチＰＣ生成ユニット１８
はさらにＰＣサイロ４８に結合される。整列ユニット１６は予測子ミスデコード
ユニット２６とデコードユニット２４Ａ−２４Ｄとにさらに結合される。デコー
ドユニット２４Ａ−２４Ｄはマップユニット３０にさらに結合され、デコードユ
ニット２４Ｄはマイクロコードユニット２８に結合される。マップユニット３０
は、（アーキテクチャ再命名ファイル３４に結合される）リタイアキュー３２と
、フューチャファイル２０と、スケジューラ３６と、ＰＣサイロ４８とに結合さ
れる。アーキテクチャ再命名ファイル３４はフューチャファイル２０に結合され
る。スケジューラ３６はレジスタファイル３８Ａ−３８Ｂに結合され、レジスタ
ファイルはさらに互いに結合され、かつそれぞれの実行コア４０Ａ−４０Ｂに結
合される。実行コア４０Ａ−４０Ｂはロード／ストアユニット４２とスケジュー
ラ３６とにさらに結合される。実行コア４０ＡはＤ−キャッシュ４４にさらに結
合される。ロード−ストアユニット４２はスケジューラ３６と、Ｄ−キャッシュ
４４と、外部インターフェイスユニット４６とに結合される。Ｄ−キャッシュ４
４はレジスタファイル３８に結合される。外部インターフェイスユニット４６は
外部インターフェイス５２とＩ−キャッシュ１４とに結合される。ここで参照番
号の後に文字を付けて示される構成要素は、参照番号のみによって集合的に示さ
れる。たとえば、デコードユニット２４Ａ−２４Ｄはデコードユニット２４とし
て集合的に示される。

【００１４】図１の実施例において、プロセッサ１０は可変バイト長の複雑命令セットコン
ピューティング（ＣＩＳＣ）命令セットアーキテクチャを用いる。たとえば、プ
ロセッサ１０はｘ８６命令セットアーキテクチャ（ＩＡ−３２とも呼ばれる）を
用いてもよい。その他の実施例は、固定長命令セットアーキテクチャおよび縮小
命令セットコンピューティング（ＲＩＳＣ）命令セットアーキテクチャを含むそ
の他の命令セットアーキテクチャを用いてもよい。このようなアーキテクチャに
おいては、図１に示される特定の特徴は省略されてもよい。

【００１５】分岐予測／フェッチＰＣ生成ユニット１８は、Ｉ−キャッシュ１４と、ライン
予測子１２と、ＰＣサイロ４８とにフェッチアドレス（フェッチＰＣ）を与える
ように構成される。分岐予測／フェッチＰＣ生成ユニット１８は、フェッチアド
レスの生成を助けるために用いられる好適な分岐予測機構を含んでもよい。フェ
ッチアドレスに応答して、ライン予測子１２は整列ユニット１６に複数の命令に
対応する整列情報を与え、また与えられた命令情報によって識別される命令に続
いて命令をフェッチするための次のフェッチアドレスを与えてもよい。次のフェ
ッチアドレスは、所望に応じて分岐予測／フェッチＰＣ生成ユニット１８に与え
られてもよく、またはＩ−キャッシュ１４に直接与えられてもよい。分岐予測／
フェッチＰＣ生成ユニット１８は（トラップが検出されるときには）ＰＣサイロ
４８からトラップアドレスを受取ってもよく、トラップアドレスは分岐予測／フ
ェッチＰＣ生成ユニット１８によって生成されるフェッチＰＣを含んでもよい。
そうでなければ、フェッチＰＣは分岐予測情報およびライン予測子１２からの情
報を用いて生成されてもよい。一般的にライン予測子１２は、プロセッサ１０に
よって以前に投機的にフェッチされた命令に対応する情報を記憶する。実施例の
１つにおいて、ライン予測子１２は２Ｋエントリを含み、各エントリはここで命
令の「ライン」と呼ばれる１つまたはそれ以上の命令の群の場所を定める。命令
のラインは、スケジューラ３６に置かれることを通じて、プロセッサ１０の命令
処理パイプラインによって同時に処理されてもよい。

【００１６】Ｉ−キャッシュ１４は命令バイトを記憶するための高速キャッシュメモリであ
る。実施例の１つに従うと、Ｉ−キャッシュ１４はたとえば６４バイトキャッシ
ュラインを用いる１２８Ｋバイトの４ウェイセット連想型組織を含んでもよい。
しかし、（直接マップされた構造を含む）あらゆるＩ−キャッシュ構造が好適で
あり得る。

【００１７】整列ユニット１６はライン予測子１２からの命令整列情報と、Ｉ−キャッシュ
１４からのフェッチアドレスに対応する命令バイトとを受取る。整列ユニット１
６は、与えられた命令整列情報に従って各デコードユニット２４Ａ−２４Ｄへの
命令バイトを選択する。より特定的には、ライン予測子１２は各デコードユニッ
ト２４Ａ−２４Ｄに対応する命令ポインタを与える。命令ポインタは、対応する
デコードユニット２４Ａ−２４Ｄへの運搬のための、フェッチされた命令バイト
内の命令の場所を定める。実施例の１つにおいては、特定の命令が１つよりも多
くのデコードユニット２４Ａ−２４Ｄに運ばれてもよい。したがってここに示す
実施例において、ライン予測子１２からの命令のラインは最大４つの命令を含ん
でもよいが、その他の実施例はライン内のより多いかまたはより少ない命令を与
えるためのより多いかまたはより少ないデコードユニット２４を含んでもよい。

【００１８】デコードユニット２４Ａ−２４Ｄは与えられた命令をデコードし、各デコード
ユニット２４Ａ−２４Ｄはその命令に対応する１つまたはそれ以上の命令演算（
またはＲＯＰ）を識別する情報を生成する。実施例の１つにおいて、各デコード
ユニット２４Ａ−２４Ｄは命令当り最大２つの命令演算を生成してもよい。ここ
で用いられる命令演算（またはＲＯＰ）とは、実行コア４０Ａ−４０Ｂ内の実行
ユニットが単一エンティティとして実行するよう構成される演算である。簡単な
命令は単一の命令演算に対応し得るが、より複雑な命令は複数の命令演算に対応
してもよい。より複雑な命令のうちのあるものは、（この実施例においてデコー
ドユニット２４Ｄを介して中の読取専用メモリからフェッチされる）マイクロコ
ードルーチンとしてマイクロコードユニット２８内に実現されてもよい。さらに
、その他の実施例は各命令に対する単一の命令演算を用いてもよい（すなわちこ
うした実施例においては命令と命令演算とが同義になり得る）。

【００１９】ＰＣサイロ４８は各命令フェッチに対するフェッチアドレスおよび命令情報を
記憶し、例外（プロセッサ１０によって用いられる命令セットアーキテクチャに
よって定められる命令トラップ、分岐予測誤り、およびその他のマイクロアーキ
テクチャ的に定められたトラップなど）に対する命令フェッチングを再方向付け
する。ＰＣサイロ４８は、プロセッサ１０内で未処理であり得る命令の複数のラ
インに対応するフェッチアドレスおよび命令情報を記憶するための循環バッファ
を含んでもよい。命令のラインのリタイアに応答して、ＰＣサイロ４８は対応す
るエントリを廃棄してもよい。例外に応答して、ＰＣサイロ４８は分岐予測／フ
ェッチＰＣ生成ユニット１８にトラップアドレスを与えてもよい。リタイアおよ
び例外情報はスケジューラ３６によって与えられてもよい。実施例の１つにおい
て、ＰＣサイロ４８は各命令にシーケンス数（Ｒ♯）を割当てて、プロセサ１０
内で未処理の命令の順序を識別する。スケジューラ３６はＰＣサイロ４８にＲ♯
を戻すことによって、例外を経験しているかまたは命令演算をリタイアしている
命令演算を識別してもよい。

【００２０】ライン予測子１２においてミスを検出すると、整列ユニット１６はＩ−キャッ
シュ１４から予測子ミスデコードユニット２６へと対応する命令バイトを経路付
ける。予測子ミスデコードユニット２６は命令をデコードし、プロセッサ１０の
設計に従って命令のラインにおけるあらゆる制限（たとえば命令演算の最大数、
命令の最大数、分岐命令の終了など）を強制する。ラインを終了させる際に、予
測子ミスデコードユニット２６は記憶のための情報をライン予測子１２に与える
。なお、予測子ミスデコードユニット２６は、命令がデコードされる際に命令を
ディスパッチするよう構成されてもよい。代替的には、予測子ミスデコードユニ
ット２６は命令情報のラインをデコードしてそれを記憶のためにライン予測子１
２に与えてもよい。その後、ミスしたフェッチアドレスはライン予測子１２にお
いて再試行されてもよく、ヒットが検出されてもよい。

【００２１】ライン予測子１２のミスの際に命令をデコードすることに加え、予測子ミスデ
コードユニット２６は、ライン予測子１２によって与えられた命令情報が無効で
あるときに命令をデコードするように構成されてもよい。実施例の１つにおいて
、プロセッサ１０はライン予測子１２中の情報をＩ−キャッシュ１４内の命令と
コヒーレントに保つことを試みない（たとえば、命令がＩ−キャッシュ１４にお
いて置換または無効化されるとき、対応する命令情報は積極的に無効化されなく
てもよい）。デコードユニット２４Ａ−２４Ｄは与えられた命令情報を検査して
もよく、無効の命令情報が検出されたときには予測子ミスデコードユニット２６
に信号を送ってもよい。特定の実施例の１つに従うと、以下の命令演算はプロセ
ッサ１０によって支持される。すなわち、整数（算術演算、論理演算、シフト／
回転演算、および分岐演算を含む）、浮動小数点（マルチメディア演算を含む）
、およびロード／ストアである。

【００２２】デコードされた命令演算ならびにソースおよび宛先レジスタ数は、マップユニ
ット３０に与えられる。マップユニット３０は、各命令演算の各宛先レジスタオ
ペランドおよびソースレジスタオペランドに物理レジスタ数（ＰＲ♯）を割当て
ることによってレジスタ再命名を行なうように構成される。物理レジスタ数は、
レジスタファイル３８Ａ−３８Ｂ内のレジスタを識別する。マップユニット３０
は、命令演算のソースオペランドに割当てられた各物理レジスタ数を更新する命
令演算のＲ♯を与えることによって、各命令演算に対する従属性の表示を付加的
に与える。マップユニット３０は、対応する論理レジスタ数に基づいて各宛先レ
ジスタ（および対応する命令演算のＲ♯）に割当てられた物理レジスタ数によっ
てフューチャファイル２０を更新する。加えて、マップユニット３０は宛先レジ
スタの論理レジスタ数と、割当てられた物理レジスタ数と、リタイアキュー３２
中の以前に割当てられた物理レジスタ数とを記憶する。命令がリタイアされると
き（スケジューラ３６によってマップユニット３０に示される）、リタイアキュ
ー３２はアーキテクチャ再命名ファイル３４を更新し、もはや用いられないあら
ゆるレジスタを解放する。したがって、アーキテクチャレジスタファイル３４中
の物理レジスタ数はプロセッサ１０のコミットされたアーキテクチャ状態を記憶
する物理レジスタを識別するのに対し、フューチャファイル２０はプロセッサ１
０の投機的状態を表わす。言換えると、アーキテクチャ再命名ファイル３４は、
各論理レジスタに対するコミットされたレジスタ状態を表わす、各論理レジスタ
に対応する物理レジスタ数を記憶する。フューチャファイル２０は、各論理レジ
スタに対する投機的レジスタ状態を表わす、各論理レジスタに対応する物理レジ
スタ数を記憶する。

【００２３】命令演算のラインと、ソース物理レジスタ数と、宛先物理レジスタ数とは、Ｐ
Ｃサイロ４８によって割当てられたＲ♯に従ってスケジューラ３６に記憶される
。さらに、特定の命令演算に対する従属性は、スケジューラに記憶される他の命
令演算に対する従属性として示されてもよい。実施例の１つにおいて、命令演算
はリタイアされるまでスケジューラ３６中に残る。

【００２４】スケジューラ３６は、各命令演算に対して示される従属性が満足されるまでそ
の命令演算を記憶する。実行に対する特定の命令演算のスケジューリングに応答
して、スケジューラ３６はその特定の命令演算がどのクロックサイクルにおいて
レジスタファイル３８Ａ−３８Ｂを更新するかを定めてもよい。実行コア４０Ａ
−４０Ｂ内の異なる実行ユニットは、異なる数のパイプラインステージ（および
異なる待ち時間）を用いてもよい。さらに、特定の命令はその他のものよりもパ
イプライン内でより多くの待ち時間を経験してもよい。したがって、（多数のク
ロックサイクルにおける）特定の命令演算に対する待ち時間を測定するカウント
ダウンが生成される。スケジューラ３６は、（レジスタファイルを読取る従属命
令演算の前に、またはそれと同時に更新が起こるまで）特定化された数のクロッ
クサイクルだけ待ち、次いでその特定の命令演算に従属する命令演算がスケジュ
ーリングされ得ることを示す。なお、スケジューラ３６は、ある命令の従属性が
満たされたときにその命令をスケジューリングしてもよい（すなわちスケジュー
ラキュー内のその順序に関してアウトオブオーダである）。

【００２５】整数およびロード／ストア命令演算は、レジスタファイル３８Ａからのソース
物理レジスタ数に従ってソースオペランドを読取り、実行のために実行コア４０
Ａに運ばれる。実行コア４０Ａは命令演算を実行し、レジスタファイル３８Ａ内
の宛先に割当てられた物理レジスタを更新する。加えて、実行コア４０Ａはスケ
ジューラ３６に、命令演算およびその命令演算に関する例外情報（あれば）のＲ
♯を報告する。レジスタファイル３８Ｂおよび実行コア４０Ｂは、浮動小数点命
令演算に関して類似の態様で動作してもよい（また、ロード／ストアユニット４
２に浮動小数点ストアに対するストアデータを与えてもよい）。

【００２６】実施例の１つにおいて、実行コア４０Ａはたとえば、２つの整数ユニットと、
分岐ユニットと、（対応する変換ルックアサイドバッファまたはＴＬＢを有する
）２つのアドレス生成ユニットとを含んでもよい。実行コア４０Ｂは浮動小数点
／マルチメディア乗算器と、浮動小数点／マルチメディア加算器と、ロッド／ス
トアユニット４２にストアデータを配達するためのストアデータユニットとを含
んでもよい。実行ユニットのその他の構成も可能である。

【００２７】ロード／ストアユニット４２は、メモリ動作を行ない、かつＤ−キャッシュ４
４をミスしたメモリ動作に対するフィル動作をスケジューリングするためにＤ−
キャッシュ４４にインターフェイスを与える。ロードメモリ動作は、アドレス生
成を行ない、かつデータを（Ｄ−キャッシュ４４またはロード／ストアユニット
４２内のストアキューから）レジスタファイル３８Ａ−３８Ｂに転送する実行コ
ア４０Ａによって完了されてもよい。ストアアドレスは、実行コア４０Ａによる
その生成の際に（実行コア４０ＡおよびＤ−キャッシュ４４間の接続を介して直
接）Ｄ−キャッシュ４４に与えられてもよい。ストアアドレスにはストアキュー
エントリが割当てられる。設計の選択に従って、ストアデータは同時に与えられ
ても、またはその後に与えられてもよい。ストア命令のリタイアの際に、データ
はＤ−キャッシュ４４に記憶される（ただしリタイアとＤ−キャッシュ４４の更
新との間にはいくらかの遅延があり得る）。加えて、ロード／ストアユニット４
２は、（外部インターフェイスユニット４６を介した）その後のキャッシュフィ
ルのためにＤ−キャッシュ４４をミスしたロード／ストアアドレスを記憶し、そ
のミスしたロード／ストア演算を再試行するためのロード／ストアバッファを含
んでもよい。ロード／ストアユニット４２は、ロード／ストアメモリ従属性を取
扱うようにさらに構成される。

【００２８】Ｄ−キャッシュ４４は、プロセッサ１０によってアクセスされるデータを記憶
するための高速キャッシュメモリである。Ｄ−キャッシュ４４はあらゆる好適な
構造（直接マップされる構造およびセットアソシアティブ構造を含む）を含んで
もよいが、Ｄ−キャッシュ４４の実施例の１つは、６４バイトラインを有する１
２８Ｋバイトの２ウェイセットアソシアティブキャッシュを含んでもよい。

【００２９】外部インターフェイスユニット４６は、外部インターフェイス５２を介して他
の装置と通信するように構成される。Ｌ２キャッシュに対するインターフェイス
およびプロセッサ１０を他の装置に接続するための外部バスを含む、あらゆる好
適な外部インターフェイス５２が用いられてもよい。外部インターフェイスユニ
ット４６はＩ−キャッシュ１６およびＤ−キャッシュ４４に対するフィルをフェ
ッチし、またＤ−キャッシュ４４から外部インターフェイスに廃棄された更新済
キャッシュラインを書込む。さらに、外部インターフェイスユニット４６は、プ
ロセッサ１０によって生成されるキャッシュできない読取および書込を行なって
もよい。

【００３０】次に図２を参照すると、プロセッサ１０の実施例の１つによって用いられ得る
パイプラインステージの例示的なセットを例示する例示的なパイプライン図が示
される。その他の実施例は異なるパイプライン、すなわち図２に示されるパイプ
ラインよりも多いかまたは少ないパイプラインステージを含むパイプラインを用
いてもよい。図２に示されるステージは、垂直の破線によって区切られている。
各ステージは、プロセッサ１０内の記憶素子（たとえばレジスタ、ラッチ、フロ
ップなど）をクロックするために用いられるクロック信号の１つのクロックサイ
クルである。

【００３１】図２に例示されるとおり、例示的なパイプラインはＣＡＭ０ステージと、ＣＡ
Ｍ１ステージと、ライン予測子（ＬＰ）ステージと、命令キャッシュ（ＩＣ）ス
テージと、整列（ＡＬ）ステージと、デコード（ＤＥＣ）ステージと、マップ１
（Ｍ１）ステージと、マップ２（Ｍ２）ステージと、書込スケジューラ（ＷＲ
ＳＣ）ステージと、読取スケジューラ（ＲＤＳＣ）ステージと、レジスタファ
イル読取（ＲＦＲＤ）ステージと、実行（ＥＸ）ステージと、レジスタファイ
ル書込（ＲＦＷＲ）ステージと、リタイア（ＲＥＴ）ステージとを含む。いく
つかの命令は実行状態において複数のクロックサイクルを用いる。たとえば、メ
モリ動作と、浮動小数点演算と、整数乗算演算とが図２において分解された形で
例示される。メモリ動作はアドレス生成（ＡＧＵ）ステージと、変換（ＴＬＢ）
ステージと、データキャッシュ１（ＤＣ１）ステージと、データキャッシュ２（
ＤＣ２）ステージとを含む。同様に、浮動小数点演算は最大４つの浮動小数点実
行（ＦＥＸ１−ＦＥＸ４）ステージを含み、整数乗算は最大４つ（ＩＭ１−ＩＭ
４）のステージを含む。

【００３２】ＣＡＭ０およびＣＡＭ１ステージの間に、ライン予測子１２は分岐予測／フェ
ッチＰＣ生成ユニット１８によって与えられるフェッチアドレスと、そこに記憶
されるラインのアドレスとを比較する。加えて、ＣＡＭ０およびＣＡＭ１ステー
ジの間に、フェッチアドレスは仮想アドレス（たとえばｘ８６アーキテクチャに
おける線形アドレスなど）から物理アドレスに変換される。ＣＡＭ０およびＣＡ
Ｍ１ステージの間にヒットを検出することに応答して、ライン予測子ステージに
おいてライン予測子から対応するライン情報が読取られる。また、ライン予測子
ステージの間にＩ−キャッシュ１４が（物理アドレスを用いて）読取を開始する
。その読取は命令キャッシュステージの間に完了する。

【００３３】なお、図２に例示されるパイプラインはフェッチアドレスに対するライン予測
子１２におけるヒットを検出するために２つのクロックサイクルを用いるが、そ
の他の実施例はこの動作を行なうために単一のクロックサイクル（およびステー
ジ）を用いてもよい。さらに、実施例の１つにおいて、ライン予測子１２はＩ−
キャッシュ１４に対する次のフェッチアドレスと、ヒットに対するライン予測子
１２中の次のエントリとを与えることによって、ライン予測子１２における前の
ヒットの結果得られるフェッチに対してＣＡＭ０およびＣＡＭ１ステージがスキ
ップされてもよい。

【００３４】Ｉ−キャッシュ１４によって与えられる命令バイトは、ライン予測子１２から
の対応するライン情報に応答して整列ステージの間に整列ユニット１６によって
デコードユニット２４Ａ−２４Ｄに整列される。デコードユニット２４Ａ−２４
Ｄはデコードステージの間に与えられた命令をデコードし、その命令に対応する
ＲＯＰおよびオペランド情報を識別する。マップ１ステージにおいて、マップユ
ニット３０は与えられた情報からＲＯＰを生成し、レジスタ再命名（フューチャ
ファイル２０の更新）を行なう。マップ２ステージの間に、ＲＯＰおよび割当て
られた再命名はリタイアキュー３２に記録される。さらに、各ＲＯＰが従属する
ＲＯＰが定められる。各ＲＯＰはフューチャファイルに記録される際に前のＲＯ
Ｐに従属するレジスタであってもよく、またその他の種類の従属性（たとえば前
の直列化した命令に対する従属性など）を示してもよい。

【００３５】生成されたＲＯＰは、書込スケジューラステージの間にスケジューラ３６に書
込まれる。このステージまで、情報の特定のラインによって場所を定められるＲ
ＯＰは１単位としてパイプラインを流れる。しかし、スケジューラ３６に書込ま
れた後に、ＲＯＰは異なる時間に独立して残りのステージを流れてもよい。一般
的に、（たとえば前述のように、特定のＲＯＰが従属するＲＯＰが実行のために
選択された後に）特定のＲＯＰはスケジューラ３６によって実行のために選択さ
れるまでこのステージに残る。したがって、特定のＲＯＰは書込スケジューラ書
込ステージと読取スケジューラステージとの間に、遅延の１つまたはそれ以上の
クロックサイクルを経験してもよい。読取スケジューラステージの間に、スケジ
ューラ３６内の選択論理に関係する特定のＲＯＰが実行のために選択され、スケ
ジューラ３６から読出される。次いでその特定のＲＯＰは、レジスタファイル読
取ステージにおいて（ＲＯＰの種類に依存して）レジスタファイル３８Ａ−３８
Ｂの１つからレジスタファイル演算を読取るために進行する。

【００３６】実行ステージの間に、特定のＲＯＰおよびオペランドが対応する実行コア４０
Ａまたは４０Ｂに与えられ、オペランドに対して命令演算が行なわれる。前述の
とおり、いくつかのＲＯＰは実行のいくつかのパイプラインステージを有する。
たとえば、メモリ命令演算（たとえばロードおよびストア）は、アドレス生成ス
テージ（メモリ命令演算によってアクセスされるメモリ場所のデータアドレスが
生成される）と、変換ステージ（アドレス生成ステージによって与えられる仮想
データアドレスが変換される）と、Ｄ−キャッシュ４４がアクセスされる１対の
データキャッシュステージとを通じて実行される。浮動小数点演算は最大４クロ
ックサイクルの実行を用いてもよく、整数乗算も同様に最大４クロックサイクル
の実行を用いてもよい。

【００３７】実行ステージを完了する際に、特定のＲＯＰはレジスタファイル書込ステージ
の間にその割当てられた物理レジスタを更新する。最後に、特定のＲＯＰは（リ
タイアステージにおいて）前のＲＯＰの各々がリタイアされた後にリタイアされ
る。ここでも、特定のＲＯＰに対してレジスタファイル書込ステージとリタイア
ステージとの間に１つまたはそれ以上のクロックサイクルが経過してもよい。さ
らに、当該技術分野において周知のとおり、パイプラインストール状態のために
、特定のＲＯＰがあらゆるステージにおいてストールされてもよい。

【００３８】キャッシュアクセス図３を参照すると、分岐予測／フェッチＰＣ生成ユニット１８と、ライン予測
子１２と、Ｉ−キャッシュ１４と、命令ＴＬＢ（ＩＴＬＢ）６０と、フェッチア
ドレスｍｕｘ６４との実施例の１つを例示するブロック図が示される。その他の
実施例も可能であり予期される。図３の実施例において、分岐予測／フェッチＰ
Ｃ生成ユニット１８はＰＣサイロ４８からトラップＰＣを受取るように結合され
、ＩＴＬＢ６０と、ライン予測子１２と、Ｉ−キャッシュ１４と、フェッチアド
レスｍｕｘ６４とにさらに結合される。ＩＴＬＢ６０はフェッチアドレスｍｕｘ
６４にさらに結合され、フェッチアドレスｍｕｘはＩ−キャッシュ１４に結合さ
れる。ライン予測子１２はＩ−キャッシュ１４とフェッチアドレスｍｕｘ６４と
に結合される。

【００３９】一般的に、分岐予測／フェッチＰＣ生成ユニット１８は、フェッチされる命令
に対するフェッチアドレス（フェッチＰＣ）を生成する。フェッチアドレスはラ
イン予測子１２およびＴＬＢ６０（ならびに図１に示されるとおり、ＰＣサイロ
４８）に与えられる。ライン予測子１２はそのフェッチアドレスをその中に記憶
されるフェッチアドレスと比較することによって、そのフェッチアドレスに対応
するライン予測子エントリがライン予測子１２内に存在するかどうかを判断する
。対応するライン予測子エントリが見出されるとき、ライン予測子エントリに記
憶される命令ポインタが整列ユニット１６に与えられる。ライン予測子１２がラ
イン予測子エントリをサーチするのと並行して、ＩＴＬＢ６０はフェッチアドレ
ス（この実施例においては仮想アドレスである）をＩ−キャッシュ１４へのアク
セスのための物理アドレス（物理ＰＣ）に変換する。ＩＴＬＢ６０はその物理ア
ドレスをフェッチアドレスｍｕｘ６４に与え、分岐予測／フェッチＰＣ生成ユニ
ット１８Ｄはｍｕｘ６４を制御して物理アドレスを選択する。図面および説明に
おいては、明瞭さのためにｍｕｘ６４の出力をキャッシュフェッチアドレス（ま
たはキャッシュフェッチＰＣ）と呼ぶ。Ｉ−キャッシュ１４はこの物理アドレス
に対応する命令バイトを読取り、その命令バイトを整列ユニット１６に与える。

【００４０】この実施例において、各ライン予測子エントリはまた次のフェッチアドレス（
次のフェッチＰＣ）を与える。次のフェッチアドレスはｍｕｘ６４に与えられ、
ライン予測子１２に応答してＩ−キャッシュ１４にアクセスするためのキャッシ
ュフェッチアドレスがヒットを検出する際に、分岐予測／フェッチＰＣ生成ユニ
ット１８はｍｕｘ６４を通じてアドレスを選択する。この態様で、フェッチアド
レスがライン予測子においてヒットし続ける限り、次のフェッチアドレスがより
迅速にＩ−キャッシュ１４に与えられてもよい。ライン予測子エントリはまた、
（次のフェッチアドレスに対応する）ライン予測子１２内の次のライン予測子エ
ントリの表示を含むことによって、ライン予測子１２が次のフェッチアドレスに
対応する命令ポインタをフェッチできるようにしてもよい。したがって、フェッ
チアドレスがライン予測子１２においてヒットし続ける限り、命令のラインのフ
ェッチは図２に示されるパイプラインのライン予測子ステージから開始されても
よい。（スケジューラ３６に応答して）ＰＣサイロ４８によって開始されるトラ
ップ、次のフェッチアドレスに対してライン予測子１２によって行なわれる予測
と分岐予測／フェッチＰＣ生成ユニット１８によって生成される次のフェッチア
ドレスとの不一致のために、分岐予測／フェッチＰＣ生成ユニット１８によって
生成されるフェッチアドレスがライン予測子１２中でサーチされてもよい。

【００４１】加えて、ライン予測子１２はキャッシュフェッチアドレスに対応するウェイ予
測を与える。Ｉ−キャッシュ１４はウェイ予測によって識別される予測されるウ
ェイを読取って、読取命令バイトを整列ユニット１６に与えてもよい。出力デー
タを選択するためにタグ比較が用いられないため、Ｉ−キャッシュ１４にアクセ
スするための待ち時間が減少され得ることが有利である。さらに、予測されない
ウェイをアイドル状態にする（すなわち予測されないウェイにアクセスしない）
ことによって電力消費を減少させてもよく、つまり予測されないウェイにアクセ
スすることによって消費される電力が節約される。さらに、Ｉ−キャッシュ１４
は予測されるウェイからのタグおよび予測されないウェイからの部分タグにアク
セスしてもよい。部分タグは全タグの１つまたはそれ以上のビットを排除してお
り、予測されるウェイにおいてフェッチアドレスがミスしたときに予測されない
ウェイのサーチを方向付けるために用いられてもよい。予測されるウェイからの
全タグにアクセスするが予測されないウェイからの部分タグにしかアクセスしな
いことによって、さらに付加的な電力が節約されてもよい。フェッチアドレスが
予測されるウェイをミスするとき、Ｉ−キャッシュ１４は、対応する部分タグが
フェッチアドレスの対応する部分にマッチする予測されないウェイをサーチして
もよい。部分タグがフェッチアドレスの対応する部分にマッチしないときには、
全タグもマッチしないため、部分タグがマッチしないウェイはサーチにおいてス
キップされてもよい。したがって、各ウェイからの全タグにアクセスすることに
比べると、サーチはなおも電力消費の減少を可能にしてより効率的になり得る。

【００４２】ウェイ予測ミスが検出されるとき、Ｉ−キャッシュ１４は分岐予測／フェッチ
ＰＣ生成ユニット１８およびライン予測子１２にストール信号をアサートしても
よい。そのストール信号によって、分岐予測／フェッチＰＣ生成ユニット１８お
よびライン予測子１２はフェッチアドレスのさらなる生成を中断し、Ｉ−キャッ
シュ１４が予測されないウェイにおけるヒットをサーチできるようにしてもよい
。一旦ヒットが検出されると、Ｉ−キャッシュ１４はライン予測子１２に更新さ
れたウェイ予測を与えて、ストール信号をデアサートしてもよい。ライン予測子
１２は更新されたウェイ予測によって対応するライン予測子エントリを更新して
もよい。ミスが検出されるとき（すなわちどのウェイもマッチするタグを有さな
いとき）、Ｉ−キャッシュ１４は置換ウェイを選択し、その置換ウェイを更新さ
れたウェイ予測として与えてもよい。代替的には、外部インターフェイスユニッ
ト４６からＩ−キャッシュ１４に対応する命令バイトが与えられるときに置換ウ
ェイが選択されてもよい。

【００４３】ライン予測子１２によって次のフェッチアドレスが生成され、ライン予測子１
２においてヒットしている間にも、分岐予測／フェッチＰＣ生成ユニット１８は
ＰＣサイロ４８によるロギングのためにフェッチアドレスを生成し続ける。さら
に、分岐予測／フェッチＰＣ生成ユニット１８は、その中に含まれる１つまたは
それ以上の分岐予測を介してライン予測子１２によって与えられる次のフェッチ
アドレスを確認してもよい。ライン予測子１２内のライン予測子エントリは、タ
イプによって命令のライン内の終了命令を識別し、ライン予測子１２はそのタイ
プ情報を分岐予測／フェッチＰＣ生成ユニット１８および終了命令の予測される
方向に伝送する（図３の状態）。さらに、分岐命令内に含まれる分岐変位を介し
て目標アドレスを形成する分岐に対して、ライン予測子１２は分岐変位の表示を
与えてもよい。この情報および分岐予測子に記憶される情報から、分岐予測／フ
ェッチＰＣ生成ユニット１８は仮想的な次のフェッチアドレスを生成してもよい
。実施例の１つにおいて、分岐予測子は条件付分岐予測子と、間接分岐目標アド
レスキャッシュと、復帰スタックとを含む。

【００４４】なお、実施例の１つにおいて、Ｉ−キャッシュ１４はフェッチアドレスによっ
て場所を定められる命令バイトから始まる、命令フェッチ当り固定された数の命
令バイトを与えてもよい。フェッチアドレスはキャッシュライン内のあらゆると
ころにバイトの場所を定めてもよいため、Ｉ−キャッシュ１４はフェッチアドレ
スに応答して２つのキャッシュラインにアクセスしてもよい（フェッチアドレス
によって索引付けされるキャッシュライン、およびキャッシュ中の次の索引にお
けるキャッシュライン）。その他の実施例は、与えられる命令バイトの数を最大
固定された数まで、またはキャッシュラインの最後までのうちいずれか先に来る
方に制限してもよい。実施例の１つにおいて、その固定された数は１６であるが
、その他の実施例は１６よりも大きいかまたは小さい固定数を用いてもよい。２
つのキャッシュラインにアクセスする実施例において、２つのウェイ予測が与え
られてもよい。図４−９に関する以下の考察は１つのウェイ予測を参照してもよ
いが、複数の同時のウェイ予測に拡張されてもよい。

【００４５】ここで用いられる「アドレス」とは、プロセッサ１０が結合可能なメモリシス
テム内のバイトを識別する値である。「フェッチアドレス」は、プロセッサ１０
内の命令として実行される命令バイトをフェッチするために用いられるアドレス
である。前述のとおり、プロセッサ１０は、仮想アドレス（命令のオペランドに
応答して生成される）を物理アドレス（メモリシステム中の場所を物理的に識別
する）に変換するアドレス変換機構を用いてもよい。ｘ８６命令セットアーキテ
クチャにおいて、仮想アドレスは命令のオペランドから生成される論理アドレス
に対して動作するセグメンテーション機構に従って生成された線形アドレスであ
ってもよい。その他の命令セットアーキテクチャは異なる態様で仮想アドレスを
定めてもよい。

【００４６】図４を参照すると、Ｉ−キャッシュ１４の実施例の１つのブロック図が示され
る。その他の実施例も可能であり予期される。図４の実施例において、Ｉ−キャ
ッシュ１４はタグアレイ７０と、命令アレイ７２と、残存タグ比較器７４と、複
数の部分的タグ比較器７６Ａ−７６Ｄと、制御回路７８と、ウェイマルチプレク
サ（ｍｕｘ）８０と、アドレスｍｕｘ８２と、アドレスレジスタ８４とを含む。
アドレスｍｕｘ８２およびアドレスレジスタ８４はＩ−キャッシュ１４に与えら
れるキャッシュフェッチアドレスを受取るように結合され、アドレスレジスタ８
４はアドレスｍｕｘ８２にさらに結合される。アドレスｍｕｘ８２の出力はタグ
アレイ７０および命令アレイ７２、ならびに比較器７４および７６Ａ−７６Ｄに
結合される。ウェイｍｕｘ８０はＩ−キャッシュ１４に与えられるウェイ予測を
受取るように結合され、また制御回路７８からのサーチウェイ選択を受取るよう
に結合される。ウェイｍｕｘ８０の出力はタグアレイ７０および命令アレイ７２
に結合される。ｍｕｘ８０および８２は制御回路７８から選択信号を受取るよう
に結合され、アドレスレジスタ８４は制御回路７８から保持制御信号を受取るよ
うに結合される。残存タグ比較器７４はタグアレイ７０から予測されるウェイ残
存タグ（ＲＴａｇ）を受取るように結合され、また制御回路７８に出力信号を与
えるように結合される。各々の部分タグ比較器７６Ａ−７６Ｄはタグアレイ７０
からそれぞれの部分タグ（ＰＴａｇ０−ＰＴａｇ３）を受取るように結合され、
また制御回路７８にそれぞれの出力信号を与えるように結合される。制御回路７
８は外部インターフェイスユニット４６にミス信号を与え、ライン予測子１２に
ウェイ予測更新信号を与え、ライン予測子１２および分岐予測／フェッチＰＣ生
成ユニット１８にストール信号を与えるように結合される。制御回路７８はウェ
イｍｕｘ８０からウェイ選択を受取るように結合される。なお、Ｉ−キャッシュ
１４は、所望に応じてスヌープトランザクションなどを管理するために、ミスに
応答してＩ−キャッシュ１４へのキャッシュラインの伝達を管理するための付加
的な回路（図示せず）を含んでもよい。

【００４７】タグアレイ７０はＩ−キャッシュ１４に記憶される命令バイトのキャッシュラ
インのタグを記憶し、命令アレイ７２は命令バイトのキャッシュラインを記憶す
る。タグアレイ７０および命令アレイ７２は、たとえばランダムアクセスメモリ
（ＲＡＭ）アレイを含んでもよい。タグアレイ７０におけるタグ記憶場所と、命
令アレイ７２におけるキャッシュライン記憶場所とは１対１で対応する。より特
定的には、タグアレイ７０および命令アレイ７２は同数のセット（すなわち索引
ビットの同じセットによって索引付けされる）および同数のウェイを含んでもよ
い。

【００４８】一般的に、予測されるウェイにおけるミスのために制御回路７８が予測されな
いウェイにおけるフェッチアドレスのヒットをサーチしていないとき、制御回路
７８はアドレスｍｕｘ８２を通じてキャッシュフェッチアドレスを選択し、ウェ
イｍｕｘ８０を通じてウェイ予測を選択する。したがって、キャッシュフェッチ
アドレスと予測されるウェイとがタグアレイ７０および命令アレイ７２に与えら
れる。より特定的には、キャッシュフェッチアドレスの索引部分が各アレイに与
えられ、対応するセットが選択される。さらに、命令アレイ７２においては、（
ウェイ予測に応答して）セットの予測されるウェイがアクセスされ、予測されな
いウェイは電力を節約するためにアイドル状態に保持される。読取アクセスの間
にアレイによって消費される電力は一般的にアクセスされる情報の量（たとえば
ビットまたはバイトの数）に比例するため、アクセスされても出力において選択
されないアレイ（たとえば命令アレイ７２の予測されないウェイなど）のアイド
ル状態の部分によって、消費される電力が減少される。予測されるウェイに記憶
される命令バイトは、命令アレイ７２から整列ユニット１６に出力される。加え
て、タグアレイ７０の各ウェイから部分タグが読取られ、残存タグ（すなわち部
分タグから排除されるタグの部分）がタグアレイ７０の予測されるウェイから読
取られる。ここでも予測されないウェイからは部分タグしか読取られないため、
各ウェイから全タグを読取る場合に比べて電力を節約できる。予測されるウェイ
からの部分タグと予測されるウェイからの残存タグとの組合せは、予測されるウ
ェイからのタグを含む。

【００４９】残存タグ比較器７４は、予測されるウェイからの残存タグをフェッチアドレス
の対応する部分と比較する。残存タグとフェッチアドレスの対応する部分とが同
等であるとき、残存タグ比較器７４はその出力信号を制御回路７８にアサートす
る。そうでなければ、残存タグ比較器７４はその出力信号を制御回路７８にデア
サートする。同様に、部分タグ比較器７６Ａ−７６Ｄの各々はタグアレイ７０の
それぞれのウェイからの部分タグを受取り、その受取った部分タグをフェッチア
ドレスの対応する部分と比較する。受取った部分タグとフェッチアドレスの対応
する部分とが同等であるときには、部分タグ比較器７６Ａ−７６Ｄはその出力信
号をアサートする。そうでなければ、部分タグ比較器７６Ａ−７６Ｄはその出力
信号をデアサートする。

【００５０】予測されるウェイに対応する残存タグ比較器７４および部分タグ比較器７６Ａ
−７６Ｄの両方が出力信号をアサートするとき、制御回路７８は予測されるウェ
イにおけるヒットを検出し、命令アレイ７２によって与えられる対応する命令バ
イトは正しい。制御回路７８はストール信号またはミス信号をアサートせず、そ
の後のアクセスが継続してもよい。制御回路７８はタグアレイ７０に与えられる
ウェイ選択を受取り、どの部分タグ比較器７６Ａ−７６Ｄが選択されるウェイに
対応するかを定める。

【００５１】一方、予測されるウェイに対応する残存タグ比較器７４または部分タグ比較器
７６Ａ−７６Ｄのいずれもが出力信号をアサートしないとき、制御回路７８は予
測されるウェイにミスを検出する。他のどの部分タグ比較器７６Ａ−７６Ｄも出
力信号をアサートしないとき、フェッチアドレスはＩ−キャッシュ１４における
ミスであり、制御回路７８は外部インターフェイスユニット４６にミス信号をア
サートしてミスした命令バイトをフェッチさせる。逆に、他の部分タグ比較器７
６Ａ−７６Ｄからの出力信号の少なくとも１つがアサートされ、かつ予測される
ウェイにおけるミスが検出されるとき、制御回路７８はサーチウェイ選択を生成
し、ウェイｍｕｘ８０にサーチウェイ選択を与え、ライン予測子１２および分岐
予測／フェッチＰＣ生成ユニット１８にストール信号をアサートする。サーチウ
ェイ選択は、部分タグがフェッチアドレスの対応する部分とマッチするウェイを
識別する。制御回路７８はウェイｍｕｘ８０を通じてサーチウェイ選択を選択し
、アドレスｍｕｘ８４を通じてアドレスレジスタ８４中の値を選択する。サーチ
ウェイがアクセスされ、サーチウェイにおいてヒットが検出されるかどうかを定
めるための比較は、予測されるウェイアクセスと類似の態様で行なわれる。ヒッ
トが検出されるとき、制御回路７８はウェイ予測更新としてヒットするサーチウ
ェイ選択をライン予測子１２に伝送する。

【００５２】一般的に、アドレスレジスタ８４は各クロックサイクルにＩ−キャッシュ１４
に与えられるキャッシュフェッチアドレスを捕捉する。しかし、アドレスレジス
タ８４は保持制御を含み、この保持制御はアサートされるときにアドレスレジス
タ８４にその現行値を保持させる。保持制御は、制御回路７８がウェイｍｕｘ８
０を通じてサーチウェイ選択を選択し、アドレスｍｕｘ８２を通じてアドレスレ
ジスタ８４の内容を選択するクロックサイクルにおいてアサートされる。この態
様で、予測されるウェイにおいてミスしたフェッチアドレスはタグアレイ７０お
よび命令アレイ７２に再び提供され、サーチウェイ選択はウェイ選択としてタグ
アレイ７０および命令アレイ７２に与えられる。

【００５３】制御回路７８がサーチウェイにおいてヒットを検出しないとき、制御回路７８
は部分タグヒットが検出される各ウェイがサーチされるまで付加的なサーチウェ
イを生成する。実施例の１つにおいて、第１のサーチウェイは部分タグヒットが
検出される最低の数が付けられたウェイであってもよく、その後のサーチウェイ
は増加する順序で生成されてもよい（たとえばこの実施例においては、ウェイ０
が第１にサーチされ、ウェイ３が最後にサーチされる）。制御回路７８はサーチ
が継続する際にストール信号をアサートし続ける。部分タグヒットを有するウェ
イの各々がヒットに対してサーチされ、かつヒットが検出されないとき、制御回
路７８は外部インターフェイスユニット４６にミス信号をアサートする。したが
って、ミスしたキャッシュラインはフェッチされてＩ−キャッシュ１４に記憶さ
れてもよい。ミス信号のアサートによって、外部インターフェイスユニット４６
からミスした命令バイトが与えられるまでライン予測子１２および分岐予測／フ
ェッチＰＣ生成ユニット１８がストールするようにしてもよい。代替的には、ミ
スした命令バイトが与えられるまで制御回路７８がストール信号をアサートし続
けてもよい。

【００５４】なお、命令アレイ７２における選択されたウェイにのみアクセスすることに加
えて、命令アレイ７２はキャッシュライン内の複数のバンクを用いてもよい。命
令アレイ７２は１つまたはそれ以上のキャッシュラインオフセットビットを用い
てアクセスするバンクを選択し、その他のバンクはアイドル状態に保持されても
よい。さらに、アレイの一部が、アレイのその部分にアクセスしないことによっ
てアイドル状態に保持されてもよい。たとえば、アレイからデータを出力するた
めにその部分から記憶セルが選択されないときには、その部分はアイドル状態で
あってもよい。言い換えると、アイドル状態にされた部分は「パワーアップ」さ
れなくてもよい。さらに、ウェイ予測および部分タグの用法の一例として命令キ
ャッシュを用いたが、その他のキャッシュも類似の構造を用いてもよい。たとえ
ば、データキャッシュまたは組合された命令／データキャッシュが類似の構造を
用いてもよい。

【００５５】なお、代替的な構成が可能である。たとえば、部分ヒットが検出される各ウェ
イをサーチする代わりに、タグアレイ７０は、選択されるウェイから全タグを読
取ってその他のウェイから部分タグを読取ることに加えて各ウェイからの全タグ
読取を与えるように構成されてもよい。１つまたはそれ以上の部分タグヒットが
検出されるとき、制御回路７８は全タグ読取を行なってもよく、各ウェイに対し
て全タグ比較器が与えられてもよい。この態様で、ヒットに対するサーチは、前
述のように１つまたはそれ以上の読取ではなく、タグの１つの読取において完了
してもよい。さらに、アドレスｍｕｘ８２およびｍｕｘ６４（図３に示す）は所
望であれば単一のｍｕｘにマージされて、アドレスレジスタ８４と、ＩＴＬＢ６
０によって与えられる物理アドレスと、ライン予測子１２によって与えられる次
のフェッチアドレスとを選択してもよい。

【００５６】次に図５を参照すると、タグアレイ７０の実施例の１つのブロック図が示され
る。その他の実施例も可能であり予期される。図５の実施例において、タグアレ
イ７０は索引を受取るように結合される部分タグデコーダ９０と、索引およびウ
ェイ選択を受取るように結合される残存タグデコーダ９２とを含む。タグアレイ
７０はさらに、セットに配列されたＲＡＭセル９４のセットを含む。例示的なセ
ット９６が２本の水平な破線の間に例示されており、その他のセットはデコーダ
９０および９２からの異なる信号を受取る同一の構成を含んでもよい。セット９
６は残存タグセル９８Ａ−９８Ｄと部分タグセル１００とを含む。残存タグセン
ス増幅器（センス増幅器）１０２および部分タグセンス増幅器１０４も示される
。なお、セットアソシアティブＲＡＭ設計に好適なあらゆる態様でタグアレイ７
０を更新するために付加的な回路（図示せず）が含まれてもよい。

【００５７】典型的なＲＡＭアレイにおいて、デコーダは受取った索引をデコードしてセッ
トを選択し、そのセット内のＲＡＭセルに対するワードラインを活性化する。各
ＲＡＭセルは１対のビットライン（一般的にビットおよびビットバーと呼ばれる
）に結合され、ＲＡＭセルに記憶されるビットに応答してＲＡＭセルはその１つ
を放電する。センス増幅器はビットラインに結合され、そのビットライン対間の
差動電圧に応答してセット中の各セルに対してバイナリゼロまたはバイナリ１を
生成するように構成される。図５に例示されるタグアレイ７０の実施例において
、セル９８Ａ−９８Ｄおよびセル１００は各セルに対するビットラインの対に結
合されており、それはセルをセンス増幅器１０２または１０４の１つに結合する
垂直線によって表わされる。よって、セル９８Ａ中の各ビットに対して、１対の
ビットラインが与えられて残存タグセンス増幅器１０２に結合されてもよい。同
様に、セル９８Ｂ中の各ビットに対して、１対のビットラインが与えられて残存
タグセンス増幅器１０２に結合されてもよい（セル９８Ｃ−９８Ｄに対しても同
様）。セル１００の各ビットに対して１対のビットラインが与えられて部分タグ
センス増幅器１０４に結合されてもよい。他のセット（図５に示さず）のセル９
８Ａ−９８Ｄおよび１００は、それぞれセル９８Ａ−９８Ｄおよび１００と同じ
ビットラインのセットに結合される。

【００５８】一般的に、部分タグセル１００はセット９６に記憶される各タグの部分タグ部
を記憶する。たとえば、例示される実施例において、タグアレイ７０は４ウェイ
セットアソシアティブである。よって、このような実施例に対して、部分タグセ
ル１００は４つの部分タグ（各ウェイに対して１つ）の各ビットを記憶するため
のセルを含む。残存タグセル９８Ａ−９８Ｄの各々は、１つの残存タグの各ビッ
トを記憶するためのセルを含む（よってこの４ウェイセットアソシアティブの実
施例に対しては４つのタグセル９８Ａ−９８Ｄが例示される）。

【００５９】部分タグデコーダ９０はタグアレイが受取った索引をデコードし、選択された
セットに対する部分タグワードラインを活性化する。各セットは部分タグデコー
ダ９０から異なるワードラインを受取る。たとえば、図５は部分タグデコーダ９
０からワードラインを受取るセット９６中の部分タグ１００を例示する。活性化
されたワードラインに応答して、部分タグセル１００はそこに結合されたビット
ラインを放電し、部分タグセンス増幅器１０４はビットライン上の差動電圧を介
して部分タグのビットを検知する。この態様で、各ウェイからの部分タグが比較
器７６Ａ−７６Ｄに出力される。なお、部分タグに対するワードラインは実際に
は各ウェイに対する別個のワードラインを含むことによって、残りの部分タグを
不変のままにしながら１つの部分タグ部を更新できるようにしてもよい。読取の
目的のために、ワードラインの各々は部分タグの各々を読取るために活性化され
る。

【００６０】残存タグデコーダ９２は索引をデコードして選択されるセットを定め、またウ
ェイ選択をデコードして選択されたセットに記憶される残存タグの１つを選択す
る。残存タグデコーダ９２は各セットに対して複数のワードラインを与え、ウェ
イ選択に応答して選択されたセットに対するワードラインの１つを活性化する。
たとえば、図５に例示される残存タグデコーダ９２は第１のワードラインを残存
タグセル９８Ａに与え、第２のワードラインを残存タグセル９８Ｂに与え、第３
のワードラインを残存タグセル９８Ｃに与え、第４のワードラインを残存タグセ
ル９８Ｄに与える。その他のセットは異なる複数のワードラインを受取る。活性
化されたワードラインに応答して、残存タグセル９８Ａ−９８Ｄの１つが対応す
るビットラインを放電し、残存タグセンス増幅器１０２は差動電圧を介して残存
タグのビットを検知する。この態様で、選択されたウェイからの残存タグが比較
器７４に出力される。なお、例示される実施例において、残存タグセンス増幅器
１０２はセット中のいくつかの残存タグからの１つの残存タグを与える。よって
残存タグセンス増幅器１０２はウェイ選択（または代替的には、残存タグデコー
ダ９２からの制御信号）を受取って、検知するための残存タグセル９８Ａ−９８
Ｄの１つに対応するビットラインの１つのセットを選択する。言い換えると、残
存タグセル９８Ａ−９８Ｄの各々からのビットラインは、センス増幅器回路に入
力される前に「列多重化」されてもよい。センス増幅器は典型的にアレイによっ
て消費されるかなりの量の電力を消費するため、検知されるビットラインの数を
制限することによって電力をさらに減少できる。代替的には、残存タグは所望に
応じて、別個のセンス増幅器によって検知された後に多重化されてもよい。

【００６１】代替的な構成において、タグアレイ７０はセット当り単一のデコーダおよび単
一のワードラインを用いてもよいが、前述のように１つの残存タグセンス増幅器
１０２および列ｍｕｘを与えてもよい。このような実施例において、選択された
セットにおける各残存タグセル９８Ａ−９８Ｄはその対応するビットラインを放
電するが、検知されるビットラインの数はなおも制限されているため、センス増
幅器によって消費される電力は制限され得る。さらに、全タグ読取を与える実施
例において、タグアレイ７０はセットに記憶される各ビットに対するセンス増幅
器を用いてもよいが、全タグ読取が行なわれない限り、部分タグセンス増幅器お
よび残存タグセンス増幅器のうち１つだけを活性化してもよい。

【００６２】なお、図５に示されるようなセット内のセルの分布は、図面における便利さお
よび明瞭性のためだけのものである。設計の選択に従って、セルはあらゆる好適
な態様で物理的に配置されてもよい。

【００６３】図６を参照すると、例示的なフェッチアドレス１１０が示され、Ｉ−キャッシ
ュ１４と関係する際のフェッチアドレスのさまざまな部分が例示される。フェッ
チアドレスの最上位ビットは図６の左側であり、最下位ビットは図６の右側であ
る。図６に示されるとおり、フェッチアドレス１１０はオフセットフィールド１
１２と、索引フィールド１１４と、タグフィールド１１６とに分割される。タグ
フィールド１１６は部分タグフィールド１１８と残存タグフィールド１２０とに
細分化される。

【００６４】オフセットフィールド１１２を形成するフェッチアドレス１１０の部分は、命
令キャッシュライン内のアドレス指定されたバイトのオフセットを定めるフェッ
チアドレス１１０のビットである。したがって、オフセットフィールド１１２内
のビットの数はキャッシュライン内のバイトの数に依存する。たとえば実施例の
１つにおいて、Ｉ−キャッシュ１４は６４バイトキャッシュラインを含む。この
ような実施例に対し、オフセットフィールド１１２はキャッシュラインの最下位
６ビットである。

【００６５】索引フィールド１１４は、Ｉ−キャッシュ１４中のセットを選択するためのキ
ャッシュ索引を形成するビットを含む。ここに示される実施例において、索引フ
ィールド１１４はオフセットフィールド１１２を除くフェッチアドレス１１０の
最下位ビットを含む。たとえば実施例の１つにおいて、Ｉ−キャッシュ１４は６
４バイトラインを有する４ウェイセットアソシアティブ構造における１２８Ｋバ
イトである。このような実施例は５１２セットを有するため、索引はセットの選
択を与えるために９ビットを含む（２⁹＝５１２）。

【００６６】タグフィールド１１６は、索引フィールド１１４およびオフセットフィールド
１１２を除くフェッチアドレス１１０の部分を含む。タグフィールド１１６は、
タグアレイ７０中のキャッシュライン（「タグ」と呼ばれる）を一意に識別する
ためにＩ−キャッシュ１４によって記憶されるフェッチアドレス１１０の部分を
含む。オフセットフィールド１１２はキャッシュライン内のバイトを定めるため
、オフセットフィールド１１２は記憶されない。さらに、索引はＩ−キャッシュ
１４内のセットを選択するため、索引はタグを記憶するＩ−キャッシュ１４の場
所において固有のものである。したがって、タグフィールド１１６を選択された
セットに記憶されるタグと比較することによって、（マッチが検出されるときに
）Ｉ−キャッシュ１４に記憶されるフェッチアドレスに対応するキャッシュライ
ンが識別される。

【００６７】ここに例示される実施例において、部分タグフィールド１１８は、予測される
ウェイがミスしたときにどのウェイにヒットをサーチするかを定めるために各ウ
ェイに対してタグアレイ７０によって与えられるタグフィールド１１６の部分で
あり、またタグアレイ７０によって与えられる部分タグとの比較のために部分タ
グ比較器７６Ａ−７６Ｄに与えられるフェッチアドレスの部分である。例示され
る実施例において、部分タグフィールド１１８はタグフィールド１１６の最下位
ビットを含む。多くのプログラムは、命令がメモリ中で互いの近くに物理的に置
かれる「参照の局所性」を示し、またＩ−キャッシュ１４は典型的に命令バイト
の最も最近アクセスされたキャッシュラインを記憶するため、統計的にフェッチ
アドレスとは異なると考えられるタグのビットがタグの最下位ビットである。し
たがって、これらのビットを部分タグフィールド１１８として選択することによ
り、予測されないウェイのサーチを制限する可能性が増加し、より迅速にヒット
するウェイの場所が定められるか、またはミスが検出される。その他の実施例は
、部分タグを形成するためにタグフィールド１１６のあらゆる好適な部分を選択
してもよい。

【００６８】ここに例示される実施例において、残存タグフィールド１２０は、ウェイにお
けるヒットが検出されたかどうかを定めるための予測または選択されたウェイに
対してタグアレイ７０によって与えられるタグフィールド１１６の部分であり、
またタグアレイ７０によって与えられる残存タグとの比較のために残存タグ比較
器７４に与えられるフェッチアドレスの部分である。残存タグフィールド１２０
は、部分タグフィールド１１８を除くタグフィールド１１６の残りのビットを含
む。

【００６９】部分タグフィールド１１８に含まれるビットの数は、設計選択に従って選択さ
れてもよい。一般的に、選択されるビットの数は、サーチにおいてウェイが除去
されるかまたは含まれる正確さと、節約される電力量との兼ね合いであってもよ
い。部分タグに含まれるビットの数が大きくなるほど、予測されないウェイにお
けるヒットのサーチからマッチしないタグを記憶するウェイが除外されやすくな
るが、電力の節約は少なくなる。たとえば、４ウェイセットアソシアティブキャ
ッシュを有する実施例において、部分タグフィールド１１８にタグフィールド１
１６中の３分の１のビットを割当てながら、全タグ読取の電力のほぼ半分を消費
してもよい（１つの全タグと、各々が全タグの３分の１の大きさの３つの部分タ
グとが読取られて、２つの全タグと同等になるため）。あらゆる数のビットが部
分タグに含まれてもよい。一般的に部分タグはタグの少なくとも１ビットを除き
、また複数のビットを除いてもよい。

【００７０】次に図７を参照すると、制御回路７８の実施例の１つによって用いられ得る例
示的な状態マシンが示される。その他の実施例も可能であり予期される。図７の
実施例において、状態マシンはアクセス状態１３０とサーチ状態１３２とを含む
。

【００７１】アクセス状態１３０は、Ｉ−キャッシュ１４からの通常のフェッチが行なわれ
る状態である。したがって、フェッチが予測されるウェイにヒットするときには
状態マシンはアクセス状態１３０のままである。加えて、フェッチが予測される
ウェイにおいてミスしたが部分タグと比較したときにもミスであるとき（すなわ
ちどの部分タグもフェッチアドレスの対応する部分とマッチしないとき）には、
状態マシンはアクセス状態１３０のままである。一方、予測されるウェイにおい
てミスしたフェッチと、少なくとも１つの部分タグがフェッチアドレスの対応す
る部分とマッチすること（「部分タグヒット」）とに応答して、状態マシンはア
クセス状態１３０からサーチ状態１３２に遷移する。

【００７２】サーチ状態１３２は、Ｉ−キャッシュ１４が、予測されるウェイをミスしたフ
ェッチアドレスに対する部分タグヒットを有する予測されないウェイをサーチす
る状態である。フェッチアドレスが現行サーチのサーチウェイをミスし、部分タ
グヒットを有する少なくとも１つの他のウェイがサーチされるとき、状態マシン
はサーチ状態１３２のままである。サーチウェイがヒットするか、または各々の
部分タグヒットがなくなった（すなわちサーチされてミスであることが見出され
た）ときに、状態マシンはサーチ状態１３２からアクセス状態１３０に遷移する
。

【００７３】次に図８を参照すると、状態マシンがアクセス状態１３０にあるときの制御回
路７８の実施例の１つの動作を例示するフローチャートが示される。その他の実
施例も可能であり予期される。図８においては、理解を容易にするためにステッ
プを特定の順序で示すが、あらゆる好適な順序が用いられてもよい。さらに、ス
テップは制御回路７８内で用いられる組合せ論理によって並行して行なわれても
よい。

【００７４】フェッチアドレスが与えられるとき、制御回路７８はそのフェッチアドレスが
予測されるウェイにおいてミスするかどうかを定める（判断ブロック１４０）。
たとえば、制御回路７８は予測されるウェイに対応する残存タグ比較器７４およ
び部分タグ比較器７６Ａ−７６Ｄからの出力信号を調べる。フェッチアドレスが
予測されるウェイにおいてヒットするとき、制御回路７８はそれ以上のことを行
なわない。一方、フェッチアドレスが予測されるウェイにおいてミスしたとき、
制御回路７８は部分タグヒットがあるかどうかを定める（判断ブロック１４２）
。たとえば、制御回路７８はその他の部分タグ比較器７６Ａ−７６Ｄの各々から
の出力信号を調べることによって部分タグヒットがあるかどうかを定めてもよい
。部分タグヒットが検出されないとき、制御回路７８は外部インターフェイスユ
ニット４６にミス信号をアサートし、ミスしたキャッシュラインのフェッチを開
始する（ステップ１４４）。一方、部分タグヒットが検出されるときには、制御
回路７８はストール信号をアサートする（ステップ１４６）。加えて、制御回路
７８は、対応する部分タグがフェッチアドレスにヒットする第１のウェイの読取
を開始する（ステップ１４８）。次いで制御回路７８は状態マシンをサーチ状態
に移す（ステップ１５０）。

【００７５】図９は、状態マシンがサーチ状態１３２にあるときの制御回路７８の実施例の
１つの動作を例示するフローチャートである。その他の実施例も可能であり予期
される。理解を容易にするために、図９においてはステップを特定の順序で示す
が、あらゆる好適な順序が用いられてもよい。さらに、ステップは制御回路７８
内で用いられる組合せ論理によって並行して行なわれてもよい。

【００７６】制御回路７８は、フェッチアドレスがサーチウェイにおいてヒットするかどう
かを定める（判断ブロック１６０）。たとえば、制御回路７８はサーチウェイに
対応する残存タグ比較器７４および部分タグ比較器７６Ａ−７６Ｄからの出力信
号を調べる。サーチウェイにおいてフェッチアドレスがヒットするとき、制御回
路７８はライン予測子１２に更新されたウェイ予測を伝送し（ステップ１６２）
、ストール信号をデアサートし（ステップ１６４）、状態マシンをアクセス状態
に移す（ステップ１６６）。

【００７７】一方、フェッチアドレスがサーチウェイにおいてヒットしないときには、制御
回路７８はサーチするための付加的な部分タグヒットがあるかどうかを定める（
判断ブロック１６８）。たとえば、制御回路７８は部分タグヒットが検出される
サーチウェイよりも高い数字を付けられたウェイがあるかどうかを定めてもよい
。付加的な部分タグヒットが検出されるとき、制御回路７８は次の部分タグヒッ
トの読取を開始する（ステップ１７０）。たとえば、制御回路７８は部分タグヒ
ットが検出されるサーチウェイの次に高い数字を付けられたウェイを選択しても
よい。加えて、制御回路７８はストール信号をアサートし続けることによって次
のウェイがサーチされることを可能にしてもよい（ステップ１７２）。サーチに
対する付加的な部分タグヒットがないとき、制御回路７８は外部インターフェイ
スユニット４６にミス信号をアサートし（ステップ１７４）、状態マシンをアク
セス状態に移す（ステップ１７６）。

【００７８】なお、ここで用いられる制御回路という語は、前述のように入力に動作し、そ
れに応答して出力を生成する回路（たとえば組合せ論理ゲート、ｍｕｘなどのデ
ータフロー素子、レジスタ、ラッチ、フロップ、加算器、シフタ、回転子など、
および／または状態マシンを実現する回路）のあらゆる組合せを示す。加えて、
ここで用いられる「アサートされる」という語は、信号またはビットに対する論
理的に真の値を与えることを示す。信号またはビットは、特定の状態を示す値を
運ぶときにアサートされてもよい。反対に、信号またはビットは、特定の状態が
ないことを示す値を運ぶときに「デアサート」されてもよい。信号またはビット
は、論理ゼロ値を運ぶとき、または反対に論理１値を運ぶときにアサートされる
ことが定められてもよく、また信号またはビットは反対の論理値が運ばれるとき
にデアサートされることが定められてもよい。

【００７９】コンピュータシステム図１０を参照すると、バスブリッジ２０２を通じてさまざまなシステム構成要
素に結合されるプロセッサ１０を含むコンピュータシステム２００の実施例の１
つのブロック図が示される。その他の実施例も可能であり予期される。図示され
るシステムにおいて、メインメモリ２０４はメモリバス２０６を通じてバスブリ
ッジ２０２に結合され、グラフィックコントローラ２０８はＡＧＰバス２１０を
通じてバスブリッジ２０２に結合される。最後に、複数のＰＣＩ装置２１２Ａ−
２１２ＢがＰＣＩバス２１４を通じてバスブリッジ２０２に結合される。ＥＩＳ
Ａ／ＩＳＡバス２２０を通じた１つまたはそれ以上のＥＩＳＡまたはＩＳＡ装置
２１８に対する電気的インターフェイスに適合するために、二次的なバスブリッ
ジ２１６がさらに与えられてもよい。プロセッサ１０はＣＰＵバス２２４を通じ
てバスブリッジ２０２に結合され、また任意のＬ２キャッシュ２２８に結合され
る。ＣＰＵバス２２４およびＬ２キャッシュ２２８へのインターフェイスは、外
部インターフェイス５２を含んでもよい。

【００８０】バスブリッジ２０２はプロセッサ１０と、メインメモリ２０４と、グラフィッ
クコントローラ２０８と、ＰＣＩバス２１４に取付けられる装置との間のインタ
ーフェイスを提供する。バスブリッジ２０２に接続される装置の１つから動作が
受取られるとき、バスブリッジ２０２はその動作の目標を識別する（たとえば特
定の装置、またはＰＣＩバス２１４の場合にはその目標はＰＣＩバス２１４上に
ある）。バスブリッジ２０２はその動作をターゲット決めされた装置に経路付け
る。バスブリッジ２０２は一般的に、動作をソース装置またはバスによって用い
られるプロトコルから目標装置またはバスによって用いられるプロトコルに変換
する。

【００８１】二次的なバスブリッジ２１６は、ＰＣＩバス２１４に対するＩＳＡ／ＥＩＳＡ
バスへのインターフェイスを与えることに加えて、所望に応じて付加的な機能を
さらに組入れてもよい。コンピュータシステム２００内にはまた、二次的なバス
ブリッジ２１６の外部にあるかまたはそれと一体化された入力／出力コントロー
ラ（図示せず）が含まれることによって、所望に応じてキーボードおよびマウス
２２２ならびにさまざまな直列および並列ポートに対する動作的支持が与えられ
てもよい。他の実施例においては、プロセッサ１０とバスブリッジ２０２との間
のＣＰＵバス２２４に外部キャッシュユニット（図示せず）がさらに結合されて
もよい。代替的には、外部キャッシュがバスブリッジ２０２に結合されてもよく
、外部キャッシュに対するキャッシュ制御論理がバスブリッジ２０２に一体化さ
れてもよい。プロセッサ１０に対する後部構造において、Ｌ２キャッシュ２２８
がさらに示される。なお、Ｌ２キャッシュ２２８はプロセッサ１０と分離してい
ても、プロセッサ１０とともにカートリッジ（たとえばスロット１またはスロッ
トＡ）に一体化されても、またはプロセッサ１０とともに半導体基板上に一体化
されてもよい。

【００８２】メインメモリ２０４は、中にアプリケーションプログラムが記憶されており、
プロセッサ１０が主にそこから実行するメモリである。好適なメインメモリ２０
４はＤＲＡＭ（動的ランダムアクセスメモリ）を含む。たとえば、ＳＤＲＡＭ（
同期ＤＲＡＭ）またはラムバスＤＲＡＭ（ＲＤＲＡＭ）の複数のバンクが好適で
あり得る。

【００８３】ＰＣＩ装置２１２Ａ−２１２Ｂは、たとえばネットワークインターフェイスカ
ード、ビデオ加速器、音声カード、ハードもしくはフロッピー（登録商標）ディ
スクドライブまたはドライブコントローラ、ＳＣＳＩ（小型コンピュータシステ
ムインターフェイス）アダプタ、およびテレフォンカードなどのさまざまな周辺
装置を例示するものである。同様に、ＩＳＡ装置２１８はモデム、サウンドカー
ド、およびＧＰＩＢまたはフィールドバスインターフェイスカードなどのさまざ
まなデータ取得カードなどのさまざまな種類の周辺装置を例示するものである。

【００８４】グラフィックコントローラ２０８は、ディスプレイ２２６上のテキストおよび
画像のレンダリングを制御するために設けられる。グラフィックコントローラ２
０８は、メインメモリ２０４に、およびそこから効果的にシフトできる３次元デ
ータ構造をレンダリングするための当該技術分野において一般的に公知の典型的
なグラフィック加速器を包含してもよい。したがって、グラフィックコントロー
ラ２０８は、バスブリッジ２０２内のターゲットインターフェイスへのアクセス
を要求しかつそれを受取ることによってメインメモリ２０４へのアクセスを得る
ことができるという意味において、ＡＧＰバス２１０のマスタであってもよい。
専用のグラフィックバスは、メインメモリ２０４からのデータの迅速な検索に適
合する。特定の動作に対して、グラフィックコントローラ２０８はＡＧＰバス２
１０上にＰＣＩプロトコルトランザクションを生成するようにさらに構成されて
もよい。よってバスブリッジ２０２のＡＧＰインターフェイスは、ＡＧＰプロト
コルトランザクションならびにＰＣＩプロトコルターゲットおよびイニシエータ
トランザクションの両方を支持するための機能を含んでもよい。ディスプレイ２
２６は、その上に画像またはテキストを示すことができるあらゆる電気的ディス
プレイである。好適なディスプレイ２２６は陰極線管（“ＣＲＴ”）、液晶ディ
スプレイ（“ＬＣＤ”）などを含む。

【００８５】なお、前述の説明においてはＡＧＰ、ＰＣＩおよびＩＳＡまたはＥＩＳＡバス
を例として用いたが、所望に応じてあらゆるバスアーキテクチャが置換されても
よい。さらに、コンピュータシステム２００は付加的なプロセッサ（たとえばコ
ンピュータシステム２００の任意の構成要素として示されるプロセッサ１０ａな
ど）を含む多重処理コンピュータシステムであってもよい。プロセッサ１０ａは
プロセッサ１０と類似のものであってもよい。より特定的には、プロセッサ１０
ａはプロセッサ１０の同一のコピーであってもよい。プロセッサ１０ａは（図１
０に示されるように）独立のバスを介してバスブリッジ２０２に接続されても、
またはプロセッサ１０とＣＰＵバス２２４を共有してもよい。さらに、プロセッ
サ１０ａはＬ２キャッシュ２２８と類似の任意のＬ２キャッシュ２２８ａに結合
されてもよい。

【００８６】図１１を参照すると、コンピュータシステム３００の別の実施例が示される。
その他の実施例も可能であり予期される。図１１の実施例において、コンピュー
タシステム３００はいくつかの処理ノード３１２Ａ、３１２Ｂ、３１２Ｃおよび
３１２Ｄを含む。各処理ノードは、それぞれの処理ノード３１２Ａ−３１２Ｄの
各々の中に含まれるメモリコントローラ３１６Ａ−３１６Ｄを介してそれぞれの
メモリ３１４Ａ−３１４Ｄに結合される。付加的には、処理ノード３１２Ａ−３
１２Ｄは処理ノード３１２Ａ−３１２Ｄ間の通信に用いられるインターフェイス
論理を含む。たとえば、処理ノード３１２Ａは処理ノード３１２Ｂと通信するた
めのインターフェイス論理３１８Ａと、処理ノード３１２Ｃと通信するためのイ
ンターフェイス論理３１８Ｂと、さらに別の処理ノード（図示せず）と通信する
ための第３のインターフェイス論理３１８Ｃとを含む。同様に、処理ノード３１
２Ｂはインターフェイス論理３１８Ｄ、３１８Ｅおよび３１８Ｆを含み、処理ノ
ード３１２Ｃはインターフェイス論理３１８Ｇ、３１８Ｈおよび３１８Ｉを含み
、処理ノード３１２Ｄはインターフェイス論理３１８Ｊ、３１８Ｋおよび３１８
Ｌを含む。処理ノード３１２Ｄは、インターフェイス論理３１８Ｌを介して複数
の入力／出力装置（たとえばデイジーチェーン構成の装置３２０Ａ−３２０Ｂな
ど）と通信するように結合される。その他の処理ノードは類似の態様で他のＩ／
Ｏ装置と通信してもよい。

【００８７】処理ノード３１２Ａ−３１２Ｄは、処理ノード間通信のためのパケットベース
のリンクを実現する。この実施例において、リンクは１方向ラインのセット（た
とえば、ライン３２４Ａは処理ノード３１２Ａから処理ノード３１２Ｂにパケッ
トを伝送するために用いられ、ライン３２４Ｂは処理ノード３１２Ｂから処理ノ
ード３１２Ａにパケットを伝送するために用いられる）として実現される。図１
１に例示されるように、ラインのその他のセット３２４Ｃ−３２４Ｈは、その他
の処理ノード間でパケットを伝送するために用いられる。一般的に、ライン３２
４の各セットは、１つまたはそれ以上のデータラインと、そのデータラインに対
応する１つまたはその以上のクロックラインと、運ばれるパケットの種類を示す
１つまたはそれ以上の制御ラインとを含んでもよい。リンクは、処理ノード間の
通信のためにキャッシュコヒーレントの態様で動作されても、または処理ノード
およびＩ／Ｏ装置（またはＰＣＩバスまたはＩＳＡバスなどの従来の構成のＩ／
Ｏバスに対するバスブリッジ）の間の通信のために非コヒーレントの態様で動作
されてもよい。さらに、リンクはここに示されるようにＩ／Ｏ装置間のデイジー
チェーン構造を用いて非コヒーレントの態様で動作されてもよい。なお、１つの
処理ノードから別の処理ノードに移されるパケットは、１つまたはそれ以上の中
間ノードを通ってもよい。たとえば、処理ノード３１２Ａによって処理ノード３
１２Ｄに伝送されるパケットは、図１１に示されるとおり、処理ノード３１２Ｂ
または処理ノード３１２Ｃのいずれを通過してもよい。あらゆる好適な経路付け
アルゴリズムが用いられてもよい。コンピュータシステム３００のその他の実施
例は、図１１に示される実施例よりも多いかまたは少ない処理ノードを含んでも
よい。

【００８８】一般的にパケットは、ノード間のライン３２４において１つまたはそれ以上の
ビット時間として伝送されてもよい。ビット時間は対応するクロックライン上の
クロック信号の立上がりまたは立下がり端であってもよい。パケットはトランザ
クションを開始するためのコマンドパケットと、キャッシュコヒーレンシを維持
するためのプローブパケットと、プローブおよびコマンドに対する応答による応
答パケットとを含んでもよい。

【００８９】処理ノード３１２Ａ−３１２Ｄは、メモリコントローラおよびインターフェイ
ス論理に加えて、１つまたはそれ以上のプロセッサを含んでもよい。概して処理
ノードは少なくとも１つのプロセッサを含み、また所望に応じてメモリおよびそ
の他の論理と通信するためのメモリコントローラを任意に含んでもよい。より特
定的には、処理ノード３１２Ａ−３１２Ｄはプロセッサ１０を含んでもよい。外
部インターフェイスユニット４６は、ノード内のインターフェイス論理３１８お
よびメモリコントローラ３１６を含んでもよい。

【００９０】メモリ３１４Ａ−３１４Ｄはあらゆる好適なメモリ装置を含んでもよい。たと
えば、メモリ３１４Ａ−３１４Ｄは１つまたはそれ以上のラムバスＤＲＡＭ（Ｒ
ＤＲＡＭ）、同期ＤＲＡＭ（ＳＤＲＡＭ）、静的ＲＡＭなどを含んでもよい。コ
ンピュータシステム３００のアドレス空間は、メモリ３１４Ａ−３１４Ｄに分割
される。各処理ノード３１２Ａ−３１２Ｄは、どのアドレスがどのメモリ３１４
Ａ−３１４Ｄにマップされるのか、および特定のアドレスに対するメモリ要求を
どの処理ノード３１２Ａ−３１２Ｄに経路付けるべきかを定めるために用いられ
るメモリマップを含んでもよい。実施例の１つにおいて、コンピュータシステム
３００内のアドレスに対するコヒーレンシ点は、そのアドレスに対応するバイト
を記憶するメモリに結合されるメモリコントローラ３１６Ａ−３１６Ｄである。
言い換えると、メモリコントローラ３１６Ａ−３１６Ｄは、対応するメモリ３１
４Ａ−３１４Ｄに対する各メモリアクセスがキャッシュコヒーレントの態様で起
こることを確実にする。メモリコントローラ３１６Ａ−３１６Ｄは、メモリ３１
４Ａ−３１４Ｄとインターフェイスするための制御回路を含んでもよい。加えて
、メモリコントローラ３１６Ａ−３１６Ｄはメモリ要求をキューに入れるための
要求キューを含んでもよい。

【００９１】一般的に、インターフェイス論理３１８Ａ−３１８Ｌは、リンクからパケット
を受取り、またリンクに対して伝送されるパケットをバッファするためのさまざ
まなバッファを含んでもよい。コンピュータシステム３００は、パケットを伝送
するためのあらゆる好適なフロー制御機構を用いてもよい。たとえば実施例の１
つにおいて、各インターフェイス論理３１８は、そのインターフェイス論理が接
続されるリンクの他方端における受信器内の各種のバッファの数のカウントを記
憶する。受信インターフェイス論理がパケットを記憶するための自由バッファを
有さない限り、インターフェイス論理はパケットを伝送しない。受信バッファが
パケットを前方に経路付けることによって解放されると、受信インターフェイス
論理は送信インターフェイス論理にメッセージを送って、そのバッファが解放さ
れたことを示す。このような機構は「クーポンベース」システムと呼ばれてもよ
い。

【００９２】Ｉ／Ｏ装置３２０Ａ−３２０Ｂはあらゆる好適なＩ／Ｏ装置であってもよい。
たとえば、Ｉ／Ｏ装置３２０Ａ−３２０Ｂはネットワークインターフェイスカー
ド、ビデオ加速器、音声カード、ハードもしくはフロッピーディスクドライブま
たはドライブコントローラ、ＳＣＳＩ（小型コンピュータシステムインターフェ
イス）アダプタおよびテレフォンカード、モデム、サウンドカード、ならびにＧ
ＰＩＢまたはフィールドバスインターフェイスカードなどのさまざまなデータ取
得カードを含んでもよい。

【００９３】前述の開示が完全に認識されるとき、当業者には多数の修正形および変更形が
明らかになるであろう。添付の請求項はすべてのこうした修正形および変更形を
含むと解釈されることが意図される。

【００９４】産業上の適用可能性この発明はプロセッサおよびコンピュータシステムに適用可能である。

【図面の簡単な説明】

【図１】プロセッサの実施例の１つを示すブロック図である。

【図２】図１に示されるプロセッサによって用いられ得るパイプラインの
実施例の１つを例示するパイプライン図である。

【図３】図１に示される分岐予測／フェッチＰＣ生成ユニット、ライン予
測子およびＩ−キャッシュ、ならびにＩＴＬＢのブロック図であり、ユニットの
実施例の１つに従ってそれらの間の相互接続を例示する。

【図４】図１および３に示されるＩ−キャッシュの実施例の１つを示すブ
ロック図である。

【図５】図４に示されるタグアレイの実施例の１つを示すブロック図であ
る。

【図６】例示的なアドレス内のフィールドを例示する図である。

【図７】図４に示される制御回路の実施例の１つによって用いられ得る状
態マシンを例示する状態マシン図である。

【図８】図７に示されるアクセス状態における、図４に示される制御回路
の実施例の１つの動作を例示するフローチャートである。

【図９】図７に示されるサーチ状態における、図４に示される制御回路の
実施例の１つの動作を例示するフローチャートである。

【図１０】図１に示されるプロセッサを含むコンピュータシステムの実施
例の１つを示すブロック図である。

【図１１】図１に示されるプロセッサを含むコンピュータシステムの第２
の実施例を示すブロック図である。

【手続補正書】特許協力条約第３４条補正の翻訳文提出書

【提出日】平成１４年３月１４日（２００２．３．１４）

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】特許請求の範囲

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【手続補正２】

【補正対象書類名】明細書

【補正対象項目名】０００２

【補正方法】変更

【補正の内容】

【０００２】２．背景技術ＥＰ−Ａ−０６７５４４３号は、直接マップされたキャッシュにアクセス
するための装置および方法を開示する。このキャッシュは予測索引を与える予測
機構を含み、ヒットとなるキャッシュ場所を予測する。予測される場所における
ミスが起こると、比較器が全タグを比較して第２の予測索引を生成する。ＷＯ−Ａ−９８／２０４２１号は、アクセスがヒットするアソシアティブキャ
ッシュのウェイを予測するウェイ予測構造を開示する。タグ比較ブロックは、全
タグを要求アドレスと比較することによって、要求アドレスが予測されるウェイ
においてヒットするか、予測されないウェイにおいてヒットするか、またはミス
するかどうかを定める。Ｒ．Ｅ．ケスラーらの「セットアソシアティビティの安価な実現例（Inexpens
ive Implementations of Set-Associativity）」と題される文献（コンピュータ
・アーキテクチャ会議会議録（Computer Architecture Conference Proceedings
）、第１７巻、第３号、１９８９年６月、ワシントン、ＵＳ）は、タグアレイの
第１の読取が記憶されるタグの各々から部分タグを読取り、その部分タグを入力
アドレスの対応するビットと比較する部分比較アプローチを開示する。マッチの
場合には、タグアレイの第２の読取が部分タグ比較においてマッチしたタグ場所
を読取り、ヒットまたはミスが起こったかどうかを定める。ＪＰ−Ａ−０７３３４４２３号は、キャッシュウェイ予測部分を有するキャッ
シュを含むプロセッサを開示する。ウェイ予測部分はどのウェイがセットアップ
されるかを予測し、予測されるウェイに対するデータ記憶部分のみ、または予測
されるタグ記憶部分およびデータ記憶部分が駆動される。スーパースカラプロセッサは、クロックサイクル中で複数の命令を同時に実行
し、またその設計に一致する可能な最短クロックサイクルを特定化することによ
って高性能を達成する。ここで用いられる「クロックサイクル」という語は、プ
ロセッサのパイプラインステージがその意図される機能を行なう時間間隔を示す
。クロックサイクルの最後に、その結果得られた値が次のパイプラインステージ
に移動される。クロックサイクルを定めるクロック信号に応答して、クロックさ
れた記憶装置（たとえばレジスタ、ラッチ、フロップなど）がそれらの値を捕捉
してもよい。

【手続補正３】

【補正対象書類名】明細書

【補正対象項目名】００１２

【補正方法】変更

【補正の内容】

【００１２】この発明にはさまざまな変更形および代替形が可能であり、ここではその特定
の実施例を例として図面に示し、詳細に説明する。しかし、図面およびその詳細
な説明は、この発明を開示される特定の形に制限することを意図するものではな
く、反対に添付の請求項によって定められるこの発明の範囲内にあるすべての変
更形、同等のものおよび代替形を包含することを意図するものであることが理解
されるべきである。

【手続補正４】

【補正対象書類名】明細書

【補正対象項目名】００３８

【補正方法】変更

【補正の内容】

【００３８】キャッシュアクセス図３を参照すると、分岐予測／フェッチＰＣ生成ユニット１８と、ライン予測
子１２と、Ｉ−キャッシュ１４と、命令ＴＬＢ（ＩＴＬＢ）６０と、フェッチア
ドレスｍｕｘ６４との実施例の１つを例示するブロック図が示される。図３の実
施例において、分岐予測／フェッチＰＣ生成ユニット１８はＰＣサイロ４８から
トラップＰＣを受取るように結合され、ＩＴＬＢ６０と、ライン予測子１２と、
Ｉ−キャッシュ１４と、フェッチアドレスｍｕｘ６４とにさらに結合される。Ｉ
ＴＬＢ６０はフェッチアドレスｍｕｘ６４にさらに結合され、フェッチアドレス
ｍｕｘはＩ−キャッシュ１４に結合される。ライン予測子１２はＩ−キャッシュ
１４とフェッチアドレスｍｕｘ６４とに結合される。

【手続補正５】

【補正対象書類名】明細書

【補正対象項目名】００４６

【補正方法】変更

【補正の内容】

【００４６】図４を参照すると、Ｉ−キャッシュ１４の実施例の１つのブロック図が示され
る。図４の実施例において、Ｉ−キャッシュ１４はタグアレイ７０と、命令アレ
イ７２と、残存タグ比較器７４と、複数の部分的タグ比較器７６Ａ−７６Ｄと、
制御回路７８と、ウェイマルチプレクサ（ｍｕｘ）８０と、アドレスｍｕｘ８２
と、アドレスレジスタ８４とを含む。アドレスｍｕｘ８２およびアドレスレジス
タ８４はＩ−キャッシュ１４に与えられるキャッシュフェッチアドレスを受取る
ように結合され、アドレスレジスタ８４はアドレスｍｕｘ８２にさらに結合され
る。アドレスｍｕｘ８２の出力はタグアレイ７０および命令アレイ７２、ならび
に比較器７４および７６Ａ−７６Ｄに結合される。ウェイｍｕｘ８０はＩ−キャ
ッシュ１４に与えられるウェイ予測を受取るように結合され、また制御回路７８
からのサーチウェイ選択を受取るように結合される。ウェイｍｕｘ８０の出力は
タグアレイ７０および命令アレイ７２に結合される。ｍｕｘ８０および８２は制
御回路７８から選択信号を受取るように結合され、アドレスレジスタ８４は制御
回路７８から保持制御信号を受取るように結合される。残存タグ比較器７４はタ
グアレイ７０から予測されるウェイ残存タグ（ＲＴａｇ）を受取るように結合さ
れ、また制御回路７８に出力信号を与えるように結合される。各々の部分タグ比
較器７６Ａ−７６Ｄはタグアレイ７０からそれぞれの部分タグ（ＰＴａｇ０−Ｐ
Ｔａｇ３）を受取るように結合され、また制御回路７８にそれぞれの出力信号を
与えるように結合される。制御回路７８は外部インターフェイスユニット４６に
ミス信号を与え、ライン予測子１２にウェイ予測更新信号を与え、ライン予測子
１２および分岐予測／フェッチＰＣ生成ユニット１８にストール信号を与えるよ
うに結合される。制御回路７８はウェイｍｕｘ８０からウェイ選択を受取るよう
に結合される。なお、Ｉ−キャッシュ１４は、所望に応じてスヌープトランザク
ションなどを管理するために、ミスに応答してＩ−キャッシュ１４へのキャッシ
ュラインの伝達を管理するための付加的な回路（図示せず）を含んでもよい。

【手続補正６】

【補正対象書類名】明細書

【補正対象項目名】００５６

【補正方法】変更

【補正の内容】

【００５６】次に図５を参照すると、タグアレイ７０の実施例の１つのブロック図が示され
る。図５の実施例において、タグアレイ７０は索引を受取るように結合される部
分タグデコーダ９０と、索引およびウェイ選択を受取るように結合される残存タ
グデコーダ９２とを含む。タグアレイ７０はさらに、セットに配列されたＲＡＭ
セル９４のセットを含む。例示的なセット９６が２本の水平な破線の間に例示さ
れており、その他のセットはデコーダ９０および９２からの異なる信号を受取る
同一の構成を含んでもよい。セット９６は残存タグセル９８Ａ−９８Ｄと部分タ
グセル１００とを含む。残存タグセンス増幅器（センス増幅器）１０２および部
分タグセンス増幅器１０４も示される。なお、セットアソシアティブＲＡＭ設計
に好適なあらゆる態様でタグアレイ７０を更新するために付加的な回路（図示せ
ず）が含まれてもよい。

【手続補正７】

【補正対象書類名】明細書

【補正対象項目名】００７３

【補正方法】変更

【補正の内容】

【００７３】次に図８を参照すると、状態マシンがアクセス状態１３０にあるときの制御回
路７８の実施例の１つの動作を例示するフローチャートが示される。図８におい
ては、理解を容易にするためにステップを特定の順序で示すが、あらゆる好適な
順序が用いられてもよい。さらに、ステップは制御回路７８内で用いられる組合
せ論理によって並行して行なわれてもよい。

【手続補正８】

【補正対象書類名】明細書

【補正対象項目名】００７９

【補正方法】変更

【補正の内容】

【００７９】コンピュータシステム図１０を参照すると、バスブリッジ２０２を通じてさまざまなシステム構成要
素に結合されるプロセッサ１０を含むコンピュータシステム２００の実施例の１
つのブロック図が示される。図示されるシステムにおいて、メインメモリ２０４
はメモリバス２０６を通じてバスブリッジ２０２に結合され、グラフィックコン
トローラ２０８はＡＧＰバス２１０を通じてバスブリッジ２０２に結合される。
最後に、複数のＰＣＩ装置２１２Ａ−２１２ＢがＰＣＩバス２１４を通じてバス
ブリッジ２０２に結合される。ＥＩＳＡ／ＩＳＡバス２２０を通じた１つまたは
それ以上のＥＩＳＡまたはＩＳＡ装置２１８に対する電気的インターフェイスに
適合するために、二次的なバスブリッジ２１６がさらに与えられてもよい。プロ
セッサ１０はＣＰＵバス２２４を通じてバスブリッジ２０２に結合され、また任
意のＬ２キャッシュ２２８に結合される。ＣＰＵバス２２４およびＬ２キャッシ
ュ２２８へのインターフェイスは、外部インターフェイス５２を含んでもよい。

【手続補正９】

【補正対象書類名】明細書

【補正対象項目名】００８６

【補正方法】変更

【補正の内容】

【００８６】図１１を参照すると、コンピュータシステム３００の別の実施例が示される。
図１１の実施例において、コンピュータシステム３００はいくつかの処理ノード
３１２Ａ、３１２Ｂ、３１２Ｃおよび３１２Ｄを含む。各処理ノードは、それぞ
れの処理ノード３１２Ａ−３１２Ｄの各々の中に含まれるメモリコントローラ３
１６Ａ−３１６Ｄを介してそれぞれのメモリ３１４Ａ−３１４Ｄに結合される。
付加的には、処理ノード３１２Ａ−３１２Ｄは処理ノード３１２Ａ−３１２Ｄ間
の通信に用いられるインターフェイス論理を含む。たとえば、処理ノード３１２
Ａは処理ノード３１２Ｂと通信するためのインターフェイス論理３１８Ａと、処
理ノード３１２Ｃと通信するためのインターフェイス論理３１８Ｂと、さらに別
の処理ノード（図示せず）と通信するための第３のインターフェイス論理３１８
Ｃとを含む。同様に、処理ノード３１２Ｂはインターフェイス論理３１８Ｄ、３
１８Ｅおよび３１８Ｆを含み、処理ノード３１２Ｃはインターフェイス論理３１
８Ｇ、３１８Ｈおよび３１８Ｉを含み、処理ノード３１２Ｄはインターフェイス
論理３１８Ｊ、３１８Ｋおよび３１８Ｌを含む。処理ノード３１２Ｄは、インタ
ーフェイス論理３１８Ｌを介して複数の入力／出力装置（たとえばデイジーチェ
ーン構成の装置３２０Ａ−３２０Ｂなど）と通信するように結合される。その他
の処理ノードは類似の態様で他のＩ／Ｏ装置と通信してもよい。

【手続補正１０】

【補正対象書類名】明細書

【補正対象項目名】００９３

【補正方法】削除

───────────────────────────────────────────────────── フロントページの続き (72)発明者ケラー，ジェイムズ・ビィアメリカ合衆国、94303 カリフォルニア州、パロ・アルト、アイリス・ウェイ、 210 (72)発明者シャケル，キース・アールアメリカ合衆国、95131 カリフォルニア州、サン・ノゼ、ランニング・スプリングス・ロード、6238 (72)発明者シャーマ，プニートシンガポール、448912 シンガポール、シグラップ・ロード、５、ユニット・ナンバー・19−38 Ｆターム(参考） 5B005 JJ00 JJ11 MM01 NN56 TT02

Claims

【特許請求の範囲】

【請求項１】アドレスの索引およびウェイ選択を受取るように結合される
タグアレイ（７０）を含み、前記タグアレイ（７０）は複数のウェイ（way）を
含み、前記タグアレイ（７０）は複数の部分タグを出力するように構成され、前
記複数の部分タグの各々は前記複数のウェイの１つに対応し、さらに前記タグアレイ（７０）に結合される制御回路（７８）を含み、前記制御回路
（７８）は前記アドレスが前記タグアレイ（７０）の前記複数のウェイの第１の
ウェイにおいてミスしたことに応答してサーチウェイを識別するサーチウェイ選
択を生成するように構成され、前記第１のウェイは前記ウェイ選択によって識別
され、前記サーチウェイからの第１の部分タグは前記アドレスの対応する部分と
マッチする、キャッシュ。
【請求項２】入力ウェイ予測および前記サーチウェイ選択を受取るように
結合されるマルチプレクサ（８０）をさらに含み、前記マルチプレクサ（８０）
は前記入力ウェイ予測および前記サーチウェイ選択の間で選択するように構成さ
れ、かつ前記タグアレイ（７０）に前記ウェイ選択を与えるように結合され、前
記制御回路（７８）は前記マルチプレクサ（８０）に選択制御を与えるように結
合され、かつ前記制御回路（７８）が前記サーチウェイ選択を生成しないことに
応答して前記入力ウェイ予測の選択をもたらすように構成され、前記制御回路（
７８）は前記サーチウェイ選択を生成することに応答して前記サーチウェイ選択
の選択をもたらすように構成される、請求項１に記載のキャッシュ。
【請求項３】前記アドレスが前記サーチウェイをミスしたとき、前記制御
回路（７８）は前記第２のサーチウェイからの第２の部分タグが前記アドレスの
前記対応する部分にマッチすることに応答して第２のサーチウェイ選択を生成す
るように構成される、請求項１に記載のキャッシュ。
【請求項４】前記制御回路（７８）は、前記アドレスが前記第１のウェイ
においてミスし、かつ前記複数の部分タグのいずれもが前記アドレスの前記対応
する部分にマッチしないことに応答してミス信号をアサートするように構成され
る、請求項１に記載のキャッシュ。
【請求項５】前記制御回路（７８）は、前記アドレスが前記第１のウェイ
においてミスし、対応する部分タグが前記アドレスの前記対応する部分にマッチ
する前記複数のウェイの各々をサーチし、かつ前記複数のウェイの前記各々にお
いてミスすることに応答してミス信号をアサートするように構成される、請求項
１に記載のキャッシュ。
【請求項６】フェッチアドレスに応答してウェイ予測を与えるように構成
されるライン予測子（１２）と、前記ウェイ予測および前記フェッチアドレスを受取るように結合される、請求
項１から５のいずれかに記載のキャッシュ（１４）とを含む、プロセッサ。
【請求項７】前記第２のウェイまたは前記付加的なウェイにおいてヒット
を検出することに応答して、前記キャッシュ（１４）は前記ライン予測子（１２
）に更新されたウェイ予測を与えるように構成される、請求項６に記載のプロセ
ッサ。
【請求項８】アドレスに応答してキャッシュ（１４）から複数の部分タグ
を読取るステップと、前記アドレスが前記キャッシュ（１４）の予測されるウェイにおいてヒットす
るかどうかを定めるステップと、前記アドレスが前記キャッシュ（１４）の前記予測されるウェイにおいてヒッ
トしないことを定めるステップに応答して、ヒットに対して前記キャッシュ（１
４）の第２のウェイをサーチするステップとを含み、前記第２のウェイは前記予
測されるウェイとは異なり、前記第２のウェイに対応する前記複数の部分タグの
第１の部分タグは前記アドレスの対応する部分にマッチする、方法。
【請求項９】前記アドレスが前記第２のウェイにおいてヒットするかどう
かを定めるステップと、前記アドレスが前記キャッシュ（１４）の前記第２のウェイにおいてヒットし
ないことを定めるステップに応答して、ヒットに対して前記キャッシュ（１４）
の第３のウェイをサーチするステップとをさらに含み、前記第３のウェイは前記
予測されるウェイおよび前記第２のウェイとは異なり、前記第３のウェイに対応
する前記複数の部分タグの第２の部分タグは前記アドレスの前記対応する部分に
マッチする、請求項８に記載の方法。
【請求項１０】前記アドレスが前記予測されるウェイにおいてヒットしな
いことを定めるステップおよび前記複数の部分タグのいずれも前記アドレスの前
記対応する部分にマッチしないことに応答してミス信号を生成するステップと、前記アドレスが前記予測されるウェイにおいてヒットしないことを定めるステ
ップおよび前記複数の部分タグの対応する部分タグが前記アドレスの前記対応す
る部分にマッチする各ウェイのサーチにおいてヒットを検出しないことに応答し
てミス信号を生成するステップとをさらに含む、請求項８に記載の方法。