JP2003514299A

JP2003514299A - インデックスおよび任意の様式一致に基づいてデータを転送するストアバッファ

Info

Publication number: JP2003514299A
Application number: JP2001536680A
Authority: JP
Inventors: ヒューズ，ウィリアム・エイ
Original assignee: Advanced Micro Devices Inc
Current assignee: Advanced Micro Devices Inc
Priority date: 1999-11-10
Filing date: 2000-04-20
Publication date: 2003-04-15
Anticipated expiration: 2020-04-20
Also published as: WO2001035212A1; KR20020087929A; DE60025028D1; KR100708010B1; US6662280B1; JP4699666B2; EP1228426B1; EP1228426A1; DE60025028T2; TW548548B

Abstract

(57)【要約】装置は、ストアメモリ動作に対応する情報をストアするように構成されたバッファと、バッファにおいて示されているストアの１つにヒットするロードを検出する回路とを含む。より具体的には、この回路は、ロードアドレスのインデックス部をバッファにストアされたストアアドレスのインデックス部と比較する。これらのインデックスが一致しかつロードおよびストア双方がデータキャッシュ内でヒットしていれば、ロードおよびストアは同じキャッシュラインにアクセスしている。キャッシュライン内の１以上のバイトがストアにより更新されロードにより読出される場合、ストアデータはロードのために転送される。ある実施例において、この回路は、ロードおよびストアインデックスが一致しかつストアがデータキャッシュ内でヒットしていれば、データを投機的に転送する。次に、ロードがキャッシュ内でヒット／ミスであると判断されれば、この転送がロードのヒット／ミス表示を用いて検査される。セットアソシアティブの実施例では、ロードがヒットする様式をストアがヒットする様式と比較してこの転送が正確かどうかがさらに検査される。

Description

【発明の詳細な説明】

【０００１】

【発明の分野】

本発明は、プロセッサの分野に関し、より特定的にはデータをストアバッファ
から従属するロードのために転送することに関する。

【０００２】

【関連技術の説明】

プロセッサは典型的に、ストアメモリ動作をストアするためのバッファを用い
る。このストアメモリ動作は、実行済みである（たとえばストアアドレスが既に
生成されている、ストアデータがあるかもしれない）が、まだ投機的であるため
メモリ（またはこのプロセッサが用いるデータキャッシュ）に記憶させる準備が
整っていないものである。本明細書で用いている「メモリ動作」という用語は、
プロセッサおよびメモリ間のデータ転送（この転送はキャッシュ内で行なわれる
可能性がある）を指定する動作を意味する。ロードメモリ動作は、メモリからプ
ロセッサへのデータ転送を指定し、ストアメモリ動作はプロセッサからメモリへ
のデータ転送を指定する。本明細書においては、ロードメモリ動作をより簡潔に
「ロード」と呼ぶこともあり、同様に、ストアメモリ動作を「ストア」と呼ぶこ
ともある。メモリ動作は、プロセッサが用いる命令セット次第で、メモリオペラ
ンドに直接アクセスして定められた機能（たとえば算術演算、論理など）を果た
すための命令内で暗示されていることもあり、データ転送のみを行なう明示命令
のこともある。一般的に、メモリ動作は、このメモリ動作の１以上のオペランド
から生成されたアドレスを介して関係する記憶場所を指定する。本明細書ではこ
のアドレスのことを一般的に「データアドレス」と呼ぶ、または、（対応するメ
モリ動作がロードであれば）ロードアドレスと呼び、（対応するメモリ動作がス
トアであれば）ストアアドレスと呼ぶ。他方、命令そのもののメモリ内での場所
を示すアドレスは「命令アドレス」と呼ぶ。

【０００３】ストアは、後に続くロードが実行される際にバッファ内で待ち行列に入れられ
ていることがあり、そのため、典型的にプロセッサはバッファを検査して、ロー
ドが読出す１以上のバイトを更新するストアがバッファ内で待ち行列に入れられ
ているかどうか判断する（すなわちこのロードがストアに従属するのかまたはス
トアに「ヒット」するのか判断）。一般的には、ロードアドレスをストアアドレ
スと比較してロードがストアにヒットしているかどうか判断する。ヒットが検出
されれば、このロードのためにストアデータをキャッシュデータの代わりに転送
する。したがって、ヒットを、キャッシュからデータにアクセスするのに要する
時間と同じまたはそれより短い時間で検出することが望ましい。

【０００４】ロードの待ち時間（たとえば、あるロードを実行してからこのロードによって
読出されたデータを使用できるようになるまでの時間）を最短にすることは、多
くのプロセッサの性能にとって重要である。あいにく、アドレスの比較は、アド
レスのビット数が比較的多い（たとえば３２ビット、または３２ビットを超えて
６４ビットまでが一般的になりつつある）ため、時間のかかる作業である。した
がって、ロードがバッファ内のストアにヒットしているかどうか判断するのに要
する時間を短縮化することが、プロセッサの性能を高めることになる。なぜなら
、この短縮化がロードの待ち時間の短縮になり得るからである。その代わりとし
ては、アドレスを比較するのにかかる時間が減少すれば、所与のサイクル時間お
よび所与のロード待ち時間に対するタイミングの制約を満たしやすくなる。

【０００５】仮想アドレス指定およびアドレス変換を用いると、ロードアドレスをバッファ
内のストアアドレスと照合する間に経過する時間を短縮するというさらなる問題
が生じ得る。仮想アドレス指定を用いる場合、ロードおよびストアの実行により
生成されるデータアドレスは、（たとえばページング変換方式によって）物理ア
ドレスに変換される仮想アドレスである。複数の仮想アドレスが所与の物理アド
レスに対応しているかもしれないため（「別名（エイリアス)」と呼ばれる）、
ロードおよびストアの物理データアドレスを比較して確実にバッファから正確な
転送を行なう（または行なわない）ようにする。不都合なことにロードの物理ア
ドレスは、典型的に変換索引バッファ（ＴＬＢ）から生成されるため、キャッシ
ュアクセスがほぼ完了するまで利用できないことが多く、バッファ内のストアに
ヒットしていることを迅速だが正確なやり方で検出するという問題がさらに悪化
する。

【０００６】

【発明の概要】

上記の問題は主として、本明細書で説明するようにストアデータをロードのた
めに転送する装置により解決される。この装置は、ストアメモリ動作に対応する
情報をストアするように構成されたバッファと、バッファにおいて示されたスト
アの１つにヒットするロードを検出する回路とを含む。より具体的には、この回
路は、ロードアドレスのインデックス部をバッファにストアされているストアア
ドレスのインデックス部と比較する。これらのインデックスが一致しかつロード
およびストア双方がデータキャッシュ内でヒットしていれば、ロードおよびスト
アは同じキャッシュラインにアクセスしている。このキャッシュライン内の１以
上のバイトがストアにより更新されロードにより読出されるならば、ストアデー
タはそのロードのために転送される。好都合なことに、この比較的小規模のロー
ドおよびストアインデックス比較は速やかに完了する。加えて、（すべてではな
いにしても）ほとんどのインデックスが典型的には物理（変換されていない）ビ
ットなので、比較は、変換されているロードアドレスよりも前に実施することが
でき、比較の正確性に大きな影響はない。

【０００７】ある実施例では、上記回路は、ロードおよびストアインデックスが一致しかつ
ストアがデータキャッシュ内でヒットしていれば、データを投機的に転送する。
次に、ロードがキャッシュ内でヒット／ミスしていると判断されると、この転送
が、ロードのヒット／ミス表示を用いて検査される。セットアソシアティブの実
施例では、ロードのヒットの様式（仕方）をストアのヒットの様式（仕方）と比
較して転送の正確度をさらに検査する。

【０００８】概して、ある装置が意図されている。この装置は、バッファとバッファに結合
された回路とを含む。バッファは複数のエントリを含み、複数のエントリは各々
、（ｉ）ストアメモリ動作のストアアドレスの少なくともインデックス部と、（
ii）ストアメモリ動作がデータキャッシュ内でヒットしているかどうか示すヒッ
ト表示と、（iii）このストアメモリ動作に対応するストアデータとをストアす
るように構成される。回路は、（ｉ）データキャッシュを探索するロードメモリ
動作のロードアドレスのインデックス部と、（ii）ロードメモリ動作がデータキ
ャッシュ内でヒットしているかどうか示すロードヒット信号とを受けるように結
合される。この回路は、ストアデータを、複数のエントリのうち第１のエントリ
から、第１のエントリにストアされたインデックス部がロードアドレスのインデ
ックス部に一致することに応じて、かつさらに、第１のエントリのヒット表示が
ヒットを示しロードヒット信号がヒットを示すことに応じて、転送するように構
成される。

【０００９】さらに、データキャッシュとデータキャッシュに結合されたロード／ストアユ
ニットとを含むプロセッサが意図されている。ロード／ストアユニットは、複数
のエントリを含むバッファを備え、複数のエントリは各々、（ｉ）ストアメモリ
動作のストアアドレスの少なくともインデックス部と、（ii）ストアメモリ動作
がデータキャッシュ内でヒットしているかどうか示すヒット表示と、（iii）こ
のストアメモリ動作に対応するストアデータとをストアするように構成される。
ロード／ストアユニットは、ロードアドレスを用いてデータキャッシュを探索し
、それに応じてデータキャッシュからヒット信号を受けるように構成される。加
えて、ロード／ストアユニットは、ストアデータを、複数のエントリのうち第１
のエントリから、ロードアドレスのインデックス部が第１のエントリにストアさ
れたインデックス部に一致することに応じて、かつさらに、第１のエントリのヒ
ット表示がヒットを示しヒット信号がヒットを示すことに応じて、転送すると決
定する。

【００１０】さらに、ある方法が意図されている。データキャッシュはロードアドレスを用
いて探索される。ロードアドレスのインデックス部がバッファにストアされたス
トアアドレスのインデックス部と比較される。ストアアドレスに対応するストア
データが、ロードアドレスに対応するロードメモリ動作のために転送される。こ
の転送は、比較によりロードアドレスのインデックス部がストアアドレスのイン
デックス部と一致すると判断されたことに応じて、かつさらに、ロードアドレス
およびストアアドレス双方がデータキャッシュ内でヒットしていることに応じて
、行なわれる。

【００１１】本発明の上記以外の目的および利点は、以下の詳細な説明を読み添付の図面を
参照することによって明らかになるであろう。

【００１２】本発明には種々の変形および代替形が可能であり、本発明の具体的な実施例が
図面において例示され本明細書において詳細に説明されている。しかしながら、
図面およびその詳細な説明は本発明を開示された特定の形態に限定することを意
図したものではなく、反対に、前掲の特許請求の範囲において定められた本発明
の精神および範囲に含まれるすべての変形、等価物および代替形を包含すること
を意図している。

【００１３】

【好ましい実施例の詳細な説明】

次に図１を参照して、ストア待ち行列４００、ヒット制御回路４０２ならびに
比較器４０４および４０６の一実施例のブロック図が示される。この図１に示し
た装置は、ストアに関連する情報をストアがデータキャッシュ（および／または
メモリ）に与えられるまで保持するデータキャッシュを有するプロセッサにおい
て用いることができ、さらに、ストアにヒットするロードを検出しストアデータ
をストア待ち行列４００からロードのために転送するのに用いることができる。
他の実施例も可能であり意図されている。図１の実施例では、ストア待ち行列４
００は、実行されたストアに対応するストア情報を受けるように結合され、さら
にヒット制御回路４０２ならびに比較器４０４および４０６に結合される。比較
器４０４および４０６はさらに、ヒット制御回路４０２に結合される。ヒット制
御回路４０２は、転送信号および転送取消信号を与えるように結合される。

【００１４】概して、図１に示した装置は、ストア待ち行列４００において示されているス
トアにヒットするロードを検出し、そのロードのためにストアに対応するデータ
を（データキャッシュからのキャッシュデータの代わりに）ストア待ち行列４０
０から転送するように構成される。この装置は、ロードアドレス全体をストア待
ち行列４００にストアされたストアアドレスと比較するのではなく、ロードアド
レスのインデックス部（「ロードインデックス」）をストアアドレスのインデッ
クス部（「ストアインデックス」）と比較する。アドレスの一部を比較するため
、この比較はより速やかに行なわれ、結果として、ロードがストア待ち行列４０
０に示されたストアにヒットするかどうか判断するのに要する時間が短縮される
。ロードおよびストア双方がデータキャッシュにおいてヒットしかつインデック
ス部が一致すれば、ロードおよびストアはデータキャッシュ内の同じキャッシュ
ラインにアクセスしている。データキャッシュが直接マッピングの場合、ロード
およびストアは同じキャッシュラインにアクセスしている。データキャッシュが
セットアソシアティブの場合、ストアのヒットの様式およびロードのヒットの様
式を比較して、ロードおよびストアが同じキャッシュラインにアクセスしている
かどうか判断することができる。ロードがヒットでありストアがミスである（ま
たはその逆）の場合、ロードおよびストアは同じキャッシュラインにアクセスし
ていない（インデックス部はどれも仮想でないと仮定）。したがって、ロードは
ストアにヒットしておらず、ストアデータをストア待ち行列４００から転送する
必要はない。ロードおよびストア双方がミスの場合、ロードおよびストアは同じ
キャッシュラインにアクセスしているかもしれない。しかしながら、データキャ
ッシュは、ロードがミスの場合データをキャッシュからロードのために転送して
おらず、したがって、ストアデータをストア待ち行列４００から転送する必要は
ない。ロードを、データキャッシュがロードが読出したキャッシュラインで満た
された後に（または満たすデータをキャッシュに書込んでいる間に）再び試みて
もよく、そのキャッシュラインへのストアがキャッシュを満たす間にヒットとな
る可能性がある。こうして、再度ロードを試みる間に、ロードがストアにヒット
することが検出される可能性がある。

【００１５】典型的に、仮想アドレスから物理アドレスへの変換は、ページの粒度に対して
実施される。最下位アドレスビットは、ページに対するオフセットを形成しこの
変換では変更されない。最上位アドレスビットは仮想から物理に変換される。た
とえば、３２ビットの仮想アドレスおよび４キロバイトのページサイズを用いた
実施例では、最下位１２ビットがページオフセットであり最上位２０ビットが変
換される。これ以外のページサイズが意図されている。典型的には、アドレスの
インデックス部の（すべてではないにしても）ほとんどの部分は、ページオフセ
ット内にあるため、仮想から物理へのアドレス変換中に変更されることはない。
したがって、ロードがストアにヒットするかどうか検出する際の正確度に対する
エイリアスの影響を、減じるまたは排除することができる。さらに、仮想ロード
アドレスを比較において用い、物理ストアアドレス（メモリなどに与えるために
用いられる）をストア待ち行列４００にストアしてもよい。インデックス部の１
以上のビットが仮想−物理変換において変更されるならば、仮想ビットもストア
すればよい。したがって、仮想ロードアドレスと比較するために仮想ストアアド
レスをストアするのに追加する記憶量は最小でよい（たとえば変換されかつイン
デックスの一部でもあるビット）。

【００１６】図１に示した実施例を、セットアソシアティブデータキャッシュを用いたプロ
セッサで使用してもよい。直接マッピングデータキャッシュを用いる実施例では
、様式表示および関連する比較器はない。より具体的には、ストア待ち行列４０
０が複数のエントリを含む。たとえば、図１にはエントリ４０８Ａおよび４０８
Ｂが示されており、ストア待ち行列４００はさらなるエントリ（図示せず）を含
み得る。各エントリ４０８は、ストアメモリ動作に対応する情報をストアするよ
うに構成されている。ストア待ち行列４００は、ストアに対応する情報をこのス
トアの実行の際に受取り、この情報を、ストアが回収されてデータキャッシュお
よび／またはメモリに与えられてしまうまで保持する。ここに示されている実施
例では、ひとつのエントリは、有効表示（Ｖ）、ヒット表示（Ｈ）、回収表示（
Ｒ）、アドレスタグ部（ADDR−Tag）、アドレスインデックス部（ADDR−Index）
、オフセットおよびサイズ情報（Offset and Size）、様式表示（Way）、および
データ（Data）を含む。有効表示は、エントリが有効かどうか（たとえばストア
がエントリ内の情報で表わされているかどうか）示す。ヒット表示は、ストアが
データキャッシュ内でヒットしているかどうか示す。回収表示は、ストアが回収
されている（したがって、データキャッシュおよび／またはメモリに与えるのに
適切である）かどうか示す。この有効、ヒットおよび回収表示に対しては適切な
表示を用いればよい。たとえば、各表示は、セットされると一方の状態を示しク
リアされると他方の状態を示すビットを含み得る。以下の説明（下記図５および
６に示された実施例の説明を含む）では、有効、ヒットおよび回収表示のことを
、有効、ヒットおよび回収ビットと呼ぶ。しかしながら、他の実施例でこの符号
化を逆にしたり他の符号化を用いることもある。アドレスタグ部はタグとしてデ
ータキャッシュにストアされるアドレスの部分であり、アドレスインデックス部
はインデックスとしてデータキャッシュが用いる部分である。オフセットおよび
サイズ情報は、ストアにより更新されてキャッシュライン内にあるバイトを示す
。様式表示は、ヒットビットがセットされた場合（ストアのヒットを示す）、（
セットアソシアティブの実施例において）ストアがデータキャッシュでヒットす
る様式を示す。最後に、ここでのデータは、データキャッシュおよび／またはメ
モリに与えられるストアデータである。

【００１７】比較器４０４は、ストア待ち行列４００の各エントリからストアインデックス
を受けるように結合され、かつ、実行されているロードのロードインデックスを
受けるように結合される。比較器４０４は、ロードおよびストアインデックスを
比較し、一致が検出されるとヒット制御回路４０２に対し信号をアサートする。
比較器４０４はこのように、ストア待ち行列４００の各エントリに対する比較器
回路を表わしており、各比較器回路が出力信号をヒット制御回路４０２に与える
。同様に、比較器４０６はストア待ち行列４００の各エントリにストアされた様
式表示を受けるように結合され、かつ、ロード様式表示を受けるように結合され
る。比較器４０６は、ロードおよびストア様式表示を比較し、一致が検出される
とヒット制御回路４０２に対し信号をアサートする。比較器４０６はこのように
、ストア待ち行列４００の各エントリに対する比較器回路を表わしており、各比
較器回路が出力信号をヒット制御回路４０２に与える。なお、所望されれば比較
器４０４および４０６を連想記憶装置（ＣＡＭ）構成としてストア待ち行列４０
０に組み込んでもよい。

【００１８】ヒット制御回路４０２は、各エントリからのヒットビットおよび実行されてい
るロードについてのヒット信号を受けるように結合される。ロードインデックス
およびストア待ち行列４００に示されたストアのストアインデックスが一致すれ
ば、ロードおよびこのストアはヒットであり、ロードおよびこのストアの様式表
示は一致し、ヒット制御回路４０２により、データがストア待ち行列４００から
ロードのために転送される。より具体的には、ヒット制御回路４０２は、ストア
待ち行列４００に、ヒットしているエントリのエントリ番号の表示で知らせ、ス
トア待ち行列４００は、このエントリからのデータを、データキャッシュからの
キャッシュデータの代わりに転送するために与える。

【００１９】なお、ロードアドレスは、ロードによるデータキャッシュの探索の開始時に、
比較のために利用でき、ロードヒット信号は、データキャッシュの探索の終了近
くまで（たとえばロードアドレスが変換されてキャッシュタグと比較された後）
決定されない。さらに、ロードの様式表示も、ヒット信号が決定されるまで決定
されない。したがって、この実施例において、ヒット制御回路４０２は、ロード
インデックスおよびストアインデックスの一致、ならびに、ストアのヒットビッ
トがストアがヒットであると示すことに応じて、ストア待ち行列４００からのデ
ータ転送を合図する（かつストア待ち行列４００にデータを転送させる）ように
構成される。ヒット制御回路４０２は、図１に示した転送信号をアサートしてデ
ータ転送を知らせる。次に、ロードのために、ヒット信号および様式表示を求め
る。ヒット制御回路４０２は、ロードがストアにヒットしていることを、ロード
様式表示をストア様式表示と比較しヒット信号がアサートされてヒットを示して
いることを確認することにより、確かめる。様式表示が一致しかつロードのヒッ
ト信号がヒットを示しているならば、ヒット制御回路４０２は、転送が正しいと
判断する。他方、転送が誤りである場合、ヒット制御回路４０２は、図１に示し
た転送取消信号をアサートして、転送されたストアデータを受けたプロセッサの
部分に、転送が誤りであると知らせる。ある具体的な実施例では、データの転送
を第１のクロックサイクルで行ない、転送の取消しを第１のクロックサイクルに
続く第２のクロックサイクルで行なう。

【００２０】上記は、図１に示した装置の、１つのロードが実行される場合の動作について
説明したものである。しかしながら、複数のロードが同時に実行される実施例も
意図されている。上記のように各ロードを同時に処理することができる。

【００２１】ロードおよびストアインデックス（ならびにデータアドレスのヒット様式）を
比較して、ロードおよびストアが同じキャッシュラインにアクセスしていると判
断する。さらなる情報を用いて、ロードが読出した少なくとも１バイトがストア
により更新されていると判断する。たとえば、アドレスのオフセット部分ならび
にロードおよびストアに影響されるサイズ（すなわちバイト数）を用いることが
できる。オフセットおよびサイズ情報は、設計上の選択によって、何らかの適切
なフォーマットで与えて符号化することができる。たとえば、オフセットおよび
サイズ情報は、バイトイネーブルマスクを含み、ここで各バイトの１ビットがキ
ャッシュラインにある。このビットがセットされると、対応するバイトがアクセ
スされる。ロードおよびストアに対するバイトイネーブルマスクの各ビットの論
理和をとり、このバイトがロードにより読出されかつストアにより書込まれるか
どうか判断する。バイトイネーブルマスクを、キャッシュラインの一部のために
生成してもよく（たとえばキャッシュが１キャッシュラインあたり複数のバンク
を有する場合）、バンク選択のために用いるオフセットの部分を、バイトイネー
ブルマスクビットの論理和に加え、ロードおよびストアアドレス間で比較する。
ロードおよびストアアドレスのオフセットの部分を、インデックス比較に加えて
、比較器４０４を用いて比較する。ヒット制御回路４０２は、（上記のインデッ
クス比較、ヒットビットおよび様式表示に加えて）オフセットおよびサイズ情報
を用いて、ストア待ち行列４００にストアされたデータをロードのために転送す
るかどうか判断する。

【００２２】なお、ロードの実行中にストア待ち行列４００の２以上のエントリがヒットす
る場合がある。ヒット制御回路４０２は、ヒットしているエントリに対応するス
トアのうち、プログラム順序で最も新しい（最後に実行された）ストアを求め、
データをそのエントリから転送する。また、ロードが読出した１以上のバイトを
、ロードがヒットしたストアが、ロードが読出した１以上の他のバイトについて
は更新しない場合がある。その場合、データキャッシュは、ストアデータをキャ
ッシュデータと組合せて、ロードが読出したバイトを与える。複数のストアが、
あるロードが読出したバイトのうち異なるバイトを与える場合、このロードを回
収して再び試みる。複数のストアのうち１以上を回収してデータキャッシュに与
え、これらストアにより更新されロードによって読出されたバイトを、データキ
ャッシュから与える。その代わりとして、図１の装置は、異なるストアからのバ
イトを組合せてロードデータを与えてもよい。所望に応じ、これ以外の実施例に
おいて上記のモデルを他のやり方で処理してもよい。

【００２３】なお、ここで示されている比較器４０６は、ストア待ち行列４００にストアさ
れた様式表示をロードの様式表示と比較しているが、これに代わる実施例では、
ロードのためにデータを転送するのに用いるエントリから様式表示を読出し（こ
の転送がインデックス比較およびデータキャッシュにおけるストアヒットに基づ
く場合）、読出された様式表示をロード様式表示と比較してロードおよびストア
が同じ様式でヒットしているかどうか検査する。

【００２４】本明細書で用いているアドレスのインデックス部（または簡潔に「インデック
ス」）は、このアドレスに対応するデータをストアするのに適切な１以上のキャ
ッシュエントリを選択するために用いる部分である。加えて、データアドレスは
、データキャッシュ内で、このデータアドレスが識別するデータがそのデータキ
ャッシュにストアされている場合に「ヒットする」。データアドレスは、データ
キャッシュ内で、このデータアドレスが識別するデータがそのデータキャッシュ
にストアされている場合に「ミスする」。さらに、セットアソシアティブデータ
キャッシュは、所与のインデックスに対応するキャッシュラインをストアするの
に適切な複数のキャッシュエントリを含む。各エントリはそのインデックスに対
しては異なる様式である。

【００２５】図２は、ロード／ストアユニット内でストア待ち行列４００を用いるプロセッ
サの実施例を示す。その代わりとして、このプロセッサおよびロード／ストアユ
ニットは、図４−６に関連して説明する待ち行列構成を用いてもよい。図１の装
置または図４−６の実施例を用いるこれ以外のプロセッサの実施例も意図されて
いる。

【００２６】プロセッサ概観次に図２を参照して、プロセッサ１０の一実施例のブロック図が示される。こ
れ以外の実施例が可能であり意図されている。図２に示すように、プロセッサ１
０は、プリフェッチ／プリデコードユニット１２と、分岐予測ユニット１４と、
命令キャッシュ１６と、命令アライメントユニット１８と、複数のデコードユニ
ット２０Ａ−２０Ｃと、複数のリザベーション（保留、reservation）ステーシ
ョン２２Ａ−２２Ｃと、複数の機能ユニット２４Ａ−２４Ｃと、ロード／ストア
ユニット２６と、データキャッシュ２８と、レジスタファイル３０と、リオーダ
（reorder）バッファ３２と、ＭＲＯＭユニット３４と、バスインターフェイス
ユニット３７とを含む。本明細書において特定の参照番号およびこれに続く文字
で示されている構成要素はまとめて、参照番号のみを用いて表わす。例として、
デコードユニット２０Ａ−２０Ｃはまとめてデコードユニット２０と示す。

【００２７】プリフェッチ／プリデコードユニット１２は、バスインターフェイスユニット
３７から命令を受けるように結合され、かつさらに、命令キャッシュ１６および
分岐予測ユニット１４に結合される。同様に、分岐予測ユニット１４は、命令キ
ャッシュ１６に結合される。さらに、分岐予測ユニット１４は、デコードユニッ
ト２０および機能ユニット２４に結合される。命令キャッシュ１６はさらに、Ｍ
ＲＯＭユニット３４および命令アライメントユニット１８に結合される。命令ア
ライメントユニット１８は、デコードユニット２０に結合される。各デコードユ
ニット２０Ａ−２０Ｃは、ロード／ストアユニット２６およびそれぞれのリザベ
ーションステーション２２Ａ−２２Ｃに結合される。リザベーションステーショ
ン２２Ａ−２２Ｃはさらに、それぞれの機能ユニット２４Ａ−２４Ｃに結合され
る。加えて、デコードユニット２０およびリザベーションステーション２２は、
レジスタファイル３０およびリオーダバッファ３２に結合される。機能ユニット
２４はまた、ロード／ストアユニット２６、レジスタファイル３０およびリオー
ダバッファ３２に結合される。データキャッシュ２８は、ロード／ストアユニッ
ト２６およびバスインターフェイスユニット３７に結合される。バスインターフ
ェイスユニット３７はさらに、Ｌ２キャッシュへのＬ２インターフェイスおよび
バスに結合される。最後に、ＭＲＯＭユニット３４は、デコードユニット２０に
結合される。

【００２８】命令キャッシュ１６は、命令をストアするために設けられた高速キャッシュメ
モリである。命令は、命令キャッシュ１６からフェッチされデコードユニット２
０にディスパッチされる。ある実施例において、命令キャッシュ１６は、６４キ
ロバイトまでの命令を、６４のバイトライン（１バイトは８バイナリビットを含
む）を有する２ウェイセットアソシアティブ構成内にストアするように構成され
る。その代わりとして、これ以外の所望の構成およびサイズを用いてもよい。例
として、命令キャッシュ１６を、フルアソシアティブ、セットアソシアティブま
たはダイレクトマッピング構成として実現してもよい。

【００２９】命令は、プリフェッチ／プリデコードユニット１２により、命令キャッシュ１
６にストアされる。命令を、要求される前に、命令キャッシュ１６からプリフェ
ッチ方法に従いプリフェッチしてもよい。プリフェッチ／プリデコードユニット
１２は、種々のプリフェッチ方法を用いることができる。プリフェッチ／プリデ
コードユニット１２は、命令を命令キャッシュ１６に転送する際、命令の各バイ
トにつき３つのプリデコードビットすなわちスタートビット、エンドビットおよ
び機能ビットを生成する。プリデコードビットは、各命令の境界を示すタグを形
成する。プリデコードタグは、以下でより具体的に説明するように、所与の命令
をデコードユニット２０が直接デコードできるかどうか、または、命令をＭＲＯ
Ｍユニット３４が制御するマイクロコード手続を呼出すことにより実行するかど
うかといった、さらなる情報も伝える。さらに、プリフェッチ／プリデコードユ
ニット１２を、分岐命令を検出し分岐命令に対応する分岐予測情報を分岐予測ユ
ニット１４にストアするように構成してもよい。これ以外の実施例において何ら
かの適切なプリデコード方法を用いてもよい。

【００３０】次に、可変バイト長命令セットを用いるプロセッサ１０のある実施例において
プリデコードタグを符号化することについて説明する。可変バイト長命令セット
は、異なる命令が異なる数のバイトを占める命令セットである。プロセッサ１０
の一実施例で用いる可変バイト長命令セットの一例としてｘ８６命令セットを挙
げる。

【００３１】ここで例として挙げる符号化では、所与のバイトがある命令の第１のバイトで
ある場合、このバイトに対しスタートビットがセットされる。このバイトが命令
の最終バイトである場合、このバイトに対しエンドビットがセットされる。デコ
ードユニット２０が直接デコードできる命令のことを「高速経路」命令と呼ぶ。
残りのｘ８６命令のことを、ある実施例ではＭＲＯＭ命令と呼ぶ。高速経路命令
については、機能ビットは、命令に含まれる各プレフィックスバイトに対しセッ
トされ、これ以外のバイトに対してはクリアされる。その代わりとして、ＭＲＯ
Ｍ命令については、機能ビットは、各プレフィックスバイトに対しクリアされ、
これ以外のバイトに対してはセットされる。命令の種類を、エンドバイトに対応
する機能ビットを調べることによって決定できる。この機能ビットがクリアされ
ている場合、命令は高速経路命令である。逆に、この機能ビットがセットされて
いる場合、命令はＭＲＯＭ命令である。したがって、ある命令の演算コードの場
所は、デコードユニット２０により直接デコードされる命令内の、命令の第１の
クリアの機能ビットに関連するバイトとして、求めることができる。たとえば、
２つのプレフィックスバイト、Mod R/Mバイト、および中間バイトを含む高速経
路命令は、以下のようなスタート、エンドおよび機能ビットを有する。

【００３２】スタートビット１００００エンドビット００００１機能ビット１１０００ＭＲＯＭ命令は、デコードユニット２０がデコードするには複雑すぎると判断
される命令である。ＭＲＯＭ命令は、ＭＲＯＭユニット３４を呼出すことによっ
て実行される。より具体的には、ＭＲＯＭ命令がある場合、ＭＲＯＭユニット３
４は、この命令を解析し規定された高速経路命令のサブセットに発行して所望の
動作を実施する。ＭＲＯＭユニット３４は、この高速経路命令のサブセットをデ
コードユニット２０にディスパッチする。

【００３３】プロセッサ１０は、条件付分岐命令に続く命令を投機的にフェッチするために
分岐予測を用いる。分岐予測ユニット１４は、分岐予測動作を行なうために含ま
れている。ある実施例では、分岐予測ユニット１４は、命令キャッシュ１６内の
１つのキャッシュラインの１６バイト部分につき２つまでの分岐ターゲットアド
レスおよび対応するテイクン／ノットテイクン（taken/not taken）予測をキャ
ッシュする分岐ターゲットバッファを用いる。この分岐ターゲットバッファは、
たとえば２０４８のエントリまたはこれ以外の適切な数のエントリを含む。プリ
フェッチ／プリデコードユニット１２は、特定のラインがプリデコードされたと
きに最初の分岐ターゲットを求める。続いて、キャッシュラインに対応する分岐
ターゲットの更新が、キャッシュライン内で命令を実行したことによって発生す
る。命令キャッシュ１６は、フェッチされている命令アドレスを示し、分岐予測
ユニット１４は、どの分岐ターゲットアドレスを選択して分岐予測を形成するか
判断する。デコードユニット２０および機能ユニット２４は、分岐予測ユニット
１４に更新情報を与える。デコードユニット２０は、分岐予測ユニット１４が予
測しなかった分岐命令を検出する。機能ユニット２４は、分岐命令を実行し、予
測された分岐方向が誤りかどうか判断する。分岐方向が「テイクン」となるのは
、後続の命令が分岐命令のターゲットアドレスからフェッチされる場合である。
逆に、分岐方向が「ノットテイクン」であるのは、後続の命令が分岐命令に続く
記憶場所からフェッチされる場合である。分岐命令予測誤りが検出されると、誤
って予測された分岐に続く命令が、プロセッサ１０の多様なユニットから廃棄さ
れる。これに代わる構成では、分岐予測ユニット１４は、デコードユニット２０
および機能ユニット２４ではなくリオーダバッファ３２に結合されて、リオーダ
バッファ３２から分岐予測誤り情報を受ける。分岐予測ユニット１４は種々の適
切な分岐予測アルゴリズムを用いることができる。

【００３４】命令キャッシュ１６からフェッチされた命令は、命令アライメントユニット１
８に送られる。命令が命令キャッシュ１６からフェッチされると、対応するプリ
デコードデータがスキャンされ、命令アライメントユニット１８に（かつＭＲＯ
Ｍユニット３４に）、フェッチされた命令に関する情報が与えられる。命令アラ
イメントユニット１８は、スキャンデータを用いて各デコードユニット２０に命
令を整列させる。ある実施例において、命令アライメントユニット１８は、３組
の８命令バイトからの命令をデコードユニット２０に整列させる。デコードユニ
ット２０Ａは、現在デコードユニット２０Ｂおよび２０Ｃが受けている命令に（
プログラム順序で）先行する命令を受ける。同様に、デコードユニット２０Ｂは
、現在デコードユニット２０Ｃが受けている命令にプログラム順序で先行する命
令を受ける。

【００３５】デコードユニット２０は、命令アライメントユニット１８から受けた命令をデ
コードするように構成される。レジスタオペランド情報が検出され、レジスタフ
ァイル３０およびリオーダバッファ３２に送られる。さらに、命令が１以上のメ
モリ動作の実施を要求するものであれば、デコードユニット２０は、このメモリ
動作をロード／ストアユニット２６に送る。各命令は、機能ユニット２４に対す
る１組の制御値にデコードされ、これらの制御値が、オペランドアドレス情報お
よび命令に含まれた変位または即値データとともに、リザベーションステーショ
ン２２に送られる。ある特定の実施例では、各命令は、２つまでの動作にデコー
ドされ、機能ユニット２４Ａ−２４Ｃにより別々に実行される。

【００３６】プロセッサ１０は、命令順変更（アウトオブオーダ、out-of-order）実行をサ
ポートし、そのため、リオーダバッファ３２を用いて、レジスタの読出および書
込動作の当初のプログラムシーケンスを追跡し、レジスタ再命名を実施し、投機
的な命令が実行され分岐予測誤りが修復されるようにし、的確な例外にし易くす
くする。リオーダバッファ３２内の一時記憶場所を、レジスタを更新して投機的
レジスタ状態をストアすることを含む命令のデコードの際に確保しておく。分岐
予測が誤りであれば、予測誤り経路に沿い投機的に実行された命令の結果を、バ
ッファにおいて、レジスタファイル３０への書込み前に無効化することができる
。同様に、特定の命令が結果として例外をもたらした場合、その特定の命令に続
く命令を廃棄する。このようにして、例外は「的確」となる（すなわち例外を生
じさせる特定の命令に続く命令は、その命令の前に完了しない）。なお、特定の
命令は、プログラム順序でその特定の命令に先行する命令よりも先に実行される
場合、投機的に実行される。先行する命令は、分岐命令または例外発生命令であ
り、その場合、リオーダバッファ３２は投機的結果を廃棄する。

【００３７】デコードユニット２０の出力で与えられた命令制御値および即値または変位デ
ータは直接それぞれのリザベーションステーション２２に送られる。ある実施例
では、各リザベーションステーション２２が、対応する機能ユニットに発行され
るのを待っている６つまでのペンディング命令についての命令情報（すなわち命
令制御値、オペランド値、オペランドタグおよび／または即値データ）を保持で
きる。なお、図２の実施例では、各リザベーションステーション２２は専用の機
能ユニット２４と関連付けられている。したがって、リザベーションステーショ
ン２２および機能ユニット２４により３つの専用「発行位置」が形成される。言
換えれば、発行位置０がリザベーションステーション２２Ａおよび機能ユニット
２２Ａにより形成される。整列してリザベーションステーション２２Ａにディス
パッチされる命令を、機能ユニット２４Ａが実行する。同様に、発行位置１は、
リザベーションステーション２２Ｂおよび機能ユニット２４Ｂにより形成され、
発行位置２は、リザベーションステーション２２Ｃおよび機能ユニット２４Ｃに
より形成される。

【００３８】特定の命令をデコードしたときに、必要なオペランドがレジスタ場所であった
場合、レジスタアドレス情報が同時にリオーダバッファ３２およびレジスタファ
イル３０に送られる。当業者であれば、ｘ８６レジスタファイルが８つの３２ビ
ット実レジスタを含む（すなわち典型的にはＥＡＸ、ＥＢＸ、ＥＣＸ、ＥＤＸ、
ＥＢＰ、ＥＳＩ、ＥＤＩおよびＥＳＰと呼ばれる）ことがわかるであろう。ｘ８
６プロセッサアーキテクチャを用いたプロセッサ１０の実施例では、レジスタフ
ァイル３０は、各３２ビット実レジスタに対する記憶場所を含む。さらなる記憶
場所がＭＲＯＭユニット３４が使用するためにレジスタファイル３０内に含まれ
ている。リオーダバッファ３２に含まれる一時記憶場所は、こうしたレジスタの
内容を変更してアウトオブオーダ（命令順変更）実行が行なえるようにするため
のものである。リオーダバッファ３２の一時記憶場所が、各命令に対して確保さ
れ、これは、デコードの際に実レジスタのうち１つの内容を変更するものと決定
される。したがって、特定のプログラムの実行中の種々のポイントで、リオーダ
バッファ３２は、所与のレジスタの投機的に実行された内容を含む１以上の場所
を含み得る。所与の命令のデコードに続いて、リオーダバッファ３２が所与の命
令においてオペランドとして用いられたレジスタに割当てられた以前のひとつま
たは複数の場所を有すると判断されれば、リオーダバッファ３２は、対応するリ
ザベーションステーションに、１）最後に割当てられた場所の値、または２）そ
の値を、最終的には以前の命令を実行する機能ユニットが生成していない場合は
、最後に割当てられた場所のタグを転送する。リオーダバッファ３２が、所与の
レジスタのために確保された場所を有していれば、オペランド値（またはリオー
ダバッファタグ）が、レジスタファイル３０からではなくリオーダバッファ３２
から与えられる。リオーダバッファ３２において必要とされるレジスタのために
確保された場所がなければ、その値は直接レジスタファイル３０から取込まれる
。オペランドが記憶場所に対応していれば、オペランド値がロード／ストアユニ
ット２６を通してリザベーションステーションに与えられる。

【００３９】ある具体的な実施例において、リオーダバッファ３２は、同時にデコードされ
た命令を１単位としてストアし操作するように構成される。この構成のことを本
明細書では「ライン指向」と呼ぶ。いくつかの命令をまとめて処理することによ
り、リオーダバッファ３２内で用いるハードウェアを単純化することができる。
たとえば、この実施例に含まれるライン指向リオーダバッファは、デコードユニ
ット２０が１以上の命令をディスパッチするときは常に、３つの命令（各デコー
ドユニット２０から１つずつ）に関する命令情報に十分な記憶を割当てる。対照
的に、従来のリオーダバッファでは、実際にディスパッチされる命令の数に応じ
て、可変量の記憶が割当てられる。この可変量の記憶を割当てるには比較的多数
の論理ゲートが必要である。同時にデコードされた命令の各々が実行されたとき
、命令結果は同時にレジスタファイル３０にストアされる。したがって、記憶は
、同時にデコードされる命令の別の組に割当てるために空いている。さらに、１
命令当り用いられる制御論理回路の量は減少する。なぜなら、制御論理は同時に
デコードされるいくつかの命令に対して償却されるからである。特定の命令を識
別するリオーダバッファタグを、２つのフィールド、すなわちラインタグおよび
オフセットタグに分割できる。ラインタグは、特定の命令を含む同時にデコード
された命令の組を識別し、オフセットタグは、この組内のどの命令が特定の命令
に対応するか識別する。なお、命令結果をレジスタファイル３０にストアし対応
する記憶を空けることを、命令を「回収する」という。さらに、プロセッサ１０
の種々の実施例においていかなるリオーダバッファ構成を用いてもよい。

【００４０】先に述べたように、リザベーションステーション２２は、命令を、その命令が
対応する機能ユニット２４によって実行されるまでストアする。ある命令が実行
のために選択されるのは、（ｉ）その命令のオペランドが既に与えられている場
合、および（ii）同じリザベーションステーション２２Ａ−２２Ｃにありプログ
ラム順序で上記命令に先行している命令のためのオペランドがまだ与えられてい
ない場合である。なお、ある命令を機能ユニット２４の１つが実行すると、その
命令の結果は直接、その結果を待っているリザベーションステーション２２に送
られ、同時にその結果が送られてリオーダバッファ３２を更新する（この技術を
一般に「結果転送」と呼ぶ）。ある命令は、実行のために選択されて機能ユニッ
ト２４Ａ−２４Ｃに送られるが、これは、関連する結果が転送されるクロックサ
イクル中に行なわれる。この場合、リザベーションステーション２２は、転送さ
れた結果を機能ユニット２４に送る。命令が複数の動作にデコードされて機能ユ
ニット２４により実行される実施例では、この動作は別々にスケジューリングさ
れる。

【００４１】ある実施例において、各機能ユニット２４は、加算および減算という整数算術
演算、シフト、ローテート、論理演算ならびに分岐演算を行なうように構成され
ている。これらの動作（演算）は、デコードユニット２０が特定の命令のために
デコードした制御値に応じて行なわれる。なお、浮動小数点ユニット（図示せず
）を用いて浮動小数点演算に対応してもよい。浮動小数点ユニットは、コプロセ
ッサとして動作し、ＭＲＯＭユニット３４またはリオーダバッファ３２から命令
を受けた後にリオーダバッファ３２と連絡してその命令を完了する。加えて、機
能ユニット２４は、ロード／ストアユニット２６が実行するロードおよびストア
メモリ動作のためにアドレス生成を行なうように構成されていてもよい。ある特
定の実施例で、各機能ユニット２４は、アドレスを生成するためのアドレス生成
ユニットおよび残余の機能を果たすための実行ユニットを含む。これら２つのユ
ニットは、１クロックサイクルにおいて異なる命令または動作に対し独立して動
作する。

【００４２】各機能ユニット２４はまた、条件付分岐命令の実行に関連する情報を分岐予測
ユニット１４に与える。分岐予測が誤っている場合、分岐予測ユニット１４は、
既に命令処理パイプラインに入っている誤って予測された分岐に続く命令をフラ
ッシュし、命令キャッシュ１６またはメインメモリから必要な命令をフェッチす
る。なお、こうした状況下では、当初のプログラムシーケンスにおいて予測誤り
分岐命令後に発生した命令の結果は廃棄され、これは、投機的に実行され一時的
にロード／ストアユニット２６およびリオーダバッファ３２にストアされている
ものを含む。なお、分岐実行結果は、機能ユニット２４がリオーダバッファ３２
に与えるもので、これは、機能ユニット２４に分岐の予測誤りを示す。

【００４３】機能ユニット２４が生成した結果は、レジスタ値が更新されていればリオーダ
バッファ３２に送られ、記憶場所の内容が変更されていればロード／ストアユニ
ット２６に送られる。結果をレジスタにストアするのであれば、リオーダバッフ
ァ３２は、命令がデコードされたときにレジスタの値のために確保しておいた場
所に結果をストアする。複数の結果バス３８が、機能ユニット２４およびロード
／ストアユニット２６から結果を転送するために含まれている。結果バス３８は
、発生した結果、および、実行されている命令を識別するリオーダバッファタグ
を送る。

【００４４】ロード／ストアユニット２６は、機能ユニット２４およびデータキャッシュ２
８間のインターフェイスを与える。ある実施例において、ロード／ストアユニッ
ト２６は、データキャッシュ２８にまだアクセスしていないペンディング中のロ
ードまたはストアのデータおよびアドレス情報のための記憶場所を有する第１の
ロード／ストアバッファと、既にデータキャッシュ２８にアクセスしているロー
ドおよびストアのデータおよびアドレス情報のための記憶場所を有する第２のロ
ード／ストアバッファとを含むように構成されている。たとえば、第１のバッフ
ァは１２の場所を含み、第２のバッファは３２の場所を含む。デコードユニット
２０は、ロード／ストアユニット２６へのアクセスを調停する。第１のバッファ
が一杯であるとき、デコードユニットは、ペンディング中のロードまたはストア
要求情報のための場所がロード／ストアユニット２６にできるまで、待機しなけ
ればならない。ロード／ストアユニット２６はまた、ロードメモリ動作の、ペン
ディング中のストアメモリ動作に対する従属性検査も行ない、データコヒーレン
シ（一貫性）が確実に維持されるようにする。メモリ動作は、プロセッサ１０お
よびメインメモリサブシステム間のデータ転送である。メモリ動作は、メモリに
ストアされたオペランドを用いる命令の結果である、または、データ転送を行な
わせるが他の動作は行なわせないロード／ストア命令の結果である。加えて、ロ
ード／ストアユニット２６は、セグメントレジスタなどの特殊レジスタおよびｘ
８６プロセッサアーキテクチャが定めるアドレス変換メカニズムに関する他のレ
ジスタのための特殊レジスタ記憶を含む。

【００４５】データキャッシュ２８は、ロード／ストアユニット２６およびメインメモリサ
ブシステム間で転送されているデータを一時的にストアするために設けられた高
速キャッシュメモリである。ある実施例では、データキャッシュ２８には、２ウ
ェイセットアソシアティブ構成において６４キロバイトまでのデータをストアす
る容量がある。データキャッシュ２８を、セットアソシアティブ構成、フルアソ
シアティブ構成、ダイレクトマッピング構成およびその他の構成の適切な大きさ
を含む、種々の特殊メモリ構成で実現できることがわかるであろう。

【００４６】ｘ８６プロセッサアーキテクチャを用いたプロセッサ１０の特定の実施例では
、命令キャッシュ１６およびデータキャッシュ２８は、線形的にアドレス指定さ
れ物理的にタグ付けされる。線形アドレスは、命令が特定するオフセットおよび
ｘ８６アドレス変換メカニズムのセグメント部が特定するベースアドレスから形
成される。任意として、線形アドレスをメインメモリへのアクセスのために物理
アドレスに変換してもよい。線形−物理変換は、ｘ８６アドレス変換メカニズム
のページング部によって指定されている。物理アドレスは、物理タグと比較され
てヒット／ミス状態が判断される。

【００４７】バスインターフェイスユニット３７は、コンピュータシステム内でバスを介し
てプロセッサ１０とこれ以外の構成要素との間で連絡が行なえるように構成され
ている。たとえば、このバスは、Digital Equipment Corporationが開発したＥ
Ｖ−６バス互換のものでもよい。その代わりとして、パケットに基づいたもの、
単方向リンクまたは双方向リンクなどを含む適切な相互接続構成を用いてもよい
。任意のＬ２キャッシュインターフェイスを用いてレベル２キャッシュに対する
インターフェイスを設けてもよい。

【００４８】ロード／ストアユニット次に、ロード／ストアユニット２６のある実施例についてより詳細に説明する
。これ以外の実施例が可能であり意図されている。図３は、プロセッサ１０のあ
る実施例に従う、ロード／ストアユニット２６、リオーダバッファ３２、データ
キャッシュ２８、バスインターフェイスユニット（ＢＩＵ）３７、デコードユニ
ット２０Ａ、リザベーションステーション２２Ａおよび機能ユニット２４Ａを示
し、相互接続を強調している。他の実施例において、所望に応じてさらなる、代
替のまたはこれに化わる相互接続を用いてもよい。デコードユニット２０Ｂ−２
０Ｃ、リザベーションステーション２２Ｂ−２２Ｃ、機能ユニット２４Ｂ−２４
Ｃおよび図３に示した他のユニット間の相互接続も図３に示したものと同様であ
る。

【００４９】デコードユニット２０Ａは、命令アライメントユニット１８から命令を受けて
その命令をデコードする。デコードユニット２０Ａは、デコードした命令をリザ
ベーションステーション２２Ａに与え、リザベーションステーション２２Ａは、
デコードされた命令を、この命令が実行のために選択されるまでストアする。加
えて、この命令がロードまたはストアメモリ動作を指定していれば、デコードユ
ニット２０Ａは、Ｌ／Ｓライン４６Ａを介してロード／ストアユニット２６に信
号を送る。ロード／ストアユニット２６はデコードユニット２０Ｂ−２０Ｃから
も同様の信号を受ける。Ｌ／Ｓライン４６Ａは、デコードされている命令が指定
しているのはロードメモリ動作なのか、ストアメモリ動作なのかまたは双方なの
かを示す。たとえば、Ｌ／Ｓライン４６Ａは、ロードラインおよびストアライン
を含み得る。何のメモリ動作も指定されていない場合、双方のラインの信号はデ
アサートされる。ロードライン上の信号は、ロードメモリ動作が指定された場合
にアサートされ、同様に、ストアライン上の信号はストアメモリ動作が指定され
た場合にアサートされる。ロードメモリ動作およびストアメモリ動作双方が指定
されていれば、これらの信号双方がアサートされる。Ｌ／Ｓライン４６Ａ上の信
号に応答して、ロード／ストアユニット２６は、含まれているロード／ストアバ
ッファにエントリを割当てて、対応するメモリ動作をストアする。

【００５０】上記に加え、デコードユニット２０Ａは、リオーダバッファ３２に、デコード
されている命令に関する情報を与える。リオーダバッファ３２は、この情報（同
様の情報が他のデコードユニット２０Ｂ−２０Ｃから与えられる）を受け、これ
に応じてリオーダバッファエントリを割当てる。割当てられたリオーダバッファ
エントリは、命令タグバス４８でロード／ストアユニット２６に送られるリオー
ダバッファタグにより識別される。命令タグバス４８は、可能な命令各々（たと
えばこの実施例では３つありこれらはそれぞれデコードユニット２０Ａ−２０Ｃ
からのものである）に対するタグを送るように構成される。これに代えて、上記
のライン指向構成を用いる実施例では、リオーダバッファ３２を、ラインのライ
ンタグを送るように構成し、ロード／ストアユニット２６が、特定のロードまた
はストアを信号で知らせる発行位置のオフセットタグで、ラインタグを増大して
もよい。

【００５１】リオーダバッファ３２はさらに、命令のレジスタオペランドに対する従属性検
査を実施するように構成されてもよい。レジスタオペランドは、デコードユニッ
ト２０が送る命令情報において識別される。ストアメモリ動作については、スト
アデータは、ロード／ストアユニット２６がストアアドレスに加えて受けるソー
スオペランドである。したがって、リオーダバッファ３２は、各ストアメモリ動
作に対しストアデータを生成した命令を求め、ストアデータ／タグバス５０で、
ストアデータ（ストアメモリ動作のディスパッチの際にリオーダバッファ３２ま
たはレジスタファイル３０で利用できる場合）、または、そのストアデータに対
するストアデータタグを送る。ストアメモリ動作に対応する命令が、レジスタの
内容をメモリにストアするという明示ストア命令であれば、ストアデータを生成
する命令の命令タグ（利用できるならばストアデータ）が送られる。他方、命令
がストアメモリ動作を暗示動作として含む場合は、命令そのものがストアデータ
を生成する。こうした場合、リオーダバッファ３２は、この命令の命令タグをス
トアデータタグとして与える。

【００５２】図３では簡潔にするために示していないが、リザベーションステーション２２
Ａは、リオーダバッファ３２から、命令のオペランドタグおよび／またはデータ
も受ける。リザベーションステーション２２Ａは、オペランドタグおよび／また
はデータを入手し、結果バス３８から残りのオペランドデータ（オペランドタグ
が識別するもの）が送られるのを待つ。ある命令がそのオペランドを受けると、
機能ユニット２４Ａはそれを実行することができる。より具体的にいえば、ここ
に示している実施例では、機能ユニット２４Ａは、実行ユニット（ＥＸＵ）４０
およびアドレス生成ユニット（ＡＧＵ）４２を含む。実行ユニット４０は、命令
動作を行ない（たとえば算術演算および論理演算）、結果を生成し、その結果が
結果バス３８Ａ（結果バス３８の１つ）でロード／ストアユニット２６、リザベ
ーションステーション２２およびリオーダバッファ３２に転送される。ＡＧＵ４
２は、データアドレスを生成しこのデータアドレスは命令が指定した１つまたは
複数のメモリ動作で使用され、ＡＧＵ４２はこのデータアドレスをアドレスバス
４４Ａを介してロード／ストアユニット２６に送る。なお、ＡＧＵ４２および実
行ユニット４０が結果バス３８Ａを共有し機能ユニット２４Ａがアドレス生成お
よびその他命令実行動作を実施する実行ユニットのみを含む実施例を用いてもよ
い。ロード／ストアユニット２６はさらに、他の機能ユニット２４Ｂ−２４Ｃ内
の実行ユニットおよびＡＧＵからの結果バスおよびアドレスバスを受けるように
結合される。

【００５３】ここで示している実施例ではＡＧＵ４２を用いているため、リザベーションス
テーション２２Ａはある命令のアドレス生成部を選択し、ＡＧＵ４２がこれを実
行するが、これは、アドレスを形成するオペランドは既に受けているが命令が指
定するさらなるオペランドをまだ受けていないときに行なわれる。ＡＧＵ４２は
、発生したアドレスを、ロード／ストアユニット２６に、アドレスバス４４Ａで
、データアドレスを生成した命令の命令タグとともに送る。これに応じて、ロー
ド／ストアユニット２６は、アドレスバス４４Ａで受けたタグを、ロード／スト
アバッファにストアされた命令タグと比較して、データアドレスが対応するのは
ロードなのかストアなのかを判断する。

【００５４】ロード／ストアユニット２６は、結果バス３８で与えられた結果タグをモニタ
して、ストアメモリ動作のストアデータを入手する。結果タグがロード／ストア
ユニット内のストアデータタグと一致していれば、ロード／ストアユニット２６
は、対応するデータを入手し、このデータを対応するストア命令と関連付ける。

【００５５】ロード／ストアユニット２６は、データキャッシュインターフェイスを介して
データキャッシュ２８に結合される。ロード／ストアユニット２６は、メモリ動
作を選択して、データキャッシュインターフェイスを介してデータキャッシュ２
８を探索し、データキャッシュインターフェイスから探索結果を受ける。一般的
に、特定のメモリ動作に対するデータキャッシュの「探索」は、その特定のメモ
リ動作のデータアドレスをデータキャッシュ２８に送りデータキャッシュ２８に
よりデータアドレスがヒットしているかどうかを判断されることを含む。データ
キャッシュ２８は、探索結果（たとえばヒット／ミス表示）をロード／ストアユ
ニット２６に返す。加えて、特定のメモリ動作がロードでありヒットしていれば
、データキャッシュ２８は対応するロードデータを結果バス３８Ｄでリザベーシ
ョンステーション２２、リオーダバッファ３２およびロード／ストアユニット２
６に転送する。ある実施例において、データキャッシュ２８は、２つのポートを
含みこれに応じて２つまでの探索を同時に受ける。データキャッシュ２８は、た
とえばバンク構成を用い、この構成では、キャッシュラインが少なくとも２つの
バンクにわたりストアされ、２つの探索が、異なるバンクにアクセスしている限
り同時に処理される。ある特定の実施例では、データキャッシュ２８は８つのバ
ンクを用いる。データキャッシュインターフェイスの種々の実施例について以下
でさらに詳しく説明する。

【００５６】データキャッシュ２８は、ミスであった探索に応じてキャッシュラインを割当
てるように構成され、バスインターフェイスユニット３７と連絡してミスのキャ
ッシュラインをフェッチする。加えて、データキャッシュ２８は、取戻した変更
されているキャッシュラインを、メインメモリ更新のためにバスインターフェイ
スユニット２７に送る。

【００５７】バスインターフェイスユニット３７は、データキャッシュ２８に結合されまた
スヌープインターフェイス５２を介してロード／ストアユニット２６にも結合さ
れる。バスインターフェイスユニット３７がスヌープインターフェイス５２を用
いて、上記バスから受けるスヌープ動作に応じてコヒーレンシ（coherency）動
作を行なう必要があるかどうかが判断される。一般的に、「スヌープ動作」は、
バス上で、このバスに接続されたキャッシュに対するメモリのコヒーレンシを保
つために（たとえばプロセッサ内で）行なわれる動作である。コヒーレンシが適
切に保たれていれば、特定の記憶場所に対応しキャッシュの１つにストアされて
いるデータのコピーは、他のキャッシュ各々にストアされたコピーと一致してい
る。スヌープ動作は、明示動作である、または、特定の記憶場所のアドレスに対
して実施される動作の暗示部分である。一般的に、スヌープ動作は、スヌープさ
れるアドレス（「スヌープアドレス」）を指定し、かつ、アドレスがキャッシュ
にストアされている場合はキャッシュラインの所望の状態を指定する。バスイン
ターフェイスユニットは、スヌープインターフェイス５２を介してスヌープ要求
をデータキャッシュ２８およびロード／ストアユニット２６に送り、スヌープ動
作を行なう。

【００５８】リオーダバッファ３２は、命令の回収を管理する。リオーダバッファ３２は、
回収インターフェイス５４を介してロード／ストアユニット２６と連絡をとり、
回収されているかこれから回収されようとしている命令を識別する。たとえば、
ある実施例では、ストアは、回収されるまでデータキャッシュ２８（またはメイ
ンメモリ）を更新しない。加えて、いくつかのロード命令を非投機的実行に制限
してもよい。リオーダバッファ３２は、回収インターフェイス５４を介してロー
ド／ストアユニット２６に、回収されているまたは回収可能なメモリ動作を示す
。このように、デコードユニット２０が各命令のためにリオーダバッファ３２に
与える命令情報は、この命令がロードまたはストア動作を含むかどうかを示す。
ロード／ストアユニット２６は、特定のメモリ動作が回収されたときにロギング
されているという肯定応答をリオーダバッファ３２に返し、リオーダバッファ３
２はこれに続いて対応する命令を回収する。

【００５９】ロード／ストアバッファは一杯になることがあるため、ロード／ストアユニッ
ト２６は、フロー制御メカニズムを用い、デコードユニット２０で、後続のメモ
リ動作を、その後続のメモリ動作のために十分なエントリがロード／ストアバッ
ファにおいて（先のメモリ動作の完了によって）空になるまで、停止させる。た
とえば、ロード／ストアユニット２６は、空いているエントリの数のカウントを
デコードユニット２０に一斉に送り、デコードユニットは、このカウントが、デ
コードされている命令のメモリ動作に利用できるエントリが不十分であることを
示す場合、停止する。ある特定の実施例に従うと、同時にデコードユニット２０
によりデコードされている命令は、ロックステップ（lockstep）でリザベーショ
ンステーション２２に移動する。（図２に関して先に述べたようにラインが命令
のためにリオーダバッファ３２に割当てられる）このような実施例では、デコー
ドユニット２０は、同時にデコードされる命令の組内ですべてのメモリ動作に対
して十分なエントリが利用できるまで停止する。これに代わるものとして、ロー
ド／ストアユニット２６が、後続のメモリ動作をバッファエントリが利用できる
ようになるまで停止させるための停止信号を用いてもよい。何らかの適切なフロ
ー制御メカニズムを用いればよい。

【００６０】次に図４を参照して、ロード／ストアユニット２６のある実施例のブロック図
が示される。これ以外の実施例が可能であり意図されている。図４に示した実施
例では、ロード／ストアユニット２６は、第１のロード／ストアバッファ（ＬＳ
１バッファ）６０、第２のロード／ストアバッファ（ＬＳ２バッファ）６２、Ｌ
Ｓ１制御回路６４、ＬＳ２制御回路６６、一時バッファ６８、セグメント加算器
７０、ポート０マルチプレクサ（ｍｕｘ）７２、ポート１マルチプレクサ７４、
およびＬＳ２再探索マルチプレクサ７６を含む。セグメント加算器７０は、機能
ユニット２４Ａ−２４Ｃ内のＡＧＵ４２からデータアドレスを受けるように結合
される。（たとえば図３に示したアドレスバス４４Ａの一部、アドレスバス４４
ＡＡは、機能ユニット２４Ａ内のＡＧＵ４２からのデータアドレスを送る。）マ
ルチプレクサ７０および７２は、ＡＧＵ４２からのデータアドレスおよびセグメ
ント加算器７０の出力を受けるように結合され、ＬＳ１バッファ６０にも結合さ
れる。マルチプレクサ７２はまた、ＬＳ２再探索マルチプレクサ７６からの入力
を受ける。さらに、ＬＳ１バッファ６０は、セグメント加算器７０、ＬＳ１制御
回路６４、一時バッファ６８、命令タグバス４８、ストアデータ／タグバス５０
および結果バス３８ａ（結果バス３８の結果データ部分）に結合される。ＬＳ１
制御回路６４は、マルチプレクサ７２および７４ならびにＬＳ２制御回路６６に
結合される。さらに、ＬＳ１制御回路６４は、ＡＧＵ４２からのアドレスタグ（
たとえば図３に示したアドレスタグバス４４Ａの一部、アドレスタグバス４４Ａ
Ｂは、機能ユニット２４Ａ内のＡＧＵ４２からのアドレスタグを送る）、結果タ
グバス３８ｂを介して結果タグ（結果バス３８の結果タグ部分）、およびＬ／Ｓ
ライン４６（デコードユニット２０ＡからのＬ／Ｓライン４６Ａを含む）を受け
るように結合される。一時バッファ６８およびＬＳ２バッファ６２は、結果バス
３８ａおよび結果タグバス３８ｂに結合される。ＬＳ２バッファ６２はさらに、
ＭＡＢタグバス７８上のミスアドレスバッファ（ＭＡＢ）タグを受け、データキ
ャッシュ２８からの、物理アドレスバス８０上の物理アドレスを受けるように結
合される。ＬＳ２バッファ６２はさらに、マルチプレクサ７６、ＬＳ２制御回路
６６および一時バッファ６８に結合される。ＬＳ２制御回路６６はさらに、マル
チプレクサ７６、回収インターフェイス５４、結果タグバス３８ｂ、スヌープイ
ンターフェイス５２、データキャッシュ２８からのヒット／ミス信号８２、およ
びバスインターフェイスユニット３７からの充填タグバス８４に結合される。

【００６１】一般的に、ロード／ストアユニット２６は、プリキャッシュバッファ（ＬＳ１
バッファ６０）およびポストキャッシュバッファ（ＬＳ２バッファ６２）を含む
。メモリ動作は、プロセッサ１０内でディスパッチの際にＬＳ１バッファ６０に
割当てられ、選択されてデータキャッシュ２８の探索が行なわれるまでＬＳ１バ
ッファ６０内にある。データキャッシュ２８の探索に続き、メモリ動作は、探索
状態（たとえばヒット／ミスなど）にかかわらず、ＬＳ２バッファ６２に移され
る。

【００６２】ミスしたメモリ動作は、その後ＬＳ２再探索マルチプレクサ７６およびポート
０マルチプレクサ７２を通して選択して、データキャッシュ２８を再び探索すれ
ばよい。本明細書で用いる「再探索」という用語は、特定の動作に対する第１の
探索の後に第２のまたは後続の試みとしてキャッシュを探索することを指す。加
えて、ストアメモリ動作を、ストアが回収の状態になるまでＬＳ２バッファ６２
内に保持しておいてもよい。

【００６３】Ｌ／Ｓライン４６上の信号に応答して、ＬＳ１制御回路６４は、ＬＳ１バッフ
ァ６０内のエントリを識別されたロードおよびストアメモリ動作に割当てる。Ｌ
Ｓ１制御回路６４の制御により、ＬＳ１バッファ６０はそれぞれの命令タグおよ
びストアデータ／タグ（適用できる場合）を割当てられたエントリに受ける。次
に、対応するデータアドレスをＡＧＵから受けて（ＬＳ１制御回路６４が受けた
アドレスタグにより識別される）、割当てられたエントリにストアされる。

【００６４】メモリ動作はそのアドレスを受けるとデータキャッシュ２８を探索できるよう
になる。ＬＳ１制御回路６４は、メモリ動作を求めてＬＳ１バッファエントリを
スキャンしてデータキャッシュ２８を探索し、ポート０マルチプレクサ７２およ
びポート１マルチプレクサ７４のために選択制御を生成する。したがって、ここ
で示している実施例では、１クロックサイクル当り２つまでのメモリ動作がデー
タキャッシュ２８を探索することができる。ある具体的な実施例に従うと、ＬＳ
１制御回路６４は、データキャッシュ２８を探索するためにプログラム順序でメ
モリ動作を選択する。よって、ＬＳ１制御回路６４を、ＬＳ１バッファ６０内の
最も古いメモリ動作に対するスキャンに制限するように構成してもよい。メモリ
動作の「プログラム順序」とは、命令のフェッチおよび実行が一度に１つずつ行
なわれる場合の命令の実行順序である。さらに、投機的にフェッチされた命令の
プログラム順序とは（たとえば分岐予測に従ったもの）、上記のようにこの投機
が正しいと仮定した上で命令が実行される順序である。命令がプログラム順序で
他の命令に先行する場合、前者の命令は他の命令よりも古いといえる。逆に、命
令がプログラム順序で他の命令の後続命令の場合、前者の命令は他の命令よりも
新しいといえる。なお、他の実現化例では、所望に応じ順序を崩してメモリ動作
を選択しデータキャッシュ２８を探索してもよい。

【００６５】ＬＳ１制御回路６４は、メモリ動作を選択して、データアドレスを受けたとき
にデータキャッシュ２８を探索するように構成される。（この実施例ではメモリ
動作がＬＳ１制御回路６４によりスキャンされているエントリ内にあると仮定す
る。）ＡＧＵ４２から受けたアドレスタグがそうでなければ選択可能なメモリ動
作の命令タグに一致していれば、ＬＳ１制御回路６４は、マルチプレクサ７２お
よび７４の一方を介してＡＧＵ４２から受けた対応するデータアドレスを選択す
る。

【００６６】データアドレスは、ロード／ストアユニット２６に与えられたときに選択され
探索が行なわれるが、データアドレスは、セグメント加算器７０の１つにも与え
られる。この実施例では、セグメント加算器７０は、ｘ８６アドレス指定方法の
セグメント化部分を処理するために設けられている。ｘ８６命令セットアーキテ
クチャを用いない実施例では、セグメント加算器７０がなくてもよい。一般的に
、ＡＧＵ４２はメモリ動作に対応する論理アドレスを生成する。この論理アドレ
スは、命令のアドレスオペランドの加算により生成されるアドレスである。ｘ８
６アーキテクチャでは、２段の変換方法が定められており、セグメント化方法に
より論理アドレスから線形アドレスに、次にページング方法により物理アドレス
に変換される。ＡＧＵ４２は命令のアドレスオペランドを加算するため、ＡＧＵ
が与えるデータアドレスは論理アドレスである。しかしながら、現代の命令コー
ドは一般的に「フラットアドレス指定モード」を用いており、このモードでは、
セグメントベースアドレス（論理アドレスに加算されて線形アドレスを形成する
もの）は、ゼロにプログラミングされる。したがって、ロード／ストアユニット
２６は、セグメントベースアドレスがゼロである（したがって論理および線形ア
ドレスが等しい）と推定し、論理アドレスを選択してデータキャッシュ２８を探
索する。セグメント加算器７０は、メモリ動作のために選択されたセグメントの
セグメントベースアドレスを加算し、線形アドレスをマルチプレクサ７２および
７４ならびにＬＳ１バッファ６０に送って記憶させる。特定のメモリ動作に対す
るセグメントベースアドレスが非ゼロであり、メモリ動作を選択して論理アドレ
スを受けた際にデータキャッシュ２８を探索するのであれば、ＬＳ１制御回路６
４は、先行するアクセスを取消して（ロードデータが転送されないように）、対
応する線形アドレスを対応するセグメント加算器７０の出力から選択してデータ
キャッシュ２８を探索する。これ以外の代替実施例では、ＡＧＵ４２がセグメン
トベースアドレスを受け線形アドレスを生成してもよい。さらに他の実施例では
、フラットアドレス指定モードを要求してセグメントベースアドレスを無視して
もよい。

【００６７】マルチプレクサ７２および７４は、ＬＳ１バッファ６０内のエントリからデー
タアドレスを受けるようにも結合される。メモリ動作に対応するデータアドレス
は、ＡＧＵ４２から受けた際にメモリ動作に割当てられるＬＳ１エントリにスト
アされる。データアドレスが、メモリ動作選択に際してエントリから選択され、
データキャッシュ２８が探索される。なお、データアドレスに加え、他の情報を
マルチプレクサ７０および７２を介してデータキャッシュ２８に送ってもよい。
たとえば、メモリ動作がロードであるかストアであるかを示すものを送ってもよ
い。メモリ動作の命令タグを送って、ロードメモリ動作のためのロードデータと
ともに結果バス３８Ｄで転送することができる。この動作（適切なデータをマル
チプレクスする）のサイズを送ることもできる。設計上の選択に応じて所望の情
報を送ることができる。

【００６８】ストアデータはストアメモリ動作のために与えられ、ストアメモリ動作はＬＳ
１バッファ６０にある。これに応じて、ＬＳ１制御回路６４は結果タグバス３８
ｂをモニタする。ＬＳ１バッファ６４内のストアデータタグに一致するタグが与
えられると、結果バス３８ａのうち対応する結果バスからの対応するストアデー
タが、一致するストアデータタグを有するエントリ内に取り込まれる。

【００６９】ＬＳ１制御回路６４は、ＬＳ１バッファ６０から、メモリ動作を、メモリ動作
のデータキャッシュ２８探索に応じて除去する。ある具体的な実施例では、メモ
リ動作は、データキャッシュ２８の探索のために選択された後のサイクルで除去
される。上記後のサイクルを用いて、メモリ動作がＡＧＵ４２の１つによりデー
タアドレスの生成が行なわれた際に選択された場合は、データアドレスをＬＳ１
バッファ６０に伝搬してもよい。他の実施例では、メモリ動作が選択されたサイ
クル中にメモリ動作を除去することを選択してもよい。メモリ動作は選択された
後のサイクルで除去されるため、ＬＳ１制御回路６４は、ＬＳ１バッファ６０内
の最も古い４つのエントリをスキャンしてメモリ動作を選択してデータキャッシ
ュ２８を探索するように構成される（先行するクロックサイクルでは２つまでの
エントリを選択し現在のクロックサイクルでは２つまでのエントリを選択できる
）。

【００７０】ＬＳ１バッファ６０から除去されたメモリ動作は、一時バッファ６８に移され
る。一時バッファ６８を設けて、ＬＳ１バッファ６０からエントリを読出しこれ
らをＬＳ２バッファ６２に書込む際のタイミング上の制約を緩和してもよい。し
たがって、一時バッファ６８は、設計上好都合であるに過ぎず、全く任意である
。メモリ動作が一時バッファ６８に移された後のクロックサイクルで、メモリ動
作はＬＳ２バッファ６２に移される。ストアデータは、ストアメモリ動作が一時
バッファ６８に保持されているクロックサイクル中に結果バス３８上で与えられ
るので、一時バッファ６８は、結果タグバス３８ｂ上の結果タグをモニタし、Ｌ
Ｓ１バッファ６０がデータを収集するのと同じやり方で結果バス３８ａからデー
タを収集する。

【００７１】このように、データキャッシュ２８を探索したメモリ動作は、ＬＳ２バッファ
６２に与えられる。この実施例では、すべてのメモリ動作が、データキャッシュ
２８の最初の探索後にＬＳ２バッファ６２に与えられる。ストアは、データキャ
ッシュ２８に与えられるまでＬＳ２バッファ６２に保持される（すなわちデータ
キャッシュ２８を更新できるようになるまで）。一般的に、ストアは、投機的で
なくなったときに与えられる。ある実施例では、ストアは、回収に応じて（回収
インターフェイス５４を介して示される）またはその後いずれかの時点で与えら
れる。ロードは、この実施例でも回収までＬＳ２バッファ６２に保持される。ロ
ードヒットは、スヌープのためＬＳ２バッファ６２内に留まる。ロードミスは、
少なくともロードがアクセスするキャッシュラインがデータキャッシュ２８に送
られるまではＬＳ２に保持される。キャッシュライン（またはロードデータを含
むその一部分）がキャッシュの更新にスケジューリングされていることに応じて
、ロードミスはデータキャッシュ２８の再探索にスケジューリングされる。再探
索の際、ロードミスはロードヒットとなり（かつロードデータはデータキャッシ
ュ２８により転送される）、ヒットとして回収まで保持される。

【００７２】ＬＳ２制御回路６６は、データキャッシュ２８を探索したメモリ動作のために
ＬＳ２バッファ６２内にエントリを割当てる。加えて、ＬＳ２制御回路６６は、
データキャッシュ２８から、ヒット／ミス信号８２の各探索について、探索状態
情報を受ける。ヒット／ミス情報は、探索状態が与えられたメモリ動作に対応す
るＬＳ２バッファエントリにストアされる。ある実施例では、データキャッシュ
２８は、データキャッシュへのアクセスと並行して仮想アドレスを物理アドレス
に変換しようと試みるアドレス変換回路を含む。アドレス変換回路で変換を行な
うことができなければ、変換が行なわれるまで探索はミスであると識別される（
たとえばメインメモリ内のソフトウェア管理変換テーブルを探索することによっ
て）。ある具体的な実現化例では、データキャッシュ２８内のアドレス変換回路
は、３２エントリレベル１ＴＬＢと、４ウェイセットアソシアティブ、２５６エ
ントリレベル２ＴＬＢとを含む、２レベル変換索引バッファ（ＴＬＢ）構成を有
する。

【００７３】メモリ動作のデータアドレスをデータキャッシュ２８が変換することができれ
ば、対応する物理アドレスが物理アドレスバス２８で与えられる。ＬＳ２制御回
路は、対応するエントリが仮想アドレスを物理アドレスで上書きするようにする
。しかしながら、再探索におけるインデックス付けのためにいくつかの仮想アド
レスビットは別に保持しておき、ストアデータは、データキャッシュ２８に対す
る仮想インデックス付けおよび物理的タグ付けが行なわれる実施例においては与
えられる。

【００７４】データキャッシュ２８にミスするメモリ動作に対し、データキャッシュ２８は
エントリを含まれているミスアドレスバッファ内に割当てる。ミスアドレスバッ
ファは、ミスアドレスを、バスインターフェイスユニット３７に送るために待ち
行列に入れ、インターフェイスユニット３７はアドレスをＬ２キャッシュからま
たはメインメモリからフェッチする。ミスアドレスバッファ内のエントリを識別
するタグ（ＭＡＢタグ）が、ミスした各メモリ動作に対しＭＡＢタグバス７８上
に与えられる。なお、データキャッシュ２８は、ミスアドレスバッファエントリ
をキャッシュラインに基づいて割当てる。したがって、後続の、同じキャッシュ
ラインに対するミスは、同じＭＡＢタグを受け、さらなるミスアドレスバッファ
エントリが割当てられないようにする。

【００７５】次に、バスインターフェイスユニット３７は、ミスのキャッシュラインをフェ
ッチし、このキャッシュラインを充填データとしてデータキャッシュ２８に戻す
。バスインターフェイスユニット３７はまた、キャッシュラインに対応するＭＡ
Ｂタグを充填タグとして充填タグバス８４上に置く。ＬＳ２制御回路６６は、充
填タグをＬＳ２バッファ６２内のＭＡＢタグと比較する。ロードメモリ動作につ
いてＭＡＢタグの一致が生じれば、そのロードを選択してデータキャッシュ２８
を再探索する。２以上の一致が検出されれば、最も古い一致ロードを、後続のク
ロックサイクル中に選択される他のメモリ動作とともに選択する。ＭＡＢタグに
一致するストアはヒットとしてマークされるが、データを与える試みを行なう前
に非投機となるのを待つ。

【００７６】ある実施例では、データのキャッシュラインは、複数のパケットを用いて戻さ
れる。各ロードメモリ動作は、どのパケットにアクセスしているかを記録し（ま
たはそのパケットはロードアドレスの適切なアドレスビットから区別される）、
バスインターフェイスユニット３７は、充填タグとともに戻されているパケット
を識別する。このように、戻されるパケットにアクセスするロードのみを選択し
て再探索を行なう。

【００７７】バスインターフェイスユニット３７は、充填データよりも前に充填タグを与え
て、ロードが再探索のために選択されポート０を介してデータキャッシュ２８に
送られて、データキャッシュ２８にデータのパケットが届くのと同時にデータ転
送段に達するようにする。アクセスされたデータをこうして転送することができ
る。

【００７８】ストアがデータキャッシュ２８の探索後にＬＳ２バッファ６２に送られ後続の
ロードがＬＳ１バッファ６０からデータキャッシュ２８を探索しそこからデータ
を転送できるようになっているため、古いストアと同じ記憶場所にアクセスして
いる新しいロードは、古いストアがデータをデータキャッシュ２８に与える前に
、データキャッシュ２８を探索することができる。ロードの正しい結果とは、そ
の古いストアに対応するストアデータを受けることである。したがって、ＬＳ２
制御回路６６は、探索アドレスをモニタし、このアドレスへの古いストアがＬＳ
２バッファ６２内にあるかどうか判断する。一致が検出されストアデータをＬＳ
２バッファ６２内で利用できるのであれば、ＬＳ２制御回路６６はデータキャッ
シュ２８に信号で知らせ転送のためにＬＳ２バッファから与えられるデータを選
択し、選択されたデータを与える。他方、一致が検出されストアデータをＬＳ２
バッファ６２内で利用することができなければ、データキャッシュ２８からのデ
ータ転送は取消される。ロードはＬＳ２バッファ６２に送られ、ストアデータを
利用できるようになるまで探索のために選択される。ストアからロードへの転送
についてのさらなる詳細事項については以下に示す。

【００７９】一般的に、ＬＳ２制御回路６６は、ＬＳ２バッファ６２内のエントリをスキャ
ンしメモリ動作を選択してデータキャッシュ２８を再探索するように構成されて
いる。ロードミスを選択し、データがデータキャッシュ２８に戻されることに応
じて再探索を行なう。古いストアにヒットしたロードを選択し、現在再探索を行
なっていないならば再探索を行なう。ストアを選択し、回収されたことに応じて
再探索を行なう。複数のメモリ動作を選択できる場合、ＬＳ２制御回路６６は、
複数のメモリ動作のうち最も古いものを選択する。ＬＳ２制御回路６６は、ポー
ト０を使用している（ポート０マルチプレクサ７２を介して）ならば、ＬＳ１制
御回路６４に信号で知らせ、制御回路６４は、ポート０マルチプレクサ７２を通
してＬＳ２入力を選択し、そのクロックサイクルでポート０上のＬＳ１バッファ
６０からのメモリ動作の選択を不能にする。

【００８０】ＬＳ２制御回路６６はさらに、スヌープインターフェイス５２を介してバスイ
ンターフェイスユニット３７からスヌープ要求を受けるように結合される。一般
的に、ＬＳ２バッファ６２内のメモリ動作はスヌープされる。なぜなら、このメ
モリ動作は既にデータキャッシュ２８を探索しておりスヌープ動作に応じて訂正
作業が必要だからである。たとえば、ロードヒット（従属する命令にデータを転
送済み）は、廃棄されて再び実行されなければならない。ストアは、探索から変
更の必要があるキャッシュ状態をストアしている。対照的に、ＬＳ１バッファ６
０内のメモリ動作は、データキャッシュ２８を探索しておらずしたがってスヌー
プの必要はない。

【００８１】ＬＳ２制御回路６６は、スヌープ要求を受け、ＬＳ２バッファエントリをスヌ
ープ要求に対して調べて、スヌープインターフェイス５２を介してバスインター
フェイスユニット３７に応答する。加えて、ＬＳ２制御回路６６は、スヌープに
応じてＬＳ２バッファエントリ内で更新を行なってもよい。

【００８２】一般的に、バッファは、２以上の情報項目を後で検索するためにストアするの
に用いられる記憶素子である。バッファは、複数のレジスタ、ラッチ、フリップ
フロップまたは他のクロックされた記憶装置を含む。その代わりとして、バッフ
ァが、適切に配列された１組のランダムアクセスメモリ（ＲＡＭ）セルを含んで
いてもよい。バッファは多数のエントリに分割され、各エントリは、バッファの
設計対象である１つの情報項目をストアするように設計されている。エントリは
、適切な方法で割当および割当解除可能である。たとえば、バッファは、シフト
先入れ先出し（ＦＩＦＯ）バッファとして動作してもよく、この場合、エントリ
は、古いエントリが削除されるときにシフトダウンされる。それに代えて、ヘッ
ドおよびテールポインタを用いてバッファ内の最も古いおよび最も新しいエント
リを示してもよく、エントリは、削除されるまでバッファの特定の記憶場所に保
持される。図１に示したストア待ち行列４００は、一種のバッファである。本明
細書で用いる「制御回路」という用語は、入力に対し動作を行なってこれに応じ
て出力を生成し上記の動作を実現する、組合せ論理回路、クロック記憶回路およ
び／またはステートマシンの組合せのことをいう。

【００８３】なお、ある実施例では、ロード／ストアユニット２６は、ＬＳ１からのストア
探索を同じポート上の古いストアのデータ提供で上書きしようとする。これが実
施される理由は、ストア探索ではヒット／ミスについてデータキャッシュタグを
検査しているだけでデータ記憶内のデータの検索または更新の試みがされていな
いからである。さらに、上記の説明では、すべてのメモリ動作がＬＳ２バッファ
６２内にあるものとして実施例の説明をしているが、これ以外の実施例ではこの
ような方法で動作が行なわれないかもしれない。たとえば、ロードヒットは実施
例によってはＬＳ２バッファ６２内にストアされないことがある。例として、こ
うした実施例は厳密なメモリ順序が望まれない場合に用いられる。

【００８４】ストア−ロード転送図５は、ロード／ストアユニット２６およびデータキャッシュ２８の一部の一
実施例を示す。これ以外の実施例が可能であり意図されている。図５の実施例で
は、ロード／ストアユニット２６は、ＬＳ２バッファ６２、ＬＳ２制御回路６６
、データ転送マルチプレクサ１００、ならびにアドレスおよび様式比較器１０２
Ａ−１０２Ｂを含む。加えて、図５に示した実施例では、データキャッシュ２８
は、ポート１データマルチプレクサ１１０およびポート０データマルチプレクサ
１１２を含む。ＬＳ２バッファ６２は、データ転送マルチプレクサ１００、比較
器１０２Ａ−１０２ＢおよびＬＳ２制御回路６６に結合される。ＬＳ２制御回路
６６はさらに、マルチプレクサ１００、１１０および１１２に結合される。ＬＳ
２制御回路６６はさらに、比較器１０２Ａ−１０２Ｂに結合される。比較器１０
２Ａ−１０２Ｂは、データキャッシュ２８のポート０および１上に与えられたデ
ータアドレスおよび様式を受けるように結合される。マルチプレクサ１１２は、
結果を結果バス３８ＤＡに与えるように結合され、同様に、マルチプレクサ１１
０は、結果を結果バス３８ＤＢに与えるように結合される。結果バス３８ＤＡ−
３８ＤＢは、図３に示す結果バス３８Ｄの一実施例を成す。

【００８５】一般的に、ロード／ストアユニット２６は、ロードメモリ動作の探索がＬＳ２
バッファ６２にストアされた古いストアメモリ動作にヒットする場合を処理する
ように構成される。ロード／ストアユニット２６は、ＬＳ１バッファ６０からデ
ータキャッシュ２８を探索するメモリ動作のデータアドレスのインデックス部を
、ＬＳ２バッファ６２内のメモリ動作のデータアドレスのインデックス部と比較
する。これらのインデックスが一致しメモリ動作がデータキャッシュ２８内でデ
ータキャッシュ２８と同じ様式にヒットしていれば、探索しているメモリ動作は
ＬＳ２バッファ６２内のストアにヒットしている。探索しているロードがＬＳ２
バッファ６２内のストアにヒットしておりストアデータがＬＳ２バッファ６２で
利用できるのであれば、ストアデータはデータキャッシュ２８に送られてキャッ
シュにあるロードデータの代わりに転送される。他方、探索しているロードが、
ストアデータが利用できないＬＳ２バッファ６２内のストアにヒットするかもし
れない。このような場合、データキャッシュ２８からのデータ転送は取消され、
ロード記憶動作を選択して、ストアデータが利用できるようになるまでＬＳ２バ
ッファ６２からの再探索を行なう。最終的に、ストアデータはＬＳ２内で利用で
きるようになり、バッファから、ロードによる再探索中に転送される、または、
ストアがデータキャッシュ２８を更新しデータがデータキャッシュ２８からロー
ドによる再探索中に転送される。

【００８６】一般的に、ストアデータが記憶場所から「利用可能」であるのは、このストア
データが実際にその記憶場所にストアされている場合である。その後のある時点
でデータが記憶場所にストアされるかもしれないがまだそこにストアされていな
い場合、データは、「利用可能でない」、「まだ利用可能でない」または「利用
できない」。たとえば、ストアデータは、そのストアデータがストアデータのソ
ースからＬＳ２バッファエントリにまだ転送されていない場合は、ＬＳ２バッフ
ァエントリにおいて利用可能でない。ストアデータのソースとは、実行によりス
トアデータを発生させる命令であり、ストアが対応する命令と同じ命令である（
メモリオペランドを宛先として指定する命令）、またはより古い命令である。ス
トアデータタグは、ストアデータのソースを識別し、よって、実行ユニット４０
からの結果タグと比較されてストアデータを収集する。

【００８７】上記のように、ロードアドレスおよび様式表示が、ＬＳ２バッファ６２内のス
トアアドレスおよび様式表示と比較され、古いストアにヒットするロードが検出
される。したがって、比較器１０２のような比較器が設けられる。比較器１０２
は、データキャッシュ２８の各ポート上のアドレスおよび様式表示をＬＳ２バッ
ファ６２内にストアされたデータアドレスおよび様式表示と比較するために設け
られる。さらに、所望されれば、比較器１０２をＬＳ２バッファ６２にＣＡＭ構
成として組込んでもよい。

【００８８】ストアエントリ上のロードヒットが検出され対応するストアデータが利用可能
の場合、ＬＳ２制御回路６６は、データ転送マルチプレクサ１００を用いてスト
アデータを選択し、そのデータをポート０マルチプレクサ１１２またはポート１
マルチプレクサ１１０のいずれかに、ヒットが検出されたポートに基づいて与え
る。したがって、データ転送マルチプレクサ１００は、各ポートに１つずつ、１
組の独立したマルチプレクサを含む。加えて、ＬＳ２制御回路６６は、データキ
ャッシュ２８に対して対応する信号をアサートし、データキャッシュ２８が、ヒ
ットしているロードに対しデータキャッシュ２８から読出されたキャッシュデー
タの代わりに転送されたデータを選択できるようにする。

【００８９】さらに、この実施例は、ＬＳ２バッファ６２を用いるものとして示されている
が、他の実施例も意図されている。この他の実施例においては、上記のストア転
送メカニズムが、従来のストア待ち行列とともに実施され、このストア待ち行列
は、データキャッシュ２８を既に探索しているストアメモリ動作のみをストアす
る。（たとえばストア待ち行列４００をある特定の実施例で用いることができる
）。またさらに、ここで示されているマルチプレクサ１１０および１１２はデー
タキャッシュ２８内にあるが、この回路を所望に応じてロード／ストアユニット
２６内で用いてもよい。加えて、ここで示されているマルチプレクサ１００はＬ
Ｓ２バッファ６２からデータを選択して転送するものであるが、マルチプレクサ
１００を省いて、読出エントリ番号をデータを読出したＬＳ２バッファ６２に与
えてもよい。これは、ＬＳ２バッファ６２が離散クロック記憶装置（たとえばレ
ジスタ）ではなくＲＡＭ構成の場合である。

【００９０】さらに、ある具体的な実現化例では、ロード／ストアユニット２６が、従属性
リンクファイルを用いて、対応するストアデータが利用可能でないストアにヒッ
トするロードが検出されたときにデータの転送を加速してもよい。このようなロ
ードの検出に応じて、ロード／ストアユニット２６は、ロードのために従属性リ
ンクファイルにエントリを割当てる。従属性リンクファイルエントリは、ストア
にヒットしたロードを識別するロード識別子（たとえばリオーダバッファ３２が
ロードに対応する命令に割当てた命令タグ）およびロードがヒットしたストアに
対応するストアデータのソースを識別するストアデータ識別子（たとえばストア
データタグ）をストアする。次に、ロード／ストアユニット２６は、従属性リン
クファイル内にストアされたストアデータタグに対し、結果バス３８をモニタす
る。ストアデータが結果バス３８の１つに与えられていることが検出されると、
ロード／ストアユニット２６は、データキャッシュ２８に、対応する結果バスか
らのデータをデータキャッシュ２８からの結果バスに転送させる。加えて、対応
するエントリからのロード識別子が結果タグとして転送される。なお、従属性リ
ンクファイルは、全く任意の性能の向上のためのものである。従属性リンクファ
イルを用いない実施例も意図されている。

【００９１】次に図６を参照して、ＬＳ２制御回路６６およびＬＳ２エントリ９４の一実施
例の一部のブロック図が示される。これ以外の実施例および特定の実現化例が意
図されている。図６の実施例は、比較器１０２ＡＡ、比較器１０２ＡＢ、ＡＮＤ
ゲート１２０、ヒット制御回路１３２、およびデータ転送マルチプレクサ１００
を含む。ヒット制御回路１３２はヒットエントリレジスタ１３４を含む。比較器
１０２ＡＡは、ポート０からデータアドレスの少なくともインデックス部を受け
（参照番号１３６）、かつ、エントリ９４のアドレス−インデックスフィールド
９６Ａにストアされたデータアドレスのインデックス部を受けるように結合され
る。比較器１０２ＡＡは、出力をＡＮＤゲート１２０に与え、ＡＮＤゲート１２
０はさらに、エントリ９４からストア有効ビット（ＳＴＶフィールド９６Ｂ）お
よびヒットビット（Ｈフィールド９６Ｃ）を受けるように結合される。ＡＮＤゲ
ート１２０の出力は、ヒットストア信号としてヒット制御回路１３２に結合され
、ヒット制御回路１３２はさらに、ポート０ロード信号（参照番号１４０）、ポ
ート０ヒット信号（参照番号１２２）およびポート０オフセットおよびサイズ情
報（参照番号１２４）を受ける。比較器１０２ＡＢは、様式フィールド９６Ｅの
内容を受けるように結合され、かつ、ポート０様式表示（参照番号１４２）を受
けるように結合される。比較器１０２ＡＢは、出力をヒット様式信号としてヒッ
ト制御回路１３２に与えるように結合される。ヒット制御回路１３２はさらに、
データ有効フィールド９６Ｇからデータ有効ビットを受け、オフセットおよびサ
イズフィールド９６Ｆからオフセットおよびサイズ情報を受けるように結合され
る。ヒット制御回路１３２は、他のエントリに対応する、同様のヒットストア、
ヒット様式、データ有効ならびにオフセットおよびサイズ信号を受ける。ヒット
制御回路１３２は、リザベーションステーション２２およびリオーダバッファ３
２に取消しデータＦＷＤ信号を与え（参照番号１４６）、データキャッシュ２８
にＬＳ２信号を選択する（参照番号１４８）ように結合される。加えて、ヒット
制御回路１３２は、選択制御をマルチプレクサ１００に与えるように結合される
。マルチプレクサ１００は、ストアデータフィールド９６Ｈからのストアデータ
（および他のＬＳ２バッファエントリからのストアデータ）を受けるように結合
される。

【００９２】一般に、図６に示した論理では、エントリ９４内のストアに対するポート０上
のロードのヒットを検出する。ポート１およびエントリ９４について、ならびに
他のエントリに対する上記ポート双方について、同様の論理を用いることができ
る。より具体的には、比較器１０２ＡＡは、ポート０上のデータアドレスのイン
デックス部をアドレス−インデックスフィールド９６Ｃのインデックスと比較す
る。これらのインデックスが一致していれば、比較器１０２ＡＡはその出力信号
をアサートする。ＡＮＤゲート１２０は、比較器１０２ＡＡの出力信号を受け、
この出力信号をストア有効ビットおよびヒットビットと組合せる。ストア有効ビ
ットは、エントリ９４がストアメモリ動作に対応する情報をストアしているかど
うかを示し（なぜならエントリ９４および他のＬＳ２バッファエントリはロード
およびストアいずれかに対応する情報をストアしている可能性があるため）、ヒ
ットビットは、ストアがデータキャッシュ２８を探索したときにデータキャッシ
ュ２８内でヒットしているかどうかを示す。したがって、ＡＮＤゲート１２０が
与えるヒットストア信号は、アサートされたときに、ロードインデックスが、デ
ータキャッシュ２８内でヒットであるストアインデックスにヒットしたことを示
す。

【００９３】ヒット制御回路１３２は、エントリ９４に対応するヒットストア信号、ポート
０に対応する他のヒットストア信号、およびポート０ロード信号１４０を組合せ
て、ポート０上にメモリ動作のためのデータ転送信号を生成する。この実施例で
は、ヒット制御回路１３２は、ロードについて２つの場合を検出する。すなわち
（ｉ）ヒットストア信号がアサートされ対応するデータ有効ビット９６Ｇがセッ
トされる。（ii）ヒットストア信号がアサートされ対応するデータ有効ビット９
６Ｇがクリアされる。アサートされるヒットストア信号がない場合、またはポー
ト０上のメモリ動作がロードでない場合、ヒット制御回路１３２は、そのメモリ
動作には使用されない。この実施例では、同様のヒット制御回路を用いてポート
１上のメモリ動作を行なうことができる。

【００９４】（ｉ）の場合、ヒット制御回路１３２は、データ転送マルチプレクサ１００に
対しマルチプレクサ選択信号を生成し、これにより、データ転送マルチプレクサ
１００は、アサートされたヒットストア信号に対応するＬＳ２バッファエントリ
のストアデータフィールド９６Ｈからのストアデータを選択する。たとえば、Ａ
ＮＤゲート１２０が生成したヒットストア信号がアサートされる場合、ヒット制
御回路１３２は、マルチプレクサ１００が、エントリ９４からストアデータフィ
ールド９６Ｈからのストアデータを選択するようにし、ポート０マルチプレクサ
１１２に対応する選択ＬＳ２信号１４８をアサートする。選択されたデータは、
データキャッシュ２８により転送されるが、これは図５について先に説明したと
おりである。（ii）の場合、ヒット制御回路１３２は、転送（ＦＷＤ）取消信号
１４６をリザベーションステーション２２およびリオーダバッファ３２に対して
アサートして、これらの構成要素に、そのクロックサイクル中ポート０上のロー
ドに対して転送されたデータを無視するよう伝える。

【００９５】このように、ヒット制御回路１３２は、エントリ９４からのデータを、エント
リ９４内のストアインデックスおよびロードインデックスの一致に基づいて、か
つ、ストアがデータキャッシュ２８内でヒットであることに基づいて、転送する
。特に、ロードがデータキャッシュ２８内でヒットしているかどうかまたはロー
ドおよびストアが同じ様式でヒットしているかどうか判断されていないことがあ
る。この情報は、ロードの探索が終了するまで利用できないかもしれない。この
ような事態は、この実施例では後続のクロックサイクルで生じる。したがって、
ヒット制御回路１３２は、ヒットエントリレジスタ１３４内で、転送されたデー
タがもとあったＬＳ２バッファ６２のエントリ数を収集する。次のクロックサイ
クル中に、ヒット制御回路１３２は、ＬＳ２バッファ６２から転送されたデータ
が正しいかどうか判断する。データ転送が正しいのは、ロードがデータキャッシ
ュ２８内でヒットし（ポート０ヒット信号１２２で通知される）、ヒットエント
リレジスタ１３４により識別されたエントリ内のロードおよびストアの様式表示
が一致する場合（たとえば比較器１０２ＡＢがポート０の様式表示および様式フ
ィールド９６Ｅからの様式表示が一致することを検出した場合、エントリ９４が
ヒットエントリレジスタ１３４によって示されている場合）である。転送が誤り
であれば、ヒット制御回路１３２は、転送取消信号１４６をアサートして、リザ
ベーションステーション２２および／またはリオーダバッファ３２に、以前に転
送されたポート０上のデータを無視するよう知らせる。ヒット制御回路１３２は
、別のデータ転送取消信号１４６を与えて転送を取消すようにしてもよい。これ
は、（上記のように）データが利用可能でないため、および、ストア（データは
ここから転送された）と異なる様式のミスまたはヒットであるロードに対する誤
った転送のためである。上記信号は、同じロードに対して異なる時間にアサート
し得る。

【００９６】図１に関して先に述べたように、ヒット制御回路１３２はさらに、ＬＳ２バッ
ファ６２からのストアデータをロードのために転送すべきかどうかをロードおよ
びストアに対する（キャッシュライン内の）オフセットおよびサイズ情報を用い
て判断し、ロードが読出す少なくとも１バイトをストアにより更新するかどうか
決定する。オフセットおよびサイズ情報は上記のようにどのような適切なフォー
マットで与えてもよい（たとえばアドレスビットおよびバイトイネーブルマスク
の組合せ）。なお、ヒット制御回路１３２がロードおよびストアアドレスのオフ
セットの一部を比較する場合、その部分を、所望される場合はインデックス部に
加えて比較器１０２ＡＡで比較することができる。

【００９７】さらに、ヒット制御回路１３２は、所与のロードについて２以上のストアのヒ
ットを検出してもよい。ヒット制御回路１３２は、データ転送のためにロードよ
りも古い、最も新しいストアを求める。それに代えて、各ＬＳ２バッファエント
リが、所与のアドレスを更新するＬＳ２バッファ６２内の最後のストアを識別す
るバッファ表示の最終を含んでいてもよい。ＡＮＤゲート１２０内でＬＩＢ表示
を用いて、ヒットストア信号が、ＬＳ２バッファ６２内の最も新しいストアを除
いてアサートされないようにする。このように、複数のヒットの優先順位をつけ
ないようにする。ストアはＬＳ２バッファ６２内に置かれているため、そのＬＩ
Ｂビットをセットし、同じアドレスへの古いストアのＬＩＢビットをクリアして
もよい。

【００９８】なお、ここで示している比較器１０２ＡＢは、ＬＳ２バッファエントリ９４に
ストアされた様式表示をロードの様式表示と比較するが、代替実施例においては
、ロードのためにデータを転送するのに用いるエントリからの様式表示を読出し
て（転送がインデックス比較およびストアのデータキャッシュでのヒットに基づ
いている場合）、読出された様式表示をロード様式表示と比較して、ロードおよ
びストアが同じ様式でヒットしていることを確認する。様式表示を、ヒットエン
トリレジスタ１３４と同様のレジスタにストアして、将来の比較に備えることが
できる。

【００９９】さらに、ロードが読出した１以上のバイトが、ロードが読出した１以上の他の
バイトについてロードがヒットしたストアによって、更新されないことがある。
このような場合、データキャッシュは、ストアデータをキャッシュデータと併合
して、ロードが読出したバイトを与える。複数のストアが、ロードが読出したバ
イトのうち異なるバイトを与えるとき、このロードを回収して再探索する。複数
のストアのうち１つ以上のストアを回収してデータキャッシュに与えてもよく、
これらのストアが更新しロードが読出したバイトをデータキャッシュから与えて
もよい。その代わりとして、図６の装置が、異なるストアからのバイトを併合し
てロードデータを与えてもよい。これ以外の実施例では、所望に応じて上記の方
法を他のやり方で処理する。

【０１００】なお、図６に示した論理は例示にすぎない。適切な組合せ論理（ここで示して
いる論理のブール等価物を含む）を用いることができる。なお、エントリ９４は
ＬＳ２バッファエントリの一例である。エントリ９４は、設計上の選択に応じて
図６に示したものの上にさらなる情報をストアしてもよい。

【０１０１】次に図７を参照して、ＬＳ１バッファ６０からデータキャッシュ２８を探索す
るメモリ動作のパイプラインの例を示すタイミング図が示されている。異なるパ
イプラインを用いたこれ以外の実施例が可能であり意図されている。図７におい
て、クロックサイクルは垂直方向の実線で区切られている。水平方向の点線も示
されている。プロセッサ１０の他の部分に関連するパイプライン段を示して、他
の構成要素のロード／ストアユニット２６へのインターフェイスを示している。

【０１０２】クロックサイクルＣＬＫ０は、メモリ動作を指定する命令のデコード／ディス
パッチサイクルである。クロックサイクルＣＬＫ０において、この命令をデコー
ドするデコードユニット２０は、メモリ動作に関しロード／ストアユニット２６
に信号を送る。ＬＳ１制御回路６４は、対応する命令に対するデコード／ディス
パッチ段においてメモリ動作のためにＬＳ１バッファエントリを割当てる。加え
て、デコードユニット２０は、デコードされた命令を対応するリザベーションス
テーション２２に送る。

【０１０３】クロックサイクルＣＬＫ１において、アドレス生成ユニットは、このメモリ動
作のためにデータアドレスを生成し、このデータアドレスをロード／ストアユニ
ット２６に送る。このクロックサイクル中に、メモリ動作は、ＬＳ１制御回路６
４による（与えられたデータアドレスにより行なう）スキャンに加わり、データ
キャッシュ２８を探索するために選択される。このようにして、メモリ動作はＬ
Ｓ１パイプラインのスキャンパイプライン段にある。

【０１０４】クロックサイクルＣＬＫ２において、データアドレスはデータキャッシュ２８
に送られる。クロックサイクルＣＬＫ２内の矢印で示しているように、メモリ動
作は、ＬＳ１バッファ６０から、クロックサイクルＣＬＫ２の最後に一時バッフ
ァ６８に移動する。メモリ動作は、クロックサイクルＣＬＫ２の間は、ＬＳ１パ
イプラインのデータキャッシュ段へのアドレスにある。

【０１０５】クロックサイクルＣＬＫ３において、データアドレスはデータキャッシュ２８
にアクセスする。メモリ動作に対応するデータは（メモリ動作がロードの場合）
、クロックサイクルＣＬＫ３の最後に転送される。より具体的には、ロードアド
レスのインデックス部がＬＳ２バッファ６２内のストアアドレスのインデックス
部と一致し、かつ、ストアがデータキャッシュ２８内でヒットしていれば、ＬＳ
２バッファ６２からのデータは、クロックサイクルＣＬ３においてキャッシュデ
ータの代わりに転送される。加えて、メモリ動作は、一時バッファ６８からＬＳ
２バッファ６２に送られる。メモリ動作は、クロックサイクルＣＬＫ３において
はキャッシュアクセス段にある。

【０１０６】クロックサイクルＣＬＫ４において、メモリ動作に従属する命令（メモリ動作
がロードの場合）が実行される。したがって、図７に示したパイプラインでは、
３クロックサイクルアドレス生成が、従属動作実行ロード待ち時間について与え
られている。加えて、メモリ動作は、クロックサイクル４においては応答パイプ
ライン段にある。データキャッシュ２８は、この応答段においてヒット／ミス情
報（ヒットの様式表示を含む）および物理アドレスを与える。このように、ＬＳ
２制御回路６６は、ヒット／ミス情報および物理アドレスをこの応答段において
メモリ動作と関連付ける。さらに、ロードに対するヒット／ミス表示および様式
表示を用いて、クロックサイクルＣＬＫ３においてＬＳ２バッファ６２から転送
されたデータを確認する（利用できる場合）。転送されたデータが、ロードがミ
スであるまたは異なる様式でヒットしたために誤って転送されたものであれば、
転送取消信号がアサートされる。

【０１０７】クロックサイクルＣＬＫ５において、メモリ動作は応答２パイプライン段にあ
る。この段の間、メモリ動作がアクセスしたキャッシュラインに割当てられたミ
スアドレスバッファエントリを識別するミスアドレスバッファタグ（メモリ動作
がミスの場合）が、データキャッシュ２８により与えられる。このように、ＬＳ
２制御回路６６は、データキャッシュ２８から受けたＭＡＢタグを応答２段のメ
モリ動作に関連付ける。

【０１０８】次に図８を参照して、ＬＳ２バッファ６２からデータキャッシュ２８を再探索
するメモリ動作のパイプラインの例を示すタイミング図が示されている。異なる
パイプラインを用いたこれ以外の実施例が可能であり意図されている。図８にお
いて、クロックサイクルは垂直方向の実線で区切られている。水平方向の点線も
示されている。プロセッサ１０の他の部分に関連するパイプライン段を示して、
他の構成要素のロード／ストアユニット２６へのインターフェイスを示している
。

【０１０９】クロックサイクルＣＬＫ０において、メモリ動作は、ＬＳ２バッファエントリ
のスキャンに加わり、データキャッシュ２８を再探索するために選択される。ク
ロックサイクルＣＬＫ０の下の矢印によって示しているように、このメモリ動作
が選択されるのは、メモリ動作についてＭＡＢタグに一致する充填タグを受けた
場合、メモリ動作がＬＳ２バッファ６２内のより古いストアにヒットしているロ
ードである場合（データは過去の探索に利用可能でなかった）、または、メモリ
動作がリオーダバッファ３２が回収したストアである場合、である。

【０１１０】クロックサイクルＣＬＫ１において、スキャン１段で選択されたメモリ動作は
スキャン２段に進む。スキャン２段において、メモリ動作はマルチプレクサ７６
および７２を通して選択されてデータキャッシュ２８に送られる。したがって、
ＬＳ２制御回路６６は、マルチプレクサ７６を通してスキャン２段のメモリ動作
を選択する。クロックサイクルＣＬＫ２、ＣＬＫ３、ＣＬＫ４およびＣＬＫ５は
、ＬＳ２バッファ再探索パイプラインのデータキャッシュへのアドレス、キャッ
シュアクセス、応答、および応答２段であり、先に述べた対応する段と同様であ
る。したがって、この実施例では、バスインターフェイスユニット３７は、対応
するデータを与える４クロック前にＭＡＢタグを与えて、対応する充填データに
アクセスするロードの選択が、充填データがデータキャッシュ２８に到達した（
従って充填データは転送された）クロックサイクルのキャッシュアクセス段にお
いて行なわれるようにする。

【０１１１】なお、図７および８の点線の上の命令パイプライン段と点線の下のメモリ動作
パイプライン段との間のタイミングを、図７および８に示したものから延長して
もよい。たとえば、図７では、アドレスは、厳密にデコード／ディスパッチサイ
クル直後のクロックサイクルで生成されない場合がある。その代わりに、オペラ
ンドが利用できないまたはアドレス生成のために古い命令が選択される場合があ
る。さらに、メモリ動作は、アドレスが与えられたクロックサイクル中にアクセ
スのためにスキャンされないかもしれず、他の古いメモリ動作がその代わりにス
キャンされるかもしれない。

【０１１２】次に図９を参照して、ヒット制御回路１３２が、ロードの探索中にデータを選
択してＬＳ２バッファ６２から転送する実施例の動作を示すフローチャートが示
される（たとえばロードの探索のキャッシュアクセスパイプライン段）。他の実
施例が可能であり意図されている。図９に示したステップは、理解しやすくする
ために特定の順序で示されているが、その他の適切な順序を用いてもよい。加え
て、ステップを、ヒット制御回路１３２内で組合せ論理により並列に実行しても
よい。

【０１１３】ヒット制御回路１３２は、ロードがストアにヒットしストアがキャッシュヒッ
トであるかどうかを判断する（判断ブロック１５０）。より具体的には、ヒット
制御回路１３２は、ロードインデックスがストアインデックスに一致している（
かつオフセットおよびサイズ情報が一致している）場合にロードがストアにヒッ
トしていると判断する。この判断は、ロードヒット情報および様式表示を後続の
クロックサイクルで利用できるときに、その正誤が検査される（図１０に示す）
。判断ブロック１５０の結果が「イエス」であれば、ヒット制御回路１３２は、
データキャッシュ２８に信号を送り、キャッシュデータの代わりに、ＬＳ２バッ
ファ６２から与えられるデータを選択し、ヒットであるエントリからのデータを
多重化し（ステップ１５２）、ヒットであるＬＳ２バッファエントリをヒットエ
ントリレジスタ１３４に記録する（ステップ１５４）。判断ブロック１５０の結
果が「ノー」であれば、ヒット制御回路１３２はロードに関してそれ以上の作業
は行なわない。

【０１１４】図１０は、ヒット制御回路１３２がロードの探索中にＬＳ２バッファ６２から
の転送を検査する実施例の動作を示すフローチャートである（たとえばロードの
探索の応答パイプライン段）。これ以外の実施の形態が可能であり意図されてい
る。図１０に示したステップは理解しやすくするために特定の順序で示されてい
るが、これ以外の適切な順序を用いてもよい。加えて、これらのステップをヒッ
ト制御回路１３２内で組合せ論理により並列に実行してもよい。

【０１１５】ヒット制御回路１３２は、エントリがヒットエントリレジスタ１３４に記録さ
れているかどうか判断する（判断ブロック１６０）。たとえば、ヒットエントリ
レジスタ１３４は、データがインデックス比較およびストアがヒットであること
に基づいて転送されたときにセットされ、ロードのヒットの検査および様式表示
の一致後にリセットされる、有効ビットを含み得る。エントリがヒットエントリ
レジスタ１３４に記録されていなければ、ヒット制御回路１３２はロードに関し
てさらなる作業は行なわない。エントリがヒットエントリレジスタ１３４に記録
されていれば、ヒット制御回路１３４は、ロード様式表示がヒットエントリレジ
スタ１３４に記録されたエントリのストア様式表示に一致しているかどうか、お
よび、ロードがヒットかどうか判断する（判断ブロック１６２）。ロードがミス
であるまたはロード様式表示がストア様式表示に一致していなければ、ヒット制
御回路１３２は、転送取消信号をアサートする（ステップ１６４）。ロードがヒ
ットでありロード様式表示がヒットエントリレジスタ１３４に記録されたエント
リのストア様式表示に一致していれば、ヒット制御回路１３２はロードに関しさ
らなる作業は行なわない。

【０１１６】なお、ここでは種々の信号のアサートについて述べている。本明細書では、あ
る信号は、この信号が特定の状態を示す値を伝える場合に「アサートされる」。
逆に、ある信号は、その信号が特定の状態がないことを示す値を伝える場合に「
デアサートされる」。ある信号は、論理ゼロ値を伝える場合または逆に論理１値
を伝える場合にアサートされると定義してもよい。

【０１１７】コンピュータシステム次に図１１を参照して、バスブリッジ２０２を通して種々のシステム構成要素
に結合されたプロセッサ１０を含むコンピュータシステム２００の一実施例のブ
ロック図が示される。これ以外の実施例が可能であり意図されている。ここで示
しているシステムでは、メインメモリ２０４はメモリバス２０６を通してバスブ
リッジ２０２に結合され、グラフィックスコントローラ２０８はＡＧＰバス２１
０を通してバスブリッジ２０２に結合される。最後に、複数のＰＣＩ装置２１２
Ａ−２１２ＢがＰＣＩバス２１４を通してバスブリッジ２０２に結合される。第
２のバスブリッジ２１６をさらに設けて、ＥＩＳＡ／ＩＳＡバス２２０を通して
１以上のＥＩＳＡまたはＩＳＡ装置２１８への電気的インターフェイスに対応す
るようにしてもよい。プロセッサ１０は、ＣＰＵバス２２４を通してバスブリッ
ジ２０２に結合され、任意のＬ２キャッシュ２２８に結合される。ＣＰＵバス２
２４およびＬ２キャッシュ２２８へのインターフェイスは、バスインターフェイ
スユニット３７が結合されたインターフェイスを含むものでもよい。

【０１１８】バスブリッジ２０２は、プロセッサ１０、メインメモリ２０４、グラフィック
スコントローラ２０８およびＰＣＩバス２１４に取付けられた装置間のインター
フェイスとなる。バスブリッジ２０２に接続されたこれら装置のうち１つから動
作を受けると、バスブリッジ２０２はその動作のターゲットを識別する（たとえ
ば特定の装置、または、ＰＣＩバス２１４の場合はターゲットがＰＣＩバス２１
４にあることを識別）。バスブリッジ２０２は、その動作をターゲットの装置に
送る。一般的に、バスブリッジ２０２は、ある動作を、ソースである装置または
バスが用いるプロトコルから、ターゲットである装置またはバスが用いるプロト
コルに変換する。

【０１１９】第２のバスブリッジ２１６は、ＰＣＩバス２１４に対してＩＳＡ／ＥＩＳＡバ
スへのインターフェイスを与えることに加え、所望に応じてさらなる機能を取入
れてもよい。入出力コントローラ（図示せず）は、第２のバスブリッジ２１６外
のものでもバスブリッジ２１６と一体化されたものであっても、コンピュータシ
ステム２００内に設けられて、所望に応じて、キーボードおよびマウス２２２の
ためのならびに種々のシリアルおよびパラレルポートのための動作支援を行なっ
てもよい。他の実施例において、外部キャッシュユニット（図示せず）をさらに
、プロセッサ１０およびバスブリッジ２０２間でＣＰＵバス２２４に結合しても
よい。その代わりに、外部キャッシュをバスブリッジ２０２に結合し、外部キャ
ッシュのためのキャッシュ制御回路をバスブリッジ２０２と一体化させてもよい
。Ｌ２キャッシュ２２８が、プロセッサ１０の裏側の構成として示されている。
なお、Ｌ２キャッシュ２２８はプロセッサ１０から離れていてもよく、プロセッ
サ１０とともにカートリッジに組込まれていてもよく（たとえばスロット１また
はスロットＡ）、またはプロセッサ１０とともに半導体基板上に集積されてもよ
い。

【０１２０】メインメモリ２０４は、アプリケーションプログラムがストアされているメモ
リであり、このメモリから、プロセッサ１０は主として実行する。適切なメイン
メモリ２０４は、ＤＲＡＭ（ダイナミックランダムアクセスメモリ）を含む。た
とえば、ＳＤＲＡＭ（同期（synchronous）ＤＲＡＭ）またはランバス(Rambus）
ＤＲＡＭ（ＲＤＲＡＭ）の複数のバンクが適切である。

【０１２１】ＰＣＩ装置２１２Ａ−２１２Ｂは、例えばネットワークインターフェイスカー
ド、ビデオアクセラレータ、オーディオカード、ハードまたはフロッピー（Ｒ）
ディスクドライブまたはドライブコントローラ、ＳＣＳＩ（スモールコンピュー
タシステムインターフェイス）アダプタおよびテレホンカードといった種々の周
辺装置の例である。同様に、ＩＳＡ装置２１８は、モデム、サウンドカードおよ
び種々のデータ取得カード（たとえばＧＰＩＢまたはフィールドバスインターフ
ェイスカード）といった種々の周辺装置の例である。

【０１２２】グラフィックスコントローラ２０８は、テキストおよび画像のディスプレイ２
２６へのレンダリングを制御するために設けられる。グラフィックスコントロー
ラ２０８は、一般的に当該技術ではメインメモリ２０４におよびメインメモリ２
０４から効果的にシフト可能な３次元データ構造をレンダリングする典型的なグ
ラフィックスアクセラレータを実現している。グラフィックスコントローラ２０
８はしたがって、バスブリッジ２０２内のターゲットインターフェイスにアクセ
スを要求しアクセスを受けることができ、そのようにしてメインメモリ２０４へ
のアクセスを得るという点において、ＡＧＰバス２１０のマスタである。専用グ
ラフィックスバスが、メインメモリ２０４からデータを迅速に取出すことができ
るようにする。いくつかの動作では、グラフィックスコントローラ２０８がさら
に、ＡＧＰバス２１０上でＰＣＩプロトコルトランザクションを生成するように
構成されていてもよい。バスブリッジ２０２のＡＧＰインターフェイスはこのよ
うに、ＡＧＰプロトコルトランザクションならびにＰＣＩプロトコルターゲット
およびイニシエータトランザクション双方を支援する機能を有する。ディスプレ
イ２２６は、画像またはテキストを表示できる電子表示装置である。適切なディ
スプレイ２２６は、陰極線管（「ＣＲＴ」）、液晶ディスプレイ（「ＬＣＤ」）
などを含む。

【０１２３】上記の説明ではＡＧＰ、ＰＣＩ、およびＩＳＡまたはＥＩＳＡバスを例として
用いているが、所望に応じていかなるバスアーキテクチャに代えてもよい。さら
に、コンピュータシステム２００は、さらなるプロセッサ（たとえばコンピュー
タシステム２００の任意構成要素としてのプロセッサ１０ａ）を含む多重処理コ
ンピュータシステムでもよい。プロセッサ１０ａはプロセッサ１０と同様のもの
である。より具体的には、プロセッサ１０ａは、プロセッサ１０をそのままコピ
ーしたものである。プロセッサ１０ａは独立したバス（図１１に示したもの）を
介してバスブリッジ２０２に接続されていてもよく、プロセッサ１０とＣＰＵバ
ス２２４を共有していてもよい。さらに、プロセッサ１０ａはＬ２キャッシュ２
２８と同様の任意のＬ２キャッシュ２２８ａに結合されていてもよい。

【０１２４】次に図１２を参照して、コンピュータシステム３００のもう１つの実施例が示
されている。これ以外の実施例が可能であり意図されている。図１２に示した実
施例では、コンピュータシステム３００は、数個の処理ノード３１２Ａ、３１２
Ｂ、３１２Ｃおよび３１２Ｄを含む。各処理ノードは、それぞれ処理ノード３１
２Ａ−３１２Ｄ内に含まれたメモリコントローラ３１６Ａ−３１６Ｄを介してメ
モリ３１４Ａ−３１４Ｄ各々に結合される。加えて、処理ノード３１２Ａ−３１
２Ｄは、処理ノード３１２Ａ−３１２Ｄ間の連絡に用いられるインターフェイス
論理を含む。たとえば、処理ノード３１２Ａは、処理ノード３１２Ｂとの連絡の
ためのインターフェイス論理３１８Ａ、処理ノード３１２Ｃとの連絡のためのイ
ンターフェイス論理３１８Ｂ、および、別のさらなる処理ノード（図示せず）と
の連絡のための第３のインターフェイス論理３１８Ｃを含む。同様に、処理ノー
ド３１２Ｂは、インターフェイス論理３１８Ｄ、３１８Ｅおよび３１８Ｆを含み
、処理ノード３１２Ｃは、インターフェイス論理３１８Ｇ、３１８Ｈおよび３１
８Ｉを含み、処理ノード３１２Ｄは、インターフェイス論理３１８Ｊ、３１８Ｋ
および３１８Ｌを含む。処理ノード３１２Ｄは、複数の入出力装置（たとえばデ
イジーチェーン構成の装置３２０Ａ−３２０Ｂ）とインターフェイス論理３１８
Ｌを介して連絡するよう結合されている。同様にこれ以外の処理ノードが他のＩ
／Ｏ装置と連絡してもよい。

【０１２５】処理ノード３１２Ａ−３１２Ｄは、プロセス間ノード通信のためのパケットに
基づいたリンクを実現する。この実施例において、このリンクは、単方向ライン
の組として実現される。（たとえばライン３２４Ａは処理ノード３１２Ａから処
理ノード３１２Ｂにパケットを転送するために用いられ、ライン３２４Ｂは処理
ノード３１２Ｂから処理ノード３１２Ａにパケットを転送するために用いられる
。）図１２に示されているように、これ以外のライン３２４Ｃ−３２４Ｈの組を
用いて他の処理ノード間でのパケットの転送を行なう。一般的に、ライン３２４
の組各々は、１以上のデータライン、このデータラインに対応する１以上のクロ
ックラインおよび送られているパケットの種類を示す１以上の制御ラインを含む
。リンクは、処理ノード間の通信に対してはキャッシュコヒーレントの態様で動
作し、または、処理ノードおよびＩ／Ｏ装置間の（またはバスブリッジからＰＣ
ＩバスまたはＩＳＡバスといった従来の構成のＩ／Ｏバスへの）通信については
、非コヒーレントな態様で動作する。さらに、リンクは、図示のようなＩ／Ｏ装
置間のデイジーチェーン構成を用いて非コヒーレントな態様で動作してもよい。
なお、１つの処理ノードから別の処理ノードに転送されるパケットは、１以上の
中間ノードを通過し得る。たとえば、処理ノード３１２Ａにより処理ノード３１
２Ｄに転送されるパケットは、図１２に示すように、処理ノード３１２Ｂまたは
処理ノード３１２Ｃを通過する。適切な経路アルゴリズムを用いることができる
。コンピュータシステム３００のこれ以外の実施例では、図１２に示した実施例
よりも多いまたは少ない処理ノードを含み得る。

【０１２６】一般的に、パケットは、ノード間のライン３２４上で１以上のビットタイムと
して転送される。ビットタイムとは、対応するクロックライン上のクロック信号
の立上がりまたは立下がりエッジである。パケットは、トランザクション開始の
ためのコマンドパケット、キャッシュコヒーレント維持のための探索パケット、
および探索およびコマンドへの応答のための応答パケットを含み得る。

【０１２７】処理ノード３１２Ａ−３１２Ｄは、メモリコントローラおよびインターフェイ
ス論理に加えて、１以上のプロセッサを含む。一般的にいえば、処理ノードは少
なくとも１つのプロセッサを含み、任意として、所望に応じてメモリおよび他の
論理との通信のためのメモリコントローラを含む。具体的には、処理ノード３１
２Ａ−３２１Ｄはプロセッサ１０を含む。外部インターフェイスユニット４６は
、ノード内のインターフェイス論理３１８およびメモリコントローラ３１６を含
む。

【０１２８】メモリ３１４Ａ−３１４Ｄは、適切な記憶装置を含む。たとえば、メモリ３１
４Ａ−３１４Ｄは、１以上のランバスＤＲＡＭ（ＲＤＲＡＭ）、同期ＤＲＡＭ（
ＳＤＲＡＭ）、スタティックＲＡＭなどを含む。コンピュータシステム３００の
アドレス空間は、メモリ３１４Ａ−３１４Ｄ間で分割される。各処理ノード３１
２Ａ−３１２Ｄは、どのアドレスがどのメモリ３１４Ａ−３１４Ｄにマッピング
されているかを判断して、特定のアドレスに対するメモリ要求をどの処理ノード
３１２Ａ−３１２Ｄに送るかを判断するために用いるメモリマップを含む。ある
実施例では、コンピュータシステム３００内のアドレスに対するコヒーレントな
ポイントは、アドレスに対応するバイトをストアするメモリに結合されたメモリ
コントローラ３１６Ａ−３１６Ｄである。言い換えれば、メモリコントローラ３
１６Ａ−３１６Ｄは、対応するメモリ３１４Ａ−３１４Ｄへの各メモリアクセス
が確実にキャッシュコヒーレントな態様で生じるようにする。メモリコントロー
ラ３１６Ａ−３１６Ｄは、メモリ３１４Ａ−３１４Ｄへのインターフェイスのた
めの制御回路を含む。加えて、メモリコントローラ３１６Ａ−３１６Ｄは、メモ
リ要求を待ち行列に入れるための要求待ち行列を含む。

【０１２９】一般的に、インターフェイス論理３１８Ａ−３１８Ｌは、リンクからパケット
を受けるためかつそのリンク上で転送されるパケットをバッファするための種々
のバッファを含む。コンピュータシステム３００は、パケット転送のために適切
なフロー制御メカニズムを用いる。たとえば、ある実施例では、各インターフェ
イス論理３１８は、そのインターフェイス論理が接続されたリンクの他端の受信
機内のバッファの各種類の数のカウントをストアする。インターフェイス論理は
、受けたインターフェイス論理にパケットをストアする空きのバッファがないの
であればパケットを転送しない。受けたバッファをパケットを送出することによ
って空にすれば、受けたインターフェイス論理は送ったインターフェイス論理に
メッセージを送信してバッファが空になっていることを知らせる。こうしたメカ
ニズムのことを「クーポンに基づいた」システムと呼ぶ。

【０１３０】Ｉ／Ｏ装置３２０Ａ−３２０Ｂは、適切なＩ／Ｏ装置である。たとえば、Ｉ／
Ｏ装置３２０Ａ−３２０Ｂは、ネットワークインターフェイスカード、ビデオア
クセラレータ、オーディオカード、ハードまたはフロッピー（Ｒ）ディスクドラ
イブまたはドライブコントローラ、ＳＣＳＩ（スモールコンピュータシステムイ
ンターフェイス）アダプタおよびテレホンカード、モデム、サウンドカード、な
らびに種々のデータ取得カード（ＧＰＩＢまたはフィールドバスインターフェイ
スカードなど）を含む。

【０１３１】上記の開示を十分に理解すれば当業者には多数の変形例および修正例が明らか
になるであろう。前掲の特許請求の範囲はこうした変形例および修正例すべてを
含むと解釈すべきものである。

【図面の簡単な説明】

【図１】ストア待ち行列の一実施例のブロック図である。

【図２】プロセッサの一実施例のブロック図である。

【図３】図２に示したデコードユニット、リザベーションステーション、
機能ユニット、リオーダバッファ、ロード／ストアユニット、データキャッシュ
およびバスインターフェイスユニットの一実施例を示すブロック図であり、相互
接続の一実施例を強調している。

【図４】図２および３に示したロード／ストアユニットの一実施例のブロ
ック図である。

【図５】ロード／ストアユニットおよびデータキャッシュの一実施例の一
部のブロック図である。

【図６】図５に示した制御回路の一部を示すブロック図である。

【図７】一実施例に従う図４に示したＬＳ１バッファから選択されるメモ
リ動作に対応するタイミング図である。

【図８】一実施例に従う図４に示したＬＳ２バッファから選択されるメモ
リ動作に対応するタイミング図である。

【図９】図６に示した制御回路の一実施例の、ストアアドレスにヒットす
るロードアドレスの検出中の動作を示すフローチャートである。

【図１０】図６に示した制御回路の一実施例の、ロードアドレスがストア
アドレスにヒットすることを検査する際の動作を示すフローチャートである。

【図１１】コンピュータシステムの第１の実施例のブロック図である。

【図１２】コンピュータシステムの第２の実施例のブロック図である。

【手続補正書】特許協力条約第３４条補正の翻訳文提出書

【提出日】平成１４年１月９日（２００２．１．９）

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】特許請求の範囲

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【手続補正２】

【補正対象書類名】明細書

【補正対象項目名】０００５

【補正方法】変更

【補正の内容】

【０００５】仮想アドレス指定およびアドレス変換を用いると、ロードアドレスをバッファ
内のストアアドレスと照合する間に経過する時間を短縮するというさらなる問題
が生じ得る。仮想アドレス指定を用いる場合、ロードおよびストアの実行により
生成されるデータアドレスは、（たとえばページング変換方式によって）物理ア
ドレスに変換される仮想アドレスである。複数の仮想アドレスが所与の物理アド
レスに対応しているかもしれないため（「別名（エイリアス)」と呼ばれる）、
ロードおよびストアの物理データアドレスを比較して確実にバッファから正確な
転送を行なう（または行なわない）ようにする。不都合なことにロードの物理ア
ドレスは、典型的に変換索引バッファ（ＴＬＢ）から生成されるため、キャッシ
ュアクセスがほぼ完了するまで利用できないことが多く、バッファ内のストアに
ヒットしていることを迅速だが正確なやり方で検出するという問題がさらに悪化
する。欧州特許ＥＰ０８７１１０９は、ストア命令に関連するデータをロード命令に
転送して、ロード命令の実行をストアまたはフラッシュを待たずに続行出来るよ
うにしたスーパースカラプロセッサを開示している。

【手続補正３】

【補正対象書類名】明細書

【補正対象項目名】０００８

【補正方法】変更

【補正の内容】

【０００８】概して、ある装置が意図されている。この装置は、バッファとバッファに結合
された回路とを含む。バッファは複数のエントリを含み、複数のエントリは各々
、（ｉ）ストアメモリ動作のストアアドレスの少なくともインデックス部と、（
ii）ストアメモリ動作がデータキャッシュ内でヒットしているかどうかを示すヒ
ット表示とをストアするように構成される。この回路は、（ｉ）データキャッシ
ュを探索するロードメモリ動作のロードアドレスのインデックス部と、（ii）ロ
ードメモリ動作がデータキャッシュ内でヒットしているかどうか示すロードヒッ
ト信号とを受けるように結合される。上記回路は、データキャッシュを探索する
ロードメモリ動作のロードアドレスのインデックス部と、ロードメモリ動作がデ
ータキャッシュ内でヒットしているかどうか示すロードヒット信号とを受けるよ
うに構成される。上記回路は、ストアデータを、複数のエントリのうち第１のエ
ントリから、第１のエントリにストアされたインデックス部がロードアドレスの
インデックス部に一致することに応じて、かつさらに、第１のエントリのヒット
表示がヒットを示しロードヒット信号がヒットを示すことに応じて、転送するよ
うに構成される。

【手続補正４】

【補正対象書類名】明細書

【補正対象項目名】０００９

【補正方法】変更

【補正の内容】

【０００９】さらに、上記の装置を含むプロセッサが意図されている。

【手続補正５】

【補正対象書類名】明細書

【補正対象項目名】００１０

【補正方法】変更

【補正の内容】

【００１０】さらに、ある方法が意図されている。データキャッシュはロードアドレスを用
いて探索される。ロードアドレスのインデックス部がバッファにストアされたス
トアアドレスのインデックス部と比較される。ストアアドレスに対応するストア
データが、ロードアドレスに対応するロードメモリ動作のために転送される。こ
の転送は、比較によりロードアドレスのインデックス部がストアアドレスのイン
デックス部と一致すると判断されたことに応じて、さらに、ロードアドレスがス
トアアドレスのインデックス部と一致することに応じて、さらに、ロードアドレ
スおよびストアアドレス双方がデータキャッシュ内でヒットしていることに応じ
て、行なわれる。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＪＰ，ＫＲ (72)発明者ヒューズ，ウィリアム・エイアメリカ合衆国、94010 カリフォルニア州、バーリンゲーム、エッジヒル・ドライブ、852 Ｆターム(参考） 5B005 JJ12 KK12 MM01 MM23 MM31 NN12 5B013 CC01 CC03 CC10 CC11 【要約の続き】れる。

Claims

【特許請求の範囲】

【請求項１】装置であって、複数のエントリを有するバッファを含み、前記複数のエントリは各々、（ｉ）
ストアメモリ動作のストアアドレスの少なくともインデックス部と、（ii）前記
ストアメモリ動作がデータキャッシュ内でヒットしているかどうかを示すヒット
表示と、（iii）前記ストアメモリ動作に対応するストアデータとをストアする
ように構成され、前記装置はさらに、前記バッファに結合された回路を含み、前記回路は、（ｉ）前記データキャッ
シュを探索するロードメモリ動作のロードアドレスの前記インデックス部と、（
ii）前記ロードメモリ動作が前記データキャッシュ内でヒットしているかどうか
を示すロードヒット信号とを受けるように結合され、前記回路は、前記ストアデ
ータが、前記複数のエントリのうち第１のエントリから、前記第１のエントリに
ストアされた前記インデックス部が前記ロードアドレスの前記インデックス部と
一致していることに応じてかつさらに前記第１のエントリ内の前記ヒット表示が
ヒットを示し前記ロードヒット信号がヒットを示すことに応じて、転送されるよ
うに構成される、装置。
【請求項２】前記回路は、前記ロードアドレスの前記インデックス部が前
記ストアアドレスの前記インデックス部と一致することに応じて、転送信号をア
サートするように構成される、請求項１に記載の装置。
【請求項３】前記回路は、さらに前記ヒット表示がヒットを示すことに応
じて、前記転送信号をアサートするように構成される、請求項２に記載の装置。
【請求項４】前記回路は、その後前記ロードヒット信号を受け、前記ロー
ドヒット信号が前記ロードが前記データキャッシュ内でミスしていると示すこと
に応じて、転送取消信号をアサートするように構成される、請求項３に記載の装
置。
【請求項５】前記複数のエントリは各々、前記データキャッシュにおいて
前記ストアメモリ動作がヒットする様式を示すストア様式表示をストアするよう
に構成される、請求項４に記載の装置。
【請求項６】前記回路はさらに、前記データキャッシュにおいて前記ロー
ドメモリ動作がヒットする前記様式を示すロード様式表示を受けるように結合さ
れ、前記回路は、前記第１のエントリにストアされた前記ストア様式表示が前記
ロード様式表示と一致しないことに応じて前記転送取消信号をアサートするよう
に構成される、請求項５に記載の装置。
【請求項７】前記複数のエントリは各々、前記データキャッシュにおいて
前記ストアメモリ動作がヒットする様式を示すストア様式表示をストアするよう
に構成される、請求項４に記載の装置。
【請求項８】前記回路はさらに、前記データキャッシュにおいて前記ロー
ドメモリ動作がヒットする前記様式を示すロード様式表示を受けるように結合さ
れ、前記回路は、前記ストアデータが、さらに前記ロード様式表示および前記第
１のエントリにストアされた前記ストア様式表示が一致することに応じて転送さ
れるように構成される、請求項７に記載の装置。
【請求項９】プロセッサであって、データキャッシュと、前記データキャッシュに結合されたロード／ストアユニットとを含み、前記ロ
ード／ストアユニットは、複数のエントリを有するバッファを含み、前記複数の
エントリは各々、（ｉ）ストアメモリ動作のストアアドレスの少なくともインデ
ックス部と、（ii）前記ストアメモリ動作が前記データキャッシュ内でヒットし
ているかどうかを示すヒット表示と、（iii）前記ストアメモリ動作に対応する
ストアデータとをストアするように構成され、前記ロード／ストアユニットは、
前記データキャッシュをロードアドレスを用いて探索し、それに応じて前記デー
タキャッシュからヒット信号を受けるように構成され、前記ロード／ストアユニ
ットは、ストアデータを、前記複数のエントリのうち第１のエントリから、前記
ロードアドレスのインデックス部が前記第１のエントリにストアされた前記イン
デックス部と一致していることに応じてかつさらに前記第１のエントリ内の前記
ヒット表示がヒットを示し前記ヒット信号がヒットを示すことに応じて、転送す
ると決定するように構成される、プロセッサ。
【請求項１０】前記ロード／ストアユニットは、前記データキャッシュに
対し転送データ信号をアサートするように構成され、前記データキャッシュは、
前記ストアデータを前記データキャッシュから読出したキャッシュデータの代わ
りに転送するように構成される、請求項９に記載のプロセッサ。
【請求項１１】前記ロード／ストアユニットは、前記ロードアドレスの前
記インデックス部が前記第１のエントリにストアされた前記インデックス部と一
致することに応じて、前記転送データ信号をアサートするように構成される、請
求項１０に記載のプロセッサ。
【請求項１２】前記ロード／ストアユニットは、さらに前記第１のエント
リ内の前記ヒット表示がヒットを示すことに応じて前記転送データ信号をアサー
トするように構成される、請求項１１に記載のプロセッサ。
【請求項１３】前記ロード／ストアユニットは、前記ヒット信号がミスを
示すことに応じて転送取消信号をアサートするように構成される、請求項１２に
記載のプロセッサ。
【請求項１４】前記転送取消信号を受けるように結合された１以上のリザ
ベーションステーションをさらに含み、前記１以上のリザベーションステーショ
ンは、前記転送取消信号に応じて前記ロードのために転送された前記ストアデー
タを無効にするように構成される、請求項１３に記載のプロセッサ。
【請求項１５】前記複数のエントリは各々、前記データキャッシュにおい
て前記ストアメモリ動作がヒットする様式を示すストア様式表示をストアするよ
うに構成される、請求項１３に記載のプロセッサ。
【請求項１６】前記データキャッシュは、前記データキャッシュにおいて
前記ロードメモリ動作がヒットする様式を示すロード様式表示を前記ロード／ス
トアユニットに与えるように構成され、前記ロード／ストアユニットは、前記第
１のエントリ内の前記ストア様式表示が前記ロード様式表示と一致しないことに
応じて前記転送取消信号をアサートするように構成される、請求項１５に記載の
プロセッサ。
【請求項１７】前記複数のエントリは各々、前記データキャッシュにおい
て前記ストアメモリ動作がヒットする様式を示すストア様式表示をストアするよ
うに構成される、請求項９に記載のプロセッサ。
【請求項１８】前記データキャッシュは、前記データキャッシュにおいて
前記ロードメモリ動作がヒットする様式を示すロード様式表示を前記ロード／ス
トアユニットに与えるように構成され、前記ロード／ストアユニットは、さらに
前記第１のエントリにストアされた前記ストア様式表示が前記ロード様式表示と
一致することに応じて、ストアデータを前記第１のエントリから転送すると決定
するように構成される、請求項１７に記載のプロセッサ。
【請求項１９】方法であって、データキャッシュをロードアドレスを用いて探索するステップと、前記ロードアドレスのインデックス部をバッファにストアされたストアアドレ
スのインデックス部と比較するステップと、前記ストアアドレスに対応するストアデータを、前記ロードアドレスに対応す
るロードメモリ動作のために転送するステップとを含み、前記転送するステップ
は、前記比較により前記ロードアドレスの前記インデックス部が前記ストアアド
レスの前記インデックス部と一致していると判断されたことに応じてかつさらに
前記ロードアドレスおよび前記ストアアドレス双方がデータキャッシュ内でヒッ
トしていることに応じて行なわれる、方法。
【請求項２０】前記転送するステップは、前記比較により前記ロードアド
レスの前記インデックス部が前記ストアアドレスの前記インデックス部と一致し
ていると判断されたことに応じて、転送データ信号をアサートするステップを含
む、請求項１９に記載の方法。
【請求項２１】前記アサートするステップは、さらに前記ストアアドレス
が前記データキャッシュにおいてヒットしていることに応じて行なわれる、請求
項２０に記載の方法。
【請求項２２】前記転送するステップはさらに、前記ロードアドレスが前
記データキャッシュ内でミスしていることに応じて転送取消信号をアサートする
ステップを含む、請求項２１に記載の方法。
【請求項２３】前記方法はさらに、前記バッファにストアされたストア様
式表示を前記ロードアドレスに対応するロード様式表示と比較するステップを含
み、前記ストア様式表示は、前記データキャッシュにおいて前記ストアアドレス
がヒットする様式を示し、前記ロード様式表示は、前記データキャッシュにおい
て前記ロードアドレスがヒットする様式を示し、前記方法はさらに、前記比較に
よりストア様式表示が一致しないと判断されたことに応じて、前記取消信号をア
サートするステップを含む、請求項２２に記載の方法。
【請求項２４】前記方法はさらに、前記バッファにストアされたストア様
式表示を前記ロードアドレスに対応するロード様式表示と比較するステップを含
み、前記ストア様式表示は、前記データキャッシュにおいて前記ストアアドレス
がヒットする様式を示し、前記ロード様式表示は、前記データキャッシュにおい
て前記ロードアドレスがヒットする様式を示し、前記方法はさらに、さらに前記
比較によりストア様式表示が一致しないと判断されたことに応じて、ストアデー
タを転送するステップを含む、請求項１９に記載の方法。