JPH06243039A

JPH06243039A - キャッシュメモリシステムおよびマイクロプロセッサ内の命令を操作するための方法

Info

Publication number: JPH06243039A
Application number: JP6002330A
Authority: JP
Inventors: Thang Tran; タン・トラン
Original assignee: Advanced Micro Devices Inc
Current assignee: Advanced Micro Devices Inc
Priority date: 1993-01-21
Filing date: 1994-01-14
Publication date: 1994-09-02
Anticipated expiration: 2019-10-13
Also published as: DE69327981D1; DE69327981T2; US5586295A; JP3577331B2; EP0795820A2; EP0612013A1; EP0795820B1; EP0795820A3

Abstract

(57)【要約】【目的】命令バッファがキャッシュの中へデータを効
率的に書込めるようにする。【構成】上記の目的のためのキャッシュメモリシステ
ムは、命令キャッシュ１０およびプリフェッチバッファ
３６の組合せを特徴とする。これは、キャッシュとバッ
ファとを相互接続するバスに対するいかなる必要性をも
回避し、かつプリフェッチされた命令の利用を向上さ
せ、電力とシリコンスペースとの使用を低減して、命令
バッファがキャッシュの中にデータを効率的に書込める
ようにする。

Description

【発明の詳細な説明】

【０００１】

【関連出願の相互参照】この出願は、ジョンソン（John
son ）らによる「メモリ内のデータをアクセスするため
の方法、メモリシステムおよびメモリ制御システム」と
題された出願、ジョンソンらによる「コンピュータメモ
リシステム、データキャッシュ動作の方法およびデータ
キャッシュシステム」と題された出願、およびトラン
（Tran）による「ラッチ回路、データの受取りを制御す
るための装置、ラッチングを遅延させる方法、およびプ
リチャージ値の受取りを阻止する方法」と題された出願
に関する。

【０００２】上に列挙した出願は、すべて本出願と同日
に提出されており、本発明の譲受人に譲渡されたもので
あって、またすべてここで引用により全体的に再現され
るかのように援用される。

【０００３】

【発明の分野】この発明は電子デジタルデータ処理シス
テムに関し、より特定的にはメインメモリだけでなくキ
ャッシュメモリをも含む、電子デジタルデータ処理シス
テムに関する。

【０００４】

【関連技術の説明】データ処理システムの改良は、一般
に所与の命令を実行するのに要求される平均時間の短縮
か、そのような命令を実行するのに要求される装置のコ
ストの低減かのどちらかに向けられてきた。典型的にな
されてきた設計上のトレードオフの１つは、データの記
憶のためのメモリのユニットにおける、コスト対スピー
ドについてのものである。たとえば、テープメモリは伝
統的にディスクメモリより速度が低く費用が少ない。そ
れに対しディスクメモリはいくつかのタイプが利用可能
であり、コスト／スピードのかねあいでどれか１つのタ
イプを他のタイプに優先させて選択することもできる。
ディスクメモリは固体メモリよりも低速だが、より安価
であり、固体メモリ自体もいくつかのタイプが入手可能
であってその選択はやはりコスト／スピードのトレード
オフに関わるものである。したがって、より安価で迅速
なメモリを提供するか、それができなければ現在あるタ
イプのメモリにおける効率を高めることが、当該技術分
野において依然として必要である。この発明はこの第２
のタイプの改良に関する。特定的にはこの発明は、関連
のキャッシュメモリとメインメモリとを有するホスト中
央処理装置（ＣＰＵ）が、そのどちらのメモリからも記
憶されたデータを得るのに必要な平均時間を短縮するた
めの装置および動作の方法を提供する。

【０００５】背景として、コンピュータシステムには一
般に１つより多くのタイプのメモリが提供されるという
ことを認識されたい。単一の迅速なメモリは非常に高く
つくだろうということを考えて、コンピュータ設計者ら
はこれまでデータおよび命令を保持するのにさまざまな
装置を用いており、各情報を入れておくところは、ＣＰ
Ｕがどれくらい緊急にその情報を必要とするかに基づい
て選択される。すなわち、一般に迅速ではあるが高価な
メモリはＣＰＵがおそらく即座に必要とする情報を記憶
するのに用いられ、低速だが費用の少ない装置は、将来
使うために情報を確保しておくのに用いられる。

【０００６】これまで、コンピュータシステムには多数
のメモリおよび記憶装置が使われてきた。長期にわたる
記憶は、一般にディスクおよびテープの記憶装置を用い
てなされる。ディスクおよびテープで実現されたデータ
記憶は、通常使用されているすべてのメモリおよび記憶
装置の中で現在最も遅く、一般にプロセッサによって実
際に使用されてはいないデータおよびプログラムを保持
するのに用いられる。ディスクおよびテープに記憶され
た情報をメインメモリに動かすには、比較的長い時間が
必要であるが、ディスクおよびテープの記憶装置からデ
ータを動かすのは時たまのことであり、ＣＰＵが全面的
に注意を向けずとも行なうことができるので、この遅さ
は許容できるものである。

【０００７】もう１つのメモリ装置は、リードオンリメ
モリまたはＲＯＭである。典型的なアクセス時間が５０
から２００ナノセカンドの間であるＲＯＭは、コンピュ
ータがオフになってもその内容を保持する。ＲＯＭメモ
リは、典型的には機械を使用するために準備を行なう始
動プログラムを保持する。

【０００８】システムのメインメモリに最もよく使われ
るもう１つのメモリ装置は、ＲＡＭメモリであって、こ
れはＣＰＵがすぐに用いるための、ディスクまたはテー
プから持って来られたデータおよびプログラム命令の記
憶に使用される。メインメモリは通常、いくつかのダイ
ナミックＲＡＭ（「ＤＲＡＭ」）チップを含む。プロセ
ッサはこれらＤＲＡＭの内容を約１００ナノセカンドで
検索できるので、このタイプのメモリはスピードではＲ
ＯＭに匹敵する。

【０００９】さらにもう１つのタイプのメモリ装置は、
キャッシュメモリである。キャッシュメモリは、普通い
くつかのスタティックＲＡＭ（「ＳＲＡＭ」）チップを
含む。キャッシュメモリはメインメモリより最高で１０
倍動作が速く、ＣＰＵが次に最も必要としそうな動作命
令およびデータを保持するように設計されているので、
コンピュータの動作速度を高めるものである。

【００１０】最後に、ＣＰＵ内の少量のメモリは、ＣＰ
Ｕメモリまたはレジスタと呼ばれる。スピードのために
最適化されたスタティックＲＡＭ回路でできた、プロセ
ッサ内のデータレジスタは、すべての中で最も速いメモ
リである。プログラムレジスタは次のプログラム命令の
メモリにおける記憶位置を記憶し、一方命令レジスタは
実行されている命令を保持し、汎用レジスタは処理中の
短い間、データを記憶する。

【００１１】前述のことに基づき、コンピュータシステ
ムの中にキャッシュメモリ構成を含み、ひんぱんにアク
セスされるデータの迅速な局所記憶のための位置を提供
することが、当業者には知られているということを認識
されたい。キャッシュシステムはマイクロプロセッサの
メモリ参照の各々をインタセプトし、要求されるデータ
のアドレスがキャッシュ内にあるかどうかを調べる。デ
ータが実際にキャッシュの中にあれば（「ヒット」）、
そのデータはメインシステムメモリにアクセスするのに
必要な待ち状態を招くことなく即座にマイクロプロセッ
サに戻される。データがキャッシュの中になければ
（「ミス」）、メモリアドレス参照がメインメモリ制御
装置に送られ、データはメインメモリから検索される。
キャッシュヒットは局所的にサービスされるので、局所
キャッシュメモリの外で動作するプロセッサは「バス利
用度」がずっと低く、それによりシステムが要求するバ
ス帯域幅が減じられて、より多くのバス帯域幅が他のバ
スマスタに利用可能になる。これは重要なことである
が、なぜかというと当業者にはよく知られているよう
に、コンピュータの中のバス、すなわちＣＰＵとシステ
ムのメモリおよび記憶装置との間の通信チャネルは、主
要な障害だからである。処理されるべきすべての命令お
よびすべてのデータは、事実上このルートを少なくとも
１回は移動しなければならない。特に単一のメモリと複
数のプロセッサとを含むシステムでは、バスを効率的に
使用してシステムの性能を最大限にすることが不可欠で
ある。

【００１２】前述のように、キャッシュメモリシステム
はメモリ参照をインタセプトし、それらがキャッシュ内
で「ミス」であった場合のみシステムメモリに送る。先
行技術の米国特許の多くはキャッシュメモリおよびメモ
リにアクセスする方法のさまざまな局面に向けられてお
り、これらは以下の特許を含むキャッシュメモリ部分を
含む。すなわちジーグラー（Ziegler ）らへの米国特許
第４，７９４，５２１号、ウェザフォード（Weatherfor
d ）らへの米国特許第４，６４６，２３３号、モレノ
（Moreno）らへの米国特許第４，７８０，８０８号、ジ
ーグラーらへの米国特許第４，７８３，７３６号、ジョ
イス（Joyce ）らへの米国特許第４，１９５，３４２
号、クロフト（Kroft ）らへの米国特許第４，３７０，
７１０号、ドッド（Dodd）への米国特許第４，４７６，
５２６号、シューネマン（Scheuneman）への米国特許第
４，０７０，７０６号、カプリンスキー（Kaplinsky ）
への米国特許第４，６６９，０４３号、ハムストラ（Ha
mstra ）への米国特許第４，８１１，２０３号、ジョイ
スらへの米国特許第４，７８５，３９８号、ギャノン
（Gannon）らへの米国特許第４，１８９，７７０号、お
よびランゲ（Lange ）らへの米国特許第３，８９６，４
１９号である。キャッシュメモリシステムに多くの関心
が寄せられ、上に列挙した米国特許によってそのような
システムに対し数多くの進歩が明示されているにもかか
わらず、そのようなシステムには、まだいくつかの短所
および欠点が残っている。たとえば、プロセッサにより
フェッチされる最も最近の命令を記憶するための命令キ
ャッシュとそれに伴なう命令プリフェッチバッファとで
システムを構成することが知られている。現在、命令キ
ャッシュと命令プリフェッチバッファとは２つの別個の
ブロックとして実現されている。そのような実現例で
は、命令はデコード／実行に送られる際にだけ命令キャ
ッシュを更新する。命令キャッシュはワードのブロック
１つにつき有効ビット１つで形成されてもよいし、キャ
ッシュ内の各ワードにつき１つの有効ビットで形成され
てもよい。ワードのブロックごとに有効ビットが１つあ
る場合、バスインタフェースユニットは他のアクセスを
許容する前にバスにブロック全体をフェッチさせる。ワ
ードごとに有効ビットが１つある場合、取られた分岐は
プリフェッチされたバッファ内のすべての命令を無効に
する。上に述べたことは各々、実際上設計における短所
である。命令キャッシュとプリフェッチバッファとを２
つの独立したブロックとして実現することのもう１つの
不利な点は、データをプリフェッチバッファから命令キ
ャッシュへ転送するのに、３２ビットバスが要求される
ということである。

【００１３】

【発明の概要】上で記述された短所および欠点を克服す
るため、この発明は命令キャッシュと、命令キャッシュ
に直接かつ作動的に接続されるプリフェッチバッファと
を含む、キャッシュメモリシステムを提供する。そのよ
うな命令キャッシュおよびプリフェッチバッファの組合
せは、２つの素子を相互接続するバスのいかなる必要性
をも回避し、さらにはプリフェッチされた命令の使用を
改良しかつ電力およびシリコン領域の使用を減じて、命
令バッファがデータを効率的にキャッシュに書込めるよ
うにする。

【００１４】この発明は、命令が要求されていることを
判断するステップと、要求される命令が命令キャッシュ
およびプリフェッチバッファシステムの命令キャッシュ
部分にあるかどうかを判断するステップと、もしそこに
あれば要求される命令を命令キャッシュ部分からフェッ
チするステップと、もし命令キャッシュ部分になければ
要求される命令を外部メモリからフェッチするステップ
とを含む、マイクロプロセッサ内の命令を操作するため
の方法をも提供する。さらにこの発明の教示に従う方法
は、命令キャッシュおよびプリフェッチバッファシステ
ムのプリフェッチバッファ部分の中の外部メモリからの
フェッチされた命令を受取るステップと、フェッチされ
た命令を同時に前記マイクロプロセッサの命令キャッシ
ュ部分と処理ユニット部分とに送って実行させるステッ
プとを含む。

【００１５】したがって、この発明の目的はデータをキ
ャッシュに書込むための命令バッファを効果的に実現す
ることである。

【００１６】この発明の別の目的は、プリフェッチされ
た命令をより有効に使用するプリフェッチバッファおよ
び命令キャッシュの組合せを提供することである。

【００１７】この発明のさらに別の目的は、それが取っ
て替わる先行技術の装置よりも使用する電力およびシリ
コンスペースが少ないプリフェッチバッファおよび命令
キャッシュの組合せを提供することである。

【００１８】この発明の他の目的、利点および新規な特
徴は、以下に述べる発明の詳しい説明に基づき、添付の
図面との関連で明らかになるであろう。

【００１９】

【発明の詳しい説明】この発明を説明する際に便宜を図
りかつわかりやすくするため、まずこの発明の教示に従
って組合せられてよい、命令キャッシュの特定の一例と
プリフェッチバッファの特定の一例とについて説明す
る。次に、組合せられた命令キャッシュおよびプリフェ
ッチバッファを特徴とするこの発明の一実施例が説明さ
れる。この説明に続き、この発明の代替的実施例を案出
するべく引き出され得るさまざまな教示を論じるつもり
である。

【００２０】ここで、同じまたは類似の要素がいくつか
の図面に一貫して同一の参照番号で表されている図面、
より特定的には図１を参照すると、包括的に参照番号１
０で表される命令キャッシュが示される。命令キャッシ
ュ１０はもちろん、この発明の実施例においてその１ま
たは２以上が使用され得る、同じまたは類似の機能を行
なうことのできるいくつかのキャッシュのただ１例にす
ぎない。そのことを念頭に置いて、示されている命令キ
ャッシュ１０はキャッシュアレイ１２とタグステータス
アレイ１４とを含む。キャッシュアレイ１２は（さらに
後の部分で詳しく説明する）４キロバイトのツーウェイ
セットアソシアティブキャッシュである。キャッシュ１
０におけるブロックのサイズは４ワード（１６バイト）
である。キャッシュ１０は従来、関連のプロセッサ（図
示せず）によって最も最近にフェッチされた命令を記憶
し、かつさらに各キャッシュブロックのためのステータ
ス情報を維持する。

【００２１】命令キャッシュ１０は、構成レジスタ内の
命令キャッシュ不能化ビットによって能動化されたり不
能化されたりしてよい。命令キャッシュ１０が能動化さ
れると、命令のフェッチはキャッシュ１０によって満た
されるだろう。命令キャッシュ１０が不能化されると、
命令のフェッチは外部の命令／データメモリによっての
み満たされ、キャッシュ１０はフェッチされた命令を記
憶しない。さまざまな命令がキャッシュ１０を無効にす
るだろう。

【００２２】キャッシュ１０内のクリティカルルーチン
を保つには、命令キャッシュ１０内のブロックは上述の
構成レジスタの命令キャッシュロックフィールドによっ
てロックされてよい。命令キャッシュロックフィールド
は、キャッシュ１０内のすべてのブロックをロックする
こともできるし、特定の列内のブロックをロックするこ
ともできる。ブロックがロックされた場合、それが有効
であれば交換することはできない。ロックされたブロッ
クは無効であれば割当てられてよく、これによりクリテ
ィカルルーチンは単にそのルーチンをキャッシュ１０が
無効にされた後で実行するだけでキャッシュ１０の中に
ロードできるようになる。ロックされたブロックはま
た、キャッシュも不能化されていない限り無効にはでき
ないが、その場合不能化がロックに優先する。

【００２３】命令キャッシュ１０は１ワード当り１つの
有効ビットを有するので、部分的に有効なブロックをフ
ェッチしかつ記憶することができる。リロードの間、ワ
ードの有効ビットは、そのワードがキャッシュに書込ま
れる際にセットされる。すべての有効ビットはプロセッ
サリセットによって、または前述の無効化命令の１つを
実行することによって、単一のサイクルの間にクリアさ
れる。

【００２４】各命令キャッシュブロックは、キャッシュ
インタフェースレジスタおよび／またはキャッシュデー
タレジスタを介してアクセス可能であろう。キャッシュ
インタフェースレジスタはアクセスされたブロックへの
ポインタを含み、アクセスされたフィールドを特定す
る。キャッシュデータレジスタはデータをキャッシュへ
およびキャッシュから転送するのに用いられてよい。そ
のようなキャッシュデータレジスタの内容は、キャッシ
ュの書込またはレジスタの読出の際に消えてしまうかも
しれないので、キャッシュ１０はキャッシュのリローデ
ィングからの干渉を防ぐためキャッシュフィールドが読
出や書込をされている間は不能化されるべきである。

【００２５】ここで図２を参照すると、包括的に参照番
号１６で表される個々の命令キャッシュブロックの編成
が示される。図２では、ブロック１６が複数個の命令ワ
ード１８を関連のアドレスタグおよびステータス表示部
２０とともに含むということが見てとれるだろう。考え
られるステータスの表示としては、図２で示される「有
効」の他に、スーパバイザモードであるかユーザモード
であるかの表示、アドレスが（変換された／されていな
い、および物理アドレス／仮想アドレス）であるといっ
た表示が含まれる。キャッシュ１０にはそのようなブロ
ック１６が２５６個あり、各々１２８ブロックの２つの
列として編成される。アクセスには、特定の列およびブ
ロックが第１のフィールドにおけるいくつかのビット
（すなわち命令アドレスにおけるビット１０−４）によ
って選択される。次に、ブロック内のアクセスされたフ
ィールドは第２のフィールド（すなわちビット３１：１
１）と比較される。命令ワードがアクセスされると、命
令はさらにアドレスの下位の２ビット（すなわちビット
３−２）によって選択される。もちろん、当業者には明
らかであろうように、そうしなければアクセスがすぐに
悪影響を受ける。

【００２６】ここで図３を参照すると、キャッシュデー
タレジスタ内の、包括的に参照番号２２で表される命令
ワードが示される。図３は、３２ビット命令が命令キャ
ッシュ１０（図１を参照）から読出され、またはそこへ
書込まれてよいということを示す。

【００２７】ここで図４を参照して、キャッシュデータ
レジスタ内の命令アドレスタグおよびブロックステータ
スが示される。図４では、（包括的に参照番号２４で表
される）ビット３１ないし１１が命令アドレスタグフィ
ールドを構成することが見てとれるだろう。命令アドレ
スタグフィールド２４は、キャッシュブロックによって
どのアドレスが満たされるかを特定する。図４で示され
る特定の実施例では、たとえばビット１０ないし６（参
照番号２６で表される）が予約されている。ビット５な
いし２（包括的に参照番号２８で示される）は有効ビッ
トである。対応する命令ワードが有効であれば、このフ
ィールドにはビットがセットされる。ここで説明される
特定の実施例では、最上位ビットはブロック内の４番目
のワードのための有効ビットであり、最下位ビットはブ
ロック内の第１のワードのための有効ビットである（図
２参照）。キャッシュ内のすべての有効ビットは単一の
サイクルでプロセッサリセットによって、および無効化
命令の実行によってクリアされる。最後に、図４で示さ
れる特定の実施例では、ビット１−０（包括的に参照番
号３０で表される）はステータスビットである。

【００２８】キャッシュヒットおよびミスに関連して、
サイクルごとに、プロセッサのプログラムカウンタのビ
ットがキャッシュアレイ１２およびタグアレイ１４（図
１参照）にアクセスするのに用いられる。プログラムカ
ウンタのビット１０−４はキャッシュアレイ１２および
タグアレイ１４の列０および１にアクセスするのに用い
られる。タグフィールドがアレイから読出される際、プ
ログラムカウンタのビット３１−１１は各列のタグエン
トリにおいて命令アドレスタグフィールド（たとえば図
４のフィールド２４）と比較される。列の１つに対して
プログラムカウンタのビット３１−１１が命令アドレス
タグフィールド（たとえばフィールド２４）と一致し、
かつステータスビットが一致し、アクセスされたワード
の有効なステータスビットが１であり、命令キャッシュ
が不能化されていれば、キャッシュヒットが検出され
る。いずれかの列のブロックに対してこれらの条件があ
てはまらなければ、キャッシュミスが起こる。

【００２９】キャッシュミスが検出されてキャッシュ１
０が能動化されると、プロセッサは外部命令フェッチを
開始することによって求められている命令をキャッシュ
内に位置付けようとする。これは「キャッシュリローデ
ィング」と呼ばれる。キャッシュ１０が不能化される
と、プロセッサは不能化されたキャッシュを更新しない
ので、求められている命令はキャッシュの中に位置付け
られない。同様に、プロセッサはロックされた列内の有
効なブロックを交換しない。

【００３０】ミスが検出されると、普通は交換のために
候補ブロックが選択され、リロードされた命令は選択さ
れたブロックの中に位置付けられる。多くの交換アルゴ
リズムを使用することができるが、その１つは以下のよ
うなものである。

【００３１】・キャッシュサーチの間にアクセスされた
ブロックの１つが無効であれば、この無効ブロックは選
択されて交換される。双方の列が無効ブロックを含んで
いれば、列０のブロックが選択される。

【００３２】・双方のブロックが有効であり、かつどち
らもロックされていない場合、交換されるブロックは任
意に選択される。

【００３３】・列０のブロックがロックされておりかつ
有効であり、列１のブロックがロックされていなけれ
ば、列１のブロックが選択される。

【００３４】・キャッシュ全体がロックされており、ど
ちらの列にあるブロックも有効であれば、どのブロック
も交換することはできない。命令のフェッチは外部メモ
リによって満たされ、命令はキャッシュの中に入れられ
ない。

【００３５】一旦候補ブロックが選択されると、そのタ
グは求められているアドレスに応じてセットされ、すべ
ての有効ビットがリセットされる。外部命令フェッチ
は、プロセッサが要求する命令で始まり、分岐または優
先度の高い外部アクセスが起こるかキャッシュ１０の中
に命令が見つかるまで続く。プロセッサは最初の命令が
受け取られるとすぐに命令を実行し始め、実行と並行し
て残りのキャッシュリロードが起こる。最初の命令がフ
ェッチされた後、後に続くブロック内の命令がフェッチ
され、外部メモリから受け取られるにつれてキャッシュ
の中に書込まれる。ワードのための有効ビットは、フェ
ッチにＤＲＡＭエラーが全くないと仮定すると、ワード
が書込まれたときにセットされるが、エラーがあれば有
効ビットはセットされない。プロセッサパイプラインが
プリフェッチの間に立ち往生すると、ブロックの残りの
ために受け取られた命令は（後に説明する）プリフェッ
チバッファの中に入れられ、デコード段がそれらを受入
れられるようになるまでそこに留まる。

【００３６】リロードの間に取られた分岐が起こるか、
優先度の高い動作（たとえばＤＭＡ、ロードミス、また
はストアされたバッファがいっぱいになってしまったこ
と）のためにメモリインタフェースが必要とされる場
合、リロードは即座に止められ、分岐が取られるか、ま
たは他の外部アクセスが行なわれる。その後、次に要求
される命令がキャッシュの中になければリロードが再開
されるだろう。分岐の場合、目標とされる命令のために
リロードが生じるかもしれない。

【００３７】命令のプリフェッチに関連して、プロセッ
サは外部フェッチを開始した後、求められているワード
を越えても命令を外部でフェッチし続けなければならな
いかもしれない。実行に先立ってそのような命令が要求
された場合、外部メモリには、そのメモリに十分な帯域
幅があれば、待ち状態なしでフェッチを行なうのに余る
ほど十分な時間を与えられる。これは、バーストモード
またはページモードのメモリシステムに特に適切であ
る。

【００３８】理想的には、命令キャッシュ１０でのよう
に命令キャッシュを使用するシステムは、キャッシュミ
スをサービスしながら次にシーケンシャルなキャッシュ
ブロックがあるか否かを確認する。そのような場合、現
在のブロックのフェッチが完了する前に、プロセッサは
次のブロックが存在するかどうかを知る。プロセッサは
ブロック内のすべての命令が有効であれば、次のブロッ
クが存在するものと考える。有効でない命令が１つでも
あれば、プロセッサはブロック全体が存在しないものと
考えて外部フェッチを続け、必要であればタグフィール
ドをセットすることによってブロックを割り当てる。プ
ロセッサは現在のブロックのためのすべてのフェッチを
開始してしまえば即座に次のブロックに対するプリフェ
ッチを開始することができるが、現在のブロックの中に
次のブロックを不必要なものとする取られた分岐がにあ
る場合はその限りではない。

【００３９】外部でフェッチされた命令は、それらが受
け取られた後のサイクルでプリフェッチバッファ（図５
参照）に入れられる。プリフェッチバッファから、命令
はキャッシュに書込まれ、デコーダに送られる。デコー
ダがパイプラインの立ち往生(stall) のために命令を受
入れられない場合、その命令は立ち往生の状態がもはや
なくなるまでプリフェッチバッファの中に留まる。命令
は、デコーダに送られキャッシュに書込まれて初めてプ
リフェッチバッファから回収される(retired)。

【００４０】したがって、プリフェッチバッファの主な
目的は、命令キャッシュを含むシステムがプロセッサの
デコーダ段に直接に結合されることによる複雑化を伴わ
ずに外部命令フェッチを中断するための、便利な、およ
び／または効果的な点に到達できるようにすることであ
る。たとえばロードミスは、命令キャッシュのリロード
のキャンセルを待って、リロードがキャンセルされるま
でパイプラインホールドを引起こす。パイプラインホー
ルドの間、デコーダはリロードされた命令を受取ること
には使えない。パイプラインホールドの状態が検出され
るとき、プロセッサはフェッチのさまざまな段にある３
つの命令を有する。プリフェッチバッファはこれらの命
令をキャッシュ１０に書込むおよび／またはデコーダに
送ることができるようになるまで記憶しておくのに用い
られる。パイプラインホールドの間に受け取られる命令
は、そうするための自由なサイクルがあるにもかかわら
ず、キャッシュ１０に書込まれることはない。それを行
なうと、キャッシュプログラム制御装置がプロセッサの
フェッチプログラム制御装置と違ったものになり、プロ
セッサによって必要とされる命令がキャッシュ１０から
すぐに入手可能でないため、パイプラインの再開始を複
雑にするだろう。パイプラインホールドの間、プロセッ
サが要求する次の命令はプリフェッチバッファの中で保
持される。このことはフェッチ装置の動作を簡略化す
る。すなわちパイプラインホールドに応じてプリフェッ
チバッファとキャッシュとの間で切換えを行なうより
も、リロードの間命令は常にプリフェッチバッファによ
って供給されると仮定する方が簡単なのである。

【００４１】この発明の命令キャッシュを含む、より大
きいシステムの実施例では、プリフェッチすることで、
次の要求されるブロックがキャッシュ１０にあると判断
されるまでキャッシュの割当、外部フェッチ、およびリ
ローディングが続くようにされ得る。次に要求されるブ
ロックは順次的にアドレス指定されてもよいし、非順次
的にアドレス指定されてもよい。順次的アドレス指定で
は、プロセッサは現在のブロックのリロードに関してあ
るきまった時間にヒットについて知る。対照的に、非順
次的フェッチはリロード中のどの時点でも起こり得る。

【００４２】分岐のため命令のプリフェッチを終わらせ
ることは、いくつかの要素によって複雑化される。第１
に、命令はブロックがリロードされている間に実行され
るので、分岐は現在のブロックをリロードしている間の
どの時点でも起こり得る。第２に、目標とされる命令
は、キャッシュ１０の中でヒットすることもあり得るし
ミスすることもあり得る。目標がヒットであれば、プロ
セッサは外部フェッチを終了する。目標がミスであれ
ば、プロセッサは現在のフェッチを止めて新しいフェッ
チを再開しなければならない。最後に、現在のブロック
のリロードは目標とされる命令がフェッチされ得るより
前にキャンセルされなければならない。

【００４３】分岐がプリフェッチの間にとられるなら
ば、次の順次的なアドレス指定されたブロックのプリフ
ェッチを止めるのには、このブロックが必要とされるの
は、たとえば次のブロックに分岐遅延命令があるために
その分岐がブロックにおける最後の命令である場合のみ
であっても、決して十分な時間はない。したがって、い
くらかの外部メモリ容量が、必要とされるフェッチのた
めに分岐を越えてとられ、これらの命令はキャッシュ１
０の中に存在しなくても排棄される。命令キャッシュと
バッファされたデータキャッシュとを両方とも含むシス
テムでは、外部メモリインタフェースが同時に命令とデ
ータアクセスとのために必要とされることはまれであ
る。しかしながら、命令がキャッシュリロードの間にデ
コードされた場合、もし命令のリロードの間にデータキ
ャッシュ内でロードがミスするか、または一杯になった
書込バッファに記憶が行なわれるならば、命令およびデ
ータアクセスの間で衝突があるかもしれない。

【００４４】データアクセスが命令のアクセスと衝突し
た場合、命令のフェッチはデータアクセスをサービスす
る前にキャンセルされるだろう。データアクセスを作り
出すロードまたは記憶の命令は、リロードがキャンセル
されるのを待っている間に実行を完了することを許され
る。しかしながら、ロードまたは記憶はライトバック段
で保持され、後に続く命令はもっと早いパイプライン段
に保持される。これにより、外部ロード／記憶アクセス
は命令のフェッチがキャンセルされた直後に開始するこ
とができる。

【００４５】一旦データアクセスのサービスが完了する
と、外部フェッチを再び始めることができる。これは、
キャッシュのミスを検出しかつ外部フェッチを開始する
のに用いられる通常のメカニズムによってトリガされて
よい。別のデータアクセスがリロードが始まる前に要求
される場合（すなわち別のロードまたは記憶が命令のス
トリームの中で第１のロードまたは記憶のすぐ後に続く
場合）、リロードの前に第２のロードまたは記憶が行な
われる。

【００４６】ロードまたは記憶が分岐の遅延命令であ
り、分岐の目標がキャッシュ１０の中でミスである場
合、その分岐の目標とされる命令のフェッチはロードま
たは記憶のための外部アクセスが行われる前に完了され
てよい。

【００４７】命令キャッシュ１０がマッピングされたＤ
ＲＡＭアドレスでアクセスされた場合、ＤＲＡＭマッピ
ングがキャッシュ１０における命令のマッピングに影響
を与えるようなやり方で変化させられると必ず、キャッ
シュ１０のすべての内容はフラッシュされる(flush) だ
ろう。フラッシュは各キャッシュブロックのすべての有
効ビットをリセットすることによって達成される。有効
ビットは、プロセッサのリセットによって、ならびに割
込復帰および／または無効または類似の機能を実行する
ことによって単一の各サイクルの中でリセットされてよ
い。

【００４８】無効化命令が実行される場合、システム
は、次の分岐または次のキャッシュブロック境界のうち
どちらか先のものが来るまで有効ビットをリセットしな
い。無効化命令がブロックにおける最後の命令であれ
ば、無効化が起こるブロック境界は次のブロックの終わ
りにある。これにより、プロセッサパイプラインは無効
化命令が実行されるとデコード中の命令の実行を完了で
きるようになり、それを強制的にパイプラインの中で無
効化し外部で再フェッチすることはない。

【００４９】命令キャッシュと命令プリフェッチバッフ
ァとを個別に説明してきたが、これよりこの発明の教示
に従ったそれらの組合せについて論じる。そのような組
合せを説明するにあたって便宜を図りかつわかりやすく
するために、たくさんの可能な例の中からただ一例に焦
点をあてる。この例は４ワード命令プリフェッチバッフ
ァ、すなわち命令キャッシュ（図２参照）のブロックの
サイズと同じ数のワードを有するバッファを仮定する。
キャッシュ自体は各々３２ビットを備える４つのブロッ
クとして編成され、各キャッシュブロックに４つのプリ
フェッチバッファが実現される。プリフェッチバッファ
はキャッシュと直接に接続されて実現されるので、バス
は全く必要ではない。

【００５０】ここで図５を参照すると、この発明の教示
に従う組合せの命令キャッシュおよびプリフェッチバッ
ファが示される。より特定的には、図５では命令キャッ
シュの第１のブロック（包括的に参照番号３２で表され
る）、および同じ命令キャッシュの第２のブロック（包
括的に参照番号３４で表される）が、その間に配設され
かつ直接に接続されたプリフェッチバッファ（包括的に
参照番号３６で表される）とともに示される。プリフェ
ッチバッファ３６は４ワードバッファとして表され、命
令キャッシュのブロックサイズと、ワード数の点で対応
する。構造および動作についてのさらなる詳細は以下で
述べられる。しかしながら、一般に図５で示される装置
は外部メモリの代わりとなる迅速なメモリとして働くも
のである。

【００５１】図５で表される装置の動作をこれより説明
するが、要求される命令がキャッシュの中にない場合、
それらは外部メモリからフェッチしなくてはならない。
プリフェッチバッファ（たとえばバッファ３６）は命令
を受取り、それらを記憶のためのキャッシュと実行のた
めの中央処理装置との双方に送る。

【００５２】場合によっては、キャッシュには現在の命
令のブロックはあっても次の命令のブロックはないかも
しれない。そのような場合には、次のブロックをプリフ
ェッチすることができる。現在のブロックの完了にあた
って、次の命令がすでにプリフェッチバッファの中に存
在するだろう。これにより、デコードユニットへの命令
のストリームが中断されないということが確実になる。
次のブロックで早くとられた分岐は、デコードユニット
に送る際にキャッシュを更新するだけなので、プリフェ
ッチ命令のほとんどを無駄にするだろう。

【００５３】プリフェッチバッファ３６は通常書込およ
び読出のカウンタで実現される。新しくフェッチされた
命令は書込カウンタを増加させ、読出カウンタは命令が
デコードに送られる際に増加する。書込カウンタは命令
バッファの先頭を指し、読出カウンタは命令バッファの
末尾を指す。命令バッファは先入れ先出しで動作する。
プリフェッチバッファ３６内の有効な命令を示すのに
は、１組の有効ビットを用いることもできる。もう１組
の有効ビットを、命令がキャッシュを更新したかどうか
を示すために用いることができる。キャッシュに書込を
行ない、デコードに命令を送るために１組の制御を行な
う代わりに、２つの動作は独立している。このためにか
かるのはキャッシュへのデータの書込を示すための追加
された４つの有効ビットである。

【００５４】プリフェッチバッファ３６内の命令はブロ
ックアドレス（すなわち４ワードのブロック内のワー
ド）とともにアドレスを有していなければならない。そ
のような装置の最も大きな利点は、次の命令のブロック
がプリフェッチされたときに顕著となる。そのような場
合、プログラムカウンタが次のブロックまで増加するに
つれて、プリフェッチされた命令のすべてが即座にキャ
ッシュを更新することができる。キャッシュを一度に更
新することによって、動作電力の要求は低減される。分
岐がとられると、インタフェースユニットは通常必要な
命令を越えていくつかのワードをフェッチする。ブロッ
ク内のこれら余分なワードはここでキャッシュに入れる
ことができる。

【００５５】前述のように、図５の実施例はこの発明の
教示に従うプリフェッチバッファおよび命令キャッシュ
の組合せにおける可能な実施例の１つにすぎない。図５
の実施例はマッピングの形式、すなわち１つのセットの
要素と別のセットの要素との間に直接な対応関係が確立
される動作を用いる。図６ないし８はマッピングの代替
例を表わす。図６はダイレクトマッピングを示す。ダイ
レクトマッピングの配列では、各アドレスはデータアレ
イの中のデータの単一のセットに対応する。そのような
配列ではリクエストの上位ビット３８は、タグアレイ４
０の中へ送り込まれ、リクエストの下位ビット４２はデ
コーダ４４に送り込まれる。デコーダ４４とタグアレイ
４０とは次に協働してデータアレイ４８のデータの選択
ブロック４６に導かれる。

【００５６】図７はツーウェイセットアソシアティブマ
ッピングを表わす。図７で表されるツーウェイセットア
ソシアティブマッピングは、図６で表されるダイレクト
マッピングとは２つのタグ５０および５２、ならびに２
つのデータのブロック５４および５６が互いに対応する
という点で異なっている、すなわち図６の配列のように
単に１対１の対応関係があるわけではない。

【００５７】図８はさらに別の代替的なマッピング技
術、すなわちフルアソシアティブマッピングを表わす。
フルアソシアティブマッピングではタグアレイ４０とデ
ータアレイ４８とのそれぞれの間に直接的な完全にアソ
シアティブな関係があり、デコーダの必要性を回避して
いる。

【００５８】前に述べたことすべてに基づいて、当業者
はこの発明がプリフェッチバッファを直接作動的に接続
された命令キャッシュを含むキャッシュメモリシステム
を提供するものであるということを今や完全に理解かつ
認識しているはずである。この発明はまた、プロセッサ
内の命令を操作するための方法をも提供する。この発明
の実施例は、命令キャッシュおよびプリフェッチバッフ
ァを相互接続するバスが必要とされず、命令バッファが
プリフェッチされた命令の利用を改良し、電力とシリコ
ンスペースとの使用を減じてキャッシュ内にデータを効
果的に書込むことができるようになるので、先行技術に
勝る改良となる。この発明の実施例を構成するにあた
り、ダイレクトマッピング、ツーウェイセットアソシア
ティブマッピング、およびフルアソシアティブマッピン
グのようなマッピングを何タイプ用いてもよい。

【００５９】上の教示に照らして、この発明に対し数多
くの修正および変形がなされてよいことは明らかであ
る。したがって、前掲の特許請求の範囲内で、この発明
は本文中で特定的に述べられたものと異なって実施され
てもよい。

【図面の簡単な説明】

【図１】命令キャッシュ編成のブロック図である。

【図２】命令キャッシュ内の命令ブロックの図である。

【図３】キャッシュデータレジスタ内の命令ワードの図
である。

【図４】キャッシュデータレジスタ内の命令アドレスタ
グおよびブロックステータスの図である。

【図５】この発明の教示に従う、プリフェッチバッファ
および命令キャッシュの組合せの図である。

【図６】ダイレクトマッピング、すなわちこの発明の実
施例で用いられてよい１コンセプトを表わす図である。

【図７】ツーウェイセットアソシアティブマッピング、
すなわちこの発明の実施例で用いられてよい１コンセプ
トを表わす図である。

【図８】フルアソシアティブマッピング、すなわちこの
発明の実施例で用いられてよい１コンセプトを表わす図
である。

【符号の説明】

１０命令キャッシュ１２キャッシュアレイ１４タグステータスアレイ３２命令キャッシュの第１のブロック３４命令キャッシュの第２のブロック３６プリフェッチバッファ

Claims

【特許請求の範囲】

【請求項１】キャッシュを含み、前記キャッシュは各
ブロックにつき複数個のビットのある、複数個のブロッ
クで形成され、さらにプリフェッチバッファを含み、前
記プリフェッチバッファは前記キャッシュを形成するブ
ロックの前記数に等しい数の複数個のブロックで形成さ
れ、かつ前記プリフェッチバッファは直接作動的に前記
キャッシュに接続され、前記キャッシュと前記プリフェッチバッファとを相互接
続するバスの使用は必要とされない、キャッシュメモリ
システム。
【請求項２】前記プリフェッチバッファは２つの別個
の有効ビットの組を含む、請求項１に記載のキャッシュ
メモリシステム。
【請求項３】前記２つの別個の有効ビットの組の一方
は前記命令キャッシュに書込みを行なうために用いられ
る、請求項２に記載のキャッシュメモリシステム。
【請求項４】前記キャッシュメモリシステムは外部デ
コードセクションと相互に作用し、前記２つの別個の有
効ビットの組の他方は、前記外部デコードセクションに
命令を送るために用いられる、請求項３に記載のキャッ
シュメモリシステム。
【請求項５】前記プリフェッチバッファは、書込カウ
ンタと読出カウンタとを含む、請求項１に記載のキャッ
シュメモリシステム。
【請求項６】前記プリフェッチバッファは先入れ先出
しの態様で動作するよう構成され、その構成は本質的に
その先頭部分と末尾部分とを規定する、請求項５に記載
のキャッシュメモリシステム。
【請求項７】前記書込カウンタは前記プリフェッチバ
ッファの前記先頭部分を指す、請求項６に記載のキャッ
シュメモリシステム。
【請求項８】前記読出カウンタは前記プリフェッチバ
ッファの前記末尾部分を指す、請求項７に記載のキャッ
シュメモリシステム。
【請求項９】前記プリフェッチバッファは、中にある
有効な命令を示すよう動作可能な、有効ビットの組をさ
らに含む、請求項５に記載のキャッシュメモリシステ
ム。
【請求項１０】前記プリフェッチバッファは、命令が
前記キャッシュを更新したかどうかを示すのに動作可能
な、有効ビットの第２の組をさらに含む、請求項９に記
載のキャッシュメモリシステム。
【請求項１１】マイクロプロセッサ内の命令を操作す
るための方法であって、命令が要求されていることを判断するステップと、前記要求される命令が命令キャッシュおよびプリフェッ
チバッファシステムの命令キャッシュ部分にあるかどう
かを判断するステップと、前記要求される命令がそこにあった場合、前記命令キャ
ッシュ部分からフェッチするステップと、前記要求される命令が前記命令キャッシュ部分になかっ
た場合、外部メモリからフェッチするステップと、前記命令キャッシュおよびプリフェッチバッファシステ
ムのプリフェッチバッファ部分で外部メモリから前記フ
ェッチされた命令を受取るステップと、前記フェッチされた命令を、実行のために前記マイクロ
プロセッサの命令キャッシュ部分と処理ユニット部分と
に同時に送るステップとを含む、方法。
【請求項１２】順序付けられたブロックの連鎖におけ
る後続する命令のブロックをプリフェッチし、それら後
続するブロックが前記命令キャッシュおよびプリフェッ
チバッファシステムで必要とされるとすぐに利用可能と
なるようにするステップをさらに含む、請求項１１に記
載の方法。
【請求項１３】前記プリフェッチバッファ内の命令が
有効かどうかを決定しかつそのように指示するステップ
をさらに含む、請求項１１に記載の方法。
【請求項１４】命令がキャッシュ部分を更新したかど
うかを決定しかつそのように指示するステップをさらに
含む、請求項１３に記載の方法。