JP2000242558A

JP2000242558A - キャッシュシステム及びその操作方法

Info

Publication number: JP2000242558A
Application number: JP2000026068A
Authority: JP
Inventors: L Werner Tony; トニー・エル・ウェルナー
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1999-02-19
Filing date: 2000-02-03
Publication date: 2000-09-08
Also published as: US6397296B1

Abstract

(57)【要約】【課題】電力消費とハードウエア要件とを低減する。【解決手段】キャッシュシステムは多重レベルのキャ
ッシュ構成を有する。Ｌ１キャッシュ１８は外部メモリ
から命令を受け取る。Ｌ０キャッシュ２０は第１設定数
Ｌ０のキャッシュラインを有する。補助キャッシュ２２
はビクティムキャッシュとプリフェッチキャッシュを有
する。ビクティムキャッシュは第２設定数ＶＣ、プリフ
ェッチキャッシュは第３設定数ＰＣのキャッシュライン
を備える。ビクティムキャッシュはＬ０キャッシュか
ら、プリフェッチキャッシュはＬ１キャッシュから命令
を受け取る。ビクティムフィルタは第４設定数ＶＦのア
ドレスを格納し、ＶＦはＬ０キャッシュとキャッシュ書
き込み回数との関数である。Ｌ０キャッシュ及びビクテ
ィムキャッシュへのキャッシュ書き込み回数が補助キャ
ッシュを使用せずにＬ０キャッシュを使用することによ
って低減される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、一般的にはマイク
ロプロセッサシステムにおけるキャッシュ（キャッシュ
メモリ）に関し、更に詳細には補助キャッシュ用装置及
びその方法に関するものである。

【０００２】

【従来の技術】プロセッサ速度がメモリ速度より急速な
割合で継続的に増大するにつれ、メモリ速度がますます
重要になっている。キャッシュはメインメモリより小さ
くて速いバッファ型である。キャッシュはプロセッサと
メインメモリとの間に配置されている。メモリ速度を向
上させるために、キャッシュは、プロセッサによって次
に要求され得るメインメモリから命令とデータとのコピ
ーを格納している。

【０００３】キャッシュは、一つのバッファ、又は多数
のバッファを使用できる。多数のバッファはそれぞれ異
なる速度又は待ち時間を備えている。待ち時間は、メモ
リ又はキャッシュ内に格納されたデータ又は命令に、ア
クセスするのに要するクロックサイクル数である。

【０００４】従来、マイクロプロセッサは、単一サイク
ルのオンチップキャッシュで構成され、メモリ待ち時間
を低減していた。多電流高性能マイクロプロセッサで
は、命令及びデータのメモリ基準は、現在、単一クロッ
クサイクルの代わりに２サイクルクロックを必要として
いる。その結果として、プロセッサの実行ユニットがメ
モリにアクセスするため付加的な状態を必要とし、その
ことがハードウエア数と、ブランチ不利益とを増大させ
ている。ハードウエア数の増加が電力及びコストを増大
させている。ブランチ不利益の増大が性能を劣化させて
いる。

【０００５】あるプロセッサアプリケーション内では性
能が重要であるから、ブランチ不利益を低減するために
ブランチ予測とブランチ達成とのバッファが使用され、
そのことが更に多くのハードウエアを招いた。しかしな
がら、埋設プロセッサの目標は、粗い性能の代わりに、
１ドル当たりの性能（速度）と１ワット当たりの性能と
を向上させるための設計目標である。実行ユニット内で
多くのパイプライン段階を付加することと、ハードウエ
ア数を増加させることとは、埋設プロセッサによって要
求された要件を満たす満足できる解決法でない。

【０００６】キャッシュはキャッシュライン内のメイン
メモリからコピーされた命令を格納している。キャッシ
ュラインは一つ又は多数の連続した命令を格納すること
も可能である。その上、各キャッシュラインはコピーさ
れた命令におけるメモリアドレスを確認するために使用
されるタグを有している。その最も簡単な形式では、タ
グは全アドレスである。キャッシュラインが多重命令を
格納した時、全アドレスは格納される必要がない。例え
ば、キャッシュラインが８バイトを格納したならば、ア
ドレスのうち三つの最も重要でないビットはタグ内に格
納される必要がない。

【０００７】リクエスト命令がキャッシュ内にすでに格
納された時、キャッシュヒットが生じている。リクエス
ト命令がキャッシュライン内に格納されなかった時、キ
ャッシュミスが生じている。通常、キャッシュミスが生
じた時、プロセッサ性能を下げるプログラムの実行を継
続する前に、リクエスト命令がメインメモリから検索さ
れるまで、実行ユニットが待機しなければならないし、
又は止まらなければならない。

【０００８】概して、多重レベルキャッシュは、Ｌ０キ
ャッシュとＬ１キャッシュとして引用され、異なる速
度、又は異なるメモリ待ち時間のアクセスタイムを備え
た二つのバッファを有している。通常、Ｌ１キャッシュ
はＬ０キャッシュより遅い。Ｌ１キャッシュはメインメ
モリから命令及びデータを受け取る。Ｌ０キャッシュは
Ｌ１キャッシュから命令及びデータを受け取り、実行ユ
ニットへ供給する。

【０００９】キャッシュのキャッシュラインには、メモ
リアドレスに関してダイレクトマップ型、フルアソシア
ティブ型、又はセットアソシアティブ型がある。フルア
ソシアティブ型キャッシュはメモリアドレスを、ある特
定なキャッシュラインに結びつけていない。命令及びデ
ータは任意のキャッシュライン内に配置されている。ダ
イレクトマップ型キャッシュは、特定のキャッシュライ
ンと各メモリアドレスとを結びつけ、該特定キャッシュ
ライン内だけに特定アドレスで格納された命令又はデー
タを配置している。セットアソシアティブ型キャッシュ
は、数組又は数グループの連続キャッシュラインを特定
メモリの位置へダイレクトに置く。しかしながら、一組
のキャッシュライン内では、キャッシュは完全に結合し
ている。

【００１０】ダイレクトマップ型キャッシュは、最速の
アクセスタイムを有するが、ホットスポットを発展させ
る傾向がある。ホットスポットは同じキャッシュライン
に対しての繰り返しミスである。フルアソシアティブ型
キャッシュはダイレクトマップ型キャッシュよりも高い
ヒット率を有するが、ダイレクトマップ型キャッシュよ
りも遅いアクセス時間を有している。アクセス時間に関
し、セットアソシアティブ型キャッシュはダイレクトマ
ップ型キャッシュとフルアソシアティブ型キャッシュと
の間にある。

【００１１】ビクティムキャッシュは、Ｌ０キャッシュ
から移動されたキャッシュラインを格納するフルアソシ
アティブ型キャッシュである。ビクティムキャッシュラ
インは、代用されたＬ０キャッシュ内のキャッシュライ
ンである。一つのキャッシュシステムでは、全てのキャ
ッシュミス上で、ビクティムキャッシュラインがビクテ
ィムキャッシュにコピーされている。ビクティムキャッ
シュが完全であったならば、新しいビクティムキャッシ
ュラインがビクティムキャッシュ内で最近最も使用され
なかったキャッシュラインに取って代わっている。キャ
ッシュミスがＬ０キャッシュ及びＬ１キャッシュ内で生
じた時、リクエスト命令又はデータがビクティムキャッ
シュ内に格納されたか否かをキャッシュが決定し、もし
格納されたならばキャッシュがビクティムキャッシュか
ら実行ユニットへ該命令を提供する。

【００１２】少なくとも一回のキャッシュミスが生じた
後に、頻繁にアクセスされたキャッシュラインを格納し
たことによってビクティムキャッシュが性能を向上させ
る。その上、別の技術がキャッシュミスを防止するため
に使用されている。プリフェッチ技術は、連続するキャ
ッシュミスが生じる前に、ストリームバッファを使用
し、キャッシュ内へ命令及びデータを取り出している。
ミスが生じた時、ストリームバッファが自身の中へ、ミ
スした命令から始まった命令を先取りする。次のキャッ
シュアクセスがリクエストアドレスを、Ｌ１キャッシュ
及びＬ０キャッシュのアドレス又はタグだけでなく、ス
トリームバッファのタグと比較する。リクエスト命令が
Ｌ１キャッシュ又はＬ０キャッシュ内ではなく、ストリ
ームバッファ内にあったならば、リクエスト命令を含ん
だキャッシュラインがストリームバッファから、Ｌ１キ
ャッシュ又はＬ０キャッシュ内へ移動される。しかしな
がら、ストリームバッファがチップ上で付加的空間を使
用し、電力消費を増加させている。

【００１３】電力効率が重要である。ビクティムキャッ
シュとストリームキャッシュとが性能を向上させるが、
ハードウエアの煩雑さを増やし、コスト及び電力の消費
を増大させる。

【００１４】

【発明が解決しようとする課題】このように、単一サイ
クルアクセスの待ち時間を維持している間に、容認し得
るキャッシュヒット率を与えるという問題を解決したキ
ャッシュ構成が望まれている。更に、提案されたキャッ
シュ構成が、埋設されたマイクロプロセッサ用の重要な
設計制約である電力消費とハードウエア要件とを低減す
ることが好ましい。

【００１５】それ故、本発明の目的は、キャッシュを作
動する改良装置と、その方法とを提供することである。

【００１６】本発明の関連する目的は、キャッシュの消
費電力を低減する改良装置と、その方法とを作り出すこ
とである。

【００１７】

【課題を解決するための手段】本発明におけるこれら及
び他の目的や利点は、補助キャッシュ及び補助フィルタ
を備えた多重キャッシュを使用することによって達成さ
れる。補助キャッシュラインは、Ｌ０キャッシュから移
動されたキャッシュライン（ビクティム）と、Ｌ１キャ
ッシュから移動されたプリフェッチキャッシュとを格納
している。一つの実施の形態では、補助キャッシュ内に
ビクティムキャッシュラインとプリフェッチキャッシュ
ラインとの特定混合物がハードウエアに組み込まれてい
る。他の実施の形態では、キャッシュラインの特定混合
物がダイナミックに割り当てられている。

【００１８】更に詳細には、Ｌ１キャッシュが外部メモ
リから命令を受け取る。Ｌ０キャッシュが、Ｌ１キャッ
シュから命令を受け取るために第１設定数Ｌ０のキャッ
シュラインを有している。補助キャッシュはビクティム
キャッシュとプリフェッチキャッシュとを有している。
ビクティムキャッシュは第２設定数ＶＣのキャッシュラ
インを備え、プリフェッチキャッシュは第３設定数ＰＣ
のキャッシュラインを備えている。ビクティムキャッシ
ュはＬ０キャッシュから命令を受け取る。プリフェッチ
キャッシュはＬ１キャッシュから命令を受け取る。ビク
ティムフィルタは第４設定数ＶＦのアドレスを格納し、
第４設定数ＶＦはＬ０とキャッシュ書き込み回数との関
数である。Ｌ０キャッシュ及びビクティムキャッシュへ
のキャッシュ書き込み回数は、補助キャッシュを使用せ
ずにＬ０キャッシュを使用することに関して低減され
る。

【００１９】本発明における他の特徴及び利点は、本発
明の開示を検討した当業者にとって明白になるだろう。
それ故、本発明における好ましい実施の形態の詳細な記
述が以下に図面に基づいて与えられる。

【００２０】

【発明の実施の形態】図１は本発明で使用するのに適切
なプロセッサ及びメモリのブロックダイアグラムであ
る。プロセッサ１０は実行ユニット１４へ命令を与える
キャッシュシステム１２を有している。キャッシュシス
テム１２は外部メモリ１６から命令を検索する。他の実
施の形態では、メモリ１６はプロセッサ１０と同じチッ
プ上にある。

【００２１】図２を参照すると、本発明のキャッシュシ
ステム１２を構成するキャッシュの詳細なブロックダイ
アグラムが示されている。キャッシュシステム１２（図
１参照）はＬ１キャッシュ１８、Ｌ０キャッシュ２０、
及び補助キャッシュ２２を含んでいる。補助フィルタ２
４は補助キャッシュ２２と一緒に使用されている。マル
チプレクサ２６，２８，３０はＬ１キャッシュ１８，Ｌ
０キャッシュ２０、補助キャッシュ２２，及び実行ユニ
ット１４を相互に連結している。２クロックサイクルで
は、Ｌ１キャッシュ１８はダイレクトマップ型で、１６
３８４（１６Ｋ）バイトを格納し、アクセスされる。他
の実施の形態では、Ｌ１キャッシュ１８がセットアソシ
アティブ型である。Ｌ０キャッシュ２０は２５６バイト
又は６４のキャッシュラインを格納している。補助キャ
ッシュ２２はフルアソシアティブ型で、単一クロックサ
イクル内でアクセスでき、１２８バイトを格納した４つ
のキャッシュラインを有している。択一的に、補助キャ
ッシュ２２は２つのキャッシュライン内に６４バイト、
又は３つのキャッシュライン内に９６バイトを格納して
いる。好ましくは、Ｌ１キャッシュ１８，Ｌ０キャッシ
ュ２０，及び補助キャッシュ２２が１つのキャッシュラ
イン内に同じバイト数を有している。一つの実施の形態
では、キャッシュラインが３２バイトを格納している。

【００２２】更に詳細には、図３を参照すると、図２に
おける補助キャッシュ２２と補助フィルタ２４とのブロ
ックダイアグラムが詳細に示されている。補助キャッシ
ュ２２はビクテムキャッシュ３２とプリフェッチキャッ
シュ３４とを有している。ビクティムキャッシュ３２
は、Ｌ０キャッシュ２０から移された命令を格納するた
め、第１組のキャッシュラインを含んでいる。プリフェ
ッチキャッシュ３４は、Ｌ１キャッシュ１８から受け取
った命令を格納するため、第２組のキャッシュラインを
含んでいる。補助フィルタ２４はビクティムキャッシュ
３６とプリフェッチキャッシュ３８とを含んでいる。ビ
クティムフィルタ３６は、１組のアドレス又はタグを格
納するため、ビクティムメモリを有している。実行ユニ
ットはリクエストアドレスから命令をリクエストする。
ビクティムキャッシュ３２はビクティムフィルタ３６に
応答している。リクエスト命令がＬ０キャッシュ２０又
は補助キャッシュ２２内に格納されなかった時、Ｌ０キ
ャッシュ２０がキャッシュラインを確認し、Ｌ０キャッ
シュ２０内で（ビクティムキャッシュラインに）取って
代わる。ビクティムフィルタ３６は、リクエストアドレ
スの一部分がビクティムフィルタ３６内に格納されたア
ドレスに一致するか否かを決定する。リクエストアドレ
スの一部分がビクティムフィルタ３６内に格納されたア
ドレスの一部に一致したならば、ビクティムフィルタ３
６がＬ０キャッシュからビクティムキャッシュ３２内へ
ビクティムキャッシュラインをコピーしている。また、
Ｌ０キャッシュ２０は、ビクティムキャッシュラインに
おけるアドレスの一部分を再構成し、ビクティムフィル
タ３６内でビクティムキャッシュラインを備えたキャッ
シュラインタグとして再構成アドレスを格納している。

【００２３】プリフェッチキャッシュ内に格納するため
の命令を先取りする前に、キャッシュミスが生じた時、
プリフェッチフィルタ３８がプリフェッチキャッシュ３
２と一緒に使用され、アドレスを通過させている。それ
故、プリフェッチフィルタ３８はＬ１キャッシュと外部
メモリとからプリフェッチの数を低減している。他の実
施の形態では、プリフェッチフィルタが使用されず、命
令がキャッシュミス毎に先取りされている。ミス処理毎
にプリフェッチに比較されたとき、プリフェッチフィル
タ３８はメモリアクセスの数を著しく低減している。そ
れ故、メモリアクセスの数を低減することによって、プ
リフェッチフィルタ３８は電力消費を低減している。

【００２４】ダイナミック補助キャッシュ制御装置４０
は補助キャッシュ２２を制御し、プリフェッチキャッシ
ュ３４とビクティムキャッシュ３２との間で補助キャッ
シュ２２のキャッシュラインをダイナミックに割り当て
ている。一つの実施の形態では、コンパイル時にアプリ
ケーションプログラムがプリフェッチキャッシュ３４を
ビクティムキャッシュ３２にダイナミックに割り当てて
いる。別の実施の形態では、プロセッサがアプリケーシ
ョンプログラムを実行した時、プリフェッチキャッシュ
３４が実行時間でビクティムキャッシュ３２にダイナミ
ックに割り当てられている。ダイナミックな割り当て
が、公知の構成情報を含んだ特殊レジスタによって制御
されている。この場合には、その割り当てが特殊レジス
ト内の１又は２以上のビットによって制御されている。
命令は特殊レジスタへの書き込みによって構成情報を準
備している。その上、通常、命令はただ一つ（ｕｎｉｑ
ｕｅ）であろう。

【００２５】他の実施の形態では、ダイナミック補助キ
ャッシュ制御装置４０は使用されていない。プリフェッ
チキャッシュ３４はハードウェアに組み込まれ、ビクテ
ィムキャッシュ３２に割り当てられない。

【００２６】図４は、本発明のキャッシュシステム１２
におけるアドレスとデータ経路とを示し、キャッシュ制
御ブロック４２とダイナミック補助キャッシュ制御装置
４０とを含んだ制御論理の一部分を備えている。実行ユ
ニット１４はプログラムカウンタ４４を有している。プ
ログラムカウンタ４４は検索されるべき次の命令のアド
レス、即ち、リクエスト命令のアドレスを格納し、アド
レスバス１５上に該アドレスを出力している。

【００２７】Ｌ１キャッシュ１８はデータバス１９に繋
がり、外部メモリから命令を受け取っている。この実施
の形態では、Ｌ１キャッシュは、３２バイトのキャッシ
ュライン１８ａ，１８ｂ，１８ｃを備えると共に、ダイ
レクトマップ型の３２Ｋバイトのキャッシュであり、２
サイクルのアクセス待ち時間を有している。Ｌ１キャッ
シュ１８の各キャッシュライン１８ａ，１８ｂ，１８ｃ
はタグと一組の命令とを格納している。一つの実施の形
態では、タグはキャッシュライン内に格納された第１バ
イトのアドレスである。キャッシュラインが３２バイト
を格納しているので、アドレスにおいてあまり重要でな
い５ビット（ビット４：０）がタグ内に格納されていな
い。ダイレクトマップ型キャッシュ内では、キャッシュ
ラインの位置がアドレスの関数であるから、タグのサイ
ズが更に低減されている。特に、Ｌ１キャッシュ１８が
３２Ｋバイトを格納し、各キャッシュラインが幅３２バ
イトであるから、Ｌ１キャッシュ１８が１０２４のキャ
ッシュラインを格納し、該キャッシュラインが２¹⁰に等
しく、１０ビットによって表示されている。それ故、タ
グ内にはアドレスの１０ビットを格納する必要がない。
図４で示されるように、アドレスビット（１４：５）は
マルチプレクサ５２に入力され、適切なキャッシュライ
ン内で命令と最も重要なアドレスビット（３１：１５）
とを格納している。

【００２８】比較器５４は、プログラムカウンタ４４に
よって供給されたリクエストアドレスの一部分を、各キ
ャッシュライン内に格納されたタグと比較している。リ
クエストアドレスの一部分がタグの一部分と同じである
ならば、比較器５４は、Ｌ１ヒットと呼ばれる信号をキ
ャッシュ制御ブロック４２へ出力し、Ｌ１キャッシュ１
８内でヒットが生じたことを示している。キャッシュ制
御ブロック４２によってもたらされたキャッシュライン
は、リクエスト命令を格納し、Ｌ１キャッシュ１８から
Ｌ０キャッシュ２０までＬ１キャッシュデータ経路２１
とマルチプレクサ２６とを経由して転送されている。そ
れから、キャッシュ制御ブロック４２は、Ｌ０キャッシ
ュ２０から実行ユニット１４内のパイプラインまでマル
チプレクサ３０を経由してリクエスト命令を転送してい
る。

【００２９】本実施の形態では、Ｌ０キャッシュ２０
は、３２バイトのキャッシュラインを備えると共に、ダ
イレクトマップ型の５１２バイトのキャッシュであり、
それ故に、１６のキャッシュラインを有している。その
上、Ｌ０キャッシュ２０は各キャッシュライン上にタグ
と一組の命令とを格納している。Ｌ０キャッシュ２０が
ダイレクトマップ型であるから、マルチプレクサ５６は
アドレスビット（８：５）を使用し、１６のキャッシュ
ラインのうち１つの内部に命令又はデータを格納してい
る。Ｌ０キャッシュ２０用のタグはアドレスの３１ビッ
トから３９ビットまで格納している。

【００３０】比較器５８は、リクエストアドレス（ビッ
ト（３１：９））の一部分を、Ｌ０キャッシュ２０内に
格納されたタグと比較している。リクエストアドレスの
一部分がＬ０キャッシュ２０内に格納されたタグの一部
分と同じであるならば、比較器５８は、Ｌ０ヒットと呼
ばれる信号をキャッシュ制御ブロック４２へ出力し、ヒ
ットがＬ０キャッシュ２０内で生じたことを示してい
る。Ｌ０ヒット信号の応答では、キャッシュ制御ブロッ
ク４２がリクエストアドレスで命令をもたらし、Ｌ０キ
ャッシュ２０から実行ユニット１４のパイプラインまで
マルチプレクサ３０を経由して出力されている。

【００３１】補助キャッシュ２２は、３２バイトのキャ
ッシュラインを備えると共に、フルアソシアティブ型の
１２８バイトのキャッシュであり、それ故に４つのキャ
ッシュラインを有している。補助キャッシュ２２は各キ
ャッシュライン上にタグと一組の命令とを格納してい
る。補助キャッシュ２２は３つのビクティムキャッシュ
ライン３２ａ，３２ｂ，３２ｃと１つのプリフェッチキ
ャッシュライン３４ａとを有している。ビクティムキャ
ッシュラインはビクティムキャッシュ３２の一部分であ
る。プリフェッチキャッシュライン３４ａはプリフェッ
チキャッシュ３４の一部分である。他の実施の形態で
は、プリフェッチキャッシュ３４が１つ以上のプリフェ
ッチキャッシュラインを有している。上述のように、図
３に関して、プリフェッチキャッシュライン３４ａをビ
クティムキャッシュラインとして指定し、ビクティムキ
ャッシュ３２内に含ませることができる。マルチプレク
サ２８は、ビクティムキャッシュ３２内に格納したＬ０
キャッシュ２０からのビクティムキャッシュラインと、
プリフェッチキャッシュ３４内に格納されたＬ１キャッ
シュ１８からのプリフェッチキャッシュラインとを供給
している。

【００３２】マルチプレクサ６２は、Ｌ０キャッシュ２
０のビクティムキャッシュラインからビクティムキャッ
シュ３２の適切なキャッシュラインへタグを供給し、ま
たアドレスバス１５からプリフェッチキャッシュ３４へ
タグを供給している。なぜならば、Ｌ０キャッシュのタ
グが３１：９のビットを格納し、補助キャッシュのタグ
が３１：５のビットを格納したから、Ｌ０キャッシュ２
０内の論理回路が８：５のビットを再構成し、Ｌ０キャ
ッシュ２０がマルチプレクサ６２へ３１：５のビットを
供給し、ビクティムキャッシュ３２における適切なキャ
ッシュラインのタグ内に格納している。

【００３３】キャッシュラインがＬ０キャッシュ２０又
はＬ１キャッシュ１８から補助キャッシュ２２へ転送さ
れた時、転送命令のアドレスがプログラムカウンタ４４
によってアドレスバス１５へ供給されている。そのアド
レスの３１：５のビットがマルチプレクサ６２を経由し
てビクティムキャッシュ３２又はプリフェッチキャッシ
ュ３４内で転送キャッシュラインのタグとして格納され
ている。

【００３４】一組の比較器７２，７４，７６，７８が、
補助キャッシュ２２の各キャッシュライン内に格納され
たタグを、プログラムカウンタ４４によって出力された
リクエストアドレスと比較している。もしタグがリクエ
ストアドレスの対応部分と一致したならば、比較器７
２，７４，７６，７８が高電圧レベルを出力し、補助キ
ャッシュ２２の該キャッシュライン内でヒットが生じた
ことを示している。比較器７２，７４，７６，７８の出
力はＯＲゲート８０へ供給され、キャッシュ制御ブロッ
ク４２へ供給されたビクティムキャッシュ３２内でヒッ
トを示すビクティムヒット信号を発生させる。

【００３５】プリフェッチキャッシュライン３４ａのタ
グは比較器７８に繋がっている。プリフェッチキャッシ
ュライン３４ａがビクティムキャッシュ３２のキャッシ
ュラインとして使用された時、ダイナミック補助キャッ
シュ制御装置４０が、高電圧レベルを備えたディスエー
ブルプリフェッチ信号を発生させている。ディスエーブ
ルプリフェッチ信号が、低レベルであった時、インバー
タ８２へ供給され、高レベルを備えたイネーブルプリフ
ェッチ信号を発生させている。要するに、プリフェッチ
キャッシュ信号が命令を先取りすために使用された時、
イネーブルプリフェッチ信号が高電圧レベルを有してい
る。イネーブルプリフェッチ信号が高電圧レベルであ
り、プリフェッチキャッシュ３４がその電圧レベルに一
致したことを比較器７８が示した時、ＡＮＤゲート８４
がプリフェッチヒット信号を発生させる。プリフェッチ
ヒット信号がキャッシュ制御ブロック４２に供給されて
いる。プリフェッチキャッシュラインがビクティムキャ
ッシュの一部分として使用された時、ＡＮＤゲートが割
り込みを可能とさせる。イネーブルプリフェッチ信号が
低電圧レベルであり、プリフェッチキャッシュ３４がそ
の電圧レベルに一致したことを比較器７８が示した時、
ＡＮＤゲート８６が、ＯＲゲート８０に供給されたビク
ティムキャッシュラインヒット信号を発生させる。

【００３６】ビクティムヒット信号又はプリフェッチヒ
ット信号の何れかが高電圧レベルであった時、ＯＲゲー
ト８８が補助ヒット信号を発生させ、補助キャッシュ内
でヒットが生じたことを示している。

【００３７】補助ヒット信号又はＬ０ヒット信号の何れ
かが高電圧レベルであった時、別のＯＲゲート９０が１
サイクルアクセス信号を発生させ、それによって命令が
有効であり、実行ユニット１４内のパイプラインが通じ
ている。

【００３８】ビクティムフィルタ３６はＦＩＦＯのよう
なメモリ１０２を有している。そのメモリ１０２はエン
トリ１０２ａ，１０２ｂ，１０２ｃ内に３つのアドレス
を格納している。エントリ１０２ａ，１０２ｂ，１０２
ｃは最後の３つのミスアドレスを格納している。各エン
トリ１０２ａ，１０２ｂ，１０２ｃはそれぞれ比較器１
０４，１０６，１０８へ入力されている。その上、プロ
グラムカウンタ４４によって出力されたリクエストアド
レスは比較器１０４，１０６，１０８へ供給されてい
る。エントリ１０２ａ，１０２ｂ，１０２ｃ内に格納さ
れたアドレスの何れかがリクエストアドレスに一致した
ならば、それに対応する比較器が高電圧レベルを出力す
る。比較器１０４，１０６，１０８の出力がＯＲゲート
１１０へ出力され、補助キャッシュへのＬ０ビクティム
の転送信号を発生させる。該転送信号の応答では、キャ
ッシュ制御ブロック４２がキャッシュラインをもたらし
ている。そのキャッシュラインはＬ０キャッシュ２０の
一致アドレスで命令を格納し、Ｌ０キャッシュ２０から
補助キャッシュ２２のビクティムキャッシュ２４へ転送
されている。

【００３９】プリフェッチフィルタ３８はインクリメン
タ１１２、マルチプレクサ１１４、及びメモリ１１６を
有している。インクリメンタ１１２は、３２ビットに対
して４ビットのように、予め設定された総ビット数まで
プログラムカウンタ４４によって出力されたアドレスを
増大させる。メモリ１１６は先取りすべき次のアドレス
を格納し、インクリメンタ１１２から読み出されてい
る。メモリ１１６内に格納されたアドレスビットは補助
キャッシュ２２のタグ内に格納されたアドレスビットに
相当している。比較器１１８が、プリフェッチフィルタ
３８のメモリ１１６内に格納されたアドレスを、リクエ
ストアドレスと比較し、もし両者が一致した場合には高
電圧レベルを出力する。比較器１１８の出力は補助プリ
フェッチへのＬ１のリクエスト信号である。該リクエス
ト信号によってキャッシュ制御ブロック４２が信号を発
生させ、Ｌ１データ経路２１上のＬ１キャッシュ１８か
らプリフェッチキャッシュ２３までマルチプレクサ６２
を経由してキャッシュラインを転送している。

【００４０】プリフェッチキャッシュラインがダイナミ
ックに割り当てられた場合には、プリフェッチフィルタ
３８がビクティムフィルタ３６から分離している。更
に、プリフェッチキャッシュ３４がビクティムキャッシ
ュ３２にダイナミックに割り当てられたとしても、プリ
フェッチフィルタ３８がビクティムフィルタ３６にダイ
ナミックに割り当てられない。

【００４１】キャッシュ制御ブロック４２は、Ｌ１ヒッ
ト信号、補助キャッシュへのＬ０ビクティムの転送信
号、補助プリフェッチへのＬ１のリクエスト信号、プリ
フェッチヒット信号、ビクティムヒット信号、補助ヒッ
ト信号、及び１サイクルアクセス信号を受信し、制御信
号を発生させる。制御信号は、ビクティムフィルタ制御
信号、Ｌ１キャッシュ制御信号、プリフェッチフィルタ
制御信号、補助キャッシュ制御信号、及びＬ０キャッシ
ュ制御信号を含んでいる。

【００４２】本発明の顕著な特徴は、補助キャッシュが
Ｌ０キャッシュ２０からの移動キャッシュライン（ビク
ティム）と、Ｌ１キャッシュライン１８からのプリフェ
ッチキャッシュラインとの両方を格納している。要する
に、各サイクル上で、プログラムカウンタがリクエスト
アドレスをアドレスバス１５に供給している。Ｌ１キャ
ッシュ１８，Ｌ０キャッシュ２０、補助キャッシュ２
４、ビクティムフィルタ３６，及びプリフェッチフィル
タ３８が、それぞれ格納されたタグ及びアドレスを、リ
クエストアドレスと同時に比較する。キャッシュヒット
がＬ０キャッシュ２０又は補助キャッシュ２２のビクテ
ィムキャッシュラインの何れかを検知したならば、キャ
ッシュライン内に格納されたリクエスト命令又はデータ
が単一サイクル内でプロセッサの実行ユニットに供給さ
れ、命令又はデータがＬ１キャッシュ２０へ転送され
る。Ｌ０キャッシュ２０への転送後に、補助キャッシュ
における割り当てプリフェッチキャッシュラインが弱々
しく示され、プリフェッチキャッシュラインが付加的な
プリフェッチデータを受け取ることができる。リクエス
トアドレスがＬ０キャッシュ２０及び補助キャッシュ２
２内でミスしたが、Ｌ１キャッシュ１８内でヒットした
ならば、Ｌ１キャッシュ１８に対して２サイクルのアク
セス時間と仮定して、命令が次のクロックサイクルでＬ
１キャッシュ１８から読み込まれている間、パイプライ
ンが行き詰まる。

【００４３】更に、ビクティムフィルタ３６内での一致
に基づいて、Ｌ０キャッシュ２０がＬ１キャッシュ１８
から命令を受け取る。補助キャッシュ２２がＬ０キャッ
シュ２０から新しいビクティムを受け取り、ビクティム
キャッシュ３２のうちで最近最も使用されなかったキャ
ッシュラインを捨て去っている。ビクティムフィルタ３
６はＬ０キャッシュ２０とＬ１キャッシュ１８内でミス
した一組のアドレスを格納している。ミスをした際に、
もしＬ０キャッシュ２０のうち同じキャッシュラインが
以前にミスをしなかったならば、ビクティムキャッシュ
ラインがビクティムキャッシュ３２内に格納されず、そ
のアドレスがビクティムフィルタ３６内に格納される。
この方法で、ビクティムキャッシュへの書き込み回数を
低減することによって、電力消費が低減される。

【００４４】図５は本発明のキャッシュシステムを使用
した方法の一つの実施の形態を示すフローチャートであ
る。ステップ１５２では、Ｌ１キャッシュ、Ｌ０キャッ
シュ、ビクティムキャッシュ、プリフェッチキャッシ
ュ、ビクティムフィルタ、及びプリフェッチフィルタが
与えられている。Ｌ１キャッシュ、Ｌ０キャッシュ、ビ
クティムキャッシュ、及びプリフェッチキャッシュがキ
ャッシュラインを格納している。各キャッシュライン内
では、アドレスの少なくとも一部分がＬ１タグ、Ｌ０タ
グ、ビクティムキャッシュタグ、及びプリフェッチキャ
ッシュタグとして格納している。ビクティムフィルタと
プリフェッチフィルタとはビクティムフィルタアドレス
とプリフェッチフィルタアドレスとをそれぞれ格納して
いる。ビクティムフィルタは予め設定された個数のビク
ティムフィルタアドレスを格納している。該ビクティム
フィルタアドレスはＬ０キャッシュのキャッシュライン
の数と、キャッシュ書き込み回数との関数である。Ｌ０
キャッシュとビクティムキャッシュとへのキャッシュ書
き込み回数が、ビクティムキャッシュを使用せずにＬ０
キャッシュの使用に関して低下される。

【００４５】ステップ１５４では、リクエストアドレス
がアドレスバスに供給され、リクエスト命令を検索す
る。ステップ１５６では、リクエストアドレスが、Ｌ１
タグ、Ｌ０タグ、ビクティムタグ、プリフェッチタグ、
ビクティムフィルタアドレス、及びプリフェッチフィル
タアドレスを同時に比較する。ステップ１５８では、も
しキャッシュヒットがＬ０キャッシュのキャッシュライ
ン内で検知されたならば、キャッシュライン内に格納さ
れたリクエスト命令が実行ユニットに供給される。

【００４６】ステップ１６０では、キャッシュヒットが
ビクティムキャッシュのキャッシュライン内で検知され
たならば、ヒットを発生させたキャッシュライン内で格
納されたリクエスト命令が実行ユニットに供給される。
ビクティムキャッシュからリクエスト命令を格納したキ
ャッシュラインがＬ０キャッシュへ転送されない。その
代わりに、キャッシュラインはビクティムキャッシュ内
にとどまっている。プリフェッチキャッシュラインだけ
が補助キャッシュからＬ０キャッシュまで転送されてい
る。

【００４７】ステップ１６２では、もしリクエストアド
レスがＬ０キャッシュ及び補助キャッシュ内でミスした
が、Ｌ１キャッシュ内でヒットしたならば、Ｌ１キャッ
シュ内のリクエスト命令を格納した各キャッシュライン
が確認される。その上、確認されたキャッシュラインに
取って代わるように、Ｌ０キャッシュ内のビクティムキ
ャッシュラインが確認される。リクエストアドレスがビ
クティムフィルタ内で格納されたアドレスの何れかに一
致したならば、取り決めステップにおけるビクティムフ
ィルタのリクエストアドレスに一致したことに基づくビ
クティムキャッシュ内にはビクティムキャッシュライン
が格納される。ビクティムキャッシュが、最近最も使用
されていないビクティムキャッシュラインを新しいビク
ティムキャッシュラインに取って代わる。Ｌ０キャッシ
ュ内のビクティムキャッシュラインが、確認されたキャ
ッシュラインに取って代えられている。リクエストアド
レスがビクティムフィルタ内に格納され、リクエスト命
令が実行ユニットに供給されている。

【００４８】ステップ１６４では、キャッシュラインを
先取りするために、リクエストアドレスを次の連続する
アドレスまで増大させることによって、プリフェッチア
ドレスが発生される。プリフェッチアドレスがプリフェ
ッチフィルタ内に格納されている。新しいリクエストア
ドレスが、プリフェッチフィルタ内に格納されたプリフ
ェッチアドレスに一致しなかった場合には、格納され
る。この方法では、連続する第１リクエストアドレスと
第２リクエストアドレスとをミスした後に、キャッシュ
ラインがＬ１キャッシュから、プリフェッチフィルタを
使ったプリフェッチキャッシュへ先取りされている。

【００４９】ステップ１６６では、プリフェッチキャッ
シュはダイナミックに割り当てられてビクティムキャッ
シュの一部になり、ビクティムキャッシュ内に格納され
たキャッシュラインの数を増加させるが、プリフェッチ
フィルタはビクティムフィルタに割れ当てられていな
い。

【００５０】通常、ビクティムキャッシュが少なくとも
最近使用された置換手法を実行し、最も頻繁に置換され
たキャッシュラインを保持している。更に、ビクティム
キャッシュのサイズを増大させることによって、パフォ
ーマンスの向上を達成できる。基本的には、増大したサ
イズで、ビクティムキャッシュが最も頻繁にアクセスさ
れたキャッシュラインのうちの多くを保持している。し
かしながら、ビクティムキャッシュがフルアソシアティ
ブ型であるから、ビクティムキャッシュのサイズを増大
することが、実行コストを増大させる。そのことは、埋
設プロセッサにおける一般的な設計制約と調和しない。

【００５１】一つの実施の形態では、ビクティムフィル
タが使用されず、ビクティムキャッシュが全ての置換キ
ャッシュラインを受け入れている。しかしながら、好ま
しい実施の形態では、ビクティムフィルタがビクティム
キャッシュ内に最も頻繁にアクセスされたキャッシュラ
インを格納している。ビクティムフィルタが最近のキャ
ッシュミスを監視し、Ｌ０キャッシュと補助キャッシュ
内で最近最もミスしたキャッシュラインのうち一組のタ
グを格納することによって、どのキャッシュラインを保
持し、置換するかを決定する。一つの実施の形態では、
ビクティムキャッシュフィルタがＦＩＦＯバッファを使
用し、そのアドレスを格納している。Ｌ０キャッシュ又
は補助キャッシュ内でミスが生じた時、ヒットがビクテ
ィムフィルタ内で検知された場合のみ、Ｌ０キャッシュ
から置換キャッシュライン（ビクティム）がビクティム
キャッシュ内に格納される。

【００５２】図６は、シミュレーションの結果からビク
ティムフィルタ内に格納されたアドレス数（ｘ軸）に対
し、１サイクル当たりの命令（ＩＰＣ）の平均数（ｙ
軸）のグラフである。シミュレーションでは、全てのキ
ャッシュが３２バイトのキャッシュラインを備えてい
る。Ｌ１キャッシュはダイレクトマップ型で、１６Ｋバ
イト又は５１２のキャッシュラインを備えている。補助
キャッシュは４つのキャッシュラインを備えている。ビ
クティムフィルタアドレスの数は１から６４まで変更さ
れ、ダイレクトマップ型Ｌ０キャッシュのサイズは１２
８バイト（４つのキャッシュライン）から１０２４バイ
ト（３２のキャッシュライン）まで変更されている。図
６、図７Ａ、図７Ｂ、及び図８で与えられたシミュレー
ションの結果は、設定されたＭＩＰＳＲ３０００プロ
セッサ命令から８つのＳＰＥＣ９２整数ベンチマークに
おけるトレースファイルを処理することによって、得ら
れる。

【００５３】シミュレーションでは、Ｌ０キャッシュと
補助キャッシュとが単一サイクル内にアクセスされ、Ｌ
１キャッシュが２クロックサイクル内にアクセスされて
いる。各メモリ基準に対し、アドレスとタグとの比較は
Ｌ１キャッシュ、Ｌ０キャッシュ、及び補助キャッシュ
に対して同時に実行されている。Ｌ１キャッシュが次の
クロックサイクル内でリクエスト命令又はデータを実行
ユニットに供給したので、同時のタグ比較はキャッシュ
の性能を向上させる。ヒットがＬ０キャッシュ又は補助
キャッシュ内で検知されたならば、シミュレーションに
よって仮定されることは、カラム線やセンス増幅器の操
作時のように相当の電力が消費される前に、Ｌ１キャッ
シュからの読み込みが停止されることである。シミュレ
ーションのモデルは各キャッシュに対して単一の読み書
きを使用している。それ故、補助キャッシュがＬ０キャ
ッシュからビクティムを読み込むのに忙しかったなら
ば、Ｌ１キャッシュから先取りすることが止まる。１サ
イクル当たりの命令（ＩＰＣ）に対する公表数値は、ブ
ランチ罰則、ブランチ予測、データ依存、緩衝等のよう
な他の構成的な影響、又はデータフローの影響を含んで
いない。その上、外部メモリから命令とデータとを読み
出すことは１６サイクルを必要とされている。それ故、
公表されたＩＰＣの数値は、全システムの性能上におけ
る上方限界を与えている。シミュレーションに対し、Ｌ
０キャッシュのサイズは、３２バイトから１０２４バイ
トまで、即ち１つのキャッシュラインから３２のキャッ
シュラインまでそれぞれ変更される。しかしながら、別
の好ましい実施の形態では、電力効率に対し、Ｌ０キャ
ッシュのサイズにおける実際的な制限は２５６バイト又
は８つのキャッシュラインである。

【００５４】好ましい手段では、Ｌ１キャッシュのサイ
ズは１６Ｋバイトから３２Ｋバイトまでの範囲であり、
Ｌ０キャッシュのサイズは１２８バイトから２５６バイ
トまでの範囲である。同様に、補助キャッシュ内でのキ
ャッシュラインの数が１つから６つまで変更されたなら
ば、実際には、補助キャッシュが４つ以下のキャッシュ
ラインを有する。

【００５５】実際には、図６は、１つのアドレスから６
つのアドレスまで格納したビクティムフィルタのサイズ
の結果と、ビクティムフィルタがなかった（「フィルタ
なし」と表示された）場合における結果とを示してい
る。フィルタなしの結果は、メモリへの読み書き回数に
おける上方限界を与えている。１サイクル当たりの命令
の平均回数は、ビクティムフィルタにおけるキャッシュ
ラインの数と実質的に独立している。しかしながら、２
５６バイトのＬ０キャッシュに対し、３つのアドレスを
格納したビクティムフィルタは、フィルタなしキャッシ
ュラインの構成上、約１％まで性能を向上させた。

【００５６】もっと重要なことは、ビクティムフィルタ
内に格納されたキャッシュラインの数がメモリトラフィ
ック量に実質的に影響を与えていることである。電力消
費が、Ｌ１キャッシュ、Ｌ０キャッシュ、及び補助キャ
ッシュへの書き込み回数のように、Ｌ１キャッシュ、Ｌ
０キャッシュ、及び補助キャッシュ内のメモリアクティ
ビティ数と相互に関係している。大ざっぱな比較のため
に、Ｌ０キャッシュ又は補助キャッシュの何れかへ読み
出し又は書き込みすることは、Ｌ１キャッシュにアクセ
スするのに必要とされた電力の２０％を要している。

【００５７】図７Ａ及び図７Ｂは、Ｌ０キャッシュの異
なるサイズに対してビクティムフィルタ内に格納された
アドレス数（ｘ軸）と、Ｌ０キャッシュ及び補助キャッ
シュへの書き込み合計数（ｙ軸）とに関するグラフであ
る。各Ｌ０キャッシュのサイズに対し、図７Ａ及び図７
Ｂの書き込み合計数が、該Ｌ０キャッシュのサイズに対
して補助キャッシュを使用しなかった基本的なキャッシ
ュ構成に標準化されている。例えば、補助キャッシュを
備えて１２８バイトのサイズを有したＬ０キャッシュに
対する結果が、補助キャッシュを備えず１２８バイトの
サイズを有したＬ０キャッシュに対する結果に標準化さ
れている。補助キャッシュを備えて２５６バイトのサイ
ズを有したＬ０キャッシュに対する結果が、補助キャッ
シュを備えず２５６バイトのサイズを有したＬ０キャッ
シュに対する結果に標準化されている。

【００５８】図７Ａが示すように、補助キャッシュが少
なくなればなるほど、基本的構成に関して書き込みアク
ティビティ数が減少される。それ故、より少ないアドレ
スを格納することによって、ビクティムフィルタが非常
に制限され、補助キャッシュ内で最も頻繁に移動された
キャッシュラインだけ保持している。しかしながら、ビ
クティムフィルタ内に格納されたアドレス数が増加する
につれ、ビクティムフィルタの制限が少なくなり、メモ
リアクティビティ数が実質的に増加している。

【００５９】図７Ｂは、更に詳細に、１から１０までの
範囲に渡るビクティムフィルタのサイズに対する図７Ａ
の結果を示している。１０２４バイト（３２のキャッシ
ュライン）を格納したＬ０キャッシュのように、比較的
に大きなＬ０キャッシュが、５１２バイト以下を格納し
たＬ０キャッシュと比較して、ビクティムフィルタのサ
イズによって相対的に影響されない。ビクティムフィル
タが４つ以上のキャッシュラインを格納した時、２５６
バイト（８つのキャッシュライン）の書き込みアクティ
ビティが著しく増大している。

【００６０】重要なことには、プリフェッチキャッシュ
がビクティムキャッシュにダイナミックに割り当てられ
たとしても、プリフェッチフィルタがビクティムフィル
タに割り当てられずに、相変わらず別々のままである。
図７Ｂから分かることは、プリフェッチフィルタがビク
ティムフィルタにダイナミックに結合されたならば、ビ
クティムフィルタ内に格納されたアドレス数と、キャッ
シュ書き込みのアクティビティ数とが増大している。そ
の結果、本発明の目的の一つと相反する電力消費を増大
させる。

【００６１】図８は、プリフェッチフィルタ内に格納し
たアドレス数を決定すべきシミュレーションの結果を示
している。シミュレーションでは、アドレス数が１から
３２まで変更され、フィルタなしの結果が示されてい
る。Ｌ０キャッシュとＬ１キャッシュとは、それぞれ２
５６バイト（８つのキャッシュライン）と、１６Ｋバイ
ト（５１２のキャッシュライン）とを格納している。プ
リフェッチフィルタの効果を分離するように、シミュレ
ーション結果が、補助キャッシュから除外された全ての
ビクティムキャッシュラインを伴う達成可能な性能を示
している。図８で示されるように、プリフェッチフィル
タのサイズが１から３２まで増大された時、１サイクル
当たりの命令（ＩＰＣ）の平均数は実質的に不変のまま
である。それ故、プリフェッチフィルタが１つのアドレ
スだけ格納する必要がある。

【００６２】フィルタなしで先取りする際に、キャッシ
ュミス毎に、又はプリフェッチフィルタ内でヒットを検
知することによって、先取りが開始される。フィルタを
備えて先取りする際に、Ｌ０キャッシュラインと補助キ
ャッシュのビクティム設計用キャッシュラインとの中で
各ミスが発生したことによって、１を加えたアドレスの
ように、次の連続したアドレスがプリフェッチフィルタ
内に格納されている。Ｌ０キャッシュ及び補助キャッシ
ュ内で連続したミスが、プリフェッチフィルタ内でヒッ
トし、Ｌ０キャッシュからプリフェッチキャッシュの中
へ命令の先取りを開始する。先取りしている間に、補助
キャッシュは最初、リクエストキャッシュラインに対す
るＬ１キャッシュ内を覗いている。キャッシュラインが
Ｌ１キャッシュ内でなかったならば、補助キャッシュが
外部メモリから先取りを開始する。シミュレーションで
は、外部メモリアクセスが１６サイクルを必要としてい
る。

【００６３】プリフェッチフィルタがメモリアクティビ
ティ数を制限し、それ故、電力消費を制限する。しかし
ながら、非連続的な一つのメモリアクセスがメモリ基準
パターンを抑制した場合だけ、上述されたプリフェッチ
フィルタが性能を向上させる。他の実施の形態では、高
性能アプリケーションに対し、キャッシュ制御ブロック
を経由したプロセッサが、全てのキャッシュアクセス上
でヒットされた先取りを強行することによってプリフェ
ッチフィルタを取り除いている。

【００６４】本発明における他の特徴及び利点は、本発
明の開示を検討した当業者にとって明白になろう。それ
故、この発明の範囲はクレーム（請求項）によってのみ
限定され得る。

【００６５】

【発明の効果】本発明によれば、キャッシュシステムは
多重レベルのキャッシュ構成を有し、Ｌ０キャッシュ及
びビクティムキャッシュへのキャッシュ書き込み回数が
補助キャッシュを使用せずにＬ０キャッシュを使用する
ことによって低減されるので、単一サイクルアクセスの
待ち時間を維持している間に、容認し得るキャッシュヒ
ット率を与えるという問題を解決し、更に、埋設された
マイクロプロセッサ用の重要な設計制約である電力消費
とハードウエア要件とを低減することができる。

【図面の簡単な説明】

【図１】本発明で使用されるのに最適なプロセッサとメ
モリとのブロックダイアグラムである。

【図２】本発明におけるキャッシュ構成のブロックダイ
アグラムである。

【図３】図２における補助キャッシュと補助フィルタと
の詳細なブロックダイアグラムである。

【図４】図３のキャッシュ構成における一実施の形態の
詳細なダイアグラムである。

【図５】本発明のキャッシュを使用した方法のフローチ
ャートである。

【図６】Ｌ０キャッシュのさまざまなサイズに対しビク
ティムフィルタ内に格納されたアドレス数の関数として
１サイクル当たりの命令（ＩＰＣ）の数のグラフであ
る。

【図７Ａ】Ｌ０キャッシュのさまざまなサイズに対しビ
クティムフィルタ内に格納されたアドレス数の関数とし
てキャッシュ書き込み数のグラフである。

【図７Ｂ】１から１０のアドレスまで格納されたビクテ
ィムフィルタに対して図７Ａの詳細なグラフである。

【図８】プリフェッチフィルタ内に格納するキャッシュ
ラインの数を決定するシミュレーションの結果を示して
いる。

【符号の説明】

１０プロセッサ１２キャッシュシステム１４実行ユニット１５アドレスバス１６外部メモリ１８Ｌ１キャッシュ１９データバス２０Ｌ０キャッシュ２１Ｌ１キャッシュデー
タ経路２２補助キャッシュ２４補助フィルタ２６，２８，３０マルチプレクサ３２ビクティムキャッシ
ュ３２ａ，３２ｂ，３２ｃプリフェッチキャッ
シュライン３４プリフェッチキャッ
シュ３４ａプリフェッチキャッ
シュライン３６ビクティムフィルタ３８プリフェッチフィル
タ４０ダイナミック補助キ
ャッシュ制御装置４２キャッシュ制御ブロ
ック４４プログラムカウンタ５２，５６，６２マルチプレクサ５４，５８比較器７２，７４，７６，７８比較器８０，８８，９０ＯＲゲート８２インバータ８４，８６ＡＮＤゲート１０２メモリ１０２ａ，１０２ｂ，１０２ｃエントリ１０４，１０６，１０８比較器１１０ＯＲゲート１１２インクリメンタ１１４マルチプレクサ１１６メモリ１１８比較器１５２，１５４，１５６，１５８，１６０，１６２，１
６４，１６６ステップ

Claims

【特許請求の範囲】

【請求項１】外部メモリからの命令を受け取り、格納
するためのＬ１キャッシュと、前記Ｌ１キャッシュからの命令を受け取って格納するた
め第１設定数Ｌ０のキャッシュラインを有するＬ０キャ
ッシュと、第２設定数ＶＣのキャッシュラインを具備して前記Ｌ０
キャッシュからの命令を受け取るビクティムキャッシ
ュ、及び、第３設定数ＰＣのキャッシュラインを具備し
て前記Ｌ１キャッシュからの命令を受け取るプリフェッ
チキャッシュを有する補助キャッシュと、第４設定数ＶＦのアドレスを格納したビクティムフィル
タとを備え、前記第４設定数ＶＦが前記第１設定数Ｌ０とキャッシュ
書き込み回数との関数であり、前記Ｌ０キャッシュ及び
前記ビクティムキャッシュへのキャッシュ書き込み回数
が、前記補助キャッシュを除いて前記Ｌ０キャッシュを
使用することによって低減されたことを特徴とするキャ
ッシュシステム。
【請求項２】請求項１記載のキャッシュシステムにお
いて、前記第４設定数ＶＦが３に等しいことを特徴とするキャ
ッシュシステム。
【請求項３】請求項１記載のキャッシュシステムにお
いて、第５設定数ＰＦのアドレスを格納し、前記Ｌ１キャッシ
ュにおける任意のキャッシュライン内に格納された命令
を、前記プリフェッチキャッシュの中へ先取りするか否
かを決定するプリフェッチフィルタを更に備えたことを
特徴とするキャッシュシステム。
【請求項４】請求項３記載のキャッシュシステムにお
いて、前記第５設定数ＰＦが１に等しいことを特徴とするキャ
ッシュシステム。
【請求項５】請求項１記載のキャッシュシステムにお
いて、前記Ｌ１キャッシュ、前記Ｌ０キャッシュ、及び前記補
助キャッシュが３２バイトのキャッシュラインを有し、
前記Ｌ１キャッシュがダイレクトマップ型で１０２４の
キャッシュラインを有し、前記Ｌ０キャッシュがダイレ
クトマップ型で１６のキャッシュラインを有し、前記第
３設定数ＰＣが１に等しく、前記第２設定数ＶＣが３に
等しいことを特徴とするキャッシュシステム。
【請求項６】請求項１記載のキャッシュシステムにお
いて、前記ビクティムフィルタが、それ自身内に格納されると
共に、最近最も使用されなかったアドレスに取って代わ
ったことを特徴とするキャッシュシステム。
【請求項７】請求項３記載のキャッシュシステムにお
いて、前記プリフェッチフィルタが、第１及び第２連続メモリ
配置へのミスの後で、前記プリフェッチキャッシュを制
御し、前記Ｌ１キャッシュから命令を先取りしたことを
特徴とするキャッシュシステム。
【請求項８】請求項３記載のキャッシュシステムにお
いて、前記プリフェッチフィルタがアドレスを格納するためプ
リフェッチメモリを備え、リクエスト命令が前記プリフ
ェッチキャッシュ内になかった時、格納された前記アド
レスが前記リクエスト命令のアドレスの次に来るアドレ
スであることを特徴とするキャッシュシステム。
【請求項９】請求項８記載のキャッシュシステムにお
いて、前記プリフェッチフィルタがインクリメンタを含み、前
記インクリメンタが前記リクエスト命令のアドレスに予
め設定された増分を付加し、増分を付加された前記アド
レスが前記プリフェッチメモリ内に格納されたことを特
徴とするキャッシュシステム。
【請求項１０】請求項１記載のキャッシュシステムに
おいて、前記プリフェッチキャッシュにおける前記キャッシュラ
インの少なくとも一部分を、前記ビクティムキャッシュ
にダイナミックに割り当てるための補助キャッシュ制御
装置を更に備えたことを特徴とするキャッシュシステ
ム。
【請求項１１】請求項１０記載のキャッシュシステム
において、アプリケーションプログラムが実行された時、ダイナミ
ックな前記補助キャッシュ制御装置が、前記プリフェッ
チキャッシュにおける前記キャッシュラインの少なくと
も一部分を、前記ビクティムキャッシュにダイナミック
に割り当てたことを特徴とするキャッシュシステム。
【請求項１２】請求項１記載のキャッシュシステムに
おいて、前記補助キャッシュがフルアソシアティブ型であること
を特徴とするキャッシュシステム。
【請求項１３】請求項１記載のキャッシュシステムに
おいて、前記Ｌ１キャッシュがダイレクトマップ型であることを
特徴とするキャッシュシステム。
【請求項１４】請求項１記載のキャッシュシステムに
おいて、前記Ｌ０キャッシュがダイレクトマップ型であることを
特徴とするキャッシュシステム。
【請求項１５】プロセッサの実行ユニットをメモリに
連結したキャッシュシステムの操作方法であって、Ｌ１キャッシュ、Ｌ０キャッシュ、ビクティムキャッシ
ュ、プリフェッチキャッシュ、ビクティムフィルタ、及
びプリフェッチフィルタが与られ、前記Ｌ１キャッシ
ュ、前記Ｌ０キャッシュ、前記ビクティムキャッシュ、
及び前記プリフェッチキャッシュがＬ１タグ、Ｌ０タ
グ、ビクティムタグ、及びプリフェッチタグとしてのキ
ャッシュライン内に、格納アドレスとしてアドレスの少
なくとも一部分をそれぞれ格納し、前記ビクティムフィ
ルタ及び前記プリフェッチフィルタがビクティムフィル
タアドレス及びプリフェッチフィルタアドレスとしてア
ドレスの少なくとも一部分をそれぞれ格納し、前記Ｌ１
キャッシュ、前記Ｌ０キャッシュ、前記ビクティムキャ
ッシュ、及び前記プリフェッチキャッシュの前記キャッ
シュラインが命令を格納し、前記ビクティムフィルタが
設定数のビクティムフィルタアドレスを格納し、前記ビ
クティムフィルタアドレスが前記Ｌ０キャッシュにおけ
るキャッシュラインの数とキャッシュ書き込み回数との
関数であり、前記Ｌ０キャッシュ及び前記ビクティムキ
ャッシュへのキャッシュ書き込み回数が前記ビクティム
キャッシュを使用せずに前記Ｌ０キャッシュの使用によ
って低減されるステップと、リクエストアドレスがアドレスバスに供給されてリクエ
スト命令を検索するステップと、同時に、前記リクエストアドレスが、前記Ｌ１タグ、前
記Ｌ０タグ、前記ビクティムタグ、前記プリフェッチタ
グ、前記ビクティムフィルタアドレス、及び前記プリフ
ェッチフィルタアドレスと比較されるステップと、キャッシュヒットが前記Ｌ０キャッシュのキャッシュラ
イン内で検知される場合には、前記キャッシュライン内
に格納された前記リクエスト命令が前記実行ユニットに
供給されるステップと、前記キャッシュヒットが前記ビクティムキャッシュのキ
ャッシュライン内で検知される場合には、前記キャッシ
ュライン内に格納された前記リクエスト命令が前記実行
ユニットへ供給され、前記リクエスト命令を格納した前
記キャッシュラインが前記ビクティムキャッシュから前
記Ｌ０キャッシュへ転送されるステップと、前記リクエストアドレスが前記Ｌ０キャッシュ及び前記
補助キャッシュ内でミスするが、前記Ｌ１キャッシュ内
でヒットする場合には、前記リクエストアドレスを格納
した前記キャッシュラインが前記Ｌ１キャッシュ内で確
認され、ビクティムキャッシュラインが、前記Ｌ０キャ
ッシュ内で確認されて確認キャッシュラインに取って代
わり、前記リクエストアドレスが前記ビクティムフィル
タ内に格納されたアドレスの何れかに一致するか否かが
決定され、前記決定によって前記ビクティムフィルタの
前記リクエストアドレスと一致したことに基づく前記ビ
クティムキャッシュ内に、前記ビクティムキャッシュラ
インが格納され、前記Ｌ０キャッシュ内の前記ビクティ
ムキャッシュラインが前記確認キャッシュラインに取っ
て代わり、前記リクエストアドレスが前記ビクティムフ
ィルタ内に格納され、前記リクエスト命令が前記実行ユ
ニットに供給されるステップとを備えることを特徴とす
るキャッシュシステムの操作方法。
【請求項１６】請求項１５記載のキャッシュシステム
の操作方法において、前記リクエストアドレスが前記ビクティムフィルタ内に
格納されるステップが、前記ビクティムフィルタのうち
少なくとも最近使用されたキャッシュライン内に前記ビ
クティムキャッシュを格納するステップを含むことを特
徴とするキャッシュシステムの操作方法。
【請求項１７】請求項１５記載のキャッシュシステム
の操作方法において、プリフェッチアドレスが前記リクエストアドレスを次の
連続するアドレスまで増大させることによって発生され
るステップと、前記プリフェッチアドレスが前記プリフェッチフィルタ
内に格納されるステップと、新しいリクエストアドレスが受け取られるステップと、前記新しいリクエストアドレスが前記プリフェッチフィ
ルタ内に格納された前記プリフェッチアドレスに一致し
ない場合には、キャッシュラインが前記Ｌ１キャッシュ
から前記プリフェッチキャッシュ内へ先取りされ、連続
する第１及び第２リクエストアドレスをミスした後に、
キャッシュラインが前記Ｌ１キャッシュから、前記プリ
フェッチフィルタを使用した前記プリフェッチキャッシ
ュの中まで先取りされるステップとを更に備えることを
特徴とするキャッシュシステムの操作方法。
【請求項１８】請求項１５記載のキャッシュシステム
の操作方法において、前記プリフェッチキャッシュがダイナミックに割り当て
られて前記ビクティムキャッシュの一部分となり、前記
ビクティムキャッシュ内に格納されたキャッシュライン
の数を増加させるが、前記プリフェッチフィルタが前記
ビクティムフィルタに割り当てられないステップを更に
備えることを特徴とするキャッシュシステムの操作方
法。