JPH10307756A

JPH10307756A - キャッシュ除外方法及びシステム

Info

Publication number: JPH10307756A
Application number: JP10078873A
Authority: JP
Inventors: Kumar Arimiri Ravi; ラヴィ・カマー・アライミリ; James Clark Leo; レオ・ジェームズ・クラーク; Stephen Doddson John; ジョン・スティーブン・ドッドソン; Don Lewis Jerry; ジェリー・ドン・リュイス
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1997-04-14
Filing date: 1998-03-26
Publication date: 1998-11-17
Anticipated expiration: 2018-03-26
Also published as: US5974507A; JP3197866B2

Abstract

(57)【要約】【課題】キャッシュ内の"ストライド"を少なくするた
めに、キャッシュによって用いられる置換アルゴリズム
にあるレベルのランダムネスを導入することでコンピュ
ータ・システムのプロセッサに用いられるキャッシュの
操作を改良する方法を開示している。【解決手段】プロセッサで実行される異なる手順を考
慮してキャッシュを最適化するために、置換アルゴリズ
ムには、異なる時間に異なるレベルのランダムネスを導
入できる。ランダムネスのレベルは、基本置換アルゴリ
ズムによりコングルエンス・クラスのサブセットを選択
することで選択的に導入でき、そこでサブセット内の除
外するキャッシュ・ブロックを選択するため、ランダム
・ビットが用いられる。基本置換アルゴリズムはＬＲＵ
アルゴリズム等である。４ウェイ・セット連想キャッシ
ュには３つのレベルのランダムネスが考えられ、８ウェ
イ・セット連想キャッシュには４レベルのランダムネス
が考えられる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、一般的にはコンピ
ュータ・システムに関し、特に、プロセッサによって用
いられるキャッシュ、中でも連想キャッシュを効率よく
使用する方法に関する。

【０００２】従来のコンピュータ・システム１０の基本
構造を図１に示す。コンピュータ・システム１０には複
数の処理装置を使用できるが、図に示しているのはその
うちの２つ、１２ａ及び１２ｂである。これらはさまざ
まな周辺装置に接続される。周辺装置は、入出力（Ｉ／
Ｏ）装置１４（ディスプレイ・モニタ、キーボード、及
び永続記憶装置等）、プログラム命令を実行するために
処理装置によって用いられるメモリ装置１６（ＲＡＭ、
つまりランダム・アクセス・メモリ等）、基本的にはコ
ンピュータが最初に起動されたときに周辺装置の１つ
（通常は永続メモリ装置）からオペレーティング・シス
テムを探し出してロードするためのファームウェア１８
を含む。処理装置１２ａ及び１２ｂは、汎用相互接続部
またはバス２０を含むさまざまな手段により周辺装置と
通信する。コンピュータ・システム１０には、図示して
いないが、例えばモデムまたはプリンタ等と接続するた
めのシリアル・ポート及びパラレル・ポート等の多くの
コンポーネントを追加できる。当業者には明らかなよう
に、図１のブロック図に示したものと共に使用するよう
なコンポーネントは他にもある。例えばビデオ・ディス
プレイ・モニタを制御するために使用されるディスプレ
イ・アダプタ、メモリ１６にアクセスするため使用でき
るメモリ・コントローラ等がある。Ｉ／Ｏ装置１４をバ
スに直接接続する代わりに、Ｉ／Ｏブリッジからバス２
０に接続された２次（Ｉ／Ｏ）バスに接続してもよい。
コンピュータの処理装置は２つ以上使用してもよい。

【０００３】対称型マルチプロセッサ（ＳＭＰ）・コン
ピュータでは、処理装置はすべてほぼ同一である。つま
り、すべて、操作するための命令及びプロトコルの共通
セットまたはサブセットを使用し、一般的には同じアー
キテクチャを有する。代表的なアーキテクチャを図１に
示している。処理装置は、コンピュータを操作するため
にプログラム命令を実行する複数のレジスタ及び実行装
置を有するプロセッサ・コア２２を含む。代表的な処理
装置はInternational Business Machines Corporation
のＰｏｗｅｒＰＣ（^TM）プロセッサを含む。また処理装
置には、命令キャッシュ２４及びデータ・キャッシュ２
６等の１つ以上のキャッシュを置くことができる。これ
らは高速メモリ装置を使用して実現される。命令及びデ
ータは、オペランドが命令対データである操作をＣＰＵ
が要求しているかどうかを示す信号を調べることによっ
て、対応するキャッシュ２４または２６に向けることが
できる。キャッシュは、メモリ装置１６から値をロード
するという長いステップを避けることによって処理を高
速化するために、プロセッサによって繰り返しアクセス
される値を一時的に保存するため、広く用いられる。こ
れらのキャッシュは、プロセッサ・コアと一体化した１
つの集積チップ２８上にパッケージ化されるときは、"
オンボード"・キャッシュと呼ばれる。キャッシュはそ
れぞれ、プロセッサ・コアとキャッシュ・メモリとの間
のデータ及び命令の転送を管理するキャッシュ・コント
ローラ（図示なし）に関連付けられる。

【０００４】処理装置には、キャッシュ３０等のキャッ
シュを追加することができる。キャッシュ３０はレベル
２（Ｌ２）キャッシュと呼ばれるが、これはオンボード
（レベル１）・キャッシュ２４及び２６をサポートする
からである。言い換えると、キャッシュ３０はメモリ装
置１６とオンボードキャッシュの仲介役になり、オンボ
ード・キャッシュよりもかなり多くの情報（命令及びデ
ータ）を格納できるが、それだけアクセス時間がかか
る。例えばキャッシュ３０は、記憶容量が２５６または
５１２キロバイトのチップでよく、プロセッサは、総記
憶域６４キロバイトのオンボード・キャッシュを有する
ＩＢＭＰｏｗｅｒＰＣ（^TM）６０４シリーズ・プロセ
ッサでもよい。キャッシュ３０はバス２０に接続され、
メモリ装置１６からプロセッサ・コア２２への情報のロ
ードは、すべてキャッシュ３０を経由する。図１は２レ
ベルのキャッシュ階層のみ示しているが、多くのレベル
の直列接続キャッシュを有するマルチレベルのキャッシ
ュ階層も可能である。

【０００５】キャッシュには多くの"ブロック"があり、
ブロックは個別にさまざまな命令及びデータの値を格納
する。ブロックはどのキャッシュでも"セット"と呼ばれ
るブロックのグループに分けられる。セットは所与のメ
モリ・ブロックが存在できるキャッシュ・ブロックの集
合である。キャッシュには、与えられた任意のメモリ・
ブロックについて、プリセットされたマッピング・ファ
ンクションに従って、ブロックのマップ先になり得る固
有セットがある。セットのブロック数はキャッシュの連
想性と呼ばれる。例えば「２ウェイ・セット連想性」と
は、任意のメモリ・ブロックについて、キャッシュ内
に、メモリ・ブロックのマップ先になり得るブロックが
２つあるということを意味する。しかしながら、メイン
・メモリ内のいくつか異なるブロックを、与えられた任
意のセットにマップすることができる。１ウェイ・セッ
ト連想キャッシュは、直接マップされる。つまり、特定
のメモリ・ブロックを有することができるキャッシュ・
ブロックは１つしかない。キャッシュは、メモリ・ブロ
ックが任意のキャッシュ・ブロックを占有できる場合、
完全連想性があると言われる。つまりセットが１つあ
り、アドレス・タグはそのメモリ・ブロックの完全アド
レスである。

【０００６】代表的なキャッシュ・ライン（ブロック）
は、アドレス・タグ・フィールド、状態ビット・フィー
ルド、包括性ビット・フィールド（inclusivity bit fi
eld）、及び実際の命令またはデータを格納する値フィ
ールドを含む。状態ビット・フィールド及び包括性ビッ
ト・フィールドは、マルチプロセッサ・コンピュータ・
システムでキャッシュ・コヒーレンシを維持するため用
いられる。アドレス・タグは対応するメモリ・ブロック
の完全アドレスのサブセットである。効率のよい受信ア
ドレスとアドレス・タグ・フィールド内のタグの１つの
比較一致はキャッシュ・"ヒット"を示す。あるキャッシ
ュ内のアドレス・タグすべての集合（また時には状態ビ
ットと包括性ビットのフィールド）はディレクトリと呼
ばれ、値フィールドのすべての集合はキャッシュ・エン
トリ・アレイと呼ばれる。

【０００７】あるキャッシュでセットのすべてのブロッ
クが一杯で、そのキャッシュが"読取り"にしろ"書込み"
にしろ、完全セットにマップされるメモリ位置に対する
何らかのリクエストを受信したとき、キャッシュはクラ
スに現在あるブロックの１つを"追い出す"必要がある。
キャッシュは、追い出すブロックを、当業者には知られ
ている手段（最低使用頻度（ＬＲＵ：least recently u
sed）、ランダム、疑似ＬＲＵ等）の１つで選択する。
選択されたブロックのデータが変更された場合、そのデ
ータはメモリ階層で次に最下位のレベルに書込まれる。
このレベルはもう１つのキャッシュ（Ｌ１またはオンボ
ード・キャッシュの場合）かもしれないし、メイン・メ
モリ（図１の２レベル・アーキテクチャに示すようなＬ
２キャッシュの場合）かもしれない。包括の原理から、
階層の下位レベルには、書込まれた変更済みデータを保
持するために利用できるブロックが常にある。しかしな
がら、選択されたブロックのデータが変更されていない
場合は、ブロックはただ棄却されるだけであり、階層の
次に最下位のレベルに書込まれることはない。ブロック
を階層の１レベルから削除するこのプロセスは"追い出
し"として知られる。このプロセスの終わりに、キャッ
シュは、追い出されたブロックのコピーを保持しなくな
る。

【０００８】プロセッサで実行される手順（プログラ
ム）の中には、キャッシュの効率が低下するように、限
られた数のセット（コングルエンス・クラス（congruen
ce class））を繰り返し使用して予定外の効果を上げる
手順がある。言い換えると、ある手順により、他の多数
のメンバを使用しないとき、少数のコングルエンス・ク
ラス・メンバで多数の除外または追い出し（eviction）
が生じる際には、メモリ待ち時間の遅延は増加する。ス
トライドと呼ばれるこの効果は、コングルエンス・マッ
ピング・ファンクション、及び特定の手順によりメイン
・メモリ装置（ＲＡＭ１６）のメモリ・ブロックを割当
てる方法に関係する。特定の連想キャッシュを使用する
統計上の利点は、このようなタイプの手順については失
われる。

【０００９】時によっては失われる他の統計的な利点
は、命令及びデータ（Ｉ／Ｄ）に対して個別のキャッシ
ュ・ブロック（キャッシュ２４及び２６等）を与えるこ
とに関係する。代表的な処理装置では、命令及びデータ
に同数のＬ１キャッシュ・ブロックが与えられるので、
使用可能なキャッシュ・エントリの５０％は、このレベ
ルで命令に使用でき、５０％はデータに使用できる。Ｌ
２キャッシュの場合は区別がない。つまりＬ２レベルの
キャッシュの１００％を命令に使用でき、１００％をデ
ータに使用できる。しかし命令対データに使用可能なブ
ロックのこの比率により、ある手順に関してキャッシュ
を常に最大限の効率で使用できるわけではない。アプリ
ケーション・ソフトウェアの多くは、分割Ｉ／Ｄキャッ
シングのシステムで実行されるときは問題なく、他のア
プリケーションは、統合された均一なキャッシュ上で実
行されるとき（合計キャッシュ・スペースが同じとき）
は問題ない。キャッシュＩ／Ｄ比が、命令とデータのキ
ャッシュ操作の実際の比率に特別に近くはない場合に
も、除外の数は許容できないほど大きい。

【００１０】失われる可能性のある連想キャッシュの他
の統計的利点は、所与のセットで除外するキャッシュ・
ブロックが決定されるキャッシュ置換アルゴリズムに関
係する。例えば８ウェイ連想キャッシュに用いられるＬ
ＲＵ装置では、セットに関連付けられた７ビット・フィ
ールドが調べられる。プロセッサで実行される手順の特
定のサイクル周波数により、この７ビットＬＲＵアルゴ
リズムでは、キャッシュが４ウェイ連想、または２ウェ
イ連想だった場合よりも多くのキャッシュ・ブロックが
除外される。

【００１１】ストライド条件または命令／データ比は、
技術的用途によって異なることがあるので、連想キャッ
シュを統計的に最適化することは困難である。例えば、
デスクトップ・パブリッシング・プログラム、在庫管理
プログラム、空気力学モデリング・プログラム、及びサ
ーバ・プログラムでは、ストライド条件または命令操作
のデータ操作に対する比が異なることがある。従って、
プロセッサで実行される手順のタイプとは無関係に、そ
の統計的利点をより完全に最適化するキャッシュを設計
することが望ましく、且つ好都合である。

【００１２】

【発明が解決しようとする課題】従って、本発明の目的
は、コンピュータ・システムのプロセッサのための改良
されたキャッシュを提供することである。

【００１３】本発明の他の目的は、連想性に関して統計
的利点を最適化するキャッシュを提供することである。

【００１４】本発明の他の目的は、命令対データのアク
セスに関して統計的利点を最適化するキャッシュを提供
することである。

【００１５】本発明の他の目的は、キャッシュ置換（除
外）アルゴリズムに関して統計的利点を最適化するキャ
ッシュを提供することである。

【００１６】

【課題を解決するための手段】上述の目的は、コンピュ
ータ・システムのプロセッサによって用いられるキャッ
シュの操作を改良する方法によって達成される。この方
法は、一般にはキャッシュの複数のブロックの中から除
外するキャッシュ・ブロックを選択するため、キャッシ
ュ置換制御装置を与えるステップ、キャッシュ置換制御
装置によって用いられる置換アルゴリズムに、あるレベ
ルのランダムネスを選択的に導入するステップ、及びそ
の後に、置換アルゴリズムに従ってキャッシュ・ブロッ
クを除外するステップを含む。後に異なるレベルのラン
ダムネスを置換アルゴリズムに導入することもできる。
その後、異なるレベルのランダムネスを使用した置換ア
ルゴリズムに従ってキャッシュ・ブロックが除外され
る。ランダムネスのレベルは、基本置換アルゴリズムを
使用してコングルエンス・クラスのサブセットを選択
し、次に１つ以上のランダム・ビットにより、サブセッ
ト内の除外するキャッシュ・ブロックを選択することに
よって選択的に導入できる。４ウェイ・セット連想キャ
ッシュでは３つのレベルのランダムネスが、８ウェイ・
セット連想キャッシュでは４つのレベルのランダムネス
が考えられる。基本置換アルゴリズムは、ＬＲＵ（leas
t recently used）アルゴリズムでよい。ランダムネス
のレベルは、キャッシュで生じるストライドからの除外
を最適化するよう選択できる。

【００１７】上述の、並びに本発明の更なる目的、機
構、及び利点が、以下の詳細な説明で明らかになろう。

【００１８】本発明は、処理装置のキャッシュによる操
作効率の向上を対象にしており、キャッシュ効率を改良
するいくつかの方法を提示する。１つの方法は、キャッ
シュ構造の連想性に関係する。これは１つのキャッシュ
４０の異なる状態を示す図２乃至図４から理解できよ
う。キャッシュ・コントローラ（図示なし）を追加でき
るキャッシュ４０では、連想性を与えるために複数のキ
ャッシュ・ラインがセット（コングルエンス・クラス）
として配置される。図２に示したキャッシュ４０の第１
状態では、セットに８つのキャッシュ・ラインがある。
例えば、セット１にキャッシュ・ライン１〜８、セット
２にキャッシュ・ライン９〜１６等があり、これは８ウ
ェイ連想である。キャッシュ４０のエントリは、アドレ
ス・タグ・フィールド、状態ビット・フィールド、包括
性ビット・フィールド、値フィールドなど、形式を変え
ることができる。

【００１９】図２の静的イメージからは、従来の８ウェ
イ連想キャッシュの利点が得られるが、本発明はさら
に、図３及び４に示すように、連想の適合性またはプロ
グラム可能性を与える。図３の８ブロックのセットはそ
れぞれ、セット１ａ、１ｂ、２ａ、及び２ｂと、より小
さいセットに分けられている。これらのセットはそれぞ
れ４つのブロックを含むので、キャッシュ４０のこの状
態は４ウェイ連想である。図４のセットはさらに分割さ
れ、セット当たり２つのブロックが作られる。つまり２
ウェイ連想である。このプログレッション（progressio
n）は１ウェイ連想にまで展開することもできる。また
プログレッションを、例えば８の代わりに１６等、最大
のセットでキャッシュ・ブロックの数を多くして始める
こともできよう。

【００２０】キャッシュ４０の連想レベルを変更する機
能により、キャッシュ４０は、より効率よく動作する。
従来技術の項で述べているように、ストライドが生じる
手順もある。つまりキャッシュが、特定の連想サイズも
一因になり、１つまたは２つのコングルエンス・クラス
でロール（roll）する。このような手順の場合、ストラ
イドをなくす、または最小にするには、異なる連想サイ
ズを使用する。連想サイズは、異なるアプリケーション
に応じて、所望の連想レベルを示すため用いられるプロ
グラマブル・ビットを与えることによって最適化するこ
とができる。例えば表１に、図２乃至図４の適合可能な
連想機構を実現するため、プログラム可能な２ビット機
構がどのように用いられるかを示す。

【表１】

【００２１】２ビット機構は、８ウェイ連想を示すた
め"００"にセットされ、４ウェイ連想を示すため"０１"
にセットされ、２ウェイ連想を示すため"１０"にセット
され、１ウェイ連想（つまり直接マップ）を示すため"
１１"にセットされる。セットに必要になる小分割は、
コングルエンス・クラス・マッピング・ファンクション
を変更し、１つ以上の元のセットの特定のサブセットを
従来のように使用することによって制御される。言い換
えると、２つのセット、１ａ及び１ｂ、は元のセット１
にあったキャッシュ・ラインのみを含み、セット１ｃ及
び１ｄは、小分割された最初のセット１ａにあったキャ
ッシュ・ラインだけを含む。一定数のキャッシュ・ライ
ンを有するキャッシュ４０の場合、これはつまり、コン
グルエンス・クラス数がＮとＮ×８の間で変化すること
を意味する。ここでＮは基本マッピング・ファンクショ
ンによって指示されるコングルエンス・クラスの最小数
である。

【００２２】特定のサブセットが識別される方法は変更
することができる。メモリ・ブロックの完全アドレスの
一部を使用して、コングルエンス・クラスのマッピング
を洗練することができる。例えば、３２ビット完全アド
レスは、図５に示すように、オフセット・フィールド、
コングルエンス・クラス・フィールド、及びアドレス・
タグ・フィールドの３つの部分に分けられる。オフセッ
ト・フィールドはこの例では６ビットで、実際の命令ま
たはデータに対応した値フィールド内のバイトの正確な
位置を定義する。コングルエンス・クラス・フィールド
は、マッピング・ファンクションの入力オペランドとし
て用いられ、メモリ・ブロックを１次セット、つまりセ
ット１等、８つのブロックを有するセットに割当てる。
この例で、８ウェイ連想については、コングルエンス・
クラス・フィールドは１３ビットで、アドレス・タグも
１３ビットであるが、コングルエンス・クラス・フィー
ルドは、他の連想レベルについてはアドレス・タグから
の他のビットを使用することで効果的に拡大されるの
で、アドレス・タグ・フィールドは収縮する。４ウェイ
連想は、元のアドレス・タグ・フィールドの最後のビッ
トを使用し、８ブロック・セットをそれぞれ４ブロック
の２つの小さいグループに小分割することによって実現
される。同様に２ウェイまたは１ウェイ連想は、元のア
ドレス・タグ・フィールドの第２ビットと最後のビット
及び第３ビットと最後のビットを使用し、セットをさら
に小分割することで実現される。

【００２３】プログラマブル連想性は、２ビット機構を
設定するハードウェアまたはソフトウェアのいずれかに
より提供できる。前者の例では、ロジック装置がミス情
報を集め、１つのコングルエンス・クラス、またはミス
・レートがしきい値を超える一定数のコングルエンス・
クラスの最大ミス・レート等の定義済み基準をもとに連
想レベルを選択できる。この連想性の管理は、コンピュ
ータ・システムで実行されるアプリケーションのタイプ
の変化による等、プロセッサで実行される手順の性質変
化にキャッシュが素早く応答するように動的に行える。
これに代えて、マニュアルで選択できるよう１組の接続
ピンを使用することもできよう。ソフトウェア例（プロ
グラム命令）も同様に動作して連想レベルを調整する。
ストライドが生じ得る手順のあることがわかっている特
定のプログラムには、アプリケーション・ソフトウェア
を用意することができるが、アプリケーション・ソフト
ウェアは、ストライドによる余分なメモリ待ち時間を少
なくするため、２ビット連想機構を、既知の適切なレベ
ルにセットできる。アプリケーション・ソフトウェアに
より、プログラムによって用いられる異なるルーチンを
もとに連想レベルを間欠的に調整することもできよう。
オペレーティング・システムのソフトウェアも、アドレ
ス・リクエストを監視し、手順の動作が異なる連想レベ
ルでどれほど効率的かを予測する形で確認するために使
用でき、オペレーティング・システムは次に最も効率の
いいレベルを選択できる。この手法では、プログラムの
実行途中であっても、連想レベルがリアルタイムに調整
される。

【００２４】上述のプログラマブル連想性では、コング
ルエンス・クラスに影響を与える１つの方法が与えられ
る。つまり、代表例では、ある乗数に従ってコングルエ
ンス・クラス数を増やすことによる。本発明に従ってキ
ャッシュ効率を改良する他の方法は、コングルエンス・
クラスの異なる側面、つまり、どのコングルエンス・ク
ラスにどのメモリ・ブロックを割当てるかを指定するマ
ッピング・ファンクションの側面に関係する。従来技術
のマッピング手法は通常、モジュロ型ファンクションを
伴うが、このファンクションの周期的な性質は、ストラ
イドの問題につながることがある。本発明はこの問題を
解決するために、完全アドレスまたは部分アドレスを新
たな固有アドレスにエンコードできるマッピング・ファ
ンクションを使用する。つまり特定のコングルエンス・
クラスに対する特定のアドレスの任意（定義済み）割当
てが実現される。図６の例に示すように、完全（元の）
３２ビット・アドレスの１０番目のビットは、エンコー
ドされた３２ビット・アドレスの２６番目のビットにシ
フトされ、元のアドレスの２６番目のビットはエンコー
ドされたアドレスの１８番目のビットにシフトされ、元
のアドレスの１８番目のビットはエンコードされたアド
レスの２２番目のビットにシフトされ、完全（元の）ア
ドレスの２２番目のビットはエンコードされたアドレス
の１０番目のビットにシフトされる。この例では、アド
レス・ビットを切り替えることによって、特定のコング
ルエンス・クラスに対する特定のアドレスの固有の任意
割当てが実現される。

【００２５】コングルエンス・クラスのこのプログラム
可能性はまた、ハードウェアまたはソフトウェアの例で
も達成できる。アプリケーション・ソフトウェアは、キ
ャッシュ／プロセッサに送られる前にアドレスの適切な
エンコーディングを与えることができる。オペレーティ
ング・システム・ソフトウェアは、メモリ・ブロックの
割当てを監視し、ハードウェアに送られたときインタプ
リタを使用してアドレスを変更することができる。こう
した手法では、コングルエンス・クラスのメンバを間欠
的にまたはリアルタイムに調整できる。図７にハードウ
ェア例を示す。複数の５ビット・プログラマブル・フィ
ールド５０が、エンコードされるアドレス（完全または
部分）の各ビットに１つ与えられる。これら５ビット・
プログラマブル・フィールド５０は、それぞれ対応する
５／３２デコーダ５２に接続し、デコーダ出力（３２ラ
イン）はそれぞれ対応するＡＮＤゲート・アレイ５４
（アレイ当たり３２のＡＮＤゲート）に接続する。ＡＮ
Ｄゲート・アレイ５４の出力（それぞれ３２ライン）は
複数のＯＲゲート５６に分岐する。ＯＲゲート５６は、
それぞれＡＮＤゲート・アレイ５４それぞれから１つの
入力を受け取る。ＯＲゲート５６の出力により、エンコ
ードされたアドレスのシフト値が得られる。このハード
ウェアは、５ビット・プログラマブル・フィールド５０
に適切な値を選択することでプログラマブル・コングル
エンス・クラスを与える他に、定義済み基準をもとに、
ミス情報を集め、任意マッピング・ファンクションを選
択する、というように動的でもある。このハードウェア
例では、コヒーレンシを保証するために連想レベルを変
更する前に、キャッシュのフラッシュが必要である。

【００２６】上述のプログラマブル・コングルエンス・
クラスは、先に述べたプログラマブル連想性から独立し
ているが、この２つは組み合わせて使用できる。例えば
プログラマブル連想性は、２ビット連想機構をセットし
てそのレベルを最適化するために使用でき、次に５ビッ
ト・エンコード・フィールドを使用するプログラマブル
・コングルエンス・クラスにより、除外レートを小さく
することができる。

【００２７】本発明に従ってキャッシュ効率を改良する
他の方法は、命令対データに対するキャッシュの使用に
関係する。ＣＰＵキャッシング構造を実現したコンピュ
ータ・システムでは、命令及びデータの扱いが常に同じ
統合キャッシュとして、あるいは合計キャッシュＲＡＭ
スペースの一部（普通は１／２）が命令専用であり、残
りはデータ専用である分割Ｉ／Ｄキャッシュとして、キ
ャッシュを前もって定義するのが普通である。また、従
来の分割Ｉ／Ｄキャッシュ設計では、命令対データの専
用スペース比は固定である（通常は５０：５０）。

【００２８】この開示では、命令／データ分割比を、程
度を変えてプログラムできる新規なキャッシュ割当て設
計について述べる。ある実施例では、このプログラム可
能性は、ソフトウェアによる読取り及び書込みが可能な
２ビットＩ／Ｄ機構（以下、"id_ratio"と呼ぶ）により
実現される。この機構の設定の定義を、代表例について
表２に示すが、本発明は、他のキャッシュ比にも簡単に
適合及び（または）拡張することができる。

【表２】

【００２９】プログラマブルＩ／Ｄ比は、セット連想キ
ャッシュの犠牲（Victim）置換アルゴリズムを変更する
ことによって達成される。下の実施例では、キャッシュ
は８ウェイ・セット連想（８つのメンバはａ、ｂ、ｃ、
ｄ、ｅ、ｆ、ｇ、ｈと示している）であり、７ビットＬ
ＲＵアルゴリズムが用いられる。この例では、通常の犠
牲選択ロジックが次のブール式で記述される。次のロジ
ックは従来技術の７ビットＬＲＵアルゴリズムを表す
（これらブール式で"＾"は論理否定（反転）、"＆"は論
理積、"＋"は論理和である）。 victim_is_member_a = ^lru_bit(0) & ^lru_bits(1) &
^lru_bits(3); victim_is_member_b = ^lru_bit(0) & ^lru_bits(1) &
lru_bits(3); victim_is_member_c = ^lru_bit(0) & lru_bits(1) & ^
lru_bits(4); victim_is_member_d = ^lru_bit(0) & lru_bits(1) & l
ru_bits(4); victim_is_member_e = ^lru_bit(0) & ^lru_bits(2) &
^lru_bits(5); victim_is_member_f = ^lru_bit(0) & ^lru_bits(2) &
lru_bits(5); victim_is_member_g = ^lru_bit(0) & lru_bits(2) & ^
lru_bits(6); victim_is_member_h = ^lru_bit(0) & lru_bits(2) & l
ru_bits(6); Ｉ／Ｄ比を変更するため、"id_ratio"の設定、及びＣＰ
Ｕが命令の読取り（i_read）を要求しているかデータの
読取り（^i_read）を要求しているかに応じて、選択さ
れた除外は、次のように特定のコングルエンス・クラス
・メンバだけに限定される。 d50_mode = (id_ratio = "01"); i50_mode = (id_ratio = "20"); gate_abcd = ^((d50_mode & ^i_read)+(i50_mode & i_r
ead))

【００３０】"gate_abcd"信号では、これが"１"なら、
コングルエンス・クラス・メンバａ、ｂ、ｃ、またはｄ
は置換する犠牲として使用できる。"gate_abcd"が"０"
なら、コングルエンス・クラス・メンバｅ、ｆ、ｇ、ま
たはｈを犠牲として使用しなければならない。従って犠
牲選択式は次に示すように変更される。 victim_is_member_a = gate_abcd & ^lru_bit(0) & ^lr
u_bits(1) & ^lru_bits(3); victim_is_member_b = gate_abcd & ^lru_bit(0) & ^lr
u_bits(1) & lru_bits(3); victim_is_member_c = gate_abcd & ^lru_bit(0) & lru
_bits(1) & ^lru_bits(4); victim_is_member_d = gate_abcd & ^lru_bit(0) & lru
_bits(1) & lru_bits(4); victim_is_member_e = (^gate_abcd + lru_bit(0)) & ^
lru_bits(2) & ^lru_bits(5); victim_is_member_f = (^gate_abcd + lru_bit(0)) & ^
lru_bits(2) & lru_bits(5); victim_is_member_g = (^gate_abcd + lru_bit(0)) & l
ru_bits(2) & ^lru_bits(6); victim_is_member_h = (^gate_abcd + lru_bit(0)) & l
ru_bits(2) & lru_bits(6);

【００３１】上に述べた本発明の使用例として、id_rat
ioが"０１"の場合を考える。この場合では、ＣＰＵリク
エストが命令読取りのとき、gate_abcdは"１"であり、
８つのコングルエンス・クラス・メンバはいずれも置換
のための犠牲として選択できる。ＣＰＵがデータ読取り
を要求した場合、犠牲にするメンバはｅ、ｆ、ｇ、また
はｈしか選択できない。その結果、命令を格納するため
キャッシュ全体を使用できるが、データの格納にはキャ
ッシュの５０％しか使用できない。従って、このモード
ではキャッシュは命令の方へ"重み付け"される。上述の
例は、命令／データ・キャッシュ・ブロック使用比とし
て２：１、１：１、及び１：２を示す。３：１、４：
１、８：１等、例えば使用可能なキャッシュの量を１
２．５％増分することによって他の比率も可能である。
１２．５％、２５％、３７．５％、５０％、６２．５
％、７５％、８７．５％、または１００％の相対使用率
を得るためには３ビットＩ／Ｄが用いられる。

【００３２】この新規のキャッシュ割当て設計により、
プログラム可能な命令／データ分割比が得られる。これ
によりアプリケーション・ソフトウェアまたはオペレー
ティング・システムは、性能を最適化するため、キャッ
シュの命令対データのリアルタイムの重み付けを調整す
ることができる。Ｉ／Ｄキャッシュ比の設定は、いつで
も変更でき、ソフトウェアによってＣＰＵ及びキャッシ
ュの状態を最初にセーブする必要がない。この手法はま
た、ハードウェアでも、命令読取り対データ読取りの相
対量を監視することによって実現できる。ＬＲＵ犠牲選
択ロジックの他には、キャッシュ・コントローラ・ロジ
ックが、どのＩ／Ｄ比モードが使われているかに無関係
に同じように機能する。このプログラム可能性は、どの
タイプのキャッシュ（インライン、ルックアサイド、ラ
イトスルー等）でも使用できるよう適合化できる。上に
述べた本発明の実施例は、８ウェイ・セット連想キャッ
シュを使用するが、本発明は、程度に無関係に任意の連
想性（２ウェイ以上）に適用可能である。また上述の実
施例は、７ビットＬＲＵアルゴリズムを用いるが、本発
明は他のＬＲＵアルゴリズムにもて適用できる。犠牲選
択ロジックを、変更可能なＩ／Ｄの重み付けを達成する
手段として使用することによって、かなり少ないロジッ
ク回路でも本発明を実現可能である。

【００３３】本発明に従って、キャッシュ効率を改良す
る他の方法は、２つの値クラスの相対的なキャッシュ使
用方法（命令またはデータ）を調整する以外の方法で、
キャッシュ・ブロックを除外するメカニズムに関係す
る。キャッシュの効率を改良するために上述の手法を採
用したとしても、何らかのレベルのストライドが、特に
メモリ・ブロックとそれぞれのキャッシュ・ブロックの
割当ての間で起こる周期的なパターンにより生じること
がある。これらの場合では、キャッシュ置換アルゴリズ
ム（ＬＲＵ等）をさらに変更して、非効率で周期的な除
外を解消し、従ってストライドを少なくする定義済みラ
ンダムネス要素を導入する方法を提供できる。

【００３４】本発明のこの側面の１つの実施例を図８に
示す。キャッシュ６０は数個のコンポーネントを含み、
コンポーネントはキャッシュに格納されたさまざまな値
のキャッシュ・エントリ・アレイ６２、エントリを追跡
するためのキャッシュ・ディレクトリ６４、及び乱数に
より選択的に変更されるＬＲＵアルゴリズムを使用する
置換制御装置６６を含む。この実施例では、ランダムネ
ス要素を導入するため、置換制御装置の４つの変形例が
考えられる。最初の変形例６８では、ランダム化が導入
されないときは、７ビットにより８ブロックのセット
（つまりキャッシュが８ウェイ連想）から最低使用頻度
（least recently used）のキャッシュ・ブロックが選
択され、ランダマイザのために追加ビットを必要としな
い。

【００３５】わずかなランダム化が望ましい場合は、第
２変形例７０で、少量のランダムネスを導入することに
よって置換アルゴリズムが変更される。所与のコングル
エンス・クラス（キャッシュ・セット）内で、それぞれ
クラスの４分の１を含む４つのグループから、または８
ウェイ連想キャッシュの場合では２つのブロックから、
最初に選択を行うためのＬＲＵビットは３つしか用いら
れない。この２メンバのグループ（サブクラス）が選択
された後、１つのランダム・ビットにより、そのグルー
プ内の２つのブロックのうち１つが選択される。ランダ
ムネスを増やすことが求められる場合は、第３変形例７
２により、１ビットＬＲＵアルゴリズムが用いられ、元
のコングルエンス・クラスが２つのサブクラス（キャッ
シュが８ウェイ連想の場合はそれぞれ４ブロック）に分
割され、２つのランダム・ビットにより、サブクラスの
４つのメンバのうち１つが選択される。最後の変形例７
４では、ＬＲＵビットは用いられず、３つのランダム・
ビットにより、８メンバ・クラス内で除外するブロック
が完全に決定される。

【００３６】図８でＬＲＵ及びランダムのブロックは別
々に示してあるが、これらは組み合わせて１つの７ビッ
ト・フィールドを作ることもできる。言い換えると、こ
のフィールドは完全に変形例６８に用いられるが、この
フィールドの４ビットだけは変形例７０（ＬＲＵビット
３個とランダム・ビット１個）及び７４（ＬＲＵビット
２個とランダム・ビット２個）に用いられ、フィールド
の３ビットだけが変形例７４に用いられる。

【００３７】図８の例は８ウェイ連想の場合であるが、
当業者には明らかなように、本発明は他のセット・サイ
ズにも適用できる。例えば４ウェイ連想セットでは３つ
の変形例が考えられる。第１変形例は３つのＬＲＵビッ
トを使用し、ランダム・ビットは使用しない。第２変形
例は１つのＬＲＵビット及び１つのランダム・ビットを
使用する。第３変形例はＬＲＵビットは使用せず、２つ
のランダム・ビットを使用する。２ウェイ連想セットで
は２つの変形例が考えられる。第１変形例は１つのＬＲ
Ｕビットを使用しランダム・ビットは使用しない。第２
変形例はＬＲＵビットは使用せず、１つのランダム・ビ
ットを使用する。このような可変ランダムネスは、除外
を最適化するもう１つの方法であり、上述のプログラマ
ブル連想性、プログラマブル・コングルエンス・クラ
ス、及びプログラマブルＩ／Ｄ比のいずれにも使用でき
る。

【００３８】ここで述べた改良されたキャッシュは、オ
ンボード（Ｌ１）キャッシュとして、または下位レベル
・キャッシュ（Ｌ２等）として使用できる。キャッシュ
のこのような構成は、キャッシュ階層のただ１つのキャ
ッシュ・レベル、または限られた数のキャッシュ・レベ
ルでしか使用できない場合もあるが、当業者には明らか
なように、性能面の利点を最大にするように、すべての
キャッシュ・レベルについてこの構成を使用することも
望ましい。本発明は、一般にはシングル・プロセッサの
コンピュータ・システム並びにマルチプロセッサのコン
ピュータ・システムに適用できる。

【００３９】本発明が特定の実施例を参照して述べられ
たが、この説明は、制限を意味するものではない。当業
者には、本発明の説明の参照に際し、開示された実施例
の様々な変更が、本発明の代替実施例と同様に明らかに
なろう。従って、このような変更は、本発明の趣旨また
は範囲を逸脱することなく実施され得ることが考慮され
る。

【００４０】まとめとして、本発明の構成に関して以下
の事項を開示する。

【００４１】（１）コンピュータ・システムのプロセッ
サによって用いられるキャッシュの操作を改良する方法
であって、前記キャッシュの複数のブロックから除外す
るキャッシュ・ブロックを選択するためキャッシュ置換
制御装置を与えるステップと、前記キャッシュ置換制御
装置によって用いられる置換アルゴリズムに、あるレベ
ルのランダムネスの選択的に導入するステップと、その
後に前記置換アルゴリズムに従ってキャッシュ・ブロッ
クを除外するステップと、を含む、方法。（２）前記置換アルゴリズムに異なるレベルのランダム
ネスを選択的に導入し、その後に前記置換アルゴリズム
に従ってキャッシュ・ブロックを除外するステップを含
む、前記（１）記載の方法。（３）基本置換アルゴリズムを使用し、コングルエンス
・クラスのサブセットを選択することによって前記レベ
ルのランダムネスが選択的に導入され、１つ以上のラン
ダム・ビットにより前記サブセット内の除外するキャッ
シュ・ブロックが選択される、前記（１）記載の方法。（４）前記レベルのランダムネスを前記置換アルゴリズ
ムに選択的に導入する前記ステップは、少なくとも３つ
の異なるレベルのランダムネスから前記レベルを選択す
る、前記（１）記載の方法。（５）前記レベルのランダムネスを前記置換アルゴリズ
ムに選択的に導入する前記ステップは、正確に４つの異
なるレベルのランダムネスから前記レベルを選択する、
前記（１）記載の方法。（６）前記置換アルゴリズムは最低使用頻度（ＬＲＵ）
アルゴリズムを含む、前記（１）記載の方法。（７）前記レベルのランダムネスは、前記キャッシュで
生じるストライドからの除外を最適化するため選択され
る、前記（４）記載の方法。（８）前記置換アルゴリズムは非ランダム・アルゴリズ
ム及びランダム・アルゴリズムを含み、前記置換アルゴ
リズムにより複数の置換制御ビットが用いられ、前記置
換制御ビットの数は、前記非ランダム・アルゴリズムと
ランダム・アルゴリズムの組み合わせを変えて少なくと
も３つの異なるレベルのランダムネスを実現するために
必要なビットの最大数に等しい、前記（４）記載の方
法。（９）前記非ランダム・アルゴリズムは最低使用頻度
（ＬＲＵ）アルゴリズムであり、前記キャッシュはｎウ
ェイ連想であり、前記置換制御ビットの数はｎ−１に等
しい、前記（８）記載の方法。（１０）プロセッサと、メモリ装置と、前記プロセッサ
及び前記メモリ装置に接続され、前記メモリ装置のアド
レスに対応したメモリ・ブロックを格納する複数のキャ
ッシュ・ブロックを有するキャッシュと、前記キャッシ
ュの複数のブロックから除外するキャッシュ・ブロック
を選択する手段を有し、キャッシュ置換制御装置によっ
て用いられる置換アルゴリズムに、あるレベルのランダ
ムネスを選択的に導入する手段を含む、前記キャッシュ
置換制御装置と、を含む、コンピュータ・システム。（１１）前記キャッシュ置換制御装置は、前記キャッシ
ュで生じるストライドからの除外を最適化するため、前
記置換アルゴリズムに導入される前記レベルのランダム
ネスを変更する手段を含む、前記（１０）記載のコンピ
ュータ・システム。（１２）基本置換アルゴリズムを使用してコングルエン
ス・クラスのサブセットを選択することによって前記レ
ベルのランダムネスが選択的に導入され、ランダム・ビ
ットにより前記サブセット内の除外するキャッシュ・ブ
ロックが選択される、前記（１０）記載のコンピュータ
・システム。（１３）前記レベルのランダムネスは、少なくとも３つ
の異なるレベルのランダムネスから選択される、前記
（１０）記載のコンピュータ・システム。（１４）前記レベルのランダムネスは、正確に４つの異
なるレベルのランダムネスから選択される、前記（１
０）記載のコンピュータ・システム。（１５）前記置換アルゴリズムは最低使用頻度（ＬＲ
Ｕ）アルゴリズムを含む、前記（１０）記載のコンピュ
ータ・システム。（１６）前記置換アルゴリズムは非ランダム・アルゴリ
ズム及びランダム・アルゴリズムを含み、前記置換アル
ゴリズムにより複数の置換制御ビットが用いられ、前記
置換制御ビットの数は、前記非ランダム・アルゴリズム
とランダム・アルゴリズムの組み合わせを変えて少なく
とも３つの異なるレベルのランダムネスを実現するため
に必要なビットの最大数に等しい、前記（１３）記載の
コンピュータ・システム。（１７）前記非ランダム・アルゴリズムは最低使用頻度
（ＬＲＵ）アルゴリズムであり、前記キャッシュはｎウ
ェイ連想であり、前記置換制御ビットの数はｎ−１に等
しい、前記（１６）記載のコンピュータ・システム。

【図面の簡単な説明】

【図１】従来技術のマルチプロセッサ・コンピュータ・
システムのブロック図である。

【図２】連想キャッシュの連想性を変更する新規な方法
を示す図である。

【図３】連想キャッシュの連想性を変更する新規な方法
を示す図である。

【図４】連想キャッシュの連想性を変更する新規な方法
を示す図である。

【図５】アドレス・タグからのビットにより、追加クラ
スを作成することによって変更される、基本コングルエ
ンス・クラス・マッピングを使用し、図２乃至図４に示
したような、プログラマブル連想性を与える方法を示す
図である。

【図６】アドレス・ビットを切り替えることにより、特
定のコングルエンス・クラスに特定のアドレスを任意に
割当てられるようにするプログラマブル・コングルエン
ス・クラスを与える新規な方法を示す図である。

【図７】完全アドレスの各ビットのエンコード値を使用
し、図６に示したようなプログラマブル・コングルエン
ス・クラスを与える１つのハードウェア例の概略図であ
る。

【図８】ＬＲＵアルゴリズムにランダムネスの要素を程
度を変えて導入できる置換制御装置を有する新規なキャ
ッシュのブロック図である。

【符号の説明】

１０コンピュータ・システム１２ａ、１２ｂ処理装置１４入出力（Ｉ／Ｏ）装置１６メモリ装置１８ファームウェア（ＲＯＳ）２０汎用相互接続部２２プロセッサ・コア２４命令キャッシュ２６データ・キャッシュ２８集積チップ３０、４０、６０キャッシュ５０プログラマブル・フィールド５２デコーダ５４ＡＮＤゲート・アレイ５６ＯＲゲート・アレイ６２キャッシュ・エントリ・アレイ６４キャッシュ・ディレクトリ６８、７０、７２、７４変形例

───────────────────────────────────────────────────── フロントページの続き (72)発明者レオ・ジェームズ・クラークアメリカ合衆国78628、テキサス州ジョージタウン、ラ・クインタ・ドライブ 30514 (72)発明者ジョン・スティーブン・ドッドソンアメリカ合衆国78660、テキサス州フェラガービル、ベル・ロック・サークル 1205 (72)発明者ジェリー・ドン・リュイスアメリカ合衆国78681、テキサス州ラウンド・ロック、アローヘッド・サークル 3409

Claims

【特許請求の範囲】

【請求項１】コンピュータ・システムのプロセッサによ
って用いられるキャッシュの操作を改良する方法であっ
て、前記キャッシュの複数のブロックから除外するキャッシ
ュ・ブロックを選択するためキャッシュ置換制御装置を
与えるステップと、前記キャッシュ置換制御装置によって用いられる置換ア
ルゴリズムに、あるレベルのランダムネスの選択的に導
入するステップと、その後に前記置換アルゴリズムに従ってキャッシュ・ブ
ロックを除外するステップと、を含む、方法。
【請求項２】前記置換アルゴリズムに異なるレベルのラ
ンダムネスを選択的に導入し、その後に前記置換アルゴ
リズムに従ってキャッシュ・ブロックを除外するステッ
プを含む、請求項１記載の方法。
【請求項３】基本置換アルゴリズムを使用し、コングル
エンス・クラスのサブセットを選択することによって前
記レベルのランダムネスが選択的に導入され、１つ以上
のランダム・ビットにより前記サブセット内の除外する
キャッシュ・ブロックが選択される、請求項１記載の方
法。
【請求項４】前記レベルのランダムネスを前記置換アル
ゴリズムに選択的に導入する前記ステップは、少なくと
も３つの異なるレベルのランダムネスから前記レベルを
選択する、請求項１記載の方法。
【請求項５】前記レベルのランダムネスを前記置換アル
ゴリズムに選択的に導入する前記ステップは、正確に４
つの異なるレベルのランダムネスから前記レベルを選択
する、請求項１記載の方法。
【請求項６】前記置換アルゴリズムは最低使用頻度（Ｌ
ＲＵ）アルゴリズムを含む、請求項１記載の方法。
【請求項７】前記レベルのランダムネスは、前記キャッ
シュで生じるストライドからの除外を最適化するため選
択される、請求項４記載の方法。
【請求項８】前記置換アルゴリズムは非ランダム・アル
ゴリズム及びランダム・アルゴリズムを含み、前記置換アルゴリズムにより複数の置換制御ビットが用
いられ、前記置換制御ビットの数は、前記非ランダム・アルゴリ
ズムとランダム・アルゴリズムの組み合わせを変えて少
なくとも３つの異なるレベルのランダムネスを実現する
ために必要なビットの最大数に等しい、請求項４記載の方法。
【請求項９】前記非ランダム・アルゴリズムは最低使用
頻度（ＬＲＵ）アルゴリズムであり、前記キャッシュはｎウェイ連想であり、前記置換制御ビットの数はｎ−１に等しい、請求項８記載の方法。
【請求項１０】プロセッサと、メモリ装置と、前記プロセッサ及び前記メモリ装置に接続され、前記メ
モリ装置のアドレスに対応したメモリ・ブロックを格納
する複数のキャッシュ・ブロックを有するキャッシュ
と、前記キャッシュの複数のブロックから除外するキャッシ
ュ・ブロックを選択する手段を有し、キャッシュ置換制
御装置によって用いられる置換アルゴリズムに、あるレ
ベルのランダムネスを選択的に導入する手段を含む、前
記キャッシュ置換制御装置と、を含む、コンピュータ・システム。
【請求項１１】前記キャッシュ置換制御装置は、前記キ
ャッシュで生じるストライドからの除外を最適化するた
め、前記置換アルゴリズムに導入される前記レベルのラ
ンダムネスを変更する手段を含む、請求項１０記載のコ
ンピュータ・システム。
【請求項１２】基本置換アルゴリズムを使用してコング
ルエンス・クラスのサブセットを選択することによって
前記レベルのランダムネスが選択的に導入され、ランダ
ム・ビットにより前記サブセット内の除外するキャッシ
ュ・ブロックが選択される、請求項１０記載のコンピュ
ータ・システム。
【請求項１３】前記レベルのランダムネスは、少なくと
も３つの異なるレベルのランダムネスから選択される、
請求項１０記載のコンピュータ・システム。
【請求項１４】前記レベルのランダムネスは、正確に４
つの異なるレベルのランダムネスから選択される、請求
項１０記載のコンピュータ・システム。
【請求項１５】前記置換アルゴリズムは最低使用頻度
（ＬＲＵ）アルゴリズムを含む、請求項１０記載のコン
ピュータ・システム。
【請求項１６】前記置換アルゴリズムは非ランダム・ア
ルゴリズム及びランダム・アルゴリズムを含み、前記置換アルゴリズムにより複数の置換制御ビットが用
いられ、前記置換制御ビットの数は、前記非ランダム・アルゴリ
ズムとランダム・アルゴリズムの組み合わせを変えて少
なくとも３つの異なるレベルのランダムネスを実現する
ために必要なビットの最大数に等しい、請求項１３記載のコンピュータ・システム。
【請求項１７】前記非ランダム・アルゴリズムは最低使
用頻度（ＬＲＵ）アルゴリズムであり、前記キャッシュはｎウェイ連想であり、前記置換制御ビットの数はｎ−１に等しい、請求項１６記載のコンピュータ・システム。