JPH06202951A

JPH06202951A - キャッシュ・メモリ・システム

Info

Publication number: JPH06202951A
Application number: JP5280168A
Authority: JP
Inventors: Ramakrishna B Rau; ビー・ラマクリシュナ・ラウ; Michael S Schlansker; マイケル・エス・シュランスカー; Jun William S Worley; ウィリアム・エス・ウォーレイ・ジュニア
Original assignee: Hewlett Packard Co
Current assignee: HP Inc
Priority date: 1992-10-13
Filing date: 1993-10-13
Publication date: 1994-07-22
Also published as: GB9320511D0; DE4323929A1; GB2271653A

Abstract

(57)【要約】【目的】予測可能性の高い待ち時間が得られ、使用頻
度の低いデータによるキャッシュ・メモリの汚染を回避
でき、使用頻度の低いデータに対してアクセスが可能な
キャツシュ・メモリ・システムを提供することを目的と
する。【構成】第１のロード命令検出時に、データ・ワード
のコピーをコントローラ２０によりバッファ１５に転送
し、第１の蓄積命令検出時にアドレス情報とデータをバ
ッファ１５に蓄積し、第２のロード命令検出時にデータ
・ワードのコピーをバッファ１５に配置することなく、
そのデータ・ワードをメイン・メモリ１３からコントロ
ーラ２０によりＣＰＵ１２に転送し、第２の蓄積命令検
出時に、データ・ワードのコピーをバッファ１５に配置
しないで、第２の蓄積命令に含まれるデータをメイン・
メモリ１３に蓄積する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、コンピュータ・メモ
リ・システムに関するものであり、特に、改良されたキ
ャッシュ・メモリ・システムに関するものである。

【０００２】

【従来の技術】従来のコンピュータ・システムで用いら
れるメモリ・システムによれば、ロード命令に応答して
中央処理ユニット（以下、ＣＰＵという）に対してデー
タを与え、また、蓄積命令に応答してメモリ・システム
にデータを蓄積する。ＣＰＵに対する演算当りのコスト
は、メモリのバイト当りのコストに比べて遥かに急速に
減少してきている。これに加えて、演算のタスクがより
複雑になるにつれて、メイン・コンピュータ・メモリの
サイズは劇的に増大した。その結果として、ＣＰＵと同
じ速度で動作するメイン・メモリは経済的に実用的では
なくなった。

【０００３】ＣＰＵの演算速度で動作するメイン・メモ
リにもたらされる高いコストを回避するために、多くの
システムではキャッシュ・メモリが用いられている。キ
ャッシュ・メモリは、最近に用いられたデータを蓄積す
るために用いられる高速バッファである。キャッシュ・
メモリに対してロード命令が出されると、該キャッシュ
・メモリはその内容をチェックする。該当のデータがキ
ャッシュ・メモリ内に既に存在するときには、該キャッ
シュ・メモリは当該データをＣＰＵに戻す。該当のデー
タがキャッシュ・メモリ内に存在しないときには、該キ
ャッシュ・メモリは当該データをメイン・メモリからロ
ードせねばならない。メイン・メモリはキャッシュ・メ
モリよりも遥かに遅いことから、プログラムの実行にお
いて相当な遅れが結果として生じる。キャッシュ・メモ
リがメイン・メモリからのデータをロードする毎に、キ
ャッシュ・メモリに蓄積されているデータのあるもの
は、新規のデータのための余地を作るために取り除かれ
ねばならない。

【０００４】同様にして、蓄積命令もキャッシュ・メモ
リに対して出される。蓄積命令において特定されたアド
レスに対するデータが既にキャッシュ・メモリ内に存在
するときには、該蓄積命令において特定された値を反映
するようにキャッシュ・メモリはデータを更新する。デ
ータが存在しないときには、キャッシュ・メモリは該蓄
積命令において特定されたアドレスに対するエントリを
作成し、そして、データが当該アドレスに蓄積されるべ
きことを指示する。「ライト・スルー(write−throug
h)」キャッシュ・メモリの場合には、データも直ちにメ
イン・メモリに伝送されて、該メイン・メモリが常にデ
ータの正しいコピーを有するようにされる。ノン・ライ
ト・スルー・キャッシュ・メモリ・システムにおいて
は、キャッシュ・メモリ内のデータ・エントリがマーク
されて、メイン・メモリ内の問題のアドレスにおいて蓄
積されている値とは異なることが指示される。マークさ
れたデータ・エントリが後続の動作の間に置換されると
きには、該エントリは置換されるのに先だってメイン・
メモリに書き込まれる。

【０００５】効果的であるためには、キャッシュ・メモ
リ内に既に存在するデータによっては満足されないロー
ド命令に応答して、メイン・メモリから入力する新規な
データによりキャッシュ・メモリから置換されないのに
先だって、キャッシュ・メモリ内のデータは平均的に多
くの回数だけ使用されねばならない。データがメイン・
メモリから得られる度に、ＣＰＵは待機せねばならな
い。キャッシュ・メモリ内にある間にデータが何回か使
用されたとすると、この遅れは幾つかのロード命令にわ
たって償却される。このために、ロード命令毎の平均的
な遅れは相当に減少される。データが１回しか用いられ
ないときには、このような減少が生じることはない。

【０００６】大規模で特定の適用においては、キャッシ
ュ・メモリの効果は低いものであるが、その理由は、こ
れらの適用においては、遥かに大きいデータのセットに
わたって、より多くの一様なアクセスがあることにあ
る。例えば、１個またはそれよりも多くの大規模なデー
タのアレイにおける全ての要素であって、その各々がキ
ャッシュ・メモリのサイズを遥かに越えているものを、
逐次に読み取ることは通常のことである。このような場
合においては、より高速のキャッシュ・メモリに導入さ
れたデータは１回アクセスされるだけである。先に言及
されたように、システムの実行能力の増強が達成される
のは、キャッシュ・メモリ内に配置されたデータが何回
も用いられるときだけである。

【０００７】実際には、１回しか用いられないデータを
伝送するためにキャッシュ・メモリを用いることは、シ
ステムの実行能力を低下させる。先に言及されたよう
に、新規のデータ・ワードがメイン・メモリからキャッ
シュ・メモリに移動される度に、該キャッシュ・メモリ
に蓄積されている一つのデータ・ワードは排除されねば
ならない。排除されたデータ・ワードのあるものが再び
用いられるようなときには、１回だけ用いられるべきデ
ータ・ワードに対するロード命令に応答して、それらの
ワードは排除されなかったことになる。該排除されたデ
ータ・ワードが再び用いられるときには、該データ・ワ
ードがキャッシュ・メモリに読み取られる間はＣＰＵが
遅延される。このため、キャッシュ・メモリ内でのそれ
らの存在時間の間に１回しか使用されないデータ・ワー
ドを通過させることは、キャッシュ・メモリの実行能力
を低下させることになる。この低下はキャッシュ・メモ
リのサイズを増大することで減少させることができるけ
れども、この解決策ではキャッシュ・メモリのコストを
著しく増大することになる。

【０００８】この理由のために、頻繁に使用されるデー
タの部分に対してのみキャッシュ・メモリを用いるため
に、また、該キャッシュ・メモリとは無関係に大規模な
アレイをアクセスするために、ある所定のマシンが設計
された。これはベクトル・マシンでは共通のものであ
り、ここでのベクトル・マシンは、キャッシュ・メモリ
を通過することなく、高度にインタリーブされたメモリ
からアクセスされる。このアプローチによれば、１回し
か用いられないデータによるキャッシュ・メモリの汚染
は防止される。ところが不都合なことに、このアプロー
チは、何回か用いられるデータの問題に対する解決策を
付与するものではない。多数回の要求がなされる可能性
のあるデータがキャッシュ・メモリから追放されること
がなければ、このようなデータはキャッシュ・メモリの
アクセス・スキーム（ｓｃｈｅｍｅ）から利益を得るも
のである。

【０００９】先に言及されたように、キャッシュ・メモ
リの効率性は当該キャッシュ・メモリのサイズとともに
向上する。しかしながら、最高速の応答（即ち、最短の
待機）をもたらすためには、キャッシュ・メモリはプロ
セッサ・チップ上に存在せねばならない。この制限によ
ってキャッシュ・メモリの最大限のサイズが規定され
る。ある種の先行技術のシステムにおいては、この目標
の食い違いは多重レベルの階層性キャッシュ・メモリ・
システムを用いることによって解決される。ある小形の
レベル１キャッシュ・メモリはプロセッサ・チップ上に
直接的に配置される。このキャッシュ・メモリは、プロ
セッサ・チップの外部に配置されている大形のレベル２
キャッシュ・メモリによって補充される。

【００１０】先行技術による多重レベルの階層性キャッ
シュ・メモリを介してデータがアクセスされると、該デ
ータはレベル１キャッシュ・メモリを通して流れる。メ
モリに対する読み取りアクセスのためには、レベル１キ
ャッシュ・メモリに含まれているデータによって要求が
満足されるときには、該データはレベル１キャッシュ・
メモリから読み取られる。該当のデータがレベル１キャ
ッシュ・メモリ内に存在しないときには、それはレベル
２キャッシュ・メモリからサーチされる。当該データが
レベル２キャッシュ・メモリにおいて発見できたときに
は、それは始めにレベル１キャッシュ・メモリに移動さ
れ、これに次いで該レベル１キャッシュ・メモリから読
み取られる。当該データがレベル２キャッシュ・メモリ
においても存在しなかったときには、それは初めにメイ
ン・メモリからレベル２キャッシュ・メモリに読み込ま
れ、次にレベル２キャッシュ・メモリからレベル１キャ
ッシュ・メモリに読み込まれ、そしてこれに次いでプロ
セッサによって読み取られる。

【００１１】メモリに対する書き込みアクセスのために
は、新規データが書き込まれるべき位置に現に存在する
データがレベル１キャッシュ・メモリに含まれていると
きには、該データはレベル１キャッシュ・メモリにおい
て更新される。古いデータがレベル１キャッシュ・メモ
リに現に含まれていないときには、レベル１キャッシュ
・メモリにおいて余地（ｒｏｏｍ）が作られて、古いデ
ータがレベル２キャッシュ・メモリにおいてサーチされ
る。古いデータがレベル２キャッシュ・メモリにおいて
発見されたときには、それはレベル１キャッシュ・メモ
リに読み取られ、そして、新規に書き込まれるデータを
もって更新される。古いデータもレベル２キャッシュ・
メモリに含まれていないときには、レベル２キャッシュ
・メモリにおいてその余地も作られて、該古いデータが
初めにレベル２キャッシュ・メモリに読み込まれ、次に
レベル１キャッシュ・メモリに読み込まれてから、レベ
ル１キャッシュ・メモリにおいて更新される。

【００１２】

【発明が解決しようとする課題】データがレベル１キャ
ッシュ・メモリを通して流れることから、これらのスキ
ームは従来のキャッシュ・メモリと同じような汚染の問
題点をこうむることになる。即ち、数回しか用いられな
いデータが、より多い回数使用されるデータを追放する
ことになる。追放されたデータが再び要求されたときに
は、該データがより低位レベルのキャッシュ・メモリま
たはメイン・メモリから検索されるまで、システムは停
止されねばならない。

【００１３】広い意味では、この発明の目的は改良され
たキャッシュ・メモリ・システムを提供することにあ
る。

【００１４】この発明の別の目的は、その追放に先だっ
て多くの回数にわたり使用されることがないデータをも
ってキャッシュ・メモリの汚染に関する問題を回避する
ようなキャッシュ・メモリ・システムを提供することに
ある。

【００１５】この発明の更に別の目的は、その追放に先
だって数回しか使用されないデータに対する改良された
アクセスがなされるキャッシュ・メモリ・システムを提
供することにある。

【００１６】この発明のこれらの目的およびその他の目
的は、以下の発明の詳細な説明および添付の図面から、
当業者にとっては明かになろう。

【００１７】

【課題を解決するための手段】この発明は、ＣＰＵとメ
イン・メモリとの間でバッファリングされたメモリのア
クセスをするための多重レベルのキャッシュ・メモリ・
システムから構成される。この発明はメイン・メモリ内
に正常に蓄積されているデータ・ワードのコピーを蓄積
するための第１のバッファを含む。このバッファは各々
の蓄積されたコピーに関連するメイン・メモリ内のアド
レスを特定する情報を蓄積するためのレジスタファイル
を含む。この発明はＣＰＵからの第１と第２の蓄積命令
および第１と第２のロード命令を受け入れ、また、第１
と第２のロード命令に応答してＣＰＵにデータを付与す
るためのコントローラを含む。各蓄積命令およびロード
命令はメイン・メモリ内のアドレスを特定する情報を含
み、該コントローラは第１のバッファおよびメイン・メ
モリに対して動作的に接続されている。制御手段は、ま
た第１のロード命令において特定されるデータ・ワード
をＣＰＵに対して伝送するため、および、該データ・ワ
ードのコピーを第１のバッファに対して転送させるため
の第１のロード手段と第１の蓄積命令に応答して、第１
の蓄積命令に含まれているアドレス情報とともに、該蓄
積命令に含まれているデータを第１のバッファに蓄積さ
せるための第１の蓄積手段とを含む。これに加えて、コ
ントローラは第２のロード命令に応答して、そのアドレ
スが第２のロード命令において特定されるデータ・ワー
ドを、データ・ワードのコピーを第１のバッファ手段に
配置させることなく、メイン・メモリからＣＰＵに対し
て伝送するための第２のロード手段と、第２の蓄積命令
に応答して、データ・ワードのコピーを第１のバッファ
手段に配置させることなく、蓄積命令に含まれているデ
ータをメイン・メモリに蓄積させるための第２の蓄積手
段とを含む。

【００１８】この発明の別の実施例は、種々のバッファ
の内容をコンパイラおよび／またはプログラマが制御す
ることが許容される付加的な命令を実行する。

【００１９】

【実施例】この発明は、データがアクセスされ、蓄積さ
れるレベルの制御は、ソフトウエアによって制御される
「非階層」２レベルキャッシュ・メモリ・システムとし
て見られる。この発明によるキャッシュ・メモリ・シス
テムのブロック図が図１に１０で示されている。キャッ
シュ・メモリ・システム１０は、ＣＰＵ１２とメイン・
メモリ１３との間でメモリ・アクセスするように介在さ
れる。キャッシュ・メモリ・システム１０はＣＰＵ１２
およびバッファ１４からのロード命令および蓄積命令が
解釈される制御手段としてのコントローラ２０を含む。
バッファ１４は好適には、ＣＰＵ１２と同じチップ上に
配置される小形で高速のレベル１のバッファ１５を含
む。このバッファ１４は、やや遅いが相当に大形のレベ
ル２のバッファ１６も含む。これらのバッファの各々は
複数のデータ・ワードと、各データ・ワードに対応する
メイン・メモリ１２のアドレスおよび問題のデータ・ワ
ードが最後にアクセスされてからの時間長を特定する情
報とを蓄積するためのスペースを含む。一つの動作モー
ドにおいては、バッファ１５および１６は、先行技術の
階層性キャッシュ・メモリ・システムに関して上述され
たと同様な態様で動作する。

【００２０】一般的には、最も頻繁に用いられるデータ
は好適にはバッファ１５に蓄積されており、これによっ
て、最大の便宜性があるキャッシュ・メモリ・アクセス
をもってＣＰＵ１２に付与するようにされる。少ない回
数だけ使用される傾向のあるデータは好適にはバッファ
１６に蓄積される。より詳細に後述されるように、これ
はこのデータの流れがバッファ１５の効率的な動作の邪
魔になることを防止しながら、このデータに対するコン
ピュータ・アクセスの実効的な待機時間を減少させるた
めの手段を提供する。１回しか用いられない傾向のある
データはメイン・メモリ１３から直接的にアクセスされ
る。

【００２１】キャッシュ・メモリ・システム１０は、３
個の異なるロード／蓄積命令の対を介してデータをアク
セスできるという点で、従来技術のデバイスとは異なっ
ている。異なる対の命令により、ＣＰＵ１２とメイン・
メモリ１３との間で転送されるデータの予測される再使
用の見地から、システムの実効を最適化することが許容
される。命令の各対は、異なるレベルの再使用のために
用いられる。命令の対の選択は、プログラマおよび／ま
たはコンパイラによってなされる。プログラマはデータ
再使用の可能性を知っていることから、該プログラマは
使用されるメモリ・アクセスのタイプを指示することが
できる。また、この発明はオペレーティング・システム
と関連させて用いることもできるが、このオペレーティ
ング・システムは、テスト・データとともにコードをラ
ンさせて、命令およびデータが使用される順序を観察す
ることにより、該コードを最適化するものである。

【００２２】先行技術の階層性２レベルのキャッシュ・
メモリ・システムに関して上述されたように、ロード命
令および蓄積命令の第１の対によってデータのアクセス
がなされる。第１の種類のロード命令がコントローラ２
０によって検出されたときには、バッファ１５の内容が
コントローラ２０により調べられて、ロード命令で特定
されたデータがバッファ１５内に現に蓄積されているか
どうかが決定される。データがバッファ１５内にあると
きには、該データはバッファ１５からＣＰＵ１２に渡さ
れる。該当のデータがバッファ１５内に存在しないとき
には、バッファ１６の内容がコントローラ２０により調
べられて、その中にデータが蓄積されているかどうかが
決定される。データがバッファ１６において発見された
ときには、当該データは初めにバッファ１５に対してコ
ピーされ、これに次いでバッファ１５からＣＰＵ１２に
渡される。データがバッファ１６において発見されなか
ったときには、コントローラ２０により、メイン・メモ
リ１３内の問題のアドレスに現に存在するデータが、バ
ッファ１５および１６の双方に配置されるべくコピーさ
れ、これに次いでバッファ１５からＣＰＵ１２へと転送
される。

【００２３】第１の種類の蓄積命令がコントローラ２０
によって受け取られたときには、該蓄積命令で特定され
たデータがバッファ１５に対してコピーされる。該デー
タに対する余地を作るために、バッファ１５内の最も古
いデータが排除される。ここで、該データが参照されて
から生じた命令サイクルの数という見地においてエイジ
（ａｇｅ）の計測がなされる。バッファ１５が「ライト
・スルー」キャッシュ・メモリとして動作していないと
きには、該排除されたデータのコピーがバッファ１６に
作成される。蓄積命令で受け入れたデータに対する余地
を作るためにバッファ１６から排除されねばならないい
ずれのデータでも、必要であれば、メイン・メモリ１３
に対して同様にコピーされる。バッファ１５が「ライト
・スルー」キャッシュ・メモリとして動作しているとき
には、当該データがアクセスされた最後のときにコピー
が既に作られていることから、このステップは必要とさ
れない。レベル１のバッファ１５から追放されるのに先
だって多数回の使用が予測されるデータを含んでいるメ
モリ・アクセスのためには、この命令の対を用いること
が好適である。

【００２４】ロード命令および蓄積命令の第２の対は、
レベル２のキャッシュ・メモリとしてバッファ１６より
も高いキャッシュ・メモリ階層にデータを移動させるこ
とはない。第２の種類のロード命令がコントローラ２０
によって検出されたときには、要求されたデータ・ワー
ドのコピーがバッファ１５内にあるかどうかを決定する
ために、バッファ１５の内容が初めに調べられる。バッ
ファ１５内のデータ・ワードのコピーがコントローラ２
０によって発見されたときには、該データ・ワードがバ
ッファ１５からＣＰＵ１２に渡される。データ・ワード
のコピーがバッファ１５において発見されなかったとき
には、バッファ１６の内容がコントローラ２０によって
調べられる。データ・ワードがバッファ１６において発
見されたときには、コントローラ２０によって、該デー
タをバッファ１６からＣＰＵ１２に渡すようにされる。
データ・ワードがバッファ１６において発見されなかっ
たときには、コントローラ２０により、該データ・ワー
ドのコピーがメイン・メモリ１３からバッファ１６に転
送される。これに次いで、該データ・ワードがバッファ
１６からＣＰＵ１２に渡される。

【００２５】第２の種類の蓄積命令がコントローラ２０
によって検出されたときに、問題のアドレスに対するデ
ータがバッファ１５内に既に存在していれば、当該命令
の中に含まれているデータ・ワードがバッファ１５に対
してコピーされる。バッファ１５が「ライト・スルー」
キャッシュ・メモリであるときには、該データのコピー
もバッファ１６に対してコピーされる。該当のアドレス
に対するデータがバッファ１５に存在しないときには、
データ・ワードがバッファ１６に対してコピーされる。
該データに対する余地を作るために、バッファ１６内の
最も古いデータを排除することができる。バッファ１６
が「ライト・スルー」キャッシュ・メモリとして動作し
ていないときには、該排除されたデータのコピーがメイ
ン・メモリ１３内に作成される。バッファ１６が「ライ
ト・スルー」キャッシュ・メモリとして動作していると
きには、当該データがアクセスされた最後のときにコピ
ーが既に作られていることから、このステップは必要と
されない。

【００２６】バッファ１６から追放されるのに先だって
少数回の再使用がありそうなデータを含んでいるメモリ
・アクセスのためには、この第２の命令の対を用いるこ
とが好適である。問題のデータを１回以上アクセスする
ためにバッファ１６内の存在時間が十分に長いとすれ
ば、メモリ・アクセスのための効果的な待ち時間が減少
することになる。このデータはバッファ１５には転送さ
れないことから、その使用の頻度が遥かに低そうなデー
タによってバッファ１５内のデータが置換されることに
関連する問題は克服される。バッファ１６内の存在時間
はバッファ１６のサイズに関連している。しかしなが
ら、重要な改良をもたらすためには、バッファ１６はメ
イン・メモリ１３よりも相当に迅速なことだけが必要で
あることから、バッファ１６は、バッファ１５よりも遥
かに大形にすることが可能であり、それでもなお経済的
に現実性のあるシステムが提供される。

【００２７】第３の対の命令は、上記メイン・メモリ１
３よりも高い階層にデータを移動させることはない。第
３の種類のロード命令がコントローラ２０によって検出
されたときには、該ロード命令で特定されるデータのた
めに、バッファ１５および１６が初めに調べられる。該
当のデータがこれらのバッファの一つで発見されたとき
には、データを含んでいる最速の応答時間のバッファか
らのデータがＣＰＵ１２に転送される。該当のデータが
いずれのバッファにも存在しないときには、コントロー
ラ２０により、メイン・メモリ１３からデータを転送す
るようにされる。

【００２８】第３の種類の蓄積命令がコントローラ２０
によって検出されたときには、該コントローラ２０によ
りバッファ１５および１６が初めにチェックされて、該
蓄積命令におけるアドレスに対するデータがいずれかの
バッファに現に存在しているかどうかが決定される。該
当のアドレスに対するデータがいずれかのバッファにお
いて発見されたときには、問題のアドレスに対するデー
タ・エントリが存在する最速の応答時間のバッファ内の
データの記録が更新される。問題のバッファが「ライト
・スルー」キャッシュ・メモリであるときには、キャッ
シュ・メモリ階層における問題のバッファの下位の、よ
り遅いバッファの更新のために該データのコピーも使用
される。問題のデータ・ワードに対するエントリがいず
れのバッファにおいてもコントローラ２０によって発見
されなかったときには、該コントローラ２０により、該
蓄積命令で特定されたデータをメイン・メモリ１３に対
して直接的に書き込むようにされる。この対の命令が用
いられるのは、データがバッファ１６に対して転送され
たとして、当該データがバッファ１６内に存在している
時間中には再使用されそうもないものに対してである。

【００２９】頻繁にアクセスされるデータをレベル１の
バッファおよびレベル２のバッファから取り去ることを
防止することに加えて、この発明によれば別の重要な特
質が付与される。スケジューリング・マシン命令のため
のコンパイラ技術によれば、コンパイラが待ち時間を知
っているときには、メモリからの長い待ち時間を処理す
ることについて優れたジョブを行うことができる。例え
ば、該コンパイラは、予測されるロード命令に十分に先
行した時点において、キャッシュ・メモリ・システムに
対してプリロード命令を送ることができて、キャッシュ
・メモリ・システムの適切なレベルに対してデータを移
動させることを、キャッシュ・メモリ・システムに許容
するようにされる。しかしながら、プリロード命令の伝
送が早すぎたときには、プリロード命令が受け入れられ
る時点と対応のロード命令が到達する時点との間に出さ
れる別のロード命令および蓄積命令に応答してロードさ
れたデータにより、問題のデータが置換される可能性が
ある。該当の待ち時間が知られているときには、この状
況は原理的には防止することができる。待ち時間が知ら
れているときには、キャッシュ・メモリ・システムは、
データが早期に置換されないように保証することができ
る。

【００３０】重要なことは必ずしも最短のメモリの待ち
時間ではなく、むしろ、予測可能な待ち時間である。こ
の発明の重要な利点は、先行技術のシステムに比べて予
測可能性の高い待ち時間が提供されることにあり、その
理由は、データをアクセスするロード命令が実際に到達
するのに先だって、蓄積されているデータがキャッシュ
・メモリから取り除かれてしまう可能性が低下すること
にある。

【００３１】この発明の好適な実施例においては、コン
トローラ２０も、２個のプリロード命令を（キャッシュ
・メモリの各レベルに対して一つ）実行する。メモリ・
アドレスおよびある特定のキャッシュ・メモリを特定す
る一つのプリロード命令により、問題のアドレスに関連
しているデータを問題のキャッシュ・メモリに転送させ
て、ロード命令が到達したときに該当のデータが存在す
るようにされる。該プリロード命令の実行の間は、該キ
ャッシュ・メモリは別のロード命令および蓄積命令に応
答することに自由である。データがキャッシュ・メモリ
によって受け入れられるまではＣＰＵが停止することが
ない点で、プリロード命令はロード命令とは異なってい
る。これに加えて、プリロード命令は、結果に対して特
定されるべきレジスタを必要とはしていない。このため
に、特定されたアドレスからのデータをもってキャッシ
ュ・メモリがロードされるように、ＣＰＵレジスタがサ
ービスから取り出す必要はない。

【００３２】プリロード命令では、実効的なメモリの待
ち時間を減少させる最大の利点をもたらすために、デー
タ源の待ち時間を考慮せねばならない。該プリロード命
令は、好適には、問題のアドレスを特定するロード命令
よりも少なくともＴメモリ・サイクル前に出される。こ
こに、Ｔはデータ源の待ち時間である。多重レベルのキ
ャッシュ・メモリ・システムにおいては、全てのプリロ
ードでメイン・メモリをデータ源とするときには、最大
の利点が達成されることになる。

【００３３】プリロード命令が好適に実施される態様に
ついては、図１に関して説明された多重レベルのキャッ
シュ・メモリ・システムに関連して始めに説明される。
バッファ１５に対するプリロード命令を受け入れると、
コントローラ２０によりバッファ１５が調べられて、該
プリロード命令で特定されたアドレスに対するエントリ
が存在するかどうかが決定される。該当のデータが既に
存在するときには、プリロード命令は無視される。該当
のデータが存在しないときには、コントローラ２０によ
りバッファ１６が調べられて、そこでのデータの存否が
決定される。該当のデータが存在するときには、該デー
タはバッファ１５に移動される。該当のデータが存在し
ないときには、該データのコピーがメイン・メモリ１３
からバッファ１６に移動され、これに次いでバッファ１
６からバッファ１５に移動される。同様にして、バッフ
ァ１６に対するプリロード命令を受け入れると、コント
ローラ２０によりバッファ１６が調べられて、該プリロ
ード命令で特定されたアドレスに対するエントリが存在
するかどうかが決定される。該当のデータが既に存在す
るときには、プリロード命令は無視される。該当のデー
タが存在しないときには、コントローラ２０で調べられ
たデータのコピーがメイン・メモリ１３からバッファ１
６に渡される。

【００３４】プリロードが進行している間は、問題のア
ドレスに対する最近のデータがキャッシュ・メモリに配
置されていることを確認するために、プリロード命令の
受け入れとキャッシュ・メモリ内のレジスタへのデータ
の伝送との間にＣＰＵによって出された全ての蓄積命令
を、コントローラ２０によって調べねばならない。アド
レスＡを特定するプリロード命令がキャッシュ・メモリ
・システムに対して出され、該当のデータはキャッシュ
・メモリのいずれのバッファ・レベルにも存在しなかっ
た、という場合について考えてみる。メイン・メモリか
らキャッシュ・メモリまでデータを移動させるのに必要
な時間中に、ある一つの蓄積命令がアドレスＡに対して
受け入れられる。これが生じたときには、該蓄積命令か
らの値はキャッシュ・メモリに蓄積され、また、メイン
・メモリから後続して伝送される値は無視されることに
なる。

【００３５】プリロード命令によって導入される第２の
問題は、キャッシュ・メモリが同じアドレスに対する第
１のプリロード命令を処理している間に、アドレスＡに
対する第２のプリロード命令が受け入れられるという可
能性に関することである。これが生起したときに好適と
されることは、第１のプリロード命令が処理されるまで
は、第２のプリロードの実施をキャッシュ・メモリによ
って遅らせることである。この状況が生じるのは稀にし
かないと予測される。このために、第２のプリロード命
令の遅れによるシステムの動作時間の増大は無視できる
ものである。

【００３６】この発明の好適な実施例においては、バッ
ファ１５および１６にデータ値を蓄積するために用いら
れるレジスタに２個の追加的なフラグ・ビットを付加す
ることによって、これらの問題は克服される。一般的
に、バッファ１５および１６に含まれているレジスタ・
ファイルには、ファイルに蓄積された各データ・エント
リに対して一つのレジスタが設けられている。図２に
は、典型的なレジスタ１００が示されている。レジスタ
１００に含まれているフィールド１０１は、フィールド
１０２に蓄積されたデータ・エントリについての、メイ
ン・メモリのアドレスを蓄積するためのものである。こ
れに加えて、レジスタ１００には、プリロード命令を処
理する際に用いられる２個のフラグが含まれている。第
１のフラグ１０４によれば、一つのプリロードが進行し
ていることが指示される。第２のフラグ１０６は、該プ
リロードの進行中に問題のアドレスに対する蓄積命令が
受け入れられたことを指示するために用いられる。この
ために、メイン・メモリまたはその他のバッファ・レベ
ルから戻された値は無視されることになる。

【００３７】プリロード命令が受け入れられ、そして、
命令で特定されたバッファにおけるレジスタ・ファイル
には、該プリロード命令で特定されたアドレスに対する
エントリは含まれていないことが、コントローラ２０に
よって決定されるという場合について考えてみる。コン
トローラ２０は、これに次いで、プリロード命令で特定
されたバッファのレジスタ・ファイルにおける一つのレ
ジスタを、該プリロード命令に対して割り当てる。レジ
スタ・フラグ１０４および１０６はそれらの初期値にセ
ットされ、また、プリロード命令で特定されたものの下
位のバッファ・レベルまたはメイン・メモリからデータ
をフェッチするための命令が出される。一つの蓄積命令
がコントローラ２０によって検出される度に、該蓄積命
令におけるアドレスが、レジスタ・ファイル内のレジス
タにおける全てのアドレスと再び比較される。アドレス
が合致したときには、蓄積命令で特定された値が問題の
レジスタのフィールド１０２にロードされ、そして、第
２のフラグがリセットされて、メイン・メモリまたはそ
の他のバッファから後続して受け入れられたいずれの値
も無視されるべきことが指示される。この蓄積命令の処
理は上述されたことに付加されるものである。

【００３８】上記の検討では、蓄積命令で特定されたワ
ードが、バッファに蓄積されているデータ・エントリの
ワード長に正確に合致しているものとされている。どの
場合でもこうなるとは限らない。例えば、ある種のシス
テムにおいては、数バイト長のワードをキャッシュ・メ
モリに蓄積することができる。これに対して、一つの蓄
積命令に含ませることができるのは一つの単一バイトで
ある。このようなシステムにおいては、第２フラグ１０
６のような分離したフラグは、第１のフラグ１０４にお
ける各バイトに対して設けられる。各々のこのようなフ
ラグは、一つの蓄積命令によって対応のバイトが与えら
れたことを指示するものであり、このために、プリロー
ド命令に応答して戻された該当のバイトに対する値は無
視されることになる。

【００３９】プリロード命令で特定されたアドレスに対
して、レジスタ・ファイルにおけるいずれのレジスタが
割り当てられるかを決定するためには、多くの置換のや
り方を用いることができる。従来のキャッシュ・メモリ
について用いられるいずれの置換のやり方でも、この発
明によるキャッシュ・メモリ・システムにおいて用いる
ことができる。例えば、レジスタ・ファイルにおける各
レジスタには、それに蓄積されたデータ・エントリが蓄
積命令またはロード命令で参照されてから経過した、サ
イクルのカウント数を蓄積するためのフィールドを含ま
せることができる。そして、最大のカウントを有するレ
ジスタが問題のアドレスに対して割り当てられることに
なる。これは、最も使用の少ないデータ・エントリを置
換することに対応するものである。置換のやり方の第２
の例は、プリロードが置換のためにランダムに進行して
いなかったレジスタを、選択することである。

【００４０】上記された従来の置換のやり方に加えて、
この発明の好適な実施例では、レジスタがクリアできる
かを特定するためにコンパイラおよび／またはプログラ
マが許容するような、特別なクラスの命令を実行するよ
うにされる。このクラスの命令はクリア命令として参照
される。各バッファ・レベルに対して一つのこのような
命令がある。クリア命令で用意されるものは、データが
プログラムによって最後に用いられてから、できるだけ
迅速に当該データをキャッシュ・メモリから取り除くた
めの手段である。各命令により一つのアドレスが特定さ
れる。問題のアドレスに対するエントリが問題のバッフ
ァに含まれているときには、このデータ・エントリのた
めに現に使用されているレジスタが、自由にオーバライ
トされるものとしてコントローラ２０によりマークされ
る。これに次いで、問題のレジスタはプリロード命令ま
たは蓄積命令で用いることが可能にされる。即ち、クリ
アされていないレジスタの内容を置換するのに先立ち、
クリアされたレジスタが用いられることになる。これら
の命令を実行するために、第３のフラグ１０８が各レジ
スタ１００に含まれている。アドレスＡおよび特定され
たバッファに対するクリア・コマンドがコントローラ２
０で受け入れられたときには、フィールド１０１内のＡ
についてのエントリに対する特定されたバッファの内容
が、該コントローラ２０によって調べられる。このよう
なエントリが発見されたときには、レジスタが後続のロ
ード命令、プリロード命令または蓄積命令によって使用
できることを指示する値が第３のフラグ１０８にセット
される。このようなレジスタが発見されなかったときに
は、該当の命令は無視される。キャッシュ・メモリ・シ
ステムがライト・スルー・キャッシュ・メモリではない
ときには、コントローラ２０は、レジスタが自由にされ
たときに、クリアされたレジスタからのデータをメイン
・メモリおよび／またはより下位レベルのキャッシュ・
メモリもコピーせねばならない。

【００４１】原理的にいえば、キャッシュ・メモリにお
いてはもはや必要とされないデータによるキャッシュ・
メモリの汚染を回避できるシステムを提供するために、
ある一つのレベルのキャッシュ・メモリによってクリア
命令を用いることができる。このようなシステムにおい
ては、キャッシュ・メモリでは上記された置換のやり方
（即ち、置換のためにエントリをマークできること）を
用いねばならない。データ・エントリがキャッシュ・メ
モリにおいてもはや不要になったときには、問題のエン
トリに対して指向されるクリア命令が出される。データ
が１回しか使用されないことが知られているときには、
このようなデータに対する各ロード命令はクリア命令に
よって追従される。

【００４２】コンパイラおよび／またはプログラマがメ
モリの待ち時間の効果を減少させることがプリロード命
令で許容されるときに、ここで各ロード命令はある一つ
のプリロード命令によって先行されねばならないことか
ら、ＣＰＵに対してある一つの値をロードするために必
要とされる命令の数がこれらの命令によって増加され
る。この発明の好適な実施例によれば、ある所定の時間
遅れの後で、キャッシュ・メモリ・サブシステムをして
固有のロード命令を効果的に発生せしめるような第２の
クラスのプリロード命令を実行することにより、この問
題が回避される。このタイプのプリロード命令で特定さ
れたバッファ・レベルには、ロードされるべきデータ、
データ・エントリのメイン・メモリにおけるアドレス、
データがロードされるべきＣＰＵレジスタ、および、命
令サイクルのカウントが入れられる。コントローラ２０
においては、プリロード命令について上述されたと同様
な態様でこれらの命令が処理される。ただし、特定され
た数の命令サイクルの後では、このコントローラ２０に
おいて、問題のレジスタに対するロード命令が問題のＣ
ＰＵレジスタに対して実行される。この発明の好適な実
施例によれば、キャッシュ・メモリ・システム内の各バ
ッファ・レベルに対する第２のこのようなプリロード命
令が実行される。

【００４３】同様にして、クリア命令によれば、後続の
命令によって置換されるのに先立ち、再び使用されるこ
とがなさそうなデータをキャッシュ・メモリからクリア
することが、コンパイラおよび／またはプログラマに対
して許容される。このような動作は、データ・エントリ
の最後の使用によって発生される蓄積命令またはロード
命令のいずれかと結合されることが多い。このために、
クリア命令によって追従される蓄積命令またはロード命
令の組み合せからなる命令は特に有用なものであるが、
その理由は、２個の分離した命令を出すことが回避され
ることにある。この発明の好適な実施例によれば、各バ
ッファ・レベルに対してこのような命令が実行される。

【００４４】上述されたこの発明の実施例においては、
２レベルのキャッシュ・メモリとしてのバッファが用い
られている。しかしながら、当業者にとって明かであろ
うことは、より多くのレベルのキャッシュ・メモリを用
いるシステムが有利なことである。メイン・メモリの上
にＮレベルのキャッシュ・メモリがあるとすると、この
発明によるキャッシュ・メモリ・システムには（Ｎ＋
１）個のロード命令と（Ｎ＋１）個の蓄積命令とが含ま
れることになる。メイン・メモリから最も離れたキャッ
シュ・メモリ・レベルはキャッシュ・メモリ・レベルＮ
として表示される。そして、以下の説明では最高のレベ
ルとして参照される。ｉ番目のロード命令により、そこ
で特定されたアドレスに関連のデータのコピーはｉ番目
のキャッシュ・メモリに配置され、また、当該データの
コピーは、命令で特定されたＣＰＵレジスタにロードさ
れることになる。Ｎ番目のキャッシュ・メモリは、最も
小形で最も迅速な前記のレベルのものである。０番目の
ロード命令によれば、問題のＣＰＵレジスタはメイン・
メモリから直接的にロードされる。

【００４５】同様にして、ｉ番目の蓄積命令により、そ
こで特定されたアドレスに関連のデータのコピーはｉ番
目のキャッシュ・メモリに配置され、また、０番目の蓄
積命令によれば、問題の値がメイン・メモリに対して直
接的に蓄積される。蓄積命令の場合には、該命令で特定
されたものの上のバッファ・レベルにおけるアドレスに
対する全てのエントリは、無効にされるか、更新される
かのいずれかでなければならない。キャッシュ・メモリ
・システムがライト・スルー・キャッシュ・メモリであ
るときには、エントリも、特定されたキャッシュ・メモ
リの下位の各バッファおよびメイン・メモリの各々に配
置されねばならない。

【００４６】上述されたこの発明の実施例では、「イン
クルージヴ（inclusive ）」キャッシュ・メモリのやり
方が使用されている。即ち、最高のバッファ・レベルに
蓄積されたデータのコピーも、より下位のキャッシュ・
メモリ・レベルに常に含まれている。例えば、ある一つ
の値がｉ番目のレベルのバッファにロードされていると
きには、それは（ｉ−１）・・・０番目のレベルにもロ
ードされる。キャッシュ・メモリのサイズは典型的には
各レベルについての大きさの程度によって増大すること
から、特別のコピーによりメモリ・スペースが著しく減
少することはない。このようなインクルーシブなやり方
の利点は、問題のレベルの内容を調べることにより、あ
る一つのエントリがある特定されたレベル上にあるかど
うかを決定するために、コントローラ２０の能力内にあ
る。ある一つのデータ・エントリがアドレスＡに対する
ｉ番目のレベルに存在しないときには、ｉ以下のいずれ
のレベルにもエントリが存在しないことになる。この発
明の好適な実施例ではインクルーシブ式のキャッシュ・
メモリのやり方が使用されているが、当業者にとって明
かであるように、この発明の教示から外れることなく、
ノンインクルーシブ式のやり方を使用することもでき
る。

【００４７】上述されたこの発明の実施例では、キャッ
シュ・メモリ・システムにおいて少なくとも２レベルの
バッファであるとされているが、当業者にとって明かで
あるように、１レベルのバッファのキャッシュ・メモリ
・システムでも先行技術を越える著しい利点がもたらさ
れる。特に、２レベルの蓄積命令およびロード命令を含
むもの（即ち、Ｎ＝２）によれば、キャッシュ・メモリ
内での存在の間に再使用されそうもないデータについ
て、そうでなければキャッシュ・メモリを汚染すること
になる、ロードまたは蓄積のためのキャッシュ・メモリ
をバイパスさせることが、コンパイラおよび／またはプ
ログラマに対して許容される。

【００４８】この発明に対する種々の修正については、
前述の説明および添付の図面から、当業者にとっては明
かなことである。従って、この発明は、その特許請求の
範囲の欄に記載の範囲によってのみ限定されるべきもの
である。

【００４９】

【発明の効果】以上詳細に説明したように、この発明に
よれば、ＣＰＵからの第１のロード命令で特定されたデ
ータ・ワードを制御手段によりＣＰＵに対して転送し、
データ・ワードのコピーを第１のバッファ手段に対して
転送し、ＣＰＵからの第２のロード命令に制御手段が応
答してデータ・ワードのコピーをバッファ手段に転送し
ないで、第２のロード命令で特定されたデータ・ワード
をメイン・メモリからＣＰＵに転送し、ＣＰＵからの第
１の蓄積命令に含まれているアドレス情報とデータを制
御手段によりバッファ手段に蓄積させ、ＣＰＵからの第
２の蓄積命令に応答してデータ・ワードのコピーをバッ
ファ手段に配置することなく第２の蓄積命令に含まれて
いるデータを制御手段によりメイン・メモリに蓄積させ
るように構成したので、データをアクセスするロードが
実際に到達するのに先立って蓄積されているデータがキ
ャッシュ・メモリから除かれる可能性が少なくなる。し
たがって、多くの回数にわたり使用されることがないデ
ータにより、キャッシュ・メモリの汚染から回避するこ
とができるとともに、数回しか使用されないデータに対
してアクセスができるという効果を奏する。

【図面の簡単な説明】

【図１】この発明によるキャッシュ・メモリ・システム
のブロック図である。

【図２】この発明によるキャッシュ・メモリ・システム
内のデータ・ワードを蓄積するためのレジスタのブロッ
ク図である。

【符号の説明】

１０キャツシュ・メモリ・システム１２ＣＰＵ１３メイン・メモリ１４〜１６バッファ１００レジスタ１０１，１０２フィールド１０４第１のフラグ１０６第２のフラグ１０８第３のフラグ

Claims

【特許請求の範囲】

【請求項１】メイン・メモリ１３に正常に蓄積された
データ・ワードを蓄積し、各前記蓄積されたデータ・ワ
ードのコピーに関連した前記メイン・メモリ１３におけ
るアドレスを特定する情報を蓄積するための手段を含む
第１のバッファ手段１５と；第１と第２の蓄積命令およ
び第１と第２のロード命令をＣＰＵ１２から受け入れか
つ前記第１と第２のロード命令に対応して前記ＣＰＵに
対してデータを供給し、各前記蓄積およびロード命令が
前記メイン・メモリ１３におけるアドレスを特定する情
報を含み、前記第１バッファ手段および前記メイン・メ
モリ１３に動作的に接続されている制御手段２０と；か
らなり、前記制御手段２０はさらに前記第１のロード命令に応答
して、そのアドレスが前記第１のロード命令で特定され
たデータ・ワードを前記ＣＰＵに対して転送し、かつ前
記データ・ワードのコピーを前記第１のバッファ手段に
対して転送するようにさせるための第１のロード手段
と；前記第１の蓄積命令に応答して、前記第１の蓄積命
令に含まれている前記アドレス情報とともに前記第１の
蓄積命令に含まれているデータを前記第１のバッファ手
段に蓄積するようにさせるための第１の蓄積手段と；前
記第２のロード命令に応答して、前記データ・ワードの
コピーを前記第１のバッファ手段に配置させることな
く、そのアドレスが前記第２のロード命令で特定された
データ・ワードを前記メイン・メモリ１３から前記ＣＰ
Ｕに対して転送するための第２のロード手段と；および
前記第２の蓄積命令に応答して、前記データ・ワードの
コピーを前記第１のバッファ手段に配置させることな
く、前記第２の蓄積命令に含まれているデータを前記メ
イン・メモリ１３に蓄積するようにさせるための第２の
蓄積手段と；からなるＣＰＵ１２とメイン・メモリ１３
との間でバッファリングされたメモリのアクセスをする
ためのキャッシュ・メモリ・システム・