JP3172950B2

JP3172950B2 - 予測キャッシングシステム

Info

Publication number: JP3172950B2
Application number: JP19746691A
Authority: JP
Inventors: カーチス・プリーム; クリス・マラコフスキイ; ロバート・ロチェッティ; デヴィッド・ローゼンタール
Original assignee: Sun Microsystems Inc
Current assignee: Sun Microsystems Inc
Priority date: 1990-08-31
Filing date: 1991-07-12
Publication date: 2001-06-04
Anticipated expiration: 2016-06-04
Also published as: AU7203091A; US5287487A; GB2247546B; HK156095A; JPH06342403A; AU634354B2; GB2247546A; GB9104326D0

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、コンピュータシステム
で使用されるキャッシング構成に関し、特に、そのよう
なシステムが使用すると期待されるデータをキャッシン
グする方法及び装置に関する。

【０００２】

【従来の技術】コンピュータシステムでは、情報を検索
するための主メモリのアクセスはシステムの動作時間の
かなりの部分を占める。その理由は様々であるが、第１
に、主メモリがランダムアクセスメモリであることが挙
げられる。ランダムアクセスメモリは、多くの場合、相
対的に低速の記憶装置を使用することにより、そのコス
トを限度内に保つように十分に大型となっている。第２
に、主メモリの物理的な大きさを増すことなくアドレス
可能スペースを拡大するために仮想メモリ構成を使用す
るシステムにおいては、ルックアップテーブルを利用し
て仮想アドレスを物理アドレスに変換するメモリ管理装
置によって、主メモリと、磁気ディスク記憶装置などの
二次メモリの双方の情報をアドレスすることが必要であ
る。この間接アドレッシングは相当な量の時間を要す
る。

【０００３】このため、さらに進んだシステムでは、シ
ステムの動作をスピードアップするためにキャッシュメ
モリを使用することが主流になってきている。キャッシ
ュメモリは相対的に容量の小さな高速の（従って、高価
な）ランダムアクセスメモリを利用し、最近使用された
命令及び／又はデータをプロセッサがそれらを使用した
ままの形で記憶する。その後、キャッシュメモリのその
ような情報を取り出して利用できるので、次にその情報
が要求されたときの関連プロセッサによるアクセスは以
前より速くなるであろう。一般的に、最近使用したばか
りの情報は他の情報と比べてすぐに使用される確率が高
いというのがキャッシングの基本理論である。キャッシ
ュメモリは、多くの場合に、主メモリとして使用するラ
ンダムアクセスメモリより物理的に高速であり、また、
物理アドレスを確定するためのルックアップ動作は不要
であるので、主メモリより高速でアドレス指定できるよ
うに構成されている。このようなキャッシング構成の動
作によって、コンピュータシステムの動作速度はある種
の情報については大きくアップしたのであった。

【０００４】１つの動作を実行するに際して同一の情報
を繰り返し利用するような状況の下では、キャッシング
は十分に機能する。このような用途の例は、ルーピング
動作を含む命令を実行するときに見られる。ところが、
動作のステップごとに全く新しい情報を使用するという
状況では、キャッシングは適切に機能しないのが普通で
ある。たとえば、水平方向と垂直方向のそれぞれに約千
画素分の８ビットのビットマップカラー情報を表示する
コンピュータ出力表示装置のスクリーンを下方へ画面移
動する場合には、約１メガバイトのデータをたどること
が必要である。通常のキャッシュメモリは６４キロバイ
トの情報を保持できる。画面移動の動作は、本質的に
は、第１の走査線にある情報を読み取り、その情報を上
又は下の次の走査線に書き込む。画面移動を実行するた
めにキャッシュを使用しても、そのようなフレームバッ
ファからの数本分の走査線の情報しか保持できない。従
って、初めの数本の走査線を除いて、キャッシュメモリ
に導入された情報は全く再利用されないので、動作速度
はアップしない。さらに、画面移動動作の大部分につい
て、プロセッサはキャッシュメモリを新たな情報で充填
し続けているので、キャッシュメモリを使用するほうが
しない場合よりはるかに長い動作時間を要することにな
る。そのようなキャッシュ充填動作の間、プロセッサ
は、まず、情報を求めてキャッシュメモリを調べ、キャ
ッシュメモリに情報が欠落していると判定し、ルックア
ップテーブルに目を転じて情報の物理アドレスを探し、
使用すべき情報を主メモリでアクセスし、その情報をキ
ャッシュメモリに他の情報と置き換えて記憶しなければ
ならず、そこでようやくその情報を使用するのである。
画面移動動作中、このような動作を連続して繰り返さな
ければならないので、動作が単純な主メモリのアクセス
より長い時間を要することは以外ではなくなってしま
う。

【０００５】コンピュータの動作速度を増す方法の１つ
によれば、動作のクロックサイクルごとに１つの命令が
実行されるようにパイプライン化した命令をプロセッサ
が処理するように設計する。キャッシング方式を採用す
る初期のパイプライン化コンピュータシステムでは、キ
ャッシュメモリにミスが生じるたびにおよそ４つの命令
が失われることが実証されていたが、現在設計されてい
るより高速のシステムはキャッシュミスごとに６４回に
もわたる命令を失う。これは高速コンピュータシステム
においては非常に大きな遅延である。このため、数多く
のシステムは、現在、システムの動作を遅延させるおそ
れのある状況ではキャッシング動作をディスエーブルす
る方式を取り入れている。そのような方式はある情報の
キャッシングが原因となる遅延をなくしはするが、その
情報の処理をスピードアップすることは全くない。

【０００６】

【発明が解決しようとする課題】従って、本発明の目的
は、コンピュータシステムの動作速度を増すことであ
る。本発明の別の、さらに特定した目的は、コンピュー
タの動作において次にどの情報が使用されるかを予測
し、その期待情報をシステムによる利用に備えて小型キ
ャッシュに導入する回路を提供することにより、コンピ
ュータシステムの動作速度を増すことである。

【０００７】

【課題を解決するための手段】本発明の上記の目的及び
その他の目的は、通常のシステム構成要素に加えて、シ
ステムメモリの特定の一部分と密接に関連する相対的に
小型のキャッシュメモリと、密接に関連するメモリでア
クセスされるデータのパターンを識別する手段と、識別
されたパターンから得た予測に基づいてキャッシュメモ
リを充填する手段とを具備するコンピュータシステムに
おいて実現される。本発明の上記の目的と特徴並びにそ
の他の目的と特徴は、添付の図面に関連する以下の詳細
な説明を参照することによりさらに良く理解されるであ
ろう。尚、図面中、いくつかの図を通して、同じ図中符
号は同じ要素を指す。

【０００８】〔表記法及び用語〕以下の詳細な説明の中
には、コンピュータメモリ内部にあるデータビットにつ
いての操作をアルゴリズム及び記号表示によって提示し
ている部分がある。そのようなアルゴリズムによる説明
や表示は、データ処理技術に熟達している人がその作業
の内容を同じ分野の他の当業者に最も有効に伝達するた
めの手段である。

【０００９】ここでは、また、一般的にも、アルゴリズ
ムは所望の結果に至る首尾一貫した一連のステップであ
ると考えられている。それらのステップは、物理的な量
の物理的操作を要求するステップである。通常、物理的
な量は記憶，転送，組み合わせ，比較及びその他の方法
による操作が可能である電気的信号又は磁気信号の形態
をとるが、必ずそうであるとは限らない。時によって
は、主に一般に使用されている用語であるという理由に
より、それらの信号をビット，値，要素，記号，文字，
項，数などと呼ぶと好都合であることがわかっている。
ただし、これらの用語及びそれに類する用語は全て適切
な物理的な量と関連させるべきものであり、単にそのよ
うな量に便宜上付されたラベルであるにすぎないことを
忘れてはならない。

【００１０】さらに、実行される操作を、オペレータが
実行する知的動作と一般には関連している加算又は比較
などの用語で呼ぶ場合が多いが、本発明の一部を成す、
ここで説明する動作のいずれをとっても、そのようなオ
ペレータの能力は不要であり、多くの場合に望ましくな
い。動作は機械の動作である。本発明の動作を実行する
のに有用な機械には、汎用デジタルコンピュータ又は他
の同様の装置がある。いずれにせよ、コンピュータを動
作させる際の方法動作と、計算それ自体の方法との明確
な区別に留意すべきである。本発明は、電気的信号又は
他の物理的（たとえば、機械的，化学的）信号を処理し
て、別の所望の物理的信号を発生させるに際してコンピ
ュータを動作させる装置及び方法ステップに関する。

【００１１】

【実施例】まず、図１に関して説明すると、図１には、
典型的なワークステーションで使用するフレームバッフ
ァ１０が線図で示されている。この明細書では、便宜
上、フレームバッファ１０は、水平方向に各走査線に沿
って約千個の画素を有し且つ垂直方向には約千本の走査
線を有するビットマップ形コンピュータ出力表示装置に
表示するためのデータを保持することができると考えて
も良い。通常、ここに実例として示したフレームバッフ
ァ１０は画素ごとに８ビットの情報を保持し、従って、
スクリーン表示のためのデータとしては合わせて約１メ
ガバイトのデータを保持できるものと考えられる。

【００１２】一般に、ここでは、便宜上、各画素の情報
は、その画素が出力表示装置に現れる位置とほぼ同じで
あるフレームバッファ１０の位置に記憶されるものと考
える。これは必ずしも真実ではないが、少なくとも論理
的には正しい言いかたであり、そのように考えることに
よって、おそらく幾分かは理解が容易になるであろう。
従って、フレームバッファ１０に記憶されている情報が
表わす画素は、コンピュータ出力表示装置にそれらの画
素が表示されるであろう位置と同じフレームバッファ１
０の位置に記憶されるものとして図示してある。たとえ
ば、図１に線分１２，１３及び１４として示したベクト
ルは、表示スクリーンにそれらのベクトルが現れるのと
同じ位置であるフレームバッファ１０の画素位置（論理
的であれ、物理的であれ）に記憶される。

【００１３】図２は、図１に示した線分１２，１３及び
１４それぞれの一部を含むフレームバッファ１０の一部
分１５を拡大し、１０×１０画素に限定して示す図であ
る。図２に示されている線分１３の部分は、フレームバ
ッファの水平方向の１つの行に沿って互いに連続して記
憶された１０個の画素により表される。この情報は出力
表示装置の１本の走査線に沿って現れる。図２に示され
ている線分１４の部分は、フレームバッファの１つの列
に互いに上下に隣接して記憶された１０個の画素により
表されており、それらの画素は出力表示装置の１０本の
隣接する走査線上に表示される。図２に示されている線
分１２の部分は、フレームバッファのいくつかの隣接す
る水平の行に記憶された画素により表されており、それ
らの画素は出力表示装置の何本かの隣接する走査線上に
現れることになる。尚、各走査線上にある画素は互いに
連続し、隣接して位置している。

【００１４】３つの線分１２，１３及び１４は、コンピ
ュータシステムのビットマップ形出力表示装置に表示す
るためにフレームバッファに記憶される様々な要素の中
でも典型的なものである。そのような要素は、ほぼあら
ゆる形状のより大きな図形を構成するために使用されて
も良い。３つの異なる線分１２，１３及び１４をよく見
てみると、線分１３をフレームバッファに記憶するとき
には、画素は同じ行に位置し、線形アドレスは互いにす
ぐ隣あっていることが当業者には認められるであろう。
汎用システムキャッシュメモリを充填しているとき、シ
ステムはアクセスされた特定の情報だけではなく、アク
セスされたその情報に隣接しており、間を置かずにアク
セスされそうである情報をもキャッシュメモリに書き込
むのが普通である。従って、線分１３のある位置がアク
セスされたならば、プロセッサと関連する典型的なキャ
ッシュメモリには、通常、その線分のアクセスされた位
置に隣接する画素を規定する情報が保持されるので、始
動時のキャッシュミス以外のものを引き起こさずにそれ
らの画素をもアクセスできるのである。

【００１５】これに対し、線分１４は、それぞれＸの値
は同じであるが、すぐ前にアクセスされた行より１行だ
け下方に位置するアドレスを有する複数の画素により表
されている。キャッシュメモリの大きさと、実行されて
いる動作にもよるが、表示の更新を行うときには、線分
１４上の１つの位置を初めてアクセスした後、同じ行に
互いにすぐ隣接している画素のみがキャッシュメモリに
保持されるのが普通である。そのため、線分１４をアク
セスするときには、線分１４を出力表示装置に書き込む
ためにキャッシュメモリを読み取ってゆく際に線分１４
の画素ごとにキャッシュミスが起こる可能性がある。ま
た、線分１２を表している画素は、個々の行では互いに
すぐ隣接しているが、行ごとにＹ方向に画素１つずつず
れているアドレスを有する。線分１４の場合と同様に、
通常、典型的なキャッシュには、アクセスされた画素と
同じ行にある線分１２の画素のみが記憶されることにな
る。そこで、出力表示装置に線分１２を書き込むときに
は、走査線ごとにキャッシュミスが起こってしまうの
で、図２に示した線分１２の部分については合わせて３
回のキャッシュミスが起こる。

【００１６】しかしながら、図２に示す線分のいずれを
読み取る又は書き込むときでも、読み取るべき次の画素
又は書き込むべき次の画素は、フレームバッファの中で
最前に記述された画素からＸ方向及び／又はＹ方向に１
画素以内にあるアドレスを有する画素となる。図２に
は、フレームバッファに記憶されるそのような９個の隣
接画素から成る画素群を表わすボックス１７が重ねて示
されている。表示装置にある線分を表示するために現在
アクセス中である画素がボックス１７の中の９個の画素
の中心位置にあると考えられる場合には、同じ線分を表
示している限り、次にアクセスすべき画素は残る８つの
画素位置の中の１つに位置することになる。連続するど
のような線分に関しても、これはフレームバッファの読
み取りアクセスと、書き込みアクセスの双方について当
てはまる。

【００１７】従って、線分に関連してフレームバッファ
において読み取り動作と書き込み動作が実行されるたび
に、任意の形状の線分が表示されている限り、次の画素
のアドレスを正確に予測できるであろう。線分が始まる
か又は終わるときに限って、次の画素の位置を正確に予
測することは不可能である。線を表示してゆくときの次
の画素アドレスを正確に予測できるので、どのような線
分を表すときにも、次に起こりうる画素のアドレスにデ
ータを記憶するために小型のキャッシュを使用できる。
説明した２つの動作（読み取り及び書き込み）につい
て、このようなキャッシュは、次のアクセス時にキャッ
シュミスが起こらないと確認するために、現在アクセス
中である位置に関するデータと、現在位置を取り巻く８
つの画素位置に関するデータとを保持するだけで良い。

【００１８】このようなキャッシュはごく小さい（記憶
場所は９つ）が、得られる速度の増加は決して小さくな
い。たとえば、中央処理装置と関連する通常のキャッシ
ュを使用する場合、線分１４に関する画素を出力表示装
置に書き込めるようにフレームバッファから読み取ると
きには、画素ごとにキャッシュミスが起こると予期する
ことができる。表示すべき線分が１０画素の長さであれ
ば、６４回までの命令回数をもつパイプライン化アーキ
テクチャにおける遅延はそのような線分を描いている間
に１０回起こるであろう。ところが、ここで説明する小
型キャッシュを使用すると、線分１４の最初の画素でキ
ャッシュミスが起こるだけであろうと考えられるので、
動作は総じて６４回の命令回数を９倍した程度までスピ
ードアップする。これは、非常に小型のキャッシュで成
しうる加速としては大きなものである。統計的研究によ
れば、読み取りアクセスはフレームバッファの動作の約
５０パーセントを占めることがわかっている。ここで説
明するようなキャッシュメモリを使用すると、フレーム
バッファの画素位置ごとに余す所なくアクセスする代わ
りに、さらに高速で動作するキャッシュメモリをアクセ
スできるので、いくつかの動作は相当にスピードアップ
するであろう。その結果、ホストＣＰＵのフレームバッ
ファアクセス要求と次のアクセス要求との間のフレーム
バッファアクセスをすぐに実行することにより、キャッ
シュを充填状態のままにしておくことができると仮定さ
れる。

【００１９】一般的には、起こりうるフレームバッファ
のラスター動作には３つの種類がある。それらの動作を
ゼロオペランドラスター動作、１オペランドラスター動
作及び２オペランドラスター動作と分類できるであろ
う。まず、ゼロオペランドラスター動作は書き込み専用
動作であり、その１例はスクリーンの一部領域のクリア
である。フレームバッファの特定の画素に何が保持され
ていたかを知る必要がないので、次の動作に備えてキャ
ッシュは不要である。しかしながら、小型キャッシュは
あるレベルの書き込みバッファリングを本質的に実行す
ることにより、書き込みアクセス時の動作をスピードア
ップすることができる。キャッシュは書き込みアクセス
を受け入れ、関連データを受け入れ、ホストを開放する
ことができる。ホストは書き込みが起こったと想定し、
他の動作を継続する。その一方で、キャッシュは実際に
フレームバッファにデータを書き込む。１オペランド動
作の例は、画素を黒から白に変更する反転指令である。
このような動作は画素ごとに読み取りと、書き込みとを
要求する。線分の場合、上述の小型キャッシュはこのよ
うな動作について十分な記憶能力を提供する。これに対
し、２オペランド動作は表示の垂直方向画面移動などの
コピー動作により例示されるであろう。このような動作
では、１つの画素の情報を第１の場所から読み取り、第
２の場所に書き込む。どのような線分に対しても、本発
明によるキャッシュは、読み取るべき場所に関する前記
の９つのアドレスと、書き込むべき画素を記憶している
別の９つのアドレスの双方に関連する情報を記憶するの
に十分な大きさでなければならない。すなわち、画素を
読み取って、支持された距離だけ離れている新たなアド
レス、たとえば、走査線１本だけすぐ下方に位置するア
ドレスに書き込むのである。読み取るべき第１のアドレ
スをアクセスするとキャッシュミスが起こるが、書き込
むべき第２のアドレスは、命令により指示された距離か
らわかっている。さらに、読み取るべき次のアドレスは
最初にアクセスした読み取り位置を取り囲む８つの画素
の中にあり、書き込むべき次のアドレスは第２に読み取
った画素から、第１に読み取った画素から第１に書き込
んだ画素までの距離と同じ指示距離をおいた場所に位置
している。このように、これらのアドレスがキャッシュ
されると仮定すると、それぞれの位置を確定するために
十分な情報を利用でき、その線分のコピーが終了するま
で、キャッシュミスはそれ以上起こらない。

【００２０】以上説明したように、本発明が提案する小
型キャッシング構成が、最も単純なゼロオペランド動作
を除くあらゆる動作においてフレームバッファの動作速
度を相当に増すことは明らかである。

【００２１】このような構成をハードウェアで構成する
には、画素を読み取り始める初期位置と、その初期位置
を取り囲む８つの画素と、画素をコピーすべき第１の位
置と、その第１の位置を取り囲む８つの画素とを含む少
なくとも１８の独立した位置にデータとアドレスを記憶
するのに十分なキャッシュメモリがあるだけで良い。上
述のような回路構成を図３にブロック線図の形態で示
す。この構成は中央処理装置２２と、主メモリ２４と、
フレームバッファ２６と、小型予測キャッシュメモリ２
８とを含む。これらの素子はそれぞれシステムバスに接
続している。キャッシュメモリ２８は、フレームバッフ
ァ２６をアクセスする必要なくアドレッシングされた情
報が存在することを肯定応答することができるように、
バスインタフェースに配置されている。

【００２２】図３の構成は、中央処理装置２２がフレー
ムバッファ２６をアクセスすると、アクセスされた情報
とそのアドレスをキャッシュメモリ２８の適切な９つの
画素位置の中心位置に配置させるようにシステムソフト
ウェアにより制御されることになっている。その後、ア
クセスされた位置を取り囲むフレームバッファ２６の８
つの画素位置をそのアドレスと共にキャッシュメモリ２
８の他方の８つの位置に移す。通常、この充填にはフレ
ームバッファを３回又は４回アクセスする必要がある。
このようなキャッシュメモリ２８の充填は多少の時間を
要するが、システムの総待ち時間は、通常、フレームバ
ッファのアクセスとアクセスとの間にこの充填を実行す
るのに十分な時間を与える。フレームバッファ２６の別
の位置に情報を書き込むような動作の場合、その位置の
アドレスを確定し、キャッシュメモリ２８の９つの記憶
スペースから成る第２のグループの中心に配置させる。
その時点から、当該線分に関わる情報をキャッシュメモ
リ２８でアクセスし、利用することができる。次に隣接
する画素をアクセスすると、その隣接する画素の情報と
アドレスは画素９つから成る第１のグループの中心位置
に導入され、残る位置はその隣接する画素を取り囲むア
ドレスで充填されるが、それらのアドレスの多くは既に
キャッシュメモリに入っている。画素が書き込まれるご
とに、同じようにして、新たな位置の情報を画素９つの
第２のグループの中心へ移動させる。この原理に従って
設計されたキャッシュメモリ２８は、連続する線分をフ
レームバッファに描出するに際してこのような小型予測
キャッシュとしては最高のヒット率を示す。

【００２３】本発明に従って予測キャッシュを実現する
別の構成は、次のアクセスが指向する可能性のある位置
を取り囲むのとは幾分異なるキャッシング構成を利用す
る。そのような構成は前記の構成ほどハードウェアを使
用しないので低コストではあるが、ヒット率は幾分低く
なる。この構成は、最初にアクセスされた位置を取り囲
む全てのアクセス可能位置に関わる情報を記憶するので
はなく、フレームバッファの次のアクセスに対して唯一
つの位置を予測しようとするものであるので、ハードウ
ェアに要するコストは少なくなる。

【００２４】このような構成は、フレームバッファで起
こりうる様々な動作をさらに詳細に検討することにより
得られるであろう。それらの動作を図４に示す複数の特
定のステップに分解しても良い。たとえば、線の位置を
確定するために一連の読み取り動作が起こるとする。そ
のような動作においてはアドレスＮを読み取り、次にＮ
＋Ｓを読み取る。尚、ＳはアドレスＮからの任意のオフ
セットであるが、通常は最初の画素から１画素以内にあ
る。オフセットＳをストライドと呼んでも良い。特定の
線分の中では、その線分の方向に関わらず、次にアクセ
スすべき画素はおそらくＮ＋２Ｓに位置していると思わ
れる。書き込みラスター動作のシーケンスについて同じ
画素アクセスが起こる。第１のアドレスとストライドが
与えられれば、１本のまっすぐな線分をアクセスしてい
る限り、読み取りアクセスは書き込みアクセスのシーケ
ンスにおける次の画素をかなりの程度まで予測できる。
当然のことながら、線分の形状が２〜３の画素から余り
に変化してしまったために、予測が不可能になることは
ありうる。その場合、ヒット率は幾分低下する。フレー
ムバッファに１本の線分を書き込むだけの動作では、読
み取り動作におけるのと同じ動作シーケンスが起こる。

【００２５】画面移動や、それに類する動作のように線
分の画素を１つの位置から別の位置へコピーする動作の
場合にはさらに多くの動作が関わってくる。フレームバ
ッファを含めて、メモリはほぼ間違いなく１度に１画素
より多い量でアクセスされる。たとえば、典型的なシス
テムはメモリの語１つ分をアクセスする。そのような語
は３２ビット、すなわち４バイトの記憶を含むと考えら
れる。各画素を単一のビットによって規定する白黒シス
テムにおいては、それぞれの語の中に互いに異なる３２
個のビットが含まれることになる。多くのシステムは個
々の画素をアクセスせず、アクセスしうる最小の量は、
通常、１バイト（この例のシステムでは８ビット）であ
る。従って、１つの画素であっても、フレームバッファ
内の１つの場所から別の場所へコピーするためには、１
バイト、すなわち、語１つ分をアクセスしなければなら
ない。関心画素が読み取るべき語の始まりから、書き込
むべき語におけるのと等しいオフセットを経て位置して
いる場合、アドレスに関する限り、コピー動作は１回の
読み取りと、１回の書き込みのみから成る。すなわち、
位置Ｎにおける読み取り内容を位置Ｍに書き込み、位置
Ｎ＋Ｓにおける次の読み取り内容を位置Ｍ＋Ｓに書き込
むのである。線を読み取り、書き込む間、このシーケン
スが続く。このような読み取りは、関心画素に加えて、
同じ行に位置している同じバイト、すなわち、同じ語の
中の隣接する画素をもアクセスし且つ記憶する。それら
の画素が別の線分の位置を含んでいるならば、それらは
第１の位置の１回のアクセスの中でアクセスされる。

【００２６】これに対し、読み取るべき第１の画素がフ
レームバッファの語境界から第１のオフセットを経た位
置にあり、（読み取るべき別の画素が同じ行に位置する
場合）且つその第１の画素を語境界から第２のオフセッ
トを経た位置に書き込むべきである場合には、アクセス
すべき部分又は書き込むべき部分のいずれかは２つの異
なる語、すなわちバイトに位置すると考えられる。この
情報のコピーは、２回の読み取り動作と１回の書き込み
動作又は１回の読み取り動作と２回の書き込み動作のい
ずれかの方式で実行されれば良い。一方の場合には、語
１つ分の書き込みを完全に満たすことができる十分な読
み取り（２回）を実行しなければならない。他方の場合
には、読み取りごとに得られる語１つを完全に利用する
ために書き込みを２回まで実行しなければならない。多
くのコンピュータでは読み取り／読み取り／書き込みプ
ロセスを使用しており、この型のコピー動作は読み取り
／書き込み／読み取り／書き込みとして続いてゆく。コ
ピー動作によってはＲS ／ＲD／ＷD ，ＲS／ＲD ／ＷD
等々のパターンを有するものさえある。この２回目の読
み取りは、新たなデータ（Ｓはソースデータを表わす添
字である）と旧データ（Ｄは宛先データを表わす添字で
ある）とを組み合わせるためにラスター動作により要求
される。

【００２７】このように、典型的なフレームバッファ動
作のどれをとっても、読み取り／読み取り／読み取り，
書き込み／書き込み／書き込み又は読み取り／書き込み
／読み取り／書き込みのパターンを識別すれば良いこと
がわかる。これがわかれば、パターン認識回路によって
次のアクセスを予測することができる。たとえば、現在
情報アクセスのアドレスが望まれる場合、その位置はフ
レームバッファへの最前の３回のアクセスから予測可能
であろう。このように、一般的には、最前の３つのアド
レスと、最前の２回のアクセスから得たデータと、アク
セスの型（読み取り又は書き込み）とによって次の画素
の位置を予測する。アクセスの型はパターンをＲＥＡＤ
／ＲＥＡＤ／ＲＥＡＤ，ＷＲＩＴＥ／ＷＲＩＴＥ／ＷＲ
ＩＴＥ又はＲＥＡＤ／ＷＲＩＴＥ／ＲＥＡＤ／ＷＲＩＴ
Ｅとして規定する。さらに、アドレスの差によって所望
のアクセスに関するストライドを予測する。先に指摘し
た通り、ＲＥＡＤ／ＲＥＡＤ／ＲＥＡＤ及びＷＲＩＴＥ
／ＷＲＩＴＥ／ＷＲＩＴＥの場合のストライドは最前の
アクセスアドレスと、そのすぐ前のアクセスアドレスと
の差である。パターンがＲＥＡＤ／ＷＲＩＴＥ／ＲＥＡ
Ｄ／ＷＲＩＴＥである型のコピー動作の場合には、２回
の読み取りアクセスの間のストライドは書き込みアクセ
ス間のストライドと同じであり、読み取りアクセスと書
き込みアクセスとの間のストライドは最前の読み取りア
クセスと書き込みアクセスとの間のストライドと同じで
ある。従って、何らかの特定の線分に関するパターンの
中で、コピー動作又はそれに類する動作の始めの３つの
画素の後にアクセスを比較するたびに、次のアクセスを
予測することができる。また、さらに複雑な反復パター
ンであっても、十分な論理があれば、それらのパターン
を予測可能とすることができる。

【００２８】図５は、このさらに特定的な形態の予測キ
ャッシングを実行するために利用して良い回路６０をブ
ロック線図の形で示す。回路６０は、最前の３回のアク
セスそれぞれのアドレスと、最前の２回のアクセスと関
連するデータ（通常、３ステップ以上戻ったときのデー
タは有用ではない）と、最前の３回のアクセスそれぞれ
のアクセスの型とを記憶するレジスタ６１〜６３を含
む。フレームバッファのアクセスが不要となるように、
次のステップでアクセスされるべきデータを予測し、そ
れをキャッシュに記憶しておくことが望まれる。中央処
理装置から入力するアドレス，データ及びオペランドは
レジスタ６４に供給されて、キャッシュのアドレスと比
較される。

【００２９】レジスタ６１〜６３の最前の３回のアクセ
スのアドレスを比較器６５〜６７において比較して、キ
ャッシュヒットがあるか否かを判定する。予測に際して
は、判定されたアクセスパターンに応答してこれらのレ
ジスタのアドレス情報を選択的に減算器６８及び６９に
供給し、減算器は比較器が判定したパターンに従って読
み取りアクセス間又は書き込みアクセス間のストライド
を確定する。このストライドに最前のアクセスの中の１
つのアドレスを加えたものが、情報をアクセスすべき予
測アドレスを表わす。フレームバッファのこのアドレス
にある情報をアクセスし、キャッシュ（７７）に記憶し
ておけば、中央処理装置から新たなアドレスを受信した
ときにその情報を利用することができる。

【００３０】さらに詳細にいえば、アクセスの型がＲＥ
ＡＤ／ＷＲＩＴＥ／ＲＥＡＤ／ＷＲＩＴＥＴＹＰＥで
あることがわかった場合には、コピーの型の動作を予測
する。そのような場合、最前のアドレスＡ_n-1を先行ア
ドレスＡ_n-2から減算して、読み取り動作と書き込み動
作の位置の差を求める。この結果をレジスタ７１に記憶
させる。次に、減算器６９においてアドレスＡ_n-3 とア
ドレスＡ_nー1 との差を確定して、最前の２回の読み取り
動作又は最前の２回の書き込み動作の差を求め、結果を
レジスタ７２に記憶させる。２つのレジスタ７１及び７
２にある結果をマルチプレクサ７５により選択し、マル
チプレクサ７６が選択したアクセスアドレスに加算器７
４において加算すると、その結果が予測アドレスとな
る。この予測アドレスのデータをレジスタ７７に記憶さ
せておき、中央処理装置はこのレジスタ７７をアクセス
する。この第２の、より特殊化したキャッシング構成は
第１の構成（３回のアクセスの平均）と比べてミス損失
が著しく少ない（１回のアクセス）。

【００３１】尚、このような小型特殊化キャッシュを使
用しても、動作速度が増すこと以外にコンピュータシス
テムの動作には全く影響はないことに注意すべきであ
る。予測キャッシュメモリはシステムの他の動作と並行
して情報を記憶するので、ある特定の予測が有効でない
とわかった場合にも、システムに遅延は生じない。キャ
ッシュミスの場合、動作は単に通常通りに進行するだけ
である。

【００３２】非常に形式的な動作のパターンを有するフ
レームバッファに関して予測キャッシングの利用を説明
したが、ランダムアクセスメモリでも同じ特徴の多くが
見られる。従って、ランダムアクセスメモリ内部の動作
に同じ一般原理を適用して良い。たとえば、主メモリに
記憶させてあるマトリクスに情報を記憶する又はそのよ
うなマトリクスから情報を検索する状況や、情報をルー
ピング動作に取り入れる状況は数多く生じる。この種の
動作に同じ原理を適用できる。同様にして処理できるよ
うな識別可能パターンを有するメモリ動作は当業者には
自明であろう。

【００３３】以上、本発明を好ましい実施例に関して説
明したが、本発明の趣旨から逸脱せずに様々な変形や変
更を当業者により実施しうることは理解されるであろ
う。従って、本発明は特許請求の範囲によって判断され
るべきである。

【図面の簡単な説明】

【図１】表示に備えてフレームバッファに記憶できる様
々な要素を示すフレームバッファの図。

【図２】表示に備えてフレームバッファに記憶できる様
々な要素を示す図１に示したフレームバッファの一部の
拡大図。

【図３】本発明に従ってキャッシングを実行する回路を
示すブロック線図。

【図４】本発明の動作を理解する上で有用であるフレー
ムバッファの一部の図。

【図５】本発明に従ってキャッシングを実行する第２の
回路を示すブロック線図。

【符号の説明】

２２中央処理装置２４主メモリ２６フレームバッファ２８予測キャッシュメモリ６１〜６４レジスタ６５〜６７比較器６８，６９減算器７１，７２レジスタ７４加算器７５，７６マルチプレクサ７７レジスタ

───────────────────────────────────────────────────── フロントページの続き (73)特許権者 591064003 901 ＳＡＮＡＮＴＯＮＩＯＲＯＡＤＰＡＬＯＡＬＴＯ，ＣＡ 94303, Ｕ．Ｓ．Ａ. (72)発明者クリス・マラコフスキイアメリカ合衆国 95051 カリフォルニア州・サンタクララ・スラッシュウェイ・3775 (72)発明者ロバート・ロチェッティアメリカ合衆国 95014 カリフォルニア州・カッパチーノ・アパートメント 30シィ・ノースステリングロード・ 10870 (72)発明者デヴィッド・ローゼンタールアメリカ合衆国 94301 カリフォルニア州・パロアルト・アパートメント 407・アルマストリート・427 (56)参考文献特開平３−154977（ＪＰ，Ａ) 特開平３−291767（ＪＰ，Ａ) 特開平２−91776（ＪＰ，Ａ) 特開昭63−255778（ＪＰ，Ａ) 特開平１−262585（ＪＰ，Ａ) 米国特許5056044（ＵＳ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 12/08 G06T 1/60 G06T 11/00 - 11/40 G06T 15/00 - 15/60 G06T 17/00 - 17/30 G09G 5/00 - 5/42

Claims

(57)【特許請求の範囲】

【請求項１】中央処理装置（ＣＰＵ）と、主メモリ
と、フレーム・バッファと、前記フレーム・バッファに
結合されたキャッシュ・メモリとを含むコンピュータ・
システムにおいて、前記フレーム・バッファ用の予測ア
ドレスを生成するコンピュータ実施方法であって、第１のアドレスが前記主メモリへの第１の前のアクセス
を指定し、第２のアドレスが前記主メモリへの第２の前
のアクセスを指定し、第３のアドレスが前記主メモリへ
の第３の前のアクセスを指定するように、前記主メモリ
への３つの前のアクセスの３つのアドレスを複数のアド
レス・レジスタ中に記憶するステップと、第１のアクセス・タイプが前記第１の前のアクセスの読
取り動作または書込み動作を指定し、第２のアクセス・
タイプが前記第２の前のアクセスの読取り動作または書
込み動作を指定し、第３のアクセス・タイプが前記第３
の前のアクセスの読取り動作または書込み動作を指定す
るように、各アクセス・タイプが前記主メモリへの読取
り動作または書込み動作を指定する、前記主メモリへの
３つの前のアクセスの３つのアクセス・タイプを複数の
アクセス・タイプ・レジスタ中に記憶するステップと、動作パターンが生成されるように前記第１のアクセス・
タイプ、前記第２のアクセス・タイプおよび前記第３の
アクセス・タイプをある順序で配列するステップと、前記動作パターンに基づいて前記３つのアドレスからの
ストライドを計算するステップと、前記動作パターンが読取り、読取り、読取り（ＲＲＲ）
パターンまたは書込み、書込み、書込み（ＷＷＷ）パタ
ーンを含んでいるときに前記第３のアドレスを選択する
ステップと、前記動作パターンが書込み、読取り、書込み（ＷＲＷ）
パターンを含んでいるときに前記第２のアドレスを選択
するステップと、前記動作パターンについて計算した前記ストライドを選
択した前記アドレスに加えることによって前記予測アド
レスを生成するステップと、前記主メモリ中の前記予測アドレスのデータを読み取る
ステップと、前記データを前記キャッシュ・メモリ中に記憶するステ
ップとを含む方法。
【請求項２】中央処理装置と、主メモリと、フレーム
・バッファと、前記フレーム・バッファに結合されたキ
ャッシュ・メモリとを含むコンピュータ・システムにお
いて、前記フレーム・バッファ用の予測アドレスを生成
するコンピュータ実施方法であって、第１のアドレスが前記主メモリへの第１の前のアクセス
を指定し、第２のアドレスが前記主メモリへの第２の前
のアクセスを指定し、第３のアドレスが前記主メモリへ
の第３の前のアクセスを指定するように、前記主メモリ
への３つの前のアクセスの３つのアドレスを複数のアド
レス・レジスタ中に記憶するステップと、第１のアクセス・タイプが前記第１の前のアクセスの読
取り動作または書込み動作を指定し、第２のアクセス・
タイプが前記第２の前のアクセスの読取り動作または書
込み動作を指定し、第３のアクセス・タイプが前記第３
の前のアクセスの読取り動作または書込み動作を指定す
るように、各アクセス・タイプが前記主メモリへの読取
り動作または書込み動作を指定する、前記主メモリへの
３つの前のアクセスの３つのアクセス・タイプを複数の
アクセス・タイプ・レジスタ中に記憶するステップと、動作パターンが生成されるように前記第１のアクセス・
タイプ、前記第２のアクセス・タイプおよび前記第３の
アクセス・タイプをある順序で配列するステップと、前記動作パターンが読取り、読取り、読取り（ＲＲＲ）
パターンまたは書込み、書込み、書込み（ＷＷＷ）パタ
ーンを含んでいるときに第１のストライドを生成するた
めに前記第１のアドレスを前記第２のアドレスから引く
ステップと、前記動作パターンが書込み、読取り、書込み（ＷＲＷ）
パターンまたは読取り、読取り、書込み（ＲＲＷ）パタ
ーンを含んでいるときに第２のストライドを生成するた
めに前記第３のアドレスを前記第１のアドレスから引く
ステップと、前記動作パターンが読取り、読取り、読取り（ＲＲＲ）
パターンまたは書込み、書込み、書込み（ＷＷＷ）パタ
ーンを含んでいるときに前記第３のアドレスを選択する
ステップと、前記動作パターンが書込み、読取り、書込み（ＷＲＷ）
パターンを含んでいるときに前記第２のアドレスを選択
するステップと、前記動作パターンについて計算した前記ストライドを選
択した前記アドレスに加えることによって前記予測アド
レスを生成するステップと、前記主メモリ中の前記予測アドレスのデータを読み取る
ステップと、前記データを前記キャッシュ・メモリ中に記憶するステ
ップとを含む方法。
【請求項３】中央処理装置（ＣＰＵ）と、主メモリ
と、フレーム・バッファと、前記フレーム・バッファに
結合されたキャッシュ・メモリとを含むコンピュータ・
システムにおいて、前記フレーム・バッファ用の予測ア
ドレスを生成する装置であって、複数のアドレスおよびアクセス・タイプを記憶し、記憶
された第１のアドレスが前記主メモリへの第１の前のア
クセスを指定し、記憶された第２のアドレスが前記主メ
モリへの第２の前のアクセスを指定し、記憶された第３
のアトレスが前記主メモリへの第３の前のアクセスを指
定するように、前記主メモリへの３つの前のアクセスの
３つのアドレスを記憶し、第１のアクセス・タイプが前
記第１の前のアクセスの読取り動作または書込み動作を
指定し、前記第２のアクセス・タイプが前記第２の前の
アクセスの読取り動作または書込み動作を指定し、第３
のアクセス・タイプが前記第３の前のアクセスの読取り
動作または書込み動作を指定するように、前記主メモリ
への読取り動作または書込み動作を指定する、前記主メ
モリへの３つの前のアクセスそれぞれの３つのアクセス
・タイプを複数のアクセス・タイプ・レジスタ中に記憶
する記憶手段と、前記記憶手段に結合され、前記フレーム・バッファへの
後続の書込み動作のアドレスを予測し、動作パターンが
生成されるように前記第１のアクセス・タイプ、前記第
２のアクセス・タイプおよび前記第３のアクセス・タイ
プをある順序で配列し、前記動作パターンに基づいて前
記３つのアドレスからストライドを計算し、前記動作パ
ターンが読取り、読取り、読取り（ＲＲＲ）パターンま
たは書込み、書込み、書込み（ＷＷＷ）パターンを含ん
でいるときに前記第３のアドレスを選択し、前記動作パ
ターンが書込み、読取り、書込み（ＷＲＷ）パターンを
含んでいるときに前記第２のアドレスを選択し、前記動
作パターンについて計算した前記ストライドを選択した
前記アドレスに加えることによって前記予測アドレスを
生成する予測手段と、前記予測手段に結合され、前記主メモリから前記キャッ
シュ・メモリにデータを書き込み、前記主メモリ中の前
記予測アドレスのデータを読み取り、前記データを前記
キャッシュ・メモリ中に記憶するフェッチ手段とを含む
装置。