JPH0962573A

JPH0962573A - データ・キャッシュ・システム及び方法

Info

Publication number: JPH0962573A
Application number: JP8185806A
Authority: JP
Inventors: J Mayfield Michael; マイケル・ジェイ・メイフィールド
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1995-08-24
Filing date: 1996-07-16
Publication date: 1997-03-07
Anticipated expiration: 2016-07-16
Also published as: US5664147A; EP0762288A3; KR100240911B1; KR970012167A; DE69616465T2; EP0762288A2; EP0762288B1; JP3541998B2; DE69616465D1

Abstract

(57)【要約】【課題】Ｌ１及びＬ２キャッシュと関連してストリーム
・フィルタを使ってメモリからプリフェッチされたデー
タを供給し、データ待ち時間を減少させる。【解決手段】Ｌ１キャッシュ及びＬ２キャッシュ、スト
リーム・フィルタ、及びストリーム・バッファを実施す
るデータ処理システムにおいて、キャッシュ・ラインの
プリフェッチは進行的態様で行われる。第１のモードで
は、データはプリフェッチされ得ない。第２のモードで
は、２つのキャッシュ・ラインがプリフェッチされる。
その場合、１つのラインはＬ１キャッシュにプリフェッ
チされ、次のラインはストリーム・バッファにプリフェ
ッチされる。第３のモードでは、２つよりも多くのキャ
ッシュ・ラインが一時にプリフェッチされる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、概して云えば、デ
ータ処理システムに関するものであり、詳しく云えば、
データ・キャッシュに関してデータの進行的（progress
ive)プリフェッチを行うためのシステム及び方法に関す
るものである。

【０００２】

【従来の技術】現行のプログラム及びデータを高速度で
プロセッサ（ＣＰＵ）にとって使用可能にすることによ
って、データ処理システムにおける処理の速度を増加さ
せるために、特別の非常に高速度のメモリが使用される
ことが時々ある。そのような高速度のメモリはキャッシ
ュとして知られており、メイン・メモリのアクセス時間
とプロセッサ・ロジックとの間の速度差を補償するため
に、大型のコンピュータシステムにおいて使用されるこ
とが時々ある。処理速度はメイン・メモリの速度によっ
て最も制限される結果、プロセッサ・ロジックは、通
常、メイン・メモリのアクセス時間よりも速い。オペレ
ーティング・システムの不一致を補償するために使用さ
れるテクニックはＣＰＵとメイン・メモリとの間に極め
て速い小型のメモリを使用することである。そのメモリ
のアクセス・タイムはプロセッサのロジック伝播遅延に
近い。それは、ＣＰＵにおいて現在実行されているプロ
グラムのセグメント及び現在の計算において頻繁に使用
される一時的データを記憶するために使用される。プロ
グラム（命令）及びデータを高速度で使用可能にするこ
とによって、プロセッサのパフォーマンス・レートを向
上させることが可能である。

【０００３】多数の一般的なプログラムの分析の結果、
任意の所与のタイム・インターバルにおけるメモリへの
参照は、メモリにおける僅かなローカライズされた領域
に制限される傾向があるがわかった。この現象は、「参
照の局所性」という特性として知られている。この特性
の理由は、一般的なコンピュータ・プログラムは、屡々
遭遇するプログラム・ループ及びサブルーチン・コール
と共に直線的に流れる。プログラム・ループが実行され
る時、ＣＰＵは、そのループを構成するメモリ内の命令
のセットを繰り返し参照する。所与のサブルーチンが呼
び出される時、それの命令セットがメモリからフェッチ
される。従って、ループ及びサブルーチンは命令のフェ
ッチのためのメモリへの参照をローカライズする傾向が
ある。更に低い程度まで、データに対するメモリ参照も
ローカライズされる傾向がある。テーブル・ルックアッ
プ手順は、そのテーブルが記憶されているメモリ内の部
分を繰り返し参照する。反復的手順が共通のメモリ・ロ
ケーションを参照し、多くの数字がメモリのローカル部
分内に制限される。これらすべての観察の結果が参照の
局所性であり、短期間にわたって一般的なプログラムに
よって発生される命令のアドレスはメモリの僅かなロー
カライズされた領域を繰り返し参照し、一方、メモリの
残り部分は滅多にアクセスされない。

【０００４】プログラム及びデータのアクティブナ部分
が拘束の小型メモリにおかれる場合、平均的なメモリ・
アクセス・タイムは減少し、従って、プログラムの合計
実行時間を減少させる。そのような高速の小型メモリ
は、前述のように、キャッシュ・メモリと呼ばれる。キ
ャッシュ・メモリのアクセス・タイムはメイン・メモリ
のアクセス・タイムよりも５乃至１０倍も小さいことが
多い。キャッシュ・メモリはメモリ・ハイアラーキにお
ける最高速のコンポーネントであり、ＣＰＵコンポーネ
ントの速度に近い。

【０００５】キャッシュ機構の基本的な理念は、最も頻
繁にアクセスされる命令及びデータを高速度キャッシュ
・メモリに保持することによって、平均的なメモリ・ア
クセス・タイムがキャッシュ・メモリのアクセス・タイ
ムに近づくことである。キャッシュ・メモリはメイン・
メモリの数分の１のサイズしかないけれども、メモリ・
リクエストの大部分は、プログラムの参照の局所性のた
めに高速度キャッシュ・メモリ内で検出されるであろ
う。

【０００６】キャッシュ・メモリの基本的オペレーショ
ンは次のようである。ＣＰＵがメモリにおけるワードを
アクセスする必要がある時、キャッシュ・メモリが調べ
られる。そのワードがキャッシュ・メモリにおいて見つ
かる場合、それはその高速キャッシュ・メモリから読み
取られる。ＣＰＵによってアクセスされたワードがキャ
ッシュ・メモリにおいて見つからない場合、そのワード
を読み取るためにメイン・メモリがアクセスされる。そ
こで、そのアクセスされたワードを含むワード・ブロッ
クがメイン・メモリからキャッシュ・メモリに転送され
る。このように、メイン・メモリへのその後の参照によ
って必要なワードが高速キャッシュ・メモリにおいて見
つかるよう、幾つかのデータがキャッシュ・メモリに転
送される。

【０００７】コンピュータ・システムの平均的メモリ・
アクセス・タイムはキャッシュ・メモリの使用によって
かなり改善可能である。キャッシュ・メモリのパフォー
マンスは「ヒット率」と呼ばれる数値によって測定され
ることが多い。ＣＰｕがメモリを参照し、キャッシュに
おいてそのワードを見つける時、それは「ヒット」を生
じたと云われる。そのワードがキャッシュ・メモリにお
いて見つからない場合、それはメイン・メモリ内にあ
り、「ミス」としてカウントされる。殆ど時間、ＣＰＵ
がメイン・メモリの代わりにキャッシュ・メモリをアク
セスするようにヒット率が十分に高い場合、平均的アク
セス時間は高速キャッシュ・メモリのアクセス時間に近
くなる。例えば、１００ｎｓのキャッシュ・アクセス・
タイム、１０００ｎｓのメイン・メモリアクセス・タイ
ム、及び０.９のヒット率を持ったコンピュータは２０
０ｎｓの平均アクセス・タイムを生じる。これは、キャ
ッシュ・メモリのない同様のコンピュータ（そのアクセ
ス・タイムは１０００ｎｓ）に比べてかなりの改善であ
る。

【０００８】最近のマイクロプロセッサでは、プロセッ
サ・サイクル・タイムはテクノロジの発展によって改善
し続けている。又、理論的実行、深いパイプライン、多
くの実行エレメント等の設計テクニックはマイクロプロ
セッサのパフォーマンスを改善し続けている。その改善
されたパフォーマンスは、マイクロプロセッサに与える
ために多くのデータ及び命令を要求するので、メモリ・
インターフェースに重い負荷を課する。メモリ待ち時間
の現象を援助するために大きなオン・チップ・キャッシ
ュ（Ｌ１キャッシュ）が使用される。それらは、大型の
オフ・チップ・キャッシュ（Ｌ２キャッシュ）によって
拡張されることが多い。

【０００９】待ち時間を減少させるのに先立ってメモリ
・データをＬ１キャッシュに供給しようとするプリフェ
ッチ・テクニックが実施されることが多い。理想的に
は、プロセッサが必要とするメモリ・データのコピーが
いつもＬ１キャッシュ内にあるよう、プログラムはデー
タ及び命令を十分に前にプリフェッチするであろう。

【００１０】問題は、すべての場合において必要とされ
るデータ・アドレスを明示的に決定するに十分な先回り
情報を、マイクロプロセッサ・アーキテクチャが与えな
いことである。例えば、メモリにおけるデータ・オペラ
ンドに対するアドレス自身はメモリ内にあり、メモリ命
令によって使用されるべき第１命令によってフェッチさ
れなければならない。そのようなシーケンスの場合、プ
リフェッチを行うためには、プロセッサは前もってアド
レスを持たない。

【００１１】命令又はデータのプリフェッチはその分野
ではよく知られている。しかし、既存のプリフェッチ・
テクニックは命令又はデータを早くプリフェッチし過ぎ
ることが多い。プリフェッチしそしてその後そのプリフ
ェッチされた命令又はデータを使用しないという問題
は、（１）プロセッサが必要とするデータをプリフェッ
チ・データが変位したかもしれないこと、（２）プリフ
ェッチ・メモリ・アクセスがその後のプロセッサ・キャ
ッシュ再ロードにそのプリフェッチ・アクセスを待た
せ、従って、必要なデータの待ち時間を増加させること
があること、である。これらの影響は両方ともＣＰＵの
効率を低下させる。従って、その分野において必要なこ
とは、マイクロプロセッサのパフォーマンスを低下させ
ることなく、キャッシュ・ミスによりＬ１キャッシュへ
のデータ及び命令アクセスの待ち時間を減少させる改良
されたプリフェッチ・テクニックである。

【００１２】

【発明が解決しようとする課題】本発明の目的は、マイ
クロプロセッサにおいて、Ｌ１及びＬ２キャッシュと関
連してストリーム・フィルタを使用してメモリからプリ
フェッチされたデータを供給し、マイクロプロセッサ・
システムにおけるデータ待ち時間を減少させることにあ
る。

【００１３】本発明のもう１つの目的は、プリフェッチ
の深さを制御するためにプリフェッチ・データを同時に
且つ進行的にインクレメントする多数のストリームをサ
ポートすることができる独特のストリーム・フィルタ装
置を使用することにある。

【００１４】

【課題を解決するための手段】本発明は３つの進行的プ
リフェッチ・モード、即ち、正規モード、データ・プリ
フェッチ（ＤＰ）モード、及びブラスト・モードを利用
する。正規モードでは、データはプリフェッチされな
い。データ・プリフェッチ・モードでは、２つのキャッ
シュ・ラインがプリフェッチされる。１つのラインはＬ
１キャッシュに対するものであり、もう１つのラインは
ストリーム・バッファに対するものである。本発明の好
適な実施例では、ブラスト・モードにおいて４つのライ
ンがプリフェッチされる。そのうちの２つのラインはデ
ータ・プリフェッチ・モードにおけるものと同じであ
り、２つの追加のラインはストリーム・バッファに対す
る対するものである。プリフェッチ・バッファはプロセ
ッサ・チップ、キャッシュ・チップ、外部チップ、又は
メモリ・カード上にパッケージ可能であり、本発明の範
囲内にあるものである。

【００１５】本発明の別の実施例では、正規モードにお
いてはデータはプリフェッチされない。データ・プリフ
ェッチ・モードでは、１つのラインがストリーム・バッ
ファにプリフェッチされる。ブラスト・モードでは、１
つのラインがＬ１キャッシュにプリフェッチされ、更な
るラインがストリーム・バッファにプリフェッチされ
る。本発明の１つの実施例では、３つのキャッシュ・ラ
インがブラスト・モードにおいてストリーム・バッファ
にプリフェッチされる。

【００１６】ブラスト・モードの実施例において、１つ
のストリーム・バッファ・キャッシュ・ラインがプロセ
ッサ・チップ上にバッファされ、同じストリームの他の
キャッシュ・ラインが、システム・バスにインターフェ
ースするノード・コントローラ・チップ上にバッファさ
れる。

【００１７】

【発明の実施の形態】以下の説明では、本発明の十分な
理解を与えるために、特定のワード長又はバイト長等の
ような数多くの特定の細部を説明する。しかし、本発明
がそのような特定の細部の説明なしでも実施可能である
ことは当業者には明らかであろう。他の例では、不必要
な詳述で本発明を不明瞭にしないようにするために、周
知の回路はブロック図形式で示される。大部分に対し
て、タイミング事項等に関する詳細については、それが
本発明の十分な理解を得るために必要ない限り及び当業
者のスキルの範囲にある限り省略した。

【００１８】図面を参照すると、示されたエレメントは
必ずしも縮尺して示されたものではなく、同様の又は同
じエレメントはそれらの図面を通して同じ参照番号によ
って表される。

【００１９】図１を参照すると、本発明を有利に具体化
するデータ処理システムが示される。マルチプロセッサ
・システム１００は、システム・バス１２４に動作的に
接続された多数のプロセッサ装置１０６、１０８、１１
０を含む。システム１００では、任意の数のプロセッサ
装置が利用可能であることに注意してほしい。又、シス
テム・バス１２４には、システム・メモリ１０２へのア
クセスを制御するメモリ・コントローラ１０４が接続さ
れる。メモリ・コントローラ１０４は、Ｉ／Ｏ装置１２
８に結合されたＩ／Ｏコントローラ１２６にも接続され
る。プロセッサ装置１０６、１０８、１１０、Ｉ／Ｏコ
ントローラ１２６、及びＩ／Ｏ装置１２８は、すべて、
ここではバス装置と呼ぶこともできる。図示のように、
各プロセッサ装置１０６、１０８、１１０は、それぞ
れ、プロセッサとＬ１キャッシュ１１２、１１４、１１
６とを含む。Ｌ１キャッシュはそれぞれのプロセッサと
同じチップ上に設置可能である。プロセッサ装置１０
６、１０８、１１０には、それぞれ、Ｌ２キャッシュ１
１８、１１８、１２０が接続される。これらのＬ２キャ
ッシュは、それが接続されたプロセッサ装置を介してシ
ステム・バス１２４に接続される。

【００２０】Ｌ１及びＬ２キャッシュの各対は、通常、
直列的に関連する。Ｌ１キャッシュはストア・イン或い
はライトスルーとして実現可能であり、一方、大型で遅
いＬ２キャッシュは書戻しキャッシュとして実現され
る。Ｌ１及びＬ２キャッシュの両方とも物理的にはプロ
セッサ装置の一部分として実現され、プロセッサ装置の
内部バスを介して接続される。Ｌ２コントローラはチッ
プ外にあってもよく、本発明が依然として適用可能であ
る。

【００２１】次に、図２を参照すると、本発明に従って
動作するように構成可能なデータ処理システム２００が
示される。そのシステム２００はシステム１００とは別
のアーキテクチャのものである。システム１００及び２
００では、プロセッサ及びキャッシュの基本的なオペレ
ーションは同じである。メモリ・コントローラ１０４及
びノード・コントローラ２０５の制御及び機能は、本発
明に関しては同じである。

【００２２】システム２００において、プロセッサ２０
１は内部Ｌ１キャッシュ２０２を有し、それは外部Ｌ２
キャッシュ２０３に接続される。プロセッサ２０１はバ
ス２０４によってノード・コントローラ２０５に接続さ
れる。ノード・コントローラ２０５は、プロセッサ２０
１とシステム２００の残りの部分との接続に関してその
分野では知られた基本的機能を遂行する。ノード・コン
トローラ２０５はバス２０６によってスイッチ２０７に
接続される。スイッチ２０７はクロス・ポイント・スイ
ッチでよく、他のプロセッサ及びＩ／Ｏ装置をバス２０
８によってシステム・メモリ２０９に結合することがで
きる。この説明の残り部分はシステム２００に関するも
のである。しかし、本発明に関する説明も関連してお
り、それはシステム１００においても実施可能である。

【００２３】本発明の目的は、プロセッサ２０１がＬ１
キャッシュ２０２におけるキャッシュ・ラインにおいて
かなりの時間量をヒットし、従ってシステム・メモリ２
０９からのアドレス及びデータ情報の検索を最小にする
（それはプロセッサ２０１のパフォーマンスを低下させ
る）ように、キャッシュ・ラインをＬ１キャッシュ２０
２にプリフェッチするための効率的且つ正確なテクニッ
クを提供することである。

【００２４】プロセッサ・オペレーションのパフォーマ
ンスを改善するために設定された１つの従来技術は、キ
ャッシュ・ラインをプリフェッチするためにストリーム
・フィルタ及びバッファを利用することであった。図３
に示されるように、ストリーム・フィルタ及びストリー
ム・バッファがその分野では知られている。ストリーム
・フィルタは、使用されないデータのプリフェッチの発
生を減少させなければならない。これらのフィルタはア
ドレス及び方向情報を含むヒストリ・バッファである。
そのフィルタは、Ｌ１キャッシュにおいてミスしたライ
ンから見て直列的には次に高いラインであるキャッシュ
・ラインのアドレスを含む。次に高いそのキャッシュ・
ラインへのアクセスが行われる場合、ストリーム状態が
検出され、ストリーム・バッファが割り当てられる。フ
ィルタは、ライン・アドレス「Ｘ」へのアクセスがあっ
た場合、ライン・アドレス「Ｘ＋１」を書き込まれるで
あろう。アドレス「Ｘ＋１」が依然としてストリーム・
フィルタに存在する時に次のアクセスがそのアドレス
「Ｘ＋１」に対して行われる場合、「Ｘ＋１」がストリ
ームとして割り当てられる。

【００２５】ストリーム・バッファは、可能性あるキャ
ッシュ・データを保持するプリフェッチ・バッファであ
る。その考えは、そのプロセッサ内で実行中のプログラ
ムがデータ／命令の順次ストリームを実行している場
合、更なるラインをストリーム・バッファにプリフェッ
チすることは有用なことになり得る。従って、その後の
キャッシュ・ミスは、ストリーム・バッファにおけるデ
ータを見つけることが可能である。

【００２６】ストリーム・フィルタ及びストリーム・バ
ッファは、ストリーム・バッファをミスするＬ１キャッ
シュ・ミスが存在する場合、そのミス・アドレスがスト
リーム・フィルタに記憶されたアドレスと比較されるよ
うに共同する。ストリーム・フィルタにおいてヒットが
ある（データの直列ラインへの直列的アクセスが存在し
たことを意味する）場合、次のラインも将来必要となる
可能性が高い可能性が存在する。ストリーム・バッファ
及びストリーム・フィルタに関する更なる説明に関して
は、１９９４年発行のＩＥＥＥの１０６３乃至６８７９
ページの S.Palacharla 及び R.Kessler による記事
「二次キャッシュ置換としてのストリーム・バッファの
評価（Evaluating Stream Buffers as a Secondary Cac
he Replacement）」等に記載されている。

【００２７】次に、図４を参照すると、本発明に従って
構成されたシステム２００の更に詳細な図及びＣＰＵ２
０１通したデータ・フローが示される。命令及びデータ
に対する別のＬ１キャッシュの使用を含むそのフローの
変形がその分野では知られている。Ｌ１キャッシュ２０
２は、その分野では知られた任意の置換ポリシを使用し
てメモリ２０９からのデータの使用されたコピーを頻繁
に保持する。大きいＬ２キャッシュ２０３はＬ１キャッ
シュ２０２よりも多くのデータを保持し、通常は、メモ
リ・コヒーレンシ・プロトコルを制御する。本発明で
は、Ｌ１キャッシュ２０２におけるデータはＬ２キャッ
シュ２０３におけるデータのサブセットでよい。Ｌ１キ
ャッシュ２０２及びＬ２キャッシュ２０３は「ストア・
イン」キャッシュである。他の機能的エレメント（Ｉ／
Ｏを含む）がその分野で知られたスヌープ・プロトコル
を使用してデータを争う。スヌーピングの一例は、米国
特許出願第０８/４４２,７４０に開示されている。

【００２８】ＣＰＵ２０１に対して示された境界はチッ
プ境界及び機能的境界を表し、本発明の技術的範囲に関
する制限を意味するものではない。ＰＣＣ４０４はプロ
セッサ・キャッシュ・コントローラであり、メモリ・サ
ブシステムに対するフェッチ及びストアを制御する。Ｐ
ＣＣ４０４は、Ｌ１キャッシュ２０２に対するディレク
トリの実施及び実アドレスへの有効アドレスの変換及び
その逆の変換のようなその分野では知られた他の機能を
有する。プリフェッチ・バッファ（ＰＢＦＲ）４０２
は、ＣＰＵ２０１及びＬ１キャッシュ２０２にステージ
されるべきメモリ・データの或数のラインを保持する。
ＰＢＦＲ４０２はストリーム・バッファである。

【００２９】ＰＣＣ４０４がデータをフェッチする時、
それがＬ１キャッシュ２０２にある（Ｌ１ヒットであ
る）場合、それはＰＣＣ４０４に送られる。それがＬ１
キャッシュ２０２にない（Ｌ１ミスである）がＬ２キャ
ッシュ２０３にある（Ｌ２ヒットである）場合、Ｌ１キ
ャッシュ２０２のラインがＬ２キャッシュ２０３からの
このデータでもって置換される。この場合、データはＬ
１キャッシュ２０２及びＰＣＣ４０４に同時に送られ
る。同様に、Ｌ２キャッシュ２０３においてミスがある
場合、データはメモリ２０９からＢＩＵ４０１にフェッ
チされ、Ｌ１キャッシュ２０２、Ｌ２キャッシュ２０
３、及びＰＣＣ４０４に同時にロードされる。このオペ
レーションに関する変形はその分野では知られている。
データ・ストア・オペレーションは、データがＬ１ライ
ンに記憶されてオペレーションを完了することを除け
ば、フェッチ・オペレーションと同じである。

【００３０】以下の説明では、ストリーム・バッファの
種々な部分がシステム２００の種々な部分に設けられ
る。この実施例では、ストリーム・バッファは４つのキ
ャッシュ・ラインをストアする機能を有するが、任意の
数のキャッシュ・ラインがそのストリーム・バッファ内
で実施可能である。そのストリーム・バッファの１つの
キャッシュ・ラインがＬ１キャッシュ２０２において実
施される。特に、Ｌ１キャッシュ２０２におけるキャッ
シュ・ラインの１つが、ストリーム・バッファのキャッ
シュ・ラインの１つの機能に対して利用される。ストリ
ーム・バッファの第２キャッシュ・ラインはＰＢＦＲ４
０２に設けられる。ストリーム・バッファの他の２つの
キャッシュ・ラインは、ノード・コントローラ２０５に
おけるＰＢＦＲ２（４０５）及びＰＢＦＲ３（４０６）
に設けられる。ノード・コントローラ２０５は、バス２
０４に沿ったＣＰＵ２０１から下流のチップ上に設ける
ことが可能である。メモリ・コントローラ１０４は、シ
ステム１００のアーキテクチャが利用される場合、これ
らのストリーム・バッファ・ラインを含んでもよい。

【００３１】上記のＩＥＥＥの記事において検討されて
いるように、ストリーム・フィルタ及びストリーム・バ
ッファの基本的なオペレーションはリクエストされたキ
ャッシュ・ラインにおいてＬ１キャッシュ・ミスがある
時、そのキャッシュ・ラインのアドレスがインクレメン
トされ（一般には、１アドレスずつ）、このインクレメ
ントされたアドレスがストリーム・フィルタ４０３に挿
入される。Ｌ１キャッシュ２０２におけるキャッシュ・
ラインのその後のミスの発生時に、このＬ１キャッシュ
・ミスのアドレスがフィルタ４０３に含まれたアドレス
に比較される。アドレスの一致が得られた場合、キャッ
シュ・ラインのストリームがそのストリーム・バッファ
内に割り当てられる。

【００３２】上記のように、キャッシュ・ミスがある
時、フィルタ・バッファは次の逐次キャッシュ・ライン
のアドレスを書き込まれる。そのフィルタは、そのよう
な事象の「ヒストリ」より成るそのようなアドレスを保
持し得る多数のロケーションを含む。それらはＬＲＵベ
ースで置換可能である。キャッシュ・ミスがある時はい
つも、フィルタにおけるアドレスがキャッシュ・ライン
・ミスのアドレスと比較される。ヒットがある場合、フ
ィルタ・ヒットが存在すると云われ、ストリームが割り
当てられる。ストリーム・モードでは、エクストラ・キ
ャッシュ・ラインが、ストリームの一部分としてＬ１キ
ャッシュがそれを必要とすることを期待して、ストリー
ム・バッファにプリフェッチされる。

【００３３】図５は、本発明に従ってストリーム・バッ
ファのオペレーションの高レベルの機能的な図を表す。
ＣＰＵ２０１は、使用されるアーキテクチャに従って有
効アドレス（ＥＡ）を発生する。ＥＡは潜在的にはオフ
セットを有するプログラム・アドレスである。ＣＰＵ２
０１は変換されたアドレス、即ち、そのＥＡに対応した
実アドレス（ＲＡ）を発生する。その実アドレスはフィ
ルタ待ち行列５０２によって使用されるが、フィルタ待
ち行列がその有効アドレスを代替えとして使用すること
は本発明の技術的範囲内であろう。ＲＡはフィルタ待ち
行列５０２におけるＲＡと一斉に比較される。そのエン
トリがそれの有効ビット（Ｖ）によって表されるように
有効である場合、比較一致はフィルタ・ヒットと呼ばれ
る。又、フィルタ待ち行列５０２は、予測ストリームが
インクレメント或いはデクレメント（＋／−１、又はア
ップ／ダウン）されるべきことを表す各エントリに対す
る予測方向インディケータを含む。各フィルタ待ち行列
・エントリは、そのアドレスに対応するストリームがあ
るかどうか及び、それが肯定される場合、そのストリー
ムのストリーム番号を表すフィールドを含む。

【００３４】よく知られているように、メモリ２０９は
サブセクションに論理的に分割されることが多い。特
に、メモリ２０９は、オペレーティング・システムによ
ってプログラムに割り当てられたメモリのインクレメン
トであるページに分割され、ＤＡＳＤ（ダイレクト・ア
クセス記憶装置）とメモリ２０９の間で「ページング」
データを制御するために使用可能である。ページは順次
ＥＡに関して非順次的に割り当て可能である。従って、
ＥＡがストリーム・データのプリフェッチのために使用
される場合、ページ境界を横切った時に変換器（ＸＬＡ
ＴＥ）５０３においてアドレス変換が行われなければな
らない。それは、そのストリーム・バッファが、前述の
ように順次的でない実アドレスを含むためである。各ペ
ージは、更に、ラインに分割される。キャッシュの実施
によってライン・サイズが決定され、それはキャッシュ
・ラインにおけるメモリ・データの量に対応する。キャ
ッシュ・ミスの結果、１ラインのデータがキャッシュに
変換される。

【００３５】フィルタ・ヒットがある時、ストリームが
ストリーム・アドレス待ち行列５０１に割当可能であ
り、ストリーム・データ・バッファ５０６への対応する
割当が行われる。ストリーム・アドレス・エントリは、
特定の割り当てられたストリームに対する次のデータ・
ラインの予測有効アドレスを含む。もう一度云えば、こ
れは実施選択であり、代替えとして、実アドレスを使用
してもよかった。ストリーム・アドレス・エントリは、
そのストリームが割り当てられることを表す有効ビット
（Ｖ）も含む。ストリームの状態を追跡するために使用
される状態フィールドもある。又、予測方向のコピーも
ストリーム・バッファに保持される。比較器５０５はプ
ロセッサＥＡとストリーム・アドレス待ち行列に含まれ
たページ及びライン・アドレスとを比較する。一致が生
じた場合、それはストリーム・ヒットと呼ばれる。

【００３６】図５に示された機能性は別の方法でも実施
可能であり、それも依然として本発明の技術的範囲内で
ある。

【００３７】メモリ２０９におけるメモリ・スペースは
１２８個のバイト・ラインに分割可能である。各ライン
は半分に分割可能であるので、１つのラインの偶数番の
半分はアドレス０から６３までであり、奇数番の半分は
アドレス６４から１２７までである。前述のように、Ｃ
ＰＵ２０１は、メモリにおけるキャッシュ可能なライン
に対する実アドレスに変換される論理的アドレス（Ｅ
Ａ）を発生する。メモリは２＊Ｎバイトのページに分割
される。それらのページはサイズのキャッシュ・エント
リに対応するラインに分割される。キャッシュ・ミスが
ある度に、関連する実アドレスが分析される。その実ア
ドレスがラインの偶数番の半分にある場合、潜在的スト
リームはインクレメント１である。待ち行列５０２にお
けるＬＲＵフィルタ待ち行列は「アップ」の方向をマー
クされ、ライン・ミスＲＡは「１」だけインクレメント
されてそのエントリに保管される。ＲＡがそのラインの
奇数側にある場合、待ち行列５０２におけるＲＡエント
リは１だけデクレメントされ、「ダウン」がそのエント
リにマークされる。

【００３８】ミスの場合にフィルタ・エントリにＲＡを
保管すること及びその後のミスをそのエントリと比較し
てアップ又はダウンの方向を決定することは、別の実施
例として本発明の範囲内である。

【００３９】ストリームが割り当てられる時、「次の」
有効ライン・アドレスがストリーム・アドレス・バッフ
ァ５０１に保管される。バッファ５０１は各アクティブ
・ストリームに対するエントリを含む。有効ビット
「Ｖ」はそのエントリが使用中であることを表し、方向
インディケータはそのストリームがアップであるか又は
ダウンであるか（＋／−）を表す。状態フィールドはそ
のストリームの状態を表すために使用される。ストリー
ム・アドレス・バッファ５０１と関連してストリーム・
データ・バッファ５０６があり、それはプリフェッチさ
れたデータのラインを保持する。フィルタ待ち行列５０
２及びストリーム・バッファ５０１の両方の予測アドレ
スとも、ページ境界が遭遇する時に終了する。これは、
そのような事象が新しい変換を必要とするためである。

【００４０】Ｌ１キャッシュ２０２及びＬ２キャッシュ
２０３のキャッシュ・ミスがある場合、メモリ２０９を
アクセスする前にストリーム・バッファが質問される。
フィルタ待ち行列５０２及びストリーム・アドレス・バ
ッファ５０１の回路を結合することは本発明の明らかな
実施例である。

【００４１】前述のストリーム・フィルタ及びストリー
ム・バッファに関する及び前述のＩＥＥＥの記事におけ
る従来方法はＬ２キャッシュの代替えとしてストリーム
・バッファの効果を分析している。この場合、プリフェ
ッチはいつもインクレメント的なものとして予測され
る。更に、１ライン又はワードではなく「ストライド」
とバッファに保管されたストライド長によってアドレス
がインクレメントされるというストライド・フィルタを
説明し、図示することにする。ストライド・フィルタの
概念は別の実施例として実現され、本発明の技術範囲内
であろう。

【００４２】図６乃至図９を参照すると、本発明の進行
的プリフェッチ・モードの流れ図が示される。前述のよ
うに、本発明は３つの進行的プリフェッチ・モード、即
ち、正規モード、データ・プリフェッチ・モード、及び
ブラスト・モードを可能にする。正規モードでは、デー
タはプリフェッチされない。データ・プリフェッチ・モ
ードでは、２つのライン、即ち、Ｌ１キャッシュに対す
る１つのライン及びストリーム・バッファに対する１つ
のラインがプリフェッチされる。ブラスト・モードで
は、２つよりも多くのラインが一時にプリフェッチされ
る。本発明の好適な実施例では、ブラスト・モードにお
いて、４つのライン、即ち、データ・プリフェッチ・モ
ードにおけるような２つのライン及びストリーム・バッ
ファに対する２つの更なるラインがプリフェッチされ
る。何れのモードにおいても、プリフェッチされたバッ
ファは、プロセッサ・チップ、キャッシュ・チップ、外
部チップ、又はメモリ・カード上にパッケージ可能であ
り、依然として、本発明の技術的範囲内にある。図６乃
至図９は、どの方向にストリームが流れるかを予測する
ための方向がインクレメントする例を示す。デクレメン
トする例はこの例の明らかな修正となるであろう。図６
乃至図９はデータ・プリフェッチ及びブラスト・モード
に入る方法を示す。

【００４３】ステップ６０１において、ＣＰＵ２０１は
キャッシュ・ラインＡで開始するデータをアクセスし始
める。ステップ６０２において、キャッシュ・ラインＡ
がＬ１キャッシュ２０２内にあるかどうかの決定が行わ
れる。それが肯定される場合、プロセスはステップ６０
３に進む。そこでは、キャッシュ・ラインＡがＣＰＵ２
０１に戻され、プロセスはステップ６０４において終了
する。

【００４４】しかし、キャッシュ・ラインＡにおいてミ
スがある場合、プロセスはステップ６０５に進む。そこ
では、キャッシュ・ラインＡのアドレスがストリーム・
フィルタ４０３に含まれたすべてのアドレスに比較され
る。

【００４５】キャッシュ・ラインＡがフィルタ４０３内
に存在しない場合、プロセスはステップ６０６に進み、
そこでは、キャッシュ・ラインＡのアドレスが１だけイ
ンクレメントされ、フィルタ４０３内に挿入される。し
かる後、ステップ６０７において、キャッシュ・ライン
ＡはＬ２キャッシュ２０３又はメモリ２０９からＬ１キ
ャッシュ２０２にフェッチされる。このステップはその
分野ではよく知られている。

【００４６】図６乃至図９におけるステップ６０７から
ステップ６０８への破線の矢印は、ステップ６０８がス
テップ６０７に続いて直ちに生じてもよく、或いは生じ
なくてもよいことを表す。一般には、ストリーム・フィ
ルタ内に存在するアドレス・エントリの数と同じ数のミ
スがキャッシュ・ラインＡ＋１に対するリクエストの前
に生じることがある。

【００４７】或時間遅れで、ＣＰＵ２０１はキャッシュ
・ラインＡ＋１をリクエストするかもしれない。再び、
ＰＣＣ４０４はキャッシュ・ラインＡ＋１がＬ１キャッ
シュ２０２内に存在するかどうかを決定する（ステップ
６０９）。それが肯定される場合、キャッシュ・ライン
Ａ＋１がステップ６１０においてＣＰＵ２０１に戻さ
れ、プロセスはステップ６１１において終了する。キャ
ッシュ・ラインＡ＋１はＬ１キャッシュ２０２内にある
ので、ストリーム・フィルタ４０３との比較一致はな
く、Ａ＋１エントリは、それがフィルタ置換アルゴリズ
ムによって再試行されるまでフィルタ４０３に留まる。
そのフィルタ置換アルゴリズムは、米国特許出願第５１
９,０３２号の教示するところに従って遂行可能であ
る。しかし、Ｌ１キャッシュ２０２内のキャッシュ・ラ
インＡ＋１においてミスがある場合、フィルタ・ヒット
が存在し（ステップ６３７）、プロセスをステップ６１
２へ進めさせる。そこでは、リクエストされたキャッシ
ュ・ラインＡ＋１のアドレスがフィルタ４０３にあるア
ドレスＡ＋１と一致した結果フィルタ４０３においてヒ
ットが生じるので、キャッシュＡ＋２でもって始まるキ
ャッシュ・ラインのストリームが割り当てられる。次
に、ステップ６１３において、キャッシュ・ラインＡ＋
１がＬ２キャッシュ２０３又はメモリ２０９からＬ１キ
ャッシュ２０２にフェッチされる。又、Ｌ１キャッシュ
２０２は、キャッシュ・ラインＡ＋２が存在するかどう
かを決定するためにチェックされる。それが存在しない
場合、キャッシュ・ラインＡ＋２がＬ２キャッシュ２０
３又はメモリ２０９からフェッチされる。

【００４８】しかる後、ステップ６１４において、キャ
ッシュ・ラインＡ＋３がＬ２キャッシュ２０３内に存在
するかどうかの決定が行われる。それが存在しない場
合、プロセスはステップ６１５に進み、そこでは、キャ
ッシュ・ラインＡ＋３がメモリ２０９からプリフェッチ
され、プリフェッチ・バッファ４０２内に挿入される。
しかし、キャッシュ・ラインＡ＋３がキャッシュ２０３
内に存在する場合、プロセスはステップ６１５をスキッ
プする。

【００４９】再び、ステップ６１５からステップ６１６
への破線矢印は、ステップ６１６がステップ６１５の後
直ちには生じないことがあることを表す。

【００５０】ステップ６１６において、プロセッサ２０
１はキャッシュ・ラインＡ＋２にリクエストし、ライン
Ａ＋２に対してＬ１キャッシュ２０２へのアクセスを生
じさせる。ステップ６１３において、キャッシュ・ライ
ンＡ＋２がＬ１キャッシュ２０２へフェッチされたの
で、Ｌ１キャッシュ２０２はこのキャッシュ・ラインを
ＣＰＵ２０１に供給することができるであろう。ステッ
プ６１７において、ストリーム・アドレス・バッファ５
０１におけるストリーム・アドレスがそのストリームの
先頭においてアドレスＡ＋３を有するように更新され
る。しかる後、ステップ６１８において、Ｌ１キャッシ
ュ２０２は、キャッシュ・ラインＡ＋３が存在するかど
うかを決定するためにチェックされる。それが存在しな
い場合、キャッシュ・ラインＡ＋３がＬ２キャッシュ２
０３又はバッファ４０２からＬ１キャッシュ２０２へフ
ェッチされる。次に、ステップ６１９において、キャッ
シュ・ラインＡ＋４がＬ２キャッシュ２０３又はメモリ
２０９からプリフェッチ・バッファ４０２へフェッチさ
れるであろう。

【００５１】しかる後、ブラスト・モードがシステム２
００においてイネーブルされない場合（ステップ６２
０）、プロセスはステップ６１６に戻り、ＣＰＵ２０１
が図示のようなインクレメント順次態様でキャッシュ・
ラインを通してインクレメントし続ける限り、ステップ
６１６乃至６２１を通してループする。ステップ６２１
は、ステップ６１６において、ラインＡ＋３に対するＬ
１キャッシュ・アクセスが存在し得ることを表す。そこ
で、ステップ６１７において、ストリームはアドレスＡ
＋３でもって更新され、ステップ６１８において、ライ
ンＡ＋４がＬ１キャッシュ２０２へフェッチされ、そし
てステップ６１９において、キャッシュ・ラインＡ＋４
がバッファ４０２へフェッチされる。

【００５２】次に、データ・プリフェッチ・モードを説
明する。ステップ６２０では、ブラスト・モードがシス
テム２００においてイネーブルされる場合、キャッシュ
・ラインＡ＋３に対するＣＰＵ２０１からのリクエスト
が存在する時、プロセスはステップ６２２へ進むであろ
う。ステップ６２２において、そのようなリクエストに
対して、ＰＣＣ４０４はＬ１キャッシュ２０２内でキャ
ッシュ・ラインＡ＋３を捜すであろう。キャッシュ・ラ
インＡ＋３がＬ１キャッシュ２０２に存在するので、キ
ャッシュ・ラインＡ＋３がＣＰＵ２０１へ戻されるであ
ろう。しかる後、ステップ６２３において、ストリーム
・アドレス・バッファ５０１におけるストリーム・アド
レスがＡ＋４に更新される。ステップ６２４において、
キャッシュ・ラインＡ＋４が存在するかどうかを決定す
るためにＬ１キャッシュ２０２がチェックされる。それ
が存在しない場合、キャッシュ・ラインＡ＋４がバッフ
ァ４０２からＬ１キャッシュ２０２において実施された
プリフェッチ・バッファ位置にフェッチされるであろ
う。

【００５３】しかる後、ステップ６２５において、キャ
ッシュ・ラインＡ＋５がＬ２キャッシュ２０３に存在す
るかどうかの決定が行われる。それが存在する場合、プ
ロセスはステップ６２６又は６２７へ進行するであろ
う。その実施は、ノード・コントローラ２０５がすべて
のストリーム・バッファ・アクセスを通知されることを
必要とするであろう。次のストリーム・バッファ・ライ
ンがＬ２キャッシュ２０３内になく、従って、フェッチ
されることを必要とする場合の通知にその通知を限定す
ることはノード・コントローラ・バッファ４０５及び４
０６をプロセッサ２０１との同期から一時的に外させる
であろう。この設計トレード・オフに利点は、ステップ
６２６及び６２７が結合され、ノード・コントローラ２
０５に対するアドレス・バス・トラフィックを減少させ
ることができることである。カバーされる主要なケース
では、Ａ、Ａ＋１等のラインはプリフェッチ前にはキャ
ッシュ２０２に全く存在しないので、キャッシュ・ライ
ンＡ＋５は、通常は、Ｌ２キャッシュ２０３にあるとは
考えられない。

【００５４】ステップ６２６及び６２７が上記の理由で
結合される時、ステップ６２７の通知はステップ６２６
のプリフェッチに加えられた４つの追加制御ビットでも
って実施可能である。その４ビットは１ビットの有効プ
リフェッチ、２ビットのストリーム識別、及び１ビット
のプリフェッチ方向である。キャッシュ・ラインＡ＋５
及びこれらのビットに対するアドレスを使用して、ノー
ド・コントローラ２０５はキャッシュＡ＋６及びＡ＋７
に対してメモリ・リクエストを発生することができる。
前述のように、ノード・コントローラ２０５は任意の数
のキャッシュ・ラインをプリフェッチするために実施可
能である。ステップ６２８において、ノード・コントロ
ーラ２０５はキャッシュ・ラインＡ＋６をプリフェッチ
・バッファ４０５（ＰＢＦＲ２）にプリフェッチし、キ
ャッシュ・ラインＡ＋７をバッファ４０６（ＰＢＦＲ
３）にプリフェッチするであろう。

【００５５】ステップ６２８及び６２９の間の破線は、
キャッシュ・ラインＡ＋４に対するＣＰＵ２０１からの
リクエストがステップ６２８に続いて直ちに生じないこ
とがあることを表す。

【００５６】ステップ６２９において、Ｌ１キャッシュ
２０２はＣＰＵ２０１によってリクエストされたキャッ
シュ・ラインＡ＋４に関してアクセスされる。キャッシ
ュ・ラインＡ＋４はステップ６２４においてＬ１キャッ
シュ２０２に挿入されたので、キャッシュ・ラインＡ＋
４はＣＰＵ２０１へ戻されるであろう。ステップ６３０
において、ストリーム・アドレスがインクレメントされ
てアドレスＡ＋５を先頭にされる。ステップ６３１にお
いて、Ｌ１キャッシュ２０２は、キャッシュ・ラインＡ
＋５が存在するかどうかを決定するためにチェックす
る。それが否定される場合、キャッシュ・ラインＡ＋５
がＬ２キャッシュ２０３又はバッファ４０２からＬ１キ
ャッシュ２０２にフェッチされる。

【００５７】しかる後、ステップ６３２において、キャ
ッシュ・ラインＡ＋６はバッファ４０５からバッファ４
０２に移動する。ステップ６３３において、キャッシュ
・ラインＡ＋７がバッファ４０６からバッファ４０５に
移動する。しかる後、ステップ６３４において、ノード
・コントローラ２０５はキャッシュ・ラインＡ＋８をプ
リフェッチするように通知される。この実施では、ステ
ップ６３２におけるキャッシュ・ラインＡ＋６のフェッ
チは、キャッシュ・ラインＡ＋８をプリフェッチするよ
うにノード・コントローラ２０５へ通知することであ
る。ステップ６３５において、ノード・コントローラ２
０５はキャッシュ・ラインＡ＋８をメモリ２０９からバ
ッファ４０６にプリフェッチする。

【００５８】しかる後、ＣＰＵ２０１がインクレメンタ
ル順次態様でキャッシュ・ラインのアクセスを継続する
（即ち、ＣＰＵ２０１がその割り当てられたストリーム
におけるキャッシュ・ラインのアクセスを継続する）限
り、プロセスはステップ６２９−６３６を通してループ
動作をインクレメンタル態様で継続するであろう（ステ
ップ６３６）。

【００５９】上記の説明において、バス・インターフェ
ース装置（ＢＩＵ）４０１がメモリ２０９からのキャッ
シュ・ラインのフェッチを遂行してもよい。ノード・コ
ントローラ２０５はスイッチ２０７における一部分であ
ってもよい。

【００６０】有効アドレスはページ境界に跨って連続的
であり、実アドレスはそのように連続的でないので、ス
トリーム・アドレス・バッファ５０１における２つのア
ドレスを比較する時に有効アドレスを利用することは有
利であることが多い。更に、上記のため、インクレメン
タル・アドレスを生じさせるために、カウンタを使用し
てもよい。

【００６１】前述のように、ＢＩＵ４０１からメモリ２
０９へのフェッチにおいて、それがキャッシュ・ライン
をバッファ４０５及び４０６にプリフェッチするためで
あることをノード・コントローラ２０５に通知するため
に、制御ビットを利用してもよい。ノード・コントロー
ラ２０５がそれのバッファへのプリフェッチを遂行する
ことをこの特定のライン・リクエストが要求すること
を、１つのビットがノード・コントローラ２０５に知ら
せるようにしてもよい。どのストリーム番号がプリフェ
ッチと関連するかを、他の２つのビットがノード・コン
トローラ２０５に知らせるようにしてもよい。キャッシ
ュ・ラインにおけるどの方向にアドレスが向いているか
を、他のビットが表すようにしてもよい。ノード・コン
トローラ２０５は、プリフェッチを行うように通知され
る時、ＣＰＵ２０１の動作とは無関係にそのようなプリ
フェッチを行ってもよい。

【００６２】Ｌ１キャッシュ２０２及びＬ２キャッシュ
２０３に関する組込みを維持する場合、キャッシュ・ラ
インが上記の手順におけるバッファ４０２からＬ１キャ
ッシュ２０２へ移動する時、同じキャッシュ・ラインが
Ｌ２キャッシュ２０３にも含まれるであろう。

【００６３】Ｌ１キャッシュ２０２内にストリーム・バ
ッファ・ラインの１つを持つ場合の利点は、Ｌ１キャッ
シュ２０２におけるそのバッファ・ライン内に含まれた
特定のキャッシュ・ラインがプロセッサ２０１によって
リクエストされる時、Ｌ１キャッシュ２０２においてヒ
ットが生じ、ミスは生じない。技術的には、たとえリク
エストされたキャッシュ・ラインがそのＬ１キャッシュ
２０２に接続された別のバッファに含まれていても、ミ
スは生じるであろう。そのようなミスのために、そのス
トリーム・バッファ・ラインからＣＰＵ２０１にそのキ
ャッシュ・ラインを検索するために余分のハードウエア
及びサイクル・タイムが必要とされるであろう。ストリ
ーム・バッファ・キャッシュラインの１つとして作用す
るＬ１キャッシュ２０２におけるキャッシュ・ラインは
論理的表現をすればプリフェッチ・ストリーム・バッフ
ァに含まれる。

【００６４】まとめとして、本発明の構成に関して以下
の事項を開示する。

【００６５】（１）データ処理システムにおけるプロセ
ッサによって使用されるデータをプリフェッチするため
の方法にして、（ａ）データ・ラインに対する前記プロ
セッサからのリクエストを受け取るステップと、（ｂ）
前記リクエストに応答してストリームを割り当てるステ
ップと、（ｃ）前記ストリームにおけるエレメントによ
って表されたデータ・ライン対する前記プロセッサから
のその後のリクエストを受け取るステップと、（ｄ）前
記ストリームにおけるエレメントによって表されたデー
タ・ラインに対する前記プロセッサからの前記その後の
リクエストの関数として未だリクエストされてないデー
タ・ラインのプリフェッチの深さを制御するステップ
と、を含む方法。（２）前記ストリームにおけるエレメントによって表さ
れたデータ・ラインに対する前記プロセッサからの前記
その後のリクエストの関数として未だリクエストされて
ないデータ・ラインのプリフェッチの方向を制御するス
テップを含むことを特徴とする上記（１）に記載の方
法。（３）前記ステップ（ｄ）は、第１オペレーション・モ
ードにおいて、前記ストリームにおける前記エレメント
の１つによって表されたデータ・ラインに対する前記プ
ロセッサからの各リクエストに対して２つのデータ・ラ
インをプリフェッチするステップと、第２オペレーショ
ン・モードにおいて、前記ストリームにおける前記エレ
メントの１つによって表されたデータ・ラインに対する
前記プロセッサからの各リクエストに対して２つよりも
多くのデータ・ラインをプリフェッチするステップと、
を含み、前記第２オペレーション・モードの前に前記第
１オペレーション・モードに入ることを特徴とする上記
（１）に記載の方法。（４）１つ又は複数のデータ・ラインがキャッシュにプ
リフェッチされること及び前記ストリームはストリーム
・フィルタに維持されることを特徴とする上記（１）に
記載の方法。（５）１つ又は複数のデータ・ラインが前記プロセッサ
の外部の１つ又は複数のバッファに投機的にプリフェッ
チされることを特徴とする上記（４）に記載の方法。（６）メイン・メモリからストリーム・バッファにキャ
ッシュ・ラインをプリフェッチするするためのシステム
にして、前記ストリーム・バッファはバスによって前記
メイン・メモリに接続されたプロセッサを援助するもの
において、ストリーム・フィルタと、前記プロセッサに
接続されたキャッシュと、第１キャッシュ・ラインのた
めの前記プロセッサからの第１リクエストを受け取るた
めの手段と、前記第１リクエストに応答して、前記第１
キャッシュ・ラインのアドレスに依存した内容を有する
ストリームを前記ストリーム・フィルタにおいて割り当
てるための手段と、第２キャッシュ・ラインのための前
記プロセッサからの第２リクエストを受け取るための手
段にして、前記第２キャッシュ・ラインのアドレスが前
記ストリーム内に含まれるものと、前記第２リクエスト
に応答して前記メモリから前記ストリーム・バッファに
Ｎ個（Ｎはゼロよりも大きい整数）のキャッシュ・ライ
ンを投機的にプリフェッチするための手段にして、前記
Ｎ個のプリフェッチされたキャッシュ・ラインのアドレ
スは前記ストリームに沿って存在するものと、第３キャ
ッシュ・ラインのための前記プロセッサからの第３リク
エストを受け取るための手段にして、前記第３キャッシ
ュ・ラインのアドレスが前記ストリーム内に含まれるも
のと、前記第３リクエストに応答して前記メモリから前
記ストリーム・バッファにＭ個（ＭはＮよりも大きい整
数）のキャッシュ・ラインを投機的にプリフェッチする
ための手段にして、前記Ｍ個のプリフェッチされたキャ
ッシュ・ラインのアドレスは前記ストリームに沿って存
在するものと、を含むシステム。（７）前記ストリーム・バッファは前記キャッシュに含
まれることを特徴とする上記（６）に記載のシステム。（８）前記Ｎ個のキャッシュ・ラインを投機的にプリフ
ェッチするための手段は前記システムの第１オペレーシ
ョン・モードと関連すること、前記Ｍ個のキャッシュ・
ラインを投機的にプリフェッチするための手段は前記シ
ステムの第２オペレーション・モードと関連すること、
前記第１オペレーション・モードは前記第２オペレーシ
ョン・モードの前に実施されること、及び前記第２オペ
レーション・モードはディスエーブル可能であること、
を特徴とする上記（６）に記載のシステム。（９）前記ストリーム・バッファの１つ又は複数のライ
ンは前記プロセッサを含むチップの外に含まれることを
特徴とする上記（７）に記載のシステム。（１０）プロセッサによってリクエストされたリクエス
トされたキャッシュ・ラインをメモリから投機的にプリ
フェッチするための方法にして、第１キャッシュ・ライ
ンに対するリクエストを前記プロセッサから受け取るた
めのステップと、前記第１キャッシュ・ラインが前記プ
ロセッサに接続されたキャッシュ内に含まれているかど
うかを決定するステップと、前記第１キャッシュ・ライ
ンが前記プロセッサに接続されたキャッシュ内に含まれ
ていない場合、前記第１キャッシュ・ラインのアドレス
がストリーム・フィルタ内に含まれたアドレスに一致す
るかどうかを決定するステップと、前記第１キャッシュ
・ラインのアドレスが前記ストリーム・フィルタ内に含
まれたアドレスに一致しない場合、前記第１キャッシュ
・ラインのアドレスをインクレメントして第１インクレ
メント・アドレスを作成し、前記第１インクレメント・
アドレスを前記ストリーム・フィルタに挿入するステッ
プと、前記メモリから前記キャッシュに前記第１キャッ
シュ・ラインをフェッチするステップと、前記プロセッ
サから第２キャッシュ・ラインに対するリクエストを受
け取るステップにして、前記第２キャッシュ・ラインの
アドレスが前記第１インクレメント・アドレスに対応す
るものと、前記第２キャッシュ・ラインが前記キャッシ
ュ内に含まれているかどうかを決定するステップと、前
記第２キャッシュ・ラインが前記キャッシュ内に含まれ
ていない場合、前記第１インクレメント・アドレスをイ
ンクレメントして第２インクレメント・アドレスを作成
しアドレスのストリームをストリーム・フィルタにおい
て割り当てるステップにして、前記ストリームの先頭は
前記第２インクレメント・アドレスに対応するアドレス
を有するものと、前記第２キャッシュ・ライン及び前記
インクレメント・アドレスに対応したアドレスを有する
第３キャッシュ・ラインを前記メモリから前記キャッシ
ュにフェッチするステップと、第３インクレメント・ア
ドレスに対応したアドレスを有する第４キャッシュ・ラ
インを前記メモリからストリームにおける第１ラインに
フェッチするステップにして、前記第３インクレメント
・アドレスは前記第２インクレメント・アドレスのイン
クレメントに対応するものと、前記第３キャッシュ・ラ
インに対するリクエストを前記プロセッサから受け取る
ステップと、前記ストリームの先頭が前記第３インクレ
メント・アドレスに対応したアドレスを有するように前
記ストリームを更新するステップと、前記ストリーム・
バッファの前記第１ラインから前記キャッシュに前記第
４キャッシュ・ラインをフェッチするステップと、第４
インクレメント・アドレスに対応したアドレスを有する
第５キャッシュ・ラインを前記メモリから前記ストリー
ム・バッファの前記第１ラインにフェッチするステップ
にして、前記第４インクレメント・アドレスは前記第３
インクレメント・アドレスのインクレメントに対応する
ものと、前記第４キャッシュ・ラインに対応するリクエ
ストを前記プロセッサから受け取るステップと、前記ス
トリームの先頭が前記第４インクレメント・アドレスに
対応したアドレスを有するように前記ストリームを更新
するステップと、前記ストリーム・バッファの前記第１
ラインから前記キャッシュに前記第５キャッシュ・ライ
ンをフェッチするステップと、第５インクレメント・ア
ドレスに対応したアドレスを有する第６キャッシュ・ラ
インを前記メモリから前記ストリーム・バッファの前記
第１ラインにフェッチするステップにして、前記第５イ
ンクレメント・アドレスは前記第４インクレメント・ア
ドレスのインクレメントに対応するものと、第６インク
レメント・アドレスに対応したアドレスを有する第７キ
ャッシュ・ラインを前記メモリから前記ストリーム・バ
ッファの前記第２ラインにフェッチするステップにし
て、前記第６インクレメント・アドレスは前記第５イン
クレメント・アドレスのインクレメントに対応するもの
と、第７インクレメント・アドレスに対応したアドレス
を有する第８キャッシュ・ラインを前記メモリから前記
ストリーム・バッファの前記第３ラインにフェッチする
ステップにして、前記第７インクレメント・アドレスは
前記第６インクレメント・アドレスのインクレメントに
対応するものと、前記第５キャッシュ・ラインに対する
リクエストを前記プロセッサから受け取るステップと、
前記ストリームの先頭が前記第５インクレメント・アド
レスに対応したアドレスを有するように前記ストリーム
を更新するステップと、前記ストリーム・バッファの前
記第１ラインから前記キャッシュに前記第６キャッシュ
・ラインをフェッチするステップと、前記ストリーム・
バッファの前記第２ラインから前記ストリーム・バッフ
ァの第１ラインに前記第７キャッシュ・ラインをフェッ
チするステップと、前記ストリーム・バッファの前記第
３ラインから前記ストリーム・バッファの第２ラインに
前記第８キャッシュ・ラインをフェッチするステップ
と、前記メモリから前記ストリーム・バッファの前記第
３ラインに第９キャッシュ・ラインをフェッチするステ
ップと、を含む方法。

【図面の簡単な説明】

【図１】本発明に従って構成可能なマルチプロセッサ・
システムを示す。

【図２】本発明に従って構成可能なデータ処理システム
を示す。

【図３】ストリーム・フィルタ及びストリーム・バッフ
ァを示す。

【図４】図２に示されたシステムの更に詳細な図を示
す。

【図５】本発明に従って機能的な図を示す。

【図６】本発明の流れ図の一部分を示す。

【図７】本発明の流れ図の一部分を示す。

【図８】本発明の流れ図の一部分を示す。

【図９】本発明の流れ図の一部分を示す。

Claims

【特許請求の範囲】

【請求項１】データ処理システムにおけるプロセッサに
よって使用されるデータをプリフェッチするための方法
にして、（ａ）データ・ラインに対する前記プロセッサからのリ
クエストを受け取るステップと、（ｂ）前記リクエストに応答してストリームを割り当て
るステップと、（ｃ）前記ストリームにおけるエレメントによって表さ
れたデータ・ライン対する前記プロセッサからのその後
のリクエストを受け取るステップと、（ｄ）前記ストリームにおけるエレメントによって表さ
れたデータ・ラインに対する前記プロセッサからの前記
その後のリクエストの関数として未だリクエストされて
ないデータ・ラインのプリフェッチの深さを制御するス
テップと、を含む方法。
【請求項２】前記ストリームにおけるエレメントによっ
て表されたデータ・ラインに対する前記プロセッサから
の前記その後のリクエストの関数として未だリクエスト
されてないデータ・ラインのプリフェッチの方向を制御
するステップを含むことを特徴とする請求項１に記載の
方法。
【請求項３】前記ステップ（ｄ）は、第１オペレーション・モードにおいて、前記ストリーム
における前記エレメントの１つによって表されたデータ
・ラインに対する前記プロセッサからの各リクエストに
対して２つのデータ・ラインをプリフェッチするステッ
プと、第２オペレーション・モードにおいて、前記ストリーム
における前記エレメントの１つによって表されたデータ
・ラインに対する前記プロセッサからの各リクエストに
対して２つよりも多くのデータ・ラインをプリフェッチ
するステップと、を含み、前記第２オペレーション・モードの前に前記第
１オペレーション・モードに入ることを特徴とする請求
項１に記載の方法。
【請求項４】１つ又は複数のデータ・ラインがキャッシ
ュにプリフェッチされること及び前記ストリームはスト
リーム・フィルタに維持されることを特徴とする請求項
１に記載の方法。
【請求項５】１つ又は複数のデータ・ラインが前記プロ
セッサの外部の１つ又は複数のバッファに投機的にプリ
フェッチされることを特徴とする請求項４に記載の方
法。
【請求項６】メイン・メモリからストリーム・バッファ
にキャッシュ・ラインをプリフェッチするするためのシ
ステムにして、前記ストリーム・バッファはバスによっ
て前記メイン・メモリに接続されたプロセッサを援助す
るものにおいて、ストリーム・フィルタと、前記プロセッサに接続されたキャッシュと、第１キャッシュ・ラインのための前記プロセッサからの
第１リクエストを受け取るための手段と、前記第１リクエストに応答して、前記第１キャッシュ・
ラインのアドレスに依存した内容を有するストリームを
前記ストリーム・フィルタにおいて割り当てるための手
段と、第２キャッシュ・ラインのための前記プロセッサからの
第２リクエストを受け取るための手段にして、前記第２
キャッシュ・ラインのアドレスが前記ストリーム内に含
まれるものと、前記第２リクエストに応答して前記メモリから前記スト
リーム・バッファにＮ個（Ｎはゼロよりも大きい整数）
のキャッシュ・ラインを投機的にプリフェッチするため
の手段にして、前記Ｎ個のプリフェッチされたキャッシ
ュ・ラインのアドレスは前記ストリームに沿って存在す
るものと、第３キャッシュ・ラインのための前記プロセッサからの
第３リクエストを受け取るための手段にして、前記第３
キャッシュ・ラインのアドレスが前記ストリーム内に含
まれるものと、前記第３リクエストに応答して前記メモリから前記スト
リーム・バッファにＭ個（ＭはＮよりも大きい整数）の
キャッシュ・ラインを投機的にプリフェッチするための
手段にして、前記Ｍ個のプリフェッチされたキャッシュ
・ラインのアドレスは前記ストリームに沿って存在する
ものと、を含むシステム。
【請求項７】前記ストリーム・バッファは前記キャッシ
ュに含まれることを特徴とする請求項６に記載のシステ
ム。
【請求項８】前記Ｎ個のキャッシュ・ラインを投機的に
プリフェッチするための手段は前記システムの第１オペ
レーション・モードと関連すること、前記Ｍ個のキャッシュ・ラインを投機的にプリフェッチ
するための手段は前記システムの第２オペレーション・
モードと関連すること、前記第１オペレーション・モードは前記第２オペレーシ
ョン・モードの前に実施されること、及び前記第２オペ
レーション・モードはディスエーブル可能であること、を特徴とする請求項６に記載のシステム。
【請求項９】前記ストリーム・バッファの１つ又は複数
のラインは前記プロセッサを含むチップの外に含まれる
ことを特徴とする請求項７に記載のシステム。
【請求項１０】プロセッサによってリクエストされたリ
クエストされたキャッシュ・ラインをメモリから投機的
にプリフェッチするための方法にして、第１キャッシュ・ラインに対するリクエストを前記プロ
セッサから受け取るためのステップと、前記第１キャッシュ・ラインが前記プロセッサに接続さ
れたキャッシュ内に含まれているかどうかを決定するス
テップと、前記第１キャッシュ・ラインが前記プロセッサに接続さ
れたキャッシュ内に含まれていない場合、前記第１キャ
ッシュ・ラインのアドレスがストリーム・フィルタ内に
含まれたアドレスに一致するかどうかを決定するステッ
プと、前記第１キャッシュ・ラインのアドレスが前記ストリー
ム・フィルタ内に含まれたアドレスに一致しない場合、
前記第１キャッシュ・ラインのアドレスをインクレメン
トして第１インクレメント・アドレスを作成し、前記第
１インクレメント・アドレスを前記ストリーム・フィル
タに挿入するステップと、前記メモリから前記キャッシュに前記第１キャッシュ・
ラインをフェッチするステップと、前記プロセッサから第２キャッシュ・ラインに対するリ
クエストを受け取るステップにして、前記第２キャッシ
ュ・ラインのアドレスが前記第１インクレメント・アド
レスに対応するものと、前記第２キャッシュ・ラインが前記キャッシュ内に含ま
れているかどうかを決定するステップと、前記第２キャッシュ・ラインが前記キャッシュ内に含ま
れていない場合、前記第１インクレメント・アドレスを
インクレメントして第２インクレメント・アドレスを作
成しアドレスのストリームをストリーム・フィルタにお
いて割り当てるステップにして、前記ストリームの先頭
は前記第２インクレメント・アドレスに対応するアドレ
スを有するものと、前記第２キャッシュ・ライン及び前記インクレメント・
アドレスに対応したアドレスを有する第３キャッシュ・
ラインを前記メモリから前記キャッシュにフェッチする
ステップと、第３インクレメント・アドレスに対応したアドレスを有
する第４キャッシュ・ラインを前記メモリからストリー
ムにおける第１ラインにフェッチするステップにして、
前記第３インクレメント・アドレスは前記第２インクレ
メント・アドレスのインクレメントに対応するものと、前記第３キャッシュ・ラインに対するリクエストを前記
プロセッサから受け取るステップと、前記ストリームの先頭が前記第３インクレメント・アド
レスに対応したアドレスを有するように前記ストリーム
を更新するステップと、前記ストリーム・バッファの前記第１ラインから前記キ
ャッシュに前記第４キャッシュ・ラインをフェッチする
ステップと、第４インクレメント・アドレスに対応したアドレスを有
する第５キャッシュ・ラインを前記メモリから前記スト
リーム・バッファの前記第１ラインにフェッチするステ
ップにして、前記第４インクレメント・アドレスは前記
第３インクレメント・アドレスのインクレメントに対応
するものと、前記第４キャッシュ・ラインに対応するリクエストを前
記プロセッサから受け取るステップと、前記ストリームの先頭が前記第４インクレメント・アド
レスに対応したアドレスを有するように前記ストリーム
を更新するステップと、前記ストリーム・バッファの前記第１ラインから前記キ
ャッシュに前記第５キャッシュ・ラインをフェッチする
ステップと、第５インクレメント・アドレスに対応したアドレスを有
する第６キャッシュ・ラインを前記メモリから前記スト
リーム・バッファの前記第１ラインにフェッチするステ
ップにして、前記第５インクレメント・アドレスは前記
第４インクレメント・アドレスのインクレメントに対応
するものと、第６インクレメント・アドレスに対応したアドレスを有
する第７キャッシュ・ラインを前記メモリから前記スト
リーム・バッファの前記第２ラインにフェッチするステ
ップにして、前記第６インクレメント・アドレスは前記
第５インクレメント・アドレスのインクレメントに対応
するものと、第７インクレメント・アドレスに対応したアドレスを有
する第８キャッシュ・ラインを前記メモリから前記スト
リーム・バッファの前記第３ラインにフェッチするステ
ップにして、前記第７インクレメント・アドレスは前記
第６インクレメント・アドレスのインクレメントに対応
するものと、前記第５キャッシュ・ラインに対するリクエストを前記
プロセッサから受け取るステップと、前記ストリームの先頭が前記第５インクレメント・アド
レスに対応したアドレスを有するように前記ストリーム
を更新するステップと、前記ストリーム・バッファの前記第１ラインから前記キ
ャッシュに前記第６キャッシュ・ラインをフェッチする
ステップと、前記ストリーム・バッファの前記第２ラインから前記ス
トリーム・バッファの第１ラインに前記第７キャッシュ
・ラインをフェッチするステップと、前記ストリーム・バッファの前記第３ラインから前記ス
トリーム・バッファの第２ラインに前記第８キャッシュ
・ラインをフェッチするステップと、前記メモリから前記ストリーム・バッファの前記第３ラ
インに第９キャッシュ・ラインをフェッチするステップ
と、を含む方法。