JPH10333986A

JPH10333986A - プロセス・バスに対するキャッシュ操作の要求ベースの発行方法及び装置

Info

Publication number: JPH10333986A
Application number: JP10097822A
Authority: JP
Inventors: Kumar Arimiri Ravi; ラビ・クマール・アリミリ; John Steven Dodson; ジョン・スチィーブン・ダッドソン; Don Lewis Jerry; ジェリー・ドン・ルイス; Edward Williams Derek; デレク・エドワード・ウイリアムズ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1997-04-14
Filing date: 1998-04-09
Publication date: 1998-12-18
Anticipated expiration: 2018-04-09
Also published as: KR100304318B1; JP3007871B2; KR19980081314A; US6173371B1

Abstract

(57)【要約】【課題】コンピュータ・システムにおいてアーキテク
チャ操作を管理し、投機的に発行する方法を開示する。【解決手段】第１のアーキテクチャ操作をスヌープ
し、複数のグラニュラ・アーキテクチャ操作に変換して
大規模アーキテクチャ操作を実施する。第１のアーキテ
クチャ操作はメモリ・ブロックに向けられた第１のキャ
ッシュ命令とすることができ、メモリ・ブロックに関連
づけられたページに含まれるメモリ・ブロックに向けら
れた複数のキャッシュ命令が発行される。グラニュラ・
アーキテクチャ操作はコンピュータ・システムのプロセ
ッサ・バスに送られる。プロセッサ・バス履歴テーブル
を使用して、大規模アーキテクチャ操作の記録を記憶す
ることができる。次に履歴テーブルによって、大規模ア
ーキテクチャ操作に包含されるその後の任意のアーキテ
クチャ操作をフィルタ除外することができる。履歴テー
ブルは、プロセッサ・バスを監視してテーブルに記録さ
れた大規模アーキテクチャ操作が依然として有効である
ように保証する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は一般にはコンピュー
タ・システムに関し、具体的にはキャッシュ命令などの
アーキテクチャ・レベルの操作を最適化する方法に係わ
る。

【０００２】

【従来の技術】従来のコンピュータ・システム１０の基
本構造を図１に示す。コンピュータ・システム１０は、
１つまたは複数の処理ユニットを有することができ、そ
のうちの２つ１２ａ及び１２ｂが図示されている。処理
装置は、入出力（Ｉ／Ｏ）装置１４（表示モニタ、キー
ボード、永続記憶装置など）、処理装置がプログラム命
令を実行するために使用するメモリ・デバイス１６（ラ
ンダム・アクセス・メモリ、またはＲＡＭ）、及び、コ
ンピュータに最初に電源を入れたときに周辺装置の１つ
（通常は永続記憶装置）からオペレーティング・システ
ムを探し出してロードすることを主な目的とするファー
ムウェア１８を含む様々な周辺装置に接続されている。
処理装置１２ａ及び１２ｂは、汎用相互接続機構または
バス２０を含む様々な手段によって周辺装置と通信す
る。コンピュータ・システム１０は、たとえばモデムや
プリンタなどに接続するためのシリアル・ポートやパラ
レル・ポートなど、図示されていない多くの追加の構成
要素を有することができる。当業者ならさらに、図１の
ブロック図に図示されている構成要素と共に使用可能な
他の構成要素もあることがわかるであろう。たとえば、
ビデオ表示モニタを制御するためにディスプレイ・アダ
プタを使用したり、メモリ１６にアクセスするためにメ
モリ・コントローラを使用することができる。また、Ｉ
／Ｏ装置１４をバス２０に直接接続する代わりに、二次
（Ｉ／Ｏ）バスに接続することもでき、二次バスはさら
にＩ／Ｏブリッジに接続され、Ｉ／Ｏブリッジはバス２
０に接続される。コンピュータは３個以上の処理装置を
有することもできる。

【０００３】対称マルチプロセッサ（ＳＭＰ）コンピュ
ータでは、すべての処理装置は一般に同じである。すな
わち、すべての処理装置が命令及びプロトコルの共通の
セットまたはサブセットを使用して動作し、一般に同じ
アーキテクチャを有する。典型的なアーキテクチャは図
１に示す通りである。処理装置は、複数のレジスタと、
コンピュータを動作させるためにプログラム命令を実行
する実行ユニットとを含むプロセッサ・コア２２を含
む。処理装置の例としては、インターナショナル・ビジ
ネス・マシーンズ・コーポレイション（ＩＢＭ）が販売
するＰｏｗｅｒＰＣ^TMプロセッサがある。処理装置は、
高速メモリ・デバイスを使用して実装された命令キャッ
シュ２４やデータ・キャッシュ２６などの１つまたは複
数のキャッシュも有することができる。キャッシュは、
メモリ１６から値をロードする長いステップを回避する
ことによって処理を高速化する目的で、プロセッサによ
って繰り返しアクセスされる可能性のある値を一時的に
記憶するために一般的に使用される。これらのキャッシ
ュは、単一の集積チップ２８上にプロセッサ・コアと一
体にパッケージされているときは、「オンボード」キャ
ッシュと呼ばれる。各キャッシュには、プロセッサ・コ
アとキャッシュ・メモリとの間のデータの転送を管理す
るキャッシュ・コントローラ（図示せず）が付随してい
る。

【０００４】処理装置１２は、オンボード（一次）キャ
ッシュ２４及び２６をサポートするため二次キャッシュ
（Ｌ２）と呼ばれるキャッシュ３０などの追加のキャッ
シュを備えることができる。言い換えると、キャッシュ
３０はメモリ１６とオンボード・キャッシュとの間の媒
介として機能し、オンボード・キャッシュよりもはるか
に大量の情報（命令及びデータ）を記憶することができ
るが、アクセス・ペナルティは長い。たとえば、キャッ
シュ３０は、２５６キロバイトまたは５１２キロバイト
の記憶容量を有するチップとすることができ、プロセッ
サは６４キロバイトの合計記憶容量を持つオンボード・
キャッシュを有するＩＢＭＰｏｗｅｒＰＣ^TM６０４シ
リーズのプロセッサとすることができる。キャッシュ３
０はバス２０に接続され、メモリ１６からプロセッサ・
コア２２への情報のロードはすべてキャッシュ３０を介
して行わなければならない。図１には二次キャッシュ階
層しか図示されていないが、多くのレベルの直列接続さ
れたキャッシュを備えたマルチレベル・キャッシュ階層
を設けることもできる。

【０００５】キャッシュは、様々な命令及びデータ値を
個別に記憶する多くのブロックまたはラインを有する。
キャッシュ・ライン（ブロック）の例としては、アドレ
ス・タグ・フィールド、状態ビット・フィールド、包含
ビット・フィールド、実際の命令及びデータを記憶する
値フィールドがある。状態ビット・フィールドと包含ビ
ット・フィールドは、マイクロプロセッサ・コンピュー
タ・システム内のキャッシュ・コヒーレンシを維持する
ために使用される（キャッシュに記憶されている値の有
効性を示す）。アドレス・タグは、対応するメモリ・ブ
ロックのフル・アドレスのサブセットである。着信有効
アドレスとアドレス・タグ・フィールド内のタグの１つ
との比較一致によって、キャッシュ「ヒット」が示され
る。キャッシュ内のすべてのアドレス・タグ（及び場合
によっては状態ビット・フィールドと包含ビット・フィ
ールド）の集まりをディレクトリと呼び、すべての値フ
ィールドの集まりはキャッシュ項目配列である。図１の
キャッシュ３０は、そのようなキャッシュ項目配列３２
とキャッシュ・ディレクトリ３４を示している。

【０００６】所与のキャッシュのセット内のすべてのブ
ロックがいっぱいになり、そのキャッシュがそのいっぱ
いになったセットにマップする記憶場所に対する「読取
り」または「書込み」要求を受け取った場合、そのキャ
ッシュは現在セット内にあるブロックの１つの「追い出
し」をしなければならない。キャッシュは、当業者に周
知のいくつかの手段（最低使用頻度（ＬＲＵ）法、ラン
ダム法、疑似ＬＲＵ法など）の１つによって、追い出す
ブロックを選択する。図１にはＬＵＲユニット３６が図
示されている。選択されたブロック内のデータが変更さ
れた場合、そのデータはメモリ階層内の次に低いレベル
に書き込まれる。これは他のキャッシュ（この場合は一
次キャッシュすなわちオンボード・キャッシュ）または
メイン・メモリ（この場合は図１の２レベル・アーキテ
クチャに図示するような二次キャッシュ）でもよい。包
含の原理により、階層の下位レベルは書き込まれた変更
データを保持するために使用可能なブロックをすでに持
っていることになる。しかし、選択されたブロック内の
データが変更されなかった場合、そのブロックは単に放
棄されるだけで、階層内の次に低いレベルには書き込ま
れない。階層の１つのレベルからブロックを除去するこ
のプロセスを「追い出し」と呼ぶ。このプロセスの終わ
りに、キャッシュは追い出されたブロックのコピーをも
はや保持しない。

【０００７】従来のキャッシュは多くの待ち行列を持
つ。キャッシュ可能ストア待ち行列３８（これは着信し
たデータをフェッチしてそのキャッシュを再ロードす
る、キャッシュ・ディレクトリ、キャッシュ項目配列、
及びその他の配列のそれぞれの読取り待ち行列と書込み
待ち行列を含むことができる）、キャッシュ抑止ストア
待ち行列４０、例えばあるデータに介入する要求を監視
するスヌープ待ち行列４２、アーキテクチャ・レベルで
の制御を実行するキャッシュ命令を扱うキャッシュ操作
待ち行列４４などがある。たとえば、ＰｏｗｅｒＰＣ^TM
プロセッサは、フラッシュ命令、キル命令、クリーン命
令、タッチ命令など、特にキャッシュに作用を及ぼす特
定の命令を使用する。これらの命令はキャッシュ操作待
ち行列４４に格納される。

【０００８】ソフトウェアはキャッシュ命令を使用して
キャッシュを管理することができる。命令には監視レベ
ルの命令（コンピュータのオペレーティング・システム
によってのみ実行される）と、ユーザ・レベルの命令
（アプリケーション・プログラムによって実行される）
がある。フラッシュ命令（データ・キャッシュ・ブロッ
ク・フラッシュ「ｄｃｂｆ」）は、キャッシュ・ブロッ
クがメモリ・ブロックの未変更（「共用」または「専
用」）コピーを含む場合はキャッシュ・ブロックを無効
化し、キャッシュ・ブロックがメモリ・ブロックの変更
されたコピーを含む場合は、まず変更された値をメモリ
階層内の下位レベルに書込み（「プッシュ」）、その後
でブロックを無効化することによって、キャッシュ・ブ
ロックを使用可能にする。キル命令（データ・キャッシ
ュ・ブロック無効化「ｄｃｂｉ」、命令キャッシュ・ブ
ロック無効化「ｉｃｂｉ」、またはデータ・キャッシュ
・ブロック・ゼロ設定「ｄｃｂｚ」）は、フラッシュ命
令と似ているが、キャッシュ・ブロックをただちに強制
的に無効状態にし、したがって変更されたブロックがキ
ャッシュから押し出されずに殺される点が異なる。クリ
ーン命令（データ・キャッシュ・ブロック・ストア「ｄ
ｃｂｓｔ」）は、変更されたブロックをメイン・メモリ
に書き込ませる。これは、変更されたブロックにのみ作
用する。タッチ命令（データ・キャッシュ・ブロック・
タッチ「ｄｃｂｔ」）は、ソフトウェア開始プリフェッ
チ・ヒントを使用してパフォーマンスを向上させる方法
を提供する。

【０００９】上述のキャッシュ命令はすべて、プロセッ
サ・コヒーレンシ・グラニュール（granule）と呼ばれ
るサイズを持つブロックに対して作用する。多くのコン
ピュータでは、プロセッサ・コヒーレンシ・グラニュー
ルとしてのブロック・サイズは３２バイトである。すな
わち、プロセッサは一次キャッシュのキャッシュ・ブロ
ック内の３２バイト・セクタを操作することができる。
しかし、システム・バス・グラニュールは、これより大
きく、たとえば６４バイトまたは１２８バイトである。
すなわち、二次キャッシュからシステム・バスに送られ
るキャッシュ・ラインの全サイズは６４バイトまたは１
２８バイトである。言い換えると、システム・バスで送
られる命令は、３２バイトではなく６４バイト・ワード
または１２８バイト・ワードを参照する。コヒーレンシ
・サイズはさらに異なることがあり、たとえば２レベル
・キャッシュで３つのコヒーレンシ・サイズ（３２バイ
トのプロセッサ・コヒーレンシ・グラニュールと、６４
バイトのＬ１コヒーレンシ・グラニュールと、１２８バ
イトのＬ２／システム・バス・コヒーレンシ・グラニュ
ール）を有することがある。

【００１０】メモリ階層によるコヒーレンシ・サイズの
この変化は、ある種の非効率につながることがある。た
とえば、プロセッサが特定の３２バイト・セクタに「ｉ
ｃｂｉ」命令を出した場合、その命令はシステム・バス
で送られ、６４バイト命令として扱われる。次に、プロ
セッサが同じ６４バイト・ワードの一部だったもう一つ
の３２バイト・セクタのために別の「ｉｃｂｉ」命令を
ただちに出した場合、従来のシステムは、その２つの隣
接する３２バイト・セクタをキルするのに１つのシステ
ム・バス命令で十分であっても、同じ６４バイト・ワー
ドに第２の６４バイト「ｉｃｂｉ」命令を送る。２つの
異なるプロセスまたはスレッドが、同じキャッシュ命令
の冗長実行になる命令を出した場合、別の問題が発生す
る。たとえば、キャッシュ操作待ち行列に、同じオペラ
ンドを持つ（すなわち、まったく同じ３２バイト・キャ
ッシュ・セクタに作用する）２つの「ｉｃｂｉ」命令が
含まれている場合がある。この場合、この２つの命令は
冗長に繰り返される。

【００１１】コヒーレンシ・グラニュラリティに関する
他の問題は、グラニュールすなわちブロック・サイズが
小さいと特定の大規模プロシージャを完了するのに要す
る命令の数が増えることである。たとえば、プロシージ
ャが、メモリのいくつかのページ（ページとは複数の連
続したメモリ・ブロックである）のコピーなどのページ
・レベルの操作を実行するとする。ページが４キロバイ
トでプロセッサ・コヒーレンシ・グラニュールが３２バ
イトだとすれば、ページ全体のフラッシュを実行するプ
ロセッサは、１２８個の「ｄｃｂｆ」命令を出さなけれ
ばならないが、コヒーレンシ・グラニュールが６４バイ
ト以上だとすると、命令の数はそれに比例して減少する
ことになる。その結果、プロシージャが多くのページ・
レベル・キャッシュ操作を行うときは、パフォーマンス
が低下する。キャッシュ命令を出すプロセッサは他のす
てべてのプロセッサからのスヌープ応答を待ってからで
なければ命令が完了したことを確認することができない
ため、プロセッサの数が多くなるにつれてパフォーマン
スはさらに低下する。

【００１２】さらに、第１のプロセッサが出したキャッ
シュ命令に第２のプロセッサがどのように応答するかを
考えてみる。プロセッサ・コヒーレンシ・グラニュール
が３２バイトでシステム・バス・グラニュールが１２８
バイトである場合は、第１のプロセッサが３２バイトの
セクタをフラッシュしようとするとき、第２のプロセッ
サは結局は１２８バイトのフラッシュのスヌープを行う
ことになる。したがって、第１のプロセッサが単一の３
２バイト・セクタをフラッシュしたいに過ぎない場合で
あっても、第２のプロセッサのキャッシュでそのような
セクタを４個フラッシュしなければならないことにな
る。しかし、この問題は上述のようなページ・レベルの
キャッシュ操作を行う場合にはさらに悪化し、その結
果、多数（１２８）のそのような１２８バイトのスヌー
プ・フラッシュが行われることになる。命令とそれに続
く応答によって、大量のアドレス・トラフィックが生じ
る。したがって、バス・トラフィックを減少させた、ペ
ージ・レベルのキャッシュ命令などの大規模なアーキテ
クチャ操作を処理する方法を考案することが望ましい。
さらに、その方法の結果、メモリ階層のコヒーレンシ・
グラニュールの変化に関係なく、実行する必要のあるキ
ャッシュ命令の数が減少し、それらの命令の実行が迅速
化すればさらに有利であろう。

【００１３】

【発明が解決しようとする課題】したがって、本発明の
目的はコンピュータ・システムにおけるアーキテクチャ
操作、特にキャッシュ命令を処理する改良された方法を
提供する。

【００１４】本発明の他の目的は、メモリ階層のコヒー
レンシ・グラニュール・サイズに伴う非効率を少なくす
る方法を提供することである。

【００１５】本発明の他の目的は、メモリ階層のコヒー
レンシ・グラニュール・サイズの変化を利用する方法を
提供することである。

【００１６】

【課題を解決するための手段】上記の目的は、コンピュ
ータ・システムにおけるアーキテクチャ操作を管理する
方法であって、一般に第１のアーキテクチャ操作をスヌ
ープするステップと、第１のアーキテクチャ操作を複数
のグラニュラ・アーキテクチャ操作に変換して大規模ア
ーキテクチャ操作を実施するステップとを含む方法で達
成される。第１のアーキテクチャ操作はメモリ・ブロッ
クに送られる第１のキャッシュ命令とすることができ、
前記変換ステップは、メモリ・ブロックに関連づけられ
たページに含まれるメモリ・ブロックに対して向けられ
た複数のキャッシュ命令を発行するステップを含む。グ
ラニュラ・アーキテクチャ操作はコンピュータ・システ
ムのプロセッサ・バスに送られる。履歴テーブルを使用
して大規模アーキテクチャ操作の記録を記憶することが
できる。次にその履歴テーブルによって、大規模アーキ
テクチャ操作に包含されるその後の任意のアーキテクチ
ャ操作をフィルタ除去することができる。

【００１７】

【発明の実施の形態】図面、特に図２を参照すると、本
発明により構成された単純化されたメモリ階層５０の一
実施例が図示されている。メモリ階層５０は、システム
・バス５４に接続されたメモリ・デバイス５２と、やは
りシステム・バス５４に接続された２つのキャッシュ５
６ａ及び５６ｂとを含む。好ましい実施例では、各キャ
ッシュ５６ａ及び５６ｂは同じである。マルチプロセッ
サ・コンピュータ・システムに２個以上のプロセッサが
備えられている場合、メモリ階層はさらに追加のキャッ
シュを含む。キャッシュ５６ａはキャッシュ論理回路５
８を含み、キャッシュ論理回路５８はキャッシュ・ディ
レクトリと、キャッシュ項目配列と、ＬＲＵユニット
と、キャッシュ・ラインに書込みを行い、キャッシュ・
ヒットを検出し、記憶されている値を読み取る適切な論
理回路とを含む。キャッシュ論理回路はプロセッサ・バ
ス６０によってプロセッサ、またはメモリ階層のプロセ
ッサ側に接続されている。キャッシュ５６ａはさらに、
キャッシュ操作待ち行列６２を含む１つまたは複数の待
ち行列を有する。キャッシュ操作待ち行列６２は、従来
の技術の項で前述したようなキャッシュ命令の順次リス
トを含む。後述するように、キャッシュ操作は、一般
に、その結果としてバス操作が行われるロード、スト
ア、またはフェッチ以外の操作を含む「アーキテクチ
ャ」操作のクラスの一部である。

【００１８】図の実施例では、メモリ階層５０のコヒー
レンシ・グラニュール・サイズ、すなわちブロック・サ
イズは様々である。一実施例では、３２バイト・プロセ
ッサ・コヒーレンシ・グラニュールと、６４バイトのシ
ステム・バス・コヒーレンシ・グラニュールを使用す
る。コヒーレンシ・グラニュール・サイズが異なること
に伴う非効率は、待ち行列コントローラ６４を使用する
ことによって低減される。待ち行列コントローラ６４は
キャッシュ操作待ち行列６２に接続され、待ち行列にど
の命令を入れるかを制御する。待ち行列コントローラ６
４は、待ち行列６２に入っている現在の項目を、待ち行
列にロードする新しい項目と連想的に比較する適切な論
理回路を含む。比較の結果、新しい項目が現行項目と重
複するために新しい項目を実行する必要がないことが示
された場合、その新しい項目は動的に現行項目に折り畳
まれる。すなわち単に待ち行列６２にロードされない。

【００１９】第１の３２バイト・セクタを無効化するた
めに、キャッシュ５６ａに関連づけられたプロセッサに
よってＰｏｗｅｒＰＣ^TMの「ｉｃｂｉ」などの第１のキ
ル命令が発行される、以下のような例を考えてみる。第
１のキル命令は待ち行列６２に入れられる。そのすぐ後
に（第１のキル命令がまだ待ち行列に入っている間
に）、同じプロセッサが第２の「ｉｃｂｉ」命令を、今
度は第２の３２バイトセクタに対して発行する。しかし
この第２のセクタは、システム・バスのコヒーレンシ・
グラニュールに基づいて第１の３２バイト・セクタを補
完するセクタである。言い換えると、第２の３２バイト
・セクタはメモリ・デバイス５２内で第１の３２バイト
・セクタと連続している。待ち行列コントローラ６４
は、第２の３２バイトセクタのアドレスを待ち行列６２
内の前の項目と連想的に比較し、前の「ｉｃｂｉ」命令
が大きなシステム・バス・グラニュラリティによって第
２の３２バイト・アドレスに関連づけられたアドレスに
ついて発行されていないか判断する。この例では、待ち
行列コントローラが第２のキル命令をまだ待ち行列内に
ある第１のキル命令と関連づけるため（２つのキル命令
は同じコヒーレンシ・グラニュールにある）、比較の結
果は肯定になる。この結果に基づいて、待ち行列コント
ローラは第２のキル命令を待ち行列６２にロードしな
い。

【００２０】キャッシュ命令を現行待ち行列項目に動的
に折り畳むことによって、システム・バス上のアドレス
操作を大幅に減少させることができる。プロセッサから
見ると、折り畳まれた命令は完全に実行されているが、
レーテンシはまったく必要としない。この利点は、キャ
ッシュ操作待ち行列の項目数が増えるにつれ、またシス
テム・バス・コヒーレンシ・グラニュール・サイズが大
きくなるにつれ、大きくなる。図の実施例では、キャッ
シュ命令待ち行列の項目数は８である。待ち行列コント
ローラ６４に必要な論理回路は比較的単純であり、得ら
れる利点に関しては特にそうである。

【００２１】キャッシュ５６ａ及び５６ｂは他の方法を
使用して、コヒーレンシ・グラニュール・サイズに伴う
非効率を最小限にする。従来の技術の項で前述したよう
に、キャッシュ命令はページ・レベル操作の一部として
発行されることが多く、プロシージャを処理するのに多
くのバス操作を必要とする。本発明では、すべての適切
なキャッシュ操作をページ・レベルで投機的に実行する
ことによって、この問題に対処する。言い換えると、プ
ロセッサが第１のコヒーレンシ・サイズでキャッシュ命
令を出した場合、その命令はページ・レベル操作に変換
され、それがシステム・バスに送られる。これによっ
て、影響される１ページ当たり１回のバス操作で済むよ
うになる。比較すると、従来の技術では、ページを完全
にフラッシュするのにシステム・バスで１２８の３２バ
イト・フラッシュを要するが、本発明ではこの手続きは
１つの操作だけで済む。したがって、本発明は特に、多
くのページ・レベル・キャッシュ操作／命令を行うとき
のアドレス・トラフィックを減少させる。

【００２２】図２には、各キャッシュがシステム・バス
履歴テーブル６６を有する様子が図示されている。シス
テム・バス履歴テーブル６６が、システム・バスに対し
て最後に発行されたいくつかの（投機的または通常の）
ページ・レベル操作を追跡する。（上述のように）プロ
セッサ・グラニュラリティのレベルの後の操作を包含す
るページ・レベル操作が最近実行された場合、システム
・バス履歴テーブル６６は後の操作をシステム・バスに
通過させないフィルタとして機能する。たとえば、プロ
セッサが３２バイト・セクタに対する第１のフラッシュ
命令を出した場合、その命令はページ・レベル操作に変
換され、アクセスされるページのアドレス（たとえばペ
ージ・レベルの２０ビット・アドレス）がシステム・バ
ス履歴テーブル６６に記録されることになる。その後、
プロセッサが、まだ第１の命令と同じページにある第２
の３２バイト・セクタについて第２のフラッシュ命令を
出した場合、システム・バス履歴テーブル６６は、第２
の３２バイト・セクタを含むそのページ全体がすでに投
機的にフラッシュされているためその第２のフラッシュ
命令が不要であることを認識する。この意味で、これら
のキャッシュ命令の発行は要求ベースである。すなわち
必要なときだけ行われる。

【００２３】システム・バス履歴テーブル６６はシステ
ム・バスを監視して、テーブルに記録されているページ
・レベル操作が依然として有効であるように保証する。
いずれかのプロセッサが、システム・バス履歴テーブル
６６に記録されているページ・レベル操作に影響を与え
る命令を出した場合、その操作はテーブルから除去され
る。この実施例では、履歴テーブルの項目数は２０であ
る。

【００２４】本発明によるキャッシュ構成はさらに、小
さいコヒーレンシ・グラニュール・サイズに伴う非効率
を最小限にする手段を備える。キャッシュが命令をペー
ジ・レベルのシステム・バスに移すことができるのと同
様に、キャッシュはシステム・バス操作を、この場合も
投機的方式でページ・レベルのプロセッサ・バスに移す
ことができる。言い換えると、キャッシュが第１のコヒ
ーレンシ・サイズでキャッシュ命令をスヌープする場
合、その命令はページ・レベルの操作に投機的に変換さ
れ、それがプロセッサ・バスに送られる。たとえば、キ
ャッシュがシステム・バスから３２バイトのフラッシュ
命令を受け取った場合、３２バイト・セクタがどのペー
ジに入っているかを判断し、多数（たとえば１２８）の
キャッシュ命令をプロセッサ・バスに送ってページ全体
を完全にフラッシュする。そのようにしてプロセッサ・
バスに対して発行された最後のいくつかのページ・レベ
ル操作を、プロセッサ・バス履歴テーブル６８を使用し
て追跡する。その後、キャッシュがすでにフラッシュさ
れているページの一部である３２バイト・セクタについ
て後のフラッシュ命令を受け取った場合、プロセッサ・
バス履歴テーブル６８は後の操作がプロセッサ・バスに
渡されないようにするフィルタとして機能する。したが
って、キャッシュ命令の発行はこの場合も要求ベースで
ある。

【００２５】ページ・レベル操作を行うこの方法は、多
くのページ・レベルの操作が発行される状況では、実際
に必要なよりも多くの命令をプロセッサ・バスに対して
発行しなければならないことがあるが、アービトレーシ
ョンが単純化されており、パイプライン処理が可能なた
め、操作はより迅速に退去する。ただ１回のアービトレ
ーション・ステップと、その後のキャッシュ命令の（ペ
ージ相当の）バーストがあるだけである。

【００２６】プロセッサ・バス履歴テーブル６８は、キ
ャッシュがグラニュラリティの低い命令をページ・レベ
ルの操作に変換する複数の命令を生成しない場合でも使
用することができる。たとえば、プロセッサ・バス履歴
テーブル６８は、前述のように前にプロセッサ・バスに
送られた（投機的または通常の）命令を追跡することが
できる。

【００２７】以上、本発明について特定の実施態様を参
照しながら説明したが、この説明は限定的な意味に解釈
されることを意図したものではない。当業者なら、本発
明の説明を参照すれば、開示されている実施態様の様々
な修正及び本発明の代替実施態様が明らかになるであろ
う。たとえば、本発明をキャッシュ操作だけでなくどの
ような種類のアーキテクチャ操作に適用してもパフォー
マンス向上を達成することができる。履歴テーブルをデ
ィスプレイ・バッファと共に使用して、特定のマルチメ
ディア・プロシージャを改良することもできる。本発明
は一般に、単一のアーキテクチャ操作に加えてより多く
の操作が必要になると見越すことによってより効率的に
処理することができるどのような大規模アーキテクチャ
操作にも適用可能である。したがって、そのような修正
は特許請求の範囲で規定されている本発明の精神または
範囲から逸脱することなく加えることができるものと企
図される。

【００２８】まとめとして、本発明の構成に関して以下
の事項を開示する。

【００２９】（１）コンピュータ・システムにおいてア
ーキテクチャ操作を管理する方法であって、第１のアー
キテクチャ操作をスヌープする操作と、第１のアーキテ
クチャ操作を複数のグラニュラ・アーキテクチャ操作に
変換して大規模アーキテクチャ操作を実施するステップ
とを含む方法。（２）第１のアーキテクチャ操作がメモリ・ブロックに
向けられた第１のキャッシュ命令であり、前記変換ステ
ップが、メモリ・ブロックに関連づけられたページに含
まれるメモリ・ブロックに向けられた複数のキャッシュ
命令を発行するステップを含む、上記（１）に記載の方
法。（３）グラニュラ・アーキテクチャ操作がコンピュータ
・システムのプロセッサ・バスに送られる、上記（１）
に記載の方法。（４）大規模アーキテクチャ操作の記録を履歴テーブル
に記憶するステップをさらに含む、上記（１）に記載の
方法。（５）履歴テーブルが、大規模アーキテクチャ操作によ
って実行要求された任意の後のアーキテクチャ操作をフ
ィルタ除外するステップをさらに含む、上記（４）に記
載の方法。（６）コンピュータ・システムの構成要素においてアー
キテクチャ操作を管理する装置であって、第１のアーキ
テクチャ操作を複数のグラニュラ・アーキテクチャ操作
に変換して大規模アーキテクチャ操作を実施する手段
と、前記大規模アーキテクチャ操作の記録を記憶する履
歴テーブルとを含む装置。（７）前記アーキテクチャ操作が第１のメモリ・ブロッ
クに向けられた第１のキャッシュ命令であり、前記変換
手段が前記第１のメモリ・ブロックに関連づけられたペ
ージに含まれるメモリ・ブロックに向けられた複数のキ
ャッシュ命令を発行する、上記（６）に記載の装置。（８）前記変換手段が前記大規模アーキテクチャ操作を
コンピュータ・システムのプロセッサ・バスに送る手段
を含む、上記（６）に記載の装置。（９）前記履歴テーブルが前記大規模アーキテクチャ操
作によって実行要求された任意の後のアーキテクチャ操
作をフィルタ除外する、上記（６）に記載の装置。

【図面の簡単な説明】

【図１】従来技術のマルチプロセッサ・コンピュータ・
システムのブロック図である。

【図２】本発明によるキャッシュ構成の一実施例を示す
ブロック図である。

【符号の説明】

１２処理装置１４入出力装置１６メモリ・デバイス１８ファームウェア２０バス２２プロセッサ・コア２４一次キャッシュ３０二次キャッシュ３２キャッシュ項目３４キャッシュ・ディレクトリ３６ＬＲＵユニット３８キャッシュ可能ストア待ち行列４０キャッシュ抑止ストア待ち行列４２スヌープ待ち行列４４キャッシュ操作待ち行列５０メモリ階層５２メモリ・デバイス５４システム・バス５６キャッシュ５８キャッシュ論理回路６０プロセッサ・バス６２キャッシュ操作待ち行列う６４待ち行列コントローラ６６システム・バス履歴テーブル

───────────────────────────────────────────────────── フロントページの続き (72)発明者ジョン・スチィーブン・ダッドソンアメリカ合衆国78660 テキサス州フラジャービルベル・ロック・サークル 1205 (72)発明者ジェリー・ドン・ルイスアメリカ合衆国78681 テキサス州ラウンド・ロックアローヘッド・サークル 3409 (72)発明者デレク・エドワード・ウイリアムズアメリカ合衆国78728 テキサス州オースチンシングル・トレース 14723

Claims

【特許請求の範囲】

【請求項１】コンピュータ・システムにおいてアーキテ
クチャ操作を管理する方法であって、第１のアーキテクチャ操作をスヌープする操作と、第１のアーキテクチャ操作を複数のグラニュラ・アーキ
テクチャ操作に変換して大規模アーキテクチャ操作を実
施するステップとを含む方法。
【請求項２】第１のアーキテクチャ操作がメモリ・ブロ
ックに向けられた第１のキャッシュ命令であり、前記変
換ステップが、メモリ・ブロックに関連づけられたペー
ジに含まれるメモリ・ブロックに向けられた複数のキャ
ッシュ命令を発行するステップを含む、請求項１に記載
の方法。
【請求項３】グラニュラ・アーキテクチャ操作がコンピ
ュータ・システムのプロセッサ・バスに送られる、請求
項１に記載の方法。
【請求項４】大規模アーキテクチャ操作の記録を履歴テ
ーブルに記憶するステップをさらに含む、請求項１に記
載の方法。
【請求項５】履歴テーブルが、大規模アーキテクチャ操
作によって実行要求された任意の後のアーキテクチャ操
作をフィルタ除外するステップをさらに含む、請求項４
に記載の方法。
【請求項６】コンピュータ・システムの構成要素におい
てアーキテクチャ操作を管理する装置であって、第１のアーキテクチャ操作を複数のグラニュラ・アーキ
テクチャ操作に変換して大規模アーキテクチャ操作を実
施する手段と、前記大規模アーキテクチャ操作の記録を記憶する履歴テ
ーブルとを含む装置。
【請求項７】前記アーキテクチャ操作が第１のメモリ・
ブロックに向けられた第１のキャッシュ命令であり、前
記変換手段が前記第１のメモリ・ブロックに関連づけら
れたページに含まれるメモリ・ブロックに向けられた複
数のキャッシュ命令を発行する、請求項６に記載の装
置。
【請求項８】前記変換手段が前記大規模アーキテクチャ
操作をコンピュータ・システムのプロセッサ・バスに送
る手段を含む、請求項６に記載の装置。
【請求項９】前記履歴テーブルが前記大規模アーキテク
チャ操作によって実行要求された任意の後のアーキテク
チャ操作をフィルタ除外する、請求項６に記載の装置。