JPH10289155A

JPH10289155A - Ｓｍｐバスの共用状態でのキャッシュ・ラインの共用介入方法及びシステム

Info

Publication number: JPH10289155A
Application number: JP10078708A
Authority: JP
Inventors: Kumer Arimiri Ravi; ラヴィ・カマー・アライミリ; Stephen Doddson John; ジョン・スティーブン・ドッドソン; John Michael Kaiser; ジョン・マイケル・カイザー; Don Lewis Jerry; ジェリー・ドン・リュイス
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1997-04-14
Filing date: 1998-03-26
Publication date: 1998-10-27
Also published as: KR19980079662A; KR100274771B1; TW385395B; US5940856A

Abstract

(57)【要約】【課題】マルチプロセッサ・コンピュータ・システム
での読取り型操作に伴うメモリ待ち時間を改良する方法
を提供する。【解決手段】システム・メモリから少なくとも２つの
キャッシュに値（データまたは命令）がロードされた
後、キャッシュは、値の未変更共用コピーを含むとマー
クされ、要求側処理装置が値を読取ろうとしていること
を示すメッセージを発行したとき、キャッシュのうち、
所与の１つが値を供給できることを示す応答を、所与の
キャッシュが転送する応答は、要求側処理装置に接続さ
れた相互接続部からメッセージをスヌープするキャッシ
ュに応答して転送される。応答はシステム・ロジックに
よって検出され、システム・ロジックから要求側処理装
置に転送される。次にキャッシュは、要求側処理装置に
接続された相互接続部に値を供給する。システム・メモ
リはメッセージを検出し、通常は値を供給するが、代わ
りにキャッシュによって値を供給することが、応答によ
りメモリ装置に通知される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、一般的にはコンピ
ュータ・システムに関し、特に、対称型マルチプロセッ
サ・コンピュータ・システムで、発行側プロセッサが他
のプロセッサのキャッシュにて未変更状態で検出できる
データを読取ろうとするときに、介入を利用してメモリ
読取り型操作の性能を改良する方法に関する。

【０００２】

【従来の技術】従来のマルチプロセッサ・コンピュータ
・システム１０の基本的構造を図１に示す。コンピュー
タ・システム１０にはいくつかの処理装置があるが、そ
のうちの２つ、１２ａ及び１２ｂが示してある。これら
は、さまざまな周辺装置に接続される。周辺装置は、入
出力（Ｉ／Ｏ）装置１４（ディスプレイ・モニタ、キー
ボード、グラフィカル・ポインタ（マウス）、不揮発性
の永続記憶装置（ハード・ディスク）等）、プログラム
命令を実行するため処理装置によって用いられるメモリ
装置１６（ＲＡＭ、すなわちランダム・アクセス・メモ
リ等）、及び基本的にはコンピュータの電源が最初に入
ったときに周辺装置のひとつ（通常は永続メモリ装置）
からオペレーティング・システムを探し出してロードす
るためのファームウェア（ＲＯＳ）１８を含む。処理装
置１２ａ及び１２ｂは、汎用相互接続部、すなわちバス
２０、直接メモリ・アクセス・チャネル（図示なし）
等、さまざまな手段により周辺装置と通信する。コンピ
ュータ・システム１０には、図示していないが、モデム
またはプリンタ等に接続するためのシリアル・ポート及
びパラレル・ポート等、さまざまなコンポーネントを追
加することができる。また当業者には明らかなように、
図１のブロック図に示したものと共に使用できるコンポ
ーネントは他にもある。例えば、ビデオ・ディスプレイ
・モニタを制御するディスプレイ・アダプタ、メモリ装
置１６にアクセスするメモリ・コントローラ等を使用で
きる。コンピュータの処理装置は２つ以上あってもよ
い。

【０００３】対称型マルチプロセッサ（ＳＭＰ）・コン
ピュータでは、処理装置はすべてほぼ同一である。つま
り、すべて、操作するための命令及びプロトコルの共通
セットまたはサブセットを使用し、一般的には同じアー
キテクチャを有する。代表的なアーキテクチャを図１に
示している。処理装置は、コンピュータを操作するため
にプログラム命令を実行する複数のレジスタ及び実行装
置を有するプロセッサ・コア２２を含む。代表的な処理
装置はInternational Business Machines Corporation
のＰｏｗｅｒＰＣ（^TM）プロセッサを含む。また処理装
置には、命令キャッシュ２４及びデータ・キャッシュ２
６等の１つ以上のキャッシュを置くことができる。これ
らは高速メモリ装置を使用して実現される。キャッシュ
は、メモリ装置１６から値をロードするという長いステ
ップを避けることによって処理を高速化するために、プ
ロセッサによって繰り返しアクセスされる値を一時的に
保存するため、広く用いられる。これらのキャッシュ
は、プロセッサ・コアと一体化した１つの集積チップ２
８上にパッケージ化されるときは、"オンボード"・キャ
ッシュと呼ばれる。キャッシュはそれぞれ、プロセッサ
・コアとキャッシュ・メモリとの間のデータ及び命令の
転送を管理するキャッシュ・コントローラ（図示なし）
に関連付けられる。

【０００４】処理装置には、キャッシュ３０等のキャッ
シュを追加することができる。キャッシュ３０はレベル
２（Ｌ２）キャッシュと呼ばれるが、これはオンボード
（レベル１）・キャッシュ２４及び２６をサポートする
からである。言い換えると、キャッシュ３０はメモリ装
置１６とオンボードキャッシュの仲介役になり、オンボ
ード・キャッシュよりもかなり多くの情報（命令及びデ
ータ）を格納できるが、それだけアクセス時間がかか
る。例えばキャッシュ３０は、記憶容量が２５６または
５１２キロバイトのチップでよく、プロセッサは、総記
憶域６４キロバイトのオンボード・キャッシュを有する
ＩＢＭＰｏｗｅｒＰＣ（^TM）６０４シリーズ・プロセ
ッサでもよい。キャッシュ３０はバス２０に接続され、
メモリ装置１６からプロセッサ・コア２２への情報のロ
ードは、すべてキャッシュ３０を経由する。図１は２レ
ベルのキャッシュ階層のみ示しているが、多くのレベル
（Ｌ３、Ｌ４等）の直列接続キャッシュを有するマルチ
レベルのキャッシュ階層も可能である。

【０００５】ＳＭＰコンピュータでは、コヒーレントな
メモリ・システム、すなわちすべてのプロセッサについ
て、個々のメモリ位置への書込みが、ある順序で直列化
されることが重要である。キャッシュ・コヒーレントな
システムの場合、指示された順序で所与の位置への書込
みが行われるのを、すべてのプロセッサが監視する。当
業者に知られているキャッシュ・コヒーレンシを達成す
るプロトコル及び手法はいくつかある。コヒーレンシを
維持するこれらのすべてのメカニズムの核心は、プロト
コルによってただ１つのプロセッサが所与の時点で所与
のメモリ位置（キャッシュ・ブロック）への書込みを行
う"許可"を受けるという要件である。この要件の結果、
処理要素がメモリ位置への書込みを試みるときに、処理
要素は最初に他のすべての処理要素にメモリ位置への書
込みの意図を通知し、書込みを行うために他のすべての
処理要素から許可を受けなければならない。システムの
他のすべてのプロセッサは、書込みが生じる前に開始側
プロセッサから書込みの通知を受けなければならない。
さらに、所与の処理装置のＬ１キャッシュにブロックが
存在する場合、そのブロックは処理装置のＬ２及びＬ３
のキャッシュにも存在する。この性質は包含（inclusio
n）として知られ、当業者には周知のとおりである。

【０００６】システムでキャッシュ・コヒーレンシを実
現するため、プロセッサは共通の汎用相互接続部（すな
わちバス２０）を通して通信する。プロセッサは相互接
続部を通してメッセージを受け渡し、メモリ位置を読取
るまたは書込む意図を示す。操作が相互接続部上にセッ
トされると、他のすべてのプロセッサがこの操作を"ス
ヌープ"（監視）し、それらのキャッシュの状態によっ
て、要求された操作を進めることができるかどうかを判
断し、またできる場合はその条件を判断する。バス・ト
ランザクションに対応し、メモリのコヒーレンシを維持
するために、スヌープ及びフォローアップの動作を要す
るバス・トランザクションはいくつかある。スヌープ応
答はシステム・ロジックによって集められ分析される。
システム・ロジックは、通常はシステム制御点装置３２
に存在する。スヌープ操作は、あるバス信号のアサート
により生成された有効なスヌープ・リクエストの受信に
よってトリガされる。この通信が必要なのは、キャッシ
ュを有するシステムでは、メモリの所与のブロックの最
も最近（most recent）の有効なコピーが、システム・
メモリ装置１６からシステム内のキャッシュに移動して
いる可能性があるからである。プロセッサ（例えば１２
ａ）が、そのキャッシュ階層内に存在しないメモリ位置
にアクセスしようとした場合、そのメモリ位置の実際の
（現在の）値を含むブロックの正しいバージョンは、シ
ステム・メモリ装置１６内か、他の処理装置（例えば処
理装置１２ｂ）のキャッシュ内かいずれかにある可能性
がある。正しいバージョンがシステムの他のキャッシュ
にある場合は、システム・メモリではなく、システム内
のキャッシュから正しい値を取得する必要がある。

【０００７】例えば、プロセッサ１２ａがメモリ内のあ
る位置を読取ろうとしているとする。最初にそれ自体の
Ｌ１キャッシュ（２４または２６）をポーリングする。
Ｌ１キャッシュにブロックが存在しない場合、リクエス
トはＬ２キャッシュ（３０）に転送される。Ｌ２キャッ
シュにブロックが存在しない場合は、リクエストはより
下位のレベルのキャッシュ、例えばＬ３キャッシュに転
送される。ブロックが下位レベル・キャッシュに存在し
ない場合、リクエストは汎用相互接続部（２０）に置か
れ、サービスを待機する。操作が汎用相互接続部上にセ
ットされると、他の下位レベルのキャッシュはすべて操
作をスヌープし、ブロックがそれらのキャッシュに存在
するかどうか確認する。所与の処理装置が、ある処理装
置によって要求されたブロックをそのＬ１キャッシュに
有し、そのブロックの値が変更されている場合、包含の
原理により、Ｌ２キャッシュ及び任意の下位レベル・キ
ャッシュもブロックのコピーを有する（ただしプロセッ
サのキャッシュ内のコピーは変更されているので、それ
らのコピーは古くなっている可能性がある）。従って、
処理装置の下位レベル・キャッシュ（Ｌ３等）は、読取
り操作をスヌープするとき、要求されたブロックが上位
レベル・キャッシュに存在し、変更されていることを確
認する。これが起きるとき、メモリ位置の実際の値はメ
モリ階層のトップのＬ１キャッシュにあり、開始側処理
装置の読取りリクエストに応えるためには取得しなけれ
ばならないので、Ｌ３キャッシュはメッセージを汎用相
互接続部にセットすることにより、その操作を後でもう
１度"再試行"しなければならないことを処理装置に通知
する。

【０００８】開始側処理装置からのリクエストが再試行
されれば、Ｌ３キャッシュはプロセスを開始して、Ｌ１
キャッシュから変更された値を取得し、本発明には特別
には関係しない実施の詳細によるが、Ｌ３キャッシュ、
メイン・メモリ、または両方で利用できるようにする。
上位レベル・キャッシュからブロックを取得するため、
Ｌ３キャッシュはキャッシュ間接続を通して上位レベル
・キャッシュにメッセージを送り、ブロックを取得する
ことを要求する。Ｌ１キャッシュに届き、ブロックは階
層を下へ移動し、下位レベル（Ｌ３またはメイン・メモ
リ）に届き、ここで開始側処理装置からのリクエストに
応えることができるようになるまで、これらのメッセー
ジは処理装置の階層を上へ伝播する。

【０００９】開始側処理装置は結局、汎用相互接続部上
で読取りリクエストを再試行する。しかしながらこの時
点で、変更された値は処理装置のＬ１キャッシュから取
得され、開始側プロセッサからの読取りリクエストは満
足される。ここに示したシナリオは一般的には"スヌー
プ・プッシュ"と呼ばれる。読取りリクエストは汎用相
互接続部上でスヌープされ、これにより処理装置がブロ
ックを階層の下に"プッシュ"し、開始側処理装置によっ
て出された読取りリクエストを満足する。

【００１０】プロセッサは、ブロックの読取りまたは書
込みを行うときは、キャッシュのコヒーレンシを維持す
るために、その意図をシステムの他の処理装置に通信し
なければならない。これを達成するために、キャッシュ
・コヒーレンシ・プロトコルにより、キャッシュ階層の
各レベルの各ブロックに、ブロックの現在の"状態"を示
すステータス・インジケータが関連付けられる。この状
態情報は、汎用相互接続部及びキャッシュ間接続上のメ
ッセージ・トラフィックを減らす、ある最適化をコヒー
レンシ・プロトコルで実現するために用いられる。この
メカニズムの１つの例として、処理装置は、読取りを行
うときに、読取りが後で再試行されなければならないか
どうかを示すメッセージを受け取る。読取り操作が再試
行されない場合は、普通は、他の処理装置にもまだアク
ティブなブロックのコピーがあるかどうか処理装置が確
認できるようにする情報も、メッセージに含まれる（こ
れは、他の下位レベル・キャッシュが再試行しない読取
りについて"共用"または"非共用"の指示をそれら下位レ
ベル・キャッシュによって与えることによって実現され
る）。従って、処理装置は、システム内の他の任意のプ
ロセッサがブロックのコピーを有するかどうかを確認す
ることができる。他の処理装置がブロックのアクティブ
なコピーを有さない場合は、読取り側処理装置はブロッ
クの状態を"排他"とマークする。ブロックが排他とマー
クされた場合は、処理装置が、最初にシステム内の他の
処理装置と通信することなく、そのブロックを後で書込
むことは許可できる。なぜなら、他の処理装置はブロッ
クのコピーを有さないからである。従って、プロセッサ
が最初にこの意図を相互接続部に通信することなく位置
の読取りまたは書込みを行うことは可能であるが、これ
は、他のプロセッサがブロックに関心を持たないことが
コヒーレンシ・プロトコルによって保証された場合に限
られる。

【００１１】上述のキャッシュ・コヒーレンシ方法
は、"ＭＥＳＩ"と呼ばれる特定のプロトコルで実現され
る。これを図２に示す。このプロトコルのキャッシュ・
ブロックは、"Ｍ"（変更、Modified）、"Ｅ"（排他、Ex
clusive）、"Ｓ"（共用、Shared）、または"Ｉ"（無
効、Invalid）の４つの状態のいずれかになる。ＭＥＳ
Ｉプロトコルでは、各キャッシュ・エントリ（例えば３
２バイト・セクタ）が、４つの可能な状態の中からエン
トリの状態を示す２つの追加ビットを有する。状態は、
エントリの初期状態、及び要求側プロセッサによってシ
ークされるアクセスのタイプに応じて変化し得、要求側
プロセッサのキャッシュのエントリに特定の状態がセッ
トされる。例えば、あるセクタが変更状態のとき、アド
レスされたセクタは、変更されたセクタを有するキャッ
シュでのみ有効であり、変更された値はシステム・メモ
リに書戻されていない。セクタが排他のとき、そのセク
タは指示されたセクタにしか存在せず、システム・メモ
リと一貫性を有する。セクタが共用なら、そのセクタは
そのキャッシュ、及び少なくとも他の１つのキャッシュ
内で有効であり、共用されるセクタはすべてシステム・
メモリと矛盾がない。最後に、セクタが無効なとき、こ
れはアドレスされたセクタがキャッシュに存在しないこ
とを示す。図２に示すように、セクタが変更、共用、ま
たは無効の状態にある場合は、特定のバス・トランザク
ションに応じて、状態から状態へ移動することができ
る。排他状態のセクタは、他の任意の状態に移ることが
できるが、最初に無効である場合は排他になることしか
できない。

【００１２】キャッシュ・ブロックへのアクセスをさら
に改良することは、上述のキャッシュ・コヒーレンシ・
プロトコルを使用することによって可能である。"介入"
と呼ばれるこの改良法では、変更メモリ・ブロックに対
して制御権を有するキャッシュは、値を要求する他のキ
ャッシュに、そのブロックのデータまたは命令を、直接
提供することができる（読取り型操作（read-type oper
ation）のとき）。言い換えると、データまたは命令を
システム・メモリに書込み、次に要求側プロセッサにメ
モリから再び読戻させる必要性を回避する。介入は、状
態が変更であるブロックに値を有するキャッシュによっ
てのみ実行できる。この状態では、値の有効なコピーを
有するキャッシュ・ブロックは１つしかないので、バス
２０を通して、最初にシステム・メモリに書込む必要な
く値を供給することは簡単なことである。従って、介入
手順は、システム・メモリに書込み、及びそこから読取
るという長いプロセス（これは実際にバス操作３回とメ
モリ操作２回を伴う）を避けることによって、処理を高
速化する。この手順により、待ち時間が改良されるだけ
でなく、使用可能なバス帯域幅が増加する。

【００１３】従来技術のプロトコルは、データまたは命
令が未変更（すなわち共用または排他）状態に保たれた
ときには介入に対応しない。１つの方法は、共用された
キャッシュ・ブロックを変更状態にあるものとして扱う
ことである。これにより、値を含むキャッシュによって
その値を供給することができるが、そこで値はまたシス
テム・メモリに書込まれる。これは不要であり、遅延時
間を長くすることにつながる。従って、未変更のデータ
または命令の効率的介入を考慮したキャッシュ・コヒー
レンシを維持する方法を考案することが望ましい。また
この方法を、特定のタイプの未変更状態（つまり共用、
排他、または他の未変更状態）とは無関係に、値の介入
を簡素化する形で実現できれば好都合である。

【００１４】

【発明が解決しようとする課題】本発明の目的は、マル
チプロセッサ・コンピュータ・システムで読取り型操作
を実行する、改良された方法を提供することである。

【００１５】本発明の他の目的は、他のプロセッサのキ
ャッシュからターゲット値を未変更状態で検出できると
き、改良された介入応答を考慮した方法を提供すること
である。

【００１６】本発明の他の目的は、キャッシュ・ブロッ
クで未変更状態に保たれた値について複数の状態を定義
したキャッシュ・コヒーレンシ・プロトコルと共に効率
よく実現できる方法を提供することである。

【００１７】

【課題を解決するための手段】上述の目的は、マルチプ
ロセッサ・コンピュータ・システムの要求側処理装置に
よって発行される読取り型操作に関連付けられたメモリ
待ち時間を改良する方法により達成される。この方法
は、一般には、システム・メモリから少なくとも第１及
び第２のキャッシュに値をロードするステップ、値の未
変更共用コピーを含むとキャッシュをマークするステッ
プ、要求側処理装置が値を読取ろうとしていることを示
すメッセージを要求側処理装置から発行するステップ、
及びキャッシュのうち、所与の１つが値を供給できるこ
とを示す応答を、所与のキャッシュから転送するステッ
プを含む。応答は、要求側処理装置に接続されたバスか
らメッセージをスヌープするキャッシュに応答して転送
される。応答は、システム・ロジックによって検出さ
れ、システム・ロジックから要求側処理装置に転送され
る。次にキャッシュは、値を要求側処理装置に接続され
たバスに供給する。メッセージにはリクエスト識別子の
タグを付けることができ、キャッシュは値を応答として
供給する。この応答にもリクエスト識別子のタグを付け
られる。システム・メモリはメッセージを検出し、通常
は値を供給するが、代わりに、値はキャッシュによって
供給されることをメモリ装置に通知する。所与のキャッ
シュは第１及び第２のキャッシュからさまざまな形で、
例えば任意に選択できる。キャッシュ待ち時間はメモリ
待ち時間よりかなり短いので、この新たなプロトコルに
より読取り性能が大幅に改良される。

【００１８】上述の、並びに本発明の更なる目的、機
構、及び利点が、以下の詳細な説明で明らかになろう。

【００１９】

【発明の実施の形態】本発明は、図１の装置のようなマ
ルチプロセッサ装置で読取り型命令を実行する方法を対
象とするが、必ずしも従来型ではない、つまり図１には
示していない新しいハードウェア・コンポーネントを追
加でき、または既存のコンポーネントのための新規な相
互接続アーキテクチャを有するコンピュータ・システム
にも適用できる。従って、当業者には明らかなように、
本発明は、図に示した一般化された装置に限定されるも
のではない。

【００２０】本発明では、マルチプロセッサ・コンピュ
ータ・システムの他のプロセッサに関連付けられたすべ
てのキャッシュのスヌーパから、読取り操作を要求する
プロセッサにコヒーレンシ応答を受け渡すために、プロ
トコルが設定される。応答は表１に従って定式化され
る。

【表１】

【００２１】信号は３ビット・スヌープ応答の形を取
る。その値（アドレス応答）と定義を表１に示す。これ
らの信号は、アドレス保持の後にスヌープ結果を示すた
め、エンコードされる。表１は、共用ライン、変更ライ
ン、及びクリーン（無効）・ラインについて、従来技術
に用いられるものと同様な応答、及び再試行応答を示
す。表１はまた、"共用介入（Shared Interventio
n）"、"リモート・ステータス（Remote Status）"、"再
実行（Rerun）"の３つの新しい応答を示す。リモート・
ステータス応答は、読取り操作にしか用いられず、読取
りが成功することを示すために用いられ、共用または排
他いずれかのコヒーレンシ応答が後で他の信号を使用し
てデータと共に返る。再実行応答は、コヒーレンシ応答
をすぐに確認できず、リクエストを階層の低い方に転送
しなければならないときに用いられる。再実行応答は、
前者のメッセージを再発行しなければならず、先に転送
されたメッセージと整合が取れるように同じ識別子を有
する必要があるという点で、再試行と異なる。

【００２２】共用介入応答では、まだ変更されていない
データまたは命令のコピーがキャッシュにあるとき、キ
ャッシュから値を供給することができ、従って従来技術
の変更介入応答とは区別される。共用介入応答は従っ
て、共用状態及び排他状態、並びに新たに導入される下
記の状態（Recently readの意味の"Ｒ"状態）を含め
て、未変更値を示す任意の状態で使用できる。この応答
は、バス（汎用相互接続部）の、そのリクエスト識別子
のタグが付けられた読取り応答のデータまたは命令、及
びそれがメモリではなくキャッシュからの値であるとの
信号を探すことを要求側プロセッサに指示する。バスと
いう用語は、一般的な意味で用い、リクエストと応答の
メッセージをリレーするスヌープ・バス、クロスポイン
トに接続された他の値のバス等、いくつかの"バス"があ
り得る。

【００２３】応答には、別のデータ・タグ・バス上で、
データ・バスをサイクル毎に追跡する８ビット値のタグ
が付けられる。データ・バスの値は、アドレス・バスで
同じ値が送られたメッセージに、データ・バスのデータ
が属することを示す。この他に、介入のとき有効になる
信号"メモリ・データではなくキャッシュ・データ"（Ｄ
Ｃａｃｈｅ）があり、このデータはキャッシュからであ
ってメモリからではないことが示される。メモリまたは
キャッシュは、理論上、介入応答が要求側によって検出
される前にデータを送り始めるので、ＤＣａｃｈｅが有
効な場合、これは最新のデータが送られていることを示
し、また無効な場合は、介入が行われているかどうかみ
るには応答を待機しなければならず、そうならデータを
棄却して、ＤＣａｃｈｅとマークされたデータ（一致す
る同じデータ・タグ）を待つ必要があることを示す。そ
の上、この新しい応答は、他のキャッシュの介入によっ
て満足できるので読取りリクエストをドロップすること
をメモリ・システムに指示する。キャッシュ待ち時間は
メモリ待ち時間よりかなり短くなるので、この新しいプ
ロトコルにより読取りの性能を大幅に改良することがで
きる。

【００２４】値はさらに、各応答に関連付けられ、これ
によりシステム・ロジックは、表１に示すように要求側
プロセッサに対する１つの応答を定式化する際に、どの
応答を優先させるかを決定できる。例えば、１つ以上の
キャッシュが、共用介入応答（優先度３）で応答し、１
つ以上のキャッシュが、再試行応答（優先度１）で応答
する場合は、再試行応答が優先し、システム・ロジック
は再試行応答を要求側プロセッサに発行する。このシス
テム・ロジックは、システム制御点ユニット等さまざま
なコンポーネントに置くことができる。メモリ・コント
ローラ内でもよい。表１の優先度のところに示した基本
値は、従来技術と同様に、再試行応答に最大の優先度を
与える。しかし共用介入プロトコルの使用状態を改良す
るために、これに代わる優先度方式も可能である。表１
の括弧内の優先度の数字で示されるこの代用値では、共
用介入応答は最大優先度を有し、これに再試行応答が続
き、さらにこれに変更介入応答が続く。他の優先度はす
べて最初の方式と同じである。この代用方式では、共用
介入応答は、多くの理由から共用できる他の応答より常
に優先する。まず第１に、キャッシュ・ラインが共用状
態で値（データまたは命令）を保持している場合、他の
キャッシュは、同じアドレスに対応した値を変更状態で
保持していない可能性があるので、他のキャッシュが変
更介入応答で応答できないことは明らかである。また他
のキャッシュが再試行（Retry）を発行した場合、再試
行にもとづく同じキャッシュからの後の応答は、せいぜ
い共用されるだけであり、これはつまりここでも、共用
介入応答を最初に発行することは許容できることを意味
する。

【００２５】本発明では、どのキャッシュが未変更値
の"所有者"か、従って未変更値を供給する資格があるか
確認するために、いくつか異なるメカニズムを採用でき
る。図２に示した従来技術のＭＥＳＩプロトコルをコン
ピュータ・システムに使用し、キャッシュ・ラインが排
他状態で値を保持する場合、そのキャッシュは値の有効
なコピーを有する唯一のキャッシュであり、従ってその
キャッシュは明らかに所有者であり、共用介入応答を発
行できる。しかしながらキャッシュ・ラインが共用状態
で値を保持する場合は、値は、同じ状態で他の少なくと
も１つのキャッシュに保持されており、従って、どのキ
ャッシュがデータを供給するかはすぐには明らかになら
ない。そのような場合は、どのキャッシュを使用すべき
かを確認する方法がいくつかある。例えば、複数のキャ
ッシュが共用介入で応答でき、次にシステム・ロジック
（システム制御点等）は、値を供給するキャッシュを選
択できる。その場合、システムは再試行応答を、１つを
除いてすべての潜在所有者に返すことができ、共用介入
応答は選択された所有者だけに返す。所有者は任意に
か、または一定の優先度方式もしくは回転する優先度方
式をもとに選択することも可能である。

【００２６】共用値を有する複数のキャッシュの優先度
の中から所有者を決定するもう１つの方法は、キャッシ
ュ・ラインを最も最近（most recently）読取ったキャ
ッシュを示すメカニズムを用意することである。そのキ
ャッシュはそこで、他のキャッシュが読取るか、または
それが棄却されるまで、自動的にこのラインの所有者と
みなされる。この方法は、図３の状態図に示した新しい
キャッシュ・コヒーレンシ・プロトコルで実現できる。
このプロトコルは、４つの状態（変更、排他、共用、無
効）を含むという点で図２の従来技術のＭＥＳＩプロト
コルと同様であるが、さらに、他の場合には共用が指示
される最も最近（most recently）参照されたブロック
の指示を与えるため、新しい"Ｒ"（Recent）状態を含
む。言い換えると、２つ以上のキャッシュが命令または
データの値の有効なコピーを有するとき、それらは、命
令またはデータの値を最も最近（most recently）アク
セスしたキャッシュを除いてすべて共用状態にあり、そ
のアクセスしたキャッシュは最近（Recent）状態にあ
る。可能な状態はこれで合計５つになるので、エントリ
の状態を識別するには、（従来技術のような２ビット・
フィールドの代わりに）３ビット・フィールドが各キャ
ッシュ・エントリに必要である。

【００２７】この新しいプロトコルは、ここでは"Ｒ−
ＭＥＳＩ"プロトコルと呼ばれる。従来技術のプロトコ
ルのように、４つのＭ−Ｅ−Ｓ−Ｉ状態は、エントリの
初期状態、及び要求側プロセッサによってシークされる
アクセスのタイプをもとに変化し得る。これら４つの状
態が変化する様子は、例外を除いて基本的には従来技術
のＭＥＳＩプロトコルと同一である。その例外を次に述
べる。表２に、"ミス"が生じる読取り型操作について、
マスタ・キャッシュの状態遷移を示す。

【表２】

【００２８】最近状態は、コヒーレンシ応答が変更（Ｍ
ｏｄ）、共用（Ｓｈｒ）、または共用介入（ＳｈｒＩ）
の場合に、"読取りミス"・バス操作（表２の１行目）で
生じる。応答が"読取りミス"操作で変更であれば、変更
されたキャッシュは、命令またはデータをメモリにも送
るので「変更」ではなくなる。"読取りミス"操作でコヒ
ーレンシ応答がない（Ｎｕｌｌ）場合（表２の３行目）
は、従来技術のＭＥＳＩプロトコルのように排他状態が
生じる。"ＲＷＩＴＭミス"操作（ＲＷＩＴＭは「変更予
定読取り：Read With Intent To Modify」の略）では、
コヒーレンシ応答がＮｕｌｌ、Ｓｈｒ、またはＳｈｒＩ
（表２の２行目）の場合は排他状態が生じ、コヒーレン
シ応答がＭｏｄ（表２の４行目）なら変更状態が生じ
る。ＲＷＩＴＭの場合は、まだ実行準備中のデータまた
は命令にのみあてはまる。通常、１度実行が準備された
命令は変更されないからである。

【００２９】表３に、読取り型操作（読取りヒット）に
ついて、スヌーパとして働くときに、バス・トランザク
ションがキャッシュに与える影響の１つの例を示す。

【表３】

【００３０】排他（Exclusive）または最近（Recent）
の開始状態（表３の１、２、及び４行目）については、
キャッシュは共用介入コヒーレンシ応答を転送する。こ
れはつまり、キャッシュがその命令のコピーまたはデー
タのコピーを、システム・メモリからの関与なく、要求
側プロセッサに介入を通して直接供給することを意味す
る。命令がこのように供給されるときは、次の状態は"
読取りヒット"操作で共用になるか（表３の１及び２行
目）、"ＲＷＩＴＭヒット"操作で無効になる（表３の４
行目）。開始状態が変更（表３の３及び５行目）の場合
（これも命令の場合にはあてはまらない。なぜならプロ
グラム命令は通常は変更されないからである）には、コ
ヒーレンシ応答は変更であり、それでも介入は生じる。
バス操作が"ＲＷＩＴＭ"だった場合、値はキャッシュか
らキャッシュに転送されるだけであるが、バス操作が読
取りあった場合、値はキャッシュ及びメモリの両方に送
られる。

【００３１】先に述べたように、表２及び表３に示して
いない状態と操作については、遷移とコヒーレンシ応答
は従来技術のＭＥＳＩプロトコルに従って実行される
が、１つ資格がある。すなわちキャッシュ・エントリ
は、書込み操作の影響を受ける"Ｒ"状態になり得、その
エントリは、共用エントリが書込み操作の影響を受ける
ときと同様に変更状態への遷移を経る。Ｒ−ＭＥＳＩプ
ロトコルについては、さらに次の点を指摘できよう。つ
まり、エントリは決して無効から共用に移ることはない
（代わりに「最近」に移る）。エントリは決して排他か
ら最近に移ることはない（共用に移る）。エントリは決
して最近から排他に移ることはない（共用エントリが排
他に移行しないのと同じ）。そしてエントリは決して変
更から最近に移ることはない（共用に移る。そのとき要
求側プロセッサのキャッシュ内のエントリは最近に移
る）。

【００３２】この新しいＲ−ＭＥＳＩプロトコルでは、
ブロックの所有権は、命令またはデータを読取る最後の
キャッシュに移行する。これにより最も最近（most rec
ently）用いられた状態にとどまり、従って、キャッシ
ュ置き換え機構のＬＲＵ（least recently used）方法
が採用された場合に割当て解除される機会が少ないとい
う利点が加わる。"Ｒ"キャッシュ状態にはまた、キャッ
シュされたＩ／Ｏステータス位置を最も最近（most rec
ently）読取ったプロセッサ／キャッシュに割込む高性
能入出力（Ｉ／Ｏ）コントローラ等、他のアプリケーシ
ョンに用いられるという利点もある。なぜなら、このプ
ロセッサ／キャッシュはＩ／Ｏデバイス・ドライバ・コ
ードをキャッシュした可能性が最大で、従って、コード
をそのキャッシュにフェッチする必要のある他のプロセ
ッサよりも高速にコードを実行できるからである。

【００３３】共用された命令及びデータ（つまり２つ以
上のキャッシュに有効に存在する命令またはデータ）に
介入を与えることにより、メモリ待ち時間が大きく改良
される。Ｒ−ＭＥＳＩプロトコルのある評価では、業界
標準のベンチマークによると従来技術のＭＥＳＩプロト
コルと比較したとき、性能が５３００ＴＰＭ_c（毎分ト
ランザクション数）から７５００ＴＰＭ_cに向上した。
一般的に、本発明によればメモリ・コントローラが操作
から解放され、メモリ帯域幅に対する需要は減少する。

【００３４】本発明が特定の実施例を参照して述べられ
たが、この説明は、制限を意味するものではない。当業
者には、本発明の説明の参照に際し、開示された実施例
の様々な変更が、本発明の代替実施例と同様に明らかに
なろう。従って、このような変更は、本発明の趣旨また
は範囲を逸脱することなく実施され得ることが考慮され
る。

【００３５】まとめとして、本発明の構成に関して以下
の事項を開示する。

【００３６】（１）それぞれにキャッシュが関連付けら
れた複数の処理装置を含むマルチプロセッサ・コンピュ
ータ・システムの要求側処理装置によって発行された読
取り型操作に関連付けられたメモリ待ち時間を改良する
方法であって、メモリ装置のアドレスから、少なくとも
第１及び第２のキャッシュに値をロードするステップ
と、前記第１及び第２のキャッシュを、前記値の未変更
共用コピーを含むとマークするステップと、要求側処理
装置が前記メモリ装置のアドレスから値を読取ろうとし
ていることを示すメッセージを、前記要求側処理装置か
ら発行するステップと、前記第１及び第２のキャッシュ
のうち所与の１つから、前記所与のキャッシュが値を供
給できることを示す応答を転送するステップと、を含
む、方法。（２）前記応答はシステム・ロジックによって検出さ
れ、さらに、前記システム・ロジックから前記要求側処
理装置に前記応答を転送するステップを含む、前記
（１）記載の方法。（３）前記所与のキャッシュは前記要求側処理装置に接
続された相互接続部に前記値を供給するステップを含
む、前記（１）記載の方法。（４）前記所与のキャッシュは前記第１及び第２のキャ
ッシュから任意に選択される、前記（１）記載の方法。（５）前記応答は、前記所与のキャッシュが前記要求側
処理装置に接続された相互接続部から前記メッセージを
スヌープするステップに応答して転送される、前記
（１）記載の方法。（６）前記メッセージにリクエスト識別子のタグを付け
るステップを含む、前記（１）記載の方法。（７）前記メモリ装置は前記メッセージを検出し、前記
応答は前記値が前記所与のキャッシュによって供給され
ることを前記メモリ装置に通知する、前記（１）記載の
方法。（８）前記所与のキャッシュの他に、少なくとももう１
つのキャッシュが別の応答を転送し、前記所与のキャッ
シュからの応答に第１優先度値が関連付けられ、前記別
の応答に、前記第１優先度値より優先度が低い第２優先
度値が関連付けられる、前記（１）記載の方法。（９）前記所与のキャッシュが、前記リクエスト識別子
のタグが付けられた応答として、前記要求側処理装置に
接続された相互接続部へ、前記値を供給するステップを
含む、前記（６）記載の方法。（１０）メモリ装置と、前記メモリ装置に接続された相
互接続部と、前記相互接続部に接続され、それぞれが前
記メモリ装置からの値を格納するキャッシュを有し、前
記キャッシュのうち所与の１つは、前記メモリ装置から
ロードされた値の未変更共用コピーを、前記所与のキャ
ッシュがいつ含むかを示す手段を有し、前記値は前記キ
ャッシュのうち少なくとももう１つのキャッシュに未変
更共用コピーとして含まれている、複数の処理装置と、
前記メモリ装置からロードされた前記値を前記値の読取
りを要求する処理装置に、前記所与のキャッシュが供給
できることを示す応答を前記所与のキャッシュから転送
する手段と、を含む、コンピュータ・システム。（１１）前記相互接続部に接続され、前記応答を検出
し、前記要求側処理装置に前記応答を転送する手段を有
するシステム制御点装置を含む、前記（１０）記載のコ
ンピュータ・システム。（１２）前記所与のキャッシュから前記要求側処理装置
に前記値を供給する手段を含む、前記（１０）記載のコ
ンピュータ・システム。（１３）前記値の未変更共用コピーを含むキャッシュか
ら、前記所与のキャッシュを任意に選択する手段を含
む、前記（１０）記載のコンピュータ・システム。（１４）前記キャッシュはそれぞれ前記相互接続部で前
記要求側処理装置からのメッセージをスヌープする手段
を含む、前記（１０）記載のコンピュータ・システム。（１５）前記応答に関連付けられた優先度を確認する手
段を含む、前記（１０）記載のコンピュータ・システ
ム。（１６）前記メッセージにリクエスト識別子のタグを付
ける手段を含む、前記（１４）記載のコンピュータ・シ
ステム。（１７）前記メモリ装置は前記メッセージを検出し、さ
らに、前記所与のキャッシュによって前記値が供給され
ることを前記メモリ装置に通知する手段を含む、前記
（１４）記載のコンピュータ・システム。（１８）前記リクエスト識別子、及び前記値は前記メモ
リ装置からではなくキャッシュから供給されるとの追加
信号とのタグが付けられた応答として前記値を供給する
手段を含む、前記（１６）記載のコンピュータ・システ
ム。

【図面の簡単な説明】

【図１】従来技術のマルチプロセッサ・コンピュータ・
システムのブロック図である。

【図２】従来技術のキャッシュ・コヒーレンシ・プロト
コル（ＭＥＳＩ）を示す状態図である。

【図３】本発明を実施するために使用できる新規なキャ
ッシュ・コヒーレンシ・プロトコルを示す状態図であ
る。

【符号の説明】

１０コンピュータ・システム１２ａ、１２ｂ処理装置１４入出力（Ｉ／Ｏ）装置１６メモリ装置１８ファームウェア（ＲＯＳ）２０汎用相互接続部２２プロセッサ・コア２４命令キャッシュ２６データ・キャッシュ２８集積チップ３０キャッシュ３２システム制御点

───────────────────────────────────────────────────── フロントページの続き (72)発明者ジョン・スティーブン・ドッドソンアメリカ合衆国78660、テキサス州フェラガービル、ベル・ロック・サークル 1205 (72)発明者ジョン・マイケル・カイザーアメリカ合衆国78613、テキサス州シダー・パーク、カプリン・マウント 204 (72)発明者ジェリー・ドン・リュイスアメリカ合衆国78681、テキサス州ラウンド・ロック、アローヘッド・サークル 3409

Claims

【特許請求の範囲】

【請求項１】それぞれにキャッシュが関連付けられた複
数の処理装置を含むマルチプロセッサ・コンピュータ・
システムの要求側処理装置によって発行された読取り型
操作に関連付けられたメモリ待ち時間を改良する方法で
あって、メモリ装置のアドレスから、少なくとも第１及び第２の
キャッシュに値をロードするステップと、前記第１及び第２のキャッシュを、前記値の未変更共用
コピーを含むとマークするステップと、要求側処理装置が前記メモリ装置のアドレスから値を読
取ろうとしていることを示すメッセージを、前記要求側
処理装置から発行するステップと、前記第１及び第２のキャッシュのうち所与の１つから、
前記所与のキャッシュが値を供給できることを示す応答
を転送するステップと、を含む、方法。
【請求項２】前記応答はシステム・ロジックによって検
出され、さらに、前記システム・ロジックから前記要求
側処理装置に前記応答を転送するステップを含む、請求
項１記載の方法。
【請求項３】前記所与のキャッシュは前記要求側処理装
置に接続された相互接続部に前記値を供給するステップ
を含む、請求項１記載の方法。
【請求項４】前記所与のキャッシュは前記第１及び第２
のキャッシュから任意に選択される、請求項１記載の方
法。
【請求項５】前記応答は、前記所与のキャッシュが前記
要求側処理装置に接続された相互接続部から前記メッセ
ージをスヌープするステップに応答して転送される、請
求項１記載の方法。
【請求項６】前記メッセージにリクエスト識別子のタグ
を付けるステップを含む、請求項１記載の方法。
【請求項７】前記メモリ装置は前記メッセージを検出
し、前記応答は前記値が前記所与のキャッシュによって供給
されることを前記メモリ装置に通知する、請求項１記載の方法。
【請求項８】前記所与のキャッシュの他に、少なくとも
もう１つのキャッシュが別の応答を転送し、前記所与のキャッシュからの応答に第１優先度値が関連
付けられ、前記別の応答に、前記第１優先度値より優先度が低い第
２優先度値が関連付けられる、請求項１記載の方法。
【請求項９】前記所与のキャッシュが、前記リクエスト
識別子のタグが付けられた応答として、前記要求側処理
装置に接続された相互接続部へ、前記値を供給するステ
ップを含む、請求項６記載の方法。
【請求項１０】メモリ装置と、前記メモリ装置に接続された相互接続部と、前記相互接続部に接続され、それぞれが前記メモリ装置
からの値を格納するキャッシュを有し、前記キャッシュ
のうち所与の１つは、前記メモリ装置からロードされた
値の未変更共用コピーを、前記所与のキャッシュがいつ
含むかを示す手段を有し、前記値は前記キャッシュのう
ち少なくとももう１つのキャッシュに未変更共用コピー
として含まれている、複数の処理装置と、前記メモリ装置からロードされた前記値を前記値の読取
りを要求する処理装置に、前記所与のキャッシュが供給
できることを示す応答を前記所与のキャッシュから転送
する手段と、を含む、コンピュータ・システム。
【請求項１１】前記相互接続部に接続され、前記応答を
検出し、前記要求側処理装置に前記応答を転送する手段
を有するシステム制御点装置を含む、請求項１０記載の
コンピュータ・システム。
【請求項１２】前記所与のキャッシュから前記要求側処
理装置に前記値を供給する手段を含む、請求項１０記載
のコンピュータ・システム。
【請求項１３】前記値の未変更共用コピーを含むキャッ
シュから、前記所与のキャッシュを任意に選択する手段
を含む、請求項１０記載のコンピュータ・システム。
【請求項１４】前記キャッシュはそれぞれ前記相互接続
部で前記要求側処理装置からのメッセージをスヌープす
る手段を含む、請求項１０記載のコンピュータ・システ
ム。
【請求項１５】前記応答に関連付けられた優先度を確認
する手段を含む、請求項１０記載のコンピュータ・シス
テム。
【請求項１６】前記メッセージにリクエスト識別子のタ
グを付ける手段を含む、請求項１４記載のコンピュータ
・システム。
【請求項１７】前記メモリ装置は前記メッセージを検出
し、さらに、前記所与のキャッシュによって前記値が供
給されることを前記メモリ装置に通知する手段を含む、
請求項１４記載のコンピュータ・システム。
【請求項１８】前記リクエスト識別子、及び前記値は前
記メモリ装置からではなくキャッシュから供給されると
の追加信号とのタグが付けられた応答として前記値を供
給する手段を含む、請求項１６記載のコンピュータ・シ
ステム。