JPH03505793A

JPH03505793A - 階層構造を有するキャッシュメモリシステムを含むマルチプロセッサシステム

Info

Publication number: JPH03505793A
Application number: JP1507284A
Authority: JP
Inventors: ヘゲーステン，エリック; ハリディ，セイフ; ウォーレン，デビッド，エイチ．，ディ．
Original assignee: スウェーディッシュ　インスティテュート　オブ　コンピューター　サイエンス
Priority date: 1988-07-04
Filing date: 1989-06-29
Publication date: 1991-12-12
Also published as: EP0424432A1; ATE160454T1; EP0424432B1; DE68928454D1; WO1990000283A1; DE68928454T2

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】告を　ずるキャッシュ旦し乙左ｔｋＥ１Ｕマルチプロセソサシスーム発１属し１訪本発明は、分配されたアドレス空間によってデータをサポートする、分配された物理的メモリを存するスカラー・マルチプロセッサ・アーキテクチャ−を備えたコンピュータシステムに関する。本発明によれば、データ項目の物理的位置は、そのアドレスから独立となる。データ項目のコピーのいくつかが、同時にシステム内の異なる物理的位置に存在し得る。データは、データ項目の各コピーが同一の値をもつように（データコヒーレンス）取り扱われなければならない。システム中におけるデータ項目の最後のコピーが消去されることが、また回避される。

理法」支曹分配されたアドレス空間は、既によく知られた概念である。分配されたアドレス空間を存する典型的なアーキテクチャ−として、ソークエント（Ｓｅｑｕｅｎｔ）およびエンコアー（Ｅｎｃｏｒｅ）等の分配された物理的メモリを備えたコンピュータが存在する。しかしながら、分配されたアドレス空間を備えたアーキテクチャ−は、このようなやり方で提供される必要はない。本発明は、分配された物理的メモリを用いることはせず、むしろ、ハードウェアの構造は、メソセージパッシング装置におけるものに類似している。

メノセージバノシング装置は、典型的には、通信網によって接続された、巨大な分割されたメモリを備えた多くのプロセッサである。

分配された物理的メモリを有する装置は、典型的には、分配されたバスによって巨大な物理的に分配されたメモリに接続された、小さな分割メモリまたはキャンシュを備えた、制限された数のプロセッサのみを有している。メンセージバソシング装置においては、通常、他のプロセッサとのメモリアクセスおよびコミュニケーションが、完全に分離された機能とみなされる必要がある。したがって、ソフトウェアは、しばしば、離れた位置のオブジェク１−に対する参照値を適当なメツセージ中にマソビングすることによって、分配されたアドレス空間の形態をソミュレーシヲンしなければならない。他方、分配された物理的メモリを備えた装置は、通常、分配されたアドレス空間を直接支援し、それによって、ソフトウェアはメモリアクセスによってコミュニケーションを無条件に達成するが、これを実行するためにいく種類かのロノキング機構が必要とされる。

メンセージバノシング装置は、一般に、すべてのプロセッサに対してスカラブルである。しかしながら、分配された物理的メモリを有する装置の分配されたバスおよびメモリは、接続され得るプロセッサの数を制限するという欠点を有している。しかしながら、メノセージパノシング装置は、メモリに対しかなりの程度まで実行を効果的に分配するため、ハードウェアのスカラー性は、ソフトウェアがコミュニケーションを最小限度にとどめ得る範囲内においてのみ有用である。

本発明によるコンピュータシステムは、そのメモリが分配され、そして装置がすべてのメモリに対してスカラ的である限りにおいて、メノセージバノシング装置に類似している。本発明によるコンピュータシステムは、また、データコヒーレンスプロトコルが、プロセッサをハスを介して接続することによって、分配されたアドレス空間を支援する、分配された物理的メモリを備えた装置と同様である。メツセージパッシング装置および分配された物理的メモリを備えた装置の双方に対する本発明の新規性は、データ項目の位置がそのアドレスから完全に独立となっているという点にある。

本発明および本発明によるシステムに関する付加的な情報が、ディピッド　Ｈ，Ｄ、ワレン（Ｄａｖｉｄ　Ｈ，Ｄ、　Ｗａｒｒｅｎ）およびシーク　ハリディ（Ｓｅｉｆ　Ｈａｒｉｄｉ）による論文、［データ分散装置−−−−スカラー的に分配された仮想マルチプロセッサ（Ｄａｔａ　Ｄｉｆｆｕｓｉｏｎ　Ｍａｃｈｉｎｅ　−八５ｃａｌａｂｌｅ　５ｈａｒｅｄ　Ｖｉｒｔｕａｌ　Ｍｕｌｔｉｐｒｏｃｅｓｓｏｒ）ｊ　、第５世代コンピユークシステムに関する国際会議（ｔｈｅ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｆｉｆｔｈ　Ｇｅｎｅｒａｔｉｏｎ　Ｃｏｍｐｕｔｅｒ　Ｓｙｓｔｅｍｓ）　１９８８年、　ＩＣ０Ｔ、並びに平行アーキテクチャおよび言語のコーロノバ会議議事録（ｉｎ　ｔｈｅ　Ｐｒｏｃｅｅｄｉｎｇｓ　　ｏｆ　　ｔｈｅ　　Ｐａｒａｌｌｅｌ　　八ｒｃｈｉｔｅｃｔｕｒｅ　　ａｎｄ　　Ｌａｎｇｕａｇｅ　　Ｅｕｒｏ垂■ @　Ｃｏｎ　ｆ　ｅｒｅｎｃｅ）、ＰＡＲＬＥ　、　１９８９年６月における、エリツク　ハガーシュテン（Ｅｒｉｋ　Ｈａｇｅｒｓｔｅｎ）およびシーク　ハリディ（Ｓｅｉｆ　Ｈａｒｉｄｉ）による［データ分散装置のキャッシュコヒーレンスプロトコル（Ｔｈｅ　Ｃａｃｈｅ　Ｃｏｈｅｒｅｎｃｅ　Ｐｒｏｔｏｃｏｌ　ｏｆ　ｔｈｅ　Ｄａｔａ　Ｄｉｆｆｕｓｉｏｎ　Ｍａｃｈｉｎｅ）Ｊに記載されている。

光」Ｉと【絢上述の目的を達成するために、本発明は、分配された物理的メモリおよび分配されたアドレス空間を有し、階層中における１個または数個のバスによって結合されたメモリと一対となったブロモ、すを含む、スカラ・マルチプロセッサ・アーキテクチャ−を有するコンピュータソステムを提供する。本発明の従来技術から峻別される特徴は、プロセッサーメモリの各対がコントローラに接続され、メモリ内の各データ項目に関する状態情報をもつ状態メモリ　（ディレクトリ−）を含んでいるという点である。コントローラは、デンタ項目の状態の関数としてのプロトコルに応じて、データ項目の読み取りおよび書き込みを行う。このとき、データ項目の位置は、そのアドレスから独立している。

本発明の従来技術から峻別される他の特徴、並びに新規な点を、請求の範囲の第２項以下に記載した。

側里夏■亀久設所次に、添付図面を参照して、本発明を説明する。

第１図は、装置の構成を概略的に示した図、第２図は、バスの能力を拡張するための構成を示した図、第３図は、ディレクトリ−に接続された異なるバッファを概略的に示した図、第４図は、データ項目の種々の読み取り状態を示した図である。

本光皿ユ丑　しい　　　の量　な！１本発明によるコンピュータの構成は、以下の考察に基づいている。

ソフトウェアが関係している限り、データ項目が通常とどまっていなければならない区別されたホーム位置は存在しない、理想的には、各データの物理的位置は、ソフトウェアに対して完全に透明でなければならず、そしてその位置はハードウェアによって自動的に制御されなければならない。

ソフトウェアの観点からは、すべてのデータは、物理的位置とは独立なグローバルなアドレス空間を通じて一様にアクセスされる。

したがって、装置は、通常の、分配されたメモリを有するマルチプロセッサ（例えば、シークエンドおよびエンコアー）と同様のソフトウェアビューを呈している。すなわち、それは、広範囲にわたる言語並びに応用をカバーすることができる、完全な多目的装置である。しかし、かかる装置は、データが、典型的に一旦書き込まれた後にのみ読み出される宣言型言語を実行するのに特に適していると考えられる。装置は、データがいかにしてアドレス空間内に割り当てられるべきかという点に関し、いかなる制限も加えないことによって、散在する配列をサポートする。

ハードウェアの観点からは、装置は、バスの階層およびコントローラ（ディレクトリ−）によって接続されたプロセッサーメモリの任意の数の対からなる。階層内の４対２のレベルで無数のプロセッサをサポートするのに十分である。メモリは、全くフレキシブルに物理的メモリ内にマツピングされる。このマツピングは、グイナミソクであり、データを最も必要とされる位置に移動させることを可能とする。

個々のデータ項目に関する多数のコピーが存在するが、これらのコピーは、すべて同一のアドレスを共有する。アドレスに対応する特別のホーム位置は存在しない。その代わり、データは、データアクセス時間を短縮し、かつデータ量を最少とするように、装置にわたって自動的に分配される。その結果、最大のメモリ要求がプロセッサ自体のメモリによって満たされる。遠隔アクセスを特徴とする請求は、わずか（４ＸＮ−２）回（ここで、Ｎは階層中のレベルの数である）のハス処理によって満たされ、一般には、装置の限定された部分にわたるデータ量を制限するのみである。

装置の構成第１図には、装置の構成を示した。

装置は階層的である。階層の最上部では、プロセッサは、それぞれ巨大なローカルメモリを有しており、通常のキャッシュを通じてアクセスされ得る。メモリは、グローバルなアドレス空間のいくつかの部分のイメージを含んでいる。メモリは、（非常に巨大な）キャッシュと同様に、結合的に構成されるが、これは、装置内の主メモリ単独の構成であることが強調されなければならない。メモリは、メモリコントローラを介してローカルバスに接続される。ローカルバスは、一群のプロセッサ、キャッシュ、メモリおよびコントローラに接続される。ローカルバスは、それ自体コントローラを介してより上層のハス等の、階層のより上層に接続される。より上層にあるコントローラは、それぞれ、状態情報のディレクトリ−にアクセスし、ディレクトリ−コントローラと呼ばれる。ディレクトリ−は、結合的に構成され、より下層にあるメモリ内のデータ項目のすべてに対する状態ビットのためのスペースを有している。

ディレクトリ−の機能は、上層のバスとその下層の下部システムとの間の制御を行うことである。その機能および作用は、単一バスの分配されたメモリを有するプロセッサにおける、スヌーピングキャノシュの一般化である。これによって、メモリ要求を、可能な限り局所的に取扱うことが可能となる。しかし要求が局所的に取扱われ得ない場合には、その要求を上層または下層に転送し、それが満たされるようにする必要がある。ディレクトリ−は、アドレス空間のどの部分が、その下層の下部システムのメモリにマツピングされたのか、そしてまた、このアドレスのどれかの部分が、下部システムの外側のメモリにマツピングされたかどうかをディレクトリに知らせる状態メモリを含んでいる。こうして、すべてのアドレスに対して、コントローラは、「このデータは自分の下部システム中にあるかどうか９」および「このデータは他の下部システム中の別の場所にあるのかどうか？」という質問に答えることができる。

ディレクトリ−は、メモリ要求が、もしく１）それがローカルデータの読み取りであれば、あるいはもしく２）それが分配されないデー夕の書き込みであれば、下部システムの外側に転送されることがないように作用する。特に、もしプロセッサが、そのローカルメモリ中において、データを読み取り、あるいは分配されないデータを書き込もうとすれば、外部コミュニケーションは要求されない。通常、くれはメモリ要求の大部分をカバーする。

もし下部システムが、非局所的なデータを読み取ろうとすれば、データのコピーの検索が必要とされる限り、読み取り要求が伝えられ、そしてデータが必要な位置に割り当てられたものとしてマークされる。もし下部システムが分配されたデータを書き込もうとすれば、要求がデータの他のすべてのコピーを消去するように転送され、そして、データは分配されないものとしてマークされる。

以下の点に注意されなければならない。プロセッサそれ自体が生し別のプロセッサによって要求されなければ、どこが他の位置にコピーされることはない。プロセッサは、その時間の大部分をこのようなデータをアクセスするために費やす傾向がある。プロセッサは、もしデータが最初に遠隔的であれば、遠隔メモリがらのデータアクセスを繰り返し行うことを要しない。その代わり、遠隔的なデータは、それが有効に使用される位置に移動する傾向があり、い（っがの固定されたホーム位置に拘束されることはない。これらの点で、本発明は、例えばシークエンド、エンコアー、およびＢＢＮバタフライ（ＢＢＮ　Ｂｕｔ、ｔｅｒｆｌｙ）のような通常の分配された（物理的）メモリを有する装置とは異なっている。これらの新規な特徴によって、分配されたリソースに対するコンテンションおよび平均データアクセス時間の双方が大きく減少する。

たいていのメモリアクセスは局所的となる傾向があるにもがかわらず、より上層のハスが障害となる。しかしながら、第２図に示したように、より上層のバスおよびディレクトリ−をコピーして、アドレス空間の異なる部分を取り扱うようにし、さらに、まず最初奇数アドレスと偶数アドレスとに分割した後、アドレスの連続的によデータアクセスプロトコル以下において、データアクセスプロトコルをより詳細に説明する。

ここで、次のように仮定する。

最低レベル（レベル１）において、システムは多数のプロセッサからなる。各プロセッサは、コントローラによってメモリおよびバスに接続される。より高いレベル（ｉ＞１）において、各下部システムに対するディレクトリ−が存在する。

各バス上には１つの要求を選択するためのアービターが存在する。レベルｌにおけるメモリ内の各データは、次の状態のうちの１つに存在する。すなわち、排他的状態（Ｅ）：データ項目の単一のコピーが存在する状態。

分配状態（Ｓ）：データ項目の他のコピーが存在する状態。

無効状Ｊｌｉ（１）：データ項目が無効である（実際に存在しない）状態。

読み取り状ａ（Ｒ）：データ項目が読み取りのために要求される状態。

待機状Ｍ（Ｗ）：データ項目が排他的となるなるまで待機している状態。

状ＭＲおよびＷは過渡的なものであり、単一ハスマルチプロセソサ内に現れることはない。

各メモリは、Ｎ方向に結合し、データ項目およびそれらの関係する状態ビットを記憶する。ディレクトリ−は、その下の階層のメモリー内の全項目数に等しい大きさでもってＮ方向に結合している。

ディレクトリ−は、状態ビットを記憶するためのスペースを有しているのみである。

ディレクトリ−内の各データは、次の状態のうちのいずれか１つの状態にある。

すなわち、排他的状態（Ｅ）：下部システムの外側にいかなるコピーも存在しない状態。

分配状態（Ｓ）：下部システムの外側にコピーが存在する状態。

無効状Ｊ１３ｉ（１）：データ項目が無効である（下部システム内には実際に存在しない）状態。

読み取り状態（Ｒ）：データ項目が読み取りのために必要とされる状態。

待機状［（Ｗ）：データ項目が排他的となるまで待機している状態。

応答状ｆｉ（Ａ）：データ項目が（実際に）読み取り要求に応答する状態。

除去状［（Ｌ）：データ項目は下部システム中に含まれるが、まさにそれから取り除かれようとしている状態。

次のデータ交換ストラテジーが仮定される。これについては後に詳細に説明する。もしデータが存在すれば、まず最初無効位置が選択される。さもなければ、直前に使用された分配されたデータが交換のために選択される。もしこのようなデータが存在しなければ、直前に使用された排他的な項目が選択される。後者の２つの場合のいずれかにおいて、交換アルゴリズムが呼び出される。

通常のように、読み取りヒツトが存在するときはいっでも、データ項目の値がフェッチされ、いかなる特別な作用も呼び出されることはない。排他的データ項目の書き取りヒツトもまた、別のいかなる作用をも導くことはない。

ハスの構成ハスは、プロセッサまたは下部システムからなるクライアントに下方に接続されている。仲裁機能が、すべてのクライアントおよび上層のディレクトリ−の間を仲裁し、次の送信１（ｓｅｎｄｅｒ）を選択する。送信源は、以下に掲げたバスフェイズの１つまたはいくつかからなる次のトランザクションを初期化する。

初期化フェイズ：Ｉ・ランザクジョンを初期化し、トランザクションコードおよびデータ項目のアドレスを転送するフェイズ。

データフェイズ：データ項目のデータ部分を転送するフェイズ。

カウンタフェイズ；トランザクションのカウンタ値を転送するフエイズウ応答フェイズ：すべての情報クライアントが１イエス」の応答をする（クライアントのいずれもが「イエス」の応答をしなかったか、あるいはクライアントの少なくとも１つが「イエス」の応答をしたかどうかを指示する）フェイズ。

選択フェイズ：イエスの応答をしたクライアントのうちの１つが選択されるフェイズ。

バスの処理ハスは、本発明により次のトランザクションを転送する。連続する待機ハスフェイズがカウントされる。しかしながら、より小さいフェイズにおいて状態変化を行い得るクライアントは、予めトランザクションを中断する。典型的には、応答および選択フェイズが排除される。

「、リード：　（初期化、応答、選択フェイズ）、システム内のなにかがデータ項目の読み取りを要求するトランザクション。

ｅ、イレース＝　（初期化フェイズ）、このデータ項目のすべてのコピーを放棄するトランザクション。

ｉ、インジェクト：　（初期化、データ、カウンタ、応答、選択フェイス）、データ項目の最後のコピーのみを下部システム内の新たな場所に見つけ出すトランザクション。

０、アウト：（初期化、データ、応答フェイズ）、データ項目が下部システムから出る途中にあるトランザクション。そのデータ項目が同一のデータ項目の別のコピーと出会ったとき（あるいは別のコピーから追跡されるとき）、これは終了する。

Ｘ、イクスクルノンブ：　（初期化フヱイズ）、システム中にこのデータ項目のただ１つだけのコピーが存在する。

１、リーブ：　（初期化、応答、選択フェイズ）、この要素が下部システムから取り除かれようとしているトランザクション。

Ｕ、アンプ：　（初期化、データフェイズ）、このデータ項目が、Ｌ状態においてディレクトリ−に出会わなくなるまでアップし続けるトランザクション。

バッファおよびそれらの機能第３図は、２つのバスおよびそれらのバッファの構成を示したものである。メモリは、トランザクションを開始する前に、バスを割り当てられなければならないので、その上層のハスに対する出力バッファを備えている必要がある。ディレクトリ−は、それに接続されたハスの１つに優先順位を与えなければならない。その上層のハスからの入カドランザクジョンは、最高の優先順位を有する。

ディレクトリ−は、上層のバスへ向かう出力バッファ、並びに下層のハスへ向かう出力および入力バッファを有している。

出力バッファは、バス上に送られるトランザクションを記憶し、入力バッファは、既にバス上に送られたトランザクションと、応答フェイズ中のすべての値とを記憶する。

バス上のい（つかのトランザクションが、その下側に接続された出カバソファ内の他のトランザクションを消去し得る。それに続くトランザクションが、またこのような消去を行い得る。

イレーストランザクションは、同一のデータ項目に対する他のすべてのトランザクションを消去する。

アウトトランザクションは、同一のデータ項目に対する他のアウトトランザクションを消去する。

プロトコルテーブル以下のテーブルは、メモリおよびディレクトリ−コントローラに対するプロトコルをまとめたものである。このテーブルは、コントローラが、トランザクションが受は取られたとき、いかにしてデータ項目の状態に依存する種々のトランザクションに応答するかを記述したものである。縦の欄にはそれぞれの状態を、横の欄にはそれぞれのトランザクションを掲げた。作用は次のようなフォーマントを有している。すなわち、ガード−新たな状態：送り出されるトランザクションのインデックスであり、ここで、インデックスＡは上層バスと呼ばれ、インデックスＢは下層バスと呼ばれる。空白部分は作用が存在しないことを表している。残りの記号は、テーブルに従って説明される。

記号およびその説明０　この状況は不可能である。

エ　プロセッサは処理を続行可能である。

に対応するセント中に空きスペースが存在しない場合には、「交換」によって置き換えられる。

２：「交換」は、最初に、交換されるべきデータ項目を選択する。

ａ　：　−ｙｅｓクライアントはイエスと応答する。

ａ＝Ｑ→　いずれのクライアントもイエスと応答しない。

ａ≧１→　少なくとも１つのクライアントがイエスと応答する。

５ｅｌｅｃｔｅｄ−クライアントはイエスと応答する。他のいかなるクライアントもトランザクションを終えていない。クライアントが選択フェイズ内に選択されている。

Ｘ：ｙ＋１　　　トランザクションｙが送り出される前に、カウウンタが増加する。

ｃｉｒ　＞１１ｍ１ｔ−カウンタがその限界値を超える。

上述のスキームの特徴 ■、排他的となる（書き込み操作を実行するための）データに対して、イレースメノセージが、項目が排他的となるディレクトリ−まで転送される。ディレクトリ−は、ロックとして機能し、イレース肯定応答を下方へ送る。こうして、最悪の場合、４つのレベルからなる装置内におけるデータは、８回のパストランザクション、４回の上層へのイレーストランザクションおよび４回の下層へのイレース肯定応答の後に排他的となる。

２、いかなる読み取り要求も永久に停止しないことが示され得る。

さらに、説明したシステムは、項目メソセージが下層へ転送されるとき、ブロードキャスト読み取り作用を有し、また読み取り要求が上層へ転送されるとき、結合読み取り作用を有する。結合読み取り作用は、ＩＢＭ　　ＲＰ３　　マルチプロセッサによって与えられるものと同様である。例えば、もし１個のプロセッサがデータを有し、さらに残りの（６４に−１）個のプロセッサが、同時に同一のデータを要求すれば、すべてのプロセッサが、わずか１６のバストランザクソヨンにおいてデータを得る。

３、　　（ＲＰ３のような）多くの巨大なマルチプロセッサにおいて生しる熱点現象が、本発明によるシステムにおいては生じない。

４、上述のプロトコルが、すべてのトラフィックが、トランザクションに関係する下部システム内に、他の下部システムを乱すことなく局所化される。

複雑な状況の例第４図は、発生し得る複雑な状況の典型例を示したものである。

２つのプロセッサＰ１、Ｐ２が読み取りＲｘを要求し、かつ２つの下部システムがデータ項目Ｘを有している。プロセッサのうちの一方、すなわちプロセッサＰ１が書き込み操作Ｗｘに対する排他的なアクセスを要求する。ＡおよびＢの間のコントローラＡＢは、コントローラＡＣおよびコントローラＢＥによって発せられた読み取り要求を満たすように決定され、ハスＢ上に読み取り要求を発する。

ここで２つの可能性が存在する。すなわち、（１）Ｐｉが肯定応答された消去要求を得る可能性と、（２）Ｐｉ中のデータ項目が、多の下部システムが排他的なアクセスに対して選択されるために、消去され得るという可能性である。最初の場合には、次のようなことが起こる。すなわち、コントローラＡＢはＷに状態を変化させる。そして消去要求ＥｘがハスＡ上に現れ、左側最上部の下部システムにおけるＸに対する消去操作が開始される。その後、消去肯定応答ｘｘがバスＡ上に現れて下層に転送され、コントローラＡＣの状態をＷからＥに変化させる。

そして、コントローラＡＣはその読み取り要求ｒｘを繰り返し、ｘｘ）ランザクジョンを追跡すると共に、コントローラＡＢおよびＢＤの状態をＡに変化させる。さらに、コントローラＢＤは再びＲｘを発し、ただ１つのＲｘのみがバスＤ上に現れる（結合効果）。その後、プロセッサＰ１はその書き込みを実行し、そして読み取り要求がブロードキャストモードにおいて用いられる。第２の場合は、プロトコルを調べることによって容易にわかるように、直接的である。正味の作用は、左側最上部の下部システムがその読み取りを実行し、データがＰｌに対してブロードキャストとなり、また他のプロセッサが読み取りを要求し、最後に２１が排他的なアクセスを獲得するということである。

交換ストラテジー書き込みミスおよび読み取りミスが生じたとき、新たなデータ項目が、実際にメモリに対して読み取られる。新たなデータ項目が記憶されるセ・２トが満たされた場合には、古いデータ項目がメモリがら取り除かれるように選択され、その場所は、新たなデータ項目に対して左側に位置する。この一連の処理は、交換と呼ばれる。古いデータ項目の状態に応して、２つのタイプの交換トランザクション、すなわちアウトおよびインジェクトトランザクションが存在する。

選択された古いデータ項目が状態Ｓにあれば、交換はアウトトランザクションを用いてなされる。アウトトランザクションは、おそらくどこかに分配された古いデータ項目を直接除去することよりも複雑である。まず最初、このデータ項目の他のコピーも同様に除去されてしまわないことが確認されなければならない。問題のメモリは、アウトトランザクションをバス上に送り出すことによって、交換を初期化する。Ｓ、Ｒ，Ｗ、Ｌあるいはへのうちいずれがの状態にある現在のデータ項目を有するハス上の他のメモリは、イエスの応答をする。なぜなら、それらの下部システムは、そのデータ項目のコピーを現在有しているか、あるいはコピーを有することかが既に約束されているからである。少なくとも１つのメモリがイエスの応答をした場合には、データ項目の他のコピーが見つけ出され、そしてトランザクションは終了する。すべてのメモリがイエスの応答をしない場合には、ディレクトリ−は、次に上層にあるバス上にアウトトランザクションを送り、データ項目の状態を■に変化させる。

なぜならば、下部システム内には、データ項目のコピーが存在しないと考えられるからである。

状態Ｓにおけるデータ項目は、実際、分配され得るがあるいは排他的であり得るかのいずれかである。単に、これは、システム中に２つのコピーが存在していたが、第２のコピーが前述のように交換されたということが理由である。たとえいくっがの不必要な作業が次の書き込み操作においてなされるとしても、状況は完全に安全である。しかしながら、ディレクトリ−は、次の最後のコピーが除去されるときを検出する。これは、下層のハス上のアウトトランザクションが、正確に１つのイエスの応答を得たときに生し、そしてディレクトリ−は、状態已におけるデータ項目を有する。そのとき、ディレクトリ−は、ハス上に（イクスクルソシブ）トランザクションを送り出し、残りのデータ項目の状態をＥに変化させ得る。これが作業を節約させるかどうかは明らかではなく、その機構はテーブルにおいて説明しなかった。

データ項目の２つの最後のコピーが同時に交換され、同一のバス上に送り出されるべく、分離されたバッファ内にアウトトランザクションの形態でとどまっている場合には、以下のような状況が生じる。ハス上の最初のアウトトランザクションが、出カバソファ内に残っているアウトトランザクションを消去する。そして、それがデータ項目の最後のコピーとなる。下層からイエスの応答のアウトトランザクションを受けたディレクトリ−は、何が発生したのかを判断し、そのアウトトランザクションをインジェクトトランザクションに変換する（以下を参照）。

交換されるべきデータ項目が状ＢＥにある場合には、これは、インジェクトトランザクションあるいは新たなホームを検索する退避を生じる。メモリが退避のためのスペースを有している場合には、それはイエスの応答をし、もし選択されるならば、それは、状態Ｅにおけるデータ項目に対する新たなホームを提供する。

メモリが、退避のためのスペースををしていない場合には、インジェクトトランザクションが次の上層のバス上において繰り返され、ここで、ディレクトリ−はそれに機会を与える。しかしながら、ディレクトリ−は、いかなるものも保証すことはできない。なぜなら、インジェクトトランザクションは、処理を先へ進めることを拒否することができ、また処理をもとへ戻すように強いられるからである。インジェクトトランザクションに随伴するカウンタは、インジェクトトランザクションが何回処理を実行したのかをカウントする。カウンタが限界値を超えたとき、インジェクトトランザクションは停止され、第２のメモリに送り出される。データ項目を直接第２のメモリに送るメモリは、限界値に初期化されたそのカウンタを有するインジェクトトランザクションと共に、それを行う。

状［Ａにある下部システムが、読み取り要求に応答することが保証されている。

要求は、データ項目の存在するメモリに到達する前に、既に交換され、そしてインジェクトまたはアウトトランザクションが上層へ転送される途中にある。これは順調に実行される。

なぜなら、これらのトランザクションは、データ項目のデータ値を運ぶからである。こうして、応答することが保証されたディレクトリ−は、上層のハス上に送り出されるデータトランザクションを生成することによってそれを実行し得る。

しかしながら、上層へ転送される途中のトランザクションがインジェクトタイプのものである場合には、警告がなされなければならない。下層のハス上のクライアントがインジェクトトランザクションに機会を与えること（少なくとも１つのクライアントがイエスの応答をすること）が保証されている場合には、クライアントは、それが１つのデータ項目のコピーのみを有しているものと認める。そのとき、ディレクトリ−は、その代わりに、下層へ新たな読み取りトランザクションを送る。

ディレクトリ−によって初期化された交換データ項目は下層のメモリ内にスペースを見出すから、データ項目が、簡単にディレクトリ−内にスペースを見出すことが確信されないかもしれない。下層から読み取りトランザクションを受ける、状ｆｉｌにあるデータ項目を有するディレクトリ−は、データ項目の状態をＲに変化させ、そして上層のバスのその読み取りを繰り返さなければならない。データ項目の新たな状態に対して意図されたセントが満たされた場合には、古いデータ項目は、新たなデータ項目に対するスペースをつくるために、下部システムがら選択され、かつ除去されねばならない。これは、システム内において下層に送られるリーブトランザクションによって達成される。各バス上において、１つのクライアントが、下層へのり−ブトランザクションを継続し、データ項目の状態をＬに変化させるために選択され、一方、データ項目を含む他のクライアントは、イレーストランザクションを下層−・送り、データ項目の状態を１に変化させる。最低レベルにおいて、選択されたメモリが、Ｌ状態におけるすべてのディレクトリ−を通じて上層へ転送されるアンプトランザクションに応答する。

アップトランザクションが最終的に、交換を初期化したディレクトリ−に到達したとき、インジェクトトランザクションあるいはアウトトランザクションのいずれかが生しる。

交換を開始したデータ項目は、交換が終了したとき、そのリードトランザクションを繰り返さなければならない。これは、交換が第１のリーブトタンザクジョンによって初期化された後すぐに、このデータ項目に対するイレーストランザクションを下層へ送ることによって達成される。このトランザクションが最終的にデータ項目の読み取り要求するメモリに達したとき、メモリは、再び上層へのリードトランザクションを繰り返す。うまくいけば、このとき、ディレクトリ−内にスペースが見出される。

上述のことに関するハードウェアの最適化は、リーブトランザクションが終了する間に、交換されるべきデータ項目を記憶し得るディレクトリ−内における小さいメモリである。これは、遅延なしに継続するリードトランザクションに対する場所をすくに準備する。

リードトランザクションに対するイレーストランザクションが、このメモリが満たされた場合にのみ下層へ送り出される。このメモリは非常に小さいが、十分にその機能を発揮する。

ロッキングいくつかの操作が、プロセッサの特性に依存して自動的に実行される必要がある。例えば、プロセッサが、テスト−セット命令を与えるような場合には、リードモディファイトランザクションがメモリコントローラによって実行される。リードモディファイトランザクンヨンは、データ項目が書き込まれる前に、データ項目の元の値がプロセッサにフィードハックされることを除いては、ライトトランザクションと同様に動作する。このようなリードモディファイトランザクションの遂行は、装置の一般的な動作と共に、以下に示すように、いかなるトラフィックを生じさせることもなく、スピン−ロッキングを局所的に実行する。すなわち、Ｌｏｃｋ（Ｘ）：５ｔａｒｔ：　Ｆｌａｇ　：＝　Ｔｅ５ｔ　ｌｉ　Ｓｅｔ　Ｘ；　χｗｈｅｒｅ　Ｆｌａｇ　ｉｓ　ａ　ｒｅｇｉｓｔｅｒ。

Ｉｆ　　Ｆｌａｇ　　＝　　Ｏｔｈｅｎ　　Ｅｘｉｔ；Ｌｏｏｐ：　　ＨＸ　＝　１　　ｔｈｅｎ　ｇｏｔｏ　Ｌｏｏｐ　ｅｌｓｅ　ｇｏｔｏ　５ｔａｒｔ；　 χ１ｏｃａｌ　　ｓｐｉｎｎｉｎｇ　　ｕｎｔｉｌ　　Ｘ　　ｉｓ　　ｍｏｄｉｆｉｅｄＥｘｉｔ：Ｕｎｌｏｃｋ（Ｘ）：Ｘ　　：＝　　０；こうして、本発明によれば、データコヒーレンスが保持されている間に、データ項目を自動的に移動させ、コピーしまたは交換することが可能となり、さらにシステムからいがなるデータも失われることがない。本発明は、本発明の説明のための例示としての以上の記述における特別の用語に限定されるものではない。本発明は、本発明の請求の範囲によってのみ限定されるものである。

ＦＩＧ、　　２Ｆｌｃｒ、３ＦＩＧ、　　４補正書の翻訳文提出書く特許法第１８４条の８）平成２年１２月２７日省。

Claims

【特許請求の範囲】

（１）分配された物理的メモリおよび分配されたアドレス空間を有するマルチプロッセサ・アーキテクチャーを有し、データ項目の状態のみならずデータ値をも記憶するプロセッサーメモリ対を含むコンピュータシステムにおいて、前記システムの唯一のデータメモリが、結合的な特性を有し、前記各データ項目の物理的位置をそのアドレスから独立にするプロセッサ項目メモリからなっているものであることを特徴とするコンピュータシステム。
（２）プロセッサーメモリ対を備えたツリー状の階層的バス構造を有していることを特徴とする第１請求項に記載のコンピュータシステム。
（３）前記階層的なツリ一の分岐点において、それより下層のツリー部分のすべてのデータ項目に関する状態情報を記憶するディレクトリーを有していることを特徴とする第２請求項に記載のコンピュータシステム。
（４）前記データ項目のコピーを必要な場所に移動させ、メモリの一貫性を維持するプロトコルを有していることを特徴とする第１請求項〜第３請求項のいずれか１項に記載のコンピュータシステム。
（５）前記データ項目を、その状態に応じて、読み取り、書き込み等するためのトランザクションを調整するプロトコルを有していることを特徴とする第１請求項〜第４請求項のいずれか１項に記載のコンピュータシステム。
（６）データ項目メモリおよび状態メモリの両方からなるメモリが、結合的に構成されていることを特徴とする第１請求項〜第５請求項のいずれか１項に記載のコンピュータシステム。
（７）前記各データ項目が、排他的状態（Ｅ）：前記データ項目の唯一のコピーが存在する状態、、分配状態（Ｓ）：前記各データ項目の別のコピーが存在する状態、、無効状態（Ｉ）：前記データ項目が無効な状態（前記各データ項項目が実際には下部システム中に存在しない状態）、読み取り状態（Ｒ）：前記データ項目が読み取りのために要求される状態、待機状態（Ｗ）：前記データ項目が排他的となるまで待機している状態のうちいずれか１つの状態に存在し得ることを特徴とする第１請求項〜第６請求項のいずれか１項に記載のコンピュータシステム。
（８）前記ディレクトリー内の前記データ項目が、排他的状態（Ｅ）：前記下部システムの外部にいかなるコピーも存在しない状態、分配状態（Ｓ）：前記下部システムの外部に他のコピーが存在する状態、無効状態（Ｉ）：前記データ項目が無効な状態（データ項目が実際には前記下部システム中に存在しない）状態、読み取り状態（Ｒ）：前記データ項目が読み取りのために要求される状態、待機状態（Ｗ）：前記データ項目が排他的となるまで待機している状態、応答状態（Ａ）：読み取り要求が、実際にようみとり要求に応答する状態、除去状態（Ｌ）：前記データ項目が前記下部システム中に存在するが、それから除去される途中にある状態のうちのいずれか１つの状態に存在し得ることを特徴とする第７請求項に記載のコンピュータシステム。
（９）前記データ項目の種々の状態トランザクションを実行すべく、前記バス上に、ｒ，リード：前記システム内において前記データ項目の読み取りを要求するトランザクション、ｅ，イレース：問題となる前記データ項目のすべてのコピーを消去するトランザクション、ｄ，データ：分配された（分配されることが保証された｝前記データ項目を送り出すトランザクション、ｉ，インジェクト：前記データ項目の最後のコピーを交換するトランザクション、ｏ，アウト：前記データ項目が前記下部システムから除去される途中にあるトランザクション、ｘ，イクスクルッシブ：前記データ項目が前記システム中における最後のコピーとなるトランザクション、ｌ．リーブ：前記データ項目が前記下部システムから除去されつつあるトランザクション、ｕ，アップ：前記データ項目が、前記Ｌ状態にないディレクトリーに出会うまで上層へ転送されるトランザクションを送り出し得ることを特徴とする第８請求項に記載のコンピュータシステム。
（１０）各データ項目メモリが上層のバスに対する出力バッファを有しており、各ディレクトリーが、下層のバスに対する入力および出力バッファと、上層のバスに対する出力バッファを有すると共に、上層のバスからのトランザクションの入力に対し優先順位を与えることを特徴とする第１請求項〜第９請求項のいずれか１項に記載のコンピュータシステム。