JPH10240621A

JPH10240621A - マルチプロセッサ・コンピュータ・システム

Info

Publication number: JPH10240621A
Application number: JP9301323A
Authority: JP
Inventors: Gene F Young; エフ．ヤングズィーン; Roy M Stevens; エム．スチーブンスロイ; Larry C James; シー．ジェイムズラリー
Original assignee: NCR International Inc
Current assignee: NCR International Inc
Priority date: 1996-12-09
Filing date: 1997-10-31
Publication date: 1998-09-11
Also published as: US5848434A; EP0851356A2; EP0851356A3

Abstract

(57)【要約】（修正有）【課題】ディレクトリ・ベースのキャッシュ・コヒー
レンシーを採用しているシステムにおいて、メモリの利
用を改善する方法を提供する。【解決手段】コンピュータ・システムは共有されてい
るシステム・メモリ１０５Ａ，Ｂの中に存在するデータ
のラインと、データ・キャッシュ・メモリ１２１Ａ，Ｂ
の中に存在しているデータのラインとの間の無矛盾性を
維持するために、ディレクトリ・ベースのキャッシュ・
コヒーレンシー・スキームをもち、共有されているシス
テム・メモリのライン・ステータス情報をキャッシュす
るために共有されているシステム・メモリに関連するス
テート・キャッシュ・メモリをもっている。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、複数のデータ・キ
ャッシュ・メモリおよび１つの共有メモリを備えるマル
チプロセッサ・コンピュータ・システムに関し、特に、
キャッシュのコヒーレンシーを維持するためにディレク
トリ・ベースのプロトコルを採用しているマルチプロセ
ッサ・コンピュータ・システムに関する。

【０００２】

【従来の技術、及び、発明が解決しようとする課題】過
去数年間にコンピュータ・システムの性能、スピード、
集積密度、容量においてほとんど指数関数的な増加が見
られた。これらの改善の結果、コンピュータ・システム
に対するコストの減少と共に、コンピュータ・システム
の利用がさらに拡大され、より高度な、そしてリソース
集中型のコンピュータ・アプリケーションが開発され
た。最近の歴史的な傾向によると、アプリケーションに
必要なメモリの容量は年当たり２倍で増加している。コ
ンピュータ・システムおよびその部品のコストは近年に
おいて着実に低下してきたが、システムのメイン・メモ
リおよびキャッシュ・メモリにおいて利用される高速の
ＲＡＭメモリは、依然としてコンピュータ・システムの
内部での最もコストの高いコンポーネントの１つとなっ
ている。

【０００３】データ、アプリケーション・ソフトウェア
およびオペレーティング・システムのソフトウェアの一
時記憶のために主として使われるシステム・メモリおよ
びキャッシュ・メモリも、パリティ・ビット、キャッシ
ュのコヒーレンシー状態の情報、および誤り検出および
／または訂正用シンドローム・ビットを記憶するため
に、より高度なマルチプロセッサ・システムの内部で利
用されつつある。これらのマルチプロセッサ・システム
の追加のメモリ要求、および先進のオペレーティング・
システムおよびアプリケーションのより高いメモリ需要
の結果、高速のＲＡＭに対する需要およびコストが増大
した。

【０００４】高速のシステムおよびキャッシュ・メモリ
を利用するため、およびシステムおよびキャッシュの必
要メモリ量を減らすための、より効率的な方法が望まれ
ている。

【０００５】したがって、本発明の目的は、ディレクト
リ・ベースのキャッシュ・コヒーレンシーを採用してい
るコンピュータ・システムの内部において、メモリの利
用を改善するための新しい、そして有用な方法を提供す
ることである。

【０００６】

【課題を解決するための手段】本発明によると、マルチ
プロセッサ・コンピュータ・システムは、複数のプロセ
ッサ、およびメモリ・システムを含み、メモリ・システ
ムは、複数のデータ・キャッシュ・メモリと、前記複数
のプロセッサによって共有される１つのシステム・メモ
リとを含み、少なくとも１つのデータ・キャッシュ・メ
モリが前記プロセッサの各１つに関連し、前記メモリ・
システムは前記共有メモリのラインに対するライン・ス
テータス情報を格納するための手段を備えていて、前記
ライン・ステータス情報を格納するための手段は、前記
共有のシステム・メモリに関連し、メモリのライン・ス
テータス情報をキャッシュするための手段が備えられて
いるステート・キャッシュ・メモリを含むことを特徴と
する。

【０００７】好ましい実施形態においては、ステート・
キャッシュ・メモリのサイズは任意の一時点において、
システム・メモリのすべてが利用（キャッシュ）される
ことはほとんどないという認識において、システム・メ
モリの中に含まれているラインの１６分の１程度のライ
ンのためのステート情報を記憶するためのサイズとなっ
ている。上記のステート・キャッシュは直接マップ型の
キャッシュであって、メモリの関連するラインに対する
ステート情報は、タグ・フィールドと一緒にステート・
キャッシュの内部に格納され、タグ・フィールドは関連
するメモリ・ラインのアドレスの最初の４ビットであ
り、残りのアドレス・ビットによってステート・キャッ
シュの内部でインデックスされる。

【０００８】また、本発明によると、共有されるシステ
ム・メモリの中に存在しているデータのラインと、マル
チプロセッサ・コンピュータ・システムのデータ・キャ
ッシュ・メモリの中のデータ・ラインとの間の無矛盾性
を維持する方法が提供される。そのマルチプロセッサ・
コンピュータ・システムは複数のプロセッサを含み、各
プロセッサはシステム・メモリを共有し、その中で少な
くとも１つのデータ・キャッシュ・メモリが前記プロセ
ッサのそれぞれ１つと関係付けられていて、その方法は
共有されるシステム・メモリのラインに対するライン・
ステータス情報を格納するステップを含み、その方法は
共有されるシステム・メモリのラインに対するライン・
ステータス情報をステータス・キャッシュ・メモリの中
にキャッシュするステップを含むことを特徴とする。

【０００９】添付の図面を参照しながら、本発明を以下
に説明するが、これは単なる例示としてのものにすぎな
い。

【００１０】

【発明の実施の形態】ＮＣＲＣｏｒｐｏｒａｔｉｏｎ
は、ＮＣＲが開発したシステム技法を利用している先進
のマルチプロセッサ・アーキテクチャを開発した。ま
た、このアーキテクチャは標準のハイ・ボリューム（Ｓ
ＨＶ）コンポーネント、例えば、ＩｎｔｅｌのＰｅｎｔ
ｉｕｍＰｒｏプロセッサ、ＰＣＩＩ／Ｏチップセッ
ト、ｐｅｎｔｉｕｍＰｒｏチップセット、Ｐｅｎｔｉ
ｕｍＰｒｏバス・トポロジー（Ｐ６）、および標準の
メモリ・モジュール（ＳＩＭＭおよびＤＩＭＭ）などを
有利に使用している。ＮＣＲのシステム技法を標準のＳ
ＨＶコンポーネントと慎重に統合化することによって、
ＮＣＲは世界クラスのスケーラビリティおよび機能の内
容を提供することができ、しかもＳＨＶに資本を投資
し、そしてフル・カスタムの開発に関連する欠点を無く
している。このアーキテクチャの１つの実装が図１に示
されている。

【００１１】ここで図１を参照すると、参照の文字Ａお
よびＢによって識別される２つの４プロセッサ・ビルデ
ィング・ブロックまたはコンプレックスから形成され
る、８プロセッサのＳＭＰシステムが示されている。各
コンプレックスは同一の構造およびコンポーネントを含
み、それぞれコンプレックス「Ａ」および「Ｂ」に対し
てＡまたはＢのいずれかで終わる参照番号によって識別
されている。

【００１２】コンプレックスＡの中に含まれているシス
テムの部分が高バンド幅のスプリット・トランザクショ
ン・プロセッサ・バス１０３Ａに接続されている、４台
までのプロセッサ１０１Ａを含む図が示されている。各
プロセッサ３０１Ａにはキャッシュ・メモリ３２１Ａが
関連付けられている。システム・メモリ１０５Ａは先進
のデュアルポート型のメモリ・コントローラ１０７Ａを
通じてバス１０３Ａに接続されている。プロセッサ・バ
ス１０３Ａはメモリ・コントローラ１０７Ａの第１ポー
トに接続されている。第２のメモリ・コントローラのポ
ートは高バンド幅のＩ／Ｏバス１１５（このバスはここ
では拡張バスとも呼ばれる）に接続され、そのバスは複
数のＰＣＩＩ／Ｏインターフェース１０９Ａに対する
接続を提供する。先進のメモリ・コントローラ１０７Ａ
を例外として、これらのコンポーネントのすべては現在
商品として入手できるコンポーネントである。例えば、
プロセッサ１０１ＡはＩｎｔｅｌのＰｅｎｔｉｕｍＰ
ｒｏプロセッサであり、バス１０３Ａおよび１１５はＰ
ｅｎｔｉｕｍＰｒｏ（Ｐ６）のバス・トポロジーであ
ってよい。

【００１３】先進のメモリ・コントローラ（ＡＭＣ）１
０７Ａはプロセッサ・バス１０３ＡとＩ／Ｏバス１５と
の間のすべての方向におけるすべての制御およびデータ
の流れを管理する。Ｉ／Ｏバスは以下に説明されるよう
に、Ｐ６からＰＣＩＩ／Ｏへのブリッジおよび、別の
プロセッサ・バスへ接続するための別のＡＭＣＡＳＩ
Ｃを含んでいてもよい。また、ＡＭＣ１０７Ａはコヒ
ーレントＤＲＡＭメモリ・アレイに対するアクセスも制
御する。現在実装されているようなＡＭＣは、制御およ
びデータのスライスＡＳＩＣペアから構成されている。

【００１４】前に説明されたように、コンプレックスＢ
はコンプレックスＡと構造が同じである。この２つのコ
ンプレックスは拡張バス１１５によって相互に接続され
ており、共有されるＩ／Ｏデバイス、キャッシュ・メモ
リおよび他のコンポーネント以外に、プロセッサ１０１
Ａと１０１Ｂとの間、およびシステム・メモリ１０５Ａ
と１０５Ｂとの間の通信を可能にしている。

【００１５】各コンプレックスの内部では、プロセッサ
はプロセッサ・バス上でバス・スヌーピング・プロトコ
ルを使う。バス・スヌーピングはプロセッサとメモリと
の間でのデータの転送を追跡管理する方法である。少数
の密結合プロセッサによるこのシステムに対する性能上
の利点が存在する。１つのプロセッサが同じバス上で別
のプロセッサのデータ・キャッシュの中にあるデータを
必要とする場合、そのデータは両方のプロセッサによっ
て共有することができる。そうでない場合、そのデータ
はメイン・メモリ１０５Ａまたは１０５Ｂから呼び出さ
れなければならず、それはシステム・バスのトラヒック
を必要とする、より時間の掛かる動作である。この方法
はシステム・バスの競合を減らすことによってシステム
の性能を高める。

【００１６】図１に示されているＮＣＲのアーキテクチ
ャは次の特徴を含む。

【００１７】・業界のＳＨＶアーキテクチャに投資し、
そして通常よく使われるチップ（ＩＯＢなど）をサポー
トしている。

【００１８】・デュアル・ポート型のメモリ・コントロ
ーラ１０７Ａおよび１０７Ｂによってデュアル・バスの
接続および利用ができ、各バスは６４ビットのバンド幅
で６６ＭＨｚで動作し、５３３ＭＢ／秒のデータ転送レ
ートを維持することができる。

【００１９】・デュアル・バスの方式はバスのローディ
ングを減らし、ＩＯＢ間のトラヒックとは無関係に動作
することができる、プロセッサからメモリへのプライベ
ートな径路を備えることによって、より大きなスケーラ
ビリティを提供する。

【００２０】・追加のプロセッサおよびＩ／Ｏデバイス
を拡張バス１１５に接続することができる。

【００２１】上記のシステムは高可用性トランザクショ
ン処理（ＨｉｇｈＡｖａｉｌａｂｉｌｉｔｙＴｒａ
ｎｓａｃｔｉｏｎＰｒｏｃｅｓｓｉｎｇ）（ＨＡＴ
Ｐ）およびスケーラブル・データ・ウェアハウス（Ｓｃ
ａｌｅａｂｌｅＤａｔａＷａｒｅｈｏｕｓｅ）（Ｓ
ＤＷ）サーバのニーズを満たすことができ、一方、コン
ピュータ業界のＳＨＶの動きに沿っている。

【００２２】キャッシュ・メモリを使ってシステムのス
ピードを改善し、プロセッサが従来型のＤＲＡＭメイン
・メモリの遅いスピードで動作するのではなく、キャッ
シュ・メモリの速い速度で効果的に動作できることによ
って提供される利点はよく知られている。キャッシュ・
メモリはメイン・メモリよりもその関連するプロセッサ
に対して情報をより速く提供する。したがって、読出し
サイクルが改善される。キャッシュ・メモリはそれに関
連するプロセッサから情報を高いレートで受信し、キャ
ッシュがプロセッサとは独立に、必要に応じてメイン・
メモリへ書き込んでいる間にプロセッサが処理を継続す
ることができるようにするので、書込みサイクルも改善
される。しかし、マルチプロセッサ・システムの内部
で、１２１Ａおよび１２１Ｂなどのキャッシュ・メモリ
を使うことは追加の利点を提供する。メモリまたはシス
テムのバスをより効果的に利用することによって、シス
テムの性能が改善される。メモリ・バス上のトラヒック
が減少する。各データの読出しおよび書込みの動作はメ
イン・メモリを関与させる必要がなく、データは適宜バ
ースト・サイクルを実行することによって、データ・キ
ャッシュとメイン・メモリとの間で交換することができ
る。

【００２３】データ・キャッシュ・メモリを採用してい
るシステム、そして特に複数のデータ・キャッシュ・メ
モリおよび複数レベルのデータ・キャッシュ・メモリを
採用しているシステムにおいて、指定されたメモリ・ロ
ケーションからのデータが、メイン・メモリの中および
１つまたはそれ以上のデータ・キャッシュ・メモリの中
に同時に存在する可能性がある。しかし、メイン・メモ
リの中およびデータ・キャッシュ・メモリの中のデータ
は常に同じであるとは限らない。これはマイクロプロセ
ッサがメイン・メモリおよび他のデータ・キャッシュ・
メモリを更新せずに、自分に関連付けられているデータ
・キャッシュ・メモリの中に含まれているデータを更新
する時、あるいは、別のバス・マスタがマイクロプロセ
ッサのデータ・キャッシュ・メモリの中にあるコピーを
更新せずに、メイン・メモリの中のデータを変更する時
に発生する可能性がある。

【００２４】プロセッサ、システム・メモリ・モジュー
ル１０５Ａおよび１０５Ｂおよび各種のデータ・キャッ
シュ・メモリの間のデータの転送を追跡するために、シ
ステムはメモリとキャッシュベースのコヒーレンシーの
ハイブリッドを利用する。システム・メモリとキャッシ
ング・エージェント、すなわち、システム・バス・プロ
セッサとの間のコヒーレンシーは中央集中型／分散型の
ディレクトリ・ベースのキャッシュの組合せのコヒーレ
ンシーによって維持される。

【００２５】ディレクトリ・ベースのキャッシュ・コヒ
ーレンシーの方式は、プロセッサとメモリとの間のデー
タ転送を追跡管理する１つの方法である。データのコヒ
ーレンシーに対するこの方式によって、メモリのステー
タス・テーブルが、どのプロセッサがそれぞれに関連す
るデータ・キャッシュ・メモリの中のメモリのどのライ
ンを所有しているかを識別する。１つのプロセッサがデ
ータを要求した時、ステータス・テーブルはそのデータ
の最近のコピーが存在しているメイン・メモリまたはプ
ロセッサのデータ・キャッシュの内部のロケーションを
識別する。この方法の利点は、プロセッサがスヌーピン
グによってアクセスできないキャッシュ内に存在してい
るデータにアクセスする必要が生じるまで、追加の作業
が実行される必要がないことである。ディレクトリ・ベ
ースのキャッシュ・コヒーレンシーは、システム・バス
上に密結合型のプロセッサが多数存在している場合に最
も有効である。

【００２６】図１に示されているシステムにおいて採用
されている中央集中型／分散型ディレクトリ・ベースの
キャッシュ・コヒーレンシー方式は、２つのディレクト
リ・エレメントから構成されている。ディレクトリ・ス
キームの内部の中央のエレメントはシステム・メモリの
中にあり、そしてメモリ・ライン・ステータス・テーブ
ル（ＭｅｍｏｒｙＬｉｎｅＳｔａｔｕｓＴａｂｌ
ｅ）（ＭＬＳＴ）と呼ばれる。システム・メモリの内部
の各メモリ・ラインは、ＭＬＳＴの中に１つの対応して
いるエントリを含む。この対応しているエントリは１つ
のラインがキャッシュされているかどうか、そしてその
場合に、それが１つのプロセッサ（またはバス）によっ
て独占的に所有されているか、あるいは複数のプロセッ
サ（またはバス）に渡って共有されているかどうかを示
している情報を含む。ディレクトリ・スキームおよびＭ
ＬＳＴはシステム・バスによって、あるいはプロセッサ
によってメモリ・ラインの所有権を識別するためにセッ
トアップすることができる。「ビット・パー・バス（ｂ
ｉｔ‐ｐｅｒ‐ｂｕｓ）」のＭＬＳＴはバス・ベースで
の所有権を識別し、一方、粒度のより細かい「ビット・
パー・プロセッサ（ｂｉｔ‐ｐｅｒ‐ｐｒｏｃｅｓｓｏ
ｒ）」のＭＬＳＴは、プロセッサ・ベースでの所有権を
識別する。その違いはメモリの設計に特有のものであ
り、したがって、システム・バス上の他のデバイスに対
してはトランスペアレントであることに留意されたい。

【００２７】図２は１ギガバイト（２³⁰バイト）のシス
テム・メモリを示している。このメモリは３２バイトの
ブロック・サイズ、すなわちライン・サイズの２²⁵個の
ブロックまたはラインを備えている。また、各ラインは
ステート情報を記憶するための追加のいくつかのビット
を含んでいる。ステート情報の記憶に対して専用に使わ
れているメモリのセクションがＭＬＳＴを形成する。

【００２８】分散型のディレクトリ・エレメントは各プ
ロセッサのデータ・キャッシュのディレクトリの内部に
ローカルに存在している。特定のプロセッサに関連する
そのエレメントは、プロセッサ・ライン・ステータス・
テーブル（ＰｒｏｃｅｓｓｏｒＬｉｎｅＳｔａｔｕ
ｓＴａｂｌｅ）（ＰＬＳＴ）と呼ばれている。各キャ
ッシュ・ラインはＰＬＳＴの中に対応しているエントリ
を有する。ローカル・プロセッサの視点からは、このエ
ントリはメイン・メモリのラインの有効なコピーをライ
ンが含んでいるかどうか、そしてその場合に、そのライ
ンへの変更がシステムの他の部分に対してブロードキャ
ストされなければならないかどうかを示している情報を
含む。システムの視点からは、各プロセッサのＰＬＳＴ
はメモリ・インターベンション・コマンド（Ｍｅｍｏｒ
ｙＩｎｔｅｒｖｅｎｔｉｏｎＣｏｍｍａｎｄｓ）（Ｍ
ＩＣ）として知られている特殊なシステム・バス・サイ
クルに対するスレーブである。これらのサイクルは特定
のラインのローカル・ステートについてＰＬＳＴに問い
合わせ、そして／またはＰＬＳＴがそのローカル・ステ
ートを変更するように知らせる。各データ・キャッシュ
・メモリおよびその関連するＰＬＳＴの構造は、図２に
示されているシステム・メモリの構造に類似している。

【００２９】ＰＬＳＴはデータ・キャッシュの中のモデ
ィファイド（変更）‐エクスクルーシブ（排他的）‐シ
ェアード（共有）‐インバリッド（無効）（Ｍｏｄｉｆ
ｉｅｄ‐Ｅｘｃｌｕｓｉｖｅ‐Ｓｈａｒｅｄ‐Ｉｎｖａ
ｌｉｄ）（ＭＥＳＩ）ステート・ビットから構成されて
いる。このＭＥＳＩキャッシュのコヒーレンシー・プロ
トコルはメイン・メモリとデータ・キャッシュ・メモリ
との間のデータの無矛盾性を維持するためのハードウェ
ア実装型のプロトコルである。ＭＥＳＩハードウェア・
キャッシュ・コヒーレンシー・プロトコルの代表的な実
装では、次のことができるキャッシュ・コントローラの
利用が必要である。

【００３０】１．メモリ・バス上のすべてのキャッシュ
に対して同じライン・サイズを使用する。

【００３１】２．メモリ・バス上のすべてのアクティビ
ティを観察する。

【００３２】３．キャッシュ・メモリのすべてのライン
に対するステート情報を維持する。

【００３３】４．キャッシュ・メモリおよびメイン・メ
モリの内部でのデータの無矛盾性を維持するための適当
なアクションを取る。

【００３４】ＭＥＳＩは１つのラインが有効であるかど
うか、それが他のキャッシュの中で利用できるかどう
か、およびそれが変更されているかどうかを定義する４
つのステートを表す。キャッシュの中のデータの各ライ
ンはそのデータのラインがＭＯＤＩＦＩＥＤ（変更され
ている）、ＥＸＣＬＵＳＩＶＥ（排他的）、ＳＨＡＲＥ
Ｄ（共有されている）、またはＩＮＶＡＬＩＤ（無効）
であるかどうかを示す１つの関連するフィールドを含
む。プロセッサ・ライン・ステータス・テーブルの内部
では、各キャッシュ・ラインは次の４つの可能なＭＥＳ
Ｉステートの１つにマークされている。

【００３５】・ＭＯＤＩＦＩＥＤ（変更されている）
（ＰＭ）‐このステートはこのキャッシュの中だけで排
他的に利用され、そして変更されているデータのライン
を示す。変更されているデータはプロセッサから変更が
加えられたものである。変更されたラインは共有メモリ
・バスを獲得せずにキャッシュの中でローカルに更新す
ることができる。システムの中のいくつかの他のデバイ
スがこのラインを必要とする場合、それを所有している
キャッシュがそのデータを供給しなければならない。

【００３６】・ＥＸＣＬＵＳＩＶＥ（排他的）（ＰＥ）
‐ このステートはこのキャッシュの中だけで排他的に
利用されるデータのラインを示し、このラインは変更さ
れていないこと（メイン・メモリも有効なコピーを持っ
ている）、およびローカル・プロセッサがシステムに通
知せずにこのラインを自由に変更できることを示す。排
他的なデータはそれに何らかの方法で変更が加えられる
まで他のプロセッサからは使うことができない。排他的
なラインに対して書き込むことによって、それは変更さ
れた状態に変化し、他のキャッシュに知らせることなし
に変更を行うことができ、したがって、メモリ・バスの
アクティビティは発生されない。ＰＥのステートにある
ラインはＭＬＳＴの中でＭＯとマークされる。これにつ
いては以下に説明される。

【００３７】・ＳＨＡＲＥＤ（共有されている）（Ｐ
Ｓ）‐ このステートは他のキャッシュと共有されてい
る可能性があるデータのライン（同じラインが１つまた
はそれ以上のキャッシュの中に存在する可能性がある）
を示す。共有されているデータは複数のプロセッサの間
で共有されている可能性があり、複数のキャッシュの中
に格納されている可能性がある。共有されているライン
はメイン・メモリにアクセスせずに、ローカルのプロセ
ッサによって読むことができる。ローカルに共有されて
いるとマークされているマークに対してプロセッサが書
き込む時、それはその書込みをシステムに対してもブロ
ードキャストしなければならない。

【００３８】・ＩＮＶＡＬＩＤ（無効）（ＰＩ）‐ こ
のステートはデータのラインがそのキャッシュの中で利
用できないことを示す。特定のキャッシュの中の無効デ
ータは、診断または同様な使用以外には後で処理のため
に使われることはない。このラインに対する読出しは
「ミス」（利用できない）となる。このラインに対する
書込みによって、メモリ・バスに対するライトスルー・
サイクルが発生する。すべてのキャッシュ・ラインはシ
ステムの初期化時にこの（ＰＩ）ステートへリセットさ
れる。

【００３９】ＭＥＳＩプロトコルに従って、プロセッサ
がメモリの１つのラインを所有している時、それが変更
されているか、あるいは排他的であるかどうかにかかわ
らず、メイン・メモリの中のメモリのその所有されてい
るラインに対して書込みを行うと、そのプロセッサのデ
ータ・キャッシュ・メモリの中に含まれている同じデー
タが即時に更新されることになる。

【００４０】メモリ・ライン・ステータス・テーブルは
次の３つの可能なステート、すなわち、ＮＯＴＣＡＣ
ＨＥＤ（キャッシュされていない）（ＭＮＣ）、ＳＨＡ
ＲＥＤ（共有されている）（ＭＳ）、およびＯＷＮＥＤ
（所有されている）（ＭＯ）のうちの１つにメモリ・ラ
インをマークする。文字ＭはこれらのステートをＰＬＳ
Ｔのステートと区別するものであり、ＰＬＳＴのステー
トは文字Ｐを使うことによって識別されている。その他
に、バスまたはプロセッサ・ベースのいずれかにおける
共有または所有を示しているバス／またはプロセッサの
ステート・ビットがある。

【００４１】・ＮＯＴＣＡＣＨＥＤ（キャッシュされ
ていない）（ＭＮＣ）：どのキャッシュの中にもそのラ
インのコピーがないことを示す。すべてのメモリ・ライ
ンはシステムの初期化時にその（ＭＮＣ）ステートにリ
セットされなければならない。

【００４２】・ＳＨＡＲＥＤＳＴＡＴＥ（共有されて
いる状態）（ＭＳ）：１つまたはそれ以上のキャッシュ
がそのラインのコピーを持っている可能性があることを
示す。

【００４３】・ＯＷＮＥＤＳＴＡＴＥ（所有されてい
る状態）（ＭＯ）：１つのキャッシュ、そしてただ１つ
のキャッシュだけにそのラインのコピーがあることを示
し、そしてメモリの中のデータはそれにマッチしない可
能性がある（メモリのデータは古くなっていると推測さ
れる）ことを示す。

【００４４】共有型および所有型のステートの定義の中
で「可能性がある」という言葉が使われていることに留
意されたい。ＭＬＳＴの中に特定のメモリ・ラインに関
する最新の情報がない、いくつかの状況がある。例え
ば、ＭＬＳＴは１つのラインが２つの特定のプロセッサ
によって共有されているとしてマークする可能性があ
る。というのは、ＭＬＳＴはその２つのプロセッサの両
方がそれを読むのを見たからである。しかし、両方のプ
ロセッサはＭＬＳＴに通知せずに新しいデータのための
余地を作るためにそのラインを捨てた（「サイレント置
換」と呼ばれる）時以来、長い時間が経っている可能性
がある。ＭＬＳＴは或るマスタがＭＩＣを強制すること
によってそのラインに対してアクセスする時、常に特定
のラインの最新の状態に自然に「キャッチアップ」す
る。この例においては、このラインに対する第３のプロ
セッサに対する書込みによって（現在は不必要である）
ＭＩＣが他のキャッシュされたコピーの無効化が起動さ
れ、そしてそのＭＬＳＴが最新の状態に更新される。し
かし、ＭＬＳＴは常にキャッシュ・ラインのステートに
ついて保守的な観点を保持する。すなわち、１つのプロ
セッサによって所有されるか、あるいは共有されている
ラインは常にそのＭＬＳＴの中で正しくマークされてい
る。そのＭＬＳＴの中の「古い」情報は最早どのプロセ
ッサのデータ・キャッシュの中にも存在しない「所有さ
れている」、あるいは「共有されている」としてマーク
されているラインの形式を取る。

【００４５】上記のように、ＭＬＳＴはバスまたはプロ
セッサのベースのいずれかにおいて共有または所有を示
している、追加のバスおよび／またはプロセッサのステ
ートを含む。

【００４６】ビット・パー・バス（Ｂｉｔ‐ｐｅｒＢ
ｕｓ）プロトコルはライン当たりに３つのメモリ・ステ
ート・ビットを使ってそのラインの現在の状態を示す。
１つのビットは共有されているか、あるいは所有されて
いるかを示し、そして他の２つのビットはどのバス（Ａ
またはＢ）または複数のバス（ＡおよびＢ）がその共有
された、あるいは所有されたラインを持っているかを示
す。バスの所有権はそのバス上のプロセッサの１つがそ
のラインを所有していることを示す。ラインは１つのプ
ロセッサだけによって所有され、したがって、１つのバ
スだけによって所有される可能性があることに留意され
たい。共有されているラインは各バス上の１つまたはそ
れ以上のプロセッサによって共有されている可能性があ
る。

【００４７】ビット・パー・プロセッサ（Ｂｉｔ‐ｐｅｒ‐Ｐｒｏｃ
ｅｓｓｏｒ）プロトコルの場合、そのラインの現在状態
を示すためにライン当たりのｎ＋１個のビット（ｎはプ
ロセッサの数に等しい）から構成されるＭＬＳＴがあ
る。１つのビットはそのラインが共有されている（Ｍ
Ｓ）か、または所有されている（ＭＯ）かのいずれかで
あることを示し、そして他のｎ個のビットはどのプロセ
ッサまたは複数のプロセッサがそのラインをキャッシュ
しているかを示す。特定のプロセッサにＰｉの番号が付
けられる。ここでｉ＝０〜ｎ−１である。ｉが偶数であ
るすべてのＰｉはバスＡ上にあり、ｉが奇数であるすべ
てのＰｉがバスＢ上にある。プロセッサの所有権はどの
プロセッサ（１つだけ）がそのラインを所有しているか
を示す。共有されているラインはいずれか、あるいは両
方のバス上で１つまたはそれ以上のプロセッサによって
共有される可能性がある。

【００４８】上記の説明から直接マップ型のコヒーレンシー・システ
ム、例えば、説明されている中央集中型／分散型のディ
レクトリ・ベースのキャッシュ・コヒーレンシー・スキ
ームはステート情報を記憶するためにかなりな量の追加
のメモリを必要とすることは明らかである。このステー
トの記憶のオーバヘッドは利用できるメモリの全容量の
うちの固定のパーセンテージである。例えば、３２バイ
トのブロック・サイズまたはライン・サイズの１ギガバ
イトのシステム・メモリを備えているシステムにおい
て、各ラインは４つの４ビット・ステート情報を含んで
おり、１６メガバイトのＭＬＳＴがそのステート情報の
記憶のために必要となる。

【００４９】ステート・ビットを格納するために必要な
メモリの量は、そのシステムの内部で採用されているデ
ィレクトリ・ベースのキャッシュ・コヒーレンシー・ス
キーム（例えば、従来型のディレクトリ・ベースのキャ
ッシュ・コヒーレンシー・スキーム）、あるいはビット
・パー・バスまたはビット・パー・プロセッサＭＬＳＴ
プロトコルのいずれかを利用している中央集中型／分散
型のディレクトリ・ベースのキャッシュ・メモリ・コヒ
ーレンシー・スキーム）によって変わる。また、ステー
トの記憶のオーバヘッドは、ビット・パー・プロセッサ
のＭＬＳＴプロトコルを利用している中央集中型／分散
型のディレクトリ・ベースのキャッシュ・コヒーレンシ
ー・スキームを採用しているシステムの中のプロセッサ
の数に直接に関係している。

【００５０】＜メモリ・ステート・キャッシュ＞本発明
はディレクトリ・ベースのコヒーレンシーによるメモリ
・システムに対するステート情報をキャッシュするため
の方法を提供する。ここで説明される方法は、システム
・メモリのすべてが一度に利用されることはほとんどな
いという認識に基づいて作られている。したがって、ス
テート記憶に必要なメモリの量はアクティブなメモリ・
ラインに対するステートのエントリをキャッシュするこ
とによって、すなわち、ＭＬＳＴをキャッシュすること
によって減らすことができる。

【００５１】その方法はメモリ・データを記憶するため
の代表的なデータ・キャッシュと同様な、ステート情報
に対するキャッシュを提供する。この構造が図３および
４に示されている。

【００５２】図３は、例えば、各ラインのサイズが３２
バイトであって、３３，５５４，４３２（２²⁵）百万メ
モリ・ブロックまたはラインに分割されている１ギガバ
イト（２²⁹バイト）のサイズのシステム・メモリ１０５
Ａを示している。メモリ１０５Ａの中に格納されている
データは２９ビットのアドレス３０１を提示することに
よってアクセスされる。「Ｘ」ビットとして識別されて
いるアドレスの中の２５個の上位ビットは、メモリ・ブ
ロックまたはラインの番号を識別する。「Ｗ」ビットと
して識別されている次の４個のアドレス・ビットは、そ
のメモリ・ブロックの内部のワードをポイントとし、一
方、下位のアドレス・ビット「Ｂ」は１つのワードの内
部のバイトを識別する。

【００５３】ステート情報の記憶のために提供されてい
るステート・キャッシュ・メモリ３０３Ａは、「キャッ
シュ・タグＲＡＭ」３０５Ａおよび「キャッシュ・デー
タＲＡＭ」３０７Ａとして識別されている２つのセクシ
ョンを含む。ステート・キャッシュ・メモリ３０３Ａの
中の各ライン・エントリは、キャッシュ・データＲＡＭ
に対してセーブされたステート情報およびキャッシュ・
タグＲＡＭの中に格納される４ビットのタグを含む。

【００５４】キャッシュ・メモリ３０３Ａはメモリ・ア
ドレス・ビットの合計数のサブセットによってインデッ
クスされる。アドレス・ビットの残りの部分、すなわ
ち、タグ・ビットは、記憶装置の中の各エントリに対す
る内容の一部である。インデックス・ビットはステート
・キャッシュの中のエントリの個数を定義し、そしてタ
グ・ビットはステート・キャッシュの中の同じエントリ
に対して競合する可能性のあるメモリ・ラインの数を決
定する。インデックス・ビットとタグ・ビットを加えた
ものは、サポートできるメモリ・ラインの合計数を定義
する。本質的に、ステート記憶における削減はタグ・ビ
ットの数によって定義される。例えば、タグ・ビットの
数が４であった場合、この概念に対するステート記憶の
必要量は従来のアーキテクチャの場合の１６分の１であ
る。

【００５５】ステート・キャッシュ３０３Ａの構造およ
び動作についてのさらに詳細の情報が図４に示されてい
る。ステート・キャッシュの中のエントリは、メイン・
メモリ１０５Ａをアクセスするために使われるのと同じ
アドレス３０１を提示することによってアクセスされ
る。そのアドレスの中の４個の上位ビットはタグ・ビッ
トとして識別され、次の２１個のアドレス・ビットはイ
ンデックス・ビットとして識別される。これらの２５個
のアドレス・ビットは図４の中でＸビットとして識別さ
れているのと同じビットであり、それらはメイン・メモ
リ１０５Ａの内部のメモリ・ブロックを識別するために
使われる。

【００５６】ステート・キャッシュの読出し動作時に、
チェックされるべきキャッシュの特定のエントリまたは
ラインを指定するために、アドレスのインデックス・フ
ィールドが使われる。次に、アドレスのタグ・ビットが
その選択されたキャッシュ・ラインのタグと比較され
る。マッチがあった場合、キャッシュ・ヒットが発生
し、その選択されたキャッシュ・ラインに関連するステ
ート・ビットが検索される。

【００５７】ステート・キャッシュ・メモリの中にステ
ート情報を格納するために、アドレスのインデックス・
フィールドが使われ、タグおよびステート情報の記憶の
ためのキャッシュの特定のエントリまたはラインが識別
される。最初の４つのアドレス・ビットはキャッシュ・
タグＲＡＭにセーブされ、一方、そのアドレスに関連す
るステート情報はキャッシュ・データＲＡＭにセーブさ
れる。オプションとして、誤り検出および／または誤り
シンドローム・ビットまたはパリティ・ビットをステー
ト・キャッシュ・メモリの中に含めることができる。

【００５８】上記のようなステート・キャッシュは直接
マップ型のキャッシュである。しかし、ステート・キャ
ッシュは連想型、セクター型、あるいはデータ・キャッ
シュとしての直接マップ型でもよいことに留意された
い。

【００５９】このメモリ・システムの動作は次の通りで
ある。読出しまたは書込みの動作がシステム・メモリに
ついて要求されると、ステート・キャッシュはそのプロ
トコルによって変わる必要なコヒーレンシー・サイクル
を決定するためにアクセスされる。ステート・キャッシ
ュの中のタグ情報がメモリ・アドレスの対応しているビ
ットとマッチした場合、その対応しているコヒーレンシ
ー・サイクルが実行されて、そのステートが更新され
る。タグ・マッチがなかった場合、デフォールトステー
トに対するコヒーレンシー動作が実行され（おそらく何
も実行されない）、そして新しいライン・アドレスおよ
びステートがそのステート・キャッシュに対して割り当
てられる。おそらく、既存のエントリがその新しいライ
ンによって置き換えられる。コヒーレンシー動作は置き
換えられたライン・ステートをデフォールトのステート
にするために必要となる可能性がある。これらの置換コ
ヒーレンシー動作はステートの記憶の容量を減らすため
の性能コストであるが、それは上記のように、程良いス
テート・キャッシュ・サイズおよび代表的な作業負荷に
対しては無視できる程度である。

【００６０】ステートのキャッシュ・メモリを使うこと
によって提供されるメモリ空間の節約が次の例で示され
る。以前に記述された１ギガバイトのメモリと４ビット
のコヒーレンシー・ステート・フィールドをメモリの１
ライン当たりに必要とするシステムを考える。メモリの
基本コヒーレンシー・ブロックまたはラインは３２バイ
トとである。メモリのすべてに対する４ビットのステー
トを格納するためには、１６ＭＢのステート・メモリ
（３２００万ライン×４ビット／ライン）が必要とな
る。ステート・メモリの中の各エントリは４ビットのタ
グを含み、ステート・メモリはライン当たりの情報の８
ビットを含むことになり、これは従来の量の倍である。
しかし、４ビットのタグのためにラインの数は１６分の
１だけで済む。したがって、必要なステート・メモリの
全容量は２ＭＢであり、それは従来の量の８分の１に過
ぎない。そのトレードオフはステート・キャッシュ・エ
ントリの置換が発生する可能性があることであるが、そ
れは比較的少数である。この例においては、ステート・
キャッシュは６４ＭＢのデータ・キャッシュ（２００万
個のエントリ、それぞれが３２バイトのラインを表して
いる）と等価である。

【００６１】図３および図４はメモリ・システムの必要
量を減らすための、システム・メモリ１０５Ａについて
のステート・キャッシュ・メモリ３０３Ａの利用を示し
ている。システム・メモリ１０５Ｂに関連する第２のス
テート・キャッシュ・メモリ３０３Ｂも提供されてい
る。

【００６２】上記のプロセスから発生する１つの欠点
は、キャッシュされたステート・エントリの置換から結
果として生じる追加のコヒーレンシー・アクションが通
常の転送を妨害することである。しかし、この妨害はほ
とんどの作業負荷に対して程良いサイズのステート・キ
ャッシュの場合は無視できる程度である。また、キャッ
シュされないメモリ・ラインのデフォールト・ステート
は共有型であると仮定され、ほとんどのメモリ操作は所
有されているラインに対してだけはなく、共有されてい
るラインに対するものが普通であるので、置換によって
何らかのアクションが生じることはおそらくほとんどな
い。追加のコヒーレンシー・アクションが発生するの
は、無効化のトランザクションを生じることになる所有
権に対するキャッシュされないラインがアクセスされた
場合だけとなる。

【００６３】以上のように、専用のキャッシュ・メモリ
の中にキャッシュ・ステート情報を維持することによっ
てメモリ・システムの必要量を節約する、マルチプロセ
ッサ・コンピュータ・システムのための新しく、そして
有用なディレクトリ・ベースのキャッシュ・コヒーレン
シー・メモリ・システムが、本発明によって提供される
ことが分かる。

【図面の簡単な説明】

【図１】現在入手できるコンポーネントを採用している
８プロセッサのスーパー・ハイ・ボリューム（ＳＨＶ）
シメントリック・マルチプロセッシング（ＳＭＰ）コン
ピュータ・システムの単純なブロック図表現である。

【図２】図１の中のシステム・メモリのブロック図表現
であり、メモリのステート情報を格納するための、従来
の技法による、メモリ・ブロックの記憶のための第１の
メモリ領域と、ステート情報の記憶のための第２のメモ
リ領域を示す。

【図３】本発明によるシステム・メモリ１０５Ａおよび
ステート情報を記憶するためのキャッシュ・メモリのブ
ロック図表現である。

【図４】図３のステート・キャッシュ・メモリ３０３の
ブロック図表現であり、ステート・キャッシュ３０３の
構造および動作に関して、さらに詳細を提供する。

───────────────────────────────────────────────────── フロントページの続き (72)発明者ロイエム．スチーブンスアメリカ合衆国サウスカロライナ州 29072 レクシントンペインレーン 168 (72)発明者ラリーシー．ジェイムズアメリカ合衆国サウスカロライナ州 29172 ウェストコロンビアシティーヴュードライブ 237

Claims

【特許請求の範囲】

【請求項１】複数のプロセッサ（１０１Ａ、１０１
Ｂ）と、メモリ・システムとを含むマルチプロセッサ・
コンピュータ・システムであって、前記メモリ・システ
ムが、複数のデータ・キャッシュ・メモリ（１２１Ａ、１２１
Ｂ）と、前記複数のプロセッサ（１０１Ａ、１０１Ｂ）によって
共有されるシステム・メモリ（１０５Ａ、１０５Ｂ）と
を含み、少なくとも１つの前記データ・キャッシュ・メモリが前
記プロセッサのそれぞれ１つと関連し、前記メモリ・システムは共有されているメモリのライン
に対するライン・ステータス情報を格納するための手段
を有し、前記ライン・ステータス情報を格納するための手段が、前記共有されているシステム・メモリ（１０５Ａ）に関
連し、前記メモリのライン・ステータス情報をキャッシ
ュするための手段が装備されているステート・キャッシ
ュ・メモリ（３０３Ａ、３０３Ｂ）を含むことを特徴と
するマルチプロセッサ・コンピュータ・システム。
【請求項２】マルチプロセッサ・コンピュータ・シス
テムの中の、共有されているシステム・メモリの中に存
在しているデータのラインと、データ・キャッシュ・メ
モリの中のデータのラインとの間の無矛盾性を維持する
方法であって、前記マルチプロセッサ・コンピュータ・
システムが複数のプロセッサ（１０１Ａ、１０１Ｂ）を
含み、前記複数のプロセッサがシステム・メモリ（１０
５Ａ、１０５Ｂ）を共有し、そして少なくとも１つのデ
ータ・キャッシュ・メモリ（１２１Ａ、１２１Ｂ）が前
記プロセッサ（１０１Ａ、１０１Ｂ）のそれぞれ１つに
関連し、前記方法が共有されているシステム・メモリ（１０５
Ａ、１０５Ｂ）のラインに対するライン・ステータス情
報を格納するステップを含み、前記方法が共有されているシステム・メモリのラインに
対するライン・ステータス情報をステート・キャッシュ
・メモリ（３０３Ａ、３０３Ｂ）の中にキャッシュする
ことを特徴とする方法。