JP2002519785A

JP2002519785A - マルチプロセッサコンピュータシステムのための分割ディレクトリベースのキャッシュコヒーレンシ技術

Info

Publication number: JP2002519785A
Application number: JP2000557196A
Authority: JP
Inventors: バートニ，ジョナサン・エル; バートン，リー・エイ
Original assignee: エス・アール・シィ・コンピューターズ・インコーポレイテッド
Priority date: 1998-06-30
Filing date: 1999-04-13
Publication date: 2002-07-02
Also published as: CA2335307A1; WO2000000891A1; EP1092188A4; EP1092188A1; US6295598B1

Abstract

(57)【要約】分割ディレクトリベースのキャッシュコヒーレンシ技術はメモリ内の２次ディレクトリを利用してマルチプロセッサコンピュータシステム（６０）内の２つ以上のプロセッサ（１６）キャッシュがメモリ（５０）の同じラインを含むときを表示するために用いられるビットマスクを実現し、これによりコヒーレンシ動作を実行するために必要とされる検索およびコヒーレンシシステムをサポートするために必要なメモリ（５０）の全体的なサイズを低減する。この技術は、メモリのライン（１０４）へのコヒーレンシタグ（１０６）の付加を含み、これにより各プロセッサ（１６）キャッシュ（１０２）を読出してメモリのライン（１０４）がキャッシュ（１０２）に含まれるかどうかを見る必要なしにその状態を追跡することが可能になる。この態様では、比較的短いキャッシュコヒーレンシコマンドのみが、主データ経路バスによる代わりに（セブリングリングを含み得る）通信ネットワーク（６８）により伝送される必要があり、このため主バスがキャッシュコヒーレンシデータ伝送によって減速されることがなくなり、一方で他のキャッシュコヒーレンシ技術に特有の帯域幅限界を除去する。開示される技術をさらに拡張してマルチプロセッサ同期化のための要件と互換性のあるバスベースのシステムのバスロック能力を組込んでもよい。

Description

【発明の詳細な説明】

【０００１】

【関連の特許出願との相互参照】

この発明は、「メモリサブシステムに複数個のメモリアルゴリズムプロセッサ
を組込むマルチプロセッサコンピュータアーキテクチャ」（“Multiprocessor C
omputer Architecture Incorporating a Plurality of Memory Algorithm Proce
ssors in the Memory Subsystem”）と題する１９９７年１２月１７日出願の連
続番号第０８／９９２，７６３号と、「マルチプロセッシングコンピュータシス
テムのためのスケーラブル単一システム画像オペレーティングソフトウェアアー
キテクチャ」（“Scalable Single System Image Operating Software Architec
ture for a Multi-Processing Computer System”）と題する１９９８年１月２
０日出願の連続番号第０９／００８，８７１号と、「共有メモリ資源を有するマ
ルチプロセッサコンピュータシステムにおける動的優先権競合解決のためのシス
テムおよび方法」（“System and Method for Dynamic Priority Conflict Reso
lution in a Multi-Processor Computer System Having Shared Memory Resourc
es”）と題する１９９８年２月３日出願の連続番号第０９／０１８，０３２号と
であって、そのすべてがこの発明の譲受人であるコロラド州コロラドスプリング
のエス・アール・シィ・コンピューターズ・インコーポレイテッド（ＳＲＣ Com
puters, Inc.）に譲渡された米国特許出願に開示された主題に関し、それらの開
示はこの引用により特にここに援用される。

【０００２】

【発明の背景】

この発明は、一般的には、マルチプロセッサコンピュータシステムの分野に関
する。特定的には、この発明は、マルチプロセッサコンピュータシステムのため
の分割ディレクトリベースのキャッシュコヒーレンシ技術に関する。

【０００３】低コストの高性能マイクロプロセッサの到来は、大規模なマルチプロセッサコ
ンピュータを実現可能にした。一般的には、これらのマイクロプロセッサは、キ
ャッシュ指向である；すなわち、それらは、頻繁に用いられるメモリデータのア
クセスレイテンシおよび帯域幅を改良するために、プロセッサの近傍の高速記憶
装置に主メモリの内容のサブセットを維持する。このローカルメモリは、あるプ
ロセッサがそのローカルキャッシュを変更することによってメモリの一要素を変
更したにもかかわらずその後その変更がそのメモリを共有するすべてのプロセッ
サに伝搬されなければ、整合性が保たれなくなる可能性がある。そのようなキャ
ッシュの正確な構造は、システム設計によって大きく異なる。

【０００４】このキャッシュの問題は、「共有メモリ」および「区分メモリ」としてしばし
ば知られる２つの基本的アーキテクチャを導いた。共有メモリシステムでは、ア
ルゴリズムを用いて共有データの整合性を維持する。典型的には、商業的に成功
したシステムでは、整合性はハードウェアによって実現され、ソフトウェアには
見えない。そのようなシステムは、「キャッシュコンシステント」と呼ばれ、製
造されるほぼすべてのマルチプロセッサコンピュータシステムの基礎となってい
る。他方で、区分メモリ方式は、メモリの共有を全く認めないか、またはごく少
数のプロセッサによってのみ共有を認め、これにより問題を大きく簡素化する。
そのようなコンピュータシステムでは、ネットワークでコンピュータシステムの
群を接続し、システム上で稼動するアプリケーションソフトウェアに大抵は見え
るようにされているメッセージ転送パラダイムを用いることによって、より大き
な構成が作り出される。

【０００５】キャッシュコヒーレントシステムの開発は、いくつかの基本的設計課題をもた
らした。大規模なシステムでは、データ伝送および速度の限界が、キャッシュコ
ヒーレンシをうまく達成することを困難にしている。通信チャネルをわたって伝
送されるコヒーレンシ操作は、従来、低帯域幅によって制限され、このため全体
のシステム速度を低減してきた。多数のプロセッサを含む大規模システムは、正
確かつ高速のキャッシュコヒーレンシ実現を必要とする。

【０００６】これを考慮して、プロセッサ間でメモリの整合性あるビューを維持するために
はいくつかの基本的問題を解決しなければならない。まず、プロセッサは、プロ
セッサにメモリ内容の読出または変更の許可を与える調停プロトコルに従わなけ
ればならない。この機能を実行するために、コヒーレンシプロトコルは、原子ユ
ニットとして扱われる固定の「ライン」（典型的には３２バイト、６４バイトま
たは１２８バイトのサイズのメモリのサブセクション）にメモリを分割する。典
型的には、各ラインは、書込を可能にする「排他的モード」で単一のプロセッサ
に割当てられるか、「読出専用モード」で１つ以上のプロセッサに割当てられる
か、またはそのラインは現在キャッシュされていないかのどれかである。プロセ
ッサは、ラインをメモリからロードする際、排他的または読出専用モードでライ
ンを要求する必要がある。これをサポートするために、ラインの状態が分析され
る間、キャッシュはメモリサブシステムが要求の完了を遅延させることを許容し
なければならず、この操作はプロセッサキャッシュ上でシステムがその操作の完
了を待っている間に行われる。

【０００７】必要なときにあるプロセッサから別のプロセッサへラインを転送するプロセス
は、多くの方法で行うことができる。これらの方式の１つは、「無効化ベース」
と言われ、既存のマルチプロセッサコンピュータシステムに最も頻繁に用いられ
る技術である。そのようなシステムでは、あるラインの内容が変更されるときに
は、それらラインは他のプロセッサのキャッシュから除去される。別の方式は、
あるラインが変更されるときそのラインを含むすべてのキャッシュを更新するこ
ととする。

【０００８】キャッシュコヒーレンシを与える最もよくある方法は、「スヌーピーバス」方
式の使用によるものである。そのようなシステムでは、それらはすべて通常１つ
または２つの少数のバスにより行なわれるので、すべてのプロセッサがすべての
メモリトランザクションを監視することができる。この方式は、バスがメモリか
らプロセッサへの、必要とされるデータ帯域幅を供給することができないために
、大規模のシステムでは使用不可能である。

【０００９】そのような場合には、「ディレクトリ」方式が最もよく用いられる。そのよう
なシステムは、データベースを用いてラインが割当てられているプロセッサを記
録する。メモリ上のトランザクションは、ディレクトリを調べてどのようなコヒ
ーレンシ操作が問題のラインの割当に必要とされるかを決定することを必要とす
る。ディレクトリを保つ方法はさまざまである。

【００１０】多くの方式がディレクトリの内容を記録するために提案されてきた。ほとんど
が、ディレクトリ照会がなされるときに時間的に高くつく検索を必要とするか、
またはラインを含むキャッシュの正確な組がディレクトリハードウェアに記録す
るには大きすぎるときにはブロードキャスティングを用いる。この文脈では、「
ブロードキャスティング」とは、システム内のすべてのプロセッサにメッセージ
を送信することを意味するものであって、しばしば、この方式の通信をサポート
する特別なハードウェア的特徴を用いる。ブロードキャスティングに伴う困難は
、スイッチベースのネットワークは容易にそのような操作をサポートせず、その
キャッシュ内容に関連しない要求ではプロセッサに割込みをかけるコストが高く
なり得ることである。

【００１１】更新されるべきラインを無効にするためには、ラインを含むすべてのキャッシ
ュに、接触しなければならず、これはどのプロセッサに接触するべきかについて
の決定を必要とする。ラインを割当てたプロセッサのリストが一旦ディレクトリ
から作られると、各プロセッサには、キャッシュからラインを除去しかつメモリ
へいかなる変更も送信するようそれに指示するメッセージが送信されなければな
らない。この操作は、マイクロプロセッサキャッシュハードウェアによってサポ
ートされなければならない。

【００１２】

【発明の概要】

共有メモリ資源のキャッシュコヒーレントビューをプロセッサに与えるために
、マルチプロセッサコンピュータシステム内のプロセッサのすべてが、有用な予
め定義された順序ですべてのメモリ変更を見なければならない。以下により詳細
に記載される好ましい実施例に開示されるマイクロプロセッサのクラス（たとえ
ば、カリフォルニア州サンタクララのインテル社（Intel Corporation）によっ
て開発されたDeschutes^TMマイクロプロセッサ）については、コヒーレンシモデ
ルは「総合記憶順序」と呼ばれる。これは、所与のプロセッサによってなされた
すべてのメモリ変更が、その特定のプロセッサによってそれらがなされた順序で
見え、システム内のすべてのプロセッサにその順序で見えるということを意味す
る。同様に、読出動作は、競合する書込動作と交わらない。

【００１３】しかし、ここに開示されるキャッシュコヒーレンシ技術は、この特定のコヒー
レンシモデルに限定されるものではなく、実際には、キャッシュ通信ネットワー
クでのプロセッサへのメモリへの接続によりすべての現在のモデルをサポートす
ることができる。

【００１４】しかしながら、プロセッサはそのようなシステム内のすべてのトランザクショ
ンを見ることができないので、この発明は、あまり複雑でないディレクトリルッ
クアップを備える妥当なコストの完全なディレクトリを含むことを企図する。所
望であれば、この方式を拡張して所与の用途のために何らかのブロードキャステ
ィングを伴うさらに小さいディレクトリを可能にすることができる。

【００１５】コヒーレンシを与えるために、この発明の技術は、ディレクトリの一部を保持
するようメモリの各ラインに関連付けられるさらなるデータ記憶装置（「コヒー
レンシタグ」）を必要とする。加えて、２次ディレクトリ領域が各メモリコント
ローラのために用いられる。この２次ディレクトリは、広く共有されるラインの
ために用いられるエントリからなる。開示される実施例では、そのようなエント
リの各々がシステム上のあらゆるプロセッサについて１ビットを含み、このビッ
トがそのプロセッサが問題のラインを保持しているかどうかを示すことが想定さ
れる。ビットマスクに加えて、ある用途では、マスク内でセットされたビットの
数のカウントを維持することが所望されるかもしれない。

【００１６】ここに開示されるのは、メモリ内の２次ディレクトリを利用して、マルチプロ
セッサコンピュータシステム内の２つ以上のプロセッサキャッシュがメモリの同
じラインを含むときを表示するために用いられるビットマスクを実現する分割デ
ィレクトリベースのキャッシュコヒーレンシ技術である。この技術はそれにより
、コヒーレンシ操作を行なうために必要とされる検索の複雑さと、コヒーレンシ
システムをサポートするために必要なメモリの全体的なサイズを低減する。この
技術は、メモリのラインへの「コヒーレンシタグ」の付加を含み、このためその
状態を、各プロセッサのキャッシュを読出してメモリのラインがそのキャッシュ
内に含まれるかどうかを見る必要なしに、追跡することができる。開示される技
術は、マルチプロセッサ同期化のための要件と互換性のあるバスベースのシステ
ムの「バスロック」能力を組込むようさらに拡張されてもよい。

【００１７】ここに特に開示されるのは、各々が関連付けられたデータキャッシュを有する
複数個のプロセッサを含むマルチプロセッサコンピュータシステムである。この
システムはさらに、主メモリと、主メモリと複数個のプロセッサを双方向に結合
してその間のデータの通信を可能にする通信ネットワークとを含む。主メモリは
、少なくとも１つの、複数のエントリを有するディレクトリを含み、エントリの
各々は、コンピュータシステム内の複数個のプロセッサの各々に対するビットロ
ケーションを含む。

【００１８】ここにさらに開示されるのは、主メモリを含み、複数個のプロセッサの各々が
関連付けられたデータキャッシュを有するマルチプロセッサコンピュータシステ
ムにおいてキャッシュコヒーレンシを維持するための方法である。この方法は、
主メモリに複数個のプロセッサを結合する通信ネットワークを設けるステップと
、主メモリ内に少なくとも１つの、複数のエントリを有するディレクトリを設け
るステップと、コンピュータシステムの複数個のプロセッサの各々についてディ
レクトリ内のビットロケーションを指定するステップとを含む。

【００１９】添付の図面と関連付けて好ましい実施例の以下の記載を参照することによって
、この発明の前述および他の特徴および目的ならびにそれらを獲得する態様は、
より明らかとなり、この発明自体が最もよく理解されるであろう。

【００２０】

【好ましい実施例の説明】

ここで図１Ａを参照すると、この発明の分割ディレクトリベースのキャッシュ
コヒーレンシ技術の可能性ある実現のための代表的コンピュータシステム６０ア
ーキテクチャが示される。なお、開示されるキャッシュコヒーレンシ技術は究極
的には、さまざまなシステム要素間の通信がいかに実現されるかに依存するもの
ではないので、例示される代表的な実施例に示される相互接続は、さまざまな代
替の実現化例で設けられてもよい。

【００２１】図示の特定のコンピュータシステム６０は、以下により詳細に記載するように
、単一または複数の通信資源を含む通信ネットワーク６８を介して、（共有メモ
リ資源またはシステム主メモリを含む）複数個のメモリバンク５０₀から５０_Nに
相互接続される複数個のプロセッサ１６₀から１６_Nを含む。プロセッサ１６₀か
ら１６_Nはまた、先の図２に関して記載され示されるように複数のメモリスイッ
チ５２₀から５２_N、プロセッサスイッチ５４₀から５４_Nおよび相互接続するトラ
ンクライン１４₀から１４_Nを含む相互接続スイッチ７０によってメモリバンク５
０₀から５０_Nに相互接続される。各メモリバンク５０₀から５０_Nは、データ部分
６４₀から６４_Nに対応するコヒーレンシ情報を含む部分６２₀から６２_Nならびに
２次ディレクトリ６６₀から６６_Nをそれぞれ含む。

【００２２】単に例として、仮定のコンピュータシステム６０は、グローバルな主メモリま
たは共有メモリ資源を形成するためにラインレベルでインターリーブされた１６
個のメモリバンク（またはユニット）５０₀から５０₁₅および１６個のプロセッ
サ１６₀から１６₁₅を含んでもよい。なお、ここに開示されるキャッシュコヒー
レンシ技術は、任意の数のプロセッサおよび任意のサイズの任意の数のメモリユ
ニットに適用可能である。例示のコンピュータシステム６０の各プロセッサ１６
に関連付けられるキャッシュは、４ウェイセットアソシアティブの態様で４０９
６個のラインを含むものとしてモデル化されている。したがって、各メモリユニ
ット５０は１／１６のグローバルメモリに対応付けられるので、各メモリユニッ
ト５０は、任意の所与の時点でいずれか１つのプロセッサ１６キャッシュに存在
する多くとも２５６個のラインを有することが可能である。コンピュータシステ
ム６０に１６個のプロセッサ１６があるとすると、各メモリユニット５０に対す
るディレクトリ６６は、４０９６個のプロセッサ−ライン対を超える必要がない
。

【００２３】さらに図１Ｂを参照すると、キャッシュ通信ネットワーク６８¹がセブリング
リング相互接続を用いて実現されている別の例示のコンピュータシステム８０ア
ーキテクチャが示される。図３について先に記載されたものに対応する構造は同
様に番号付けされ、これらに対してはその前にした説明で十分であろう。

【００２４】キャッシュ通信ネットワーク６８¹は、キャッシュコヒーレンシコマンドがメ
モリ５０とプロセッサ１６との間で伝送可能であるような媒体を与える。設計さ
れるようなリングを用いることによって、主データパスを介する共有読出は遅延
されない。これは、キャッシュコヒーレンシチェックを伴わない場合と同様のシ
ステム性能を与える。このリングはまた、伝送されるべきキャッシュコヒーレン
シコマンドについての高データ帯域幅を与える。

【００２５】コンピュータシステム８０では、キャッシュ通信ネットワーク６８¹は、プロ
セッサ１６とメモリ５０との間でキャッシュコヒーレンシコマンドを伝送し、プ
ロセッサ１６とメモリ５０との間のデータ転送は、相互接続スイッチ７０を用い
て伝送される。セブリングリング相互接続を利用するコンピュータシステム８０
は、優れた帯域幅、スケーラビリティ、使用の容易さ、および比較的低いコスト
実現という点でかなりの利益をもたらす。

【００２６】ここでさらに図２を参照すると、先の図のマルチプロセッサコンピュータシス
テムの一部１００が示され、２つのプロセッサキャッシュがメモリデータの同じ
ラインを含むような状況におけるこの発明のキャッシュコヒーレンシ技術を例示
する。図示のとおり、例示される２つのプロセッサ１６₁、１６₂の各々は、関連
付けられたキャッシュ１０２₁および１０２₂を含み、その各々が同じメモリライ
ン（「ラインＡ」）１０４を含む。この同じメモリライン１０４は、コンピュー
タシステム主メモリ５０内にも維持され、それとともに関連付けられたコヒーレ
ンシタグ１０６を有する。メモリ５０はまた、対応するカウント１１０を備える
、図示の例示の実現化例では２０４８個の１６ビットのエントリを含む２次ディ
レクトリ１０８を含む。

【００２７】各メモリライン１０４のコヒーレンシタグ１０６は、長さが１２ビットであっ
て、第１のビット（またはいずれか他のビット）が「フラグ」を構成し、残りの
ビットが２次ディレクトリ１０８の特定のエントリのポインタとしての役割を果
たしてもよい。２次ディレクトリ１０８は、記載される例では１６個の、コンピ
ュータシステムのためのプロセッサ１６の最大数と同じ幅である。

【００２８】動作時に、メモリ５０内の各ラインに関係付けられるのは、この発明のキャッ
シュコヒーレンシ技術の実現のために用いられる「コヒーレンシタグ」１０６と
呼ばれる１２ビットの付加的記憶装置である。フラグ（この例では、ビット１）
がセットされている場合、２つのプロセッサキャッシュ１０２は、同じメモリラ
イン１０４（ラインＡ）を含み、したがってライン１０４は「読出専用モード」
で割当てられている。この場合にはコヒーレンシタグ１０６の下位１１ビットは
、２次ディレクトリ１０８のエントリを指す。

【００２９】２次ディレクトリ１０８内のマスク内のセットされたビットの各々は、メモリ
ライン１０４を保持するプロセッサ１６に対応する。したがって、各２次ディレ
クトリ１０８のエントリは、１６ビット（この例では各プロセッサ１６について
１ビット）を含む。そのようなエントリは、少なくとも２つのプロセッサ１６が
ライン１０４を保持するときにのみ必要とされるので、２次ディレクトリ１０８
が含む必要があるのは２０４８エントリのみである。

【００３０】加えて、ライン１０４を保持するセットされたプロセッサ１６の数のカウント
１１０を設けてもよい。このカウント１１０は、２次ディレクトリ１０８に並列
のアレイに保持されてもよく、または代替的に、空間が利用可能であれば、カウ
ントはコヒーレンシタグ１０６内に保持可能である。

【００３１】ここでさらに図３を参照すると、図２のマルチプロセッサコンピュータシステ
ムの対応する部分１２０が示され、単一のプロセッサ１６キャッシュ１０２₁の
みがメモリデータの所与のメモリライン１０４（ラインＡ）を含み、たとえばキ
ャッシュ１０２₂がラインＡを含まないような状況を例示する。この図では、図
５について先に記載され示されたものと同様の構造は同様に番号付けされ、これ
に対してはその前にした説明で十分であろう。

【００３２】この例では、コヒーレンシタグ１０６は、ビット１「フラグ」位置に「０」を
含み、ビット２位置およびビット３位置の両方に「１」を含む。ビット２位置内
の「１」は、メモリラインがプロセッサ１６キャッシュ１０２の１つに保持され
ているかどうかを示すために使用可能であり、ビット３位置内の「１」は、ライ
ンが「読出専用」または「排他的」モードのいずれかにあるかどうかを示す。ビ
ット４およびビット５は、「バスロック」および「ビジーフラグ」表示に対応し
得る。メモリライン１０４が単一のキャッシュ１０２にのみ保持されるならばビ
ット６から８は使用されず、ビット９から１２は、メモリライン１０４を含む単
一のプロセッサ１６、この例示の例ではプロセッサ１６₁（ビット９〜１２＝“
０００１”）を特定する。

【００３３】この例示では、フラグ（すなわち、第１のビット）がセットされていない場合
には、第２のビットが、ライン１０４が正確に１つのキャッシュ１０２に保持さ
れているかどうかを示す。ラインがキャッシュ１０２に保持されているならば、
第３のビットを使用してラインがプロセッサ１６によって「読出専用」または「
排他的」モードで保持されているかどうかを特定する。他の４ビットは、ライン
１０４を保持するプロセッサ１６を特定するために用いられる。したがって、ラ
イン１０４の状態は、コヒーレンシタグ１０６および２次ディレクトリ１０８を
用いて完全に表わすことができ、コヒーレンシタグ１０６のルックアップおよび
おそらく２次ディレクトリ１０８エントリ以外は、いかなる検索もする必要がな
い。

【００３４】例示され記載されるこの発明の実施例では、コヒーレンシタグは以下のタプル
である：＜ｓｄｅ，ａｃｔｉｖｅ，ｅｘｃｌｕｓｉｖｅ，ｐｒｏｃｉｄ，ａｄｄｒ＞ただし、ｓｄｅフラグは、アクティブ２次ディレクトリエントリが使用中であ
ることを示し、ａｃｔｉｖｅは、ラインがあるキャッシュ内でアクティブであることを示し、ｅｘｃｌｕｓｉｖｅは、ラインの所有権状態を示すブーリアンであり、ｐｒｏｃｉｄは、ラインを保持する単一のプロセッサを特定し、ａｄｄｒは、もし割当てられているならば、２次ディレクトリエントリのアド
レスを特定する。

【００３５】この発明のキャッシュコヒーレンシ技術の特定の実現化例が詳細に示され記載
されたが、この情報を記憶しかつ再編成する多くの方法が代わりに利用されても
よい。しかしながら、いかなる合理的な実現化例でも、コヒーレンシタグ１０６
は、大きなシステムの場合にはディレクトリエントリ全体よりも遥かに小さい。
このコヒーレンシタグ１０６は、もし必要とされるならばディレクトリエントリ
を指すために使用可能であり、メモリライン１０４が多くても１つのキャッシュ
１０２に割当てられる場合、全コヒーレンシ情報のために使用可能である。加え
て、以下により詳細に記載するように、ライン１０４が遷移状態にあるかまたは
多くても１つのキャッシュ１０２に保持されるとき、他の情報をコヒーレンシタ
グ１０６に記憶することができる。

【００３６】あるプロセッサ１６が２つ以上のプロセッサ１６によって共有されるメモリラ
イン１０４への排他的アクセスを要求するトランザクション、および無効化操作
を要求する他のトランザクションにおいては、コヒーレンシタグ１０６を拡張す
ることが有用だろう。この場合には、要求されるデータは、相互接続スイッチ７
０（図３および図４）を介して、即座に戻されることが可能であるが、プロセッ
サ１６は、メモリライン１０４がメモリライン１０４を保持するすべてのキャッ
シュ１０２から除去されるまで処理を妨げられなければならない。上述したよう
なコヒーレンシタグ１０６は、ビジーフラグ（すなわちビット５）で増強可能で
あり、このため、処理されるラインのリストとの比較を要求せずに、ライン１０
４のいかなる要求にも待つように言うことができる。無効化がすべて受取られる
と、新しいコヒーレンシタグ１０６が書込可能になり、メモリライン１０４はビ
ジー状態から離脱可能となる。

【００３７】コヒーレンシタグ１０６の他の使用が可能であり、かなり有利である。たとえ
ば、マルチプロセッサコンピュータシステムは、同期プリミティブを必要とする
。インテルのDeschutes^TMプロセッサ１６アーキテクチャは、原子的態様で読出
動作および書込動作のシーケンスを実行するためにプロセッサ１６がメモリ５０
への排他的アクセスを獲得することを可能にする「バスロック」能力を実現する
。大きなネットワークベースのシステムでは、そのようなロックを実現すること
は、困難で性能の犠牲が高くつくであろう。バスロック能力は主に、１つのメモ
リラインまたは２つの連続するメモリラインを読出し、テストし、次に任意で変
更するために用いられる。バスロックをシミュレートするために、コヒーレンシ
タグ１０６内の１ビット（すなわちビット４）が、ロックされたラインのための
「フラグ」として使用可能である。原子動作のためのラインが読出されロックさ
れると、プロセッサ１６は、値をテストし、書込操作を発行し、次にロックを解
除可能である。インテルのロッキングプリミティブは多くとも２つのラインに接
する（かつこれら２つのラインは連続していなければならない）ので、「デッド
ロック」または「ライブロック」条件は実際のプログラムでは可能ではない。

【００３８】前述したように、キャッシュコヒーレンシを実行するために用いられてきた先
行技術の方式のほとんどは、大きなマルチプロセッサコンピュータシステムアー
キテクチャには役に立たない。この発明のキャッシュコヒーレンシ技術は、これ
らの限界を克服する。この発明の技術は、メモリのラインを含むプロセッサキャ
ッシュのリストを生成するディレクトリ方式を用いる。

【００３９】ここに開示されるこの発明の具体的な実施例では、総合記憶順序が所望され、
かつキャッシュコヒーレンシシステムがキャッシュ内容のモデル化を可能にする
のに十分なプロセッサの制御を提供するものと想定される。これを達成するため
の多くの他の方法が可能であり、開示される技術はそれらのすべてに適用可能で
ある。

【００４０】図４Ａおよび図４Ｂをさらに参照すると、この発明に従う対称的マルチプロセ
ッシングコンピュータシステム１０が示される。例示のコンピュータシステム１
０は、関連部分では、任意の数の相互接続されたセグメント１２₀から１２₁₅を
含むが、この発明の原理は同様に、多数のプロセッサを有するいかなるスケーラ
ブルなシステムにも適用可能である。さまざまなセグメント１２₀から１２₁₅は
、以下により詳細に記載するとおり、複数のトランクライン１４₀から１４₁₅を
介して結合される。

【００４１】セグメント１２の各々は、サービスプロセッサ１６₀から１６₃（サービスプロ
セッサ１６₀はマスタブートデバイスとしてさらに機能する）および計算プロセ
ッサ１８₀から１８₁₅の形をとる複数の機能的に異なる処理要素を含む。サービ
スプロセッサ１６は、複数のペリフェラル・コンポーネント・インターコネクト
（「ＰＣＩ」）インターフェイスモジュール２０に結合され、図示の実施例では
、各サービスプロセッサは、２つのそのようなモジュール２０に結合され、サー
ビスプロセッサ１６がセグメント１２のＩ／Ｏ機能のすべてを実行することを可
能にする。

【００４２】サービスプロセッサ１６はさらに、コンピュータシステム１０のセグメント１
２の少なくとも１つにシステムコンソール２４を結合するためのシリアルインタ
ーフェイス２２を含む。システムコンソール２４は、コンピュータシステム１０
のユーザがコンピュータシステム１０にブート情報をダウンロードし、装置を構
成し、状態を監視しかつ診断機能を実行することを可能にするよう動作する。い
くつのセグメント１２がコンピュータシステム１０内に構成されようとも、必要
とされるシステムコンソール２４は１つのみである。

【００４３】ブートデバイス２６（たとえば、ユタ州ロイのアイオメガ社（Iomega Corpora
tion）から入手可能なＪＡＺ（登録商標）リムーバブルディスクコンピュータ大
容量記憶装置）も、ＰＣＩモジュール２０の１つを介してマスタブートサービス
プロセッサ１６₀に結合される。サービスプロセッサ１６₁から１６₃に結合され
るＰＣＩモジュール２０がセグメント１２をたとえばディスクアレイ２０₀から
２８₅などのすべての他の周辺デバイスに結合するために利用されるが、そのい
ずれか１つ以上は、たとえばイーサネット（登録商標）接続と置換されてもよい
。

【００４４】コンピュータシステム１０は、商業ベースの、ハイパフォーマンスコンピュー
ティング（「ＨＰＣ」）の特異性を適合させるため幾分改良された、洗練された
ハードウェアおよびビルディングブロックを含む。ハードウェアの側では、コン
ピュータシステム１０のための基本ユニットはセグメント１２である。各セグメ
ント１２は、計算およびサービスプロセッサ１８、１６エレメント、メモリ、電
源およびクロスバースイッチアセンブリを含む。コンピュータシステム１０は、
エンドユーザが１から１６個の相互接続されたセグメント１２からなるシステム
を構成することができるという点で「スケーラブル」である。各セグメント１２
は、合計２０個のプロセッサ：１６個の計算プロセッサ１８および４個のサービ
スプロセッサ１６を含む。好ましい実施例では、計算プロセッサ１８は、４個の
プロセッサ（たとえば、Deschutes^TMマイクロプロセッサ）および１２個のイン
ターフェイスチップ（すなわち、計算プロセッサ１８１個あたり３個）を含む
別個のアセンブリ上に存在してもよい。各計算プロセッサ１８は、３００ＭＨｚ
より大きいクロックレートの内部プロセッサおよび１００ＭＨｚよりも大きいク
ロック速度のシステムを有し、インターフェイスチップは、以下により詳細に記
載され示されるようにメモリに接続するメモリスイッチと計算プロセッサ１８と
の間の接続を与える。

【００４５】サービスプロセッサ１６は、コンピュータシステム１０についてのすべての入
力および出力に責任のあるサービスプロセッサアセンブリ上に含まれてもよい。
サービスプロセッサアセンブリの各々は、プロセッサ（計算プロセッサ１８と同
じタイプ）、３個のインターフェイスチップ、１２８ＭバイトのＩ／Ｏバッファ
、および２つの双方向ＰＣＩバスを含む。各ＰＣＩバスは、単一のコネクタを有
する。すべてのＩ／Ｏポートは、プロセッサへの優先順位が等しいＤＭＡ能力を
有する。ＰＣＩモジュール２０は、どのサービスプロセッサ１６がそれらととも
に用いられるかに依存して、２つの目的を果たす。マスタブートサービスプロセ
ッサ１６₀上のＰＣＩコネクタは、ブートデバイス２６に接続するために用いら
れる。シリアルポート２２は、システムコンソール２４に接続される。通常のサ
ービスプロセッサ１６₁から１６₃上のＰＣＩモジュール２０は、すべての他の周
辺装置のために用いられる。サポートされるＰＣＩベースの相互接続のいくつか
は、スモールコンピュータシステムインターフェイス（「ＳＣＳＩ」）、光ファ
イバ・データ・分配・インターフェイス（「ＦＤＤＩ」）、ハイパフォーマンス
・パラレル・インターフェイス（「ＨＰＰＩ」）などを含む。各ＰＣＩバスは、
対応する商業ベースのホストアダプタを有する。

【００４６】前述の特許出願に詳細に記載されるとおり、計算機能からサービス機能を分離
することにより、多数の処理とオペレーティングシステムデューティおよび外部
周辺装置のサービスとの同時実行が可能になる。

【００４７】さらにここで図５を参照すると、図１Ａおよび図１Ｂのコンピュータシステム
１０のための相互接続ストラテジーが、１６個のトランクライン１４₀から１４₁ ₅ によって相互接続される１６個のセグメント１２₀から１２₁₅を採用する実現化
例においてより詳細に示される。図示のとおり、各々が計算プロセッサ１８₀か
ら１８₁₅のそれぞれ１つに割当てられている複数のメモリバンク５０₀から５０₁ ₅ （結果としてセグメント１２の１個当たり１６個のメモリバンク５０となり、
１６個のセグメント１２からなるコンピュータシステム１０では合計で２５６個
のメモリバンク５０となる）は、コンピュータシステムの一部を形成し、トラン
クライン１４₀から１４₁₅に、同様の数のメモリスイッチ５２₀から５２₁₅を介し
てそれぞれ結合される。メモリバンク５０₀から５０₁₅に利用されるメモリは、
シンクロナス・スタティック・ランダム・アクセス・メモリ（「ＳＳＲＡＭ」）
または他の好適な高速メモリデバイスであってもよい。また図示のとおり、セグ
メント１２₀から１２₁₅の各々は、たとえば、同様の数のプロセッサスイッチ５
４₀から５４₁₅の対応する１つを介してトランクライン１４₀から１４₁₅に結合さ
れる２０個のプロセッサ（４個のサービスプロセッサ１６₀から１６₃および１６
個の計算プロセッサ１８₀から１８₁₅）を含む。

【００４８】各セグメント１２は、クロスバースイッチを介してすべての他のセグメント１
２に相互接続する。コンピュータシステム１０のクロスバースイッチ技術は、セ
グメント１２がセグメント境界にわたって、および個々のセグメント１２内で均
一なメモリアクセス回数を有することを可能にする。それはまた、コンピュータ
システム１０がシステム内のメモリのすべてについて単一のメモリアクセスプロ
トコルを採用することを可能にする。クロスバースイッチは、プロセッサおよび
メモリが物理的にどこに位置していようとも、高速のフィールドプログラマブル
ゲートアレイ（「ＦＰＧＡ」）を利用してメモリとプロセッサとの間の相互接続
経路を与え得る。このクロスバースイッチは、あらゆるセグメント１２を相互接
続し、異なったセグメント１２に位置するプロセッサおよびメモリが均一のレイ
テンシで通信することを可能にする。好ましい実施例では、各クロスバースイッ
チは、再構成時間を含めて、１層当たり１クロックのレイテンシを有する。３２
０個のプロセッサ１６、１８を利用する１６個のセグメント１２からなるコンピ
ュータシステム１０では、必要とされるクロスバー層はたった２つである。

【００４９】前述したとおり、コンピュータシステム１０は、好ましくは、それが６ナノ秒
のコンポーネントサイクル時間を呈するために、メモリバンク５０のためにＳＳ
ＲＡＭを利用してもよい。各メモリバンク５０は、６４から２５６Ｍバイトのメ
モリをサポートする。各計算プロセッサ１８は、１つのメモリバンク５０をサポ
ートし、各メモリバンク５０は２５６ビット幅であって、３２パリティビットを
加えて合計２８８ビット幅である。加えて、メモリバンク５０のサイズをキャッ
シュラインのサイズに一致するよう設計し、１キャッシュライン全体についてバ
ンクアクセスが１回ですむようにしてもよい。アドレスパケットおよびデータパ
ケットに対するパリティチェックを完了することによって読出および書込メモリ
エラー訂正を行ってもよい。

【００５０】アドレスパケットについてのパリティチェックは、読出機能および書込機能の
両方について同じであってもよく、新しいパリティビットと古いパリティビット
とが比較され、メモリ読出または書込が続行すべきかアボートすべきかを決定す
る。メモリ「書込」が生じるとき、パリティチェックがメモリに到着したデータ
パケットの各々について行なわれてもよい。これらのデータパケットの各々は、
それに付加される８ビットのパリティコードを有する。データパケットがメモリ
に到着すると、新しい８ビットのパリティコードがデータパケットのために生成
され、古いパリティコードと新しいパリティコードとが比較される。この比較の
結果、２つのタイプのコード：単一ビット誤り（「ＳＢＥ」）または２ビットま
たは複数ビット誤り（「ＤＢＥ」）の１つが得られる。単一ビット誤りは、それ
がメモリに入るより前にデータパケット上で訂正可能である。２ビットまたは複
数ビット誤りの場合には、データパケットはメモリに書込まれず、プロセッサに
戻って報告され、これがデータパケット参照を再試行する。メモリ「読出」が生
じるとき、メモリから読出されたデータパケットの各々は、８ビットのパリティ
コードを生成する。このパリティコードは、データとともにプロセッサに転送さ
れる。プロセッサは、各データパケットに対して単一エラー訂正および二重エラ
ー検出（「ＳＥＣＤＥＤ」）を実行する。

【００５１】特定のマルチプロセッサコンピュータシステムアーキテクチャ、ディレクトリ
構造およびコヒーレンシタグ内容と関連付けてこの発明の原理が前述されたが、
前の説明は例としてのみなされたものであり、この発明の範囲を限定するもので
はないことが明らかに理解される。特定的には、前の開示の教示は、当業者には
他の変形を示唆するものであることが認められる。そのような変形は、それ自体
既に知られており、かつここに既に記載された特徴に加えてまたはそれに代えて
使用可能である他の特徴を含み得る。クレームは、特徴の特定の組合せに従って
この出願において規定されるが、この開示の範囲は、明示的もしくは非明示的に
開示されるいかなる新規の特徴もしくは特徴のいかなる新規の組合せまたはいか
なる一般化またはその変形をも含み、これは、そういったものがいずれかのクレ
ームにここでクレームされているのと同じ発明に関するかどうかにかかわらず、
それがこの発明によって対処される同じ技術的課題のいずれかまたはすべてを軽
減するかどうかにかかわらず、当業者には明らかであろう。出願人は、この出願
またはそこから派生されるいかなるさらなる出願の審査手続中にそのような特徴
および／またはそのような特徴の組合せに従って新しいクレームを規定する権利
をこれにより留保する。

【図面の簡単な説明】

【図１Ａ】この発明のキャッシュコヒーレンシ技術を実現する例示のマル
チプロセッサコンピュータシステムの機能ブロック図である。

【図１Ｂ】キャッシュ通信ネットワークがセブリングリング相互接続スト
ラテジーを利用してプロセッサとメモリとの間でキャッシュコヒーレンシコマン
ドを伝送する、この発明のキャッシュコヒーレンシ技術を実現するマルチプロセ
ッサコンピュータシステムの代替の実施例の機能ブロック図である。

【図２】２つのプロセッサキャッシュがメモリデータの同じラインを含む
、先行する図のマルチプロセッサコンピュータシステムの例示の図である。

【図３】単一のプロセッサキャッシュがメモリデータの所与のラインを含
む、図２のマルチプロセッサコンピュータシステムのさらなる例示の図である。

【図４Ａ】同様の数のトランクラインによって互いに結合される１から１
６個のセグメントを含み、各セグメントがメモリおよびクロスバースイッチアセ
ンブリに加えて複数の計算プロセッサおよびサービスプロセッサを含む、この発
明の実施例に従うコンピュータシステムを例示する機能ブロックシステム外観図
である。

【図４Ｂ】同様の数のトランクラインによって互いに結合される１から１
６個のセグメントを含み、各セグメントがメモリおよびクロスバースイッチアセ
ンブリに加えて複数の計算プロセッサおよびサービスプロセッサを含む、この発
明の実施例に従うコンピュータシステムを例示する機能ブロックシステム外観図
である。

【図５】合計３２０個のプロセッサが共有メモリ資源（または主メモリ）
を含む２５６個のメモリバンクのいずれかにアクセスすることを可能にする、図
４Ａおよび図４Ｂのコンピュータシステムのための相互接続ストラテジーの簡素
化された機能ブロック図である。

───────────────────────────────────────────────────── フロントページの続き (72)発明者バートン，リー・エイアメリカ合衆国、80814 コロラド州、ディバイド、セダー・マウンテン・ロード、 966 Ｆターム(参考） 5B005 JJ22 KK14 MM01 NN42 PP11 PP21 PP28 5B045 DD01 DD13 【要約の続き】レンシ技術に特有の帯域幅限界を除去する。開示される技術をさらに拡張してマルチプロセッサ同期化のための要件と互換性のあるバスベースのシステムのバスロック能力を組込んでもよい。

Claims

【特許請求の範囲】

【請求項１】マルチプロセッサコンピュータシステムであって、複数個のプロセッサを含み、前記複数個のプロセッサの各々は関連付けられた
データキャッシュを有し、さらに、主メモリと、前記複数個のプロセッサを前記主メモリと双方向に結合してその間のデータの
通信を可能にする通信ネットワークとを含み、前記主メモリはその中に複数のエントリを有する少なくとも１つのディレクト
リを含み、前記エントリの各々は、前記コンピュータシステム内の前記複数個の
プロセッサの各々に対するビットロケーションを含む、マルチプロセッサコンピ
ュータシステム。
【請求項２】前記通信ネットワークはセブリングリングを含む、請求項１
に記載のマルチプロセッサコンピュータシステム。
【請求項３】前記主メモリは同様の数のメモリユニットを含む、請求項１
に記載のマルチプロセッサコンピュータシステム。
【請求項４】前記主メモリは、各メモリラインと関連付けられる複数のビ
ットロケーションを含むコヒーレンシタグをさらに含む、請求項１に記載のマル
チプロセッサコンピュータシステム。
【請求項５】前記コヒーレンシタグは、その第１の状態および第２の状態
を有するフラグビットを含み、前記第１の状態は、前記複数個のプロセッサの前
記関連付けられたデータキャッシュの２つが前記主メモリ内の所与のメモリライ
ンを含むことを示す、請求項４に記載のマルチプロセッサコンピュータシステム
。
【請求項６】前記コヒーレンシタグ内の前記ビットロケーションの少なく
とも一部が、前記複数個のプロセッサの前記関連付けられたデータキャッシュの
どれが前記所与のメモリラインを保持しているかを示す前記少なくとも１つのデ
ィレクトリ内のロケーションを指す、請求項４に記載のマルチプロセッサコンピ
ュータシステム。
【請求項７】前記複数個のプロセッサの前記関連付けられたデータキャッ
シュがのいくつが前記所与のメモリラインを保持しているかを示すカウントをさ
らに含む、請求項６に記載のマルチプロセッサコンピュータシステム。
【請求項８】前記フラグビットがその前記第２の状態にあるとき、前記コ
ヒーレンシタグ内の前記ビットロケーションの一部が、前記複数個のプロセッサ
の前記関連付けられたデータキャッシュの１つのみが前記所与のメモリラインを
含むことを示す、請求項５に記載のマルチプロセッサコンピュータシステム。
【請求項９】前記コヒーレンシタグは、前記所与のメモリラインが前記複
数個のプロセッサの前記関連付けられたデータキャッシュの少なくとも１つに保
持されているかどうかを示す少なくとも１つの前記ビットロケーションをさらに
含む、請求項８に記載のマルチプロセッサコンピュータシステム。
【請求項１０】前記コヒーレンシタグは、前記所与のメモリラインが読出
専用または排他的モードにあるかどうかを示す前記ビットロケーションの少なく
とも１つをさらに含む、請求項８に記載のマルチプロセッサコンピュータシステ
ム。
【請求項１１】前記コヒーレンシタグは、バスロック条件を示す前記ビッ
トロケーションの少なくとも１つをさらに含む、請求項８に記載のマルチプロセ
ッサコンピュータシステム。
【請求項１２】前記コヒーレンシタグは、ビジー条件を示す前記ビットロ
ケーションの少なくとも１つをさらに含む、請求項８に記載のマルチプロセッサ
コンピュータシステム。
【請求項１３】複数個のプロセッサの各々が関連付けられたデータキャッ
シュを有する、主メモリを含むマルチプロセッサコンピュータシステムにおいて
キャッシュコヒーレンシを維持するための方法であって、前記複数個のプロセッサを前記主メモリに結合する通信ネットワークを設ける
ステップと、前記主メモリ内に少なくとも１つの、複数のエントリを有するディレクトリを
設けるステップと、前記コンピュータシステム内の前記複数個のプロセッサの各々について前記少
なくとも１つのディレクトリ内のビットロケーションを指定するステップとを含
む、方法。
【請求項１４】前記設けるステップはセブリングリングによって実行され
る、請求項１３に記載の方法。
【請求項１５】前記主メモリ内の各メモリラインにコヒーレンシタグを付
加するステップをさらに含む、請求項１３に記載の方法。
【請求項１６】前記付加するステップは、各メモリラインと関連付けられ
る複数のビットロケーションを用いて実行される、請求項１５に記載の方法。
【請求項１７】その第１の状態および第２の状態を有する前記コヒーレン
シタグ内にフラグビットを指定するステップと、前記フラグビットを利用して前記複数個のプロセッサと関連付けられる前記デ
ータキャッシュの２つが前記主メモリ内の所与のメモリラインを含むことを示す
ステップとをさらに含む、請求項１５に記載の方法。
【請求項１８】前記コヒーレンシタグ内の前記ビットロケーションの少な
くとも一部を利用して前記少なくとも１つのディレクトリ内のロケーションを指
すステップと、前記少なくとも１つのディレクトリ内の前記ロケーションに基づいて前記複数
個のプロセッサの前記関連付けられたデータキャッシュのどれが前記所与のメモ
リラインを保持するかを示すステップとをさらに含む、請求項１５に記載の方法
。
【請求項１９】前記複数個のプロセッサの前記関連付けられたデータキャ
ッシュのいくつが前記所与のメモリラインを保持するかを示すカウントを維持す
るステップをさらに含む、請求項１８に記載の方法。
【請求項２０】前記フラグビットを代替的に利用して前記複数個のプロセ
ッサの前記関連付けられたデータキャッシュの１つのみが前記所与のメモリライ
ンを保持することを示すステップと、前記複数個のプロセッサの前記関連付けられたデータキャッシュのどれが前記
所与のメモリラインを保持するかを示すステップとをさらに含む、請求項１７に
記載の方法。
【請求項２１】前記所与のメモリラインが前記複数個のプロセッサの前記
関連付けられたデータキャッシュの少なくとも１つに保持されているかどうかを
示すものとして前記コヒーレンシタグ内の前記ビットロケーションの少なくとも
１つを指定するステップをさらに含む、請求項２０に記載の方法。
【請求項２２】前記所与のメモリラインが読出専用または排他的モードに
あるかどうかを示すものとして前記コヒーレンシタグ内の前記ビットロケーショ
ンの少なくとも１つを指定するステップをさらに含む、請求項２０に記載の方法
。
【請求項２３】バスロック条件を示すものとして前記コヒーレンシタグ内
の前記ビットロケーションの少なくとも１つを指定するステップをさらに含む、
請求項２０に記載の方法。
【請求項２４】ビジー条件を示すものとして前記コヒーレンシタグ内の前
記ビットロケーションの少なくとも１つを指定するステップをさらに含む、請求
項２０に記載の方法。