JPH10143482A - エフィシェントな書込み動作を実行するマルチプロセッサ・システム - Google Patents

エフィシェントな書込み動作を実行するマルチプロセッサ・システム

Info

Publication number
JPH10143482A
JPH10143482A JP9208228A JP20822897A JPH10143482A JP H10143482 A JPH10143482 A JP H10143482A JP 9208228 A JP9208228 A JP 9208228A JP 20822897 A JP20822897 A JP 20822897A JP H10143482 A JPH10143482 A JP H10143482A
Authority
JP
Japan
Prior art keywords
coherency
address
write operation
write
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9208228A
Other languages
English (en)
Inventor
Erik E Hagersten
エリック・イー・ハガーステン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Microsystems Inc
Original Assignee
Sun Microsystems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Microsystems Inc filed Critical Sun Microsystems Inc
Publication of JPH10143482A publication Critical patent/JPH10143482A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/0815Cache consistency protocols
    • G06F12/0817Cache consistency protocols using directory methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Memory System Of A Hierarchy Structure (AREA)
  • Multi Processors (AREA)

Abstract

(57)【要約】 【課題】 分散共用メモリ・システム内で書込み動作を
実行するより効率的な方法を提供する。 【解決手段】 書込み動作は、高速書込みプロトコルを
使用して実行される場合、特定のコードを含む。ノード
内のシステム・インタフェースが特定のコードを検出す
ると、システム・インタフェースによって書込み動作が
取り込まれる。また、書込み動作を実行するプロセッサ
からシステム・インタフェースへデータが転送される。
データ転送は、ノードが、書込み動作の実行に整合す
る、影響を受けるコヒーレンシ単位のコヒーレンシ状態
を維持していない場合でも実行される。その代わり、適
当なコヒーレンシ状態を得るために使用されるコヒーレ
ンシ活動は、プロセッサからデータを受け取った後に、
あるいはそれと並行して開始される。

Description

【発明の詳細な説明】
【0001】関連特許出願の相互参照 本特許出願は、開示が引用によって本明細書に組み込ま
れた、下記の関連特許出願に関係するものである。 1.本出願と同時出願されたHagersten等の
「ExtendingThe Coherence D
omain Beyond A Computer S
ystem Bus」(参照番号P990)。 2.本出願と同時出願されたHagerstenの「M
ethod AndApparatus Optimi
zing Global Data Replies
In A Computer System」(参照番
号P991)。 3.本出願と同時出願されたHagersten等の
「Method AndApparatus Prov
iding Short Latency Round
−Robin Arbitration For Ac
cess ToA Shared Resource」
(参照番号P992)。 4.本出願と同時出願されたSinghal等の「Im
plementingSnooping On A S
plit−Transaction Computer
System Bus」(参照番号P993)。 5.本出願と同時出願されたSinghal等の「Sp
lit Transaction Snooping
Bus Protocol」(参照番号P989)。 6.本出願と同時出願されたHeller等の「Int
erconnection Subsystem Fo
r A Multiprocessor Comput
er System With A Small Nu
mber OfProcessors Using A
Switching Arrangement Of
Limited Degree」(参照番号P160
9)。 7.本出願と同時出願されたWade等の「Syste
m And Method For Performi
ng Deadlock Free Message
Transfer In Cyclic Multi−
Hop Digital Computer Netw
ork」(参照番号P1572)。 8.本出願と同時出願されたCassiday等の「S
ynchronization System And
Method For Plesiochronou
s Signaling」(参照符号P1593)。 9.本出願と同時出願されたHagersten等の
「Methods And Apparatus Fo
r A Coherence Transformer
For Connecting Computer
System Coherence Domains」
(参照番号P1519)。 10.本出願と同時出願されたHagersten等の
「Methods And Apparatus Fo
r A Coherence Transformer
With Limited Memory For
Connecting Computer Syste
m Coherence Domains」(参照番号
P1530)。 11.本出願と同時出願されたHagersten等の
「Methods And Apparatus Fo
r Sharing Data Objects In
A Computer System」(参照番号P
1463)。 12.本出願と同時出願されたHagersten等の
「Methods And Apparatus Fo
r A Directory−Less Memory
Access Protocol In A Dis
tributed Shared Memory Co
mputer System」(参照番号P153
1)。 13.本出願と同時出願されたHagersten等の
「Hybrid Memory Access Pro
tocol In A Distributed Sh
ared Memory Computer Syst
em」(参照番号P1550)。 14.本出願と同時出願されたHagersten等の
「Methods And Apparatus Fo
r Substantially Memory−Le
ss Coherence Transformer
For Connecting Computer S
ystem」(参照番号P1529)。 15.本出願と同時出願されたHagerstenの
「A Multiprocessing System
Including An EnhancedBlo
cking Mechanism For Read
To Share Transactions In
A NUMA Mode」(参照番号P1786)。 16.本出願と同時出願されたGuzovskiy等の
「EncodingMethod For Direc
tory State In CacheCohere
nt Distributed Shared Mem
ory System」(参照番号P1520)。 17.本出願と同時出願されたNesheim等の「S
oftware Use Of Address Tr
anslation Mechanism」(参照番号
P1560)。 18.本出願と同時出願されたLowenstein等
の「Directory−Based,Shared−
Memory,Scaleable Multipro
cessor Computer System Ha
ving Deadlock−free Transa
ction Flow Sans Flow Cont
rol Protocol」(参照番号P1561)。 19.本出願と同時出願されたNesheimの「Ma
intainingA Sequential Sto
red Order (SSO) In ANon−S
SO Machine」(参照番号P1562)。 20.本出願と同時出願されたWong−Chanの
「Node To Node Interrupt M
echanism In A Multiproces
sor System」(参照番号P1587)。 21.1996年4月8日に出願された、「Deter
ministic Distributed Mult
icache Coherence Protoco
l」と題するHagersten等の出願第08/63
0703号。 22.1995年12月22日に出願された、「A H
ybrid NUMAComa Cashing Sy
stem And Methods ForSelec
ting Between The Caching
Modes」と題するHagersten等の出願第0
8/577283号。 23.1995年12月22日に出願された、「A H
ybrid NUMAComa Cashing Sy
stem And Methods ForSelec
ting Between The Caching
Modes」と題するWood等の出願第08/575
787号。 24.本出願と同時出願されたHagersten等の
「Flusing Of Cache Memory
In A Computer System」(参照番
号P1416)。 25.本出願と同時出願されたHagersten等の
「EfficientAllocation Of C
ache Memory Space InA Com
puter System」(参照番号P1576)。 26.本出願と同時出願されたHagersten等の
「EfficientSelection Of Me
mory Storage Modes In A C
omputer System」(参照番号P172
6)。 27.本出願と同時出願されたHagersten等の
「Skip−level Write−through
In A Multi−level Memory
Of A Computer System」(参照番
号P1736)。 28.本出願と同時出願されたHagerstenの
「A Multiprocessing System
Configured to PerformEff
icient Block Copy Operati
ons」(参照番号P1515)。 29.本出願と同時出願されたHagerstenの
「A Multiprocessing System
Including An Apparatus F
or Optimizing Spin−Lock O
perations」(参照番号P1525)。 30.本出願と同時出願されたHagersten等の
「A Multiprocessing System
Configured to Detectand
Efficiently Provide for M
igratory Data Access Patt
erns」(参照番号P1555)。 31.本出願と同時出願されたHagerstenの
「A Multiprocessing System
Configured to Store Cohe
rency State Within Multip
le Subnodes of a Processi
ng Node」(参照番号P1527)。 32.本出願と同時出願されたHagersten等の
「A Multiprocessing System
Configured to Perform Pr
efetching Operations」(参照番
号P1571)。 33.本出願と同時出願されたHagerstenの
「A Multiprocessing System
Configured to PerformSyn
chronization Operations」
(参照番号P1551)。 34.本出願と同時出願されたHagersten等の
「A Multiprocessing System
Having Coherency−Related
Error Logging Capabiliti
es」(参照番号P1719)。 35.本出願と同時出願されたHagerstenの
「Multiprocessing System E
mploying A Three−Hop Comm
unication Protocol」(参照番号P
1785)。 36.本出願と同時出願されたHagersten等の
「A Multiprocessing System
Configured to Perform So
ftware Initiated Prefetch
Operations」(参照番号P1787)。 37.本出願と同時出願されたHagersten等の
「A Multiprocessing Comput
er System Employing Local
and Global Spaces and Mu
ltipleAccee Modes」(参照番号P1
784)。 38.本出願と同時出願されたHagersten等の
「Multiprocessing System E
mploying A CoherencyProto
col Including A Reply Cou
nt」(参照番号P1570)。
【0002】
【発明の属する技術分野】本発明は、マルチプロセッサ
・コンピュータ・システムに関し、詳細には、マルチプ
ロセッサ・コンピュータ・システム内の書込み動作の実
行に関する。
【0003】
【従来の技術】多重処理コンピュータ・システムは、コ
ンピューティング・タスクを実行するために使用できる
2つ以上のプロセッサを含む。1つのプロセッサ上で特
定のコンピューティング・タスクを実行し、同時に他の
プロセッサが、関係のないコンピューティング・タスク
を実行することができる。別法として、特定のコンピュ
ーティング・タスクの構成要素を複数のプロセッサ間で
分散し、コンピューティング・タスク全体を実行するの
に必要な時間を短縮することができる。一般的に言え
ば、プロセッサは、1つまたは複数のオペランドに対す
る演算を実行して結果を生成するように構成された装置
である。演算は、プロセッサによって実行される命令に
応答して実行される。
【0004】市販の多重処理コンピュータ・システムで
広く使用されているアーキテクチャは、対称型マルチプ
ロセッサ(SMP)アーキテクチャである。通常、SM
Pコンピュータ・システムは、キャッシュ階層を通じて
共用バスに接続された複数のプロセッサを備える。共用
バスにはメモリも接続され、メモリはシステム内のプロ
セッサ間で共用される。メモリ内の特定のメモリ位置へ
のアクセスは、他の特定のメモリ位置へのアクセスと同
様な時間で行われる。メモリ内の各位置に一様にアクセ
スできるので、この構造はしばしば、一様なメモリ・ア
ーキテクチャ(UMA)と呼ばれる。
【0005】プロセッサは多くの場合、内部キャッシュ
と共に構成され、SMPコンピュータ・システム内のプ
ロセッサと共用バスとの間のキャッシュ階層には通常、
1つまたは複数のキャッシュが含まれる。特定のメイン
・メモリ・アドレスに存在するデータの複数のコピーを
これらのキャッシュに記憶することができる。特定のア
ドレスが所与の時間に1つのデータ値しか記憶しない共
用メモリ・モデルを維持するために、共用バス・コンピ
ュータ・システムはキャッシュ・コヒーレンシを使用す
る。一般的に言えば、特定のメモリ・アドレスに記憶さ
れているデータに対する演算の効果がキャッシュ階層内
のデータの各コピーに反映される場合、その演算はコヒ
ーレントである。たとえば、特定のメモリ・アドレスに
記憶されているデータを更新したときには、前のデータ
のコピーを記憶しているキャッシュにその更新を供給す
ることができる。別法として、特定のメモリ・アドレス
へのその後のアクセスによって、更新済みコピーがメイ
ン・メモリから転送されるように、前のデータのコピー
をキャッシュ内で無効化することができる。共用バス・
システムの場合、通常、スヌープ・バス・プロトコルが
使用される。共用バス上で実行される各コヒーレント・
トランザクションは、キャッシュ内のデータと突き合わ
せて調べられる(あるいは「スヌープ」される)。影響
を受けるデータのコピーが見つかった場合、コヒーレン
ト・トランザクションに応答して、そのデータを含むキ
ャッシュ・ラインの状態を更新することができる。
【0006】残念なことに、共用バス・アーキテクチャ
は、多重処理コンピュータ・システムの有用性を制限す
るいくつかの欠点を有する。バスはピーク帯域幅を利用
することができる(たとえば、バスを介して転送できる
バイト数/秒)。バスに追加プロセッサを取り付ける
と、プロセッサにデータおよび命令を供給するのに必要
な帯域幅がピーク・バス帯域幅を超えることがある。い
くつかのプロセッサが使用可能なバス帯域幅を待たなけ
ればならないので、プロセッサの帯域幅要件が使用可能
なバス帯域幅を超えるとコンピュータ・システムの性能
が影響を受ける。
【0007】また、共用バスにより多くのプロセッサを
追加するとバスに対する容量負荷が増大し、場合によっ
てはバスの物理長が増加する。容量負荷が増大しバス長
が延びると、バスを横切って信号が伝搬する際の遅延が
長くなる。伝搬遅延が長くなるので、トランザクション
の実行時間が長くなる。したがって、より多くのプロセ
ッサを追加するほど、バスのピーク帯域幅が実際に減少
する。
【0008】これらの問題は、プロセッサの動作周波数
および性能が引き続き向上していることによってさらに
深刻化する。より高い周波数およびより高度なプロセッ
サ・マイクロアーキテクチャによって性能が向上するの
で、帯域幅要件は、プロセッサの数が同じであっても前
のプロセッサ世代より高くなる。したがって、前に多重
処理コンピュータ・システムに十分な帯域幅を与えたバ
スが、より高性能のプロセッサを使用する同様なコンピ
ュータ・システムには不十分であることがある。
【0009】多重処理コンピュータ・システム用の他の
構造は、分散共用メモリ・アーキテクチャである。分散
共用メモリ・アーキテクチャは、内部にプロセッサおよ
びメモリが存在する複数のノードを含む。複数のノード
は、その間の結合されたネットワークを介して通信す
る。全体的に考えると、複数のノード内に含まれるメモ
リは、コンピュータ・システムの共用メモリを形成す
る。通常、ディレクトリを使用して、どのノードが特定
のアドレスに対応するデータのキャッシュ・コピーを有
するかが識別される。ディレクトリを調べることによっ
てコヒーレンシ活動を生成することができる。
【0010】分散共用メモリ・システムは、スケーリン
グ可能であり、共用バス・アーキテクチャの制限を解消
する。多くのプロセッサ・アクセスはノード内で完了す
るので、通常、ノードがネットワーク上で有する帯域幅
要件は、共用バス・アーキテクチャが共用バス上で与え
なければならない帯域幅要件よりもずっと低い。ノード
は、高いクロック周波数および帯域幅で動作し、必要に
応じてネットワークにアクセスすることができる。ノー
ドのローカル帯域幅に影響を与えずにネットワークに追
加ノードを追加することができる。その代わり、ネット
ワーク帯域幅のみが影響を受ける。
【0011】
【発明が解決しようとする課題】残念なことに、リモー
ト・ノード(すなわち、当該のプロセッサを含むノード
以外のノード)に記憶されているメモリへのプロセッサ
・アクセスは、そのノード内のメモリへのアクセスより
もずっと低速である。特に、分散共用メモリ・システム
では、書込み動作の性能が著しく低下する。特定のノー
ド内のプロセッサによって書込み動作が実行され、その
特定のノードが、書込み動作の影響を受けるコヒーレン
シ単位への書込み許可を有さない場合、書込み動作は通
常、システムの残りの部分から書込み許可が得られるま
で停止する。書込みが停止すると、書込み許可が得られ
るまでプロセッサ資源(書込みデータ用の記憶位置な
ど)が占有される恐れがある。したがって、その後の動
作ではそのプロセッサ資源を使用することができず、そ
のため場合によっては、プロセッサの実行がさらに停止
される。分散共用メモリ・システム内で書込み動作を実
行するより効率的な方法が望ましい。
【0012】
【課題を解決するための手段】上記で概略的に述べた問
題は主として、本発明によるコンピュータ・システムに
よって解決される。このコンピュータ・システムでは、
ある種の書込み動作を実行するための「高速書込み」プ
ロトコルが定義される。書込み動作は、高速書込みプロ
トコルを使用して実行される場合、特定のコードを含
む。ノード内のシステム・インタフェースがその特定の
コードを検出すると、システム・インタフェースによっ
て書込み動作が取り込まれる。また、書込み動作を実行
するプロセッサからシステム・インタフェースへデータ
が転送される。データ転送は、ノードが、書込み動作の
実行に整合する、影響を受けるコヒーレンシ単位のコヒ
ーレンシ状態を維持していない場合でも実行される。そ
の代わり、適当なコヒーレンシ状態を得るために使用さ
れるコヒーレンシ活動は、プロセッサからデータを受け
取った後に、あるいはそれと並行して開始される。シス
テム・インタフェースが書込み動作に応答してコヒーレ
ンシ活動を実行している間に、プロセッサ資源が自由に
他のコンピューティング・タスクを継続するので有利で
ある。特に、プロセッサが多数の書込み動作を連続的に
実行するときは、高速書込みプロトコルを使用して書込
み動作を実行すると、コンピュータ・システムの性能を
向上させることができる。書込み動作は、前の書込み動
作によって占有されている資源を待つプロセッサ内で停
止するのではなくシステム・インタフェースへ迅速に転
送することができる。
【0013】コヒーレンシ単位への書込み許可を得る前
に高速書込み動作が実行される。コヒーレンシ単位を参
照する他の動作に対する順序付けは維持されない。した
がって、高速書込みプロトコルはコンピュータ・システ
ム内のすべての書込み動作に適しているわけではない。
しかし、性能を向上させるためにこのプロトコルを使用
することができる。たとえば、ソフトウェア同期動作の
影響を受ける一群の書込みは、同期の影響を受けない動
作に対する群として順序付けされるように見える。高速
書込みプロトコルを使用して一群の書込みを実行するこ
とによって得られる性能は、同期を実行するために使用
されていたシステム帯域幅を上回るものである。
【0014】一般に、ローカル処理ノード内のプロセッ
サによって書込み動作が実行され、書込み動作に応答し
て少なくとも1つのリモート処理ノードへのコヒーレン
シ動作が実行される。書込み動作は、高速書込みとして
コード化された場合、コヒーレンシ動作をグローバルに
順序付けする前にローカル処理ノード内で完了する。逆
に、書込み動作は、高速書込みとしてコード化されない
場合、コヒーレンシ動作をグローバルに順序付けした後
にローカル・ノード内で完了する。
【0015】概して、本発明は、多重処理コンピュータ
・システム内で書込み動作を実行する方法を企図するも
のである。多重処理コンピュータ・システムのローカル
処理ノード内のプロセッサによって書込み動作が実行さ
れる。書込み動作に応答して少なくとも1つのリモート
処理ノードへのコヒーレンシ動作が実行される。書込み
動作は、特定の所定のコードを含む場合、コヒーレンシ
動作が完了する前にローカル処理ノード内で完了する。
あるいは、書込み動作は、特定の所定のコードとは異な
るコードを含む場合、コヒーレンシ動作が完了した後に
ローカル処理ノード内で完了する。
【0016】本発明はさらに、プロセッサとシステム・
インタフェースとを備える多重処理コンピュータ・シス
テム内で書込み動作を実行する装置を企図するものであ
る。プロセッサは、書込み動作を実行するように構成さ
れる。システム・インタフェースは、書込み動作を受け
取り、書込み動作に応答してコヒーレンシ動作を実行す
るように結合され、書込み動作が特定の所定のコードを
含む場合にコヒーレンシ動作を完了する前にプロセッサ
に対する書込み動作を完了しておくように構成される。
システム・インタフェースはさらに、書込み動作が特定
の所定のコードとは異なるコードを含む場合に、コヒー
レンシ動作が完了するまでプロセッサに対する書込み動
作の完了を抑制するように構成される。
【0017】本発明はさらに、第1の処理ノードと第2
の処理ノードとを備えるコンピュータ・システムを企図
するものである。第1の処理ノードは、書込み動作を実
行するように構成された少なくとも1つのプロセッサを
含む。また、第1の処理ノードは、書込み動作が所定の
コードを含む場合、第1の処理ノードが書込み動作を可
能にするコヒーレンシ状態を得る前に、プロセッサに対
する書込み動作を完了しておくように構成される。第2
の処理ノードは、書込み動作の影響を受けるコヒーレン
シ単位のホーム・ノードとして構成される。第2の処理
ノードは、適当なコヒーレンシ状態を得るために、コヒ
ーレンシ要求を搬送する第1の処理ノードからコヒーレ
ンシ要求を受け取るように結合される。
【0018】本発明の他の目的および利点は、下記の詳
細な説明を読み添付の図面を参照したときに明らかにな
ろう。
【0019】
【発明の実施の形態】本発明では様々な修正形態および
変更形態が可能であるが、本発明の特定の実施形態が、
一例として図示され、本明細書に詳しく記載されてい
る。しかし、図面および詳細な説明が、開示した特定の
形態に本発明を制限するものではなく、本発明が、添付
の特許請求の範囲で定義した本発明の趣旨および範囲内
のすべての修正形態、等価物、変更形態をカバーするも
のであることを理解されたい。
【0020】次に、図1を参照すると、多重処理コンピ
ュータ・システム10の一実施形態のブロック図が示さ
れている。コンピュータ・システム10は、ポイント・
ツー・ポイント・ネットワーク14によって相互接続さ
れた複数のSMPノード12Aないし12Dを含む。本
明細書で特定の参照符号とその後に続く文字で参照され
た要素は、集合的に参照符号のみで参照する。たとえ
ば、SMPノード12Aないし12Dを集合的にSMP
ノード12と呼ぶ。図の実施形態では、各SMPノード
12は、複数のプロセッサと、外部キャッシュと、SM
Pバスと、メモリと、システム・インタフェースとを含
む。たとえば、SMPノード12Aは、プロセッサ16
Aないし16Bを含む複数のプロセッサと共に構成され
る。プロセッサ16は外部キャッシュ18に接続され、
外部キャッシュ18はさらにSMPバス20に結合され
る。また、メモリ22およびシステム・インタフェース
24はSMPバス20に結合される。さらに、SMPバ
ス20に1つまたは複数の入出力(I/O)インタフェ
ース26を結合することができる。入出力インタフェー
ス26は、シリアル・ポートおよびパラレル・ポート、
ディスク・ドライブ、モデム、プリンタなどの周辺装置
とのインタフェースをとるために使用される。他のSM
Pノード12Bないし12Dを同様に構成することがで
きる。
【0021】一般的に言えば、コンピュータ・システム
10は、ローカルSMPノード12からリモートSMP
ノード12への書込み動作を実行するように最適化され
る。ローカルSMPノード12内のプロセッサ16は、
書込み動作が「高速書込み」プロトコルを使用して実行
されることを示す特定のコードを有する書込み動作を実
行する。システム・インタフェース24は、「高速書込
み」書込み動作を検出すると、書込み動作を記憶し、ま
た、プロセッサからシステム・インタフェースへの書込
み動作に対応するデータを転送できるようにする。この
場合、データは、書込み動作の影響を受けるコヒーレン
シ単位の所有権を得る(たとえば、コヒーレンシ単位へ
の書込み許可を得る)ためにコヒーレンシ動作を実行す
る前に転送される。プロセッサ16は書込み動作を迅速
に完了するので有利である。プロセッサ16の内部の資
源は、その後の動作で使用できるように解放される。従
来よりも迅速にプロセッサ資源を解放することによって
コンピュータ・システムの性能を向上させることができ
る。
【0022】特定の一実施形態では、SMPバス20上
のプロセッサ16から与えられるアドレスのある上位ビ
ットが、特定の高速動作に高速書込みプロトコルが使用
されることを示す。残りのビットは、宛先ノードと、宛
先ノードのメモリ22内の宛先記憶位置を識別するロー
カル物理アドレスを指定する。残りのビットは、影響を
受けるコヒーレンシ単位を記憶するリモート・ノードを
識別するグローバル・アドレスでもよい。また、高速書
込みプロトコルは、特定の実施形態では書込みストリー
ム動作に制限される。書込みストリーム動作はコヒーレ
ンシ単位全体を更新する。したがって、書込みストリー
ム動作を実行するプロセッサ16は、更新すべきコヒー
レンシ単位のコピーを得る必要はない。高速書込みプロ
トコルでは、書込みストリーム動作に関する順序付け要
件も削除され、それによって、このような動作をプロセ
ッサ16から迅速に削除することができる。このような
書込みストリーム動作は、互いに順序付けされるが、プ
ロセッサ16によって実行される他の動作に対しては順
序付けされない。
【0023】高速書込みプロトコルは、多くの理由で有
用である。一般的に言えば、ローカル・ノード内のロー
カル・コピーを得ることが望ましくない、リモート・ノ
ードに対して実行すべき書込み動作を、高速書込みプロ
トコルを介して実行できるので有利である。たとえば、
SMPバス20上のグローバル・アドレスを使用する書
込み動作を、高速書込みプロトコルを使用して実行する
ことができる。他の例を挙げると、ローカル発送元ブロ
ック(たとえば、ページ)のリモート宛先ブロックへの
ブロック・コピーを実行することができる。プロセッサ
16は、ブロック・コピー動作を実行するために、ロー
カル発送元ブロックからデータを読み取り、そのデータ
をリモート宛先ブロックに書き込む。プロセッサ16
は、高速書込み動作を使用して、データをリモート宛先
ブロックに書き込むことができる。また、高速書込みプ
ロトコルを使用して大型のプロセッサ間通信ブロック
(すなわち、いくつかのコヒーレンシ単位)を転送する
こともできる。通信ブロックが送られてから、受取側プ
ロセッサが通信ブロックを使用できることを示すフラグ
がセットされるまでの間に同期動作が必要なので、小型
のブロックがこの高速書込みプロトコルを使用すること
はできない。
【0024】一般的に言えば、メモリ動作とは、データ
を発送元から宛先へ転送させる動作である。発送元また
は宛先、あるいはその両方は、開始側内の記憶位置で
も、あるいはメモリ内の記憶位置でもよい。発送元また
は宛先は、メモリ内の記憶位置であるとき、メモリ動作
と共に搬送されるアドレスを介して指定される。メモリ
動作は、読取り動作でも、あるいは書込み動作でもよ
い。読取り動作では、データが開始側の外側の発送元か
ら開始側内の宛先へ転送される。逆に、書込み動作で
は、データが開始側内の発送元から開始側の外側の宛先
へ転送される。図1に示したコンピュータ・システムで
は、メモリ動作は、SMPバス20上の1つまたは複数
のトランザクションと、ネットワーク14上の1つまた
は複数のコヒーレンシ動作を含むことができる。
【0025】アーキテクチャの概要 各SMPノード12は基本的に、メモリ22を共用メモ
リとして有するSMPシステムである。プロセッサ16
は、高性能プロセッサである。一実施形態では、各プロ
セッサ16は、SPARCプロセッサ・アーキテクチャ
のバージョン9に適合するSPARCプロセッサであ
る。しかし、プロセッサ16が任意のプロセッサ・アー
キテクチャを使用できることに留意されたい。
【0026】通常、プロセッサ16は、内部命令キャッ
シュと内部データ・キャッシュとを含む。したがって、
外部キャッシュ18はL2キャッシュと呼ばれる(レベ
ル2を表す。内部キャッシュはレベル1キャッシュであ
る)。プロセッサ16が内部キャッシュと共に構成され
ていない場合、外部キャッシュ18はレベル1キャッシ
ュである。「レベル」の語が、特定のキャッシュがプロ
セッサ16内の処理コアにどのくらい近接しているかを
識別するために使用されることに留意されたい。レベル
1は、処理コアに最も近く、レベル2は2番目に近く、
以下同様である。外部キャッシュ18は、それに結合さ
れたプロセッサ16から頻繁にアクセスされるメモリ・
アドレスに迅速にアクセスする。外部キャッシュ18が
様々な特定のキャッシュ構成として構成できることに留
意されたい。たとえば、外部キャッシュ18によってセ
ットアソシエーティブ構成または直接マップ構成を使用
することができる。
【0027】SMPバス20は、プロセッサ16(キャ
ッシュ18を通じた通信)とメモリ22とシステム・イ
ンタフェース24と入出力インタフェース26との間の
通信に適応する。一実施形態では、SMPバス20は、
アドレス・バスおよび関連する制御信号、ならびにデー
タ・バスおよび関連する制御信号を含む。アドレス・バ
スとデータ・バスが別々のものなので、SMPバス20
上で分割トランザクション・バス・プロトコルを使用す
ることができる。一般的に言えば、分割トランザクショ
ン・バス・プロトコルは、アドレス・バス上で行われる
トランザクションが、データ・バス上で行われる並行ト
ランザクションとは異なるものでよいプロトコルであ
る。アドレスとデータを使用するトランザクションは、
アドレス・バス上でアドレスおよび関連する制御情報が
搬送されるアドレス・フェーズと、データ・バス上でデ
ータが搬送されるデータ・フェーズとを含む。特定のア
ドレス・フェーズに対応するデータ・フェーズの前に、
他のトランザクションに関する追加アドレス・フェーズ
または追加データ・フェーズ、あるいはその両方を開始
することができる。アドレス・フェーズと対応するデー
タ・フェーズは、多数の方法で相関付けることができ
る。たとえば、データ・トランザクションをアドレス・
トランザクションと同じ順序で行うことができる。別法
として、トランザクションのアドレス・フェーズとデー
タ・フェーズを固有のタグを介して識別することができ
る。
【0028】メモリ22は、プロセッサ16によって使
用されるデータおよび命令コードを記憶するように構成
される。メモリ22は、ダイナミック・ランダム・アク
セス・メモリ(DRAM)を備えることが好ましい。た
だし、任意のタイプのメモリを使用することができる。
メモリ22は、他のSMPノード12内の図示した同様
なメモリと共に、分散共用メモリ・システムを形成す
る。分散共用メモリのアドレス空間の各アドレスは、そ
のアドレスのホーム・ノードと呼ばれる特定のノードに
割り当てられる。ホーム・ノードとは異なるノード内の
プロセッサは、ホーム・ノードのアドレスにあるデータ
にアクセスし、場合によってはデータをキャッシュする
ことができる。したがって、SMPノード12どうしの
間と、特定のSMPノード12Aないし12D内のプロ
セッサ16とキャッシュ18との間に、コヒーレンシが
維持される。システム・インタフェース24はノード間
コヒーレンシを与え、それに対してSMPバス20上の
スヌーピングはノード内コヒーレンシを与える。
【0029】システム・インタフェース24は、ノード
間コヒーレンシを維持するだけでなく、他のSMPノー
ド12との間のデータ転送を必要とするSMPバス20
上のアドレスを検出する。システム・インタフェース2
4は、転送を実行し、トランザクションのための対応す
るデータをSMPバス20上に与える。図の実施形態で
は、システム・インタフェース24はポイント・ツー・
ポイント・ネットワーク14に結合される。しかし、代
替実施形態では他のネットワークを使用できることに留
意されたい。ポイント・ツー・ポイント・ネットワーク
では、ネットワーク上の各ノード間に個別の接続が存在
する。特定のノードは、専用リンクを介して第2のノー
ドと直接通信する。特定のノードは、第3のノードと通
信するときは、第2のノードと通信するために使用した
リンクとは異なるリンクを使用する。
【0030】図1では4つのSMPノード12が示され
ているが、任意の数のノードを使用するコンピュータ・
システム10の実施形態が企図されることに留意された
い。
【0031】図2Aおよび2Bは、コンピュータ・シス
テム10の一実施形態によってサポートされる分散メモ
リ・アーキテクチャの概念図である。具体的には、図2
Aおよび2Bは、図1の各SMPノード12がデータを
キャッシュしメモリ・アクセスを実行する代替方法を示
す。コンピュータ・システム10がそのようなアクセス
をサポートする方法に関する詳細については、下記で詳
しく説明する。
【0032】次に、図2Aを参照すると、コンピュータ
・システム10の一実施形態によってサポートされる第
1のメモリ・アーキテクチャ30を示す論理図が示され
ている。アーキテクチャ30は、複数のプロセッサ32
Aないし32Dと、複数のキャッシュ34Aないし34
Dと、複数のメモリ36Aないし36Dと、相互接続ネ
ットワーク38とを含む。複数のメモリ36は分散共用
メモリを形成する。アドレス空間内の各アドレスは、1
つのメモリ36内の位置に対応する。
【0033】アーキテクチャ30は非一様メモリ・アー
キテクチャ(NUMA)である。NUMAアーキテクチ
ャでは、第1のメモリ・アドレスにアクセスするのに必
要な時間の長さが、第2のメモリ・アドレスにアクセス
するのに必要な時間の長さと大幅に異なることがある。
アクセス時間は、アクセスの開始側と、アクセスされた
データを記憶しているメモリ36Aないし36Dの位置
に依存する。たとえば、プロセッサ32Aが、メモリ3
6Aに記憶されている第1のメモリ・アドレスにアクセ
スする場合、このアクセス時間は、メモリ36Bないし
36Dのうちの1つに記憶されている第2のメモリ・ア
ドレスへのアクセスのアクセス時間よりもずっと短い。
すなわち、プロセッサ32Aによるメモリ36Aへのア
クセスはローカルに(たとえば、ネットワーク38上で
の転送なしに)完了することができ、それに対してメモ
リ36Bへのプロセッサ32Aアクセスはネットワーク
38を介して実行される。通常、ネットワーク38を通
じたアクセスは、ローカル・メモリ内で完了するアクセ
スよりも低速である。たとえば、ローカル・アクセスは
数百ナノ秒で完了することができ、それに対してネット
ワークを介したアクセスは数マイクロ秒を占有する可能
性がある。
【0034】リモート・ノードに記憶されているアドレ
スに対応するデータは任意のキャッシュ34にキャッシ
ュすることができる。しかし、キャッシュ34がそのよ
うなリモート・アドレスに対応するデータを放棄した
後、リモート・アドレスへのその後のアクセスはネット
ワーク38上での転送を介して完了する。
【0035】NUMAアーキテクチャは、主として特定
のローカル・メモリに対応するアドレスを使用するソフ
トウェア・アプリケーションに優れた性能特性を付与す
ることができる。一方、より多くのランダム・アクセス
・パターンを有しメモリ・アクセスを特定のローカル・
メモリ内のアドレスに制限しないソフトウェア・アプリ
ケーションは、特定のプロセッサ32がリモート・ノー
ドへの反復アクセスを実行するときに大量のネットワー
ク・トラフィックを経験する。
【0036】次に図2Bを参照すると、図1のコンピュ
ータ・システム10によってサポートされる第2のメモ
リ・アーキテクチャ40を示す論理図が示されている。
アーキテクチャ40は、複数のプロセッサ42Aないし
42Dと、複数のキャッシュ44Aないし44Dと、複
数のメモリ46Aないし46Dと、ネットワーク48と
を含む。しかし、メモリ46はキャッシュ44とネット
ワーク48との間に論理的に結合される。メモリ46
は、より大規模なキャッシュ(たとえば、レベル3のキ
ャッシュ)として働き、対応するプロセッサ42からア
クセスされるアドレスを記憶する。メモリ46は、対応
するプロセッサ42から作用を受けているデータを「ア
トラクトする」と言われる。図2Aに示したNUMAア
ーキテクチャとは異なり、アーキテクチャ40は、ロー
カル・プロセッサがリモート・データにアクセスする際
にリモート・データをローカル・メモリに記憶すること
によってネットワーク48上のアクセスの数を低減させ
る。
【0037】アーキテクチャ40をキャッシュ専用メモ
リ・アーキテクチャ(COMA)と呼ぶ。メモリ46の
組合せで形成された分散共用メモリ内の複数の位置は、
特定のアドレスに対応するデータを記憶することができ
る。特定の記憶位置に特定のアドレスの永久的なマッピ
ングが割り当てられることはない。その代わり、特定の
アドレスに対応するデータを記憶する位置は、その特定
のアドレスにアクセスするプロセッサ42に基づいて動
的に変化する。逆に、NUMAアーキテクチャでは、メ
モリ46内の特定の記憶位置が特定のアドレスに割り当
てられる。アーキテクチャ40は、アーキテクチャ上で
実行中のアプリケーションによって実行されるメモリ・
アクセス・パターンに調整し、メモリ46どうしの間で
コヒーレンシが維持される。
【0038】好ましい実施形態では、コンピュータ・シ
ステム10は、図2Aおよび2Bに示した両方のメモリ
・アーキテクチャをサポートする。具体的には、メモリ
・アドレスに、1つのSMPノード12Aないし12D
からNUMA方式でアクセスし、同時に他のSMPノー
ド12Aないし12DからCOMA方式でアクセスする
ことができる。一実施形態では、SMPバス20上のア
ドレスのあるビットが、他のSMPノード12を、与え
られたアドレスのホーム・ノードとして識別している場
合に、NUMAアクセスが検出される。そうでない場合
は、COMAアクセスが仮定される。他の詳細を下記に
与える。
【0039】一実施形態では、COMAアーキテクチャ
は、ハードウェア技法とソフトウェア技法の組合せを使
用して実施される。ハードウェアは、ページのローカル
にキャッシュされたコピー間のコヒーレンシを維持し、
ソフトウェア(たとえば、コンピュータ・システム10
で使用されるオペレーティング・システム)は、キャッ
シュされたページを割り振り、割り振り解除する責任を
負う。
【0040】図3は、一般に、図1に示したSMPノー
ド12Aに適合する、SMPノード12Aの一実施形態
の詳細を示す。他のノード12も同様に構成することが
できる。図1の各SMPノード12の特定の代替実施形
態も可能であることに留意されたい。図3に示したSM
Pノード12Aの実施形態は、サブノード50Aやサブ
ノード50Bなど複数のサブノードを含む。各サブノー
ド50は、2つのプロセッサ16および対応するキャッ
シュ18と、メモリ部分56と、アドレス・コントロー
ラ52と、データ・コントローラ54とを含む。サブノ
ード50内のメモリ部分56は集合的に、図1のSMP
ノード12Aのメモリ22を形成する。他のサブノード
(図示せず)はさらに、SMPバス20に結合され入出
力インタフェース26を形成する。
【0041】図3に示したように、SMPバス20は、
アドレス・バス58とデータ・バス60とを含む。アド
レス・コントローラ52はアドレス・バス58に結合さ
れ、データ・コントローラ54はデータ・バス60に結
合される。図3は、システム・インタフェース論理ブロ
ック62と、変換記憶域64と、ディレクトリ66と、
メモリ・タグ(MTAG)68とを含むシステム・イン
タフェース24も示す。論理ブロック62は、アドレス
・バス58とデータ・バス60の両方に結合され、下記
で詳しく説明するようにある種の状況でアドレス・バス
58上で無視信号70をアサートする。論理ブロック6
2は、変換記憶域64、ディレクトリ66、MTAG6
8、ネットワーク14にも結合される。
【0042】図3の実施形態では、各サブノード50
は、SMPバス20が配置されたバックプレーンに挿入
できるプリント回路ボード上に構成される。このよう
に、SMPノード12内に含まれるプロセッサまたは入
出力インタフェース26あるいはその両方の数は、サブ
ノード50を挿入しあるいは取り外すことによって変更
することができる。たとえば、コンピュータ・システム
10は最初、少数のサブノード50と共に構成すること
ができる。コンピュータ・システム10のユーザが必要
とするコンピューティング・パワーが増大するにつれて
必要に応じて追加サブノード50を追加することができ
る。
【0043】アドレス・コントローラ52は、キャッシ
ュ18とSMP20のアドレス部分との間のインタフェ
ースを形成する。図の実施形態では、アドレス・コント
ローラ52は、出力待ち行列72といくつかの入力待ち
行列74とを含む。出力待ち行列72は、アドレス・コ
ントローラ52がアドレス・バス58へのアクセスを許
可されるまで出力待ち行列に接続されたプロセッサから
のトランザクションをバッファする。アドレス・コント
ローラ52は、出力待ち行列72に記憶されているトラ
ンザクションを、それらが出力待ち行列72に入れられ
た順に実行する(すなわち、出力待ち行列72はFIF
O待ち行列である)。アドレス・コントローラ52によ
って実行されるトランザクション、ならびにキャッシュ
18およびプロセッサ16の内部のキャッシュによって
スヌープされるアドレス・バス58から受け取ったトラ
ンザクションは、入力待ち行列74に入れられる。
【0044】出力待ち行列72と同様に、入力待ち行列
74はFIFO待ち行列である。すべてのアドレス・ト
ランザクションは、各サブノード50の入力待ち行列7
4(場合によっては、アドレス・トランザクションを開
始したサブノード50の入力待ち行列74内)に記憶さ
れる。したがって、アドレス・トランザクションは、ス
ヌーピングのために、アドレス・トランザクションがア
ドレス・バス58上で行われる順にキャッシュ18およ
びプロセッサ16に与えられる。トランザクションがア
ドレス・バス58上で行われる順序は、SMPノード1
2Aの順序である。しかし、完全なシステムは1つのグ
ローバル・メモリ順序を有することが予期される。この
ように順序が予期されるため、ネットワーク14上の動
作の順序によってグローバル順序を確立する必要がある
ので、コンピュータ・システム10が使用するNUMA
アーキテクチャとCOMAアーキテクチャの両方で問題
が生じる。2つのノードがあるアドレスに対するトラン
ザクションを実行する場合、そのアドレスのホーム・ノ
ードで対応するコヒーレンシ動作が行われる順序は、各
ノード内で見られる2つのトランザクションの順序を決
める。たとえば、同じアドレスに対して2つの書込みト
ランザクションが実行される場合、そのアドレスのホー
ム・ノードに2番目に到着する書込み動作は2番目に完
了する書込みトランザクションであるべきである。すな
わち、両方の書込みトランザクションによって更新され
るバイト位置は、両方のトランザクションの完了時に第
2の書込みトランザクションから与えられる値を記憶す
る。しかし、第2のトランザクションを実行するノード
は実際には、SMPバス20上で最初に第2のトランザ
クションを行わせることができる。無視信号70によっ
て、SMPノード12の残りの部分が第2のトランザク
ションに反応することなしに、第2のトランザクション
をシステム・インタフェース24へ転送することができ
る。
【0045】したがって、システム・インタフェース論
理ブロック62は、アドレス・コントローラ52の出力
待ち行列/入力待ち行列構造によって課される順序付け
制約と共に効果的に動作するために、無視信号70を使
用する。アドレス・バス58上にトランザクションが与
えられ、システム・インタフェース論理ブロック62
が、このトランザクションに応答してリモート・トラン
ザクションを実行すべきであることを検出すると、論理
ブロック62は無視信号70をアサートする。あるトラ
ンザクションに対して無視信号70をアサートすると、
アドレス・コントローラ52は入力待ち行列74へのそ
のトランザクションの格納を抑制する。したがって、無
視されたトランザクションに続いて行われ、SMPノー
ド12A内でローカルに完了する他のトランザクション
は、入力待ち行列74の順序付け規則を破らずに、無視
されたトランザクションに対して所定の順序とは異なる
順序で完了することができる。具体的には、ネットワー
ク14上のコヒーレンシ活動に応答してシステム・イン
タフェース24によって実行されるトランザクション
を、無視されたトランザクションの後に続けて実行し完
了することができる。リモート・トランザクションから
応答を受け取ったときに、システム・インタフェース論
理ブロック62によって、無視されたトランザクション
をアドレス・バス58上で再発行することができる。そ
れによって、トランザクションは、入力待ち行列74に
入れられ、再発行時に行われるトランザクションと共に
順序正しく完了することができる。
【0046】一実施形態では、特定のアドレス・コント
ローラ52からのトランザクションが無視された後、そ
の特定のアドレス・コントローラ52からのその後のコ
ヒーレント・トランザクションも無視される。特定のプ
ロセッサ16からのトランザクションは、アドレス・バ
ス58上に与えられることによって課される順序付け要
件にはかかわらず、互いに重要な順序付け関係を有する
ことができる。たとえば、トランザクションは、SPA
RCアーキテクチャに含まれるMEMBAR命令などの
メモリ同期命令によって他のトランザクションから分離
することができる。プロセッサ16は、トランザクショ
ンを、それらが互いに実行される順に搬送する。トラン
ザクションは、出力待ち行列72内で順序付けされ、し
たがって、特定の出力待ち行列72から発行されるトラ
ンザクションは順序正しく実行されるはずである。特定
のアドレス・コントローラ52からのその後のトランザ
クションを無視することによって、特定の出力待ち行列
72に関するインオーダー規則を保存することができ
る。さらに、特定のプロセッサからのすべてのトランザ
クションを順序付けなくて済むことに留意されたい。し
かし、アドレス・バス58上で、どのトランザクション
を順序付けなければならないかと、どのトランザクショ
ンを順序付けなくてもよいかを判定することは困難であ
る。したがって、この実施形態で、論理ブロック62は
特定の出力待ち行列72からのすべてのトランザクショ
ンの順序を維持する。この規則の例外を許容するサブノ
ード50の他の実施形態が可能であることに留意された
い。
【0047】データ・コントローラ54は、データ・バ
ス60、メモリ部分56、キャッシュ18との間でデー
タをルーティングする。データ・コントローラ54は、
アドレス・コントローラ52と同様な入力待ち行列と出
力待ち行列とを含むことができる。一実施形態では、デ
ータ・コントローラ54は、バイト・スライス・バス構
成の複数の物理装置を使用する。
【0048】図3に示したプロセッサ16は、メモリ管
理装置(MMU)76Aないし76Bを含む。MMU7
6は、プロセッサ16上で実行される命令コードによっ
て生成されたデータ・アドレスと、命令アドレスに対し
て、仮想アドレス/物理アドレス変換を実行する。命令
の実行に応答して生成されるアドレスは仮想アドレスで
ある。言い換えれば、仮想アドレスは、命令コードのプ
ログラマによって作成されるアドレスである。仮想アド
レスは(MMU76内で具体化される)アドレス変換機
構を通過し、アドレス変換機構から対応する物理アドレ
スが作成される。物理アドレスは、メモリ22内の記憶
位置を識別する。
【0049】アドレス変換は多数の理由で実行される。
たとえば、アドレス変換機構を使用して、あるメモリ・
アドレスに対する特定のコンピューティング・タスクの
アクセスを許可または拒否することができる。このよう
に、あるコンピューティング・タスク内のデータおよび
命令は、他のコンピューティング・タスクのデータおよ
び命令から分離される。また、コンピューティング・タ
スクのデータおよび命令の各部分は、ハード・ディスク
・ドライブに「ページアウト」することができる。ある
部分がページアウトされると、その変換は無効化され
る。コンピューティング・タスクによるその部分へのア
クセス時には、変換が失敗しているために割り込みが行
われる。この割り込みによって、オペレーティング・シ
ステムは、ハード・ディスク・ドライブから対応する情
報を検索することができる。このように、メモリ22内
の実際のメモリよりも多くの仮想メモリを使用すること
ができる。仮想メモリの他の多くの用途が良く知られて
いる。
【0050】再び、図1に示したコンピュータ・システ
ム10を、図3に示したSMPノード12A実施形態と
共に参照すると分かるように、MMU76によって算出
される物理アドレスは、プロセッサ16が配置されたS
MPノード12に関連付けられたメモリ22内の位置を
定義するローカル物理アドレス(LPA)である。MT
AG68は、メモリ22内の各「コヒーレンシ単位」ご
とにコヒーレンシ状態を記憶する。SMPバス20上で
アドレス変換が実行されると、システム・インタフェー
ス論理ブロック62は、アクセスされたコヒーレンシ単
位に関する、MTAG68に記憶されているコヒーレン
シ状態を調べる。SMPノード12がこのアクセスを実
行するのに十分な、このコヒーレンシ単位へのアクセス
権を有することをコヒーレンシ状態が示している場合、
アドレス変換は続行する。しかし、トランザクションを
完了する前にコヒーレンシ活動を実行すべきであること
をコヒーレンシ状態が示している場合、システム・イン
タフェース論理ブロック62は無視信号70をアサート
する。論理ブロック62は、ネットワーク14上でコヒ
ーレンシ動作を実行し、適当なコヒーレンシ状態を得
る。適当なコヒーレンシ状態が得られると、論理ブロッ
ク62は、無視されたトランザクションをSMPバス2
0上で再発行する。それに続いて、トランザクションが
完了する。
【0051】一般的に言えば、特定の記憶位置(たとえ
ば、キャッシュまたはメモリ22)でコヒーレンシ単位
に関して維持されるコヒーレンシ状態は、そのSMPノ
ード12でのコヒーレンシ単位へのアクセス権を示す。
このアクセス権は、コヒーレンシ単位の妥当性と、その
SMPノード12内でコヒーレンシ単位のコピーに対し
て与えられている読取り/書込み許可を示す。一実施形
態では、コンピュータ・システム10によって使用され
るコヒーレンシ状態は、修正、所有、共用、無効であ
る。修正状態は、SMPノード12が対応するコヒーレ
ンシ単位を更新したことを示す。したがって、他のSM
Pノード12はこのコヒーレンシ単位のコピーを有さな
い。また、修正されたコヒーレンシ単位は、SMPノー
ド12から放棄されると、再びホーム・ノードに記憶さ
れる。所有状態は、このコヒーレンシ単位に対してSM
Pノード12が責任を負うが、他のSMPノード12が
コピーを共用している可能性があることを示す。この場
合も、コヒーレンシ単位は、SMPノード12から放棄
されると、再びホーム・ノードに記憶される。共用状態
は、SMPノード12がコヒーレンシ単位を読み取るこ
とはできるが、所有状態を得ないかぎり更新することは
できないことを示す。また、他のSMPノード12もこ
のコヒーレンシ単位のコピーを有する可能性がある。最
後に、無効状態は、SMPノード12がコヒーレンシ単
位のコピーを有さないことを示す。一実施形態では、修
正状態は、書込み許可を示すが、無効状態を除く状態
は、対応するコヒーレンシ単位への読取り許可を示す。
【0052】本明細書では、コヒーレンシ単位は、コヒ
ーレンシのために単位とみなされるメモリのいくつかの
連続バイトである。たとえば、コヒーレンシ単位内の1
バイトが更新された場合、コヒーレンシ単位全体が更新
されたとみなされる。特定の一実施形態では、コヒーレ
ンシ単位はキャッシュ・ラインであり、連続64バイト
を備える。しかし、コヒーレンシ単位が任意の数のバイ
トを備えることができることが理解されよう。
【0053】システム・インタフェース24は、変換記
憶域64を使用してローカル物理アドレスからグローバ
ル・アドレス(GA)への変換を記憶する変換機構も含
む。グローバル・アドレス内のあるビットは、そのグロ
ーバル・アドレスに関するコヒーレンシ情報が記憶され
ているアドレスのホーム・ノードを識別する。たとえ
ば、コンピュータ・システム10の実施形態は、図1の
SMPノードなど4つのSMPノード12を使用するこ
とができる。そのような実施形態では、グローバル・ア
ドレスの2ビットがホーム・ノードを識別する。グロー
バル・アドレスの最上位部分のビットはホーム・ノード
を識別するために使用されることが好ましい。同じビッ
トが、ローカル物理アドレスではNUMAアクセスを識
別するために使用される。LPAのビットが、ローカル
・ノードがホーム・ノードではないことを示す場合、そ
のLPAはグローバル・アドレスであり、トランザクシ
ョンはNUMAモードで実行される。したがって、オペ
レーティング・システムは、NUMAタイプ・ページの
場合はMMU76にグローバル・アドレスを置く。逆
に、オペレーティング・システムは、COMAタイプ・
ページの場合にはMMU76にLPAを置く。LPA
が、GAに等しくてよい(ホームが、LPAが与えられ
たノードのメモリ22内にある、NUMAアドレスなら
びにグローバル・アドレスの場合)ことに留意された
い。また、LPAは、他のSMPノード12にホームを
有するデータのコピーを記憶するために使用される記憶
位置を識別するときはGAに変換することができる。
【0054】特定のホーム・ノードのディレクトリ66
は、どのSMPノード12が、コピー間のコヒーレンシ
が維持できるようにホーム・ノードに割り当てられた所
与のグローバル・アドレスに対応するデータのコピーを
有するかを識別する。また、ホーム・ノードのディレク
トリ66は、コヒーレンシ単位を所有するSMPノード
12を識別する。したがって、キャッシュ18とプロセ
ッサ16との間のローカル・コヒーレンシはスヌーピン
グを介して維持され、それに対してシステム・ワイド
(またはグローバル)コヒーレンシはMTAG68およ
びディレクトリ66を使用して維持される。ディレクト
リ66は、SMPノード12Aに割り当てられた(すな
わち、SMPノード12Aがホーム・ノードである)コ
ヒーレンシ単位に対応するコヒーレンシ情報を記憶す
る。
【0055】図3の実施形態では、ディレクトリ66お
よびMTAG68が各コヒーレンシ単位ごとに情報を記
憶することに留意されたい。逆に、変換記憶域64は、
ページに関して定義されたローカル物理/グローバル変
換を記憶する。ページは、複数のコヒーレンシ単位を含
み、通常、サイズが数キロバイト、あるいは場合によっ
ては数メガバイトである。
【0056】したがって、ソフトウェアは、ページごと
にローカル物理アドレス/グローバル・アドレス変換を
作成する。それによって、リモートに記憶されているグ
ローバル・ページのコピーを記憶するローカル・メモリ
・ページを割り振る。したがって、メモリ22のブロッ
クはページごとにも特定のグローバル・アドレスに割り
振られる。しかし、前述のように、コヒーレンシ状態お
よびコヒーレンシ活動はコヒーレンシ単位上で実行され
る。したがって、メモリの特定のグローバル・アドレス
にページが割り振られたときに、ページに対応するデー
タは必ずしも、割り振られたメモリへ転送されるわけで
はない。その代わり、プロセッサ16がページ内の様々
なコヒーレンシ単位にアクセスすると、それらのコヒー
レンシ単位はコヒーレンシ単位の所有者から転送され
る。このように、SMPノード12Aから実際にアクセ
スされたデータは、対応するメモリ22へ転送される。
SMPノード12Aからアクセスされないデータは転送
できず、そのため、メモリ22内のページの割り振り時
にデータのページを転送する実施形態と比べてネットワ
ーク14上の全体的な帯域幅使用度が低減する。
【0057】一実施形態では、変換記憶域64、または
ディレクトリ66、またはMTAG68、あるいはそれ
らの組合せはそれぞれ、関連する変換、ディレクトリ、
MTAG情報の一部しか記憶しないキャッシュでよいこ
とに留意されたい。変換、ディレクトリ、MTAG情報
の全体は、メモリ22内のテーブルまたは専用メモリ記
憶域(図示せず)に記憶される。アクセスに必要な情報
が対応するキャッシュにない場合、テーブルはシステム
・インタフェース24からアクセスされる。
【0058】次に、図4を参照すると、例示的なディレ
クトリ・エントリ71が示されている。ディレクトリ・
エントリ71は、図3に示したディレクトリ66の一実
施形態によって使用することができる。ディレクトリ6
6の他の実施形態は、異なるディレクトリ・エントリを
使用することができる。ディレクトリ・エントリ71
は、有効ビット73と、書き直しビット75と、所有者
フィールド77と、共用者フィールド79とを含む。デ
ィレクトリ・エントリ71は、ディレクトリ・エントリ
のテーブル内に存在し、対応するコヒーレンシ単位を識
別するグローバル・アドレスを介してテーブル内に配置
される。具体的には、コヒーレンシ単位に関連付けられ
たディレクトリ・エントリ71は、コヒーレンシ単位を
識別するグローバル・アドレスで形成されたオフセット
位置にあるディレクトリ・エントリのテーブル内に記憶
される。
【0059】有効ビット73は、セットされると、ディ
レクトリ・エントリ71が有効である(すなわち、その
ディレクトリ・エントリ71は、対応するコヒーレンシ
単位に関するコヒーレンシ情報を記憶している)ことを
示す。有効ビット73は、クリアされると、そのディレ
クトリ・エントリ71が無効であることを示す。
【0060】所有者フィールド77は、1つのSMPノ
ード12をコヒーレンシ単位の所有者として識別する。
所有側SMPノード12Aないし12Dは、コヒーレン
シ単位を修正状態と所有状態のどちらかで維持する。通
常、所有側SMPノード12Aないし12Dは、コヒー
レンシ単位を修正状態で得る(下記の図15を参照され
たい)。それに続いて、所有側SMPノード12Aない
し12Dは、コヒーレンシ単位のコピーを他のSMPノ
ード12Aないし12Dに与える際に所有状態に遷移す
ることができる。他のSMPノード12Aないし12D
はコヒーレンシ単位を共用状態で得る。一実施形態で
は、所有者フィールド77は、4つのSMPノード12
Aないし12Dのうちの1つをコヒーレンシ単位の所有
者として識別するようにコード化された2つのビットを
備える。
【0061】共用者フィールド79は、各SMPノード
12Aないし12Dに割り当てられた1つのビットを含
む。SMPノード12Aないし12Dがコヒーレンシ単
位の共用コピーを維持している場合、共用者フィールド
79内の対応するビットがセットされる。逆に、SMP
ノード12Aないし12Dがコヒーレンシ単位の共用コ
ピーを維持していない場合、共用者フィールド79内の
対応するビットはクリアされる。このように、共用者フ
ィールド79は、図1のコンピュータ・システム10内
に存在するコヒーレンシ単位のすべての共用コピーを示
す。
【0062】書き直しビット75は、セットされると、
所有者フィールド77を介してコヒーレンシ単位の所有
者として識別されたSMPノード12Aないし12Dが
コヒーレンシ単位の更新済みコピーをホームSMPノー
ド12に書き込んだことを示す。ビット75は、クリア
されると、所有側SMPノード12Aないし12Dがコ
ヒーレンシ単位の更新済みコピーをホームSMPノード
12Aないし12Dに書き込んでいないことを示す。
【0063】次に図5を参照すると、システム・インタ
フェース24の一実施形態のブロック図が示されてい
る。図5に示したように、システム・インタフェース2
4は、ディレクトリ66と、変換記憶域64と、MTA
G68とを含む。変換記憶域64は、グローバル・アド
レス・ローカル物理アドレス(GA2LPA)変換装置
80およびローカル物理アドレス・グローバル・アドレ
ス(LPA2GA)変換装置82として示されている。
【0064】システム・インタフェース24は、SMP
バス20またはネットワーク14上で実行すべきトラン
ザクションを記憶するための入力待ち行列と出力待ち行
列も含む。具体的には、図の実施形態では、システム・
インタフェース24は、ヘッダ・パケットをネットワー
ク14との間でバッファするための入力ヘッダ待ち行列
84と出力ヘッダ待ち行列86とを含む。ヘッダ・パケ
ットは、実行すべき動作を識別し、その後に続くデータ
・パケットの数およびフォーマットを指定する。出力ヘ
ッダ待ち行列86は、ネットワーク14上で送るべきヘ
ッダ・パケットをバッファし、入力ヘッダ待ち行列84
は、システム・インタフェース24が、受け取ったヘッ
ダ・パケットを処理するまで、ネットワーク14から受
け取ったヘッダ・パケットをバッファする。同様に、デ
ータ・パケットは、データがそれぞれ、SMPデータ・
バス60およびネットワーク14上で転送されるまで入
力データ待ち行列88および出力データ待ち行列90に
バッファされる。
【0065】SMP出力待ち行列92、SMP入力待ち
行列94、SMP入出力入力待ち行列(PIQ)96
は、アドレス・バス58との間でアドレス・トランザク
ションをバッファするために使用される。SMP出力待
ち行列92は、アドレス・バス58上のシステム・イン
タフェース24から与えられるトランザクションをバッ
ファする。無視されたトランザクションに関するコヒー
レンシ活動の完了に応答して待機させられた再発行トラ
ンザクションは、SMP出力待ち行列92にバッファさ
れる。また、ネットワーク14から受け取られたコヒー
レンシ活動に応答して生成されたトランザクションは、
SMP出力待ち行列92にバッファされる。SMP入力
待ち行列94は、システム・インタフェース24によっ
て処理されるコヒーレンシ関連トランザクションを記憶
する。逆にSMP PIQ96は、他のSMPノード1
2に存在する入出力インタフェースへ搬送される入出力
トランザクションを記憶する。入出力トランザクション
は一般に、非コヒーレントとみなされ、したがってコヒ
ーレンシ活動を生成しない。
【0066】SMP入力待ち行列94およびSMP P
IQ96は、トランザクション・フィルタ98から、待
機させるべきトランザクションを受け取る。トランザク
ション・フィルタ98はMTAG68およびSMPアド
レス・バス58に結合される。トランザクション・フィ
ルタ98は、他のSMPノード12上の入出力インタフ
ェースを識別する入出力トランザクションをアドレス・
バス58上で検出した場合、そのトランザクションをS
MP PIQ96に入れる。LPAアドレスへのコヒー
レント・トランザクションがトランザクション・フィル
タ98によって検出された場合、MTAG68から得た
対応するコヒーレンシ状態が調べられる。トランザクシ
ョン・フィルタ98は、コヒーレンシ状態に応じて、無
視信号70をアサートすることができ、コヒーレンシ・
トランザクションをSMP入力待ち行列94で待機させ
ることができる。コヒーレント・トランザクションを実
行するのに十分な、コヒーレンシ単位へのアクセス権
が、SMPノード12Aによって維持されていないこと
をMTAG68が示している場合には、無視信号70が
アサートされ、コヒーレンシ・トランザクションが待機
させられる。逆に、SMPノード12Aによって十分な
アクセス権が維持されていることをMTAG68が示し
ている場合、無視信号70がアサート解除されコヒーレ
ンシ・トランザクションは生成されない。
【0067】SMP入力待ち行列94およびSMP P
IQ96からのトランザクションは、システム・インタ
フェース24内の要求エージェント100によって処理
される。LPA2GA変換装置82は、要求エージェン
ト100による動作の前に、トランザクションのアドレ
ス(LPAアドレスである場合)を、SMPアドレス・
バス58上に与えられるローカル物理アドレスから、対
応するグローバル・アドレスに変換する。要求エージェ
ント100は次いで、グローバル・アドレスによって識
別されたホーム・ノードへ送られる特定のコヒーレンシ
要求を指定するヘッダ・パケットを生成する。このコヒ
ーレンシ要求は出力ヘッダ待ち行列86に入れられる。
それに続いて、コヒーレンシ応答が入力ヘッダ待ち行列
84で受け取った。要求エージェント100は、入力ヘ
ッダ待ち行列84から得たコヒーレンシ応答を処理し、
場合によっては(下記で説明するように)SMP出力待
ち行列92に関する再発行トランザクションを生成す
る。
【0068】システム・インタフェース24には、ホー
ム・エージェント102とスレーブ・エージェント10
4とが含まれる。ホーム・エージェント102は、入力
ヘッダ待ち行列84から受け取ったコヒーレンシ要求を
処理する。ホーム・エージェント102は、特定のグロ
ーバル・アドレスに関してディレクトリ66に記憶され
ているコヒーレンシ情報から、他のSMPノード12内
の1つまたは複数のスレーブ・エージェントへコヒーレ
ンシ・デマンドを送るべきかどうかを判定する。一実施
形態では、ホーム・エージェント102は、影響を受け
るコヒーレンシ単位に対応するコヒーレンシ情報をブロ
ックする。言い換えれば、そのコヒーレンシ単位に関連
するその後の要求は、コヒーレンシ要求に対応するコヒ
ーレンシ活動が完了するまで実行されない。一実施形態
によれば、ホーム・エージェント102は、(入力ヘッ
ダ待ち行列84を介して)コヒーレンシ要求を開始した
要求エージェントからコヒーレンシ完了を受け取る。コ
ヒーレンシ完了は、コヒーレンシ活動が完了したことを
示す。ホーム・エージェント102は、コヒーレンシ完
了を受け取ると、影響を受けるコヒーレンシ単位に対応
するコヒーレンシ情報上のブロックを削除する。コヒー
レンシ情報がコヒーレンシ活動が完了するまでブロック
されるので、ホーム・エージェント102が、コヒーレ
ンシ要求の受取時にただちに実行されたコヒーレンシ活
動に応じてコヒーレンシ情報を更新できることに留意さ
れたい。
【0069】スレーブ・エージェント104は、コヒー
レンシ・デマンドを入力ヘッダ待ち行列84を介して他
のSMPノード12のホーム・エージェントから受け取
る。スレーブ・エージェント104は、特定のコヒーレ
ンシ・デマンドに応答して、コヒーレンシ・トランザク
ションをSMP出力待ち行列92で待機させる。一実施
形態では、コヒーレンシ・トランザクションによって、
キャッシュ18およびプロセッサ16の内部のキャッシ
ュは、影響を受けるコヒーレンシ単位を無効化すること
ができる。コヒーレンシ単位がキャッシュ内で修正され
た場合、修正済みデータはシステム・インタフェース2
4へ転送される。別法として、コヒーレンシ・トランザ
クションによって、キャッシュ18およびプロセッサ1
6の内部のキャッシュは、コヒーレンシ単位のコヒーレ
ンシ状態を共用に変更することができる。スレーブ・エ
ージェント104は、コヒーレンシ・デマンドに応答し
て活動を完了した後、コヒーレンシ・デマンドに対応す
るコヒーレンシ要求を開始した要求エージェントへコヒ
ーレンシ応答を送る。コヒーレンシ応答は、出力ヘッダ
待ち行列86で待機させられる。コヒーレンシ・デマン
ドに応答して活動を実行する前に、コヒーレンシ・デマ
ンドと共に受け取られたグローバル・アドレスがGA2
LPA変換装置80を介してローカル物理アドレスに変
換される。
【0070】一実施形態によれば、要求エージェント1
00、ホーム・エージェント102、スレーブ・エージ
ェント104によって実行されるコヒーレンシ・プロト
コルは書込み無効化ポリシーを含む。言い換えれば、S
MPノード12内のプロセッサ16があるコヒーレンシ
単位を更新すると、他のSMPノード12内に記憶され
ているそのコヒーレンシ単位のコピーは無効化される。
しかし、他の実施形態では他の書込みポリシーを使用す
ることができる。たとえば、書込み更新ポリシーを使用
することができる。書込み更新ポリシーによれば、ある
コヒーレンシ単位が更新されると、更新済みデータは各
SMPノード12に記憶されているそのコヒーレンシ単
位の各コピーへ送る。
【0071】次に図6を参照すると、要求エージェント
100に対応するSMPノード12内のSMPバス20
上の特定のトランザクションに応答して、第1のSMP
ノード12Aないし12D(「要求側ノード」)の要求
エージェント100と第2のSMPノード12Aないし
12D(「ホーム・ノード」)のホーム・エージェント
102と第3のSMPノード12Aないし12D(「ス
レーブ・ノード」)のスレーブ・エージェント104と
の間で実行される通常のコヒーレンシ活動を示す図が示
されている。図1に示すようなコンピュータ・システム
10の一実施形態によって使用される特定のコヒーレン
シ活動を、下記で図11ないし15に関して詳しく説明
する。この説明の残りの部分全体にわたって、参照符号
100、102、104は、要求エージェント、ホーム
・エージェント、スレーブ・エージェントを識別するた
めに使用される。エージェントが他のエージェントと通
信する際、2つのエージェントがそれぞれの異なるSM
Pノード12Aないし12Dに存在することが多いこと
を理解されたい。
【0072】要求エージェント100は、SMPバス2
0からトランザクションを受け取ると、トランザクショ
ンに適したコヒーレンシ要求を形成し、トランザクショ
ンのアドレスに対応するホーム・ノードへコヒーレンシ
要求を送る(参照符号110)。コヒーレンシ要求は、
要求エージェント100から要求されたアクセス権なら
びに影響を受けるコヒーレンシ単位のグローバル・アド
レスを示す。要求されたアクセス権は、要求エージェン
ト100に対応するSMPノード12で試みられている
トランザクションの実行を可能にするのに十分なもので
ある。
【0073】ホーム・エージェント102は、コヒーレ
ンシ要求を受け取ると、関連するディレクトリ66にア
クセスし、どのSMPノード12が、影響を受けるコヒ
ーレンシ単位のコピーを記憶しているかを判定する。ま
た、ホーム・エージェント102はコヒーレンシ単位の
所有者を判定する。ホーム・エージェント102は、影
響を受けるコヒーレンシ単位のコピーを記憶している各
ノードのスレーブ・エージェント104と、影響を受け
るコヒーレンシ単位に対する所有コヒーレンシ状態を有
するノードのスレーブ・エージェント104へのコヒー
レンシ・デマンドを生成することができる(参照符号1
12)。コヒーレンシ・デマンドは、受取側SMPノー
ド12内の影響を受けるコヒーレンシ単位の新しいコヒ
ーレンシ状態を示す。コヒーレンシ要求が未処理なの
で、ホーム・エージェント102は、影響を受けるコヒ
ーレンシ単位に関連するその後のコヒーレンシ要求がホ
ーム・エージェント102によって開始されないよう
に、影響を受けるコヒーレンシ単位に対応するコヒーレ
ンシ情報をブロックする。また、ホーム・エージェント
102は、コヒーレンシ要求が完了したことを反映する
ようにコヒーレンシ情報を更新する。
【0074】ホーム・エージェント102は、要求エー
ジェント100へコヒーレンシ応答を送ることもできる
(参照符号114)。コヒーレンシ応答は、スレーブ・
エージェント104から発行されるコヒーレンシ応答の
数を示すことができる。別法として、ある種のトランザ
クションは、スレーブ・エージェント104との対話な
しで完了することができる。たとえば、ホーム・エージ
ェント102を含むSMPノード12内の入出力インタ
フェース26を目標とする入出力トランザクションは、
ホーム・エージェント102によって完了することがで
きる。ホーム・エージェント102は、関連するSMP
バス20に関するトランザクションを待機させ(参照符
号116)、次いで、トランザクションが完了したこと
を示す応答を送ることができる。
【0075】スレーブ・エージェント104は、ホーム
・エージェント102からのコヒーレンシ・デマンドに
応答して、関連するSMPバス20上に与えるトランザ
クションを待機させることができる(参照符号11
8)。また、スレーブ・エージェント104は要求エー
ジェント100へコヒーレンシ応答を送る(参照符号1
20)。コヒーレンシ応答は、特定のコヒーレンシ要求
に応答して受け取られたコヒーレンシ・デマンドがその
スレーブによって完了したことを示す。コヒーレンシ応
答は、コヒーレンシ・デマンドが完了したとき、あるい
はコヒーレンシ・デマンドが、対応するSMPノード1
2上で確実に完了し、影響を受けるコヒーレンシ単位に
対する状態変化がコヒーレンシ・デマンドが完了するよ
りも前に実行される、コヒーレンシ・デマンドが完了す
るよりも前の時間に、スレーブ・エージェント104に
よって送られる。
【0076】要求エージェント100は、影響を受ける
各スレーブ・エージェント104からコヒーレンシ応答
を受け取ると、ホーム・エージェント102へコヒーレ
ンシ完了を送る(参照符号122)。ホーム・エージェ
ント102は、コヒーレンシ完了を受け取ると、対応す
るコヒーレンシ情報からブロックを削除する。要求エー
ジェント100は、再発行トランザクションを、SMP
バス20上で実行できるように待機させ、SMPノード
12内でトランザクションを完了することができる(参
照符号124)。
【0077】コヒーレンシ要求を発行した要求エージェ
ント100によって各コヒーレンシ要求に固有のタグが
割り当てられることに留意されたい。その後に続くコヒ
ーレンシ・デマンド、コヒーレンシ応答、コヒーレンシ
完了はこのタグを含む。このように、特定のコヒーレン
シ要求に関するコヒーレンシ活動は、関連する各エージ
ェントによって識別することができる。さらに、非コヒ
ーレント・トランザクション(たとえば、入出力トラン
ザクション)に応答して非コヒーレント動作を実行でき
ることに留意されたい。非コヒーレント動作は、要求側
ノードとホーム・ノードしか使用しないものでよい。さ
らに、ホーム・エージェント102によって各コヒーレ
ンシ要求に異なる固有のタグを割り当てることができ
る。それぞれの異なるタグは、ホーム・エージェント1
02を識別し、要求側のタグの代わりにコヒーレンシ完
了を表すために使用される。
【0078】次に図7を参照すると、SMPバス20上
でのリード・ツー・オウン・トランザクションに応答し
たコンピュータ・システム10の例示的な実施形態に関
するコヒーレンシ活動を示す図が示されている。リード
・ツー・オウン・トランザクションが実行されるのは、
プロセッサ16によって要求された特定のデータに関し
てキャッシュ・ミスが検出され、プロセッサ16がコヒ
ーレンシ単位への書込み許可を要求したときである。ス
トア・キャッシュ・ミスはたとえば、リード・ツー・オ
ウン・トランザクションを生成することができる。
【0079】要求エージェント100、ホーム・エージ
ェント102、いくつかのスレーブ・エージェント10
4を図7に示す。SMPバス20からリード・ツー・オ
ウン・トランザクションを受け取ったノードは、影響を
受けるコヒーレンシ単位を無効状態で記憶する(たとえ
ば、コヒーレンシ単位はそのノードには記憶されな
い)。要求ノード100の下付き文字「i」は無効状態
を示す。ホーム・ノードは、コヒーレンシ単位を共用状
態で記憶し、いくつかのスレーブ・エージェント104
に対応するノードもコヒーレンシ単位を共用状態で記憶
する。ホーム・エージェント102およびスレーブ・エ
ージェント104の下付き文字「s」は、それらのノー
ドでの共用状態を示す。リード・ツー・オウン動作は、
要求されたコヒーレンシ単位を要求側ノードへ転送させ
る。要求側ノードはコヒーレンシ単位を修正状態で受け
取る。
【0080】要求エージェント100は、SMPバス2
0からリード・ツー・オウン・トランザクションを受け
取ると、コヒーレンシ単位のホーム・ノードへリード・
ツー・オウン・コヒーレンシ要求を送る(参照符号13
0)。受取側ホーム・ノードのホーム・エージェント1
02は、1つまたは複数の他のノードに関する共用状態
を検出する。スレーブ・エージェントが所有状態ではな
く共用状態であるので、ホーム・ノードは、要求された
データを直接供給することができる。ホーム・エージェ
ント102は、要求されたコヒーレンシ単位に対応する
データを含むデータ・コヒーレンシ応答を要求エージェ
ント100へ送る(参照符号132)。データ・コヒー
レンシ応答は、要求エージェント100がデータの所有
権を得る前に他のノードのスレーブ・エージェントから
受け取るべき肯定応答の数も示す。ホーム・エージェン
ト102は、要求側SMPノード12Aないし12Dが
コヒーレンシ単位の所有者であり、他のSMPノード1
2Aないし12Dがそれぞれ無効であることを示すよう
にディレクトリ66を更新する。要求エージェント10
0からのコヒーレンシ完了の受取時に、コヒーレンシ単
位に関するコヒーレンシ情報がブロック解除されると、
ディレクトリ66は各SMPノード12でのコヒーレン
シ単位の状態に一致する。
【0081】ホーム・エージェント102は、影響を受
けるコヒーレンシ単位の共用コピーを維持している各ス
レーブ・エージェント104へ無効化コヒーレンシ・デ
マンドを送る(参照符号134A、134B、134
C)。無効化コヒーレンシ・デマンドは、受取側スレー
ブ・エージェントにノード内の対応するコヒーレンシ単
位を無効化させ、無効化が完了したことを示す肯定コヒ
ーレンシ応答を要求側ノードへ送らせる。各スレーブ・
エージェント104は、コヒーレンシ単位の無効化を完
了し、それに続いて肯定コヒーレンシ応答を送る(参照
符号136A、136B、136C)。一実施形態で
は、各肯定応答は、コヒーレンシ単位に関して要求エー
ジェント100によって受け取った応答の総数のカウン
トを含む。
【0082】要求エージェント100は、スレーブ・エ
ージェント104から各肯定コヒーレンシ応答を受け取
りホーム・エージェント102からデータ・コヒーレン
シ応答を受け取った後、ホーム・エージェント102へ
コヒーレンシ完了を送る(参照符号138)。要求エー
ジェント100は、そのローカル・メモリ内のコヒーレ
ンシ単位を無効化し、ホーム・エージェント102は、
対応するコヒーレンシ情報に対するブロックを解除す
る。データ・コヒーレンシ応答132および肯定コヒー
レンシ応答136が、特に各ノード内の未処理のトラン
ザクションの数に応じて任意の順序で受け取ることがで
きることに留意されたい。
【0083】次に図8を参照すると、要求エージェント
100によって使用される例示的な状態マシンを示すフ
ローチャート140が示されている。要求エージェント
100は、フローチャート140で表した状態マシンの
複数の独立のコピーを含むことができ、そのため、複数
の要求を並行して処理することができる。
【0084】要求エージェント100は、SMP入力待
ち行列94からトランザクションを受け取ると、要求準
備完了状態142を開始する。要求準備完了状態142
では、要求エージェント100は、影響を受けるコヒー
レンシ単位のグローバル・アドレスで識別されるホーム
・ノードに存在するホーム・エージェント102へコヒ
ーレンシ要求を送る。要求エージェント100は、コヒ
ーレンシ要求を送ると、要求アクティブ状態144に遷
移する。要求アクティブ状態144中に、要求エージェ
ント100はスレーブ・エージェント104から(およ
び任意選択でホーム・エージェント102から)コヒー
レンシ応答を受け取る。各コヒーレンシ応答を受ける
と、要求エージェント100は、コヒーレンシ活動を開
始したトランザクションのタイプに応じて新しい状態に
遷移する。また、要求活動状態142は、タイマを使用
して、所定のタイムアウト期間内にコヒーレンシ応答が
受け取られなかったことを検出することができる。ホー
ム・エージェント102によって指定された応答の数を
受け取る前にタイマが満了した場合、要求エージェント
100はエラー状態に遷移する(図示せず)。さらに、
ある種の実施形態は、読取り転送が失敗したことを示す
応答を使用することができる。そのような応答を受け取
った場合、要求エージェント100は、要求準備完了状
態142に遷移し再び読取りを試みる。
【0085】エラーやタイムアウトなしで応答を受け取
った場合、状態は読取りトランザクションに関しては要
求エージェント100によって読取り完了状態146に
遷移する。読取りトランザクションの場合、受け取った
応答のうちの1つに、要求されたコヒーレンシ単位に対
応するデータを含めることができることに留意された
い。要求エージェント100は、SMPバス20上で読
取りトランザクションを再発行し、さらにホーム・エー
ジェント102へコヒーレンシ完了を送る。それに続い
て、要求エージェント100はアイドル状態148に遷
移する。次いで、図8に示した状態マシンを使用して、
要求エージェント100によって新しいトランザクショ
ンを処理することができる。
【0086】逆に、書込みトランザクションには書込み
アクティブ状態150および無視書込み再発行状態15
2が使用される。コンピュータ・システム10のある種
の書込みトランザクションでは、ネットワーク14上で
コヒーレンシ活動が開始されても、無視信号70はアサ
ートされない。たとえば、入出力書込みトランザクショ
ンは無視されない。書込みデータは、システム・インタ
フェース24へ転送され、そこに記憶される。SMPバ
ス20上での書込みトランザクションのデータ・フェー
ズよりも前にコヒーレンシ応答を受け取った場合にシス
テム・インタフェース24へデータを転送できるよう
に、非無視書込みトランザクションには書込みアクティ
ブ状態150が使用される。対応するデータを受け取っ
た後、要求エージェント100は書込み完了状態154
に遷移する。書込み完了状態154中に、コヒーレンシ
完了応答がホーム・エージェント102へ送られる。そ
れ続いて、要求エージェント100がアイドル状態14
8に遷移する。
【0087】無視された書込みトランザクションは、無
視書込み再発行状態152への遷移を介して処理され
る。無視書込み再発行状態152中に、要求エージェン
ト100は、無視された書込みトランザクションをSM
Pバス20上で再発行する。このように、書込みデータ
を発送側プロセッサ16から転送することができ、対応
する書込みトランザクションをプロセッサ16によって
解除することができる。要求エージェント100は、書
込みデータをコヒーレンシ完了と共に送るべきかどうか
に応じて、無視書込みアクティブ状態156と無視書込
み完了状態158のどちらかに遷移する。無視書込みア
クティブ状態156は、書込みアクティブ状態150と
同様に、SMPバス20からのデータ転送を待つために
使用される。無視書込み完了状態158中に、ホーム・
エージェント102へコヒーレンシ完了が送られる。そ
れに続いて、要求エージェント100がアイドル状態1
48に遷移する。要求エージェント100は、SMP入
力待ち行列94からトランザクションを受け取ると、ア
イドル状態148から要求準備完了状態142に遷移す
る。
【0088】次に図9を参照すると、ホーム・エージェ
ント102に関する例示的な状態マシンを示すフローチ
ャート160が示されている。ホーム・エージェント1
02は、それに対する複数の未処理の要求を処理できる
ように、フローチャート160で表した状態マシンの複
数の独立のコピーを含むことができる。しかし、一実施
形態によれば、複数の未処理の要求が同じコヒーレンシ
単位に影響を与えることはない。
【0089】ホーム・エージェント102は、要求受取
状態162でコヒーレンシ要求を受け取る。この要求
は、コヒーレント要求とその他のトランザクション要求
のどちらかとして分類することができる。一実施形態に
よれば、他のトランザクション要求には、入出力読取り
要求および入出力書込み要求と、割り込み要求と、管理
要求を含めることができる。非コヒーレント要求は、状
態164の間にSMPバス20上でトランザクションを
送ることによって処理される。それに続いて、コヒーレ
ンシ完了が送られる。コヒーレンシ完了の受取時に、入
出力書込みトランザクションおよび割り込み許可トラン
ザクションによって、ホーム・ノード内のSMPバス2
0上でデータ・トランザクションが送られる(データ専
用状態165)。データが転送されると、ホーム・エー
ジェント102はアイドル状態166に遷移する。別法
として、コヒーレンシ完了の受取時に、入出力読取りト
ランザクション、管理トランザクション、割り込み拒否
トランザクションによって、アイドル状態への遷移が行
われる。
【0090】逆に、ホーム・エージェント102は、コ
ヒーレンシ要求を受け取ると検査状態168に遷移す
る。検査状態168は、コヒーレンシ要求の影響を受け
るコヒーレンシ単位に関してコヒーレンシ活動が進行中
であるかどうかを検出するために使用される。コヒーレ
ンシ活動が進行中である(すなわち、コヒーレンシ情報
がブロックされている)場合、ホーム・エージェント1
02は、進行中のコヒーレンシ活動が完了するまで検査
状態168のままである。それに続いて、ホーム・エー
ジェント102は設定状態170に遷移する。
【0091】設定状態170中に、ホーム・エージェン
ト102は、ブロックすべき影響を受けるコヒーレンシ
単位に対応するコヒーレンシ情報を記憶するディレクト
リ・エントリの状況を設定する。ブロック状況によっ
て、影響を受けるコヒーレンシ単位へのその後の活動の
進行が妨げられ、コンピュータ・システム10のコヒー
レンシ・プロトコルが簡略化される。ホーム・エージェ
ント102は、受け取ったコヒーレンシ要求に対応する
トランザクションの読取り特性または書込み特性に応じ
て、読取り状態172または書込み応答状態174に遷
移する。
【0092】ホーム・エージェント102は、読取り状
態172中に、読取りトランザクションに関して更新さ
れるコヒーレンシ・デマンドをスレーブ・エージェント
104に発行する。ホーム・エージェント102は、要
求エージェント100からコヒーレンシ完了が受け取る
まで読取り状態172のままであり、その後、ブロック
状況クリア状態176に遷移する。読取りを求めるコヒ
ーレンシ要求が失敗する可能性のある実施形態では、ホ
ーム・エージェント102は、読取りトランザクション
の失敗を示すコヒーレンシ完了を受け取ると、影響を受
けるディレクトリ・エントリの状態をコヒーレンシ要求
の前の状態に復元する。
【0093】書込み状態174中に、ホーム・エージェ
ント102は要求エージェント100へコヒーレンシ応
答を送る。ホーム・エージェント102は、要求エージ
ェント100からコヒーレンシ完了が受け取ったまで応
答書込み状態174のままである。コヒーレンシ完了と
共にデータを受け取った場合、ホーム・エージェント1
02は書込みデータ状態178に遷移する。別法とし
て、ホーム・エージェント102は、データを含まない
コヒーレンシ完了を受け取ったときに、ブロック状況ク
リア状態176に遷移する。
【0094】ホーム・エージェント102は、受け取っ
た書込みデータを転送するために、書込みデータ状態1
78中にSMPバス20上で書込みトランザクションを
発行する。たとえば、書込みストリーム動作(後述)に
よって、データがホーム・エージェント102へ転送さ
れる。ホーム・エージェント102は、受け取ったデー
タを、記憶するためにメモリ22へ送る。それに続い
て、ホーム・エージェント102はブロック状況クリア
状態176に遷移する。
【0095】ホーム・エージェント102は、ブロック
状況クリア状態176で受け取ったコヒーレンシ要求の
影響を受けるコヒーレンシ単位に対応するコヒーレンシ
情報のブロック状況をクリアする。それに続いて、コヒ
ーレンシ情報にアクセスすることができる。非ブロック
・コヒーレンシ情報内に存在する状態は、前に受け取っ
たコヒーレンシ要求によって開始されたコヒーレンシ活
動を反映する。ホーム・エージェント102は、対応す
るコヒーレンシ情報のブロック状況をクリアすることに
よって、アイドル状態166に遷移する。ホーム・エー
ジェント102は、コヒーレンシ要求を受け取ると、ア
イドル状態166から受取要求状態162に遷移する。
【0096】次に図10を参照すると、スレーブ・エー
ジェント104に関する例示的な状態マシンを示すフロ
ーチャート180が示されている。スレーブ・エージェ
ント104は、受取状態182中にコヒーレンシ・デマ
ンドを受け取る。スレーブ・エージェント104は、コ
ヒーレンシ・デマンドに応答して、SMPバス20上に
与えられるトランザクションを待機させる。このトラン
ザクションによって、キャッシュ18およびプロセッサ
16の内部のキャッシュの状態が、受け取ったコヒーレ
ンシ・デマンドに応じて変化する。スレーブ・エージェ
ント104は、このトランザクションを要求発送状態1
84の間待機させる。
【0097】応答発送状態186中に、スレーブ・エー
ジェント104は、トランザクションを開始した要求エ
ージェント100へコヒーレンシ応答を送る。様々な実
施形態によれば、スレーブ・エージェント104が、S
MPバス20に関するトランザクションを待機させ、あ
るいはSMPバス20上のトランザクションが首尾良く
完了したときに要求発送状態184から応答発送状態1
86に遷移できることに留意されたい。スレーブ・エー
ジェント104は、コヒーレンシ応答を送った後、アイ
ドル状態188に遷移する。スレーブ・エージェント1
04は、コヒーレンシ・デマンドを受け取るとアイドル
状態188から受取状態182に遷移することができ
る。
【0098】次に図11ないし14を参照すると、例示
的なコヒーレンシ要求タイプ、コヒーレンシ・デマンド
・タイプ、コヒーレンシ応答タイプ、コヒーレンシ完了
タイプをリストしたいくつかの表が示されている。図1
1ないし14の表に示したタイプは、コンピュータ・シ
ステム10の一実施形態によって使用することができ
る。他の実施形態は、他の数組のタイプを使用すること
ができる。
【0099】図11は、コヒーレンシ要求のタイプをリ
ストした表190である。第1の列192は、下記の図
15で使用される各要求タイプのコードをリストしたも
のである。第2の列194は、コヒーレンシ要求タイプ
をリストしたものであり、第3の列196は、コヒーレ
ンシ要求の発送元を示すものである。図12ないし12
では、同様な列がコヒーレンシ・デマンド、コヒーレン
シ応答、コヒーレンシ完了に使用される。「R」は要求
エージェント100を示し、「S」はスレーブ・エージ
ェント104を示し、「H」はホーム・エージェント1
02を示す。
【0100】リード・ツー・シェア要求は、特定のSM
Pノードにコヒーレンシ単位が存在せず、SMPバス2
0からコヒーレンシ単位へのトランザクションの性質
上、コヒーレンシ単位への読取りアクセスが必要である
ときに実行される。たとえば、キャッシュ可能読取りト
ランザクションではリード・ツー・シェア要求が実行さ
れる。一般的に言えば、リード・ツー・シェア要求と
は、共用状態のコヒーレンシ単位のコピーを求める要求
である。同様に、リード・ツー・オウン要求とは、所有
状態のコヒーレンシ単位のコピーを求める要求である。
他のSMPノード内のコヒーレンシ単位のコピーは無効
状態に変更すべきである。リード・ツー・オウン要求
は、たとえばキャッシュ可能書込みトランザクションの
キャッシュ・ミスに応答して実行することができる。
【0101】読取りストリームおよび書込みストリーム
とは、コヒーレンシ単位全体の読取りまたは書込みを求
める要求である。これらの動作は通常、ブロック・コピ
ー動作に使用される。プロセッサ16およびキャッシュ
18は、読取りストリーム要求または書込みストリーム
要求に応答して与えられたデータはキャッシュしない。
その代わり、読取りストリーム要求の場合には、コヒー
レンシ単位がプロセッサ16へのデータとして与えら
れ、書込みストリーム要求の場合にはメモリ22にデー
タが書き込まれる。リード・ツー・シェア要求、リード
・ツー・オウン要求、読取りストリーム要求をCOMA
動作(たとえば、RTS、RTO、RS)またはNUM
A動作(たとえば、RTSN、RTON、RSN)とし
て実行できることに留意されたい。
【0102】書き直し要求は、コヒーレンシ単位のホー
ム・ノードにコヒーレンシ単位が書き込まれるときに実
行される。ホーム・ノードは、コヒーレンシ単位を書き
直す許可と共に応答する。コヒーレンシ単位は次いで、
コヒーレンシ完了と共にホーム・ノードに渡される。
【0103】無効要求は、他のSMPノード内のコヒー
レンシ単位のコピーを無効化するために実行される。無
効化要求が生成される例示的なケースは、共用または所
有されているコヒーレンシ単位への書込みストリーム・
トランザクションである。書込みストリーム・トランザ
クションではコヒーレンシ単位が更新され、したがって
他のSMPノード内のコヒーレンシ単位のコピーが無効
化される。
【0104】入出力読取りトランザクションおよび入出
力書込みトランザクションに応答して入出力読取り要求
および入出力書込み要求が送られる。入出力トランザク
ションは非コヒーレントである(すなわち、トランザク
ションはキャッシュされず、トランザクションに対して
コヒーレンシは維持されない)。入出力ブロック・トラ
ンザクションでは、通常の入出力トランザクションより
も大きな、データの一部が転送される。一実施形態で
は、ブロック入出力動作で64バイトの情報が転送さ
れ、それに対して非ブロック入出力トランザクションで
8バイトが転送される。
【0105】フラッシュ要求ではコヒーレンシ単位のコ
ピーが無効化される。修正されたコピーはホーム・ノー
ドへ返される。割り込み要求は、リモートSMPノード
内の特定の装置への割り込みを知らせるために使用され
る。割り込みは特定のプロセッサ16に与えることがで
き、そのプロセッサは、割り込みに応答して所定のアド
レスに記憶されている割り込みサービス・ルーチンを実
行することができる。管理パケットは、ノード間である
種のリセット信号を送るために使用される。
【0106】図12は、例示的なコヒーレンシ・デマン
ド・タイプをリストした表198である。表190と同
様に、表198には列192、194、196が含まれ
る。リード・ツー・シェア・デマンドは、コヒーレンシ
単位の所有者へ搬送され、それによってその所有者は要
求側ノードへデータを送る。同様に、リード・ツー・オ
ウン・デマンドおよび読取りストリーム・デマンドによ
って、コヒーレンシ単位の所有者は要求側ノードへデー
タを送る。また、リード・ツー・オウン・デマンドによ
って、所有者は所有者ノード内のコヒーレンシ単位の状
態を無効に変更する。読取りストリーム・デマンドおよ
びリード・ツー・シェア・デマンドによって、所有者ノ
ードにおける状態が(修正から)所有に変更される。
【0107】無効化デマンドでは、対応するコヒーレン
シ単位は転送されない。その代わり、無効化デマンドで
はコヒーレンシ単位のコピーが無効化される。最後に、
管理デマンドは管理要求に応答して搬送される。各デマ
ンドが要求エージェント100からの要求に応答してホ
ーム・エージェント102によって開始されることを留
意されたい。
【0108】図13は、コンピュータ・システム10の
一実施形態によって使用される例示的な応答タイプをリ
ストした表200である。図11および12と同様に、
図13はコヒーレンシ応答に関する列192、194、
196を含む。
【0109】データ応答とは、要求されたデータを含む
応答である。所有者スレーブ・エージェントは通常、コ
ヒーレンシ要求に関するデータ応答を与える。しかし、
ホーム・エージェントは入出力読取り要求に関するデー
タを与えることができる。
【0110】肯定応答は、特定のコヒーレンシ要求に関
連するコヒーレンシ・デマンドが完了したことを示す。
スレーブ・エージェントは通常、肯定応答を与えるが、
ホーム・エージェントは、ホーム・ノードがコヒーレン
シ単位の所有者であるときに肯定応答を(データと共
に)与える。
【0111】スレーブ所有なし応答、アドレス・マップ
なし応答、エラー応答は、エラーが検出されたときにス
レーブ・エージェント104によって搬送される。スレ
ーブ所有なし応答は、コヒーレンシ単位の所有者および
スレーブがもはやコヒーレンシ単位を所有していないと
きにホーム・エージェント102によってスレーブが識
別された場合に送られる。アドレス・マップなし応答
は、所有権を主張している装置が、対応するSMPバス
20上にはないデマンドを、スレーブが受け取った場合
に、送られる。スレーブ・エージェントによって検出さ
れた他のエラー条件はエラー応答を介して示される。
【0112】ホーム・エージェント102は、スレーブ
・エージェント104が使用できるエラー応答以外のエ
ラー応答を与えることができる。対応する要求がホーム
・エージェント102によるサービスを必要としていな
いことを示すために、ホーム・エージェント102によ
って否定肯定(NACK)および否定応答(NOPE)
が使用される。NACKトランザクションを使用して、
対応する要求がホーム・ノードによって拒否されたこと
を示すことができる。たとえば、割り込み要求は、受取
側ノードによって割り込みが拒否された場合にNACK
を受け取る。受取側ノードによって割り込みが受け入れ
られた場合には肯定応答(ACK)が搬送される。NO
PEトランザクションは、受取側ノードによって記憶さ
れていないコヒーレンシ単位のための対応するフラッシ
ュ要求が搬送されたことを示すために使用される。
【0113】図14は、コンピュータ・システム10の
一実施形態による例示的なコヒーレンシ完了タイプを示
す表202である。図14は、図11ないし13と同様
に、コヒーレンシ完了に関する列192、194、19
6を含む。
【0114】データなしの完了は、特定の要求が完了し
たことを示す、要求エージェント100からホーム・エ
ージェント102への信号として使用される。ホーム・
エージェント102は、これに応答して、対応するコヒ
ーレンシ情報をブロック解除する。SMPバス20上の
異なるトランザクションに対応する2種類のデータ完了
が含まれている。一方のタイプの再発行トランザクショ
ンでは、SMPバス20上でデータ・フェーズしか使用
されない。この再発行トランザクションは、一実施形態
では入出力書込みトランザクションおよび割り込みトラ
ンザクションに使用することができる。他方のタイプの
再発行トランザクションではアドレス・フェーズとデー
タ・フェーズの両方が使用される。書込みストリームや
書き直しなどのコヒーレント書込みは、アドレス・フェ
ーズとデータ・フェーズの両方を含む再発行トランザク
ションを使用することができる。最後に、要求された状
態を得ることに失敗した読取り要求に関する、失敗を示
す完了が含まれている。
【0115】次に図15を参照すると、SMPバス20
上の様々なトランザクションに対するコヒーレンシ活動
を示す表210が示されている。表210は、他のSM
Pノード12へ要求を送らせるトランザクションを示
す。SMPノード内で完了するトランザクションは示さ
れていない。列内の「−」は、特定の行内で考えられる
ケースではその列に関して実行される活動がないことを
示す。要求エージェント100によってSMPバス20
上で受け取ったトランザクションを示すトランザクショ
ン列212が含まれている。MTAG列214は、トラ
ンザクションに対応するアドレスによってアクセスされ
るコヒーレンシ単位のMTAGの状態を示す。図の状態
は、前述のMOSI状態と「n」状態とを含む。「n」
状態は、コヒーレンシ単位が、トランザクションが開始
されたSMPノードではNUMAモードでアクセスされ
ることを示す。したがって、コヒーレンシ単位のローカ
ル・コピーは要求側ノード・メモリには記憶されない。
その代わり、コヒーレンシ単位は、ホームSMPノード
(または所有者ノード)から転送され、メモリ22に記
憶されずに要求側プロセッサ16またはキャッシュ18
へ送られる。
【0116】要求列216は、トランザクションのアド
レスによって識別されるホーム・エージェントへ送られ
るコヒーレンシ要求をリストしたものである。ホーム・
エージェント102は、列216にリストしたコヒーレ
ンシ要求を受け取ると、ディレクトリ66に記録されて
いる要求側ノードのコヒーレンシ単位の状態を検査す
る。D列218は、要求側ノードに関して記録されるコ
ヒーレンシ単位の現状態をリストしたものであり、D’
列220は、受け取ったコヒーレンシ要求に応答してホ
ーム・エージェント102によって更新された、要求側
ノードに関して記録されるコヒーレンシ単位の状態をリ
ストしたものである。ホーム・エージェント102は、
コヒーレンシ単位の所有者への第1のコヒーレンシ・デ
マンドと、コヒーレンシ単位の共用コピーを維持してい
るノードへの追加コヒーレンシ・デマンドを生成するこ
とができる。所有者へ送られるコヒーレンシ・デマンド
を列222に示し、それに対して共用ノードへ送られる
コヒーレンシ・デマンドを列224に示す。さらに、ホ
ーム・エージェント102は要求側ノードへコヒーレン
シ応答を送ることができる。ホーム・エージェント応答
を列226に示す。
【0117】コヒーレンシ単位の所有者として示された
SMPノード内のスレーブ・エージェント104は、列
228に示したようにコヒーレンシ応答を送る。共用ノ
ードとして示されたノード内のスレーブ・エージェント
104は、受け取ったコヒーレンシ・デマンドで示され
た状態変化を実行した後に、列230に示したコヒーレ
ンシ応答を用いて、列224に示したコヒーレンシ・デ
マンドに応答する。
【0118】要求エージェント100は、適当な数のコ
ヒーレンシ応答を受け取ると、ホーム・エージェント1
02へコヒーレンシ完了を送る。様々なトランザクショ
ンに使用されるコヒーレンシ完了を列232に示す。
【0119】一例を挙げると、行234は、対応するM
TAG状態が無効であるSMPバス20上のリード・ツ
ー・シェア・トランザクションに対するコヒーレンシ活
動を示す。対応する要求エージェント100は、リード
・ツー・シェア・トランザクションに関連付けられたグ
ローバル・アドレスで識別されたホーム・ノードへリー
ド・ツー・シェア・コヒーレンシ要求を送る。行234
に示したケースでは、ホーム・ノードのディレクトリ
は、要求側ノードがデータを無効状態で記憶しているこ
とを示す。要求側ノードに関するホーム・ノードのディ
レクトリ内の状態は共用に更新され、ホーム・エージェ
ント102により、ディレクトリによって所有者として
示されたノードへリード・ツー・シェア・コヒーレンシ
・デマンドが送られる。トランザクションが共用状態を
得ようとするので、共用者へはデマンドは送られない。
所有者ノード内のスレーブ・エージェント104は、コ
ヒーレンシ単位に対応するデータを要求側ノードへ送
る。要求側ノード内の要求エージェント100は、デー
タを受け取るとホーム・ノード内のホーム・エージェン
ト102へコヒーレンシ完了を送る。したがって、トラ
ンザクションが完了する。
【0120】D列218に示した状態がMTAG列21
4の状態に合致しないことがあることに留意されたい。
たとえば、行236は、MTAG列214では無効状態
のコヒーレンシ単位を示す。しかし、D列218内の対
応する状態は、修正でも、あるいは所有でも、あるいは
共用でもよい。そのような状況が発生するのは、コヒー
レンシ単位への現トランザクションに関するMTAG6
8へのアクセスがアドレス・バス58上で実行されると
きに、コヒーレンシ単位に関する要求側ノードからの前
のコヒーレンシ要求がコンピュータ・システム10内で
未処理であるときである。しかし、特定のアクセス時に
ディレクトリ・エントリがブロックされるので、未処理
の要求は、現要求によるディレクトリ66のアクセスよ
りも前に完了する。このため、生成されるコヒーレンシ
・デマンドは、(ディレクトリがアクセスされるときの
MTAG状態に合致する)ディレクトリ状態に依存す
る。行236に示した例では、コヒーレンシ単位が現
在、要求側ノードに存在していることをディレクトリが
示しているので、リード・ツー・シェア要求は、単に要
求側ノード内のSMPバス20上で読取りトランザクシ
ョンを再発行することによって完了することができる。
したがって、ホーム・ノードは、応答カウント1を含
め、要求に肯定応答し、それに続いて要求側ノードは読
取りトランザクションを再発行することができる。さら
に、表210には多数のタイプのトランザクションがリ
ストされているが、コンピュータ・システム10の様々
な実施形態に応じて他のトランザクションを使用できる
ことに留意されたい。
【0121】高速書込みストリーム動作 次に図16を参照すると、コンピュータ・システム10
の一実施形態によるローカル物理アドレス空間300を
示す図が示されている。一般的に言えば、アドレス空間
は、そのアドレス空間内の可能な各アドレスに対応する
記憶位置を識別する。アドレス空間は、アドレス空間内
のあるアドレスに追加特性を割り当てることができる。
一実施形態では、ローカル物理アドレス空間300内の
アドレスは41ビットを含む。
【0122】図16に示したように、ローカル物理アド
レス空間300は、LPA領域302とLPAfw領域3
04とを含む。LPA領域302によって、トランザク
ションに整合するコヒーレンシ状態が得られた後、対応
する記憶位置に対して読取りトランザクションおよび書
込みトランザクションを行うことができる。言い換えれ
ば、LPA領域302内のアドレスには追加特性は与え
られない。一実施形態では、LPA領域302は、最上
位ビットが0xx00(バイナリで表される)に等しい
最上位ビット(MSB)を有するアドレス空間300内
の1組のアドレスである。MSBの「xx」部分は、こ
のアドレスに関するホーム・ノードとして働くSMPノ
ード12を識別する。たとえば、xx=00はSMPノ
ード12Aを識別し、xx=01はSMPノード12B
を識別し、以下同様である。アドレスは、「xx」部分
が、そのアドレスに対応するトランザクションを実行す
るプロセッサ16を含むSMPノード12を識別する場
合は、LPA領域302内のローカル物理アドレスであ
る。そうでない場合、そのアドレスはグローバル・アド
レスである。また、グローバル・アドレスは、他のSM
Pノード12内のローカル物理アドレスである。
【0123】LPAfw領域304内のアドレスは、LP
A領域302内のアドレスが指し示すのと同じ1組の記
憶位置を指し示す。たとえば、LPA領域302内のア
ドレス「A」は、データ「B」を記憶している記憶位置
306を指し示すことができる。LPAfw領域304内
のアドレス「A」も、データ「B」を記憶している記憶
位置306を指し示す。この例では、アドレス「A」
は、LPAfw領域304およびLPA領域302を識別
するビット(たとえば、一実施形態では下位36ビッ
ト)を除くそのアドレスのビットを指し示す。一実施形
態では、LPAfw領域304は、MSBが0xx10
(バイナリで表される)MSBを有する1組のアドレス
である。「xx」フィールドは、前述のように解釈され
る。同じ1組の記憶位置を識別するアドレス空間内の2
つ以上のアドレス領域を有することをエイリアシングと
呼ぶことに留意されたい。
【0124】LPA302領域とは異なり、LPAfw
域304への読取りトランザクションは許可されない。
LPAfw領域304には書込みトランザクションが許可
される。特定の一実施形態では、LPAfw領域304へ
のストリーム・トランザクションが許可され、それに対
して他の書込みトランザクションは許可されない。
【0125】システム・インタフェース24は、LPA
fw領域304への書込み動作を「高速書込み」書込み動
作として認識する。システム・インタフェース24によ
って、まず、書込み動作の実行に整合する、影響を受け
るコヒーレンシ単位のコヒーレンシ状態を得て、それに
続いて開始側プロセッサからデータを転送するのではな
く、必要なコヒーレンシ動作を完了する前にシステム・
インタフェース24へデータを転送しておくことができ
る。言い換えれば、システム・インタフェース24は、
書込みを実行するのに適当なコヒーレンシ状態がないた
めにLPAfw領域304にアドレスを有する書込み動作
に対して無視信号70をアサートすることはない。その
ため、発行側プロセッサ16には、LPAfwアドレス領
域への書込み動作が、SMPノード12による書込み許
可の獲得がグローバルに順序付けされる前に完了したよ
うに見える。プロセッサ資源は、プロセッサからデータ
を受け取る前にコヒーレンシ状態が得られる場合よりも
迅速に解放される。
【0126】したがって、LPAfw領域304内のアド
レスには、LPAfw領域304に実行される動作が高速
書込みプロトコルを使用して実行されるという追加特性
が割り当てられる。高速書込みプロトコルを使用する書
込み動作は、ローカルSMPノード12内で実行される
他の動作に対して所定の順序とは異なる順序で完了する
ことができる。LPAアドレス空間300内のMSBの
他の組合せを使用して他の追加特性を割り当てることが
できることに留意されたい。
【0127】一般的に言えば、「高速書込み」書込み動
作は、周りの動作に対して所定の順序とは異なる順序で
完了することができる。さらに、「高速書込み」書込み
動作は、その実行に整合するコヒーレンシ状態を得る前
にローカル・ノード内で完了するので、実際上、コンピ
ュータ・システム10のグローバル順序付けの影響を受
けずに完了することができる。したがって、一般にSM
Pバス20上のトランザクションに適用される順序は、
高速書込みプロトコルを介して無効化される。前述の実
施形態は、「高速書込み」書込み動作のアドレスのある
ビットが、「高速書込み」書込み動作を識別する特定の
コードを形成するが、「高速書込み」書込み動作の他の
フォーマットが企図される。たとえば、(図3に示し
た)アドレス・バス58上の制御信号は、アドレス・バ
ス58上に与えられているトランザクションのタイプを
識別する。与えられたアドレスのMSBを使用するので
はなく、「高速書込み」書込み動作が実行されているこ
とを示す制御信号の追加コード化を定義することができ
る。さらに、書込みストリーム命令を使用して高速書込
みを実行するのではなく、新しい命令を定義することが
できる。この新しい命令は、「高速書込み」書込み動作
が実行されることを明示的に示す。プロセッサ16は、
アドレス・バス58上に「高速書込み」バス・トランザ
クションを与えることによって高速書込み命令を実行す
るように設計することができる。
【0128】次に図17を参照すると、システム・イン
タフェース24の一実施形態による、システム・インタ
フェース24が受け取るトランザクションの処理を示す
フローチャート310が示されている。トランザクショ
ンが検出されると、システム・インタフェース24は、
そのトランザクションが読取りトランザクションである
か、それとも書込みトランザクションであるかを判定す
る(決定ボックス312)。読取りトランザクションが
検出された場合、図15に従ってシステム・インタフェ
ース24によって読取り処理が実行される(ステップ3
14)。別法として、トランザクションが検出される
と、システム・インタフェース24は、LPAfw領域3
04内にアドレスを有する書込みシステム・トランザク
ションが搬送されるかどうかを判定する(決定ボックス
316)。言い換えれば、システム・インタフェース2
4は、高速書込みコードを有する書込み動作が実行され
るかどうかを判定する。非高速書込みトランザクション
が検出された場合、システム・インタフェース24は、
図15に関して説明したように書込み動作を処理する
(ステップ318)。LPAfw領域304への書込みス
トリーム・トランザクションが検出された場合は、ステ
ップ320、322、324が実行される。
【0129】高速書込みトランザクションは、NUMA
モード(「xx」フィールドが、高速書込みトランザク
ションが生成されるSMPノード12Aないし12D以
外のSMPノード12Aないし12Dを指定するとき)
で実行することも、あるいはCOMAモードで実行する
こともできる。前述のように、NUMAモードは、グロ
ーバル・アドレスをMMU76内にコード化することに
よって選択され、それに対してCOMAモードは、ロー
カル物理アドレスをMMU76内にコード化することに
よって選択される。高速書込みトランザクションは、シ
ステム・インタフェース24にMTAGが存在しないN
UMAモードに特に有益である。MTAGが存在しない
ので、ノードの、影響を受けるコヒーレンシ単位へのア
クセス権をそのノード内で判定することはできない。し
たがって、NUMAモードでは、他のノードが、影響を
受けるコヒーレンシ単位のコピーを維持していない場合
でも、書込みトランザクションに関するコヒーレンシ活
動が実行される。高速書込みトランザクションでは、こ
のコヒーレンシ活動を開始側プロセッサからのデータの
転送と並行して行うことができ、それによって、非高速
書込みコードを使用して同じNUMA書込みトランザク
ションを実行する場合よりも迅速にローカル・ノード資
源が解放される。
【0130】ステップ320に示したように、システム
・インタフェース24は、高速書込み動作をシステム・
インタフェース24内で待機させる。一実施形態では、
高速書込み動作は、図5に示したように、SMP入力待
ち行列94内で待機する。MTAG68内の影響を受け
るコヒーレンシ単位の状態にはかかわらず、無視信号7
0はアドレス・バス58上ではアサートされない。逆
に、MTAG68が無効状態と共用状態と所有状態のい
ずれかを記憶しているコヒーレンシ単位に影響を与える
非高速書込み動作は、アサートされた無視信号70を受
け取る。システム・インタフェース24は、コヒーレン
シ単位への書込みアクセスを得た後、非高速書込み動作
を再発行し、そのときに動作を完了することができる。
【0131】高速書込みトランザクション上では無視信
号70がアサートされないので、それに続いて、(図3
に示した)データ・バス60上でプロセッサ16にから
対応するデータが与えられる。ステップ322で、デー
タはシステム・インタフェース24によって受け取ら
れ、記憶される。それによって、開始側プロセッサ16
に対する書込み動作が完了する。
【0132】ステップ324は、グローバル・レベルで
の書込み動作を処理するためにコヒーレンシ動作が実行
されることを示す。書込み動作の受取時にステップ32
4を開始できることに留意されたい。したがって、ステ
ップ322とステップ324は並行して実行することが
できる。
【0133】次に図18を参照すると、さらに、コンピ
ュータ・システム10内で高速書込みプロトコルを使用
して書込み動作を実行することを示すために、コンピュ
ータ・システム10の一実施形態の一部のブロック図が
示されている。図18はプロセッサ16Aおよび16B
を示す。ただし、追加プロセッサ16を含めることがで
きる。プロセッサ16は、(プロセッサ16A内の書込
みストリーム・バッファ330Aやプロセッサ16B内
の書込みストリーム・バッファ330Bなど)それぞれ
の書込みストリーム・バッファ330を含む。プロセッ
サ16とSMPバス20との間に結合された外部キャッ
シュ18が示されている。しかし、外部キャッシュ18
は書込みストリーム動作ではバイパスされる。したがっ
て、外部キャッシュ18は点線要素として示されてい
る。SMPバス20に結合されたシステム・インタフェ
ース24も示されている。システム・インタフェース2
4内にSMP入力待ち行列94および要求エージェント
100が示されている。
【0134】書込みストリーム動作をSMPバス20上
で完了する前に記憶する書込みストリーム・バッファ3
30が、プロセッサ16に含まれる。書込みストリーム
動作によって書き込むべきアドレスと、対応するデータ
を記憶することができる。SMPバス20上にアドレス
が与えられ、対応するデータが転送されているとき、書
込みストリーム・バッファ330を使用してその後の書
込みストリーム動作を記憶することができる。通常、プ
ロセッサ16は少数の未処理書込みストリーム動作をサ
ポートするように構成される。たとえば、各プロセッサ
16に1つの書込みストリーム・バッファ330を含め
ることができる。したがって、比較的短い時間で複数の
書込みストリーム動作を実行する場合、プロセッサ16
は、書込みストリーム動作が書込みストリーム・バッフ
ァ330内に記憶されるまで命令の実行を停止すること
ができる。
【0135】アドレス・コントローラ52とデータ・コ
ントローラ54とを含むコンピュータ・システム10の
実施形態でも、同様な問題が存在する。アドレス・コン
トローラ52およびデータ・コントローラ54内の記憶
位置は書込みストリーム動作に割り振られ、このような
記憶位置は、SMPバス20上で書込みストリーム動作
が完了するまで解放されない。また、書込みストリーム
動作が、アサートされた無視信号をシステム・バス24
から受け取った場合(すなわち、これは高速書込み動作
ではない)、そのアドレス・コントローラからのその後
のトランザクションも無視される。したがって、高速書
込みプロトコルを使用しない書込みストリーム動作では
すべてのタイプのトランザクションを抑制することがで
きる。
【0136】一方、システム・インタフェース24は、
SMP入力待ち行列94を含む。SMP入力待ち行列9
4は、プロセッサ16内に含まれるバッファよりもずっ
と大規模なものであり、かなり多数のトランザクション
を記憶することができる。一実施形態では、SMP入力
待ち行列94は、トランザクションに関する128個の
記憶位置を含む。(図3に示した)出力データ待ち行列
90内の記憶位置は、SMP入力待ち行列94内の記憶
位置に対応し、書込み動作に対応するデータをSMP入
力待ち行列94に記憶する。要求エージェント100
は、コヒーレンシ動作が実行されるSMP入力待ち行列
94からトランザクションを選択し、このコヒーレンシ
動作をネットワーク14上で送る。
【0137】SMP入力待ち行列94内の記憶位置の数
が多いので、この待ち行列には多数の書込みストリーム
動作を待機させることができる。高速書込みストリーム
・トランザクションは、そのトランザクションをSMP
入力待ち行列94に記憶し対応するデータを出力データ
待ち行列90内に記憶することによってプロセッサ16
から完了されるので、プロセッサ16は、システム・イ
ンタフェース24が書込みストリーム動作を完了する
間、他の動作を継続することができる。
【0138】次に図19を参照すると、コンピュータ・
システム10の一実施形態による、高速書込みストリー
ム動作に応答して実行されるコヒーレンシ活動を示す図
が示されている。要求エージェント100、ホーム・エ
ージェント102、所有者スレーブ・エージェント10
4A、共用者スレーブ・エージェント104Bが図20
に示されている。要求エージェント100は、LPAfw
アドレスを有する書込みストリーム・トランザクション
を受け取ると、LPAfwアドレスから変換されたGAで
識別されたホーム・ノードへ書込みストリーム要求を送
る(参照符号340)。別法として、書込みストリーム
動作は、最上位ビットを介して高速書込みプロトコルを
識別するグローバル・アドレスを使用してSMPバス2
0上に与えることができる。一実施形態では、書込みス
トリーム要求は、要求側ノード内のMTAG68に記憶
されているコヒーレンシ状態にはかかわらずに搬送され
る。
【0139】ホーム・エージェント102は、要求エー
ジェント100から書込みストリーム要求を受け取る
と、要求されたコヒーレンシ単位の所有者および共用者
を判定する。ホーム・エージェント102は、所有者ス
レーブ104Aおよび共用者スレーブ104Bへ無効化
デマンドを送る(それぞれ、参照符号342および34
4)。このように、スレーブ・ノード内の書込みストリ
ーム動作によって更新されたコヒーレンシ単位のコピー
が無効化される。書込みストリーム動作は、コヒーレン
シ単位内の各バイトを更新する。したがって、スレーブ
104によって維持されるコピーは、書込みストリーム
・コヒーレンシ動作の完了時には無効である。
【0140】スレーブ・エージェント104は、無効化
デマを受け取り、要求エージェント100へ肯定応答を
送る(参照符号346および348)。また、スレーブ
・エージェント104はコヒーレンシ単位のコピーを無
効化する。
【0141】要求エージェント100は、各スレーブ・
エージェント104の肯定応答を受け取ると、コヒーレ
ンシ完了メッセージをデータと共にホーム・エージェン
ト102へ送る(参照符号350)。送られるデータ
は、高速書込みストリーム・トランザクションを開始し
たプロセッサ16から受け取ったデータである。開始側
プロセッサ16を含むSMPノード12に対応するメモ
リ22に、高速書込みストリーム・トランザクションに
よって更新されたコヒーレンシ単位のコピーが記憶され
ている場合、(他のスレーブ・コピーと同様に)コピー
が無効化されることに留意されたい。
【0142】次に図20を参照すると、コンピュータ・
システム10の一実施形態において書込みストリーム動
作を実行するためにSMPバス20上で実行されるトラ
ンザクションを示すタイミング図が示されている。アド
レス・バス58トランザクションとデータ・バス60ト
ランザクションが示されている。
【0143】プロセッサ16は、書込みストリーム命令
の実行時に、アドレス・バス58上で書込みストリーム
・トランザクションを実行する(参照符号360)。シ
ステム・インタフェース24は、MTAG68内の影響
を受けるコヒーレンシ単位(アドレス「A」を含むコヒ
ーレンシ単位)のコヒーレンシ状態を調べる。SMPノ
ード12がコヒーレンシ単位への書込み許可を有する場
合(たとえば、修正状態)、システム・インタフェース
24は書込みストリーム動作が完了できるようにする。
しかし、MTAG68に書込み許可が記憶されていない
場合、システム・インタフェース24は、図20に示し
たように無視信号をアサートする(参照符号362)。
システム・インタフェース24は、コヒーレンシ動作を
実行し、影響を受けるコヒーレンシ単位への書込み許可
を得る。書込みストリーム・トランザクション360が
無視され、それに続いて書込みストリーム・トランザク
ションが再発行されるまでにかなりの時間が経過するこ
とができる(参照符号364)。システム・インタフェ
ース24は、影響を受けるコヒーレンシ単位への書込み
許可を得たときに書込みストリーム・トランザクション
を再発行する。プロセッサ16は、再発行を検出する
と、SMPバス20のバス・プロトコルに従って書込み
ストリーム・トランザクション360に対応するデータ
を搬送する(参照符号366)。データが転送される
と、書込みシステム・トランザクションを記憶し、実行
するために使用されるプロセッサ16の資源が、他のト
ランザクションによって使用できるように解放される。
次に、1つの未処理書込みストリーム・トランザクショ
ンのみをサポートするプロセッサ16が、アドレスBへ
の第2の書込みストリーム動作を開始することができる
(参照符号368)。
【0144】逆に、図21は、コンピュータ・システム
10の一実施形態によって実行される高速書込みストリ
ーム動作のタイミング図である。アドレス・バス58ト
ランザクションと、データ・バス60トランザクション
が示されている。
【0145】図20と同様に、プロセッサ16は、書込
みストリーム命令の実行時にアドレス・バス58上で書
込みストリーム・トランザクション370を実行する。
しかし、図21の書込みストリーム・トランザクション
は、高速書込みストリーム・コードを使用して実行され
る。MTAG68内の更新済みコヒーレンシ単位の状態
にかかわらず、システム・インタフェース24は無視信
号70をアサートしない(参照符号372)。それに続
いて、高速書込みストリーム・トランザクション370
に対応するデータが、データ・バス60上で転送され
る。高速書込みストリーム・トランザクション370を
記憶し、実行するために使用されるプロセッサ16資源
が迅速に解放され、そのため、他の書込みストリーム動
作などその後のトランザクションにその資源を使用する
ことができる(参照符号376)。SMPバス20上の
プロトコルおよびトラフィックによって、高速書込みス
トリーム・トランザクションによってプロセッサ資源が
占有される期間が決定されるので有利である。逆に、図
20に示した書込みストリーム・トランザクションは、
ネットワーク14上で実行される対応するコヒーレンシ
動作の待ち時間によって決定される期間中プロセッサ資
源を占有する。
【0146】上記の例示的な実施形態ではSMPノード
12について説明したが、一般的に言えば、コンピュー
タ・システム10は1つまたは複数の処理ノードを含む
ことができる。本明細書では、処理ノードは、少なくと
も1つのプロセッサと対応するメモリとを含む。また、
他の処理ノードと通信する回路も含まれる。コンピュー
タ・システム10の実施形態に複数の処理ノードが含ま
れるとき、処理ノード内の対応するメモリは分散共用メ
モリを形成する。処理ノードはリモート処理ノードまた
はローカル処理ノードと呼ぶことができる。処理ノード
は、特定のプロセッサを含まない場合、その特定のプロ
セッサに対してリモート処理ノードである。逆に、特定
のプロセッサを含む処理ノードは、その特定のプロセッ
サのローカル処理ノードである。さらに、「コヒーレン
シ動作」の語は、本明細書では、処理ノード内でコヒー
レンシ状態を必要にさせるトランザクションが開始され
る処理ノードにおいて特定のコヒーレンシ状態を得るた
めに使用される、コヒーレンシ要求と、コヒーレンシ・
デマンドと、コヒーレンシ応答と、コヒーレンシ完了メ
ッセージの組合せを指す。
【0147】上記の開示によって、効率的な書込み動作
を実行するコンピュータ・システムについて説明した。
プロセッサ資源は、プロセッサを含むノードによって適
当なコヒーレンシ状態が得られる前に、書込み動作およ
び対応するデータがシステム・インタフェースへ送られ
たときに解放される。ノード内のトランザクションの順
序付けは、書込み動作に関しては維持されないが、書込
み動作はより迅速にプロセッサからクリアされる。書込
みトランザクションに応答してコヒーレンシ動作が実行
される間に、その後のトランザクションによってプロセ
ッサ資源を使用できるので有利である。通常、このよう
なプロセッサ資源は書込みトランザクションによって占
有される。その結果、対応するコヒーレンシ動作を実行
する間、より迅速に解放された資源をその後のトランザ
クションに使用することができる程度に、コンピュータ
・システム性能を向上させることができる。
【0148】当業者には、上記の開示を完全に理解した
後に多数の変形形態および修正形態が明らかになろう。
たとえば、本明細書に示した様々なブロックおよび構成
要素はハードウェア実施形態に関して説明したが、代替
実施形態では、ハードウェア機能のすべてまたは一部を
ソフトウェアで実施することができる。特許請求の範囲
は、すべてのそのような変形形態および修正形態を包含
するものと解釈されるものである。
【図面の簡単な説明】
【図1】マルチプロセッサ・コンピュータ・システムの
ブロック図である。
【図2】図1に示したコンピュータ・システムの一実施
形態によってサポートされる非一様メモリ・アーキテク
チャを示す概念ブロック図(A)と、図1に示したコン
ピュータ・システムの一実施形態によってサポートされ
るキャッシュ専用メモリ・アーキテクチャを示す概念ブ
ロック図(B)である。
【図3】図1に示した対称型多重処理ノードの一実施形
態のブロック図である。
【図4】図3に示したディレクトリの一実施形態に記憶
された例示的なディレクトリ・エントリを示す図であ
る。
【図5】図1に示したシステム・インタフェースの一実
施形態のブロック図である。
【図6】要求エージェントとホーム・エージェントとス
レーブ・エージェントとの間の通常のコヒーレンシ動作
に応答して実行される活動を示す図である。
【図7】プロセッサからのリード・ツー・オウン要求に
応答して実行される例示的なコヒーレンシ動作を示す図
である。
【図8】図5に示した要求エージェントの一実施形態に
関する例示的な状態マシンを示すフローチャートであ
る。
【図9】図5に示したホーム・エージェントの一実施形
態に関する例示的な状態マシンを示すフローチャートで
ある。
【図10】図5に示したスレーブ・エージェントの一実
施形態に関する例示的な状態マシンを示すフローチャー
トである。
【図11】システム・インタフェースの一実施形態によ
る要求タイプをリストした表である。
【図12】システム・インタフェースの一実施形態によ
るデマンド・タイプをリストした表である。
【図13】システム・インタフェースの一実施形態によ
る応答タイプをリストした表である。
【図14】システム・インタフェースの一実施形態によ
る完了タイプをリストした表である。
【図15】システム・インタフェースの一実施形態によ
る、プロセッサによって実行される様々な動作に応答し
て実行されるコヒーレンシ動作を表す表である。
【図16】エイリアスを含むローカル物理アドレス空間
を示す図である。
【図17】一実施形態による書込み動作を実行するため
に図1に示したコンピュータ・システム内のシステム・
インタフェースによって実行されるステップを示すフロ
ーチャートである。
【図18】書込み動作の実行を示す、図1に示したSM
Pノードの一実施形態の一部のブロック図である。
【図19】書込み動作に応答して、図1に示したコンピ
ュータ・システムの一実施形態によって実行されるコヒ
ーレンシ活動を示す図である。
【図20】書込みストリーム動作を示すタイミング図で
ある。
【図21】高速書込みストリーム動作を示すタイミング
図である。
【符号の説明】
10 コンピュータ・システム 12 SMPノード 14 ポイント・ツー・ポイント・ネットワーク 16 プロセッサ 18 外部キャッシュ 20 SMPバス 22 メモリ 24 システム・インタフェース 26 入出力インタフェース
─────────────────────────────────────────────────────
【手続補正書】
【提出日】平成9年12月4日
【手続補正1】
【補正対象書類名】図面
【補正対象項目名】全図
【補正方法】変更
【補正内容】
【図4】
【図1】
【図12】
【図13】
【図2】
【図6】
【図11】
【図3】
【図5】
【図14】
【図19】
【図7】
【図10】
【図15】
【図16】
【図8】
【図20】
【図9】
【図17】
【図18】
【図21】
───────────────────────────────────────────────────── フロントページの続き (71)出願人 591064003 901 SAN ANTONIO ROAD PALO ALTO,CA 94303,U. S.A.

Claims (20)

    【特許請求の範囲】
  1. 【請求項1】 多重処理コンピュータ・システム内で書
    込み動作を実行する方法であって、 前記多重処理コンピュータ・システムのローカル処理ノ
    ード内のプロセッサによって書込み動作を開始するステ
    ップと、 前記書込み動作に応答して少なくとも1つのリモート処
    理ノードに対してコヒーレンシ動作を実行するステップ
    と、 前記書込み動作が特定の所定のコードを含む場合に、前
    記コヒーレンシ動作が完了する前に、前記ローカル処理
    ノード内で前記書込み動作を完了するステップと、 前記書込み動作が前記特定の所定のコード化とは異なる
    コードを含む場合に、前記コヒーレンシ動作が完了した
    後に前記ローカル処理ノード内で前記書込み動作を完了
    するステップとを含むことを特徴とする方法。
  2. 【請求項2】 前記特定の所定のコードが、前記書込み
    動作と共に含まれるアドレスを介して与えられることを
    特徴とする請求項1に記載の方法。
  3. 【請求項3】 前記アドレスが、前記ローカル処理ノー
    ドのアドレス空間内にある第1のアドレス領域内に存在
    することを特徴とする請求項2に記載の方法。
  4. 【請求項4】 前記第1のアドレス領域が、前記アドレ
    スの複数の最上位ビット内の特定の値で識別されること
    を特徴とする請求項3に記載の方法。
  5. 【請求項5】 前記第1のアドレス領域が、前記アドレ
    ス空間内の第2のアドレス領域に対するエイリアスであ
    ることを特徴とする請求項3に記載の方法。
  6. 【請求項6】 前記特定の所定のコードとは異なる前記
    コードが、第2のアドレス領域内の第2のアドレスを含
    むことを特徴とする請求項4に記載の方法。
  7. 【請求項7】 前記書込み動作が、書込みストリーム動
    作であることを特徴とする請求項3に記載の方法。
  8. 【請求項8】 さらに、前記コヒーレンシ動作の前記実
    行の前に前記アドレスをグローバル・アドレスに変換し
    ておくステップを含むことを特徴とする請求項3に記載
    の方法。
  9. 【請求項9】 前記完了ステップが、前記プロセッサか
    らデータを転送するステップを含むことを特徴とする請
    求項1に記載の方法。
  10. 【請求項10】 さらに、前記コヒーレンシ動作の完了
    時に前記アドレスのホーム・ノードへ前記データを転送
    するステップを含むことを特徴とする請求項9に記載の
    方法。
  11. 【請求項11】 多重処理コンピュータ・システム内で
    書込み動作を実行する装置であって、 書込み動作を実行するように構成されたプロセッサと、 前記書込み動作を受け取り、前記書込み動作に応答して
    コヒーレンシ動作を実行するように結合され、前記書込
    み動作が特定の所定のコードを含む場合に前記コヒーレ
    ンシ動作が完了する前に前記プロセッサに対する前記書
    込み動作を完了しておくように構成され、さらに、前記
    書込み動作が特定の所定のコードを含む場合に前記コヒ
    ーレンシ動作が完了するまで前記プロセッサに対する前
    記書込み動作の完了を抑制するように構成された、シス
    テム・インタフェースとを備えることを特徴とする装
    置。
  12. 【請求項12】 前記コヒーレンシ動作が、前記書込み
    動作で識別されたコヒーレンシ単位に対して前記書込み
    を行うことができるようにするコヒーレンシ状態を得る
    ために実行されることを特徴とする請求項11に記載の
    装置。
  13. 【請求項13】 前記特定の所定のコードが、前記書込
    み動作と共に含まれるアドレスを介して与えられること
    を特徴とする請求項11に記載の装置。
  14. 【請求項14】 前記アドレスが、前記プロセッサがア
    クセスできるアドレス空間内の第1のアドレス領域内に
    存在することを特徴とする請求項13に記載の装置。
  15. 【請求項15】 前記第1のアドレス領域が、前記アド
    レス空間内の第2のアドレス領域に対するエイリアスで
    あり、前記異なるコードが、前記第2のアドレス領域内
    に存在する第2のアドレスを含むことを特徴とする請求
    項14に記載の装置。
  16. 【請求項16】 前記プロセッサに対して前記書込み動
    作を完了することが、前記書込み動作に対応するデータ
    を前記プロセッサから転送することを含むことを特徴と
    する請求項11に記載の装置。
  17. 【請求項17】 コンピュータ・システムであって、 書込み動作を実行するように構成された少なくとも1つ
    のプロセッサを含み、前記書込み動作が所定のコードを
    含む場合に前記書込み動作を可能にするコヒーレンシ動
    作を得る前に前記プロセッサに対する前記書込み動作を
    完了しておくように構成された、第1の処理ノードと、 前記書込み動作の影響を受けるコヒーレンシ単位のホー
    ム・ノードとして構成され、前記コヒーレンシ状態を得
    るために搬送されるコヒーレンシ要求を前記第1の処理
    ノードから受け取るように結合された、第2の処理ノー
    ドとを備えることを特徴とするコンピュータ・システ
    ム。
  18. 【請求項18】 前記所定のコードが、前記第1の処理
    ノードに対応するアドレス空間のアドレス領域内のアド
    レスを含むことを特徴とする請求項17に記載のコンピ
    ュータ・システム。
  19. 【請求項19】 前記アドレス領域が、前記アドレス空
    間内の第2のアドレス領域に対するエイリアスであるこ
    とを特徴とする請求項18に記載のコンピュータ・シス
    テム。
  20. 【請求項20】 前記第1の処理ノードが、前記コヒー
    レンシ要求の完了時に前記第2の処理ノードへの前記書
    込み動作に対応するデータを与えることを特徴とする請
    求項17に記載のコンピュータ・システム。
JP9208228A 1996-07-01 1997-06-30 エフィシェントな書込み動作を実行するマルチプロセッサ・システム Pending JPH10143482A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/675634 1996-07-01
US08/675,634 US5749095A (en) 1996-07-01 1996-07-01 Multiprocessing system configured to perform efficient write operations

Publications (1)

Publication Number Publication Date
JPH10143482A true JPH10143482A (ja) 1998-05-29

Family

ID=24711344

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9208228A Pending JPH10143482A (ja) 1996-07-01 1997-06-30 エフィシェントな書込み動作を実行するマルチプロセッサ・システム

Country Status (4)

Country Link
US (1) US5749095A (ja)
EP (1) EP0817073B1 (ja)
JP (1) JPH10143482A (ja)
DE (1) DE69721643T2 (ja)

Families Citing this family (101)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09204403A (ja) * 1996-01-26 1997-08-05 Hitachi Ltd 並列計算機
US6857099B1 (en) * 1996-09-18 2005-02-15 Nippon Steel Corporation Multilevel semiconductor memory, write/read method thereto/therefrom and storage medium storing write/read program
US6088769A (en) * 1996-10-01 2000-07-11 International Business Machines Corporation Multiprocessor cache coherence directed by combined local and global tables
US6094712A (en) * 1996-12-04 2000-07-25 Giganet, Inc. Computer network interface for direct mapping of data transferred between applications on different host computers from virtual addresses to physical memory addresses application data
US5860120A (en) * 1996-12-09 1999-01-12 Intel Corporation Directory-based coherency system using two bits to maintain coherency on a dual ported memory system
US6029204A (en) * 1997-03-13 2000-02-22 International Business Machines Corporation Precise synchronization mechanism for SMP system buses using tagged snoop operations to avoid retries
US7133940B2 (en) * 1997-10-14 2006-11-07 Alacritech, Inc. Network interface device employing a DMA command queue
US6427171B1 (en) 1997-10-14 2002-07-30 Alacritech, Inc. Protocol processing stack for use with intelligent network interface device
US6470415B1 (en) 1999-10-13 2002-10-22 Alacritech, Inc. Queue system involving SRAM head, SRAM tail and DRAM body
US6757746B2 (en) 1997-10-14 2004-06-29 Alacritech, Inc. Obtaining a destination address so that a network interface device can write network data without headers directly into host memory
US8782199B2 (en) * 1997-10-14 2014-07-15 A-Tech Llc Parsing a packet header
US6658480B2 (en) * 1997-10-14 2003-12-02 Alacritech, Inc. Intelligent network interface system and method for accelerated protocol processing
US8539112B2 (en) 1997-10-14 2013-09-17 Alacritech, Inc. TCP/IP offload device
US7076568B2 (en) * 1997-10-14 2006-07-11 Alacritech, Inc. Data communication apparatus for computer intelligent network interface card which transfers data between a network and a storage device according designated uniform datagram protocol socket
US6427173B1 (en) 1997-10-14 2002-07-30 Alacritech, Inc. Intelligent network interfaced device and system for accelerated communication
US7284070B2 (en) * 1997-10-14 2007-10-16 Alacritech, Inc. TCP offload network interface device
US8621101B1 (en) 2000-09-29 2013-12-31 Alacritech, Inc. Intelligent network storage interface device
US6697868B2 (en) * 2000-02-28 2004-02-24 Alacritech, Inc. Protocol processing stack for use with intelligent network interface device
US7089326B2 (en) * 1997-10-14 2006-08-08 Alacritech, Inc. Fast-path processing for receiving data on TCP connection offload devices
US7167927B2 (en) 1997-10-14 2007-01-23 Alacritech, Inc. TCP/IP offload device with fast-path TCP ACK generating and transmitting mechanism
US6226680B1 (en) * 1997-10-14 2001-05-01 Alacritech, Inc. Intelligent network interface system method for protocol processing
US7042898B2 (en) 1997-10-14 2006-05-09 Alacritech, Inc. Reducing delays associated with inserting a checksum into a network message
US6434620B1 (en) 1998-08-27 2002-08-13 Alacritech, Inc. TCP/IP offload network interface device
US7185266B2 (en) * 2003-02-12 2007-02-27 Alacritech, Inc. Network interface device for error detection using partial CRCS of variable length message portions
US6591302B2 (en) 1997-10-14 2003-07-08 Alacritech, Inc. Fast-path apparatus for receiving data corresponding to a TCP connection
US7237036B2 (en) * 1997-10-14 2007-06-26 Alacritech, Inc. Fast-path apparatus for receiving data corresponding a TCP connection
US6687758B2 (en) * 2001-03-07 2004-02-03 Alacritech, Inc. Port aggregation for network connections that are offloaded to network interface devices
US7174393B2 (en) 2000-12-26 2007-02-06 Alacritech, Inc. TCP/IP offload network interface device
US6085295A (en) * 1997-10-20 2000-07-04 International Business Machines Corporation Method of maintaining data coherency in a computer system having a plurality of interconnected nodes
US6341337B1 (en) * 1998-01-30 2002-01-22 Sun Microsystems, Inc. Apparatus and method for implementing a snoop bus protocol without snoop-in and snoop-out logic
US6701416B1 (en) * 1998-02-17 2004-03-02 International Business Machines Corporation Cache coherency protocol with tagged intervention of modified values
US6347361B1 (en) * 1998-02-17 2002-02-12 International Business Machines Corporation Cache coherency protocols with posted operations
US6145059A (en) * 1998-02-17 2000-11-07 International Business Machines Corporation Cache coherency protocols with posted operations and tagged coherency states
US6330643B1 (en) * 1998-02-17 2001-12-11 International Business Machines Corporation Cache coherency protocols with global and local posted operations
US6141733A (en) * 1998-02-17 2000-10-31 International Business Machines Corporation Cache coherency protocol with independent implementation of optimized cache operations
US6560681B1 (en) * 1998-05-08 2003-05-06 Fujitsu Limited Split sparse directory for a distributed shared memory multiprocessor system
US7664883B2 (en) * 1998-08-28 2010-02-16 Alacritech, Inc. Network interface device that fast-path processes solicited session layer read commands
US6526481B1 (en) 1998-12-17 2003-02-25 Massachusetts Institute Of Technology Adaptive cache coherence protocols
US6636950B1 (en) * 1998-12-17 2003-10-21 Massachusetts Institute Of Technology Computer architecture for shared memory access
US6631401B1 (en) 1998-12-21 2003-10-07 Advanced Micro Devices, Inc. Flexible probe/probe response routing for maintaining coherency
US6275905B1 (en) 1998-12-21 2001-08-14 Advanced Micro Devices, Inc. Messaging scheme to maintain cache coherency and conserve system memory bandwidth during a memory read operation in a multiprocessing computer system
US6370621B1 (en) 1998-12-21 2002-04-09 Advanced Micro Devices, Inc. Memory cancel response optionally cancelling memory controller's providing of data in response to a read operation
US6490661B1 (en) 1998-12-21 2002-12-03 Advanced Micro Devices, Inc. Maintaining cache coherency during a memory read operation in a multiprocessing computer system
US6553430B1 (en) 1999-09-17 2003-04-22 Advanced Micro Devices, Inc. Computer system implementing flush operation
US6714994B1 (en) 1998-12-23 2004-03-30 Advanced Micro Devices, Inc. Host bridge translating non-coherent packets from non-coherent link to coherent packets on conherent link and vice versa
US6938094B1 (en) 1999-09-17 2005-08-30 Advanced Micro Devices, Inc. Virtual channels and corresponding buffer allocations for deadlock-free computer system operation
US6950438B1 (en) 1999-09-17 2005-09-27 Advanced Micro Devices, Inc. System and method for implementing a separate virtual channel for posted requests in a multiprocessor computer system
US6888843B2 (en) * 1999-09-17 2005-05-03 Advanced Micro Devices, Inc. Response virtual channel for handling all responses
US6529999B1 (en) 1999-10-27 2003-03-04 Advanced Micro Devices, Inc. Computer system implementing system and method for ordering write operations and maintaining memory coherency
US6557048B1 (en) 1999-11-01 2003-04-29 Advanced Micro Devices, Inc. Computer system implementing a system and method for ordering input/output (IO) memory operations within a coherent portion thereof
US6757793B1 (en) 2000-03-29 2004-06-29 Advanced Micro Devices, Inc. Reducing probe traffic in multiprocessor systems using a victim record table
US6725341B1 (en) 2000-06-28 2004-04-20 Intel Corporation Cache line pre-load and pre-own based on cache coherence speculation
US6826619B1 (en) 2000-08-21 2004-11-30 Intel Corporation Method and apparatus for preventing starvation in a multi-node architecture
US8019901B2 (en) * 2000-09-29 2011-09-13 Alacritech, Inc. Intelligent network storage interface system
US6487643B1 (en) 2000-09-29 2002-11-26 Intel Corporation Method and apparatus for preventing starvation in a multi-node architecture
US6772298B2 (en) 2000-12-20 2004-08-03 Intel Corporation Method and apparatus for invalidating a cache line without data return in a multi-node architecture
US6791412B2 (en) * 2000-12-28 2004-09-14 Intel Corporation Differential amplifier output stage
US7234029B2 (en) * 2000-12-28 2007-06-19 Intel Corporation Method and apparatus for reducing memory latency in a cache coherent multi-node architecture
US20020087775A1 (en) * 2000-12-29 2002-07-04 Looi Lily P. Apparatus and method for interrupt delivery
US6721918B2 (en) 2000-12-29 2004-04-13 Intel Corporation Method and apparatus for encoding a bus to minimize simultaneous switching outputs effect
US20020087766A1 (en) * 2000-12-29 2002-07-04 Akhilesh Kumar Method and apparatus to implement a locked-bus transaction
US6721813B2 (en) * 2001-01-30 2004-04-13 Advanced Micro Devices, Inc. Computer system implementing a system and method for tracking the progress of posted write transactions
US7398376B2 (en) * 2001-03-23 2008-07-08 International Business Machines Corporation Instructions for ordering execution in pipelined processes
US6842849B2 (en) * 2001-05-21 2005-01-11 Arm Limited Locking source registers in a data processing apparatus
US6971098B2 (en) 2001-06-27 2005-11-29 Intel Corporation Method and apparatus for managing transaction requests in a multi-node architecture
US6922833B2 (en) * 2001-10-11 2005-07-26 International Business Machines Corporation Adaptive fast write cache for storage devices
US6715055B1 (en) 2001-10-15 2004-03-30 Advanced Micro Devices, Inc. Apparatus and method for allocating buffer space
US20030121835A1 (en) * 2001-12-31 2003-07-03 Peter Quartararo Apparatus for and method of sieving biocompatible adsorbent beaded polymers
US6973544B2 (en) * 2002-01-09 2005-12-06 International Business Machines Corporation Method and apparatus of using global snooping to provide cache coherence to distributed computer nodes in a single coherent system
US6862647B1 (en) * 2002-01-29 2005-03-01 Advanced Micro Devices, Inc. System and method for analyzing bus transactions
US6598120B1 (en) * 2002-03-08 2003-07-22 International Business Machines Corporation Assignment of building block collector agent to receive acknowledgments from other building block agents
US7543087B2 (en) * 2002-04-22 2009-06-02 Alacritech, Inc. Freeing transmit memory on a network interface device prior to receiving an acknowledgement that transmit data has been received by a remote device
US7496689B2 (en) * 2002-04-22 2009-02-24 Alacritech, Inc. TCP/IP offload device
US7337241B2 (en) * 2002-09-27 2008-02-26 Alacritech, Inc. Fast-path apparatus for receiving data corresponding to a TCP connection
US7191241B2 (en) * 2002-09-27 2007-03-13 Alacritech, Inc. Fast-path apparatus for receiving data corresponding to a TCP connection
US8185602B2 (en) 2002-11-05 2012-05-22 Newisys, Inc. Transaction processing using multiple protocol engines in systems having multiple multi-processor clusters
US20040088262A1 (en) * 2002-11-06 2004-05-06 Alacritech, Inc. Enabling an enhanced function of an electronic device
US6985984B2 (en) * 2002-11-07 2006-01-10 Sun Microsystems, Inc. Multiprocessing systems employing hierarchical back-off locks
US7080213B2 (en) * 2002-12-16 2006-07-18 Sun Microsystems, Inc. System and method for reducing shared memory write overhead in multiprocessor systems
US8024526B2 (en) * 2003-04-11 2011-09-20 Oracle America, Inc. Multi-node system with global access states
GB2416416B (en) * 2003-04-11 2006-11-22 Sun Microsystems Inc Multi-node computer system implementing global access state dependent transactions
US6973654B1 (en) * 2003-05-27 2005-12-06 Microsoft Corporation Systems and methods for the repartitioning of data
US6996070B2 (en) * 2003-12-05 2006-02-07 Alacritech, Inc. TCP/IP offload device with reduced sequential processing
JP4085389B2 (ja) * 2003-12-24 2008-05-14 日本電気株式会社 マルチプロセッサシステム、マルチプロセッサシステムにおける一貫性制御装置及び一貫性制御方法
US8248939B1 (en) 2004-10-08 2012-08-21 Alacritech, Inc. Transferring control of TCP connections between hierarchy of processing mechanisms
JP4362454B2 (ja) * 2005-04-07 2009-11-11 富士通株式会社 キャッシュコヒーレンス管理装置およびキャッシュコヒーレンス管理方法
US7730101B2 (en) * 2005-06-10 2010-06-01 Microsoft Corporation Implementing a tree data storage structure in a distributed environment
US7376793B2 (en) * 2005-07-21 2008-05-20 Sun Microsystems, Inc. Cache coherence protocol with speculative writestream
US7738500B1 (en) 2005-12-14 2010-06-15 Alacritech, Inc. TCP timestamp synchronization for network connections that are offloaded to network interface devices
US7636816B2 (en) * 2006-09-29 2009-12-22 Broadcom Corporation Global address space management
US20080082622A1 (en) * 2006-09-29 2008-04-03 Broadcom Corporation Communication in a cluster system
US7698523B2 (en) * 2006-09-29 2010-04-13 Broadcom Corporation Hardware memory locks
US7631150B2 (en) * 2006-09-29 2009-12-08 Broadcom Corporation Memory management in a shared memory system
US8539513B1 (en) 2008-04-01 2013-09-17 Alacritech, Inc. Accelerating data transfer in a virtual computer system with tightly coupled TCP connections
US8341286B1 (en) 2008-07-31 2012-12-25 Alacritech, Inc. TCP offload send optimization
US9306793B1 (en) 2008-10-22 2016-04-05 Alacritech, Inc. TCP offload device that batches session layer headers to reduce interrupts as well as CPU copies
US9063916B2 (en) 2013-02-27 2015-06-23 Oracle International Corporation Compact encoding of node locations
US11169925B2 (en) * 2015-08-25 2021-11-09 Samsung Electronics Co., Ltd. Capturing temporal store streams into CPU caches by dynamically varying store streaming thresholds
US10747298B2 (en) 2017-11-29 2020-08-18 Advanced Micro Devices, Inc. Dynamic interrupt rate control in computing system
US10503648B2 (en) 2017-12-12 2019-12-10 Advanced Micro Devices, Inc. Cache to cache data transfer acceleration techniques
US11210246B2 (en) 2018-08-24 2021-12-28 Advanced Micro Devices, Inc. Probe interrupt delivery

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5091846A (en) * 1986-10-03 1992-02-25 Intergraph Corporation Cache providing caching/non-caching write-through and copyback modes for virtual addresses and including bus snooping to maintain coherency
US5222224A (en) * 1989-02-03 1993-06-22 Digital Equipment Corporation Scheme for insuring data consistency between a plurality of cache memories and the main memory in a multi-processor system
US5655096A (en) * 1990-10-12 1997-08-05 Branigin; Michael H. Method and apparatus for dynamic scheduling of instructions to ensure sequentially coherent data in a processor employing out-of-order execution
US5303362A (en) * 1991-03-20 1994-04-12 Digital Equipment Corporation Coupled memory multiprocessor computer system including cache coherency management protocols
US5603005A (en) * 1994-12-27 1997-02-11 Unisys Corporation Cache coherency scheme for XBAR storage structure with delayed invalidates until associated write request is executed
US5613071A (en) * 1995-07-14 1997-03-18 Intel Corporation Method and apparatus for providing remote memory access in a distributed memory multiprocessor system

Also Published As

Publication number Publication date
EP0817073A2 (en) 1998-01-07
DE69721643D1 (de) 2003-06-12
EP0817073A3 (en) 1998-08-19
DE69721643T2 (de) 2004-02-26
EP0817073B1 (en) 2003-05-07
US5749095A (en) 1998-05-05

Similar Documents

Publication Publication Date Title
JPH10143482A (ja) エフィシェントな書込み動作を実行するマルチプロセッサ・システム
JP3987162B2 (ja) 読取り−共有トランザクションのための強化ブロッキング・メカニズムを含むマルチプロセス・システム
JPH10171710A (ja) 効果的なブロック・コピー動作を実行するマルチプロセス・システム
JPH10340227A (ja) ローカル・グローバル・アドレス・スペース及びマルチアクセス・モードを用いたマルチプロセッサ・コンピュータ・システム
JPH10143476A (ja) プリフェッチ動作を開始するソフトウエアを実行するマルチプロセス・システム
JPH10187470A (ja) スピンロック動作を最適化する装置を含むマルチプロセス・システム
JPH10149342A (ja) プリフェッチ動作を実行するマルチプロセス・システム
JPH10134014A (ja) 3ホップ通信プロトコルを用いたマルチプロセス・システム
EP0817071B1 (en) A multiprocessing system configured to detect and efficiently provide for migratory data access patterns
JPH10214230A (ja) 応答カウントを含むコヒーレンシー・プロトコルを採用したマルチプロセッサ・システム
JPH10187645A (ja) プロセス・ノードの多数のサブノード内にコヒーレンス状態で格納するように構成されたマルチプロセス・システム
JPH10116253A (ja) 同期動作を実行するマルチプロセス・システム
US6240501B1 (en) Cache-less address translation
JPH10133917A (ja) コヒーレンシー関連エラー・ロッジング能力を有するマルチプロセス・システム