JP3987162B2 - 読取り−共有トランザクションのための強化ブロッキング・メカニズムを含むマルチプロセス・システム - Google Patents

読取り−共有トランザクションのための強化ブロッキング・メカニズムを含むマルチプロセス・システム Download PDF

Info

Publication number
JP3987162B2
JP3987162B2 JP20823497A JP20823497A JP3987162B2 JP 3987162 B2 JP3987162 B2 JP 3987162B2 JP 20823497 A JP20823497 A JP 20823497A JP 20823497 A JP20823497 A JP 20823497A JP 3987162 B2 JP3987162 B2 JP 3987162B2
Authority
JP
Japan
Prior art keywords
read
transaction
coherency
transaction request
request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP20823497A
Other languages
English (en)
Other versions
JPH10143477A (ja
Inventor
エリック・イー・ハガーステン
ポール・エヌ・ローウェンステイン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Microsystems Inc
Original Assignee
Sun Microsystems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Microsystems Inc filed Critical Sun Microsystems Inc
Publication of JPH10143477A publication Critical patent/JPH10143477A/ja
Application granted granted Critical
Publication of JP3987162B2 publication Critical patent/JP3987162B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/0815Cache consistency protocols
    • G06F12/0817Cache consistency protocols using directory methods
    • G06F12/0828Cache consistency protocols using directory methods with concurrent directory accessing, i.e. handling multiple concurrent coherency transactions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/0813Multiuser, multiprocessor or multiprocessing cache systems with a network or matrix configuration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/25Using a specific main memory architecture
    • G06F2212/254Distributed memory
    • G06F2212/2542Non-uniform memory access [NUMA] architecture

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Multi Processors (AREA)
  • Memory System Of A Hierarchy Structure (AREA)

Description

【0001】
関連特許出願の相互参照
本特許出願は、開示が引用によって本明細書に組み込まれた、下記の関連特許出願に関係するものである。
1.本出願と同時出願されたHagersten等の「Extending The Coherence Domain Beyond A Computer System Bus」(参照番号P990)。
2.本出願と同時出願されたHagerstenの「Method And Apparatus Optimizing Global Data Replies In A Computer System」(参照番号P991)。
3.本出願と同時出願されたHagersten等の「Method AndApparatus Providing Short Latency Round−Robin Arbitration For Access ToA Shared Resource」(参照番号P992)。
4.本出願と同時出願されたSinghal等の「ImplementingSnooping On A Split−Transaction Computer System Bus」(参照番号P993)。
5.本出願と同時出願されたSinghal等の「Split Transaction Snooping Bus Protocol」(参照番号P989)。
6.本出願と同時出願されたHeller等の「Interconnection Subsystem For A Multiprocessor Computer System With A Small Number OfProcessors Using A Switching Arrangement Of Limited Degree」(参照番号P1609)。
7.本出願と同時出願されたWade等の「System And Method For Performing Deadlock Free Message Transfer In Cyclic Multi−Hop Digital Computer Network」(参照番号P1572)。
8.本出願と同時出願されたCassiday等の「Synchronization System And Method For Plesiochronous Signaling」(参照符号P1593)。
9.本出願と同時出願されたHagersten等の「Methods And Apparatus For A Coherence Transformer For Connecting Computer System Coherence Domains」(参照番号P1519)。
10.本出願と同時出願されたHagersten等の「Methods And Apparatus For A Coherence Transformer With Limited Memory For Connecting Computer System Coherence Domains」(参照番号P1530)。
11.本出願と同時出願されたHagersten等の「Methods And Apparatus For Sharing Data Objects In A Computer System」(参照番号P1463)。
12.本出願と同時出願されたHagersten等の「Methods And Apparatus For A Directory−Less Memory Access Protocol In A Distributed Shared Memory Computer System」(参照番号P1531)。
13.本出願と同時出願されたHagersten等の「Hybrid Memory Access Protocol In A Distributed Shared Memory Computer System」(参照番号P1550)。
14.本出願と同時出願されたHagersten等の「Methods And Apparatus For Substantially Memory−Less Coherence Transformer For Connecting Computer System」(参照番号P1529)。
15.本出願と同時出願されたGuzovskiy等の「Encoding Method For Directory State In Cache Coherent Distributed Shared Memory System」(参照番号P1520)。
16.本出願と同時出願されたNesheim等の「Software Use Of Address Translation Mechanism」(参照番号P1560)。
17.本出願と同時出願されたLowenstein等の「Directory−Based,Shared−Memory,Scaleable Multiprocessor Computer System Having Deadlock−free Transaction Flow Sans Flow Control Protocol」(参照番号P1561)。
18.本出願と同時出願されたNesheimの「Maintaining A Sequential Stored Order (SSO) In ANon−SSO Machine」(参照番号P1562)。
19.本出願と同時出願されたWong−Chanの「Node To Node Interrupt Mechanism In A Multiprocessor System」(参照番号P1587)。
20.1996年4月8日に出願された、「Deterministic Distributed Multicache Coherence Protocol」と題するHagersten等の出願第08/630703号。
21.1995年12月22日に出願された、「A Hybrid NUMAComa Cashing System And Methods ForSelecting Between The Caching Modes」と題するHagersten等の出願第08/577283号。
22.1995年12月22日に出願された、「A Hybrid NUMAComa Cashing System And Methods ForSelecting Between The Caching Modes」と題するWood等の出願第08/575787号。
23.本出願と同時出願されたHagersten等の「Flusing Of Cache Memory In A Computer System」(参照番号P1416)。
24.本出願と同時出願されたHagersten等の「EfficientAllocation Of Cache Memory Space InA Computer System」(参照番号P1576)。
25.本出願と同時出願されたHagersten等の「EfficientSelection Of Memory Storage Modes In A Computer System」(参照番号P1726)。
26.本出願と同時出願されたHagersten等の「Skip−level Write−through In A Multi−level Memory Of A Computer System」(参照番号P1736)。
27.本出願と同時出願されたHagerstenの「A Multiprocessing System Configured to PerformEfficient Write Operations」(参照番号P1500)。
28.本出願と同時出願されたHagerstenの「A Multiprocessing System Configured to PerformEfficient Block Copy Operations」(参照番号P1515)。
29.本出願と同時出願されたHagerstenの「A Multiprocessing System Including An Apparatus For Optimizing Spin−Lock Operations」(参照番号P1525)。
30.本出願と同時出願されたHagersten等の「A Multiprocessing System Configured to Detectand Efficiently Provide for Migratory Data Access Patterns」(参照番号P1555)。
31.本出願と同時出願されたHagerstenの「A Multiprocessing System Configured to Store Coherency State Within Multiple Subnodes of a Processing Node」(参照番号P1527)。
32.本出願と同時出願されたHagersten等の「A Multiprocessing System Configured to Perform Prefetching Operations」(参照番号P1571)。
33.本出願と同時出願されたHagersten等の「A Multiprocessing System Configured to Perform Synchronization Operations」(参照番号P1551)。
34.本出願と同時出願されたHagersten等の「A Multiprocessing System Having Coherency−Related Error Logging Capabilities」(参照番号P1719)。
35.本出願と同時出願されたHagerstenの「Multiprocessing System Employing A Three−Hop Communication Protocol」(参照番号P1785)。
36.本出願と同時出願されたHagersten等の「A Multiprocessing System Configured to Perform Software Initiated Prefetch Operations」(参照番号P1787)。
37.本出願と同時出願されたHagersten等の「A Multiprocessing Computer System Employing Local and Global Spaces and Multiple Accee Modes」(参照番号P1784)。
38.本出願と同時出願されたHagersten等の「Multiprocessing System Employing A Coherency Protocol Including A Reply Count」(参照番号P1570)。
【0002】
【発明の属する技術分野】
本発明は、マルチプロセッサ・コンピュータ・システムの分野に関し、詳細には、分散共用メモリ・アーキテクチャを有するマルチプロセッサ・コンピュータ・システム内の動作を最適化する機構および方法に関する。
【0003】
【従来の技術】
多重処理コンピュータ・システムは、コンピューティング・タスクを実行するために使用できる2つ以上のプロセッサを含む。1つのプロセッサ上で特定のコンピューティング・タスクを実行し、同時に他のプロセッサが、関係のないコンピューティング・タスクを実行することができる。別法として、特定のコンピューティング・タスクの構成要素を複数のプロセッサ間で分散し、コンピューティング・タスク全体を実行するのに必要な時間を短縮することができる。一般的に言えば、プロセッサは、1つまたは複数のオペランドに対する演算を実行して結果を生成するように構成された装置である。演算は、プロセッサによって実行される命令に応答して実行される。
【0004】
市販の多重処理コンピュータ・システムで広く使用されているアーキテクチャは、対称型マルチプロセッサ(SMP)アーキテクチャである。通常、SMPコンピュータ・システムは、キャッシュ階層を通じて共用バスに接続された複数のプロセッサを備える。共用バスにはメモリも接続され、メモリはシステム内のプロセッサ間で共用される。メモリ内の特定のメモリ位置へのアクセスは、他の特定のメモリ位置へのアクセスと同様な時間で行われる。メモリ内の各位置に一様にアクセスできるので、この構造はしばしば、一様なメモリ・アーキテクチャ(UMA)と呼ばれる。
【0005】
プロセッサは多くの場合、内部キャッシュと共に構成され、SMPコンピュータ・システム内のプロセッサと共用バスとの間のキャッシュ階層には通常、1つまたは複数のキャッシュが含まれる。特定のメイン・メモリ・アドレスに存在するデータの複数のコピーをこれらのキャッシュに記憶することができる。特定のアドレスが所与の時間に1つのデータ値しか記憶しない共用メモリ・モデルを維持するために、共用バス・コンピュータ・システムはキャッシュ・コヒーレンシを使用する。一般的に言えば、特定のメモリ・アドレスに記憶されているデータに対する演算の効果がキャッシュ階層内のデータの各コピーに反映される場合、その演算はコヒーレントである。たとえば、特定のメモリ・アドレスに記憶されているデータを更新したときには、前のデータのコピーを記憶しているキャッシュにその更新を供給することができる。別法として、特定のメモリ・アドレスへのその後のアクセスによって、更新済みコピーがメイン・メモリから転送されるように、前のデータのコピーをキャッシュ内で無効化することができる。共用バス・システムの場合、通常、スヌープ・バス・プロトコルが使用される。共用バス上で実行される各コヒーレント・トランザクションは、キャッシュ内のデータと突き合わせて調べられる(あるいは「スヌープ」される)。影響を受けるデータのコピーが見つかった場合、コヒーレント・トランザクションに応答して、そのデータを含むキャッシュ・ラインの状態を更新することができる。
【0006】
残念なことに、共用バス・アーキテクチャは、多重処理コンピュータ・システムの有用性を制限するいくつかの欠点を有する。バスはピーク帯域幅を利用することができる(たとえば、バスを介して転送できるバイト数/秒)。バスに追加プロセッサを取り付けると、プロセッサにデータおよび命令を供給するのに必要な帯域幅がピーク・バス帯域幅を超えることがある。いくつかのプロセッサが使用可能なバス帯域幅を待たなければならないので、プロセッサの帯域幅要件が使用可能なバス帯域幅を超えるとコンピュータ・システムの性能が影響を受ける。
【0007】
また、共用バスにより多くのプロセッサを追加するとバスに対する容量負荷が増大し、場合によってはバスの物理長が増加する。容量負荷が増大しバス長が延びると、バスを横切って信号が伝搬する際の遅延が長くなる。伝搬遅延が長くなるので、トランザクションの実行時間が長くなる。したがって、より多くのプロセッサを追加するほど、バスのピーク帯域幅が減少する。
【0008】
これらの問題は、プロセッサの動作周波数および性能が引き続き向上していることによってさらに深刻化する。より高い周波数およびより高度なプロセッサ・マイクロアーキテクチャによって性能が向上するので、帯域幅要件は、プロセッサの数が同じであっても前のプロセッサ世代より高くなる。したがって、前に多重処理コンピュータ・システムに十分な帯域幅を与えたバスが、より高性能のプロセッサを使用する同様なコンピュータ・システムには不十分であることがある。
【0009】
多重処理コンピュータ・システム用の他の構造は、分散共用メモリ・アーキテクチャである。分散共用メモリ・アーキテクチャは、内部にプロセッサおよびメモリが存在する複数のノードを含む。複数のノードは、その間の結合されたネットワークを介して通信する。全体的に考えると、複数のノード内に含まれるメモリは、コンピュータ・システムの共用メモリを形成する。通常、ディレクトリを使用して、どのノードが特定のアドレスに対応するデータのキャッシュ・コピーを有するかが識別される。ディレクトリを調べることによってコヒーレンシ活動を生成することができる。
【0010】
分散共用メモリ・システムは、スケーリング可能であり、共用バス・アーキテクチャの制限を解消する。多くのプロセッサ・アクセスはノード内で完了するので、通常、ノードがネットワーク上で有する帯域幅要件は、共用バス・アーキテクチャが共用バス上で与えなければならない帯域幅要件よりもずっと低い。ノードは、高いクロック周波数および帯域幅で動作し、必要に応じてネットワークにアクセスすることができる。ノードのローカル帯域幅に影響を与えずにネットワークに追加ノードを追加することができる。その代わり、ネットワーク帯域幅が影響を受ける。
【0011】
分散共用メモリ・アーキテクチャを有する多重処理コンピュータ・システムは、その利点にもかかわらず、スピンロック動作のために性能が低下する恐れがある。一般に、スピンロック動作は、メモリの重大な領域に一度に1つの並行プロセスしかアクセスできないようにするプログラムによって使用されるソフトウェア・ロックに関連するものである。簡単なスピンロックから高度な待ち行列ベースのロックまで、様々なロック実施形態が実施されている。簡単なスピンロック実施形態は、後述するように、非常に集中的なトラフィックを生成する可能性があるが、依然としてコンピュータ・システム内で最も一般的に使用されているソフトウェア・ロックである。
【0012】
スピンロック実施形態を使用するシステムでは通常、所与のプロセスがアトミック動作を実行して重大なメモリ領域へのアクセスを得る必要がある。たとえば、一般にアトミック試験及びセット動作が使用される。試験及びセット動作は、このメモリ領域に関連付けられたロック・ビットがクリアされているかどうかを判定し、かつこのロック・ビットをアトミックにセットするために実行される。すなわち、プロセスは、この試験によって、このメモリ領域に他のプロセスによるロックがないかどうかを判定することができ、セット動作によって、ロック・ビットがクリアされている場合にロックを行うことができる。ロック・ビットの試験によって、メモリ領域が現在ロックされていることが示された場合、プロセスは、ロック・ビットが、クリアされたことが検出されるまで連続的に読み取られる、ソフトウェア・ループを開始し、検出された時点で、アトミック試験及びセット動作を再開する。
【0013】
スピンロックは、楽観的スピンロック・アルゴリズムまたは悲観的スピンロック・アルゴリズムを使用して実施することができる。楽観的スピンロックは、下記のアルゴリズムによって示される。
【0014】
Figure 0003987162
【0015】
上記で示した楽観的スピンロック・アルゴリズムでは、プロセスはまず、アクセスが求められているメモリ領域に対応するロック・ビットに対してアトミック試験及びセット動作を実行する。アトミック試験及びセット動作は書込みを含むので、共用メモリ・システムではリード・ツー・オウン(RTO)動作とみなされる。したがって、システムは、アトミック試験及びセット動作に応答してロック・ビットを含むコヒーレンシ単位を修正状態にする。アトミック試験及びセット動作が失敗した場合、プロセスは、他のプロセスによってロック・ビットがクリアされるまでロック・ビットを反復的に読み取る。プロセスは次いで、アトミック試験及びセット動作を再開する。
【0016】
悲観的スピンロックは、下記のアルゴリズムによって示される。
【0017】
Figure 0003987162
【0018】
悲観的スピンロック・アルゴリズムでは、プロセッサはまず、ロック・ビットがクリアされるまで、アクセスが求められているメモリ領域に対応するロック・ビットを反復的に読み取る。ロック・ビットの読取りは、共用メモリ・システムではリード・ツー・シェア動作とみなされる。プロセスは、読取り動作によってロック・ビットがクリアされていると判定すると、メモリ領域へのアクセスをロックし及びアクセスを得るためにアトミック試験及びセット動作を実行する。アトミック試験及びセット動作の実行時に試験が失敗した場合、プロセスは再び、ロック・ビットがクリアされるまでロック・ビットを反復的に読み取る。
【0019】
どちらの実施形態でも、競合の対象であるスピンロックに対応するメモリ領域が解放されると、すべてのN個のスピン中のプロセッサが、キャッシュ・ライン向けのRTSトランザクションを生成する。したがって、分散共用メモリ・アーキテクチャでは、ホーム・ノードでN個のRTS要求が待機し、一度に1つずつ処理される。
【0020】
最初にデータ応答を受け取ったプロセッサは、ロックの解除を検出し、RTOトランザクションを生成する。RTOトランザクションは、ホーム・ノードで前のRTS要求の後に待機させられる。残りの各RTS要求のプロセッサが同様に、ロックが解除されたことを示す表示を受け取るので、これらのプロセッサもそれぞれ、RTOトランザクションを生成する。第1のRTOトランザクションが最終的にホーム・ノードによって処理されると、そのトランザクションを発行したプロセッサは、メモリ領域へのアクセスをロックしてアクセスを得る。したがって、残りのプロセッサのRTO要求に対応する試験及びセット動作は失敗し、これらのプロセッサはそれぞれ、スピン中のRTS要求を再開する。
【0021】
【発明が解決しようとする課題】
上記の議論から、同じメモリ領域へのアクセスに対していくつかのスピン中のプロセッサが競合しているとき、ロックが解除されると比較的多数のトランザクション要求が行われることは明白である。このために、次の競合者がロックを得ることができるまでのロックの解除に関連する待ち時間は比較的長くなる(すなわち、RTSの待ち時間のN倍程度)。さらに、トランザクションの数が多いので、ロックの所有権がノード間で移行する最大頻度が制限される可能性がある。最後に、スピン中のプロセッサのうちでロックを達成するプロセッサは1つだけなので、残りのプロセッサの試験及びセット動作が失敗したときに、ネットワーク上で望ましくないリクエスト・ツー・オウン要求が行われる。ロックが記憶されているコヒーレンシ単位がプロセッサ間およびノード間で移行し、他のコピーが無効になるので望ましくない。そのため、ロックがセットされているにもかかわらず、ネットワーク・トラフィックはさらに増加する。したがって、ロックが解除される結果として行われるトランザクション要求の数を減少させるようにスピンロック中のマルチプロセッサ・システムの動作を最適化し、それによって全体的なシステム性能を向上させる機構が望ましい。
【0022】
スピンロック動作中とその他の動作を使用するトランザクション中の両方に分散共用メモリ・アーキテクチャを使用する多重処理システムの重要な点は、トランザクション・スループットを最大にすることである。さらに、分散共用メモリ・アーキテクチャを使用するシステムは、競合状態のためのコヒーレンシ障害を回避するように構成すべきである。また、いくつかの状況では、多数のCPUが同じキャッシュ・ラインにアクセスする。これはたとえば、多数のCPUが同じコードを実行するスタートアップ時に起こる恐れがある。これは、すべての待機中のCPUが、「待機」値を有する同じ変数上でスピンするある種のバリア同期実施形態でも起こる恐れがある。この変数が「go」値に変化すると、CPUのすべてのキャッシュ内のローカル・コピーが無効化され、すべてのCPUが、この新しい値を達成するためにグローバル読取り要求を発行する。そのような状況では、システムはCPUに、アクセスが重ならないように順次この変数にアクセスするよう強制することができる。これは、1つのCPUがこの変数にアクセスするための待ち時間に、このCPUがアクセスを行う前に待機していたCPUの数を乗じた値に等しい量だけ最後のCPUのアクセスを遅延させる効果を有する。
【0023】
【課題を解決するための手段】
上記で概略的に述べた問題は主として、本発明による、NUMAモードでのリード・ツー・シェア・トランザクション用の機能拡張されたブロッキング機構を使用する多重処理コンピュータ・システムによって解決される。一実施態様では、多重処理コンピュータ・システムは、相互接続ネットワークによって相互接続された複数の処理ノードを含む。各処理ノードは、対称型多重処理(SMP)バスを通じてメモリ・サブシステムおよびシステム・インタフェースに結合された複数の処理装置を含む。多重処理システムは、分散共用メモリ・アーキテクチャを形成する。各処理ノードのシステム・インタフェースは、ノードに関連付けられたコヒーレンシ単位に対応するコヒーレンシ情報のディレクトリを維持するホーム・エージェントを含む。ホーム・エージェントは、相互接続ネットワークを介して他の処理ノードから受け取ったトランザクション要求も処理する。ホーム・エージェントは、複数の要求を同時に処理するように構成される。同じコヒーレンシに対応する他のトランザクション要求がすでにホーム・エージェント制御装置によって処理されている場合に未処理のコヒーレント・トランザクション要求の処理を妨げるトランザクション・ブロッキング装置がホーム・エージェント制御装置に結合される。トランザクション・ブロッキング装置は、NUMA(非一様メモリ・アーキテクチャ)モードのリード・ツー・シェア・トランザクション要求の場合のいくつかの例外を除いて、すべてのコヒーレンシ・トランザクション要求をブロックするように構成される。NUMAモードのリード・ツー・シェア・トランザクション要求が、NUMAモードの他のリード・ツー・シェア・トランザクション要求をブロックしないようにトランザクション・ブロッキング装置を構成することによって、トランザクションをより迅速に完了することができ、バリア同期待ち時間を短縮することができる。前述の方式は、NUMAモードの読取りストリームなど、データの「所有権」を移動させない他のトランザクション・タイプに適用することもできる。より一般的に言えば、あるノードのデータ所有権を変更させないトランザクション・タイプは、同じタイプの他のトランザクションをブロックしない。
【0024】
概して、本発明は、多重処理コンピュータ・システムのホーム・ノード内で使用できる装置を企図するものである。この多重処理コンピュータ・システムは、分散共用メモリ・アーキテクチャを形成するネットワークによって相互接続された複数の処理ノードを含む。この装置は、複数の処理ノードからリード・ツー・オウン・トランザクション要求を受け取るように結合された第1の待ち行列と、複数の処理ノードからリード・ツー・シェア・トランザクション要求を受け取るように結合された第2の待ち行列とを備える。ホーム・エージェント制御装置は、リード・ツー・オウン・トランザクション要求およびリード・ツー・シェア・トランザクション要求を受け取るように結合され、第1の待ち行列によって記憶されているリード・ツー・オウン・トランザクション要求を処理し、かつ第2の待ち行列によって記憶されているリード・ツー・シェア・トランザクション要求を処理するように構成される。
【0025】
本発明はさらに、分散共用メモリ・アーキテクチャを有する多重処理システム内のホーム・ノードでトランザクション要求を処理する方法を企図するものである。この方法は、ホーム・ノードでリード・ツー・シェア・トランザクション要求を受け取ることと、ホーム・ノードで、リード・ツー・シェア・トランザクション要求を受け取った後にリード・ツー・オウン・トランザクション要求を受け取ることと、ホーム・ノードが、リード・ツー・シェア・トランザクション要求を処理する前にリード・ツー・オウン・トランザクション要求を処理することとを含む。
【0026】
本発明はさらに、多重処理コンピュータ・システムの他のノードからトランザクション要求を受け取るように構成された複数の記憶要素と、複数の記憶要素によって記憶されているトランザクション要求を受け取るように結合されたホーム・エージェント制御装置とを備える多重処理コンピュータ・システムのノード内で使用できるホーム・エージェントを企図するものである。ホーム・エージェント制御装置は、ノードが所与のリード・ツー・オウン・トランザクション要求を受け取る前に所与のリード・ツー・シェア・トランザクション要求を受け取った場合でも、その所与のリード・ツー・シェア・トランザクション要求を処理する前にその所与のリード・ツー・オウン・トランザクション要求を処理するように構成される。
【0027】
本発明はさらに、非一様メモリ・アーキテクチャを形成するネットワークによって相互接続された複数の処理ノードを備える多重処理コンピュータ・システムを企図するものである。少なくとも1つの処理ノードは、複数の処理ノードからトランザクション要求を受け取るように結合された1つまたは複数の待ち行列と、トランザクション要求を受け取り、処理するように結合されたホーム・エージェント制御装置と、1つまたは複数の待ち行列およびホーム・エージェント制御装置に結合されたトランザクション・ブロッキング装置とを含む。トランザクション・ブロッキング装置は、共通のコヒーレンシ単位に対する他のトランザクション要求が現在、ホーム・エージェント制御装置によって処理されている場合に、選択されたトランザクションをブロックするように構成される。トランザクション・ブロッキング装置はさらに、特定のコヒーレンシ単位に対する第2のトランザクション要求が現在、ホーム・エージェント制御装置によって処理されており、第2のトランザクション要求によってその特定のコヒーレンシ単位が所有されることがなく、第2のトランザクション要求と所与のトランザクション要求が同じトランザクション・タイプのものである場合に、この特定のコヒーレンシ単位に対するこの所与のトランザクションを処理できるように構成される。
【0028】
【発明の実施の形態】
次に、図1を参照すると、多重処理コンピュータ・システム10の一実施形態のブロック図が示されている。コンピュータ・システム10は、ポイント・ツー・ポイント・ネットワーク14によって相互接続された複数のSMPノード12Aないし12Dを含む。本明細書で特定の参照符号とその後に続く文字で参照された要素は、集合的に参照符号のみで参照する。たとえば、SMPノード12Aないし12Dを集合的にSMPノード12と呼ぶ。図の実施形態では、各SMPノード12は、複数のプロセッサと、外部キャッシュと、SMPバスと、メモリと、システム・インタフェースとを含む。たとえば、SMPノード12Aは、プロセッサ16Aないし16Bを含む複数のプロセッサと共に構成される。プロセッサ16は外部キャッシュ18に接続され、外部キャッシュ18はさらにSMPバス20に結合される。また、メモリ22およびシステム・インタフェース24はSMPバス20に結合される。さらに、SMPバス20に1つまたは複数の入出力(I/O)インタフェース26を結合することができる。入出力インタフェース26は、シリアル・ポートおよびパラレル・ポート、ディスク・ドライブ、モデム、プリンタなどの周辺装置とのインタフェースをとるために使用される。他のSMPノード12Bないし12Dを同様に構成することができる。
【0029】
一般的に言えば、コンピュータ・システム10は、ネットワーク・トラフィックを最小限に抑え全体的な性能を向上させるように最適化される。各SMPノード12のシステム・インタフェース24は、システム・インタフェース24がある種のRTSトランザクション要求の後に、RTOトランザクション要求を受け取った場合でも、RTSトランザクション要求を処理する前にネットワーク14を介して受け取ったRTOトランザクション要求を処理するように優先付けするように構成される。一実施形態では、これは、RTSトランザクション要求を受け取る第2の待ち行列とは別の、RTOトランザクション要求を受け取る待ち行列をシステム・インタフェース24内に設けることによって行われる。そのような実施形態では、システム・インタフェース24は、第2の待ち行列内のすでに受け取ったある種の未処理のRTSトランザクション要求を処理する前にRTO待ち行列内の未処理のRTOトランザクション要求を処理するように構成される。
【0030】
システム・インタフェース24は、いくつかのトランザクション要求を並行して処理することができる。しかし、同じコヒーレンシ単位に対応する他のトランザクション要求が現在、システム・インタフェースによって処理されている場合に、特定のコヒーレンシ・トランザクションの処理を妨げるためにブロッキング機構が使用される。そのようなブロッキングは、リード・ツー・シェア(NUMAモード)要求が他のリード・ツー・シェア(NUMAモード)トランザクション要求をブロックしないという例外を除いて、すべてのトランザクション要求に対して行われる。
【0031】
システム・インタフェース24は、RTO待ち行列内のネクストインラインRTOトランザクション要求と第2の待ち行列内のネクストインライン・トランザクション要求を交互にピンポン方式で処理するように構成される。第2の待ち行列は、RTSトランザクション要求だけでなく、特にフラッシュ要求、割り込み要求、無効化要求など他のタイプの要求をバッファすることもできる。
【0032】
スピンロック動作中は、特に、多数のプロセッサが、ロックされた同じメモリ領域へのアクセスを求めて競合する場合(すなわち、これらのプロセッサがそれぞれ、RTSトランザクション要求がそれぞれ生成されるスピンロック動作中であるので)、第2の待ち行列内で比較的多数のRTSトランザクション要求が未処理になるという特徴がある。特定のプロセッサが、ロック解除を示すデータ応答を受け取ると、そのプロセッサは、RTOトランザクション要求を生成する。このRTOトランザクション要求がシステム・インタフェース24のRTO待ち行列に入れられ、かつ他のスピン中のプロセッサによって生成された多数の前のRTSトランザクション要求が依然として第2の待ち行列内で順序正しく待機しているので、RTOトランザクション要求は、RTO待ち行列のネクストインライン位置に比較的迅速に伝搬することができる。したがって、システム・インタフェース24は、すでに受け取っているRTSトランザクション要求の前にRTOトランザクション要求を処理することができる。その結果、RTOトランザクション要求が完了したときに、他のスピン中のプロセッサは、ロック解除を検出せず、したがってRTOトランザクション要求を生成することはない。そのため、ロックが記憶されているコヒーレンシ単位の不要な移行を回避することができる。さらに、コヒーレンシ単位の他のコピーの無効化も回避される。全体的なネットワーク・トラフィックが減少されるので、多重処理システムの全体的な性能を向上させることができる。
【0033】
本明細書では、メモリ動作とは、データを発送元から宛先へ転送させる動作である。発送元または宛先、あるいはその両方は、開始側内の記憶位置でも、あるいはメモリ内の記憶位置でもよい。発送元または宛先は、メモリ内の記憶位置であるとき、メモリ動作と共に搬送されるアドレスを介して指定される。メモリ動作は、読取り動作でも、あるいは書込み動作でよい。逆に、書込み動作では、データが開始側内の発送元から開始側の外側の宛先へ転送される。読取り動作では、データが開始側の外側の発送元から開始側内の宛先へ転送される。図1に示したコンピュータ・システムでは、メモリ動作は、SMPバス20上の1つまたは複数のトランザクションと、ネットワーク14上の1つまたは複数のコヒーレンシ動作とを含むことができる。
【0034】
各SMPノード12は基本的に、メモリ22を共用メモリとして有するSMPシステムである。プロセッサ16は、高性能プロセッサである。一実施形態では、各プロセッサ16は、SPARCプロセッサ・アーキテクチャのバージョン9に適合するSPARCプロセッサである。しかし、プロセッサ16が任意のプロセッサ・アーキテクチャを使用できることに留意されたい。
【0035】
通常、プロセッサ16は、内部命令キャッシュと内部データ・キャッシュとを含む。したがって、外部キャッシュ18はL2キャッシュと呼ばれる(レベル2を表す。内部キャッシュはレベル1キャッシュである)。プロセッサ16が内部キャッシュと共に構成されていない場合、外部キャッシュ18はレベル1キャッシュである。「レベル」の語が、特定のキャッシュがプロセッサ16内の処理コアにどのくらい近接しているかを識別するために使用されることに留意されたい。レベル1は、処理コアに最も近く、レベル2は2番目に近く、以下同様である。外部キャッシュ18は、それに結合されたプロセッサ16から頻繁にアクセスされるメモリ・アドレスに迅速にアクセスする。外部キャッシュ18が様々な特定のキャッシュ構成として構成できることに留意されたい。たとえば、外部キャッシュ18によってセットアソシエーティブ構成または直接マップ構成を使用することができる。
【0036】
SMPバス20は、プロセッサ16(キャッシュ18を通じた通信)とメモリ22とシステム・インタフェース24と入出力インタフェース26との間の通信に適応する。一実施形態では、SMPバス20は、アドレス・バスおよび関連する制御信号、ならびにデータ・バスおよび関連する制御信号を含む。アドレス・バスとデータ・バスが別々のものなので、SMPバス20上で分割トランザクション・バス・プロトコルを使用することができる。一般的に言えば、分割トランザクション・バス・プロトコルは、アドレス・バス上で行われるトランザクションが、データ・バス上で行われる並行トランザクションとは異なるものでよいプロトコルである。アドレスとデータを使用するトランザクションは、アドレス・バス上でアドレスおよび関連する制御情報が搬送されるアドレス・フェーズと、データ・バス上でデータが搬送されるデータ・フェーズとを含む。特定のアドレス・フェーズに対応するデータ・フェーズの前に、他のトランザクションに関する追加アドレス・フェーズまたは追加データ・フェーズ、あるいはその両方を開始することができる。アドレス・フェーズと対応するデータ・フェーズは、多数の方法で相関付けることができる。たとえば、データ・トランザクションをアドレス・トランザクションと同じ順序で行うことができる。別法として、トランザクションのアドレス・フェーズとデータ・フェーズを固有のタグを介して識別することができる。
【0037】
メモリ22は、プロセッサ16によって使用されるデータおよび命令コードを記憶するように構成される。メモリ22は、ダイナミック・ランダム・アクセス・メモリ(DRAM)を備えることが好ましい。ただし、任意のタイプのメモリを使用することができる。メモリ22は、他のSMPノード12内の図示した同様なメモリと共に、分散共用メモリ・システムを形成する。分散共用メモリのアドレス空間の各アドレスは、そのアドレスのホーム・ノードと呼ばれる特定のノードに割り当てられる。ホーム・ノードとは異なるノード内のプロセッサは、ホーム・ノードのアドレスにあるデータにアクセスし、場合によってはデータをキャッシュすることができる。したがって、SMPノード12どうしの間と、特定のSMPノード12Aないし12D内のプロセッサ16とキャッシュ18との間に、コヒーレンシが維持される。システム・インタフェース24はノード間コヒーレンシを与え、それに対してSMPバス20上のスヌーピングはノード内コヒーレンシを与える。
【0038】
システム・インタフェース24は、ノード間コヒーレンシを維持するだけでなく、他のSMPノード12との間のデータ転送を必要とするSMPバス20上のアドレスを検出する。システム・インタフェース24は、転送を実行し、トランザクションのための対応するデータをSMPバス20上に与える。図の実施形態では、システム・インタフェース24はポイント・ツー・ポイント・ネットワーク14に結合される。しかし、代替実施形態では他のネットワークを使用できることに留意されたい。ポイント・ツー・ポイント・ネットワークでは、ネットワーク上の各ノード間に個別の接続が存在する。特定のノードは、専用リンクを介して第2のノードと直接通信する。特定のノードは、第3のノードと通信するときは、第2のノードと通信するために使用したリンクとは異なるリンクを使用する。
【0039】
図1では4つのSMPノード12が示されているが、任意の数のノードを使用するコンピュータ・システム10の実施形態が企図されることに留意されたい。
【0040】
図2Aおよび2Bは、コンピュータ・システム10の一実施形態によってサポートされる分散メモリ・アーキテクチャの概念図である。具体的には、図2Aおよび2Bは、図1の各SMPノード12がデータをキャッシュしメモリ・アクセスを実行する代替方法を示す。コンピュータ・システム10がそのようなアクセスをサポートする方法に関する詳細については、下記で詳しく説明する。
【0041】
次に、図2Aを参照すると、コンピュータ・システム10の一実施形態によってサポートされる第1のメモリ・アーキテクチャ30を示す論理図が示されている。アーキテクチャ30は、複数のプロセッサ32Aないし32Dと、複数のキャッシュ34Aないし34Dと、複数のメモリ36Aないし36Dと、相互接続ネットワーク38とを含む。複数のメモリ36は分散共用メモリを形成する。アドレス空間内の各アドレスは、1つのメモリ36内の位置に対応する。
【0042】
アーキテクチャ30は非一様メモリ・アーキテクチャ(NUMA)である。NUMAアーキテクチャでは、第1のメモリ・アドレスにアクセスするのに必要な時間の長さが、第2のメモリ・アドレスにアクセスするのに必要な時間の長さと大幅に異なることがある。アクセス時間は、アクセスの開始側と、アクセスされたデータを記憶しているメモリ36Aないし36Dの位置に依存する。たとえば、プロセッサ32Aが、メモリ36Aに記憶されている第1のメモリ・アドレスにアクセスする場合、このアクセス時間は、メモリ36Bないし36Dのうちの1つに記憶されている第2のメモリ・アドレスへのアクセスのアクセス時間よりもずっと短い。すなわち、プロセッサ32Aによるメモリ36Aへのアクセスはローカルに(たとえば、ネットワーク38上での転送なしに)完了することができ、それに対してメモリ36Bへのプロセッサ32Aアクセスはネットワーク38を介して実行される。通常、ネットワーク38を通じたアクセスは、ローカル・メモリ内で完了するアクセスよりも低速である。たとえば、ローカル・アクセスは数百ナノ秒で完了することができ、それに対してネットワークを介したアクセスは数マイクロ秒を占有する可能性がある。
【0043】
リモート・ノードに記憶されているアドレスに対応するデータは任意のキャッシュ34にキャッシュすることができる。しかし、キャッシュ34がそのようなリモート・アドレスに対応するデータを放棄した後、リモート・アドレスへのその後のアクセスはネットワーク38上での転送を介して完了する。
【0044】
NUMAアーキテクチャは、主として特定のローカル・メモリに対応するアドレスを使用するソフトウェア・アプリケーションに優れた性能特性を付与することができる。一方、より多くのランダム・アクセス・パターンを有しメモリ・アクセスを特定のローカル・メモリ内のアドレスに制限しないソフトウェア・アプリケーションは、特定のプロセッサ32がリモート・ノードへの反復アクセスを実行するときに大量のネットワーク・トラフィックを経験する。
【0045】
次に図2Bを参照すると、図1のコンピュータ・システム10によってサポートされる第2のメモリ・アーキテクチャ40を示す論理図が示されている。アーキテクチャ40は、複数のプロセッサ42Aないし42Dと、複数のキャッシュ44Aないし44Dと、複数のメモリ46Aないし46Dと、ネットワーク48とを含む。しかし、メモリ46はキャッシュ44とネットワーク48との間に論理的に結合される。メモリ46は、より大規模なキャッシュ(たとえば、レベル3のキャッシュ)として働き、対応するプロセッサ42からアクセスされるアドレスを記憶する。メモリ46は、対応するプロセッサ42から作用を受けているデータを「アトラクトする」と言われる。図2Aに示したNUMAアーキテクチャとは異なり、アーキテクチャ40は、ローカル・プロセッサがリモート・データにアクセスする際にリモート・データをローカル・メモリに記憶することによってネットワーク48上のアクセスの数を低減させる。
【0046】
アーキテクチャ40をキャッシュ専用メモリ・アーキテクチャ(COMA)と呼ぶ。メモリ46の組合せで形成された分散共用メモリ内の複数の位置は、特定のアドレスに対応するデータを記憶することができる。特定の記憶位置に特定のアドレスの永久的なマッピングが割り当てられることはない。その代わり、特定のアドレスに対応するデータを記憶する位置は、その特定のアドレスにアクセスするプロセッサ42に基づいて動的に変化する。逆に、NUMAアーキテクチャでは、メモリ46内の特定の記憶位置が特定のアドレスに割り当てられる。アーキテクチャ40は、アーキテクチャ上で実行中のアプリケーションによって実行されるメモリ・アクセス・パターンに調整し、メモリ46どうしの間でコヒーレンシが維持される。
【0047】
好ましい実施形態では、コンピュータ・システム10は、図2Aおよび2Bに示した両方のメモリ・アーキテクチャをサポートする。具体的には、メモリ・アドレスに、1つのSMPノード12Aないし12DからNUMA方式でアクセスし、同時に他のSMPノード12Aないし12DからCOMA方式でアクセスすることができる。一実施形態では、SMPバス20上のアドレスのあるビットが、他のSMPノード12を、与えられたアドレスのホーム・ノードとして識別している場合に、NUMAアクセスが検出される。そうでない場合は、COMAアクセスが仮定される。他の詳細を下記に与える。
【0048】
一実施形態では、COMAアーキテクチャは、ハードウェア技法とソフトウェア技法の組合せを使用して実施される。ハードウェアは、ページのローカルにキャッシュされたコピー間のコヒーレンシを維持し、ソフトウェア(たとえば、コンピュータ・システム10で使用されるオペレーティング・システム)は、キャッシュされたページを割り振り、割り振り解除する責任を負う。
【0049】
図3は、一般に、図1に示したSMPノード12Aに適合する、SMPノード12Aの一実施形態の詳細を示す。他のノード12も同様に構成することができる。図1の各SMPノード12の特定の代替実施形態も可能であることに留意されたい。図3に示したSMPノード12Aの実施形態は、サブノード50Aやサブノード50Bなど複数のサブノードを含む。各サブノード50は、2つのプロセッサ16および対応するキャッシュ18と、メモリ部分56と、アドレス・コントローラ52と、データ・コントローラ54とを含む。サブノード50内のメモリ部分56は集合的に、図1のSMPノード12Aのメモリ22を形成する。他のサブノード(図示せず)はさらに、SMPバス20に結合され入出力インタフェース26を形成する。
【0050】
図3に示したように、SMPバス20は、アドレス・バス58とデータ・バス60とを含む。アドレス・コントローラ52はアドレス・バス58に結合され、データ・コントローラ54はデータ・バス60に結合される。図3は、システム・インタフェース論理ブロック62と、変換記憶域64と、ディレクトリ66と、メモリ・タグ(MTAG)68とを含むシステム・インタフェース24も示す。論理ブロック62は、アドレス・バス58とデータ・バス60の両方に結合され、下記で詳しく説明するようにある種の状況でアドレス・バス58上で無視信号70をアサートする。論理ブロック62は、変換記憶域64、ディレクトリ66、MTAG68、ネットワーク14にも結合される。
【0051】
図3の実施形態では、各サブノード50は、SMPバス20が配置されたバックプレーンに挿入できるプリント回路ボード上に構成される。このように、SMPノード12内に含まれるプロセッサまたは入出力インタフェース26あるいはその両方の数は、サブノード50を挿入しあるいは取り外すことによって変更することができる。たとえば、コンピュータ・システム10は最初、少数のサブノード50と共に構成することができる。コンピュータ・システム10のユーザが必要とするコンピューティング・パワーが増大するにつれて必要に応じて追加サブノード50を追加することができる。
【0052】
アドレス・コントローラ52は、キャッシュ18とSMP20のアドレス部分との間のインタフェースを形成する。図の実施形態では、アドレス・コントローラ52は、出力待ち行列72といくつかの入力待ち行列74とを含む。出力待ち行列72は、アドレス・コントローラ52がアドレス・バス58へのアクセスを許可されるまで出力待ち行列に接続されたプロセッサからのトランザクションをバッファする。アドレス・コントローラ52は、出力待ち行列72に記憶されているトランザクションを、それらが出力待ち行列72に入れられた順に実行する(すなわち、出力待ち行列72はFIFO待ち行列である)。アドレス・コントローラ52によって実行されるトランザクション、ならびにキャッシュ18およびプロセッサ16の内部のキャッシュによってスヌープされるアドレス・バス58から受け取るトランザクションは、入力待ち行列74に入れられる。
【0053】
出力待ち行列72と同様に、入力待ち行列74はFIFO待ち行列である。すべてのアドレス・トランザクションは、各サブノード50の入力待ち行列74(場合によっては、アドレス・トランザクションを開始したサブノード50の入力待ち行列74内)に記憶される。したがって、アドレス・トランザクションは、スヌーピングのために、アドレス・トランザクションがアドレス・バス58上で行われる順にキャッシュ18およびプロセッサ16に与えられる。トランザクションがアドレス・バス58上で行われる順序は、SMPノード12Aの順序である。しかし、完全なシステムは1つのグローバル・メモリ順序を有することが予期される。このように順序が予期されるため、ネットワーク14上の動作の順序によってグローバル順序を確立する必要があるので、コンピュータ・システム10が使用するNUMAアーキテクチャとCOMAアーキテクチャの両方で問題が生じる。2つのノードがあるアドレスに対するトランザクションを実行する場合、そのアドレスのホーム・ノードで対応するコヒーレンシ動作が行われる順序は、各ノード内で見られる2つのトランザクションの順序を定義する。たとえば、同じアドレスに対して2つの書込みトランザクションが実行される場合、そのアドレスのホーム・ノードに2番目に到着する書込み動作は2番目に完了する書込みトランザクションであるべきである(すなわち、両方の書込みトランザクションによって更新されるバイト位置は、両方のトランザクションの完了時に第2の書込みトランザクションから与えられる値を記憶する)。しかし、第2のトランザクションを実行するノードは実際には、SMPバス20上で最初に第2のトランザクションを行わせることができる。無視信号70によって、SMPノード12の残りの部分が第2のトランザクションに反応することなしに、第2のトランザクションをシステム・インタフェース24へ転送することができる。
【0054】
したがって、システム・インタフェース論理ブロック62は、アドレス・コントローラ52の出力待ち行列/入力待ち行列構造によって課される順序付け制約と共に効果的に動作するために、無視信号70を使用する。アドレス・バス58上にトランザクションが与えられ、システム・インタフェース論理ブロック62が、このトランザクションに応答してリモート・トランザクションを実行すべきであることを検出すると、論理ブロック62は無視信号70をアサートする。あるトランザクションに対して無視信号70をアサートすると、アドレス・コントローラ52は入力待ち行列74へのそのトランザクションの格納を抑制する。したがって、無視されたトランザクションに続いて行われ、SMPノード12A内でローカルに完了する他のトランザクションは、入力待ち行列74の順序付け規則を破らずに、無視されたトランザクションに対して所定の順序とは異なる順序で完了することができる。具体的には、ネットワーク14上のコヒーレンシ活動に応答してシステム・インタフェース24によって実行されるトランザクションを、無視されたトランザクションの後に続けて実行し完了することができる。リモート・トランザクションから応答を受け取ったときに、システム・インタフェース論理ブロック62によって、無視されたトランザクションをアドレス・バス58上で再発行することができる。それによって、トランザクションは、入力待ち行列74に入れられ、再発行時に行われるトランザクションと共に順序正しく完了することができる。
【0055】
一実施形態では、特定のアドレス・コントローラ52からのトランザクションが無視された後、その特定のアドレス・コントローラ52からのその後のコヒーレント・トランザクションも無視される。特定のプロセッサ16からのトランザクションは、アドレス・バス58上に与えられることによって課される順序付け要件にはかかわらず、互いに重要な順序付け関係を有することができる。たとえば、トランザクションは、SPARCアーキテクチャに含まれるMEMBAR命令などのメモリ同期命令によって他のトランザクションから分離することができる。プロセッサ16は、トランザクションを、それらが互いに実行される順に搬送する。トランザクションは、出力待ち行列72内で順序付けされ、したがって、特定の出力待ち行列72から発行されるトランザクションは順序正しく実行されるはずである。特定のアドレス・コントローラ52からのその後のトランザクションを無視することによって、特定の出力待ち行列72に関するインオーダー規則を保存することができる。さらに、特定のプロセッサからのすべてのトランザクションを順序付けなくて済むことに留意されたい。しかし、アドレス・バス58上で、どのトランザクションを順序付けなければならないかと、どのトランザクションを順序付けなくてもよいかを判定することは困難である。したがって、この実施形態で、論理ブロック62は特定の出力待ち行列72からのすべてのトランザクションの順序を維持する。この規則の例外を許容するサブノード50の他の実施形態が可能であることに留意されたい。
【0056】
データ・コントローラ54は、データ・バス60、メモリ部分56、キャッシュ18との間でデータをルーティングする。データ・コントローラ54は、アドレス・コントローラ52と同様な入力待ち行列と出力待ち行列とを含むことができる。一実施形態では、データ・コントローラ54は、バイト・スライス・バス構成の複数の物理装置を使用する。
【0057】
図3に示したプロセッサ16は、メモリ管理装置(MMU)76Aないし76Bを含む。MMU76は、プロセッサ16上で実行される命令コードによって生成されたデータ・アドレスと、命令アドレスに対して、仮想アドレス/物理アドレス変換を実行する。命令の実行に応答して生成されるアドレスは仮想アドレスである。言い換えれば、仮想アドレスは、命令コードのプログラマによって作成されるアドレスである。仮想アドレスは(MMU76内で具体化される)アドレス変換機構を通過し、アドレス変換機構から対応する物理アドレスが作成される。物理アドレスは、メモリ22内の記憶位置を識別する。
【0058】
アドレス変換は多数の理由で実行される。たとえば、アドレス変換機構を使用して、あるメモリ・アドレスに対する特定のコンピューティング・タスクのアクセスを許可または拒否することができる。このように、あるコンピューティング・タスク内のデータおよび命令は、他のコンピューティング・タスクのデータおよび命令から分離される。また、コンピューティング・タスクのデータおよび命令の各部分は、ハード・ディスク・ドライブに「ページアウト」することができる。ある部分がページアウトされると、その変換は無効化される。コンピューティング・タスクによるその部分へのアクセス時には、変換が失敗しているために割り込みが行われる。この割り込みによって、オペレーティング・システムは、ハード・ディスク・ドライブから対応する情報を検索することができる。このように、メモリ22内の実際のメモリよりも多くの仮想メモリを使用することができる。仮想メモリの他の多くの用途が良く知られている。
【0059】
再び、図1に示したコンピュータ・システム10を、図3に示したSMPノード12A実施形態と共に参照すると分かるように、MMU76によって算出される物理アドレスは、プロセッサ16が配置されたSMPノード12に関連付けられたメモリ22内の位置を定義するローカル物理アドレス(LPA)である。MTAG68は、メモリ22内の各「コヒーレンシ単位」ごとにコヒーレンシ状態を記憶する。SMPバス20上でアドレス変換が実行されると、システム・インタフェース論理ブロック62は、アクセスされたコヒーレンシ単位に関する、MTAG68に記憶されているコヒーレンシ状態を調べる。SMPノード12がこのアクセスを実行するのに十分な、このコヒーレンシ単位へのアクセス権を有することをコヒーレンシ状態が示している場合、アドレス変換は続行する。しかし、トランザクションを完了する前にコヒーレンシ活動を実行すべきであることをコヒーレンシ状態が示している場合、システム・インタフェース論理ブロック62は無視信号70をアサートする。論理ブロック62は、ネットワーク14上でコヒーレンシ動作を実行し、適当なコヒーレンシ状態を得る。適当なコヒーレンシ状態が得られると、論理ブロック62は、無視されたトランザクションをSMPバス20上で再発行する。それに続いて、トランザクションが完了する。
【0060】
一般的に言えば、特定の記憶位置(たとえば、キャッシュまたはメモリ22)でコヒーレンシ単位に関して維持されるコヒーレンシ状態は、そのSMPノード12でのコヒーレンシ単位へのアクセス権を示す。このアクセス権は、コヒーレンシ単位の妥当性と、そのSMPノード12内でコヒーレンシ単位のコピーに対して与えられている読取り/書込み許可を示す。一実施形態では、コンピュータ・システム10によって使用されるコヒーレンシ状態は、修正、所有、共用、無効である。修正状態は、SMPノード12が対応するコヒーレンシ単位を更新したことを示す。したがって、他のSMPノード12はこのコヒーレンシ単位のコピーを有さない。また、修正されたコヒーレンシ単位は、SMPノード12から放棄されると、再びホーム・ノードに記憶される。所有状態は、このコヒーレンシ単位に対してSMPノード12が責任を負うが、他のSMPノード12がコピーを共用している可能性があることを示す。この場合も、コヒーレンシ単位は、SMPノード12から放棄されると、再びホーム・ノードに記憶される。共用状態は、SMPノード12がコヒーレンシ単位を読み取ることはできるが、所有状態を得ないかぎり更新することはできないことを示す。また、他のSMPノード12もこのコヒーレンシ単位のコピーを有する可能性がある。最後に、無効状態は、SMPノード12がコヒーレンシ単位のコピーを有さないことを示す。一実施形態では、修正状態は、書込み許可を示すが、無効状態を除く状態は、対応するコヒーレンシ単位への読取り許可を示す。
【0061】
本明細書では、コヒーレンシ単位は、コヒーレンシのために単位とみなされるメモリのいくつかの連続バイトである。たとえば、コヒーレンシ単位内の1バイトが更新された場合、コヒーレンシ単位全体が更新されたとみなされる。特定の一実施形態では、コヒーレンシ単位はキャッシュ・ラインであり、連続64バイトを備える。しかし、コヒーレンシ単位が任意の数のバイトを備えることができることが理解されよう。
【0062】
システム・インタフェース24は、変換記憶域64を使用してローカル物理アドレスからグローバル・アドレス(GA)への変換を記憶する変換機構も含む。グローバル・アドレス内のあるビットは、そのグローバル・アドレスに関するコヒーレンシ情報が記憶されているアドレスのホーム・ノードを識別する。たとえば、コンピュータ・システム10の実施形態は、図1のSMPノードなど4つのSMPノード12を使用することができる。そのような実施形態では、グローバル・アドレスの2ビットがホーム・ノードを識別する。グローバル・アドレスの最上位部分のビットはホーム・ノードを識別するために使用されることが好ましい。同じビットが、ローカル物理アドレスではNUMAアクセスを識別するために使用される。LPAのビットが、ローカル・ノードがホーム・ノードではないことを示す場合、そのLPAはグローバル・アドレスであり、トランザクションはNUMAモードで実行される。したがって、オペレーティング・システムは、NUMAタイプ・ページの場合はMMU76にグローバル・アドレスを置く。逆に、オペレーティング・システムは、COMAタイプ・ページの場合にはMMU76にLPAを置く。LPAが、GAに等しくてよい(ホームが、LPAが与えられたノードのメモリ22内にある、NUMAアドレスならびにグローバル・アドレスの場合)ことに留意されたい。また、LPAは、他のSMPノード12にホームを有するデータのコピーを記憶するために使用される記憶位置を識別するときはGAに変換することができる。
【0063】
特定のホーム・ノードのディレクトリ66は、どのSMPノード12が、コピー間のコヒーレンシが維持できるようにホーム・ノードに割り当てられた所与のグローバル・アドレスに対応するデータのコピーを有するかを識別する。また、ホーム・ノードのディレクトリ66は、コヒーレンシ単位を所有するSMPノード12を識別する。したがって、キャッシュ18とプロセッサ16との間のローカル・コヒーレンシはスヌーピングを介して維持され、それに対してシステム・ワイド(またはグローバル)コヒーレンシはMTAG68およびディレクトリ66を使用して維持される。ディレクトリ66は、SMPノード12Aに割り当てられた(すなわち、SMPノード12Aがホーム・ノードである)コヒーレンシ単位に対応するコヒーレンシ情報を記憶する。
【0064】
図3の実施形態では、ディレクトリ66およびMTAG68が各コヒーレンシ単位ごとに情報を記憶することに留意されたい。逆に、変換記憶域64は、ページに関して定義されたローカル物理/グローバル変換を記憶する。ページは、複数のコヒーレンシ単位を含み、通常、サイズが数キロバイト、あるいは場合によっては数メガバイトである。
【0065】
したがって、ソフトウェアは、ページごとにローカル物理アドレス/グローバル・アドレス変換を作成する(それによって、リモートに記憶されているグローバル・ページのコピーを記憶するローカル・メモリ・ページを割り振る)。したがって、メモリ22のブロックはページごとにも特定のグローバル・アドレスに割り振られる。しかし、前述のように、コヒーレンシ状態およびコヒーレンシ活動はコヒーレンシ単位上で実行される。したがって、メモリの特定のグローバル・アドレスにページが割り振られたときに、ページに対応するデータは必ずしも、割り振られたメモリへ転送されるわけではない。その代わり、プロセッサ16がページ内の様々なコヒーレンシ単位にアクセスすると、それらのコヒーレンシ単位はコヒーレンシ単位の所有者から転送される。このように、SMPノード12Aから実際にアクセスされたデータは、対応するメモリ22へ転送される。SMPノード12Aからアクセスされないデータは転送できず、そのため、メモリ22内のページの割り振り時にデータのページを転送する実施形態と比べてネットワーク14上の全体的な帯域幅使用度が低減する。
【0066】
一実施形態では、変換記憶域64、またはディレクトリ66、またはMTAG68、あるいはそれらの組合せはそれぞれ、関連する変換、ディレクトリ、MTAG情報の一部しか記憶しないキャッシュでよいことに留意されたい。変換、ディレクトリ、MTAG情報の全体は、メモリ22内のテーブルまたは専用メモリ記憶域(図示せず)に記憶される。アクセスに必要な情報が、対応するキャッシュにない場合、テーブルはシステム・インタフェース24からアクセスされる。
【0067】
次に、図4を参照すると、例示的なディレクトリ・エントリ71が示されている。ディレクトリ・エントリ71は、図3に示したディレクトリ66の一実施形態によって使用することができる。ディレクトリ66の他の実施形態は、異なるディレクトリ・エントリを使用することができる。ディレクトリ・エントリ71は、有効ビット73と、書き直しビット75と、所有者フィールド77と、共用者フィールド79とを含む。ディレクトリ・エントリ71は、ディレクトリ・エントリのテーブル内に存在し、対応するコヒーレンシ単位を識別するグローバル・アドレスを介してテーブル内に配置される。具体的には、コヒーレンシ単位に関連付けられたディレクトリ・エントリ71は、コヒーレンシ単位を識別するグローバル・アドレスで形成されたオフセット位置にあるディレクトリ・エントリのテーブル内に記憶される。
【0068】
有効ビット73は、セットされると、ディレクトリ・エントリ71が有効である(すなわち、そのディレクトリ・エントリ71は、対応するコヒーレンシ単位に関するコヒーレンシ情報を記憶している)ことを示す。有効ビット73は、クリアされると、そのディレクトリ・エントリ71が無効であることを示す。
【0069】
所有者フィールド77は、1つのSMPノード12をコヒーレンシ単位の所有者として識別する。所有側SMPノード12Aないし12Dは、コヒーレンシ単位を修正状態と所有状態のどちらかで維持する。通常、所有側SMPノード12Aないし12Dは、コヒーレンシ単位を修正状態で得る(下記の図15を参照されたい)。それに続いて、所有側SMPノード12Aないし12Dは、コヒーレンシ単位のコピーを他のSMPノード12Aないし12Dに与える際に所有状態に遷移することができる。他のSMPノード12Aないし12Dはコヒーレンシ単位を共用状態で得る。一実施形態では、所有者フィールド77は、4つのSMPノード12Aないし12Dのうちの1つをコヒーレンシ単位の所有者として識別するようにコード化された2つのビットを備える。
【0070】
共用者フィールド79は、各SMPノード12Aないし12Dに割り当てられた1つのビットを含む。SMPノード12Aないし12Dがコヒーレンシ単位の共用コピーを維持している場合、共用者フィールド79内の対応するビットがセットされる。逆に、SMPノード12Aないし12Dがコヒーレンシ単位の共用コピーを維持していない場合、共用者フィールド79内の対応するビットはクリアされる。このように、共用者フィールド79は、図1のコンピュータ・システム10内に存在するコヒーレンシ単位のすべての共用コピーを示す。
【0071】
書き直しビット75は、セットされると、所有者フィールド77を介してコヒーレンシ単位の所有者として識別されたSMPノード12Aないし12Dがコヒーレンシ単位の更新済みコピーをホームSMPノード12に書き込んだことを示す。ビット75は、クリアされると、所有側SMPノード12Aないし12Dがコヒーレンシ単位の更新済みコピーをホームSMPノード12Aないし12Dに書き込んでいないことを示す。
【0072】
次に図5を参照すると、システム・インタフェース24の一実施形態のブロック図が示されている。図5に示したように、システム・インタフェース24は、ディレクトリ66と、変換記憶域64と、MTAG68とを含む。変換記憶域64は、グローバル・アドレス/ローカル物理アドレス(GA2LPA)変換装置80およびローカル物理アドレス/グローバル・アドレス(LPA2GA)変換装置82として示されている。
【0073】
システム・インタフェース24は、SMPバス20またはネットワーク14上で実行すべきトランザクションを記憶するための入力待ち行列と出力待ち行列も含む。具体的には、図の実施形態では、システム・インタフェース24は、ヘッダ・パケットをネットワーク14との間でバッファするための入力ヘッダ待ち行列84と出力ヘッダ待ち行列86とを含む。ヘッダ・パケットは、実行すべき動作を識別し、その後に続くデータ・パケットの数およびフォーマットを指定する。出力ヘッダ待ち行列86は、ネットワーク14上で送るべきヘッダ・パケットをバッファし、入力ヘッダ待ち行列84は、システム・インタフェース24が、受け取ったヘッダ・パケットを処理するまで、ネットワーク14から受け取ったヘッダ・パケットをバッファする。同様に、データ・パケットは、データがそれぞれ、SMPデータ・バス60およびネットワーク14上で転送されるまで入力データ待ち行列88および出力データ待ち行列90にバッファされる。
【0074】
SMP出力待ち行列92、SMP入力待ち行列94、SMP入出力入力待ち行列(PIQ)96は、アドレス・バス58との間でアドレス・トランザクションをバッファするために使用される。SMP出力待ち行列92は、アドレス・バス58上のシステム・インタフェース24から与えられるトランザクションをバッファする。無視されたトランザクションに関するコヒーレンシ活動の完了に応答して待機させられた再発行トランザクションは、SMP出力待ち行列92にバッファされる。また、ネットワーク14から受け取ったコヒーレンシ活動に応答して生成されたトランザクションは、SMP出力待ち行列92にバッファされる。SMP入力待ち行列94は、システム・インタフェース24によって処理されるコヒーレンシ関連トランザクションを記憶する。逆にSMP PIQ96は、他のSMPノード12に存在する入出力インタフェースへ搬送される入出力トランザクションを記憶する。入出力トランザクションは一般に、非コヒーレントとみなされ、したがってコヒーレンシ活動を生成しない。
【0075】
SMP入力待ち行列94およびSMP PIQ96は、トランザクション・フィルタ98から、待機させるべきトランザクションを受け取る。トランザクション・フィルタ98はMTAG68およびSMPアドレス・バス58に結合される。トランザクション・フィルタ98は、他のSMPノード12上の入出力インタフェースを識別する入出力トランザクションをアドレス・バス58上で検出した場合、そのトランザクションをSMP PIQ96に入れる。LPAアドレスへのコヒーレント・トランザクションがトランザクション・フィルタ98によって検出された場合、MTAG68から得た対応するコヒーレンシ状態が調べられる。トランザクション・フィルタ98は、コヒーレンシ状態に応じて、無視信号70をアサートすることができ、コヒーレンシ・トランザクションをSMP入力待ち行列94で待機させることができる。コヒーレント・トランザクションを実行するのに十分な、コヒーレンシ単位へのアクセス権が、SMPノード12Aによって維持されていないことをMTAG68が示している場合には、無視信号70がアサートされ、コヒーレンシ・トランザクションが待機させられる。逆に、SMPノード12Aによって十分なアクセス権が維持されていることをMTAG68が示している場合、無視信号70がアサート解除されコヒーレンシ・トランザクションは生成されない。
【0076】
SMP入力待ち行列94およびSMP PIQ96からのトランザクションは、システム・インタフェース24内の要求エージェント100によって処理される。LPA2GA変換装置82は、要求エージェント100による動作の前に、トランザクションのアドレス(LPAアドレスである場合)を、SMPアドレス・バス58上に与えられるローカル物理アドレスから、対応するグローバル・アドレスに変換する。要求エージェント100は次いで、グローバル・アドレスによって識別されたホーム・ノードへ送られる特定のコヒーレンシ要求を指定するヘッダ・パケットを生成する。このコヒーレンシ要求は出力ヘッダ待ち行列86に入れられる。それに続いて、コヒーレンシ応答が入力ヘッダ待ち行列84で受け取られる。要求エージェント100は、入力ヘッダ待ち行列84から得たコヒーレンシ応答を処理し、場合によっては(下記で説明するように)SMP出力待ち行列92に関する再発行トランザクションを生成する。
【0077】
システム・インタフェース24には、ホーム・エージェント102とスレーブ・エージェント104とが含まれる。ホーム・エージェント102は、入力ヘッダ待ち行列84から受け取ったコヒーレンシ要求を処理する。ホーム・エージェント102は、特定のグローバル・アドレスに関してディレクトリ66に記憶されているコヒーレンシ情報から、他のSMPノード12内の1つまたは複数のスレーブ・エージェントへコヒーレンシ・デマンドを送るべきかどうかを判定する。一実施形態では、ホーム・エージェント102は、影響を受けるコヒーレンシ単位に対応するコヒーレンシ情報をブロックする。言い換えれば、そのコヒーレンシ単位に関連するその後の要求は、コヒーレンシ要求に対応するコヒーレンシ活動が完了するまで実行されない。一実施形態によれば、ホーム・エージェント102は、(入力ヘッダ待ち行列84を介して)コヒーレンシ要求を開始した要求エージェントからコヒーレンシ完了を受け取る。コヒーレンシ完了は、コヒーレンシ活動が完了したことを示す。ホーム・エージェント102は、コヒーレンシ完了を受け取ると、影響を受けるコヒーレンシ単位に対応するコヒーレンシ情報上のブロックを削除する。コヒーレンシ情報がコヒーレンシ活動が完了するまでブロックされるので、ホーム・エージェント102が、コヒーレンシ要求の受取時にただちに実行されたコヒーレンシ活動に応じてコヒーレンシ情報を更新できることに留意されたい。
【0078】
スレーブ・エージェント104は、コヒーレンシ・デマンドを入力ヘッダ待ち行列84を介して他のSMPノード12のホーム・エージェントから受け取る。スレーブ・エージェント104は、特定のコヒーレンシ・デマンドに応答して、コヒーレンシ・トランザクションをSMP出力待ち行列92で待機させる。一実施形態では、コヒーレンシ・トランザクションによって、キャッシュ18およびプロセッサ16の内部のキャッシュは、影響を受けるコヒーレンシ単位を無効化することができる。コヒーレンシ単位がキャッシュ内で修正された場合、修正済みデータはシステム・インタフェース24へ転送される。別法として、コヒーレンシ・トランザクションによって、キャッシュ18およびプロセッサ16の内部のキャッシュは、コヒーレンシ単位のコヒーレンシ状態を共用に変更することができる。スレーブ・エージェント104は、コヒーレンシ・デマンドに応答して活動を完了した後、コヒーレンシ・デマンドに対応するコヒーレンシ要求を開始した要求エージェントへコヒーレンシ応答を送る。コヒーレンシ応答は、出力ヘッダ待ち行列86で待機させられる。コヒーレンシ・デマンドに応答して活動を実行する前に、コヒーレンシ・デマンドと共に受け取ったグローバル・アドレスがGA2LPA変換装置80を介してローカル物理アドレスに変換される。
【0079】
一実施形態によれば、要求エージェント100、ホーム・エージェント102、スレーブ・エージェント104によって実行されるコヒーレンシ・プロトコルは書込み無効化ポリシーを含む。言い換えれば、SMPノード12内のプロセッサ16があるコヒーレンシ単位を更新すると、他のSMPノード12内に記憶されているそのコヒーレンシ単位のコピーは無効化される。しかし、他の実施形態では他の書込みポリシーを使用することができる。たとえば、書込み更新ポリシーを使用することができる。書込み更新ポリシーによれば、あるコヒーレンシ単位が更新されると、更新済みデータは各SMPノード12に記憶されているそのコヒーレンシ単位の各コピーへ送られる。
【0080】
次に図6を参照すると、要求エージェント100に対応するSMPノード12内のSMPバス20上の特定のトランザクションに応答して、第1のSMPノード12Aないし12D(「要求側ノード」)の要求エージェント100と第2のSMPノード12Aないし12D(「ホーム・ノード」)のホーム・エージェント102と第3のSMPノード12Aないし12D(「スレーブ・ノード」)のスレーブ・エージェント104との間で実行される通常のコヒーレンシ活動を示す図が示されている。図1に示すようなコンピュータ・システム10の一実施形態によって使用される特定のコヒーレンシ活動を、下記で図11ないし13に関して詳しく説明する。この説明の残りの部分全体にわたって、参照符号100、102、104は、要求エージェント、ホーム・エージェント、スレーブ・エージェントを識別するために使用される。エージェントが他のエージェントと通信する際、2つのエージェントがそれぞれの異なるSMPノード12Aないし12Dに存在することが多いことを理解されたい。
【0081】
要求エージェント100は、SMPバス20からトランザクションを受け取ると、トランザクションに適したコヒーレンシ要求を形成し、トランザクションのアドレスに対応するホーム・ノードへコヒーレンシ要求を送る(参照符号110)。コヒーレンシ要求は、要求エージェント100から要求されたアクセス権ならびに影響を受けるコヒーレンシ単位のグローバル・アドレスを示す。要求されたアクセス権は、要求エージェント100に対応するSMPノード12で試みられているトランザクションの実行を可能にするのに十分なものである。
【0082】
ホーム・エージェント102は、コヒーレンシ要求を受け取ると、関連するディレクトリ66にアクセスし、どのSMPノード12が、影響を受けるコヒーレンシ単位のコピーを記憶しているかを判定する。また、ホーム・エージェント102はコヒーレンシ単位の所有者を判定する。ホーム・エージェント102は、影響を受けるコヒーレンシ単位のコピーを記憶している各ノードのスレーブ・エージェント104と、影響を受けるコヒーレンシ単位に対する所有コヒーレンシ状態を有するノードのスレーブ・エージェント104へのコヒーレンシ・デマンドを生成することができる(参照符号112)。コヒーレンシ・デマンドは、受取側SMPノード12内の影響を受けるコヒーレンシ単位の新しいコヒーレンシ状態を示す。コヒーレンシ要求が未処理なので、ホーム・エージェント102は、影響を受けるコヒーレンシ単位に関連するその後のコヒーレンシ要求がホーム・エージェント102によって開始されないように、影響を受けるコヒーレンシ単位に対応するコヒーレンシ情報をブロックする。また、ホーム・エージェント102は、コヒーレンシ要求が完了したことを反映するようにコヒーレンシ情報を更新する。
【0083】
ホーム・エージェント102は、要求エージェント100へコヒーレンシ応答を送ることもできる(参照符号114)。コヒーレンシ応答は、スレーブ・エージェント104から発行されるコヒーレンシ応答の数を示すことができる。別法として、ある種のトランザクションは、スレーブ・エージェント104との対話なしで完了することができる。たとえば、ホーム・エージェント102を含むSMPノード12内の入出力インタフェース26を目標とする入出力トランザクションは、ホーム・エージェント102によって完了することができる。ホーム・エージェント102は、関連するSMPバス20に関するトランザクションを待機させ(参照符号116)、次いで、トランザクションが完了したことを示す応答を送ることができる。
【0084】
スレーブ・エージェント104は、ホーム・エージェント102からのコヒーレンシ・デマンドに応答して、関連するSMPバス20上に与えるトランザクションを待機させることができる(参照符号118)。また、スレーブ・エージェント104は要求エージェント100へコヒーレンシ応答を送る(参照符号120)。コヒーレンシ応答は、特定のコヒーレンシ要求に応答して受け取ったコヒーレンシ・デマンドがそのスレーブによって完了したことを示す。コヒーレンシ応答は、コヒーレンシ・デマンドが完了したとき、あるいはコヒーレンシ・デマンドが、対応するSMPノード12上で確実に完了し、影響を受けるコヒーレンシ単位に対する状態変化がコヒーレンシ・デマンドが完了するよりも前に実行される、コヒーレンシ・デマンドが完了するよりも前の時間に、スレーブ・エージェント104によって送られる。
【0085】
要求エージェント100は、影響を受ける各スレーブ・エージェント104からコヒーレンシ応答を受け取ると、ホーム・エージェント102へコヒーレンシ完了を送る(参照符号122)。ホーム・エージェント102は、コヒーレンシ完了を受け取ると、対応するコヒーレンシ情報からブロックを削除する。要求エージェント100は、再発行トランザクションを、SMPバス20上で実行できるように待機させ、SMPノード12内でトランザクションを完了することができる(参照符号124)。
【0086】
コヒーレンシ要求を発行した要求エージェント100によって各コヒーレンシ要求に固有のタグが割り当てられることに留意されたい。その後に続くコヒーレンシ・デマンド、コヒーレンシ応答、コヒーレンシ完了はこのタグを含む。このように、特定のコヒーレンシ要求に関するコヒーレンシ活動は、関連する各エージェントによって識別することができる。さらに、非コヒーレント・トランザクション(たとえば、入出力トランザクション)に応答して非コヒーレント動作を実行できることに留意されたい。非コヒーレント動作は、要求側ノードとホーム・ノードしか使用しないものでよい。さらに、ホーム・エージェント102によって各コヒーレンシ要求に異なる固有のタグを割り当てることができる。それぞれの異なるタグは、ホーム・エージェント102を識別し、要求側のタグの代わりにコヒーレンシ完了を表すために使用される。
【0087】
次に図7を参照すると、SMPバス20上でのリード・ツー・オウン・トランザクションに応答したコンピュータ・システム10の例示的な実施形態に関するコヒーレンシ活動を示す図が示されている。リード・ツー・オウン・トランザクションが実行されるのは、プロセッサ16によって要求された特定のデータに関してキャッシュ・ミスが検出され、プロセッサ16がコヒーレンシ単位への書込み許可を要求したときである。ストア・キャッシュ・ミスはたとえば、リード・ツー・オウン・トランザクションを生成することができる。
【0088】
要求エージェント100、ホーム・エージェント102、いくつかのスレーブ・エージェント104を図7に示す。SMPバス20からリード・ツー・オウン・トランザクションを受け取ったノードは、影響を受けるコヒーレンシ単位を無効状態で記憶する(たとえば、コヒーレンシ単位はそのノードには記憶されない)。要求ノード100の下付き文字「i」は無効状態を示す。ホーム・ノードは、コヒーレンシ単位を共用状態で記憶し、いくつかのスレーブ・エージェント104に対応するノードもコヒーレンシ単位を共用状態で記憶する。ホーム・エージェント102およびスレーブ・エージェント104の下付き文字「s」は、それらのノードでの共用状態を示す。リード・ツー・オウン動作は、要求されたコヒーレンシ単位を要求側ノードへ転送させる。要求側ノードはコヒーレンシ単位を修正状態で受け取る。
【0089】
要求エージェント100は、SMPバス20からリード・ツー・オウン・トランザクションを受け取ると、コヒーレンシ単位のホーム・ノードへリード・ツー・オウン・コヒーレンシ要求を送る(参照符号130)。受取側ホーム・ノードのホーム・エージェント102は、1つまたは複数の他のノードに関する共用状態を検出する。スレーブ・エージェントが所有状態ではなく共用状態であるので、ホーム・ノードは、要求されたデータを直接供給することができる。ホーム・エージェント102は、要求されたコヒーレンシ単位に対応するデータを含むデータ・コヒーレンシ応答を要求エージェント100へ送る(参照符号132)。データ・コヒーレンシ応答は、要求エージェント100がデータの所有権を得る前に他のノードのスレーブ・エージェントから受け取るべき肯定応答の数も示す。ホーム・エージェント102は、要求側SMPノード12Aないし12Dがコヒーレンシ単位の所有者であり、他のSMPノード12Aないし12Dがそれぞれ無効であることを示すようにディレクトリ66を更新する。要求エージェント100からのコヒーレンシ完了の受取時に、コヒーレンシ単位に関するコヒーレンシ情報がブロック解除されると、ディレクトリ66は各SMPノード12でのコヒーレンシ単位の状態に一致する。
【0090】
ホーム・エージェント102は、影響を受けるコヒーレンシ単位の共用コピーを維持している各スレーブ・エージェント104へ無効化コヒーレンシ・デマンドを送る(参照符号134A、134B、134C)。無効化コヒーレンシ・デマンドは、受取側スレーブ・エージェントにノード内の対応するコヒーレンシ単位を無効化させ、無効化が完了したことを示す肯定コヒーレンシ応答を要求側ノードへ送らせる。各スレーブ・エージェント104は、コヒーレンシ単位の無効化を完了し、それに続いて肯定コヒーレンシ応答を送る(参照符号136A、136B、136C)。一実施形態では、各肯定応答は、コヒーレンシ単位に関して要求エージェント100によって受け取られる応答の総数のカウントを含む。
【0091】
要求エージェント100は、スレーブ・エージェント104から各肯定コヒーレンシ応答を受け取り、ホーム・エージェント102からデータ・コヒーレンシ応答を受け取った後、ホーム・エージェント102へコヒーレンシ完了を送る(参照符号138)。要求エージェント100は、そのローカル・メモリ内のコヒーレンシ単位を無効化し、ホーム・エージェント102は、対応するコヒーレンシ情報に対するブロックを解除する。データ・コヒーレンシ応答132および肯定コヒーレンシ応答136が、特に各ノード内の未処理のトランザクションの数に応じて任意の順序で受け取ることができることに留意されたい。
【0092】
次に図8を参照すると、要求エージェント100によって使用される例示的な状態マシンを示すフローチャート140が示されている。要求エージェント100は、フローチャート140で表した状態マシンの複数の独立のコピーを含むことができ、そのため、複数の要求を並行して処理することができる。
【0093】
要求エージェント100は、SMP入力待ち行列94からトランザクションを受け取ると、要求準備完了状態142を開始する。要求準備完了状態142では、要求エージェント100は、影響を受けるコヒーレンシ単位のグローバル・アドレスで識別されるホーム・ノードに存在するホーム・エージェント102へコヒーレンシ要求を送る。要求エージェント100は、コヒーレンシ要求を送ると、要求アクティブ状態144に遷移する。要求アクティブ状態144中に、要求エージェント100はスレーブ・エージェント104から(および任意選択でホーム・エージェント102から)コヒーレンシ応答を受け取る。各コヒーレンシ応答が受け取られると、要求エージェント100は、コヒーレンシ活動を開始したトランザクションのタイプに応じて新しい状態に遷移する。また、要求活動状態142は、タイマを使用して、所定のタイムアウト期間内にコヒーレンシ応答を受け取らなかったことを検出することができる。ホーム・エージェント102によって指定された応答の数を受け取る前にタイマが満了した場合、要求エージェント100はエラー状態に遷移する(図示せず)。さらに、ある種の実施形態は、読取り転送が失敗したことを示す応答を使用することができる。そのような応答を受け取った場合、要求エージェント100は、要求準備完了状態142に遷移し再び読取りを試みる。
【0094】
エラーやタイムアウトなしで応答を受け取った場合、状態は読取りトランザクションに関しては要求エージェント100によって読取り完了状態146に遷移する。読取りトランザクションの場合、受け取られる応答のうちの1つに、要求されたコヒーレンシ単位に対応するデータを含めることができることに留意されたい。要求エージェント100は、SMPバス20上で読取りトランザクションを再発行し、さらにホーム・エージェント102へコヒーレンシ完了を送る。それに続いて、要求エージェント100はアイドル状態148に遷移する。次いで、図8に示した状態マシンを使用して、要求エージェント100によって新しいトランザクションを処理することができる。
【0095】
逆に、書込みトランザクションには書込みアクティブ状態150および無視書込み再発行状態152が使用される。コンピュータ・システム10のある種の書込みトランザクションでは、ネットワーク14上でコヒーレンシ活動が開始されても、無視信号70はアサートされない。たとえば、入出力書込みトランザクションは無視されない。書込みデータは、システム・インタフェース24へ転送され、そこに記憶される。SMPバス20上での書込みトランザクションのデータ・フェーズよりも前にコヒーレンシ応答を受け取った場合にシステム・インタフェース24へデータを転送できるように、非無視書込みトランザクションには書込みアクティブ状態150が使用される。対応するデータを受け取った後、要求エージェント100は書込み完了状態154に遷移する。書込み完了状態154中に、コヒーレンシ完了応答がホーム・エージェント102へ送られる。それ続いて、要求エージェント100がアイドル状態148に遷移する。
【0096】
無視された書込みトランザクションは、無視書込み再発行状態152への遷移を介して処理される。無視書込み再発行状態152中に、要求エージェント100は、無視された書込みトランザクションをSMPバス20上で再発行する。このように、書込みデータを発送側プロセッサ16から転送することができ、対応する書込みトランザクションをプロセッサ16によって解除することができる。要求エージェント100は、書込みデータをコヒーレンシ完了と共に送るべきかどうかに応じて、無視書込みアクティブ状態156と無視書込み完了状態158のどちらかに遷移する。無視書込みアクティブ状態156は、書込みアクティブ状態150と同様に、SMPバス20からのデータ転送を待つために使用される。無視書込み完了状態158中に、ホーム・エージェント102へコヒーレンシ完了が送られる。それに続いて、要求エージェント100がアイドル状態148に遷移する。要求エージェント100は、SMP入力待ち行列94からトランザクションを受け取ると、アイドル状態148から要求準備完了状態142に遷移する。
【0097】
次に図9を参照すると、ホーム・エージェント102に関する例示的な状態マシンを示すフローチャート160が示されている。ホーム・エージェント102は、それに対する複数の未処理の要求を処理できるように、フローチャート160で表した状態マシンの複数の独立のコピーを含むことができる。しかし、一実施形態によれば、複数の未処理の要求が同じコヒーレンシ単位に影響を与えることはない。
【0098】
ホーム・エージェント102は、要求受取状態162でコヒーレンシ要求を受け取る。この要求は、コヒーレント要求とその他のトランザクション要求のどちらかとして分類することができる。一実施形態によれば、他のトランザクション要求には、入出力読取り要求および入出力書込み要求と、割り込み要求と、管理要求を含めることができる。非コヒーレント要求は、状態164の間にSMPバス20上でトランザクションを送ることによって処理される。それに続いて、コヒーレンシ完了が送られる。コヒーレンシ完了の受取時に、入出力書込みトランザクションおよび割り込み許可トランザクションによって、ホーム・ノード内のSMPバス20上でデータ・トランザクションが送られる(データ専用状態165)。データが転送されると、ホーム・エージェント102はアイドル状態166に遷移する。別法として、コヒーレンシ完了の受取時に、入出力読取りトランザクション、管理トランザクション、割り込み拒否トランザクションによって、アイドル状態への遷移が行われる。
【0099】
逆に、ホーム・エージェント102は、コヒーレンシ要求を受け取ると検査状態168に遷移する。検査状態168は、コヒーレンシ要求の影響を受けるコヒーレンシ単位に関してコヒーレンシ活動が進行中であるかどうかを検出するために使用される。コヒーレンシ活動が進行中である(すなわち、コヒーレンシ情報がブロックされている)場合、ホーム・エージェント102は、進行中のコヒーレンシ活動が完了するまで検査状態168のままである。それに続いて、ホーム・エージェント102は設定状態170に遷移する。
【0100】
設定状態170中に、ホーム・エージェント102は、ブロックすべき影響を受けるコヒーレンシ単位に対応するコヒーレンシ情報を記憶するディレクトリ・エントリの状況を設定する。ブロック状況によって、影響を受けるコヒーレンシ単位へのその後の活動の進行が妨げられ、コンピュータ・システム10のコヒーレンシ・プロトコルが簡略化される。ホーム・エージェント102は、受け取ったコヒーレンシ要求に対応するトランザクションの読取り特性または書込み特性に応じて、読取り状態172または書込み応答状態174に遷移する。
【0101】
ホーム・エージェント102は、読取り状態172中に、読取りトランザクションに関して更新されるコヒーレンシ・デマンドをスレーブ・エージェント104に発行する。ホーム・エージェント102は、要求エージェント100からコヒーレンシ完了が受け取られるまで読取り状態172のままであり、その後、ブロック状況クリア状態176に遷移する。読取りを求めるコヒーレンシ要求が失敗する可能性のある実施形態では、ホーム・エージェント102は、読取りトランザクションの失敗を示すコヒーレンシ完了を受け取ると、影響を受けるディレクトリ・エントリの状態をコヒーレンシ要求の前の状態に復元する。
【0102】
書込み状態174中に、ホーム・エージェント102は要求エージェント100へコヒーレンシ応答を送る。ホーム・エージェント102は、要求エージェント100からコヒーレンシ完了が受け取られるまで応答書込み状態174のままである。コヒーレンシ完了と共にデータを受け取った場合、ホーム・エージェント102は書込みデータ状態178に遷移する。別法として、ホーム・エージェント102は、データを含まないコヒーレンシ完了を受け取ったときに、ブロック状況クリア状態176に遷移する。
【0103】
ホーム・エージェント102は、受け取った書込みデータを転送するために、書込みデータ状態178中にSMPバス20上で書込みトランザクションを発行する。たとえば、書込みストリーム動作(後述)によって、データがホーム・エージェント102へ転送される。ホーム・エージェント102は、受け取ったデータを、記憶するためにメモリ22へ送る。それに続いて、ホーム・エージェント102はブロック状況クリア状態176に遷移する。
【0104】
ホーム・エージェント102は、ブロック状況クリア状態176で受け取ったコヒーレンシ要求の影響を受けるコヒーレンシ単位に対応するコヒーレンシ情報のブロック状況をクリアする。それに続いて、コヒーレンシ情報にアクセスすることができる。非ブロック・コヒーレンシ情報内に存在する状態は、前に受け取ったコヒーレンシ要求によって開始されたコヒーレンシ活動を反映する。ホーム・エージェント102は、対応するコヒーレンシ情報のブロック状況をクリアすることによって、アイドル状態166に遷移する。ホーム・エージェント102は、コヒーレンシ要求を受け取ると、アイドル状態166から受取要求状態162に遷移する。
【0105】
次に図10を参照すると、スレーブ・エージェント104に関する例示的な状態マシンを示すフローチャート180が示されている。スレーブ・エージェント104は、受取状態182中にコヒーレンシ・デマンドを受け取る。スレーブ・エージェント104は、コヒーレンシ・デマンドに応答して、SMPバス20上に与えられるトランザクションを待機させる。このトランザクションによって、キャッシュ18およびプロセッサ16の内部のキャッシュの状態が、受け取ったコヒーレンシ・デマンドに応じて変化する。スレーブ・エージェント104は、このトランザクションを要求発送状態184の間待機させる。
【0106】
応答発送状態186中に、スレーブ・エージェント104は、トランザクションを開始した要求エージェント100へコヒーレンシ応答を送る。様々な実施形態によれば、スレーブ・エージェント104が、SMPバス20に関するトランザクションを待機させ、あるいはSMPバス20上のトランザクションが首尾良く完了したときに要求発送状態184から応答発送状態186に遷移できることに留意されたい。スレーブ・エージェント104は、コヒーレンシ応答を送った後、アイドル状態188に遷移する。スレーブ・エージェント104は、コヒーレンシ・デマンドを受け取るとアイドル状態188から受取状態182に遷移することができる。
【0107】
次に図11ないし14を参照すると、例示的なコヒーレンシ要求タイプ、コヒーレンシ・デマンド・タイプ、コヒーレンシ応答タイプ、コヒーレンシ完了タイプをリストしたいくつかの表が示されている。図11ないし14の表に示したタイプは、コンピュータ・システム10の一実施形態によって使用することができる。他の実施形態は、他の数組のタイプを使用することができる。
【0108】
図11は、コヒーレンシ要求のタイプをリストした表190である。第1の列192は、下記の図15で使用される各要求タイプのコードをリストしたものである。第2の列194は、コヒーレンシ要求タイプをリストしたものであり、第3の列196は、コヒーレンシ要求の発送元を示すものである。図12ないし14では、同様な列がコヒーレンシ・デマンド、コヒーレンシ応答、コヒーレンシ完了に使用される。「R」は要求エージェント100を示し、「S」はスレーブ・エージェント104を示し、「H」はホーム・エージェント102を示す。
【0109】
リード・ツー・シェア要求は、特定のSMPノードにコヒーレンシ単位が存在せず、SMPバス20からコヒーレンシ単位へのトランザクションの性質上、コヒーレンシ単位への読取りアクセスが必要であるときに実行される。たとえば、キャッシュ可能読取りトランザクションではリード・ツー・シェア要求が実行される。一般的に言えば、リード・ツー・シェア要求とは、共用状態のコヒーレンシ単位のコピーを求める要求である。同様に、リード・ツー・オウン要求とは、所有状態のコヒーレンシ単位のコピーを求める要求である。他のSMPノード内のコヒーレンシ単位のコピーは無効状態に変更すべきである。リード・ツー・オウン要求は、たとえばキャッシュ可能書込みトランザクションのキャッシュ・ミスに応答して実行することができる。
【0110】
読取りストリームおよび書込みストリームとは、コヒーレンシ単位全体の読取りまたは書込みを求める要求である。これらの動作は通常、ブロック・コピー動作に使用される。プロセッサ16およびキャッシュ18は、読取りストリーム要求または書込みストリーム要求に応答して与えられたデータはキャッシュしない。その代わり、読取りストリーム要求の場合には、コヒーレンシ単位がプロセッサ16へのデータとして与えられ、書込みストリーム要求の場合にはメモリ22にデータが書き込まれる。リード・ツー・シェア要求、リード・ツー・オウン要求、読取りストリーム要求をCOMA動作(たとえば、RTS、RTO、RS)またはNUMA動作(たとえば、RTSN、RTON、RSN)として実行できることに留意されたい。
【0111】
書き直し要求は、コヒーレンシ単位のホーム・ノードにコヒーレンシ単位が書き込まれるときに実行される。ホーム・ノードは、コヒーレンシ単位を書き直す許可と共に応答する。コヒーレンシ単位は次いで、コヒーレンシ完了と共にホーム・ノードに渡される。
【0112】
無効要求は、他のSMPノード内のコヒーレンシ単位のコピーを無効化するために実行される。無効化要求が生成される例示的なケースは、共用または所有されているコヒーレンシ単位への書込みストリーム・トランザクションである。書込みストリーム・トランザクションではコヒーレンシ単位が更新され、したがって他のSMPノード内のコヒーレンシ単位のコピーが無効化される。
【0113】
入出力読取りトランザクションおよび入出力書込みトランザクションに応答して入出力読取り要求および入出力書込み要求が送られる。入出力トランザクションは非コヒーレントである(すなわち、トランザクションはキャッシュされず、トランザクションに対してコヒーレンシは維持されない)。入出力ブロック・トランザクションでは、通常の入出力トランザクションよりも大きな、データの一部が転送される。一実施形態では、ブロック入出力動作で64バイトの情報が転送され、それに対して非ブロック入出力トランザクションで8バイトが転送される。
【0114】
フラッシュ要求では、コヒーレンシ単位のコピーが無効化される。修正されたコピーはホーム・ノードへ返される。割り込み要求はリモートSMPノード内の特定の装置への割り込みを知らせるために使用される。割り込みは特定のプロセッサ16に与えることができ、そのプロセッサは、割り込みに応答して所定のアドレスに記憶されている割り込みサービス・ルーチンを実行することができる。管理パケットは、ノード間である種のリセット信号を送るために使用される。
【0115】
図12は、例示的なコヒーレンシ・デマンド・タイプをリストした表198である。表190と同様に、表198には列192、194、196が含まれる。リード・ツー・シェア・デマンドは、コヒーレンシ単位の所有者へ搬送され、それによってその所有者は要求側ノードへデータを送る。同様に、リード・ツー・オウン・デマンドおよび読取りストリーム・デマンドによって、コヒーレンシ単位の所有者は要求側ノードへデータを送る。また、リード・ツー・オウン・デマンドによって、所有者は所有者ノード内のコヒーレンシ単位の状態を無効に変更する。読取りストリーム・デマンドおよびリード・ツー・シェア・デマンドによって、所有者ノードにおける状態が(修正から)所有に変更される。
【0116】
無効化デマンドでは、対応するコヒーレンシ単位は転送されない。その代わり、無効化デマンドではコヒーレンシ単位のコピーが無効化される。最後に、管理デマンドは管理要求に応答して搬送される。各デマンドが要求エージェント100からの要求に応答してホーム・エージェント102によって開始されることを留意されたい。
【0117】
図13は、コンピュータ・システム10の一実施形態によって使用される例示的な応答タイプをリストした表200である。図11および12と同様に、図13はコヒーレンシ応答に関する列192、194、196を含む。
【0118】
データ応答とは、要求されたデータを含む応答である。所有者スレーブ・エージェントは通常、コヒーレンシ要求に関するデータ応答を与える。しかし、ホーム・エージェントは入出力読取り要求に関するデータを与えることができる。
【0119】
肯定応答は、特定のコヒーレンシ要求に関連するコヒーレンシ・デマンドが完了したことを示す。スレーブ・エージェントは通常、肯定応答を与えるが、ホーム・エージェントは、ホーム・ノードがコヒーレンシ単位の所有者であるときに肯定応答を(データと共に)与える。
【0120】
スレーブ所有なし応答、アドレス・マップなし応答、エラー応答は、エラーが検出されたときにスレーブ・エージェント104によって搬送される。スレーブ所有なし応答は、コヒーレンシ単位の所有者およびスレーブがもはやコヒーレンシ単位を所有していないときにホーム・エージェント102によってスレーブが識別された場合に送られる。アドレス・マップなし応答は、所有権を主張している装置が、対応するSMPバス20上にはないデマンドを、スレーブが受け取った場合に、送られる。スレーブ・エージェントによって検出された他のエラー条件はエラー応答を介して示される。
【0121】
ホーム・エージェント102は、スレーブ・エージェント104が使用できるエラー応答以外のエラー応答を与えることができる。対応する要求がホーム・エージェント102によるサービスを必要としていないことを示すために、ホーム・エージェント102によって否定肯定(NACK)および否定応答(NOPE)が使用される。NACKトランザクションを使用して、対応する要求がホーム・ノードによって拒否されたことを示すことができる。たとえば、割り込み要求は、受取側ノードによって割り込みが拒否された場合にNACKを受け取る。受取側ノードによって割り込みが受け入れられた場合には肯定応答(ACK)が搬送される。NOPEトランザクションは、受取側ノードによって記憶されていないコヒーレンシ単位のための対応するフラッシュ要求が搬送されたことを示すために使用される。
【0122】
図14は、コンピュータ・システム10の一実施形態による例示的なコヒーレンシ完了タイプを示す表202である。図14は、図11ないし13と同様に、コヒーレンシ完了に関する列192、194、196を含む。
【0123】
データなしの完了は、特定の要求が完了したことを示す、要求エージェント100からホーム・エージェント102への信号として使用される。ホーム・エージェント102は、これに応答して、対応するコヒーレンシ情報をブロック解除する。SMPバス20上の異なるトランザクションに対応する2種類のデータ完了が含まれている。一方のタイプの再発行トランザクションでは、SMPバス20上でデータ・フェーズしか使用されない。この再発行トランザクションは、一実施形態では入出力書込みトランザクションおよび割り込みトランザクションに使用することができる。他方のタイプの再発行トランザクションではアドレス・フェーズとデータ・フェーズの両方が使用される。書込みストリームや書き直しなどのコヒーレント書込みは、アドレス・フェーズとデータ・フェーズの両方を含む再発行トランザクションを使用することができる。最後に、要求された状態を得ることに失敗した読取り要求に関する、失敗を示す完了が含まれている。
【0124】
次に図15を参照すると、SMPバス20上の様々なトランザクションに対するコヒーレンシ活動を示す表210が示されている。表210は、他のSMPノード12へ要求を送らせるトランザクションを示す。SMPノード内で完了するトランザクションは示されていない。列内の「−」は、特定の行内で考えられるケースではその列に関して実行される活動がないことを示す。要求エージェント100によってSMPバス20上で受け取られるトランザクションを示すトランザクション列212が含まれている。MTAG列214は、トランザクションに対応するアドレスによってアクセスされるコヒーレンシ単位のMTAGの状態を示す。図の状態は、前述のMOSI状態と「n」状態とを含む。「n」状態は、コヒーレンシ単位が、トランザクションが開始されたSMPノードではNUMAモードでアクセスされることを示す。したがって、コヒーレンシ単位のローカル・コピーは要求側ノード・メモリには記憶されない。その代わり、コヒーレンシ単位は、ホームSMPノード(または所有者ノード)から転送され、メモリ22に記憶されずに要求側プロセッサ16またはキャッシュ18へ送られる。
【0125】
要求列216は、トランザクションのアドレスによって識別されるホーム・エージェントへ送られるコヒーレンシ要求をリストしたものである。ホーム・エージェント102は、列216にリストしたコヒーレンシ要求を受け取ると、ディレクトリ66に記録されている要求側ノードのコヒーレンシ単位の状態を検査する。D列218は、要求側ノードに関して記録されるコヒーレンシ単位の現状態をリストしたものであり、D’列220は、受け取ったコヒーレンシ要求に応答してホーム・エージェント102によって更新された、要求側ノードに関して記録されるコヒーレンシ単位の状態をリストしたものである。ホーム・エージェント102は、コヒーレンシ単位の所有者への第1のコヒーレンシ・デマンドと、コヒーレンシ単位の共用コピーを維持しているノードへの追加コヒーレンシ・デマンドを生成することができる。所有者へ送られるコヒーレンシ・デマンドを列222に示し、それに対して共用ノードへ送られるコヒーレンシ・デマンドを列224に示す。さらに、ホーム・エージェント102は要求側ノードへコヒーレンシ応答を送ることができる。ホーム・エージェント応答を列226に示す。
【0126】
コヒーレンシ単位の所有者として示されたSMPノード内のスレーブ・エージェント104は、列228に示したようにコヒーレンシ応答を送る。共用ノードとして示されたノード内のスレーブ・エージェント104は、受け取ったコヒーレンシ・デマンドで示された状態変化を実行した後に、列230に示したコヒーレンシ応答を用いて、列224に示したコヒーレンシ・デマンドに応答する。
【0127】
要求エージェント100は、適当な数のコヒーレンシ応答を受け取ると、ホーム・エージェント102へコヒーレンシ完了を送る。様々なトランザクションに使用されるコヒーレンシ完了を列232に示す。
【0128】
一例を挙げると、行234は、対応するMTAG状態が無効であるSMPバス20上のリード・ツー・シェア・トランザクションに対するコヒーレンシ活動を示す。対応する要求エージェント100は、リード・ツー・シェア・トランザクションに関連付けられたグローバル・アドレスで識別されたホーム・ノードへリード・ツー・シェア・コヒーレンシ要求を送る。行234に示したケースでは、ホーム・ノードのディレクトリは、要求側ノードがデータを無効状態で記憶していることを示す。要求側ノードに関するホーム・ノードのディレクトリ内の状態は共用に更新され、ホーム・エージェント102により、ディレクトリによって所有者として示されたノードへリード・ツー・シェア・コヒーレンシ・デマンドが送られる。トランザクションが共用状態を得ようとするので、共用者へはデマンドは送られない。所有者ノード内のスレーブ・エージェント104は、コヒーレンシ単位に対応するデータを要求側ノードへ送る。要求側ノード内の要求エージェント100は、データを受け取るとホーム・ノード内のホーム・エージェント102へコヒーレンシ完了を送る。従って、トランザクションが完了する。
【0129】
D列218に示した状態がMTAG列214の状態に合致しないことがあることに留意されたい。たとえば、行236は、MTAG列214では無効状態のコヒーレンシ単位を示す。しかし、D列218内の対応する状態は、修正でも、あるいは所有でも、あるいは共用でもよい。そのような状況が発生するのは、コヒーレンシ単位への現トランザクションに関するMTAG68へのアクセスがアドレス・バス58上で実行されるときに、コヒーレンシ単位に関する要求側ノードからの前のコヒーレンシ要求がコンピュータ・システム10内で未処理であるときである。しかし、特定のアクセス時にディレクトリ・エントリがブロックされるので、未処理の要求は、現要求によるディレクトリ66のアクセスよりも前に完了する。このため、生成されるコヒーレンシ・デマンドは、(ディレクトリがアクセスされるときのMTAG状態に合致する)ディレクトリ状態に依存する。行236に示した例では、コヒーレンシ単位が現在、要求側ノードに存在していることをディレクトリが示しているので、リード・ツー・シェア要求は、単に要求側ノード内のSMPバス20上で読取りトランザクションを再発行することによって完了することができる。したがって、ホーム・ノードは、応答カウント1を含め、要求に肯定応答し、それに続いて要求側ノードは読取りトランザクションを再発行することができる。さらに、表210には多数のタイプのトランザクションがリストされているが、コンピュータ・システム10の様々な実施形態に応じて他のトランザクションを使用できることに留意されたい。
【0130】
次に図16を参照すると、ホーム・エージェント102の実施形態のブロック図が示されている。図16に示したホーム・エージェント102は、入力ヘッダ待ち行列84(図5)を通じてネットワーク14から関連するトランザクション要求を受け取るように結合された高優先順位(RTO)待ち行列402と、低優先順位待ち行列404と、入出力待ち行列406とを含む。高優先順位待ち行列402および低優先順位待ち行列404とホーム・エージェント制御装置410との間に結合されたトランザクション・ブロッキング装置408が示されている。ディレクトリ・キャッシュ420および関連するディレクトリ・キャッシュ管理装置422は、全体としてディレクトリ66(図5)を実施するために使用され、やはりホーム・エージェント制御装置410に結合される装置として示されている。
【0131】
前述のように、動作時に、ホーム・エージェント102は入力ヘッダ待ち行列84を通じてネットワーク14からトランザクション要求を受け取る。各トランザクション要求は次いで、要求のタイプに応じて高優先順位待ち行列402、低優先順位待ち行列404、入出力待ち行列406のいずれかへ搬送される。図16の実施形態では、高優先順位待ち行列402はRTOトランザクション要求を受け取り、入出力待ち行列406は入出力トランザクション要求を受け取る。低優先順位待ち行列404は、RTSトランザクション要求を含め、他のすべての要求タイプを受け取る。高優先順位待ち行列402、低優先順位待ち行列404、入出力待ち行列406はそれぞれ、FIFOバッファ装置を使用して実施することができる。トランザクション要求を適当な待ち行列へルーティングするために制御回路(図16では独立に示されていない)が使用される。
【0132】
ホーム・エージェント制御装置410は、図5および6の上記の説明に関連して上記で説明したように適当なコヒーレンシ・デマンドおよび応答を生成することによってトランザクション要求を処理する。ホーム・エージェント制御装置410はまた、要求エージェントからコヒーレンシ完了メッセージを受け取り、SMP出力待ち行列98を通じてSMPバス58上で搬送すべきバストランザクション要求のバッファとして働く。ホーム・エージェント制御装置410は最終的に、ホーム・エージェント制御装置410と共に現在アクティブなすべての要求の状況を維持する。
【0133】
ホーム・エージェント制御装置410は、複数のトランザクション要求を同時に処理するように構成することができる。言い換えれば、ホーム・エージェント制御装置410は、所与のトランザクション要求の処理を、他のトランザクション要求に対応する完了メッセージが受け取られる前に開始することができる。したがって、所与の時間に複数のトランザクション要求がアクティブであってよい。特定の一実施形態では、ホーム・エージェント制御装置410は最大で16個のアクティブ要求を処理することができる。
【0134】
トランザクション・ブロッキング装置408は、高優先順位待ち行列402または低優先順位待ち行列404内の所与のトランザクション要求が、ホーム・エージェント制御装置410内ですでにアクティブな他のトランザクション要求のコヒーレンシ単位に対応するものである場合に、所与のトランザクション要求の処理をブロックするように構成される。アクティブ要求の完了メッセージが受け取られると、ブロックは削除される。一実施形態では、高優先順位待ち行列402と低優先順位待ち行列404のどちらか内のネクストインライン・トランザクション要求がブロックされた場合、他の待ち行列からのトランザクションは依然として、ブロッキング装置408を通じてホーム・エージェント制御装置410に与えられる。
【0135】
特定の一実施形態では、トランザクション・ブロッキング装置408は、未処理のRTSN(リード・ツー・シェアNUMAモード)トランザクションと新しいRTSNトランザクション要求のライン・アドレス(すなわち、コヒーレンシ単位アドレス)が同じである場合に、未処理のRTSNトランザクションが新しいRTSNトランザクション要求をブロックしないように構成することができる。
【0136】
ホーム・エージェント制御装置410は、高優先順位待ち行列402内で1つまたは複数のトランザクション要求が未処理であり、低優先順位待ち行列404内でも1つまたは複数のトランザクション要求が未処理である場合に、高優先順位待ち行列402内の未処理のネックトインラインRTOトランザクション要求が低優先順位待ち行列404内のネックトインライン・トランザクション要求よりも前に処理されるように構成することもできる。ホーム・エージェント制御装置410は、高優先順位待ち行列402内のRTO要求を処理した後、低優先順位待ち行列404内のネックトインライン・トランザクション要求を受け取り、処理する。ホーム・エージェント制御装置410はそれに続いて、高優先順位待ち行列402内の未処理RTO要求のサービスを開始し、以後同様にピンポン方式で処理する。入出力待ち行列406内の未処理の入出力トランザクション要求は、トランザクション処理資源の可用性またはホーム・エージェント制御装置410内の状態マシン(ホーム・エージェント記述子と呼ばれる)に応じて、任意の時にホーム・エージェント制御装置410によって処理することができる。
【0137】
スピンロック動作中のホーム・エージェント102の動作は、図17および18ならびに下記の例を参照して最も良く理解することができる。図17は、「RTO(1)」として固有に識別されたRTOトランザクションが、高優先順位待ち行列402内で未処理であり、RTS(1)ないしRTS(7)として固有に識別されたいくつかのRTSトランザクションが低優先順位待ち行列404内で未処理である状況を示す。この例では、各RTSトランザクション要求RTS(1)ないしRTS(7)は、それぞれ、ロックされた同じメモリ領域へのアクセスを求めて競合しているスピン中のプロセッサからの要求に対応すると仮定する。さらに、RTOトランザクションRTO(1)が無関係のトランザクション要求であると仮定する。
【0138】
ホーム・エージェント制御装置410はまず、RTOトランザクション要求RTO(1)を処理することができる。ホーム・エージェント制御装置410は、同じコヒーレンシ単位がRTO(1)トランザクションには関与していないと仮定して(すなわち、そうでない場合、要求RTS(1)はトランザクション・ブロッキング装置408によってブロックされる)、RTSトランザクション要求RTS(1)の処理を受け入れ開始することもできる。RTS(1)トランザクション要求を実施する前にRTS(1)要求に関連するロック・ビットが解除された場合、RTS(1)を発行したプロセッサは、ロック解除を検出し、アトミック試験及びセット動作を開始する。
【0139】
次に図18を参照すると、ロック解除を検出したプロセッサによって開始されるアトミック試験及びセット動作に対応する、RTO(2)と呼ばれるRTOトランザクションが示されている。 図18に示した例では、ネットワーク14から要求RTO(2)を受け取る前に、RTS(2)およびRTS(3)がすでに、ホーム・エージェント制御装置410によるサービスに関して受け入れられていると仮定されている。要求RTS(3)に関するトランザクションが完了すると、要求RTO(2)がトランザクション・ブロッキング装置408を通じてホーム・エージェント制御装置410に渡される。RTO(2)は、高優先順位待ち行列402を介して要求RTS(4)ないしRTS(7)をバイパスするので、RTS(4)ないしRTS(7)よりも前に処理される。したがって、メモリ領域に対するロック・ビットがセットされ、RTS(4)ないしRTS(7)を発行したプロセッサは、ロック解除を検出せず、アトミック試験及びセット動作を開始することはない。これによって、追加RTOトランザクション要求の生成と、ロックが記憶されているコヒーレンシ単位の不要な移行が回避される。さらに、コヒーレンシ単位の他のコピーの無効化も回避される。全体的なネットワーク・トラフィックが減少されるので、多重処理システムの全体的な性能を向上させることができる。
【0140】
一実施形態では、高優先順位待ち行列402が、低優先順位待ち行列404の容量と比べて比較的小規模であることに留意されたい。たとえば、高優先順位待ち行列402は、最大で8つの未処理のRTO要求を記憶するように構成することができる。低優先順位待ち行列404および入出力待ち行列406はそれぞれ、ホーム・エージェントへ送られるすべての可能な要求に適合するようなサイズにすることができる(すなわち、(RxN)。ここで、Rは要求エージェント記述子の数であり、Nはノードの数である)。
【0141】
さらに、ホーム・エージェント102を様々な他の特定の実施形態として構成することが企図される。たとえば、RTOトランザクション要求およびRTSトランザクション要求用の物理的に離れた待ち行列を設けるのではなく、ホーム・エージェント内の未処理のRTOトランザクション要求を検出しある種のRTOトランザクション要求の処理を、すでに受け取っているある種のRTSトランザクション要求の処理よりも優先するように、ホーム・エージェント制御装置を構成することができる。
【0142】
上記の例示的な実施形態ではSMPノード12について説明したが、一般的に言えば、コンピュータ・システム10は1つまたは複数の処理ノードを含むことができる。本明細書では、処理ノードは、少なくとも1つのプロセッサと対応するメモリとを含む。他の処理ノードと通信する回路も含まれる。コンピュータ・システム10の実施形態に複数の処理ノードが含まれるとき、処理ノード内の対応するメモリは分散共用メモリを形成する。処理ノードはリモート処理ノードまたはローカル処理ノードと呼ぶことができる。処理ノードは、特定のプロセッサを含まない場合、その特定のプロセッサに対してリモート処理ノードである。逆に、特定のプロセッサを含む処理ノードは、その特定のプロセッサのローカル処理ノードである。最後に、本明細書では、「待ち行列」とは、複数の記憶位置または要素を含む記憶領域またはバッファである。
【0143】
当業者には、上記の開示を完全に理解した後に多数の変形形態および修正形態が明らかになろう。特許請求の範囲は、すべてのそのような変形形態および修正形態を包含するものと解釈されるものである。
【図面の簡単な説明】
【図1】マルチプロセッサ・コンピュータ・システムのブロック図である。
【図2】図1に示したコンピュータ・システムの一実施形態によってサポートされる非一様メモリ・アーキテクチャを示す概念ブロック図(A)と、図1に示したコンピュータ・システムの一実施形態によってサポートされるキャッシュ専用メモリ・アーキテクチャを示す概念ブロック図(B)である。
【図3】図1に示した対称型多重処理ノードの一実施形態のブロック図である。
【図4】図3に示したディレクトリの一実施形態に記憶された例示的なディレクトリ・エントリを示す図である。
【図5】図1に示したシステム・インタフェースの一実施形態のブロック図である。
【図6】要求エージェントとホーム・エージェントとスレーブ・エージェントとの間の通常のコヒーレンシ動作に応答して実行される活動を示す図である。
【図7】プロセッサからのリード・ツー・オウン要求に応答して実行される例示的なコヒーレンシ動作を示す図である。
【図8】図5に示した要求エージェントの一実施形態に関する例示的な状態マシンを示すフローチャートである。
【図9】図5に示したホーム・エージェントの一実施形態に関する例示的な状態マシンを示すフローチャートである。
【図10】図5に示したスレーブ・エージェントの一実施形態に関する例示的な状態マシンを示すフローチャートである。
【図11】システム・インタフェースの一実施形態による要求タイプをリストした表である。
【図12】システム・インタフェースの一実施形態によるデマンド・タイプをリストした表である。
【図13】システム・インタフェースの一実施形態による応答タイプをリストした表である。
【図14】システム・インタフェースの一実施形態による完了タイプをリストした表である。
【図15】システム・インタフェースの一実施形態による、プロセッサによって実行される様々な動作に応答して実行されるコヒーレンシ動作を表す表である。
【図16】マルチプロセッサ・コンピュータ・システムのシステム・インタフェース内で使用されるホーム・エージェントの一実施形態のブロック図である。
【図17】マルチプロセッサ・コンピュータ・システムのホーム・エージェント内のRTO待ち行列および第2の待ち行列に存在する例示的な未処理のトランザクション要求を示すブロック図である。
【図18】マルチプロセッサ・コンピュータ・システムのホーム・エージェント内のRTO待ち行列および第2の待ち行列に存在する例示的な未処理のトランザクション要求を示すブロック図である。
【符号の説明】
10 コンピュータ・システム
12 SMPノード
14 ポイント・ツー・ポイント・ネットワーク
16 プロセッサ
18 外部キャッシュ
20 SMPバス
22 メモリ
24 システム・インタフェース
26 入出力インタフェース

Claims (8)

  1. ネットワークによって相互接続された複数の処理ノードと共用メモリを含む多重処理コンピュータ・システムのホーム・ノード内で使用できる装置であって、
    前記複数の処理ノードからの前記共用メモリに対するトランザクション要求の内、所有状態のコヒーレンシ単位のコピーを求めるリード・ツー・オウン・トランザクション要求を受け取るように結合された第1の待ち行列と、
    前記複数の処理ノードからの前記共用メモリに対するトランザクション要求の内、共用状態のコヒーレンシ単位のコピーを求めるリード・ツー・シェア・トランザクション要求を受け取るように結合された第2の待ち行列と、
    前記第1、第2の待ち行列に結合して、前記リード・ツー・オウン・トランザクション要求および前記リード・ツー・シェア・トランザクション要求を受け取り、該受け取った複数のトランザクション要求を同時に処理可能に構成されたホーム・エージェント制御装置と、
    前記第1、第2の待ち行列および前記ホーム・エージェント制御装置に結合され、
    (1)特定のコヒーレンシ単位に対するリード・ツー・オウン・トランザクション要求が現在、前記ホーム・エージェント制御装置によって処理されている場合に、前記第1の待ち行列に保持されている前記特定のコヒーレンシ単位に対するリード・ツー・オウン・トランザクション要求をブロックし、
    (2)特定のコヒーレンシ単位に対するリード・ツー・シェア・トランザクション要求が現在、前記ホーム・エージェント制御装置によって処理されている場合でも、前記ホーム・エージェント制御装置が前記第2の待ち行列に保持されている前記特定のコヒーレンシ単位に対するリード・ツー・シェア・トランザクション要求を受け取り、処理できるようにた、トランザクション・ブロッキング装置とを備えることを特徴とする装置。
  2. 前記ホーム・エージェント制御装置が、前記第2の待ち行列からの所与のリード・ツー・シェア・トランザクション要求を処理する前に前記第1の待ち行列からの所与のリード・ツー・オウン・トランザクション要求を処理するように構成されることを特徴とする請求項に記載の、多重処理コンピュータ・システムのホーム・ノード内で使用できる装置。
  3. 前記所与のリード・ツー・オウン・トランザクション要求が前記ネットワークを通じて送られる前に前記所与のリード・ツー・シェア・トランザクション要求がネットワークを通じて送られた場合でも、前記所与のリード・ツー・シェア・トランザクション要求を処理する前に前記所与のリード・ツー・オウン・トランザクション要求を処理するように、前記ホーム・エージェント制御装置が構成されることを特徴とする請求項に記載の、多重処理コンピュータ・システム内で使用できる装置。
  4. 前記所与のリード・ツー・オウン・トランザクション要求が前記第1の待ち行列内に格納される前に前記所与のリード・ツー・シェア・トランザクション要求が前記第2の待ち行列内に記憶された場合でも、前記所与のリード・ツー・シェア・トランザクション要求を処理する前に前記所与のリード・ツー・オウン・トランザクション要求を処理するように、前記ホーム・エージェント制御装置が構成されることを特徴とする請求項に記載の、多重処理コンピュータ・システムのホーム・ノード内で使用できる装置。
  5. ネットワークによって相互接続された複数の処理ノードと共用メモリを含む多重処理コンピュータ・システムのホーム・ノード内で使用できるシステム・インターフェース装置であって、このシステム・インターフェース装置が、
    前記複数の処理ノードからの前記共用メモリに対するトランザクション要求の内、所有状態のコヒーレンシ単位のコピーを求めるリード・ツー・オウン・トランザクション要求を受け取るように結合された第1の待ち行列と、
    前記複数の処理ノードからの前記共用メモリに対するトランザクション要求の内、共用状態のコヒーレンシ単位のコピーを求めるリード・ツー・シェア・トランザクション要求を受け取るように結合された第2の待ち行列と、
    前記第1、第2の待ち行列に結合して、前記リード・ツー・オウン・トランザクション要求および前記リード・ツー・シェア・トランザクション要求を受け取り、該受け取った複数のトランザクション要求を同時に処理可能に構成されたホーム・エージェント制御装置と、
    前記第1、第2の待ち行列および前記ホーム・エージェント制御装置に結合された、トランザクション・ブロッキング装置とを備えており、
    前記システム・インターフェース装置によるトランザクション要求の処理方法が、
    前記第1の待ち行列が第1のリード・ツー・オウン・トランザクション要求を受け取ることと、
    前記第1の待ち行列が第2のリード・ツー・オウン・トランザクション要求を受け取ることと、
    前記ホーム・エージェント制御装置が、前記第1のリード・ツー・オウン・トランザクション要求を処理することと、
    前記トランザクション・ブロッキング装置が、前記第1および第2のリード・ツー・オウン・トランザクション要求が同じコヒーレンシ単位に対応するものである場合に、前記第1のリード・ツー・オウン・トランザクション要求の処理が完了するまで前記第2のリード・ツー・オウン・トランザクション要求の処理をブロックすることと、
    前記第2の待ち行列が第1のリード・ツー・シェア・トランザクション要求を受け取ることと、
    前記第2の待ち行列が第2のリード・ツー・シェア・トランザクション要求を受け取ることと、
    前記ホーム・エージェント制御装置が、前記第1のリード・ツー・シェア・トランザクション要求を処理することと、
    前記トランザクション・ブロッキング装置が、前記第1および第2のリード・ツー・シェア・トランザクション要求が共通のコヒーレンシ単位に対応するものである場合でも、前記第1のリード・ツー・シェア・トランザクション要求の処理中に前記第2のリード・ツー・シェア・トランザクション要求の処理を許可することと
    を含ことを特徴とする方法。
  6. 前記ホーム・エージェント制御装置が、前記第2の待ち行列からの所与のリード・ツー・シェア・トランザクション要求を処理する前に前記第1の待ち行列から所与のリード・ツー・オウン・トランザクション要求を処理するように構成されていることを特徴とする請求項5記載の方法。
  7. 前記所与のリード・ツー・オウン・トランザクション要求が前記ネットワークを通じて送られる前に前記所与のリード・ツー・シェア・トランザクション要求がネットワークを通じて送られた場合でも、前記ホーム・エージェント制御装置が、前記所与のリード・ツー・シェア・トランザクション要求を処理する前に、前記所与のリード・ツー・オウン・トランザクション要求を処理することを、さらに含むことを特徴とする請求項6記載の方法。
  8. 前記所与のリード・ツー・オウン・トランザクション要求が前記第1の待ち行列内に格納される前に前記所与のリード・ツー・シェア・トランザクション要求が前記第2の待ち行列内に記憶された場合でも、前記所与のリード・ツー・シェア・トランザクション要求を処理する前に前記所与のリード・ツー・オウン・トランザクション要求を処理することを特徴とする請求項に記載の方法。
JP20823497A 1996-07-01 1997-06-30 読取り−共有トランザクションのための強化ブロッキング・メカニズムを含むマルチプロセス・システム Expired - Lifetime JP3987162B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/674,271 US5983326A (en) 1996-07-01 1996-07-01 Multiprocessing system including an enhanced blocking mechanism for read-to-share-transactions in a NUMA mode
US08/674271 1996-07-01

Publications (2)

Publication Number Publication Date
JPH10143477A JPH10143477A (ja) 1998-05-29
JP3987162B2 true JP3987162B2 (ja) 2007-10-03

Family

ID=24705980

Family Applications (1)

Application Number Title Priority Date Filing Date
JP20823497A Expired - Lifetime JP3987162B2 (ja) 1996-07-01 1997-06-30 読取り−共有トランザクションのための強化ブロッキング・メカニズムを含むマルチプロセス・システム

Country Status (4)

Country Link
US (1) US5983326A (ja)
EP (1) EP0820016B1 (ja)
JP (1) JP3987162B2 (ja)
DE (1) DE69736413D1 (ja)

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5873117A (en) * 1996-07-01 1999-02-16 Sun Microsystems, Inc. Method and apparatus for a directory-less memory access protocol in a distributed shared memory computer system
JP3739888B2 (ja) * 1997-03-27 2006-01-25 株式会社ソニー・コンピュータエンタテインメント 情報処理装置および方法
US6041376A (en) * 1997-04-24 2000-03-21 Sequent Computer Systems, Inc. Distributed shared memory system having a first node that prevents other nodes from accessing requested data until a processor on the first node controls the requested data
US6631448B2 (en) * 1998-03-12 2003-10-07 Fujitsu Limited Cache coherence unit for interconnecting multiprocessor nodes having pipelined snoopy protocol
US6631401B1 (en) * 1998-12-21 2003-10-07 Advanced Micro Devices, Inc. Flexible probe/probe response routing for maintaining coherency
US6167492A (en) 1998-12-23 2000-12-26 Advanced Micro Devices, Inc. Circuit and method for maintaining order of memory access requests initiated by devices coupled to a multiprocessor system
JP3481485B2 (ja) * 1999-01-28 2003-12-22 エヌイーシーコンピュータテクノ株式会社 マルチプロセッサシステム
US6601151B1 (en) * 1999-02-08 2003-07-29 Sun Microsystems, Inc. Apparatus and method for handling memory access requests in a data processing system
FR2792745B1 (fr) * 1999-04-26 2001-06-15 Bull Sa Architecture d'interconnexion modulaire pour machine multiprocesseur extensible, mettant en oeuvre une hierarchie de bus virtuelle a plusieurs niveaux et la meme brique de base pour tous les niveaux
US6381681B1 (en) * 1999-09-30 2002-04-30 Silicon Graphics, Inc. System and method for shared memory protection in a multiprocessor computer
US6938256B2 (en) 2000-01-18 2005-08-30 Galactic Computing Corporation System for balance distribution of requests across multiple servers using dynamic metrics
US6801954B1 (en) * 2000-02-25 2004-10-05 Hewlett-Packard Development Company, L.P. Method and apparatus to concurrently operate on multiple data movement transactions in a disk array subsystem
US6651124B1 (en) * 2000-04-28 2003-11-18 Hewlett-Packard Development Company, L.P. Method and apparatus for preventing deadlock in a distributed shared memory system
US6813767B1 (en) * 2000-06-30 2004-11-02 Intel Corporation Prioritizing transaction requests with a delayed transaction reservation buffer
US6816905B1 (en) 2000-11-10 2004-11-09 Galactic Computing Corporation Bvi/Bc Method and system for providing dynamic hosted service management across disparate accounts/sites
US8538843B2 (en) 2000-07-17 2013-09-17 Galactic Computing Corporation Bvi/Bc Method and system for operating an E-commerce service provider
US6715059B2 (en) * 2000-07-26 2004-03-30 Tas Holdings, Inc. Methods and systems for a shared memory unit with extendable functions
US6763474B1 (en) * 2000-08-03 2004-07-13 International Business Machines Corporation System for synchronizing nodes in a heterogeneous computer system by using multistage frequency synthesizer to dynamically adjust clock frequency of the nodes
US6826619B1 (en) 2000-08-21 2004-11-30 Intel Corporation Method and apparatus for preventing starvation in a multi-node architecture
US6487643B1 (en) 2000-09-29 2002-11-26 Intel Corporation Method and apparatus for preventing starvation in a multi-node architecture
US6772298B2 (en) 2000-12-20 2004-08-03 Intel Corporation Method and apparatus for invalidating a cache line without data return in a multi-node architecture
US6791412B2 (en) 2000-12-28 2004-09-14 Intel Corporation Differential amplifier output stage
US7234029B2 (en) * 2000-12-28 2007-06-19 Intel Corporation Method and apparatus for reducing memory latency in a cache coherent multi-node architecture
US6721918B2 (en) 2000-12-29 2004-04-13 Intel Corporation Method and apparatus for encoding a bus to minimize simultaneous switching outputs effect
US6996745B1 (en) 2001-09-27 2006-02-07 Sun Microsystems, Inc. Process for shutting down a CPU in a SMP configuration
US7480909B2 (en) * 2002-02-25 2009-01-20 International Business Machines Corporation Method and apparatus for cooperative distributed task management in a storage subsystem with multiple controllers using cache locking
US6862668B2 (en) 2002-02-25 2005-03-01 International Business Machines Corporation Method and apparatus for using cache coherency locking to facilitate on-line volume expansion in a multi-controller storage system
JP3791433B2 (ja) * 2002-02-27 2006-06-28 日本電気株式会社 システム、制御処理装置、およびシステム制御方法
EP1376370B1 (en) * 2002-06-28 2017-06-14 Oracle America, Inc. Mechanism for starvation avoidance while maintaining cache consistency in computer systems
US8145759B2 (en) 2002-11-04 2012-03-27 Oracle America, Inc. Dynamically configurable resource pool
US8185602B2 (en) 2002-11-05 2012-05-22 Newisys, Inc. Transaction processing using multiple protocol engines in systems having multiple multi-processor clusters
US6985984B2 (en) * 2002-11-07 2006-01-10 Sun Microsystems, Inc. Multiprocessing systems employing hierarchical back-off locks
CN100417154C (zh) * 2002-11-11 2008-09-03 华为技术有限公司 一种利用状态机机制实现事务可靠传输的方法
US7743083B2 (en) * 2003-04-24 2010-06-22 Oracle America, Inc. Common transaction manager interface for local and global transactions
US7610305B2 (en) 2003-04-24 2009-10-27 Sun Microsystems, Inc. Simultaneous global transaction and local transaction management in an application server
CN100396061C (zh) * 2003-07-05 2008-06-18 华为技术有限公司 一种用状态机对异步操作进行控制的方法
US7640545B2 (en) * 2003-07-14 2009-12-29 Sun Microsytems, Inc. Transaction manager freezing
US7739252B2 (en) * 2003-07-14 2010-06-15 Oracle America, Inc. Read/write lock transaction manager freezing
US20050120185A1 (en) * 2003-12-01 2005-06-02 Sony Computer Entertainment Inc. Methods and apparatus for efficient multi-tasking
US20050283783A1 (en) * 2004-06-22 2005-12-22 Desota Donald R Method for optimizing pipeline use in a multiprocessing system
US7428619B2 (en) * 2005-01-18 2008-09-23 Sony Computer Entertainment Inc. Methods and apparatus for providing synchronization of shared data
US20070079075A1 (en) * 2005-09-30 2007-04-05 Collier Josh D Providing cache coherency in an extended multiple processor environment
US7596654B1 (en) 2006-01-26 2009-09-29 Symantec Operating Corporation Virtual machine spanning multiple computers
US7756943B1 (en) 2006-01-26 2010-07-13 Symantec Operating Corporation Efficient data transfer between computers in a virtual NUMA system using RDMA
US7702743B1 (en) 2006-01-26 2010-04-20 Symantec Operating Corporation Supporting a weak ordering memory model for a virtual physical address space that spans multiple nodes
US8099538B2 (en) * 2006-03-29 2012-01-17 Intel Corporation Increasing functionality of a reader-writer lock
US8495311B2 (en) * 2009-06-25 2013-07-23 International Business Machines Corporation Updating shared variables atomically
US8819056B2 (en) 2010-11-19 2014-08-26 International Business Machines Corporation Facilitation of search, list, and retrieval operations on persistent data set using distributed shared memory
FR2989489B1 (fr) * 2012-04-16 2015-11-27 Commissariat Energie Atomique Systeme et procede de gestion d'une coherence de caches dans un reseau de processeurs munis de memoires caches.
US20140114928A1 (en) 2012-10-22 2014-04-24 Robert Beers Coherence protocol tables
WO2014065879A1 (en) * 2012-10-22 2014-05-01 Venkatraman Iyer High performance interconnect physical layer
US10387314B2 (en) * 2015-08-25 2019-08-20 Oracle International Corporation Reducing cache coherence directory bandwidth by aggregating victimization requests
US10095629B2 (en) * 2016-09-28 2018-10-09 Intel Corporation Local and remote dual address decoding using caching agent and switch
CN116962259B (zh) * 2023-09-21 2024-02-13 中电科申泰信息科技有限公司 一种基于监听-目录两层协议的一致性处理方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1239227A (en) * 1984-10-17 1988-07-12 Randy D. Pfeifer Method of and arrangement for ordering of multiprocessor operations in a multiprocessor system
JPH0731662B2 (ja) * 1986-07-15 1995-04-10 富士通株式会社 マルチプロセッサシステム
US5499356A (en) * 1989-12-29 1996-03-12 Cray Research, Inc. Method and apparatus for a multiprocessor resource lockout instruction
US5301337A (en) * 1990-04-06 1994-04-05 Bolt Beranek And Newman Inc. Distributed resource management system using hashing operation to direct resource request from different processors to the processor controlling the requested resource
US5297269A (en) * 1990-04-26 1994-03-22 Digital Equipment Company Cache coherency protocol for multi processor computer system
JPH05210640A (ja) * 1992-01-31 1993-08-20 Hitachi Ltd マルチプロセッサシステム
AU1973595A (en) * 1994-03-01 1995-09-25 Intel Corporation Highly pipelined bus architecture

Also Published As

Publication number Publication date
DE69736413D1 (de) 2006-09-14
JPH10143477A (ja) 1998-05-29
EP0820016A2 (en) 1998-01-21
US5983326A (en) 1999-11-09
EP0820016B1 (en) 2006-08-02
EP0820016A3 (en) 2001-10-24

Similar Documents

Publication Publication Date Title
JP3987162B2 (ja) 読取り−共有トランザクションのための強化ブロッキング・メカニズムを含むマルチプロセス・システム
US5860159A (en) Multiprocessing system including an apparatus for optimizing spin--lock operations
US5749095A (en) Multiprocessing system configured to perform efficient write operations
US5734922A (en) Multiprocessing system configured to detect and efficiently provide for migratory data access patterns
EP0818733B1 (en) A multiprocessing system configured to perform software initiated prefetch operations
US5887138A (en) Multiprocessing computer system employing local and global address spaces and COMA and NUMA access modes
EP0817093B1 (en) A multiprocessor system configured to perform block copy operations
US5958019A (en) Multiprocessing system configured to perform synchronization operations
EP0817074B1 (en) Multiprocessing system employing a three-hop communication protocol
EP0817070B1 (en) Multiprocessing system employing a coherency protocol including a reply count
US5878268A (en) Multiprocessing system configured to store coherency state within multiple subnodes of a processing node
US5881303A (en) Multiprocessing system configured to perform prefetch coherency activity with separate reissue queue for each processing subnode
JPH10133917A (ja) コヒーレンシー関連エラー・ロッジング能力を有するマルチプロセス・システム
JP2001515244A (ja) スケーリング可能な共用メモリ・マルチプロセッサ・システム
Lucci et al. Reflective-memory multiprocessor

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040608

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20061018

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061024

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20070124

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20070129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070424

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070612

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070712

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100720

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110720

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110720

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120720

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120720

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130720

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term