JP2002197047A - 入力/出力読出しデータがプロセッサローカルキャッシュに直接配置されるコンピュータシステム - Google Patents

入力/出力読出しデータがプロセッサローカルキャッシュに直接配置されるコンピュータシステム

Info

Publication number
JP2002197047A
JP2002197047A JP2001332148A JP2001332148A JP2002197047A JP 2002197047 A JP2002197047 A JP 2002197047A JP 2001332148 A JP2001332148 A JP 2001332148A JP 2001332148 A JP2001332148 A JP 2001332148A JP 2002197047 A JP2002197047 A JP 2002197047A
Authority
JP
Japan
Prior art keywords
memory
data
node
cache
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001332148A
Other languages
English (en)
Inventor
Braine D Gaither
ディー ゲイザー ブレイン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HP Inc
Original Assignee
Hewlett Packard Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Co filed Critical Hewlett Packard Co
Publication of JP2002197047A publication Critical patent/JP2002197047A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Memory System Of A Hierarchy Structure (AREA)

Abstract

(57)【要約】 【課題】 大型マルチプロセッサシステムにおいてI/
O待ち時間を低減する。 【解決手段】 マルチノードシステムにおけるノード
(100、200、300)は、共有キャッシュメモリ
(104、204、304)を含む。I/Oデータは、
共有キャッシュに直接キャッシュされる。その結果、I
/Oデータに対するプロセッサ読出し命令は、メモリト
ランザクションの待ち時間を必要としない。ノード間の
I/O通信は、別個のI/Oスイッチ(314)かまた
は高速相互接続ネットワーク(112、212、30
8)によって行われてよい。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、概して大型マルチ
プロセッサコンピュータシステムに関し、特に、入力/
出力(I/O)データのアクセスおよび格納に関する。
【0002】
【従来の技術】パーソナルコンピュータ市場のために設
計されたアダプタおよび周辺機器が容易に利用可能であ
ることから、大型マルチプロセッサシステムでは、入力
/出力のために別個のパーソナルコンピュータバス(例
えば、PCI(Peripheral Component Interconnect)
バス)を使用することが一般的である。一般に、I/O
データは、キャッシュからクリティカルデータを追出
し、またはキャッシュをフラッシュしてしまうので、プ
ロセッサローカルキャッシュ(周辺キャッシュとは対照
的に)から排除される。代りに、一般に、メモリの一部
が、I/OデータのI/OバスへのおよびI/Oバスか
らのI/Oバッファとして使用される。一般に、I/O
読出しは、2段階プロセスである。まず、プロセッサ
は、I/O読出し命令を起動し、そのI/O読出しデー
タがメモリに配置され、その後、プロセッサは、メモリ
読出し命令を起動してメモリからデータを読出す。
【0003】大型マルチプロセッサコンピュータシステ
ムは、一般に複数のノードを備えており、各ノードはプ
ロセッサ群を含む。例えば、32プロセッサシステム
は、8つのノードを有し、各ノードは4つのプロセッサ
を有する。ノードは、クロスバースイッチや、その他の
形態の高速相互接続ネットワークを介して相互接続され
る。大型マルチノードシステムの一般的なアーキテクチ
ャの一つでは、各ノードはローカルメモリを含むが、メ
モリは、分散共有メモリ(DSM)として構成される。
DSMでは、メモリがノード間でインタリーブされるこ
とにより、1つのメモリ要求によって、多くのメモリノ
ードに亙って分散されるメモリからデータが移動する場
合がある。すなわち、幾分かのメモリは各ノードに対し
て物理的にローカルであってよいが、多くのノードに亙
って有効に分散される。DSMによって、メモリの物理
的な位置に関りなくメモリアクセス時間が比較的一貫す
ることにより、プログラミングが容易になる。他のメモ
リ構成は、キャッシュコヒーレント・ノンユニフォーム
メモリアクセス(CC−NUMA)である。CC−NU
MA機では、各ノードはいくつかのローカルメモリ(ロ
ーカルアクセスは高速である)を有するが、リモートメ
モリアクセスはローカルメモリアクセスより時間がかか
る可能性がある。また、ハイブリッドアーキテクチャも
提案されている。
【0004】
【発明が解決しようとする課題】大型マルチノードシス
テムでは、各ノードは、別個のローカルI/Oバスを含
む場合があり、あるいは、I/Oは、専用のノードとし
てノードの外部で実現される場合がある。いずれの構成
においても、少なくとも幾分かのI/O読出しデータ
が、消費しているプロセッサに対して遠くにあるメモリ
のI/Oバッファに配置される可能性がある。I/Oが
各ノードにおいてローカルに実現される場合、リモート
ノードに取付けられるI/Oデバイスに対し、第1のノ
ードのプロセッサからのI/O読出し要求により、I/
Oデータは遠いノードのメモリのI/Oバッファに配置
される(またはDSMの場合はノードに亙って分散され
る)結果となる。I/Oが専用ノードとして実現される
場合、I/O読出しデータはいかなるプロセッサに対し
てもローカルでなくなる可能性がある。その結果、取り
込まれたI/Oデータを読出すために必要な待ち時間
は、長く、かつ一貫しない傾向にある。
【0005】大型マルチプロセッサシステムにおいてI
/O待ち時間を低減する必要がある。
【0006】
【課題を解決するための手段】マルチノードシステムに
おけるノードは、共有キャッシュメモリを含む。I/O
データは、共有キャッシュに直接キャッシュされる。そ
の結果、I/Oデータに対するプロセッサ読出し命令
は、メモリトランザクションの待ち時間を必要としな
い。ノード間のI/O通信は、別個のI/Oスイッチか
または高速相互接続ネットワークによって行われる。
【0007】
【発明の実施の形態】I/O読出しデータに対する待ち
時間全体には、2つの部分がある。第1の部分は、デー
タをメモリバッファに配置するために必要な時間であ
る。第2の部分は、プロセッサがメモリバッファからデ
ータを取り込むために必要な時間である。図1および図
2は、待ち時間の第2の部分がキャッシュデータの待ち
時間にまで低減され、待ち時間の第2の部分を一定にす
る構成を示す。しかしながら、図1および図2に示すよ
うに構成されたシステムにおいて、待ち時間の第1の部
分(I/O読出しデータをキャッシュに入れる)はまだ
長くかつ変化しうる。パフォーマンスを向上させるため
に、I/O読出しデータをキャッシュに入れることに関
する待ち時間も改善されなければならない。従って、図
3は、待ち時間の両方の部分を低減することにより、I
/O読出しデータに対する待ち時間全体を更に改善する
システムを示す。
【0008】図1において、ノード100は、複数のプ
ロセッサ102を含む。キャッシュメモリ104は、複
数のプロセッサ102のうちの少なくともいくつかによ
って共有される。ノードコントローラ106は、ノード
間相互接続112に対するインタフェースである。ま
た、ノード100は、ローカルI/Oポート108とロ
ーカルメモリ110とを含む。ノード間相互接続112
は、ノード100を追加のノード114に接続する。メ
モリ110は、DSMとして構成することができる。本
発明の明細書では、説明上DSMを想定するが、CC−
NUMA等の他のメモリ構成もまた使用することができ
る。ノード間相互接続112は、クロスバースイッチで
あっても、または高速ネットワークであってもよい。
【0009】図1と同様に構成された従来のシステムで
は、プロセッサ102のうちの1つがI/Oポート10
8に接続されたI/Oデバイスからデータを要求する場
合、I/Oデータはメモリ110に格納される(I/O
バッファはメモリ110の一部となる)。メモリがDS
Mとして構成される場合、I/Oデータは、多くのノー
ドに亙ってインタリーブされるメモリに格納されること
になる。メモリがCC−NUMAとして構成される場
合、データは他のノードに格納される場合がある。その
結果、従来のシステムでは、I/OバッファからのI/
O読出しデータに対する待ち時間は、比較的長くかつ変
化する傾向がある。
【0010】本発明によれば、I/O読出しデータは、
要求しているプロセッサに近接するキャッシュに直接配
置される。データがまたメモリ(ローカルまたはリモー
ト)にも格納されるか否かは、重要ではない。プロセッ
サがデータに対する読出し命令を起動すると、最初にメ
モリ読出しの待ち時間でメモリからの読出しを必要とす
る場合とは対照的に、そのデータはキャッシュの待ち時
間で提供される。本発明によれば、図1のように構成さ
れるシステムでは、プロセッサ102のうちの1つがI
/Oデータを要求する場合、I/Oデータの発生源に関
らず、I/Oデータはローカルキャッシュであるキャッ
シュメモリ104に配置され、メモリ110には配置さ
れてもされなくてもよい。I/Oデータを直接ローカル
キャッシュに配置することにより、待ち時間の第2の部
分が他のいかなるキャッシュデータの待ち時間にまでも
低減され、待ち時間の第2の部分が一定になる。更に、
I/Oデータを直接ローカルキャッシュに配置すること
により、変更されたデータがシステムに亙って移送され
なければならない回数が低減される。
【0011】図2において、ノード200は、複数のプ
ロセッサ202を含む。キャッシュメモリ204は、プ
ロセッサ202によって共有される。ノードコントロー
ラ206は、ノード間相互接続212に対するインタフ
ェースである。図2において、I/Oポート208およ
びメモリ210は、別個のノードとして構成され、ノー
ド間相互接続212によってノード200に接続され
る。また、ノード間相互接続は、ノード200を他のプ
ロセッサクラスタノード214に接続する。図2に示す
構成と同様の従来のシステムでは、プロセッサ202が
I/Oデータを要求する場合、I/Oデータは、比較的
長いアクセス時間で、メモリ210の一部としてのI/
Oバッファに格納される。本発明によれば、図2のよう
に構成されるシステムでは、プロセッサ202のうちの
1つがI/Oデータを要求する場合、そのI/Oデータ
は直接共有キャッシュ204に配置され、メモリ210
には配置されてもされなくてもよい。
【0012】図3は、I/Oデータに対し待ち時間全体
の両方の部分が低減される構成の例を示す。図3では、
ノード300は複数のプロセッサ302を含む。キャッ
シュメモリ304は、プロセッサ302によって共有さ
れる。ノードコントローラ306は、ノード300をノ
ード間相互接続308に接続する。図3では、メモリ3
10は、図1に示すようにノード内でローカルに接続さ
れているように示されているが、本発明の目的からすれ
ば、メモリ310は、図2、または他のあらゆる構成に
おけるように別個のノードとして構成してもよい。ノー
ド間相互接続308は、ノード300を他のノード31
2に接続する。図3に示す構成では、ノード300は、
I/Oスイッチ314を介して他のノードにも接続され
る。I/Oポート(316、318)は、I/Oスイッ
チ314に接続される。I/Oスイッチ314は、メモ
リ310をバイパスして、直接共有キャッシュであるキ
ャッシュメモリ304に連結される。あるいは、I/O
スイッチは、ノードコントローラ306またはノード間
接続308に接続してもよい。
【0013】好ましくは、I/Oスイッチ314はスイ
ッチトI/Oファブリックである。スイッチトI/Oフ
ァブリックの一例は、ファイバチャネル(Fibre Channe
l)(ANSI X3T11)である(例えば、ww
w.fibrechannel.com参照のこと)。
ファイバチャネルは、ファブリックと呼ばれるマトリク
ス相互接続をサポートする。ファイバチャネルファブリ
ックは、装置間の10kmの距離限界で、約1700万
の装置(「ノード」とも呼ばれるが、ファイバチャネル
ノードは、マルチプロセッサコンピュータシステムにお
けるノードとは同じではない)をサポートすることがで
きる。常に、装置を追加または削除することができる。
装置は、接続されると、自動的にログインし、電子マト
リクス装置(スイッチと呼ばれる)とまたはスイッチが
無い場合は他の装置と動作パラメータを交換する。適切
なスイッチトI/Oファブリックの第2の例は、インフ
ィニバンド(Infiniband)である。インフィニバンド
は、未だ開発中であるが、予備的な情報はインフィニバ
ンド・トレード・アソシエーション(www.infi
nibandta.org)から入手可能である。I/
OアダプタがPCIバスに取付けられると、アダプタに
対するおよびアダプタからのすべてのデータは、PCI
バスが配置されているノードを通してルーティングされ
なければならない。対照的に、スイッチトI/Oファブ
リックは、あらゆるノードとあらゆるI/Oアダプタと
の間の直接の高速リンクを可能にする。さらに重要なこ
とには、図3の構成の場合、スイッチトI/Oファブリ
ックは、ローカルキャッシュ304とあらゆるI/Oア
ダプタとの間の直接な高速リンクを可能にする。
【0014】図3の構成に関して、いくつかのことに留
意しなければならない。第1に、I/Oデータは、I/
Oデバイスが実際にどこに配置されているかに関らず、
メモリ310をバイパスする。これにより、大量のデー
タおよびメモリコヒーレンシトラフィックがノード間相
互接続308から取除かれる。第2に、図3において、
I/Oスイッチが、直接、キャッシュメモリ304に接
続されるか、またはノードコントローラ306に接続さ
れるか、またはノード間相互接続308に接続されるか
に関らず、I/Oデータはメモリ310をバイパスす
る。これにより、要求しているプロセッサが最初に利用
可能なデータに対して必要な時間が低減される。最後
に、I/Oデータは、ローカルキャッシュにキャッシュ
される。結果として、システムでは、I/Oデータに対
して待ち時間の両方の部分が低減され、I/Oデータの
待ち時間の第2の部分が一定の待ち時間となり、ノード
間相互接続における輻輳が低減する。オペレーティング
システムに対する変更を必要とすることなくパフォーマ
ンスが改善され、プロセッサに対するメモリの配置にお
けるコンピュータ設計者の自由度が保持される。
【0015】最近の大型コンピュータシステムは、過去
のシステムメモリ全体より大きいオフチップキャッシュ
メモリを有する。従って、I/Oデータがキャッシュか
らクリティカルデータを追出す問題は、大型のキャッシ
ュメモリを使用する大型コンピュータシステムでは低減
される。しかしながら、入出力が集中的に行われる場
合、直接I/O読出しデータをキャッシュすることは、
必要なデータが追出される結果としてキャッシュスラッ
シングがもたらされる、という問題がまだある。1つの
解決法は、I/O読出しデータが共有キャッシュに直接
配置される代りにメモリに配置されるようにするソフト
ウェア制御スイッチを提供する、というものである。集
中的な入出力動作を必要とするソフトウェアは、キャッ
シングをオフにするよう切替えることができる。インフ
ィニバンドは、この効果を達成するために使用すること
ができる登録機能を提供する。インフィニバンドの場
合、ソフトウェアは、I/O要求に制御メッセージを添
付して送信することができ、制御メッセージは戻りデー
タに添付することができる。戻りデータに添付される制
御メッセージは、キャッシュの代りにメモリにデータを
送信するようハードウェアを制御することができる。
【0016】図1乃至図3に示す例示的な構成の各々に
おいて、キャッシュメモリは、複数のプロセッサによっ
て少なくとも部分的に共有される。これは共通の構成で
あるが、共有キャッシュは本発明に対して必要ではな
い。発明の目的のために重要なことは、分散されたかま
たはリモートのI/Oバッファにのみ格納される場合と
は対照的に、I/Oデータがローカルにキャッシュされ
る、ということだけである。
【0017】I/Oデータはローカルキャッシュに配置
されるため、ターゲットメモリアドレスに関連するキャ
ッシュラインのオーナーシップは、システムに組込まれ
ているいかなるコヒーレンシメカニズムをも介して得ら
れる。これらコヒーレンシ要求は、データがキャッシュ
に配置されている間に実行される。このため、要求して
いるプロセッサがデータを消費する時、そのデータは要
求しているプロセッサに対してより近くにあり、オーナ
ーシップはすでに得られている。
【0018】本発明の上述した説明は、例示および説明
の目的で提供された。それは、網羅的であり開示された
正確な形態に本発明を限定するようには意図されておら
ず、上記教示に照らして他の変更および変形が可能であ
ってよい。本実施の形態は、本発明の原理およびその実
際の適用を最もよく説明するために選択され説明される
ことにより、当業者が、考慮される特定の用途に適する
よう種々の実施の形態および種々の変更において本発明
を最もよく利用することができるようにする。添付の特
許請求の範囲は、従来技術によって限定される範囲を除
いて本発明の他の代替的な実施の形態を含むよう解釈さ
れることが意図されている。
【0019】なお、この発明は、例として次の実施態様
を含む。 (1)コンピュータシステムであって、複数のプロセッ
サ(102、202、302)と、該プロセッサのうち
の少なくともいくつかによって共有されるメモリ(11
0、210、310)と、該プロセッサのうちの少なく
ともいくつかによって共有されるキャッシュ(104、
204、304)と、該複数のプロセッサのうちの要求
しているプロセッサに対し入力データを供給する少なく
とも1つの入力/出力システム(108、208、31
4)と、を具備し、前記入力データは、該要求している
プロセッサが最初に該入力データを前記メモリからフェ
ッチさせる必要なく、該入力データが前記キャッシュか
ら該要求しているプロセッサに入手可能であるように、
該キャッシュに直接配置されるコンピュータシステム。
【0020】(2)コンピュータシステムであって、複
数のノード(100、114、200、214、30
0、312)を具備し、各ノードが複数のプロセッサを
有し、該プロセッサのうちの少なくともいくつかによっ
て共有されるメモリを具備し、各ノードがキャッシュを
有し、該キャッシュが該ノードにおいて前記プロセッサ
のうちの少なくともいくつかによって共有され、少なく
とも1つの入力/出力システムを具備し、該入力/出力
システムが、要求しているプロセッサに対して入力デー
タを供給し、該入力データが、該要求しているプロセッ
サが最初に該入力データを前記メモリからフェッチさせ
る必要なく、該入力データが前記キャッシュから該要求
しているプロセッサに入手可能であるように、該要求し
ているプロセッサの前記ノードの前記キャッシュに直接
配置されるコンピュータシステム。
【0021】(3)コンピュータシステムであって、ノ
ード(300)と、該ノードのキャッシュメモリ(30
4)と、を具備し、前記ノードは、ノード間相互接続
(308)により追加のノードに接続され、前記キャッ
シュメモリは、スイッチトファブリック(314)に連
結され、該スイッチトファブリックは、入力/出力ポー
ト(316、318)に連結されるコンピュータシステ
ム。
【0022】(4)上記3に記載のコンピュータシステ
ムにおいて、前記ノードが、複数のプロセッサ(30
2)を更に備えるコンピュータシステム。
【0023】(5)上記4に記載のコンピュータシステ
ムにおいて、前記キャッシュメモリが、前記複数のプロ
セッサのうちの少なくともいくつかによって共有される
コンピュータシステム。
【0024】(6)上記3に記載のコンピュータシステ
ムにおいて、前記スイッチトファブリックからの入力デ
ータが、前記キャッシュメモリにキャッシュされるコン
ピュータシステム。
【0025】(7)上記3に記載のコンピュータシステ
ムにおいて、前記ノードがノードメモリ(310)を更
に備え、前記スイッチトファブリックからの入力データ
が、プロセッサからのデータを読出す命令と共にメモリ
から最初に読出されることなく、前記キャッシュメモリ
に直接キャッシュされるコンピュータシステム。
【0026】(8)上記3に記載のコンピュータシステ
ムにおいて、前記ノード間相互接続に接続されたメモリ
ノードを更に具備し、前記スイッチトファブリックから
の入力データが、該メモリノードを最初に通過すること
なく前記キャッシュメモリに直接キャッシュされるコン
ピュータシステム。
【0027】(9)コンピュータシステムに入力データ
を格納する方法であって、プロセッサにより、入力/出
力システムからの入力データを要求することと、該入力
データを該プロセッサ用のキャッシュに直接格納するこ
とにより、該プロセッサが最初に該入力データをメモリ
からフェッチする必要なく、該入力データが該キャッシ
ュから入手可能であるようにすることと、を含む方法。
【0028】(10)上記9に記載の方法において、前
記プロセッサが複数のプロセッサのうちの1つであり、
前記キャッシュが該複数のプロセッサのうちの少なくと
もいくつかによって共有される方法。
【0029】(11)コンピュータシステムに入力デー
タを格納する方法であって、プロセッサにより、入力/
出力システムからの入力データを要求することと、該入
力データを、最初に該プロセッサ用のメモリに格納する
ことなく、該プロセッサ用のキャッシュに直接格納する
ことと、を含む方法。
【0030】(12)上記11に記載の方法において、
前記プロセッサが複数のプロセッサのうちの1つであ
り、前記キャッシュが該複数のプロセッサのうちの少な
くともいくつかによって共有される方法。
【0031】(13)コンピュータシステムにおいてノ
ードを入力/出力ポートに接続する方法であって、前記
ノードをノード間相互接続により他のノードに接続する
ことと、該ノードのプロセッサをキャッシュメモリに接
続することと、該キャッシュメモリをスイッチトファブ
リックに接続することと、該スイッチトファブリックを
前記入力/出力ポートに接続することと、を含む方法。
【0032】(14)上記13に記載の方法において、
前記スイッチトファブリックからのデータを前記キャッ
シュメモリにキャッシュすることを更に含む方法。
【0033】(15)上記13に記載の方法において、
前記データを含むメモリラインのオーナーシップを取得
するために前記コンピュータシステムのメモリコヒーレ
ンスメカニズムを使用することを更に含む方法。
【0034】(16)上記13に記載の方法において、
前記ノードの前記プロセッサをノードメモリに接続する
ことと、前記スイッチトファブリックからのデータを最
初に前記ノードメモリに渡すことなく前記キャッシュメ
モリに直接キャッシュすることと、を更に含む方法。
【0035】(17)上記13に記載の方法において、
前記ノード間相互接続にメモリノードを接続すること
と、前記スイッチトファブリックからのデータを最初に
前記メモリノードを通過させることなく前記キャッシュ
メモリに直接キャッシュすることと、を更に含む方法。
【0036】(18)上記13に記載の方法において、
前記スイッチトファブリックの登録機能を使用すること
により、前記データが前記キャッシュメモリに直接配置
されるかまたは該キャッシュメモリ以外のメモリに直接
配置されるかを決定することを更に含む方法。
【図面の簡単な説明】
【図1】複数ノードを有するコンピュータシステムの第
1の実施形態のブロック図であり、各ノードが、ローカ
ルメモリを有し、本発明によりI/Oデータが直接キャ
ッシュされるローカルキャッシュを有する。
【図2】複数のノードを有するコンピュータシステムの
第2の実施形態のブロック図であり、メモリが別個のノ
ードとして構成され、各ノードが本発明によりI/Oデ
ータが直接キャッシュされるローカルキャッシュを有す
る。
【図3】複数のノードを有するコンピュータシステムの
第3の実施形態のブロック図であり、少なくとも1つの
ノードが、本発明によりI/Oネットワークに連結され
たキャッシュを有する。
【符号の説明】
100、114、200、214、300、312…ノ
ード 102、202、302…プロセッサ 104、204、304…キャッシュメモリ 108、208…I/Oポート 314…I/Oスイッチ 110、210、310…メモリ

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】コンピュータシステムであって、 複数のプロセッサ(102、202、302)と、 該プロセッサのうちの少なくともいくつかによって共有
    されるメモリ(110、210、310)と、 該プロセッサのうちの少なくともいくつかによって共有
    されるキャッシュ(104、204、304)と、 該複数のプロセッサのうちの要求しているプロセッサに
    対し入力データを供給する少なくとも1つの入力/出力
    システム(108、208、314)と、を具備し、 前記入力データは、該要求しているプロセッサが最初に
    該入力データを前記メモリからフェッチさせる必要な
    く、該入力データが前記キャッシュから該要求している
    プロセッサに入手可能であるように、該キャッシュに直
    接配置されるコンピュータシステム。
JP2001332148A 2000-10-31 2001-10-30 入力/出力読出しデータがプロセッサローカルキャッシュに直接配置されるコンピュータシステム Pending JP2002197047A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US70396100A 2000-10-31 2000-10-31
US09/703961 2000-10-31

Publications (1)

Publication Number Publication Date
JP2002197047A true JP2002197047A (ja) 2002-07-12

Family

ID=24827493

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001332148A Pending JP2002197047A (ja) 2000-10-31 2001-10-30 入力/出力読出しデータがプロセッサローカルキャッシュに直接配置されるコンピュータシステム

Country Status (1)

Country Link
JP (1) JP2002197047A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010211358A (ja) * 2009-03-09 2010-09-24 Nec Corp コンピュータシステム、コンピュータシステムの制御方法、及びプログラム
JP2016197436A (ja) * 2006-05-26 2016-11-24 インテル・コーポレーション ポイントツーポイント相互接続システム上のセキュアな環境初期化命令の実行
CN116340202A (zh) * 2023-03-28 2023-06-27 中科驭数(北京)科技有限公司 数据传输方法、装置、设备及计算机可读存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016197436A (ja) * 2006-05-26 2016-11-24 インテル・コーポレーション ポイントツーポイント相互接続システム上のセキュアな環境初期化命令の実行
JP2010211358A (ja) * 2009-03-09 2010-09-24 Nec Corp コンピュータシステム、コンピュータシステムの制御方法、及びプログラム
US8522060B2 (en) 2009-03-09 2013-08-27 Nec Corporation Computer system, method for controlling the same, and program
CN116340202A (zh) * 2023-03-28 2023-06-27 中科驭数(北京)科技有限公司 数据传输方法、装置、设备及计算机可读存储介质
CN116340202B (zh) * 2023-03-28 2024-03-01 中科驭数(北京)科技有限公司 数据传输方法、装置、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
US6789173B1 (en) Node controller for performing cache coherence control and memory-shared multiprocessor system
US6631448B2 (en) Cache coherence unit for interconnecting multiprocessor nodes having pipelined snoopy protocol
JP3661761B2 (ja) 共用介入サポートを有する不均等メモリ・アクセス(numa)データ処理システム
KR100465583B1 (ko) 판독 요청을 원격 처리 노드에 추론적으로 전송하는 비정형 메모리 액세스 데이터 처리 시스템 및 이 시스템에서의 통신 방법
JP3644587B2 (ja) 共用介入サポートを有する不均等メモリ・アクセス(numa)・データ処理システム
KR100545951B1 (ko) 최적화된 입/출력 애플리케이션을 위한 분산된 판독 및기입 캐싱 구현
US7996625B2 (en) Method and apparatus for reducing memory latency in a cache coherent multi-node architecture
US5706463A (en) Cache coherent computer system that minimizes invalidation and copyback operations
US8131935B2 (en) Virtual barrier synchronization cache
US8095733B2 (en) Virtual barrier synchronization cache castout election
US7788452B2 (en) Method and apparatus for tracking cached addresses for maintaining cache coherency in a computer system having multiple caches
US8799589B2 (en) Forward progress mechanism for stores in the presence of load contention in a system favoring loads
US20020112132A1 (en) Coherence controller for a multiprocessor system, module, and multiprocessor system wtih a multimodule architecture incorporating such a controller
US5900015A (en) System and method for maintaining cache coherency using path directories
US20050228952A1 (en) Cache coherency mechanism
KR100234503B1 (ko) 디렉토리 기반의 캐시 코히어런스 프로토콜을 사용하는 멀티프로세서에서의 무효화 버스 최적화
CN100380346C (zh) 用于使用分布式高速缓存器的方法和设备
US5909697A (en) Reducing cache misses by snarfing writebacks in non-inclusive memory systems
KR20030024895A (ko) 캐시 코히어런트 멀티-프로세서 시스템에서 순서화된입출력 트랜잭션을 파이프라이닝하기 위한 방법 및 장치
KR101072174B1 (ko) 능동적 프리페치들로 향상된 호버 상태를 실시하는 시스템 및 방법
US7159079B2 (en) Multiprocessor system
US6226718B1 (en) Method and system for avoiding livelocks due to stale exclusive/modified directory entries within a non-uniform access system
KR19990085485A (ko) 분산 공유 메모리 시스템에서 미세 통신과 대단위 통신의 병합을 위한 적응형 입도 방법
JP2002197047A (ja) 入力/出力読出しデータがプロセッサローカルキャッシュに直接配置されるコンピュータシステム
JP3409866B2 (ja) 並列計算機