JP2001249911A - データ転送方法及びデータ処理システム - Google Patents
データ転送方法及びデータ処理システムInfo
- Publication number
- JP2001249911A JP2001249911A JP2001025699A JP2001025699A JP2001249911A JP 2001249911 A JP2001249911 A JP 2001249911A JP 2001025699 A JP2001025699 A JP 2001025699A JP 2001025699 A JP2001025699 A JP 2001025699A JP 2001249911 A JP2001249911 A JP 2001249911A
- Authority
- JP
- Japan
- Prior art keywords
- data
- memory
- node
- directory
- processing system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/28—Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
- H04L12/42—Loop networks
- H04L12/427—Loop networks with decentralised control
- H04L12/433—Loop networks with decentralised control with asynchronous transmission, e.g. token ring, register insertion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/1666—Error detection or correction of the data by redundancy in hardware where the redundant component is memory or memory area
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/08—Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
- G06F12/0802—Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
- G06F12/0806—Multiuser, multiprocessor or multiprocessing cache systems
- G06F12/0815—Cache consistency protocols
- G06F12/0817—Cache consistency protocols using directory methods
- G06F12/082—Associative directories
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Memory System Of A Hierarchy Structure (AREA)
- Techniques For Improving Reliability Of Storages (AREA)
- Debugging And Monitoring (AREA)
- Multi Processors (AREA)
Abstract
トリベースのマルチプロセッサ・コンピュータ・システ
ムを得る。 【解決手段】エラーがないかデータを検査し、エラーが
検出されるならば、そのデータの別の有効コピーがシス
テム中にあるかどうかを判定する能力を提供する。デー
タの別の有効コピーが利用可能であるならば、割り込み
を生成することなく、データを、そのデータを要求した
プロセッサ/メモリ制御装置に提供する。
Description
タ・システムの分野に関する。
に、コンピューティング・タスクを実行するために用い
ることができる2個以上のプロセッサを含む。ある特定
のコンピューティング・タスクを一つのプロセッサに実
行させ、その間、他のプロセッサが無関係な処理タスク
を実行することができる。あるいはまた、特定のタスク
の構成部を多数のプロセッサの間で分散させて、コンピ
ューティング・タスクを実行するのに要する時間を減ら
すこともできる。概して、プロセッサとは、1個以上の
オペランドに対して演算を実行して結果を出すように構
成された装置である。演算は、プロセッサによって実行
される命令に応答して実行される。
キャッシュを有するマルチプロセッサ・コンピュータ・
システムは、汎用性で強力なコンピューティング環境を
提供する。単一アドレスベースとコヒーレント・キャッ
シュとがいっしょになって、データ分割および動的ロー
ド平衡化の問題を緩和する。単一アドレスベースおよび
コヒーレント・キャッシュはまた、コンパイラ、標準オ
ペレーティング・システムおよび多重プログラミングを
並列化するためのよりよいサポートを提供し、それによ
り、より汎用性で効果的な機械の利用を可能にする。
一つの構造は、分散メモリ・アーキテクチャである。分
散メモリ・アーキテクチャは通常、それぞれが1個以上
のプロセッサおよびメモリを有する多数のノードを含
む。ノードは、ノード間の通信を可能にするネットワー
クに結合されている。全体としてとらえると、全ノード
の合わせたメモリが、各ノードがアクセスすることがで
きる「共用メモリ」を形成している。通常、ディレクト
リを使用して、どのノードが特定のアドレスに対応する
データのコピーを有するかを識別する。データのコヒー
レンシーは、ディレクトリを審査してデータの状態を判
定することによって維持される。
ャッシュ・コヒーレンシー・アーキテクチャは、たとえ
ば、CC−NUMA(キャッシュ・コヒーレント不均一
メモリ・アクセス)およびCOMA(キャッシュ専用メ
モリ・アーキテクチャ)を含む。CC−NUMAおよび
COMAの両アーキテクチャは、分散メモリ、スケーラ
ブル相互接続ネットワークおよびディレクトリベースの
キャッシュ・コヒーレンスを有している。分散メモリお
よびスケーラブル相互接続ネットワークは、必要なスケ
ーラブル・メモリ帯域幅を提供し、ディレクトリベース
の方式は、キャッシュ・コヒーレンスを提供する。CC
−NUMAアーキテクチャとは対照的に、COMAアー
キテクチャは、ノードごとのメイン・メモリを、アトラ
クション・メモリ(AM)とも呼ばれる大きな二次また
は三次キャッシュに変換する。変換は、メイン・メモリ
中のデータのキャッシュライン・サイズ区分にタグを付
加することによって実施される。その結果、システム中
のデータ項目の場所がデータ項目の物理アドレスと切り
離され、そのデータ項目は、メモリ参照パターンに依存
して、メイン・メモリ中で自動的に移送または複製され
る。
キテクチャでは、データが破損し、メモリのエラーを生
じさせるおそれがある。そのようなエラーは、電子的記
憶装置としてのメモリが、元々記憶されていたものとは
異なる情報を戻すことがあるために生じる。一般に、メ
モリ・システム中では通常、2種類のエラー―反復性
(ハード)エラーおよび一過性(ソフト)エラー―が生
じる。ハード・エラーは、ハードウェア障害の結果であ
ることが多く、一貫性かつ反復性であるため、診断し、
訂正することは比較的やさしい。ソフト・エラーは、ビ
ットが一度は誤った値を読み出すが、その後は正しく機
能するときに生じる。
リ・エラー検出または訂正プロトコルを使用することで
ある。一部のプロトコルは、8ビットのデータ・バイト
の1ビットでしかエラーを検出することができないが、
他のものは、2個以上のビットでエラーを自動的に検出
することができる。他のプロトコルは、単一および/ま
たは多ビット・メモリ障害を検出し、訂正することがで
きる。
ィ、エラー訂正符号(ECC)などを含む。パリティお
よびエラー訂正符号(ECC)を使用して、中央処理装
置(CPU)と、メモリ、プログラム入出力(PIO)
装置などとの間で転送されるデータの信頼性を立証する
ことは当該技術で周知である。さらには、ECCは、メ
モリ中の特定のデータ・エラーから回復するために使用
される。
がメモリに書き込まれるたび、パリティ生成/検査機構
と呼ばれる論理回路がそのバイトを審査し、データ・バ
イトが偶数個の1を有するのか、奇数個の1を有するの
かを判定する。偶数個の1を有するならば、9番目の
(パリティ)ビットが1にセットされ、そうでなけれ
ば、0にセットされる。このように、元の8個のデータ
・ビット中で何個のビットが1にセットされていよう
と、9個のビットがいっしょになって奇数個の1を構成
する。この機構は奇数パリティと呼ばれている。データ
がメモリから読み出されるとき、パリティ回路はエラー
検査機構として働く。この機構は、9ビットすべてを読
み出し、奇数個の1があるのか、偶数個の1があるのか
を再び判定する。偶数個の1があるならば、おそらくは
ビットの1個にエラーがある。パリティ・エラーが検出
されると、パリティ回路は割り込みを生成し、この割り
込みが、プロセッサに停止を命令して、誤ったメモリが
実行中または実行可能なプロセスを崩壊させないように
する。
提供するが、メモリ・エラーを訂正しない。さらには、
パリティ検査は、エラーの存在を判定するだけで、エラ
ーを訂正することはない。ECCは、単ビットおよび多
ビットの両エラーを検出するだけでなく、単ビットまた
は多ビットのエラーを訂正することもできる。ECC
は、特殊なアルゴリズムを使用して、情報を、保護され
たデータにおける単ビットまたは多ビットのエラーの回
復を可能にするのに十分な詳細を含むビット・ブロック
に符号化する。単ビットまたは多ビットのエラーの訂正
は、使用されるECCアルゴリズムに依存する。ECC
は、訂正不可能なエラーを検出すると、システムにシャ
ットダウンを命令してデータ破損を回避させる割り込み
を生成する。
正機構に伴う一つの問題は、システム割り込みの頻度が
望まれるよりも高いことである。割り込みは、障害の性
質およびシステムのソフトウェア能力に依存して、シス
テムまたはプロセッサのリセットを生じさせるおそれが
ある。割り込みは、それによって生じるシステム休止時
間、データ損失および生産性損失のため、望ましいもの
ではない。
しながらエラーを検出するための構造および技術の必要
性が残る。システムは、単ビットまたは多ビットのエラ
ーを検出することができ、なおもシステム割り込みを回
避するべきである。
がないかデータを検査し、エラーが検出されるならば、
そのデータの有効コピーがシステム中で利用可能である
かどうかを判定する方法およびシステムを提供する。
ースのデータ処理システムにおいてデータを転送する方
法が提供される。方法は、要求装置により、要求装置に
対応する局所メモリに含まれるデータにアクセスするス
テップと、データ中にエラー状態が存在するかどうかを
判定するステップと、エラー状態が存在するならば、遠
隔メモリからデータを要求するステップとを含む。一つ
の実施態様では、遠隔メモリからデータを要求するステ
ップは、まずディレクトリにアクセスしてデータの状態
を判定することを含む。状態が、データが遠隔メモリで
利用可能であることを示すならば、要求装置と遠隔メモ
リとを結合する相互接続部に要求を発する。
システムは、第一のプロセッサ、第一のメモリおよびデ
ィレクトリを有する第一のノードと、第二のプロセッサ
および第二のメモリを有する第二のノードと、第一のノ
ードと第二のノードとを結合する相互接続部とを含む。
データ処理システムは、第一のプロセッサにより、第一
のメモリに含まれるデータにアクセスすることと、デー
タ中にエラー状態が存在するかどうかを判定すること
と、エラー状態が存在するならば、第二のメモリからデ
ータを要求することとを含むプロセスを実行するように
設計されている。
モリを有するディレクトリベースのデータ処理システム
が提供される。データ処理システムは、第一のプロセッ
サ、第一のメモリ、第一のメモリ制御装置および第一の
メモリの1個以上のメモリ・ブロックの状態データを含
む第一のディレクトリを少なくとも含む第一のノード
と、第二のプロセッサ、第二のメモリ、第二のメモリ制
御装置および第二のメモリの1個以上のメモリ・ブロッ
クの状態データを含む第二のディレクトリを少なくとも
含む第二のノードと、第一のノードと第二のノードとを
結合する相互接続部とを含む。第一のメモリ制御装置
は、第一のメモリに含まれるデータにアクセスし、デー
タ中にエラー状態が存在するかどうかを判定し、エラー
状態が存在するならば、データの要求を相互接続部に発
するように構成されている。
は、以下の詳細な説明および添付図面を参照することに
よって当業者に明らかになるであろう。
おいてエラーがないかデータを検査し、エラーが検出さ
れるならば、そのデータの有効コピーがシステム中で利
用可能であるかどうかを判定する方法およびシステムを
提供する。データの有効コピーが利用可能であるなら
ば、割り込みを生成することなく、データを、そのデー
タを要求した装置(たとえばプロセッサおよび/または
メモリ制御装置)に提供する。本発明は、有利にも、要
求されたメモリ・ブロックの遠隔コピーが存在しない場
合にだけシステム割り込みを生成することにより、シス
テム利用性を増大させる。
メモリ制御装置)がメモリ読み出し要求を発して、特定
の記憶場所に記憶されたデータが望まれることを示す。
メモリ制御装置は、要求されたメモリ・ブロックの有効
コピーが対応するメモリ中に常駐するかどうかを判定す
る。対応するメモリは、キャッシュ・メモリであっても
よいし、非キャッシュ・メモリ(たとえばメイン・メモ
リ)であってもよい。メモリ・ブロックが常駐し、有効
であるならば、メモリ制御装置は、応答して、要求され
たデータ・ブロックのコピーを要求プロセッサに提供す
る。そうでなければ、メモリ・ブロックの遠隔コピーが
要求される。
を受け取り、必要なエラー検出および訂正ルーチンを実
行することができる。受け取ったメモリ・ブロック内に
回復不可能なエラーがある場合、要求メモリ制御装置
は、そのメモリ・ブロックの遠隔コピーを要求する。一
つの実施態様では、そのとき、対応する要求プロセッサ
は、回復不可能なエラー状態が存在するかどうかの判定
の前に、遠隔メモリ・ブロックを処理し始める。
チャ、たとえばNUMAおよびCOMAを参照するが、
本発明は特定のアーキテクチャに限定されない。特定の
アーキテクチャの参照は例示にすぎない。一般に、本発
明は、いかなるマルチプロセッサ・ディレクトリベース
のシステムにも応用することができる。
般的なマルチプロセッサ・システム10、たとえばNU
MAシステムの略ブロック図である。システム相互接続
12が、それぞれが少なくとも1個のプロセッサ、たと
えばP0〜Piを有する複数のノード14、たとえばノ
ード0〜ノードiを結合している。各プロセッサP0〜
Piは、それに対応して、いかなる数のキャッシュ階層
を含んでもよいキャッシュ・メモリ24を有している。
システム10はさらに、入出力アダプタ18および種々
の入出力装置20を含む。種々のキャッシュ・コヒーレ
ンシー方式(当該技術で公知であるかないかを問わな
い)を使用して、データの最新有効バージョンがプロセ
ッサP0〜Piのいずれによっても使用されることを保
証してもよい。
たノード14のさらなる詳細を提供する。ネットワーク
・インタフェース21が、ノード14を相互接続12に
接続するのに必要な回路を提供する。ノード14はま
た、少なくとも1個のプロセッサ22(図1のプロセッ
サPiに対応)を、一次またはオンボード・キャッシュ
および1個以上のオフチップまたは低レベルのキャッシ
ュを含むことができるキャッシュ24とともに含む。特
定のキャッシュ・アーキテクチャが本発明を限定するこ
とはない。ノード14はさらに、たとえば、NUMAシ
ステムにおけるようなメイン・メモリであってもよい
し、COMAシステムにおけるようなアトラクション・
メモリであってもよいメモリ26を含む。メモリ制御装
置28が、ノード14の通信キャッシュ・コヒーレンシ
ー機能およびエラー検査をサポートする。別個に示す
が、他の実施態様では、メモリ制御装置28とプロセッ
サ22とを、メモリ制御機能およびデータ処理を実行す
るように構成された統合処理装置とみなしてもよい。
って例示されるメモリ・ブロック中に配設されている。
各ノード14は、相互接続12に結合されたノード14
ごとのメモリ26のメモリ・ブロックへのエントリを含
むディレクトリ29を含む。NUMA型アーキテクチャ
の場合、ディレクトリ29は、状態フィールド32およ
びデータ・フィールド34を含む。データ・フィールド
34は、メモリ26内の一意アドレス・ブロック(たと
えばメモリ・ブロック30)に対応する。状態フィール
ド32は、データ・フィールド34中のデータが最新で
あるかどうか、データが、データを要求する特定のノー
ド14中に常駐する(すなわち、局所コピーである)の
か、他のノード14の他の場所に常駐する(すなわち、
遠隔コピーである)のかに関する情報を含む。本明細書
に使用する「遠隔コピー」とは、データを要求するノー
ド以外のノード14のメモリ中に位置するデータをい
う。遠隔データは、データを要求する局所メモリ装置に
アクセス可能であるいかなる形態のメモリ装置中に常駐
することもできる。たとえば、遠隔データは、相互接続
12に接続された別のノード14のプロセッサのキャッ
シュ・メモリまたはメイン・メモリ中に常駐することも
できる。
クトリ29はまた、アドレス・フィールド35を含む。
アドレス・フィールド35は、いかなるときでも多数の
データ・ピースを特定のメモリ・ブロック30にマッピ
ングすることができるアーキテクチャのために設けられ
ている。その結果、データの場所を追跡するために、デ
ィレクトリ29中にアドレス・フィールド35を維持す
ることが必要である。
態」は、MESIプロトコルによって判定することがで
きる。MESIプロトコル中のキャッシュ・データ・ブ
ロックは、4種の状態―「M」(変更)、「E」(独
占)、「S」(共用)または「I」(無効)―のいずれ
かである。MESIプロトコルの下では、各キャッシュ
・エントリ(たとえば32バイトのセクタ)は、エント
リの状態を4種の可能な状態のうちから示す2個の追加
ビットを有している。状態は、エントリの初期状態およ
び要求プロセッサによって求められるアクセスのタイプ
に依存して変化することができ、要求プロセッサのキャ
ッシュのエントリごとに特定の状態がセットされる。た
とえば、セクタが「変更」状態にあるとき、アドレス指
定されたセクタは、変更されたセクタを有するキャッシ
ュ中でのみ有効であり、変更された値は、システム・メ
モリに書き戻されてはいない。セクタが「独占」である
とき、そのセクタは、記されたセクタだけに存在し、シ
ステム・メモリとで整合している。セクタが「共用」で
あるならば、そのセクタは、そのキャッシュおよび少な
くとも一つの他のキャッシュで有効であり、共用セクタ
のすべてがシステム・メモリとで整合している。最後
に、セクタが「無効」であるとき、そのセクタは、アド
レス指定されたセクタがキャッシュ中に常駐しないこと
を示す。セクタが「変更」状態、「共用」状態または
「無効」状態のいずれかにあるならば、そのセクタは、
特定のバス・トランザクションに依存して状態間を移動
することができる。「独占」状態にあるセクタは他のど
の状態に移ることもできるが、セクタは、それが最初に
「無効」であるならば、「独占」になることしかできな
い。MESIプロトコルは周知であるが、米国特許第
5,946,709号明細書を参照することにより、さ
らに理解を深めることができる。さらには、本発明は、
具体的なプロトコルに特定的ではなく、MESIは、利
用することができる一つのプロトコルを例示するだけで
ある。
ス300を示す流れ図である。ステップ302でプロセ
ス300が始まり、対象のプロセッサ22がメモリ要求
(すなわち、読み出しまたは取り出し)命令を発する。
ステップ306で、メモリ制御装置28が、メモリ26
中の各メモリ・ブロック30の状態を追跡するために使
用されるディレクトリ29にアクセスし、審査する。ス
テップ308で、メモリ制御装置が、要求されたデータ
が局所的に有効であるかどうかを判定する。すなわち、
局所データ(すなわち、要求プロセッサに対応するメモ
リに含まれるデータ)が有効であるかどうかの判定を下
す。「有効」とは、データが異なるノード14上の別の
プロセッサによって変更されていないことをいう。要求
されたデータが局所的に有効であり、利用可能であるな
らば、方法はステップ312に進み、局所データにアク
セスする。
用可能でないならば、プロセスはステップ310に進
む。ステップ310で、遠隔取り出し要求をメモリ制御
装置28によって発して、データの遠隔コピーを取得す
る。ステップ314で、方法300は、データが受け取
られたかどうかを問い合わせる。プロセス300は、遠
隔データが受け取られるまでステップ314をループし
続ける。ひとたびステップ314で遠隔データが受け取
られると、方法300は、論理ライン328に沿って進
み、ステップ320で、データがプロセッサ220に送
られることを示す。この処理はステップ324で完了す
る。
を受け取ったのち、ステップ316で局所メモリ・ディ
レクトリを更新する(データをメイン・メモリまたはア
トラクション・メモリに書き込んでもよい)。そして、
プロセス300はステップ318で完了する。すると、
その後は、同じメモリ制御装置/プロセッサによるデー
タの要求は、局所的にデータにアクセスすることができ
る(ステップ312)。
隔コピーをプロセッサに送ったのち、エラー検査を実行
してもよい。したがって、ステップ314でデータが受
け取られたと判定されるならば、ステップ320でデー
タをプロセッサに送り、プロセッサが処理を始め、方法
300が継続する。パリティ検査機構が、受け取られた
データにパリティ・エラーがあると判定するならば、デ
ータ訂正アルゴリズムを実行することができる。受け取
ったデータにエラーがないならば、データはプロセッサ
中の実行ユニットに転送される。したがって、メモリ制
御装置によって提供されて受け取られたデータは有効で
あると判定され、そのデータは、公知のシステムのメモ
リ制御装置中で起こるパリティおよびECC処理に通常
伴う待ち時間を被らずに、実行ユニットに転送される。
行したならば、ステップ322でエラー判定を実施す
る。エラー状態が存在しない(または、従来の手段、た
とえばECCによって訂正可能である)ならば、ステッ
プ320でデータをプロセッサ22に提供し、処理はス
テップ324で完了する。
ることができないエラー状態を含むならば、方法300
はステップ330に進み、データの遠隔コピーが利用可
能であるかどうかを問い合わせる。たとえばMESIプ
ロトコルを使用する実施態様ならば、方法300は、デ
ータの状態が共有であるかどうかを判定するであろう。
データが遠隔場所で利用可能であるならば、方法300
はステップ310に進み、そこで、取り出し要求を発し
てデータの遠隔コピーを検索する。データが遠隔場所に
常駐しないならば(ステップ330)、ステップ332
で機械チェック割り込みを発し、診断ルーチンなどが実
行される間、データ処理を停止する。したがって、本発
明は、データ・エラーが生じたかどうかを判定し、訂正
不可能なデータ・エラーがある場合、データのコピー
を、利用可能であるならば、どこかよそから取得する。
に説明する、データ・エラー識別のさらなる特徴を含む
ことができる。図4および5それぞれの方法400およ
び500は、図3のブロック334の中で実施すること
ができる。ブロック334は、ひとたび要求されたデー
タが受け取られると、ステップ314から論理ライン3
38に沿って進み、共用状態を有する局所データのエラ
ー状態である場合、ステップ330から論理ライン33
6に沿って進む。一つの実施態様では、方法300は、
論理ライン328から進むステップと並列に、論理ライ
ン336および338に沿って進む。したがって、上述
したように、エラー判定を下す前に、ステップ310で
発された遠隔取り出しから得られたデータを処理するこ
とができる。さらに、方法400および500における
パリティおよびECCの使用は例示にすぎない。本発明
は、パリティ、ECCまたは他の特定の検出機構の使用
を必要とするわけではないことを理解すべきである。デ
ータ・エラーの何らかの表示が必要とされるすべてであ
る。
(ステップ330から)がステップ402に進み、シス
テムが、NUMA型または他のシステムではなく、CO
MA型システムであるかどうかを問い合わせる。システ
ムがCOMA型であるならば、ステップ404で、メモ
リ・ブロックを、局所プロセッサにとって使用不能また
は無効としてマークする。ステップ404は、データを
動的に割り当てし直すことができるハードウェアを有す
るキャッシュ専用システムで実施してもよい任意のステ
ップである。ステップ404は、より高速のハードウェ
ア部品が無効データをモニタするための機構を提供す
る。いずれの場合でも、方法はステップ406に進み、
そこでシステムが、障害のあるFRU(フィールド交換
可能ユニット)を判定するためにサービス・プロセッサ
が使用することができるよう、エラーを記録する。シス
テムは、たとえばどのビットが故障したのかを知ること
により、故障カードまたはDIMMを判定することがで
きる。一つの実施態様では、故障ビットは、障害のある
局所データ(全データ・ビットおよびパリティもしくは
ECCビット)を、ステップ310で任意の経路338
を介して遠隔取り出し要求から受け取った正常なデータ
とで比較することによって判定される。遠隔取り出しか
らのおそらくは正常なデータにマッチさせることができ
ない局所データに含まれるビットは、故障ビットと見な
される。訂正不可能なエラー(UE)による故障ビット
は通常、認知されない。したがって、公知のシステムは
通常、データが多数のカードまたはメモリ・モジュール
に分散している場合、故障カード/メモリ・モジュール
を隔離することはできない。
ータが記録されると、ステップ408で、オペレーティ
ング・システムは、オペレーティング・システムがその
エラーを処理するよう通知される。たとえば、オペレー
ティング・システムは、致命的なエラーが起こる前に、
メモリの故障区域にアクセスする現在のタスクを終わら
せることができるかもしれない。
を提供する。ステップ502で、要求ノードが、ステッ
プ312でアクセスされたどのビットが不良であるのか
を具体的に判定する。一つの実施態様では、ステップ5
02は、図4のステップ406に関して上述した方法で
達成される。すなわち、プロセッサ/メモリ制御装置
が、ステップ312で受け取った障害のある局所データ
(全データ・ビットおよびエラー検出ビット、たとえば
パリティもしくはECCビット)を、ステップ310で
遠隔取り出し要求から受け取った正常なデータとで比較
する。遠隔取り出しからのおそらくは正常なデータにマ
ッチさせることができない局所データに含まれるビット
は、故障ビットと見なされる。ステップ504で、メモ
リ制御装置は、不良データを有していたアドレスに、ス
テップ310の遠隔取り出しから得られたおそらくは正
常なデータを書き込む。次にステップ506で、メモリ
制御装置は、書き込まれたばかりのアドレスから読み出
しを行い、ステップ508で、エラー検出を実行する。
エラーが検出されないならば、方法はステップ510に
進み、エラーが訂正されているという指示を出し、ステ
ップ512で、訂正可能なエラーが生じたことを記録す
る。
メモリ制御装置は、ステップ514で、そのエラーが訂
正不可能であるかどうかを判定する。訂正不可能なエラ
ーは、データに含まれるエラーが変化していないか、悪
化していることを示す。エラーが訂正不可能であるなら
ば、プロセスは、図4に関して記載したように継続す
る。したがって、ステップ402で、システムがCOM
A型システムであるかどうかを判定し、そうであるなら
ば、ステップ404でメモリ・ブロックをマークする。
システム・アーキテクチャにかかわらず、方法500
は、ステップ406でエラー・データを記録し、ステッ
プ408でオペレーティング・システムに通知し、ステ
ップ410で処理を完了する。
故障ビットの少なくとも一部がステップ502〜506
によって訂正されており、ステップ508で検出された
残りの故障ビットが、メモリ制御装置の訂正機構によっ
て訂正可能であるビットの数に等しいか、それ未満であ
ることを示す。したがって、残りの故障ビットを訂正し
たのち、方法500から抜けることができる。
法500は、ステップ508での故障ビットのいずれか
の部分がハード・エラーによるかどうか、すなわち、同
じビットが繰り返し障害を起こすかどうかを判定する。
ステップ516で、方法500は、どのビットが不良で
あるかを判定する。すなわち、ステップ506から受け
取ったデータを、ステップ310で発された遠隔データ
取り出しから受け取ったデータとで比較する。遠隔デー
タに含まれない、ステップ506から受け取ったデータ
に含まれるビットは、おそらくは不良ビットである。
6で判定された不良データ・ビットのいずれかが元の不
良データ・ビット、すなわち、ステップ502で判定さ
れた不良ビットのいずれかにマッチするかどうか比較を
実施する。故障ビットがマッチしないならば、ステップ
508での故障ビットの1個以上がステップ322での
故障ビットとは異なり、ソフト・エラーが生じたことが
示唆される。そして、方法500はステップ512に進
んで、訂正可能なエラーが起こったことを記録する。
するならば、ステップ520で、障害がハード・エラー
であることを記す。すなわち、障害は、ステップ322
での初期エラー状態以来、繰り返し故障するビットにお
けるエラーによるものであり、ステップ502〜504
によって訂正されなかった。ステップ522によって示
す一つの実施態様では、次にメモリ制御装置がステア操
作(システムでサポートされているならば)を実行し
て、故障ビットをハード・エラーで置き換える。ステア
リングは、選択された冗長データ・ビットを使用して、
記憶動作中に検出された故障データ・ビットを置き換え
る。ビットをステアリングしたのち、ステア・クリーン
アップ処理を実行する。ステア・クリーンアップは、元
のデータ・ビットを使用してデータを取り出し、ECC
を使用してデータを訂正したのち、冗長データ・ビット
を使用して、訂正したデータを同じアドレスに書き戻
す。したがって、ステア操作は、ハード故障ビットによ
るその後のエラーの危険性を減らす。ステア操作が好ま
しいが、本発明は、後続のエラーの危険性を緩和するた
めの他の訂正機構の使用をも考慮する。そして、方法5
00はステップ512に進み、そこで訂正可能なエラー
の発生が記録される。
るが、本発明の基本的範囲を逸することなく、本発明の
他の実施態様を考案することができる。本発明の範囲
は、請求の範囲によって決定される。
の事項を開示する。 (1)ディレクトリベースのデータ処理システムにおけ
るデータを転送する方法であって、 a)要求装置により、前記要求装置に対応する局所メモ
リに含まれるデータにアクセスするステップと、 b)前記データ中にエラー状態が存在するかどうかを判
定するステップと、 c)エラー状態が存在するならば、ディレクトリにアク
セスして、遠隔メモリ中に前記データが利用可能である
かどうかを判定するステップと、 d)前記データが前記遠隔メモリで利用可能であるなら
ば、前記遠隔メモリからデータを要求するステップと、
を含む方法。 (2)e)前記遠隔メモリからデータを受け取るステッ
プと、 f)前記データを前記要求装置に供給するステップと、
をさらに含む、上記(1)記載の方法。 (3)ステップd)が、前記要求装置と前記遠隔メモリ
とを結合する相互接続部に要求を発することを含む、上
記(1)記載の方法。 (4)ステップb)がエラー状態が存在しないと判定す
るならば、前記データを前記要求装置に提供するステッ
プをさらに含む、上記(1)記載の方法。 (5)前記要求装置が、メモリ制御装置、プロセッサお
よびそれらの組み合わせから選択されるいずれか一つで
ある、上記(1)記載の方法。 (6)前記遠隔メモリから受け取った前記データで前記
局所メモリを更新するステップをさらに含む、上記
(1)記載の方法。 (7)エラー状態が存在すると判定したのち、データ・
エラーを記録するステップをさらに含む、上記(1)記
載の方法。 (8)ステップa)の前に前記データの状態を判定する
ステップをさらに含む、上記(1)記載の方法。 (9)前記データの状態の判定が、前記ディレクトリに
アクセスすることを含む、上記(8)記載の方法。 (10)ステップc)が、前記データの状態を判定する
ことを含む、上記(1)記載の方法。 (11)前記データの状態を判定するステップが、前記
データが共用状態にあるかどうかを判定することを含
む、上記(10)記載の方法。 (12)e)前記データを含む前記局所メモリのアドレ
スに位置する1個以上の故障ビットを識別するステップ
と、 f)前記アドレスにある1個以上のビットを前記遠隔メ
モリからの1個以上のビットで上書きするステップと、 g)前記アドレスから読み出すステップと、をさらに含
む、上記(1)記載の方法。 (13)h)ステップg)で読み出した前記データに含
まれる1個以上の故障ビットを識別するステップと、 i)ステップh)で識別した前記1個以上の故障ビット
のいずれかが、ステップe)で識別した前記1個以上の
故障ビットにマッチするかどうかを判定するステップ
と、をさらに含む、上記(12)記載の方法。 (14)ステップe)およびh)が、前記局所メモリに
含まれるデータを前記遠隔メモリから受け取った前記デ
ータとで比較することを含む、上記(13)記載の方
法。 (15)h)前記局所メモリのアドレスに位置する前記
データを前記遠隔メモリからのデータで上書きするステ
ップと、 i)前記アドレスから読み出すステップと、 j)ステップi)で前記アドレスから読み出したデータ
中にエラー状態が存在するかどうかを判定するステップ
と、 k)ステップj)でエラー状態が存在するならば、ステ
ップb)で前記データに含まれていた1個以上の故障ビ
ットがステップi)で前記データに含まれていた1個以
上の故障ビットにマッチするかどうかを判定するステッ
プと、をさらに含む、上記(12)記載の方法。 (16)エラー・データを記録するステップをさらに含
む、上記(15)記載の方法。 (17)第一の処理装置、第一のメモリおよびディレク
トリを有する第一のノードと、第二の処理装置および第
二のメモリを有する第二のノードと、前記第一のノード
と前記第二のノードとを結合する相互接続とを含むデー
タ処理システムであって、前記第一の処理装置が、 a)前記第一のメモリに含まれるデータにアクセスする
ステップと、 b)前記データ中にエラー状態が存在するかどうかを判
定するステップと、 c)エラー状態が存在するならば、前記ディレクトリに
アクセスして、前記データが前記システム上の別の場所
に常駐するかどうかを判定するステップと、を実行する
ように構成されているデータ処理システム。 (18)前記第一の処理装置が、ステップa)〜c)を
実行するように構成されたメモリ制御装置を含む、上記
(17)記載のデータ処理システム。 (19)前記第一のノードおよび前記第二のノードが、
NUMA(不均一メモリ・アクセス)アーキテクチャお
よびCOMA(キャッシュ専用メモリ・アーキテクチ
ャ)から選択されるいずれか一つのアーキテクチャの構
成部分である、上記(17)記載のデータ処理システ
ム。 (20)前記第一の処理装置が、ステップc)で前記デ
ータの状態を判定するように構成されている、上記(1
7)記載のデータ処理システム。 (21)前記第一の処理装置が、ステップa)の前に前
記ディレクトリにアクセスして、前記データが前記第一
のメモリ中に位置するかどうかを判定するように構成さ
れている、上記(17)記載のデータ処理システム。 (22)前記第一の処理装置がプロセッサおよびメモリ
制御装置を含み、前記メモリ制御装置が、ステップa)
〜c)を実行するように構成され、さらに、 d)エラー状態が存在しないならば、前記データを前記
プロセッサに提供するステップを実行するように構成さ
れている、上記(17)記載のデータ処理システム。 (23)前記第一のノードおよび前記相互接続部の少な
くとも一つが、 d)前記システム上の別の場所に前記データが常駐する
ならば、前記第二のノードから前記データを要求するス
テップをさらに実行するように構成されている、上記
(17)記載のデータ処理システム。 (24)前記第一のノードおよび前記相互接続部の少な
くとも一つが、 e)前記データを受け取るステップと、 f)前記第二のノードから受け取ったデータで前記第一
のメモリを更新するステップと、をさらに実行するよう
に構成されている、上記(23)記載のデータ処理シス
テム。 (25)前記第一の処理装置が、ステップa〜c)を実
行するように構成され、さらに、第一のメモリでアクセ
スされた前記データを、前記第二のノードから受け取っ
たデータとで比較して、前記第一のメモリから要求され
た前記データの1個以上の故障ビットを判定するように
設計されているメモリ制御装置を含む、上記(24)記
載のデータ処理システム。 (26)前記第一のノードおよび前記相互接続部の少な
くとも一つが、 e)前記第二のノードから前記データを受け取るステッ
プと、 f)前記第二のノードから受け取った前記データを前記
第一の処理装置に供給するステップと、 g)前記第二のノードから受け取った前記データで前記
第一のメモリを更新するステップと、 h)ステップb)でエラー状態が存在しないならば、ス
テップh)における前記データを前記第一の処理装置に
提供するステップと、をさらに実行するように構成され
ている、上記(23)記載のデータ処理システム。 (27)前記第一の処理装置が、ステップa)の前に前
記ディレクトリにアクセスして、前記データが前記第一
のメモリ中に位置するかどうかを判定するように構成さ
れている、上記(26)記載のデータ処理システム。 (28)分散共用メモリを有するディレクトリベースの
データ処理システムであって、 a)第一のプロセッサ、第一のメモリ、第一のメモリ制
御装置および前記第一のメモリの1個以上のメモリ・ブ
ロックの状態データを含む第一のディレクトリを少なく
とも含む第一のノードと、 b)第二のプロセッサ、第二のメモリ、第二のメモリ制
御装置および前記第二のメモリの1個以上のメモリ・ブ
ロックの状態データを含む第二のディレクトリを少なく
とも含む第二のノードと、 c)前記第一のノードと前記第二のノードとを結合する
相互接続部と、を含み、前記第一のメモリ制御装置が、
前記第一のメモリに含まれるデータにアクセスし、前記
データ中にエラー状態が存在するかどうかを判定し、エ
ラー状態が存在するならば、前記データの要求を前記相
互接続部に発するように構成されているディレクトリベ
ースのデータ処理システム。 (29)前記第一のプロセッサおよび前記第二のプロセ
ッサが、NUMA(不均一メモリ・アクセス)アーキテ
クチャおよびCOMA(キャッシュ専用メモリ・アーキ
テクチャ)から選択されるいずれか一つのアーキテクチ
ャの構成部分である、上記(28)記載のディレクトリ
ベースのデータ処理システム。 (30)前記第一のメモリ制御装置が、前記データにア
クセスする前に、前記第一のディレクトリにアクセスし
て、前記第一のメモリに含まれる前記データの状態を判
定するように設計されている、上記(28)記載のディ
レクトリベースのデータ処理システム。 (31)前記第一のメモリ制御装置が、前記要求を前記
相互接続部に発する前に、前記ディレクトリにアクセス
して、前記第一のノードが前記データの有効コピーを含
むかどうかを判定するように設計されている、上記(2
8)記載のディレクトリベースのデータ処理システム。 (32)エラー状態が存在するならば、前記第一のノー
ド、前記第二のノードおよび前記相互接続部の一つ以上
が、前記データが前記第二のノードに含まれるかどうか
を判定し、含まれるならば、前記データを前記第一のノ
ードに提供するように構成されている、上記(28)記
載のディレクトリベースのデータ処理システム。 (33)前記第一のメモリ制御装置がさらに、前記エラ
ー状態が訂正不可能なエラーであるのか、訂正可能なエ
ラーであるのかを判定するように構成されている、上記
(28)記載のディレクトリベースのデータ処理システ
ム。 (34)前記第一のメモリ制御装置がさらに、前記第一
のメモリに含まれる前記データのどのビットがデータ・
エラーを含むのかを識別するように構成されている、上
記(28)記載のディレクトリベースのデータ処理シス
テム。 (35)前記第一のメモリ制御装置がさらに、前記第一
のメモリに含まれる前記データを、前記相互接続に発さ
れた前記要求に応答して受け取ったデータとで比較する
ように構成されている、上記(28)記載のディレクト
リベースのデータ処理システム。
サ・システムのブロック図である。
ある。
流れ図である。
Claims (35)
- 【請求項1】ディレクトリベースのデータ処理システム
におけるデータを転送する方法であって、 a)要求装置により、前記要求装置に対応する局所メモ
リに含まれるデータにアクセスするステップと、 b)前記データ中にエラー状態が存在するかどうかを判
定するステップと、 c)エラー状態が存在するならば、ディレクトリにアク
セスして、遠隔メモリ中に前記データが利用可能である
かどうかを判定するステップと、 d)前記データが前記遠隔メモリで利用可能であるなら
ば、前記遠隔メモリからデータを要求するステップと、
を含む方法。 - 【請求項2】e)前記遠隔メモリからデータを受け取る
ステップと、 f)前記データを前記要求装置に供給するステップと、
をさらに含む、請求項1記載の方法。 - 【請求項3】ステップd)が、前記要求装置と前記遠隔
メモリとを結合する相互接続部に要求を発することを含
む、請求項1記載の方法。 - 【請求項4】ステップb)がエラー状態が存在しないと
判定するならば、前記データを前記要求装置に提供する
ステップをさらに含む、請求項1記載の方法。 - 【請求項5】前記要求装置が、メモリ制御装置、プロセ
ッサおよびそれらの組み合わせから選択されるいずれか
一つである、請求項1記載の方法。 - 【請求項6】前記遠隔メモリから受け取った前記データ
で前記局所メモリを更新するステップをさらに含む、請
求項1記載の方法。 - 【請求項7】エラー状態が存在すると判定したのち、デ
ータ・エラーを記録するステップをさらに含む、請求項
1記載の方法。 - 【請求項8】ステップa)の前に前記データの状態を判
定するステップをさらに含む、請求項1記載の方法。 - 【請求項9】前記データの状態の判定が、前記ディレク
トリにアクセスすることを含む、請求項8記載の方法。 - 【請求項10】ステップc)が、前記データの状態を判
定することを含む、請求項1記載の方法。 - 【請求項11】前記データの状態を判定するステップ
が、前記データが共用状態にあるかどうかを判定するこ
とを含む、請求項10記載の方法。 - 【請求項12】e)前記データを含む前記局所メモリの
アドレスに位置する1個以上の故障ビットを識別するス
テップと、 f)前記アドレスにある1個以上のビットを前記遠隔メ
モリからの1個以上のビットで上書きするステップと、 g)前記アドレスから読み出すステップと、をさらに含
む、請求項1記載の方法。 - 【請求項13】h)ステップg)で読み出した前記デー
タに含まれる1個以上の故障ビットを識別するステップ
と、 i)ステップh)で識別した前記1個以上の故障ビット
のいずれかが、ステップe)で識別した前記1個以上の
故障ビットにマッチするかどうかを判定するステップ
と、 をさらに含む、請求項12記載の方法。 - 【請求項14】ステップe)およびh)が、前記局所メ
モリに含まれるデータを前記遠隔メモリから受け取った
前記データとで比較することを含む、請求項13記載の
方法。 - 【請求項15】h)前記局所メモリのアドレスに位置す
る前記データを前記遠隔メモリからのデータで上書きす
るステップと、 i)前記アドレスから読み出すステップと、 j)ステップi)で前記アドレスから読み出したデータ
中にエラー状態が存在するかどうかを判定するステップ
と、 k)ステップj)でエラー状態が存在するならば、ステ
ップb)で前記データに含まれていた1個以上の故障ビ
ットがステップi)で前記データに含まれていた1個以
上の故障ビットにマッチするかどうかを判定するステッ
プと、をさらに含む、請求項12記載の方法。 - 【請求項16】エラー・データを記録するステップをさ
らに含む、請求項15記載の方法。 - 【請求項17】第一の処理装置、第一のメモリおよびデ
ィレクトリを有する第一のノードと、第二の処理装置お
よび第二のメモリを有する第二のノードと、前記第一の
ノードと前記第二のノードとを結合する相互接続とを含
むデータ処理システムであって、 前記第一の処理装置が、 a)前記第一のメモリに含まれるデータにアクセスする
ステップと、 b)前記データ中にエラー状態が存在するかどうかを判
定するステップと、 c)エラー状態が存在するならば、前記ディレクトリに
アクセスして、前記データが前記システム上の別の場所
に常駐するかどうかを判定するステップと、を実行する
ように構成されているデータ処理システム。 - 【請求項18】前記第一の処理装置が、ステップa)〜
c)を実行するように構成されたメモリ制御装置を含
む、請求項17記載のデータ処理システム。 - 【請求項19】前記第一のノードおよび前記第二のノー
ドが、NUMA(不均一メモリ・アクセス)アーキテク
チャおよびCOMA(キャッシュ専用メモリ・アーキテ
クチャ)から選択されるいずれか一つのアーキテクチャ
の構成部分である、請求項17記載のデータ処理システ
ム。 - 【請求項20】前記第一の処理装置が、ステップc)で
前記データの状態を判定するように構成されている、請
求項17記載のデータ処理システム。 - 【請求項21】前記第一の処理装置が、ステップa)の
前に前記ディレクトリにアクセスして、前記データが前
記第一のメモリ中に位置するかどうかを判定するように
構成されている、請求項17記載のデータ処理システ
ム。 - 【請求項22】前記第一の処理装置がプロセッサおよび
メモリ制御装置を含み、前記メモリ制御装置が、ステッ
プa)〜c)を実行するように構成され、さらに、 d)エラー状態が存在しないならば、前記データを前記
プロセッサに提供するステップを実行するように構成さ
れている、請求項17記載のデータ処理システム。 - 【請求項23】前記第一のノードおよび前記相互接続部
の少なくとも一つが、 d)前記システム上の別の場所に前記データが常駐する
ならば、前記第二のノードから前記データを要求するス
テップをさらに実行するように構成されている、請求項
17記載のデータ処理システム。 - 【請求項24】前記第一のノードおよび前記相互接続部
の少なくとも一つが、 e)前記データを受け取るステップと、 f)前記第二のノードから受け取ったデータで前記第一
のメモリを更新するステップと、をさらに実行するよう
に構成されている、請求項23記載のデータ処理システ
ム。 - 【請求項25】前記第一の処理装置が、ステップa〜
c)を実行するように構成され、さらに、第一のメモリ
でアクセスされた前記データを、前記第二のノードから
受け取ったデータとで比較して、前記第一のメモリから
要求された前記データの1個以上の故障ビットを判定す
るように設計されているメモリ制御装置を含む、請求項
24記載のデータ処理システム。 - 【請求項26】前記第一のノードおよび前記相互接続部
の少なくとも一つが、 e)前記第二のノードから前記データを受け取るステッ
プと、 f)前記第二のノードから受け取った前記データを前記
第一の処理装置に供給するステップと、 g)前記第二のノードから受け取った前記データで前記
第一のメモリを更新するステップと、 h)ステップb)でエラー状態が存在しないならば、ス
テップh)における前記データを前記第一の処理装置に
提供するステップと、をさらに実行するように構成され
ている、請求項23記載のデータ処理システム。 - 【請求項27】前記第一の処理装置が、ステップa)の
前に前記ディレクトリにアクセスして、前記データが前
記第一のメモリ中に位置するかどうかを判定するように
構成されている、請求項26記載のデータ処理システ
ム。 - 【請求項28】分散共用メモリを有するディレクトリベ
ースのデータ処理システムであって、 a)第一のプロセッサ、第一のメモリ、第一のメモリ制
御装置および前記第一のメモリの1個以上のメモリ・ブ
ロックの状態データを含む第一のディレクトリを少なく
とも含む第一のノードと、 b)第二のプロセッサ、第二のメモリ、第二のメモリ制
御装置および前記第二のメモリの1個以上のメモリ・ブ
ロックの状態データを含む第二のディレクトリを少なく
とも含む第二のノードと、 c)前記第一のノードと前記第二のノードとを結合する
相互接続部と、を含み、前記第一のメモリ制御装置が、
前記第一のメモリに含まれるデータにアクセスし、前記
データ中にエラー状態が存在するかどうかを判定し、エ
ラー状態が存在するならば、前記データの要求を前記相
互接続部に発するように構成されているディレクトリベ
ースのデータ処理システム。 - 【請求項29】前記第一のプロセッサおよび前記第二の
プロセッサが、NUMA(不均一メモリ・アクセス)ア
ーキテクチャおよびCOMA(キャッシュ専用メモリ・
アーキテクチャ)から選択されるいずれか一つのアーキ
テクチャの構成部分である、請求項28記載のディレク
トリベースのデータ処理システム。 - 【請求項30】前記第一のメモリ制御装置が、前記デー
タにアクセスする前に、前記第一のディレクトリにアク
セスして、前記第一のメモリに含まれる前記データの状
態を判定するように設計されている、請求項28記載の
ディレクトリベースのデータ処理システム。 - 【請求項31】前記第一のメモリ制御装置が、前記要求
を前記相互接続部に発する前に、前記ディレクトリにア
クセスして、前記第一のノードが前記データの有効コピ
ーを含むかどうかを判定するように設計されている、請
求項28記載のディレクトリベースのデータ処理システ
ム。 - 【請求項32】エラー状態が存在するならば、前記第一
のノード、前記第二のノードおよび前記相互接続部の一
つ以上が、前記データが前記第二のノードに含まれるか
どうかを判定し、含まれるならば、前記データを前記第
一のノードに提供するように構成されている、請求項2
8記載のディレクトリベースのデータ処理システム。 - 【請求項33】前記第一のメモリ制御装置がさらに、前
記エラー状態が訂正不可能なエラーであるのか、訂正可
能なエラーであるのかを判定するように構成されてい
る、請求項28記載のディレクトリベースのデータ処理
システム。 - 【請求項34】前記第一のメモリ制御装置がさらに、前
記第一のメモリに含まれる前記データのどのビットがデ
ータ・エラーを含むのかを識別するように構成されてい
る、請求項28記載のディレクトリベースのデータ処理
システム。 - 【請求項35】前記第一のメモリ制御装置がさらに、前
記第一のメモリに含まれる前記データを、前記相互接続
に発された前記要求に応答して受け取ったデータとで比
較するように構成されている、請求項28記載のディレ
クトリベースのデータ処理システム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/497589 | 2000-02-03 | ||
US09/497,589 US6615375B1 (en) | 2000-02-03 | 2000-02-03 | Method and apparatus for tolerating unrecoverable errors in a multi-processor data processing system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001249911A true JP2001249911A (ja) | 2001-09-14 |
JP3851093B2 JP3851093B2 (ja) | 2006-11-29 |
Family
ID=23977478
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001025699A Expired - Fee Related JP3851093B2 (ja) | 2000-02-03 | 2001-02-01 | データ転送方法及びデータ処理システム |
Country Status (5)
Country | Link |
---|---|
US (1) | US6615375B1 (ja) |
JP (1) | JP3851093B2 (ja) |
KR (1) | KR100406575B1 (ja) |
CN (1) | CN1220949C (ja) |
TW (1) | TW484069B (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008046701A (ja) * | 2006-08-11 | 2008-02-28 | Nec Computertechno Ltd | マルチプロセッサシステム及びその動作方法 |
JP2009116885A (ja) * | 2008-11-28 | 2009-05-28 | Fujitsu Ltd | コンピュータ及び制御方法 |
JP2014197402A (ja) * | 2014-05-26 | 2014-10-16 | 富士通株式会社 | 情報処理装置、制御方法および制御プログラム |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7035470B2 (en) * | 2001-02-05 | 2006-04-25 | Ati Technologies, Inc. | System for handling errors related to IDCT data and method thereof |
US7885336B2 (en) * | 2001-02-05 | 2011-02-08 | Ati Technologies Ulc | Programmable shader-based motion compensation apparatus and method |
NZ528503A (en) * | 2001-03-12 | 2004-06-25 | Honeywell Int Inc | Method of recovering a flight critical computer after a radiation event |
US6851071B2 (en) * | 2001-10-11 | 2005-02-01 | International Business Machines Corporation | Apparatus and method of repairing a processor array for a failure detected at runtime |
US7043666B2 (en) * | 2002-01-22 | 2006-05-09 | Dell Products L.P. | System and method for recovering from memory errors |
TW200417851A (en) * | 2003-03-07 | 2004-09-16 | Wistron Corp | Computer system capable of maintaining system's stability while memory is unstable and memory control method |
US7779296B2 (en) * | 2004-07-23 | 2010-08-17 | Emc Corporation | Storing data replicas remotely |
EP1878017A1 (en) * | 2004-12-21 | 2008-01-16 | Koninklijke Philips Electronics N.V. | Method and apparatus for error correction of optical disc data |
US7366846B2 (en) * | 2005-01-14 | 2008-04-29 | International Business Machines Corporation | Redirection of storage access requests |
US7328315B2 (en) * | 2005-02-03 | 2008-02-05 | International Business Machines Corporation | System and method for managing mirrored memory transactions and error recovery |
US7966526B2 (en) * | 2007-04-10 | 2011-06-21 | Galileo Tools Gmbh | Software event recording and analysis system and method of use thereof |
US20090150721A1 (en) * | 2007-12-10 | 2009-06-11 | International Business Machines Corporation | Utilizing A Potentially Unreliable Memory Module For Memory Mirroring In A Computing System |
US8510615B2 (en) * | 2009-10-22 | 2013-08-13 | Xerox Corporation | Virtual repair of digital media |
US9128887B2 (en) * | 2012-08-20 | 2015-09-08 | Lenovo Enterprise Solutions (Singapore) Pte. Ltd. | Using a buffer to replace failed memory cells in a memory component |
US11544153B2 (en) * | 2020-03-12 | 2023-01-03 | International Business Machines Corporation | Memory error handling during and/or immediately after a virtual machine migration |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4044337A (en) | 1975-12-23 | 1977-08-23 | International Business Machines Corporation | Instruction retry mechanism for a data processing system |
US4538265A (en) | 1983-03-24 | 1985-08-27 | International Business Machines Corporation | Method and apparatus for instruction parity error recovery |
JPH0680492B2 (ja) | 1984-09-29 | 1994-10-12 | 株式会社日立製作所 | エラー回復方法 |
US4924466A (en) | 1988-06-30 | 1990-05-08 | International Business Machines Corp. | Direct hardware error identification method and apparatus for error recovery in pipelined processing areas of a computer system |
US5280615A (en) * | 1990-03-23 | 1994-01-18 | Unisys Corporation | Out of order job processing method and apparatus |
EP0528538B1 (en) | 1991-07-18 | 1998-12-23 | Tandem Computers Incorporated | Mirrored memory multi processor system |
US5406504A (en) * | 1993-06-30 | 1995-04-11 | Digital Equipment | Multiprocessor cache examiner and coherency checker |
US5771247A (en) | 1994-10-03 | 1998-06-23 | International Business Machines Corporation | Low latency error reporting for high performance bus |
JP3889044B2 (ja) | 1995-05-05 | 2007-03-07 | シリコン、グラフィクス、インコーポレイテッド | 不均一メモリ・アクセス(numa)システムにおけるページ移動 |
US5720029A (en) | 1995-07-25 | 1998-02-17 | International Business Machines Corporation | Asynchronously shadowing record updates in a remote copy session using track arrays |
US5768623A (en) * | 1995-09-19 | 1998-06-16 | International Business Machines Corporation | System and method for sharing multiple storage arrays by dedicating adapters as primary controller and secondary controller for arrays reside in different host computers |
US5870537A (en) | 1996-03-13 | 1999-02-09 | International Business Machines Corporation | Concurrent switch to shadowed device for storage controller and device errors |
US5933653A (en) | 1996-05-31 | 1999-08-03 | Emc Corporation | Method and apparatus for mirroring data in a remote data storage system |
US5892970A (en) | 1996-07-01 | 1999-04-06 | Sun Microsystems, Inc. | Multiprocessing system configured to perform efficient block copy operations |
US6029231A (en) * | 1996-12-03 | 2000-02-22 | Emc Corporation | Retrieval of data stored on redundant disks across a network using remote procedure calls |
US5881282A (en) | 1996-12-10 | 1999-03-09 | Intel Corporation | Controlling ill-behaved computer add-on device through a virtual execution mode |
US6073209A (en) * | 1997-03-31 | 2000-06-06 | Ark Research Corporation | Data storage controller providing multiple hosts with access to multiple storage subsystems |
US5946709A (en) | 1997-04-14 | 1999-08-31 | International Business Machines Corporation | Shared intervention protocol for SMP bus using caches, snooping, tags and prioritizing |
DE69715203T2 (de) * | 1997-10-10 | 2003-07-31 | Bull Sa | Ein Datenverarbeitungssystem mit cc-NUMA (cache coherent, non-uniform memory access) Architektur und im lokalen Speicher enthaltenem Cache-Speicher für Fernzugriff |
US6260069B1 (en) * | 1998-02-10 | 2001-07-10 | International Business Machines Corporation | Direct data retrieval in a distributed computing system |
US6088815A (en) * | 1998-02-23 | 2000-07-11 | International Busines Machines Corporation | Automatic data recovery for a duplex pair |
US6151685A (en) * | 1998-05-15 | 2000-11-21 | International Business Machines Corporation | System and method for recovering a segment directory for a log structured array |
US6275900B1 (en) * | 1999-01-27 | 2001-08-14 | International Business Machines Company | Hybrid NUMA/S-COMA system and method |
US6449731B1 (en) * | 1999-03-03 | 2002-09-10 | Tricord Systems, Inc. | Self-healing computer system storage |
US6725343B2 (en) * | 2000-10-05 | 2004-04-20 | Hewlett-Packard Development Company, L.P. | System and method for generating cache coherence directory entries and error correction codes in a multiprocessor system |
-
2000
- 2000-02-03 US US09/497,589 patent/US6615375B1/en not_active Expired - Fee Related
- 2000-11-20 TW TW089124581A patent/TW484069B/zh not_active IP Right Cessation
-
2001
- 2001-01-22 KR KR10-2001-0003628A patent/KR100406575B1/ko not_active IP Right Cessation
- 2001-02-01 JP JP2001025699A patent/JP3851093B2/ja not_active Expired - Fee Related
- 2001-02-02 CN CNB011033703A patent/CN1220949C/zh not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008046701A (ja) * | 2006-08-11 | 2008-02-28 | Nec Computertechno Ltd | マルチプロセッサシステム及びその動作方法 |
JP2009116885A (ja) * | 2008-11-28 | 2009-05-28 | Fujitsu Ltd | コンピュータ及び制御方法 |
JP2014197402A (ja) * | 2014-05-26 | 2014-10-16 | 富士通株式会社 | 情報処理装置、制御方法および制御プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP3851093B2 (ja) | 2006-11-29 |
TW484069B (en) | 2002-04-21 |
US6615375B1 (en) | 2003-09-02 |
KR20010078055A (ko) | 2001-08-20 |
KR100406575B1 (ko) | 2003-11-21 |
CN1220949C (zh) | 2005-09-28 |
CN1319807A (zh) | 2001-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3851093B2 (ja) | データ転送方法及びデータ処理システム | |
US8205136B2 (en) | Fault tolerant encoding of directory states for stuck bits | |
US6292906B1 (en) | Method and apparatus for detecting and compensating for certain snoop errors in a system with multiple agents having cache memories | |
US9436548B2 (en) | ECC bypass using low latency CE correction with retry select signal | |
US10514990B2 (en) | Mission-critical computing architecture | |
JP2003162447A (ja) | エラー回復 | |
US7987384B2 (en) | Method, system, and computer program product for handling errors in a cache without processor core recovery | |
US5875201A (en) | Second level cache having instruction cache parity error control | |
US20150082081A1 (en) | Write cache protection in a purpose built backup appliance | |
JP3693555B2 (ja) | アドレスエラーから回復するためのシステムおよび方法 | |
US6012127A (en) | Multiprocessor computing apparatus with optional coherency directory | |
KR101686366B1 (ko) | 체크포인팅의 외부에서 기입 데이터를 처리하는 다중 컴퓨터 시스템 | |
US6108753A (en) | Cache error retry technique | |
US7076686B2 (en) | Hot swapping memory method and system | |
US5381544A (en) | Copyback memory system and cache memory controller which permits access while error recovery operations are performed | |
JP3748117B2 (ja) | 鏡像化メモリ用エラー検出システム | |
US7689891B2 (en) | Method and system for handling stuck bits in cache directories | |
JP5021978B2 (ja) | マルチプロセッサシステム及びその動作方法 | |
JP3129224B2 (ja) | キャッシュメモリ装置 | |
US7577890B2 (en) | Systems and methods for mitigating latency associated with error detection and correction | |
US6898738B2 (en) | High integrity cache directory | |
JP3788822B2 (ja) | コンピュータシステムおよびそのシステムにおける障害回復方法 | |
JP3239935B2 (ja) | 密結合マルチプロセッサシステムの制御方法、密結合マルチプロセッサシステム及びその記録媒体 | |
JP3450132B2 (ja) | キャッシュ制御回路 | |
JPS60110047A (ja) | エラ−訂正方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20041119 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050118 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20050412 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20050415 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050714 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050913 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20051207 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20051212 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060309 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060322 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20060622 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20060630 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060807 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060822 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060831 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090908 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100908 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100908 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110908 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120908 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130908 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |