JP3851093B2 - データ転送方法及びデータ処理システム - Google Patents

データ転送方法及びデータ処理システム Download PDF

Info

Publication number
JP3851093B2
JP3851093B2 JP2001025699A JP2001025699A JP3851093B2 JP 3851093 B2 JP3851093 B2 JP 3851093B2 JP 2001025699 A JP2001025699 A JP 2001025699A JP 2001025699 A JP2001025699 A JP 2001025699A JP 3851093 B2 JP3851093 B2 JP 3851093B2
Authority
JP
Japan
Prior art keywords
data
memory
node
error
condition exists
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001025699A
Other languages
English (en)
Other versions
JP2001249911A (ja
Inventor
ニコラス・エー・ポールシャック・ジュニア
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2001249911A publication Critical patent/JP2001249911A/ja
Application granted granted Critical
Publication of JP3851093B2 publication Critical patent/JP3851093B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/42Loop networks
    • H04L12/427Loop networks with decentralised control
    • H04L12/433Loop networks with decentralised control with asynchronous transmission, e.g. token ring, register insertion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1666Error detection or correction of the data by redundancy in hardware where the redundant component is memory or memory area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/0815Cache consistency protocols
    • G06F12/0817Cache consistency protocols using directory methods
    • G06F12/082Associative directories
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Memory System Of A Hierarchy Structure (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)
  • Debugging And Monitoring (AREA)
  • Multi Processors (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は一般に、コンピュータ・システムの分野に関する。
【0002】
【従来の技術】
多重処理コンピュータ・システムは一般に、コンピューティング・タスクを実行するために用いることができる2個以上のプロセッサを含む。ある特定のコンピューティング・タスクを一つのプロセッサに実行させ、その間、他のプロセッサが無関係な処理タスクを実行することができる。あるいはまた、特定のタスクの構成部を多数のプロセッサの間で分散させて、コンピューティング・タスクを実行するのに要する時間を減らすこともできる。概して、プロセッサとは、1個以上のオペランドに対して演算を実行して結果を出すように構成された装置である。演算は、プロセッサによって実行される命令に応答して実行される。
【0003】
単一アドレスベースおよびコヒーレント・キャッシュを有するマルチプロセッサ・コンピュータ・システムは、汎用性で強力なコンピューティング環境を提供する。単一アドレスベースとコヒーレント・キャッシュとがいっしょになって、データ分割および動的ロード平衡化の問題を緩和する。単一アドレスベースおよびコヒーレント・キャッシュはまた、コンパイラ、標準オペレーティング・システムおよび多重プログラミングを並列化するためのよりよいサポートを提供し、それにより、より汎用性で効果的な機械の利用を可能にする。
【0004】
多重処理コンピュータ・システムのための一つの構造は、分散メモリ・アーキテクチャである。分散メモリ・アーキテクチャは通常、それぞれが1個以上のプロセッサおよびメモリを有する多数のノードを含む。ノードは、ノード間の通信を可能にするネットワークに結合されている。全体としてとらえると、全ノードの合わせたメモリが、各ノードがアクセスすることができる「共用メモリ」を形成している。通常、ディレクトリを使用して、どのノードが特定のアドレスに対応するデータのコピーを有するかを識別する。データのコヒーレンシーは、ディレクトリを審査してデータの状態を判定することによって維持される。
【0005】
出現した代表的なディレクトリベースのキャッシュ・コヒーレンシー・アーキテクチャは、たとえば、CC−NUMA(キャッシュ・コヒーレント不均一メモリ・アクセス)およびCOMA(キャッシュ専用メモリ・アーキテクチャ)を含む。CC−NUMAおよびCOMAの両アーキテクチャは、分散メモリ、スケーラブル相互接続ネットワークおよびディレクトリベースのキャッシュ・コヒーレンスを有している。分散メモリおよびスケーラブル相互接続ネットワークは、必要なスケーラブル・メモリ帯域幅を提供し、ディレクトリベースの方式は、キャッシュ・コヒーレンスを提供する。CC−NUMAアーキテクチャとは対照的に、COMAアーキテクチャは、ノードごとのメイン・メモリを、アトラクション・メモリ(AM)とも呼ばれる大きな二次または三次キャッシュに変換する。変換は、メイン・メモリ中のデータのキャッシュライン・サイズ区分にタグを付加することによって実施される。その結果、システム中のデータ項目の場所がデータ項目の物理アドレスと切り離され、そのデータ項目は、メモリ参照パターンに依存して、メイン・メモリ中で自動的に移送または複製される。
【0006】
残念ながら、COMAおよびNUMAアーキテクチャでは、データが破損し、メモリのエラーを生じさせるおそれがある。そのようなエラーは、電子的記憶装置としてのメモリが、元々記憶されていたものとは異なる情報を戻すことがあるために生じる。一般に、メモリ・システム中では通常、2種類のエラー―反復性(ハード)エラーおよび一過性(ソフト)エラー―が生じる。ハード・エラーは、ハードウェア障害の結果であることが多く、一貫性かつ反復性であるため、診断し、訂正することは比較的やさしい。ソフト・エラーは、ビットが一度は誤った値を読み出すが、その後は正しく機能するときに生じる。
【0007】
メモリ・エラーからの唯一の保護は、メモリ・エラー検出または訂正プロトコルを使用することである。一部のプロトコルは、8ビットのデータ・バイトの1ビットでしかエラーを検出することができないが、他のものは、2個以上のビットでエラーを自動的に検出することができる。他のプロトコルは、単一および/または多ビット・メモリ障害を検出し、訂正することができる。
【0008】
一般的なエラー検出/訂正機構は、パリティ、エラー訂正符号(ECC)などを含む。パリティおよびエラー訂正符号(ECC)を使用して、中央処理装置(CPU)と、メモリ、プログラム入出力(PIO)装置などとの間で転送されるデータの信頼性を立証することは当該技術で周知である。さらには、ECCは、メモリ中の特定のデータ・エラーから回復するために使用される。
【0009】
パリティ検査が使用可能になると、バイトがメモリに書き込まれるたび、パリティ生成/検査機構と呼ばれる論理回路がそのバイトを審査し、データ・バイトが偶数個の1を有するのか、奇数個の1を有するのかを判定する。偶数個の1を有するならば、9番目の(パリティ)ビットが1にセットされ、そうでなければ、0にセットされる。このように、元の8個のデータ・ビット中で何個のビットが1にセットされていようと、9個のビットがいっしょになって奇数個の1を構成する。この機構は奇数パリティと呼ばれている。データがメモリから読み出されるとき、パリティ回路はエラー検査機構として働く。この機構は、9ビットすべてを読み出し、奇数個の1があるのか、偶数個の1があるのかを再び判定する。偶数個の1があるならば、おそらくはビットの1個にエラーがある。パリティ・エラーが検出されると、パリティ回路は割り込みを生成し、この割り込みが、プロセッサに停止を命令して、誤ったメモリが実行中または実行可能なプロセスを崩壊させないようにする。
【0010】
パリティ検査は、単ビットのエラー検出を提供するが、メモリ・エラーを訂正しない。さらには、パリティ検査は、エラーの存在を判定するだけで、エラーを訂正することはない。ECCは、単ビットおよび多ビットの両エラーを検出するだけでなく、単ビットまたは多ビットのエラーを訂正することもできる。ECCは、特殊なアルゴリズムを使用して、情報を、保護されたデータにおける単ビットまたは多ビットのエラーの回復を可能にするのに十分な詳細を含むビット・ブロックに符号化する。単ビットまたは多ビットのエラーの訂正は、使用されるECCアルゴリズムに依存する。ECCは、訂正不可能なエラーを検出すると、システムにシャットダウンを命令してデータ破損を回避させる割り込みを生成する。
【0011】
【発明が解決しようとする課題】
従来のエラー検出/訂正機構に伴う一つの問題は、システム割り込みの頻度が望まれるよりも高いことである。割り込みは、障害の性質およびシステムのソフトウェア能力に依存して、システムまたはプロセッサのリセットを生じさせるおそれがある。割り込みは、それによって生じるシステム休止時間、データ損失および生産性損失のため、望ましいものではない。
【0012】
したがって、システム割り込みを最小限にしながらエラーを検出するための構造および技術の必要性が残る。システムは、単ビットまたは多ビットのエラーを検出することができ、なおもシステム割り込みを回避するべきである。
【0013】
【課題を解決するための手段】
本発明は一般に、エラーがないかデータを検査し、エラーが検出されるならば、そのデータの有効コピーがシステム中で利用可能であるかどうかを判定する方法およびシステムを提供する。
【0014】
本発明の一つの態様では、ディレクトリベースのデータ処理システムにおいてデータを転送する方法が提供される。方法は、要求装置により、要求装置に対応する局所メモリに含まれるデータにアクセスするステップと、データ中にエラー状態が存在するかどうかを判定するステップと、エラー状態が存在するならば、遠隔メモリからデータを要求するステップとを含む。一つの実施態様では、遠隔メモリからデータを要求するステップは、まずディレクトリにアクセスしてデータの状態を判定することを含む。状態が、データが遠隔メモリで利用可能であることを示すならば、要求装置と遠隔メモリとを結合する相互接続部に要求を発する。
【0015】
本発明のもう一つの態様では、データ処理システムは、第一のプロセッサ、第一のメモリおよびディレクトリを有する第一のノードと、第二のプロセッサおよび第二のメモリを有する第二のノードと、第一のノードと第二のノードとを結合する相互接続部とを含む。データ処理システムは、第一のプロセッサにより、第一のメモリに含まれるデータにアクセスすることと、データ中にエラー状態が存在するかどうかを判定することと、エラー状態が存在するならば、第二のメモリからデータを要求することとを含むプロセスを実行するように設計されている。
【0016】
本発明のさらに別の態様では、分散共用メモリを有するディレクトリベースのデータ処理システムが提供される。データ処理システムは、第一のプロセッサ、第一のメモリ、第一のメモリ制御装置および第一のメモリの1個以上のメモリ・ブロックの状態データを含む第一のディレクトリを少なくとも含む第一のノードと、第二のプロセッサ、第二のメモリ、第二のメモリ制御装置および第二のメモリの1個以上のメモリ・ブロックの状態データを含む第二のディレクトリを少なくとも含む第二のノードと、第一のノードと第二のノードとを結合する相互接続部とを含む。第一のメモリ制御装置は、第一のメモリに含まれるデータにアクセスし、データ中にエラー状態が存在するかどうかを判定し、エラー状態が存在するならば、データの要求を相互接続部に発するように構成されている。
【0017】
本発明のこれらおよび他の特徴および目的は、以下の詳細な説明および添付図面を参照することによって当業者に明らかになるであろう。
【0018】
【発明の実施の形態】
本発明は一般に、多重処理環境においてエラーがないかデータを検査し、エラーが検出されるならば、そのデータの有効コピーがシステム中で利用可能であるかどうかを判定する方法およびシステムを提供する。データの有効コピーが利用可能であるならば、割り込みを生成することなく、データを、そのデータを要求した装置(たとえばプロセッサおよび/またはメモリ制御装置)に提供する。本発明は、有利にも、要求されたメモリ・ブロックの遠隔コピーが存在しない場合にだけシステム割り込みを生成することにより、システム利用性を増大させる。
【0019】
一つの実施態様では、要求装置(たとえばメモリ制御装置)がメモリ読み出し要求を発して、特定の記憶場所に記憶されたデータが望まれることを示す。メモリ制御装置は、要求されたメモリ・ブロックの有効コピーが対応するメモリ中に常駐するかどうかを判定する。対応するメモリは、キャッシュ・メモリであってもよいし、非キャッシュ・メモリ(たとえばメイン・メモリ)であってもよい。メモリ・ブロックが常駐し、有効であるならば、メモリ制御装置は、応答して、要求されたデータ・ブロックのコピーを要求プロセッサに提供する。そうでなければ、メモリ・ブロックの遠隔コピーが要求される。
【0020】
要求メモリ制御装置は、メモリ・ブロックを受け取り、必要なエラー検出および訂正ルーチンを実行することができる。受け取ったメモリ・ブロック内に回復不可能なエラーがある場合、要求メモリ制御装置は、そのメモリ・ブロックの遠隔コピーを要求する。一つの実施態様では、そのとき、対応する要求プロセッサは、回復不可能なエラー状態が存在するかどうかの判定の前に、遠隔メモリ・ブロックを処理し始める。
【0021】
本明細書では特定のシステム・アーキテクチャ、たとえばNUMAおよびCOMAを参照するが、本発明は特定のアーキテクチャに限定されない。特定のアーキテクチャの参照は例示にすぎない。一般に、本発明は、いかなるマルチプロセッサ・ディレクトリベースのシステムにも応用することができる。
【0022】
図1は、本発明を適用することができる一般的なマルチプロセッサ・システム10、たとえばNUMAシステムの略ブロック図である。システム相互接続12が、それぞれが少なくとも1個のプロセッサ、たとえばP0〜Piを有する複数のノード14、たとえばノード0〜ノードiを結合している。各プロセッサP0〜Piは、それに対応して、いかなる数のキャッシュ階層を含んでもよいキャッシュ・メモリ24を有している。システム10はさらに、入出力アダプタ18および種々の入出力装置20を含む。種々のキャッシュ・コヒーレンシー方式(当該技術で公知であるかないかを問わない)を使用して、データの最新有効バージョンがプロセッサP0〜Piのいずれによっても使用されることを保証してもよい。
【0023】
図2は、システム相互接続12に結合されたノード14のさらなる詳細を提供する。ネットワーク・インタフェース21が、ノード14を相互接続12に接続するのに必要な回路を提供する。ノード14はまた、少なくとも1個のプロセッサ22(図1のプロセッサPiに対応)を、一次またはオンボード・キャッシュおよび1個以上のオフチップまたは低レベルのキャッシュを含むことができるキャッシュ24とともに含む。特定のキャッシュ・アーキテクチャが本発明を限定することはない。ノード14はさらに、たとえば、NUMAシステムにおけるようなメイン・メモリであってもよいし、COMAシステムにおけるようなアトラクション・メモリであってもよいメモリ26を含む。メモリ制御装置28が、ノード14の通信キャッシュ・コヒーレンシー機能およびエラー検査をサポートする。別個に示すが、他の実施態様では、メモリ制御装置28とプロセッサ22とを、メモリ制御機能およびデータ処理を実行するように構成された統合処理装置とみなしてもよい。
【0024】
メモリ26は、メモリ・ブロック30によって例示されるメモリ・ブロック中に配設されている。各ノード14は、相互接続12に結合されたノード14ごとのメモリ26のメモリ・ブロックへのエントリを含むディレクトリ29を含む。NUMA型アーキテクチャの場合、ディレクトリ29は、状態フィールド32およびデータ・フィールド34を含む。データ・フィールド34は、メモリ26内の一意アドレス・ブロック(たとえばメモリ・ブロック30)に対応する。状態フィールド32は、データ・フィールド34中のデータが最新であるかどうか、データが、データを要求する特定のノード14中に常駐する(すなわち、局所コピーである)のか、他のノード14の他の場所に常駐する(すなわち、遠隔コピーである)のかに関する情報を含む。本明細書に使用する「遠隔コピー」とは、データを要求するノード以外のノード14のメモリ中に位置するデータをいう。遠隔データは、データを要求する局所メモリ装置にアクセス可能であるいかなる形態のメモリ装置中に常駐することもできる。たとえば、遠隔データは、相互接続12に接続された別のノード14のプロセッサのキャッシュ・メモリまたはメイン・メモリ中に常駐することもできる。
【0025】
COMA型アーキテクチャの場合、ディレクトリ29はまた、アドレス・フィールド35を含む。アドレス・フィールド35は、いかなるときでも多数のデータ・ピースを特定のメモリ・ブロック30にマッピングすることができるアーキテクチャのために設けられている。その結果、データの場所を追跡するために、ディレクトリ29中にアドレス・フィールド35を維持することが必要である。
【0026】
一つの実施態様では、キャッシュの「状態」は、MESIプロトコルによって判定することができる。MESIプロトコル中のキャッシュ・データ・ブロックは、4種の状態―「M」(変更)、「E」(独占)、「S」(共用)または「I」(無効)―のいずれかである。MESIプロトコルの下では、各キャッシュ・エントリ(たとえば32バイトのセクタ)は、エントリの状態を4種の可能な状態のうちから示す2個の追加ビットを有している。状態は、エントリの初期状態および要求プロセッサによって求められるアクセスのタイプに依存して変化することができ、要求プロセッサのキャッシュのエントリごとに特定の状態がセットされる。たとえば、セクタが「変更」状態にあるとき、アドレス指定されたセクタは、変更されたセクタを有するキャッシュ中でのみ有効であり、変更された値は、システム・メモリに書き戻されてはいない。セクタが「独占」であるとき、そのセクタは、記されたセクタだけに存在し、システム・メモリとで整合している。セクタが「共用」であるならば、そのセクタは、そのキャッシュおよび少なくとも一つの他のキャッシュで有効であり、共用セクタのすべてがシステム・メモリとで整合している。最後に、セクタが「無効」であるとき、そのセクタは、アドレス指定されたセクタがキャッシュ中に常駐しないことを示す。セクタが「変更」状態、「共用」状態または「無効」状態のいずれかにあるならば、そのセクタは、特定のバス・トランザクションに依存して状態間を移動することができる。「独占」状態にあるセクタは他のどの状態に移ることもできるが、セクタは、それが最初に「無効」であるならば、「独占」になることしかできない。MESIプロトコルは周知であるが、米国特許第5,946,709号明細書を参照することにより、さらに理解を深めることができる。さらには、本発明は、具体的なプロトコルに特定的ではなく、MESIは、利用することができる一つのプロトコルを例示するだけである。
【0027】
図3は、本発明によって使用されるプロセス300を示す流れ図である。ステップ302でプロセス300が始まり、対象のプロセッサ22がメモリ要求(すなわち、読み出しまたは取り出し)命令を発する。ステップ306で、メモリ制御装置28が、メモリ26中の各メモリ・ブロック30の状態を追跡するために使用されるディレクトリ29にアクセスし、審査する。ステップ308で、メモリ制御装置が、要求されたデータが局所的に有効であるかどうかを判定する。すなわち、局所データ(すなわち、要求プロセッサに対応するメモリに含まれるデータ)が有効であるかどうかの判定を下す。「有効」とは、データが異なるノード14上の別のプロセッサによって変更されていないことをいう。要求されたデータが局所的に有効であり、利用可能であるならば、方法はステップ312に進み、局所データにアクセスする。
【0028】
要求されたデータが局所的に有効または利用可能でないならば、プロセスはステップ310に進む。ステップ310で、遠隔取り出し要求をメモリ制御装置28によって発して、データの遠隔コピーを取得する。ステップ314で、方法300は、データが受け取られたかどうかを問い合わせる。プロセス300は、遠隔データが受け取られるまでステップ314をループし続ける。ひとたびステップ314で遠隔データが受け取られると、方法300は、論理ライン328に沿って進み、ステップ320で、データがプロセッサ220に送られることを示す。この処理はステップ324で完了する。
【0029】
場合によっては、ステップ314でデータを受け取ったのち、ステップ316で局所メモリ・ディレクトリを更新する(データをメイン・メモリまたはアトラクション・メモリに書き込んでもよい)。そして、プロセス300はステップ318で完了する。すると、その後は、同じメモリ制御装置/プロセッサによるデータの要求は、局所的にデータにアクセスすることができる(ステップ312)。
【0030】
一つの実施態様では、ステップ320で遠隔コピーをプロセッサに送ったのち、エラー検査を実行してもよい。したがって、ステップ314でデータが受け取られたと判定されるならば、ステップ320でデータをプロセッサに送り、プロセッサが処理を始め、方法300が継続する。パリティ検査機構が、受け取られたデータにパリティ・エラーがあると判定するならば、データ訂正アルゴリズムを実行することができる。受け取ったデータにエラーがないならば、データはプロセッサ中の実行ユニットに転送される。したがって、メモリ制御装置によって提供されて受け取られたデータは有効であると判定され、そのデータは、公知のシステムのメモリ制御装置中で起こるパリティおよびECC処理に通常伴う待ち時間を被らずに、実行ユニットに転送される。
【0031】
ステップ312で局所メモリアクセスを実行したならば、ステップ322でエラー判定を実施する。エラー状態が存在しない(または、従来の手段、たとえばECCによって訂正可能である)ならば、ステップ320でデータをプロセッサ22に提供し、処理はステップ324で完了する。
【0032】
局所データが、従来の方法によって訂正することができないエラー状態を含むならば、方法300はステップ330に進み、データの遠隔コピーが利用可能であるかどうかを問い合わせる。たとえばMESIプロトコルを使用する実施態様ならば、方法300は、データの状態が共有であるかどうかを判定するであろう。データが遠隔場所で利用可能であるならば、方法300はステップ310に進み、そこで、取り出し要求を発してデータの遠隔コピーを検索する。データが遠隔場所に常駐しないならば(ステップ330)、ステップ332で機械チェック割り込みを発し、診断ルーチンなどが実行される間、データ処理を停止する。したがって、本発明は、データ・エラーが生じたかどうかを判定し、訂正不可能なデータ・エラーがある場合、データのコピーを、利用可能であるならば、どこかよそから取得する。
【0033】
本発明はまた、図4および5に関して以下に説明する、データ・エラー識別のさらなる特徴を含むことができる。図4および5それぞれの方法400および500は、図3のブロック334の中で実施することができる。ブロック334は、ひとたび要求されたデータが受け取られると、ステップ314から論理ライン338に沿って進み、共用状態を有する局所データのエラー状態である場合、ステップ330から論理ライン336に沿って進む。一つの実施態様では、方法300は、論理ライン328から進むステップと並列に、論理ライン336および338に沿って進む。したがって、上述したように、エラー判定を下す前に、ステップ310で発された遠隔取り出しから得られたデータを処理することができる。さらに、方法400および500におけるパリティおよびECCの使用は例示にすぎない。本発明は、パリティ、ECCまたは他の特定の検出機構の使用を必要とするわけではないことを理解すべきである。データ・エラーの何らかの表示が必要とされるすべてである。
【0034】
まず図4を参照すると、論理ライン336(ステップ330から)がステップ402に進み、システムが、NUMA型または他のシステムではなく、COMA型システムであるかどうかを問い合わせる。システムがCOMA型であるならば、ステップ404で、メモリ・ブロックを、局所プロセッサにとって使用不能または無効としてマークする。ステップ404は、データを動的に割り当てし直すことができるハードウェアを有するキャッシュ専用システムで実施してもよい任意のステップである。ステップ404は、より高速のハードウェア部品が無効データをモニタするための機構を提供する。いずれの場合でも、方法はステップ406に進み、そこでシステムが、障害のあるFRU(フィールド交換可能ユニット)を判定するためにサービス・プロセッサが使用することができるよう、エラーを記録する。システムは、たとえばどのビットが故障したのかを知ることにより、故障カードまたはDIMMを判定することができる。一つの実施態様では、故障ビットは、障害のある局所データ(全データ・ビットおよびパリティもしくはECCビット)を、ステップ310で任意の経路338を介して遠隔取り出し要求から受け取った正常なデータとで比較することによって判定される。遠隔取り出しからのおそらくは正常なデータにマッチさせることができない局所データに含まれるビットは、故障ビットと見なされる。訂正不可能なエラー(UE)による故障ビットは通常、認知されない。したがって、公知のシステムは通常、データが多数のカードまたはメモリ・モジュールに分散している場合、故障カード/メモリ・モジュールを隔離することはできない。
【0035】
ひとたびステップ406でこのエラー・データが記録されると、ステップ408で、オペレーティング・システムは、オペレーティング・システムがそのエラーを処理するよう通知される。たとえば、オペレーティング・システムは、致命的なエラーが起こる前に、メモリの故障区域にアクセスする現在のタスクを終わらせることができるかもしれない。
【0036】
図5の方法は、ブロック334の他の方法を提供する。ステップ502で、要求ノードが、ステップ312でアクセスされたどのビットが不良であるのかを具体的に判定する。一つの実施態様では、ステップ502は、図4のステップ406に関して上述した方法で達成される。すなわち、プロセッサ/メモリ制御装置が、ステップ312で受け取った障害のある局所データ(全データ・ビットおよびエラー検出ビット、たとえばパリティもしくはECCビット)を、ステップ310で遠隔取り出し要求から受け取った正常なデータとで比較する。遠隔取り出しからのおそらくは正常なデータにマッチさせることができない局所データに含まれるビットは、故障ビットと見なされる。ステップ504で、メモリ制御装置は、不良データを有していたアドレスに、ステップ310の遠隔取り出しから得られたおそらくは正常なデータを書き込む。次にステップ506で、メモリ制御装置は、書き込まれたばかりのアドレスから読み出しを行い、ステップ508で、エラー検出を実行する。エラーが検出されないならば、方法はステップ510に進み、エラーが訂正されているという指示を出し、ステップ512で、訂正可能なエラーが生じたことを記録する。
【0037】
ステップ508でエラーが検出されると、メモリ制御装置は、ステップ514で、そのエラーが訂正不可能であるかどうかを判定する。訂正不可能なエラーは、データに含まれるエラーが変化していないか、悪化していることを示す。エラーが訂正不可能であるならば、プロセスは、図4に関して記載したように継続する。したがって、ステップ402で、システムがCOMA型システムであるかどうかを判定し、そうであるならば、ステップ404でメモリ・ブロックをマークする。システム・アーキテクチャにかかわらず、方法500は、ステップ406でエラー・データを記録し、ステップ408でオペレーティング・システムに通知し、ステップ410で処理を完了する。
【0038】
ステップ514での訂正可能なエラーは、故障ビットの少なくとも一部がステップ502〜506によって訂正されており、ステップ508で検出された残りの故障ビットが、メモリ制御装置の訂正機構によって訂正可能であるビットの数に等しいか、それ未満であることを示す。したがって、残りの故障ビットを訂正したのち、方法500から抜けることができる。
【0039】
しかし、図5に示す実施態様では、次に方法500は、ステップ508での故障ビットのいずれかの部分がハード・エラーによるかどうか、すなわち、同じビットが繰り返し障害を起こすかどうかを判定する。ステップ516で、方法500は、どのビットが不良であるかを判定する。すなわち、ステップ506から受け取ったデータを、ステップ310で発された遠隔データ取り出しから受け取ったデータとで比較する。遠隔データに含まれない、ステップ506から受け取ったデータに含まれるビットは、おそらくは不良ビットである。
【0040】
その後、ステップ518で、ステップ516で判定された不良データ・ビットのいずれかが元の不良データ・ビット、すなわち、ステップ502で判定された不良ビットのいずれかにマッチするかどうか比較を実施する。故障ビットがマッチしないならば、ステップ508での故障ビットの1個以上がステップ322での故障ビットとは異なり、ソフト・エラーが生じたことが示唆される。そして、方法500はステップ512に進んで、訂正可能なエラーが起こったことを記録する。
【0041】
ステップ518でデータ・ビットがマッチするならば、ステップ520で、障害がハード・エラーであることを記す。すなわち、障害は、ステップ322での初期エラー状態以来、繰り返し故障するビットにおけるエラーによるものであり、ステップ502〜504によって訂正されなかった。ステップ522によって示す一つの実施態様では、次にメモリ制御装置がステア操作(システムでサポートされているならば)を実行して、故障ビットをハード・エラーで置き換える。ステアリングは、選択された冗長データ・ビットを使用して、記憶動作中に検出された故障データ・ビットを置き換える。ビットをステアリングしたのち、ステア・クリーンアップ処理を実行する。ステア・クリーンアップは、元のデータ・ビットを使用してデータを取り出し、ECCを使用してデータを訂正したのち、冗長データ・ビットを使用して、訂正したデータを同じアドレスに書き戻す。したがって、ステア操作は、ハード故障ビットによるその後のエラーの危険性を減らす。ステア操作が好ましいが、本発明は、後続のエラーの危険性を緩和するための他の訂正機構の使用をも考慮する。そして、方法500はステップ512に進み、そこで訂正可能なエラーの発生が記録される。
【0042】
前記は、本発明の好ましい実施態様に関するが、本発明の基本的範囲を逸することなく、本発明の他の実施態様を考案することができる。本発明の範囲は、請求の範囲によって決定される。
【0043】
まとめとして、本発明の構成に関して以下の事項を開示する。
(1)ディレクトリベースのデータ処理システムにおけるデータを転送する方法であって、
a)要求装置により、前記要求装置に対応する局所メモリに含まれるデータにアクセスするステップと、
b)前記データ中にエラー状態が存在するかどうかを判定するステップと、
c)エラー状態が存在するならば、ディレクトリにアクセスして、遠隔メモリ中に前記データが利用可能であるかどうかを判定するステップと、
d)前記データが前記遠隔メモリで利用可能であるならば、前記遠隔メモリからデータを要求するステップと、
を含む方法。
(2)e)前記遠隔メモリからデータを受け取るステップと、
f)前記データを前記要求装置に供給するステップと、
をさらに含む、上記(1)記載の方法。
(3)ステップd)が、前記要求装置と前記遠隔メモリとを結合する相互接続部に要求を発することを含む、上記(1)記載の方法。
(4)ステップb)がエラー状態が存在しないと判定するならば、前記データを前記要求装置に提供するステップをさらに含む、上記(1)記載の方法。
(5)前記要求装置が、メモリ制御装置、プロセッサおよびそれらの組み合わせから選択されるいずれか一つである、上記(1)記載の方法。
(6)前記遠隔メモリから受け取った前記データで前記局所メモリを更新するステップをさらに含む、上記(1)記載の方法。
(7)エラー状態が存在すると判定したのち、データ・エラーを記録するステップをさらに含む、上記(1)記載の方法。
(8)ステップa)の前に前記データの状態を判定するステップをさらに含む、上記(1)記載の方法。
(9)前記データの状態の判定が、前記ディレクトリにアクセスすることを含む、上記(8)記載の方法。
(10)ステップc)が、前記データの状態を判定することを含む、上記(1)記載の方法。
(11)前記データの状態を判定するステップが、前記データが共用状態にあるかどうかを判定することを含む、上記(10)記載の方法。
(12)e)前記データを含む前記局所メモリのアドレスに位置する1個以上の故障ビットを識別するステップと、
f)前記アドレスにある1個以上のビットを前記遠隔メモリからの1個以上のビットで上書きするステップと、
g)前記アドレスから読み出すステップと、
をさらに含む、上記(1)記載の方法。
(13)h)ステップg)で読み出した前記データに含まれる1個以上の故障ビットを識別するステップと、
i)ステップh)で識別した前記1個以上の故障ビットのいずれかが、ステップe)で識別した前記1個以上の故障ビットにマッチするかどうかを判定するステップと、
をさらに含む、上記(12)記載の方法。
(14)ステップe)およびh)が、前記局所メモリに含まれるデータを前記遠隔メモリから受け取った前記データとで比較することを含む、上記(13)記載の方法。
(15)h)前記局所メモリのアドレスに位置する前記データを前記遠隔メモリからのデータで上書きするステップと、
i)前記アドレスから読み出すステップと、
j)ステップi)で前記アドレスから読み出したデータ中にエラー状態が存在するかどうかを判定するステップと、
k)ステップj)でエラー状態が存在するならば、ステップb)で前記データに含まれていた1個以上の故障ビットがステップi)で前記データに含まれていた1個以上の故障ビットにマッチするかどうかを判定するステップと、
をさらに含む、上記(12)記載の方法。
(16)エラー・データを記録するステップをさらに含む、上記(15)記載の方法。
(17)第一の処理装置、第一のメモリおよびディレクトリを有する第一のノードと、第二の処理装置および第二のメモリを有する第二のノードと、前記第一のノードと前記第二のノードとを結合する相互接続とを含むデータ処理システムであって、
前記第一の処理装置が、
a)前記第一のメモリに含まれるデータにアクセスするステップと、
b)前記データ中にエラー状態が存在するかどうかを判定するステップと、
c)エラー状態が存在するならば、前記ディレクトリにアクセスして、前記データが前記システム上の別の場所に常駐するかどうかを判定するステップと、
を実行するように構成されているデータ処理システム。
(18)前記第一の処理装置が、ステップa)〜c)を実行するように構成されたメモリ制御装置を含む、上記(17)記載のデータ処理システム。
(19)前記第一のノードおよび前記第二のノードが、NUMA(不均一メモリ・アクセス)アーキテクチャおよびCOMA(キャッシュ専用メモリ・アーキテクチャ)から選択されるいずれか一つのアーキテクチャの構成部分である、上記(17)記載のデータ処理システム。
(20)前記第一の処理装置が、ステップc)で前記データの状態を判定するように構成されている、上記(17)記載のデータ処理システム。
(21)前記第一の処理装置が、ステップa)の前に前記ディレクトリにアクセスして、前記データが前記第一のメモリ中に位置するかどうかを判定するように構成されている、上記(17)記載のデータ処理システム。
(22)前記第一の処理装置がプロセッサおよびメモリ制御装置を含み、前記メモリ制御装置が、ステップa)〜c)を実行するように構成され、さらに、
d)エラー状態が存在しないならば、前記データを前記プロセッサに提供するステップを実行するように構成されている、上記(17)記載のデータ処理システム。
(23)前記第一のノードおよび前記相互接続部の少なくとも一つが、
d)前記システム上の別の場所に前記データが常駐するならば、前記第二のノードから前記データを要求するステップをさらに実行するように構成されている、上記(17)記載のデータ処理システム。
(24)前記第一のノードおよび前記相互接続部の少なくとも一つが、
e)前記データを受け取るステップと、
f)前記第二のノードから受け取ったデータで前記第一のメモリを更新するステップと、
をさらに実行するように構成されている、上記(23)記載のデータ処理システム。
(25)前記第一の処理装置が、ステップa〜c)を実行するように構成され、さらに、第一のメモリでアクセスされた前記データを、前記第二のノードから受け取ったデータとで比較して、前記第一のメモリから要求された前記データの1個以上の故障ビットを判定するように設計されているメモリ制御装置を含む、上記(24)記載のデータ処理システム。
(26)前記第一のノードおよび前記相互接続部の少なくとも一つが、
e)前記第二のノードから前記データを受け取るステップと、
f)前記第二のノードから受け取った前記データを前記第一の処理装置に供給するステップと、
g)前記第二のノードから受け取った前記データで前記第一のメモリを更新するステップと、
h)ステップb)でエラー状態が存在しないならば、ステップh)における前記データを前記第一の処理装置に提供するステップと、
をさらに実行するように構成されている、上記(23)記載のデータ処理システム。
(27)前記第一の処理装置が、ステップa)の前に前記ディレクトリにアクセスして、前記データが前記第一のメモリ中に位置するかどうかを判定するように構成されている、上記(26)記載のデータ処理システム。
(28)分散共用メモリを有するディレクトリベースのデータ処理システムであって、
a)第一のプロセッサ、第一のメモリ、第一のメモリ制御装置および前記第一のメモリの1個以上のメモリ・ブロックの状態データを含む第一のディレクトリを少なくとも含む第一のノードと、
b)第二のプロセッサ、第二のメモリ、第二のメモリ制御装置および前記第二のメモリの1個以上のメモリ・ブロックの状態データを含む第二のディレクトリを少なくとも含む第二のノードと、
c)前記第一のノードと前記第二のノードとを結合する相互接続部と、
を含み、前記第一のメモリ制御装置が、前記第一のメモリに含まれるデータにアクセスし、前記データ中にエラー状態が存在するかどうかを判定し、エラー状態が存在するならば、前記データの要求を前記相互接続部に発するように構成されているディレクトリベースのデータ処理システム。
(29)前記第一のプロセッサおよび前記第二のプロセッサが、NUMA(不均一メモリ・アクセス)アーキテクチャおよびCOMA(キャッシュ専用メモリ・アーキテクチャ)から選択されるいずれか一つのアーキテクチャの構成部分である、上記(28)記載のディレクトリベースのデータ処理システム。
(30)前記第一のメモリ制御装置が、前記データにアクセスする前に、前記第一のディレクトリにアクセスして、前記第一のメモリに含まれる前記データの状態を判定するように設計されている、上記(28)記載のディレクトリベースのデータ処理システム。
(31)前記第一のメモリ制御装置が、前記要求を前記相互接続部に発する前に、前記ディレクトリにアクセスして、前記第一のノードが前記データの有効コピーを含むかどうかを判定するように設計されている、上記(28)記載のディレクトリベースのデータ処理システム。
(32)エラー状態が存在するならば、前記第一のノード、前記第二のノードおよび前記相互接続部の一つ以上が、前記データが前記第二のノードに含まれるかどうかを判定し、含まれるならば、前記データを前記第一のノードに提供するように構成されている、上記(28)記載のディレクトリベースのデータ処理システム。
(33)前記第一のメモリ制御装置がさらに、前記エラー状態が訂正不可能なエラーであるのか、訂正可能なエラーであるのかを判定するように構成されている、上記(28)記載のディレクトリベースのデータ処理システム。
(34)前記第一のメモリ制御装置がさらに、前記第一のメモリに含まれる前記データのどのビットがデータ・エラーを含むのかを識別するように構成されている、上記(28)記載のディレクトリベースのデータ処理システム。
(35)前記第一のメモリ制御装置がさらに、前記第一のメモリに含まれる前記データを、前記相互接続に発された前記要求に応答して受け取ったデータとで比較するように構成されている、上記(28)記載のディレクトリベースのデータ処理システム。
【図面の簡単な説明】
【図1】 本発明を適用することができるマルチプロセッサ・システムのブロック図である。
【図2】 図1のノードの詳細ブロック図である。
【図3】 本発明の方法の簡略化論理流れ図である。
【図4】 図3の方法のさらなる詳細を示す論理流れ図である。
【図5】 図4に代わる論理の流れを示すもう一つの論理流れ図である。
【符号の説明】
10 マルチプロセッサ・システム
12 システム相互接続
14 ノード
18 入出力アダプタ
20 入出力装置
21 ネットワーク・インタフェース
22 プロセッサ
24 キャッシュ・メモリ
26 メモリ
28 メモリ制御装置
29 ディレクトリ
30 メモリ・ブロック
32 状態フィールド
34 データ・フィールド
35 アドレス・フィールド

Claims (15)

  1. ディレクトリベースのデータ処理システムにおけるデータを転送する方法であって、
    a)要求装置により、前記要求装置に対応する局所メモリに含まれるデータにアクセスするステップと、
    b)前記データ中にエラー状態が存在するかどうかを判定するステップと、
    c)エラー状態が存在するならば、ディレクトリにアクセスして、遠隔メモリ中に前記データが利用可能であるかどうかを判定するステップと、
    d)前記データが前記遠隔メモリで利用可能であるならば、前記遠隔メモリからデータを要求するステップと、
    e)前記局所メモリのアドレスに位置する前記データを前記遠隔メモリからのデータで上書きするステップと、
    f)前記アドレスから読み出すステップと、
    g)ステップf)で前記アドレスから読み出したデータ中にエラー状態が存在するかどうかを判定するステップと、
    h)ステップg)でエラー状態が存在するならば、ステップb)で前記データに含まれていた1個以上の故障ビットがステップf)で前記データに含まれていた1個以上の故障ビットにマッチするかどうかを判定するステップと、
    i)ステップh)で故障ビットにマッチするならば、故障ビットをハードエラーで置き換えるステップと
    を含む方法。
  2. ステップd)が、前記要求装置と前記遠隔メモリとを結合する相互接続部に要求を発することを含む、請求項1記載の方法。
  3. ステップb)がエラー状態が存在しないと判定するならば、前記データを前記要求装置に提供するステップをさらに含む、請求項1記載の方法。
  4. 前記要求装置が、メモリ制御装置、プロセッサおよびそれらの組み合わせから選択されるいずれか一つである、請求項1記載の方法。
  5. エラー状態が存在すると判定したのち、データ・エラーを記録するステップをさらに含む、請求項1記載の方法。
  6. ステップa)の前に前記データの状態を判定するステップをさらに含む、請求項1記載の方法。
  7. 前記データの状態の判定が、前記ディレクトリにアクセスすることを含む、請求項記載の方法。
  8. ステップc)が、前記データの状態を判定することを含む、請求項1記載の方法。
  9. 前記データの状態を判定するステップが、前記データが共用状態にあるかどうかを判定することを含む、請求項8記載の方法。
  10. 第一の処理装置、第一のメモリおよびディレクトリを有する第一のノードと、第二の処理装置および第二のメモリを有する第二のノードと、前記第一のノードと前記第二のノードとを結合する相互接続部とを含むデータ処理システムであって、
    前記第一の処理装置が、
    a)前記第一のメモリに含まれるデータにアクセスするステップと、
    b)前記データ中にエラー状態が存在するかどうかを判定するステップと、
    c)エラー状態が存在するならば、前記ディレクトリにアクセスして、前記データが前記システム上の別の場所に常駐するかどうかを判定するステップと、
    d)前記システム上の別の場所に前記データが常駐するならば、前記第二のノードから前記データを要求するステップと、
    e)前記第二のノードから前記データを受け取るステップと、
    f)前記第二のノードから受け取った前記データを前記第一の処理装置に供給するステップと、
    g)前記第二のノードから受け取った前記データで前記第一のメモリを更新するステップと、
    h)前記第一のメモリから読み出すステップと、
    i)ステップh)で前記第一のメモリから読み出したデータ中にエラー状態が存在するかどうかを判定するステップと、
    j)ステップi)でエラー状態が存在するならば、ステップb)で前記データに含まれていた該当する故障ビットがステップh)で前記データに含まれていた故障ビットにマッチするかどうかを判定するステップと、
    k)ステップj)で故障ビットにマッチするならば、故障ビットをハードエラーで置き換えるステップと
    を実行するように構成されているデータ処理システム。
  11. 前記第一の処理装置が、ステップa)〜c)を実行するように構成されたメモリ制御装置を含む、請求項10記載のデータ処理システム。
  12. 前記第一のノードおよび前記第二のノードが、NUMA(不均一メモリ・アクセス)アーキテクチャおよびCOMA(キャッシュ専用メモリ・アーキテクチャ)から選択されるいずれか一つのアーキテクチャの構成部分である、請求項10記載のデータ処理システム。
  13. 前記第一の処理装置が、ステップc)で前記データの状態を判定するように構成されている、請求項10記載のデータ処理システム。
  14. 前記第一の処理装置が、ステップa)の前に前記ディレクトリにアクセスして、前記データが前記第一のメモリ中に位置するかどうかを判定するように構成されている、請求項10記載のデータ処理システム。
  15. 前記第一の処理装置が、ステップb)がエラー状態が存在しないと判断するならば、前記データをプロセッサに提供するステップを実行するように構成されている、請求項10記載のデータ処理システム。
JP2001025699A 2000-02-03 2001-02-01 データ転送方法及びデータ処理システム Expired - Fee Related JP3851093B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/497,589 US6615375B1 (en) 2000-02-03 2000-02-03 Method and apparatus for tolerating unrecoverable errors in a multi-processor data processing system
US09/497589 2000-02-03

Publications (2)

Publication Number Publication Date
JP2001249911A JP2001249911A (ja) 2001-09-14
JP3851093B2 true JP3851093B2 (ja) 2006-11-29

Family

ID=23977478

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001025699A Expired - Fee Related JP3851093B2 (ja) 2000-02-03 2001-02-01 データ転送方法及びデータ処理システム

Country Status (5)

Country Link
US (1) US6615375B1 (ja)
JP (1) JP3851093B2 (ja)
KR (1) KR100406575B1 (ja)
CN (1) CN1220949C (ja)
TW (1) TW484069B (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7885336B2 (en) * 2001-02-05 2011-02-08 Ati Technologies Ulc Programmable shader-based motion compensation apparatus and method
US7035470B2 (en) * 2001-02-05 2006-04-25 Ati Technologies, Inc. System for handling errors related to IDCT data and method thereof
US6954875B2 (en) * 2001-03-12 2005-10-11 Honeywell International Inc. Method of recovering a flight critical computer after a radiation event
US6851071B2 (en) * 2001-10-11 2005-02-01 International Business Machines Corporation Apparatus and method of repairing a processor array for a failure detected at runtime
US7043666B2 (en) * 2002-01-22 2006-05-09 Dell Products L.P. System and method for recovering from memory errors
TW200417851A (en) * 2003-03-07 2004-09-16 Wistron Corp Computer system capable of maintaining system's stability while memory is unstable and memory control method
JP2008507777A (ja) * 2004-07-23 2008-03-13 イーエムシー コーポレイション データレプリカのリモート記憶
WO2006067655A1 (en) * 2004-12-21 2006-06-29 Koninklijke Philips Electronics N.V. Method and apparatus for error correction of optical disc data
US7366846B2 (en) * 2005-01-14 2008-04-29 International Business Machines Corporation Redirection of storage access requests
US7328315B2 (en) * 2005-02-03 2008-02-05 International Business Machines Corporation System and method for managing mirrored memory transactions and error recovery
JP5021978B2 (ja) * 2006-08-11 2012-09-12 エヌイーシーコンピュータテクノ株式会社 マルチプロセッサシステム及びその動作方法
US7966526B2 (en) * 2007-04-10 2011-06-21 Galileo Tools Gmbh Software event recording and analysis system and method of use thereof
US20090150721A1 (en) * 2007-12-10 2009-06-11 International Business Machines Corporation Utilizing A Potentially Unreliable Memory Module For Memory Mirroring In A Computing System
JP4878050B2 (ja) * 2008-11-28 2012-02-15 富士通株式会社 コンピュータ及び制御方法
US8510615B2 (en) 2009-10-22 2013-08-13 Xerox Corporation Virtual repair of digital media
US9128887B2 (en) * 2012-08-20 2015-09-08 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Using a buffer to replace failed memory cells in a memory component
JP5800058B2 (ja) * 2014-05-26 2015-10-28 富士通株式会社 情報処理装置、制御方法および制御プログラム
US11544153B2 (en) * 2020-03-12 2023-01-03 International Business Machines Corporation Memory error handling during and/or immediately after a virtual machine migration

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4044337A (en) 1975-12-23 1977-08-23 International Business Machines Corporation Instruction retry mechanism for a data processing system
US4538265A (en) 1983-03-24 1985-08-27 International Business Machines Corporation Method and apparatus for instruction parity error recovery
JPH0680492B2 (ja) 1984-09-29 1994-10-12 株式会社日立製作所 エラー回復方法
US4924466A (en) 1988-06-30 1990-05-08 International Business Machines Corp. Direct hardware error identification method and apparatus for error recovery in pipelined processing areas of a computer system
US5280615A (en) * 1990-03-23 1994-01-18 Unisys Corporation Out of order job processing method and apparatus
DE69227956T2 (de) 1991-07-18 1999-06-10 Tandem Computers Inc., Cupertino, Calif. Multiprozessorsystem mit gespiegeltem Speicher
US5406504A (en) * 1993-06-30 1995-04-11 Digital Equipment Multiprocessor cache examiner and coherency checker
US5771247A (en) 1994-10-03 1998-06-23 International Business Machines Corporation Low latency error reporting for high performance bus
WO1996035169A1 (en) 1995-05-05 1996-11-07 Silicon Graphics, Inc. Page migration in a non-uniform memory access (numa) system
US5720029A (en) 1995-07-25 1998-02-17 International Business Machines Corporation Asynchronously shadowing record updates in a remote copy session using track arrays
US5768623A (en) * 1995-09-19 1998-06-16 International Business Machines Corporation System and method for sharing multiple storage arrays by dedicating adapters as primary controller and secondary controller for arrays reside in different host computers
US5870537A (en) 1996-03-13 1999-02-09 International Business Machines Corporation Concurrent switch to shadowed device for storage controller and device errors
US5933653A (en) 1996-05-31 1999-08-03 Emc Corporation Method and apparatus for mirroring data in a remote data storage system
US5892970A (en) 1996-07-01 1999-04-06 Sun Microsystems, Inc. Multiprocessing system configured to perform efficient block copy operations
US6029231A (en) * 1996-12-03 2000-02-22 Emc Corporation Retrieval of data stored on redundant disks across a network using remote procedure calls
US5881282A (en) 1996-12-10 1999-03-09 Intel Corporation Controlling ill-behaved computer add-on device through a virtual execution mode
US6073209A (en) * 1997-03-31 2000-06-06 Ark Research Corporation Data storage controller providing multiple hosts with access to multiple storage subsystems
US5946709A (en) 1997-04-14 1999-08-31 International Business Machines Corporation Shared intervention protocol for SMP bus using caches, snooping, tags and prioritizing
EP0908825B1 (en) * 1997-10-10 2002-09-04 Bull S.A. A data-processing system with cc-NUMA (cache coherent, non-uniform memory access) architecture and remote access cache incorporated in local memory
US6260069B1 (en) * 1998-02-10 2001-07-10 International Business Machines Corporation Direct data retrieval in a distributed computing system
US6088815A (en) * 1998-02-23 2000-07-11 International Busines Machines Corporation Automatic data recovery for a duplex pair
US6151685A (en) * 1998-05-15 2000-11-21 International Business Machines Corporation System and method for recovering a segment directory for a log structured array
US6275900B1 (en) * 1999-01-27 2001-08-14 International Business Machines Company Hybrid NUMA/S-COMA system and method
US6449731B1 (en) * 1999-03-03 2002-09-10 Tricord Systems, Inc. Self-healing computer system storage
US6725343B2 (en) * 2000-10-05 2004-04-20 Hewlett-Packard Development Company, L.P. System and method for generating cache coherence directory entries and error correction codes in a multiprocessor system

Also Published As

Publication number Publication date
CN1319807A (zh) 2001-10-31
KR100406575B1 (ko) 2003-11-21
KR20010078055A (ko) 2001-08-20
TW484069B (en) 2002-04-21
CN1220949C (zh) 2005-09-28
US6615375B1 (en) 2003-09-02
JP2001249911A (ja) 2001-09-14

Similar Documents

Publication Publication Date Title
JP3851093B2 (ja) データ転送方法及びデータ処理システム
EP1310873B1 (en) Error recovery
US9477550B2 (en) ECC bypass using low latency CE correction with retry select signal
US8205136B2 (en) Fault tolerant encoding of directory states for stuck bits
US6292906B1 (en) Method and apparatus for detecting and compensating for certain snoop errors in a system with multiple agents having cache memories
US5267242A (en) Method and apparatus for substituting spare memory chip for malfunctioning memory chip with scrubbing
EP0989492B1 (en) Technique for correcting single-bit errors in caches with sub-block parity bits
US6480975B1 (en) ECC mechanism for set associative cache array
US5875201A (en) Second level cache having instruction cache parity error control
US7895465B2 (en) Memory preserved cache failsafe reboot mechanism
US20090300298A1 (en) Memory preserved cache to prevent data loss
US6405322B1 (en) System and method for recovery from address errors
US6012127A (en) Multiprocessor computing apparatus with optional coherency directory
US6108753A (en) Cache error retry technique
US5632013A (en) Memory and system for recovery/restoration of data using a memory controller
US7689891B2 (en) Method and system for handling stuck bits in cache directories
JP3129224B2 (ja) キャッシュメモリ装置
US7577890B2 (en) Systems and methods for mitigating latency associated with error detection and correction
US11593236B2 (en) Preserving data integrity during controller failures
US7062611B2 (en) Dirty data protection for cache memories
JP3788822B2 (ja) コンピュータシステムおよびそのシステムにおける障害回復方法
JP3450132B2 (ja) キャッシュ制御回路
EP0128353A2 (en) Error recovery of non-store-through cache
JPH0353660B2 (ja)
JPS60110047A (ja) エラ−訂正方式

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20041119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050118

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20050412

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20050415

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050714

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050913

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20051207

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20051212

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060309

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060322

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20060622

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20060630

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060807

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060822

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060831

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090908

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100908

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100908

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110908

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120908

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130908

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees