JP2006146920A - メモリエラーを分類するための方法および装置 - Google Patents

メモリエラーを分類するための方法および装置 Download PDF

Info

Publication number
JP2006146920A
JP2006146920A JP2005330822A JP2005330822A JP2006146920A JP 2006146920 A JP2006146920 A JP 2006146920A JP 2005330822 A JP2005330822 A JP 2005330822A JP 2005330822 A JP2005330822 A JP 2005330822A JP 2006146920 A JP2006146920 A JP 2006146920A
Authority
JP
Japan
Prior art keywords
error
memory location
reading
correctable
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005330822A
Other languages
English (en)
Other versions
JP4907154B2 (ja
Inventor
Stephen A Chessin
エー. チェッシン スティーブン
Tarik P Soydan
ピー. ソイダン タリク
Louis Y Tsien
ワイ. チェン ルイス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Microsystems Inc
Original Assignee
Sun Microsystems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Microsystems Inc filed Critical Sun Microsystems Inc
Publication of JP2006146920A publication Critical patent/JP2006146920A/ja
Application granted granted Critical
Publication of JP4907154B2 publication Critical patent/JP4907154B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1008Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices
    • G06F11/1012Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices using codes or arrangements adapted for a specific type of error
    • G06F11/1024Identification of the type of error

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)
  • Memory System Of A Hierarchy Structure (AREA)
  • Debugging And Monitoring (AREA)
  • For Increasing The Reliability Of Semiconductor Memories (AREA)

Abstract

【課題】コンピュータシステム内のメモリエラーの原因を正確に決定する装置を提供する。
【解決手段】本発明のシステムは、第1に、第1のプロセッサによってメインメモリにおけるメモリ位置へのアクセスの間、訂正可能なエラーを検出する(402)。訂正可能なエラーは、エラー検出および訂正回路によって検出される。次にシステムは、メモリ位置に関連されたキャッシュラインのためのタグビットを読み取る(408)。タグビットは、キャッシュラインのための一貫性プロトコル状態を示す状態情報だけでなく、キャッシュラインのアドレス情報をも含む。次いで、テスト結果を生成するために、第1のプロセッサに、メモリ位置に対する読み取りおよび書き込み動作を実行させることによって、メモリ位置をテストする。最後にシステムは、可能な場合、訂正可能なエラーの原因を決定する(418、430、432)ために、テスト結果およびタグビットを使用する。
【選択図】図4

Description

本発明は、コンピュータシステムにおけるエラーを扱うための技術に関する。より詳細には、本発明は、コンピュータシステムにおけるメモリエラーを分類するための方法および装置に関する。
コンピュータメモリは増加的に容量がより大きくなり、個々のメモリセルは進歩的により小さくなるにつれて、宇宙線のような自然現象のためにエラーが相当に発生し得るようになってきている。さらに、コンピュータシステムが速度を速め続けているので、データは、プロセッサとメモリとの間のより速い速度で転送されなければならない。これは、データエラーの別のソースを作成する。なぜならば、より速いデータ速度は、プロセッサとメモリとの間のデータを転送する一方でエラーが生じる可能性を増大させるからである。
通常、コンピュータシステムは、メモリエラーを検出および訂正するためにエラー訂正コードを使用する。これは、普通、メモリにおけるそれぞれのデータワードに沿って、記憶されたエラー訂正コード(error−correcting code)(ECC)ビットを含み、次いで、データワードがメインメモリとプロセッサ(関連されたキャッシュメモリ)との間で転送された場合に、データワードに沿ってECCビットを転送する。一般に使用されるエラー訂正コードは、通常、それぞれのデータワードのための、2ビットエラー検出(double−error detection)および1ビットエラー訂正(single−error correction)をサポートする。それゆえ、コンピュータシステムは、通常、メインメモリから引き出されるデータワードにおける、2ビットエラーおよび1ビットエラーを検出することができる。
一部のコンピュータシステムは、さらに一ステップ進み、メモリエラーの原因を決定するためのメカニズムを提供する。例えば、メインメモリからデータワードを読み取る一方で、訂正可能なエラーに遭遇した場合、コンピュータシステムは、メモリエラーのその原因を決定するために、二回目の読み取る時にデータワードを読み取ることができる。エラーが、二回目の読み取りの間に発生しない場合、そのシステムは、エラーが「間欠エラー」であると決定することができ、例えば、それは、プロセッサとメインメモリとの間のデータライン上の一過性のノイズによって生じる。
他方で、二回目の読み取りはまた、エラーに遭遇した場合、コンピュータシステムがデータワードを訂正し、メインメモリにそれを書き込むために、そのECC回路を使用することができる。次いで、エラーの原因を決定するために、コンピュータシステムは、3回目で、データワードを読み取ることができる。3回目の読み取りはまた、エラーと遭遇した場合、システムは、エラーが「スティッキー(sticky)エラー」であること(「スティッキーエラー」は、例えば、メインメモリにおけるワードデータにおいて、「スタック(stuck)」ビットによって生じる)を決定することができる。他方で、三回目の読み取りが訂正されたデータワードを戻す場合、システムは、エラーが「永続的エラー」であったこと(メインメモリにおけるデータワードの状態における変化によって生じ得る)を決定することができる。
残念ながら、メモリエラーの原因を決定するための上記に記載されたメカニズムは、キャッシュメモリの存在において非常に複雑になり得ている。キャッシュメモリがメインメモリへのアクセスを媒介することに注意したい。しかしながら、そうすることによって、キャッシュメモリは、誤った(errant)メモリアクセスをリトライする企てを妨害し、それにより、メモリエラーの原因を決定するプロセスを妨害することができる。
例えば、コンピュータシステムに、メモリ位置への二回目の読み取り動作を実行させるために、キャッシュからのメモリ位置に関連されたキャッシュラインを除去する(flush)ことが第1に必要であり、その読み取り動作は実際に、キャッシュラインに、メインメモリから引き出させる。しかしながら、この除去が起こった場合で、キャッシュラインが汚れていた場合、その除去は、キャッシュラインをメモリへ記憶され戻させ、エラーを訂正し得る。それゆえ、メモリからの次の二回目の読み取りはエラーと遭遇し得ない。これは、エラーが実際には永続的エラーであった場合だとしても、間欠エラーとして診断されたエラーという結果になり得る(誤診断エラーのこのタイプは「偽(false)間欠エラー」と呼ばれる)。
さらに、既存の技術はメモリエラーの特定のタイプの間の差異を識別することができない。例えば、「リーキー(leaky)セル」状態は、メモリセルが負荷を持たない場合に起こり得る。この場合、上記に記載されたメカニズムは、そのエラーがリーキーセルである代わりに、永続的エラーであると誤って決定する。さらに、エラーは、マルチプロセッサシステムにおける特定のプロセッサが、「不良な読み取り装置(bad reader)」または「不良な書き込み装置(bad writer)」である場合、エラーは起こり得る。エラーのこれらのタイプは、既存の技術にては、どちらも診断され得ない。
明らかに、メモリエラーの原因が正確に決定され得る場合に、効果的な矯正アクションが取られ得る。例えば、メモリエラーが正確に診断されてない場合、一部分が取り替えられる必要があるかどうか、その場合、どの部分が取り替えられる必要があるかどうかを、確かめることは不可能である。
それゆえ、必要となるものは、上記に記載された問題なしで、コンピュータシステム内のメモリエラーの原因を正確に決定する方法および装置である。
本発明における一実施形態は、訂正可能なメモリエラーの原因を決定するシステムを提供することである。第1に、システムは、第1のプロセッサによってメインメモリにおけるメモリ位置へのアクセスの間、訂正可能なエラーを検出する。その訂正可能なエラーは、エラー検出訂正回路によって検出される。次に、システムは、メモリ位置に関連されたキャッシュラインのためのタグビットを読み取る。そのタグビットは、キャッシュラインのための一貫性プロトコル状態(coherency protocol state)を示す状態情報と、キャッシュラインのためのアドレス情報をも含む。次いでシステムは、テスト結果を生成するために、第1のプロセッサに、メモリ位置へ読み取り動作および書き込み動作を実行させることによって、メモリ位置をテストする。最後に、システムは、可能な場合、訂正可能なエラーの原因を決定するために、テスト結果およびタグビットを使用する。
この実施形態での一つの変形において、メモリ位置をテストすることは、訂正可能なエラーについての情報を含むasynchronous fault status register(AFSR)およびasynchronous fault address register(AFAR)をクリアすることと、キャッシュからキャッシュラインをフラッシュする(flush)ことと、キャッシュラインを、メインメモリからキャッシュに引き込まさせられることで、メモリ位置を再度読み取ることと、AFSRおよびAFARレジスタを読み取り、クリアすることと、エラー検出訂正回路に、訂正可能なエラーを訂正させることと、メインメモリへキャッシュライン(エラーは訂正されている)をフラッシュして戻すこととを含む。
さらなる変形において、メモリ位置を再度読み取ることは、キャッシュにおける修正された状態においてキャッシュラインが存在することを保証するために、微小の比較およびスワップ(CAS)動作の実行を含む。
さらなる変形において、メモリ位置を再度読み取ることが訂正可能なエラーを生じさせない場合、システムは、以前の読み取りタグビットを試験することによって訂正可能なエラーの原因を決定する。システムは、(1)タグからのアドレスビットが、AFARから訂正可能なエラー読み取りのためのアドレスに対応するビットと一致する場合、および、(2)タグからの状態ビットが、タグビットが読み取られた場合、キャッシュラインがキャッシュにおいて、共有された状態、または排他的な状態のいずれかである場合、訂正可能なエラーが間欠エラーであると決定する。
さらなる変形において、メモリ位置を再度読み取ることが、訂正可能なエラーを生じさせる場合、システムは、さらに再度メモリ位置を読み取り、AFSRおよびAFARを読み取り、クリアする。
さらなる変形において、メモリ位置をさらに再度読み取ることが訂正可能なエラーを生じさせない場合、システムは、所定の時間間隔の後にメモリ位置を読み取る。所定の時間間隔の後にメモリ位置を読み取ることが訂正可能なエラーを生じさせる場合、システムは、メモリ位置がリーキーであることを決定する。さもなければ、システムは、訂正可能なエラーが永続的エラーであることを決定する。
この実施形態での一つの変形において、メモリ位置をさらに再度読み取ることが訂正可能なエラーを生じさせる場合、システムは、第2のプロセッサに、訂正可能なエラーを分類させる。第2のプロセッサがエラーを検出しない場合、システムは、第1のプロセッサが不良な読み取り装置であることを決定する。第2のプロセッサがスティッキーなエラーではないエラーを検出する場合、システムは第1のプロセッサが不良な書き込み装置であることを決定する。さもなければ、第2のプロセッサがスティッキーなエラーを検出する場合、システムは、メモリ位置における少なくとも一つのビットがスタックしている(is stuck)ことを決定する。
本発明は、さらに以下の手段を提供する。
(項目1)
訂正可能なメモリエラーの原因を決定する方法であって、
第1のプロセッサによるメインメモリにおけるメモリ位置へのアクセスの間、エラー検出訂正回路によって検出される該訂正可能なエラーを検出することと、
該メモリ位置に関連されたキャッシュラインのためにタグビットを読み取ることであって、該タグビットは、該キャッシュラインのためのアドレス情報および、該キャッシュラインのための一貫性プロトコル状態を指示する状態情報を含む、ことと、
テスト結果を生成するために、該第1のプロセッサに、該メモリ位置に対する読み取り動作および書き込み動作を実行させることによって、該メモリ位置をテストすることと、
可能である場合、該訂正可能なエラーの原因を決定するために、該テスト結果および該タグビットを利用することと
を包含する、方法。
(項目2)
上記メモリ位置をテストすることが、
上記訂正可能なエラーについての情報を含む、asynchronous fault status register(AFSR)およびasynchronous fault address register(AFAR)をクリアすることと、
キャッシュから上記キャッシュラインをフラッシュすることと、
該メモリ位置を再度読み取ることであって、それによって、メインメモリから該キャッシュへ、該キャッシュラインが引き戻される、ことと、
該AFSRおよび該AFARレジスタを読み取り、クリアすることと、
上記エラー検出訂正回路に、該訂正可能なエラーを訂正させることと、
該キャッシュライン(エラーは訂正されている)をメインメモリへフラッシュして戻すことと
を包含する、項目1に記載の方法。
(項目3)
上記メモリ位置を再度読み取ることが、上記キャッシュにおける修正された状態において上記キャッシュラインが存在することを保証するために、アトミックな比較およびスワップ(CAS)動作を実行することを包含する、項目1に記載の方法。
(項目4)
上記メモリ位置を再度読み取ることが訂正可能なエラーを生じさせない場合、上記訂正可能なエラーの原因を決定することが、
上記読み取りタグビットを試験することと、
上記タグからのアドレスビットが、上記AFARからの訂正可能なエラーの読み取りのアドレスの対応するビットと一致する場合、および、キャッシュラインが該タグビットが読み取られた場合にキャッシュにおいて、共有された(S)状態または排他的(E)状態であることを、該タグからの状態ビットが指示する場合、間欠エラーがあることを決定することと
を含む、項目2に記載の方法。
(項目5)
上記メモリ位置を再度読み取ることが訂正可能なエラーを生じさせる場合、上記方法が、
該メモリ位置をさらに再度読み取ることと、
上記AFSRおよび上記AFARレジスタを再度読み取りおよびクリアすることと
をさらに包含する、項目2に記載の方法。
(項目6)
上記メモリをさらに再度読み取ることが訂正可能なエラーを生じさせない場合、上記方法が、
所定の時間間隔の後に上記メモリ位置を再度読み取ることと、
該所定の時間間隔の後に該メモリ位置を再度読み取ることが、訂正可能なエラーを生じさせる場合、該メモリ位置がリーキーであることを決定することと、
さもなければ、該訂正可能なエラーが永続的エラーであることを決定することと
をさらに包含する、項目5に記載の方法。
(項目7)
上記メモリ位置をさらに再度読み取ることが訂正可能なエラーを生じさせる場合、上記方法が、
第2のプロセッサに、該訂正可能なエラーを分類させることと、
該第2のプロセッサがエラーを検出しない場合、上記第1のプロセッサが不良な読み取り装置であると決定することと、
該第2のプロセッサがスティッキーエラーでないエラーを検出する場合、該第1のプロセッサが不良な書き込み装置であると決定することと、
該第2のプロセッサがスティッキーエラーを検出する場合、該メモリ位置における少なくとも一つのビットがスタックしていると決定することと
をさらに包含する、項目5に記載の方法。
(項目8)
コンピュータによって実行された場合、該コンピュータに、訂正可能なメモリエラーの原因を決定するための方法を実行させる命令を記憶するコンピュータ可読の記憶媒体であって、該方法は、
第1のプロセッサによるメインメモリにおけるメモリ位置へのアクセスの間、エラー検出訂正回路によって検出される訂正可能なエラーを検出することと、
該メモリ位置に関連されたキャッシュラインのためにタグビットを読み取ることであって、該タグビットは、該キャッシュラインのためのアドレス情報および、該キャッシュラインのための一貫性プロトコル状態を指示する状態情報を含む、ことと、
テスト結果を生成するために、該第1のプロセッサに、該メモリ位置に対する読み取り動作および書き込み動作を実行させることによって、該メモリ位置をテストすることと、
可能である場合、該訂正可能なエラーの原因を決定するために、該テスト結果および該タグビットを利用することと
を包含する、コンピュータ可読の記憶媒体。
(項目9)
上記メモリ位置をテストすることが、
上記訂正可能なエラーについての情報を含む、asynchronous fault status register(AFSR)およびasynchronous fault address register(AFAR)をクリアすることと、
キャッシュから上記キャッシュラインをフラッシュすることと、
該メモリ位置を再度読み取ることであって、それによって、メインメモリから該キャッシュへ、該キャッシュが引き戻される、ことと、
該AFSRおよび該AFARレジスタを読み取り、およびクリアすることと、
上記エラー検出訂正回路に、訂正可能なエラーを訂正させることと、
該キャッシュライン(エラーは訂正されている)をメインメモリへフラッシュして戻すことと
を含む、項目8に記載のコンピュータ可読の記憶媒体。
(項目10)
上記メモリ位置を再度読み取ることが、上記キャッシュにおける修正された状態において、上記キャッシュラインが存在することを保証するために、アトミックな比較およびスワップ(CAS)動作を実行することを包含する、項目8に記載のコンピュータ可読の記憶媒体。
(項目11)
上記メモリ位置を再度読み取ることが、訂正可能なエラーを生じさせない場合、該訂正可能なエラーの原因を決定することが、
以前の読み取りタグビットを試験することと、
上記タグからのアドレスビットが上記AFARからの該訂正可能なエラー読み取りの上記アドレスに対応するビットと一致する場合、および、キャッシュラインが、該タグビットが読み取られた場合にキャッシュにおいて、共有された(S)状態または排他的(E)状態であることを、該タグからの状態ビットが指示する場合、間欠エラーがあることを決定することと
を含む、項目9に記載のコンピュータ可読の記憶媒体。
(項目12)
上記メモリ位置を再度読み取ることが訂正可能なエラーを生じさせる場合、上記方法が、
該メモリ位置をさらに再度読み取ることと、
上記AFSRおよび上記AFARレジスタを再度読み取り、クリアすることと
をさらに包含する、項目9に記載のコンピュータ可読の記憶媒体。
(項目13)
上記メモリ位置をさらに再度読み取ることが訂正可能なエラーを生じさせない場合、上記方法が、
所定の時間間隔の後に該メモリ位置を再度読み取ることと、
該所定の時間間隔の後に該メモリ位置を再度読み取ることが訂正可能なエラーを生じさせる場合、該メモリ位置がリーキーであることを決定することと、
さもなければ、該訂正可能なエラーが永続的エラーであることを決定することと
をさらに包含する、項目12に記載のコンピュータ可読の記憶媒体。
(項目14)
上記メモリ位置をさらに再度読み取ることが訂正可能なエラーを生じさせる場合、上記方法が、
第2のプロセッサに該訂正可能なエラーを分類させることと、
該第2のプロセッサがエラーを検出しない場合、上記第1のプロセッサが不良な読み取り装置であると決定することと、
該第2のプロセッサがスティッキーエラーでないエラーを検出する場合、該第1のプロセッサが不良な書き込み装置であると決定することと、
該第2のプロセッサがスティッキーエラーを検出する場合、該メモリ位置における少なくとも一つのビットがスタックしていると決定することと
をさらに包含する、項目12に記載のコンピュータ可読の記憶媒体。
(項目15)
上記訂正可能なメモリエラーの原因を決定する装置であって、
第1のプロセッサによるメインメモリにおけるメモリ位置へのアクセスの間、訂正可能なエラーを検出するように構成されたエラー訂正検出回路と、
該メモリ位置に関連されたキャッシュラインのためにタグビットを読み取るように構成された読み取りメカニズムであって、該タグビットは、該キャッシュラインのためのアドレス情報および、該キャッシュラインのための一貫性プロトコル状態を指示する状態情報を含む、読み取りメカニズムと、
テスト結果を生成するために、該第1のプロセッサに、該メモリ位置に対する読み取り動作および書き込み動作を実行させることによって、該メモリ位置をテストするように構成されたテストメカニズムと、
可能である場合、該訂正可能なエラーの原因を決定するために、該テスト結果および該タグビットを利用するように構成された、エラー分類メカニズムと
を備える、装置。
(項目16)
上記テストメカニズムが、
上記訂正可能なエラーについての情報を含む、asynchronous fault status register(AFSR)およびasynchronous fault address register(AFAR)をクリアするように、
キャッシュから上記キャッシュラインをフラッシュするように、
該メモリ位置を再度読み取るようにであって、それによって、メインメモリから該キャッシュへ、該キャッシュラインが引き戻される、ように、
該AFSRおよび該AFARレジスタを読み取り、クリアするように、
上記エラー検出訂正回路に、該訂正可能なエラーを訂正させるように、および、
該キャッシュライン(エラーは訂正されている)をメインメモリへフラッシュして戻すように、
構成される、項目15に記載の装置。
(項目17)
上記メモリ位置を再度読み取る間、上記テストメカニズムは、上記キャッシュにおける修正された状態において上記キャッシュラインが存在することを保証するために、アトミックな比較およびスワップ(CAS)動作を実行するように構成されている、項目15に記載の装置。
(項目18)
上記メモリ位置を再度読み取ることが訂正可能なエラーを生じさせない場合、エラー分類メカニズムが、
以前に読み取られたタグビットを試験するように、および、
上記タグからのアドレスビットが、上記AFARからの訂正可能なエラー読み取りのためのアドレスに対応するビットと一致する場合、および、キャッシュラインが、該タグビットが読み取られていた場合にキャッシュにおいて共有された(S)状態または排他的(E)状態であることを、該タグからの状態ビットが指示する場合、間欠エラーがあることを決定するように
構成される、項目16に記載の装置。
(項目19)
上記メモリ位置を再度読み取ることが訂正可能なエラーを生じさせる場合、上記エラー分類メカニズムが、
該メモリ位置をさらに再度読み取るように、および、
上記AFSRおよび上記AFARレジスタを再度読み取り、クリアするように
構成される、項目16に記載の装置。
(項目20)
上記メモリをさらに再度読み取ることが訂正可能なエラーを生じさせない場合、上記エラー分類メカニズムが、
所定の時間間隔の後に上記メモリ位置を再度読み取るように、
該所定の時間間隔の後に該メモリ位置を再度読み取ることが訂正可能なエラーを生じさせる場合、該メモリ位置がリーキーであることを決定するように、および、
さもなければ、該訂正可能なエラーが永続的エラーであることを決定するように、
構成される、項目19に記載の装置。
(項目21)
上記メモリ位置をさらに再度読み取ることが訂正可能なエラーを生じさせる場合、上記エラー分類メカニズムは、
第2のプロセッサに、該訂正可能なエラーを分類させるように、
該第2のプロセッサがエラーを検出しない場合、上記第1のプロセッサが不良な読み取り装置であると決定するように、
該第2のプロセッサがスティッキーエラーでないエラーを検出する場合、該第1のプロセッサが不良な書き込み装置であると決定するように、および、
該第2のプロセッサがスティッキーエラーを検出する場合、該メモリ位置における少なくとも一つのビットがスタックしていると決定するように、
構成される、項目19に記載の装置。
(摘要)
本発明における一実施形態は、訂正可能なメモリエラーの原因を決定するシステムを提供する。第1に、システムは、第1のプロセッサによってメインメモリにおけるメモリ位置へのアクセスの間、訂正可能なエラーを検出する。その訂正可能なエラーは、エラー検出および訂正回路によって検出される。次に、システムは、メモリ位置に関連されたキャッシュラインのためのタグビットを読み取る。そのタグビットは、キャッシュラインのための一貫性プロトコル状態を示す状態情報だけでなく、キャッシュラインのためのアドレス情報をも含む。次いでシステムは、テスト結果を生成するために、第1のプロセッサに、メモリ位置へ読み取り動作および書き込み動作を実行させることによって、メモリ位置をテストする。最後に、システムは、可能な場合、訂正可能なエラーの原因を決定するために、テスト結果およびタグビットを使用する。
以下の記述は、当業者が本発明を作成または利用することができるように示されており、特定の応用およびその必要に関連して提供される。開示された実施形態への様々な修正は、当業者にとって容易に明らかであり、ここにおいて定義される一般的な原理は、本発明の意図および範囲からそれることなく、他の実施形態および応用へ適応される。このように、本発明は、ここで示される実施形態に限定されるものではなく、ここにおいて開示された原理および特徴と一貫した、最も広い範囲に従うものである。
この詳細な説明において記述されるデータ構造およびコードは、通常、コンピュータ可読記憶媒体上に記憶され、コンピュータシステムによる使用のためのコードおよび/またはデータを記憶することが可能な任意の装置または媒体であり得る。これはディスクドライブ、磁気テープ、CD(コンパクトディスク)、およびDVD(digital versatile discまたはデジタルビデオディスク)などのような磁気および光学記憶装置、ならびに、伝送媒体(信号が変調される搬送波があってもなくても)において実施されるコンピュータ指示信号を含むが、それらに限定されるものではない。例えば、伝送媒体は、インターネットのような通信ネットワークを含み得る。
(コンピュータシステム)
図1は、本発明における一実施形態にしたがったコンピュータシステム100を示す。コンピュータシステム100は、一般に、一つ以上のキャッシュおよび一つ以上のプロセッサを有するコンピュータシステムの任意のタイプを含み得る。これは、マイクロプロセッサに基づくコンピュータシステム、メインフレームコンピュータ、デジタル信号プロセッサ、ポータブルコンピュータ装置、パーソナルオーガナイザー、デバイス制御器、および電気機器を有する計算エンジンを含むが、それらに限定されるものではない。
図1に示されるように、コンピュータシステム100は、プロセッサ102およびプロセッサ112を含み、それらは個々に、キャッシュ104およびキャッシュ114に関連される。キャッシュ104およびキャッシュ114は、メインメモリ122から引き出されるキャッシュラインのためのタグおよびデータを含む。メインメモリ122は、ランダムアクセスメモリの任意のタイプを含み、それは、コンピュータシステム100のためのコードおよびデータを記憶する。特に、メインメモリ122は、キャッシュライン124〜126を含み、キャッシュラインと関連されたデータを記憶することができる。
キャッシュライン124〜126は、通信ネットワーク120を介して、メインメモリ122とキャッシュ104および114との間で転送され得、キャッシュ104および114におけるキャッシュラインのコピーが、メインメモリ122におけるキャッシュラインのための対応するデータと一致され続けることを保証するためのキャッシュ一貫性(cache−coherence)プロトコルをサポートする。例えば、本発明における一実施形態において、コンピュータシステム100は、MOESI(Modified−Owned−Exclusive−Shared−Invalid)キャッシュ一貫性プロトコルの一つの変形をサポートする。
コンピュータシステム100はまた、図2〜図5にて参照する以下のさらなる記述において記載されるように、メモリエラーを分類するためのサポートを提供する。
(データワード)
図2は、本発明の一実施形態にしたがうメインメモリ122におけるデータワード200を示す。データワード200は、ECCビット204だけでなく、データ202をも含み、複合データワードのための1ビットエラー訂正および2ビットエラー検出をサポートし、データ202およびECCビット204の両方を含む。
(キャッシュラインタグ)
図3は、本発明の一実施形態にしたがったキャッシュラインのためのタグ300を示す。タグ300は、対応するキャッシュラインのための、より上位のアドレスビット302を含む。タグ300はまた、状態ビット304を含み、その対応するキャッシュラインのためのMOESI状態を特定する。これらの状態ビット304はまた、対応するキャッシュラインが汚れているかいないかといった、その対応するキャッシュラインのための他の情報をも示すことができる。
(メモリエラーの原因を診断するプロセス)
図4は、本発明の一実施形態にしたがうメモリエラーの原因を診断するプロセスを示すフローチャートの一部である。メインメモリ内の位置から読み取り動作間のプロセッサ内のECC回路によって、訂正可能なエラーが検出された場合、このプロセスは開始する(ステップ402)。
この訂正可能なエラーに応答して、システムは多数のアクションを実行する。第1に、システムは、訂正可能なエラー(CE)のトラップをオフにし(ステップ404)、AFSR/AFAR登録を読み取り、クリアする(ステップ406)。次に、システムは、メモリ位置に関連されたキャッシュラインからタグを読み取る(ステップ408)。
システムは、次いで、キャッシュからキャッシュラインを除去する(ステップ410)。これは、メモリ位置に指示された次の読み取り動作が、キャッシュラインにメインメモリから読み取りをされることを保証する。次に、システムは、メインメモリからのキャッシュラインを修正された(M)状態におけるキャッシュに引き込むために、比較およびスワップ(compare−and−swap)(CAS)動作を実行する(ステップ412)。このCAS動作は、アトミックな(atomic)動作であり、他のプロセス(またはプロセッサ)は、M状態において、キャッシュラインをキャッシュに持ち込むプロセスを妨害することに注意したい。
次に、システムは、メインメモリへキャッシュからキャッシュラインを除去する(ステップ414)。CAS動作がまたCEを生じさせる場合、キャッシュラインがCAS動作によるキャッシュにインストールされる以前に、エラー訂正回路は自動的にエラーを訂正することに注意したい。ゆえに、メインメモリへキャッシュラインを除去することは、訂正されたデータを、メモリに書き込みさせる。
次に、システムは、例えば、AFSRにおけるCEビットを試験することによって、先行するCAS動作がCEを生じさせたかどうかを決定する(ステップ416)。そうでない場合、システムは、古いエラータイプ(先行技術システムの下での)が間欠エラーであることを決定する(ステップ418)。
他方で、ステップ416で、システムは、先行するCAS動作がまた、CEを生じさせたと決定する場合、システムは、再度、メモリからキャッシュラインを読み取り(ステップ424)、次いで、AFSR/AFARを読み取り、クリアする(ステップ426)。
次に、システムは、読み取り動作がCEを生じさせたかどうかを決定する(ステップ428)。生じた場合、システムは、古いエラータイプがスティッキ−エラーであることを決定する(ステップ430)。生じない場合、システムは、古いエラータイプが永続的エラーであることを決定する(ステップ432)。
ついで、これらのありうる終端の状態、418、430、432のそれぞれから、システムは図5のフローチャートにおいて特定された動作を続行する。第1に、システムは古いエラータイプおよび以前の読み取りキャッシュラインタグからエラーの新しいタイプを決定するために、表1(下にある)を使う(ステップ502)。表1は、本発明における一実施形態にしたがった、メモリエラーを分類するための表を表している。
Figure 2006146920
次に、表1が、新しいエラータイプが「不明」を指示した場合、システムは不明エラー(ステップ504)を指示する。同様に、表1が、新しいエラータイプが「間欠」であると指示した場合、システムは、間欠エラーを指示する(ステップ506)。
表1を参照し、キャッシュライン状態がI、M、またはOだった場合(ステップ410におけるキャッシュラインの除去がメインメモリへの書き込みを生じていることを意味する)、および、古いエラータイプが間欠だった場合、新しいエラータイプは間欠の代わりに「不明」である。これは、偽間欠の診断を防ぐ。
次に、表1が、新しいエラータイプが「永続的」と指示する場合、システムは、後において、メモリ位置の再読み取りを計画し、次いで実行する(ステップ508)。再読み取りが完了した後、システムは、訂正可能なエラーが生じているかどうかを決定する(ステップ510)。生じていない場合、システムは永続的エラーを指示する(ステップ514)。さもなければ、訂正可能なエラーが再読み取りの間に生じた場合、システムは「リーキーメモリセル」を指示する(ステップ512)。(この場合、負荷は、再読み取りの間のエラーを生じさせるメモリセルをリークする。)
次に、表1が、新しいエラータイプが「スティッキ−」であると指示する場合、システムは、コンピュータシステムにおける第2のプロセッサに、メモリエラーを分類させる(ステップ516)。第2のプロセッサによってエラーが検出されない場合、システムは、第1のプロセッサが不良な読み取り装置であることを指示する(ステップ519)。
さもなければ、システムは、第2のプロセッサがそのエラーをスティッキーエラーとして分類したかどうかを決定する(ステップ520)。スティッキーエラーである場合、システムは、メモリセルがくっついていることを指示する(ステップ524)。スティッキーエラーでない場合、システムは第1のプロセッサが不良な書き込み装置であると指示する(ステップ522)。
最後に、システムが、状態504、506、512、514、519、522および524において、様々なエラー状態を指示した後、システムはCEのために、トラップをオンにする(ステップ526)。ここで、診断プロセスは完了する。
本発明における実施形態の前述の記載は、図示および描写のためだけの目的で示されている。それらは網羅的であることを意図されているわけではなく、または、本発明を開示された形式に限定することを意図されているわけでもない。したがって、多くの修正や変化が当業の実施者にとって明らかである。追加的に、上記の開示は本発明を限定することを意図されていない。本発明の範囲は、添付された請求項によって限定される。
本発明の一実施形態にしたがったコンピュータシステムである。 本発明の一実施形態にしたがったメモリにおけるデータワードである。 本発明の一実施形態にしたがったキャッシュラインのためのタグである。 本発明の一実施形態にしたがった、メモリエラーの原因を診断するプロセスのためのフローチャートの一部を示す。 本発明の一実施形態にしたがった、メモリエラーの原因を診断するプロセスのためのフローチャートの別の一部を示す。
符号の説明
102 プロセッサ
104 キャッシュ
106 タグ
108 データ
112 プロセッサ
114 キャッシュ
116 タグ
118 データ
120 ネットワーク
122 メインメモリ
124、125、126 キャッシュライン

Claims (21)

  1. 訂正可能なメモリエラーの原因を決定する方法であって、
    第1のプロセッサによるメインメモリにおけるメモリ位置へのアクセスの間、エラー検出訂正回路によって検出される該訂正可能なエラーを検出することと、
    該メモリ位置に関連されたキャッシュラインのためにタグビットを読み取ることであって、該タグビットは、該キャッシュラインのためのアドレス情報および、該キャッシュラインのための一貫性プロトコル状態を指示する状態情報を含む、ことと、
    テスト結果を生成するために、該第1のプロセッサに、該メモリ位置に対する読み取り動作および書き込み動作を実行させることによって、該メモリ位置をテストすることと、
    可能である場合、該訂正可能なエラーの原因を決定するために、該テスト結果および該タグビットを利用することと
    を包含する、方法。
  2. 前記メモリ位置をテストすることが、
    前記訂正可能なエラーについての情報を含む、asynchronous fault status register(AFSR)およびasynchronous fault address register(AFAR)をクリアすることと、
    キャッシュから前記キャッシュラインをフラッシュすることと、
    該メモリ位置を再度読み取ることであって、それによって、メインメモリから該キャッシュへ、該キャッシュラインが引き戻される、ことと、
    該AFSRおよび該AFARレジスタを読み取り、クリアすることと、
    前記エラー検出訂正回路に、該訂正可能なエラーを訂正させることと、
    該キャッシュライン(エラーは訂正されている)をメインメモリへフラッシュして戻すことと
    を包含する、請求項1に記載の方法。
  3. 前記メモリ位置を再度読み取ることが、前記キャッシュにおける修正された状態において前記キャッシュラインが存在することを保証するために、アトミックな比較およびスワップ(CAS)動作を実行することを包含する、請求項1に記載の方法。
  4. 前記メモリ位置を再度読み取ることが訂正可能なエラーを生じさせない場合、前記訂正可能なエラーの原因を決定することが、
    前記読み取りタグビットを試験することと、
    前記タグからのアドレスビットが、前記AFARからの訂正可能なエラーの読み取りのアドレスの対応するビットと一致する場合、および、キャッシュラインが該タグビットが読み取られた場合にキャッシュにおいて、共有された(S)状態または排他的(E)状態であることを、該タグからの状態ビットが指示する場合、間欠エラーがあることを決定することと
    を含む、請求項2に記載の方法。
  5. 前記メモリ位置を再度読み取ることが訂正可能なエラーを生じさせる場合、前記方法が、
    該メモリ位置をさらに再度読み取ることと、
    前記AFSRおよび前記AFARレジスタを再度読み取りおよびクリアすることと
    をさらに包含する、請求項2に記載の方法。
  6. 前記メモリをさらに再度読み取ることが訂正可能なエラーを生じさせない場合、前記方法が、
    所定の時間間隔の後に前記メモリ位置を再度読み取ることと、
    該所定の時間間隔の後に該メモリ位置を再度読み取ることが、訂正可能なエラーを生じさせる場合、該メモリ位置がリーキーであることを決定することと、
    さもなければ、該訂正可能なエラーが永続的エラーであることを決定することと
    をさらに包含する、請求項5に記載の方法。
  7. 前記メモリ位置をさらに再度読み取ることが訂正可能なエラーを生じさせる場合、前記方法が、
    第2のプロセッサに、該訂正可能なエラーを分類させることと、
    該第2のプロセッサがエラーを検出しない場合、前記第1のプロセッサが不良な読み取り装置であると決定することと、
    該第2のプロセッサがスティッキーエラーでないエラーを検出する場合、該第1のプロセッサが不良な書き込み装置であると決定することと、
    該第2のプロセッサがスティッキーエラーを検出する場合、該メモリ位置における少なくとも一つのビットがスタックしていると決定することと
    をさらに包含する、請求項5に記載の方法。
  8. コンピュータによって実行された場合、該コンピュータに、訂正可能なメモリエラーの原因を決定するための方法を実行させる命令を記憶するコンピュータ可読の記憶媒体であって、該方法は、
    第1のプロセッサによるメインメモリにおけるメモリ位置へのアクセスの間、エラー検出訂正回路によって検出される訂正可能なエラーを検出することと、
    該メモリ位置に関連されたキャッシュラインのためにタグビットを読み取ることであって、該タグビットは、該キャッシュラインのためのアドレス情報および、該キャッシュラインのための一貫性プロトコル状態を指示する状態情報を含む、ことと、
    テスト結果を生成するために、該第1のプロセッサに、該メモリ位置に対する読み取り動作および書き込み動作を実行させることによって、該メモリ位置をテストすることと、
    可能である場合、該訂正可能なエラーの原因を決定するために、該テスト結果および該タグビットを利用することと
    を包含する、コンピュータ可読の記憶媒体。
  9. 前記メモリ位置をテストすることが、
    前記訂正可能なエラーについての情報を含む、asynchronous fault status register(AFSR)およびasynchronous fault address register(AFAR)をクリアすることと、
    キャッシュから前記キャッシュラインをフラッシュすることと、
    該メモリ位置を再度読み取ることであって、それによって、メインメモリから該キャッシュへ、該キャッシュが引き戻される、ことと、
    該AFSRおよび該AFARレジスタを読み取り、およびクリアすることと、
    前記エラー検出訂正回路に、訂正可能なエラーを訂正させることと、
    該キャッシュライン(エラーは訂正されている)をメインメモリへフラッシュして戻すことと
    を含む、請求項8に記載のコンピュータ可読の記憶媒体。
  10. 前記メモリ位置を再度読み取ることが、前記キャッシュにおける修正された状態において、前記キャッシュラインが存在することを保証するために、アトミックな比較およびスワップ(CAS)動作を実行することを包含する、請求項8に記載のコンピュータ可読の記憶媒体。
  11. 前記メモリ位置を再度読み取ることが、訂正可能なエラーを生じさせない場合、該訂正可能なエラーの原因を決定することが、
    以前の読み取りタグビットを試験することと、
    前記タグからのアドレスビットが前記AFARからの該訂正可能なエラー読み取りの前記アドレスに対応するビットと一致する場合、および、キャッシュラインが、該タグビットが読み取られた場合にキャッシュにおいて、共有された(S)状態または排他的(E)状態であることを、該タグからの状態ビットが指示する場合、間欠エラーがあることを決定することと
    を含む、請求項9に記載のコンピュータ可読の記憶媒体。
  12. 前記メモリ位置を再度読み取ることが訂正可能なエラーを生じさせる場合、前記方法が、
    該メモリ位置をさらに再度読み取ることと、
    前記AFSRおよび前記AFARレジスタを再度読み取り、クリアすることと
    をさらに包含する、請求項9に記載のコンピュータ可読の記憶媒体。
  13. 前記メモリ位置をさらに再度読み取ることが訂正可能なエラーを生じさせない場合、前記方法が、
    所定の時間間隔の後に該メモリ位置を再度読み取ることと、
    該所定の時間間隔の後に該メモリ位置を再度読み取ることが訂正可能なエラーを生じさせる場合、該メモリ位置がリーキーであることを決定することと、
    さもなければ、該訂正可能なエラーが永続的エラーであることを決定することと
    をさらに包含する、請求項12に記載のコンピュータ可読の記憶媒体。
  14. 前記メモリ位置をさらに再度読み取ることが訂正可能なエラーを生じさせる場合、前記方法が、
    第2のプロセッサに該訂正可能なエラーを分類させることと、
    該第2のプロセッサがエラーを検出しない場合、前記第1のプロセッサが不良な読み取り装置であると決定することと、
    該第2のプロセッサがスティッキーエラーでないエラーを検出する場合、該第1のプロセッサが不良な書き込み装置であると決定することと、
    該第2のプロセッサがスティッキーエラーを検出する場合、該メモリ位置における少なくとも一つのビットがスタックしていると決定することと
    をさらに包含する、請求項12に記載のコンピュータ可読の記憶媒体。
  15. 前記訂正可能なメモリエラーの原因を決定する装置であって、
    第1のプロセッサによるメインメモリにおけるメモリ位置へのアクセスの間、訂正可能なエラーを検出するように構成されたエラー訂正検出回路と、
    該メモリ位置に関連されたキャッシュラインのためにタグビットを読み取るように構成された読み取りメカニズムであって、該タグビットは、該キャッシュラインのためのアドレス情報および、該キャッシュラインのための一貫性プロトコル状態を指示する状態情報を含む、読み取りメカニズムと、
    テスト結果を生成するために、該第1のプロセッサに、該メモリ位置に対する読み取り動作および書き込み動作を実行させることによって、該メモリ位置をテストするように構成されたテストメカニズムと、
    可能である場合、該訂正可能なエラーの原因を決定するために、該テスト結果および該タグビットを利用するように構成された、エラー分類メカニズムと
    を備える、装置。
  16. 前記テストメカニズムが、
    前記訂正可能なエラーについての情報を含む、asynchronous fault status register(AFSR)およびasynchronous fault address register(AFAR)をクリアするように、
    キャッシュから前記キャッシュラインをフラッシュするように、
    該メモリ位置を再度読み取るようにであって、それによって、メインメモリから該キャッシュへ、該キャッシュラインが引き戻される、ように、
    該AFSRおよび該AFARレジスタを読み取り、クリアするように、
    前記エラー検出訂正回路に、該訂正可能なエラーを訂正させるように、および、
    該キャッシュライン(エラーは訂正されている)をメインメモリへフラッシュして戻すように、
    構成される、請求項15に記載の装置。
  17. 前記メモリ位置を再度読み取る間、前記テストメカニズムは、前記キャッシュにおける修正された状態において前記キャッシュラインが存在することを保証するために、アトミックな比較およびスワップ(CAS)動作を実行するように構成されている、請求項15に記載の装置。
  18. 前記メモリ位置を再度読み取ることが訂正可能なエラーを生じさせない場合、エラー分類メカニズムが、
    以前に読み取られたタグビットを試験するように、および、
    前記タグからのアドレスビットが、前記AFARからの訂正可能なエラー読み取りのためのアドレスに対応するビットと一致する場合、および、キャッシュラインが、該タグビットが読み取られていた場合にキャッシュにおいて共有された(S)状態または排他的(E)状態であることを、該タグからの状態ビットが指示する場合、間欠エラーがあることを決定するように
    構成される、請求項16に記載の装置。
  19. 前記メモリ位置を再度読み取ることが訂正可能なエラーを生じさせる場合、前記エラー分類メカニズムが、
    該メモリ位置をさらに再度読み取るように、および、
    前記AFSRおよび前記AFARレジスタを再度読み取り、クリアするように
    構成される、請求項16に記載の装置。
  20. 前記メモリをさらに再度読み取ることが訂正可能なエラーを生じさせない場合、前記エラー分類メカニズムが、
    所定の時間間隔の後に前記メモリ位置を再度読み取るように、
    該所定の時間間隔の後に該メモリ位置を再度読み取ることが訂正可能なエラーを生じさせる場合、該メモリ位置がリーキーであることを決定するように、および、
    さもなければ、該訂正可能なエラーが永続的エラーであることを決定するように、
    構成される、請求項19に記載の装置。
  21. 前記メモリ位置をさらに再度読み取ることが訂正可能なエラーを生じさせる場合、前記エラー分類メカニズムは、
    第2のプロセッサに、該訂正可能なエラーを分類させるように、
    該第2のプロセッサがエラーを検出しない場合、前記第1のプロセッサが不良な読み取り装置であると決定するように、
    該第2のプロセッサがスティッキーエラーでないエラーを検出する場合、該第1のプロセッサが不良な書き込み装置であると決定するように、および、
    該第2のプロセッサがスティッキーエラーを検出する場合、該メモリ位置における少なくとも一つのビットがスタックしていると決定するように、
    構成される、請求項19に記載の装置。
JP2005330822A 2004-11-17 2005-11-15 メモリエラーを分類するための方法および装置 Active JP4907154B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/992,056 US7596738B2 (en) 2004-11-17 2004-11-17 Method and apparatus for classifying memory errors
US10/992,056 2004-11-17

Publications (2)

Publication Number Publication Date
JP2006146920A true JP2006146920A (ja) 2006-06-08
JP4907154B2 JP4907154B2 (ja) 2012-03-28

Family

ID=35965987

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005330822A Active JP4907154B2 (ja) 2004-11-17 2005-11-15 メモリエラーを分類するための方法および装置

Country Status (3)

Country Link
US (1) US7596738B2 (ja)
EP (1) EP1659494B1 (ja)
JP (1) JP4907154B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008046685A (ja) * 2006-08-10 2008-02-28 Fujitsu Ltd 二重化システム及び系切り換え方法
JP2009116398A (ja) * 2007-11-01 2009-05-28 Nec Computertechno Ltd ノードコントローラ、分散共有メモリ型情報処理装置、キャッシュコヒーレンシ制御方法
CN102103482A (zh) * 2009-12-18 2011-06-22 英特尔公司 自适应优化的比较-交换操作

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7360112B2 (en) * 2005-02-07 2008-04-15 International Business Machines Corporation Detection and recovery of dropped writes in storage devices
EP1900187A2 (en) * 2005-02-08 2008-03-19 Dyno Nobel Inc. Delay units and methods of making the same
GB0507912D0 (en) * 2005-04-20 2005-05-25 Ibm Disk drive and method for protecting data writes in a disk drive
GB2449454B (en) * 2007-05-22 2011-08-24 Advanced Risc Mach Ltd Control data modification within a cache memory
KR101406279B1 (ko) * 2007-12-20 2014-06-13 삼성전자주식회사 반도체 메모리 장치 및 그것의 읽기 페일 분석 방법
US8458536B2 (en) * 2008-07-17 2013-06-04 Marvell World Trade Ltd. Data recovery in solid state memory devices
US8291259B2 (en) * 2009-04-15 2012-10-16 International Business Machines Corporation Delete of cache line with correctable error
US8103937B1 (en) * 2010-03-31 2012-01-24 Emc Corporation Cas command network replication
US9104583B2 (en) 2010-06-24 2015-08-11 International Business Machines Corporation On demand allocation of cache buffer slots
US20110320863A1 (en) * 2010-06-24 2011-12-29 International Business Machines Corporation Dynamic re-allocation of cache buffer slots
TWI502601B (zh) * 2013-04-24 2015-10-01 Ind Tech Res Inst 混合式錯誤修復方法及其記憶體裝置
JP6011512B2 (ja) * 2013-10-29 2016-10-19 株式会社デンソー データリフレッシュ装置
IT201800003234A1 (it) * 2018-03-02 2019-09-02 Stmicroelectronics Application Gmbh Sistema di elaborazione, relativo circuito integrato e procedimento

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5750398A (en) * 1980-09-09 1982-03-24 Toshiba Corp Error checking system
JPS60220444A (ja) * 1984-04-17 1985-11-05 Fujitsu Ltd 交替ビツト制御回路
JPS6246358A (ja) * 1985-08-23 1987-02-28 Fujitsu Ltd エラ−処理方式
JPS63278162A (ja) * 1987-05-09 1988-11-15 Nec Corp 情報処理装置におけるエラ−訂正装置
JPH0363743A (ja) * 1989-08-02 1991-03-19 Fujitsu Ltd 記憶装置におけるメモリエラー記録装置
EP0442616A2 (en) * 1990-02-14 1991-08-21 International Business Machines Corporation Method for testing a computer memory location
JPH05165719A (ja) * 1991-12-18 1993-07-02 Nec Eng Ltd メモリアクセス処理装置
JPH11102599A (ja) * 1997-09-29 1999-04-13 Nec Field Service Ltd 半導体記憶装置
US6539503B1 (en) * 1999-11-23 2003-03-25 Hewlett-Packard Company Method and apparatus for testing error detection
US20030145257A1 (en) * 2002-01-30 2003-07-31 Ibm Corporation Method and system for handling multiple bit errors to enhance system reliability

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4047157A (en) * 1974-02-01 1977-09-06 Digital Equipment Corporation Secondary storage facility for data processing
US4649475A (en) * 1984-04-02 1987-03-10 Sperry Corporation Multiple port memory with port decode error detector
US4835729A (en) * 1985-12-12 1989-05-30 Alcatel Usa, Corp. Single instruction multiple data (SIMD) cellular array processing apparatus with on-board RAM and address generator apparatus
US5511164A (en) * 1995-03-01 1996-04-23 Unisys Corporation Method and apparatus for determining the source and nature of an error within a computer system
US6467048B1 (en) * 1999-10-07 2002-10-15 Compaq Information Technologies Group, L.P. Apparatus, method and system for using cache memory as fail-over memory
US6615340B1 (en) * 2000-03-22 2003-09-02 Wilmot, Ii Richard Byron Extended operand management indicator structure and method
US6934810B1 (en) * 2002-09-26 2005-08-23 Unisys Corporation Delayed leaky write system and method for a cache memory
US7222270B2 (en) * 2003-01-10 2007-05-22 International Business Machines Corporation Method for tagging uncorrectable errors for symmetric multiprocessors

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5750398A (en) * 1980-09-09 1982-03-24 Toshiba Corp Error checking system
JPS60220444A (ja) * 1984-04-17 1985-11-05 Fujitsu Ltd 交替ビツト制御回路
JPS6246358A (ja) * 1985-08-23 1987-02-28 Fujitsu Ltd エラ−処理方式
JPS63278162A (ja) * 1987-05-09 1988-11-15 Nec Corp 情報処理装置におけるエラ−訂正装置
JPH0363743A (ja) * 1989-08-02 1991-03-19 Fujitsu Ltd 記憶装置におけるメモリエラー記録装置
EP0442616A2 (en) * 1990-02-14 1991-08-21 International Business Machines Corporation Method for testing a computer memory location
JPH0773115A (ja) * 1990-02-14 1995-03-17 Internatl Business Mach Corp <Ibm> コンピュータシステムのメモリテスト方法
JPH05165719A (ja) * 1991-12-18 1993-07-02 Nec Eng Ltd メモリアクセス処理装置
JPH11102599A (ja) * 1997-09-29 1999-04-13 Nec Field Service Ltd 半導体記憶装置
US6539503B1 (en) * 1999-11-23 2003-03-25 Hewlett-Packard Company Method and apparatus for testing error detection
US20030145257A1 (en) * 2002-01-30 2003-07-31 Ibm Corporation Method and system for handling multiple bit errors to enhance system reliability

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008046685A (ja) * 2006-08-10 2008-02-28 Fujitsu Ltd 二重化システム及び系切り換え方法
JP2009116398A (ja) * 2007-11-01 2009-05-28 Nec Computertechno Ltd ノードコントローラ、分散共有メモリ型情報処理装置、キャッシュコヒーレンシ制御方法
CN102103482A (zh) * 2009-12-18 2011-06-22 英特尔公司 自适应优化的比较-交换操作
JP2011129104A (ja) * 2009-12-18 2011-06-30 Intel Corp 適応的最適化された比較/交換オペレーション
US8601242B2 (en) 2009-12-18 2013-12-03 Intel Corporation Adaptive optimized compare-exchange operation

Also Published As

Publication number Publication date
EP1659494A2 (en) 2006-05-24
JP4907154B2 (ja) 2012-03-28
EP1659494B1 (en) 2015-10-07
EP1659494A3 (en) 2009-06-10
US20060112306A1 (en) 2006-05-25
US7596738B2 (en) 2009-09-29

Similar Documents

Publication Publication Date Title
JP4907154B2 (ja) メモリエラーを分類するための方法および装置
TW413755B (en) Method and apparatus for automatically correcting errors detected in a memory subsystem
JP4283221B2 (ja) 繰返し失敗したメモリ位置を無効にする実行をイネーブルにするため、失敗したメモリ位置を追跡する各種方法及び装置
US8301938B2 (en) Managing memory health
US7971112B2 (en) Memory diagnosis method
KR101374455B1 (ko) 메모리 에러와 리던던시
JP5965076B2 (ja) 訂正不能メモリエラー処理方法及びその可読媒体
US8949694B2 (en) Address error detection
TW201535382A (zh) 動態隨機存取記憶體(dram)列備用技術
KR102131337B1 (ko) 고장 제어 기능을 구비한 캐시 메모리
US9086990B2 (en) Bitline deletion
US8352812B2 (en) Protecting data storage structures from intermittent errors
US7747913B2 (en) Correcting intermittent errors in data storage structures
US20100169572A1 (en) Data storage method, apparatus and system for interrupted write recovery
JP2005196680A (ja) コンピュータシステム
KR101001071B1 (ko) 메모리 비트 정정 보고 방법 및 장치
CN108231134B (zh) Ram良率补救方法及装置
US10140186B2 (en) Memory error recovery
JP3130796B2 (ja) 制御記憶装置
CN106874161B (zh) 一种高速缓存异常的处理方法及装置
JPS603769A (ja) エラ−回復方法
JPH04115339A (ja) メモリエラー処理システム
JPH04123242A (ja) 書込みエラー識別方式
CN116466875A (zh) 用于系统中的离线修复及后续重新集成的方法和系统
JP2007148467A (ja) 情報処理装置およびそのエラー処理方法ならびに制御プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080822

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20101119

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20110209

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110727

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111028

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120104

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150120

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4907154

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250