JP2006146920A - メモリエラーを分類するための方法および装置 - Google Patents
メモリエラーを分類するための方法および装置 Download PDFInfo
- Publication number
- JP2006146920A JP2006146920A JP2005330822A JP2005330822A JP2006146920A JP 2006146920 A JP2006146920 A JP 2006146920A JP 2005330822 A JP2005330822 A JP 2005330822A JP 2005330822 A JP2005330822 A JP 2005330822A JP 2006146920 A JP2006146920 A JP 2006146920A
- Authority
- JP
- Japan
- Prior art keywords
- error
- memory location
- reading
- correctable
- processor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000015654 memory Effects 0.000 title claims abstract description 214
- 238000000034 method Methods 0.000 title claims description 41
- 238000012360 testing method Methods 0.000 claims abstract description 45
- 238000012937 correction Methods 0.000 claims abstract description 21
- 238000001514 detection method Methods 0.000 claims abstract description 18
- 230000007246 mechanism Effects 0.000 claims description 23
- 238000011010 flushing procedure Methods 0.000 claims description 10
- 230000002950 deficient Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 description 8
- 230000009471 action Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- JJWKPURADFRFRB-UHFFFAOYSA-N carbonyl sulfide Chemical compound O=C=S JJWKPURADFRFRB-UHFFFAOYSA-N 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000002405 diagnostic procedure Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/08—Error detection or correction by redundancy in data representation, e.g. by using checking codes
- G06F11/10—Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
- G06F11/1008—Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices
- G06F11/1012—Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices using codes or arrangements adapted for a specific type of error
- G06F11/1024—Identification of the type of error
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Techniques For Improving Reliability Of Storages (AREA)
- Memory System Of A Hierarchy Structure (AREA)
- Debugging And Monitoring (AREA)
- For Increasing The Reliability Of Semiconductor Memories (AREA)
Abstract
【解決手段】本発明のシステムは、第1に、第1のプロセッサによってメインメモリにおけるメモリ位置へのアクセスの間、訂正可能なエラーを検出する(402)。訂正可能なエラーは、エラー検出および訂正回路によって検出される。次にシステムは、メモリ位置に関連されたキャッシュラインのためのタグビットを読み取る(408)。タグビットは、キャッシュラインのための一貫性プロトコル状態を示す状態情報だけでなく、キャッシュラインのアドレス情報をも含む。次いで、テスト結果を生成するために、第1のプロセッサに、メモリ位置に対する読み取りおよび書き込み動作を実行させることによって、メモリ位置をテストする。最後にシステムは、可能な場合、訂正可能なエラーの原因を決定する(418、430、432)ために、テスト結果およびタグビットを使用する。
【選択図】図4
Description
訂正可能なメモリエラーの原因を決定する方法であって、
第1のプロセッサによるメインメモリにおけるメモリ位置へのアクセスの間、エラー検出訂正回路によって検出される該訂正可能なエラーを検出することと、
該メモリ位置に関連されたキャッシュラインのためにタグビットを読み取ることであって、該タグビットは、該キャッシュラインのためのアドレス情報および、該キャッシュラインのための一貫性プロトコル状態を指示する状態情報を含む、ことと、
テスト結果を生成するために、該第1のプロセッサに、該メモリ位置に対する読み取り動作および書き込み動作を実行させることによって、該メモリ位置をテストすることと、
可能である場合、該訂正可能なエラーの原因を決定するために、該テスト結果および該タグビットを利用することと
を包含する、方法。
上記メモリ位置をテストすることが、
上記訂正可能なエラーについての情報を含む、asynchronous fault status register(AFSR)およびasynchronous fault address register(AFAR)をクリアすることと、
キャッシュから上記キャッシュラインをフラッシュすることと、
該メモリ位置を再度読み取ることであって、それによって、メインメモリから該キャッシュへ、該キャッシュラインが引き戻される、ことと、
該AFSRおよび該AFARレジスタを読み取り、クリアすることと、
上記エラー検出訂正回路に、該訂正可能なエラーを訂正させることと、
該キャッシュライン(エラーは訂正されている)をメインメモリへフラッシュして戻すことと
を包含する、項目1に記載の方法。
上記メモリ位置を再度読み取ることが、上記キャッシュにおける修正された状態において上記キャッシュラインが存在することを保証するために、アトミックな比較およびスワップ(CAS)動作を実行することを包含する、項目1に記載の方法。
上記メモリ位置を再度読み取ることが訂正可能なエラーを生じさせない場合、上記訂正可能なエラーの原因を決定することが、
上記読み取りタグビットを試験することと、
上記タグからのアドレスビットが、上記AFARからの訂正可能なエラーの読み取りのアドレスの対応するビットと一致する場合、および、キャッシュラインが該タグビットが読み取られた場合にキャッシュにおいて、共有された(S)状態または排他的(E)状態であることを、該タグからの状態ビットが指示する場合、間欠エラーがあることを決定することと
を含む、項目2に記載の方法。
上記メモリ位置を再度読み取ることが訂正可能なエラーを生じさせる場合、上記方法が、
該メモリ位置をさらに再度読み取ることと、
上記AFSRおよび上記AFARレジスタを再度読み取りおよびクリアすることと
をさらに包含する、項目2に記載の方法。
上記メモリをさらに再度読み取ることが訂正可能なエラーを生じさせない場合、上記方法が、
所定の時間間隔の後に上記メモリ位置を再度読み取ることと、
該所定の時間間隔の後に該メモリ位置を再度読み取ることが、訂正可能なエラーを生じさせる場合、該メモリ位置がリーキーであることを決定することと、
さもなければ、該訂正可能なエラーが永続的エラーであることを決定することと
をさらに包含する、項目5に記載の方法。
上記メモリ位置をさらに再度読み取ることが訂正可能なエラーを生じさせる場合、上記方法が、
第2のプロセッサに、該訂正可能なエラーを分類させることと、
該第2のプロセッサがエラーを検出しない場合、上記第1のプロセッサが不良な読み取り装置であると決定することと、
該第2のプロセッサがスティッキーエラーでないエラーを検出する場合、該第1のプロセッサが不良な書き込み装置であると決定することと、
該第2のプロセッサがスティッキーエラーを検出する場合、該メモリ位置における少なくとも一つのビットがスタックしていると決定することと
をさらに包含する、項目5に記載の方法。
コンピュータによって実行された場合、該コンピュータに、訂正可能なメモリエラーの原因を決定するための方法を実行させる命令を記憶するコンピュータ可読の記憶媒体であって、該方法は、
第1のプロセッサによるメインメモリにおけるメモリ位置へのアクセスの間、エラー検出訂正回路によって検出される訂正可能なエラーを検出することと、
該メモリ位置に関連されたキャッシュラインのためにタグビットを読み取ることであって、該タグビットは、該キャッシュラインのためのアドレス情報および、該キャッシュラインのための一貫性プロトコル状態を指示する状態情報を含む、ことと、
テスト結果を生成するために、該第1のプロセッサに、該メモリ位置に対する読み取り動作および書き込み動作を実行させることによって、該メモリ位置をテストすることと、
可能である場合、該訂正可能なエラーの原因を決定するために、該テスト結果および該タグビットを利用することと
を包含する、コンピュータ可読の記憶媒体。
上記メモリ位置をテストすることが、
上記訂正可能なエラーについての情報を含む、asynchronous fault status register(AFSR)およびasynchronous fault address register(AFAR)をクリアすることと、
キャッシュから上記キャッシュラインをフラッシュすることと、
該メモリ位置を再度読み取ることであって、それによって、メインメモリから該キャッシュへ、該キャッシュが引き戻される、ことと、
該AFSRおよび該AFARレジスタを読み取り、およびクリアすることと、
上記エラー検出訂正回路に、訂正可能なエラーを訂正させることと、
該キャッシュライン(エラーは訂正されている)をメインメモリへフラッシュして戻すことと
を含む、項目8に記載のコンピュータ可読の記憶媒体。
上記メモリ位置を再度読み取ることが、上記キャッシュにおける修正された状態において、上記キャッシュラインが存在することを保証するために、アトミックな比較およびスワップ(CAS)動作を実行することを包含する、項目8に記載のコンピュータ可読の記憶媒体。
上記メモリ位置を再度読み取ることが、訂正可能なエラーを生じさせない場合、該訂正可能なエラーの原因を決定することが、
以前の読み取りタグビットを試験することと、
上記タグからのアドレスビットが上記AFARからの該訂正可能なエラー読み取りの上記アドレスに対応するビットと一致する場合、および、キャッシュラインが、該タグビットが読み取られた場合にキャッシュにおいて、共有された(S)状態または排他的(E)状態であることを、該タグからの状態ビットが指示する場合、間欠エラーがあることを決定することと
を含む、項目9に記載のコンピュータ可読の記憶媒体。
上記メモリ位置を再度読み取ることが訂正可能なエラーを生じさせる場合、上記方法が、
該メモリ位置をさらに再度読み取ることと、
上記AFSRおよび上記AFARレジスタを再度読み取り、クリアすることと
をさらに包含する、項目9に記載のコンピュータ可読の記憶媒体。
上記メモリ位置をさらに再度読み取ることが訂正可能なエラーを生じさせない場合、上記方法が、
所定の時間間隔の後に該メモリ位置を再度読み取ることと、
該所定の時間間隔の後に該メモリ位置を再度読み取ることが訂正可能なエラーを生じさせる場合、該メモリ位置がリーキーであることを決定することと、
さもなければ、該訂正可能なエラーが永続的エラーであることを決定することと
をさらに包含する、項目12に記載のコンピュータ可読の記憶媒体。
上記メモリ位置をさらに再度読み取ることが訂正可能なエラーを生じさせる場合、上記方法が、
第2のプロセッサに該訂正可能なエラーを分類させることと、
該第2のプロセッサがエラーを検出しない場合、上記第1のプロセッサが不良な読み取り装置であると決定することと、
該第2のプロセッサがスティッキーエラーでないエラーを検出する場合、該第1のプロセッサが不良な書き込み装置であると決定することと、
該第2のプロセッサがスティッキーエラーを検出する場合、該メモリ位置における少なくとも一つのビットがスタックしていると決定することと
をさらに包含する、項目12に記載のコンピュータ可読の記憶媒体。
上記訂正可能なメモリエラーの原因を決定する装置であって、
第1のプロセッサによるメインメモリにおけるメモリ位置へのアクセスの間、訂正可能なエラーを検出するように構成されたエラー訂正検出回路と、
該メモリ位置に関連されたキャッシュラインのためにタグビットを読み取るように構成された読み取りメカニズムであって、該タグビットは、該キャッシュラインのためのアドレス情報および、該キャッシュラインのための一貫性プロトコル状態を指示する状態情報を含む、読み取りメカニズムと、
テスト結果を生成するために、該第1のプロセッサに、該メモリ位置に対する読み取り動作および書き込み動作を実行させることによって、該メモリ位置をテストするように構成されたテストメカニズムと、
可能である場合、該訂正可能なエラーの原因を決定するために、該テスト結果および該タグビットを利用するように構成された、エラー分類メカニズムと
を備える、装置。
上記テストメカニズムが、
上記訂正可能なエラーについての情報を含む、asynchronous fault status register(AFSR)およびasynchronous fault address register(AFAR)をクリアするように、
キャッシュから上記キャッシュラインをフラッシュするように、
該メモリ位置を再度読み取るようにであって、それによって、メインメモリから該キャッシュへ、該キャッシュラインが引き戻される、ように、
該AFSRおよび該AFARレジスタを読み取り、クリアするように、
上記エラー検出訂正回路に、該訂正可能なエラーを訂正させるように、および、
該キャッシュライン(エラーは訂正されている)をメインメモリへフラッシュして戻すように、
構成される、項目15に記載の装置。
上記メモリ位置を再度読み取る間、上記テストメカニズムは、上記キャッシュにおける修正された状態において上記キャッシュラインが存在することを保証するために、アトミックな比較およびスワップ(CAS)動作を実行するように構成されている、項目15に記載の装置。
上記メモリ位置を再度読み取ることが訂正可能なエラーを生じさせない場合、エラー分類メカニズムが、
以前に読み取られたタグビットを試験するように、および、
上記タグからのアドレスビットが、上記AFARからの訂正可能なエラー読み取りのためのアドレスに対応するビットと一致する場合、および、キャッシュラインが、該タグビットが読み取られていた場合にキャッシュにおいて共有された(S)状態または排他的(E)状態であることを、該タグからの状態ビットが指示する場合、間欠エラーがあることを決定するように
構成される、項目16に記載の装置。
上記メモリ位置を再度読み取ることが訂正可能なエラーを生じさせる場合、上記エラー分類メカニズムが、
該メモリ位置をさらに再度読み取るように、および、
上記AFSRおよび上記AFARレジスタを再度読み取り、クリアするように
構成される、項目16に記載の装置。
上記メモリをさらに再度読み取ることが訂正可能なエラーを生じさせない場合、上記エラー分類メカニズムが、
所定の時間間隔の後に上記メモリ位置を再度読み取るように、
該所定の時間間隔の後に該メモリ位置を再度読み取ることが訂正可能なエラーを生じさせる場合、該メモリ位置がリーキーであることを決定するように、および、
さもなければ、該訂正可能なエラーが永続的エラーであることを決定するように、
構成される、項目19に記載の装置。
上記メモリ位置をさらに再度読み取ることが訂正可能なエラーを生じさせる場合、上記エラー分類メカニズムは、
第2のプロセッサに、該訂正可能なエラーを分類させるように、
該第2のプロセッサがエラーを検出しない場合、上記第1のプロセッサが不良な読み取り装置であると決定するように、
該第2のプロセッサがスティッキーエラーでないエラーを検出する場合、該第1のプロセッサが不良な書き込み装置であると決定するように、および、
該第2のプロセッサがスティッキーエラーを検出する場合、該メモリ位置における少なくとも一つのビットがスタックしていると決定するように、
構成される、項目19に記載の装置。
本発明における一実施形態は、訂正可能なメモリエラーの原因を決定するシステムを提供する。第1に、システムは、第1のプロセッサによってメインメモリにおけるメモリ位置へのアクセスの間、訂正可能なエラーを検出する。その訂正可能なエラーは、エラー検出および訂正回路によって検出される。次に、システムは、メモリ位置に関連されたキャッシュラインのためのタグビットを読み取る。そのタグビットは、キャッシュラインのための一貫性プロトコル状態を示す状態情報だけでなく、キャッシュラインのためのアドレス情報をも含む。次いでシステムは、テスト結果を生成するために、第1のプロセッサに、メモリ位置へ読み取り動作および書き込み動作を実行させることによって、メモリ位置をテストする。最後に、システムは、可能な場合、訂正可能なエラーの原因を決定するために、テスト結果およびタグビットを使用する。
図1は、本発明における一実施形態にしたがったコンピュータシステム100を示す。コンピュータシステム100は、一般に、一つ以上のキャッシュおよび一つ以上のプロセッサを有するコンピュータシステムの任意のタイプを含み得る。これは、マイクロプロセッサに基づくコンピュータシステム、メインフレームコンピュータ、デジタル信号プロセッサ、ポータブルコンピュータ装置、パーソナルオーガナイザー、デバイス制御器、および電気機器を有する計算エンジンを含むが、それらに限定されるものではない。
図2は、本発明の一実施形態にしたがうメインメモリ122におけるデータワード200を示す。データワード200は、ECCビット204だけでなく、データ202をも含み、複合データワードのための1ビットエラー訂正および2ビットエラー検出をサポートし、データ202およびECCビット204の両方を含む。
図3は、本発明の一実施形態にしたがったキャッシュラインのためのタグ300を示す。タグ300は、対応するキャッシュラインのための、より上位のアドレスビット302を含む。タグ300はまた、状態ビット304を含み、その対応するキャッシュラインのためのMOESI状態を特定する。これらの状態ビット304はまた、対応するキャッシュラインが汚れているかいないかといった、その対応するキャッシュラインのための他の情報をも示すことができる。
(メモリエラーの原因を診断するプロセス)
図4は、本発明の一実施形態にしたがうメモリエラーの原因を診断するプロセスを示すフローチャートの一部である。メインメモリ内の位置から読み取り動作間のプロセッサ内のECC回路によって、訂正可能なエラーが検出された場合、このプロセスは開始する(ステップ402)。
次に、表1が、新しいエラータイプが「スティッキ−」であると指示する場合、システムは、コンピュータシステムにおける第2のプロセッサに、メモリエラーを分類させる(ステップ516)。第2のプロセッサによってエラーが検出されない場合、システムは、第1のプロセッサが不良な読み取り装置であることを指示する(ステップ519)。
104 キャッシュ
106 タグ
108 データ
112 プロセッサ
114 キャッシュ
116 タグ
118 データ
120 ネットワーク
122 メインメモリ
124、125、126 キャッシュライン
Claims (21)
- 訂正可能なメモリエラーの原因を決定する方法であって、
第1のプロセッサによるメインメモリにおけるメモリ位置へのアクセスの間、エラー検出訂正回路によって検出される該訂正可能なエラーを検出することと、
該メモリ位置に関連されたキャッシュラインのためにタグビットを読み取ることであって、該タグビットは、該キャッシュラインのためのアドレス情報および、該キャッシュラインのための一貫性プロトコル状態を指示する状態情報を含む、ことと、
テスト結果を生成するために、該第1のプロセッサに、該メモリ位置に対する読み取り動作および書き込み動作を実行させることによって、該メモリ位置をテストすることと、
可能である場合、該訂正可能なエラーの原因を決定するために、該テスト結果および該タグビットを利用することと
を包含する、方法。 - 前記メモリ位置をテストすることが、
前記訂正可能なエラーについての情報を含む、asynchronous fault status register(AFSR)およびasynchronous fault address register(AFAR)をクリアすることと、
キャッシュから前記キャッシュラインをフラッシュすることと、
該メモリ位置を再度読み取ることであって、それによって、メインメモリから該キャッシュへ、該キャッシュラインが引き戻される、ことと、
該AFSRおよび該AFARレジスタを読み取り、クリアすることと、
前記エラー検出訂正回路に、該訂正可能なエラーを訂正させることと、
該キャッシュライン(エラーは訂正されている)をメインメモリへフラッシュして戻すことと
を包含する、請求項1に記載の方法。 - 前記メモリ位置を再度読み取ることが、前記キャッシュにおける修正された状態において前記キャッシュラインが存在することを保証するために、アトミックな比較およびスワップ(CAS)動作を実行することを包含する、請求項1に記載の方法。
- 前記メモリ位置を再度読み取ることが訂正可能なエラーを生じさせない場合、前記訂正可能なエラーの原因を決定することが、
前記読み取りタグビットを試験することと、
前記タグからのアドレスビットが、前記AFARからの訂正可能なエラーの読み取りのアドレスの対応するビットと一致する場合、および、キャッシュラインが該タグビットが読み取られた場合にキャッシュにおいて、共有された(S)状態または排他的(E)状態であることを、該タグからの状態ビットが指示する場合、間欠エラーがあることを決定することと
を含む、請求項2に記載の方法。 - 前記メモリ位置を再度読み取ることが訂正可能なエラーを生じさせる場合、前記方法が、
該メモリ位置をさらに再度読み取ることと、
前記AFSRおよび前記AFARレジスタを再度読み取りおよびクリアすることと
をさらに包含する、請求項2に記載の方法。 - 前記メモリをさらに再度読み取ることが訂正可能なエラーを生じさせない場合、前記方法が、
所定の時間間隔の後に前記メモリ位置を再度読み取ることと、
該所定の時間間隔の後に該メモリ位置を再度読み取ることが、訂正可能なエラーを生じさせる場合、該メモリ位置がリーキーであることを決定することと、
さもなければ、該訂正可能なエラーが永続的エラーであることを決定することと
をさらに包含する、請求項5に記載の方法。 - 前記メモリ位置をさらに再度読み取ることが訂正可能なエラーを生じさせる場合、前記方法が、
第2のプロセッサに、該訂正可能なエラーを分類させることと、
該第2のプロセッサがエラーを検出しない場合、前記第1のプロセッサが不良な読み取り装置であると決定することと、
該第2のプロセッサがスティッキーエラーでないエラーを検出する場合、該第1のプロセッサが不良な書き込み装置であると決定することと、
該第2のプロセッサがスティッキーエラーを検出する場合、該メモリ位置における少なくとも一つのビットがスタックしていると決定することと
をさらに包含する、請求項5に記載の方法。 - コンピュータによって実行された場合、該コンピュータに、訂正可能なメモリエラーの原因を決定するための方法を実行させる命令を記憶するコンピュータ可読の記憶媒体であって、該方法は、
第1のプロセッサによるメインメモリにおけるメモリ位置へのアクセスの間、エラー検出訂正回路によって検出される訂正可能なエラーを検出することと、
該メモリ位置に関連されたキャッシュラインのためにタグビットを読み取ることであって、該タグビットは、該キャッシュラインのためのアドレス情報および、該キャッシュラインのための一貫性プロトコル状態を指示する状態情報を含む、ことと、
テスト結果を生成するために、該第1のプロセッサに、該メモリ位置に対する読み取り動作および書き込み動作を実行させることによって、該メモリ位置をテストすることと、
可能である場合、該訂正可能なエラーの原因を決定するために、該テスト結果および該タグビットを利用することと
を包含する、コンピュータ可読の記憶媒体。 - 前記メモリ位置をテストすることが、
前記訂正可能なエラーについての情報を含む、asynchronous fault status register(AFSR)およびasynchronous fault address register(AFAR)をクリアすることと、
キャッシュから前記キャッシュラインをフラッシュすることと、
該メモリ位置を再度読み取ることであって、それによって、メインメモリから該キャッシュへ、該キャッシュが引き戻される、ことと、
該AFSRおよび該AFARレジスタを読み取り、およびクリアすることと、
前記エラー検出訂正回路に、訂正可能なエラーを訂正させることと、
該キャッシュライン(エラーは訂正されている)をメインメモリへフラッシュして戻すことと
を含む、請求項8に記載のコンピュータ可読の記憶媒体。 - 前記メモリ位置を再度読み取ることが、前記キャッシュにおける修正された状態において、前記キャッシュラインが存在することを保証するために、アトミックな比較およびスワップ(CAS)動作を実行することを包含する、請求項8に記載のコンピュータ可読の記憶媒体。
- 前記メモリ位置を再度読み取ることが、訂正可能なエラーを生じさせない場合、該訂正可能なエラーの原因を決定することが、
以前の読み取りタグビットを試験することと、
前記タグからのアドレスビットが前記AFARからの該訂正可能なエラー読み取りの前記アドレスに対応するビットと一致する場合、および、キャッシュラインが、該タグビットが読み取られた場合にキャッシュにおいて、共有された(S)状態または排他的(E)状態であることを、該タグからの状態ビットが指示する場合、間欠エラーがあることを決定することと
を含む、請求項9に記載のコンピュータ可読の記憶媒体。 - 前記メモリ位置を再度読み取ることが訂正可能なエラーを生じさせる場合、前記方法が、
該メモリ位置をさらに再度読み取ることと、
前記AFSRおよび前記AFARレジスタを再度読み取り、クリアすることと
をさらに包含する、請求項9に記載のコンピュータ可読の記憶媒体。 - 前記メモリ位置をさらに再度読み取ることが訂正可能なエラーを生じさせない場合、前記方法が、
所定の時間間隔の後に該メモリ位置を再度読み取ることと、
該所定の時間間隔の後に該メモリ位置を再度読み取ることが訂正可能なエラーを生じさせる場合、該メモリ位置がリーキーであることを決定することと、
さもなければ、該訂正可能なエラーが永続的エラーであることを決定することと
をさらに包含する、請求項12に記載のコンピュータ可読の記憶媒体。 - 前記メモリ位置をさらに再度読み取ることが訂正可能なエラーを生じさせる場合、前記方法が、
第2のプロセッサに該訂正可能なエラーを分類させることと、
該第2のプロセッサがエラーを検出しない場合、前記第1のプロセッサが不良な読み取り装置であると決定することと、
該第2のプロセッサがスティッキーエラーでないエラーを検出する場合、該第1のプロセッサが不良な書き込み装置であると決定することと、
該第2のプロセッサがスティッキーエラーを検出する場合、該メモリ位置における少なくとも一つのビットがスタックしていると決定することと
をさらに包含する、請求項12に記載のコンピュータ可読の記憶媒体。 - 前記訂正可能なメモリエラーの原因を決定する装置であって、
第1のプロセッサによるメインメモリにおけるメモリ位置へのアクセスの間、訂正可能なエラーを検出するように構成されたエラー訂正検出回路と、
該メモリ位置に関連されたキャッシュラインのためにタグビットを読み取るように構成された読み取りメカニズムであって、該タグビットは、該キャッシュラインのためのアドレス情報および、該キャッシュラインのための一貫性プロトコル状態を指示する状態情報を含む、読み取りメカニズムと、
テスト結果を生成するために、該第1のプロセッサに、該メモリ位置に対する読み取り動作および書き込み動作を実行させることによって、該メモリ位置をテストするように構成されたテストメカニズムと、
可能である場合、該訂正可能なエラーの原因を決定するために、該テスト結果および該タグビットを利用するように構成された、エラー分類メカニズムと
を備える、装置。 - 前記テストメカニズムが、
前記訂正可能なエラーについての情報を含む、asynchronous fault status register(AFSR)およびasynchronous fault address register(AFAR)をクリアするように、
キャッシュから前記キャッシュラインをフラッシュするように、
該メモリ位置を再度読み取るようにであって、それによって、メインメモリから該キャッシュへ、該キャッシュラインが引き戻される、ように、
該AFSRおよび該AFARレジスタを読み取り、クリアするように、
前記エラー検出訂正回路に、該訂正可能なエラーを訂正させるように、および、
該キャッシュライン(エラーは訂正されている)をメインメモリへフラッシュして戻すように、
構成される、請求項15に記載の装置。 - 前記メモリ位置を再度読み取る間、前記テストメカニズムは、前記キャッシュにおける修正された状態において前記キャッシュラインが存在することを保証するために、アトミックな比較およびスワップ(CAS)動作を実行するように構成されている、請求項15に記載の装置。
- 前記メモリ位置を再度読み取ることが訂正可能なエラーを生じさせない場合、エラー分類メカニズムが、
以前に読み取られたタグビットを試験するように、および、
前記タグからのアドレスビットが、前記AFARからの訂正可能なエラー読み取りのためのアドレスに対応するビットと一致する場合、および、キャッシュラインが、該タグビットが読み取られていた場合にキャッシュにおいて共有された(S)状態または排他的(E)状態であることを、該タグからの状態ビットが指示する場合、間欠エラーがあることを決定するように
構成される、請求項16に記載の装置。 - 前記メモリ位置を再度読み取ることが訂正可能なエラーを生じさせる場合、前記エラー分類メカニズムが、
該メモリ位置をさらに再度読み取るように、および、
前記AFSRおよび前記AFARレジスタを再度読み取り、クリアするように
構成される、請求項16に記載の装置。 - 前記メモリをさらに再度読み取ることが訂正可能なエラーを生じさせない場合、前記エラー分類メカニズムが、
所定の時間間隔の後に前記メモリ位置を再度読み取るように、
該所定の時間間隔の後に該メモリ位置を再度読み取ることが訂正可能なエラーを生じさせる場合、該メモリ位置がリーキーであることを決定するように、および、
さもなければ、該訂正可能なエラーが永続的エラーであることを決定するように、
構成される、請求項19に記載の装置。 - 前記メモリ位置をさらに再度読み取ることが訂正可能なエラーを生じさせる場合、前記エラー分類メカニズムは、
第2のプロセッサに、該訂正可能なエラーを分類させるように、
該第2のプロセッサがエラーを検出しない場合、前記第1のプロセッサが不良な読み取り装置であると決定するように、
該第2のプロセッサがスティッキーエラーでないエラーを検出する場合、該第1のプロセッサが不良な書き込み装置であると決定するように、および、
該第2のプロセッサがスティッキーエラーを検出する場合、該メモリ位置における少なくとも一つのビットがスタックしていると決定するように、
構成される、請求項19に記載の装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/992,056 US7596738B2 (en) | 2004-11-17 | 2004-11-17 | Method and apparatus for classifying memory errors |
US10/992,056 | 2004-11-17 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006146920A true JP2006146920A (ja) | 2006-06-08 |
JP4907154B2 JP4907154B2 (ja) | 2012-03-28 |
Family
ID=35965987
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005330822A Active JP4907154B2 (ja) | 2004-11-17 | 2005-11-15 | メモリエラーを分類するための方法および装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7596738B2 (ja) |
EP (1) | EP1659494B1 (ja) |
JP (1) | JP4907154B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008046685A (ja) * | 2006-08-10 | 2008-02-28 | Fujitsu Ltd | 二重化システム及び系切り換え方法 |
JP2009116398A (ja) * | 2007-11-01 | 2009-05-28 | Nec Computertechno Ltd | ノードコントローラ、分散共有メモリ型情報処理装置、キャッシュコヒーレンシ制御方法 |
CN102103482A (zh) * | 2009-12-18 | 2011-06-22 | 英特尔公司 | 自适应优化的比较-交换操作 |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7360112B2 (en) * | 2005-02-07 | 2008-04-15 | International Business Machines Corporation | Detection and recovery of dropped writes in storage devices |
EP1900187A2 (en) * | 2005-02-08 | 2008-03-19 | Dyno Nobel Inc. | Delay units and methods of making the same |
GB0507912D0 (en) * | 2005-04-20 | 2005-05-25 | Ibm | Disk drive and method for protecting data writes in a disk drive |
GB2449454B (en) * | 2007-05-22 | 2011-08-24 | Advanced Risc Mach Ltd | Control data modification within a cache memory |
KR101406279B1 (ko) * | 2007-12-20 | 2014-06-13 | 삼성전자주식회사 | 반도체 메모리 장치 및 그것의 읽기 페일 분석 방법 |
US8458536B2 (en) * | 2008-07-17 | 2013-06-04 | Marvell World Trade Ltd. | Data recovery in solid state memory devices |
US8291259B2 (en) * | 2009-04-15 | 2012-10-16 | International Business Machines Corporation | Delete of cache line with correctable error |
US8103937B1 (en) * | 2010-03-31 | 2012-01-24 | Emc Corporation | Cas command network replication |
US9104583B2 (en) | 2010-06-24 | 2015-08-11 | International Business Machines Corporation | On demand allocation of cache buffer slots |
US20110320863A1 (en) * | 2010-06-24 | 2011-12-29 | International Business Machines Corporation | Dynamic re-allocation of cache buffer slots |
TWI502601B (zh) * | 2013-04-24 | 2015-10-01 | Ind Tech Res Inst | 混合式錯誤修復方法及其記憶體裝置 |
JP6011512B2 (ja) * | 2013-10-29 | 2016-10-19 | 株式会社デンソー | データリフレッシュ装置 |
IT201800003234A1 (it) * | 2018-03-02 | 2019-09-02 | Stmicroelectronics Application Gmbh | Sistema di elaborazione, relativo circuito integrato e procedimento |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5750398A (en) * | 1980-09-09 | 1982-03-24 | Toshiba Corp | Error checking system |
JPS60220444A (ja) * | 1984-04-17 | 1985-11-05 | Fujitsu Ltd | 交替ビツト制御回路 |
JPS6246358A (ja) * | 1985-08-23 | 1987-02-28 | Fujitsu Ltd | エラ−処理方式 |
JPS63278162A (ja) * | 1987-05-09 | 1988-11-15 | Nec Corp | 情報処理装置におけるエラ−訂正装置 |
JPH0363743A (ja) * | 1989-08-02 | 1991-03-19 | Fujitsu Ltd | 記憶装置におけるメモリエラー記録装置 |
EP0442616A2 (en) * | 1990-02-14 | 1991-08-21 | International Business Machines Corporation | Method for testing a computer memory location |
JPH05165719A (ja) * | 1991-12-18 | 1993-07-02 | Nec Eng Ltd | メモリアクセス処理装置 |
JPH11102599A (ja) * | 1997-09-29 | 1999-04-13 | Nec Field Service Ltd | 半導体記憶装置 |
US6539503B1 (en) * | 1999-11-23 | 2003-03-25 | Hewlett-Packard Company | Method and apparatus for testing error detection |
US20030145257A1 (en) * | 2002-01-30 | 2003-07-31 | Ibm Corporation | Method and system for handling multiple bit errors to enhance system reliability |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4047157A (en) * | 1974-02-01 | 1977-09-06 | Digital Equipment Corporation | Secondary storage facility for data processing |
US4649475A (en) * | 1984-04-02 | 1987-03-10 | Sperry Corporation | Multiple port memory with port decode error detector |
US4835729A (en) * | 1985-12-12 | 1989-05-30 | Alcatel Usa, Corp. | Single instruction multiple data (SIMD) cellular array processing apparatus with on-board RAM and address generator apparatus |
US5511164A (en) * | 1995-03-01 | 1996-04-23 | Unisys Corporation | Method and apparatus for determining the source and nature of an error within a computer system |
US6467048B1 (en) * | 1999-10-07 | 2002-10-15 | Compaq Information Technologies Group, L.P. | Apparatus, method and system for using cache memory as fail-over memory |
US6615340B1 (en) * | 2000-03-22 | 2003-09-02 | Wilmot, Ii Richard Byron | Extended operand management indicator structure and method |
US6934810B1 (en) * | 2002-09-26 | 2005-08-23 | Unisys Corporation | Delayed leaky write system and method for a cache memory |
US7222270B2 (en) * | 2003-01-10 | 2007-05-22 | International Business Machines Corporation | Method for tagging uncorrectable errors for symmetric multiprocessors |
-
2004
- 2004-11-17 US US10/992,056 patent/US7596738B2/en active Active
-
2005
- 2005-11-04 EP EP05256834.2A patent/EP1659494B1/en active Active
- 2005-11-15 JP JP2005330822A patent/JP4907154B2/ja active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5750398A (en) * | 1980-09-09 | 1982-03-24 | Toshiba Corp | Error checking system |
JPS60220444A (ja) * | 1984-04-17 | 1985-11-05 | Fujitsu Ltd | 交替ビツト制御回路 |
JPS6246358A (ja) * | 1985-08-23 | 1987-02-28 | Fujitsu Ltd | エラ−処理方式 |
JPS63278162A (ja) * | 1987-05-09 | 1988-11-15 | Nec Corp | 情報処理装置におけるエラ−訂正装置 |
JPH0363743A (ja) * | 1989-08-02 | 1991-03-19 | Fujitsu Ltd | 記憶装置におけるメモリエラー記録装置 |
EP0442616A2 (en) * | 1990-02-14 | 1991-08-21 | International Business Machines Corporation | Method for testing a computer memory location |
JPH0773115A (ja) * | 1990-02-14 | 1995-03-17 | Internatl Business Mach Corp <Ibm> | コンピュータシステムのメモリテスト方法 |
JPH05165719A (ja) * | 1991-12-18 | 1993-07-02 | Nec Eng Ltd | メモリアクセス処理装置 |
JPH11102599A (ja) * | 1997-09-29 | 1999-04-13 | Nec Field Service Ltd | 半導体記憶装置 |
US6539503B1 (en) * | 1999-11-23 | 2003-03-25 | Hewlett-Packard Company | Method and apparatus for testing error detection |
US20030145257A1 (en) * | 2002-01-30 | 2003-07-31 | Ibm Corporation | Method and system for handling multiple bit errors to enhance system reliability |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008046685A (ja) * | 2006-08-10 | 2008-02-28 | Fujitsu Ltd | 二重化システム及び系切り換え方法 |
JP2009116398A (ja) * | 2007-11-01 | 2009-05-28 | Nec Computertechno Ltd | ノードコントローラ、分散共有メモリ型情報処理装置、キャッシュコヒーレンシ制御方法 |
CN102103482A (zh) * | 2009-12-18 | 2011-06-22 | 英特尔公司 | 自适应优化的比较-交换操作 |
JP2011129104A (ja) * | 2009-12-18 | 2011-06-30 | Intel Corp | 適応的最適化された比較/交換オペレーション |
US8601242B2 (en) | 2009-12-18 | 2013-12-03 | Intel Corporation | Adaptive optimized compare-exchange operation |
Also Published As
Publication number | Publication date |
---|---|
EP1659494A2 (en) | 2006-05-24 |
JP4907154B2 (ja) | 2012-03-28 |
EP1659494B1 (en) | 2015-10-07 |
EP1659494A3 (en) | 2009-06-10 |
US20060112306A1 (en) | 2006-05-25 |
US7596738B2 (en) | 2009-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4907154B2 (ja) | メモリエラーを分類するための方法および装置 | |
TW413755B (en) | Method and apparatus for automatically correcting errors detected in a memory subsystem | |
JP4283221B2 (ja) | 繰返し失敗したメモリ位置を無効にする実行をイネーブルにするため、失敗したメモリ位置を追跡する各種方法及び装置 | |
US8301938B2 (en) | Managing memory health | |
US7971112B2 (en) | Memory diagnosis method | |
KR101374455B1 (ko) | 메모리 에러와 리던던시 | |
JP5965076B2 (ja) | 訂正不能メモリエラー処理方法及びその可読媒体 | |
US8949694B2 (en) | Address error detection | |
TW201535382A (zh) | 動態隨機存取記憶體(dram)列備用技術 | |
KR102131337B1 (ko) | 고장 제어 기능을 구비한 캐시 메모리 | |
US9086990B2 (en) | Bitline deletion | |
US8352812B2 (en) | Protecting data storage structures from intermittent errors | |
US7747913B2 (en) | Correcting intermittent errors in data storage structures | |
US20100169572A1 (en) | Data storage method, apparatus and system for interrupted write recovery | |
JP2005196680A (ja) | コンピュータシステム | |
KR101001071B1 (ko) | 메모리 비트 정정 보고 방법 및 장치 | |
CN108231134B (zh) | Ram良率补救方法及装置 | |
US10140186B2 (en) | Memory error recovery | |
JP3130796B2 (ja) | 制御記憶装置 | |
CN106874161B (zh) | 一种高速缓存异常的处理方法及装置 | |
JPS603769A (ja) | エラ−回復方法 | |
JPH04115339A (ja) | メモリエラー処理システム | |
JPH04123242A (ja) | 書込みエラー識別方式 | |
CN116466875A (zh) | 用于系统中的离线修复及后续重新集成的方法和系统 | |
JP2007148467A (ja) | 情報処理装置およびそのエラー処理方法ならびに制御プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080822 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20101119 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20110209 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110727 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110802 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111028 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120104 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120111 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150120 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4907154 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |