JP2022126966A - メモリ障害検出装置、検出プログラム、および検出方法 - Google Patents
メモリ障害検出装置、検出プログラム、および検出方法 Download PDFInfo
- Publication number
- JP2022126966A JP2022126966A JP2021024847A JP2021024847A JP2022126966A JP 2022126966 A JP2022126966 A JP 2022126966A JP 2021024847 A JP2021024847 A JP 2021024847A JP 2021024847 A JP2021024847 A JP 2021024847A JP 2022126966 A JP2022126966 A JP 2022126966A
- Authority
- JP
- Japan
- Prior art keywords
- frequency
- memory
- error
- correctable
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000015654 memory Effects 0.000 title claims abstract description 149
- 238000001514 detection method Methods 0.000 title claims abstract description 70
- 238000004364 calculation method Methods 0.000 claims abstract description 10
- 238000005259 measurement Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims description 12
- 238000000034 method Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 description 14
- 238000012937 correction Methods 0.000 description 6
- 238000012544 monitoring process Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000005855 radiation Effects 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Abstract
Description
これらの技術を採用している場合、ソフトエラーによりメモリ内において大量のデータ化けが発生しても、ほとんどの場合、検出/訂正することができる。
特許文献1に記載されたメモリ障害対処システムでは、メモリコントローラからファームウェアへのCE発生通知を用いてCE発生回数を計測し、CE発生回数が閾値に到達した場合、メモリ故障と判断している。
また、特許文献2に記載されたメモリ障害処理システムでは、メモリにおいて検出した障害の発生回数総和が総和閾値を超えるとメモリ故障と判断し、総和閾値はメモリに発生する障害がソフトエラーではなくハードエラーであるとみなすことができ、メモリが故障している可能性が高いと判断するのに好適な値を設定している。
特許文献1の手段の閾値を、特許文献2の手段で選定すれば、ソフトエラーによるCEが原因で 誤ってメモリ故障と判断してしまう可能性が低い、CE監視を実現できる。
適切な閾値を選択しないと、ソフトエラーによるCEを原因とする障害を誤ってメモリ故障と判断してしまう可能性があるにもかかわらず、適切な閾値を選定することが難しい。
ソフトエラーによるCEが原因で 誤ってメモリ故障と判断してしまう可能性が低い、閾値の選定には、ソフトエラーによって発生しうるCE発生回数よりも、閾値を大きくする必要がある。
その理由は、ソフトエラーによって発生しうるCE発生回数を見積もるには、ソフトエラーが継続的に発生する現象である事を考慮すると、一例として、以下の式(1)の値を見積もる必要がある。
ソフトエラーによって発生しうるCE発生回数=
(監視期間の単位時間数)*(単位時間あたりのソフトエラーによって発生しうるCE発生回数) ……(1)
ここで、「監視期間の単位時間数」は、機器の運用期間に依存する為、機器の運用期間を、閾値選定時に把握しておく必要があり、その値の設定の難易度が高い。
また、「単位時間あたりのソフトエラーによって発生しうるCE発生回数」も、ソフトエラーにおいて、放射線のメモリへの衝突場所等により、メモリ内に どれだけの量のデータ化けが発生するかが大幅に異なる為、その値の見積もりの難易度が高い。
図1のメモリ障害検出装置は、データを記憶するメモリ1と、このメモリ1を制御するとともにエラーの有無を検出するメモリコントローラ2と、ファームウェア3とを備え、前記メモリコントローラ1は、前記メモリ1における訂正可能エラーの発生を検出するエラー検出部10と、該エラー検出部10によりエラーが検出される頻度を計測する頻度計測部11と、該頻度計測部11により所定以上の頻度でエラーが検出されたことを判定する頻度判定部12と、該頻度判定部12が所定以上の頻度で訂正可能エラーが発生したと判定した場合に、所定以上の頻度で発生した訂正可能エラーの単位時間あたりの検出数を算出するエラー算出部13と、該エラー算出部13により算出された検出数と予め設定されたエラー検出閾値とを比較して前記メモリが故障したか否かを判定するエラー判定部14とを有する。
CPU(Central Processing Unit 中央制御装置)100は、ファームウェアを記憶したファームウェア格納部200、NVRAM(Non Volatile RAM 電源を落としても記憶が保存される不揮発メモリ)300、後述する#1メモリ410、#2メモリ420を制御するメモリコントローラ400にアクセスする機能を持つ。
また前記CPU100は、前記ファームウェア格納部200のファームウェアを実行する機能を持つ。
前記メモリコントローラ400は、内部に、前記#1メモリ410で発生したCEを検出して訂正するCE検出/訂正部411、前記#1メモリ410でCEが発生したことをファームウェア格納部200へ通知する#1CE通知部412、前記#2メモリ420で発生したCEを検出して訂正するCE検出/訂正部421、前記#2メモリでCEが発生したことをファームウェア格納部200へ通知する#2CE通知部422、前記#1メモリ410、#2メモリ420にデータ化けを検出した場合、正しいデータを書き戻して修復する機能を持つパトロールスクラブ制御部450を備える。
(1)#1,#2メモリ410および420、メモリコントローラ400、ファームウェア格納部200に格納されたファームウェア、ファームウェアが利用可能なNVRAM300を備える。
(2)前記メモリコントローラ400が、#1,#2メモリ410および420から読み出したデータの訂正可能なデータ化けをCEの発生として検出し訂正する機能を持つ。
(3)前記メモリコントローラ400が、CEの発生を、ファームウェアへ通知する機能を持つ。
(4)前記ファームウェア格納部200に格納されたファームウェアが、前記(3)の機能による通知の有効化と無効化を行う事が可能である。
(5)前記ファームウェア格納部200に格納されたファームウェアが、前記(3)の通知の有効化を行う際、有効化前に発生したCEが通知されない処置を実施することが可能である。
(7)機器の起動時等に、#1,#2メモリ410、420の初期化処理として、メモリ全体へ特定のデータが書き込まれる。
(8)ファームウェア格納部200に格納されたファームウェアが、前記(7)の機能によるデータの書き込みの完了を認識する事が可能である。
(9)メモリコントローラ400が、Patrol ScrubまたはPatrol Scrubと同等の機能を持つ。
(10)ファームウェア格納部200に格納されたファームウェアが、前記(9)の一周期の処理の完了を認識する事が可能である。
以下、メモリ障害検出装置の動作とともに、一実施形態のメモリ障害検出プログラム、および障害検出方法の各工程で行われる処理について説明する。
下記ステップS1~S8の処理は、監視対象の#1,#2メモリ410、420のそれぞれについて実行される。
S1: #1,#2メモリ410、420の初期化の完了、または、これらのメモリへのPatrol Scrubの一周期の完了、を待つ。
S2: #1,#2メモリ410、420のCE発生通知を有効化する。この有効化の際、有効化前に発生したCEが通知されない処置を実施する。
S3: #1,#2メモリ410、420において、CE発生通知をもとに、CE発生頻度の計測を続け、「閾値を超える頻度のCE」を検出するまで待つ。
S4: #1,#2メモリ410、420のCE発生通知を無効化する。
S6: ステップS5でNVRAMに格納された情報をもとに、単位時間内の「閾値を超える頻度のCE」の検出数を算出する。
S7:ステップS6で算出された値が閾値未満の場合、S1へ戻る。S6で算出された値が閾値以上の場合、S8へ進む。
S8:メモリ故障検出時の処理を実施。
NVRAMを利用する理由は、メモリ初期化が行われても、S6で利用する情報を保持する為である。
メモリが故障していた場合、メモリ故障によりステップS3で「閾値を超える頻度のCE」が検出された後、ステップS1が実施されてもメモリ故障は回復しない。この結果、メモリ故障により、ステップS3で「閾値を超える頻度のCE」が再検出される。この為、メモリが故障していた場合、「閾値を超える頻度のCE」の検出が繰り返される。
メモリが正常であった場合、「閾値を超える頻度のCE」を発生させる規模のソフトエラーの発生により、ステップS3で「閾値を超える頻度のCE」が検出された場合であっても、その後のステップS1で ソフトエラーによるメモリ内のデータ化けは全て修復される為、新たに「閾値を超える頻度のCE」を発生させる規模のソフトエラーが発生しない限り、ステップS3では「閾値を超える頻度のCE」が再検出されることはない。
前記一実施形態のステップS1~S8のうち、ステップS7における監視対象となる一のメモリの「ステップS6で算出された値」を、他のメモリの「ステップS6で算出された値」や、本発明を導入した他の機器上のメモリの「ステップS6で算出された値」と比較し、監視対象の一のメモリの「ステップS6算出された値」が極端に大きい場合は、ステップS8へ進み(メモリ故障と判断する)、さもなければステップS1へ進む(メモリ故障ではないと判断する)ようにしても良い。
この方法により、前記一実施形態のステップS7で比較の対象とする閾値を見積って設定する処理の必要が無くなる。
2 メモリコントローラ
3 ファームウェア
10 エラー検出部
11 頻度計測部
12 頻度判定部
13 エラー算出部
14 エラー判定部
100 CPU
200 ファームウェア格納部
300 NVRAM
400 メモリコントローラ
410 #1メモリ
411 CE検出/訂正部
412 #1CE通知部
420 #2メモリ
421 CE検出/訂正部
422 #2CE通知部
450 パトロールスクラブ制御部450
Claims (6)
- データを記憶するメモリと、
このメモリを制御するとともにエラーの有無を検出するメモリコントローラと、
ファームウェアと、
を備え、
前記メモリコントローラは、前記メモリにおける訂正可能エラーの発生を検出するエラー検出部と、
該エラー検出部によりエラーが検出される頻度を計測する頻度計測部と、
該頻度計測部により所定以上の頻度でエラーが検出されたことを判定する頻度判定部と、
該頻度判定部が所定以上の頻度で訂正可能エラーが発生したと判定した場合に、所定以上の頻度で発生した訂正可能エラーの単位時間あたりの検出数を算出するエラー算出部と、
該エラー算出部により算出された検出数と予め設定されたエラー検出閾値とを比較して前記メモリが故障したか否かを判定するエラー判定部と、
を有するメモリ障害検出装置。 - 前記頻度計測部は、前記メモリの初期化完了後に前記頻度計測部によるエラー発生頻度の計測を開始する、
請求項1に記載のメモリ障害検出装置。 - 前記頻度計測部は、前記メモリからデータを読み出して訂正可能なデータ化けを検出した場合に正しいデータを書き戻して修復する処理の一周期が終了した後に前記頻度計測部によるエラー発生頻度の計測を行う、
請求項1に記載のメモリ障害検出装置。 - 前記エラー算出部は、前記頻度判定部により所定以上の頻度で訂正可能エラーが発生したことを検出した場合に、前記メモリの訂正可能エラーの発生の通知を無効化する、
請求項1~3のいずれか1項に記載のメモリ障害検出装置。 - 請求項1~4のいずれか1項に記載のメモリ障害検出装置で実行される処理であって、前記メモリにおける訂正可能エラーの発生を前記エラー検出部が検出する工程と、
エラーが検出される頻度を前記頻度計測部が計測する工程と、
所定以上の頻度でエラーが検出されたことを前記頻度判定部が判定する工程と、
所定以上の頻度で訂正可能エラーが発生したと判定した場合に、所定以上の頻度で発生した訂正可能エラーの単位時間あたりの検出数を前記エラー算出部が算出する工程と、算出された検出数と予め設定されたエラー検出閾値とを比較して前記メモリが故障したか否かを前記エラー判定部が判定する工程と、
をコンピュータに実行させるメモリ障害検出プログラム。 - データを記憶するメモリにおける訂正可能エラーの発生を検出する工程と、
エラーが検出される頻度を計測する工程と、
所定以上の頻度でエラーが検出されたことを判定する工程と、
所定以上の頻度で訂正可能エラーが発生したと判定した場合に、所定以上の頻度で発生した訂正可能エラーの単位時間あたりの検出数を算出する工程と、
算出された検出数と予め設定されたエラー検出閾値とを比較して前記メモリが故障したか否かを判定する工程と、
を有するメモリ障害検出方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021024847A JP7283784B2 (ja) | 2021-02-19 | 2021-02-19 | メモリ障害検出装置、検出プログラム、および検出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021024847A JP7283784B2 (ja) | 2021-02-19 | 2021-02-19 | メモリ障害検出装置、検出プログラム、および検出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022126966A true JP2022126966A (ja) | 2022-08-31 |
JP7283784B2 JP7283784B2 (ja) | 2023-05-30 |
Family
ID=83060104
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021024847A Active JP7283784B2 (ja) | 2021-02-19 | 2021-02-19 | メモリ障害検出装置、検出プログラム、および検出方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7283784B2 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009187214A (ja) * | 2008-02-05 | 2009-08-20 | Fujitsu Ltd | 不良メモリを検出する電子機器、不良メモリ検出方法およびそのためのプログラム |
JP2013182355A (ja) * | 2012-02-29 | 2013-09-12 | Fujitsu Ltd | 情報処理装置、制御方法および制御プログラム |
JP2019096281A (ja) * | 2017-11-17 | 2019-06-20 | 慧榮科技股▲分▼有限公司 | データ記憶装置および関連する操作方法 |
-
2021
- 2021-02-19 JP JP2021024847A patent/JP7283784B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009187214A (ja) * | 2008-02-05 | 2009-08-20 | Fujitsu Ltd | 不良メモリを検出する電子機器、不良メモリ検出方法およびそのためのプログラム |
JP2013182355A (ja) * | 2012-02-29 | 2013-09-12 | Fujitsu Ltd | 情報処理装置、制御方法および制御プログラム |
JP2019096281A (ja) * | 2017-11-17 | 2019-06-20 | 慧榮科技股▲分▼有限公司 | データ記憶装置および関連する操作方法 |
Also Published As
Publication number | Publication date |
---|---|
JP7283784B2 (ja) | 2023-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9081708B2 (en) | Dynamic read scheme for high reliability high performance flash memory | |
US7971112B2 (en) | Memory diagnosis method | |
US9990245B2 (en) | Electronic device having fault monitoring for a memory and associated methods | |
WO2021253708A1 (zh) | 内存故障的处理方法、装置、设备及存储介质 | |
US8468422B2 (en) | Prediction and prevention of uncorrectable memory errors | |
US8572444B2 (en) | Memory apparatus and testing method thereof | |
US8140940B2 (en) | Method and apparatus for controlling memory | |
CN111008091A (zh) | 一种内存ce的故障处理方法、系统及相关装置 | |
KR101805234B1 (ko) | 데이터 메모리의 모니터링 방법, 비일시적 컴퓨터 판독가능 저장 매체 및 보조 메모리 | |
US11663095B2 (en) | Error detection circuit | |
KR101983651B1 (ko) | Mram 장 교란 검출 및 복구 | |
JP7418397B2 (ja) | コモンモード障害信号に応じたメモリスキャン動作 | |
US9329921B2 (en) | Imminent read failure detection using high/low read voltage levels | |
CN111625387B (zh) | 内存错误处理方法、装置及服务器 | |
JP7283784B2 (ja) | メモリ障害検出装置、検出プログラム、および検出方法 | |
US11640334B2 (en) | Error rates for memory with built in error correction and detection | |
CN106716387B (zh) | 存储器诊断电路 | |
US20080301498A1 (en) | Control device and control method | |
JP2011232910A (ja) | メモリ診断方式 | |
KR101173873B1 (ko) | 데이터 보호 및 미러링 방법 및 그 시스템 | |
CN116166459A (zh) | 一种内存硬件故障检测方法、装置以及内存控制器 | |
JP6072710B2 (ja) | ハードウェア異常監視装置 | |
KR20240067770A (ko) | 데이터 메모리의 자가 진단을 위한 전자 회로 및 방법 | |
JP2009169681A (ja) | 制御装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220607 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230322 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230418 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230511 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7283784 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |