JP7283784B2 - MEMORY FAILURE DETECTION DEVICE, DETECTION PROGRAM, AND DETECTION METHOD - Google Patents

MEMORY FAILURE DETECTION DEVICE, DETECTION PROGRAM, AND DETECTION METHOD Download PDF

Info

Publication number
JP7283784B2
JP7283784B2 JP2021024847A JP2021024847A JP7283784B2 JP 7283784 B2 JP7283784 B2 JP 7283784B2 JP 2021024847 A JP2021024847 A JP 2021024847A JP 2021024847 A JP2021024847 A JP 2021024847A JP 7283784 B2 JP7283784 B2 JP 7283784B2
Authority
JP
Japan
Prior art keywords
memory
frequency
error
unit
correctable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021024847A
Other languages
Japanese (ja)
Other versions
JP2022126966A (en
Inventor
栄治 野中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Platforms Ltd
Original Assignee
NEC Platforms Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Platforms Ltd filed Critical NEC Platforms Ltd
Priority to JP2021024847A priority Critical patent/JP7283784B2/en
Publication of JP2022126966A publication Critical patent/JP2022126966A/en
Application granted granted Critical
Publication of JP7283784B2 publication Critical patent/JP7283784B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Detection And Correction Of Errors (AREA)
  • Debugging And Monitoring (AREA)

Description

本発明は、メモリ障害検出装置および検出方法に関する。 The present invention relates to a memory failure detection device and detection method.

半導体を用いたメモリにあっては、放射線の衝突等の原因により、メモリ内のデータが不正な値となる(以後「データ化け」 と呼ぶ)場合があり、このような現象をソフトエラーと呼ぶ。このソフトエラーは一過性の現象である為、データ化けが発生しても、正しいデータを書き込む事により、修復が可能である。また、近年のメモリの高密度化/微細化に伴い、ソフトエラーの影響が大きくなる傾向があり、このソフトエラーを原因として、メモリ内において大量のデータ化けが発生する場合がある。さらに、このようなソフトエラーだけでなく、メモリ自体の故障によっても、メモリ内においてデータ化けが発生する場合がある。 In memory using semiconductors, the data in the memory may become an incorrect value (hereafter referred to as "data corruption") due to factors such as collision with radiation, and such a phenomenon is called a soft error. . Since this soft error is a transient phenomenon, even if data corruption occurs, it can be repaired by writing correct data. In addition, with the recent increase in density/miniaturization of memories, the influence of soft errors tends to increase, and this soft error may cause a large amount of garbled data in the memory. Furthermore, not only such soft errors but also failures of the memory itself may cause data corruption in the memory.

前記ソフトエラーやメモリ故障への対策に関連する技術として、ECC(Error Correcting Code:誤り訂正符号)、SDDC(Single Device Data Correction:単デバイスデータ訂正)、DDDC(Double Device Data Correction:複デバイスデータ訂正)等がある。前記SDDCの技術は、ECCをサポートするメモリモジュールを構成するメモリ部品のうち1個の、全データが化けたとしてもCEとして検出/訂正する能力を持つ。同様に、DDDCの技術は、2個の全データが化けたとしても訂正可能エラー(correctable error:以下CEと称す)として検出/訂正する能力を持つ。
これらの技術を採用している場合、ソフトエラーによりメモリ内において大量のデータ化けが発生しても、ほとんどの場合、検出/訂正することができる。
As technologies related to measures against soft errors and memory failures, ECC (Error Correcting Code), SDDC (Single Device Data Correction), DDDC (Double Device Data Correction) ), etc. The SDDC technology has the ability to detect/correct as a CE even if all the data in one of the memory components that make up the memory module that supports ECC is garbled. Similarly, the DDDC technique has the ability to detect/correct as a correctable error (hereinafter referred to as CE) even if two pieces of data are garbled.
When these techniques are adopted, even if a large amount of data corruption occurs in the memory due to soft errors, it can be detected/corrected in most cases.

さらに、ソフトエラーやメモリ故障への対策に関連する技術として、Patrol Scrubがある。Patrol Scrubは、メモリコントローラが、周期的に全メモリのリードを行い、リードしたデータにおいて訂正可能なデータ化けを検出した場合、正しいデータを書き戻して修復する機能である。ソフトエラーにより、メモリ内に訂正可能なデータ化けが発生していた場合、前記Patrol Scrubの実行により全て修復することができる。 Furthermore, there is Patrol Scrub as a technology related to countermeasures against soft errors and memory failures. Patrol Scrub is a function in which the memory controller periodically reads all the memories and, when correctable data corruption is detected in the read data, restores correct data by writing back. If correctable data corruption occurs in the memory due to a soft error, it can be completely repaired by executing Patrol Scrub.

また、メモリを用いる機器が一般的に持つ機能として、機器の起動時等に、メモリ初期化処理として、メモリ全体へ特定のデータを書き込む機能がある。ソフトエラーにより、メモリ内に訂正可能なデータ化けが発生していた場合、メモリ初期化により全て修復することができる。 Further, as a function generally possessed by a device using a memory, there is a function of writing specific data to the entire memory as memory initialization processing when the device is started. If correctable data corruption occurs in the memory due to a soft error, it can be completely restored by memory initialization.

例えば基礎入出力システムプログラム(BIOS:Basic Input Output System)によってメモリのCEを監視する技術に関連して、下記の特許文献1、2がある。
特許文献1に記載されたメモリ障害対処システムでは、メモリコントローラからファームウェアへのCE発生通知を用いてCE発生回数を計測し、CE発生回数が閾値に到達した場合、メモリ故障と判断している。
また、特許文献2に記載されたメモリ障害処理システムでは、メモリにおいて検出した障害の発生回数総和が総和閾値を超えるとメモリ故障と判断し、総和閾値はメモリに発生する障害がソフトエラーではなくハードエラーであるとみなすことができ、メモリが故障している可能性が高いと判断するのに好適な値を設定している。
特許文献1の手段の閾値を、特許文献2の手段で選定すれば、ソフトエラーによるCEが原因で 誤ってメモリ故障と判断してしまう可能性が低い、CE監視を実現できる。
For example, Patent Documents 1 and 2 below relate to techniques for monitoring the CE of a memory using a basic input/output system program (BIOS: Basic Input Output System).
In the memory failure coping system described in Patent Document 1, the number of CE occurrences is counted using the CE occurrence notification from the memory controller to the firmware, and when the CE occurrence count reaches a threshold, it is determined that a memory failure has occurred.
Further, in the memory failure processing system described in Patent Document 2, when the total number of occurrences of failures detected in the memory exceeds the sum threshold, it is determined that there is a memory failure. It can be regarded as an error, and a value suitable for judging that there is a high possibility that the memory is out of order is set.
By selecting the threshold value of the method of Patent Document 1 by the method of Patent Document 2, it is possible to implement CE monitoring with a low possibility of erroneously determining a memory failure due to a CE caused by a soft error.

特開2020-154591号公報JP 2020-154591 A 特開2011-150469号公報JP 2011-150469 A

しかしながら、特許文献1と特許文献2とに記載された技術を用いてメモリ障害を検出する場合、下記の課題がある。
適切な閾値を選択しないと、ソフトエラーによるCEを原因とする障害を誤ってメモリ故障と判断してしまう可能性があるにもかかわらず、適切な閾値を選定することが難しい。
ソフトエラーによるCEが原因で 誤ってメモリ故障と判断してしまう可能性が低い、閾値の選定には、ソフトエラーによって発生しうるCE発生回数よりも、閾値を大きくする必要がある。
その理由は、ソフトエラーによって発生しうるCE発生回数を見積もるには、ソフトエラーが継続的に発生する現象である事を考慮すると、一例として、以下の式(1)の値を見積もる必要がある。
ソフトエラーによって発生しうるCE発生回数=
(監視期間の単位時間数)*(単位時間あたりのソフトエラーによって発生しうるCE発生回数) ……(1)
ここで、「監視期間の単位時間数」は、機器の運用期間に依存する為、機器の運用期間を、閾値選定時に把握しておく必要があり、その値の設定の難易度が高い。
また、「単位時間あたりのソフトエラーによって発生しうるCE発生回数」も、ソフトエラーにおいて、放射線のメモリへの衝突場所等により、メモリ内に どれだけの量のデータ化けが発生するかが大幅に異なる為、その値の見積もりの難易度が高い。
However, when detecting a memory failure using the techniques described in Patent Documents 1 and 2, there are the following problems.
If an appropriate threshold is not selected, a failure caused by a CE due to a soft error may be mistakenly determined as a memory failure. However, it is difficult to select an appropriate threshold.
In order to select a threshold that reduces the possibility of erroneously determining a memory failure due to a CE caused by a soft error, it is necessary to set the threshold larger than the number of CE occurrences that can occur due to a soft error.
The reason for this is that, in order to estimate the number of CE occurrences that can occur due to soft errors, it is necessary to estimate the value of the following equation (1) as an example, considering that soft errors are a phenomenon that occurs continuously. .
Number of CE occurrences that can occur due to soft errors =
(Number of unit hours of monitoring period) * (Number of CE occurrences that can occur due to soft errors per unit time) ……(1)
Here, since the "monitoring period unit time" depends on the operation period of the device, it is necessary to grasp the operation period of the device at the time of threshold selection, and the difficulty of setting the value is high.
In addition, "the number of CE occurrences that can occur due to soft errors per unit time" also greatly depends on how much data is corrupted in the memory due to factors such as the impact location of radiation on the memory due to soft errors. Since it is different, the difficulty of estimating the value is high.

この発明は、メモリ障害の誤検出の可能性の低い判定の閾値を選定することを目的とする。 SUMMARY OF THE INVENTION An object of the present invention is to select a determination threshold with a low probability of false detection of a memory failure.

上記課題を解決するために、本発明の第1の態様にかかるメモリ障害検出装置は、データを記憶するメモリと、このメモリを制御するとともにエラーの有無を検出するメモリコントローラと、ファームウェアと、を備え、前記メモリコントローラは、前記メモリにおける訂正可能エラーの発生を検出するエラー検出部と、該エラー検出部によりエラーが検出される頻度を計測する頻度計測部と、該頻度計測部により所定以上の頻度でエラーが検出されたことを判定する頻度判定部と、該頻度判定部が所定以上の頻度で訂正可能エラーが発生したと判定した場合に、所定以上の頻度で発生した訂正可能エラーの単位時間あたりの検出数を算出するエラー算出部と、該エラー算出部により算出された検出数と予め設定されたエラー検出閾値とを比較して前記メモリが故障したか否かを判定するエラー判定部とを有する。 In order to solve the above problems, a memory failure detection device according to a first aspect of the present invention includes a memory that stores data, a memory controller that controls the memory and detects the presence or absence of an error, and firmware. The memory controller comprises an error detection unit that detects the occurrence of a correctable error in the memory, a frequency measurement unit that measures the frequency of error detection by the error detection unit, and A frequency determination unit that determines that an error has been detected by frequency, and a correctable error unit that occurs with a frequency equal to or greater than a predetermined frequency when the frequency determination unit determines that a correctable error has occurred with a frequency equal to or greater than a predetermined frequency. an error calculation unit that calculates the number of detections per time; and an error determination unit that compares the number of detections calculated by the error calculation unit with a preset error detection threshold to determine whether or not the memory has failed. and

本発明の第2の態様にかかるメモリ障害検出方法は、データを記憶するメモリにおける訂正可能エラーの発生を検出する工程と、エラーが検出される頻度を計測する工程と、所定以上の頻度でエラーが検出されたことを判定する工程と、所定以上の頻度で訂正可能エラーが発生したと判定した場合に、所定以上の頻度で発生した訂正可能エラーの単位時間あたりの検出数を算出する工程と、算出された検出数と予め設定されたエラー検出閾値とを比較して前記メモリが故障したか否かを判定する工程とを有する。 A memory failure detection method according to a second aspect of the present invention comprises the steps of detecting occurrence of a correctable error in a memory storing data; measuring the frequency of error detection; a step of determining that a is detected; and a step of calculating the number of correctable errors detected per unit time that occur with a frequency of a predetermined frequency or more when it is determined that correctable errors have occurred with a frequency of a predetermined frequency or more. and comparing the calculated number of detections with a preset error detection threshold to determine whether the memory has failed.

本発明によれば、メモリ障害の誤検出の可能性の低い判定の閾値を選定することができる。 According to the present invention, it is possible to select a determination threshold with a low probability of false detection of a memory fault.

本発明の最少構成にかかるメモリ障害検出装置のブロック図である。1 is a block diagram of a memory failure detection device according to the minimum configuration of the present invention; FIG. 本発明の一実施形態にかかるメモリ障害検出装置のブロック図である。1 is a block diagram of a memory failure detection device according to an embodiment of the present invention; FIG. 一実施形態のメモリ障害検出装置の処理ステップを示すフローチャートである。4 is a flow chart showing processing steps of the memory fault detection device of one embodiment.

図1は、メモリ障害検出装置の最少構成例を示すものである。
図1のメモリ障害検出装置は、データを記憶するメモリ1と、このメモリ1を制御するとともにエラーの有無を検出するメモリコントローラ2と、ファームウェア3とを備え、前記メモリコントローラ1は、前記メモリ1における訂正可能エラーの発生を検出するエラー検出部10と、該エラー検出部10によりエラーが検出される頻度を計測する頻度計測部11と、該頻度計測部11により所定以上の頻度でエラーが検出されたことを判定する頻度判定部12と、該頻度判定部12が所定以上の頻度で訂正可能エラーが発生したと判定した場合に、所定以上の頻度で発生した訂正可能エラーの単位時間あたりの検出数を算出するエラー算出部13と、該エラー算出部13により算出された検出数と予め設定されたエラー検出閾値とを比較して前記メモリが故障したか否かを判定するエラー判定部14とを有する。
FIG. 1 shows an example of the minimum configuration of a memory failure detection device.
The memory failure detection device of FIG. 1 includes a memory 1 for storing data, a memory controller 2 for controlling the memory 1 and detecting the presence or absence of an error, and firmware 3. an error detection unit 10 for detecting the occurrence of a correctable error, a frequency measurement unit 11 for measuring the frequency of error detection by the error detection unit 10, and an error detected by the frequency measurement unit 11 at a frequency equal to or higher than a predetermined frequency. a frequency determination unit 12 that determines that a correctable error has occurred with a frequency equal to or greater than a predetermined frequency; An error calculation unit 13 that calculates the number of detections, and an error determination unit 14 that compares the number of detections calculated by the error calculation unit 13 with a preset error detection threshold to determine whether the memory has failed. and

上記構成のメモリ障害検出装置によれば、頻度判定部12によって訂正可能エラーの発生頻度を判定した後に計数を開始するので、訂正可能エラーを本来検出すべき障害と誤って判定する可能性が低い閾値を選定して、エラー計数回数と比較することにより、メモリ障害の誤検出を最小限にすることができる。 According to the memory failure detection device configured as described above, counting is started after the occurrence frequency of correctable errors is determined by the frequency determination unit 12, so the possibility of erroneously determining correctable errors as failures that should be detected is low. False detection of memory faults can be minimized by choosing a threshold and comparing it to the error count.

また、メモリ障害検出方法の最少構成は、例えばメモリコントローラ2において、データを記憶するメモリ1における訂正可能エラーの発生を検出する工程と、エラーが検出される頻度を計測する工程と、所定以上の頻度でエラーが検出されたことを判定する工程と、所定以上の頻度で訂正可能エラーが発生したと判定した場合に、所定以上の頻度で発生した訂正可能エラーの単位時間あたりの検出数を算出する工程と、算出された検出数と予め設定されたエラー検出閾値とを比較して前記メモリが故障したか否かを判定する工程とを有する。 The minimum configuration of the memory failure detection method is, for example, in the memory controller 2, a step of detecting the occurrence of a correctable error in the memory 1 that stores data, a step of measuring the frequency of error detection, and a a step of determining that errors are detected with frequency; and calculating the number of correctable errors detected per unit time that occur with a frequency of a predetermined frequency or more when it is determined that correctable errors have occurred with a frequency of a predetermined frequency or more. and determining whether or not the memory has failed by comparing the calculated number of detections with a preset error detection threshold.

上記構成のメモリ障害方法によれば、訂正可能エラーの発生頻度を判定した後に計数を開始するので、訂正可能エラーを本来検出すべき障害と誤って判定する可能性が低い閾値を選定して、エラー計数回数と比較することにより、誤ったメモリ障害の検出を最小限にすることができる。 According to the memory failure method configured as described above, counting is started after determining the occurrence frequency of correctable errors. False memory fault detection can be minimized by comparing error counts.

図1を具体化した本発明の一実施形態に係る構成について図2及び図3を参照して説明する。
CPU(Central Processing Unit 中央制御装置)100は、ファームウェアを記憶したファームウェア格納部200、NVRAM(Non Volatile RAM 電源を落としても記憶が保存される不揮発メモリ)300、後述する#1メモリ410、#2メモリ420を制御するメモリコントローラ400にアクセスする機能を持つ。
また前記CPU100は、前記ファームウェア格納部200のファームウェアを実行する機能を持つ。
A configuration according to an embodiment of the present invention embodying FIG. 1 will be described with reference to FIGS. 2 and 3. FIG.
A CPU (Central Processing Unit) 100 includes a firmware storage section 200 storing firmware, an NVRAM (Non Volatile RAM non-volatile memory that retains memory even when the power is turned off) 300, a #1 memory 410 and #2, which will be described later. It has a function of accessing the memory controller 400 that controls the memory 420 .
The CPU 100 also has a function of executing the firmware in the firmware storage unit 200 .

前記メモリコントローラ400は、#1メモリ410、#2メモリ420、にアクセスする機能を持つ。
前記メモリコントローラ400は、内部に、前記#1メモリ410で発生したCEを検出して訂正するCE検出/訂正部411、前記#1メモリ410でCEが発生したことをファームウェア格納部200へ通知する#1CE通知部412、前記#2メモリ420で発生したCEを検出して訂正するCE検出/訂正部421、前記#2メモリでCEが発生したことをファームウェア格納部200へ通知する#2CE通知部422、前記#1メモリ410、#2メモリ420にデータ化けを検出した場合、正しいデータを書き戻して修復する機能を持つパトロールスクラブ制御部450を備える。
The memory controller 400 has a function of accessing #1 memory 410 and #2 memory 420 .
The memory controller 400 includes a CE detection/correction unit 411 that detects and corrects a CE generated in the #1 memory 410, and notifies the firmware storage unit 200 that a CE has occurred in the #1 memory 410. A #1 CE notification unit 412, a CE detection/correction unit 421 that detects and corrects a CE generated in the #2 memory 420, and a #2 CE notification unit that notifies the firmware storage unit 200 that a CE has occurred in the #2 memory. 422, a patrol scrub control unit 450 having a function of restoring correct data by writing back correct data when garbled data is detected in the #1 memory 410 and #2 memory 420;

すなわち、一実施形態の障害検出装置の構成を要約すれば、下記の通りである。
(1)#1,#2メモリ410および420、メモリコントローラ400、ファームウェア格納部200に格納されたファームウェア、ファームウェアが利用可能なNVRAM300を備える。
(2)前記メモリコントローラ400が、#1,#2メモリ410および420から読み出したデータの訂正可能なデータ化けをCEの発生として検出し訂正する機能を持つ。
(3)前記メモリコントローラ400が、CEの発生を、ファームウェアへ通知する機能を持つ。
(4)前記ファームウェア格納部200に格納されたファームウェアが、前記(3)の機能による通知の有効化と無効化を行う事が可能である。
(5)前記ファームウェア格納部200に格納されたファームウェアが、前記(3)の通知の有効化を行う際、有効化前に発生したCEが通知されない処置を実施することが可能である。
That is, the configuration of the failure detection device of one embodiment is summarized as follows.
(1) #1 and #2 memories 410 and 420, memory controller 400, firmware stored in firmware storage unit 200, and NVRAM 300 in which the firmware can be used.
(2) The memory controller 400 has a function of detecting correctable garbled data read from the #1 and #2 memories 410 and 420 as generation of CE and correcting it.
(3) The memory controller 400 has a function of notifying the firmware of the occurrence of CE.
(4) The firmware stored in the firmware storage unit 200 can enable and disable notification by the function (3).
(5) When the firmware stored in the firmware storage unit 200 activates the notification of (3), it is possible to implement a measure that does not notify the CE that occurred before the activation.

(6)ファームウェア格納部200に格納されたファームウェアが、前記(3)の機能による通知を受けて、CEの発生を認識する機能を持つ。
(7)機器の起動時等に、#1,#2メモリ410、420の初期化処理として、メモリ全体へ特定のデータが書き込まれる。
(8)ファームウェア格納部200に格納されたファームウェアが、前記(7)の機能によるデータの書き込みの完了を認識する事が可能である。
(9)メモリコントローラ400が、Patrol ScrubまたはPatrol Scrubと同等の機能を持つ。
(10)ファームウェア格納部200に格納されたファームウェアが、前記(9)の一周期の処理の完了を認識する事が可能である。
(6) The firmware stored in the firmware storage unit 200 has a function of recognizing the occurrence of a CE upon receiving notification by the function of (3).
(7) Specific data is written to the entire memory as initialization processing of the #1 and #2 memories 410 and 420 when the device is started.
(8) The firmware stored in the firmware storage unit 200 can recognize completion of data writing by the function (7).
(9) The memory controller 400 has Patrol Scrub or a function equivalent to Patrol Scrub.
(10) The firmware stored in the firmware storage unit 200 can recognize the completion of one cycle of processing in (9).

前記ファームウェア格納部200に格納されたファームウェアは、図3のフローチャートに示すように、下記ステップS1~S8の処理を行う。
以下、メモリ障害検出装置の動作とともに、一実施形態のメモリ障害検出プログラム、および障害検出方法の各工程で行われる処理について説明する。
下記ステップS1~S8の処理は、監視対象の#1,#2メモリ410、420のそれぞれについて実行される。
S1: #1,#2メモリ410、420の初期化の完了、または、これらのメモリへのPatrol Scrubの一周期の完了、を待つ。
S2: #1,#2メモリ410、420のCE発生通知を有効化する。この有効化の際、有効化前に発生したCEが通知されない処置を実施する。
S3: #1,#2メモリ410、420において、CE発生通知をもとに、CE発生頻度の計測を続け、「閾値を超える頻度のCE」を検出するまで待つ。
S4: #1,#2メモリ410、420のCE発生通知を無効化する。
The firmware stored in the firmware storage unit 200 performs the following steps S1 to S8 as shown in the flowchart of FIG.
The operation of the memory failure detection device and the processing performed in each step of the memory failure detection program and the failure detection method of one embodiment will be described below.
The processing of steps S1 to S8 below is executed for each of the #1 and #2 memories 410 and 420 to be monitored.
S1: Wait for completion of initialization of #1 and #2 memories 410 and 420 or completion of one cycle of Patrol Scrub to these memories.
S2: Enable CE occurrence notification in the #1 and #2 memories 410 and 420; At the time of this validation, measures are taken to prevent CEs that occurred before validation from being notified.
S3: The #1 and #2 memories 410 and 420 continue to measure the CE occurrence frequency based on the CE occurrence notification, and wait until "the CE whose frequency exceeds the threshold" is detected.
S4: #1, #2 Invalidate the CE occurrence notification in the memories 410, 420.

S5:ステップS3での「閾値を超える頻度のCE」の検出時刻、または検出時刻を算出可能な情報を、NVRAMに格納する。
S6: ステップS5でNVRAMに格納された情報をもとに、単位時間内の「閾値を超える頻度のCE」の検出数を算出する。
S7:ステップS6で算出された値が閾値未満の場合、S1へ戻る。S6で算出された値が閾値以上の場合、S8へ進む。
S8:メモリ故障検出時の処理を実施。
S5: Store the detection time of "CE with a frequency exceeding the threshold" in step S3 or information from which the detection time can be calculated in the NVRAM.
S6: Based on the information stored in the NVRAM in step S5, the number of detected "CEs with a frequency exceeding the threshold" within a unit time is calculated.
S7: If the value calculated in step S6 is less than the threshold, return to S1. If the value calculated in S6 is greater than or equal to the threshold, the process proceeds to S8.
S8: Execute processing when a memory failure is detected.

ステップS3における「CE発生頻度の閾値」は、メモリの故障が疑われるCE発生頻度とする。ソフトエラーにより、この閾値以上の頻度でCEが発生する可能性があっても良い。前記メモリの故障が疑われる「CE発生頻度の閾値」は、例えばメモリの異常についての過去の品質管理データを利用して統計的な手法により選定、設定された値が採用される。
NVRAMを利用する理由は、メモリ初期化が行われても、S6で利用する情報を保持する為である。
The "threshold of CE occurrence frequency" in step S3 is assumed to be the CE occurrence frequency at which a memory failure is suspected. A soft error may cause a CE to occur at a frequency equal to or higher than this threshold. For the "CE occurrence frequency threshold" at which a memory failure is suspected, a value selected and set by a statistical method using past quality control data on memory anomalies, for example, is adopted.
The reason for using the NVRAM is to hold the information used in S6 even if the memory is initialized.

前記ステップS7における、メモリ故障判別は、詳細には、以下の判断基準に基づいて行われる。
メモリが故障していた場合、メモリ故障によりステップS3で「閾値を超える頻度のCE」が検出された後、ステップS1が実施されてもメモリ故障は回復しない。この結果、メモリ故障により、ステップS3で「閾値を超える頻度のCE」が再検出される。この為、メモリが故障していた場合、「閾値を超える頻度のCE」の検出が繰り返される。
メモリが正常であった場合、「閾値を超える頻度のCE」を発生させる規模のソフトエラーの発生により、ステップS3で「閾値を超える頻度のCE」が検出された場合であっても、その後のステップS1で ソフトエラーによるメモリ内のデータ化けは全て修復される為、新たに「閾値を超える頻度のCE」を発生させる規模のソフトエラーが発生しない限り、ステップS3では「閾値を超える頻度のCE」が再検出されることはない。
More specifically, the memory failure determination in step S7 is performed based on the following determination criteria.
If the memory has failed, even if step S1 is performed after "CE with a frequency exceeding the threshold" is detected in step S3 due to the memory failure, the memory failure will not be recovered. As a result, due to a memory failure, "CE with a frequency exceeding the threshold" is re-detected in step S3. Therefore, when the memory fails, the detection of "CE with a frequency exceeding the threshold" is repeated.
If the memory is normal, even if "CE with a frequency exceeding the threshold" is detected in step S3 due to the occurrence of a soft error on a scale that causes "CE with a frequency exceeding the threshold", the subsequent In step S1, all data garbled in the memory due to soft errors are repaired. ” will not be detected again.

以上説明した処理により、単位時間内の「閾値を超える頻度のCE」を発生させる規模のソフトエラー の発生数を見積もり、ステップS7のCE検出数と比較すべき閾値を見積もりよりも大きく設定しておけば、ソフトエラーによるCEを原因とするにもかかわらず誤ってメモリ故障と判断してしまう可能性が低い、CE発生の検出による監視が可能である。 By the above-described processing, the number of soft errors that generate "CE with a frequency exceeding the threshold" within a unit time is estimated, and the threshold to be compared with the number of CEs detected in step S7 is set larger than the estimation. By doing so, it is possible to monitor by detecting the occurrence of a CE with a low possibility of erroneously determining a memory failure even though the CE is caused by a soft error.

前記一実施形態のステップS7の処理を下記のように変形して実施しても良い。
前記一実施形態のステップS1~S8のうち、ステップS7における監視対象となる一のメモリの「ステップS6で算出された値」を、他のメモリの「ステップS6で算出された値」や、本発明を導入した他の機器上のメモリの「ステップS6で算出された値」と比較し、監視対象の一のメモリの「ステップS6算出された値」が極端に大きい場合は、ステップS8へ進み(メモリ故障と判断する)、さもなければステップS1へ進む(メモリ故障ではないと判断する)ようにしても良い。
The processing of step S7 of the above embodiment may be modified as follows.
Among the steps S1 to S8 of the embodiment, the "value calculated in step S6" of one memory to be monitored in step S7 is replaced with the "value calculated in step S6" of the other memory or this Compare with the "value calculated in step S6" of the memory on the other device to which the invention is introduced, and if the "value calculated in step S6" of one memory to be monitored is extremely large, proceed to step S8. (Determine that there is a memory failure), otherwise proceed to step S1 (Determine that there is no memory failure).

なお前記変形例における、導入した他の機器上のメモリの「ステップS6で算出された値」と比較する、手段については、具体的な手段を限定するものではない。
この方法により、前記一実施形態のステップS7で比較の対象とする閾値を見積って設定する処理の必要が無くなる。
In the modified example, the means for comparing with the "value calculated in step S6" in the memory of the installed other device is not limited to a specific means.
This method eliminates the need for the process of estimating and setting the threshold value to be compared in step S7 of the embodiment.

以上、本発明の一実施形態について図面を参照して詳述したが、メモリコントローラを構成する各機能の具体的構成、メモリの数は一実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。 As described above, one embodiment of the present invention has been described in detail with reference to the drawings. Design changes, etc. within a range that does not deviate are also included.

本発明は、メモリのエラー検出装置、検出プログラム、および検出方法に利用することができる。 INDUSTRIAL APPLICABILITY The present invention can be used for a memory error detection device, a detection program, and a detection method.

1 メモリ
2 メモリコントローラ
3 ファームウェア
10 エラー検出部
11 頻度計測部
12 頻度判定部
13 エラー算出部
14 エラー判定部
100 CPU
200 ファームウェア格納部
300 NVRAM
400 メモリコントローラ
410 #1メモリ
411 CE検出/訂正部
412 #1CE通知部
420 #2メモリ
421 CE検出/訂正部
422 #2CE通知部
450 パトロールスクラブ制御部450
1 memory 2 memory controller 3 firmware 10 error detection unit 11 frequency measurement unit 12 frequency determination unit 13 error calculation unit 14 error determination unit 100 CPU
200 firmware storage unit 300 NVRAM
400 Memory controller 410 #1 memory 411 CE detection/correction unit 412 #1 CE notification unit 420 #2 memory 421 CE detection/correction unit 422 #2 CE notification unit 450 Patrol scrub control unit 450

Claims (6)

データを記憶するメモリと、
このメモリを制御するとともにエラーの有無を検出するメモリコントローラと、
ファームウェアと、
を備え、
前記メモリコントローラは、前記メモリにおける訂正可能エラーの発生を検出するエラー検出部と、
該エラー検出部によりエラーが検出される頻度を計測する頻度計測部と、
該頻度計測部により所定以上の頻度でエラーが検出されたことを判定する頻度判定部と、
該頻度判定部が所定以上の頻度で訂正可能エラーが発生したと判定した場合に、所定以上の頻度で発生した訂正可能エラーの単位時間あたりの検出数を算出するエラー算出部と、
該エラー算出部により算出された検出数と予め設定されたエラー検出閾値とを比較して前記メモリが故障したか否かを判定するエラー判定部と、
を有するメモリ障害検出装置。
a memory for storing data;
a memory controller that controls this memory and detects the presence or absence of an error;
firmware;
with
The memory controller includes an error detection unit that detects occurrence of a correctable error in the memory;
a frequency measuring unit that measures the frequency of error detection by the error detecting unit;
a frequency determination unit that determines that an error is detected at a predetermined frequency or more by the frequency measurement unit;
an error calculation unit that, when the frequency determination unit determines that correctable errors have occurred with a frequency equal to or greater than a predetermined frequency, calculates the number of correctable errors detected per unit time that have occurred with a frequency equal to or greater than a predetermined frequency;
an error determination unit that compares the number of detections calculated by the error calculation unit with a preset error detection threshold to determine whether the memory has failed;
A memory failure detection device having a
前記頻度計測部は、前記メモリの初期化完了後に前記頻度計測部によるエラー発生頻度の計測を開始する、
請求項1に記載のメモリ障害検出装置。
The frequency measurement unit starts measuring the error occurrence frequency by the frequency measurement unit after initialization of the memory is completed.
2. The memory failure detection device according to claim 1.
前記頻度計測部は、前記メモリからデータを読み出して訂正可能なデータ化けを検出した場合に正しいデータを書き戻して修復する処理の一周期が終了した後に前記頻度計測部によるエラー発生頻度の計測を行う、
請求項1に記載のメモリ障害検出装置。
The frequency measuring unit measures the error occurrence frequency by the frequency measuring unit after one cycle of processing for reading back data from the memory and correctable data corruption is detected and correcting the data by writing back the correct data. conduct,
2. The memory failure detection device according to claim 1.
前記エラー算出部は、前記頻度判定部により所定以上の頻度で訂正可能エラーが発生したことを検出した場合に、前記メモリの訂正可能エラーの発生の通知を無効化する、
請求項1~3のいずれか1項に記載のメモリ障害検出装置。
When the frequency determination unit detects that a correctable error has occurred at a frequency equal to or higher than a predetermined frequency, the error calculation unit invalidates the notification of the occurrence of the correctable error in the memory.
4. The memory failure detection device according to any one of claims 1 to 3.
請求項1~4のいずれか1項に記載のメモリ障害検出装置で実行される処理であって、前記メモリにおける訂正可能エラーの発生を前記エラー検出部が検出する工程と、
エラーが検出される頻度を前記頻度計測部が計測する工程と、
所定以上の頻度でエラーが検出されたことを前記頻度判定部が判定する工程と、
所定以上の頻度で訂正可能エラーが発生したと判定した場合に、所定以上の頻度で発生した訂正可能エラーの単位時間あたりの検出数を前記エラー算出部が算出する工程と、算出された検出数と予め設定されたエラー検出閾値とを比較して前記メモリが故障したか否かを前記エラー判定部が判定する工程と、
をコンピュータに実行させるメモリ障害検出プログラム。
A process executed by the memory failure detection device according to any one of claims 1 to 4, wherein the error detection unit detects occurrence of a correctable error in the memory;
a step of measuring the frequency of error detection by the frequency measuring unit;
a step of determining, by the frequency determination unit, that an error is detected at a frequency equal to or higher than a predetermined frequency;
a step of calculating, by the error calculation unit, the number of correctable errors detected per unit time that occur with a frequency equal to or greater than a predetermined frequency, when it is determined that correctable errors have occurred with a frequency equal to or greater than a predetermined frequency; and the calculated number of detected errors. and a preset error detection threshold value, and the error determination unit determines whether or not the memory has failed;
A memory fault detection program that causes a computer to run
データを記憶するメモリにおける訂正可能エラーの発生を検出する工程と、
エラーが検出される頻度を計測する工程と、
所定以上の頻度でエラーが検出されたことを判定する工程と、
所定以上の頻度で訂正可能エラーが発生したと判定した場合に、所定以上の頻度で発生した訂正可能エラーの単位時間あたりの検出数を算出する工程と、
算出された検出数と予め設定されたエラー検出閾値とを比較して前記メモリが故障したか否かを判定する工程と、
を有するメモリ障害検出方法。
detecting the occurrence of a correctable error in a memory storing data;
measuring the frequency with which errors are detected;
a step of determining that an error is detected with a frequency equal to or higher than a predetermined frequency;
a step of calculating the number of correctable errors detected per unit time that occur with a frequency equal to or higher than a predetermined frequency when it is determined that correctable errors have occurred with a frequency equal to or higher than a predetermined frequency;
determining whether the memory has failed by comparing the calculated number of detections with a preset error detection threshold;
A memory fault detection method comprising:
JP2021024847A 2021-02-19 2021-02-19 MEMORY FAILURE DETECTION DEVICE, DETECTION PROGRAM, AND DETECTION METHOD Active JP7283784B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021024847A JP7283784B2 (en) 2021-02-19 2021-02-19 MEMORY FAILURE DETECTION DEVICE, DETECTION PROGRAM, AND DETECTION METHOD

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021024847A JP7283784B2 (en) 2021-02-19 2021-02-19 MEMORY FAILURE DETECTION DEVICE, DETECTION PROGRAM, AND DETECTION METHOD

Publications (2)

Publication Number Publication Date
JP2022126966A JP2022126966A (en) 2022-08-31
JP7283784B2 true JP7283784B2 (en) 2023-05-30

Family

ID=83060104

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021024847A Active JP7283784B2 (en) 2021-02-19 2021-02-19 MEMORY FAILURE DETECTION DEVICE, DETECTION PROGRAM, AND DETECTION METHOD

Country Status (1)

Country Link
JP (1) JP7283784B2 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009187214A (en) 2008-02-05 2009-08-20 Fujitsu Ltd Electronic equipment for detecting defective memory, defective memory detection method and program for the same
JP2013182355A (en) 2012-02-29 2013-09-12 Fujitsu Ltd Information processor, control method and control program
JP2019096281A (en) 2017-11-17 2019-06-20 慧榮科技股▲分▼有限公司 Data storage device and associated operating method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009187214A (en) 2008-02-05 2009-08-20 Fujitsu Ltd Electronic equipment for detecting defective memory, defective memory detection method and program for the same
JP2013182355A (en) 2012-02-29 2013-09-12 Fujitsu Ltd Information processor, control method and control program
JP2019096281A (en) 2017-11-17 2019-06-20 慧榮科技股▲分▼有限公司 Data storage device and associated operating method

Also Published As

Publication number Publication date
JP2022126966A (en) 2022-08-31

Similar Documents

Publication Publication Date Title
US9081708B2 (en) Dynamic read scheme for high reliability high performance flash memory
US9990245B2 (en) Electronic device having fault monitoring for a memory and associated methods
US7971112B2 (en) Memory diagnosis method
WO2021253708A1 (en) Memory fault handling method and apparatus, device and storage medium
EP2530595A1 (en) System and method of tracking error data within a storage device
US8572444B2 (en) Memory apparatus and testing method thereof
KR101805234B1 (en) Method, non-transitory computer readable storage medium, and auxiliary memory for monitoring a data memory
US8140940B2 (en) Method and apparatus for controlling memory
KR101983651B1 (en) Mram field disturb detection and recovery
US11663095B2 (en) Error detection circuit
CN111008091A (en) Fault processing method, system and related device for memory CE
US20090164872A1 (en) Prediction and prevention of uncorrectable memory errors
JP7418397B2 (en) Memory scan operation in response to common mode fault signals
CN111625387B (en) Memory error processing method, device and server
US9329921B2 (en) Imminent read failure detection using high/low read voltage levels
US8589760B1 (en) Defect scan and manufacture test
JP7283784B2 (en) MEMORY FAILURE DETECTION DEVICE, DETECTION PROGRAM, AND DETECTION METHOD
CN101271419B (en) Random storage failure detecting and processing method, device and system
US8145951B2 (en) Control device
CN116166459A (en) Method and device for detecting faults of memory hardware and memory controller
US20080301498A1 (en) Control device and control method
JP6072710B2 (en) Hardware abnormality monitoring device
KR101173873B1 (en) Data protection and mirroring method and system thereof
JP2009169681A (en) Control device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220607

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230322

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230418

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230511

R151 Written notification of patent or utility model registration

Ref document number: 7283784

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151