JPH0374422B2 - - Google Patents

Info

Publication number
JPH0374422B2
JPH0374422B2 JP59253566A JP25356684A JPH0374422B2 JP H0374422 B2 JPH0374422 B2 JP H0374422B2 JP 59253566 A JP59253566 A JP 59253566A JP 25356684 A JP25356684 A JP 25356684A JP H0374422 B2 JPH0374422 B2 JP H0374422B2
Authority
JP
Japan
Prior art keywords
error
detected
counter
word
memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP59253566A
Other languages
Japanese (ja)
Other versions
JPS61131050A (en
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed filed Critical
Priority to JP59253566A priority Critical patent/JPS61131050A/en
Publication of JPS61131050A publication Critical patent/JPS61131050A/en
Publication of JPH0374422B2 publication Critical patent/JPH0374422B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は情報処理装置のメモリ部に発生した
訂正可能エラーの処理方式に関し、特にメモリ部
に発生したエラーの情報を分類して計数する処理
方式に関するものである。
[Detailed Description of the Invention] [Industrial Application Field] The present invention relates to a method for processing correctable errors occurring in the memory section of an information processing device, and in particular to a process for classifying and counting information on errors occurring in the memory section. It is related to the method.

情報処理装置の有するメモリ部、即ちメインス
トレージMS及びコントロールストレージCS等に
発生したエラー障害がシステムに及ぼす影響は大
きく、時には、システムが暴走して使用不能に陥
る。
An error failure occurring in a memory section of an information processing device, ie, a main storage MS, a control storage CS, etc., has a large effect on the system, and sometimes the system goes out of control and becomes unusable.

従つて、メモリ部にエラーが発生した場合に
は、速やかに的確な処理判断をするためのエラー
情報を把握する必要がある。エラーの中でもメモ
リ部の1ビツトエラーはシステム障害に至る前駆
となるので、この検出とその処理が装置の信頼性
確保のために重要である。
Therefore, when an error occurs in the memory unit, it is necessary to grasp the error information in order to quickly make an accurate processing decision. Among errors, a 1-bit error in the memory section is a precursor to a system failure, so detection and processing thereof are important for ensuring reliability of the device.

〔従来の技術〕[Conventional technology]

メモリ部の発生したエラーを装置の使用上の障
害となる前に検出し処理するために、各種の手法
が実施されている。
Various techniques have been implemented to detect and handle errors that occur in the memory section before they become a problem in the use of the device.

その一つにパトロール診断方法があり、一定周
期毎に格納されているメモリのワードを読み出し
てチエツクし、エラーがあれば訂正して再びもと
のアドレスに格納する操作を自動的に繰り返して
常に異常のないことを監視し、もし、訂正可能な
(例えば1ビツトの)エラーを検出すれば、1ビ
ツトエラー訂正回路へ送るとともに、記録し、カ
ウンタに発生回数を計数する方式が一般に行われ
ている。
One such method is the patrol diagnosis method, which reads and checks the words stored in memory at regular intervals, corrects any errors, and stores them again at the original address, which is automatically repeated. Generally, the system monitors to make sure there are no abnormalities, and if a correctable (for example, 1-bit) error is detected, it is sent to the 1-bit error correction circuit, recorded, and the number of occurrences is counted in a counter. .

〔発明が解決しようとする問題点〕[Problem that the invention seeks to solve]

1ビツトエラーの発生状況を見れば、例えば半
導体記録素子の損傷がエラーの原因であれば、同
じワードで繰り返しエラーを発生する。また、ワ
ードの構成がその素子に関連するワード、即ち、
エラー発生ワードに連続するワードに多くエラー
が発生する。この場合は当然速やかに損傷した記
憶素子を交換することが必要である。
Looking at the occurrence of one-bit errors, for example, if the cause of the error is damage to a semiconductor recording element, errors will occur repeatedly in the same word. Also, a word whose configuration is related to the element, i.e.
Many errors occur in words that follow the error-generated word. In this case, it is naturally necessary to promptly replace the damaged memory element.

また、一方ではメモリ部に書き込み、読み出し
の途中で上記とは別の原因、例えば電気的なノイ
ズが信号回路に飛び込んだために、エラーとなる
場合があり、この場合は再度検出されることはな
いのが普通である。
On the other hand, an error may occur due to a cause other than the above, such as electrical noise jumping into the signal circuit during writing to and reading from the memory, and in this case, it will not be detected again. It is normal not to have one.

従来は、エラーカウンタの計数値を見てエラー
の状況を判断して、例えば、直ちに部品交換をし
た。即ち、従来の方式では一時的なエラーである
のか、あるいは回復不可能な固定エラーであるの
か、エラーデータをダンプしてチエツクしなけれ
ば区別することができない、と云う問題点があつ
た。
Conventionally, the error situation was determined by looking at the count value of the error counter and, for example, parts were replaced immediately. That is, in the conventional method, there was a problem in that it was impossible to distinguish whether it was a temporary error or a fixed error that could not be recovered unless the error data was dumped and checked.

〔問題点を解決するための手段〕[Means for solving problems]

この発明は上記問題点を解消するため、1ビツ
トエラーを検出すると、複数のカウンタで計数す
る。例えば、固定エラーとソフトエラーとに区別
してそれぞれの発生回数をカウントする2個のカ
ウンタを装備し、その記録はフラグコードに反映
させ、デイスプレイに表示する。
In order to solve the above problem, the present invention counts a 1-bit error using a plurality of counters when it is detected. For example, it is equipped with two counters that count the number of occurrences of fixed errors and soft errors, and the records are reflected in flag codes and displayed on a display.

即ち、メインストレージMSあるいはコントロ
ールストレージCS等、パトロール診断の対象と
するメモリ部の1個のワードの読み出し/書き込
み動作(以下、リード/ライトと云う)で1ビツ
トエラーを検出した場合に、そのエラーワードか
ら連続するn個のワードをリード/ライトしてチ
エツクを行う。
In other words, when a 1-bit error is detected in a read/write operation (hereinafter referred to as read/write) of a single word in the memory section targeted for patrol diagnosis, such as the main storage MS or control storage CS, the error word A check is performed by reading/writing n consecutive words from the beginning.

上記リード/ライトで1ビツトエラーを検出し
た場合には、再び同じワードをリード/ライトし
てチエツクを行い、それでもエラーとなる場合は
固定エラーとして計数する。
If a 1-bit error is detected in the above read/write, the same word is read/written again and checked, and if an error still occurs, it is counted as a fixed error.

リード/ライトしてチエツクし、1ビツトエラ
ーを検出した場合で、再び同じワードのリード/
ライトしてチエツクを行い、エラーにならなかつ
た場合はソフトエラーとして計数する。
If a 1-bit error is detected after reading/writing and checking, read/write the same word again.
Write and check, and if no error occurs, it is counted as a soft error.

〔作用〕[Effect]

上記の1ビツトエラー検出方法によると、リー
ド/ライトで検出したエラーは再度のリード/ラ
イトで確認され、固定エラーとソフトエラーとに
分類され、区別してそれぞれのカウンタに計数さ
れ、しかも連続したn個のワードのチエツクを行
うので、エラーの発生状況が明確となり、それに
よつて、エラー処理を的確に行うことができる。
According to the 1-bit error detection method described above, errors detected during read/write are confirmed during read/write again, are classified into fixed errors and soft errors, and are counted separately in their respective counters. Since the word is checked, the situation in which the error has occurred becomes clear, and thus error processing can be performed accurately.

〔実施例〕〔Example〕

以下、図面を参照してこの発明の実施例を詳細
に説明する。
Embodiments of the present invention will be described in detail below with reference to the drawings.

第1図はこの発明の一実施例を示すブロツク図
である。
FIG. 1 is a block diagram showing one embodiment of the present invention.

図において、1はアドレスカウンタ3とループ
カウンタ4を含むリード/ライト制御部で、2は
その入力となるパトロールアドレスを格納するパ
トロールアドレスレジスタである。
In the figure, 1 is a read/write control unit including an address counter 3 and a loop counter 4, and 2 is a patrol address register that stores a patrol address that is input thereto.

5はパトロール診断で監視されるメモリ部で、
6はメモリ部から呼び出されたワードがセツトさ
れるワードレジスタである。
5 is the memory section monitored by patrol diagnosis,
6 is a word register in which a word read from the memory section is set.

7は1ビツトエラー検出/訂正部で、8は固定
エラーカウンタ9とソフトエラーカウンタ10を
含むエラー制御部で、表示部11とログ記録部1
2によつて固定エラーカウンタとソフトエラーカ
ウンタの計数値が表示、記録される。
7 is a 1-bit error detection/correction section, 8 is an error control section including a fixed error counter 9 and a soft error counter 10, a display section 11 and a log recording section 1.
2 displays and records the counted values of the fixed error counter and soft error counter.

第2図はこの発明の方式のフローチヤートで、
この図に従つて、この方式の動作を詳しく説明す
る。但し、第2図はメインメモリMSのパトロー
ル診断を行つている場合の例である。
Figure 2 is a flowchart of the method of this invention.
The operation of this system will be explained in detail with reference to this figure. However, FIG. 2 is an example in which patrol diagnosis of the main memory MS is performed.

まず、パトロールアドレス(以下、アドレスA
とする)がパトロールアドレスレジスタ2にフエ
ツチされると(ステツプ1)、リード/ライト制
御部1はアドレスカウンタ3を介してメモリ部5
の指示されたアドレスAのワードをワードレジス
タ6に呼び出す(ステツプ2)。
First, patrol address (hereinafter address A)
) is fetched into the patrol address register 2 (step 1), the read/write control unit 1 fetches the memory unit 5 via the address counter 3.
The word at the address A specified by is called into the word register 6 (step 2).

以後、第2図の状態区分は括弧付数字を用い
る。
Hereinafter, numbers in parentheses will be used for the status classifications in FIG.

呼び出されたワードを1ビツトエラー検出部7
がチエツクする(3)。エラーが検出されないとアド
レスカウンタ3に1が加算されて(4)、次の処理に
移行する。このワードで1ビツトエラーが検出さ
れると、このワードのアドレスAから連続してn
個のワードがチエツクされる。
The called word is detected by the 1-bit error detection unit 7.
checks (3). If no error is detected, 1 is added to the address counter 3 (4), and the process moves to the next step. If a 1-bit error is detected in this word, n consecutive bits starting from address A of this word
words are checked.

ループカウンタ4はnに、固定エラーカウンタ
9は0に、ソフトエラーカウンタ10は0にセツ
トされる(5)。
The loop counter 4 is set to n, the fixed error counter 9 to 0, and the soft error counter 10 to 0 (5).

一旦、もとのアドレスに訂正されて格納された
エラーを発生したワードは再びワードレジスタ6
に呼び出され(6)、1ビツトエラー検出/訂正部7
によつてチエツクされる(7)。
Once corrected and stored at the original address, the word that caused the error is returned to the word register 6.
(6), 1-bit error detection/correction section 7
Checked by (7).

エラーが検出されない場合には、ソフトエラー
カウンタ10に1が加算され(8)、エラーが検出さ
れると、固定エラーカウンタ9に1が加算される
(9)。
If no error is detected, 1 is added to the soft error counter 10 (8), and if an error is detected, 1 is added to the fixed error counter 9.
(9).

いずれの場合にもアドレスカウンタ3は1が加
算されてA+1となり、ループカウンタ4から1
が減算され、n−1となる(10)。
In either case, address counter 3 is incremented by 1 and becomes A+1, and loop counter 4 becomes 1.
is subtracted and becomes n-1 (10).

ループカウンタ10が0でなければ(11)、リ
ード/ライト制御部1によつてアドレスA+1が
呼び出され(12)、1ビツトエラー検出/訂正部
7によつてチエツクされる(13)。
If the loop counter 10 is not 0 (11), address A+1 is called by the read/write control section 1 (12) and checked by the 1-bit error detection/correction section 7 (13).

エラーが検出されると再び呼び出されて(6)、
チエツクされる(7)。また、ステツプ(13)で
エラー検出されなければ、各カウンタをセツトし
直して(10)、ループカウンタの値をチエツクし
(11)、アドレスA+2のワードを呼び出して
(12)チエツクする(13)。
It is called again (6) when an error is detected.
Checked (7). If no error is detected in step (13), each counter is reset (10), the value of the loop counter is checked (11), the word at address A+2 is called (12) and checked (13). .

以上のように(10)、(11)、(12)、(13)は繰り
返され、ループカウンタが0、即ち初めにエラー
が発生したワードからn個のワードのチエツクが
終わつた時、エラー処理部8からロギング処理と
フラグコード作成が行われ(14)、フラグコード
の表示即ち分類されたエラー表示がデイスプレイ
表示部11で行われ(15)、ログ記録部12で記
録されるとともに次の処理に移行する。
As described above, (10), (11), (12), and (13) are repeated, and when the loop counter is 0, that is, when n words have been checked from the first word where an error occurred, error processing is performed. Logging processing and flag code creation are performed from section 8 (14), flag code display, that is, classified error display is performed on display display section 11 (15), and is recorded in log recording section 12, and the next processing is performed. to move to.

上記の説明はコントロールメモリMSのメモリ
1ビツトエラー処理方式について述べたがコント
ロールメモリCSについて適用しても何等支障が
ないことは云うまでもない。
Although the above description has been made regarding the memory 1-bit error processing method of the control memory MS, it goes without saying that there is no problem in applying this method to the control memory CS as well.

また、第1図の各ブロツクはローカルストレー
ジLS、コントロールストレージCS、メインスト
レージMS、レジスタ他で構成されたシステムで
機能する。
Furthermore, each block in Figure 1 functions in a system consisting of local storage LS, control storage CS, main storage MS, registers, and others.

〔発明の効果〕〔Effect of the invention〕

以上説明したようにこの発明によればメモリ部
に発生した1ビツトエラーがエラー状態によつて
分類されて記録され、且つ表示されるので、その
エラーに対する処理判断が迅速にでき、的確な処
置をとることができる。例えば、保守担当者はエ
ラー情報の通知を受ければ、直ちに対策の判断を
し、プリント板を交換する等必要な処置を行うこ
とができる。
As explained above, according to the present invention, 1-bit errors that occur in the memory section are classified and recorded according to the error state, and are displayed, so that it is possible to quickly determine what to do with the error and take appropriate measures. be able to. For example, when a maintenance person is notified of error information, he or she can immediately decide on countermeasures and take necessary measures such as replacing the printed circuit board.

【図面の簡単な説明】[Brief explanation of drawings]

第1図はこの発明のメモリ1ビツトエラー処理
方式の一実施例を示すブロツク図、第2図は第1
図のフローチヤートである。 図中、1はリード/ライト制御部、5はメモリ
部、7は1ビツトエラー検出部、8はエラー制御
部、9は固定エラーカウンタ、10はソフトエラ
ーカウンタ、11は表示部、12はログ記録部で
ある。
FIG. 1 is a block diagram showing an embodiment of the memory 1-bit error processing method of the present invention, and FIG.
This is a flowchart of the figure. In the figure, 1 is a read/write control section, 5 is a memory section, 7 is a 1-bit error detection section, 8 is an error control section, 9 is a fixed error counter, 10 is a soft error counter, 11 is a display section, and 12 is a log record. Department.

Claims (1)

【特許請求の範囲】[Claims] 1 メモリ部のパトロール診断を行い、訂正可能
なエラーを検出すると訂正して書き込んでいる情
報処理装置において、エラー検出部が訂正可能な
エラーを検出したワードを再度チエツクして、再
度訂正可能エラーを検出した場合第1エラーカウ
ンタに計数し、検出しなかつた場合第2エラーカ
ウンタに計数する弁別制御を行うとともに、前記
訂正可能エラーを発生したワードと連続して格納
されているn個のワードを前記弁別制御して、前
記両カウンタの値を表示することを特徴とするメ
モリエラー処理方式。
1. In an information processing device that performs patrol diagnosis of the memory section and corrects and writes when a correctable error is detected, the error detection section rechecks the word in which a correctable error has been detected and detects a correctable error again. When a correctable error is detected, it is counted in a first error counter, and when it is not detected, it is counted in a second error counter. A memory error processing method characterized in that the values of both the counters are displayed by performing the discrimination control.
JP59253566A 1984-11-29 1984-11-29 Memory error processing system Granted JPS61131050A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59253566A JPS61131050A (en) 1984-11-29 1984-11-29 Memory error processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59253566A JPS61131050A (en) 1984-11-29 1984-11-29 Memory error processing system

Publications (2)

Publication Number Publication Date
JPS61131050A JPS61131050A (en) 1986-06-18
JPH0374422B2 true JPH0374422B2 (en) 1991-11-26

Family

ID=17253148

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59253566A Granted JPS61131050A (en) 1984-11-29 1984-11-29 Memory error processing system

Country Status (1)

Country Link
JP (1) JPS61131050A (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63103150U (en) * 1986-12-22 1988-07-04
JP5910332B2 (en) 2012-06-07 2016-04-27 富士通株式会社 Information processing apparatus, test method, and program
US9329948B2 (en) * 2012-09-15 2016-05-03 Seagate Technology Llc Measuring cell damage for wear leveling in a non-volatile memory

Also Published As

Publication number Publication date
JPS61131050A (en) 1986-06-18

Similar Documents

Publication Publication Date Title
US4549295A (en) System for identifying defective media in magnetic tape storage systems
US6829729B2 (en) Method and system for fault isolation methodology for I/O unrecoverable, uncorrectable error
EP0381885A2 (en) Method for identifying bad data
JPS61113166A (en) Time axis correction device in digital information reproduction system
WO2000017753A1 (en) Technique for detecting memory part failures and single, double, and triple bit errors
US7346812B1 (en) Apparatus and method for implementing programmable levels of error severity
WO2021027271A1 (en) Bad block information protection method and apparatus, computer device and storage medium
JPH0374422B2 (en)
JP2722647B2 (en) Magnetic tape controller
EP0533608A2 (en) Method and apparatus for ensuring the recoverability of vital data in a data processing system
KR860002027B1 (en) Key memory error processing system
JP3130796B2 (en) Control storage device
JPH0441375B2 (en)
JPS6051142B2 (en) Logging error control method
JPH05108385A (en) Error correction circuit diagnostic system
JPH05324950A (en) Logical card for information processor
JP3281982B2 (en) Data buffer
JPH04630A (en) Storage controller
JPH0365743A (en) Fault finding method for main storage device
JPS60205640A (en) Error log system
JPS58115698A (en) Logging system for memory error
JPH04178748A (en) Controller
JPS6327940A (en) Storage controller
JPS6010661B2 (en) Error checking method
JPH04255032A (en) Error correcting system for control storage