JPH05265876A - Error report processing system - Google Patents

Error report processing system

Info

Publication number
JPH05265876A
JPH05265876A JP4063259A JP6325992A JPH05265876A JP H05265876 A JPH05265876 A JP H05265876A JP 4063259 A JP4063259 A JP 4063259A JP 6325992 A JP6325992 A JP 6325992A JP H05265876 A JPH05265876 A JP H05265876A
Authority
JP
Japan
Prior art keywords
error
machine check
storage device
patrol
uncorrectable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP4063259A
Other languages
Japanese (ja)
Inventor
Tomohisa Shirata
共央 白田
Michinori Shinkai
理規 新開
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP4063259A priority Critical patent/JPH05265876A/en
Publication of JPH05265876A publication Critical patent/JPH05265876A/en
Withdrawn legal-status Critical Current

Links

Landscapes

  • Techniques For Improving Reliability Of Storages (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

PURPOSE:To report a fault to an operating system by loading machine check interruption so as to instruct it a processor that error is discovered by patorol access. CONSTITUTION:When error information (5) showing that the existence of error is discovered by patorol access and a fault address (FSA) (6) generating uncorrectable error are transmitted to a processor 1, the processor 1 starts a machine check interruption operation. Namely, a machine check interruption code (MCIC), external interruption code (EDCD) and fault address (FSA) (6) are stored in the prescribed position of a main storage device 6. Next, a machine check new program status word (PSW) expressing the position of a machine check interruption processing routine is set as a current program status word (CPSW) after the CPSW is stored in a prescribed position on the main storage device 6 as a machine check old PWS.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は,間欠又は固定障害によ
って記憶内容が破壊されていないかどうかをパトロール
機構がチェックするようにしたデータ処理装置におい
て,エラー報告を,他のマシンチェック割り込みと区別
して,プロセッサに通知するようにしたエラー報告処理
方式に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a data processing device in which a patrol mechanism checks whether the memory contents are destroyed by an intermittent or fixed fault, and an error report is distinguished from other machine check interrupts. Separately, it relates to an error report processing method for notifying the processor.

【0002】[0002]

【従来の技術】図5は従来の場合のエラー報告処理方式
を説明する説明図である。図中の符号1はプロセッサで
あって処理を進めるもの,2は記憶制御装置であって記
憶装置に対するアクセスを制御するもの,3は記憶装
置,4はサービス・プロセッサであってシステム全体を
管理するもの,5は保守情報(訂正不可能なエラーが発
生したことなどの情報)を保持するディスクを表してい
る。
2. Description of the Related Art FIG. 5 is an explanatory diagram for explaining a conventional error report processing method. In the figure, reference numeral 1 is a processor for advancing processing, 2 is a storage controller for controlling access to the storage device, 3 is a storage device, 4 is a service processor for managing the entire system. Reference numeral 5 represents a disk holding maintenance information (information such as the occurrence of an uncorrectable error).

【0003】プログラム動作中に訂正可能な記憶素子の
読み出しエラーの発生を回避するために,プログラムの
実行に影響を与えない範囲で所定時間毎にパトロールア
クセスを行う。パトロール要求がサービスプロセッサ
(SVP)4から出される(1)と,記憶装置3の内容を
順に読み出し,図示しない周知のエラーチェック機構に
よりチェックする。パトロールアクセスを行うパトロー
ルはOSの管理外の自動診断機構として設けられてい
る。
In order to avoid occurrence of a read error of a correctable memory element during a program operation, patrol access is performed at predetermined intervals within a range that does not affect the execution of the program. When a patrol request is issued from the service processor (SVP) 4 (1), the contents of the storage device 3 are sequentially read and checked by a well-known error check mechanism (not shown). The patrol that performs patrol access is provided as an automatic diagnosis mechanism outside the control of the OS.

【0004】パトロールアクセスにより訂正可能なエラ
ーが検出された時には,続けて再度同じアドレスにパト
ロールアクセスを行い,同一個所でエラーが再検出され
るようであれば,そのアドレスは固定障害を起こしたと
判断され,予め用意された交替チップ等の代替記憶手段
を割り当てる。その後固定障害を起こしたアドレスがア
クセスされる時には,交替チップ等の代替記憶手段を使
用することによりプログラム動作中に発生する記憶素子
の読み出しエラーの発生を未然に防ぐ。パトロールアク
セスで訂正不可能なエラーが発生すると,保守情報とし
てそのアドレスをサービス・プロセッサ4に報告し
(2),記録している。
When a correctable error is detected by the patrol access, the patrol access is subsequently made again to the same address, and if the error is detected again at the same location, it is determined that the address has a fixed fault. Then, an alternative storage means such as a replacement chip prepared in advance is assigned. After that, when an address having a fixed fault is accessed, an alternative storage means such as a replacement chip is used to prevent occurrence of a read error of a storage element which occurs during a program operation. When an uncorrectable error occurs during patrol access, the address is reported to the service processor 4 as maintenance information (2) and recorded.

【0005】[0005]

【発明が解決しようとする課題】パトロールアクセスで
訂正不可能なエラーが発生した場合,サービス・プロセ
ッサ4に報告するようにされるが,その時サービス・プ
ロセッサ4は,保守情報をディスク5上に残すだけで,
OSにパトロールアクセスで訂正不可能なエラーが検出
されたという情報は通知しない。
When an uncorrectable error occurs in patrol access, it is reported to the service processor 4. At that time, the service processor 4 leaves the maintenance information on the disk 5. Alone
The OS is not notified of information that an uncorrectable error is detected by patrol access.

【0006】その理由は次の如きものである。即ち,現
在多く使用されている計算機システムのアーキテクチャ
を規定しているIBM社のEnterprise Systems Archite
cture/370 Principles of Operation(PN SA22-7200-0)
では,マシンチェックエラーの種別を示すエラークラス
には,システムダメージ(SD),プロセッシングダメ
ージ(PD),システムリカバリ(SR)とエクスター
ナルダメージ(ED)があり,SDは損傷の影響範囲が
特定できないものを示し,PDは損傷の影響範囲が1つ
の命令のみである事を示し,SRはその命令の処理に於
いて損傷があったが命令リトライ機構やエラー訂正機構
により処理の論理的矛盾を復旧し命令が正常に終了した
ことを示し,最後のEDは中央処理装置(CPU)と主
記憶に閉じた範囲での損傷以外の損傷を示すものとして
定義されている。
The reason for this is as follows. In other words, IBM's Enterprise Systems Archite, which defines the architecture of computer systems that are currently in wide use
cture / 370 Principles of Operation (PN SA22-7200-0)
Then, the error class indicating the type of machine check error includes system damage (SD), processing damage (PD), system recovery (SR) and external damage (ED), and SD cannot specify the affected range of damage. PD indicates that the range of influence of damage is only one instruction, and SR indicates that there was damage in the processing of that instruction, but the logical contradiction of processing is restored by the instruction retry mechanism and error correction mechanism. The instruction is successfully completed, and the last ED is defined as the damage other than the damage in the central processing unit (CPU) and the main memory.

【0007】例えば共用拡張記憶装置(SSU)に対す
るパトロールアクセスで訂正不可能なエラーが検出され
た場合,このような損傷を報告するエラークラスは前記
EDがそれに該当するが,EDの詳細情報を示すEDコ
ードには前記エラー情報を示すビットが存在しない,つ
まり,パトロールに対する考慮がなされていない。その
ため,パトロールアクセスで訂正不可能なエラーが検出
されたということを表現できず,エラーの原因が特定で
きないため,前記エラーの対策を講じることができな
い。
For example, when an uncorrectable error is detected by patrol access to the shared extended storage unit (SSU), the error class reporting such damage corresponds to the ED, but indicates detailed information of the ED. There is no bit indicating the error information in the ED code, that is, no consideration is given to patrol. Therefore, it cannot be expressed that an uncorrectable error is detected by the patrol access, and the cause of the error cannot be identified, so that a countermeasure for the error cannot be taken.

【0008】また,交替チップを割り当てたとしても,
訂正不可能なエラーが生じた場合にはデータを復元でき
ないため記憶内容の正当性が保証できない。つまり,パ
トロールアクセスで既に訂正不可能なエラーが検出され
ていても,OSには通知されないため,そのアドレスを
プログラムが参照しようとしたときに,等価性が保証さ
れている記憶装置が存在しない場合,プログラム処理の
継続が不可能となる。
Even if a replacement chip is assigned,
If an uncorrectable error occurs, the data cannot be restored and the validity of the stored contents cannot be guaranteed. In other words, even if an uncorrectable error is already detected during patrol access, the OS is not notified, and when a program attempts to reference that address, there is no storage device whose equivalence is guaranteed. , It becomes impossible to continue the program processing.

【0009】多重化され,等価性が保証されている記憶
装置が存在するシステムでは,交替チップが割り当てら
れた後,多重化された記憶装置の内容を交替チップにコ
ピーすることにより等価性が復元することが可能である
が,交替チップの数には限りがあり,その数を越えてエ
ラーを救済することはできない。
In a system having a memory device which is multiplexed and whose equivalence is guaranteed, after the replacement chip is assigned, the equivalence is restored by copying the contents of the multiplexed storage device to the replacement chip. However, the number of replacement chips is limited, and errors cannot be remedied beyond that number.

【0010】プログラム実行中に訂正不可能なエラーが
検出された時には,等価性を保証されている他の記憶装
置からデータを読み出せば,処理の継続が可能ではあ
る。しかしながらこの場合に例えば領域が2重化されて
いたとすると,パトロールアクセスで一方が使用不能の
状態に陥っていることが検出されているにもかかわら
ず,以後領域の割り当てが行えないため,パトロールア
クセスから当該個所のプログラム実行中の読み出しまで
の間,多重化されていない場合と等価になってしまう。
更に,前記エラーが進行性なエラーの場合,パトロール
アクセスの際には検出可能な訂正不可能エラーであった
のが,プログラムで読み出す際には検出不可能なエラー
になり,データ化けが起こる可能性がある。
When an uncorrectable error is detected during the execution of the program, the processing can be continued by reading the data from another storage device whose equivalence is guaranteed. However, in this case, for example, if the area is duplicated, even if one of the areas is detected to be in an unusable state by patrol access, the area cannot be allocated thereafter, so patrol access From this point to the reading during the execution of the program at the relevant point, it is equivalent to the case where there is no multiplexing.
Further, when the above error is a progressive error, it was an uncorrectable error that could be detected at the time of patrol access, but it became an undetectable error at the time of reading by the program, and garbled data could occur. There is a nature.

【0011】もしも,パトロールアクセスで発見した訂
正不可能エラーを認識して適切な資源管理を行うことが
できれば,プログラムの実行中の訂正不可能エラーの発
生を回避でき,多重化されている場合には,多重化の状
態に迅速に復元することが可能となる。
If the uncorrectable error found by the patrol access can be recognized and appropriate resource management can be performed, the occurrence of the uncorrectable error during the execution of the program can be avoided, and when the resources are multiplexed. Can be quickly restored to the multiplexed state.

【0012】本発明は,パトロールアクセスによって発
見された障害をオペレーティング・システムに報告でき
るようにすることを目的としている。
It is an object of the present invention to enable faults discovered by patrol access to be reported to the operating system.

【0013】[0013]

【課題を解決するための手段】図1は本発明の原理構成
図を示す。図中の符号1はプロセッサであって処理を進
めるもの,2は記憶制御装置であって記憶装置に対する
アクセスを制御するもの,3は記憶装置,4はサービス
・プロセッサであってシステム全体を管理するもの,5
は保守情報を保持するディスク,6は主記憶装置であっ
て図示の記憶装置3と同一物であってもよいものを表し
ている。
FIG. 1 is a block diagram showing the principle of the present invention. In the figure, reference numeral 1 is a processor for advancing processing, 2 is a storage controller for controlling access to the storage device, 3 is a storage device, 4 is a service processor for managing the entire system. Thing, 5
Represents a disk for holding maintenance information, and 6 represents a main storage device which may be the same as the storage device 3 shown in the figure.

【0014】本発明の場合には,サービス・プロセッサ
(SVP)4によってパトロール・アクセスが行われた
際に,訂正不可能なエラーが発生していることが判明す
ると,記憶装置3の側からプロセッサ1に対して,パト
ロール・アクセスによってエラーが見出された旨を指示
するマシンチェック割り込みをあげるようにしている。
In the case of the present invention, when it is found that an uncorrectable error occurs when the patrol access is performed by the service processor (SVP) 4, the processor from the storage device 3 side. For 1, the machine check interrupt that indicates that an error was found by patrol access is given.

【0015】[0015]

【作用】サービス・プロセッサ4からパトロール・アク
セスが起動されて(3),訂正不可能なエラーの発生が
見出される(4)と,当該パトロール・アクセスによっ
て当該エラーの存在が見出されたというエラー情報
(5)と訂正不可能なエラーが発生している障害アドレ
ス(FSA)(6)とが,プロセッサ1に送られる。
When the patrol access is started from the service processor 4 (3) and the occurrence of an uncorrectable error is found (4), the error that the existence of the error is found by the patrol access is found. The information (5) and the fault address (FSA) (6) in which an uncorrectable error has occurred are sent to the processor 1.

【0016】エラー情報がプロセッサ1に伝達される
と,プロセッサ1はマシンチェック割り込み動作に入る
(「マシンチェック割り込みの伝達」)(7)。プロセ
ッサ1が行うマシンチェック割り込みの処理は,(i) マ
シンチェック割り込みコード(MCIC)と,(ii)外部
割り込みコード(EDCD)と,障害アドレス(FS
A)とを主記憶装置6の所定の位置に格納するという動
作に続いて,カレント・プログラム・ステータス・ワー
ド(CPSW)を主記憶装置6上の所定の位置にマシン
チェック・オールドPSWとして格納した上でマシンチ
ェック割り込み処理ルーチンの位置を表すマシンチェッ
ク・ニューPSWを上記CPSWとしてセットする
(8)。このようにして,これらの動作の結果としてマ
シンチェック割り込みがソフトウェアに報告される
(9)。
When the error information is transmitted to the processor 1, the processor 1 enters a machine check interrupt operation ("transmission of machine check interrupt") (7). Machine check interrupt processing performed by the processor 1 includes (i) machine check interrupt code (MCIC), (ii) external interrupt code (EDCD), and fault address (FS).
Following the operation of storing A) and a predetermined position in the main storage device 6, the current program status word (CPSW) is stored in a predetermined position in the main storage device 6 as a machine check old PSW. The machine check new PSW indicating the position of the machine check interrupt processing routine is set as the CPSW (8). In this way, machine check interrupts are reported to software as a result of these operations (9).

【0017】[0017]

【実施例】図2はマシンチェック割り込みの報告の後に
行われる一実施例処理態様を示す。図中の符号は図1に
対応し,7はアドレス変換テーブルを表している。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENT FIG. 2 illustrates one embodiment of the processing aspects performed after reporting a machine check interrupt. Reference numerals in the figure correspond to those in FIG. 1, and 7 indicates an address conversion table.

【0018】マシンチェック割り込みが報告されると,
OSは,前記マシンチェック割り込みコード(MCI
C)によって(10),前記障害アドレス(FSA)と外
部割り込みコード(EDCD)とを参照し,パトロール
アクセスによって訂正不可能エラーが検出されたことを
知る(11)。このとき,障害アドレス(FSA)によっ
て訂正不可能エラーを含む物理ページを知ることができ
る。またアドレス変換テーブル7からプログラムが意識
している論理ページを知ることができる。更に,OS
は,自らが行う資源管理情報により,前記障害ページを
既にプログラムが使用しているか否かを知ることもでき
る。もしも,まだそのページがどのプログラムにも割り
当てられていないのであれば,OSは訂正不可能なエラ
ーを起こした物理ページを放棄し,前記障害ページの論
理アドレスを予め用意された交替ページに,アドレス変
換テーブルを書き換えることにより割り当て(12),プ
ログラム動作中に発生する記憶素子の読み出しエラーの
発生を回避する。
When a machine check interrupt is reported,
The OS uses the machine check interrupt code (MCI
C) refers to the fault address (FSA) and external interrupt code (EDCD) by (10), and finds that an uncorrectable error is detected by patrol access (11). At this time, the physical page including the uncorrectable error can be known from the fault address (FSA). Further, the logical page that the program is aware of can be known from the address conversion table 7. Furthermore, the OS
The user can also know whether or not the program has already used the faulty page from the resource management information performed by himself. If the page has not been assigned to any program yet, the OS discards the physical page in which the uncorrectable error has occurred and assigns the logical address of the failed page to the replacement page prepared in advance. Allocation (12) is performed by rewriting the conversion table to avoid the occurrence of a read error of the memory element that occurs during the program operation.

【0019】図3は,エラー処理において障害ページを
既にプログラムに割り当てている場合の処理を示した説
明図である。図中の符号は図1に対応している。OSは
マシンチェック割り込みが起こると,先に生成されたマ
シンチェック割り込みコード(MCIC)により,障害
アドレス(FSA)と外部割り込みコード(EDCD)
とを参照し,パトロールアクセスにより訂正不可能なエ
ラーを検出したことを知る。この時に対策を講じるにあ
たり,図2を参照して説明した方法と共に以下に示す方
法をとる。
FIG. 3 is an explanatory diagram showing the processing in the case where the faulty page is already assigned to the program in the error processing. Reference numerals in the figure correspond to those in FIG. When a machine check interrupt occurs, the OS uses the previously generated machine check interrupt code (MCIC) to generate a fault address (FSA) and external interrupt code (EDCD).
Refer to and to know that an uncorrectable error was detected by patrol access. In taking measures against this, the following method is used together with the method described with reference to FIG.

【0020】仮に今,記憶領域が2重化されているとす
る。データの書き込み要求がきた時は両方の領域にデー
タを書き込み(13),又データの読み出し要求がきた時
には一方の領域からデータを読み出す(14)。パトロー
ル要求がきた時は両方の領域をチェックするようにす
る。
It is assumed that the storage area is duplicated now. When a data write request is received, the data is written to both areas (13), and when a data read request is received, the data is read from one area (14). When a patrol request comes in, check both areas.

【0021】ある時点でデータを読み出している一方の
領域が,パトロールアクセスによって訂正不可能なエラ
ーが発生した場合,障害アドレス(FSA)により訂正
不可能なエラーを検出した領域を特定できる(15)。そ
こで,エラーの報告があった時点で以後の読み出し領域
を切り替えることにより,次にデータ読み出し要求がき
たときに,前記エラーが発生した領域からデータを読み
出さないようにする。
When an uncorrectable error occurs due to patrol access in one area from which data is read at a certain point, the area in which the uncorrectable error is detected can be specified by the fault address (FSA) (15). .. Therefore, when the error is reported, the subsequent read areas are switched so that the data is not read from the area where the error occurs when the next data read request is made.

【0022】図4は訂正不可能エラーの検出からその対
応までの処理フローを示す。パトロールアクセスにおい
て訂正不可能なエラーを検出すると(17),前記エラー
が発生したというエラー情報と障害アドレス(FSA)
とをプロセッサ1とサービス・プロセッサ4とに送る
(18)。プロセッサ1はここでマシンチェック割り込み
動作に入り,マシンチェック割り込みコード(MCI
C)と外部割り込みコード(EDCD)とを生成し,サ
ービス・プロセッサ4は保守情報として保持する(1
9)。
FIG. 4 shows a processing flow from the detection of an uncorrectable error to its handling. When an uncorrectable error is detected during patrol access (17), the error information indicating that the error has occurred and the failure address (FSA)
And (18) to processor 1 and service processor 4. The processor 1 enters the machine check interrupt operation here, and the machine check interrupt code (MCI
C) and an external interrupt code (EDCD) are generated, and the service processor 4 holds them as maintenance information (1
9).

【0023】更にカレントPSWをマシンチェック・オ
ールドPSWとして主記憶装置の所定の位置にストアし
て(20),それに続いて主記憶装置6にマシンチェック
割り込みコード(MCIC)と外部割り込みコード(E
DCD)や障害アドレス(FSA)とを主記憶装置6の
所定位置にストアする(21)。その後,プロセッサ1
は,マシンチェック割り込み処理ルーチンを示すマシン
チェック・ニューPSWをカレントPSWとする(2
2)。
Further, the current PSW is stored as a machine check old PSW in a predetermined position in the main memory device (20), and then the machine check interrupt code (MCIC) and the external interrupt code (E) are stored in the main memory device 6.
The DCD) and the fault address (FSA) are stored in a predetermined position in the main storage device 6 (21). Then processor 1
Sets the machine check new PSW indicating the machine check interrupt processing routine to the current PSW (2
2).

【0024】プロセッサ1によりマシンチェック・ニュ
ーPSWがカレントPSWにセットされることにより
(23),ソフトウェアはマシンチェック処理ルーチンに
入る(24)。
When the machine check new PSW is set to the current PSW by the processor 1 (23), the software enters the machine check processing routine (24).

【0025】次いで主記憶装置6上のマシンチェック割
り込みコード(MCIC)と外部割り込みコード(ED
CD)とが参照され(25),障害アドレス(FSA)に
よって障害が発生したアドレスを知る(26)。
Next, the machine check interrupt code (MCIC) and the external interrupt code (ED
(CD) is referred to (25), and the address where the failure has occurred is known from the failed address (FSA) (26).

【0026】このとき障害領域がプログラムによって使
用されているか否かが調べられ(27),NOであればアド
レス変換テーブル7を書き換えるようにし(28) ,YE
Sであれば図3に示した如く他の記憶領域より読み出す
ようにする処理を行う(29)。そして,マシンチェック
・オールドPSWをカレントPSWとしてストアする(3
0)。
At this time, it is checked whether or not the faulty area is used by the program (27), and if NO, the address translation table 7 is rewritten (28), and YE.
If it is S, a process for reading from another storage area is performed as shown in FIG. 3 (29). Then, the machine check old PSW is stored as the current PSW (3
0).

【0027】[0027]

【発明の効果】以上説明した如く,本発明によれば,プ
ログラムが障害個所を使用する前に,訂正不可能なエラ
ーを認識することが可能となり,事前の対策を講じるこ
とが可能となる。
As described above, according to the present invention, it becomes possible to recognize an uncorrectable error before a program uses a faulty part, and it is possible to take a countermeasure beforehand.

【0028】このために,記憶装置が多重化されていな
い場合でもプログラムの異常終了を回避することが可能
となり,多重化されている場合には訂正不可能エラーの
発生から多重化状態に復元されるまでの時間を短縮する
ことができる。
Therefore, it is possible to avoid the abnormal termination of the program even when the storage device is not multiplexed, and when it is multiplexed, it is restored to the multiplexed state from the occurrence of the uncorrectable error. It is possible to shorten the time until

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の原理構成図を示す。FIG. 1 shows a principle configuration diagram of the present invention.

【図2】マシンチェック割り込みの報告の後に行われる
一実施例処理態様を示す。
FIG. 2 illustrates an example processing aspect that occurs after reporting a machine check interrupt.

【図3】エラー処理において障害ページを既にプログラ
ムに割り当てている場合の処理を示した説明図である。
FIG. 3 is an explanatory diagram showing processing in a case where a faulty page has already been assigned to a program in error processing.

【図4】訂正不可能エラーの検出からその対応までの処
理フローを示す。
FIG. 4 shows a processing flow from detection of an uncorrectable error to its response.

【図5】従来の場合のエラー報告処理方式を説明する説
明図である。
FIG. 5 is an explanatory diagram illustrating an error report processing method in a conventional case.

【符号の説明】[Explanation of symbols]

1 プロセッサ 2 記憶制御装置 3 記憶装置 4 サービス・プロセッサ 5 ディスク 6 主記憶装置 7 アドレス変換テーブル 1 Processor 2 Storage Controller 3 Storage Device 4 Service Processor 5 Disk 6 Main Storage Device 7 Address Conversion Table

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】 記憶装置(3)と,当該記憶装置(3)
をアクセスしつつ処理を進めるプロセッサ(1)と,シ
ステム全体を管理するサービス・プロセッサ(4)とを
そなえ,オペレーティング・システムの管理外で,前記
サービス・プロセッサ(4)が前記記憶装置(3)の記
憶データを所定時間ごとに読み出して,間欠障害または
固定障害により記憶内容が破壊されていないかどうかを
チェックする,パトロール機構を有するデータ処理装置
において,少なくとも,エラーの種類に対応してセット
されるビットを保持する手段と,前記エラーの詳細情報
を保持する手段とを有し,パトロールで検出した訂正不
可能な記憶素子の読み出しエラーで発生する第1のマシ
ンチェック割り込みと他のマシンチェック要因に起因す
る第2のマシンチェック割り込みとを識別可能なマシン
チェック割り込みコードを生成し,前記パトロールで検
出したエラーの発生アドレスと当該第1のマシンチェッ
ク割り込みとをプログラムに通知することを特徴とする
エラー報告処理方式。
1. A storage device (3) and the storage device (3)
And a service processor (4) that manages the entire system, the service processor (4) is managed by the service processor (4) while accessing the In a data processing device having a patrol mechanism, which reads out the stored data of at every predetermined time and checks whether the stored contents are destroyed by an intermittent failure or a fixed failure, it is set at least according to the kind of error. A first machine check interrupt and another machine check factor which are generated by a read error of an uncorrectable storage element detected by a patrol, and a means for holding a detailed bit of the error. Machine check interrupt that can be distinguished from the second machine check interrupt caused by Over de generates an error report processing method and notifies the program a generation address and the first machine check interruption of the detected error in the patrol.
【請求項2】 前記第1のマシンチェック割り込みによ
り報告される割り込みを契機に,訂正不可能なエラーが
発生したアドレスを含む論理ページ又は物理ページを,
予め用意された交替ページに割り当て,プログラム動作
中に発生する記憶素子の読み出しエラーの発生を未然に
防ぐことを特徴とする請求項1記載のエラー報告処理方
式。
2. A logical page or a physical page including an address in which an uncorrectable error has occurred, triggered by an interrupt reported by the first machine check interrupt,
2. The error report processing method according to claim 1, wherein the error report processing method is assigned to a replacement page prepared in advance to prevent occurrence of a read error of a storage element that occurs during a program operation.
【請求項3】 記憶装置(3)が多重化されて両者の等
価性が保証されているよう構成されており,前記第1の
マシンチェック割り込みにより報告される割り込みを契
機に,訂正不可能なエラーが発生した記憶素子を含む記
憶装置又は読み出す記憶領域を切り替え,予め用意され
た等価性が保証されている他の記憶装置又は記憶領域を
読み出すようにしたことを特徴とする請求項1記載のエ
ラー報告処理方式。
3. The storage device (3) is configured to be multiplexed so that the equivalence between the two is guaranteed, and uncorrectable upon the interruption reported by the first machine check interruption. 2. A storage device including a storage element in which an error has occurred or a storage region to be read is switched, and another storage device or storage region prepared in advance whose equivalence is guaranteed is read out. Error reporting processing method.
JP4063259A 1992-03-19 1992-03-19 Error report processing system Withdrawn JPH05265876A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4063259A JPH05265876A (en) 1992-03-19 1992-03-19 Error report processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4063259A JPH05265876A (en) 1992-03-19 1992-03-19 Error report processing system

Publications (1)

Publication Number Publication Date
JPH05265876A true JPH05265876A (en) 1993-10-15

Family

ID=13224099

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4063259A Withdrawn JPH05265876A (en) 1992-03-19 1992-03-19 Error report processing system

Country Status (1)

Country Link
JP (1) JPH05265876A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007102781A (en) * 2005-09-30 2007-04-19 Intel Corp Apparatus, system, and method for persistent user-level thread
WO2014024279A1 (en) * 2012-08-08 2014-02-13 富士通株式会社 Memory failure recovery device, method, and program
CN104685474A (en) * 2012-09-25 2015-06-03 惠普发展公司,有限责任合伙企业 Notification of address range including non-correctable error

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007102781A (en) * 2005-09-30 2007-04-19 Intel Corp Apparatus, system, and method for persistent user-level thread
JP4690988B2 (en) * 2005-09-30 2011-06-01 インテル・コーポレーション Apparatus, system and method for persistent user level threads
US8028295B2 (en) 2005-09-30 2011-09-27 Intel Corporation Apparatus, system, and method for persistent user-level thread
US8479217B2 (en) 2005-09-30 2013-07-02 Intel Corporation Apparatus, system, and method for persistent user-level thread
WO2014024279A1 (en) * 2012-08-08 2014-02-13 富士通株式会社 Memory failure recovery device, method, and program
CN104685474A (en) * 2012-09-25 2015-06-03 惠普发展公司,有限责任合伙企业 Notification of address range including non-correctable error
JP2015529927A (en) * 2012-09-25 2015-10-08 ヒューレット−パッカード デベロップメント カンパニー エル.ピー.Hewlett‐Packard Development Company, L.P. Notification of address range with uncorrectable errors
US9804917B2 (en) 2012-09-25 2017-10-31 Hewlett Packard Enterprise Development Lp Notification of address range including non-correctable error

Similar Documents

Publication Publication Date Title
EP3916557B1 (en) Memory error processing method and device
US5274646A (en) Excessive error correction control
US6233108B1 (en) Storage device with the ability to check for defects in same
JP5203967B2 (en) Method and system usable in sensor networks to handle memory failures
JPH03198135A (en) Fault tolerant memory system and method of operating the same
JP3481737B2 (en) Dump collection device and dump collection method
WO2022193768A1 (en) Method for executing memory read-write instruction, and computing device
US7139942B2 (en) Method and apparatus for memory redundancy and recovery from uncorrectable errors
CN112667422A (en) Memory fault processing method and device, computing equipment and storage medium
US5983359A (en) Processor fault recovering method for information processing system
JP2006031332A (en) Disk array control program, method and device
JP2001101032A (en) Os monitoring system under inter-different kind of os control
JPH1195933A (en) Disk array system
JPH05265876A (en) Error report processing system
CN114461436A (en) Memory fault processing method and device and computer readable storage medium
JP2002049509A (en) Data processing system
CN109343986B (en) Method and computer system for processing memory failure
CN108415788B (en) Data processing apparatus and method for responding to non-responsive processing circuitry
JPH11120154A (en) Device and method for access control in computer system
JPS6326407B2 (en)
US7895493B2 (en) Bus failure management method and system
JP2830592B2 (en) Route failure processing method for external storage device in information processing system
JP2600861B2 (en) I / O system area error handling method
JPS622339A (en) Rise processing method of processor
JP2014081884A (en) Computing system

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 19990608