JPH0792763B2 - Fault handling method - Google Patents

Fault handling method

Info

Publication number
JPH0792763B2
JPH0792763B2 JP63289170A JP28917088A JPH0792763B2 JP H0792763 B2 JPH0792763 B2 JP H0792763B2 JP 63289170 A JP63289170 A JP 63289170A JP 28917088 A JP28917088 A JP 28917088A JP H0792763 B2 JPH0792763 B2 JP H0792763B2
Authority
JP
Japan
Prior art keywords
arithmetic processing
processing unit
error
interrupt
failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP63289170A
Other languages
Japanese (ja)
Other versions
JPH02135533A (en
Inventor
達郎 橋口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP63289170A priority Critical patent/JPH0792763B2/en
Publication of JPH02135533A publication Critical patent/JPH02135533A/en
Publication of JPH0792763B2 publication Critical patent/JPH0792763B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Retry When Errors Occur (AREA)
  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)

Description

【発明の詳細な説明】 技術分野 本発明は障害処理方式に関し、特にエラー訂正可能な制
御記憶を有する演算処理装置において訂正可能エラーが
多発した場合の障害処理方式に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a failure processing method, and more particularly to a failure processing method when a correctable error occurs frequently in an arithmetic processing unit having an error-correctable control memory.

従来技術 従来、この種の情報処理装置は制御記憶にエラー訂正回
路を有しており、訂正可能なエラーが発生した場合にそ
れぞれ多発したとしてもそのまま処理を続行するように
なっている。またエラーが発生した場合、サービスプロ
セッサ等によりエラー情報が収集されるが、訂正可能エ
ラーの多発によりこのエラー情報がオーバフローするた
め、エラー受付抑止を行っている装置もある。
2. Description of the Related Art Conventionally, this type of information processing apparatus has an error correction circuit in the control memory, and when a correctable error occurs, even if a large number of errors occur, the processing is continued. Further, when an error occurs, error information is collected by the service processor or the like, but this error information overflows due to the occurrence of many correctable errors, and therefore some devices suppress the error acceptance.

上述した従来の情報処理装置では、制御記憶に訂正可能
なエラーが発生してもそのまま動作を続行するようにな
っているために、訂正可能なエラーが多発した場合に演
算処理装置の性能が低下するという欠点がある。また、
訂正可能なエラーが多発しているため、訂正可能エラー
が訂正不能なエラーとなっていまった場合、演算処理装
置の動作続行が不可能となり、本情報処理装置が運転停
止となってしまうという欠点がある。
In the above-described conventional information processing device, the operation is continued as it is even if a correctable error occurs in the control memory, and therefore the performance of the arithmetic processing device deteriorates when the correctable error occurs frequently. There is a drawback that Also,
Since many correctable errors occur, if the correctable error becomes an uncorrectable error, it becomes impossible to continue the operation of the arithmetic processing unit, and this information processing unit is stopped. There is.

場合によっては、訂正可能エラーであっても、制御記憶
内のマイクロプログラムのステップにより命令実行不能
となることもある。
In some cases, even correctable errors can render instructions unexecutable by steps of a microprogram in control store.

発明の目的 そこで、本発明はかかる従来技術の欠点を解決すべくな
されたものであって、その目的とするところは、訂正可
能エラーが多発した場合、情報処理システム全体のシス
テムダウンを防止するようにした障害処理方式を提供す
ることにある。
SUMMARY OF THE INVENTION Therefore, the present invention has been made to solve the above-mentioned drawbacks of the prior art, and an object of the present invention is to prevent system down of the entire information processing system when correctable errors occur frequently. It is to provide a fault handling method that

発明の構成 本発明による障害処理方式は、演算処理装置の障害発生
時に障害情報の収集及び障害救済処理を行う障害処理方
式であって、前記演算処理装置からの訂正可能エラーの
発生報告毎にこの発生回数を計数する計数手段と、前記
計数手段の計数回数が一定時間内に予め定められた回数
になったとき前記訂正可能エラーの発生報告の受付を抑
止する抑止手段と、前記回数になったときに前記演算処
理装置への割込みを発生させる割込み手段と、しかる後
に前記演算処理装置をシステムから切離す手段とを設
け、前記演算処理装置内のソフトウェアビジブルレジス
タの内容を凍結させて他の正常な演算処理装置へ前記レ
ジスタの各内容を移送制御するようにしたことを特徴と
する。
The failure processing method according to the present invention is a failure processing method that collects failure information and performs failure relief processing when a failure occurs in the arithmetic processing device, and this error processing method is performed for each report of occurrence of a correctable error from the arithmetic processing device. Counting means for counting the number of occurrences, deterring means for suppressing acceptance of the report of occurrence of the correctable error when the number of countings by the counting means reaches a predetermined number within a certain time, and the number of times is reached. Occasionally, an interrupt means for generating an interrupt to the arithmetic processing unit, and a means for disconnecting the arithmetic processing unit from the system after that are provided, and the contents of the software visible register in the arithmetic processing unit are frozen to obtain another normal state. The contents of the register are controlled to be transferred to another arithmetic processing unit.

更に前記抑止手段は、抑止開始から一定時間後に抑止解
除されてエラー情報の収集を行って保守者への警告をな
すよう構成されており、前記演算処理装置は、前記割込
みを自己の命令実行の切れ目で受けて次の命令の実行を
抑止し前記割込み手段へ当該割込みに対する応答を送出
するよう構成されており、この応答を受けてから前記移
送制御をなすようにしたことを特徴とする。
Further, the inhibiting means is configured to release the inhibition after a predetermined time from the initiation of the inhibition, collect error information, and issue a warning to a maintenance person. It is configured to receive the interrupt at the break and suppress the execution of the next instruction, and to send a response to the interrupt to the interrupt means, and to perform the transfer control after receiving the response.

実施例 次に、本発明の実施例について図面を参照して説明す
る。
Example Next, an example of the present invention will be described with reference to the drawings.

第1図は本発明の一実施例を示す構成図である。図にお
いて、障害処理装置1は演算処理装置2を含むその他の
装置の障害発生時における障害情報収集及び障害救済処
理を行う。
FIG. 1 is a block diagram showing an embodiment of the present invention. In the figure, a fault processing device 1 performs fault information collection and fault relief processing when a fault occurs in another device including the arithmetic processing device 2.

制御記憶回路3は演算処理装置2のマイクロプログラム
を格納するメモリであり、エラー訂正コードをも有して
いる。この制御記憶回路3から読出されたマイクロプロ
グラムデータはマイクロ命令読出しレジスタ5へセット
されて指令を実行するが、それに先立ちエラー訂正回路
4においてデータの正当性チェックが行われ、訂正可能
なエラーであれば訂正されたデータをマイクロ命令読出
しレジスタ5へセットする。このときエラー訂正回路4
は障害処理装置1のエラー受付け回路8へエラー発生通
知を行う。エラー受付け回路8は障害処理制御部7への
割込みを発生する。尚、このエラー通知はエラー抑止回
路9により受付けを抑止することが可能となっている。
The control storage circuit 3 is a memory that stores the microprogram of the arithmetic processing unit 2, and also has an error correction code. The microprogram data read from the control storage circuit 3 is set in the microinstruction read register 5 to execute the command. Prior to that, the data correctness check is performed in the error correction circuit 4, and any error that can be corrected is detected. For example, the corrected data is set in the microinstruction read register 5. At this time, the error correction circuit 4
Notifies the error reception circuit 8 of the failure processing device 1 of an error occurrence. The error receiving circuit 8 issues an interrupt to the failure processing control unit 7. The error notification can be suppressed by the error suppression circuit 9.

エラーカウンタ10はエラー受付け回路8により受付けら
れたエラー発生通知の回数を計数するものであり、ある
一定時間毎にリセットされるものとする。よって、この
エラーカウンタ10は当該一定時間内における演算処理装
置2の訂正可能エラーの発生回数を計数することにな
る。このエラーカウンタ10による計数内容が予め設定さ
れている回数に達すると、障害処理装置制御部7はエラ
ー抑止回路9によりエラー発生報告の受付けを抑止する
よう制御する。同時に、通信部11を介して演算処理装置
2への命令停止割込みをマイクロプログラム制御部6へ
発生するものである。
The error counter 10 counts the number of error occurrence notifications received by the error receiving circuit 8 and is reset at a certain fixed time. Therefore, this error counter 10 counts the number of occurrences of correctable errors of the arithmetic processing unit 2 within the fixed time. When the content counted by the error counter 10 reaches a preset number of times, the failure processing device controller 7 controls the error suppression circuit 9 to suppress the acceptance of the error occurrence report. At the same time, an instruction stop interrupt to the arithmetic processing unit 2 is generated in the microprogram control unit 6 via the communication unit 11.

次に第2図の動作フローチャートを使用して全体的な動
作について説明する。障害処理装置制御部7は上記で説
明したエラー発生報告を受けると、カウンタ10を更新し
てカウンタが予め決められた値Nをオーバしたかどうか
をチェックする。オーバしていなければそのまま動作を
続行させる。尚、カウンタ10は第2図には図示していな
いが最初のエラー発生から予め決められた時間経過した
らリセットされるものとする。カウンタ10がNをオーバ
した場合は、エラー抑止回路9をセットし一旦エラー受
付けを抑止する。
Next, the overall operation will be described using the operation flowchart of FIG. Upon receipt of the error occurrence report described above, the failure processing device control unit 7 updates the counter 10 and checks whether the counter has exceeded a predetermined value N. If it is not over, the operation is continued. Although not shown in FIG. 2, the counter 10 is reset when a predetermined time has elapsed from the first error occurrence. When the counter 10 exceeds N, the error suppression circuit 9 is set to temporarily suppress the error acceptance.

次に演算処理装置2以外に演算処理装置が存在するかチ
ェックされ、存在しなければやはり動作を続行する。こ
の場合図示していないが、エラー抑止回路9はセット後
一定時間経過後解除され、エラー情報が収集される。こ
れにより保守者等への警告とする。
Next, it is checked whether there is an arithmetic processing device other than the arithmetic processing device 2, and if it does not exist, the operation is continued. In this case, although not shown, the error suppression circuit 9 is released after a lapse of a fixed time after setting, and error information is collected. This gives a warning to maintenance personnel.

次に他の演算処理装置が存在した場合について説明す
る。この場合演算処理装置2に対し演算処理装置通信部
11を経由しマイクロプログラム制御部へ命令停止割込み
を通知する。演算処理装置2のマイクロプログラムはソ
フトウェア命令を実行しており、該割込みを命令の切れ
目で受け、次命令の実行を抑止して障害処理装置1に応
答を返す。応答を受けた障害処理装置1は、演算処理装
置2のソフトウェアビジブルレジスタを診断インタフェ
ースを介して抜出し、他の正常な演算処理装置(図示せ
ず)へ移送する。以降の処理は周知の技術であるプロセ
ッサリリーフ処理の動作であり、ここでは特に説明しな
い。
Next, a case where another arithmetic processing device is present will be described. In this case, the arithmetic processing unit 2 is compared with the arithmetic processing unit communication unit.
The instruction stop interrupt is notified to the micro program control unit via 11. The microprogram of the arithmetic processing unit 2 executes a software instruction, receives the interrupt at the break of the instruction, suppresses the execution of the next instruction, and returns a response to the failure processing unit 1. Upon receiving the response, the failure processing device 1 extracts the software visible register of the arithmetic processing device 2 via the diagnostic interface and transfers it to another normal arithmetic processing device (not shown). The subsequent processing is an operation of processor relief processing, which is a well-known technique, and is not particularly described here.

発明の効果 以上説明したように、本発明によれば、制御記憶回路の
訂正可能エラーの多発を検出し、多発と判断したときに
周知の技術であるプロセッサリリーフ処理を使用して演
算処理装置をシステムから切離すことを可能にすること
により、制御記憶の訂正可能エラー多発が訂正不能エラ
ーとなったり又エラーの発生しているマイクロプログラ
ムのステップによって命令実行不可となったりして、シ
ステムの運転を停止させてしまうということをなくすと
いう効果がある。
As described above, according to the present invention, an arithmetic processing unit is detected by using the processor relief processing, which is a well-known technique, when a large number of correctable errors in the control memory circuit is detected and it is determined that the correctable errors occur frequently. By enabling the system to be separated from the system, a large number of correctable errors in the control memory will result in uncorrectable errors, or instructions will not be able to be executed due to the step of the microprogram in which the error has occurred, and the system will operate. It has the effect of eliminating the problem of stopping.

【図面の簡単な説明】 第1図は本発明の実施例のブロック図、第2図は第1図
のブロックの動作を示すフローチャートである。 主要部分の符号の説明 1……障害処理装置 2……演算処理装置 4……エラー訂正回路 5……マイクロ命令読出しレジスタ 8……エラー受付け回路 9……エラー抑止回路 10……エラーカウンタ
BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1 is a block diagram of an embodiment of the present invention, and FIG. 2 is a flow chart showing the operation of the blocks of FIG. Description of symbols of main parts 1 ... Fault processing device 2 ... Arithmetic processing device 4 ... Error correction circuit 5 ... Micro instruction read register 8 ... Error acceptance circuit 9 ... Error suppression circuit 10 ... Error counter

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】演算処理装置の障害発生時に障害情報の収
集及び障害救済処理を行う障害処理方式であって、前記
演算処理装置からの訂正可能エラーの発生報告毎にこの
発生回数を計数する計数手段と、前記計数手段の計数回
数が一定時間内に予め定められた回数になったとき前記
訂正可能エラーの発生報告の受付を抑止する抑止手段
と、前記回数になったときに前記演算処理装置への割込
みを発生させる割込み手段と、しかる後に前記演算処理
装置をシステムから切離す手段とを設け、前記演算処理
装置内のソフトウェアビジブルレジスタの内容を凍結さ
せて他の正常な演算処理装置へ前記レジスタの各内容を
移送制御するようにしたことを特徴とする障害処理方
式。
1. A failure processing method for collecting failure information and failure recovery processing when a failure occurs in an arithmetic processing unit, and counting the number of occurrences of each correctable error occurrence report from the arithmetic processing unit. Means, deterring means for deterring acceptance of the report of occurrence of the correctable error when the number of times of counting by the counting means reaches a predetermined number within a fixed time, and the arithmetic processing unit when the number of times reaches the number of times. Interrupting means for generating an interrupt to the system, and means for disconnecting the arithmetic processing unit from the system after that, freeze the contents of the software visible register in the arithmetic processing unit, and send it to another normal arithmetic processing unit. A failure processing method characterized in that each content of a register is controlled to be transferred.
【請求項2】前記抑止手段は、抑止開始から一定時間後
に抑止解除されてエラー情報の収集を行って保守者への
警告をなすよう構成されており、前記演算処理装置は、
前記割込みを自己の命令実行の切れ目で受けて次の命令
の実行を抑止し前記割込み手段へ当該割込みに対する応
答を送出するよう構成されており、この応答を受けてか
ら前記移送制御をなすようにしたことを特徴とする請求
項1記載の障害処理方式。
2. The suppressing means is configured to cancel the suppression after a predetermined time from the start of the suppression and collect error information to warn a maintenance person.
The interrupt is received at the break of its own instruction execution, the execution of the next instruction is suppressed, and a response to the interrupt is sent to the interrupt means, and the transfer control is performed after receiving the response. The fault handling method according to claim 1, wherein the fault handling method is performed.
JP63289170A 1988-11-16 1988-11-16 Fault handling method Expired - Fee Related JPH0792763B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63289170A JPH0792763B2 (en) 1988-11-16 1988-11-16 Fault handling method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63289170A JPH0792763B2 (en) 1988-11-16 1988-11-16 Fault handling method

Publications (2)

Publication Number Publication Date
JPH02135533A JPH02135533A (en) 1990-05-24
JPH0792763B2 true JPH0792763B2 (en) 1995-10-09

Family

ID=17739669

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63289170A Expired - Fee Related JPH0792763B2 (en) 1988-11-16 1988-11-16 Fault handling method

Country Status (1)

Country Link
JP (1) JPH0792763B2 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2674894B2 (en) * 1991-03-20 1997-11-12 茨城日本電気株式会社 Information processing device
JP2758742B2 (en) * 1991-07-19 1998-05-28 日本電気株式会社 Malfunction detection method
JP2814988B2 (en) * 1996-04-12 1998-10-27 日本電気株式会社 Failure handling method
JP5451087B2 (en) * 2009-01-26 2014-03-26 エヌイーシーコンピュータテクノ株式会社 Fault processing apparatus and method
JP2012083992A (en) * 2010-10-13 2012-04-26 Nec Computertechno Ltd Data failure processing apparatus and data failure processing method
TWI638262B (en) 2017-11-17 2018-10-11 慧榮科技股份有限公司 Data storage device and associated operating method

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5739465A (en) * 1980-08-15 1982-03-04 Nippon Signal Co Ltd:The Multisystem computer device
JPS5785151A (en) * 1980-11-17 1982-05-27 Nec Corp Error recovery system of logical device
JPS57114954A (en) * 1981-01-05 1982-07-17 Nec Corp Error recovery system for logical device
JPS57137939A (en) * 1981-02-18 1982-08-25 Univ Kyoto Parallel counting and sorting method and its circuit
JPS5971551A (en) * 1982-10-18 1984-04-23 Nec Corp Information processor

Also Published As

Publication number Publication date
JPH02135533A (en) 1990-05-24

Similar Documents

Publication Publication Date Title
CA1310422C (en) Methods and apparatus for fault recovery
JP4873073B2 (en) Information processing apparatus and failure recovery method for information processing apparatus
JPH0792763B2 (en) Fault handling method
WO2018103185A1 (en) Fault processing method, computer system, baseboard management controller and system
CN114911659A (en) CE storm suppression method, device and related equipment
JP2870250B2 (en) Microprocessor runaway monitor
JP2004086520A (en) Monitoring control device and its method
JPH06175934A (en) One bit error processing system
JPH06175887A (en) Fault monitoring/reporting system
JP3479288B2 (en) Remote diagnostic maintenance method, method, and program
JPH0869593A (en) Monitoring system for performance of plant
JPH05233374A (en) Watchdog timer device
JPS6084651A (en) Control system of input and output device
JP2814988B2 (en) Failure handling method
JPS5971551A (en) Information processor
KR860000793B1 (en) Initial program loading method
JPH03216748A (en) Remote channel device
CN115061776A (en) Processing method of virtual machine exception, electronic device and storage medium
JP3330261B2 (en) Digital protection and control equipment
JPS593638A (en) Information processor
JP2012198728A (en) Program execution device, information storage device, information processing method and computer program
JPH0218506B2 (en)
JPH02189643A (en) Data processor
JPH0651935U (en) Failure management device in multi-CPU system
JPS6220013A (en) Disconnecting device for power supply of microcomputer applied equipment

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees