JP2814988B2 - Failure handling method - Google Patents

Failure handling method

Info

Publication number
JP2814988B2
JP2814988B2 JP8115655A JP11565596A JP2814988B2 JP 2814988 B2 JP2814988 B2 JP 2814988B2 JP 8115655 A JP8115655 A JP 8115655A JP 11565596 A JP11565596 A JP 11565596A JP 2814988 B2 JP2814988 B2 JP 2814988B2
Authority
JP
Japan
Prior art keywords
scu
epu
software instruction
under
failed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP8115655A
Other languages
Japanese (ja)
Other versions
JPH09282191A (en
Inventor
健一 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP8115655A priority Critical patent/JP2814988B2/en
Publication of JPH09282191A publication Critical patent/JPH09282191A/en
Application granted granted Critical
Publication of JP2814988B2 publication Critical patent/JP2814988B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、障害処理方式に関
し、特にシステム制御装置(「SCU」という)障害時
の障害処理方式に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a fault handling system, and more particularly, to a fault handling system in the event of a system controller (SCU) failure.

【0002】[0002]

【従来の技術】従来、この種の障害処理方式では、SC
U内のエラー訂正回路を有している箇所において障害が
発生した場合には、処理を継続し、情報処理装置の信頼
性を向上させている。
2. Description of the Related Art Conventionally, in this type of fault handling system, SC
When a failure occurs in a portion having an error correction circuit in U, the processing is continued, and the reliability of the information processing device is improved.

【0003】しかし、障害箇所が固定障害である場合に
は、障害が多発することにより、性能低下または障害情
報がオーバフローする等の理由から、複数のSCUを有
する情報処理装置においては、SCUで継続運転可能な
間欠障害が発生した場合、診断処理装置(「DGP」と
いう)はその回数をカウントし、そのカウント値が一定
時間内に定められた回数以上になった(これを「カウン
トオーバ」という)際に、固定障害とみなし、当該SC
Uの切り離しを行い、当該SCU配下で実行していたプ
ロセスは、プロセッサリリーフ(救済処理)による継続
実行が試みられていた。この際、DGPは、当該SCU
配下に接続された演算処理装置(「EPU」という)の
動作状態とは無関係に、当該SCUの切り離しを行って
いた。
However, if the fault location is a fixed fault, in an information processing apparatus having a plurality of SCUs, if the fault occurs frequently, the information processing device having a plurality of SCUs will continue to use the SCU due to performance degradation or fault information overflow. When a drivable intermittent fault occurs, the diagnostic processing device (referred to as “DGP”) counts the number of times, and the count value becomes equal to or more than a predetermined number within a predetermined time (this is referred to as “count over”). ) At the time of the SC
The process of disconnecting U and executing under the SCU has been attempted to be continuously executed by processor relief (rescue processing). At this time, the DGP sends the SCU
The SCU has been disconnected regardless of the operation state of an arithmetic processing unit (referred to as “EPU”) connected thereunder.

【0004】[0004]

【発明が解決しようとする課題】上述したように、従来
の障害処理方式においては、障害SCUの切り離しは、
当該SCU配下のEPUの動作状態とは無関係に行われ
ているために、当該SCU配下のEPUがソフトウェア
命令実行中に、再試行不可能な区間で当該SCUの切り
離しが行われた場合には、このEPUにて実行中のプロ
セスは再試行不可能であるため、プロセッサリリーフが
不可能となり、プロセスアボートあるいはシステムクラ
ッシュを引き起こしてしまうという問題があった。
As described above, in the conventional fault handling system, the separation of the faulty SCU is as follows.
Since the operation is performed irrespective of the operation state of the EPU under the SCU, if the SPU under the SCU is disconnected from the SCU during a non-retryable section while executing the software instruction, Since the process being executed by the EPU cannot be retried, the processor cannot be relieved, resulting in a process abort or a system crash.

【0005】図5は、このような従来の障害処理を行
う、EPUのソフトウェア命令実行フローを示す図であ
る。図5に示すように、ソフトウェア命令は、一般に再
試行可能な区間と再試行不可能な区間が存在し、命令開
始時には再試行可能であり、共有資源を更新すること等
により再試行不可能となる。
FIG. 5 is a diagram showing a software instruction execution flow of the EPU for performing such a conventional failure processing. As shown in FIG. 5, a software instruction generally has a section that can be retried and a section that cannot be retried. The instruction can be retried at the start of the instruction, and cannot be retried by updating a shared resource. Become.

【0006】EPUの切り離しが行われる場合、図5に
「A」として示すように、再試行可能な区間である場合
には、実行中の「ソフトウェア命令2」は、再試行可能
であるため、健全なEPUへプロセッサリリーフを行う
ことができ、該EPUで実行中のプロセスは継続実行が
可能である。
[0006] When the EPU is disconnected, as shown as "A" in FIG. 5, if the section is a retryable section, the executing "software instruction 2" can be retried. Processor relief can be performed on a healthy EPU, and a process running in the EPU can be continuously executed.

【0007】しかしながら、図5に「B」として示すよ
うに、再試行不可能な区間である場合は、プロセッサリ
リーフを行うことが不可能なため、該EPUで実行中の
プロセスは継続実行が不可能となり、プロセスアボート
とされていた。また、当該プロセスがオペレーティング
システムの中核(カーネル部)であるような場合には、
システムクラッシュを引き起こしていた。
[0007] However, as shown by "B" in FIG. 5, if the section cannot be retried, it is impossible to perform processor relief, and the process being executed by the EPU cannot be continuously executed. It became possible, and it was considered a process abort. If the process is the core of the operating system (kernel),
Was causing a system crash.

【0008】このため、SCUの間欠障害の場合での、
SCUの切り離しを、ソフトウェア命令実行終了まで待
ち合わせることにより、EPUはプロセッサリリーフ可
能となり、プロセッサリリーフにより、プロセスを健全
なEPUに引き継ぐことにより、プロセスをアボートさ
せることなく継続運転が可能となる。
For this reason, in the case of an intermittent failure of the SCU,
By waiting for the disconnection of the SCU until the completion of the execution of the software instruction, the EPU can perform processor relief, and the processor relief allows the process to be taken over by a healthy EPU, thereby enabling continuous operation without aborting the process.

【0009】従って、本発明は、上記事情に鑑みて為さ
れたものであって、その目的は、間欠障害のカウントオ
ーバに伴うSCU切り離しの際、EPUが実行中のプロ
セスをアボートさせることなく、継続運転することを可
能にすることにより、情報処理装置の信頼性を向上させ
る障害処理方式を提供することにある。
Accordingly, the present invention has been made in view of the above circumstances, and an object of the present invention is to eliminate an abort of a process that is being executed by an EPU when an SCU is disconnected due to counting over of an intermittent failure. An object of the present invention is to provide a failure processing method that improves the reliability of an information processing device by enabling continuous operation.

【0010】[0010]

【課題を解決するための手段】前記目的を達成するた
め、本発明の障害処理方式は、システム制御装置(以下
「SCU」という)における間欠故障の所定回の発生に
より、障害SCUの切り離しが行われる際に、前記障害
SCU配下の全ての演算処理装置(以下「EPU」とい
う)にソフトウェア命令中断要求を送出することによ
り、前記EPUで実行中のソフトウェア命令を終了する
まで待ち合わせ、前記障害SCU配下の全てのEPUを
再試行可能な状態としてから前記SCUの切り離しを行
い、前記SCU配下の前記EPUで実行していたプロセ
スのプロセッサリリーフ処理を行う、ことを特徴とす
る。
In order to achieve the above-mentioned object, according to the fault processing method of the present invention, a faulty SCU is separated by a predetermined number of intermittent faults occurring in a system control unit (hereinafter referred to as "SCU"). when dividing said by sending software instructions interrupt request to all of the arithmetic processing unit (hereinafter referred to as "EPU") under fault SCU, waiting until the end of the software instructions running on the EPU, the disorder under SCU The SCU is disconnected after all the EPUs are ready to be retried, and the processor relief process of the process executed by the EPU under the SCU is performed.

【0011】本発明の概要を以下に説明する。本発明に
よれば、SCUの間欠障害のカウントオーバによるSC
U切り離しに伴うEPUの切り離しにおいて、該SCU
配下の全EPUで実行していたプロセスの確実な継続運
転を実現するものである。
The outline of the present invention will be described below. According to the present invention, the SC due to an intermittent failure count over of the SCU
In the EPU disconnection accompanying the U disconnection, the SCU
This realizes a reliable continuous operation of the process executed by all the subordinate EPUs.

【0012】より具体的には、SCUの間欠障害のカウ
ントオーバが発生すると、診断処理装置(DGP)(図
1の符号7)は、直ちにEPUの切り離しを行うことは
せずに、障害SCU配下のEPUで実行中ソフトウェア
命令の終了を待ち合わせを行うためのソフトウェア命令
中断要求機構(図1の符号12)と、ソフトウェア命令
中断要求を保持するソフトウェア命令中断割込み機構
(図1の符号22)と、該中断要求をソフトウェア命令
間で割り出しソフトウェア命令中断完了通知をDGP
(図1の符号7)へ送出した後、再試行可能状態でEP
Uの切り離しに備えるソフトウェア命令中断機構(図1
の符号26)と、を有する。
More specifically, when the count-up of the intermittent failure of the SCU occurs, the diagnostic processing unit (DGP) (reference numeral 7 in FIG. 1) does not immediately disconnect the EPU, but directly controls the subordinate of the failed SCU. A software instruction interruption request mechanism for waiting for the end of the software instruction being executed by the EPU (reference numeral 12 in FIG. 1), a software instruction interruption interrupt mechanism for retaining the software instruction interruption request (reference numeral 22 in FIG. 1), The interruption request is determined between software instructions, and the software instruction interruption completion notification is sent to the DGP.
(Symbol 7 in FIG. 1), and in the retryable state
Software instruction suspending mechanism for disconnection of U (Fig. 1
26).

【0013】そして、障害SCU配下の全EPUが再試
行可能な状態になるまで、DGPは該EPUの切り離し
は行わない。
[0013] The DGP does not disconnect the EPU until all the EPUs under the failed SCU can be retried.

【0014】すなわち、本発明によれば、間欠障害のカ
ウントオーバに伴うSCU切り離しの際、EPUで実行
中のソフトウェア命令の中断を待ち合わせ、再試行可能
な状態にしてから、該EPUを切り離し、これによりプ
ロセスをアボートさせることなく、継続運転することを
可能としている。その結果、SCUのハードウェア障害
の発生に伴うシステムダウンなどの重大な被害を有効に
防止できる。
That is, according to the present invention, when the SCU is disconnected due to the count-up of the intermittent failure, the EPU is waited for the interruption of the software instruction being executed, and the EPU is disconnected. This allows continuous operation without aborting the process. As a result, it is possible to effectively prevent serious damage such as a system down due to the occurrence of a hardware failure of the SCU.

【0015】[0015]

【発明の実施の形態】本発明の実施の形態について図面
を参照して以下に詳細に説明する。図1は、本発明の実
施の形態を説明するための図であり、システムの全体構
成をブロック図にて示したものであり、図2は、図1の
詳細図である。
Embodiments of the present invention will be described in detail below with reference to the drawings. FIG. 1 is a diagram for explaining an embodiment of the present invention, and shows the overall configuration of a system in a block diagram. FIG. 2 is a detailed diagram of FIG.

【0016】図1及び図2を参照すると、演算処理装置
(EPU)1、2、3、4は、ソフトウェア命令群によ
り構成されたプロセスを逐次実行する。また、システム
制御処理装置(SCU)5、6は、EPU1、2、3、
4、不図示の入出力装置(「IOP」ともいう)等から
メモリリクエスト等を受付け、不図示の主記憶装置
(「MMU」ともいう)に読み出し、及び書き込み等を
行う。EPU1、2はSCU5に、EPU3、4はSC
U6に接続されている。
Referring to FIGS. 1 and 2, arithmetic processing units (EPUs) 1, 2, 3, and 4 sequentially execute a process constituted by a group of software instructions. The system control processing units (SCUs) 5 and 6 include EPUs 1, 2, 3,
4. A memory request or the like is received from an input / output device (also referred to as “IOP”) or the like (not shown), and a read / write operation is performed to a main storage device (also referred to as “MMU”) (not shown). EPU1 and 2 are SCU5, EPU3 and 4 are SC
Connected to U6.

【0017】診断処理装置(DGP)7は、EPU、I
OP、SCU、MMU等の障害検出機構を備えており、
障害を検出すると該障害装置の切り離しを行う。
The diagnostic processing unit (DGP) 7 includes EPU, I
It has a failure detection mechanism such as OP, SCU, MMU, etc.
When a failure is detected, the failed device is disconnected.

【0018】SCU5、6における障害表示機構15、
16は、自SCUに障害が発生すると、障害種別と障害
箇所を表示するフラグである。診断パス30はSCUの
障害情報をDGP7に転送するための経路である。
Failure indication mechanism 15 in SCUs 5 and 6
Reference numeral 16 denotes a flag for displaying a fault type and a fault location when a fault occurs in the own SCU. The diagnostic path 30 is a path for transferring fault information of the SCU to the DGP 7.

【0019】診断処理装置(DGP)7におけるSCU
障害検出機構8は、SCU毎に設けられ、診断パス30
を介して対応するSCUの障害表示機構15、16のフ
ラグを監視し、障害表示機構15及び/又は16がオン
すると、障害種別を判定する。その際、間欠故障と認識
すると、障害カウンタ9を起動すべく出力をアクティブ
とする。
SCU in diagnostic processing unit (DGP) 7
The failure detection mechanism 8 is provided for each SCU,
, The flags of the failure display mechanisms 15 and 16 of the corresponding SCU are monitored, and when the failure display mechanisms 15 and / or 16 are turned on, the failure type is determined. At this time, when the intermittent failure is recognized, the output is activated to activate the failure counter 9.

【0020】障害カウンタ9は、SCU毎に設けられ、
起動されるとカウンタ値が+1(インクリメント)さ
れ、この値は比較器10の一の入力端に入力される。閾
値11は、一定時間内に何回SCUの間欠障害が発生し
た時に、当該SCUの切り離しを行うかを決定する値が
予め格納されており、比較器10の他の入力端に入力さ
れている。
The fault counter 9 is provided for each SCU.
When activated, the counter value is incremented by +1 (increment), and this value is input to one input terminal of the comparator 10. As the threshold value 11, a value for determining how many times an intermittent failure of the SCU has occurred within a certain period of time to determine whether to disconnect the SCU is stored in advance, and is input to another input terminal of the comparator 10. .

【0021】この比較器10も、SCU毎に設けられて
おり、閾値11と障害カウンタ9の値を比較するもの
で、両者の値が等しい場合、ソフトウェア命令中断要求
機構12を起動すべく出力する(すなわち比較器10の
出力がアクティブとなる)。
This comparator 10 is also provided for each SCU, and compares the threshold value 11 with the value of the fault counter 9. If the two values are equal, the comparator 10 outputs a signal to activate the software instruction interruption request mechanism 12. (That is, the output of the comparator 10 becomes active).

【0022】ソフトウェア命令中断要求機構12は、比
較器10からの起動により、障害SCU配下の全EPU
に対し、ソフトウェア命令中断要求通信を通信パス21
に送出し、その応答である、ソフトウェア命令中断完了
通信を障害SCU配下全てのEPUから受信すると、プ
ロセッサ切り離し機構13を起動する。
The software instruction interruption request mechanism 12 activates all the EPUs under the faulty SCU by the activation from the comparator 10.
In response, the software instruction interruption request
When the software instruction interruption completion communication, which is the response, is received from all the EPUs under the failed SCU, the processor disconnecting mechanism 13 is activated.

【0023】通信パス21は、EPU1、2、3、4と
DGP7間を接続する汎用通信経路である。
The communication path 21 is a general-purpose communication path connecting the EPUs 1, 2, 3, 4 and the DGP 7.

【0024】ここでEPU1にのみ着目すると、通信処
理機構17は通信パス21を介してDGP7から送出さ
れる通信種別を判定し、ソフトウェア命令中断要求通信
であると認識すると、ソフトウェア命令中断割り込み機
構22を起動すべく出力し、またソフトウェア命令中断
機構26から出力されたソフトウェア命令中断完了通信
を通信パス21に出力する機能をもつ。
Here, focusing only on the EPU 1, the communication processing unit 17 determines the type of communication transmitted from the DGP 7 via the communication path 21, and if it recognizes that the communication is a software instruction interruption request communication, the software instruction interruption interruption unit 22 , And outputs the software instruction interruption completion communication output from the software instruction interruption mechanism 26 to the communication path 21.

【0025】ソフトウェア命令中断割り込み機構22
は、起動されるとDGP7からのソフトウェア命令中断
要求を保持する。
Software instruction interruption interrupt mechanism 22
Holds the software instruction interruption request from the DGP 7 when activated.

【0026】ソフトウェア命令中断機構26は、現在の
実行中のソフトウェア命令が完了した後に、ソフトウェ
ア命令中断割り込み機構22でソフトウェア命令中断要
求が保持されている場合、ソフトウェア命令中断完了通
知を通信処理機構17に送出後、次に続くソフトウェア
命令を実行せずアイドルループを行う。
The software instruction interruption mechanism 26 sends a software instruction interruption completion notification to the communication processing unit 17 when the software instruction interruption request is held by the software instruction interruption interrupt mechanism 22 after the currently executing software instruction is completed. , An idle loop is performed without executing the next software instruction.

【0027】プロセッサ切り離し機構13は、SCUの
切り離し、またこのSCUの切り放しに伴うEPUの切
り離しも行う。
The processor disconnecting mechanism 13 disconnects the SCU and also disconnects the EPU when the SCU is released.

【0028】プロセッサリリーフ機構14は、EPUの
切り離しにより、凍結されたEPU内のソフトウェアビ
ジブルな(ソフトウェア命令でアクセス可能な)レジス
タ等の情報を、他の健全なEPUに引継ぎ、これにより
プロセスの動作継続を行うものである。
When the EPU is detached, the processor relief mechanism 14 transfers information such as software-visible (accessible by software instructions) registers in the frozen EPU to another sound EPU, thereby executing the operation of the process. It is a continuation.

【0029】次に、図1に示した情報処理装置の障害処
理方式の実施の形態の動作について説明する。
Next, the operation of the embodiment of the failure processing system of the information processing apparatus shown in FIG. 1 will be described.

【0030】SCU5内部で障害が発生すると、DGP
7内のSCU障害検出機構8は、障害表示機構15にお
ける点灯(オン)により、SCU5で障害が発生したこ
とを認識し、障害の種類を分析して間欠障害であると判
断すると、障害カウンタ9のカウントアップを行う。
When a failure occurs in the SCU 5, the DGP
The SCU fault detection mechanism 8 in 7 recognizes that a fault has occurred in the SCU 5 by lighting (ON) in the fault display mechanism 15 and analyzes the type of fault and determines that the fault is an intermittent fault, and when the fault is detected, the fault counter 9 Count up.

【0031】障害カウンタ9のカウンタ値と閾値11が
等しいとき、すなわち固定故障と判定した場合、比較器
10はソフトウェア命令中断要求機構12を起動すべく
出力する。
When the counter value of the fault counter 9 is equal to the threshold value 11, that is, when it is determined that the fault is a fixed fault, the comparator 10 outputs the software instruction interrupt request mechanism 12 to activate it.

【0032】このソフトウェア命令中断要求機構12
は、障害SCU5配下のEPU1、EPU2に対し通信
パス21を介しソフトウェア命令中断要求通信を送信す
る。ここでEPU1にのみ着目すると、当該通信は通信
処理機構17にて受信され、ソフトウェア命令中断要求
通信であると判断されると、ソフトウェア命令中断割り
込み機構22を起動する。
This software instruction interruption request mechanism 12
Transmits a software command interruption request message to the EPU1 and EPU2 under the failure SCU5 via the communication path 21. Here, focusing only on the EPU 1, the communication is received by the communication processing unit 17, and when it is determined that the communication is the software instruction interruption request communication, the software instruction interruption interruption mechanism 22 is activated.

【0033】ソフトウェア命令中断割り込み機構22が
起動されソフトウェア命令中断要求が保持されると、ソ
フトウェア命令中断機構26は現在の実行中のソフトウ
ェア命令が完了した後に、ソフトウェア命令中断完了通
信を通信処理機構17に送出した後、次に続くソフトウ
ェア命令を実行せずにアイドルループを行う。
When the software instruction interruption interrupt mechanism 22 is activated and the software instruction interruption request is held, the software instruction interruption mechanism 26 transmits the software instruction interruption completion communication after the completion of the currently executing software instruction. , An idle loop is executed without executing the next software instruction.

【0034】このアイドルループ状態でのEPU切り離
しは、上述したように、図5の「A」と同様に再試行可
能な状態であるため、プロセッサリリーフは必ず成功
し、プロセスが健全なEPUに引き継がれる。ソフトウ
ェア命令中断完了通信は、通信処理機構17、通信パス
21を通じDGP7に届けられる。
As described above, the EPU disconnection in the idle loop state can be retried as in the case of "A" in FIG. 5, so that the processor relief always succeeds and the process is taken over by a healthy EPU. It is. The software command interruption completion communication is delivered to the DGP 7 through the communication processing mechanism 17 and the communication path 21.

【0035】以上の動作がEPU2においてもEPU1
と同様になされる。
The above operation is performed in EPU2 even in EPU2.
The same is done.

【0036】DGP7は、障害SCU5配下の全EPU
1、2からのソフトウェア命令中断完了通信を受け取る
と、プロセッサ切り離し機構13を起動し、障害SCU
5の切り離しを行う。
DGP7 is used for all EPUs under the failure SCU5.
Upon receiving the software instruction interruption completion communication from the CPU 1 or 2, the processor disconnecting mechanism 13 is activated, and the failed SCU is activated.
5 is cut off.

【0037】この障害SCU5の切り離しに伴い、配下
のEPU1、2も切り離され、プロセッサリリーフ機構
14にて該EPU1、2で実行されていたプロセスは、
健全なEPU3もしくはEPU4にプロセッサリリーフ
(救済処理)する。ここで、EPU1、2で実行されて
いたプロセスは、上述したようにすべてアイドルループ
状態で切り離しが行われるため、プロセッサリリーフは
必ず成功する。
With the disconnection of the failed SCU 5, the subordinate EPUs 1 and 2 are also disconnected, and the processes executed in the EPUs 1 and 2 by the processor relief mechanism 14 are as follows.
Processor relief (rescue processing) is performed on a healthy EPU3 or EPU4. Here, since the processes executed in the EPUs 1 and 2 are all separated in the idle loop state as described above, the processor relief always succeeds.

【0038】図5で示した「B」での切り離しが、本発
明の実施の形態の方式により、再試行不可能区間から再
試行可能区間に改善されることを、図6に示す。
FIG. 6 shows that the separation at "B" shown in FIG. 5 is improved from a non-retryable section to a retryable section by the method of the embodiment of the present invention.

【0039】このように、間欠障害のカウントオーバに
伴うSCU切り離しの際、EPUで実行中のソフトウェ
ア命令の完了を待ち合わせ、再試行可能な状態にて当該
EPUを切り離すことにより、プロセスをアボートさせ
ることなく、継続運転することが可能になる。
As described above, when the SCU is disconnected due to the count-over of the intermittent fault, the process is aborted by waiting for the completion of the software instruction being executed in the EPU and disconnecting the EPU in a retryable state. And continuous operation becomes possible.

【0040】[0040]

【実施例】上記した本発明の実施の形態を更に詳細に説
明すべく、本発明の実施例について図面を参照して説明
する。
DESCRIPTION OF THE PREFERRED EMBODIMENTS In order to explain the above-described embodiment of the present invention in more detail, an embodiment of the present invention will be described with reference to the drawings.

【0041】図3は、本発明の一実施例に係る障害処理
方式が適用された情報処理装置の構成を示すブロック図
であり、図4は、図3の詳細を示した図である。
FIG. 3 is a block diagram showing a configuration of an information processing apparatus to which a failure processing system according to one embodiment of the present invention is applied, and FIG. 4 is a diagram showing details of FIG.

【0042】図3及び図4を参照して、SCU5内部の
訂正可能なサブブロック(1)40で障害が発生する
と、EIF(エラー表示フリップフロップ)15がセッ
トされる。
Referring to FIG. 3 and FIG. 4, when a failure occurs in the correctable sub-block (1) 40 inside the SCU 5, an EIF (error indication flip-flop) 15 is set.

【0043】EIF15は診断パス30を介して、DG
P7内のSCU障害検出機構8に入力され、該検出機構
8はSCU5のサブブロック1(1)40で間欠障害が
発生したことを認識し、障害カウンタ9のカウントアッ
プを行う。SCUの間欠障害が多発することにより固定
障害とみなす回数である閾値37が、サービスプロセッ
サのディスク等のシステム設定情報35内に格納されて
おり、情報処理装置の立ち上げ時等に閾値格納レジスタ
11に格納される。
The EIF 15 receives the DG via the diagnostic path 30
It is input to the SCU fault detection mechanism 8 in P7, and the detection mechanism 8 recognizes that an intermittent fault has occurred in the sub-block 1 (1) 40 of the SCU 5, and counts up the fault counter 9. A threshold value 37, which is the number of times that the SCU is regarded as a fixed failure due to frequent occurrence of intermittent failures, is stored in system setting information 35 such as a disk of the service processor. Is stored in

【0044】仮に、間欠障害が、例えば1時間内に3回
発生した場合に固定障害と見なす様に設定する場合に
は、システム設定情報35内の閾値37を“3”、タイ
マ値36を“1時間”にする。タイマ38は減算タイマ
からなり、その値が“0”になったとき障害カウンタ9
を“0”にクリアするように構成されている。
If the intermittent fault is set to be regarded as a fixed fault if it occurs three times in one hour, for example, the threshold value 37 in the system setting information 35 is set to "3" and the timer value 36 is set to "3". 1 hour ”. The timer 38 comprises a subtraction timer, and when its value becomes "0", the failure counter 9
Is cleared to “0”.

【0045】このため、このような設定においては、閾
値格納レジスタ11に“3”が格納され、障害カウンタ
9には間欠障害発生の度にカウントアップされた障害発
生回数が格納されるので、比較器10は2入力の値が等
しい場合、すなわち同一のSCUで1時間内に間欠障害
が3回発生した場合、ソフトウェア命令中断要求機構1
2を起動すべく出力信号をアクティブとする。
For this reason, in such a setting, "3" is stored in the threshold value storage register 11 and the number of fault occurrences counted up each time an intermittent fault occurs is stored in the fault counter 9; When the values of the two inputs are equal, that is, when three intermittent failures occur within one hour in the same SCU, the software instruction interruption request mechanism 1
The output signal is activated to activate the second signal.

【0046】診断制御ソフトウェア39であるソフトウ
ェア命令中断要求機構12は障害SCU5配下のEPU
1、2に対しソフトウェア命令中断通信を送出し、EP
U1、2からソフトウェア命令中断完了通信が返却され
るまで、障害SCU5の切り離しを待ち合わせる。
The software instruction interruption requesting mechanism 12, which is the diagnostic control software 39, is connected to the EPU under the faulty SCU5.
Send software command interruption communication to 1 and 2, EP
Until the software instruction interruption completion communication is returned from U1, 2, the disconnection of the failed SCU 5 is waited for.

【0047】DGP7より送出されたソフトウェア命令
中断要求通信は、通信パス21を介してEPU1、EP
U2に届けられる。
The software command interruption request communication transmitted from the DGP 7 is transmitted via the communication path 21 to the EPU 1, EP
Delivered to U2.

【0048】ここでEPU1のみに着目すると、通信処
理機構17は、到着した通信がソフトウェア命令中断要
求通信であると判断すると、ソフトウェア命令中断割り
込み機構22のソフトウェア命令中断表示フラグ31を
セットする。
Focusing only on the EPU 1, the communication processing unit 17 sets the software instruction interruption display flag 31 of the software instruction interruption interruption mechanism 22 when judging that the arrived communication is the software instruction interruption request communication.

【0049】ソフトウェア命令中断表示フラグ31は、
リクエストハンドラ割込みフラグ32の一部でもあり、
制御ファームウェア33のリクエストハンドラ(リクエ
スト処理ルーチン)34の割り出し要因の一つとなって
いる。
The software instruction interruption display flag 31
It is also a part of the request handler interrupt flag 32,
This is one of the factors for determining the request handler (request processing routine) 34 of the control firmware 33.

【0050】リクエストハンドラ34は、リクエストハ
ンドラ割込みフラグ32がいずれか1つでもセットされ
ていると、ソフトウェア命令間でその要因を割り出し、
要因ごとに用意された制御ファームウェアにより指示さ
れる所定の動作処理を行った後、再びソフトウェアの実
行に制御を移す制御ファームウェア33の一部である。
If any one of the request handler interrupt flags 32 is set, the request handler 34 determines the cause between the software instructions,
This is a part of the control firmware 33 that performs predetermined operation processing instructed by the control firmware prepared for each factor, and then shifts control to software execution again.

【0051】リクエストハンドラ割込みフラグ32の1
つであるソフトウェア命令中断表示フラグ31がセット
されると、前述したように、ソフトウェア命令間でリク
エストハンドラ34に割り出され、再試行可能な状態
で、制御ファームウェア33であるソフトウェア命令中
断完了通知処理26に処理が移る。
1 of the request handler interrupt flag 32
When the software instruction interruption display flag 31 is set, as described above, the software instruction is determined by the request handler 34 between the software instructions, and the software instruction interruption completion notification processing of the control firmware 33 is performed in a retryable state. The process moves to 26.

【0052】ソフトウェア命令中断完了通知処理26
は、障害SCU5の切り離しの処理を待ち合わせている
DGP7に対し、障害SCU配下のEPUでソフトウェ
ア命令の中断が完了したことを通知するため、ソフトウ
ェア命令中断完了通信を通信処理機構17を介してDG
P7に対し発行した後、再試行可能状態であるアイドル
ループに移入し、DGP7によるEPUの切り離しに備
える。
Software instruction interruption completion notification processing 26
Communicates the software instruction interruption completion communication via the communication processing mechanism 17 to the DGP 7 waiting for the process of disconnecting the failed SCU 5 to notify that the interruption of the software instruction has been completed in the EPU under the failed SCU.
After issuing it to P7, it enters an idle loop that is in a retryable state and prepares for disconnection of the EPU by DGP7.

【0053】前述したように、ソフトウェア命令中断要
求機構12は、障害SCU5配下のEPU1、2からの
ソフトウェア命令中断完了通信を全て受信すると、プロ
セッサ切り離し機構13を起動し、障害SCU5の切り
離し、またこれに伴う配下EPU1、2のソフトウェア
ビジブルレジスタ等の凍結、及び切り離し処理を行う。
As described above, when all the software instruction interruption completion messages from the EPUs 1 and 2 under the failed SCU 5 are received, the software instruction interruption requesting mechanism 12 activates the processor disconnecting mechanism 13 to disconnect the failed SCU 5 and Of the software visible registers of the subordinate EPUs 1 and 2 associated with the above, and the disconnection processing.

【0054】プロセッサリリーフ機構14は、切り離さ
れたEPU1、2の凍結された内容を健全なEPU3ま
たはEPU4に引継ぎ、プロセスの継続運転を行う。
The processor relief mechanism 14 takes over the frozen contents of the separated EPUs 1 and 2 to the healthy EPU 3 or EPU 4 and performs the continuous operation of the process.

【0055】上記実施例では、情報処理装置に含まれる
SCUの台数を2台、SCU配下に接続されるEPUの
台数を2台としたが、それぞれ2台以上であっても本発
明が同様にして適用可能であることはいうまでもない。
In the above embodiment, the number of SCUs included in the information processing apparatus is two, and the number of EPUs connected under the SCU is two. Needless to say, it is applicable.

【0056】[0056]

【発明の効果】以上説明したように、本発明によれば、
間欠障害のカウントオーバに伴うSCU切り離しの際、
プロセスをアボートさせることなく、継続運転すること
を可能としたことにより、SCUのハードウェア障害の
発生に伴うシステムダウンなどの重大な被害を有効に防
止できるという効果を奏する。
As described above, according to the present invention,
At the time of SCU disconnection due to intermittent failure count over,
By enabling the continuous operation without aborting the process, it is possible to effectively prevent serious damage such as a system down due to a hardware failure of the SCU.

【0057】これは、本発明においては、EPUで実行
中のソフトウェア命令の中断を待ち合わせ、再試行可能
な状態にしてから、該EPUの切り離しを行うようにし
たためである。
This is because, in the present invention, the EPU is disconnected after waiting for the interruption of the software instruction being executed in the EPU and making it retryable.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の実施の形態を示すブロック図である。FIG. 1 is a block diagram showing an embodiment of the present invention.

【図2】図1を詳細に示す図である。FIG. 2 is a diagram showing FIG. 1 in detail.

【図3】本発明の実施例を示すブロック図である。FIG. 3 is a block diagram showing an embodiment of the present invention.

【図4】図3を詳細に示す図である。FIG. 4 is a diagram showing FIG. 3 in detail.

【図5】従来の障害処理方式によるソフトウェア命令実
行フローを示す図である。
FIG. 5 is a diagram showing a software instruction execution flow according to a conventional failure handling method.

【図6】本発明の障害処理方式によるソフトウェア命令
実行フローを示す図である。
FIG. 6 is a diagram showing a software instruction execution flow according to the fault handling method of the present invention.

【符号の説明】[Explanation of symbols]

1、2、3、4 演算処理装置(EPU) 5、6 システム制御処理装置(SCU) 7 診断処理装置(DGP) 8 SCU障害検出機構 9 障害カウンタ 10 比較器 11 閾値(閾値格納レジスタ) 12 ソフトウェア命令中断要求機構 13 プロセッサ切り離し機構 14 プロセッサリリーフ機構 15、16 障害表示機構(EIF) 17、18、19、20 通信処理機構 21 通信パス 22、23、24、25 ソフトウェア命令中断割り込
み機構 26、27、28、29 ソフトウェア命令中断機構 30 診断パス 31 ソフトウェア命令中断表示フラグ 32 リクエストハンドラ割り込みフラグ 33 制御ファームウェア 34 リクエストハンドラ 35 システム設定情報 36 タイマ値 37 閾値 38 タイマ 39 制御ソフトウェア 40 サブブロック(1) 41 サブブロック(2) 42 サブブロック(3) 43 サブブロック(4) 44 サブブロック(5) 45 サブブロック(6)
1, 2, 3, 4 arithmetic processing unit (EPU) 5, 6 system control processing unit (SCU) 7 diagnostic processing unit (DGP) 8 SCU failure detection mechanism 9 failure counter 10 comparator 11 threshold (threshold storage register) 12 software Instruction interruption request mechanism 13 Processor disconnection mechanism 14 Processor relief mechanism 15, 16 Fault indication mechanism (EIF) 17, 18, 19, 20 Communication processing mechanism 21 Communication path 22, 23, 24, 25 Software instruction interruption interrupt mechanism 26, 27, 28, 29 Software instruction interruption mechanism 30 Diagnostic pass 31 Software instruction interruption display flag 32 Request handler interrupt flag 33 Control firmware 34 Request handler 35 System setting information 36 Timer value 37 Threshold 38 Timer 39 Control software 40 Block (1) 41 sub-block (2) 42 sub-blocks (3) 43 sub-blocks (4) 44 sub-blocks (5) 45 sub-block (6)

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.6,DB名) G06F 11/14 310 G06F 11/20 310──────────────────────────────────────────────────続 き Continued on the front page (58) Field surveyed (Int.Cl. 6 , DB name) G06F 11/14 310 G06F 11/20 310

Claims (2)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】システム制御装置(以下「SCU」とい
う)における間欠故障の所定回の発生により、障害SC
Uの切り離しが行われる際に、前記障害SCU配下の
ての演算処理装置(以下「EPU」という)にソフトウ
ェア命令中断要求を送出することにより、前記EPUで
実行中のソフトウェア命令を終了するまで待ち合わせ、
前記障害SCU配下の全てのEPUを再試行可能な状態
としてから前記SCUの切り離しを行い、前記SCU配
下の前記EPUで実行していたプロセスのプロセッサリ
リーフ処理を行う、 ことを特徴とする障害処理方式。
A system controller (hereinafter, referred to as "SCU") generates a faulty SC by a predetermined number of intermittent faults.
When disconnecting the U is performed, all of said subordinate disorders SCU
By sending a software instruction interruption request to all the arithmetic processing units (hereinafter referred to as “EPU”), it waits until the software instruction being executed in the EPU is completed,
Disconnecting the SCU after setting all the EPUs under the failed SCU to be in a retryable state, and performing a processor relief process of a process executed by the EPU under the SCU. .
【請求項2】SCUの障害を監視し前記SCUの間欠障
害を計数するカウンタのカウント値が予め定めた所定の
閾値を超えた際に、障害SCU配下の全てのEPUにて
実行中のソフトウェア命令を中断させ、前記EPUが再
試行可能状態となるまでの待ち合わせを行うためにソフ
トウェア命令中断要求を前記障害SCU配下の全ての
PUに送出する診断処理手段を備え、 前記EPUは、前記ソフトウェア命令中断要求に基づ
き、実行中のソフトウェア命令が終了後、ソフトウェア
命令中断完了を前記診断処理手段に通知し、次の命令を
実行せずにアイドルループを行うことで再試行可能状態
での切り離しの準備を為し、 前記診断処理手段は、前記障害SCU配下の全てのEP
Uが再試行可能状態になった段階で前記障害SCUと配
下の前記EPUの切り離しを行い、前記障害SCU配
下のEPUで実行していたプロセスを健全なEPUにて
継続実行するように制御する、 ことを特徴とする障害処理方式。
2. A software instruction being executed in all EPUs under a failed SCU when a count value of a counter for monitoring an SCU failure and counting the intermittent failure of the SCU exceeds a predetermined threshold value. And the EPU restarts
In order to wait until a trial is possible , a software instruction suspend request is issued to all Es under the failed SCU.
A diagnostic processing unit for sending to the PU, the EPU notifies the diagnostic processing unit of the completion of the software instruction interruption after the execution of the software instruction based on the software instruction interruption request, and
By performing an idle loop without performing the preparation, disconnection in a retryable state is prepared, and the diagnostic processing unit performs all the EPs under the failed SCU.
When the U is ready to retry, the failed SCU is allocated.
A fault processing method, wherein the process is separated from the lower EPU and the process executed by the EPU under the faulty SCU is controlled to be continuously executed by a healthy EPU.
JP8115655A 1996-04-12 1996-04-12 Failure handling method Expired - Fee Related JP2814988B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8115655A JP2814988B2 (en) 1996-04-12 1996-04-12 Failure handling method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8115655A JP2814988B2 (en) 1996-04-12 1996-04-12 Failure handling method

Publications (2)

Publication Number Publication Date
JPH09282191A JPH09282191A (en) 1997-10-31
JP2814988B2 true JP2814988B2 (en) 1998-10-27

Family

ID=14668027

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8115655A Expired - Fee Related JP2814988B2 (en) 1996-04-12 1996-04-12 Failure handling method

Country Status (1)

Country Link
JP (1) JP2814988B2 (en)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5688519A (en) * 1979-12-21 1981-07-18 Toshiba Corp System switching device
JPH0792763B2 (en) * 1988-11-16 1995-10-09 日本電気株式会社 Fault handling method
US5185875A (en) * 1989-01-27 1993-02-09 Digital Equipment Corporation Method and apparatus for reducing memory read latency in a shared memory system with multiple processors
JPH02205963A (en) * 1989-01-27 1990-08-15 Digital Equip Corp <Dec> Read break processing
DE69128389T2 (en) * 1990-09-14 1998-06-10 Digital Equipment Corp Read / write pass cycle for storage subsystem
JPH05342083A (en) * 1992-06-11 1993-12-24 Nec Corp Main memory initialization control system

Also Published As

Publication number Publication date
JPH09282191A (en) 1997-10-31

Similar Documents

Publication Publication Date Title
JP2552651B2 (en) Reconfigurable dual processor system
CN108121630B (en) Electronic device, restart method, and recording medium
US5983359A (en) Processor fault recovering method for information processing system
JP2814988B2 (en) Failure handling method
JP3313667B2 (en) Failure detection method and method for redundant system
JP3161444B2 (en) Fault logging system, method, and storage medium storing program
JP2845616B2 (en) Multiprocessor system
JP2679575B2 (en) I / O channel fault handling system
JP2730209B2 (en) I / O control method
JPH1049394A (en) System and method for processing fault
JP3042034B2 (en) Failure handling method
JPH0334037A (en) Processing system for detection of system abnormality
JP3230798B2 (en) Redundant system
JPS6128141B2 (en)
KR100303341B1 (en) Method for recovering busy error of small computer system interface bus
JPH0588944A (en) Input/output control and monitor system for information processing system
JP2922981B2 (en) Task execution continuation method
JPS622334B2 (en)
JPH06324897A (en) Error recovery system for logical unit
JPH04241044A (en) Trouble information gathering system
CN117909042A (en) Method and system for managing system interrupt and task switching based on Cortex-R core
JP2746184B2 (en) Fault logging system
JPS61160156A (en) Fault detecting system of processor
JPS59119451A (en) Diagnosing system of electronic computer system
JPS62106564A (en) Using/spare processor switching control system for information processing system

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19980714

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070814

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080814

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080814

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090814

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090814

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100814

Year of fee payment: 12

LAPS Cancellation because of no payment of annual fees