JPH0293856A - Trouble processing system in multiprocessor system - Google Patents
Trouble processing system in multiprocessor systemInfo
- Publication number
- JPH0293856A JPH0293856A JP63246525A JP24652588A JPH0293856A JP H0293856 A JPH0293856 A JP H0293856A JP 63246525 A JP63246525 A JP 63246525A JP 24652588 A JP24652588 A JP 24652588A JP H0293856 A JPH0293856 A JP H0293856A
- Authority
- JP
- Japan
- Prior art keywords
- processor
- information
- trouble
- failure
- monitoring information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 18
- 238000012423 maintenance Methods 0.000 claims abstract description 18
- 238000011084 recovery Methods 0.000 claims abstract description 18
- 238000001514 detection method Methods 0.000 claims abstract description 16
- 238000012544 monitoring process Methods 0.000 claims description 64
- 238000000034 method Methods 0.000 claims description 15
- 230000003247 decreasing effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
Landscapes
- Multi Processors (AREA)
- Debugging And Monitoring (AREA)
Abstract
Description
【発明の詳細な説明】
〔産業上の利用分野〕
本発明はマルチプロセッサシステムにおける障害処理方
式に関し、特に障害処理用のメンテナンスプロセッサに
よるプロセッサの障害処理方式に関する。DETAILED DESCRIPTION OF THE INVENTION [Field of Industrial Application] The present invention relates to a failure handling method in a multiprocessor system, and more particularly to a processor failure handling method using a maintenance processor for handling failures.
従来、この種のマルチプロセッサシステムにおける障害
処理方式は、外部装置としてマルチプロセノリ・システ
ムが有するプロセッサの個数分の障害監視タイマ装置を
持ち、各プロセッサと障害監視タイマ装置とをl対lに
対応させて、各プロセッサが対応する障害監視タイマ装
置に対して一定時間間隔で出力する信号をプロセッサが
正常であることを示すヘルス信号としていた。Conventionally, a fault handling method in this type of multiprocessor system has as external devices fault monitoring timer devices for the number of processors that the multiprocessor system has, and each processor and fault monitoring timer device are in one-to-one correspondence. In this way, a signal that each processor outputs at fixed time intervals to a corresponding failure monitoring timer device is used as a health signal indicating that the processor is normal.
そして、障害監視タイマ装置は、対応するプロセッサか
らのヘルス信号が途絶えた場合には、プロセッサの異常
の発生、すなわち障害の発生として、対応するプロセッ
サに割込みを起こして障害情報を収集し、障害回復処理
を行っていた。When the health signal from the corresponding processor is interrupted, the fault monitoring timer device determines that an abnormality has occurred in the processor, that is, a fault has occurred, and generates an interrupt to the corresponding processor to collect fault information and recover from the fault. It was being processed.
上述した従来のマルチプロセッサシステムにおける障害
処理方式では、各プロセッサ対応に障害監視タイマ装置
を設けていたので、プロセッサの個数分の障害監視タイ
マ装置が必要になるという欠点がある。In the conventional fault handling method in the multiprocessor system described above, a fault monitoring timer device is provided for each processor, so there is a drawback that fault monitoring timer devices are required for the number of processors.
また、各プロセッサが対応する障害監視タイマ装置に対
してヘルス信号を出力するので、マルチプロセッサシス
テム全体として、障害検出処理のオーバヘッドが大きい
という欠点がある。Furthermore, since each processor outputs a health signal to the corresponding fault monitoring timer device, the multiprocessor system as a whole has a drawback in that the overhead of fault detection processing is large.
さらに、障害監視タイマ装置は、対応するプロセッサの
障害を検出した場合に、障害情報を収集するために障害
が発生したプロセッサに対して割込みを起こして障害情
報を収集するので、正常な障害情報が収集されるとは限
らないという欠点がある。Furthermore, when the fault monitoring timer device detects a fault in the corresponding processor, it generates an interrupt to the faulty processor and collects the fault information, so that normal fault information is not detected. The disadvantage is that it is not always collected.
本発明の目的は、上述の点に鑑み、障害検出および回復
処理を行う専用のメンテナンスプロセッサを設けること
により、マルチプロセッサシステム全体のft荷を軽減
するとともに、障害検出時に細かい障害情報の収集およ
び障害回復処理が行えるマルチプロセッサシステムにお
ける障害処理方式を提供することにある。In view of the above-mentioned points, an object of the present invention is to reduce the ft load of the entire multiprocessor system by providing a dedicated maintenance processor that performs fault detection and recovery processing, and to collect detailed fault information when faults are detected. An object of the present invention is to provide a failure handling method in a multiprocessor system that can perform recovery processing.
本発明のマルチプロセッサシステムにおける障害処理方
式は、各プロセッサの監視情報を格納する監視情報記憶
領域を持つ主記憶と、この主記憶上の監視情報記憶領域
の監視情報を更新する監視情報更新手段を含む複数のプ
ロセッサと、前記主記憶上の監視情報記ta領領域監視
情報を一定時間間隔で読み出すプロセッサタイマ監視手
段と、このプロセッサタイマ監視手段により読み出され
た監視情報を基に前記プロセッサの障害発生を判別する
障害検出手段と、この障害検出手段により障害発生が検
出されたプロセッサの監視情報から障害情報を収集する
情報収集手段と、この情報収集手段により収集された障
害情報を基に障害が発生した前記プロセッサの障害回復
処理を行う回復手段とを含むメンテナンスプロセッサと
を存する。The failure handling method in the multiprocessor system of the present invention includes a main memory having a monitoring information storage area for storing monitoring information of each processor, and a monitoring information updating means for updating the monitoring information in the monitoring information storage area on the main memory. a plurality of processors including a plurality of processors; processor timer monitoring means for reading monitoring information from a monitoring information storage area on the main memory at regular intervals; A fault detection means for determining the occurrence of a fault, an information collection means for collecting fault information from monitoring information of a processor whose occurrence has been detected by the fault detection means, and a fault detection means for detecting a fault based on the fault information collected by the information collection means. and a maintenance processor that performs a recovery process for the processor that has occurred.
本発明のマルチプロセッサシステムにおける障害処理方
式では、主記憶が各プロセッサの監視情報を格納する監
視情報記憶領域を持ち、複数のブL】セッサの監視情報
更新手段が主記憶上の監視情報記憶領域の監視情報を更
新し、メンテナンスプロセッサのプロセッサタイマ監視
手段が上記ta上の監視情報記憶領域の監視情報を一定
時間間隔で読み出し、メンテナンスプロセッサの障害検
出手段がプロセッサタイマ監視手段により読み出された
監視情報を基にプロセッサの障害発生を判別し、メンテ
ナンスプロセッサの情報収集手段が障害検出手段により
障害発生が検出されたプロセッサの監視情報から障害情
報を収集し、メンテナンスプロセッサの回復手段が情報
収集手段により収集された障害情報を基に障害が発生し
たプロセッサの障害回復処理を行う。In the fault handling method in the multiprocessor system of the present invention, the main memory has a monitoring information storage area for storing monitoring information of each processor, and the monitoring information updating means for the plurality of processors is configured to have a monitoring information storage area on the main memory. The processor timer monitoring means of the maintenance processor reads the monitoring information in the monitoring information storage area on ta at regular time intervals, and the failure detection means of the maintenance processor updates the monitoring information read by the processor timer monitoring means. The occurrence of a fault in a processor is determined based on the information, the information collecting means of the maintenance processor collects the fault information from the monitoring information of the processor whose fault has been detected by the fault detecting means, and the recovery means of the maintenance processor collects the fault information using the information collecting means. Performs failure recovery processing for the failed processor based on the collected failure information.
次に、本発明について図面を参照して詳細に説明する。 Next, the present invention will be explained in detail with reference to the drawings.
第1図は、本発明の一実施例のマルチプロセッサシステ
ムにおける障害処理方式の構成を示すブロック図である
。本実施例のマルチプロセッサシステムにおける障害処
理方式は、監視情報更新手段70をそれぞれ含んで構成
される複数のプロセッサl、2.・・・、 N (Nは
正整数)と、プロセッサタイマ監視手段80.障害検出
手段90.情報収集手段100および回復手段105を
含んで構成されるメンテナンスプロセッサIOと、監視
情報記憶領域60を含んで構成される主記憶20と、通
信制御装置30と、入出力制御装置40と、外部記憶装
置50とからその主要部が構成されている。FIG. 1 is a block diagram showing the configuration of a failure handling method in a multiprocessor system according to an embodiment of the present invention. The failure handling method in the multiprocessor system of this embodiment is based on a plurality of processors l, 2, . ..., N (N is a positive integer), and processor timer monitoring means 80. Fault detection means 90. A maintenance processor IO including an information collection means 100 and a recovery means 105, a main memory 20 including a monitoring information storage area 60, a communication control device 30, an input/output control device 40, and an external storage. The main part is composed of the device 50.
障害情報記憶領域60には、各プロセッサl、2−・・
・、Nの監視情報が記憶される。The failure information storage area 60 stores information about each processor l, 2-...
, N monitoring information is stored.
各プロセッサ1.2.・・・、Nの監視情報更新手段7
0は、主記憶20上の監視情報記憶領域60の該当する
監視情報を更新する。Each processor 1.2. ..., N monitoring information update means 7
0 updates the corresponding monitoring information in the monitoring information storage area 60 on the main memory 20.
プロセッサタイマ監視手段80は、一定時間間隔で上記
憶20上の監視情報記憶領域60からプロセノサl、2
.・・・、Nの監視情報を読み出す。The processor timer monitoring means 80 reads processors l, 2 from the monitoring information storage area 60 on the upper storage 20 at fixed time intervals.
.. . . . reads the monitoring information of N.
障害検出手段90は、プロセッサタイマ監視手段80が
上記je20上の監視情報記憶領域60から読み出した
監視情報からプロセッサ1.2.・・・、Nの障害発生
を判別する。The failure detection means 90 detects the processors 1.2, . . . . determines whether a failure has occurred in N.
情報収集手段100は、障害検出手段90によりプロセ
ッサK (Kはl≦MSNの正整数)の障害発生を検出
した場合にプロセッサにの監視情報から障害情報を収集
して、人出力制御装置40を介して外部記憶装置50に
出力する。The information collecting means 100 collects fault information from the processor monitoring information when the fault detecting means 90 detects the occurrence of a fault in the processor K (K is a positive integer of l≦MSN), and controls the human output control device 40 by collecting fault information from the processor monitoring information. The data is output to the external storage device 50 via the external storage device 50.
回復手段105は、↑n報収集手段100により収集さ
れた障害情報を基に障害が検出されたプロセッサにの障
害回復処理を行う。The recovery means 105 performs failure recovery processing on the processor in which a failure has been detected based on the failure information collected by the ↑n information collection means 100.
第2図を参照すると、プロセッサ1.2.・・・Nにお
ける処理は、処理実行ステップ110と、監視情報更新
ステップ120とからなる。Referring to FIG. 2, processors 1.2. . . . The process in N consists of a process execution step 110 and a monitoring information update step 120.
第3図を参照すると、メンテナンスプロセッサ10にお
ける処理は、プロセッサタイマ監視ステップ130と、
監視情報続出しステップ140と、障害検出判別ステッ
プ150と、障害情仰収集ステップ160と、障害回復
処理ステップ170とからなる。Referring to FIG. 3, the processing in the maintenance processor 10 includes a processor timer monitoring step 130;
It consists of a step 140 for generating monitoring information, a step 150 for detecting and determining a failure, a step 160 for collecting information about the failure, and a step 170 for recovering from the failure.
次に、このように構成された本実施例のマルチプ[1セ
ツサシステムにおける障害処理方式の動作について説明
する。Next, the operation of the failure handling method in the multiplex [1 setter system] of this embodiment configured as described above will be explained.
プロセノナ1,2.・・・、Nは、各ブロセノ→)12
・・・、Nが行うべき処理を実行するとくステップ1
10)、監視情報更新手段70により主記憶20上の監
視情報記憶領域60の監視悄¥艮を更新する(ステップ
120)。Prosenona 1, 2. ..., N is each Broseno →) 12
..., step 1 when N executes the processing to be performed.
10) The monitoring information in the monitoring information storage area 60 on the main memory 20 is updated by the monitoring information updating means 70 (step 120).
−・方、メンテナンスプロセッサ10では、プロセッサ
タイマ監視手段80によりプロセッサ1.2Nのタイマ
(メンテナンスプロセッサlOでソフトウェア的に作ら
れているタイマ)を監視して(ステップ+30 ) 、
一定時間間隔で主記憶20」二の監視情報記10領域6
0のから各プロセッサl、2゜Nの監視情報を読み出し
くステップ140)、監視情報記憶領域60から読み出
した各プロセン4ノ゛1.2.・・・、Nの監視情報を
基に障害検出手段90により各プロセッサl、2.・・
・、Nの障害発生の判別を行う (ステップ150)。- On the other hand, in the maintenance processor 10, the processor timer monitoring means 80 monitors the timer of the processor 1.2N (a timer created by software in the maintenance processor IO) (step +30),
Main memory 20”2 monitoring information record 10 area 6 at fixed time intervals
The monitoring information of each processor 1, 2°N is read from the monitoring information storage area 60 (step 140), and the monitoring information of each processor 4, 1.2. . . , N, the failure detection means 90 detects each processor l, 2 .・・・
. , N is determined to have occurred (step 150).
障害検出手段90によりプロセッサにの障害発生が検出
されたならば、(’i’t 報収集手段100により、
障害発生が検出されたプし1セノザにの監視情報から障
害情報を収集して入出力制御装置40を介して外部記憶
装置50に出力しくステップ160)、回復手段105
により11′?報収集手段100によって収集された障
害情報を基にプロセッサにの障害回復処理を行う (ス
テップ170)。障害検出手段90により障害発生が検
出されなかった場合には、そのまま処理を終了する。If the failure detection means 90 detects the occurrence of a failure in the processor, ('i't) the information collection means 100
Collect failure information from the monitoring information of the first sensor in which the failure has been detected and output it to the external storage device 50 via the input/output control device 40 (Step 160), recovery means 105
11′? Based on the fault information collected by the information collection means 100, fault recovery processing is performed on the processor (step 170). If the failure detection means 90 does not detect the occurrence of a failure, the process is immediately terminated.
以上説明したように本発明は、障害検出および回復処理
を行う専用のメンテナンスプロセッサを設けることによ
り、各プロセッサの負荷を軽減することができるととも
にプロセッサの障害発生の検出時に細かい1’?7報収
集および障害回復処理を行うことができるという効果が
ある。As described above, the present invention is capable of reducing the load on each processor by providing a dedicated maintenance processor that performs fault detection and recovery processing, and also makes it possible to fine-tune 1'? This has the advantage of being able to collect seven reports and perform failure recovery processing.
7PI1図は本発明の一実施例のマルチプロセッサシス
テムにおける障害処理方式の構成を示すブロック図、
第2図は第1図中のプロセッサにおける処理を示す流れ
図、
第3図は第1図中のメンテナンスプロセッサにおける処
理を示す流れ図である。
図において、
1.2.・・・、N・・プロセッサ、
10 ・・・・・・・メンテナンスプロセッサ、20
・・・・・・・・主記憶、
30・・・・・・・・通信制御装置、
40・・・・・・・・人出力制御装置、50・・・・・
・・・外部記jfJ装置、60・・・・・・・・監視情
報記jl>領域、70・・・・・・・・監視情報更新手
段、80・・・・・・・・プロセッサタイマ監視手段、
90・・・・・・・・障害検出手段、
100 ・・・・・・・情報収集手段、105 ・
・・・・・・回復手段である。Figure 7PI1 is a block diagram showing the configuration of a failure handling method in a multiprocessor system according to an embodiment of the present invention, Figure 2 is a flowchart showing the processing in the processor in Figure 1, and Figure 3 is a maintenance diagram in Figure 1. It is a flow chart showing processing in a processor. In the figure, 1.2. ..., N...Processor, 10...Maintenance processor, 20
・・・・・・・・・Main memory, 30・・・・・・Communication control device, 40・・・・・・Person output control device, 50・・・・・・
...External record jfJ device, 60...Monitoring information record jl>area, 70...Monitoring information update means, 80...Processor timer monitoring means,
90...Fault detection means, 100...Information collection means, 105.
...It is a means of recovery.
Claims (1)
持つ主記憶と、 この主記憶上の監視情報記憶領域の監視情報を更新する
監視情報更新手段を含む複数のプロセッサと、 前記主記憶上の監視情報記憶領域の監視情報を一定時間
間隔で読み出すプロセッサタイマ監視手段と、このプロ
セッサタイマ監視手段により読み出された監視情報を基
に前記プロセッサの障害発生を判別する障害検出手段と
、この障害検出手段により障害発生が検出されたプロセ
ッサの監視情報から障害情報を収集する情報収集手段と
、この情報収集手段により収集された障害情報を基に障
害が発生した前記プロセッサの障害回復処理を行う回復
手段とを含むメンテナンスプロセッサとを有することを
特徴とするマルチプロセッサシステムにおける障害処理
方式。[Scope of Claims] A main memory having a monitoring information storage area for storing monitoring information of each processor; and a plurality of processors including monitoring information updating means for updating the monitoring information in the monitoring information storage area on the main memory; processor timer monitoring means for reading monitoring information from a monitoring information storage area on the main memory at regular time intervals; and failure detection means for determining occurrence of a fault in the processor based on the monitoring information read by the processor timer monitoring means. an information collecting means for collecting failure information from monitoring information of a processor whose occurrence of a failure has been detected by the failure detection means; and failure recovery of the processor in which a failure has occurred based on the failure information collected by the information gathering means. 1. A failure handling method in a multiprocessor system, comprising: a maintenance processor including a recovery means for performing processing.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63246525A JPH0293856A (en) | 1988-09-30 | 1988-09-30 | Trouble processing system in multiprocessor system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63246525A JPH0293856A (en) | 1988-09-30 | 1988-09-30 | Trouble processing system in multiprocessor system |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0293856A true JPH0293856A (en) | 1990-04-04 |
Family
ID=17149699
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP63246525A Pending JPH0293856A (en) | 1988-09-30 | 1988-09-30 | Trouble processing system in multiprocessor system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0293856A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007249838A (en) * | 2006-03-17 | 2007-09-27 | Fujitsu Ltd | Multiprocessor system and monitoring control method |
-
1988
- 1988-09-30 JP JP63246525A patent/JPH0293856A/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007249838A (en) * | 2006-03-17 | 2007-09-27 | Fujitsu Ltd | Multiprocessor system and monitoring control method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH0293856A (en) | Trouble processing system in multiprocessor system | |
JPH08147030A (en) | Plant monitor device | |
JPS6115239A (en) | Processor diagnosis system | |
JPH08137764A (en) | Software error restoration method and fixed fault detection method of storage device | |
JPS6260019A (en) | Information processor | |
JPH05134998A (en) | Multiprocessor system | |
JP2688368B2 (en) | Error address collection method | |
JPS6290068A (en) | Auxiliary monitor system | |
JPH05143153A (en) | Diagnostic device for failure of controller for industrial plant equipment | |
JPH01205210A (en) | Control facilities trouble monitor | |
JPS5983438A (en) | Program failure detecting system | |
JPH0535542A (en) | Detection system for faulty peripheral device | |
JPS6170645A (en) | Data collecting device for analysis of trouble cause | |
JPH05324367A (en) | Method for recording fault information | |
JPH0883199A (en) | Failure monitor device | |
JPH07248931A (en) | Computer system | |
JPH0458181A (en) | Decentralized processing type radiation monitor system | |
JPH04352041A (en) | Device and method for collecting log information for information processing system | |
JPS6358545A (en) | Information processing system | |
JPS61292457A (en) | Diagnosing method for electronic exchange | |
JPH0237433A (en) | Monitor method for multiprocessor system | |
JPH0895933A (en) | Computer system | |
JPH02294744A (en) | Logical device diagnostic processor | |
JPH0721093A (en) | Abnormality monitor system for direct memory access device | |
JPH01266637A (en) | System monitor controller |