JPH0253171A - Fault countermeasure system for decentralized system - Google Patents

Fault countermeasure system for decentralized system

Info

Publication number
JPH0253171A
JPH0253171A JP63204482A JP20448288A JPH0253171A JP H0253171 A JPH0253171 A JP H0253171A JP 63204482 A JP63204482 A JP 63204482A JP 20448288 A JP20448288 A JP 20448288A JP H0253171 A JPH0253171 A JP H0253171A
Authority
JP
Japan
Prior art keywords
failure
fault
distributed system
output device
distributed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63204482A
Other languages
Japanese (ja)
Inventor
Naoko Uchiyama
尚子 内山
Takahiro Doi
隆弘 土井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP63204482A priority Critical patent/JPH0253171A/en
Publication of JPH0253171A publication Critical patent/JPH0253171A/en
Pending legal-status Critical Current

Links

Landscapes

  • Multi Processors (AREA)

Abstract

PURPOSE:To extremely reduce the work quantity of a maintenance engineer and at the same time to improve the reliability of a decentralized system by performing the transmission/reception between a central system and the decentralized system for faults to quickly cope with a fault at occurrence of this fault. CONSTITUTION:A decentralized system 1 is one of decentralized systems set dispersedly at each place and can be connected to a central system via a public communication circuit 3. An external storage 11 serving as a 1st memory of the system 1 includes a memory area having the capacity large enough to store the fault situation and stores the fault situation in said memory area when a fault occurs in the system 1. When a fault occurs, an operator inputs the information on the occurrence of the fault to the system 2 via a keyboard 12 serving as an input device of the system 1. Thus a CPU 13 serving as a 1st data processor of the system 1 is connected to the system 2 via the circuit 3 at occurrence of the fault and transmits the information on the fault occurrence supplied via the keyboard 12 to the system 2.

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は分散システムの障害対応方式に関し、特に各地
に分散して設置された幾つかの分散システムと、これら
に公衆通信回線で接続することができる中央システムと
を備えた分散システムの障害対応方式に関する。
[Detailed Description of the Invention] [Industrial Application Field] The present invention relates to a failure response system for distributed systems, and in particular to several distributed systems installed in various locations and connection to these systems via public communication lines. This invention relates to a failure response method for a distributed system equipped with a central system capable of handling problems.

〔従来の技術〕[Conventional technology]

第3図は従来の分散システムの障害対応方式における2
障害対応手順の一例を示す流れ図である。
Figure 3 shows two steps in the failure response method of conventional distributed systems.
3 is a flowchart showing an example of a failure handling procedure.

従来の分散システムの障害対応方式は、第3図に示すよ
うに、分散システムに障害が発生した場合に、まず、ス
テップ31で、その分散システムの操作者が何らかの方
法により障害が発生したことを発見し、ステップ32で
、電話などによりその分散システムを熟知した保守員に
連絡するので、ステップ33で、保守員が操作者から外
見を中心とした障害状況を聴取することができる。
As shown in Figure 3, in the conventional fault response method for distributed systems, when a fault occurs in a distributed system, first, in step 31, the operator of the distributed system detects that the fault has occurred in some way. The system is discovered and in step 32 a maintenance engineer who is familiar with the distributed system is contacted by telephone or the like, so that in step 33 the maintenance engineer can hear from the operator about the failure situation, mainly the appearance.

しかし、一般に操作者が分散システムの知識にとぼしく
、障害の詳細状況がわからないので、ステップ34で、
保守員が障害発生地に行き、その分散システムの障害状
況を調査している。
However, since the operator generally has limited knowledge of distributed systems and does not know the detailed situation of the failure, in step 34,
Maintenance personnel go to the location where the failure occurred and investigate the failure status of the distributed system.

そして、ステップ35で、保守員がその分散システムの
障害状況を確認して、装置障害やシステム障害に対する
適切な障害対応を行っている。
Then, in step 35, the maintenance staff checks the failure status of the distributed system and takes appropriate measures to deal with device failures and system failures.

〔発明が解決しようとする課題〕[Problem to be solved by the invention]

上述した従来の分散システムの障害対応方式は、上記の
ように、障害を発生した分散システムの操作者では、障
害状況を的確に伝達できないため、遠地にいる保守員が
現地へ赴き障害状況を確認する必要があり、障害対応を
行うまでに長時間を要するという欠点がある。
The conventional fault response method for distributed systems described above is that the operator of the distributed system where the fault has occurred cannot accurately communicate the fault situation, so maintenance personnel from a distant location go to the site and check the fault situation. This has the disadvantage that it takes a long time to troubleshoot the problem.

また、分散システムの知識にとぼしい操作者からの連絡
のため、実際には、障害ではない場合にも、保守員が現
地へ赴くことも多く、保守員の無駄な作業量も大きいと
いう問題点がある。
In addition, because the operator has limited knowledge of distributed systems, the maintenance staff often have to go to the site even when there is no actual failure, resulting in a large amount of wasted work by the maintenance staff. be.

本発明の目的は、障害発生時に中央システムで障害の分
散システムと送受信して速やかに障害対応を行うことに
より、保守員の作業量を大幅に軽減するとともに、速や
かな障害対応で分散システムの信顆性の向上をはかるこ
とができる分散システムの障害対応方式を提供すること
にある。
The purpose of the present invention is to significantly reduce the amount of work for maintenance personnel by sending and receiving messages from a central system to and from the distributed system in which the failure occurs when a failure occurs, and thereby to significantly reduce the workload of maintenance personnel. The object of the present invention is to provide a fault response method for a distributed system that can improve condylarity.

〔課題を解決するための手段〕[Means to solve the problem]

本発明の分散システムの障害対応方式は、各地に分散し
て設置された複数の分散システムと、前記分散システム
に公衆通信回線で接続することができる中央システムと
を備えた分散システムの障害対応方式において、 (A)障害発生時に障害状況を格納する記憶領域を有す
る第1の記憶装置、 CB)障害発生時に前記中央システムへの障害発生通知
を入力する第1の入力装置、 (C)障害発生時に公衆通信回線で前記中央システムへ
接続して、前記第1の入力装置で入力した障害発生通知
を送信し、前記中央システムから受信した障害状況検索
情報により、前記第1の記憶装置に格納された障害状況
を検索し、その検索結果を前記中央システムに送信し、
前記中央システムから送られた障害対応方法を受信する
第1のデータ処理装置、(D)前記第1のデータ処理装
置で受信した障害対応方法を出力する第1の出力装置、 を前記分散システムのそれぞれに有するとともに、 (E)前記分散システムから送られた障害発生通知を出
力するとともに、前記分散システムから送られた障害状
況の検索結果を出力する第2の出力装置、 (F)前記第2の出力装置に出力された障害発生通知を
見て障害状況検索情報を入力し、前記第2の出力装置に
出力された障害状況の検索結果を見て障害対応方法を入
力する第2の入力装置、 (G)前記分散システムからの障害発生通知を受信して
前記第2の出力装置に渡し、前記第2の入力装置から得
た障害状況検索情報を前記分散システムに送信し、前記
分散システムからの障害状況の検索結果を受信して前記
第2の出力装置に渡し、前記第2の入力装置から得た障
害対応方法を前記分散システムに送信する第2のデータ
処理装置、 を前記中央システムに有することにより構成されている
A failure handling method for a distributed system according to the present invention is a failure handling method for a distributed system comprising a plurality of distributed systems installed in various locations and a central system that can be connected to the distributed systems via a public communication line. (A) a first storage device having a storage area for storing a failure status when a failure occurs; CB) a first input device for inputting a failure occurrence notification to the central system when a failure occurs; (C) a failure occurrence. connects to the central system via a public communication line, transmits the failure occurrence notification input with the first input device, and stores the failure status search information in the first storage device based on the failure status search information received from the central system. searching for the fault status and sending the search results to the central system;
(D) a first data processing device that receives the fault handling method sent from the central system; and (D) a first output device that outputs the fault handling method received by the first data processing device. (E) a second output device that outputs a failure occurrence notification sent from the distributed system and a search result of the failure status sent from the distributed system; (F) a second output device that outputs a failure status search result sent from the distributed system; a second input device for inputting failure situation search information by looking at the failure occurrence notification outputted to the output device; and inputting a failure handling method by looking at the failure situation search results outputted to the second output device; , (G) receiving a failure occurrence notification from the distributed system and passing it to the second output device, transmitting the failure situation search information obtained from the second input device to the distributed system, and transmitting the failure notification from the distributed system to the second output device; a second data processing device that receives a search result of a failure status of the computer and passes it to the second output device, and transmits a failure handling method obtained from the second input device to the distributed system; It is constituted by having.

〔実施例〕〔Example〕

次に本発明の実施例について図面を参照して説明する。 Next, embodiments of the present invention will be described with reference to the drawings.

第1図は本発明の分散システムの障害対応方式の一実施
例を示すブロック図である。
FIG. 1 is a block diagram showing an embodiment of a failure handling method for a distributed system according to the present invention.

第1図に示すように、分散システム1は、各地に分散し
て設置された複数の分散システムの一つであり、中央シ
ステム2に公衆通信回線3で接続することができる。
As shown in FIG. 1, a distributed system 1 is one of a plurality of distributed systems installed in various locations, and can be connected to a central system 2 via a public communication line 3.

分散システム1に有する第1の記憶装置である外部記憶
装置11は、障害発生時の障害状況を格納するために充
分の容量を有する記憶領域を持ち、分散システム1の障
害発生時にその記憶領域上に障害状況を保存している。
The external storage device 11, which is the first storage device included in the distributed system 1, has a storage area with sufficient capacity to store the failure status when a failure occurs, and the external storage device 11 has a storage area with sufficient capacity to store the failure status when a failure occurs in the distributed system 1. The failure status is saved in .

一方、障害が発生した時、操作者は、分散システム1に
有する第1の入力装置であるキーボード12から、保守
員に知らせるため、中央システム2への障害発生通知を
入力する。
On the other hand, when a failure occurs, the operator inputs a failure occurrence notification to the central system 2 from the keyboard 12, which is the first input device included in the distributed system 1, in order to notify maintenance personnel.

このため、分散システム1に有する第1のデータ処理装
置であるCPU13は、障害発生時に公衆通信回線3で
中央システム2へ接続して、キーボード12で入力した
障害発生通知を中央システム2に送信している9 第2図は分散システム1と中央システム2との間で行わ
れる送受信情報の順序を示す送受信情報説明図である。
For this reason, when a failure occurs, the CPU 13, which is the first data processing device included in the distributed system 1, connects to the central system 2 via the public communication line 3 and sends the failure occurrence notification entered on the keyboard 12 to the central system 2. FIG. 2 is an explanatory diagram of information transmitted and received, showing the order of information transmitted and received between the distributed system 1 and the central system 2. As shown in FIG.

第2図に示すように、まず、障害発生通知のメツセージ
M1か、分散システム1から中央システム2へ送られる
As shown in FIG. 2, first, a message M1 notifying the occurrence of a failure is sent from the distributed system 1 to the central system 2.

そこで、中央システム2に有する第2のデータ処理装置
であるCPU21は、分散システム1からの障害発生通
知を受信して、中央システム2に有する第2の出力装置
の一つであるCRT22に渡している。
Therefore, the CPU 21, which is the second data processing device included in the central system 2, receives the failure notification from the distributed system 1 and passes it to the CRT 22, which is one of the second output devices included in the central system 2. There is.

CRT22は、分散システム1から送られた障害発生通
知を表示して、保守員に知らせている。
The CRT 22 displays the failure occurrence notification sent from the distributed system 1 to notify maintenance personnel.

このため、保守員は、中央システム2に有する第2の入
力装置であるキーボード23から、CRT22に表示さ
れた障害発生通知を見て障害状況検索情報を入力する。
Therefore, the maintenance worker inputs failure situation search information from the keyboard 23, which is the second input device included in the central system 2, while viewing the failure occurrence notification displayed on the CRT 22.

そこで、CPU21は、キーボード23から得た障害状
況検索情報を、メツセージM2として、′公衆通信回線
3で分散システム1に送信している。
Therefore, the CPU 21 transmits the failure status search information obtained from the keyboard 23 to the distributed system 1 via the public communication line 3 as a message M2.

中央システム2から障害状況検索情報を受信したCPU
13は、外部記憶装置11に格納された障害状況を検索
し、その障害状況の検索結果を、メツセージM3−1.
・・・・・・M3−nとして、必要なだけ中央システム
2に送信している。
CPU that received failure status search information from central system 2
13 searches the failure status stored in the external storage device 11, and sends the search result of the failure status to the message M3-1.
. . . As M3-n, it is transmitted to the central system 2 as much as necessary.

このため、CPU21は、分散システム1からの障害状
況の検索結果を受信して、CRT22および中央システ
ム2に有するもう一つの第2の出力装置であるプリンタ
24に渡している。
Therefore, the CPU 21 receives the search results of the failure status from the distributed system 1 and passes them to the CRT 22 and the printer 24, which is another second output device included in the central system 2.

従って、分散システム1から送られて来た障害状況の検
索結果を、CRT22が表示するとともに、プリン゛り
24が出力して、保守員に知らせている。
Therefore, the CRT 22 displays the search result of the failure status sent from the distributed system 1, and the printer 24 outputs it to inform the maintenance personnel.

これらの障害状況の検索結果を見た保守員は、キーボー
ド23から障害対応方法を入力している。
After seeing the search results for these failure situations, the maintenance worker inputs the failure handling method from the keyboard 23.

そこで、CPU21は、キーボード23から入力した障
害対応方法を、メツセージM4として、分散システム1
に送信することとなる。
Therefore, the CPU 21 sends the fault response method input from the keyboard 23 to the distributed system 1 as a message M4.
It will be sent to.

このため、CPU113は、中央システム2から送られ
た障害対応方法を受信して、分散システム1に有する第
1の出力装置であるCRT14に表示して、操作者に知
らせるとともに、障害対応方法の受信確認を、メツセー
ジM5として、中央システム2に送信して公衆通信回線
3を切断して終了している。
Therefore, the CPU 113 receives the fault handling method sent from the central system 2, displays it on the CRT 14, which is the first output device included in the distributed system 1, to notify the operator, and also receives the fault handling method. The confirmation is sent to the central system 2 as a message M5, and the public communication line 3 is disconnected.

以上述べたように、本実施例の分散システムの障害対応
方式は、障害発生時に中央システムで障害の分散システ
ムと送受信して速やかに障害対応を行うことにより、保
守員の作業蓋を大幅に軽減するとともに、速やかな障害
対応で分散システムの信頼性の向上をはかることができ
る。
As described above, the fault response method of the distributed system of this embodiment greatly reduces the workload of maintenance personnel by sending and receiving messages from the central system to and from the faulty distributed system when a fault occurs, and quickly responding to the fault. At the same time, it is possible to improve the reliability of the distributed system by quickly responding to failures.

〔発明の効果〕〔Effect of the invention〕

以上説明したように、本発明の分散システムの障害対応
方式は、障害発生時に中央システムで障害の分散システ
ムと送受信して速やかに障害対応を行うことにより、保
守員の作業量を大幅に軽減するとともに、速やかな障害
対応で分散システムの信頼性の向上をはかることができ
るという効果を有している。
As explained above, the fault response method of the distributed system of the present invention greatly reduces the workload of maintenance personnel by sending and receiving messages from the central system to and from the faulty distributed system when a fault occurs, and promptly responding to the fault. At the same time, it has the effect of improving the reliability of the distributed system by quickly responding to failures.

順の一例を示す流れ図である。It is a flowchart which shows an example of order.

1・・・・・・分散システム、2・旧・・中央システム
、3・・・・・・公衆通信回線、11・・・・・・外部
記憶装置、12・・・・・・キーボード、13・旧・・
cPU、14 ・−・−CRT、21・・・・・・CP
U、22・・・・・・CRT、23・・・・・・キーボ
ード、24・・・・・・プリンタ。
1... Distributed system, 2... Old central system, 3... Public communication line, 11... External storage device, 12... Keyboard, 13・Old...
cPU, 14...-CRT, 21...CP
U, 22...CRT, 23...Keyboard, 24...Printer.

Claims (1)

【特許請求の範囲】  各地に分散して設置された複数の分散システムと、前
記分散システムに公衆通信回線で接続することができる
中央システムとを備えた分散システムの障害対応方式に
おいて、 (A)障害発生時に障害状況を格納する記憶領域を有す
る第1の記憶装置、 (B)障害発生時に前記中央システムへの障害発生通知
を入力する第1の入力装置、 (C)障害発生時に公衆通信回線で前記中央システムへ
接続して、前記第1の入力装置で入力した障害発生通知
を送信し、前記中央システムから受信した障害状況検索
情報により、前記第1の記憶装置に格納された障害状況
を検索し、その検索結果を前記中央システムに送信し、
前記中央システムから送られた障害対応方法を受信する
第1のデータ処理装置、 (D)前記第1のデータ処理装置で受信した障害対応方
法を出力する第1の出力装置、 を前記分散システムのそれぞれに有するとともに、 (E)前記分散システムから送られた障害発生通知を出
力するとともに、前記分散システムから送られた障害状
況の検索結果を出力する第2の出力装置、 (F)前記第2の出力装置に出力された障害発生通知を
見て障害状況検索情報を入力し、前記第2の出力装置に
出力された障害状況の検索結果を見て障害対応方法を入
力する第2の入力装置、 (G)前記分散システムからの障害発生通知を受信して
前記第2の出力装置に渡し、前記第2の入力装置から得
た障害状況検索情報を前記分散システムに送信し、前記
分散システムからの障害状況の検索結果を受信して前記
第2の出力装置に渡し、前記第2の入力装置から得た障
害対応方法を前記分散システムに送信する第2のデータ
処理装置、 を前記中央システムに有することを特徴とする分散シス
テムの障害対応方式。
[Scope of Claims] In a failure response method for a distributed system comprising a plurality of distributed systems installed in various locations and a central system that can be connected to the distributed systems via public communication lines, (A) a first storage device having a storage area for storing failure status when a failure occurs; (B) a first input device for inputting a failure notification to the central system when a failure occurs; (C) a public communication line when a failure occurs. connects to the central system, transmits the failure occurrence notification inputted with the first input device, and retrieves the failure status stored in the first storage device using the failure status search information received from the central system. search and send the search results to said central system;
a first data processing device that receives the fault handling method sent from the central system; (D) a first output device that outputs the fault handling method received by the first data processing device; (E) a second output device that outputs a failure occurrence notification sent from the distributed system and a search result of the failure status sent from the distributed system; (F) a second output device that outputs a failure status search result sent from the distributed system; a second input device for inputting failure situation search information by looking at the failure occurrence notification outputted to the output device; and inputting a failure handling method by looking at the failure situation search results outputted to the second output device; , (G) receiving a failure occurrence notification from the distributed system and passing it to the second output device, transmitting the failure situation search information obtained from the second input device to the distributed system, and transmitting the failure notification from the distributed system to the second output device; a second data processing device that receives a search result of a failure status of the computer and passes it to the second output device, and transmits a failure handling method obtained from the second input device to the distributed system; A fault response method for a distributed system characterized by the following.
JP63204482A 1988-08-16 1988-08-16 Fault countermeasure system for decentralized system Pending JPH0253171A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63204482A JPH0253171A (en) 1988-08-16 1988-08-16 Fault countermeasure system for decentralized system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63204482A JPH0253171A (en) 1988-08-16 1988-08-16 Fault countermeasure system for decentralized system

Publications (1)

Publication Number Publication Date
JPH0253171A true JPH0253171A (en) 1990-02-22

Family

ID=16491256

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63204482A Pending JPH0253171A (en) 1988-08-16 1988-08-16 Fault countermeasure system for decentralized system

Country Status (1)

Country Link
JP (1) JPH0253171A (en)

Similar Documents

Publication Publication Date Title
US5408218A (en) Model based alarm coordination
CN102026042A (en) Keep-alive and self-healing method and device for advanced telecom computing architecture control surface
JPH0253171A (en) Fault countermeasure system for decentralized system
JP2996501B2 (en) Equipment control method and device
KR100241557B1 (en) Data processing method of dual network
KR100713392B1 (en) Apparatus and method for transmitting event between task
CN107276812B (en) Fault diagnosis device, system and method for Level2 layer redundant equipment of nuclear power station
JP2575943B2 (en) Data transmission equipment
JP4076633B2 (en) Abnormality monitoring system for pump station
JP2937595B2 (en) Power system monitoring and control device
JP2001075640A (en) Semiconductor substrate processor and semiconductor process management system
KR0121970B1 (en) Common-bus managing method in an exchanger
JPH10107792A (en) Server monitor
JP3037802B2 (en) Remote monitoring device
JP2530731B2 (en) Communication line test equipment
JPH0832706A (en) Building group remote management device
JPH04335463A (en) Composite network managing system
JPH07212361A (en) Distribution system of fault information
JP2000020427A (en) Monitoring server/client system
JPH03184154A (en) Network control system
JPH08265879A (en) Monitor information notice system
JP3325418B2 (en) Building remote monitoring device
JPS59221756A (en) Fault communication device
JPH04186465A (en) On-line fault information system
JPH03169128A (en) Fault output system