JPS58144263A - Fault processing system for dispersion processing system - Google Patents

Fault processing system for dispersion processing system

Info

Publication number
JPS58144263A
JPS58144263A JP57026043A JP2604382A JPS58144263A JP S58144263 A JPS58144263 A JP S58144263A JP 57026043 A JP57026043 A JP 57026043A JP 2604382 A JP2604382 A JP 2604382A JP S58144263 A JPS58144263 A JP S58144263A
Authority
JP
Japan
Prior art keywords
host
program
failure
file
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP57026043A
Other languages
Japanese (ja)
Inventor
Masahiro Sakata
正博 坂田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP57026043A priority Critical patent/JPS58144263A/en
Publication of JPS58144263A publication Critical patent/JPS58144263A/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Retry When Errors Occur (AREA)
  • Hardware Redundancy (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)
  • Computer And Data Communications (AREA)

Abstract

PURPOSE:To reduce fault correcting time, by executing automatic diagnosis, automatic memory dumping and automatic IPL under the control of a console service processor in a dispersion processing system having a host and plural subhosts. CONSTITUTION:In addition to a console service processor 22 and a service file, a program file 23, a diagnosis program file 24 and a memory dumping file 25 are connected to a subhost 2. When a fault is generated in normal operation, the console service processor 22 detects the fault, loads the diagnosis program file 24, the memory dumping file 25 and the program file 23 and then, after the automatic diagnosis for hardware and automatic memory dumping and automatic initial program loading for software, reports these results to a host 1. Thus the fault can be discriminated in the host 1 side and the repairing and recovering time is reduced, improving the maintenance efficiency and system reliability.

Description

【発明の詳細な説明】 本発明はホストと複数のサブホストを有する分散処理シ
ステムに係抄、特にサブホストの障害修復時間短縮化、
保守効率向上、システム信頼性の向上に好適な障害処理
方式に関する。
DETAILED DESCRIPTION OF THE INVENTION The present invention relates to a distributed processing system having a host and a plurality of subhosts.
This invention relates to a failure handling method suitable for improving maintenance efficiency and system reliability.

従来技術 ゛ ホストと複数のサブホストを有する分散処理システ
ムにおいて、サブホストのオペレータ不在、保守要員不
在等を前提とした無人化運転方式が従来より種々試みら
れている.しかし、サブホストニハハードウエアの自動
診断、ソフトウェアの自動メモリダンプ、自動イニシャ
ルプログラムロード(IPL)機能等が欠如しているた
め、障害発生をホスト等で検知すると、保守要員がサブ
ホストへ出動しているのが現況で、次のような問題があ
った。
Prior Art In distributed processing systems that have a host and multiple sub-hosts, various unmanned operation methods have been attempted based on the assumption that sub-host operators and maintenance personnel are absent. However, since the subhost lacks automatic hardware diagnosis, automatic software memory dump, and automatic initial program load (IPL) functions, maintenance personnel are dispatched to the subhost when a failure is detected on the host. The current situation is as follows.

(1)  ハードウェアの障害かソフトウェアの障害か
が出動時点で不明であるため、ノ・−ドウエア、ソフト
ウェア両面の保守要員の出動が必要であリ、さらに、保
守要員がサブホストの設置場所に到着後、障害切分けが
開始されることになるため、障害切分は時間が必要とな
る。
(1) Since it is unknown at the time of dispatch whether it is a hardware failure or a software failure, it is necessary to dispatch maintenance personnel for both hardware and software, and furthermore, the maintenance personnel arrive at the location where the sub-host is installed. After that, troubleshooting will start, so troubleshooting will take time.

(2)  ハードウェアの障害時でも、保守要員出動時
に障害部位が指摘されていないため、保守要員がサブホ
ストの設置場所に到着後、障害部位を指摘し、然る後保
守用部品を調達する為、障害回復時間が長くなる。
(2) Even in the event of a hardware failure, the faulty part is not pointed out when maintenance personnel are dispatched, so after the maintenance staff arrives at the sub-host installation location, they can point out the faulty part and then procure maintenance parts. , the failure recovery time becomes longer.

(3)  ソフトウェアの障害は、再IPLKよりシス
テムが動作する可能性が高いが、自動再IPL及び後刻
でのソフトウェア障害解析のための自動メモリダンプ機
能が存在しない為、システム信頼性上、あるいはソフト
ウェア品質向上の上で問題がある。
(3) In the case of software failure, the system is more likely to operate than re-IPLK, but since there is no automatic re-IPL or automatic memory dump function for later software failure analysis, system reliability or software There are problems in improving quality.

発明の目的 この発明の目的とするところは、前記の如き従来技術の
間趙点を解決することであり、分散処理システムにおけ
る障害修復時間の短縮化、保守効率向と1 システム信
頼性の向上を図るととKある。
Purpose of the Invention The purpose of the present invention is to solve the drawbacks of the prior art as described above, and to shorten the time for troubleshooting, improve maintenance efficiency, and improve system reliability in distributed processing systems. There is a plan.

仁の発明の%徴とするところは、サブホストに診断用プ
ログラム(MD)、メモリダンプ用プログラム、通常の
プログラムを格納した磁気ディスク装置等のファイルメ
モリを持ち、コンソールサービスプロセッサの制御の下
に自動診断、自動メモリダンプ、自動IPLを実行させ
ることにより、障害修復時間の短縮化、保守効率向上、
システム信頼性向上を可能ならしめるものである。
The key feature of Jin's invention is that the subhost has a file memory such as a magnetic disk device that stores a diagnostic program (MD), a memory dump program, and regular programs, and automatically runs under the control of a console service processor. By running diagnostics, automatic memory dump, and automatic IPL, fault recovery time is shortened, maintenance efficiency is improved,
This makes it possible to improve system reliability.

実施例の説明 第1図はホストと複数のサブホストを有する分散処理シ
ステムのブロック図である0図中、1はホスト処理装置
(以下、ホストと略称する)であり、該ホス1通信回線
11を介して各々サブホスト処理装置2(以下、サブホ
ストと略称する)が接続され、各サブホスト8には端末
回線12を介して端末装置群8が接続されている。
DESCRIPTION OF THE EMBODIMENTS FIG. 1 is a block diagram of a distributed processing system having a host and a plurality of sub-hosts. A sub-host processing device 2 (hereinafter abbreviated as sub-host) is connected to each sub-host processing device 2 via a terminal line 12, and a terminal device group 8 is connected to each sub-host 8 via a terminal line 12.

第2図は本発明の一実施例のブロック図で、便宜上、ホ
ス′トと1つのサブホストとの接続のみを示したもので
ある。第8図において、サブホスト2にはコンソールサ
ービスプロセッサ22及び業務用ファイル以外に、プロ
グラムファイル28、診断プログラム(MD)用ファイ
ル24、メモリダンプ用ファイル25が接続されている
。こ\で、メモリダンプとはメインメモリ上の内容(プ
ログラム、データ等)を外部記憶装置へ出力することで
、ソフトウェア障害の解析に非常に有効なものである。
FIG. 2 is a block diagram of one embodiment of the present invention, and for convenience only shows the connection between the host and one sub-host. In FIG. 8, in addition to a console service processor 22 and business files, a program file 28, a diagnostic program (MD) file 24, and a memory dump file 25 are connected to the subhost 2. Here, a memory dump is an output of the contents (programs, data, etc.) in the main memory to an external storage device, and is very effective in analyzing software failures.

メモリダンププログラムはファイル25よりメインメモ
リにロードされた後、メモリダンプを実行する。なお、
21はサブポス)Z内のハードコア部を示す。第8図は
該実施例の動作を説明するためのフローチャー1である
The memory dump program executes a memory dump after being loaded into the main memory from the file 25. In addition,
21 indicates the hardcore section in Subpos) Z. FIG. 8 is a flowchart 1 for explaining the operation of this embodiment.

サブホスト2の運転は、コンソールサービスプロセッサ
22又はホスト1からの起動により、プログラムファイ
ル28に格納さねているプログラムがサブホス)2にロ
ードされて開始される。通常運転では、端末装置118
よりメツセージを久方し、それがサブホスト2に到着後
、サブホスト内で一定の処理を実行し、さらにホス)1
での処理を実施すべくメツセージはサブホスト2よりホ
ストlへ転送される。処理完了後は、ホストlより応答
メツセージをサブホスト2を経由して膚末装+18へ送
信する。
Operation of the sub-host 2 is started by loading the program stored in the program file 28 into the sub-host 2 upon activation from the console service processor 22 or the host 1. During normal operation, the terminal device 118
After the message arrives at subhost 2, certain processing is executed within the subhost, and then the message is sent to host 1).
The message is transferred from subhost 2 to host 1 for processing. After the processing is completed, the host 1 sends a response message to the dermatology + 18 via the sub-host 2.

次に、通常運転中に何らかの障害が発生した場合の動作
について説明する。通常運転中にサブホス)2の障害で
あるマシンチェックが発生した場合、コンソールサービ
スプロセッサ22はマシンチェックを検出後、MD7ア
イルz4より診断プログラムをロードする。ロードされ
た診断プログ’)ムはバー)’:rア部81全81して
サブホスト2の診断を実行後、診断結果をホス)lへ転
送する。
Next, an explanation will be given of the operation when some kind of failure occurs during normal operation. When a machine check, which is a failure of the sub-host) 2, occurs during normal operation, the console service processor 22, after detecting the machine check, loads a diagnostic program from the MD7 aisle z4. The loaded diagnostic program ')' executes the diagnosis of the sub-host 2 by running the entire system 81 and transfers the diagnosis result to the host.

診断結果を受信し九ホス)1では、障害が発生したサブ
ホスト名と診断結果を保守要員に出力する。
After receiving the diagnosis result, in step 1), the name of the sub-host where the failure occurred and the diagnosis result are output to the maintenance personnel.

連絡を受けた′保守要員は、該結果によりサブホスト2
の修復を実施する。
The maintenance personnel who received the notification will
carry out repairs.

次に、通常運転中にプログラム障害であるプログラムル
ープ等が発生し九場合の動作について説明する。通常運
転中にプログラム障害であるプログラムループ等が発生
し九場合、コンソールサービスプロセッサ82はプログ
ラムループ壽を検出後、メモリタ”ンプ用ファイル25
よりメモリダンププログラムをロードする。ロードされ
たメモリダンププログラムにより、メモリダンプ用ファ
イル25へメモリダンプを実行する。コンソールサービ
スプロセッサ2zはメモリダンプ完了を検知後、プログ
ラムファイル2Bより再度プログラムをロードし、サブ
ホスlの自勘運転再開始を図る。ここで、サブホスト2
のシステム再開始が正常に実行された場合は、ホス)1
とサブホスト8間の通信回線11を使用して、メモリダ
ンプ用ファイルz5よりメモリダンプ内容がホストlへ
転送され、プログラム障害原因の解析が行われる。
Next, the operation in the case where a program failure such as a program loop occurs during normal operation will be described. If a program failure, such as a program loop, occurs during normal operation, the console service processor 82 detects the program loop and then stores it in the memory stamp file 25.
Load the memory dump program. The loaded memory dump program executes memory dump to the memory dump file 25. After the console service processor 2z detects the completion of the memory dump, it reloads the program from the program file 2B and attempts to restart the subhost I's independent operation. Here, subhost 2
If the system restart is successful, the host) 1
Using the communication line 11 between the host 1 and the sub-host 8, the memory dump contents are transferred from the memory dump file z5 to the host 1, and the cause of the program failure is analyzed.

一方、サブホスト2のシステム再開始が不成功であった
場合は、ホストlからのヘルスチェックにより障害が検
出され、障害修復処理が開始される。
On the other hand, if the system restart of sub-host 2 is unsuccessful, a failure is detected by a health check from host 1, and failure repair processing is started.

すなわち、分散処理システムにおいては、ホストからサ
ブホストへ診断データを送信し、該診断データに対する
サブホストからの回答をホストでチェックすることによ
り、ホスト側でサブホストの障害を検知する。これがヘ
ルスチェックである。
That is, in a distributed processing system, a failure in a subhost is detected on the host side by transmitting diagnostic data from the host to the subhost and checking the response from the subhost to the diagnostic data. This is a health check.

次に、通常運転中に周辺装置の障害である■0エラーが
発生した場合の動作について説明する。
Next, an explanation will be given of the operation when a 0 error, which is a failure of a peripheral device, occurs during normal operation.

通常運転中にIO障害が発生し九場合、サブホスト8内
のオペレーティングシステムはIO障害検出後、該サブ
ホストが動作可能か不可能かを判定する。サブホストが
動作可能であれば、ホストlへIO障害が発生した旨の
メツセージを送信後、通常運転を続行する。該IO障害
によりサブホスト2の運転が不可能な場合、ホスト1か
らのヘルスチェックにより障害が検出され、障害修復処
理が開始される。
If an IO failure occurs during normal operation, the operating system within the sub-host 8 determines whether the sub-host is operable or not after detecting the IO failure. If the sub-host is operational, it sends a message to host l to the effect that an IO failure has occurred, and then continues normal operation. If the sub-host 2 cannot be operated due to the IO failure, the failure is detected by a health check from the host 1, and failure repair processing is started.

発明の効果 以上の説明から明らかな如く、本発明によれば、次の様
な効果が得られる。
Effects of the Invention As is clear from the above explanation, according to the present invention, the following effects can be obtained.

(1)  遠隔地にあるサブホストで障害が発生したと
しても、処理装置障害、プログラム障害、周辺装置障害
がホスト側で識別可能となり、出動する保守要員の初期
動作が的確なものとなる。
(1) Even if a failure occurs in a sub-host located in a remote location, processing device failures, program failures, and peripheral device failures can be identified on the host side, and the initial actions of dispatched maintenance personnel will be accurate.

(2)処理装置障害の場合、持8する保守部品は的確で
あるため、保守効率、経済性が向上する。
(2) In the event of a processing device failure, the maintenance parts available are accurate, so maintenance efficiency and economic efficiency are improved.

(3)処理装置障害の場合、修復時間が短縮される。(3) In the case of a processing device failure, the repair time is shortened.

(4)  プログラム障吾の場合、自動的にメモリダン
プを取得する為、回復時間が短縮される。
(4) In the case of program failure, a memory dump is automatically obtained, reducing recovery time.

(5)  プログラム障害の場合、自動IPLを実行す
るため、タイミングに関係したプログラム障害叫ではシ
ステム停止することなく運転続行可能となり、システム
信頼性が向上する。
(5) In the case of a program failure, automatic IPL is executed, so even if a timing-related program failure occurs, operation can be continued without stopping the system, improving system reliability.

(6)  上記(5)の場合でもメモリダンプ内容をホ
ストへ送信し、プログラム障害原因解析が可能であり、
プログラム品質向上に有益となる。
(6) Even in the case of (5) above, it is possible to send the memory dump contents to the host and analyze the cause of the program failure.
This is useful for improving program quality.

(7)醐辺装置il障害の場合でもサブホストの動作が
可能な場合、ホストへ障害連絡がなされているので適切
な保守が可能となる。
(7) If the sub-host is able to operate even in the case of a failure in the Sapphire device, appropriate maintenance is possible because the host is notified of the failure.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は本発明で対象とする分散処理システムのブロッ
ク図、第2′図は本発明の一実施例のブロック図、第8
図は第2図の動作を説明する九めの流れ図である。 l・・・′ホスト、2・・・サブホスト、8・・・端末
装置、11・・・通信回線、12・・・端末回線、21
・・・ハードコアm、22・・・コンソールサービスプ
ロセッサ、z8・・・プログラムファイル、24・・・
診断プログラム用ファイル、25・・・メモリダンプ用
ファイル。 第1 図 3     35     5        5  
   3第2図
FIG. 1 is a block diagram of a distributed processing system targeted by the present invention, FIG. 2' is a block diagram of an embodiment of the present invention, and FIG.
This figure is the ninth flowchart explaining the operation of FIG. 2. l...' host, 2... subhost, 8... terminal device, 11... communication line, 12... terminal line, 21
...hardcore m, 22...console service processor, z8...program file, 24...
Diagnosis program file, 25...Memory dump file. 1st Figure 3 35 5 5
3Figure 2

Claims (1)

【特許請求の範囲】[Claims] (1)ホスト処理装置と、該ホスト処理装置に接続され
た複数のサブホスト処理装置と、該サブホスト処理装置
に接続され九端末装置とを有する分散処理システムにお
いて、前記サブホスト処理装置に、コンソールサービス
プロセッサ及び、診断プログラム、メモリダンププログ
ラムを格納したファイルメモリを設け、前記コンソール
サービスプロセッサの制御の下に、サブホスト処理装置
のハードウェア障害時は自動的に診断プログラムを冥行
後、該結果をホスト処理装置へ送信し、プログラム障害
時は自動的にメモリダンプを取得後自動イニシャルプロ
グラムロードを実行してシステム回復を図り、端末装置
障害時は該端末装置障害をホスト処理装置へ連絡するこ
とを特徴とする分散処理システムの障害処理方式。
(1) In a distributed processing system having a host processing device, a plurality of sub-host processing devices connected to the host processing device, and nine terminal devices connected to the sub-host processing device, the sub-host processing device includes a console service processor. A file memory is provided to store a diagnostic program and a memory dump program, and under the control of the console service processor, when a hardware failure occurs in the sub-host processing device, the diagnostic program is automatically executed and the results are processed by the host. In the event of a program failure, the memory dump is automatically acquired and an initial program load is executed to recover the system, and in the event of a terminal device failure, the terminal device failure is communicated to the host processing device. A failure handling method for distributed processing systems.
JP57026043A 1982-02-22 1982-02-22 Fault processing system for dispersion processing system Pending JPS58144263A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57026043A JPS58144263A (en) 1982-02-22 1982-02-22 Fault processing system for dispersion processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57026043A JPS58144263A (en) 1982-02-22 1982-02-22 Fault processing system for dispersion processing system

Publications (1)

Publication Number Publication Date
JPS58144263A true JPS58144263A (en) 1983-08-27

Family

ID=12182665

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57026043A Pending JPS58144263A (en) 1982-02-22 1982-02-22 Fault processing system for dispersion processing system

Country Status (1)

Country Link
JP (1) JPS58144263A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6116353A (en) * 1984-06-11 1986-01-24 Fujitsu Ltd Ncp breakdown preventing system of communication control processor
JPS63293644A (en) * 1987-05-27 1988-11-30 Hitachi Ltd On-line automatic recovery system
JPH01316835A (en) * 1988-06-17 1989-12-21 Nec Corp Job restoration processing system
JPH0764881A (en) * 1993-08-31 1995-03-10 Nec Corp Control system for cable work station control package

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6116353A (en) * 1984-06-11 1986-01-24 Fujitsu Ltd Ncp breakdown preventing system of communication control processor
JPH0412496B2 (en) * 1984-06-11 1992-03-04 Fujitsu Ltd
JPS63293644A (en) * 1987-05-27 1988-11-30 Hitachi Ltd On-line automatic recovery system
JPH01316835A (en) * 1988-06-17 1989-12-21 Nec Corp Job restoration processing system
JPH0764881A (en) * 1993-08-31 1995-03-10 Nec Corp Control system for cable work station control package

Similar Documents

Publication Publication Date Title
US7281040B1 (en) Diagnostic/remote monitoring by email
CN106789306B (en) Method and system for detecting, collecting and recovering software fault of communication equipment
US20020162053A1 (en) User transparent software malfunction detection and reporting
CN107634860B (en) Method for automatically upgrading weblogic cluster patches in batches
CN107800783B (en) Method and device for remotely monitoring server
CN111563002B (en) Transaction fault processing method and device, electronic equipment and storage medium
JPS58144263A (en) Fault processing system for dispersion processing system
CN111880947A (en) Data transmission method and device
JP3248485B2 (en) Cluster system, monitoring method and method in cluster system
CN107590647A (en) The servo supervisory systems of ship-handling system
CN109672573B (en) Configuration file deployment method, configuration file determination method, server and storage medium
JPH1188471A (en) Test method and test equipment
CN114257534A (en) Test result processing method, device and system and storage medium
CN110956456A (en) Money printing processing method, device and system
CN110572292A (en) high availability system and method based on unidirectional transmission link
KR0130418B1 (en) Method for auto-self diagnosis and decovery of dual common bus resource and processor in the full electronic switching system
CN112286797B (en) Service monitoring method and device, electronic equipment and storage medium
CN114356643B (en) Automatic task discovery failure and recovery method in remote sensing satellite processing system
JPS6298445A (en) Network fault bracketing system
JPH08263405A (en) Software distribution system
CN115525522A (en) Method, device and medium for mutual backup test in different places
JP3166730B2 (en) Automatic test apparatus for exchange, automatic test method for exchange, and recording medium
CN115221065A (en) Error correction self-checking method and system for server firmware program
CN117034366A (en) Method for maintaining data integrity of cloud native non-shutdown upgrade and application thereof
CN117472756A (en) Application system testing method and device, storage medium and computer equipment