JP2849780B2 - Computer system - Google Patents

Computer system

Info

Publication number
JP2849780B2
JP2849780B2 JP3057804A JP5780491A JP2849780B2 JP 2849780 B2 JP2849780 B2 JP 2849780B2 JP 3057804 A JP3057804 A JP 3057804A JP 5780491 A JP5780491 A JP 5780491A JP 2849780 B2 JP2849780 B2 JP 2849780B2
Authority
JP
Japan
Prior art keywords
restart
processor
instruction flag
failure
flag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP3057804A
Other languages
Japanese (ja)
Other versions
JPH04274528A (en
Inventor
信宏 木内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP3057804A priority Critical patent/JP2849780B2/en
Publication of JPH04274528A publication Critical patent/JPH04274528A/en
Application granted granted Critical
Publication of JP2849780B2 publication Critical patent/JP2849780B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Retry When Errors Occur (AREA)
  • Debugging And Monitoring (AREA)

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】本発明は、障害が発生し、その運
用が停止した場合、自動的に再起動を行なう計算機シス
テムに関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a computer system that automatically restarts when a fault occurs and its operation is stopped.
On Temu.

【0002】[0002]

【従来の技術】計算機システムを構成する場合、ハード
ウエアの故障やプログラムの暴走等の障害に対処する対
策が講じられる。例えば、運用が停止したために処理の
滞るのを防止したい場合には、通常運用する計算機シス
テムの他に予備として同一の計算機システムを設け、障
害発生時には、その運用を直ちに予備の計算機システム
に切換えるものがある。また、運用停止が比較的問題に
ならない場合には、予備の計算機システムを持たない単
一計算機システムが利用される。ここでは、この単一計
算機システム(以下単に計算機システムと呼ぶ)を例に
話を進める。
2. Description of the Related Art When configuring a computer system, measures are taken to cope with a failure such as a hardware failure or a program runaway. For example, in order to prevent a delay in processing due to the suspension of operation, the same computer system is provided as a spare in addition to the normally operating computer system, and when a failure occurs, the operation is immediately switched to the spare computer system. There is. In addition, when the suspension of operation is not a problem, a single computer system having no spare computer system is used. Here, the single computer system (hereinafter simply referred to as a computer system) will be described as an example.

【0003】図2に、従来の計算機システムの構成図を
示す。図において、計算機システム1は、システム全体
の制御管理を行なうシステム制御装置2と、このシステ
ム制御装置2に接続されたオペレータ会話装置3と処理
装置5とから構成されている。
FIG. 2 shows a configuration diagram of a conventional computer system. In the figure, a computer system 1 includes a system control device 2 for controlling and managing the entire system, an operator conversation device 3 and a processing device 5 connected to the system control device 2.

【0004】システム制御装置2は、処理装置5の起動
及びその動作が正常に行なわれているか否かを監視する
プロセッサ等から構成されたものである。オペレータ会
話装置3は、オペレータが操作するキーボードやディス
プレイ等からなり、システム制御装置2に向けて各種コ
マンドの入力等を行なう端末装置である。処理装置5
は、実際にデータの演算等を行なうもので、プロセッサ
6、主記憶装置7、ディスク装置(二次記憶装置)8と
から構成されている。なお、各部は共通バス4により接
続されている。プロセッサ6は、処理装置5を構成する
各部の制御管理を行なうものである。主記憶装置7は、
プロセッサ6の動作に必要なプログラムやデータを格納
するRAM等から構成されたものである。ディスク装置
8は、ハードディスク等の記録媒体を用いてデータの保
存を行なうもので、磁気ディスク9が設けられている。
[0004] The system control device 2 is composed of a processor or the like for monitoring whether the processing device 5 is activated and whether or not the operation thereof is performed normally. The operator conversation device 3 is a terminal device that includes a keyboard, a display, and the like that are operated by an operator, and that inputs various commands to the system control device 2 and the like. Processing device 5
Is for actually performing data operation and the like, and comprises a processor 6, a main storage device 7, and a disk device (secondary storage device) 8. Each unit is connected by a common bus 4. The processor 6 controls and manages each unit constituting the processing device 5. The main storage device 7
It comprises a RAM and the like for storing programs and data necessary for the operation of the processor 6. The disk device 8 stores data using a recording medium such as a hard disk, and is provided with a magnetic disk 9.

【0005】以上の構成の計算機システム1において、
システム制御装置2には、プロセッサ6を起動する為の
ブートプログラムが予め格納されている。また、ディス
ク装置8の磁気ディスク9には、システムの運用操作を
司る基本プログラムをロードするためのイニシャルプロ
グラムが格納されている。
In the computer system 1 having the above configuration,
A boot program for starting the processor 6 is stored in the system control device 2 in advance. The magnetic disk 9 of the disk device 8 stores an initial program for loading a basic program that controls the operation of the system.

【0006】さて、オペレータ会話装置3からシステム
制御装置2に起動指示が入力されると、システム制御装
置2は、ブートプログラムを共通バス4を介して主記憶
装置7に転送する。更に、プロセッサ6に起動指示を出
す。プロセッサ6は、この起動指示を受付けると、主記
憶装置7に記憶されたブートプログラムを実行し、今度
は、ディスク装置8からイニシャルプログラムを読出
し、主記憶装置7に記憶させる。更に、当該イニシャル
プログラムを実行し、システム運用や操作の制御を行な
う基本プログラムの起動を終了する。以上の手順により
計算機システム1の起動が終了する。
[0006] When a start instruction is input from the operator conversation device 3 to the system control device 2, the system control device 2 transfers the boot program to the main storage device 7 via the common bus 4. Further, it issues a start instruction to the processor 6. Upon receiving this activation instruction, the processor 6 executes the boot program stored in the main storage device 7, and then reads the initial program from the disk device 8 and stores it in the main storage device 7. Further, the initial program is executed, and the activation of the basic program for controlling system operation and operation is completed. The start of the computer system 1 is completed by the above procedure.

【0007】一方、プロセッサ6は、動作が正常である
ことをシステム制御装置2に通知するため、一定の周期
で、システム制御装置2に設けられた監視用タイマのリ
セット命令を発行する。タイマのリセット命令が発行さ
れず、監視用タイマが所定の計数を行なった場合、シス
テム制御装置2は、プロセッサ6のプログラム暴走等の
障害が発生したものと判断し、プロセッサ6の動作を強
制的に停止させる。また、プロセッサ6は、処理装置5
を構成する各部にハード的な障害が発生したことを認識
すると、自らその運用を停止する。この場合、システム
制御装置2への割込みがかからないため、システム制御
装置2は、プロセッサ6の停止(障害の発生)を認識す
ることができる。
[0007] On the other hand, the processor 6 issues a reset instruction of a monitoring timer provided in the system control device 2 at a constant cycle to notify the system control device 2 that the operation is normal. If the timer reset instruction is not issued and the monitoring timer performs a predetermined count, the system control device 2 determines that a failure such as a program runaway of the processor 6 has occurred, and forcibly stops the operation of the processor 6. To stop. Further, the processor 6 includes the processing device 5
When it recognizes that a hardware failure has occurred in each of the constituent elements, it stops its operation by itself. In this case, since the system control device 2 is not interrupted, the system control device 2 can recognize that the processor 6 has stopped (occurrence of a failure).

【0008】システム制御装置2は、プロセッサ6の停
止を認識した場合、オペレータ会話装置3等を通じて、
オペレータに障害発生を通知する。オペレータは、計算
機システム1に障害が発生し、運用が停止したことを認
識した場合、障害原因の調査を行なった後、再起動、即
ちオペレータ会話装置3を用いて起動指示の入力を行な
うことになる。
When the system control device 2 recognizes that the processor 6 has stopped, the system control device 2 communicates through the operator conversation device 3 or the like.
Notify the operator of the failure. When the operator recognizes that a failure has occurred in the computer system 1 and the operation has been stopped, the operator investigates the cause of the failure and then restarts, that is, inputs a startup instruction using the operator conversation device 3. Become.

【0009】ところで、運用の停止時間が制限されるよ
うな場合で、かつ障害の原因がプロセッサ6のリセット
等により解除が可能な場合には、オペレータがオペレー
タ会話装置3からプロセッサ6のリセット指示を入力す
る。この際、後に障害原因の解析を行なうために、プロ
セッサ6のリセット指示をきっかけに、プロセッサ6自
身が、現在プロセッサ6がどのような状態にあるかを示
す内部レジスタに格納された障害発生時の実行プログラ
ムのアドレスや演算の値等、ディスク装置8の制御部に
格納された入出力命令の履歴、入出力の実行状況やディ
スク装置8のハード的な異常の値等、主記憶装置7上の
処理の進行状況を示すチェックポイントデータやプログ
ラムの実行過程のデータ等から構成される状況情報を主
記憶装置7に複写する処理を行なう。
If the operation stop time is limited and the cause of the failure can be canceled by resetting the processor 6 or the like, the operator issues an instruction to reset the processor 6 from the operator conversation device 3. input. At this time, in order to analyze the cause of the failure later, the processor 6 itself triggers the reset instruction of the processor 6 to reset the failure at the time of the failure stored in the internal register indicating the state of the processor 6 at present. The history of the input / output commands stored in the control unit of the disk device 8 such as the address of the execution program and the value of the operation, the input / output execution status and the value of the hardware abnormality of the disk device 8 are stored in the main storage device 7. A process of copying status information including checkpoint data indicating the progress of the process , data of the execution process of the program, and the like to the main storage device 7 is performed.

【0010】オペレータは主記憶装置7に複写された状
況情報をディスク装置8に格納するための転送プログラ
ムの実行指示をオペレータ会話装置3より入力し、その
後システムの再起動指示を行なうことになる。このディ
スク装置8に複写された状況情報に基づいて、後に保守
のオペレータが計算機システム1の障害の解析を行なう
ことになる。
The operator inputs an instruction to execute a transfer program for storing the status information copied to the main storage device 7 in the disk device 8 from the operator conversation device 3 and then issues a system restart instruction. Based on the status information copied to the disk device 8, a maintenance operator later analyzes a failure of the computer system 1.

【0011】また、オペレータ等が配置されずに、無人
で運用されている計算機システム1において、自動的に
再起動を実施する方法としては、プロセッサ6が、障害
を検出して、その動作を停止した時に、プロセッサ6自
身で主記憶装置7の固定番地を参照し、無条件に再起
動、即ち既に主記憶装置7に記憶されたイニシャルプロ
グラム等に基づいた動作を行なう場合がある。
As a method of automatically restarting the computer system 1 which is operated unattended without an operator or the like, the processor 6 detects a failure and stops its operation. At that time, the processor 6 itself may refer to the fixed address of the main storage device 7 and restart unconditionally, that is, perform an operation based on the initial program or the like already stored in the main storage device 7.

【0012】[0012]

【発明が解決しようとする課題】しかしながら、無人運
用されている計算機システム1の場合には、その運用停
止後、無条件で再起動してしまうと、障害発生時の状況
情報を保存できないといった問題が生じていた。また、
運用停止時にプロセッサ6の状態を示す状況情報を保存
し、その後、再び起動を行なう計算機システム1におい
ては、必ずオペレータが常駐し、各種操作を実施しなけ
ればならないという問題が生じていた。さらに、計算機
システムを2重化して、障害の発生したシステムの調査
中に他のシステムで運用を継続する方法もあるが、同一
システムを2つ用意するために約2倍のコストがかかる
といった問題が生じていた。
However, in the case of the computer system 1 which is operated unattended, if the computer system 1 is restarted unconditionally after the operation is stopped, the situation information at the time of failure occurrence cannot be saved. Had occurred. Also,
In the computer system 1 that saves the status information indicating the state of the processor 6 when the operation is stopped and then starts again, there is a problem that an operator must be always present and various operations must be performed. Furthermore, there is a method of duplicating a computer system and continuing operation with another system while investigating a system in which a failure has occurred. However, it costs about twice as much to prepare two identical systems. Had occurred.

【0013】本発明は以上の点に着目してなされたもの
で、2重化システムを構築する必要が無く、障害が発生
した場合にオペレータの介入なしに速やかに運用を再開
(再起動)することができ、さらに、後に障害の解析を
行なうことができる計算機システムを提供するものであ
る。
The present invention has been made in view of the above points, and there is no need to construct a duplex system. If a failure occurs, the operation is immediately restarted (restarted) without operator intervention. The present invention provides a computer system capable of performing a failure analysis later.

【0014】[0014]

【課題を解決するための手段】本発明は、予め設定され
た所定の処理を実行するプロセッサと、当該プロセッサ
の参照する情報を記憶する二次記憶装置を備えた処理装
置と、前記処理装置の障害検出及び障害復旧を行うシス
テム制御装置とを備え、前記システム制御装置は、前記
処理装置の障害を検出する障害検出手段と、前記処理装
置の状態を示す障害情報を前記二次記憶装置に格納する
指示を与えるための複写指示フラグを記憶する第1の記
憶手段と、前記プロセッサの再立ち上げを指示する再起
動指示フラグを記憶する第2の記憶手段と、前記処理装
置の運用開始時に前記第1及び第2の記憶手段に前記複
写指示フラグ及び前記再起動指示フラグをそれぞれセッ
トするフラグセット手段と、前記障害検出手段による障
害発生の検出に応答して、前記第1及び第2の記憶手段
に記憶された前記複写指示フラグ及び前記再起動指示フ
ラグの状態を読み取り、前記複写指示フラグがセットさ
れているときは前記障害情報を前記二次記憶装置に格納
する処理及び前記複写指示フラグのリセットを行い、前
記再起動指示フラグがセットされているときは前記プロ
セッサを再立ち上げする再起動処理及び前記再起動指示
フラグのリセットを行う手段を有することを特徴とする
計算機システム。
SUMMARY OF THE INVENTION The present invention is directed to a preset
Processor for executing predetermined processing, and the processor
Processing device provided with a secondary storage device for storing information referred to by
And a system for detecting and recovering from a fault in the processing unit.
System control device, wherein the system control device is
Fault detecting means for detecting a fault in the processing device;
Failure information indicating the status of the storage device is stored in the secondary storage device
First storage for storing a copy instruction flag for giving an instruction
Storage means and a restart instruction for restarting the processor.
Second storage means for storing an operation instruction flag;
When the operation of the storage device is started, the duplicate
Set the copy instruction flag and the restart instruction flag respectively.
Flag setting means for setting the
The first and second storage means in response to detection of harm occurrence
The copy instruction flag and the restart instruction flag stored in
The status of the lag is read and the copy instruction flag is set.
The fault information is stored in the secondary storage device
Processing and resetting the copy instruction flag,
If the restart instruction flag is set,
Restart processing for restarting the processor and the restart instruction
Characterized by having means for resetting the flag
Computer system.

【0015】[0015]

【作用】システム制御装置に第1及び第2の記憶手段を
設け、処理装置の運用開始時に、フラグセット手段によ
り第1の記憶手段に複写指示フラグを、第2の記憶手段
に再起動指示フラグをそれぞれセットする。 処理装置の
運用中に障害が発生すると、フラグ処理・リセット手段
は第1の記憶手段に複写指示フラグがセットされている
ことを確認し、状況情報を二次記憶装置に複写する。
The first and second storage means are provided in the system controller.
Provided by the flag setting means when the operation of the processing device is started.
A copy instruction flag in the first storage means;
To set the restart instruction flag respectively. Of processing equipment
If a failure occurs during operation, flag processing and resetting means
Indicates that the copy instruction flag is set in the first storage means.
And copying the status information to the secondary storage device.

【0016】[0016] また、フラグ処理・リセット手段は第2のFurther, the flag processing / resetting means is provided in the second
記憶手段に再起動指示フラグがセットされていることをCheck that the restart instruction flag is set in the storage
確認し、プロセッサを再起動させる。Check and restart the processor. そして、フラグ処And the flag processing
理・リセット手段は、第1及び第2の記憶手段のリセッAnd resetting means for resetting the first and second storage means.
トを行なう。従って、処理装置に再び障害が発生した場Do Therefore, if a failure occurs again in the processing unit,
合には、状況情報の複写処理及びプロセッサの再起動処If this is the case, copy the status information and restart the processor.
理が行われることがない。Is not done.

【0017】[0017]

【実施例】図1に、本発明に係る計算機システムのブロ
ック図を示す。図において、計算機システム1は、先に
図2において説明したものと同様に、システム全体の制
御管理を行なうシステム制御装置2と、このシステム制
御装置2に接続されたオペレータ会話装置3と、共通バ
ス4を介して接続された処理装置5とから構成されてい
る。なお、図2と同一の部分には同一の符号を付し、重
複する説明は省略する。システム制御装置2には、障害
検出手段21、再起動実行手段22、動作選択設定手段
23、そしてブートプログラムを格納したROM24が
設けられている。
1 is a block diagram showing a computer system according to the present invention. In the figure, a computer system 1 includes a system control device 2 for controlling and controlling the entire system, an operator conversation device 3 connected to the system control device 2, and a common bus, in the same manner as described above with reference to FIG. And a processing device 5 connected thereto via the control unit 4. Note that the same parts as those in FIG. 2 are denoted by the same reference numerals, and redundant description will be omitted. The system control device 2 includes a failure detection unit 21, a restart execution unit 22, an operation selection setting unit 23, and a ROM 24 storing a boot program.

【0018】障害検出手段21は、処理装置5の障害、
例えばプロセッサ6のプログラムの暴走や動作停止を検
出するもので、監視タイマ(例えばウオッチドッグタイ
マ)等から構成されている。再起動実行手段22は、障
害検出手段21が障害を検出した場合、動作選択設定手
段23の示す内容に基づいて、プロセッサ6への再起動
命令の発行、状況情報の磁気ディスク9への格納指示、
そして動作選択設定手段23の内容変更を行なうもので
ある。
The fault detecting means 21 detects a fault in the processing device 5;
For example, it detects runaway or operation stop of the program of the processor 6, and includes a monitoring timer (for example, a watchdog timer). When the failure detecting means 21 detects a failure, the restart executing means 22 issues a restart instruction to the processor 6 and instructs the storage of status information to the magnetic disk 9 based on the contents indicated by the operation selection setting means 23. ,
Then, the contents of the operation selection setting means 23 are changed.

【0019】動作選択設定手段23は、状況情報を磁気
ディスク9に格納するか否かを示す第1のフラグ(複写
指示フラグ)と、プロセッサ6(処理装置5)の再起動
を実行するか否かを示す第2のフラグ(再起動指示フラ
グ)から構成されている。第1及び第2のフラグは、通
常セットされ、再起動実行手段22による状況情報の磁
気ディスク9への格納及びプロセッサ6の再起動を許容
している。なお、再起動実行手段22は、状況情報の格
納を実行した場合、第1のフラグのリセットを実行す
る。
The operation selection setting means 23 includes a first flag (copy instruction flag) indicating whether or not the status information is stored on the magnetic disk 9 and whether or not to restart the processor 6 (processing device 5). The second flag (restart instruction flag) indicates whether or not the restart flag has been set. The first and second flags are normally set, and allow the restart execution means 22 to store the status information on the magnetic disk 9 and restart the processor 6. Note that the restart execution means 22 resets the first flag when storing the status information.

【0020】ここで、動作選択設定手段23の詳細な説
明を、図3を参照しながら説明する。図3は、動作選択
設定手段23の構成図である。図に示すように、動作
択設定手段は、オアゲートOR1〜OR4、そしてフリ
ップフロップF1,F2から構成されている。オアゲー
トOR1,OR3の入力には、オペレータ会話装置3、
プロセッサ6の出力する、入力信号IN1,IN2,I
N6,IN7が入力されている。オアゲートOR2,O
R4の入力には、オペレータ会話装置3、プロセッサ
6、そして再起動実行手段22の出力する、入力信号I
N3〜IN5、入力信号IN8〜IN10が入力されて
いる。
Here, the operation selection setting means 23 will be described in detail with reference to FIG. FIG. 3 is a configuration diagram of the operation selection setting means 23. As shown in the figure, the operation selection setting means includes OR gates OR1 to OR4 and flip-flops F1 and F2. The inputs of the OR gates OR1 and OR3 include the operator conversation device 3,
Input signals IN1, IN2, I output from the processor 6
N6 and IN7 are input. OR gate OR2, O
The input of R4 includes the input signal I output from the operator conversation device 3, the processor 6, and the restart execution means 22.
N3 to IN5 and input signals IN8 to IN10 are input.

【0021】オアゲートOR1の出力は、セット信号S
S1としてフリップフロップF1のセット端子Sに、オ
アゲートOR2の出力信号は、リセット信号RS1とし
てフリップフロップF1のリセット端子Rに入力されて
いる。同様に、オアゲートOR3の出力は、セット信号
SS2としてフリップフロップF2のセット端子Sに、
オアゲートOR4の出力信号は、リセット信号RS2と
してフリップフロップF2のリセット端子Rに入力され
ている。
The output of the OR gate OR1 is the set signal S
The output signal of the OR gate OR2 is input to the reset terminal R of the flip-flop F1 as the reset signal RS1. Similarly, the output of the OR gate OR3 is output to the set terminal S of the flip-flop F2 as the set signal SS2.
The output signal of the OR gate OR4 is input to the reset terminal R of the flip-flop F2 as a reset signal RS2.

【0022】フリップフロップF1の出力端子Qから出
力される出力信号(複写指示フラグOUT1)は、先に
説明した複写指示フラグとして、再起動実行手段22に
認識される。同様にフリップフロップF2の出力端子Q
から出力される出力信号(再起動指示フラグOUT2)
は、先に説明した再起動指示フラグとして、再起動実行
手段22に認識される。
The output signal (copy instruction flag OUT1) output from the output terminal Q of the flip-flop F1 is recognized by the restart executing means 22 as the copy instruction flag described above. Similarly, the output terminal Q of the flip-flop F2
Output signal (restart instruction flag OUT2)
Is recognized by the restart executing means 22 as the restart instruction flag described above.

【0023】以上の構成の動作選択設定手段23におい
て、システム制御装置2が立ち上げられた際、入力信号
IN1〜IN10の全てがロウレベルに設定され、更に
フリップフロップF1,F2のリセットがなされる。即
ち、複写指示フラグOUT1及び再起動指示フラグOU
T2共にリセット(ロウレベル)された状態になる。こ
の状態で、例えば複写指示フラグOUT1及び再起動指
示フラグOUT2をセットする場合、入力信号IN1も
しくは入力信号IN2、入力信号IN6もしくは入力信
号IN7ハイレベル(有効)設定する。
In the operation selection setting means 23 having the above configuration, when the system control device 2 is started up, all of the input signals IN1 to IN10 are set to low level, and the flip-flops F1 and F2 are reset. That is, the copy instruction flag OUT1 and the restart instruction flag OU
Both T2 are reset (low level). In this state, for example, when setting the copy instruction flag OUT1 and restart instruction flag OUT2, set the input signal IN1 or the input signal IN2, the input signal IN6 or input signal IN7 to a high level (enabled).

【0024】フリップフロップF1,F2は、それぞれ
セット端子S及びリセット端子Rの入力を受付け(クロ
ックパルスの入力による動作実行)、出力端子Qに反映
させる。この場合、フリップフロップF1、F2のセッ
ト端子Sがハイレベル、リセット端子Rがロウレベルと
なるため、出力端子Qはハイレベルにセットされる。そ
の後、ハイレベルに設定された各入力信号は、フリップ
フロップF1,F2の受付けが完了する所定のタイミン
グで、再びロウレベルに設定される。この際、フリップ
フロップF1,F2の出力端子Qは、先に入力を受付け
た状態を保つことになる。
The flip-flops F1 and F2 receive the inputs of the set terminal S and the reset terminal R (perform the operation by inputting the clock pulse), and reflect the input to the output terminal Q. In this case, the set terminal S of the flip-flops F1 and F2 is at a high level and the reset terminal R is at a low level, so that the output terminal Q is set at a high level. Thereafter, each input signal set to the high level is set to the low level again at a predetermined timing at which the reception of the flip-flops F1 and F2 is completed. At this time, the output terminals Q of the flip-flops F1 and F2 maintain the state of receiving the input first.

【0025】次に、複写指示フラグOUT1及び再起動
指示フラグOUT2をリセットする場合、入力信号IN
3〜IN5の何れか及び入力信号IN8〜IN10の何
れかをハイレベルに設定する。フリップフロップF1,
F2は、それぞれセット端子S及びリセット端子Rの入
力を受付けると、セット端子Sがロウレベル、リセット
端子Rがハイレベルのため、出力端子Qをロウレベルに
設定する。その後、ハイレベルに設定された各入力信号
は、フリップフロップF1,F2の受付が完了する所定
のタイミングで、再びロウレベルに設定される。
Next, when resetting the copy instruction flag OUT1 and the restart instruction flag OUT2, the input signal IN
One of the input signals IN8 to IN10 and any one of the input signals IN8 to IN10 are set to a high level. Flip-flop F1,
When F2 receives the input of the set terminal S and the reset terminal R, respectively, it sets the output terminal Q to the low level because the set terminal S is at the low level and the reset terminal R is at the high level. Thereafter, each input signal set to the high level is set to the low level again at a predetermined timing at which the reception of the flip-flops F1 and F2 is completed.

【0026】ここで、図4を参照しながら再起動実行手
段22の動作を説明する。図4は、再起動実行手段22
の動作フローチャートである。なお、複写指示フラグO
UT1及び再起動指示フラグOUT2は共にセットされ
ているものとする。
The operation of the restart execution means 22 will now be described with reference to FIG. FIG. 4 shows the restart execution unit 22.
4 is an operation flowchart of FIG. The copy instruction flag O
It is assumed that both the UT1 and the restart instruction flag OUT2 are set.

【0027】障害検出手段21が処理装置5の障害を検
出すると、再起動実行手段22は動作選択設定手段23
の複写指示フラグOUT1の読取りを行ない、セットさ
れているか否か、即ち内容“1”であるか否かを判断す
る(ステップS1)。この結果がYESの場合、再起動
実行手段22は、複写指示フラグOUT1のリセット、
即ち入力信号IN5を有効にし(ステップS2)、さら
に状況情報複写プログラムを起動してプロセッサ6によ
る状況情報の複写、即ち磁気ディスク9への格納を実施
する(ステップS3)。
When the failure detecting means 21 detects a failure in the processing device 5, the restart executing means 22 executes the operation selection setting means 23.
Is read, and it is determined whether or not it is set, that is, whether or not the content is "1" (step S1). If the result is YES, the restart execution means 22 resets the copy instruction flag OUT1,
That is, the input signal IN5 is made valid (step S2), and the status information copying program is started to copy the status information by the processor 6, that is, store it on the magnetic disk 9 (step S3).

【0028】再起動実行手段22は、プロセッサ6によ
る状況情報の複写が完了したか否かを判断する(ステッ
プS4)。ステップS4の結果がYESの場合、動作選
択設定手段23の再起動指示フラグOUT2の読取りを
行ない、セットされているか否か、即ち内容“1”であ
るか否かを判断する(ステップS5)。この結果がYE
Sの場合、再起動実行手段22は、再起動指示フラグO
UT2のリセット、即ち入力信号IN10を有効にし
(ステップS6)、更にプロセッサ6のリセット等の再
起動処理を実行し(ステップS7)、処理を終了する。
なお、ステップS1の結果NOの場合、ステップS5に
移り、ステップS4の結果NOの場合、再びステップS
4の実行がなされる。
The restart execution means 22 determines whether the copying of the status information by the processor 6 has been completed (step S4). If the result of step S4 is YES, the restart instruction flag OUT2 of the operation selection setting means 23 is read, and it is determined whether or not it is set, that is, whether or not the content is "1" (step S5). This result is YE
In the case of S, the restart execution means 22 outputs the restart instruction flag O
The UT 2 is reset, that is, the input signal IN10 is made valid (step S6), and a restart process such as resetting of the processor 6 is executed (step S7), and the process ends.
If the result of step S1 is NO, the process proceeds to step S5, and if the result of step S4 is NO, step S5 is performed again.
4 are performed.

【0029】次に、図5及び図6を参照しながら、計算
機システム1の動作を説明する。まず図5は、本発明に
係る第1のタイミングチャートである。ここでは、プロ
セッサ6がブートプログラム24に基づいて、自動的に
1度だけ複写指示フラグOUT1及び再起動指示フラグ
OUT2をセットするものとする。
Next, the operation of the computer system 1 will be described with reference to FIGS. First, FIG. 5 is a first timing chart according to the present invention. Here, it is assumed that the processor 6 automatically sets the copy instruction flag OUT1 and the restart instruction flag OUT2 only once based on the boot program 24.

【0030】まずタイミングT1において、処理装置5
の立ち上げが実施されると、プロセッサ6はシステム制
御装置2からブートプログラム24を主記憶装置7にロ
ーディングするIPL(Initial Program Loader)処理
を実施する。タイミングT2においてIPL処理が完了
すると、計算機システム1は、通常の運用を開始する。
この運用が開始されて所定の時間が経過した場合、プロ
セッサ6は、入力信号IN2,IN7を有効に設定し、
複写指示フラグOUT1及び再起動指示フラグOUT2
をセットする。
First, at timing T1, the processing device 5
Is started, the processor 6 executes an IPL (Initial Program Loader) process for loading the boot program 24 from the system control device 2 into the main storage device 7. When the IPL processing is completed at the timing T2, the computer system 1 starts normal operation.
When a predetermined time has elapsed after the start of this operation, the processor 6 sets the input signals IN2 and IN7 to valid,
Copy instruction flag OUT1 and restart instruction flag OUT2
Is set.

【0031】その後、タイミングT3において処理装置
5に障害が発生すると、処理装置5はその動作を停止
し、システム制御装置2からの指示を待つことになる。
システム制御装置2の障害検出手段21は、処理装置5
の障害を検出すると、再起動実行手段22の起動をかけ
る。
Thereafter, when a failure occurs in the processing device 5 at the timing T3, the processing device 5 stops its operation and waits for an instruction from the system control device 2.
The failure detection means 21 of the system control device 2
When the failure is detected, the restart execution means 22 is started.

【0032】再起動実行手段22は、複写指示フラグO
UT1の読取りを行ない、セット状態を認識した場合、
入力信号IN5を有効にして複写指示フラグOUT1の
リセットを行ない、タイミングT4において、状況情報
複写の処理を行なう。状況情報複写が完了すると再起動
実行手段22は、再起動指示フラグOUT2の読取りを
行ない、セット状態を認識した場合、入力信号IN10
を有効にして再起動指示フラグOUT2のリセットを行
ない、タイミングT5において再び処理装置5の立ち上
げを実施して処理を終了する。
The restart execution means 22 includes a copy instruction flag O
When reading UT1 and recognizing the set state,
The input signal IN5 is made valid, and the copy instruction flag OUT1 is reset. At timing T4, the status information is copied. When the copying of the status information is completed, the restart execution means 22 reads the restart instruction flag OUT2, and when recognizing the set state, the input signal IN10.
Is enabled, the restart instruction flag OUT2 is reset, and at timing T5, the processing device 5 is started up again, and the process is terminated.

【0033】処理装置5は、IPL処理の実施後、タイ
ミングT6において運用を開始する。なお、プロセッサ
6は、一度障害が発生して再起動がなされた場合、複写
指示フラグOUT1及び再起動指示フラグOUT2のセ
ットは実行せずに、リセットされた状態を保つ。このた
め、タイミングT7において再び障害が発生しても、再
起動実行手段22は、状況情報の複写及び再起動を実施
することなくオペレータの対応を待つことになる。
After the execution of the IPL process, the processing device 5 starts operation at timing T6. Note that, when a failure occurs once and the restart is performed, the processor 6 does not set the copy instruction flag OUT1 and the restart instruction flag OUT2, and keeps the reset state. Therefore, even if a failure occurs again at the timing T7, the restart execution unit 22 waits for the operator's response without copying the status information and performing the restart.

【0034】次に、図6は本発明に係る第2のタイミン
グチャートである。ここでは、オペレータ会話装置3を
操作して複写指示フラグOUT1及び再起動指示フラグ
OUT2をセットするものとする。まずタイミングT1
1において、処理装置5の立ち上げが実施されると、プ
ロセッサ6はシステム制御装置2からブートプログラム
24を主記憶装置7にローディングするIPL(Initia
lProgram Loader)処理を実施する。
FIG. 6 is a second timing chart according to the present invention. Here, it is assumed that the operator's conversation device 3 is operated to set the copy instruction flag OUT1 and the restart instruction flag OUT2. First, timing T1
1, when the processing device 5 is started up, the processor 6 loads the IPL (Initia) which loads the boot program 24 from the system control device 2 to the main storage device 7.
lProgram Loader) processing.

【0035】タイミングT12においてIPL処理が完
了すると、計算機システム1は、通常の運用を開始す
る。この運用中に、オペレータ会話装置3を操作して、
動作選択設定手段23の入力信号IN1,IN6を有効
に設定し、複写指示フラグOUT1及び再起動指示フラ
グOUT2をセットする。
When the IPL processing is completed at timing T12, the computer system 1 starts normal operation. During this operation, the operator's conversation device 3 is operated,
The input signals IN1 and IN6 of the operation selection setting means 23 are set to be valid, and the copy instruction flag OUT1 and the restart instruction flag OUT2 are set.

【0036】その後、タイミングT13に処理装置5に
障害が発生すると、処理装置5はその動作を停止し、シ
ステム制御装置2からの指示を待つことになる。システ
ム制御装置2の障害検出手段21は、処理装置5の障害
を検出すると、再起動実行手段22の起動をかける。
Thereafter, when a failure occurs in the processing device 5 at the timing T13, the processing device 5 stops its operation and waits for an instruction from the system control device 2. Upon detecting a failure in the processing device 5, the failure detection unit 21 of the system control device 2 activates the restart execution unit 22.

【0037】再起動実行手段22は、複写指示フラグO
UT1の読取りを行ない、セット状態を認識した場合、
入力信号IN5を有効にして複写指示フラグOUT1の
リセットを行ない、タイミングT14において、状況情
報複写の処理を行なう。 状況情報複写が完了すると再
起動実行手段22は、再起動指示フラグOUT2の読取
りを行ない、セット状態を認識した場合、入力信号IN
10を有効にして再起動指示フラグOUT2のリセット
を行ない、タイミングT15において再び処理装置5の
立ち上げを実施し、オペレータ会話装置3に障害が発生
したことを通知して処理を終了する。
The restart execution means 22 includes a copy instruction flag O
When reading UT1 and recognizing the set state,
The input signal IN5 is made valid, and the copy instruction flag OUT1 is reset. At timing T14, the status information is copied. When the copying of the status information is completed, the restart execution means 22 reads the restart instruction flag OUT2, and when the set state is recognized, the input signal IN
10, the restart instruction flag OUT2 is reset, the processing device 5 is started up again at timing T15, and the fact that a failure has occurred in the operator conversation device 3 is notified, and the process is terminated.

【0038】処理装置5は、IPL処理の実施後、タイ
ミングT16において運用を開始する。オペレータ会話
装置3側では、処理装置5の運用中、再び複写指示フラ
グOUT1及び再起動指示フラグOUT2のセットを行
なうことになる。そして、タイミングT17において再
び障害が発生した場合、再びタイミングT18における
状況情報の複写及び再起動が実施され、タイミング19
におけるIPL処理、タイミングT20における運用開
始が実施される。このように、再起動を複数回許容する
場合、2度目以降の再起動の際、状況情報の複写を実行
しない、もしくは磁気ディスク9上の異なる領域に複写
することにより、最初に発生した障害に関する状況情報
が失われる事態を回避することができる。
After the execution of the IPL process, the processing device 5 starts operation at timing T16. During the operation of the processing device 5, the operator conversation device 3 sets the copy instruction flag OUT1 and the restart instruction flag OUT2 again. If a failure occurs again at timing T17, copying and restarting of the status information at timing T18 are performed again, and
, And operation start at timing T20. As described above, when the restart is permitted a plurality of times, the status information is not copied at the time of the second and subsequent restarts or is copied to a different area on the magnetic disk 9 so that the failure which occurred first may be performed. The situation in which the situation information is lost can be avoided.

【0039】磁気ディスク9上の異なる領域(例えばフ
ァイル名称の変更による領域の変更)に状況情報を格納
する場合、再起動実行手段22に障害の発生回数をカウ
ントするカウンタを用意する。そして、障害が発生して
状況情報の複写を実施する場合、再起動実行手段22
は、カウンタの値をパラメータとして、磁気ディスク9
上の所定の領域に状況情報の記録を実施する。更に再起
動実行手段22は、状況情報の複写を実行する度に、カ
ウンタのカウントアップを実施する。このため、パラメ
ータが逐次変化することになり、磁気ディスク9上の領
域も重複することなく変化させることができる。
When the status information is stored in a different area on the magnetic disk 9 (for example, an area change due to a file name change), the restart execution means 22 is provided with a counter for counting the number of times a failure has occurred. Then, when a failure occurs and the status information is copied, the restart execution unit 22
Is a magnetic disk 9 using a counter value as a parameter.
The status information is recorded in the upper predetermined area. Further, the restart executing means 22 counts up the counter every time the status information is copied. Therefore, the parameters change sequentially, and the area on the magnetic disk 9 can be changed without overlapping.

【0040】[0040]

【発明の効果】以上構成の本発明の計算機システムによ
ると、処理装置に障害が発生した場合、障害の内容を把
握するために利用する状況情報の保存及び処理装置の再
起動をセットされたフラグに基づいて再起動を行ない、
その後、状況情報の保存及び再起動を防止するためフラ
グをリセットに設定するため、無人で運用されているシ
ステムにおいても、後に障害の解析作業等を行なうこと
ができ、更に障害が連続的に発生したために最初の障害
に基づく状況情報が破壊されてしまう恐れが無くなる。
According to the computer system of the present invention having the above configuration,
Then , if a failure occurs in the processing unit, save the status information used to understand the content of the failure and restart the processing unit.
Perform a restart based on the flag that was set to start,
After that, to save the status information and prevent restart ,
Because the resetting is set to reset , even in an unattended system, failure analysis work and the like can be performed later, and furthermore, since the failures occur continuously, the situation information based on the first failure is destroyed. Eliminate the risk of

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明に係る計算機システムのブロック図であ
る。
FIG. 1 is a block diagram of a computer system according to the present invention.

【図2】従来の計算機システムの構成図である。FIG. 2 is a configuration diagram of a conventional computer system.

【図3】動作選択設定手段の構成図である。FIG. 3 is a configuration diagram of an operation selection setting unit.

【図4】再起動実行手段の動作フローチャートである。FIG. 4 is an operation flowchart of a restart execution unit.

【図5】本発明に係る第1のタイミングチャートであ
る。
FIG. 5 is a first timing chart according to the present invention.

【図6】本発明に係る第2のタイミングチャートであ
る。
FIG. 6 is a second timing chart according to the present invention.

【符号の説明】[Explanation of symbols]

2 システム制御装置 3 オペレータ会話装置 5 処理装置 6 プロセッサ 7 主記憶装置 8 ディスク装置 21 障害検出手段 22 再起動実行手段 23 動作選択設定手段 2 System control device 3 Operator conversation device 5 Processing device 6 Processor 7 Main storage device 8 Disk device 21 Failure detection means 22 Restart execution means 23 Operation selection setting means

Claims (1)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 予め設定された所定の処理を実行するプ
ロセッサと、 当該プロセッサの参照する情報を記憶する二次記憶装置
を備えた処理装置と、 前記処理装置の障害検出及び障害復旧を行うシステム制
御装置とを備え、 前記システム制御装置は、 前記処理装置の障害を検出する障害検出手段と、前記処理装置の状態を示す障害情報を前記二次記憶装置
に格納する指示を与えるための複写指示フラグを記憶す
る第1の記憶手段と、 前記プロセッサの再立ち上げを指示する再起動指示フラ
グを記憶する第2の記憶手段と、 前記処理装置の運用開始時に前記第1及び第2の記憶手
段に前記複写指示フラグ及び前記再起動指示フラグをそ
れぞれセットするフラグセット手段と、 前記障害検出手段による障害発生の検出に応答して、前
記第1及び第2の記憶手段に記憶された前記複写指示フ
ラグ及び前記再起動指示フラグの状態を読み取り、前記
複写指示フラグがセットされているときは前記障害情報
を前記二次記憶装置に格納する処理及び前記複写指示フ
ラグのリセットを行い、前記再起動指示フラグがセット
されているときは前記プロセッサを再立ち上げする再起
動処理及び前記再起動指示フラグのリセットを行う手段
を有することを特徴とする計算機システム。
1. A processor that executes a predetermined process that is set in advance, a processing device that includes a secondary storage device that stores information referred to by the processor, and a system that detects and recovers from a failure in the processing device. and a control unit, the system control equipment, the process and the failure detection means for detecting a failure of the apparatus, said processing said secondary storage device failure information indicating the state of the device
Stores a copy instruction flag for giving an instruction to store in
A first storage unit, and a restart instruction flag for instructing a restart of the processor.
Second storage means for storing the first and second storage means when the operation of the processing apparatus is started.
The column indicates the copy instruction flag and the restart instruction flag.
A flag setting means for setting each of them; and
The copy instruction file stored in the first and second storage means.
Read the status of the lag and the restart instruction flag,
If the copy instruction flag is set, the failure information
For storing in the secondary storage device and the copy instruction file.
Reset the lag and set the restart instruction flag.
Restart the processor if it has been
For performing dynamic processing and resetting the restart instruction flag
A computer system comprising:
JP3057804A 1991-02-28 1991-02-28 Computer system Expired - Lifetime JP2849780B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3057804A JP2849780B2 (en) 1991-02-28 1991-02-28 Computer system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3057804A JP2849780B2 (en) 1991-02-28 1991-02-28 Computer system

Publications (2)

Publication Number Publication Date
JPH04274528A JPH04274528A (en) 1992-09-30
JP2849780B2 true JP2849780B2 (en) 1999-01-27

Family

ID=13066105

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3057804A Expired - Lifetime JP2849780B2 (en) 1991-02-28 1991-02-28 Computer system

Country Status (1)

Country Link
JP (1) JP2849780B2 (en)

Also Published As

Publication number Publication date
JPH04274528A (en) 1992-09-30

Similar Documents

Publication Publication Date Title
US4852092A (en) Error recovery system of a multiprocessor system for recovering an error in a processor by making the processor into a checking condition after completion of microprogram restart from a checkpoint
JPH08227368A (en) Job reexecution system
JP2849780B2 (en) Computer system
JPS6363935B2 (en)
JPS6215897B2 (en)
JPS59119450A (en) Machine check processing system
JP3263987B2 (en) Automatic IPL initial setting processing method
JPH052499A (en) Job trouble re-processing system of information processor
JPH0410654B2 (en)
JPH0769847B2 (en) Job control method during rerun
JPH0395634A (en) Restart control system for computer system
JPS5837583B2 (en) information processing equipment
JPH0244436A (en) Information processing monitoring system
JPH0652012A (en) Information processor having diagnostic function for peripheral part of device
JPH05191496A (en) Fault diagnostic system
JPS62284440A (en) Software resource maintenance system for terminal equipment
JP2684966B2 (en) I / O processor debug device
JPH03225434A (en) Job reactuation system
JPS6146535A (en) Pseudo error setting control system
JPH0149975B2 (en)
JPS62107354A (en) Microprogram control device
JPH04246711A (en) Fault restoration system for personal computer
JPH076103A (en) Fault processing system for input/output channel
JPH02280251A (en) System for loading initial program
JPS62194549A (en) Cpu-io parallel working simulation system