JPH08287030A - Device and method for automatically restarting multiple computer system - Google Patents

Device and method for automatically restarting multiple computer system

Info

Publication number
JPH08287030A
JPH08287030A JP7109113A JP10911395A JPH08287030A JP H08287030 A JPH08287030 A JP H08287030A JP 7109113 A JP7109113 A JP 7109113A JP 10911395 A JP10911395 A JP 10911395A JP H08287030 A JPH08287030 A JP H08287030A
Authority
JP
Japan
Prior art keywords
restart
computer
signal
computer system
start signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7109113A
Other languages
Japanese (ja)
Inventor
Masaaki Sato
正明 佐藤
Yuji Ito
裕司 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP7109113A priority Critical patent/JPH08287030A/en
Publication of JPH08287030A publication Critical patent/JPH08287030A/en
Pending legal-status Critical Current

Links

Landscapes

  • Retry When Errors Occur (AREA)
  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)

Abstract

PURPOSE: To improve the operation rate and reliability of a multiple computer system by automatically restarting a stopped CPU when system down occurs in the system. CONSTITUTION: The multiple computer system is provided with a system down judging means 104 arranged on the outside of the system and capable of checking the combination of abnormal states of computers causing system down based upon state signals inputted from respective computers and judging whether system down occurs or not, a restart signal processing means 107 for outputting restart signals 111 as reset start signals at the time of a 1st restart request or as initializing start signals at the time of a 2nd restart request or after, and when the number of restart requests reaches a prescribed value, giving up the restart and plural memories 112 for storing the contents of a main storage device by computers having received the reset start signals.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、多重系計算機システム
(マルチシステム)の自動再起動装置および方法に係
り、特に、システムダウン発生時に、停止した中央処理
装置(CPU)に自動的に再起動要求を行なう多重系計
算機システムの自動再起動装置および方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an automatic restarting apparatus and method for a multi-system computer system (multi-system), and more particularly, to automatically restarting a stopped central processing unit (CPU) when a system down occurs. The present invention relates to an automatic restart apparatus and method for a multi-system computer system that makes a request.

【0002】[0002]

【従来の技術】従来の3重系計算機システムは、図7に
示すように、CPU1(701)、CPU2(70
2)、CPU3(703)の各計算機が相互に接続さ
れ、システムの状態監視を次のようにして行なう。 CPU2(702)、CPU3(703)の計算機の
状態監視は、ライン704、705を介して、CPU1
(701)のプログラムにより行なう。 CPU1(701)、CPU3(703)の計算機の
状態監視は、ライン706、707を介して、CPU2
(702)のプログラムにより行なう。 CPU1(701)、CPU2(702)の計算機の
状態監視は、ライン708、709を介して、CPU3
(703)のプログラムにより行なう。 上記、、の監視結果により、いずれかのCPUに
異常が発生すると、当該CPUは、自動停止するか、ま
たは、他のCPUによりシステムから切り離される。こ
のように、従来のシステムの状態監視は、マルチシステ
ム内に発生した障害に対して、相互のCPUで監視処理
し合うことによって対応していた。また、マルチシステ
ムの内部でシステム異常時の処理を行なう場合には、シ
ステムダウン(マルチシステム全体として機能を維持で
きない状態)に対して、何らかの有効な対処はできず、
手動によって復旧するしかなかった。
2. Description of the Related Art As shown in FIG. 7, a conventional triple computer system has a CPU1 (701) and a CPU2 (70).
2), the computers of the CPU 3 (703) are connected to each other, and the system status is monitored as follows. The computer status monitoring of the CPU2 (702) and the CPU3 (703) is performed by the CPU1 through the lines 704 and 705.
This is performed by the program of (701). The computer status monitoring of the CPU1 (701) and the CPU3 (703) is performed by the CPU2 via the lines 706 and 707.
This is performed by the program of (702). The computer status monitoring of the CPU1 (701) and the CPU2 (702) is performed by the CPU3 via the lines 708 and 709.
This is performed by the program of (703). If an abnormality occurs in any of the CPUs as a result of the above monitoring results, the CPU is automatically stopped or is disconnected from the system by another CPU. As described above, the conventional system state monitoring has dealt with a failure occurring in the multi-system by mutual monitoring processing by the mutual CPUs. In addition, when performing processing at the time of system abnormality inside the multi-system, some effective measures cannot be taken against the system down (state in which the function of the multi-system as a whole cannot be maintained).
There was no choice but to recover manually.

【0003】[0003]

【発明が解決しようとする課題】したがって、従来の技
術には、次のような課題がある。すなわち、 システムは多重化されても、ソフトは同一のものを
使用するので、バグが発生した場合、そのソフトを搭載
する全CPUで同一のバグが発生する可能性があり、従
って、ソフトは実質的には一重化しかされていないと言
える。このため、ソフト障害は、複数のCPUおいて同
時発生する可能性があり、この場合、システムダウンに
至るケースがある。 システムダウンした場合には、基本的に手動によっ
て再起動するため、手間がかかり、対応に際してのミス
が生ずると、正常に再立ち上げできないケースもある。
Therefore, the conventional techniques have the following problems. In other words, even if the system is multiplexed, the same software is used, so if a bug occurs, the same bug may occur in all CPUs equipped with that software. It can be said that it is only unified. Therefore, a soft failure may occur simultaneously in a plurality of CPUs, and in this case, the system may be down. When the system goes down, it is basically restarted manually, so it takes time and trouble, and if an error occurs in handling, there are cases where the system cannot be restarted normally.

【0004】本発明の目的は、多重系計算機システムに
おいて、システムダウンが発生したとき、停止したCP
Uを自動的に再起動し、システムの稼働率を上げ、信頼
性を向上させることにある。
An object of the present invention is, in a multi-computer system, a CP which is stopped when a system down occurs.
It is to restart U automatically, improve the operating rate of the system, and improve the reliability.

【0005】[0005]

【課題を解決するための手段】上記目的は、多重系計算
機システムの外部に設置するとともに、各計算機から取
り込む状態信号を元に、システムダウンに至る計算機の
異常の組合せをチェックし、システムダウンか否かを判
定するシステムダウン判定手段と、一度目の再起動要求
であれば、リセット起動信号として、二度目以降の再起
動要求であれば、初期化起動信号として、再起動信号を
出力する再起動信号処理手段を具備することによっ
て、、達成される。
The above-mentioned object is to install the system outside a multi-system computer system, check the combination of computer abnormalities leading to the system down based on the status signal fetched from each computer, and check whether the system is down. A system down determination means for determining whether or not a restart signal is output as a reset start signal for a first restart request, and as a reset start signal for a second or subsequent restart request. This is achieved by providing the activation signal processing means.

【0006】[0006]

【作用】本発明は、システムダウン判定手段および再起
動信号処理手段を多重系計算機システムの外部システム
として設け、システムダウン判定手段では、複数の計算
機の状態信号をそれぞれ取り込み、この状態信号の組合
せによってシステムダウンの検出を行なうため、システ
ムダウンの監視が確実かつ容易である。また、再起動信
号処理手段では、システムダウン検出時に、ダウンした
特定の計算機に対し、再起動信号としてリセット起動信
号と初期化起動信号を与えるため、多重系計算機システ
ムの機能復旧を自動的にかつ素早く行なう。これによ
り、システムの稼働率を上げ、信頼性を向上させること
が可能となる。
According to the present invention, the system down judging means and the restart signal processing means are provided as an external system of the multi-computer system, and the system down judging means fetches the status signals of a plurality of computers respectively, and combines them by the status signals. Since the system down is detected, the system down can be monitored reliably and easily. Further, the restart signal processing means, when a system down is detected, gives a reset start signal and an initialization start signal as restart signals to a specific computer that has gone down, so that the function recovery of the multi-system computer system is automatically and automatically performed. Do it quickly. As a result, it becomes possible to increase the operating rate of the system and improve the reliability.

【0007】[0007]

【実施例】以下、本発明の実施例を図面を用いて説明す
る。図1は、本発明の一実施例を示す多重系計算機シス
テム(以下、マルチシステムと称する。)のブロック図
である。図1において、101はCPU1、102はC
PU2、103はCPUn、104はシステムダウン判
定部、107は再起動信号処理部、112は主記憶装置
(図示せず)の内容をセーブするDISC(1,2,
n)を示す。システムダウン判定部(104)は、CP
U1,2,nからなるマルチシステムの外部に設置さ
れ、各CPU1,2,n(101,102,103)か
ら状態信号(105)を取り込み、システムダウンに至
るあらゆるCPU異常、例えば、 全CPU(オンライン運転中、オフライン運転中)の
停止 オンライン運転中(バックアップ待機中を含む)の全
CPUの停止 オンライン運転に必要不可欠な機能を有するCPUの
停止(複数のCPUで機能を分散している場合) の組合せをチェックする。システムダウンと判定された
場合は、システムダウン信号(106)を発生する。再
起動信号処理部(107)は、CPU1,2,nからな
るマルチシステムの外部に設置されるとともに、再起動
断念判定機構(108)および再起動信号生成機構(1
10)からなる。再起動信号生成機構(110)は、再
起動信号として、最初に主記憶装置等を初期化せずに再
起動する信号(以下、リセット起動信号と称する。)
と、CPUが起動しない場合に主記憶装置等を初期化す
る再起動信号(以下、初期化起動信号と称する。)を発
生し、種別判定して出力する。そこで、一度目の再起動
要求(109)であれば、リセット起動信号として、二
度目以降の再起動要求(109)であれば、初期化起動
信号として、再起動信号(110)を出力する。また、
既に初期化起動信号を一定回数出力している場合には、
再起動断念とし、再起動要求(109)は行なわない。
各CPU1,2,n(101、102、103)は、リ
セット起動信号受信時、リセット起動を行なう前に、主
記憶装置の内容を各セーブ用DISC1,2,n(11
2)に退避させる。また、初期化起動信号を受信した場
合は、主記憶装置の内容の退避は行なわない。
Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram of a multi-system computer system (hereinafter referred to as a multi-system) showing an embodiment of the present invention. In FIG. 1, 101 is a CPU 1 and 102 is a C
PU2 and 103 are CPU n, 104 is a system down determination unit, 107 is a restart signal processing unit, and 112 is a DISC (1, 2 ,,) that saves the contents of a main storage device (not shown).
n) is shown. The system down determination unit (104)
It is installed outside the multi-system consisting of U1,2, n, takes in the status signal (105) from each CPU1,2, n (101,102,103), and causes any system failure, for example, all CPU ( Stopping during online operation or offline operation) Stopping all CPUs during online operation (including backup standby) Stopping CPUs that have essential functions for online operation (when functions are distributed among multiple CPUs) Check the combination of. When it is determined that the system is down, a system down signal (106) is generated. The restart signal processing unit (107) is installed outside the multi-system including the CPUs 1, 2, and n, and the restart abandonment determination mechanism (108) and the restart signal generation mechanism (1).
It consists of 10). As a restart signal, the restart signal generation mechanism (110) is a signal for restarting without first initializing the main storage device or the like (hereinafter, referred to as a reset start signal).
Then, when the CPU does not start, a restart signal (hereinafter, referred to as an initialization start signal) for initializing the main storage device or the like is generated, and the type is determined and output. Therefore, if it is the first restart request (109), the restart signal (110) is output as the reset start signal, and if it is the second or subsequent restart request (109), the restart signal (110) is output as the initialization start signal. Also,
If the initialization start signal has already been output a certain number of times,
The restart is abandoned and the restart request (109) is not made.
When each CPU 1, 2, n (101, 102, 103) receives the reset start signal, the contents of the main storage device are saved for each DISC 1, 2, n (11) before reset start.
Move to 2). When the initialization activation signal is received, the contents of the main storage device are not saved.

【0008】図2に、3重系計算機システムにおけるシ
ステムダウン判定部(104)の動作フローを示す。ま
ず、各CPU(101,102,103)より、CPU
停止信号、ウォッチドッグタイマ(WDT)タイムアウ
ト信号、オンライン状態信号、オフライン状態信号を取
り込む。これらの信号の組合せにより、各CPUがオン
ライン運転中に停止したか(この状態をCPUダウンと
する。)を判定する。次に、この判定結果より、システ
ムダウンに至るCPUダウンの組合せを判定する。ここ
で、本実施例におけるシステムダウンの定義を「オンラ
イン運転中の全CPUの停止」とする。したがって、オ
ンライン状態の2台のCPUがダウンした場合、システ
ムダウンとしてシステムダウン信号(106)を再起動
信号処理部(107)に受け渡す。ところで、3重系計
算機システムのCPU運用形態は、基本的に各CPU
(101,102,103)をそれぞれ常用系、待機
系、オフライン系(試験系または停止)として運用する
ため、システムダウンに至るのは、オンライン運転中で
ある常用系、待機系が共にCPUダウンした場合であ
る。ここでは、システムダウンに至るCPU異常の組合
せとして、常用系、待機系となりうる次の3通りがあ
り、この3通りからCPUダウンの組合せを判定する。 CPU1とCPU2がCPUダウンした場合 CPU1とCPU3がCPUダウンした場合 CPU2とCPU3がCPUダウンした場合 なお、ここでのオンライン、オフラインの定義を下記と
する。 (a)オンライン:制御対象に対する、監視、制御、状
態記録等の業務を直接実施する機能、またはそのモード
の名称。 (b)オフライン:オンラインでない機能、またはその
モードの名称。 このように、本実施例は、システムダウン判定部を多重
系計算機システムの外部システムとして設け、複数の計
算機の状態信号をそれぞれ取り込み、この状態信号の組
合せによってシステムダウンの検出を行なうため、シス
テムダウンの検出は確実かつ容易である。
FIG. 2 shows an operation flow of the system down judging section (104) in the triple computer system. First, from each CPU (101, 102, 103),
It takes in a stop signal, a watchdog timer (WDT) timeout signal, an online status signal, and an offline status signal. Based on the combination of these signals, it is determined whether each CPU has stopped during online operation (this state is referred to as CPU down). Next, a combination of CPU downs leading to system down is determined from this determination result. Here, the definition of system down in this embodiment is defined as "stopping all CPUs during online operation". Therefore, when two CPUs in the online state are down, the system down signal (106) is transferred to the restart signal processing unit (107) as a system down. By the way, the CPU operation form of the triple computer system is basically each CPU
Since (101, 102, 103) are operated as a normal system, a standby system, and an offline system (test system or stop), respectively, the system down occurs when both the normal system and the standby system in online operation are CPU down. This is the case. Here, there are the following three types of combinations of CPU abnormalities that lead to system down, which can be a normal system and a standby system, and the combination of CPU down is determined from these three types. When CPU1 and CPU2 are down CPU When CPU1 and CPU3 are down CPU When CPU2 and CPU3 are down CPU Here, the definitions of online and offline are as follows. (A) Online: The function of directly performing tasks such as monitoring, control, and status recording on the control target, or the name of the mode. (B) Offline: The name of a function or mode that is not online. As described above, in this embodiment, the system down determination unit is provided as an external system of the multi-computer system, the status signals of a plurality of computers are respectively captured, and the system down is detected by the combination of the status signals. Is reliable and easy to detect.

【0009】図3に、3重系計算機システムにおける再
起動信号処理部(107)の動作フローを示す。なお、
本実施例では、一度初期化起動信号を出力してもシステ
ムダウンが回復しない場合に、再起動を断念するものと
する。まず、システムダウン信号(106)の入力によ
り、カウンタのインクリメントおよびタイマの起動を行
なう。タイマは可変とし、CPUが再起動するのに必要
とされる時間を設定しておく。このタイマにより、CP
U再起動が成功したかどうかを判定する。また、カウン
タは再起動信号種別の判定または再起動断念の判定を行
なうために使用する。最初のシステムダウン信号(10
6)が入力されると、カウンタが「1」に設定され、リ
セット起動信号(110)を生成し、停止したCPUに
リセット起動信号が出力される。また、リセット起動信
号を受信したCPUは、リセット起動を行なう前に、主
記憶装置の内容をセーブ用DISCへ退避する。タイマ
に設定された時間が経過し、システムダウン信号(10
6)の入力が継続していれば、再起動失敗とし、再びカ
ウンタのインクリメント、タイマの起動を行なう。シス
テムダウン信号(106)の入力がなくなっていれば、
再起動成功とし、再起動信号処理部(107)の状態を
初期化して終了する。次に、再起動失敗の場合は、再度
のシステムダウン信号(106)の入力により、カウン
タが「2」に設定され、初期化起動信号(110)を生
成し、停止したCPUに初期化起動信号が出力される。
初期化起動信号を受信したCPUは、主記憶装置の内容
を退避せずに、初期化起動を行なう。タイマに設定され
た時間が経過し、システムダウン信号(106)の入力
が継続していれば、再起動失敗とし、再びカウンタのイ
ンクリメント、タイマの起動を行なう。システムダウン
信号(106)の入力がなくなっていれば、再起動成功
とし、再起動信号処理部(107)の状態を初期化して
終了する。次に、再起動失敗の場合は、再度のシステム
ダウン信号(106)の入力により、カウンタが「3」
に設定される。この場合再起動断念とし、システムダウ
ン信号(106)の入力のためのスイッチ(図示せず)
をoffにして再起動信号処理部(107)を無効と
し、再度の再起動信号(110)出力を行なわないよう
にする。また、再起動信号処理部(107)の状態を初
期化して終了する。このように、本実施例は、再起動信
号処理部を多重系計算機システムの外部システムとして
設け、最初のシステムダウンのときは、リセット起動信
号を与え、そして、再起動失敗の場合は、初期化起動信
号を与えるようにしたので、ダウンしたCPUに対し、
適切な再起動信号を与えることとなり、多重系計算機シ
ステムの機能復旧を自動的にかつ素早く行なうことがで
きる。
FIG. 3 shows an operation flow of the restart signal processing section (107) in the triple computer system. In addition,
In this embodiment, if the system down does not recover even if the initialization start signal is output once, the restart is abandoned. First, by inputting the system down signal (106), the counter is incremented and the timer is started. The timer is variable and the time required for the CPU to restart is set. With this timer, CP
U Determine if the restart was successful. Further, the counter is used to determine the restart signal type or the restart abandonment. First system down signal (10
When 6) is input, the counter is set to "1", the reset start signal (110) is generated, and the reset start signal is output to the stopped CPU. Further, the CPU that has received the reset activation signal saves the contents of the main storage device to the save DISC before performing the reset activation. When the time set in the timer elapses, the system down signal (10
If the input in 6) is continued, it is determined that the restart has failed, and the counter is incremented and the timer is started again. If the system down signal (106) is not input,
When the restart is successful, the status of the restart signal processing unit (107) is initialized and the process ends. Next, in the case of the restart failure, the counter is set to "2" by the input of the system down signal (106) again, the initialization start signal (110) is generated, and the initialization start signal is sent to the stopped CPU. Is output.
Upon receiving the initialization start signal, the CPU performs the initialization start without saving the contents of the main storage device. If the time set in the timer has passed and the input of the system down signal (106) continues, it is determined that the restart has failed, the counter is incremented again, and the timer is started again. If the input of the system down signal (106) has disappeared, the restart is considered to be successful, the state of the restart signal processing unit (107) is initialized, and the process ends. Next, if the restart fails, the counter is set to "3" by inputting the system down signal (106) again.
Is set to In this case, the restart is abandoned, and a switch (not shown) for inputting the system down signal (106)
Is turned off to invalidate the restart signal processing unit (107) so that the restart signal (110) is not output again. In addition, the state of the restart signal processing unit (107) is initialized and the process ends. As described above, in this embodiment, the restart signal processing unit is provided as an external system of the multi-computer system, the reset start signal is given at the first system down, and the initialization is performed at the restart failure. Since the start signal is given, the CPU that goes down is
By giving an appropriate restart signal, it is possible to automatically and quickly restore the function of the multi-computer system.

【0010】次に、本実施例の詳細な機器構成を図4、
図5、図6に示す。図4は、多重系計算機システムの全
体の機器構成であり、図4において、各CPU1,2,
n(101,102,103)からシステムダウン判定
部(104)にそれぞれCPU停止信号(201)、ウ
ォッチドッグタイマ(WDT)タイムアウト信号(20
2)、オンライン状態信号(203)、オフライン状態
信号(204)を出力し、システムダウン判定部(10
4)から再起動信号処理部(107)にCPU1ダウン
信号(301)、CPU2ダウン信号(302)、CP
Unダウン信号(303)、システムダウン信号(30
4)を出力し、システムダウン判定部(104)から各
CPU(101,102,103)にリセット起動信号
(401)、初期化起動信号(402)を出力し、各C
PU(101,102,103)から主記憶装置の内容
をセーブするセーブ用DISC1,2,n(112)に
主記憶内容退避要求(405)を出力する。
Next, a detailed device configuration of this embodiment is shown in FIG.
This is shown in FIGS. FIG. 4 shows the overall device configuration of the multi-system computer system. In FIG.
n (101, 102, 103) to the system down determination unit (104), a CPU stop signal (201) and a watchdog timer (WDT) timeout signal (20).
2), the online status signal (203) and the offline status signal (204) are output, and the system down determination unit (10)
4) from the restart signal processing unit (107) to the CPU1 down signal (301), CPU2 down signal (302), CP
Un down signal (303), system down signal (30
4), the system down determination unit (104) outputs a reset activation signal (401) and an initialization activation signal (402) to each CPU (101, 102, 103), and each C
A main memory content save request (405) is output from the PU (101, 102, 103) to the save DISC 1, 2, n (112) for saving the content of the main memory device.

【0011】図5は、3重系計算機システムにおけるシ
ステムダウン判定部(104)の機器構成であり、シス
テムダウン判定部(104)は、CPU1ダウン判定部
(311)、CPU2ダウン判定部(312)、CPU
3ダウン判定部(313)、システムダウンの判定部
(314)からなる。 (1)、まず、CPU1ダウン判定部(311)は、C
PU1(101)から出力されるCPU停止信号(20
1)、ウォッチドッグタイマ(WDT)タイムアウト信
号(202)、オンライン状態信号(203)、オフラ
イン状態信号(204)を取り込む。CPU停止信号
(201)とウォッチドッグタイマ(WDT)タイムア
ウト信号(202)との論理和(OR回路)、さらにオ
ンライン状態信号(203)との論理積(AND回路)
をとり、CPU1(101)がオンライン運転中に停止
したか(この状態をCPUダウンとする。)を判定す
る。CPUダウンしたとき、CPU1ダウン信号(30
1)を出力する。CPU2ダウン判定部(312)、C
PU3ダウン判定部(313)においても同様にCPU
2(102)、CPU3(103)のCPUダウンの判
定を行ない、CPUダウンしたとき、CPU2ダウン信
号(302)、CPU3ダウン信号(303)を出力す
る。ここで、各CPU1,2,3がオフライン状態のと
き、オフライン状態信号(204)によりホールド回路
をリセットする。 (2)、続いて、(1)の判定結果により、システムダ
ウンに至るCPUダウンの組合せを判定する。本実施例
におけるシステムダウンの定義は「オンライン運転(常
用系、待機系)となりうる2台のCPUの停止」として
いるため、CPU1とCPU2のCPUダウン、CPU
2とCPU3のCPUダウン、CPU1とCPU3のC
PUダウンの3通りのCPUダウンの組合せつまり各C
PUダウン信号との論理積(AND回路)をとり、シス
テムダウンの判定部(314)における論理回路(OR
回路、NOTOR回路、AND回路)により、システム
ダウンを判定する。各CPUダウン信号(301,30
2,303)、システムダウン信号(304)は再起同
信号処理部(107)に出力される。
FIG. 5 shows a device configuration of the system down determination unit (104) in the triple computer system. The system down determination unit (104) includes a CPU1 down determination unit (311) and a CPU2 down determination unit (312). , CPU
A 3 down determination unit (313) and a system down determination unit (314). (1) First, the CPU1 down determination unit (311) sets C
CPU stop signal (20) output from PU1 (101)
1), a watchdog timer (WDT) timeout signal (202), an online status signal (203), and an offline status signal (204) are fetched. A logical sum (OR circuit) of the CPU stop signal (201) and the watchdog timer (WDT) timeout signal (202), and a logical product (AND circuit) of the online state signal (203)
Then, it is determined whether the CPU 1 (101) is stopped during the online operation (this state is referred to as CPU down). When the CPU goes down, the CPU1 down signal (30
1) is output. CPU2 down determination unit (312), C
Similarly in the PU3 down determination unit (313)
2 (102), CPU3 (103) CPU down determination is performed, and when the CPU is down, the CPU2 down signal (302) and the CPU3 down signal (303) are output. Here, when each of the CPUs 1, 2, and 3 is in the off-line state, the hold circuit is reset by the off-line state signal (204). (2) Then, based on the determination result of (1), the CPU down combination leading to the system down is determined. The definition of system down in this embodiment is "stop of two CPUs that can be in online operation (regular system, standby system)". Therefore, CPU down of CPU1 and CPU2, CPU down
2 and CPU3 CPU down, CPU1 and CPU3 C
Three combinations of CPU down, PU down, that is, each C
The logical product (AND circuit) with the PU down signal is taken, and the logical circuit (OR) in the system down determination unit (314) is obtained.
Circuit, NOT circuit, AND circuit) to determine system down. Each CPU down signal (301, 30
2, 303) and the system down signal (304) are output to the restarting signal processing unit (107).

【0012】図6は、3重系計算機システムにおける再
起同信号処理部(107)の機器構成であり、再起同信
号処理部(107)は、タイマ(411)、カウンタ
(414)、リセット起動信号発生回路(416)、初
期化起動信号発生回路(417)、リレー回路(41
8)、ホールド回路(419)からなる。 (1)、まず、システムダウン信号(304)が入力さ
れると、カウンタ(414)のインクリメント、および
タイマ(411)の起動(412)を行なう。なお、リ
レー回路(418)はシステムダウン信号入力用のスイ
ッチであり、システムダウン無しまたは復帰時に閉塞、
その状態を保持してシステムダウン信号(304)の入
力を有効とし、再起動断念時(後述)に開放し、システ
ムダウン信号の入力を無効とする。 (2)、初回のシステムダウン信号(304)が入力さ
れると、カウンタが「1」に設定され、リセット起動信
号発生回路(416)が起動する。リセット起動信号発
生回路(416)の出力信号(403)とシステムダウ
ン判定部(104)から出力された各CPUダウン信号
(301,302,303)との論理積(AND回路)
をとり、生成されたリセット起動信号(401)は、ダ
ウンしたCPUに出力される。ここで、ダウンしたCP
Uは、リセット起動信号(401)を受信し、セーブ用
DISC(112)に主記憶内容退避要求(405)を
出力し、主記憶装置の内容をセーブする。 (3)、タイマ(405)に設定された時間が経過する
と、ホールド回路(419)とタイマ(405)自体を
リセット(413)する。この時、システムダウンが復
帰していなければ(再起動失敗)、再度システムダウン
信号(304)が再起動信号処理部(107)に入力さ
れ、ホールド回路(415)をセットし、(1)と同様
にカウンタ(414)のインクリメント、タイマ(41
1)の起動(412)を行う。システムダウンが復帰し
た場合は、カウンタ(414)の状態を初期化し、終了
する。 (4)、再起動失敗の場合、再度のシステムダウン信号
(304)が入力され、カウンタ(414)が「2」に
設定され、初期化起動信号発生回路(417)が起動す
る。初期化起動信号発生回路(417)の出力信号(4
04)とシステムダウン判定部(104)から出力され
た各CPUダウン信号(301,302,303)との
論理積(AND回路)をとり、生成された初期化起動信
号(402)は、ダウンしたCPUに出力される。 (5)、タイマ(405)に設定された時間が経過する
と、ホールド回路(419)とタイマ(405)自体を
リセット(413)する。この時、システムダウンが復
帰していなければ(再起動失敗)、再度システムダウン
信号(304)が再起動信号処理部(107)に入力さ
れ、ホールド回路(419)をセットし、(1)と同様
にカウンタ(414)のインクリメント、タイマ(41
1)の起動(412)を行う。システムダウンが復帰し
た場合は、カウンタ(414)の状態を初期化し、終了
する。 (6)、再起動失敗の場合は、再度のシステムダウン信
号(304)が入力され、カウンタ(414)が「3」
に設定される。この場合を再起動断念とし、システムダ
ウン入力用スイッチであるリレー回路(418)を開放
し、システムダウン信号の入力を無効し、再度の再起動
信号出力を行わないようにするとともに、カウンタ(4
14)の状態を初期化し、終了する。
FIG. 6 shows the equipment configuration of the restart signal processing unit (107) in the triple computer system. The restart signal processing unit (107) includes a timer (411), a counter (414), and a reset start signal. Generating circuit (416), initialization start signal generating circuit (417), relay circuit (41)
8) and a hold circuit (419). (1) First, when the system down signal (304) is input, the counter (414) is incremented and the timer (411) is started (412). The relay circuit (418) is a switch for inputting the system down signal, and is closed when the system is down or when the system is restored.
The input of the system down signal (304) is made valid by keeping this state, opened at the time of giving up restart (described later), and the input of the system down signal is made invalid. (2) When the system down signal (304) for the first time is input, the counter is set to "1" and the reset activation signal generation circuit (416) is activated. Logical product (AND circuit) of the output signal (403) of the reset activation signal generation circuit (416) and each CPU down signal (301, 302, 303) output from the system down determination unit (104)
The reset activation signal (401) thus generated is output to the down CPU. CP down here
The U receives the reset start signal (401), outputs a main memory content save request (405) to the save DISC (112), and saves the content of the main memory device. (3) When the time set in the timer (405) has elapsed, the hold circuit (419) and the timer (405) themselves are reset (413). At this time, if the system down is not recovered (restart failure), the system down signal (304) is input again to the restart signal processing unit (107), the hold circuit (415) is set, and (1) is set. Similarly, the counter (414) is incremented and the timer (41
The activation (412) of 1) is performed. When the system down is restored, the state of the counter (414) is initialized and the process ends. (4) If the restart fails, the system down signal (304) is input again, the counter (414) is set to "2", and the initialization start signal generation circuit (417) is started. The output signal (4) of the initialization start signal generation circuit (417)
04) and the CPU down signals (301, 302, 303) output from the system down determination unit (104), and the generated initialization start signal (402) goes down. It is output to the CPU. (5) When the time set in the timer (405) has elapsed, the hold circuit (419) and the timer (405) themselves are reset (413). At this time, if the system down is not recovered (restart failure), the system down signal (304) is input again to the restart signal processing unit (107), the hold circuit (419) is set, and (1) is set. Similarly, the counter (414) is incremented and the timer (41
The activation (412) of 1) is performed. When the system down is restored, the state of the counter (414) is initialized and the process ends. (6) If the restart fails, the system down signal (304) is input again, and the counter (414) is "3".
Is set to In this case, the restart is abandoned, the relay circuit (418) that is the system down input switch is opened, the system down signal input is disabled, and the restart signal output is not performed again.
The state of 14) is initialized and the process ends.

【0013】[0013]

【発明の効果】以上説明したように、本発明によれば、
システムダウン判定部および再起動信号処理部を多重系
計算機システムの外部システムとして設け、複数の計算
機の状態信号をそれぞれ取り込み、この状態信号の組合
せによってシステムダウンの検出を行なうため、システ
ムダウンの監視が確実かつ容易である。また、システム
ダウン検出時に、ダウンした特定のCPUに対し、適切
な再起動信号を与えるため、多重系計算機システムの機
能復旧を自動的にかつ素早く行なうことができる。これ
により、本発明では、システムの稼働率を上げ、信頼性
を向上させることが可能となる。また、本発明では、再
起動実行時に主記憶装置の内容を自動的にセーブ用DI
SCに保存することにより、後のトラブル原因解析に役
立てることが可能となる。
As described above, according to the present invention,
A system down determination unit and a restart signal processing unit are provided as an external system of the multi-system computer system, the status signals of a plurality of computers are respectively captured, and the system down is detected by the combination of these status signals. Reliable and easy. Further, when a system down is detected, an appropriate restart signal is given to the specific CPU that went down, so that the function recovery of the multi-system computer system can be performed automatically and quickly. As a result, in the present invention, it is possible to increase the operating rate of the system and improve the reliability. Further, in the present invention, the contents of the main storage device are automatically saved for DI when the restart is executed.
By storing in the SC, it becomes possible to use it for later trouble cause analysis.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の一実施例を示す多重系計算機システム
のブロック図
FIG. 1 is a block diagram of a multi-system computer system showing an embodiment of the present invention.

【図2】システムダウン判定部の動作フローFIG. 2 is an operation flow of a system down determination unit

【図3】再起動信号処理部(107)の動作フローFIG. 3 is an operation flow of a restart signal processing unit (107).

【図4】多重系計算機システムの全体の機器構成図FIG. 4 is an overall device configuration diagram of a multi-computer system

【図5】システムダウン判定部の機器構成図FIG. 5 is a device configuration diagram of a system down determination unit

【図6】再起同信号処理部の機器構成図FIG. 6 is a device configuration diagram of a restarting signal processing unit.

【図7】従来の3重系計算機システムFIG. 7: Conventional triple computer system

【符号の説明】[Explanation of symbols]

101 CPU1 102 CPU2 103 CPUn 104 システムダウン判定部 107 再起動信号処理部 108 再起動断念判定機構 110 再起動信号生成機構 112 主記憶装置内容セーブ用DISC 311 CPUダウン判定部(CPU1) 312 CPUダウン判定部(CPU2) 313 CPUダウン判定部(CPU3) 314 システムダウンの判定部 411 タイマ 414 カウンタ 416 リセット起動信号発生回路 417 初期化起動信号発生回路 418 リレー回路 419 ホールド回路 101 CPU1 102 CPU2 103 CPUn 104 System down determination unit 107 Restart signal processing unit 108 Restart abandonment determination mechanism 110 Restart signal generation mechanism 112 DISC 311 for saving main memory contents CPU down determination unit (CPU1) 312 CPU down determination unit (CPU2) 313 CPU down determination unit (CPU3) 314 System down determination unit 411 Timer 414 Counter 416 Reset activation signal generation circuit 417 Initialization activation signal generation circuit 418 Relay circuit 419 Hold circuit

Claims (8)

【特許請求の範囲】[Claims] 【請求項1】 複数の計算機から構成される多重系計算
機システムにおいて、該システムの外部に設置するとと
もに、各計算機から取り込む状態信号を元に、システム
ダウンに至る計算機の異常の組合せをチェックし、シス
テムダウンか否かを判定するシステムダウン判定手段
と、一度目の再起動要求であれば、リセット起動信号と
して、二度目以降の再起動要求であれば、初期化起動信
号として、再起動信号を出力する再起動信号処理手段を
具備することを特徴とする多重系計算機システムの自動
再起動装置。
1. In a multi-system computer system composed of a plurality of computers, the computer is installed outside the system, and the abnormal combination of computers leading to system down is checked based on the status signal fetched from each computer. A system down judging means for judging whether or not the system is down, and a restart signal as a reset start signal for the first restart request, and as a reset start signal for the second and subsequent restart requests. An automatic restart device for a multi-system computer system, comprising an output restart signal processing means for outputting.
【請求項2】 請求項1において、再起動要求が所定回
数のとき、再起動信号処理手段の機能を無効にすること
を特徴とする多重系計算機システムの自動再起動装置。
2. The automatic restart device for a multi-system computer system according to claim 1, wherein the function of the restart signal processing means is disabled when the restart request is issued a predetermined number of times.
【請求項3】 請求項1または請求項2において、主記
憶装置の内容をセーブするメモリを設け、各計算機は、
リセット起動信号の受信時、リセット起動を行なう前
に、主記憶装置の内容をメモリに保存し、また、初期化
起動信号の受信時は、主記憶装置の内容を保存しないこ
とを特徴とする多重系計算機システムの自動再起動装
置。
3. The memory according to claim 1 or 2, wherein a memory for saving the contents of the main storage device is provided, and each computer is
When receiving the reset start signal, the contents of the main storage device are saved in the memory before the reset start is performed, and when the initialization start signal is received, the contents of the main storage device are not saved. Computer computer system automatic restart device.
【請求項4】 請求項1から請求項3のいずれかにおい
て、システムダウン判定手段は、各計算機毎に計算機の
異常の組合せをチェックして計算機ダウンを判定する計
算機ダウン判定部と、各計算機ダウンの論理積に基づい
てシステムダウンを判定するシステムダウン判定部を有
することを特徴とする多重系計算機システムの自動再起
動装置。
4. The system down determination means according to claim 1, wherein the system down determination means checks the combination of abnormalities of the computers for each computer to determine the computer down, and each computer down. An automatic restart apparatus for a multi-system computer system, comprising: a system down determination unit that determines a system down based on a logical product of
【請求項5】 請求項1から請求項3のいずれかにおい
て、再起動信号処理手段は、計算機が再起動するに必要
とされる時間を設定するタイマと、再起動要求の回数を
カウントするカウンタと、リセット起動信号を発するリ
セット起動信号発生回路と、初期化起動信号を発する初
期化起動信号発生回路を有し、再起動要求の回数が所定
以上のとき、再起動要求を断念することを特徴とする多
重系計算機システムの自動再起動装置。
5. The restart signal processing means according to claim 1, wherein the restart signal processing means sets a time required for restarting the computer and a counter for counting the number of restart requests. And a reset activation signal generation circuit that issues a reset activation signal and an initialization activation signal generation circuit that issues an initialization activation signal, and abandons the restart request when the number of restart requests is greater than or equal to a predetermined number. Automatic restart device for multi-system computer system.
【請求項6】 複数の計算機から構成される多重系計算
機システムにおいて、各計算機から取り込む状態信号を
元に、システムダウンに至る計算機の異常の組合せをチ
ェックしてシステムダウンか否かを判定し、システムダ
ウンのとき、最初の再起動要求に対してリセット起動信
号を発し、二度目以降の再起動要求に対して初期化起動
信号を発することを特徴とする多重系計算機システムの
自動再起動方法。
6. In a multi-system computer system composed of a plurality of computers, based on a status signal taken from each computer, a combination of computer abnormalities leading to a system down is checked to determine whether or not the system is down. An automatic restart method for a multi-system computer system, wherein when the system is down, a reset start signal is issued in response to the first restart request, and an initialization start signal is issued in response to subsequent restart requests.
【請求項7】 複数の計算機から構成される多重系計算
機システムにおいて、各計算機から取り込む状態信号を
元に、システムダウンに至る計算機の異常の組合せをチ
ェックしてシステムダウンか否かを判定し、システムダ
ウンのとき、最初の再起動要求に対してリセット起動信
号を発し、二度目以降の再起動要求に対して初期化起動
信号を発し、再起動要求が所定回数に達したとき、再起
動要求を断念することを特徴とする多重系計算機システ
ムの自動再起動方法。
7. In a multi-system computer system composed of a plurality of computers, a combination of computer abnormalities leading to a system down is checked based on a status signal fetched from each computer to determine whether or not the system is down. When the system is down, a reset start signal is issued for the first restart request, an initialization start signal is issued for the second and subsequent restart requests, and a restart request is issued when the number of restart requests reaches a predetermined number. A method for automatically restarting a multi-computer system characterized by giving up.
【請求項8】 請求項6または請求項7において、リセ
ット起動信号を受信した計算機は、リセット起動を行な
う前に、主記憶装置の内容を保存することを特徴とする
多重系計算機システムの自動再起動方法。
8. The automatic restart system for a multi-system computer system according to claim 6 or 7, wherein the computer receiving the reset start signal saves the contents of the main storage device before performing the reset start. starting method.
JP7109113A 1995-04-10 1995-04-10 Device and method for automatically restarting multiple computer system Pending JPH08287030A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7109113A JPH08287030A (en) 1995-04-10 1995-04-10 Device and method for automatically restarting multiple computer system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7109113A JPH08287030A (en) 1995-04-10 1995-04-10 Device and method for automatically restarting multiple computer system

Publications (1)

Publication Number Publication Date
JPH08287030A true JPH08287030A (en) 1996-11-01

Family

ID=14501899

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7109113A Pending JPH08287030A (en) 1995-04-10 1995-04-10 Device and method for automatically restarting multiple computer system

Country Status (1)

Country Link
JP (1) JPH08287030A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008112444A (en) * 2006-10-10 2008-05-15 Robert Bosch Gmbh Method for booting/rebooting signal processing system, and signal processing system
JP2008234117A (en) * 2007-03-19 2008-10-02 Fujitsu Ltd Multiprocessor system, and restoration method in multiprocessor system
JP2009003592A (en) * 2007-06-20 2009-01-08 Meidensha Corp Failure detection/recovery system for computer
JP2013168092A (en) * 2012-02-17 2013-08-29 Hitachi Ltd Electronic equipment, soft error resistance evaluation system and evaluation method
JP6279152B1 (en) * 2016-04-01 2018-02-14 三菱電機株式会社 Control device, control system, and control device return processing method
CN117827546A (en) * 2024-03-05 2024-04-05 四川华鲲振宇智能科技有限责任公司 Restarting supervision system and method for control server under Linux system

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008112444A (en) * 2006-10-10 2008-05-15 Robert Bosch Gmbh Method for booting/rebooting signal processing system, and signal processing system
JP2008234117A (en) * 2007-03-19 2008-10-02 Fujitsu Ltd Multiprocessor system, and restoration method in multiprocessor system
JP2009003592A (en) * 2007-06-20 2009-01-08 Meidensha Corp Failure detection/recovery system for computer
JP2013168092A (en) * 2012-02-17 2013-08-29 Hitachi Ltd Electronic equipment, soft error resistance evaluation system and evaluation method
JP6279152B1 (en) * 2016-04-01 2018-02-14 三菱電機株式会社 Control device, control system, and control device return processing method
CN117827546A (en) * 2024-03-05 2024-04-05 四川华鲲振宇智能科技有限责任公司 Restarting supervision system and method for control server under Linux system
CN117827546B (en) * 2024-03-05 2024-05-31 四川华鲲振宇智能科技有限责任公司 Restarting supervision system and method for control server under Linux system

Similar Documents

Publication Publication Date Title
JP2552651B2 (en) Reconfigurable dual processor system
US6393582B1 (en) Error self-checking and recovery using lock-step processor pair architecture
US5896523A (en) Loosely-coupled, synchronized execution
JP2880165B2 (en) Apparatus for monitoring an automotive computer system comprising two processors
WO2020239060A1 (en) Error recovery method and apparatus
KR100928187B1 (en) Fault-safe structure of dual processor control unit
JPH08287030A (en) Device and method for automatically restarting multiple computer system
JPH07306794A (en) Distributed system and enhancing method for reliability
KR100279204B1 (en) Dual Controlling Method of Local Controller for An Automatic Control System and an Equipment thereof
JP3313667B2 (en) Failure detection method and method for redundant system
JP3332098B2 (en) Redundant processor unit
JP2998804B2 (en) Multi-microprocessor system
JP2785992B2 (en) Server program management processing method
JPH0630069B2 (en) Multiplexing system
JP3415636B2 (en) Processor unit
JPH01310422A (en) Resetting circuit for microcomputer
JP4613019B2 (en) Computer system
JP2001175545A (en) Server system, fault diagnosing method, and recording medium
JPH08263455A (en) Degrading method for fault processor in multiprocessor system
JP2578908B2 (en) Restart method
JP2815730B2 (en) Adapters and computer systems
JPS6123247A (en) Error report system
JPH05158905A (en) Microprocessor application device having distributed processing function
JPS62212865A (en) Multiprocessor control system
JP3110177B2 (en) Dual computer system