JP2005108034A - Computer system - Google Patents

Computer system Download PDF

Info

Publication number
JP2005108034A
JP2005108034A JP2003342544A JP2003342544A JP2005108034A JP 2005108034 A JP2005108034 A JP 2005108034A JP 2003342544 A JP2003342544 A JP 2003342544A JP 2003342544 A JP2003342544 A JP 2003342544A JP 2005108034 A JP2005108034 A JP 2005108034A
Authority
JP
Japan
Prior art keywords
computer
response
reset
signal
failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003342544A
Other languages
Japanese (ja)
Inventor
Tsutomu Igarashi
強 五十嵐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2003342544A priority Critical patent/JP2005108034A/en
Publication of JP2005108034A publication Critical patent/JP2005108034A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a computer system which can seek a cause of failure easily when the failure occurs in a computer, and also can surely make the computer resume the operation. <P>SOLUTION: When a fault surveillance object computer is in a communicable state in which at least neither memory dump nor fault diagnosis is carried out, if the computer does not make a response and decided to be in a fault, an interruption signal is outputted so as to make the computer carry out restart processing, and if it is decided that there is no response from the computer after that, a reset signal is outputted so as to make the computer carry out restarting. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

計算機システムにおいて、稼働中の計算機に障害が発生したときの障害対策技術に関する。   The present invention relates to failure countermeasure technology when a failure occurs in an operating computer in a computer system.

従来、計算機システムにおいて、稼働中の計算機で障害が発生した場合の対策として、次のような技術があった。   Conventionally, in a computer system, there have been the following techniques as a countermeasure when a failure occurs in an operating computer.

従プロセッサが正常に動作しているか否かを主プロセッサが定期的に問い合わせ確認し、従プロセッサからの応答がない場合には、主プロセッサが従プロセッサで障害が発生したとして認識し、従プロセッサをリセットして再立ち上げする(特許文献1、段落0010〜段落0016、図1、図2)。   The main processor periodically inquires and confirms whether or not the slave processor is operating normally. If there is no response from the slave processor, the master processor recognizes that the slave processor has failed. Reset and restart (Patent Document 1, paragraphs 0010 to 0016, FIGS. 1 and 2).

計算機の故障にはハードウェアの障害に起因するハードウェア障害とソフトウェアの障害に起因するソフトウェア障害とがあり、上記従来の技術では障害が発生した場合には一律にプロセッサをリセットして再立ち上げしており、障害の原因追及が容易でなかった。   There are two types of computer failures: hardware failure due to hardware failure and software failure due to software failure. In the above conventional technology, if a failure occurs, the processor is uniformly reset and restarted. The cause of the failure was not easily pursued.

また、二重系の計算機システムにおいて、障害が発生した計算機自身がメモリダンプ(クラッシュダンプ)をしてメモリの状態を採取しているとき、一時的に一方の計算機だけでシステムを運用し、もう一方の計算機が自身の故障診断(テスト)をしているとき等では、上記従来の障害対策を実施すると計算機が再稼働できない等の重大な障害を発生する可能性があった。
特開平6−236299号
Also, in a dual computer system, when the failed computer itself is performing a memory dump (crash dump) and collecting the memory status, the system is temporarily operated with only one computer, When one of the computers is performing its own failure diagnosis (test), a serious failure such as the computer being unable to restart may occur if the conventional failure countermeasures are implemented.
JP-A-6-236299

本発明は、計算機の障害の原因追及を容易にすると共に、確実に計算機を再稼働させることができる計算機システムを提供することを目的とする。   An object of the present invention is to provide a computer system that facilitates pursuing the cause of a failure of a computer and can reliably restart the computer.

本発明による計算機システムは、障害監視対象の計算機が少なくともメモリダンプ及び故障診断をしていない通信可能状態であるか否かを判断する通信可能状態判断手段と、計算機が通信可能状態のときに、計算機に動作確認信号を出力する動作確認信号出力手段と、動作確認信号出力手段が計算機に対して動作確認信号を出力した後、計算機からの応答の有無を判断する第一の応答判断手段と、第一の応答判断手段が計算機からの応答が無いと判断したとき、計算機に対して再立ち上げ処理をさせるための割り込み信号を出力する割り込み手段と、割り込み手段が計算機に対して割り込み信号を出力した後、計算機からの応答の有無を判断する第二の判断手段と、第二の判断手段が計算機からの応答が無いと判断したとき、計算機に対してリセット信号を出力するリセット手段とを具備することを特徴とする。   The computer system according to the present invention includes a communicable state determining means for determining whether or not a computer to be monitored for failure is in a communicable state in which at least a memory dump and a fault diagnosis are not performed, and when the computer is in a communicable state, An operation confirmation signal output means for outputting an operation confirmation signal to the computer, and a first response determination means for determining whether or not there is a response from the computer after the operation confirmation signal output means outputs an operation confirmation signal to the computer; When the first response determination means determines that there is no response from the computer, an interrupt means for outputting an interrupt signal for causing the computer to restart processing, and the interrupt means outputs an interrupt signal to the computer. After that, when the second judging means for judging whether or not there is a response from the computer and the second judging means judges that there is no response from the computer, Characterized by comprising a reset means for outputting a set signal.

本発明によれば、計算機の障害の原因追及を容易にすると共に、確実に計算機を再稼働させることができる計算機システムを提供できる。   According to the present invention, it is possible to provide a computer system that facilitates pursuing the cause of a failure of a computer and can reliably restart the computer.

以下、本発明の実施例を図面を参照して説明する。   Embodiments of the present invention will be described below with reference to the drawings.

以下、図面を参照して本発明の第1の実施例を詳細に説明する。 図1は、二重系計算機システムを示す図である。計算機(A)1と計算機(B)2とが互いにLAN3を介して相互に接続し二重系計算機システムを構成している。二重系計算機システムは、一方を稼働系計算機(オンライン状態の計算機)、他方を待機系計算機(スタンバイ状態の計算機)として構成する。計算機(A)1と計算機(B)2とは相互に、計算機間通信信号100,101、リセット信号102,103、割り込み信号104,105、ステータス信号106,107を送受信している。 Hereinafter, a first embodiment of the present invention will be described in detail with reference to the drawings. FIG. 1 is a diagram showing a dual computer system. A computer (A) 1 and a computer (B) 2 are connected to each other via a LAN 3 to constitute a dual system computer system. One of the dual computer systems is configured as an active computer (online computer) and the other as a standby computer (standby computer). The computer (A) 1 and the computer (B) 2 mutually transmit and receive communication signals 100 and 101 between computers, reset signals 102 and 103, interrupt signals 104 and 105, and status signals 106 and 107.

図2は、図1に示した計算機(B)2の詳細を示す図である。計算機(A)1の構成もこの図2に示した構成と同一である。 システムバス17を介して、第1コントローラ10、第2コントローラ111、プロセッサ12、メモリ13、I/Oコントローラ14、ネットワークインタフェース15が相互に接続されている。I/Oコントローラ14には、磁気ディスク装置(HDD)16が接続されている。   FIG. 2 is a diagram showing details of the computer (B) 2 shown in FIG. The configuration of the computer (A) 1 is the same as that shown in FIG. The first controller 10, the second controller 111, the processor 12, the memory 13, the I / O controller 14, and the network interface 15 are connected to each other via the system bus 17. A magnetic disk device (HDD) 16 is connected to the I / O controller 14.

第1コントローラ10は、図示しない計算機A1からの動作確認信号100、リセット信号102、割り込み信号104、ステータス信号106を受信している。一方、第1コントローラ10は、図示しない計算機A1に動作確認信号101、割り込み信号103、リセット信号105、ステータス信号107を送信している。 第1コントローラ10から第2コントローラ11にリセット信号102が出力される。また、第1コントローラ10からプロセッサ12に割り込み信号104が出力される。   The first controller 10 receives an operation confirmation signal 100, a reset signal 102, an interrupt signal 104, and a status signal 106 from a computer A1 (not shown). On the other hand, the first controller 10 transmits an operation confirmation signal 101, an interrupt signal 103, a reset signal 105, and a status signal 107 to a computer A1 (not shown). A reset signal 102 is output from the first controller 10 to the second controller 11. The interrupt signal 104 is output from the first controller 10 to the processor 12.

図3は、第2コントローラ11の詳細を示す図である。第2コントローラ11は、外部リセットフリップフロップ回路111、パワーオンリセット回路112、OR回路113から構成されている。 外部リセットフリップフロップ回路111は、第1コントローラ10から出力されたリセット信号102を入力してセットし、そのセット出力をOR回路113に出力している。パワーオンリセット回路112は、この計算機(B)2の電源がONされたとき又はリセットされたときにリセット信号をOR回路113に出力する。OR回路113は、外部リセットフリップフロップ回路111から出力されたセット出力信号とパワーオンリセット回路112から出力されたリセット信号とをOR処理してリセット信号102として出力する。尚、図3において、システムバス17とのインタフェースに関連する回路の図示を省略している。   FIG. 3 is a diagram showing details of the second controller 11. The second controller 11 includes an external reset flip-flop circuit 111, a power-on reset circuit 112, and an OR circuit 113. The external reset flip-flop circuit 111 receives and sets the reset signal 102 output from the first controller 10, and outputs the set output to the OR circuit 113. The power-on reset circuit 112 outputs a reset signal to the OR circuit 113 when the power source of the computer (B) 2 is turned on or reset. The OR circuit 113 ORs the set output signal output from the external reset flip-flop circuit 111 and the reset signal output from the power-on reset circuit 112 and outputs the result as the reset signal 102. In FIG. 3, the illustration of circuits related to the interface with the system bus 17 is omitted.

図4は、ステータス信号107の状態とその状態に対応して計算機が通信可能の状態にあるか否かを示す図である。ステータス信号107は、その計算機が稼働状態であるか否かを示す1ビットと、その計算機がメモリダンプをしている状態であるか否かを示す1ビットと、その計算機が故障診断(テスト)をしている状態であるか否かを示す1ビットの3ビットで構成される信号である。第4図において、「1」と表示されているのは、その状態がセットされていることを示し、「0」と表示されているのは、その状態がリセットされていることを示す。第4図に示すように、その計算機が稼働状態(オンライン状態)で、しかもメモリダンプがされていなく、且つテスト(診断)状態でもない場合に、その計算機が通信可能状態であり、それ以外の状態ではその計算機は通信ができない不可の状態である。   FIG. 4 is a diagram showing the state of the status signal 107 and whether or not the computer is in a communicable state corresponding to the state. The status signal 107 includes 1 bit indicating whether or not the computer is in an operating state, 1 bit indicating whether or not the computer is performing a memory dump, and the computer performs a fault diagnosis (test). It is a signal composed of 1 bit 3 bits indicating whether or not In FIG. 4, "1" is displayed when the state is set, and "0" is displayed when the state is reset. As shown in FIG. 4, when the computer is in the operating state (online state), the memory dump is not performed, and it is not in the test (diagnosis) state, the computer is in a communicable state. In this state, the computer cannot communicate.

次に図5、図6、図7、図8に示したフローチャートに基づいて、二重系計算機システムにおいて稼働系である計算機(B)2が故障した場合の動作を説明する。図5は待機系である計算機(A)1の動作を説明するためのフローチャートである。図6は稼働系である計算機(B)2の割り込み処理の動作を説明するためのフローチャートである。図7は計算機(B)2のリセット受付処理の動作を説明するためのフローチャートである。図8は計算機(B)2のリセット処理の動作を説明するためのフローチャートである。   Next, based on the flowcharts shown in FIG. 5, FIG. 6, FIG. 7, and FIG. 8, the operation when the computer (B) 2 that is the active system fails in the dual computer system will be described. FIG. 5 is a flowchart for explaining the operation of the computer (A) 1 which is a standby system. FIG. 6 is a flowchart for explaining the interrupt processing operation of the computer (B) 2 which is the active system. FIG. 7 is a flowchart for explaining the operation of the reset acceptance process of the computer (B) 2. FIG. 8 is a flowchart for explaining the reset processing operation of the computer (B) 2.

待機系である計算機(A)1は、稼働系である計算機(B)2の故障の発生を監視し、故障が発見された場合には、その対策を実施するよう動作する。まず、計算機(A)1は、
ステータス信号107をチェックして計算機(B)2と通信可能状態であるか否かを判断する。(図5ステップS46)。図4に示したように、計算機(B)2が稼働状態(オンライン状態)で、しかもメモリダンプがされていなく、且つテスト(診断)状態でもない場合に、通信可能状態と判断し、それ以外の場合には通信不可の状態と判断する。計算機(B)2が通信可能な状態の場合には、ステップS50に進み、通信不可の状態の場合にはステップS47に進む。ステップS47では計算機(B)2のメモリダンプや診断が終了するのを待つことを目的として一定時間待機する。この待機時間はそのシステムごとに異なる。一定時間後 ステップS48において、ステータス信号107をチェックして通信可能状態であるか否かを判断する。通信可能な状態の場合には、ステップS50に進む。、通信不可の状態の場合には計算機(B)2がロック状態と判断し、続くステップS49にて強制的にステップを進めたことを示すフラグをセットして、ステップS50に進む。
The computer (A) 1 that is a standby system monitors the occurrence of a failure in the computer (B) 2 that is an active system, and operates to take countermeasures when a failure is found. First, the computer (A) 1 is
The status signal 107 is checked to determine whether or not communication with the computer (B) 2 is possible. (FIG. 5, step S46). As shown in FIG. 4, when the computer (B) 2 is in an operating state (online state), a memory dump is not performed, and it is not in a test (diagnosis) state, it is determined that communication is possible, and the others In this case, it is determined that communication is not possible. If the computer (B) 2 is in a communicable state, the process proceeds to step S50. If the computer (B) 2 is in a communicable state, the process proceeds to step S47. In step S47, the computer (B) 2 waits for a certain period of time for the purpose of waiting for the completion of the memory dump or diagnosis. This waiting time varies from system to system. After a certain time, in step S48, the status signal 107 is checked to determine whether or not communication is possible. If the communication is possible, the process proceeds to step S50. If the communication is impossible, the computer (B) 2 determines that the lock is in effect, sets a flag indicating that the step has been forcibly advanced in step S49, and then proceeds to step S50.

次に計算機(A)1は、計算機(B)2に動作確認信号100を出力する(ステップS50)。その後、計算機(A)1は、動作確認信号100の応答として計算機(B)2から出力される動作確認信号101の受信の有無をチェックして計算機(B)2からの応答の有無をチェックする(ステップS51)。計算機(A)1が動作確認信号101を受信した場合には、計算機(B)2から応答ありと判断しステップS46へ戻る(ステップS51のY)。また、計算機(A)1が動作確認信号101を受信できない場合には、計算機(B)2から応答がなく故障していると判断しステップS52進む(ステップS51のN)。   Next, the computer (A) 1 outputs the operation confirmation signal 100 to the computer (B) 2 (step S50). Thereafter, the computer (A) 1 checks whether or not the operation confirmation signal 101 output from the computer (B) 2 is received as a response to the operation confirmation signal 100 and checks whether or not there is a response from the computer (B) 2. (Step S51). When the computer (A) 1 receives the operation confirmation signal 101, the computer (B) 2 determines that there is a response and returns to step S46 (Y in step S51). If the computer (A) 1 cannot receive the operation confirmation signal 101, it is determined that there is no response from the computer (B) 2 and a failure occurs, and the process proceeds to step S52 (N in step S51).

ステップS52では、計算機(A)1は計算機(B)2にマスクできない(ノンマスカラブル)最高レベルの割り込み信号104を出力し、ステップS53にて計算機(A)1は計算機(B)2から出力される動作確認信号101の受信の有無をチェックして計算機(B)2からの応答の有無を判断する。   In step S52, the computer (A) 1 outputs the interrupt signal 104 of the highest level that cannot be masked (non-mascarable) to the computer (B) 2. In step S53, the computer (A) 1 outputs from the computer (B) 2. The presence or absence of a response from the computer (B) 2 is determined by checking whether or not the operation confirmation signal 101 is received.

一方、計算機(A)1から割り込み信号104を受信した計算機(B)2は、ハードウゥア故障が発生している場合には、例え割り込み信号104を受信しても割り込み処理は実施できず応答信号としての動作確認信号101を計算機(A)1に出力することができない。計算機(B)2がソフトウェアのバグなどによりその処理で無限ループが発生しているなどのソフトウェア障害が発生している場合には、図6に示す割り込み処理を実行する。   On the other hand, the computer (B) 2 that has received the interrupt signal 104 from the computer (A) 1 cannot perform interrupt processing even if it receives the interrupt signal 104 if a hardware failure has occurred. The operation confirmation signal 101 cannot be output to the computer (A) 1. If the computer (B) 2 has a software failure such as an infinite loop in the processing due to a software bug or the like, the interrupt processing shown in FIG. 6 is executed.

まず、計算機(B)2は計算機(A)1へ動作確認信号101を出力する(ステップS60)。次いで、計算機(B)2は障害原因解析のために、メモリ13の記憶内容、I/Oの設定情報、プロセッサ(CPU)12のレジスタ情報等を採取(ステップS61)し、この採取した情報を磁気ディスク装置(HDD)16に保存する(ステップS62)。次に計算機(B)2はメモリ13をクリア(ステップS63)し、システムをブートする(ステップS64)。その後、計算機(B)2は計算機(A)1にLAN17を介して、システムが立ち上がったことを示すメッセージを送信(ステップS65)して割り込み処理を終了する。   First, the computer (B) 2 outputs the operation confirmation signal 101 to the computer (A) 1 (step S60). Next, the computer (B) 2 collects the storage contents of the memory 13, I / O setting information, register information of the processor (CPU) 12, etc. for failure cause analysis (step S 61). The data is stored in the magnetic disk device (HDD) 16 (step S62). Next, the computer (B) 2 clears the memory 13 (step S63) and boots the system (step S64). Thereafter, the computer (B) 2 transmits a message indicating that the system has started up to the computer (A) 1 via the LAN 17 (step S65), and ends the interrupt processing.

一方、計算機(A)1はステップS53において、計算機(B)2から出力されるシステムが立ち上がったことを示すメッセージの受信の有無をチェックして計算機(B)2からの応答の有無を判断する。計算機(A)1は計算機(B)2から応答があった場合には、計算機(B)2での障害が回復したと判断してステップS46へ戻る。計算機(A)1は計算機(B)2から応答が無かった場合には、計算機(B)2で障害(ハードウェア障害)が発生したと判断し、ステップ54へ進みステータス信号107をチェックして計算機(B)2と通信可能状態であるか否かを判断する。通信可能な状態と判断した場合は計算機(B)2で障害(ハードウェア障害)が発生したと判断し、計算機(A)1は計算機(B)2へリセット信号102を出力する(ステップS57)。一方通信不可と判断した場合は、計算機(B)2でのメモリダンプや診断が終了するのを待つことを目的として一定時間待機する(ステップS55)。この待機時間はそのシステムごとに異なる。一定時間後、計算機(A)1はステータス信号107をチェックして計算機(B)2と通信可能状態であるか否かを判断する(ステップS56)。通信可能な状態の場合には、正常状態と判断しステップS46に戻る。通信不可の場合は計算機(B)2で障害(ハードウェア障害)が発生したと判断し、ステップS57に進み計算機(B)2へリセット信号102を出力する。   On the other hand, in step S53, the computer (A) 1 checks whether or not a message indicating that the system output from the computer (B) 2 has started up is received and determines whether or not there is a response from the computer (B) 2. . If there is a response from the computer (B) 2, the computer (A) 1 determines that the failure in the computer (B) 2 has been recovered and returns to step S46. If there is no response from the computer (B) 2, the computer (A) 1 determines that a failure (hardware failure) has occurred in the computer (B) 2, and proceeds to step 54 to check the status signal 107. It is determined whether or not communication with the computer (B) 2 is possible. If it is determined that communication is possible, it is determined that a failure (hardware failure) has occurred in the computer (B) 2, and the computer (A) 1 outputs a reset signal 102 to the computer (B) 2 (step S57). . On the other hand, when it is determined that communication is not possible, the computer (B) 2 waits for a certain period of time for the purpose of waiting for the completion of the memory dump or diagnosis (step S55). This waiting time varies from system to system. After a certain time, the computer (A) 1 checks the status signal 107 to determine whether or not communication with the computer (B) 2 is possible (step S56). If it is in a communicable state, it is determined as normal and the process returns to step S46. If communication is not possible, it is determined that a failure (hardware failure) has occurred in the computer (B) 2, and the process proceeds to step S57 to output the reset signal 102 to the computer (B) 2.

計算機(B)2は、リセット信号102を第1のコントローラ10で受信し第2のコントローラ11において外部リセットフリップフロップ回路111をセットする(図7ステップS70)。このセットされた外部リセットフリップフロップ回路111の出力は、OR回路113を経由してプロセッサ12に対してリセット信号102として出力される(図7ステップS71)。リセット信号102を受信したプロセッサ12は、外部リセットフリップフロップ回路111がセットされているか否かをチェックする(図8ステップS80)。外部リセットフリップフロップ回路111がセットされていない場合には、通常のリセット、例えばパワーオンリセットと判断して処理をステップS83へ進める。   The computer (B) 2 receives the reset signal 102 by the first controller 10 and sets the external reset flip-flop circuit 111 in the second controller 11 (step S70 in FIG. 7). The output of the set external reset flip-flop circuit 111 is output as the reset signal 102 to the processor 12 via the OR circuit 113 (step S71 in FIG. 7). The processor 12 that has received the reset signal 102 checks whether or not the external reset flip-flop circuit 111 is set (step S80 in FIG. 8). If the external reset flip-flop circuit 111 is not set, it is determined that the reset is a normal reset, for example, a power-on reset, and the process proceeds to step S83.

外部リセットフリップフロップ回路111がセットされている場合には、計算機(A)1からのリセット処理と判断して、処理をステップS81へ進め、計算機(B)2は障害原因解析のために、メモリ13の記憶内容、I/Oの設定情報、プロセッサ(CPU)12のレジスタ情報等を採取(ステップS81)し、この採取した情報を磁気ディスク装置(HDD)16に保存する(ステップS82)。次に計算機(B)2はメモリ13をクリア(ステップS83)し、システムをブートする(ステップS84)。その後、計算機(B)2は計算機(A)1にLAN17を介して、システムが立ち上がったことを示すメッセージを送信(ステップS85)してリセット処理を終了する。   If the external reset flip-flop circuit 111 is set, it is determined that the reset process is from the computer (A) 1, and the process proceeds to step S81. The computer (B) 2 stores the memory for failure cause analysis. The storage contents 13, I / O setting information, register information of the processor (CPU) 12, and the like are collected (step S 81), and the collected information is stored in the magnetic disk device (HDD) 16 (step S 82). Next, the computer (B) 2 clears the memory 13 (step S83) and boots the system (step S84). Thereafter, the computer (B) 2 transmits a message indicating that the system has been started up to the computer (A) 1 via the LAN 17 (step S85), and the reset process is terminated.

一方、計算機(A)1は図5のステップS57で計算機(B)2にリセット信号102を出力した後、計算機(B)2から出力されるシステムが立ち上がったことを示すメッセージの受信の有無をチェックして計算機(B)2からの応答の有無を判断する(ステップS58)。計算機(A)1は計算機(B)2から応答があった場合には、計算機(B)2での障害が回復したと判断してステップS46へ戻る(ステップS58のY)。計算機(A)1は計算機(B)2から応答が無かった場合(ステップS58のN)には、計算機(B)2で障害が回復しなかったと判断し、オペレータに障害の通知をする等のエラー処理(ステップS59)をする。   On the other hand, the computer (A) 1 outputs a reset signal 102 to the computer (B) 2 in step S57 in FIG. 5, and then receives a message indicating that the system output from the computer (B) 2 has been started. A check is made to determine whether there is a response from the computer (B) 2 (step S58). When there is a response from the computer (B) 2, the computer (A) 1 determines that the failure in the computer (B) 2 has been recovered and returns to step S46 (Y in step S58). When there is no response from the computer (B) 2 (N in step S58), the computer (A) 1 determines that the failure has not been recovered by the computer (B) 2, and notifies the operator of the failure. Error processing (step S59) is performed.

以上説明した通り、図5のステップS46で計算機Bが通信可能状態であるか否かを判断した後、計算機Bの故障監視をしているので、計算機Bが再稼働できない等の重大な障害を回避することができる。また、図6のステップS61及び図7のステップS71で、メモリ13の記憶内容、I/Oの設定情報、プロセッサ12のレジスタ情報等を採取し、磁気ディスク装置16に保存しているので、計算機Bをリセットにより再立ち上げしたのか又は割り込みにより再立ち上げしたのかの履歴を参照することにより、計算機Bの障害の原因追及が容易にできる。   As described above, since it is determined whether or not the computer B is in a communicable state in step S46 of FIG. 5, since the failure of the computer B is monitored, a serious failure such as the computer B cannot be restarted is detected. It can be avoided. In step S61 in FIG. 6 and step S71 in FIG. 7, the storage contents of the memory 13, the I / O setting information, the register information of the processor 12, and the like are collected and stored in the magnetic disk device 16. By referring to the history of whether B is restarted by resetting or restarting by interruption, the cause of the failure of the computer B can be easily pursued.

本発明の実施例である二重系計算機システムを示す図である。It is a figure which shows the dual system computer system which is an Example of this invention. 図1における計算機Bの詳細を示す図である。It is a figure which shows the detail of the computer B in FIG. 図2における第2コントローラ11の詳細を示す図である。It is a figure which shows the detail of the 2nd controller 11 in FIG. ステータス信号107の状態とその状態に対応して計算機が通信可能の状態にあるか否かを示す図である。It is a figure which shows whether the computer is in the state which can communicate according to the state of the status signal 107, and its state. 計算機Aの動作を説明するためのフローチャートを示す図である。It is a figure which shows the flowchart for demonstrating operation | movement of the computer A. FIG. 計算機Bの割り込み処理の動作を説明するためのフローチャートを示す図である。It is a figure which shows the flowchart for demonstrating the operation | movement of the interruption process of the computer B. FIG. 計算機Bのリセット受付処理の動作を説明するためのフローチャートを示す図である。It is a figure which shows the flowchart for demonstrating operation | movement of the reset reception process of the computer B. FIG. 計算機Bのリセット処理の動作を説明するためのフローチャートを示す図である。It is a figure which shows the flowchart for demonstrating the operation | movement of the reset process of the computer B. FIG.

符号の説明Explanation of symbols

1 計算機A
2 計算機B
3 LAN
10 第1コントローラ
11 第2コントローラ
12 プロセッサ
111 外部リセットフリップフロップ回路
112 パワーオンリセット回路
113 OR回路
1 Calculator A
2 Calculator B
3 LAN
10 first controller 11 second controller 12 processor 111 external reset flip-flop circuit 112 power-on reset circuit 113 OR circuit

Claims (1)

障害監視対象の計算機が少なくともメモリダンプ及び故障診断をしていない通信可能状態であるか否かを判断する通信可能状態判断手段と、
前記計算機が通信可能状態のときに、前記計算機に動作確認信号を出力する動作確認信号出力手段と、
前記動作確認信号出力手段が前記計算機に対して前記動作確認信号を出力した後、前記計算機からの応答の有無を判断する第一の応答判断手段と、
前記第一の応答判断手段が前記計算機からの応答が無いと判断したとき、前記計算機に対して再立ち上げ処理をさせるための割り込み信号を出力する割り込み手段と、
前記割り込み手段が前記計算機に対して前記割り込み信号を出力した後、前記計算機からの応答の有無を判断する第二の判断手段と、
前記第二の判断手段が前記計算機からの応答が無いと判断したとき、前記計算機に対してリセット信号を出力するリセット手段とを具備することを特徴とする計算機システム。
A communicable state judging means for judging whether or not the fault monitoring computer is in a communicable state where at least a memory dump and a fault diagnosis are not performed;
An operation confirmation signal output means for outputting an operation confirmation signal to the computer when the computer is in a communicable state;
After the operation confirmation signal output means outputs the operation confirmation signal to the computer, first response judgment means for judging whether or not there is a response from the computer;
When the first response determination means determines that there is no response from the computer, an interrupt means for outputting an interrupt signal for causing the computer to perform a restart process;
After the interrupt means outputs the interrupt signal to the computer, second determination means for determining whether or not there is a response from the computer;
A computer system comprising: a reset unit that outputs a reset signal to the computer when the second determination unit determines that there is no response from the computer.
JP2003342544A 2003-09-30 2003-09-30 Computer system Pending JP2005108034A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003342544A JP2005108034A (en) 2003-09-30 2003-09-30 Computer system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003342544A JP2005108034A (en) 2003-09-30 2003-09-30 Computer system

Publications (1)

Publication Number Publication Date
JP2005108034A true JP2005108034A (en) 2005-04-21

Family

ID=34536786

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003342544A Pending JP2005108034A (en) 2003-09-30 2003-09-30 Computer system

Country Status (1)

Country Link
JP (1) JP2005108034A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013084121A (en) * 2011-10-11 2013-05-09 Hitachi Ltd Multiple system control device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013084121A (en) * 2011-10-11 2013-05-09 Hitachi Ltd Multiple system control device

Similar Documents

Publication Publication Date Title
JP6333410B2 (en) Fault processing method, related apparatus, and computer
US6625761B1 (en) Fault tolerant USB method and apparatus
JP2007109238A (en) System and method for logging recoverable error
US7672247B2 (en) Evaluating data processing system health using an I/O device
WO2020239060A1 (en) Error recovery method and apparatus
WO2018095107A1 (en) Bios program abnormal processing method and apparatus
WO2021212943A1 (en) Server power supply maintenance method, apparatus and device, and medium
US11953976B2 (en) Detecting and recovering from fatal storage errors
US10275330B2 (en) Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus
US20110145634A1 (en) Apparatus, a recovery method and a program thereof
TW200426571A (en) Policy-based response to system errors occurring during os runtime
CN113672306B (en) Server component self-checking abnormity recovery method, device, system and medium
JP4655718B2 (en) Computer system and control method thereof
CN113742165A (en) Double-master control equipment and master-slave control method
US6904546B2 (en) System and method for interface isolation and operating system notification during bus errors
CN109885420B (en) PCIe link fault analysis method, BMC and storage medium
JP2005108034A (en) Computer system
CN114189429A (en) System, method, device and medium for monitoring server cluster faults
US7243257B2 (en) Computer system for preventing inter-node fault propagation
JP3190880B2 (en) Standby system, standby method, and recording medium
JP4507875B2 (en) Multiplexer and legacy device multiplexing method
KR100622620B1 (en) System and method for detecting error state which occurs in internet protocol communication system replicated in active-standby mode
JP7363617B2 (en) Communication devices, information processing methods, and systems
JPH11120154A (en) Device and method for access control in computer system
JP2001175545A (en) Server system, fault diagnosing method, and recording medium

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050428

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050620