JP2003067219A - Electronic computer system and recovery processing method - Google Patents

Electronic computer system and recovery processing method

Info

Publication number
JP2003067219A
JP2003067219A JP2001259117A JP2001259117A JP2003067219A JP 2003067219 A JP2003067219 A JP 2003067219A JP 2001259117 A JP2001259117 A JP 2001259117A JP 2001259117 A JP2001259117 A JP 2001259117A JP 2003067219 A JP2003067219 A JP 2003067219A
Authority
JP
Japan
Prior art keywords
computer
stopped
restoration
control circuit
recovery processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001259117A
Other languages
Japanese (ja)
Inventor
Masahiro Yoshinuma
雅浩 吉沼
Hideki Osonoi
英樹 遅野井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2001259117A priority Critical patent/JP2003067219A/en
Publication of JP2003067219A publication Critical patent/JP2003067219A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To provide an electronic computer system and its recovery method allowing a maintenance engineer to perform recovery processing without going to an installation site. SOLUTION: An electronic computer system comprises at least two computers connected over a network; one is a computer 11 that sends a recovery processing request packet upon receiving a signal, which indicates that a computer has stopped, from failure detection means 13 checking whether the computer has stopped and the other is a computer 10 that has a recovery processing control circuit 104 executing recovery processing upon receiving the recovery processing request packet. If it is determined that the failure has been recovered after the computer 10 receives the recovery processing request packet and a microprocessor 101 executes recovery processing, the recovery processing control circuit 104 is set to the reset-inhibition state to end recovery processing.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、汎用的に使用され
るネットワークに接続される電子計算機システムのうち
処理を停止した電子計算機の復旧および障害情報の収集
処理に好適な電子計算機システム及びその復旧処理方法
に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an electronic computer system suitable for the restoration of a computer which has stopped its processing and the fault information collection processing among the computer systems connected to a general-purpose network. Regarding processing method.

【0002】[0002]

【従来の技術】従来の電子計算機システムでは、システ
ム構成の要素となっているある電子計算機に障害が発生
した場合には、障害が発生した電子計算機においてキー
ボード等からの入力、またはネットワークからのコマン
ドを受信してマイクロプロセッサ(以下、MPUと略称
する)の復旧および障害情報の収集処理を行い、いわゆ
る復旧処理を実行する。しかし、このような復旧処理で
は、MPUの暴走等により電子計算機が処理を停止して
いる場合には復旧処理を実行することができない。
2. Description of the Related Art In a conventional computer system, when a computer, which is an element of the system configuration, fails, an input from a keyboard or a command from a network is made in the failed computer. Is received, the microprocessor (hereinafter abbreviated as MPU) is restored and failure information is collected, and so-called restoration processing is executed. However, in such a recovery process, the recovery process cannot be executed when the electronic computer has stopped the process due to a runaway of the MPU or the like.

【0003】このような場合にも復旧処理を行う方法と
して、特開平6−301566号公報に記載のように、
復旧処理にタイマを連動させ、タイマのタイムアウト時
にはリセットを発行することでMPUが暴走していても
復旧処理が行えるようにした電子計算機システムにおけ
るメモリダンプ処理方式が知られている。この方式は、
電子計算機にハードウェアタイマと連動したスイッチを
設け、スイッチを押下することにより復旧処理を行うも
のである。
As a method for performing the restoration process even in such a case, as described in JP-A-6-301566,
A memory dump processing method in an electronic computer system is known in which a timer is interlocked with the recovery process and a reset is issued when the timer times out so that the recovery process can be performed even when the MPU is out of control. This method
The electronic computer is provided with a switch linked with a hardware timer, and the recovery process is performed by pressing the switch.

【0004】[0004]

【発明が解決しようとする課題】特開平6−30156
6号公報に記載のメモリダンプ処理方式は、電子計算機
にスイッチを設けているために、MPUが暴走し復旧処
理を行う場合には、電子計算機の設置場所まで保守作業
者が出向かなければならないという欠点がある。また、
いかなる場合でもリセット再起動が実施されるため、動
作が不安定な電子計算機がシステムに組み込まれてしま
う危険性があるという問題があった。
Problems to be Solved by the Invention JP-A-6-30156
In the memory dump processing method described in Japanese Patent No. 6 publication, since a switch is provided in the electronic computer, when the MPU runs out of control and performs recovery processing, a maintenance worker must go to the installation location of the electronic computer. There is a drawback that. Also,
Since the reset restart is performed in any case, there is a problem that an unstable computer may be incorporated in the system.

【0005】本発明の第1の目的は、保守作業者が電子
計算機の設置場所まで出向かなくても復旧処理が行える
電子計算機システム及びその復旧処理方法を提供するこ
とにある。
It is a first object of the present invention to provide an electronic computer system and a recovery processing method thereof, which enables a maintenance worker to perform a recovery process without going to the place where the computer is installed.

【0006】本発明の第2の目的は、電子計算機が停止
した場合にそれを検知でき、復旧処理要求信号により段
階的な復旧が行える電子計算機システム及びその復旧処
理方法を提供することにある。
A second object of the present invention is to provide an electronic computer system and its restoration processing method which can detect when the electronic computer is stopped and can perform a stepwise restoration by a restoration processing request signal.

【0007】本発明の第3の目的は、広範囲に設置され
ている計算機の復旧処理が行える電子計算機システム及
びその復旧処理方法を提供することにある。
A third object of the present invention is to provide an electronic computer system and a restoration processing method for the restoration processing of computers installed in a wide range.

【0008】本発明の第4の目的は、リセットの前段階
で復旧処理が正常に行えた場合は、復旧処理を終了でき
る電子計算機システム及びその復旧処理方法を提供する
ことにある。
A fourth object of the present invention is to provide an electronic computer system and a recovery processing method thereof, which can end the recovery processing when the recovery processing can be normally performed before the reset.

【0009】[0009]

【課題を解決するための手段】上記第1,第3の目的を
達成するために、本発明の電子計算機システムは、他の
計算機へ設定された時間間隔で生死監視情報をネットワ
ークを介して送信する第1の計算機と、該第1の計算機
から送信される生死監視情報を受信して停止していない
場合は生存連絡バケットを送信する前記他の計算機と、
前記他の計算機から送信される前記生存連絡バケットが
途絶えたことを検出して計算機が停止したことを検出し
て計算機が停止した信号を前記第1の計算機へ送信する
障害検出手段とを備えたものである。
In order to achieve the above first and third objects, the electronic computer system of the present invention transmits life / death monitoring information to another computer via a network at set time intervals. A first computer, and the other computer that receives the life-and-death monitoring information transmitted from the first computer and, if not stopped, transmits the survival contact bucket,
A failure detection means for detecting that the live communication bucket transmitted from the other computer has been interrupted, detecting that the computer has stopped, and transmitting a signal in which the computer has stopped to the first computer. It is a thing.

【0010】上記第2,第4の目的を達成するために、
本発明の電子計算機システムは、計算機が停止したかど
うかを判別する障害検出手段からの計算機が停止した信
号を受信して復旧処理要求バケットを送信する第1の計
算機と、前記復旧処理要求バケットを受信して復旧処理
を実行する復旧処理制御回路を有する第2の計算機とを
ネットワークを介して接続した少なくとも2台の計算機
により構成される電子計算機システムであって、前記第
2の計算機が前記復旧処理要求バケットを受信して前記
復旧処理制御回路がマイクロプロセッサの復旧処理を実
行した結果、復旧されたと判断された場合は前記復旧処
理制御回路をリセット禁止状態に設定して復旧処理を終
了するものである。
In order to achieve the above second and fourth objects,
The electronic computer system of the present invention includes a first computer that receives a signal indicating that the computer has stopped from a failure detection unit that determines whether the computer has stopped, and transmits a recovery process request bucket, and the recovery process request bucket. An electronic computer system comprising at least two computers connected via a network to a second computer having a recovery processing control circuit that receives and executes recovery processing, wherein the second computer is the recovery computer. When the recovery processing control circuit receives the processing request bucket and executes the recovery processing of the microprocessor, and when it is determined that the processing has been recovered, the recovery processing control circuit is set to the reset prohibited state and the recovery processing is terminated. Is.

【0011】又、前記復旧処理制御回路がマイクロプロ
セッサの復旧処理を実行した結果、復旧されなかったと
判断された場合は前記復旧処理制御回路により前記マイ
クロプロセッサをリセット停止又はリセット起動して復
旧処理を終了するものである。
Further, when the restoration processing control circuit executes the restoration processing of the microprocessor and determines that the restoration processing has not been performed, the restoration processing control circuit resets or starts the microprocessor to reset the restoration processing. It ends.

【0012】又、電子計算機の復旧方法は、第1の計算
機は他の計算機へ設定された時間間隔でネットワークを
介して生死監視情報を送信し、該生死監視情報を送信し
た前記他の計算機は停止していない場合は生存連絡バケ
ットを障害検出手段へ送信し、障害検出手段は前記他の
計算機から送信される前記生存連絡バケットが途絶えた
ことを検出して計算機が停止したことを検出して計算機
が停止した信号を前記第1の計算機へ送信し、計算機が
停止した信号を受信した前記第1の計算機は停止した計
算機へ復旧処理要求バケットを送信し、前記復旧処理要
求バケットを受信した前記計算機は復旧処理制御回路に
よりマイクロプロセッサの復旧処理を実行した結果、復
旧されたと判断された場合は前記復旧処理制御回路をリ
セット禁止状態に設定して復旧処理を終了するものであ
る。
Further, in the method of recovering an electronic computer, the first computer transmits the life-and-death monitoring information to another computer via a network at a set time interval, and the other computer which has transmitted the life-and-death monitoring information If it is not stopped, the live communication bucket is transmitted to the failure detection means, and the failure detection means detects that the live communication bucket transmitted from the other computer has stopped and detects that the computer has stopped. The computer transmits a stopped signal to the first computer, the computer receives the stopped signal, the first computer transmits a restoration processing request bucket to the stopped computer, and the restoration processing request bucket is received. The computer executes the restoration process of the microprocessor by the restoration process control circuit, and when the restoration process control circuit is judged to be restored, the restoration process control circuit is set to the reset prohibited state. It is intended to end the constant to the recovery process.

【0013】又、前記復旧処理制御回路によりマイクロ
プロセッサの復旧処理を実行した結果、復旧されなかっ
たと判断された場合は前記復旧処理制御回路により前記
マイクロプロセッサをリセット停止又はリセット起動し
て復旧処理を終了するものである。
If it is determined that the microprocessor has not been restored as a result of the restoration processing control circuit executing the restoration processing, the restoration processing control circuit resets the microprocessor or resets the microprocessor to perform restoration processing. It ends.

【0014】[0014]

【発明の実施の形態】以下、発明の一実施例を図1から
図4を用いて説明する。図1に示す電子計算機システム
では、一例として、符号10で示す電子計算機Aが、ネ
ットワーク12を介して復旧処理要求を発行する符号1
1で示される電子計算機Bと接続される場合を示してい
る。又、電子計算機Aは、障害検出手段13を介して電
子計算機Bと接続されている。電子計算機Bから、電子
計算機Aが停止しているかどうかの確認を行うため、生
死監視通信を設定された時間間隔で電子計算機Aに送信
している。この生死監視通信を受信した電子計算機A
は、停止していない場合には、生存連絡バケットを障害
検出手段13に送信するようになっている。障害検出手
段13は、生存連絡バケットが途絶えたことを検出し
て、電子計算機Aの停止を検出する。このように構成し
ているので、電子計算機が広範囲に分散して設置されて
いる場合でも停止した電子計算機を検出することができ
る。
BEST MODE FOR CARRYING OUT THE INVENTION An embodiment of the present invention will be described below with reference to FIGS. In the electronic computer system shown in FIG. 1, as an example, an electronic computer A indicated by reference numeral 10 issues a restoration processing request via the network 12 by the reference numeral 1
1 shows the case where the computer B is connected to the computer 1. Further, the electronic computer A is connected to the electronic computer B via the failure detection means 13. In order to confirm whether or not the electronic computer A is stopped, the electronic computer B transmits life-and-death monitoring communication to the electronic computer A at set time intervals. Computer A that received this life-and-death monitoring communication
When not stopped, it sends the survival contact bucket to the failure detection means 13. The failure detecting means 13 detects that the live communication bucket has been cut off, and detects the stop of the electronic computer A. With this configuration, it is possible to detect a stopped computer even when the computers are distributed over a wide area.

【0015】電子計算機Aは、MPU101,MPU1
01に並列に設けられた割込信号線105及びリセット
信号線106を介して接続される復旧処理制御回路10
4,復旧処理制御回路104と復旧処理要求信号線10
7により接続されるパケット比較回路103,パケット
比較回路103と接続されるネットワークインタフェー
ス102で構成され、ネットワークインタフェース10
2はネットワーク12と接続されている。復旧処理制御
回路104の動作は、後述するように割込/リセット切
替フラグ1041,リセット許可/禁止フラグ104
2,リセット動作設定フラグ1043により決定されよ
うになっている。
The electronic computer A is MPU101, MPU1
01 is connected in parallel via an interrupt signal line 105 and a reset signal line 106 provided in parallel with 01.
4, restoration processing control circuit 104 and restoration processing request signal line 10
7, a packet comparison circuit 103 connected by 7 and a network interface 102 connected to the packet comparison circuit 103.
2 is connected to the network 12. The operation of the recovery processing control circuit 104 is performed by the interrupt / reset switching flag 1041, the reset permission / prohibition flag 104, as described later.
2, it is determined by the reset operation setting flag 1043.

【0016】障害検出手段13により電子計算機Aの停
止が検出された場合、電子計算機Bは、ネットワーク1
2経由で電子計算機Aに対して復旧処理要求パケット1
21を発行して送信する。ネットワークインタフェース
102を介して受信したパケットは、パケット比較回路
103で比較され、受信したパケットが復旧処理要求パ
ケット121であることを判別して、パケット比較回路
103から復旧処理要求信号を出力し、復旧処理要求信
号線107を介して復旧処理制御回路104に送信す
る。
When the failure detecting means 13 detects the stop of the computer A, the computer B determines the network 1
Recovery processing request packet 1 to computer A via 2
Issue 21 and send. The packet received through the network interface 102 is compared by the packet comparison circuit 103, it is determined that the received packet is the restoration processing request packet 121, the restoration processing request signal is output from the packet comparison circuit 103, and restoration is performed. It is transmitted to the restoration processing control circuit 104 via the processing request signal line 107.

【0017】復旧処理要求信号線107により復旧処理
要求信号を受信した復旧処理制御回路104は、割込信
号線105によりMPU101に対して復旧処理要求信
号を送信するとともに、復旧処理要求信号を自身にフィ
ードバックしてリセット信号線106からリセット信号
を出力できる状態に切り替える。
Upon receiving the restoration processing request signal through the restoration processing request signal line 107, the restoration processing control circuit 104 transmits the restoration processing request signal to the MPU 101 through the interrupt signal line 105 and sends the restoration processing request signal to itself. Feedback is performed to switch to a state in which a reset signal can be output from the reset signal line 106.

【0018】復旧処理が正常に行われた場合、すなわち
MPU101に復旧処理要求信号を送信した結果、生存
連絡バケットを障害検出手段13が受信し始めた場合
は、MPU101は復旧処理制御回路104をリセット
禁止状態に設定する。(その後、割込/リセット切替フ
ラグ1041,リセット許可/禁止フラグ1042,リ
セット動作設定フラグ1043を初期設定状態に戻すた
め、電子計算機Bは一定時間経過後に再度、復旧処理要
求パケット121を発行して電子計算機Aに送信する
が、受信した電子計算機Aの復旧処理制御回路104が
リセット禁止状態であるため、この復旧処理要求は無視
されて復旧処理が終了する。ここで、再度復旧処理要求
パケット121を送信する一定時間経過後とは、設定に
より変更することができる。復旧処理の終了により、復
旧した電子計算機Aの復旧処理制御回路104の各フラ
グは初期状態に再設定される。
When the recovery processing is normally performed, that is, when the failure detection means 13 starts receiving the live communication bucket as a result of transmitting the recovery processing request signal to the MPU 101, the MPU 101 resets the recovery processing control circuit 104. Set to prohibited state. (After that, in order to return the interrupt / reset switching flag 1041, the reset permission / prohibition flag 1042, and the reset operation setting flag 1043 to the initial setting state, the computer B issues the restoration processing request packet 121 again after a lapse of a certain time. Although it is transmitted to the electronic computer A, since the received recovery process control circuit 104 of the computer A is in the reset-prohibited state, the recovery process request is ignored and the recovery process ends. Can be changed by a setting after a certain period of time after the transmission of the.

【0019】復旧処理が正常に行われなかった場合に
は、リセット許可状態にある復旧処理制御回路104
は、予め設定されたリセット動作設定フラグにしたがっ
てリセット信号線106にリセット信号を出力する。リ
セット信号を受信した電子計算機Bは、リセット停止ま
たはリセット再起動となる。
When the restoration processing is not normally performed, the restoration processing control circuit 104 in the reset-permitted state.
Outputs a reset signal to the reset signal line 106 according to a preset reset operation setting flag. The electronic computer B that has received the reset signal is in a reset stop or a reset restart.

【0020】このように構成しているので、人が出向か
なくても停止した電子計算機の復旧処理が行える。又、
復旧処理要求信号を送信することにより復旧処理が正常
に行われた場合は、リセットしなくても復旧処理を終了
することができる。
With such a configuration, it is possible to perform the recovery processing of the stopped electronic computer even if the person does not go out. or,
When the restoration process is normally performed by transmitting the restoration process request signal, the restoration process can be ended without resetting.

【0021】図2は、本実施例の電子計算機システムの
他の構成例を示す図である。この例では、二重化された
サーバ計算機20と端末計算機21がネットワーク22
を介して接続され、サーバ計算機20が復旧処理要求を
発行する。又、サーバ計算機20は、サーバ計算機主系
20aとサーバ計算機従系20bで構成され、サーバ計
算機主系20a,サーバ計算機従系20bの各々は、復
旧処理要求を発行して送信する機能と、サーバ計算機の
一方から送信された復旧処理要求を受信して復旧処理を
実行する機能を備えている。又、端末計算機21は、ネ
ットワーク22経由でサーバ計算機20から送信される
復旧処理要求により復旧処理を実行する機能を備えてい
る。
FIG. 2 is a diagram showing another configuration example of the electronic computer system of this embodiment. In this example, the duplicated server computer 20 and terminal computer 21 are connected to the network 22.
, And the server computer 20 issues a recovery processing request. The server computer 20 is composed of a server computer master system 20a and a server computer slave system 20b. Each of the server computer master system 20a and the server computer slave system 20b has a function of issuing and transmitting a restoration processing request and a server. It has a function of receiving a restoration processing request transmitted from one of the computers and executing the restoration processing. Further, the terminal computer 21 has a function of executing restoration processing in response to a restoration processing request transmitted from the server computer 20 via the network 22.

【0022】サーバ計算機20は他系のサーバ計算機お
よび端末計算機21に対してネットワーク22経由によ
り生存監視通信220を行う。生存監視通信220を受
信した他系のサーバ計算機又は端末計算機21は、停止
していない場合は、生存連絡バケットを送信するように
なっている。サーバ計算機20では、生存連絡バケット
が途絶えたことを検出することにより、他系のサーバ計
算機、又は端末計算機21が停止したことを検出してい
る。このように構成しているので、端末計算機、他系の
サーバ計算機が広範囲に分散して設置されている場合に
でも停止した計算機を検出できる。
The server computer 20 performs alive monitoring communication 220 to the server computer of another system and the terminal computer 21 via the network 22. The server computer or the terminal computer 21 of the other system that has received the alive monitoring communication 220 transmits the alive contact bucket when it is not stopped. The server computer 20 detects that the live communication bucket has been cut off, thereby detecting that the server computer of the other system or the terminal computer 21 has stopped. With this configuration, the stopped computer can be detected even when the terminal computers and the server computers of other systems are installed over a wide range.

【0023】生存監視通信220により停止を検出した
計算機に対して、サーバ計算機20は復旧処理要求パケ
ット221を発行して送信する。復旧処理要求の受信し
て復旧処理を実行した計算機は、その過程において障害
情報222をサーバ計算機20に転送する。サーバ計算
機20は、障害情報222を受信して記録することによ
り障害の程度を分析できるようにしている。
The server computer 20 issues and sends a restoration processing request packet 221 to the computer whose stoppage is detected by the survival monitoring communication 220. The computer that has received the restoration processing request and executed the restoration processing transfers the failure information 222 to the server computer 20 in the process. The server computer 20 receives the failure information 222 and records the failure information 222 so that the degree of failure can be analyzed.

【0024】図2に示す構成の電子計算機システムを例
にとり、その動作を図3,図4を示す処理シーケンスを
参照して詳細に説明する。
Taking the electronic computer system having the configuration shown in FIG. 2 as an example, the operation thereof will be described in detail with reference to the processing sequences shown in FIGS.

【0025】図3は、復旧処理が行える場合の処理シー
ケンスを示している。ステップ301に示すように、各々
の端末計算機21,他系のサーバ計算機の復旧処理制御
回路では、割込/リセット切替フラグが割込信号発生
に、リセット許可/禁止フラグがリセット許可に初期設
定されている。サーバ計算機20は、ある設定された時
間間隔で各々の端末計算機21,他系のサーバ計算機に
生死監視通信を行う。その結果、ステップ310で示す
ように、何れかの端末計算機21,他系のサーバ計算機
が停止した場合、ステップ311で示すように、その計
算機から生存連絡パケットが送信されるのが途絶え、ス
テップ312で計算機が停止したことを検出する。ここ
で、他系のサーバ計算機とは、サーバ計算機20とは別
のサーバ計算機,サーバ計算機20のサーバ計算機主系
20a,サーバ計算機従系20bのうちの生死監視通信
を送信していない側のサーバ計算機のことを言う。
FIG. 3 shows a processing sequence when the restoration processing can be performed. As shown in step 301, in the recovery processing control circuit of each terminal computer 21 and the server computer of the other system, the interrupt / reset switching flag is initially set to interrupt signal generation and the reset enable / disable flag is initially set to reset enable. ing. The server computer 20 performs life-and-death monitoring communication with each terminal computer 21 and the server computers of other systems at a set time interval. As a result, as shown in step 310, when any of the terminal computers 21 and server computers of other systems are stopped, as shown in step 311, transmission of the survival contact packet from that computer is stopped, and step 312 Detects that the computer has stopped. Here, the server computer of the other system is a server computer other than the server computer 20, a server computer main system 20a of the server computer 20 and a server computer slave system 20b that is not transmitting the life / death monitoring communication. It refers to a calculator.

【0026】計算機が停止したことを検出したサーバ計
算機20は、ステップ313で停止した計算機に対して
復旧処理要求パケットを発行して停止した計算機に送信
する。停止した計算機では、パケット比較回路によって
復旧処理要求パケットを受信したことを検出し、ステッ
プ314で、復旧処理制御回路により割込みが発生して
復旧処理が開始される。又、ステップ302で、復旧処
理制御回路の割込/リセット切替フラグがリセット信号
発生に切り替わる。復旧処理が正常に行われると、ステ
ップ303で復旧処理制御回路のリセット許可/禁止フ
ラグはリセット禁止に変更される。ステップ315で示
すように、一定時間の経過後に、ステップ316でサー
バ計算機からは再度復旧処理要求が発行され送信される
が、受信した計算機の復旧処理制御回路がリセット禁止
状態であるため、ステップ317で示すように、この復
旧処理要求は無視され、ステップ318で復旧処理が終
了する。復旧処理の終了により、ステップ304で復旧
した計算機の復旧処理制御回路の各フラグは初期状態に
再設定される。
The server computer 20 which has detected that the computer has stopped issues a restoration processing request packet to the computer stopped in step 313 and sends it to the stopped computer. In the stopped computer, the packet comparison circuit detects that the restoration processing request packet is received, and in step 314, the restoration processing control circuit generates an interrupt and starts the restoration processing. In step 302, the interrupt / reset switching flag of the recovery processing control circuit is switched to reset signal generation. When the restoration processing is normally performed, the reset permission / prohibition flag of the restoration processing control circuit is changed to reset inhibition in step 303. As shown in step 315, after the elapse of a certain period of time, the restoration processing request is again issued and transmitted from the server computer in step 316, but since the restoration processing control circuit of the received computer is in the reset prohibited state, step 317 As shown by, the recovery processing request is ignored, and the recovery processing ends in step 318. Upon completion of the restoration process, each flag of the restoration process control circuit of the computer restored in step 304 is reset to the initial state.

【0027】図4は復旧処理動作が不可能な場合の処理
シーケンスを示している。この処理シーケンスでも、ス
テップ401に示すように、各々の計算機の復旧処理制
御回路は、割込/リセット切替フラグが割込信号発生
に、リセット許可/禁止フラグがリセット許可に初期設
定されている。
FIG. 4 shows a processing sequence when the restoration processing operation is impossible. Also in this processing sequence, as shown in step 401, in the recovery processing control circuit of each computer, the interrupt / reset switching flag is initially set to interrupt signal generation and the reset permission / prohibition flag is reset to reset permission.

【0028】サーバ計算機20は、ある設定された時間
間隔で各々の計算機、他系のサーバ計算機に生死監視通
信を行う。ステップ410で示すように、何れかの計算
機が停止した場合、ステップ411に示すように、停止
した計算機からは生存連絡パケットの返信が途絶えるの
で計算機の停止を検出できる。ステップ412で計算機
の停止を検出したサーバ計算機20は、ステップ413
で停止した計算機に対して復旧処理要求パケットを発行
して送信する。停止した計算機では、パケット比較回路
によって復旧処理要求パケットの受信を検出する。復旧
処理要求パケットを受信した復旧処理制御回路では、ス
テップ414で割込信号を発生させるが、復旧処理は動
作しない。
The server computer 20 carries out life-and-death monitoring communication with each computer and the server computers of other systems at a certain set time interval. When one of the computers is stopped as shown in step 410, the stop of the computer can be detected because the reply of the survival communication packet is stopped from the stopped computer as shown in step 411. The server computer 20 that has detected the stop of the computer in step 412
Issue and send a recovery processing request packet to the computer stopped in step 2. In the stopped computer, the packet comparison circuit detects the reception of the restoration processing request packet. The restoration processing control circuit that has received the restoration processing request packet generates an interrupt signal in step 414, but the restoration processing does not operate.

【0029】この場合は、ステップ402で復旧処理制
御回路の割込/リセット切替フラグはリセット信号発生
に切り替わるが、リセット許可/禁止フラグはリセット
許可のままである。ステップで示すように、415で一
定時間の経過後に、ステップ416でサーバ計算機20
からは再度復旧処理要求が発行され送信されるため、停
止した計算機では、予め設定されたリセット動作設定フ
ラグにしたがってリセット信号線によりリセット信号が
MPU1に送信される。このリセット信号をMPUが受
信すると、ステップ417で示すように計算機のサーバ
はリセット停止またはリセット再起動となる。
In this case, in step 402, the interrupt / reset switching flag of the recovery processing control circuit is switched to reset signal generation, but the reset permission / prohibition flag remains reset permission. As shown in the step, after a certain time elapses at 415, the server computer 20
Since the recovery processing request is issued and transmitted again from, the stopped computer transmits the reset signal to the MPU 1 through the reset signal line according to the preset reset operation setting flag. When this reset signal is received by the MPU, the computer server is reset stopped or reset restarted as shown in step 417.

【0030】このように構成しているので、MPUが暴
走している場合でも復旧処理を実行することがネットワ
ーク経由で可能となるので端末計算機の復旧までの時間
を短縮でき、電子計算機システムとしての稼働率を高く
することができる。又、計算機が広範囲に分散して設置
されている場合にでも、人が出向かなくても停止した電
子計算機の復旧処理が行える。又、復旧処理要求信号を
送信することにより復旧処理が正常に行われた場合は、
リセットしなくても復旧処理を終了することができる。
With such a configuration, even if the MPU is out of control, it is possible to execute the recovery process via the network, so that the time until the recovery of the terminal computer can be shortened and the computer system The operating rate can be increased. Further, even when computers are installed in a wide range, it is possible to perform the recovery process of the stopped electronic computer even if the person does not go out. In addition, when the restoration process is normally performed by transmitting the restoration process request signal,
The recovery process can be ended without resetting.

【0031】以上の説明では、復旧処理要求を発行して
送信するサーバ計算機20を二重化したもので説明した
が、二重化されたものでなくとも適用できる。又、ネッ
トワークは種類は特に特定されたものではなく、汎用的
なものを含んで種々のものが適用できる。
In the above description, the server computer 20 for issuing and transmitting the restoration processing request is explained as a duplicated one, but the invention is applicable even if it is not a duplicated one. Further, the type of network is not particularly specified, and various types of networks including general-purpose networks can be applied.

【0032】[0032]

【発明の効果】本発明によれば、MPUが暴走している
場合でも復旧処理を実行することがネットワーク経由で
可能となるので端末計算機の復旧までの時間を短縮で
き、電子計算機システムとしての稼働率を高くすること
ができる。
According to the present invention, even when the MPU is running out of control, it is possible to execute the recovery process via the network, so the time until the recovery of the terminal computer can be shortened, and the operation as an electronic computer system can be achieved. The rate can be increased.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の一実施例である電子計算機システムを
構成する電子計算機のブロック図である。
FIG. 1 is a block diagram of an electronic computer that constitutes an electronic computer system that is an embodiment of the present invention.

【図2】本実施例における電子計算機システムの構成図
である。
FIG. 2 is a configuration diagram of an electronic computer system according to the present embodiment.

【図3】本実施例における復旧処理が動作可能な場合の
処理シーケンス図である。
FIG. 3 is a processing sequence diagram when the restoration processing according to the present embodiment is operable.

【図4】本実施例における復旧処理が動作不可能な場合
の処理シーケンス図である。
FIG. 4 is a processing sequence diagram when the recovery processing in the present embodiment is inoperable.

【符号の説明】[Explanation of symbols]

10…電子計算機A、11…電子計算機B、12…ネッ
トワーク、13…障害検出手段、101…マイクロプロ
セッサ(MPU)、102…ネットワークインタフェー
ス、103…パケット比較回路、104…復旧処理制御
回路、105…割込信号線、106…リセット信号線、
107…復旧処理要求信号線、121…復旧処理要求パ
ケット、1041…割込/リセット切替フラグ、104
2…リセット許可/禁止フラグ、1043…リセット動
作設定フラグ、20a…サーバ計算機主系、20b…サ
ーバ計算機従系、21…端末計算機、22…ネットワー
ク、220…生存監視通信、221…復旧処理要求パケ
ット、222…障害情報。
10 ... Computer A, 11 ... Computer B, 12 ... Network, 13 ... Failure detection means, 101 ... Microprocessor (MPU), 102 ... Network interface, 103 ... Packet comparison circuit, 104 ... Recovery processing control circuit, 105 ... Interrupt signal line, 106 ... Reset signal line,
107 ... Restoration processing request signal line, 121 ... Restoration processing request packet, 1041 ... Interrupt / reset switching flag, 104
2 ... Reset permission / prohibition flag, 1043 ... Reset operation setting flag, 20a ... Server computer main system, 20b ... Server computer slave system, 21 ... Terminal computer, 22 ... Network, 220 ... Survival monitoring communication, 221 ... Restoration processing request packet 222 ... Fault information.

───────────────────────────────────────────────────── フロントページの続き (72)発明者 遅野井 英樹 茨城県日立市大みか町五丁目2番1号 株 式会社日立製作所情報制御システム事業部 内 Fターム(参考) 5B042 GA12 GC16 GC19 JJ05 JJ08 JJ13 JJ18 KK02    ─────────────────────────────────────────────────── ─── Continued front page    (72) Inventor Hideki Nonoi             5-2-1 Omika-cho, Hitachi City, Ibaraki Prefecture             Information Control Systems Division, Hitachi, Ltd.             Within F-term (reference) 5B042 GA12 GC16 GC19 JJ05 JJ08                       JJ13 JJ18 KK02

Claims (7)

【特許請求の範囲】[Claims] 【請求項1】計算機が停止したかどうかを判別する障害
検出手段からの計算機が停止した信号を受信して復旧処
理要求バケットを送信する第1の計算機と、前記復旧処
理要求バケットを受信して復旧処理を実行する復旧処理
制御回路を有する第2の計算機とをネットワークを介し
て接続した少なくとも2台の計算機により構成される電
子計算機システムであって、前記第2の計算機が前記復
旧処理要求バケットを受信して前記復旧処理制御回路が
マイクロプロセッサの復旧処理を実行した結果、復旧さ
れたと判断された場合は前記復旧処理制御回路をリセッ
ト禁止状態に設定して復旧処理を終了する電子計算機シ
ステム。
1. A first computer that receives a signal indicating that the computer has stopped from a failure detection unit that determines whether the computer has stopped, and sends a restoration process request bucket, and a first computer that receives the restoration process request bucket. An electronic computer system comprising at least two computers connected to a second computer having a restoration processing control circuit for executing restoration processing via a network, wherein the second computer is the restoration processing request bucket. Is received and the recovery processing control circuit executes the recovery processing of the microprocessor, and when it is determined that the recovery processing has been recovered, the recovery processing control circuit is set to the reset prohibited state and the recovery processing is ended.
【請求項2】計算機が停止したかどうかを判別する障害
検出手段からの計算機が停止した信号を受信して復旧処
理要求バケットを送信する第1の計算機と、前記復旧処
理要求バケットを受信して復旧処理を実行する復旧処理
制御回路を有する第2の計算機とをネットワークを介し
て接続した少なくとも2台の計算機により構成される電
子計算機システムであって、前記第2の計算機が前記復
旧処理要求バケットを受信して前記復旧処理制御回路が
マイクロプロセッサの復旧処理を実行した結果、復旧さ
れなかったと判断された場合は前記復旧処理制御回路に
より前記マイクロプロセッサをリセット停止又はリセッ
ト起動して復旧処理を終了する電子計算機システム。
2. A first computer for receiving a signal indicating that the computer has stopped from a failure detecting means for determining whether or not the computer has stopped, and transmitting a restoration process request bucket, and receiving the restoration process request bucket. An electronic computer system comprising at least two computers connected to a second computer having a restoration processing control circuit for executing restoration processing via a network, wherein the second computer is the restoration processing request bucket. When the recovery processing control circuit executes the recovery processing of the microprocessor by receiving the message, and it is determined that the recovery processing is not recovered, the recovery processing control circuit resets the microprocessor to stop or reset and start the recovery processing. Electronic computer system to do.
【請求項3】他の計算機へ設定された時間間隔で生死監
視情報をネットワークを介して送信する第1の計算機
と、該第1の計算機から送信される生死監視情報を受信
して停止していない場合は生存連絡バケットを送信する
前記他の計算機と、前記他の計算機から送信される前記
生存連絡バケットが途絶えたことを検出して計算機が停
止したことを検出して計算機が停止した信号を前記第1
の計算機へ送信する障害検出手段とを備えた電子計算機
システム。
3. A first computer which transmits life-and-death monitoring information to another computer at a set time interval via a network, and a life-and-death monitoring information transmitted from the first computer, which is stopped. If there is not, the other computer that transmits the live communication bucket and the signal that the computer has stopped by detecting that the live communication bucket transmitted from the other computer has stopped and the computer has stopped The first
Computer system provided with a failure detection means for transmitting to another computer.
【請求項4】前記障害検出手段が、前記第1の計算機か
ら送信される生死監視情報を受信して停止していない場
合は前記第2の計算機から送信される生存連絡バケット
が途絶えたことを検出して計算機が停止したことを検出
するものである請求項1又は2に記載の電子計算機シス
テム。
4. When the failure detecting means has not stopped by receiving the life-or-death monitoring information transmitted from the first computer, it is confirmed that the live communication bucket transmitted from the second computer has been interrupted. The electronic computer system according to claim 1 or 2, which detects and stops the computer.
【請求項5】前記第1の計算機は、前記第2の計算機か
ら送信される障害情報を受信して記録するものである請
求項1又は2に記載の電子計算機システム。
5. The electronic computer system according to claim 1, wherein the first computer receives and records the failure information transmitted from the second computer.
【請求項6】第1の計算機は他の計算機へ設定された時
間間隔でネットワークを介して生死監視情報を送信し、
該生死監視情報を送信した前記他の計算機は停止してい
ない場合は生存連絡バケットを障害検出手段へ送信し、
障害検出手段は前記他の計算機から送信される前記生存
連絡バケットが途絶えたことを検出して計算機が停止し
たことを検出して計算機が停止した信号を前記第1の計
算機へ送信し、計算機が停止した信号を受信した前記第
1の計算機は停止した計算機へ復旧処理要求バケットを
送信し、前記復旧処理要求バケットを受信した前記計算
機は復旧処理制御回路によりマイクロプロセッサの復旧
処理を実行した結果、復旧されたと判断された場合は前
記復旧処理制御回路をリセット禁止状態に設定して復旧
処理を終了する電子計算機の復旧方法。
6. The first computer transmits life-and-death monitoring information to another computer via a network at set time intervals,
If the other computer that has transmitted the life-and-death monitoring information has not stopped, it transmits a live communication bucket to the failure detection means,
The failure detection means detects that the live communication bucket transmitted from the other computer has stopped, detects that the computer has stopped, and transmits a signal that the computer has stopped to the first computer, The first computer that receives the stopped signal transmits a restoration process request bucket to the stopped computer, and the computer that receives the restoration process request bucket executes the restoration process of the microprocessor by the restoration process control circuit, A method of recovering an electronic computer, wherein the recovery process control circuit is set in a reset-prohibited state and the recovery process is terminated when it is determined that the recovery process is completed.
【請求項7】前記復旧処理制御回路によりマイクロプロ
セッサの復旧処理を実行した結果、復旧されなかったと
判断された場合は前記復旧処理制御回路により前記マイ
クロプロセッサをリセット停止又はリセット起動して復
旧処理を終了する請求項6に記載の電子計算機の復旧方
法。
7. When the restoration processing control circuit executes restoration processing of the microprocessor, and it is determined that the restoration processing has not been performed, the restoration processing control circuit resets the microprocessor or resets the microprocessor to perform restoration processing. The method for recovering an electronic computer according to claim 6, which is completed.
JP2001259117A 2001-08-29 2001-08-29 Electronic computer system and recovery processing method Pending JP2003067219A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001259117A JP2003067219A (en) 2001-08-29 2001-08-29 Electronic computer system and recovery processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001259117A JP2003067219A (en) 2001-08-29 2001-08-29 Electronic computer system and recovery processing method

Publications (1)

Publication Number Publication Date
JP2003067219A true JP2003067219A (en) 2003-03-07

Family

ID=19086539

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001259117A Pending JP2003067219A (en) 2001-08-29 2001-08-29 Electronic computer system and recovery processing method

Country Status (1)

Country Link
JP (1) JP2003067219A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007058708A (en) * 2005-08-26 2007-03-08 Hitachi Ltd Multiplex system
JP2008287632A (en) * 2007-05-21 2008-11-27 Panasonic Corp Control device recovery system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007058708A (en) * 2005-08-26 2007-03-08 Hitachi Ltd Multiplex system
JP2008287632A (en) * 2007-05-21 2008-11-27 Panasonic Corp Control device recovery system

Similar Documents

Publication Publication Date Title
US8332506B2 (en) Network monitor program executed in a computer of cluster system, information processing method and computer
CN101141364A (en) Method and device for implementing protection rearrangement in ring ethernet
JP4487260B2 (en) Multiplex system
JP2003067219A (en) Electronic computer system and recovery processing method
JP2007028118A (en) Failure judging method of node device
TWI784379B (en) control system, control method
JP2003345620A (en) Process monitoring method for multi-node cluster system
JPH06119303A (en) Loose coupling multiprocessor system
JP2005529403A (en) Method and base chip for monitoring the operation of a microcontroller unit
EP2646917B1 (en) Change message broadcast error detection
JPH09200237A (en) Multiplex transmission method
JP2006325118A (en) Monitored data collection system
JP2003150407A (en) Automatic obstacle restoration system and device thereof
JP3963060B2 (en) Automatic fire alarm system
JP4240353B2 (en) Tunnel disaster prevention equipment
JPH10133963A (en) Fault detecting and recovering system for computer
JP2003173265A (en) System having redundant function card and obstruction countermeasure method
JPH0348997A (en) Monitoring system
KR100790098B1 (en) Management method of signalling link in centralization system
JPS58225738A (en) Dispersion type transmission system
JP2001325117A (en) Stand-by duplex system information processor and its system state checking method
JP3244247B2 (en) Clock signal working spare switching method
KR100418472B1 (en) Apparatus And Method Error Recovery Of Multi CPU Communication Line In Switching System
TW591376B (en) System and method for detecting server failure and the restoring of the same
JPH09198334A (en) Fault managing method for data transmission system