JPH10133963A - 計算機の故障検出・回復方式 - Google Patents

計算機の故障検出・回復方式

Info

Publication number
JPH10133963A
JPH10133963A JP8284777A JP28477796A JPH10133963A JP H10133963 A JPH10133963 A JP H10133963A JP 8284777 A JP8284777 A JP 8284777A JP 28477796 A JP28477796 A JP 28477796A JP H10133963 A JPH10133963 A JP H10133963A
Authority
JP
Japan
Prior art keywords
failure
failure detection
computer
detection target
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8284777A
Other languages
English (en)
Other versions
JP3325785B2 (ja
Inventor
Toshiyuki Kimura
俊之 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP28477796A priority Critical patent/JP3325785B2/ja
Publication of JPH10133963A publication Critical patent/JPH10133963A/ja
Application granted granted Critical
Publication of JP3325785B2 publication Critical patent/JP3325785B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Computer And Data Communications (AREA)
  • Debugging And Monitoring (AREA)

Abstract

(57)【要約】 【課題】 故障と判定した計算機に再起動をさせること
によって自動的に回復させる計算機の故障検出・回復方
式を提供する。 【解決手段】 故障検知専用ボード14が検知したPC
サーバ10の故障を故障検知専用ボード24経由で検出
した稼働状態監視部26は、LAN2経由でPCサーバ
10との通信を試行し、応答がなかった場合は故障検知
専用ボード24経由でPCサーバ10の再起動指示を行
い、応答があった場合は、故障検知専用ボード14の故
障と判定し、LAN2経由でPCサーバ10の再起動指
示を行う。また、LAN2経由でPCサーバ10の故障
を検出した稼働状態監視部26は、LAN2経由でPC
30との通信を試行し、応答があった場合は、故障検知
専用ボード24経由でPCサーバ10の再起動指示を行
い、応答がなかった場合は、PCサーバ10ではなく自
己のLANボード22の故障と判定し、自己(PCサー
バ20)の再起動を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は計算機の故障検出・
回復方式、特にネットワーク接続された計算機において
発生した故障を高信頼度で検出するための方式に関す
る。
【0002】
【従来の技術】従来から、処理の内容によっては一時的
なシステムダウンは許すものの即座にリブートさせシス
テムの稼働を続けて行わせなくてはならない場合があ
る。システムダウンの原因としては、物理的な装置の故
障の他にもソフトウェア的な障害などリブートすること
によってシステムの復旧が即座にできるような場合も少
なくない。
【0003】ところで、同一ネットワーク上で動作する
複数の計算機、例えばそれぞれパーソナルコンピュータ
(PC)で構築された複数のサーバを含むシステムにお
いては、サーバそれぞれに自己並びに相互の故障検出機
能を持たせ、稼働中に発生したソフトウェア的な障害
(故障)をリアルタイムに検出できるようにし、故障し
停止したサーバを即座に再起動できるようにしている。
【0004】図7は、従来からあるPCサーバの故障検
出方式を示した図である。ネットワーク上の各PCサー
バ100,200には、故障検出機能を実現するために
故障検出用の専用ボードが搭載され、それぞれを専用線
150で接続する。この故障検知専用ボード140,2
40は、搭載されたPCサーバ100,200が故障し
たことを検出すると、その旨を他の故障検知専用ボード
140,240に専用線150を介して通知する。ま
た、故障検知専用ボード140,240は、他の故障検
知専用ボード240,140と定期的に通信を行うこと
によって他のPCサーバ200,100の動作を相互に
監視しており、前述した他の故障検知専用ボード24
0,140からの通知を受信したときや他の故障検知専
用ボード240,140との通信が不能となったことを
検知することによって他のPCサーバ200,100の
故障を検出することができる。このように、各故障検知
専用ボード140,240は、搭載されたPCサーバ1
00,200の故障を検知すると、リブート指示を出し
てPCサーバ100,200を再起動させる。
【0005】従って、例えば、PCサーバに稼働系、待
機系を設定して運用するようなシステムにおいて、稼働
系がダウンしたときには、その旨を待機系に伝えること
ができるので、動作主体を待機系への自動切換えをリア
ルタイムに行うとともにダウンした稼働系を即座にリブ
ートすることができる。また、待機系が故障したときで
もリブートさせることによって故障の回復を行い、再度
待機させることができる。
【0006】
【発明が解決しようとする課題】しかしながら、従来で
は、故障検出機能を専用ボードのみを用いて実現してい
たので、専用ボードが故障してしまうと、PCサーバで
発生した故障を検出できなくなってしまう。また、専用
ボードの誤動作により故障の誤認をしてしまう場合もあ
り得る。これを解消するために専用ボードの高信頼性を
追求すると、その製造コストが増大してしまうことにな
る。従って、故障検出機能を発揮させるために、その信
頼性の向上を図りつつもコストの増大を極力抑えられる
ことが望まれる。
【0007】本発明は以上のような問題を解決するため
になされたものであり、その目的は、故障と判定した計
算機に再起動をさせることによって自動的に回復させる
計算機の故障検出・回復方式を提供することにある。
【0008】
【課題を解決するための手段】以上のような目的を達成
するために、本発明における計算機の故障検出・回復方
式は、ネットワーク接続されている少なくとも3台の計
算機のうち複数台を故障検知対象計算機とし、少なくと
も1台を前記故障検知対象計算機において発生した故障
を検出する監視計算機とするシステムにおいて、前記故
障検知対象計算機は、独立して動作可能であり、搭載さ
れた前記故障検知対象計算機の故障を検知する自己故障
検知手段と、ネットワークを介して他の前記計算機と通
信を行うネットワーク通信手段と、指示により自己の再
起動をする再起動手段とを有し、前記監視計算機は、独
立して動作可能であり、接続された他の前記故障検知対
象計算機の故障を検知する故障検知手段と、ネットワー
クを介して他の前記計算機と通信を行うネットワーク通
信手段と、前記システム内における故障の発生を監視す
るとともに故障が検出された前記故障検知対象計算機の
再起動処理を行う稼働状態監視制御手段とを有し、前記
故障検知手段経由で故障を検出した前記稼働状態監視制
御手段は、ネットワーク経由で故障が検出された前記故
障検知対象計算機との通信を試行し、故障が検出された
前記故障検知対象計算機から応答がなかった場合は、前
記故障検知手段経由で故障が検出された前記故障検知対
象計算機の再起動指示を行い、当該応答があった場合
は、故障が検出された前記故障検知対象計算機に搭載さ
れた前記自己故障検知手段の故障と判定し、ネットワー
ク経由で故障が検出された前記故障検知対象計算機の再
起動指示を行うことを特徴とする。
【0009】また、前記故障検知対象計算機は、前記監
視計算機でもあることを特徴とする。
【0010】また、ネットワーク接続されている少なく
とも3台の計算機のうち複数台を故障検知対象計算機と
するシステムにおいて、前記故障検知対象計算機は、独
立して動作可能であり、搭載された前記故障検知対象計
算機の故障並びに接続した他の前記故障検知対象計算機
の故障を検知する故障検知手段と、ネットワークを介し
て他の前記計算機と通信を行うネットワーク通信手段
と、指示により自己の再起動をする再起動手段と、前記
システム内における故障の発生を監視するとともに故障
が検出された前記故障検知対象計算機の再起動処理を行
う稼働状態監視制御手段とを有し、前記ネットワーク経
由で故障を検出した前記故障検知対象計算機の前記稼働
状態監視制御手段は、ネットワーク経由で故障していな
い他の前記計算機との通信を試行し、当該計算機から応
答があった場合は、前記故障検知手段経由で故障が検出
された前記故障検知対象計算機の再起動指示を行い、当
該応答がなかった場合は、自己が搭載する前記ネットワ
ーク通信手段の故障と判定し、自己の再起動を行うこと
を特徴とする。
【0011】上記発明によれば、故障検知手段を用いる
以外に既存のネットワークを有効利用することにより、
故障検出機能を実現するようにした。すなわち、故障を
検出するための経路の二重化を図るようにした。但し、
本発明においては、単なる構成の二重化ではなく既存の
構成を有効に利用した異なる経路による二重化を図るよ
うにしている。これにより、コストの増大を抑止しつつ
故障検出機能の信頼度を向上させることができる。
【0012】また、前記故障検知対象計算機の稼働状態
を保持する稼働状態保持手段を有することを特徴とす
る。
【0013】更に、故障を検出した前記故障検知対象計
算機が搭載する前記稼働状態監視制御手段は、前記稼働
状態保持手段が保持する稼働状態に応じて再起動指示の
実行制御をすることを特徴とする。すなわち、稼働状態
保持手段を参照することによって再起動の指示が既に出
ているかを把握することができるので、無駄な再起動の
指示を行う必要がなくなる。
【0014】
【発明の実施の形態】以下、図面に基づいて、本発明の
好適な実施の形態について説明する。
【0015】実施の形態1.図1は、本発明に係る計算
機の故障検出・回復方式の第1の実施の形態であるネッ
トワークシステムの全体構成図である。このネットワー
クシステムは、故障検出対象となる2台のPCサーバ1
0,20と、ネットワークシステムの管理装置に相当す
るPC30と、これらを接続するLAN2で構成されて
いる。PCサーバ10,20及びPC30は、常時稼働
している。PCサーバ10,20及びPC30には、そ
れぞれLANボード12,22,32が搭載され、他の
計算機との通信を行うことができる。また、PCサーバ
10,20には、故障検出機能を実現するための故障検
知専用ボード14,24がそれぞれ搭載されており、こ
れらのボード14,24は、構成制御装置4を介して専
用ケーブル15,25で接続されている。故障検知専用
ボード14,24は、搭載されたPCサーバ10,20
が停止しても独立して動作可能であり、再起動(リブー
ト)の指示を出すことができる。
【0016】また、各PCサーバ10,20では、PC
サーバ10,20の稼働状態を監視する監視プログラム
がメモリに常駐されて常時実行されており、CPUとと
もに稼働状態監視部16,26を構成する。稼働状態監
視部16,26は、故障検知専用ボード14,24が保
有する特定フラグ(図示せず)を定期的にリセットして
いる。また、各稼働状態監視部16,26は、LAN2
を経由して定期的に通信を行い、他のPCサーバ20,
10が稼働しているかどうかのチェックを相互に行って
いる。更に、自己の計算機の再起動並びに他のPCサー
バ10,20に対して再起動の指示を行うことができ
る。
【0017】構成制御装置4は、全ての故障検知対象、
この例ではPCサーバ10,20の稼働状態を保持する
稼働状態テーブルを設け、その設定内容を更新すること
によって各PCサーバ10,20の稼働状態を把握して
いる。稼働状態は、正常に稼働状態であることを表す
“正常”、故障し稼働していないことを表す“故障中”
及び故障発生後の回復動作中であることを表す“再起動
中”で表される。
【0018】本実施の形態において特徴的なことは、故
障検知専用ボード14,24を用いた故障検出のみなら
ず、既存の構成すなわちLAN2を利用することによっ
てPCサーバ10,20の故障の検出をできるようにし
たことである。すなわち、故障検出をする経路の二重化
を図るようにしたことである。但し、本実施の形態にお
いては、単なる構成の二重化ではなく既存の構成を有効
に利用した異なる経路による二重化を図ることを特徴と
しており、これにより、コストの増大を抑止しつつ故障
検出機能の信頼度を向上させることができる。なお、本
実施の形態でいう故障とは、PCサーバ10,20をリ
ブートすることによって回復することができる程度の異
常をいう。
【0019】次に、本実施の形態における動作について
説明するが、まず、故障検知専用ボード14,24によ
り他のPCサーバ20,10の故障を検出し、更に故障
したPCサーバの再起動をする動作について図2に示し
たフローチャートを用いて説明する。なお、この説明で
は、PCサーバ10が故障するものとする。
【0020】故障検知専用ボード14は、定期的に監視
プログラムにより内部の特定フラグがリセットされるわ
けであるが、このリセット動作を常時監視し、一定の時
間以上その特定フラグがリセットされなかったことを検
知すると(ステップ101)、PCサーバ10が故障し
たと判断する。すなわち、メモリ常駐の監視プログラム
が定期的に行うフラグリセット処理が行われなくなった
ということでPCサーバ10が故障したと判断する。故
障検知専用ボード14は、このように判断すると、専用
ケーブル15を介して構成制御装置4にその旨を通知す
る(ステップ102)。
【0021】構成制御装置4は、故障検知専用ボード1
4から当該通知を受けると(ステップ121)、稼働状
態テーブルのPCサーバ10の稼働状態を“正常”から
“故障中”に変更する(ステップ122)。そして、稼
働状態テーブルの設定内容を参照し、稼働状態が“正
常”であるPCサーバ20の故障検知専用ボード24に
対して、PCサーバ10が故障したという旨の送信を行
う(ステップ123)。なお、この例では、2台のPC
サーバで構成しているためPCサーバ20が一意に特定
することができるが、3台以上のPCサーバを有してお
り、複数のPCサーバの稼働状態が“正常”である場合
には、1台のPCサーバを選出するための条件、例えば
稼働状態テーブルの登録順や優先順位などにより1台の
PCサーバを特定することになる。
【0022】PCサーバ20の稼働状態監視部26は、
故障検知専用ボード24を介してPCサーバ10が故障
したという報告を受けると(ステップ141)、この報
告の正当性を確認するため、故障したと報告されたPC
サーバ10に対してLAN2経由で通信を試みる(ステ
ップ142)。この通信の結果、PCサーバ10から応
答があって、その通信が正常終了すれば(ステップ14
3)、故障しているのは、PCサーバ10そのものでは
なく故障検知専用ボード14であると判断する。このと
き、稼働状態監視部26は、故障検知専用ボード14の
故障を回復させるためにLAN2経由でPCサーバ10
に再起動の指示を送信する(ステップ144)。
【0023】一方、稼働状態監視部26がしたPCサー
バ10への通信の結果、PCサーバ10からの応答がな
かった場合、PCサーバ10は稼働していないと判断
し、報告の正当性の確認を終了する。この後、稼働状態
監視部26は、故障検知専用ボード24を介して故障検
知専用ボード14にPCサーバ10のリセット指示を出
す(ステップ145)。
【0024】PCサーバ10は、LAN2あるいは故障
検知専用ボード14を経由してPCサーバ20からの再
起動指示を受け取ると、リブートを行う(ステップ10
3)。
【0025】更に、稼働状態監視部26は、上記のいず
れかの経路でPCサーバ10に再起動の指示を出すと、
構成制御装置4にPCサーバ10が再起動中である旨を
通知する(ステップ146)。構成制御装置4は、故障
検知専用ボード24から当該通知を受けると、稼働状態
テーブルのPCサーバ10の稼働状態を“故障中”から
“再起動中”に変更する(ステップ124)。
【0026】PCサーバ10において再起動の処理が完
了することにより、PCサーバ10自身あるいは故障検
知専用ボード14が正常の状態に戻る。その後、稼働状
態監視部16は、故障検知専用ボード14を介して再起
動が完了した旨を構成制御装置4に通知する(ステップ
104)。構成制御装置4は、故障検知専用ボード14
から当該通知を受けると、稼働状態テーブルのPCサー
バ10の稼働状態を“再起動中”から“正常”に変更す
る(ステップ125)。
【0027】このように、故障検知専用ボード14によ
って検出した故障をLAN2を使用してその故障の正当
性を確認することができ、また、PCサーバ10に再起
動をさせることで故障したPCサーバ10あるいは故障
検知専用ボード14を自動的に回復させることができ
る。
【0028】次に、LAN2経由でPCサーバ10,2
0の故障を検出し、更に故障したPCサーバの再起動を
する動作について図3に示したフローチャートを用いて
説明する。なお、ここでは、PCサーバ10が故障した
ものとして説明する。
【0029】PCサーバ10,20の間では、監視プロ
グラムによりLAN2を経由して定期的に通信を行い、
相互に稼働しているかどうかのチェックを行っている。
ここで、稼働状態監視部26がPCサーバ10との通信
に異常を検出した場合、PCサーバ10が稼働しておら
ず故障していると推定し(ステップ241)、故障検知
専用ボード24を経由して構成制御装置4にその旨を通
知する(ステップ242)。
【0030】構成制御装置4は、その旨の通知を受け取
ると(ステップ221)、PCサーバ10の稼働状態を
参照する。その結果、“故障中”若しくは“再起動中”
であれば、PCサーバ10は故障したという旨の通知を
PCサーバ10からすでに受けていることになるので、
PCサーバ10は、実際に故障していることになる。ま
た、PCサーバ10の稼働状態が“正常”であれば、ま
だ、故障検知専用ボード14の故障などが原因でその旨
の通知をPCサーバ10から受けていないという可能性
もある。従って、構成制御装置4は、PCサーバ20に
そのいずれかの旨を通知する(ステップ222)。
【0031】PCサーバ20は、構成制御装置4からの
報告の内容がPCサーバ10の故障を認識しているよう
であれば(ステップ244)、そのまま処理を終了す
る。PCサーバ10は、自らリブートし再起動を行って
いるのであろうからPCサーバ10の再起動に関する処
理を行う必要はないためである。また、仮にシステムが
3台以上のPCサーバを有している場合は、他のPCサ
ーバが再起動処理をすでに進めている可能性があるから
である。一方、PCサーバ10の稼働状態が“正常”の
とき、PCサーバ20は、LAN2に接続されている他
のPC30と通信の試行を行う(ステップ244,24
5)。PC30からの応答があれば、先の通信処理にお
いて応答が得られなかったPCサーバ10が故障してい
るとこの時点で判断する。一方、PC30からの応答が
なければ、PCサーバ10及びPC30双方との通信に
失敗したことになるので、PCサーバ10が故障してい
るのではなくPCサーバ20に搭載されたLANボード
22が故障していると判断する。
【0032】従って、稼働状態監視部26は、PC30
からの応答があれば、故障検知専用ボード24を経由し
てPCサーバ10の故障検出を改めて通知するとともに
PCサーバ10の再起動の指示を行う(ステップ24
6,247)。また、PC30からの応答がなければ、
自己のPCサーバ20が故障している旨の通知をすると
ともに自らリセットを行うことでリブートを行う(ステ
ップ246,248,249)。
【0033】構成制御装置4は、PCサーバ20からの
通知がPCサーバ10の再起動指示であれば(ステップ
223)、稼働状態テーブルのPCサーバ10の稼働状
態を“正常”から“再起動中”に変更するとともにPC
サーバ10の故障検知専用ボード14にPCサーバ10
の再起動指示を出す(ステップ224)。PCサーバ1
0は、故障検知専用ボード14の指示により自らリブー
トし、その処理が完了すると、稼働状態監視部16は、
故障検知専用ボード14を介して再起動が完了した旨を
構成制御装置4に通知する(ステップ201,20
2)。構成制御装置4は、故障検知専用ボード14から
当該通知を受けると、稼働状態テーブルのPCサーバ1
0の稼働状態を“再起動中”から“正常”に変更する
(ステップ225)。
【0034】一方、構成制御装置4は、PCサーバ20
からの通知がPCサーバ20の故障であるという旨であ
れば、稼働状態テーブルのPCサーバ20の稼働状態を
“正常”から“再起動中”に変更する(ステップ22
6)。そして、PCサーバ20のリブートの完了報告
(ステップ250)を受け取ると、PCサーバ20の稼
働状態を“再起動中”から“正常”に変更する(ステッ
プ227)。なお、PCサーバ20の再起動は、自らリ
セットを行うのではなく、PCサーバ10の場合と同様
に、構成制御装置4によるステップ226の処理後、再
起動指示を故障検知専用ボード24を介して受けること
により行うようにしてもよい。
【0035】このように、LAN2を使用して検出した
故障をLAN2に接続された他のPC30との通信を試
行することによって故障の正当性を確認することがで
き、また、故障したPCサーバ10あるいはPCサーバ
20を自動的に回復させることができる。
【0036】以上、本実施の形態によれば、故障検出機
能を故障検知専用ボード14,24のみならず、既存の
LAN2をも利用することによってできるようにしたの
で、故障検出機能を確実に発揮することができ信頼度を
向上させることができる。更に、故障検出のために用い
る手段の故障をも特定することができる。また、コスト
の増大を抑止しつつ故障検出機能の信頼性を向上させる
ことができる。
【0037】また、前述した図2及び図3の処理は、い
ずれかのみを動作させてもよいが、本実施の形態のよう
に同時並行して行うことによりその信頼性を更に向上さ
せることができる。
【0038】なお、図3を用いて説明したLAN2経由
でPCサーバ10,20の故障を検出する場合、LAN
2経由で通信の試行を行う先となるPC30は、上記説
明から明らかなように通信の試行相手としてのみ利用し
ており、故障検出機能の有無とは関係がない。従って、
PC30に故障検出機能を持たせてPCサーバ10,2
0と同等であっても何ら問題はない。但し、この場合
は、PC30も故障検知専用ボードが搭載され構成制御
装置4に接続されることになる。
【0039】実施の形態2.ところで、上記実施の形態
1では、LAN2に2台のPCサーバを故障検知対象計
算機として接続し、また、それぞれに他のPCサーバの
故障を検出し回復させる監視計算機としての機能を持た
せていた。すなわち、PCサーバ10,20の全てに同
等の機能を持たせていた。これ以降の実施の形態では、
接続台数や機能の割振りなどの応用について例示する。
【0040】例えば、図4に示したように1台の故障検
知対象計算機としてのPCサーバ40に対してPCサー
バ40の故障検出・回復を行うための監視計算機として
複数のPCサーバ42−1,42ー2,…,42−nを
監視計算機群として設ける。すなわち、この場合のPC
サーバ40は、故障が検出されるだけであって他のPC
サーバの故障を検出する機能は不要である。一方、PC
サーバ42は、故障しても問題のない計算機である。こ
のような構成により、いずれかのPCサーバ42が故障
したとしても、故障したPCサーバ40を確実に検出
し、回復させることができる。但し、故障したPCサー
バ40に対して再起動をさせるためには、1台の監視計
算機が動作すればよいので、これは、PCサーバ42の
間で優先順位を付けて重複動作を防止するようにする必
要がある。若しくは、稼働状態テーブルのPCサーバ4
0に対応した稼働状態を、“正常”から“故障中”に変
更させたもののみが再起動処理を行うようにしてもよ
い。
【0041】実施の形態3.図5に示したように、1台
のPCサーバ52を専用の監視計算機として設け、故障
検知対象計算機として設けられた他のPCサーバ50−
1,50ー2,…,50−nの故障検出・回復を一括し
て行うようにしてもよい。なお、この場合は、稼働状態
保持手段として設けられた構成制御装置を独自に設けず
PCサーバ52に内蔵することができる。
【0042】実施の形態4.図6に示したように、故障
検知対象計算機として複数のPCサーバ60−1,60
ー2,…,60−nと、監視計算機として複数のPCサ
ーバ62−1,62ー2,…,62−nを設けてもよ
い。
【0043】
【発明の効果】本発明によれば、故障検知手段のみなら
ず既存のネットワークを有効に利用した障害検出をする
ことができるので、コストの増大を抑止しつつ故障検出
機能の信頼度を向上させることが可能となる。すなわ
ち、故障を検出するための手段を二系統有することによ
って故障を検出するために用いる手段に故障が発生した
場合でも故障の検出を確実にできることのみならず、そ
の手段自身の故障であることをも認識することができ
る。また、故障検知対象計算機を再起動させるための経
路も二系統有することになるので、故障が発生した故障
検知対象計算機を確実にリブートさせ回復させることが
可能となる。
【0044】また、稼働状態保持手段を設けたので、故
障検知対象計算機の稼働状態を把握することができるた
め、再起動処理を実行させる計算機を特定したり、ある
いは再起動処理を重複して実行させないようにすること
ができる。
【図面の簡単な説明】
【図1】 本発明に係る計算機の故障検出・回復方式の
第1の実施の形態であるネットワークシステムの全体構
成図である。
【図2】 第1の実施の形態において故障検知専用ボー
ドにより他のPCサーバ故障を検出し、更に故障したP
Cサーバの再起動をする動作を示したフローチャートで
ある。
【図3】 第1の実施の形態においてLAN2経由でP
Cサーバの故障を検出し、更に故障したPCサーバの再
起動をする動作を示したフローチャートである。
【図4】 本発明に係る計算機の故障検出・回復方式の
第2の実施の形態であるネットワークシステムの全体構
成図である。
【図5】 本発明に係る計算機の故障検出・回復方式の
第3の実施の形態であるネットワークシステムの全体構
成図である。
【図6】 本発明に係る計算機の故障検出・回復方式の
第4の実施の形態であるネットワークシステムの全体構
成図である。
【図7】 従来のPCサーバの故障検出方式を示した図
である。
【符号の説明】
2 LAN、4 構成制御装置、10,20,40,4
2,50,52,60,62 PCサーバ、12,2
2,32 LANボード、14,24 故障検知専用ボ
ード、15,25 専用ケーブル、16,26 稼働状
態監視部、30PC。

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 ネットワーク接続されている少なくとも
    3台の計算機のうち複数台を故障検知対象計算機とし、
    少なくとも1台を前記故障検知対象計算機において発生
    した故障を検出する監視計算機とするシステムにおい
    て、 前記故障検知対象計算機は、 独立して動作可能であり、搭載された前記故障検知対象
    計算機の故障を検知する自己故障検知手段と、 ネットワークを介して他の前記計算機と通信を行うネッ
    トワーク通信手段と、 指示により自己の再起動をする再起動手段と、 を有し、 前記監視計算機は、 独立して動作可能であり、接続された他の前記故障検知
    対象計算機の故障を検知する故障検知手段と、 ネットワークを介して他の前記計算機と通信を行うネッ
    トワーク通信手段と、 前記システム内における故障の発生を監視するとともに
    故障が検出された前記故障検知対象計算機の再起動処理
    を行う稼働状態監視制御手段と、 を有し、 前記故障検知手段経由で故障を検出した前記稼働状態監
    視制御手段は、ネットワーク経由で故障が検出された前
    記故障検知対象計算機との通信を試行し、故障が検出さ
    れた前記故障検知対象計算機から応答がなかった場合
    は、前記故障検知手段経由で故障が検出された前記故障
    検知対象計算機の再起動指示を行い、当該応答があった
    場合は、故障が検出された前記故障検知対象計算機に搭
    載された前記自己故障検知手段の故障と判定し、ネット
    ワーク経由で故障が検出された前記故障検知対象計算機
    の再起動指示を行うことを特徴とする計算機の故障検出
    ・回復方式。
  2. 【請求項2】 前記故障検知対象計算機は、前記監視計
    算機でもあることを特徴とする請求項1記載の計算機の
    故障検出・回復方式。
  3. 【請求項3】 ネットワーク接続されている少なくとも
    3台の計算機のうち複数台を故障検知対象計算機とする
    システムにおいて、 前記故障検知対象計算機は、 独立して動作可能であり、搭載された前記故障検知対象
    計算機の故障並びに接続した他の前記故障検知対象計算
    機の故障を検知する故障検知手段と、 ネットワークを介して他の前記計算機と通信を行うネッ
    トワーク通信手段と、 指示により自己の再起動をする再起動手段と、 前記システム内における故障の発生を監視するとともに
    故障が発生した前記故障検知対象計算機の再起動処理を
    行う稼働状態監視制御手段と、 を有し、 前記ネットワーク経由で故障を検出した前記故障検知対
    象計算機の前記稼働状態監視制御手段は、ネットワーク
    経由で故障していない他の前記計算機との通信を試行
    し、当該計算機から応答があった場合は、前記故障検知
    手段経由で故障が検出された前記故障検知対象計算機の
    再起動指示を行い、当該応答がなかった場合は、自己が
    搭載する前記ネットワーク通信手段の故障と判定し、自
    己の再起動を行うことを特徴とする計算機の故障検出・
    回復方式。
  4. 【請求項4】 前記故障検知対象計算機の稼働状態を保
    持する稼働状態保持手段を有することを特徴とする請求
    項1乃至3いずれかに記載の計算機の故障検出・回復方
    式。
  5. 【請求項5】 故障を検出した前記故障検知対象計算機
    が搭載する前記稼働状態監視制御手段は、前記稼働状態
    保持手段が保持する稼働状態に応じて再起動指示の実行
    制御をすることを特徴とする請求項4記載の計算機の故
    障検出・回復方式。
JP28477796A 1996-10-28 1996-10-28 計算機の故障検出・回復方式 Expired - Fee Related JP3325785B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP28477796A JP3325785B2 (ja) 1996-10-28 1996-10-28 計算機の故障検出・回復方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP28477796A JP3325785B2 (ja) 1996-10-28 1996-10-28 計算機の故障検出・回復方式

Publications (2)

Publication Number Publication Date
JPH10133963A true JPH10133963A (ja) 1998-05-22
JP3325785B2 JP3325785B2 (ja) 2002-09-17

Family

ID=17682886

Family Applications (1)

Application Number Title Priority Date Filing Date
JP28477796A Expired - Fee Related JP3325785B2 (ja) 1996-10-28 1996-10-28 計算機の故障検出・回復方式

Country Status (1)

Country Link
JP (1) JP3325785B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7363483B2 (en) 2004-08-19 2008-04-22 Fujitsu Limited System for rebooting relay apparatus based on detection of completely no communication establishment data presence
WO2008062511A1 (fr) * 2006-11-21 2008-05-29 Fujitsu Limited Système multiprocesseur
US7502956B2 (en) 2004-07-22 2009-03-10 Fujitsu Limited Information processing apparatus and error detecting method
JP2016021644A (ja) * 2014-07-14 2016-02-04 日新電機株式会社 通信制御システムおよび通信制御方法
JP2021173627A (ja) * 2020-04-24 2021-11-01 Necプラットフォームズ株式会社 サーバ、サーバシステム、時刻同期方法及びプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7502956B2 (en) 2004-07-22 2009-03-10 Fujitsu Limited Information processing apparatus and error detecting method
US7363483B2 (en) 2004-08-19 2008-04-22 Fujitsu Limited System for rebooting relay apparatus based on detection of completely no communication establishment data presence
WO2008062511A1 (fr) * 2006-11-21 2008-05-29 Fujitsu Limited Système multiprocesseur
JP2016021644A (ja) * 2014-07-14 2016-02-04 日新電機株式会社 通信制御システムおよび通信制御方法
JP2021173627A (ja) * 2020-04-24 2021-11-01 Necプラットフォームズ株式会社 サーバ、サーバシステム、時刻同期方法及びプログラム

Also Published As

Publication number Publication date
JP3325785B2 (ja) 2002-09-17

Similar Documents

Publication Publication Date Title
US6266781B1 (en) Method and apparatus for providing failure detection and recovery with predetermined replication style for distributed applications in a network
US6195760B1 (en) Method and apparatus for providing failure detection and recovery with predetermined degree of replication for distributed applications in a network
US6477663B1 (en) Method and apparatus for providing process pair protection for complex applications
JP2004295738A (ja) 耐障害計算機システム、プログラム並列実行方法およびプログラム
US20030221141A1 (en) Software-based watchdog method and apparatus
CN114090184B (zh) 一种虚拟化集群高可用性的实现方法和设备
JP2004171370A (ja) 冗長構成におけるクライアント/サーバ間のアドレス制御方式および方法
JP5285045B2 (ja) 仮想環境における故障復旧方法及びサーバ及びプログラム
JP3325785B2 (ja) 計算機の故障検出・回復方式
CN117435405A (zh) 双机热备和故障切换系统和方法
JP5285044B2 (ja) クラスタシステム復旧方法及びサーバ及びプログラム
KR0133337B1 (ko) 타켓 시스템 이중화 운용관리 장치 및 방법
US11954509B2 (en) Service continuation system and service continuation method between active and standby virtual servers
CN111258823A (zh) 一种主从服务器的切换方法及系统
JP3183227B2 (ja) 冗長化起動方式
JP2015106226A (ja) 二重化システム
JP2977705B2 (ja) ネットワーク接続された多重化コンピュータシステムの制御方式
JP3107054B2 (ja) 軽障害処理システム
JP6368842B2 (ja) プロセス監視プログラム及びプロセス監視システム
JP2022185768A (ja) 情報処理装置及び復旧方法
JP2007058679A (ja) プロセス管理システム、プロセス管理方法及び冗長システム
JP6309711B2 (ja) プロセス監視プログラム及びプロセス監視システム
JP4834421B2 (ja) ネットワーク装置
CN114461229A (zh) 服务发布方法、装置、电子设备及存储介质
CN115549751A (zh) 遥感卫星地面站监控系统和方法

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070705

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080705

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090705

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100705

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100705

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110705

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110705

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120705

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees