JPH11353255A - 異常部位検知方法 - Google Patents

異常部位検知方法

Info

Publication number
JPH11353255A
JPH11353255A JP10155580A JP15558098A JPH11353255A JP H11353255 A JPH11353255 A JP H11353255A JP 10155580 A JP10155580 A JP 10155580A JP 15558098 A JP15558098 A JP 15558098A JP H11353255 A JPH11353255 A JP H11353255A
Authority
JP
Japan
Prior art keywords
computer
program
network
data
diagnosis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10155580A
Other languages
English (en)
Inventor
Masaru Tomobe
優 友部
Hiroyuki Hori
裕之 保里
Katsuo Suzuki
克男 鈴木
Masao Sueki
雅夫 末木
Yoshito Niiyama
義人 新山
Keiko Akatsu
景子 赤津
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Hitachi Information and Control Systems Inc
Original Assignee
Hitachi Ltd
Hitachi Process Computer Engineering Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd, Hitachi Process Computer Engineering Inc filed Critical Hitachi Ltd
Priority to JP10155580A priority Critical patent/JPH11353255A/ja
Publication of JPH11353255A publication Critical patent/JPH11353255A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】ループバックテストにより異常部位を特定する
際に、より詳細に異常部位を特定すると共に、ループバ
ックテストに伴う負荷を低減することを目的とする。 【解決手段】計算機がネットワークによって結ばれたシ
ステムで、各計算機の生存監視プログラムは、更新停止
の検知回数が計算機停止判断回数に達して他計算機が停
止したと判断したときのみループバックテストを行うと
ともに、ネットワーク上の計算機構成と異常部位を対応
させたネットワーク異常部位テーブルを設けて、異常部
位を特定する。また特定された異常部位に対して通信階
層別にループバックテストを行う異常診断プログラムと
ハード,OS及びアプリケーションレベルでループバッ
クテストの応答を行うプログラムを備え、異常を検出し
た計算機との間でテスト結果により異常部位を特定して
対応処置を執る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、多重系計算機シス
テムにおける異常診断に関し、特に、ネットワークによ
る分散システムにおける通信階層別の異常診断に関す
る。
【0002】
【従来の技術】従来の多重系計算機システムにおける異
常部位検知方法としては、診断対象計算機及びホスト計
算機からの通信経路を選択し、ホスト計算機から該当計
算機に対して選択した通信経路経由で診断要求を送信
し、該当計算機は診断処理を行い、その結果を同一通信
経路経由でホスト計算機へ送信する。そして、診断要求
の送信及び診断結果の受信により通信経路の異常有無を
判断し、診断結果を解析して該当計算機の異常有無を判
断する。
【0003】なお、この種の多重系計算機システムにお
ける異常部位検知方法としては、特開平1−145561 号公
報が挙げられる。
【0004】
【発明が解決しようとする課題】しかし、上記従来技術
は計算機の診断試験とループバックテスト(遠隔診断)
による計算機及びネットワーク単位での異常部位の検知
であり、異常部位の特定が広義的なものとなるという問
題がある。
【0005】また、上記従来技術は常に全計算機に対し
てのループバックテストが必要であり、計算機及びネッ
トワーク上の負荷に対する考慮がされていない。
【0006】本発明の目的は、ループバックテストに伴
う負荷を低減するため、計算機だけではなくネットワー
クを含めて高い分解能で異常部位を特定してテスト対象
を絞り込むとともに、より詳細に異常部位を特定するた
め、各計算機における通信階層別にループバックテスト
を行うことにある。
【0007】
【課題を解決するための手段】上記課題を解決するた
め、本発明は、各計算機の生存報告プログラムが更新す
る生存報告データを監視する生存監視プログラムでは、
過剰に他計算機の停止を検知しないために計算機停止判
断回数を持ち、更新停止の検知回数が計算機停止判断回
数に達して他計算機が停止したと判断したときのみルー
プバックテストを行うとともに、ネットワーク上の計算
機構成と異常部位を対応させたネットワーク異常部位テ
ーブルを設け、他計算機からの生存報告データとネット
ワーク異常部位テーブルからネットワーク上の異常部位
を特定する。また各計算機は、特定された異常部位に対
して通信階層別に遠隔診断(ループバックテスト)を行
う異常診断プログラムとループバックテストで応答を行
うハード応答プログラム,OS応答プログラム及びアプ
リケーション応答プログラムを備え、異常を検出した計
算機の異常診断プログラムが他計算機のハード応答プロ
グラム,OS応答プログラム,アプリケーション応答プ
ログラム及び自計算機のハード応答プログラムとの間で
ループバックテストを行い、ループバックテストの結果
によって異常部位を特定して対応処置を執ることによ
り、ループバックテストの実行回数を増加させずにネッ
トワーク上の負荷を抑えて詳細な異常部位を特定する。
【0008】
【発明の実施の形態】以下に本発明の一実施例を図を用
いて説明する。
【0009】図1は本発明による異常部位検知方法を示
すシステム構成図である。図1において、本発明による
多重系計算機における異常部位検知方法の概要を示す。
【0010】計算機1(103)と計算機n(110)
はネットワーク102により接続され、このネットワー
ク102に接続された計算機の活動状態を記憶する生存
管理テーブル107を持つ。
【0011】生存報告プログラム104は、自計算機の
稼働/停止の状態を他計算機に報告するため、ネットワ
ーク102に対して生存報告データ101を同報通信に
より一定周期で送出する。生存監視プログラム105
は、一定周期毎にネットワーク102から生存報告デー
タ101を受信し、その送信元計算機の稼働/停止を判
断し、送信元計算機の状態を表す値を生存管理テーブル
107に格納する。これにより、計算機1(103)及
び計算機n(110)は、ネットワーク102に接続さ
れる全ての計算機の状態を生存管理テーブル107に保
持し、各計算機相互に他計算機の状態を認識できる。生
存監視プログラム105は、受信した生存報告データ1
01により生存管理テーブル107を更新後、その生存
管理テーブル107内の情報により停止中の計算機の有
無をチェックし、停止中の計算機があれば、異常診断プ
ログラム106を起動する。
【0012】異常診断プログラム106は、生存管理テ
ーブル107を元に停止中計算機が1台か複数台かを調
べる。停止中の計算機が複数台あれば、システム構築時
に作成されたネットワーク異常部位テーブル108を参
照し、異常発生部位を特定する。停止中計算機が1台の
場合又は停止中の計算機が複数台であってもネットワー
ク異常部位テーブル108からは異常発生部位を特定で
きない場合、異常診断プログラム106は、ネットワー
ク102を経由し、システム構築時に作成された診断順
序管理テーブル109に登録されている順に停止中の計
算機の各通信階層に対して診断確認データ801を送信
する。停止中の計算機n(110)では、計算機が正常
動作していれば、ハード応答プログラム111,OS応
答プログラム112,アプリケーションプログラム11
3の全てがネットワーク102からの診断確認データ8
01を受信し、診断応答データ901を、診断元の計算
機1(103)に対してネットワーク102経由で送信
する。
【0013】生存報告データ301は、ネットワーク1
02に接続された全計算機に対応して、各計算機(1〜
n)毎の計算機生存報告カウンタと計算機計画停止フラ
グを持つ。計算機生存報告カウンタは、対応する計算機
の生存報告プログラムが一定周期で加算する整数値であ
る。計算機計画停止フラグは、対応する計算機の生存監
視プログラムが自計算機の停止指示を検知して設定する
値であり、活動停止を予告するものである。
【0014】診断元の計算機1(103)では、診断先
からの診断応答データ901を受信し、ハードレベル,
OSレベル,アプリケーションレベルの各通信階層から
の応答有無を確認する。診断応答データ901が返って
来ない階層があれば、その階層に異常が発生したと判断
し、結果を生存管理テーブル107に反映する。
【0015】図2は図1の異常部位検知方法における生
存管理テーブルの構成である。生存管理テーブル401
は、ネットワーク102に接続された計算機の総数であ
る接続計算機数402と、各計算機と1対1に対応する
接続計算機番号1〜n(403)と、計算機が停止したと判
断する閾値である計算機停止判断回数404と、各計算
機ごとの状態を表す情報405〜407から構成され
る。各計算機ごとの状態を表す情報は、対応する計算機
が稼働中の場合は一定周期で更新される生存報告カウン
タ405と、停止予告無しに生存報告カウンタの更新が
停止している回数を表す停止カウンタ406と、動作状
態を判断した結果、活動/停止/計画停止の何れである
かを表す状態407から構成される。
【0016】生存報告プログラム104では、生存報告
データの自計算機の生存報告カウンタを更新し、更に自
計算機から計画停止の報告有無をチェックする。計画停
止報告があれば生存報告データ内の計画停止フラグに計
画停止を示す値を設定する。計画停止報告が無い場合
は、生存報告データ内の計画停止フラグに自計算機が生
存していることを示す値を設定する。生存報告プログラ
ムはこの後、一定時間の実行を休止した後同様の処理を
繰り返して、一定周期で生存報告データを送信する。
【0017】図3に生存監視プログラムの処理フローを
示す。生存監視プログラムは、生存報告データ101内
の計算機の状態をチェックし、停止計算機があれば異常
診断プログラムの起動を行う。計算機の状態チェックで
は、生存報告データ101内の各計算機の生存報告カウ
ンタと、生存管理テーブル107内の対応する計算機の
前回の生存報告カウンタとを比較し(処理601)、両
者が不一致の場合、該当計算機の生存報告プログラムが
活動していることから、計算機は生存しているとみな
し、生存管理テーブル107内の生存報告カウンタの値
を生存報告データ101内の各計算機の生存報告カウン
タの値に更新する(処理604)。両者の生存報告カウ
ンタが一致している場合、該当計算機の生存報告プログ
ラムが停止していることを意味するため、生存報告デー
タ101内の計画停止フラグをチェックし(処理60
3)、フラグの値が計画停止を表す値の場合、生存管理
テーブル107内の該当計算機の状態に計画停止の状態
を示す値を設定する(処理606)。フラグの値が計画停
止状態ではない場合、生存管理テーブル107内の停止
カウンタを更新して(処理605)、この停止カウンタ
の値と計算機停止判断回数404を比較する(処理60
7)。停止カウンタの値が計算機停止判断回数404以
上になっている場合、該当計算機は停止していると判断
し、生存管理テーブル107内の該当計算機の状態40
7に停止状態を示す値を設定する(処理608)。そし
て、以上の処理601から処理608の状態チェック処
理を、生存報告データ101で報告された全計算機に対
して行ったかをチェックし(処理609)、未済の場合
は、未済の計算機に対してチェックを行う。全計算機の
チェックが終了し、生存報告データ101の内容を生存
管理テーブル107に反映すると、生存管理テーブル1
07内の各計算機の状態により停止計算機の有無をチェ
ックする(処理610)。何れかの計算機が停止状態に
なれば、異常診断プログラムを起動する(処理61
1)。この後、一定時間休止し(処理612)、処理6
01から処理612までの処理を再実行することによ
り、一定周期で生存監視プログラムが実行される。
【0018】図4に、ネットワーク異常部位テーブル1
08のフォーマットを示す。ネットワーク異常部位テー
ブル108は、異常部位データの総数を示す異常部位数
702と異常部位に対応するデータ(703〜705)か
らなる。各異常部位に対応するデータは、停止計算機デ
ータ703と異常部位データ704と詳細診断対象デー
タ705とから構成される。ここで、停止計算機データ
703は、異常部位を特定するための条件となる停止計
算機の組合せを計算機番号の集合で表したものである。
異常部位データ704は、停止計算機データ703で定
義された条件が成立した場合に、異常が発生したと特定
される部位を表す情報であり、特定されたネットワーク
を識別する情報、若しくは異常部位を特定するために更
に詳細診断を要する場合には、詳細診断が必要であるこ
とを示すデータを格納する。詳細診断対象データ705
は、更に詳細診断を要する場合の診断対象となる計算機
番号を示す。
【0019】図8に、異常診断プログラム106の処理
フローを示す。異常診断プログラム106は、まず生存
管理テーブル107を参照し、計画停止状態を除く停止
状態の計算機が複数存在するかをチェックする(処理1
101)。複数存在する場合には、ネットワーク異常部
位テーブル108を参照し、停止状態の計算機が、ネッ
トワーク異常部位テーブル108の何れかの停止計算機
データと一致するかをチェックする(処理1102)。
停止状態にある計算機番号の集合と一致する停止計算機
データがあれば、該当する異常部位データを参照する
(処理1102)。そして詳細診断が不要ならば、該当す
る異常部位データを異常発生部位として報告する(処理
1108)。更に詳細診断が必要な場合は、詳細診断対
象データにより指定される全計算機のハードレベルに対
して、診断確認データ801を構成する(処理110
4)。この診断確認データ801は、図5に示すよう
に、診断確認データと後述の診断応答データ等を識別す
るためのデータ区分802と、確認元計算機番号803
と、確認先計算機番号804と、当該診断確認データが
ハードレベル/OSレベル/アプリケーションレベルの
何れの通信階層に対する診断なのかを識別するための確
認対象レベル805から構成されている。
【0020】異常診断プログラム106は、構成した診
断確認データ801を対象となる計算機に対して送信し
て(処理1105)、送信先の計算機のハードレベルか
らの診断応答データの受信(処理1106)を待つ。図
6に診断応答データ901のフォーマットを示す。診断
応答データ901は、診断確認データ/診断応答データ
等を識別するためのデータ区分902と、応答元計算機
番号903と、ハードレベル/OSレベル/アプリケー
ションレベルの応答を返し各通信階層を識別するための
応答元レベル904と、応答先計算機番号905と、正
常/異常等の診断結果を格納する確認情報906から構
成される。異常診断プログラム106は、診断応答デー
タの受信に失敗したかをチェックし(処理1107)、
診断確認データ801を送った全計算機からの診断応答
データ受信が失敗していれば、ネットワークの異常と判
断して、異常発生報告(処理1108)を行う。しか
し、いずれかの計算機からの診断応答データの受信が成
功していた場合には、ネットワーク自体の故障ではない
と判断し、次に停止状態の計算機に対して、単一計算機
停止の場合と同様に診断通信を実施する。
【0021】なお、このネットワークに対するループバ
ックテストは、何れかの計算機からの診断応答データの
有無が問題となるため、異常診断プログラム106は構
成した診断確認データ801を任意の順序で、対象とな
る計算機に対して送信する。処理1102において停止
状態の計算機と一致する停止計算機データが無い場合、
単一計算機停止の場合と同様に診断通信を実施する。
【0022】診断通信では、まず診断順序管理テーブル
109からループバックテストを行う通信階層を順次取
り出し(処置1109)、該当通信階層へ送信する診断
確認データ801を構成する(処理1110)。図7
に、この診断順序管理テーブル109のフォーマットを
示す。診断順序管理テーブル109は、ループバックテ
ストを行う4つの通信階層1002から構成される。登
録されている通信階層は、計算機のハードレベル,OS
レベル,アプリケーションレベルの他に、自計算機のハ
ードレベルの4つである。通信階層1002の登録順
は、異常の発生頻度の高い通信階層から低い通信階層の
順に登録され、各通信階層の異常発生頻度により必要に
応じて登録順の入替えを行う。これにより、似たような
異常が連続して発生した場合、不必要な通信階層のルー
プバックテストを省略して同様な障害の発生箇所を即座
に特定できるようになる。異常診断プログラム106で
は、構成された診断確認データを停止状態の計算機に送
信し(処理1111)、診断応答データ901の受信を
待つ(処理1112)。そして、診断応答データの受信
が失敗したかをチェックし(処理1113)、失敗した
場合は未受信の通信階層レベルに異常があると判断し、
異常発生報告を行う(処理1115)。診断応答データ
の受信に成功すれば全通信階層レベルに対して受信した
かをチェックし(処理1114)、未受信のレベルにつ
いて同様の診断通信を行う。
【0023】ハード応答プログラム111では、確認対
象レベルとしてハードレベルが指定された診断確認デー
タ801を受信し、まず受信したデータが正常であるか
をチェックする。そして受信した診断確認データが正常
であれば、ハードウェア診断用に診断応答データを編集
し、通信を行うハードウェアに異常がないか診断プログ
ラムを起動してチェックする。ハードウェア診断プログ
ラムにより通信のハードウェア自体に異常が発見されれ
ばその異常情報を、一方ハードウェアが正常であれば正
常情報を先に構成しておいた診断応答データの確認情報
に設定し、診断応答データを応答先計算機番号で指定さ
れた計算機に送信する。また、確認元計算機から受信し
た診断確認データが異常の場合は、自計算機までの通信
段階に異常があるものとして、診断応答データの送信は
行わずに終了する。
【0024】OS応答プログラム112では、OSレベ
ルの診断確認データ801を受信すると、まず受信した
データが正常であるかをチェックする。受信した診断確
認データ801が正常であれば、データ区分が診断応答
である診断応答データ901を編集し、応答元レベルが
OSレベルであることを設定し、応答先計算機番号に受
信した診断確認データの確認元計算機番号を設定し、応
答元計算機番号に自計算機番号を設定した後、ドライバ
が異常であるかをチェックする。ドライバの動作が異常
であれば、異常情報を、正常であれば正常情報を診断応
答データの確認情報に設定し、診断応答データを送信す
る。一方受信した診断確認データが異常であった場合
は、診断応答データの送信は行わずに処理を終了する。
【0025】アプリケーション応答プログラム113に
おける処理も、ハード応答プログラム111やOS応答
プログラム112と同様に、アプリケーションレベルに
対する診断確認データ801を受信し、受信したデータ
が正常であるかをチェックする。受信データが正常であ
れば、アプリケーションレベルの診断応答データ901を
編集し、当該計算機のアプリケーションが業務停止状態
であるかをチェックする。アプリケーションプログラム
が業務停止状態であり応答不能の状態であれば、異常情
報を、またアプリケーションが正常に動作しているので
あれば、確認情報に正常情報を設定し、診断応答データ
を送信する。また、受信したアプリケーションレベルの
診断確認データが異常の場合は、診断応答データの送信
は行わずに終了する。
【0026】
【発明の効果】本発明によれば、通信階層別にループバ
ックテストを行うと共に、事前にネットワーク上の計算
機構成と異常部位を対応させておくことにより、計算機
だけではなくネットワークを含めて高い分解能で異常部
位を特定して対応処置を執ることができる。
【0027】また、生存管理情報として計算機停止判断
回数を持ち、生存報告データの更新が停止した計算機に
対してのみループバックテストを行うことにより、計算
機及びネットワークの負荷を抑えることができる。
【図面の簡単な説明】
【図1】本発明による実施例の概略図である。
【図2】本発明の実施例における生存管理テーブルのフ
ォーマットである。
【図3】本発明の実施例における生存監視プログラムの
処理フローである。
【図4】本発明の実施例におけるネットワーク異常部位
テーブルのフォーマットである。
【図5】本発明の実施例における診断確認データのフォ
ーマットである。
【図6】本発明の実施例における診断応答データのフォ
ーマットである。
【図7】本発明の実施例における診断順序管理テーブル
フォーマットである。
【図8】本発明の実施例における異常診断プログラムの
処理フローである。
【符号の説明】
101…生存報告データ、102…ネットワーク、10
3,110…計算機、104…生存報告プログラム、1
05…生存監視プログラム、106…異常診断プログラ
ム、107…生存管理テーブル、108…ネットワーク
異常部位テーブル、109…診断順序管理テーブル、1
11…ハード応答プログラム、112…OS応答プログ
ラム、113…アプリケーションプログラム、801…
診断確認データ、901…診断応答データ。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 保里 裕之 茨城県日立市大みか町五丁目2番1号 日 立プロセスコンピュータエンジニアリング 株式会社内 (72)発明者 鈴木 克男 茨城県日立市大みか町五丁目2番1号 日 立プロセスコンピュータエンジニアリング 株式会社内 (72)発明者 末木 雅夫 茨城県日立市大みか町五丁目2番1号 株 式会社日立製作所大みか工場内 (72)発明者 新山 義人 茨城県日立市大みか町五丁目2番1号 日 立プロセスコンピュータエンジニアリング 株式会社内 (72)発明者 赤津 景子 茨城県日立市大みか町五丁目2番1号 日 立プロセスコンピュータエンジニアリング 株式会社内

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】分散して配置された複数の計算機がネット
    ワークによって結ばれたシステムにおいて、 前記各計算機は、 通信階層別にループバックテストを行う異常診断プログ
    ラムと、 ループバックテストで応答を行うハード応答プログラム
    とOS応答プログラム及びアプリケーション応答プログ
    ラムを備え、 前記異常診断プログラムは、生存通知情報により停止し
    たと認識された計算機に対し、当該停止したと認識され
    た計算機のハード応答プログラム,OS応答プログラ
    ム,アプリケーション応答プログラム及び自計算機のハ
    ード応答プログラムとの間で順次ループバックテストを
    行い、これらのループバックテストの結果によって異常
    部位を特定することを特徴とする異常部位検知方法。
  2. 【請求項2】請求項1に記載の異常部位検知方法におい
    て、停止したと認識された計算機とネットワーク上の計
    算機構成とを対応させたネットワーク異常部位テーブル
    を備え、他計算機からの生存通知情報と当該ネットワー
    ク異常部位テーブルとに基づき、ネットワークの異常部
    位を特定することを特徴とする異常部位検知方法。
  3. 【請求項3】請求項1に記載の異常部位検知方法におい
    て、 他計算機からの生存通知情報が更新されなかった回数の
    閾値を設け、 他計算機からの生存通知情報が更新されなかった回数
    が、前記閾値を超えた場合に当該他計算機が停止したも
    のと認識し、 停止されたと認識された計算機に対してループバックテ
    ストを行うことを特徴とする異常部位検知方法。
  4. 【請求項4】請求項1に記載の異常部位検知方法におい
    て、ループバックテストを行う通信階層の順序を定めた
    順序テーブルを備え、当該診断順序テーブルの階層順序
    は、検出された故障の頻度情報に基づき変更されること
    を特徴とする異常部異検知方法。
JP10155580A 1998-06-04 1998-06-04 異常部位検知方法 Pending JPH11353255A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10155580A JPH11353255A (ja) 1998-06-04 1998-06-04 異常部位検知方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10155580A JPH11353255A (ja) 1998-06-04 1998-06-04 異常部位検知方法

Publications (1)

Publication Number Publication Date
JPH11353255A true JPH11353255A (ja) 1999-12-24

Family

ID=15609161

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10155580A Pending JPH11353255A (ja) 1998-06-04 1998-06-04 異常部位検知方法

Country Status (1)

Country Link
JP (1) JPH11353255A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002273012A (ja) * 2001-03-19 2002-09-24 Heiwa Corp 遊技機
JP2007194826A (ja) * 2006-01-18 2007-08-02 Oki Electric Ind Co Ltd xDSLシステム用のDSLAM及びCPE
US11349705B2 (en) 2020-01-31 2022-05-31 Hitachi, Ltd. Control system and control method

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002273012A (ja) * 2001-03-19 2002-09-24 Heiwa Corp 遊技機
JP2007194826A (ja) * 2006-01-18 2007-08-02 Oki Electric Ind Co Ltd xDSLシステム用のDSLAM及びCPE
US11349705B2 (en) 2020-01-31 2022-05-31 Hitachi, Ltd. Control system and control method

Similar Documents

Publication Publication Date Title
US7281040B1 (en) Diagnostic/remote monitoring by email
US4872165A (en) Fault diagnostic distributed processing method and system
US7984334B2 (en) Call-stack pattern matching for problem resolution within software
EP0920155A2 (en) Method for monitoring a computer system
JPH06509431A (ja) コンピュータシステムの監視方法及び装置
US7856639B2 (en) Monitoring and controlling applications executing in a computing node
EP1550036A2 (en) Method of solving a split-brain condition
US20020124201A1 (en) Method and system for log repair action handling on a logically partitioned multiprocessing system
JP5425720B2 (ja) 仮想化環境監視装置とその監視方法およびプログラム
JPH11353255A (ja) 異常部位検知方法
CN112994988B (zh) 多操作系统间的心跳检测方法及车机系统
JP2014228932A (ja) 障害通知装置、障害通知プログラムならびに障害通知方法
JP2001331330A (ja) プロセス異常検知及び復旧システム
JP2001014187A (ja) 障害診断システム
JP4034436B2 (ja) クライアント・サーバシステム及びクライアント稼働監視方法
JP3190880B2 (ja) スタンバイシステム、スタンバイ方法、および記録媒体
JP2003132019A (ja) 計算機システムの障害監視方法
JP2002132535A (ja) 分散型計算機システムにおける計算機診断方式
JP7298412B2 (ja) 異常判定装置、異常判定方法およびプログラム
JPH10171769A (ja) 複合計算機システム
KR102221436B1 (ko) 컴퓨터 프로그램 자동 실행 방법
KR100235570B1 (ko) 2이상의 주전산기를 병립 연결한 시스템의 클러스터 관리 마스터 시스템의 클러스터 관리방법
JPH087726B2 (ja) ヘルスチェック方式
JPH11232143A (ja) マルチスレッドの監視方法
JP4260441B2 (ja) システムヘルスチェックプログラム及びシステムヘルスチェック方法