JPH11353255A

JPH11353255A - 異常部位検知方法

Info

Publication number: JPH11353255A
Application number: JP10155580A
Authority: JP
Inventors: Masaru Tomobe; 優友部; Hiroyuki Hori; 裕之保里; Katsuo Suzuki; 克男鈴木; Masao Sueki; 雅夫末木; Yoshito Niiyama; 義人新山; Keiko Akatsu; 景子赤津
Original assignee: Hitachi Ltd; Hitachi Process Computer Engineering Inc
Current assignee: Hitachi Ltd; Hitachi Information and Control Systems Inc
Priority date: 1998-06-04
Filing date: 1998-06-04
Publication date: 1999-12-24

Abstract

(57)【要約】【課題】ループバックテストにより異常部位を特定する
際に、より詳細に異常部位を特定すると共に、ループバ
ックテストに伴う負荷を低減することを目的とする。【解決手段】計算機がネットワークによって結ばれたシ
ステムで、各計算機の生存監視プログラムは、更新停止
の検知回数が計算機停止判断回数に達して他計算機が停
止したと判断したときのみループバックテストを行うと
ともに、ネットワーク上の計算機構成と異常部位を対応
させたネットワーク異常部位テーブルを設けて、異常部
位を特定する。また特定された異常部位に対して通信階
層別にループバックテストを行う異常診断プログラムと
ハード，ＯＳ及びアプリケーションレベルでループバッ
クテストの応答を行うプログラムを備え、異常を検出し
た計算機との間でテスト結果により異常部位を特定して
対応処置を執る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、多重系計算機シス
テムにおける異常診断に関し、特に、ネットワークによ
る分散システムにおける通信階層別の異常診断に関す
る。

【０００２】

【従来の技術】従来の多重系計算機システムにおける異
常部位検知方法としては、診断対象計算機及びホスト計
算機からの通信経路を選択し、ホスト計算機から該当計
算機に対して選択した通信経路経由で診断要求を送信
し、該当計算機は診断処理を行い、その結果を同一通信
経路経由でホスト計算機へ送信する。そして、診断要求
の送信及び診断結果の受信により通信経路の異常有無を
判断し、診断結果を解析して該当計算機の異常有無を判
断する。

【０００３】なお、この種の多重系計算機システムにお
ける異常部位検知方法としては、特開平1−145561 号公
報が挙げられる。

【０００４】

【発明が解決しようとする課題】しかし、上記従来技術
は計算機の診断試験とループバックテスト（遠隔診断）
による計算機及びネットワーク単位での異常部位の検知
であり、異常部位の特定が広義的なものとなるという問
題がある。

【０００５】また、上記従来技術は常に全計算機に対し
てのループバックテストが必要であり、計算機及びネッ
トワーク上の負荷に対する考慮がされていない。

【０００６】本発明の目的は、ループバックテストに伴
う負荷を低減するため、計算機だけではなくネットワー
クを含めて高い分解能で異常部位を特定してテスト対象
を絞り込むとともに、より詳細に異常部位を特定するた
め、各計算機における通信階層別にループバックテスト
を行うことにある。

【０００７】

【課題を解決するための手段】上記課題を解決するた
め、本発明は、各計算機の生存報告プログラムが更新す
る生存報告データを監視する生存監視プログラムでは、
過剰に他計算機の停止を検知しないために計算機停止判
断回数を持ち、更新停止の検知回数が計算機停止判断回
数に達して他計算機が停止したと判断したときのみルー
プバックテストを行うとともに、ネットワーク上の計算
機構成と異常部位を対応させたネットワーク異常部位テ
ーブルを設け、他計算機からの生存報告データとネット
ワーク異常部位テーブルからネットワーク上の異常部位
を特定する。また各計算機は、特定された異常部位に対
して通信階層別に遠隔診断（ループバックテスト）を行
う異常診断プログラムとループバックテストで応答を行
うハード応答プログラム，ＯＳ応答プログラム及びアプ
リケーション応答プログラムを備え、異常を検出した計
算機の異常診断プログラムが他計算機のハード応答プロ
グラム，ＯＳ応答プログラム，アプリケーション応答プ
ログラム及び自計算機のハード応答プログラムとの間で
ループバックテストを行い、ループバックテストの結果
によって異常部位を特定して対応処置を執ることによ
り、ループバックテストの実行回数を増加させずにネッ
トワーク上の負荷を抑えて詳細な異常部位を特定する。

【０００８】

【発明の実施の形態】以下に本発明の一実施例を図を用
いて説明する。

【０００９】図１は本発明による異常部位検知方法を示
すシステム構成図である。図１において、本発明による
多重系計算機における異常部位検知方法の概要を示す。

【００１０】計算機１（１０３）と計算機ｎ（１１０）
はネットワーク１０２により接続され、このネットワー
ク１０２に接続された計算機の活動状態を記憶する生存
管理テーブル１０７を持つ。

【００１１】生存報告プログラム１０４は、自計算機の
稼働／停止の状態を他計算機に報告するため、ネットワ
ーク１０２に対して生存報告データ１０１を同報通信に
より一定周期で送出する。生存監視プログラム１０５
は、一定周期毎にネットワーク１０２から生存報告デー
タ１０１を受信し、その送信元計算機の稼働／停止を判
断し、送信元計算機の状態を表す値を生存管理テーブル
１０７に格納する。これにより、計算機１（１０３）及
び計算機ｎ（１１０）は、ネットワーク１０２に接続さ
れる全ての計算機の状態を生存管理テーブル１０７に保
持し、各計算機相互に他計算機の状態を認識できる。生
存監視プログラム１０５は、受信した生存報告データ１
０１により生存管理テーブル１０７を更新後、その生存
管理テーブル１０７内の情報により停止中の計算機の有
無をチェックし、停止中の計算機があれば、異常診断プ
ログラム１０６を起動する。

【００１２】異常診断プログラム１０６は、生存管理テ
ーブル１０７を元に停止中計算機が１台か複数台かを調
べる。停止中の計算機が複数台あれば、システム構築時
に作成されたネットワーク異常部位テーブル１０８を参
照し、異常発生部位を特定する。停止中計算機が１台の
場合又は停止中の計算機が複数台であってもネットワー
ク異常部位テーブル１０８からは異常発生部位を特定で
きない場合、異常診断プログラム１０６は、ネットワー
ク１０２を経由し、システム構築時に作成された診断順
序管理テーブル１０９に登録されている順に停止中の計
算機の各通信階層に対して診断確認データ８０１を送信
する。停止中の計算機ｎ（１１０）では、計算機が正常
動作していれば、ハード応答プログラム１１１，ＯＳ応
答プログラム１１２，アプリケーションプログラム１１
３の全てがネットワーク１０２からの診断確認データ８
０１を受信し、診断応答データ９０１を、診断元の計算
機１（１０３）に対してネットワーク１０２経由で送信
する。

【００１３】生存報告データ３０１は、ネットワーク１
０２に接続された全計算機に対応して、各計算機（１〜
ｎ）毎の計算機生存報告カウンタと計算機計画停止フラ
グを持つ。計算機生存報告カウンタは、対応する計算機
の生存報告プログラムが一定周期で加算する整数値であ
る。計算機計画停止フラグは、対応する計算機の生存監
視プログラムが自計算機の停止指示を検知して設定する
値であり、活動停止を予告するものである。

【００１４】診断元の計算機１（１０３）では、診断先
からの診断応答データ９０１を受信し、ハードレベル，
ＯＳレベル，アプリケーションレベルの各通信階層から
の応答有無を確認する。診断応答データ９０１が返って
来ない階層があれば、その階層に異常が発生したと判断
し、結果を生存管理テーブル１０７に反映する。

【００１５】図２は図１の異常部位検知方法における生
存管理テーブルの構成である。生存管理テーブル４０１
は、ネットワーク１０２に接続された計算機の総数であ
る接続計算機数４０２と、各計算機と１対１に対応する
接続計算機番号１〜ｎ(403）と、計算機が停止したと判
断する閾値である計算機停止判断回数４０４と、各計算
機ごとの状態を表す情報４０５〜４０７から構成され
る。各計算機ごとの状態を表す情報は、対応する計算機
が稼働中の場合は一定周期で更新される生存報告カウン
タ４０５と、停止予告無しに生存報告カウンタの更新が
停止している回数を表す停止カウンタ４０６と、動作状
態を判断した結果、活動／停止／計画停止の何れである
かを表す状態４０７から構成される。

【００１６】生存報告プログラム１０４では、生存報告
データの自計算機の生存報告カウンタを更新し、更に自
計算機から計画停止の報告有無をチェックする。計画停
止報告があれば生存報告データ内の計画停止フラグに計
画停止を示す値を設定する。計画停止報告が無い場合
は、生存報告データ内の計画停止フラグに自計算機が生
存していることを示す値を設定する。生存報告プログラ
ムはこの後、一定時間の実行を休止した後同様の処理を
繰り返して、一定周期で生存報告データを送信する。

【００１７】図３に生存監視プログラムの処理フローを
示す。生存監視プログラムは、生存報告データ１０１内
の計算機の状態をチェックし、停止計算機があれば異常
診断プログラムの起動を行う。計算機の状態チェックで
は、生存報告データ１０１内の各計算機の生存報告カウ
ンタと、生存管理テーブル１０７内の対応する計算機の
前回の生存報告カウンタとを比較し（処理６０１）、両
者が不一致の場合、該当計算機の生存報告プログラムが
活動していることから、計算機は生存しているとみな
し、生存管理テーブル１０７内の生存報告カウンタの値
を生存報告データ１０１内の各計算機の生存報告カウン
タの値に更新する（処理６０４）。両者の生存報告カウ
ンタが一致している場合、該当計算機の生存報告プログ
ラムが停止していることを意味するため、生存報告デー
タ１０１内の計画停止フラグをチェックし(処理６０
３)、フラグの値が計画停止を表す値の場合、生存管理
テーブル１０７内の該当計算機の状態に計画停止の状態
を示す値を設定する(処理６０６)。フラグの値が計画停
止状態ではない場合、生存管理テーブル１０７内の停止
カウンタを更新して（処理６０５）、この停止カウンタ
の値と計算機停止判断回数４０４を比較する(処理６０
７)。停止カウンタの値が計算機停止判断回数４０４以
上になっている場合、該当計算機は停止していると判断
し、生存管理テーブル１０７内の該当計算機の状態４０
７に停止状態を示す値を設定する(処理６０８)。そし
て、以上の処理６０１から処理６０８の状態チェック処
理を、生存報告データ１０１で報告された全計算機に対
して行ったかをチェックし(処理６０９)、未済の場合
は、未済の計算機に対してチェックを行う。全計算機の
チェックが終了し、生存報告データ１０１の内容を生存
管理テーブル１０７に反映すると、生存管理テーブル１
０７内の各計算機の状態により停止計算機の有無をチェ
ックする（処理６１０）。何れかの計算機が停止状態に
なれば、異常診断プログラムを起動する（処理６１
１）。この後、一定時間休止し（処理６１２）、処理６
０１から処理６１２までの処理を再実行することによ
り、一定周期で生存監視プログラムが実行される。

【００１８】図４に、ネットワーク異常部位テーブル１
０８のフォーマットを示す。ネットワーク異常部位テー
ブル１０８は、異常部位データの総数を示す異常部位数
702と異常部位に対応するデータ（７０３〜７０５）か
らなる。各異常部位に対応するデータは、停止計算機デ
ータ７０３と異常部位データ７０４と詳細診断対象デー
タ７０５とから構成される。ここで、停止計算機データ
７０３は、異常部位を特定するための条件となる停止計
算機の組合せを計算機番号の集合で表したものである。
異常部位データ７０４は、停止計算機データ７０３で定
義された条件が成立した場合に、異常が発生したと特定
される部位を表す情報であり、特定されたネットワーク
を識別する情報、若しくは異常部位を特定するために更
に詳細診断を要する場合には、詳細診断が必要であるこ
とを示すデータを格納する。詳細診断対象データ７０５
は、更に詳細診断を要する場合の診断対象となる計算機
番号を示す。

【００１９】図８に、異常診断プログラム１０６の処理
フローを示す。異常診断プログラム１０６は、まず生存
管理テーブル１０７を参照し、計画停止状態を除く停止
状態の計算機が複数存在するかをチェックする（処理１
１０１）。複数存在する場合には、ネットワーク異常部
位テーブル１０８を参照し、停止状態の計算機が、ネッ
トワーク異常部位テーブル１０８の何れかの停止計算機
データと一致するかをチェックする（処理１１０２）。
停止状態にある計算機番号の集合と一致する停止計算機
データがあれば、該当する異常部位データを参照する
(処理１１０２)。そして詳細診断が不要ならば、該当す
る異常部位データを異常発生部位として報告する（処理
１１０８）。更に詳細診断が必要な場合は、詳細診断対
象データにより指定される全計算機のハードレベルに対
して、診断確認データ８０１を構成する（処理１１０
４）。この診断確認データ８０１は、図５に示すよう
に、診断確認データと後述の診断応答データ等を識別す
るためのデータ区分８０２と、確認元計算機番号８０３
と、確認先計算機番号８０４と、当該診断確認データが
ハードレベル／ＯＳレベル／アプリケーションレベルの
何れの通信階層に対する診断なのかを識別するための確
認対象レベル８０５から構成されている。

【００２０】異常診断プログラム１０６は、構成した診
断確認データ８０１を対象となる計算機に対して送信し
て（処理１１０５）、送信先の計算機のハードレベルか
らの診断応答データの受信（処理１１０６）を待つ。図
６に診断応答データ９０１のフォーマットを示す。診断
応答データ９０１は、診断確認データ／診断応答データ
等を識別するためのデータ区分９０２と、応答元計算機
番号９０３と、ハードレベル／ＯＳレベル／アプリケー
ションレベルの応答を返し各通信階層を識別するための
応答元レベル９０４と、応答先計算機番号９０５と、正
常／異常等の診断結果を格納する確認情報９０６から構
成される。異常診断プログラム１０６は、診断応答デー
タの受信に失敗したかをチェックし（処理１１０７）、
診断確認データ８０１を送った全計算機からの診断応答
データ受信が失敗していれば、ネットワークの異常と判
断して、異常発生報告（処理１１０８）を行う。しか
し、いずれかの計算機からの診断応答データの受信が成
功していた場合には、ネットワーク自体の故障ではない
と判断し、次に停止状態の計算機に対して、単一計算機
停止の場合と同様に診断通信を実施する。

【００２１】なお、このネットワークに対するループバ
ックテストは、何れかの計算機からの診断応答データの
有無が問題となるため、異常診断プログラム１０６は構
成した診断確認データ８０１を任意の順序で、対象とな
る計算機に対して送信する。処理１１０２において停止
状態の計算機と一致する停止計算機データが無い場合、
単一計算機停止の場合と同様に診断通信を実施する。

【００２２】診断通信では、まず診断順序管理テーブル
１０９からループバックテストを行う通信階層を順次取
り出し（処置１１０９）、該当通信階層へ送信する診断
確認データ８０１を構成する（処理１１１０）。図７
に、この診断順序管理テーブル１０９のフォーマットを
示す。診断順序管理テーブル１０９は、ループバックテ
ストを行う４つの通信階層１００２から構成される。登
録されている通信階層は、計算機のハードレベル，ＯＳ
レベル，アプリケーションレベルの他に、自計算機のハ
ードレベルの４つである。通信階層１００２の登録順
は、異常の発生頻度の高い通信階層から低い通信階層の
順に登録され、各通信階層の異常発生頻度により必要に
応じて登録順の入替えを行う。これにより、似たような
異常が連続して発生した場合、不必要な通信階層のルー
プバックテストを省略して同様な障害の発生箇所を即座
に特定できるようになる。異常診断プログラム１０６で
は、構成された診断確認データを停止状態の計算機に送
信し（処理１１１１）、診断応答データ９０１の受信を
待つ（処理１１１２）。そして、診断応答データの受信
が失敗したかをチェックし（処理１１１３）、失敗した
場合は未受信の通信階層レベルに異常があると判断し、
異常発生報告を行う（処理１１１５）。診断応答データ
の受信に成功すれば全通信階層レベルに対して受信した
かをチェックし（処理１１１４）、未受信のレベルにつ
いて同様の診断通信を行う。

【００２３】ハード応答プログラム１１１では、確認対
象レベルとしてハードレベルが指定された診断確認デー
タ８０１を受信し、まず受信したデータが正常であるか
をチェックする。そして受信した診断確認データが正常
であれば、ハードウェア診断用に診断応答データを編集
し、通信を行うハードウェアに異常がないか診断プログ
ラムを起動してチェックする。ハードウェア診断プログ
ラムにより通信のハードウェア自体に異常が発見されれ
ばその異常情報を、一方ハードウェアが正常であれば正
常情報を先に構成しておいた診断応答データの確認情報
に設定し、診断応答データを応答先計算機番号で指定さ
れた計算機に送信する。また、確認元計算機から受信し
た診断確認データが異常の場合は、自計算機までの通信
段階に異常があるものとして、診断応答データの送信は
行わずに終了する。

【００２４】ＯＳ応答プログラム１１２では、ＯＳレベ
ルの診断確認データ８０１を受信すると、まず受信した
データが正常であるかをチェックする。受信した診断確
認データ８０１が正常であれば、データ区分が診断応答
である診断応答データ９０１を編集し、応答元レベルが
ＯＳレベルであることを設定し、応答先計算機番号に受
信した診断確認データの確認元計算機番号を設定し、応
答元計算機番号に自計算機番号を設定した後、ドライバ
が異常であるかをチェックする。ドライバの動作が異常
であれば、異常情報を、正常であれば正常情報を診断応
答データの確認情報に設定し、診断応答データを送信す
る。一方受信した診断確認データが異常であった場合
は、診断応答データの送信は行わずに処理を終了する。

【００２５】アプリケーション応答プログラム１１３に
おける処理も、ハード応答プログラム１１１やＯＳ応答
プログラム１１２と同様に、アプリケーションレベルに
対する診断確認データ８０１を受信し、受信したデータ
が正常であるかをチェックする。受信データが正常であ
れば、アプリケーションレベルの診断応答データ901を
編集し、当該計算機のアプリケーションが業務停止状態
であるかをチェックする。アプリケーションプログラム
が業務停止状態であり応答不能の状態であれば、異常情
報を、またアプリケーションが正常に動作しているので
あれば、確認情報に正常情報を設定し、診断応答データ
を送信する。また、受信したアプリケーションレベルの
診断確認データが異常の場合は、診断応答データの送信
は行わずに終了する。

【００２６】

【発明の効果】本発明によれば、通信階層別にループバ
ックテストを行うと共に、事前にネットワーク上の計算
機構成と異常部位を対応させておくことにより、計算機
だけではなくネットワークを含めて高い分解能で異常部
位を特定して対応処置を執ることができる。

【００２７】また、生存管理情報として計算機停止判断
回数を持ち、生存報告データの更新が停止した計算機に
対してのみループバックテストを行うことにより、計算
機及びネットワークの負荷を抑えることができる。

【図面の簡単な説明】

【図１】本発明による実施例の概略図である。

【図２】本発明の実施例における生存管理テーブルのフ
ォーマットである。

【図３】本発明の実施例における生存監視プログラムの
処理フローである。

【図４】本発明の実施例におけるネットワーク異常部位
テーブルのフォーマットである。

【図５】本発明の実施例における診断確認データのフォ
ーマットである。

【図６】本発明の実施例における診断応答データのフォ
ーマットである。

【図７】本発明の実施例における診断順序管理テーブル
フォーマットである。

【図８】本発明の実施例における異常診断プログラムの
処理フローである。

【符号の説明】

１０１…生存報告データ、１０２…ネットワーク、１０
３，１１０…計算機、１０４…生存報告プログラム、１
０５…生存監視プログラム、１０６…異常診断プログラ
ム、１０７…生存管理テーブル、１０８…ネットワーク
異常部位テーブル、１０９…診断順序管理テーブル、１
１１…ハード応答プログラム、１１２…ＯＳ応答プログ
ラム、１１３…アプリケーションプログラム、８０１…
診断確認データ、９０１…診断応答データ。

───────────────────────────────────────────────────── フロントページの続き (72)発明者保里裕之茨城県日立市大みか町五丁目２番１号日立プロセスコンピュータエンジニアリング株式会社内 (72)発明者鈴木克男茨城県日立市大みか町五丁目２番１号日立プロセスコンピュータエンジニアリング株式会社内 (72)発明者末木雅夫茨城県日立市大みか町五丁目２番１号株式会社日立製作所大みか工場内 (72)発明者新山義人茨城県日立市大みか町五丁目２番１号日立プロセスコンピュータエンジニアリング株式会社内 (72)発明者赤津景子茨城県日立市大みか町五丁目２番１号日立プロセスコンピュータエンジニアリング株式会社内

Claims

【特許請求の範囲】

【請求項１】分散して配置された複数の計算機がネット
ワークによって結ばれたシステムにおいて、前記各計算機は、通信階層別にループバックテストを行う異常診断プログ
ラムと、ループバックテストで応答を行うハード応答プログラム
とＯＳ応答プログラム及びアプリケーション応答プログ
ラムを備え、前記異常診断プログラムは、生存通知情報により停止し
たと認識された計算機に対し、当該停止したと認識され
た計算機のハード応答プログラム，ＯＳ応答プログラ
ム，アプリケーション応答プログラム及び自計算機のハ
ード応答プログラムとの間で順次ループバックテストを
行い、これらのループバックテストの結果によって異常
部位を特定することを特徴とする異常部位検知方法。
【請求項２】請求項１に記載の異常部位検知方法におい
て、停止したと認識された計算機とネットワーク上の計
算機構成とを対応させたネットワーク異常部位テーブル
を備え、他計算機からの生存通知情報と当該ネットワー
ク異常部位テーブルとに基づき、ネットワークの異常部
位を特定することを特徴とする異常部位検知方法。
【請求項３】請求項１に記載の異常部位検知方法におい
て、他計算機からの生存通知情報が更新されなかった回数の
閾値を設け、他計算機からの生存通知情報が更新されなかった回数
が、前記閾値を超えた場合に当該他計算機が停止したも
のと認識し、停止されたと認識された計算機に対してループバックテ
ストを行うことを特徴とする異常部位検知方法。
【請求項４】請求項１に記載の異常部位検知方法におい
て、ループバックテストを行う通信階層の順序を定めた
順序テーブルを備え、当該診断順序テーブルの階層順序
は、検出された故障の頻度情報に基づき変更されること
を特徴とする異常部異検知方法。