JPH07319836A - 障害監視方式 - Google Patents

障害監視方式

Info

Publication number
JPH07319836A
JPH07319836A JP6116216A JP11621694A JPH07319836A JP H07319836 A JPH07319836 A JP H07319836A JP 6116216 A JP6116216 A JP 6116216A JP 11621694 A JP11621694 A JP 11621694A JP H07319836 A JPH07319836 A JP H07319836A
Authority
JP
Japan
Prior art keywords
processor
monitoring
processors
group
alive message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6116216A
Other languages
English (en)
Inventor
Natsuo Tanaka
夏朗 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP6116216A priority Critical patent/JPH07319836A/ja
Publication of JPH07319836A publication Critical patent/JPH07319836A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Multi Processors (AREA)
  • Computer And Data Communications (AREA)
  • Debugging And Monitoring (AREA)

Abstract

(57)【要約】 【目的】プロセッサ数の非常に多い並列コンピュータや
クラスタシステムにおいて、プロセッサ数が数百個以上
と多くても、障害検知の遅延を発生させないことを目的
とした。 【構成】図1は本発明の一実施例を示す並列コンピュー
タシステムの構成図である。11は並列コンピュータシ
ステムを構成するプロセッサ、12はプロセッサを接続
するプロセッサ間ネットワーク、13は並列コンピュー
タシステムである。 【効果】並列コンピュータシステムあるいはクラスタシ
ステムとしてはプロセッサ数は多いが、プロセッサをグ
ループ分けし階層化することにより、障害検知の遅延を
防ぐことができるとともに、システム全体の一元管理も
可能である。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、プロセッサ数が非常に
多く、全てのプロセッサの障害を監視し、障害発生を迅
速に検知する必要のある並列コンピュータシステムやサ
ーバ/WSをネットワークで接続したクラスタシステム
において好適な障害監視方式に関する。
【0002】
【従来の技術】従来、プロセッサが多数組み込まれた並
列コンピュータは信頼性を考慮して設計されたものでは
なく、よって障害監視機能を実現しているものではな
い。
【0003】またサーバ/WSをネットワークで接続し
たクラスタシステムにおいて、複数の現用サーバを1台
の監視サーバが監視する場合、監視サーバが全ての現用
サーバからaliveメッセージを受け取り正常である
ことを確認していたが、現用サーバの台数は10台程度
であり、監視サーバの負荷も小さかった。また現用サー
バと予備サーバのペアを作り、そのペアを複数化するこ
とでクラスタシステムとして構成する方式もあるが、プ
ロセッサ数が多くなるとペアも多くなり、システム全体
の管理が困難になった。
【0004】
【発明が解決しようとする課題】前記、従来技術におけ
る並列コンピュータあるいはクラスタシステムにおいて
複数の現用サーバを1台の監視プロセッサが監視する場
合、現用プロセッサ/サーバ数が多くなる(数十台〜数
千台)と監視プロセッサ/サーバが監視する現用プロセ
ッサ/サーバも多くなり、全ての現用プロセッサからa
liveメッセージを受信すると、監視パスのトラフィ
ックの増大によるaliveメッセージの到着遅れ、監
視プロセッサ/サーバの負荷増大による処理(障害検知
/判断)の遅れが発生するという問題があった。
【0005】本発明の目的は、並列コンピュータシステ
ムや、大規模なクラスタシステムにおいて、プロセッサ
/サーバ数の増大に対しても障害検知の遅延を発生させ
ずにシステム全体として管理も同時に行い、更に処理す
る業務の重要度に応じた障害監視を行うことにある。
【0006】
【課題を解決するための手段】本発明によれば、監視プ
ロセッサのメモリ上に状態管理テーブルを設け、多数の
プロセッサの内の1つをシステム全体の全プロセッサの
状態を管理する監視元プロセッサとして設定し、残りの
多数のプロセッサを少数のプロセッサのグループに分
け、そのグループ内のプロセッサの1つをグループ内の
他のプロセッサを監視するグループ内監視プロセッサと
して設定し、グループ内監視プロセッサはグループ内の
他プロセッサだけからaliveメッセージをある一定
間隔で受信することにより正常に動作していることを確
認し、監視元プロセッサは、他の全プロセッサからでは
なく、各グループのグループ内監視プロセッサからのみ
aliveメッセージを受信することにより、監視パス
のトラフィックの集中化を回避し、監視元プロセッサの
負荷増大による処理の遅れ、すなわち障害検知/判断の
遅れを防ぐことができる。
【0007】また本発明によれば、監視元プロセッサと
グループ内監視プロセッサの状態管理テーブルには、各
プロセッサからのaliveメッセージ受信時間時刻と
受信時刻から障害と判断するまでの許容時間を各プロセ
ッサ毎に設定することにより、各プロセッサで処理する
業務の内容/重要度によって重要な業務については早く
障害と判断し、系切り替え等の処理により業務を再開す
ることができる。
【0008】
【作用】グループ内監視プロセッサは、各グループ内の
プロセッサからある一定間隔で送信されたaliveメ
ッセージを受信すると、メモリ上の状態監視テーブルの
aliveメッセージ受信時刻を記録し、当該プロセッ
サが正常であることを認識する。
【0009】監視元プロセッサは、各グループの監視プ
ロセッサからのみある一定間隔でaliveメッセージ
を受信し、メモリ上の状態監視テーブルのaliveメ
ッセージを送信したプロセッサのaliveメッセージ
受信時刻を記録し、当該グループ内監視プロセッサが正
常であることを認識する。
【0010】また状態監視テーブルには、各プロセッサ
毎にaliveメッセージが到着時刻から障害と判断す
るまでの許容時間を設定し、この許容時間内に次のal
iveメッセージを受信し、受信時刻を書き替えた場合
に、正常であると判断する。
【0011】許容時間内に次のaliveメッセージを受信
しない場合には障害と判断し、系切り替え等の処理を行
い業務を再開する。
【0012】これにより、監視パスのトラフィックの集
中化の回避、監視元プロセッサの負荷増大を防ぎ、更に
プロセッサ単位に処理する業務内容/重要度による障害
検知時間の設定を行う弧とができる。
【0013】
【実施例】以下本発明の一実施例を図1、図2、図3、
図4、図5を用いて説明する。
【0014】図1は本発明のコンピュータシステムの中
の一つの例である並列コンピュータシステムを表すブロ
ック図、図2は多数のプロセッサを監視するため監視方
式の論理図、図3は監視プロセッサが他のプロセッサを
監視するためのメモリ上の状態監視テーブルの構成図、
図4はあるプロセッサグループ内の監視プロセッサがグ
ループ内のプロセッサを監視するフローチャート、図5
は監視元プロセッサがグループ内の監視プロセッサを監
視するフッローチャートである。
【0015】図1において、11は並列コンピュータシ
ステムを構成するプロセッサ群、12は11のプロセッ
サ群を接続し通信を可能とするプロセッサ間ネットワー
ク、13は11のプロセッサ群と12のネットワークか
ら構成される並列コンピュータシステムである。
【0016】図2において、21は処理を実行するプロ
セッサ群の中の1つのプロセッサ、22はプロセッサ群
をグループ分けした場合のグループ内監視プロセッサ、
23はグループ内監視プロセッサ22のメモリ上にある
状態監視テーブル、24はグループ内監視プロセッサ2
2の監視を行う監視元プロセッサ、25は監視元プロセ
ッサのメモリ上の状態監視テーブル、26は多数のプロ
セッサ群をグループ分けした場合のある1つのグループ
である。
【0017】グループ内監視プロセッサ22は、自分の
属するグループ26内のプロセッサのみを監視し、他の
グループのプロセッサの監視は行わない。監視元プロセ
ッサ24は、並列コンピュータ13内の全てのプロセッ
サの状態を管理するが、全プロセッサの監視は直接行わ
ず、各グループのグループ内監視プロセッサが監視を行
う。
【0018】図3において、31は図2におけるの状態
監視テーブル23、25の構成、32はプロセッサN
O.、33は監視元プロセッサNO.、34はグループ
内監視プロセッサNO.、35はグループNO.、36
はaliveメッセージ受信時刻、37は障害判断許容
時間である。
【0019】各グループのプロセッサ21はグループ内
監視プロセッサ22に対し、正常であれば一定の時間間
隔でaliveメッセージを送信し、グループ内監視プ
ロセッサ22は、プロセッサ21からのaliveメッ
セージを受信している間は、プロセッサ21は正常であ
ると判断し、aliveメッセージが一定時間以上受信
されないとプロセッサ21が障害であると判断する。
【0020】次に各グループ26内のグループ内監視プ
ロセッサがプロセッサ21からaliveメッッセージ
を使って監視し、また監視元プロセッサ24がグループ
内監プロセッサ22を監視する処理を、図4、図5を参
照して具体的に説明する。
【0021】多数のプロセッサを持つ並列コンピュータ
13は、それぞれのプロセッサが障害であるかを効率良
く監視するために、まず多数のプロセッサを論理的にグ
ループ分けする。このグループ分けの基準は、そのプロ
セッサ群で処理する業務サービスっでも良いし、物理的
に近いプロセッサでも良い。また1つのグループに含ま
れるプッロセッサの数は、2つ以上からグループ内監視
プロセッサの監視のための負荷があまり増大しない程度
(10個程度)が好ましい。
【0022】グループ内監視プロセッサ22は、監視す
るプロセッサ21が正常であれば(401)、一定時間
間隔毎にaliveメッセージを受信し(402)、メ
モリ上の状態監視テーブル31の該当するプロセッサN
O.のaliveメッセージの受信時刻36に受信した
時刻をセットする(403)。
【0023】プロセッサ21に障害が発生した場合、グ
ループ内監視プロセッサ22はaliveメッセージを
受信しない(404)。グループ内監視プロッサ22
は、メモリ上の状態監視テーブル31の、最後にali
veメッセージを受信した時刻(aliveメッセージ
受信時刻36)からの時間と、各プロセッサを障害と判
断する障害判断許容時間37を比較しており(40
5)、(aliveメッセージ受信時刻からの時間)<
(障害判断許容時間37)であれば(405)、障害と
判断しない。(aliveメッセージ受信時刻からの時
間)≧(障害判断許容時間37)となった場合(40
5)、グループ内監視プロセッサ22は当該プロセッサ
21が障害であると判断し(406)、プロセッサ21
をリセットし再実行する、あるいは他のプロセッサ(予
備プロセッサを設けておいても良い)に処理を引き継が
せ、プロセッサ21をシステムから論理的に切り離す等
の処理を行う(407)。
【0024】グループ内監視プロセッサ22は、障害プ
ロセッサ21をシステムから切り離した場合、プロセッ
サ21をシステムから切離したことを監視元プロセッサ
24に通知する(408)。監視元プロセッサ24は、
通知を受けるとメモリ上の状態監視テーブル25からプ
ロセッサ21の内容を削除する(409)。
【0025】次に監視元プロセッサ24が、並列コンピ
ュータ13の中の全てのプロセッサを監視せずに、グル
ープ内監視プロセッサ22のみを監視する処理を説明す
る。
【0026】監視元プロッセサ24がグループ内監視プ
ロセッサ22からaliveメッセージを受信すること
で、グループ内監視プロセッサの障害を監視する処理
(501〜506)は、グループ内監視プロセッサ22
がプロセッサ21を監視する処理(401〜406)と
同様である。監視元プロセッサ24はメモリ上の状態監
視テーブルに全プロセッサの情報を図3に示すように保
持するが、aliveメッセージを受信し障害判断許容
時間との比較を行うのはグループ内監視プロセッサの部
分だけである。
【0027】監視元プロセッサ24は、グループ内監視
プロセッサ22が障害と判断すると(506)、障害の
グループ内監視プロセッサ22の処理を他のプロセッサ
(予備プロセッサに引き継がせ、新たにグループ内監視
プロセッサにする(507)。新しくグループ内監視プ
ロセッサになる予備プロセッサは、同じグループにある
もとする。次に監視元プロセッサ24は、障害の発生し
たグループ内監視プロセッサ22のグループ26の全て
のプロセッサに対し、新たにグループ内監視プロセッサ
になったプロセッサのアドレスをブロードキャストし、
aliveメッセージの送信先を変更する(508)。
【0028】以上の処理により、監視元プロセッサ24
は並列コンピュータシステム13内の全プロセッサの監
視を行う事なく(監視に要する負荷を増大させることな
く)、システム全体の管理も行うことができる。
【0029】また監視元プロセッサ24自身の監視につ
いては、他の予備プロセッサを設けておき、予備プロセ
ッサが監視元プロセッサを監視することにより実現でき
る。
【0030】
【発明の効果】本発明によれば、多数あるプロセッサを
グループ分けし、かつ論理的に階層型に障害監視するこ
とにより、処理する業務量等の増加によってプロセッサ
数を増やしても、監視プロセッサの負荷を増大させるこ
となく全プロセッサを監視することができる。
【0031】また本発明によれば、処理する業務の重要
度に応じて障害検知時間(障害判断時間)をプロセッッ
サ毎に設定できるので、重要な業務を処理するプロセッ
サに対しては検知時間を短くし、予備プロセッサに早く
切り替える等の処理を行い、業務を早く再開することが
できる。
【図面の簡単な説明】
【図1】本発明の一実施例を示す並列コンピュータシス
テムの構成例。
【図2】プロセッサ監視方式の論理図。
【図3】監視プロッセのメモリ上にあるプロセッサの状
態監視テーブル。
【図4】グループ内監視プロセッサがグループ内のプロ
セッサを監視するフローチャート。
【図5】監視元プロセッサがグループ内監視プロセッサ
を監視するフローチャート。
【符号の説明】
11…プロセッサ群、 12…プロセッサ間ネットワーク、 13…並列コンピュータシステム、 21…プロセッサ、 22…グループ内監視プロセッサ、 23…状態監視テーブル、 24…監視元プロセッサ、 25…状態監視テーブル、 26…グループ、 31…状態監視テーブル、 32…プロセッサNO.、 33…監視元プロセッサNO.、 34…グループ内監視プロセッサNO.、 35…グループNO.、 36…aliveメッセージ受信時刻、 37…障害判断許容時間。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】業務を実行する複数のプロセッサと、複数
    のプロセッサを接続するプロセッサ間ネットワークから
    構成される並列コンピュータシステム(複数のサーバ/
    WSから構成されるクラスタシステムを含む)におい
    て、複数のプロセッサの内の1つをシステム全体の障害
    監視プロセッサとして設定し、その他のプロセッサをい
    くつかのプロセッサ毎にグループ分けし、そのグループ
    内のプロセッサの1つを、グループ内のプロセッサの障
    害を監視するグループ内監視プロセッサとして設定し、
    グループ内監視プロセッサはグループ内のプロセッサか
    ら一定時間間隔でaliveメッセージを受信すること
    により、グループ内プロセッサを監視し、同様に監視元
    プロセッサは、グループ内監視プッロセッサから一定間
    隔でaliveメッセージを受信することにより、グル
    ープ内監視プロセッサを監視するというように、被監視
    プロセッサをグルーピングし、且つ階層型にすることに
    より、監視元プロセッサの負荷集中、監視パスのトラフ
    ィックの集中を防ぎ、障害検知の遅延を無くすことを特
    徴とする障害監視方式。
  2. 【請求項2】上記並列コピュータにおいて、グループ内
    監視プロセッサと監視元プロセッサのメモリ上に、被監
    視プロセッサから最後のaliveメッセージが届いて
    から障害検知/判断までの時間を、実行する業務内容に
    よってプロセッサ毎に設定し、プロセッサで実行する業
    務の重要度によって障害検知/判断時間を可変とするこ
    とを特徴とする障害監視方式。
JP6116216A 1994-05-30 1994-05-30 障害監視方式 Pending JPH07319836A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6116216A JPH07319836A (ja) 1994-05-30 1994-05-30 障害監視方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6116216A JPH07319836A (ja) 1994-05-30 1994-05-30 障害監視方式

Publications (1)

Publication Number Publication Date
JPH07319836A true JPH07319836A (ja) 1995-12-08

Family

ID=14681713

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6116216A Pending JPH07319836A (ja) 1994-05-30 1994-05-30 障害監視方式

Country Status (1)

Country Link
JP (1) JPH07319836A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000010822A (ja) * 1998-06-25 2000-01-14 Yokogawa Electric Corp 分散オブジェクトのダウン検出装置
JP2000305918A (ja) * 1999-04-20 2000-11-02 Nec Saitama Ltd マルチプロセッサ監視制御システムおよびマルチプロセッサ監視制御方法
JP2006268310A (ja) * 2005-03-23 2006-10-05 Nec Corp 障害監視装置および方法およびプログラム
GB2434668A (en) * 2006-01-25 2007-08-01 Nec Corp A method of using a monitoring circuit to identify changes in status between two alarm signals
US7502956B2 (en) 2004-07-22 2009-03-10 Fujitsu Limited Information processing apparatus and error detecting method
JP2014063418A (ja) * 2012-09-24 2014-04-10 Fujitsu Ltd 管理プログラム、管理方法、管理装置及び情報処理システム
JP2015036957A (ja) * 2013-08-16 2015-02-23 富士通株式会社 情報処理システム、情報処理システムの制御方法及び管理装置の制御プログラム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000010822A (ja) * 1998-06-25 2000-01-14 Yokogawa Electric Corp 分散オブジェクトのダウン検出装置
JP2000305918A (ja) * 1999-04-20 2000-11-02 Nec Saitama Ltd マルチプロセッサ監視制御システムおよびマルチプロセッサ監視制御方法
US7502956B2 (en) 2004-07-22 2009-03-10 Fujitsu Limited Information processing apparatus and error detecting method
JP2006268310A (ja) * 2005-03-23 2006-10-05 Nec Corp 障害監視装置および方法およびプログラム
GB2434668A (en) * 2006-01-25 2007-08-01 Nec Corp A method of using a monitoring circuit to identify changes in status between two alarm signals
JP2014063418A (ja) * 2012-09-24 2014-04-10 Fujitsu Ltd 管理プログラム、管理方法、管理装置及び情報処理システム
US9467336B2 (en) 2012-09-24 2016-10-11 Fujitsu Limited Information processing system and management method thereof
JP2015036957A (ja) * 2013-08-16 2015-02-23 富士通株式会社 情報処理システム、情報処理システムの制御方法及び管理装置の制御プログラム
US9880912B2 (en) 2013-08-16 2018-01-30 Fujitsu Limited Information processing system, control method of information processing system, and non-transitory computer-readable storage medium

Similar Documents

Publication Publication Date Title
US6986076B1 (en) Proactive method for ensuring availability in a clustered system
US7984453B2 (en) Event notifications relating to system failures in scalable systems
US7370223B2 (en) System and method for managing clusters containing multiple nodes
US6918051B2 (en) Node shutdown in clustered computer system
US6691244B1 (en) System and method for comprehensive availability management in a high-availability computer system
US6574197B1 (en) Network monitoring device
US5884018A (en) Method and apparatus for distributed agreement on processor membership in a multi-processor system
US7093013B1 (en) High availability system for network elements
US20030097610A1 (en) Functional fail-over apparatus and method of operation thereof
US6493715B1 (en) Delivery of configuration change in a group
CN106021070A (zh) 服务器集群监测方法及装置
CN112217847A (zh) 微服务平台及其实现方法、电子设备及存储介质
JPH07319836A (ja) 障害監視方式
CN114598593B (zh) 消息处理方法、系统、计算设备及计算机存储介质
CN111935296B (zh) 一种高可用无限mqtt消息服务扩容的系统
CN112491464B (zh) 一种卫星通信的分布式故障实时监测与备用设备切换方法
CN113742142B (zh) 存储系统管理sata硬盘的方法及存储系统
KR100832543B1 (ko) 계층적 다중 백업 구조를 갖는 고가용성 클러스터 시스템및 이를 이용한 고가용성 구현 방법
JP3121487B2 (ja) プロセッサモジュール間接続通信システム
Corsava et al. Self-healing intelligent infrastructure for computational clusters
CN112328375B (zh) 一种用于跟踪分布式系统的数据片段的关联方法和装置
US11947431B1 (en) Replication data facility failure detection and failover automation
JP2829040B2 (ja) 情報集配信システム
KR940002271B1 (ko) 전후단 분리 구조 시스템의 장애 자동 감시 방법
JPH06290126A (ja) 計算機システム障害監視方式