JP2000148539A - 障害検知方法、コンピュータシステム及び構成装置、記録媒体 - Google Patents

障害検知方法、コンピュータシステム及び構成装置、記録媒体

Info

Publication number
JP2000148539A
JP2000148539A JP10313729A JP31372998A JP2000148539A JP 2000148539 A JP2000148539 A JP 2000148539A JP 10313729 A JP10313729 A JP 10313729A JP 31372998 A JP31372998 A JP 31372998A JP 2000148539 A JP2000148539 A JP 2000148539A
Authority
JP
Japan
Prior art keywords
information
computer
computer device
transmission
tour
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10313729A
Other languages
English (en)
Inventor
Shinichi Watanabe
伸一 渡辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Group Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP10313729A priority Critical patent/JP2000148539A/ja
Publication of JP2000148539A publication Critical patent/JP2000148539A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)
  • Multi Processors (AREA)

Abstract

(57)【要約】 【課題】 分散システムにおける効率的な障害発生の検
知が可能となるコンピュータシステム及び構成装置を提
供する。 【解決手段】 エージェントサーバ10は、巡回情報受
信処理部12において受信トークンの種別を判定し、該
判定結果及びエージェント管理情報に基づいて状態監視
処理部13または監視対象変更処理部により対応する送
信トークンが生成される。生成された送信トークンは、
巡回情報送信処理部15と共動して次回の送信対象とな
る他のエージェントサーバ10に対して送信される。巡
回情報送信処理部15は、該送信結果に基づいて送信先
のエージェントサーバ10における障害発生を検知して
エージェント管理情報を更新するとともに、通信制御部
11を介してシステム統括管理サーバ20に対して該障
害発生を通知する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、システム管理、障
害検知技術に係り、より詳しくは、分散システムのネッ
トワーク環境においてデータ通信に係るトラフィックを
低減させてコンピュータ装置における障害発生を効率的
に検知する手法に関する。
【0002】
【従来の技術】近年、インタネット等の通信網に代表さ
れる大規模且つ高速なネットワーク環境の発展により、
利用者に対して多様な形態で情報提供を行うコンピュー
タシステムの開発が盛んである。これらのコンピュータ
システムでは、障害発生に伴うシステム全体の効率低下
や、システムへの不正侵入者に対する機密保護等を考慮
した、高信頼のシステム構築及びシステム運用管理が望
まれている。
【0003】また、このようなコンピュータシステムで
は、例えば、特有な処理の実行及び情報の保持等を担当
する複数のコンピュータ装置をネットワーク上に分散し
て配置し、システム全体における処理効率の向上を図る
分散システムが知られている。この分散システムでは、
通常、クライアント・サーバシステム型の通信形態が採
用されており、利用者は、クライアント側となるコンピ
ュータ装置からアクセス用インタフェースを使用して、
サーバにアクセスし、所望の電子化情報を取得するよう
になっている。
【0004】分散システムにおける構築の一形態とし
て、例えば、ネットワーク環境を複数のLAN(Local
Area Network)を含んだ大規模なWAN(Wide Area Ne
twork)環境により構築して、WWW(World Wide We
b)サーバ、DNS(Domain Name System)、Prox
yサーバ等の特有な処理を担当する各サーバを該WAN
上に分散配置させるとともに、システム全体を統括的に
管理する統括管理サーバにより一元的な運用管理を行う
システム管理手法が知られている。
【0005】このようなシステム管理手法では、統括管
理サーバが、後述する各エージェントの起動を確認する
ことにより、エージェントの稼働状態を監視して障害発
生の検知を行うものである。具体的には、監視対象とな
るサーバ等の複数のコンピュータ装置に対する統括的な
稼働状態の監視を行う監視マネージャ的な統括管理サー
バからの集中管理を行うために、分散配置された各サー
バマシン等において、監視エージェント(以下、単に
「エージェント」と記す)と呼ばれる監視アプリケーシ
ョンを常駐させるものである。エージェントには、通
常、「イベントドリブン方式」が採用されており、エー
ジェントにおいて障害発生が検出された場合にのみ、統
括管理サーバへその旨が通知されるようになっている。
【0006】このイベントドリブン方式では、エージェ
ントと統括管理サーバ間のトラフィック及び統括管理サ
ーバのリソース使用率を軽減させるメリットがあるもの
の、統括管理サーバにおいて特定のエージェントからの
通知がない場合に、当該エージェントが正常に稼働中で
ありながら通知がないのか、或いは当該エージェントが
停止していて通知がないのかが統括管理サーバからは判
断できない。
【0007】このような問題を解決するため、イベント
ドリブン方式でありながら、且つ統括管理サーバにおい
て複数のエージェントの稼働状態をリアルタイムに知る
ことが可能なように、いくつかの障害検知手法が提案さ
れている。以下、従来の障害検知手法について図面を参
照してその概略を説明する。なお、統括管理サーバとエ
ージェント間のデータ通信は、ネットワーク経由のリモ
ートアクセスによるものとする。
【0008】(1)統括管理サーバからのポーリング 図9は、従来型の分散システムにおける一実施形態を表
す図である。統括管理サーバは、各エージェントの起動
を確認するために、統括管理サーバ側から監視対象とな
る各マシンのエージェントに対して周期的に起動確認の
問い合わせ、即ちポーリングを行うとともに、各エージ
ェントは、該問い合わせに対して確認を返す。エージェ
ントに異常等が発生した場合、統括管理サーバへの確認
が返らないため、統括管理サーバ側では、該確認不能を
契機に当該エージェントにおける障害検知が可能とな
る。
【0009】(2)監視対象マシン内でのプロセス相互
監視 図10は、従来型のコンピュータ装置におけるプロセス
間の相互監視を表す図である。この図では、分散システ
ムを構成する特定のコンピュータ装置(以下、「マシ
ン」と称する)におけるエージェントプロセス間の相互
監視を表している。本手法は、監視対象となる各マシン
の内部で各々複数のエージェントプロセスを起動し、各
エージェントプロセスが互いに起動しているか否かを監
視し合うことによってエージェントプロセスのダウン等
の障害を検知するものである。例えば、特定のエージェ
ントプロセスがダウンした場合に、他のエージェントプ
ロセスがダウンしたエージェントプロセスを再起動可能
に構成されているため、エージェントプロセスがダウン
し続ける状態の防止が可能となる。また、特定のエージ
ェントプロセスのダウン検知と同時に、他のエージェン
トプロセスから該障害発生が統括管理サーバへ通知され
るため、統括管理サーバ側からのマシンに対する障害検
知が可能となる。
【0010】(3)サブ統括管理サーバ設置 図11は、従来型の分散システムにおける実施の一形態
を表す図である。通常の分散システムでは、監視対象マ
シンは同一LAN内において複数台設置されることが多
いことから、エージェント自身も複数存在する。そこで
本手法は、複数の監視対象マシンにおける特定のエージ
ェントが、LAN内におけるサブ統括管理サーバとして
の機能を果たすように構成するものである。サブ統括管
理サーバとして機能するエージェントは、他のエージェ
ントに対して一定時間毎に問い合わせを行い、特定のエ
ージェントからの確認が返らない場合には、当該エージ
ェントの障害発生を統括管理サーバに対して通知する。
統括管理サーバでは、該通知を契機に対応するエージェ
ントに係る監視対象マシンの障害を検知する。
【0011】
【発明が解決しようとする課題】ところで、上述の分散
システムにおける障害検知手法では、以下に示すような
問題があった。 (1)統括管理サーバからのポーリング エージェント数の増加に伴ってポーリングに係る通信量
も増加するために、ネットワークにおける負荷が増大す
る。この場合、ポーリングの間隔を長くすることで多少
の解決は行えるが、分散システムにおけるリアルタイム
性が損なわれてしまう。また、統括管理サーバとエージ
ェント間のネットワークがISDN(Integrated Servi
ces Digital Network)の様なWANの場合、ポーリン
グ毎に課金されてしまうことから、経済的効率を考慮し
たシステム構築の必要性がある。
【0012】(2)監視対象マシン内でのプロセス交互
監視 監視対象となる同一マシン内においてエージェントのダ
ウン防止は可能となるものの、当該マシン自体がダウン
した場合についての対処が行えない。
【0013】(3)サブ統括管理サーバ設置 サブ統括管理サーバとして機能するエージェントがダウ
ンした場合、当該エージェントが監視対象としていた他
のエージェントの稼働状態が把握不能となる。これに対
処してサブ統括管理サーバのエージェントを複数設置し
た場合、ネットワーク負荷が増大してしまいそのトレー
ドオフの判断が難しくなる。また、サブ統括管理サーバ
がどのエージェントを監視するかという情報も必要とな
ることからサブ統括管理サーバ数の増加に伴って必要と
なる情報伝達量も増大する。
【0014】このような問題は、障害発生の検知に関し
て、統括管理サーバとエージェント間の通信トラフィッ
ク及びリソースの使用効率を考慮した分散システムを構
築できれば解決されるものである。
【0015】そこで本発明の課題は、分散システムにお
ける効率的な障害発生の検知が可能となる障害検知方法
を提供することにある。本発明の他の課題は、上記障害
検知方法の実施に適したコンピュータシステムとその構
成装置を提供することにある。また、本発明の他の課題
は、上記障害検知方法及びコンピュータシステム等を汎
用のコンピュータ装置で実現するための記録媒体を提供
することにある。
【0016】
【課題を解決するための手段】上記課題を解決する本発
明の障害検知方法は、双方向通信可能な環境に分散配置
された複数のコンピュータ装置における障害発生の有無
を検知する方法であって、各コンピュータ装置が、自己
以外の他のコンピュータ装置から送出される巡回情報を
受領するとともに、当該巡回情報と予め保持された巡回
履歴情報とに基づいて次回の送出対象となる他のコンピ
ュータ装置に対する巡回情報を生成する過程と、生成さ
れた巡回情報を前記次回の送出対象となる他のコンピュ
ータ装置に対して送出するとともに、該送出結果に基づ
いて送出先のコンピュータ装置における障害の有無を監
視して障害発生を検知する過程とを少なくともこの順に
実行し、前記巡回情報を分散配置されたすべてのコンピ
ュータ装置に対して巡回的に波及させ、特定のコンピュ
ータ装置における障害発生の有無をコンピュータ装置間
で相互監視することを特徴とする。
【0017】上述の各情報の内容は以下のとおりであ
る。 (1)巡回情報:監視用巡回情報または監視対象変更用
巡回情報のいずれかにより形成される情報。 (2)監視用巡回情報:送出元のコンピュータ装置に関
する識別情報、上記巡回情報の送出時間を抑制するため
のリレー間隔、及びその巡回情報の整合性を維持するた
めの通番を含んで形成される情報。 (3)監視対象変更用巡回情報:前記双方向通信可能な
環境に対して追加または削除される監視対象のコンピュ
ータ装置に関する識別情報を含んで形成される情報。こ
の監視対象変更用巡回情報は、特定のコンピュータ装置
の追加または削除による前記双方向通信可能な環境に対
する変更情報を、分散配置されたすべてのコンピュータ
装置に対して波及させるための情報である。 (4)巡回履歴情報:自己のコンピュータ装置に関する
識別情報、自己のコンピュータ装置における前記巡回情
報の現時点までの到達状態を表す情報、現時点における
他のコンピュータ装置に関する稼働状態を表す情報、及
び前記監視対象変更用巡回情報の波及状態を表す情報を
含んで形成される情報であり、前記コンピュータ装置毎
に更新可能に保持されるものである。この巡回履歴情報
は、前記巡回情報の伝達順序を特定するための、前記分
散配置の形態に基づいて予めグループ化された、自己の
コンピュータ装置が属するグループにおける監視対象と
なるすべてのコンピュータ装置に関する情報を含んで形
成されるものであっても良い。
【0018】上記他の課題を解決する本発明のコンピュ
ータシステムは、双方向通信可能な環境を統括的に管理
する第1コンピュータ装置と複数の第2コンピュータ装
置とを各々接続して成り、個々の第2コンピュータ装置
が、自己以外の他の第2コンピュータ装置から送信され
る巡回情報を受信するとともに、当該巡回情報と予め保
持された巡回履歴情報とに基づいて、次回の送信対象と
なる他の第2コンピュータ装置に対する送信巡回情報を
生成する巡回情報生成手段と、生成された送信巡回情報
を前記次回の送信対象となる他の第2コンピュータ装置
に対して送信するとともに、該送信結果に基づいて送信
先の第2コンピュータ装置における障害の有無を監視し
て障害発生を検知する障害検知手段と、検知された障害
発生に関する情報を前記第1コンピュータ装置に対して
通知する障害通知手段とを備え、前記障害検知手段が障
害発生を検知する毎に前記第1コンピュータ装置に対し
て通知することを特徴とする、障害検知機能付きコンピ
ュータシステムである。
【0019】前記巡回情報生成手段は、例えば、受信し
た前記巡回情報の種別に基づいて監視用または監視対象
変更用のいずれかの前記送信巡回情報を生成するように
構成される。あるいは、前記巡回履歴情報に基づいて、
前記自己以外の他の第2コンピュータ装置からの前記巡
回情報が予め設定された待ち時間を超過した場合に、自
己の第2コンピュータ装置から前回送信された送信巡回
情報と同一の監視用送信巡回情報を生成するように構成
される。あるいは、受信した前記巡回情報が監視対象変
更用の巡回情報である場合に、当該巡回情報に基づいて
前記双方向通信可能な環境に対して追加または削除され
る他の第2コンピュータ装置に関する情報を前記巡回履
歴情報に反映させて更新するように構成される。
【0020】前記障害検知手段は、前記巡回履歴情報に
基づいて前記次回の送信対象となる他の第2コンピュー
タ装置を特定して前記送信巡回情報を送信するととも
に、該送信先の第2コンピュータ装置からの所定の送達
確認情報と前記巡回履歴情報とに基づいて、該送信先の
第2コンピュータ装置における稼働状態を「正常」また
は「異常」のいずれかを判定することにより障害発生の
有無を検知するように構成される。この障害検知手段に
おいて、稼働状態が「異常」と判定された場合は、前記
巡回履歴情報に基づいて、さらに次回の送信対象となる
他の第2コンピュータ装置を特定して当該送信巡回情報
を継続して送信する。また、稼働状態が「正常」と判定
され、且つ、前記巡回履歴情報における当該送信先の第
2コンピュータ装置の稼働状態が「異常」の場合には、
前記第1コンピュータ装置に対して当該送信先の第2コ
ンピュータ装置の復旧を表す「正常」に関する情報を通
知する。なお、前記送信先の第2コンピュータ装置に対
する前記送信巡回情報の送信完了を契機に、該送信結果
及び障害検知結果を反映させて前記巡回履歴情報を更新
する。
【0021】前記第2コンピュータ装置は、例えば、所
定のトークンパッシングに基づいたトークンによる巡回
情報を、前記巡回履歴情報に基づいて、前記双方向通信
可能な環境において分散配置された対応する他のすべて
の前記第2コンピュータ装置に対して巡回させるように
構成されたものである。
【0022】本発明の他のコンピュータシステムは、双
方向通信可能な環境において情報取得要求元となる複数
の第1コンピュータ装置、前記第1コンピュータ装置に
対して情報提供を行う複数の第2コンピュータ装置、及
び前記双方向通信可能な環境を統括的に管理する第3コ
ンピュータ装置を各々接続して成り、前記第1及び第2
コンピュータ装置が、自己以外の他の第1または第2コ
ンピュータ装置から送信される巡回情報を受信するとと
もに、当該巡回情報と予め保持された巡回履歴情報とに
基づいて、次回の送信対象となる他の第1または第2コ
ンピュータ装置に対する送信巡回情報を生成する巡回情
報生成手段と、生成された送信巡回情報を前記次回の送
信対象となる他の第1または第2コンピュータ装置に対
して送信するとともに、該送信結果に基づいて送信先の
第1または第2コンピュータ装置における障害の有無を
監視して障害発生を検知する障害検知手段と、検知され
た障害発生に関する情報を前記第3コンピュータ装置に
対して通知する障害通知手段とを備え、前記障害検知手
段が障害発生を検知する毎に前記第3コンピュータ装置
に対して通知することを特徴とする、障害検知機能付き
コンピュータシステムである。
【0023】上記他の課題を解決する本発明の記録媒体
は、双方向通信可能な環境を統括的に管理する第1コン
ピュータ装置と複数の第2コンピュータ装置とに各々接
続され、特定の前記第2コンピュータ装置に読み取られ
て当該コンピュータ装置を他の前記第2コンピュータ装
置に対する稼働状態監視装置として機能させるプログラ
ムコードを記録した記録媒体であって、前記プログラム
コードが、少なくとも、自己以外の他の第2コンピュー
タ装置から送信される巡回情報を受信するとともに、当
該巡回情報と予め保持された巡回履歴情報とに基づい
て、次回の送信対象となる他の第2コンピュータ装置に
対する送信巡回情報を生成する処理、生成された送信巡
回情報を前記次回の送信対象となる他の第2コンピュー
タ装置に対して送信するとともに、該送信結果に基づい
て送信先の第2コンピュータ装置における障害の有無を
監視して障害発生を検知する処理、検知された障害発生
に関する情報を前記第1コンピュータ装置に対して通知
する処理、を前記第2コンピュータ装置に実行させるも
のである。
【0024】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を詳細に説明する。 (第1実施形態)図1は、本発明を、情報提供を行うコ
ンピュータシステムに適用した場合の実施の形態を表す
機能ブロック図である。このコンピュータシステム1
は、複数のエージェントサーバ10、システム全体の統
括管理を行うシステム統括管理サーバ20、及び複数の
クライアント30を分散して配備し、通信網Lを介して
各々双方向通信可能に接続されて構成される。この場合
の通信網Lは、例えば、複数のLAN等の局所的なネッ
トワーク環境をその内部に含んで構築された、アウトソ
ーシング可能なISDN等を含むWANによる広域ネッ
トワーク環境である。
【0025】エージェントサーバ10は、当該サーバを
構成するコンピュータ装置が保有した固有のアプリケー
ション及び情報に関するサービスを複数のクライアント
30に対して提供する業務サーバであるとともに、複数
のエージェントサーバ10相互間において稼働状態の監
視を行う所謂、稼働状態監視装置として機能するもので
ある。複数のエージェントサーバ10における個々のサ
ーバ機能は、例えば、DNS、Proxy、WINS
(Windows Internet Network Service)、データベース
管理システム(DBMS)等を提供するように構成され
る。
【0026】以下、本実施形態では、エージェントサー
バ10における機能構成について、公知技術により実現
されるクライアント30に対するサーバ機能に関する説
明を省略し、複数のエージェントサーバ10間における
稼働状態監視装置としての機能構成について説明する。
なお、複数のエージェントサーバ10間におけるデータ
アクセスは、所定のトークンによるメッセージを予め設
定されたノード順序でネットワークを巡回させる、公知
のトークンパッシング手法(Token Passing Method)に
基づくものとする。
【0027】システム統括管理サーバ20は、コンピュ
ータシステム1全体を統括的に管理するサーバであり、
複数のエージェントサーバ10に対する監視マネージャ
として位置付けられる。具体的には、特定のエージェン
トサーバ10において障害が発生した場合に、他のエー
ジェントサーバ10からなされる障害発生の通知に即し
て障害を検知したシステム統括管理サーバ20は、該障
害に関する情報を管理者へ通知を行ったり、記録(ロ
グ)を残したりするように構成される。
【0028】また、システム統括管理サーバ20は、図
示しない情報保持手段において複数のエージェントサー
バ10に関する監視管理情報を保持するものである。図
2に、監視管理情報における構築形態の一例を示す。図
中、「エージェントID」は各エージェントサーバ10
毎に各々付与された識別情報であり、監視管理情報は、
「エージェントID」と対応するエージェントサーバ1
0の「IPアドレス」との組から構築されている。この
場合、「エージェントID」は予め設定された監視グル
ープ内で一意に決められるものであり、トークンの伝達
順序に用いるために数値であることが望ましい。また、
監視グループとは、複数のエージェントサーバ10間で
稼働状態の相互監視を行うためのエージェントサーバの
集合であり、ネットワーク的に離れたエージェントサー
バ同士が監視し合うことがないように、好ましくは、同
一LANのようにその分散形態に即した同一サイトやセ
グメント等に属するエージェントサーバ群として構築す
れば良い。このことから、システム統括管理サーバ20
では、すべての監視グループに関する監視管理情報を保
有するものとなる。
【0029】なお、本実施形態におけるコンピュータシ
ステム1は、公知のTCP/IP(Transmission Contr
ol Protocol/Internet Protocol)の通信プロトコルを
ベースに構成されているものとする。但し、このような
例に限定されず、UDPの通信プロトコルをベースに構
成されたものであっても良い。
【0030】コンピュータ装置により実現される、稼働
状態監視装置として機能するエージェントサーバ10
は、自己のOS下で所定のプログラムを読み込んで実行
することにより形成される、通信制御部11、巡回情報
受信処理部12、状態監視処理部13、監視対象変更処
理部14、及び巡回情報送信処理部15を具備して構成
される。
【0031】また、エージェントサーバ10における各
機能を形成させる上記プログラムは、通常、当該エージ
ェントサーバ10を構成するコンピュータ装置の内部或
いは外部記憶装置に、上記各機能ブロックを形成可能な
任意の記録形態で格納され、随時読み取られて実行され
るようになっている。例えば、コンピュータ装置等とは
分離可能なCD−ROMやFD等の可搬性記録媒体、或
いは構内ネットワークに接続されたプログラムサーバ等
にコンピュータ可読の形態で格納され、使用時に上記コ
ンピュータ装置の内部または外部記憶装置にインストー
ルされて随時実行に供されるものであってもよい。な
お、上記機能ブロック11〜15は、上記プログラム単
独による形成、或いはコンピュータ装置に搭載されたオ
ペレーティングシステムとの共動により適宜実現される
ものであっても良い。
【0032】通信制御部11は、通信網Lを介してシス
テム統括管理サーバ20及び複数のエージェントサーバ
10とのデータ授受を行うものである。
【0033】巡回情報受信処理部12は、稼働状態の監
視対象となる複数のエージェントサーバ10から巡回し
てなされる応答情報、即ちトークン(以下、受信トーク
ン)を後述するエージェント管理情報に基づいて通信制
御部11を介して受信するとともに、当該受信トークン
の種別について「監視用トークン」かまたは「変更用ト
ークン」かを判定するものである。
【0034】状態監視処理部13は、巡回情報受信処理
部12における受信トークンが「監視用トークン」の場
合に、次回に巡回させるべきエージェントサーバ監視用
の送信トークンを後述するエージェント管理情報に基づ
いて生成するとともに、当該トークンを巡回情報送信処
理部15と共動することにより通信制御部11を介して
送信対象となる他のエージェントサーバ10に対して送
信するものである。
【0035】監視対象変更処理部14は、巡回情報受信
処理部12における受信トークンが、監視対象となる特
定のエージェントサーバ10に関する追加または削除を
表す「変更用トークン」の場合に、次回に巡回させるべ
きエージェントサーバ変更用の送信トークンを後述する
エージェント管理情報に基づいて生成するとともに、当
該トークンを巡回情報送信処理部15と共動することに
より通信制御部11を介して送信対象となる他のエージ
ェントサーバ10に対して送信するものである。
【0036】巡回情報送信処理部15は、状態監視処理
部13及び監視対象変更処理部14において各々生成さ
れた送信トークンを通信制御部11を介して送信対象と
なる他のエージェントサーバ10に対して送信するとと
もに、該送信結果と後述するエージェント管理情報とに
基づいて当該トークンの送信先エージェントサーバ10
における稼働状態を判定するものである。また、該判定
結果を、通信制御部11を介してシステム統括管理サー
バ20に対して通知するように構成される。具体的に
は、送信トークンを巡回させるべき送信先エージェント
サーバ10に対して送信不能な場合を、当該エージェン
トサーバ10における障害発生として検知する毎に、該
障害検知に関する情報をシステム統括管理サーバ20に
対して通知する。
【0037】この場合、送信トークンは、障害が検知さ
れたエージェントサーバ10の次に送信対象となる他の
エージェントサーバ10に対して継続して送信され、障
害が検知された同一エージェントサーバ10に対して
は、送信トークンが自己のエージェントサーバ10に巡
回してきた場合に再度送信を行うように構成される。
【0038】次に、エージェントサーバ10におけるエ
ージェント管理情報について説明する。エージェントサ
ーバ10は、図示しない情報管理手段において予め構築
されたエージェント管理情報を保持するとともに、当該
エージェント管理情報に基づいて上記機能ブロック11
〜15を機能させるものである。
【0039】図3にエージェント管理情報における構築
形態の一例を示す。図中、「エージェントID」及び
「IPアドレス」は、上述のシステム統括管理サーバ2
0における監視管理情報に対応するものであり、トーク
ンの伝達順序はこの「エージェントID」に基づいて決
定される。なお、エージェント管理情報において、例え
ば、欠番となっている「エージェントID」に対応する
「IPアドレス」はゼロクリアするように構築すれば良
い。
【0040】「稼働状態」は、現時点において対応する
エージェントサーバ10が稼働しているか否かを表す情
報であり、この「稼働状態」は、すべてのエージェント
サーバ10の稼働状態に関する情報を保持する必要はな
く、例えば、過去に自己のエージェントサーバ10から
トークンを伝達したエージェントサーバ10に関する情
報だけがあれば良い。
【0041】「伝達フラグ」は、特定のエージェントサ
ーバ10に関する追加や削除等の変更が行われた場合
に、当該エージェントサーバ10のIPアドレス等の情
報が次回にトークンを巡回させるべきエージェントサー
バ10に伝達したか否かを表す情報である。変更された
エージェントサーバ10に関する情報は、自己のエージ
ェントサーバ10に対して送信がなされた他のエージェ
ントサーバ10からの送信トークンにより巡回的に伝達
される。各エージェントサーバ10は、監視グループを
構成するすべてのエージェントサーバ10に関する「監
視グループ一覧」情報を持つ必要があるため、この「伝
達フラグ」により最新情報の保持が実現される。一方、
「トークン待ち時刻」及び「トークン通番」は、トーク
ンに関する不整合や通信上のエラーを検出するため情報
である。
【0042】このエージェント管理情報は、エージェン
トサーバ10の現時点におけるトークンに関する巡回の
履歴情報として用いられる。なお、エージェント管理情
報におけるデータ構造は、上記構築例に限定することな
く例えば、表形式やリスト形式等対応する形態で適宜構
築すれば良い。
【0043】このように、各エージェントサーバ10
は、自己が属する監視グループに関するエージェント管
理情報を保持しておけば良く、当該エージェント管理情
報とエージェントサーバ10間を巡回するトークンとに
より稼働状態の相互監視、及び特定のエージェントサー
バ10における構成変更情報の自動伝達が実現される。
【0044】次に、エージェントサーバ10間を巡回す
るトークンについて説明する。図4は、エージェントサ
ーバ10間における稼働状態の監視処理の概要を表す模
式図である。本実施形態では、コンピュータシステム1
を巡回するトークン、即ち送信トークンは、図示するよ
うに2種類の形態でエージェントサーバ10間を巡回す
るものである。エージェントサーバ10における巡回情
報受信処理部12では、送信トークンを受信して、当該
トークンに含まれる「処理種別」を表すフラグから当該
トークンが通常の「監視用トークン」か、または特定の
エージェントサーバ10に関する追加や削除等の「変更
用トークン」かが判定される。
【0045】「監視用トークン」は、監視用トークンを
表すフラグ「処理種別」、「送信元エージェントI
D」、トークンの送信処理時間を抑制するための巡回遅
延を表す「リレー間隔」、及びトークンの整合性を維持
するための「通番」を含んで構成される。この場合の
「通番」は監視グループを一巡する毎にその値が増加す
るように構成され、また、「リレー間隔」は通番が増加
する際に、トークンが流れすぎないように、エージェン
トサーバ10において、エージェント管理情報の「トー
クン待ち時刻」と実際の時刻とから一巡する時間を加味
して算出された値が付与されるものである。
【0046】一方、「変更用トークン」は、変更用トー
クンを表すフラグ「処理種別」、コンピュータシステム
1における通信網Lに対して追加または削除される「変
更エージェントID」、及び対応する「変更IPアドレ
ス」を含んで構成される。この場合、例えば、「変更I
Pアドレス」が「0」の場合は対応するエージェントサ
ーバ10の「削除」、また、それ以外の値の場合には対
応するエージェントサーバ10の「追加」と判定するよ
うに構成される。
【0047】また、この図では、監視グループAにおい
てエージェントID「003」のエージェントサーバC
に対する送信トークンが送信不能であったため、当該エ
ージェントサーバCにおける障害が、送信元となるエー
ジェントID「002」のエージェントサーバBにより
検知されてシステム統括管理サーバ20に対する通知が
なされていることを表している。
【0048】次に、本実施形態におけるコンピュータシ
ステム1の具体的な動作について説明する。図5〜8
は、コンピュータシステム1における処理手順図であ
る。まず、図5に示すエージェントサーバ10における
概略処理手順について説明する。エージェントサーバ1
0の巡回情報受信処理部12は、エージェント管理情報
に基づいてトークンの受信に係る待ち時間を検知する
(ステップS101)。当該待ち時間がエージェント管
理情報における「トークン待ち時刻」を超えずに受信さ
れた場合(ステップS101:超えずに受信)、巡回情
報受信処理部12は当該トークンを受信してその種別を
判定する(ステップS102〜103)。
【0049】判定された受信トークンの種別が「監視用
トークン」の場合には(ステップS103:監視用トー
クン)、巡回情報受信処理部12は、当該トークンにお
ける「リレー間隔」またはエージェント管理情報におけ
る「トークン待ち時間」に基づいて処理を一時停止する
(ステップS104)。この「リレー間隔」で指定され
た時間待機することにより、通信網Lにおけるトラフィ
ックが抑制される。次に、制御権は、巡回情報受信処理
部12から状態監視処理部13に移されてエージェント
サーバ10間における監視処理が行われる(ステップS
105)。なお、当該監視処理については後述する。
【0050】当該監視処理が終了後、エージェントサー
バ10は、該監視処理結果に基づいて図示しない情報管
理手段により「トークン待ち時間」を再算出してエージ
ェント管理情報を更新するとともに(ステップS10
6)、ステップS101に戻り処理を繰り返す。また、
巡回情報受信処理部12における受信トークンが「変更
用トークン」の場合には(ステップS103:変更用ト
ークン)、制御権は、監視対象変更処理部14に移され
て後述するエージェントサーバ10に関する変更処理が
行われる(ステップS107)。
【0051】一方、上記ステップS101においてトー
クンが待ち時間を超過して受信された場合には(ステッ
プS101:超えた)、トークンを保持したままダウン
等の障害が発生したエージェントサーバ10の存在や通
信網Lが分断された等、何らかの異常が予測できること
から、状態監視処理部13において、前回と同一の監視
用の送信トークンを生成する(ステップS108)。当
該トークンは、巡回情報送信処理部15と共動して自己
のエージェントサーバ10から次回に送信対象となる他
のエージェントサーバ10へ送信され、また、図示しな
い情報管理手段により「トークン待ち時間」を再算出し
てエージェント管理情報を更新するとともに(ステップ
S109〜110)、ステップS101に戻り処理を繰
り返す。
【0052】この場合、次回の送信対象となる他のエー
ジェントサーバ10とは、エージェント管理情報の監視
グループ一覧における「エージェントID」が、自己の
エージェントIDの次に大きい値となるエージェントサ
ーバ10である。自己エージェントIDより大きい値と
なるエージェントIDがエージェント管理情報に存在し
ない場合に、巡回情報送信処理部15は、例えば、監視
グループ内において最小値となるエージェントIDに基
づいて次回の送信対象エージェントサーバ10を特定す
るように構成される。この処理により、再度自己のエー
ジェントサーバ10へ巡回するトークンから障害の発生
源が特定される。なお、トークンの送信処理については
後述する。
【0053】次に、図6に示すエージェントサーバ10
における状態監視処理手順について説明する。状態監視
処理部13は、巡回情報受信処理部12からの受信トー
クンに対して、その「通番」が自己エージェントサーバ
10に保持されたエージェント管理情報における「トー
クン通番」より大きいか否かを判定する(ステップS2
01)。具体的には、受信トークンの「通番」とエージ
ェント管理情報における「トークン通番」とを比較して
前回受信したものより「1」増分していると判定された
場合には(ステップS201:Yes)、当該トークンに
おける「送信元エージェントID」に基づいてエージェ
ント管理情報の対応する「伝達フラグ」をチェックする
(ステップS203)。一方、受信トークンの「通番」
がエージェント管理情報における「トークン通番」より
増分していない場合には(ステップS201:No)、当
該受信トークンが二重に巡回していることを表している
ことから当該受信トークンを破棄する(ステップS20
2)。
【0054】次に、状態監視処理部13では、エージェ
ント管理情報における「伝達フラグ」のチェックによ
り、対応するエージェントサーバ10に変更があると判
定された場合には(ステップS203:エージェントに
変更あり)、監視対象変更処理部14と共動して変更用
トークンを生成する(ステップS204)。具体的に
は、変更用トークンにおける「変更IPアドレス」を、
「伝達フラグ」に対応する変更のあったエージェントサ
ーバ10のIPアドレスにより設定するように構成され
る。
【0055】生成された変更用トークンは、巡回情報送
信処理部15により次回の送信対象となる他のエージェ
ントサーバ10に対して送信され、エージェント管理情
報において対応する「伝達フラグ」は、該送信完了を契
機に、図示しない情報管理手段によりクリアされる。
(ステップS205〜206)。
【0056】次に、状態監視処理部13では、「送信元
エージェントID」に自己のエージェントIDを設定し
て監視用トークンを生成する(ステップS207)。ま
た、状態監視処理部13は、受信トークンにおける「送
信元エージェントID」と自己のエージェントIDとを
比較する。「送信元エージェントID」が自己のエージ
ェントID以下の場合には(ステップS208:No)、
エージェント管理情報における「トークン通番」を監視
用トークンの「通番」に対して設定するとともに(ステ
ップS209)、監視用トークンの「リレー間隔」を設
定する(ステップS210)。
【0057】一方、「送信元エージェントID」が自己
のエージェントID以上の場合には(ステップS20
8:Yes)、状態監視処理部13は、エージェント管理
情報における「トークン通番」を「1」増分させて監視
用トークンの「通番」を設定するとともに(ステップS
211)、エージェント管理情報における「トークン待
ち時間」と実際の時刻とに基づいて監視用トークンの
「リレー間隔」を設定する(ステップS212)。
【0058】また、図示しない情報管理手段では、上記
ステップS208〜212において監視用トークンに対
して設定された「通番」により、エージェント管理情報
における「トークン通番」を更新して保持するとともに
(ステップS213)、巡回情報送信処理部15では、
設定された監視用トークンを通信制御部11を介して送
信対象となるエージェントサーバ10に対して送信する
(ステップS214)。
【0059】次に、図7に示す特定のエージェントサー
バ10に関する変更処理手順について説明する。特定の
エージェントサーバ10の追加または削除によるコンピ
ュータシステム1に対する変更がなされる場合、当該エ
ージェントサーバが属すべき監視グループに対応する各
エージェントサーバ10が保持するエージェント管理情
報に対して該変更を反映させて更新しなければならな
い。この場合、システム統括管理サーバ20から各エー
ジェントサーバ10へ追加や削除等の変更情報を送信す
るのではなく、変更対象となるエージェントサーバ10
自身が当該変更情報をトークンにより、次回の送信対象
となる他のエージェントサーバ10に対して送信する。
この処理により、ダウン等の障害が検知されているエー
ジェントサーバ10を含めて、当該変更情報は、コンピ
ュータシステム1におけるすべてのエージェントサーバ
10に対してに波及されるものとなる。
【0060】なお、エージェントサーバ10追加の場合
には、該追加時に予めシステム統括管理サーバ20から
最新の監視グループ一覧及び自己のエージェントIDが
付与されるものとし、また、エージェントサーバ10削
除の場合には、エージェント管理情報における自己のエ
ージェントIDに基づいて変更用トークンが生成される
ものとする。
【0061】まず、監視対象変更処理部14は、エージ
ェント管理情報の監視グループ一覧において、受信トー
クンの「エージェントID」に対応する「IPアドレ
ス」に対して、当該受信トークンのIPアドレスを設定
する(ステップS301)。また、監視対象変更処理部
14は、エージェント管理情報において受信トークンの
「エージェントID」に対応する「伝達フラグ」を設定
する(ステップS302)。次に、監視対象変更処理部
14は、変更のあったエージェントサーバ10のIPア
ドレスを「変更IPアドレス」として設定した「変更用
トークン」を生成するとともに(ステップS303)、
巡回情報送信処理部15と共動して当該トークンを次回
の送信対象となるエージェントサーバ10に対して送信
する(ステップS304)。
【0062】巡回情報送信処理部15では、「変更用ト
ークン」の送信完了を契機に、図示しない情報管理手段
と共動してエージェント管理情報の対応する「伝達フラ
グ」をクリアする(ステップS305)。この場合、例
えば、次回の送信対象となる他のエージェントサーバ1
0がダウン等していた場合には、さらに次回の送信対象
となるエージェントサーバ10に対して変更用トークン
を送信するものの「伝達フラグ」に対するクリアは行わ
ないように構成すれば良い。
【0063】以上の処理から、追加や削除等の変更対象
となるエージェントサーバ10自身は、変更用トークン
を、すべてのエージェントサーバ10に対して送信する
ことなく、少なくとも1つの送信対象となるエージェン
トサーバ10にのみ送信すれば良く、巡回するトークン
と「伝達フラグ」とにより、対応する変更情報は、すべ
てのエージェントサーバ10に対して確実に波及するも
のとなる。
【0064】次に、図8に示すトークンの送信処理手順
について説明する。巡回情報送信処理部15は、エージ
ェント管理情報の監視グループ一覧から次回の送信対
象、即ちトークンを次に巡回させるべきエージェントサ
ーバ10のIPアドレスを取得する(ステップS40
1)。次回の送信対象が自己のエージェントサーバ10
である場合には(ステップS402:Yes)、エラーを
表す異常値を返却する。一方、次回の送信対象が自己の
エージェントサーバ10以外である場合(ステップS4
02:No)、巡回情報送信処理部15は、通信制御部1
1を介して当該エージェントサーバ10に対してトーク
ンの送信を行う(ステップS403)。
【0065】次に、巡回情報送信処理部15は、通信制
御部11を介してトークンの送信結果を判定する。当該
トークンが正常に送信された場合には(ステップS40
4:Yes)、エージェント管理情報において当該トーク
ンが送信されたエージェントサーバ10の「稼働状態」
をチェックし、当該「稼働状態」が「正常」の場合には
(ステップS405:正常)、正常値を返却する。
【0066】一方、当該「稼働状態」が「異常」の場合
(ステップS405:異常)、巡回情報送信処理部15
は、システム統括管理サーバ20に対して対応するエー
ジェントサーバ10における「正常」を通知する(ステ
ップS406)。また、巡回情報送信処理部15は、図
示しない情報管理手段と共動してエージェント管理情報
の対応するエージェントサーバ10に関する「稼働状
態」を「正常」に更新する(ステップS407)。この
ステップS405〜407の処理により、前回までトー
クンの送信が失敗していたエージェントサーバ10に関
する、所謂「復旧」の通知がシステム統括管理サーバ2
0に対してなされるものとなる。
【0067】また、上記ステップS404においてトー
クンが正常に送信できなかった場合(ステップS40
4:No)、巡回情報送信処理部15は、エージェント管
理情報における送信先のエージェントサーバ10に関す
る前回の「稼働状態」を判定し、該判定結果が「異常」
であった場合には(ステップS408:異常)、ステッ
プS401に戻り、さらに次回の送信対象となるエージ
ェントサーバ10を特定して処理を繰り返す。
【0068】一方、「稼働状態」が「正常」であった場
合(ステップS408:正常)、巡回情報送信処理部1
5は、システム統括管理サーバ20に対して当該エージ
ェントサーバ10における障害検知を通知する(ステッ
プS409)。また、巡回情報送信処理部15は、図示
しない情報管理手段と共動してエージェント管理情報に
おける「稼働状態」を「異常」に更新する(ステップS
410)。
【0069】上記ステップS404におけるトークンの
送信結果に関する確認手法として、巡回情報送信処理部
15を、例えば、コネクション型の通信であるTCPま
たはコネクションレス型のUDPを用いて送信先のエー
ジェントサーバ10側からなされる送達確認情報を含む
応答に基づいてトークンの送信結果を判定するように構
成しても良い。
【0070】このように、本実施形態のコンピュータシ
ステム1では、複数のエージェントサーバ間でトークン
を巡回させて各エージェントサーバにおける稼働状態を
相互監視するとともに、特定のエージェントサーバにお
ける障害が検知された場合のみ、他のエージェントサー
バ側からシステム統括管理サーバに対して該障害検知が
通知されることから、従来手法のようにシステム統括管
理サーバからのポーリングを行うことなく、ネットワー
ク環境における通信トラフィックが低減できる。
【0071】また、エージェントサーバ相互間で巡回す
るトークンに基づいて稼働状態を監視し合うことから、
各エージェントサーバの起動状態をほぼリアルタイムで
確実に把握可能となるとともに、例えば、エージェント
サーバ装置自体のダウンや、エージェントサーバにおけ
るエージェントプロセスのダウン等を障害発生として検
出することができる。
【0072】また、ネットワーク環境におけるすべての
エージェントサーバが同一の立場にあるため、従来手法
と比較して稼働状態の監視に係るトラフィックが集中す
ることなく負荷分散が可能となる。
【0073】また、エージェントサーバにおいて障害が
検知された時点にのみシステム統括管理サーバに対して
通知されるため、システム統括管理サーバとエージェン
トサーバ間のネットワーク負荷及びリソースの使用率が
著しく軽減される。
【0074】また、例えば、WANを経由した分散シス
テムにおいて、アウトソーシングを実施している場合
に、ネットワークへの常時接続が不要となるとともに、
必要最低限の通信でエージェントサーバにおける稼働状
態をシステム統括管理サーバへ通知可能なことから、通
信コストが削減され経済効率が大幅に向上する。
【0075】また、監視対象となる特定のエージェント
サーバに関する追加や削除等の変更情報を、当該エージ
ェントサーバ自身がトークンにより他のエージェントサ
ーバ群に対して巡回させることから、システム統括管理
サーバが関与することなくネットワーク環境に当該変更
情報を波及させることが可能となる。
【0076】さらに、特定のエージェントサーバにおい
てダウン等の障害が発生していた場合であっても、シス
テム統括管理サーバは関与することなく、巡回するトー
クンに基づいて他のエージェントサーバ群に対する自動
的な情報の伝達が可能となる。このように、本実施形態
のコンピュータシステム1によれば、システム全体にお
ける信頼性及び運用管理に係る処理効率が大幅に向上す
る。
【0077】(第2実施形態)本発明は、例えば、クラ
イアント・サーバシステムにおける複数のクライアント
に対して適用させて構成することも可能である。この場
合のクライアントは、少なくとも、上記コンピュータシ
ステム1におけるエージェントサーバ10と同一の機能
ブロックである、巡回情報受信処理部12、状態監視処
理部13、監視対象変更処理部14、及び巡回情報送信
処理部15を具備して構成される。
【0078】このクライアントがエージェントサーバ1
0と相違する点は、例えば、クライアントに検知した障
害発生に関する情報を提示するための表示装置を具備す
る点であり、クライアントに具備されるディスプレイ装
置等の出力装置に対してメッセージ等の出力を行うよう
にクライアントを構成させる。また、通信制御部11に
相当する処理は、クライアント自体に具備される通信制
御の機能を使用することにより代替が可能となる。
【0079】第1実施形態におけるエージェントサーバ
10は、上述のように、複数のエージェントサーバ間で
稼働状態の相互監視を行うものであり、コンピュータシ
ステム1におけるシステムの階層的な観点からは、すべ
てのエージェントサーバ10は同位レベルとして位置付
けられている。このことから、第2実施形態では、例え
ば、複数のクライアントを、エージェントサーバ10と
同位レベルのコンピュータ装置として各々機能させよう
に、上記機能ブロック12〜15を組み込んで具備さ
せ、クライアントを構成することにより上記コンピュー
タシステム1におけるエージェントサーバ10と同等の
効果を得ることが可能となる。
【0080】本実施形態のクライアントを用いて上記コ
ンピュータシステム1を構築した場合には、上記システ
ム統括管理サーバ20以外のすべてのコンピュータ装置
が同位レベルとなり、複数のクライアント間、複数のエ
ージェントサーバ10間、及びクライアント〜エージェ
ントサーバ10間における稼働状態の相互監視が可能と
なる。
【0081】
【発明の効果】以上の説明から明らかなように、本発明
によれば、分散型のコンピュータシステムにおける効率
的な障害発生の検知が可能となるという特有の効果があ
る。また、本発明のコンピュータシステムによれば、分
散システムを構成するコンピュータ装置間で稼働状態の
相互監視ができることから、信頼性及び処理効率の高い
システム運用管理環境が実現可能となる効果がある。
【図面の簡単な説明】
【図1】本発明のコンピュータシステムの一実施形態を
表す機能ブロック図。
【図2】監視管理情報における構築形態の一例。
【図3】エージェント管理情報における構築形態の一
例。
【図4】本実施形態の監視処理の概要を表す模式図。
【図5】本実施形態のエージェントサーバにおける処理
手順図。
【図6】状態監視処理における処理手順図。
【図7】エージェント変更処理における処理手順図。
【図8】トークン送信処理における処理手順図。
【図9】従来型の分散システムにおける一実施形態を表
す図。
【図10】従来型のコンピュータ装置におけるプロセス
間の相互監視を表す図。
【図11】従来型の分散システムにおける一実施形態を
表す図。
【符号の説明】
1 コンピュータシステム 10 エージェントサーバ 11 通信制御部 12 巡回情報受信処理部 13 状態監視処理部 14 監視対象変更処理部 15 巡回情報送信処理部 20 システム統括管理サーバ 30 クライアント L 通信網

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】 双方向通信可能な環境に分散配置された
    複数のコンピュータ装置における障害発生の有無を検知
    する方法であって、 各コンピュータ装置が、 自己以外の他のコンピュータ装置から送出される巡回情
    報を受領するとともに、当該巡回情報と予め保持された
    巡回履歴情報とに基づいて次回の送出対象となる他のコ
    ンピュータ装置に対する巡回情報を生成する過程と、 生成された巡回情報を前記次回の送出対象となる他のコ
    ンピュータ装置に対して送出するとともに、該送出結果
    に基づいて送出先のコンピュータ装置における障害の有
    無を監視して障害発生を検知する過程とを少なくともこ
    の順に実行し、 前記巡回情報を分散配置されたすべてのコンピュータ装
    置に対して巡回的に波及させ、特定のコンピュータ装置
    における障害発生の有無をコンピュータ装置間で相互監
    視することを特徴とする、障害検知方法。
  2. 【請求項2】 前記巡回情報は、監視用巡回情報または
    監視対象変更用巡回情報のいずれかにより形成される情
    報であり、 前記監視用巡回情報は、送出元のコンピュータ装置に関
    する識別情報、該巡回情報の送出時間を抑制するための
    リレー間隔、及び該巡回情報の整合性を維持するための
    通番を含んで形成される情報であり、 前記監視対象変更用巡回情報は、前記双方向通信可能な
    環境に対して追加または削除される監視対象のコンピュ
    ータ装置に関する識別情報を含んで形成される情報であ
    ることを特徴とする、 請求項1記載の障害検知方法。
  3. 【請求項3】 前記監視対象変更用巡回情報は、特定の
    コンピュータ装置の追加または削除による前記双方向通
    信可能な環境に対する変更情報を、分散配置されたすべ
    てのコンピュータ装置に対して波及させるための情報で
    あることを特徴とする、 請求項1または2記載の障害検知方法。
  4. 【請求項4】 前記巡回履歴情報は、自己のコンピュー
    タ装置に関する識別情報、自己のコンピュータ装置にお
    ける前記巡回情報の現時点までの到達状態を表す情報、
    現時点における他のコンピュータ装置に関する稼働状態
    を表す情報、及び前記監視対象変更用巡回情報の波及状
    態を表す情報を含んで形成される情報であり、前記コン
    ピュータ装置毎に更新可能に保持されることを特徴とす
    る、 請求項1乃至3のいずれかの項記載の障害検知方法。
  5. 【請求項5】 前記巡回履歴情報は、前記巡回情報の伝
    達順序を特定するための、前記分散配置の形態に基づい
    て予めグループ化された、自己のコンピュータ装置が属
    するグループにおける監視対象となるすべてのコンピュ
    ータ装置に関する情報を含んで形成されるものであるこ
    とを特徴とする、 請求項1乃至4のいずれかの項記載の障害検知方法。
  6. 【請求項6】 双方向通信可能な環境を統括的に管理す
    る第1コンピュータ装置と複数の第2コンピュータ装置
    とを各々接続して成り、 個々の第2コンピュータ装置は、 自己以外の他の第2コンピュータ装置から送信される巡
    回情報を受信するとともに、当該巡回情報と予め保持さ
    れた巡回履歴情報とに基づいて、次回の送信対象となる
    他の第2コンピュータ装置に対する送信巡回情報を生成
    する巡回情報生成手段と、 生成された送信巡回情報を前記次回の送信対象となる他
    の第2コンピュータ装置に対して送信するとともに、該
    送信結果に基づいて送信先の第2コンピュータ装置にお
    ける障害の有無を監視して障害発生を検知する障害検知
    手段と、 検知された障害発生に関する情報を前記第1コンピュー
    タ装置に対して通知する障害通知手段とを備え、 前記障害検知手段が障害発生を検知する毎に前記第1コ
    ンピュータ装置に対して通知することを特徴とする、 障害検知機能付きコンピュータシステム。
  7. 【請求項7】 前記巡回情報生成手段は、受信した前記
    巡回情報の種別に基づいて監視用または監視対象変更用
    のいずれかの前記送信巡回情報を生成するように構成さ
    れていることを特徴とする、 請求項6記載のコンピュータシステム。
  8. 【請求項8】 前記巡回情報生成手段は、前記巡回履歴
    情報に基づいて、前記自己以外の他の第2コンピュータ
    装置からの前記巡回情報が予め設定された待ち時間を超
    過した場合に、自己の第2コンピュータ装置から前回送
    信された送信巡回情報と同一の監視用送信巡回情報を生
    成するように構成されていることを特徴とする、 請求項6または7記載のコンピュータシステム。
  9. 【請求項9】 前記巡回情報生成手段は、受信した前記
    巡回情報が監視対象変更用の巡回情報である場合に、当
    該巡回情報に基づいて前記双方向通信可能な環境に対し
    て追加または削除される他の第2コンピュータ装置に関
    する情報を前記巡回履歴情報に反映させて更新するよう
    に構成されていることを特徴とする、請求項6または7
    記載のコンピュータシステム。
  10. 【請求項10】 前記障害検知手段は、前記巡回履歴情
    報に基づいて前記次回の送信対象となる他の第2コンピ
    ュータ装置を特定して前記送信巡回情報を送信するとと
    もに、該送信先の第2コンピュータ装置からの所定の送
    達確認情報と前記巡回履歴情報とに基づいて、該送信先
    の第2コンピュータ装置における稼働状態を「正常」ま
    たは「異常」のいずれかを判定することにより障害発生
    の有無を検知するように構成されていることを特徴とす
    る、 請求項6記載のコンピュータシステム。
  11. 【請求項11】 前記障害検知手段は、前記送信先の第
    2コンピュータ装置における稼働状態が「異常」と判定
    された場合に、前記巡回履歴情報に基づいて、さらに次
    回の送信対象となる他の第2コンピュータ装置を特定し
    て当該送信巡回情報を継続して送信するように構成され
    ていることを特徴とする、 請求項10記載のコンピュータシステム。
  12. 【請求項12】 前記障害通知手段は、前記送信先の第
    2コンピュータ装置における稼働状態が「正常」と判定
    され、且つ、前記巡回履歴情報における当該送信先の第
    2コンピュータ装置の稼働状態が「異常」の場合には、
    前記第1コンピュータ装置に対して当該送信先の第2コ
    ンピュータ装置の復旧を表す「正常」に関する情報を通
    知するように構成されていることを特徴とする、 請求項10記載のコンピュータシステム。
  13. 【請求項13】 前記障害検知手段は、前記送信先の第
    2コンピュータ装置に対する前記送信巡回情報の送信完
    了を契機に、該送信結果及び障害検知結果を反映させて
    前記巡回履歴情報を更新するように構成されていること
    を特徴とする、 請求項12記載のコンピュータシステム。
  14. 【請求項14】 前記第2コンピュータ装置は、所定の
    トークンパッシングに基づいたトークンによる巡回情報
    を、前記巡回履歴情報に基づいて、前記双方向通信可能
    な環境において分散配置された対応する他のすべての前
    記第2コンピュータ装置に対して巡回させるように構成
    されていることを特徴とする、 請求項6乃至13のいずれかの項記載のコンピュータシ
    ステム。
  15. 【請求項15】 双方向通信可能な環境において情報取
    得要求元となる複数の第1コンピュータ装置、前記第1
    コンピュータ装置に対して情報提供を行う複数の第2コ
    ンピュータ装置、及び前記双方向通信可能な環境を統括
    的に管理する第3コンピュータ装置を各々接続して成
    り、 前記第1及び第2コンピュータ装置は、 自己以外の他の第1または第2コンピュータ装置から送
    信される巡回情報を受信するとともに、当該巡回情報と
    予め保持された巡回履歴情報とに基づいて、次回の送信
    対象となる他の第1または第2コンピュータ装置に対す
    る送信巡回情報を生成する巡回情報生成手段と、 生成された送信巡回情報を前記次回の送信対象となる他
    の第1または第2コンピュータ装置に対して送信すると
    ともに、該送信結果に基づいて送信先の第1または第2
    コンピュータ装置における障害の有無を監視して障害発
    生を検知する障害検知手段と、 検知された障害発生に関する情報を前記第3コンピュー
    タ装置に対して通知する障害通知手段とを備え、 前記障害検知手段が障害発生を検知する毎に前記第3コ
    ンピュータ装置に対して通知することを特徴とする、 障害検知機能付きコンピュータシステム。
  16. 【請求項16】 前記双方向通信可能な環境は、複数の
    局所的なネットワーク環境をその内部に含んで構築され
    た、アウトソーシング可能な所定のISDNを含む広域
    ネットワーク環境であることを特徴とする、 請求項6または15記載のコンピュータシステム。
  17. 【請求項17】 既定のTCP/IPに準拠した通信プ
    ロトコルに基づいて構成されていることを特徴とする、
    請求項16記載のコンピュータシステム。
  18. 【請求項18】 双方向通信可能な環境を統括的に管理
    する第1コンピュータ装置と複数の第2コンピュータ装
    置とに各々接続され、特定の前記第2コンピュータ装置
    に読み取られて当該コンピュータ装置を他の前記第2コ
    ンピュータ装置に対する稼働状態監視装置として機能さ
    せるプログラムコードを記録した記録媒体であって、 前記プログラムコードが、少なくとも、 自己以外の他の第2コンピュータ装置から送信される巡
    回情報を受信するとともに、当該巡回情報と予め保持さ
    れた巡回履歴情報とに基づいて、次回の送信対象となる
    他の第2コンピュータ装置に対する送信巡回情報を生成
    する処理、 生成された送信巡回情報を前記次回の送信対象となる他
    の第2コンピュータ装置に対して送信するとともに、該
    送信結果に基づいて送信先の第2コンピュータ装置にお
    ける障害の有無を監視して障害発生を検知する処理、 検知された障害発生に関する情報を前記第1コンピュー
    タ装置に対して通知する処理、 を前記第2コンピュータ装置に実行させるものであるこ
    とを特徴とする記録媒体。
JP10313729A 1998-11-04 1998-11-04 障害検知方法、コンピュータシステム及び構成装置、記録媒体 Pending JP2000148539A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10313729A JP2000148539A (ja) 1998-11-04 1998-11-04 障害検知方法、コンピュータシステム及び構成装置、記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10313729A JP2000148539A (ja) 1998-11-04 1998-11-04 障害検知方法、コンピュータシステム及び構成装置、記録媒体

Publications (1)

Publication Number Publication Date
JP2000148539A true JP2000148539A (ja) 2000-05-30

Family

ID=18044827

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10313729A Pending JP2000148539A (ja) 1998-11-04 1998-11-04 障害検知方法、コンピュータシステム及び構成装置、記録媒体

Country Status (1)

Country Link
JP (1) JP2000148539A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007114941A (ja) * 2005-10-19 2007-05-10 Nec Corp 相互監視システム、相互監視装置、相互監視方法およびプログラム
JP2009251890A (ja) * 2008-04-04 2009-10-29 Nec Corp サーバ監視システム及びサーバ監視方法
JP2010257113A (ja) * 2009-04-23 2010-11-11 Nec System Technologies Ltd 監視システム、監視方法、及びプログラム
JP2013178850A (ja) * 2013-06-21 2013-09-09 Nec System Technologies Ltd 監視システム、監視方法、及びプログラム
JP5475130B2 (ja) * 2010-07-09 2014-04-16 富士通株式会社 監視プログラム、監視システム及び監視方法
CN113900896A (zh) * 2021-10-11 2022-01-07 北京博睿宏远数据科技股份有限公司 一种代码运行的监测方法、装置、设备及存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007114941A (ja) * 2005-10-19 2007-05-10 Nec Corp 相互監視システム、相互監視装置、相互監視方法およびプログラム
JP2009251890A (ja) * 2008-04-04 2009-10-29 Nec Corp サーバ監視システム及びサーバ監視方法
JP2010257113A (ja) * 2009-04-23 2010-11-11 Nec System Technologies Ltd 監視システム、監視方法、及びプログラム
JP5475130B2 (ja) * 2010-07-09 2014-04-16 富士通株式会社 監視プログラム、監視システム及び監視方法
US9444698B2 (en) 2010-07-09 2016-09-13 Fujitsu Limited Computer-readable recording medium storing process for monitoring computer, its method and apparatus
JP2013178850A (ja) * 2013-06-21 2013-09-09 Nec System Technologies Ltd 監視システム、監視方法、及びプログラム
CN113900896A (zh) * 2021-10-11 2022-01-07 北京博睿宏远数据科技股份有限公司 一种代码运行的监测方法、装置、设备及存储介质
CN113900896B (zh) * 2021-10-11 2024-04-26 北京博睿宏远数据科技股份有限公司 一种代码运行的监测方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
US7130899B1 (en) Robust indication processing
US10547693B2 (en) Security device capability discovery and device selection
JP4421817B2 (ja) 向上されたコラボレーション、スケーラビリティ、およびリライアビリティを提供するために接続され得るネットワーク装置のセットのための方法およびシステム
US8010840B2 (en) Generation of problem tickets for a computer system
JP2004021549A (ja) ネットワーク監視システムおよびプログラム
CN103888277B (zh) 一种网关容灾备份方法、装置和系统
JP2006221376A (ja) プラント緊急時情報表示システムと方法、Webサーバ
CN103581276A (zh) 集群管理装置、系统、业务客户端及相应方法
JP5079917B2 (ja) 通信ネットワーク内の事象を監視するための方法
CN106506490B (zh) 一种分布式计算控制方法以及分布式计算系统
CN107947998A (zh) 一种基于应用系统的实时监测系统
WO2012176337A1 (ja) 情報処理システム、情報処理システムの制御方法、管理装置および系切替プログラム
US8370897B1 (en) Configurable redundant security device failover
CN109257396A (zh) 一种分布式锁调度方法及装置
CA2401635A1 (en) Multiple network fault tolerance via redundant network control
JP2000148539A (ja) 障害検知方法、コンピュータシステム及び構成装置、記録媒体
CN106656584B (zh) 一种分布式系统无效节点判定方法
EP1282953B1 (en) Communications system
JP4673532B2 (ja) マルチマネージャ環境における包括アライメントプロセス
JP2009515474A (ja) 独立したメッセージストアおよびメッセージトランスポートエージェント
JP2003006068A (ja) ネットワークデバイス管理装置、管理方法及び管理プログラム
JPH1145195A (ja) コンピュータシステム、異常検出装置及び記録媒体
Cisco Polling---The Event Generation Process
CN112787868A (zh) 一种信息同步的方法和装置
JP2003015973A (ja) ネットワークデバイス管理装置、管理方法及び管理プログラム