JP5631285B2

JP5631285B2 - 障害監視システムおよび障害監視方法

Info

Publication number: JP5631285B2
Application number: JP2011209636A
Authority: JP
Inventors: 崇堀米; 義人井出; 長谷川　徹; 徹長谷川; 寿浩新穂; 正彦高野; 健太郎柏
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2011-09-26
Filing date: 2011-09-26
Publication date: 2014-11-26
Anticipated expiration: 2031-09-26
Also published as: JP2013073260A

Description

本発明は、障害監視システムおよび障害監視ソフトウェアによる監視方法に係り、特に高周期でのソフトウェアサービスの無応答を含む障害監視が必要な障害監視システムおよび障害監視ソフトウェアによる監視方法に関する。

ネットワークに連接した複数の情報処理装置を利用してソフトウェアサービスを提供するシステムにおいて、ソフトウェアサービスの提供を継続するための情報処理装置とソフトウェアの障害監視装置を提供するにあたって、構成品とのハートビート応答の有無等により情報処理装置、ソフトウェアの構成品を一括して障害監視するＳＡＦ（Service Availability Forum）により公開された方式がある。非特許文献１は、ＳＡＦによるシステム高可用性の維持に必要なソフトウェア障害管理、冗長性管理のためのフレームワークにおけるアプリケーションインターフェイス仕様を規定している。

装置等の無応答を含む障害検出に要する時間は、各装置等で規定されるタイムアウト時間以上が必要となる。数秒〜数分オーダーのタイムアウトによる障害判定が必要な情報処理装置と〜数秒オーダーのタイムアウトによる障害判定で十分なソフトウェアとを一括監視するため、短周期監視時のシステム内の監視負荷増大、長周期監視時のサービス停止時間増大の課題がある。

ＳＡＦにより公開された方式では、この課題に対して、ソフトウェアが主体となって自らが障害状態をシステムに通知する方式と情報処理装置内のオペレーティングシステムが行なっているプロセス管理機能を使用してプロセスの死活監視を行なう方法を公開している。しかし、これらの方式はいずれもデッドロック状態に陥ったソフトウェアの無応答の障害に対処できない。

また、特許文献１は、リソース利用率の不均一度を所定の近傍値に制御する方式であって、ソフトウェアサービスの無応答を検出し、障害監視を行なう装置または監視方式に関しては触れられていない。

また、特許文献２は、利用中のリソースが、サービスに及ぼす影響を定量的に出力する手段であって、ソフトウェアサービスの無応答を検出し、障害監視を行なう装置または監視方式に関しては触れられていない。

特開２００８−２０９９９４号公報特開２００８−２１７２８５号公報

Service Availability Forum Application Interface Specification Software Management Framework SAI-AIS-SMF-A.01.02

ネットワークに連接した複数の情報処理装置を利用してソフトウェアサービスを提供するシステムにおいて、ソフトウェアサービスの提供を継続するための情報処理装置とソフトウェアの無応答を含む障害監視をハートビートにより一括して行なった場合、短周期監視時のシステム内の監視負荷増大、または、長周期監視時のサービス停止時間増大の課題がある。

短周期でのハートビート監視の必要な無応答を含むソフトウェアの障害監視範囲を個々の情報処理装置に限定して障害発生時の障害情報を情報処理装置間で情報共有装置を使用して共有し、かつ、情報共有装置の障害情報を使用して障害監視装置が障害対処する。情報共有装置により、任意の情報処理装置が障害監視装置の障害を検出した場合に自律的に障害監視装置となって、システム障害への継続対処を図る。

本発明によれば、無応答を含むソフトウェアおよび情報処理装置の障害監視が必要なシステム内の監視負荷低減とサービス停止時間短縮を図ることができる。

障害監視システムの構成を説明するブロック図である。障害監視装置の定義ファイルおよびハード障害ならびにソフト障害情報である（その１）。障害監視装置の定義ファイルおよびハード障害ならびにソフト障害情報である（その２）。障害監視装置の監視処理手順を説明するフローチャートである。ソフトウェアサービス、障害監視装置のハードウェア構成品、または情報処理装置のハードウェア構成品のハートビート監視を説明するブロック図である。

以下、本発明の実施の形態について、実施例を用い図面を参照しながら詳細に説明する。なお、実質同一部位には、同じ参照番号を振り、説明は繰り返さない。

図１を参照して、障害監視システムの構成を説明する。図１において、障害監視システム１００は、障害監視装置１と、情報処理装置２と、情報共有装置３と、サービス利用装置４と、ネットワーク５とから構成されている。情報処理装置２は、ネットワーク５にＮ台冗長接続されている。情報共有装置３は、ネットワーク５に２台冗長接続されている。また、図示の簡便のため記載は省いたがネットワーク５自体も冗長化されている。

障害監視装置１は、障害監視部１０と、起動時の定義ファイル２０とを含む。障害監視部１０は、障害監視装置障害監視部１１と、情報処理装置障害監視部１２と、サービス障害監視部１３と、ソフトウェア配信管理部１４とを含む。情報処理装置２は、障害監視部１０と、ソフトウェアサービス１５と、起動時の定義ファイル２０とを含む。情報共有装置３は、装置障害情報２１と、サービス障害情報２２と、情報処理装置種類別障害監視ソフトウェア２３と、ソフトウェア２４とを含む。

障害監視装置１は、ネットワーク５により連接された複数の情報処理装置２において稼働するソフトウェア等によって実現されるサービスの可用性向上を目的とした装置である。障害監視装置１は、情報共有装置３により情報処理装置２のハードウェア障害情報２１、サービス障害情報２２、監視対象である情報処理装置の採用しているＣＰＵ、オペレーティングシステムの種類別の障害監視ソフトウェア２３および各サービス用のソフトウェア２４を格納管理する。

なお、ソフトウェアによって実現されるサービスの提供に必要なハードウェアおよびソフトウェアに含まれる構成品は、冗長構成の有無および要否を各々の構成品の重要度に応じた起動時の定義ファイル２０へ設定する。冗長構成としては、各アクティブ構成品１個に対して、必要なスタンバイ構成品の数Ｎ個を定義し、１：Ｎ冗長構成を実現する。ソフトウェアサービス１５がスタンバイ構成品の機能として、サービス出力有無の制御、サービスの中断、再開のための制御機能、アクティブサービスとスタンバイサービス間の処理同期機能を実装している場合には、スタンバイ構成品が、アクティブ構成品と同一の処理と出力を行なうプライマリ−セカンダリ方式、アクティブ構成品と同一の処理を行なうが出力を行なわないプライマリ−シャドウ方式、アクティブ構成品と同一の処理も出力も行なわず障害発生まで待機するコールドスタンバイ方式等の冗長化方式により、障害監視装置１は、サービスアクティブ構成品およびスタンバイ構成品の起動停止制御を行なう。

ソフトウェアサービス１５がスタンバイ構成品の機能として、サービス出力有無の制御、サービスの中断、再開のための制御機能、アクティブサービスとスタンバイサービス間の処理同期機能等を実装してしない場合、障害監視装置１は、オペレーティングシステムにて管理されるサービスのプロセス有無によるサービスの死活監視、またはハートビート１０２と呼ぶ各構成品への応答確認通信を行なう。異常のとき、障害監視装置１は、サービスを起動時の初期状態で再起動する。

障害監視装置１は、ワークステーションやＣＰＵ搭載ボードである。障害監視装置１において、システム全体のハードウェアおよびソフトウェア等の構成品の障害監視を行なう障害監視部１０が稼働する。また、冗長構成をもつ構成品について、障害監視装置１は、障害発生時に代替系への切り替え処理を行なう。このとき、障害監視装置１は、新たな代替系の設定または起動処理を行なう。また、起動時の定義ファイル２０にて自ノードが障害監視装置１であることを定義する他、システム全体で管理すべきハードウェアおよびソフトウェア全構成品の名称、ハードウェアおよびソフトウェアの種類、冗長構成の有無、冗長化方式等を定義する。

障害監視装置１は、情報共有装置３へ起動時の定義ファイル２０を保管時刻情報とともに保管する。障害監視装置１は、一定周期で装置障害情報２１とサービス障害情報２２の索引情報として差分を管理して更新し、最終確認した時刻と有効期限の情報を保管する。有効期限の情報は、障害監視装置１の障害時に、他の情報処理装置２が自律的に新たな障害監視装置１として稼働するための指標である。定義ファイル２０にて定義されたタイムアウト時間を越えた場合には、障害と判定する。

障害監視部１０について、以下説明する。障害監視装置障害監視部１１は、システムの障害情報を統括して障害対処処理の進捗を管制制御する。情報処理装置障害監視部１２は、ハードウェアの障害監視、障害対処処理を行なう。サービス障害監視部１３は、ソフトウェアサービスの障害監視、障害対処処理等を行なう。ソフトウェア配信管理部１４は、必要に応じ情報処理装置２等に必要なソフトウェアを配信管理する。

情報処理装置２は、ワークステーションまたはＣＰＵ搭載ボードであり、システムとして提供する複数のソフトウェアサービス１５を稼働する。また、情報処理装置２は、障害監視装置１と同等の障害監視部１０が稼働する。なお、情報処理装置２は、システムがサービスを提供するために必要なＣＰＵ等の処理能力を満足でき、かつ、想定される障害に対応できる予備を含んだ十分な台数を準備する。

情報共有装置３は、障害監視装置１と全ての情報処理装置２との間で装置障害情報２１、サービス障害情報２２を共有する。情報共有装置３が保持する情報処理装置種類別障害監視ソフトウェア２３は、障害監視部１０を実現するソフトウェアであり、情報処理装置のハードウェアやオペレーティングシステムの種類に応じている。情報共有装置３が保持するソフトウェアＡ２４は、システムがソフトウェアサービスＡを実現するためのソフトウェアＡを保管する。情報共有装置３は、装置障害情報２１とサービス障害情報２２との図示しない有効期限を保持する。

情報共有装置３は、ＯＭＧ（Object Management Group）において規定されるＤＤＳ（Data Distribution Service）規格に規定されるトピックスの形態、ＩＥＴＦＲＦＣ９５９他で提唱されるＦＴＰ（File Transfer Protocol）サーバー、ＩＥＴＦＲＦＣ３５３０他で提唱されるＮＦＳ（Network File System）サーバー、または、ネットワークを介して共有できるネットワークストレージの形態により実装する。なお、情報共有装置３は、ＤＤＳ規格に規定されるトピックスの形態や、障害監視装置１と全ての情報処理装置２の内部にある記憶装置と各記憶装置間の情報同期を同期する通信手段とを持つ形態のように、各装置共通のソフトウェアとして各装置上に実装し、専用の物理的なデバイスやサーバーソフトウェアを必ずしも必要としない形態をとることができる。

システムが提供するサービスの利用者は、システムとネットワーク５で連接されたサービス利用装置４を介してシステムのサービスを受ける。サービス利用装置４としては、インターネットＨＴＴＰサービス等を利用するためのパソコンおよびウェブブラウザの他、数十ミリ秒程度のリアルタイム応答が必要な工作機械ハードウェア等を制御する制御機器が想定される。また、障害監視装置１または情報処理装置２にアプリケーションソフトウェアを稼働する場合、障害監視装置１は、情報処理装置２により代替することができる。

ネットワーク５は、ＩＥＴＦＲＦＣ８０２．３他で提唱されるイーサーネット（登録商標）を利用したデジタル情報の直接、または音声デジタル変換を行なうモデム装置を介して交換する情報通信機器である。ネットワーク５は、情報処理装置２等を連接して相互に情報の交換を行なう。ネットワーク５は、必要によりその経路および構成機器の冗長構成を定義する。障害監視装置１は、ネットワーク５の障害発生時に経路の切り替えを行なう。ネットワーク５の冗長化は、全てのネットワークノードでＮ重化されたデータを送受信し、ソフトウェアにより重複データの整合および欠損データの確認を行なうプライマリ−セカンダリ方式により実装する。

図２を参照して、起動時の定義ファイルを説明する。図２において、起動時の定義ファイル２０は、Ｎｏ２１と、分類、定義項目２２と、データ２３と、Ａ列２４と、Ｂ列２５と、Ｃ列２６とから構成されている。

Ｎｏ２００は、更新時刻を記録する。Ｎｏ２０１の計算機筐体定義は、計算機筐体名および起動時の稼動要否を定義する。Ｎｏ２０２のネットワークスイッチ定義は、ネットワークスイッチ名および起動時の冗長構成を定義する。Ｎｏ２０３のブレード定義は、情報処理を行なうブレードのＯＳ名、障害監視機能のアクティブ化優先順位、物理的な計算機筐体および筐体の配置を示す挿入スロットＩＤ、ブレードの挿入状態や起動時の電源投入制御要否を定義する。Ｎｏ２０４のサービスの型定義は、システムが提供する各々のサービスの名称、冗長化方法、冗長化数、起動コマンド、起動パラメータ、停止コマンド、初期化コマンドを定義する。Ｎｏ２０５のサービス配置情報は、各サービスを構成するアクティブ状態のユニットやスタンバイ状態のユニット等の各ユニットのユニット名、サービス名、サービス型名、アクティブ化優先順位、初期配置ブレード、初期起動の要否、冗長化処理が各種サービスで一斉に必要になった時の冗長化処理稼動優先順位、リトライ回数および間隔、縮退運転時に他のサービスと比較して稼動・停止を判断する優先順位等を定義する。Ｎｏ２０６の自動異常処理オンオフ定義は、自動での故障機器分離や代替機器の起動、システムの継続稼動を断念し、システム停止を実施するブレード残数、ネットワークの分断等によりシステムが複数のサブセットに分断した時に二重でのシステム稼動を抑止すべきか否かを定義する。
Ａ列２４は、起動時の定義ファイルでの定義要否を示す。Ｂ列２５は、ハード障害情報での要否を示す。Ｃ列２６は、サービス障害情報での要否を示す。

図３を参照して、障害監視装置と情報処理装置の処理フローを説明する。図３において、ノード（障害監視装置１または情報処理装置２）は、起動時の定義ファイル２０にて定義された、初期起動時に設定を取得する（Ｓ５１）。起動時の定義ファイル２０のサービス配置情報（Ｎｏ２０５）にて定義した、サービス配置情報のうち、アクティブ化優先順位の最も高いサービスユニットの配置を定義したノードが障害監視装置１として作動する。また、ノードは、既にシステムが稼動していないことを情報共有装置３の有無により確認する。既にシステムが稼動していた場合、ノードは、装置障害情報２１およびサービス障害情報２２を取得する。ノードは、障害監視装置１として作動すべきかを判定する（Ｓ５２）。ＹＥＳのとき、ノードは、障害監視装置１として作動する。ステップ５２でＮＯのとき、ノードは、情報処理装置２として作動する。

障害監視装置１として稼動する場合、障害監視装置１は、障害監視部１０の障害監視装置監視部１１、情報処理装置監視部１２、サービス障害監視部１３を起動する（Ｓ５３）。障害監視装置１は、システム内の機器の初期起動を監視制御して必要な機器を起動する（Ｓ５４）。

情報処理装置２として稼動する場合、情報処理装置２は、障害監視部１０の情報処理装置監視部１２、サービス障害監視部１３を起動する（Ｓ５９）。なお、障害監視装置監視部１１について、情報処理装置２は、必要により起動時の定義ファイル２０において定義された冗長化構成で起動する。また、情報処理装置２は、障害監視装置１とシステム起動制御通信する（Ｓ５５）。情報処理装置２は、必要な機器のシステム初期起動処理を行なう（Ｓ６０）。

初期起動の完了後、障害監視装置１および情報処理装置２は、情報処理装置監視部１２の制御による全ハードウェア機器間相互でのハートビートによる低周期監視と監視結果の収集を行なう（Ｓ１０１）。

収集された監視結果について、障害監視装置１は、全てのノードから障害監視装置障害監視部１１に集め、システム障害情報を総合的に解析して、必要によっては上位クラスタレベルでの故障を識別する。障害監視装置１は、解析結果は全てのノードの情報処理装置障害監視部１１へ配信する。障害監視装置１は、障害対処処理が必要と判断した場合、情報処理装置障害監視部１１において障害対処制御を行なう（Ｓ５６）。一方、情報処理装置２の情報処理装置障害監視部１１Ｂにおいて各ノードで必要な起動処理や停止、初期化処理等の障害対処処理を行なう（Ｓ６１）。この時、障害監視装置１と情報処理装置２との間では、装置障害対処制御通信を行なう（Ｓ６３）。装置障害対処制御通信は、情報共有装置３を活用して、システム内の障害情報を整合する処理である。なお、装置障害対処制御通信は、ハートビート監視１０１の通信データ内に情報を統合して実装することも可能である。

一方、ソフトウェアにより実装されたサービスの監視は、各障害監視装置１および情報処理装置２の内部においてサービス障害監視部１３が高周期で実施する。障害発生時には、当該サービスに関係する障害監視装置１または情報処理装置２に、サービス障害対処制御通信する（Ｓ６４）。サービス障害対処制御通信は、情報共有装置３を活用してシステム内の障害情報を整合する。また、障害対処が必要な場合には、装置障害時と同様に、障害監視装置１の情報処理装置障害監視部１１において障害対処制御を行なう（Ｓ５７）。一方、情報処理装置２の情報処理装置障害監視部１１において、各ノードで必要な起動処理や停止、初期化処理等の障害対処処理を行なう（Ｓ６２）。

ここでは、障害監視装置１の障害監視部１１のサービスに障害が発生したとする。サービス障害監視部１３は、サービス障害対処制御通信を介し、情報共有装置３から障害監視部１１のサービスに関する情報を取得する。サービス障害監視部１３は、冗長待機しているサービスユニットの配置された情報処理装置２の情報を取得する。サービス障害監視部１３は、当該情報処理装置２のサービス障害監視部１３および情報共有装置３へ通知する（Ｓ６６）。

通知を受けた情報処理装置２のサービス障害監視部１３は、情報共有装置３に登録されたサービス障害情報と受信した通知の内容を確認し、情報処理装置２の障害監視部１１を稼動する。また、通知を受けない場合であっても、周期的に情報共有装置３に登録されたサービス障害情報を確認し、システム内に有効な障害監視部１１が応答しない場合にも、障害監視部サービスのアクティブ化優先順位に基づいて自律的に障害監視部１１を稼動し、障害監視装置１として作動する（Ｓ６７）。

ステップ６７を詳細に説明する。情報処理装置２は、情報共有装置３の障害発生サービスアクティブ化順位の最も高いノードを確認する（Ｓ６８）。該当したノードのサービス障害監視部１３は、新たな障害監視装置障害監視部１１を稼働させる（Ｓ６９）。該当ノードは、他のノードと情報共有装置３により、情報共有する（Ｓ７０）。

ステップ６２のあと、情報処理装置２は、システム終了か判定する（Ｓ７１）。ＹＥＳのとき、終了する。ステップ７１でＮＯのとき、情報処理装置２は、ステップ１０１に遷移する。

ステップ５７のあと、障害監視装置１は、システム終了か判定する（Ｓ７２）。ＹＥＳのとき、終了する。ステップ７２でＮＯのとき、障害監視装置１は、ステップ１０１に遷移する。

ステップ６６のあと、ノードは、障害が復旧したか判定する（Ｓ７３）。ＹＥＳのとき、ステップ５１に遷移する。ステップ７３でＮＯのとき、ノードは、システム終了か判定する（Ｓ７４）。ＹＥＳのとき、終了する。ステップ７４でＮＯのとき、ノードは、ステップ７３に遷移する。

図４を参照して、情報共有装置をプライマリ−シャドウ冗長方式にて１：１冗長構成とした場合での障害監視装置の監視方式概要を説明する。図４において、情報共有装置３−１は、プライマリ−シャドウ冗長方式のアクティブ装置である。一方、情報共有装置３−２は、プライマリ−シャドウ冗長方式のスタンバイ装置である。

全ての情報処理装置２で稼働するサービス障害監視部１３は、情報共有装置３に装置障害情報２１とサービス障害情報２２とともに保管された情報の有効期限と自ノード内の時刻とを比較し、有効期限内であった場合、サービス障害情報２２に定義されたソフトウェアサービス１５の障害を高周期のハートビート応答１０２の有無により判定する。

障害監視装置１および全ての情報処理装置２の情報処理装置障害監視部１２は、障害監視装置１または情報処理装置２のハードウェアを低周期のハートビート応答１０１の有無で監視する。この監視について、ＩＥＴＦＲＦＣ１１５７他で提唱されるＳＮＭＰ（Simple Network Management Protocol）を使用できるハードウェア構成品については、ＳＮＭＰで代替することができる。

ソフトウェアにより実装された構成品は、オペレーティングシステムにて管理されるサービスのプロセス有無によるサービスの死活監視、または高周期でのハートビート１０２による監視、または、ソフトウェアからの定期的な死活報告により実現する。

ソフトウェアサービス１５の障害を検知した場合には、情報共有装置３を介して、または、直接、障害監視装置１のサービス障害監視部１３へソフト監視情報イベント通信１０３を使用して通知する。ソフト監視情報イベント通信１０３は、ＴＣＰパケットを使用した伝送路の通信環境負荷が高い場合に遅延が想定されるが確実な送受信が期待できる方式、ＵＤＰパケットを使用した伝送路の通信環境負荷が高い場合に消失が想定されるが遅滞なく送受信が期待できる方式、ＵＤＰパケットを使用してパケット消失時の簡易的な再送手順を組み込んだ方式のいずれかを、システムに要求されるサービス品質と応答性に応じて選択する。

情報処理装置２のサービス障害監視部１３は、情報共有装置３に装置障害情報２１とサービス障害情報２２とともに保管された情報の有効期限と自ノード内の時刻とを比較する。有効期限を越えていた場合、情報処理装置２のサービス障害監視部１３は、装置障害情報２１に含まれる障害監視装置１の障害の有無を確認する。装置障害情報２１に障害監視装置１の障害が登録されていた場合は、自ノードの障害監視装置障害監視部１１を起動し、自律的に新たな障害監視理装置１として動作する。

障害監視装置１で稼働するサービス障害監視部１３は、障害監視装置１で稼働するソフトウェアサービス１５がある場合、情報処理装置２で稼働するサービス障害監視部１３と同様に、自ノード障害監視装置１で稼働するソフトウェアサービス１５の障害を監視する。また、全ての情報処理装置２で稼働するサービス障害監視部１３から、情報共有装置３を介して、または、直接、システム内の全てのサービスの障害情報を収集し、障害監視装置障害監視部１１へソフト監視情報１０２イベント通信を使用して通知する。

障害監視装置１と全ての情報処理装置２で稼働する情報処理装置障害監視部１２は、情報共有装置３の装置障害情報２１をサービス障害監視部１３、を経由して入手し、各々のノード内に存在するハードウェアの障害をハートビート１０１監視により相互に監視する。

また、障害監視装置１と全ての情報処理装置２との間でハートビート監視１０１を行ない、相互に装置障害の有無を監視する。検出したハードウェアと装置の障害情報について、障害監視装置１または情報処理装置２において稼働するサービス障害監視部１３は、情報共有装置３へソフト監視情報イベント通信１０３を使用して通知する。

障害監視装置１の情報処理装置障害監視部１２は、必要により障害を検知したハードウェアまたは装置の代替系への切り替え等の障害対処処理を行なう。障害監視装置１の情報処理装置障害監視部１２は、かつ、各ソフトウェアサービスで使用するハードウェアと稼働する情報処理装置２の情報と対比して、検出した障害と連動して障害が想定されるソフトウェアサービス１５の代替系への切り替え等の障害対処処理を行なう。

具体的には、インターネット等の通信処理のタイムアウトが伝送路および通信相手の応答処理時間による遅延時間を考慮した数秒〜数分単位とで設定されている場合、当該通信ハードウェアの障害を検知するために、少なくともインターネット等の通信処理のタイムアウトである数秒〜数分単位より短くできないのに対し、ソフトウェアサービス１５は、サービスの内容によって数ミリ秒の応答を要求されるものから、バッチ処理のように数日後の応答でよいものまで、様々な長さのタイムアウトに対応する必要がある。

数ミリ秒と短時間での応答を要求されるソフトウェアサービス１５のためのハートビート監視のための通信をシステム全体に流布して、システム構成品全体で相互にサービス無応答の監視するＳＡＦＡＭＦ（Application Management Framework）に規定される無応答障害の検出方式の場合、ネットワーク５を経由してソフトウェアサービス１５のためのハートビート監視を行なうため、ネットワーク５での伝送遅延時間より短くすることはできない。例えば前述のＴＣＰパケットを使用した場合には、ソフトウェアサービス１５のタイムアウト時間とハートビート１０１伝送遅延時間と更にＴＣＰパケット喪失時の再送処理時間とを加味した時間以上を、ソフトウェアサービス１５のハートビート周期として設定する必要がある。

これに対して、本実施例は、ソフトウェアサービス１５の無応答を検出するためのハートビート監視１０２の対象を障害監視装置１または情報処理装置２の各々の装置内に限定することにより、ネットワーク５を介することによる監視遅延を回避してネットワーク伝送、再送による遅延時間よりも短い周期でのソフトウェアサービス１５の無応答の監視を実現する。さらに本実施例では、情報処理装置３を使用して障害監視システム１００内で監視情報を共有して障害監視装置１の障害時でも自律的に新たな障害監視装置１として情報処理装置２が作動ことにより、ソフト監視情報イベント通信１０３を使用することに伴う通信障害時の可用性低下を防止する。

図４に示す情報処理装置２のサービス障害監視部１３とハートビート監視１０２により監視するソフトウェアサービス１５と並列に論理的に多段に階層化した各階層において複数の情報処理装置２をハートビート監視１０１により連接し、物理的な、または論理的なネットワークセグメントをネットワーク５と異なるネットワークセグメントに分割することにより、装置間相互のハートビート監視による監視負荷を低減する。

１…障害監視装置、２…情報処理装置、３…情報共有装置、４…サービス利用装置、５…ネットワーク、１０…障害監視部、１１…障害監視装置障害監視部、１２…情報処理装置障害監視部、１３…サービス障害監視部、１４…ソフトウェア配信管理部、１５…ソフトウェアサービス、２１…装置障害情報、２２…サービス障害情報、２３…情報処理装置種類別障害監視ソフトウェア、２４…ソフトウェア、１００…障害監視システム。

Claims

ネットワークに接続されたソフトウェアサービスを提供する３台以上の情報処理装置と障害情報を保持する情報共有装置とを含み、前記情報処理装置の障害を監視する障害監視システムにおいて、
前記情報処理装置の１台は、前記情報処理装置において稼働するソフトウェアによって実現するサービスの可用性を向上させる障害監視装置として起動し、
他の情報処理装置は、
ソフトウェアサービスのデッドロック状態を検出するハートビート監視の対象を装置内に限定することにより、前記ネットワークを介することによる監視遅延を回避して、ネットワーク伝送、再送による遅延時間よりも短い周期での前記ソフトウェアサービスの監視を実行し、
前記情報共有装置を使用して前記障害監視システム内で監視情報を共有して、前記障害監視装置が障害のとき、新たな障害監視装置として前記他の情報処理装置の１台が作動すること、を特徴とする障害監視システム。
請求項１に記載の障害監視システムであって、
前記ハートビート監視により監視する前記ソフトウェアサービスと並列に論理的に多段に階層化した各階層において複数の前記情報処理装置を第２のハートビート監視により連接し、物理的な、または論理的なネットワークセグメントを前記ネットワークと異なるネットワークセグメントに分割することにより、前記第２のハートビート監視による監視負荷を低減することを特徴とする障害監視システム。
ネットワークに接続されたソフトウェアサービスを提供する３台以上の情報処理装置と障害情報を保持する情報共有装置とを含み、前記情報処理装置の障害を監視する障害監視システムにおける障害監視方法において、
前記情報処理装置の１台において、前記情報処理装置において稼働するソフトウェアによって実現するサービスの可用性を向上させる障害監視装置として起動するステップと、
他の情報処理装置において、
ソフトウェアサービスのデッドロック状態を検出するハートビート監視の対象を装置内に限定することにより、前記ネットワークを介することによる監視遅延を回避して、ネットワーク伝送、再送による遅延時間よりも短い周期での前記ソフトウェアサービスの監視を実行するステップと、
前記情報共有装置を使用して前記障害監視システム内で監視情報を共有して、前記障害監視装置が障害のとき、新たな障害監視装置として前記他の情報処理装置の１台が作動するステップと、を含むこと特徴とする障害監視方法。
請求項３に記載の障害監視方法であって、
前記ハートビート監視により監視する前記ソフトウェアサービスと並列に論理的に多段に階層化した各階層において複数の前記情報処理装置を第２のハートビート監視により連接し、物理的な、または論理的なネットワークセグメントを前記ネットワークと異なるネットワークセグメントに分割することにより、前記第２のハートビート監視による監視負荷を低減することを特徴とする障害監視方法。