JP5631285B2 - 障害監視システムおよび障害監視方法 - Google Patents

障害監視システムおよび障害監視方法 Download PDF

Info

Publication number
JP5631285B2
JP5631285B2 JP2011209636A JP2011209636A JP5631285B2 JP 5631285 B2 JP5631285 B2 JP 5631285B2 JP 2011209636 A JP2011209636 A JP 2011209636A JP 2011209636 A JP2011209636 A JP 2011209636A JP 5631285 B2 JP5631285 B2 JP 5631285B2
Authority
JP
Japan
Prior art keywords
monitoring
failure
information processing
information
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011209636A
Other languages
English (en)
Other versions
JP2013073260A (ja
Inventor
崇 堀米
崇 堀米
義人 井出
義人 井出
長谷川 徹
徹 長谷川
寿浩 新穂
寿浩 新穂
正彦 高野
正彦 高野
健太郎 柏
健太郎 柏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2011209636A priority Critical patent/JP5631285B2/ja
Publication of JP2013073260A publication Critical patent/JP2013073260A/ja
Application granted granted Critical
Publication of JP5631285B2 publication Critical patent/JP5631285B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)

Description

本発明は、障害監視システムおよび障害監視ソフトウェアによる監視方法に係り、特に高周期でのソフトウェアサービスの無応答を含む障害監視が必要な障害監視システムおよび障害監視ソフトウェアによる監視方法に関する。
ネットワークに連接した複数の情報処理装置を利用してソフトウェアサービスを提供するシステムにおいて、ソフトウェアサービスの提供を継続するための情報処理装置とソフトウェアの障害監視装置を提供するにあたって、構成品とのハートビート応答の有無等により情報処理装置、ソフトウェアの構成品を一括して障害監視するSAF(Service Availability Forum)により公開された方式がある。非特許文献1は、SAFによるシステム高可用性の維持に必要なソフトウェア障害管理、冗長性管理のためのフレームワークにおけるアプリケーションインターフェイス仕様を規定している。
装置等の無応答を含む障害検出に要する時間は、各装置等で規定されるタイムアウト時間以上が必要となる。数秒〜数分オーダーのタイムアウトによる障害判定が必要な情報処理装置と〜数秒オーダーのタイムアウトによる障害判定で十分なソフトウェアとを一括監視するため、短周期監視時のシステム内の監視負荷増大、長周期監視時のサービス停止時間増大の課題がある。
SAFにより公開された方式では、この課題に対して、ソフトウェアが主体となって自らが障害状態をシステムに通知する方式と情報処理装置内のオペレーティングシステムが行なっているプロセス管理機能を使用してプロセスの死活監視を行なう方法を公開している。しかし、これらの方式はいずれもデッドロック状態に陥ったソフトウェアの無応答の障害に対処できない。
また、特許文献1は、リソース利用率の不均一度を所定の近傍値に制御する方式であって、ソフトウェアサービスの無応答を検出し、障害監視を行なう装置または監視方式に関しては触れられていない。
また、特許文献2は、利用中のリソースが、サービスに及ぼす影響を定量的に出力する手段であって、ソフトウェアサービスの無応答を検出し、障害監視を行なう装置または監視方式に関しては触れられていない。
特開2008−209994号公報 特開2008−217285号公報
Service Availability Forum Application Interface Specification Software Management Framework SAI-AIS-SMF-A.01.02
ネットワークに連接した複数の情報処理装置を利用してソフトウェアサービスを提供するシステムにおいて、ソフトウェアサービスの提供を継続するための情報処理装置とソフトウェアの無応答を含む障害監視をハートビートにより一括して行なった場合、短周期監視時のシステム内の監視負荷増大、または、長周期監視時のサービス停止時間増大の課題がある。
短周期でのハートビート監視の必要な無応答を含むソフトウェアの障害監視範囲を個々の情報処理装置に限定して障害発生時の障害情報を情報処理装置間で情報共有装置を使用して共有し、かつ、情報共有装置の障害情報を使用して障害監視装置が障害対処する。情報共有装置により、任意の情報処理装置が障害監視装置の障害を検出した場合に自律的に障害監視装置となって、システム障害への継続対処を図る。
本発明によれば、無応答を含むソフトウェアおよび情報処理装置の障害監視が必要なシステム内の監視負荷低減とサービス停止時間短縮を図ることができる。
障害監視システムの構成を説明するブロック図である。 障害監視装置の定義ファイルおよびハード障害ならびにソフト障害情報である(その1)。 障害監視装置の定義ファイルおよびハード障害ならびにソフト障害情報である(その2)。 障害監視装置の監視処理手順を説明するフローチャートである。 ソフトウェアサービス、障害監視装置のハードウェア構成品、または情報処理装置のハードウェア構成品のハートビート監視を説明するブロック図である。
以下、本発明の実施の形態について、実施例を用い図面を参照しながら詳細に説明する。なお、実質同一部位には、同じ参照番号を振り、説明は繰り返さない。
図1を参照して、障害監視システムの構成を説明する。図1において、障害監視システム100は、障害監視装置1と、情報処理装置2と、情報共有装置3と、サービス利用装置4と、ネットワーク5とから構成されている。情報処理装置2は、ネットワーク5にN台冗長接続されている。情報共有装置3は、ネットワーク5に2台冗長接続されている。また、図示の簡便のため記載は省いたがネットワーク5自体も冗長化されている。
障害監視装置1は、障害監視部10と、起動時の定義ファイル20とを含む。障害監視部10は、障害監視装置障害監視部11と、情報処理装置障害監視部12と、サービス障害監視部13と、ソフトウェア配信管理14とを含む。情報処理装置2は、障害監視部10と、ソフトウェアサービス15と、起動時の定義ファイル20とを含む。情報共有装置3は、装置障害情報21と、サービス障害情報22と、情報処理装置種類別障害監視ソフトウェア23と、ソフトウェア24とを含む。
障害監視装置1は、ネットワーク5により連接された複数の情報処理装置2において稼働するソフトウェア等によって実現されるサービスの可用性向上を目的とした装置である。障害監視装置1は、情報共有装置3により情報処理装置2のハードウェア障害情報21、サービス障害情報22、監視対象である情報処理装置の採用しているCPU、オペレーティングシステムの種類別の障害監視ソフトウェア23および各サービス用のソフトウェア24を格納管理する。
なお、ソフトウェアによって実現されるサービスの提供に必要なハードウェアおよびソフトウェアに含まれる構成品は、冗長構成の有無および要否を各々の構成品の重要度に応じた起動時の定義ファイル20へ設定する。冗長構成としては、各アクティブ構成品1個に対して、必要なスタンバイ構成品の数N個を定義し、1:N冗長構成を実現する。ソフトウェアサービス15がスタンバイ構成品の機能として、サービス出力有無の制御、サービスの中断、再開のための制御機能、アクティブサービスとスタンバイサービス間の処理同期機能を実装している場合には、スタンバイ構成品が、アクティブ構成品と同一の処理と出力を行なうプライマリ−セカンダリ方式、アクティブ構成品と同一の処理を行なうが出力を行なわないプライマリ−シャドウ方式、アクティブ構成品と同一の処理も出力も行なわず障害発生まで待機するコールドスタンバイ方式等の冗長化方式により、障害監視装置1は、サービスアクティブ構成品およびスタンバイ構成品の起動停止制御を行なう。
ソフトウェアサービス15がスタンバイ構成品の機能として、サービス出力有無の制御、サービスの中断、再開のための制御機能、アクティブサービスとスタンバイサービス間の処理同期機能等を実装してしない場合、障害監視装置1は、オペレーティングシステムにて管理されるサービスのプロセス有無によるサービスの死活監視、またはハートビート102と呼ぶ各構成品への応答確認通信を行なう。異常のとき、障害監視装置1は、サービスを起動時の初期状態で再起動する。
障害監視装置1は、ワークステーションやCPU搭載ボードである。障害監視装置1において、システム全体のハードウェアおよびソフトウェア等の構成品の障害監視を行なう障害監視部10が稼働する。また、冗長構成をもつ構成品について、障害監視装置1は、障害発生時に代替系への切り替え処理を行なう。このとき、障害監視装置1は、新たな代替系の設定または起動処理を行なう。また、起動時の定義ファイル20にて自ノードが障害監視装置1であることを定義する他、システム全体で管理すべきハードウェアおよびソフトウェア全構成品の名称、ハードウェアおよびソフトウェアの種類、冗長構成の有無、冗長化方式等を定義する。
障害監視装置1は、情報共有装置3へ起動時の定義ファイル20を保管時刻情報とともに保管する。障害監視装置1は、一定周期で装置障害情報21とサービス障害情報22の索引情報として差分を管理して更新し、最終確認した時刻と有効期限の情報を保管する。有効期限の情報は、障害監視装置1の障害時に、他の情報処理装置2が自律的に新たな障害監視装置1として稼働するための指標である。定義ファイル20にて定義されたタイムアウト時間を越えた場合には、障害と判定する。
障害監視部10について、以下説明する。障害監視装置障害監視部11は、システムの障害情報を統括して障害対処処理の進捗を管制制御する。情報処理装置障害監視部12は、ハードウェアの障害監視、障害対処処理を行なう。サービス障害監視部13は、ソフトウェアサービスの障害監視、障害対処処理等を行なう。ソフトウェア配信管理部14は、必要に応じ情報処理装置2等に必要なソフトウェアを配信管理する。
情報処理装置2は、ワークステーションまたはCPU搭載ボードであり、システムとして提供する複数のソフトウェアサービス15を稼働する。また、情報処理装置2は、障害監視装置1と同等の障害監視部10が稼働する。なお、情報処理装置2は、システムがサービスを提供するために必要なCPU等の処理能力を満足でき、かつ、想定される障害に対応できる予備を含んだ十分な台数を準備する。
情報共有装置3は、障害監視装置1と全ての情報処理装置2との間で装置障害情報21、サービス障害情報22を共有する。情報共有装置3が保持する情報処理装置種類別障害監視ソフトウェア23は、障害監視部10を実現するソフトウェアであり、情報処理装置のハードウェアやオペレーティングシステムの種類に応じている。情報共有装置3が保持するソフトウェアA24は、システムがソフトウェアサービスAを実現するためのソフトウェアAを保管する。情報共有装置3は、装置障害情報21とサービス障害情報22との図示しない有効期限を保持する。
情報共有装置3は、OMG(Object Management Group)において規定されるDDS(Data Distribution Service)規格に規定されるトピックスの形態、IETF RFC959他で提唱されるFTP(File Transfer Protocol)サーバー、IETF RFC3530他で提唱されるNFS(Network File System)サーバー、または、ネットワークを介して共有できるネットワークストレージの形態により実装する。なお、情報共有装置3は、DDS規格に規定されるトピックスの形態や、障害監視装置1と全ての情報処理装置2の内部にある記憶装置と各記憶装置間の情報同期を同期する通信手段とを持つ形態のように、各装置共通のソフトウェアとして各装置上に実装し、専用の物理的なデバイスやサーバーソフトウェアを必ずしも必要としない形態をとることができる。
システムが提供するサービスの利用者は、システムとネットワーク5で連接されたサービス利用装置4を介してシステムのサービスを受ける。サービス利用装置4としては、インターネットHTTPサービス等を利用するためのパソコンおよびウェブブラウザの他、数十ミリ秒程度のリアルタイム応答が必要な工作機械ハードウェア等を制御する制御機器が想定される。また、障害監視装置1または情報処理装置2にアプリケーションソフトウェアを稼働する場合、障害監視装置1は、情報処理装置2により代替することができる。
ネットワーク5は、IETF RFC802.3他で提唱されるイーサーネット(登録商標)を利用したデジタル情報の直接、または音声デジタル変換を行なうモデム装置を介して交換する情報通信機器である。ネットワーク5は、情報処理装置2等を連接して相互に情報の交換を行なう。ネットワーク5は、必要によりその経路および構成機器の冗長構成を定義する。障害監視装置1は、ネットワーク5の障害発生時に経路の切り替えを行なう。ネットワーク5の冗長化は、全てのネットワークノードでN重化されたデータを送受信し、ソフトウェアにより重複データの整合および欠損データの確認を行なうプライマリ−セカンダリ方式により実装する。
図2を参照して、起動時の定義ファイルを説明する。図2において、起動時の定義ファイル20は、No21と、分類、定義項目22と、データ23と、A列24と、B列25と、C列26とから構成されている。
No200は、更新時刻を記録する。No201の計算機筐体定義は、計算機筐体名および起動時の稼動要否を定義する。No202のネットワークスイッチ定義は、ネットワークスイッチ名および起動時の冗長構成を定義する。No203のブレード定義は、情報処理を行なうブレードのOS名、障害監視機能のアクティブ化優先順位、物理的な計算機筐体および筐体の配置を示す挿入スロットID、ブレードの挿入状態や起動時の電源投入制御要否を定義する。No204のサービスの型定義は、システムが提供する各々のサービスの名称、冗長化方法、冗長化数、起動コマンド、起動パラメータ、停止コマンド、初期化コマンドを定義する。No205のサービス配置情報は、各サービスを構成するアクティブ状態のユニットやスタンバイ状態のユニット等の各ユニットのユニット名、サービス名、サービス型名、アクティブ化優先順位、初期配置ブレード、初期起動の要否、冗長化処理が各種サービスで一斉に必要になった時の冗長化処理稼動優先順位、リトライ回数および間隔、縮退運転時に他のサービスと比較して稼動・停止を判断する優先順位等を定義する。No206の自動異常処理オンオフ定義は、自動での故障機器分離や代替機器の起動、システムの継続稼動を断念し、システム停止を実施するブレード残数、ネットワークの分断等によりシステムが複数のサブセットに分断した時に二重でのシステム稼動を抑止すべきか否かを定義する。
A列24は、起動時の定義ファイルでの定義要否を示す。B列25は、ハード障害情報での要否を示す。C列26は、サービス障害情報での要否を示す。
図3を参照して、障害監視装置と情報処理装置の処理フローを説明する。図3において、ノード(障害監視装置1または情報処理装置2)は、起動時の定義ファイル20にて定義された、初期起動時に設定を取得する(S51)。起動時の定義ファイル20のサービス配置情報(No205)にて定義した、サービス配置情報のうち、アクティブ化優先順位の最も高いサービスユニットの配置を定義したノードが障害監視装置1として作動する。また、ノードは、既にシステムが稼動していないことを情報共有装置3の有無により確認する。既にシステムが稼動していた場合、ノードは、装置障害情報21およびサービス障害情報22を取得する。ノードは、障害監視装置1として作動すべきかを判定する(S52)。YESのとき、ノードは、障害監視装置1として作動する。ステップ52でNOのとき、ノードは、情報処理装置2として作動する。
障害監視装置1として稼動する場合、障害監視装置1は、障害監視部10の障害監視装置監視部11、情報処理装置監視部12、サービス障害監視部13を起動する(S53)。障害監視装置1は、システム内の機器の初期起動を監視制御して必要な機器を起動する(S54)。
情報処理装置2として稼動する場合、情報処理装置2は、障害監視部10の情報処理装置監視部12、サービス障害監視部13を起動する(S59)。なお、障害監視装置監視部11について、情報処理装置2は、必要により起動時の定義ファイル20において定義された冗長化構成で起動する。また、情報処理装置2は、障害監視装置1とシステム起動制御通信する(S55)。情報処理装置2は、必要な機器のシステム初期起動処理を行なう(S60)。
初期起動の完了後、障害監視装置1および情報処理装置2は、情報処理装置監視部12の制御による全ハードウェア機器間相互でのハートビートによる低周期監視と監視結果の収集を行なう(S101)。
収集された監視結果について、障害監視装置1は、全てのノードから障害監視装置障害監視部11に集め、システム障害情報を総合的に解析して、必要によっては上位クラスタレベルでの故障を識別する。障害監視装置1は、解析結果は全てのノードの情報処理装置障害監視部11へ配信する。障害監視装置1は、障害対処処理が必要と判断した場合、情報処理装置障害監視部11において障害対処制御を行なう(S56)。一方、情報処理装置2の情報処理装置障害監視部11Bにおいて各ノードで必要な起動処理や停止、初期化処理等の障害対処処理を行なう(S61)。この時、障害監視装置1と情報処理装置2との間では、装置障害対処制御通信を行なう(S63)。装置障害対処制御通信は、情報共有装置3を活用して、システム内の障害情報を整合する処理である。なお、装置障害対処制御通信は、ハートビート監視101の通信データ内に情報を統合して実装することも可能である。
一方、ソフトウェアにより実装されたサービスの監視は、各障害監視装置1および情報処理装置2の内部においてサービス障害監視部13が高周期で実施する。障害発生時には、当該サービスに関係する障害監視装置1または情報処理装置2に、サービス障害対処制御通信する(S64)。サービス障害対処制御通信は、情報共有装置3を活用してシステム内の障害情報を整合する。また、障害対処が必要な場合には、装置障害時と同様に、障害監視装置1の情報処理装置障害監視部11において障害対処制御を行なう(S57)。一方、情報処理装置2の情報処理装置障害監視部11において、各ノードで必要な起動処理や停止、初期化処理等の障害対処処理を行なう(S62)。
ここでは、障害監視装置1の障害監視部11のサービスに障害が発生したとする。サービス障害監視部13は、サービス障害対処制御通信を介し、情報共有装置3から障害監視部11のサービスに関する情報を取得する。サービス障害監視部13は、冗長待機しているサービスユニットの配置された情報処理装置2の情報を取得する。サービス障害監視部13は、当該情報処理装置2のサービス障害監視部13および情報共有装置3へ通知する(S66)。
通知を受けた情報処理装置2のサービス障害監視部13は、情報共有装置3に登録されたサービス障害情報と受信した通知の内容を確認し、情報処理装置2の障害監視部11を稼動する。また、通知を受けない場合であっても、周期的に情報共有装置3に登録されたサービス障害情報を確認し、システム内に有効な障害監視部11が応答しない場合にも、障害監視部サービスのアクティブ化優先順位に基づいて自律的に障害監視部11を稼動し、障害監視装置1として作動する(S67)。
ステップ67を詳細に説明する。情報処理装置2は、情報共有装置3の障害発生サービスアクティブ化順位の最も高いノードを確認する(S68)。該当したノードのサービス障害監視部13は、新たな障害監視装置障害監視部11を稼働させる(S69)。該当ノードは、他のノードと情報共有装置3により、情報共有する(S70)。
ステップ62のあと、情報処理装置2は、システム終了か判定する(S71)。YESのとき、終了する。ステップ71でNOのとき、情報処理装置2は、ステップ101に遷移する。
ステップ57のあと、障害監視装置1は、システム終了か判定する(S72)。YESのとき、終了する。ステップ72でNOのとき、障害監視装置1は、ステップ101に遷移する。
ステップ66のあと、ノードは、障害が復旧したか判定する(S73)。YESのとき、ステップ51に遷移する。ステップ73でNOのとき、ノードは、システム終了か判定する(S74)。YESのとき、終了する。ステップ74でNOのとき、ノードは、ステップ73に遷移する。
図4を参照して、情報共有装置をプライマリ−シャドウ冗長方式にて1:1冗長構成とした場合での障害監視装置の監視方式概要を説明する。図4において、情報共有装置3−1は、プライマリ−シャドウ冗長方式のアクティブ装置である。一方、情報共有装置3−2は、プライマリ−シャドウ冗長方式のスタンバイ装置である。
全ての情報処理装置2で稼働するサービス障害監視部13は、情報共有装置3に装置障害情報21とサービス障害情報22とともに保管された情報の有効期限と自ノード内の時刻とを比較し、有効期限内であった場合、サービス障害情報22に定義されたソフトウェアサービス15の障害を高周期のハートビート応答102の有無により判定する。
障害監視装置1および全ての情報処理装置2の情報処理装置障害監視部12は、障害監視装置1または情報処理装置2のハードウェアを低周期のハートビート応答101の有無で監視する。この監視について、IETF RFC1157他で提唱されるSNMP(Simple Network Management Protocol)を使用できるハードウェア構成品については、SNMPで代替することができる。
ソフトウェアにより実装された構成品は、オペレーティングシステムにて管理されるサービスのプロセス有無によるサービスの死活監視、または高周期でのハートビート102による監視、または、ソフトウェアからの定期的な死活報告により実現する。
ソフトウェアサービス15の障害を検知した場合には、情報共有装置3を介して、または、直接、障害監視装置1のサービス障害監視部13へソフト監視情報イベント通信103を使用して通知する。ソフト監視情報イベント通信103は、TCPパケットを使用した伝送路の通信環境負荷が高い場合に遅延が想定されるが確実な送受信が期待できる方式、UDPパケットを使用した伝送路の通信環境負荷が高い場合に消失が想定されるが遅滞なく送受信が期待できる方式、UDPパケットを使用してパケット消失時の簡易的な再送手順を組み込んだ方式のいずれかを、システムに要求されるサービス品質と応答性に応じて選択する。
情報処理装置2のサービス障害監視部13は、情報共有装置3に装置障害情報21とサービス障害情報22とともに保管された情報の有効期限と自ノード内の時刻とを比較する。有効期限を越えていた場合、情報処理装置2のサービス障害監視部13は、装置障害情報21に含まれる障害監視装置1の障害の有無を確認する。装置障害情報21に障害監視装置1の障害が登録されていた場合は、自ノードの障害監視装置障害監視部11を起動し、自律的に新たな障害監視理装置1として動作する。
障害監視装置1で稼働するサービス障害監視部13は、障害監視装置1で稼働するソフトウェアサービス15がある場合、情報処理装置2で稼働するサービス障害監視部13と同様に、自ノード障害監視装置1で稼働するソフトウェアサービス15の障害を監視する。また、全ての情報処理装置2で稼働するサービス障害監視部13から、情報共有装置3を介して、または、直接、システム内の全てのサービスの障害情報を収集し、障害監視装置障害監視部11へソフト監視情報102イベント通信を使用して通知する。
障害監視装置1と全ての情報処理装置2で稼働する情報処理装置障害監視部12は、情報共有装置3の装置障害情報21をサービス障害監視部13、を経由して入手し、各々のノード内に存在するハードウェアの障害をハートビート101監視により相互に監視する。
また、障害監視装置1と全ての情報処理装置2との間でハートビート監101を行ない、相互に装置障害の有無を監視する。検出したハードウェアと装置の障害情報について、障害監視装置1または情報処理装置2において稼働するサービス障害監視部13は、情報共有装置3へソフト監視情報イベント通信103を使用して通知する。
障害監視装置1の情報処理装置障害監視部12は、必要により障害を検知したハードウェアまたは装置の代替系への切り替え等の障害対処処理を行なう。障害監視装置1の情報処理装置障害監視部12は、かつ、各ソフトウェアサービスで使用するハードウェアと稼働する情報処理装置2の情報と対比して、検出した障害と連動して障害が想定されるソフトウェアサービス15の代替系への切り替え等の障害対処処理を行なう。
具体的には、インターネット等の通信処理のタイムアウトが伝送路および通信相手の応答処理時間による遅延時間を考慮した数秒〜数分単位とで設定されている場合、当該通信ハードウェアの障害を検知するために、少なくともインターネット等の通信処理のタイムアウトである数秒〜数分単位より短くできないのに対し、ソフトウェアサービス15は、サービスの内容によって数ミリ秒の応答を要求されるものから、バッチ処理のように数日後の応答でよいものまで、様々な長さのタイムアウトに対応する必要がある。
数ミリ秒と短時間での応答を要求されるソフトウェアサービス15のためのハートビート監視のための通信をシステム全体に流布して、システム構成品全体で相互にサービス無応答の監視するSAF AMF(Application Management Framework)に規定される無応答障害の検出方式の場合、ネットワーク5を経由してソフトウェアサービス15のためのハートビート監視を行なうため、ネットワーク5での伝送遅延時間より短くすることはできない。例えば前述のTCPパケットを使用した場合には、ソフトウェアサービス15のタイムアウト時間とハートビート101伝送遅延時間と更にTCPパケット喪失時の再送処理時間とを加味した時間以上を、ソフトウェアサービス15のハートビート周期として設定する必要がある。
これに対して、本実施例は、ソフトウェアサービス15の無応答を検出するためのハートビート監102の対象を障害監視装置1または情報処理装置2の各々の装置内に限定することにより、ネットワーク5を介することによる監視遅延を回避してネットワーク伝送、再送による遅延時間よりも短い周期でのソフトウェアサービス15無応答の監視を実現する。さらに本実施例では、情報処理装置3を使用して障害監視システム100内で監視情報を共有して障害監視装置1の障害時でも自律的に新たな障害監視装置1として情報処理装置2が作動ことにより、ソフト監視情報イベント通信103を使用することに伴う通信障害時の可用性低下を防止する。
図4に示す情報処理装置2のサービス障害監視部13とハートビート監102により監視するソフトウェアサービス15と並列に論理的に多段に階層化した各階層において複数の情報処理装置2をハートビート監101により連接し、物理的な、または論理的なネットワークセグメントをネットワーク5と異なるネットワークセグメントに分割することにより、装置間相互のハートビート監視による監視負荷を低減する。
1…障害監視装置、2…情報処理装置、3…情報共有装置、4…サービス利用装置、5…ネットワーク、10…障害監視部、11…障害監視装置障害監視部、12…情報処理装置障害監視部、13…サービス障害監視部、14…ソフトウェア配信管理部、15…ソフトウェアサービス、21…装置障害情報、22…サービス障害情報、23…情報処理装置種類別障害監視ソフトウェア、24…ソフトウェア、100…障害監視システム。

Claims (4)

  1. ネットワークに接続されたソフトウェアサービスを提供する3台以上の情報処理装置と障害情報を保持する情報共有装置とを含み、前記情報処理装置の障害を監視する障害監視システムにおいて、
    前記情報処理装置の1台前記情報処理装置において稼働するソフトウェアによって実現するサービスの可用性を向上させる障害監視装置として起動
    他の情報処理装置は
    ソフトウェアサービスのデッドロック状態を検出するハートビート監視の対象を装置内に限定することにより、前記ネットワークを介することによる監視遅延を回避して、ネットワーク伝送、再送による遅延時間よりも短い周期での前記ソフトウェアサービスの監視を実行し、
    記情報共有装置を使用して前記障害監視システム内で監視情報を共有して、前記障害監視装置障害のとき、新たな障害監視装置として前記他の情報処理装置の1台が作動すると、を特徴とする障害監視システム。
  2. 請求項1に記載の障害監視システムであって、
    前記ハートビート監視により監視する前記ソフトウェアサービスと並列に論理的に多段に階層化した各階層において複数の前記情報処理装置を第2のハートビート監視により連接し、物理的な、または論理的なネットワークセグメントを前記ネットワークと異なるネットワークセグメントに分割することにより、前記第2のハートビート監視による監視負荷を低減することを特徴とする障害監視システム。
  3. ネットワークに接続されたソフトウェアサービスを提供する3台以上の情報処理装置と障害情報を保持する情報共有装置とを含み、前記情報処理装置の障害を監視する障害監視システムにおける障害監視方法において、
    前記情報処理装置の1台において、前記情報処理装置において稼働するソフトウェアによって実現するサービスの可用性を向上させる障害監視装置として起動するステップと、
    他の情報処理装置において、
    ソフトウェアサービスのデッドロック状態を検出するハートビート監視の対象を装置内に限定することにより、前記ネットワークを介することによる監視遅延を回避して、ネットワーク伝送、再送による遅延時間よりも短い周期での前記ソフトウェアサービスの監視を実行するステップと、
    前記情報共有装置を使用して前記障害監視システム内で監視情報を共有して、前記障害監視装置が障害のとき、新たな障害監視装置として前記他の情報処理装置の1台が作動するステップと、を含むこと特徴とする障害監視方法。
  4. 請求項3に記載の障害監視方法であって、
    前記ハートビート監視により監視する前記ソフトウェアサービスと並列に論理的に多段に階層化した各階層において複数の前記情報処理装置を第2のハートビート監視により連接し、物理的な、または論理的なネットワークセグメントを前記ネットワークと異なるネットワークセグメントに分割することにより、前記第2のハートビート監視による監視負荷を低減することを特徴とする障害監視方法。
JP2011209636A 2011-09-26 2011-09-26 障害監視システムおよび障害監視方法 Active JP5631285B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011209636A JP5631285B2 (ja) 2011-09-26 2011-09-26 障害監視システムおよび障害監視方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011209636A JP5631285B2 (ja) 2011-09-26 2011-09-26 障害監視システムおよび障害監視方法

Publications (2)

Publication Number Publication Date
JP2013073260A JP2013073260A (ja) 2013-04-22
JP5631285B2 true JP5631285B2 (ja) 2014-11-26

Family

ID=48477761

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011209636A Active JP5631285B2 (ja) 2011-09-26 2011-09-26 障害監視システムおよび障害監視方法

Country Status (1)

Country Link
JP (1) JP5631285B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017047065A1 (ja) * 2015-09-17 2017-03-23 日本電気株式会社 クラスタシステム、情報処理装置、クラスタシステムの同期方法、及びプログラムを格納する記憶媒体
JP7144086B1 (ja) * 2021-04-28 2022-09-29 Necプラットフォームズ株式会社 コンピュータ装置、障害検出方法、プログラム

Also Published As

Publication number Publication date
JP2013073260A (ja) 2013-04-22

Similar Documents

Publication Publication Date Title
US10860311B2 (en) Method and apparatus for drift management in clustered environments
JP5910811B2 (ja) スイッチ装置の制御システム、その構成制御装置および構成制御方法
EP1697843B1 (en) System and method for managing protocol network failures in a cluster system
WO2018137254A1 (zh) 一种基于调用链的并发控制的方法、装置及控制节点
GB2407887A (en) Automatically modifying fail-over configuration of back-up devices
US9210059B2 (en) Cluster system
JPWO2018074587A1 (ja) サーバ装置、クラスタシステム、クラスタ制御方法およびプログラム
CN112217847A (zh) 微服务平台及其实现方法、电子设备及存储介质
CN103490914A (zh) 一种网络应用设备多机热备的切换系统及方法
JP2014241536A (ja) 監視装置、及び監視方法
CN115002013B (zh) 运行状态的确定方法、装置、存储介质及电子装置
US10623166B2 (en) Systems and methods for improved uptime for network devices
JP5930029B2 (ja) 管理装置およびログ採取方法
JP5631285B2 (ja) 障害監視システムおよび障害監視方法
Li et al. High availability for non-stop network controller
JPWO2019049433A1 (ja) クラスタシステム、クラスタシステムの制御方法、サーバ装置、制御方法、及びプログラム
JP5483784B1 (ja) 制御装置、計算資源管理方法及び計算資源管理プログラム
US20140297724A1 (en) Network element monitoring system and server
WO2016082368A1 (zh) 一种保持数据一致性的方法、装置及ptn传输设备
JP6224985B2 (ja) 通知装置及び通知方法
JP5691248B2 (ja) タスク引継プログラム、処理装置及びコンピュータ・システム
JP5653322B2 (ja) 障害検出装置、ネットワーク構成推定装置および障害検出方法
JP2016151965A (ja) 冗長構成システム及び冗長構成制御方法
JP7238515B2 (ja) ネットワーク制御装置、システム、方法、及びプログラム
CN105591780B (zh) 集群监测方法和设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130917

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140318

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140513

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140625

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20140908

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140924

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141007

R150 Certificate of patent or registration of utility model

Ref document number: 5631285

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150