JP2012108648A - 障害監視装置、障害監視システム、障害監視方法およびプログラム - Google Patents

障害監視装置、障害監視システム、障害監視方法およびプログラム Download PDF

Info

Publication number
JP2012108648A
JP2012108648A JP2010255851A JP2010255851A JP2012108648A JP 2012108648 A JP2012108648 A JP 2012108648A JP 2010255851 A JP2010255851 A JP 2010255851A JP 2010255851 A JP2010255851 A JP 2010255851A JP 2012108648 A JP2012108648 A JP 2012108648A
Authority
JP
Japan
Prior art keywords
failure
automatic recovery
processing
information
processing device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010255851A
Other languages
English (en)
Inventor
Kenji Hiramatsu
健司 平松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010255851A priority Critical patent/JP2012108648A/ja
Publication of JP2012108648A publication Critical patent/JP2012108648A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

【課題】ユーザへの不要な障害発生の通知を軽減する。
【解決手段】複数の処理装置を含む処理システムの障害を監視する障害監視装置であって、いずれかの処理装置に障害が発生していることを示す情報を含む障害発生情報を受信する障害検知部1と、障害通知情報を出力する出力部2と、複数の処理装置の中のいずれかが自動復旧作業を開始したことを示す情報を含む自動復旧情報を受信する自動復旧検知部3と、障害検知部1が障害発生情報を受信すると、複数の処理各々に、当該処理を行う処理装置を対応付けて記憶する対応付け記憶手段を参照し、障害発生情報で特定される処理装置が行う処理を特定するとともに、当該処理と、自動復旧情報で特定される処理装置が行う処理との関係に基づき、障害通知情報の出力を制限するか否かを決定し、出力部2を制御する出力制御部4とを有する障害監視装置。
【選択図】図2

Description

本発明は、障害監視装置、障害監視システム、障害監視方法およびプログラムに関する。
システムの動作状態を監視しておき、当該システムに障害が発生すると、復旧作業を促す目的で、ユーザに障害発生を通知する監視装置がある。
ところで、障害が発生した際のユーザへの通知は、一般的に、ユーザに復旧作業を促す目的で行われる。このため、監視装置は、たとえ障害の発生を検知した場合であっても、すでにユーザが復旧作業を行っている場合などには、ユーザに障害発生の通知を行う必要がない。それにも関わらずユーザに障害発生の通知を行うと、ユーザは、当該通知に基づいて不要な確認作業等を行うこととなり、余計な労力を費やしてしまう。
ここで、例えば特許文献1には、機器の動作状態を監視し、障害を検出した際に管理者に通知する装置であって、筺体の一部である開閉可能部分が開いていることを検出すると、機器が障害復旧作業中の状態にあると判定し、障害復旧作業中は、上記管理者への通知を行わないように構成した監視装置が記載されている。特許文献1には、当該構成により、管理者に無駄な通知を行わないことで管理業務および障害復旧業務の効率低下を防ぐことができると記載されている。
特開2003−101654号公報
本発明者は、以下の課題を見出した。
監視装置が監視するシステムは、複数の処理装置を含んで構成される場合がある。そして、当該システムが行う処理には、複数の処理装置が協働して行う処理が含まれる場合がある。
このような場合、第1の処理装置に故障が生じた場合、第1の処理装置が行う処理は正常に実行されなくなる。そして、当該処理が、第1の処理装置と第2の処理装置とにより協働して行われる処理である場合、監視装置は、当該処理が正常に実行されないことに起因して、第1の処理装置のみならず、処理装置としての機能は正常である第2の処理装置についても、障害発生を検知してしまう。そして、監視装置は、当該検知に基づいて、ユーザに、第2の処理装置の障害検知を通知してしまう。
特許文献1に記載の監視装置では、このような問題を回避することはできない。
そこで、本発明では、システムの障害発生を監視する障害監視装置、障害監視システム、障害監視方法およびプログラムにおいて、ユーザへの不要な障害発生の通知を軽減することを課題とする。
本発明によれば、複数の処理装置を含み、複数の前記処理装置により協働して行われる1つの処理を含む複数の処理を実行する処理システムの障害を監視する障害監視装置であって、いずれかの前記処理装置に障害が発生していることを示す情報と、当該処理装置を識別する識別情報とを含む障害発生情報を受信する障害検知手段と、障害通知情報を出力する出力手段と、前記複数の処理装置の中のいずれかに障害が発生し、当該処理装置が自動復旧作業を開始した場合、当該処理装置を識別する識別情報と、当該識別情報で特定される前記処理装置が自動復旧作業を開始したことを示す情報と、を含む自動復旧情報を受信する自動復旧検知手段と、前記障害検知手段が前記障害発生情報を受信すると、前記複数の処理各々に、当該処理を行う前記処理装置を対応付けて記憶する対応付け記憶手段を参照し、前記障害発生情報に含まれる前記識別情報で特定される前記処理装置が行う前記処理である障害処理を特定するとともに、特定した前記障害処理と、前記自動復旧情報に含まれる前記識別情報で特定される前記処理装置が行う前記処理である自動復旧中処理との関係に基づき、前記障害通知情報の出力を制限するか否かを決定し、前記出力手段を制御する出力制御手段と、を有する障害監視装置が提供される。
また、本発明によれば、前記処理システムと、前記障害監視装置とからなる障害監視システムが提供される。
また、本発明によれば、複数の処理装置を含み、複数の前記処理装置により協働して行われる1つの処理を含む複数の処理を実行する処理システムの障害を監視する障害監視方法であって、いずれかの前記処理装置に障害が発生していることを示す情報と、当該処理装置を識別する識別情報とを含む障害発生情報を受信する障害検知ステップと、障害通知情報を出力する出力ステップと、前記複数の処理装置の中のいずれかに障害が発生し、当該処理装置が自動復旧作業を開始した場合、当該処理装置を識別する識別情報と、当該識別情報で特定される前記処理装置が自動復旧作業を開始したことを示す情報とを含む自動復旧情報を受信する自動復旧検知ステップと、前記障害検知ステップで前記障害発生情報を受信すると、前記複数の処理各々に、当該処理を行う前記処理装置を対応付けて記憶する対応付け記憶手段を参照し、前記障害発生情報に含まれる前記識別情報で特定される前記処理装置が行う前記処理である障害処理を特定するとともに、特定した前記障害処理と、前記自動復旧情報に含まれる前記識別情報で特定される前記処理装置が行う前記処理である自動復旧中処理との関係に基づき、前記障害通知情報の出力を制限するか否かを決定し、前記出力ステップにおける前記障害通知情報の出力を制御する出力制御ステップと、を有する障害監視方法が提供される。
また、本発明によれば、複数の処理装置を含み、複数の前記処理装置により協働して行われる1つの処理を含む複数の処理を実行する処理システムの障害を監視するためのプログラムであって、コンピュータを、いずれかの前記処理装置に障害が発生していることを示す情報と、当該処理装置を識別する識別情報とを含む障害発生情報を受信する障害検知手段、障害通知情報を出力する出力手段、前記複数の処理装置の中のいずれかに障害が発生し、当該処理装置が自動復旧作業を開始した場合、当該処理装置を識別する識別情報と、当該識別情報で特定される前記処理装置が自動復旧作業を開始したことを示す情報とを含む自動復旧情報を受信する自動復旧検知手段、前記障害検知手段が前記障害発生情報を受信すると、前記複数の処理各々に、当該処理を行う前記処理装置を対応付けて記憶する対応付け記憶手段を参照し、前記障害発生情報に含まれる前記識別情報で特定される前記処理装置が行う前記処理である障害処理を特定するとともに、特定した前記障害処理と、前記自動復旧情報に含まれる前記識別情報で特定される前記処理装置が行う前記処理である自動復旧中処理との関係に基づき、前記障害通知情報の出力を制限するか否かを決定し、前記出力手段を制御する出力制御手段、として機能させるためのプログラムが提供される。
本発明によればシステムの障害発生を監視する障害監視装置、障害監視システム、障害監視方法およびプログラムにおいて、ユーザへの不要な障害発生の通知を軽減することができる。
本実施形態の障害監視システムの機能ブロック図の一例である。 本実施形態の障害監視装置の機能ブロック図の一例である。 本実施形態における対応付けテーブル5aの一例である。 本実施形態における自動復旧中処理テーブル7aの一例である。 本実施形態の障害監視システムの処理の流れの一例を示すシーケンス図である。 本実施形態の障害監視システムの処理の流れの一例を示すシーケンス図である。 本実施形態の障害監視システムの機能ブロック図の一例である。 本実施形態における対応付けテーブル5aの一例である。 本実施形態における自動復旧中処理テーブル7aの一例である。 本実施形態の障害監視装置の機能ブロック図の一例である。 本実施形態における自動復旧中処理テーブル7aの一例である。
以下、本発明の実施の形態について図面を用いて説明する。
なお、本実施形態の障害監視システムは、任意のコンピュータのCPU、メモリ、メモリにロードされたプログラム(あらかじめ機器を出荷する段階からメモリ内に格納されているプログラムのほか、CD等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムも含む)、そのプログラムを格納するハードディスク等の記憶ユニット、ネットワーク接続用インタフェースを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、機器にはいろいろな変形例があることは、当業者には理解されるところである。
また、本実施形態の説明において利用する機能ブロック図は、ハードウエア単位の構成ではなく、機能単位のブロックを示している。これらの図においては、各装置は1つの機器により実現されるよう記載されているが、その実現手段はこれに限定されない。すなわち、物理的に分かれた構成であっても、論理的に分かれた構成であっても構わない。
<第1の実施形態>
まず、本実施形態の障害監視システム100は、図1に示すように、処理システム12と障害監視装置10とを有する。以下、処理システム12と障害監視装置10とに分けて、本実施形態の障害監視システム100の構成を説明する。
<処理システム12>
図1に示すように、本実施形態の処理システム12は、複数の処理装置を含んで構成される。図1では、第1乃至第6処理装置11a乃至11fが記載されているが、処理システム12が有する処理装置の数は図示するものに限定されない。処理システム12が有する処理装置はコンピュータを備え、所定の処理を実行するよう構成された装置である。なお、処理システム12は、異なる機能を備えた複数の処理装置を含んでもよい。以下、処理システム12が有する処理装置を、単に「処理装置」という。すなわち、以下の説明で出てくる「処理装置」は、特別な言及がない限り、処理システム12が有する処理装置とする。
処理装置の少なくとも一部は、障害が発生した場合、自動的に復旧作業を行うよう構成されている。以下、処理装置が自動的に行う復旧作業を「自動復旧作業」という。処理装置が行う自動復旧作業の内容は特段制限されず、従来技術に準じたあらゆる構成とすることができる。例えば、処理装置がクラスタ構成となっている場合には、自動復旧作業は、障害が発生した処理装置を切り離す処理や、稼動させる処理装置を障害が発生した処理装置から待機状態の処理装置に切り換える処理などであってもよい。その他、自動復旧作業は、プロセス再起動、自動リブート、ホットスワット等であってもよい。なお、ここで例示した自動復旧作業の例示はあくまで一例であり、処理装置は他の自動復旧作業を行ってもよい。
自動復旧作業を開始した処理装置は、自動復旧作業を開始した処理装置を識別する識別情報と、当該識別情報で特定される処理装置が自動復旧作業を開始したことを示す情報とを含む自動復旧情報を、障害監視装置10に送信する。なお、自動復旧作業を開始した処理装置の動作を監視している処理装置が、自動復旧作業を開始した処理装置を識別する識別情報と、当該識別情報で特定される処理装置が自動復旧作業を開始したことを示す情報とを含む自動復旧情報を、障害監視装置10に送信してもよい。
また、処理システム12は、複数の処理装置により協働して行われる少なくとも1つの処理を含む複数の処理を実行する。すなわち、複数の処理装置の少なくとも一部は、有線および/または無線で互いに接続され、情報や信号の送受信を行い、協働して1つの処理を実行する。なお、複数の処理装置の接続方法は特段制限されず、図1に示すものに限定されない。また、処理システム12が実行する処理の内容についても特段制限されない。例えば、処理システム12は、インターネットやLAN等のネットワークに接続されており、当該ネットワークに接続されたユーザ側の端末装置を介して、ユーザに様々なサービス(検索サービス等)を提供してもよい。その他、処理システム12は、複数の処理装置により観測データ等の1つ以上のデータを取得する処理、および、これらデータを解析する処理などを行ってもよい。なお、ここで例示した処理はあくまで一例であり、これらに限定されない。
さらに、処理システム12は、自システムに障害が発生していないか監視するため、複数の監視処理を実行している。当該監視処理の内容は特段制限されず、従来技術に準じたあらゆる処理とすることができる。例えば、各処理装置が自装置内に障害が発生していないか監視する処理であってもよいし、各処理装置が他の処理装置に障害が発生していないか監視する処理であってもよい。さらに具体的には、障害を監視する装置が所定のタイミングでシステム内に検査信号を入力し、当該信号に対する応答信号に基づいて、障害の有無を検査するサービス監視処理や、自装置内に記憶されたログを監視するログ監視処理や、特定プロセスの存在や数を確認するプロセス監視処理や、ペアとなるサーバの応答確認を行うクラスタ処理などであってもよい。なお、ここで例示した監視処理はあくまで一例であり、処理システム12は他の監視処理を行ってもよい。
このような監視処理に基づき、自装置内または他の処理装置に障害が発生していることを検知した処理装置は、障害が発生している処理装置を識別する識別情報と、当該識別情報で特定される処理装置に障害が発生していることを示す情報とを含む障害発生情報を、障害監視装置10に送信する。
<障害監視装置10>
次に、本実施形態の障害監視装置10について説明する。障害監視装置10は、図1に示すように、処理システム12と有線および/または無線で接続されている。
図2は、本実施形態の障害監視装置10の構成の一例を示す機能ブロック図である。図2に示す本実施形態の障害監視装置10は、障害検知部1と、出力部2と、自動復旧検知部3と、出力制御部4と、対応付け記憶部5と、登録部6と、自動復旧中処理記憶部7とを有する。なお、障害監視装置10は、対応付け記憶部5を有さなくてもよい。かかる場合、障害監視装置10とは異なる他の装置が対応付け記憶部5を有し、障害監視装置10は、当該他の装置が有する対応付け記憶部5にアクセス可能に構成される。以下、障害監視装置10の構成について詳細に説明する。
障害検知部1は、いずれかの処理装置に障害が発生していることを示す情報と、当該処理装置を識別する識別情報とを含む障害発生情報を受信する。具体的には、障害検知部1は、自装置内または他の処理装置に障害が発生していることを検知した処理装置から送信されてきた障害発生情報を受信する。
出力部2は、障害通知情報をユーザに向けて出力する。障害通知情報は、例えば、障害発生情報に含まれる識別情報で特定される処理装置に障害が発生していることを示す情報であってもよい。出力部2による出力手段は特段制限されず、ディスプレイ、スピーカ、印刷装置、回転灯などのあらゆる出力装置を単独で使用し、または、組み合わせて使用して実現することができる。例えば、出力部2は、スピーカを介して警告音を出力し、および/または、回転灯を起動するとともに、ディスプレイに障害通知情報を出力してもよい。または、出力部2は、ディスプレイや印刷装置を介して、それまでに発生した障害通知情報を一覧表示したリストなどを出力してもよい。かかる場合、障害通知情報には、障害が発生した時間をユーザが認識できる情報が含まれていてもよい。
自動復旧検知部3は、複数の処理装置の中のいずれかに障害が発生し、当該処理装置が自動復旧作業を開始した場合、当該処理装置を識別する識別情報と、当該識別情報で特定される処理装置が自動復旧作業を開始したことを示す情報とを含む自動復旧情報を受信する。なお、自動復旧検知部3は、自動復旧作業を開始した処理装置または当該処理装置の動作を監視している処理装置から、自動復旧情報を受信する。
登録部6は、自動復旧検知部3が自動復旧情報を受信すると、対応付け記憶部5を参照し、自動復旧情報に含まれる識別情報で特定される処理装置が行う処理を特定する。そして、登録部6は、特定した処理を、自動復旧中処理として、自動復旧中処理記憶部7に登録する。
ここで、対応付け記憶部5について説明する。対応付け記憶部5は、処理システム12が行う複数の処理各々に、当該処理を行う処理装置を対応付けて記憶する。例えば、対応付け記憶部5は、図3に示すような、複数の処理各々に、当該処理を行う処理装置を対応付けたテーブル(以下、「対応付けテーブル5a」という)を保持してもよい。なお、複数の処理装置が協働して1つの処理を行う場合、対応付け記憶部5は、1つの処理に、複数の処理装置を対応付けて記憶する。図3に示す対応付けテーブル5aによれば、第1の処理は、第1処理装置11a、第2処理装置11bおよび第5処理装置11eが協働して行う処理であることが示されている。また、第2の処理は、第2処理装置11b、第4処理装置11dおよび第5処理装置11eが協働して行う処理であることが示されている。さらに、第3の処理は、第3処理装置11c、第4処理装置11dおよび第6処理装置11fが協働して行う処理であることが示されている。さらに、第4の処理は、第6処理装置11fが単独で行う処理であることが示されている。
図2に戻り、登録部6は、自動復旧検知部3が自動復旧情報を受信すると、自動復旧情報の中から、自動復旧作業を開始した処理装置を識別する識別情報を取得する。そして、登録部6は、当該識別情報をキーとして対応付けテーブル5a(図3参照)を検索し、当該識別情報に対応付けられている処理を特定する。そして、特定した処理を、自動復旧中処理として、自動復旧中処理記憶部7に登録する。なお、登録部6は、1つの識別情報に複数の処理が対応付けられている場合には、すべての処理を特定し、特定したすべての処理を、自動復旧中処理として自動復旧中処理記憶部7に登録する。
自動復旧中処理記憶部7は、例えば、図4に示すような自動復旧中処理を登録するためのテーブル(以下、「自動復旧中処理テーブル7a」という)を保持してもよい。当該自動復旧中処理テーブル7aは、データを書き換えることができるようになっており、図4は、自動復旧中処理が登録される前後の自動復旧中処理テーブル7aを示している。図4(A)に示す自動復旧中処理テーブル7aは、いずれの処理も自動復旧中処理として登録されていないことを示している。自動復旧中処理テーブル7aが図4(A)に示す状態において、自動復旧検知部3が第2処理装置11bを識別する識別情報を含む自動復旧情報を受信すると、登録部6は対応付けテーブル5a(図3参照)を参照し、第2処理装置11bが行う処理として第1の処理および第2の処理を特定する。そして、登録部6は、図4(B)に示すように、特定した第1の処理および第2の処理を、自動復旧中処理として自動復旧中処理テーブル7aに登録する。
出力制御部4は、障害検知部1が障害発生情報を受信すると、対応付け記憶部5を参照し、障害発生情報に含まれる識別情報で特定される処理装置が行う処理である障害処理を特定する。そして、出力制御部4は、特定した障害処理と、自動復旧中処理との関係に基づき、障害通知情報の出力を制限するか否かを決定する。その後、出力制御部4は、上記決定に従った処理を行うよう、出力部2を制御する。
例えば、出力制御部4は、特定した障害処理が自動復旧中処理として自動復旧中処理記憶部7に登録されている場合、障害通知情報の出力を行わないことを決定する。そして、出力制御部4は、特定した障害処理が自動復旧中処理として自動復旧中処理記憶部7に登録されていない場合、障害通知情報の出力を行うことを決定する。以下、出力制御部4による当該処理例を具体的に説明する。
ここでは、対応付け記憶部5が図3に示す対応付けテーブル5aを保持し、また、自動復旧中処理記憶部7が図4(B)に示す自動復旧中処理テーブル7aを保持しているとする。なお、図3および図4(B)では、テーブル内に点線を記載することで、具体的に図示するデータ以外のデータが書き込まれている様子を示しているが、ここでは、各テーブルには、具体的に図示するデータのみが記載されているものとする。すなわち、対応付けテーブル5aには、処理システム12が行う処理として第1乃至第4の処理のみが記憶されており、第1乃至第4の処理各々に、各々の処理を行う処理装置が対応付けて記憶されているものとする。また、自動復旧中処理テーブル7aには、自動復旧中処理として第1および第2の処理のみが登録されているものとする。
例えば、障害検知部1が第1処理装置11aを識別する識別情報を含む障害発生情報を受信すると、出力制御部4は、対応付けテーブル5a(図3参照)を参照し、第1処理装置11aが行う処理を障害処理として特定する。具体的には、出力制御部4は、第1の処理を障害処理として特定する。そして、出力制御部4は、特定した第1の処理が自動復旧中処理テーブル7a(図4参照)に登録されているか確認する。本例の場合、第1の処理は自動復旧中処理テーブル7aに登録されている。このため、出力制御部4は、当該障害発生情報に基づいた障害通知情報を出力しないよう決定し、障害通知情報を出力しないよう出力部2を制御する。
一方、例えば、障害検知部1が第3処理装置11cを識別する識別情報を含む障害発生情報を受信すると、出力制御部4は、対応付けテーブル5a(図3参照)を参照し、第3処理装置11cが行う処理を障害処理として特定する。具体的には、出力制御部4は、第3の処理を障害処理として特定する。そして、出力制御部4は、特定した第3の処理が自動復旧中処理テーブル7a(図4参照)に登録されているか確認する。本例の場合、第3の処理は自動復旧中処理テーブル7aに登録されていない。このため、出力制御部4は、当該障害発生情報に基づいた障害通知情報を出力するよう決定し、障害通知情報を出力するよう出力部2を制御する。
ここで、1つの処理装置が複数の処理に関わり、複数の処理を実行する場合がある。このため、出力制御部4は、障害発生情報に含まれる1つの識別情報を基に複数の障害処理を特定する場合がある。かかる場合、出力制御部4は、特定した複数の障害処理すべてが自動復旧中処理記憶部7に登録されている場合に、障害通知情報の出力を行わないことを決定してもよい。そして、出力制御部4は、特定した複数の障害処理の中の1つでも自動復旧中処理記憶部7に登録されていない場合には、障害通知情報の出力を行うことを決定してもよい。以下、出力制御部4による当該処理例を具体的に説明する。なお、対応付け記憶部5、自動復旧中処理記憶部7、対応付けテーブル5aおよび自動復旧中処理テーブル7aにおける前提は、上述した前提と同様である。
例えば、障害検知部1が第5処理装置11eを識別する識別情報を含む障害発生情報を受信すると、出力制御部4は、対応付けテーブル5a(図3参照)を参照し、第5処理装置11eが行う処理を障害処理として特定する。具体的には、出力制御部4は、第1および第2の処理を障害処理として特定する。そして、出力制御部4は、特定した第1および第2の処理が自動復旧中処理テーブル7a(図4参照)に登録されているか確認する。本例の場合、第1および第2の処理はいずれも自動復旧中処理テーブル7aに登録されている。このため、出力制御部4は、当該障害発生情報に基づいた障害通知情報を出力しないよう決定し、障害通知情報を出力しないよう出力部2を制御する。
一方、例えば、障害検知部1が第4処理装置11dを識別する識別情報を含む障害発生情報を受信すると、出力制御部4は、対応付けテーブル5a(図3参照)を参照し、第4処理装置11dが行う処理を障害処理として特定する。具体的には、出力制御部4は、第2および第3の処理を障害処理として特定する。そして、出力制御部4は、特定した第2および第3の処理が自動復旧中処理テーブル7a(図4参照)に登録されているか確認する。本例の場合、第2の処理は自動復旧中処理テーブル7aに登録されているが、第3の処理は自動復旧中処理テーブル7aに登録されていない。このため、出力制御部4は、当該障害発生情報に基づいた障害通知情報を出力するよう決定し、障害通知情報を出力するよう出力部2を制御する。
なお、出力制御部4が障害発生情報に含まれる1つの識別情報を基に複数の障害処理を特定した場合には、上記例のほか、以下のような構成にすることもできる。すなわち、出力制御部4は、特定した複数の障害処理の中の1つでも自動復旧中処理記憶部7に登録されている場合に、障害通知情報の出力を行わないことを決定してもよい。そして、出力制御部4は、特定した複数の障害処理すべてが自動復旧中処理記憶部7に登録されていない場合には、障害通知情報の出力を行うことを決定してもよい。以下、出力制御部4による当該処理例を具体的に説明する。なお、対応付け記憶部5、自動復旧中処理記憶部7、対応付けテーブル5aおよび自動復旧中処理テーブル7aにおける前提は、上述した前提と同様である。
例えば、障害検知部1が第4処理装置11dを識別する識別情報を含む障害発生情報を受信すると、出力制御部4は、対応付けテーブル5a(図3参照)を参照し、第4処理装置11dが行う処理を障害処理として特定する。具体的には、出力制御部4は、第2および第3の処理を障害処理として特定する。そして、出力制御部4は、特定した第2および第3の処理が自動復旧中処理テーブル7a(図4参照)に登録されているか確認する。本例の場合、第3の処理は自動復旧中処理テーブル7aに登録されていないが、第2の処理は自動復旧中処理テーブル7aに登録されている。このため、出力制御部4は、当該障害発生情報に基づいた障害通知情報を出力しないよう決定し、障害通知情報を出力しないよう出力部2を制御する。
一方、例えば、障害検知部1が第6処理装置11fを識別する識別情報を含む障害発生情報を受信すると、出力制御部4は、対応付けテーブル5a(図3参照)を参照し、第6処理装置11fが行う処理を障害処理として特定する。具体的には、出力制御部4は、第3および第4の処理を障害処理として特定する。そして、出力制御部4は、特定した第3および第4の処理が自動復旧中処理テーブル7a(図4参照)に登録されているか確認する。本例の場合、第3および第4の処理いずれも自動復旧中処理テーブル7aに登録されていない。このため、出力制御部4は、当該障害発生情報に基づいた障害通知情報を出力するよう決定し、障害通知情報を出力するよう出力部2を制御する。
なお、出力制御部4が上記処理を行うタイミングおよび出力部2が障害通知情報を出力するタイミングは特段制限されない。
例えば、出力制御部4は、障害検知部1が障害発生情報を受信すると、それをトリガに、障害通知情報を出力するか否かの判断を行ってもよい。そして、出力制御部4が障害通知情報を出力するよう決定すると、出力部2は、それをトリガに、障害通知情報を出力してもよい。このようにすれば、ユーザに迅速に障害が発生していることを通知することができる。かかる場合の障害通知情報の出力手段としては、ディスプレイやスピーカを利用し、ユーザが状況を容易に認識できるような態様とするのがよい。例えば、スピーカを介して警告音を出力するとともに、ディスプレイに障害通知情報を出力してもよい。
このような本実施形態の障害監視装置10は、例えば、以下のプログラムをコンピュータにインストールすることで実現することができる。
複数の処理装置を含み、複数の前記処理装置により協働して行われる1つの処理を含む複数の処理を実行する処理システムの障害を監視するためのプログラムであって、
コンピュータを、
いずれかの前記処理装置に障害が発生していることを示す情報と、当該処理装置を識別する識別情報とを含む障害発生情報を受信する障害検知手段、
障害通知情報を出力する出力手段、
前記複数の処理装置の中のいずれかに障害が発生し、当該処理装置が自動復旧作業を開始した場合、当該処理装置を識別する識別情報と、当該識別情報で特定される前記処理装置が自動復旧作業を開始したことを示す情報とを含む自動復旧情報を受信する自動復旧検知手段、
前記障害検知手段が前記障害発生情報を受信すると、前記複数の処理各々に、当該処理を行う前記処理装置を対応付けて記憶する対応付け記憶手段を参照し、前記障害発生情報に含まれる前記識別情報で特定される前記処理装置が行う前記処理である障害処理を特定するとともに、特定した前記障害処理と、前記自動復旧情報に含まれる前記識別情報で特定される前記処理装置が行う前記処理である自動復旧中処理との関係に基づき、前記障害通知情報の出力を制限するか否かを決定し、前記出力手段を制御する出力制御手段、
として機能させるためのプログラム。
次に、本実施形態の障害監視システム100の処理の流れの一例について、説明する。
最初に、図1乃至図5を用いて、いずれかの処理装置が、自動復旧作業を開始し、障害監視装置10が、当該処理装置が行う処理を自動復旧中処理として自動復旧中処理テーブル7aに登録するまでの処理の流れの一例について説明する。
まず、自動復旧中処理テーブル7aは、図4(A)に示す状態であるとする。そして、いずれかの処理装置に障害が発生すると、当該処理装置は、自動復旧作業を開始する(図5のS10)。ここでは、図1に示す第2処理装置11bに障害が発生し、第2処理装置11bが自動復旧作業を開始したとする。自動復旧作業を開始した第2処理装置11bは、自装置を識別する識別情報と、自装置が自動復旧作業を開始したことを示す情報とを含む自動復旧情報を、障害監視装置10に送信する。すると、図2に示す障害監視装置10の自動復旧検知部3が、自動復旧情報を受信する(図5のS20)。
次に、図2に示す障害監視装置10の登録部6は、自動復旧検知部3が受信した自動復旧情報に含まれる第2処理装置11bを識別する識別情報を取得する。そして、登録部6は、当該識別情報をキーとして図3に示す対応付けテーブル5aを検索し、第2処理装置11bが行う処理を特定する。具体的には、登録部6は、第1および第2の処理を、第2処理装置11bが行う処理として特定する。そして、登録部6は、特定した第1および第2の処理を、自動復旧中処理として、図4(A)に示す自動復旧中処理テーブル7aに登録する(図5のS30)。その結果、自動復旧中処理テーブル7aは、図4(B)に示す状態となる。
次に、図1乃至図4および図6を用いて、いずれかの処理装置に障害が発生していることを示す情報を受信した障害監視装置10が、当該情報に基づいてユーザに当該障害発生の通知を行うか否かについて決定する処理の流れの一例について説明する。ここでは、自動復旧中処理テーブル7aは、図4(B)に示す状態であるとする。
まず、図1に示す処理システム12は、実行している監視処理により、いずれかの処理装置に障害が発生していることを検知する(図6のS40)。ここでは、図1に示す第1処理装置11aに障害が発生していることを検知したとする。当該検知は、第1処理装置11aが行う場合と、他の処理装置が行う場合が考えられる。
次に、第1処理装置11aに障害が発生していることを検知した処理装置は、第1処理装置11aを識別する識別情報と、当該識別情報で特定される処理装置に障害が発生していることを示す情報とを含む障害発生情報を、障害監視装置10に送信する。すると、図2に示す障害監視装置10の障害検知部1は、当該障害発生情報を受信する(図6のS50)。
次に、図2に示す障害監視装置10の出力制御部4は、障害検知部1が受信した障害発生情報に含まれる第1処理装置11aを識別する識別情報を取得する。そして、出力制御部4は、当該識別情報をキーとして図3に示す対応付けテーブル5aを検索し、第1処理装置11aが行う処理を障害処理として特定する。具体的には、出力制御部4は、第1の処理を障害処理として特定する(図6のS60)。そして、出力制御部4は、特定した第1の処理が、図4(B)に示す自動復旧中処理テーブル7aに登録されているか確認する。
本例の場合、第1の処理は、自動復旧中処理テーブル7aに登録されている(図6のS70のYES)。このため、出力制御部4は、S50で障害検知部1が受信した障害発生情報に基づいた障害通知情報の出力を行わないよう決定する。そして、出力制御部4は、障害通知情報の出力は行わないよう出力部2を制御する(図6のS90)。
なお、第1の処理が、自動復旧中処理テーブル7aに登録されていなかった場合には(図6のS70のNO)、出力制御部4は、S50で障害検知部1が受信した障害発生情報に基づいた障害通知情報の出力を行うよう決定する。そして、出力制御部4は、障害通知情報の出力を行うよう出力部2を制御する(図6のS80)。
次に、本実施形態の障害監視システムによる作用効果について説明する。
システムの動作状態を監視しておき、当該システムに障害が発生すると、復旧作業を促す目的で、ユーザに障害発生を通知する監視装置においては、監視するシステムが、(1)複数の処理装置を含み、(2)複数の処理装置により協働して行われる1つの処理を含む複数の処理を実行するよう構成している場合がある。そして、このような場合、監視装置は、ユーザに不要な障害発生の通知を行ってしまう場合がある。
具体的には、監視装置が監視するシステムが上記(1)および(2)の条件を満たす場合、第1の処理装置が自動復旧作業を行っている間、第1の処理装置が行う処理は正常に実行されなくなる。そして、当該処理が、第1の処理装置と第2の処理装置とにより協働して行われる処理である場合、監視装置は、当該処理が正常に実行されないことに起因して、第1の処理装置のみならず、第2の処理装置に障害が発生していると検知してしまうことがある。
しかし、上記ケースの場合、第2の処理装置には障害が発生していない。また、上記処理が正常に実行されない原因である第1の処理装置は、復旧作業を行っている。このため、上記ケースの場合、監視装置は、ユーザに障害発生の通知を行う必要がない。
本実施形態の障害監視装置10は、監視装置が監視するシステムが上記(1)および(2)の条件を満たす場合に起こり得る、上述のようなユーザへの不要な障害発生の通知を軽減することができる。
すなわち、本実施形態の障害監視装置10は、自動復旧作業を開始した処理装置が行う処理、および、障害が発生した処理装置が行う処理を認識することができる。このため、本実施形態の障害監視装置10は、いずれかの処理装置に障害が発生していることを検知すると、当該処理装置が行う処理を特定し、特定した処理が自動復旧中の処理か否かを判断することができる。そして、特定した処理が自動復旧中の処理である場合には、ユーザが復旧作業を行う必要がないため、ユーザに障害発生の通知を行わないよう構成している。
このような本実施形態の構成によれば、ユーザへの不要な障害発生の通知を軽減することができる。
<第2の実施形態>
本実施形態は、第1の実施形態における障害監視システム100をより具体化した実施の形態である。本実施形態の障害監視システム100の構成を図7に示す。図7に示すように、本実施形態の障害監視システム100は、障害監視装置10と、処理システム12とを有する。なお、障害監視装置10の構成については第1の実施形態と同様であるので、ここでの説明は省略する。以下、本実施形態の処理システム12の構成について説明する。
図7に示すように、本実施形態の処理システム12は、処理装置として、複数のWebサーバ(第1Webサーバ20、第2Webサーバ21、第3Webサーバ22、および、第4Webサーバ23)を全現用構成としたWebサーバ20乃至23と、LB(ロードバランサー)24と、第1DB27を保有し複数のDBサーバ(第1DBサーバ25および第2DBサーバ26)をクラスタ構成としたDBサーバ25および26と、第2DB31を保有し複数のDBサーバ(第3DBサーバ28および第4DBサーバ29)をクラスタ構成としたDBサーバ28および29と、監視サーバ30とを含んで構成される。処理システム12の各処理装置は、LAN60を介して、障害監視装置10と接続されている。
全現用構成とした全てのWebサーバ(Webサーバ20乃至23)は稼動状態となっている。なお、全現用構成とするWebサーバの数は特段制限されず、さらに多くのWebサーバを含んでもよいし、より少ない数で構成してもよい。また、1つ以上のWebサーバを待機状態とすることもできる。
LB24は、Webサーバ20乃至23の負荷分散を行うとともに、Webサーバ20乃至23の動作を監視しておき、1つのWebサーバに障害が発生した場合、当該Webサーバを切り離す。
DBサーバ25および26は、第1DBサーバ25が稼動状態(現用)となり、第2DBサーバ26が待機状態(待機)となっている。そして、第2DBサーバ26は第1DBサーバ25の動作を監視しておき、第1DBサーバ25に障害が発生した場合、稼動するDBサーバ(現用DBサーバ)を、第2DBサーバ26に切り換える。なお、DBサーバ25および26は、さらに他のDBサーバを含んで構成することもできる。
同様に、DBサーバ28および29は、第3DBサーバ28が稼動状態(現用)となり、第4DBサーバ29が待機状態(待機)となっている。そして、第4DBサーバ29は第3DBサーバ28の動作を監視しておき、第3DBサーバ28に障害が発生した場合、稼動するDBサーバ(現用DBサーバ)を、第4DBサーバ29に切り換える。なお、DBサーバ28および29は、さらに他のDBサーバを含んで構成することもできる。
処理システム12に含まれる複数の処理装置11はLAN40により互いに接続されるとともに、インターネット50に接続されている。そして、処理システム12は、インターネット50に接続されたユーザ端末(図示せず)を介して複数のサービス(処理)を提供している。処理システム12は、例えば、Webサーバ20乃至23と、第1DB27を保有するDBサーバ25および26とが協働して実行するWeb検索サービスを提供する。また、処理システム12は、例えば、Webサーバ20乃至23と、第2DB31を保有するDBサーバ28および29とが協働して実行する地図提示サービスを提供する。
また、処理システム12は、自システムに障害が発生していないか監視するため、複数の監視処理を実行している。例えば、監視サーバ30が所定のタイミングで所定の指示信号を処理システム12に入力し、当該指示信号に対する返答に基づいて、障害発生の有無を監視している(サービス監視処理)。その他、処理システム12は、ログ監視処理、プロセス監視処理、クラスタ処理を実行している。
このような監視処理に基づき、自装置内または他の処理装置に障害が発生していることを検知した処理装置は、障害が発生している処理装置を識別する識別情報と、当該識別情報で特定される処理装置に障害が発生していることを示す情報とを含む障害発生情報を、障害監視装置10に送信する。
さらに、処理システム12は、システムに障害が発生した場合、自動復旧作業を行う。例えば、複数のWebサーバ20乃至23のいずれかに障害が発生すると、処理システム12は、障害が発生したWebサーバを切り離す作業を実行する。また、例えば、第1DBサーバ25に障害が発生すると、処理システム12は、現用サーバを、第1DBサーバ25から第2DBサーバ26に切り換える作業を実行する。
そして、自動復旧作業を開始した処理装置は、自装置を識別する識別情報と、当該識別情報で特定される処理装置が自動復旧作業を開始したことを示す情報とを含む自動復旧情報を、障害監視装置10に送信する。例えば、複数のWebサーバ20乃至23のいずれかに障害が発生し、当該Webサーバを切り離す自動復旧作業を開始した場合、当該Webサーバは、自装置を識別する識別情報を含む自動復旧情報を、障害監視装置10に送信する。また、第1DBサーバ25に障害が発生し、現用サーバを、第1DBサーバ25から第2DBサーバ26に切り換える自動復旧作業を開始した場合、第1DBサーバ25は、自装置を識別する識別情報を含む自動復旧情報を、障害監視装置10に送信する。
なお、自動復旧作業を開始した処理装置11が自装置を識別する識別情報を含む自動復旧情報を障害監視装置10に送信する構成に代えて、自動復旧作業を開始した処理装置11の動作を監視していた処理装置11が、自動復旧作業を開始した処理装置11を識別する識別情報と、当該識別情報で特定される処理装置11が自動復旧作業を開始したことを示す情報とを含む自動復旧情報を、障害監視装置10に送信する構成としてもよい。すなわち、複数のWebサーバ20乃至23のいずれかに障害が発生し、当該Webサーバを切り離す自動復旧作業を開始した場合、LB24が、当該Webサーバを識別する識別情報を含む自動復旧情報を、障害監視装置10に送信してもよい。また、第1DBサーバ25に障害が発生し、現用サーバを、第1DBサーバ25から第2DBサーバ26に切り換える自動復旧作業を開始した場合、第2DBサーバ26が、第1DBサーバ25を識別する識別情報を含む自動復旧情報を、障害監視装置10に送信してもよい。
次に、図2、図5乃至図9を用いて、本実施形態の障害監視システム100の処理の流れの一例について説明する。ここでは、対応付け記憶部5が図8に示す対応付けテーブル5aを保持し、また、自動復旧中処理記憶部7が図9に示す自動復旧中処理テーブル7aを保持しているとする。なお、図8および図9では、テーブル内に点線を記載することで、具体的に図示するデータ以外のデータが書き込まれている様子を示しているが、ここでは、各テーブルには、具体的に図示するデータのみが記載されているものとする。
最初に、第1DBサーバ25が自動復旧作業を開始し、障害監視装置10が、第1DBサーバ25が行う処理を自動復旧中処理として自動復旧中処理テーブル7aに登録するまでの処理の流れの一例について説明する。
まず、自動復旧中処理テーブル7aは、図9(A)に示す状態であるとする。図7に示す第1DBサーバ25は、障害が発生すると、自動復旧作業を開始する(図5のS10)。具体的には、現用DBサーバを、第1DBサーバ25から第2DBサーバ26に切り換える作業を開始する。そして、第1DBサーバ25は、自サーバを識別する識別情報と、自サーバが自動復旧作業を開始したことを示す情報とを含む自動復旧情報を、障害監視装置10に送信する。すると、図2に示す障害監視装置10の自動復旧検知部3が、自動復旧情報を受信する(図5のS20)。なお、第1DBサーバ25の動作を監視している第2DBサーバ26が、第1DBサーバ25を識別する識別情報と、当該識別情報で特定される処理装置が自動復旧作業を開始したことを示す情報とを含む自動復旧情報を、障害監視装置10に送信してもよい。
次に、図2に示す障害監視装置10の登録部6は、自動復旧検知部3が受信した自動復旧情報に含まれる第1DBサーバ25を識別する識別情報を取得する。そして、登録部6は、当該識別情報をキーとして図8に示す対応付けテーブル5aを検索し、第1DBサーバ25が行う処理を特定する。具体的には、登録部6は、Web検索サービスを、第1DBサーバ25が行う処理として特定する。そして、登録部6は、特定したWeb検索サービスを、自動復旧中処理として、図9(A)に示す自動復旧中処理テーブル7aに登録する(図5のS30)。その結果、自動復旧中処理テーブル7aは、図9(B)に示す状態となる。
次に、処理システム12からいずれかの処理装置に障害が発生していることを示す情報を受信した障害監視装置10が、当該情報に基づいてユーザに当該障害発生の通知を行うか否かについて決定する処理の流れの一例について説明する。
ここでは、自動復旧中処理テーブル7aは、図9(B)に示す状態であるとする。また、出力制御部4が障害発生情報に含まれる1つの識別情報を基に複数の障害処理を特定した場合、出力制御部4は、特定した複数の障害処理すべてが自動復旧中処理記憶部7に登録されている場合に、障害通知情報の出力を行わないことを決定し、特定した複数の障害処理の中の1つでも自動復旧中処理記憶部7に登録されていない場合には、障害通知情報の出力を行うことを決定するものとする。
まず、図7に示す処理システム12は、実行している監視処理により、いずれかの処理装置に障害が発生していることを検知する(図6のS40)。
例えば、図7に示す監視サーバ30が所定のタイミングで、Web検索サービスが正常に動作しているか確認するための指示信号を処理システム12に入力する。すると、当該指示信号を受信したLB24は、例えば第2Webサーバ21に指示信号を送信する。次いで、当該指示信号を受信した第2Webサーバ21は、第1DBサーバ25に指示信号を送信する。しかし、第1DBサーバ25は自動復旧作業中であるため、第2Webサーバ21は第1DBサーバ25からの応答を受けとることができない。このため、第2Webサーバ21は、LB24に指示信号に対する応答を返すことができない。結果、LB24は、第2Webサーバ21に障害が発生していると判断する。なお、ここでは、その他、第2Webサーバ21が、第1DBサーバ25に障害が発生していると判断することも考えられる。以下では、LB24が第2Webサーバ21に障害が発生していると判断した処理に注目し、以下の処理を説明する。
次に、第2Webサーバ21に障害が発生していることを検知したLB24は、第2Webサーバ21を識別する識別情報と、第2Webサーバ21に障害が発生していることを示す情報とを含む障害発生情報を、障害監視装置10に送信する。すると、図2に示す障害監視装置10の障害検知部1は、障害発生情報を受信する(図6のS50)。
次に、図2に示す障害監視装置10の出力制御部4は、障害検知部1が受信した障害発生情報に含まれる第2Webサーバ21を識別する識別情報を取得する。そして、出力制御部4は、当該識別情報をキーとして図8に示す対応付けテーブル5aを検索し、第2Webサーバ21が行う処理を特定する。具体的には、出力制御部4は、Web検索サービスおよび地図提示サービスを、第2Webサーバ21が行う処理として特定する(図6のS60)。そして、出力制御部4は、特定したWeb検索サービスおよび地図提示サービスが、図9に示す自動復旧中処理テーブル7aに登録されているか確認する。
本例の場合、Web検索サービスは自動復旧中処理テーブル7aに登録されているが、地図提示サービスは自動復旧中処理テーブル7aに登録されていない(図6のS70のNO)。このため、出力制御部4は、当該障害発生情報に基づいた障害通知情報を出力するよう決定し、障害通知情報を出力するよう出力部2を制御する(図6のS80)。
なお、上記例の変形例として、出力制御部は4、特定した複数の障害処理の中の1つでも自動復旧中処理記憶部7に登録されている場合に、障害通知情報の出力を行わないことを決定し、特定した複数の障害処理すべてが自動復旧中処理記憶部7に登録されていない場合に、障害通知情報の出力を行うことを決定してもよい。
本実施形態の構成によれば、第1の実施形態と同様の作用効果を実現することができる。
<第3の実施形態>
本実施形態の障害監視システムは、自動復旧中の処理装置が自動復旧作業を完了した場合、障害監視装置10が当該旨を示す情報を受信し、当該情報に従い、自動復旧中処理記憶部7(図4参照)に登録されているデータを書き換える。具体的には、自動復旧中の処理装置が自動復旧作業を完了した場合、障害監視装置10は、自動復旧中の処理装置が行う処理を自動復旧中処理として登録している自動復旧中処理記憶部7にアクセスし、当該登録を解除する。本実施形態の障害監視システムは、当該構成を有する点以外は、第1および第2の実施形態の障害監視システムと同様の構成である。
以下、本実施形態の障害監視システム100の構成について詳細に説明する。なお、第1および第2の実施形態と同様の構成については、ここでの説明は省略する。
<処理システム12>
本実施形態の処理システム12においては、自動復旧作業を開始した処理装置が自動復旧作業を完了すると、当該処理装置は、自装置を識別する識別情報と、当該識別情報で特定される処理装置が自動復旧作業を完了したことを示す情報とを含む自動復旧完了情報を、障害監視装置10に送信する。「自動復旧作業を完了」するとは、障害が発生している処理装置をシステムから切り離す、または、現用処理装置を、障害が発生している処理装置から待機状態の処理装置に切り換えるなどの自動復旧作業を正常に終了し、障害が発生していた処理装置が行う処理が正常に動作可能な状態になったことを意味する。プロセス再起動、自動リブートなどの自動復旧作業を終了しても、障害が発生していた処理装置が行う処理が正常に動作可能な状態になっていない場合は、自動復旧作業を完了したことにはならない。
なお、自動復旧作業を完了した処理装置が自装置を識別する識別情報を含む自動復旧完了情報を障害監視装置10に送信する構成に代えて、自動復旧作業を完了した処理装置の動作を監視していた処理装置が、自動復旧作業を完了した処理装置を識別する識別情報と、当該識別情報で特定される処理装置が自動復旧作業を完了したことを示す情報とを含む自動復旧完了情報を、障害監視装置に送信する構成としてもよい。
<障害監視装置10>
図10は、本実施形態の障害監視装置10の構成の一例を示す機能ブロック図である。図10に示す本実施形態の障害監視装置10は、障害検知部1と、出力部2と、自動復旧検知部3と、出力制御部4と、対応付け記憶部5と、登録部6と、自動復旧中処理記憶部7と、自動復旧完了検知部8とを有する。
自動復旧完了検知部8は、自動復旧中の処理装置が自動復旧作業を完了した場合、当該処理装置を識別する識別情報と、当該識別情報で特定される処理装置が自動復旧作業を完了したことを示す情報とを含む自動復旧完了情報を受信する。なお、自動復旧完了検知部8は、自動復旧作業を行い、完了した処理装置、または、自動復旧作業を完了した処理装置11の動作を監視していた処理装置11から、自動復旧完了情報を受信する。
登録部6は、対応付け記憶部5を参照して、自動復旧完了情報に含まれる識別情報で特定される処理装置が行う処理を特定する。そして、登録部6は、自動復旧中の処理装置が行う処理を自動復旧中処理として登録している自動復旧中処理記憶部7にアクセスし、特定した処理の登録を解除する。本実施形態においては、登録部6は、自動復旧中テーブルのデータを書き換えることで、上記解除を実現する。
なお、本実施形態においては、自動復旧中処理記憶部7は、図11に示すテーブルのように、登録された自動復旧中処理に対応付けて、当該処理が自動復旧中処理として登録される要因となった自動復旧中の処理装置を登録可能に構成してもよい。当該登録は、登録部6が、自動復旧情報に含まれる識別情報で特定される処理装置が行う処理を、自動復旧中処理として自動復旧中処理記憶部7に登録する際に、当該処理装置を識別する情報をあわせて登録することで実現してもよい。
自動復旧中処理記憶部7が図11に示すテーブルを保持する場合、登録部6は、自動復旧完了情報に含まれる識別情報で特定される処理装置が行う処理を特定すると、特定した処理であって、自動復旧完了情報に含まれる識別情報で特定される処理装置が対応付けられている処理の上記登録を解除するよう構成してもよい。
以降、出力制御部4は、障害検知部1が障害発生情報を受信すると、自動復旧情報および自動復旧完了情報に基づいて登録内容が更新される自動復旧中処理記憶部7の最新の情報を参照して、自動復旧中処理を特定し、障害通知情報の出力を制限するか否かを決定することとなる。
次に、本実施形態の障害監視システムによる作用効果について説明する。
上述した第1および第2の実施形態の構成によれば、自動復旧作業を開始した処理装置が行う処理である自動復旧中処理を認識可能な障害監視装置10は、いずれかの処理装置11に障害が発生していることを検知した場合、当該処理装置が行う処理と、上記自動復旧中処理との関係に基づき、ユーザに障害発生を通知するか否か決定することで、ユーザに不要な障害発生の通知を行うことを軽減する。
しかし、自動復旧作業を開始した処理装置が自動復旧作業を完了した場合に、当該処理装置が行う処理を自動復旧中処理として認識しないようにする構成を備えないと、必要な障害発生の通知が適切になされない不都合が生じ得る。
本実施形態の構成によれば、上記問題を解決することができる。
すなわち、本実施形態の構成によれば、障害監視装置10は、自動復旧作業を完了した処理装置が行う処理である自動復旧完了処理を認識することができる。
このため、障害監視装置10は、ある処理装置が自動復旧作業を行っていたため自動復旧中処理として認識していた処理を、当該処理装置が自動復旧作業を完了したことをきっかけに、自動復旧中処理ではない処理として認識することができる。結果、上記問題を解決し、必要な障害発生の通知をユーザに適切に行うことが可能となる。
<第4の実施形態>
本実施形態の障害監視システムにおいては、障害監視装置10は、自動復旧作業を完了したことを示す情報を受信した後、所定のタイミングから所定の時間が経過しても、自動復旧作業を開始した処理装置から自動復旧作業を完了したことを示す情報を受信しない場合、当該処理装置が行う処理を自動復旧中処理として登録している自動復旧中処理記憶部7(図4参照)にアクセスし、当該登録を解除するよう構成している。本実施形態の障害監視システムは、当該構成を有する点以外は、第1乃至第3の実施形態の障害監視システムと同様の構成である。
以下、本実施形態の障害監視システム100の構成について詳細に説明する。なお、第1乃至第3の実施形態と同様の構成については、ここでの説明は省略する。
<障害監視装置10>
本実施形態の障害監視装置10の構成の一例を示す機能ブロック図は、第3の実施形態の障害監視装置10と同様である(図10参照)。
登録部6は、自動復旧検知部3が第1処理装置11aを識別する識別情報を含む自動復旧情報を受信した後、所定のタイミングから所定の時間が経過するまでに、自動復旧完了検知部8が第1処理装置11aを識別する識別情報を含む自動復旧完了情報を受信しない場合、次の処理を実行する。登録部6は、自動復旧中処理記憶部7にアクセスし、第1処理装置11aが行う処理を自動復旧中処理とする登録を解除する。本実施形態においては、登録部6は、自動復旧中テーブルのデータを書き換えることで、上記解除を実現する。
上記「所定のタイミング」は設計的事項であり、例えば、自動復旧検知部3が自動復旧情報を受信したタイミングでもよいし、登録部6が自動復旧情報に含まれる識別情報で特定される処理装置が行う処理を自動復旧中処理として自動復旧中処理記憶部7に登録したタイミングでもよい。また、上記「所定時間」は適宜設定可能であり、例えば5分としてもよい。
登録部6による上記解除以降、出力制御部4は、障害検知部1が障害発生情報を受信すると、本実施形態の登録部6により登録内容が更新される自動復旧中処理記憶部7の最新の情報を参照して、自動復旧中処理を特定し、障害通知情報の出力を制限するか否かを決定することとなる。
なお、本実施形態においては、自動復旧中処理記憶部7は、図11に示すテーブルのように、登録された自動復旧中処理に対応付けて、当該処理が自動復旧中処理として登録される要因となった自動復旧中の処理装置、および、上記所定のタイミングにおける時刻を登録可能に構成してもよい。当該登録は、登録部6が、自動復旧情報に含まれる識別情報で特定される処理装置が行う処理を、自動復旧中処理として自動復旧中処理記憶部7に登録する際に、当該処理装置を識別する情報をあわせて登録することで実現してもよい。また、登録部6が、上記所定時間の計測を開始する所定のタイミングを監視しておき、当該タイミングにおける時刻を登録することで実現してもよい。そして、登録部6は、登録した当該情報を利用して、所定時間の計測を含む上記処理を行ってもよい。
次に、本実施形態の障害監視システムによる作用効果について説明する。
自動復旧作業を開始した処理装置11は、何らかの不都合により、自動復旧作業を完了できない場合がある。かかる場合、第1乃至第3の実施形態の構成によれば、障害監視装置10は、当該処理装置が行う処理をいつまでも自動復旧中処理として認識し、いつまでも所定の障害通知情報の出力を行わないよう制限することとなる。しかし、当該状況においては、ユーザに復旧作業を促す目的で、障害発生を通知するのが望ましい。
本実施形態の構成によれば、障害監視装置10は、ある処理装置が自動復旧作業を開始したことを示す情報を受信した後、所定のタイミングから所定の時間が経過するまでに、当該処理装置が自動復旧作業を完了したことを示す情報を受信しない場合、それまで自動復旧中処理として認識していた当該処理装置11が行う処理を、それ以降、自動復旧中処理でない処理として認識することとなる。結果、上記問題を解決し、必要な障害発生の通知をユーザに適切に行うことが可能となる。
<第5の実施形態>
本実施形態の障害監視システムにおいては、障害監視装置10は、自動復旧作業を開始した処理装置から、所定時間経過しても、自動復旧作業を完了したことを示す情報を受信しない場合、当該処理装置に障害が発生していることを示す情報を、ユーザに出力するよう構成している。本実施形態の障害監視システムは、当該構成を有する点以外は、第1乃至第4の実施形態の障害監視システムと同様の構成である。
以下、本実施形態の障害監視システム100の構成について詳細に説明する。なお、第1乃至第4の実施形態と同様の構成については、ここでの説明は省略する。
<障害監視装置10>
本実施形態の障害監視装置10の構成の一例を示す機能ブロック図は、第3の実施形態の障害監視装置10と同様である(図10参照)。
出力部2は、自動復旧検知部3が第1の処理装置11を識別する識別情報を含む自動復旧情報を受信した後、所定のタイミングから所定の時間が経過するまでに、自動復旧完了検知部8が第1の処理装置11を識別する識別情報を含む自動復旧完了情報を受信しなかった場合、第1の処理装置11に障害が発生していることを示す情報を出力する。上記「所定のタイミング」および「所定時間」については、第4の実施形態と同様である。
出力部2による当該情報の出力手段は特段制限されず、ディスプレイ、スピーカ、印刷装置などのあらゆる出力装置を利用して実現することができる。
次に、本実施形態の障害監視システムによる作用効果について説明する。
自動復旧作業を開始した処理装置は、何らかの不都合により、自動復旧作業を完了できない場合がある。かかる場合、第1乃至第3の実施形態の構成によれば、障害監視装置10は、当該処理装置が行う処理をいつまでも自動復旧中処理として認識し、いつまでも所定の障害通知情報の出力を行わないよう制限することとなる。しかし、当該状況においては、ユーザに復旧作業を促す目的で、障害発生を通知するのが望ましい。
本実施形態の構成によれば、障害監視装置10は、ある処理装置が自動復旧作業を開始したことを示す情報を受信した後、所定のタイミングから所定の時間が経過するまでに、当該処理装置が自動復旧作業を完了したことを示す情報を受信しない場合、当該処理装置に障害が発生していることを示す情報を、ユーザに向けて出力することとなる。結果、上記問題を解決し、必要な障害発生の通知をユーザに適切に行うことが可能となる。
1 障害検知部
2 出力部
3 自動復旧検知部
4 出力制御部
5 対応付け記憶部
6 登録部
7 自動復旧中処理記憶部
8 自動復旧完了検知部
10 障害監視装置
11a 第1処理装置
11b 第2処理装置
11c 第3処理装置
11d 第4処理装置
11e 第5処理装置
11f 第6処理装置
12 処理システム
20 第1Webサーバ
21 第2Webサーバ
22 第3Webサーバ
23 第4Webサーバ
24 LB
25 第1DBサーバ
26 第2DBサーバ
27 第1DB
28 第3DBサーバ
29 第4DBサーバ
30 監視サーバ
31 第2DB
40 LAN
50 インターネット
60 LAN
100 障害監視システム
5a 対応付けテーブル
7a 自動復旧中処理テーブル

Claims (11)

  1. 複数の処理装置を含み、複数の前記処理装置により協働して行われる1つの処理を含む複数の処理を実行する処理システムの障害を監視する障害監視装置であって、
    いずれかの前記処理装置に障害が発生していることを示す情報と、当該処理装置を識別する識別情報とを含む障害発生情報を受信する障害検知手段と、
    障害通知情報を出力する出力手段と、
    前記複数の処理装置の中のいずれかに障害が発生し、当該処理装置が自動復旧作業を開始した場合、当該処理装置を識別する識別情報と、当該識別情報で特定される前記処理装置が自動復旧作業を開始したことを示す情報とを含む自動復旧情報を受信する自動復旧検知手段と、
    前記障害検知手段が前記障害発生情報を受信すると、前記複数の処理各々に、当該処理を行う前記処理装置を対応付けて記憶する対応付け記憶手段を参照し、前記障害発生情報に含まれる前記識別情報で特定される前記処理装置が行う前記処理である障害処理を特定するとともに、特定した前記障害処理と、前記自動復旧情報に含まれる前記識別情報で特定される前記処理装置が行う前記処理である自動復旧中処理との関係に基づき、前記障害通知情報の出力を制限するか否かを決定し、前記出力手段を制御する出力制御手段と、
    を有する障害監視装置。
  2. 請求項1に記載の障害監視装置において、
    前記対応付け記憶手段をさらに有する障害監視装置。
  3. 請求項1または2に記載の障害監視装置において、
    前記自動復旧検知手段が前記自動復旧情報を受信すると、前記対応付け記憶手段を参照し、前記自動復旧情報に含まれる前記識別情報で特定される前記処理装置が行う前記処理を特定するとともに、特定した前記処理を前記自動復旧中処理として、自動復旧中処理記憶手段に登録する登録手段をさらに有し、
    前記出力制御手段は、前記自動復旧中処理記憶手段を参照し、前記自動復旧中処理を特定する障害監視装置。
  4. 請求項3に記載の障害監視装置において、
    前記出力制御手段は、前記障害検知手段が前記障害発生情報を受信すると、前記対応付け記憶手段を参照して前記障害処理を特定し、特定した前記障害処理が前記自動復旧中処理記憶手段に登録されている場合、前記障害通知情報を出力しないように前記出力手段を制御する障害監視装置。
  5. 請求項3または4に記載の障害監視装置において、
    自動復旧中の前記処理装置が自動復旧作業を完了した場合、当該処理装置を識別する識別情報と、当該識別情報で特定される前記処理装置が自動復旧作業を完了したことを示す情報とを含む自動復旧完了情報を受信する自動復旧完了検知手段をさらに有し、
    前記登録手段は、前記対応付け記憶手段を参照して、前記自動復旧完了情報に含まれる前記識別情報で特定される前記処理装置が行う前記処理を特定し、前記自動復旧中処理記憶手段における特定した前記処理の前記自動復旧中処理としての登録を解除する障害監視装置。
  6. 請求項5に記載の障害監視装置において、
    前記登録手段は、前記自動復旧検知手段が第1の前記処理装置を識別する前記識別情報を含む前記自動復旧情報を受信した後、所定のタイミングから所定の時間が経過するまでに、前記自動復旧完了検知手段が前記第1の処理装置を識別する前記識別情報を含む前記自動復旧完了情報を受信しない場合、前記自動復旧中処理記憶手段における前記第1の処理装置が行う前記処理の前記自動復旧中処理としての登録を解除する障害監視装置。
  7. 請求項5または6に記載の障害監視装置において、
    前記出力制御手段は、前記自動復旧検知手段が第1の前記処理装置を識別する前記識別情報を含む前記自動復旧情報を受信した後、所定のタイミングから所定の時間が経過するまでに、前記自動復旧完了検知手段が前記第1の処理装置を識別する前記識別情報を含む前記自動復旧完了情報を受信しなかった場合、前記第1の処理装置に障害が発生していることを示す情報を出力する障害監視装置。
  8. 請求項1から7のいずれか1項に記載の障害監視装置において、
    前記出力手段は、ユーザが認識可能な形式で前記障害通知情報を出力する障害監視装置。
  9. 前記処理システムと、請求項1から8のいずれか1項に記載の障害監視装置とからなる障害監視システム。
  10. 複数の処理装置を含み、複数の前記処理装置により協働して行われる1つの処理を含む複数の処理を実行する処理システムの障害を監視する障害監視方法であって、
    いずれかの前記処理装置に障害が発生していることを示す情報と、当該処理装置を識別する識別情報とを含む障害発生情報を受信する障害検知ステップと、
    障害通知情報を出力する出力ステップと、
    前記複数の処理装置の中のいずれかに障害が発生し、当該処理装置が自動復旧作業を開始した場合、当該処理装置を識別する識別情報と、当該識別情報で特定される前記処理装置が自動復旧作業を開始したことを示す情報とを含む自動復旧情報を受信する自動復旧検知ステップと、
    前記障害検知ステップで前記障害発生情報を受信すると、前記複数の処理各々に、当該処理を行う前記処理装置を対応付けて記憶する対応付け記憶手段を参照し、前記障害発生情報に含まれる前記識別情報で特定される前記処理装置が行う前記処理である障害処理を特定するとともに、特定した前記障害処理と、前記自動復旧情報に含まれる前記識別情報で特定される前記処理装置が行う前記処理である自動復旧中処理との関係に基づき、前記障害通知情報の出力を制限するか否かを決定し、前記出力ステップにおける前記障害通知情報の出力を制御する出力制御ステップと、
    を有する障害監視方法。
  11. 複数の処理装置を含み、複数の前記処理装置により協働して行われる1つの処理を含む複数の処理を実行する処理システムの障害を監視するためのプログラムであって、
    コンピュータを、
    いずれかの前記処理装置に障害が発生していることを示す情報と、当該処理装置を識別する識別情報とを含む障害発生情報を受信する障害検知手段、
    障害通知情報を出力する出力手段、
    前記複数の処理装置の中のいずれかに障害が発生し、当該処理装置が自動復旧作業を開始した場合、当該処理装置を識別する識別情報と、当該識別情報で特定される前記処理装置が自動復旧作業を開始したことを示す情報とを含む自動復旧情報を受信する自動復旧検知手段、
    前記障害検知手段が前記障害発生情報を受信すると、前記複数の処理各々に、当該処理を行う前記処理装置を対応付けて記憶する対応付け記憶手段を参照し、前記障害発生情報に含まれる前記識別情報で特定される前記処理装置が行う前記処理である障害処理を特定するとともに、特定した前記障害処理と、前記自動復旧情報に含まれる前記識別情報で特定される前記処理装置が行う前記処理である自動復旧中処理との関係に基づき、前記障害通知情報の出力を制限するか否かを決定し、前記出力手段を制御する出力制御手段、
    として機能させるためのプログラム。
JP2010255851A 2010-11-16 2010-11-16 障害監視装置、障害監視システム、障害監視方法およびプログラム Pending JP2012108648A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010255851A JP2012108648A (ja) 2010-11-16 2010-11-16 障害監視装置、障害監視システム、障害監視方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010255851A JP2012108648A (ja) 2010-11-16 2010-11-16 障害監視装置、障害監視システム、障害監視方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2012108648A true JP2012108648A (ja) 2012-06-07

Family

ID=46494211

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010255851A Pending JP2012108648A (ja) 2010-11-16 2010-11-16 障害監視装置、障害監視システム、障害監視方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2012108648A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115685952A (zh) * 2023-01-05 2023-02-03 中汽研汽车工业工程(天津)有限公司 面向汽车生产车间的巡检方法、控制装置、设备及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115685952A (zh) * 2023-01-05 2023-02-03 中汽研汽车工业工程(天津)有限公司 面向汽车生产车间的巡检方法、控制装置、设备及介质

Similar Documents

Publication Publication Date Title
US8689332B2 (en) Information processing apparatus cooperating with virus management function device, and anti-virus method
JP5579650B2 (ja) 監視対象プロセスを実行する装置及び方法
JP4572250B2 (ja) 計算機切り替え方法、計算機切り替えプログラム及び計算機システム
US9210059B2 (en) Cluster system
JP6179101B2 (ja) 管理装置、管理方法、および管理プログラム
JP5056504B2 (ja) 制御装置、情報処理システム、情報処理システムの制御方法および情報処理システムの制御プログラム
JP4905165B2 (ja) 監視支援プログラム、監視方法および監視システム
US10110516B2 (en) Computer-readable recording medium, switch controlling apparatus, and method of controlling a switch
CN106411643B (zh) Bmc检测方法以及装置
JP2012108648A (ja) 障害監視装置、障害監視システム、障害監視方法およびプログラム
JP2007200103A (ja) クライアントサーバシステムおよびリソース制御方法
JP5429171B2 (ja) 情報処理装置及びハングアップ原因調査用情報取得方法
JP5268820B2 (ja) 監視装置用プログラムの書き換え方法
JP2009282601A (ja) 動作監視プログラム、監視システム、および、監視方法
WO2007077604A1 (ja) 情報処理装置及びハングアップ監視方法
KR20180105102A (ko) 원격 장애 복구 시스템
JP6330607B2 (ja) 情報処理システム,ロギング制御プログラム及びロギング制御方法
JP5765124B2 (ja) 起動制御装置、情報処理システム、起動制御方法、プログラム
JP2008152316A (ja) 通信システム、デバイス、ホスト、通信方法およびプログラム
JP2005157462A (ja) 系切り替え方法及び情報処理システム
JP2006191426A (ja) 二重化ネットワーク管理システムのファイル更新方法およびネットワーク管理サーバ装置
JP6580913B2 (ja) 電子装置、管理装置、情報処理装置、制御システムおよび電源制御方法、並びにコンピュータ・プログラム
JP2009230522A (ja) システム監視装置およびプログラム
JP5401385B2 (ja) 通信ソフトウェア
CN115495273A (zh) 客户端程序健康管理方法、装置、电子设备、存储介质