JP2010146436A - 監視システム、及びその制御方法、プログラム - Google Patents

監視システム、及びその制御方法、プログラム Download PDF

Info

Publication number
JP2010146436A
JP2010146436A JP2008325018A JP2008325018A JP2010146436A JP 2010146436 A JP2010146436 A JP 2010146436A JP 2008325018 A JP2008325018 A JP 2008325018A JP 2008325018 A JP2008325018 A JP 2008325018A JP 2010146436 A JP2010146436 A JP 2010146436A
Authority
JP
Japan
Prior art keywords
monitoring
restart
monitoring agent
agent
failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008325018A
Other languages
English (en)
Inventor
Akihiro Yamada
明宏 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon IT Solutions Inc
Original Assignee
Canon IT Solutions Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon IT Solutions Inc filed Critical Canon IT Solutions Inc
Priority to JP2008325018A priority Critical patent/JP2010146436A/ja
Publication of JP2010146436A publication Critical patent/JP2010146436A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Abstract

【課題】監視中断時間の短縮によって監視制御システムの可用性を改善する。
【解決手段】監視マネージャは、監視エージェントにおける障害の検知を行なう稼動監視手段と、前記稼動監視手段が前記監視エージェントにおける障害を検知した後で前記監視エージェントが担当するシステムの代替監視を実行する代替監視手段と、前記監視エージェントが再起動を実行するための制御情報を前記監視エージェントに送信する再起動指示手段と、前記制御情報を受信した監視エージェントから受信した再起動が正常終了した旨の通知に応じて、前記代替監視を終了する代替監視終了手段とを備え、監視エージェントは、前記システムの障害情報を記憶する第1の障害情報記憶手段と、前記監視マネージャから受信した前記制御情報に応じて再起動を実行する再起動手段と、前記監視マネージャに前記システムの再起動が正常に終了した旨を通知する再起動通知手段を備えた。
【選択図】図1

Description

本発明は、複数のコンピュータが接続されたコンピュータシステムに関し、特にコンピュータの運用状態を監視する監視ソフトウェアにおける監視制御を実行するための監視システム、及びその制御方法、プログラムに関する。
情報システムの中核を構成する汎用機や大型サーバ等の各ハードウェア及びオペレーションシステム及びデータベース及びアプリケーションプログラムの稼動状況を監視する監視ソフトウェアはデータセンタを含む各種情報システムで広く用いられている。この監視ソフトウェア自体が障害を起こすと情報システムの状況が把握できなくなり、障害発生時の対処も困難になる。そのため、監視ソフトウェアには高い可用性が要求される。
監視ソフトウェアの可用性の向上を図るには、監視ソフトウェアの障害による監視中断時間を短縮する必要がある。一般的に、この可用性の向上を図る方法には、監視ソフトウェアを二重化してホットスタンバイ構成とし、待機系の監視ソフトウェアが現用系の監視ソフトウェアの障害を検知した際に切替える方式や、監視ソフトウェアの冗長構成を採用しない場合は、監視ソフトウェアの異常終了を検知した際に迅速に自動再起動を行なう技術等が知られている。
監視マネージャと監視エージェントで構成される監視ソフトウェアは、負荷分散の観点より、監視対象の各コンピュータ(コンピュータの中央処理演算装置が複数区画に論理分割された環境ではその区画)毎に監視エージェントを配置するソフトウェア構成を採用することがある。
このような環境では、監視マネージャの機能停止に伴う監視制御への影響度を考慮して、監視マネージャをホットスタンバイ構成とし、監視エージェントは、アプリケーションの自動再起動装置等を利用して可用性の向上を図る方法が一例として知られている。特許文献1には、アプリケーション自動再起動装置等を利用して異常終了したアプリケーションを自動再起動する方法が開示されている。
特開平6−202861号公報
しかしながら、特許文献1に記載のアプリケーション自動再起動装置は、「再起動判断手段でエラーコードを用いてもう一度再起動するかどうかを判断するために、異常終了状態によって、再起動する場合が限定可能となり、アプリケーションなどのバグでエラーループに落ち込むようなことは防止される」とあるため、本発明を監視ソフトウェアに適用した場合、監視エージェントの異常終了の原因によっては、自動再起動が停止され監視中断が長時間におよぶ可能性があった。
また、監視エージェントの可用性をアプリケーションの自動再起動で向上させる方法では、監視エージェントが異常終了せずに監視中断状態となるケースには対応できないという課題があった。本発明は上記の課題を解決するためになされたものであり、監視中断時間の短縮によって監視制御システムの可用性を改善することを目的とする。
上記課題を解決するために、監視エージェントの稼動を管理する監視マネージャとシステムを監視する監視エージェントとが協働してシステムを監視する監視制御システムであって、
前記監視マネージャは、
前記監視エージェントにおける障害の検知を行なう稼動監視手段と、
前記稼動監視手段が前記監視エージェントにおける障害を検知した後で前記障害を検知された監視エージェントが担当するシステムの代替監視を前記障害を検知された監視エージェントに代わって実行する代替監視手段と、
前記障害を検知された監視エージェントが再起動を実行するための制御情報を前記障害を検知された監視エージェントに送信する再起動指示手段と、
前記再起動を実行するための制御情報を受信した監視エージェントから受信した再起動が正常終了した旨の通知に応じて、前記代替監視を終了する代替監視終了手段
とを備え、
前記監視エージェントは、
前記システムの障害情報を記憶する第1の障害情報記憶手段と、
前記監視マネージャから受信した前記再起動を実行するための制御情報に応じて再起動を実行する再起動手段と、
前記監視マネージャに前記システムの再起動が正常に終了した旨を通知する再起動通知手段を備える
ことを特徴とする。
上記課題を解決するために、好ましくは前記監視マネージャは、
前記代替監視手段は前記障害を検知された監視エージェントが担当するシステムの障害を検知した場合は、該検知した障害についての障害情報を第2の障害情報記憶手段に記憶し、
前記代替監視終了手段が前記代替監視を終了した後で、前記障害を検知された監視エージェントが担当するシステムの前記障害情報が前記第2の障害情報記憶手段に記憶されているかを判定する同期化要否判定手段と、
前記判定手段が前記障害を検知された監視エージェントが担当するシステムの前記障害情報が前記第2の障害情報記憶手段に記憶されていると判定した場合に、前記第1の障害情報記憶手段を更新すべく前記障害を検知された監視エージェントに前記障害を検知された監視エージェントが担当するシステムの前記障害情報を送信する障害情報送信手段とを
更に備え、
前記監視エージェントは、前記監視マネージャから受信した前記障害情報を用いて前記第1の障害情報記憶手段に記憶されている障害情報を更新する障害情報更新手段を更に備えることを特徴とする。
上記課題を解決するために、好ましくは前記監視エージェントは、
受動監視機能と能動監視機能とを備えた通常モードと、受動監視機能を備えたセーフモードの何れかのモードで前記再起動を実行し、
前記監視マネージャは、
前記監視エージェントが前記通常モードと前記セーフモードの何れのモードで前記再起動を実行したかを判定する判定手段と、
前記監視エージェントが前記セーフモードで再起動した場合に、監視エージェントの自動再起動を含む自動化機能を抑止する自動化機能抑止手段とを更に備えることを特徴とする。
請求項1記載の発明によれば、前記監視マネージャが前記監視エージェントにおける障害の検知を行なう稼動監視手段と、
前記稼動監視手段が前記監視エージェントにおける障害を検知した後で前記障害を検知された監視エージェントが担当するシステムの代替監視を前記障害を検知された監視エージェントに代わって実行する代替監視手段と、
前記障害を検知された監視エージェントが再起動を実行するための制御情報を前記障害を検知された監視エージェントに送信する再起動指示手段と、
前記再起動を実行するための制御情報を受信した監視エージェントから受信した再起動が正常終了した旨の通知に応じて、前記代替監視を終了する代替監視終了手段
とを備え、
前記監視エージェントが、
前記システムの障害情報を記憶する第1の障害情報記憶手段と、
前記監視マネージャから受信した前記再起動を実行するための制御情報に応じて再起動を実行する再起動手段と、
前記監視マネージャに前記システムの再起動が正常に終了した旨を通知する再起動通知手段を備えるので、監視エージェントの障害に伴う監視中断時間を短縮することができる。
さらに、請求項2記載の発明によれば、前記監視マネージャは、
前記代替監視手段は前記障害を検知された監視エージェントが担当するシステムの障害を検知した場合は、該検知した障害についての障害情報を第2の障害情報記憶手段に記憶し、
前記代替監視終了手段が前記代替監視を終了した後で、前記障害を検知された監視エージェントが担当するシステムの前記障害情報が前記第2の障害情報記憶手段に記憶されているかを判定する同期化要否判定手段と、
前記判定手段が前記障害を検知された監視エージェントが担当するシステムの前記障害情報が前記第2の障害情報記憶手段に記憶されていると判定した場合に、前記第1の障害情報記憶手段を更新すべく前記障害を検知された監視エージェントに前記障害を検知された監視エージェントが担当するシステムの前記障害情報を送信する障害情報送信手段とを
更に備え、
前記監視エージェントは、前記監視マネージャから受信した前記障害情報を用いて前記第1の障害情報記憶手段に記憶されている障害情報を更新する障害情報更新手段を更に備えるので、監視エージェントの一時的な監視中断時間を短縮することができる。
さらに、請求項3記載の発明によれば、前記監視エージェントは、
受動監視機能と能動監視機能とを備えた通常モードと、受動監視機能を備えたセーフモードの何れかのモードで前記再起動を実行し、
前記監視マネージャは、
前記監視エージェントが前記通常モードと前記セーフモードの何れのモードで前記再起動を実行したかを判定する判定手段と、
前記監視エージェントが前記セーフモードで再起動した場合に、監視エージェントの自動再起動を含む自動化機能を抑止する自動化機能抑止手段とを更に備えるので、監視エージェントの自動再起動の試行が成功する確率を高めることで、監視中断時間の短縮を可能としている。
以下、図面を参照して、本発明の実施形態を詳細に説明する。 図1は、本発明の実施形態に係る監視制御システムの全体構成図(監視エージェント障害発生状態)である。尚、図1の構成は一例であり、用途や目的に応じて様々な構成例があってもよい。
本発明に係る監視制御システムは、複数のコンピュータA101,コンピュータB102と、監視対象となるコンピュータ102のCPUやメモリ等の資源や監視対象アプリケーション110の状況の変化を表示する監視端末103と、これらを相互に接続するネットワーク(通常時通信路104,緊急用通信路105)、コンピュータA101に接続される外部記憶装置106,コンピュータB102に接続される外部記憶装置107、システムコンソール111で構成される。同図ではコンピュータA101,コンピュータB102をそれぞれ一区画で記載しているが、CPUを論理的に複数区画に分割した構成でもよく、あるいはそれぞれが複数のCPUを備え各CPUが一区画に対応する構成としても良い。以下、この区画を単にシステムと呼ぶことがある。
コンピュータA101では、システム監視用プログラムである監視マネージャ108が常時稼動し、コンピュータB102では、監視マネージャ108と協働してシステム監視を行なう監視エージェント109が常時稼動している。監視エージェント109は、各システムの状況の変化を監視し、状況の変化を検知すると監視結果を監視マネージャ108に送信する。監視マネージャ108は、監視エージェント109の制御や監視エージェント109より伝達された監視結果を監視端末103へ通知する処理等を実施する。
ネットワークは、通常時通信路104と緊急用通信路105で構成される。通常時通信路104は、監視マネージャ108と監視エージェント109との間をアプリケーションのレベルで通信する既存機能で実現可能な通信経路である。本発明が適用されたシステムでは、監視マネージャ108による監視エージェント109の稼動確認用の経路、監視エージェント109による監視結果を監視マネージャ108に伝達するための経路等で通常時通信路104を使用する。緊急用通信路105は、監視マネージャ108と監視対象となるコンピュータ102上のシステムコンソール111間を通信する既存機能で実現可能な通信経路である。本発明が適用されたシステムでは、監視マネージャ108による代替監視中のメッセージ受信用の経路、監視エージェント109の自動再起動指示時のコマンド発行用の経路等で緊急用通信路105を使用する。
図2は、コンピュータシステムA108及びコンピュータB109のハードウェア構成を示す図である。
CPU201は、システムバス203に接続される各デバイスやコントローラを統括的に制御する。また、メモリ202は、CPU201の主メモリ、ワークエリア等として機能する。CPU201は、処理の実行に際して必要なプログラム等をメモリ202にロードして、プログラムを実行することで各種動作を実現するものである。
また、入出力サブシステム204は、各種ハードウェア及びシステムバス203とのインタフェース回路を含んでいる。端末制御装置205は、システムコンソール111等の各種端末との入出力を制御する。ディスク制御装置206は、外部記憶装置(106、107)等との入出力を制御する。外部記憶装置(106、107)には、オペレーティングシステムプログラム(以下、OS)や、各コンピュータシステムの実行する機能を実現するために必要な後述する監視マネージャ用プログラム、監視エージェント用プログラム、及び各種アプリケーションプログラム(業務プログラム)等が記憶されている。
通信制御装置207は、入出力サブシステム204と接続され、ネットワークを介して、外部機器と接続・通信するものであり、ネットワークでの通信制御処理を実行する。例えば、TCP/IPを用いたインターネット通信等が可能である。
本発明を実現するための監視マネージャ用及び監視エージェント用プログラムは外部記憶装置(106、107)に記録されており、必要に応じてメモリ202にロードされることによりCPU201によって実行されるものである。さらに、本発明に係わる上記各プログラムが用いる定義ファイル及び各種情報テーブルは外部記憶装置(106、107)に格納されており、これらについての詳細な説明は後述する。
図3は、本発明を適用した監視制御システムにおける機能ブロック図である。監視マネージャ108の自動運転制御部301は、監視エージェント109の稼動状況を監視する監視エージェント稼動監視手段と、監視エージェント108の通知制御部304からの要求情報を代替監視制御部302に伝えるとともに、監視マネージャ108の代替監視制御部302からの制御情報に応じて、監視エージェント109が担当するシステムの監視を監視エージェント109に変わって実行する代替監視実施手段と、監視マネージャ108の自動再起動制御部303から受信した制御情報に基づいて監視エージェント109の自動再起動等の自動化機能を抑止する自動化機能抑止手段と、監視マネージャ108の代替監視制御部302の制御情報に基づいて監視対象のシステムの監視情報を監視情報テーブル1301に追加又は更新する監視情報更新手段と、代替監視中に検知した障害情報を外部記憶装置106に記憶している障害情報テーブル1401に追加又は更新する障害情報更新手段を有する。
監視マネージャ108の代替監視制御部302は、自動運転制御部301より特定のシステムについての要求情報を受け取り、該要求情報に応じて自動運転制御部301へ監視エージェント109から監視マネージャ108による監視に切替える旨又は監視エージェント109の監視に戻す旨の制御情報(切替指示)を送る代替監視切替指示手段と、自動再起動制御部に自動再起動を実行する旨の制御情報を送る自動再起動指示手段と、監視エージェント109の初期化制御部305へ障害情報及び該障害情報を用いて監視状況ファイル1501を更新する旨の制御情報を送る障害情報更新指示手段を有する。
監視マネージャ108の自動再起動制御部303は、代替監視制御部302から受信した制御情報を用いて再起動を実行するための制御情報を監視エージェント109に伝える自動再起動指示手段と、自動運転制御部301に対して監視エージェント109の自動再起動等の自動化機能を抑制するための制御情報を送る自動化機能抑止指示手段を有する。監視マネージャ108は、監視エージェント109の単体障害を検知した場合、監視エージェント109をそのシステム上で自動再起動する。システム障害を検知した場合、予め定義された内容に従い、監視エージェント109のシステム間移動を伴う自動再起動が可能である。当機能が使用されるのは、監視エージェント109が稼動するシステムが、アプリケーションのシステム間移動が可能な環境を想定している。監視マネージャ108は、監視エージェント109のセーフモードによる自動再起動が可能であり、セーフモードでの自動再起動が正常に完了した場合、監視マネージャ108による監視エージェント109への自動化指示を抑止する機能を持つ。
監視エージェント109の通知制御部304は、所定の状況の発生を検知した場合に監視マネージャ108へ監視の切換を要求するための切替要求を送信する代替監視切替指示手段を有する。監視エージェント109の初期化制御部305は、監視マネージャ108の代替監視制御部302からの制御情報と監視マネージャ108が代替監視中に発生した障害情報とにより監視状況ファイル1501に記憶している障害情報を更新する障害情報更新手段を有する。
以下、本発明の実施例について画面を参照しながら説明する。
[実施例1]
図4は、監視エージェント109が、監視エージェント109の自動化機能を抑止するセーフモードで起動中に、手動回復処理が必要な事象が発生した際の監視端末103における監視画面の一例である。同図では、監視エージェント109の自動化機能が抑止されているため、オペレータに手動により回復処理を実施するよう指示するメッセージが表示されている。
続いて、本発明が適用されたシステムにおける代替監視制御の基本的な流れについて説明する。監視マネージャ108の代替監視制御部302からの制御情報に応じて、自動運転制御部301の代替監視手段が監視エージェント109が担当するシステムの監視を監視エージェント109に変わって実行する契機は以下のようなケースがある。
第1のケースは、監視マネージャ108の自動運転制御部301が、監視エージェント109の通知制御部304から代替監視の切替要求や切替停止要求を受信した場合である。監視マネージャ108はこれらの切替要求や切替停止要求を監視エージェント109を特定するID(APPL名)と共にメモリ202のワークエリア内のバッファに記憶する。第2のケースは、監視マネージャ108の自動運転制御部301が、監視マネージャ108と監視エージェント109間の通常時通信路104の切断を検知した場合である。監視マネージャ108はこの通常時通信路104の切断を検知した旨の情報をメモリ202のワークエリアに記憶する。第3のケースは、監視マネージャ108の自動運転制御部301より作動する監視エージェント稼動監視手段が、監視エージェント109からの応答なし等の異常を検知した場合である。
図5は、本発明が適用されたシステムの代替監視制御の基本的な流れを示すフローチャートである。監視マネージャ108の代替監視制御部302作動後の流れを同図で説明する。監視エージェント109は、計画停止する前に、予め当該監視エージェント109を特定するIDと計画停止である旨の情報と停止時刻とを含む通知を監視マネージャ108に送信し、監視マネージャ108は監視エージェント109からこの通知を受信し、外部記憶装置106上の不図示の運転状況ファイルに追加している。
監視マネージャ108の代替監視制御部302は、ステップS100では、作動した契機が監視エージェント109の通知制御部304の代替監視切替指示手段から受信した切替指示(切替要求又は切替停止要求のいずれか)であるか否かを判定する。通知制御部304の代替監視切替指示手段からの切替指示である場合、処理をステップS600に進める。代替監視切替指示手段から受信した通知が切替指示でない場合は処理をステップS200に進める。
ステップS600では、監視マネージャ108は、切替指示が切替要求である場合は自動運転制御部301に対して監視マネージャが代替監視を実行する旨の制御情報を送り、自動運転制御部301の代替監視手段は代替監視を開始してこの処理を終了する。代替監視切替指示が切替停止要求である場合、監視マネージャ108は、代替監視を停止してこの処理を終了する。
ステップS200では、監視マネージャ108の代替監視制御部302は、作動した契機が監視エージェント109の通知制御部304からの切替指示でない場合、前述の不図示の運転状況ファイルを参照することにより監視エージェント109の計画停止によるものか、計画停止によるものでないか(従って障害による停止か)を判定する。計画停止と判定した場合、監視マネージャ108は、代替監視を不要と判断しこの処理を終了する。計画停止によるものではないと判定した場合処理をステップS300に進める。
ステップS300では、監視マネージャ108の代替監視制御部302は、監視エージェント109の障害と判断した場合、監視エージェント109単体の障害なのかシステム障害かを判定する。障害を判定する一例は、障害を検知したシステムへの緊急用通信路105が確立できない場合と、緊急用通信路105は確立できるがそのシステム上のOSに対するコマンド応答メッセージを受信できない場合とをシステム障害と判断し、それ以外を監視エージェント109の単体障害と判断する方法である。複数のコンピュータが専用の装置によって論理的に結合された環境であれば、監視マネージャ108が、システム障害を直接検知して判定してもよい。単体障害と判定した場合、該当する監視エージェント109のAPPL名と単体障害である旨をメモリ202のワークエリアに記憶し、処理をステップS400に進める。他方、システム障害と判定した場合、処理をステップS500に進める。
障害種別が監視エージェント109の単体障害の場合、ステップS400では、監視エージェント109が通常モードやセーフモードで自動再起動されるまでの間、監視マネージャ108による代替監視が継続される。
障害種別がシステム障害の場合、ステップS500では、アプリケーションのシステム間移動が可能な環境であれば、監視エージェント109がシステム間移動を伴う通常モードやセーフモードで自動再起動されるまでの間、監視マネージャ108による代替監視が継続される。
ステップ(S400、S500)いずれの場合も、監視エージェント109の自動再起動が成功しない場合は、監視マネージャ109による代替監視を継続することで監視中断が長時間におよばないようにしている。
ここで、セーフモードの詳細について説明する。監視エージェント109は、起動に必要な情報が予め定義されたプロシージャを使用して起動される。このプロシージャは、通常モード用とセーフモード用で別々のプロシージャが外部記憶装置106上に用意されている。セーフモード用のプロシージャの定義内容は、ユーザーカスタマイズが可能であり、用途に応じて様々な内容を定義することが可能である。
セーフモードの一例として、監視対象のシステムやアプリケーション等の状態を変化させることなく監視する受動監視に必要な最低限の機能で監視エージェント109を起動するプロシージャがある。このプロシージャは、受動監視に必要でない機能であれば、必要により監視対象のシステムやアプリケーションに働きかけてその状態を変化させる能動監視のような能動的な処理や自動回復処理、自動再起動等の自動化処理が全て抑止された内容が定義されている。具体的には、このプロシージャには、受動監視に必要な最小構成の提供モジュールや監視情報等を定義している。ここで提供された監視エージェント109の初期化モジュールは、受動監視に必要な機能が起動するとその他の処理の起動を回避し、通常モード用とは異なるセーフモード専用の初期化完了メッセージを出力するように設計されている。一方、監視情報テーブル1301では、動作部に定義された能動的な処理等は、単に監視端末103へ通知するだけの処理に置換されている。
監視エージェント109をこの例のセーフモードで起動した場合、受動監視に必要な機能以外で発生した監視エージェントのバグや、ファイルのI/Oの長期化、コマンド応答の長期化による初期化遅延を回避できるため、迅速に自動再起動することが可能となる。メッセージ・トラフィックの負荷分散を考慮した監視制御システムでは、監視エージェント109の再起動の可能性が高まることで、監視マネージャ108による緊急用通信路105を使用した代替監視を監視エージェント109に引き継げるため、負荷分散を維持した状態で監視中断時間を短縮できる効果がある。
その他の例としては、監視エージェント109のバージョンアップや修正モジュールの適用作業を各システム段階的に移行する場合、フォールバック用に一世代前のプロシージャをセーフモードとして定義してもよい。監視エージェント109をこの例のセーフモードで起動した場合、通常モード用と同じ初期化完了メッセージが出力されるため、監視マネージャ108は監視エージェント109の自動化機能を抑止しない。そのため、このセーフモードで起動した監視エージェント109は、移行前と同等の機能を使用することが可能であり、監視機能レベルの低下時間を短縮することが可能となる。
図6は、本発明の実施形態の監視マネージャ108が、監視エージェント109の単体障害を検知した際の処理を示すフローチャートである。同図は、監視エージェント109が障害時にシステム間移動できない環境を想定しており、図5の障害種別の判定(ステップS300)において既に緊急用通信路105を確立している場合を想定している。
まずステップS411では、監視マネージャ108は、障害中の監視エージェント109に替わって対象システムの代替監視を開始する。監視マネージャ108は、緊急用通信路105を使用して対象システムの状況の変化を受動監視する。
ステップS412では、監視マネージャ108の自動再起動制御部303は、障害中の監視エージェント109を通常モード、または、セーフモードでの再起動を行う旨の制御情報を監視エージェント109に送り、障害中の監視エージェント109に再起動を行なう旨の制御情報を送信した時刻と当該監視エージェントのAPPL名をメモリ202のワークエリアに記憶する。、監視エージェント109の再起動及び初期化が正常に完了するのを待機する。具体的にはまず通常モードでの再起動を行なう旨の制御情報を送り、通常モードでの再起動及び初期化が正常に終了した旨の通知を受信しない場合はセーフモードでの再起動を行なう旨の制御情報を送り、それぞれ制御情報を送信した時刻と当該監視エージェント109のAPPL名をメモリ202のワークエリアに記憶し、再度この通知を待つ。監視エージェント109より正常完了の通知を受信した場合は、代替監視制御部302に当該監視エージェント109の再起動及び初期化が正常に終了した旨の通知を送ると共に、監視マネージャ108による代替監視中である旨の通知を監視エージェント109に送信し、処理をステップS413に進める。監視エージェント109より正常完了の通知を受信しない場合は、所定時間(自動再起動管理テーブル1101に指定した初期化完了待機時間×自動再起動の試行回数の残回数)通知の受信を待機した後、処理をステップS413に進める。
他方、再起動された監視エージェント109の初期化制御部305は、ステップS421では、監視エージェント109の初期化が完了すると対象システムの監視を開始する。続いて、監視マネージャ108との通常時通信路104の接続を確立すると、初期化が完了した旨の通知を監視マネージャ108へ送信し、監視マネージャ108から監視マネージャ108による代替監視中である旨の通知を受信しメモリ202のワークエリアに記憶し、処理をステップS422に進める。
監視マネージャ108の処理の説明に戻る。ステップS413では、監視マネージャ108の代替監視制御部302は、監視エージェント109の初期化が正常に完了した旨の通知を受信できない場合、その旨のメッセージを監視端末103に通知し監視マネージャ108による代替監視状態を継続する。他方、監視マネージャ108の代替監視制御部302は、監視エージェント109の初期化が正常に完了したことを確認した場合、処理をステップS414に進める。ステップS414では、監視マネージャ108による代替監視を停止し、代替監視を停止する旨の通知を監視エージェント109に送信し、処理をステップS415に進める。ステップS415では、受動監視用の経路として接続を確立した緊急用通信路105を切断して処理をステップS416に進める。
ステップS416では、監視マネージャ108の代替監視制御部302は、外部記憶装置106のハードディスク上に記憶された障害情報1401を、代替監視対象システムを一意に特定可能なシステムIDで検索する。検索の結果このシステムIDに該当する障害情報が存在しない場合(代替監視中に新たな障害情報が追加されていない場合)は、監視エージェント109の初期化制御部305に同期化が不要な旨の通知を送信して代替監視制御の処理を終了する。
他方、該当する障害情報が存在する場合(代替監視中に新たな障害情報が追加された場合)は、処理をステップS417に進める。ステップS417では、該当する障害情報を自動運転制御部301を経由して監視エージェント109の初期化制御部305に送信後、障害情報テーブル1401より送信済の障害情報を削除する。
他方、監視エージェント109の初期化制御部305は、ステップS422では、メモリ202のワークエリアに記憶した監視マネージャ108の自動再起動制御部303からの通知により監視マネージャ108による代替監視中であるか否かを判定し、代替監視中の場合は処理をステップS423に進め、代替監視中でない場合は処理をステップS424に進める。
ステップS423では、監視エージェント109の初期化制御部305は、監視マネージャ108の代替監視制御部302からの同期化が不要な旨の通知、または、障害情報を受信する。障害情報を受信した場合は、外部記憶装置107上に記憶された監視状況ファイル1501を更新する。ステップS424では、監視エージェント109の初期化制御部305は、監視状況ファイル1501を読込み、監視対象システムの状況を(監視マネージャ108経由で)監視端末103へ通知してこの処理を終了する。
なお、監視マネージャ108の代替監視中に監視対象アプリケーション110に障害が発生し、監視エージェント109の再起動前に該当アプリケーションの障害回復を実施した場合は、オペレータが、コマンド等の手動操作で該当アプリケーションの状況を「異常(ERROR)」から「正常(UP)」に戻す。また、そのコマンドに応じた内部処理により、監視端末103へ「正常(UP)」を通知すると同時に、監視対象アプリケーション110に障害が発生した際に書き込まれた障害情報を削除する(又は削除フラグを追加する)。これらの対応により、監視エージェント109の再起動後に、アプリケーションの現状と、監視端末103に表示された状況の内容が不一致になることを防ぐことが可能である。
続いて、上述した監視マネージャ108による代替監視の開始(図6のステップS411)と代替監視の停止(図6のステップS414)の詳細を説明する。まず、代替監視で使用される監視情報テーブル(代替監視用)の詳細について説明する。監視マネージャ108には、外部記憶装置106上に監視情報テーブル(代替監視用)1301が予め定義され記憶されている。図15に監視情報テーブル1301(代替監視用)の一例を示す。
監視情報テーブル(代替監視用)1301は、監視エージェント109の名前を指定するAPPL名と、判定条件部、動作部で構成される。判定条件部には、監視対象システムの状況の変化を監視対象とするための判定条件が指定されている。動作部は、判定条件に合致した場合の動作が指定されている。監視情報テーブル(代替監視用)1301の動作部は、能動的な処理が抑止されている。例えば、動作部に自動回復を実施する処理などが指定されていた場合は、手動で回復処理が必要な旨の通知を監視端末103に送信する処理などに置換されている。
次に、監視マネージャ108による代替監視の開始(図6のステップS411)の詳細を、図11のフローチャートを使用して説明する。ステップS4111では、監視マネージャ108の代替監視制御部302は、代替監視の開始を実施する際に)監視エージェント109のAPPL名を含む代替監視の開始を要求する切替要求をメモリ202のワークエリアから取得する。
ステップS4112では、監視マネージャ108の代替監視制御部302は、メモリ202のワークエリアから取得した代替監視の切替要求に含まれるAPPL名を用いて、外部記憶装置106に記憶された監視情報(代替監視用)1301より代替監視が必要な監視エージェント109用の監視情報を読込み、外部記憶装置106上に記憶された監視情報(監視マネージャ用)にその内容を追加し、監視マネージャ108の自動運転制御部301にメモリ202のワークエリアにあるバッファ内の監視情報を更新する旨の制御情報を送信する。
ステップS4113では、監視マネージャ108の自動運転制御部301が、受信した制御情報を用いてバッファ内の監視情報(監視マネージャ用)を更新すると、監視マネージャ108は、代替監視を開始する。以上で図11の説明を終わる。次に、監視マネージャ108による代替監視の停止(S414)の詳細を、図12を使用して説明する。ステップS4141では、監視マネージャ108の代替監視制御部302は、代替監視の停止を実施する際に指示内容(停止)と監視エージェント109の名前をメモリ202のワークエリアにあるバッファから取得する。
ステップS4142では、監視マネージャ108の代替監視制御部302は、外部記憶装置106上に記憶された監視情報(監視マネージャ用)を読み込み、監視情報テーブル1301のAPPL名より該当監視エージェント109の監視項目を特定後、該当データを削除する。続いて、監視マネージャ108の自動運転制御部301にバッファ内の監視情報の更新を指示する。
監視マネージャ108の自動運転制御部301が、バッファ内の監視情報(監視マネージャ用)を更新すると、監視マネージャ108は、代替監視を停止する(S4143)。以上で図11の説明を終わる。
続いて、上述した監視マネージャ108による監視エージェント109の自動再起動処理(図6のステップS412)の詳細を図13及び図10の詳細フローチャートを用いて説明する。
まず、自動再起動制御で使用する自動再起動管理テーブル1101の詳細を、図13を使用して説明する。自動再起動管理テーブル1101は、監視エージェント109の名前、自動再起動の試行回数(最大回数、セーフモードで起動する回数、試行残り回数)、自動再起動の試行を許容する時間、監視エージェント109の初期化完了を待機する最大時間、通常モードで監視エージェント109を起動した場合に初期化の正常完了を確認するためのメッセージ、セーフモードで監視エージェント109を起動した場合に初期化の正常完了を確認するためのメッセージ等の項目で構成され外部記憶装置106上に記憶されている。これらの項目の値は、自動再起動の試行残り回数を除いて予め設定する必要がある。試行残り回数の項目は、自動再起動制御内で設定される項目である。
図13の1行目を例に項目の意味を説明する。監視E1という名前の監視エージェント109は、監視マネージャ108によって1800秒以内に最大3回まで自動再起動の試行が許容されている。この試行回数は、1800秒以内に4回目の自動再起動は試行できないが、1回目の試行より1800秒が経過すると再び自動再起動を試行することが可能である。最大3回の自動再起動がどのモードで行なわれるかの内訳は、1回目と2回目が通常モードであり、3回目だけがセーフモードとなる。他方、最大試行回数が3回でセーフモード試行回数が2の場合は、1回目だけが通常モードであり、2回目と3回目がセーフモードとなる。監視マネージャ108が、監視E1の自動再起動において初期化完了を待機する最大時間は300秒である。300秒以内に次の確認メッセージを受信できない場合は、異常ケースとみなされ自動再起動が繰り返し試行される。監視E1を通常モードで自動再起動した場合に初期化の正常完了を確認するためのメッセージはMSG0000Iである。同様に、セーフモードの場合は、MSG0001Iである。
図10は、監視マネージャ108の自動再起動制御部303による監視エージェント109の自動再起動処理を示すフローチャートである。ステップS41201では、監視マネージャ108の自動再起動制御部303は、外部記憶装置106上に記憶された自動再起動管理テーブル1101を読み込み、監視エージェント109を再起動するために必要な情報を把握する。自動再起動管理テーブル1101の自動再起動の試行回数の残回数の値が未定義であれば、自動再起動の最大試行回数を試行残回数に設定し、外部記憶装置106上の自動再起動管理テーブル1101の該当項目を更新する。
ステップS41202では、監視マネージャ108の自動再起動制御部303は、監視エージェント109の自動再起動試行前に、監視エージェント109の強制終了が必要かを判断する。判断するひとつの方法は、監視エージェント109が稼動中か否かで強制終了の実施有無を判断する方法である。監視エージェント109が稼動中のケースとは、監視エージェント109の異常終了を伴わない単体障害(図5のステップS300)を検知して自動再起動制御部303が実行されたケース(図5のステップS400)や、監視エージェント109の自動再起動後に所定時間内に初期化が正常完了せず自動再起動を繰り返すケース(図7のステップS412)等がある。これらの各ステップでメモリ202のワークエリアに記憶された情報を参照し上記ケースであれば監視エージェント109の強制終了が必要と判断する。
ステップS41203では、監視マネージャ108が監視エージェント109の強制終了が必要と判断した場合は、該当する監視エージェントが稼動しているシステムのオペレーションシステムに、該当する監視エージェントを強制終了させる旨の制御情報を送信し、該当する監視エージェントを強制終了させるる。ただし、この監視エージェント109の強制終了を検知して、代替監視制御部302が重複して作動しない考慮が必要である。具体的には自動再起動制御部303から当該監視エージェント109を強制終了させる旨を自動運転制御部301に通知し、自動運転制御部301は当該監視エージェント109が監視マネージャ108により強制終了されたことを外部記憶装置106上の不図示の運転状況ファイルに記録することで、代替監視制御部302が重複して作動しないようにする。
ステップS41204では、監視マネージャ108の自動再起動制御部303は、自動再起動の実施判定を行なう。自動再起動管理テーブル1101の自動再起動の試行回数の残回数が0の場合、監視マネージャ108は、所定時間内に所定回数の監視エージェント109の自動再起動を試行したが正常に初期化を完了できなかったと判断し処理を終了する。これは、自動再起動と異常終了の永久ループを回避するためである。自動再起動の試行の残回数が0でない場合、処理をステップS41205に進める。
ステップS41205では、監視マネージャ108の自動再起動制御部303は、S41204のエラー閾値判定(所定時間内に所定回数の自動再起動に失敗した場合は、それ以上の自動再起動を試行しない)のために、自動再起動の試行回数の残回数のリセット処理をタイマー設定するか判断する。具体的には監視マネージャ108の自動再起動制御部303は、自動再起動の試行回数の残回数と最大試行回数が等しい場合、処理をステップS41206に進める。他方、自動再起動の試行回数の残回数と最大試行回数が等しくない場合、処理をステップS41207に進める。
ステップS41206では、試行残回数のリセット処理をタイマー設定する。具体的には、自動再起動管理テーブル1101の自動再起動の許容時間項目に指定された時間が経過すると、試行残回数は最大試行回数で上書きされる。そのため、自動再起動の許容時間を経過すると再び自動再起動の試行は可能となる。引き続き処理をステップS41207に進める。
ステップS41207では、監視マネージャ108の自動再起動制御部303は、監視エージェント109の自動再起動を通常モードで実施するか、セーフモードで実施するかの判断を行ない、通常モードかセーフモードかの判断結果をメモリ202のワークエリアに記憶する。自動再起動制御部303は、自動再起動管理テーブル1101のセーフモード試行回数の値が試行回数の残回数の値以上であれば、処理をステップS41208に進める。他方、自動再起動管理テーブル1101のセーフモード試行回数の値が、試行回数の残回数の値未満であれば、処理をステップS41209に進める。
ステップS41208では、監視マネージャ108の自動再起動制御部303は、セーフモード用のプロシージャを、外部記憶装置106上に記憶された監視エージェント開始情報314より取得してメモリ202のワークエリアに記憶し、処理をステップS41210へ進める。なお、プロシージャには、監視エージェント109を起動するために必要な情報が予め設定されている。
ステップS41209では、監視マネージャ108の自動再起動制御部303は、通常モード用のプロシージャを、外部記憶装置106上に記憶された監視エージェント開始情報314より取得してメモリ202のワークエリアに記憶し、処理をステップS41210へ進める。
ステップS41210では、監視マネージャ108の自動再起動制御部303は、メモリ202のワークエリアに記憶したプロシージャを使用して監視エージェント109の自動再起動を試行し、処理をステップS41211に進める。ステップS41211では、監視マネージャ108の自動再起動制御部303は、自動再起動を試行すると自動再起動管理テーブル1101の自動再起動の試行回数の残回数を1つ減らし、処理をステップS41212に進める。
ステップS41212では、監視マネージャ108の自動再起動制御部303は、自動再起動管理テーブル1101の初期化完了の待機時間中、監視エージェント109からの通常モードの完了通知またはセーフモードの完了通知の受信を待機する。待機時間が経過するか又は監視エージェント109より正常完了の完了通知を受信した場合は、受信した完了通知をメモリ202のワークエリアに記憶し、処理をステップS41213に進める。
ステップS41213では、監視マネージャ108の自動再起動制御部303は、監視エージェント109の再起動及び初期化の正常完了が待機時間内に確認できない場合、初期化に失敗したと判断して処理をステップS41201に戻し、自動再起動を再試行する。他方、監視エージェント109より再起動及び初期化が正常完了した旨の通知を受信した場合は、監視マネージャ108による代替監視中である旨を監視エージェント109に通知し、処理をステップS141214に進める。
ステップS41214では、監視マネージャ108は、監視エージェント109を通常モードで再起動したのかあるいはセーフモードで再起動したのかを、ステップS41207でメモリ202のワークエリアに記憶した判断結果を用いて判定し、監視エージェント109をセーフモードで起動したと判定した場合処理をステップS41215に進める。監視エージェント109をセーフモードで起動した場合、監視エージェント109は自動化処理を実行できないため、その監視エージェント109に対する自動化処理の実行指示を抑止する必要があるからである。他方、監視エージェント109を通常モードで起動したと判定した場合処理をステップS41216に進める。
ステップS41215では、監視マネージャ108の自動再起動制御部303は、自動運転制御部301へ対象の監視エージェント109への自動化処理の実行指示を抑止する旨の制御情報を送信し、この自動再起動処理を終了する。ステップS41216では、監視マネージャ108の自動再起動制御部303は、自動運転制御部301へ対象の監視エージェント109への自動化処理の実行指示の抑止を解除(自動化をON)する旨の制御情報を送信し、この自動再起動処理を終了する(S41216)。以上で図10の説明を終わる。
このように自動再起動処理を実行することで、監視エージェント109の単体障害時に監視マネージャ108の代替監視やセーフモードの自動再起動により、監視エージェント109が再起動されるまでの間に発生していた監視中断時間を短縮することが可能となる。以上で監視マネージャ108が監視エージェント109の単体障害をおこした場合を想定した実施例1の説明を終わる。
[実施例2]
実施例2は本発明の実施形態の監視マネージャ108が、システム障害を検知した場合(図5のステップS500の場合)を想定している。図7は、本発明の実施形態の監視マネージャ108が、システム障害を検知した際の処理を示すフローチャートである。同図は、監視エージェント109がシステム障害で稼動不能になった場合に、監視エージェントを他のシステムで再起動することにより、監視エージェントをシステム間で移動できる環境(例えばアプリケーションプログラムやデータベースや各種業務ファイルが記憶されているハードディスク装置などの外部記憶装置を、複数のシステムから同様にアクセスできる環境)を想定しており、緊急用通信路105の接続を確立しなくてもシステム障害を検知できることを想定している。尚、図7において、図6と同一の処理については、同一のステップ番号を付加し、その説明については省略する。
監視マネージャ108は、監視エージェント109の障害時にシステム間移動できる環境では、システム間移動管理テーブル1201を使用して、監視エージェント109をセーフモード、または、通常モードで自動再起動を試行する移動先のシステムを特定する必要がある。まず、図14のシステム間移動管理テーブル1201の詳細を説明する。
システム間移動管理テーブル1201は、外部記憶装置106に記憶されており、システムの名前(システムID)、システム間移動対象のアプリケーションの名前(APPL名)、システム間移動対象アプリケーションのグループ名(グループ名)、移動先のシステム指定(移動先)、登録されているアプリケーションの起動を確認するためのメッセージ(他APPL起動確認MSG)等の項目で構成される。これらの項目は、予め定義する必要がある。
システム間移動管理テーブル1201の移動先の項目に「ANY」が指定されている場合、不特定システム(不特定システムの場合は、同一筐体のみならず他の筐体への移動も想定している。)で監視エージェント109の自動再起動が試行されることを意味する。他方、システム間移動管理テーブル1201の移動先の項目に具体的なシステム名が指定されている場合、指定されたシステムで監視エージェント109の自動再起動が試行されることを意味する。
システム間移動管理テーブル1201の移動先の項目に「NO」が指定されている場合、システム間を移動した監視エージェント109の自動再起動を試行しないことを意味する。本発明の実施形態の監視マネージャ108は、監視エージェント109以外の自動再起動は試行しないため、システム間移動管理テーブル1201に登録する他のアプリケーションに関する情報は、システム間移動を担当する製品の定義内容と一致させる必要がある。
次にシステム間移動管理テーブル1201の1から3行目を例に項目の意味を説明する。システム間移動管理テーブル1201の1から3行目は、SYS1というシステムで稼動していた監視E1という名前の監視エージェント109と、APPL1a、APPL2という名前のアプリケーションは、同じグループであるGRP1に属している。SYS1でシステム障害が発生した際、監視マネージャ108は、APPL1a、APPL2が移動先のシステムで起動された際に出力されたMSG1000I、MSG2000Iを受信し、メッセージ発行元のシステムを監視E1の移動先システムと特定して自動再起動を試行する。図14の例に記載していないが、監視エージェント109の自動起動を試行する際にグループ内での優先度を考慮した設計としてもよい。
次に図7のフローチャート及び、図14のシステム間移動管理テーブル1201を参照しつつ本発明の実施形態の監視マネージャ108が、システム障害を検知した際の代替監視制御について説明する。ステップS511では、監視マネージャ108の代替監視制御部302は、外部記憶装置106上に記憶されたシステム間移動管理テーブル1201を読み込み、監視対象エージェント109のシステム間移動を管理する上で必要な情報をメモリ202のワークエリアに記憶し、処理をステップS512に進める。
ステップS512では、監視マネージャ108の代替監視制御部302は、システム間移動管理テーブル1201の該当監視エージェント109の移動先項目に「NO」が指定されていた場合、代替監視制御を終了する。他方、該当監視エージェント109の移動先項目に「NO」が指定されていない場合、処理をステップS411に進める。
ステップS411の監視マネージャによる代替監視の開始は図6で既に説明したので詳細は省略する。ステップS411から処理をステップS513に進める。
ステップS513では、監視マネージャ108の代替監視制御部302は、システム間移動管理テーブル1201の該当監視エージェント109の移動先項目に「ANY」または特定のシステム名が指定されていた場合、監視エージェント109の移動先システムを特定する。特定のシステム名が指定されていた場合、そのシステムを監視エージェント109の移動先システムと特定する。「ANY」の場合は、他APPL起動確認MSGに登録されているメッセージを受信待ちし、受信メッセージの発行元システムを移動先システムと特定し、処理をステップS412に進める。
ステップS412では、移動管理テーブル1201の該当監視エージェント109の移動先項目に記憶されているシステムにシステム障害を起こしたシステムの該等監視エージェント109を再起動させるための制御情報を送信する点が実施例1とは異なる。他の点はステップS412の監視エージェント109の自動再起動処理乃至ステップS414の監視マネージャ108による代替監視の停止は図6で既に説明したので詳細は省略するが、ステップS414では、代替監視を停止する旨の通知を移動先の監視エージェント109に送信する点が実施例1と異なる。
ステップS414からステップS416に処理を進める。ステップS416の障害情報の同期化とステップS417の監視エージェント109へ障害情報を送信するステップも図6で既に説明したので詳細は省略する。監視エージェント109側の処理であるステップS421乃至ステップS424も、監視エージェント109が移動先のシステムで稼動する点が異なるだけであり、図6で既に説明したので詳細は省略する。
このように処理することで、監視エージェント109の障害時にシステム間移動できる環境に本発明を適用することが可能である。このような環境に本発明を適用した場合、監視エージェント109が再起動されるまでの間に発生していた監視中断時間が、監視マネージャ108の代替監視によって短縮することが可能となる。
[実施例3]
図8、図9は、本発明の実施形態の監視マネージャ108が、監視エージェント109からの切替指示(切替要求又は切替停止要求)を契機に代替監視を開始/停止する処理のフローチャートである。実施例3は図5のステップS600の場合に該当する。尚、図8、図9において、図6と同一の処理については、同一のステップ番号を付加し、その説明については省略する。
図8を使用して監視マネージャ108が、監視エージェント109からの切替指示を契機に代替監視を開始する処理の詳細を説明する。ステップS610では、監視エージェント109の通知制御部304は、必要に応じて監視マネージャ108の自動運転制御部301へ代替監視への切替要求を送信する。この切替要求には、送信元のシステム名と監視エージェント109の名前(APPL名)が含まれている。
ステップS620では、監視マネージャ108の自動運転制御部301は、代替監視の切替要求を受信すると代替監視制御部302に切替要求を送信する。代替監視制御部302は、送信元のシステム名と監視エージェント109の名前の情報(APPL名)を受信し、送信元のシステム名とAPPL名とをメモリ202のワークエリアに記憶し、処理をステップS630に進める。
ステップS630では、監視マネージャ108の代替監視制御部302は、代替監視の開始通知を切替要求の送信元のシステムに対して送信し、受動監視経路のための緊急用通信路105を確立し、処理をステップS411に進める。ステップS411では代替監視状態を開始する。ステップS411の詳細は図6で説明したので省略する。
最後に図9を使用して監視マネージャ108が、監視エージェント109からの切替指示(切替停止要求)を契機に代替監視を停止する処理の詳細を説明する。まずステップS640では、監視エージェント109の通知制御部304は、必要に応じて監視マネージャ108の自動運転制御部301へ代替監視の切替停止要求を送信する。この停止通知電文には、送信元のシステム名と監視エージェント109の名前が含まれている(S640)。
ステップS650では、監視マネージャ108の自動運転制御部301は、代替監視の停止通知を受信すると代替監視制御部302を作動させる。代替監視制御部302は、作動時に送信元のシステム名と監視エージェント109の名前の情報を取得している。その後、ステップS414で監視マネージャ108による代替監視状態が停止され、ステップS416で障害情報の同期化が必要と判定した場合はステップS417に処理を進め、障害情報(監視マネージャ用)312が監視エージェント109へ送信される。ステップS414の監視マネージャ108による代替監視の停止乃至ステップS417の監視エージェント109への障害情報の送信は図6で既に説明したので詳細な説明は省略する。又監視エージェント109側の処理であるステップ423の障害情報の受信及び障害状況ファイル315の更新も図6で既に説明したので詳細は省略する。
このようにすれば、監視エージェント109が稼動するシステムで一時的に発生した大量メッセージが監視エージェント109内のデータスペース不足を招きメッセージ消失による監視中断が発生した場合でも、監視マネージャ108が代替監視することで監視中断時間を短縮することが可能となる。具体的には、監視エージェント109が、データスペース使用量の警告上限値と警告下限値を監視し、警告上限値に達した場合に監視マネージャ108による代替監視を開始し、警告下限値に収束した場合に代替監視を停止するようにすればメッセージ消失による監視中断時間を短縮することが可能となる。
[実施例4]
本実施形態における図5乃至図11のフローチャートの各処理,図4の画面に示す機能が外部からインストールされるプログラムによって、ホストコンピュータにより遂行されていてもよい。そして、その場合、CD−ROMやフラッシュメモリやFD等の記録媒体により、あるいはネットワークを介して外部の記録媒体から、プログラムを含む情報群を出力装置に供給される場合でも本発明は適用されるものである。
なお、特に図示しないが、記録媒体に記憶されるプログラム群を管理する情報、例えばバージョン情報,作成者等も記憶され、かつ、プログラム読み出し側のOS等に依存する情報、例えばプログラムを識別表示するアイコン等も記憶される場合もある。
さらに、各種プログラムに従属するデータも上記ディレクトリに管理されている。また、インストールするプログラムやデータが圧縮されている場合に、解凍するプログラム等も記憶される場合もある。
以上のように、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムコードを読出し実行することによっても、本発明の目的が達成されることは言うまでもない。
この場合、記録媒体から読み出されたプログラムコード自体が本発明の新規な機能を実現することになり、そのプログラムコードを記憶した記録媒体は本発明を構成することになる。
プログラムコードを供給するための記録媒体としては、例えば、フレキシブルディスク,ハードディスク,光ディスク,光磁気ディスク,CD−ROM,CD−R,DVD−ROM,磁気テープ,不揮発性のメモリカード,ROM,EEPROM,シリコンディスク等を用いることができる。
また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、記録媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
また、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。また、本発明は、システムあるいは装置にプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのソフトウェアによって表されるプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。
さらに、本発明を達成するためのソフトウェアによって表されるプログラムをネットワーク上のサーバ,データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。
以上説明したように本発明によれば、監視エージェント109の障害を検知した場合や異常終了を検知した場合、監視マネージャ108の代替監視やセーフモードでの自動再起動の試行によって、自動再起動の停止による監視中断時間を短縮することが可能である。また、監視エージェント109の代替監視終了手段によって、監視エージェント109が異常終了しない場合の監視中断時間を短縮することが可能である。
本発明の実施形態に係る監視制御システムの全体構成図(監視エージェント障害発生時)を示す図である。 本発明の実施形態の各種端末のハードウエア構成を示す図である。 本発明を適用した監視制御システムにおける機能ブロック図を示す図である。 本発明を適用したシステムの監視端末103における監視画面の一例を示す図である。 本発明を適用したシステムの代替監視制御の基本的な処理を示すフローチャートである。 本発明の実施形態の監視エージェントの単体障害を検知した際の代替監視制御の処理を示すフローチャートである。 本発明の実施形態のシステム障害を検知した際の代替監視制御を示すフローチャートである。 本発明の実施形態の監視エージェントからの切替指示を契機に代替監視を開始する際のフローチャートである。 本発明の実施形態の監視エージェントからの切替指示を契機に代替監視を停止する際のフローチャートである。 本発明の実施形態の監視マネージャによる監視エージェントの自動再起動を示すフローチャートである。 本発明の実施形態の監視マネージャによる代替監視の開始を示す詳細フローチャートである。 本発明の実施形態の監視マネージャによる代替監視の停止を示す詳細フローチャートである。 本発明の実施形態の自動再起動管理テーブルの一例を示す図である。 本発明の実施形態のシステム間移動管理テーブルの一例を示す図である。 本発明の実施形態の監視情報テーブル(代替監視用)の一例を示す図である。 本発明の実施形態の障害情報の一例を示す図である。 本発明の実施形態の監視状況ファイルの一例を示す図である。
符号の説明
101 コンピュータシステムA
102 コンピュータシステムB
103 監視端末
104 通常時通信路
105 緊急用通信路
106 外部記憶装置
107 外部記憶装置
108 監視マネージャ
109 監視エージェント
201 CPU
202 メモリ
203 システムバス
204 入出力サブシステム
205 端末制御装置
206 ディスク制御装置
207 通信制御装置

Claims (5)

  1. 監視エージェントの稼動を管理する監視マネージャとシステムを監視する監視エージェントとが協働してシステムを監視する監視制御システムであって、
    前記監視マネージャは、
    前記監視エージェントにおける障害の検知を行なう稼動監視手段と、
    前記稼動監視手段が前記監視エージェントにおける障害を検知した後で前記障害を検知された監視エージェントが担当するシステムの代替監視を前記障害を検知された監視エージェントに代わって実行する代替監視手段と、
    前記障害を検知された監視エージェントが再起動を実行するための制御情報を前記障害を検知された監視エージェントに送信する再起動指示手段と、
    前記再起動を実行するための制御情報を受信した監視エージェントから受信した再起動が正常終了した旨の通知に応じて、前記代替監視を終了する代替監視終了手段
    とを備え、
    前記監視エージェントは、
    前記システムの障害情報を記憶する第1の障害情報記憶手段と、
    前記監視マネージャから受信した前記再起動を実行するための制御情報に応じて再起動を実行する再起動手段と、
    前記監視マネージャに前記システムの再起動が正常に終了した旨を通知する再起動通知手段を備える
    ことを特徴とする監視制御システム。
  2. 前記監視マネージャは、
    前記代替監視手段は前記障害を検知された監視エージェントが担当するシステムの障害を検知した場合は、該検知した障害についての障害情報を第2の障害情報記憶手段に記憶し、
    前記代替監視終了手段が前記代替監視を終了した後で、前記障害を検知された監視エージェントが担当するシステムの前記障害情報が前記第2の障害情報記憶手段に記憶されているかを判定する同期化要否判定手段と、
    前記判定手段が前記障害を検知された監視エージェントが担当するシステムの前記障害情報が前記第2の障害情報記憶手段に記憶されていると判定した場合に、前記第1の障害情報記憶手段を更新すべく前記障害を検知された監視エージェントに前記障害を検知された監視エージェントが担当するシステムの前記障害情報を送信する障害情報送信手段とを
    更に備え、
    前記監視エージェントは、前記監視マネージャから受信した前記障害情報を用いて前記第1の障害情報記憶手段に記憶されている障害情報を更新する障害情報更新手段を更に備えることを特徴とする請求項1記載の監視制御システム。
  3. 前記監視エージェントは、
    受動監視機能と能動監視機能とを備えた通常モードと、受動監視機能を備えたセーフモードの何れかのモードで前記再起動を実行し、
    前記監視マネージャは、
    前記監視エージェントが前記通常モードと前記セーフモードの何れのモードで前記再起動を実行したかを判定する判定手段と、
    前記監視エージェントが前記セーフモードで再起動した場合に、監視エージェントの自動再起動を含む自動化機能を抑止する自動化機能抑止手段とを
    更に備えることを特徴とする請求項1又は請求項2記載の監視制御システム。
  4. 監視エージェントの稼動を管理する監視マネージャとシステムを監視する監視エージェントとが協働してシステムを監視する監視制御システムの制御方法であって、
    前記監視マネージャは、
    前記監視エージェントにおける障害の検知を行なう稼動監視ステップと、
    前記稼動監視ステップにおいて前記監視エージェントにおける障害を検知した後で前記障害を検知された監視エージェントが担当するシステムの代替監視を前記障害を検知された監視エージェントに代わって実行する代替監視ステップと、
    前記障害を検知された監視エージェントが再起動を実行するための制御情報を前記障害を検知された監視エージェントに送信する再起動指示ステップと、
    前記再起動を実行するための制御情報を受信した監視エージェントから受信した再起動が正常終了した旨の通知に応じて、前記代替監視を終了する代替監視終了ステップ
    とを備え、
    前記監視エージェントは、
    前記システムの障害情報を記憶する第1の障害情報記憶ステップと、
    前記監視マネージャから受信した前記再起動を実行するための制御情報に応じて再起動を実行する再起動ステップと、
    前記監視マネージャに前記システムの再起動が正常に終了した旨を通知する再起動通知ステップを備える
    ことを特徴とする監視制御システムの制御方法。
  5. 監視エージェントの稼動を管理する監視マネージャとシステムを監視する監視エージェントとが協働してシステムを監視する監視制御システムの制御プログラムであって、
    前記監視マネージャを、
    前記監視エージェントにおける障害の検知を行なう稼動監視手段と、
    前記稼動監視手段が前記監視エージェントにおける障害を検知した後で前記障害を検知された監視エージェントが担当するシステムの代替監視を前記障害を検知された監視エージェントに代わって実行する代替監視手段と、
    前記障害を検知された監視エージェントが再起動を実行するための制御情報を前記障害を検知された監視エージェントに送信する再起動指示手段と、
    前記再起動を実行するための制御情報を受信した監視エージェントから受信した再起動が正常終了した旨の通知に応じて、前記代替監視を終了する代替監視終了手段
    として機能させ、
    前記監視エージェントを、
    前記システムの障害情報を記憶する第1の障害情報記憶手段と、
    前記監視マネージャから受信した前記再起動を実行するための制御情報に応じて再起動を実行する再起動手段と、
    前記監視マネージャに前記システムの再起動が正常に終了した旨を通知する再起動通知手段として機能させる
    ことを特徴とする監視制御システムの制御プログラム。
JP2008325018A 2008-12-22 2008-12-22 監視システム、及びその制御方法、プログラム Withdrawn JP2010146436A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008325018A JP2010146436A (ja) 2008-12-22 2008-12-22 監視システム、及びその制御方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008325018A JP2010146436A (ja) 2008-12-22 2008-12-22 監視システム、及びその制御方法、プログラム

Publications (1)

Publication Number Publication Date
JP2010146436A true JP2010146436A (ja) 2010-07-01

Family

ID=42566788

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008325018A Withdrawn JP2010146436A (ja) 2008-12-22 2008-12-22 監視システム、及びその制御方法、プログラム

Country Status (1)

Country Link
JP (1) JP2010146436A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945197A (zh) * 2012-10-17 2013-02-27 上海华兴数字科技有限公司 一种控制模块与显示模块之间的通信方法及工控显示装置
CN110377341A (zh) * 2019-06-10 2019-10-25 北京字节跳动网络技术有限公司 一种监听无响应异常的方法、装置、介质和电子设备
CN115623252A (zh) * 2022-12-16 2023-01-17 深圳市永兴元科技股份有限公司 在线考试自动检测重启推流控制方法、装置及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945197A (zh) * 2012-10-17 2013-02-27 上海华兴数字科技有限公司 一种控制模块与显示模块之间的通信方法及工控显示装置
CN110377341A (zh) * 2019-06-10 2019-10-25 北京字节跳动网络技术有限公司 一种监听无响应异常的方法、装置、介质和电子设备
CN115623252A (zh) * 2022-12-16 2023-01-17 深圳市永兴元科技股份有限公司 在线考试自动检测重启推流控制方法、装置及存储介质

Similar Documents

Publication Publication Date Title
US6971095B2 (en) Automatic firmware version upgrade system
US8607219B2 (en) Information processing device and a firmware updating method of the information processing device
JP4572250B2 (ja) 計算機切り替え方法、計算機切り替えプログラム及び計算機システム
JPH0831047B2 (ja) 論理区画式データ処理装置における区画間制御のための装置及び方法
CN102238093A (zh) 防止业务中断的方法和装置
CN110109772B (zh) 一种cpu的重启方法、通信设备及可读存储介质
US20200394144A1 (en) Information processing system, information processing device, bios updating method for information processing device, and bios updating program for information processing device
JP2010128885A (ja) ストレージシステムのアップデート処理プログラム、アップデート処理方法及びストレージシステム
US8880552B2 (en) Database system and database control method
JP5056504B2 (ja) 制御装置、情報処理システム、情報処理システムの制御方法および情報処理システムの制御プログラム
JP5285045B2 (ja) 仮想環境における故障復旧方法及びサーバ及びプログラム
JP2010146436A (ja) 監視システム、及びその制御方法、プログラム
JP5387767B2 (ja) 実行中のプログラムの更新技術
JP2001022709A (ja) クラスタシステム及びプログラムを記憶したコンピュータ読み取り可能な記憶媒体
US20090150459A1 (en) Highly available multiple storage system consistency heartbeat function
JP2012014248A (ja) スケールアウト構成に対応したソフトウェア配布システム、方法、及びプログラム
JP2011053780A (ja) 復旧システム、復旧方法及びバックアップ制御システム
JP2002049509A (ja) データ処理システム
JP2019197352A (ja) サービス継続システムおよびサービス継続方法
US20130198377A1 (en) Control method, control system, information processing apparatus, and computer-readable non-transitory medium
JPH10133963A (ja) 計算機の故障検出・回復方式
CN110231961B (zh) 一种主控板重启的控制方法及系统
JP2007073069A (ja) 計算機、資源自動適用処理プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体
WO2024000535A1 (zh) 分区表更新方法、装置、电子设备及存储介质
JP5290064B2 (ja) ソフトウェア切り替え装置及びソフトウェア切り替え方法並びにそのプログラム

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20120306