JP2016200961A - サーバー障害監視システム - Google Patents
サーバー障害監視システム Download PDFInfo
- Publication number
- JP2016200961A JP2016200961A JP2015080360A JP2015080360A JP2016200961A JP 2016200961 A JP2016200961 A JP 2016200961A JP 2015080360 A JP2015080360 A JP 2015080360A JP 2015080360 A JP2015080360 A JP 2015080360A JP 2016200961 A JP2016200961 A JP 2016200961A
- Authority
- JP
- Japan
- Prior art keywords
- server
- failure
- monitored
- monitoring
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
【課題】サーバー障害とネットワーク障害を切り分け、被監視サーバーの管理者へ障害発生通知及び/又は復旧を良好に実現可能とするサーバー障害監視システムを提供する。【解決手段】サーバー障害監視システム1は、複数の被監視サーバー(3a〜3d)と、被監視サーバーの障害を監視する監視サーバー2と、複数の被監視サーバー(3a〜3d)及び監視サーバー2を接続するネットワーク4より構成され、被監視サーバーは自己のサーバープロセスの障害を検知する監視エージェント(30a〜30d)を備え、監視サーバー2は、各監視エージェントからサーバープロセスの障害情報を含む監視データを取得すると共に、ネットワークの障害発生有無を検知し、ネットワーク障害の場合、サーバープロセス障害が発生した被監視サーバーの管理者への障害発生通知を停止する監視マネージャー20を有する。【選択図】 図2
Description
本発明は、監視対象である複数のサーバー(以下、被監視サーバーと称す)の障害を監視し、被監視サーバーの管理者へ障害発生通知及び/又は復旧を可能とするサーバー障害監視システムに関する。
複数のサーバーの障害を監視するシステムとして、例えば、特許文献1に記載されるシステムが提案されている。
特許文献1では、監視サーバーが、自己監視サーバー、リモート監視サーバー及び補助サーバーを備え、LAN又はインターネット網に接続される他のサーバー(被監視サーバー)の障害の発生を検知する。リモート監視サーバーは、被監視サーバーの障害を検知すると、予めデータベースに登録されている当該障害が発生したサーバーの管理者へ、サーバーが接続されるLAN又はインターネット網とは異なる公衆回線あるいは携帯電話網を介してサーバーの管理者の携帯電話等の携帯端末に、障害情報を含む電子メールを送信する。障害情報を含む電子メールを受信したサーバーの管理者は、障害が発生しているサーバーが接続されるLAN又はインターネット網を介して、サーバー管理者の携帯端末から再起動指令を送信し、障害が発生しているサーバーに再起動をかけることにより復旧する。
しかしながら、上記特許文献1の構成では、仮に、障害が発生しているサーバーが接続されるLAN又はインターネット網等のネットワークに障害が発生している場合、サーバー管理者から再起動指令を送信しても、障害発生サーバーに再起動指令が到達することはなく、再起動によるサーバーの復旧はできない。更にまた、サーバー管理者の携帯電話へ障害情報を含む電子メールを送信する方式では、自然災害あるいは他の要因により、携帯電話網自体が機能不全にある場合には、障害発生の通知すらサーバー管理者へ届くことは無く、サーバー障害監視システムとして機能不全に陥る恐れがある。
一方、仮に、サーバー管理者の携帯電話へ障害情報を含む電子メールの送信に替えて、障害発生サーバーに接続されるPCへ電子メールを送信する構成とした場合であっても、上記ネットワーク障害が発生している場合には、その電子メールがPCに到達することは無い。また、ネットワーク障害が回復した時点で、それまでリモート監視サーバーより送信されていた大量の電子メール(障害発生通知)が、PCに届くという状況を招く。
そこで本発明の目的は、サーバー障害とネットワーク障害を切り分け、被監視サーバーの管理者へ障害発生通知及び/又は復旧を良好に実現可能とするサーバー障害監視システムを提供することにある。
上記課題を解決するため、本発明のサーバー障害監視システムは、被監視サーバーと、前記被監視サーバーの障害を監視する監視サーバーと、前記被監視サーバー及び監視サーバーを接続するネットワークより構成されるサーバー障害監視システムであって、前記被監視サーバーは、自装置の監視結果である監視データを管理する監視データ管理部を備え、前記監視サーバーは、前記被監視サーバーから監視データを取得し前記被監視サーバーに障害が発生しているか否かを判別する被監視サーバー障害判定部と、該被監視サーバー障害判定部によって障害が生じていると判定された被監視サーバーの管理者宛てに障害発生の通知を行う障害発生通知部と、ネットワークに障害が発生してるか否かを判別するネットワーク障害判定部と、を備え、前記監視サーバーの前記被監視サーバー障害判定部による前記被監視サーバーの監視データの取得の際、前記ネットワーク障害判定部によりネットワーク障害の有無を判定し、ネットワーク障害と判定された場合、前記障害通知処理部の動作を一時的に停止することを特徴とする。
また、本発明のサーバー障害監視システムは、前記監視サーバーは、前記ネットワーク障害が回復した後、前記障害通知処理部を再稼働させることを特徴とする。
また、本発明のサーバー障害監視システムは、前記被監視サーバーは複数の前記被監視サーバーからなり、前記監視サーバーの前記被監視サーバー障害判定部による前記被監視サーバーの監視データの取得は、夫々の前記被監視サーバー毎に行われることを特徴とする。
また、本発明のサーバー障害監視システムは、前記ネットワーク障害判定部は、前記複数の被監視サーバーへ前記ネットワークを介して応答要求を行い、所定の時間内に前記複数の被監視サーバーより応答がなかった場合、その被監視サーバーと前記監視サーバーを接続するネットワークに障害が発生したと判定することを特徴とする。
また、本発明のサーバー障害監視システムは、前記ネットワーク障害判定部は、稼働率の高いサーバーへの応答要求を行い、所定の時間内に前記稼働率の高いサーバーより応答がなかった場合、ネットワーク障害発生と判定することを特徴とする。
本発明によれば、サーバー障害とネットワーク障害を切り分け、被監視サーバーの管理者へ障害発生通知及び/又は復旧を良好に実現可能とするサーバー障害監視システムを提供することが可能となる。
以下、図面を用いて本発明の実施例について説明する。
図1に、本発明の一実施例に係るサーバー障害監視システムの概略構成図を示す。サーバー障害監視システム1は、監視サーバー2、被監視サーバー3a〜3d、及びこれらを相互に接続可能とするネットワーク4より構成される。ネットワーク4は、例えば、インターネット網であり、図1に示すように、被監視サーバー3c及び被監視サーバー3dは、スイッチ6及びルータ5を介してネットワーク4に接続されている。ルータ5とスイッチ6との間、スイッチ6と被監視サーバー3c,3dとの間は、例えば、専用回線、シリアルケーブル等の通信線にて接続されている。なお、被監視サーバーの台数は、4台に限られず、それ以上の台数が接続されるものも含まれる。また、これら複数の被監視サーバー3a〜3dと監視サーバー2との接続形態は、図1に示す形態に限られず、例えば、インターネット網を、ルータ5を介して他のインターネット網に接続するブリッジを形成する接続形態であっても良い。
図2に、図1に示すサーバー障害監視システムの概略機能ブロック図を示す。監視サーバー2は、監視マネージャー20、CPU21、通信インターフェース22、障害情報DB(データベース)24、及びこれらを相互に接続する内部バス23を備える。また、被監視サーバー3aは、監視エージェント30a、CPU31a、通信インターフェース32a、監視データ管理部34a、及びこれらを相互に接続する内部バス33aを備える。監視データ管理部34aは、内部バス33aを介して、監視データ記憶部35aと監視エージェント30aあるいはCPU31aとアクセス可能に構成されている。また、被監視サーバー3b〜3dも被監視サーバー3aと同様の構成を有する。被監視サーバー3cは、通信インターフェース32cにより、スイッチ6及びルータ5を介してネットワーク4に接続され、被監視サーバー3dは、通信インターフェース32dにより、スイッチ6及びルータ5を介してネットワーク4に接続されている。
ここで、監視サーバー2の構成について説明する。図3は、監視サーバーの機能ブロック図である。監視サーバー2は、上述のCPU21、通信インターフェース22、内部バス23及び障害情報DB24に加え、ネットワーク障害判定部201、被監視サーバー障害判定部202、障害発生通知部203、被監視サーバーDB及び被監視サーバー管理者DBを備える。これら、ネットワーク障害判定部201、被監視サーバー障害判定部202、及び障害発生通知部203にて監視マネージャー20が構成される。ネットワーク障害判定部201、被監視サーバー障害判定部202及び障害発生通知部203は、例えば、監視サーバー2内の記憶領域中の所定の領域に格納されるプログラムとして実装され、CPU21がこれらプログラムを、内部バス23を介して読み出し実行することで、詳細後述する機能を実現する。
ここで、監視サーバー2の構成について説明する。図3は、監視サーバーの機能ブロック図である。監視サーバー2は、上述のCPU21、通信インターフェース22、内部バス23及び障害情報DB24に加え、ネットワーク障害判定部201、被監視サーバー障害判定部202、障害発生通知部203、被監視サーバーDB及び被監視サーバー管理者DBを備える。これら、ネットワーク障害判定部201、被監視サーバー障害判定部202、及び障害発生通知部203にて監視マネージャー20が構成される。ネットワーク障害判定部201、被監視サーバー障害判定部202及び障害発生通知部203は、例えば、監視サーバー2内の記憶領域中の所定の領域に格納されるプログラムとして実装され、CPU21がこれらプログラムを、内部バス23を介して読み出し実行することで、詳細後述する機能を実現する。
次に、被監視サーバー3aの構成について説明する。図4は、被監視サーバー3aの機能ブロック図である。なお、被監視サーバー3b〜3dについても同様である。図4に示すように、被監視サーバー3aは、上述のCPU31a、通信インターフェース32a、内部バス33a及び監視データ管理部34aに加え、監視エージェント30を備える。監視エージェント30は、サーバー監視部301a、監視データ送信部302a及び起動部303aから構成される。サーバー監視部301a、監視データ送信部302a及び起動部303aは、例えば、被監視サーバー3a内の図示しない記憶領域中の所定の領域に格納されるプログラムとして実装され、CPU31aがこれらプログラムを、内部バス33aを介して読み出し実行することで実現される。
ここで、詳細は後述するが、起動部303aは、自装置たる被監視サーバー3aの起動と、監視サーバー2からの障害通知によりサーバー管理者による再起動指令により自装置たる被監視サーバー3aの再起動を行う機能を有する。サーバー監視部301aは、自装置の各種サーバープロセス、例えば、電子メールの配信を管理するメールサーバープロセス、ファイル転送プロセス、あるいはウェブサーバープロセス等が正常に動作しているかを監視する。そしてサーバー監視部301aは、各種プロセスのタイムアウト等の何らかの異常を検出した場合、自装置たる被監視サーバー3aに障害が発生したものとして、障害が発生したとされるプロセスを一意に特定するためのプロセスIDと、プロセスの状態を示すプロセスステータスを取得する。その一方で、稼動情報取得部304aに対し、異常を検出した時点における被監視サーバー3aの「CPU稼働率」、「メモリ容量」、「ディスク残量」等のハードウェアの稼働情報を取得するよう指示、取得を行う。異常を発生したプロセスのプロセスIDとプロセスステータス、及び稼動情報取得部304aにより取得した稼動情報とを統合して監視データを生成する。生成した監視データは監視データ管理部34aによって監視データ記憶部35aに蓄積される。
次に、各種DBに格納される情報について説明する。図5は、監視サーバー2を構成する障害情報DB24の格納情報を示す図である。監視サーバー2は被監視サーバー3a〜3dから取得した監視データを格納するものである。図5に示すように、障害情報DB24は、少なくとも、「サーバーID」、「被監視サーバー名」、障害発生時刻を示す「日時」、及び発生した障害の度合を示す「サーバーステータス」を格納する。例えば、「サーバーID」が“0001”、「被監視サーバー名」が“Serv−a”の被監視サーバー3aにて、「日時」“2014/11/16 01:21:20”に障害が発生したことが示されており、その障害の度合いである「サーバーステータス」が“Error”であることが示されている。また、「サーバーID」が“0002”、「被監視サーバー名」が“Serv−b”の被監視サーバー3bにて、「日時」“2014/11/16 02:11:10”に障害が発生し、その「サーバーステータス」が“Critical”であったことが示されている。ここで、“Critical”とは、例えば、“Error”まで達していないものの、サーバーの負荷が増大し障害の通知対象となるレベルに相当する。
また、図6は、監視サーバー2を構成する監視データ管理DB204に格納される監視データの格納情報を示す図である。図6に示すように、監視データ管理DB204は、サーバーIDと日時をキーとして、被監視サーバー3a〜3dから取得した監視データを管理するものであり、少なくとも、取得した監視データの対象となる被監視サーバーを一意に特定するための「サーバーID」、さらに被監視サーバーから送られた監視データである「プロセスID」、「プロセスステータス」、「CPU稼働率」、「使用メモリー」、「ディスク残量」、及び「発生時刻」を管理する。
図7は、監視サーバー2を構成する被監視サーバー管理DB205の格納情報を示す図である。被監視サーバー管理DB205は、被監視サーバー固有の情報を管理するためのものである。図7に示すように、被監視サーバー管理DB205は、少なくとも、「サーバーID」、「被監視サーバー名」、「IPアドレス」、「管理者ID」、「管理者名」、「パスワード」、及び「電子メールアドレス」を格納する。例えば、「ID」が“0001”、「被監視サーバー名」が“Serv−a”の被監視サーバー3aは、「IPアドレス」が“nnn.nnn.nnn.001”のサーバーであり、「管理者ID」が“AAAA”の「管理者名」が“WW WW”という管理者により管理される被監視サーバーであり、「パスワード」が“●●●●”、管理者の「電子メールアドレス」が“ww@ww.com”である。また、「サーバーID」が“0004”、「被監視サーバー名」が“Serv−d”の被監視サーバー3dは、「IPアドレス」が“nnn.nnn.nnn.003”のサーバーであり、「管理者ID」が“DDDD”の「管理者名」が“ZZ ZZ”という管理者により管理される被監視サーバーであり、「パスワード」が“●●●●”、管理者の「電子メールアドレス」が“zz@zz.co.jp”であることが分かる。ここで、「電子メールアドレス」は、後述する被監視サーバーの管理者へ、障害通知を行う場合に用いられるものであり、「パスワード」は、障害通知を受けた管理者が登録された管理者であることを認証するために用いられる。なお、システム全体の構築時(初期設定時)あるいは、被監視サーバーが新たに追加される場合は、一意の(ユニークな)サーバーIDを割り当て、図7に示すフォーマットをPC等の画面上に表示し、被監視サーバーの管理者に入力させることで、サーバー障害監視システムの構築あるいは被監視サーバーの増設が可能となる。
また、ここで、「IPアドレス」は、一例としてIPv4を用いた場合を示しているが、これに限らず、例えば、IPv6等を用いても良い。なお、システム全体の構築時(初期設定時)あるいは、被監視サーバーが新たに追加される場合は、一意の(ユニークな)IDを割り当て、図6に示すフォーマットをPC等の画面上に表示し、被監視サーバーの管理者に入力させることで、サーバー障害監視システムの構築あるいは被監視サーバーの増設が可能となる。また、監視サーバー2と被監視サーバー3a〜3dの間を通信可能に接続するネットワークの経路が固有に存在する場合、項目を追加してここで管理してもよい。管理者が複数いるようなケースもあると考えられるが、この場合は管理者を別のデータベースにて管理し、この被監視サーバー管理DB205にて管理するデータと紐付けを行うことで対応可能である。
図8は、被監視サーバー3a〜3dを構成する、監視データを蓄積する監視データ記憶部35aの格納情報を示す図である。図8に示すように、監視データ記憶部35aは、「プロセスID」、「プロセスステータス」、「CPUの稼働率」、「メモリ容量」、「ディスク残量」、「発生時刻」を格納する。
例えば、図8に示す例によると、被監視サーバー35aでは、「ファイル転送プロセス(プロセスIDを“ft01”とする。)」が、「発生時刻」2014年11月16日 1時21分20秒において、「プロセスステータス」が“Error”となり、その際の「CPU稼働率」は“100%”、「使用メモリー」が“10GB”、「ディスク使用率」は“90%”であったということが分かる。
例えば、図8に示す例によると、被監視サーバー35aでは、「ファイル転送プロセス(プロセスIDを“ft01”とする。)」が、「発生時刻」2014年11月16日 1時21分20秒において、「プロセスステータス」が“Error”となり、その際の「CPU稼働率」は“100%”、「使用メモリー」が“10GB”、「ディスク使用率」は“90%”であったということが分かる。
尚、監視データ記憶部35aにおいて、「プロセスステータス」には該当するプロセスが出力するステータスやエラーコード等をそのまま保存するように構成してもよい。
以上の通り、図5から図8に示すように、監視サーバー2が具備する障害情報DB24、監視データ管理DB204、被監視サーバー管理DB205、及び被監視サーバー3a〜3dが具備する監視データ記憶部35aは、各データベースに管理されるデータを主キーによって一意に特定し、相互に紐づけることを可能とするリレーショナルデータベースとして構成されるものである。
図9は、被監視サーバー3a〜3dに備えた監視エージェント30a〜30dを介した監視サーバー2による監視動作を示すフローチャートである。
図9に示すように、先ず、監視エージェント30aを構成する起動部303aは、被監視サーバー3aを起動する(ステップS31)。起動後、監視エージェント30aを構成するサーバー監視部301aは、所定周期(10秒〜30秒間隔)にて、各種サーバープロセスの状態を監視する(ステップS32)。サーバー監視部301aは、所定周期で収集した、各種サーバープロセスの状態に、稼動情報取得部304aによって取得した稼働情報(CPUの稼働率、メモリ容量及びディスク残量等)を紐付けて監視データを生成し、内部バス33a及び監視データ管理部34aを介して、監視データ記憶部35aに格納又は更新する(ステップS33)。
ステップS34に進み、監視サーバー2からの要求に応じて、サーバー監視部301aは、監視データ管理部34aを介して監視データ記憶部35aを参照し、監視データを取得する
ステップS35では、サーバー監視部301aは、取得した監視データに少なくとも、自装置を一意に示す「サーバーID」を加えて、これらを統合してパケットに搭載し、監視データ送信部302aから通信インターフェース32aを介して、監視サーバー2へ送信する。
なお、本実施例では、ステップS35にて、被監視サーバーのサーバー監視部301aが監視データを監視サーバー2へ送信する構成としたが、これに限らず、被監視サーバー3a〜3dに監視サーバー2からのアクセスを許可するようアクセス権を設定し、監視サーバー2が、監視データ記憶部35aに直接アクセスして監視データを取得する構成としても良い。更に、本実施例では被監視サーバーに監視エージェント30aを具備する構成として説明したが、これに限定せず、監視エージェント30aを設けずに被監視サーバー3a等に自装置の監視データを取得し記憶する機能を具備し、監視サーバー2による当該監視データのアクセスを可能とするよう構成してもよい。その際、監視サーバー2から被監視サーバー3a〜3dにアクセスできない場合、当該アクセスできない被監視サーバーまでの経路の何れに障害が生じているものとして、障害発生と判定し、監視サーバー2側にて監視データを作成する必要がある。
次に、監視サーバー2を構成する監視マネージャー20の処理動作について説明する。図10に、監視マネージャーの処理を説明するフローチャートを示す。
図10に示すように、監視マネージャー20を構成する被監視サーバー障害判定部202は、被監視サーバー3aから、通信インターフェース22及び内部バス23を介して監視データを取得する(ステップS21)。被監視サーバー障害判定部20は、取得した監視データを、監視データ管理DB24へ格納する。格納した監視データのプロセスステータスから被監視サーバー3aの状態を判定し、これをサーバーステータスとして、障害情報DB24を更新する。具体的には、取得した監視データに対応する被監視サーバーのIDを「サーバーID」へ、被監視サーバーの名称を「サーバー名」へ、監視データ内の「発生時刻」を「日時」に、プロセスステータスから判定された被監視サーバーの状態を「サーバーステータス」へ格納する(ステップS22)。
尚、ここでいうサーバーステータスとは、被監視サーバー障害判定部20がプロセスステータスと稼動情報(CPUの稼働率、メモリ容量及びディスク残量等)から現在当該被監視サーバーがどのような状態か、再起動が必要であるのか、プロセスの強制終了が必要なのかなどを判定したものである。
尚、ここでいうサーバーステータスとは、被監視サーバー障害判定部20がプロセスステータスと稼動情報(CPUの稼働率、メモリ容量及びディスク残量等)から現在当該被監視サーバーがどのような状態か、再起動が必要であるのか、プロセスの強制終了が必要なのかなどを判定したものである。
次に、監視マネージャー20を構成するネットワーク障害判定部201は、内部バス23及び通信インターフェース22を介して、被監視サーバーの全てへ応答要求コマンド(自動再送要求:ARQ)を送信する(ステップS23)。なお、応答要求コマンド(ARQ)の送信に際し、ネットワーク障害判定部201は、図6に示す被監視サーバー管理DB205を参照し、各被監視サーバー3a〜3dの「IPアドレス」を取得し、応答用要求コマンド(ARQ)を送信する。
ステップS24では、ネットワーク障害判定部201は、応答要求コマンド(ARQ)を送信した全ての被監視サーバーから応答があったか否かを判定する。応答要求に対して全ての被監視サーバーから応答が無い場合はステップS25へ、全ての被監視サーバーからの応答がある、若しくは一部の被監視サーバーから応答が無い場合、ステップS27へ進む。
ステップS24において、ネットワーク障害判定部201は、ネットワーク障害が発生しているか否かを判定しており、具体的には、ネットワーク障害判定部201が応答要求コマンド(ARQ)を送信してから、所定の時間内に、全ての被監視サーバー3a〜3dからの応答(肯定応答:ACK)なかった場合(応答タイムアウト)には、夫々の被監視サーバー3a〜3dではなく、より上流(即ち監視サーバー2により近い箇所、例えば監視サーバー2に接続するネットワークケーブルの断線等)においてネットワーク障害が発生していると判断する。
なお、一部の被監視サーバーから応答が無いだけで、他の被監視サーバーからの応答が確認された場合は、ネットワーク障害ではなく、応答の無い被監視サーバーと監視サーバー2との間の固有の経路においてネットワーク障害が生じていると認定することができる。応答要求コマンド(ARQ)に被監視サーバー毎の「サーバーID」を含め、被監視サーバーからの応答(ACK)に当該被監視サーバーの「サーバーID」を含めることで、どの被監視サーバーに向けた経路にて障害が発生しているか特定することが可能となる。例えば、ネットワーク障害判定部201が受信した応答(ACK)に、「サーバーID」である“0001”及び“0002”のみが含まれていた場合、被監視サーバー3a及び被監視サーバー3bから応答を受信できたことが分かり、ネットワーク4自体に障害は発生しておらず、被監視サーバー3c及び3dが接続されるルータ5及び/又はスイッチ6を含む専用回線に障害が発生していると特定できる。また、仮に、ネットワーク障害判定部201が受信した応答(ACK)に、「サーバーID」である“0001”、“0002”及び“0003”が含まれていた場合、被監視サーバー3a〜3cから応答を受信できたことが分かり、被監視サーバー3dからのみ応答が受信できなかったことが分かる。この場合、ネットワーク4、ルータ5及びスイッチ6自体に障害は発生しておらず、スイッチ6と被監視サーバー3dを構成する通信インターフェース32dとを接続する専用回線あるいはシリアルケーブル等に障害が発生していると特定できる。
ステップS24において、全ての被監視サーバー3a〜3dから応答(ACK)があった場合、あるいは、上記のように被監視サーバー3a及び3bより応答(ACK)があった場合には、ネットワークが正常であるとして、ステップS27へ進み、監視サーバー2を構成する被監視サーバー障害判定部202は、ステップS21にて取得した監視データに基づいて、発生した障害の対応方法をデータベースから取得し、障害発生通知部203によって被監視サーバー(障害発生被監視サーバー)の管理者へ、通信インターフェース22を介して適宜手段によって障害発生の報知処理を行う。本実施例においては、障害発生通知部203は、図7に示す被監視サーバー管理者DB205を参照し、該当する管理者の電子メールアドレス宛てに障害発生通知として電子メールを送信する。
一方、ステップS24において、全ての被監視サーバー3a〜3dより応答(ACK)がなかった場合、障害発生通知部203は上流、即ち監視サーバー2に近しい箇所においてネットワークに障害が発生し、監視サーバー2は正常に監視動作を行えない状態であると判定し、監視サーバー2の管理者への障害発生の報知処理を一時停止する(ステップS25)。この処理は、全ての被監視サーバーにて障害が発生したと認定した場合、障害発生の報知処理がネットワーク障害が解消するまで延々と行われるにもかかわらず、ネットワークが不通であることから報知のための電子メールが蓄積され、ネットワーク障害の解消と同時に蓄積した電子メールが一斉に送信されてしまうことを防止するためである。
その後、所定の間隔にて全ての被監視サーバー対して応答要求を行う。何れかの被監視サーバーからの応答が確認され、ネットワーク障害が回復されたと判定された場合、障害発生通知部203は、被被監視サーバー3a〜3dの監視動作及び障害発生の報知処理を再開する。(ステップS26)。ネットワーク障害の発生から回復までの間、即ちステップ25及びステップ26の間に新たに監視データが取得された場合であっても、当該障害発生に関する情報のデータベースの記録処理は行うものの、障害発生通知部203による被監視サーバーの管理者宛の通知は行わない。
このように構成することで、例えばステップS26にて、監視サーバー2に近しいところでネットワークに障害が発生している場合、被監視サーバーは正常に稼動しているのにもかかわらず、監視サーバー2が被監視サーバー3a〜3dの夫々に対してネットワーク障害有りとして誤検知をしてしまい、障害発生通知部203による障害発生の報知を行うよう動作してしまうが、被監視サーバーの管理者への障害発生通知の送信を一時停止することで、ネットワーク障害回復後に被監視サーバーの管理者宛てに大量の障害発生通知が送信されることを防止することが可能となる。
また、図示しないが、ステップS27により障害発生通知を電子メールにて受信した管理者が、PCにより監視サーバー2にアクセスし、PC画面上からパスワードを入力の上、図7に示す被監視サーバー管理者DB205に格納されるパスワードとの認証が完了した後、PCより当該障害被監視サーバーの起動部に起動指令を送信するよう構成しても良い。
なお、本実施例では、ステップS24において、ネットワーク障害判定部201が応答要求コマンド(ARQ)を送信してから、所定の時間内に、被監視サーバー3a〜3dより応答(ACK)が受信されなかった場合(応答タイムアウト)には、ネットワーク障害が発生していると判断する構成としたがこれに限られるものではない。例えば、一度の応答タイムアウトによりネットワーク障害と判断することに替えて、所定の回数、応答要求コマンド(ARQ)を送信するリトライ方式としても良い。この場合、たまたま外乱等の何らかの要因により瞬時的にネットワーク障害が発生し、即時にネットワークが回復するような現象においても、対応することが可能となる。
以上のとおり、本実施例によれは、サーバー障害とネットワーク障害を切り分け、被監視サーバーの管理者へ障害発生通知及び/又は復旧を良好に実現することが可能となる。
本実施例のサーバー障害監視システムは、図1〜図10に示す実施例1のシステム構成及び各DBと同様であり、監視エージェント及び監視マネージャーの処理が実施例1と異なる。以下では、実施例1と重複するシステム構成及び各DBの構成の説明は省略する。図11に、監視マネージャーの処理を説明するフローチャートを示す。
実施例2におけるサーバー障害監視システムの動作を図11に基づいて説明する。監視マネージャー20を構成するネットワーク障害判定部201は、被監視サーバー3a〜3dの障害発生を検知した場合、被監視サーバーの全てに応答要求コマンドを送信せず、稼働率の高いサーバーへ応答要求コマンド(ARQ)を送信する点で、実施例2と実施例1は相違する。(ステップS23A)。ここで稼働率の高いサーバーとは、予め被監視サーバーの中から比較的信頼性の高いものを1つを選択してもよいし、稼働率の高いサーバーとして、例えば、Google(Google Inc.の登録商標)あるいは、Yahoo!(ヤフー!インコーポレイテッドの登録商標)等のサーバーから1乃至複数の動作を確認することで、ネットワーク障害発生の有無を判定するよう構成しても良い。稼働率の高いサーバーから応答の有無を判定し(S24A)、応答がある場合はプロセス状態及び稼動情報に基づいて被監視サーバーの管理者に向けて障害発生の通知を行い、応答が無い場合は監視サーバー2近傍においてネットワーク障害が発生しているものとして、障害発生通知部203の処理を一時停止する。
以上のような実施例2の構成によれば、実施例1の効果に加え、被監視サーバーの全台の障害と、監視サーバー2近傍のネットワーク障害とを切り分けることが可能であり、より正確な障害の切り分けが可能となる。
実施例1及び実施例2では、サーバー障害監視システム1を構成する監視サーバー2を有する例を説明したが、これに限らず複数台の監視サーバーを備える構成としても良い。
本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。例えば、実施例2において稼働率の高いサーバーへの応答を確認するよう構成したが、この稼動率の高いサーバーを複数選択することで、より確実にネットワーク障害を検出するよう構成しても何ら問題ない。また、障害判定を監視サーバ2の被監視サーバー障害判定部202にて行うとしたが、これに限定せず、被監視サーバーにて障害判定を行い、障害が発生した場合のみ監視データを監視サーバー2に送信するよう構成してもよいし、監視データではなく被監視サーバーのステータスを直接監視サーバー2へ送信するよう構成してもよい。更に、各種データベースの構造は一例にすぎず、監視システムに要求される機能に応じて適宜変更可能であることは言うまでもない。
本発明は、監視サーバー2に被監視サーバーの管理者宛てに障害発生通知が送信される機能を持つ監視システムに適用可能である。例えば、被監視サーバーにSNMP(Simple Network Management Protocol)エージェントと、MIB(Management Information Base、管理情報領域)とを備え、監視サーバー2にSNMPマネージャーを備えた構成の監視システムが、被監視サーバーの管理者宛てに障害通知機能を具備しているケースにおいては、SNMPエージェントは上記実施例の監視エージェント30aに、MIBは監視データ記憶部35aに、SNMPマネージャーは監視マネージャー20に相当するものであり、本願発明を適用することは十分に可能である。
1・・・サーバー障害監視システム
2・・・監視サーバー
3a,3b,3c,3d・・・被監視サーバー
4・・・ネットワーク(インターネット)
5・・・ルータ
6・・・スイッチ
20・・・監視マネージャー
21・・・CPU
22・・・通信インターフェース
23・・・内部バス
24・・・障害情報DB
30a,30b,30c,30d・・・監視エージェント
31a,31b,31c,31d・・・CPU
32a,32b,32c,32d・・・通信インターフェース
33a,33b,33c,33d・・・内部バス
34a,34b,34c,34d・・・監視データ管理部
35a,35b,35c,35d・・・監視データ記憶部
201・・・ネットワーク障害判定部
202・・・被監視サーバー障害判定部
203・・・障害発生通知部
204・・・被監視サーバーDB
205・・・被監視サーバー管理者DB
301a・・・サーバー監視部
302a・・・監視データ送信部
303a・・・起動部
304a・・・稼働情報取得部
2・・・監視サーバー
3a,3b,3c,3d・・・被監視サーバー
4・・・ネットワーク(インターネット)
5・・・ルータ
6・・・スイッチ
20・・・監視マネージャー
21・・・CPU
22・・・通信インターフェース
23・・・内部バス
24・・・障害情報DB
30a,30b,30c,30d・・・監視エージェント
31a,31b,31c,31d・・・CPU
32a,32b,32c,32d・・・通信インターフェース
33a,33b,33c,33d・・・内部バス
34a,34b,34c,34d・・・監視データ管理部
35a,35b,35c,35d・・・監視データ記憶部
201・・・ネットワーク障害判定部
202・・・被監視サーバー障害判定部
203・・・障害発生通知部
204・・・被監視サーバーDB
205・・・被監視サーバー管理者DB
301a・・・サーバー監視部
302a・・・監視データ送信部
303a・・・起動部
304a・・・稼働情報取得部
Claims (5)
- 被監視サーバーと、前記被監視サーバーの障害を監視する監視サーバーと、前記被監視サーバー及び監視サーバーを接続するネットワークより構成されるサーバー障害監視システムであって、
前記被監視サーバーは、自装置の監視結果である監視データを管理する監視データ管理部を備え、
前記監視サーバーは、前記被監視サーバーから監視データを取得し前記被監視サーバーに障害が発生しているか否かを判別する被監視サーバー障害判定部と、該被監視サーバー障害判定部によって障害が生じていると判定された被監視サーバーの管理者宛てに障害発生の通知を行う障害発生通知部と、ネットワークに障害が発生してるか否かを判別するネットワーク障害判定部と、を備え、
前記監視サーバーの前記被監視サーバー障害判定部による前記被監視サーバーの監視データの取得の際、前記ネットワーク障害判定部によりネットワーク障害の有無を判定し、ネットワーク障害と判定された場合、前記障害通知処理部の動作を一時的に停止することを特徴とするサーバー障害監視システム。 - 請求項1に記載のサーバー障害監視システムにおいて、
前記監視サーバーは、前記ネットワーク障害が回復した後、前記障害通知処理部を再稼働させることを特徴とするサーバー障害監視システム。 - 請求項1又は2に記載のサーバー障害監視システムにおいて、
前記被監視サーバーは複数の前記被監視サーバーからなり、前記監視サーバーの前記被監視サーバー障害判定部による前記被監視サーバーの監視データの取得は、夫々の前記被監視サーバー毎に行われることを特徴とするサーバー障害監視システム。 - 請求項3に記載のサーバー障害監視システムにおいて、
前記ネットワーク障害判定部は、前記複数の被監視サーバーへ前記ネットワークを介して応答要求を行い、所定の時間内に前記複数の被監視サーバーより応答がなかった場合、その被監視サーバーと前記監視サーバーを接続するネットワークに障害が発生したと判定することを特徴とするサーバー障害監視システム。 - 請求項3又は4に記載のサーバー障害監視システムにおいて、
前記ネットワーク障害判定部は、稼働率の高いサーバーへの応答要求を行い、所定の時間内に前記稼働率の高いサーバーより応答がなかった場合、ネットワーク障害発生と判定することを特徴とするサーバー障害監視システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015080360A JP2016200961A (ja) | 2015-04-09 | 2015-04-09 | サーバー障害監視システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015080360A JP2016200961A (ja) | 2015-04-09 | 2015-04-09 | サーバー障害監視システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016200961A true JP2016200961A (ja) | 2016-12-01 |
Family
ID=57424227
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015080360A Pending JP2016200961A (ja) | 2015-04-09 | 2015-04-09 | サーバー障害監視システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2016200961A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019144927A (ja) * | 2018-02-22 | 2019-08-29 | 富士通株式会社 | 情報処理装置,情報処理システム,プログラム及び情報処理方法 |
JP2020198002A (ja) * | 2019-06-04 | 2020-12-10 | ブラザー工業株式会社 | プログラム、通信システム、及び通信方法 |
-
2015
- 2015-04-09 JP JP2015080360A patent/JP2016200961A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019144927A (ja) * | 2018-02-22 | 2019-08-29 | 富士通株式会社 | 情報処理装置,情報処理システム,プログラム及び情報処理方法 |
JP7000909B2 (ja) | 2018-02-22 | 2022-01-19 | 富士通株式会社 | 情報処理装置,情報処理システム,プログラム及び情報処理方法 |
JP2020198002A (ja) * | 2019-06-04 | 2020-12-10 | ブラザー工業株式会社 | プログラム、通信システム、及び通信方法 |
JP7432102B2 (ja) | 2019-06-04 | 2024-02-16 | ブラザー工業株式会社 | プログラム、通信システム、及び通信方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11088903B2 (en) | Hybrid cloud network configuration management | |
US8271632B2 (en) | Remote access providing computer system and method for managing same | |
US8910172B2 (en) | Application resource switchover systems and methods | |
CN100417081C (zh) | 检查和修复网络配置的方法和系统 | |
JP5872731B2 (ja) | クラスタの複数のノードのそれぞれに対してリンクの障害の検出を伝えるためのコンピュータ実装方法、非一時的なコンピュータ可読媒体およびコンピュータシステム | |
EP1851632B1 (en) | Disaster recovery framework | |
US9450700B1 (en) | Efficient network fleet monitoring | |
US20140207929A1 (en) | Management apparatus and management method | |
EP3210367B1 (en) | System and method for disaster recovery of cloud applications | |
EP2424165A1 (en) | System and method for distributed management of shared computers | |
US11706080B2 (en) | Providing dynamic serviceability for software-defined data centers | |
KR20110074096A (ko) | 분산 홈 네트워크에서의 장애상태 감시 방법, 장치 및 시스템 | |
CN104363117A (zh) | 一种基于ipmi实现串口重定向的方法 | |
US9043636B2 (en) | Method of fencing in a cluster system | |
JP5617304B2 (ja) | スイッチング装置、情報処理装置および障害通知制御プログラム | |
US20040073648A1 (en) | Network calculator system and management device | |
WO2013124947A1 (ja) | 情報システム管理装置及び情報システム管理方法及びプログラム | |
JP2016200961A (ja) | サーバー障害監視システム | |
KR20010092554A (ko) | 컨텐츠 서비스를 제공하는 웹서버의 백업 시스템 및 그 방법 | |
US20070198993A1 (en) | Communication system event handling systems and techniques | |
JP4806382B2 (ja) | 冗長化システム | |
KR101143922B1 (ko) | 네트워크 자동복구장치 | |
EP1654653B1 (en) | Active storage area network discovery system and method | |
JP2006285453A (ja) | 情報処理装置、情報処理方法、および情報処理プログラム | |
CN103023697B (zh) | 一种阵列多路径的管理方法、装置及系统 |