JP7474168B2

JP7474168B2 - 監視システムおよび障害監視方法

Info

Publication number: JP7474168B2
Application number: JP2020161504A
Authority: JP
Inventors: 和貴相良
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2024-04-24
Anticipated expiration: 2040-09-25
Also published as: JP2022054351A

Description

本発明は、監視システムおよび障害監視方法に関する。

従来から、ネットワークに接続されたコンピュータにおける障害発生の有無を監視する様々な技術がある。例えば、監視装置となるサーバが、監視対象となる装置に対してｐｉｎｇによる定期的な疎通確認を行い、当該ｐｉｎｇによる疎通確認に対して、監視対象となる装置から応答がなかった場合、当該装置に障害が発生していると判定する技術がある（例えば、特許文献１）。

特開２０１０－１５３９９８号公報

特許文献１では、ｐｉｎｇを使用した到達確認結果を調べる手法の採用の可否や、ポートあるいはフロー単位のデータ転送量の計測結果を示す値を設定して障害切り分け部が障害の切り分けをサポートしている。しかし、特許文献１のような従来の技術では、監視装置が複数の被監視装置にｐｉｎｇを同時に実行することにより、監視装置に負荷が集中するため、被監視装置の台数が多い場合、監視装置は高性能で高価な装置を用意しなければならない。高性能ではない監視装置が大量の被監視装置にｐｉｎｇによる定期的な疎通確認を行う場合、監視装置に負荷がかかりＣＰＵ使用率が増加し、監視装置内で動作するサービスの処理速度の低下、またはサービス停止につながる可能性がある。また、このような従来の技術では、スイッチやルータ等のネットワーク機器の故障や、サーバの故障を検知することはできるが、各ノードを接続するＬＡＮ異常の障害を特定することはできない。ＬＡＮ異常が発生した場合、当該ＬＡＮに接続している装置は、監視装置からｐｉｎｇによる疎通確認を受信することができないことにより、ｐｉｎｇ応答を返せないため、根本原因であるＬＡＮ異常ではなく、装置の故障として検知されてしまう。

本発明は、監視装置の負荷を軽減し、疎通確認による障害箇所を特定することが可能な監視システムおよび障害監視方法を提供することを目的とする。

本発明にかかる監視システムは、監視装置が、第１のサブシステムが有する被監視装置である第１のサーバと、前記第１のサブシステムとは異なる第２のサブシステムが有する被監視装置であって前記第１のサーバとは異なる第２のサーバとを、ネットワークを介して監視する監視システムであって、前記第１のサーバは、前記第２のサーバにｐｉｎｇを実行して要求応答を受け付けた否かを判定する第１のｐｉｎｇ監視部と、前記第１のｐｉｎｇ監視部が要求応答を受け付けていないと判定した場合、確立済みのＴＣＰセッションを用いて、前記監視装置に異常を通知する第１の監視装置通知部と、を備え、前記第２のサーバは、前記第１のサーバにｐｉｎｇを実行して要求応答を受け付けた否かを判定する第２のｐｉｎｇ監視部と、前記第２のｐｉｎｇ監視部が要求応答を受け付けていないと判定した場合、確立済みのＴＣＰセッションを用いて、前記監視装置に異常を通知する第２の監視装置通知部と、を備える、ことを特徴とする監視システムとして構成される。

本発明によれば、監視装置の負荷を軽減し、疎通確認による障害箇所を特定することができる。

本実施例のシステムの全体構成図である。監視装置、サーバのコンピュータの概略図である。サーバの構成図である。監視装置の構成図である。各サーバが保持する監視情報テーブルの一例である。各サーバがサブシステム内の監視対象装置を決定するフローである。各サーバがサブシステム外の監視対象装置を決定するフローである。監視装置が保持する障害パターンテーブルである。サブシステム、サーバが増加した場合のｐｉｎｇ実行回数の比較表である。

以下、図面を参照して本発明の実施形態を説明する。以下の記載および図面は、本発明を説明するための例示であって、説明の明確化のため、適宜、省略および簡略化がなされている。本発明は、他の種々の形態でも実施する事が可能である。特に限定しない限り、各構成要素は単数でも複数でも構わない。

図面において示す各構成要素の位置、大きさ、形状、範囲などは、発明の理解を容易にするため、実際の位置、大きさ、形状、範囲などを表していない場合がある。このため、本発明は、必ずしも、図面に開示された位置、大きさ、形状、範囲などに限定されない。

以下の説明では、「テーブル」、「リスト」等の表現にて各種情報を説明することがあるが、各種情報は、これら以外のデータ構造で表現されていてもよい。データ構造に依存しないことを示すために「ＸＸテーブル」、「ＸＸリスト」等を「ＸＸ情報」と呼ぶことがある。識別情報について説明する際に、「識別情報」、「識別子」、「名」、「ＩＤ」、「番号」等の表現を用いた場合、これらについてはお互いに置換が可能である。

同一あるいは同様な機能を有する構成要素が複数ある場合には、同一の符号に異なる添字を付して説明する場合がある。ただし、これらの複数の構成要素を区別する必要がない場合には、添字を省略して説明する場合がある。

また、以下の説明では、プログラムを実行して行う処理を説明する場合があるが、プログラムは、プロセッサ（例えばＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit））によって実行されることで、定められた処理を、適宜に記憶資源（例えばメモリ）および／またはインターフェースデバイス（例えば通信ポート）等を用いながら行うため、処理の主体がプロセッサとされてもよい。同様に、プログラムを実行して行う処理の主体が、プロセッサを有するコントローラ、装置、システム、計算機、ノードであってもよい。プログラムを実行して行う処理の主体は、演算部であれば良く、特定の処理を行う専用回路（例えばＦＰＧＡ（Field-Programmable Gate Array）やＡＳＩＣ（Application Specific Integrated Circuit））を含んでいてもよい。

プログラムは、プログラムソースから計算機のような装置にインストールされてもよい。プログラムソースは、例えば、プログラム配布サーバまたは計算機が読み取り可能な記憶メディアであってもよい。プログラムソースがプログラム配布サーバの場合、プログラム配布サーバはプロセッサと配布対象のプログラムを記憶する記憶資源を含み、プログラム配布サーバのプロセッサが配布対象のプログラムを他の計算機に配布してもよい。また、以下の説明において、２以上のプログラムが１つのプログラムとして実現されてもよいし、１つのプログラムが２以上のプログラムとして実現されてもよい。

以下、本実施例における監視システムについて説明する。本システムの前提となる全体構成を図１に示す。監視システム１０００は、業務サーバであるサーバ３０１、３０２、３０３、３０４と、これらのサーバを監視する監視装置１０１、１０２と、各サーバと各監視装置を繋ぐスイッチ１１１、１１２（Ｌ３ＳＷ０、Ｌ３ＳＷ１）、３１１、３１２（Ｌ２ＳＷ０、Ｌ２ＳＷ１）、６１１、６１２（Ｌ２ＳＷ０、Ｌ２ＳＷ１）を有して構成される。また、ネットワークは０系（監視装置１０１による監視）と１系（監視装置１０２による監視）によりそれぞれ冗長構成を採用している。

また、本システムは、サーバ３０１、３０２、３０３、３０４を監視する監視装置１０１、１０２と、スイッチ１１１、１１２とを有した監視部１００と、サーバ３０１、３０２、３０３、３０４とこれらのサーバを接続するスイッチ３１１、３１２およびスイッチ６１１、６１２からなるサブシステム３００、６００を有し、監視部１００は、サブシステム３００、６００を監視している。図１では、サブシステムが２つ、サブシステム内のサーバが２つである前提で説明しているが、サブシステムの数やサブシステム内のサーバの数は、環境等に応じて任意に増減させてよい。

また、サブシステム内で発生した異常は、監視装置１０１、１０２に接続された出力装置が表示する画面に表示され、運用者は画面の表示結果に応じて対応を行う。サーバ３０１、３０２、３０３、３０４は、０系のネットワーク（例えば、ＬＡＮ）、１系のネットワーク（例えば、ＬＡＮ）から監視装置１０１、１０２に対して、それぞれＴＣＰセッションを確立し、アプリケーションが出力するイベントを監視装置１０１、１０２に通知している。通常は、０系のネットワークで監視装置１０１、１０２にイベントを通知し、ネットワーク異常等で０系のネットワークにイベントを通知できない場合は、１系のネットワークでイベントを通知する。

以上に示した各サーバや監視装置は、例えば、図２（コンピュータの概略図）に示すような、ＣＰＵ２０１と、メモリ２０２と、ＨＤＤ(Hard Disk Drive)等の外部記憶装置２０３と、ＣＤ(Compact Disk)やＤＶＤ(Digital Versatile Disk)等の可搬性を有する記憶媒体２０８に対して情報を読み書きする読書装置２０７と、キーボードやマウス等の入力装置２０６と、ディスプレイ等の出力装置２０５と、通信ネットワークに接続するためのＮＩＣ(Network Interface Card)等の通信装置２０４と、これらを連結するシステムバス等の内部通信線(システムバスという)２０９と、を備えた一般的なコンピュータ２００により実現できる。

例えば、各サーバに記憶された監視情報テーブル３０１１、あるいは各監視装置に記憶された障害パターン１０１３等の各データは、ＣＰＵ２０１がメモリ２０２または外部記憶装置２０３から読み出して利用することにより実現可能である。また、各サーバが有するｐｉｎｇ要求部３０１２、ｐｉｎｇ監視部３０１３、監視装置通知部３０１４、あるいは各監視装置が有するｐｉｎｇ監視部１０１１、異常受付部１０１２、異常特定部１０１４、異常内容出力部１０１５等の各処理部は、ＣＰＵ２０１が外部記憶装置２０３に記憶されている所定のプログラムをメモリ２０２にロードして実行することにより実現可能である。また、各サーバや各監視装置は、ＣＰＵ２０１が入力装置２０６を動作させて入力機能を実現可能な入力部を有していてもよい。また、各サーバや各監視装置は、ＣＰＵ２０１が出力装置２０５を動作させて出力機能を実現可能な出力部を有していてもよい。また、各サーバや各監視装置は、ＣＰＵ２０１が通信装置２０４を動作させて通信機能を実現可能な通信部を有していてもよい。本実施例では、上述した通信部が司る機能を、各サーバや各監視装置の処理部が有しているものとする。

上述した所定のプログラムは、読書装置２０７を介して記憶媒体２０８から、あるいは、通信装置２０４を介してネットワークから、外部記憶装置２０３に記憶(ダウンロード)され、それから、メモリ２０２上にロードされて、ＣＰＵ２０１により実行されるようにしてもよい。また、読書装置２０７を介して、記憶媒体２０８から、あるいは通信装置２０４を介してネットワークから、メモリ２０２上に直接ロードされ、ＣＰＵ２０１により実行されるようにしてもよい。各サーバや各監視装置が有する各部の動作、保持するデータの例については後述する。続いて、サーバについて説明する。

図１に示したサーバの構成図を図３に示す。図３に示すように、各サーバは、監視対象サーバを選定する際に必要となる、サブシステムの総数、サブシステム内のサーバ数（装置数）、サブシステム番号、サーバ番号（装置番号）の情報を持った監視情報テーブル３０１１と、監視情報テーブル３０１１の情報を元に監視対象サーバを選定し、ｐｉｎｇ監視部３０１３に対して定期的にｐｉｎｇ要求を行うｐｉｎｇ要求部３０１２と、監視対象サーバにｐｉｎｇを実行し、要求応答を受け付けた否かを判定し、要求応答を受け付けていないと判定した場合、すなわち応答がなかった場合に監視装置通知部３０１４に通知要求を行うｐｉｎｇ監視部３０１３と、ｐｉｎｇ監視部３０１３から異常通知要求があった場合に監視装置１０１、１０２に異常通知を行う監視装置通知部３０１４を有する。続いて、各監視装置について説明する。

図１に示した監視装置の構成図を図４に示す。図４に示すように、各監視装置は、定期的にスイッチ１１１、１１２をｐｉｎｇ監視して応答の有無を判定し、応答がないと判定した場合は異常受付部１０１２に異常通知を行うｐｉｎｇ監視部１０１１と、サーバとｐｉｎｇ監視部１０１１から異常通知を受け付け、異常特定部１０１４に異常特定要求を行う異常受付部１０１２と、異常受付部１０１２から受信したｐｉｎｇ実行結果のパターンから根本原因をそれぞれ定義する障害パターンテーブル１０１３と、異常受付部１０１２から受信した異常通知を元に、障害パターンテーブル１０１３を参照して異常通知の根本原因を特定し、異常内容出力部１０１５に通知する異常特定部１０１４と、異常特定部１０１４から通知された異常内容を画面上に表示する異常内容出力部１０１５を有する。異常特定部１０１４は、通知された異常内容だけでは根本原因を一意に特定できないと判断した場合、ｐｉｎｇ監視部１０１１に特定装置に対するping実行要求を行う。例えば、異常特定部１０１４は、異常を通知したサーバがあるサブシステムを監視するスイッチ（Ｌ３ＳＷ０、Ｌ３ＳＷ１）経由で、スイッチ（Ｌ２ＳＷ０、Ｌ２ＳＷ１）にｐｉｎｇ要求を送信する。

以下に本実施の形態における具体例について説明する。

＜各サーバの実施例＞
各サーバは、それぞれ、監視情報テーブル３０１１を参照し、例えば、ｐｉｎｇ要求部３０１２が、ｐｉｎｇ監視を行う監視対象サーバをサブシステム内、サブシステム外から選定する。図５は、各サーバが保持する監視情報テーブル３０１１の例を示す図である。図５に示すように、監視情報テーブル３０１１は、サブシステムの総数、サブシステム内の装置の数、サブシステム番号、サブシステム内の装置番号、冗長構成（ＬＡＮ０系、ＬＡＮ１系）におけるサーバのＩＰアドレスを保持している。各サーバのｐｉｎｇ要求部３０１２は、監視情報テーブル３０１１を元に、サブシステム内の監視対象サーバとサブシステム外の監視対象サーバを選定し、ｐｉｎｇ監視部３０１３にｐｉｎｇ要求を行う。

図６に、サブシステム内の監視対象サーバ決定までのフローを示す。まず、各サーバでは、ｐｉｎｇ要求部３０１２が、監視情報テーブル３０１１を参照し、自装置の設定値を確認する（Ｓ６０１）。各サーバでは、ｐｉｎｇ監視部３０１３が、ｐｉｎｇ要求部３０１２が自装置の装置番号が奇数であることを確認したか否かを判定し（Ｓ６０２）、ｐｉｎｇ要求部３０１２が自装置の装置番号が奇数であることを確認したと判定した場合（Ｓ６０２；Ｙｅｓ）、同じサブシステム番号のサーバのうち、自サーバの装置番号＋１のサーバをｐｉｎｇ監視対象装置として選定する（Ｓ６０３）。一方、ｐｉｎｇ監視部３０１３は、ｐｉｎｇ要求部３０１２が自装置の装置番号が奇数であることを確認していないと判定した場合（Ｓ６０２；Ｎｏ）、すなわち、自装置の装置番号が偶数であることを確認したと判定した場合、同じサブシステム番号のサーバのうち、自サーバの装置番号－１のサーバをｐｉｎｇ監視対象装置として選定する（Ｓ６０４）。このようにして、サブシステム内でお互いにｐｉｎｇ監視を行うサーバのペアを組む。

また、各サーバでは、ｐｉｎｇ要求部３０１２が、監視情報テーブル３０１１を参照し、サブシステム内装置数が奇数であるか否かを判定し（Ｓ６０５）、サブシステム内装置数が奇数であると判定した場合（Ｓ６０５；Ｙｅｓ）、ｐｉｎｇ監視部３０１３が、上記フローで選定した監視対象サーバに加えて、さらに監視対象サーバを次の手順で追加する。

すなわち、ｐｉｎｇ監視部３０１３は、自サーバの装置番号が最若番のサーバであるか否かを判定し（Ｓ６０６）、自サーバの装置番号が最若番のサーバであると判定した場合（Ｓ６０６；Ｙｅｓ）、同じサブシステムの中で装置番号が最遅番のサーバをｐｉｎｇ監視対象装置として追加する（Ｓ６０７）。

一方、ｐｉｎｇ監視部３０１３は、自サーバの装置番号が最若番のサーバでないと判定した場合（Ｓ６０６；Ｎｏ）、さらに、自サーバの装置番号が最遅番のサーバであるか否かを判定する（Ｓ６０８）。そして、ｐｉｎｇ監視部３０１３は、自サーバの装置番号が最遅番のサーバであると判定した場合（Ｓ６０８；Ｙｅｓ）、同じサブシステムの中で装置番号が最早番のサーバをｐｉｎｇ監視対象装置として追加する（Ｓ６０９）。なお、ｐｉｎｇ要求部３０１２が、サブシステム内装置数が奇数でないと判定した場合（Ｓ６０５；Ｎｏ）、あるいはサブシステム内装置数が奇数であっても、自サーバの装置番号が最早番または最遅番のいずれでもないと判定した場合（Ｓ６０８；Ｎｏ）、サーバを監視対象に追加することなく処理を終了する。

このように、サブシステム内のサーバの数が奇数である場合には、必ずしもペアとなるサーバが一意に定められないため、本例では、最早番のサーバと最遅番のサーバとのペアを組むように制御し、ｐｉｎｇ監視対象装置としてお互いにｐｉｎｇ監視する。図６では、最早番のサーバと最遅番のサーバとのペアを組むように制御したが、必ずしもこのようなパターンで監視対象サーバが選定される必要はなく、例えば、最早番の次の装置番号のサーバと最遅番の１つ前の装置番号のサーバとのペアを組むように制御したり、監視対象サーバの負荷情報（例えば、ＣＰＵ使用率やアクセス数）が一定の値未満となるサーバを選定するように制御してもよい。

図７に、サブシステム外の監視対象サーバ決定までのフローを示す。まず、各サーバでは、ｐｉｎｇ要求部３０１２が、監視情報テーブル３０１１を参照し、自装置の設定値を確認する（Ｓ７０１）。ｐｉｎｇ監視部３０１３が、ｐｉｎｇ要求部３０１２が自装置のサブシステム番号が奇数であることを確認したか否かを判定し（Ｓ７０２）、ｐｉｎｇ要求部３０１２が自装置のサブシステム番号が奇数であることを確認したと判定した場合（Ｓ７０２；Ｙｅｓ）、サブシステム番号＋１のサブシステム内のサーバの中で自装置の装置番号と同じ装置番号のサーバを監視対象サーバとして選定する（Ｓ７０３）。一方、ｐｉｎｇ監視部３０１３は、ｐｉｎｇ要求部３０１２が自装置のサブシステム番号が奇数であることを確認していないと判定した場合（Ｓ７０２；Ｎｏ）、すなわち、自装置のサブシステム番号が偶数であることを確認したと判定した場合、サブシステム番号－１のサブシステム内のサーバの中で自装置の装置番号と同じ装置番号のサーバを監視対象サーバとして選定する（Ｓ７０４）。このようにして、異なるサブシステム間でお互いにｐｉｎｇ監視を行うサーバのペアを組む。

また、各サーバでは、ｐｉｎｇ要求部３０１２が、監視情報テーブル３０１１を参照し、サブシステム総数が奇数であるか否かを判定し（Ｓ６０５）、サブシステム総数が奇数であると判定した場合（Ｓ７０５；Ｙｅｓ）、ｐｉｎｇ監視部３０１３が、上記フローで選定した監視対象サーバに加えて、さらに監視対象サーバを次の手順で追加する。

すなわち、ｐｉｎｇ監視部３０１３は、自装置のサブシステム番号が最若番のサブシステムであるか否かを判定し（Ｓ７０６）、自装置のサブシステム番号が最若番のサブシステムであると判定した場合（Ｓ７０６；Ｙｅｓ）、サブシステム番号が最遅番のサブシステム内のサーバの中で装置番号が自装置と同じサーバを監視対象サーバとして追加する（Ｓ７０７）。

一方、ｐｉｎｇ監視部３０１３は、自装置のサブシステム番号が最若番のサブシステムでないと判定した場合（Ｓ７０６；Ｎｏ）、さらに、自装置のサブシステム番号が最遅番のサブシステムであるか否かを判定する（Ｓ７０８）。そして、ｐｉｎｇ監視部３０１３は、自装置のサブシステム番号が最遅番のサブシステムであると判定した場合（Ｓ７０８；Ｙｅｓ）、サブシステム番号が最若番のサブシステム内のサーバの中で装置番号が自装置と同じサーバを監視対象サーバとして追加する（Ｓ７０９）。なお、ｐｉｎｇ要求部３０１２が、サブシステム総数が奇数でないと判定した場合（Ｓ７０５；Ｎｏ）、あるいはサブシステム総数が奇数であっても、自装置のサブシステム番号が最早番または最遅番のいずれでもないと判定した場合（Ｓ７０８；Ｎｏ）、サーバを監視対象に追加することなく処理を終了する。

このように、サブシステムの数が奇数である場合には、他のサブシステムとの間で必ずしもペアとなるサーバが一意に定められないため、本例では、最早番のサブシステムのサーバと同じ番号の最遅番のサブシステムのサーバとの間でペアを組むように制御し、ｐｉｎｇ監視対象装置としてお互いにｐｉｎｇ監視する。図７では、最早番のサブシステムのサーバと最遅番のサブシステムのサーバとの間でペアを組むように制御したが、必ずしもこのようなパターンで監視対象サーバが選定される必要はなく、例えば、最早番の次のサブシステム番号のサーバと最遅番の１つ前のサブシステム番号のサーバとのペアを組むように制御したり、監視対象サーバの負荷情報（例えば、ＣＰＵ使用率やアクセス数）が一定の値未満となるサーバを選定するように制御してもよい。

図６、７に示した処理により、本システムでは、監視対象サーバを決定後、ｐｉｎｇ実行要求を受信したｐｉｎｇ監視部３０１３は、監視対象サーバに定期的にｐｉｎｇ要求を行う。ｐｉｎｇ監視部３０１３は、監視対象サーバのＬＡＮ０系、ＬＡＮ１系にそれぞれｐｉｎｇ要求を行い、一定時間応答が返らない場合は、監視装置通知部３０１４に異常通知要求を行う。図１の全体構成を例とした場合、サーバ３０１（サーバＡ）のサブシステム内の監視対象サーバはサーバ３０２（サーバＢ）、サーバ３０２（サーバＢ）のサブシステム内の監視対象サーバはサーバ３０１（サーバＡ）となり、互いにｐｉｎｇ監視を行う。また、サーバ３０１（サーバＡ）のサブシステム外の監視対象サーバはサーバ６０１（サーバＣ）となり、同様にサーバ６０１（サーバＣ）のサブシステム外の監視対象サーバはサーバ３０１（サーバＡ）となり、各サーバはお互いにｐｉｎｇ監視を行う。ｐｉｎｇ監視部３０１３は、ｐｉｎｇ監視を行って一定時間応答が返らない場合は、監視装置通知部３０１４に異常通知要求を行う。異常通知要求を受け付けた監視装置通知部３０１４は、確立済みのＴＣＰセッションを活用して、監視対象サーバがｐｉｎｇ要求タイムアウトとなった時間、監視対象サーバ名、自装置名を、監視装置１０１（監視装置０）、監視装置１０２（監視装置１）に通知する。

＜各監視装置の実施例＞
監視装置内の異常受付部１０１２は、サブシステム内の各サーバの異常通知を受け付ける。また、監視装置内のｐｉｎｇ監視部３０１３は、監視部１００内のスイッチ１１１、１１２（Ｌ３ＳＷ）をｐｉｎｇ監視し、応答が返らない場合は、ｐｉｎｇ要求タイムアウトとなった時間、監視対象サーバ名、自サーバ名を含む情報を異常受付部１０１２に通知する。各サーバと監視装置内のping監視部から異常を受け付けた異常受付部１０１２は、異常通知内容を異常特定部１０１４に送信する。

異常特定部１０１４は、異常受付部１０１２から受信したｐｉｎｇ実行結果のパターンから根本原因をそれぞれ定義する障害パターンテーブル１０１３を元に、異常受付部１０１２から受け取った異常通知内容から根本原因を特定する。図１の全体構成を例とした場合の障害パターンテーブルの一例を図８に示す。

図８に示すように、障害パターンテーブル１０１３には、各サーバがダウンした場合、各スイッチ（Ｌ２ＳＷ、Ｌ３ＳＷ）がダウンした場合、各サーバや各スイッチのＬＡＮが異常になった場合のいずれかの場合に、ｐｉｎｇ要求を返さないサーバ（異常検出サーバ）と、ｐｉｎｇ要求タイムアウトを検出するサーバ（Ｐｉｎｇ要求タイムアウト対象サーバ）と、のパターンを保持しており、異常特定部１０１４は、異常受付部１０１２から受け付けた複数の異常通知と障害パターンテーブル１０１３の内容を比較し、根本原因を一意に特定する。

スイッチ１１１、１１２（Ｌ３ＳＷ）とスイッチ３１１、３１２、６１１、６１２（Ｌ２ＳＷ）を接続するＬＡＮ異常が発生した場合の異常通知内容は同じ通知内容となるため、上記の障害が発生した場合のみ、異常特定部１０１４はｐｉｎｇ監視部３０１３へＬ２ＳＷに対するｐｉｎｇ実行要求を行い、応答が返らないＬ２ＳＷ側のＬＡＮに異常が発生したと検知する。根本原因を特定した異常特定部１０１４は、根本原因の情報を異常内容出力部１０１５に通知する。異常特定部１０１４は、根本原因の情報に加えて、異常受付部１０１２が受け付けた全ての異常通知内容を異常内容出力部１０１５に通知しても良い。

異常特定部１０１４から根本原因の異常内容を受信した異常内容出力部１０１５は、根本原因の異常内容を画面に表示して運用者に通知する。また、異常内容出力部１０１４は根本原因の種類によって異常内容を運用者に通知するブザーや、ＬＥＤを鳴動させる機能を持たせても良い。

従来の監視方式であれば、監視対象装置が増加すれば増加する程、監視装置のｐｉｎｇ実行回数は増加したが、本実施の形態では、サブシステムの数やサブシステム内の装置の数が増加しても、各サーバは選定した監視対象サーバのみをｐｉｎｇ監視するだけで良いため、装置の負荷増加は従来の監視方式に比べて少ない。

図９にサブシステム内のサーバ数が増加した際のｐｉｎｇの実行回数と、サブシステム数が増加した際のｐｉｎｇの実行回数を示す。サブシステム内のサーバ数が増加した場合（ａ）またはサブシステム数が増加した場合（ｂ）、従来の監視方法では監視装置のｐｉｎｇ実行回数が増加し負荷も大きくなる。例えば、サブシステム内のサーバ数が２の場合、従来の監視方法では、監視装置１台あたりの最大ｐｉｎｇ実行回数は、スイッチ１１１、１１２（Ｌ３ＳＷ）のそれぞれ（２回）、スイッチ３１１、３１２、６１１、６１２（Ｌ２ＳＷ）のそれぞれ（４回）、サーバ３０１、３０２、６０１、６０２の２つのポートのそれぞれ（４×２＝８回）、についてｐｉｎｇを実行するため、合計で２＋４＋８＝１４回となる。

一方、本実施例の監視方式では、監視装置は２台のスイッチ１１１、１１２（Ｌ３ＳＷ）のみを監視するため、ｐｉｎｇ実行回数は増加しない（２回）。また、サーバ同士のｐｉｎｇ実行回数は、例えば、（ａ）において、サブシステム内のサーバ数が偶数の場合は、サーバ１台当たりのｐｉｎｇ実行回数は４回（例えば、サーバＡの場合は、サーバＢおよびサーバＣの各ポート２＋２＝４）、奇数の場合は６回（例えば、サブシステム内にサーバＡ～Ｃ、サーバＤ～Ｆがある場合、サーバＡは、サーバＢ、サーバＣ、およびサーバＤの各ポート２＋２＋２＝６）で良いため、監視対象サーバ増加による負荷増加の懸念がなくなる。また、（ｂ）において、サブシステム数が偶数の場合および奇数の場合も（ａ）の場合と同様に、サーバ１台当たりのｐｉｎｇ実行回数は、それぞれ４回、６回で良いため、監視対象サーバ増加による負荷増加の懸念が低減できる。さらに、上記に加えて、本実施例の監視方式では、ＬＡＮ異常を含め障害の根本原因を特定できるため、運用者は障害復旧に向けた迅速な対応を行うことが可能となる。

このように、本実施例では、被監視装置同士でｐｉｎｇによる疎通確認を行い、応答が返らない場合監視装置に異常として通知処理を行う被監視装置の機能と、複数の被監視装置が通知する異常通知の根本原因を一意に特定する。被監視装置同士でｐｉｎｇによる疎通確認を行うことにより、監視装置のｐｉｎｇ実行回数を抑えることができ、監視装置の負荷を軽減することができる。この際、被監視装置側のｐｉｎｇ実行回数も抑えることができ、負荷を軽減することができる。また、被監視装置同士でｐｉｎｇによる疎通確認を行った結果を監視装置に通知し、監視装置は被監視装置が通知する疎通確認結果のパターンで障害箇所(装置故障・ＬＡＮ異常)を特定し、根本原因を一意に特定することができる。

１０００監視システム
３０１～３０４サーバ
１０１、１０２監視装置
１１１、１１２スイッチ（Ｌ３ＳＷ０、Ｌ３ＳＷ１）
３１１、３１２スイッチ（Ｌ２ＳＷ０、Ｌ２ＳＷ１）
６１１、６１２スイッチ（Ｌ２ＳＷ０、Ｌ２ＳＷ１）
１０１１ｐｉｎｇ監視部
１０１２異常受付部
１０１３障害パターンテーブル
１０１４異常特定部
１０１５異常内容出力部
３０１１監視情報テーブル
３０１２ｐｉｎｇ要求部
３０１３ｐｉｎｇ監視部
３０１４監視装置通知部

Claims

監視装置が、第１のサブシステムが有する被監視装置である第１のサーバと、前記第１のサブシステムとは異なる第２のサブシステムが有する被監視装置であって前記第１のサーバとは異なる第２のサーバとを、ネットワークを介して監視する監視システムであって、
前記第１のサーバは、
前記第２のサーバにｐｉｎｇを実行して要求応答を受け付けた否かを判定する第１のｐｉｎｇ監視部と、
前記第１のｐｉｎｇ監視部が要求応答を受け付けていないと判定した場合、確立済みのＴＣＰセッションを用いて、前記監視装置に異常を通知する第１の監視装置通知部と、を備え、
前記第２のサーバは、
前記第１のサーバにｐｉｎｇを実行して要求応答を受け付けた否かを判定する第２のｐｉｎｇ監視部と、
前記第２のｐｉｎｇ監視部が要求応答を受け付けていないと判定した場合、確立済みのＴＣＰセッションを用いて、前記監視装置に異常を通知する第２の監視装置通知部と、を備え、
前記監視システムは、
前記第１のサーバまたは前記第２のサーバと前記監視装置とを繋ぐ第１のスイッチと、前記第１のサーバと前記第２のサーバとを繋ぐ第２のスイッチとを有し、
前記監視装置は、
前記第１のスイッチをｐｉｎｇ監視して応答の有無を判定するスイッチｐｉｎｇ監視部と、
サーバがダウンした場合、スイッチがダウンした場合、サーバおよびスイッチのネットワークが異常になった場合のいずれかの場合にｐｉｎｇ要求を返さない異常検出サーバと、ｐｉｎｇ要求タイムアウトを検出するｐｉｎｇ要求タイムアウト対象サーバと、のパターンを保持した障害パターンテーブルと、
前記障害パターンテーブルを用いて前記異常の根本原因を特定する異常特定部と、を備え、
前記第１のサーバの前記第１の監視装置通知部および前記第２のサーバの前記第２の監視装置通知部は、それぞれ、ｐｉｎｇ要求タイムアウトとなった時間と監視対象のサーバ名と自サーバ名とを含む情報を、前記異常とともに前記監視装置に通知し、
前記異常特定部は、前記第１のサーバおよび前記第２のサーバから通知された前記情報と前記障害パターンテーブルとに基づいて、前記異常の原因を特定する、
ことを特徴とする監視システム。
監視装置が、第１のサブシステムが有する被監視装置である第１のサーバと、前記第１のサブシステムとは異なる第２のサブシステムが有する被監視装置であって前記第１のサーバとは異なる第２のサーバとを、ネットワークを介して監視する監視システムであって、
前記第１のサーバは、
前記第２のサーバにｐｉｎｇを実行して要求応答を受け付けた否かを判定する第１のｐｉｎｇ監視部と、
前記第１のｐｉｎｇ監視部が要求応答を受け付けていないと判定した場合、確立済みのＴＣＰセッションを用いて、前記監視装置に異常を通知する第１の監視装置通知部と、を備え、
前記第２のサーバは、
前記第１のサーバにｐｉｎｇを実行して要求応答を受け付けた否かを判定する第２のｐｉｎｇ監視部と、
前記第２のｐｉｎｇ監視部が要求応答を受け付けていないと判定した場合、確立済みのＴＣＰセッションを用いて、前記監視装置に異常を通知する第２の監視装置通知部と、を備え、
前記第１のサブシステムは、複数の前記第１のサーバを有し、
前記第２のサブシステムは、複数の前記第２のサーバを有し、
前記第１のサーバおよび前記第２のサーバのぞれぞれは、監視対象サーバを選定するための、サブシステムの総数、サブシステム内のサーバ数、サブシステム番号、サーバ番号を含む監視情報テーブルを有し、
複数の前記第１のサーバのそれぞれは、前記監視情報テーブルを用いて、前記第１のサブシステム内の中から監視対象となる前記第１のサーバおよび前記第２のサブシステム内の中から監視対象となる前記第２のサーバを選定する第１のｐｉｎｇ要求部を有し、
複数の前記第２のサーバのそれぞれは、前記監視情報テーブルを用いて、前記第２のサブシステム内の中から監視対象となる前記第２のサーバおよび前記第１のサブシステム内の中から監視対象となる前記第１のサーバを選定する第２のｐｉｎｇ要求部を有する、
ことを特徴とする監視システム。
監視装置が、第１のサブシステムが有する被監視装置である第１のサーバと、前記第１のサブシステムとは異なる第２のサブシステムが有する被監視装置であって前記第１のサーバとは異なる第２のサーバとを、ネットワークを介して監視する監視システムで行われる障害監視方法であって、
前記第１のサーバの第１のｐｉｎｇ監視部が、前記第２のサーバにｐｉｎｇを実行して要求応答を受け付けた否かを判定し、
前記第１のサーバの第１の監視装置通知部が、前記第１のｐｉｎｇ監視部が要求応答を受け付けていないと判定した場合、確立済みのＴＣＰセッションを用いて、前記監視装置に異常を通知し、
前記第２のサーバの第２のｐｉｎｇ監視部が、前記第１のサーバにｐｉｎｇを実行して要求応答を受け付けた否かを判定し、
前記第２のサーバの第２の監視装置通知部が、前記第２のｐｉｎｇ監視部が要求応答を受け付けていないと判定した場合、確立済みのＴＣＰセッションを用いて、前記監視装置に異常を通知する場合であって、
前記第１のサーバまたは前記第２のサーバと前記監視装置とを繋ぐ第１のスイッチと、前記第１のサーバと前記第２のサーバとを繋ぐ第２のスイッチとを有した前記監視システムで行われる障害監視方法において、
前記監視装置のスイッチｐｉｎｇ監視部が、前記第１のスイッチをｐｉｎｇ監視して応答の有無を判定し、
前記監視装置の異常特定部が、サーバがダウンした場合、スイッチがダウンした場合、サーバおよびスイッチのネットワークが異常になった場合のいずれかの場合にｐｉｎｇ要求を返さない異常検出サーバと、ｐｉｎｇ要求タイムアウトを検出するｐｉｎｇ要求タイムアウト対象サーバと、のパターンを保持した障害パターンテーブルを用いて前記異常の根本原因を特定し、
前記第１のサーバの前記第１の監視装置通知部および前記第２のサーバの前記第２の監視装置通知部が、それぞれ、ｐｉｎｇ要求タイムアウトとなった時間と監視対象のサーバ名と自サーバ名とを含む情報を、前記異常とともに前記監視装置に通知し、
前記異常特定部が、前記第１のサーバおよび前記第２のサーバから通知された前記情報と前記障害パターンテーブルとに基づいて、前記異常の原因を特定する、
ことを特徴とする障害監視方法。
監視装置が、第１のサブシステムが有する被監視装置である第１のサーバと、前記第１のサブシステムとは異なる第２のサブシステムが有する被監視装置であって前記第１のサーバとは異なる第２のサーバとを、ネットワークを介して監視する監視システムで行われる障害監視方法であって、
前記第１のサーバの第１のｐｉｎｇ監視部が、前記第２のサーバにｐｉｎｇを実行して要求応答を受け付けた否かを判定し、
前記第１のサーバの第１の監視装置通知部が、前記第１のｐｉｎｇ監視部が要求応答を受け付けていないと判定した場合、確立済みのＴＣＰセッションを用いて、前記監視装置に異常を通知し、
前記第２のサーバの第２のｐｉｎｇ監視部が、前記第１のサーバにｐｉｎｇを実行して要求応答を受け付けた否かを判定し、
前記第２のサーバの第２の監視装置通知部が、前記第２のｐｉｎｇ監視部が要求応答を受け付けていないと判定した場合、確立済みのＴＣＰセッションを用いて、前記監視装置に異常を通知する場合であって、
前記第１のサブシステムは、複数の前記第１のサーバを有し、前記第２のサブシステムは、複数の前記第２のサーバを有し、前記第１のサーバおよび前記第２のサーバのぞれぞれは、監視対象サーバを選定するための、サブシステムの総数、サブシステム内のサーバ数、サブシステム番号、サーバ番号を含む監視情報テーブルを有した、前記監視システムで行われる障害監視方法において、
複数の前記第１のサーバのそれぞれの第１のｐｉｎｇ要求部が、前記監視情報テーブルを用いて、前記第１のサブシステム内の中から監視対象となる前記第１のサーバおよび前記第２のサブシステム内の中から監視対象となる前記第２のサーバを選定し、
複数の前記第２のサーバのそれぞれの第２のｐｉｎｇ要求部が、前記監視情報テーブルを用いて、前記第２のサブシステム内の中から監視対象となる前記第２のサーバおよび前記第１のサブシステム内の中から監視対象となる前記第１のサーバを選定する、
ことを特徴とする障害監視方法。