JP7474168B2 - 監視システムおよび障害監視方法 - Google Patents

監視システムおよび障害監視方法 Download PDF

Info

Publication number
JP7474168B2
JP7474168B2 JP2020161504A JP2020161504A JP7474168B2 JP 7474168 B2 JP7474168 B2 JP 7474168B2 JP 2020161504 A JP2020161504 A JP 2020161504A JP 2020161504 A JP2020161504 A JP 2020161504A JP 7474168 B2 JP7474168 B2 JP 7474168B2
Authority
JP
Japan
Prior art keywords
server
ping
monitoring
subsystem
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020161504A
Other languages
English (en)
Other versions
JP2022054351A (ja
Inventor
和貴 相良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2020161504A priority Critical patent/JP7474168B2/ja
Publication of JP2022054351A publication Critical patent/JP2022054351A/ja
Application granted granted Critical
Publication of JP7474168B2 publication Critical patent/JP7474168B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Small-Scale Networks (AREA)

Description

本発明は、監視システムおよび障害監視方法に関する。
従来から、ネットワークに接続されたコンピュータにおける障害発生の有無を監視する様々な技術がある。例えば、監視装置となるサーバが、監視対象となる装置に対してpingによる定期的な疎通確認を行い、当該pingによる疎通確認に対して、監視対象となる装置から応答がなかった場合、当該装置に障害が発生していると判定する技術がある(例えば、特許文献1)。
特開2010-153998号公報
特許文献1では、pingを使用した到達確認結果を調べる手法の採用の可否や、ポートあるいはフロー単位のデータ転送量の計測結果を示す値を設定して障害切り分け部が障害の切り分けをサポートしている。しかし、特許文献1のような従来の技術では、監視装置が複数の被監視装置にpingを同時に実行することにより、監視装置に負荷が集中するため、被監視装置の台数が多い場合、監視装置は高性能で高価な装置を用意しなければならない。高性能ではない監視装置が大量の被監視装置にpingによる定期的な疎通確認を行う場合、監視装置に負荷がかかりCPU使用率が増加し、監視装置内で動作するサービスの処理速度の低下、またはサービス停止につながる可能性がある。また、このような従来の技術では、スイッチやルータ等のネットワーク機器の故障や、サーバの故障を検知することはできるが、各ノードを接続するLAN異常の障害を特定することはできない。LAN異常が発生した場合、当該LANに接続している装置は、監視装置からpingによる疎通確認を受信することができないことにより、ping応答を返せないため、根本原因であるLAN異常ではなく、装置の故障として検知されてしまう。
本発明は、監視装置の負荷を軽減し、疎通確認による障害箇所を特定することが可能な監視システムおよび障害監視方法を提供することを目的とする。
本発明にかかる監視システムは、監視装置が、第1のサブシステムが有する被監視装置である第1のサーバと、前記第1のサブシステムとは異なる第2のサブシステムが有する被監視装置であって前記第1のサーバとは異なる第2のサーバとを、ネットワークを介して監視する監視システムであって、前記第1のサーバは、前記第2のサーバにpingを実行して要求応答を受け付けた否かを判定する第1のping監視部と、前記第1のping監視部が要求応答を受け付けていないと判定した場合、確立済みのTCPセッションを用いて、前記監視装置に異常を通知する第1の監視装置通知部と、を備え、前記第2のサーバは、前記第1のサーバにpingを実行して要求応答を受け付けた否かを判定する第2のping監視部と、前記第2のping監視部が要求応答を受け付けていないと判定した場合、確立済みのTCPセッションを用いて、前記監視装置に異常を通知する第2の監視装置通知部と、を備える、ことを特徴とする監視システムとして構成される。
本発明によれば、監視装置の負荷を軽減し、疎通確認による障害箇所を特定することができる。
本実施例のシステムの全体構成図である。 監視装置、サーバのコンピュータの概略図である。 サーバの構成図である。 監視装置の構成図である。 各サーバが保持する監視情報テーブルの一例である。 各サーバがサブシステム内の監視対象装置を決定するフローである。 各サーバがサブシステム外の監視対象装置を決定するフローである。 監視装置が保持する障害パターンテーブルである。 サブシステム、サーバが増加した場合のping実行回数の比較表である。
以下、図面を参照して本発明の実施形態を説明する。以下の記載および図面は、本発明を説明するための例示であって、説明の明確化のため、適宜、省略および簡略化がなされている。本発明は、他の種々の形態でも実施する事が可能である。特に限定しない限り、各構成要素は単数でも複数でも構わない。
図面において示す各構成要素の位置、大きさ、形状、範囲などは、発明の理解を容易にするため、実際の位置、大きさ、形状、範囲などを表していない場合がある。このため、本発明は、必ずしも、図面に開示された位置、大きさ、形状、範囲などに限定されない。
以下の説明では、「テーブル」、「リスト」等の表現にて各種情報を説明することがあるが、各種情報は、これら以外のデータ構造で表現されていてもよい。データ構造に依存しないことを示すために「XXテーブル」、「XXリスト」等を「XX情報」と呼ぶことがある。識別情報について説明する際に、「識別情報」、「識別子」、「名」、「ID」、「番号」等の表現を用いた場合、これらについてはお互いに置換が可能である。
同一あるいは同様な機能を有する構成要素が複数ある場合には、同一の符号に異なる添字を付して説明する場合がある。ただし、これらの複数の構成要素を区別する必要がない場合には、添字を省略して説明する場合がある。
また、以下の説明では、プログラムを実行して行う処理を説明する場合があるが、プログラムは、プロセッサ(例えばCPU(Central Processing Unit)、GPU(Graphics Processing Unit))によって実行されることで、定められた処理を、適宜に記憶資源(例えばメモリ)および/またはインターフェースデバイス(例えば通信ポート)等を用いながら行うため、処理の主体がプロセッサとされてもよい。同様に、プログラムを実行して行う処理の主体が、プロセッサを有するコントローラ、装置、システム、計算機、ノードであってもよい。プログラムを実行して行う処理の主体は、演算部であれば良く、特定の処理を行う専用回路(例えばFPGA(Field-Programmable Gate Array)やASIC(Application Specific Integrated Circuit))を含んでいてもよい。
プログラムは、プログラムソースから計算機のような装置にインストールされてもよい。プログラムソースは、例えば、プログラム配布サーバまたは計算機が読み取り可能な記憶メディアであってもよい。プログラムソースがプログラム配布サーバの場合、プログラム配布サーバはプロセッサと配布対象のプログラムを記憶する記憶資源を含み、プログラム配布サーバのプロセッサが配布対象のプログラムを他の計算機に配布してもよい。また、以下の説明において、2以上のプログラムが1つのプログラムとして実現されてもよいし、1つのプログラムが2以上のプログラムとして実現されてもよい。
以下、本実施例における監視システムについて説明する。本システムの前提となる全体構成を図1に示す。監視システム1000は、業務サーバであるサーバ301、302、303、304と、これらのサーバを監視する監視装置101、102と、各サーバと各監視装置を繋ぐスイッチ111、112(L3SW0、L3SW1)、311、312(L2SW0、L2SW1)、611、612(L2SW0、L2SW1)を有して構成される。また、ネットワークは0系(監視装置101による監視)と1系(監視装置102による監視)によりそれぞれ冗長構成を採用している。
また、本システムは、サーバ301、302、303、304を監視する監視装置101、102と、スイッチ111、112とを有した監視部100と、サーバ301、302、303、304とこれらのサーバを接続するスイッチ311、312およびスイッチ611、612からなるサブシステム300、600を有し、監視部100は、サブシステム300、600を監視している。図1では、サブシステムが2つ、サブシステム内のサーバが2つである前提で説明しているが、サブシステムの数やサブシステム内のサーバの数は、環境等に応じて任意に増減させてよい。
また、サブシステム内で発生した異常は、監視装置101、102に接続された出力装置が表示する画面に表示され、運用者は画面の表示結果に応じて対応を行う。サーバ301、302、303、304は、0系のネットワーク(例えば、LAN)、1系のネットワーク(例えば、LAN)から監視装置101、102に対して、それぞれTCPセッションを確立し、アプリケーションが出力するイベントを監視装置101、102に通知している。通常は、0系のネットワークで監視装置101、102にイベントを通知し、ネットワーク異常等で0系のネットワークにイベントを通知できない場合は、1系のネットワークでイベントを通知する。
以上に示した各サーバや監視装置は、例えば、図2(コンピュータの概略図)に示すような、CPU201と、メモリ202と、HDD(Hard Disk Drive)等の外部記憶装置203と、CD(Compact Disk)やDVD(Digital Versatile Disk)等の可搬性を有する記憶媒体208に対して情報を読み書きする読書装置207と、キーボードやマウス等の入力装置206と、ディスプレイ等の出力装置205と、通信ネットワークに接続するためのNIC(Network Interface Card)等の通信装置204と、これらを連結するシステムバス等の内部通信線(システムバスという)209と、を備えた一般的なコンピュータ200により実現できる。
例えば、各サーバに記憶された監視情報テーブル3011、あるいは各監視装置に記憶された障害パターン1013等の各データは、CPU201がメモリ202または外部記憶装置203から読み出して利用することにより実現可能である。また、各サーバが有するping要求部3012、ping監視部3013、監視装置通知部3014、あるいは各監視装置が有するping監視部1011、異常受付部1012、異常特定部1014、異常内容出力部1015等の各処理部は、CPU201が外部記憶装置203に記憶されている所定のプログラムをメモリ202にロードして実行することにより実現可能である。また、各サーバや各監視装置は、CPU201が入力装置206を動作させて入力機能を実現可能な入力部を有していてもよい。また、各サーバや各監視装置は、CPU201が出力装置205を動作させて出力機能を実現可能な出力部を有していてもよい。また、各サーバや各監視装置は、CPU201が通信装置204を動作させて通信機能を実現可能な通信部を有していてもよい。本実施例では、上述した通信部が司る機能を、各サーバや各監視装置の処理部が有しているものとする。
上述した所定のプログラムは、読書装置207を介して記憶媒体208から、あるいは、通信装置204を介してネットワークから、外部記憶装置203に記憶(ダウンロード)され、それから、メモリ202上にロードされて、CPU201により実行されるようにしてもよい。また、読書装置207を介して、記憶媒体208から、あるいは通信装置204を介してネットワークから、メモリ202上に直接ロードされ、CPU201により実行されるようにしてもよい。各サーバや各監視装置が有する各部の動作、保持するデータの例については後述する。続いて、サーバについて説明する。
図1に示したサーバの構成図を図3に示す。図3に示すように、各サーバは、監視対象サーバを選定する際に必要となる、サブシステムの総数、サブシステム内のサーバ数(装置数)、サブシステム番号、サーバ番号(装置番号)の情報を持った監視情報テーブル3011と、監視情報テーブル3011の情報を元に監視対象サーバを選定し、ping監視部3013に対して定期的にping要求を行うping要求部3012と、監視対象サーバにpingを実行し、要求応答を受け付けた否かを判定し、要求応答を受け付けていないと判定した場合、すなわち応答がなかった場合に監視装置通知部3014に通知要求を行うping監視部3013と、ping監視部3013から異常通知要求があった場合に監視装置101、102に異常通知を行う監視装置通知部3014を有する。続いて、各監視装置について説明する。
図1に示した監視装置の構成図を図4に示す。図4に示すように、各監視装置は、定期的にスイッチ111、112をping監視して応答の有無を判定し、応答がないと判定した場合は異常受付部1012に異常通知を行うping監視部1011と、サーバとping監視部1011から異常通知を受け付け、異常特定部1014に異常特定要求を行う異常受付部1012と、異常受付部1012から受信したping実行結果のパターンから根本原因をそれぞれ定義する障害パターンテーブル1013と、異常受付部1012から受信した異常通知を元に、障害パターンテーブル1013を参照して異常通知の根本原因を特定し、異常内容出力部1015に通知する異常特定部1014と、異常特定部1014から通知された異常内容を画面上に表示する異常内容出力部1015を有する。異常特定部1014は、通知された異常内容だけでは根本原因を一意に特定できないと判断した場合、ping監視部1011に特定装置に対するping実行要求を行う。例えば、異常特定部1014は、異常を通知したサーバがあるサブシステムを監視するスイッチ(L3SW0、L3SW1)経由で、スイッチ(L2SW0、L2SW1)にping要求を送信する。
以下に本実施の形態における具体例について説明する。
<各サーバの実施例>
各サーバは、それぞれ、監視情報テーブル3011を参照し、例えば、ping要求部3012が、ping監視を行う監視対象サーバをサブシステム内、サブシステム外から選定する。図5は、各サーバが保持する監視情報テーブル3011の例を示す図である。図5に示すように、監視情報テーブル3011は、サブシステムの総数、サブシステム内の装置の数、サブシステム番号、サブシステム内の装置番号、冗長構成(LAN0系、LAN1系)におけるサーバのIPアドレスを保持している。各サーバのping要求部3012は、監視情報テーブル3011を元に、サブシステム内の監視対象サーバとサブシステム外の監視対象サーバを選定し、ping監視部3013にping要求を行う。
図6に、サブシステム内の監視対象サーバ決定までのフローを示す。まず、各サーバでは、ping要求部3012が、監視情報テーブル3011を参照し、自装置の設定値を確認する(S601)。各サーバでは、ping監視部3013が、ping要求部3012が自装置の装置番号が奇数であることを確認したか否かを判定し(S602)、ping要求部3012が自装置の装置番号が奇数であることを確認したと判定した場合(S602;Yes)、同じサブシステム番号のサーバのうち、自サーバの装置番号+1のサーバをping監視対象装置として選定する(S603)。一方、ping監視部3013は、ping要求部3012が自装置の装置番号が奇数であることを確認していないと判定した場合(S602;No)、すなわち、自装置の装置番号が偶数であることを確認したと判定した場合、同じサブシステム番号のサーバのうち、自サーバの装置番号-1のサーバをping監視対象装置として選定する(S604)。このようにして、サブシステム内でお互いにping監視を行うサーバのペアを組む。
また、各サーバでは、ping要求部3012が、監視情報テーブル3011を参照し、サブシステム内装置数が奇数であるか否かを判定し(S605)、サブシステム内装置数が奇数であると判定した場合(S605;Yes)、ping監視部3013が、上記フローで選定した監視対象サーバに加えて、さらに監視対象サーバを次の手順で追加する。
すなわち、ping監視部3013は、自サーバの装置番号が最若番のサーバであるか否かを判定し(S606)、自サーバの装置番号が最若番のサーバであると判定した場合(S606;Yes)、同じサブシステムの中で装置番号が最遅番のサーバをping監視対象装置として追加する(S607)。
一方、ping監視部3013は、自サーバの装置番号が最若番のサーバでないと判定した場合(S606;No)、さらに、自サーバの装置番号が最遅番のサーバであるか否かを判定する(S608)。そして、ping監視部3013は、自サーバの装置番号が最遅番のサーバであると判定した場合(S608;Yes)、同じサブシステムの中で装置番号が最早番のサーバをping監視対象装置として追加する(S609)。なお、ping要求部3012が、サブシステム内装置数が奇数でないと判定した場合(S605;No)、あるいはサブシステム内装置数が奇数であっても、自サーバの装置番号が最早番または最遅番のいずれでもないと判定した場合(S608;No)、サーバを監視対象に追加することなく処理を終了する。
このように、サブシステム内のサーバの数が奇数である場合には、必ずしもペアとなるサーバが一意に定められないため、本例では、最早番のサーバと最遅番のサーバとのペアを組むように制御し、ping監視対象装置としてお互いにping監視する。図6では、最早番のサーバと最遅番のサーバとのペアを組むように制御したが、必ずしもこのようなパターンで監視対象サーバが選定される必要はなく、例えば、最早番の次の装置番号のサーバと最遅番の1つ前の装置番号のサーバとのペアを組むように制御したり、監視対象サーバの負荷情報(例えば、CPU使用率やアクセス数)が一定の値未満となるサーバを選定するように制御してもよい。
図7に、サブシステム外の監視対象サーバ決定までのフローを示す。まず、各サーバでは、ping要求部3012が、監視情報テーブル3011を参照し、自装置の設定値を確認する(S701)。ping監視部3013が、ping要求部3012が自装置のサブシステム番号が奇数であることを確認したか否かを判定し(S702)、ping要求部3012が自装置のサブシステム番号が奇数であることを確認したと判定した場合(S702;Yes)、サブシステム番号+1のサブシステム内のサーバの中で自装置の装置番号と同じ装置番号のサーバを監視対象サーバとして選定する(S703)。一方、ping監視部3013は、ping要求部3012が自装置のサブシステム番号が奇数であることを確認していないと判定した場合(S702;No)、すなわち、自装置のサブシステム番号が偶数であることを確認したと判定した場合、サブシステム番号-1のサブシステム内のサーバの中で自装置の装置番号と同じ装置番号のサーバを監視対象サーバとして選定する(S704)。このようにして、異なるサブシステム間でお互いにping監視を行うサーバのペアを組む。
また、各サーバでは、ping要求部3012が、監視情報テーブル3011を参照し、サブシステム総数が奇数であるか否かを判定し(S605)、サブシステム総数が奇数であると判定した場合(S705;Yes)、ping監視部3013が、上記フローで選定した監視対象サーバに加えて、さらに監視対象サーバを次の手順で追加する。
すなわち、ping監視部3013は、自装置のサブシステム番号が最若番のサブシステムであるか否かを判定し(S706)、自装置のサブシステム番号が最若番のサブシステムであると判定した場合(S706;Yes)、サブシステム番号が最遅番のサブシステム内のサーバの中で装置番号が自装置と同じサーバを監視対象サーバとして追加する(S707)。
一方、ping監視部3013は、自装置のサブシステム番号が最若番のサブシステムでないと判定した場合(S706;No)、さらに、自装置のサブシステム番号が最遅番のサブシステムであるか否かを判定する(S708)。そして、ping監視部3013は、自装置のサブシステム番号が最遅番のサブシステムであると判定した場合(S708;Yes)、サブシステム番号が最若番のサブシステム内のサーバの中で装置番号が自装置と同じサーバを監視対象サーバとして追加する(S709)。なお、ping要求部3012が、サブシステム総数が奇数でないと判定した場合(S705;No)、あるいはサブシステム総数が奇数であっても、自装置のサブシステム番号が最早番または最遅番のいずれでもないと判定した場合(S708;No)、サーバを監視対象に追加することなく処理を終了する。
このように、サブシステムの数が奇数である場合には、他のサブシステムとの間で必ずしもペアとなるサーバが一意に定められないため、本例では、最早番のサブシステムのサーバと同じ番号の最遅番のサブシステムのサーバとの間でペアを組むように制御し、ping監視対象装置としてお互いにping監視する。図7では、最早番のサブシステムのサーバと最遅番のサブシステムのサーバとの間でペアを組むように制御したが、必ずしもこのようなパターンで監視対象サーバが選定される必要はなく、例えば、最早番の次のサブシステム番号のサーバと最遅番の1つ前のサブシステム番号のサーバとのペアを組むように制御したり、監視対象サーバの負荷情報(例えば、CPU使用率やアクセス数)が一定の値未満となるサーバを選定するように制御してもよい。
図6、7に示した処理により、本システムでは、監視対象サーバを決定後、ping実行要求を受信したping監視部3013は、監視対象サーバに定期的にping要求を行う。ping監視部3013は、監視対象サーバのLAN0系、LAN1系にそれぞれping要求を行い、一定時間応答が返らない場合は、監視装置通知部3014に異常通知要求を行う。図1の全体構成を例とした場合、サーバ301(サーバA)のサブシステム内の監視対象サーバはサーバ302(サーバB)、サーバ302(サーバB)のサブシステム内の監視対象サーバはサーバ301(サーバA)となり、互いにping監視を行う。また、サーバ301(サーバA)のサブシステム外の監視対象サーバはサーバ601(サーバC)となり、同様にサーバ601(サーバC)のサブシステム外の監視対象サーバはサーバ301(サーバA)となり、各サーバはお互いにping監視を行う。ping監視部3013は、ping監視を行って一定時間応答が返らない場合は、監視装置通知部3014に異常通知要求を行う。異常通知要求を受け付けた監視装置通知部3014は、確立済みのTCPセッションを活用して、監視対象サーバがping要求タイムアウトとなった時間、監視対象サーバ名、自装置名を、監視装置101(監視装置0)、監視装置102(監視装置1)に通知する。
<各監視装置の実施例>
監視装置内の異常受付部1012は、サブシステム内の各サーバの異常通知を受け付ける。また、監視装置内のping監視部3013は、監視部100内のスイッチ111、112(L3SW)をping監視し、応答が返らない場合は、ping要求タイムアウトとなった時間、監視対象サーバ名、自サーバ名を含む情報を異常受付部1012に通知する。各サーバと監視装置内のping監視部から異常を受け付けた異常受付部1012は、異常通知内容を異常特定部1014に送信する。
異常特定部1014は、異常受付部1012から受信したping実行結果のパターンから根本原因をそれぞれ定義する障害パターンテーブル1013を元に、異常受付部1012から受け取った異常通知内容から根本原因を特定する。図1の全体構成を例とした場合の障害パターンテーブルの一例を図8に示す。
図8に示すように、障害パターンテーブル1013には、各サーバがダウンした場合、各スイッチ(L2SW、L3SW)がダウンした場合、各サーバや各スイッチのLANが異常になった場合のいずれかの場合に、ping要求を返さないサーバ(異常検出サーバ)と、ping要求タイムアウトを検出するサーバ(Ping要求タイムアウト対象サーバ)と、のパターンを保持しており、異常特定部1014は、異常受付部1012から受け付けた複数の異常通知と障害パターンテーブル1013の内容を比較し、根本原因を一意に特定する。
スイッチ111、112(L3SW)とスイッチ311、312、611、612(L2SW)を接続するLAN異常が発生した場合の異常通知内容は同じ通知内容となるため、上記の障害が発生した場合のみ、異常特定部1014はping監視部3013へL2SWに対するping実行要求を行い、応答が返らないL2SW側のLANに異常が発生したと検知する。根本原因を特定した異常特定部1014は、根本原因の情報を異常内容出力部1015に通知する。異常特定部1014は、根本原因の情報に加えて、異常受付部1012が受け付けた全ての異常通知内容を異常内容出力部1015に通知しても良い。
異常特定部1014から根本原因の異常内容を受信した異常内容出力部1015は、根本原因の異常内容を画面に表示して運用者に通知する。また、異常内容出力部1014は根本原因の種類によって異常内容を運用者に通知するブザーや、LEDを鳴動させる機能を持たせても良い。
従来の監視方式であれば、監視対象装置が増加すれば増加する程、監視装置のping実行回数は増加したが、本実施の形態では、サブシステムの数やサブシステム内の装置の数が増加しても、各サーバは選定した監視対象サーバのみをping監視するだけで良いため、装置の負荷増加は従来の監視方式に比べて少ない。
図9にサブシステム内のサーバ数が増加した際のpingの実行回数と、サブシステム数が増加した際のpingの実行回数を示す。サブシステム内のサーバ数が増加した場合(a)またはサブシステム数が増加した場合(b)、従来の監視方法では監視装置のping実行回数が増加し負荷も大きくなる。例えば、サブシステム内のサーバ数が2の場合、従来の監視方法では、監視装置1台あたりの最大ping実行回数は、スイッチ111、112(L3SW)のそれぞれ(2回)、スイッチ311、312、611、612(L2SW)のそれぞれ(4回)、サーバ301、302、601、602の2つのポートのそれぞれ(4×2=8回)、についてpingを実行するため、合計で2+4+8=14回となる。
一方、本実施例の監視方式では、監視装置は2台のスイッチ111、112(L3SW)のみを監視するため、ping実行回数は増加しない(2回)。また、サーバ同士のping実行回数は、例えば、(a)において、サブシステム内のサーバ数が偶数の場合は、サーバ1台当たりのping実行回数は4回(例えば、サーバAの場合は、サーバBおよびサーバCの各ポート2+2=4)、奇数の場合は6回(例えば、サブシステム内にサーバA~C、サーバD~Fがある場合、サーバAは、サーバB、サーバC、およびサーバDの各ポート2+2+2=6)で良いため、監視対象サーバ増加による負荷増加の懸念がなくなる。また、(b)において、サブシステム数が偶数の場合および奇数の場合も(a)の場合と同様に、サーバ1台当たりのping実行回数は、それぞれ4回、6回で良いため、監視対象サーバ増加による負荷増加の懸念が低減できる。さらに、上記に加えて、本実施例の監視方式では、LAN異常を含め障害の根本原因を特定できるため、運用者は障害復旧に向けた迅速な対応を行うことが可能となる。
このように、本実施例では、被監視装置同士でpingによる疎通確認を行い、応答が返らない場合監視装置に異常として通知処理を行う被監視装置の機能と、複数の被監視装置が通知する異常通知の根本原因を一意に特定する。被監視装置同士でpingによる疎通確認を行うことにより、監視装置のping実行回数を抑えることができ、監視装置の負荷を軽減することができる。この際、被監視装置側のping実行回数も抑えることができ、負荷を軽減することができる。また、被監視装置同士でpingによる疎通確認を行った結果を監視装置に通知し、監視装置は被監視装置が通知する疎通確認結果のパターンで障害箇所(装置故障・LAN異常)を特定し、根本原因を一意に特定することができる。
1000 監視システム
301~304 サーバ
101、102 監視装置
111、112 スイッチ(L3SW0、L3SW1)
311、312 スイッチ(L2SW0、L2SW1)
611、612 スイッチ(L2SW0、L2SW1)
1011 ping監視部
1012 異常受付部
1013 障害パターンテーブル
1014 異常特定部
1015 異常内容出力部
3011 監視情報テーブル
3012 ping要求部
3013 ping監視部
3014 監視装置通知部

Claims (4)

  1. 監視装置が、第1のサブシステムが有する被監視装置である第1のサーバと、前記第1のサブシステムとは異なる第2のサブシステムが有する被監視装置であって前記第1のサーバとは異なる第2のサーバとを、ネットワークを介して監視する監視システムであって、
    前記第1のサーバは、
    前記第2のサーバにpingを実行して要求応答を受け付けた否かを判定する第1のping監視部と、
    前記第1のping監視部が要求応答を受け付けていないと判定した場合、確立済みのTCPセッションを用いて、前記監視装置に異常を通知する第1の監視装置通知部と、を備え、
    前記第2のサーバは、
    前記第1のサーバにpingを実行して要求応答を受け付けた否かを判定する第2のping監視部と、
    前記第2のping監視部が要求応答を受け付けていないと判定した場合、確立済みのTCPセッションを用いて、前記監視装置に異常を通知する第2の監視装置通知部と、を備え
    前記監視システムは、
    前記第1のサーバまたは前記第2のサーバと前記監視装置とを繋ぐ第1のスイッチと、前記第1のサーバと前記第2のサーバとを繋ぐ第2のスイッチとを有し、
    前記監視装置は、
    前記第1のスイッチをping監視して応答の有無を判定するスイッチping監視部と、
    サーバがダウンした場合、スイッチがダウンした場合、サーバおよびスイッチのネットワークが異常になった場合のいずれかの場合にping要求を返さない異常検出サーバと、ping要求タイムアウトを検出するping要求タイムアウト対象サーバと、のパターンを保持した障害パターンテーブルと、
    前記障害パターンテーブルを用いて前記異常の根本原因を特定する異常特定部と、を備え、
    前記第1のサーバの前記第1の監視装置通知部および前記第2のサーバの前記第2の監視装置通知部は、それぞれ、ping要求タイムアウトとなった時間と監視対象のサーバ名と自サーバ名とを含む情報を、前記異常とともに前記監視装置に通知し、
    前記異常特定部は、前記第1のサーバおよび前記第2のサーバから通知された前記情報と前記障害パターンテーブルとに基づいて、前記異常の原因を特定する、
    ことを特徴とする監視システム。
  2. 監視装置が、第1のサブシステムが有する被監視装置である第1のサーバと、前記第1のサブシステムとは異なる第2のサブシステムが有する被監視装置であって前記第1のサーバとは異なる第2のサーバとを、ネットワークを介して監視する監視システムであって、
    前記第1のサーバは、
    前記第2のサーバにpingを実行して要求応答を受け付けた否かを判定する第1のping監視部と、
    前記第1のping監視部が要求応答を受け付けていないと判定した場合、確立済みのTCPセッションを用いて、前記監視装置に異常を通知する第1の監視装置通知部と、を備え、
    前記第2のサーバは、
    前記第1のサーバにpingを実行して要求応答を受け付けた否かを判定する第2のping監視部と、
    前記第2のping監視部が要求応答を受け付けていないと判定した場合、確立済みのTCPセッションを用いて、前記監視装置に異常を通知する第2の監視装置通知部と、を備え、
    前記第1のサブシステムは、複数の前記第1のサーバを有し、
    前記第2のサブシステムは、複数の前記第2のサーバを有し、
    前記第1のサーバおよび前記第2のサーバのぞれぞれは、監視対象サーバを選定するための、サブシステムの総数、サブシステム内のサーバ数、サブシステム番号、サーバ番号を含む監視情報テーブルを有し、
    複数の前記第1のサーバのそれぞれは、前記監視情報テーブルを用いて、前記第1のサブシステム内の中から監視対象となる前記第1のサーバおよび前記第2のサブシステム内の中から監視対象となる前記第2のサーバを選定する第1のping要求部を有し、
    複数の前記第2のサーバのそれぞれは、前記監視情報テーブルを用いて、前記第2のサブシステム内の中から監視対象となる前記第2のサーバおよび前記第1のサブシステム内の中から監視対象となる前記第1のサーバを選定する第2のping要求部を有する、
    ことを特徴とする視システム。
  3. 監視装置が、第1のサブシステムが有する被監視装置である第1のサーバと、前記第1のサブシステムとは異なる第2のサブシステムが有する被監視装置であって前記第1のサーバとは異なる第2のサーバとを、ネットワークを介して監視する監視システムで行われる障害監視方法であって、
    前記第1のサーバの第1のping監視部が、前記第2のサーバにpingを実行して要求応答を受け付けた否かを判定し、
    前記第1のサーバの第1の監視装置通知部が、前記第1のping監視部が要求応答を受け付けていないと判定した場合、確立済みのTCPセッションを用いて、前記監視装置に異常を通知し、
    前記第2のサーバの第2のping監視部が、前記第1のサーバにpingを実行して要求応答を受け付けた否かを判定し、
    前記第2のサーバの第2の監視装置通知部が、前記第2のping監視部が要求応答を受け付けていないと判定した場合、確立済みのTCPセッションを用いて、前記監視装置に異常を通知する場合であって、
    前記第1のサーバまたは前記第2のサーバと前記監視装置とを繋ぐ第1のスイッチと、前記第1のサーバと前記第2のサーバとを繋ぐ第2のスイッチとを有した前記監視システムで行われる障害監視方法において、
    前記監視装置のスイッチping監視部が、前記第1のスイッチをping監視して応答の有無を判定し、
    前記監視装置の異常特定部が、サーバがダウンした場合、スイッチがダウンした場合、サーバおよびスイッチのネットワークが異常になった場合のいずれかの場合にping要求を返さない異常検出サーバと、ping要求タイムアウトを検出するping要求タイムアウト対象サーバと、のパターンを保持した障害パターンテーブルを用いて前記異常の根本原因を特定し、
    前記第1のサーバの前記第1の監視装置通知部および前記第2のサーバの前記第2の監視装置通知部が、それぞれ、ping要求タイムアウトとなった時間と監視対象のサーバ名と自サーバ名とを含む情報を、前記異常とともに前記監視装置に通知し、
    前記異常特定部が、前記第1のサーバおよび前記第2のサーバから通知された前記情報と前記障害パターンテーブルとに基づいて、前記異常の原因を特定する、
    ことを特徴とする障害監視方法。
  4. 監視装置が、第1のサブシステムが有する被監視装置である第1のサーバと、前記第1のサブシステムとは異なる第2のサブシステムが有する被監視装置であって前記第1のサーバとは異なる第2のサーバとを、ネットワークを介して監視する監視システムで行われる障害監視方法であって、
    前記第1のサーバの第1のping監視部が、前記第2のサーバにpingを実行して要求応答を受け付けた否かを判定し、
    前記第1のサーバの第1の監視装置通知部が、前記第1のping監視部が要求応答を受け付けていないと判定した場合、確立済みのTCPセッションを用いて、前記監視装置に異常を通知し、
    前記第2のサーバの第2のping監視部が、前記第1のサーバにpingを実行して要求応答を受け付けた否かを判定し、
    前記第2のサーバの第2の監視装置通知部が、前記第2のping監視部が要求応答を受け付けていないと判定した場合、確立済みのTCPセッションを用いて、前記監視装置に異常を通知する場合であって、
    前記第1のサブシステムは、複数の前記第1のサーバを有し、前記第2のサブシステムは、複数の前記第2のサーバを有し、前記第1のサーバおよび前記第2のサーバのぞれぞれは、監視対象サーバを選定するための、サブシステムの総数、サブシステム内のサーバ数、サブシステム番号、サーバ番号を含む監視情報テーブルを有した、前記監視システムで行われる障害監視方法において
    複数の前記第1のサーバのそれぞれの第1のping要求部が、前記監視情報テーブルを用いて、前記第1のサブシステム内の中から監視対象となる前記第1のサーバおよび前記第2のサブシステム内の中から監視対象となる前記第2のサーバを選定し、
    複数の前記第2のサーバのそれぞれの第2のping要求部が、前記監視情報テーブルを用いて、前記第2のサブシステム内の中から監視対象となる前記第2のサーバおよび前記第1のサブシステム内の中から監視対象となる前記第1のサーバを選定する、
    ことを特徴とする害監視方法。
JP2020161504A 2020-09-25 2020-09-25 監視システムおよび障害監視方法 Active JP7474168B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020161504A JP7474168B2 (ja) 2020-09-25 2020-09-25 監視システムおよび障害監視方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020161504A JP7474168B2 (ja) 2020-09-25 2020-09-25 監視システムおよび障害監視方法

Publications (2)

Publication Number Publication Date
JP2022054351A JP2022054351A (ja) 2022-04-06
JP7474168B2 true JP7474168B2 (ja) 2024-04-24

Family

ID=80996748

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020161504A Active JP7474168B2 (ja) 2020-09-25 2020-09-25 監視システムおよび障害監視方法

Country Status (1)

Country Link
JP (1) JP7474168B2 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004171370A (ja) 2002-11-21 2004-06-17 Nec Corp 冗長構成におけるクライアント/サーバ間のアドレス制御方式および方法
JP2013037655A (ja) 2011-08-11 2013-02-21 Fujitsu Ltd 情報処理プログラムおよび情報処理装置
JP2013084121A (ja) 2011-10-11 2013-05-09 Hitachi Ltd 多重系制御装置
US20160092288A1 (en) 2014-09-27 2016-03-31 Oracle International Corporation Detect process health remotely in a realtime fashion

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004171370A (ja) 2002-11-21 2004-06-17 Nec Corp 冗長構成におけるクライアント/サーバ間のアドレス制御方式および方法
JP2013037655A (ja) 2011-08-11 2013-02-21 Fujitsu Ltd 情報処理プログラムおよび情報処理装置
JP2013084121A (ja) 2011-10-11 2013-05-09 Hitachi Ltd 多重系制御装置
US20160092288A1 (en) 2014-09-27 2016-03-31 Oracle International Corporation Detect process health remotely in a realtime fashion

Also Published As

Publication number Publication date
JP2022054351A (ja) 2022-04-06

Similar Documents

Publication Publication Date Title
JP5851503B2 (ja) 高可用性仮想機械環境におけるアプリケーションの高可用性の提供
Oliner et al. What supercomputers say: A study of five system logs
US7644254B2 (en) Routing data packets with hint bit for each six orthogonal directions in three dimensional torus computer system set to avoid nodes in problem list
JP5215840B2 (ja) 非同期イベント通知
US9189316B2 (en) Managing failover in clustered systems, after determining that a node has authority to make a decision on behalf of a sub-cluster
KR101504882B1 (ko) 하드웨어 장애 완화
US20070038885A1 (en) Method for operating an arrangement of a plurality of computers in the event of a computer failure
WO2015169199A1 (zh) 分布式环境下虚拟机异常恢复方法
JP2005209190A (ja) 高可用性クラスタノードの複数状態ステータスの報告
US20200351366A1 (en) Inter-process communication fault detection and recovery system
US20110099273A1 (en) Monitoring apparatus, monitoring method, and a computer-readable recording medium storing a monitoring program
WO2015058711A1 (zh) 故障快速检测方法及装置
US20070086350A1 (en) Method, system, and computer program product for providing failure detection with minimal bandwidth usage
JP6183931B2 (ja) クラスタシステム、サーバ装置、クラスタシステムの管理方法、及びプログラム。
US10530634B1 (en) Two-channel-based high-availability
US8489721B1 (en) Method and apparatus for providing high availabilty to service groups within a datacenter
US9430341B2 (en) Failover in a data center that includes a multi-density server
JP2011203941A (ja) 情報処理装置、監視方法、および監視プログラム
JP7474168B2 (ja) 監視システムおよび障害監視方法
US7475076B1 (en) Method and apparatus for providing remote alert reporting for managed resources
WO2005114961A1 (en) Distributed high availability system and method
JP2020038506A (ja) 情報処理システム、情報処理方法、及び、プログラム
EP2616938B1 (en) Fault handling systems and methods
KR101883251B1 (ko) 가상 시스템에서 장애 조치를 판단하는 장치 및 그 방법
US8533331B1 (en) Method and apparatus for preventing concurrency violation among resources

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230119

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240402

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240412