JP7474168B2 - 監視システムおよび障害監視方法 - Google Patents
監視システムおよび障害監視方法 Download PDFInfo
- Publication number
- JP7474168B2 JP7474168B2 JP2020161504A JP2020161504A JP7474168B2 JP 7474168 B2 JP7474168 B2 JP 7474168B2 JP 2020161504 A JP2020161504 A JP 2020161504A JP 2020161504 A JP2020161504 A JP 2020161504A JP 7474168 B2 JP7474168 B2 JP 7474168B2
- Authority
- JP
- Japan
- Prior art keywords
- server
- ping
- monitoring
- subsystem
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012544 monitoring process Methods 0.000 title claims description 119
- 238000000034 method Methods 0.000 title claims description 27
- 238000012806 monitoring device Methods 0.000 claims description 95
- 230000005856 abnormality Effects 0.000 claims description 71
- 230000004044 response Effects 0.000 claims description 34
- 238000001514 detection method Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 17
- 238000012545 processing Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 238000012790 confirmation Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000002955 isolation Methods 0.000 description 2
- 208000002693 Multiple Abnormalities Diseases 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Landscapes
- Debugging And Monitoring (AREA)
- Small-Scale Networks (AREA)
Description
各サーバは、それぞれ、監視情報テーブル3011を参照し、例えば、ping要求部3012が、ping監視を行う監視対象サーバをサブシステム内、サブシステム外から選定する。図5は、各サーバが保持する監視情報テーブル3011の例を示す図である。図5に示すように、監視情報テーブル3011は、サブシステムの総数、サブシステム内の装置の数、サブシステム番号、サブシステム内の装置番号、冗長構成(LAN0系、LAN1系)におけるサーバのIPアドレスを保持している。各サーバのping要求部3012は、監視情報テーブル3011を元に、サブシステム内の監視対象サーバとサブシステム外の監視対象サーバを選定し、ping監視部3013にping要求を行う。
監視装置内の異常受付部1012は、サブシステム内の各サーバの異常通知を受け付ける。また、監視装置内のping監視部3013は、監視部100内のスイッチ111、112(L3SW)をping監視し、応答が返らない場合は、ping要求タイムアウトとなった時間、監視対象サーバ名、自サーバ名を含む情報を異常受付部1012に通知する。各サーバと監視装置内のping監視部から異常を受け付けた異常受付部1012は、異常通知内容を異常特定部1014に送信する。
301~304 サーバ
101、102 監視装置
111、112 スイッチ(L3SW0、L3SW1)
311、312 スイッチ(L2SW0、L2SW1)
611、612 スイッチ(L2SW0、L2SW1)
1011 ping監視部
1012 異常受付部
1013 障害パターンテーブル
1014 異常特定部
1015 異常内容出力部
3011 監視情報テーブル
3012 ping要求部
3013 ping監視部
3014 監視装置通知部
Claims (4)
- 監視装置が、第1のサブシステムが有する被監視装置である第1のサーバと、前記第1のサブシステムとは異なる第2のサブシステムが有する被監視装置であって前記第1のサーバとは異なる第2のサーバとを、ネットワークを介して監視する監視システムであって、
前記第1のサーバは、
前記第2のサーバにpingを実行して要求応答を受け付けた否かを判定する第1のping監視部と、
前記第1のping監視部が要求応答を受け付けていないと判定した場合、確立済みのTCPセッションを用いて、前記監視装置に異常を通知する第1の監視装置通知部と、を備え、
前記第2のサーバは、
前記第1のサーバにpingを実行して要求応答を受け付けた否かを判定する第2のping監視部と、
前記第2のping監視部が要求応答を受け付けていないと判定した場合、確立済みのTCPセッションを用いて、前記監視装置に異常を通知する第2の監視装置通知部と、を備え、
前記監視システムは、
前記第1のサーバまたは前記第2のサーバと前記監視装置とを繋ぐ第1のスイッチと、前記第1のサーバと前記第2のサーバとを繋ぐ第2のスイッチとを有し、
前記監視装置は、
前記第1のスイッチをping監視して応答の有無を判定するスイッチping監視部と、
サーバがダウンした場合、スイッチがダウンした場合、サーバおよびスイッチのネットワークが異常になった場合のいずれかの場合にping要求を返さない異常検出サーバと、ping要求タイムアウトを検出するping要求タイムアウト対象サーバと、のパターンを保持した障害パターンテーブルと、
前記障害パターンテーブルを用いて前記異常の根本原因を特定する異常特定部と、を備え、
前記第1のサーバの前記第1の監視装置通知部および前記第2のサーバの前記第2の監視装置通知部は、それぞれ、ping要求タイムアウトとなった時間と監視対象のサーバ名と自サーバ名とを含む情報を、前記異常とともに前記監視装置に通知し、
前記異常特定部は、前記第1のサーバおよび前記第2のサーバから通知された前記情報と前記障害パターンテーブルとに基づいて、前記異常の原因を特定する、
ことを特徴とする監視システム。 - 監視装置が、第1のサブシステムが有する被監視装置である第1のサーバと、前記第1のサブシステムとは異なる第2のサブシステムが有する被監視装置であって前記第1のサーバとは異なる第2のサーバとを、ネットワークを介して監視する監視システムであって、
前記第1のサーバは、
前記第2のサーバにpingを実行して要求応答を受け付けた否かを判定する第1のping監視部と、
前記第1のping監視部が要求応答を受け付けていないと判定した場合、確立済みのTCPセッションを用いて、前記監視装置に異常を通知する第1の監視装置通知部と、を備え、
前記第2のサーバは、
前記第1のサーバにpingを実行して要求応答を受け付けた否かを判定する第2のping監視部と、
前記第2のping監視部が要求応答を受け付けていないと判定した場合、確立済みのTCPセッションを用いて、前記監視装置に異常を通知する第2の監視装置通知部と、を備え、
前記第1のサブシステムは、複数の前記第1のサーバを有し、
前記第2のサブシステムは、複数の前記第2のサーバを有し、
前記第1のサーバおよび前記第2のサーバのぞれぞれは、監視対象サーバを選定するための、サブシステムの総数、サブシステム内のサーバ数、サブシステム番号、サーバ番号を含む監視情報テーブルを有し、
複数の前記第1のサーバのそれぞれは、前記監視情報テーブルを用いて、前記第1のサブシステム内の中から監視対象となる前記第1のサーバおよび前記第2のサブシステム内の中から監視対象となる前記第2のサーバを選定する第1のping要求部を有し、
複数の前記第2のサーバのそれぞれは、前記監視情報テーブルを用いて、前記第2のサブシステム内の中から監視対象となる前記第2のサーバおよび前記第1のサブシステム内の中から監視対象となる前記第1のサーバを選定する第2のping要求部を有する、
ことを特徴とする監視システム。 - 監視装置が、第1のサブシステムが有する被監視装置である第1のサーバと、前記第1のサブシステムとは異なる第2のサブシステムが有する被監視装置であって前記第1のサーバとは異なる第2のサーバとを、ネットワークを介して監視する監視システムで行われる障害監視方法であって、
前記第1のサーバの第1のping監視部が、前記第2のサーバにpingを実行して要求応答を受け付けた否かを判定し、
前記第1のサーバの第1の監視装置通知部が、前記第1のping監視部が要求応答を受け付けていないと判定した場合、確立済みのTCPセッションを用いて、前記監視装置に異常を通知し、
前記第2のサーバの第2のping監視部が、前記第1のサーバにpingを実行して要求応答を受け付けた否かを判定し、
前記第2のサーバの第2の監視装置通知部が、前記第2のping監視部が要求応答を受け付けていないと判定した場合、確立済みのTCPセッションを用いて、前記監視装置に異常を通知する場合であって、
前記第1のサーバまたは前記第2のサーバと前記監視装置とを繋ぐ第1のスイッチと、前記第1のサーバと前記第2のサーバとを繋ぐ第2のスイッチとを有した前記監視システムで行われる障害監視方法において、
前記監視装置のスイッチping監視部が、前記第1のスイッチをping監視して応答の有無を判定し、
前記監視装置の異常特定部が、サーバがダウンした場合、スイッチがダウンした場合、サーバおよびスイッチのネットワークが異常になった場合のいずれかの場合にping要求を返さない異常検出サーバと、ping要求タイムアウトを検出するping要求タイムアウト対象サーバと、のパターンを保持した障害パターンテーブルを用いて前記異常の根本原因を特定し、
前記第1のサーバの前記第1の監視装置通知部および前記第2のサーバの前記第2の監視装置通知部が、それぞれ、ping要求タイムアウトとなった時間と監視対象のサーバ名と自サーバ名とを含む情報を、前記異常とともに前記監視装置に通知し、
前記異常特定部が、前記第1のサーバおよび前記第2のサーバから通知された前記情報と前記障害パターンテーブルとに基づいて、前記異常の原因を特定する、
ことを特徴とする障害監視方法。 - 監視装置が、第1のサブシステムが有する被監視装置である第1のサーバと、前記第1のサブシステムとは異なる第2のサブシステムが有する被監視装置であって前記第1のサーバとは異なる第2のサーバとを、ネットワークを介して監視する監視システムで行われる障害監視方法であって、
前記第1のサーバの第1のping監視部が、前記第2のサーバにpingを実行して要求応答を受け付けた否かを判定し、
前記第1のサーバの第1の監視装置通知部が、前記第1のping監視部が要求応答を受け付けていないと判定した場合、確立済みのTCPセッションを用いて、前記監視装置に異常を通知し、
前記第2のサーバの第2のping監視部が、前記第1のサーバにpingを実行して要求応答を受け付けた否かを判定し、
前記第2のサーバの第2の監視装置通知部が、前記第2のping監視部が要求応答を受け付けていないと判定した場合、確立済みのTCPセッションを用いて、前記監視装置に異常を通知する場合であって、
前記第1のサブシステムは、複数の前記第1のサーバを有し、前記第2のサブシステムは、複数の前記第2のサーバを有し、前記第1のサーバおよび前記第2のサーバのぞれぞれは、監視対象サーバを選定するための、サブシステムの総数、サブシステム内のサーバ数、サブシステム番号、サーバ番号を含む監視情報テーブルを有した、前記監視システムで行われる障害監視方法において、
複数の前記第1のサーバのそれぞれの第1のping要求部が、前記監視情報テーブルを用いて、前記第1のサブシステム内の中から監視対象となる前記第1のサーバおよび前記第2のサブシステム内の中から監視対象となる前記第2のサーバを選定し、
複数の前記第2のサーバのそれぞれの第2のping要求部が、前記監視情報テーブルを用いて、前記第2のサブシステム内の中から監視対象となる前記第2のサーバおよび前記第1のサブシステム内の中から監視対象となる前記第1のサーバを選定する、
ことを特徴とする障害監視方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020161504A JP7474168B2 (ja) | 2020-09-25 | 2020-09-25 | 監視システムおよび障害監視方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020161504A JP7474168B2 (ja) | 2020-09-25 | 2020-09-25 | 監視システムおよび障害監視方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022054351A JP2022054351A (ja) | 2022-04-06 |
JP7474168B2 true JP7474168B2 (ja) | 2024-04-24 |
Family
ID=80996748
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020161504A Active JP7474168B2 (ja) | 2020-09-25 | 2020-09-25 | 監視システムおよび障害監視方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7474168B2 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004171370A (ja) | 2002-11-21 | 2004-06-17 | Nec Corp | 冗長構成におけるクライアント/サーバ間のアドレス制御方式および方法 |
JP2013037655A (ja) | 2011-08-11 | 2013-02-21 | Fujitsu Ltd | 情報処理プログラムおよび情報処理装置 |
JP2013084121A (ja) | 2011-10-11 | 2013-05-09 | Hitachi Ltd | 多重系制御装置 |
US20160092288A1 (en) | 2014-09-27 | 2016-03-31 | Oracle International Corporation | Detect process health remotely in a realtime fashion |
-
2020
- 2020-09-25 JP JP2020161504A patent/JP7474168B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004171370A (ja) | 2002-11-21 | 2004-06-17 | Nec Corp | 冗長構成におけるクライアント/サーバ間のアドレス制御方式および方法 |
JP2013037655A (ja) | 2011-08-11 | 2013-02-21 | Fujitsu Ltd | 情報処理プログラムおよび情報処理装置 |
JP2013084121A (ja) | 2011-10-11 | 2013-05-09 | Hitachi Ltd | 多重系制御装置 |
US20160092288A1 (en) | 2014-09-27 | 2016-03-31 | Oracle International Corporation | Detect process health remotely in a realtime fashion |
Also Published As
Publication number | Publication date |
---|---|
JP2022054351A (ja) | 2022-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5851503B2 (ja) | 高可用性仮想機械環境におけるアプリケーションの高可用性の提供 | |
Oliner et al. | What supercomputers say: A study of five system logs | |
US7644254B2 (en) | Routing data packets with hint bit for each six orthogonal directions in three dimensional torus computer system set to avoid nodes in problem list | |
JP5215840B2 (ja) | 非同期イベント通知 | |
US9189316B2 (en) | Managing failover in clustered systems, after determining that a node has authority to make a decision on behalf of a sub-cluster | |
KR101504882B1 (ko) | 하드웨어 장애 완화 | |
US20070038885A1 (en) | Method for operating an arrangement of a plurality of computers in the event of a computer failure | |
WO2015169199A1 (zh) | 分布式环境下虚拟机异常恢复方法 | |
JP2005209190A (ja) | 高可用性クラスタノードの複数状態ステータスの報告 | |
US20200351366A1 (en) | Inter-process communication fault detection and recovery system | |
US20110099273A1 (en) | Monitoring apparatus, monitoring method, and a computer-readable recording medium storing a monitoring program | |
WO2015058711A1 (zh) | 故障快速检测方法及装置 | |
US20070086350A1 (en) | Method, system, and computer program product for providing failure detection with minimal bandwidth usage | |
JP6183931B2 (ja) | クラスタシステム、サーバ装置、クラスタシステムの管理方法、及びプログラム。 | |
US10530634B1 (en) | Two-channel-based high-availability | |
US8489721B1 (en) | Method and apparatus for providing high availabilty to service groups within a datacenter | |
US9430341B2 (en) | Failover in a data center that includes a multi-density server | |
JP2011203941A (ja) | 情報処理装置、監視方法、および監視プログラム | |
JP7474168B2 (ja) | 監視システムおよび障害監視方法 | |
US7475076B1 (en) | Method and apparatus for providing remote alert reporting for managed resources | |
WO2005114961A1 (en) | Distributed high availability system and method | |
JP2020038506A (ja) | 情報処理システム、情報処理方法、及び、プログラム | |
EP2616938B1 (en) | Fault handling systems and methods | |
KR101883251B1 (ko) | 가상 시스템에서 장애 조치를 판단하는 장치 및 그 방법 | |
US8533331B1 (en) | Method and apparatus for preventing concurrency violation among resources |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230119 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231220 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240109 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240215 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240402 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240412 |