JP2017085220A - ネットワーク監視装置およびネットワーク監視方法 - Google Patents
ネットワーク監視装置およびネットワーク監視方法 Download PDFInfo
- Publication number
- JP2017085220A JP2017085220A JP2015208571A JP2015208571A JP2017085220A JP 2017085220 A JP2017085220 A JP 2017085220A JP 2015208571 A JP2015208571 A JP 2015208571A JP 2015208571 A JP2015208571 A JP 2015208571A JP 2017085220 A JP2017085220 A JP 2017085220A
- Authority
- JP
- Japan
- Prior art keywords
- information
- alarm
- cause
- alarm information
- network monitoring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Debugging And Monitoring (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Maintenance And Management Of Digital Transmission (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
ある装置からメモリエラーの警報通知があったため、当該装置に対し、メモリ交換をオンサイトの担当者が実行した。しかしながら、数日後、当該装置からメモリエラーの警報が通知される事態が数回続いた。当該障害の原因を解析したところ、当該装置の同一ラックの隣接装置が起こしている熱暴走が要因でメモリエラーが発生していることが判明した。この時、隣接装置の熱暴走の警報は通知されていたが、継続的に発生するものではなかったため、対応を後回しにしていた。
ある装置から電源エラーの警報通知があったため、当該装置に対し、電源パッケージの交換をオンサイトの担当者が実行した。しかしながら、数日後、当該装置から電源エラーの警報が通知される事態が数回続いた。本障害の原因を解析したところ、同一フロアの装置から過去何度か同一の電源故障が発生していることが分かった。これら同一フロアの複数の装置から電源故障の警報が通知されていることから、原因は本フロアの電源供給装置(分電盤)が故障していることであると分かった。この時、当該電源供給装置(分電盤)は警報が通知できない装置であった。
つまり、ケースAの場合には、図8(b)に示すように、装置2「D」の熱暴走の影響によって、同一ラック5の装置2「A」にメモリエラーが発生している。このとき、図8(a)に示すように、装置2「D」からは熱暴走の警報がOpS(Operation System)等のネットワーク監視装置1aに通知され、装置2「A」からはメモリエラーの警報がネットワーク監視装置1aに通知される。しかしながら、ネットワーク監視装置1aでは、装置2「D」の熱暴走の警報と、装置2「A」のメモリエラーの警報とを、そのままオペレータ端末3に警報情報として送信するだけである。オペレータ端末3では、単に、装置2「D」と装置2「A」とから、別々の警報情報が送信されてきたと認識するため、装置2「A」のメモリエラーを同一ラック5の装置2「D」の熱暴走によるものであると認識できない、つまり、真の故障原因をネットワーク管理者が直接認識することはできない。よって、故障原因の特定に遅延が生じたり、真の故障原因の対応とは異なる誤った故障対応を行うおそれがあったりした。
これにより、ネットワーク監視装置は、装置の物理的な位置情報を加味して、障害発生の原因を推定することできる。よって、装置から発信された警報情報の警報内容だけからでは、真の故障原因を特定できない場合であっても、迅速に真の故障原因を特定し、誤った故障対応を行うおそれをなくすことができる。
まず、本発明の概要について説明する。
本実施形態に係るネットワーク監視装置1は、ネットワークを構成する各装置2から警報情報を受信し、各装置2の物理的な位置情報(データセンタ、フロア、ラック等)を分析した上で、装置2の障害の原因を特定し、オペレータ端末3に送信する。
次に、本実施形態に係るネットワーク監視装置1を構成について説明する。
図3は、本実施形態に係るネットワーク監視装置1の構成を示す機能ブロック図である。
ネットワーク監視装置1は、ネットワークを構成する各装置2(装置「A」,…,装置「D」,…)およびオペレータ端末3に接続され、各装置2から障害発生等の警報情報を受信し、原因分析処理を実行した上で、原因警報メッセージをオペレータ端末3に通知する。
なお、装置2は、ネットワーク監視装置1の監視対象となる一般的なネットワーク装置であり、例えば、処理サーバ、ルータ、スイッチ等である。また、オペレータ端末3は、ネットワーク管理者がネットワークを管理するために操作する端末装置であって、一般的なコンピュータにより構成される。
入出力部20は、通信接続される、各装置2およびオペレータ端末3との間の情報の入出力を行う。また、入出力部20は、通信回線を介して情報の送受信を行う不図示の通信インタフェースと、キーボード等の入力手段やモニタ等の出力手段(いずれも不図示)との間で入出力を行う入出力インタフェースとから構成される。
また、制御部10は、例えば、記憶部30に格納されたプログラムを不図示のCPUがRAMに展開し実行することで実現される。
また、警報受信部11は、受信した警報情報を原因分析部12に出力する。
具体的には、原因分析部12は、警報受信部11から警報情報を取得すると、その警報情報に含まれる、その警報情報を送信した装置2の識別情報(装置IDや装置のアドレス等)を用いて、設備情報DB32を参照し、当該装置2の物理的な位置を検出した上で、当該装置2と同一フロアの装置の識別情報を取得する。
設備情報320には、装置2の識別情報(装置IDや装置のアドレス等)に対応付けて、その装置2が配置される物理的な位置情報が格納される。具体的には、図4に示すように、設備情報320には、装置ID321、アドレス322に対応付けて、物理的な位置情報として、データセンタ323、フロア324、ラック325、ユニット326の各項目が格納される。
装置ID321は、当該ネットワークシステムにおいてその装置固有の識別情報である。
アドレス322は、装置ID321に示される装置のアドレス(例えば、IPアドレス)である。
データセンタ323は、装置2が設置される拠点(施設、ビル等)の識別情報である。
フロア324は、装置2が設置されている拠点のフロアを示す識別情報である。
ラック325は、装置2が設置されているフロアに配置されるラック5の識別情報である。
ユニット326は、装置2が設置されているラック5内のユニット番号(例えば、ラック5の上から段何目を示す情報)である。
なお、この設備情報320は、本実施形態のように、ネットワーク監視装置1の記憶部30内に記憶されていてもよいし、ネットワーク監視装置1と通信接続される外部DB装置に格納されるようにしてもよい。
原因分析部12は、取得した同一フロアに位置する装置2の識別情報を用いて、記憶部30内の警報情報DB31を参照し、同一フロアに位置する装置2から発信された警報情報を抽出する。
原因シナリオ情報330には、警報情報を発信した装置2の物理的な位置情報を加味した障害の推定原因を特定する条件を示す原因シナリオが格納される。具体的には、図5に示すように、原因シナリオ情報330には、警報内容331、原因シナリオ332、推定原因333の各項目が格納される。
警報内容331には、ネットワーク監視装置1が各装置2から受信した警報情報に含まれる警報内容の種別が格納される。例えば、「メモリエラー」や「電源エラー」等の警報内容が格納される。
具体的には、警報内容331が「メモリエラー」である場合に対応付けて、「同一データセンタ、同一フロア、同一ラック、隣接ユニットの他の装置から、熱暴走の警報あり」という原因シナリオ332が規定され、この条件を満たす他の装置2からの警報情報が存在する場合に、推定原因333に示す内容(ここでは、「隣接装置の熱暴走が(メモリエラー)の原因」)であると特定される。
なお、ここで隣接装置とは、例えば、各ラック5にユニットが縦に設置されている場合には上下となる関係、つまり、物理的に距離が近く隣り合う装置を意味する。
なお、原因警報通知部13は、原因分析部12の原因分析処理の結果、原因シナリオ332に該当する警報情報が警報情報DB31に格納されていないことから、障害等の原因を特定できなかった場合には、ネットワーク監視装置1が各装置2から受信した警報情報をそのままオペレータ端末3に送信するようにしてもよい。
次に、ネットワーク監視装置1が実行する処理について、図6を参照して説明する。
図6は、本実施形態に係るネットワーク監視装置1が実行する処理の流れを示すフローチャートである。
しかしながら、本実施形態はこの処理の流れに限定されず、以下のようにしてもよい。
ネットワーク監視装置1は、ステップS3において、原因分析部12が取得する装置の識別情報(装置IDや装置アドレスの情報等)の物理的な位置の範囲を、取得した警報情報に含まれる警報内容に対応付けて予め設定しておく。例えば、原因分析部12は、警報内容が「メモリエラー」であれば、ステップS3において取得する他の装置2の識別情報の範囲を、「同一ラック」の装置2の識別情報に設定しておく。そして、ステップS4において、原因分析部12は、警報情報DB31を参照し、「同一ラック」に位置する装置2からの警報情報を抽出する。また、原因分析部12は、警報内容が「電源エラー」であれば、ステップS3において取得する他の装置の識別情報の範囲を、「同一フロア」の装置2の識別情報に設定しておく。そして、ステップS4において、原因分析部12は、警報情報DB31を参照し、「同一フロア」に位置する装置2からの警報情報を抽出する。
2 装置
3 オペレータ端末
4 電源供給装置(分電盤)
5 ラック
10 制御部
11 警報受信部
12 原因分析部
13 原因警報通知部
20 入出力部
30 記憶部
31 警報情報DB
32 設備情報DB
33 原因シナリオDB
320 設備情報
330 原因シナリオ情報
Claims (3)
- ネットワークを構成する各装置から警報情報を受信し、障害の監視を行うネットワーク監視装置であって、
前記装置それぞれの識別情報に対応付けて、当該装置が配置される物理的な位置情報が格納される設備情報、および、前記警報情報を発信した装置の前記物理的な位置情報を加味した障害の推定原因を、当該装置以外の他の装置の物理的な位置情報と、前記他の装置からの警報情報の警報内容とに基づき特定する条件を示す原因シナリオ、が記憶される記憶部と、
前記警報情報を発信した装置から当該装置の識別情報を含む前記警報情報を受信する度に、当該警報情報を前記記憶部に記憶する警報受信部と、
受信した前記警報情報に含まれる前記装置の識別情報を用いて、前記設備情報を参照し、前記警報情報を発信した装置の物理的な位置情報を検出し、前記検出した物理的な位置情報および受信した前記警報情報に含まれる警報内容を用いて、前記原因シナリオにおける前記推定原因を特定する前記条件に合致する前記他の装置の警報情報が、前記記憶部に記憶されているか否かを判定し、記憶されている場合に、受信した前記警報情報に含まれる警報内容の原因が前記原因シナリオで示される推定原因であると特定する原因分析部と、
を備えることを特徴とするネットワーク監視装置。 - 前記装置が配置される物理的な位置情報は、データセンタおよびフロアの情報を少なくとも含み、
前記警報情報を受信したときに、前記原因分析部は、同一データセンタおよび同一フロアに位置する装置から発信された警報情報を前記記憶部から抽出し、抽出した前記警報情報の中で、前記条件に合致する警報情報があるか否かを判定し、前記条件に合致する警報情報がある場合に、受信した前記警報情報に含まれる警報内容の原因が前記原因シナリオで示される推定原因であると特定すること
を特徴とする請求項1に記載のネットワーク監視装置。 - ネットワークを構成する各装置から警報情報を受信し、障害の監視を行うネットワーク監視装置のネットワーク監視方法であって、
前記ネットワーク監視装置は、
前記装置それぞれの識別情報に対応付けて、当該装置が配置される物理的な位置情報が格納される設備情報、および、前記警報情報を発信した装置の前記物理的な位置情報を加味した障害の推定原因を、当該装置以外の他の装置の物理的な位置情報と、前記他の装置からの警報情報の警報内容とに基づき特定する条件を示す原因シナリオ、が記憶される記憶部を備えており、
前記警報情報を発信した装置から当該装置の識別情報を含む前記警報情報を受信する度に、当該警報情報を前記記憶部に記憶するステップと、
受信した前記警報情報に含まれる前記装置の識別情報を用いて、前記設備情報を参照し、前記警報情報を発信した装置の物理的な位置情報を検出し、前記検出した物理的な位置情報および受信した前記警報情報に含まれる警報内容を用いて、前記原因シナリオにおける前記推定原因を特定する前記条件に合致する前記他の装置の警報情報が、前記記憶部に記憶されているか否かを判定し、記憶されている場合に、受信した前記警報情報に含まれる警報内容の原因が前記原因シナリオで示される推定原因であると特定するステップと、
を実行することを特徴とするネットワーク監視方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015208571A JP6438875B2 (ja) | 2015-10-23 | 2015-10-23 | ネットワーク監視装置およびネットワーク監視方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015208571A JP6438875B2 (ja) | 2015-10-23 | 2015-10-23 | ネットワーク監視装置およびネットワーク監視方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017085220A true JP2017085220A (ja) | 2017-05-18 |
JP6438875B2 JP6438875B2 (ja) | 2018-12-19 |
Family
ID=58714426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015208571A Active JP6438875B2 (ja) | 2015-10-23 | 2015-10-23 | ネットワーク監視装置およびネットワーク監視方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6438875B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019009726A (ja) * | 2017-06-28 | 2019-01-17 | 株式会社日立製作所 | 障害切り分け方法および管理サーバ |
JPWO2021053801A1 (ja) * | 2019-09-19 | 2021-03-25 | ||
WO2021214979A1 (ja) * | 2020-04-24 | 2021-10-28 | 日本電信電話株式会社 | トポロジ検出装置、トポロジ検出方法およびトポロジ検出プログラム |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006031109A (ja) * | 2004-07-12 | 2006-02-02 | Ntt Docomo Inc | 管理システム及び管理方法 |
JP2006338305A (ja) * | 2005-06-01 | 2006-12-14 | Toshiba Corp | 監視装置及び監視プログラム |
US20090183030A1 (en) * | 2008-01-14 | 2009-07-16 | Bethke Bob | Episodic cause analysis |
US20100030888A1 (en) * | 2008-07-29 | 2010-02-04 | Electronic Data Systems Corporation | Apparatus, and associated method, for monitoring system events |
JP2012094049A (ja) * | 2010-10-28 | 2012-05-17 | Nomura Research Institute Ltd | インシデント管理システムおよびインシデント管理プログラム |
JP2012100056A (ja) * | 2010-11-01 | 2012-05-24 | Fujitsu Ltd | 対処提示方法及び対処提示装置 |
-
2015
- 2015-10-23 JP JP2015208571A patent/JP6438875B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006031109A (ja) * | 2004-07-12 | 2006-02-02 | Ntt Docomo Inc | 管理システム及び管理方法 |
JP2006338305A (ja) * | 2005-06-01 | 2006-12-14 | Toshiba Corp | 監視装置及び監視プログラム |
US20090183030A1 (en) * | 2008-01-14 | 2009-07-16 | Bethke Bob | Episodic cause analysis |
US20100030888A1 (en) * | 2008-07-29 | 2010-02-04 | Electronic Data Systems Corporation | Apparatus, and associated method, for monitoring system events |
JP2012094049A (ja) * | 2010-10-28 | 2012-05-17 | Nomura Research Institute Ltd | インシデント管理システムおよびインシデント管理プログラム |
JP2012100056A (ja) * | 2010-11-01 | 2012-05-24 | Fujitsu Ltd | 対処提示方法及び対処提示装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019009726A (ja) * | 2017-06-28 | 2019-01-17 | 株式会社日立製作所 | 障害切り分け方法および管理サーバ |
JPWO2021053801A1 (ja) * | 2019-09-19 | 2021-03-25 | ||
JP7268748B2 (ja) | 2019-09-19 | 2023-05-08 | 日本電信電話株式会社 | 情報分析装置、方法およびプログラム |
WO2021214979A1 (ja) * | 2020-04-24 | 2021-10-28 | 日本電信電話株式会社 | トポロジ検出装置、トポロジ検出方法およびトポロジ検出プログラム |
JP7469697B2 (ja) | 2020-04-24 | 2024-04-17 | 日本電信電話株式会社 | トポロジ検出装置、トポロジ検出方法およびトポロジ検出プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6438875B2 (ja) | 2018-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5767617B2 (ja) | ネットワーク障害検出システムおよびネットワーク障害検出装置 | |
US11423494B2 (en) | Plant assistance assessment system and plant assistance assessment method | |
EP3239840B1 (en) | Fault information provision server and fault information provision method | |
JP6438875B2 (ja) | ネットワーク監視装置およびネットワーク監視方法 | |
US11475758B2 (en) | Monitoring control panels of a fire control system | |
JP2009217382A (ja) | 障害分析システム、障害分析方法、障害分析サーバおよび障害分析プログラム | |
JP2009296531A (ja) | 監視装置 | |
CN115102838B (zh) | 服务器宕机风险的应急处理方法和装置、电子设备 | |
JP2007264907A (ja) | 障害通報システム、障害通報方法及び障害通報プログラム | |
JP2019106568A (ja) | 遠隔監視装置、監視センタサーバおよび監視対象設備の初期設定方法 | |
JP6060123B2 (ja) | 影響範囲特定装置、影響範囲特定方法、及びプログラム | |
JP2011142390A (ja) | 監視システムおよび障害通信機器判定方法 | |
JP6513001B2 (ja) | 故障検知装置、故障検知方法、及びプログラム | |
JP6431577B1 (ja) | 昇降機監視システムおよびその試験方法 | |
JP2015230584A (ja) | 警報対応支援装置および警報対応支援方法 | |
JP2014032598A (ja) | インシデント管理システム及びその方法 | |
JP2015032068A (ja) | 情報処理画面出力装置、情報処理画面出力プログラム、および情報処理画面出力システム | |
JP6419010B2 (ja) | ネットワーク監視装置、ネットワーク監視方法およびプログラム | |
JP5839133B2 (ja) | 監視制御装置及び監視制御方法 | |
CN109557897B (zh) | 通知控制装置、通知控制系统、通知控制方法及存储介质 | |
JP5724145B2 (ja) | 被疑装置の判定装置、判定方法及び被疑装置の判定プログラム | |
WO2017068669A1 (ja) | イベント検知端末 | |
JP7296860B2 (ja) | 監視制御装置およびこれを用いた広域監視制御システム | |
JP2013080291A (ja) | 監視制御システム | |
JP2012059151A (ja) | 監視制御装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171222 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181029 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181113 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181119 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6438875 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |