JP2017085220A - ネットワーク監視装置およびネットワーク監視方法 - Google Patents

ネットワーク監視装置およびネットワーク監視方法 Download PDF

Info

Publication number
JP2017085220A
JP2017085220A JP2015208571A JP2015208571A JP2017085220A JP 2017085220 A JP2017085220 A JP 2017085220A JP 2015208571 A JP2015208571 A JP 2015208571A JP 2015208571 A JP2015208571 A JP 2015208571A JP 2017085220 A JP2017085220 A JP 2017085220A
Authority
JP
Japan
Prior art keywords
information
alarm
cause
alarm information
network monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015208571A
Other languages
English (en)
Other versions
JP6438875B2 (ja
Inventor
篤 高田
Atsushi Takada
篤 高田
裕司 副島
Yuji Soejima
裕司 副島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015208571A priority Critical patent/JP6438875B2/ja
Publication of JP2017085220A publication Critical patent/JP2017085220A/ja
Application granted granted Critical
Publication of JP6438875B2 publication Critical patent/JP6438875B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Debugging And Monitoring (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Maintenance And Management Of Digital Transmission (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】装置等の物理的な位置情報を加味し障害発生の原因を推定することにより、故障原因を迅速に特定する。【解決手段】ネットワーク監視装置1は、装置2が配置される物理的な位置情報が格納される設備情報、および、警報情報を発信した装置2の物理的な位置情報を加味した障害の推定原因を特定する条件を示す原因シナリオ、が記憶される記憶部30と、警報情報を受信し記憶部30に記憶する警報受信部11と、受信した警報情報に含まれる装置2の識別情報を用いて設備情報を参照し、警報情報を発信した装置2の物理的な位置情報を検出し、検出した物理的な位置情報および受信した警報情報に含まれる警報内容を用いて、原因シナリオにおける推定原因を特定する条件に合致する他の装置2の警報情報が、記憶部に記憶されている場合に、受信した警報情報に含まれる警報内容の原因が原因シナリオで示される推定原因であると特定する原因分析部12と、を備える。【選択図】図3

Description

本発明は、ネットワークを構成する装置に発生する障害を監視する、ネットワーク監視装置およびネットワーク監視方法に関する。
通信事業者のネットワークには、転送装置や制御装置など様々な装置が用いられる。ネットワーク構成を表示する手法の一つに、装置の地理的な位置情報を用いて、地図上の対応箇所に装置を描画する手法がある(非特許文献1参照)。この手法は、装置の位置や、装置がカバーする地理的な範囲を認識しやすくなる利点がある。この表示手法においては、ネットワーク異常の発生時にその原因となった箇所や影響範囲を認識しやすくするため、装置やリンク等から何らかの警報が発出される場合や、装置の応答がない等の異常が疑われる場合には、構成図上の該当する装置やリンクに対して付加記号を重畳したり、装置やリンクの色を変えたりする等をしたりして、該当する箇所をネットワークの管理者等に明示する。図7に示す例では、装置やリンクを地図上に配置し、異常箇所を示すマークを重畳させて表示している。
ネットワークの監視業務ではこのような従来技術を利用し、ある程度集約された故障監視センタで全国のネットワーク装置の故障を一元的に監視し、警報が通知された装置に対し、警報の内容に応じた適切な故障修理業務に迅速に繋げていく。例えば、監視業務の対象となる装置から電源故障の警報が通知されたときには、オンサイト(例えば、各データセンタ内)の担当者に、当該装置を新品の電源パッケージと交換するように指示し、故障復旧業務を実行するなどが行われる。なお、遠隔で対応可能な故障については、故障監視センタで対応し、オンサイトの担当者を派遣しない場合もある。このような、故障監視、修理業務を継続することにより、通信キャリアはネットワークの品質を保っている。
立石直規、他3名、「大規模ネットワークの情報可視化方式に関する検討」、社団法人電子情報通信学会、2013年3月、信学技報、Vol.112、No.492、ICM2012-74、pp.89-94
しかしながら、前記した非特許文献1に記載の技術は、警報を通知した装置自体に故障が発生した場合には有効であるが、警報を通知できない装置や、警報を通知した装置からの警報情報の内容からでは真の故障原因を解析できない場合には、誤った故障修理業務に繋げてしまうケースが存在する。以下、具体的な事例を説明する。
(ケースA)
ある装置からメモリエラーの警報通知があったため、当該装置に対し、メモリ交換をオンサイトの担当者が実行した。しかしながら、数日後、当該装置からメモリエラーの警報が通知される事態が数回続いた。当該障害の原因を解析したところ、当該装置の同一ラックの隣接装置が起こしている熱暴走が要因でメモリエラーが発生していることが判明した。この時、隣接装置の熱暴走の警報は通知されていたが、継続的に発生するものではなかったため、対応を後回しにしていた。
(ケースB)
ある装置から電源エラーの警報通知があったため、当該装置に対し、電源パッケージの交換をオンサイトの担当者が実行した。しかしながら、数日後、当該装置から電源エラーの警報が通知される事態が数回続いた。本障害の原因を解析したところ、同一フロアの装置から過去何度か同一の電源故障が発生していることが分かった。これら同一フロアの複数の装置から電源故障の警報が通知されていることから、原因は本フロアの電源供給装置(分電盤)が故障していることであると分かった。この時、当該電源供給装置(分電盤)は警報が通知できない装置であった。
ケースAやケースBのような事象では、警報が発生した装置のみを主眼におき故障対応していたために、真の原因に応じた故障修理業務に繋げられなかったものである。
つまり、ケースAの場合には、図8(b)に示すように、装置2「D」の熱暴走の影響によって、同一ラック5の装置2「A」にメモリエラーが発生している。このとき、図8(a)に示すように、装置2「D」からは熱暴走の警報がOpS(Operation System)等のネットワーク監視装置1aに通知され、装置2「A」からはメモリエラーの警報がネットワーク監視装置1aに通知される。しかしながら、ネットワーク監視装置1aでは、装置2「D」の熱暴走の警報と、装置2「A」のメモリエラーの警報とを、そのままオペレータ端末3に警報情報として送信するだけである。オペレータ端末3では、単に、装置2「D」と装置2「A」とから、別々の警報情報が送信されてきたと認識するため、装置2「A」のメモリエラーを同一ラック5の装置2「D」の熱暴走によるものであると認識できない、つまり、真の故障原因をネットワーク管理者が直接認識することはできない。よって、故障原因の特定に遅延が生じたり、真の故障原因の対応とは異なる誤った故障対応を行うおそれがあったりした。
ケースBの場合には、図9(b)に示すように、電源供給装置(分電盤)4が不安定な状態となり、その結果として、同一フロアの装置2「B」および装置2「C」から電源エラーの警報がネットワーク監視装置1aに通知される。しかしながら、図9(a)に示すように、ネットワーク監視装置1aでは、装置2「B」の電源エラーと、装置2「C」の電源エラーの通知を、そのままオペレータ端末3に警報情報として送信するだけである。ここでは、電源供給装置(分電盤)4は警報通知できないため、真の故障原因をネットワーク管理者が直接認識することはできず、故障原因の特定に遅延が生じたり、真の故障原因の対応とは異なる、誤った故障対応を行うおそれがあったりした。
このような問題を鑑みて本発明がなされたのであり、本発明は、複数の警報の関係性を、装置の設置場所等の物理的な位置情報から紐解き、障害発生の原因を推定することにより、故障原因を迅速に特定することができる、ネットワーク監視装置およびネットワーク監視方法を提供することを課題とする。
前記した課題を解決するため、請求項1に記載の発明は、ネットワークを構成する各装置から警報情報を受信し、障害の監視を行うネットワーク監視装置であって、前記装置それぞれの識別情報に対応付けて、当該装置が配置される物理的な位置情報が格納される設備情報、および、前記警報情報を発信した装置の前記物理的な位置情報を加味した障害の推定原因を、当該装置以外の他の装置の物理的な位置情報と、前記他の装置からの警報情報の警報内容とに基づき特定する条件を示す原因シナリオ、が記憶される記憶部と、前記警報情報を発信した装置から当該装置の識別情報を含む前記警報情報を受信する度に、当該警報情報を前記記憶部に記憶する警報受信部と、受信した前記警報情報に含まれる前記装置の識別情報を用いて、前記設備情報を参照し、前記警報情報を発信した装置の物理的な位置情報を検出し、前記検出した物理的な位置情報および受信した前記警報情報に含まれる警報内容を用いて、前記原因シナリオにおける前記推定原因を特定する前記条件に合致する前記他の装置の警報情報が、前記記憶部に記憶されているか否かを判定し、記憶されている場合に、受信した前記警報情報に含まれる警報内容の原因が前記原因シナリオで示される推定原因であると特定する原因分析部と、を備えることを特徴とするネットワーク監視装置とした。
また、請求項3に記載の発明は、ネットワークを構成する各装置から警報情報を受信し、障害の監視を行うネットワーク監視装置のネットワーク監視方法であって、前記ネットワーク監視装置が、前記装置それぞれの識別情報に対応付けて、当該装置が配置される物理的な位置情報が格納される設備情報、および、前記警報情報を発信した装置の前記物理的な位置情報を加味した障害の推定原因を、当該装置以外の他の装置の物理的な位置情報と、前記他の装置からの警報情報の警報内容とに基づき特定する条件を示す原因シナリオ、が記憶される記憶部を備えており、前記警報情報を発信した装置から当該装置の識別情報を含む前記警報情報を受信する度に、当該警報情報を前記記憶部に記憶するステップと、受信した前記警報情報に含まれる前記装置の識別情報を用いて、前記設備情報を参照し、前記警報情報を発信した装置の物理的な位置情報を検出し、前記検出した物理的な位置情報および受信した前記警報情報に含まれる警報内容を用いて、前記原因シナリオにおける前記推定原因を特定する前記条件に合致する前記他の装置の警報情報が、前記記憶部に記憶されているか否かを判定し、記憶されている場合に、受信した前記警報情報に含まれる警報内容の原因が前記原因シナリオで示される推定原因であると特定するステップと、を実行することを特徴とするネットワーク監視方法とした。
このように、ネットワーク監視装置は、ネットワークを構成する装置から受信した警報情報を記憶部に記憶し、その警報情報に含まれるその装置の識別情報を用いて記憶部に記憶された設備情報を参照し、警報情報を発信した装置の物理的な位置情報を検出する。そして、ネットワーク監視装置は、検出した物理的な位置情報および受信した警報情報に含まれる警報内容を用いて、推定原因を特定する条件に合致する他の装置の警報情報が、記憶部に記憶されている場合に、受信した警報情報に含まれる警報内容の原因が原因シナリオで示される推定原因であると特定する。
これにより、ネットワーク監視装置は、装置の物理的な位置情報を加味して、障害発生の原因を推定することできる。よって、装置から発信された警報情報の警報内容だけからでは、真の故障原因を特定できない場合であっても、迅速に真の故障原因を特定し、誤った故障対応を行うおそれをなくすことができる。
請求項2に記載の発明は、前記装置が配置される物理的な位置情報は、データセンタおよびフロアの情報を少なくとも含み、前記警報情報を受信したときに、前記原因分析部は、同一データセンタおよび同一フロアに位置する装置から発信された警報情報を前記記憶部から抽出し、抽出した前記警報情報の中で、前記条件に合致する警報情報があるか否かを判定し、前記条件に合致する警報情報がある場合に、受信した前記警報情報に含まれる警報内容の原因が前記原因シナリオで示される推定原因であると特定することを特徴とする請求項1に記載のネットワーク監視装置とした。
このようにすることにより、ネットワーク監視装置は、記憶部に記憶された全ての警報情報の中から、受信した警報情報を発信した装置と同一のデータセンタおよび同一のフロアに位置する装置から発信された警報情報のみを抽出し、原因シナリオの条件に合致するか否かを判定することができる。よって、ネットワーク監視装置の処理負荷を軽減し、より迅速に推定原因を特定することが可能となる。
本発明によれば、複数の警報の関係性を、装置の設置場所等の物理的な位置情報から紐解き、障害発生の原因を推定することにより、故障原因を迅速に特定する、ネットワーク監視装置およびネットワーク監視方法を提供することができる。
本実施形態に係るネットワーク監視装置が、ケースA(熱暴走が原因でメモリエラーが発生)において実行する原因分析処理の概要を説明するための図である。 本実施形態に係るネットワーク監視装置が、ケースB(電源供給装置の故障で電源エラーが発生)において実行する原因分析処理の概要を説明するための図である。 本実施形態に係るネットワーク監視装置の構成を示す機能ブロック図である。 本実施形態に係る設備情報DBに格納される設備情報のデータ構成例を示す図である。 本実施形態に係る原因シナリオDBに格納される原因シナリオ情報のデータ構成例を示す図である。 本実施形態に係るネットワーク監視装置が実行する処理の流れを示すフローチャートである。 装置やリンクを地図上に配置し、異常箇所を示すマークを重畳させて表示する従来例を示す図である。 警報情報の内容からでは真の故障原因を解析できないケース(ケースA:熱暴走が原因でメモリエラーが発生)を説明するための図である。 警報情報の内容からでは真の故障原因を解析できないケース(ケースB:電源供給装置の故障で電源エラーが発生)を説明するための図である。
次に、本発明を実施するための形態(以下、「本実施形態」という。)における、ネットワーク監視装置1およびネットワーク監視方法について説明する。
<発明の概要>
まず、本発明の概要について説明する。
本実施形態に係るネットワーク監視装置1は、ネットワークを構成する各装置2から警報情報を受信し、各装置2の物理的な位置情報(データセンタ、フロア、ラック等)を分析した上で、装置2の障害の原因を特定し、オペレータ端末3に送信する。
具体的には、ネットワーク監視装置1は、前記した(ケースA)の場合において、図1に示すように、例えば、装置2「A」からメモリエラーの警報情報を受信した場合に、その装置2「A」の物理的な位置情報を検出し、同一ラックに配置される他の装置2の警報情報(ここでは、装置「D」からの熱暴走の警報情報)を併せて原因分析を行い(原因分析処理)、この原因分析処理により得られた推定原因を示す原因警報メッセージをオペレータ端末3に通知する。(ケースA)においては、装置「A」のメモリエラーの原因が、装置「D」の熱暴走が原因であると推定する原因警報メッセージを、オペレータ端末3に通知する。
また、ネットワーク監視装置1は、前記した(ケースB)の場合において、図2に示すように、例えば、装置2「B」から電源エラーの警報情報を受信した場合に、その装置2「B」の物理的な位置情報を検出し、同一フロアに配置される他の装置2の警報情報(ここでは、装置「C」からの電源エラーの警報情報)を併せて原因分析処理を実行し、その結果得られた推定原因を示す原因警報メッセージをオペレータ端末3に通知する。(ケースB)においては、電源供給装置(分電盤)の故障が原因であると推定する原因警報メッセージを、オペレータ端末3に通知する。
このように、本実施形態に係るネットワーク監視装置1によれば、各装置2から警報情報を取得した場合に、その装置2等の物理的な位置情報を加味して故障原因を推定する。これにより、装置から発信された警報情報の警報内容だけからでは真の故障原因を特定できない場合においても、ネットワーク監視装置1は、迅速に真の故障原因を特定し、その原因警報をオペレータ端末3に通知することができる。
<ネットワーク監視装置の構成>
次に、本実施形態に係るネットワーク監視装置1を構成について説明する。
図3は、本実施形態に係るネットワーク監視装置1の構成を示す機能ブロック図である。
ネットワーク監視装置1は、ネットワークを構成する各装置2(装置「A」,…,装置「D」,…)およびオペレータ端末3に接続され、各装置2から障害発生等の警報情報を受信し、原因分析処理を実行した上で、原因警報メッセージをオペレータ端末3に通知する。
なお、装置2は、ネットワーク監視装置1の監視対象となる一般的なネットワーク装置であり、例えば、処理サーバ、ルータ、スイッチ等である。また、オペレータ端末3は、ネットワーク管理者がネットワークを管理するために操作する端末装置であって、一般的なコンピュータにより構成される。
本実施形態に係るネットワーク監視装置1は、図3に示すように、制御部10と、入出力部20と、記憶部30とを含んで構成される。
入出力部20は、通信接続される、各装置2およびオペレータ端末3との間の情報の入出力を行う。また、入出力部20は、通信回線を介して情報の送受信を行う不図示の通信インタフェースと、キーボード等の入力手段やモニタ等の出力手段(いずれも不図示)との間で入出力を行う入出力インタフェースとから構成される。
記憶部30は、ハードディスクやフラッシュメモリ、RAM(Random Access Memory)等の記憶手段からなり、各装置2から受信した警報情報が蓄積される警報情報DB(DataBase)31、設備情報DB32(後記する、図4参照)、原因シナリオDB33(後記する、図5参照)等が記憶される。
制御部10は、ネットワーク監視装置1全体の制御を司り、図3に示すように、警報受信部11と、原因分析部12と、原因警報通知部13とを含んで構成される。
また、制御部10は、例えば、記憶部30に格納されたプログラムを不図示のCPUがRAMに展開し実行することで実現される。
警報受信部11は、各装置2から警報情報を受信し、記憶部30内の警報情報DB31に記憶する。この警報情報は、その警報情報を送信した装置2の識別情報(例えば、装置IDや、当該装置のアドレス(IPアドレス)等)、警報内容を含む情報である。警報受信部11は、装置2から警報情報を受信すると、その受信した日時を対応付けて、警報情報DB31に記憶する。警報情報DB31に記憶された警報情報は、所定の期間経過後に、警報受信部11が削除するようにしてもよい。これにより、メモリの空き容量を適正に確保することができる。
また、警報受信部11は、受信した警報情報を原因分析部12に出力する。
原因分析部12は、取得した警報情報について、当該警報情報を発信した装置2の物理的な位置を検出し、当該物理的な位置を加味した障害等の原因分析処理を実行する。
具体的には、原因分析部12は、警報受信部11から警報情報を取得すると、その警報情報に含まれる、その警報情報を送信した装置2の識別情報(装置IDや装置のアドレス等)を用いて、設備情報DB32を参照し、当該装置2の物理的な位置を検出した上で、当該装置2と同一フロアの装置の識別情報を取得する。
図4は、本実施形態に係る設備情報DB32に格納される設備情報320のデータ構成例を示す図である。
設備情報320には、装置2の識別情報(装置IDや装置のアドレス等)に対応付けて、その装置2が配置される物理的な位置情報が格納される。具体的には、図4に示すように、設備情報320には、装置ID321、アドレス322に対応付けて、物理的な位置情報として、データセンタ323、フロア324、ラック325、ユニット326の各項目が格納される。
装置ID321は、当該ネットワークシステムにおいてその装置固有の識別情報である。
アドレス322は、装置ID321に示される装置のアドレス(例えば、IPアドレス)である。
データセンタ323は、装置2が設置される拠点(施設、ビル等)の識別情報である。
フロア324は、装置2が設置されている拠点のフロアを示す識別情報である。
ラック325は、装置2が設置されているフロアに配置されるラック5の識別情報である。
ユニット326は、装置2が設置されているラック5内のユニット番号(例えば、ラック5の上から段何目を示す情報)である。
なお、この設備情報320は、本実施形態のように、ネットワーク監視装置1の記憶部30内に記憶されていてもよいし、ネットワーク監視装置1と通信接続される外部DB装置に格納されるようにしてもよい。
原因分析部12は、装置2の識別情報(装置IDや装置のアドレス)等を用いて、設備情報320を参照し、その装置2の物理的な位置(データセンタ323、フロア324、ラック325、ユニット326等)を検出する。
そして、原因分析部12は、検出した装置2の物理的な位置を示す情報のうち、データセンタ323およびフロア324の情報を用いて、検出した装置2と同一のフロアに位置する装置2の識別情報(装置ID321やアドレス322)を取得する。
原因分析部12は、取得した同一フロアに位置する装置2の識別情報を用いて、記憶部30内の警報情報DB31を参照し、同一フロアに位置する装置2から発信された警報情報を抽出する。
続いて、原因分析部12は、受信した警報情報に含まれる警報内容を用いて、記憶部30に記憶された原因シナリオDB33を参照し、その警報内容に示される障害の推定原因を特定する処理を行う。
図5は、本実施形態に係る原因シナリオDB33に格納される原因シナリオ情報330のデータ構成例を示す図である。
原因シナリオ情報330には、警報情報を発信した装置2の物理的な位置情報を加味した障害の推定原因を特定する条件を示す原因シナリオが格納される。具体的には、図5に示すように、原因シナリオ情報330には、警報内容331、原因シナリオ332、推定原因333の各項目が格納される。
警報内容331には、ネットワーク監視装置1が各装置2から受信した警報情報に含まれる警報内容の種別が格納される。例えば、「メモリエラー」や「電源エラー」等の警報内容が格納される。
原因シナリオ332には、警報内容331に対応した障害等の原因を推定するためのシナリオ(障害の原因を推定するための条件)が規定される。この原因シナリオ332では、警報情報を発信した装置2以外の他の装置2の物理的な位置情報と、他の装置2が発信した警報情報の警報内容とに基づき、障害の原因を推定するための条件が規定される。
具体的には、警報内容331が「メモリエラー」である場合に対応付けて、「同一データセンタ、同一フロア、同一ラック、隣接ユニットの他の装置から、熱暴走の警報あり」という原因シナリオ332が規定され、この条件を満たす他の装置2からの警報情報が存在する場合に、推定原因333に示す内容(ここでは、「隣接装置の熱暴走が(メモリエラー)の原因」)であると特定される。
なお、ここで隣接装置とは、例えば、各ラック5にユニットが縦に設置されている場合には上下となる関係、つまり、物理的に距離が近く隣り合う装置を意味する。
また、警報内容331が「電源エラー」である場合に対応付けて、「同一データセンタ、同一フロアの他の装置から、電源エラーの警報あり」という原因シナリオ332が規定され、この条件を満たす他の装置2からの警報情報が存在する場合に、推定原因333に示す内容(ここでは、「電源供給装置(分電盤)の故障が原因」)であると特定される。
推定原因333には、原因シナリオ332に規定された条件を満たす場合に推定される原因を示す情報が格納される。
原因分析部12は、受信した警報情報の警報内容を用いて、原因シナリオ332の条件に合致する警報情報を受信しているか否かを判定することにより、障害等の推定原因を特定する。
原因警報通知部13は、原因分析部12が特定した推定原因の情報を含む原因警報メッセージを生成し、入出力部20を介して、オペレータ端末3に通知する。
なお、原因警報通知部13は、原因分析部12の原因分析処理の結果、原因シナリオ332に該当する警報情報が警報情報DB31に格納されていないことから、障害等の原因を特定できなかった場合には、ネットワーク監視装置1が各装置2から受信した警報情報をそのままオペレータ端末3に送信するようにしてもよい。
<処理の流れ>
次に、ネットワーク監視装置1が実行する処理について、図6を参照して説明する。
図6は、本実施形態に係るネットワーク監視装置1が実行する処理の流れを示すフローチャートである。
まず、ネットワーク監視装置1の警報受信部11は、各装置2のいずれかから警報情報を受信する(ステップS1)。そして、警報受信部11は、受信した警報情報を、記憶部30内の警報情報DB31に記憶するとともに、原因分析部12に出力する。
ネットワーク監視装置1の原因分析部12は、警報情報を取得すると、その警報情報に含まれる、警報を発信した装置2の識別情報(装置IDや装置のアドレス等)を用いて、設備情報DB32(図4)を参照し、当該装置の物理的な位置(データセンタ、フロア、ラック、ユニット等)を検出する(ステップS2)。
続いて、原因分析部12は、警報を発信した装置2の物理的な位置を示す情報に基づき、設備情報DB32を参照し、当該装置と同一フロアの装置の識別情報(装置IDや装置のアドレス情報等)を取得する(ステップS3)。
次に、原因分析部12は、取得した同一フロアに位置する装置2の識別情報に用いて、記憶部30内の警報情報DB31(図3)を参照し、同一フロアに位置する装置2から発信された警報情報を抽出する(ステップS4)。
そして、原因分析部12は、記憶部30内の原因シナリオDB33(図5)を参照し、対象とする警報情報の警報内容331(例えば、「メモリエラー」「電源エラー」等)に対応する原因シナリオ332に基づき、ステップS4で抽出した警報情報のうち、当該原因シナリオ332の条件に該当する警報情報があるか否かを判定する(ステップS5)。
原因分析部12は、ステップS5において、原因シナリオ332の条件に該当する警報情報が抽出された場合には(ステップS5→Yes)、原因シナリオ情報330において、原因シナリオ332に対応する推定原因333の情報を取得し、障害等の推定原因を特定する(ステップS6)。
そして、ネットワーク監視装置1の原因警報通知部13は、ステップS6において特定された推定原因の情報を含む原因警報メッセージを生成し、オペレータ端末3に通知する(ステップS7)。そして、ネットワーク監視装置1は、処理を終了する。
一方、ステップS5において、原因シナリオ332の条件に該当する警報情報がなかった場合には(ステップS5→No)、原因警報通知部13は、ステップS1において受信した警報情報を、そのままオペレータ端末3に送信する(ステップS8)。そして、ネットワーク監視装置1は、処理を終了する。
なお、図6に示したネットワーク監視装置1が実行する処理の説明においては、ステップS3において、原因分析部12が、「同一フロア」の装置の識別情報(装置IDや装置のアドレス情報等)を取得し、ステップS4において警報情報DB31を参照し、「同一フロア」に位置する装置2からの警報情報を抽出するものとして説明した。
しかしながら、本実施形態はこの処理の流れに限定されず、以下のようにしてもよい。
ネットワーク監視装置1は、ステップS3において、原因分析部12が取得する装置の識別情報(装置IDや装置アドレスの情報等)の物理的な位置の範囲を、取得した警報情報に含まれる警報内容に対応付けて予め設定しておく。例えば、原因分析部12は、警報内容が「メモリエラー」であれば、ステップS3において取得する他の装置2の識別情報の範囲を、「同一ラック」の装置2の識別情報に設定しておく。そして、ステップS4において、原因分析部12は、警報情報DB31を参照し、「同一ラック」に位置する装置2からの警報情報を抽出する。また、原因分析部12は、警報内容が「電源エラー」であれば、ステップS3において取得する他の装置の識別情報の範囲を、「同一フロア」の装置2の識別情報に設定しておく。そして、ステップS4において、原因分析部12は、警報情報DB31を参照し、「同一フロア」に位置する装置2からの警報情報を抽出する。
このようにすることにより、ネットワーク監視装置1は、警報情報DB31に記憶された全ての警報情報から、実際の処理対象となる警報情報の原因分析に関係する可能性のある範囲に限定して警報情報を抽出することができる。よって、ネットワーク監視装置1の処理負荷を軽減し、より迅速に推定原因を特定することが可能となる。
以上説明したように、本実施形態に係るネットワーク監視装置1およびネットワーク監視方法によれば、各装置2から警報情報を取得した場合に、その装置2等の物理的な位置情報を加味して故障原因を推定する。これにより、警報を通知した装置からの警報内容だけからでは真の故障原因を特定できない場合においても、迅速に真の故障原因を特定し、オペレータ端末3に通知することができる。
1 ネットワーク監視装置
2 装置
3 オペレータ端末
4 電源供給装置(分電盤)
5 ラック
10 制御部
11 警報受信部
12 原因分析部
13 原因警報通知部
20 入出力部
30 記憶部
31 警報情報DB
32 設備情報DB
33 原因シナリオDB
320 設備情報
330 原因シナリオ情報

Claims (3)

  1. ネットワークを構成する各装置から警報情報を受信し、障害の監視を行うネットワーク監視装置であって、
    前記装置それぞれの識別情報に対応付けて、当該装置が配置される物理的な位置情報が格納される設備情報、および、前記警報情報を発信した装置の前記物理的な位置情報を加味した障害の推定原因を、当該装置以外の他の装置の物理的な位置情報と、前記他の装置からの警報情報の警報内容とに基づき特定する条件を示す原因シナリオ、が記憶される記憶部と、
    前記警報情報を発信した装置から当該装置の識別情報を含む前記警報情報を受信する度に、当該警報情報を前記記憶部に記憶する警報受信部と、
    受信した前記警報情報に含まれる前記装置の識別情報を用いて、前記設備情報を参照し、前記警報情報を発信した装置の物理的な位置情報を検出し、前記検出した物理的な位置情報および受信した前記警報情報に含まれる警報内容を用いて、前記原因シナリオにおける前記推定原因を特定する前記条件に合致する前記他の装置の警報情報が、前記記憶部に記憶されているか否かを判定し、記憶されている場合に、受信した前記警報情報に含まれる警報内容の原因が前記原因シナリオで示される推定原因であると特定する原因分析部と、
    を備えることを特徴とするネットワーク監視装置。
  2. 前記装置が配置される物理的な位置情報は、データセンタおよびフロアの情報を少なくとも含み、
    前記警報情報を受信したときに、前記原因分析部は、同一データセンタおよび同一フロアに位置する装置から発信された警報情報を前記記憶部から抽出し、抽出した前記警報情報の中で、前記条件に合致する警報情報があるか否かを判定し、前記条件に合致する警報情報がある場合に、受信した前記警報情報に含まれる警報内容の原因が前記原因シナリオで示される推定原因であると特定すること
    を特徴とする請求項1に記載のネットワーク監視装置。
  3. ネットワークを構成する各装置から警報情報を受信し、障害の監視を行うネットワーク監視装置のネットワーク監視方法であって、
    前記ネットワーク監視装置は、
    前記装置それぞれの識別情報に対応付けて、当該装置が配置される物理的な位置情報が格納される設備情報、および、前記警報情報を発信した装置の前記物理的な位置情報を加味した障害の推定原因を、当該装置以外の他の装置の物理的な位置情報と、前記他の装置からの警報情報の警報内容とに基づき特定する条件を示す原因シナリオ、が記憶される記憶部を備えており、
    前記警報情報を発信した装置から当該装置の識別情報を含む前記警報情報を受信する度に、当該警報情報を前記記憶部に記憶するステップと、
    受信した前記警報情報に含まれる前記装置の識別情報を用いて、前記設備情報を参照し、前記警報情報を発信した装置の物理的な位置情報を検出し、前記検出した物理的な位置情報および受信した前記警報情報に含まれる警報内容を用いて、前記原因シナリオにおける前記推定原因を特定する前記条件に合致する前記他の装置の警報情報が、前記記憶部に記憶されているか否かを判定し、記憶されている場合に、受信した前記警報情報に含まれる警報内容の原因が前記原因シナリオで示される推定原因であると特定するステップと、
    を実行することを特徴とするネットワーク監視方法。
JP2015208571A 2015-10-23 2015-10-23 ネットワーク監視装置およびネットワーク監視方法 Active JP6438875B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015208571A JP6438875B2 (ja) 2015-10-23 2015-10-23 ネットワーク監視装置およびネットワーク監視方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015208571A JP6438875B2 (ja) 2015-10-23 2015-10-23 ネットワーク監視装置およびネットワーク監視方法

Publications (2)

Publication Number Publication Date
JP2017085220A true JP2017085220A (ja) 2017-05-18
JP6438875B2 JP6438875B2 (ja) 2018-12-19

Family

ID=58714426

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015208571A Active JP6438875B2 (ja) 2015-10-23 2015-10-23 ネットワーク監視装置およびネットワーク監視方法

Country Status (1)

Country Link
JP (1) JP6438875B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019009726A (ja) * 2017-06-28 2019-01-17 株式会社日立製作所 障害切り分け方法および管理サーバ
JPWO2021053801A1 (ja) * 2019-09-19 2021-03-25
WO2021214979A1 (ja) * 2020-04-24 2021-10-28 日本電信電話株式会社 トポロジ検出装置、トポロジ検出方法およびトポロジ検出プログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006031109A (ja) * 2004-07-12 2006-02-02 Ntt Docomo Inc 管理システム及び管理方法
JP2006338305A (ja) * 2005-06-01 2006-12-14 Toshiba Corp 監視装置及び監視プログラム
US20090183030A1 (en) * 2008-01-14 2009-07-16 Bethke Bob Episodic cause analysis
US20100030888A1 (en) * 2008-07-29 2010-02-04 Electronic Data Systems Corporation Apparatus, and associated method, for monitoring system events
JP2012094049A (ja) * 2010-10-28 2012-05-17 Nomura Research Institute Ltd インシデント管理システムおよびインシデント管理プログラム
JP2012100056A (ja) * 2010-11-01 2012-05-24 Fujitsu Ltd 対処提示方法及び対処提示装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006031109A (ja) * 2004-07-12 2006-02-02 Ntt Docomo Inc 管理システム及び管理方法
JP2006338305A (ja) * 2005-06-01 2006-12-14 Toshiba Corp 監視装置及び監視プログラム
US20090183030A1 (en) * 2008-01-14 2009-07-16 Bethke Bob Episodic cause analysis
US20100030888A1 (en) * 2008-07-29 2010-02-04 Electronic Data Systems Corporation Apparatus, and associated method, for monitoring system events
JP2012094049A (ja) * 2010-10-28 2012-05-17 Nomura Research Institute Ltd インシデント管理システムおよびインシデント管理プログラム
JP2012100056A (ja) * 2010-11-01 2012-05-24 Fujitsu Ltd 対処提示方法及び対処提示装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019009726A (ja) * 2017-06-28 2019-01-17 株式会社日立製作所 障害切り分け方法および管理サーバ
JPWO2021053801A1 (ja) * 2019-09-19 2021-03-25
JP7268748B2 (ja) 2019-09-19 2023-05-08 日本電信電話株式会社 情報分析装置、方法およびプログラム
WO2021214979A1 (ja) * 2020-04-24 2021-10-28 日本電信電話株式会社 トポロジ検出装置、トポロジ検出方法およびトポロジ検出プログラム
JP7469697B2 (ja) 2020-04-24 2024-04-17 日本電信電話株式会社 トポロジ検出装置、トポロジ検出方法およびトポロジ検出プログラム

Also Published As

Publication number Publication date
JP6438875B2 (ja) 2018-12-19

Similar Documents

Publication Publication Date Title
JP5767617B2 (ja) ネットワーク障害検出システムおよびネットワーク障害検出装置
US11423494B2 (en) Plant assistance assessment system and plant assistance assessment method
EP3239840B1 (en) Fault information provision server and fault information provision method
JP6438875B2 (ja) ネットワーク監視装置およびネットワーク監視方法
US11475758B2 (en) Monitoring control panels of a fire control system
JP2009217382A (ja) 障害分析システム、障害分析方法、障害分析サーバおよび障害分析プログラム
JP2009296531A (ja) 監視装置
CN115102838B (zh) 服务器宕机风险的应急处理方法和装置、电子设备
JP2007264907A (ja) 障害通報システム、障害通報方法及び障害通報プログラム
JP2019106568A (ja) 遠隔監視装置、監視センタサーバおよび監視対象設備の初期設定方法
JP6060123B2 (ja) 影響範囲特定装置、影響範囲特定方法、及びプログラム
JP2011142390A (ja) 監視システムおよび障害通信機器判定方法
JP6513001B2 (ja) 故障検知装置、故障検知方法、及びプログラム
JP6431577B1 (ja) 昇降機監視システムおよびその試験方法
JP2015230584A (ja) 警報対応支援装置および警報対応支援方法
JP2014032598A (ja) インシデント管理システム及びその方法
JP2015032068A (ja) 情報処理画面出力装置、情報処理画面出力プログラム、および情報処理画面出力システム
JP6419010B2 (ja) ネットワーク監視装置、ネットワーク監視方法およびプログラム
JP5839133B2 (ja) 監視制御装置及び監視制御方法
CN109557897B (zh) 通知控制装置、通知控制系统、通知控制方法及存储介质
JP5724145B2 (ja) 被疑装置の判定装置、判定方法及び被疑装置の判定プログラム
WO2017068669A1 (ja) イベント検知端末
JP7296860B2 (ja) 監視制御装置およびこれを用いた広域監視制御システム
JP2013080291A (ja) 監視制御システム
JP2012059151A (ja) 監視制御装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171222

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181029

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181113

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181119

R150 Certificate of patent or registration of utility model

Ref document number: 6438875

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150