JP2010204850A - 障害監視システム - Google Patents

障害監視システム Download PDF

Info

Publication number
JP2010204850A
JP2010204850A JP2009048377A JP2009048377A JP2010204850A JP 2010204850 A JP2010204850 A JP 2010204850A JP 2009048377 A JP2009048377 A JP 2009048377A JP 2009048377 A JP2009048377 A JP 2009048377A JP 2010204850 A JP2010204850 A JP 2010204850A
Authority
JP
Japan
Prior art keywords
monitoring
failure
failure information
sub
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009048377A
Other languages
English (en)
Inventor
Shigeru Yamazaki
茂 山崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2009048377A priority Critical patent/JP2010204850A/ja
Publication of JP2010204850A publication Critical patent/JP2010204850A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Abstract

【課題】いずれかのサブ監視装置で多数の障害情報が発生した場合でも他のサブ監視装置の障害情報取得の遅延を最小限に抑えることのできる障害監視システムを得る。
【解決手段】統合監視装置4の記録内容監視部22は、サブ監視装置1における障害情報記録処理部12の記録内容を監視して、前回の監視時と異なる障害監視情報が所定の閾値以上記録されているか否かを判定する。記録内容監視部22で、前回の監視時と異なる障害情報が閾値以上記録されていると判定した場合、障害情報収集部23は、予め決められた最大取得値まで障害情報を収集し、最大取得値を超えた分については他のサブ監視装置1の障害情報の監視が終了した後に再度収集対象とする。
【選択図】図2

Description

この発明は、ネットワーク機器の標準制御/監視プロトコルであるSNMP(Simple Network Management Protocol RFC1157)を用いて、ネットワーク機器を監視する障害監視システムに関するものである。
一般に、SNMPによるネットワーク機器の監視においては、監視する側の「SNMPマネージャ」と、監視される側の「SNMPエージェント」の間でMIB(Management Information Base RFC1213)と呼ばれる管理情報をメッセージ交換することによって機器の管理を行っている(例えば、特許文献1参照)。
特開2007−233858号公報
しかしながら、従来のネットワーク機器の監視において、一つのサブ監視装置の障害情報収集に時間を費やすと、他のサブ監視装置の障害情報取得が遅れてしまうことになる。即ち、複数のサブ監視装置の監視はシーケンシャルに行われるため、特定のサブ監視装置で多くの障害情報が発生していた場合は、そのサブ監視装置に対する障害情報収集に時間が費やされてしまい、その結果、他のサブ監視装置の情報取得が遅延してしまうという問題があった。
この発明は上記のような課題を解決するためになされたもので、いずれかのサブ監視装置で多数の障害情報が発生した場合でも他のサブ監視装置の障害情報取得の遅延を最小限に抑えることのできる障害監視システムを得ることを目的とする。
この発明に係る障害監視システムは、統合監視装置が、それぞれのサブ監視装置における障害情報記録手段の記録内容を監視して、前回の監視時と異なる障害監視情報が所定の閾値以上記録されているか否かを判定する記録内容監視手段と、記録内容監視手段で、前回の監視時と異なる障害情報が閾値以上記録されていると判定した場合、予め決められた最大取得値まで障害情報を収集し、最大取得値を超えた分については他のサブ監視装置の障害情報の監視が終了した後に再度収集対象とする障害情報収集手段とを備えたものである。
この発明の障害監視システムは、前回の監視時と異なる障害情報が閾値以上記録されていると判定した場合、予め決められた最大取得値まで障害情報を収集し、最大取得値を超えた分については他のサブ監視装置の障害情報の監視が終了した後に再度収集対象とするようにしたので、いずれかのサブ監視装置で多数の障害情報が発生した場合でも他のサブ監視装置の障害情報取得の遅延を最小限に抑えることができる。
この発明の実施の形態1による障害監視システムを示す構成図である。 この発明の実施の形態1による障害監視システムにおけるサブ監視装置及び統合監視装置の内部を示す構成図である。 この発明の実施の形態1による障害監視システムの拡張MIBの構成例を示す説明図である。 この発明の実施の形態1による障害監視システムの障害情報管理ロールメモリに管理されているポインタを示す説明図である。 この発明の実施の形態1による障害監視システムの処理内容を示すシーケンス図である。 この発明の実施の形態1による障害監視システムの監視処理と障害情報収集処理を示すフローチャートである。
実施の形態1.
図1は、この発明の実施の形態1による障害監視システムを示す構成図である。
図において、サブ監視装置1−1〜1−Nは、例えば都道府県単位に設置され、SNMPエージェントを実装している。
サブ監視装置1−1〜1−NのSNMPエージェントはLAN2−1〜2−Nに接続されているネットワーク機器3の状態を監視して、そのネットワーク機器3における監視項目の障害を検出すると、その障害の内容を示す障害情報を時系列で記録する処理を実施する。
統合監視装置4はネットワーク回線5を介してサブ監視装置1−1〜1−Nと接続され、SNMPマネージャを実装している。
統合監視装置4のSNMPマネージャは標準制御/監視プロトコルであるSNMPを用いて、サブ監視装置1−1〜1−NとMIBと呼ばれる管理情報をメッセージ交換することにより、ネットワーク機器3を管理している。
図2はこの発明の実施の形態1による障害監視システムにおけるサブ監視装置1−1〜1−N及び統合監視装置4の内部を示す構成図である。なお、図2では、複数のサブ監視装置1−1〜1−Nにおける1台分のサブ監視装置1とLAN2を示している。
図2において、サブ監視装置1−1〜1−Nの障害検出部11はLAN2−1〜2−Nに接続されているネットワーク機器3の状態を監視して、そのネットワーク機器3における監視項目の障害を検出する処理を実施する。なお、障害検出部11は障害検出手段を構成している。
サブ監視装置1−1〜1−Nの障害情報記録処理部12は障害検出部11が監視項目の障害を検出すると、その障害の内容を示す障害情報を時系列で障害情報記録メモリ13に記録するとともに、最新の障害情報を指し示すポインタ(障害情報管理ロールメモリ14に管理されているポインタ)を更新する処理を実施する。
障害情報記録メモリ13は障害検出部11により検出された障害の内容を示す障害情報を時系列で記録するロールメモリである。
障害情報管理ロールメモリ14は最新の障害情報を指し示すポインタを管理しているメモリである。
なお、障害情報記録処理部12、障害情報記録メモリ13及び障害情報管理ロールメモリ14から障害情報記録手段が構成されている。
統合監視装置4のネットワークI/F部21はネットワーク回線5に対するインタフェース処理を実施する。
統合監視装置4の記録内容監視部22はネットワークI/F部21を介して、サブ監視装置1−1〜1−Nの障害情報管理ロールメモリ14により管理されているポインタの変化を監視して、前回の監視時とポインタの位置が異なっているか否かを判定し、前回の監視時とポインタの位置が異なっていれば、異なる障害情報が障害情報記録メモリ13に記録されていると判断する処理を実施する。また、記録内容監視部22は、異なる障害情報が障害情報記録メモリ13に記録されていると判断した場合は、その障害情報が所定の閾値以上であるかを判定する。なお、記録内容監視部22は記録内容監視手段を構成している。
統合監視装置4の障害情報収集部23は、記録内容監視部22により異なる障害情報が障害情報記録メモリ13に記録されていると判断されると、ネットワークI/F部21を介して、サブ監視装置1−1〜1−Nの障害情報記録メモリ13から前回の監視時と異なる障害情報を収集する処理を実施する。即ち、障害情報収集部23は、前回の監視時においてポインタが指し示している障害情報の次の障害情報から、今回の監視時においてポインタが指し示している最新の障害情報までを収集する処理を実施する。また、障害情報収集部23は、記録内容監視部22において、障害情報が所定の閾値以上であると判定された場合、閾値より小さい予め決められた最大取得値まで障害情報を収集し、最大取得値を超えた分については他のサブ監視装置の障害情報の監視が終了した後に再度収集処理を実施する。なお、障害情報収集部23は障害情報収集手段を構成している。
統合監視装置4の障害情報記録メモリ24は障害情報収集部23により収集された障害情報を記録するメモリである。
なお、図2の例では、サブ監視装置1−1〜1−Nの構成要素(障害検出部11、障害情報記録処理部12)が専用のハードウェア(例えば、MPUが実装されている半導体回路基板)で構成され、また、統合監視装置4の構成要素(ネットワークI/F部21、記録内容監視部22、障害情報収集部23)が専用のハードウェア(例えば、MPUが実装されている半導体回路基板)で構成されていることを想定しているが、サブ監視装置1−1〜1−N及び統合監視装置4がそれぞれコンピュータで構成されている場合、予め、サブ監視装置1−1〜1−N及び統合監視装置4の構成要素の処理内容が記述されているプログラムをコンピュータのメモリに格納し、コンピュータのCPUが当該メモリに格納されているプログラムを実行するようにしてもよい。
次に、実施の形態1の障害監視システムの動作について説明する。
SNMPは、機器やメーカに依存せずに、一元的に情報を管理することができるようにすることを目的にして策定されたものであり、例えば、IPアドレスや、エラーIPパケットの数などの通信情報を機器やメーカに依存せずに管理できるようにしている仕組みである。
例えば、移動通信システムの基地局の障害など、システムやメーカに固有の特定情報を管理する必要がある場合、MIBを拡張する(例えば、管理情報として、ユニークな名前(番号)を追加で定義する)ことにより、システムやメーカに固有の特定情報の管理を可能にしている。
ここで、図3は拡張MIBの構成例を示す説明図であり、図3の例では、障害情報を記録している障害情報記録メモリ13(ロールメモリ)上のインデックスであるポインタ、即ち、最新の障害情報を指し示すポインタ(almReadPoint/almWrightPoint)を定義している。また、図3の例では、1〜480個の障害情報をOIDとして定義している。
図4は障害情報管理ロールメモリ14に管理されているポインタを示す説明図である。
サブ監視装置1−1〜1−Nの障害検出部11は、LAN2−1〜2−Nに接続されているネットワーク機器3の状態を定期的に監視して、そのネットワーク機器3における監視項目の障害を検出する。
監視項目の障害検出方法は、SNMPを使う必然はないが、例えば、何らかのリクエストをネットワーク機器に送信しても、そのネットワーク機器からリクエストに対する応答が得られない場合には、障害が発生しているものと判断する。
サブ監視装置1−1〜1−Nの障害情報記録処理部12は、障害検出部11が監視項目の障害を検出すると、その障害の内容を示す障害情報を時系列で障害情報記録メモリ13に記録する。
即ち、障害情報記録処理部12は、障害検出部11が1以上の障害を検出すると、障害の発生順に、新たな障害の内容を示す障害情報を障害情報記録メモリ13に追加し、障害情報管理ロールメモリ14に管理されているポインタが、最新の障害情報を指し示すように更新する。
例えば、10個の障害情報が障害情報記録メモリ13に記録されているとき、新たに2個の障害が検出されると、障害情報管理ロールメモリ14に管理されているポインタが、12個目の障害情報を指し示すように更新する。
統合監視装置4の記録内容監視部22は、予め設定された監視周期になると、GetRequestと呼ばれる信号を用いて、サブ監視装置1−1〜1−Nの障害情報管理ロールメモリ14により管理されているポインタの位置を示す情報の送信要求をサブ監視装置1−1〜1−Nに送信する。
図5は、この発明の実施の形態1による障害監視システムの処理内容を示すシーケンス図である。
サブ監視装置1−1〜1−Nの障害情報記録処理部12は、統合監視装置4からGetRequestを受信すると、GetResponseと呼ばれる信号を用いて、障害情報管理ロールメモリ14により管理されているポインタの位置を示す情報を統合監視装置4に送信する。
統合監視装置4の記録内容監視部22は、ネットワークI/F部21がポインタの位置を示す情報を受信すると、前回の監視時におけるポインタの位置と今回の監視時におけるポインタの位置とを比較することにより、障害情報管理ロールメモリ14により管理されているポインタの変化を監視する。
図6は、記録内容監視部22における監視処理と障害情報収集部23における障害情報収集処理を示すフローチャートである。
統合監視装置4の記録内容監視部22は、監視対象となるサブ監視装置1−1〜1−Nの前回の監視時におけるポインタの位置と今回の監視時におけるポインタの位置を比較し(ステップST1)、ポインタ位置が一致している場合は新たな障害が発生していないものと判断し、ステップST4に移行して次のサブ監視装置1−1〜1−Nの監視を行う。
図5の場合、1回目の監視周期では、前回の監視時におけるポインタの位置と今回の監視時におけるポインタの位置が一致しており、新たな障害が発生していないものと判断される。
統合監視装置4の記録内容監視部22は、前回の監視時におけるポインタの位置と今回の監視時におけるポインタの位置が異なる場合、新たな障害が発生しているものと判断し、その発生数が閾値以上であるかを判定する(ステップST2)。
図5の場合、2回目の監視周期でサブ監視装置(SNMPエージェント)のインデックスをポーリングしたところalmWrightPointが100件進んでいるため、障害情報が100件蓄積されていることを認識したことを示している。ここで、閾値を100件とした場合、記録内容監視部22は、蓄積されている障害情報が閾値以上であると判定し(ステップST2)、これを障害情報収集部23に通知する。
統合監視装置4の障害情報収集部23は、記録内容監視部22が新たな障害が発生しているものと判断すると、GetRequestと呼ばれる信号を用いて、障害情報記録メモリ13に記録されている新たな障害情報の送信要求をサブ監視装置1−1〜1−Nに送信する。即ち、障害情報収集部23は、前回の監視時においてポインタが指し示している障害情報の次の障害情報から、今回の監視時においてポインタが指し示している最新の障害情報までの送信をサブ監視装置1−1〜1−Nに要求する。ここで、障害情報発生数は閾値以上であるため、障害情報収集部23は、予め決められた最大取得値(ここでは50件とする)まで取得する(ステップST3)と、それ以上の障害情報については次回の収集処理として次のサブ監視装置1−1〜1−Nの障害情報収集処理を行う(ステップST4)。その後は、ステップST1に戻り、前回の未収集分も含めてステップST1以降の処理を繰り返す。即ち、この場合はステップST2において100件以下であるため、全件を取得する(ステップST5)。なお、図5の例では、3回目の監視周期において2回目の監視周期における残件のみであった場合(新規の障害情報発生が0である場合)を示しているが、新規の障害情報が発生している場合は、この増加分も含めて100件以上であるかを判定する。
なお、実施の形態1では、一つのサブ監視装置(SNMPエージェント)に障害情報が多数蓄積されている判定の閾値例として100件としているが、これに限定されるものではなく、実際のシステム構成に最適な件数を設定すればよい。また、一時中断するまでに取得する件数を閾値の半分(=50件)としているが、これも同様にシステム構成に最適な件数を設定すればよい。
以上のように、実施の形態1の障害監視システムによれば、予め設定されている監視項目の状態を監視して、監視項目の障害を検出する障害検出手段と、障害検出手段により検出された障害の内容を示す障害情報を時系列で記録する障害情報記録手段とを有する複数のサブ監視装置と、複数のサブ監視装置の障害情報を取得する統合監視装置とを備えた障害監視システムにおいて、統合監視装置は、それぞれのサブ監視装置における障害情報記録手段の記録内容を監視して、前回の監視時と異なる障害監視情報が所定の閾値以上記録されているか否かを判定する記録内容監視手段と、記録内容監視手段で、前回の監視時と異なる障害情報が閾値以上記録されていると判定した場合、予め決められた最大取得値まで障害情報を収集し、最大取得値を超えた分については他のサブ監視装置の障害情報の監視が終了した後に再度収集対象とする障害情報収集手段とを備えたので、いずれかのサブ監視装置で多数の障害情報が発生した場合でも他のサブ監視装置の障害情報取得の遅延を最小限に抑えることができる。
1−1〜1−N サブ監視装置、2−1〜2−N LAN、3 ネットワーク機器、4 統合監視装置、5 ネットワーク回線、11 障害検出部(障害検出手段)、12 障害情報記録処理部(障害情報記録手段)、13 障害情報記録メモリ(障害情報記録手段)、14 障害情報管理ロールメモリ(障害情報記録手段)、21 ネットワークI/F部、22 記録内容監視部(記録内容監視手段)、23 障害情報収集部(障害情報収集手段)、24 障害情報記録メモリ。

Claims (1)

  1. 予め設定されている監視項目の状態を監視して、当該監視項目の障害を検出する障害検出手段と、前記障害検出手段により検出された障害の内容を示す障害情報を時系列で記録する障害情報記録手段とを有する複数のサブ監視装置と、当該複数のサブ監視装置の障害情報を取得する統合監視装置とを備えた障害監視システムにおいて、
    前記統合監視装置は、
    前記それぞれのサブ監視装置における障害情報記録手段の記録内容を監視して、前回の監視時と異なる障害監視情報が所定の閾値以上記録されているか否かを判定する記録内容監視手段と、
    前記記録内容監視手段で、前回の監視時と異なる障害情報が前記閾値以上記録されていると判定した場合、予め決められた最大取得値まで障害情報を収集し、当該最大取得値を超えた分については他のサブ監視装置の障害情報の監視が終了した後に再度収集対象とする障害情報収集手段とを備えた障害監視システム。
JP2009048377A 2009-03-02 2009-03-02 障害監視システム Pending JP2010204850A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009048377A JP2010204850A (ja) 2009-03-02 2009-03-02 障害監視システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009048377A JP2010204850A (ja) 2009-03-02 2009-03-02 障害監視システム

Publications (1)

Publication Number Publication Date
JP2010204850A true JP2010204850A (ja) 2010-09-16

Family

ID=42966283

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009048377A Pending JP2010204850A (ja) 2009-03-02 2009-03-02 障害監視システム

Country Status (1)

Country Link
JP (1) JP2010204850A (ja)

Similar Documents

Publication Publication Date Title
US20210176143A1 (en) Monitoring wireless access point events
AU2003257943B2 (en) Method and apparatus for outage measurement
WO2018126645A1 (zh) 一种通信网络管理方法及其装置
CN112311580B (zh) 报文传输路径确定方法、装置及系统、计算机存储介质
JP2009246449A (ja) 制御中継プログラム、制御中継装置および制御中継方法
CN104113448A (zh) 一种局域网内设备自动发现及监控的方法
US11652682B2 (en) Operations management apparatus, operations management system, and operations management method
US20100036943A1 (en) Method of network management
CN113810238A (zh) 网络监测方法、电子设备及存储介质
JP6542538B2 (ja) ネットワーク監視システム、監視装置および監視方法
WO2012070274A1 (ja) 通信システムおよびネットワーク障害検出方法
US8467301B2 (en) Router misconfiguration diagnosis
CN113612647B (zh) 一种告警处理方法及装置
JP2010204850A (ja) 障害監視システム
KR100500836B1 (ko) 매트로 이더넷망의 장애처리 장치 및 그 방법
CN114221882A (zh) 故障链路检测方法、装置、设备和存储介质
JP2007233858A (ja) 障害監視システム及び障害監視方法
JP2010238200A (ja) 状態変化通知プログラム、情報処理装置および状態変化通知方法
JP2014036310A (ja) 影響評価装置及び影響評価方法
JP2006279281A (ja) ネットワーク監視方式、監視局及び監視対象装置
JP2018142092A (ja) 稼動確認装置、稼動確認プログラム、稼動確認方法、及び稼動確認システム
JP2003070081A (ja) 監視システム
JP2014155012A (ja) 影響評価装置及び影響評価方法
JP2005309709A (ja) ネットワーク機器故障診断システム
JP2012174022A (ja) 監視装置、監視方法、およびプログラム