JP2013201695A - 障害重要度処理サーバ装置、ネットワーク管理システム、障害重要度推定方法およびプログラム - Google Patents

障害重要度処理サーバ装置、ネットワーク管理システム、障害重要度推定方法およびプログラム Download PDF

Info

Publication number
JP2013201695A
JP2013201695A JP2012069900A JP2012069900A JP2013201695A JP 2013201695 A JP2013201695 A JP 2013201695A JP 2012069900 A JP2012069900 A JP 2012069900A JP 2012069900 A JP2012069900 A JP 2012069900A JP 2013201695 A JP2013201695 A JP 2013201695A
Authority
JP
Japan
Prior art keywords
failure
importance
occurrence
processing unit
interval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012069900A
Other languages
English (en)
Other versions
JP5862403B2 (ja
Inventor
Yoshihiro Minagawa
良弘 皆川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2012069900A priority Critical patent/JP5862403B2/ja
Publication of JP2013201695A publication Critical patent/JP2013201695A/ja
Application granted granted Critical
Publication of JP5862403B2 publication Critical patent/JP5862403B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)
  • Monitoring And Testing Of Transmission In General (AREA)

Abstract

【課題】重要度の定義されていない障害について、当該障害の問題のレベルを推定できるようにする。
【解決手段】重要度処理部22は、重要度の登録されていない障害について、当該障害の発生頻度と発生間隔のばらつきとに基づいて障害発生履歴データベース21(障害発生履歴テーブル)を参照して、当該障害の重要度を推定する。これにより、重要度処理部22は、重要度の定義されていない障害について、当該障害の重要度(問題のレベル)を、障害の重要度と、障害の発生頻度、および、発生間隔のばらつきとの相関関係に基づいて、より適切に推定し得る。
【選択図】図1

Description

本発明は、障害重要度処理サーバ装置、ネットワーク管理システム、障害重要度推定方法およびプログラムに関する。
ネットワーク機器やサーバの台数増加に伴い、ネットワーク機器やサーバの状態を監視し、ネットワーク機器やサーバへのオペレーションを行うネットワーク管理システムの利用が増加している。ネットワーク機器やサーバの状態を障害として管理する際に、障害状況を定義する必要がある。障害の発生状況の1つとして、障害が引き起こす問題のレベルを示す重要度を用いることが多く、障害の重要度を事前に定義することが一般的に行われている。すなわち、どのような障害にどのような重要度を割り当てるかという設計が行われている。
また、障害の重要度に関連して幾つかの技術が提案されている。例えば、特許文献1に記載のネットワーク監視方式では、パケット交換機及びネットワークの障害を検出する障害検出部と、その障害に関する障害情報を生成する障害情報生成部とを設け、さらに予めその障害情報についてその重要度の定義に応じ、メジャー・アラームとマイナー・アラームとに分類する条件を登録した障害分類テーブルと、それに従い障害情報を分類するとともに、障害情報の内容について要約情報と詳細情報とに分ける障害情報分類制御部を設け、それぞれの障害情報を格納するメジャー・アラーム要約ログファイル、マイナー・アラーム要約ログファイル、詳細情報ログファイルを設ける。
これにより、パケット交換網、及びそれを構成するパケット交換機の監視において、重要な障害情報の把握と大局的な障害状況の把握を容易にし、障害の原因切分け、分析を効率的に行う、とされている。
特開平7−162420号公報
障害に重要度を割り当てる設計は、一般的にはシステム運用前の構築段階で行われる。しかしながら、設計段階では幾つかの障害の重要度の定義が行われない場合があり得る。例えば、設計段階では、運用段階での実際の障害発生状況を想定できず、当該障害の重要度を定義できないことが考えられる。また、障害自体が事前に想定されなかった場合、重要度の登録も含めて当該障害の登録が行われないことが考えられる。
重要度の定義されていない障害については、運用段階において当該障害の問題のレベルを把握できず、管理しない障害として見過ごしてしまうおそれがある。
また、特許文献1に記載のネットワーク監視方式では、障害情報の重要度に応じて障害情報分類テーブルに予め定義しておく必要があり、重要度の定義されていない障害に対応することはできない。
本発明は、上述の課題を解決することのできる障害重要度処理サーバ装置、ネットワーク管理システム、障害重要度推定方法およびプログラムを提供することを目的としている。
この発明は上述した課題を解決するためになされたもので、本発明の一態様による障害重要度処理サーバ装置は、障害毎の重要度を、障害発生頻度と、障害発生間隔のばらつきと対応付けて記憶する重要度記憶部と、重要度の登録されていない障害の障害通知を取得すると、当該障害の発生頻度と発生間隔のばらつきとに基づいて前記重要度記憶部を参照して、当該障害の重要度を推定する重要度処理部と、を具備することを特徴とする。
また、本発明の一態様によるネットワーク管理システムは、通知用の重要度として、障害毎の重要度を記憶する第1重要度記憶部と、推定用の重要度として、障害毎の重要度を、障害発生頻度と、障害発生間隔のばらつきと対応付けて記憶する第2重要度記憶部と、前記第1重要度記憶部に重要度の登録されていない障害の障害通知を取得すると、当該障害の発生頻度と発生間隔のばらつきとに基づいて前記第2重要度記憶部を参照して、当該障害の重要度を推定する重要度処理部と、前記第1重要度記憶部に重要度の登録されている障害の障害通知を取得すると、当該第1重要度記憶部に登録されている当該重要度を出力し、前記第1重要度記憶部に重要度の登録されていない障害の障害通知を取得すると、前記重要度処理部が推定した前記重要度を出力する障害処理部と、を具備することを特徴とする。
また、本発明の一態様による障害重要度推定方法は、障害毎の重要度を、障害発生頻度と、障害発生間隔のばらつきと対応付けて記憶する重要度記憶部を具備する障害重要度処理サーバ装置の重要度推定方法であって、重要度の登録されていない障害の障害通知を取得すると、当該障害の発生頻度と発生間隔のばらつきとに基づいて前記重要度記憶部を参照して、当該障害の重要度を推定する重要度推定ステップを具備することを特徴とする。
また、本発明の一態様によるプログラムは、障害毎の重要度を、障害発生頻度と、障害発生間隔のばらつきと対応付けて記憶する重要度記憶部を具備する障害重要度処理サーバ装置に、重要度の登録されていない障害の障害通知を取得すると、当該障害の発生頻度と発生間隔のばらつきとに基づいて前記重要度記憶部を参照して、当該障害の重要度を推定する重要度推定ステップを実行させるためのプログラムである。
本発明によれば、重要度の定義されていない障害について、当該障害の問題のレベルを推定し得る。
本発明の一実施形態におけるネットワーク管理システムの構成を示す概略ブロック図である。 同実施形態における障害管理データベース11が記憶する障害管理テーブルの例を示す図である。 同実施形態における障害発生履歴データベース21が記憶する障害発生履歴テーブルの例を示す図である。 同実施形態における障害分類スコアデータベース23が記憶する障害分類スコアテーブルの例を示す図である。 同実施形態において、障害が発生した際にネットワーク管理システム100が行う処理の手順を示すフローチャートである。 同実施形態において、重要度処理部22が行うテーブル更新処理の手順を示すフローチャートである。 障害重要度処理サーバ装置における本発明の最小構成を示す概略ブロック図である。
次に、本発明の実施の形態について図面を参照して説明する。
図1は、本発明の一実施形態におけるネットワーク管理システムの構成を示す概略ブロック図である。
この図において、ネットワーク管理システム100は、障害管理サーバ装置1、障害重要度処理サーバ装置2およびオペレータ端末4を備えている。そして、障害管理サーバ装置1は監視網3と通信ネットワークで接続されている。また、障害管理サーバ装置1は障害重要度処理サーバ装置2およびオペレータ端末4と接続されている。
障害管理サーバ装置1は障害管理データベース(DB)11、障害処理部12、端末制御部13およびネットワーク通信部14を備えている。障害重要度処理サーバ装置2は障害発生履歴データベース21、重要度処理部22および障害分類スコアデータベース23を備えている。監視網3は、障害監視対象である複数のネットワーク機器31およびサーバ装置32を含んで構成されている。
そして、障害管理サーバ装置1は、監視網3内のネットワーク機器31やサーバ装置32で発生した障害を通知する障害通知をネットワーク通信部14にて受信し、受信した障害の履歴を障害管理データベース11にて記憶する。障害処理部12では、ネットワーク通信部14にて受信した障害通知を障害重要度処理サーバ装置2の重要度処理部22に通知する。障害重要度処理サーバ装置2は、重要度処理部22にて推定した障害の重要度を障害管理サーバ装置1の障害処理部12に通知する。障害管理サーバ装置1は、重要度処理部22が推定した障害の重要度を、端末制御部13を通じてオペレータ端末4に通知する。
ここで、障害管理データベース11は、本発明における第1重要度記憶部の一例であり、通知用の重要度として、障害毎の重要度を記憶する。
また、障害発生履歴データベース21は、本発明における重要度記憶部(第2重要度記憶部)の一例である。障害発生履歴データベース21は、重要度を未登録の障害について重要度処理部22が重要度を推定するために、障害毎の重要度を、障害発生頻度と、障害発生間隔のばらつきと対応付けて記憶する。
ここで、発生回数が多い障害やハードウェア障害など発生頻度が比較的少ないながらも不定期に発生する障害は、特に対応が必要な障害として重要な障害に設定(定義)されることが考えられる。例えば、短期間に何度も発生する障害は優先して対処する必要があり、重要度を高く設定されることが考えられる。また、CPUの故障といったほとんど発生しない障害や、ネットワーク障害など不定期に発生する障害には、システムに致命的な影響を及ぼす障害も重要度を高く設定されることが考えられる。
逆に、障害の発生回数は多いが、発生間隔が1日1回などの決まった振る舞いで発生する障害は、対処の優先度が低く、重要度を低く設定されることが考えられる。例えば、ボトルネックに位置するルータでは、通信データの一時的に集中してバッファオーバーフローが比較的頻繁に、かつ、比較的定期的に発生することが考えられる。この通信データの集中が原因のバッファオーバーフローは、データ再送によって直ちに解消されることが期待され、重要度を低く設定されることが考えられる。
このように、障害の発生頻度および障害発生のばらつき度合い(定期的か否かの度合い)と重要度との間には、一定の相関関係があると考えられる。そこで、ネットワーク管理システム100は、監視網3で発生する障害の発生状況に応じて、障害の発生頻度および障害発生のばらつき度合いと、障害の重要度の高低とを関連付ける。
図2は障害管理データベース11が記憶する障害管理テーブルの例を示す図である。障害管理テーブルは、障害管理サーバ装置1が、監視網3内のネットワーク機器31またはサーバ装置32で発生した障害を管理するために具備するテーブルである。また、障害処理部12は、障害管理データベース11が障害管理テーブルにて記憶する情報のうち重要度の登録されている障害の情報(特に重要度)を、オペレータ端末4への通知用の情報として用いる。
図2に示す障害管理テーブルは、監視網3内のネットワーク機器31またはサーバ装置32における障害の情報を格納しており、1行が1つの障害に対応している。そして、同図の例では、障害管理テーブルの各行は、障害識別子、障害種別、障害発生箇所、障害発生時刻、重要度および障害解消時刻を保持している。例えば、行L11には、障害識別子XXXalm1YY、障害種別alm1、障害発生箇所がルータA、障害発生時刻が2011/12/05 13:00:00、重要度が2、障害解消時刻が2011/12/05 14:00:05の障害が登録されている。
障害識別子は、ネットワーク管理システム100が障害を識別するのに用いる識別子である。特に、監視網3は、障害が発生すると、発生した障害の障害識別子を含む障害通知を障害管理サーバ装置1に送信し、障害管理サーバ装置1は、当該障害識別子を検索キーとして障害管理テーブルを検索して障害情報を取得する。
障害種別は、障害の種別を示す。この障害種別としては、様々なレベルのものを用いることができる。例えば、サーバ装置32における「CPU故障」など、同種の装置に共通のものであってもよいし、装置毎に規定されるものであってもよい。
障害発生箇所は、障害の発生した機器を示す。
障害発生時刻は、最新の障害発生時刻、すなわち、最後に障害が発生した時刻を示す。
重要度は障害の重要度であり、障害の影響の重大性や障害に対する対応の必要性などに基づいて、例えばネットワーク管理システム100の運用管理者が定義(設定)し、障害管理データベース11に登録する。
障害解消時刻は、発生した障害が解決された時刻を示す。障害が未解消の状態では、障害解消時刻として空白など未解消を示す値が格納されている。
ここで、障害管理データベース11は原則として、障害管理テーブルの各行について、障害識別子、障害種別、障害発生箇所、重要度の各項目の値を予め記憶している。障害管理テーブルは、ネットワーク管理システム100が障害を識別するためのテーブルであり、例えばネットワーク管理システム100の運用管理者などネットワーク管理システム100の初期設定者が、これらの項目を登録する。ネットワーク管理システム100の初期設定者は、監視網3で発生すると予想する障害について上記の各項目を設定する(障害管理データベース11に記憶させる)。
もっとも、初期設定者が監視網3で発生し得る全ての障害を把握しているとは限らない。また、ネットワーク管理システム100の初期設定後に、監視網3に装置が追加されて初期設定時には想定されていない障害が発生することもあり得る。このように、障害管理テーブルに登録されている以外の障害が発生する場合がある。
また、初期設定者が障害を登録する際、監視網3の各装置を運用前であり障害の重要度を判断できないこともあり得る。この場合、初期設定者は、重要度を空白とするなど重要度の値を未登録であることを示す値とする。
このように、障害の重要度が登録されていない場合があり得る。
また、障害発生時刻と障害解消時刻とは、監視網3からの情報に基づいて障害処理部12が障害管理データベース11に記憶させる。
例えば、障害処理部12は、監視網3から送信された障害通知から障害発生時刻を読み出して障害管理データベース11に記憶させる。また、障害処理部12は、監視網3から送信された障害解消通知から障害解消時刻を読み出して障害管理データベース11に記憶させる。
図3は障害発生履歴データベース21が記憶する障害発生履歴テーブルの例を示す図である。重要度処理部22は、障害発生履歴データベース21が障害発生履歴テーブルにいて記憶している重要度を、重要度の登録されていない障害の重要度推定用に用いる。
同図に示す障害発生履歴テーブルは、監視網3内のネットワーク機器31またはサーバ装置32にて発生した障害の履歴を格納しており、1行が1つの障害履歴に対応している。そして、同図の例では、障害発生履歴テーブルの各行は、障害識別子、障害種別、障害発生箇所、重要度、障害発生初回時刻、障害発生最終時刻、発生回数、前回発生時との間隔および平均発生間隔を保持している。例えば、行L21には、障害識別子がZZZalm4AA、障害種別がalm4、障害発生箇所がルータB、重要度が1、障害発生初回時刻が2011/12/0212:00:00、障害発生最終時刻が2011/12/0213:00:00、発生回数が121回、前回発生時刻との間隔が30秒、平均発生間隔が30秒との障害情報を保存している。
障害発生初回時刻は、ネットワーク管理システム100(ネットワーク通信部14)が、該当する障害の障害通知を最初に受けた際の障害発生時刻を示す。障害発生最終時刻は、ネットワーク管理システム100(ネットワーク通信部14)が、該当する障害の障害通知を最後に受けた際の障害発生時刻(すなわち、最新の障害の発生時刻)を示す。
発生回数は、該当する障害の発生回数を示す。例えば、重要度処理部22は、障害通知を受ける毎に、該当する障害の発生回数をカウントアップすることで、障害発生回数を計数する。
前回発生との間隔は、最新の障害の発生時刻と、その前の障害の発生時刻との差、すなわち、前の障害が発生してから最新の障害が発生するまでの障害が発生するまでの経過時間を示す。重要度処理部22が最新の障害の通知を受けた時点では、障害発生履歴データベース21は前回の障害の発生時刻を最新の障害の発生時刻として記憶している。そこで、重要度処理部22は、障害通知から読み出した最新の障害の発生時刻と、障害発生履歴データベース21が記憶している前回の障害の発生時刻とに基づいて前回発生との間隔を算出して障害発生履歴データベース21に記憶させる。
平均発生間隔は、障害発生初回時刻から障害発生最終時刻までの時間を、発生回数から1引いた数で除算した値である。
図4は障害分類スコアデータベース23が記憶する障害分類スコアテーブルの例を示す図である。重要度処理部22は、障害分類スコアデータベース23が障害分類スコアテーブルにて記憶する障害分類スコアを、障害発生履歴テーブルの重要度を更新するために藻用いる。
同図に示す障害分類スコアテーブルは、図3を参照して説明した障害発生履歴テーブルにおける、「平均発生間隔」と「前回発生時刻との間隔」との差の絶対値として定義される間隔差(以下、単に「間隔差」と称する)、および、発生回数(単位時間当たりの発生回数、すなわち発生頻度)の組み合わせに対応付けて、障害分類スコアを格納している。障害分類スコアは、後述するように、障害発生履歴データベース21が記憶する障害の重要度を更新するための係数として用いられる。重要度処理部22は、障害の重要度および障害分類スコアを繰り返し計算することで、障害の重要度のクラスタリングを行う。
図4の例では、障害分類スコアデータベース23は、間隔差が0、発生回数が1の場合に障害分類スコアが0.5、発生間隔が10の場合に0.1、発生回数が100の場合に0.05のスコアを保存している。そして、重要度処理部22は、発生した障害の重要度と、障害分類スコアデータベース23が現在保存しているスコアから障害分類スコアを再計算する。本実施例では、重要度は、数値が大きいほど重大な障害であることを示す。
ここで、重要度処理部22は、以下のようにして障害の重要度の更新や障害分類スコアの更新(以下、「テーブル更新処理」と称する)を行う。
ある時刻n(障害の発生回数がn回のとき)において、障害発生履歴データベース21が記憶している障害almの重要度をsv(n)almとする。また、障害almにおける間隔差iおよび発生回数jに対応付けて障害分類スコアデータベース23が記憶している障害分類スコアをc(n)i,jとする。n+1回目の障害発生において障害almが発生した場合、重要度処理部22は、式(1)に基づいて、時刻n+1における障害almの重要度sv(n+1)almを計算する。
Figure 2013201695
なお、障害分類スコアテーブルにおける間隔差および発生回数の組み合わせに、障害almにおける間隔差iおよび発生回数jと同一のものが無い場合、障害almにおける間隔差iおよび発生回数jに最も類似するものを用いる。例えば、重要度処理部22は、まず、障害分類スコアテーブルにおける間隔差および発生回数の組み合わせの各々について、間隔差iおよび発生回数jの組み合わせとのユークリッド距離(√(間隔差の差の二乗+発生回数の差の二乗))を算出する。そして、重要度処理部22は、ユークリッド距離の最も小さいものに対応付けられた障害分類スコアを用いる。
また、重要度処理部22は、式(2)に基づいて、間隔差iおよび発生回数kの障害分類スコアc(n+1)i,kを更新する。
Figure 2013201695
また、重要度処理部22は、式(3)に基づいて、障害分類スコアc(n+1)i,kを正規化する。
Figure 2013201695
なお、ネットワーク管理システム100の重要度の定義域を越えないようにするために、式(1)に基づいて算出した重要度がシステムの定義域を超える場合、重要度処理部22は、システムの定義域における最大値を用いる。また、算出した重要度が定義域を下回る場合、重要度処理部22は、システムの定義域における最小値を用いる。
なお、一般には、管理対象から発生する障害の振る舞いを推定できないため、障害分類スコアデータベース23が障害分類スコアテーブルに保持するスコアの初期値として、例えばランダムな値を登録する。
なお、事前に1分ごとなど定期的に発生するが問題のない障害が発生するなどの事象が分かっている場合には、運用管理者の設計方針によりスコアを固定して保持できるようにしてもよい。また、設計方針により指定されたスコアは、計算には含まれないように設定できるようにしてもよい。
図5は障害が発生した際にネットワーク管理システム100が行う処理の手順を示すフローチャートである。ネットワーク管理システム100は、ネットワーク通信部14が監視網3からの障害通知を受信すると同図の処理を開始する。
同図の処理において、まず、ネットワーク通信部14は、受信した障害通知を障害処理部12に出力する(ステップS101)。
そして、障害処理部12は、ネットワーク通信部14が受信した障害通知に該当する障害が、重要度を未登録の障害か否かを判定する(ステップS102)。具体的には、障害処理部12は、障害通知の示す障害が、障害管理データベース11の記憶する障害管理テーブルに登録(定義)されていない場合、または、障害が登録されていても重要度が登録されていない場合、重要度を未登録の障害であると判定する。
重要度を未登録の障害であると判定した場合(ステップS102:YES)、障害処理部12は、未登録であることを示す情報と共に障害通知を障害重要度処理サーバ装置2に出力する(ステップS111)。
障害重要度処理サーバ装置2では、重要度処理部22が障害通知を取得し、取得した場外通知に基づいて障害発生履歴テーブルを更新する(ステップS112)。
具体的には、障害通知の示す障害が、障害発生履歴テーブルに未登録の場合、重要度処理部22は、障害通知から障害識別子と障害発生時刻とを読み出す。また、重要度処理部22は、障害発生履歴テーブルに1行追加する。そして、重要度処理部22は、追加した行の障害識別子の項目に、障害通知から読み出した障害識別子を書き込む。また、重要度処理部22は、追加した行の障害発生初回時刻の項目と障害発生最終時刻の項目とに、いずれも、障害通知から読み出した障害発生時刻を書き込む。さらに、重要度処理部22は、追加した行の発生回数の項目に「1」を、前回発生との間隔の項目に「0」を、平均発生間隔の項目に「0」をそれぞれ書き込む。また、重要度処理部22は、重要度の項目については、空白など重要度が未登録であることを示す情報を書き込む。
なお、障害通知に障害種別や障害発生箇所の情報が含まれている場合は、重要度処理部22は、これらの情報も追加した行に書き込む。
一方、障害通知の示す障害が、障害発生履歴テーブルに既に登録されている場合、重要度処理部22は、障害通知から障害発生時刻を読み出し、障害発生履歴テーブルの該当行の、障害発生最終時刻の項目に書き込む(更新する)。その際、重要度処理部22は、更新前の障害発生最終時刻を、前回の障害発生時刻として記憶しておく。
また、重要度処理部22は、該当行の発生回数の項目の値を1増やす。そして、重要度処理部22は、障害発生初回時刻から障害発生最終時刻までの時間を発生回数で除算して平均発生間隔を算出し、該当行の平均発生間隔の項目に書き込む。また、重要度処理部22は、前回の障害発生時刻から障害発生最終時刻までの時間を算出して、該当行の前回発生との間隔の項目に書き込む。
次に、重要度処理部22は、障害通知の示す障害の発生頻度と発生間隔のばらつきとに基づいて障害発生履歴テーブルを参照して、当該障害の重要度を推定する(ステップS113)。
具体的には、重要度処理部22は、障害通知の示す障害の発生頻度として、発生回数を障害発生履歴テーブルから読み出す。また、重要度処理部22は、障害通知の示す障害の発生間隔のばらつきとして、間隔差(前回発生との間隔(前回の障害発生から今回の障害発生までの時間)と、平均発生間隔との差の絶対値)を算出する。
また、重要度処理部22は、障害発生履歴において重要度の登録されている障害の各々について、間隔差を算出する。
そして、重要度処理部22は、障害発生履歴において重要度の登録されている障害のうち、障害通知の示す障害と、発生回数および間隔差の組み合わせにおいて最も類似するものを選択する。例えば、重要度処理部22は、障害発生履歴において重要度の登録されている障害の各々について、当該障害の発生回数および間隔差と、障害通知の示す障害の発生回数および間隔差とのユークリッド距離(√(発生回数の差の二乗+間隔差の差の二乗))を求める。そして、重要度処理部22は、ユークリッド距離の最も近い障害を選択する。
そして、重要度処理部22は、選択した障害の重要度を、障害通知の示す障害の重要度の推定値として障害発生履歴テーブルから読み出す。
そして、重要度処理部22は、推定した重要度を障害管理サーバ装置1(障害処理部12)に送信する(ステップS114)。障害処理部12は、重要度処理部22からの重要度を含む障害情報を、端末制御部13を介してオペレータ端末4に送信して表示させる(ステップS115)。
その後、同図の処理を終了する。
一方、ステップS102において、重要度を既に登録済みの障害であると判定した場合(ステップS102:NO)、障害処理部12は、障害管理データベース11から当該障害の重要度を読み出し、端末制御部13を介してオペレータ端末4に送信して、重要度を含む障害情報を表示させる(ステップS121)。
また、障害処理部12は、重要度を登録済みであることを示す情報と共に障害通知を障害重要度処理サーバ装置2に出力する(ステップS122)。
障害重要度処理サーバ装置2では、重要度処理部22が障害通知を取得し、取得した場外通知に基づいて、次に説明するテーブル更新処理を行う(ステップS123)。
その後、同図の処理を終了する。
図6は、重要度処理部22が行うテーブル更新処理の手順を示すフローチャートである。重要度処理部22は、図5のステップS113において図6の処理を行う。すなわち、重要度処理部22は、未登録の障害が発生するたびに図6の処理を行う。
図6の処理において、重要度処理部22は、まず、障害分類スコアデータベース23が記憶している障害分類スコアを利用して、障害通知が示す障害の障害発生履歴テーブルにおける重要度を、上述した式(1)に従って更新する(ステップS201)。
次に、重要度処理部22は、障害分類スコアと重要度とに基づいて、次回使用時のために障害分類スコアを上述した式(2)に従って更新する(ステップS202)。そして、重要度処理部22は、障害分類スコアテーブルの正規化を上述した式(3)に従って行う(ステップS203)。
その後、同図の処理を終了して図5の処理に戻る。
以上のように、重要度処理部22は、重要度の登録されていない障害について、当該障害の発生頻度と発生間隔のばらつきとに基づいて障害発生履歴データベース21(障害発生履歴テーブル)を参照して、当該障害の重要度を推定する。これにより、重要度処理部22は、重要度の定義されていない障害について、当該障害の重要度(問題のレベル)を、障害の重要度と、障害の発生頻度、および、発生間隔のばらつきとの相関関係に基づいて、より適切に推定し得る。
また、障害重要度処理サーバ装置2(重要度処理部22)は、障害発生間隔のばらつきとして、当該障害の平均発生間隔と当該障害が前回発生してから今回発生するまで間隔との差の絶対値を用いる。
これにより、重要度処理部22は、障害の平均発生間隔と当該障害が前回発生してから今回発生するまで間隔との差の絶対値を求めるという簡単な計算で障害発生間隔のばらつきを求めることができる。従って、重要度処理部22の負荷を抑制することができ、また、重要度処理部22が重要度を推定する処理時間の増大を抑制することができる。また、障害発生履歴データベース21は、障害の平均発生間隔、および、障害が前回発生してから今回発生するまで間隔を記憶しておけばよく、障害発生時刻を全回分記憶しておく必要が無い。従って、障害発生履歴データベース21の記憶容量を抑制することができる。
また、重要度処理部22は、重要度と障害発生頻度と障害発生間隔のばらつきとが既知の障害の障害通知を取得すると、当該障害通知に基づいて障害発生履歴データベース21が記憶する重要度を更新する。その際、重要度処理部22は、同様の障害発生頻度と障害発生間隔のばらつきとを有する障害に対して、障害分類スコアテーブルの同じ位置からスコアを読み出して重要度の更新を行うことになる。
これにより、重要度処理部22は、同様の障害発生頻度と障害発生間隔のばらつきとを有する障害に対して同様の更新を行うことになり、重要度の値が類似してくる(差が小さくなる)ことが考えられる。すなわち、重要度処理部22は、重要度の更新によって障害の重要度のクラスタリングを行っている。
従って、重要度処理部22は、より安定的に(同様の障害発生頻度と障害発生間隔のばらつきとを有する障害に対して同様の重要度を推定するように)重要度の推定を行い得る。
このように、重要度処理部22は、障害の重要度を自動分類することができる。特に、ネットワーク運用管理システムの構築段階では考慮されていなかったサーバやネットワーク機器から発生した障害に関して分類することができると考えられる。また、障害を一定の条件下について分類することで、認識できていなかった障害の可視化とその対処方法について検討することができるようになると考えられる。
また、重要度処理部22は、障害発生履歴データベース21が記憶する重要度を更新することで、重要度の更新をおこなうことで、障害発生頻度や障害発生間隔が変化した場合にも、発生した障害の重要度をより適切に推定し得る。
また、障害管理データベース11が、通知用の重要度として、障害毎の重要度を記憶し、障害発生履歴データベース21が、推定用の重要度として、障害毎の重要度を記憶する。
これにより、重要度処理部22が上記のクラスタリングを行っても、障害処理部12は、重要度が定義され登録されている障害について、当該定義されている重要度(従って、固定の重要度)をオペレータ端末に通知できる。
次に、図7を参照して、障害重要度処理サーバ装置における本発明の最小構成について説明する。
図7は、障害重要度処理サーバ装置における本発明の最小構成を示す概略ブロック図である。同図において、障害重要度処理サーバ装置102は、重要度記憶部121と、重要度処理部122とを具備する。
重要度記憶部121は、障害発生履歴データベース21(図1)と同様、障害毎の重要度を、障害発生頻度と、障害発生間隔のばらつきと対応付けて記憶する。また、重要度処理部122は、重要度処理部22(図1)と同様、重要度の登録されていない障害の障害通知を取得すると、当該障害の発生頻度と発生間隔のばらつきとに基づいて重要度記憶部121を参照して、当該障害の重要度を推定する。
これにより、重要度処理部122は、重要度処理部22(図1)と同様、重要度の定義されていない障害について、当該障害の重要度(問題のレベル)を、障害の重要度と、障害の発生頻度、および、発生間隔のばらつきとの相関関係に基づいて、より適切に推定し得る。
なお、ネットワーク管理システム100の全部または一部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各部の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
以上、本発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計変更等も含まれる。
100 ネットワーク管理システム
1 障害管理サーバ装置
11 障害管理データベース
12 障害処理部
13 端末制御部
14 ネットワーク通信部
2 障害重要度処理サーバ装置
21 障害発生履歴データベース
22 重要度処理部
23 障害分類スコアデータベース
3 監視網
31 ネットワーク機器
32 サーバ装置
4 オペレータ端末

Claims (6)

  1. 障害毎の重要度を、障害発生頻度と、障害発生間隔のばらつきと対応付けて記憶する重要度記憶部と、
    重要度の登録されていない障害の障害通知を取得すると、当該障害の発生頻度と発生間隔のばらつきとに基づいて前記重要度記憶部を参照して、当該障害の重要度を推定する重要度処理部と、
    を具備することを特徴とする障害重要度処理サーバ装置。
  2. 前記障害発生間隔のばらつきとして、当該障害の平均発生間隔と当該障害が前回発生してから今回発生するまで間隔との差の絶対値を用いることを特徴とする請求項1に記載の障害重要度処理サーバ装置。
  3. 前記重要度処理部は、重要度と障害発生頻度と障害発生間隔のばらつきとが既知の障害の障害通知を取得すると、当該障害通知に基づいて前記重要度記憶部が記憶する前記重要度を更新することを特徴とする請求項1または請求項2に記載の障害重要度処理サーバ装置。
  4. 通知用の重要度として、障害毎の重要度を記憶する第1重要度記憶部と、
    推定用の重要度として、障害毎の重要度を、障害発生頻度と、障害発生間隔のばらつきと対応付けて記憶する第2重要度記憶部と、
    前記第1重要度記憶部に重要度の登録されていない障害の障害通知を取得すると、当該障害の発生頻度と発生間隔のばらつきとに基づいて前記第2重要度記憶部を参照して、当該障害の重要度を推定する重要度処理部と、
    前記第1重要度記憶部に重要度の登録されている障害の障害通知を取得すると、当該第1重要度記憶部に登録されている当該重要度を出力し、前記第1重要度記憶部に重要度の登録されていない障害の障害通知を取得すると、前記重要度処理部が推定した前記重要度を出力する障害処理部と、
    を具備することを特徴とするネットワーク管理システム。
  5. 障害毎の重要度を、障害発生頻度と、障害発生間隔のばらつきと対応付けて記憶する重要度記憶部を具備する障害重要度処理サーバ装置の重要度推定方法であって、
    重要度の登録されていない障害の障害通知を取得すると、当該障害の発生頻度と発生間隔のばらつきとに基づいて前記重要度記憶部を参照して、当該障害の重要度を推定する重要度推定ステップを具備することを特徴とする障害重要度推定方法。
  6. 障害毎の重要度を、障害発生頻度と、障害発生間隔のばらつきと対応付けて記憶する重要度記憶部を具備する障害重要度処理サーバ装置に、
    重要度の登録されていない障害の障害通知を取得すると、当該障害の発生頻度と発生間隔のばらつきとに基づいて前記重要度記憶部を参照して、当該障害の重要度を推定する重要度推定ステップを実行させるためのプログラム。
JP2012069900A 2012-03-26 2012-03-26 障害重要度処理サーバ装置、ネットワーク管理システム、障害重要度推定方法およびプログラム Active JP5862403B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012069900A JP5862403B2 (ja) 2012-03-26 2012-03-26 障害重要度処理サーバ装置、ネットワーク管理システム、障害重要度推定方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012069900A JP5862403B2 (ja) 2012-03-26 2012-03-26 障害重要度処理サーバ装置、ネットワーク管理システム、障害重要度推定方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2013201695A true JP2013201695A (ja) 2013-10-03
JP5862403B2 JP5862403B2 (ja) 2016-02-16

Family

ID=49521558

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012069900A Active JP5862403B2 (ja) 2012-03-26 2012-03-26 障害重要度処理サーバ装置、ネットワーク管理システム、障害重要度推定方法およびプログラム

Country Status (1)

Country Link
JP (1) JP5862403B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016127485A (ja) * 2015-01-06 2016-07-11 富士通株式会社 無線装置
CN106998263A (zh) * 2015-10-09 2017-08-01 谷歌公司 用于保持网络服务级别的系统和方法
JP2020086666A (ja) * 2018-11-19 2020-06-04 ブラザー工業株式会社 通信装置及び通信装置のためのコンピュータプログラム
US10873515B2 (en) 2017-01-10 2020-12-22 Fujitsu Limited Recording medium recording packet analysis program, packet analysis method, and information processing device
JPWO2021079521A1 (ja) * 2019-10-25 2021-04-29
JP2021128664A (ja) * 2020-02-17 2021-09-02 富士通フロンテック株式会社 メッセージ監視サーバ、メッセージ監視方法及びメッセージ監視プログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004320267A (ja) * 2003-04-15 2004-11-11 Nec Software Chubu Ltd 障害通報装置および障害通報方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004320267A (ja) * 2003-04-15 2004-11-11 Nec Software Chubu Ltd 障害通報装置および障害通報方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6015048032; 竹原 元康 他: 'ビジネス向けサービスを拡充するM1000およびMAPSの開発' NTT DoCoMoテクニカル・ジャーナル Vol.13 No.2, 20050701, 第55〜61頁, 社団法人電気通信協会 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016127485A (ja) * 2015-01-06 2016-07-11 富士通株式会社 無線装置
CN106998263A (zh) * 2015-10-09 2017-08-01 谷歌公司 用于保持网络服务级别的系统和方法
CN106998263B (zh) * 2015-10-09 2021-05-25 谷歌有限责任公司 用于保持网络服务级别的系统和方法
US10873515B2 (en) 2017-01-10 2020-12-22 Fujitsu Limited Recording medium recording packet analysis program, packet analysis method, and information processing device
JP2020086666A (ja) * 2018-11-19 2020-06-04 ブラザー工業株式会社 通信装置及び通信装置のためのコンピュータプログラム
JP7172492B2 (ja) 2018-11-19 2022-11-16 ブラザー工業株式会社 通信装置及び通信装置のためのコンピュータプログラム
JPWO2021079521A1 (ja) * 2019-10-25 2021-04-29
JP7334792B2 (ja) 2019-10-25 2023-08-29 日本電信電話株式会社 ルール生成装置、方法及びプログラム
JP2021128664A (ja) * 2020-02-17 2021-09-02 富士通フロンテック株式会社 メッセージ監視サーバ、メッセージ監視方法及びメッセージ監視プログラム
JP7208939B2 (ja) 2020-02-17 2023-01-19 富士通フロンテック株式会社 メッセージ監視サーバ、メッセージ監視方法及びメッセージ監視プログラム

Also Published As

Publication number Publication date
JP5862403B2 (ja) 2016-02-16

Similar Documents

Publication Publication Date Title
JP5862403B2 (ja) 障害重要度処理サーバ装置、ネットワーク管理システム、障害重要度推定方法およびプログラム
US9246777B2 (en) Computer program and monitoring apparatus
JP5428934B2 (ja) 障害パターン生成プログラムおよび障害パターン生成装置
JP6126891B2 (ja) 検出方法、検出プログラム、および検出装置
US9584617B2 (en) Allocating cache request in distributed cache system based upon cache object and marker identifying mission critical data
US9917741B2 (en) Method and system for processing network activity data
US20160378583A1 (en) Management computer and method for evaluating performance threshold value
JP4667412B2 (ja) 電子機器集中管理プログラム、電子機器集中管理装置および電子機器集中管理方法
US11706079B2 (en) Fault recovery method and apparatus, and storage medium
JP4826831B2 (ja) 障害検知装置、障害検知方法及びそのプログラム
CN106230997B (zh) 一种资源调度方法和装置
US11625315B2 (en) Software regression recovery via automated detection of problem change lists
US9658908B2 (en) Failure symptom report device and method for detecting failure symptom
WO2014013603A1 (ja) 監視システム及び監視プログラム
JP2016143299A (ja) リスク評価システムおよびリスク評価方法
GB2476578A (en) Identifying a failed component in a network system
JP5521456B2 (ja) 監視システム及びプログラム
JP2016122337A (ja) 障害情報提供サーバ、障害情報提供方法
JP6068296B2 (ja) 制御装置、計算資源管理方法及び計算資源管理プログラム
JP2016181022A (ja) 情報処理装置、情報処理プログラム、情報処理方法、及びデータセンタシステム
WO2018201864A1 (zh) 一种数据库性能诊断方法、装置、设备以及存储介质
WO2020261621A1 (ja) 監視システム、監視方法及びプログラム
JP6060123B2 (ja) 影響範囲特定装置、影響範囲特定方法、及びプログラム
JP6513001B2 (ja) 故障検知装置、故障検知方法、及びプログラム
US8719633B2 (en) Search device, search method, and search program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150212

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151214

R150 Certificate of patent or registration of utility model

Ref document number: 5862403

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150