JP2007096796A - ネットワーク障害診断装置、ネットワーク障害診断方法およびネットワーク障害診断プログラム - Google Patents

ネットワーク障害診断装置、ネットワーク障害診断方法およびネットワーク障害診断プログラム Download PDF

Info

Publication number
JP2007096796A
JP2007096796A JP2005283976A JP2005283976A JP2007096796A JP 2007096796 A JP2007096796 A JP 2007096796A JP 2005283976 A JP2005283976 A JP 2005283976A JP 2005283976 A JP2005283976 A JP 2005283976A JP 2007096796 A JP2007096796 A JP 2007096796A
Authority
JP
Japan
Prior art keywords
event
failure
network
causal relationship
acquisition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005283976A
Other languages
English (en)
Other versions
JP4527642B2 (ja
Inventor
Satoshi Imai
悟史 今井
Akira Nakaato
明 中後
Hitoshi Ueno
仁 上野
Akiko Yamada
亜紀子 山田
Hitoshi Yamada
仁 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2005283976A priority Critical patent/JP4527642B2/ja
Priority to US11/360,945 priority patent/US7587634B2/en
Publication of JP2007096796A publication Critical patent/JP2007096796A/ja
Application granted granted Critical
Publication of JP4527642B2 publication Critical patent/JP4527642B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0604Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
    • H04L41/0609Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time based on severity or priority

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Selective Calling Equipment (AREA)
  • Telephonic Communication Services (AREA)
  • Computer And Data Communications (AREA)

Abstract

【課題】ネットワークに発生する障害と障害の兆候を示すイベントとの因果関係に基づいて障害を特定するネットワーク障害診断装置において、管理対象ネットワークとの間のトラフィックを削減すること。
【解決手段】因果関係テーブル104が障害とイベントの因果関係を記憶し、監視イベント選択部105が、因果関係テーブル104を参照し、障害を特定するために必要最低限のイベントを抽出して監視イベントに設定し、取得イベント選択部107が、最新の障害候補に基づいて因果関係テーブル104からイベントを選択し、選択した各イベントに対して障害を効率よく特定できる順番に優先度を設定し、イベント取得部102が、設定された優先度の順番にイベントを要求し、要求に対して応答されるイベントをイベント受信部103が受信し、順次受信されるイベントをもとに障害判定部108が障害の候補を絞り込むよう構成する。
【選択図】 図1

Description

この発明は、ネットワークに発生する障害と障害の兆候を示すイベントとの因果関係に基づいて障害を特定するネットワーク障害診断装置、ネットワーク障害診断方法およびネットワーク障害診断プログラムに関し、特に、障害発生時に取得するイベントの数を最小限に抑えることによって、管理対象ネットワークとの間のトラフィックを削減することができるネットワーク障害診断装置、ネットワーク障害診断方法およびネットワーク障害診断プログラムに関するものである。
近年、様々な分野でネットワークが普及し、情報交換や情報共有のために利用されており、その重要性はますます高まってきている。そのため、ネットワークを常時監視することによって障害を早期に発見し、障害が致命的な状態に発展するのを未然に防ぐことは極めて重要である。
通常、ネットワーク監視には、自動監視ツールが利用されている。自動監視ツールは、障害発生時にネットワーク装置が通知するイベントを収集、分析して障害を特定し、障害が発生したことをネットワーク管理者に通知する。
このような自動監視ツールの一例として、ネットワークに発生する障害と、障害に対して生ずるイベントとの因果関係をあらかじめパターン化しておき、そのパターンと、障害発生時に取得したイベントのパターンとを比較することにより、効率よく根本原因の障害を特定する技術が考案されている。(例えば、特許文献1参照。)。
米国特許第5528516号明細書
しかしながら、障害発生時にネットワーク装置から通知されるイベントは膨大な数であり、トラフィックが増加することにより、ネットワークの負荷が増大してしまうという問題がある。
この発明は、上述した従来技術による問題点を解消するためになされたものであり、障害発生時に取得するイベントの数を最小限に抑えることによって、管理対象ネットワークとの間のトラフィックを削減することができるネットワーク障害診断装置、ネットワーク障害診断方法およびネットワーク障害診断プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するため、請求項1の発明に係るネットワーク障害診断装置は、ネットワークに発生する障害と障害の兆候を示すイベントとの因果関係に基づいて障害を特定するネットワーク障害診断装置であって、ネットワークに発生する障害に対するイベントの発生確率を、障害とイベントとの因果関係に対応付けて記憶する因果関係記憶手段と、前記因果関係記憶手段により発生確率が記憶されたイベントから、前記ネットワークに発生する障害を特定する上で必要最小限のイベントを選択し、前記ネットワークに接続された機器から該イベントを取得するイベント取得手段と、前記イベント取得手段により取得されたイベントに対応する障害候補の集合を前記因果関係記憶手段により記憶された障害から抽出し、次に前記イベント取得手段により取得されるイベントに対応する障害候補との共通集合を求めることによって障害を特定する障害判定手段と、を備えたことを特徴とする。
請求項1の発明によれば、ネットワークに発生する障害に対するイベントの発生確率を障害とイベントとの因果関係に対応付けて記憶し、発生確率を記憶しているイベントからネットワークに発生する障害を特定する上で必要最小限のイベントを選択し、選択したイベントをネットワークに接続された機器から取得し、取得したイベントに対応する障害候補の集合を、記憶している障害から抽出し、次に取得するイベントに対応する障害候補との共通集合を求めることによって障害を特定するよう構成したので、必要最小限のイベントによって効率よく障害を特定することができる。
また、請求項2の発明に係るネットワーク障害診断装置は、請求項1の発明において、前記イベント取得手段は、前記因果関係記憶手段により記憶された発生確率に基づいて、前記ネットワークに発生する障害を特定する上で必要最小限のイベントを選択し、前記ネットワークに接続された機器から自動的に取得するように設定することを特徴とする。
また、請求項2の発明によれば、発生確率を記憶しているイベントから、それぞれの発生確率に基づいて、ネットワークに発生する障害を特定する上で必要最小限のイベントを選択し、ネットワークに接続された機器から自動的に取得するように設定するよう構成したので、ネットワークに接続された機器が障害発生時に送信するイベントを最小限にする制限することができる。
また、請求項3の発明に係るネットワーク障害診断装置は、請求項1または2の発明において、前記イベント取得手段は、前記因果関係記憶手段により記憶された発生確率に基づいてイベントごとに優先度を計算し、障害を効率よく特定できるイベントの取得順序を決定し、前記ネットワークに接続された機器に対して取得順序の順にイベントを要求することを特徴とする。
また、請求項3の発明によれば、発生確率を記憶しているイベントから、それぞれの発生確率に基づいてイベントごとに優先度を計算し、障害を効率よく特定できるイベントの取得順序を決定し、ネットワークに接続された機器に対して取得順序の順にイベントを要求するよう構成したので、少ないイベント数で効率よく障害を特定することができる。
また、請求項4の発明に係るネットワーク障害診断方法は、ネットワークに発生する障害と障害の兆候を示すイベントとの因果関係に基づいて障害を特定するネットワーク障害診断方法であって、ネットワークに発生する障害に対するイベントの発生確率を、障害とイベントとの因果関係に対応付けて記憶する因果関係記憶工程と、前記因果関係記憶工程により発生確率が記憶されたイベントから、前記ネットワークに発生する障害を特定する上で必要最小限のイベントを選択し、前記ネットワークに接続された機器から該イベントを取得するイベント取得工程と、前記イベント取得工程により取得されたイベントに対応する障害候補の集合を前記因果関係記憶工程により記憶された障害から抽出し、次に前記イベント取得工程により取得されるイベントに対応する障害候補との共通集合を求めることによって障害を特定する障害判定工程と、を含んだことを特徴とする。
請求項4の発明によれば、ネットワークに発生する障害に対するイベントの発生確率を障害とイベントとの因果関係に対応付けて記憶し、発生確率を記憶しているイベントからネットワークに発生する障害を特定する上で必要最小限のイベントを選択し、選択したイベントをネットワークに接続された機器から取得し、取得したイベントに対応する障害候補の集合を、記憶している障害から抽出し、次に取得するイベントに対応する障害候補との共通集合を求めることによって障害を特定するよう構成したので、必要最小限のイベントによって効率よく障害を特定することができる。
また、請求項5の発明に係るネットワーク障害診断プログラムは、ネットワークに発生する障害と障害の兆候を示すイベントとの因果関係に基づいて障害を特定するネットワーク障害診断プログラムであって、ネットワークに発生する障害に対するイベントの発生確率を、障害とイベントとの因果関係に対応付けて記憶する因果関係記憶手順と、前記因果関係記憶手順により発生確率が記憶されたイベントから、前記ネットワークに発生する障害を特定する上で必要最小限のイベントを選択し、前記ネットワークに接続された機器から該イベントを取得するイベント取得手順と、前記イベント取得手順により取得されたイベントに対応する障害候補の集合を前記因果関係記憶手順により記憶された障害から抽出し、次に前記イベント取得手順により取得されるイベントに対応する障害候補との共通集合を求めることによって障害を特定する障害判定手順と、をコンピュータに実行させることを特徴とする。
請求項5の発明によれば、ネットワークに発生する障害に対するイベントの発生確率を障害とイベントとの因果関係に対応付けて記憶し、発生確率を記憶しているイベントからネットワークに発生する障害を特定する上で必要最小限のイベントを選択し、選択したイベントをネットワークに接続された機器から取得し、取得したイベントに対応する障害候補の集合を、記憶している障害から抽出し、次に取得するイベントに対応する障害候補との共通集合を求めることによって障害を特定するよう構成したので、必要最小限のイベントによって効率よく障害を特定することができる。
請求項1、4および5の発明によれば、必要最小限のイベントによって効率よく障害を特定することができるので、障害を特定する上でネットワーク上に発生するトラフィックを削減することができるという効果を奏する。
また、請求項2の発明によれば、ネットワークに接続された機器が障害発生時に送信するイベントを最小限にする制限することができるので、障害発生時にネットワーク上に発生するトラフィックを削減することができるという効果を奏する。
また、請求項3の発明によれば、少ないイベント数で効率よく障害を特定することができるので、障害を特定する上でネットワーク上に発生するトラフィックを削減することができるという効果を奏する。
以下に添付図面を参照して、この発明に係るネットワーク障害診断装置、ネットワーク障害診断方法およびネットワーク障害診断プログラムの好適な実施例を詳細に説明する。
まず、本実施例1に係るネットワーク障害診断装置の構成について説明する。図1は、本実施例1に係るネットワーク障害診断装置の構成を示す機能ブロック図である。同図に示すように、このネットワーク障害診断装置100は、障害を監視する対象となる管理対象ネットワーク400に接続されている。
また、ネットワーク障害診断装置100は、装置設定部101と、イベント取得部102と、イベント受信部103と、因果関係テーブル104と、監視イベント選択部105と、重要度設定部106と、取得イベント選択部107と、障害判定部108と、確信度テーブル109と、タイマー部110と、割り込み指示部111とを有する。
装置設定部101は、後述する監視イベント選択部105によって選択されるトラップイベントを、管理対象ネットワーク400に接続されている各機器に対して設定する処理部である。障害が発生時には、管理対象ネットワーク400に接続されている各機器は、各自に設定されたトラップイベントを検出した場合、自発的に、当該トラップイベントをネットワーク障害診断装置100に対して送信する。
イベント取得部102は、管理対象ネットワーク400に接続された機器に対し、サンプリング監視および障害契機イベント取得を行う処理部である。具体的には、このイベント取得部102は、後述する監視イベント選択部105により選択される定期ポーリングイベントを、管理対象ネットワーク400に接続された各機器に対して定期的に要求する(サンプリング監視)。また、イベント取得部102は、後述する取得イベント選択部107により選択される障害契機ポーリングイベントを、管理対象ネットワーク400に接続された各機器に対して、同じく取得イベント選択部107により決定される取得順序に従って要求する(障害契機イベント取得)。
イベント受信部103は、管理対象ネットワーク400に接続されている各機器から送信されるイベントを受信する処理部である。具体的には、このイベント受信部103は、各機器が自発的に送信するトラップイベントと、各機器がイベント取得部102からの要求に応じて送信する定期ポーリングイベントおよび障害契機ポーリングイベントを受信する。
因果関係テーブル104は、イベントと障害の因果関係を記憶する記憶部である。図2は、因果関係テーブルの一例を示す図である。同図に示すように、この因果関係テーブル104は、障害に対するイベントの発生確率を因果関係に対応付けて記憶している。また、各イベントは、それぞれ、トラップイベントまたは定期ポーリングイベントに分類されている。同図の例においては、障害P1〜P5に対するイベントE1〜E7の発生確率が記憶されている。また、イベントE1〜E4がトラップイベントに分類され、イベントE5〜E7が定期ポーリングイベントに分類されている。
監視イベント選択部105は、因果関係テーブル104から、管理対象ネットワーク400に発生する障害を特定する上で必要最小限のイベントを選択し、監視イベントとして設定する処理部である。ここでいう監視イベントとは、トラップイベントと定期ポーリングイベントのことである。具体的には、この監視イベント選択部105は、因果関係テーブル104から、障害を特定する上で必要最小限のトラップイベントを選択し、装置設定部101を介して、管理対象ネットワーク400に接続されている各機器に設定する。また、必要最小限の定期ポーリングイベントを選択し、イベント取得部102に対して、サンプリング監視の対象イベントとして設定する。
図3は、監視イベント選択によるトラフィックの変化を示す図である。同図に示す例では、因果関係テーブル104に、トラップイベントE1〜E4および定期ポーリングイベントE1〜E4が記憶され、これらのイベントのうち、障害を特定する上で必要最小限のイベントがトラップイベントE1、E2およびE3、定期ポーリングイベントE6およびE7であった場合を示している。この場合、監視イベントの選択により、トラップイベントE4、定期ポーリングイベントE5が、ネットワーク障害診断装置100と管理対象ネットワーク400との間でやりとりされるイベントから削減され、すなわち、ネットワーク障害診断装置100と管理対象ネットワーク400との間のトラフィックが削減される。
ここで、監視イベント選択部105による、障害を特定する上で必要最小限の監視イベントを選択する手順を説明する。まず、監視イベント選択部105は、因果関係テーブル104に記憶されている、障害Piに対するイベントEkの発生確率P(Ek|Pi)をもとに、障害の順序付組み合わせ{Pi,Pj},i≠jに対するイベントEkの発生確率の差dij(Ek)=P(Ek|Pi)−P(Ek|Pj)を算出し、識別テーブルを作成する。この時、P(Ek|Pj)>0である場合はdij(Ek)=0とする。
図4〜7は、監視イベントの選択手順を示す図である。同図に示す例では、図1に示した因果関係テーブル104をもとに識別テーブルを作成している。なお、図4〜7に示す識別テーブルにおいて、dij(Ek)を空欄としている箇所は、dij(Ek)=0であることを示している。
そして、作成した識別テーブルから、障害を判定する上で必要最小限のイベントを順次選択し、監視イベントとして採用していく。まず、各イベントを選択する際に用いるフラグ値Fij、識別度dij、および判定度Jkに初期値を設定する。
ここで、フラグ値Fijとは、監視イベントとして採用されたイベントによって識別することができる障害の組み合わせ{Pi,Pj}を判定するための値である。このフラグ値Fijには、初期値として0を設定する。
また、識別度dijとは、障害の組み合わせ{Pi,Pj}ごとの、当該組み合わせに対するイベントEkの発生確率の差dij(Ek)の総和である。この識別度dijには、初期値として、dij=Σkij(Ek)によって算出した値を設定する。
また、判定度Jkとは、イベントEkごとの、当該イベントによって障害の組み合わせ{Pi,Pj}を識別することができる度合いを示す値である。この判定度Jkには、初期値として、J(Ek)=Σijij(Ek)によって算出した値を設定する。
フラグ値Fij、識別度dij、および判定度Jkに初期値を設定した後、監視イベント選択処理を行う。具体的には、まず、識別テーブルにある障害の組合せ{Pi,Pj}の中から、フラグ値Fijが0≦Fij<1である組合せ{Pi,Pj}を選択する。さらに、選択した組合せ{Pi,Pj}の中から、識別度dijが最も小さい値である組合せ{Pi,Pj}を選択する。
そして、選択した組み合わせ{Pi,Pj}に対する各イベントEkの発生確率の差dij(Ek)が、dij(Ek)≠0であるイベントEkを選択する。さらに、選択したイベントEkの中から、判定度Jkが最も大きい値であるイベントEkを選択し、監視イベントとして採用する。
図4に示す例では、フラグ値F12〜F54が全て0であることから、まず、全ての障害の組み合わせが選択され、さらに、識別度d12=1、d32=1、d42=1、およびd52=1が最も小さい値であることから、障害の組み合わせ{P1,P2}、{P3,P2}、{P4,P2}、および{P5,P2}が選択される。
そして、それぞれの障害の組み合わせに対するイベントの発生確率がd12(E2)=1、d32(E3)=1、d42(E2)=1、およびd52(E3)=1であることから、イベントE2およびE3が選択され、さらに、判定度J2=6およびJ3=6が最も大きい値であることから、イベントE2およびE3が監視イベントとして採用されている。
そして、すでに監視イベントとして採用されているイベント郡
Figure 2007096796
に対し、フラグFij値を算出する。フラグ値Fijは、計算式
Figure 2007096796
によって算出する。
また、各組合せ{Pi,Pj}の識別度dijから、監視イベントとして採用されたイベントEkの、各組合せ{Pi,Pj}に対する確率の差dij(Ek)を減算し、新たな識別度dijとする。すなわち、dij=dij−dij(Ek)となる。
また、監視イベントとしてまだ採用されていないイベントEkごとに、フラグ値Fijが0≦Fij<1である組み合わせ{Pi,Pj}に対する発生確率の差dij(Ek)を合計し、新たな判定度jkとする。すなわち、
Figure 2007096796
となる。
ここで、フラグ値Fij<1である組合せ{Pi,Pj}が1つ以上あった場合は、全てのフラグ値FijがFij≧1となるまで、監視イベント選択処理を繰り返す。
一方、すべての組合せ{Pi,Pj}に対して、フラグ値Fij≧1となっていた場合は、新たな識別度および新たな判定度の算出を行わず、監視イベント選択処理を終了する。ただし、全てのイベントを採用してもFij≧1を満たすことができない障害の組合せに関しては、フラグ値Fij>0を満たした時点で終了するものとする。このフラグ値Fijの終了値の変更は、後述する重要度設定部106によって、適宜設定することができる。
図5〜7に示す例では、監視イベント選択処理が繰り返され、E2、E3に加え、さらに、E1、E6およびE7が監視イベントとして採用されている。図7に示す例では、最終的にフラグ値F12〜F54の値が全て1以上となったため、監視イベント選択処理が終了したことを示している。
このように、監視イベント選択部105が、因果関係テーブル104から、障害を唯一に特定するために必要最小限のイベントを抽出し、装置設定部101を介して管理対象ネットワーク400に接続された各機器にトラップイベントとして設定し、また、イベント取得部102が各機器に対して定期的に要求する定期ポーリングイベントとして設定することによって、ネットワーク障害診断装置100と、管理対象ネットワーク400に接続された機器との間のトラフィックを削減することができる。
重要度設定部106は、オペレータから入力される障害ごとの重要度に基づき、監視イベント選択部105が行う監視イベント選択処理の終了条件を設定する処理部である。具体的には、この重要度設定部106は、オペレータから入力される障害ごとの重要度に基づき、監視イベント選択部105が行う監視イベント選択処理における各障害の組合せ{Pi,Pj}ごとのフラグ値Fijの終了値を設定する。図8は、重要度の設定によって選択される監視イベントの変化を示す図である。同図に示す例では、障害P1の重要度を2に設定することにより、監視イベントに、イベントE3およびE4が追加されている。
この重要度設定部106が、オペレータから入力される障害ごとの重要度に基づき、監視イベント選択部105が行う監視イベント選択処理の終了条件を設定することにより、監視イベント選択部105は、障害の重要度に応じてイベントを選択することができる。
取得イベント選択部107は、最新の障害候補に基づいて因果関係テーブル104から障害契機ポーリングイベントを選択し、管理対象ネットワーク400に接続されている各機器に対して要求する処理部である。具体的には、この取得イベント選択部107は、後述する障害判定部108によって絞り込まれる障害候補に基づき、因果関係テーブル104から関連するイベントを選択する。ここで選択されたイベントを障害契機ポーリングイベントと呼ぶ。この障害契機ポーリングイベントには、因果関係テーブル104で分類されているトラップイベントおよび定期ポーリングイベントの両方が含まれる。
また、取得イベント選択部107は、選択した各障害契機ポーリングイベントに対して優先度を算出し、障害を特定する上で効率の良いイベントの取得順序を決定する。さらに、ネットワーク400に接続されている機器に対して、イベント取得部102を介し、決定した取得順序の順に、障害契機ポーリングイベントを要求する。
ここで、取得イベント選択部107による、障害契機ポーリングイベントの取得順序の決定手順について説明する。まず、取得イベント選択部107は、後述する障害判定部108によって絞り込まれる障害候補に基づき、関連するイベントを因果関係テーブル104から取得する。そして、取得したイベントEkごとに、優先度
Figure 2007096796
を算出する。ここで、Pik=P(Ek|Pi)とする。
この優先度は、当該イベントによって絞り込むことができる障害数の期待値である。そして、この優先度X(Ek)の値が小さいイベントから順番に、イベント取得部102が、障害契機ポーリングイベントとして管理対象ネットワーク400に対して要求してゆく。
図9は、取得イベントの優先度設定を示す図である。同図に示す例では、図2に示した因果関係テーブル104の一例に記憶されている全てのイベントが障害候補となっていた場合を示している。この例では、因果関係テーブルにあるイベントE1、E2、E3、E4、E5、E6、E7ごとに、それぞれ優先度が、3.8、3.8、3.8、3.92、4.04、3.92、4.16と算出される。したがって、取得順序は、イベントE1、E2、E3、E4、E6、E5、E7の順となる。
このように、取得イベント選択部107が、最新の障害候補に基づいて因果関係テーブル104から障害契機ポーリングイベントを選択し、選択したイベントに対して優先度を設定し、イベント取得部102が、管理対象ネットワーク400に接続された機器に対して、当該優先度の順に障害契機ポーリングイベントを要求することにより、最小限のイベントで障害を特定することができる。
障害判定部108は、イベント受信部103が順次受信するイベント(トラップイベント、定期ポーリングイベントおよび障害契機ポーリングイベント)をもとに因果関係テーブル104から障害を抽出し、障害候補の絞り込みを行う処理部である。具体的には、この障害判定部108は、まず、イベント受信部103が受信したイベントをもとに因果関係テーブル104を参照し、当該イベントに関連する障害を抽出し、障害候補とする。また、障害候補とした障害Piごとに、受信したイベントEkの発生確率P(EK|Pi)を、障害Piごとの確信度Ciとして、確信度テーブル109に格納する。
そして、イベント受信部103が次のイベントを受信した場合は、同様に因果関係テーブル104から関連する障害を抽出し、すでに障害候補として設定されている障害との論理積を取ることにより、障害候補の絞り込みを行う。また、すでに確信度テーブル109に記憶されている障害Piごとの確信度Ci、および新たに受信したイベントEk’の、障害Piごとの発生確率P’=P(Ek’|Pi)からCi+P’を算出し、新たな確信度Ciとして確信度テーブル109に格納する。
一方、受信したイベントに障害の兆候が無かった場合は、論理積による障害候補の絞り込みを行わず、確信度テーブル109に記憶されている障害Piごとの確信度Ci、および新たに受信したイベントEk”の、障害Piごとの発生確率P”=P(Ek”|Pi)から、Ci+(1−P”)を算出し、新たな確信度Ciとして確信度テーブル109に格納する。
そして、障害候補の障害が1つに特定されるまでは、イベント受信部103が順次取得するイベントをもとに、論理積による障害の絞り込みと、確信度テーブル109の確信度の更新を繰り返し行う。そして、障害候補の障害が1つに特定された場合は、オペレータに当該障害を通知する。
図10は、障害判定の手順を示す図である。同図に示す例では、まず、トラップイベントE1を受信したことにより、因果関係テーブル104から障害P1、P2、P3が抽出され、障害候補に設定される。この時、確信度テーブル109には、障害P1、P2、P3に対する確信度として、それぞれ1、1、1が格納される。
その後、障害契機ポーリングイベントE5を受信し、因果関係テーブル104から障害P1、P2、P3が抽出され、すでに障害候補に設定されている障害P1、P2、P3との論理積を取ることにより、新たな障害候補として障害P1、P2が設定される。また、確信度テーブル109の障害P1、P2に対する確信度が、それぞれ1.8、1.8に更新される。
その後、障害契機ポーリングイベントE7を受信するが、イベントE7には障害兆候がなかったため、論理積による障害候補の絞り込みは行われず、確信度テーブル109の確信度のみが2,8、2.1に更新される。
その後、障害契機ポーリングイベントE2を受信し、障害P1、P4が抽出され、すでに障害候補に設定されている障害P1、P2との論理積を取ることにより、障害がP1に特定される。また、確信度テーブル109のP1に対する確信度が3.8に更新される。そして、オペレータに障害P2が通知される。
また、障害判定部108は、受信したイベントをもとに因果関係テーブル104から抽出した障害の集合と、すでに障害候補に設定されていた障害の集合との論理積を取る際に、双方の障害の集合が排他関係となっていた場合は、因果関係テーブル104から抽出した障害の集合をもとに新たに別の障害候補を設定する。
そして、次のイベントを受信した場合は、当該イベントをもとに障害を抽出し、どの障害候補と関係があるかを確認し、唯一の障害候補とのみ関係があった場合は、当該障害候補との論理和をとることにより、障害候補を絞り混んでゆく。一方、複数の障害候補と関係があった場合は、論理積による障害候補の絞り込みは行わず、確信度テーブル109の確信度の更新のみを行う。
図11は、複数の障害が発生した場合の障害判定の手順を示す図である。同図に示す例では、まず、障害候補1にP1、P2、P3、P4が設定されている。そして、トラップイベントE3を受信し、因果関係テーブル104から障害P1、P2が抽出され、すでに障害候補1に設定されている障害P1、P2、P3、P4との論理積を取ることにより、新たな障害候補1として障害P1、P2が設定される。
その後、トラップイベントE2を受信し、障害P3、P4が抽出されるが、すでに障害候補に設定されている障害P1、P2との排他関係となるため、障害P3、P4を新たな障害候補2に設定する。
その後、障害契機ポーリングイベントE6を受信し、障害P2、P3が抽出されるが、障害候補1および障害候補2の双方と関係があるため、障害候補の絞り込みは行わず、確信度テーブル109の確信度の更新のみを行う。
その後、障害契機ポーリングイベントE5を受信し、障害P2が抽出される。障害P2は、障害候補1のみと関係があるので、論理積を取り、障害P2が特定される。そして、オペレータに障害P2が通知される。
その後、障害契機ポーリングイベントE4を受信し、障害P3が抽出される。障害P3は、障害候補2に関係があるので、論理積を取り、障害P3が特定される。そして、オペレータに障害P3が通知される。
このように、障害判定部108が、イベント受信部103により順次受信されるイベントをもとに、因果関係テーブル104から障害の候補を抽出しながら順次絞り込んでゆくことによって、最終的に障害を1つに特定することができる。
また、この障害判定部108が、複数の障害候補を設定し、それぞれの障害候補について並行して障害を絞り込んでゆくことによって、管理対象ネットワーク400に複数の障害が同時に発生していた場合でも、それぞれの障害を特定することができる。
確信度テーブル109は、障害候補に設定されている障害について、障害ごとに確信度を記憶する記憶部である。この確信度は、障害判定部108が、取得したイベントをもとに障害候補を絞り込む過程で随時更新される。
タイマー部110は、取得イベント選択部107によるイベントの優先度計算の開始タイミングを制御する処理部である。図12は、タイマーによる取得イベント優先度計算タイミングの制御を示す図である。同図に示すように、このタイマー部110は、イベント受信部130がイベントを受信してから所定の時間を観測した後に、取得イベント選択部107がイベントの優先度計算を開始するよう制御する。
このタイマー部110が、取得イベント選択部107によるイベントの優先度計算の開始タイミングを制御し、イベントを連続して受信している間は、優先度計算後にイベント取得部102が管理対象ネットワーク400に接続されている機器に対して要求する障害契機ポーリングイベントを抑止することによって、管理対象ネットワーク400との間でやりとりするイベントを削減することができる。
割り込み指示部111は、取得イベント選択部107がイベントの優先度計算を実行している最中に、新たなイベント受信によって障害候補の絞り込みが発生した場合、取得イベント選択部107に対して優先度の再計算を行うように指示する処理部である。図13は、取得イベント優先度計算中の監視イベント割り込みによる優先度の再計算を示す図である。同図に示すように、この割り込み指示部111は、取得イベント選択部107がイベントの優先度を計算している最中に、イベント受信部103が新たなイベントを受信し、障害判定部108による障害候補の絞り込みが発生した場合は、絞り込み後の障害候補を取得イベント選択部107に引き渡し、さらに、実行中の優先度計算を停止し、引き渡した障害に基づいて優先度を計算するように指示する。
この割り込み指示部111が、取得イベント選択部107に対して、優性度計算を実行している最中に新たなイベントを受信した場合は、計算処理を停止するように指示することによって、管理対象ネットワーク400に接続されている機器に対して、不必要な障害契機ポーリングイベントを要求しないように制御することができる。
次に、本実施例1に係るネットワーク障害診断装置100の処理手順について説明する。図14は、本実施例1に係るネットワーク障害診断装置100の処理手順を示すフローチャートである。同図に示すように、このネットワーク障害診断装置100は、まず、監視イベント選択部105が、監視イベント選択処理を行い、因果関係テーブル104から監視イベント(トラップイベントおよび定期ポーリングイベント)を選択する(ステップS101)。
そして、イベント受信部103が監視イベントを受信し(ステップS102)、障害判定部108が因果関係テーブル104から障害候補を抽出する(ステップS103)。
そして、受信した監視タイマー部110が、イベント受信部103が監視イベントを受信してから所定の時間を経過したことを観測した後に、取得イベント選択部107が、障害候補に関連するイベントを因果関係テーブル104から選択し、選択した各イベントに対して優先度を算出する(ステップS104)。ここで、優先度の計算途中にイベント受信部103が新たなイベントを受信した場合は、割り込み指示部111が、取得イベント選択部107に対し、再度計算を行うよう制御する。
そして、イベント取得部102が優先度の算出を行った後、イベント取得部102が、管理対象ネットワーク400に接続された機器に対して、優先度の順に障害契機ポーリングイベントを要求する。そして、イベント受信部103が、管理対象ネットワーク400に接続された機器から障害契機ポーリングイベントを受信し(ステップS105)、当該イベントに障害兆候があった場合は(ステップS106,Yes)、障害判定部108が、因果関係テーブル104から障害候補を抽出し(ステップS108)、当該障害候補と、それまでの障害候補との論理積を取ることにより、障害候補を絞り込む(ステップS109)。
ここで、障害候補が1つの障害に特定された場合は(ステップS110,Yes)、当該障害をオペレータに通知して処理を終了する(ステップS112)。一方、障害候補がまだ複数の障害である場合は(ステップS110,No)、各障害に対する確信度を更新し(ステップS111)、順次イベント受信部103が受信するイベントをもとに、障害候補が1つの障害に特定されるまで、ステップS105以降の処理を繰り返す。
このように、取得イベント選択部107が、最新の障害候補に基づいて因果関係テーブル104からイベントを選択し、選択した各イベントに対して障害を効率よく特定できる順番に取得順序を決定し、イベント取得部102が、管理対象ネットワーク400に接続されている機器に対して、決定された取得順序の順番にイベントを要求し、障害判定部108が、順次受信するイベントをもとに障害の候補を絞り込むことによって、少ないイベント数で効率よく障害を特定することができる。
次に、図14に示した監視イベント選択処理の処理手順について説明する。図15は、図14に示した監視イベント選択処理の処理手順を示すフローチャートである。同図に示すように、この監視イベント選択処理では、まず、因果関係テーブル104をもとに識別テーブルを作成する(ステップ201)。
そして、全ての障害組み合わせについて、フラグ値に0を設定する(ステップS202)。また、全ての障害組み合わせについて、識別度を算出する(ステップS203)。さらに、全てのイベントについて、判定度を算出する(ステップS204)。
そして、0≦フラグ値<1である障害組み合わせから、識別度が最小であるものを抽出し、抽出した障害組み合わせに対する各イベントから、判定度が最大となるイベントを抽出し、監視イベントとして採用する(ステップS205)。
ここで、すでに監視イベントとして採用しているイベントが識別できる全ての障害組み合わせについてフラグ値を算出し(ステップS206)、識別テーブルにある全ての障害組み合わせのフラグ値が1以上となった場合は(ステップS207,Yes)、監視イベント選択処理を終了する。
一方、識別テーブルに、フラグ値<1である障害組み合わせがまだある場合は(ステップS207,No)、識別度および判定度を更新し(ステップS208,ステップS209)、識別テーブルにある全ての障害組み合わせのフラグ値が1以上となるまで、ステップS205以降の処理を繰り返す。
このように、監視イベント選択部105が、因果関係テーブル104から、障害を唯一に特定するために必要最小限のイベントを抽出し、監視イベント(トラップイベントおよび定期ポーリングイベント)として設定することによって、ネットワーク障害診断装置100と管理対象ネットワーク400に接続された機器との間のトラフィックを削減することができる。
上述してきたように、本実施例1では、因果関係テーブル104が障害とイベントの因果関係を記憶し、監視イベント選択部105が、因果関係テーブル104を参照し、障害を特定するために必要最低限のイベントを抽出して監視イベントに設定することとしたので、管理対象ネットワーク400に接続された機器との間でやり取りするイベントを必要最小限に限定し、管理対象ネットワーク400に接続された機器との間に発生するトラフィックを削減することができる。
また、本実施例1では、取得イベント選択部107が、最新の障害候補に基づいて因果関係テーブル104からイベントを選択し、選択した各イベントに対して障害を効率よく特定できる順番に優先度を設定し、イベント取得部102が、設定された優先度の順番にイベントを要求し、要求に対して応答されるイベントをイベント受信部103が受信し、順次受信されるイベントをもとに障害判定部108が障害の候補を絞り込むこととしたので、障害判定部108は、少ないイベント数で効率よく障害を特定することができ、ネットワーク障害診断装置100と、管理対象ネットワーク400に接続された機器との間に発生するトラフィックを削減することができる。
ところで、上記実施例1では、因果関係テーブル104に記憶する、障害に対するイベントの発生確率の値を固定した場合を説明した。しかしながら、管理対象ネットワーク400における機器の稼働状況によっては、障害に対するイベントの発生確率が、動的に変化する場合がある。そこで、本実施例2では、因果関係テーブル104にあらかじめ記憶された発生確率を、管理対象ネットワーク400の状況に応じて動的に更新する例について説明する。
図16は、本実施例2に係るネットワーク障害診断装置200の構成を示す機能ブロック図である。なお、ここでは説明の便宜上、図2に示した各部と同様の役割を果たす機能部については同一符号を付すこととしてその詳細な説明を省略する。同図に示すように、このネットワーク障害診断装置200は、障害を監視する対象となる管理対象ネットワーク400に接続されている。
また、ネットワーク障害診断装置200は、装置設定部101と、イベント取得部102と、イベント受信部103と、因果関係テーブル2041〜204nと、監視イベント選択部105と、重要度設定部106と、取得イベント選択部107と、障害判定部108と、確信度テーブル109と、因果関係テーブル分割部212と、分配テーブル213と、イベント履歴214と、学習部215と、イベント変換部216とを有する。
因果関係テーブル2041〜204nは、イベントと障害の因果関係を記憶する記憶部である。この因果関係テーブル2041〜204nは、障害に対するイベントの発生確率を因果関係に対応付けて記憶する。また、2041〜204nは、各障害とイベントの組み合わせを、相関関係のない集合ごとに分割して記憶する。
因果関係テーブル分割部212は、因果関係テーブル2041〜204nを分割する処理部である。図17は、因果関係テーブル2041〜204nの分割手順を示す図である。同図に示すように、この因果関係テーブル分割部212は、因果関係テーブル2041〜204nに記憶されている障害とイベントの因果関係において、全ての障害とイベントの組み合わせから、相関関係のない集合を作成し、それぞれを別の因果関係テーブル2041〜204nに分割して格納する。また、因果関係テーブル112は、イベントごとに、当該イベントと因果関係テーブル2041〜204n対応付けを示す情報を分配テーブル213に格納する。
この因果関係テーブル分割部212が、障害とイベントの組み合わせを相関関係のない集合に分類し、それぞれを因果関係テーブル2041〜204nに分割して格納することにより、因果関係テーブル2041〜204nが必要とする記憶領域を、全体として削減することができる。
分配テーブル213は、イベントごとに、当該イベントの情報が格納されている因果関係テーブル2041〜204nを示す情報を対応付けて記憶する記憶部である。図18は、分配テーブル213の一例を示す図である。同図に示す例では、因果関係テーブル2041〜204nが2つのテーブル(テーブルAおよびテーブルB)に分割されており、イベントE1〜E5がテーブルAに記憶され、イベントE6〜E8がテーブルBに記憶されていることを示している。
イベント履歴214は、障害判定部108が特定した障害の履歴と、イベント受信部が受信したイベントの履歴とを記憶する記憶部である。具体的には、このイベント履歴214は、障害判定部108が特定した障害の履歴と、当該障害を特定する過程でイベント受信部103が受信したイベントの履歴とを対応付けて記憶する。
学習部215は、イベント履歴214に記憶されている障害とイベントの履歴を参照し、因果関係テーブル2041〜204nを更新する処理部である。具体的には、この学習部215は、所定のタイミングで、イベント履歴214に記憶されている障害とイベントの履歴を参照し、障害Piに対するイベントEkの発生確率を(Ekの発生回数)/(Piの発生回数)により算出し、因果関係テーブル2041〜204nの発生確率を更新する。
この学習部215が、イベント履歴214に記憶されている障害とイベントの履歴に基づいて、障害に対するイベントの発生確率を算出し、因果関係テーブル2041〜204nを動的に更新することにより、因果関係テーブル2041〜204nに記憶された障害に対するイベントの発生確率を、より精緻な値にすることができる。
イベント変換部216は、因果関係テーブル2041〜204nの変化に応じて、トラップイベント、定期ポーリングイベント、および障害契機ポーリングを動的に変更する処理部である。図19は、因果関係テーブル2041〜204nの変更によるイベントの組み合わせの変換を示す図である。同図に示すように、このイベント変換部216は、学習部215によって因果関係テーブル2041〜204nが更新された場合、または、因果関係テーブル2041〜204nが初期設定された場合に、監視イベント選択部105を起動して因果関係テーブル2041〜204nから監視イベント(トラップイベントおよび定期ポーリングイベント)を選択する。さらに、監視イベントに選択されなかったイベントを因果関係テーブル2041〜204nから抽出し、イベント選択部105が優先度を計算する対象のイベント(障害契機ポーリングイベント)として設定する。
このイベント変換部216が、因果関係テーブル2041〜204nに記憶されている発生確率が更新されたタイミングで、トラップイベント、定期ポーリングイベントおよび障害契機ポーリングイベントを動的に設定することにより、障害を特定する上で、より効率の良いイベントの組み合わせを選択することができる。
上述してきたように、本実施例2では、イベント履歴214が障害とイベントの履歴を記憶し、学習部215が、イベント履歴214を参照することによって、因果関係テーブル2041〜204nの発生確率をより精緻な値に更新し、イベント変換部216が、因果関係テーブル2041〜204nの発生確率が更新されたタイミングで、トラップイベント、定期ポーリングイベント、および障害契機ポーリングイベントを動的に設定することとしたので、障害を特定する上で、より効率の良いイベントを選択することができる。
また、本実施例2では、因果関係テーブル分割部212が、イベントと障害の因果関係による組合せを因果関係のない集合に分類し、それぞれを因果関係テーブル2041〜204nに分割して格納することとしたので、全ての因果関係を一つの因果関係テーブルに格納した場合に比べ、必要な記憶容量を少なくすることができる。
なお、本実施例1および2では、ネットワーク障害診断装置について説明したが、ネットワーク障害診断装置が有する構成をソフトウェアによって実現することで、同様の機能を有するネットワーク障害診断プログラムを得ることができる。そこで、このネットワーク障害診断プログラムを実行するコンピュータについて説明する。
図20は、本実施例に係るネットワーク障害診断プログラムを実行するコンピュータの構成を示す機能ブロック図である。同図に示すように、このコンピュータ300は、RAM310と、CPU320と、HDD330と、LANインタフェース340と、入出力インタフェース350と、DVDドライブ360とを有する。
RAM310は、プログラムやプログラムの実行途中結果などを記憶するメモリであり、CPU320は、RAM310からプログラムを読み出して実行する中央処理装置である。
HDD330は、プログラムやデータを格納するディスク装置であり、LANインタフェース340は、コンピュータ300をLAN経由で他のコンピュータに接続するためのインタフェースである。
入出力インタフェース350は、マウスやキーボードなどの入力装置および表示装置を接続するためのインタフェースであり、DVDドライブ360は、DVDの読み書きを行う装置である。
そして、このコンピュータ300において実行されるネットワーク障害診断プログラム311は、DVDに記憶され、DVDドライブ360によってDVDから読み出されてコンピュータ300にインストールされる。
あるいは、このネットワーク障害診断プログラム311は、LANインタフェース340を介して接続された他のコンピュータシステムのデータベースなどに記憶され、これらのデータベースから読み出されてコンピュータ300にインストールされる。
そして、インストールされたネットワーク障害診断プログラム311は、HDD330に記憶され、RAM310に読み出されてCPU320によってネットワーク障害診断プロセス321として実行される。
(付記1)ネットワークに発生する障害と障害の兆候を示すイベントとの因果関係に基づいて障害を特定するネットワーク障害診断装置であって、
ネットワークに発生する障害に対するイベントの発生確率を、障害とイベントとの因果関係に対応付けて記憶する因果関係記憶手段と、
前記因果関係記憶手段により発生確率が記憶されたイベントから、前記ネットワークに発生する障害を特定する上で必要最小限のイベントを選択し、前記ネットワークに接続された機器から該イベントを取得するイベント取得手段と、
前記イベント取得手段により取得されたイベントに対応する障害候補の集合を前記因果関係記憶手段により記憶された障害から抽出し、次に前記イベント取得手段により取得されるイベントに対応する障害候補との共通集合を求めることによって障害を特定する障害判定手段と、
を備えたことを特徴とするネットワーク障害診断装置。
(付記2)前記イベント取得手段は、前記因果関係記憶手段により記憶された発生確率に基づいて、前記ネットワークに発生する障害を特定する上で必要最小限のイベントを選択し、前記ネットワークに接続された機器から自動的に取得するように設定することを特徴とする付記1に記載のネットワーク障害診断装置。
(付記3)前記イベント取得手段は、前記因果関係記憶手段により記憶された発生確率に基づいてイベントごとに優先度を計算し、障害を効率よく特定できるイベントの取得順序を決定し、前記ネットワークに接続された機器に対して取得順序の順にイベントを要求することを特徴とする付記1または2に記載のネットワーク障害診断装置。
(付記4)前記イベント選択手段は、1つのイベントを取得してから所定の時間を経過しても次のイベントを取得できなかった場合に前記優先度の計算を開始することを特徴とする付記3に記載のネットワーク障害診断装置。
(付記5)前記イベント選択手段は、前記優先度の計算中にイベントを取得した場合は、計算を中止し、優先度を再計算することを特徴とする付記3または付記4に記載のネットワーク障害診断装置。
(付記6)前記障害判定手段は、特定した障害と該障害を特定する上で取得したイベントとを履歴情報として記憶し、
前記因果関係記憶手段は、前記障害判定手段により記憶された履歴情報に基づいて前記イベントごとの発生確率を動的に更新することを特徴とする付記1〜5のいずれか一つに記載のネットワーク障害診断装置。
(付記7)前記イベント選択手段は、操作者の指示に基づいて障害に重要度を設定し、該重要度に応じてイベントを選択することを特徴とする付記1〜6のいずれか一つに記載のネットワーク障害診断装置。
(付記8)前記障害判定手段は、確信度を記憶し、前記因果関係記憶手段により記憶されたイベントの発生確率の変化に応じてイベントを動的に選択することを特徴とする付記6に記載のネットワーク障害診断装置。
(付記9)ネットワークに発生する障害と障害の兆候を示すイベントとの因果関係に基づいて障害を特定するネットワーク障害診断方法であって、
ネットワークに発生する障害に対するイベントの発生確率を、障害とイベントとの因果関係に対応付けて記憶する因果関係記憶工程と、
前記因果関係記憶工程により発生確率が記憶されたイベントから、前記ネットワークに発生する障害を特定する上で必要最小限のイベントを選択し、前記ネットワークに接続された機器から該イベントを取得するイベント取得工程と、
前記イベント取得工程により取得されたイベントに対応する障害候補の集合を前記因果関係記憶工程により記憶された障害から抽出し、次に前記イベント取得工程により取得されるイベントに対応する障害候補との共通集合を求めることによって障害を特定する障害判定工程と、
を含んだことを特徴とするネットワーク障害診断方法。
(付記10)ネットワークに発生する障害と障害の兆候を示すイベントとの因果関係に基づいて障害を特定するネットワーク障害診断プログラムであって、
ネットワークに発生する障害に対するイベントの発生確率を、障害とイベントとの因果関係に対応付けて記憶する因果関係記憶手順と、
前記因果関係記憶手順により発生確率が記憶されたイベントから、前記ネットワークに発生する障害を特定する上で必要最小限のイベントを選択し、前記ネットワークに接続された機器から該イベントを取得するイベント取得手順と、
前記イベント取得手順により取得されたイベントに対応する障害候補の集合を前記因果関係記憶手順により記憶された障害から抽出し、次に前記イベント取得手順により取得されるイベントに対応する障害候補との共通集合を求めることによって障害を特定する障害判定手順と、
をコンピュータに実行させることを特徴とするネットワーク障害診断プログラム。
(付記11)ネットワークに発生する障害と障害の兆候を示すイベントとの因果関係に基づいて、ネットワーク装置から取得するイベントを選択するイベント選択装置であって、
ネットワークに発生する障害に対するイベントの発生確率を、障害とイベントとの因果関係に対応付けて記憶する因果関係記憶手段と、
前記因果関係記憶手段により発生確率が記憶されたイベントから、前記ネットワークに発生する障害を特定する上で必要最小限のイベントを選択し、前記ネットワークに接続された機器から取得するイベントとして設定するイベント選択手段と、
を備えたことを特徴とするイベント選択装置。
以上のように、本発明に係るネットワーク障害診断装置、ネットワーク障害診断方法およびネットワーク障害診断プログラムは、障害と障害の兆候を示すイベントとの因果関係がパターン化できるネットワークの監視に有用であり、特に、トラフィックが多く発生するネットワークの監視に適している。
本実施例1に係るネットワーク障害診断装置の構成を示す機能ブロック図である。 因果関係テーブルの一例を示す図である。 監視イベントの選択によるトラフィックの変化を示す図である。 監視イベントの選択手順を示す図(1)である。 監視イベントの選択手順を示す図(2)である。 監視イベントの選択手順を示す図(3)である。 監視イベントの選択手順を示す図(4)である。 重要度の設定によって選択される監視イベントの変化を示す図である。 取得イベントの優先度設定を示す図である。 障害判定の手順を示す図である。 複数の障害が発生した場合の障害判定の手順を示す図である。 タイマーによる取得イベント優先度計算タイミングの制御を示す図である。 取得イベント優先度計算中の監視イベント割り込みによる優先度の再計算を示す図である。 本実施例1に係るネットワーク障害診断装置の処理手順を示すフローチャートである。 図14に示した監視イベント選択処理の処理手順を示すフローチャートである。 本実施例2に係るネットワーク障害診断装置の構成を示す機能ブロック図である。 因果関係テーブルの分割手順を示す図である。 分配テーブルの一例を示す図である。 因果関係テーブルの変更によるイベントの組み合わせの変換を示す図である。 本実施例に係るネットワーク障害診断プログラムを実行するコンピュータの構成を示す機能ブロック図である。
符号の説明
100,200 ネットワーク障害診断装置
101 装置設定部
102 イベント取得部
103 イベント受信部
104,2041〜204n 因果関係テーブル
105 監視イベント選択部
106 重要度設定部
107 取得イベント選択部
108 障害判定部
109 確信度テーブル
110 タイマー部
111 割り込み指示部
212 因果関係テーブル分割部
213 分配テーブル
214 イベント履歴
215 学習部
216 イベント変換部
300 コンピュータ
310 RAM
311 ネットワーク障害診断プログラム
320 CPU
321 ネットワーク障害診断プロセス
330 HDD
340 LANインタフェース
350 入出力インタフェース
360 DVDドライブ
400 管理対象ネットワーク

Claims (5)

  1. ネットワークに発生する障害と障害の兆候を示すイベントとの因果関係に基づいて障害を特定するネットワーク障害診断装置であって、
    ネットワークに発生する障害に対するイベントの発生確率を、障害とイベントとの因果関係に対応付けて記憶する因果関係記憶手段と、
    前記因果関係記憶手段により発生確率が記憶されたイベントから、前記ネットワークに発生する障害を特定する上で必要最小限のイベントを選択し、前記ネットワークに接続された機器から該イベントを取得するイベント取得手段と、
    前記イベント取得手段により取得されたイベントに対応する障害候補の集合を前記因果関係記憶手段により記憶された障害から抽出し、次に前記イベント取得手段により取得されるイベントに対応する障害候補との共通集合を求めることによって障害を特定する障害判定手段と、
    を備えたことを特徴とするネットワーク障害診断装置。
  2. 前記イベント取得手段は、前記因果関係記憶手段により記憶された発生確率に基づいて、前記ネットワークに発生する障害を特定する上で必要最小限のイベントを選択し、前記ネットワークに接続された機器から自動的に取得するように設定することを特徴とする請求項1に記載のネットワーク障害診断装置。
  3. 前記イベント取得手段は、前記因果関係記憶手段により記憶された発生確率に基づいてイベントごとに優先度を計算し、障害を効率よく特定できるイベントの取得順序を決定し、前記ネットワークに接続された機器に対して取得順序の順にイベントを要求することを特徴とする請求項1または2に記載のネットワーク障害診断装置。
  4. ネットワークに発生する障害と障害の兆候を示すイベントとの因果関係に基づいて障害を特定するネットワーク障害診断方法であって、
    ネットワークに発生する障害に対するイベントの発生確率を、障害とイベントとの因果関係に対応付けて記憶する因果関係記憶工程と、
    前記因果関係記憶工程により発生確率が記憶されたイベントから、前記ネットワークに発生する障害を特定する上で必要最小限のイベントを選択し、前記ネットワークに接続された機器から該イベントを取得するイベント取得工程と、
    前記イベント取得工程により取得されたイベントに対応する障害候補の集合を前記因果関係記憶工程により記憶された障害から抽出し、次に前記イベント取得工程により取得されるイベントに対応する障害候補との共通集合を求めることによって障害を特定する障害判定工程と、
    を含んだことを特徴とするネットワーク障害診断方法。
  5. ネットワークに発生する障害と障害の兆候を示すイベントとの因果関係に基づいて障害を特定するネットワーク障害診断プログラムであって、
    ネットワークに発生する障害に対するイベントの発生確率を、障害とイベントとの因果関係に対応付けて記憶する因果関係記憶手順と、
    前記因果関係記憶手順により発生確率が記憶されたイベントから、前記ネットワークに発生する障害を特定する上で必要最小限のイベントを選択し、前記ネットワークに接続された機器から該イベントを取得するイベント取得手順と、
    前記イベント取得手順により取得されたイベントに対応する障害候補の集合を前記因果関係記憶手順により記憶された障害から抽出し、次に前記イベント取得手順により取得されるイベントに対応する障害候補との共通集合を求めることによって障害を特定する障害判定手順と、
    をコンピュータに実行させることを特徴とするネットワーク障害診断プログラム。
JP2005283976A 2005-09-29 2005-09-29 ネットワーク障害診断装置、ネットワーク障害診断方法およびネットワーク障害診断プログラム Expired - Fee Related JP4527642B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2005283976A JP4527642B2 (ja) 2005-09-29 2005-09-29 ネットワーク障害診断装置、ネットワーク障害診断方法およびネットワーク障害診断プログラム
US11/360,945 US7587634B2 (en) 2005-09-29 2006-02-23 Network fault diagnostic device, network fault diagnostic method, and computer product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005283976A JP4527642B2 (ja) 2005-09-29 2005-09-29 ネットワーク障害診断装置、ネットワーク障害診断方法およびネットワーク障害診断プログラム

Publications (2)

Publication Number Publication Date
JP2007096796A true JP2007096796A (ja) 2007-04-12
JP4527642B2 JP4527642B2 (ja) 2010-08-18

Family

ID=37895620

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005283976A Expired - Fee Related JP4527642B2 (ja) 2005-09-29 2005-09-29 ネットワーク障害診断装置、ネットワーク障害診断方法およびネットワーク障害診断プログラム

Country Status (2)

Country Link
US (1) US7587634B2 (ja)
JP (1) JP4527642B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009004701A1 (ja) * 2007-06-29 2009-01-08 Fujitsu Limited ネットワーク障害検知システム、計測エージェント、監視サーバ、ネットワーク障害検知方法およびネットワーク障害検知プログラム
KR100938676B1 (ko) 2008-07-28 2010-01-25 임태환 운영시스템의 장애 등급 판단방법
JP2014225124A (ja) * 2013-05-16 2014-12-04 ソフトバンクモバイル株式会社 障害監視システム、障害監視方法、及び障害監視プログラム

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4626852B2 (ja) * 2005-07-11 2011-02-09 日本電気株式会社 通信網の障害検出システム、通信網の障害検出方法及び障害検出プログラム
US7613949B1 (en) * 2006-06-30 2009-11-03 Boone Lewis A Fault isolation system and method
US8386609B2 (en) * 2007-11-09 2013-02-26 International Business Machines Corporation Reconnection to and migration of electronic collaboration sessions
US7895146B2 (en) * 2007-12-03 2011-02-22 Microsoft Corporation Time modulated generative probabilistic models for automated causal discovery that monitors times of packets
US8949671B2 (en) * 2008-01-30 2015-02-03 International Business Machines Corporation Fault detection, diagnosis, and prevention for complex computing systems
US8086905B2 (en) 2008-05-27 2011-12-27 Hitachi, Ltd. Method of collecting information in system network
JP5542398B2 (ja) * 2009-09-30 2014-07-09 株式会社日立製作所 障害の根本原因解析結果表示方法、装置、及びシステム
US8230261B2 (en) * 2009-12-17 2012-07-24 Hewlett-Packard Development Company, L.P. Field replaceable unit acquittal policy
US8464279B2 (en) * 2009-12-18 2013-06-11 Hewlett-Packard Development Company, L.P. Domain event correlation
US8312324B2 (en) * 2010-01-28 2012-11-13 Xerox Corporation Remote diagnostic system and method based on device data classification
US20130218826A1 (en) * 2010-02-21 2013-08-22 New York University Methods, computer-accesible medium and systems for facilitating data analysis and reasoning about token/singular causality
US9043645B2 (en) * 2010-05-06 2015-05-26 Nec Corporation Malfunction analysis apparatus, malfunction analysis method, and recording medium
US9535978B2 (en) * 2012-03-29 2017-01-03 International Business Machines Corporation Semantic mapping of topic map meta-models identifying assets and events to include weights
US9123004B2 (en) * 2012-03-29 2015-09-01 International Business Machines Corporation Predicting an effect of events on assets
US9363367B2 (en) 2012-12-05 2016-06-07 Future Dial, Inc. Using automatically collected device problem information to route and guide users' requests
US10346745B2 (en) 2013-09-05 2019-07-09 International Business Machines Corporation Method of using graphical index maps to provide automated relationship discovery and impact analyses
US20150081893A1 (en) 2013-09-17 2015-03-19 Netapp. Inc. Fabric attached storage
US9354965B2 (en) * 2013-10-18 2016-05-31 GM Global Technology Operations LLC Method and apparatus for isolating a fault in a controller area network
US10333816B2 (en) * 2015-09-22 2019-06-25 Ca, Inc. Key network entity detection
US10042915B2 (en) 2015-09-28 2018-08-07 International Business Machines Corporation Semantic mapping of topic map meta-models identifying assets and events to include directionality
US10387476B2 (en) 2015-11-24 2019-08-20 International Business Machines Corporation Semantic mapping of topic map meta-models identifying assets and events to include modeled reactive actions
US11132732B2 (en) 2016-10-26 2021-09-28 Future Dial, Inc. System and method for upselling customers on mobile device services and hardware
US11150973B2 (en) * 2017-06-16 2021-10-19 Cisco Technology, Inc. Self diagnosing distributed appliance
US10572332B1 (en) 2017-10-30 2020-02-25 Wells Fargo Bank, N.A. Failure prediction system
WO2019229734A1 (en) * 2018-05-27 2019-12-05 Sedonasys Systems Ltd Method and system for assessing network resource failures using passive shared risk resource groups
AU2019275633B2 (en) * 2018-12-06 2022-08-04 Infosys Limited System and method of automated fault correction in a network environment
CN116028509B (zh) * 2023-03-27 2023-06-06 合肥工业大学 一种基于因果机制的最优工况索引生成方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05114899A (ja) * 1991-10-22 1993-05-07 Hitachi Ltd ネツトワーク障害診断方式
JPH05276164A (ja) * 1992-01-03 1993-10-22 Internatl Business Mach Corp <Ibm> 通信ネットワークの故障を識別する方法およびシステム
US5528516A (en) * 1994-05-25 1996-06-18 System Management Arts, Inc. Apparatus and method for event correlation and problem reporting
JPH08506946A (ja) * 1993-02-23 1996-07-23 ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 通信ネットワークにおける事象相関
JPH11308222A (ja) * 1998-04-22 1999-11-05 Sumitomo Electric Ind Ltd ネットワーク管理システム
JP2001236115A (ja) * 2000-02-24 2001-08-31 Fanuc Ltd リモート診断システム及び方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4633467A (en) * 1984-07-26 1986-12-30 At&T Bell Laboratories Computer system fault recovery based on historical analysis
JP2823698B2 (ja) * 1993-02-23 1998-11-11 ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 事象相関
US6006016A (en) * 1994-11-10 1999-12-21 Bay Networks, Inc. Network fault correlation
US5768501A (en) * 1996-05-28 1998-06-16 Cabletron Systems Method and apparatus for inter-domain alarm correlation
US6807583B2 (en) * 1997-09-24 2004-10-19 Carleton University Method of determining causal connections between events recorded during process execution
DE19742446B4 (de) * 1997-09-26 2006-05-24 Daimlerchrysler Ag Fehlerdiagnoseverfahren
US6604208B1 (en) * 2000-04-07 2003-08-05 Telefonaktiebolaget Lm Ericsson (Publ) Incremental alarm correlation method and apparatus
US7412369B1 (en) * 2000-06-09 2008-08-12 Stmicroelectronics, Inc. System and method for designing and optimizing the memory of an embedded processing system
US7043661B2 (en) * 2000-10-19 2006-05-09 Tti-Team Telecom International Ltd. Topology-based reasoning apparatus for root-cause analysis of network faults
US6871299B2 (en) * 2001-02-05 2005-03-22 Fisher-Rosemount Systems, Inc. Hierarchical failure management for process control systems
US6966015B2 (en) * 2001-03-22 2005-11-15 Micromuse, Ltd. Method and system for reducing false alarms in network fault management systems
US6820044B2 (en) * 2001-10-09 2004-11-16 University Of Maryland Method and apparatus for a common-cause failure module for probabilistic risk assessment tools
FR2841340B1 (fr) * 2002-06-19 2005-05-20 Eurocopter France Dispositif d'aide a la localisation de defaillance d'un systeme complexe
US7016806B2 (en) * 2003-03-31 2006-03-21 Lucent Technologies Inc. Method and apparatus for event monitoring in an information processing system

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05114899A (ja) * 1991-10-22 1993-05-07 Hitachi Ltd ネツトワーク障害診断方式
JPH05276164A (ja) * 1992-01-03 1993-10-22 Internatl Business Mach Corp <Ibm> 通信ネットワークの故障を識別する方法およびシステム
JPH08506946A (ja) * 1993-02-23 1996-07-23 ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 通信ネットワークにおける事象相関
US5528516A (en) * 1994-05-25 1996-06-18 System Management Arts, Inc. Apparatus and method for event correlation and problem reporting
JPH11308222A (ja) * 1998-04-22 1999-11-05 Sumitomo Electric Ind Ltd ネットワーク管理システム
JP2001236115A (ja) * 2000-02-24 2001-08-31 Fanuc Ltd リモート診断システム及び方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009004701A1 (ja) * 2007-06-29 2009-01-08 Fujitsu Limited ネットワーク障害検知システム、計測エージェント、監視サーバ、ネットワーク障害検知方法およびネットワーク障害検知プログラム
US8615682B2 (en) 2007-06-29 2013-12-24 Fujitsu Limited Network failure detecting system, measurement agent, surveillance server, and network failure detecting method
KR100938676B1 (ko) 2008-07-28 2010-01-25 임태환 운영시스템의 장애 등급 판단방법
JP2014225124A (ja) * 2013-05-16 2014-12-04 ソフトバンクモバイル株式会社 障害監視システム、障害監視方法、及び障害監視プログラム

Also Published As

Publication number Publication date
US7587634B2 (en) 2009-09-08
JP4527642B2 (ja) 2010-08-18
US20070074076A1 (en) 2007-03-29

Similar Documents

Publication Publication Date Title
JP4527642B2 (ja) ネットワーク障害診断装置、ネットワーク障害診断方法およびネットワーク障害診断プログラム
US20160378583A1 (en) Management computer and method for evaluating performance threshold value
US10198339B2 (en) Correlation-based analytic for time-series data
US10423647B2 (en) Descriptive datacenter state comparison
JP6208770B2 (ja) イベントの根本原因の解析を支援する管理システム及び方法
US7730364B2 (en) Systems and methods for predictive failure management
CN103354924B (zh) 用于监视性能指标的方法和系统
JP6327234B2 (ja) イベント解析装置、イベント解析システム、イベント解析方法、およびイベント解析プログラム
US20160055044A1 (en) Fault analysis method, fault analysis system, and storage medium
US11138058B2 (en) Hierarchical fault determination in an application performance management system
US20160283304A1 (en) Performance prediction method, performance prediction system and program
US20100333071A1 (en) Time Based Context Sampling of Trace Data with Support for Multiple Virtual Machines
JPWO2009144969A1 (ja) 計算機システムにおける情報収集方法、その方法を用いる管理計算機、及び計算機システム
JP2005157933A (ja) ストレージネットワークの性能情報を収集する方法およびプログラム
JPWO2013042789A1 (ja) 運用管理装置、運用管理方法、及びプログラム
US11651271B1 (en) Artificial intelligence system incorporating automatic model updates based on change point detection using likelihood ratios
JP2008276279A (ja) 装置性能管理方法、装置性能管理システム、および管理プログラム
JP2009238010A (ja) Itシステムのトラブル対処装置、トラブル対処方法およびそのためのプログラム
JP2018165857A (ja) 分析装置、分析システム、分析方法および分析プログラム
WO2022142013A1 (zh) 基于人工智能的ab测试方法、装置、计算机设备及介质
CN116089482A (zh) 分析大规模数据处理作业
US20150326446A1 (en) Automatic alert generation
US11636377B1 (en) Artificial intelligence system incorporating automatic model updates based on change point detection using time series decomposing and clustering
JP5831849B2 (ja) 違反予兆条件設定支援システム、違反予兆条件設定支援方法および違反予兆条件設定支援プログラム
CN115964211A (zh) 一种根因定位方法、装置、设备和可读介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080324

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100309

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100507

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100601

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100603

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130611

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130611

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees