JP2007096796A

JP2007096796A - ネットワーク障害診断装置、ネットワーク障害診断方法およびネットワーク障害診断プログラム

Info

Publication number: JP2007096796A
Application number: JP2005283976A
Authority: JP
Inventors: Satoshi Imai; 悟史今井; Akira Nakaato; 明中後; Hitoshi Ueno; 仁上野; Akiko Yamada; 亜紀子山田; Hitoshi Yamada; 仁山田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2005-09-29
Filing date: 2005-09-29
Publication date: 2007-04-12
Anticipated expiration: 2025-09-29
Also published as: US20070074076A1; JP4527642B2; US7587634B2

Abstract

【課題】ネットワークに発生する障害と障害の兆候を示すイベントとの因果関係に基づいて障害を特定するネットワーク障害診断装置において、管理対象ネットワークとの間のトラフィックを削減すること。
【解決手段】因果関係テーブル１０４が障害とイベントの因果関係を記憶し、監視イベント選択部１０５が、因果関係テーブル１０４を参照し、障害を特定するために必要最低限のイベントを抽出して監視イベントに設定し、取得イベント選択部１０７が、最新の障害候補に基づいて因果関係テーブル１０４からイベントを選択し、選択した各イベントに対して障害を効率よく特定できる順番に優先度を設定し、イベント取得部１０２が、設定された優先度の順番にイベントを要求し、要求に対して応答されるイベントをイベント受信部１０３が受信し、順次受信されるイベントをもとに障害判定部１０８が障害の候補を絞り込むよう構成する。
【選択図】図１

Description

この発明は、ネットワークに発生する障害と障害の兆候を示すイベントとの因果関係に基づいて障害を特定するネットワーク障害診断装置、ネットワーク障害診断方法およびネットワーク障害診断プログラムに関し、特に、障害発生時に取得するイベントの数を最小限に抑えることによって、管理対象ネットワークとの間のトラフィックを削減することができるネットワーク障害診断装置、ネットワーク障害診断方法およびネットワーク障害診断プログラムに関するものである。

近年、様々な分野でネットワークが普及し、情報交換や情報共有のために利用されており、その重要性はますます高まってきている。そのため、ネットワークを常時監視することによって障害を早期に発見し、障害が致命的な状態に発展するのを未然に防ぐことは極めて重要である。

通常、ネットワーク監視には、自動監視ツールが利用されている。自動監視ツールは、障害発生時にネットワーク装置が通知するイベントを収集、分析して障害を特定し、障害が発生したことをネットワーク管理者に通知する。

このような自動監視ツールの一例として、ネットワークに発生する障害と、障害に対して生ずるイベントとの因果関係をあらかじめパターン化しておき、そのパターンと、障害発生時に取得したイベントのパターンとを比較することにより、効率よく根本原因の障害を特定する技術が考案されている。（例えば、特許文献１参照。）。

米国特許第５５２８５１６号明細書

しかしながら、障害発生時にネットワーク装置から通知されるイベントは膨大な数であり、トラフィックが増加することにより、ネットワークの負荷が増大してしまうという問題がある。

この発明は、上述した従来技術による問題点を解消するためになされたものであり、障害発生時に取得するイベントの数を最小限に抑えることによって、管理対象ネットワークとの間のトラフィックを削減することができるネットワーク障害診断装置、ネットワーク障害診断方法およびネットワーク障害診断プログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するため、請求項１の発明に係るネットワーク障害診断装置は、ネットワークに発生する障害と障害の兆候を示すイベントとの因果関係に基づいて障害を特定するネットワーク障害診断装置であって、ネットワークに発生する障害に対するイベントの発生確率を、障害とイベントとの因果関係に対応付けて記憶する因果関係記憶手段と、前記因果関係記憶手段により発生確率が記憶されたイベントから、前記ネットワークに発生する障害を特定する上で必要最小限のイベントを選択し、前記ネットワークに接続された機器から該イベントを取得するイベント取得手段と、前記イベント取得手段により取得されたイベントに対応する障害候補の集合を前記因果関係記憶手段により記憶された障害から抽出し、次に前記イベント取得手段により取得されるイベントに対応する障害候補との共通集合を求めることによって障害を特定する障害判定手段と、を備えたことを特徴とする。

請求項１の発明によれば、ネットワークに発生する障害に対するイベントの発生確率を障害とイベントとの因果関係に対応付けて記憶し、発生確率を記憶しているイベントからネットワークに発生する障害を特定する上で必要最小限のイベントを選択し、選択したイベントをネットワークに接続された機器から取得し、取得したイベントに対応する障害候補の集合を、記憶している障害から抽出し、次に取得するイベントに対応する障害候補との共通集合を求めることによって障害を特定するよう構成したので、必要最小限のイベントによって効率よく障害を特定することができる。

また、請求項２の発明に係るネットワーク障害診断装置は、請求項１の発明において、前記イベント取得手段は、前記因果関係記憶手段により記憶された発生確率に基づいて、前記ネットワークに発生する障害を特定する上で必要最小限のイベントを選択し、前記ネットワークに接続された機器から自動的に取得するように設定することを特徴とする。

また、請求項２の発明によれば、発生確率を記憶しているイベントから、それぞれの発生確率に基づいて、ネットワークに発生する障害を特定する上で必要最小限のイベントを選択し、ネットワークに接続された機器から自動的に取得するように設定するよう構成したので、ネットワークに接続された機器が障害発生時に送信するイベントを最小限にする制限することができる。

また、請求項３の発明に係るネットワーク障害診断装置は、請求項１または２の発明において、前記イベント取得手段は、前記因果関係記憶手段により記憶された発生確率に基づいてイベントごとに優先度を計算し、障害を効率よく特定できるイベントの取得順序を決定し、前記ネットワークに接続された機器に対して取得順序の順にイベントを要求することを特徴とする。

また、請求項３の発明によれば、発生確率を記憶しているイベントから、それぞれの発生確率に基づいてイベントごとに優先度を計算し、障害を効率よく特定できるイベントの取得順序を決定し、ネットワークに接続された機器に対して取得順序の順にイベントを要求するよう構成したので、少ないイベント数で効率よく障害を特定することができる。

また、請求項４の発明に係るネットワーク障害診断方法は、ネットワークに発生する障害と障害の兆候を示すイベントとの因果関係に基づいて障害を特定するネットワーク障害診断方法であって、ネットワークに発生する障害に対するイベントの発生確率を、障害とイベントとの因果関係に対応付けて記憶する因果関係記憶工程と、前記因果関係記憶工程により発生確率が記憶されたイベントから、前記ネットワークに発生する障害を特定する上で必要最小限のイベントを選択し、前記ネットワークに接続された機器から該イベントを取得するイベント取得工程と、前記イベント取得工程により取得されたイベントに対応する障害候補の集合を前記因果関係記憶工程により記憶された障害から抽出し、次に前記イベント取得工程により取得されるイベントに対応する障害候補との共通集合を求めることによって障害を特定する障害判定工程と、を含んだことを特徴とする。

請求項４の発明によれば、ネットワークに発生する障害に対するイベントの発生確率を障害とイベントとの因果関係に対応付けて記憶し、発生確率を記憶しているイベントからネットワークに発生する障害を特定する上で必要最小限のイベントを選択し、選択したイベントをネットワークに接続された機器から取得し、取得したイベントに対応する障害候補の集合を、記憶している障害から抽出し、次に取得するイベントに対応する障害候補との共通集合を求めることによって障害を特定するよう構成したので、必要最小限のイベントによって効率よく障害を特定することができる。

また、請求項５の発明に係るネットワーク障害診断プログラムは、ネットワークに発生する障害と障害の兆候を示すイベントとの因果関係に基づいて障害を特定するネットワーク障害診断プログラムであって、ネットワークに発生する障害に対するイベントの発生確率を、障害とイベントとの因果関係に対応付けて記憶する因果関係記憶手順と、前記因果関係記憶手順により発生確率が記憶されたイベントから、前記ネットワークに発生する障害を特定する上で必要最小限のイベントを選択し、前記ネットワークに接続された機器から該イベントを取得するイベント取得手順と、前記イベント取得手順により取得されたイベントに対応する障害候補の集合を前記因果関係記憶手順により記憶された障害から抽出し、次に前記イベント取得手順により取得されるイベントに対応する障害候補との共通集合を求めることによって障害を特定する障害判定手順と、をコンピュータに実行させることを特徴とする。

請求項５の発明によれば、ネットワークに発生する障害に対するイベントの発生確率を障害とイベントとの因果関係に対応付けて記憶し、発生確率を記憶しているイベントからネットワークに発生する障害を特定する上で必要最小限のイベントを選択し、選択したイベントをネットワークに接続された機器から取得し、取得したイベントに対応する障害候補の集合を、記憶している障害から抽出し、次に取得するイベントに対応する障害候補との共通集合を求めることによって障害を特定するよう構成したので、必要最小限のイベントによって効率よく障害を特定することができる。

請求項１、４および５の発明によれば、必要最小限のイベントによって効率よく障害を特定することができるので、障害を特定する上でネットワーク上に発生するトラフィックを削減することができるという効果を奏する。

また、請求項２の発明によれば、ネットワークに接続された機器が障害発生時に送信するイベントを最小限にする制限することができるので、障害発生時にネットワーク上に発生するトラフィックを削減することができるという効果を奏する。

また、請求項３の発明によれば、少ないイベント数で効率よく障害を特定することができるので、障害を特定する上でネットワーク上に発生するトラフィックを削減することができるという効果を奏する。

以下に添付図面を参照して、この発明に係るネットワーク障害診断装置、ネットワーク障害診断方法およびネットワーク障害診断プログラムの好適な実施例を詳細に説明する。

まず、本実施例１に係るネットワーク障害診断装置の構成について説明する。図１は、本実施例１に係るネットワーク障害診断装置の構成を示す機能ブロック図である。同図に示すように、このネットワーク障害診断装置１００は、障害を監視する対象となる管理対象ネットワーク４００に接続されている。

また、ネットワーク障害診断装置１００は、装置設定部１０１と、イベント取得部１０２と、イベント受信部１０３と、因果関係テーブル１０４と、監視イベント選択部１０５と、重要度設定部１０６と、取得イベント選択部１０７と、障害判定部１０８と、確信度テーブル１０９と、タイマー部１１０と、割り込み指示部１１１とを有する。

装置設定部１０１は、後述する監視イベント選択部１０５によって選択されるトラップイベントを、管理対象ネットワーク４００に接続されている各機器に対して設定する処理部である。障害が発生時には、管理対象ネットワーク４００に接続されている各機器は、各自に設定されたトラップイベントを検出した場合、自発的に、当該トラップイベントをネットワーク障害診断装置１００に対して送信する。

イベント取得部１０２は、管理対象ネットワーク４００に接続された機器に対し、サンプリング監視および障害契機イベント取得を行う処理部である。具体的には、このイベント取得部１０２は、後述する監視イベント選択部１０５により選択される定期ポーリングイベントを、管理対象ネットワーク４００に接続された各機器に対して定期的に要求する（サンプリング監視）。また、イベント取得部１０２は、後述する取得イベント選択部１０７により選択される障害契機ポーリングイベントを、管理対象ネットワーク４００に接続された各機器に対して、同じく取得イベント選択部１０７により決定される取得順序に従って要求する（障害契機イベント取得）。

イベント受信部１０３は、管理対象ネットワーク４００に接続されている各機器から送信されるイベントを受信する処理部である。具体的には、このイベント受信部１０３は、各機器が自発的に送信するトラップイベントと、各機器がイベント取得部１０２からの要求に応じて送信する定期ポーリングイベントおよび障害契機ポーリングイベントを受信する。

因果関係テーブル１０４は、イベントと障害の因果関係を記憶する記憶部である。図２は、因果関係テーブルの一例を示す図である。同図に示すように、この因果関係テーブル１０４は、障害に対するイベントの発生確率を因果関係に対応付けて記憶している。また、各イベントは、それぞれ、トラップイベントまたは定期ポーリングイベントに分類されている。同図の例においては、障害Ｐ１〜Ｐ５に対するイベントＥ₁〜Ｅ₇の発生確率が記憶されている。また、イベントＥ₁〜Ｅ₄がトラップイベントに分類され、イベントＥ₅〜Ｅ₇が定期ポーリングイベントに分類されている。

監視イベント選択部１０５は、因果関係テーブル１０４から、管理対象ネットワーク４００に発生する障害を特定する上で必要最小限のイベントを選択し、監視イベントとして設定する処理部である。ここでいう監視イベントとは、トラップイベントと定期ポーリングイベントのことである。具体的には、この監視イベント選択部１０５は、因果関係テーブル１０４から、障害を特定する上で必要最小限のトラップイベントを選択し、装置設定部１０１を介して、管理対象ネットワーク４００に接続されている各機器に設定する。また、必要最小限の定期ポーリングイベントを選択し、イベント取得部１０２に対して、サンプリング監視の対象イベントとして設定する。

図３は、監視イベント選択によるトラフィックの変化を示す図である。同図に示す例では、因果関係テーブル１０４に、トラップイベントＥ₁〜Ｅ₄および定期ポーリングイベントＥ₁〜Ｅ₄が記憶され、これらのイベントのうち、障害を特定する上で必要最小限のイベントがトラップイベントＥ₁、Ｅ₂およびＥ₃、定期ポーリングイベントＥ₆およびＥ₇であった場合を示している。この場合、監視イベントの選択により、トラップイベントＥ４、定期ポーリングイベントＥ５が、ネットワーク障害診断装置１００と管理対象ネットワーク４００との間でやりとりされるイベントから削減され、すなわち、ネットワーク障害診断装置１００と管理対象ネットワーク４００との間のトラフィックが削減される。

ここで、監視イベント選択部１０５による、障害を特定する上で必要最小限の監視イベントを選択する手順を説明する。まず、監視イベント選択部１０５は、因果関係テーブル１０４に記憶されている、障害Ｐ_iに対するイベントＥ_kの発生確率Ｐ（Ｅ_k｜Ｐ_i）をもとに、障害の順序付組み合わせ｛Ｐ_i，Ｐ_j｝，ｉ≠ｊに対するイベントＥ_kの発生確率の差ｄ_ij（Ｅ_k）＝Ｐ（Ｅ_k｜Ｐ_i）−Ｐ（Ｅ_k｜Ｐ_j）を算出し、識別テーブルを作成する。この時、Ｐ（Ｅ_k｜Ｐ_j）＞０である場合はｄ_ij（Ｅ_k）＝０とする。

図４〜７は、監視イベントの選択手順を示す図である。同図に示す例では、図１に示した因果関係テーブル１０４をもとに識別テーブルを作成している。なお、図４〜７に示す識別テーブルにおいて、ｄ_ij（Ｅ_k）を空欄としている箇所は、ｄ_ij（Ｅ_k）＝０であることを示している。

そして、作成した識別テーブルから、障害を判定する上で必要最小限のイベントを順次選択し、監視イベントとして採用していく。まず、各イベントを選択する際に用いるフラグ値Ｆ_ij、識別度ｄ_ij、および判定度Ｊ_kに初期値を設定する。

ここで、フラグ値Ｆ_ijとは、監視イベントとして採用されたイベントによって識別することができる障害の組み合わせ｛Ｐ_i，Ｐ_j｝を判定するための値である。このフラグ値Ｆ_ijには、初期値として０を設定する。

また、識別度ｄ_ijとは、障害の組み合わせ｛Ｐ_i，Ｐ_j｝ごとの、当該組み合わせに対するイベントＥ_kの発生確率の差ｄ_ij（Ｅ_k）の総和である。この識別度ｄ_ijには、初期値として、ｄ_ij＝Σ_kｄ_ij（Ｅ_k）によって算出した値を設定する。

また、判定度Ｊ_kとは、イベントＥ_kごとの、当該イベントによって障害の組み合わせ｛Ｐ_i，Ｐ_j｝を識別することができる度合いを示す値である。この判定度Ｊ_kには、初期値として、Ｊ（Ｅ_k）＝Σ_ijｄ_ij（Ｅ_k）によって算出した値を設定する。

フラグ値Ｆ_ij、識別度ｄ_ij、および判定度Ｊ_kに初期値を設定した後、監視イベント選択処理を行う。具体的には、まず、識別テーブルにある障害の組合せ｛Ｐ_i，Ｐ_j｝の中から、フラグ値Ｆ_ijが０≦Ｆ_ij＜１である組合せ｛Ｐ_i，Ｐ_j｝を選択する。さらに、選択した組合せ｛Ｐ_i，Ｐ_j｝の中から、識別度ｄ_ijが最も小さい値である組合せ｛Ｐ_i，Ｐ_j｝を選択する。

そして、選択した組み合わせ｛Ｐ_i，Ｐ_j｝に対する各イベントＥ_kの発生確率の差ｄ_ij（Ｅ_k）が、ｄ_ij（Ｅ_k）≠０であるイベントＥ_kを選択する。さらに、選択したイベントＥ_kの中から、判定度Ｊ_kが最も大きい値であるイベントＥ_kを選択し、監視イベントとして採用する。

図４に示す例では、フラグ値Ｆ₁₂〜Ｆ₅₄が全て０であることから、まず、全ての障害の組み合わせが選択され、さらに、識別度ｄ₁₂＝１、ｄ₃₂＝１、ｄ₄₂＝１、およびｄ₅₂＝１が最も小さい値であることから、障害の組み合わせ｛Ｐ₁，Ｐ₂｝、｛Ｐ₃，Ｐ₂｝、｛Ｐ₄，Ｐ₂｝、および｛Ｐ₅，Ｐ₂｝が選択される。

そして、それぞれの障害の組み合わせに対するイベントの発生確率がｄ₁₂（Ｅ₂）＝１、ｄ₃₂（Ｅ₃）＝１、ｄ₄₂（Ｅ₂）＝１、およびｄ₅₂（Ｅ₃）＝１であることから、イベントＥ₂およびＥ₃が選択され、さらに、判定度Ｊ₂＝６およびＪ₃＝６が最も大きい値であることから、イベントＥ₂およびＥ₃が監視イベントとして採用されている。

そして、すでに監視イベントとして採用されているイベント郡

に対し、フラグＦ_ij値を算出する。フラグ値Ｆ_ijは、計算式

によって算出する。

また、各組合せ｛Ｐ_i，Ｐ_j｝の識別度ｄ_ijから、監視イベントとして採用されたイベントＥ_kの、各組合せ｛Ｐ_i，Ｐ_j｝に対する確率の差ｄ_ij（Ｅ_k）を減算し、新たな識別度ｄ_ijとする。すなわち、ｄ_ij＝ｄ_ij−ｄ_ij（Ｅ_k）となる。

また、監視イベントとしてまだ採用されていないイベントＥ_kごとに、フラグ値Ｆ_ijが０≦Ｆ_ij＜１である組み合わせ｛Ｐ_i，Ｐ_j｝に対する発生確率の差ｄ_ij（Ｅ_k）を合計し、新たな判定度ｊ_kとする。すなわち、

となる。

ここで、フラグ値Ｆ_ij＜１である組合せ｛Ｐ_i，Ｐ_j｝が１つ以上あった場合は、全てのフラグ値Ｆ_ijがＦ_ij≧１となるまで、監視イベント選択処理を繰り返す。

一方、すべての組合せ｛Ｐ_i，Ｐ_j｝に対して、フラグ値Ｆ_ij≧１となっていた場合は、新たな識別度および新たな判定度の算出を行わず、監視イベント選択処理を終了する。ただし、全てのイベントを採用してもＦ_ij≧１を満たすことができない障害の組合せに関しては、フラグ値Ｆ_ij＞０を満たした時点で終了するものとする。このフラグ値Ｆ_ijの終了値の変更は、後述する重要度設定部１０６によって、適宜設定することができる。

図５〜７に示す例では、監視イベント選択処理が繰り返され、Ｅ₂、Ｅ₃に加え、さらに、Ｅ₁、Ｅ₆およびＥ₇が監視イベントとして採用されている。図７に示す例では、最終的にフラグ値Ｆ₁₂〜Ｆ₅₄の値が全て１以上となったため、監視イベント選択処理が終了したことを示している。

このように、監視イベント選択部１０５が、因果関係テーブル１０４から、障害を唯一に特定するために必要最小限のイベントを抽出し、装置設定部１０１を介して管理対象ネットワーク４００に接続された各機器にトラップイベントとして設定し、また、イベント取得部１０２が各機器に対して定期的に要求する定期ポーリングイベントとして設定することによって、ネットワーク障害診断装置１００と、管理対象ネットワーク４００に接続された機器との間のトラフィックを削減することができる。

重要度設定部１０６は、オペレータから入力される障害ごとの重要度に基づき、監視イベント選択部１０５が行う監視イベント選択処理の終了条件を設定する処理部である。具体的には、この重要度設定部１０６は、オペレータから入力される障害ごとの重要度に基づき、監視イベント選択部１０５が行う監視イベント選択処理における各障害の組合せ｛Ｐ_i，Ｐ_j｝ごとのフラグ値Ｆ_ijの終了値を設定する。図８は、重要度の設定によって選択される監視イベントの変化を示す図である。同図に示す例では、障害Ｐ₁の重要度を２に設定することにより、監視イベントに、イベントＥ₃およびＥ₄が追加されている。

この重要度設定部１０６が、オペレータから入力される障害ごとの重要度に基づき、監視イベント選択部１０５が行う監視イベント選択処理の終了条件を設定することにより、監視イベント選択部１０５は、障害の重要度に応じてイベントを選択することができる。

取得イベント選択部１０７は、最新の障害候補に基づいて因果関係テーブル１０４から障害契機ポーリングイベントを選択し、管理対象ネットワーク４００に接続されている各機器に対して要求する処理部である。具体的には、この取得イベント選択部１０７は、後述する障害判定部１０８によって絞り込まれる障害候補に基づき、因果関係テーブル１０４から関連するイベントを選択する。ここで選択されたイベントを障害契機ポーリングイベントと呼ぶ。この障害契機ポーリングイベントには、因果関係テーブル１０４で分類されているトラップイベントおよび定期ポーリングイベントの両方が含まれる。

また、取得イベント選択部１０７は、選択した各障害契機ポーリングイベントに対して優先度を算出し、障害を特定する上で効率の良いイベントの取得順序を決定する。さらに、ネットワーク４００に接続されている機器に対して、イベント取得部１０２を介し、決定した取得順序の順に、障害契機ポーリングイベントを要求する。

ここで、取得イベント選択部１０７による、障害契機ポーリングイベントの取得順序の決定手順について説明する。まず、取得イベント選択部１０７は、後述する障害判定部１０８によって絞り込まれる障害候補に基づき、関連するイベントを因果関係テーブル１０４から取得する。そして、取得したイベントＥ_kごとに、優先度

を算出する。ここで、Ｐ_ik＝Ｐ（Ｅ_k｜Ｐ_i）とする。

この優先度は、当該イベントによって絞り込むことができる障害数の期待値である。そして、この優先度Ｘ（Ｅ_k）の値が小さいイベントから順番に、イベント取得部１０２が、障害契機ポーリングイベントとして管理対象ネットワーク４００に対して要求してゆく。

図９は、取得イベントの優先度設定を示す図である。同図に示す例では、図２に示した因果関係テーブル１０４の一例に記憶されている全てのイベントが障害候補となっていた場合を示している。この例では、因果関係テーブルにあるイベントＥ₁、Ｅ₂、Ｅ₃、Ｅ₄、Ｅ₅、Ｅ₆、Ｅ₇ごとに、それぞれ優先度が、３．８、３．８、３．８、３．９２、４．０４、３．９２、４．１６と算出される。したがって、取得順序は、イベントＥ₁、Ｅ₂、Ｅ₃、Ｅ₄、Ｅ₆、Ｅ₅、Ｅ₇の順となる。

このように、取得イベント選択部１０７が、最新の障害候補に基づいて因果関係テーブル１０４から障害契機ポーリングイベントを選択し、選択したイベントに対して優先度を設定し、イベント取得部１０２が、管理対象ネットワーク４００に接続された機器に対して、当該優先度の順に障害契機ポーリングイベントを要求することにより、最小限のイベントで障害を特定することができる。

障害判定部１０８は、イベント受信部１０３が順次受信するイベント（トラップイベント、定期ポーリングイベントおよび障害契機ポーリングイベント）をもとに因果関係テーブル１０４から障害を抽出し、障害候補の絞り込みを行う処理部である。具体的には、この障害判定部１０８は、まず、イベント受信部１０３が受信したイベントをもとに因果関係テーブル１０４を参照し、当該イベントに関連する障害を抽出し、障害候補とする。また、障害候補とした障害Ｐ_iごとに、受信したイベントＥ_kの発生確率Ｐ（Ｅ_K｜Ｐ_i）を、障害Ｐ_iごとの確信度Ｃ_iとして、確信度テーブル１０９に格納する。

そして、イベント受信部１０３が次のイベントを受信した場合は、同様に因果関係テーブル１０４から関連する障害を抽出し、すでに障害候補として設定されている障害との論理積を取ることにより、障害候補の絞り込みを行う。また、すでに確信度テーブル１０９に記憶されている障害Ｐ_iごとの確信度Ｃ_i、および新たに受信したイベントＥ_k’の、障害Ｐ_iごとの発生確率Ｐ’＝Ｐ（Ｅ_k’｜Ｐ_i）からＣ_i＋Ｐ’を算出し、新たな確信度Ｃ_iとして確信度テーブル１０９に格納する。

一方、受信したイベントに障害の兆候が無かった場合は、論理積による障害候補の絞り込みを行わず、確信度テーブル１０９に記憶されている障害Ｐ_iごとの確信度Ｃ_i、および新たに受信したイベントＥ_k”の、障害Ｐ_iごとの発生確率Ｐ”＝Ｐ（Ｅ_k”｜Ｐ_i）から、Ｃ_i＋（１−Ｐ”）を算出し、新たな確信度Ｃ_iとして確信度テーブル１０９に格納する。

そして、障害候補の障害が１つに特定されるまでは、イベント受信部１０３が順次取得するイベントをもとに、論理積による障害の絞り込みと、確信度テーブル１０９の確信度の更新を繰り返し行う。そして、障害候補の障害が１つに特定された場合は、オペレータに当該障害を通知する。

図１０は、障害判定の手順を示す図である。同図に示す例では、まず、トラップイベントＥ₁を受信したことにより、因果関係テーブル１０４から障害Ｐ₁、Ｐ₂、Ｐ₃が抽出され、障害候補に設定される。この時、確信度テーブル１０９には、障害Ｐ₁、Ｐ₂、Ｐ₃に対する確信度として、それぞれ１、１、１が格納される。

その後、障害契機ポーリングイベントＥ₅を受信し、因果関係テーブル１０４から障害Ｐ₁、Ｐ₂、Ｐ₃が抽出され、すでに障害候補に設定されている障害Ｐ₁、Ｐ₂、Ｐ₃との論理積を取ることにより、新たな障害候補として障害Ｐ₁、Ｐ₂が設定される。また、確信度テーブル１０９の障害Ｐ₁、Ｐ₂に対する確信度が、それぞれ１．８、１．８に更新される。

その後、障害契機ポーリングイベントＥ₇を受信するが、イベントＥ₇には障害兆候がなかったため、論理積による障害候補の絞り込みは行われず、確信度テーブル１０９の確信度のみが２，８、２．１に更新される。

その後、障害契機ポーリングイベントＥ₂を受信し、障害Ｐ₁、Ｐ₄が抽出され、すでに障害候補に設定されている障害Ｐ₁、Ｐ₂との論理積を取ることにより、障害がＰ₁に特定される。また、確信度テーブル１０９のＰ₁に対する確信度が３．８に更新される。そして、オペレータに障害Ｐ₂が通知される。

また、障害判定部１０８は、受信したイベントをもとに因果関係テーブル１０４から抽出した障害の集合と、すでに障害候補に設定されていた障害の集合との論理積を取る際に、双方の障害の集合が排他関係となっていた場合は、因果関係テーブル１０４から抽出した障害の集合をもとに新たに別の障害候補を設定する。

そして、次のイベントを受信した場合は、当該イベントをもとに障害を抽出し、どの障害候補と関係があるかを確認し、唯一の障害候補とのみ関係があった場合は、当該障害候補との論理和をとることにより、障害候補を絞り混んでゆく。一方、複数の障害候補と関係があった場合は、論理積による障害候補の絞り込みは行わず、確信度テーブル１０９の確信度の更新のみを行う。

図１１は、複数の障害が発生した場合の障害判定の手順を示す図である。同図に示す例では、まず、障害候補１にＰ₁、Ｐ₂、Ｐ₃、Ｐ₄が設定されている。そして、トラップイベントＥ₃を受信し、因果関係テーブル１０４から障害Ｐ₁、Ｐ₂が抽出され、すでに障害候補１に設定されている障害Ｐ₁、Ｐ₂、Ｐ₃、Ｐ₄との論理積を取ることにより、新たな障害候補１として障害Ｐ₁、Ｐ₂が設定される。

その後、トラップイベントＥ₂を受信し、障害Ｐ₃、Ｐ₄が抽出されるが、すでに障害候補に設定されている障害Ｐ₁、Ｐ₂との排他関係となるため、障害Ｐ₃、Ｐ₄を新たな障害候補２に設定する。

その後、障害契機ポーリングイベントＥ₆を受信し、障害Ｐ₂、Ｐ₃が抽出されるが、障害候補１および障害候補２の双方と関係があるため、障害候補の絞り込みは行わず、確信度テーブル１０９の確信度の更新のみを行う。

その後、障害契機ポーリングイベントＥ₅を受信し、障害Ｐ₂が抽出される。障害Ｐ₂は、障害候補１のみと関係があるので、論理積を取り、障害Ｐ₂が特定される。そして、オペレータに障害Ｐ₂が通知される。

その後、障害契機ポーリングイベントＥ４を受信し、障害Ｐ₃が抽出される。障害Ｐ₃は、障害候補２に関係があるので、論理積を取り、障害Ｐ₃が特定される。そして、オペレータに障害Ｐ₃が通知される。

このように、障害判定部１０８が、イベント受信部１０３により順次受信されるイベントをもとに、因果関係テーブル１０４から障害の候補を抽出しながら順次絞り込んでゆくことによって、最終的に障害を１つに特定することができる。

また、この障害判定部１０８が、複数の障害候補を設定し、それぞれの障害候補について並行して障害を絞り込んでゆくことによって、管理対象ネットワーク４００に複数の障害が同時に発生していた場合でも、それぞれの障害を特定することができる。

確信度テーブル１０９は、障害候補に設定されている障害について、障害ごとに確信度を記憶する記憶部である。この確信度は、障害判定部１０８が、取得したイベントをもとに障害候補を絞り込む過程で随時更新される。

タイマー部１１０は、取得イベント選択部１０７によるイベントの優先度計算の開始タイミングを制御する処理部である。図１２は、タイマーによる取得イベント優先度計算タイミングの制御を示す図である。同図に示すように、このタイマー部１１０は、イベント受信部１３０がイベントを受信してから所定の時間を観測した後に、取得イベント選択部１０７がイベントの優先度計算を開始するよう制御する。

このタイマー部１１０が、取得イベント選択部１０７によるイベントの優先度計算の開始タイミングを制御し、イベントを連続して受信している間は、優先度計算後にイベント取得部１０２が管理対象ネットワーク４００に接続されている機器に対して要求する障害契機ポーリングイベントを抑止することによって、管理対象ネットワーク４００との間でやりとりするイベントを削減することができる。

割り込み指示部１１１は、取得イベント選択部１０７がイベントの優先度計算を実行している最中に、新たなイベント受信によって障害候補の絞り込みが発生した場合、取得イベント選択部１０７に対して優先度の再計算を行うように指示する処理部である。図１３は、取得イベント優先度計算中の監視イベント割り込みによる優先度の再計算を示す図である。同図に示すように、この割り込み指示部１１１は、取得イベント選択部１０７がイベントの優先度を計算している最中に、イベント受信部１０３が新たなイベントを受信し、障害判定部１０８による障害候補の絞り込みが発生した場合は、絞り込み後の障害候補を取得イベント選択部１０７に引き渡し、さらに、実行中の優先度計算を停止し、引き渡した障害に基づいて優先度を計算するように指示する。

この割り込み指示部１１１が、取得イベント選択部１０７に対して、優性度計算を実行している最中に新たなイベントを受信した場合は、計算処理を停止するように指示することによって、管理対象ネットワーク４００に接続されている機器に対して、不必要な障害契機ポーリングイベントを要求しないように制御することができる。

次に、本実施例１に係るネットワーク障害診断装置１００の処理手順について説明する。図１４は、本実施例１に係るネットワーク障害診断装置１００の処理手順を示すフローチャートである。同図に示すように、このネットワーク障害診断装置１００は、まず、監視イベント選択部１０５が、監視イベント選択処理を行い、因果関係テーブル１０４から監視イベント（トラップイベントおよび定期ポーリングイベント）を選択する（ステップＳ１０１）。

そして、イベント受信部１０３が監視イベントを受信し（ステップＳ１０２）、障害判定部１０８が因果関係テーブル１０４から障害候補を抽出する（ステップＳ１０３）。

そして、受信した監視タイマー部１１０が、イベント受信部１０３が監視イベントを受信してから所定の時間を経過したことを観測した後に、取得イベント選択部１０７が、障害候補に関連するイベントを因果関係テーブル１０４から選択し、選択した各イベントに対して優先度を算出する（ステップＳ１０４）。ここで、優先度の計算途中にイベント受信部１０３が新たなイベントを受信した場合は、割り込み指示部１１１が、取得イベント選択部１０７に対し、再度計算を行うよう制御する。

そして、イベント取得部１０２が優先度の算出を行った後、イベント取得部１０２が、管理対象ネットワーク４００に接続された機器に対して、優先度の順に障害契機ポーリングイベントを要求する。そして、イベント受信部１０３が、管理対象ネットワーク４００に接続された機器から障害契機ポーリングイベントを受信し（ステップＳ１０５）、当該イベントに障害兆候があった場合は（ステップＳ１０６，Ｙｅｓ）、障害判定部１０８が、因果関係テーブル１０４から障害候補を抽出し（ステップＳ１０８）、当該障害候補と、それまでの障害候補との論理積を取ることにより、障害候補を絞り込む（ステップＳ１０９）。

ここで、障害候補が１つの障害に特定された場合は（ステップＳ１１０，Ｙｅｓ）、当該障害をオペレータに通知して処理を終了する（ステップＳ１１２）。一方、障害候補がまだ複数の障害である場合は（ステップＳ１１０，Ｎｏ）、各障害に対する確信度を更新し（ステップＳ１１１）、順次イベント受信部１０３が受信するイベントをもとに、障害候補が１つの障害に特定されるまで、ステップＳ１０５以降の処理を繰り返す。

このように、取得イベント選択部１０７が、最新の障害候補に基づいて因果関係テーブル１０４からイベントを選択し、選択した各イベントに対して障害を効率よく特定できる順番に取得順序を決定し、イベント取得部１０２が、管理対象ネットワーク４００に接続されている機器に対して、決定された取得順序の順番にイベントを要求し、障害判定部１０８が、順次受信するイベントをもとに障害の候補を絞り込むことによって、少ないイベント数で効率よく障害を特定することができる。

次に、図１４に示した監視イベント選択処理の処理手順について説明する。図１５は、図１４に示した監視イベント選択処理の処理手順を示すフローチャートである。同図に示すように、この監視イベント選択処理では、まず、因果関係テーブル１０４をもとに識別テーブルを作成する（ステップ２０１）。

そして、全ての障害組み合わせについて、フラグ値に０を設定する（ステップＳ２０２）。また、全ての障害組み合わせについて、識別度を算出する（ステップＳ２０３）。さらに、全てのイベントについて、判定度を算出する（ステップＳ２０４）。

そして、０≦フラグ値＜１である障害組み合わせから、識別度が最小であるものを抽出し、抽出した障害組み合わせに対する各イベントから、判定度が最大となるイベントを抽出し、監視イベントとして採用する（ステップＳ２０５）。

ここで、すでに監視イベントとして採用しているイベントが識別できる全ての障害組み合わせについてフラグ値を算出し（ステップＳ２０６）、識別テーブルにある全ての障害組み合わせのフラグ値が１以上となった場合は（ステップＳ２０７，Ｙｅｓ）、監視イベント選択処理を終了する。

一方、識別テーブルに、フラグ値＜１である障害組み合わせがまだある場合は（ステップＳ２０７，Ｎｏ）、識別度および判定度を更新し（ステップＳ２０８，ステップＳ２０９）、識別テーブルにある全ての障害組み合わせのフラグ値が１以上となるまで、ステップＳ２０５以降の処理を繰り返す。

このように、監視イベント選択部１０５が、因果関係テーブル１０４から、障害を唯一に特定するために必要最小限のイベントを抽出し、監視イベント（トラップイベントおよび定期ポーリングイベント）として設定することによって、ネットワーク障害診断装置１００と管理対象ネットワーク４００に接続された機器との間のトラフィックを削減することができる。

上述してきたように、本実施例１では、因果関係テーブル１０４が障害とイベントの因果関係を記憶し、監視イベント選択部１０５が、因果関係テーブル１０４を参照し、障害を特定するために必要最低限のイベントを抽出して監視イベントに設定することとしたので、管理対象ネットワーク４００に接続された機器との間でやり取りするイベントを必要最小限に限定し、管理対象ネットワーク４００に接続された機器との間に発生するトラフィックを削減することができる。

また、本実施例１では、取得イベント選択部１０７が、最新の障害候補に基づいて因果関係テーブル１０４からイベントを選択し、選択した各イベントに対して障害を効率よく特定できる順番に優先度を設定し、イベント取得部１０２が、設定された優先度の順番にイベントを要求し、要求に対して応答されるイベントをイベント受信部１０３が受信し、順次受信されるイベントをもとに障害判定部１０８が障害の候補を絞り込むこととしたので、障害判定部１０８は、少ないイベント数で効率よく障害を特定することができ、ネットワーク障害診断装置１００と、管理対象ネットワーク４００に接続された機器との間に発生するトラフィックを削減することができる。

ところで、上記実施例１では、因果関係テーブル１０４に記憶する、障害に対するイベントの発生確率の値を固定した場合を説明した。しかしながら、管理対象ネットワーク４００における機器の稼働状況によっては、障害に対するイベントの発生確率が、動的に変化する場合がある。そこで、本実施例２では、因果関係テーブル１０４にあらかじめ記憶された発生確率を、管理対象ネットワーク４００の状況に応じて動的に更新する例について説明する。

図１６は、本実施例２に係るネットワーク障害診断装置２００の構成を示す機能ブロック図である。なお、ここでは説明の便宜上、図２に示した各部と同様の役割を果たす機能部については同一符号を付すこととしてその詳細な説明を省略する。同図に示すように、このネットワーク障害診断装置２００は、障害を監視する対象となる管理対象ネットワーク４００に接続されている。

また、ネットワーク障害診断装置２００は、装置設定部１０１と、イベント取得部１０２と、イベント受信部１０３と、因果関係テーブル２０４₁〜２０４_nと、監視イベント選択部１０５と、重要度設定部１０６と、取得イベント選択部１０７と、障害判定部１０８と、確信度テーブル１０９と、因果関係テーブル分割部２１２と、分配テーブル２１３と、イベント履歴２１４と、学習部２１５と、イベント変換部２１６とを有する。

因果関係テーブル２０４₁〜２０４_nは、イベントと障害の因果関係を記憶する記憶部である。この因果関係テーブル２０４₁〜２０４_nは、障害に対するイベントの発生確率を因果関係に対応付けて記憶する。また、２０４₁〜２０４_nは、各障害とイベントの組み合わせを、相関関係のない集合ごとに分割して記憶する。

因果関係テーブル分割部２１２は、因果関係テーブル２０４₁〜２０４_nを分割する処理部である。図１７は、因果関係テーブル２０４₁〜２０４_nの分割手順を示す図である。同図に示すように、この因果関係テーブル分割部２１２は、因果関係テーブル２０４₁〜２０４_nに記憶されている障害とイベントの因果関係において、全ての障害とイベントの組み合わせから、相関関係のない集合を作成し、それぞれを別の因果関係テーブル２０４₁〜２０４_nに分割して格納する。また、因果関係テーブル１１２は、イベントごとに、当該イベントと因果関係テーブル２０４₁〜２０４_n対応付けを示す情報を分配テーブル２１３に格納する。

この因果関係テーブル分割部２１２が、障害とイベントの組み合わせを相関関係のない集合に分類し、それぞれを因果関係テーブル２０４₁〜２０４_nに分割して格納することにより、因果関係テーブル２０４₁〜２０４_nが必要とする記憶領域を、全体として削減することができる。

分配テーブル２１３は、イベントごとに、当該イベントの情報が格納されている因果関係テーブル２０４₁〜２０４_nを示す情報を対応付けて記憶する記憶部である。図１８は、分配テーブル２１３の一例を示す図である。同図に示す例では、因果関係テーブル２０４₁〜２０４_nが２つのテーブル（テーブルＡおよびテーブルＢ）に分割されており、イベントＥ₁〜Ｅ₅がテーブルＡに記憶され、イベントＥ₆〜Ｅ₈がテーブルＢに記憶されていることを示している。

イベント履歴２１４は、障害判定部１０８が特定した障害の履歴と、イベント受信部が受信したイベントの履歴とを記憶する記憶部である。具体的には、このイベント履歴２１４は、障害判定部１０８が特定した障害の履歴と、当該障害を特定する過程でイベント受信部１０３が受信したイベントの履歴とを対応付けて記憶する。

学習部２１５は、イベント履歴２１４に記憶されている障害とイベントの履歴を参照し、因果関係テーブル２０４₁〜２０４_nを更新する処理部である。具体的には、この学習部２１５は、所定のタイミングで、イベント履歴２１４に記憶されている障害とイベントの履歴を参照し、障害Ｐ_iに対するイベントＥ_kの発生確率を（Ｅ_kの発生回数）／（Ｐ_iの発生回数）により算出し、因果関係テーブル２０４₁〜２０４_nの発生確率を更新する。

この学習部２１５が、イベント履歴２１４に記憶されている障害とイベントの履歴に基づいて、障害に対するイベントの発生確率を算出し、因果関係テーブル２０４₁〜２０４_nを動的に更新することにより、因果関係テーブル２０４₁〜２０４_nに記憶された障害に対するイベントの発生確率を、より精緻な値にすることができる。

イベント変換部２１６は、因果関係テーブル２０４₁〜２０４_nの変化に応じて、トラップイベント、定期ポーリングイベント、および障害契機ポーリングを動的に変更する処理部である。図１９は、因果関係テーブル２０４₁〜２０４_nの変更によるイベントの組み合わせの変換を示す図である。同図に示すように、このイベント変換部２１６は、学習部２１５によって因果関係テーブル２０４₁〜２０４_nが更新された場合、または、因果関係テーブル２０４₁〜２０４_nが初期設定された場合に、監視イベント選択部１０５を起動して因果関係テーブル２０４₁〜２０４_nから監視イベント（トラップイベントおよび定期ポーリングイベント）を選択する。さらに、監視イベントに選択されなかったイベントを因果関係テーブル２０４₁〜２０４_nから抽出し、イベント選択部１０５が優先度を計算する対象のイベント（障害契機ポーリングイベント）として設定する。

このイベント変換部２１６が、因果関係テーブル２０４₁〜２０４_nに記憶されている発生確率が更新されたタイミングで、トラップイベント、定期ポーリングイベントおよび障害契機ポーリングイベントを動的に設定することにより、障害を特定する上で、より効率の良いイベントの組み合わせを選択することができる。

上述してきたように、本実施例２では、イベント履歴２１４が障害とイベントの履歴を記憶し、学習部２１５が、イベント履歴２１４を参照することによって、因果関係テーブル２０４₁〜２０４_nの発生確率をより精緻な値に更新し、イベント変換部２１６が、因果関係テーブル２０４₁〜２０４_nの発生確率が更新されたタイミングで、トラップイベント、定期ポーリングイベント、および障害契機ポーリングイベントを動的に設定することとしたので、障害を特定する上で、より効率の良いイベントを選択することができる。

また、本実施例２では、因果関係テーブル分割部２１２が、イベントと障害の因果関係による組合せを因果関係のない集合に分類し、それぞれを因果関係テーブル２０４₁〜２０４_nに分割して格納することとしたので、全ての因果関係を一つの因果関係テーブルに格納した場合に比べ、必要な記憶容量を少なくすることができる。

なお、本実施例１および２では、ネットワーク障害診断装置について説明したが、ネットワーク障害診断装置が有する構成をソフトウェアによって実現することで、同様の機能を有するネットワーク障害診断プログラムを得ることができる。そこで、このネットワーク障害診断プログラムを実行するコンピュータについて説明する。

図２０は、本実施例に係るネットワーク障害診断プログラムを実行するコンピュータの構成を示す機能ブロック図である。同図に示すように、このコンピュータ３００は、ＲＡＭ３１０と、ＣＰＵ３２０と、ＨＤＤ３３０と、ＬＡＮインタフェース３４０と、入出力インタフェース３５０と、ＤＶＤドライブ３６０とを有する。

ＲＡＭ３１０は、プログラムやプログラムの実行途中結果などを記憶するメモリであり、ＣＰＵ３２０は、ＲＡＭ３１０からプログラムを読み出して実行する中央処理装置である。

ＨＤＤ３３０は、プログラムやデータを格納するディスク装置であり、ＬＡＮインタフェース３４０は、コンピュータ３００をＬＡＮ経由で他のコンピュータに接続するためのインタフェースである。

入出力インタフェース３５０は、マウスやキーボードなどの入力装置および表示装置を接続するためのインタフェースであり、ＤＶＤドライブ３６０は、ＤＶＤの読み書きを行う装置である。

そして、このコンピュータ３００において実行されるネットワーク障害診断プログラム３１１は、ＤＶＤに記憶され、ＤＶＤドライブ３６０によってＤＶＤから読み出されてコンピュータ３００にインストールされる。

あるいは、このネットワーク障害診断プログラム３１１は、ＬＡＮインタフェース３４０を介して接続された他のコンピュータシステムのデータベースなどに記憶され、これらのデータベースから読み出されてコンピュータ３００にインストールされる。

そして、インストールされたネットワーク障害診断プログラム３１１は、ＨＤＤ３３０に記憶され、ＲＡＭ３１０に読み出されてＣＰＵ３２０によってネットワーク障害診断プロセス３２１として実行される。

（付記１）ネットワークに発生する障害と障害の兆候を示すイベントとの因果関係に基づいて障害を特定するネットワーク障害診断装置であって、
ネットワークに発生する障害に対するイベントの発生確率を、障害とイベントとの因果関係に対応付けて記憶する因果関係記憶手段と、
前記因果関係記憶手段により発生確率が記憶されたイベントから、前記ネットワークに発生する障害を特定する上で必要最小限のイベントを選択し、前記ネットワークに接続された機器から該イベントを取得するイベント取得手段と、
前記イベント取得手段により取得されたイベントに対応する障害候補の集合を前記因果関係記憶手段により記憶された障害から抽出し、次に前記イベント取得手段により取得されるイベントに対応する障害候補との共通集合を求めることによって障害を特定する障害判定手段と、
を備えたことを特徴とするネットワーク障害診断装置。

（付記２）前記イベント取得手段は、前記因果関係記憶手段により記憶された発生確率に基づいて、前記ネットワークに発生する障害を特定する上で必要最小限のイベントを選択し、前記ネットワークに接続された機器から自動的に取得するように設定することを特徴とする付記１に記載のネットワーク障害診断装置。

（付記３）前記イベント取得手段は、前記因果関係記憶手段により記憶された発生確率に基づいてイベントごとに優先度を計算し、障害を効率よく特定できるイベントの取得順序を決定し、前記ネットワークに接続された機器に対して取得順序の順にイベントを要求することを特徴とする付記１または２に記載のネットワーク障害診断装置。

（付記４）前記イベント選択手段は、１つのイベントを取得してから所定の時間を経過しても次のイベントを取得できなかった場合に前記優先度の計算を開始することを特徴とする付記３に記載のネットワーク障害診断装置。

（付記５）前記イベント選択手段は、前記優先度の計算中にイベントを取得した場合は、計算を中止し、優先度を再計算することを特徴とする付記３または付記４に記載のネットワーク障害診断装置。

（付記６）前記障害判定手段は、特定した障害と該障害を特定する上で取得したイベントとを履歴情報として記憶し、
前記因果関係記憶手段は、前記障害判定手段により記憶された履歴情報に基づいて前記イベントごとの発生確率を動的に更新することを特徴とする付記１〜５のいずれか一つに記載のネットワーク障害診断装置。

（付記７）前記イベント選択手段は、操作者の指示に基づいて障害に重要度を設定し、該重要度に応じてイベントを選択することを特徴とする付記１〜６のいずれか一つに記載のネットワーク障害診断装置。

（付記８）前記障害判定手段は、確信度を記憶し、前記因果関係記憶手段により記憶されたイベントの発生確率の変化に応じてイベントを動的に選択することを特徴とする付記６に記載のネットワーク障害診断装置。

（付記９）ネットワークに発生する障害と障害の兆候を示すイベントとの因果関係に基づいて障害を特定するネットワーク障害診断方法であって、
ネットワークに発生する障害に対するイベントの発生確率を、障害とイベントとの因果関係に対応付けて記憶する因果関係記憶工程と、
前記因果関係記憶工程により発生確率が記憶されたイベントから、前記ネットワークに発生する障害を特定する上で必要最小限のイベントを選択し、前記ネットワークに接続された機器から該イベントを取得するイベント取得工程と、
前記イベント取得工程により取得されたイベントに対応する障害候補の集合を前記因果関係記憶工程により記憶された障害から抽出し、次に前記イベント取得工程により取得されるイベントに対応する障害候補との共通集合を求めることによって障害を特定する障害判定工程と、
を含んだことを特徴とするネットワーク障害診断方法。

（付記１０）ネットワークに発生する障害と障害の兆候を示すイベントとの因果関係に基づいて障害を特定するネットワーク障害診断プログラムであって、
ネットワークに発生する障害に対するイベントの発生確率を、障害とイベントとの因果関係に対応付けて記憶する因果関係記憶手順と、
前記因果関係記憶手順により発生確率が記憶されたイベントから、前記ネットワークに発生する障害を特定する上で必要最小限のイベントを選択し、前記ネットワークに接続された機器から該イベントを取得するイベント取得手順と、
前記イベント取得手順により取得されたイベントに対応する障害候補の集合を前記因果関係記憶手順により記憶された障害から抽出し、次に前記イベント取得手順により取得されるイベントに対応する障害候補との共通集合を求めることによって障害を特定する障害判定手順と、
をコンピュータに実行させることを特徴とするネットワーク障害診断プログラム。

（付記１１）ネットワークに発生する障害と障害の兆候を示すイベントとの因果関係に基づいて、ネットワーク装置から取得するイベントを選択するイベント選択装置であって、
ネットワークに発生する障害に対するイベントの発生確率を、障害とイベントとの因果関係に対応付けて記憶する因果関係記憶手段と、
前記因果関係記憶手段により発生確率が記憶されたイベントから、前記ネットワークに発生する障害を特定する上で必要最小限のイベントを選択し、前記ネットワークに接続された機器から取得するイベントとして設定するイベント選択手段と、
を備えたことを特徴とするイベント選択装置。

以上のように、本発明に係るネットワーク障害診断装置、ネットワーク障害診断方法およびネットワーク障害診断プログラムは、障害と障害の兆候を示すイベントとの因果関係がパターン化できるネットワークの監視に有用であり、特に、トラフィックが多く発生するネットワークの監視に適している。

本実施例１に係るネットワーク障害診断装置の構成を示す機能ブロック図である。因果関係テーブルの一例を示す図である。監視イベントの選択によるトラフィックの変化を示す図である。監視イベントの選択手順を示す図（１）である。監視イベントの選択手順を示す図（２）である。監視イベントの選択手順を示す図（３）である。監視イベントの選択手順を示す図（４）である。重要度の設定によって選択される監視イベントの変化を示す図である。取得イベントの優先度設定を示す図である。障害判定の手順を示す図である。複数の障害が発生した場合の障害判定の手順を示す図である。タイマーによる取得イベント優先度計算タイミングの制御を示す図である。取得イベント優先度計算中の監視イベント割り込みによる優先度の再計算を示す図である。本実施例１に係るネットワーク障害診断装置の処理手順を示すフローチャートである。図１４に示した監視イベント選択処理の処理手順を示すフローチャートである。本実施例２に係るネットワーク障害診断装置の構成を示す機能ブロック図である。因果関係テーブルの分割手順を示す図である。分配テーブルの一例を示す図である。因果関係テーブルの変更によるイベントの組み合わせの変換を示す図である。本実施例に係るネットワーク障害診断プログラムを実行するコンピュータの構成を示す機能ブロック図である。

符号の説明

１００，２００ネットワーク障害診断装置
１０１装置設定部
１０２イベント取得部
１０３イベント受信部
１０４，２０４₁〜２０４_n 因果関係テーブル
１０５監視イベント選択部
１０６重要度設定部
１０７取得イベント選択部
１０８障害判定部
１０９確信度テーブル
１１０タイマー部
１１１割り込み指示部
２１２因果関係テーブル分割部
２１３分配テーブル
２１４イベント履歴
２１５学習部
２１６イベント変換部
３００コンピュータ
３１０ＲＡＭ
３１１ネットワーク障害診断プログラム
３２０ＣＰＵ
３２１ネットワーク障害診断プロセス
３３０ＨＤＤ
３４０ＬＡＮインタフェース
３５０入出力インタフェース
３６０ＤＶＤドライブ
４００管理対象ネットワーク

Claims

ネットワークに発生する障害と障害の兆候を示すイベントとの因果関係に基づいて障害を特定するネットワーク障害診断装置であって、
ネットワークに発生する障害に対するイベントの発生確率を、障害とイベントとの因果関係に対応付けて記憶する因果関係記憶手段と、
前記因果関係記憶手段により発生確率が記憶されたイベントから、前記ネットワークに発生する障害を特定する上で必要最小限のイベントを選択し、前記ネットワークに接続された機器から該イベントを取得するイベント取得手段と、
前記イベント取得手段により取得されたイベントに対応する障害候補の集合を前記因果関係記憶手段により記憶された障害から抽出し、次に前記イベント取得手段により取得されるイベントに対応する障害候補との共通集合を求めることによって障害を特定する障害判定手段と、
を備えたことを特徴とするネットワーク障害診断装置。
前記イベント取得手段は、前記因果関係記憶手段により記憶された発生確率に基づいて、前記ネットワークに発生する障害を特定する上で必要最小限のイベントを選択し、前記ネットワークに接続された機器から自動的に取得するように設定することを特徴とする請求項１に記載のネットワーク障害診断装置。
前記イベント取得手段は、前記因果関係記憶手段により記憶された発生確率に基づいてイベントごとに優先度を計算し、障害を効率よく特定できるイベントの取得順序を決定し、前記ネットワークに接続された機器に対して取得順序の順にイベントを要求することを特徴とする請求項１または２に記載のネットワーク障害診断装置。
ネットワークに発生する障害と障害の兆候を示すイベントとの因果関係に基づいて障害を特定するネットワーク障害診断方法であって、
ネットワークに発生する障害に対するイベントの発生確率を、障害とイベントとの因果関係に対応付けて記憶する因果関係記憶工程と、
前記因果関係記憶工程により発生確率が記憶されたイベントから、前記ネットワークに発生する障害を特定する上で必要最小限のイベントを選択し、前記ネットワークに接続された機器から該イベントを取得するイベント取得工程と、
前記イベント取得工程により取得されたイベントに対応する障害候補の集合を前記因果関係記憶工程により記憶された障害から抽出し、次に前記イベント取得工程により取得されるイベントに対応する障害候補との共通集合を求めることによって障害を特定する障害判定工程と、
を含んだことを特徴とするネットワーク障害診断方法。
ネットワークに発生する障害と障害の兆候を示すイベントとの因果関係に基づいて障害を特定するネットワーク障害診断プログラムであって、
ネットワークに発生する障害に対するイベントの発生確率を、障害とイベントとの因果関係に対応付けて記憶する因果関係記憶手順と、
前記因果関係記憶手順により発生確率が記憶されたイベントから、前記ネットワークに発生する障害を特定する上で必要最小限のイベントを選択し、前記ネットワークに接続された機器から該イベントを取得するイベント取得手順と、
前記イベント取得手順により取得されたイベントに対応する障害候補の集合を前記因果関係記憶手順により記憶された障害から抽出し、次に前記イベント取得手順により取得されるイベントに対応する障害候補との共通集合を求めることによって障害を特定する障害判定手順と、
をコンピュータに実行させることを特徴とするネットワーク障害診断プログラム。