JPH11308222A - ネットワーク管理システム - Google Patents
ネットワーク管理システムInfo
- Publication number
- JPH11308222A JPH11308222A JP10112397A JP11239798A JPH11308222A JP H11308222 A JPH11308222 A JP H11308222A JP 10112397 A JP10112397 A JP 10112397A JP 11239798 A JP11239798 A JP 11239798A JP H11308222 A JPH11308222 A JP H11308222A
- Authority
- JP
- Japan
- Prior art keywords
- event
- managed object
- state
- class
- management system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Landscapes
- Debugging And Monitoring (AREA)
- Computer And Data Communications (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
(57)【要約】
【課題】 少ないメモリの使用量で効果的に問題の特定
を行うことができるネットワーク管理システムを提供す
る。 【解決手段】 管理対象オブジェクト(MO)構成情報
を保持するリポジトリと、グローバルなイベント定義、
MOクラス内およびクラス間のイベント伝播定義に基づ
き、各MOクラスの状態パターンを定義したMOクラス
状態パターンリスト72を管理するMOクラス状態パタ
ーンリスト管理部70と、問題イベントと、その影響を
受けるMOの状態パターンとの間の相関関係を、MOク
ラス状態パターンを参照して記述したProblem−
MO状態相関表82を管理するProblem−MO状
態相関表管理部80と、障害イベント情報76に応答し
て、Problem−MO状態相関表82と、MOクラ
ス状態パターンリスト72とに基づいて障害の原因を推
論する推論部78、84とを含む。
を行うことができるネットワーク管理システムを提供す
る。 【解決手段】 管理対象オブジェクト(MO)構成情報
を保持するリポジトリと、グローバルなイベント定義、
MOクラス内およびクラス間のイベント伝播定義に基づ
き、各MOクラスの状態パターンを定義したMOクラス
状態パターンリスト72を管理するMOクラス状態パタ
ーンリスト管理部70と、問題イベントと、その影響を
受けるMOの状態パターンとの間の相関関係を、MOク
ラス状態パターンを参照して記述したProblem−
MO状態相関表82を管理するProblem−MO状
態相関表管理部80と、障害イベント情報76に応答し
て、Problem−MO状態相関表82と、MOクラ
ス状態パターンリスト72とに基づいて障害の原因を推
論する推論部78、84とを含む。
Description
【0001】
【発明の属する技術分野】本発明は、ネットワーク上の
障害を管理するネットワーク管理システムに関し、特
に、ネットワーク上で観測されるさまざまな複数の障害
の症状から障害の根本原因を特定する機能を有するネッ
トワーク管理システムに関する。
障害を管理するネットワーク管理システムに関し、特
に、ネットワーク上で観測されるさまざまな複数の障害
の症状から障害の根本原因を特定する機能を有するネッ
トワーク管理システムに関する。
【0002】
【従来の技術】コンピュータによる通信ネットワークの
大規模化が進んでいる。通信ネットワークが大規模化す
るに従って、ネットワーク上に発生する障害の及ぼす影
響も大規模かつ深刻なものとなりつつある。そのためネ
ットワーク管理をいかに効率よく行なうか、が非常に重
要である。以下、本明細書上で使用されるネットワーク
管理に関する用語について定義をする。
大規模化が進んでいる。通信ネットワークが大規模化す
るに従って、ネットワーク上に発生する障害の及ぼす影
響も大規模かつ深刻なものとなりつつある。そのためネ
ットワーク管理をいかに効率よく行なうか、が非常に重
要である。以下、本明細書上で使用されるネットワーク
管理に関する用語について定義をする。
【0003】「イベント」とは、ネットワークにおいて
発生する例外的な状態のことをいう。ハードウェアやソ
フトウェアの故障、停止、性能のボトルネック、ネット
ワークの構成の不整合、設計不十分による意図せざる結
果、コンピュータウィルス等の悪意による被害などを含
む。「不具合」は「イベント」と同じ意味で使用する。
発生する例外的な状態のことをいう。ハードウェアやソ
フトウェアの故障、停止、性能のボトルネック、ネット
ワークの構成の不整合、設計不十分による意図せざる結
果、コンピュータウィルス等の悪意による被害などを含
む。「不具合」は「イベント」と同じ意味で使用する。
【0004】「症状」とは、観測可能なイベントのこと
をいう。「症状イベント」と同じである。たとえば「あ
る宛先Aに対して常に通信に時間がかかり再送信が必要
となる」、「ある宛先Bに対していつも文字化けが生ず
る」、「ある宛先Cに対していつも受信確認が返ってこ
ない」などの事象をいう。同じ意味で「Symptom 」とい
う語も使用する。
をいう。「症状イベント」と同じである。たとえば「あ
る宛先Aに対して常に通信に時間がかかり再送信が必要
となる」、「ある宛先Bに対していつも文字化けが生ず
る」、「ある宛先Cに対していつも受信確認が返ってこ
ない」などの事象をいう。同じ意味で「Symptom 」とい
う語も使用する。
【0005】「問題」とは、障害の根本原因のことをい
う。必ずしも観測可能ではない。たとえば通信装置の送
信機破損、通信ケーブルの断線、通信回線の容量不足な
どが例である。「問題イベント」は「問題」と同じ意味
である。同じ意味で「プロブレム」(Problem) という語
も使用する。
う。必ずしも観測可能ではない。たとえば通信装置の送
信機破損、通信ケーブルの断線、通信回線の容量不足な
どが例である。「問題イベント」は「問題」と同じ意味
である。同じ意味で「プロブレム」(Problem) という語
も使用する。
【0006】「オブジェクト」とは、概念や抽象または
対象となる問題に対して明確な境界と意味とを持つ何も
のか、のことをいう。「オブジェクトインスタンス」と
は、後述するあるオブジェクトクラスに属するある特定
の1つのオブジェクトのことをいう。単に「インスタン
ス」ともいう。「オブジェクトクラス」とは、同様の性
質(属性)、共通の振る舞い(操作)、他のオブジェク
トとの共通の関係、および共通の意味を持つオブジェク
トのグループをいう。「クラス」はオブジェクトクラス
と同じである。「サブクラス」とは、あるクラスの下位
クラスとして、そのクラスに包含されるクラスのことを
いう。「属性」とは、クラスに属する各オブジェクトに
よって保持されるデータをいう。
対象となる問題に対して明確な境界と意味とを持つ何も
のか、のことをいう。「オブジェクトインスタンス」と
は、後述するあるオブジェクトクラスに属するある特定
の1つのオブジェクトのことをいう。単に「インスタン
ス」ともいう。「オブジェクトクラス」とは、同様の性
質(属性)、共通の振る舞い(操作)、他のオブジェク
トとの共通の関係、および共通の意味を持つオブジェク
トのグループをいう。「クラス」はオブジェクトクラス
と同じである。「サブクラス」とは、あるクラスの下位
クラスとして、そのクラスに包含されるクラスのことを
いう。「属性」とは、クラスに属する各オブジェクトに
よって保持されるデータをいう。
【0007】「オブジェクト図」とは、オブジェクト、
クラス、それらの間の関係のモデル化のための、形式的
な図式記法をいう。「クラス図」とは、多くの可能なイ
ンスタンスを記述するためのスキーマ、パターン、テン
プレートなどである。「リポジトリ」とは、必要な情報
を集約して一覧表的な形式で記憶した記憶部を言う。集
約一覧表メモリとでも呼ぶべきものである。「イベント
リポジトリ」とは、実際に発生した症状パターンを記憶
する記憶部をいう。「オブジェクトリポジトリ」とは、
ネットワークの構成モデルのリポジトリのことをいう。
クラス、それらの間の関係のモデル化のための、形式的
な図式記法をいう。「クラス図」とは、多くの可能なイ
ンスタンスを記述するためのスキーマ、パターン、テン
プレートなどである。「リポジトリ」とは、必要な情報
を集約して一覧表的な形式で記憶した記憶部を言う。集
約一覧表メモリとでも呼ぶべきものである。「イベント
リポジトリ」とは、実際に発生した症状パターンを記憶
する記憶部をいう。「オブジェクトリポジトリ」とは、
ネットワークの構成モデルのリポジトリのことをいう。
【0008】ネットワークのあるリソースにおける1つ
の問題イベントは、関係する複数のリソースの多くの症
状イベントを引き起こし得る。問題の中には、観測可能
なイベントであるものもあるが、一般には必ずしも観測
可能ではない。そのため複数の症状から障害の根本原因
である問題を特定する必要がある。したがって、ネット
ワーク管理者は、根本原因の問題を特定するために、観
測される種々の症状イベントを問題と相関させることが
できなければならない。
の問題イベントは、関係する複数のリソースの多くの症
状イベントを引き起こし得る。問題の中には、観測可能
なイベントであるものもあるが、一般には必ずしも観測
可能ではない。そのため複数の症状から障害の根本原因
である問題を特定する必要がある。したがって、ネット
ワーク管理者は、根本原因の問題を特定するために、観
測される種々の症状イベントを問題と相関させることが
できなければならない。
【0009】しかし、ネットワークが大規模になると、
観測される症状イベントの数も膨大になる。またどの問
題がどの症状を引き起こすかという「因果関係」とでも
言うべきものも複雑になってくるために、オペレータが
手作業で障害の根本原因の問題を特定することはほとん
ど不可能となる。
観測される症状イベントの数も膨大になる。またどの問
題がどの症状を引き起こすかという「因果関係」とでも
言うべきものも複雑になってくるために、オペレータが
手作業で障害の根本原因の問題を特定することはほとん
ど不可能となる。
【0010】このようなネットワーク上で観測される膨
大な障害の症状イベントから根本原因の問題を正確にか
つ高速に特定するための従来技術手法として、1996
年6月18日発行の米国特許第5,528,516号
(「Apparatus and Method forEvent Correlation and
Problem Reporting(イベント相関および問題報告装置
および方法)」)が提案されている。
大な障害の症状イベントから根本原因の問題を正確にか
つ高速に特定するための従来技術手法として、1996
年6月18日発行の米国特許第5,528,516号
(「Apparatus and Method forEvent Correlation and
Problem Reporting(イベント相関および問題報告装置
および方法)」)が提案されている。
【0011】この従来技術は次の2つの技術に分けるこ
とができる。 (1) 管理対象ネットワークのモデリング技術 (2) イベント相関技術 「管理対象ネットワークのモデリング技術」とは、実際
のネットワーク上で発生する問題イベントおよび症状イ
ベントをいかに正確に効率よくモデル化するかというこ
とに関する。(2)のイベント相関技術とは、主とし
て、観測される膨大な症状イベントからいかに高速に根
本原因である問題を特定するか、ということに関する。
本発明は(2)のイベント相関技術に関連する。そのた
め以下では(1)の管理対象ネットワークのモデリング
技術については最小限の説明にとどめる。なお以下の説
明は、障害に関するイベントに限定して行なうが、イベ
ントの種類はどのようなものであってもよく、本発明は
障害に関するイベントのみに制約されるものではない。
とができる。 (1) 管理対象ネットワークのモデリング技術 (2) イベント相関技術 「管理対象ネットワークのモデリング技術」とは、実際
のネットワーク上で発生する問題イベントおよび症状イ
ベントをいかに正確に効率よくモデル化するかというこ
とに関する。(2)のイベント相関技術とは、主とし
て、観測される膨大な症状イベントからいかに高速に根
本原因である問題を特定するか、ということに関する。
本発明は(2)のイベント相関技術に関連する。そのた
め以下では(1)の管理対象ネットワークのモデリング
技術については最小限の説明にとどめる。なお以下の説
明は、障害に関するイベントに限定して行なうが、イベ
ントの種類はどのようなものであってもよく、本発明は
障害に関するイベントのみに制約されるものではない。
【0012】この従来技術で提案されている「管理対象
ネットワークのモデリング技術」について以下に簡単に
説明する。まず、ルータおよびハブなどのネットワーク
機器と、パーソナルコンピュータおよびワークステーシ
ョンなどのコンピュータと、これらを接続するネットワ
ークそのものと、コンピュータ等の上で実行されるソフ
トウェア等とからなるすべてのものを管理対象オブジェ
クトManagedObject (MO)としてモデル化する。そし
て、オブジェクト間の「関係」を重要視し、ネットワー
ク上で発生する問題イベントおよび症状イベントは、管
理対象オブジェクト間に設定された関係に沿って「伝
播」するものとしてイベントの伝播をモデル化する。
ネットワークのモデリング技術」について以下に簡単に
説明する。まず、ルータおよびハブなどのネットワーク
機器と、パーソナルコンピュータおよびワークステーシ
ョンなどのコンピュータと、これらを接続するネットワ
ークそのものと、コンピュータ等の上で実行されるソフ
トウェア等とからなるすべてのものを管理対象オブジェ
クトManagedObject (MO)としてモデル化する。そし
て、オブジェクト間の「関係」を重要視し、ネットワー
ク上で発生する問題イベントおよび症状イベントは、管
理対象オブジェクト間に設定された関係に沿って「伝
播」するものとしてイベントの伝播をモデル化する。
【0013】上述の従来技術では、このような管理対象
オブジェクトのモデル化およびイベント伝播のモデル化
の静的な側面を抽象化し、モデル化を効率的に行なうた
めにオブジェクト指向の概念を導入している。すなわち
種々の管理対象オブジェクトをクラスとしてモデル化す
る。そしてクラス間の関係を定義する。さらにあるイベ
ントは、クラス間の関係に沿って伝播するものとしてモ
デル化される。オブジェクト指向技術については種々の
教科書があるのでそれらを参照されたい。
オブジェクトのモデル化およびイベント伝播のモデル化
の静的な側面を抽象化し、モデル化を効率的に行なうた
めにオブジェクト指向の概念を導入している。すなわち
種々の管理対象オブジェクトをクラスとしてモデル化す
る。そしてクラス間の関係を定義する。さらにあるイベ
ントは、クラス間の関係に沿って伝播するものとしてモ
デル化される。オブジェクト指向技術については種々の
教科書があるのでそれらを参照されたい。
【0014】こうして定められたクラスシステムにもと
づいて、管理対象のネットワークをモデル化する。すな
わち、ネットワーク内の管理対象オブジェクトをあるク
ラスの一つのインスタンスとして抽象化し、そのインス
タンスが属するクラスと、他のインスタンスが属するク
ラスとの間に設定された関係にしたがってイベントがこ
れらインスタンス(管理対象オブジェクト)を伝播して
いくものとしてネットワークをモデル化する。さらに、
こうしてモデル化されたネットワークに基づき、問題
と、症状との間の相関を予め特定する。
づいて、管理対象のネットワークをモデル化する。すな
わち、ネットワーク内の管理対象オブジェクトをあるク
ラスの一つのインスタンスとして抽象化し、そのインス
タンスが属するクラスと、他のインスタンスが属するク
ラスとの間に設定された関係にしたがってイベントがこ
れらインスタンス(管理対象オブジェクト)を伝播して
いくものとしてネットワークをモデル化する。さらに、
こうしてモデル化されたネットワークに基づき、問題
と、症状との間の相関を予め特定する。
【0015】まず、管理対象オブジェクトクラスのモデ
ル化について説明する。今、実際のネットワークの例と
して図8に示されるネットワークを考える。このネット
ワークは、互いにブリッジ540 によって結合された2つ
のイーサネットワーク534 および536 を含む。一方のイ
ーサネットワーク534 にはホスト530 が、他方のイーサ
ネットワーク536 にはホスト532 がそれぞれ接続されて
いるものとする。以下の例ではホスト530 にネットワー
ク管理システム(NMS) が搭載されているものとして考え
る。
ル化について説明する。今、実際のネットワークの例と
して図8に示されるネットワークを考える。このネット
ワークは、互いにブリッジ540 によって結合された2つ
のイーサネットワーク534 および536 を含む。一方のイ
ーサネットワーク534 にはホスト530 が、他方のイーサ
ネットワーク536 にはホスト532 がそれぞれ接続されて
いるものとする。以下の例ではホスト530 にネットワー
ク管理システム(NMS) が搭載されているものとして考え
る。
【0016】図8に示されるネットワークを上述した考
え方を用いてモデル化するために次のようにする。図9
を参照して、各ボックスはオブジェクトクラス(または
サブクラス)を示す。オブジェクトクラスの各ボックス
は2つのボックスに分割されている。上部のボックスに
記載されているのはオブジェクトクラス名であり、下部
のボックスに記載されているのはそのクラスのオブジェ
クトが持つべき属性である。各クラス間には関係が設定
され、各関係はクラス間に引かれた線で示されている。
各線の近傍には、その関係の名称が記載されている。な
お図9において、管理対象オブジェクトモデルについて
はOMT記法を用いて記す。
え方を用いてモデル化するために次のようにする。図9
を参照して、各ボックスはオブジェクトクラス(または
サブクラス)を示す。オブジェクトクラスの各ボックス
は2つのボックスに分割されている。上部のボックスに
記載されているのはオブジェクトクラス名であり、下部
のボックスに記載されているのはそのクラスのオブジェ
クトが持つべき属性である。各クラス間には関係が設定
され、各関係はクラス間に引かれた線で示されている。
各線の近傍には、その関係の名称が記載されている。な
お図9において、管理対象オブジェクトモデルについて
はOMT記法を用いて記す。
【0017】図9に示されるように、Nodeクラス524 の
下に3つのサブクラスTcpNode クラス554 、IpNodeクラ
ス556 およびEtherNode クラス558 を定義する。さらに
Linkクラス526 のサブクラスとしてTcpLink クラス560
、IpLinkクラス562 、EtherLink クラス564 およびMac
BridgeLink クラス566 を定義する。なお、各クラスに
はそのクラス特有の属性を定義する必要がある。たとえ
ばIpNodeクラスにはIP(Internet Protocol) アドレス属
性を定義するなど、である。しかし、本発明には属性の
定義は関係しないので、ここでは属性についての詳細な
説明は行わない。
下に3つのサブクラスTcpNode クラス554 、IpNodeクラ
ス556 およびEtherNode クラス558 を定義する。さらに
Linkクラス526 のサブクラスとしてTcpLink クラス560
、IpLinkクラス562 、EtherLink クラス564 およびMac
BridgeLink クラス566 を定義する。なお、各クラスに
はそのクラス特有の属性を定義する必要がある。たとえ
ばIpNodeクラスにはIP(Internet Protocol) アドレス属
性を定義するなど、である。しかし、本発明には属性の
定義は関係しないので、ここでは属性についての詳細な
説明は行わない。
【0018】これらクラス間に設定される関係は、その
関係により結びつけられる2つのクラスのいずれから見
るかによって名称が変わる。たとえばNodeクラス524 と
Linkクラス526 との間の関係608 は一方から見ればConn
ected-via 、他方から見ればConnected-toである。また
図9には示していないが、同一クラス内のオブジェクト
間に定められる関係もあり得る。
関係により結びつけられる2つのクラスのいずれから見
るかによって名称が変わる。たとえばNodeクラス524 と
Linkクラス526 との間の関係608 は一方から見ればConn
ected-via 、他方から見ればConnected-toである。また
図9には示していないが、同一クラス内のオブジェクト
間に定められる関係もあり得る。
【0019】図9に示されるクラスを用いて、図8に示
すネットワーク例をインスタンス間の関係図として表現
することができる。こうした図は、オブジェクト指向技
術では「インスタンス図」と呼ばれる。
すネットワーク例をインスタンス間の関係図として表現
することができる。こうした図は、オブジェクト指向技
術では「インスタンス図」と呼ばれる。
【0020】このようにしてモデル化された管理対象オ
ブジェクトに対して、症状イベントの伝播ルールが予め
準備される。この伝播ルールは、障害の根本原因の問題
イベントが障害の症状イベントに伝播し、その症状イベ
ントが別の症状イベントに伝播するという関係をルール
化したものである。この伝播ルールの集合を伝播モデル
と呼ぶ。
ブジェクトに対して、症状イベントの伝播ルールが予め
準備される。この伝播ルールは、障害の根本原因の問題
イベントが障害の症状イベントに伝播し、その症状イベ
ントが別の症状イベントに伝播するという関係をルール
化したものである。この伝播ルールの集合を伝播モデル
と呼ぶ。
【0021】イベントの中には問題イベントでかつ症状
イベントであるものもあるし、どちらでもないものもあ
る。このような伝播モデル(ルール)において、各イベ
ントは、管理対象オブジェクトのクラス間に定義されて
いる関係に沿ってインスタンス間を伝播するという、イ
ベント伝播のモデル化がなされている。
イベントであるものもあるし、どちらでもないものもあ
る。このような伝播モデル(ルール)において、各イベ
ントは、管理対象オブジェクトのクラス間に定義されて
いる関係に沿ってインスタンス間を伝播するという、イ
ベント伝播のモデル化がなされている。
【0022】このようにしてイベント伝播モデルが想定
されている場合に、図8に示されているネットワークで
イベントがどのように伝播するかを以下に示す。ここで
は障害の根本原因の問題としてP_AlarmIf,P
_Connector,P_InDown1,P_In
Down2,P_ObpuCpu,P_OutDown
1,P_OutDown2,P_Qltyを考える。こ
の場合、これらの問題の結果、イベント伝播モデルに従
って観測されると期待される症状イベントとこれら問題
との関係はたとえば表1に示されるようになる。
されている場合に、図8に示されているネットワークで
イベントがどのように伝播するかを以下に示す。ここで
は障害の根本原因の問題としてP_AlarmIf,P
_Connector,P_InDown1,P_In
Down2,P_ObpuCpu,P_OutDown
1,P_OutDown2,P_Qltyを考える。こ
の場合、これらの問題の結果、イベント伝播モデルに従
って観測されると期待される症状イベントとこれら問題
との関係はたとえば表1に示されるようになる。
【0023】
【表1】
【0024】この表1において、最も左側の列には問題
イベントが、第1行目には管理対象オブジェクトのイン
スタンス(IL5,IL6)が、第2行目には各インス
タンスで発生が想定される症状イベントが、それぞれ記
載されている。ある問題イベントの行とある症状イベン
トの列との交わる欄には、その問題イベント(原因)が
発生したときに、当該症状イベントが発生するか否かを
示す値が記入されている。この場合症状イベントが生ず
る場合に「1」を記入するものとする。たとえば問題P
_AlarmIfが発生したときにはインスタンスIL
5において症状Eqpが生じるが、症状Indownは
生じない。各ケースについて該当の行を横に見ていく
と、「1」および「0」を連ねたものが得られる。これ
を当該問題イベントに対する症状イベント群のコードと
称する。たとえば表1のP_AlarmIfに関するケ
ースでは問題P_AlarmIfに対する症状イベント
群のコードは「1000000000」である。また問
題P_Connectorに対する症状イベント群のコ
ードは「0010101100」である。
イベントが、第1行目には管理対象オブジェクトのイン
スタンス(IL5,IL6)が、第2行目には各インス
タンスで発生が想定される症状イベントが、それぞれ記
載されている。ある問題イベントの行とある症状イベン
トの列との交わる欄には、その問題イベント(原因)が
発生したときに、当該症状イベントが発生するか否かを
示す値が記入されている。この場合症状イベントが生ず
る場合に「1」を記入するものとする。たとえば問題P
_AlarmIfが発生したときにはインスタンスIL
5において症状Eqpが生じるが、症状Indownは
生じない。各ケースについて該当の行を横に見ていく
と、「1」および「0」を連ねたものが得られる。これ
を当該問題イベントに対する症状イベント群のコードと
称する。たとえば表1のP_AlarmIfに関するケ
ースでは問題P_AlarmIfに対する症状イベント
群のコードは「1000000000」である。また問
題P_Connectorに対する症状イベント群のコ
ードは「0010101100」である。
【0025】表1からわかるように、問題イベントが異
なると、観測される症状イベント群のコードが異なる。
したがって実際にネットワーク管理システムにより観測
および収集される症状イベント群と、表1に示される症
状イベント群とを比較することにより、障害の根本原因
の問題を特定することが可能となる。このように、各問
題と症状イベントとの相関関係を表したものをイベント
相関表と呼ぶ。実際にはこの比較は、得られた症状イベ
ント群と、イベント相関表の症状イベント群との間に定
義される「距離」を計算し、最も距離の小さい問題を特
定することにより行なわれる。
なると、観測される症状イベント群のコードが異なる。
したがって実際にネットワーク管理システムにより観測
および収集される症状イベント群と、表1に示される症
状イベント群とを比較することにより、障害の根本原因
の問題を特定することが可能となる。このように、各問
題と症状イベントとの相関関係を表したものをイベント
相関表と呼ぶ。実際にはこの比較は、得られた症状イベ
ント群と、イベント相関表の症状イベント群との間に定
義される「距離」を計算し、最も距離の小さい問題を特
定することにより行なわれる。
【0026】
【発明が解決しようとする課題】このようにある問題イ
ベントに対して生ずる症状イベントを予めパターン化し
ておけば、実際に障害が生じたときの症状パターンとこ
のパターンとを比較するという比較的単純な作業により
障害の根本原因の問題を特定することができる。したが
って、この従来の技術により障害の根本原因の問題の特
定が非常に容易になるかと思われる。しかしこの従来の
技術には次のような問題点がある。
ベントに対して生ずる症状イベントを予めパターン化し
ておけば、実際に障害が生じたときの症状パターンとこ
のパターンとを比較するという比較的単純な作業により
障害の根本原因の問題を特定することができる。したが
って、この従来の技術により障害の根本原因の問題の特
定が非常に容易になるかと思われる。しかしこの従来の
技術には次のような問題点がある。
【0027】上記した従来技術により利用されるイベン
ト相関表では、Problem 数×symptom 数に比例するメモ
リ容量を必要とする。とのため、ネットワークが大きく
なると不利となり、大規模ネットワークに適用するには
限界がある。このため上記した米国特許では、得られた
イベント相関表をどのように圧縮するかについても述べ
ているが、どの程度圧縮できるのか不明であり、実際の
ネットワークの構成によっては効果的な圧縮ができない
場合があることも予想される。また、圧縮によって、取
得したい情報がイベント相関表から欠落する可能性もあ
る。
ト相関表では、Problem 数×symptom 数に比例するメモ
リ容量を必要とする。とのため、ネットワークが大きく
なると不利となり、大規模ネットワークに適用するには
限界がある。このため上記した米国特許では、得られた
イベント相関表をどのように圧縮するかについても述べ
ているが、どの程度圧縮できるのか不明であり、実際の
ネットワークの構成によっては効果的な圧縮ができない
場合があることも予想される。また、圧縮によって、取
得したい情報がイベント相関表から欠落する可能性もあ
る。
【0028】また、イベント相関表を用いると、問題の
特定にあたって、Problem 数×symptom 数に比例する量
の計算を必要とする。そのためネットワークが大規模に
なると処理速度が大幅に低下する。
特定にあたって、Problem 数×symptom 数に比例する量
の計算を必要とする。そのためネットワークが大規模に
なると処理速度が大幅に低下する。
【0029】また、イベント間の関連付けでは、イベン
トの発生の順序関係が重要な情報になる場合があるが、
上述した従来技術ではそうした順序関係を問題の特定に
あたって反映させることは難しい。
トの発生の順序関係が重要な情報になる場合があるが、
上述した従来技術ではそうした順序関係を問題の特定に
あたって反映させることは難しい。
【0030】それゆえに本願発明の目的は、少ないメモ
リの使用量で効果的に問題の特定を行うことができるネ
ットワーク管理システムを提供することである。
リの使用量で効果的に問題の特定を行うことができるネ
ットワーク管理システムを提供することである。
【0031】本願発明の他の目的は、少ないメモリの使
用量で、かつ少ない計算量で問題の特定を行うことがで
きるネットワーク管理システムを提供することである。
用量で、かつ少ない計算量で問題の特定を行うことがで
きるネットワーク管理システムを提供することである。
【0032】本願発明のさらに他の目的は、少ないメモ
リの使用量で、かつ少ない計算量で問題の特定を行うこ
とができ、その特定にイベントの発生順序を反映させる
ことができるネットワーク管理システムを提供すること
である。
リの使用量で、かつ少ない計算量で問題の特定を行うこ
とができ、その特定にイベントの発生順序を反映させる
ことができるネットワーク管理システムを提供すること
である。
【0033】
【課題を解決するための手段】請求項1に記載の発明に
かかるネットワーク管理システムは、ネットワーク上の
管理対象オブジェクト構成情報を保持する構成情報保持
手段と、ネットワーク上に発生するイベントのグローバ
ルな定義と、管理対象オブジェクトクラス内および管理
対象オブジェクトクラス間でのイベント伝播の定義とに
基づき、各管理対象オブジェクトクラスに伝播するイベ
ントをトリガーとした状態遷移により、管理対象オブジ
ェクトクラス状態パターンを各管理対象オブジェクトク
ラスごとに定義した管理対象オブジェクトクラス状態パ
ターンリストを、生成し維持するための管理対象オブジ
ェクトクラス状態パターンリスト管理手段と、イベント
の定義と、イベント伝播の定義と、管理対象オブジェク
トクラス状態パターンリストとに基づいて、問題イベン
トと、当該問題イベントにより影響を受ける管理対象オ
ブジェクトの状態パターンとの間の相関関係を、管理対
象オブジェクトクラス状態パターンを参照して記述した
問題−管理対象オブジェクト状態相関表を生成し維持す
るための問題−管理対象オブジェクト状態相関表管理手
段と、ネットワークから通知される障害イベント情報に
応答して、問題−管理対象オブジェクト状態相関表と、
管理対象オブジェクトクラス状態パターンリストとに基
づいて障害の原因を推論するための推論手段とを含む。
かかるネットワーク管理システムは、ネットワーク上の
管理対象オブジェクト構成情報を保持する構成情報保持
手段と、ネットワーク上に発生するイベントのグローバ
ルな定義と、管理対象オブジェクトクラス内および管理
対象オブジェクトクラス間でのイベント伝播の定義とに
基づき、各管理対象オブジェクトクラスに伝播するイベ
ントをトリガーとした状態遷移により、管理対象オブジ
ェクトクラス状態パターンを各管理対象オブジェクトク
ラスごとに定義した管理対象オブジェクトクラス状態パ
ターンリストを、生成し維持するための管理対象オブジ
ェクトクラス状態パターンリスト管理手段と、イベント
の定義と、イベント伝播の定義と、管理対象オブジェク
トクラス状態パターンリストとに基づいて、問題イベン
トと、当該問題イベントにより影響を受ける管理対象オ
ブジェクトの状態パターンとの間の相関関係を、管理対
象オブジェクトクラス状態パターンを参照して記述した
問題−管理対象オブジェクト状態相関表を生成し維持す
るための問題−管理対象オブジェクト状態相関表管理手
段と、ネットワークから通知される障害イベント情報に
応答して、問題−管理対象オブジェクト状態相関表と、
管理対象オブジェクトクラス状態パターンリストとに基
づいて障害の原因を推論するための推論手段とを含む。
【0034】請求項2に記載の発明にかかるネットワー
ク管理システムは、請求項1に記載の発明の構成に加え
て、推論手段は、障害イベント情報に基づき、障害イベ
ントの発生を管理対象オブジェクトのインスタンスごと
にその出現順とともに管理して管理対象オブジェクトの
状態データを作成するための状態データ管理手段と、管
理対象オブジェクトの状態データごとに、対応する管理
対象オブジェクトクラス状態パターンリストとの間の予
め定義された相違の尺度を計算するための相違尺度計算
手段と、問題−管理対象オブジェクト状態相関表におい
て、各問題イベントごとに、管理対象オブジェクトの状
態パターンとの間の相関関係の記述時に参照された管理
対象オブジェクトクラス状態パターンについて計算され
た相違の尺度を合計し、相違の尺度の低い問題イベント
を特定して障害原因の候補とするための候補特定手段を
含む。
ク管理システムは、請求項1に記載の発明の構成に加え
て、推論手段は、障害イベント情報に基づき、障害イベ
ントの発生を管理対象オブジェクトのインスタンスごと
にその出現順とともに管理して管理対象オブジェクトの
状態データを作成するための状態データ管理手段と、管
理対象オブジェクトの状態データごとに、対応する管理
対象オブジェクトクラス状態パターンリストとの間の予
め定義された相違の尺度を計算するための相違尺度計算
手段と、問題−管理対象オブジェクト状態相関表におい
て、各問題イベントごとに、管理対象オブジェクトの状
態パターンとの間の相関関係の記述時に参照された管理
対象オブジェクトクラス状態パターンについて計算され
た相違の尺度を合計し、相違の尺度の低い問題イベント
を特定して障害原因の候補とするための候補特定手段を
含む。
【0035】請求項3に記載の発明にかかるネットワー
ク管理システムは、請求項2に記載の発明の構成に加え
て、問題−管理対象オブジェクト状態相関表管理手段
は、問題−管理対象オブジェクト状態相関表の生成時
に、各管理対象オブジェクトインスタンスごとに、出現
する管理対象オブジェクトクラス状態パターンのリスト
を生成し保持しており、相違尺度計算手段は、相違の尺
度の計算にあたり、出現する管理対象オブジェクトクラ
ス状態パターンのリスト上の管理対象オブジェクトクラ
ス状態パターンについてのみ相違の尺度を計算する。
ク管理システムは、請求項2に記載の発明の構成に加え
て、問題−管理対象オブジェクト状態相関表管理手段
は、問題−管理対象オブジェクト状態相関表の生成時
に、各管理対象オブジェクトインスタンスごとに、出現
する管理対象オブジェクトクラス状態パターンのリスト
を生成し保持しており、相違尺度計算手段は、相違の尺
度の計算にあたり、出現する管理対象オブジェクトクラ
ス状態パターンのリスト上の管理対象オブジェクトクラ
ス状態パターンについてのみ相違の尺度を計算する。
【0036】請求項4に記載の発明にかかるネットワー
ク管理システムは、請求項1に記載のネットワーク管理
システムであって、管理対象オブジェクトクラス状態パ
ターンリスト管理手段は、各管理対象オブジェクトクラ
スに伝播するイベントをトリガーとし、かつイベントの
発生順序をも考慮して区別される状態遷移により管理対
象オブジェクトクラス状態パターンを生成し維持する。
ク管理システムは、請求項1に記載のネットワーク管理
システムであって、管理対象オブジェクトクラス状態パ
ターンリスト管理手段は、各管理対象オブジェクトクラ
スに伝播するイベントをトリガーとし、かつイベントの
発生順序をも考慮して区別される状態遷移により管理対
象オブジェクトクラス状態パターンを生成し維持する。
【0037】請求項5に記載の発明にかかるネットワー
ク管理システムは、請求項1に記載の発明の構成に加え
て、管理対象オブジェクトクラス状態パターンリスト管
理手段は、イベント定義と、イベント伝播定義とに基づ
き、各問題イベントを起点としてイベント伝播をたどる
ことによりすべての管理対象オブジェクトの状態パター
ンリストを自動生成する、請求項1に記載のネットワー
ク管理システム。
ク管理システムは、請求項1に記載の発明の構成に加え
て、管理対象オブジェクトクラス状態パターンリスト管
理手段は、イベント定義と、イベント伝播定義とに基づ
き、各問題イベントを起点としてイベント伝播をたどる
ことによりすべての管理対象オブジェクトの状態パター
ンリストを自動生成する、請求項1に記載のネットワー
ク管理システム。
【0038】請求項6に記載の発明にかかるネットワー
ク管理システムは、請求項2に記載のネットワーク管理
システムであって、相違の尺度は、管理対象オブジェク
トの状態データごとに、対応する管理対象オブジェクト
クラス状態パターンリストとの間で計算される距離とし
て定義される。.請求項7に記載の発明にかかるネット
ワーク管理システムは、請求項2に記載のネットワーク
管理システムであって、相違の尺度は、同一種類の症状
イベントが異なる順序で発生した障害情報に対しては異
なる相違の尺度となるように選択される。
ク管理システムは、請求項2に記載のネットワーク管理
システムであって、相違の尺度は、管理対象オブジェク
トの状態データごとに、対応する管理対象オブジェクト
クラス状態パターンリストとの間で計算される距離とし
て定義される。.請求項7に記載の発明にかかるネット
ワーク管理システムは、請求項2に記載のネットワーク
管理システムであって、相違の尺度は、同一種類の症状
イベントが異なる順序で発生した障害情報に対しては異
なる相違の尺度となるように選択される。
【0039】請求項8に記載の発明にかかるネットワー
ク管理システムは、請求項2に記載の発明の構成に加え
て、候補特定手段は、相違の尺度の小さいものから予め
定められた個数の問題イベントを障害原因の候補として
通知することを特徴とする。
ク管理システムは、請求項2に記載の発明の構成に加え
て、候補特定手段は、相違の尺度の小さいものから予め
定められた個数の問題イベントを障害原因の候補として
通知することを特徴とする。
【0040】請求項9に記載の発明にかかるネットワー
ク管理システムは、請求項2に記載の発明の構成に加え
て、候補特定手段は、予め定められた値よりも小さな相
違の尺度を有する問題イベントを障害原因の候補として
通知することを特徴とする。
ク管理システムは、請求項2に記載の発明の構成に加え
て、候補特定手段は、予め定められた値よりも小さな相
違の尺度を有する問題イベントを障害原因の候補として
通知することを特徴とする。
【0041】請求項10に記載の発明にかかるネットワ
ーク管理システムは、請求項2、請求項8または請求項
9に記載の発明の構成に加えて、候補特定手段は、相違
の尺度の値に基づいて、各障害原因に推論の確信度を付
与するための手段をさらに含む. 。
ーク管理システムは、請求項2、請求項8または請求項
9に記載の発明の構成に加えて、候補特定手段は、相違
の尺度の値に基づいて、各障害原因に推論の確信度を付
与するための手段をさらに含む. 。
【0042】請求項11に記載の発明にかかるネットワ
ーク管理システムは、請求項2に記載の発明の構成に加
えて、問題−管理対象オブジェクト状態相関表管理手
段、相違尺度計算手段および候補特定手段を一定期間ご
とに自動的に動作させるための手段をさらに含む。
ーク管理システムは、請求項2に記載の発明の構成に加
えて、問題−管理対象オブジェクト状態相関表管理手
段、相違尺度計算手段および候補特定手段を一定期間ご
とに自動的に動作させるための手段をさらに含む。
【0043】請求項12に記載の発明にかかるネットワ
ーク管理システムは、請求項1に記載の発明の構成に加
えて、イベントログを解析することにより、新たなイベ
ント伝播のルールを抽出するための手段と、新たにイベ
ント伝播のルールが抽出された場合にイベント伝播の定
義を更新するための手段と、更新されたイベント伝播の
定義を用いて問題−管理対象オブジェクト状態相関表管
理手段、相違尺度計算手段および候補特定手段を再度動
作させるための手段とをさらに含む。
ーク管理システムは、請求項1に記載の発明の構成に加
えて、イベントログを解析することにより、新たなイベ
ント伝播のルールを抽出するための手段と、新たにイベ
ント伝播のルールが抽出された場合にイベント伝播の定
義を更新するための手段と、更新されたイベント伝播の
定義を用いて問題−管理対象オブジェクト状態相関表管
理手段、相違尺度計算手段および候補特定手段を再度動
作させるための手段とをさらに含む。
【0044】
【発明の実施の形態】上記した問題点が生ずるのは、す
べてのProblem とSymptom との間の関連を表すイベント
相関表を利用する点にある。本願発明は、この従来技術
の問題点を解決するために、MO状態パターンと呼ぶもの
を定義し、これを使用して必要メモリ量の削減をはかっ
ている。「MO」とは、前述の通り管理対象オブジェク
トモデルのことを指す。
べてのProblem とSymptom との間の関連を表すイベント
相関表を利用する点にある。本願発明は、この従来技術
の問題点を解決するために、MO状態パターンと呼ぶもの
を定義し、これを使用して必要メモリ量の削減をはかっ
ている。「MO」とは、前述の通り管理対象オブジェク
トモデルのことを指す。
【0045】図1を参照して、本願発明に係るネットワ
ーク管理システム20は、管理対象ネットワーク22に接続
され、SNMP(Simple Network Management Protocol)等
のネットワーク管理プロトコルを用いて管理対象装置の
MIB (Management Information Base )等のデータを取
得したり、ポーリングしたりするためのネットワーク管
理インターフェイス部24と、MOクラスの定義と、MOク
ラスごとではなくグローバルに定義されたProble
m(問題イベント)およびSymptom(症状イベン
ト)とを含む伝播モデル37(「Real言語」と呼ばれ
る言語で記述される。)をRealコンパイラ38でコン
パイルすることにより得られるMOクラススキーマを受
け、かつネットワーク管理インターフェイス部24からネ
ットワークの構成情報に関するデータを受け、管理対象
オブジェクトモデルと、これに関連したイベント伝播モ
デルとを保持するとともに、これらモデルとネットワー
クの構成情報とに基づき管理対象オブジェクト構成情報
を構築するための構成管理部30と、構成管理部30により
構築された管理対象オブジェクト構成情報を保持するた
めの管理対象オブジェクトリポジトリ32と、構成情報デ
ータおよび障害情報データをイベントとして保持するた
めのイベントリポジトリ28と、ネットワーク管理インタ
ーフェイス部24から構成情報データおよび障害情報デー
タを受取り、イベントリポジトリ28に保持させるための
イベントデータベース部26と、構成管理部30から後述す
るMOクラス状態パターンリストを受取って保持し、イ
ベントデータベース部26から障害の症状イベントの集合
を受けてMO状態データとして保持し、MOクラス状態
パターンリストと、実際に観測されるMO状態データと
を比較し距離計算をして、障害の根本原因の問題を推論
するための障害管理部34と、障害管理部34から障害の根
本原因の問題の推論結果を示す情報を受け、ユーザに提
示するためのユーザインターフェイス部36とを含む。
ーク管理システム20は、管理対象ネットワーク22に接続
され、SNMP(Simple Network Management Protocol)等
のネットワーク管理プロトコルを用いて管理対象装置の
MIB (Management Information Base )等のデータを取
得したり、ポーリングしたりするためのネットワーク管
理インターフェイス部24と、MOクラスの定義と、MOク
ラスごとではなくグローバルに定義されたProble
m(問題イベント)およびSymptom(症状イベン
ト)とを含む伝播モデル37(「Real言語」と呼ばれ
る言語で記述される。)をRealコンパイラ38でコン
パイルすることにより得られるMOクラススキーマを受
け、かつネットワーク管理インターフェイス部24からネ
ットワークの構成情報に関するデータを受け、管理対象
オブジェクトモデルと、これに関連したイベント伝播モ
デルとを保持するとともに、これらモデルとネットワー
クの構成情報とに基づき管理対象オブジェクト構成情報
を構築するための構成管理部30と、構成管理部30により
構築された管理対象オブジェクト構成情報を保持するた
めの管理対象オブジェクトリポジトリ32と、構成情報デ
ータおよび障害情報データをイベントとして保持するた
めのイベントリポジトリ28と、ネットワーク管理インタ
ーフェイス部24から構成情報データおよび障害情報デー
タを受取り、イベントリポジトリ28に保持させるための
イベントデータベース部26と、構成管理部30から後述す
るMOクラス状態パターンリストを受取って保持し、イ
ベントデータベース部26から障害の症状イベントの集合
を受けてMO状態データとして保持し、MOクラス状態
パターンリストと、実際に観測されるMO状態データと
を比較し距離計算をして、障害の根本原因の問題を推論
するための障害管理部34と、障害管理部34から障害の根
本原因の問題の推論結果を示す情報を受け、ユーザに提
示するためのユーザインターフェイス部36とを含む。
【0046】本実施の形態では、イベント相関表ではな
く、MOクラス状態パターンリストを用いて問題の特定
を行なっているが、それらについては図4以降を参照し
て後述することとする。
く、MOクラス状態パターンリストを用いて問題の特定
を行なっているが、それらについては図4以降を参照し
て後述することとする。
【0047】伝播モデル37の記述例を次の表2に示す。
【0048】
【表2】
【0049】表2において、「//」で始まる行はコメ
ントである。コメント行以外の各行で、かつ中かっこで
囲まれていない各行の先頭項目は、その行で定義される
ものの種類を示す。2番目の項目は定義されるイベント
またはクラス名である。イベントは、このようにクラス
の定義とは別に、ネットワーク全体で発生するグローバ
ルなものとして定義される。
ントである。コメント行以外の各行で、かつ中かっこで
囲まれていない各行の先頭項目は、その行で定義される
ものの種類を示す。2番目の項目は定義されるイベント
またはクラス名である。イベントは、このようにクラス
の定義とは別に、ネットワーク全体で発生するグローバ
ルなものとして定義される。
【0050】定義されるものがイベントの場合、3番目
の要素は修飾子である。表2に示す例で「expor
t」とあるのは、このイベントを外部に通知すべきこと
を示す。4番目はディスクリプションと呼ばれ、問題の
提示ときなどに利用される、そのイベントに関する説明
である。
の要素は修飾子である。表2に示す例で「expor
t」とあるのは、このイベントを外部に通知すべきこと
を示す。4番目はディスクリプションと呼ばれ、問題の
提示ときなどに利用される、そのイベントに関する説明
である。
【0051】定義されるものがクラスである場合、3番
目の要素はこのクラスの継承関係を示し、特にこのクラ
スの上位のクラスのクラス名を表す。中かっこ内にはク
ラス内伝播およびクラス間伝播が「propagat
e」で始まる行により定義されている。「−>」の左側
は、伝播するイベントを示す。右側には、伝播先の症状
イベントがカンマで区切られて並べられる。単に症状イ
ベント名のみで示される(たとえば「InDown」)
ものは、クラス内での伝播を示す。「:」を含むものは
クラス間の伝播関係を示す。「:」の前に記述されてい
るもの、たとえば「ConnectedTo」などはク
ラス間に定義されている伝播関係を示す。「:」の次の
項には伝播先のクラスが、その次の項には伝播先の症状
イベントが、さらにその次には「1.0」などの伝播の
確率を示す数字が並べられる。
目の要素はこのクラスの継承関係を示し、特にこのクラ
スの上位のクラスのクラス名を表す。中かっこ内にはク
ラス内伝播およびクラス間伝播が「propagat
e」で始まる行により定義されている。「−>」の左側
は、伝播するイベントを示す。右側には、伝播先の症状
イベントがカンマで区切られて並べられる。単に症状イ
ベント名のみで示される(たとえば「InDown」)
ものは、クラス内での伝播を示す。「:」を含むものは
クラス間の伝播関係を示す。「:」の前に記述されてい
るもの、たとえば「ConnectedTo」などはク
ラス間に定義されている伝播関係を示す。「:」の次の
項には伝播先のクラスが、その次の項には伝播先の症状
イベントが、さらにその次には「1.0」などの伝播の
確率を示す数字が並べられる。
【0052】図1に示されるネットワーク管理システム
は、実際にはパーソナルコンピュータまたはワークステ
ーションなど、コンピュータ上で実行されるソフトウェ
アにより実現される。図2に、ネットワーク管理システ
ムを実現するコンピュータの外観を示す。図2を参照し
てこのコンピュータは、CD-ROM(Compact Disc Read-On
ly Memory )ドライブ50およびFD(Flexible Disk )ド
ライブ52を備えたコンピュータ本体40と、ディスプレイ
42と、プリンタ44と、キーボード46と、マウス48とを含
む。
は、実際にはパーソナルコンピュータまたはワークステ
ーションなど、コンピュータ上で実行されるソフトウェ
アにより実現される。図2に、ネットワーク管理システ
ムを実現するコンピュータの外観を示す。図2を参照し
てこのコンピュータは、CD-ROM(Compact Disc Read-On
ly Memory )ドライブ50およびFD(Flexible Disk )ド
ライブ52を備えたコンピュータ本体40と、ディスプレイ
42と、プリンタ44と、キーボード46と、マウス48とを含
む。
【0053】図3に、このコンピュータの構成をブロッ
ク図形式で示す。図3に示されるようにこのシステム20
を構成するコンピュータの本体40は、CD-ROMドライブ50
およびFDドライブ52に加えて、それぞれバス66に接続さ
れたCPU (Central Processing Unit )56と、ROM (Re
ad Only Memory) 58と、RAM (Random Access Memory)
60と、ハードディスク54とを含んでいる。CD-ROMドライ
ブ50にはCD-ROM62が装着される。FDドライブ52にはFD64
が装着される。
ク図形式で示す。図3に示されるようにこのシステム20
を構成するコンピュータの本体40は、CD-ROMドライブ50
およびFDドライブ52に加えて、それぞれバス66に接続さ
れたCPU (Central Processing Unit )56と、ROM (Re
ad Only Memory) 58と、RAM (Random Access Memory)
60と、ハードディスク54とを含んでいる。CD-ROMドライ
ブ50にはCD-ROM62が装着される。FDドライブ52にはFD64
が装着される。
【0054】既に述べたようにこのネットワーク管理シ
ステムは、コンピュータハードウェアと、CPU 56により
実行されるソフトウェアとにより実現される。一般的に
こうしたソフトウェアは、CD-ROM62、FD64などの記憶媒
体に格納されて流通し、CD-ROMドライブ50またはFDドラ
イブ52などにより記憶媒体から読取られてハードディス
ク54に一旦格納される。さらにハードディスク54からRA
M 60に読出されてCPU56により実行される。図2および
図3に示したコンピュータのハードウェア自体は一般的
なものである。したがって、本発明の最も本質的な部分
はCD-ROM62、FD64、ハードディスク54などの記憶媒体に
記憶されたソフトウェアである。
ステムは、コンピュータハードウェアと、CPU 56により
実行されるソフトウェアとにより実現される。一般的に
こうしたソフトウェアは、CD-ROM62、FD64などの記憶媒
体に格納されて流通し、CD-ROMドライブ50またはFDドラ
イブ52などにより記憶媒体から読取られてハードディス
ク54に一旦格納される。さらにハードディスク54からRA
M 60に読出されてCPU56により実行される。図2および
図3に示したコンピュータのハードウェア自体は一般的
なものである。したがって、本発明の最も本質的な部分
はCD-ROM62、FD64、ハードディスク54などの記憶媒体に
記憶されたソフトウェアである。
【0055】なお図2および図3に示したコンピュータ
自体の動作は周知であるので、ここではその詳細な説明
は繰返さない。
自体の動作は周知であるので、ここではその詳細な説明
は繰返さない。
【0056】図4を参照して、障害管理部34は、個々
のMOクラスごとではなく、ネットワーク全体で発生す
るイベントをグローバルに定義したイベント定義と、イ
ベント伝播の定義とから、MOクラスごとのMO状態パ
ターンを定義したMOクラス状態パターンリスト72を生成
し管理するためのMOクラス状態パターンリスト管理部
70と、イベントデータベース部26よりイベント情報を
受けて、MOインスタンスごとにそのMO状態データ76
を管理するためのMO状態データ管理部74とを含む。
のMOクラスごとではなく、ネットワーク全体で発生す
るイベントをグローバルに定義したイベント定義と、イ
ベント伝播の定義とから、MOクラスごとのMO状態パ
ターンを定義したMOクラス状態パターンリスト72を生成
し管理するためのMOクラス状態パターンリスト管理部
70と、イベントデータベース部26よりイベント情報を
受けて、MOインスタンスごとにそのMO状態データ76
を管理するためのMO状態データ管理部74とを含む。
【0057】障害管理部34はさらに、MOクラス状態パ
ターンリスト72と、前述したイベント定義およびイベン
ト伝播の定義とからProblem−MO状態相関表82
を生成し維持するためのProblem−MO状態相関
表管理部80を含む。Problem−MO状態相関表と
は、問題イベントとそれにより影響を受けるMOの状態
パターンとを表形式にしたものである。Problem
−MO状態相関表では、MOクラスが同一であれば同じ
MO状態パターンが繰返し現れる。そこで、Probl
em−MO状態相関表は表4に例を示したMOクラス状
態パターンリストのMO状態パターンを参照して記述す
るようにする。Problem‐MOクラス状態相関表
の例を次に示す。
ターンリスト72と、前述したイベント定義およびイベン
ト伝播の定義とからProblem−MO状態相関表82
を生成し維持するためのProblem−MO状態相関
表管理部80を含む。Problem−MO状態相関表と
は、問題イベントとそれにより影響を受けるMOの状態
パターンとを表形式にしたものである。Problem
−MO状態相関表では、MOクラスが同一であれば同じ
MO状態パターンが繰返し現れる。そこで、Probl
em−MO状態相関表は表4に例を示したMOクラス状
態パターンリストのMO状態パターンを参照して記述す
るようにする。Problem‐MOクラス状態相関表
の例を次に示す。
【0058】
【表3】
【0059】表3は、簡単のために一つのMOクラスI
nlineAmpの二つのインスタンスIL5,IL6
についてだけ示している。
nlineAmpの二つのインスタンスIL5,IL6
についてだけ示している。
【0060】これに対応する表として従来技術では表1
に示すイベント相関表を用いていた。このイベント相関
表は、問題イベントと症状イベントとの因果関係グラフ
に基づくものである。イベント相関表は、表1に示すよ
うに従来技術では症状イベントごとの表であり、表のサ
イズが大きくなる。また、表の数値の発生パターンを考
慮していない点が本発明の表3と異なる点である。
に示すイベント相関表を用いていた。このイベント相関
表は、問題イベントと症状イベントとの因果関係グラフ
に基づくものである。イベント相関表は、表1に示すよ
うに従来技術では症状イベントごとの表であり、表のサ
イズが大きくなる。また、表の数値の発生パターンを考
慮していない点が本発明の表3と異なる点である。
【0061】本願発明では表3に示すように問題イベン
トと症状イベントとの因果関係グラフは用いない。ま
た、表3に示す例ではMO状態(MoState)に
は、症状イベントの発生順序に関する情報も含まれてい
る。なお、必ずしもこのように発生順序に関する情報を
含ませる必要はなく、発生順序を考慮しないMO状態を
定義して用いてもよい。
トと症状イベントとの因果関係グラフは用いない。ま
た、表3に示す例ではMO状態(MoState)に
は、症状イベントの発生順序に関する情報も含まれてい
る。なお、必ずしもこのように発生順序に関する情報を
含ませる必要はなく、発生順序を考慮しないMO状態を
定義して用いてもよい。
【0062】上記したProblem‐MOクラス状態
相関表生成時に、MOインスタンスごとに、出現するM
oStateリストを保持しておく。たとえばMOクラ
ス「InlineAmpのインスタンスIL5の場合に
はMoState2、3、4、5、6、IL6の場合に
はMoState1、4、6、7がこのリストに相当す
る。
相関表生成時に、MOインスタンスごとに、出現するM
oStateリストを保持しておく。たとえばMOクラ
ス「InlineAmpのインスタンスIL5の場合に
はMoState2、3、4、5、6、IL6の場合に
はMoState1、4、6、7がこのリストに相当す
る。
【0063】MO状態パターンリストは、起こりうるす
べてのMO状態パターンをあげる。MOクラス「Inl
ineAmp」を例としてMO状態パターンリストの例
をあげると次の表4のようになる。
べてのMO状態パターンをあげる。MOクラス「Inl
ineAmp」を例としてMO状態パターンリストの例
をあげると次の表4のようになる。
【0064】
【表4】
【0065】この表中において、Eqp,InDow
n,OutDown,Qlty,Reflectは、M
OクラスInlineAmpで発生し得る症状イベント
を示す。MoState7の「Qlty 0.5」は、
確率0.5で症状イベントQltyが発生する状態を示
す。その他については、確率1.0であるがその記載は
省略してある。なおこのMO状態パターンリストの各行
は、「状態パターン名:」と、発生し得る順番で「症状
イベント名 発生確率」をカンマで区切って並べたもの
とをリストするものとする。この表4の作成方法につい
ては後述する。
n,OutDown,Qlty,Reflectは、M
OクラスInlineAmpで発生し得る症状イベント
を示す。MoState7の「Qlty 0.5」は、
確率0.5で症状イベントQltyが発生する状態を示
す。その他については、確率1.0であるがその記載は
省略してある。なおこのMO状態パターンリストの各行
は、「状態パターン名:」と、発生し得る順番で「症状
イベント名 発生確率」をカンマで区切って並べたもの
とをリストするものとする。この表4の作成方法につい
ては後述する。
【0066】MO状態データ76は、障害イベントの発生
に基づいてMOインスタンスごとに生成/管理されるも
ので、次にその例を示す。
に基づいてMOインスタンスごとに生成/管理されるも
ので、次にその例を示す。
【0067】
【表5】
【0068】表5において、1行目にはMO名がリスト
されている。表5に示す例ではIL5とIL6とであ
る。2行目に、発生した障害データが「Symptom
Set」の名で記載されている。たとえばIL5につい
ては症状イベントとしてOutDownとReflec
tとが発生している。
されている。表5に示す例ではIL5とIL6とであ
る。2行目に、発生した障害データが「Symptom
Set」の名で記載されている。たとえばIL5につい
ては症状イベントとしてOutDownとReflec
tとが発生している。
【0069】表5に示すような症状群が観測された場合
に、以下のようにして症状をMOごとにMO状態パター
ンの集合としてまとめることによりMOの状態データを
作成する。
に、以下のようにして症状をMOごとにMO状態パター
ンの集合としてまとめることによりMOの状態データを
作成する。
【0070】
【表6】
【0071】表6を作成する際には、各MOごとに、発
生した症状イベントをその発生順序にしたがって並べ
る。すなわち、表6のようなMOの状態データは、症状
イベントの発生順序をも反映したものとなっている。
生した症状イベントをその発生順序にしたがって並べ
る。すなわち、表6のようなMOの状態データは、症状
イベントの発生順序をも反映したものとなっている。
【0072】障害管理部34はさらに、MOクラス状態パ
ターンリスト管理部70とMO状態データ76とに接続さ
れ、MO状態データ76とMOクラス状態パターンリスト
72とを比較して、MOの状態データごとに、対応するM
Oクラス状態パターンリスト72との距離を計算するため
のMOクラス状態パターンリスト相違度計算部78を含
む。MOクラス状態パターンリスト相違度計算部78は、
この計算のときに、表4に出現するMO状態パターンの
みに対して状態データとの距離を計算する。計算例を下
の表7に示す。
ターンリスト管理部70とMO状態データ76とに接続さ
れ、MO状態データ76とMOクラス状態パターンリスト
72とを比較して、MOの状態データごとに、対応するM
Oクラス状態パターンリスト72との距離を計算するため
のMOクラス状態パターンリスト相違度計算部78を含
む。MOクラス状態パターンリスト相違度計算部78は、
この計算のときに、表4に出現するMO状態パターンの
みに対して状態データとの距離を計算する。計算例を下
の表7に示す。
【0073】
【表7】
【0074】表7に示す距離は、例えば最も左側のMO
状態の各々が含む症状イベントのリストと、1行目のM
oクラスInlineAmpのインスタンスIL5,I
L6に対して観測された状態データ(症状イベントのリ
スト)との要素を互いに比較し、要素が一致する場合に
は0、一方の要素のみ存在し他方に要素が存在しない場
合には1、をそれぞれ与え、こうして得られた値を全て
加算することにより得られる。例えばIL5の状態デー
タとMoState2とを比較すると、これらに出現す
るOutDown、Reflect(いずれもIL5の
状態データ)およびEqp(MoState2)は、い
ずれも相手側に対応する要素が存在しない。したがって
上記した計算方法にしたがうと1+1+1=3となる。
これがIL5の状態データとMoState2との距離
である。同様にして各状態パターンとの距離を各MOイ
ンスタンスごとに計算できる。なお表7において空白で
ある部分は、表3に示されるProblem−MO状態
相関表82において出現しないMoStateに関する距
離である。これらの状態の発生はあり得ないと想定され
るので、ここで計算しておく必要はない。もちろん計算
しておいてもよいが、本実施の形態ではその値は利用さ
れない。
状態の各々が含む症状イベントのリストと、1行目のM
oクラスInlineAmpのインスタンスIL5,I
L6に対して観測された状態データ(症状イベントのリ
スト)との要素を互いに比較し、要素が一致する場合に
は0、一方の要素のみ存在し他方に要素が存在しない場
合には1、をそれぞれ与え、こうして得られた値を全て
加算することにより得られる。例えばIL5の状態デー
タとMoState2とを比較すると、これらに出現す
るOutDown、Reflect(いずれもIL5の
状態データ)およびEqp(MoState2)は、い
ずれも相手側に対応する要素が存在しない。したがって
上記した計算方法にしたがうと1+1+1=3となる。
これがIL5の状態データとMoState2との距離
である。同様にして各状態パターンとの距離を各MOイ
ンスタンスごとに計算できる。なお表7において空白で
ある部分は、表3に示されるProblem−MO状態
相関表82において出現しないMoStateに関する距
離である。これらの状態の発生はあり得ないと想定され
るので、ここで計算しておく必要はない。もちろん計算
しておいてもよいが、本実施の形態ではその値は利用さ
れない。
【0075】なお、表7には示されていないが、たとえ
ば「MoState8:Outdown, InDow
n」のようなMo状態パターンが存在する場合、このパ
ターンを実際に発生した症状データのうちたとえばIL
6[InDown, Outdown]と比較すると、
発生した症状イベントの種類は一致するが発生順序が異
なっている。その場合にも上述の計算方法にしたがって
距離を「0」として計算することも可能であるが、順序
が異なるので、より遠い距離、たとえば「0.5」を与
えるようにしてもよい。実際にどのような値を割り当て
るかは、ネットワークの構成、環境、症状イベントの発
生状況に応じて選択されるべきである。
ば「MoState8:Outdown, InDow
n」のようなMo状態パターンが存在する場合、このパ
ターンを実際に発生した症状データのうちたとえばIL
6[InDown, Outdown]と比較すると、
発生した症状イベントの種類は一致するが発生順序が異
なっている。その場合にも上述の計算方法にしたがって
距離を「0」として計算することも可能であるが、順序
が異なるので、より遠い距離、たとえば「0.5」を与
えるようにしてもよい。実際にどのような値を割り当て
るかは、ネットワークの構成、環境、症状イベントの発
生状況に応じて選択されるべきである。
【0076】なお、上記したMO状態パターンとMO状
態データとの相違度の計算方法を一般化すると以下のと
おりである。MO状態パターンとMO状態データとのS
ymptom要素を互いに比較し、(順序は無視して)
両方に同じデータが含まれる場合は1−P(MO状態パ
ターンの確率をPとする。ただし0≦P≦1)とし、片
方にしか要素が存在しないときにはP(MO状態パター
ンにだけ要素が存在し、かつその確率がPのとき)とし
て各要素ごとに値を定め、これらの合計を計算してd1
とする。
態データとの相違度の計算方法を一般化すると以下のと
おりである。MO状態パターンとMO状態データとのS
ymptom要素を互いに比較し、(順序は無視して)
両方に同じデータが含まれる場合は1−P(MO状態パ
ターンの確率をPとする。ただし0≦P≦1)とし、片
方にしか要素が存在しないときにはP(MO状態パター
ンにだけ要素が存在し、かつその確率がPのとき)とし
て各要素ごとに値を定め、これらの合計を計算してd1
とする。
【0077】次に、MO状態パターンとMO状態データ
とのSymptom要素を互いに比較し、両方に含まれ
る要素をMO状態パターンとMO状態データにおいて順
序を保存して抽出する。そして、これらの間で順序の異
なる箇所の個数(すなわち、何箇所入れ替えれば同じ順
序になるか)をカウントする。その値をnとする。
とのSymptom要素を互いに比較し、両方に含まれ
る要素をMO状態パターンとMO状態データにおいて順
序を保存して抽出する。そして、これらの間で順序の異
なる箇所の個数(すなわち、何箇所入れ替えれば同じ順
序になるか)をカウントする。その値をnとする。
【0078】こうして求められた値d1とnとを用い
て、求める相違度dを以下の式により計算する。
て、求める相違度dを以下の式により計算する。
【0079】d=d1+k×n ただしここでkは定数で例えば0.5とする。
【0080】さらに図4を参照して障害管理部34は、P
roblem−MO状態相関表82とMOクラス状態パタ
ーンリスト72とから障害原因の候補リスト86を生成する
ためのMOクラス状態パターンリスト相違度計算部78
と、この候補リスト86をユーザインタフェース部36を用
いてユーザに対して提示するための障害原因の候補通知
部88とを含む。
roblem−MO状態相関表82とMOクラス状態パタ
ーンリスト72とから障害原因の候補リスト86を生成する
ためのMOクラス状態パターンリスト相違度計算部78
と、この候補リスト86をユーザインタフェース部36を用
いてユーザに対して提示するための障害原因の候補通知
部88とを含む。
【0081】Problem相違度計算部84による計算
方法を表8に示す。
方法を表8に示す。
【0082】
【表8】
【0083】表8を参照して、Problem相違度計
算部84は、Problem−MO状態相関表82(表3参
照)の各プロブレムごとに以下に述べるように距離を計
算する。まず、そのプロブレムに対応して各インスタン
スごとに表中に記載されているMoState名を調べ
る。たとえばプロブレムP_AlarmIfに対し、イ
ンスタンスIL5についてはMoState2が、イン
スタンスIL6についてはMoState1が、それぞ
れProblem−MO状態相関表管理部80から得られ
る。インスタンスIL5について、MoState2と
の距離を表7から求めると3である。同様にしてインス
タンスIL6についてMoState1との距離を表7
から求めると2である。Problem相違度計算部84
は、こうしてこのプロブレムに対して各インスタンスご
とに求めた距離を単純に累算する。つまり、表8に示さ
れるようにプロブレムP_AlarmIfについて計算
された距離は3+2=5である。以下同様にして各プロ
ブレムについて距離を計算する。その結果を表8の右端
の列に示す。
算部84は、Problem−MO状態相関表82(表3参
照)の各プロブレムごとに以下に述べるように距離を計
算する。まず、そのプロブレムに対応して各インスタン
スごとに表中に記載されているMoState名を調べ
る。たとえばプロブレムP_AlarmIfに対し、イ
ンスタンスIL5についてはMoState2が、イン
スタンスIL6についてはMoState1が、それぞ
れProblem−MO状態相関表管理部80から得られ
る。インスタンスIL5について、MoState2と
の距離を表7から求めると3である。同様にしてインス
タンスIL6についてMoState1との距離を表7
から求めると2である。Problem相違度計算部84
は、こうしてこのプロブレムに対して各インスタンスご
とに求めた距離を単純に累算する。つまり、表8に示さ
れるようにプロブレムP_AlarmIfについて計算
された距離は3+2=5である。以下同様にして各プロ
ブレムについて距離を計算する。その結果を表8の右端
の列に示す。
【0084】なおこの計算において、Problem−
MO状態相関表82に存在するMOインスタンスで、その
MOインスタンスが表6に存在しない場合には、そのM
Oインスタンスについて症状イベントが未観測であるこ
とを意味する。この場合、予め次の表9に示すように各
MoStateに対して未観測であった場合の値を計算
しておき、その値を上記計算に使用する。
MO状態相関表82に存在するMOインスタンスで、その
MOインスタンスが表6に存在しない場合には、そのM
Oインスタンスについて症状イベントが未観測であるこ
とを意味する。この場合、予め次の表9に示すように各
MoStateに対して未観測であった場合の値を計算
しておき、その値を上記計算に使用する。
【0085】
【表9】
【0086】こうして計算された値のうち最も距離が小
さい値に対応するプロブレムを障害原因の候補として通
知する。上記例ではP_Connectorとなる。
さい値に対応するプロブレムを障害原因の候補として通
知する。上記例ではP_Connectorとなる。
【0087】このとき、たとえば次のようにしてあるプ
ロブレムが真の障害原因であることの「確信度」zを計
算できる。
ロブレムが真の障害原因であることの「確信度」zを計
算できる。
【0088】
【数1】
【0089】上式のzは0〜100%の値をとる。この
確信度zを各障害原因の候補に付加して通知する。そう
した確信度を付して利用者に提示することにより、利用
者は、相違度という尺度でなく、より直感的に、容易に
障害原因が正解である確率を認識できる。
確信度zを各障害原因の候補に付加して通知する。そう
した確信度を付して利用者に提示することにより、利用
者は、相違度という尺度でなく、より直感的に、容易に
障害原因が正解である確率を認識できる。
【0090】以下、図1〜図4に示す本願発明の実施の
形態に係るネットワーク管理システム20の動作について
説明する。ネットワーク管理インターフェイス部24は、
SNMP等のネットワーク管理プロトコルを用いて、管理対
象装置のMIB 等のデータを取得したりポーリングしたり
する。またネットワーク管理インターフェイス部24は、
管理対象装置からのトラップイベントを受信する。ネッ
トワーク管理インターフェイス部24はさらに、管理対象
装置から取得したデータのうち構成情報に関するデータ
は構成管理部30に、障害情報に関するデータはイベント
データベース部26に、それぞれ適当な形式に変換して送
る。
形態に係るネットワーク管理システム20の動作について
説明する。ネットワーク管理インターフェイス部24は、
SNMP等のネットワーク管理プロトコルを用いて、管理対
象装置のMIB 等のデータを取得したりポーリングしたり
する。またネットワーク管理インターフェイス部24は、
管理対象装置からのトラップイベントを受信する。ネッ
トワーク管理インターフェイス部24はさらに、管理対象
装置から取得したデータのうち構成情報に関するデータ
は構成管理部30に、障害情報に関するデータはイベント
データベース部26に、それぞれ適当な形式に変換して送
る。
【0091】構成管理部30は、管理対象オブジェクトモ
デルと、これに関連したイベント伝播モデルとを保持す
る。なおこれらモデルは、図3に示すハードディスク54
内のファイル(図示せず)から読込むこともできるし、
ユーザインターフェイス部36を介してユーザが入力する
ことも可能である。
デルと、これに関連したイベント伝播モデルとを保持す
る。なおこれらモデルは、図3に示すハードディスク54
内のファイル(図示せず)から読込むこともできるし、
ユーザインターフェイス部36を介してユーザが入力する
ことも可能である。
【0092】構成管理部30はさらに、ネットワーク管理
インターフェイス部24から図8に示されるネットワーク
例のような構成情報データを受取り、管理対象オブジェ
クトモデルに基づいて管理対象オブジェクト構成情報を
構築する。この管理対象オブジェクト構成情報は管理対
象オブジェクトリポジトリ32に保持される。
インターフェイス部24から図8に示されるネットワーク
例のような構成情報データを受取り、管理対象オブジェ
クトモデルに基づいて管理対象オブジェクト構成情報を
構築する。この管理対象オブジェクト構成情報は管理対
象オブジェクトリポジトリ32に保持される。
【0093】イベントデータベース部26は、構成情報デ
ータおよび所定のタイムウィンドウの間に発生する症状
イベントに関する通知をネットワーク管理インターフェ
イス部24から受けて、それらを症状イベントリポジトリ
28に保持する。イベントデータベース部26はこれらイベ
ントの中で、障害情報に関するデータ、特に障害の症状
イベントを障害管理部34に通知する。
ータおよび所定のタイムウィンドウの間に発生する症状
イベントに関する通知をネットワーク管理インターフェ
イス部24から受けて、それらを症状イベントリポジトリ
28に保持する。イベントデータベース部26はこれらイベ
ントの中で、障害情報に関するデータ、特に障害の症状
イベントを障害管理部34に通知する。
【0094】障害管理部34は、イベントデータベース部
26から所定のタイムウィンドウの間に発生した障害の症
状イベントの集合を受取る。障害管理部34は、構成管理
部30から受取った管理対象オブジェクト構成情報と、イ
ベントデータベース部26から受取った実際に観測された
症状イベントの集合とに基づき、上で説明した方法によ
って障害の根本原因の問題の候補を特定する。特定され
た問題の候補はユーザインターフェイス部36に通知され
る。
26から所定のタイムウィンドウの間に発生した障害の症
状イベントの集合を受取る。障害管理部34は、構成管理
部30から受取った管理対象オブジェクト構成情報と、イ
ベントデータベース部26から受取った実際に観測された
症状イベントの集合とに基づき、上で説明した方法によ
って障害の根本原因の問題の候補を特定する。特定され
た問題の候補はユーザインターフェイス部36に通知され
る。
【0095】ユーザインターフェイス部36は、図2およ
び図3に示されるディスプレイ42などによりこの障害の
根本原因の問題の候補をユーザに提示する。このとき、
計算された相違度が最も小さい障害原因のみを提示して
もよいし、相違度の小さいものから順に予め定められた
個数だけ候補として提示するようにしてもよい。複数個
提示する場合には、伝播モデルが完全でない場合、また
は観測した症状イベントにノイズ(発生するはずの症状
イベントが観測されなかったり、関係のない症状イベン
トが観測されたりすること)が含まれる場合でも、候補
リストの中に正しい解が含まれる可能性が高くなる。ま
たこのリストの提示を受けて利用者が実際に候補として
あげられたネットワーク機器を調べることにより、最終
的に原因を特定することが容易になる。
び図3に示されるディスプレイ42などによりこの障害の
根本原因の問題の候補をユーザに提示する。このとき、
計算された相違度が最も小さい障害原因のみを提示して
もよいし、相違度の小さいものから順に予め定められた
個数だけ候補として提示するようにしてもよい。複数個
提示する場合には、伝播モデルが完全でない場合、また
は観測した症状イベントにノイズ(発生するはずの症状
イベントが観測されなかったり、関係のない症状イベン
トが観測されたりすること)が含まれる場合でも、候補
リストの中に正しい解が含まれる可能性が高くなる。ま
たこのリストの提示を受けて利用者が実際に候補として
あげられたネットワーク機器を調べることにより、最終
的に原因を特定することが容易になる。
【0096】または、あるしきい値を設けておき、その
しきい値よりも小さな相違度を有する障害原因を表示す
るようにしてもよい。この方法は、経験的に、相違度が
ある値以下の障害原因の中に真の障害原因が含まれる可
能性が高いということが分かっている場合に、それらを
全て利用者に通知するので、利用者は効率的に障害原因
を探ることができて有利である。
しきい値よりも小さな相違度を有する障害原因を表示す
るようにしてもよい。この方法は、経験的に、相違度が
ある値以下の障害原因の中に真の障害原因が含まれる可
能性が高いということが分かっている場合に、それらを
全て利用者に通知するので、利用者は効率的に障害原因
を探ることができて有利である。
【0097】ここで、MOクラス状態パターンリスト72
の自動生成方法について述べる。自動生成は次の手順に
したがう。なおこの手順にしたがった疑似プログラムを
表10に示す。
の自動生成方法について述べる。自動生成は次の手順に
したがう。なおこの手順にしたがった疑似プログラムを
表10に示す。
【0098】
【表10】
【0099】・手順1: 各MOクラスの各プロブレム
について「Propagate」を一つずつ辿ってい
き、伝播先MOクラス(クラス内伝播の場合には自MO
クラス)の伝播症状イベントにより、MO状態パターン
を一つずつ定義する。同一MOクラスに同一のMO状態
パターンが存在すれば、新しい状態パターンは定義しな
い。伝播が終了したら手順2に進む。
について「Propagate」を一つずつ辿ってい
き、伝播先MOクラス(クラス内伝播の場合には自MO
クラス)の伝播症状イベントにより、MO状態パターン
を一つずつ定義する。同一MOクラスに同一のMO状態
パターンが存在すれば、新しい状態パターンは定義しな
い。伝播が終了したら手順2に進む。
【0100】・手順2: 次のプロブレムについて手順
1と同様の処理を行う。終了したら手順3に進む。
1と同様の処理を行う。終了したら手順3に進む。
【0101】・手順3: 次のMOクラスについて同様
の処理を行う。 このようにこの発明にかかるネットワーク管理システム
では、障害イベントの関連付けをMOインスタンス単位
で実施する。MOクラスごとに障害イベントの発生パタ
ーンから定義されるMO状態パターンを一括管理し、共
有する。そのため、表1に示されるような従来の大きな
イベント相関表を用いたアプローチと比較して必要メモ
リ量を削減することができる。
の処理を行う。 このようにこの発明にかかるネットワーク管理システム
では、障害イベントの関連付けをMOインスタンス単位
で実施する。MOクラスごとに障害イベントの発生パタ
ーンから定義されるMO状態パターンを一括管理し、共
有する。そのため、表1に示されるような従来の大きな
イベント相関表を用いたアプローチと比較して必要メモ
リ量を削減することができる。
【0102】また、MOクラスごとに障害イベントの関
連付けに必要な計算を行いその結果を再利用する。その
ため障害原因の特定に必要な計算量が削減される。特
に、従来のようにイベント相関表を用いた場合には発生
した症状イベント数の数に関わらず一定の計算時間が必
要であったが、本願発明によれば、発生した症状イベン
トに対してだけ計算を相違度の計算を行うので、症状イ
ベントの数が少なくなると、必要な計算量も減少するた
め有利である。
連付けに必要な計算を行いその結果を再利用する。その
ため障害原因の特定に必要な計算量が削減される。特
に、従来のようにイベント相関表を用いた場合には発生
した症状イベント数の数に関わらず一定の計算時間が必
要であったが、本願発明によれば、発生した症状イベン
トに対してだけ計算を相違度の計算を行うので、症状イ
ベントの数が少なくなると、必要な計算量も減少するた
め有利である。
【0103】また、上記した実施の形態では、図5に示
されるように、MOごとに症状イベントの発生順序を考
慮したイベントの関連付けを行っており、同じイベント
が発生した場合であってもその発生順序が異なっている
場合には、結果として生じた状態を区別している。その
ためイベント相関表を用いた場合のように順序を考慮す
ることができないものと比較してより正確な推論が可能
となる。
されるように、MOごとに症状イベントの発生順序を考
慮したイベントの関連付けを行っており、同じイベント
が発生した場合であってもその発生順序が異なっている
場合には、結果として生じた状態を区別している。その
ためイベント相関表を用いた場合のように順序を考慮す
ることができないものと比較してより正確な推論が可能
となる。
【0104】もちろん、図6に示されるように、イベン
トの発生順序が異なっていても、最終的に発生したイベ
ントの種類(および数)が一致していれば結果として生
じた状態は同一であるとしてもよい。この場合、図7を
参照して説明した本実施の形態におけるMoState
ごとの距離の計算方法ではなく、順序を考慮しない計算
方法とする必要があるが、そのための変更は当業者には
明白である。
トの発生順序が異なっていても、最終的に発生したイベ
ントの種類(および数)が一致していれば結果として生
じた状態は同一であるとしてもよい。この場合、図7を
参照して説明した本実施の形態におけるMoState
ごとの距離の計算方法ではなく、順序を考慮しない計算
方法とする必要があるが、そのための変更は当業者には
明白である。
【0105】また、Problem−MO状態相関表82
の生成時に、MOインスタンスごとに、出現するMoS
tateのリストを保持し、このリスト内のMoSta
teについてのみ距離計算を行う。そのためすべてのM
oStateについて距離計算を行う場合と比較して計
算量を削減でき処理を高速化することができる。
の生成時に、MOインスタンスごとに、出現するMoS
tateのリストを保持し、このリスト内のMoSta
teについてのみ距離計算を行う。そのためすべてのM
oStateについて距離計算を行う場合と比較して計
算量を削減でき処理を高速化することができる。
【0106】すべてのMOクラスの状態パターンリスト
を自動生成することができるので、稼動時に伝播モデル
を動的に更新する場合でも、自動的に計算方法を適合さ
せることができる。また、自動化により、処理を高速化
することができる。
を自動生成することができるので、稼動時に伝播モデル
を動的に更新する場合でも、自動的に計算方法を適合さ
せることができる。また、自動化により、処理を高速化
することができる。
【0107】さらに、MOの状態データごとに、対応す
るMOクラス状態パターンリストとの相違度を症状イベ
ントの発生パターン間の距離として与えるため、計算が
容易で、かつ推論が正確となる。
るMOクラス状態パターンリストとの相違度を症状イベ
ントの発生パターン間の距離として与えるため、計算が
容易で、かつ推論が正確となる。
【0108】本実施の形態のネットワーク管理システム
では、MOの状態データごとにMOクラス状態パターン
リスト72との相違度を計算する処理と、計算結果とPr
oblem−MO状態相関表82とを用いて障害原因の候
補を定める処理とを、タイマを用いてある一定の時間間
隔ごとに自動的に実行する。そうすることにより、利用
者が積極的に障害原因を調べようとしなくとも、障害原
因が定期的に通知される。そのため迅速な対応が可能と
なる。もちろん、このようにタイマを用いずに、利用者
からの指示によって上記した処理を行うようにしてもよ
い。
では、MOの状態データごとにMOクラス状態パターン
リスト72との相違度を計算する処理と、計算結果とPr
oblem−MO状態相関表82とを用いて障害原因の候
補を定める処理とを、タイマを用いてある一定の時間間
隔ごとに自動的に実行する。そうすることにより、利用
者が積極的に障害原因を調べようとしなくとも、障害原
因が定期的に通知される。そのため迅速な対応が可能と
なる。もちろん、このようにタイマを用いずに、利用者
からの指示によって上記した処理を行うようにしてもよ
い。
【0109】なお、図7に示すように、ネットワーク管
理システム20を、既存のネットワーク管理システム11
0 を介して管理対象ネットワーク22に接続してもよ
い。
理システム20を、既存のネットワーク管理システム11
0 を介して管理対象ネットワーク22に接続してもよ
い。
【0110】さらに、上記した各実施の形態において、
過去に発生したイベントログを解析することにより、伝
播モデル37に定義されていないイベント伝播ルールが発
見されることがあり得る。その場合には、伝播モデル37
の内容を新たに発見された伝播ルールを用いて更新した
のち、以後の処理を再実行することにより、より正確な
障害原因の推論が行なえる。
過去に発生したイベントログを解析することにより、伝
播モデル37に定義されていないイベント伝播ルールが発
見されることがあり得る。その場合には、伝播モデル37
の内容を新たに発見された伝播ルールを用いて更新した
のち、以後の処理を再実行することにより、より正確な
障害原因の推論が行なえる。
【0111】イベント伝播ルールの自動的な検出として
は、次のような方法が考えられる。たとえば任意の二つ
のイベントS1,S2について、あるタイムウィンドウ
内においてイベントS1が発生していた時間t1と、イ
ベントS2が発生していた時間t2と、これら二つのイ
ベントが同時に発生していた時間t12との間から、た
とえば以下の式によりこれらイベント間の相関の度合い
C(S1,S2)が計算される。
は、次のような方法が考えられる。たとえば任意の二つ
のイベントS1,S2について、あるタイムウィンドウ
内においてイベントS1が発生していた時間t1と、イ
ベントS2が発生していた時間t2と、これら二つのイ
ベントが同時に発生していた時間t12との間から、た
とえば以下の式によりこれらイベント間の相関の度合い
C(S1,S2)が計算される。
【0112】
【数2】
【0113】この値C(S1,S2)を、タイムウィン
ドウ内で発生したすべての障害イベントの間で計算す
る。そして、この値があるしきい値をこえたときにこれ
らイベント間に伝播関係があると推定する。こうして検
出された伝播関係のうち、伝播モデル37に未だ記述され
ていないルールを追加すればよい。もちろん、相関の度
合いを計算する式は上記した式には限定されず、種々の
式を用いることができる。
ドウ内で発生したすべての障害イベントの間で計算す
る。そして、この値があるしきい値をこえたときにこれ
らイベント間に伝播関係があると推定する。こうして検
出された伝播関係のうち、伝播モデル37に未だ記述され
ていないルールを追加すればよい。もちろん、相関の度
合いを計算する式は上記した式には限定されず、種々の
式を用いることができる。
【0114】以上、本願発明にかかるネットワーク管理
システムを実施の形態に基づいて説明してきたが、本願
発明はこれら実施の形態のシステムに限定されるわけで
はない。本願発明の権利範囲は、特許請求の範囲の各請
求項の記載によって定められるべきである。本願明細書
に開示された実施の形態の各構成要素と均等の構成要素
を用いたものも本願発明の権利範囲に含まれる。
システムを実施の形態に基づいて説明してきたが、本願
発明はこれら実施の形態のシステムに限定されるわけで
はない。本願発明の権利範囲は、特許請求の範囲の各請
求項の記載によって定められるべきである。本願明細書
に開示された実施の形態の各構成要素と均等の構成要素
を用いたものも本願発明の権利範囲に含まれる。
【図1】図1は、本願発明の一実施の形態に係るネット
ワーク管理システムのブロック図である。
ワーク管理システムのブロック図である。
【図2】図2は、本願発明に係るネットワーク管理シス
テムを実現するためのコンピュータの外観図である。
テムを実現するためのコンピュータの外観図である。
【図3】図3は、図2に示されるコンピュータのブロッ
ク図である。
ク図である。
【図4】図4は、本願発明の実施の形態のネットワーク
管理システムの障害管理部34のブロック図である。
管理システムの障害管理部34のブロック図である。
【図5】図5は、本願発明の実施の形態における、症状
イベントの発生順序に応じて異なったMoStateと
いう概念を説明するための図である。
イベントの発生順序に応じて異なったMoStateと
いう概念を説明するための図である。
【図6】図6は、症状イベントの発生順序にかかわらず
同一のMoStateという概念を説明するための図で
ある。
同一のMoStateという概念を説明するための図で
ある。
【図7】図7は、本願発明の他の実施の形態にかかるネ
ットワーク管理システムを示すブロック図である。
ットワーク管理システムを示すブロック図である。
【図8】図8は、簡単なネットワークを模式的に示す図
である。
である。
【図9】図9は、図8に示されるネットワークの管理対
象オブジェクトモデルのクラス図である。
象オブジェクトモデルのクラス図である。
20 ネットワーク管理システム 22 管理対象ネットワーク 24 ネットワーク管理インタフェース部 26 イベントデータベース部 28 イベントリポジトリ 30 構成管理部 32 管理対象オブジェクトリポジトリ 34 障害管理部 36 ユーザインタフェース部 40 コンピュータ本体 42 ディスプレイ 44 プリンタ 46 キーボード 48 マウス 50 CD-ROMドライブ 52 FDドライブ 54 ハードディスク 56 CPU 58 ROM 60 RAM 62 CD-ROM 64 フレキシブルディスク
Claims (12)
- 【請求項1】 ネットワーク上の管理対象オブジェクト
構成情報を保持する構成情報保持手段と、 ネットワーク上に発生するイベントのグローバルな定義
と、管理対象オブジェクトクラス内および管理対象オブ
ジェクトクラス間でのイベント伝播の定義とに基づき、
各管理対象オブジェクトクラスに伝播するイベントをト
リガーとした状態遷移により管理対象オブジェクトクラ
ス状態パターンを各管理対象オブジェクトクラスごとに
定義した管理対象オブジェクトクラス状態パターンリス
トを、生成し維持するための管理対象オブジェクトクラ
ス状態パターンリスト管理手段と、 前記イベントの定義と、前記イベント伝播の定義と、前
記管理対象オブジェクトクラス状態パターンリストとに
基づいて、問題イベントと、当該問題イベントにより影
響を受ける管理対象オブジェクトの状態パターンとの間
の相関関係を、前記管理対象オブジェクトクラス状態パ
ターンを参照して記述した問題−管理対象オブジェクト
状態相関表を生成し維持するための問題−管理対象オブ
ジェクト状態相関表管理手段と、 ネットワークから通知される障害イベント情報に応答し
て、前記問題−管理対象オブジェクト状態相関表と、前
記管理対象オブジェクトクラス状態パターンリストとに
基づいて障害の原因を推論するための推論手段とを含
む、ネットワーク管理システム。 - 【請求項2】 前記推論手段は、障害イベント情報に基
づき、障害イベントの発生を管理対象オブジェクトのイ
ンスタンスごとにその出現順とともに管理して管理対象
オブジェクトの状態データを作成するための状態データ
管理手段と、 前記管理対象オブジェクトの状態データごとに、対応す
る管理対象オブジェクトクラス状態パターンリストとの
間の予め定義された相違の尺度を計算するための相違尺
度計算手段と、 前記問題−管理対象オブジェクト状態相関表において、
各問題イベントごとに、管理対象オブジェクトの状態パ
ターンとの間の相関関係の記述時に参照された管理対象
オブジェクトクラス状態パターンについて計算された前
記相違の尺度を合計し、相違の尺度の低い問題イベント
を特定して障害原因の候補とするための候補特定手段と
を含む、請求項1に記載のネットワーク管理システム。 - 【請求項3】 前記問題−管理対象オブジェクト状態相
関表管理手段は、前記問題−管理対象オブジェクト状態
相関表の生成時に、各管理対象オブジェクトインスタン
スごとに、出現する管理対象オブジェクトクラス状態パ
ターンのリストを生成し保持しており、 前記相違尺度計算手段は、相違の尺度の計算にあたり、
前記出現する管理対象オブジェクトクラス状態パターン
のリスト上の管理対象オブジェクトクラス状態パターン
についてのみ相違の尺度を計算する、請求項2に記載の
ネットワーク管理システム。 - 【請求項4】 前記管理対象オブジェクトクラス状態パ
ターンリスト管理手段は、各管理対象オブジェクトクラ
スに伝播するイベントをトリガーとし、かつイベントの
発生順序をも考慮して区別される状態遷移により管理対
象オブジェクトクラス状態パターンを生成し維持する、
請求項1に記載のネットワーク管理システム。 - 【請求項5】 前記管理対象オブジェクトクラス状態パ
ターンリスト管理手段は、前記イベント定義と、前記イ
ベント伝播定義とに基づき、各問題イベントを起点とし
てイベント伝播をたどることによりすべての管理対象オ
ブジェクトの状態パターンリストを自動生成する、請求
項1に記載のネットワーク管理システム。 - 【請求項6】 前記相違の尺度は、前記管理対象オブジ
ェクトの状態データごとに、対応する管理対象オブジェ
クトクラス状態パターンリストとの間で計算される距離
として定義される、請求項2に記載のネットワーク管理
システム。 - 【請求項7】 前記相違の尺度は、同一種類の症状イベ
ントが異なる順序で発生した障害情報に対しては異なる
相違の尺度となるように定義される、請求項2に記載の
ネットワーク管理システム。 - 【請求項8】 前記候補特定手段は、相違の尺度の小さ
いものから予め定められた個数の問題イベントを障害原
因の候補として通知することを特徴とする、請求項2に
記載のネットワーク管理システム。 - 【請求項9】 前記候補特定手段は、予め定められた値
よりも小さな相違の尺度を有する問題イベントを障害原
因の候補として通知することを特徴とする、請求項2に
記載のネットワーク管理システム。 - 【請求項10】 前記候補特定手段は、前記相違の尺度
の値に基づいて、各障害原因に推論の確信度を付与する
ための手段をさらに含む、請求項2、請求項8または請
求項9に記載のネットワーク管理システム。 - 【請求項11】 前記問題−管理対象オブジェクト状態
相関表管理手段、相違尺度計算手段および候補特定手段
を一定期間ごとに自動的に動作させるための手段をさら
に含む、請求項2に記載のネットワーク管理システム。 - 【請求項12】 イベントログを解析することにより、
新たなイベント伝播のルールを抽出するための手段と、 新たにイベント伝播のルールが抽出された場合に前記イ
ベント伝播の定義を更新するための手段と、 更新されたイベント伝播の定義を用いて前記問題−管理
対象オブジェクト状態相関表管理手段、相違尺度計算手
段および候補特定手段を再度動作させるための手段とを
さらに含む、請求項1に記載のネットワーク管理システ
ム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10112397A JPH11308222A (ja) | 1998-04-22 | 1998-04-22 | ネットワーク管理システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10112397A JPH11308222A (ja) | 1998-04-22 | 1998-04-22 | ネットワーク管理システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH11308222A true JPH11308222A (ja) | 1999-11-05 |
Family
ID=14585647
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10112397A Withdrawn JPH11308222A (ja) | 1998-04-22 | 1998-04-22 | ネットワーク管理システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH11308222A (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004061681A1 (ja) * | 2002-12-26 | 2004-07-22 | Fujitsu Limited | 運用管理方法および運用管理サーバ |
JP2007096796A (ja) * | 2005-09-29 | 2007-04-12 | Fujitsu Ltd | ネットワーク障害診断装置、ネットワーク障害診断方法およびネットワーク障害診断プログラム |
JP2008046695A (ja) * | 2006-08-11 | 2008-02-28 | Kobe Univ | 類似度評価プログラム、類似度評価装置及び類似度評価方法 |
JP2010108223A (ja) * | 2008-10-30 | 2010-05-13 | Internatl Business Mach Corp <Ibm> | 障害イベントの検出を支援する装置、障害イベントの検出を支援する方法及びコンピュータプログラム |
JP2010108225A (ja) * | 2008-10-30 | 2010-05-13 | Internatl Business Mach Corp <Ibm> | 障害イベントの検出を支援する装置、障害イベントの検出を支援する方法及びコンピュータプログラム |
JP2010108224A (ja) * | 2008-10-30 | 2010-05-13 | Internatl Business Mach Corp <Ibm> | 障害イベントの検出を支援する装置、障害イベントの検出を支援する方法及びコンピュータプログラム |
WO2013125037A1 (ja) * | 2012-02-24 | 2013-08-29 | 株式会社日立製作所 | コンピュータプログラムおよび管理計算機 |
JP2017069895A (ja) * | 2015-10-02 | 2017-04-06 | 株式会社日立製作所 | 障害切り分け方法および障害切り分けを行う管理サーバ |
-
1998
- 1998-04-22 JP JP10112397A patent/JPH11308222A/ja not_active Withdrawn
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004061681A1 (ja) * | 2002-12-26 | 2004-07-22 | Fujitsu Limited | 運用管理方法および運用管理サーバ |
AU2002359925B2 (en) * | 2002-12-26 | 2008-10-23 | Fujitsu Limited | Operation managing method and operation managing server |
US7506195B2 (en) | 2002-12-26 | 2009-03-17 | Fujitsu Limited | Operation management method and operation management server |
JP2007096796A (ja) * | 2005-09-29 | 2007-04-12 | Fujitsu Ltd | ネットワーク障害診断装置、ネットワーク障害診断方法およびネットワーク障害診断プログラム |
JP4527642B2 (ja) * | 2005-09-29 | 2010-08-18 | 富士通株式会社 | ネットワーク障害診断装置、ネットワーク障害診断方法およびネットワーク障害診断プログラム |
JP2008046695A (ja) * | 2006-08-11 | 2008-02-28 | Kobe Univ | 類似度評価プログラム、類似度評価装置及び類似度評価方法 |
JP2010108223A (ja) * | 2008-10-30 | 2010-05-13 | Internatl Business Mach Corp <Ibm> | 障害イベントの検出を支援する装置、障害イベントの検出を支援する方法及びコンピュータプログラム |
JP2010108225A (ja) * | 2008-10-30 | 2010-05-13 | Internatl Business Mach Corp <Ibm> | 障害イベントの検出を支援する装置、障害イベントの検出を支援する方法及びコンピュータプログラム |
JP2010108224A (ja) * | 2008-10-30 | 2010-05-13 | Internatl Business Mach Corp <Ibm> | 障害イベントの検出を支援する装置、障害イベントの検出を支援する方法及びコンピュータプログラム |
WO2013125037A1 (ja) * | 2012-02-24 | 2013-08-29 | 株式会社日立製作所 | コンピュータプログラムおよび管理計算機 |
JP5670598B2 (ja) * | 2012-02-24 | 2015-02-18 | 株式会社日立製作所 | コンピュータプログラムおよび管理計算機 |
JP2017069895A (ja) * | 2015-10-02 | 2017-04-06 | 株式会社日立製作所 | 障害切り分け方法および障害切り分けを行う管理サーバ |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10291463B2 (en) | Large-scale distributed correlation | |
US9098563B2 (en) | Comparing versions of a hierarchical object | |
Zou et al. | Uilog: Improving log-based fault diagnosis by log analysis | |
US8583779B2 (en) | Root cause analysis approach with candidate elimination using network virtualization | |
JP2019502191A (ja) | サービス呼び出し情報処理の方法及びデバイス | |
JP5532053B2 (ja) | 運用管理装置及び運用管理方法 | |
US20070250525A1 (en) | Model-Based Event Processing | |
US20230040635A1 (en) | Graph-based impact analysis of misconfigured or compromised cloud resources | |
US10180872B2 (en) | Methods and systems that identify problems in applications | |
JP2008090762A (ja) | 分散した部品木から故障部品の組み合わせを求める方法、システム | |
US20110246499A1 (en) | Method and system for evaluating compliance within a configuration-management system | |
US7519961B2 (en) | Method and apparatus for averaging out variations in run-to-run path data of a computer program | |
Meedeniya et al. | Traceability establishment and visualization of software artefacts in devops practice: a survey | |
US10979295B2 (en) | Automatically discovering topology of an information technology (IT) infrastructure | |
Peng et al. | Mining logs files for data-driven system management | |
US20230281070A1 (en) | Methods and systems for identifying and resolving root causes of performance problems in data center object | |
JPH11308222A (ja) | ネットワーク管理システム | |
US8626894B2 (en) | Generating visualization output of event correlation information | |
Meng et al. | Driftinsight: detecting anomalous behaviors in large-scale cloud platform | |
US11815989B2 (en) | Automated methods and systems for identifying problems in data center objects | |
US11816210B2 (en) | Risk-based alerting for computer security | |
WO2023067423A1 (en) | Techniques for semantic analysis of cybersecurity event data and remediation of cybersecurity event root causes | |
EP4208827A1 (en) | Process tree discovery using a probabilistic inductive miner | |
Shan et al. | Consistency check in modelling multi-agent systems | |
JPH11308221A (ja) | ネットワーク管理システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20050705 |