JP2000020428A - ネットワーク管理システム - Google Patents

ネットワーク管理システム

Info

Publication number
JP2000020428A
JP2000020428A JP10191772A JP19177298A JP2000020428A JP 2000020428 A JP2000020428 A JP 2000020428A JP 10191772 A JP10191772 A JP 10191772A JP 19177298 A JP19177298 A JP 19177298A JP 2000020428 A JP2000020428 A JP 2000020428A
Authority
JP
Japan
Prior art keywords
network management
management system
event
worker
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP10191772A
Other languages
English (en)
Inventor
Yoshinori Takenami
佳則 武並
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sumitomo Electric Industries Ltd
Original Assignee
Sumitomo Electric Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sumitomo Electric Industries Ltd filed Critical Sumitomo Electric Industries Ltd
Priority to JP10191772A priority Critical patent/JP2000020428A/ja
Publication of JP2000020428A publication Critical patent/JP2000020428A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Small-Scale Networks (AREA)
  • Maintenance And Management Of Digital Transmission (AREA)

Abstract

(57)【要約】 【課題】 分散環境で効果的に問題の特定を行うことが
できるネットワーク管理システム(NMS)を提供する
こと。 【解決手段】 ネットワーク管理システムは、ワーカN
MS72、74、76と、ワーカNMSの各々と接続さ
れたマスタNMS70とを含む。各ワーカNMSおよび
マスタNMS70は、相互に交信するためのNMSイン
タフェース部と、管理対象のドメインの構成情報データ
および障害情報データを取得するネットワークインタフ
ェース部と、管理対象オブジェクトモデル、イベント伝
播モデル、構成情報データ、問題イベントリスト、およ
び他ドメインから伝播する症状イベント情報に基づき、
自己のドメインでの症状イベントと、ネットワーク全体
での問題との間の部分相関マトリクスを生成して送信す
る構成管理部とを含む。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ネットワーク上の
障害を管理するネットワーク管理システムに関し、特
に、ネットワーク上で観測されるさまざまな複数の障害
の症状から障害の根本原因を特定する機能を有するネッ
トワーク管理システムに関する。
【0002】
【従来の技術】コンピュータによる通信ネットワークの
大規模化が進んでいる。通信ネットワークが大規模化す
るに従って、ネットワーク上に発生する障害の及ぼす影
響も大規模かつ深刻なものとなりつつある。そのためネ
ットワーク管理をいかに効率よく行なうか、が非常に重
要である。以下、本明細書上で使用されるネットワーク
管理に関する用語について定義をする。
【0003】「イベント」とは、ネットワークにおいて
発生する例外的な状態のことをいう。「イベント」とい
う概念はハードウェアやソフトウェアの故障、停止、性
能のボトルネック、ネットワークの構成の不整合、設計
不十分による意図せざる結果、コンピュータウィルス等
の悪意による被害などを含む。
【0004】「症状」とは、観測可能なイベントのこと
をいう。「症状イベント」と同じである。たとえば「あ
る宛先Aに対して常に通信に時間がかかり再送信が必要
となる」、「ある宛先Bに対していつも文字化けが生ず
る」、「ある宛先Cに対していつも受信確認が返ってこ
ない」などの事象をいう。同じ意味で「Symptom 」とい
う語も使用する。
【0005】「問題」とは、障害の根本原因のことをい
う。必ずしも観測可能ではない。たとえば通信装置の送
信機破損、通信ケーブルの断線、通信回線の容量不足な
どが例である。「問題イベント」は「問題」と同じ意味
である。同じ意味で「プロブレム」(Problem) という語
も使用する。
【0006】「オブジェクト」とは、概念や抽象または
対象となる問題に対して明確な境界と意味とを持つ何も
のか、のことをいう。「オブジェクトインスタンス」と
は、後述するあるオブジェクトクラスに属するある特定
の1つのオブジェクトのことをいう。単に「インスタン
ス」ともいう。「オブジェクトクラス」とは、同様の性
質(属性)、共通の振る舞い(操作)、他のオブジェク
トとの共通の関係、および共通の意味を持つオブジェク
トのグループをいう。「クラス」はオブジェクトクラス
と同じである。「サブクラス」とは、あるクラスの下位
クラスとして、そのクラスに包含されるクラスのことを
いう。「属性」とは、クラスに属する各オブジェクトに
よって保持されるデータをいう。
【0007】「オブジェクト図」とは、オブジェクト、
クラス、それらの間の関係のモデル化のための、形式的
な図式記法をいう。「クラス図」とは、多くの可能なイ
ンスタンスを記述するためのスキーマ、パターン、テン
プレートなどである。「リポジトリ」とは、必要な情報
を集約して一覧表的な形式で記憶した記憶部を言う。集
約一覧表メモリとでも呼ぶべきものである。「イベント
リポジトリ」とは、実際に発生した症状パターンを記憶
する記憶部をいう。「オブジェクトリポジトリ」とは、
ネットワークの構成モデルのリポジトリのことをいう。
【0008】ネットワークのあるリソースにおける1つ
の問題イベントは、関係する複数のリソースの多くの症
状イベントを引き起こし得る。問題の中には、観測可能
なイベントであるものもあるが、一般には必ずしも観測
可能ではない。そのため複数の症状から障害の根本原因
である問題を特定する必要がある。したがって、ネット
ワーク管理者は、根本原因の問題を特定するために、観
測される種々の症状イベントを問題と相関させることが
できなければならない。
【0009】しかし、ネットワークが大規模になると、
観測される症状イベントの数も膨大になる。またどの問
題がどの症状を引き起こすかという「因果関係」とでも
言うべきものも複雑になってくるために、オペレータが
手作業で障害の根本原因の問題を特定することはほとん
ど不可能となる。
【0010】このようなネットワーク上で観測される膨
大な障害の症状イベントから根本原因の問題を正確にか
つ高速に特定するための従来技術手法として、1996
年6月18日発行の米国特許第5,528,516号
(「Apparatus and Method forEvent Correlation and
Problem Reporting(イベント相関および問題報告装置
および方法)」)が提案されている。
【0011】この従来技術は次の2つの技術に分けるこ
とができる。 (1) 管理対象ネットワークのモデリング技術 (2) イベント相関技術 前者の「管理対象ネットワークのモデリング技術」と
は、実際のネットワーク上で発生する問題イベントおよ
び症状イベントをいかに正確に効率よくモデル化するか
ということに関する。後者のイベント相関技術とは、主
として、観測される膨大な症状イベントからいかに高速
に根本原因である問題を特定するか、ということに関す
る。本発明は(2)のイベント相関技術に関連する。そ
のため以下では(1)の管理対象ネットワークのモデリ
ング技術については、本願発明の理解の上で必要な最小
限の説明にとどめる。なお以下の説明は、障害に関する
イベントに限定して行なうが、イベントの種類はどのよ
うなものであってもよく、本発明は障害に関するイベン
トのみに制約されるものではない。
【0012】この従来技術で提案されている「管理対象
ネットワークのモデリング技術」について以下に簡単に
説明する。まず、ルータおよびハブなどのネットワーク
機器と、パーソナルコンピュータおよびワークステーシ
ョンなどのコンピュータと、これらを接続するネットワ
ークそのものと、コンピュータ等の上で実行されるソフ
トウェア等とからなるすべてのものを管理対象オブジェ
クトManagedObject (MO)としてモデル化する。そし
て、管理対象オブジェクト間の「関係」を重要視し、ネ
ットワーク上で発生する問題イベントおよび症状イベン
トは、管理対象オブジェクト間に設定された関係に沿っ
て「伝播」するものとしてイベントの伝播をモデル化す
る。
【0013】上述の従来技術では、このような管理対象
オブジェクトのモデル化およびイベント伝播のモデル化
の静的な側面を抽象化し、モデル化を効率的に行なうた
めにオブジェクト指向の概念を導入している。すなわち
種々の管理対象オブジェクトをクラスとしてモデル化す
る。そしてクラス間の関係を定義する。さらにあるイベ
ントは、クラス間の関係に沿って伝播するものとしてモ
デル化される。オブジェクト指向技術については種々の
教科書があるのでそれらを参照されたい。
【0014】まず、管理対象オブジェクトクラスのモデ
ル化について説明する。図11に、上述の従来技術で提
案されている管理対象オブジェクトモデル(クラス階
層)を示す。図11および他の図面において、管理対象
オブジェクトモデルについてはOMT記法を用いて記
す。図11を参照して、各ボックスはオブジェクトクラ
スを示す。オブジェクトクラスの各ボックスは2つのボ
ックスに分割されている。上部のボックスに記載されて
いるのはオブジェクトクラス名であり、下部のボックス
に記載されているのはそのクラスのオブジェクトが持つ
べき属性である。各クラス間には関係が設定され、各関
係はクラス間に引かれた線で示されている。各線の近傍
には、その関係の名称が記載されている。
【0015】図11に示されるモデルは、ManagedObjec
t クラス110 と、Element クラス112 と、Layer クラス
114 と、Group クラス116 と、Resourceクラス118 と、
PhysicalService クラス120 と、LogicalServiceクラス
122 と、Nodeクラス124 と、Linkクラス126 と、Manage
r クラス128 とを含む。Manager クラス128 がネットワ
ーク管理システムのクラスである。
【0016】これらクラス間に設定される関係は、その
関係により結びつけられる2つのクラスのいずれから見
るかによって名称が変わる。たとえばManager クラス12
8 とResourceクラス118 との関係は、Manager クラス12
8 から見ればManages 、Resourceクラス118 から見れば
Managed-byとなる。またたとえばNodeクラス124 とLink
クラス126 との間の関係208 は一方から見ればConnecte
d-via 、他方から見ればConnected-toである。またたと
えばElement クラス112 から出て同じクラス内に戻る関
係206 (Layered-overとUnderlying)のように、同一ク
ラス内のオブジェクト間に定められる関係もある。
【0017】こうして定められたクラスシステムにもと
づいて、管理対象のネットワークをモデル化する。すな
わち、ネットワーク内の管理対象オブジェクトをあるク
ラスの一つのインスタンスとして抽象化し、そのインス
タンスが属するクラスと、他のインスタンスが属するク
ラスとの間に設定された関係にしたがってイベントがこ
れらインスタンス(管理対象オブジェクト)を伝播して
いくものとしてネットワークをモデル化する。さらに、
こうしてモデル化されたネットワークに基づき、問題
と、症状との間の相関を予め特定する。
【0018】まず、管理対象オブジェクトクラスのモデ
ル化について説明する。今、実際のネットワークの例と
して図12に示されるネットワークを考える。このネッ
トワークは、互いにブリッジ140 によって結合された2
つのイーサネットワーク134およびイーサネットワーク1
36 を含む。一方のイーサネットワーク134 にはホス
ト130 が、他方のイーサネットワーク136 にはホスト13
2 がそれぞれ接続されているものとする。以下の例では
ホスト130 にネットワーク管理システム(NMS)が搭載さ
れているものとして考える。
【0019】図12に示されるネットワークを上述した
考え方を用いてモデル化するために次のようにする。図
13を参照して、各ボックスはオブジェクトクラス(ま
たはサブクラス)を示す。オブジェクトクラスの各ボッ
クスは2つのボックスに分割されている。上部のボック
スに記載されているのはオブジェクトクラス名であり、
下部のボックスに記載されているのはそのクラスのオブ
ジェクトが持つべき属性である。各クラス間には関係が
設定され、各関係はクラス間に引かれた線で示されてい
る。各線の近傍には、その関係の名称が記載されてい
る。なお図13において、管理対象オブジェクトモデル
についてはOMT記法を用いて記す。
【0020】図13に示されるように、Nodeクラス124
の下に3つのサブクラスTcpNode クラス154 、IpNodeク
ラス156 およびEtherNode クラス158 を定義する。さら
にLinkクラス126 のサブクラスとしてTcpLink クラス16
0 、IpLinkクラス162 、EtherLink クラス164 およびMa
cBridgeLink クラス166 を定義する。なお、各クラスに
はそのクラス特有の属性を定義する必要がある。たとえ
ばIpNodeクラスにはIP(Internet Protocol) アドレス属
性を定義するなど、である。しかし、本発明には属性の
定義は関係しないので、ここでは属性についての詳細な
説明は行わない。
【0021】これらクラス間に設定される関係は、その
関係により結びつけられる2つのクラスのいずれから見
るかによって名称が変わる。たとえばNodeクラス124 と
Linkクラス126 との間の関係208 は一方から見ればConn
ected-via 、他方から見ればConnected-toである。また
図13には示していないが、同一クラス内のオブジェク
ト間に定められる関係もあり得る。
【0022】図13に示されるクラスを用いて、図12
に示すネットワーク例をインスタンス間の関係図として
表現することができる。こうした図は、オブジェクト指
向技術では「インスタンス図」と呼ばれる。
【0023】図14を参照して、ホスト130 には、それ
ぞれManager クラス、TcpNode クラス、IpNodeクラスお
よびEtherNode クラスのインスタンスであるインスタン
ス170 、172 、174 および176 が含まれる。一方ホスト
132 には、TcpNode クラス、IpNodeクラスおよびEtherN
ode クラスのインスタンスであるインスタンス182 、18
4 および186 が含まれる。インスタンス172 および182
はTcpLink クラスのインスタンス200 によって結合され
る。インスタンス174 および184 はIpLinkのインスタン
スであるインスタンス202 によって結合される。
【0024】ブリッジ140 は、EtherNode クラス、MacB
ridgeNode クラスおよびEtherNodeクラスのインスタン
スであるインスタンス190 、192 および194 を含んでい
る。インスタンス176 および190 はEtherLink クラスの
インスタンスであるインスタンス196 により結合され
る。インスタンス194 および186 は同じくEtherLink ク
ラスのインスタンス198 により結合される。インスタン
ス190 、192 、194 、196 および198 はそれぞれインス
タンス202 と結合されている。
【0025】このようにしてモデル化された管理対象オ
ブジェクトに対して、症状イベントの伝播ルールが予め
準備される。この伝播ルールは、障害の根本原因の問題
イベントが障害の症状イベントに伝播し、その症状イベ
ントが別の症状イベントに伝播するという関係をルール
化したものである。この伝播ルールの集合を伝播モデル
と呼ぶ。伝播モデルの例を以下に示す。
【0026】・EtherLink がDownすれば、 Connected-t
o 関係に従ってEtherNode がDownする。
【0027】・EtherNode がDownすれば、Underlying関
係に沿ってIpNodeがDownする。 ・EtherNode がDownすれば、Connected-via 関係に沿っ
てMacBridgeLink がCannotBridgingである。
【0028】・IpNodeがDownすれば、Underlying関係に
沿ってTcpNode がDisconnectする。 ・TcpNode がDisconnectすれば、Connected-via 関係に
沿ってTcpLink がNotResponding である。
【0029】・TcpLink がNotResponding であると、Co
nnected-to関係に沿ってそれに接続されるTcpNode がDi
sconnectである。
【0030】上記したルールにおいて、Down、Disconne
ctおよびNotResponding が障害の問題イベントおよび/
または症状イベントである。イベントの中には問題イベ
ントでかつ症状イベントであるものもあるし、どちらで
もないものもある。このような伝播モデル(ルール)を
図式化して図15に示す。図15において、上記したイ
ベントは、管理対象オブジェクトのクラス間に定義され
ている関係に沿って伝播するという、イベント伝播のモ
デル化がなされている。図15に示される各クラス154
、156 、158 、160 、164 および166 の間では、それ
ぞれの関係210 、212 、214 、216 、218 および220 と
いう関係(順不同)があり、上記したルールに従ってそ
れらの関係に沿ってイベントが伝播する。
【0031】図15に示されるイベント伝播モデルが想
定されている場合に、図12に示され図14にモデル化
されているネットワークでイベントがどのように伝播す
るかを以下に示す。ここでは障害の根本原因の問題とし
てEtherLink1がDown(これを「ケース1」と称する)と
EtherLink2がDown(これを「ケース2」と称する)の場
合を考える。この場合、イベント伝播モデルに従って観
測されると記載される症状イベントは図16の表1に示
されるようになる。
【0032】これらの表において、最も左側の列の各欄
には症状イベントが、第1行目の各欄には問題イベント
が、それぞれ記載されている。ある問題イベントの列と
ある症状イベントの行との交わる欄には、その問題イベ
ント(原因)が発生したときに、当該症状イベントが発
生するか否かを示す。この場合症状イベントが生ずる場
合に「1」を記入するものとする。たとえばEtherLink1
がDownが発生したときにはEcpNode1.Disconnect が生じ
るが、EtherNode2.Down は生じない。なお各インスタン
ス名は図14に記載のものを用いる。
【0033】各ケースについて該当の列を縦に見ていく
と、「1」および「空白(0)」を連ねたものが得られ
る。これを当該問題イベントに対する症状イベント群の
コードと称する。たとえば表1(図16) のケース1で
は症状イベント群のコードは「1101101101」
である。未記入(空白)の箇所は0としてある。
【0034】図16に示される表1からわかるように、
問題イベントが異なると、観測される症状イベント群の
コードが異なる。したがって実際にネットワーク管理シ
ステム(NMS )により観測および収集される症状イベン
ト群と、図16の表1に示される症状イベント群とを比
較することにより、障害の根本原因の問題を特定するこ
とが可能となる。このように、各問題と症状イベントと
の相関関係を表したものをPSマトリクスまたは問題と
症状イベント群との相関マトリクスと呼ぶ。実際にはこ
の比較は、得られた症状イベント群と、PSマトリクス
の症状イベント群との間に定義される「距離」(または
類似の尺度)を計算し、最も距離の小さい問題(または
最も類似の尺度の大きな問題)を特定することにより行
なわれる。
【0035】一般に、管理対象ネットワークが巨大とな
り、管理対象オブジェクト数が増えると、それに伴って
問題イベント数および症状イベント数が膨大な数とな
る。そのためPSマトリクスは巨大なマトリクスとな
る。すると、メモリの都合などによって1台のネットワ
ーク管理システムでは巨大なネットワークを集中管理す
ることが困難となり、複数のネットワーク管理システム
で管理対象ネットワークを分散管理する必要が生じる。
【0036】従来技術では、分散環境でのイベント相関
を以下のようにして解決しようとしている。すなわち、
あるドメインのモデルを考えるときには、他のドメイン
については、当該他のドメインを代表する特別な管理対
象オブジェクトとして表現する。そして各ドメインごと
にPSマトリクスを生成してドメインごとに個別にイベ
ント相関を行う。従来技術に関する文献では、enterpri
seドメインとrouterドメインとが設けられ、enterprise
ドメインの観点からは routerドメインはrouter backb
one オブジェクトを表すものとして、Linkの特別な場合
としてモデル化している。そして、一方のドメインでの
イベントが他方のドメインでのイベントの症状イベント
である可能性があるので、そのイベントを症状イベント
として他方のドメインに通知し、当該他のドメインが、
通知された症状イベントをも考慮してPSマトリクスを
用いてイベント相関を行う。各ドメインでのPSマトリ
クスの形式の例を図17に示す。
【0037】
【発明が解決しようとする課題】このようにある問題イ
ベントに対して生ずる症状イベントを予めパターン化し
ておけば、実際に障害が生じたときの症状パターンとこ
のパターンとを比較するという比較的単純な作業により
障害の根本原因の問題を特定することができる。したが
って、この従来の技術により障害の根本原因の問題の特
定が非常に容易になるかと思われる。しかしこの従来の
技術には次のような問題点がある。
【0038】上記した従来技術のようなPSマトリクス
を用いる方法では、ドメイン間の管理対象オブジェクト
(境界管理対象オブジェクト)でイベント伝播が集約さ
れる。そのため、複数個のドメインにまたがるクロスド
メイン全体としては正確なイベント相関ができない可能
性がある。また、境界管理対象オブジェクトを、分散環
境を考慮した特別な管理対象オブジェクトとしてモデル
化する必要がある。さらに、個々のドメインでPSマト
リクスを形成して個々のドメインで生ずるイベントと問
題との相関付けを行うため、あるドメインでの症状イベ
ントと、他のドメインでの問題イベントとの間の関連付
けをするための情報が基本的に欠落するという問題があ
る。
【0039】それゆえに本願発明の目的は、分散環境で
効果的に問題の特定を行うことができるネットワーク管
理システムを提供することである。
【0040】本願発明の他の目的は、分散環境で効果的
に問題の特定を行うためのPSマトリクスを作成するこ
とができるネットワーク管理システムを提供することで
ある。
【0041】本願発明の他の目的は、分散環境で効果的
に問題の特定を行うためのPSマトリクスを用いてクロ
スドメインでの問題特定を行うことができるネットワー
ク管理システムを提供することである。
【0042】
【課題を解決するための手段】請求項1に記載の発明に
かかるネットワーク管理システムは、自己の属するネッ
トワークにおける問題を特定する際に参照される問題と
症状パターンとの相関マトリクスを分散管理するための
ネットワーク管理システムである。このシステムは、他
のネットワーク管理システムと交信するための関係シス
テム交信手段と、管理対象のドメインの構成情報データ
および障害情報データを取得するためのデータ取得手段
と、管理対象オブジェクトモデルと、オブジェクトクラ
ス間に定義されたイベントの伝播モデルと、データ取得
手段により取得された構成情報データと、自己の管理す
るドメインでの管理の対象となる問題イベントリスト
と、関係システム交信手段を介して他ネットワーク管理
システムから与えられる、他ドメインから伝播する症状
イベント情報とに基づき、自己の管理するドメインでの
症状イベントと、ネットワーク全体での管理の対象とな
る問題イベントとの間の部分相関マトリクスを生成する
ための部分相関マトリクス生成手段と、部分相関マトリ
クス生成手段によるマトリクス生成の過程で、他ドメイ
ンに伝播する症状イベントを検出し、当該症状イベント
の原因となる問題イベントの識別子とともに、当該他ド
メインを管理する他ネットワーク管理システムに対して
関係システム交信手段を介して相関マトリクス生成継続
要求を送信するための手段とを含む。
【0043】症状イベントのドメイン間での伝播を問題
イベントの識別子とともに各ネットワーク管理システム
の間で交信するので、各ネットワーク管理システムで
は、自己の管理するドメインでの症状イベントと、ネッ
トワーク全体での管理の対象となる問題イベントとの間
の部分相関マトリクスを生成することができる。この部
分相関マトリクスには、従来と異なり問題イベントと症
状イベントとのドメインが異なったときの情報の欠落が
ない。したがって、この部分相関マトリクスを用いて、
従来の方式よりも正確な問題の推定を行うことができ
る。
【0044】請求項2に記載の発明にかかるネットワー
ク管理システムは、請求項1に記載の発明の構成に加え
て、さらに、データ取得手段により取得される、自己の
管理するドメイン内で生じる症状イベントパターンと、
部分相関マトリクスとの比較に基づいて、ネットワーク
上で発生した問題イベントを特定し、所定の送信先に対
して通知するための手段を含む。
【0045】各ネットワーク管理システムでの部分相関
マトリクスによる問題の特定の結果を所定の送信先に送
信することにより、当該送信先では、複数個のドメイン
からの問題の特定結果を参照することができ、これらの
うちから最も可能性の高い問題を根本原因として特定す
ることができる。
【0046】請求項3に記載の発明にかかるネットワー
ク管理システムは、所定のネットワーク内で生ずる症状
イベントから、ネットワーク障害の原因を推定するため
のネットワーク管理システムであって、複数個のワーカ
ネットワーク管理システムと、これら複数個のワーカネ
ットワーク管理システムの各々と接続されたマスタネッ
トワーク管理システムとを含む。各ワーカネットワーク
管理システムは、マスタネットワーク管理システムと交
信するための交信手段と、管理対象のドメインの構成情
報データおよび障害情報データを取得するためのデータ
取得手段と、管理対象オブジェクトモデルと、オブジェ
クトクラス間に定義されたイベントの伝播モデルと、デ
ータ取得手段により取得された構成情報データと、自己
の管理するドメインでの管理の対象となる問題イベント
リストと、交信手段を介してマスタネットワーク管理シ
ステムから与えられる、他ドメインから伝播する症状イ
ベント情報とに基づき、自己の管理するドメインでの症
状イベントと、ネットワーク全体での管理の対象となる
問題イベントとの間の部分相関マトリクスを生成するた
めの部分相関マトリクス生成手段と、部分相関マトリク
ス生成手段によるマトリクス生成の過程で、他ドメイン
に伝播する症状イベントを検出し、当該症状イベントの
原因となる問題イベントの識別子と、当該他ドメインを
管理するワーカネットワーク管理システムの識別子とを
含む相関マトリクス生成継続要求を、関係システム交信
手段を介してマスタネットワーク管理システムに対して
送信するための手段とを含む。マスタネットワーク管理
システムは、各ワーカネットワーク管理手段からの相関
マトリクス生成継続要求を、識別子により特定されるワ
ーカネットワーク管理システムに送信するための手段を
含む。
【0047】症状イベントのドメイン間での伝播をマス
タネットワーク管理システムを介して各ワーカネットワ
ーク管理システムの間で交信するので、各ワーカネット
ワーク管理システムでは、自己の管理するドメインでの
症状イベントと、ネットワーク全体での管理の対象とな
る問題イベントとの間の部分相関マトリクスを生成する
ことができる。この部分相関マトリクスには、従来と異
なり問題イベントと症状イベントとのドメインが異なっ
たときの情報の欠落がない。したがって、この部分相関
マトリクスを用いて、従来の方式よりも正確な問題の推
定を行うことができる。
【0048】請求項4に記載の発明にかかるネットワー
ク管理システムは、請求項3に記載のシステムであっ
て、各ワーカネットワーク管理システムは、部分相関マ
トリクス生成手段による部分相関マトリクスの生成の完
了に応答して終了通知をマスタネットワーク管理システ
ムに送信するための手段をさらに含む。マスタネットワ
ーク管理手段は、全てのワーカネットワーク管理システ
ムから終了通知を受信したことに応答して、各ワーカネ
ットワーク管理システムに対して相関処理の開始を指令
するための手段をさらに含む。各ワーカネットワーク管
理システムは、この指令に応答して、自己の管理するド
メイン内で生じる症状イベントパターンと、部分相関マ
トリクスとの比較を行う処理を開始し、自己の管理する
ドメイン内で発生した可能性の高い問題イベントを特定
し、マスタネットワーク管理システムに対して通知する
ための手段をさらに含む。そしてマスタネットワーク管
理システムは、各ワーカネットワーク管理システムから
の、発生した可能性の高い問題イベントについての通知
に基づいてネットワークの障害の可能な根本原因を特定
するための手段をさらに含む。
【0049】各ワーカネットワーク管理システムでの部
分相関マトリクスによる問題の特定の結果をマスタネッ
トワーク管理システムに送信することにより、マスタネ
ットワーク管理システムでは、複数個のドメインからの
問題の特定結果を参照することができ、これらのうちか
ら最も可能性の高い問題を根本原因として特定すること
ができる。
【0050】請求項5に記載の発明にかかるネットワー
ク管理システムは、所定のネットワーク内で生ずる症状
イベントから、ネットワーク障害の原因を推定するため
のネットワーク管理システムであって、複数個のワーカ
ネットワーク管理システムと、これら複数個のワーカネ
ットワーク管理システムの各々と接続されたマスタネッ
トワーク管理システムとを含む。各ワーカネットワーク
管理システムは、マスタネットワーク管理システムと交
信するための交信手段と、管理対象のドメインの構成情
報データおよび障害情報データを取得するためのデータ
取得手段とを含む。マスタネットワーク管理システム
は、各ワーカネットワーク管理手段からネットワークの
管理対象オブジェクト識別名と、管理対象オブジェクト
クラス名と、管理対象オブジェクト間の接続関係情報と
を取得して、ネットワークにおける問題イベントと症状
イベントとの相関マトリクスを生成するための手段と、
当該相関マトリクスを各ワーカネットワーク管理システ
ムごとに、各ワーカネットワーク管理システムが管理す
るドメインでの発生が想定される症状イベントに基づい
て分割した部分相関マトリクスを当該ワーカネットワー
ク管理システムに送信するための手段とを含む。各ワー
カネットワーク管理システムは前記部分相関マトリクス
を保持するための手段と、自己の管理するドメインの症
状イベントパターンと部分相関マトリクスとを比較する
ことにより、ネットワーク内の障害の原因である可能性
の高い問題イベントを特定してマスタネットワーク管理
システムに通知するための手段とを含む。マスタネット
ワーク管理システムは、各ワーカネットワーク管理シス
テムからの、発生した可能性の高い問題イベントについ
ての通知に基づいてネットワークの障害の可能な根本原
因を特定するための手段をさらに含む。
【0051】請求項5に記載の発明によれば、管理対象
のネットワーク全体での相関マトリクスをマスタネット
ワークで生成し、これを分割した部分相関マトリクスを
各ワーカネットワーク管理システムに送信する。この部
分相関マトリクスには、従来と異なり問題イベントと症
状イベントとのドメインが異なったときの情報の欠落が
ない。したがって、この部分相関マトリクスを用いて、
各ワーカネットワーク管理システムで問題の特定を行う
際に、従来の方式よりも正確な問題の推定を行うことが
できる。
【0052】
【発明の実施の形態】上記した問題点の原因は、各ドメ
インでPSマトリクスを生成し、個別に問題イベント特
定のための処理をすることにある。本願発明は、この従
来技術の問題点を解決するために、クロスドメイン全体
として1つのPSマトリクスを生成し、クロスドメイン
全体として根本の原因である問題イベントを特定するた
めに、データを分散管理し、処理を分散させることとし
た。なお「クロスドメイン」とは、以下に述べるように
ネットワーク全体を複数のドメインに分けた場合の、複
数ドメインにわたる領域のことをいう。また以下の説明
でも、「MO」とは管理対象オブジェクトモデルのこと
を指す。
【0053】こうした処理を行うための枠組みを、本願
発明では以下のようにして実現した。まず、イベント相
関処理について考えると、イベント相関処理は以下の二
つの処理に分けることができる。
【0054】(1) PSマトリクスの生成 (2) 観測SymptomSet相関処理 SymptomSetとは、実際に観測されるSymptom の集合であ
って、SymptomSet[S11', S12', ..., S1n1', S21', S2
2', ..., S2n2', S31', S32', ..., S3n3' ] のように
表現することとする。相関処理では、入力SymptomSetと
PSマトリクスの各列との距離を求めて、その距離が最
小となる問題P を特定する。
【0055】<第1の実施の形態> [システム構成]図1を参照して、本願発明に係るネッ
トワーク管理システムで用いるPSマトリクス90は、
図17に示される従来のものと異なり、全体として一つ
のPSマトリクス90として管理される。このPSマト
リクス90を、全体としてPSマトリクス90を構成す
るようにデータを分散させて管理する。以下の実施の形
態のシステムではPSマトリクス90を横方向の部分マ
トリクス92、94、96に分割して、別々のドメイン
で管理する。なお、本実施の形態のシステムでは管理対
象ネットワークは図1にも示されるように3つのドメイ
ンA、B、Cに分割されるものとする。図1に示すPS
マトリクス90では、従来技術では欠落していた領域
[A2],[A3],[B1],[B3],[C1],
[C2]の部分の情報も相関処理で利用することができ
る。なお、ドメイン数が3に限定されないことはもちろ
んである。
【0056】PSマトリクス90を分散管理するために
は、PSマトリクス90を図1における縦方向に分割す
ることも考えられる。ただし、横方向に分割すると、各
ドメインを管理するNMS において貯えられた入力症状イ
ベントの集合を、他のドメインのNMS に移動させる必要
がないのでより好ましい。
【0057】図2を参照して、本実施の形態のシステム
では、上述した分散処理を実現するためにマスタ・ワー
カ・モデルを採用した。すなわち、本ネットワーク管理
システムは、第1のドメイン78を管理するためのワー
カNMS72と、第2のドメイン80を管理するための
ワーカNMS74と、第3のドメイン82を管理するた
めのワーカNMS76と、これらワーカNMS72、7
4、76を統括するマスタNMS70とを含む。
【0058】マスタNMS70のカバーする対象ドメイ
ンは、 (1) 統合ドメイン (2) イベント相関に関係する複数のドメインの集合 (3) イベント相関に関係のない管理対象オブジェク
トを予め除外できる場合は、管理対象オブジェクトのク
ラス名、ある属性の値の関係(等しい/大小)などの条
件によりそれらの管理対象オブジェクトを除いて絞り込
んだクロスドメインのドメイン などが考えられる。
【0059】各ワーカNMS72,74,76は、図1
に示す部分マトリクス92、94、96をそれぞれ管理
する。これら部分マトリクス92、94、96の作成方
法については後述する。
【0060】図3を参照して、本願発明マスタNMS7
0、ワーカNMS72、74、76などを構成するネッ
トワーク管理システム20は、管理対象ネットワーク2
2に接続され、SNMP(Simple Network Management Prot
ocol)等のネットワーク管理プロトコルを用いて管理対
象装置のMIB (Management Information Base )等のデ
ータを取得したり、ポーリングしたり、管理対象装置か
らのTrapイベントを受信したりするためのネットワーク
管理インターフェイス部24と、管理対象オブジェクト
モデルと、これに関連したイベント伝播モデルとを保持
する機能と、これらモデルとネットワークの構成情報と
に基づき管理対象オブジェクト構成情報を構築する機能
と、自己の保持する管理対象オブジェクトモデルと、伝
播モデルと、管理対象オブジェクトとを用いてPSマト
リクスを構築するための構成管理部30と、構成管理部
30により構築された管理対象オブジェクト構成情報を
保持するための管理対象オブジェクトリポジトリ32
と、構成情報データおよび障害情報データをイベントと
して保持するためのイベントリポジトリ28と、ネット
ワーク管理インターフェイス部24から構成情報データ
および障害情報データを受取り、イベントリポジトリ2
8に保持させるためのイベントデータベース部26と、
構成管理部30からPSマトリクスを受取って保持し、
イベントデータベース部26から障害の症状イベントの
集合を受けて、PSマトリクスと、実際に観測される症
状イベントの集合とを比較し距離計算をして、障害の根
本原因の問題を推論するための障害管理部34と、障害
管理部34から障害の根本原因の問題の推論結果を示す
情報を受け、ユーザに提示するためのユーザインターフ
ェイス部36と、マスタNMSとワーカNMS間で要求
や通知などを行うための関係NMSインターフェイス部
38とを含む。
【0061】マスタNMS70、ワーカNMS72、7
4、76などによるPSマトリクスの生成およびイベン
ト相関の処理については後述する。
【0062】図3に示されるネットワーク管理システム
は、実際にはパーソナルコンピュータまたはワークステ
ーションなど、コンピュータ上で実行されるソフトウェ
アにより実現される。図4に、ネットワーク管理システ
ムを実現するコンピュータの外観を示す。図4を参照し
てこのコンピュータは、CD−ROM(Compact DiscRe
ad-Only Memory )ドライブ50およびFD(Flexible
Disk )ドライブ52を備えたコンピュータ本体40
と、ディスプレイ42と、プリンタ44と、キーボード
46と、マウス48とを含む。
【0063】図5に、このコンピュータの構成をブロッ
ク図形式で示す。図5に示されるようにこのネットワー
ク管理システム20を構成するコンピュータ本体40
は、CD−ROMドライブ50およびFDドライブ52
に加えて、それぞれバス66に接続されたCPU (Ce
ntral Processing Unit )56と、ROM (Read Onl
y Memory) 58と、RAM (Random Access Memory)
60と、ハードディスク54とを含んでいる。CD−R
OMドライブ50にはCD−ROM62が装着される。
FDドライブ52にはFD64が装着される。
【0064】既に述べたようにこのネットワーク管理シ
ステムは、コンピュータハードウェアと、CPU56に
より実行されるソフトウェアとにより実現される。一般
的にこうしたソフトウェアは、CD−ROM62、FD
64などの記憶媒体に格納されて流通し、CD−ROM
ドライブ50またはFDドライブ52などにより記憶媒
体から読取られてハードディスク54に一旦格納され
る。さらにハードディスク54からRAM60に読出さ
れてCPU56により実行される。図4および図5に示
したコンピュータのハードウェア自体は一般的なもので
ある。したがって、本発明の最も本質的な部分はCD−
ROM62、FD64、ハードディスク54などの記憶
媒体に記憶されたソフトウェアである。
【0065】なお図4および図5に示したコンピュータ
自体の動作は周知であるので、ここではその詳細な説明
は繰返さない。
【0066】[システムの動作]以下、図1〜図5に示
す本願発明の実施の形態に係るネットワーク管理システ
ム20の動作について、さらに図6〜図9をも参照して
説明する。ネットワーク管理インターフェイス部24
は、SNMP等のネットワーク管理プロトコルを用いて、管
理対象装置のMIB 等のデータを取得したりポーリングし
たりする。またネットワーク管理インターフェイス部2
4は、管理対象装置からのTrapイベントを受信する。ネ
ットワーク管理インターフェイス部24はさらに、管理
対象装置から取得したデータのうち構成情報に関するデ
ータは構成管理部30に、障害情報に関するデータはイ
ベントデータベース部26に、それぞれ適当な形式に変
換して送る。
【0067】構成管理部30は、図11および図13に
示すような管理対象オブジェクトモデルと、これに関連
した図15に示したようなイベント伝播モデルとを保持
する。なおこれらモデルは、図5に示すハードディスク
54内のファイル(図示せず)から読込むこともできる
し、ユーザインターフェイス部36を介してユーザが入
力することも可能である。
【0068】構成管理部30はさらに、ネットワーク管
理インターフェイス部24から図12に示されるネット
ワーク例のような構成情報データを受取り、管理対象オ
ブジェクトモデルに基づいて図14に示されるような管
理対象オブジェクト構成情報を構築する。この管理対象
オブジェクト構成情報は管理対象オブジェクトリポジト
リ32に保持される。
【0069】構成管理部30はまた、自己の保持する管
理対象オブジェクトモデル、イベント伝播モデル、およ
び管理対象オブジェクトリポジトリ32の管理対象オブ
ジェクト構成情報を用いて、図1に示すようなPSマト
リクス90を生成し、障害管理部34に通知する。ワー
カNMSでは、マスタNMSから関係NMSインターフ
ェイス部38を通じて問題イベントリストが通知され
る。なお、問題イベントの指定はイベント伝播モデル記
述時にも可能であるし、ユーザインターフェイス部36
からユーザが症状イベントパターンマトリクスの生成を
要求する際に、イベント伝播モデルを参照しながら指定
することも可能である。
【0070】イベントデータベース部26は、構成情報
データおよび障害情報データをイベントとしてネットワ
ーク管理インターフェイス部24から受けて、それらを
イベントリポジトリ28に保持する。イベントデータベ
ース部26はこれらイベントの中で、障害情報に関する
データ、特に障害の症状イベントを障害管理部34に通
知する。
【0071】障害管理部34は、構成管理部30からP
Sマトリクスを受け取り保持する。障害管理部34はま
た、イベントデータベース部26から障害の症状イベン
トの集合(前述した、実際に観測される症状イベントパ
ターン)を受取る。障害管理部34は、構成管理部30
から受取ったPSマトリクスと、イベントデータベース
部26から受取った実際に観測された症状イベントパタ
ーンとを比較して、障害の根本原因の問題の候補を特定
する。特定された問題の候補はユーザインターフェイス
部36に通知される。
【0072】ユーザインターフェイス部36は、図4お
よび図5に示されるディスプレイ42などによりこの障
害の根本原因の問題の候補をユーザに提示する。このと
き、計算された相違度が最も小さい障害原因のみを提示
してもよいし、相違度の小さいものから順に予め定めら
れた個数だけ候補として提示するようにしてもよい。複
数個提示する場合には、伝播モデルが完全でない場合、
または観測した症状イベントにノイズ(発生するはずの
症状イベントが観測されなかったり、関係のない症状イ
ベントが観測されたりすること)が含まれる場合でも、
候補リストの中に正しい解が含まれる可能性が高くな
る。またこのリストの提示を受けて利用者が実際に候補
としてあげられたネットワーク機器を調べることによ
り、最終的に原因を特定することが容易になる。
【0073】または、あるしきい値を設けておき、その
しきい値よりも小さな相違度を有する障害原因を表示す
るようにしてもよい。この方法は、経験的に、相違度が
ある値以下の障害原因の中に真の障害原因が含まれる可
能性が高いということが分かっている場合に、それらを
全て利用者に通知するので、利用者は効率的に障害原因
を探ることができて有利である。
【0074】[PSマトリクスの作成処理]PSマトリ
クス90の作成は以下のようにして行われる。なお、P
Sマトリクス90は、前述のように横方向の部分マトリ
クス92、94、96に分割される。このように分割さ
れた部分マトリクス92、94、96はそれぞれワーカ
NMS72、74、76が保持する。これは、イベント
相関処理のために各NMSで貯えられた入力SymptomSet
をNMS間で移動させる必要がなく、そのまま処理でき
るからである。
【0075】[マスタNMS70での処理]図6を参照
して、まずマスタNMS70で、利用者がサブスクライ
ブしたいProblem リストを設定する。「サブスクライ
ブ」とは、ある問題について通知を要求することをい
う。マスタNMS70はそのProblem リストを各ドメイ
ンごとに分類し、ワーカNMS72、74、76に通知
する(250)。ワーカNMS72、74、76は後述
するように各々、この通知をトリガーとしてPSマトリ
クスの作成を開始する。PSマトリクスワーカNMS7
2、74、76はそれぞれ、図1に示した部分マトリク
ス92、94、96の作成を担当する。その処理の詳細
については後述する。
【0076】例えばワーカNMS74は、第1のドメイ
ン78のProblem リスト[P11, P12,..., P1m1] の各々
の問題に対して、まず第1のドメイン78のトポロジー
情報(管理対象オブジェクト構成情報)およびイベント
伝播モデルを用いて図1のマトリクスの[A1]の部分
を生成していく。
【0077】ワーカNMS72はさらに、境界MOのSy
mptom に到達すると、マスタNMS70に対してPSマ
トリクス生成係属要求(境界MOを管理する他NMS
名、ProblemID 、境界MO名、Symptom 名)を送信す
る。ここで、ProblemID とは、MO名+Problem 名で一
意に特定されるProblem 識別子である。同様に、Sympto
mID は、MO名+Symptom 名で一意に特定されるSympto
m 識別子である。MO名はドメイン内で一意になるよう
に、構成管理部30で管理されており、MO名からその
管理対象オブジェクトのクラス(MOクラス)を識別で
きる。MOクラスが特定できると、イベント伝播モデル
すなわち各Symptom のイベント伝播が分かるものとす
る。
【0078】再び図6を参照して、マスタNMS70
は、この要求があるかないかを判定し(252)、ある
場合にはこれに応答して、境界MOを管理する他NMS
に対してPSマトリクス生成継続要求(ProblemID 、境
界MO名、Symptom 名)を送信する(254)。
【0079】ワーカNMS74、76ではそれぞれ、こ
の要求メッセージをトリガーとして、自分の担当するド
メインのトポロジー情報を用いて図1の[B1]、[C
1]を埋めていく。ワーカNMS72は逆に、他のワー
カNMS74、76のProblem からスタートして、自己
のドメインのトポロジー情報を用いて図1の[A2]、
[A3]を埋めていく。こうした処理をワーカNMS7
2、74、76の間で相互に行うことにより図1のPS
マトリクス90を構成する部分マトリクス92、94、
96がそれぞれ形成される。
【0080】ワーカNMS72、74、76はそれぞ
れ、あるProblem についてPSマトリクスの生成処理を
進める。この場合、そのProblem は各自の担当するドメ
インのProblem とは限らない。ワーカNMS72、7
4、76は、あるProblem に対する全てのイベント伝播
が終了し末端のSymptom まで到達すると、次のProblem
の処理に移る。処理すべき全てのProblem のPSマトリ
クス生成が終了すると、マスタNMS70に対して自己
の担当分のPSマトリクス生成が終了したことを通知す
る。ワーカNMS72、74、76は、一度自己のPS
マトリクス生成が終了しても、PSマトリクス生成継続
要求を受信すると、またPSマトリクス生成処理を開始
し、終了すると前述したのと同様にマスタNMS70に
対して自己の担当分のPSマトリクス生成が終了したこ
とを通知する。
【0081】マスタNMS70は、Problem リストを通
知した後または最後に生成継続要求を送信した後に全て
のワーカNMSからPSマトリクス生成の終了通知を受
信すると、PSマトリクス生成処理が完了したものと判
断し(256)、観測SymptomSet相関処理の開始を全て
のNMSに対して要求する。
【0082】具体的に図7を参照して上述の動作を説明
すると、まずマスタNMS70に対して、利用者がサブ
スクライブを希望するProblem リストを設定する(30
0)。これに応答してマスタNMS70が各ワーカNM
Sに対してProblem リストを通知する(302)。各ワ
ーカNMSがこれに対してPSマトリクス生成処理を開
始する。
【0083】図7に示す例では、まず第1のワーカNM
S72がPSマトリクス生成処理を終了し終了通知をマ
スタNMS70に対して送信する(304)。続いてワ
ーカNMS74がワーカNMS76に対するPSマトリ
クス生成継続要求をマスタNMS70に対して送信(3
06)した後終了通知を送信する(308)。マスタN
MS70はこのPSマトリクス生成継続要求306に応
答してワーカNMS76に対してPSマトリクス生成継
続要求を送信する(310)。ワーカNMS76はPS
マトリクスの生成処理の実行を継続するが、ワーカNM
S74に対するPSマトリクス生成継続要求312をマ
スタNMS70に対して送信した後、終了通知を送信す
る(314)。マスタNMS70はこのPSマトリクス
生成継続要求312に応答してワーカNMS74に対し
てPSマトリクス生成継続要求316を送信し、ワーカ
NMS74はこの要求に応答して、一旦終了したPSマ
トリクス生成処理を再開し、処理が終了すると終了通知
318をマスタNMS70に対して送信する。こうし
て、マスタNMS70は全てのワーカNMSから終了通
知を受取るとPSマトリクスの生成処理が完了したと判
断し(320)、次の観測SymptomSet相関処理を開始す
る。
【0084】[ワーカNMSでのPSマトリクス作成処
理]各ワーカNMSでのPSマトリクス作成処理につい
て図8を参照して説明する。まず、マスタNMS70か
らのProblem リスト通知またはPSマトリクス生成継続
要求を受信すると、未処理Problem キューにProblemDat
a としてProblem リストを入れる(260)。各Proble
mData は情報としてProblemID と、境界MOのMO名で
あるInitialMO と、Symptom 名の初期値であるInitialS
ymptomと持つ。ProblemID は、前述のとおりMO名とPr
oblem 名とからなる。
【0085】続いて、未処理Problem キューが空か否か
を判定する(262)。空であれば処理終了である。空
でなければ未処理Problem キューからひとつだけProble
mData を取出し、SymptomData として未処理Symptom キ
ューに入れる(264)。SymptomData は情報としてPr
oblemID とSymptom ID(MO名とSymptom 名)とを持
つ。この処理ではProblemData のProblemID をSymptomD
ata のProblemID に代入する。またProblemData のInit
ialMO をSymptomID のMO名に代入する。ProblemData
のInitialSymptomをSymptomID のSymptom 名に代入す
る。
【0086】未処理Symptom キューが空か否かを判定す
る(266)。空であれば制御はステップ262に戻
る。空でなければ、未処理Symptom キューから1つだけ
SymptomData を取出す(268)。このSymptomData に
対して、そのMOと接続関係のあるMOが存在し、かつ
そのMOのクラスにSymptomData のSymptom からのイベ
ント伝播が定義されているか否かを判定する(27
0)。定義されていなければ制御はステップ266に戻
る。
【0087】定義されていれば、新しいSymptomData を
以下のようにして生成する(272)。すなわち、MO
名にはその接続関係のあるMO名を、Symptom 名にはイ
ベント伝播先のSymptom を、それぞれ代入する。こうし
て生成されたSymptomData を未処理symptom キューに入
れる。また、PSマトリクスの(ProblemID, SymptomI
D)に対応する欄に「1」を設定する。
【0088】次に、SymptomData のMOが境界MOか否
かについての判定を行い(274)、境界MOであれば
マスタNMS70に対してPSマトリクス生成継続要求
を送信して(276)制御をステップ270に戻す。境
界MOでなけえれば何もせず制御をステップ270に戻
す。
【0089】こうした処理によって、各ワーカNMSで
は各自の担当する部分PSマトリクスが生成される。
【0090】[観測SymptomSet相関処理]この処理は非
常に簡単である。前述のとおりマスタワーカモデルで処
理する。入力SymptomSet[S11', S12', ..., S1n1', S2
1', S22', ..., S2n2', S31', S32', ..., S3n3' ]
は、以下のようにわけられる。
【0091】 ・入力SymptomSet1[S11', S12', ..., S1n1'] ・入力SymptomSet2[S21', S22', ..., S2n2'] ・入力SymptomSet3[S31', S32', ..., S3n3'] これらはもともとワーカNMS72、74、76で分散
管理されている。
【0092】そして各ワーカNMSは、自己の保持する
部分PSマトリクスと自己に入力されるSmptomSet とを
用いて相関値(例えば距離)を計算する。たとえばワー
カNMS72は、自己の保持する部分マトリクス92
と、自己に入力されるSmptomSet1とを用いて相関値を計
算する。そして、全てのProblem (または上位の候補の
Problem のみ)の相関値をマスタNMSに通知する。
【0093】マスタNMS70は、全てのワーカNMS
から結果を受取ると、各Problem ごとに相関値(距離)
を集計して最大相関値(最小距離)を持つProblem を求
める。または、上位のいくつかのProblem を候補として
選ぶ。または、所定のしきい値をこえる相関値(または
所定のしきい値より小さな距離)を持つProblem を候補
として選ぶ。
【0094】この処理におけるマスタNMS70と各ワ
ーカNMS72、74、76との間のインタラクション
の例について図9を参照して説明する。まず、PSマト
リクスの生成処理が完了すると(320)、マスタNM
S70は各ワーカNMS72、74、76に対して観測
SymptomSet相関処理の開始要求を送信する(280)。
各ワーカNMS74、76、78からは、処理が終了次
第順次終了通知がマスタNMS70に対して送信されて
くる(282、284、286)。全ての終了通知を受
信すると、マスタNMS70は前述した集計処理を行
い、候補のProblem を求めてユーザインターフェイス部
36に与える(288)。
【0095】こうして、分散環境での観測SymptomSet相
関処理を効率良く行うことができる。この場合、従来の
ように一箇所でPSマトリクス を保持する方式ではな
いので、リソースの制限に対してもPSマトリクスを分
散保持することで対応できるという効果がある。また、
従来のように各ドメイン別に個別にPSマトリクスを生
成保持して観測SymptomSet相関処理を行う場合と比較し
て欠落する情報が少なく、ネットワークが大規模になっ
ても正確な問題特定を行うことができるという効果があ
る。
【0096】なお、この実施の形態のシステムでは、P
Sマトリクスの生成から各ワーカNMSで分散して行っ
ている。しかし本発明はこうした方式に限定されるわけ
ではなく、PSマトリクスの生成はリソースに余裕のあ
るマスタNMSで行い、出来上がったPSマトリクスを
分割してそれぞれの部分相関マトリクスを各ワーカNM
Sに送信するようにしてもよい。特にこの方式は、特
に、PSマトリクス生成のための各NMS間のインタラ
クションが多くなる場合であって、かつPSマトリクス
がそれほど大きくない場合に効果的である。なお、境界
MOの数が多くなければインタラクションはそれほど発
生しないと思われる。
【0097】一箇所でPSマトリクスを生成する場合に
は、必要な情報は以下のとおりである。
【0098】・イベント伝播モデル(簡単のため、クロ
スドメインで共通とする。) ・クロスドメインのトポロジー情報 ・サブスクライブするProblem リスト この場合には、ネットワークが大きくなるとトポロジー
情報が膨大になる可能性があるが、PSマトリクス生成
に真に必要な最小限のトポロジー情報のみに絞り込めば
情報量をかなり削減することが可能である。具体的に
は、moName(MOの名称)、moClassName (MOのクラ
ス名)、relationship(関係:関係名と接続MO名)リ
スト程度で十分であり、構成管理の属性等は不要であ
る。
【0099】<第2の実施の形態>なお、図10に示す
ように、 ネットワーク管理システム20を、既存のネ
ットワーク管理システム110を介して管理対象ネット
ワーク22に接続してもよい。
【0100】以上、本願発明にかかるネットワーク管理
システムを実施の形態に基づいて説明してきたが、本願
発明はこれら実施の形態のシステムに限定されるわけで
はない。本願発明の権利範囲は、特許請求の範囲の各請
求項の記載によって定められるべきである。本願明細書
に開示された実施の形態の各構成要素と均等の構成要素
を用いたものも本願発明の権利範囲に含まれる。
【図面の簡単な説明】
【図1】図1は、本願発明で用いられるPSマトリクス
の例を示す図である。
【図2】図2は、本願発明を実施するためのマスタ・ワ
ーカ・モデルを示す図である。
【図3】図3は、本願発明の一実施の形態に係るネット
ワーク管理システムのブロック図である。
【図4】図4は、本願発明に係るネットワーク管理シス
テムを実現するためのコンピュータの外観図である。
【図5】図5は、図4に示されるコンピュータのブロッ
ク図である。
【図6】図6は、本願発明の一実施の形態のネットワー
ク管理システムのマスタNMS70で行われる処理のフ
ローチャートである。
【図7】図7は、PSマトリクス生成処理におけるマス
タNMSおよびワーカNMS間のインタラクションを示
す図である。
【図8】図8は、本願発明の一実施の形態のネットワー
ク管理システムの各ワーカNMSで行われるPSマトリ
クス作成処理のフローチャートである。
【図9】図9は、観測SymptomSet相関処理におけるマス
タNMSおよびワーカNMS間のインタラクションを示
す図である。
【図10】図10は、本願発明の他の実施の形態にかか
るネットワーク管理システムを示すブロック図である。
【図11】ネットワーク管理に使用される管理対象オブ
ジェクトモデルのクラス図である。
【図12】図12は、簡単なネットワークを模式的に示
す図である。
【図13】図13は、図12に示されるネットワークの
管理対象オブジェクトモデルのクラス図である。
【図14】図14は、図12に示されるネットワークの
管理対象オブジェクトを示すインスタンス図である。
【図15】図15は、ネットワーク管理で用いられるイ
ベント伝播モデルのクラス図である。
【図16】図16は、従来の症状イベント伝播モデルに
基づく症状イベントパターンを表形式で示す図である。
【図17】図17は、従来技術の分散環境での、各ドメ
インで使用されるPSマトリクスを示す図である。
【符号の説明】
20 ネットワーク管理システム 22 管理対象ネットワーク 24 ネットワーク管理インタフェース部 26 イベントデータベース部 28 イベントリポジトリ 30 構成管理部 32 管理対象オブジェクトリポジトリ 34 障害管理部 36 ユーザインタフェース部
フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) H04L 29/14 Fターム(参考) 5B045 BB47 JJ02 JJ08 JJ09 JJ14 5B089 AA03 AA16 AC03 CC15 DD02 EA10 5K030 GA12 LE01 MA01 MB20 MD00 5K033 AA06 BA04 DA01 EA04 EA07 EC00 5K035 AA03 AA07 DD01 JJ01 JJ03

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 自己の属するネットワークにおける問題
    を特定する際に参照される問題と症状パターンとの相関
    マトリクスを分散管理するためのネットワーク管理シス
    テムであって、 他のネットワーク管理システムと交信するための関係シ
    ステム交信手段と、 管理対象のドメインの構成情報データおよび障害情報デ
    ータを取得するためのデータ取得手段と、 管理対象オブジェクトモデルと、オブジェクトクラス間
    に定義されたイベントの伝播モデルと、前記データ取得
    手段により取得された構成情報データと、自己の管理す
    るドメインでの管理の対象となる問題イベントリスト
    と、前記関係システム交信手段を介して他ネットワーク
    管理システムから与えられる、他ドメインから伝播する
    症状イベント情報とに基づき、自己の管理するドメイン
    での症状イベントと、ネットワーク全体での管理の対象
    となる問題イベントとの間の部分相関マトリクスを生成
    するための部分相関マトリクス生成手段と、 前記部分相関マトリクス生成手段によるマトリクス生成
    の過程で、他ドメインに伝播する症状イベントを検出
    し、当該症状イベントの原因となる問題イベントの識別
    子とともに、当該他ドメインを管理する他ネットワーク
    管理システムに対して前記関係システム交信手段を介し
    て相関マトリクス生成継続要求を送信するための手段と
    を含む、ネットワーク管理システム。
  2. 【請求項2】 さらに、前記データ取得手段により取得
    される、自己の管理するドメイン内で生じる症状イベン
    トパターンと、前記部分相関マトリクスとの比較に基づ
    いて、ネットワーク上で発生した問題イベントを特定
    し、所定の送信先に対して通知するための手段を含む、
    請求項1に記載のネットワーク管理システム。
  3. 【請求項3】 所定のネットワーク内で生ずる症状イベ
    ントから、ネットワーク障害の原因を推定するためのネ
    ットワーク管理システムであって、 複数個のワーカネットワーク管理システムと、 前記複数個のワーカネットワーク管理システムの各々と
    接続されたマスタネットワーク管理システムとを含み、 各前記ワーカネットワーク管理システムは、 前記マスタネットワーク管理システムと交信するための
    交信手段と、 管理対象のドメインの構成情報データおよび障害情報デ
    ータを取得するためのデータ取得手段と、 管理対象オブジェクトモデルと、オブジェクトクラス間
    に定義されたイベントの伝播モデルと、前記データ取得
    手段により取得された構成情報データと、自己の管理す
    るドメインでの管理の対象となる問題イベントリスト
    と、前記交信手段を介して前記マスタネットワーク管理
    システムから与えられる、他ドメインから伝播する症状
    イベント情報とに基づき、自己の管理するドメインでの
    症状イベントと、ネットワーク全体での管理の対象とな
    る問題イベントとの間の部分相関マトリクスを生成する
    ための部分相関マトリクス生成手段と、 前記部分相関マトリクス生成手段によるマトリクス生成
    の過程で、他ドメインに伝播する症状イベントを検出
    し、当該症状イベントの原因となる問題イベントの識別
    子と、当該他ドメインを管理するワーカネットワーク管
    理システムの識別子とを含む相関マトリクス生成継続要
    求を、前記関係システム交信手段を介して前記マスタネ
    ットワーク管理システムに対して送信するための手段と
    を含み、 前記マスタネットワーク管理システムは、 各前記ワーカネットワーク管理手段からの相関マトリク
    ス生成継続要求を、識別子により特定されるワーカネッ
    トワーク管理システムに送信するための手段を含む、ネ
    ットワーク管理システム。
  4. 【請求項4】 各前記ワーカネットワーク管理システム
    は、前記部分相関マトリクス生成手段による部分相関マ
    トリクスの生成の完了に応答して終了通知を前記マスタ
    ネットワーク管理システムに送信するための手段をさら
    に含み、 前記マスタネットワーク管理手段は、全ての前記ワーカ
    ネットワーク管理システムから終了通知を受信したこと
    に応答して、各前記ワーカネットワーク管理システムに
    対して相関処理の開始を指令するための手段をさらに含
    み、 各前記ワーカネットワーク管理システムは、前記指令に
    応答して、自己の管理するドメイン内で生じる症状イベ
    ントパターンと、前記部分相関マトリクスとの比較を行
    う処理を開始し、自己の管理するドメイン内で発生した
    可能性の高い問題イベントを特定し、前記マスタネット
    ワーク管理システムに対して通知するための手段をさら
    に含み、 前記マスタネットワーク管理システムは、各前記ワーカ
    ネットワーク管理システムからの、発生した可能性の高
    い問題イベントについての通知に基づいて前記ネットワ
    ークの障害の可能な根本原因を特定するための手段をさ
    らに含む、請求項3に記載のネットワーク管理システ
    ム。
  5. 【請求項5】 所定のネットワーク内で生ずる症状イベ
    ントから、ネットワーク障害の原因を推定するためのネ
    ットワーク管理システムであって、 複数個のワーカネットワーク管理システムと、 前記複数個のワーカネットワーク管理システムの各々と
    接続されたマスタネットワーク管理システムとを含み、 各前記ワーカネットワーク管理システムは、 前記マスタネットワーク管理システムと交信するための
    交信手段と、 管理対象のドメインの構成情報データおよび障害情報デ
    ータを取得するためのデータ取得手段とを含み、 前記マスタネットワーク管理システムは、 各前記ワーカネットワーク管理手段からネットワークの
    管理対象オブジェクト識別名と、管理対象オブジェクト
    クラス名と、管理対象オブジェクト間の接続関係情報と
    を取得して、ネットワークにおける問題イベントと症状
    イベントとの相関マトリクスを生成するための手段と、 前記相関マトリクスを各前記ワーカネットワーク管理シ
    ステムごとに、各前記ワーカネットワーク管理システム
    が管理するドメインでの発生が想定される症状イベント
    に基づいて分割した部分相関マトリクスを当該ワーカネ
    ットワーク管理システムに送信するための手段とを含
    み、 各前記ワーカネットワーク管理システムは前記部分相関
    マトリクスを保持するための手段と、 自己の管理するドメインの症状イベントパターンと前記
    部分相関マトリクスとを比較することにより、ネットワ
    ーク内の障害の原因である可能性の高い問題イベントを
    特定して前記マスタネットワーク管理システムに通知す
    るための手段とを含み、 前記マスタネットワーク管理システムは、各前記ワーカ
    ネットワーク管理システムからの、発生した可能性の高
    い問題イベントについての通知に基づいて前記ネットワ
    ークの障害の可能な根本原因を特定するための手段をさ
    らに含むネットワーク管理システム。
JP10191772A 1998-07-07 1998-07-07 ネットワーク管理システム Withdrawn JP2000020428A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10191772A JP2000020428A (ja) 1998-07-07 1998-07-07 ネットワーク管理システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10191772A JP2000020428A (ja) 1998-07-07 1998-07-07 ネットワーク管理システム

Publications (1)

Publication Number Publication Date
JP2000020428A true JP2000020428A (ja) 2000-01-21

Family

ID=16280279

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10191772A Withdrawn JP2000020428A (ja) 1998-07-07 1998-07-07 ネットワーク管理システム

Country Status (1)

Country Link
JP (1) JP2000020428A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002215482A (ja) * 2000-11-02 2002-08-02 Fisher Rosemount Syst Inc データ送信方法及びシステム
KR100533153B1 (ko) * 2002-06-20 2005-12-02 주식회사 케이티 멀티도메인 환경에서 관리자 그룹 관리 장치
US7043661B2 (en) 2000-10-19 2006-05-09 Tti-Team Telecom International Ltd. Topology-based reasoning apparatus for root-cause analysis of network faults
JP2012059063A (ja) * 2010-09-09 2012-03-22 Hitachi Ltd 計算機システムの管理方法、及び管理システム
WO2012120629A1 (ja) * 2011-03-08 2012-09-13 株式会社日立製作所 計算機システムの管理方法及び管理装置
JP2014504116A (ja) * 2011-01-12 2014-02-13 アダプティブ スペクトラム アンド シグナル アラインメント インコーポレイテッド Wan及びlanネットワーク通信を連帯して最適化するシステム及び方法
US8769339B2 (en) 2010-01-12 2014-07-01 Fujitsu Limited Apparatus and method for managing network system
JP2015022396A (ja) * 2013-07-17 2015-02-02 日本電信電話株式会社 運用管理装置、運用管理方法およびプログラム
WO2015019488A1 (ja) * 2013-08-09 2015-02-12 株式会社日立製作所 管理システム及びその管理システムによるイベント解析方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7043661B2 (en) 2000-10-19 2006-05-09 Tti-Team Telecom International Ltd. Topology-based reasoning apparatus for root-cause analysis of network faults
JP2002215482A (ja) * 2000-11-02 2002-08-02 Fisher Rosemount Syst Inc データ送信方法及びシステム
JP4535655B2 (ja) * 2000-11-02 2010-09-01 フィッシャー−ローズマウント システムズ, インコーポレイテッド データ送信方法及びシステム
US7839890B1 (en) 2000-11-02 2010-11-23 Fisher-Rosemount Systems, Inc. Multiplexed data transmissions through a communication link
KR100533153B1 (ko) * 2002-06-20 2005-12-02 주식회사 케이티 멀티도메인 환경에서 관리자 그룹 관리 장치
US8769339B2 (en) 2010-01-12 2014-07-01 Fujitsu Limited Apparatus and method for managing network system
JP2012059063A (ja) * 2010-09-09 2012-03-22 Hitachi Ltd 計算機システムの管理方法、及び管理システム
JP2014504116A (ja) * 2011-01-12 2014-02-13 アダプティブ スペクトラム アンド シグナル アラインメント インコーポレイテッド Wan及びlanネットワーク通信を連帯して最適化するシステム及び方法
US10333819B2 (en) 2011-01-12 2019-06-25 Assia Spe, Llc Systems and methods for jointly optimizing WAN and LAN network communications
US10757003B2 (en) 2011-01-12 2020-08-25 Assia Spe, Llc Systems and methods for jointly optimizing WAN and LAN network communications
WO2012120629A1 (ja) * 2011-03-08 2012-09-13 株式会社日立製作所 計算機システムの管理方法及び管理装置
US8671186B2 (en) 2011-03-08 2014-03-11 Hitachi, Ltd. Computer system management method and management apparatus
JP2015022396A (ja) * 2013-07-17 2015-02-02 日本電信電話株式会社 運用管理装置、運用管理方法およびプログラム
WO2015019488A1 (ja) * 2013-08-09 2015-02-12 株式会社日立製作所 管理システム及びその管理システムによるイベント解析方法

Similar Documents

Publication Publication Date Title
US11616703B2 (en) Scalable visualization of health data for network devices
CN113508403B (zh) 用于自动化系统组件与多个信息源的可互操作通信的系统和方法
CN101061688B (zh) 基于简单网络管理协议的网络管理设备和方法
US5848243A (en) Network topology management system through a database of managed network resources including logical topolgies
US8285800B2 (en) Service model creation using monitored data of the performance management tool
US8538787B2 (en) Implementing key performance indicators in a service model
US5930476A (en) Apparatus and method for generating automatic customized event requests
US20050256948A1 (en) Methods and systems for testing a cluster management station
CN104104543A (zh) 一种基于snmp和ipmi协议的服务器管理系统及方法
CN101502047A (zh) 存储网络管理系统中的网络节点的配置信息的方法和系统
CN109347689A (zh) 一种设备监控方法及系统
CN104184826A (zh) 多数据中心存储环境管理方法和系统
JP2000020428A (ja) ネットワーク管理システム
CN108153532A (zh) 一种基于日志挖掘的云应用部署方法
US8380549B2 (en) Architectural design for embedded support application software
CN103080922B (zh) 用于处理事件的方法和系统
CN108063787A (zh) 基于分布式一致性状态机实现双活架构的方法
US20020152294A1 (en) Apparatus and method for representing a class inheritance hierarchy
CN109733444B (zh) 数据库系统和列车监控管理设备
JPWO2006051599A1 (ja) リソース管理プログラム、リソース管理方法、およびリソース管理装置
CN108156061A (zh) esb监控服务平台
JPH11243390A (ja) ネットワークのイベント相関表作成方法
CN110932875B (zh) 一种大数据云计算环境下的告警装置及方法
JPH11252074A (ja) ネットワーク管理システム
WO2019062850A1 (zh) 数据交互的方法、装置及设备

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20051004