JPH09307550A - ネットワークシステム監視装置 - Google Patents

ネットワークシステム監視装置

Info

Publication number
JPH09307550A
JPH09307550A JP8116284A JP11628496A JPH09307550A JP H09307550 A JPH09307550 A JP H09307550A JP 8116284 A JP8116284 A JP 8116284A JP 11628496 A JP11628496 A JP 11628496A JP H09307550 A JPH09307550 A JP H09307550A
Authority
JP
Japan
Prior art keywords
alarm
alarms
network system
pair
occurrence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8116284A
Other languages
English (en)
Inventor
太郎 ▲高▼木
Taro Takagi
Yoshiaki Ichikawa
芳明 市川
Masami Yuki
正美 結城
Kunihiko Kobari
邦彦 小針
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP8116284A priority Critical patent/JPH09307550A/ja
Publication of JPH09307550A publication Critical patent/JPH09307550A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Monitoring And Testing Of Exchanges (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Alarm Systems (AREA)

Abstract

(57)【要約】 【課題】 多数のアラームの中から互いに関連を有する
代表アラームを抽出すること。 【解決手段】 ネットワークシステム10から発生した
多数のアラーム130をアラーム収集部32で収集し、
各アラーム130をカテゴリ分類部36で複数のカテゴ
リに分類し、一方のカテゴリに属するアラームが発生し
てから他のカテゴリに属するアラームが発生するまでの
時間間隔をアラーム間隔解析部38で解析し、この解析
結果を基に、アラーム発生規則抽出部42により各アラ
ームが発生する際の規則性を抽出する。そしてアラーム
発生規則抽出部42により抽出された規則性を基に、代
表アラーム抽出部46により多数のアラーム130の中
から代表アラームを131を抽出し、代表アラーム13
1を表示部48に表示する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ネットワークシス
テム監視装置に係り、特に、ネットワークシステムの内
部で発生した障害に起因して連鎖的に発生する多数のア
ラームを受信し、受信したアラームを基に障害の部位を
特定するに好適なネットワークシステム監視装置に関す
る。
【0002】
【従来の技術】ネットワークシステムとしては、道路交
通網、電話網、物流システム、情報通信システムなど各
種のシステムが知られている。これらネットワークシス
テムのうち情報通信ネットワークシステムでは、社会全
体の情報化に伴い、多くの分野で大規模なネットワーク
システムが利用されている。このようなネットワークシ
ステムは、社会的にも大きな影響を持つことが多く、そ
の動作障害によっては深刻な影響を与えることも少なく
ない。このため、ネットワークシステムの管理者は、ネ
ットワークシステムの動作障害を検知したときには、速
やかにその障害部位を特定し、故障設備の補修や代替設
備の設置など適切な処置を施すことが余儀なくされてい
る。
【0003】ネットワークシステムの内部で発生した障
害の部位を特定するに際しては、従来、信号の送受信や
伝送路の選択(ルーティング)を行なう目的で、あらか
じめネットワークシステムの内部に配置されている通信
装置に、障害検知機能を持たせる方法が採用されてい
る。この通信装置は障害を検知したときに、その内容を
「アラーム」と呼ばれる信号に記録し、その通信装置を
管轄しているネットワークシステム管理局にアラームを
送信し、ネットワークシステムの内部で障害が発生した
旨をネットワークシステム管理者に集中的に報知するよ
うになっている。
【0004】しかし情報通信ネットワークシステムの一
部に障害が発生すると、一般に、他の部位にも連鎖的に
その影響が波及する。例えば、通信容量の大きい(高次
群の)伝送路に障害が発生すると、その伝送路に置かれ
た通信装置だけではなく、その伝送路に接続されている
低次群の伝送路に置かれた通信装置も障害を検知し、一
部の障害によって複数の通信装置からアラームが発生す
る。このため、ネットワークシステムから発生するアラ
ームを集中的に監視する方法を採用した場合、ネットワ
ークシステム管理者のもとには過剰なアラームが大量に
送られることが多く、その中から発生原因に最も直接的
に起因するアラームを抽出し、抽出したアラームから障
害部位に最も近い通信装置を機械的に特定することは困
難になる。
【0005】しかも、多くの大規模なネットワークシス
テムでは、頻繁にハードウエア構成の部分的な改変が行
なわれており、ネットワークシステム全体の正確なハー
ドウエア構成を把握することは極めて困難である。この
ため、ネットワークシステムのハードウエア構成のみに
基づいた管理を行なうことは実際にはほとんど不可能で
ある。
【0006】そこで、従来のネットワークシステムで
は、ネットワークシステム管理局を階層的に構成し、そ
れぞれのネットワークシステム管理局が比較的少数の通
信装置を管轄する方法が採用されている。この方法によ
れば、ネットワークシステム管理者がハードウエア構成
の全体を把握する必要はなく、前述したような問題点を
回避することができる。しかし、この方法では、ネット
ワークシステムの負担は軽減されるが、システムの一部
で障害が発生した場合、アラームの伝送ルートが複数種
類生じるので、障害部位を論理的に特定することはむし
ろ難しくなる。このため、ネットワークシステム管理者
は過去の事例を参照しながら障害部位を推定することが
余儀なくされている。
【0007】一方、今後大規模なネットワークシステム
が出現するものと予想されているにもかかわらず、社会
構造の変化に伴う人員削減の問題や管理技術の継承の問
題により、ネットワークシステム管理者の数は削減され
ているのが現状である。そのため、ネットワークシステ
ム管理者が管轄する通信装置の数が著しく増大するもの
と予想されており、またネットワークシステムの管理業
務の自動化も急務とされている。
【0008】特に、アラームを利用したネットワークシ
ステムの管理業務では、ネットワークシステムの規模の
拡大に伴い、管轄する通信装置の数の増大に加えて、連
鎖的に発生するアラームの多重度の増大が問題となって
くる。すなわちアラームは、前述したように、各アラー
ムが相関をもって多重に発生することが多く、その多重
度はネットワークシステムの規模が大きくなるにつれて
増大する傾向にある。このためネットワークシステム管
理者は、膨大な数のアラームを処理するに際して、多く
のアラームを分類あるいは選別し、分離または選別して
得られたアラームの中からその発生原因に基づく代表的
なアラーム(代表アラーム)を抽出することができる装
置が必要になる。
【0009】多数のアラームの中から代表アラームを抽
出するようにしたものとして、例えば特開平7−192
188号公報に記載されているように、まず多数のアラ
ームを既定の基準に基づいて複数の種類(カテゴリ)に
分け、それぞれのカテゴリの組合わせについて統計的に
相関関係を調べ、さらにカテゴリの依存関係を推定し、
この推定結果からカテゴリに属するアラームを破棄する
ようにしたものが提案されている。すなわち代表アラー
ムを抽出するに際しては、二つのカテゴリで構成される
対(カテゴリペア)を求め、このカテゴリペアを構成し
ている二つのカテゴリに属する一つずつのアラームで構
成される対(アラームペア)を求め、各アラームペアを
構成しているアラームの発生時刻の間隔としきい値とを
比較し、この比較結果からカテゴリペアの相関関係を解
析するようになっている。
【0010】
【発明が解決しようとする課題】前記従来技術では、ア
ラームペアを構成しているアラームの発生時刻の間隔が
小さいカテゴリペアを相関関係の解析対象としており、
これらのアラームを発生した通信装置に備えられている
時計に時間のずれがある場合や、アラームの伝播時間が
長い場合には、カテゴリペアの相関関係を解析すること
ができない場合がある。このような場合には、統計的に
十分な数のアラームを収集することができず、多数のア
ラームの中から互いに関連を有する代表アラームを抽出
することが困難であり、アラームを収集してもネットワ
ークシステムの管理に効率的に活用することができな
い。
【0011】本発明の目的は、ネットワークシステムの
内部で発生した多数のアラームの中から互いに関連を有
する代表アラームを抽出することができるネットワーク
システム監視装置を提供することにある。
【0012】
【課題を解決するための手段】前記目的を達成するため
に、本発明は、ネットワークシステムの内部で発生した
障害に起因して連鎖的に発生する多数のアラームを受信
し、受信したアラームをその発生原因に従って複数の種
類に分類し、分類したアラームのうち一の種類に属する
アラームが発生してから別の種類に属するアラームが発
生するまでの時間間隔を解析し、このアラーム間隔の解
析結果と2種類のアラームの発生間隔について設定され
た設定時間とが一致したときに、解析対象のアラームを
代表アラームとして抽出し、抽出した代表アラームを出
力してなるネットワークシステム監視装置を構成したも
のである。
【0013】前記ネットワークシステム監視装置を構成
するに際しては、一対のアラームに関する時間間隔を解
析した後、この解析結果からアラームが発生する際の規
則性を抽出し、この抽出結果を基に多数のアラームの中
から代表的なアラームを代表アラームとして抽出する構
成を採用することができるとともに、アラーム間隔の解
析結果からアラームが発生する際の特徴を抽出し、抽出
した特徴を基に多数のアラームの中から代表的なアラー
ムを代表アラームとして抽出することもできる。
【0014】また本発明は、情報の授受を行う複数の通
信装置を互いに情報伝送路を介して接続してなるネット
ワークシステムの内部で障害が発生したときに、この障
害に起因して複数の通信装置から障害の発生原因に従っ
て連鎖的に送信される多数のアラームを収集して管理す
るものにおいて、ネットワークシステムから多数のアラ
ームを受信し、受信したアラームの種類を識別すると共
に受信したアラームの受信時刻を記録し、受信したアラ
ームに対して2種類のアラームをそれぞれ対を成すアラ
ームに設定し、設定した各対のアラームの受信時刻の間
隔の分布に表れる特徴をそれぞれ検出し、各検出した特
徴から各対のアラームに関する相関関係をその発生原因
に従ってそれぞれ解析し、この解析結果から特定の対に
属するアラームを代表アラームとして抽出し、抽出した
代表アラームを出力してなることを特徴とするネットワ
ークシステム監視装置を構成したものである。
【0015】前記ネットワークシステム監視装置を構成
するに際しては、ネットワークシステムとして、情報の
授受を行なう複数の局と複数の節点とを互いに接続し、
各節点を経路を介して互いに接続してなるネットワーク
システムにも適用することができる。さらに前記ネット
ワークシステム監視装置には、以下の要素を付加するこ
とができる。
【0016】(1)各対のアラームの受信時刻の間隔の
分布に表れる特徴をそれぞれ検出するに際して、各対の
アラームの受信時刻の間隔の分布をグラフに表わしたと
きの特徴的なピークを利用してなるもの。
【0017】(2)ネットワークシステムから多数のア
ラームを受信した際に、各対のアラームの受信時刻の間
隔の分布をグラフで表示してなるもの。
【0018】(3)各対のアラームに関する相関関係を
解析したときに、この解析結果を基に、先の相関関係に
関する解析結果を更新してなるもの。
【0019】(4)各対のアラームに関する相関関係を
解析するに際して、各対に属するアラームはそれぞれ発
生時刻が異なることを利用してなるもの。
【0020】(5)各対のアラームに関する特徴から各
対のアラームに関する相関関係とともに依存関係をその
発生原因に従ってそれぞれ解析してなるもの。
【0021】前記した手段によれば、ネットワークシス
テムから多数のアラームを受信したときに、各アラーム
を複数の種類に分類し、分類したアラームのうち二つの
種類に属するアラームの時間間隔を解析し、両者のアラ
ームに関する規則性あるいは特徴を抽出し、規則性ある
いは特徴に互いのアラームの間に依存関係があることが
推定できるときには、これらのアラームを代表アラーム
として用いることができ、多数のアラームの中から代表
アラームを抽出することができる。そして抽出した代表
アラームを基にネットワークシステムのうち障害の発生
した部位を特定することが可能となる。
【0022】
【発明の実施の形態】以下、本発明の一実施形態を図面
に基づいて説明する。
【0023】図1は本発明によるネットワークシステム
監視装置の一実施形態を示す全体構成図である。図1に
おいて、ネットワークシステム10は、電話網による情
報通信ネットワークシステムとして、複数の通信装置T
1〜T11を備えており、各通信装置T1〜T11がそ
れぞれ情報伝送路L1〜L20を介して接続されてい
る。各通信装置T1〜T11は情報伝送路L1〜L20
を介して互いに情報の授受を行なうデジタル交換機を備
えて構成されており、いずれかの情報伝送路で障害、例
えば情報伝送路L9の破断などの障害112が生じたと
きに、障害112に応じた各種の情報を「アラーム電
文」と呼ばれる電文に記録し、アラーム130をそれぞ
れネットワークシステム監視装置20に送信するように
なっている。この場合、アラーム130を送信する通信
装置は通信装置固有の番号とともに発生時刻に関する情
報をアラーム100に付加して送信するようにしてい
る。すなわち、ネットワークシステム10においては、
例えば、情報伝送路L9に破断が生じたときに、この情
報伝送路L9を利用する複数の通信装置から、情報伝送
路L9の障害112の発生に起因して連鎖的に多数のア
ラームが発生するようになっている。
【0024】ネットワークシステム監視装置20は、入
力装置22から入力された情報に基づいてネットワーク
システム10の状態を監視し、ネットワークシステム1
0の内部で発生した障害112に起因して連鎖的に発生
する多数のアラーム130を受信し、受信したアラーム
130に従って障害112の部位を推定し、この推定結
果をネットワークシステム管理者120に分かりやすく
表示するように構成されている。そして本実施形態で
は、ネットワークシステム監視装置20は、集中型で且
つ学習型の監視装置としてアラーム収集部32、装置・
時刻記憶部34、カテゴリ分類部36、アラーム間隔解
析部38、アラーム間隔記憶部40、アラーム発生規則
抽出部42、カテゴリ相関記憶部44、代表アラーム抽
出部46、表示部48、障害緩和部50を備えて構成さ
れている。
【0025】アラーム収集部32は、ネットワークシス
テム10から送信されるアラーム130をアラーム電文
として順次受信し、受信したアラーム130を装置・時
刻記憶部34へ出力するアラーム収集手段として構成さ
れている。装置・時刻記憶部34は、アラーム収集部3
2によって収集されたアラーム130を通信装置の番号
に対応づけて各アラームをその発生時刻に関するデータ
とともに記憶する装置・時刻記憶手段として構成されて
いる。
【0026】カテゴリ分類部36は、装置・時刻記憶部
34に記憶されたアラーム130に関するデータを取り
出し、各アラーム130を複数の種類(カテゴリ)に分
類するカテゴリ分類手段として構成されている。各アラ
ーム130を複数のカテゴリに分類するに際しては、例
えば、通信装置番号で分類したり、障害の種類で分類し
たり、あるいは通信番号装置・障害の種類を併用して分
類することができる。この場合、カテゴリの数を増やす
と、アラーム発生規則抽出部42でアラーム130の発
生に関する規則性を抽出する際に、各アラームの相関関
係をより詳細に解析することができる。そしてカテゴリ
分類部36の分類結果はアラーム間隔解析部38に入力
される。アラーム間隔解析部38は、カテゴリ分類部3
6によって分類された多数のカテゴリの中から任意に二
つのカテゴリを取り出してカテゴリペア(対をなすカテ
ゴリ)を作り、各カテゴリペアに属するアラームを適当
に一つずつ取り出して、各アラームの発生時刻の間隔を
「アラーム間隔データ」と呼ぶ記憶形式でアラーム間隔
記憶部40に順次蓄積させるアラーム間隔解析手段とし
て構成されている。
【0027】アラーム発生規則抽出部42は、アラーム
間隔記憶部40に記憶されたアラーム間隔データを取り
込み、カテゴリペアに属する二つのカテゴリについて、
それぞれのカテゴリに属するアラーム間の相関関係(発
生原因が同一の関係)を解析し、この解析結果をカテゴ
リ相関記憶部44に「カテゴリ相関データ」として蓄積
させるアラーム発生規則抽出手段として構成されてい
る。この場合、アラーム発生規則抽出部42は、各カテ
ゴリに属するアラーム間の相関関係を解析した後、各ア
ラーム間の依存関係(因果関係)を解析し、この解析結
果も「カテゴリ相関データ」としてカテゴリ相関記憶部
44に順次蓄積することもできる。
【0028】代表アラーム抽出部46は、カテゴリ相関
記憶部44に記憶されたカテゴリ相関データを基に、ア
ラーム収集部32によって収集された多数のアラーム1
30の中から代表的なアラームを代表アラーム131と
して抽出し、抽出したアラーム131を表示部48の画
面上に表示させる代表アラーム抽出手段として構成され
ている。
【0029】表示部48は、障害112に関する詳細な
情報やネットワークシステム監視装置20の動作状態を
調べるためのアラーム情報132をネットワークシステ
ム管理者120に分かりやすく表示する表示手段として
構成されている。表示部48の画面上に障害112等に
関する情報を表示するに際しては、例えば、表示部48
の画面をグラフィックディスプレイ画面として、この画
面に、通信装置T1〜T11や情報伝送路L1〜L20
などの画像を表示するとともに、障害部位112をハイ
ライト表示することができる。このような表示方法を採
用すると、ネットワークシステム管理者120は、障害
112に関する情報を容易に把握することができる。ま
た、場合によっては、代表アラーム131に記録された
情報だけでは適切な対処ができず、ネットワークシステ
ム管理者120がさらに多くの情報を必要とするときに
は、ネットワークシステム監視装置20の内部に蓄積さ
れている各種記憶部のデータをアラーム情報132とし
てリアルタイムに表示することもできる。またネットワ
ークシステム管理者120の要求により、入力装置22
が操作されたときには、この操作に応答して、装置・時
刻記憶部34、アラーム記憶部40、カテゴリ相関記憶
部44に記憶されているデータの内容あるいは、判断処
理に伴う確信度などを表示部48の画面上に表示するこ
とができる。
【0030】障害緩和部50は、代表アラーム131に
記録されている情報に基づいて適切なネットワーク制御
指令133を発行することにより、障害112の影響を
緩和する障害緩和手段として構成されている。このネッ
トワーク制御指令133が出力されたときには、ネット
ワークシステム10では、各通信装置のデジタル交換機
にルーティング制御信号を出力し、トラフィックを迂回
させることが実行される。またネットワーク制御指令1
33には、通信装置や情報伝送路の修理・改造・新設に
関する処理も含まれている。このように、ネットワーク
制御指令133には各種の形態があり、障害緩和部50
が全ての処理を自動的に行なうことは極めて難しいの
で、通常、ネットワークシステム管理者120は入力装
置22を使用し、障害緩和部50の処理を支援すること
になる。
【0031】次に、ネットワークシステム10内で障害
が発生して多数のアラームが発生したときに、アラーム
を通信装置によって複数のカテゴリに分類し、「上位通
信装置」を通信装置iとし、「下位通信装置」を通信装
置jとし、カテゴリペアを(i,j)したときの動作に
ついて説明する。
【0032】まず、図2に示すように、通信装置iから
のアラーム210に起因して通信装置jから連鎖的にア
ラーム211が発生すると、各アラームがアラーム収集
部32によって収集され、収集されたアラームが順次装
置・時刻記憶部34に蓄積される。図2の(a)では、
通信装置i、jからのアラームが「j,i,j,j,
i,i,j,j,j,i,i,i,j,j,j,i,
j,i,j,i」の順に収集されていることを示してい
る。これらのアラームは、カテゴリ分類手段36により
通信装置iからのアラーム210と通信装置jからのア
ラーム211とに分類される。この後分類されたアラー
ム210、211を基に、アラーム間隔解析部38によ
り、各アラーム210、211の発生間隔が解析され
る。この場合、アラーム210とアラーム211の発生
間隔は、アラーム210が発生したことを条件に発生す
るアラーム211の時間遅れt1、t2、t3、t4、
t5として抽出される。
【0033】すなわち、一般に、ネットワークシステム
10からアラームが連鎖的に発生する場合、上位通信装
置iで発生したアラームが下位通信装置jに伝わり、下
位通信装置jからアラームが発生するまでには多少の時
間がかかる。しかも通信装置i、jに備えられている時
計のなかには進んでいるものや遅れているものがある。
このため、上位通信装置iからのアラームと下位通信装
置jからのアラームに記録されている発生時刻の間には
多くの場合に時間遅れti(t1、t2、t3、t4、
t5…)が生じる。この時間遅れtiは、ネットワーク
システム10のハードウエア構成や通信プロトコル、障
害検知の周期や処理時間、報告の周期やアラームの伝達
時間などに依存しているので、カテゴリペアに固有のも
のと考えることができる。このことは、現在も稼動して
いる広域情報通信ネットワークシステムで過去に発生し
たアラームを分析したところ、一部の通信装置の組合わ
せについてはほぼ一定の時間遅れが見られることで確認
されている。
【0034】アラーム間隔解析の処理をまとめると、図
3のフローチャートで表わすことができる。
【0035】まず、アラーム間隔解析38は、アラーム
収集部32によって収集されたアラームの中からカテゴ
リペア(i,j)を選び、各カテゴリに属するアラーム
のデータを順番に走査する(ステップ301)。このあ
と装置・時刻記憶部34から通信装置iに関するアラー
ム210を一つ取り出し、その発生時刻をメモリ(アラ
ーム間隔記憶部40)に記憶する(ステップ302)。
次に、アラーム210の次に受信されたアラームとし
て、通信装置jからのアラーム211を装置・時刻記憶
部34から取り出し、その発生時刻をメモリに記憶する
(ステップ303)。そして二つのアラームの発生時刻
から時間遅れtiを求め、この内容をアラーム間隔記憶
部40に蓄積する(ステップ304)。このあと装置・
時刻記憶部34の中から通信装置iに関連するアラーム
210が全て取り出されたか否かの判定を行ない(ステ
ップ305)、全て取り出されていないときにはステッ
プ302に戻り、全て取り出されたときには、全てのカ
テゴリペア(i,j)について処理を行なったか否かの
判定を行なう(ステップ306)。そして全てのカテゴ
リペアについての処理を行なったことでこのルーチンで
の処理を終了する。
【0036】上記処理により全てのカテゴリペアについ
ての時間遅れtiが蓄積されると、アラーム間隔記憶部
40には、図4に示すように、各カテゴリペア毎にアラ
ーム間隔に関するデータがヒストグラムに対応付けて蓄
積される。
【0037】各カテゴリペアについて、一方のアラーム
が発生したときを基準に他のアラームが発生するまでの
時間間隔に関するデータを蓄積すると、アラームの発生
時間間隔が時間遅れt1よりも長く、発生頻度の低いア
ラームについても、連鎖的に発生した二つのアラームを
正しく対応させることができる。特に発生頻度の低いア
ラームを有効に利用することができる。また、カテゴリ
ペア(i,j)についての処理が終了した後カテゴリペ
アを交換し、同様の処理を繰り返して全てのカテゴリを
処理の対象とすると、代表アラーム抽出部46の判断処
理の信頼度を高めることができるが、全てのカテゴリを
処理の対象とすることなく、頻繁に発生するアラームの
カテゴリだけを対象とすれば、処理時間を著しく短縮す
ることができる。
【0038】アラーム間隔データが蓄積されると、アラ
ーム発生規則抽出部42により、アラーム間隔データを
基に、アラームが発生する際の規則性あるいは特徴を抽
出する処理が実行される。このアラーム発生規則抽出部
42による処理は、アラーム間隔データは一種のヒスト
グラムとして表わされ、二つのカテゴリに属するアラー
ムの間に強い相関関係があるときには、図4のヒストグ
ラムには顕著なピーク400が表われることを利用した
ものである。すなわち、アラーム発生規則抽出部42
は、アラーム間隔データを基に、図4のピーク400近
傍における時間遅れの平均値と分散値を求め、これらを
ピーク400近傍内に含まれるアラームペアの度数とと
もに「カテゴリ相関データ」と呼ぶ記憶形式でカテゴリ
相関記憶部44に順次蓄積するようになっている。
【0039】具体的には、図5に示すように、アラーム
発生規則抽出部40には、カテゴリペア(i,j)を順
番に走査し(ステップ501)、アラーム間隔記憶部4
0から時間遅れtiに関するデータを全て取り出し、こ
れらの平均値と分散値を求める(ステップ502)。こ
のあと時間遅れtiのうち、正規分布から著しく外れた
ものを取り除く(ステップ503)。すなわちワイルド
データを除き、発生原因があるものだけを抽出する。こ
のあと抽出した時間遅れtiが正規分布に従っているか
否かの判定を行ない(ステップ504)、従っていない
ときには、ステップ503の処理に戻り、従っていると
きには、残った時間遅れtiの平均値と分散値をそれぞ
れカテゴリ相関記憶部44に蓄積する(ステップ50
5)。この後全てのカテゴリペア(i,j)について処
理を行なったか否かの判定を行ない(ステップ50
6)、行なってないときにはステップ501の処理に戻
り、全ての処理を実行したときにはこのルーチンでの処
理を終了する(ステップ506)。
【0040】アラーム発生規則抽出部44の処理によっ
て得られたカテゴリ相関データは、カテゴリペアに属す
る二つのカテゴリの相関関係を表わす基礎的なデータで
あり、時間遅れtiが大きい場合には、カテゴリの依存
関係を表わしていることも多い。またカテゴリ相関デー
タを分散値の順に並べ変えると、強い相関関係を有する
カテゴリペアを抽出することもできる。さらに強い相関
関係を有するカテゴリペアに対応するカテゴリ相関デー
タを取り出し、このデータをさらに平均値の順に並べ替
えると、強い依存関係を有するカテゴリペアを抽出する
こともできる。そしてアラーム発生規則抽出部42によ
って抽出されたカテゴリ相関データは、図6に示すよう
に、カテゴリ相関記憶部44に相関マトリクスに対応し
たデータとして蓄積される。カテゴリ相関データは、カ
テゴリペア(i,j)の組合わせに関するデータとして
蓄積され、これらのデータは、図4に示すピーク400
など各ピークに関する番号、時間遅れtiの平均値、分
散値、近傍の幅、近傍内の度数に関するデータとして記
憶される。
【0041】またアラーム間隔データからカテゴリ相関
データを生成するに際しては、通信装置の障害検知や報
告が一定の周期ごとに行なわれる場合には、時間遅れt
iがある幅のなかに均等に分布することになるので、パ
ターン認識アルゴリズムを利用することもできる。また
平均値と分散値だけでなく、最頻値を求め、最頻値を中
心として分散値を小さくするような近傍の幅を変える操
作を繰り返す方法を採用すれば、複数のピークを分ける
ことができ、アラームをより有効に利用することができ
る。
【0042】カテゴリ相関データが蓄積されると、代表
アラーム抽出部46により多数のアラーム130の中か
ら代表アラーム131を抽出するための処理が実行され
る。この場合、まず、受信したアラーム130に対し
て、受信したアラーム130の属するカテゴリを調べ、
各アラーム130をカテゴリごとに分類する。次に各ア
ラームに関するカテゴリ相関データを検索し、強い依存
関係を有する上位のカテゴリを抽出する。このあと装置
・時刻記憶部34のデータを検索し、過去に上位のカテ
ゴリに属するアラームが発生しているか否かを判定し、
判定結果を基に多数のアラームのなかから代表的なアラ
ームを代表アラーム131として抽出する。
【0043】例えば、図7(a)に示すように、通信装
置i,jから多数のアラームが発生したときには、図7
(b)に示すように、多数のアラームの中から通信装置
jからのアラーム211のみを抽出する。このあと抽出
したアラーム211に関する時刻のデータから、このア
ラーム211の発生時刻を時間遅れtiだけ前の時刻に
シフトしたデータを生成する。このデータは、図7
(c)に示すように、通信装置jに関するアラーム21
1から推定される上位通信装置iからのアラームの発生
時刻のデータに相当する(上位通信装置iからアラーム
が発生した後時間遅れtiをもって下位通信装置jから
アラーム211が発生した場合。)。次に、図7(d)
に示すように、収集したアラームのうち通信装置iから
のアラーム210のみを抽出する。このあと図7(c)
に示すアラームと、図7(d)に示すアラームとを比較
し、発生時刻が一致しているアラームを除くと、図7
(e)に示すように、通信装置jが原因として発生した
アラームが代表アラーム131として抽出される。
【0044】また、代表アラーム131を抽出するに際
しては、装置・時刻記憶部34に蓄積されたデータを検
索し、上位のカテゴリに属するアラームが発生していた
場合、抽出対象のアラーム130はある信頼度で代表ア
ラームではないと判定することができる。さらに上位の
カテゴリが複数個検索されたときには、上位のカテゴリ
を交換し、前述したと同様の処理を行なうことにより、
代表アラーム131を抽出するための判断処理の信頼度
を高めることができる。
【0045】またネットワークシステム10の特性は、
アラーム発生規則抽出部42によりリアルタイムで解析
されているので、代表アラーム抽出部46は、カテゴリ
相関データを基に多数の代表アラーム130の中から代
表アラーム131を常時抽出することできる。例えば、
通信装置iからアラームが発生した後、時間遅れti、
例えば、10秒後に、通信装置jからアラームが発生す
る規則性が得られているときには、通信装置iからアラ
ームが発生した後、10秒後に通信装置jからアラーム
が発生したときには、両者のアラームには相関関係があ
るとして、これらのアラームを代表アラームとして抽出
することができる。
【0046】アラーム間隔データやカテゴリ相関データ
が蓄積され、アラームの発生に関する規則性または特徴
が抽出された後は、収集したアラーム130に対して2
種類のアラームをそれぞれ対をなすアラームに設定し、
各対のアラームの発生間隔(受信時刻)を監視し、各対
のアラームの発生間隔が、蓄積データを基に設定された
設定時間と一致したときに、解析対象のアラームを代表
アラームとして抽出することができる。
【0047】代表アラーム131が抽出されると、代表
アラーム131に関する画像が表示部48の画面上に表
示される。代表アラーム131が表示部48の画面上に
表示されると、ネットワークシステム管理者120は、
表示された代表アラーム131に従って、障害112が
発生した個所を推定することできる。
【0048】表示部48に各種データに関する画像を表
示するに際して、図8に示すように、表示部48の画面
を手動分析画面700として各種のデータを表示するこ
とができる。この場合エリア701には下位通信装置j
の番号が表示され、エリア702には上位通信装置iの
番号が表示され、エリア703には最近発生したアラー
ムに関する情報が表示される。このエリア703にはア
ラームの発生時刻、通信装置の番号、通信装置の型番、
アラームの種類に関するデータがそのまま表示される。
このためネットワークシステム管理者120は、エリア
703のデータを見ることで、多数のアラームの発生状
況を直接観察することができる。なお、701、702
にはネットワークシステム管理者120の操作により任
意の番号を入力することができる。そしてエリア70
1、702に表示された通信装置に関するアラームの間
隔データはエリア704に表示される。エリア704に
アラームの発生時刻の間隔の分布が表示されたときに、
ネットワークシステム管理者120が、ヒストグラムと
して表示されたアラーム間隔データを見ながらエリア7
06を選択すると、この選択操作により、カテゴリ相関
データを直接変更することができる。またエリア703
内のアラームを選択すると、選択したアラームに関する
通信装置の上位と推定される通信装置に関するデータが
エリア705内に表示される。このデータは上位通信装
置の候補として装置番号と確信度で表示される。またエ
リア707を選択することで、通信装置を確信度の順に
並べ替えることもできる。
【0049】表示部48の画面を手動分析画面700と
して用いると、ネットワークシステム管理者120は、
アラーム発生規則抽出部42によって自動的に抽出され
なかった情報を利用したり、アラーム発生規則抽出部4
4の動作を確かめたりすることができる。
【0050】前記実施形態においては、ネットワークシ
ステム10として、通信装置を備えてものについて述べ
たが、ネットワークシステム10として、情報の授受を
行なう複数の局と複数の節点とを互いに接続し、各節点
を経路を介して接続してなるネットワークシステムにも
本発明を適用することができる。
【0051】さらに本発明は情報通信ネットワークシス
テムに限られるものではなく、ネットワークシステムの
内部で発生した異常事象の影響が連鎖的に他の部位に及
ぶものであれば、各種のネットワークシステムへの応用
が可能である。例えば、本発明を道路交通の制御に応用
すると、交通渋滞の原因となっている最も重要な事象の
位置を検知することができるので、道路に設けられた表
示施設を利用し、望ましい迂回路などの情報を走行中の
車両に伝えることで、渋滞の緩和が可能となる。
【0052】
【発明の効果】以上説明したように、本発明によれば、
多数のアラームに対して一対ごとに発生間隔の特性ある
いは特徴を抽出し、抽出結果を基に多数のアラームの中
から代表的なアラームを抽出するようにしたため、アラ
ームの発生に関連する時計に時間のずれがあったり、ア
ラームの伝播に長い時間を要したりしても、多数のアラ
ームの中からその発生原因について代表アラームを抽出
することができ、ネットワークシステムの障害部位の推
定に寄与することができる。
【図面の簡単な説明】
【図1】本発明の一実施形態を示すネットワークシステ
ム監視装置の全体構成図である。
【図2】アラーム収集方法を説明するための図である。
【図3】アラーム間隔解析方法を説明するためのフロー
チャートである。
【図4】アラーム間隔データの記憶内容を説明するため
の図である。
【図5】アラーム発生規則抽出方法を説明するためのフ
ローチャートである。
【図6】カテゴリ相関データの記憶内容を説明するため
の図である。
【図7】代表アラームの抽出方法を説明するための図で
ある。
【図8】手動分析画面の構成説明図である。
【符号の説明】
10 ネットワークシステム 20 ネットワークシステム監視装置 22 入力装置 32 アラーム収集部 34 装置・時刻記憶部 36 カテゴリ分類部 38 アラーム間隔解析部 40 アラーム間隔記憶部 42 アラーム発生規則抽出部 44 カテゴリ相関記憶部 46 代表アラーム抽出部 48 表示部
フロントページの続き (72)発明者 小針 邦彦 神奈川県横浜市戸塚区戸塚町216番地 株 式会社日立製作所情報通信事業部内

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 ネットワークシステムの内部で発生した
    障害に起因して連鎖的に発生する多数のアラームを受信
    し、受信したアラームをその発生原因に従って複数の種
    類に分類し、分類したアラームのうち一の種類に属する
    アラームが発生してから別の種類に属するアラームが発
    生するまでの時間間隔を解析し、このアラーム間隔の解
    析結果と2種類のアラームの発生間隔について設定され
    た設定時間とが一致したときに、解析対象のアラームを
    代表アラームとして抽出し、抽出した代表アラームを出
    力してなるネットワークシステム監視装置。
  2. 【請求項2】 ネットワークシステムの内部で発生した
    障害に起因して連鎖的に発生する多数のアラームを受信
    し、受信したアラームをその発生原因に従って複数の種
    類に分類し、分類したアラームのうち一の種類に属する
    アラームが発生してから別の種類に属するアラームが発
    生するまでの時間間隔を解析し、このアラーム間隔の解
    析結果からアラームが発生する際の規則性を抽出し、こ
    の抽出結果を基に多数のアラームの中から代表的なアラ
    ームを代表アラームとして抽出し、抽出した代表アラー
    ムを出力してなるネットワークシステム監視装置。
  3. 【請求項3】 ネットワークシステムの内部で発生した
    障害に起因して連鎖的に発生する多数のアラームを受信
    し、受信したアラームをその発生原因に従って複数の種
    類に分類し、分類したアラームのうち一の種類に属する
    アラームが発生してから別の種類に属するアラームが発
    生するまでの時間間隔を解析し、このアラーム間隔の解
    析結果からアラームが発生する際の特徴を抽出し、抽出
    した特徴を基に多数のアラームの中から代表的なアラー
    ムを代表アラームとして抽出し、抽出した代表アラーム
    を出力してなるネットワークシステム監視装置。
  4. 【請求項4】 情報の授受を行う複数の通信装置を互い
    に情報伝送路を介して接続してなるネットワークシステ
    ムの内部で障害が発生したときに、この障害に起因して
    複数の通信装置から障害の発生原因に従って連鎖的に送
    信される多数のアラームを収集して管理するものにおい
    て、ネットワークシステムから多数のアラームを受信
    し、受信したアラームの種類を識別すると共に受信した
    アラームの受信時刻を記録し、受信したアラームに対し
    て2種類のアラームをそれぞれ対を成すアラームに設定
    し、設定した各対のアラームの受信時刻の間隔の分布に
    表れる特徴をそれぞれ検出し、各検出した特徴から各対
    のアラームに関する相関関係をその発生原因に従ってそ
    れぞれ解析し、この解析結果から特定の対に属するアラ
    ームを代表アラームとして抽出し、抽出した代表アラー
    ムを出力してなることを特徴とするネットワークシステ
    ム監視装置。
  5. 【請求項5】 情報の授受を行う複数の局と複数の節点
    とを互いに接続し、各節点を経路を介して互いに接続し
    てなるネットワークシステムの内部で障害が発生したと
    きに、この障害に起因して複数の局から障害の発生原因
    に従って連鎖的に送信される多数のアラームを収集して
    管理するものにおいて、ネットワークシステムから多数
    のアラームを受信し、受信したアラームの種類を識別す
    ると共に受信したアラームの受信時刻を記録し、受信し
    たアラームに対して2種類のアラームをそれぞれ対を成
    すアラームに設定し、設定した各対のアラームの受信時
    刻の間隔の分布に表れる特徴をそれぞれ検出し、各検出
    した特徴から各対のアラームに関する相関関係をその発
    生原因に従ってそれぞれ解析し、この解析結果から特定
    の対に属するアラームを代表アラームとして抽出し、抽
    出した代表アラームを出力してなることを特徴とするネ
    ットワークシステム監視装置。
  6. 【請求項6】 各対のアラームの受信時刻の間隔の分布
    に表れる特徴をそれぞれ検出するに際して、各対のアラ
    ームの受信時刻の間隔の分布をグラフに表わしたときの
    特徴的なピークを利用してなることを特徴とする請求項
    4または5記載のネットワークシステム監視装置。
  7. 【請求項7】 ネットワークシステムから多数のアラー
    ムを受信した際に、各対のアラームの受信時刻の間隔の
    分布をグラフで表示してなることを特徴とする請求項4
    または5記載のネットワークシステム監視装置。
  8. 【請求項8】 各対のアラームに関する相関関係を解析
    したときに、この解析結果を基に、先の相関関係に関す
    る解析結果を更新してなること特徴とする請求項4また
    は5記載のネットワークシステム監視装置。
  9. 【請求項9】 各対のアラームに関する相関関係を解析
    するに際して、各対に属するアラームはそれぞれ発生時
    刻が異なることを利用してなること特徴とする請求項4
    または5記載のネットワークシステム監視装置。
  10. 【請求項10】 各対のアラームに関する特徴から各対
    のアラームに関する相関関係とともに依存関係をその発
    生原因に従ってそれぞれ解析してなることを特徴とする
    請求項4または5記載のネットワークシステム監視装
    置。
JP8116284A 1996-05-10 1996-05-10 ネットワークシステム監視装置 Pending JPH09307550A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8116284A JPH09307550A (ja) 1996-05-10 1996-05-10 ネットワークシステム監視装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8116284A JPH09307550A (ja) 1996-05-10 1996-05-10 ネットワークシステム監視装置

Publications (1)

Publication Number Publication Date
JPH09307550A true JPH09307550A (ja) 1997-11-28

Family

ID=14683264

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8116284A Pending JPH09307550A (ja) 1996-05-10 1996-05-10 ネットワークシステム監視装置

Country Status (1)

Country Link
JP (1) JPH09307550A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000048277A (ja) * 1998-03-16 2000-02-18 Kdd Corp 障害個所推定方法
CN1300960C (zh) * 2002-08-06 2007-02-14 华为技术有限公司 通讯监控设备故障告警数据显示处理方法
JP2008182416A (ja) * 2007-01-24 2008-08-07 Fuji Xerox Co Ltd 画像形成装置
JP2009517754A (ja) * 2005-12-01 2009-04-30 テレフオンアクチーボラゲット エル エム エリクソン(パブル) イベント通知相関のための方法および管理エージェント
WO2011099341A1 (ja) 2010-02-15 2011-08-18 日本電気株式会社 障害原因抽出装置、障害原因抽出方法およびプログラム記憶媒体
WO2012081076A1 (ja) * 2010-12-13 2012-06-21 三菱電機株式会社 警報監視装置および警報監視方法
JP2017509262A (ja) * 2014-03-24 2017-03-30 マイクロソフト テクノロジー ライセンシング,エルエルシー ネットワーク障害のトラブルシューティング・オプションの識別
WO2022259307A1 (ja) * 2021-06-07 2022-12-15 日本電信電話株式会社 警報解析装置、警報解析方法、ベイジアンネットワークモデルおよび警報解析プログラム

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000048277A (ja) * 1998-03-16 2000-02-18 Kdd Corp 障害個所推定方法
CN1300960C (zh) * 2002-08-06 2007-02-14 华为技术有限公司 通讯监控设备故障告警数据显示处理方法
JP2009517754A (ja) * 2005-12-01 2009-04-30 テレフオンアクチーボラゲット エル エム エリクソン(パブル) イベント通知相関のための方法および管理エージェント
JP2008182416A (ja) * 2007-01-24 2008-08-07 Fuji Xerox Co Ltd 画像形成装置
JP4650432B2 (ja) * 2007-01-24 2011-03-16 富士ゼロックス株式会社 画像形成装置
WO2011099341A1 (ja) 2010-02-15 2011-08-18 日本電気株式会社 障害原因抽出装置、障害原因抽出方法およびプログラム記憶媒体
US8719636B2 (en) 2010-02-15 2014-05-06 Nec Corporation Apparatus method, and storage medium for fault cause extraction utilizing performance values
US9274869B2 (en) 2010-02-15 2016-03-01 Nec Corporation Apparatus, method and storage medium for fault cause extraction utilizing performance values
WO2012081076A1 (ja) * 2010-12-13 2012-06-21 三菱電機株式会社 警報監視装置および警報監視方法
JP5143319B2 (ja) * 2010-12-13 2013-02-13 三菱電機株式会社 警報監視装置および警報監視方法
JP2017509262A (ja) * 2014-03-24 2017-03-30 マイクロソフト テクノロジー ライセンシング,エルエルシー ネットワーク障害のトラブルシューティング・オプションの識別
WO2022259307A1 (ja) * 2021-06-07 2022-12-15 日本電信電話株式会社 警報解析装置、警報解析方法、ベイジアンネットワークモデルおよび警報解析プログラム

Similar Documents

Publication Publication Date Title
US5771274A (en) Topology-based fault analysis in telecommunications networks
US9680693B2 (en) Method and apparatus for network anomaly detection
US5946373A (en) Topology-based fault analysis in telecommunications networks
Sasisekharan et al. Data mining and forecasting in large-scale telecommunication networks
CN100450008C (zh) 通信网络告警的处理方法和相关性分析管理器
JP6097889B2 (ja) 監視システム、監視装置、および検査装置
US20040168100A1 (en) Fault detection and prediction for management of computer networks
JPH06243064A (ja) コンピュータネットワークの障害検出システム
EP3663919B1 (en) System and method of automated fault correction in a network environment
CN105325023A (zh) 用于小区异常检测的方法和网络设备
JP2004165792A (ja) Catv伝送路監視装置、方法及びプログラム
US20210359899A1 (en) Managing Event Data in a Network
JPH09307550A (ja) ネットワークシステム監視装置
US6684120B1 (en) Method of and device for collecting and combining FA information
US6615087B2 (en) Supervisory control apparatus
CN114221858B (zh) Sdn网络故障定位方法、装置、设备及可读存储介质
WO2022135813A1 (en) Telecommunication network alarm management
CN101945011B (zh) 一种对复用段保护性能进行评估的方法及系统
KR102509057B1 (ko) 네트워크 관제 시스템 및 그 방법
KR101104563B1 (ko) 시스로그 정보를 활용한 에스오피 관리 시스템 및 그 방법
CN118200025A (zh) 一种基于环境模拟数据的传输安全分析系统及方法
JP7303461B2 (ja) 復旧判定装置、復旧判定方法、および、復旧判定プログラム
KR102322798B1 (ko) 다중 정보 인식을 이용한 감시 시스템 및 방법
JP2012027635A (ja) 機器情報管理システム及び方法
WO2021214979A1 (ja) トポロジ検出装置、トポロジ検出方法およびトポロジ検出プログラム