JPH05114899A - ネツトワーク障害診断方式 - Google Patents

ネツトワーク障害診断方式

Info

Publication number
JPH05114899A
JPH05114899A JP3273757A JP27375791A JPH05114899A JP H05114899 A JPH05114899 A JP H05114899A JP 3273757 A JP3273757 A JP 3273757A JP 27375791 A JP27375791 A JP 27375791A JP H05114899 A JPH05114899 A JP H05114899A
Authority
JP
Japan
Prior art keywords
failure
network
fault
information
site
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3273757A
Other languages
English (en)
Inventor
Kosuke Shinnai
浩介 新内
Sadao Niinobe
貞男 新延
Yoshitsugu Kishimoto
喜次 岸本
Michio Suzuki
三知男 鈴木
Keizo Mizuguchi
圭三 水口
Kazuyuki Nishikawa
和幸 西川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Hitachi Chubu Software Ltd
Hitachi Information and Control Systems Inc
Original Assignee
Hitachi Ltd
Hitachi Chubu Software Ltd
Hitachi Information and Control Systems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd, Hitachi Chubu Software Ltd, Hitachi Information and Control Systems Inc filed Critical Hitachi Ltd
Priority to JP3273757A priority Critical patent/JPH05114899A/ja
Publication of JPH05114899A publication Critical patent/JPH05114899A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Multi Processors (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)
  • Computer And Data Communications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

(57)【要約】 【目的】本発明は、大規模で複雑なネットワークにおい
ても、障害の発生部位を速やかに判定でき、必要に応じ
て障害の原因についても解析できるネットワーク障害診
断方式を提供することにある。 【構成】障害診断システムに、障害発生時に、各アラー
ム信号に対応して次々と障害部位候補を推定し、これら
の障害部位候補集合間の共通集合を求めることにより、
障害部位を自動的に特定して表示する解析部と、オペレ
ータの指示に応じて、上記特定された障害の発生要因の
解析動作を行なう解析部とを設け、2段階で障害対策で
きるようにした。 【効果】障害の発生部位を速やかに診断できる、汎用性
のある診断システムを構築できる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、通信ネットワークの運
用や管理のための制御を行うネットワーク管理方式に関
し、さらに詳しくは、特に大規模なネットワークや統合
ネットワークにおいて、障害部位を特定し、障害要因を
解明することにより、障害修復の支援を行うに好適な障
害診断方式に関する。
【0002】
【従来の技術】ネットワークの障害診断、または故障探
索の手順は、初期の管理システムでは、システムの管理
者や管理オペレータが、監視画面に表示された警報情報
を見て保守者に障害発生を連絡し、連絡を受けた保守者
が、障害情報を収集し、保守マニュアルに従った診断、
熟練者ならば自己の経験に基づいた診断を行うようにな
っていた。これに対して、近年では、ネットワーク設計
者や保守者の経験と知識に基づいて知識ベースを構築
し、この知識ベースを利用して推論を行うようにした知
識工学応用の診断システムの実現が試みられている。
【0003】例えば、特開平1-288038号公報(従来技術
1)では、サブシステムにおいて通信装置の障害情報を
マクロ情報として集約し、これを用いて障害装置を概略
的に推定する方式と、障害装置の詳細情報を収集し、こ
の詳細情報に基づいて装置内部の障害部位を特定する方
式とを併用するようにした方式が提案されている。
【0004】また、特開平2-69827号公報(従来技術
2)では、観測された障害情報と、構造・動作記述デー
タベースに予め記憶されている知識とから、先ず、障害
の原因となりうる複数の候補を生成し、次に、これら複
数の原因候補の中から真の障害原因を特定するために必
要な測定項目を決定し、この測定項目に従って再度、障
害情報の収集を繰り返すことにより、障害原因を特定す
るようにした方式が提案されている。
【0005】また、特開平2-200048号公報(従来技術
3)では、故障状況、故障個所、故障探索手順などの項
目を含む故障事例データベースを用意しておき、故障が
発生した時、故障情報に基づいて上記事例データベース
から類似事例を検索し、それらを統計的に分析すること
により障害部位を特定するようにした方式が提案されて
いる。
【0006】
【発明が解決しようとする課題】然るに、上述した従来
技術1、あるいは2の方式によれば、ネットワークが大
規模化、複雑化するに従って、障害部位あるいは障害要
因を特定するために用いるデータベースや知識ベースが
大容量化するため、診断処理の所要時間が増大し、診断
効率が低下するという問題がある。また、従来技術3の
方式では、新たに発生した故障と類似した事例を検索
し、過去の事例に基づいて障害箇所を特定するようにし
ているため、過去に類似事例のない障害については、障
害の発生箇所と原因を判明することができないという問
題がある。
【0007】本発明の目的は、障害の発生部位を速やか
に判定できるネットワーク障害診断方式を提供すること
にある。
【0008】本発明の他の目的は、オペレータに緊急度
に応じた情報を提示できるネットワーク障害診断方式を
提供することにある。
【0009】本発明の更に他の目的は、ネットワークの
規模や構造に依存しない、汎用性の高いネットワーク障
害診断方式を提供することにある。
【0010】
【課題を解決するための手段】上記目的を達成するため
に、本発明のネットワーク診断方式は、ネットワークに
障害が発生した時、1つのアラームに対して求められた
障害部位候補の集合と、後続のアラームに対して求めら
れた障害部位候補の集合との共通集合を求めることによ
り、障害部位を特定する障害部位解析手段を備えたこと
を特徴とする。また、本発明のネットワーク診断方式の
他の特徴は、障害部位の解析動作と障害発生要因(原
因)の解析動作とを別々に起動できるようにし、障害部
位の解析動作は障害発生時に自動的に行ない、障害要因
の解析動作はオペレータの指示に従って随時に行うよう
にしたことにある。
【0011】更に詳述すると、本発明のネットワーク診
断方式において、上述した障害部位解析動作を実行する
障害部位解析部は、ネットワークから受信した障害情報
をメモリに記憶するアラーム受信処理部と、アラームが
受信された時、予め与えられているネットワーク構成定
義情報のうち、例えば、ネットワーク機器の接続関係を
示す関係情報に基づいて通信経路を探索することによ
り、上記アラームに対応する障害部位候補の集合を見つ
け出す構成情報解析部と、上記構成情報解析部によって
アラーム対応に求められた障害部位候補集合間の共通集
合を求めることにより複数の障害部位候補の中から1つ
の障害部位を特定する障害部位特定部とからなる。
【0012】また、上記障害要因解析動作を実行する障
害要因解析部は、例えば、上記障害部位解析部が特定し
た障害部位における障害の発生原因を解析するための障
害要因解析規則を記憶する知識ベースと、上記規則に基
づいて障害要因の解析を行う要因分析処理部とからな
る。上記障害要因解析規則は、例えば、ネットワーク構
成機器を機能的にクラス分けした各クラス毎のグループ
名を表す要素と、障害情報または構成情報をもとに診断
を進める分析要素と、障害要因を格納する要因要素と、
障害修復などの提案を行う情報を格納する対策案要素と
の関係を樹木状に表現した規則構造からなり、障害要因
の解析動作は、例えば、分析要素に格納した診断規則に
よる診断樹木の枝別れに沿って、クラス毎に、グループ
名を表す要素から始まって要因要素、対策案要素に到
り、診断を終了させる形で行う。
【0013】
【作用】本発明によれば、アラーム対応にネットワーク
構成機器の関係情報を用いて障害部位候補の集合を求
め、一連の複数の障害部位候補集合の共通集合を求める
ことにより障害部位を特定するようにしているため、ネ
ットワークの規模、構造に左右されないネットワーク診
断システムを構築することができる。
【0014】また、本発明のネットワーク障害診断方式
では、障害部位の解析と障害原因の解析を分け、緊急性
を要する障害部位の検出動作は障害発生時に自動的に開
始し、障害の原因の分析動作はシステム操作者からの指
示に従って開始し、予め用意された塾練者等の知識とシ
ステム操作者が下した判断に基づいて分析動作を実行す
るようにしているため、比較的大規模かつ複雑なネット
ワークにおいても障害診断を効率良く行なえる。
【0015】
【実施例】次に、本発明における第1の実施例を説明す
る。
【0016】図2は、本発明を適用するネットワーク管
理システムの構成図を示す。このネットワーク管理シス
テムは、サブネットワーク50A、50B、……50N
対応に設けられたサブネットワーク管理装置42A、4
2B、……42Nと、それらを統合して管理する統合ネ
ットワーク管理装置40とからなる。統合ネットワーク
管理装置40とサブネットワーク管理装置42は、それ
ぞれディスプレイ装置42、43(43A、43B、…
…43N)を備えている。本発明によるネットワーク障
害診断システム1は、此の例では、統合ネットワーク管
理装置40に適用される。
【0017】図1はネットワーク障害診断システムの1
実施例を示す構成図である。ネットワーク障害診断シス
テム1は、障害部位解析部2と、障害要因解析部3と、
ディスプレイ71とからなる。先ず、障害部位解析部2
について説明する。
【0018】10は、サブネットワーク管理装置からの
アラーム情報2aを受信するためのアラーム受信処理部
であり、このアラーム受信処理部10は、受信したアラ
ーム情報2aを構成情報解析部11に通知すると共に、
該アラーム情報をアラームバッファ30に書き込む(3
0a)。この場合、アラームの重要度(例えば、重大、
軽微)に応じて、アラームのフィルタリングを行っても
よい。
【0019】構成情報解析部11は、受信したアラーム
情報の種別(例えば、通信エラー、機器エラー等)に応
じた検索方法で、構成情報テーブル31からネットワー
ク構成機器の物理的、論理的な接続情報を検索し(31
b)、障害部位の候補となり得る機器群を見つけ出す。
これらの障害部位候補群は、障害部位候補群テーブル3
2に書き込まれる(32a)。構成情報テーブル31に
記憶するネットワーク構成機器の物理的、論理的な接続
情報は、ネットワーク障害診断システム1に独自な情報
を定義してもよいが、現在、国際的な標準化機構ISO
(InternationalOrganization for Standardization )
で審議されているOSI(Open SystemsInterconnectio
n)用のネットワーク構成機器関係定義情報を利用する
こともできる。
【0020】12は障害部位候補群の中から1つの障害
部位を特定する障害部位特定部であり、障害部位候補群
テーブル32から新たな障害部位候補群のデータを読み
出し(32b)、確信度テーブル33に既に格納済みの
データと、上記新たな障害部位候補群のデータとを比較
することによって障害部位候補の確信度を更新する。こ
こで言う「障害部位候補の確信度」とは、同一の障害部
位候補が幾つの障害部位候補群に含まれていたかを示す
頻度値であり、確信度テーブル33には、各障害部位候
補が上記更新された確信度の値とともに記憶される(3
3a)。
【0021】障害が発生し、何れかのサブネットワーク
管理装置からアラーム信号が発せられると、このアラー
ム信号に対応して、真の障害部位を含む複数の障害部位
候補が推定される。真の障害部位は、その後に発生する
上記サブネットワーク管理装置、あるいは他のサブネッ
トワーク管理装置からのアラーム信号に対応する障害部
位候補群の中にも含まれるため、真の障害部位に与えら
れる確信度の値は、アラームの受信回数が増すに従って
高くなる。障害部位特定部12は、確信度テーブル33
に記憶された障害部位候補の内、最大の確信度を持つ障
害部位候補が唯一になった時点で、その障害部位情報を
障害部位テーブルへ書き込む(34a)。一連の全ての
アラームについての上述した解析処理が終了した時、障
害部位テーブル34に登録された情報を取り出し(34
b)、上記障害部位情報が唯一の障害部位候補を示す場
合は、これをディスプレイ42に表示する。もし、上記
障害部位情報が複数の障害部位候補を示す場合、または
障害部位テーブル34に障害部位情報が1つもない場合
は、知識利用部位特定部13を起動する。
【0022】知識利用部位特定部13は、アラームバッ
ファ30に蓄積されているアラーム情報を一括して読み
込み、これらの情報を知識ベース14に記憶されている
部位特定規則14に従って分析することにより、障害部
位を特定する。その結果はディスプレイ42に表示され
る。
【0023】障害要因解析部3は、障害要因解析規則を
記憶している知識ベース21と、オペレータからの指示
25に応答して動作し、障害部位解析部2から通知され
ている障害部位情報を障害要因解析規則21に従って解
析する要因分析処理部20とからなり、上記障害部位解
析部で特定された障害部位での障害発生要因を解析し
て、その結果をディスプレイ22に表示する。
【0024】図3は上記障害部位解析部2に相当するプ
ログラムモジュールの詳細を示すフローチャートを示
す。このモジュールでは、アラーム情報を受信すると
(ステップ101)、その情報を構成情報解析部(ルー
チン)11に渡すと共に、アラームバッファに書き込む
(102)。構成情報解析ルーチン11は、上記アラー
ム情報の種別に応じて障害部位候補検索方法を判別し
(103)、テーブル31から障害部位候補を検索する
(104)。次に、この検索結果を、障害部位候補群と
して、障害部位候補群テーブル32に書き込み(10
5)、障害部位特定部(ルーチン)12を起動する(1
06)。上述した処理101〜106は、アラームが無
くなる迄、繰り返される(107)。
【0025】上記障害部位特定部12では、図4に示す
如く、テーブル32に受信された障害部位候補グループ
の各要素について、確信度テーブル33に記憶されてい
る要素とを順次に比較して確信度を算出し(120)、
各要素の確信度を順次に確信度テーブル33へ格納する
(121)。障害部位候補グループの全要素について上
記確信度の算出処理を終えると、確信度テーブル33に
記憶されている確信度の値をチェックすることにより、
部位特定条件が成立した(最大確信度を持つ障害部位候
補データの個数が1つになった)か否かを判定する(1
23)。この結果、もし部位特定条件が成立していれば
(124)、特定された障害部位要素のデータっを障害
部位テーブル34に格納し(125)、この障害部位特
定部のルーチンを終了する(126)。
【0026】図5〜図8は、上述した障害部位特定部1
2における処理の具体例を示す。
【0027】例えば、ホスト計算機A1と、端末T1、
T2、パケット交換機P1、P2、P3、マルチメディ
ア多重化装置M1、M2、M3、M4からなるネットワ
ーク50において、端末T1とT2が、それぞれホスト
計算機A1と通信を行っていると仮定する。A1とT1
との間には、互いに直列にパケット交換機P1、マルチ
メディア多重化装置M1、M2、パケット交換機P2が
接続され、A1とT2との間には、パケット交換機P
1、マルチメディア多重化装置M3、M4、パケット交
換機P3が直列に接続されている。すなわち、A1−P
1−M1−M2−P2−T1からなる第1の通信経路
と、A1−P1−M3−M4−P3−T2からなるだ第
2の通信経路が存在している。
【0028】ここで、仮に、ホスト計算機A1、端末T
1、パケット交換機P2の順に障害が検出され、それぞ
れの装置に接続されたサブネットワーク管理装置42
A、42D、42Cから統括ネットワーク管理装置40
にアラームが通知されたとする。
【0029】障害部位特定部12は、ホスト計算機A1
の異常を検出したサブネットワーク管理装置42Aから
のアラームに対応して生成された障害部位候補のグルー
プG1={A1、P1、M3、M4、P3、T2}を障
害部位候補テーブル32から読み出し、これを確信度テ
ーブル33の既登録データと比較する。この場合の障害
部位候補グループG1は、障害発生後に最初に生成され
たデータ群であるから、図6に示す如く、上記障害部位
候補グループ中の全ての要素が、確信度テーブル33内
の「確信度1」のデータ記憶領域33−1に記憶され
る。次に、サブネットワーク管理装置42Dからのアラ
ームに対応して生成された障害部位候補グループG2=
{T1、P2、M2、M1、P1、A1}が読み出さ
れ、確信度テーブル33内のデータと比較される。その
結果、図7に示す如く、上記2つの障害部位候補グルー
プG1、G2で共通する要素A1とP1とが「確信度
2」のデータ記憶領域33−2に気おくされる。最後に
パケット交換機P2の異常を検出したサブネットワーク
管理装置42Cからのアラームに対応する障害部位候補
グループG3={P2、M2、M1、P1}がテーブル
32から読み出され、確信度テーブル33内のデータと
比較される。その結果、3つの障害部位候補グループG
1〜G3において共通する要素P1が、障害部位テーブ
ル33の「確信度3」のデータ記憶領域33−3に記憶
される。この時点で、最大確信度を持つ要素データが1
つになるため、要素P1が障害部位として、障害部位テ
ーブル34に格納される。アラームをこれ以上受信しな
ければ、要素P1が最終的な障害部位はとして特定さ
れ、もし、その後に更に他のアラームが受信されれば、
上述した処理が更に繰返される。
【0030】図3に戻って、サブネットワーク管理装置
42からのアラーム情報が無くなると(107)、障害
部位テーブル34を参照し、障害部位が特定できたか否
かを判断する(109)。判断の結果、部位特定ができ
ていれば、その結果をディスプレイに表示する(11
0)と共に、障害要因解析部3へ通知する(112)。
もし、障害部位が特定ができていない場合は(10
9)、アラームバッファ30からアラーム情報を読み込
み(113)、知識ベース14に記憶された部位特定規
則と利用した知識利用部位特定部13による処理を実行
する(114)。この知識利用部位特定処理によって、
もし障害部位を特定ができれば、その結果をディスプレ
イに表示(111)すると共に、障害要因解析へ通知し
(112)、障害部位を特定できなかった場合は、その
旨をディスプレイに表示(116)し、このルーチンを
終了する。
【0031】知識ベース14には、ネットワークおよび
その構成機器の開発者、SE、保守者等の専門家が備え
る知識を、サブネットワーク単位で分類された部位特定
規則群として記憶しており、上記知識利用部位特定部1
3は、アラームバッファ30から読み込んだアラーム情
報を、これらの部位特定規則群に適用して障害部位を推
定する。
【0032】図9は、知識ベース14に用意される部位
特定規則群の構造を示す。
【0033】部位特定規則は、統括ネットワーク管理装
置、サブネットワーク管理装置、およびネットワーク構
成機器とそれぞれ対応した木構造の規則群14A、14
B〜14Bm、14C〜14Cnからなり、規則群14
A、14B〜14Bmは、それぞれ制御規則群Ri(R
1、R2、…Rm)と、ユーザ定義規則群R2i(R2
1〜R2k)とからなり、規則群14C〜14Cnは、
それぞれ構成モデル規則群から構成されている。
【0034】図10は、障害要因解析部3を構成するプ
ログラムのフローチャートを示す。障害要因解析部で
は、障害部位特定部2から障害発生部位の情報を受ける
と(131)、所定の区分により作成された木構造の障
害要因分析規則群(診断木)の中から、障害部位が属す
るグループ(管理対象クラス)と対応する診断木を選択
し、この診断木の根部をポインタに設定し(132)、
診断(障害の要因分析処理)を開始する。
【0035】障害要因解析規則の構造の1例を図11に
示す。図において、50は、管理対象毎に区分された複
数の診断木を接続し、便宜上1つの木構造にした場合に
根(Root)の部分に位置するノードである。障害の要因
分析処理において、診断木の事実上の根部となるのは、
各管理対象毎の診断木の根、すなわち、管理対象クラス
を表すノード51(51a、51b、51c……)であ
る。本実施例において、各診断木は、ノード51と、上
記ノード51に従属する分析規則ノード52、要因ノー
ド53、及び対策案ノード54からなる。分析規則ノー
ド52は、ネットワーク状に接続された複数のノード5
2a0〜52a11からなり、この分析規則ノードネッ
トワークの終端部に複数の要因ノード53a1〜53a
4が位置し、各要因ノード対応に、障害要因に対する障
害修復方法を記述した対策案ノード54(54a1〜5
4a4)が位置している。対策案ノード54は、それと
対応する障害要因ノード53に一体化させても良い。ま
た、対策案が共通する場合、1つの対策案ノードを複数
の要因ノード53にまたがるように接続しても良い。
【0036】分析規則ノード52(52a1、……)の
具体的な構成(テーブル)の一例を図12に示す。この
例では、各分析ノード52は、ノード名称521と、要
因の分析に必要な諸情報の記述522と、確信度計算式
(この例では、分岐・終了判定に確信度計算と論理演算
の両方が選択できる構造を考えている)523と、分岐
条件の記述524とからなっている。なお、必要情報5
22は、例えば、オペレータに確認のために問い合わせ
る内容の記述であり、分岐条件524は、上記確認内容
に応じて分岐すべき、分岐先の分析規則ノード52、あ
るいは要因ノード53の名称を示す。
【0037】図13は、要因ノード53(53a、…
…)の具体的な構成(テーブル)の一例を示す。要因ノ
ード53は、ノード名称531と、その要因ノードが属
する分析規則ノード名称532と、障害要因の記述53
3、および対策案ノード名534からなっている。
【0038】図14は、対策案ノード54の具体的な構
成(テーブル)の一例を示す。対策案ノード54は、対
策案ノード名称541と、この対策案ノードが属する要
因ノード名称542と、対策案を示す記述543とから
なっている。
【0039】図10に戻って、選択された診断木による
診断動作について説明する。
【0040】ポインタに従って何れかの診断木の根部5
1が選択されると、該根部に属する最初の分析規則ノー
ド52(例えば、52a0)に処理が移り、先ず、該分
析規則ノードに定義されている必要情報521に従っ
て、診断情報の表示、あるいは捕捉的な情報収集のため
の操作が行なわれる(133)。次に、オペレータ入
力、あるいは自動的なデータ収集により、要因分析に必
要な情報の獲得が行なわれる(134)。これらの獲得
情報に基づいて、分析規則ノード52に定義されている
確信度計算式523に従った確信度計算が行なわれ(1
35)、確信度に従って分岐先(下位の分析規則ノード
52、あるいは要因ノード53)が選択される(13
6)。
【0041】分岐先が分析規則ノードの場合は、上述し
たステップ133〜136が繰り返され(137)、分
析規則ノードの情報収集、確信度計算、処理分岐の連鎖
を行うことにより、最終的には、図11に示した分析規
則ノードネットワークに沿って、何れかの要因ノード5
3が選択される。要因ノードに到達すると(137)、
確信度のチェックが行なわれる(138)。もし、確信
度が所定値以下の場合は上記ステップ133の処理が繰
り返され、確信度が所定値以上であれば、上記要因ノー
ドに記述されている障害要因533がディスプレイ画面
に表示され(139)、次いで、対策ノード名534で
特定される対策案ノード54に定義されている障害修復
などのための対策案543がディスプレイ画面に表示さ
れ(140)障害要因の解析処理が終了する(14
1)。
【0042】ネットワーク管理において、ネットワーク
管理者の責務は、ネットワークの機能を維持することに
あり、障害発生時に障害の部位を確認し、障害箇所を迂
回したネットワーク再構成のための切り替え処置を取ら
なければならない。この場合、障害要因の確認と、障害
部位の回復のための対策は、ネットワーク管理者とは別
の保守責任者に任せれば良い。
【0043】上述した本発明の障害診断方式によれば、
障害診断結果を診断システム使用者の責務、あるいはレ
ベルに応じて提示できるようになっている。すなわち、
本発明のネットワーク管理システムでは、サブネットワ
ーク管理装置からネットワーク障害アラームが報告され
ると、自動的に障害部位解析が行われ、その結果が管理
者に直ちに報知され、一方、障害要因解析は、操作者の
指示に応じて、適宜に起動できるようになっている。
【0044】また、対策案ノードの構成を、例えば図1
4に示したオペレータ(システム管理者)用と保守者用
の如く、利用者区分に応じた情報を備える構成としてお
き、要因分析処理部20で対策案を表示する時、出力情
報をフィルタリング制御することにより、使用者のレベ
ルに応じた出力メッセージを提供できる。
【0045】次に、本発明の他の実施例について説明す
る。
【0046】図15はネットワーク障害診断システムの
第2の実施例を示す構成図であり、障害部位解析部2の
構成は、図1に示した第1の実施例と同様である。本実
施例は障害要因解析部3に特徴があり、要因分析処理部
20が、障害部位解析部2から通知された障害部位情報
に対して知識ベース21から読み出した障害要因解析規
則を適用し、障害要因の解析とディスプレイ42への解
析結果の表示を行なう機能の他に、分析情報獲得機能部
23を介して、情報提供装置24から障害要因の分析に
必要な情報を自動的、あるいは半自動的に収集できるよ
うにしたことを特徴としている。
【0047】障害要因解析規則の構成を、分析規則ノー
ド52の必要情報部522で、障害分析のために収集す
べき情報を指定するようにしておき、指定情報を自動収
集できる場合は情報提供装置24を介して自動的に収集
するようにし(23a1)、上記指定情報がオペレータ
入力により得るべき情報の場合は、オペレータ入力を求
めるメッセージ、あるいはガイダンスを適宜ディスプレ
イ22に表示し、オペレータ25との対話入力(23a
2)により情報を獲得する。
【0048】以上説明した2つの実施例では、計算機、
PBX、パケット交換器、多重化装置などを含む、複数
種類のサブネットワークからなる統合ネットワークにお
いて、統合ネットワーク管理装置が、サブネットワーク
管理装置から通知された障害検知情報に基づいて障害部
位と障害要因を診断する方式となっている。しかしなが
ら、本発明は、このような異種のサブネットワークから
なる統合ネットワークの他に、同質(homogenious)の
複数のサブネットワークからなる大規模ネットワークに
も適用できる。
【0049】図16は、同質の複数のサブネットワーク
51A、51B、51Cからなる大規模ネットワークに
適用した本発明による障害診断システムの第3の実施例
を示す。この実施例では、各サブネットワーク毎に、そ
れぞれ障害部位解析部2と障害要因解析部3よりなる障
害診断システム1(1A、1B、1C)を備えた管理装
置40を設ける。
【0050】図17は、図16に示した障害診断システ
ム1(1A、1B、1C)の構成図である。この障害診
断システム1は、障害部位解析部2が、図1に示した構
成要素の他に、ネットワークに生じたアラーム情報2a
を解析して、障害が自分が管轄するサブネットワーク内
に発生したものか否かを判断する障害種別判定部17
と、他の管理システムとの間で障害診断情報を交信する
ための管理システム間通信部18とを備えた構成となっ
ている。上記構成において、各障害診断システム1に、
例えば、自己の管轄下にあるサブネットワーク内に実在
する障害部位に関してのみ、障害部位を特定するための
診断動作を遂行し、他のサブネットワーク内に生じた障
害が波及して自サブネットワークに障害が現われた場合
は、障害部位の診断動作を中断するなどの判断を行なわ
せることにより、ネットワークの障害部位を特定する。
【0051】なお、図16に示したネットワークでは、
全ての障害診断システム1A〜1Cが障害要因解析部3
を備えた構成となっているが、各障害診断システムが、
障害部位の解析結果を、管理システム間通信部18によ
り、特定の何れかの診断システムに通知し、上記特定の
診断システムだけが障害要因解析を行なうようにしても
良い。
【0052】
【発明の効果】以上の説明から明らかなように、本発明
によれば、ネットワークに障害が発生した時、1つのア
ラームに対する障害部位候補の集合と次のアラームに対
する障害部位候補の集合との共通集合を求めることによ
り、障害部位を自動的に特定するようにしているため、
障害部位を迅速、かつ正確に検出することができる。
【0053】また、障害部位の解析部と障害発生要因
(原因)の解析部との起動を別個にし、障害要因の解析
はオペレータの指示に従って随時に行う構成とした場
合、障害発生直後に必要とされる障害部位の特定と、通
信機能の維持のためのネットワークの再構成処置は速や
かに、一方、緊急性を要しない障害の要因の分析と障害
回復処理については、保守員の要求に応じた時点で必要
な情報を提示することができ、診断結果の運用が容易に
なる。
【図面の簡単な説明】
【図1】本発明によるネットワーク障害診断システム1
の第1の実施例を示す構成図
【図2】本発明を適用するネットワークとネットワーク
管理システムの構成の1例を示す図
【図3】ネットワーク障害診断システム1の構成要素で
ある障害部位解析部2の機能を示す動作フローチャート
【図4】図3における障害部位特定処理106の詳細を
示す動作フローチャート
【図5】上記障害部位特定処理を具体的に説明するため
のネットワークの構成とネットワーク管理システムの構
成の1例を示す図
【図6】第1のアラーム信号受信時点での確信度テーブ
ルの状態を示す図
【図7】第2のアラーム信号受信時点での確信度テーブ
ルの状態を示す図
【図8】第3のアラーム信号受信時点での確信度テーブ
ルの状態を示す図
【図9】部位特定規則の構造を示す図
【図10】障害診断システム1の構成要素である障害要
因解析部3の機能を示す動作フローチャート
【図11】障害要因解析規則の構造の1例を示す図
【図12】障害要因解析規則の要素である分析規則ノー
ド52の具体的構造の1例を示す図
【図13】障害要因解析規則の要素である要因規則ノー
ド53の具体的構造の1例を示す図
【図14】障害要因解析規則の要素である対策案規則ノ
ード54の具体的構造の1例を示す図
【図15】本発明によるネットワーク障害診断システム
の第2の実施例を示す構成図
【図16】本発明による障害診断システムの他の実施形
態の1例を示す図
【図17】図16に示した障害診断システムの詳細を示
す構成図
【符号の説明】
1…ネットワーク障害診断システム、2…障害部位解析
部、3…障害要因解析部、10…アラーム受信処理部、
11…構成情報解析部、12…障害部位特定部、13…
知識利用部位特定部、14…部位特定規則、15…管理
システム間通信部、20…要因分析処理部、21…障害
要因解析規則、23…分析情報獲得機能、24…情報提
供装置、25…オペレータ、30…アラームバッファ、
31…構成情報テーブル、32…障害部位候補群テーブ
ル、33…確信度テーブル、34…障害部位テーブル、
42…ディスプレイ。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 新延 貞男 茨城県日立市大みか町五丁目2番1号 株 式会社日立情報制御システム内 (72)発明者 岸本 喜次 愛知県名古屋市中区栄三丁目10番22号 日 立中部ソフトウエア株式会社内 (72)発明者 鈴木 三知男 神奈川県川崎市麻生区王禅寺1099番地 株 式会社日立製作所システム開発研究所内 (72)発明者 水口 圭三 神奈川県横浜市戸塚区戸塚町5030番地 株 式会社日立製作所ソフトウエア開発本部内 (72)発明者 西川 和幸 神奈川県秦野市堀山下1番地 株式会社日 立製作所神奈川工場内

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】ネットワークに障害が発生した時に自動的
    に起動され、1つのアラームに対する障害部位候補の集
    合と次のアラームに対する障害部位候補の集合との共通
    集合を求めることにより、障害部位を特定する障害部位
    解析手段を備えたことを特徴とするネットワーク障害診
    断方式。
  2. 【請求項2】請求項1に記載のネットワーク障害診断方
    式において、更に、オペレータからの指示により起動さ
    れ、対話的あるいは自動的に入力された情報と予め定め
    られた規則とに基づいて、前記障害部位解析手段が特定
    した障害部位における障害発生要因の解析動作を実行す
    る障害要因解析手段を備えたことを特徴とするネットワ
    ーク障害診断方式。
  3. 【請求項3】請求項1、または2に記載のネットワーク
    障害診断方式において、前記障害部位解析手段が、 ネットワークの障害情報を受信し、その情報をメモリに
    記憶するアラーム受信処理部と、 ネットワークの構成を定義する構成情報のうちのネット
    ワーク機器の接続関係を示す関係情報に基づいて、上記
    障害情報を手掛かりとして通信経路を探索し、障害部位
    の候補となる要素の集合をメモリに記憶する構成情報解
    析部と、 上記構成情報解析部によって1つのアラームに対して求
    められた障害部位候補の集合と、次のアラームに対して
    求められた障害部位候補の集合との共通集合を求めるこ
    とにより、障害部位を特定する障害部位特定部と、 からなることを特徴とするネットワーク障害診断方式。
  4. 【請求項4】請求項1,2,または3に記載のネットワ
    ーク障害診断システムにおいて、前記障害部位解析手段
    が、 通信局間の接続状態を前記ネットワーク内で論理的な通
    信関係を持つ通信機器や中継回線の種類に応じてモデル
    化した接続形態モデルと、 ネットワーク専門知識に基づいて、ネットワークに発生
    するアラーム群の発生パターンと上記モデルとを対応さ
    せることにより障害部位候補を求める部位特定部と、 を有することを特徴とするネットワーク障害診断方式。
  5. 【請求項5】請求項2、3、または4に記載のネットワ
    ーク障害診断システムにおいて、前記障害要因解析手段
    が、前記障害要因解析規則を、ネットワーク構成機器を
    機能的にクラス分けした各クラス毎のグループ名を表す
    要素と、障害情報または構成情報をもとに診断を進める
    分析要素と、障害要因を格納する要因要素と、障害修復
    などの提案を行う情報を格納する対策案要素とを互いに
    樹木状の関係を持つ規則構造で表現した形で有し、分析
    要素に格納した診断規則による診断樹木の枝別れに沿っ
    て、クラス毎に、グループ名を表す要素から始まって要
    因要素、対策案要素に到達し、診断を終了させる形で前
    記要因解析動作を行うことを特徴とするネットワーク障
    害診断方式。
  6. 【請求項6】請求項5に記載のネットワーク障害診断シ
    ステムにおいて、前記障害要因解析手段が、前記障害要
    因解析規則の1部として、障害の原因解析に必要な諸情
    報を得るための手法を含み、上記手法情報に従って、構
    成情報を持つネットワーク管理システムから必要な情報
    を収集するすることを特徴とするネットワーク障害診断
    方式。
  7. 【請求項7】請求項5、または6に記載のネットワーク
    障害診断方式において、オペレータの区分または熟練度
    に応じて、表示装置に対する障害部位、障害原因、また
    は対策案の出力形式を可変にするための手段を備えたこ
    とを特徴とするネットワーク障害診断方式。
  8. 【請求項8】ネットワークを複数の管理範囲に分割し、
    各管理範囲毎に管理システムを設けた分散ネットワーク
    において、各管理システムが、 ネットワークに障害が発生した時に自動的に起動され、
    1つのアラームに対する障害部位候補の集合と次のアラ
    ームに対する障害部位候補の集合との共通集合を求める
    ことにより、障害部位を特定する障害部位解析手段と、 オペレータからの指示により起動され、対話的あるいは
    自動的に入力された情報と予め定められた規則とに基づ
    いて、上記障害部位解析手段が特定した障害部位におけ
    る障害発生要因の解析動作を実行する障害要因解析手段
    と、 を有し、 上記各障害部位解析手段が、 該管理システムの管理範囲内に発生した障害と範囲外に
    発生した障害とを区別するための障害種別判断手段と、 他の管理システムにある障害部位解析手段との間で協調
    して診断動作を実行するための通信を行なう通信手段と
    を有することを特徴とするネットワーク障害診断方式。
  9. 【請求項9】請求項8に記載のネットワーク障害診断方
    式において、前記障害部位解析手段が、 ネットワークの障害情報を受信し、その情報をメモリに
    記憶するアラーム受信処理部と、 ネットワークの構成を定義する構成情報のうちのネット
    ワーク機器の接続関係を示す関係情報の基づいて、上記
    障害情報を手掛かりとして通信経路を探索し、障害部位
    の候補となる要素の集合をメモリに記憶する構成情報解
    析部と、 上記構成情報解析部によって求められた1つのアラーム
    に対する障害部位候補の集合と、それに後続するアラー
    ムに対する障害部位候補の集合との共通集合を求めるこ
    とにより障害部位を特定する障害部位特定部とからなる
    ことを特徴とするネットワーク障害診断方式。
  10. 【請求項10】請求項8、または9に記載のネットワー
    ク障害診断方式において、前記複数の管理システムのう
    ちの特定の1つが代表して前記障害要因解析手段を備
    え、前記障害要因の解析動作が、上記特定の管理システ
    ムと他の管理システムとの協調により行なわれるように
    したことを特徴とするネットワーク障害診断方式。
JP3273757A 1991-10-22 1991-10-22 ネツトワーク障害診断方式 Pending JPH05114899A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3273757A JPH05114899A (ja) 1991-10-22 1991-10-22 ネツトワーク障害診断方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3273757A JPH05114899A (ja) 1991-10-22 1991-10-22 ネツトワーク障害診断方式

Publications (1)

Publication Number Publication Date
JPH05114899A true JPH05114899A (ja) 1993-05-07

Family

ID=17532160

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3273757A Pending JPH05114899A (ja) 1991-10-22 1991-10-22 ネツトワーク障害診断方式

Country Status (1)

Country Link
JP (1) JPH05114899A (ja)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07200499A (ja) * 1993-12-28 1995-08-04 Nec Corp 障害診断装置
US6715103B1 (en) 1999-06-15 2004-03-30 Nec Corporation Automatic fault diagnostic network system and automatic fault diagnostic method for networks
JP2007096796A (ja) * 2005-09-29 2007-04-12 Fujitsu Ltd ネットワーク障害診断装置、ネットワーク障害診断方法およびネットワーク障害診断プログラム
JP2007124057A (ja) * 2005-10-25 2007-05-17 Ntt Communications Kk ネットワーク障害部位特定装置および方法
JP2007522770A (ja) * 2004-02-13 2007-08-09 テルコーディア テクノロジーズ インコーポレイテッド 遠隔通信システムにおけるサービス影響の分析およびアラートの処理
JP2008017024A (ja) * 2006-07-04 2008-01-24 Chugoku Electric Power Co Inc:The 故障部位特定方法、情報処理装置及びプログラム
US7415637B2 (en) 2004-03-18 2008-08-19 Fujitsu Limited Method and apparatus for estimating network troubles
WO2009004701A1 (ja) * 2007-06-29 2009-01-08 Fujitsu Limited ネットワーク障害検知システム、計測エージェント、監視サーバ、ネットワーク障害検知方法およびネットワーク障害検知プログラム
JP2010287971A (ja) * 2009-06-10 2010-12-24 Hitachi Ltd ネットワーク機器の自己診断機能実現方式
WO2011039826A1 (ja) * 2009-09-30 2011-04-07 株式会社日立製作所 取得可能な機器情報に応じた障害原因解析ルールの設計方法及び計算機
WO2011039825A1 (ja) * 2009-09-30 2011-04-07 株式会社日立製作所 障害の根本原因解析結果表示方法、装置、及びシステム
WO2012053104A1 (ja) * 2010-10-22 2012-04-26 株式会社日立製作所 管理システム、及び管理方法
EP2683190A1 (en) 2012-06-07 2014-01-08 Fujitsu Limited Operation Monitoring Apparatus, Cause Event Estimating Method for the same, and Information Communication Network System
WO2014033945A1 (ja) * 2012-09-03 2014-03-06 株式会社日立製作所 複数の監視対象デバイスを有する計算機システムの管理を行う管理システム
WO2015079564A1 (ja) * 2013-11-29 2015-06-04 株式会社日立製作所 イベントの根本原因の解析を支援する管理システム及び方法
JP2019009726A (ja) * 2017-06-28 2019-01-17 株式会社日立製作所 障害切り分け方法および管理サーバ
CN112468374A (zh) * 2020-12-10 2021-03-09 云南电网有限责任公司昆明供电局 一种网络检测仪

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07200499A (ja) * 1993-12-28 1995-08-04 Nec Corp 障害診断装置
US6715103B1 (en) 1999-06-15 2004-03-30 Nec Corporation Automatic fault diagnostic network system and automatic fault diagnostic method for networks
JP2007522770A (ja) * 2004-02-13 2007-08-09 テルコーディア テクノロジーズ インコーポレイテッド 遠隔通信システムにおけるサービス影響の分析およびアラートの処理
US7415637B2 (en) 2004-03-18 2008-08-19 Fujitsu Limited Method and apparatus for estimating network troubles
JP4527642B2 (ja) * 2005-09-29 2010-08-18 富士通株式会社 ネットワーク障害診断装置、ネットワーク障害診断方法およびネットワーク障害診断プログラム
US7587634B2 (en) 2005-09-29 2009-09-08 Fujitsu Limited Network fault diagnostic device, network fault diagnostic method, and computer product
JP2007096796A (ja) * 2005-09-29 2007-04-12 Fujitsu Ltd ネットワーク障害診断装置、ネットワーク障害診断方法およびネットワーク障害診断プログラム
JP2007124057A (ja) * 2005-10-25 2007-05-17 Ntt Communications Kk ネットワーク障害部位特定装置および方法
JP4612525B2 (ja) * 2005-10-25 2011-01-12 エヌ・ティ・ティ・コミュニケーションズ株式会社 ネットワーク障害部位特定装置および方法
JP2008017024A (ja) * 2006-07-04 2008-01-24 Chugoku Electric Power Co Inc:The 故障部位特定方法、情報処理装置及びプログラム
JP4633011B2 (ja) * 2006-07-04 2011-02-16 中国電力株式会社 故障部位特定方法、情報処理装置及びプログラム
WO2009004701A1 (ja) * 2007-06-29 2009-01-08 Fujitsu Limited ネットワーク障害検知システム、計測エージェント、監視サーバ、ネットワーク障害検知方法およびネットワーク障害検知プログラム
US8615682B2 (en) 2007-06-29 2013-12-24 Fujitsu Limited Network failure detecting system, measurement agent, surveillance server, and network failure detecting method
JP2010287971A (ja) * 2009-06-10 2010-12-24 Hitachi Ltd ネットワーク機器の自己診断機能実現方式
WO2011039825A1 (ja) * 2009-09-30 2011-04-07 株式会社日立製作所 障害の根本原因解析結果表示方法、装置、及びシステム
JP2011076293A (ja) * 2009-09-30 2011-04-14 Hitachi Ltd 障害の根本原因解析結果表示方法、装置、及びシステム
US8423826B2 (en) 2009-09-30 2013-04-16 Hitachi, Ltd. Method, apparatus and system for displaying result of failure root cause analysis
WO2011039826A1 (ja) * 2009-09-30 2011-04-07 株式会社日立製作所 取得可能な機器情報に応じた障害原因解析ルールの設計方法及び計算機
WO2012053104A1 (ja) * 2010-10-22 2012-04-26 株式会社日立製作所 管理システム、及び管理方法
US9100864B2 (en) 2012-06-07 2015-08-04 Fujitsu Limited Operation monitoring apparatus, cause event estimating method for the same, and information communication network system
EP2683190A1 (en) 2012-06-07 2014-01-08 Fujitsu Limited Operation Monitoring Apparatus, Cause Event Estimating Method for the same, and Information Communication Network System
WO2014033945A1 (ja) * 2012-09-03 2014-03-06 株式会社日立製作所 複数の監視対象デバイスを有する計算機システムの管理を行う管理システム
JP5719974B2 (ja) * 2012-09-03 2015-05-20 株式会社日立製作所 複数の監視対象デバイスを有する計算機システムの管理を行う管理システム
US9244800B2 (en) 2012-09-03 2016-01-26 Hitachi, Ltd. Management system for managing computer system comprising multiple monitoring-target devices
WO2015079564A1 (ja) * 2013-11-29 2015-06-04 株式会社日立製作所 イベントの根本原因の解析を支援する管理システム及び方法
CN104903866A (zh) * 2013-11-29 2015-09-09 株式会社日立制作所 对事件根本原因的分析予以支援的管理系统以及方法
GB2536317A (en) * 2013-11-29 2016-09-14 Hitachi Ltd Management system and method for assisting event root cause analysis
JPWO2015079564A1 (ja) * 2013-11-29 2017-03-16 株式会社日立製作所 イベントの根本原因の解析を支援する管理システム及び方法
CN104903866B (zh) * 2013-11-29 2017-12-15 株式会社日立制作所 对事件根本原因的分析予以支援的管理系统以及方法
JP2019009726A (ja) * 2017-06-28 2019-01-17 株式会社日立製作所 障害切り分け方法および管理サーバ
CN112468374A (zh) * 2020-12-10 2021-03-09 云南电网有限责任公司昆明供电局 一种网络检测仪

Similar Documents

Publication Publication Date Title
JPH05114899A (ja) ネツトワーク障害診断方式
CN109787817B (zh) 网络故障诊断方法、装置和计算机可读存储介质
US6253339B1 (en) Alarm correlation in a large communications network
CN112448836B (zh) 故障根因确定方法、装置、服务器和计算机可读介质
KR20180108446A (ko) Ict 인프라 관리 시스템 및 이를 이용한 ict 인프라 관리 방법
WO2002080458A1 (en) Method for configuring a network by defining clusters
CN115278741A (zh) 一种基于多模态数据依赖关系的故障诊断方法和装置
CN113542017A (zh) 基于网络拓扑和多指标的一种网络故障定位方法
CN114791846A (zh) 一种针对云原生混沌工程实验实现可观测性的方法
CN112769605A (zh) 一种异构多云的运维管理方法及混合云平台
CN113254249A (zh) 冷站故障分析方法、装置、及存储介质
EP2439877A1 (en) Method and device for analyzing alarm correlation, system and method for checking alarm correlation analyzing device
CN109766448A (zh) 一种远程预防性变频管理系统
CN112187914A (zh) 一种远程控制机器人管理方法及系统
JPH06309584A (ja) プラント運転支援装置
CN110535686A (zh) 异常事件处理方法和装置
CN113534752A (zh) 处理系统中的警报处置的方法
CN117221087A (zh) 告警根因定位方法、装置及介质
CN109446291B (zh) 一种路网状态统计方法、装置和计算机可读存储介质
CN112784025A (zh) 一种目标事件的确定方法和装置
Chen et al. He-tree: a framework for detecting changes in clustering structure for categorical data streams
CN109889258A (zh) 一种光网络故障校验方法和设备
KR0169808B1 (ko) 고장 진단용 전문가 시스템 및 고장진단방법
CN115766402A (zh) 服务器故障根因的过滤方法和装置、存储介质及电子装置
CN114911654A (zh) 一种故障分类方法、装置及系统