JPH11259331A - ネットワークにおける障害箇所検出方法及び装置及びネットワークにおける障害箇所検出プログラムを格納した記憶媒体 - Google Patents

ネットワークにおける障害箇所検出方法及び装置及びネットワークにおける障害箇所検出プログラムを格納した記憶媒体

Info

Publication number
JPH11259331A
JPH11259331A JP10063284A JP6328498A JPH11259331A JP H11259331 A JPH11259331 A JP H11259331A JP 10063284 A JP10063284 A JP 10063284A JP 6328498 A JP6328498 A JP 6328498A JP H11259331 A JPH11259331 A JP H11259331A
Authority
JP
Japan
Prior art keywords
network
service
failure
services
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10063284A
Other languages
English (en)
Inventor
Katsuhisa Maruyama
勝久 丸山
Shozo Naito
昭三 内藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP10063284A priority Critical patent/JPH11259331A/ja
Publication of JPH11259331A publication Critical patent/JPH11259331A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Test And Diagnosis Of Digital Computers (AREA)
  • Computer And Data Communications (AREA)
  • Maintenance And Management Of Digital Transmission (AREA)

Abstract

(57)【要約】 【課題】 ネットワーク管理者が行っている障害管理の
負担を軽減し、各機器上のサービス間に潜在する関連を
明確にし、障害箇所を自動的、かつ、できる限り狭い範
囲に限定することが可能なネットワークにおける障害箇
所検出方法及び装置及びネットワークにおける障害箇所
検出プログラムを格納した記憶媒体を提供する。 【解決手段】 本発明は、ネットワークサービスを提供
するネットワークの構成情報と、各サービスの動作順序
列情報とを用いて、該ネットワークに潜在するサービス
間の依存関係を形式的に表現したネットワーク依存グラ
フを作成し、利用中のサービスに障害が発生した際に、
ネットワーク依存グラフ上の依存関係を辿ることによ
り、障害の原因となる、あるいは、障害が影響を与える
ネットワーク機器上のサービスの集合を抽出・限定する
ことにより障害箇所を検出する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ネットワークにお
ける障害箇所検出方法及び装置及びネットワークにおけ
る障害箇所検出プログラムを格納した記憶媒体に係り、
特に、ネットワーク障害管理に対し、障害の発生原因と
なるサービスを半自動的に特定することで、ネットワー
ク管理者が障害箇所を迅速に検出することを可能とし、
管理上の負担を軽減するためのネットワークにおける障
害箇所検出方法及び装置及びネットワークにおける障害
箇所検出プログラムを格納した記憶媒体に関する。
【0002】
【従来の技術】従来のネットワーク障害管理システム
は、主に、ネットワーク機器の構成(トポロジー)に基
づき、機器間のパケットの到達可能性や到達経路を検査
する、あるいは、障害管理エージェント(例えば、SN
MPエージェント)を用いて各機器の状態を観測及び収
集することで、障害箇所の検出を支援する。このよう
に、従来は、主に、パケットの流れや個々のサービスの
診断結果に着目して障害箇所の検出を行う。
【0003】
【発明が解決しようとする課題】しかしながら、上記の
機器間のパケットの到達可能性や到達経路に関する情報
だけでは、各機器において個々のサービスが正常に動作
しているかどうかを判断することはできない。また、障
害管理エージェントにより収集される情報は、機器上の
個々のサービスに関する診断結果であり、複数のサービ
スが連携しているネットワークにおいて、この情報だけ
から障害箇所を検出することは難しい。実際に障害箇所
を検出するためには、各機器上のサービス間に存在する
関連を正確に把握し、パケットの到達可能性や経路に関
する検査情報、及び個々のサービスに関する診断結果を
統括的に解析する枠組みが必要となる。
【0004】従来、このような解析は、熟練管理者が専
門的な知識や経験に基づいて行っており、知識や経験を
持つ少数の管理者へ負担が集中している。さらに、コン
ピュータネットワークが急速に広がった現状では、管理
対象となるネットワーク機器の数が多く、利用者が要求
するサービスも高度かつ、頻繁に変化する。このような
状況では、機器上のサービスの複雑な関連を、専門的な
知識や経験を持つ管理者といえども、人間が完全に把握
することは不可能である。
【0005】本発明は、上記の点に鑑みなされたもの
で、ネットワーク管理者が行っている障害管理の負担を
軽減し、各機器上のサービス間に潜在する関連を明確に
し、障害箇所を自動的、かつ、できる限り狭い範囲に限
定することが可能なネットワークにおける障害箇所検出
方法及び装置及びネットワークにおける障害箇所検出プ
ログラムを格納した記憶媒体を提供することを目的とす
る。
【0006】
【課題を解決するための手段】図1は、本発明の原理を
説明するための図である。本発明(請求項1)は、ネッ
トワーク上で障害の発生原因となるサービスを特定する
ネットワークにおける障害箇所検出方法において、ネッ
トワークサービスを提供するネットワークの構成情報
と、各サービスの動作順序列情報とを用いて、該ネット
ワークに潜在するサービス間の依存関係を形式的に表現
したネットワーク依存グラフを作成し(ステップ1)、
利用中のサービスに障害が発生した際に、前記ネットワ
ーク依存グラフ上の依存関係を辿ることにより、障害の
原因となる、あるいは、障害が影響を与えるネットワー
ク機器上のサービスの集合を抽出し(ステップ2)、限
定することにより障害箇所を検出する(ステップ3)。
【0007】本発明(請求項2)は、障害の原因とな
る、あるいは、障害が影響を与えるネットワーク機器上
のサービスの集合を抽出・限定する際に、着目するネッ
トワーク機器の指定サービスに影響を与える、あるい
は、着目する機器の指定サービスが影響を与える関連サ
ービスの集合を、ネットワーク依存グラフにおける到達
可能性に基づいて抽出し、障害の発生箇所から、着目す
るネットワーク機器及び指定サービスを推定し、着目す
る機器の指定サービスの動作結果により、障害箇所を絞
り込む。
【0008】本発明(請求項3)は、障害箇所を絞り込
む際に、抽出された前記関連サービスの集合を部分的に
切り分け、分割したサービスに対して個々に動作確認す
る。本発明(請求項4)は、分割したサービスの動作結
果に基づいて、正常に動作しているサービスだけを障害
範囲から取り除く、または、正常に動作していないサー
ビスに関する共通部分を抜き出す。
【0009】図2は、本発明の原理構成図である。本発
明(請求項5)は、ネットワーク上で障害の発生原因と
なるサービスを特定するネットワークにおける障害箇所
検出装置であって、ネットワークサービスを提供するネ
ットワークの構成情報と、各サービスの動作順序列情報
とを用いて、該ネットワークに潜在するサービス間の依
存関係を形式的に表現したネットワーク依存グラフを作
成するネットワーク依存グラフ作成手段110と、利用
中のサービスに障害が発生した際に、前記ネットワーク
依存グラフ上の依存関係を辿ることにより、障害の原因
となる、あるいは、障害が影響を与えるネットワーク機
器上のサービスの集合を抽出・限定することにより障害
箇所を検出する障害箇所検出手段とを有する。
【0010】本発明(請求項6)は、障害箇所検出手段
は、着目するネットワーク機器の指定サービスに影響を
与える、あるいは、着目する機器の指定サービスが影響
を与える関連サービスの集合を、ネットワーク依存グラ
フにおける到達可能性に基づいて抽出する関連サービス
抽出手段120と、障害の発生箇所から、着目するネッ
トワーク機器及び指定サービスを推定し、着目する機器
の指定サービスの動作結果により、障害箇所を絞り込む
障害範囲解析手段130とを有する。
【0011】本発明(請求項7)は、障害範囲解析手段
130において、障害箇所を絞り込む際に、抽出された
前記関連サービスの集合を部分的に切り分け、分割した
サービスに対して個々に動作確認する手段を含む。本発
明(請求項8)は、障害範囲解析手段130において、
分割したサービスの動作結果に基づいて、正常に動作し
ているサービスだけを障害範囲から取り除く、または、
正常に動作していないサービスに関する共通部分を抜き
出す手段を含む。
【0012】本発明(請求項9)は、ネットワーク上で
障害の発生原因となるサービスを特定するネットワーク
における障害箇所検出プログラムを格納した記憶媒体で
あって、ネットワークサービスを提供するネットワーク
の構成情報と、各サービスの動作順序列情報とを用い
て、該ネットワークに潜在するサービス間の依存関係を
形式的に表現したネットワーク依存グラフを作成するネ
ットワーク依存グラフ作成プロセスと、利用中のサービ
スに障害が発生した際に、前記ネットワーク依存グラフ
上の依存関係を辿ることにより、障害の原因となる、あ
るいは、障害が影響を与えるネットワーク機器上のサー
ビスの集合を抽出・限定することにより障害箇所を検出
する障害箇所検出プロセスとを有する。
【0013】本発明(請求項10)は、障害箇所検出プ
ロセスにおいて、着目するネットワーク機器の指定サー
ビスに影響を与える、あるいは、着目する機器の指定サ
ービスが影響を与える関連サービスの集合を、ネットワ
ーク依存グラフにおける到達可能性に基づいて抽出する
関連サービス抽出プロセスと、障害の発生箇所から、着
目するネットワーク機器及び指定サービスを推定し、着
目する機器の指定サービスの動作結果により、障害箇所
を絞り込む障害範囲解析プロセスとを有する。
【0014】本発明(請求項11)は、障害範囲解析プ
ロセスにおいて、障害箇所を絞り込む際に、抽出された
前記関連サービスの集合を部分的に切り分け、分割した
サービスに対して個々に動作確認するプロセスを含む。
本発明(請求項12)は、障害範囲解析プロセスにおい
て、分割したサービスの動作結果に基づいて、正常に動
作しているサービスだけを障害範囲から取り除く、また
は、正常に動作していないサービスに関する共通部分を
抜き出すプロセスを含む。
【0015】上記のように、本発明は、ネットワーク上
のサービス間に潜在する依存関係を解析し、依存関係に
基づき、障害箇所を推定することが主な特徴である。こ
れにより、従来のネットワーク障害管理技術が、主に、
パケットの流れや個々のサービスの診断結果に着目して
いたのに対し、本発明では、複数のサービス間の関連に
着目している。
【0016】ネットワーク依存グラフ作成手段は、ネッ
トワーク上のサービス間に潜在する依存関係を形式的に
表現する。このため、関連サービス抽出手段、あるい
は、障害範囲解析手段は、ネットワーク依存グラフにお
けるサービス間の到達可能性の検査により実現でき、こ
れらの手段の自動化が可能である。また、関連サービス
抽出手段により、障害範囲内のサービス集合を部分的に
切り分けることが可能であり、障害範囲解析手段におい
て、分割したサービスに対して個々に動作確認ができ
る。
【0017】さらに、分割したサービス動作結果に基づ
き、正常に動作しているサービスだけを障害範囲から取
り除く、あるいは、正常に動作していないサービスに関
する共通部分を抜き出すことで、障害箇所をより狭い範
囲に絞り込むことが可能である。
【0018】
【発明の実施の形態】本発明による障害箇所検出処理に
ついて説明する前に、本発明で用いるネットワーク依存
グラフと、ネットワーク・スライシングについて説明す
る。 (1) ネットワーク依存グラフ ネットワーク依存グラフとは、従来のプログラム依存グ
ラフをネットワークに適用したものである。
【0019】ホストやルータなどネットワーク機器の集
合をHとする。ネットワークサービス(例えば、機器名
照合サービス、ファイル転送サービス、ユーザ識別サー
ビス、ユーザ情報照合サービス)を実現するために、各
ネットワーク機器h(∈H)の上で動作しているプログ
ラムを考える。いま、機器h上で動作しているプログラ
ムをサービス実体と呼び、その集合をSrv(h)とお
く。h上のサービスp(∈Srv(h))が参照するデ
ータ(サービスpを実現するプログラムの入力となるデ
ータテーブルなど)の集合をU(p),U(p)をh上
の全プログラムに関して集めた参照データの集合を Use(h)={u|u∈U(p)∧p∈Srv
(h)} とおく。また、各サービスpが定義するデータ(サービ
スpを実現するプログラムの出力となるデータテーブル
など)の集合をD(p)、D(p)を機器h上の全プロ
グラムに関して集めた定義データの集合を Def(h)={d|d∈D(p)∧p∈Srv
(h)} とおく。ここでは、集合Srv(h)、Use(h),
Def(h)の和集合 Srv(h)∪Use(h)∪Def(h) の要素sをサービス節点と呼び、機器hに属するサービ
ス節点を(h,s)と表す。一つの機器上に同じサービ
スが重複して動作していないとすると、サービス節点は
一意に決まる。
【0020】ネットワーク依存グラフG=(V,E)と
は、サービス節点の集合Vと各節点V(∈V)間の依存
関係を表す矢印の集合Eからなる有向グラフである。 V={(h,s)|h∈H∧(s∈Srv(h)∨s∈
Use(h)∨s∈Def(h))}、E⊆{(hi
p )→(hj ,sq )|(hi ,sp )∈V∧
(hj ,sq )∈V} 矢印e(∈E)は、次に示す依存関係のどれか一つを表
す。
【0021】・データ依存関係:機器i上のサービスが
定義するデータd(∈Def(i)))の値が、機器j
上のサービスが参照するデータu(∈Use(j))の
値に到達(伝搬)する場合、節点v=(i,d)から節
点w=(j,u)にデータ依存があるという。 ・制御依存関係:機器i上のサービスs(∈Srv
(i))の動作結果(正常あるいは異常)が、機器j上
のサービスが参照するデータu(∈Use(j))の値
の有効性に影響を与える場合、節点v(i,s)から節
点w=(j,u)に制御依存があるという。
【0022】・サービス内依存関係:機器iにおいて、
サービスs(∈Sru(i))を実行し、データd(∈D
ef(i))の値を定義するために必要な参照データu
(∈Use(i))が存在する場合、節点v=(i,
u)から節点w1=(i,s)及び節点w2=(i,
d)にサービス内依存関係があるという。
【0023】(2)ネットワーク・スライシング ネットワーク・スライシングとは、着目する機器の指定
サービスが影響を与えるサービスの集合、あるいは、着
目するネットワーク機器の指定サービスに影響を与える
サービスの集合を、ネットワーク上のサービス全体から
抜き出すことである。ネットワーク・スライシングは、
従来プログラムを分割するプログラム・スライシング技
術をネットワークに適用したものである。
【0024】ネットワーク上の機器の集合をH、機器h
(∈H)に属するサービス節点をV(h)とする。ネッ
トワーク・スライシングにおいて、着目するネットワー
ク機器h(∈H)と指定サービスの集合S(⊆V
(h))の組をスライシング基準C=(h,S)、抽出
されたネッワークの断片をスライスと呼ぶ。本発明で
は、次に示す2種類のスライスを用いる。
【0025】・順方向スライス:スライシング基準C=
(h,S)に対する順方向スライスとは、ネットワーク
依存グラフG=(V,E)において、節点v=(h,
s),s∈Sからデータ依存関係矢印、制御依存関係矢
印、及びサービス内依存関係矢印を順方向に辿ることで
到達可能な節点集合Sf (h,S)である。“→*
は、依存関係矢印における間接的な接続を指す。
【0026】Sf (h,S)={(i,t)∈V|
(h,s)→* (i,t)∧s∈S} ・逆方向スライス:スライシング基準C=〈h,S)に
対する逆方向スライスとは、ネットワーク依存グラフG
=(V,E)において、データ依存関係矢印、制御依存
関係矢印、及びサービス内依存関係矢印を順方向に辿る
ことで、節点v=(h,s)、s∈Sに到達可能な節点
集合Sb (h,S)である。逆方向スライスは、ネッ
トワーク依存グラフG=(V,E)において、節点v=
(h,s)から依存関係矢印を逆方向に辿ることで到達
可能な節点集合に等しい。
【0027】Sb (h,S)={(i,t)∈V|
(i,t)→* (h,s)∧s∈S} 上記の手順により、ネットワーク依存グラフ全体から抽
出したサービス集合を静的スライスと呼ぶ。これに対し
て、特定の入力条件を与えて(例えば、宛先機器を指定
して)、実際にパケットの通過した軌跡を求め、この軌
跡に現れる機器に限定して抽出したサービス集合を動的
スライスと呼ぶ。以下では、静的スライスを用いて説明
を行うが、動的スライスを用いた場合でも、パケットの
通過軌跡が要求される以外、本発明における障害箇所検
出方法及び装置は同じである。
【0028】最初に、障害箇所検出装置の構成について
説明する。図3は、本発明の障害箇所検出装置の構成を
示す。同図に示す障害箇所検出装置100は、ネットワ
ーク依存グラフ作成部110、関連サービス抽出部12
0、障害範囲解析部130から構成され、当該障害範囲
解析部130には、サービス動作確認部200が接続さ
れている。また、ネットワーク依存グラフ作成部110
には、ネットワーク構成情報データベース300と、サ
ービス動作順序列情報データベース400が接続されて
いる。
【0029】以下に、各構成について説明する。ネット
ワーク依存グラフ作成部110は、サービスを提供する
ネットワークの構成情報と各サービスの動作順序列情報
を解析することで、ネットワークに潜在する依存関係を
形式的に表現したネットワーク依存グラフを作成する。
関連サービス抽出部120は、着目するネットワーク機
器の指定サービスに影響を与える、あるいは、着目する
機器の指定サービスが影響を与える関連サービスの集合
を、ネットワーク依存グラフにおける到達可能性に基づ
いて抽出する。
【0030】障害範囲解析部130は、障害の発見箇所
から、関連サービス抽出部120において着目するネッ
トワーク機器及び指定サービスを推定し、着目する機器
の指定サービスの動作結果(正常あるいは異常)によ
り、障害箇所を絞り込む。
【0031】
【実施例】以下、図面と共に本発明の実施例を説明す
る。図4は、本発明の一実施例の障害箇所検出手続のフ
ローチャートである。ネットワーク依存グラフ作成部1
10は、管理対象のネットワークに対して、サービスを
提供するネットワークの構成情報(各サービスの設定フ
ァイル)とサービスの動作順序列情報をデータベース3
00,400から取得する。これらの情報を静的に解析
することで、データ依存関係、制御依存関係、サービス
内依存関係を検出し、ネットワーク依存グラフを作成す
る(ステップ101)。
【0032】図5は、本発明の一実施例のネットワーク
構成情報データベースに格納されている内容の例を示し
ており、“FILE−S”はファイルサーバ(fip
d)、“NAME−S”は機器名照合サーバ(name
d)、“UID−S”はユーザ識別サーバ(ypser
v)、“FINGER−S”はユーザ情報照合サーバ
(fingerd)、“CLIENT”はクライアン
ト、“addr”は機器のIPアドレス、“name”
は機器名、“uid”はユーザ識別番号、“user”
はユーザ名、“file”は転送ファイルを示す。
【0033】図6は、本発明の一実施例のサービス動作
順序列情報データベースに格納されている内容の例を示
し、図7は、本発明の一実施例のネットワーク依存グラ
フの例であり、同図において、“file”は格納ファ
イル、“uid”はユーザ識別番号テーブル、“hos
t”はホスト名テーブル、“user”はユーザ名テー
ブルを示している。
【0034】図7は、図5のネットワーク構成と、図6
のサービス動作順序列(図6は機器H4のサービスft
pのみを示す。実際は全サービスについての動作順序列
情報が必要である)を解析することで作成した、ネット
ワーク依存グラフである。図7において、H1,H2,
…,H7はネットワーク機器、菱形節点はサービス実体
節点、丸節点はデータ参照サービス節点あるいは、デー
タ定義サービス節点を指す。実線矢印はデータ依存関
係、一点鎖線矢印は制御依存関係、点線矢印はサービス
内依存関係を表す。また、入力矢印を持たない(矢印の
接続先とならない)節点(filc,uid,hos
t,user)は、その節点が属する機器で設定されて
いる固定情報(ファイルやテーブルなど)を指す。
【0035】関連サービス抽出部120は、障害範囲解
析部130により与えられたスライシング基準に基づい
て、ネットワーク依存グラフにおける到達可能性から着
目するネットワーク機器の指定サービスが影響を与える
サービスの集合(順方向スライスSf)と、着目する機
器の指定サービスに影響を与えるサービスの集合(逆方
向スライスSb)を抽出する。
【0036】図7に示すネットワーク依存グラフから抽
出したスライス Sf(H3,{addr}),Sb(H4,{ft
p}),Sb(H7,{nslookup}),Sb
(H4,{finger})に対応する部分グラフを、
それぞれ図8、図9、図10、図11に示す。
【0037】障害範囲解析部130は、入力された障害
発見箇所(機器hのサービス節点集合S)に(ステップ
102)影響を与えるサービス節点の集合Sb(h,
S)を逆方向スライシングにより求める(ステップ10
3)。管理対象のネットワークにおける依存関係が網羅
されている場合、障害は必ずSb(h,S)内で発生し
ていると言える。障害範囲解析部130は、Fault
_L1=Sb(h,S)を出力する(ステップ10
4)。なお、当該Fault_L1=Sb(h,S)を
レベル1障害範囲と呼ぶ(障害範囲の絞込ステップA
(ステップ103、104))。
【0038】次に、Sb(h,S)内の各サービス節点
(i,s)∈Sb(h,S)に対して、そのサービス節
点が影響を与えるサービス節点の集合Sf(i,
{s})を順方向スライシングにより求め、これらスラ
イスの和集合
【0039】
【数1】
【0040】を作成する。Sfu(h,S)は、障害が
影響を及ぼす可能性のある最大範囲を指す(障害影響範
囲の特定ステップ(ステップ105〜107))。その
後、障害影響範囲に含まれる各サービス名節点 (j,t)∈Sfu(h,S),t∈Srv(j) に対して、その節点に対応するサービスを、サービス動
作確認部200において実際に実行する。装置j上のサ
ービスtの動作判定結果(正常あるいは異常)と節点
(j,t)に影響を与えるサービス節点の集合Sb
(j,{t})(逆方向スライス)を用いて、障害範囲
を絞り込む(障害範囲の絞り込みステップB(ステップ
108〜ステップ115))。節点(j,t)に対応す
るサービスが正常に動作する場合、障害範囲 F(j,t)=Sb(h,S)−Sb(j,{t}) に絞り込むことができる(障害範囲の絞り込みステップ
A(ステップ112))。集合A,Bに対して、A−B
は、集合Aの要素から集合Bの要素を取り除いた差集合
を表す。逆に、節点(j,t)に関するサービスが正常
に動作しない場合、障害範囲 F(j,t)=Sb(h,S)∩Sb(j,{t}) に絞り込むことができる(障害範囲の絞り込みステップ
2B(ステップ113))。障害範囲の絞り込みステッ
プ2A、あるいは2Bにおいて動作結果が確認されたサ
ービス節点の集合Sfp(h,S)に対する障害範囲の
積集合
【0041】
【数2】
【0042】が絞り込み後のレベル2障害範囲となる。
次に、障害範囲特定の例について説明する。図4に示す
障害箇所検出手続に従い、図7に示すネットワーク依存
グラフを用いて、障害範囲を特定する様子を説明する。
ネットワーク機器H4のサービスftpにおいて、障害
が発見された場合を考える。絞り込みステップA(ステ
ップ103、104)により、レベル1障害範囲は、図
9に示す逆方向スライスSb(H4,{ftp})に限
定できる。 Fault_L1=Sb(H4,{ftp})={(H
1,*),(H2,*),(H3,*),(H4,ad
dr),(H4,ftp),(H5,addr),(H
5,named)} ここで、(h,*)は、機器hに属するすべてのサービ
ス節点を表す。また、(H5,addr)のように同じ
識別子を持つ節点は1つに纏めて示す。
【0043】次に、障害影響範囲の特定ステップにおい
て、Sb(H4,{ftp})に含まれる各節点に対す
る順方向スライスの和集合Sfu(H4,{ftp})
を求める。
【0044】
【数3】
【0045】いま、Sfu(H4,{ftp})に含ま
れる節点(H7,nslookup)に対応する機器H
7のサービスnslookupが正常に動作していたと
する。この場合、障害範囲は、 F(H7,nslookup)=Sb(H4,{ft
p})−Sb(H7,{nslookup})={(H
1,*),(H2,*),(H3,uid),(H4,
file),(H3,ftpd),(H4,fil
e),(H4,addr),(H4,ftp),(H
5,addr),(H5,named)} となる。さらに、Sfu(H4,{ftp})に含まれ
る節点(H4,finger)に対応する機器H4のサ
ービスfingerが正常に動作していなかったとす
る。この場合、障害範囲は、 F(H4,finger=Sb(H4,{ftp})∩
Sb,{finger})={(H3、host),
(H3,addr),(H3,named),(H4,
addr),(H5,named)} となる。よって、この時点で絞り込まれたレベル2障害
範囲は、以上、絞り込みステップA(ステップ103、
104)より、機器H1,H2,H3,H4,H5上の
各サービス、及び、これらの機器間のパケットの到達経
路(ネットワークA,B,C,D,E)(図12におけ
る点線部分と破線部分)が、必ず障害箇所を含む範囲と
して検出できる。さらに、絞り込みステップB(ステッ
プ108〜ステップ115)より、機器H5の機器名照
合サービス(named)、あるいは、機器H5と機器
H4間の機器名照合サービスへの問い合わせパケットの
到達経路(ネットワークD)(図12における破線部
分)において障害が発生している可能性が高いと推定で
きる。
【0046】また、本発明は、上記の実施例に限定され
ることなく、図3及び図4で示した構成要素及びフロー
チャートをプログラムとして構築し、障害箇所検出装置
として利用されるコンピュータに接続されるディスク装
置や、フロッピーディスクやCD−ROM等の可搬記憶
媒体に格納しておき、本発明を実施する際にインストー
ルすることにより容易に実現することが可能である。
【0047】本発明は、上記の実施例に限定されること
なく、特許請求の範囲内で種々変更・応用が可能であ
る。
【0048】
【発明の効果】本発明は、ネットワーク機器上のサービ
ス間に潜在する依存関係をグラフで表現することで、障
害箇所を必ず含む範囲をネットワーク全体から自動的に
切り出すことができる。更に、ネットワーク依存グラフ
を用いて、障害影響範囲を解析することで、障害箇所を
含むと推測される範囲をできる限り狭く限定可能であ
る。このように、ネットワーク障害箇所を自動検出する
方法及び装置を提供することで、ネットワーク管理者の
負担を軽減することができる。
【図面の簡単な説明】
【図1】本発明の原理を説明するための図である。
【図2】本発明の原理構成図である。
【図3】本発明の障害箇所検出装置の構成図である。
【図4】本発明の一実施例の障害箇所検出手続のフロー
チャートである。
【図5】本発明の一実施例のネッワーク構成情報データ
ベースに格納されている内容の例である。
【図6】本発明の一実施例のサービス順序列情報データ
ベースに格納されている内容の例である。
【図7】本発明の一実施例のネットワーク依存グラフの
例を示す図である。
【図8】本発明の一実施例の図7のネットワーク依存グ
ラフから抽出した順方向スライスSf(H3,{add
r})を示す図である。
【図9】本発明の一実施例の図7のネットワーク依存グ
ラフから抽出した逆方向スライスSb(H4,{ft
p})を示す図である。
【図10】本発明の一実施例の図7のネットワーク依存
グラフから抽出した逆方向スライスSb(H7,{ns
lookup})を示す図である。
【図11】本発明の一実施例の図7のネットワーク依存
グラフから抽出した逆方向スライスSb(H4,{fi
nger})を示す図である。
【図12】本発明の一実施例の検出した障害範囲を示す
図である。
【符号の説明】
100 障害発生箇所検出装置 110 ネットワーク依存グラフ作成手段、ネットワー
ク依存グラフ作成部 120 関連サービス抽出手段、関連サービス抽出部 130 障害範囲解析手段、障害範囲解析部 200 サービス動作確認部 300 ネットワーク構成情報データベース 400 サービス動作順序列情報データベース

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 ネットワーク上で障害の発生原因となる
    サービスを特定するネットワークにおける障害箇所検出
    方法において、 ネットワークサービスを提供するネットワークの構成情
    報と、各サービスの動作順序列情報とを用いて、該ネッ
    トワークに潜在するサービス間の依存関係を形式的に表
    現したネットワーク依存グラフを作成し、 利用中のサービスに障害が発生した際に、前記ネットワ
    ーク依存グラフ上の依存関係を辿ることにより、障害の
    原因となる、あるいは、障害が影響を与えるネットワー
    ク機器上のサービスの集合を抽出し、限定することによ
    り障害箇所を検出することを特徴とするネットワークに
    おける障害箇所検出方法。
  2. 【請求項2】 前記障害の原因となる、あるいは、障害
    が影響を与えるネットワーク機器上のサービスの集合を
    抽出・限定する際に、 着目するネットワーク機器の指定サービスに影響を与え
    る、あるいは、着目する機器の指定サービスが影響を与
    える関連サービスの集合を、前記ネットワーク依存グラ
    フにおける到達可能性に基づいて抽出し、 障害の発生箇所から、前記着目するネットワーク機器及
    び指定サービスを推定し、着目する機器の指定サービス
    の動作結果により、障害箇所を絞り込む請求項1記載の
    ネットワークにおける障害箇所検出方法。
  3. 【請求項3】 前記障害箇所を絞り込む際に、抽出され
    た前記関連サービスの集合を部分的に切り分け、分割し
    たサービスに対して個々に動作確認する請求項2記載の
    ネットワークにおける障害箇所検出方法。
  4. 【請求項4】 前記分割したサービスの動作結果に基づ
    いて、正常に動作しているサービスだけを障害範囲から
    取り除く、または、正常に動作していないサービスに関
    する共通部分を抜き出す請求項2及び3記載のネットワ
    ークにおける障害箇所検出方法。
  5. 【請求項5】 ネットワーク上で障害の発生原因となる
    サービスを特定するネットワークにおける障害箇所検出
    装置であって、 ネットワークサービスを提供するネットワークの構成情
    報と、各サービスの動作順序列情報とを用いて、該ネッ
    トワークに潜在するサービス間の依存関係を形式的に表
    現したネットワーク依存グラフを作成するネットワーク
    依存グラフ作成手段と、 利用中のサービスに障害が発生した際に、前記ネットワ
    ーク依存グラフ上の依存関係を辿ることにより、障害の
    原因となる、あるいは、障害が影響を与えるネットワー
    ク機器上のサービスの集合を抽出・限定することにより
    障害箇所を検出する障害箇所検出手段とを有することを
    特徴とするネットワークにおける障害箇所検出装置。
  6. 【請求項6】 前記障害箇所検出手段は、 着目するネットワーク機器の指定サービスに影響を与え
    る、あるいは、着目する機器の指定サービスが影響を与
    える関連サービスの集合を、前記ネットワーク依存グラ
    フにおける到達可能性に基づいて抽出する関連サービス
    抽出手段と、 障害の発生箇所から、着目するネットワーク機器及び指
    定サービスを推定し、前記着目する機器の指定サービス
    の動作結果により、障害箇所を絞り込む障害範囲解析手
    段とを有する請求項5記載のネットワークにおける障害
    箇所検出装置。
  7. 【請求項7】 前記障害範囲解析手段は、 前記障害箇所を絞り込む際に、抽出された前記関連サー
    ビスの集合を部分的に切り分け、分割したサービスに対
    して個々に動作確認する手段を含む請求項6記載のネッ
    トワークにおける障害箇所検出装置。
  8. 【請求項8】 前記障害範囲解析手段は、 前記分割したサービスの動作結果に基づいて、正常に動
    作しているサービスだけを障害範囲から取り除く、また
    は、正常に動作していないサービスに関する共通部分を
    抜き出す手段を含む請求項6及び7記載のネットワーク
    における障害箇所検出装置。
  9. 【請求項9】 ネットワーク上で障害の発生原因となる
    サービスを特定するネットワークにおける障害箇所検出
    プログラムを格納した記憶媒体であって、 ネットワークサービスを提供するネットワークの構成情
    報と、各サービスの動作順序列情報とを用いて、該ネッ
    トワークに潜在するサービス間の依存関係を形式的に表
    現したネットワーク依存グラフを作成するネットワーク
    依存グラフ作成プロセスと、 利用中のサービスに障害が発生した際に、前記ネットワ
    ーク依存グラフ上の依存関係を辿ることにより、障害の
    原因となる、あるいは、障害が影響を与えるネットワー
    ク機器上のサービスの集合を抽出・限定することにより
    障害箇所を検出する障害箇所検出プロセスとを有するこ
    とを特徴とするネットワークにおける障害箇所検出プロ
    グラムを格納した記憶媒体。
  10. 【請求項10】 前記障害箇所検出プロセスは、 着目するネットワーク機器の指定サービスに影響を与え
    る、あるいは、着目する機器の指定サービスが影響を与
    える関連サービスの集合を、前記ネットワーク依存グラ
    フにおける到達可能性に基づいて抽出する関連サービス
    抽出プロセスと、 障害の発生箇所から、着目するネットワーク機器及び指
    定サービスを推定し、着目する機器の指定サービスの動
    作結果により、障害箇所を絞り込む障害範囲解析プロセ
    スとを有する請求項9記載のネットワークにおける障害
    箇所検出プログラムを格納した記憶媒体。
  11. 【請求項11】 前記障害範囲解析プロセスは、 前記障害箇所を絞り込む際に、抽出された前記関連サー
    ビスの集合を部分的に切り分け、分割したサービスに対
    して個々に動作確認するプロセスを含む請求項10記載
    のネットワークにおける障害箇所検出プログラムを格納
    した記憶媒体。
  12. 【請求項12】 前記障害範囲解析プロセスは、 前記分割したサービスの動作結果に基づいて、正常に動
    作しているサービスだけを障害範囲から取り除く、また
    は、正常に動作していないサービスに関する共通部分を
    抜き出すプロセスを含む請求項10及び11記載のネッ
    トワークにおける障害箇所検出プログラムを格納した記
    憶媒体。
JP10063284A 1998-03-13 1998-03-13 ネットワークにおける障害箇所検出方法及び装置及びネットワークにおける障害箇所検出プログラムを格納した記憶媒体 Pending JPH11259331A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10063284A JPH11259331A (ja) 1998-03-13 1998-03-13 ネットワークにおける障害箇所検出方法及び装置及びネットワークにおける障害箇所検出プログラムを格納した記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10063284A JPH11259331A (ja) 1998-03-13 1998-03-13 ネットワークにおける障害箇所検出方法及び装置及びネットワークにおける障害箇所検出プログラムを格納した記憶媒体

Publications (1)

Publication Number Publication Date
JPH11259331A true JPH11259331A (ja) 1999-09-24

Family

ID=13224883

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10063284A Pending JPH11259331A (ja) 1998-03-13 1998-03-13 ネットワークにおける障害箇所検出方法及び装置及びネットワークにおける障害箇所検出プログラムを格納した記憶媒体

Country Status (1)

Country Link
JP (1) JPH11259331A (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005316728A (ja) * 2004-04-28 2005-11-10 Mitsubishi Electric Corp 障害解析装置、障害解析方法及び障害解析プログラム
JP2006178834A (ja) * 2004-12-24 2006-07-06 Mitsubishi Electric Corp 依存関係情報収集システム及び依存関係情報収集方法
JP2007522770A (ja) * 2004-02-13 2007-08-09 テルコーディア テクノロジーズ インコーポレイテッド 遠隔通信システムにおけるサービス影響の分析およびアラートの処理
JP2008519493A (ja) * 2004-10-28 2008-06-05 テルコーディア テクノロジーズ インコーポレイテッド データネットワークにおける往復遅延の遠隔推定
WO2009040876A1 (ja) * 2007-09-28 2009-04-02 Fujitsu Limited ネットワーク管理装置及びプログラム
WO2010016239A1 (ja) * 2008-08-04 2010-02-11 日本電気株式会社 障害解析装置
WO2010038327A1 (ja) * 2008-09-30 2010-04-08 株式会社 日立製作所 イベント情報取得外のit装置を対象とする根本原因解析方法、装置、プログラム。
JP2010206582A (ja) * 2009-03-04 2010-09-16 Kddi Corp ネットワーク障害における影響サービス特定装置、および方法
JP2011253212A (ja) * 2010-05-31 2011-12-15 Fujitsu Ltd 探索装置、探索方法および探索プログラム
US8578210B2 (en) 2008-09-12 2013-11-05 Fujitsu Limited Supporting apparatus and supporting method
WO2015140843A1 (ja) * 2014-03-20 2015-09-24 日本電気株式会社 情報処理装置、影響過程抽出方法および記録媒体
JP2016029520A (ja) * 2014-07-25 2016-03-03 三菱電機株式会社 情報処理装置及び情報処理方法及びプログラム
WO2021186683A1 (ja) * 2020-03-19 2021-09-23 三菱電機株式会社 汚染範囲特定装置および汚染範囲特定プログラム
US11354201B2 (en) 2018-06-14 2022-06-07 Fujitsu Limited Effective selection of a virtual machine to be moved outside influence range of a failure

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007522770A (ja) * 2004-02-13 2007-08-09 テルコーディア テクノロジーズ インコーポレイテッド 遠隔通信システムにおけるサービス影響の分析およびアラートの処理
JP2005316728A (ja) * 2004-04-28 2005-11-10 Mitsubishi Electric Corp 障害解析装置、障害解析方法及び障害解析プログラム
JP2008519493A (ja) * 2004-10-28 2008-06-05 テルコーディア テクノロジーズ インコーポレイテッド データネットワークにおける往復遅延の遠隔推定
JP2006178834A (ja) * 2004-12-24 2006-07-06 Mitsubishi Electric Corp 依存関係情報収集システム及び依存関係情報収集方法
WO2009040876A1 (ja) * 2007-09-28 2009-04-02 Fujitsu Limited ネットワーク管理装置及びプログラム
WO2010016239A1 (ja) * 2008-08-04 2010-02-11 日本電気株式会社 障害解析装置
US8635496B2 (en) 2008-08-04 2014-01-21 Nec Corporation Trouble analysis apparatus
US8578210B2 (en) 2008-09-12 2013-11-05 Fujitsu Limited Supporting apparatus and supporting method
WO2010038327A1 (ja) * 2008-09-30 2010-04-08 株式会社 日立製作所 イベント情報取得外のit装置を対象とする根本原因解析方法、装置、プログラム。
US8020045B2 (en) 2008-09-30 2011-09-13 Hitachi, Ltd. Root cause analysis method, apparatus, and program for IT apparatuses from which event information is not obtained
US8479048B2 (en) 2008-09-30 2013-07-02 Hitachi, Ltd. Root cause analysis method, apparatus, and program for IT apparatuses from which event information is not obtained
JP2010086115A (ja) * 2008-09-30 2010-04-15 Hitachi Ltd イベント情報取得外のit装置を対象とする根本原因解析方法、装置、プログラム。
JP2010206582A (ja) * 2009-03-04 2010-09-16 Kddi Corp ネットワーク障害における影響サービス特定装置、および方法
JP2011253212A (ja) * 2010-05-31 2011-12-15 Fujitsu Ltd 探索装置、探索方法および探索プログラム
WO2015140843A1 (ja) * 2014-03-20 2015-09-24 日本電気株式会社 情報処理装置、影響過程抽出方法および記録媒体
JPWO2015140843A1 (ja) * 2014-03-20 2017-04-06 日本電気株式会社 情報処理装置、影響過程抽出方法およびプログラム
US10887331B2 (en) 2014-03-20 2021-01-05 Nec Coporation Information processing apparatus and influence-process extraction method
JP2016029520A (ja) * 2014-07-25 2016-03-03 三菱電機株式会社 情報処理装置及び情報処理方法及びプログラム
US11354201B2 (en) 2018-06-14 2022-06-07 Fujitsu Limited Effective selection of a virtual machine to be moved outside influence range of a failure
WO2021186683A1 (ja) * 2020-03-19 2021-09-23 三菱電機株式会社 汚染範囲特定装置および汚染範囲特定プログラム
JP6987332B1 (ja) * 2020-03-19 2021-12-22 三菱電機株式会社 汚染範囲特定装置および汚染範囲特定プログラム

Similar Documents

Publication Publication Date Title
EP3633511B1 (en) Method and system for automatic real-time causality analysis of end user impacting system anomalies using causality rules and topological understanding of the system to effectively filter relevant monitoring data
US11442803B2 (en) Detecting and analyzing performance anomalies of client-server based applications
JP6419967B2 (ja) ネットワーク管理のためのシステムおよび方法
US10623235B2 (en) Correlating computing network events
JPH11259331A (ja) ネットワークにおける障害箇所検出方法及び装置及びネットワークにおける障害箇所検出プログラムを格納した記憶媒体
US11409634B2 (en) Retroactive tracing in a distributed system
JP4758259B2 (ja) ネットワーク監視装置及び方法
WO2021128977A1 (zh) 一种故障诊断方法及装置
KR20050048019A (ko) 통계적 분석을 이용한 네트워크 수준에서의 이상 트래픽감지 방법
US20140325278A1 (en) Method and system for interactive and automated testing between deployed and test environments
JP2017016650A (ja) コンピュータネットワーク上の資産を検出および識別するための方法およびシステム
US8190416B2 (en) Computer network management
JP2007208633A (ja) ネットワーク設計装置、ネットワーク設計方法およびネットワーク設計プログラム
CN112350854A (zh) 一种流量故障定位方法、装置、设备及存储介质
US11349730B2 (en) Operation device and operation method
US8195977B2 (en) Network fault isolation
CN112995042B (zh) 业务拓扑图的生成方法、装置、设备及存储介质
CN112860496A (zh) 故障修复操作推荐方法、装置及存储介质
CN113037564B (zh) 一种网络故障诊断方法及装置
JP4668117B2 (ja) ネットワーク管理システムおよび方法
US11411819B2 (en) Automatic network configuration in data protection operations
JP2002328893A (ja) ネットワークセキュリティに関する被害評価システムおよびその方法
JP2005316728A (ja) 障害解析装置、障害解析方法及び障害解析プログラム
JP2014036310A (ja) 影響評価装置及び影響評価方法
JP5080528B2 (ja) ネットワークトポロジ構成方法、ネットワークトポロジ構成装置およびプログラム