JP2005269238A - ネットワーク障害推定方法及びネットワーク障害推定装置 - Google Patents

ネットワーク障害推定方法及びネットワーク障害推定装置 Download PDF

Info

Publication number
JP2005269238A
JP2005269238A JP2004078760A JP2004078760A JP2005269238A JP 2005269238 A JP2005269238 A JP 2005269238A JP 2004078760 A JP2004078760 A JP 2004078760A JP 2004078760 A JP2004078760 A JP 2004078760A JP 2005269238 A JP2005269238 A JP 2005269238A
Authority
JP
Japan
Prior art keywords
failure
network
search
cause
case
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004078760A
Other languages
English (en)
Other versions
JP4445300B2 (ja
Inventor
Ritsu Suzuki
立 鈴木
Tomonori Kaizuka
智憲 貝塚
Akiko Ikui
明子 生井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2004078760A priority Critical patent/JP4445300B2/ja
Priority to US10/949,709 priority patent/US7415637B2/en
Priority to GB0421326A priority patent/GB2412271B/en
Publication of JP2005269238A publication Critical patent/JP2005269238A/ja
Application granted granted Critical
Publication of JP4445300B2 publication Critical patent/JP4445300B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/02Standardisation; Integration
    • H04L41/024Standardisation; Integration using relational databases for representation of network management data, e.g. managing via structured query language [SQL]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0686Additional information in the notification, e.g. enhancement of specific meta-data

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Maintenance And Management Of Digital Transmission (AREA)

Abstract

【課題】 本発明は、ネットワークの障害事例を有効に活用でき、ネットワーク障害の原因部位を高い精度で推定することができるネットワーク障害推定方法及びネットワーク障害推定装置を提供することを目的とする。
【解決手段】 対象となるネットワークをネットワーク機器と線路の組み合わせ毎にモデル化したモデルネットワークを表示し、モデルネットワーク上における障害部位と障害現象を入力し、モデルネットワークにおける過去の障害事例について少なくとも障害部位と障害現象と原因部位と頻度を事例データベースに登録しておき、入力された障害部位と障害現象を検索キーとして事例データベースを検索し、検索により得られた事例レコードの原因部位と頻度を基に障害の原因を推定して提示する。
【選択図】 図1

Description

本発明は、ネットワーク障害推定方法及びネットワーク障害推定装置に関し、ネットワーク機器及び線路により構成されるネットワークシステムにおける障害が発生した部位を推定するネットワーク障害推定方法及びネットワーク障害推定装置に関する。
ネットワークシステムの障害対応は、一般的に以下のように行われる。
(1)ネットワークシステムに障害が発生した場合、各種ネットワーク機器から検出されるアラームを収集する(監視システム等により実現)。
(2)収集した複数のアラームから、影響アラーム等の波及アラームを取り除き、最も原因に近いアラームを抽出する(主原因判定システムや、オペレータの手作業等により実現)。
(3)抽出したアラームを基に実際に装置や線路のどこが悪いか、過去の経験や試行錯誤により絞り込み、最終的に障害の原因を推定する(人間系で実施)。
(4)障害の原因を取り除き復旧させる(装置のパッケージの交換や、線路の修復等)。
従来、(1),(2)のアラーム収集及び抽出についてはシステムにより支援を行っている場合があるが、(3)の障害原因の推定についてはオペレータの経験による人間系での実行がほとんどであった。
また、過去の障害事例をナレッジマネジメントシステムに蓄積し、障害発生時に原因の推定を支援するケースも存在するが、自然文で事例を蓄積し、障害発生時に自然文検索で過去の事例を検索するというものであった。
また、従来のネットワーク障害遠隔監視システムとして、例えば特許文献1〜4に記載のものがある。
特許文献1には、障害時に発生したアラーム情報とネットワーク機器の接続関係とネットワーク接続形態モデルより、アラーム毎に予め設定された障害部位候補の集合を求め、その共通集合を求めることにより障害部位の推定するものが記載されている。
特許文献2には、ネットワーク構成要素であるネットワークエレメントの設計知識をもとに作成された故障伝播モデルを使用して、故障の症状より原因分析を行うものが記載されている。
特許文献3には、解決済トラブルチケットに対して未解決のトラブルチケットと関連するトラブルチケットを情報理論誘導アルゴリズムや神経ネットワーク学習アルゴリズム等により検索し、解決策を得るものが記載されている。
特許文献4には、故障原因毎に回線と対向する装置の故障と故障影響の確率(比較値)を基に、アラーム発生時にそのアラームが故障によるか故障影響によるかを推定することが記載されている。
特開平5−114899号公報 特開平7−245609号公報 特表平8−510101号公報 特開平5−260049号公報
障害の原因の推定をオペレータの経験による人間系のみで実行するものでは、オペレータ毎にスキルやノウハウの種類やレベルが異なり、誰でも迅速に確実な障害原因の推定を行うことが困難であるという問題があった。
また、過去の障害事例のナレッジマネジメントシステムを利用しているものでも、自然文を使ってナレッジを登録し、この自然文のナレッジを検索するものがほとんどであり、アラームの発生部位や現象及び原因等を一義的に表現できておらず、別の場所で同じような障害事例があっても正しく検索できず、有効なナレッジとして利用できていないという問題があった。
本発明は、上記の点に鑑みなされたものであり、ネットワークの障害事例を有効に活用でき、ネットワーク障害の原因部位を高い精度で推定することができるネットワーク障害推定方法及びネットワーク障害推定装置を提供することを目的とする。
請求項1,2に記載の発明は、対象となるネットワークをネットワーク機器と線路の組み合わせ毎にモデル化したモデルネットワークを表示し、
前記モデルネットワーク上における障害部位と障害現象を入力し、
前記モデルネットワークにおける過去の障害事例について少なくとも障害部位と障害現象と原因部位と頻度を事例データベースに登録しておき、
前記入力された障害部位と障害現象を検索キーとして前記事例データベースを検索し、
検索により得られた事例レコードの原因部位と頻度を基に障害の原因を推定して提示することにより、
ネットワークの障害事例を有効に活用でき、ネットワーク障害の原因部位を高い精度で推定することができる。
請求項3に記載の発明は、障害部位と障害現象の少なくとも一方が異なる複数の障害を類似グループとして登録した類似グループデータベースと、
前記入力手段で入力された障害部位と障害現象を検索キーとして前記類似グループデータベースを検索し、検索により得られた障害部位と障害現象を前記事例データベースの検索キーとして追加する検索キー追加手段を有することにより、
ネットワーク障害の障害部位と障害現象を一義的に扱うことができ、ネットワークの障害事例を有効に活用でき、ネットワーク障害の原因部位を高い精度で推定することができる。
請求項4に記載の発明では、前記提示手段は、検索により得られた複数の事例レコードの原因部位と頻度を基に複数の障害の原因を推定し、各障害の原因の割合を提示することにより、
ネットワーク障害の障害部位と障害現象を一義的に扱うことができ、ネットワークの障害事例を有効に活用でき、ネットワーク障害の原因部位を高い精度で推定することができる。
請求項5に記載の発明では、事例データベースに事例レコードを追加または更新する事例更新手段を有することにより、
事例データベースに新たな事例レコードを蓄積することができる。
請求項1,2に記載の発明によれば、ネットワークの障害事例を有効に活用でき、ネットワーク障害の原因部位を高い精度で推定することができる。
請求項3に記載の発明によれば、ネットワーク障害の障害部位と障害現象を一義的に扱うことができ、ネットワークの障害事例を有効に活用でき、ネットワーク障害の原因部位を高い精度で推定することができる。
請求項4に記載の発明によれば、ネットワーク障害の障害部位と障害現象を一義的に扱うことができ、ネットワークの障害事例を有効に活用でき、ネットワーク障害の原因部位を高い精度で推定することができる。
請求項5に記載の発明によれば、事例データベースに新たな事例レコードを蓄積することができる。
以下、図面に基づいて本発明の実施形態について説明する。
本発明は、ネットワークシステムの障害原因の推定にあたって、対象となるネットワークをネットワーク機器と線路の組み合わせ毎にモデル化し、モデル化したネットワーク上で障害の部位及び現象を指定する事により、確率の高い障害の原因、及び対処方法を推定する。
図1は、本発明のネットワーク障害推定装置の一実施形態の機能ブロック図を示す。同図中、ネットワーク障害推定装置10はナレッジマネジメントシステムで構成されており、このナレッジマネジメントシステムは処理部11とデータベース部12から構成されている。
処理部11は、モデル化したネットワーク(以下「モデルネットワーク」という)を管理するモデル管理部13、発生した障害をモデルネットワーク上から選ぶための検索キーを入力する検索キー入力インタフェース部14、類似した部位をグループ管理するための類似グループ管理部15、過去の事例を検索する検索処理部16、検索結果をモデルネットワーク上にて表示させる検索結果表示部17、実際に発生した障害の結果を過去の事例として利用するために事例データベース23に登録する結果フィードバック部18を有する。
データベース部12は、モデルネットワークを保存するモデルデータベース20、類似グループを保存する類似グループデータベース21、各部位間の相対的な位置とモデルデータベースからの検索ルールを定義する相対位置ルールテーブル22、過去の障害事例を登録する事例データベース23を有する。
モデルデータベース20は、モデルネットワーク毎に、伝送装置等のネットワーク機器内の各部位(パッケージ等)、ネットワーク機器間を接続する線路(物理回線)、複数のネットワーク機器上に論理的に登録されたパス、及びネットワーク機器と線路(物理回線)とパスの収容関係(上下関係)を保持する。
ネットワーク管理者等のオペレータは、ネットワークの障害時に検索キー入力インタフェース部14を用いてアラームが発生している部位(障害部位)をモデル化したネットワークから選択して入力し、併せて障害発生時の現象を入力する。
検索処理部16は、事例データベース23内で障害部位及び障害発生時の現象が一致するレコードを抽出し、その頻度及び確率を検索結果表示部17に表示してオペレータに通知する。
これにより、モデルネットワーク上での同一部位の障害事例を確実に蓄積活用することができ、オペレータのノウハウやスキルにかかわらず、故障箇所・対処方法の確実な推定が可能となり、迅速な障害対応が可能となる。
また、類似グループ管理部15は、類似した部位の障害を同一部位の障害として取り扱うことができるよう、類似データベース部21に類似した部位群を登録する。そして、ある部位が検索キーとなった場合に、検索処理部16は当該部位の類似部位の障害を事例データベース23より検索し、検索結果つまり類似部位の障害の原因となった原因部位を今回の障害の原因部位に置き換えてオペレータに通知する。
このように、障害部位そのものを検索するだけでなく、類似部位も合わせて検索することにより、モデルネットワーク上の類似部位の障害を共通化することができ、同一モデルネットワークもしくは別モデルネットワークにおける類似した部位の障害発生時やネットワークの一部の変更や拡張に対しても過去のナレッジを有効に活用することができる。
また、モデルデータベース20には、モデルネットワーク上の各装置を構成するパッケージと各線路それぞれ毎に、故障率の予測値(MTBFの設計値や既知の実績値等)を持つ。障害が発生し対象部位と現象が入力された時、予め定義されたモデルネットワークを参照して該当部位を異常とさせる可能性のあるパッケージ及び線路を抽出し、故障率予測値から確率の高い障害の原因部位を予測する。これにより、運用開始直後等で充分な事例データが蓄積されていない状態においても、障害の原因の予測が可能となる。
モデルデータベース20には、モデル化したネットワーク構成を各処理部が利用できるよう、事前に対象ネットワークをモデル化した図2に示すようなモデルネットワークを登録する。図2において、ネットワーク機器32〜37の接続によりネットワークが構成され、ネットワーク機器32,37に端末(X)31,端末(Y)38が接続されている。
ネットワーク機器(装置A)32は例えばSDH(Synchronous Digital Hierarchy)装置であり、パッケージA−1,A−2,A−3より構成され、パッケージA−2は物理回線1を介して端末31に接続される。ネットワーク機器(装置B)33は例えばADM(Add Drop Multiplxer)装置であり、パッケージB−1,B−2,B−3より構成され、パッケージB−2は物理回線2を介してパッケージA−3に接続される。
ネットワーク機器(装置C)34は例えばWDM(Wavelength Division Multiplexing)装置であり、パッケージC−1,C−2,C−3より構成され、パッケージC−2は物理回線3を介してパッケージB−3に接続される。ネットワーク機器(装置D)35は例えばWDM装置であり、パッケージD−1,D−2,D−3より構成され、パッケージD−2は物理回線4を介してパッケージC−3に接続される。
ネットワーク機器(装置E)36は例えばADM装置であり、パッケージE−1,E−2,E−3より構成され、パッケージE−2は物理回線5を介してパッケージD−3に接続される。ネットワーク機器(装置F)37は例えばATM(Asynchronous Transfer Mode)装置であり、パッケージF−1,F−2,F−3より構成され、パッケージF−2は物理回線6を介してパッケージE−3に接続され、パッケージF−3は物理回線7を介して端末38に接続されている。
端末31,38間を結ぶパス3層1については、線路X〜Aではパス3層1が直接、物理回線1に収容される。また、線路A〜Bではパス3層1はパス2層1に収容され、パス2層1はパス1層1に収容され、パス1層1が物理回線2に収容される。
なお、図2はモデルネットワークの一例を示しており、この他にもリング構成のモデルネットワーク等、異なる構成のモデルネットワークがモデルデータベース20に登録されている。
モデルネットワークの登録は図3に示すようにモデル管理部13を介して行う。モデルデータベース20の構成は図3に示すように、装置内部位テーブル20aとトレイルテーブル20bが設けられている。
装置内部位テーブル20aは、例えばパッケージB−1,B−2,B−3のような装置内部位毎にレコードが構成されている。例えば装置内部位B−1のレコードでは、装置内部位B−1が装置内部位「B−2」、「B−3」に接続され、B−1の年間故障率が4.0%であり、捕捉情報(装置の種類)としてパッケージ製品Xであることが登録されている。また、装置内部位B−2のレコードでは、装置内部位「B−2」が収容トレイル部位「物理回線2」に接続され、B−2の年間故障率が1.0%であり、パッケージ製品Yであることが登録されている。
トレイルテーブル20bは、例えば物理回線2、パス1層1等のトレイル部位毎に、レコードが構成されている。例えば物理回線2のレコードでは、下位収容トレイル部位がパス1層1であり、年間故障率が4.0%であり、捕捉情報(装置の種類)として物理回線であることが登録されている。パス1層1のレコードでは、下位収容トレイル部位がパス2層1であり、捕捉情報(装置の種類)としてパスであることが登録されている。
図4に、本発明装置における検索処理の流れを示す。
(1)検索キー入力インタフェース部14はモデルデータベース20を参照し、
(2)モデルネットワークを表示する。
(3)オペレータは、モデルネットワークの表示を見て検索キー入力インタフェース部14から障害部位と障害現象を検索キーとして入力する。
(4)検索キー入力インタフェース部14は入力されたキーを検索キーとして検索処理部16に通知する。
(5)検索処理部16は類似グループデータベース21を参照し、入力された障害と同一の類似グループに属する障害の障害部位と障害現象を検索する。
(6)検索処理部16はナレッジ検索を実行するため類似部位と障害現象を検索キーに追加する。
(7)検索処理部16は事例データベース23より過去の障害事例を検索し、
(8)結果を検索結果表示部17に通知する。
(9)検索結果表示部17では、モデルデータベース20よりモデル化されたネットワークの構成情報を参照する。
(10)検索結果表示部17は、モデルネットワークを表示し、その部位上に検索結果を表示する。
図5は、検索キー入力を説明するための図を示す。検索キー入力インタフェース部14は、モデルネットワーク構成図上でマウス等により障害部位を指定するための障害部位選択ウインドウ14aと、障害現象を入力するための障害現象入力ウインドウ14bを画面表示する。
障害部位選択ウインドウ14aには、モデルデータベースを参照して得られた部位及びその接続関係をモデルネットワーク構成図として表示する。このモデルネットワーク構成図は図2に示すものと同様の構成である。装置のパッケージや物理回線やパス等の各部位は選択することが可能である。オペレータが障害部位を選択すると障害部位選択ウインドウ14aで障害部位を例えば反転表示や色を変化させる等の方法によって他の部位と異ならせて表示する。
障害現象入力ウインドウ14bでは障害が発生しているときの現象(例えば受信信号断を示す「LOS発生」等)を入力する。この障害現象が確定すると、検索キー入力インタフェース部14は選択した障害部位及び障害現象を検索キーとして検索処理部16に通知する。
図6は、類似グループ管理を説明するための図を示す。本実施形態では、同一モデルネットワーク上の別障害部位と障害現象、または、別モデルネットワーク上の障害部位と障害現象を1つの類似グループとして登録し管理する類似グループデータベース21を持つ。
図6では類似グループ名「ADM装置高速側パネル故障」として、部位「装置B−3」で障害現象「LOS発生」のレコードと、部位「装置C−3」で障害現象「LOS発生」のレコードが登録されている。また、類似グループ名「WDM装置故障」として、部位「装置X」で障害現象「EQP(送信信号断を示す)」のレコードが登録されている。なお、類似グループの登録は、類似グループ管理部15を用いて事前に行う。
図7(A),(B)は、相対的な位置の管理を説明するための図を示す。本実施形態では、任意のモデルネットワーク上の部位を、特定部位からの相対的な位置として表現できるよう、基本的な相対位置を定義した相対位置ルールテーブル22を持つ。
相対位置ルールテーブル22には、図7(A)に示すように、相対位置名称に対応したモデルデータベースの検索ルールを予め定義しておく。モデルネットワーク上の任意の部位は、これら相対位置の組み合わせによって表現する。例えば、「収容物理回線」を特定部位の相対位置Aとし、モデルデータベース20の装置内部位テーブル20aの特定部位のレコードから収容トレイル部位を抽出すると定義する。また、「収容元装置内部位」を相対位置Bとし、モデルデータベース20の装置内部位テーブル20aで特定部位としての物理回線を収容トレイル部位として登録されているレコード装置内部位名を抽出すると定義する。
これにより、図7(B)に示すように、装置Bの装置内部位B−3から見た部位C−2の相対位置を、相対位置Aと相対位置Bの組み合わせで表現することが可能となる。
図8は、検索処理を説明するための図を示す。同図中、検索キー入力インタフェース部14から通知された検索キー「障害部位B−3,障害現象LOS発生」に対し、検索処理部16は上記検索キーにて類似グループデータベース21を参照し、同一類似グループ「ADM装置高速側パネル故障」に属する障害部位と障害現象のレコード「障害部位C−3,障害現象LOS発生」を取得し、得られた結果を検索キーに追加する。
事例データベース23には、過去に発生した障害の事例について、障害部位と障害現象をキーとし、障害原因の部位を示す原因部位、障害が発生した回数、障害部位に対する相対位置、障害の対処方法それぞれを登録したレコードが格納されている。
検索処理部16は、検索キー「障害部位B−3,障害現象LOS発生」と「障害部位C−3,障害現象LOS発生」に対し、事例データベース23から障害部位、障害現象が一致するレコードを抽出する。この場合、図中破線で囲む3つのレコードが抽出される。抽出したレコードは、ナレッジ検索結果として検索結果表示部17に通知される。
図9は、検索結果表示を説明するための図を示す。同図中、検索結果表示部17は、予測結果ウインドウ17aを画面表示する。予測結果ウインドウ17a上には、モデルデータベース20を参照してモデルネットワーク構成図を表示する。また、検索キーである障害部位B−3の位置から、図8の破線で囲む3つのレコードの各「障害部位からの相対位置」を相対位置ルールテーブル22に従った位置にある部位を原因部位として反転表示や色を変える等により他の部位と異ならせて表示する。ここでは、破線で囲む3つのレコードのうちの1番目のレコードでは「障害部位からの相対位置」が「なし」、つまり自装置であるので障害部位B−3が原因部位となる。2番目のレコードでは「障害部位からの相対位置」が「相対位置A,相対位置B」で障害部位B−3から相対位置A,相対位置Bの位置である部位C−2が原因部位となる。3番目のレコードでは「障害部位からの相対位置」が「相対位置A」で障害部位B−3から相対位置Aの位置である物理回線3が原因部位となる。
その上で、検索結果として得られた複数のレコード(図8中、破線で囲む3つのレコード)の障害回数の総和を求め、総和に対する各レコードの障害回数の割合(%)を求め、各レコードの原因部位に割合(%)を表示する。図9では、物理回線3に20%、部位C−2に50%、部位B−3に30%が表示されている。
予測結果ウインドウ17a予測結果ウインドウ上でマウス等を用いて上記の物理回線4または部位C−2,C−3のいずれかを選択することにより、詳細表示ウインドウ17bに選択した部位に対応する対処方法等の補足情報を検索結果レコードから表示する。
また、障害から復旧した際には、その障害を事例として再利用するために、結果フィードバック部17から障害部位、障害現象、原因部位、障害回数、障害部位からの相対位置(相対位置ルールテーブルで定義されている相対位置の組み合わせ)、及び対処方法等の補足情報からなる事例レコードを事例データベース23に追加入力する。なお、事例データベース23に障害部位、障害現象が同一のレコードがある場合には、そのレコードの障害回数等を更新する。
ところで、事例データベース23に事例レコードつまりナレッジが蓄積されていない場合にはナレッジ検索による障害原因の推定が困難である。このような場合には、故障率の予測値を基に、確率の高い障害の原因を推定する。
図10に、障害原因の予測を行う対象のモデルネットワークの構成図を示す。このモデルネットワークは、ネットワーク機器(装置A)42〜ネットワーク機器(装置F)47、及び端末41,48により構成されており、それぞれの装置が物理回線1〜物理回線7の線路で物理的に接続されている。各物理回線の配下には、パス1層1〜パス1層3で示される第一層のパスが存在する。さらに第一層のパス配下にパス2層1〜パス2層2、さらにその配下にパス3層1が存在し、このパスで端末41と端末48がEnd−to−Endで通信する。
図3に示すモデルデータベース20には、ネットワーク機器42〜47それぞれを構成する各パッケージ及び物理回線1〜物理回線7それぞれ毎に、故障率の予測値(MTBFの設計値や既知の実績値等)が登録されている。
ここで、例えばネットワーク機器(装置C)44のパス2層2で、アラームが発生した場合、オペレータがネットワーク障害推定装置にて、アラームの発生した部位(パス2層2)及び、発生したアラーム(影響アラーム)を指定する。
この場合、ネットワーク障害推定装置は、まずアラーム発生部位であるパス2層2を収容している上位層のパスを抽出し、結果としてパス1層2,パス1層3を抽出する。さらにパス1層2,パス1層3を収容している最上位層の物理回線3〜6を抽出する。この物理回線3〜6を構成している装置及び線路として、ネットワーク機器(装置B)43のパッケージB−3、線路B〜C、ネットワーク機器(装置C)44のパッケージC−2,C−1,C−3、線路C〜D、ネットワーク機器(装置D)45のパッケージD−2,D−1,D−3、線路D〜E、ネットワーク機器(装置E)46のパッケージE−2,E−1,E−3、線路E〜F、ネットワーク機器(装置F)47のパッケージF−2を抽出する。
障害の可能性のある装置内のパッケージ、あるいは線路をすべて抽出した後、それらに定義されている故障率(年間故障率)を参照する。図11に障害の可能性のある全部位の年間故障率を示す。全部位の年間故障率からこの障害における各部位の故障の確率を計算する。この場合、全部位の故障率の総和は200%となるため、この総和が100%となるように全部位の故障率に1/2を乗算し、本障害における各部位の故障の確率を図11に示すように求める。ネットワーク障害推定装置は本障害における故障の確率を予測結果表示部17により予測結果ウインドウ17aに表示し、オペレータに障害の原因として確率の高い部位を提示することができる。
このようにして、オペレータのノウハウやスキルにかかわらず、故障箇所・対処方法の確実な推定が可能となり、迅速な障害対応が可能となる。また、モデルネットワークを用いているため、別の場所で使用されている同一モデルネットワークの類似した部位の障害を共通化でき、ネットワーク全体の過去のナレッジを有効に活用することができる。また、ネットワークの一部の変更や拡張においても、類似障害を共通化することにより、過去のナレッジを有効に活用することができる。
更に、ネットワークやネットワーク障害推定装置の導入直後のように過去の障害事例が少ない場合であっても、年間故障率の設計値や既知の実績値等の予測値を用いることにより、障害原因の推定が可能となる。
なお、特許文献1に記載のものは、アラーム毎に障害部位候補の集合を求め、その共通集合を求めるもので、本発明のように、過去の障害事例を検索してネットワーク障害の原因部位を高い精度で推定するものとは構成が異なっている。
また、特許文献2に記載のものは、故障伝播モデルを使用して、故障の症状より原因分析を行うもので、本発明のように、過去の障害事例を検索してネットワーク障害の原因部位を高い精度で推定するものとは構成が異なっている。
また、特許文献3に記載のものは、解決済トラブルチケットに対して未解決のトラブルチケットと関連するトラブルチケットを情報理論誘導アルゴリズムや神経ネットワーク学習アルゴリズム等により検索し、解決策を得るもので、本発明のように、過去の障害事例を検索してネットワーク障害の原因部位を高い精度で推定するものとは構成が異なっている。
また、特許文献4に記載のものは、故障原因毎に回線と対向する装置の故障と故障影響の確率を基に、アラーム発生時にそのアラームが故障によるか故障影響によるかを推定するもので、本発明のように、過去の障害事例を検索してネットワーク障害の原因部位を高い精度で推定するものとは構成が異なっている。
なお、検索キー入力インタフェース部14が請求項記載の入力手段に対応し、検索処理部16が事例検索手段に対応し、検索結果表示部17が提示手段に対応し、検索処理部16が検索キー追加手段に対応し、結果フィードバック部18が事例更新手段に対応する。
(付記1)
対象となるネットワークをネットワーク機器と線路の組み合わせ毎にモデル化したモデルネットワークを表示し、
前記モデルネットワーク上における障害部位と障害現象を入力し、
前記モデルネットワークにおける過去の障害事例について少なくとも障害部位と障害現象と原因部位と頻度を事例データベースに登録しておき、
前記入力された障害部位と障害現象を検索キーとして前記事例データベースを検索し、
検索により得られた事例レコードの原因部位と頻度を基に障害の原因を推定して提示することを特徴とするネットワーク障害推定方法。
(付記2)
対象となるネットワークをネットワーク機器と線路の組み合わせ毎にモデル化したモデルネットワークを表示し、前記モデルネットワーク上における障害部位と障害現象を入力する入力手段と、
前記モデルネットワークにおける過去の障害事例について少なくとも障害部位と障害現象と原因部位と頻度を登録した事例データベースと、
前記入力手段で入力された障害部位と障害現象を検索キーとして前記事例データベースを検索する事例検索手段と、
検索により得られた事例レコードの原因部位と頻度を基に障害の原因を推定して提示する提示手段を
有することを特徴とするネットワーク障害推定装置。
(付記3)
付記2記載のネットワーク障害推定装置において、
障害部位と障害現象の少なくとも一方が異なる複数の障害を類似グループとして登録した類似グループデータベースと、
前記入力手段で入力された障害部位と障害現象を検索キーとして前記類似グループデータベースを検索し、検索により得られた障害部位と障害現象を前記事例データベースの検索キーとして追加する検索キー追加手段を
有することを特徴とするネットワーク障害推定装置。
(付記4)
付記3記載のネットワーク障害推定装置において、
前記提示手段は、検索により得られた複数の事例レコードの原因部位と頻度を基に複数の障害の原因を推定し、各障害の原因の割合を提示することを特徴とするネットワーク障害推定装置。
(付記5)
付記2乃至4のいずれか記載のネットワーク障害推定装置において、
前記事例データベースに事例レコードを追加または更新する事例更新手段を
有することを特徴とするネットワーク障害推定装置。
(付記6)
付記2乃至5のいずれか記載のネットワーク障害推定装置において、
前記事例データベースは、前記モデルネットワークにおける過去の障害事例について障害部位と障害現象と原因部位と頻度と対処方法を登録しており、
前記提示手段は、検索により得られた事例レコードの原因部位と頻度を基に障害の原因と対処方法を推定して提示することを特徴とするネットワーク障害推定装置。
(付記7)
付記2乃至6のいずれか記載のネットワーク障害推定装置において、
提示手段は、前記事例データベースに事例データベースの蓄積が少ない場合に、前記モデルネットワークを構成するネットワーク機器の各部位と線路それぞれ故障率の予測値を基に障害の原因を推定して提示することを特徴とするネットワーク障害推定装置。
本発明のネットワーク障害推定装置の一実施形態の機能ブロック図である。 本発明のモデルネットワークの一実施形態を示す図である。 モデルデータベースの登録及び構成を示す図である。 本発明装置における検索処理の流れを示す図である。 検索キー入力を説明するための図である。 類似グループ管理を説明するための図である。 相対的な位置の管理を説明するための図である。 検索処理を説明するための図である。 検索結果表示を説明するための図である。 障害原因の予測を行う対象のモデルネットワークの構成図である。 障害の可能性のある全部位の年間故障率と本障害における故障の確率を示す図である。
符号の説明
10 ネットワーク障害推定装置
11 処理部
12 データベース部
13 モデル管理部
14 検索キー入力インタフェース部
15 類似グループ管理部
16 検索処理部
17 検索結果表示部
18 結果フィードバック部
21 類似グループデータベース
22 相対位置ルールテーブル
23 事例データベース23

Claims (5)

  1. 対象となるネットワークをネットワーク機器と線路の組み合わせ毎にモデル化したモデルネットワークを表示し、
    前記モデルネットワーク上における障害部位と障害現象を入力し、
    前記モデルネットワークにおける過去の障害事例について少なくとも障害部位と障害現象と原因部位と頻度を事例データベースに登録しておき、
    前記入力された障害部位と障害現象を検索キーとして前記事例データベースを検索し、
    検索により得られた事例レコードの原因部位と頻度を基に障害の原因を推定して提示することを特徴とするネットワーク障害推定方法。
  2. 対象となるネットワークをネットワーク機器と線路の組み合わせ毎にモデル化したモデルネットワークを表示し、前記モデルネットワーク上における障害部位と障害現象を入力する入力手段と、
    前記モデルネットワークにおける過去の障害事例について少なくとも障害部位と障害現象と原因部位と頻度を登録した事例データベースと、
    前記入力手段で入力された障害部位と障害現象を検索キーとして前記事例データベースを検索する事例検索手段と、
    検索により得られた事例レコードの原因部位と頻度を基に障害の原因を推定して提示する提示手段を
    有することを特徴とするネットワーク障害推定装置。
  3. 請求項2記載のネットワーク障害推定装置において、
    障害部位と障害現象の少なくとも一方が異なる複数の障害を類似グループとして登録した類似グループデータベースと、
    前記入力手段で入力された障害部位と障害現象を検索キーとして前記類似グループデータベースを検索し、検索により得られた障害部位と障害現象を前記事例データベースの検索キーとして追加する検索キー追加手段を
    有することを特徴とするネットワーク障害推定装置。
  4. 請求項3記載のネットワーク障害推定装置において、
    前記提示手段は、検索により得られた複数の事例レコードの原因部位と頻度を基に複数の障害の原因を推定し、各障害の原因の割合を提示することを特徴とするネットワーク障害推定装置。
  5. 請求項2乃至4のいずれか記載のネットワーク障害推定装置において、
    前記事例データベースに事例レコードを追加または更新する事例更新手段を
    有することを特徴とするネットワーク障害推定装置。
JP2004078760A 2004-03-18 2004-03-18 ネットワーク障害推定方法及びネットワーク障害推定装置 Expired - Fee Related JP4445300B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2004078760A JP4445300B2 (ja) 2004-03-18 2004-03-18 ネットワーク障害推定方法及びネットワーク障害推定装置
US10/949,709 US7415637B2 (en) 2004-03-18 2004-09-24 Method and apparatus for estimating network troubles
GB0421326A GB2412271B (en) 2004-03-18 2004-09-24 Method and apparatus for estimating network troubles

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004078760A JP4445300B2 (ja) 2004-03-18 2004-03-18 ネットワーク障害推定方法及びネットワーク障害推定装置

Publications (2)

Publication Number Publication Date
JP2005269238A true JP2005269238A (ja) 2005-09-29
JP4445300B2 JP4445300B2 (ja) 2010-04-07

Family

ID=33411200

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004078760A Expired - Fee Related JP4445300B2 (ja) 2004-03-18 2004-03-18 ネットワーク障害推定方法及びネットワーク障害推定装置

Country Status (3)

Country Link
US (1) US7415637B2 (ja)
JP (1) JP4445300B2 (ja)
GB (1) GB2412271B (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007124057A (ja) * 2005-10-25 2007-05-17 Ntt Communications Kk ネットワーク障害部位特定装置および方法
JP2007249883A (ja) * 2006-03-20 2007-09-27 Fujitsu Ltd 障害解析装置及びプログラム
WO2008149975A1 (ja) * 2007-06-06 2008-12-11 Nec Corporation 通信網の障害原因分析システムと障害原因分析方法、及び障害原因分析用プログラム
JP2010072834A (ja) * 2008-09-17 2010-04-02 Fujitsu Ltd 障害対処プログラム及び障害対処装置
JP2010161713A (ja) * 2009-01-09 2010-07-22 Fujitsu Ltd ネットワーク監視装置
WO2010109673A1 (ja) * 2009-03-24 2010-09-30 株式会社日立製作所 管理システム及び情報処理システム
JP2012014619A (ja) * 2010-07-05 2012-01-19 Hitachi Ltd 計算機システム及びリスク診断方法
JP2012156641A (ja) * 2011-01-24 2012-08-16 Nippon Telegr & Teleph Corp <Ntt> ネットワーク監視装置及び方法及びプログラム
JP2012199928A (ja) * 2012-04-18 2012-10-18 Hitachi Ltd 管理システム及び情報処理システム
US8775461B2 (en) 2008-05-08 2014-07-08 Nec Corporation Case search system, case database, case search apparatus, case search method, and program
WO2019116418A1 (ja) 2017-12-11 2019-06-20 日本電気株式会社 障害分析装置、障害分析方法および障害分析プログラム
JP2021087222A (ja) * 2019-11-30 2021-06-03 華為技術有限公司Huawei Technologies Co.,Ltd. 故障根本原因決定方法及び装置並びにコンピュータ記憶媒体
CN113328898A (zh) * 2021-08-02 2021-08-31 中国人民解放军国防科技大学 一种具有自主学习能力的故障诊断方法和系统
WO2024057531A1 (en) * 2022-09-16 2024-03-21 Rakuten Mobile, Inc. System, method, and medium for proactive monitoring of a network

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7437450B1 (en) 2001-11-30 2008-10-14 Cisco Technology Inc. End-to-end performance tool and method for monitoring electronic-commerce transactions
US7149917B2 (en) * 2002-07-30 2006-12-12 Cisco Technology, Inc. Method and apparatus for outage measurement
JP4701148B2 (ja) * 2006-03-02 2011-06-15 アラクサラネットワークス株式会社 障害回復システム及びサーバ
US7975184B2 (en) * 2006-04-03 2011-07-05 Donald Goff Diagnostic access system
JP5141762B2 (ja) * 2008-03-31 2013-02-13 富士通株式会社 トラブル対処システム、方法およびそのためのプログラム
US8904241B2 (en) * 2011-07-27 2014-12-02 Oracle International Corporation Proactive and adaptive cloud monitoring
CN103778044B (zh) * 2012-10-23 2017-05-17 伊姆西公司 用于系统故障诊断和修复的方法和装置
JP2019086930A (ja) * 2017-11-06 2019-06-06 富士通株式会社 インシデント検索プログラム、インシデント検索方法およびインシデント検索装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03195230A (ja) * 1989-12-25 1991-08-26 Fujitsu Ltd ネットワーク監視装置における障害影響範囲の推定処理方式
JPH05114899A (ja) 1991-10-22 1993-05-07 Hitachi Ltd ネツトワーク障害診断方式
JPH05260049A (ja) 1992-03-13 1993-10-08 Fujitsu Ltd ネットワークシステムにおける故障管理方法
US5666481A (en) * 1993-02-26 1997-09-09 Cabletron Systems, Inc. Method and apparatus for resolving faults in communications networks
JPH07245609A (ja) 1994-03-07 1995-09-19 Nippon Telegr & Teleph Corp <Ntt> ネットワーク故障伝播モデルに基づくネットワーク故障診断方法
JP3675851B2 (ja) * 1994-03-15 2005-07-27 富士通株式会社 計算機監視方式
JPH0844641A (ja) * 1994-07-29 1996-02-16 Nec Corp ネットワーク障害処理システム及び該システムにおけるネットワーク障害処理方法
US5872911A (en) * 1995-12-29 1999-02-16 Mci Communications Corporations Method and system of service impact analysis in a communications network
JP3450611B2 (ja) * 1996-09-18 2003-09-29 富士通株式会社 障害情報管理装置
US6708291B1 (en) * 2000-05-20 2004-03-16 Equipe Communications Corporation Hierarchical fault descriptors in computer systems
JP2003296205A (ja) * 2002-04-04 2003-10-17 Hitachi Ltd ネットワーク構成機器特定方法及びその実施システム並びにその処理プログラム
JP3731125B2 (ja) * 2003-03-03 2006-01-05 ダイキン工業株式会社 保守情報提供システム
US20050144151A1 (en) * 2003-04-02 2005-06-30 Fischman Reuben S. System and method for decision analysis and resolution

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007124057A (ja) * 2005-10-25 2007-05-17 Ntt Communications Kk ネットワーク障害部位特定装置および方法
JP4612525B2 (ja) * 2005-10-25 2011-01-12 エヌ・ティ・ティ・コミュニケーションズ株式会社 ネットワーク障害部位特定装置および方法
JP2007249883A (ja) * 2006-03-20 2007-09-27 Fujitsu Ltd 障害解析装置及びプログラム
US8095819B2 (en) 2007-06-06 2012-01-10 Nec Corporation Communication network failure cause analysis system, failure cause analysis method, and failure cause analysis program
WO2008149975A1 (ja) * 2007-06-06 2008-12-11 Nec Corporation 通信網の障害原因分析システムと障害原因分析方法、及び障害原因分析用プログラム
JP5459608B2 (ja) * 2007-06-06 2014-04-02 日本電気株式会社 通信網の障害原因分析システムと障害原因分析方法、及び障害原因分析用プログラム
US8775461B2 (en) 2008-05-08 2014-07-08 Nec Corporation Case search system, case database, case search apparatus, case search method, and program
JP2010072834A (ja) * 2008-09-17 2010-04-02 Fujitsu Ltd 障害対処プログラム及び障害対処装置
JP2010161713A (ja) * 2009-01-09 2010-07-22 Fujitsu Ltd ネットワーク監視装置
WO2010109673A1 (ja) * 2009-03-24 2010-09-30 株式会社日立製作所 管理システム及び情報処理システム
US8369227B2 (en) 2009-03-24 2013-02-05 Hitachi, Ltd. Management system and information processing system
JP2012014619A (ja) * 2010-07-05 2012-01-19 Hitachi Ltd 計算機システム及びリスク診断方法
JP2012156641A (ja) * 2011-01-24 2012-08-16 Nippon Telegr & Teleph Corp <Ntt> ネットワーク監視装置及び方法及びプログラム
JP2012199928A (ja) * 2012-04-18 2012-10-18 Hitachi Ltd 管理システム及び情報処理システム
WO2019116418A1 (ja) 2017-12-11 2019-06-20 日本電気株式会社 障害分析装置、障害分析方法および障害分析プログラム
US11586981B2 (en) 2017-12-11 2023-02-21 Nec Corporation Failure analysis device, failure analysis method, and failure analysis program
JP2021087222A (ja) * 2019-11-30 2021-06-03 華為技術有限公司Huawei Technologies Co.,Ltd. 故障根本原因決定方法及び装置並びにコンピュータ記憶媒体
US11362884B2 (en) 2019-11-30 2022-06-14 Huawei Technologies Co., Ltd. Fault root cause determining method and apparatus, and computer storage medium
JP7108674B2 (ja) 2019-11-30 2022-07-28 華為技術有限公司 故障根本原因決定方法及び装置並びにコンピュータ記憶媒体
CN113328898A (zh) * 2021-08-02 2021-08-31 中国人民解放军国防科技大学 一种具有自主学习能力的故障诊断方法和系统
CN113328898B (zh) * 2021-08-02 2021-11-09 中国人民解放军国防科技大学 一种具有自主学习能力的故障诊断方法和系统
WO2024057531A1 (en) * 2022-09-16 2024-03-21 Rakuten Mobile, Inc. System, method, and medium for proactive monitoring of a network

Also Published As

Publication number Publication date
GB2412271A (en) 2005-09-21
JP4445300B2 (ja) 2010-04-07
GB2412271B (en) 2006-12-20
US20050216785A1 (en) 2005-09-29
US7415637B2 (en) 2008-08-19
GB0421326D0 (en) 2004-10-27

Similar Documents

Publication Publication Date Title
JP4445300B2 (ja) ネットワーク障害推定方法及びネットワーク障害推定装置
US5771274A (en) Topology-based fault analysis in telecommunications networks
US6907549B2 (en) Error detection in communication systems
US5946373A (en) Topology-based fault analysis in telecommunications networks
KR101418229B1 (ko) 서보 제어 장치의 이상 진단 장치 및 이상 진단 시스템
CN102473129A (zh) 输出表示与故障的根本原因对应的恢复方法的信息的管理系统
JP2011076292A (ja) 取得可能な機器情報に応じた障害原因解析ルールの設計方法及び計算機
JP5061374B2 (ja) 機器保守システムおよび機器保守方法、障害推定装置
CN106383760A (zh) 一种计算机故障管理方法及装置
JP6280862B2 (ja) イベント分析システムおよび方法
JP2010049551A (ja) 障害監視装置および障害監視方法
Li et al. An intelligent framework for timely, accurate, and comprehensive cloud incident detection
JP6837017B2 (ja) 作業手順提示装置及び作業手順提示方法、並びに、自動制御装置及び自動制御方法
JP2004320267A (ja) 障害通報装置および障害通報方法
JP5505966B2 (ja) 障害管理システム及び方法
JP2009296531A (ja) 監視装置
JP2022083474A (ja) 保全リコメンドシステム
JP5962367B2 (ja) フォールトツリー生成プログラム
JP5651996B2 (ja) 情報処理装置、監視プログラムおよび監視方法
JP5987581B2 (ja) Ft計算支援プログラム、ft計算支援方法及びft計算支援装置
Ricker et al. On the construction of modular observers and diagnosers for discrete-event systems
JP5964777B2 (ja) 優先復旧設備決定装置、優先復旧設備決定方法、プログラムおよび優先復旧設備決定システム
KR20010064805A (ko) 통신망의 고장회선 상세연결내역 추출 방법
Grossglauser et al. Falcon: Fault management via alarm warehousing and mining
JP5068774B2 (ja) ネットワーク監視装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090203

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090402

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090825

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091118

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20091203

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100105

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100115

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130122

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130122

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140122

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees