JP4612525B2 - ネットワーク障害部位特定装置および方法 - Google Patents

ネットワーク障害部位特定装置および方法 Download PDF

Info

Publication number
JP4612525B2
JP4612525B2 JP2005310555A JP2005310555A JP4612525B2 JP 4612525 B2 JP4612525 B2 JP 4612525B2 JP 2005310555 A JP2005310555 A JP 2005310555A JP 2005310555 A JP2005310555 A JP 2005310555A JP 4612525 B2 JP4612525 B2 JP 4612525B2
Authority
JP
Japan
Prior art keywords
failure
probability
suspected
network
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2005310555A
Other languages
English (en)
Other versions
JP2007124057A (ja
Inventor
雄一 池尻
誠 栗原
新 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Communications Corp
Original Assignee
NTT Communications Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Communications Corp filed Critical NTT Communications Corp
Priority to JP2005310555A priority Critical patent/JP4612525B2/ja
Publication of JP2007124057A publication Critical patent/JP2007124057A/ja
Application granted granted Critical
Publication of JP4612525B2 publication Critical patent/JP4612525B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Description

本発明は、通信網であるネットワーク内の障害部位を特定する装置および方法に関する。
ネットワークにおける従来の障害監視システムでは、例えばSNMPを利用したTrap受信、SNMPやRMONなどのMIB、その他のリソース情報の変化などをトリガにして、ネットワークの保守者に対し、ネットワークの状態変化が警報として示される。
ネットワークの状態変化は、多くの揚合、ネットワークを構成する要素(ノード、リンク、シグナリングなど)の障害を起因としている。保守者は、障害監視システムによって示された警報から、その状態変化を起こした真の原因(障害部位)を探り当てる必要がある。
しかし、障害監視システムによって示された警報が、そのまま真の障害部位を表しているとは限らない。また、一つの障害事象によって多数の警報が同時あるいは順次に障害監視システムによって示されること多く、保守者には、真の障害部位を特定するために一般的に非常に高度なスキルが要求される。
従来の障害監視システムでは、保守者の真の障害部位の特定を支援するため、多数発生する警報に対し、重み付けなどを用いたフィルタリング、相関関係を利用したマスク処理などの固定的なルール(if・thenルール)を適用し、障害部位の特定の省力化及び迅速化を図っている(例えば特許文献1参照。)。
特開2004−363946号公報
従来の固定的なルールに基づく障害部位の特定を行っている場合、新しい障害パターンや障害の起こるタイミングの差異による警報の障害監視システムへの到着遅延などによって、予め決めておいた固定的なルールに事象(障害)が当てはまらない場合がある。特に、複数箇所の障害が同時に発生した場合は、その全てのパターンを固定的にルール化しておくことは非常に困難と考えられる。その場合、障害部位の特定を誤る、障害部位の特定が不可能になるなどの可能性がある。また、障害部位を特定するために、必要な警報を全て受信するまで待機することが必要となる場合がある。このような場合、最終的に障害部位を特定するまでの時間が長くなる。
また、爾後において上記の新たな障害パターンを正確に検知することができるようにするためには、その障害パターンが人手によって検知された後、以降の検知を自動化するべく、固定的なルールの変更・登録を手動によって行う必要があり、固定的なルールのデータベース(ルールベース)の構築に非常に時間がかかる。
本発明は、上述の問題点に鑑みてなされたものであり、固定的なルールに拠ることなく、固定的なルールに当てはまらない障害が発生してもネットワーク上の障害部位を特定することができるネットワーク障害部位特定装置および方法を提供することが目的である。
上記課題を解決するために、本発明では、次のようにしてネットワーク障害部位の特定を行う。即ち、本発明のネットワーク障害部位特定装置は、ネットワークと通信可能に接続されており、記憶手段に、ネットワーク管理に利用可能な情報であるネットワーク管理情報の警報種別に対応した障害被疑箇所の確率値を与える障害被疑箇所確率マトリックステーブルと、障害被疑箇所の障害確率を与える障害被疑箇所確率テーブルと、障害確率との大小判定に用いる閾値とを記憶している。そして、受信手段がネットワークから上記ネットワーク管理情報を受信すると、確率マトリックステーブル検索手段が、障害被疑箇所確率マトリックステーブルを検索して、ネットワーク管理情報の警報種別に対応した障害被疑箇所の確率値を取得する。さらに、確率テーブル更新手段が、確率マトリックステーブル検索手段によって取得された障害被疑箇所の確率値および障害被疑箇所確率テーブルにおける当該障害被疑箇所の障害確率を、当該確率値が0の場合は障害確率を低下させ、当該確率値が0以外の場合は障害確率を増大させる関数に力して、障害被疑箇所の障害確率を新たに算出し、障害被疑箇所確率テーブルを更新する。障害部位特定手段は、確率テーブル更新手段によって更新された障害被疑箇所確率テーブルにおける障害被疑箇所の障害確率と閾値との大小判定によって、障害被疑箇所の中から障害部位を特定する。
このように、固定的なルールに拠るのではなく、警報種別と障害被疑箇所を確率で関連付けた障害被疑箇所確率マトリックステーブルを基礎として、障害被疑箇所の障害確率を与える障害被疑箇所確率テーブルの障害確率を警報種別を受信するたびに更新して、障害部位を確率的に特定する。
本発明によれば、固定的なルールに拠るのではなく、警報種別と障害被疑箇所を確率で関連付けた障害被疑箇所確率マトリックステーブルを基礎として、障害被疑箇所の障害確率を与える障害被疑箇所確率テーブルの障害確率を警報種別を受信するたびに更新して、障害部位を確率的に特定するので、固定的に全ての起こりうる障害パターンを予めルールベースとして定義しておく必要がなく、また、新しい障害パターンの発生においても障害部位の特定を行える。
《各実施形態の共通事項》
〈ネットワーク〉
この明細書においては説明の便宜から、本発明であるネットワーク障害部位特定装置が障害部位特定の対象とするネットワークを、プロトコル・スタックがTCP/IPであるネットワーク(以下、「TCP/IPネットワーク」という。)とする。なお、ネットワークをTCP/IPネットワークに限定する趣旨のものではなく、IPX/SPXネットワークや、OSIに準拠したネットワークなどでもよい。
TCP/IPネットワーク上のノードの配置やリンクの構成などは、公知のものとして種々の形態があり、いずれにも限定されない。
管理プロトコルを利用したTCP/IPネットワークの監視には、SNMPを利用したTrap受信、syslogサーバで受信できるルータなどのノードから送信されるsyslog情報、プロアクティブなネットワーク監視〔例えばping、tracert/traceroute、MPLS網におけるLSP pingなどを用いてネットワークの状態を取得する。〕、MIBなどのリソース情報の変化という情報、ルータなどのノードにログインしてコマンドを入力することによって得られるコマンドライン出力などが利用できる。要するに、およそネットワーク管理に利用できる情報であれば、その情報の種類に格別の限定はない。
各実施形態のネットワーク障害部位特定装置(A)は、このようなネットワーク管理に利用できる情報(以下、「ネットワーク管理情報」という。)をTCP/IPネットワークから受信し、ネットワーク管理情報の警報種別を判定するとする。但し、本発明のネットワーク障害部位特定装置・方法では、例えば既存公知のSNMPマネージャに規定されている警報検知・通知機能を利用して、SNMPマネージャが通知した警報種別を用いて障害部位を特定する構成とすることも可能である。
ここで警報種別とは、ネットワーク管理情報が障害の発生・継続を知らせる情報であるか否かの別、さらに、ネットワーク管理情報が障害の発生・継続を知らせる情報である場合には、ネットワーク管理情報の種類である。
受信したネットワーク管理情報が障害の発生・継続を知らせる情報ではない場合、このネットワーク管理情報の警報種別は「通知」となる。受信したネットワーク管理情報が障害の発生・継続を知らせる情報である場合、このネットワーク管理情報の警報種別は「警報」となる。一般的に「警報」には、トラフィック障害やシグナリング(呼制御)エラーなどの障害や「警報」を発したノードなどに応じて複数の種類がある。
<ネットワーク障害部位特定装置構成>
図1は、ネットワーク障害部位特定装置(A)のハードウェア構成を例示した構成ブロック図である。
図1に例示するように、ネットワーク障害部位特定装置(A)は、キーボードやポインティングデバイスなどが接続可能な入力部(11)、ディスプレイなどが接続可能な出力部(12)、ネットワーク障害部位特定装置(A)外部と通信可能な通信装置(例えばモデム)が接続可能な通信部(13)、CPU(14)〔キャッシュメモリなどを備えていてもよい。〕、メモリであるRAM(15)、ROM(16)やハードディスクなどである外部記憶装置(17)並びにこれらの入力部(11)、出力部(12)、通信部(13)、MPU(14)、RAM(15)、ROM(16)、外部記憶装置(17)間のデータのやり取りが可能なように接続するバス(18)などを備えている。
ネットワーク障害部位特定装置(A)の外部記憶装置(17)には、本発明におけるネットワーク障害部位特定処理を可能にするためのプログラムおよびこのプログラムの処理において必要となるデータなどが保存記憶されている。また、これらのプログラムの処理によって得られるデータなどは、RAM(15)などに適宜に保存記憶される。
外部記憶装置(17)には、警報種別に対応した各障害被疑箇所の確率値を与える障害被疑箇所確率マトリックステーブル、各障害被疑箇所の障害確率を与える障害被疑箇所確率テーブル、特定された障害部位が複数ある場合に、複数の特定障害部位間の優劣等価関係から特定障害部位をさらに絞り込むことを可能にするための障害被疑箇所相関テーブル、ネットワーク管理情報を受信した場合に、ネットワーク管理情報の警報種別に応じて実行するべきアクションの種類を定義したアクションルールテーブルおよび障害確率との大小判定に用いる閾値が記憶されている。
ここでテーブルとは、各項目間の値を与える2次元配列形式のデータ集合である。アクションとは、例えばネットワーク機能の正常性を確認するためのプロアクティブアクション(pingやLSP pingなど)、SNMPコマンド、警報を発出したノードに対する応答確認や、ノードにアクセスし、あるコマンドを実行することによって追加のネットワーク管理情報を取得することなどであり、ネットワーク障害部位特定装置によって能動的に実行される。閾値とは、障害確率から障害部位を特定するために用いるものであり、予め固定値としてプログラムに記述するとしてもよいし、適宜に保守者などによって入力されることで外部記憶装置などのメモリに記憶されるようにしてもよい。
障害被疑箇所確率マトリックステーブルの一例を図2に示す。
障害被疑箇所確率マトリックステーブルでは、ある警報種別が警報1である場合、警報1が発せられることとなった原因を有する障害被疑箇所として、それがAである確率は0.8であることなどを示している。一つの警報種別に対しては、一般的に、複数の障害被疑箇所が候補に挙がるため、ある警報種別に対する障害被疑箇所は複数にわたる。ここで障害被疑箇所として示されるA〜Hは、TCP/IPネットワークの構成要素を示しており、例えば、障害被疑箇所Aは或るIPアドレスで特定されるルータ、障害被疑箇所Bは或るノード間のリンク、障害被疑箇所Cは或るコンピュータの通信制御部などを示している。
障害被疑箇所確率マトリックステーブルは、予めTCP/IPネットワークの保守者によって作成されて、外部記憶装置(17)に保存記憶される。障害被疑箇所確率マトリックステーブルは、保守者によって適宜に変更可能なものであり、障害被疑箇所確率マトリックステーブルの成分(確率値)の変更、項目(警報種別・障害被疑箇所)の追加などによって、TCP/IPネットワークの障害部位特定に適するように最適化される。
なお、警報種別が「通知」の場合、「通知」に対応する全ての障害被疑箇所の確率値は0である。
障害被疑箇所確率テーブルの一例を図3に示す。
障害被疑箇所確率テーブルでは、障害被疑箇所Aの障害確率は0.3であることなどを示している。障害被疑箇所確率テーブルの障害確率の初期値は、例えば全て0にしておく。
障害被疑箇所相関テーブルの一例を図4に示す。
障害被疑箇所相関テーブルは、複数の特定障害部位間の優劣等価関係、例えば吸収関係を示している。ここで吸収関係とは、ある障害が他の障害を通常随伴する場合で、前者の障害をもって特定すれば足りる関係のことをいう。なお、障害被疑箇所相関テーブルによる処理(マスキング)は、障害確率を変更するものではない。
図4を参照して具体的に説明すると、例えば特定障害部位がAとEであった場合、その吸収関係は、特定障害部位がAとEの項目が交差する障害被疑箇所相関テーブルの成分を検索すればよく、この場合の成分はAである。従って、特定障害部位がAとEであった場合、吸収関係から障害部位はAに特定される。また、特定障害部位がAとGであった場合、障害被疑箇所相関テーブルの成分は0(ゼロ)である。成分が0である場合、両者は吸収関係に無いこと(等価関係)を示しており、いずれか一方に特定されることなく、両者が障害部位として特定される。
アクションルールテーブルの一例を図5に示す。
アクションルールテーブルでは、ネットワーク管理情報の警報種別が「警報5」の場合、ネットワーク障害部位特定装置(A)が実行するアクションの種類は「アクションe」であることを示している。
なお、実行するべきアクションの数は、1つの場合もあるし、あるいは複数の場合もある。また、警報の種類によっては、アクションの種類が定義されておらずアクションを実行しない場合があってもよい。さらに、ネットワーク管理情報の警報種別が「通知」の場合には、通常、アクションの種類は定義されていない。
ネットワーク障害部位特定装置(A)では、外部記憶装置(17)に記憶されたプログラムとこのプログラムの処理に必要なデータが必要に応じてRAM(15)に読み込まれて、CPU(14)で解釈実行・処理される。その結果、CPU(14)が所定の機能(確率マトリックステーブル検索部、確率テーブル更新部、障害部位特定部、障害部位特定第2部、アクション判定実行制御部、アクション実行部、障害部位表示制御部、制御部)を実現することで、ネットワーク障害部位特定処理が実現される。
各実施形態でのネットワーク障害部位特定装置(A)は、説明の便宜から、前記プログラムがインストールされてネットワーク障害部位特定機能を有する、SNMPマネージャを実装したコンピュータとする。
《第1実施形態》
図6〜図8を参照しながら、第1実施形態におけるネットワーク障害部位特定処理について叙述的に説明する。
第1実施形態におけるTCP/IPネットワーク(1)の一例を模式図として図6に示す。TCP/IPネットワーク(1)は、複数のノード、例えばネットワーク障害部位特定装置(A)、コンピュータ(2)、ルータ(3)、ブリッジ(4)などがリンク(5)によって通信可能に接続されて構成されている。リンク(5)は、光ファイバなどの有線である場合も無線である場合もある。TCP/IPネットワーク(1)内でのノード間の具体的な通信方法や各ノードの機能などは公知のものであるから、詳細な説明を略する。
(ステップS1−ネットワーク管理情報の受信)
ネットワーク障害部位特定装置(A)は、TCP/IPネットワーク(1)から時々刻々とネットワーク管理情報を受信している。より具体的には、ネットワーク障害部位特定装置(A)は、TCP/IPネットワーク(1)の各ノードから、強制的ないし自律的に、あるいは、定期ないし不定期に送信されるネットワーク管理情報を時々刻々と受信する。このように、ネットワーク障害部位特定装置(A)は、障害が発生していない状態、障害の発生、障害の継続、もしくは、障害が回復した状態においても、ネットワーク管理情報を入力情報として受信する。
制御部(140)は、受信手段となる通信部(13)を介してネットワーク管理情報を受信すると、これを外部記憶装置(17)に保存記憶するとともに、ネットワーク障害部位特定処理を実行するべく、ネットワーク管理情報をRAM(15)に格納する。RAM(15)には、予め、外部記憶装置(17)に保存記憶された障害被疑箇所確率マトリックステーブル、障害被疑箇所確率テーブル(初期状態)閾値が格納されている。
(ステップS2−警報種別に対応した障害被疑箇所の確率値の取得)
確率マトリックステーブル検索部(141)は、ネットワーク管理情報の警報種別を判定して、この警報種別に対応する各障害被疑箇所の確率値を、障害被疑箇所確率マトリックステーブルを検索して取得する。なお、ネットワーク管理情報の警報種別の判定は、例えば既存公知のSNMPマネージャに規定されている警報検知と同様の方法で行われる。
(ステップS3−障害被疑箇所確率テーブルの更新)
続いて、確率テーブル更新部(142)は、ステップS2で取得した各障害被疑箇所の確率値および障害被疑箇所確率テーブルの各障害被疑箇所に対応した障害確率を重畳化関数の入力として、障害被疑箇所確率テーブルの各障害被疑箇所に対応した新たな障害確率を算出し、障害被疑箇所確率テーブルを更新する。このように更新することによって、ネットワーク管理情報の受信の度に、1つ前のネットワーク管理情報の受信によって更新された障害被疑箇所確率テーブルを更新することとなる。
重畳化関数の一例を示す。障害被疑箇所確率マトリックステーブルにおける警報種別Yに対応する障害被疑箇所Xの確率値をPxy、障害被疑箇所確率テーブルにおける障害被疑箇所Xの現在の障害確率をPx(i)、更新された新しい障害確率をPx(i+1)とする。このとき重畳化関数は、Pxyが0に等しくない場合、Px(i+1)を、PxyおよびPx(i)を用いて、Px(i+1)=(1-Px(i))×Pxy+Px(i)として算出し、Pxyが0に等しい場合、Px(i+1)を、Px(i)を用いて、Px(i+1)=Px(i)×Px(i)として算出する。
その他の重畳化関数の例としては、Pxyが0に等しくない場合、Px(i+1)を、PxyおよびPx(i)を用いて、Px(i+1)=Pxy+Px(i)〔但しPx(i+1)>1.0の場合は、Px(i+1)=1.0とする。〕として算出し、Pxyが0に等しい場合、Px(i+1)を、Px(i)を用いて、Px(i+1)=Px(i)×0.5〔但しPx(i+1)<αの場合は、Px(i+1)=0とする。ここでαは、適宜に定めた障害確率として十分に小さい値であり、例えば、0を除くPxyの最小値とする。図2の例で云えば、α=0.1となる。〕として算出する。
要するに、重畳化関数は、障害被疑箇所確率マトリックステーブルの確率値Pxyと現在の障害被疑箇所確率テーブルにおける障害確率Px(i)を利用して、Pxyが0の場合は障害確率Px(i+1)を低下させ、Pxyが0以外場合は障害確率Px(i+1)を増大させる関数である。
(ステップS4−障害確率と閾値との大小判定)
続いて、障害部位特定部(144)は、ステップS3で更新した障害被疑箇所確率テーブルを検索して、閾値と各障害被疑箇所の障害確率との大小判定を行う。閾値以上の障害確率を有する障害被疑箇所が存在しない場合には、以降の処理を中止し、ネットワーク管理情報の受信を起因とするステップS1の処理に戻る。
(ステップS5−障害部位の特定)
障害部位特定部(144)は、ステップS4において閾値以上の障害確率を有する障害被疑箇所が存在した場合には、閾値以上の障害確率を有する障害被疑箇所すべてを特定障害部位(第1特定障害部位と云うことにする。)として、この第1特定障害部位とその障害確率を得る。このようにして障害部位が特定されることになるが、特定された障害部位が複数となる場合があることに留意しなければならない。
(ステップS6−特定障害部位の表示)
続いて、障害部位表示制御部(145)は、例えば表示手段であるディスプレイにステップS5で特定された第1特定障害部位とその障害確率を表示する制御を行い、その結果、ディスプレイに第1特定障害部位とその障害確率が表示されて保守者に障害部位が通知される。
以上のように、ネットワーク障害部位特定装置は、障害が発生していない状態、あるいは障害が回復した状態においても、ネットワーク管理情報を入力情報として受信するから、重畳化関数の性質によって障害被疑箇所確率テーブルの収束が早まり、保守者に対して、迅速・正確に特定された障害部位を通知することができる。
なお、ネットワーク管理情報の警報種別が「通知」の場合、障害被疑箇所確率マトリックステーブルに定義された各障害被疑箇所の確率値を用いた障害被疑箇所確率テーブルの更新を行わず、それ以降の処理を中止し、ネットワーク管理情報の受信を起因とするステップS1以降の処理を行うようにしてもよい。この場合には、前回のネットワーク管理情報で更新された障害被疑箇所確率テーブルではなく、前回の「警報」で更新された障害被疑箇所確率テーブルを更新することになるから、過去の障害や障害部位が反映されるような学習的障害部位特定が行える。
《第2実施形態》
図9および図10を参照しながら、第2実施形態におけるネットワーク障害部位特定処理について叙述的に説明する。
第2実施形態は、第1実施形態の拡張的形態である。第2実施形態の要点は、第1実施形態のステップS5で特定された第1特定障害部位から、さらに特定障害部位を絞り込むことにある。従って、第1実施形態と同様の構成・機能などについては同じ符号を当てるなどして重複説明を略する。
なお、RAM(15)には、予め、外部記憶装置(17)に保存記憶された障害被疑箇所相関テーブルが格納されているとする。
ステップS1〜S5までの処理は、第1実施形態と同じである。
そこで、ステップS5の処理の後、ステップS7以降の処理を説明する。
(ステップS7−第1特定障害部位の個数を判定)
制御部(140)は、第1特定障害部位の個数が1つであるか否かを判定する。制御部(140)は、第1特定障害部位の個数が1つである場合には、ステップS6を実行するように制御する。制御部(140)は、第1特定障害部位の個数が複数である場合には、ステップS8を実行するように制御する。
(ステップS8−障害被疑箇所相関テーブルを用いたマスキング)
障害部位特定第2部(146)は、障害被疑箇所相関テーブルを検索して、ステップS5で特定した複数の第1特定障害部位の間で上記説明したマスキングを行い、その結果として特定された障害部位(第2特定障害部位と云うことにする。)とその障害確率を得る。
(ステップS9−特定障害部位の表示)
続いて、障害部位表示制御部(145)は、例えば表示手段であるディスプレイに第2特定障害部位とその障害確率を表示する制御を行い、その結果、ディスプレイにステップS8で特定された第2特定障害部位とその障害確率が表示されて保守者に障害部位が通知される。
このように、障害被疑箇所相関テーブルを使用することによって、不必要な第1特定障害部位をマスクして保守者に見せることなく、かつ複数の独立した障害が発生した場合でも、各々の障害部位を独立した障害として、別々に、かつ同時に特定することができる。
《第3実施形態》
図11および図12を参照しながら、第3実施形態におけるネットワーク障害部位特定処理について叙述的に説明する。
第3実施形態は、第1実施形態の拡張的形態である。第3実施形態の要点は、受信したネットワーク管理情報の警報種別が「警報」であった場合、TCP/IPネットワーク(1)に対して所定のアクションを実行する。
第3実施形態では、第1実施形態と同様の構成・機能などについては同じ符号を当てるなどして重複説明を略する。
なお、RAM(15)には、予め、外部記憶装置(17)に保存記憶されたアクションルールテーブルが格納されているとする。
ステップS1〜S6までの処理は、第1実施形態と同じである。
そこで、第1実施形態との差分である処理を説明する。この処理は、ステップS2〜S6と同様、ネットワーク管理情報の受信をトリガとして実行される。
(ステップS10−ネットワーク管理情報の警報種別の判定)
アクション判定実行制御部(147)は、ネットワーク管理情報の警報種別を判定する。なお、単に「警報」と「通知」の別だけでなく、「警報」の種類をも判定する。アクション判定実行制御部(147)は、警報種別が「警報」でない場合には、以降の処理を中止し、ネットワーク管理情報の受信を起因とするステップS1の処理に戻る。ただし、この場合の処理は、ステップS1〜S6の処理を妨げるものではない。アクション判定実行制御部(147)は、警報種別が「警報」である場合には、ステップS11を実行する。
(ステップS11−アクションの有無の判定)
アクション判定実行制御部(147)は、アクションルールテーブルを検索し、ステップS10で判定された警報の種類に対応してアクションの種類が定義されているか否かを判定する。アクション判定実行制御部(147)は、アクションの種類が定義されていない場合には、以降の処理を中止し、ネットワーク管理情報の受信を起因とするステップS1の処理に戻る。ただし、この場合の処理は、ステップS1〜S6の処理を妨げるものではない。アクション判定実行制御部(147)は、アクションの種類が定義されている場合には、アクションルールテーブルからアクションの種類を取得して、ステップS12を実行する。
(ステップS12−アクションの実行制御および実行)
アクション判定実行制御部(147)は、ステップS11で取得された種類のアクションを実行するように、ネットワーク障害部位特定装置(A)のアクション実行部(148)を制御する。アクション実行部(148)は、TCP/IPネットワーク(1)に対して、より具体的には例えば警報を発出したノードに対してアクションを実行する。なお、TCP/IPネットワーク(1)に対するアクション(例えばSNMPコマンド)の実行処理は公知の技術によって達成されるから、アクション実行部(148)の詳細な説明を略する。
このアクションに対するノードなどからのレスポンスは、ネットワーク管理情報としてネットワーク障害部位特定装置(A)に受信される。
既述の各実施形態のように、重畳化関数を通した障害被疑箇所確率テーブルの更新に特徴の一つがあるが、障害被疑箇所確率テーブルの正確かつ迅速な収束が、障害部位特定処理の正確性、性能に大きく影響する。また、ネットワーク管理情報の欠如やネットワーク管理情報受信の時間タイミングのずれによる障害被疑箇所確率テーブルの収束の遅延を避ける必要もある。そこで、その正確性および性能を向上させるため、第3実施形態では、ネットワークからネットワーク管理情報を受信すると、障害被疑箇所確率テーブルを更新すると同時に、予め定義されたアクションルールテーブルを検索することによって、ネットワークに対して能動的なアクションを実行する。これによって、ネットワーク障害部位特定装置への入力情報(ネットワーク管理情報)を増加させ、障害被疑箇所確率テーブルの早い収束を促すこととなる。
《第4実施形態》
第4実施形態は、上記第2実施形態および上記第3実施形態の融合形態である。つまり、第2実施形態におけるステップS1〜S9の処理に加えて、第3実施形態におけるステップS10〜S12の処理を行うものであり、各処理とこの処理を実現する機能は既に上記説明したとおりである。従って、図13および図14に機能構成と処理フローを示すに留め、各機能・処理の詳細説明は略することにする。
《上記各実施形態の変形実施形態》
上記各実施形態では、確率マトリックステーブル検索部(141)やアクション判定実行制御部(147)がネットワーク管理情報の警報種別を判定していたが、変形実施形態では、SNMPマネージャがネットワーク管理情報から警報種別を判定して障害検知をし、この警報種別を本発明のネットワーク障害部位特定装置に通知する。
具体例として、SNMPマネージャが実装されたコンピュータ(以下、単に「SNMPマネージャ」という。)およびネットワーク障害部位特定装置がTCP/IPネットワーク上でリンクを介して通信可能に接続されているとすれば、前記通知は、SNMPマネージャからネットワーク障害部位特定装置に対する警報種別の送信という形式で行われる。ネットワーク障害部位特定装置は、この警報種別をTCP/IPネットワークから受信し(より正確には、SNMPマネージャが発信元である。)、外部記憶装置に保存記憶する。外部記憶装置から警報種別を読み込んで用いることによって、ネットワーク障害部位特定装置の確率マトリックステーブル検索部(141)やアクション判定実行制御部(147)は、自らが警報種別の判定をすることなく、所定の機能を果たすことができるようになる。
この変形実施形態を、上記第1実施形態に対応する場合を例として、図15および図16に示す。
ここでは、第1実施形態と異なる機能・処理について説明する。なお、説明の便宜から、この変形実施形態におけるネットワーク障害部位特定装置(A)は、ネットワーク障害部位特定機能を固有的に有するコンピュータであるとする。
(ステップS1a−警報種別の受信)
変形実施形態におけるネットワーク障害部位特定装置(A)は、受信手段となる通信部(13)を介してSNMPマネージャから、警報種別を時々刻々と受信する。制御部(140)は、警報種別を受信すると、これを外部記憶装置(17)に保存記憶するとともに、ネットワーク障害部位特定処理を実行するべく、警報種別をRAM(15)に格納する。
(ステップS2a−警報種別に対応した障害被疑箇所の確率値の取得)
確率マトリックステーブル検索部(141a)は、警報種別に対応する障害被疑箇所の確率値を、障害被疑箇所確率マトリックステーブルを検索して取得する。
本発明であるネットワーク障害部位特定装置・方法は、上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。例えば、ネットワークを通信用ネットワークと監視用ネットワークとで異なるセグメントとし、監視用ネットワークに本発明のネットワーク障害部位特定装置を備え、この監視用ネットワークを通信用ネットワークに(ルータなどを介して)接続することで、通信用ネットワークを監視する構成とすることもできる。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、可能であるならば、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。また、上記各形態では、コンピュータ上で所定のプログラムを実行させることにより、ネットワーク障害部位特定装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
本発明は、ネットワークの障害部位の特定に好適である。なお、本発明は、日本国総務省委託研究開発「次世代バックボーンに関する研究開発」の一環において創出されたものであり、既存のネットワークのみならず次世代のIP網などにおける障害部位特定にも有用である。
ネットワーク障害部位特定装置(A)のハードウェア構成を例示した構成ブロック図。 障害被疑箇所確率マトリックステーブルの一例を示す図。 障害被疑箇所確率テーブルの一例を示す図。 障害被疑箇所相関テーブルの一例を示す図。 アクションルールテーブルの一例を示す図。 TCP/IPネットワーク(1)の構成例を示す図。 第1実施形態におけるネットワーク障害部位特定装置(A)の機能構成を例示した機能ブロック図。 第1実施形態のネットワーク障害部位特定装置(A)における処理フローを示す図。 第2実施形態におけるネットワーク障害部位特定装置(A)の機能構成を例示した機能ブロック図。 第2実施形態のネットワーク障害部位特定装置(A)における処理フローを示す図。 第3実施形態におけるネットワーク障害部位特定装置(A)の機能構成を例示した機能ブロック図。 第3実施形態のネットワーク障害部位特定装置(A)における処理フローを示す図。 第4実施形態におけるネットワーク障害部位特定装置(A)の機能構成を例示した機能ブロック図。 第4実施形態のネットワーク障害部位特定装置(A)における処理フローを示す図。 変形実施形態におけるネットワーク障害部位特定装置(A)の機能構成を例示した機能ブロック図。 変形実施形態のネットワーク障害部位特定装置(A)における処理フローを示す図。
符号の説明
A ネットワーク障害部位特定装置
1 TCP/IPネットワーク
2 コンピュータ
3 ルータ
4 ブリッジ
5 リンク
141 確率マトリックステーブル検索部
141a 確率マトリックステーブル検索部
142 確率テーブル更新部
144 障害部位特定部
145 障害部位表示制御部
146 障害部位特定第2部
147 アクション判定実行制御部
148 アクション実行部

Claims (4)

  1. ネットワークと通信可能に接続され、ネットワークに発生した障害の部位を特定するネットワーク障害部位特定装置であって、
    ネットワーク管理に利用可能な情報であるネットワーク管理情報の警報種別に対応した障害被疑箇所の確率値を与える障害被疑箇所確率マトリックステーブルと、障害被疑箇所の障害確率を与える障害被疑箇所確率テーブルと、障害確率との大小判定に用いる閾値とを記憶する記憶手段と、
    ネットワークから上記ネットワーク管理情報を受信する受信手段と、
    上記障害被疑箇所確率マトリックステーブルを検索して、上記ネットワーク管理情報の警報種別に対応した障害被疑箇所の確率値を取得する確率マトリックステーブル検索手段と、
    確率マトリックステーブル検索手段によって取得された障害被疑箇所の確率値および障害被疑箇所確率テーブルにおける当該障害被疑箇所の障害確率を、当該確率値が0の場合は障害確率を低下させ、当該確率値が0以外の場合は障害確率を増大させる関数に力して、障害被疑箇所の障害確率を新たに算出し、障害被疑箇所確率テーブルを更新する確率テーブル更新手段と、
    確率テーブル更新手段によって更新された障害被疑箇所確率テーブルにおける障害被疑箇所の障害確率と上記閾値との大小判定によって、障害被疑箇所の中から障害部位を特定する障害部位特定手段と
    を備えたことを特徴とするネットワーク障害部位特定装置。
  2. 上記記憶手段は、
    上記障害部位特定手段によって特定された障害部位間の優劣等価関係を与える障害被疑箇所相関テーブルも記憶し、
    上記障害部位特定手段によって特定された障害部位が複数ある場合に、上記障害被疑箇所相関テーブルを検索して、上記障害部位特定手段によって特定された障害部位の中から障害部位を絞り込んで特定する障害部位特定第2手段を備えた
    ことを特徴とする請求項1に記載のネットワーク障害部位特定装置。
  3. 上記記憶手段は、
    上記警報種別に応じて実行するべきアクションの種類を定義したアクションルールテーブルも記憶し、
    上記受信手段がネットワークからネットワーク管理情報を受信すると、上記アクションルールテーブルを検索して、当該ネットワーク管理情報の警報種別に対応したアクションが定義されているか否かを判定し、定義されている場合には、当該アクションを実行する制御を行うアクション判定実行制御手段と、
    アクション判定実行制御手段による制御を受けて、ネットワークに対してアクションを実行するアクション実行手段とを備えた
    ことを特徴とする請求項1または請求項2に記載のネットワーク障害部位特定装置。
  4. ネットワークに発生した障害の部位を特定するネットワーク障害部位特定方法であって、
    記憶手段は、ネットワーク管理に利用可能な情報であるネットワーク管理情報の警報種別に対応した障害被疑箇所の確率値を与える障害被疑箇所確率マトリックステーブルと、障害被疑箇所の障害確率を与える障害被疑箇所確率テーブルと、障害確率との大小判定に用いる閾値とを記憶し、
    受信手段が、ネットワークから上記ネットワーク管理情報を受信する受信ステップと、
    確率マトリックステーブル検索手段が、記憶手段に記憶された障害被疑箇所確率マトリックステーブルを検索して、受信ステップにおいて受信されたネットワーク管理情報の警報種別に対応した障害被疑箇所の確率値を取得する確率マトリックステーブル検索ステップと、
    確率テーブル更新手段が、確率マトリックステーブル検索ステップにおいて取得された障害被疑箇所の確率値および記憶手段に記憶された障害被疑箇所確率テーブルにおける当該障害被疑箇所の障害確率を、当該確率値が0の場合は障害確率を低下させ、当該確率値が0以外の場合は障害確率を増大させる関数に力して、障害被疑箇所の障害確率を新たに算出し、障害被疑箇所確率テーブルを更新する確率テーブル更新ステップと、
    障害部位特定手段が、確率テーブル更新ステップにおいて更新された障害被疑箇所確率テーブルにおける障害被疑箇所の障害確率と記憶手段に記憶された閾値との大小判定によって、障害被疑箇所の中から障害部位を特定する障害部位特定ステップと
    を有することを特徴とするネットワーク障害部位特定方法。
JP2005310555A 2005-10-25 2005-10-25 ネットワーク障害部位特定装置および方法 Active JP4612525B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005310555A JP4612525B2 (ja) 2005-10-25 2005-10-25 ネットワーク障害部位特定装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005310555A JP4612525B2 (ja) 2005-10-25 2005-10-25 ネットワーク障害部位特定装置および方法

Publications (2)

Publication Number Publication Date
JP2007124057A JP2007124057A (ja) 2007-05-17
JP4612525B2 true JP4612525B2 (ja) 2011-01-12

Family

ID=38147442

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005310555A Active JP4612525B2 (ja) 2005-10-25 2005-10-25 ネットワーク障害部位特定装置および方法

Country Status (1)

Country Link
JP (1) JP4612525B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105721180A (zh) * 2014-12-02 2016-06-29 中兴通讯股份有限公司 一种实现故障定位的方法和服务器

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4633011B2 (ja) * 2006-07-04 2011-02-16 中国電力株式会社 故障部位特定方法、情報処理装置及びプログラム
US8112378B2 (en) * 2008-06-17 2012-02-07 Hitachi, Ltd. Methods and systems for performing root cause analysis
KR101027242B1 (ko) 2008-12-24 2011-04-07 포항공과대학교 산학협력단 공정 제어 네트워크에서의 장애 예측 방법 및 장치
CN101594192B (zh) 2009-06-19 2012-12-19 中兴通讯股份有限公司 一种信号处理设备和光接口板的在线故障检测方法和装置
JP5261510B2 (ja) * 2011-01-24 2013-08-14 日本電信電話株式会社 ネットワーク監視装置及び方法及びプログラム
JP6378653B2 (ja) * 2015-07-30 2018-08-22 日本電信電話株式会社 サービス影響原因推定装置、サービス影響原因推定プログラム、及びサービス影響原因推定方法
JP6549959B2 (ja) * 2015-10-02 2019-07-24 株式会社日立製作所 障害切り分け方法および障害切り分けを行う管理サーバ
JP6463703B2 (ja) * 2016-03-24 2019-02-06 日本電信電話株式会社 ネットワーク監視装置およびネットワーク監視方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02200048A (ja) * 1989-01-30 1990-08-08 Nippon Telegr & Teleph Corp <Ntt> 故障探索支援処理システム
JPH02311040A (ja) * 1989-05-26 1990-12-26 Nec Corp 障害判定方式
JPH0397330A (ja) * 1989-09-11 1991-04-23 Hitachi Ltd ネツトワーク障害診断方式
JPH04177930A (ja) * 1990-11-13 1992-06-25 Nec Corp アラーム判定方式
JPH05114899A (ja) * 1991-10-22 1993-05-07 Hitachi Ltd ネツトワーク障害診断方式
JPH05260049A (ja) * 1992-03-13 1993-10-08 Fujitsu Ltd ネットワークシステムにおける故障管理方法
JPH09259061A (ja) * 1996-03-19 1997-10-03 Denso Corp システムの信頼性評価装置
JPH10308736A (ja) * 1997-05-09 1998-11-17 Hitachi Ltd 分散型ネットワーク管理システム
JP2002032878A (ja) * 2000-07-19 2002-01-31 Sumitomo Electric Ind Ltd 障害通知システム
JP2002261704A (ja) * 2001-03-06 2002-09-13 Hitachi Kokusai Electric Inc 故障診断システム
JP2003179601A (ja) * 2001-12-10 2003-06-27 Hitachi Ltd 伝送ネットワークシステム、伝送ネットワーク監視システム、および、故障点診断方法
JP2005167347A (ja) * 2003-11-28 2005-06-23 Fujitsu Ltd ネットワーク監視プログラム、ネットワーク監視方法、およびネットワーク監視装置
JP2005269238A (ja) * 2004-03-18 2005-09-29 Fujitsu Ltd ネットワーク障害推定方法及びネットワーク障害推定装置

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02200048A (ja) * 1989-01-30 1990-08-08 Nippon Telegr & Teleph Corp <Ntt> 故障探索支援処理システム
JPH02311040A (ja) * 1989-05-26 1990-12-26 Nec Corp 障害判定方式
JPH0397330A (ja) * 1989-09-11 1991-04-23 Hitachi Ltd ネツトワーク障害診断方式
JPH04177930A (ja) * 1990-11-13 1992-06-25 Nec Corp アラーム判定方式
JPH05114899A (ja) * 1991-10-22 1993-05-07 Hitachi Ltd ネツトワーク障害診断方式
JPH05260049A (ja) * 1992-03-13 1993-10-08 Fujitsu Ltd ネットワークシステムにおける故障管理方法
JPH09259061A (ja) * 1996-03-19 1997-10-03 Denso Corp システムの信頼性評価装置
JPH10308736A (ja) * 1997-05-09 1998-11-17 Hitachi Ltd 分散型ネットワーク管理システム
JP2002032878A (ja) * 2000-07-19 2002-01-31 Sumitomo Electric Ind Ltd 障害通知システム
JP2002261704A (ja) * 2001-03-06 2002-09-13 Hitachi Kokusai Electric Inc 故障診断システム
JP2003179601A (ja) * 2001-12-10 2003-06-27 Hitachi Ltd 伝送ネットワークシステム、伝送ネットワーク監視システム、および、故障点診断方法
JP2005167347A (ja) * 2003-11-28 2005-06-23 Fujitsu Ltd ネットワーク監視プログラム、ネットワーク監視方法、およびネットワーク監視装置
JP2005269238A (ja) * 2004-03-18 2005-09-29 Fujitsu Ltd ネットワーク障害推定方法及びネットワーク障害推定装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105721180A (zh) * 2014-12-02 2016-06-29 中兴通讯股份有限公司 一种实现故障定位的方法和服务器
CN105721180B (zh) * 2014-12-02 2019-06-07 中兴通讯股份有限公司 一种实现故障定位的方法和服务器

Also Published As

Publication number Publication date
JP2007124057A (ja) 2007-05-17

Similar Documents

Publication Publication Date Title
JP4612525B2 (ja) ネットワーク障害部位特定装置および方法
US10111208B2 (en) System and method for performing security management operations in network having non-static collection of nodes
EP3167571B1 (en) Network topology estimation based on event correlation
US6694364B1 (en) System and method for suppressing out-of-order side-effect alarms in heterogeneous integrated wide area data and telecommunication networks
US20100023604A1 (en) Method and system for providing operator guidance in network and systems management
JP4491308B2 (ja) ネットワーク監視方法及びその装置
JP4598065B2 (ja) 監視シミュレーション装置,方法およびそのプログラム
CN111030873A (zh) 一种故障诊断方法及装置
US11349703B2 (en) Method and system for root cause analysis of network issues
CN102710450B (zh) 一种故障定位方法及装置
CN102638375A (zh) 一种网络故障识别方法及装置
CN101188530B (zh) OSPF路由监测系统的IPv4和IPv6网络故障检测及定位方法和装置
CN103607296A (zh) 一种虚拟机故障处理方法和设备
CN107566036A (zh) 自动检测通信中的错误并且自动确定该错误的源
CN113949649B (zh) 故障检测协议的部署方法、装置、电子设备及存储介质
CN102143011B (zh) 一种实现网络保护的装置及方法
US20040158780A1 (en) Method and system for presenting neighbors of a device in a network via a graphical user interface
CN113055203B (zh) Sdn控制平面的异常恢复方法及装置
JP3416604B2 (ja) ネットワーク監視装置
CN108616423B (zh) 一种脱网设备监测方法以及装置
JP2014033242A (ja) 通信システムおよびネットワーク障害検出方法
JP2004336658A (ja) ネットワーク監視方法およびネットワーク監視装置
JP4238834B2 (ja) ネットワーク管理システムおよびネットワーク管理プログラム
CN112787868A (zh) 一种信息同步的方法和装置
JP7498128B2 (ja) 監視装置、障害検知方法および障害検知プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080611

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100506

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100511

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100712

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101005

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101015

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131022

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4612525

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250