JP4668117B2 - ネットワーク管理システムおよび方法 - Google Patents

ネットワーク管理システムおよび方法 Download PDF

Info

Publication number
JP4668117B2
JP4668117B2 JP2006124612A JP2006124612A JP4668117B2 JP 4668117 B2 JP4668117 B2 JP 4668117B2 JP 2006124612 A JP2006124612 A JP 2006124612A JP 2006124612 A JP2006124612 A JP 2006124612A JP 4668117 B2 JP4668117 B2 JP 4668117B2
Authority
JP
Japan
Prior art keywords
diagnostic
knowledge
wide area
area network
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006124612A
Other languages
English (en)
Other versions
JP2007300249A (ja
Inventor
敦 寺内
修 明石
充 丸山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2006124612A priority Critical patent/JP4668117B2/ja
Publication of JP2007300249A publication Critical patent/JP2007300249A/ja
Application granted granted Critical
Publication of JP4668117B2 publication Critical patent/JP4668117B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Computer And Data Communications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Description

本発明は単一組織等が管理する自律システム(Autonomous System、AS)が複数相互接続された広域網(例えばインターネット)において、広域網で発生した障害の検知と解析を自動的に行うことにより広域網の安定運用を可能とするネットワーク管理システムおよび方法に関するものである。
インターネットは複数のルータ、LAN、より広域では複数のAS(Autonomous System)から成る広がりを持つ分散システムとして考えられる。このように中央集権的な管理機構を持たないインターネットにおいては、その管理、制御は個々のネットワークを管理する組織の管理者によって行われている。しかし、AS間の経路障害などの広範囲に渡る問題への対処や管理制御においては単一の箇所からの観測のみでは原因およびその発生箇所を特定するのが非常に難しく複数のネットワークの管理者同士の協調が不可欠である。このような人間同士の協調は電話などのlegacyなメディアで行われることも多いため、時間とコストがかかり、結果として問題の解決を難しくしていた。
このような問題に対処するためにネットワーク上に配置された複数のコンピュータプログラム(以下、エージェント)の協調によりAS間経路障害の診断、検知を迅速に行う診断システム(以下、ENCORE(Inter-AS Diagnostic Ensemble System using Cooperative Reflector Agents))が提案されている(本出願人による特許文献1参照)。ENCORE中のエージェント(以下、ENCOREエージェント)は障害診断の手順などに関する診断知識を持ち、各ENCOREエージェントはその知識に基づき必要な情報の観測、他のENCOREエージェントとの協調などの動作を随時選択しながら、従来は人間同士の協調により行っていたAS間経路障害の診断を行う。
以下、前記ENCOREを例にして従来のエージェントを用いたネットワーク管理システムの動作の概略を説明する。
1.ネットワークの複数の地点にエージェントを配置する。ここで、実際のエージェントの配置はエージェントにより検出・診断すべき問題の種類やネットワークの構成によって異なる。例えばENCOREはインターネットの構成単位であるAS(Autonomous System)間での経路障害の診断を主な目的としているので各AS毎に少なくとも1つのエージェントを配置することを前提としている。そのため、ここでもAS毎にエージェントが配置されているものとして説明を行う。
2.各エージェントはネットワーク内のルータなどのネットワーク機器と適切に通信を行いネットワークの情報を定期的に収集する。例えば、AS間経路障害の診断のためには、AS間で経路情報の交換を実際に行っているルータと通信を行いAS間で伝搬されている経路情報の監視を行う。具体的にどの情報をどこから集めるかといった具体的な手順に関してはすべて診断知識あるいはエージェントの設定情報に含まれているものとする。
3.各エージェントは他のASに配置されているエージェントとネットワーク情報の交換を行うことがある。これは、分散システムであるインターネットにおいては、ある地点(AS)から観測できるネットワーク情報は部分的なものに限られる特性があるからである。例えばあるASから広報された経路情報は複数のASによって適宜修正をされながらインターネット全体に伝搬されていくが、このときどのASを通って伝搬されているか、別のASによって経路情報にどのような修正が施されているかは当該ASからは観測できないため、他ASのエージェントの観測結果を利用するほかない。前ステップと同様にどの情報をどのエージェントと交換するといった具体的な手順は診断知識あるいはエージェントの設定情報に含まれているものとする。
4.各エージェントは自分自身で収集したネットワーク情報の解析結果と診断知識に基づきネットワークにおいて何らかの障害が発生していないかを監視する。エージェントが障害や異常が発生していないと判定した場合はステップ2に戻りネットワーク情報の収集および解析を繰り返す。
5.ステップ4での解析の結果、ENCORE中のあるエージェントが何らかの障害の可能性があると判定した場合、当該エージェントは診断知識を用いてどのような異常・不具合が起きているか、原因は何か、ネットワーク上のどの場所で異常が発生しているかなど障害の詳細を推測することを試みる。この推論の手順の概略を以下に示す。
(a)障害の可能性を検知したエージェントは収集したネットワーク情報の解析結果と診断知識中の障害判定用知識を利用して、可能性のある障害を抽出し、診断のための「仮説」を立てる。例えば、「特定のサーバに一定時間接続不能であればサーバに障害が起きている可能性がある」などが「仮説」の例である。
(b)前ステップにおいて設定した「仮説」を検証する。ENCOREにおける診断知識中には個々の「仮説」が成立するために検証すべき診断項目の集合およびそれらの実行順序があらかじめ規定されている。ただし、実際に実行される項目およびその順序は各診断項目の結果に依存して変化するため、診断の状況によって動的に変化する。また、「仮説」と診断項目との間にも依存関係が存在し、特定の診断項目の正否によって新たな検証すべき「仮説」が成立するということもある。
(c)すべての「仮説」を検証した結果がエージェントによる推論結果となる。
6.以上の手順によりエージェントが得た推論の結果はメールなどの手段を通じてネットワーク管理者に通知される。
図1にENCOREにおける各エージェントの診断手順のフローチャートを示す。図1に示すように、エージェントはネットワーク機器、他のエージェントから情報を収集し(101)、現在の状態は障害の可能性があるかどうかを判断し(102)、障害の可能性がない場合は、ステップ101に戻る。障害の可能性がある場合は、診断知識を用いて、診断「仮説」を作成し(103)、診断項目の抽出を行い(104)、診断項目を実行する(105)。実行すべき診断項目がある場合はステップ105に戻る。実行すべき診断項目がなければ、未検証の「仮説」があるかどうか判断し(107)、ある場合はステップ104に戻る。未検証の「仮説」がない場合は、全「仮説」の検証結果をユーザ(ネットワーク管理者)に通知する(108)。
ENCOREシステムを用いてエージェントの協調によりAS間での経路障害の原因が診断される例を図2を用いて示す。
図中において、ASselfから広報された経路情報はAS、ASあるいはASを経由してASに伝搬されるものとする。ここで、ASとASとの間でASselfに関するフィルタの設定に誤りが発生して、ASselfに関する経路情報がASに流れなくなった状況を想定する。この状況では診断知識より「AS、AS間の物理的接続の障害が発生した」あるいは「ASの経路フィルタの設定誤りにより経路情報が破棄されている」という仮説が成立するものとする。これらの仮説を検証するためにASself中のエージェントRselfはAS、ASのエージェントR、Rと通信し、それぞれのASにおいて観測された経路情報を送り返してもらう。その結果、ASでは自分が広報した経路情報が存在するのに対し、ASではASの経路情報はあっても自分の経路情報が含まれていないことを認識する。以上より、2つめの仮説が成立することが分かりASselfではASとAS間でASselfの経路情報に関するフィルタの設定に誤りがあるということが推論できる。
特許第3485789号公報
ENCOREは診断知識の種類や内容をユーザが拡充することにより経路情報の伝搬障害以外の障害への対応が容易に行える高い拡張性を有している。しかし、現行のENCOREではENCOREエージェント内に保存する診断知識はネットワーク管理者の持つ過去の経験や知識に基づいてあらかじめ作成されエージェントの動作以前にエージェント中に組み込む必要がある。しかし、ネットワークにおいて発生する障害はその原因や障害内容が多岐に渡るため、すべての障害に対応できるようにあらかじめ診断知識を作っておくことは不可能である。そのため、現実的にはENCOREは限られた障害に対する診断知識しか持ち得ず、ENCOREの運用中に診断知識が対象としていない未知の障害が発生した場合は十分な診断ができない可能性がある。
本発明の目的は、既知の問題に対する診断のカスタマイズができ、診断知識が用意されていない未知の障害に対しても適切な診断を実行することができる技術を提供することにある。
本明細書において開示される発明のうち、代表的なものの概要を簡単に説明すれば、以下のとおりである。
第1の発明は、自律システムが複数相互接続された広域網上に複数のエージェントを配置し、前記広域網で発生した障害の検知と解析を自動的に行うネットワーク管理システムであって、前記各エージェントは、前記広域網上に配置された複数の他のエージェントとの協調動作を通じて広域網の状態に関する情報を多地点から収集するエージェント間通信モジュールと、広域網上で発生している現象の原因を含む推測を行うための障害判定用知識と該推測した内容の正否を検証するために実行すべき診断項目の集合とを診断知識として保持する診断知識DBと、前記エージェント間通信モジュールが取得した広域網の情報と前記診断知識DBが保持する前記診断知識を用いて広域網上で発生している現象の原因を含む推測を行い、推測した内容の正否を複数の診断項目を調査することにより判定する障害解析・推論エンジンと、を有し、前記障害解析・推論エンジンは、ユーザから前記判定の再実行の指示があった場合に、判定の導出に利用する診断項目の種類および実行順序をユーザとの対話処理を通じて変更する手段と、前記変更する手段によりユーザが変更した診断項目および実行順序に基づき判定処理を再実行する手段と、を有し、前記診断知識DBが保持する前記診断知識は、診断項目を実行する過程の任意の時点でユーザとの対話処理を規定することが可能であることを特徴とする。
第2の発明は、前記第1の発明において、前記障害解析・推論エンジンは、診断項目中にユーザとの対話処理が規定されている場合、ユーザに対して入力を求める画面を表示し、ユーザにより入力された値に基づき診断を行う手段を有することを特徴とする。
第3の発明は、前記第1または第2の発明において、前記各エージェントは、経路情報の観測結果を一定期間保管している履歴DBと、前記障害解析・推論エンジンから指示があった場合、前記履歴DBを参照しながら一定期間保管されている経路情報を解析し、経路情報の安定性を前記障害解析・推論エンジンに返答するネットワーク品質解析モジュールと、を有することを特徴とする。
第4の発明は、自律システムが複数相互接続された広域網上に複数のエージェントを配置し、前記広域網で発生した障害の検知と解析を自動的に行うネットワーク管理方法であって、前記各エージェントはエージェント間通信モジュールと障害解析・推論エンジンと診断知識DBとを有し、前記診断知識DBが、広域網上で発生している現象の原因を含む推測を行うための障害判定用知識と該推測した内容の正否を検証するために実行すべき診断項目の集合とを診断知識として保持し、前記エージェント間通信モジュールが、前記広域網上に配置された複数の他のエージェントとの協調動作を通じて広域網の状態に関する情報を多地点から収集するエージェント間通信ステップと、前記障害解析・推論エンジンが、前記エージェント間通信ステップで取得した広域網の情報と前記診断知識DBが保持する前記診断知識を用いて広域網上で発生している現象の原因を含む推測を行い、推測した内容の正否を複数の診断項目を調査することにより判定する障害解析・推論ステップと、を有し、前記障害解析・推論ステップは、ユーザから前記判定の再実行の指示があった場合に、判定の導出に利用する診断項目の種類および実行順序をユーザとの対話処理を通じて変更するステップと、前記変更するステップによりユーザが変更した診断項目および実行順序に基づき判定処理を再実行するステップと、を有し、前記診断知識DBが保持する前記診断知識は、診断項目を実行する過程の任意の時点でユーザとの対話処理を規定することが可能であることを特徴とする。
本発明により、診断項目の種類および実行順序を容易に変更でき、また定性的な判断が必要な診断項目を実行する場合等にユーザが判定結果を手動で投入することができるので、既知の問題に対する診断のカスタマイズができ、また診断知識が用意されていない未知の障害に対しても適切な診断を実行することができる。また、経路情報のフラッピングやバーストのような経路情報の安定性(品質)を診断することでトラヒック障害の原因を推定することが可能である。
本発明の実施形態のネットワーク管理システムは、ネットワークの複数の地点に配置されたエージェントの集合によって構成される。実際にネットワーク上にどのようにエージェントを配置するかは検出・診断すべき問題の種類やネットワークの構成によって異なる。個々のエージェントは以下のモジュールから構成される。
図3にエージェントの構成図を示す。301はインターネット上に配置された複数の他のエージェントとの協調動作を通じてインターネットの状態に関する情報を多地点から収集するエージェント間通信モジュールであり、302はネットワーク機器との間の通信を行うネットワーク機器間通信モジュールであり、303はエージェント間通信モジュールが取得したインターネットの情報と自エージェント中に含まれる診断知識を用いて広域網上で発生している現象の原因を含む推測を行い、推測した内容の正否を複数の診断項目を調査することにより判定する障害解析・推論エンジンであり、304は障害解析・推論エンジン303が使用する診断知識DBであり、305はネットワークの品質を解析するネットワーク品質解析モジュールであり、306は経路情報の観測結果を一定期間保管している履歴DBであり、307はオペレータ(ネットワーク管理者)と障害解析・推論エンジン303との対話インタフェースであるオペレータ対話インタフェースである。
上記のうち、エージェント間通信モジュール301、ネットワーク機器間通信モジュール302、診断知識DB304については既存の技術(例えば特許文献1記載の技術)を利用することで実現できる。また、障害解析・推論エンジン303についても、従来技術と共通する障害診断・推論技術に関しては、既存の技術(例えば特許文献1記載の技術)を利用することで実現できる。
本実施形態の障害解析・推論エンジン303は、従来の障害解析・推論エンジンと共通する障害診断・推論を行う手段のほかに、判定の導出に利用する診断項目の種類および実行順序をユーザとの対話的処理を通じて変更する対話手段(図示していない)と、対話手段によりユーザが変更した診断項目および実行順序に基づき判定処理を再実行する再実行手段(図示していない)と、を有している。障害解析・推論エンジン303は、これらの手段により、オペレータ対話インタフェース307を通じてユーザ(ネットワーク管理者)と対話処理を行い、それにより変更された診断項目および実行順序に基づき判定処理を再実行する。また、障害解析・推論エンジン303は、診断項目中にユーザとの対話処理が規定されている場合、オペレータ対話インタフェース307を通じて、ユーザに対して入力を求める画面を表示し、ユーザにより入力された値(例えば「ネットワークの接続速度が十分に速い」といった入力データ)に基づき診断を行う手段(図示していない)を有する。これらにより、診断項目の種類および実行順序を容易に変更でき、また定性的な判断が必要な診断項目を実行する場合等にユーザが判定結果を手動で投入することができるので、既知の問題に対する診断のカスタマイズができ、また診断知識が用意されていない未知の障害に対しても適切な診断を実行することができる。
ネットワーク品質解析モジュール305は、障害解析・推論エンジン303から指示があった場合、経路情報の観測結果を一定期間(例えば、10分、1時間、1日等)保管している履歴DB306を参照しながら一定期間保管されている経路情報を解析し、経路情報の安定性(品質)を障害解析・推論エンジン303に返答する手段を有する。これにより、経路情報のフラッピングやバーストのような経路情報の安定性(品質)を診断することでトラヒック障害の原因を推定することが可能である。
自ASからインターネット上の特定のサーバへの接続が不安定(接続できる状態と接続できない状態が頻繁に変化している)場合を例に取り、本発明による診断手順の実施例を説明する。
1.本発明においても事前の情報収集および障害に対する仮説の設定は従来技術と同様の方法で行う。この部分の処理内容については背景技術の項に記載した1ステップから4ステップまでを参照のこと。
2.エージェント中の障害解析・推論エンジン303は診断知識DB304中の障害判定用知識と観測した情報を照らし合わせることでサーバの接続性が不安定になっていることを検知したとし、同じく診断知識を元に「サーバ自身か経路情報の安定性に異常がある」という仮説を立てたものとする。
3.次に、当該エージェント中の障害解析・推論エンジン303はこの仮説を検証するために実行すべき診断項目の集合および実行順序を導出する。この集合は各「仮説」に関する知識として診断知識DB304にあらかじめ組み込まれている。この診断項目の定義例(一部)を以下に示す。なお、この知識はLisp言語で記述されている。最初の4行について、←の後に各行についての説明を記載した。
;; 診断項目: BGP 経路が広報されているか ←コメント
(def-rule BGP-advertised () ←ルールの定義
(acquire (check-bgp-as-path)) ←記載された関数を実行
(eval (BGP-advertised acq-result))) ←関数の実行結果を評価し、本項目の結果とする
;; 診断項目: BGP経路が10分前に広報されていたか
(def-rule BGP-advertised-10min-ago ()
(acquire (check-bgp-as-path-10min-ago))
(eval (BGP-advertised acq-result)))
;; 診断項目: HTTP GET の返答が時間内にあったか
(def-rule HTTP-GET-in-time ()
(acquire (HTTP-GET-check))
(eval (HTTP-GET-in-time acq-result)))
;; 診断項目: HTTP GET の戻り値が200 であったか
(def-rule HTTP-GET-status-200 ()
(acquire (HTTP-GET-check))
(eval (HTTP-GET-status-200 acq-result)))
その他考えられる診断項目の例を図4の表1に示す。
4.障害解析・推論エンジン303は3で導出した診断項目を規定された順番に実行する。この例ではサーバとの接続性が失われた場合は、まずインターネットプロトコルの下位レイヤでの接続性から始めて上位レイヤでの接続性を順番に検証するのが通常行われる作業手順であるので、この例ではAS間で経路情報が正しく伝搬されているかを他エージェントとの協調によって診断する処理が最初に選択されるように知識に記述されていたものとする。そして再び診断知識の記述に従い、個々の項目の診断結果によって次に行うべき診断項目を導出して順番に実行する。
5.この例では、前ステップ、つまりBGPにおける経路情報の到達性には問題がなかったとし、次の診断項目を実行する。このとき、最初の診断項目であるAS間の経路情報の到達性で問題が発見されれば上位レイヤにおける診断を行う必要はないので経路伝搬障害という診断結果をオペレータに提示して診断を終了する。
6.診断項目を実行する過程では任意の時点でユーザの対話処理を行うことが可能である。この対話処理はオペレータ対話インタフェース307を通じて実行される。オペレータ対話インタフェース307ではあらかじめ知識に記述された時点で必要な画面表示やユーザからの入力を受信する処理を行う。これにより例えば「ネットワークの接続速度が十分に速いか」といった定性的な判断が必要な診断項目を実行する場合にユーザ自身が判定結果を手動で投入することができる。
7.指定された診断項目を実行した後、検証結果を障害解析・推論エンジン303からユーザ(ネットワーク管理者)に提示する。この例では残りの診断項目の調査結果もすべて正常であったものとする。そのためエージェントは接続性に異常がない旨および判定に利用したすべての診断項目および調査結果をユーザに提示する。
8.しかし、ユーザは接続が安定していないことを認識しているため、診断を再実行するためにオペレータ対話インタフェース307を通じて診断の再実行処理を開始する。ここでの対話処理では実行された診断項目を任意に選択してその時点からの再実行や知識により選択された診断項目とは別の診断項目を選択して実行したりすることができる。この例では、ユーザが経路情報の到達性の診断を最初からやり直すと共に安定性診断を追加して行うことを指示したとする。
9.エージェントはユーザからの指示に従い経路情報の到達性を検証して再度問題がないことを確認するが、ユーザの指示により経路情報の安定性の検証が要求されているので安定性を診断する診断項目を実行する。この安定性の検証はネットワーク品質解析モジュール305および履歴DB306により行われる。この例では、ネットワーク上で経路のフラッピングという障害が発生しており、エージェントは安定性の検証によりこの現象が生じていることを検知できたものとする。具体的なフラッピングの検出手順を以下に示す。
(a)経路情報のフラッピングとは、短期間において同一の経路に対する変更が頻繁に起こる現象のことを言う。経路情報の変更はルータの負荷を増大させるため、変更が頻繁に起こるとルータが過負荷になり結果としてインターネット全体の接続不良等の障害を引き起こす。
(b)フラッピングはその定義より明らかなとおり、ある程度の期間継続して経路情報を観測してその変更の頻度などを観測しないと判定できない。そのため、単一の測定を繰り返すだけではフラッピングを検出することは難しい。そのため、本実施例では経路情報の観測結果を履歴DB306に格納して一定期間保管する。
(c)診断の過程においてフラッピングの有無を検証するよう障害解析・推論エンジン303からネットワーク品質解析モジュール305に指示があった場合、ネットワーク品質解析モジュール305は履歴DB306を参照しながら経路情報の変更の頻度を解析する。
(d)この変更の頻度があらかじめ定義された閾値より上回っている場合はネットワーク品質解析モジュール305はフラッピングが発生しているものとみなし、その旨障害解析・推論エンジン303に返答を行う。
10.エージェントはフラッピングの発生、すなわち経路伝搬における安定性に異常があったのでユーザにその旨を通知する。
11.以上により、ユーザ(ネットワーク管理者)は生じている接続の不安定性が経路情報のフラッピングによるものと認識できる。
図5に本実施例の各エージェントの診断手順のフローチャートを示す。診断項目の抽出401より前の処理については図1の101〜103と同じである。すなわち、図1に示すように、エージェントはネットワーク機器、他のエージェントから情報を収集し(101)、現在の状態は障害の可能性があるかどうかを判断し、障害の可能性がない場合は、ステップ101に戻り(102)、障害の可能性がある場合は、診断知識を用いて、診断「仮説」を作成する(103)。次に、図5に示すように、診断項目を抽出し(401)、診断項目を実行する(402)。診断項目中にユーザ(ネットワーク管理者)との対話処理が規定されているかどうかを判断し(403)、規定されていない場合はそのままステップ405に進む。診断項目中にユーザとの対話処理が規定されている場合は、ユーザに対して入力を求める画面を表示し、ユーザにより入力された値(例えば「ネットワークの接続速度が十分に速い」といった入力データ)に基づき診断を行い(404)、ステップ405に進む。ステップ405では、実行すべき診断項目があるかどうかを判断し、ある場合はステップ402に戻る。ステップ405で、実行すべき診断項目がない場合は、「仮説」の診断結果およびプロセスをユーザに提示する(406)。ステップ409では、ユーザから診断の再実行の指示があったかどうかを判断する。再実行の指示があった場合は、「仮説」の検証結果中の、指定された診断項目から「仮説」検証を再実行し(407)、ステップ405に戻る。再実行の指示がない場合は、未検証の「仮説」があるかどうかを判断し(410)、ある場合はステップ401に戻り、ない場合は、全「仮説」の検証結果をユーザに通知する。
以上、本発明者によってなされた発明を、前記実施例に基づき具体的に説明したが、本発明は、前記実施例に限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能であることは勿論である。
従来技術におけるエージェントの診断手順のフローチャートである。 従来技術におけるエージェントの協調による診断事例を示す図である。 本発明の実施形態のエージェントの構成図を示す図である。 表1:診断項目例を示す図である。 本発明の実施例の診断手順のフローチャートである。
符号の説明
301…エージェント間通信モジュール、302…ネットワーク機器間通信モジュール、303…障害解析・推論エンジン、304…診断知識DB、305…ネットワーク品質解析モジュール、306…履歴DB、307…オペレータ対話インタフェース

Claims (4)

  1. 自律システムが複数相互接続された広域網上に複数のエージェントを配置し、前記広域網で発生した障害の検知と解析を自動的に行うネットワーク管理システムであって、
    前記各エージェントは、
    前記広域網上に配置された複数の他のエージェントとの協調動作を通じて広域網の状態に関する情報を多地点から収集するエージェント間通信モジュールと、
    広域網上で発生している現象の原因を含む推測を行うための障害判定用知識と該推測した内容の正否を検証するために実行すべき診断項目の集合とを診断知識として保持する診断知識DBと、
    前記エージェント間通信モジュールが取得した広域網の情報と前記診断知識DBが保持する前記診断知識を用いて広域網上で発生している現象の原因を含む推測を行い、推測した内容の正否を複数の診断項目を調査することにより判定する障害解析・推論エンジンと、
    を有し、
    前記障害解析・推論エンジンは、
    ユーザから前記判定の再実行の指示があった場合に、
    判定の導出に利用する診断項目の種類および実行順序をユーザとの対話処理を通じて変更する手段と、
    前記変更する手段によりユーザが変更した診断項目および実行順序に基づき判定処理を再実行する手段と、
    を有し、
    前記診断知識DBが保持する前記診断知識は、診断項目を実行する過程の任意の時点でユーザとの対話処理を規定することが可能である
    ことを特徴とするネットワーク管理システム。
  2. 請求項1に記載のネットワーク管理システムであって、
    前記障害解析・推論エンジンは、診断項目中にユーザとの対話処理が規定されている場合、ユーザに対して入力を求める画面を表示し、ユーザにより入力された値に基づき診断を行う手段を有することを特徴とするネットワーク管理システム。
  3. 請求項1または2に記載のネットワーク管理システムであって、
    前記各エージェントは、
    経路情報の観測結果を一定期間保管している履歴DBと、
    前記障害解析・推論エンジンから指示があった場合、前記履歴DBを参照しながら一定期間保管されている経路情報を解析し、経路情報の安定性を前記障害解析・推論エンジンに返答するネットワーク品質解析モジュールと、
    を有することを特徴とするネットワーク管理システム。
  4. 自律システムが複数相互接続された広域網上に複数のエージェントを配置し、前記広域網で発生した障害の検知と解析を自動的に行うネットワーク管理方法であって、
    前記各エージェントはエージェント間通信モジュールと障害解析・推論エンジンと診断知識DBとを有し、
    前記診断知識DBが、広域網上で発生している現象の原因を含む推測を行うための障害判定用知識と該推測した内容の正否を検証するために実行すべき診断項目の集合とを診断知識として保持し、
    前記エージェント間通信モジュールが、前記広域網上に配置された複数の他のエージェントとの協調動作を通じて広域網の状態に関する情報を多地点から収集するエージェント間通信ステップと、
    前記障害解析・推論エンジンが、前記エージェント間通信ステップで取得した広域網の情報と前記診断知識DBが保持する前記診断知識を用いて広域網上で発生している現象の原因を含む推測を行い、推測した内容の正否を複数の診断項目を調査することにより判定する障害解析・推論ステップと、
    を有し、
    前記障害解析・推論ステップは、
    ユーザから前記判定の再実行の指示があった場合に、
    判定の導出に利用する診断項目の種類および実行順序をユーザとの対話処理を通じて変更するステップと、
    前記変更するステップによりユーザが変更した診断項目および実行順序に基づき判定処理を再実行するステップと、
    を有し、
    前記診断知識DBが保持する前記診断知識は、診断項目を実行する過程の任意の時点でユーザとの対話処理を規定することが可能である
    ことを特徴とするネットワーク管理方法。
JP2006124612A 2006-04-28 2006-04-28 ネットワーク管理システムおよび方法 Expired - Fee Related JP4668117B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006124612A JP4668117B2 (ja) 2006-04-28 2006-04-28 ネットワーク管理システムおよび方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006124612A JP4668117B2 (ja) 2006-04-28 2006-04-28 ネットワーク管理システムおよび方法

Publications (2)

Publication Number Publication Date
JP2007300249A JP2007300249A (ja) 2007-11-15
JP4668117B2 true JP4668117B2 (ja) 2011-04-13

Family

ID=38769396

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006124612A Expired - Fee Related JP4668117B2 (ja) 2006-04-28 2006-04-28 ネットワーク管理システムおよび方法

Country Status (1)

Country Link
JP (1) JP4668117B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210328861A1 (en) * 2018-09-10 2021-10-21 Nippon Telegraph And Telephone Corporation Diagnostic apparatus

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5283192B2 (ja) * 2009-09-08 2013-09-04 Kddi株式会社 経路制御プロトコルに基づいて障害リンクをリアルタイムに検出する方法、ノード装置及びプログラム
US11729043B2 (en) * 2017-10-06 2023-08-15 Cisco Technology, Inc. Traffic outage detection in the internet

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0583257A (ja) * 1991-03-12 1993-04-02 Hewlett Packard Co <Hp> データ通信ネツトワークを診断するためのランドマークデータ抽出パラダイム
JPH11243422A (ja) * 1998-02-25 1999-09-07 Nippon Telegr & Teleph Corp <Ntt> 自律組織間診断システム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0583257A (ja) * 1991-03-12 1993-04-02 Hewlett Packard Co <Hp> データ通信ネツトワークを診断するためのランドマークデータ抽出パラダイム
JPH11243422A (ja) * 1998-02-25 1999-09-07 Nippon Telegr & Teleph Corp <Ntt> 自律組織間診断システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210328861A1 (en) * 2018-09-10 2021-10-21 Nippon Telegraph And Telephone Corporation Diagnostic apparatus
US11876670B2 (en) * 2018-09-10 2024-01-16 Nippon Telegraph And Telephone Corporation Diagnostic apparatus

Also Published As

Publication number Publication date
JP2007300249A (ja) 2007-11-15

Similar Documents

Publication Publication Date Title
CN108353004B (zh) 用于测试网络功能虚拟化(nfv)的方法、系统和计算机可读介质
JP4518720B2 (ja) ネットワーク障害分離
JP2007235897A (ja) ネットワーク監視装置及び方法
US7617086B2 (en) Monitoring simulating device, method, and program
JP2006270961A (ja) パケットトレース診断システムおよび方法
CN108306747B (zh) 一种云安全检测方法、装置和电子设备
US9495267B2 (en) Method and device for quasi-proxy assisted manual device testing
JP5147216B2 (ja) コンピューティング・システムのオートノミック能力を測定するための方法、システム及びコンピュータ・プログラム
JP4668117B2 (ja) ネットワーク管理システムおよび方法
US20070168726A1 (en) Processes for assisting in troubleshooting
SE502852C2 (sv) Sätt och system för distribuerad övervakning av hårdvara
CN110708715A (zh) 一种5g基站业务故障查找方法及装置
JPH11259331A (ja) ネットワークにおける障害箇所検出方法及び装置及びネットワークにおける障害箇所検出プログラムを格納した記憶媒体
JPH09205429A (ja) ネットワーク故障診断装置及び故障予測装置並びにその診断及び予測方法
JP4558662B2 (ja) Ipネットワーク経路診断装置およびipネットワーク経路診断システム
JP2014053658A (ja) 障害部位推定システムおよび障害部位推定プログラム
JP4485344B2 (ja) サーバ装置、障害経路診断方法、および障害経路診断プログラム
JP5536832B2 (ja) 故障診断装置、方法およびプログラム
JP6378653B2 (ja) サービス影響原因推定装置、サービス影響原因推定プログラム、及びサービス影響原因推定方法
JP2008053913A (ja) ネットワーク装置管理システムおよび管理方法、ならびにそのためのプログラム
JPH0983516A (ja) ネットワーク障害診断装置
US11095548B1 (en) Methods, systems, and computer readable media for testing software defined networks
WO2020103821A1 (zh) 一种故障感知方法及装置和控制器
US9490995B1 (en) Simulation system for network devices in a network
JP6310405B2 (ja) サービス影響原因推定装置、サービス影響原因推定プログラム、及びサービス影響原因推定方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080801

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100520

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100803

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101004

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110111

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110112

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140121

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees