JP4893828B2 - ネットワーク障害検知システム - Google Patents

ネットワーク障害検知システム Download PDF

Info

Publication number
JP4893828B2
JP4893828B2 JP2009521456A JP2009521456A JP4893828B2 JP 4893828 B2 JP4893828 B2 JP 4893828B2 JP 2009521456 A JP2009521456 A JP 2009521456A JP 2009521456 A JP2009521456 A JP 2009521456A JP 4893828 B2 JP4893828 B2 JP 4893828B2
Authority
JP
Japan
Prior art keywords
measurement
group
agent
result
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009521456A
Other languages
English (en)
Other versions
JPWO2009004701A1 (ja
Inventor
寛 山本
俊介 菊地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2009004701A1 publication Critical patent/JPWO2009004701A1/ja
Application granted granted Critical
Publication of JP4893828B2 publication Critical patent/JP4893828B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q3/00Selecting arrangements
    • H04Q3/0016Arrangements providing connection between exchanges
    • H04Q3/0062Provisions for network management
    • H04Q3/0075Fault management techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/04Network management architectures or arrangements
    • H04L41/044Network management architectures or arrangements comprising hierarchical management structures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/04Network management architectures or arrangements
    • H04L41/046Network management architectures or arrangements comprising network management agents or mobile agents therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/34Signalling channels for network management communication
    • H04L41/344Out-of-band transfers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/5041Network service management, e.g. ensuring proper service fulfilment according to agreements characterised by the time relationship between creation and deployment of a service
    • H04L41/5054Automatic deployment of services triggered by the service manager, e.g. service implementation by automatic configuration of network components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/12Network monitoring probes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/02Standardisation; Integration
    • H04L41/0213Standardised network management protocols, e.g. simple network management protocol [SNMP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors
    • H04L43/0829Packet loss
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q2213/00Indexing scheme relating to selecting arrangements in general and for multiplex systems
    • H04Q2213/13092Scanning of subscriber lines, monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q2213/00Indexing scheme relating to selecting arrangements in general and for multiplex systems
    • H04Q2213/13162Fault indication and localisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q2213/00Indexing scheme relating to selecting arrangements in general and for multiplex systems
    • H04Q2213/13163Fault alarm
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q2213/00Indexing scheme relating to selecting arrangements in general and for multiplex systems
    • H04Q2213/13349Network management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Computer And Data Communications (AREA)
  • Debugging And Monitoring (AREA)

Description

この発明は、ネットワーク上に配置された計測エージェントが提供サーバによって提供されるサービスの品質を計測し、当該計測の結果を監視サーバが解析して障害箇所を特定するネットワーク障害検知システムに関する。
従来、ネットワーク上に配置された計測エージェントが提供サーバによって提供されるサービスの品質を計測し、計測の結果を監視サーバが解析して障害箇所(例えば、故障しているルータやスイッチ、パケットの転送処理が追いついていないルータやスイッチ)を特定する技術が実施されている。
このような技術として、計測エージェントが計測した全ての情報を監視サーバに通知し、監視サーバが障害箇所を特定する技術が知られている(特許文献1参照)。具体的には、図28に示すように、ネットワーク上に配置されている計測エージェントがサービスの受信品質およびサービスの送信経路を計測し、その全ての計測結果を監視サーバが解析する。監視サーバでは、計測エージェントから受信した計測結果を解析し、品質劣化したサービスの多くが経由している部分を障害の原因と特定する。
また、特許文献2では、通信可能な範囲内にいる複数の通信装置をグループ化し、通信装置の中から一台のサーバとし、他をクライアントとする技術が開示されている。このような技術を利用して、計測エージェントをグループ化し、計測結果をグループ単位で監視サーバに通知することも考えられる。
特開2000−242585号公報 特開平11−275106号公報
しかしながら、特許文献1の技術では、監視サーバが全ての計測結果を受信し、その計測結果を解析するので、監視サーバの管理する情報量を多大であり、メモリ溢れなどが生じる結果、高速な障害検知を行うことができないという課題があった。
また、特許文献2を利用した技術では、単に通信可能な範囲内にいる計測エージェントのグループを決定しているだけなので、上記同様監視サーバの負担が大きく、メモリ溢れなどが生じる結果、高速に障害を検知することができないという課題があった。
そこで、この発明は、高い障害検出精度とともに、特に高速な障害検知を可能とすることを目的とする。
上述した課題を解決し、目的を達成するため、本発明は、ネットワーク上に配置された計測エージェントが提供サーバによって提供されるサービスの品質を計測し、当該計測の結果を監視サーバが解析して障害箇所を特定するネットワーク障害検知システムであって、前記計測エージェントは、同一の提供サーバからサービスを受信している他の計測エージェントとグループを構成し、当該グループ内の所定の計測エージェントを頂点としたツリー構造を構築するようにリンクを形成するリンク形成手段と、同一グループ内における他の計測エージェントから前記計測の結果を受信する計測結果受信手段と、前記計測結果受信手段によって受信された前記計測の結果を基に、障害箇所の候補を絞り込む障害箇所絞込手段と、前記障害箇所絞込手段によって絞り込まれた前記障害箇所の候補を前記監視サーバまたは他の計測エージェントに送信する障害箇所送信手段と、を備え、前記監視サーバは、前記障害箇所送信手段によって送信された前記障害箇所の候補を受信する障害箇所受信手段と、前記障害箇所受信手段によって受信された前記障害箇所の候補を基に、障害箇所を特定する障害箇所特定手段と、を備えたことを特徴とする。
また、本発明は、上記の発明において、前記リンク形成手段は、自身に対してサービスを送信している提供サーバを一意に識別する識別子を基に、グループ識別子を算出し、当該グループ識別子を含んだ検索メッセージを複数の計測エージェントによって構成されたオーバレイネットワークに送信して、リンクを形成することを特徴とする。
また、本発明は、上記の発明において、前記グループ識別子を含んだ検索メッセージを生成して前記オーバレイネットワーク上に送信した場合には、役割を計測として、前記計測の結果を同一グループ内における他の計測エージェントに送信する計測結果送信手段をさらに備えることを特徴とする。
また、本発明は、上記の発明において、前記障害箇所送信手段は、他の計測エージェントから前記検索メッセージを受信し、当該検索メッセージをさらに他の計測エージェントに送信した場合には、役割を中継として、前記検索メッセージに含まれているグループ識別子に対応するグループにおいて、前記障害箇所の候補を他の計測エージェントに送信することを特徴とする。
また、本発明は、上記の発明において、前記障害箇所送信手段は、他の計測エージェントから前記検索メッセージを受信し、当該検索メッセージを送信する他の計測エージェントが存在しない場合には、役割を代表として、前記障害箇所の候補を前記監視サーバに送信することを特徴とする。
また、本発明は、上記の発明において、自身に対して前記検索メッセージを送信した他の計測エージェントの識別子および自身が前記検索メッセージを送信した他の計測エージェントの識別子を、検索メッセージに含まれているグループ識別子ごとに記録するグループ化情報記憶手段をさらに備えることを特徴とする。
また、本発明は、上記の発明において、サービスの受信品質および提供サーバと自身との間にある経路情報を計測の結果として、前記グループごとに記憶する計測情報記憶手段をさらに備えることを特徴とする。
また、本発明は、前記計測結果送信手段は、前記役割が計測である場合には、前記計測情報記憶手段によって記憶された前記計測の結果を同一グループ内における他の計測エージェントへ定期的に送信することを特徴とする。
また、本発明は、前記障害箇所絞込手段は、前記役割が中継である場合には、同一グループ内の下流に位置する他の計測エージェントから受信した前記計測の結果を基に、障害箇所の候補を絞り込み、前記障害箇所送信手段は、前記障害箇所絞込手段によって絞り込まれた前記障害箇所の候補を同一グループ内の上流に位置する他の計測エージェントに送信することを特徴とする。
また、本発明は、前記障害箇所絞込手段は、前記役割が代表である場合には、同一グループ内の下流に位置する他の計測エージェントから受信した前記計測の結果を基に、障害箇所の候補を絞り込み、前記障害箇所送信手段は、前記障害箇所絞込手段によって絞り込まれた前記障害箇所の候補を前記監視サーバに送信することを特徴とする。
また、本発明は、ランダムな値を生成するランダム値生成手段と、前記ランダム値生成手段によって生成された前記値を管理する計測エージェントを検索する計測エージェント検索手段と、をさらに備え、前記リンク形成手段は、前記エージェント検索手段によって検索された前記計測エージェントの識別子をグループ識別子とし、当該グループ識別子を含んだ検索メッセージを複数の計測エージェントによって構成されたオーバレイネットワークに送信して、リンクを形成することを特徴とする。
また、本発明は、グループを再構築するためのグループ再構築メッセージを同一グループ内の下流に位置する他の計測エージェントに送信する再構築メッセージ送信手段と、前記再構築メッセージ送信手段によって送信された前記再構築メッセージを受信すると、同一グループ内の下流に位置する他の計測エージェントの数を調査し、当該他の計測エージェントの数が一である場合には、メッセージを受信した計測エージェントをグループから削除する計測エージェント削除手段とをさらに備えることを特徴とする。
また、本発明は、ネットワーク上に配置された計測エージェントが提供サーバによって提供されるサービスの品質を計測し、監視サーバに送信する計測エージェントであって、同一の提供サーバからサービスを受信している他の計測エージェントとグループを構成し、当該グループ内の所定の計測エージェントを頂点としたツリー構造を構築するようにリンクを形成するリンク形成手段と、同一グループ内における他の計測エージェントから前記計測の結果を受信する計測結果受信手段と、前記計測結果受信手段によって受信された前記計測の結果を基に、障害箇所の候補を絞り込む障害箇所絞込手段と、前記障害箇所絞込手段によって絞り込まれた前記障害箇所の候補を前記監視サーバまたは他の計測エージェントに送信する障害箇所送信手段と、を備えることを特徴とする。
また、本発明は、ネットワーク上に配置された計測エージェントが提供サーバによって提供されるサービスの品質を計測し、当該計測の結果を解析して障害箇所を特定する監視サーバであって、前記計測エージェントから送信された前記障害箇所の候補を受信する障害箇所受信手段と、前記障害箇所受信手段によって受信された前記障害箇所の候補を基に、障害箇所を特定する障害箇所特定手段と、を備えたことを特徴とする。
また、本発明は、ネットワーク上に配置された計測エージェントが提供サーバによって提供されるサービスの品質を計測し、当該計測の結果を監視サーバが解析して障害箇所を特定するネットワーク障害検知方法であって、同一の提供サーバからサービスを受信している他の計測エージェントとグループを構成し、当該グループ内の所定の計測エージェントを頂点としたツリー構造を構築するようにリンクを形成するリンク形成工程と、同一グループ内における他の計測エージェントから前記計測の結果を受信する計測結果受信工程と、前記計測結果受信工程によって受信された前記計測の結果を基に、障害箇所の候補を絞り込む障害箇所絞込工程と、前記障害箇所絞込工程によって絞り込まれた前記障害箇所の候補を前記監視サーバまたは他の計測エージェントに送信する障害箇所送信工程と、を含み、前記監視サーバは、前記障害箇所送信工程によって送信された前記障害箇所の候補を受信する障害箇所受信工程と、前記障害箇所受信工程によって受信された前記障害箇所の候補を基に、障害箇所を特定する障害箇所特定工程と、を含んだことを特徴とする。
また、本発明は、ネットワーク上に配置された計測エージェントが提供サーバによって提供されるサービスの品質を計測し、当該計測の結果を監視サーバが解析して障害箇所を特定するネットワーク障害検知方法をコンピュータに実行させるネットワーク障害検知プログラムであって、前記計測エージェントは、同一の提供サーバからサービスを受信している他の計測エージェントとグループを構成し、当該グループ内の所定の計測エージェントを頂点としたツリー構造を構築するようにリンクを形成するリンク形成手順と、同一グループ内における他の計測エージェントから前記計測の結果を受信する計測結果受信手順と、前記計測結果受信手順によって受信された前記計測の結果を基に、障害箇所の候補を絞り込む障害箇所絞込手順と、前記障害箇所絞込手順によって絞り込まれた前記障害箇所の候補を前記監視サーバまたは他の計測エージェントに送信する障害箇所送信手順と、をコンピュータに実行させ、前記監視サーバは、前記障害箇所送信手順によって送信された前記障害箇所の候補を受信する障害箇所受信手順と、前記障害箇所受信手順によって受信された前記障害箇所の候補を基に、障害箇所を特定する障害箇所特定手順と、をコンピュータに実行させることを特徴とする。
本発明によれば、同じ提供サーバからサービスを受信している計測エージェントをグループ化し、計測結果をグループ内の計測エージェント群が分散解析して、監視サーバの管理する情報量を減少し、メモリ溢れなどが生じることなくネットワーク上の障害箇所を高速に検出する結果、高い障害検出精度とともに、特に高速な障害検知を可能とする。
以下に添付図面を参照して、この発明に係るネットワーク障害検知システムの実施例を詳細に説明する。本発明は、主に映像配信やオンラインゲームなどの定常的にネットワーク状態を取得し続けることができるリアルタイムコンテンツサービスの運用管理システムに適用される。また、障害箇所の検出精度の低下を許容できるならば、Webやファイル転送などの非リアルタイムデータ送信にも適用が可能である。特に、サービスを受信する計算機またはホームゲートウェイが大量に存在する環境にも適用可能なネットワーク上の障害検出方式とその実現方式である。
以下の実施例では、実施例1に係るネットワーク障害検知システムの概要および特徴、ネットワーク障害検知システムの構成および処理の流れを順に説明し、最後に実施例1による効果を説明する。
[実施例1に係るネットワーク障害検知システムの概要および特徴]
まず最初に、図1を用いて、実施例1に係るネットワーク障害検知システムの概要および特徴を説明する。図1は、実施例1に係るネットワーク障害検知システムの概要および特徴を説明するための図である。なお、以下に説明する実施例では、オーバレイネットワークに適用した場合の例を説明する。
ここで、本実施例に適用されるオーバレイネットワークとは、物理ネットワークに存在するノード群(ルータ、計算機、ゲートウェイなど)から必要なものを抽出し、物理的な制約にとらわれることなく、特定の目的を達成するためのネットワークを構築する技術の総称であり、実装は複雑であるが目的の情報を確実に発見できるいわゆる構造型P2Pネットワークのことをいう。なお、各ノードは,ある決められた範囲のIDを管理し、かつ、ノード間に確立された論理的なリンクを経由して検索メッセージを転送することにより、どのIDを管理するノードにも必ず検索メッセージを届けることが可能なオーバレイネットワークであれば、本発明への適用することができる。
実施例1のネットワーク障害検知システム1では、ネットワーク上に配置された計測エージェント10が提供サーバによって提供されるサービスの品質を計測し、当該計測の結果を監視サーバ20が解析して障害箇所を特定することを概要とする。そして、高い障害検出精度とともに、特に高速な障害検知を可能とする点に主たる特徴がある。
この主たる特徴について具体的に説明すると、実施例1に係るネットワーク障害検知システム1は、図1に示すように、サービスの品質を計測する複数の計測エージェント(計測エージェント群)10a〜10hと障害箇所を特定する監視サーバ20とで構成される。
このネットワーク障害検知システム1の計測エージェント10は、同一の提供サーバからサービスを受信している他の計測エージェントとグループを構成し、当該グループ内の所定の計測エージェントを頂点としたツリー構造を構築するようにリンクを形成する(図1の(1)参照)。具体的には、オーバレイネットワーク技術を利用して、同じ提供サーバからサービスを受信している計測エージェント10が同じグループに所属するように、計測エージェント10a〜10hを複数のグループに分割する。
続いて、計測エージェント10は、同一グループ内における他の計測エージェントから計測の結果を受信し、受信された計測の結果を基に、障害箇所の候補を絞り込む(図1の(2)参照)。つまり、計測エージェント10a〜10hは、計測結果をグループ内の他の計測エージェントに送信し、グループ内の計測エージェント群が計測結果を分散解析する。
そして、計測エージェント10は、絞り込まれた障害箇所の候補を監視サーバまたは他の計測エージェントに送信する。続いて、監視サーバ20は、送信された障害箇所の候補を受信し、受信された障害箇所の候補を基に、障害箇所を特定する(図1の(3)参照)。つまり、監視サーバ20は、グループ内での分散解析の結果のみを収集/解析する。これにより、監視サーバ20の管理する情報量が減少できるため、メモリ溢れなどが生じることなくネットワーク上の障害箇所を高速に検出することができる。
このように、ネットワーク障害検知システム1は、同じ提供サーバからサービスを受信している計測エージェントをグループ化し、計測結果をグループ内の計測エージェント群が分散解析して、監視サーバの管理する情報量を減少し、メモリ溢れなどが生じることなくネットワーク上の障害箇所を高速に検出する結果、上記した主たる特徴のごとく、高い障害検出精度とともに、特に高速な障害検知を可能とする。
[計測エージェントの構成]
次に、図2を用いて、図1に示した計測エージェント10の構成を説明する。図2は、実施例1に係る計測エージェント10の構成を示すブロック図である。同図に示すように、この計測エージェント10は、グループ情報テーブル11a、計測情報データベース11b、オーバレイネットワーク機能部12a、グループ化機能部12b、計測情報受信部12c、計測部12d、計測情報解析部12e、計測情報送信部12fを備える。以下にこれらの各部の処理を説明する。
グループ情報テーブル11aは、このテーブルにはグループに関する様々な情報が格納されている。具体的には、グループ情報テーブル11aは、図3に例示するように、グループを一意に識別する「グループID」、自計測エージェントの「役割」、自身の送信した検索メッセージを受信した他の計測エージェントのIPアドレス(以降、「上流」という)、自身に検索メッセージを送信した他の計測エージェントのIPアドレス(以降、「下流」という)をそれぞれ対応付けて記憶している。
計測情報データベース11bは、このグループ情報テーブル11aにはグループに関する様々な情報が格納している。具体的には、図4に示すように、計測情報データベース11bは、図4に例示するように、「グループID」と、サービスの品質を示す「受信の品質」(OKまたはNG)と、提供サーバ20から計測エージェント10に対して送信されているサービスが中継しているルータ群の情報である「経路」とを対応付けて記憶する。
オーバレイネットワーク機能部12aは、計測エージェントがオーバレイネットワークへ参加する手続きを行う。例えば、Chord[Stoica03]というオーバレイネットワークの実装を用いた場合には、ネットワーク上で一意に自身を識別できるIDを算出した上で、既にオーバレイネットワークに参加している幾つかの計測エージェントとの間で仮想的なリンクを確立する。ここで、Chord[Stoica03]とは、ハッシュ関数を使用してノードやコンテンツを同一のハッシュ空間にマッピングする手法であり、各ノードが検索メッセージ転送用の経路表を持っている。なお、本発明はChordに限るものではなく、各計測エージェントは、ある決められた範囲のIDを管理し、かつ、複数の計測エージェントを経由することにより、どのIDを管理する計測エージェントにも必ず検索メッセージを届けることを可能とする特徴を持つオーバレイネットワークならば適用は可能である。
具体的には、オーバレイネットワーク機能部12aは、検索メッセージの送信をグループ化機能部12bから受け付けると、適用されているオーバレイネットワークのメッセージ転送方式に従い、グループIDを含めた検索メッセージを次の計測エージェントへ向けて送信する。
グループ化機能部12bは、オーバレイネットワーク機能部12aを介して複数の計測エージェント10との間で検索メッセージを交換することにより、同じ提供サーバ20からサービスを受信している計測エージェント10を集めてグループを構成し(図5参照)、グループ化の過程で、計測エージェントはグループ内での自身の役割(計測、中継、代表)を把握する。つまり、図5に示すように、終点の計測エージェント10をグループの「代表」として頂点としたツリー構造を構築する。そして、グループ内の計測エージェントが計測結果を基に障害箇所の絞込みを行う際には、この階層構造を利用した分散解析を行う。
また、グループ化機能部12bは、検索メッセージを受信した際に、検索メッセージをグループ化機能部12bに通知し、グループ化機能部12bがトポロジ構成処理を行う。「上流」と「下流」の関係により計測エージェント間に論理的な接続が確立されていると想定した場合には、同じグループ内の計測エージェントが構成するトポロジは、図6に示すように、「代表」の役割を持つ計測エージェントを頂点とした階層構造となる。
具体的には、グループ化機能部12bは、オーバレイネットワーク機能部12aと連携して、計測エージェント10に固有の識別子を割り当てた上でオーバレイネットワークへ参加させる。そして、グループ化機能部12bは、オーバレイネットワークに参加している他の計測エージェントの中で、同じ提供サーバからサービスを受信している計測エージェントを集めて同じグループに所属させる。ここでは、オーバレイネットワーク機能部12aと連携して、オーバレイネットワークを介した計測エージェント間の情報交換が行われる。
そして、グループ化機能部12bは、各グループにおける計測エージェントの役割(計測、中継、代表)を把握(決定)する処理を行う。ここでは、オーバレイネットワーク機能部12aと連携することにより、計測エージェント間の情報交換の過程を基に、役割の決定が行われる。グループ化機能部12bは、計測エージェント間に仮想的なリンクを確立することにより、グループ内の計測エージェントのトポロジを構成する処理を行う。ここでは、他の各計測エージェントも同様に、計測エージェント間の情報交換の結果を基に、リンクを確立する計測エージェントを決定する。
ここで、グループ化機能部12bによる計測エージェントの役割(計測、中継、代表)を把握する処理を説明する。まず、グループ化機能部12bは、現在計測エージェントに対してサービスを提供している提供サーバの識別子をパケットから取得しているかを判定する。つまり、グループ化機能部12bは、提供サーバからのパケットを自計測エージェント10がモニタリングしているかを判定する。
そして、グループ化機能部12bは、提供サーバの識別子を取得している場合には、提供サーバの識別子をオーバレイネットワーク機能部12aに通知し、提供サーバに対応するID(グループID)を取得する。なお、提供サーバの識別子としては、IPアドレスやポート番号等を使用することができる。
続いて、グループ化機能部12bは、グループIDをキーとしてグループ情報テーブル11aを検索する。検索の結果、グループ化機能部12bは、グループIDに対応するレコードが存在した場合には、そのレコードに「計測」を追加する。なお、既に「計測」が追加されていた場合には、追加を行う必要は無い。また、グループIDに対応するレコードが存在しない場合には、新たにレコードを生成し、新たに生成されたレコードに対して「計測」を追加する。
その後、グループ化機能部12bは、検索メッセージを生成し、グループIDをそれに格納する。そして、グループ化機能部12bは、オーバレイネットワーク機能部12aに対して検索メッセージの送信を依頼する。
また、グループ化機能部12bは、提供サーバの識別子を取得していない場合には、他の計測エージェントから検索メッセージを受信したか判定する。その結果、グループ化機能部12bは、他の計測エージェントから検索メッセージを受信した場合には、検索メッセージに格納されているグループIDを取得し、検索メッセージの転送が必要か否かをオーバレイネットワーク機能部12aに問い合わせる(つまり、自身がグループIDを管理する計測エージェントなのか否かを調査する)。
その結果、グループ化機能部12bは、まだ検索メッセージの転送が必要である場合、グループIDをキーとしてグループ情報テーブル11aを検索する。そして、グループ化機能部12bは、グループIDに対応するレコードが存在した場合には、そのレコードに「中継」を追加する。ここで、既に「中継」が追加されていた場合には、追加を行う必要は無い。
また、グループ化機能部12bは、グループIDに対応するレコードが存在しない場合には、新たにレコードを生成し、新たに生成されたレコードに対して「中継」を記録する。そして、グループ化機能部12bは、オーバレイネットワーク機能部12aに対して検索メッセージの送信を依頼する。その後、オーバレイネットワーク機能部12aは、適用されているオーバレイネットワークのメッセージ転送方式に従い、検索メッセージを次の計測エージェントへ向けて送信する。
また、グループ化機能部12bは、検索メッセージの転送が必要か否かをオーバレイネットワーク機能部12aに問い合わせた結果、検索メッセージの転送が必要でない場合(自身が検索メッセージに格納されているグループIDを管理している場合)、グループIDをキーとしてグループ情報テーブル11aを検索する。
その結果、グループ化機能部12bは、グループIDに対応するレコードが存在した場合には、そのレコードに「代表」を追加する。ここで、既に「代表」が追加されていた場合には,追加を行う必要は無い。また、グループ化機能部12bは、グループIDに対応するレコードが存在しない場合には、新たにレコードを作成し、新たに生成されたレコードに対して「代表」を追加する。
その後、グループ化機能部12bは、代表通知メッセージを生成し、自身の識別子を格納する。続いて、グループ化機能部12bは、生成した代表通知メッセージを監視サーバに送信する。ただし、監視サーバが計測結果を送信する計測エージェントを知る必要がない場合には、代表通知メッセージの作成および送信処理は行わなくて良く、自身が代表であることを監視サーバに知らせる必要は無い。
上記した「計測」の役割を持つ計測エージェント10の生成した計測結果は、検索メッセージの転送経路に沿って「代表」の役割を持つ計測エージェントまで届けられる。ここで、計測結果を転送する計測エージェントは、ただ計測結果を転送するだけでなく計測結果を基に障害箇所の絞込みを行う(後に詳述)。このように、障害箇所の絞込みを行った後に計測結果を次の計測エージェントに転送する役割を「中継」と呼ぶ。この「中継」の役割を持つ計測エージェントに対しては、多くの場合、複数の「計測」エージェントから計測結果が送信されることになる。また、「代表」の役割を持つ計測エージェントは、「中継」の役割を持つ計測エージェントにより絞り込まれてきた障害箇所の候補を取りまとめて、監視サーバに報告する役割を持つ。
ここで、グループ化機能部12bによるトポロジ構成処理を説明する。なお、以下に説明する処理は、計測エージェント10が他の計測エージェントから検索メッセージを受信した際に、検索メッセージがオーバレイネットワーク機能部12aからグループ化機能部12bに受け渡される段階で行われることを前提としているが、他の計測エージェントへ検索メッセージを送信する際に、グループ化機能部12bからオーバレイネットワーク機能部12aへ受け渡される段階で行うことも可能である。
まず、グループ化機能部12bは、オーバレイネットワーク機能部12aから受信した検索メッセージに格納されているグループIDを取得する。そして、グループ化機能部12bは、取得したグループIDをキーとしてグループ情報テーブル11aを検索する。その結果、グループ化機能部12bは、グループIDが同一のレコードが存在しない場合には、新たにレコードを作成する。
そして、グループ化機能部12bは、レコードの「下流」の項目に、自身に対して検索メッセージを送信した計測エージェントの識別子を記録する。ここで、検索メッセージは複数の計測エージェント10から受け取ることが多いため、下流の項目には複数の計測エージェント10の識別子が記録される。
続いて、グループ化機能部12bは、グループIDをキーとしてグループ情報テーブル11aを検索し、グループIDに対応するグループにおける自身の役割を把握して、役割が「中継」であるかを判定する。その結果、グループ化機能部12bは、役割が「中継」でない場合には、以降の処理は行わない。
また、グループ化機能部12bは、役割が「中継」である場合には、レコードの「上流」の項目に計測エージェント10の識別子が記録されているか否かを判定し、レコードの「上流」の項目に計測エージェント10の識別子が記録されていない場合には、検索メッセージの送信先となる計測エージェント10の識別子をオーバレイネットワーク機能部12aから取得して、「上流」の項目に記録する。ここで、「計測」の役割を持つ計測エージェントである場合には、検索メッセージを生成した後に,「上流」の追加についてのみ処理を行う。
本発明で対象としているオーバレイネットワークでは、同じグループIDに関する検索メッセージが同じ計測エージェントに複数届いた場合には、その計測エージェントがそれら全てのメッセージを同じ計測エージェントに転送する。そのため、あるグループIDに関して、「上流」は必ず1つとなる。ここで、「上流」と「下流」の関係により計測エージェント間に論理的な接続が確立されていると想定した場合には、同じグループ内の計測エージェントが構成するトポロジが「代表」の役割を持つ計測エージェントを頂点とした階層構造となる。
また、グループ内の計測エージェントが計測結果を基に障害箇所の絞込みを行う際には、この階層構造を利用した分散解析を行う。このように、検索メッセージの転送に基づいたグループ化の結果として階層構造が構成できるオーバレイネットワークならば、Chordによらず適用することが可能である。
計測情報受信部12cは、計測結果を他の計測エージェントから受信し、グループIDをキーとして計測情報データベース11bにその計測結果を保存する。
計測部12dは、提供サーバ20から提供されているサービスの品質を計測する。具体的には、計測部12dは、利用者から設定パラメータとして「計測結果の算出間隔」(例えば、10秒)を受け取った後、計測タイムカウンタを0に設定した上で、提供サーバ20から提供されているサービスの品質の計測を開始する。
計測部12dは、計測タイムカウンタが「計測結果の算出間隔」の10秒以上になった時点で、取得したネットワーク状態に関する情報を基に計測結果を導出し、計測情報データベース11bに格納する。その後、計測タイムカウンタを再び0に設定する。
ここで、計測情報の取得処理について詳しく述べると、計測部12dは、計測タイムカウンタが計測結果の算出間隔の10秒以上になると、提供サーバ20から計測エージェント10に対して送信されているサービスが中継しているルータ群の情報(IPアドレスなどルータを一意に識別できる情報の集合である。以降、「経路」という)を計測する。なお、計測方法としては、計測エージェント10から計測パケットを送信することにより経路を調査するtracerouteの使用や、ルータやスイッチのSNMP情報を取得することにより経路を調査する方法などが適用可能である。
そして、計測部12dは、計測結果の1要素である「経路」に,計測結果である提供サーバ・計測エージェント間の「経路」を設定する。続いて、計測部12dは、受信したサービスに関連するパケットから得られる統計情報を基に、パケットロス率を算出する。なお、パケット到着間隔のゆらぎやサービスの受信レート(例えば、データ量/秒)など、受信しているサービスの品質に関する情報を利用することができる。
その後、計測部12dは、算出されたパケットロス率と予め設定された計測結果の閾値とを比較して、計測結果の1要素である「受信品質」を決定する。ここでは、計測結果のパケットロス率が「計測結果の閾値」である「1%」を超えている場合には、受信品質を「NG」、一方超えていない場合には、受信品質を「OK」と設定する。また、ここでは、パケットロス率以外の情報に対して「計測結果の閾値」を比較して、受信品質を決定することも可能である。
そして、計測部12dは、グループIDをキーとして計測情報データベース11bを検索し、グループIDに対応するレコードが存在しない場合には、新たなレコードを作成して計測結果(受信品質と経路のペア)を記録する。なお、ここで計測結果の算出時刻など追加の情報を、併せて記録することも可能である。
また、計測部12dは、グループIDに対応するレコードが存在する場合には、レコードの計測結果(受信品質と経路のペア)を更新する。なお、このとき追加の情報について併せて更新することも可能である。
計測情報解析部12eは、受信された計測の結果を基に、障害箇所の候補を絞り込む。具体的には、計測情報解析部12eは、利用者から設定パラメータとして「計測結果の読み出し間隔」(例えば、10秒)、「計測結果の閾値」(例えば、パケットロス率1%)を受け取った後、読み出しタイムカウンタも0に設定する。なお、この「計測結果の閾値」は、パケットロス率に限らず、パケット到着間隔のゆらぎなど、受信するサービスの品質に関連する情報ならば適用可能である。
そして、計測情報解析部12eは、読み出しタイムカウンタが「計測結果の読み出し間隔」の10秒以上になった時点で計測情報データベース11bから計測結果を読み出し、自身の役割(計測、中継、代表)に則した処理を行う。その後、計測情報解析部12eは、読み出しタイムカウンタを再び0に設定する。
ここで、自身の役割(計測、中継、代表)に則した処理として、計測情報解析部12eは、計測情報データベース11bから自身が「中継」の役割を持つ計測エージェント10として所属しているグループに関連する計測情報を読み出して、障害箇所を絞り込んだ上で、その結果を他の計測エージェントに送信する旨の要求を計測情報送信部12fに通知する。
また、計測情報解析部12eは、計測情報データベース11bから自身が「代表」の役割を持つ計測エージェント10として所属しているグループに関連する計測情報を読み出して、障害箇所を絞り込んだ上で、その結果を監視サーバ20に送信する旨の要求を計測情報送信部12fに通知する。
ここで、計測エージェントの役割が「中継」および「代表」である場合の障害箇所の絞込処理について詳しく説明する。まず、計測情報解析部12eは、「役割」をキーとして「グループ情報テーブル」を検索することにより、計測エージェントの役割が「中継」または「代表」であるグループに対応するグループIDを把握している状態で、グループIDをキーとして計測情報データベース11bを検索する。グループIDに対応するレコードが存在しない場合には、以降の処理は行わない。また、グループIDに対応するレコードが存在する場合には、計測情報解析部12eは、グループIDに対応する全ての計測情報を読み出す。
計測情報解析部12eは、取得した計測結果を基に、計測結果に含まれる経路の中から障害箇所の候補となる部分を抽出し、抽出された障害箇所の候補を計測結果の1要素である「経路」に設定する。
障害箇所の候補となる部分を抽出する方法として、例えば、計測結果解析部12eは、図7に示すように、計測結果を基に、「受信品質」と「経路」の対応表を作成する。ここで、まず「受信品質」がOKである計測情報に含まれる「経路」に含まれるリンク(ルータの識別子のペア)を対応表から除外する。そして、残った「リンク」の中から「受信品質」がNGの計測結果全てに含まれる「リンク」を障害箇所の候補として抽出する。しかし、上記の方法に限らず、障害箇所の候補を抽出できる手段であるならば、適用すること
は可能である。
そして、計測情報解析部12eは、障害箇所の候補が残らなかった場合には、以降の処理は行わない。また、測情報解析部12eは、障害箇所の候補が残った場合には、計測結果の1要素である「受信品質」にNGを設定し、計測結果を「計測情報送信部」に受け渡す。
計測情報送信部12fは、計測情報を他の計測エージェントまたは監視サーバ20に送信する。具体的には、計測情報送信部12fは、利用者から設定パラメータとして「監視サーバの識別子」(例えば、「192.168.1.1」)を受け取る。この「監視サーバの識別子」はIPアドレスに限らず、ポート番号など監視サーバが一意に識別できる値ならば何でも利用できる。加えて、「監視サーバの識別子」は計算機の利用者から知らされるのではなく、監視サーバから通知されても良いし、他の計測エージェントから通知されても良い。
計測情報送信部11fは、読み出しタイムカウンタが計測結果の読み出し間隔の10秒以上になった場合には、計測情報送信部12fは計測情報データベース11bから自身が「計測」の役割を持つ計測エージェントとして所属しているグループに関連する計測情報を読み出して、他の計測エージェントに送信する。
計測情報送信部11fは、障害箇所を絞り込んだ結果を他の計測エージェントまたは監視サーバ20に送信する旨の要求を計測情報解析部12eから受け付けると、他の計測エージェントまたは監視サーバ20に障害箇所を絞り込んだ結果を送信する。
計測情報送信部11fは、読み出しタイムカウンタが計測結果の読み出し間隔の10秒以上になると、「役割」をキーとしてグループ情報テーブル11aを検索することにより、計測エージェントの役割が「計測」であるグループに対応するグループIDを把握している。計測情報送信部11fは、グループIDをキーとして計測情報データベース11bを検索する。計測情報送信部11fは、グループIDに対応するレコードが存在しない場合、以降の処理は行わない。計測情報送信部11fは、グループIDに対応するレコードが存在する場合、計測情報を読み出す。
そして、計測情報送信部11fは、グループIDをキーとしてグループ情報テーブル11aを検索することにより、計測結果の送信先である「上流」の計測エージェントのIPアドレスとポート番号を取得する。続いて、計測情報送信部11fは、計測結果を「上流」の計測エージェントへ送信する。
[監視サーバの構成]
次に、図8を用いて、図1に示した監視サーバ20の構成を説明する。図8は、実施例1に係る監視サーバ20の構成を示すブロック図である。同図に示すように、この監視サーバ20は、計測結果情報データベース21a、解析結果データベース21b、計測情報受信部22a、計測情報解析部22b、障害箇所公開部22cを備える。以下にこれらの各部の処理を説明する。
計測結果情報データベース21aは、後述する計測情報受信部22aが代表計測エージェント10から受信した計測結果を記憶する。具体的には、計測結果情報データベース21aは、「受信品質」がNGである「経路」を記憶する。
解析結果データベース21bは、後述する計測情報解析部22bによって解析された結果を記憶する。具体的には、解析結果データベース21bは、図10に示すように、抽出された障害箇所の候補から障害箇所として特定された特定結果を記憶する。
計測情報受信部22aは、代表計測エージェント10から計測結果を受信する。具体的には、計測情報受信部22aは、管理者からの起動要求に応じて、計測エージェント10から計測結果の受信を開始し、代表計測エージェント10から計測結果を受信する。
計測情報解析部22bは、計測結果に含まれる経路の中から障害箇所を特定する。具体的には、計測情報解析部22bは、監視サーバが起動した後、管理者から「計測結果の読み出し間隔」の情報を受け取る。例えば、計測結果の読み出し間隔として「10(秒)」を受け取る。なお、「計測結果の読み出し間隔」は、起動時に管理者が引数として入力しても良いし、設定ファイルなどから読み込んでも良い。
次に、計測情報解析部22bは、タイムカウンタを0に設定した上で、計測情報受信部22aに計測エージェントからの計測結果の受信待ち受けを開始する旨を通知する。このタイムカウンタは、一定の間隔ごとに増加していくものとする。例えば、「1秒ごと」にタイムカウンタは1増加する。
そして、計測情報解析部22bは、タイムカウンタが計測結果の読み出し間隔である10より大きくなった段階で、計測結果データベース21aから受信した計測結果を読み出す。そして、計測情報解析部22bは、読み出しが完了した後にタイムカウンタを0に更新する。続いて、計測情報解析部22bは、読み出された計測結果を基に、障害箇所を特定するための解析処理を行い、その結果を解析結果データベース21bに格納する。
ここで、計測情報解析部22bは、障害箇所を特定するための解析処理として、計測結果に含まれる経路の中から障害箇所を特定する。つまり、計測結果解析部22bは、「中継」および「代表」の計測エージェント10によって絞り込まれた受信品質がNGの経路の中から、障害箇所となる部分を特定する。なお、障害箇所の候補となる部分を特定する方法としては、どのような方法を採用しても良く、例えば、受信品質がNGの経路に含まれるリンクを全て障害箇所として特定しても良い。
障害箇所公開部22cは、障害箇所の特定結果を様々なネットワークエンティティ(ルータ、計算機、計測エージェントなど、障害箇所に関する情報を利用できる全ての実体)に対して公開する。具体的には、障害箇所公開部22cは、管理者からの起動要求に応じて、接続用インタフェースをオープンする。
その後、障害箇所公開部22cは、ネットワークエンティティからの要求に対して解析結果データベース21bから解析結果を読み出し、特定した障害箇所をネットワークエンティティに対して公開する。なお、ここでは監視サーバが予めネットワークエンティティのIPアドレスやポート番号を把握しており、定期的に解析結果を計測エージェントへ報告しても良いし、Web上に公開する方法も考えられる。
[ネットワーク障害検知システムによる処理]
次に、図11〜図23を用いて、実施例1に係るネットワーク障害検知システムの監視サーバおよび計測エージェントによる処理を説明する。図11は、実施例1に係る監視サーバの処理動作の全体を示すフローチャートであり、図12は、実施例1に係る計測エージェントの処理動作の全体を示すフローチャートであり、図13〜図22は、実施例1に係る計測エージェントによる処理の流れを詳細に示すフローチャートであり、図23は、実施例1に係る監視サーバによる計測結果取得後の詳細な処理動作を示すフローチャートである。
まず、図11を用いて、実施例1に係る監視サーバの処理動作を説明する。監視サーバ20は、管理者からの起動要求を受け付けて、起動した場合には(ステップS1肯定)、設定パラメータとして「計測結果の読み出し間隔」を管理者から受け取る(ステップS2)。
続いて、監視サーバ20は、タイムカウンタが計測結果の読み出し間隔である10より大きくなった段階で、計測結果データベース21aから受信した計測結果を計測結果データベース21aから読み出す(ステップS3)。
その後、監視サーバ20は、読み出された情報を基に、解析処理を行って障害箇所を特定し、その結果を解析結果データベース21bに格納する(ステップS4)。そして、監視サーバ20は、ネットワークエンティティからの要求に対して解析結果データベース21bから解析結果を読み出し、特定した障害箇所をネットワークエンティティに対して公開する(ステップS5)。
次に、図12を用いて、実施例1に係る計測エージェントの全体の処理を説明する。まず、計測エージェント10は、計算機の利用者によるサービス受信用アプリケーションの起動と連動して、計測エージェントのソフトウェアは起動されると(ステップS11肯定)、利用者から設定パラメータとして「計測結果の算出間隔」、「計測結果の読み出し間隔」、「計測結果の閾値」、「監視サーバの識別子」の情報を受け取る(ステップS12)。なお、これらの情報は、起動時に計算機の利用者が引数として入力しても良いし、設定ファイルなどから読み込んでも良い。
そして、計測エージェント10は、オーバレイネットワークへ参加する手続きを行って既にオーバレイネットワークに参加している幾つかの計測エージェントとの間で仮想的なリンクを確立し、複数の計測エージェント10との間で検索メッセージを交換することにより、同じ提供サーバ20からサービスを受信している計測エージェント10を集めてグループを構成する処理(後に図13を用いて詳述)を行う(ステップS13)。
その後、計測エージェント10は、計測情報データベース11bに格納された計測結果を取得し(ステップS14)、自身の役割(計測、中継、代表)に則して、その計測結果から障害箇所を絞り込む処理(後に、図18を用いて詳述)を行う(ステップS15)。
次に、図13を用いて実施例1に係る計測エージェントによるグループ分け処理を説明する。図13は、実施例1に係る計測エージェントによるグループ分け処理の流れを示す
フローチャートである。
同図に示すように、計測エージェント10のグループ化機能部12bは、オーバレイネットワーク機能部12aと連携して、計測エージェント10に固有の識別子を割り当てた上でオーバレイネットワークへ参加させる(ステップS21)。そして、グループ化機能部12bは、オーバレイネットワークに参加している他の計測エージェントの中で、同じ提供サーバからサービスを受信している計測エージェントを集めて同じグループに所属させる(ステップS22)。
続いて、グループ化機能部12bは、各グループにおける計測エージェントの役割(計測、中継、代表)を把握する処理(後に、図14〜16を用いて詳述)を行う(ステップS23)。その後、グループ化機能部12bは、計測エージェント間に仮想的なリンクを確立することにより、グループ内の計測エージェントのトポロジを構成する処理(後に、図17を用いて詳述)を行う(ステップS24)。
次に、図14〜16を用いて実施例1に係る計測エージェントによるグループ内での役割の把握処理を説明する。図14〜図16は、実施例1に係る計測エージェントによるグループ内での役割の把握処理の流れを示すフローチャート図である。
図14に示すように、計測エージェント10のグループ化機能部12bは、現在計測エージェントに対してサービスを提供している提供サーバの識別子をパケットから取得しているかを判定する(ステップS31)。つまり、グループ化機能部12bは、提供サーバからのパケットを自計測エージェント10がモニタリングしているかを判定する。
そして、グループ化機能部12bは、提供サーバの識別子を取得している場合には(ステップS31肯定)、提供サーバの識別子をオーバレイネットワーク機能部12aに通知し、提供サーバに対応するID(グループID)を取得する(ステップS33)。
続いて、グループ化機能部12bは、グループIDをキーとしてグループ情報テーブル11aを検索する(ステップS34)。検索の結果、グループIDに対応するレコードが存在した場合には(ステップS35肯定)、そのレコードに「計測」を追加する(ステップS36)。また、グループIDに対応するレコードが存在しない場合には(ステップS35否定)、新たにレコードを作成し(ステップS39)、新たに生成されたレコードに対して「計測」を記録する(ステップS40)。
その後、グループ化機能部12bが検索メッセージを生成し(ステップS37)、オーバレイネットワーク機能部12aは、その検索メッセージを次の計測エージェントへ向けて送信する(ステップS38)。
また、提供サーバの識別子を取得していない場合には(ステップS31否定)、他の計測エージェントから検索メッセージを受信したか判定する(ステップS32)。その結果、グループ化機能部12bは、他の計測エージェントから検索メッセージを受信した場合には(ステップS32肯定)、図15に示すように、検索メッセージに格納されているグループIDを取得し(ステップS41)、検索メッセージの転送が必要か否かをオーバレイネットワーク機能部12aに問い合わせる(ステップS42)。
その結果、グループ化機能部12bは、まだ検索メッセージの転送が必要である場合には(ステップS42肯定)、グループIDをキーとしてグループ情報テーブル11aを検索する(ステップS43)。そして、グループ化機能部12bは、グループIDに対応するレコードが存在した場合には(ステップS44肯定)、そのレコードに「中継」を追加する(ステップS45)。
また、グループ化機能部12bは、グループIDに対応するレコードが存在しない場合には(ステップS44否定)、新たにレコードを生成し(ステップS47)、新たに生成されたレコードに対して「中継」を記録する(ステップS48)。その後、オーバレイネットワーク機能部12aは、適用されているオーバレイネットワークのメッセージ転送方式に従い、検索メッセージを次の計測エージェントへ向けて送信する(ステップS46)。
また、グループ化機能部12bは、検索メッセージの転送が必要か否かをオーバレイネットワーク機能部12aに問い合わせた結果、検索メッセージの転送が必要でない場合(ステップS42否定)、図16に示すように、グループIDをキーとしてグループ情報テーブル11aを検索する(ステップS52)。
その結果、グループ化機能部12bは、グループIDに対応するレコードが存在した場合には(ステップS53肯定)、そのレコードに「代表」を追加する(ステップS54)。また、グループ化機能部12bは、グループIDに対応するレコードが存在しない場合には(ステップS53否定)、新たにレコードを作成し(ステップS55)、新たに生成されたレコードに対して「代表」を追加する(ステップS56)。
その後、グループ化機能部12bは、代表通知メッセージを生成する(ステップS57)。続いて、グループ化機能部12bは、生成した代表通知メッセージを監視サーバに送信する(ステップS58)。
次に、図17を用いて実施例1に係る計測エージェントによるグループ内でのトポロジ構成処理を説明する。図17は、実施例1に係る計測エージェントによるグループ内でのトポロジ構成処理の流れを示すフローチャートである。
同図に示すように、計測エージェント10のグループ化機能部12bは、オーバレイネットワーク機能部12aから受信した検索メッセージに格納されているグループIDを取得すると(ステップS61肯定)、取得したグループIDをキーとしてグループ情報テーブル11aを検索する(ステップS62)。その結果、グループ化機能部12bは、グループIDが同一のレコードが存在しない場合には(ステップS63否定)、新たにレコードを作成する(ステップS64)。
そして、グループ化機能部12bは、レコードの「下流」の項目に、自身に対して検索メッセージを送信した計測エージェントの識別子を追加する(ステップS65)。続いて、グループ化機能部12bは、グループIDをキーとしてグループ情報テーブル11aを検索し、グループIDに対応するグループにおける自身の役割を把握して、役割が「中継」であるかを判定する(ステップS66)。その結果、グループ化機能部12bは、役割が「中継」でない場合には(ステップS66否定)、以降の処理は行わない。
また、グループ化機能部12bは、役割が「」である場合には(ステップS66肯定)、レコードの「上流」の項目に計測エージェント10の識別子が記録されているか否かを判定し(ステップS67)、レコードの「上流」の項目に計測エージェント10の識別子が記録されていない場合には(ステップS67否定)、検索メッセージの送信先となる計測エージェント10の識別子をオーバレイネットワーク機能部12aから取得して、「上流」の項目に記録する(ステップS68)。また、グループ化機能部12bは、レコードの「上流」の項目に計測エージェント10の識別子が記録している場合には(ステップS67肯定)、そのまま処理を終了する。
次に、図18を用いて実施例1に係る計測エージェントによる障害箇所絞込処理を説明する。図18は、実施例1に係る計測エージェントによる障害箇所絞込処理の流れを示すフローチャートである。
同図に示すように、計測エージェント10の計測部12dは、計測タイムカウンタが計測結果の算出間隔の10秒以上になった場合(ステップS71)、計測結果を算出して(後に、図19を用いて詳述)、計測情報データベース11bに格納する(ステップS72)。そして、計測情報送信部11fは、読み出しタイムカウンタが計測結果の読み出し間隔の10秒以上になった場合(ステップS73肯定)、計測情報送信部12fは計測情報データベース11bから自身が「計測」の役割を持つ計測エージェントとして所属しているグループに関連する計測情報を読み出して、他の計測エージェントに送信する処理(後に、図20を用いて詳述)を行う(ステップS74)。
そして、計測情報解析部12eは、計測情報データベース11bから自身が「中継」の役割を持つ計測エージェント10である場合には(ステップS75肯定)、所属しているグループに関連する計測情報を読み出して、障害箇所を絞り込んだ上で(ステップS76)、計測情報送信部12fがその結果を他の計測エージェントに送信処理(後に、図21を用いて詳述)を行う(ステップS77)。
続いて、計測情報解析部12eは、計測情報データベース11bから自身が「代表」の役割を持つ計測エージェント10である場合には(ステップS78肯定)、所属しているグループに関連する計測情報を読み出して、障害箇所を絞り込んだ上で(ステップS79)、計測情報送信部12fがその結果を監視サーバ20に送信処理(後に、図22を用いて詳述)を行う(ステップS80)。
次に、図19を用いて実施例1に係る計測エージェントによる計測情報の取得処理を説明する。図19は、実施例1に係る計測エージェントによる計測情報の取得処理の流れを示すフローチャートである。ここでは、計測タイムカウンタが計測結果の算出間隔の10秒以上になった時点における処理について説明する。なお、以降の処理が終了した段階で、計測タイムカウンタは0にリセットされるものとする。
同図に示すように、計測エージェント10の計測部12dは、「経路」を計測し(ステップS81)、計測部12dは、計測結果の1要素である「経路」に,計測結果である提供サーバ・計測エージェント間の「経路」を設定する(ステップS82)。続いて、計測部12dは、受信したサービスに関連するパケットから得られる統計情報を基に、パケットロス率を算出する(ステップS83)。
その後、計測部12dは、算出されたパケットロス率と予め設定された計測結果の閾値とを比較して(ステップS84)、計測結果のパケットロス率が「計測結果の閾値」である「1%」を超えている場合には(ステップS85肯定)、受信品質を「NG」と設定し(ステップS86)、一方、超えていない場合には(ステップS85否定)、受信品質を「OK」と設定する(ステップS87)。
そして、計測部12dは、グループIDをキーとして計測情報データベース11bを検索し(ステップS88)、グループIDに対応するレコードが存在しない場合には(ステップS89否定)、新たなレコードを作成して(ステップS90)、計測結果(受信品質と経路のペア)を記録する(ステップS91)。
また、計測部12dは、グループIDに対応するレコードが存在する場合には(ステップS89肯定)、レコードの計測結果(受信品質と経路のペア)を更新する(ステップS92)。
次に、図20を用いて計測エージェントの役割が計測である場合の計測情報送信処理を説明する。計測エージェントの役割が計測である場合の計測情報送信処理の流れを示すフローチャートである。ここでは、読み出しタイムカウンタが計測結果の読み出し間隔の10秒以上になった時点における処理について説明する。以降の処理が完了した段階で、読み出しタイムカウンタは0に更新される。
同図に示すように、計測エージェント10の役割が「計測」であるグループに対応するグループIDを把握している状態で、計測情報送信部11fは、グループIDをキーとして計測情報データベース11bを検索する(ステップS101)。そして、計測情報送信部11fは、グループIDに対応するレコードが存在しない場合には(ステップS102否定)、以降の処理は行わない。また、計測情報送信部11fは、グループIDに対応するレコードが存在する場合(ステップS102肯定)、計測情報を読み出す(ステップS103)。
そして、計測情報送信部11fは、グループIDをキーとしてグループ情報テーブル11aを検索することにより、計測結果の送信先である「上流」の計測エージェントのIPアドレスとポート番号を取得する(ステップS104)。続いて、計測情報送信部11fは、計測結果を「上流」の計測エージェントへ送信する(ステップS105)。
次に、図21を用いて計測エージェントの役割が中継である場合の絞込結果送信処理を説明する。計測エージェントの役割が中継である場合の絞込結果送信処理の流れを示すフローチャートである。なお、ここでは、読み出しタイムカウンタが計測結果の読み出し間隔の10秒以上になった時点における処理について説明する。以降の処理が完了した段階で、読み出しタイムカウンタは0に更新される。
同図に示すように、計測エージェント10の計測情報解析部12eは、「役割」をキーとして「グループ情報テーブル」を検索することにより、計測エージェントの役割が「中継」であるグループに対応するグループIDを把握している状態で、グループIDをキーとして計測情報データベース11bを検索する(ステップS111)。グループIDに対応するレコードが存在しない場合には(ステップS112否定)、以降の処理は行わない。また、グループIDに対応するレコードが存在する場合には(ステップS112肯定)、計測情報解析部12eは、グループIDに対応する全ての計測情報を読み出す(ステップS113)。
計測情報解析部12eは、取得した計測結果を基に、計測結果に含まれる経路の中から障害箇所の候補となる部分を抽出し、抽出された障害箇所の候補を計測結果の1要素である「経路」に設定する(ステップS114)。
そして、計測情報解析部12eは、抽出した結果、障害箇所の候補が残らなかった場合には(ステップS115否定)、以降の処理は行わない。また、測情報解析部12eは、障害箇所の候補が残った場合には(ステップS115肯定)、計測結果の1要素である「受信品質」にNGを設定し(ステップS116)、計測結果を計測情報送信部12eに受け渡す。そして、計測情報送信部12eは、グループIDをキーとしてグループ情報テーブル11aを検索することにより(ステップS117)、計測結果の送信先である「上流」の計測エージェントのIPアドレスとポート番号を取得し、計測結果を「上流」の計測エージェントへ送信する(ステップS118)。
次に、図22を用いて計測エージェントの役割が代表である場合の絞込結果送信処理を説明する。図22は、計測エージェントの役割が代表である場合の絞込結果送信処理の流れを示すフローチャートである。なお、ここでは、読み出しタイムカウンタが計測結果の読み出し間隔の10秒以上になった時点における処理について説明する。以降の処理が完了した段階で、読み出しタイムカウンタは0に更新される。
同図に示すように、計測エージェント10は、「計測情報解析部」は,「役割」をキーとして「グループ情報テーブル」を検索することにより,計測エージェントの役割が「代表」であるグループに対応するグループIDを把握している状態で、グループIDをキーとして計測情報データベース11bを検索する(ステップS121)。グループIDに対応するレコードが存在しない場合には(ステップS122否定)、以降の処理は行わない。また、グループIDに対応するレコードが存在する場合には(ステップS122肯定)、計測情報解析部12eは、グループIDに対応する全ての計測情報を読み出す(ステップS123)。
計測情報解析部12eは、取得した計測結果を基に、計測結果に含まれる経路の中から障害箇所の候補となる部分を抽出し、抽出された障害箇所の候補を計測結果の1要素である「経路」に設定する(ステップS124)。
そして、計測情報解析部12eは、抽出した結果、障害箇所の候補が残らなかった場合には(ステップS125否定)、以降の処理は行わない。また、計測情報解析部12eは、障害箇所の候補が残った場合には(ステップS125肯定)、計測結果の1要素である「受信品質」にNGを設定し(ステップS126)、計測結果を計測情報送信部12eに受け渡す(ステップS127)。そして、計測情報送信部12fは、計測結果を監視サーバ20へ送信する(ステップS128)。
次に、図23を用いて監視サーバによる計測結果取得後の詳細な処理を説明する。図23は、実施例1に係る監視サーバによる計測結果取得後の詳細な処理動作を示すフローチャートである。なお、ここでは、読み出しタイムカウンタが計測結果の読み出し間隔の10秒以上になった時点における処理について説明する。以降の処理が完了した段階で、読み出しタイムカウンタは0に更新される。
同図に示すように、監視サーバ20の計測情報解析部22bは、計測情報データベース21aから全ての計測結果を読み出す(ステップS131)。そして、計測情報解析部22bは、取得した計測結果を基に、計測結果に含まれる経路の中から障害箇所の候補となる部分を抽出する(ステップS132)。その結果、計測情報解析部22bは、障害箇所の候補が残らなかった場合には(ステップS133否定)、以降の処理は行わない。
続いて、計測情報解析部22bは、抽出された障害箇所の候補を障害箇所として特定し(ステップS134)、その特定結果を解析結果データベース21bに保存する。その後、障害箇所公開部22cは,解析結果データベース22cから障害箇所に関する情報を取得して、その情報をネットワークエンティティに対して公開する(ステップS135)。
[実施例1の効果]
上述してきたように、ネットワーク障害検知システム1は、同じ提供サーバからサービスを受信している計測エージェント10をグループ化し、計測結果をグループ内の計測エージェント群が分散解析して、監視サーバ20の管理する情報量を減少し、メモリ溢れなどが生じることなくネットワーク上の障害箇所を高速に検出する結果、高い障害検出精度とともに、特に高速な障害検知を可能とする。
さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下では実施例2として本発明に含まれる他の実施例を説明する。
(1)ランダム
上記の実施例1では、提供サーバに対応するIDをグループIDとして取得する場合を説明したが、本発明はこれに限定されるものではなく、ランダムに生成された値を基にグループIDを取得するようにしてもよい。
上記するランダムに生成された値を基にグループIDを取得する処理の具体的な処理手順について図24を用いて説明する。同図にしめすように、まず、計測エージェント10aは、ランダムなIDを生成する(ステップS141)。そして、計測エージェント10aは、そのランダムなIDを管理する計測エージェントを検索し(ステップS142)、発見した計測エージェントのIDをグループIDとして決定する(ステップS143)。以下のS144〜S148の処理については、上述した図14のS34〜S38と同様である。
つまり、計測エージェントが生成したランダムなIDをそのままグループIDとして利用すると、同じIDを生成する計測エージェントが存在しないまたは非常に少なくなるという恐れがあり、その結果、グループの数(グループIDの数)が多くなり、監視サーバに掛かる負荷を減少できないという事態になってしまう。しかし、上記した処理を行うことによって、各計測エージェントの管理するIDの範囲に含まれるランダムなID全てが同一のグループIDとなるので、グループの数が多くなりすぎることはない。
このように、ランダムなIDを用いてグループIDを取得するとともに、監視サーバに掛かる負荷を減少して高速に障害検知することが可能である。
(2)計測エージェントの削除
また、本発明は不要な計測エージェントをグループから削除するようにしてもよい。つまり、図25に示すように、下流の計測エージェントが一つの場合には、下流から受信した計測結果を上流に受け渡すのみなので、必要がなく、不要な計測エージェントとしてグループから削除する処理を行う。
具体的には、グループの「代表」計測エージェントは、グループを再構築するための「グループ再構築メッセージ」を下流に送信する。そして、メッセージを受信した計測エージェントは、下流の計測エージェント数を調査し、下流の計測エージェント数が「1」の場合には、そのメッセージを受信した計測エージェントはグループから離脱し、その削除された計測エージェントにおける下流の計測エージェントに削除した旨のメッセージを転送する。
このように、不要な計測エージェント10を削除するので、削除したエージェントの負荷を軽減し、検出精度を向上することが可能である。
(3)システム構成等
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、計測情報受信部12cと計測部12dを統合してもよい。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、本実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
(4)プログラム
ところで、上記の実施例で説明した各種の処理は、あらかじめ用意されたプログラムをコンピュータで実行することによって実現することができる。そこで、以下では、図26および図27を用いて、上記の実施例と同様の機能を有するプログラムを実行するコンピュータの一例を説明する。図26および図27は、ネットワーク障害検知プログラムを実行するコンピュータを示す図である。
図26に示すように、計測エージェントとしてのコンピュータ600は、HDD610、RAM620、ROM630およびCPU640をバス650で接続して構成される。
そして、ROM630には、上記の実施例と同様の機能を発揮するネットワーク障害検知プログラム、つまり、図26に示すように、オーバレイネットワーク機能プログラム631、グループ化機能プログラム632、計測情報受信プログラム633、計測プログラム634、計測情報解析プログラム635および計測情報送信プログラム636が予め記憶されている。なお、プログラム631〜636については、図2に示した計測エージェント10の各構成要素と同様、適宜統合または分散してもよい。
そして、CPU640が、これらのプログラム631〜636をROM630から読み出して実行することで、図26に示すように、各プログラム631〜636は、オーバレイネットワーク機能プロセス641、グループ化機能プロセス642、計測情報受信プロセス643、計測プロセス644、計測情報解析プロセス645および計測情報送信プロセス646として機能するようになる。各プロセス641〜646は、図2に示したオーバレイネットワーク機能部12a、グループ化機能部12b、計測情報受信部12c、計測部12d、計測情報解析部12e、計測情報送信部12fにそれぞれ対応する。
また、HDD610には、図26に示すように、グループ情報テーブル611および計測情報テーブル612が設けられる。なお、グループ情報テーブル611および計測情報テーブル612は、図2に示したグループ情報テーブル11a、計測情報データベース11bに対応する。そして、CPU640は、グループ情報テーブル611および計測情報テーブル612に対してデータを登録するとともに、グループ情報テーブル611および計測情報テーブル612からグループ情報データ621および計測情報データ622を読み出してRAM620に格納し、RAM620に格納されたグループ情報データ621および計測情報データ622に基づいて情報を管理する処理を実行する。
次に、図27に示すように、監視サーバとしてのコンピュータ700は、HDD710、RAM720、ROM730およびCPU740をバス750で接続して構成される。
そして、ROM730には、上記の実施例と同様の機能を発揮するネットワーク障害検知プログラム、つまり、図27に示すように、計測情報受信プログラム731、計測情報解析プログラム732、障害箇所公開プログラム733が予め記憶されている。なお、プログラム731〜733については、図8に示した計測エージェント10の各構成要素と同様、適宜統合または分散してもよい。
そして、CPU740が、これらのプログラム731〜733をROM730から読み出して実行することで、図27に示すように、各プログラム731〜733は、計測情報受信プロセス741、計測情報解析プロセス742、障害箇所公開プロセス743として機能するようになる。各プロセス741〜743は、図8に示した計測情報受信部22a、計測情報解析部22b、障害箇所公開部22cにそれぞれ対応する。
また、HDD710には、図27に示すように、計測結果情報テーブル711および解析結果テーブル712が設けられる。なお、計測結果情報テーブル711および解析結果テーブル712は、図8に示した計測結果情報データベース21a、解析結果データベース21bに対応する。そして、CPU740は、計測結果情報テーブル711および解析結果テーブル712に対してデータを登録するとともに、計測結果情報テーブル711および解析結果テーブル712から計測結果情報データ721および解析結果データ722を読み出してRAM720に格納し、RAM720に格納された計測結果情報データ721および解析結果データ722に基づいて情報を管理する処理を実行する。
以上のように、本発明に係るネットワーク障害検知システムは、ネットワーク上に配置された計測エージェントが提供サーバによって提供されるサービスの品質を計測し、当該計測の結果を監視サーバが解析して障害箇所を特定することに有用であり、特に、高い障害検出精度とともに、高速な障害検知を行う場合に適する。
図1は、実施例1に係るネットワーク障害検知システムの概要および特徴を説明するための図である。 図2は、実施例1に係る計測エージェントの構成を示すブロック図である。 図3は、グループ情報テーブルを説明するための図である。 図4は、計測情報データベースを説明するための図である。 図5は、P2Pを用いたグループ化機能について説明するための図である。 図6は、計測エージェントが構成するトポロジを説明するための図である。 図7は、障害箇所絞込みを説明するための図である。 図8は、実施例1に係る監視サーバ20の構成を示すブロック図である。 図9は、計測結果情報データベースを説明するための図である。 図10は、解析結果データベース21bを説明するための図である。 図11は、実施例1に係る監視サーバの処理動作の全体を示すフローチャートである。 図12は、実施例1に係る計測エージェントの処理動作の全体を示すフローチャートである。 図13は、実施例1に係る計測エージェントによるグループ分け処理の流れを示すフローチャートである。 図14は、実施例1に係る計測エージェントによるグループ内での役割の把握処理の流れを示すフローチャートである。 図15は、実施例1に係る計測エージェントによるグループ内での役割の把握処理の流れを示すフローチャートである。 図16は、実施例1に係る計測エージェントによるグループ内での役割の把握処理の流れを示すフローチャートである。 図17は、実施例1に係る計測エージェントによるグループ内でのトポロジ構成処理の流れを示すフローチャートである。 図18は、実施例1に係る計測エージェントによる障害箇所絞込処理の流れを示すフローチャートである。 図19は、実施例1に係る計測エージェントによる計測情報の取得処理の流れを示すフローチャートである。 図20は、計測エージェントの役割が計測である場合の計測情報送信処理の流れを示すフローチャートである。 図21は、計測エージェントの役割が中継である場合の絞込送信処理の流れを示すフローチャートである。 図22は、計測エージェントの役割が代表である場合の絞込結果送信処理の流れを示すフローチャートである。 図23は、実施例1に係る監視サーバによる計測結果取得後の詳細な処理動作を示すフローチャートである。 図24は、実施例2に係るネットワーク障害検知システムにおいて、ランダムに生成された値を基にグループIDを取得する処理動作を示すフローチャートである。 図25は、実施例2に係るネットワーク障害検知システムにおいて、不要な計測エージェントをグループから削除する処理を説明するための図である。 図26は、ネットワーク障害検知プログラムを実行するコンピュータを示す図である。 図27は、ネットワーク障害検知プログラムを実行するコンピュータを示す図である。 図28は、従来技術を説明するための図である。
1 ネットワーク障害検知システム
10 計測エージェント
11a グループ情報テーブル
11b 計測情報データベース
12a オーバレイネットワーク機能部
12b グループ化機能部
12c 計測情報受信部
12d 計測部
12e 計測情報解析部
12f 計測情報送信部
20 監視サーバ
21a 計測結果情報データベース
21b 解析結果データベース
22a 計測情報受信部
22b 計測情報解析部
22c 障害箇所公開部

Claims (10)

  1. ネットワーク上に配置された計測エージェントが提供サーバによって提供されるサービスの品質を経路毎に計測し、当該計測の結果を監視サーバが解析して障害箇所を特定するネットワーク障害検知システムであって、
    前記計測エージェントは、
    同一の提供サーバからサービスを受信している他の計測エージェントとグループを構成し、当該グループ内の所定の計測エージェントを頂点としたツリー構造を構築するようにリンクを形成するリンク形成手段と、
    前記ツリー構造における上流に他の計測エージェントが存在する場合に、前記計測の結果または障害箇所の候補を前記上流に存在する他の計測エージェントに送信する送信手段と、
    前記ツリー構造における下流に他の計測エージェントが存在する場合に、前記下流に存在する他の計測エージェントから受信した前記計測の結果または障害箇所の候補に基づいて、前記サービスの品質が所定の閾値以下の経路を特定し、当該経路から障害箇所の候補を絞り込む障害箇所絞込手段と、
    前記ツリー構造の頂点に位置する場合に、前記絞込手段によって絞り込まれた障害箇所の候補を前記監視サーバに送信する障害箇所送信手段と、
    を備え、
    前記監視サーバは、
    前記ツリー構造の頂点に位置する計測エージェントによって送信された前記障害箇所の候補を受信する障害箇所受信手段と、
    前記障害箇所受信手段によって受信された前記障害箇所の候補を基に、障害箇所を特定する障害箇所特定手段と、
    を備えたことを特徴とするネットワーク障害検知システム。
  2. 前記リンク形成手段は、同一の提供サーバからサービスを受信している計測エージェントごとに分けられたグループを一意に識別するグループ識別子を含んだ検索メッセージを複数の計測エージェントによって構成されたオーバレイネットワークに送信して、同一の提供サーバからサービスを受信している計測エージェント同士でツリー構造のリンクを形成することを特徴とする請求項1に記載のネットワーク障害検知システム。
  3. 前記送信手段は、前記リンク形成手段によって前記グループ識別子を含んだ検索メッセージを送信する処理が行われた場合には、前記計測の結果を前記上流に存在する他の計測エージェントに送信することを特徴とする請求項2に記載のネットワーク障害検知システム。
  4. 前記障害箇所絞込手段は、前記リンク形成手段によって他の計測エージェントから前記検索メッセージ受信され、当該検索メッセージをさらに他の計測エージェントに送信する処理が行われた場合には、前記検索メッセージに含まれているグループ識別子に対応するグループにおいて、前記下流に存在する他の計測エージェントから受信した前記計測の結果または障害箇所の候補に基づいて、前記サービスの品質が所定の閾値以下の経路を特定し、当該経路から障害箇所の候補を絞り込むことを特徴とする請求項2に記載のネットワーク障害検知システム。
  5. 前記障害箇所送信手段は、前記リンク形成手段によって他の計測エージェントから前記検索メッセージ受信され、当該検索メッセージを送信する他の計測エージェントが存在しない場合には、前記障害箇所の候補を前記監視サーバに送信することを特徴とする請求項2に記載のネットワーク障害検知システム。
  6. 自機に対して前記検索メッセージを送信した他の計測エージェントの識別子および自機が前記検索メッセージを送信した他の計測エージェントの識別子を、検索メッセージに含まれているグループ識別子ごとに記録するグループ化情報記憶手段をさらに備えることを特徴とする請求項2に記載のネットワーク障害検知システム。
  7. サービスの受信品質および提供サーバと自機との間にある経路情報を計測の結果として、前記グループごとに記憶する計測情報記憶手段をさらに備えることを特徴とする請求項1に記載のネットワーク障害検知システム。
  8. 記送信手段は、前記ツリー構造における上流に他の計測エージェントが存在する場合に、前記計測情報記憶手段によって記憶された前記計測の結果を同一グループ内における他の計測エージェントへ定期的に送信することを特徴とする請求項3または7に記載のネットワーク障害検知システム。
  9. ランダムな値を生成するランダム値生成手段と、
    前記ランダム値生成手段によって生成された前記値を管理する計測エージェントを検索する計測エージェント検索手段と、をさらに備え、
    前記リンク形成手段は、前記エージェント検索手段によって検索された前記計測エージェントの識別子をグループ識別子とし、当該グループ識別子を含んだ検索メッセージを複数の計測エージェントによって構成されたオーバレイネットワークに送信して、リンクを形成することを特徴とする請求項1に記載のネットワーク障害検知システム。
  10. グループを再構築するためのグループ再構築メッセージを同一グループ内の下流に存在する他の計測エージェントに送信する再構築メッセージ送信手段と、
    前記再構築メッセージ送信手段によって送信された前記再構築メッセージを受信すると、同一グループ内の下流に存在する他の計測エージェントの数を調査し、当該他の計測エージェントの数が一である場合には、再構築メッセージを受信した計測エージェントがグループから離脱する計測エージェント削除手段とをさらに備えることを特徴とする請求項1に記載のネットワーク障害検知システム。
JP2009521456A 2007-06-29 2007-06-29 ネットワーク障害検知システム Expired - Fee Related JP4893828B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2007/063176 WO2009004701A1 (ja) 2007-06-29 2007-06-29 ネットワーク障害検知システム、計測エージェント、監視サーバ、ネットワーク障害検知方法およびネットワーク障害検知プログラム

Publications (2)

Publication Number Publication Date
JPWO2009004701A1 JPWO2009004701A1 (ja) 2010-08-26
JP4893828B2 true JP4893828B2 (ja) 2012-03-07

Family

ID=40225771

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009521456A Expired - Fee Related JP4893828B2 (ja) 2007-06-29 2007-06-29 ネットワーク障害検知システム

Country Status (3)

Country Link
US (1) US8615682B2 (ja)
JP (1) JP4893828B2 (ja)
WO (1) WO2009004701A1 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5077104B2 (ja) * 2008-06-30 2012-11-21 富士通株式会社 ネットワーク障害検知プログラム、システム、及び方法
JP5251538B2 (ja) 2009-01-20 2013-07-31 富士通株式会社 異常箇所特定プログラム、異常箇所特定装置、異常箇所特定方法
JP5187278B2 (ja) * 2009-06-17 2013-04-24 富士通株式会社 異常箇所特定プログラム、異常箇所特定装置、異常箇所特定方法
US9338075B2 (en) 2009-10-09 2016-05-10 Nec Europe Ltd. Method for monitoring traffic in a network and a network
JP5564941B2 (ja) 2009-12-28 2014-08-06 富士通株式会社 障害箇所推定システム、障害箇所推定装置および障害箇所推定方法
US9300525B2 (en) * 2010-07-02 2016-03-29 At&T Intellectual Property I, L.P. Method and system to identify a source of signal impairment
JP5534481B2 (ja) * 2010-08-30 2014-07-02 日本電気株式会社 通信品質監視システム、通信品質監視方法、及び記憶媒体
US8725681B1 (en) * 2011-04-23 2014-05-13 Infoblox Inc. Synthesized identifiers for system information database
US8483044B2 (en) * 2011-06-01 2013-07-09 Radvision Ltd. Systems, methods, and media for identifying degraded video call links
JP5822748B2 (ja) * 2012-02-03 2015-11-24 日本電信電話株式会社 情報処理システムおよび情報処理方法
CN104185856B (zh) * 2012-03-28 2017-09-12 索尼公司 信息处理设备、信息处理系统、信息处理方法及程序
US20150058466A1 (en) * 2013-08-21 2015-02-26 Ideaware Inc. Device for server grouping
US9769536B2 (en) 2014-12-26 2017-09-19 System73, Inc. Method and system for adaptive virtual broadcasting of digital content
KR101646029B1 (ko) * 2016-03-28 2016-08-23 주식회사 비알인포텍 Cctv 전원제어장치
US10491454B2 (en) * 2016-06-03 2019-11-26 Vmware, Inc. Methods and systems to diagnose anomalies in cloud infrastructures
US20180270102A1 (en) * 2017-03-15 2018-09-20 Futurewei Technologies, Inc. Data center network fault detection and localization
US20180302305A1 (en) * 2017-04-12 2018-10-18 Futurewei Technologies, Inc. Data center automated network troubleshooting system
US10735268B2 (en) 2017-04-21 2020-08-04 System73 Ltd. Predictive overlay network architecture
TWI670952B (zh) * 2017-08-14 2019-09-01 艾普仕股份有限公司 網路切換控制系統
US10999100B2 (en) * 2017-10-02 2021-05-04 Vmware, Inc. Identifying multiple nodes in a virtual network defined over a set of public clouds to connect to an external SAAS provider
US20190312810A1 (en) * 2018-04-10 2019-10-10 System73 Ltd Adaptive overlay network architecture
US12015536B2 (en) 2021-06-18 2024-06-18 VMware LLC Method and apparatus for deploying tenant deployable elements across public clouds based on harvested performance metrics of types of resource elements in the public clouds
US11943146B2 (en) 2021-10-01 2024-03-26 VMware LLC Traffic prioritization in SD-WAN
US11909815B2 (en) 2022-06-06 2024-02-20 VMware LLC Routing based on geolocation costs

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0637782A (ja) * 1992-07-20 1994-02-10 Hitachi Cable Ltd ネットワーク装置
JPH11275106A (ja) * 1998-03-23 1999-10-08 Toshiba Corp 通信システム
JP2000242585A (ja) * 1999-02-18 2000-09-08 Nippon Telegr & Teleph Corp <Ntt> 大規模ネットワーク遠隔管理方法および大規模ネットワーク遠隔管理プログラムを記録した記録媒体
JP2003249958A (ja) * 2002-02-01 2003-09-05 Microsoft Corp 大規模ネットワークのためのピアツーピアベースのネットワーク性能測定および分析システムおよび方法
JP2006246205A (ja) * 2005-03-04 2006-09-14 Nippon Telegr & Teleph Corp <Ntt> オーバレイネットワーク対応ルーチング方法およびオーバレイノード

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05114899A (ja) * 1991-10-22 1993-05-07 Hitachi Ltd ネツトワーク障害診断方式
GB2362294B (en) * 2000-05-12 2002-06-12 Ericsson Telefon Ab L M Telecommunications network
US7551552B2 (en) 2003-10-17 2009-06-23 Microsoft Corporation Method for providing guaranteed distributed failure notification
US20050132031A1 (en) * 2003-12-12 2005-06-16 Reiner Sailer Method and system for measuring status and state of remotely executing programs
US7581003B2 (en) * 2003-12-31 2009-08-25 Microsoft Corporation System and method for automatic recovery from fault conditions in networked computer services
EP1806657B1 (en) * 2004-10-18 2010-05-26 Fujitsu Ltd. Operation management program, operation management method, and operation management device
JP4527642B2 (ja) 2005-09-29 2010-08-18 富士通株式会社 ネットワーク障害診断装置、ネットワーク障害診断方法およびネットワーク障害診断プログラム
JP5114899B2 (ja) 2006-09-12 2013-01-09 パナソニック株式会社 固体高分子型燃料電池

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0637782A (ja) * 1992-07-20 1994-02-10 Hitachi Cable Ltd ネットワーク装置
JPH11275106A (ja) * 1998-03-23 1999-10-08 Toshiba Corp 通信システム
JP2000242585A (ja) * 1999-02-18 2000-09-08 Nippon Telegr & Teleph Corp <Ntt> 大規模ネットワーク遠隔管理方法および大規模ネットワーク遠隔管理プログラムを記録した記録媒体
JP2003249958A (ja) * 2002-02-01 2003-09-05 Microsoft Corp 大規模ネットワークのためのピアツーピアベースのネットワーク性能測定および分析システムおよび方法
JP2006246205A (ja) * 2005-03-04 2006-09-14 Nippon Telegr & Teleph Corp <Ntt> オーバレイネットワーク対応ルーチング方法およびオーバレイノード

Also Published As

Publication number Publication date
US8615682B2 (en) 2013-12-24
JPWO2009004701A1 (ja) 2010-08-26
US20100100768A1 (en) 2010-04-22
WO2009004701A1 (ja) 2009-01-08

Similar Documents

Publication Publication Date Title
JP4893828B2 (ja) ネットワーク障害検知システム
US8050182B2 (en) Network failure detection system, method, and storage medium
EP2081321A2 (en) Sampling apparatus distinguishing a failure in a network even by using a single sampling and a method therefor
JP5033856B2 (ja) ネットワーク構成の想定のための装置、システム
US9331932B2 (en) Network system
Donnet et al. Internet topology discovery: a survey
CN100388695C (zh) 互联网的域间路由监测与分析系统及其工作方法
US9647921B2 (en) Statistics and failure detection in a network on a chip (NoC) network
JP4412031B2 (ja) ネットワーク監視システム及びその方法、プログラム
WO2012049788A1 (ja) 通信端末およびクラスター監視方法
JP5842641B2 (ja) 通信システム、および生成装置
CN108924011A (zh) 用于ospf+路由协议的监测系统、相关设备、方法及介质
JP4733769B2 (ja) 強連結しているネットワークのノード群におけるノード関係情報の整合性を検査するためのシステム、方法、およびネットワークノード
JP5871908B2 (ja) ネットワーク内部のデータ通信を制御するための方法およびシステム
US9571346B2 (en) Fault tolerant communication system, method, and device that uses tree searching
JP5686027B2 (ja) 仮想マシン環境におけるネットワーク障害検知方法、装置、およびプログラム
Qi et al. A survey of cloud network fault diagnostic systems and tools
JP4464256B2 (ja) ネットワーク上位監視装置
JP3904885B2 (ja) データの配布経路を生成する装置および方法
Morariu et al. Script: a framework for scalable real-time ip flow record analysis
KR20140125223A (ko) 정보 중심 네트워킹 기반의 콘텐츠 네트워크에서 관리 인터페이스를 이용한 정보 수집 방법, 콘텐츠 네트워크 관리 시스템 및 노드 장치
JP2014053658A (ja) 障害部位推定システムおよび障害部位推定プログラム
JP2005277834A (ja) ネットワーク輻輳箇所推定装置、プログラム及びシステム
Lad et al. Inferring the origin of routing changes using link weights
JP2021044684A (ja) ネットワークの接続性確認方式、ネットワークの接続性確認方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110816

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111017

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111122

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111205

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150106

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees