JP2013046372A - Fault detection device, network configuration estimation device and fault detection method - Google Patents

Fault detection device, network configuration estimation device and fault detection method Download PDF

Info

Publication number
JP2013046372A
JP2013046372A JP2011185018A JP2011185018A JP2013046372A JP 2013046372 A JP2013046372 A JP 2013046372A JP 2011185018 A JP2011185018 A JP 2011185018A JP 2011185018 A JP2011185018 A JP 2011185018A JP 2013046372 A JP2013046372 A JP 2013046372A
Authority
JP
Japan
Prior art keywords
configuration
network
information
failure
predicted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011185018A
Other languages
Japanese (ja)
Other versions
JP5653322B2 (en
Inventor
Hajime Hirai
肇 平井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2011185018A priority Critical patent/JP5653322B2/en
Publication of JP2013046372A publication Critical patent/JP2013046372A/en
Application granted granted Critical
Publication of JP5653322B2 publication Critical patent/JP5653322B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)
  • Telephonic Communication Services (AREA)

Abstract

PROBLEM TO BE SOLVED: To obtain a fault detection device which can detect a fault in a short time while tracking a configuration change at low cost.SOLUTION: A fault detection device comprises: a trap acquisition unit 11 which acquires a configuration change notification indicating a change in a network configuration; a configuration acquisition unit 13 which finds information on the network configuration on the basis of information indicating a network configuration and the configuration change notification; a configuration prediction unit 14 which finds a predicted configuration of the network on the basis of a redundancy configuration acquired from the apparatuses constituting the network; and a fault probability table management unit 12 which, after estimating a corresponding fault spot on the basis of a fault occurrence notification and configuration information indicating the contents of faults and a fault probability table indicating the probability of source spots per content of fault, finds a fault probability table per content of configuration change in the predicted configuration beforehand as a predicted fault probability table and, when a configuration change notification is received, replaces fault probability information used in estimating fault spots with the predicted fault probability table corresponding to the content of a configuration change based on the notification.

Description

本発明は、障害検出装置、ネットワーク構成推定装置および障害検出方法に関する。   The present invention relates to a failure detection device, a network configuration estimation device, and a failure detection method.

仮想化技術の発展を背景として、従来は企業や団体などの組織が個別に保有・管理していた情報システムを集約して共用型情報システムを構築することが考えられている。共用型情報システムを円滑に運用するためには、ネットワーク管理コストの圧縮が重要であり、特に、現在のネットワーク管理において大きな割合を占める障害発生時の対処の効率化が重要になる。   With the development of virtualization technology, it is considered to construct a shared information system by consolidating information systems that have been individually owned and managed by organizations such as companies and organizations. In order to smoothly operate the shared information system, it is important to reduce the network management cost, and in particular, it is important to efficiently deal with a failure that occupies a large percentage in the current network management.

共用型情報システムでは、管理対象の拡大に伴う障害情報の量的増加、またサーバやスイッチの仮想化に伴う障害影響範囲の複雑化により、障害情報を得てから原因箇所の検出に至るまでに掛かる時間が個別の情報システムに比べて増える。オペレータは1件のトラブルを処理するのにより多くの時間を要することになり、ネットワーク管理コストの増大を招く。   In a shared information system, the amount of failure information increases with the expansion of management targets, and the range of failure impacts associated with server and switch virtualization increases, resulting in the detection of the cause from failure information. It takes more time than an individual information system. The operator will need more time to process one trouble, resulting in an increase in network management costs.

このような状況に対処する方法として、例えば、特許文献1には、障害確率表と呼ばれるテーブルを利用し、障害情報からその原因となった障害箇所を確率的に求めることで、アラートから原因箇所の特定に至るまでの処理を自動化して時間短縮する試みが開示されている。   As a method for dealing with such a situation, for example, in Patent Document 1, a table called a failure probability table is used, and the failure location that caused the failure is obtained probabilistically from the failure information. Attempts to shorten the time by automating the process up to the identification of the above have been disclosed.

特開2007−124057号公報JP 2007-124057 A

しかしながら、上記の障害確率表を用いるネットワーク障害監視方法によれば、ネットワーク構成が変わると通知内容との因果関係も変わるため確率表を更新して用いることになる。このため、新しい構成に基づく確率表が生成されるまではこのネットワーク障害監視方法を使用できないか、または使用できたとしても推定精度が低下しオペレータによる作業を伴う。従って、その間に発生した障害の検出には時間を要し、平均的な障害対処時間が増加する、という問題がある。構成変更が頻繁に発生する共用型情報システムでは、推定精度を維持しつつ更なる時間短縮を達成することが求められる。   However, according to the network failure monitoring method using the failure probability table described above, the causal relationship with the notification content also changes when the network configuration changes, so the probability table is updated and used. For this reason, this network failure monitoring method cannot be used until a probability table based on a new configuration is generated, or even if it can be used, the estimation accuracy is lowered and the operation by the operator is involved. Accordingly, there is a problem that it takes time to detect a failure occurring during that time, and an average failure handling time increases. In a shared information system in which configuration changes frequently occur, it is required to achieve further time reduction while maintaining estimation accuracy.

一方、多くのネットワーク機器では電源,回線などの冗長化を行っている。従って、現在の構成における冗長化設定において予備構成として設定されている構成の障害確率表を事前に生成しておくことにより、予備構成への構成変更発生時の推定精度の低下を防いで障害検出時間を短縮することができる。しかし、ネットワークを構成する機器は多数存在し、全ての冗長切り替えパターンに対応する障害確率表を最初から生成しておくのは現実的でない、という問題がある。   On the other hand, many network devices have redundant power supplies and lines. Therefore, by generating in advance the failure probability table of the configuration set as the standby configuration in the redundancy configuration in the current configuration, failure detection is prevented by preventing a decrease in estimation accuracy when a configuration change to the standby configuration occurs Time can be shortened. However, there are a large number of devices constituting the network, and it is not practical to generate a failure probability table corresponding to all redundant switching patterns from the beginning.

本発明は、上記に鑑みてなされたものであって、少ないコストで構成変更に追随しながら短時間で障害検出を行うことができる障害検出装置、ネットワーク構成推定装置および障害検出方法を得ることを目的とする。   The present invention has been made in view of the above, and provides a failure detection device, a network configuration estimation device, and a failure detection method capable of detecting a failure in a short time while following a configuration change at a low cost. Objective.

上述した課題を解決し、目的を達成するために、本発明は、前記ネットワークの構成の変化を示す構成変化通知を取得するネットワーク情報取得部と、あらかじめ定められた前記ネットワークの構成を示す情報と前記構成変化通知とに基づいて前記ネットワークの構成情報を求める構成取得部と、前記ネットワークを構成する機器から当該機器に設定されている冗長構成を取得し、前記冗長構成に基づいて前記ネットワークの予測される構成である予測構成を求める構成予測部と、障害の内容を示す障害発生通知と前記構成情報と障害の内容ごとの原因箇所である確率を示す障害確率情報とに基づいて、前記障害発生通知に対応する障害箇所を推定する障害箇所検出部と、前記予測構成に基づいて、前記予測構成における構成変化の内容ごとの前記障害確率情報を予測障害確率情報として求めておき、前記構成変化通知を受けた場合に、前記障害箇所検出部で用いる障害確率情報を当該通知に基づく構成変化の内容に対応する前記予測障害確率情報に置き換える障害確率管理部と、を備えることを特徴とする。   In order to solve the above-described problems and achieve the object, the present invention provides a network information acquisition unit that acquires a configuration change notification that indicates a change in the configuration of the network, and information that indicates a predetermined configuration of the network. A configuration acquisition unit that obtains configuration information of the network based on the configuration change notification, a redundant configuration set in the device from the devices that configure the network, and a prediction of the network based on the redundant configuration The failure occurrence based on a configuration prediction unit for obtaining a predicted configuration that is a configuration to be configured, a failure occurrence notification indicating the content of the failure, the configuration information and failure probability information indicating a probability that is a cause location for each failure content A fault location detection unit that estimates a fault location corresponding to the notification, and each content of configuration change in the prediction configuration based on the prediction configuration When the failure probability information is obtained as predicted failure probability information and the configuration change notification is received, the failure probability information used in the failure location detection unit corresponds to the content of the configuration change based on the notification. And a failure probability management unit to be replaced with information.

本発明によれば、少ないコストで構成変更に追随しながら短時間で障害検出を行うことができるという効果を奏する。   According to the present invention, there is an effect that failure detection can be performed in a short time while following a configuration change at a low cost.

図1は、本発明にかかる障害検出装置を含む通信システムの構成例を示す図である。FIG. 1 is a diagram showing a configuration example of a communication system including a failure detection apparatus according to the present invention. 図2は、障害検出装置の構成例を示す図である。FIG. 2 is a diagram illustrating a configuration example of the failure detection apparatus. 図3は、障害確率表の一例を示す図である。FIG. 3 is a diagram illustrating an example of the failure probability table. 図4は、機器情報を管理するテーブルの一例を示す図である。FIG. 4 is a diagram illustrating an example of a table for managing device information. 図5は、隣接情報を管理するテーブルの一例を示す図である。FIG. 5 is a diagram illustrating an example of a table for managing adjacency information. 図6は、構成予測手順の一例を示すフローチャートである。FIG. 6 is a flowchart illustrating an example of the configuration prediction procedure. 図7は、予測される構成とそれに対応して生成する障害確率表との関係を管理するテーブルの一例を示す図である。FIG. 7 is a diagram illustrating an example of a table for managing a relationship between a predicted configuration and a failure probability table generated correspondingly. 図8は、障害確率表管理部が構成変化通知を受けた場合の動作手順の一例を示すフローチャートである。FIG. 8 is a flowchart illustrating an example of an operation procedure when the failure probability table management unit receives a configuration change notification.

以下に、本発明にかかる障害検出装置および方法の実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。   Embodiments of a failure detection apparatus and method according to the present invention will be described below in detail with reference to the drawings. Note that the present invention is not limited to the embodiments.

実施の形態.
図1は、本発明にかかる障害検出装置を含む通信システムの構成例を示す図である。図1に示すように本実施の形態の通信システムは、通信機器1−1〜1−6と、ネットワーク機器2−1〜2−3と、障害検出装置3と、を備える。なお、図1の構成は一例であり、通信機器およびネットワーク機器の台数は図1の例に限定されない。
Embodiment.
FIG. 1 is a diagram showing a configuration example of a communication system including a failure detection apparatus according to the present invention. As shown in FIG. 1, the communication system according to the present embodiment includes communication devices 1-1 to 1-6, network devices 2-1 to 2-3, and a failure detection device 3. The configuration of FIG. 1 is an example, and the number of communication devices and network devices is not limited to the example of FIG.

通信機器1−1〜1−6は、IP(Internet Protocol)による通信機能を有する機器であり、具体的にはパーソナルコンピュータ,サーバなどが該当する。ネットワーク機器2−1〜2−3は、複数の通信機器1を相互に接続して通信する機能を提供する機器であり、これらの機器は固有のハードウェアを備える物理機器であってもよく、またはソフトウェア化された仮想アプライアンスであってもよい。本実施の形態では、これらの各機器によって構成されるネットワークに障害検出装置3を接続して用いる。図中では障害検出装置3をネットワーク機器2−3に接続しているが、他のネットワーク機器(ネットワーク機器2−1またはネットワーク機器2−3)に接続してもよい。   The communication devices 1-1 to 1-6 are devices having a communication function based on IP (Internet Protocol), and specifically correspond to personal computers, servers, and the like. The network devices 2-1 to 2-3 are devices that provide a function of connecting a plurality of communication devices 1 to each other and communicating with each other, and these devices may be physical devices including specific hardware, Alternatively, it may be a software virtual appliance. In the present embodiment, the failure detection device 3 is connected to a network constituted by these devices. Although the failure detection apparatus 3 is connected to the network device 2-3 in the drawing, it may be connected to another network device (network device 2-1 or network device 2-3).

図2は、本実施の形態の障害検出装置3の構成例を示す図である。障害検出装置3は、トラップ取得部(ネットワーク情報取得部)11と、障害確率表管理部(障害確率管理部)12と、構成取得部13と、構成予測部14と、を備える。障害検出装置3は、通信機器1−1〜1−6およびネットワーク機器2−1〜2−3で構成されるネットワークを障害監視対象とする。図2では、障害検出装置3が接続されるネットワーク機器2−1〜2−3のいずれかを、代表してネットワーク機器2として示している。   FIG. 2 is a diagram illustrating a configuration example of the failure detection apparatus 3 according to the present embodiment. The failure detection device 3 includes a trap acquisition unit (network information acquisition unit) 11, a failure probability table management unit (failure probability management unit) 12, a configuration acquisition unit 13, and a configuration prediction unit 14. The failure detection apparatus 3 sets a network including the communication devices 1-1 to 1-6 and the network devices 2-1 to 2-3 as a failure monitoring target. In FIG. 2, one of the network devices 2-1 to 2-3 to which the failure detection device 3 is connected is shown as a network device 2 as a representative.

トラップ取得部11は、ネットワークに接続された機器からメッセージを取得し、その内容に応じて障害確率表管理部12または構成取得部13に振り分けて通知する。具体的には、例えば、メッセージが現在のネットワークの状態に関する情報(状態情報)であった場合には、構成予測部14へ通知し、メッセージが、ネットワーク構成が変化したことを示す情報であった場合には障害確率表管理部12と構成取得部13の両方に構成変化通知を出力し、メッセージが障害発生通知であった場合には、障害確率表管理部12に通知する。   The trap acquisition unit 11 acquires a message from a device connected to the network, and distributes and notifies the failure probability table management unit 12 or the configuration acquisition unit 13 according to the content. Specifically, for example, when the message is information (status information) related to the current network status, the configuration prediction unit 14 is notified, and the message is information indicating that the network configuration has changed. In this case, a configuration change notification is output to both the failure probability table management unit 12 and the configuration acquisition unit 13, and when the message is a failure occurrence notification, the failure probability table management unit 12 is notified.

障害検出装置3は、ネットワークの障害箇所を推定して、障害箇所推定結果15を出力する。また、障害検出装置3は、外部入力としてネットワーク構成データベース(DB)16を使用することができる。構成取得部13はネットワーク構成データベース16から取得した構成情報を保持・管理し、トラップ取得部11から構成変化通知を受け取った場合には、構成変化通知に基づいて構成情報を更新して構成予測部14へ通知する。   The failure detection device 3 estimates a failure location in the network and outputs a failure location estimation result 15. Further, the failure detection device 3 can use a network configuration database (DB) 16 as an external input. The configuration acquisition unit 13 holds and manages the configuration information acquired from the network configuration database 16, and when receiving the configuration change notification from the trap acquisition unit 11, updates the configuration information based on the configuration change notification and updates the configuration prediction unit 14 is notified.

構成予測部14は、構成取得部13が管理する構成情報とネットワークの状態を示す状態情報とに基づいて構成予測を行い、予測結果を予測構成情報として障害確率表管理部12へ通知する。   The configuration prediction unit 14 performs configuration prediction based on the configuration information managed by the configuration acquisition unit 13 and the state information indicating the state of the network, and notifies the failure probability table management unit 12 of the prediction result as predicted configuration information.

障害確率表管理部12は、障害確率表を保持・管理し、トラップ取得部11からネットワーク構成の状態情報変化を示す状態情報を、当該通知に基づいて障害確率表を更新する。また、障害確率表管理部12は、障害発生通知を受け取った場合、当該通知と障害確率表に基づいて障害箇所を推定し、推定した結果を障害箇所推定結果15として出力する。なお、ここでは障害発生通知と障害確率表に基づく障害箇所の推定方法を用いるとして説明するが、障害発生通知に基づいて確率的に障害箇所の推定する方法であればどのような方法でもよい。なお、本実施の形態では、障害確率表管理部12が障害確率表を保持・管理と、障害箇所検出の両方を行う例を示しているが、障害箇所検出を行う障害箇所検出部を別途備える構成としてもよい。   The failure probability table management unit 12 holds and manages the failure probability table, and updates the failure probability table with the state information indicating the change in the state information of the network configuration from the trap acquisition unit 11 based on the notification. Further, when the failure probability table management unit 12 receives a failure occurrence notification, the failure probability table management unit 12 estimates a failure location based on the notification and the failure probability table, and outputs the estimated result as a failure location estimation result 15. Here, the description will be made assuming that the failure location estimation method based on the failure occurrence notification and the failure probability table is used, but any method may be used as long as the failure location is estimated probabilistically based on the failure occurrence notification. In this embodiment, the failure probability table management unit 12 shows an example in which both the failure probability table is stored and managed and the failure location detection is performed. However, a failure location detection unit that performs failure location detection is additionally provided. It is good also as a structure.

図3は、障害確率表管理部12が保持する障害確率表の一例を示す図である。図3の列には検出され得る障害の種類を示し、行には障害の原因箇所となり得る機器や回線などの構成要素をそれぞれ示している。図3の表内では、機器ごとに、各障害に対して自機器が原因である確率を示している。図中で網掛けとなっているマスは、例えば「障害#3」が検出されたときにその原因箇所が「機器C」である確率が0.8であることを示している。障害#1、障害#2等は、障害の識別子であり、障害の内容と識別子との対応が定められているとする。なお、障害発生通知の内容により障害の識別(障害#1、障害#2等)が可能なように、障害の内容が定義されているとする。障害確率表の生成方法に特に制約はなく、一般的な方法を用いることができる。   FIG. 3 is a diagram illustrating an example of a failure probability table held by the failure probability table management unit 12. The columns of FIG. 3 show types of faults that can be detected, and the rows show components such as devices and lines that can cause faults. In the table of FIG. 3, the probability that the own device is the cause for each failure is shown for each device. The shaded cells in the figure indicate that, for example, when “failure # 3” is detected, the probability that the cause is “device C” is 0.8. Failure # 1, failure # 2, etc. are failure identifiers, and it is assumed that the correspondence between the failure content and the identifier is defined. It is assumed that the content of the failure is defined so that the failure can be identified (failure # 1, failure # 2, etc.) based on the content of the failure occurrence notification. There is no particular limitation on the method for generating the failure probability table, and a general method can be used.

図4は、構成取得部13が保持する構成情報のうち機器情報を管理するテーブルの一例を示す図である。図4では、管理対象となるネットワークを構成する通信機器1−1〜1−6およびネットワーク機器2−1〜2−3に対して、それぞれ一意な識別番号を割り当てて管理を行い、機器情報として種別、名称およびアドレスを含む例を示している。   FIG. 4 is a diagram illustrating an example of a table for managing device information among the configuration information held by the configuration acquisition unit 13. In FIG. 4, management is performed by assigning unique identification numbers to the communication devices 1-1 to 1-6 and the network devices 2-1 to 2-3 constituting the network to be managed. An example including a type, a name, and an address is shown.

図5は、構成取得部13が保持する構成情報のうち隣接情報を管理するテーブルの一例を示す図である。隣接情報では、管理対象となるネットワークを構成する通信機器1−1〜1−6およびネットワーク機器2−1〜2−3に対して、それぞれ当該機器が直接接続する機器との関係を管理する。1台の機器が複数台の機器と接続している場合には、同じ機器識別番号に対して複数のエントリを有し、同じ機器識別番号に複数の隣接機器識別番号が対応づけられる。   FIG. 5 is a diagram illustrating an example of a table for managing adjacent information among the configuration information held by the configuration acquisition unit 13. In the adjacent information, the communication devices 1-1 to 1-6 and the network devices 2-1 to 2-3 configuring the network to be managed manage the relationship with the devices directly connected to the devices. When one device is connected to a plurality of devices, the same device identification number has a plurality of entries, and a plurality of adjacent device identification numbers are associated with the same device identification number.

なお、図3〜図5で示した各情報を示す表またはテーブルは一例であり、同様の情報を管理できる構成であれば、図3〜図5の構成に限定されない。   Note that the tables or tables indicating each piece of information shown in FIGS. 3 to 5 are examples, and are not limited to the configurations shown in FIGS. 3 to 5 as long as similar information can be managed.

図6は、本実施の形態の構成予測手順の一例を示すフローチャートである。まず構成予測部14は、現在のネットワークの状態に関する情報(状態情報)をトラップ取得部11から直接または構成取得部13経由で取得する(ステップS1)。状態情報の具体例として、機器動作エラー通知の増加や生存確認(ICMP Echo)に対する応答の劣化,連続稼働時間,片系故障による切替え発生の通知などがあげられる。   FIG. 6 is a flowchart illustrating an example of a configuration prediction procedure according to the present embodiment. First, the configuration prediction unit 14 acquires information about the current network state (state information) from the trap acquisition unit 11 directly or via the configuration acquisition unit 13 (step S1). Specific examples of the status information include an increase in device operation error notifications, deterioration of responses to survival confirmation (ICMP Echo), continuous operation time, and notification of occurrence of switching due to one-system failure.

次に、構成予測部14は、取得した状態情報の内容を予め設定した閾値と比較し、構成変更が起こり得るかどうかの判断を行う(ステップS2)。例えば、機器動作エラー通知の場合、一定時間内に報告されるエラー通知の回数が予め設定した値を超過した場合に構成変更の可能性ありと判断する。構成変更なしと判断した場合(ステップS2 No)は、後続の予測処理を行わずにステップS1へ戻る。   Next, the configuration prediction unit 14 compares the content of the acquired state information with a preset threshold value, and determines whether a configuration change can occur (step S2). For example, in the case of device operation error notification, it is determined that there is a possibility of configuration change when the number of error notifications reported within a certain time exceeds a preset value. When it is determined that there is no configuration change (No in step S2), the process returns to step S1 without performing the subsequent prediction process.

構成変更ありと判断した場合(ステップS2 Yes)、構成予測部14は、構成取得部13が管理する隣接情報を用いて、対象機器に隣接する機器の一覧を取得する(ステップS3)。次いで、構成予測部14は取得した機器一覧の各エントリに対応する機器に対してトラップ取得部11経由で問い合わせを行い、その機器に設定されている冗長構成の情報(冗長設定情報)を取得し(ステップS4)、全ての機器の冗長設定情報を取得したか否かを判断し(ステップS5)、全ての機器から情報を取得した場合(ステップS5 Yes)はステップS6へ進む。未取得の機器がある場合(ステップS5 No)、ステップS4へ戻る。   If it is determined that there is a configuration change (Yes in step S2), the configuration prediction unit 14 acquires a list of devices adjacent to the target device using the adjacent information managed by the configuration acquisition unit 13 (step S3). Next, the configuration prediction unit 14 makes an inquiry to the device corresponding to each entry of the acquired device list via the trap acquisition unit 11, and acquires information on the redundant configuration set for the device (redundancy setting information). (Step S4), it is determined whether or not redundant setting information of all devices has been acquired (Step S5). If information has been acquired from all devices (Yes in Step S5), the process proceeds to Step S6. If there is an unacquired device (No in step S5), the process returns to step S4.

そして、構成予測部14は、対象機器が離脱したと仮定した場合に当該対象機器の隣接機器が取り得る冗長設定情報を元に予測されるネットワーク構成を求める(ステップS6)。例えば対象機器を第1接続先として設定され、他の機器を第2接続先として接続設定している機器がある場合、接続先を第1接続先である対象機器から第2接続先の機器に変更したとしてネットワーク構成を求める。予測構成は各機器が個別に持つ冗長設定情報に基づいて生成するため、予測構成を求めた後、構成予測部14はネットワーク全体の構成の妥当性評価として予測構成にループや分断がないことを確認する(ステップS7)。妥当でないと判断した場合(ステップS7 No)、ステップS6へ戻り、予測構成の生成をやり直す。妥当と判断した場合(ステップS7 Yes)、求めた予測構成を予測構成情報として障害確率表管理部12に通知し、障害確率表管理部12は予測構成情報に基づいて障害確率表(予測障害確率表)を生成し(ステップS8)、処理を終了する。なお、この時点では、障害発生通知を受信した場合に障害箇所の推定に用いる障害確率表は置き換えない。   Then, the configuration predicting unit 14 obtains a predicted network configuration based on the redundancy setting information that can be taken by the adjacent device of the target device when it is assumed that the target device has detached (step S6). For example, when there is a device in which the target device is set as the first connection destination and another device is set as the second connection destination, the connection destination is changed from the target device that is the first connection destination to the second connection destination device. The network configuration is determined as having been changed. Since the predicted configuration is generated based on the redundant setting information that each device has individually, after obtaining the predicted configuration, the configuration prediction unit 14 confirms that there is no loop or division in the predicted configuration as a validity evaluation of the configuration of the entire network. Confirm (step S7). When it is determined that it is not appropriate (No in step S7), the process returns to step S6, and the generation of the predicted configuration is performed again. If it is determined to be valid (Yes in step S7), the failure probability table management unit 12 is notified of the obtained predicted configuration as predicted configuration information, and the failure probability table management unit 12 determines a failure probability table (predicted failure probability) based on the predicted configuration information. Table) is generated (step S8), and the process is terminated. At this time, when a failure occurrence notification is received, the failure probability table used for estimating the failure location is not replaced.

以上のように、障害検出装置3は、ネットワーク構成を予測するネットワーク構成予測装置としての機能を有する。   As described above, the failure detection device 3 has a function as a network configuration prediction device that predicts a network configuration.

図7は、障害確率表管理部12が保持する、予測される構成とそれに対応して生成する障害確率表(予測障害確率表)との関係を管理するテーブル(障害確率表取得テーブル)の一例を示す図である。図7では、予測される構成が複数存在する(構成変化箇所が複数予測される)場合のテーブルの例を示している。構成変化箇所が複数予測される場合は、構成変化箇所ごとに障害確率表(予測障害確率表)を作成して、各々の障害確率表(予測障害確率表)に識別番号を割り当てておく。図7の構成変化箇所は、図4および図5のテーブルで用いた機器の識別番号を使用して機器を示し、障害確率表番号は、その箇所(その機器)で構成変化が発生した場合の障害確率表(予測障害確率表)の識別番号を示している。   FIG. 7 is an example of a table (failure probability table acquisition table) that manages the relationship between a predicted configuration and a failure probability table (predicted failure probability table) that is generated corresponding to the predicted configuration held by the failure probability table management unit 12. FIG. FIG. 7 shows an example of a table when there are a plurality of predicted configurations (a plurality of configuration change locations are predicted). When a plurality of configuration change locations are predicted, a failure probability table (predicted failure probability table) is created for each configuration change location, and an identification number is assigned to each failure probability table (predicted failure probability table). The configuration change location in FIG. 7 indicates the device using the device identification number used in the tables of FIGS. 4 and 5, and the failure probability table number indicates that the configuration change has occurred at that location (the device). The identification number of the failure probability table (predicted failure probability table) is shown.

図8は、障害確率表管理部12がトラップ取得部11から構成変化通知を受けた場合の動作手順の一例を示すフローチャートである。障害確率表管理部12は、トラップ取得部11から構成変化通知を受けると、障害確率表取得テーブルを検索し(ステップS11)、通知された内容に対応するエントリがあるか否かを判断する(ステップS12)。対応するエントリがある場合(ステップS12 Yes)、直ちに障害箇所の推定に用いる障害確率表を当該エントリの識別子が示す障害確率表に置き換え(ステップS15)、処理を終了する。   FIG. 8 is a flowchart illustrating an example of an operation procedure when the failure probability table management unit 12 receives a configuration change notification from the trap acquisition unit 11. When receiving the configuration change notification from the trap acquisition unit 11, the failure probability table management unit 12 searches the failure probability table acquisition table (step S11) and determines whether there is an entry corresponding to the notified content ( Step S12). If there is a corresponding entry (Yes in step S12), the failure probability table used for estimation of the failure location is immediately replaced with the failure probability table indicated by the identifier of the entry (step S15), and the process ends.

対応するエントリがない場合(ステップS12 No)、障害確率表管理部12は、構成取得部13に現在の構成情報の再取得を行う指示を通知し、構成取得部13は現在の構成情報の再取得を実施する(ステップS13)。そして、構成情報の再取得後、当該構成情報に基づいて再計算して障害確率表を求め(ステップS14)、ステップS15へ進み、障害箇所の推定に用いる障害確率表を求めた障害確率表に置き換える(ステップS15)。   When there is no corresponding entry (No in step S12), the failure probability table management unit 12 notifies the configuration acquisition unit 13 of an instruction to reacquire the current configuration information, and the configuration acquisition unit 13 re-reads the current configuration information. Acquisition is performed (step S13). Then, after re-acquisition of the configuration information, a failure probability table is obtained by recalculation based on the configuration information (step S14), the process proceeds to step S15, and the failure probability table used to estimate the failure location is obtained. Replace (step S15).

なお、本実施の形態では、障害検出装置3を障害検出の監視対象のネットワークに接続して、障害検出装置3は、直接、通信により障害検出通知等の各種情報を取得するようにしたが、これに限らず、障害検出装置3を監視対象のネットワークに接続せず、ネットワークから取得した必要な情報をオフラインで障害検出装置3へ入力ようにしてもよい。   In the present embodiment, the failure detection device 3 is connected to a network to be monitored for failure detection, and the failure detection device 3 directly acquires various information such as a failure detection notification by communication. The present invention is not limited to this, and the failure detection device 3 may be connected to the monitoring target network, and necessary information acquired from the network may be input to the failure detection device 3 offline.

このように、本実施の形態では、予測構成を求めておき、予測構成に対応した障害確率表を(予測障害確率表)を生成して保持しておき、構成変化が発生した場合に、当該構成変化に対応する予測障害確率表で障害箇所の推定に用いる障害確率表を置き換えるようにした。このため、障害発生から間を空けることなく障害確率表の差し替えを行い、構成変更発生時における推定精度の低下を防ぐことができる。   Thus, in this embodiment, a predicted configuration is obtained, a failure probability table corresponding to the predicted configuration is generated and stored (predicted failure probability table), and when a configuration change occurs, The failure probability table used for estimation of failure location is replaced with the predicted failure probability table corresponding to the configuration change. For this reason, it is possible to replace the failure probability table without leaving a gap from the occurrence of a failure, and to prevent a decrease in estimation accuracy when a configuration change occurs.

以上のように、本発明にかかる障害検出装置、ネットワーク構成推定装置および障害検出方法は、ネットワークの障害を検出する障害検出装置に有用であり、特に、予備構成が設定されているネットワークの障害を検出する障害検出装置に適している。   As described above, the failure detection device, the network configuration estimation device, and the failure detection method according to the present invention are useful for a failure detection device that detects a network failure. It is suitable for a failure detection device to detect.

1−1〜1−6 通信機器
2−1〜2−3 ネットワーク機器
3 障害検出装置
11 トラップ取得部
12 障害確率表管理部
13 構成取得部
14 構成予測部
15 障害箇所推定結果
16 ネットワーク構成データベース(DB)
1-1 to 1-6 Communication device 2-1 to 2-3 Network device 3 Failure detection device 11 Trap acquisition unit 12 Failure probability table management unit 13 Configuration acquisition unit 14 Configuration prediction unit 15 Failure location estimation result 16 Network configuration database ( DB)

Claims (6)

ネットワークの構成の変化を示す構成変化通知を取得するネットワーク情報取得部と、
あらかじめ定められた前記ネットワークの構成を示す情報と前記構成変化通知とに基づいて前記ネットワークの構成情報を求める構成取得部と、
前記ネットワークを構成する機器から当該機器に設定されている冗長構成を取得し、前記冗長構成に基づいて前記ネットワークの予測される構成である予測構成を求める構成予測部と、
障害の内容を示す障害発生通知と前記構成情報と障害の内容ごとの原因箇所である確率を示す障害確率情報とに基づいて、前記障害発生通知に対応する障害箇所を推定する障害箇所検出部と、
前記予測構成に基づいて、前記予測構成における構成変化の内容ごとの前記障害確率情報を予測障害確率情報として求めておき、前記構成変化通知を受けた場合に、前記障害箇所検出部で用いる障害確率情報を当該通知に基づく構成変化の内容に対応する前記予測障害確率情報に置き換える障害確率管理部と、
を備えることを特徴とする障害検出装置。
A network information acquisition unit for acquiring a configuration change notification indicating a change in the configuration of the network;
A configuration acquisition unit for obtaining configuration information of the network based on information indicating the configuration of the network determined in advance and the configuration change notification;
A configuration prediction unit that obtains a redundant configuration set in the device from the devices configuring the network and obtains a predicted configuration that is a predicted configuration of the network based on the redundant configuration;
A failure location detection unit that estimates a failure location corresponding to the failure occurrence notification based on the failure occurrence notification indicating the failure content, the configuration information, and failure probability information that indicates a probability that is a cause location for each failure content; ,
Based on the predicted configuration, the failure probability information for each content of the configuration change in the predicted configuration is obtained as predicted failure probability information, and when the configuration change notification is received, the failure probability used in the failure location detection unit A failure probability management unit that replaces the information with the predicted failure probability information corresponding to the content of the configuration change based on the notification;
A failure detection apparatus comprising:
前記ネットワーク情報取得部は、さらにネットワークを構成する機器の状態変化に関する情報である状態情報を前記ネットワークから取得し、
前記構成情報に、前記ネットワーク内の機器の隣接機器に関する情報である隣接情報を含むこととし、
前記構成予測部は、前記状態情報に基づいて前記ネットワークの構成が変化する可能性があると判断した場合に前記予測構成を求める処理を実施し、前記冗長構成として前記隣接情報を用いて変化対象の機器に隣接する隣接機器を求め、前記隣接機器から当該隣接機器に設定されている冗長構成を取得する、ことを特徴とする請求項1に記載の障害検出装置。
The network information acquisition unit further acquires status information that is information related to a status change of devices constituting the network from the network,
The configuration information includes neighboring information that is information related to neighboring devices of the devices in the network,
The configuration prediction unit performs a process for obtaining the predicted configuration when it is determined that the configuration of the network may change based on the state information, and is subject to change using the adjacent information as the redundant configuration The fault detection apparatus according to claim 1, wherein an adjacent device adjacent to the device is obtained, and a redundant configuration set for the adjacent device is acquired from the adjacent device.
前記ネットワークと接続し、前記障害発生通知を前記ネットワークから通信により取得する、ことを特徴とする請求項1または2に記載の障害検出装置。   The failure detection apparatus according to claim 1, wherein the failure detection apparatus is connected to the network and acquires the failure notification from the network through communication. ネットワークの構成の変化を示す構成変化通知を取得するネットワーク情報取得部と、
あらかじめ定められた前記ネットワークの構成を示す情報と前記構成変化通知とに基づいて前記ネットワークの構成情報を求める構成取得部と、
前記ネットワークを構成する機器から当該機器に設定されている冗長構成を取得し、前記冗長構成に基づいて前記ネットワークの予測される構成である予測構成を求める構成予測部と、
を備えることを特徴とするネットワーク構成推定装置。
A network information acquisition unit for acquiring a configuration change notification indicating a change in the configuration of the network;
A configuration acquisition unit for obtaining configuration information of the network based on information indicating the configuration of the network determined in advance and the configuration change notification;
A configuration prediction unit that obtains a redundant configuration set in the device from the devices configuring the network and obtains a predicted configuration that is a predicted configuration of the network based on the redundant configuration;
A network configuration estimation apparatus comprising:
前記ネットワーク情報取得部は、さらにネットワークを構成する機器の状態変化に関する情報である状態情報を取得し、
前記構成情報に、前記ネットワーク内の機器の隣接機器に関する情報である隣接情報を含むこととし、
前記構成予測部は、前記状態情報に基づいて前記ネットワークの構成が変化する可能性があると判断した場合に前記予測構成を求める処理を実施し、前記冗長構成として前記隣接情報を用いて変化対象の機器に隣接する隣接機器を求め、前記隣接機器から当該隣接機器に設定されている冗長構成を取得する、ことを特徴とする請求項4に記載のネットワーク構成推定装置。
The network information acquisition unit further acquires state information that is information related to a state change of devices constituting the network,
The configuration information includes neighboring information that is information related to neighboring devices of the devices in the network,
The configuration prediction unit performs a process for obtaining the predicted configuration when it is determined that the configuration of the network may change based on the state information, and is subject to change using the adjacent information as the redundant configuration The network configuration estimation apparatus according to claim 4, wherein an adjacent device adjacent to the device is obtained, and a redundant configuration set for the adjacent device is acquired from the adjacent device.
ネットワークの構成の変化を示す構成変化通知を取得するネットワーク情報取得ステップと、
あらかじめ定められた前記ネットワークの構成を示す情報と前記構成変化通知とに基づいて前記ネットワークの構成情報を求める構成取得ステップと、
前記ネットワークを構成する機器から当該機器に設定されている冗長構成を取得し、前記冗長構成に基づいて前記ネットワークの予測される構成である予測構成を求める構成予測ステップと、
障害の内容を示す障害発生通知と前記構成情報と障害の内容ごとの原因箇所である確率を示す障害確率情報とに基づいて、前記障害発生通知に対応する障害箇所を推定する障害箇所検出ステップと、
前記予測構成に基づいて、前記予測構成における構成変化の内容ごとの前記障害確率情報を予測障害確率情報として求めておき、前記構成変化通知を受けた場合に、前記障害箇所検出部で用いる障害確率情報を当該通知に基づく構成変化の内容に対応する前記予測障害確率情報に置き換える障害確率管理ステップと、
を備えることを特徴とする障害検出方法。
A network information acquisition step for acquiring a configuration change notification indicating a change in the configuration of the network;
A configuration acquisition step for obtaining configuration information of the network based on information indicating a predetermined configuration of the network and the configuration change notification;
A configuration prediction step of obtaining a redundant configuration set in the device from the devices constituting the network and obtaining a predicted configuration that is a predicted configuration of the network based on the redundant configuration;
A failure location detecting step for estimating a failure location corresponding to the failure occurrence notification based on the failure occurrence notification indicating the failure content, the configuration information, and failure probability information indicating the probability of being the cause location for each failure content; ,
Based on the predicted configuration, the failure probability information for each content of the configuration change in the predicted configuration is obtained as predicted failure probability information, and when the configuration change notification is received, the failure probability used in the failure location detection unit A failure probability management step of replacing information with the predicted failure probability information corresponding to the content of the configuration change based on the notification;
A failure detection method comprising:
JP2011185018A 2011-08-26 2011-08-26 Failure detection device, network configuration estimation device, and failure detection method Active JP5653322B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011185018A JP5653322B2 (en) 2011-08-26 2011-08-26 Failure detection device, network configuration estimation device, and failure detection method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011185018A JP5653322B2 (en) 2011-08-26 2011-08-26 Failure detection device, network configuration estimation device, and failure detection method

Publications (2)

Publication Number Publication Date
JP2013046372A true JP2013046372A (en) 2013-03-04
JP5653322B2 JP5653322B2 (en) 2015-01-14

Family

ID=48009901

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011185018A Active JP5653322B2 (en) 2011-08-26 2011-08-26 Failure detection device, network configuration estimation device, and failure detection method

Country Status (1)

Country Link
JP (1) JP5653322B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107797879A (en) * 2017-11-01 2018-03-13 郑州云海信息技术有限公司 A kind of system configuration errors lookup method, device, equipment and storage medium
US10862759B2 (en) 2016-06-23 2020-12-08 Nec Corporation Communication network determination apparatus, communication network determination method, and recording medium having communication network determination program recorded therein

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010018755A1 (en) * 2008-08-11 2010-02-18 株式会社日立製作所 Transport control server, network system, and transport control method

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010018755A1 (en) * 2008-08-11 2010-02-18 株式会社日立製作所 Transport control server, network system, and transport control method

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10862759B2 (en) 2016-06-23 2020-12-08 Nec Corporation Communication network determination apparatus, communication network determination method, and recording medium having communication network determination program recorded therein
CN107797879A (en) * 2017-11-01 2018-03-13 郑州云海信息技术有限公司 A kind of system configuration errors lookup method, device, equipment and storage medium

Also Published As

Publication number Publication date
JP5653322B2 (en) 2015-01-14

Similar Documents

Publication Publication Date Title
US10860311B2 (en) Method and apparatus for drift management in clustered environments
US8661287B2 (en) Automatically performing failover operations with a load balancer
US8010840B2 (en) Generation of problem tickets for a computer system
US10019822B2 (en) Integrated infrastructure graphs
US7076696B1 (en) Providing failover assurance in a device
US9210059B2 (en) Cluster system
JP5617304B2 (en) Switching device, information processing device, and fault notification control program
CN106230954B (en) Virtualization management platform
US20140056126A1 (en) Method and system for providing fault isolation for a service path in an ethernet-based network
GB2463343A (en) Fault diagnosis using device interdependencies and fault history for networked systems
JP5653322B2 (en) Failure detection device, network configuration estimation device, and failure detection method
JP2018025968A (en) Restoration control system and method
JP2019153055A (en) Cluster system, information processing apparatus, cluster monitoring method, and cluster monitoring program
JP6670877B2 (en) Failure determination device, failure determination system, failure determination method, and program
EP3355530A1 (en) Method, apparatus and device for processing service failure
CN113824595A (en) Link switching control method and device and gateway equipment
US11271859B2 (en) Method and apparatus for realizing intelligent traffic scheduling, computer readable storage medium thereof and computer device
JP5631285B2 (en) Fault monitoring system and fault monitoring method
CN111064609A (en) Master-slave switching method and device of message system, electronic equipment and storage medium
US9019964B2 (en) Methods and systems for routing application traffic
CN111064608A (en) Master-slave switching method and device of message system, electronic equipment and storage medium
US11868219B2 (en) Data preservation for node evacuation in unstable nodes within a mesh
CN115499296B (en) Cloud desktop hot standby management method, device and system
JP2023530772A (en) Operation status switching method, device, active/standby management system and network system
CN115543684A (en) Dual-computer hot standby method and electronic equipment

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131120

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140612

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140617

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140811

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141021

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141118

R150 Certificate of patent or registration of utility model

Ref document number: 5653322

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250