JP2017060012A - Fault detection device, fault detection method and program - Google Patents

Fault detection device, fault detection method and program Download PDF

Info

Publication number
JP2017060012A
JP2017060012A JP2015183377A JP2015183377A JP2017060012A JP 2017060012 A JP2017060012 A JP 2017060012A JP 2015183377 A JP2015183377 A JP 2015183377A JP 2015183377 A JP2015183377 A JP 2015183377A JP 2017060012 A JP2017060012 A JP 2017060012A
Authority
JP
Japan
Prior art keywords
failure
monitoring
predetermined threshold
monitoring target
determination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015183377A
Other languages
Japanese (ja)
Other versions
JP6513001B2 (en
Inventor
和人 門阪
Kazuto Kadosaka
和人 門阪
亜之 藤本
Tsuguyuki Fujimoto
亜之 藤本
達也 河崎
Tatsuya Kawasaki
達也 河崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Communications Corp
Original Assignee
NTT Communications Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Communications Corp filed Critical NTT Communications Corp
Priority to JP2015183377A priority Critical patent/JP6513001B2/en
Publication of JP2017060012A publication Critical patent/JP2017060012A/en
Application granted granted Critical
Publication of JP6513001B2 publication Critical patent/JP6513001B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

PROBLEM TO BE SOLVED: To promptly detect faults due to an identical cause in a plurality of monitor target devices connected to a network.SOLUTION: A fault detection device to be used in a network to which the monitor target devices are connected includes: monitoring means 103 which executes at predetermined intervals monitoring processing of transmitting a monitor packet to each of the plurality of monitor target devices to be monitored, to thereby determine the existence or non-existence of a fault in each monitor target device and store the determination result into a data storage unit 102; determination means 104 which, based on the determination result for each monitor target device stored in the data storage unit, determines whether or not an increment in the number of monitor target devices determined to have a fault exceeds a predetermined threshold; and output means 106 which, when the determination means determines that the increment exceeds the predetermined threshold, outputs information indicating that the increment exceeds the predetermined threshold.SELECTED DRAWING: Figure 3

Description

本発明は、ネットワークに接続された監視対象装置に関する故障を検知するための技術に関連するものである。   The present invention relates to a technique for detecting a failure related to a monitoring target device connected to a network.

様々な装置が接続されるネットワークの監視を行うために、ネットワーク監視装置(以下、NMS)が用いられている。   In order to monitor a network to which various devices are connected, a network monitoring device (hereinafter referred to as NMS) is used.

NMSにより行われる監視方法の一つとしてPingを用いた監視がある。Pingは、監視対象装置に関する故障の有無を確認するために使用されるコマンドであり、ICMP(Internet Control Message Protocol)を利用して、指定した監視対象装置に監視パケットを送信し、当該監視パケットに対する応答パケットの有無等により監視対象装置に関する故障の有無の判定を行う。   One of the monitoring methods performed by the NMS is monitoring using Ping. Ping is a command used to check whether there is a failure related to the monitoring target device, and transmits a monitoring packet to the specified monitoring target device using ICMP (Internet Control Message Protocol), and The presence / absence of a failure in the monitoring target device is determined based on the presence / absence of a response packet.

一般に、NMSによるPing監視においては、監視対象装置1台ずつ定期的にPingを打ち、故障有無の判定を行い、例えば、MAP画面として表示されるネットワーク構成中に故障発生箇所をアラームとして視覚的に表示する。   In general, in ping monitoring by NMS, ping is periodically performed for each monitored device to determine the presence or absence of a failure. For example, a failure occurrence point is visually detected as an alarm in a network configuration displayed as a MAP screen. indicate.

特開2015−61250号公報Japanese Patent Laying-Open No. 2015-61250

NMSが監視対象とするネットワークは、小規模なものから大規模なものまである。大規模ネットワークとしては、例えば、監視対象装置数が数千〜数万といったものがある。   The networks that are monitored by the NMS range from small to large. As a large-scale network, for example, there are several thousands to tens of thousands of monitoring target devices.

このような大規模ネットワークの運用においては、特に、同一事象に起因する複数の監視対象装置の故障への迅速な対応が求められる。本明細書では、このような故障を「束故障」と呼ぶ。束故障は、個々の監視対象装置に対する対応では解決が難しく、原因となる事象を突き止めて、適切に対応することが必要である。なお、束故障への迅速な対応は、大規模ネットワークに限らずに求められるものである。   In the operation of such a large-scale network, in particular, quick response to failures of a plurality of monitoring target devices caused by the same event is required. In the present specification, such a failure is referred to as a “bundle failure”. Bundle failure is difficult to solve by dealing with individual devices to be monitored, and it is necessary to find out the causative event and respond appropriately. A rapid response to a bundle failure is not limited to a large-scale network.

しかし、従来のNMSは単一故障毎にアラームを出力するため、各アラームが個々の監視対象装置に起因する故障を示すのか、それとも、束故障を構成する故障を示すのかを識別することが困難であるという問題がある。   However, since a conventional NMS outputs an alarm for each single failure, it is difficult to identify whether each alarm indicates a failure caused by an individual monitored device or a failure constituting a bundle failure There is a problem that.

本発明は上記の点に鑑みてなされたものであり、複数の監視対象装置が接続されるネットワークにおいて、束故障を迅速に検知することを可能とする技術を提供することを目的とする。   The present invention has been made in view of the above points, and an object of the present invention is to provide a technique that can quickly detect a bundle failure in a network to which a plurality of devices to be monitored are connected.

本発明の実施の形態によれば、監視対象装置が接続されるネットワークにおいて使用される故障検知装置であって、
監視対象とする複数の監視対象装置における各監視対象装置に監視パケットを送信することにより、各監視対象装置に関する故障の有無を判定し、判定結果をデータ格納部に格納する監視処理を、所定時間間隔で実行する監視手段と、
前記データ格納部に格納された監視対象装置毎の判定結果に基づいて、故障有と判定された監視対象装置の数の増加量が所定閾値を超えるか否かを判定する判定手段と、
前記判定手段により、前記増加量が前記所定閾値を超えると判定された場合に、当該増加量が当該所定閾値を超えることを示す情報を出力する出力手段と
を備えることを特徴とする故障検知装置が提供される。
According to an embodiment of the present invention, a failure detection device used in a network to which a monitoring target device is connected,
A monitoring process for determining whether or not there is a failure with respect to each monitored device by transmitting a monitoring packet to each monitored device in a plurality of monitored devices to be monitored, and storing the determination result in the data storage unit for a predetermined time Monitoring means to be executed at intervals;
A determination means for determining whether or not an increase in the number of monitoring target devices determined to have a failure exceeds a predetermined threshold based on a determination result for each monitoring target device stored in the data storage unit;
A failure detection apparatus comprising: output means for outputting information indicating that the increase amount exceeds the predetermined threshold value when the determination unit determines that the increase amount exceeds the predetermined threshold value; Is provided.

また、本発明の実施の形態によれば、監視対象装置が接続されるネットワークにおいて使用される故障検知装置により実行される故障検知方法であって、
監視対象とする複数の監視対象装置における各監視対象装置に監視パケットを送信することにより、各監視対象装置に関する故障の有無を判定し、判定結果をデータ格納部に格納する監視処理を、所定時間間隔で実行する監視ステップと、
前記データ格納部に格納された監視対象装置毎の判定結果に基づいて、故障有と判定された監視対象装置の数の増加量が所定閾値を超えるか否かを判定する判定ステップと、
前記判定ステップにより、前記増加量が前記所定閾値を超えると判定される場合に、当該増加量が当該所定閾値を超えることを示す情報を出力する出力ステップと
を備えることを特徴とする故障検知方法が提供される。
Moreover, according to the embodiment of the present invention, there is a failure detection method executed by a failure detection device used in a network to which a monitored device is connected,
A monitoring process for determining whether or not there is a failure with respect to each monitored device by transmitting a monitoring packet to each monitored device in a plurality of monitored devices to be monitored, and storing the determination result in the data storage unit for a predetermined time A monitoring step that runs at intervals;
A determination step for determining whether or not an increase in the number of monitoring target devices determined to have a failure exceeds a predetermined threshold based on a determination result for each monitoring target device stored in the data storage unit;
An output step for outputting information indicating that the increase amount exceeds the predetermined threshold when it is determined by the determination step that the increase amount exceeds the predetermined threshold value. Is provided.

本発明の実施の形態によれば、複数の監視対象装置が接続されるネットワークにおいて、束故障を迅速に検知することが可能となる。   According to the embodiment of the present invention, it is possible to quickly detect a bundle failure in a network to which a plurality of monitoring target devices are connected.

本発明の実施の形態における通信システムの全体構成図である。1 is an overall configuration diagram of a communication system in an embodiment of the present invention. 通信システムの基本的な動作の概要を説明するためのフローチャートである。It is a flowchart for demonstrating the outline | summary of the basic operation | movement of a communication system. 故障検知装置100の構成図である。1 is a configuration diagram of a failure detection apparatus 100. FIG. データ格納部102に格納されるテーブルの例を示す図である。4 is a diagram illustrating an example of a table stored in a data storage unit 102. FIG. グループ設定を説明するための図である。It is a figure for demonstrating group setting. 故障状態の遷移の例を示す図である。It is a figure which shows the example of a transition of a failure state. 故障状態の遷移の例をより詳しく示した図であるIt is the figure which showed the example of the failure state transition in more detail NG数の時間的変化の例を示す図である。It is a figure which shows the example of the time change of the number of NG. グループ監視の表示例を示す図である。It is a figure which shows the example of a display of group monitoring. 検索処理のロジックを説明するための図である。It is a figure for demonstrating the logic of a search process. 検索結果の表示例を示す図である。It is a figure which shows the example of a display of a search result.

以下、図面を参照して本発明の実施の形態を説明する。なお、以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。例えば、以下では、監視対象装置として、アクセス回線に接続される装置を例に挙げているが、本発明は、このような装置に限らず、例えば、中継網(コアネットワーク、基盤網)側の装置に対しても適用可能である。   Embodiments of the present invention will be described below with reference to the drawings. The embodiment described below is only an example, and the embodiment to which the present invention is applied is not limited to the following embodiment. For example, in the following, a device connected to an access line is given as an example of a monitoring target device. However, the present invention is not limited to such a device, for example, on a relay network (core network, infrastructure network) side. The present invention can also be applied to a device.

(システム構成、動作概要)
図1に本実施の形態における通信システムの構成図を示す。図1に示すように、本実施の形態における通信システムには、ネットワーク200に接続される複数の監視対象装置300、及び故障検知装置100が備えられている。故障検知装置100は、ネットワーク200を介して各監視対象装置300と通信可能である。また、故障通知先端末400が備えられ、故障検知装置100は、ネットワーク200を介してメール等による故障通知を故障通知先端末400に送信することができる。
(System configuration, operation overview)
FIG. 1 shows a configuration diagram of a communication system in the present embodiment. As illustrated in FIG. 1, the communication system according to the present embodiment includes a plurality of monitoring target devices 300 connected to a network 200 and a failure detection device 100. The failure detection apparatus 100 can communicate with each monitoring target apparatus 300 via the network 200. In addition, the failure notification destination terminal 400 is provided, and the failure detection apparatus 100 can transmit a failure notification by mail or the like to the failure notification destination terminal 400 via the network 200.

ネットワーク200は、例えばインターネット等のIPネットワークであるが、これに限られない。また、ネットワーク200は、プライベートネットワークとパブリックネットワークが混在したネットワークであってもよい。   The network 200 is an IP network such as the Internet, but is not limited thereto. The network 200 may be a network in which a private network and a public network are mixed.

監視対象装置300は、故障検知装置100からPing(Pingに限られない)の監視パケットを受信し、応答パケットを返すことができる装置であればどのような装置でもよい。一例として、監視対象装置300は、ルータ/スイッチ等のネットワーク機器、サーバ、クライアント等である。本実施の形態では、例として、広範な地域にわたって多数の監視対象装置300が備えられていることを想定している。   The monitoring target device 300 may be any device that can receive a Ping (not limited to Ping) monitoring packet from the failure detection device 100 and return a response packet. As an example, the monitoring target device 300 is a network device such as a router / switch, a server, a client, or the like. In the present embodiment, as an example, it is assumed that a large number of monitoring target devices 300 are provided over a wide area.

本実施の形態における通信システムの基本的な動作の概要について図2のフローチャートに沿って説明する。   The outline of the basic operation of the communication system in the present embodiment will be described with reference to the flowchart of FIG.

本実施の形態では、監視対象装置300をグループに分ける(ステップS101)。故障検知装置100は、どの監視対象装置300がどのグループに属するかの情報を保持する。   In the present embodiment, the monitoring target devices 300 are divided into groups (step S101). The failure detection apparatus 100 holds information on which monitoring target apparatus 300 belongs to which group.

故障検知装置100は、各監視対象装置300に対して定期的(例:5分間隔)にPing監視を行って、各監視対象装置300の監視結果(OK:故障無 or NG:故障有)を監視時刻とともに保持する(ステップS102)。なお、この監視結果がNGである場合、監視対象装置300自体に故障(停電等を含む)が発生した場合もあるし、監視対象装置300が接続される回線に故障が発生した場合もある。本実施の形態では、「監視対象装置300の故障」あるいは「監視対象装置300に関する故障」といった場合、いずれの故障も含むものとする。   The failure detection device 100 periodically pings each monitored device 300 (eg, every 5 minutes), and displays the monitoring result (OK: no failure or NG: failed) of each monitored device 300. It is held together with the monitoring time (step S102). When the monitoring result is NG, a failure (including a power failure) may occur in the monitoring target device 300 itself, or a failure may occur in a line to which the monitoring target device 300 is connected. In the present embodiment, “failure of the monitoring target device 300” or “failure related to the monitoring target device 300” includes both failures.

故障検知装置100は、ステップS102で得られた監視結果に基づいて、グループ毎のNG数に対する閾値判定を行うことで、グループ毎に束故障が発生したか否かの判定を行う(ステップS103)。束故障の判定ロジックの詳細は後述する。   The failure detection apparatus 100 determines whether or not a bundle failure has occurred for each group by performing a threshold determination for the number of NGs for each group based on the monitoring result obtained in step S102 (step S103). . Details of the determination logic of the bundle failure will be described later.

ステップS103での判定により、束故障を検知したグループがある場合、故障検知装置100は、例えば、画面表示、メール通知、アラーム鳴動等により、束故障を検知したことを示す情報(閾値超過を示す情報)を出力する(ステップS104)。   If there is a group in which a bundle failure is detected by the determination in step S103, the failure detection apparatus 100 indicates information indicating that a bundle failure has been detected by, for example, screen display, e-mail notification, alarm ringing, etc. Information) is output (step S104).

(故障検知装置100の構成)
図3に、故障検知装置100の構成例を示す。図3に示すように、本実施の形態に係る故障検知装置100は、設定部101、データ格納部102(データベース)、Ping監視部103、束故障検知部104、検索部105、出力処理部106、操作部107を有する。
(Configuration of failure detection apparatus 100)
FIG. 3 shows a configuration example of the failure detection apparatus 100. As shown in FIG. 3, the failure detection apparatus 100 according to the present embodiment includes a setting unit 101, a data storage unit 102 (database), a Ping monitoring unit 103, a bundle failure detection unit 104, a search unit 105, and an output processing unit 106. And an operation unit 107.

設定部101は、操作部107からの入力情報等に基づいて、監視対象装置の情報、グループ情報、閾値情報、メール宛先、Ping監視間隔等の各種の設定情報をデータ格納部102に格納する設定処理を行う。データ格納部102は、設定情報、監視結果情報等を格納するデータベースである。   The setting unit 101 stores various setting information such as monitoring target device information, group information, threshold information, mail destination, and Ping monitoring interval in the data storage unit 102 based on input information from the operation unit 107 and the like. Process. The data storage unit 102 is a database that stores setting information, monitoring result information, and the like.

Ping監視部103は、各監視対象装置300に対するPing監視(Pingコマンド)を実行し、監視結果(NG/OK)を、NG/OK判定時刻とともにデータ格納部102に格納する。   The Ping monitoring unit 103 executes Ping monitoring (Ping command) for each monitoring target device 300 and stores the monitoring result (NG / OK) in the data storage unit 102 together with the NG / OK determination time.

束故障検知部104は、データ格納部102に格納されている監視結果に基づいて、グループ毎に束故障の有無の判定を定期的(例:5分間隔)に実行し、束故障の発生を検知した場合、束故障が発生したグループの情報とともに束故障が発生したことを示す情報を出力処理部106に通知する。   Based on the monitoring result stored in the data storage unit 102, the bundle failure detection unit 104 periodically determines whether or not there is a bundle failure for each group (for example, every 5 minutes), and detects the occurrence of a bundle failure. When detected, the output processing unit 106 is notified of information indicating that a bundle failure has occurred along with information on the group in which the bundle failure has occurred.

検索部105は、データ格納部102に格納された監視結果を検索し、指定された期間内で発生した継続中の故障を抽出し、抽出結果を出力処理部106に通知する。   The search unit 105 searches the monitoring results stored in the data storage unit 102, extracts ongoing failures that have occurred within a specified period, and notifies the output processing unit 106 of the extraction results.

出力処理部106は、上記の束故障検知の結果、検索結果等を出力する機能部である。例えば、出力処理部106は、外部の端末にネットワーク経由で束故障検知の結果等をメールで通知することができる。また、出力処理部106は、外部の端末の画面上に束故障検知の結果等を表示することとしてもよい。また、出力処理部106がディスプレイを含み、当該ディスプレイに束故障検知の結果等を表示することとしてもよい。また、出力処理部106は、束故障が検知されたことを音で出力することとしてもよい。   The output processing unit 106 is a functional unit that outputs a result of the above-described bundle failure detection, a search result, and the like. For example, the output processing unit 106 can notify an external terminal of the result of bundle failure detection via a network by e-mail. Further, the output processing unit 106 may display a bundle failure detection result on the screen of an external terminal. Further, the output processing unit 106 may include a display, and a bundle failure detection result or the like may be displayed on the display. Further, the output processing unit 106 may output a sound indicating that a bundle failure has been detected.

出力処理部106は、上記出力機能の全部を有してもよいし、一部のみを有することとしてもよい。   The output processing unit 106 may have all of the output functions or only a part of the output functions.

操作部107は、故障検知装置100の操作者が情報入力等を行うための手段である。操作部107は、キーボート/マウス等からなる機能部であってもよいし、ネットワークを介して故障検知装置100に接続される端末であってもよい。   The operation unit 107 is a means for an operator of the failure detection apparatus 100 to input information and the like. The operation unit 107 may be a functional unit including a keyboard / mouse or the like, or may be a terminal connected to the failure detection apparatus 100 via a network.

故障検知装置100は、1つのコンピュータ(例:PC)で実現してもよいし、複数のコンピュータ(サーバ)で実現することとしてもよい。   The failure detection apparatus 100 may be realized by a single computer (eg, PC) or may be realized by a plurality of computers (servers).

本実施の形態に係る故障検知装置100は、1つ又は複数のコンピュータに、本実施の形態で説明する処理内容を記述したプログラムを実行させることにより実現可能である。すなわち、当該装置が有する機能は、当該コンピュータに内蔵されるCPUやメモリ、ハードディスクなどのハードウェア資源を用いて、当該装置で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。以下、故障検知装置100における処理内容等をより詳細に説明する。   The failure detection apparatus 100 according to the present embodiment can be realized by causing one or a plurality of computers to execute a program describing the processing content described in the present embodiment. That is, the function of the device can be realized by executing a program corresponding to the process executed by the device using hardware resources such as a CPU, a memory, and a hard disk built in the computer. It is. The above-mentioned program can be recorded on a computer-readable recording medium (portable memory or the like), stored, or distributed. It is also possible to provide the program through a network such as the Internet or electronic mail. Hereinafter, the processing content etc. in the failure detection apparatus 100 are demonstrated in detail.

(データ格納部102に格納される情報について)
図4に、データ格納部102に格納される情報の例を示す。なお、図4は、主要な情報のみを示す。
(About information stored in the data storage unit 102)
FIG. 4 shows an example of information stored in the data storage unit 102. FIG. 4 shows only main information.

図4(a)は、Ping監視部103による監視結果のテーブルの例を示す。図4(a)に示すように、データ格納部102には、監視結果として、監視時刻(日付・時刻)、装置ID、Ping監視結果の情報が格納される。   FIG. 4A shows an example of a table of monitoring results by the Ping monitoring unit 103. As shown in FIG. 4A, the data storage unit 102 stores monitoring time (date / time), device ID, and Ping monitoring result information as monitoring results.

監視時刻は、判定時刻と称してもよく、該当レコードにおけるNG/OKの判定がなされた時刻を示す。この時刻は、監視パケットを送出した時刻、応答パケットを受信した時刻、応答パケットを受信しないと判定した時刻等であってもよい。   The monitoring time may be referred to as a determination time, and indicates the time when NG / OK determination is made in the corresponding record. This time may be a time when the monitoring packet is transmitted, a time when the response packet is received, a time when it is determined that the response packet is not received, or the like.

装置IDは監視対象装置300を識別するIDである。ここで、各監視対象装置300が1つの回線と対応付けることができる場合、装置IDを回線IDとしてもよい。また、1つの監視対象装置300が複数のポートを有し、ポート毎にPing監視を行う場合において、「装置ID」を「ポートID」(どの装置のどのポートかを識別できるID)とし、当該「ポートID」毎に監視結果を格納してもよい。なお、この場合、「ポート」を、本実施の形態で説明する「監視対象装置」と解釈してよい。   The device ID is an ID for identifying the monitoring target device 300. Here, when each monitoring target apparatus 300 can be associated with one line, the apparatus ID may be a line ID. In addition, when one monitoring target device 300 has a plurality of ports and performs Ping monitoring for each port, the “device ID” is set to “port ID” (an ID for identifying which port of which device) A monitoring result may be stored for each “port ID”. In this case, the “port” may be interpreted as a “monitoring target device” described in the present embodiment.

図4(a)に示す例では、Ping監視部103が、ある時刻に、ID0001の監視対象装置300に対してPing監視を行った結果、NGであり、別の時刻に、ID0001の監視対象装置300に対してPing監視を行った結果、OKになっていることが示されている。   In the example illustrated in FIG. 4A, the Ping monitoring unit 103 is NG as a result of performing Ping monitoring on the monitoring target device 300 with ID0001 at a certain time, and the monitoring target device with ID0001 at another time. As a result of performing Ping monitoring on 300, it is shown that it is OK.

図4(b)は、グループの設定情報の例を示す。図4(b)に示すとおり、データ格納部102には、グループの設定情報として、装置IDと、それに対応するグループIDが格納される。図4(b)には、例えば、ID0001とID0002の装置がグループAに属していることが示されている。   FIG. 4B shows an example of group setting information. As shown in FIG. 4B, the data storage unit 102 stores a device ID and a corresponding group ID as group setting information. FIG. 4B shows, for example, that the devices with ID0001 and ID0002 belong to the group A.

<グループ設定>
上記のグループの設定情報に関連し、本実施の形態におけるグループ設定について説明する。前述したように、グループ設定(最初の設定の他、変更を含む)は、設定部101により行われる。具体的には、例えば、設定部101は、グループ設定のための入力項目を記載した画面を出力処理部106(例:ディスプレイ)に表示し、操作者が、当該画面に従って操作部107から入力情報を入力し、設定部101が、入力情報をデータ格納部102に格納する。
<Group setting>
The group setting in the present embodiment will be described in relation to the above group setting information. As described above, group setting (including changes in addition to the initial setting) is performed by the setting unit 101. Specifically, for example, the setting unit 101 displays a screen describing input items for group setting on the output processing unit 106 (for example, a display), and the operator inputs input information from the operation unit 107 according to the screen. The setting unit 101 stores the input information in the data storage unit 102.

図5に例示するように、グループ設定においては、新規グループ追加、グループ毎の閾値(例として、昼/夜で別の閾値とすることができる)、グループ毎のメール送付先等を設定できる。   As illustrated in FIG. 5, in group setting, a new group can be added, a threshold value for each group (for example, another threshold value can be set for day / night), a mail transmission destination for each group, and the like.

グループ設定におけるグルーピングには特に限定はなく、また、1つの監視対象装置300が複数のグループに属することとしてもよい。グルーピングの例としては、同一都道府県グループ、同一経路使用グループ、重要拠点グループ等がある。   There is no particular limitation on grouping in the group setting, and one monitoring target device 300 may belong to a plurality of groups. Examples of grouping include the same prefecture group, the same route use group, and the important base group.

(束故障判定ロジックについて)
次に、束故障検知部104により実行される束故障の検知処理について説明する。束故障検知部104は、データ格納部102に格納されている監視結果を所定の時間間隔で参照して、参照する時刻に該当する(=参照する時刻に対する直近の)監視結果におけるグループ毎のNG数(図4の例ではグループ毎のNGのレコード数)を求め、前回のNG数との差分を計算し、当該差分が該当グループに設定した閾値を超えるか否かを判定し、超える場合に当該グループに束故障が発生したと判定する。言いかえると、NGと判定された監視対象装置の数の増加量が閾値を超えるか否かを判定し、超える場合に当該グループに束故障が発生したと判定する。より詳細には以下のとおりである。
(About bundle failure judgment logic)
Next, a bundle failure detection process executed by the bundle failure detection unit 104 will be described. The bundle failure detection unit 104 refers to the monitoring result stored in the data storage unit 102 at a predetermined time interval, and determines NG for each group in the monitoring result corresponding to the time to be referred to (= the latest from the time to be referred to). When the number (the number of NG records for each group in the example of FIG. 4) is calculated, the difference from the previous NG number is calculated, it is determined whether or not the difference exceeds the threshold set for the group, and It is determined that a bundle failure has occurred in the group. In other words, it is determined whether or not the increase amount of the number of monitoring target devices determined to be NG exceeds a threshold value, and if it exceeds, it is determined that a bundle failure has occurred in the group. More details are as follows.

図6は、監視対象装置毎の故障状態の遷移の例を示す図である。ここで、上記の所定の時間間隔で到来する時刻を超過判定基準時刻と呼ぶ。超過判定基準時刻を集計タイミングと呼んでもよい。図6は、所定の時間間隔が5分である場合の例である。また、本例では、Ping監視については、当該所定の時間間隔毎に、全ての監視対象装置300に対するPing監視を実行している。例えば1000台の監視対象装置300が存在する場合において、5分の間に、1000台の各装置に対して1回ずつのPing監視を行う。各装置から見れば、概ね5分毎にPing監視を受けることになる。   FIG. 6 is a diagram illustrating an example of a transition of a failure state for each monitoring target device. Here, a time that arrives at the predetermined time interval is referred to as an excess determination reference time. The excess determination reference time may be referred to as an aggregation timing. FIG. 6 is an example when the predetermined time interval is 5 minutes. Further, in this example, for ping monitoring, ping monitoring for all the monitoring target devices 300 is executed at each predetermined time interval. For example, when 1000 monitoring target devices 300 exist, Ping monitoring is performed once for each of 1000 devices in 5 minutes. From the perspective of each device, Ping monitoring is received approximately every 5 minutes.

図6において、横に伸びる各帯は監視対象装置300(以下、装置)の故障状態を示す。例えば装置Aは、前回の超過判定基準時刻から今回の超過判定基準時刻の間、NGが継続している。このことは、例えば、前回の超過判定基準時刻の前になされた装置Aに対するPing監視結果がNGであり、次に、前回の超過判定基準時刻から今回の超過判定基準時刻の間に装置Aに対してなされたPing監視結果が変わらずにNGであり、この状態で今回の超過判定基準時刻が到来したことを意味する。   In FIG. 6, each band extending horizontally indicates a failure state of the monitoring target device 300 (hereinafter, “device”). For example, in the device A, NG is continued from the previous excess determination reference time to the current excess determination reference time. This is because, for example, the ping monitoring result for the device A that was made before the previous excess determination reference time is NG, and then the device A is connected between the previous excess determination reference time and the current excess determination reference time. The Ping monitoring result made for NG remains unchanged, which means that the current excess judgment reference time has arrived in this state.

また、例えば、装置Dについては、前回の超過判定基準時刻の前になされた装置Dに対するPing監視結果がOKであり、次に、前回の超過判定基準時刻から今回の超過判定基準時刻の間に装置Dに対してなされたPing監視結果がNGになり、この状態で今回の超過判定基準時刻が到来したことを意味する。   Further, for example, for the device D, the Ping monitoring result for the device D made before the previous excess determination reference time is OK, and then between the previous excess determination reference time and the current excess determination reference time. The Ping monitoring result made for the device D is NG, which means that the current excess judgment reference time has arrived in this state.

図6に示すように、束故障検知部104は、今回の超過判定基準時刻もしくはその直近になされたPing監視結果がNGであるレコード(装置)を抽出し、その数をグループ毎に集計することで、グループ毎のNG数を算出する。そして、グループ毎にNG数の差分と閾値とを比較することで束故障の有無を判定する。   As shown in FIG. 6, the bundle failure detection unit 104 extracts records (devices) whose ping monitoring result is NG at or near the current excess determination reference time, and counts the number for each group. Thus, the number of NG for each group is calculated. And the presence or absence of a bundle failure is determined by comparing the difference of the number of NGs with a threshold value for each group.

図7は、故障状態の遷移の例をパターンに分けてより具体的に示す図である。この例でも所定の時間間隔は5分であるとする。図7に示す例では、グループ01に装置A〜装置Fが属している。また、ある集計タイミングから前回の集計タイミングまでの5分間を直近5分間と呼び、前回の集計タイミングから前々回の集計タイミングまでの5分間を直前5分間と呼んでいる。   FIG. 7 is a diagram more specifically showing examples of failure state transitions divided into patterns. Also in this example, it is assumed that the predetermined time interval is 5 minutes. In the example illustrated in FIG. 7, devices A to F belong to group 01. In addition, 5 minutes from a certain aggregation timing to the previous aggregation timing is called the latest 5 minutes, and 5 minutes from the previous aggregation timing to the previous aggregation timing is called the last 5 minutes.

装置Aに関するパターン1では、直前5分間にOKの監視結果となるが、直近の5分間にNGになる。よって、装置Aは、前回の集計タイミングではNG数にカウントされないが、今回の集計タイミングにおいてNG数にカウントされる。また、例えば、装置Cに関するパターン3では、直前5分間にNGの監視結果となるが、直近の5分間にOKになる。よって、装置Cは、前回の集計タイミングではNG数にカウントされるが、今回の集計タイミングにおいてNG数にカウントされない。   In the pattern 1 related to the device A, an OK monitoring result is obtained in the last 5 minutes, but it is NG in the latest 5 minutes. Therefore, the device A is not counted as the NG number at the previous counting timing, but is counted as the NG number at the current counting timing. Further, for example, in the pattern 3 related to the device C, an NG monitoring result is obtained in the last 5 minutes, but is OK in the latest 5 minutes. Therefore, the device C is counted as the NG number at the previous counting timing, but is not counted as the NG number at the current counting timing.

他の装置に関しても同様にしてNG数のカウントが行われる。これにより、グループ01に関して、直前5分間(前回の集計タイミング)でのNG数は2となり、直近5分間(今回の集計タイミング)でのNG数は5となり、その差分は3である。ここで、差分が閾値3以上である場合に束故障発生と判定すると仮定すると、この場合は束故障発生と判定される。   The number of NG is similarly counted for other devices. As a result, regarding the group 01, the NG number in the last 5 minutes (previous counting timing) is 2, the NG number in the latest 5 minutes (current counting timing) is 5, and the difference is 3. Here, assuming that it is determined that a bundle failure has occurred when the difference is greater than or equal to the threshold 3, it is determined that a bundle failure has occurred in this case.

図8は、あるグループに関してのNG数の時間的変化の例を示している。また、図8の例では、所定時間間隔は5分であり、閾値=5であり、差分が閾値を超えた場合に束故障が発生したと判定する。   FIG. 8 shows an example of the temporal change in the number of NGs for a certain group. In the example of FIG. 8, the predetermined time interval is 5 minutes, threshold = 5, and it is determined that a bundle failure has occurred when the difference exceeds the threshold.

図8に示すように、15分の時点と20分の時点との間の差分は2であり、閾値以下であり、束故障は無いと判定される。つまり、この場合、閾値を超えない範囲で徐々にNG数が増加しており、同一事象に起因して複数のNGが発生したとはいえず、ここでは束故障は無いと判定される。一方、35分の時点と40分の時点との間の差分は6であり、閾値を超えているため、束故障が発生したと判定される。   As shown in FIG. 8, the difference between the time point of 15 minutes and the time point of 20 minutes is 2, which is equal to or less than the threshold value, and it is determined that there is no bundle failure. That is, in this case, the number of NGs gradually increases within a range not exceeding the threshold value, and it cannot be said that a plurality of NGs have occurred due to the same event, and it is determined here that there is no bundle failure. On the other hand, the difference between the time point of 35 minutes and the time point of 40 minutes is 6, which exceeds the threshold value, so it is determined that a bundle failure has occurred.

なお、束故障判定のための閾値の決定方法には特に限定はないが、例えば、過去の故障情報に基づいて経験的に閾値を決めることができる。また、中継網(コアネットワーク)から延びるアクセス回線に接続される監視対象装置300を監視対象とする場合における束故障の一因として、複数のアクセス回線を収容する中継網側の通信装置が故障する場合が考えられる。そこで、中継網側の各通信装置のアクセス回線の収容数に基づいて閾値を決めてもよい。   Note that there is no particular limitation on the threshold value determination method for bundle failure determination, but for example, the threshold value can be determined empirically based on past failure information. Further, as a cause of a bundle failure when the monitoring target device 300 connected to an access line extending from the relay network (core network) is a monitoring target, a communication device on the relay network side that accommodates a plurality of access lines fails. There are cases. Therefore, the threshold may be determined based on the number of access lines accommodated in each communication device on the relay network side.

(出力処理について)
束故障検知部104は、グループ毎の束故障判定の結果を出力処理部106に通知し、出力処理部106は、例えば、図9に示す画面の表示を行う。図9に示すように、当該画面において、グループ毎に、今回のNG数と、前回との差が表示される。また、差が閾値を超えたグループ(図9のグループD)については、例えば赤色で表示する等、目立つ表示とする。また、差が閾値を超えたグループが発生した場合、赤色の表示を行うことに加えて、警告音を発してもよい。図9に示す画面は、集計タイミング(超過判定基準時刻)の度に更新される。なお、図9に示す表示内容は一例に過ぎず、例えば、「束故障発生」という情報を表示してもよい。「束故障発生」は、NG数の増加量が所定閾値を超えることを示す情報の一例である。
(About output processing)
The bundle failure detection unit 104 notifies the output processing unit 106 of the result of the bundle failure determination for each group, and the output processing unit 106 displays the screen shown in FIG. 9, for example. As shown in FIG. 9, the difference between the current NG number and the previous time is displayed for each group on the screen. In addition, the group in which the difference exceeds the threshold (group D in FIG. 9) is set to be conspicuous, for example, displayed in red. In addition, when a group having a difference exceeding the threshold value is generated, a warning sound may be emitted in addition to displaying red. The screen shown in FIG. 9 is updated every time the aggregation timing (excess judgment reference time) is reached. Note that the display content illustrated in FIG. 9 is merely an example, and for example, information “bundling failure occurrence” may be displayed. “Band failure occurrence” is an example of information indicating that the increase amount of NG exceeds a predetermined threshold.

また、あるグループにおいて束故障が発生したと判定された場合に、出力処理部106は、当該グループに対して定められたメールの送付先(例:図1の故障通知先端末400)に、束故障が発生したことを通知するメールを送信することとしてもよい。当該メールには、例えば、NG数が閾値を超えたことを知らせる情報、及びNGを検知した装置ID(あるいは当該IDに紐付られた名前等)が含まれる。   When it is determined that a bundle failure has occurred in a certain group, the output processing unit 106 sends a bundle to a mail destination (for example, the failure notification destination terminal 400 in FIG. 1) determined for the group. An e-mail notifying that a failure has occurred may be transmitted. The email includes, for example, information notifying that the number of NGs has exceeded the threshold, and the device ID (or name associated with the ID) that detected NG.

(検索処理について)
次に、検索部105が実行する検索処理の例を説明する。本実施の形態に係る検索部105は、データ格納部102に格納された監視結果から、指定された期間内に発生した継続中の故障(NG)を検索し、抽出することができる。当該検索はグループ毎に行うこともできるし、グループを指定せず、全体に対して行うこともできる。
(About search processing)
Next, an example of search processing executed by the search unit 105 will be described. The search unit 105 according to the present embodiment can search and extract ongoing failures (NG) that have occurred within a specified period from the monitoring results stored in the data storage unit 102. The search can be performed for each group, or can be performed for the entire group without specifying the group.

検索部105は、データ格納部102に格納された監視結果に対して、「NG発生時刻が指定期間内にある」かつ「NGの終了が指定期間より後、又は、NGが終了していない」レコードを検索し、当該レコードの情報を「指定した期間内に発生した継続中故障」の情報として抽出する。上記「NG発生時刻」とは、Ping監視の結果がOKからNGになった時刻である。なお、「NG発生時刻」に、Ping監視の結果がNGからNGと変化がない場合を含めることとしてもよい。   The search unit 105, for the monitoring result stored in the data storage unit 102, “NG generation time is within the specified period” and “NG ends after the specified period or NG has not ended”. The record is searched, and the information of the record is extracted as information of “ongoing failure that occurred within the specified period”. The “NG occurrence time” is the time when the result of Ping monitoring changes from OK to NG. The “NG occurrence time” may include a case where the result of Ping monitoring does not change from NG to NG.

図10を参照して具体例を説明する。図10には、監視対象装置の例として装置Aと装置Bが示される。また、指定期間の終了時点(図10の指定期間の右端の時点)は、検索を行う現在の時点、又は現在の時点よりも過去の時点である。   A specific example will be described with reference to FIG. FIG. 10 shows devices A and B as examples of devices to be monitored. Further, the end point of the specified period (the right end point of the specified period in FIG. 10) is the current point in time when the search is performed or a point in time before the current point.

図10に示すように、装置Aでは、指定期間中、OKからNGになり、再びOKになっている。このケースでは、指定した期間内に発生した故障が継続中ではないので、該当レコードは抽出されない。一方、装置Bの場合、指定期間中、OKからNGになり、NGが指定期間の最後まで継続している。このケースでは、指定した期間内に発生した故障が継続中なので、該当レコードは抽出される。   As shown in FIG. 10, in the device A, it is changed from OK to NG during the specified period, and then again OK. In this case, since the failure that occurred within the specified period is not ongoing, the corresponding record is not extracted. On the other hand, in the case of the device B, it changes from OK to NG during the specified period, and NG continues until the end of the specified period. In this case, since the failure that occurred within the specified period is ongoing, the corresponding record is extracted.

なお、監視結果が図4(a)に示すようなテーブルである場合において、継続中の故障であると判定された装置について、当該指定期間中のNG判定のレコードの情報を全て抽出することとしてもよいし、例えば、最初にNGとなったレコードの情報のみを抽出することとしてもよい。指定期間は、Ping監視を行う所定間隔よりも長いことが想定されるから、前者の場合、同一装置について、複数のNGの情報が抽出されることになる。   In the case where the monitoring result is a table as shown in FIG. 4A, for the device determined to be an ongoing failure, all the information of the NG determination record during the specified period is extracted. Alternatively, for example, it is possible to extract only the information of the record that becomes NG first. Since it is assumed that the specified period is longer than a predetermined interval for performing Ping monitoring, in the case of the former, a plurality of pieces of NG information are extracted for the same device.

なお、監視対象装置300に対して非監視期間を定めている場合、指定期間における最終時点が非監視期間にないこと、及び、検索の実施時刻が非監視期間にないことを追加の条件として用いてもよい。   When a non-monitoring period is set for the monitoring target device 300, the fact that the final point in the specified period is not in the non-monitoring period and that the search execution time is not in the non-monitoring period are used as additional conditions. May be.

検索部105は、検索結果を出力処理部106に通知し、出力処理部106は、例えば、図11に示すような検索結果の画面を表示する。図11に示す例では、継続中の故障情報として、故障発生の日時・時刻(例:指定期間内でOK−>NGになった最後の時刻)、装置ID、グループIDが表示されている。もちろん、これは一例であり、例えば、装置ID/グループIDに代えて、もしくはそれに加えて、装置ID/グループIDに紐付られた名前等を表示してもよい。   The search unit 105 notifies the output processing unit 106 of the search result, and the output processing unit 106 displays, for example, a search result screen as shown in FIG. In the example shown in FIG. 11, the date and time of failure occurrence (for example, the last time when OK → NG within the specified period), device ID, and group ID are displayed as ongoing failure information. Of course, this is merely an example. For example, a name or the like associated with the device ID / group ID may be displayed instead of or in addition to the device ID / group ID.

また、例えば、出力処理部106が、継続中故障ありと判定された装置を地図上に示す画面を表示し、操作者が画面を見ながら操作部107から所望の装置を選択(クリック)することで、Ping監視部103に当該装置に対するPingの指示を行い、自動的に当該装置に対するPingを行うこととしてもよい。   Further, for example, the output processing unit 106 displays a screen showing a device determined to have an ongoing failure on a map, and the operator selects (clicks) a desired device from the operation unit 107 while viewing the screen. Thus, the Ping monitoring unit 103 may be instructed to ping the device and automatically ping the device.

上記のような検索機能を備えたことで、例えば、グループ毎に、指定した期間内で故障が発生し、故障が継続している装置のみを抽出でき、影響範囲の絞り込みを容易に行うことができる。例えば、束障害発生期間中にのみ発生した故障を検索することが可能である。   By providing the search function as described above, for example, for each group, it is possible to extract only the devices that have failed within the specified period and continue to fail, and can narrow down the affected range easily. it can. For example, it is possible to search for a failure that has occurred only during the bundle failure occurrence period.

(実施の形態のまとめ、効果等)
以上、説明したように、本実施の形態では、監視対象装置が接続されるネットワークにおいて使用される故障検知装置であって、監視対象とする複数の監視対象装置における各監視対象装置に監視パケットを送信することにより、各監視対象装置に関する故障の有無を判定し、判定結果をデータ格納部に格納する監視処理を、所定時間間隔で実行する監視手段と、前記データ格納部に格納された監視対象装置毎の判定結果に基づいて、故障有と判定された監視対象装置の数の増加量が所定閾値を超えるか否かを判定する判定手段と、前記判定手段により、前記増加量が前記所定閾値を超えると判定された場合に、当該増加量が当該所定閾値を超えることを示す情報を出力する出力手段とを備える故障検知装置が提供される。
(Summary of the embodiment, effects, etc.)
As described above, in the present embodiment, a failure detection device used in a network to which a monitoring target device is connected, and a monitoring packet is sent to each monitoring target device in a plurality of monitoring target devices to be monitored. Monitoring means for determining whether or not there is a failure with respect to each monitoring target device and transmitting the determination result to the data storage unit at a predetermined time interval, and the monitoring target stored in the data storage unit Based on a determination result for each device, a determination unit that determines whether or not an increase amount of the number of monitoring target devices determined to have a failure exceeds a predetermined threshold value, and the determination unit determines that the increase amount is the predetermined threshold value. A failure detection device is provided that includes output means for outputting information indicating that the increase amount exceeds the predetermined threshold when it is determined that the increase amount exceeds the predetermined threshold.

前記判定手段は、前記増加量が前記所定閾値を超えるか否かの判定を所定時間間隔で実行し、ある判定時刻において故障有と判定された監視対象装置の数から、前回の判定時刻において故障有と判定された監視対象装置の数を引いた値が、前記所定閾値を超えるか否かにより、前記増加量が前記所定閾値を超えるか否かを判定するように構成してもよい。   The determination means executes a determination as to whether the increase amount exceeds the predetermined threshold at predetermined time intervals, and determines the failure at the previous determination time from the number of monitoring target devices determined to have a failure at a certain determination time. It may be configured to determine whether or not the increase amount exceeds the predetermined threshold depending on whether or not a value obtained by subtracting the number of monitoring target devices determined to be present exceeds the predetermined threshold.

前記監視手段により監視対象とされる監視対象装置はグループ分けされ、前記判定手段は、グループ毎に前記増加量が前記所定閾値を超えるか否かの判定を実行し、前記出力手段は、前記増加量が前記所定閾値を超えると判定されたグループについて、当該増加量が当該所定閾値を超えることを示す情報を出力することとしてもよい。   The monitoring target devices to be monitored by the monitoring unit are grouped, the determination unit determines whether the increase amount exceeds the predetermined threshold for each group, and the output unit determines the increase Information indicating that the increase amount exceeds the predetermined threshold may be output for a group that is determined that the amount exceeds the predetermined threshold.

前記故障検知装置は、前記グループ分けの設定情報を前記データ格納部に格納する設定手段を更に備えることとしてもよい。   The failure detection apparatus may further include setting means for storing the grouping setting information in the data storage unit.

前記故障検知装置は、前記データ格納部に格納された判定結果を検索することにより、指定された期間内で故障が発生し、当該故障が継続している監視対象装置の情報を抽出する検索手段を更に備えてもよく、前記出力手段は、前記検索手段により抽出された監視対象装置の情報を出力するようにしてもよい。   The failure detection device searches for a determination result stored in the data storage unit, thereby extracting information on a monitoring target device in which a failure has occurred within a specified period and the failure continues. The output unit may output information on the monitoring target device extracted by the search unit.

本実施の形態における技術により、束故障が発生したかどうかを迅速に把握することができる。また、例えば図9に示したようなグループ毎の表示画面を用いることで、束故障が発生しているグループと、単一故障のみが発生しているグループとを容易に区別でき、束故障が発生しているグループ(例:特定の都市等)に基づき、束故障の要因となった被疑事象(例:特定の都市のアクセス回線を収容する通信装置の故障、特定の都市の停電等)の特定を容易に行うことができる。   With the technology in the present embodiment, it is possible to quickly grasp whether or not a bundle failure has occurred. Further, for example, by using a display screen for each group as shown in FIG. 9, it is possible to easily distinguish a group in which a bundle failure has occurred from a group in which only a single failure has occurred. Based on the group that occurred (eg, a specific city, etc.), the suspected event that caused the bundle failure (eg, a failure of a communication device that accommodates an access line in a specific city, a blackout in a specific city, etc.) Identification can be performed easily.

本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。   The present invention is not limited to the above-described embodiments, and various modifications and applications are possible within the scope of the claims.

100 故障検知装置
101 設定部
102 データ格納部
103 Ping監視部
104 束故障検知部
105 検索部
106 出力処理部
107 操作部
300 監視対象装置
400 故障通知先端末
DESCRIPTION OF SYMBOLS 100 Failure detection apparatus 101 Setting part 102 Data storage part 103 Ping monitoring part 104 Bundle failure detection part 105 Search part 106 Output processing part 107 Operation part 300 Monitoring object apparatus 400 Failure notification destination terminal

Claims (7)

監視対象装置が接続されるネットワークにおいて使用される故障検知装置であって、
監視対象とする複数の監視対象装置における各監視対象装置に監視パケットを送信することにより、各監視対象装置に関する故障の有無を判定し、判定結果をデータ格納部に格納する監視処理を、所定時間間隔で実行する監視手段と、
前記データ格納部に格納された監視対象装置毎の判定結果に基づいて、故障有と判定された監視対象装置の数の増加量が所定閾値を超えるか否かを判定する判定手段と、
前記判定手段により、前記増加量が前記所定閾値を超えると判定された場合に、当該増加量が当該所定閾値を超えることを示す情報を出力する出力手段と
を備えることを特徴とする故障検知装置。
A failure detection device used in a network to which a monitoring target device is connected,
A monitoring process for determining whether or not there is a failure with respect to each monitored device by transmitting a monitoring packet to each monitored device in a plurality of monitored devices to be monitored, and storing the determination result in the data storage unit for a predetermined time Monitoring means to be executed at intervals;
A determination means for determining whether or not an increase in the number of monitoring target devices determined to have a failure exceeds a predetermined threshold based on a determination result for each monitoring target device stored in the data storage unit;
A failure detection apparatus comprising: output means for outputting information indicating that the increase amount exceeds the predetermined threshold value when the determination unit determines that the increase amount exceeds the predetermined threshold value; .
前記判定手段は、前記増加量が前記所定閾値を超えるか否かの判定を所定時間間隔で実行し、ある判定時刻において故障有と判定された監視対象装置の数から、前回の判定時刻において故障有と判定された監視対象装置の数を引いた値が、前記所定閾値を超えるか否かにより、前記増加量が前記所定閾値を超えるか否かを判定する
ことを特徴とする請求項1に記載の故障検知装置。
The determination means executes a determination as to whether the increase amount exceeds the predetermined threshold at predetermined time intervals, and determines the failure at the previous determination time from the number of monitoring target devices determined to have a failure at a certain determination time. 2. The method according to claim 1, wherein whether or not the increase amount exceeds the predetermined threshold is determined based on whether or not a value obtained by subtracting the number of monitoring target devices determined to be present exceeds the predetermined threshold. The failure detection device described.
前記監視手段により監視対象とされる監視対象装置はグループ分けされており、前記判定手段は、グループ毎に前記増加量が前記所定閾値を超えるか否かの判定を実行し、
前記出力手段は、前記増加量が前記所定閾値を超えると判定されたグループについて、当該増加量が当該所定閾値を超えることを示す情報を出力する
ことを特徴とする請求項1又は2に記載の故障検知装置。
The monitoring target devices to be monitored by the monitoring unit are grouped, and the determination unit determines whether or not the increase amount exceeds the predetermined threshold for each group,
The said output means outputs the information which shows that the said increase amount exceeds the said predetermined threshold value about the group determined that the said increase amount exceeds the said predetermined threshold value. The Claim 1 or 2 characterized by the above-mentioned. Failure detection device.
前記グループ分けの設定情報を前記データ格納部に格納する設定手段を更に備えることを特徴とする請求項3に記載の故障検知装置。   The failure detection apparatus according to claim 3, further comprising a setting unit that stores the grouping setting information in the data storage unit. 前記故障検知装置は、前記データ格納部に格納された判定結果を検索することにより、指定された期間内で故障が発生し、当該故障が継続している監視対象装置の情報を抽出する検索手段を更に備え、
前記出力手段は、前記検索手段により抽出された監視対象装置の情報を出力する
ことを特徴とする請求項1ないし4のうちいずれか1項に記載の故障検知装置。
The failure detection device searches for a determination result stored in the data storage unit, thereby extracting information on a monitoring target device in which a failure has occurred within a specified period and the failure continues. Further comprising
The failure detection device according to any one of claims 1 to 4, wherein the output unit outputs information on the monitoring target device extracted by the search unit.
監視対象装置が接続されるネットワークにおいて使用される故障検知装置により実行される故障検知方法であって、
監視対象とする複数の監視対象装置における各監視対象装置に監視パケットを送信することにより、各監視対象装置に関する故障の有無を判定し、判定結果をデータ格納部に格納する監視処理を、所定時間間隔で実行する監視ステップと、
前記データ格納部に格納された監視対象装置毎の判定結果に基づいて、故障有と判定された監視対象装置の数の増加量が所定閾値を超えるか否かを判定する判定ステップと、
前記判定ステップにより、前記増加量が前記所定閾値を超えると判定される場合に、当該増加量が当該所定閾値を超えることを示す情報を出力する出力ステップと
を備えることを特徴とする故障検知方法。
A failure detection method executed by a failure detection device used in a network to which a monitoring target device is connected,
A monitoring process for determining whether or not there is a failure with respect to each monitored device by transmitting a monitoring packet to each monitored device in a plurality of monitored devices to be monitored, and storing the determination result in the data storage unit for a predetermined time A monitoring step that runs at intervals;
A determination step for determining whether or not an increase in the number of monitoring target devices determined to have a failure exceeds a predetermined threshold based on a determination result for each monitoring target device stored in the data storage unit;
An output step for outputting information indicating that the increase amount exceeds the predetermined threshold when it is determined by the determination step that the increase amount exceeds the predetermined threshold value. .
コンピュータを、請求項1ないし5のうちいずれか1項に記載の故障検知装置における各手段として機能させるためのプログラム。   The program for functioning a computer as each means in the failure detection apparatus of any one of Claims 1 thru | or 5.
JP2015183377A 2015-09-16 2015-09-16 Failure detection device, failure detection method, and program Active JP6513001B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015183377A JP6513001B2 (en) 2015-09-16 2015-09-16 Failure detection device, failure detection method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015183377A JP6513001B2 (en) 2015-09-16 2015-09-16 Failure detection device, failure detection method, and program

Publications (2)

Publication Number Publication Date
JP2017060012A true JP2017060012A (en) 2017-03-23
JP6513001B2 JP6513001B2 (en) 2019-05-15

Family

ID=58391853

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015183377A Active JP6513001B2 (en) 2015-09-16 2015-09-16 Failure detection device, failure detection method, and program

Country Status (1)

Country Link
JP (1) JP6513001B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021005945A1 (en) * 2019-07-10 2021-01-14 パナソニックIpマネジメント株式会社 Network management device, network management system and network management method

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014068283A (en) * 2012-09-27 2014-04-17 Nippon Telegr & Teleph Corp <Ntt> Network failure detection system and network failure detection device

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014068283A (en) * 2012-09-27 2014-04-17 Nippon Telegr & Teleph Corp <Ntt> Network failure detection system and network failure detection device

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021005945A1 (en) * 2019-07-10 2021-01-14 パナソニックIpマネジメント株式会社 Network management device, network management system and network management method
US11784902B2 (en) 2019-07-10 2023-10-10 Panasonic Intellectual Property Management Co., Ltd. Network management device, network management system and network management method

Also Published As

Publication number Publication date
JP6513001B2 (en) 2019-05-15

Similar Documents

Publication Publication Date Title
JP5767617B2 (en) Network failure detection system and network failure detection device
CN113328872B (en) Fault repairing method, device and storage medium
WO2018126645A1 (en) Communication network management method and apparatus therefor
CN105165054B (en) Network service failure processing method, service management system and system management module
KR20200033090A (en) An apparatus for network monitoring and method thereof, and system
CN108418710B (en) Distributed monitoring system, method and device
CN106487612A (en) A kind of server node monitoring method, monitoring server and system
JP2016099938A (en) Event analysis system and method
CN115037597A (en) Fault detection method and equipment
CN107566036A (en) Mistake in automatic detection communication and automatically determine the wrong source
JP5505930B2 (en) Monitoring device, monitoring method and program
WO2016082509A1 (en) Method and apparatus for detecting connectivity of label switched path
JP6513001B2 (en) Failure detection device, failure detection method, and program
JP6438875B2 (en) Network monitoring apparatus and network monitoring method
CN115102838B (en) Emergency processing method and device for server downtime risk and electronic equipment
JP2017211806A (en) Communication monitoring method, security management system, and program
US10756951B2 (en) Network incident identification based on characterizing relationships between interfaces and events as graphical component relationships
JP2012213112A (en) Alarm aggregation device, and alarm aggregation method
JP2016146555A (en) Device, program and method for estimating service influence cause
JP6060123B2 (en) Influence range identification device, influence range identification method, and program
US20160294658A1 (en) Discovering and aggregating data from hubs
JP2011142390A (en) Monitoring system and fault communication device determination method
JP5686001B2 (en) Information processing apparatus, message isolation method, and message isolation program
JP5724145B2 (en) Suspicious device determination device, determination method, and suspected device determination program
JP2015185968A (en) Failure message aggregation device and failure message aggregation program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190319

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190409

R150 Certificate of patent or registration of utility model

Ref document number: 6513001

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250