JP2011040954A - System, method and program for evaluating network - Google Patents

System, method and program for evaluating network Download PDF

Info

Publication number
JP2011040954A
JP2011040954A JP2009185906A JP2009185906A JP2011040954A JP 2011040954 A JP2011040954 A JP 2011040954A JP 2009185906 A JP2009185906 A JP 2009185906A JP 2009185906 A JP2009185906 A JP 2009185906A JP 2011040954 A JP2011040954 A JP 2011040954A
Authority
JP
Japan
Prior art keywords
failure
network
evaluation
influence
procedure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009185906A
Other languages
Japanese (ja)
Inventor
Tatsuya Matsukawa
達哉 松川
Yusuke Funakoshi
裕介 船越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009185906A priority Critical patent/JP2011040954A/en
Publication of JP2011040954A publication Critical patent/JP2011040954A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To estimate the influence of various fault instances exerted on a user including an instance in that a fault is not found and the influence of the fault exerted on the user is unclear, and to evaluate the reliability of a network. <P>SOLUTION: Network fault information, evaluation object information and an evaluation reference value are input (procedure 0). Fault instances included in the network fault information are classified into normal fault instances and the fault instances for which the degree of the influence by the fault is unclear (procedure 1). The degree of the influence of the fault of evaluation object equipment is calculated from the fault time of the network fault information and the number of influenced users (procedure 2), and a relation between the degree of the influence of the fault relating to the normal fault instances and the number of reports from the users relating to the respective fault instances is estimated (procedure 3). The degree of the influence is corrected using the estimated relation for the instance for which the degree of the influence by the fault is unclear in the classified fault instances (procedure 4), the reliability of the network is evaluated on the basis of the degree of the influence of the fault and the corrected degree of the influence of the fault (procedure 5), and an evaluated result is displayed (procedure 6). <P>COPYRIGHT: (C)2011,JPO&INPIT

Description

本発明は、IP(インターネットプロトコル)に代表されるネットワークプロトコルによって実現される通信ネットワーク技術に関し、特に、ネットワークを構成する構成要素(IPパケット等のパケットを転送する装置、装置間を接続するリンクを構成するための伝送路や伝送路装置等のネットワーク設備に関する設備)の故障情報と故障によって影響を受けたユーザからの申告件数に関する情報をもとに、ネットワークにおいて発生する各種故障事例がユーザに及ぼす影響を推定し、ネットワークの信頼性を評価することによって、信頼性の低下に影響の大きい故障事例やネットワーク設備を選定し、信頼性の高い、あるいは所望する信頼性を有するネットワークの運用管理を自動的かつ精度よく実現することが可能なネットワーク評価システムおよびネットワーク評価方法、ならびにそのためのプログラムに関するものである。   The present invention relates to a communication network technology realized by a network protocol typified by IP (Internet Protocol), and in particular, a component constituting a network (a device for transferring a packet such as an IP packet, a link for connecting devices). Based on the failure information of the network equipment such as transmission lines and transmission line equipment to be configured) and the information on the number of reports from users affected by the failure, various types of failure cases occurring in the network will affect the user By estimating the impact and evaluating the reliability of the network, failure cases and network equipment that have a large impact on reliability degradation are selected, and the operation management of a highly reliable or desired network is automatically performed. Network evaluation that can be realized efficiently and accurately Stem and network evaluation methods, as well as a program therefor.

従来、通信ネットワークの信頼性は、対象ネットワークを構成する設備(例えばネットワーク装置やリンク等のネットワーク構成要素)と設備の構成(設備の接続構成や冗長構成)によって、当該の通信ネットワークに対する評価モデルを作成し、個々のネットワーク設備が有する故障確率(例えば、故障率や不稼動率)の積や和を用いて算出される。そして、当該の通信ネットワークに対して求められている故障確率をもとに、個々のネットワーク設備に対して求められている故障確率を配分し、配分された故障確率と評価モデルをもとに算出された故障確率とを比較することよって評価されてきた。   Conventionally, the reliability of a communication network depends on the equipment that constitutes the target network (for example, network components such as network devices and links) and the equipment configuration (facility connection configuration or redundant configuration). It is created and calculated using the product or sum of failure probabilities (for example, failure rate and unavailability) of individual network equipment. Then, based on the failure probability required for the communication network, the failure probability required for each network facility is allocated, and calculated based on the allocated failure probability and the evaluation model. Has been evaluated by comparing the failure probability.

ネットワーク信頼性の算出方法に関する従来の技術としては、「NTT通信網を理解していただくために」(NTT通信網研究会、1994)“第8章 安定品質“、pp。314−329(非特許文献1)に記述されている。この文献に開示されている信頼性評価技術は、ネットワークの計画・設計・構築を実施する上で的確な判断を支援するための技術である。   As a conventional technique related to the calculation method of network reliability, “To understand the NTT communication network” (NTT Communication Network Study Group, 1994) “Chapter 8 Stable Quality”, pp. 314-329 (Non-Patent Document 1). The reliability evaluation technique disclosed in this document is a technique for supporting accurate judgment in implementing network planning, design, and construction.

また、Stanshine J. A.「Modeling silent failures in telecommunications systems」in Proceeding of RAMS1995, pp.261-264(非特許文献2)においては、サイレント故障の発生によるネットワークの不稼動率への影響を理論的に算出する方法が提案されている。サイレント故障とは、装置が故障した際に、故障が発生したことを装置から運用管理システム側に通知することができない故障事例であり、故障によるユーザへの実際の影響度合いが不明な事例である。   Also, Stanshine JA “Modeling silent failures in telecommunications systems” in Proceeding of RAMS1995, pp.261-264 (Non-Patent Document 2) theoretically calculates the effect of silent failures on network unavailability. A method has been proposed. Silent failure is a failure case in which when a device fails, it cannot be reported from the device to the operation management system, and the actual impact level on the user due to the failure is unknown. .

サイレント故障の発生においては故障の発見が遅れることによって、サービスの中断時間が長引き、ユーザに多大な影響を与える危険性がある。非特許文献2は、サイレント故障が発生した場合に該当箇所を含むシステム全体への影響を測定時間に対する平均的な不稼働時間として算出する方法を開示している。   In the occurrence of a silent failure, there is a risk of delaying the discovery of the failure, prolonging the service interruption time and having a great influence on the user. Non-Patent Document 2 discloses a method of calculating the influence on the entire system including a corresponding part as an average non-operation time when a silent failure occurs.

IPネットワーク技術が進展するにつれて、市販技術や汎用製品を積極的に導入してネットワークを構築するようになったため、関連装置の開発期間やネットワークの構築期間、動作の検証期間は短縮化される傾向にある。   As IP network technology has progressed, networking has been started by actively introducing commercial technologies and general-purpose products, so the development period of related devices, network construction period, and operation verification period tend to be shortened. It is in.

また、新規に開発され運用実績の少ない複数種のネットワーク装置が導入されるようになり、ネットワーク上において複数種のネットワーク装置が混在化するようになった。   In addition, a plurality of types of network devices that have been newly developed and have a low operational track record have been introduced, and a plurality of types of network devices have been mixed on the network.

よって、経年劣化のみならず、構成部品の初期不良や設定条件の不適合など、装置の停止及び故障(以降、停止及び故障を故障と略す)の要因が多様化するようになり、その結果、ネットワークの運用開始以降にこれらの装置故障事象が発生する可能性が大きくなった。   Therefore, not only the deterioration over time, but also the factors of equipment stoppage and failure (hereinafter, abbreviated as failure), such as initial failure of component parts and incompatibility of setting conditions, are diversified. The possibility of these device failure events occurring after the start of operation of the system has increased.

しかしながら、装置の故障の発生に際して、すべての故障事象に対し、装置が運用を開始する以前に当該装置が自律的に当該故障事象を発見し通知する機能を備えていないため、運用管理システム側にて故障の発生を即座に発見できない場合がある。   However, when a device failure occurs, the device does not have a function to autonomously find and notify the failure event before the device starts operation for all failure events. In some cases, the occurrence of a failure cannot be detected immediately.

これらに該当する故障事例は一般的にサイレント故障として知られている事例である。尚、サイレント故障の具体的な要因や事例については、例えば、Ramana Rao Kompella, Jennifer Yates, Alex C. Snoeren,「Detection and Localization of Network Black Holes」in Proceeding of IEEE INFOCOM2007, pp.2180-2188.(非特許文献3)に記述されている。   Such failure cases are generally known as silent failures. For specific causes and examples of silent failures, see, for example, Ramana Rao Kompella, Jennifer Yates, Alex C. Snoeren, “Detection and Localization of Network Black Holes” in Proceeding of IEEE INFOCOM2007, pp. 2180-2188. Non-patent document 3).

結果的に、サイレント故障は、故障装置の外部に配備されている機能によって発見される場合(非特許文献3参照)と、故障に遭遇したユーザからの問い合わせに基づいて発見される場合の2通りの場合がある。前者の場合は、装置の仕様やコストの制約等によりネットワーク内の一部の装置に対しては実現可能であるが、通常、全ての装置、あるいは装置機種に適用することはできない。   As a result, the silent failure is found in two ways: a case where it is discovered by a function provided outside the failure device (see Non-Patent Document 3) and a case where it is found based on an inquiry from a user who encounters the failure. There are cases. The former case can be realized for some devices in the network due to device specifications, cost constraints, etc., but is generally not applicable to all devices or device models.

よって、後者のように、ユーザからの問い合わせによって故障の発生を発見する場合が多く、その場合には装置の故障の発見が遅れることによって、ユーザに対して多大な影響を与える可能性が高い。   Therefore, as in the latter case, the occurrence of a failure is often found by an inquiry from the user, and in that case, there is a high possibility that the discovery of the failure of the device will be delayed and that the user will be greatly affected.

以降、本願明細書では、故障の発生が即座に発見できない故障事例において、故障の発生によって直接的にサービスの停止・中断につながる故障事例のみをサイレント故障と定義する。   Hereinafter, in the present specification, only a failure case that directly leads to a service stop / interruption due to the occurrence of a failure in a failure case in which the occurrence of the failure cannot be found immediately is defined as a silent failure.

「NTT通信網を理解していただくために」(NTT通信網研究会、1994)“第8章 安定品質”、pp.314−329“To understand the NTT communication network” (NTT Communication Network Study Group, 1994) “Chapter 8 Stable Quality”, pp. 314-329 Stanshine J. A.「Modeling silent failures in telecommunications systems」in Proceeding of RAMS1995, pp.261-264Stanshine J. A. “Modeling silent failures in telecommunications systems” in Proceeding of RAMS1995, pp.261-264 Ramana Rao Kompella, Jennifer Yates, Alex C. Snoeren,「Detection and Localization of Network Black Holes」in Proceeding of IEEE INFOCOM2007, pp.2180-2188.Ramana Rao Kompella, Jennifer Yates, Alex C. Snoeren, `` Detection and Localization of Network Black Holes '' in Proceeding of IEEE INFOCOM2007, pp.2180-2188.

本発明が解決しようとする課題は、上述のサイレント故障のように、故障の発生が即座に発見されず運用管理システム側に通知されないために、故障の影響度合いが不明な故障事例を含むネットワークの故障を対象として、これらの故障がネットワークの信頼性に及ぼす影響を推定し、影響の大小を評価することである。   The problem to be solved by the present invention is that the occurrence of a failure is not immediately detected and is not notified to the operation management system as in the case of the silent failure described above. For faults, we estimate the impact of these faults on network reliability and evaluate the magnitude of the impact.

上述した非特許文献1に開示された技術は、評価対象のネットワークの装置構成と各構成装置の故障率及び各構成装置が故障した際の復旧時間の平均値から各構成装置の故障確率を算出し、各構成要素の故障確率の平均値の和や積をネットワークの故障確率として算出するものであり、算出したネットワークの故障確率を基準となる値と比較することによって、ネットワークの信頼性の良否を評価するものである。   The technology disclosed in Non-Patent Document 1 described above calculates the failure probability of each component device from the device configuration of the network to be evaluated, the failure rate of each component device, and the average recovery time when each component device fails. The sum or product of the average failure probability of each component is calculated as the network failure probability. By comparing the calculated network failure probability with the reference value, the reliability of the network Is to evaluate.

一方、上記の通り、サイレント故障が発生した際には、故障の発生日時に関する情報が得られないために、故障が実際に継続した時間(故障時間)が不明である。よって、サイレント故障を含む各種故障事例がネットワークの信頼性に及ぼす影響を精度良く評価することはできない。   On the other hand, as described above, when a silent failure occurs, information on the date and time of occurrence of the failure is not obtained, and therefore the time that the failure actually continued (failure time) is unknown. Therefore, it is not possible to accurately evaluate the influence of various failure cases including silent failures on the reliability of the network.

また、上述した非特許文献2に開示された技術は、冗長構成箇所におけるサイレント故障の発生を前提としており、片側の装置の故障発生のみによってサービスが中断とはならず、さらにもう一方の装置が重複的に故障することによってサービスが中断する故障事例を主な対象としている。このとき、サイレント故障(冗長箇所のうちの片側の装置の故障)ともう一方の装置の故障の発生率をパラメータとし、サイレント故障がシステムの不稼働率に与える影響を算出するものである。   In addition, the technology disclosed in Non-Patent Document 2 described above is based on the assumption that a silent failure occurs in a redundant configuration location, and the service is not interrupted only by the failure of one device, and the other device The main subjects are failure cases in which service is interrupted by redundant failures. At this time, the silent failure (failure of one device in the redundant part) and the failure occurrence rate of the other device are used as parameters, and the influence of the silent failure on the system unavailability is calculated.

しかしながら、サイレント故障の発生原因となる該当箇所数を、装置の運用開始以前にあるいは故障の発生直後に、正確に把握することは困難であるため、サイレント故障の発生率(故障率)について、故障の発生時点における瞬時的な値を正確に算出することはできない。   However, since it is difficult to accurately determine the number of relevant points that cause silent failure before the start of operation of the device or immediately after the occurrence of the failure, the failure rate (failure rate) The instantaneous value at the time of occurrence cannot be calculated accurately.

また、故障率の平均的な値を仮定しパラメータとして変化させ、システムの信頼性について平均的な特性を評価するため、個々の故障事象がユーザに対して及ぼす影響を評価することができない。   Further, since the average value of the failure rate is assumed and changed as a parameter, and the average characteristic is evaluated with respect to the reliability of the system, the influence of each failure event on the user cannot be evaluated.

また、サイレント故障の発生からシステムの復旧までの時間について平均的な数値をパラメータとして用いているため、極端に故障時間の長い事例や瞬時的な故障が含まれる場合には、故障事象がユーザに対して及ぼす影響を過小にあるいは過大に評価する危険性がある。   In addition, since average values are used as parameters for the time from the occurrence of silent failure to system recovery, the failure event is reported to the user when there are cases with extremely long failure times or instantaneous failures. There is a risk of underestimating or overestimating the impact on the system.

本発明の目的は、以上の課題を解決するために、評価対象のネットワークにおいて、サイレント故障等、故障の発生が即座に発見されず、故障がユーザに与える影響が不明な事例を含む各種故障事例がユーザに及ぼす影響を推定し、ネットワークの信頼性を評価することが可能なネットワーク評価システム及びネットワーク評価方法、ならびにそのためのプログラムを提供することである。   The purpose of the present invention is to solve the above-mentioned problems. In the network to be evaluated, various failure cases including cases in which the occurrence of a failure such as a silent failure is not immediately discovered and the influence of the failure on the user is unknown. It is to provide a network evaluation system, a network evaluation method, and a program therefor, which can estimate the influence of a user on a user and evaluate the reliability of the network.

本発明は、上記目的を達成するために、次のような機能を有する構成を採用する。   In order to achieve the above object, the present invention adopts a configuration having the following functions.

(1)当該ネットワークから収集される故障履歴に関する情報において、評価の対象となる装置について、故障した装置機種や機能に関する情報、故障発生から復旧までの故障時間、故障による影響ユーザ数、故障の発見種別、各故障に関するユーザからの問い合わせ件数に関する情報を抽出し、記憶する。 (1) In the information on the failure history collected from the network, for the device to be evaluated, information on the failed device model and function, failure time from failure occurrence to recovery, number of users affected by failure, and discovery of failure Information related to the type and the number of inquiries from the user regarding each failure is extracted and stored.

(2)抽出した故障情報を、故障の発見種別に基づいて、通常の故障とサイレント故障とに分類する。
故障の発見種別が、故障装置からのアラートであれば、通常の故障として分類する。また、故障の発見種別がそれ以外の場合(装置の外部にある故障の発見機能による発見、あるいはユーザからの申告による発見)であれば、サイレント故障として分類する。
(2) The extracted failure information is classified into a normal failure and a silent failure based on the failure discovery type.
If the fault discovery type is an alert from a faulty device, it is classified as a normal fault. In addition, if the failure discovery type is other than that (discovery by a failure discovery function outside the device or discovery by a report from the user), it is classified as a silent failure.

(3)各故障事例がユーザに及ぼす影響を、各故障事例の故障の継続時間(故障時間)と故障発生時の影響ユーザ数をもとに故障の影響度を算出する。
a)通常の故障に関しては、故障時間が長く、影響ユーザ数が大きいほど故障の影響度が大きいため、故障時間と故障による影響ユーザ数の情報から、故障の影響度を算出する。ここで、故障時間は、故障発生から回復までの時間であり、影響ユーザ数は、故障発生によって、サービスの中断を被ったユーザの総数である。
(3) The influence of each failure case on the user is calculated based on the failure duration of each failure case (failure time) and the number of affected users when the failure occurs.
a) For a normal failure, since the failure time is longer and the influence degree of the failure is larger as the number of affected users is larger, the influence degree of the failure is calculated from the information of the failure time and the number of affected users due to the failure. Here, the failure time is the time from failure occurrence to recovery, and the number of affected users is the total number of users who have suffered service interruption due to failure occurrence.

b)一方、サイレント故障については、故障発生日時が不明確であるため、故障発見日時が故障発生日時として記録され、故障発見から回復までの時間が故障時間として算出される。よって、故障の発生から回復までの時間を考慮し、上記の算出した故障の影響度を補正することによって、ユーザに対する影響度を推定する必要がある。 b) On the other hand, for silent failure, since the date and time of occurrence of the failure is unclear, the date and time of failure discovery is recorded as the date and time of failure occurrence, and the time from failure discovery to recovery is calculated as the failure time. Therefore, it is necessary to estimate the degree of influence on the user by correcting the calculated degree of influence of the failure in consideration of the time from occurrence of the failure to recovery.

そこで、サイレント故障の場合、故障によって影響を被ったユーザからの故障に関する申告件数(問い合わせの件数)の情報を用いることによって、サイレント故障の発生による影響度を補正する。通常の故障事例については、故障の影響度が大きいほど、故障によるユーザ申告件数は大きくなる傾向がある。よって、通常の故障事例の故障情報を用いて故障の影響度とユーザからの申告件数との相関関係を明らかにし、関係式を推定する。サイレント故障については、推定した関係式と各故障事例に関するユーザからの申告件数を用いて、故障の影響度を補正する。   Therefore, in the case of a silent failure, the degree of influence due to the occurrence of the silent failure is corrected by using information on the number of reports (number of inquiries) related to the failure from the user affected by the failure. For normal failure cases, the number of user reports due to failure tends to increase as the influence of failure increases. Therefore, the correlation between the degree of influence of the failure and the number of reports from the user is clarified using the failure information of the normal failure case, and the relational expression is estimated. For the silent failure, the degree of influence of the failure is corrected using the estimated relational expression and the number of cases reported from the user regarding each failure case.

(4)故障によるユーザへの影響度について、未補正の事例及び補正済みの事例を合わせて評価する。
事前に設定されているネットワークの運用管理者が所望する信頼性の基準値と、算出し補正した故障の影響度とを比較することによって、ネットワークの信頼性を評価する。
(4) The degree of influence of the failure on the user is evaluated together with the uncorrected case and the corrected case.
The reliability of the network is evaluated by comparing the reliability reference value desired by the network operation manager set in advance with the calculated and corrected failure influence level.

(5)最後に、得られた信頼性の評価結果を表示する。 (5) Finally, the obtained reliability evaluation result is displayed.

本発明は、上記機能を実現するための具体的構成として、以下に示す各手段を有することを特徴としている。   The present invention is characterized by having the following means as a specific configuration for realizing the above functions.

(a)ネットワーク故障情報、評価対象情報、評価基準値を入力する入力手順(手順0)を実行する手段。 (A) Means for executing an input procedure (procedure 0) for inputting network failure information, evaluation object information, and evaluation reference values.

(b)故障の発見種別をもとにネットワーク故障情報を通常の故障事例とサイレント故障事例に分類する故障事例分類手順(手順1)を実行する手段。 (B) A means for executing a failure case classification procedure (procedure 1) for classifying network failure information into a normal failure case and a silent failure case based on the failure discovery type.

(c)ネットワーク故障情報における故障時間と故障による影響ユーザ数の情報から各故障事例について、故障の影響度を算出する影響度算出手順(手順2)を実行する手段。 (C) Means for executing an influence degree calculation procedure (procedure 2) for calculating an influence degree of a failure for each failure case from information on a failure time in the network failure information and the number of users affected by the failure.

(d)通常の故障事例について、算出した故障の影響度と故障に対するユーザからの申告の件数をもとに、故障の影響度とユーザからの申告件数との関係を推定する関係式推定手順(手順3)を実行する手段。 (D) For normal failure cases, a relational expression estimation procedure for estimating the relationship between the failure impact level and the number of user reports based on the calculated failure impact level and the number of user reports on the failure ( Means for performing step 3).

(e)サイレント故障について、ユーザからの申告件数と上記の推定した関係式を用いて、故障の影響度を補正する影響度補正手順(手順4)を実行する手段。 (E) Means for executing an influence correction procedure (procedure 4) for correcting the influence degree of a failure by using the number of cases reported from the user and the estimated relational expression for silent failure.

(f)上記、故障の影響度について未補正の故障事例及び補正済みの故障事例を合わせてネットワークの信頼性を評価する信頼性評価手順(手順5)を実行する手段 (F) Means for executing the reliability evaluation procedure (procedure 5) for evaluating the reliability of the network by combining the uncorrected failure case and the corrected failure case with respect to the degree of influence of the failure.

(g)評価結果を表示する評価結果表示手順(手順6)を実行する手段 (G) Means for executing an evaluation result display procedure (procedure 6) for displaying an evaluation result

本発明では、上記構成を採用することにより次のような効果を有する。
(a)ネットワーク設備の故障情報と故障に関するユーザからの申告件数の情報から故障の影響度を推定するようにしているため、ユーザからの申告件数の低減に効果の高い装置や原因を明らかにすることが可能である。
In this invention, it has the following effects by employ | adopting the said structure.
(A) Since the influence degree of failure is estimated from the failure information of the network equipment and the information of the number of reports from the user regarding the failure, the devices and causes that are highly effective in reducing the number of reports from the user are clarified. It is possible.

(b)サイレント故障等、ユーザへの影響度が不明な事例について、影響度を推定することによって、より安全側の評価を実現することが可能である。 (B) For cases where the degree of influence on the user is unknown, such as silent failure, it is possible to realize a more safe evaluation by estimating the degree of influence.

(c)故障の発生によるネットワークの信頼性への影響度を、評価基準値を用いて評価することによって、信頼性の高い、あるいはネットワークの運用管理者が所望する信頼性を有するネットワークの運用が可能になる。 (C) By evaluating the degree of influence on the reliability of the network due to the occurrence of the failure using the evaluation reference value, the operation of the network having high reliability or the reliability desired by the network operation manager can be performed. It becomes possible.

(d)また、各故障事例の影響度の比較を実施することによって、定量的な判断に基づき、優先的に原因を解析すべき故障事例や稼動状況の監視を強化すべき装置を選定することが可能である。 (D) In addition, by comparing the degree of influence of each failure case, select a failure case whose cause should be preferentially analyzed and a device that should strengthen monitoring of the operation status based on quantitative judgment. Is possible.

(e)さらに、ネットワークの信頼性の良否を定量的に評価することによって、ネットワークの運用管理に際して、故障発生時における迅速な復旧措置の決定や、ユーザへの影響を軽減する故障対策を事前に決定するための指標を与えることができる。 (E) In addition, by quantitatively evaluating the reliability of the network, it is possible to determine in advance a quick recovery action in the event of a failure and to take measures against the failure to reduce the impact on the user during network operation management. An indicator for making a decision can be given.

本発明に係るネットワーク評価システムの処理フロー(処理手順)の一例を示す図である。It is a figure which shows an example of the processing flow (processing procedure) of the network evaluation system which concerns on this invention. 本発明に係るネットワーク評価システムの構成とその処理の流れの一実施形態を示す図である。It is a figure which shows one Embodiment of the structure of the network evaluation system which concerns on this invention, and the flow of its processing. ネットワーク故障情報の一例を示す図である。It is a figure which shows an example of network failure information. 分類処理実施後のネットワーク故障情報の一例である。It is an example of the network failure information after implementation of classification processing. 各故障事例の影響度の算出処理実施後の故障データの一例である。It is an example of failure data after execution of calculation processing of the influence degree of each failure case. 各故障事例の影響度の補正処理実施後の故障データの一例である。It is an example of the failure data after execution of the correction process of the influence degree of each failure case. 本発明の実施対象となるネットワークの一例である。It is an example of the network used as the implementation object of this invention. 本発明の実施形態における、故障の影響度とユーザからの申告件数の散布図、及び線形回帰直線を示す図である。It is a figure which shows the scatter diagram of the influence degree of a failure and the number of reports from a user, and a linear regression line in embodiment of this invention. 本発明の実施例において信頼度評価を実施するフローチャートの一例である。It is an example of the flowchart which implements reliability evaluation in the Example of this invention.

(本発明の概要)
まず、本発明が対象とするネットワーク構成について説明する。図7は、本発明が対象とするネットワーク構成を示す図であり、制御網100、コアネットワーク200、アクセスネットワーク300、エンドユーザ400から構成される。エンドユーザ400がインターネットアクセスや各種IP(インターネット プロトコル)サービスを利用する状況を想定している。
(Outline of the present invention)
First, a network configuration targeted by the present invention will be described. FIG. 7 is a diagram showing a network configuration targeted by the present invention, and includes a control network 100, a core network 200, an access network 300, and an end user 400. It is assumed that the end user 400 uses the Internet access and various IP (Internet protocol) services.

ネットワーク要素が冗長化されていない構成箇所における故障はサービス中断につながるため、ユーザのサービス利用に影響を及ぼす可能性が高く、単純な例として、例えばアクセスネットワーク300は、図に示すように、同様の機能を持つ設備あるいは設備内部のコンポーネント(装置A 301、装置B 302a、装置B 302b、装置C 303a、装置C 303b、装置C 303c、装置C 303d)がツリー状に構成されるモデルとして記述できる。   A failure in a configuration where the network element is not made redundant leads to service interruption, so it is highly likely that the service usage of the user will be affected. As a simple example, for example, the access network 300 is similar as shown in the figure. Or a component in the facility (device A 301, device B 302a, device B 302b, device C 303a, device C 303b, device C 303c, device C 303d) can be described as a tree-shaped model. .

コアネットワーク200など、冗長構成箇所における故障はサービスの中断につながる可能性は低いものの、切り替えに伴うサービスの瞬断や切り替え機能の不具合によるサービス中断が発生する場合がある。   Although a failure in a redundant configuration location such as the core network 200 is unlikely to lead to service interruption, service interruption due to switching or service interruption due to switching function failure may occur.

よって、ネットワークとしての信頼性を評価するためには、サービスの中断となった全ての故障事例を対象として詳細な要因の解析等を実施する必要があるが、大規模なネットワークから膨大な故障履歴データが収集される場合には、個々の故障箇所・要因を分類し、全ての組み合わせに対して比較評価を実施することは必ずしも容易でない。   Therefore, in order to evaluate the reliability of the network, it is necessary to carry out detailed analysis of all the failure cases that caused service interruption. When data is collected, it is not always easy to classify individual failure locations and factors and perform comparative evaluation on all combinations.

そこで、本発明は、上記の点を考慮し、全故障事例を横並びにした上で故障特性を把握し定量的な評価を実施するために、ネットワーク評価システムに入力および記録される故障装置機種・機能名、故障発生日時(故障発生日時が明らかでない場合には、故障の発見日時)、故障復旧日時、故障時間(故障継続時間=故障復旧日時−故障発生日時)、影響ユーザ数(故障が影響した範囲(人))、故障の発見種別、ユーザからの申告件数に基づいて、故障の影響度(=故障時間×影響ユーザ数)を推定することによってネットワークの信頼性を総合的に評価するものである。   Therefore, the present invention takes into account the above points, and in order to grasp the failure characteristics and perform a quantitative evaluation after arranging all the failure cases side by side, the failure device model input and recorded in the network evaluation system Function name, failure occurrence date / time (when the failure occurrence date / time is not clear, failure discovery date / time), failure recovery date / time, failure time (failure duration = failure recovery date / time / failure occurrence date / time), number of affected users (fault affects Range (people)), failure discovery type, and the number of reports from users, comprehensively evaluate network reliability by estimating the degree of failure impact (= failure time x number of affected users) It is.

(実施形態)
以下、図面を用いて、本発明に係るネットワーク評価システムの実施形態を詳細に説明する。
(Embodiment)
Hereinafter, embodiments of a network evaluation system according to the present invention will be described in detail with reference to the drawings.

図1は、本発明に係るネットワーク評価システムの処理フロー(処理手順)の一例を示す図である。   FIG. 1 is a diagram showing an example of a processing flow (processing procedure) of the network evaluation system according to the present invention.

同図に示すように、本発明における処理手順は、ネットワーク故障情報、評価対象情報、評価基準値を入力する入力手順(手順0)、ネットワーク故障情報を通常の故障事例とサイレント故障事例に分類する故障事例分類手順(手順1)、故障時間と影響ユーザ数の情報から各故障事例の影響度を算出する影響度算出手順(手順2)、故障の影響度とユーザからの申告件数の関係式を推定する関係式推定手順(手順3)、推定した関係式を利用してサイレント故障についての故障の影響度を補正する影響度補正手順(手順4)、ネットワーク信頼性を推定・評価する信頼性評価手順(手順5)、評価結果を表示する手順(手順6)からなる。   As shown in the figure, the processing procedure in the present invention is classified into a normal failure case and a silent failure case, an input procedure (procedure 0) for inputting network failure information, evaluation target information, and evaluation reference value. Failure case classification procedure (procedure 1), impact degree calculation procedure (procedure 2) for calculating the impact degree of each failure case from the information of failure time and the number of affected users, and the relational expression between the failure degree and the number of reports from users Estimating relational expression estimation procedure (procedure 3), influence degree correcting procedure (procedure 4) for correcting the degree of influence of silent failure using the estimated relational expression, and reliability evaluation for estimating and evaluating network reliability It consists of a procedure (procedure 5) and a procedure (procedure 6) for displaying the evaluation result.

図2は、本発明に係るネットワーク評価システムの構成とその処理の流れの一実施形態を示す図であり、対応する図1における(手順0)〜(手順6)についても記載してある。   FIG. 2 is a diagram showing an embodiment of the configuration of the network evaluation system according to the present invention and the processing flow thereof, and also describes (procedure 0) to (procedure 6) in FIG.

同図において、1は(手順0)においてネットワーク評価システムに入力されるネットワーク故障情報、2は、評価対象情報と評価基準値を入力する入力手段、10は本発明に係るネットワーク評価システム、11はネットワーク故障情報を受信する受信部(受信手段)、12はネットワーク故障情報を格納するネットワーク故障情報DB(データベース)、13a〜13dは記憶部(記憶手段)、14は(手順1)を実行する故障事例分類部(故障事例分類手段)、15は(手順2)を実行する影響度算出部(影響度算出手段)、16は(手順3)を実行する関係式推定部(関係式推定手段)、17は(手順4)を実行する影響度補正部(影響度補正手段)、18は(手順5)を実行する信頼性評価部(信頼性評価手段)、3は(手順6)を実行するための表示部(表示手段)であり、(手順5)で評価されたネットワーク信頼性評価結果を表示する。   In the figure, 1 is network failure information input to the network evaluation system in (procedure 0), 2 is input means for inputting evaluation object information and evaluation reference values, 10 is a network evaluation system according to the present invention, and 11 is A receiving unit (receiving unit) that receives network failure information, 12 is a network failure information DB (database) that stores network failure information, 13a to 13d are storage units (storage unit), and 14 is a failure that executes (procedure 1). A case classification unit (failure case classification means), 15 an influence calculation unit (impact calculation means) for executing (procedure 2), 16 a relational expression estimation unit (relational expression estimation means) for executing (procedure 3), Reference numeral 17 denotes an influence degree correcting unit (influence degree correcting means) for executing (Procedure 4), 18 denotes a reliability evaluating part (reliability evaluating means) for executing (Procedure 5), and 3 denotes (Procedure 6). A display unit for executing (display means), display the network qualification evaluated at (step 5).

本発明におけるシステムの処理の実施のタイミングは、事前に固定の期間を事前に設定する場合と、任意の期間を入力し実施する場合とがあり、いずれの場合においても、実施形態は同様になるため、以下において、本発明を固定期間ごとに繰り返して実施されるものとし、実施のタイミングが事前に設定されている場合を例として説明する。   The timing of execution of the processing of the system in the present invention includes a case where a fixed period is set in advance and a case where an arbitrary period is input and executed, and in any case, the embodiment is the same. Therefore, in the following, the present invention is repeatedly implemented for each fixed period, and a case where the implementation timing is set in advance will be described as an example.

以下、各手順における処理を、図面を用いて詳細に説明する。
(手順0)<ネットワーク故障情報、評価対象情報、評価基準値の入力>
本手順(手順0)は、本ネットワーク評価システムにおいて自動的に実行される、あるいは事前にネットワークの運用管理者が実施するものであり、以降の手順(手順1〜手順6)とは別に記述する。
Hereinafter, processing in each procedure will be described in detail with reference to the drawings.
(Procedure 0) <Input of network failure information, evaluation target information, evaluation reference value>
This procedure (procedure 0) is automatically executed in this network evaluation system, or is executed in advance by the network operation manager, and is described separately from the subsequent procedures (procedure 1 to procedure 6). .

本ネットワーク評価システムに対して、発生したネットワーク故障情報1を取り込むとともに、評価対象情報をネットワークの運用管理者が外部から入力手段2から入力する。ネットワーク故障情報1は、ネットワーク評価システム10の外部にある図示しないデータベース(DB)に格納されており、ネットワーク評価システム10の受信部11に入力される。   The generated network failure information 1 is taken into the network evaluation system, and the evaluation target information is input from the input means 2 by the network operation manager from the outside. The network failure information 1 is stored in a database (DB) (not shown) outside the network evaluation system 10 and is input to the receiving unit 11 of the network evaluation system 10.

ネットワーク故障情報1には、図3に示すように、故障設備すなわち故障装置(故障した装置機種)、故障発生日時(故障発生日時が明らかでない場合には、故障の発見日時)、故障復旧日時、故障時間(分)、影響ユーザ数(人)、故障の発見種別、各故障事例に対するユーザからの申告件数、故障箇所/原因に関する情報が含まれる。   As shown in FIG. 3, the network failure information 1 includes a failure facility, that is, a failure device (failed device model), a failure occurrence date / time (a failure discovery date / time when the failure occurrence date / time is not clear), a failure recovery date / time, The information includes information on the failure time (minutes), the number of affected users (people), the failure discovery type, the number of cases reported from the user for each failure case, and the failure location / cause.

ここで、故障時間(分)は故障によって通信が中断している時間であり、故障発生日時から故障復旧日時までの差分(本実施例では分単位)で定義され、ネットワーク運用管理者が投入する。ただし、サイレント故障については、実際に故障が発生した日時が明らかでないため、通常、故障が発見された日時が投入されている。また、影響ユーザ数(人)は、通常、故障装置の収容数によって定義され投入される。受信部11に入力されたネットワーク故障情報1はネットワーク故障DB12に格納される。   Here, the failure time (minutes) is the time during which communication is interrupted due to a failure, is defined by the difference (in minutes in this example) from the failure occurrence date and time to the failure recovery date and time, and is input by the network operation manager . However, as for silent failure, since the date and time when the failure actually occurred is not clear, the date and time when the failure was found is usually input. In addition, the number of affected users (persons) is usually defined by the number of failed devices accommodated. The network failure information 1 input to the receiving unit 11 is stored in the network failure DB 12.

また、信頼度評価の実行の対象となる設備(設備・装置を含めた総称)に関する情報を評価対象情報として、ネットワークの運用管理者が、本ネットワーク評価システム10に入力手段2を介して入力する。入力手段2から入力された評価対象情報は記憶部13cに一旦記憶される。   In addition, the network operation manager inputs information related to equipment (generic name including equipment / devices) to be subjected to reliability evaluation as evaluation target information to the network evaluation system 10 via the input unit 2. . The evaluation target information input from the input unit 2 is temporarily stored in the storage unit 13c.

記憶部13cに記憶された評価対象情報を参照し、ネットワーク故障情報DB12にて入力されたネットワーク故障情報1に対して、評価対象となる設備の故障情報を評価対象として設定する。それ以外の故障情報については、以降の手続きの対象外の情報として除外する。   With reference to the evaluation object information stored in the storage unit 13c, the failure information of the equipment to be evaluated is set as the evaluation object for the network failure information 1 input in the network failure information DB 12. Other failure information is excluded as information that is not subject to subsequent procedures.

(手順1)<ネットワーク故障情報を通常の故障事例とサイレント故障事例に分類する処理>
(手順1)では、(手順0)で評価対象として設定したネットワーク故障情報1を、故障事例分類部14にて、通常の故障とサイレント故障の2つの種別に分類する。
(Procedure 1) <Process for classifying network failure information into normal failure cases and silent failure cases>
In (Procedure 1), the network failure information 1 set as the evaluation target in (Procedure 0) is classified into two types of normal failure and silent failure by the failure case classification unit 14.

通常、故障発生時には、故障装置からのアラートによって、運用システム側に故障の発見を通知する。よって、故障情報において投入されている故障の発見種別が、故障装置からのアラートであれば、通常の故障として分類する。   Normally, when a failure occurs, the operation system side is notified of the discovery of the failure by an alert from the failed device. Therefore, if the fault discovery type entered in the fault information is an alert from the faulty device, it is classified as a normal fault.

また、故障の発見種別がそれ以外の場合(装置の外部にある故障の発見機能による発見、あるいはユーザからの申告による発見)であれば、サイレント故障として分類する。   In addition, if the failure discovery type is other than that (discovery by a failure discovery function outside the device or discovery by a report from the user), it is classified as a silent failure.

図4は、分類処理実施後のネットワーク故障情報の一例を示す図であり、図3に示したネットワーク故障情報に、通常(一般)の故障かサイレント故障かを示す故障事例分類の欄が付加されている。   FIG. 4 is a diagram illustrating an example of network failure information after performing the classification process, and a column of failure case classification indicating whether a normal (general) failure or a silent failure is added to the network failure information illustrated in FIG. ing.

(手順2)<ネットワーク故障情報における故障時間と故障による影響ユーザ数の情報から各故障事例の影響度を算出する処理>
(手順2)では、(手順1)で分類処理を実施した故障事例について、影響度算出部15にて、各故障事例がユーザに及ぼす影響を、各故障事例の故障時間と故障発生時の影響ユーザ数をもとに故障の影響度を算出する。サイレント故障については、故障発見から回復までの時間を故障時間として算出する。故障の影響度を故障時間と影響ユーザ数の積を故障の影響度と定義して算出する。
(Procedure 2) <Process for calculating the degree of influence of each failure case from information on the failure time in network failure information and the number of users affected by the failure>
In (Procedure 2), for the failure cases for which the classification process has been performed in (Procedure 1), the influence calculation unit 15 shows the influence of each failure case on the user, the failure time of each failure case, and the effect at the time of failure occurrence. Based on the number of users, the impact level of the failure is calculated. For silent failure, the time from failure detection to recovery is calculated as the failure time. The failure impact level is calculated by defining the product of the failure time and the number of affected users as the failure impact level.

故障発生日時の時系列の順に、故障事例に番号iを付与する。各故障事例の故障時間(分)をdi、故障による影響ユーザ数(人)をriとし、i番目の故障事例に関する故障の影響度(分×人)hiを故障時間(分)diと影響ユーザ数(人)riの積、すなわち、di×riとして算出する(hi=di×ri)。   Numbers i are assigned to failure cases in order of the time and date of failure occurrence. The failure time (minutes) of each failure case is di, the number of users affected by the failure (people) is ri, and the failure influence degree (minutes × people) hi for the i-th failure case is the failure time (minutes) di and the affected users. The product of the number (person) ri, that is, di × ri is calculated (hi = di × ri).

図5は、故障時間と影響ユーザ数の積を故障の影響度と定義した場合の故障の影響度の算出結果の一例を示す図であり、図4に示した分類処理後のネットワーク故障情報に、故障の影響度の欄が付加されている。   FIG. 5 is a diagram illustrating an example of the calculation result of the failure influence degree when the product of the failure time and the number of affected users is defined as the failure influence degree. The network failure information after the classification process illustrated in FIG. A column of the degree of influence of failure is added.

通常、ネットワークの運用管理システムにおいては、故障時間の情報を分単位で収集し、影響ユーザ数の情報を人単位で収集するため、故障の影響度は〔分・人〕の単位で算出する。算出した故障の影響度は記憶部13bに記憶される。   Usually, in a network operation management system, failure time information is collected in units of minutes, and information on the number of affected users is collected in units of people. Therefore, the degree of influence of failure is calculated in units of [minutes / people]. The calculated failure influence degree is stored in the storage unit 13b.

(手順3)<故障の影響度とユーザからの申告件数の関係式を推定する処理>
(手順3)では、関係式推定部16にて、故障の影響度とユーザからの故障に対する申告件数の関係を推定する。
(Procedure 3) <Process for estimating the relational expression between the degree of influence of failure and the number of reports from the user>
In (Procedure 3), the relational expression estimation unit 16 estimates the relationship between the degree of influence of the failure and the number of reports for the failure from the user.

通常の故障事例のみを対象として、(手順2)で算出され、記憶部13bに記憶された各故障に関する故障の影響度と、該当する故障に対するユーザからの申告の件数(故障に対する問い合わせや苦情の発生件数)との関係を推定する。   For only normal failure cases, the impact level of each failure calculated in (Procedure 2) and stored in the storage unit 13b and the number of reports from the user for the corresponding failure (inquiries and complaints regarding failures) The number of occurrences).

このとき、故障の影響度が大きくなればなるほど、ユーザからの申告件数は多くなるため、故障の影響度に対するユーザからの申告件数の増加傾向を推定すればよい。   At this time, since the number of reports from the user increases as the degree of influence of the failure increases, the increasing tendency of the number of reports from the user with respect to the degree of influence of the failure may be estimated.

ここで、i番目の故障事例に対するユーザからの申告件数をniとする。故障の影響度hiに対する申告件数niの関係を比例関係:ni=a×hiを用いて表し、係数aの値を推定する。   Here, let ni be the number of reports from the user for the i-th failure case. The relationship of the number of reports ni to the failure influence level hi is expressed using a proportional relationship: ni = a × hi, and the value of the coefficient a is estimated.

具体的には、故障の影響度hiと申告件数niからなる点(hi,ni)を、横軸を故障の影響度、縦軸を申告件数とした座標上に散布図としてプロットし、最小二乗法等の手法を用いて線形回帰直線を当てはめ、係数aの値を推定すればよい。ここで、係数aは、直線の傾きを示している。   Specifically, the point (hi, ni) consisting of the failure impact level hi and the number of reported cases ni is plotted as a scatter diagram on the coordinates with the horizontal axis representing the failure impact level and the vertical axis representing the number of reported cases. A linear regression line may be applied using a method such as multiplication to estimate the value of the coefficient a. Here, the coefficient a indicates the slope of the straight line.

図8は、故障の影響度とユーザからの申告件数について、横軸を故障の影響度、縦軸を申告件数とした座標上にプロットした散布図と、該散布図上の点に対する線形回帰直線を示す図である。   FIG. 8 is a scatter diagram in which the horizontal axis represents the failure impact level and the vertical axis represents the number of reported cases, and the linear regression line for the points on the scatter diagram, regarding the failure degree and the number of reports from the user. FIG.

図6は、各故障事例の影響度の補正処理実施後の故障データの一例を示す図であり、図5に示した故障データにおける故障の影響度が一部補正されていることを示している。   FIG. 6 is a diagram illustrating an example of failure data after performing the correction process of the influence degree of each failure case, and shows that the influence degree of the failure in the failure data illustrated in FIG. 5 is partially corrected. .

(手順4)<サイレント故障についての故障の影響度を補正する処理>
(手順4)においては、影響度補正部17にて、上記(手順2)で算出され、記憶部13bに記憶されたサイレント故障についての故障の影響度に対して補正処理を実施する。
(Procedure 4) <Process for correcting the influence level of failure for silent failure>
In (Procedure 4), the influence correction unit 17 performs correction processing on the failure influence degree of the silent failure calculated in (Procedure 2) and stored in the storage unit 13b.

サイレント故障については、故障の発生日時として故障の発見日時が記録されているために、故障時間が実際の故障の継続時間よりも小さく算出され、その結果、故障の影響度も小さく算出される。よって、故障時間、あるいは故障の影響度を補正する必要がある。ここでは故障の影響度の補正を実施する例を説明する。   For the silent failure, since the failure discovery date is recorded as the failure occurrence date, the failure time is calculated to be smaller than the actual failure duration, and as a result, the failure influence degree is also calculated to be small. Therefore, it is necessary to correct the failure time or the influence degree of the failure. Here, an example of performing the correction of the failure influence level will be described.

上記(手順1)にて、サイレント故障として分類された故障情報について、(手順2)によって算出された各故障事例の故障の影響度hiと、ネットワーク故障情報に含まれるユーザからの申告件数niの組み合わせ(hi, ni)を、抽出する。   For the failure information classified as silent failure in (Procedure 1), the failure impact level hi of each failure case calculated in (Procedure 2) and the number of reports ni from the user included in the network failure information The combination (hi, ni) is extracted.

次に、上記(手順3)によって推定された係数aを採用した推定式を用いて、故障の影響度を補正する。推定式によって、hi=ni/aと表されるので、故障の影響度を次式によって補正する。
hi=max(ni/a,hi)
ここで、「max(x,y)」は、x及びyのうち小さくない方の値を表す算術記号である。
Next, the degree of influence of the failure is corrected using an estimation formula that employs the coefficient a estimated in the above (procedure 3). Since it is expressed as hi = ni / a by the estimation formula, the influence level of the failure is corrected by the following formula.
hi = max (ni / a, hi)
Here, “max (x, y)” is an arithmetic symbol that represents the smaller value of x and y.

(手順5)<故障の影響度を用いてネットワークの信頼性を評価する処理>
(手順5)では、信頼性評価部18にて、故障の影響度を評価する。上記(手順4)にて影響度の値を補正した故障事例と、上記(手順2)にて算出した(補正処理を実施していない)故障事例の影響度を合わせ、評価する。
(Procedure 5) <Process for Evaluating Network Reliability Using Failure Impact Level>
In (Procedure 5), the reliability evaluation unit 18 evaluates the degree of influence of the failure. Evaluation is performed by combining the failure cases in which the influence value is corrected in (Procedure 4) and the failure cases calculated in (Procedure 2) (the correction process is not performed).

評価方法としては、大別して、各故障事例について影響度を評価する方法(評価方法1及び評価方法2)と、装置機種・機能別について影響度を評価する方法(評価方法3)の2種類の方法がある。   There are two types of evaluation methods: a method for evaluating the impact level for each failure case (evaluation method 1 and evaluation method 2) and a method for evaluating the impact level for each device model / function (evaluation method 3). There is a way.

(評価方法1)
評価方法1は、各故障事例の影響度hiと入力手段2から入力された評価基準値とを比較することによって評価する方法であり、例えば、次のように評価する。
(Evaluation method 1)
The evaluation method 1 is an evaluation method by comparing the degree of influence hi of each failure case with the evaluation reference value input from the input means 2, and is evaluated as follows, for example.

(a)hi≧評価基準値
この関係を満たす故障事例が存在すれば、ネットワークの信頼性は低いと評価する。
(b)hi<評価基準値
この関係を満たす場合には、ネットワークの信頼性は高いと評価する。
(A) hi ≧ evaluation reference value If a failure case satisfying this relationship exists, it is evaluated that the reliability of the network is low.
(B) hi <evaluation reference value When this relationship is satisfied, it is evaluated that the reliability of the network is high.

評価基準値は、上述したようにネットワークの運用管理者が入力手段2を用いて任意の値を事前に設定するものであり、例えば、100000程度の値を設定する(例えば、故障時間10分、影響ユーザ数10000人であれば、故障の影響度の値は100000である)。   As described above, the network operation manager sets an arbitrary value in advance using the input unit 2 as described above. For example, a value of about 100,000 is set (for example, a failure time of 10 minutes, If the number of affected users is 10,000, the value of the degree of influence of the failure is 100,000).

(評価方法2)
評価方法2は、各故障事例の影響度hiが、全故障事例の影響度に対して占める割合を用いて評価する方法であり、例えば、「hi/(Σhi)≧評価基準値」を満たす(i番目の)故障事例を、「ネットワークの信頼性の低下に影響の大きい故障事例」として評価する。
(Evaluation method 2)
The evaluation method 2 is an evaluation method that uses the ratio of the influence degree hi of each failure case to the influence degree of all the failure cases, and satisfies, for example, “hi / (Σhi) ≧ evaluation reference value” ( The i-th) failure case is evaluated as a “failure case having a great influence on a decrease in the reliability of the network”.

ここで、Σhiは全故障事例についての影響度の和を表している。また、評価基準値は、ネットワークの運用管理者が入力手段2から任意の値を設定するものであり、例えば、0.1程度の値を設定する。このとき、該当する故障事例の影響度は全体の1割を占めていることに相当する。   Here, Σhi represents the sum of the influence levels for all the failure cases. The evaluation reference value is an arbitrary value set by the network operation manager from the input means 2, and is set to about 0.1, for example. At this time, the degree of influence of the corresponding failure case corresponds to 10% of the total.

(評価方法3)
評価方法3では、装置機種別に故障の影響度を比較して評価する方法である。比較方法としては、装置機種別に故障の影響度の合計値を比較する、あるいは、故障の影響度の平均値を比較する、等の方法がある。故障の影響度の合計値あるいは故障の影響度の平均値が最も大きい装置機種を「ネットワークの信頼性低下に最も影響の大きい装置機種」として評価する。この場合、評価基準値を設定することなしに、評価を実施することができる。
(Evaluation method 3)
The evaluation method 3 is a method of comparing and evaluating the degree of influence of failure for each device model. As a comparison method, there are methods such as comparing the total value of the degree of influence of failure for each apparatus model, or comparing the average value of the degree of influence of failure. The device model having the largest total failure influence value or the average failure influence average value is evaluated as “the device model having the greatest influence on the decrease in network reliability”. In this case, the evaluation can be performed without setting the evaluation reference value.

(手順6)<評価結果の表示>
(手順6)では、上記(手順5)で出力された評価結果を、表示部3に表示する。
表示部3に表示する評価結果としては、以下の(a)〜(e)に示す項目があり、これら全ての項目、あるいはいくつかの項目を組み合わせたもののいずれであってもよい。
(Procedure 6) <Display of evaluation results>
In (Procedure 6), the evaluation result output in (Procedure 5) is displayed on the display unit 3.
The evaluation results displayed on the display unit 3 include the items shown in the following (a) to (e), and any of these items or a combination of some items may be used.

(a)ネットワークの信頼性が高いか、低いか(評価基準値内か否か)を表示部3に表示する。
イ)評価方法(1)の(a)の場合に、「×」を表示する。
ロ)評価方法(1)の(b)の場合に、「○」を表示する。
(A) Whether the reliability of the network is high or low (whether it is within the evaluation reference value) is displayed on the display unit 3.
B) In the case of (a) in the evaluation method (1), “x” is displayed.
B) In the case of (b) of the evaluation method (1), “◯” is displayed.

(b)ネットワークの信頼性低下に影響の大きい故障事例の詳細情報を表示部3に表示する。
イ)評価方法(1)の(a)の場合に、(a)を満たす故障事例の「装置機種、故障の発生日時、故障時間、影響ユーザ数」を表示する。
(B) The detailed information of the failure case having a large influence on the reliability reduction of the network is displayed on the display unit 3.
A) In the case of (a) in the evaluation method (1), “device model, failure occurrence date / time, failure time, number of affected users” of failure cases satisfying (a) is displayed.

(c)評価方法(1)の(a)の場合に、ネットワークの信頼性低下要因が通常の故障であるか、サイレント故障であるかを表示部3に表示する。
イ)サイレント故障の場合には、「サイレント故障」と表示する。
ロ)通常の故障事例であれば、「一般故障」と表示する。
(C) In the case of (a) in the evaluation method (1), the display unit 3 displays whether the network reliability degradation factor is a normal failure or a silent failure.
B) In the case of a silent failure, “Silent failure” is displayed.
B) “Normal failure” is displayed for normal failure cases.

(d)評価方法(2)の場合に、信頼性低下に影響の大きい故障事例を表示部3に表示する。 (D) In the case of the evaluation method (2), failure cases that have a large influence on reliability degradation are displayed on the display unit 3.

(e)評価方法(3)の場合に、信頼性低下に影響の大きい装置機種を表示部3に表示する。 (E) In the case of the evaluation method (3), a device model having a large influence on the reliability reduction is displayed on the display unit 3.

図9は、本発明に係るネットワーク評価システム10において行われる信頼性評価を実施する手順を示すフローチャートであり、ステップS1は、図2の故障事例分類部(故障事例分類手段)14で行われる故障事例分類処理(図1における手順1)に対応し、ステップS2は、図2の影響度算出部(影響度算出手段)15で行われる影響度算出処理(図1における手順2)に対応し、ステップS3は、図2の関係式推定部(関係式推定手段)16で行われる関係式推定処理(図1における手順3)に対応し、ステップS4は、図2の影響度補正部(影響度補正手段)17で行われる影響度補正処理(図1における手順4)に対応し、ステップS5は、図2の信頼性評価部(信頼性評価手段)18で行われる信頼性評価処理(図1における手順5)に対応している。各ステップでの詳細な処理は前述の如くである。なお、ステップS5の信頼性評価処理で故障の影響度は評価基準値以内か否かを判断する場合、故障の影響度が評価基準値以内であれば(ステップS5:Y)、処理を終了し、故障の影響度が評価基準値以内でなければ(ステップS5:N)、ステップS1に戻る。   FIG. 9 is a flowchart showing a procedure for performing reliability evaluation performed in the network evaluation system 10 according to the present invention. Step S1 is a failure performed by the failure case classification unit (failure case classification means) 14 of FIG. Corresponding to the case classification process (procedure 1 in FIG. 1), step S2 corresponds to the influence degree calculating process (procedure 2 in FIG. 1) performed by the influence degree calculating unit (influence degree calculating means) 15 in FIG. Step S3 corresponds to the relational expression estimating process (procedure 3 in FIG. 1) performed by the relational expression estimating unit (relational expression estimating means) 16 in FIG. 2, and step S4 is the influence degree correcting part (influence degree in FIG. 2). Corresponding to the influence correction process (procedure 4 in FIG. 1) performed by the correction unit) 17, step S5 is a reliability evaluation process (FIG. 1) performed by the reliability evaluation unit (reliability evaluation unit) 18 of FIG. Hands in Which corresponds to 5). Detailed processing in each step is as described above. When it is determined in the reliability evaluation process in step S5 whether or not the failure influence level is within the evaluation reference value, if the failure influence level is within the evaluation reference value (step S5: Y), the process ends. If the failure influence level is not within the evaluation reference value (step S5: N), the process returns to step S1.

なお、図2に示したネットワーク評価システムの各部(各手段)で行われる処理や機能は、ネットワーク評価システムを構成するコンピュータに内蔵されるCPUやメモリなどのハードウェア資源を用いて、各部(各手段)で実施される処理に対応するプログラムを実行することによって実現される。また、該プログラムは、FD、CD−ROM、DVDなどの記録媒体や、インターネットなどのネットワークを介して市場に流通させることができる。   Note that the processing and functions performed by each unit (each unit) of the network evaluation system shown in FIG. 2 are performed using each unit (each unit) using hardware resources such as a CPU and a memory built in the computer constituting the network evaluation system. This is realized by executing a program corresponding to the processing executed in (Means). Further, the program can be distributed to the market via a recording medium such as FD, CD-ROM, DVD, or a network such as the Internet.

1:ネットワーク故障情報
2:入力手段(入力部)
3:判定結果を表示する表示部(表示手段)
10:ネットワーク評価システム
11:受信部(受信手段)
12:ネットワーク故障情報DB(データベース)
13a〜13d:記憶部
14:故障事例分類部(故障事例分類手段)
15:影響度算出部(影響度算出手段)
16:関係式推定部(関係式推定手段)
17:影響度補正部(影響度補正手段)
18:信頼度評価部(信頼性評価手段)
19:判定対象情報を記憶する記憶部
100:制御網
200:コアネットワーク
300:アクセスネットワーク
301:装置A
302a〜302b:装置B
303a〜303d:装置C
400:エンドユーザ
1: Network failure information 2: Input means (input unit)
3: Display unit for displaying the determination result (display means)
10: Network evaluation system 11: Receiver (reception means)
12: Network failure information DB (database)
13a to 13d: Storage unit 14: Failure case classification unit (failure case classification means)
15: Influence calculation unit (impact calculation means)
16: Relational expression estimating unit (relational expression estimating means)
17: Influence degree correcting unit (influence degree correcting means)
18: Reliability evaluation section (reliability evaluation means)
19: Storage unit for storing determination target information 100: Control network 200: Core network 300: Access network 301: Apparatus A
302a to 302b: Device B
303a to 303d: Device C
400: End user

Claims (9)

構成要素として複数の設備を有するネットワークを評価するネットワーク評価システムであって、
設備毎の故障時間と影響ユーザ数を含むネットワーク故障情報に関する情報を入力する手段と、
信頼性評価の実行対象となる設備に関する評価対象情報を入力する手段と、
信頼性評価の評価基準値を入力する手段と、
入力された前記ネットワーク故障情報を記憶する記憶手段と、
入力された前記評価対象情報を記憶する記憶手段と、
入力された前記評価基準値を記憶する記憶手段と、
前記ネットワーク故障情報に含まれる故障事例を通常の故障事例と故障による影響度が明らかでない故障事例に分類する故障事例分類手段と、
前記ネットワーク故障情報の故障時間と影響ユーザ数から評価対象の設備の故障の影響度を算出する影響度算出手段と、
前記故障事例分類手段により分類した故障事例において、故障による影響度が明らかでない事例について影響度を補正する影響度補正手段と、
前記影響度算出手段で算出された故障の影響度と前記影響度補正手段で補正された故障の影響度に基づいてネットワークの信頼性を評価する信頼性評価手段と、
前記信頼性評価手段で評価した評価結果を表示する表示手段と、
を具備することを特徴とするネットワーク評価システム。
A network evaluation system for evaluating a network having a plurality of facilities as a component,
Means for inputting information relating to network failure information including failure time for each facility and the number of affected users;
Means for inputting evaluation object information on equipment to be subjected to reliability evaluation;
Means for inputting an evaluation standard value for reliability evaluation;
Storage means for storing the inputted network failure information;
Storage means for storing the input evaluation object information;
Storage means for storing the inputted evaluation reference value;
A failure case classification means for classifying the failure cases included in the network failure information into normal failure cases and failure cases whose degree of influence due to failure is not clear;
An influence degree calculating means for calculating the influence degree of the failure of the equipment to be evaluated from the failure time of the network failure information and the number of affected users;
In the failure cases classified by the failure case classification means, an influence correction means for correcting the influence degree for cases where the influence degree due to the failure is not clear, and
Reliability evaluation means for evaluating the reliability of the network based on the influence degree of the failure calculated by the influence degree calculation means and the influence degree of the failure corrected by the influence degree correction means;
Display means for displaying an evaluation result evaluated by the reliability evaluation means;
A network evaluation system comprising:
請求項1記載のネットワーク評価システムであって、
前記故障事例分類手段は、故障の発見種別に関する情報に基づいて補正の必要性の有無を識別し、故障事例を分類する手段である
ことを特徴とするネットワーク評価システム。
The network evaluation system according to claim 1,
The network evaluation system according to claim 1, wherein the failure case classification means is means for classifying failure cases by identifying the necessity of correction based on information relating to a failure discovery type.
請求項1または2記載のネットワーク評価システムであって、
前記影響度補正手段は、通常の故障事例に関する故障の影響度と各故障事例に関するユーザからの申告件数との関係を推定し、推定結果に基づいて影響度について不正確な故障事例についての故障の影響度を補正する手段である
ことを特徴とするネットワーク評価システム。
The network evaluation system according to claim 1 or 2,
The influence degree correcting means estimates the relationship between the degree of influence of a failure relating to a normal failure case and the number of reports from the user relating to each failure case, and based on the estimation result, the degree of failure for an incorrect failure case is determined. A network evaluation system which is a means for correcting an influence degree.
請求項3に記載のネットワーク評価システムであって、
前記通常の故障事例に関する故障の影響度と各故障事例に関するユーザからの申告件数との関係の推定は、通常の故障事例に関する故障の影響度と各故障事例に関するユーザからの申告件数についての散布図と該散布図上の点に対する線形回帰直線を用いて行う
ことを特徴とするネットワーク評価システム。
The network evaluation system according to claim 3,
The estimation of the relationship between the degree of influence of a failure relating to the normal failure case and the number of cases reported from the user regarding each failure case is a scatter diagram of the degree of influence of the failure relating to the normal case and the number of cases reported from the user relating to each case. And a network evaluation system using a linear regression line for points on the scatter diagram.
請求項3または請求項4に記載のネットワーク評価システムであって、
前記影響度評価手段は、前記影響度算出手段で算出された故障の影響度および前記影響度補正手段で補正された故障の影響度と前記評価基準値とを比較することによってネットワークの信頼性を評価する手段である
ことを特徴とするネットワーク評価システム。
The network evaluation system according to claim 3 or 4, wherein:
The influence degree evaluation means compares the influence degree of the failure calculated by the influence degree calculation means and the influence degree of the failure corrected by the influence degree correction means with the evaluation reference value, thereby improving the reliability of the network. A network evaluation system characterized by being a means for evaluation.
請求項3または請求項4に記載のネットワーク評価システムであって、
前記影響度評価手段は、前記影響度算出手段で算出された故障の影響度および前記影響度補正手段で補正された故障の影響度の合計に対して占める当該故障の影響度の割合と前記評価基準値とを比較することによってネットワークの信頼性を評価する手段である
ことを特徴とするネットワーク評価システム。
The network evaluation system according to claim 3 or 4, wherein:
The influence degree evaluation means includes the ratio of the influence degree of the failure to the total of the influence degree of the failure calculated by the influence degree calculation means and the influence degree of the failure corrected by the influence degree correction means, and the evaluation. A network evaluation system which is a means for evaluating the reliability of a network by comparing with a reference value.
請求項3または請求項4に記載のネットワーク評価システムであって、
前記影響度評価手段は、装置機種別の故障の影響度の合計あるいは平均値を比較し、該比較結果に基づいてネットワークの信頼性を評価する手段である
ことを特徴とするネットワーク評価システム。
The network evaluation system according to claim 3 or 4, wherein:
The network evaluation system is characterized in that the influence degree evaluation means is a means for comparing the total or average value of the influence degree of failure of each device type and evaluating the reliability of the network based on the comparison result.
コンピュータを、請求項1から7のいずれかに記載のネットワーク評価システムにおける各手段として機能させるためのプログラム。   The program for functioning a computer as each means in the network evaluation system in any one of Claim 1 to 7. 構成要素として複数の設備を有するネットワークを評価する、コンピュータを用いたネットワーク評価方法であって、
設備毎の故障時間と影響ユーザ数を含むネットワーク故障情報に関する情報を入力する手順と、
信頼性評価の実行対象となる設備に関する評価対象情報を入力する手順と、
信頼性評価の評価基準値を入力する手順と、
入力された前記ネットワーク故障情報を記憶する記憶手順と、
入力された前記評価対象情報を記憶する記憶手順と、
入力された前記評価基準値を記憶する記憶手順と、
前記ネットワーク故障情報に含まれる故障事例を通常の故障事例と故障による影響度が明らかでない故障事例に分類する故障事例分類手順と、
前記ネットワーク故障情報の故障時間と影響ユーザ数から評価対象の設備の故障の影響度を算出する影響度算出手順と、
該故障事例分類手順により分類した故障事例において、故障による影響度が明らかでない事例について影響度を補正する影響度補正手順と、
前記影響度算出手順で算出された故障の影響度と前記影響度補正手順で補正された故障の影響度に基づいてネットワークの信頼性を評価する信頼性評価手順と、
前記信頼性評価手順で評価した評価結果を表示する表示手順と、
を具備することを特徴とするネットワーク評価方法。
A network evaluation method using a computer for evaluating a network having a plurality of facilities as a component,
A procedure for inputting information related to network failure information including failure time and the number of affected users for each facility,
A procedure for entering the evaluation object information on the equipment to be subjected to reliability evaluation;
A procedure for entering the evaluation standard value for reliability evaluation,
A storage procedure for storing the inputted network failure information;
A storage procedure for storing the input evaluation target information;
A storage procedure for storing the inputted evaluation reference value;
A failure case classification procedure for classifying failure cases included in the network failure information into normal failure cases and failure cases in which the degree of influence due to the failure is not clear;
An impact calculation procedure for calculating the impact of the failure of the equipment to be evaluated from the failure time of the network failure information and the number of affected users;
In the failure cases classified by the failure case classification procedure, an impact correction procedure for correcting the impact for cases where the impact due to the failure is not clear, and
A reliability evaluation procedure for evaluating the reliability of the network based on the impact level of the failure calculated in the impact level calculation procedure and the impact level of the fault corrected in the impact level correction procedure;
A display procedure for displaying the evaluation result evaluated in the reliability evaluation procedure;
A network evaluation method comprising:
JP2009185906A 2009-08-10 2009-08-10 System, method and program for evaluating network Pending JP2011040954A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009185906A JP2011040954A (en) 2009-08-10 2009-08-10 System, method and program for evaluating network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009185906A JP2011040954A (en) 2009-08-10 2009-08-10 System, method and program for evaluating network

Publications (1)

Publication Number Publication Date
JP2011040954A true JP2011040954A (en) 2011-02-24

Family

ID=43768280

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009185906A Pending JP2011040954A (en) 2009-08-10 2009-08-10 System, method and program for evaluating network

Country Status (1)

Country Link
JP (1) JP2011040954A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016025373A (en) * 2014-07-16 2016-02-08 富士通株式会社 Communication charging system and communication charging method
JP2021010105A (en) * 2019-07-01 2021-01-28 日本電信電話株式会社 Failure influence estimation device, failure influence estimation method and program

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200900065007; 松川達哉 他: '故障特性の推定に基づくネットワーク信頼度判定法の検討' 電子情報通信学会技術研究報告 第108巻,第378号, 20090108, p.49〜54, 社団法人電子情報通信学会 *
JPN6012049754; 松川達哉 他: '故障特性の推定に基づくネットワーク信頼度判定法の検討' 電子情報通信学会技術研究報告 第108巻,第378号, 20090108, p.49〜54, 社団法人電子情報通信学会 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016025373A (en) * 2014-07-16 2016-02-08 富士通株式会社 Communication charging system and communication charging method
JP2021010105A (en) * 2019-07-01 2021-01-28 日本電信電話株式会社 Failure influence estimation device, failure influence estimation method and program
JP7298343B2 (en) 2019-07-01 2023-06-27 日本電信電話株式会社 FAILURE EFFECT ESTIMATION DEVICE, FAILURE EFFECT ESTIMATION METHOD, AND PROGRAM

Similar Documents

Publication Publication Date Title
US10083073B2 (en) Method and system for real-time causality and root cause determination of transaction and infrastructure related events provided by multiple, heterogeneous agents
US8352789B2 (en) Operation management apparatus and method thereof
US8533536B2 (en) Monitoring data categorization and module-based health correlations
US20140280899A1 (en) Methods and apparatus for scoring the condition of nodes in a communication network and taking action based on node health scores
US8352867B2 (en) Predictive monitoring dashboard
US6973415B1 (en) System and method for monitoring and modeling system performance
US10797971B2 (en) Diagnostic framework in computing systems
US7467145B1 (en) System and method for analyzing processes
CN110166264B (en) Fault positioning method and device and electronic equipment
US20060026467A1 (en) Method and apparatus for automatically discovering of application errors as a predictive metric for the functional health of enterprise applications
US20130185591A1 (en) Methods, apparatus and articles of manufacture to perform root cause analysis for network events
US20060293777A1 (en) Automated and adaptive threshold setting
US20100082708A1 (en) System and Method for Management of Performance Fault Using Statistical Analysis
US20050097207A1 (en) System and method of predicting future behavior of a battery of end-to-end probes to anticipate and prevent computer network performance degradation
JP2008009842A (en) Control method of computer system, and computer system
US20120016714A1 (en) System and method for collaborative management of enterprise risk
US8037365B2 (en) System and method for automated and adaptive threshold setting to separately control false positive and false negative performance prediction errors
Xu et al. Software reliability growth model with partial differential equation for various debugging processes
US11799889B2 (en) Web service usage anomaly detection and prevention
KR101936240B1 (en) Preventive maintenance simulation system and method
JP5321386B2 (en) Quality control method and quality control apparatus for information system
US10805186B2 (en) Mobile communication network failure monitoring system and method
JP5133941B2 (en) Network management system, network management method, and program therefor
JP2011040954A (en) System, method and program for evaluating network
US20160050101A1 (en) Real-Time Network Monitoring and Alerting

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110608

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110608

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20110616

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110704

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20110719

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110902

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20120606

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120629

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120914

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120925

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130205