JP2016144189A - System, method and program for network evaluation - Google Patents
System, method and program for network evaluation Download PDFInfo
- Publication number
- JP2016144189A JP2016144189A JP2015021373A JP2015021373A JP2016144189A JP 2016144189 A JP2016144189 A JP 2016144189A JP 2015021373 A JP2015021373 A JP 2015021373A JP 2015021373 A JP2015021373 A JP 2015021373A JP 2016144189 A JP2016144189 A JP 2016144189A
- Authority
- JP
- Japan
- Prior art keywords
- network
- failure
- time
- evaluation
- unavailability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 87
- 238000000034 method Methods 0.000 title description 52
- 238000011084 recovery Methods 0.000 claims abstract description 38
- 238000004891 communication Methods 0.000 claims abstract description 28
- 238000004364 calculation method Methods 0.000 claims description 29
- 238000012545 processing Methods 0.000 description 22
- 230000006870 function Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000008439 repair process Effects 0.000 description 5
- 239000000470 constituent Substances 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000013210 evaluation model Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 230000002035 prolonged effect Effects 0.000 description 2
- 239000000725 suspension Substances 0.000 description 2
- 101000911772 Homo sapiens Hsc70-interacting protein Proteins 0.000 description 1
- 101001139126 Homo sapiens Krueppel-like factor 6 Proteins 0.000 description 1
- 101000661807 Homo sapiens Suppressor of tumorigenicity 14 protein Proteins 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000005477 standard model Effects 0.000 description 1
- 238000010972 statistical evaluation Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
故障確率等に基づきネットワークの信頼性を評価するネットワーク評価システムに関するものである。 The present invention relates to a network evaluation system that evaluates network reliability based on a failure probability or the like.
通信ネットワークの信頼性は、対象の通信ネットワークを構成する設備(例えばネットワーク装置やリンク等のネットワーク構成要素)と設備の構成(設備の接続構成や冗長構成)によって、当該通信ネットワークに対する評価モデルを作成し、個々のネットワーク設備が有する故障確率(例えば、故障率や不稼動率)の積や和を用いて算出される。 For the reliability of a communication network, an evaluation model for the communication network is created based on the equipment (for example, network components such as network devices and links) and the equipment configuration (equipment connection configuration and redundant configuration). Then, it is calculated by using the product or sum of failure probabilities (for example, failure rate and unavailability) possessed by individual network equipment.
そして、その信頼性は、当該通信ネットワークに対して求められている故障確率をもとに、個々のネットワーク設備に対して求められている故障確率を配分し、配分された故障確率と、評価モデルをもとに算出された故障確率とを比較することよって評価されてきた。ネットワーク信頼性の算出方法に関する従来の技術としては、非特許文献1に記述されている例がある。この文献に開示されている信頼性評価技術は、ネットワークの計画・設計・構築を実施する上で的確な判断を支援するための技術である。 The reliability is determined by allocating the failure probability required for each network equipment based on the failure probability required for the communication network, the allocated failure probability, and the evaluation model. It has been evaluated by comparing the failure probability calculated based on the above. As a conventional technique related to a network reliability calculation method, there is an example described in Non-Patent Document 1. The reliability evaluation technique disclosed in this document is a technique for supporting accurate judgment in implementing network planning, design, and construction.
運用中のネットワークの信頼性を評価し、ネットワークの信頼性向上施策を選定・決定する方法としては、ネットワーク設備に故障が発生した際のサービスの中断時間や故障した設備の停止時間に関する情報を収集し、サービスの中断や設備の停止が長引く原因や故障事例を明らかにすることによって、重点的に、あるいは優先的に実施すべき対策を決定する方法がある。非特許文献2においては、一般的な故障を対象としてネットワーク設備の故障発生から回復までの措置や措置の流れの例、MTTR(Mean Time To Repair)等の故障発生から回復までの時間に関する評価指標が示されており、サービスの中断時間や故障の修復時間に関する統計値を算出することによってネットワークの信頼性を評価する方法が示されている。 As a method of evaluating the reliability of the network in operation and selecting and determining measures to improve the reliability of the network, collect information on the service interruption time when the network equipment fails and the outage time of the failed equipment However, there is a method of deciding measures to be implemented with priority or priority by clarifying the cause or failure cases that cause a prolonged service interruption or facility stoppage. In Non-Patent Document 2, examples of measures and flow of measures from failure occurrence to recovery of network facilities for general failures, evaluation indices relating to time from failure occurrence to recovery such as MTTR (Mean Time To Repair) A method for evaluating the reliability of a network by calculating statistical values relating to service interruption time and failure repair time is shown.
IPネットワークにおいては、市販技術や汎用製品を積極的に導入してネットワークを構築しており、複数のベンダ、及び複数の機種の装置を組み合わせることによってネットワークを構成している。ルータ等に代表されるIPネットワーク装置を用い、故障が発生した場合にも、故障していない装置への切り替え等を実施することによって、通信サービスを利用しているユーザへは影響が発生しないような仕組みを採用している。 In an IP network, a network is constructed by actively introducing commercial technologies and general-purpose products, and a network is configured by combining a plurality of vendors and a plurality of types of devices. Even if a failure occurs using an IP network device typified by a router or the like, switching to a device that does not fail will not affect the user who is using the communication service. Is adopted.
現在、欧州の電気通信産業に関する標準化組織であるETSI(European Telecommunications Standards Institute)においては、通信ネットワークにおけるネットワーク機能を仮想化技術を用いて提供するためのアーキテクチャが議論されており、ネットワーク機能の仮想化(NFV: Network Functions Virtualization)に関する標準化が進められている。NFVの標準化においては、ネットワーク機能を仮想化する際に、仮想化技術を適用したネットワークにおいてサービスを実現するために求められる信頼性を確保するために必要なネットワークの信頼性の評価指標や信頼性を評価するためのモデルについての概要、冗長化構成箇所において故障が発生した際の切り替わりの動作等について、標準となるモデルが検討されている。例えば、非特許文献3が知られている。 Currently, ETSI (European Telecommunications Standards Institute), a standardization organization for the European telecommunications industry, is discussing architectures for providing network functions in communication networks using virtualization technology. (NFV: Network Functions Virtualization) is being standardized. In NFV standardization, when network functions are virtualized, network reliability evaluation indices and reliability required to ensure the reliability required to realize services in networks to which virtualization technology is applied A standard model has been studied for an outline of a model for evaluating the above, a switching operation when a failure occurs in a redundant configuration portion, and the like. For example, Non-Patent Document 3 is known.
通信ネットワークに仮想化技術を適用する場合には、汎用サーバ上において、各種ネットワーク機能を提供することを前提としており、各種ネットワーク機能をソフトウェアを用いて汎用サーバ上において実現することを前提としている。各種ネットワーク機能を、キャリアグレードのネットワークシステムに集約することによって、設備の構築コストや運用コストの削減が見込まれる。一方で、各種機能を集約することによって、故障の影響が大規模化する可能性があり、故障の大規模化によるネットワークの信頼性の低下が懸念されている。ネットワークが仮想化された環境においても一定の信頼性を確保するためには、汎用サーバを冗長化する、あるいは装置に収容するユーザの数を制限することによって、万が一、汎用サーバにおいて故障が発生した場合にも、故障による通信サービスの停止時間や通信サービスを利用するユーザへの影響を極力小さくすることが重要となる。 When the virtualization technology is applied to a communication network, it is assumed that various network functions are provided on the general-purpose server, and that various network functions are realized on the general-purpose server using software. By consolidating various network functions into a carrier-grade network system, facility construction costs and operational costs can be reduced. On the other hand, there is a possibility that the influence of a failure may become large-scaled by aggregating various functions, and there is a concern that the reliability of the network may be lowered due to the large-scale failure. In order to ensure a certain level of reliability even in a virtualized environment, a failure has occurred in the general-purpose server by making the general-purpose server redundant or limiting the number of users accommodated in the device. Even in this case, it is important to minimize the communication service stop time due to the failure and the influence on the user who uses the communication service.
また、ネットワーク機能の仮想化においては、各種冗長化構成の高度化が期待されている。現用系(冗長化構成箇所において通信サービスを提供している装置や部品等の物理的なリソース)において故障が発生した際に、予備系(冗長化構成箇所において通信サービスを提供していない、現用系とは別の予備装置・予備部品等の物理的なリソース)への瞬時的な切り替えや、要求するタイミングで、簡易に、必要な量の物理的なリソースを追加することが可能であるため、ネットワークの運用段階においても、ネットワークの運用者が所望する信頼性を確保することが可能となる。(N+m)冗長化構成のように、現用系の数がN個に対して予備系の数がm個の構成を、1つの冗長化構成の候補として採用することが見込まれており、1対1の冗長化構成に比べて、設備コストを抑制可能な冗長化構成が実現する可能性がある。 Further, in the virtualization of network functions, various redundant configurations are expected to be advanced. When a failure occurs in the active system (physical resources such as devices and parts that provide communication services in the redundant configuration location), the standby system (the communication service is not provided in the redundant configuration location) Physical resources such as spare devices and spare parts other than the system can be instantly switched to the required timing and the required amount of physical resources can be added easily. Even in the network operation stage, it is possible to ensure the reliability desired by the network operator. Like the (N + m) redundancy configuration, it is expected to adopt a configuration in which the number of active systems is N and the number of standby systems is m, as one redundancy configuration candidate, Compared to a one-to-one redundancy configuration, there is a possibility of realizing a redundancy configuration that can reduce equipment costs.
一方で、市販装置及び汎用サーバを用いて構成されるネットワークにおいては、ハードウェアの物理的・偶発的な故障に加え、装置の製造工程における不良部品の混入やソフトウェア開発工程における不具合の混入等、装置の故障につながる要因・要素が多数存在するため、ネットワーク全体の信頼性は、ネットワークを構成する個々の要素の信頼性に大きく依存する可能性がある。ネットワークのおける各種故障や不具合については、例えば、非特許文献4が知られている。 On the other hand, in a network configured using commercially available devices and general-purpose servers, in addition to physical and accidental failures of hardware, mixing of defective parts in the device manufacturing process, mixing of defects in the software development process, etc. Since there are many factors / elements leading to the failure of the apparatus, the reliability of the entire network may greatly depend on the reliability of individual elements constituting the network. For example, Non-Patent Document 4 is known for various failures and malfunctions in the network.
ネットワーク全体の信頼性を事前に正確に見積もるためには、ネットワークを構成する個々の要素の信頼性の値を元に、ネットワーク全体としての信頼性を計算し、ネットワークを構成する個々の要素の故障によるネットワーク全体の信頼性低下への影響を適切に見積もる必要がある。 In order to accurately estimate the reliability of the entire network in advance, the reliability of the entire network is calculated based on the reliability value of the individual elements that make up the network, and the failure of the individual elements that make up the network It is necessary to appropriately estimate the impact on the reliability degradation of the entire network.
また、ネットワークを構成する個々の要素において故障が頻発する、あるいは故障につながる可能性のある事象が頻発する場合には、装置や部品等の物理的なリソースを迅速に追加的に配備する必要がある。しかしながら、予備リソースの追加配備はネットワークのコスト増加につながる可能性があり、ネットワークコストの増加を最小限にとどめるために、予備リソースの追加を最小限に抑える必要がある。 In addition, in the case where failures frequently occur in individual elements constituting the network or events that may lead to failures occur frequently, it is necessary to quickly and additionally deploy physical resources such as devices and parts. is there. However, the additional deployment of spare resources may lead to an increase in network costs, and it is necessary to minimize the addition of spare resources in order to minimize the increase in network costs.
非特許文献1においては、評価対象となるネットワークについてネットワーク構成要素ごとの故障率や故障時間(故障に伴うサービス中断時間)の数値を用いて不稼働率を算出し、各要素の不稼働率を足し合わせることによってネットワークとしての信頼性を評価する方法を示している。この方法は、各要素ごとの信頼性対策を決定するための技術であり、ネットワークの設計段階において冗長構成や収容構成等の効果を見積もることを目的としている。よって、ネットワークの運用中において、装置の故障や故障につながる事象の発生の増加等、故障の発生状況に応じて、ネットワーク装置増設等の構成変更を実施する状況は考慮されていない。故障の発生率や故障の継続時間について、過去の経験に基づいて想定される値や長期間の測定結果に基づく平均的な特性のみしか考慮されていない。短期間に故障の発生率が大きく増加する状況や、回復に長時間を要する故障の発生を考慮していないため、安全側の評価が実施できない可能性がある。 In Non-Patent Document 1, the failure rate for each network component is calculated for the network to be evaluated using the numerical values of failure rate and failure time (service interruption time associated with failure), and the failure rate of each element is calculated. It shows how to evaluate the reliability of the network by adding together. This method is a technique for determining a reliability measure for each element, and is intended to estimate effects of a redundant configuration, a housing configuration, and the like at a network design stage. Therefore, during the operation of the network, the situation in which the configuration change such as the addition of the network device is performed is not considered in accordance with the occurrence status of the failure, such as an increase in the occurrence of the device failure or the event leading to the failure. For the failure rate and failure duration, only values assumed based on past experience and average characteristics based on long-term measurement results are considered. There is a possibility that safety-side evaluation cannot be performed because it does not take into account the situation where the failure occurrence rate greatly increases in a short period of time or the occurrence of failure that takes a long time to recover.
例えば、通常、冗長化構成箇所においては、複数の故障が重複的に発生するような状況は極めて稀な事象と想定されるため、冗長化構成箇所における故障が通信サービスに影響する可能性は極めて低いと評価される場合が多い。 For example, normally, in a redundant configuration location, it is assumed that a situation in which a plurality of failures occur redundantly is extremely rare, so the possibility that a failure in the redundant configuration location will affect the communication service is extremely high. Often evaluated as low.
しかしながら、故障発生から回復までの時間が極めて長くなる場合や短期間に故障が頻発する状況においては、冗長化構成箇所においても、通信サービスに影響する可能性を無視することはできない。ネットワーク全体の信頼性の評価が十分でないことによって、結果的に通信サービスが利用できない状況が発生する危険性がある。また、ネットワーク全体の信頼性を過剰に低く見積もった場合には、装置や部品等の物理的なリソースを余分に配備することにつながり、ネットワークのコストの増加を引き起こす可能性がある。 However, in the case where the time from failure occurrence to recovery becomes extremely long or in the situation where failures occur frequently in a short period of time, the possibility of affecting the communication service cannot be ignored even in the redundant configuration part. If the reliability of the entire network is not sufficiently evaluated, there is a risk that a communication service cannot be used as a result. In addition, if the reliability of the entire network is estimated too low, physical resources such as devices and parts may be allocated excessively, which may increase the cost of the network.
非特許文献2においては、IPネットワーク装置における故障、及び故障に伴う回復措置について記載されており、故障発生から回復までの平均値(MTTR: Mean Time To Repair)や稼働率(availability)を評価する方法が記載されている。 Non-Patent Document 2 describes a failure in an IP network device and a recovery measure accompanying the failure, and evaluates an average value (MTTR: Mean Time To Repair) and an availability rate from the occurrence of the failure to the recovery. A method is described.
しかしながら、特定の装置や部品において、故障の回復に要する時間が大きく異なる複数の種別の故障が混在する状況においては、MTTR等の平均的な値のみを用いて評価するだけでは十分ではない。故障の種別に応じて故障の回復に要する時間は大きく異なる可能性があるため、故障種別、及び故障の種別に応じた故障回復時間のばらつき(統計的な特性)を考慮して評価することが必要である。
例えば、2重化構成が採用されている箇所においては、両構成要素にて2重に故障が発生した場合に、通信サービスの停止が発生する。このとき、両構成要素にて2重に故障が発生する確率は、両構成要素の故障率の積となるため、両者の値が同程度であれば、個々の構成要素の故障率の2乗として算出される。
However, in a situation where a plurality of types of faults that differ greatly in the time required for fault recovery are mixed in a specific device or component, it is not sufficient to evaluate using only average values such as MTTR. Since the time required for failure recovery may vary greatly depending on the type of failure, it is possible to evaluate considering the failure type and the variation (statistical characteristics) of failure recovery time depending on the type of failure. is necessary.
For example, in a place where a duplex configuration is adopted, when a double failure occurs in both components, the communication service is stopped. At this time, the probability of double failure in both components is the product of the failure rates of both components, so if both values are comparable, the square of the failure rate of each component Is calculated as
ハードウェア故障等の事前に想定している種別の故障が発生した場合には、交換措置等の対処方法が事前に明らかになっているため、故障の回復は長時間化する可能性は低い。よって、一方が故障している状況において、他方がさらに故障する可能性は極めて低いと評価することが可能である。 When a failure of the type assumed in advance, such as a hardware failure, occurs, since the coping method such as replacement measures has been clarified in advance, it is unlikely that the recovery of the failure will take a long time. Therefore, it is possible to evaluate that the possibility of further failure of the other is extremely low in a situation where one of the devices has failed.
しかしながら、ソフトウェアの不具合に起因する故障等、事前に想定することが難しく、短期間に高頻度で発生する可能性がある種別の故障が発生した場合には、故障の回復が長時間化する可能性があるため、一方の構成要素が故障している状況において、他方の構成要素においてさらに故障が発生する可能性が生じる。つまり、故障の回復に要する時間を考慮して信頼性を評価する必要があり、故障の種別等、故障による回復時間の違いを特徴付ける要素を考慮して信頼性を評価する必要がある。 However, if there is a type of failure that is difficult to anticipate in advance, such as a failure caused by a software defect, and that may occur frequently in a short period of time, the recovery of the failure can be prolonged. Therefore, in a situation where one component is in failure, there is a possibility that further failure will occur in the other component. In other words, it is necessary to evaluate the reliability in consideration of the time required for failure recovery, and it is necessary to evaluate the reliability in consideration of factors that characterize the difference in recovery time due to failure, such as the type of failure.
この発明は上記事情に着目してなされたもので、その目的とするところは、複数のネットワーク構成要素によって構成される冗長化構成の信頼性の評価に優れたネットワーク評価システム、ネットワーク評価方法、及びネットワーク評価プログラムを提供することにある。 The present invention has been made paying attention to the above circumstances, and the object is to provide a network evaluation system, a network evaluation method, and a network evaluation system that are excellent in evaluating the reliability of a redundant configuration constituted by a plurality of network components. To provide a network evaluation program.
上記目的を達成するために、実施形態に係るネットワーク評価システムは、ネットワーク装置及びサーバ装置から構成されるネットワークの構成要素数に関する情報、故障発生日時に関する情報、及び故障回復日時に関する情報を入力する手段と、前記ネットワークの構成要素数に関する情報、故障発生日時に関する情報、及び故障回復日時に関する情報を記憶する手段と、これらの入力および記憶された情報をもとにして、前記ネットワークにおける故障による通信サービスへの影響を評価する手段と、を具備する。 In order to achieve the above object, the network evaluation system according to the embodiment is a means for inputting information relating to the number of network components composed of network devices and server devices, information relating to failure occurrence date and time, and information relating to failure recovery date and time. And means for storing information relating to the number of components of the network, information relating to failure occurrence date and time, and information relating to failure recovery date and time, and a communication service due to failure in the network based on these inputs and stored information And a means for evaluating the influence on the environment.
すなわちこの発明によれば、複数のネットワーク構成要素によって構成される冗長化構成の信頼性評価に優れたネットワーク評価システム、ネットワーク評価方法、及びネットワーク評価プログラムを提供することができる。 That is, according to the present invention, it is possible to provide a network evaluation system, a network evaluation method, and a network evaluation program that are excellent in reliability evaluation of a redundant configuration constituted by a plurality of network components.
以下、図面を参照してこの発明に係わる実施形態を説明する。 Embodiments according to the present invention will be described below with reference to the drawings.
図1は、本発明の実施形態に係る不稼働率評価(全体)の一例を示すフローチャートである。(本発明の実施形態に係る原理を説明するための図である。)フローチャートの各ステップについては後に詳しく説明する。 FIG. 1 is a flowchart showing an example of the unavailability evaluation (overall) according to the embodiment of the present invention. (It is a figure for demonstrating the principle which concerns on embodiment of this invention.) Each step of a flowchart is demonstrated in detail later.
ここで、以降に続く記載内容に用いる記号を定義し、説明する。 Here, symbols used for the following description are defined and explained.
下記は、故障の発生時間間隔や回復時間等、ネットワークの信頼性を評価する上で重要な指標である。
MTBF: 故障の発生間隔(ある故障が発生してから次の故障が発生するまでの時間)の平均値
MTTR: 故障の修理時間(故障が発生してから回復するまでの時間)の平均値
MTBFA: 故障種別Aの故障の発生時間間隔の平均値
MTBFB: 故障種別Bの故障の発生時間間隔の平均値
MTTRA: 故障種別Aの故障の回復時間の平均値
MTTRB: 故障種別Bの故障の回復時間の平均値
TBFB: 故障種別Bの故障の発生時間間隔(複数の故障が発生した場合には複数の数値となる)
TTRB: 故障種別Bの故障の回復時間(複数の故障が発生した場合には複数の数値となる)
S(TBFB): 故障種別Bの故障の発生時間間隔の統計値
S(TTRB): 故障種別Bの故障の回復時間の統計値
本発明においては、複数の故障が発生している状況を前提としているため、故障の発生間隔や回復時間等の時間についての統計値が存在することとする。なお、本発明は、複数の故障に限らず、単一の故障にも適用可能である。また、複数の故障とは、同一種別の複数回の故障、及び複数種別の故障の何れのケースも含む。
The following are important indicators for evaluating the reliability of the network, such as the occurrence time interval and the recovery time of failures.
MTBF: The average value of failure occurrence intervals (time from occurrence of one failure to the next failure)
MTTR: Average repair time (time from failure to recovery)
MTBF A : Average value of the time interval of failure type A
MTBF B : Average value of the time intervals at which failure types B occur
MTTR A : Average recovery time of failure type A
MTTR B : Average recovery time of failure type B
TBF B : Time interval of occurrence of failure of failure type B (If multiple failures occur, it will be multiple numbers)
TTR B : Failure recovery time for failure type B (If multiple failures occur, multiple values are used)
S (TBF B ): Statistical value of the failure time interval of failure type B
S (TTR B ): Statistical value of recovery time of failure of failure type B In the present invention, since it is premised on a situation where a plurality of failures have occurred, statistics on the time of failure occurrence, recovery time, etc. Assume that a value exists. The present invention is applicable not only to a plurality of failures but also to a single failure. The plurality of failures includes any case of a plurality of failures of the same type and a plurality of types of failures.
故障の発生日時を以下の数列とする。
t1, t2, t3, ・・・, tk, ・・・, (1, 2, 3, ・・・ は、故障の発生順序を示す番号)
また、各故障の回復日時を以下の数列とする。
r1, r2, r3, ・・・, tk, ・・・, (1, 2, 3, ・・・ は、上記と同様に故障の発生順序を示す番号)
各故障の回復時間は、r1とt1の差分の時間、rkとtkの差分の時間として算出できる。よって、これらの時間の値の数列に対する平均値を求めれば、MTTRが算出できる。
The date and time of failure occurrence is the following number sequence.
t1, t2, t3, ..., tk, ..., (1, 2, 3, ... are numbers indicating the order of failure occurrence)
Also, the recovery date and time of each failure is the following number sequence.
r1, r2, r3, ..., tk, ..., (1, 2, 3, ... are numbers indicating the order of failure occurrence as above)
The recovery time of each failure can be calculated as the difference time between r1 and t1, and the difference time between rk and tk. Therefore, MTTR can be calculated by obtaining an average value of these time values for a number sequence.
同様に、故障種別Bについて、平均値以外の統計値を算出する場合には、 統計値をS(TTRB)と定義し、算出する。 Similarly, when calculating a statistical value other than the average value for failure type B, the statistical value is defined as S (TTR B ) and calculated.
また、故障の発生時間間隔は、t2とt1の差分の時間、tkとtk-1の差分の時間として算出できる。よって、これらの時間の値の数列に対する平均値を求めれば、MTBFが算出できる。 Further, the failure occurrence time interval can be calculated as the difference time between t2 and t1, and the difference time between tk and tk-1. Therefore, the MTBF can be calculated by obtaining an average value of these time values with respect to the sequence.
同様に、故障種別Bについて、平均値以外の統計値を算出する場合には、 S(TBFB)と定義し、算出する。 Similarly, when calculating a statistical value other than the average value for failure type B, define it as S (TBF B ).
非冗長化構成箇所における不稼働率は、一般的に前述の記号を用いて以下のように表される。 The unavailability at non-redundant components is generally expressed as follows using the above-mentioned symbols.
よって、2重化構成箇所における不稼働率は、以下のように表される。 Therefore, the unavailability in the duplex configuration location is expressed as follows.
さらに、(n+1)冗長化構成(2箇所において故障が発生すると通信サービスの停止に影響する冗長化構成)箇所における不稼働率は、以下のように表される。ここで、(n+1)の、nは正常に動作するために必要な物理リソースの数、1は予備系として必要な物理リソースの数を示している。図2は、(n+1)冗長化構成の信頼性ブロック図の一例を示す。並列冗長システムの信頼性ブロック図と同様であるが、(n+1)冗長化構成においては、n個の構成要素が正常に動作していれば正常に動作し、2個以上の構成要素に故障が発生すると正常に動作しなくなるという性質を持つシステムである。 Furthermore, the unavailability at the (n + 1) redundant configuration (redundant configuration that affects the suspension of communication service when a failure occurs at two locations) is expressed as follows. Here, in (n + 1), n indicates the number of physical resources necessary for normal operation, and 1 indicates the number of physical resources necessary for the standby system. FIG. 2 shows an example of a reliability block diagram of the (n + 1) redundancy configuration. Same as the reliability block diagram of the parallel redundant system, but in the (n + 1) redundancy configuration, if n components are operating normally, they will operate normally, and two or more components will be This system has the property that it does not operate normally when a failure occurs.
ここで、2種類の故障種別(A, B)の故障が発生している状況を想定すると、2種類の故障による、非冗長化構成箇所における不稼働率は、以下のように表される。 Here, assuming a situation in which two types of failure types (A, B) have occurred, the non-redundant configuration failure rate due to two types of failures is expressed as follows.
上式より、2種類の故障種別(A, B)の故障が発生している状況において、2種類の故障による(n+1)冗長化構成箇所における不稼働率は、以下のように表される。 From the above formula, in the situation where two types of failure (A, B) have occurred, the unavailability at the (n + 1) redundant configuration location due to two types of failure is expressed as follows: The
ここで、故障種別Bの故障が増加している、あるいは故障種別Bの故障の回復に長時間を要する状況を考慮するために、前述の不稼働率の算出式を以下のように補正する。 Here, in order to consider the situation where the failure of the failure type B is increasing or it takes a long time to recover from the failure of the failure type B, the above-described calculation formula for the inoperative rate is corrected as follows.
S(TBFB)は、故障種別Bの故障の故障発生時間間隔の統計値であり、例えば、故障が急増している状況を想定し、故障発生時間間隔の値を危険側(短時間)に設定するためには、第1四分位数等の小さい代表値を設定することが有効である。 S (TBF B ) is a statistical value of the failure occurrence time interval of failure of failure type B. For example, assuming a situation where failures are increasing rapidly, the failure occurrence time interval value is set to the danger side (short time). In order to set, it is effective to set a small representative value such as the first quartile.
また、S(TTRB)は、故障種別Bの故障の回復時間の統計値であり、例えば、故障の回復の難易度が高く、故障の回復が長時間化するような最悪ケースを想定する場合には、第3四分位数等の大きい代表値を設定することが有効である。 S (TTR B ) is a statistical value of failure recovery time for failure type B. For example, assuming the worst case where recovery of failure is high and failure recovery takes a long time It is effective to set a large representative value such as the third quartile.
同様にして、(n+2)冗長化(3箇所において故障が発生すると通信サービスの停止に影響する冗長化構成)構成箇所における不稼働率は、以下のように表される。図3は、(n+2)冗長化構成の信頼性ブロック図の一例を示す。並列冗長システムの信頼性ブロック図と同様であるが、n+2冗長化構成においては、n個の構成要素が正常に動作していれば正常に動作し、3個以上の構成要素に故障が発生すると正常に動作しなくなるという性質を持つシステムである。 Similarly, (n + 2) redundancy (redundant configuration that affects communication service stop when a failure occurs at three locations), the unavailability at the configuration location is expressed as follows. FIG. 3 shows an example of a reliability block diagram of the (n + 2) redundancy configuration. Similar to the reliability block diagram of a parallel redundant system, but in an n + 2 redundant configuration, if n components are operating normally, they will operate normally, and 3 or more components will fail. It is a system that has the property that it will not work properly if it occurs.
また、(n+3)冗長化構成箇所(n個の構成要素が正常に動作していれば正常に動作し、4個以上の構成要素に故障が発生すると正常に動作しなくなるという性質を持つシステムである。)における不稼働率は、以下のように表される。 In addition, (n + 3) redundant configuration part (has the property that if n components are operating normally, it will operate normally, and if more than 4 components fail, it will not operate normally) The unavailability in the system) is expressed as follows:
ここには記載しないが、(n+m)重化構成箇所(m+1箇所において故障が発生すると通信サービスの停止に影響する冗長化構成)における不稼働率についても算出式を定義することができる。 Although not described here, it is possible to define a calculation formula for the non-operation rate at the (n + m) redundant configuration location (redundant configuration that affects the suspension of communication services if a failure occurs at m + 1 location) it can.
図8は、本発明の実施形態に係るネットワーク評価システムの一例を示すブロック図である。尚、本発明の実施のタイミングは事前に固定の期間を事前に設定する場合と、任意の期間を入力し実施する場合とがある、いずれの場合においても、実施形態は同様になるため、本実施形態では固定期間ごとに実施するものとし、実施のタイミングが事前に設定されている場合を例として記載する。 FIG. 8 is a block diagram showing an example of a network evaluation system according to the embodiment of the present invention. It should be noted that the timing of the implementation of the present invention includes the case where a fixed period is set in advance and the case where an arbitrary period is input and implemented. In either case, the embodiment is the same. In the embodiment, it is performed every fixed period, and a case where the execution timing is set in advance will be described as an example.
ここで、手順0(ST0)、手順1(ST1)、手順2(ST2)、手順3(ST3)を実行する動作主体としてのネットワーク評価システムについて説明する。図8に示すように、ネットワーク評価システムは、受信及び処理部11、受信及び処理部21、ネットワーク故障情報DB(データベース)12、ネットワーク構成情報DB(データベース)22、不稼働率算出部31、及び不稼働率評価部32等を備える。 Here, a network evaluation system as an operation subject that executes procedure 0 (ST0), procedure 1 (ST1), procedure 2 (ST2), and procedure 3 (ST3) will be described. As shown in FIG. 8, the network evaluation system includes a reception and processing unit 11, a reception and processing unit 21, a network failure information DB (database) 12, a network configuration information DB (database) 22, an unavailability calculation unit 31, and A vacancy rate evaluation unit 32 and the like are provided.
受信及び処理部11は、有線又は無線により情報を受信する通信部、及び情報を処理するプロセッサー等で構成され、ネットワーク故障情報1等を受信し(入力し)、受信した情報を処理する。図9は、ネットワーク故障情報の一例を示す図である。同様に、受信及び処理部21は、有線又は無線により情報を受信する通信部及び情報を処理するプロセッサー等で構成され、ネットワーク構成情報2等を受信し(入力し)、受信した情報を処理する。 The reception and processing unit 11 includes a communication unit that receives information by wire or wireless, and a processor that processes information. The reception and processing unit 11 receives (inputs) the network failure information 1 and processes the received information. FIG. 9 is a diagram illustrating an example of network failure information. Similarly, the reception and processing unit 21 includes a communication unit that receives information by wire or wireless and a processor that processes information, and receives (inputs) the network configuration information 2 and processes the received information. .
ネットワーク故障情報DB12は、ハードディスク等の情報記憶装置であり、受信及び処理部11により受信されたネットワーク故障情報1等を記憶する。同様に、ネットワーク構成情報DB22は、ハードディスク等の情報記憶装置であり、受信及び処理部21により受信されたネットワーク構成情報2等を記憶する。 The network failure information DB 12 is an information storage device such as a hard disk, and stores the network failure information 1 received by the reception and processing unit 11. Similarly, the network configuration information DB 22 is an information storage device such as a hard disk, and stores the network configuration information 2 received by the reception and processing unit 21.
なお、本実施形態では、受信及び処理部11と受信及び処理部21で、ネットワーク故障情報1及びネットワーク構成情報2等を受信し、受信した情報を処理するケースについて説明するが、一つの通信部でネットワーク故障情報1及びネットワーク構成情報2等を受信し、一つの処理部で受信した情報を処理するようにしてもよい。 In this embodiment, a case where the reception and processing unit 11 and the reception and processing unit 21 receive the network failure information 1 and the network configuration information 2 and processes the received information will be described. The network failure information 1 and the network configuration information 2 etc. may be received and the received information may be processed by one processing unit.
不稼働率算出部31は、プロセッサー及びメモリ等により構成可能であり、ネットワーク故障情報DB12に記憶されたネットワーク故障情報1、及びネットワーク構成情報DB22に記憶されたネットワーク構成情報2等に基づき、不稼働率を算出する。不稼働率評価部32は、プロセッサー及びメモリ等により構成可能であり、不稼働率算出部31により算出された不稼働率の算出結果3に基づき、不稼働率(故障による通信サービスへの影響)を評価し、評価結果4を出力する。 The non-operation rate calculation unit 31 can be configured by a processor, a memory, and the like, and is based on the network failure information 1 stored in the network failure information DB 12, the network configuration information 2 stored in the network configuration information DB 22, and the like. Calculate the rate. The unavailability evaluation unit 32 can be configured by a processor, a memory, and the like, and based on the unavailability calculation result 3 calculated by the unavailability calculation unit 31, the unavailability (impact on communication service due to failure) And evaluate result 4 is output.
ネットワーク評価システムの不稼働率評価部32から出力される評価結果4は、表示装置40等へ出力される。表示装置40は、不稼働率評価部32から出力される評価結果4を表示する。 The evaluation result 4 output from the non-working rate evaluation unit 32 of the network evaluation system is output to the display device 40 and the like. The display device 40 displays the evaluation result 4 output from the non-working rate evaluation unit 32.
なお、本実施形態では、ネットワーク評価システムが、ネットワーク故障情報DB12及びネットワーク構成情報DB22を備えるケース、つまり、ネットワーク故障情報及びネットワーク構成情報を有するケースについて説明するが、ネットワーク故障情報DB12及びネットワーク構成情報DB22の一方又は両方をネットワーク評価システムの外部に設置し、必要に応じて、ネットワーク評価システムが、外部のDBから、ネットワーク故障情報1及びネットワーク構成情報2の一方又は両方を取得(ダウンロード)するようにしてもよい。 In this embodiment, a case where the network evaluation system includes the network failure information DB12 and the network configuration information DB22, that is, a case having the network failure information and the network configuration information will be described. However, the network failure information DB12 and the network configuration information are described. One or both of DB22 is installed outside the network evaluation system, and the network evaluation system acquires (downloads) one or both of network failure information 1 and network configuration information 2 from the external DB as necessary. It may be.
(手順0(ST0)) ネットワーク故障情報、ネットワーク構成情報の入力
ネットワークの信頼性の算出結果に基づくネットワーク構成の評価を実施するために、ネットワーク評価システムに対して、外部からネットワーク故障情報1を入力する。受信及び処理部11は、入力されるネットワーク故障情報1を受信する。(図10のST11)
ここで、入力は他のネットワーク運用管理DB(データベース)等から自動的に実行する。受信及び処理部11は、入力されたネットワーク故障情報1から、故障種別毎の故障発生日時、故障回復日時等の必要情報を抽出し、ネットワーク故障DBに格納する。(ネットワーク故障DBに格納されている故障情報の例としては、図9を参照)
また、ネットワーク評価システムに対して、外部からネットワーク構成情報2を入力する。受信及び処理部21は、入力されるネットワーク構成情報2を受信する。(図10のST11)
ここで、これらの入力は他のネットワーク構成情報管理DB(データベース)等から自動的に実行する。受信及び処理部21は、入力されたネットワーク構成情報から、構成要素数等の必要情報を抽出し、ネットワーク構成情報DBに格納する。ネットワークの構成としては、1重化構成や多重化構成等、複数の構成パターンがあるが、ここでは(n+m)冗長化構成((n+m)個の構成要素のうちm+1個以上の構成要素において故障が発生すると正常に動作しなくなるという性質を持つシステム)を例として以降の手順を説明する。
(Procedure 0 (ST0)) Input of network failure information and network configuration information Input network failure information 1 from the outside to the network evaluation system in order to evaluate the network configuration based on the calculation result of network reliability To do. The reception and processing unit 11 receives the input network failure information 1. (ST11 in Fig. 10)
Here, the input is automatically executed from another network operation management DB (database) or the like. The reception and processing unit 11 extracts necessary information such as failure occurrence date and time and failure recovery date and time for each failure type from the input network failure information 1 and stores it in the network failure DB. (See Fig. 9 for examples of failure information stored in the network failure DB)
Further, the network configuration information 2 is input from the outside to the network evaluation system. The reception and processing unit 21 receives the input network configuration information 2. (ST11 in Fig. 10)
Here, these inputs are automatically executed from another network configuration information management DB (database) or the like. The reception and processing unit 21 extracts necessary information such as the number of components from the input network configuration information and stores it in the network configuration information DB. The network configuration includes multiple configuration patterns, such as a single configuration and a multiplexed configuration. Here, (n + m) redundancy configuration (m + 1 of (n + m) configuration elements) The following procedure will be described by taking as an example a system having a property that it does not operate normally when a failure occurs in the above components.
ここでは、最も単純な例として、構成要素の種別(装置の機種や機能の種別)は1種類とし、構成要素数は1種類の構成要素に対する数量を表すものとする。また、故障の種別は2種類に分類されるとする。 Here, as the simplest example, it is assumed that the type of component (device type or function type) is one and the number of components represents the quantity for one type of component. Also, it is assumed that failure types are classified into two types.
商用のネットワークにおいて実際に運用されている状況においては、構成要素の種別や故障の種別は複数存在するが、以降の手順の実施形態は同じ形態にて実現可能であるため、上記の単純な例を用いて説明することとする。 In a situation where the network is actually operated in a commercial network, there are a plurality of component types and failure types. However, since the subsequent procedure embodiments can be realized in the same form, the above simple example This will be described using.
尚、本発明では、故障時間の統計的な評価を実施するため、手順0において設定した故障情報の数(故障事例数)が一定以上である必要がある。(図10のST12)本実施形態では、以降の手順を実行する基準として、故障情報の数が20件以上必要であることとする。尚、故障件数の数の基準として20以上としているのは、有意差の検定等、統計的な評価や判断を実施する上で必要となるサンプル数が凡そ20程度と言われていることを理由としているが、故障情報の数が複数あれば20未満であってもよい。 In the present invention, since the failure time is statistically evaluated, the number of pieces of failure information (number of failure cases) set in the procedure 0 needs to be a certain value or more. (ST12 in FIG. 10) In this embodiment, it is assumed that the number of pieces of failure information needs to be 20 or more as a reference for executing the subsequent procedure. The reason for setting the number of failures as 20 or more is that the number of samples required for statistical evaluation and judgment such as testing for significant differences is said to be about 20 However, if there are a plurality of pieces of failure information, it may be less than 20.
(手順1(ST1))不稼働率の算出
2種類の故障種別(A, B)の故障が発生している状況において、2種類の故障による(n+1)冗長化構成箇所における不稼働率は、不稼働率算出部31により算出され(図10のST13)、以下のように表される。
(Procedure 1 (ST1)) Calculation of unavailability
In a situation where two types of failure (A, B) have occurred, the unavailability at the (n + 1) redundant configuration location due to the two types of failure is calculated by the unavailability calculator 31 ( ST13 in FIG. 10 is expressed as follows.
前述の通り、MTTRは、故障の修理時間の平均値であって、各故障の故障時間(回復日時と発生日時の差分の時間)の構成要素数nに対する平均値として、不稼働率算出部31により算出される。同様にMTBFは、各故障の発生時間間隔について、構成要素数nに対する平均値として、不稼働率算出部31により算出される。 As described above, the MTTR is an average value of the repair times of failures, and is used as an average value for the number of components n of the failure time of each failure (the time of the difference between the recovery date and the occurrence date and time). Is calculated by Similarly, the MTBF is calculated by the non-working rate calculation unit 31 as an average value for the number of components n for the occurrence time interval of each failure.
故障種別Bの故障が増加している、あるいは故障種別Bの故障の回復に長時間を要する状況を考慮するため、同様に、故障種別Bについて、平均値以外の統計値をS(TTRB)と定義し、不稼働率算出部31によりS(TTRB)が算出される。なお、不稼働率算出部31が、故障種別毎の故障発生日時、故障回復日時等の必要情報に基づき、故障種別Bの故障が増加している、あるいは故障種別Bの故障の回復に長時間を要する状況を判定する。 Similarly, in order to consider the situation where the failure of failure type B is increasing or it takes a long time to recover from failure of failure type B, the statistical value other than the average value for failure type B is S (TTR B ) S (TTR B ) is calculated by the non-working rate calculation unit 31. Note that the failure rate calculation unit 31 has increased the failure type B failure based on necessary information such as the failure occurrence date and time, failure recovery date and time for each failure type, or has taken a long time to recover from the failure type B failure. Determine the situation that requires.
同様に、故障の発生時間間隔について、平均値以外の統計値をS(TBFB)と定義し、不稼働率算出部31によりS(TBFB)が算出される。 Similarly, for the failure occurrence time interval, a statistical value other than the average value is defined as S (TBF B ), and the unavailability calculating unit 31 calculates S (TBF B ).
これらの統計値を用いて、不稼働率算出部31は、不稼働率の算出式を以下のように補正し、不稼働率を算出する。 Using these statistical values, the non-working rate calculation unit 31 corrects the non-working rate calculation formula as follows to calculate the non-working rate.
ここで、S(TTRB)の値として、第3四分位数等の統計値として大きい値を採用すると、TTRの値に対する不稼働率の値が大きく評価されるため、安全側の評価が可能となる。 Here, if a large value is adopted as the statistical value such as the third quartile as the value of S (TTR B ), the value of the unavailability with respect to the value of TTR is greatly evaluated. It becomes possible.
また、同様に、S(TBFB)の値として、第1四分位数等の統計値として小さい値を採用すると、TBFの値に対する不稼働率の値が大きく評価されるため、安全側の評価が可能となる。 Similarly, if a small value is adopted as a statistical value such as the first quartile as the value of S (TBF B ), the value of the unavailability with respect to the value of TBF is greatly evaluated. Evaluation is possible.
これらの統計値の設定方法については、事前にネットワークの運用者によって決定されており、ネットワーク評価システムに設定されており、不稼働率算出部31は設定に従い統計値及び不稼働率を算出する。 These statistical value setting methods are determined in advance by the network operator and set in the network evaluation system, and the unavailability calculator 31 calculates the statistic and the unavailability according to the settings.
手順0において入力された故障情報、及び構成要素数の情報を用いて、上記不稼働率によって、不稼働率算出部31は、冗長化構成の不稼働率を算出する。 Using the failure information input in the procedure 0 and the information on the number of components, the failure rate calculation unit 31 calculates the failure rate of the redundant configuration based on the failure rate.
ここで、上記、(n+1)冗長化構成に対する不稼働率の算出結果3をUn+1と定義する。
(手順2(ST2)) 不稼働率の評価
不稼働率評価部32は、手順1において算出した不稼働率の算出結果3を評価する。(図10のST14)
算出した不稼働率の値:Un+1が、基準値cを超過する場合、すなわち
Un+1 > c
となれば、不稼働率評価部32は、不稼働率は高い、すなわち信頼性が低いと評価し、評価結果4を出力する。
Here, the calculation result 3 of the non-operation rate for the (n + 1) redundant configuration is defined as Un + 1.
(Procedure 2 (ST2)) Evaluation of the unavailability The unavailability evaluation unit 32 evaluates the calculation result 3 of the unavailability calculated in the procedure 1. (ST14 in Fig. 10)
Calculated unavailability value: When Un + 1 exceeds the reference value c, ie
Un + 1> c
Then, the unavailability evaluation unit 32 evaluates that the unavailability is high, that is, the reliability is low, and outputs an evaluation result 4.
ここで、基準値は、本手順を実施するシステムに、事前に設定されているものとする。基準値としては、通常10-7〜10-5程度の値を想定している。また、特定の種別の故障についての不稼働率を評価する場合には、他の種別の故障についての不稼働率の算出結果を基準として設定し、上記と同様の比較を実施することも可能である。 Here, it is assumed that the reference value is set in advance in the system that performs this procedure. As a reference value, a value of about 10 −7 to 10 −5 is normally assumed. In addition, when evaluating the unavailability for a specific type of failure, it is possible to set the calculation result of the unavailability for other types of failure as a reference and perform the same comparison as above. is there.
このとき、不稼働率評価部32は、予備系となる構成要素数を1つ追加し、冗長化構成を(n+2)冗長化構成に設定する。手順1に戻り、不稼働率算出部31は、(n+2)冗長化構成に対する不稼働率:Un+2を再度算出する。 At this time, the non-working rate evaluation unit 32 adds one component number to be a standby system and sets the redundant configuration to (n + 2) redundant configuration. Returning to the procedure 1, the non-working rate calculating unit 31 calculates the non-working rate: Un + 2 for the (n + 2) redundant configuration again.
再度算出した不稼働率の算出結果3について、手順2の上記の手順に戻り、不稼働率評価部32は、再度基準値: cとの比較を実施する。 With respect to the calculation result 3 of the non-operation rate calculated again, the procedure returns to the above-described procedure of step 2, and the non-operation rate evaluation unit 32 again performs comparison with the reference value: c.
上記と同様に基準値との比較を実施した結果、
Un+2 ≦ c
となり、Un+2の値が基準値を下回れば、手順2を終えて手順3に進む。
As a result of comparison with the standard value as above,
Un + 2 ≦ c
If the value of Un + 2 is below the reference value, the procedure 2 is finished and the procedure proceeds to the procedure 3.
再度、基準値を上回り
Un+2 > c
となれば、再度手順2に戻り、上記の記載と同様に手順を繰り返す。
Again, above the reference value
Un + 2> c
If it becomes, it returns to the procedure 2 again and repeats a procedure similarly to said description.
不稼働率評価部32は、不稼働率の値が基準値を下回るまで予備系となる構成要素数を追加し、本手順を繰り返す。 The unavailability evaluation unit 32 adds the number of constituent elements that become a standby system until the value of the unavailability falls below the reference value, and repeats this procedure.
尚、これまでの手順については、(n+1)冗長化構成を最初に評価することを想定して実施例を記載しているが、予備系の構成要素数を一般化した、(n+m)冗長化構成を最初に評価する場合にも同様に手順を実行できる。
(手順3(ST3)) 評価結果表示
表示装置33は、手順2にて評価された結果を表示する。
表示する評価結果としては、以下のものであり、以下のすべての項目、あるいはいくつかの項目を組み合わせたものである。(実施結果の一例としては、図4参照)
不稼働率の評価結果 (予備系となる構成要素の追加配備の要否)
予備系となる構成要素の追加配備数
手順2において算出された不稼働率の値
尚、本発明の実施例としては、これまでに記載した評価手順以外の実施例として、複数のパターンがある。下記の複数の評価パターン1、2、3についても、これまでに記載した評価手順と同様の手順を用いて評価を実施することが可能である。
In addition, about the procedure so far, although the Example is described supposing that the (n + 1) redundant configuration is evaluated first, the number of components of the standby system is generalized (n + m) The same procedure can be performed when the redundant configuration is first evaluated.
(Procedure 3 (ST3)) Evaluation Result Display The display device 33 displays the result evaluated in Procedure 2.
The evaluation results to be displayed are as follows, and are all the following items or a combination of some items. (See Figure 4 for an example of implementation results)
Evaluation result of the unavailability (necessity of additional deployment of spare components)
Number of non-working rates calculated in step 2 of the number of additional deployments of the constituent elements as the standby system Note that examples of the present invention include a plurality of patterns as examples other than the evaluation procedure described so far. It is possible to evaluate the following plurality of evaluation patterns 1, 2, and 3 using a procedure similar to the evaluation procedure described so far.
故障件数の削減対策の実施による効果を評価することを目的として、故障の発生時間間隔の大きさに対する不稼働率の低減効果を評価する場合、図5に示す評価パターン2を用いて不稼働率評価部32により評価を実施することが可能である。 When evaluating the effect of reducing the unavailability with respect to the size of the occurrence time interval of failure for the purpose of evaluating the effect of implementing measures for reducing the number of failures, the unavailability using the evaluation pattern 2 shown in FIG. Evaluation can be performed by the evaluation unit 32.
故障時間の短縮化対策の実施による効果を評価することを目的として、故障時間の大きさに対する不稼働率の低減効果を評価する場合、図6に示す評価パターン3を用いて不稼働率評価部32により評価を実施することが可能である。 When evaluating the effect of reducing the unavailability with respect to the magnitude of the failure time for the purpose of evaluating the effect of implementing measures for shortening the failure time, the unavailability rate evaluation unit using the evaluation pattern 3 shown in FIG. It is possible to carry out the evaluation according to 32.
冗長化構成において、予備系の数は一定であることを条件として、運用系の数に対する不稼働率を評価することを目的として、不稼働率が一定以下となるような冗長化構成を決定するために評価する場合、図7に示す評価パターン4を用いて不稼働率評価部32により評価を実施することが可能である。この場合には、nの値を初期値から1ずつ増加させた場合に、不稼働率が基準値よりも小さくなるかどうかの比較を実施し、基準値よりも小さい場合にはnの値を1増加させ、基準値を超えた場合に、基準値よりも小さくなるようなnの値の最大値を出力する。手順については、これまでに記載している手順と同様に実行することが可能である。 In a redundant configuration, on the condition that the number of standby systems is constant, a redundant configuration is determined so that the non-operating rate is below a certain level for the purpose of evaluating the non-operating rate with respect to the number of active systems. Therefore, when evaluating, it is possible to evaluate by the non-operation rate evaluation part 32 using the evaluation pattern 4 shown in FIG. In this case, when the value of n is increased by 1 from the initial value, a comparison is made as to whether or not the unavailability is smaller than the reference value. If the value is smaller than the reference value, the value of n is changed. When the reference value is exceeded by one, the maximum value of the n value that is smaller than the reference value is output. About a procedure, it is possible to perform similarly to the procedure described so far.
以上、本実施形態は以下の点において効果がある。
一定以上の不稼働率を実現するために必要な冗長化構成における予備系の数を決定することができる。
As described above, the present embodiment is effective in the following points.
It is possible to determine the number of standby systems in a redundant configuration necessary for realizing a certain level of non-working rate.
一定以上の不稼働率を実現するために必要な冗長化構成における現用系の数を決定することができる。 It is possible to determine the number of active systems in a redundant configuration necessary for realizing a certain degree of non-working rate.
一定以上の不稼働率を実現するために必要な冗長化構成における予備系や現用の数を決定する上で、最小限の予備系の数や最大限の運用系の数を決定することによって、コストの観点で最も望ましい冗長化構成を決定することができる。 By determining the minimum number of standby systems and the maximum number of active systems in determining the number of standby systems and active systems in a redundant configuration necessary to achieve a certain level of non-operational rate, The most desirable redundancy configuration can be determined in terms of cost.
一定以上の不稼働率を実現するために必要な冗長化構成における予備系や現用の数を決定する上で、故障の発生時間間隔の状況に応じて、適切な冗長化構成を決定することができる。 In order to determine the number of standby systems and active systems in a redundant configuration necessary to achieve a certain level of non-operational rate, it is possible to determine an appropriate redundant configuration according to the situation of the failure occurrence time interval. it can.
一定以上の不稼働率を実現するために必要な冗長化構成における予備系や現用の数を決定する上で、故障の回復に要する時間に応じて、適切な冗長化構成を決定することができる。 An appropriate redundant configuration can be determined according to the time required to recover from a failure in determining the number of standby systems and active systems in a redundant configuration necessary to achieve a certain level of non-operational rate. .
故障の発生時間間隔に対する不稼働率を評価することによって、冗長化構成において、一定以上の不稼働率を実現するために必要な故障件数削減の対策を検討する際の指標を与えることができる。 By evaluating the unavailability with respect to the occurrence time interval of failures, it is possible to provide an index when considering measures for reducing the number of failures necessary to achieve a certain unavailability in a redundant configuration.
故障の回復に要する時間に対する不稼働率を評価することによって、冗長化構成において、一定以上の不稼働率を実現するために必要な故障時間の短縮化の対策を検討する際の指標を与えることができる。 Provide an index for examining measures to shorten the failure time required to achieve a certain level of failure rate in a redundant configuration by evaluating the failure rate relative to the time required for failure recovery Can do.
また、ネットワークの運用管理に際して、ネットワークの運用者が所望するタイミングにおいて、所望する不稼働率を有するネットワークの提供に必要な対策や対策の要否を決定することができる。 In network operation management, it is possible to determine measures necessary for providing a network having a desired unavailability or necessity of measures at a timing desired by the network operator.
また、ネットワークの運用前の構築や設計に際して、ネットワークの設計者が所望する不稼働率を有するネットワークを提供するために必要なネットワーク構成を決定することができる。 In addition, when constructing or designing a network before operation, it is possible to determine a network configuration necessary for providing a network having a non-operation rate desired by the network designer.
以下、本発明の実施形態についてまとめる。
ネットワーク評価システムは、ネットワーク装置及びサーバ装置によって構成されるネットワークの冗長化構成に関するネットワーク構成情報と、ネットワーク装置及びサーバ装置によって構成されるネットワークの構成要素における故障に関する故障情報と、をもとに、冗長化構成における故障の発生、及び故障の継続による不稼働率を算出し、不稼働率の算出結果と基準となる値との比較によって評価し、不稼働率が一定以下となるような冗長化構成を決定することによって、信頼性の高い、あるいは所望する信頼性を有するネットワーク構成の決定を自動的かつ迅速に可能にする故障確率等に基づきネットワークの信頼性を評価する。
Hereinafter, embodiments of the present invention will be summarized.
The network evaluation system is based on network configuration information related to a redundant configuration of a network configured by a network device and a server device, and failure information related to a failure in a network component configured by the network device and the server device. Redundancy so that the failure rate is less than a certain level by calculating the failure rate due to the occurrence of failure in the redundant configuration and the continuation of failure, and comparing the failure rate calculation result with the reference value. By determining the configuration, the reliability of the network is evaluated based on a failure probability or the like that enables automatic and quick determination of a network configuration having a high reliability or a desired reliability.
また、ネットワーク評価システムは、複数のネットワーク構成要素によって構成される冗長化構成の信頼性を評価するネットワーク評価システムであって、ネットワークの故障データ、及びネットワークの構成情報を入力として、故障種別ごとの故障発生時間間隔の統計値と故障回復時間の統計値を算出し、これらの算出結果及び冗長化構成の構成要素数を元に冗長化構成ごとの不稼働率を算出し、算出した冗長化構成ごとの不稼働率と基準値との比較を元に不稼働率を評価し、評価結果を表示する。 The network evaluation system is a network evaluation system that evaluates the reliability of a redundant configuration composed of a plurality of network components, and receives network fault data and network configuration information as inputs, for each fault type. Calculate the statistical value of failure occurrence time interval and statistical value of failure recovery time, calculate the unavailability for each redundant configuration based on these calculation results and the number of redundant configuration components, and calculate the redundant configuration The unavailability is evaluated based on a comparison between each unavailability and the reference value, and the evaluation result is displayed.
なお、上記したネットワーク評価システムの算出、評価等の各処理の手順はソフトウェアによって実行することが可能である。このため、上記処理の手順を実行するプログラムをダウンロードしこのプログラムを汎用のコンピュータにインストールして実行するだけで、上記処理を容易に実現することができる。或いは、上記処理の手順を実行するプログラムを格納したコンピュータ読み取り可能な記憶媒体、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等を通じてこのプログラムを汎用のコンピュータにインストールして実行するだけで、上記処理を容易に実現することができる。 Note that the processing procedures such as calculation and evaluation of the network evaluation system described above can be executed by software. For this reason, the above-described processing can be easily realized simply by downloading a program for executing the above-described processing procedure, installing this program on a general-purpose computer, and executing it. Alternatively, the program is simply installed and executed on a general-purpose computer through a computer-readable storage medium storing a program for executing the above-described processing procedure, for example, a magnetic recording device, an optical disk, a magneto-optical recording medium, a semiconductor memory, or the like. Thus, the above processing can be easily realized.
例えば、ネットワーク評価システムは、上記プログラムをダウンロードし、ダウンロードしたプログラムを記憶し、プログラムのインストールを完了することができる。また、ネットワーク評価システムは、コンピュータ読み取り可能な記憶媒体から上記プログラムを読み取り、読み取ったプログラムを記憶し、プログラムのインストールを完了することができる。これにより、ネットワーク評価システムは、インストールされた上記プログラムに基づき、上記処理を容易に実現することができる。 For example, the network evaluation system can download the program, store the downloaded program, and complete the installation of the program. The network evaluation system can read the program from a computer-readable storage medium, store the read program, and complete the installation of the program. Thereby, the network evaluation system can easily realize the processing based on the installed program.
その他にも、この発明の要旨を逸脱しない範囲で種々変形して実施可能である。 In addition, various modifications can be made without departing from the scope of the present invention.
要するにこの発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。 In short, the present invention is not limited to the above-described embodiment as it is, and can be embodied by modifying the constituent elements without departing from the scope of the invention in the implementation stage. Further, various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the embodiment. For example, some components may be deleted from all the components shown in the embodiment. Furthermore, you may combine suitably the component covering different embodiment.
1…ネットワーク故障情報、2…ネットワーク構成情報、3…不稼働率の算出結果、4…評価結果、11…受信及び処理部、12…ネットワーク故障情報DB、21…受信及び処理部、22…ネットワーク故障情報DB、31…不稼働率算出部、32…不稼働率評価部、33…表示装置 DESCRIPTION OF SYMBOLS 1 ... Network failure information, 2 ... Network configuration information, 3 ... Calculation result of unavailability, 4 ... Evaluation result, 11 ... Reception and processing unit, 12 ... Network failure information DB, 21 ... Reception and processing unit, 22 ... Network Failure information DB, 31 ... non-operation rate calculation unit, 32 ... non-operation rate evaluation unit, 33 ... display device
Claims (8)
前記ネットワークの構成要素数に関する情報、故障発生日時に関する情報、及び故障回復日時に関する情報を記憶する手段と、
これらの入力および記憶された情報をもとにして、前記ネットワークにおける故障による通信サービスへの影響を評価する手段と、を具備することを特徴とするネットワーク評価システム。 Means for inputting information relating to the number of network components composed of network devices and server devices, information relating to failure occurrence date and time, and information relating to failure recovery date and time;
Means for storing information relating to the number of components of the network, information relating to failure occurrence date and time, and information relating to failure recovery date and time;
And a means for evaluating an influence on a communication service due to a failure in the network based on the input and stored information.
前記評価する手段は、前記確率に基づき、前記ネットワークにおける故障による通信サービスへの影響を評価することを特徴とする請求項1に記載のネットワーク評価システム。 Means for calculating a probability of affecting the communication service using information on a failure occurrence date and time for each failure type occurring in the network, and information on a failure recovery date and time for each failure type;
The network evaluation system according to claim 1, wherein the evaluation unit evaluates an influence on a communication service due to a failure in the network based on the probability.
前記評価する手段は、前記不稼働率に基づき、ネットワークの信頼性を評価することを特徴とする請求項2のネットワーク評価システム。 The means for calculating is the unavailability of the redundant configuration location in the network, the unavailability of the (N + m) redundancy configuration, the unavailability due to redundant failures in the redundancy configuration location, or redundancy Calculate the unavailability of the configuration with the number of standby systems in the configuration added,
3. The network evaluation system according to claim 2, wherein the means for evaluating evaluates the reliability of the network based on the unavailability rate.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015021373A JP6326383B2 (en) | 2015-02-05 | 2015-02-05 | Network evaluation system, network evaluation method, and network evaluation program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015021373A JP6326383B2 (en) | 2015-02-05 | 2015-02-05 | Network evaluation system, network evaluation method, and network evaluation program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016144189A true JP2016144189A (en) | 2016-08-08 |
JP6326383B2 JP6326383B2 (en) | 2018-05-16 |
Family
ID=56570954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015021373A Active JP6326383B2 (en) | 2015-02-05 | 2015-02-05 | Network evaluation system, network evaluation method, and network evaluation program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6326383B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111309582A (en) * | 2020-03-27 | 2020-06-19 | 上海海事大学 | Optimization method for reliability evaluation of complex redundant system |
JP7570245B2 (en) | 2021-02-01 | 2024-10-21 | 株式会社日立製作所 | Server management system, server management method and server management program |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005316636A (en) * | 2004-04-28 | 2005-11-10 | Nippon Telegr & Teleph Corp <Ntt> | Failure frequency calculation formula derivation method, failure frequency calculation formula derivation device and failure frequency calculation formula derivation program |
JP2008211725A (en) * | 2007-02-28 | 2008-09-11 | Nippon Telegr & Teleph Corp <Ntt> | Network evaluation system, network evaluation method, and its program |
JP2009201043A (en) * | 2008-02-25 | 2009-09-03 | Nippon Telegr & Teleph Corp <Ntt> | Network management system, network management method, and program for network management |
WO2014119724A1 (en) * | 2013-02-01 | 2014-08-07 | 日本電信電話株式会社 | Device and method for generating highly reliable path accommodation design |
US20150012643A1 (en) * | 2013-07-08 | 2015-01-08 | Ricoh Company, Ltd. | Information processing system, device management apparatus, and asset management apparatus |
-
2015
- 2015-02-05 JP JP2015021373A patent/JP6326383B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005316636A (en) * | 2004-04-28 | 2005-11-10 | Nippon Telegr & Teleph Corp <Ntt> | Failure frequency calculation formula derivation method, failure frequency calculation formula derivation device and failure frequency calculation formula derivation program |
JP2008211725A (en) * | 2007-02-28 | 2008-09-11 | Nippon Telegr & Teleph Corp <Ntt> | Network evaluation system, network evaluation method, and its program |
JP2009201043A (en) * | 2008-02-25 | 2009-09-03 | Nippon Telegr & Teleph Corp <Ntt> | Network management system, network management method, and program for network management |
WO2014119724A1 (en) * | 2013-02-01 | 2014-08-07 | 日本電信電話株式会社 | Device and method for generating highly reliable path accommodation design |
US20150012643A1 (en) * | 2013-07-08 | 2015-01-08 | Ricoh Company, Ltd. | Information processing system, device management apparatus, and asset management apparatus |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111309582A (en) * | 2020-03-27 | 2020-06-19 | 上海海事大学 | Optimization method for reliability evaluation of complex redundant system |
CN111309582B (en) * | 2020-03-27 | 2023-04-07 | 上海海事大学 | Optimization method for reliability evaluation of complex redundant system |
JP7570245B2 (en) | 2021-02-01 | 2024-10-21 | 株式会社日立製作所 | Server management system, server management method and server management program |
Also Published As
Publication number | Publication date |
---|---|
JP6326383B2 (en) | 2018-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11868237B2 (en) | Intelligent services for application dependency discovery, reporting, and management tool | |
US11966324B2 (en) | Discovery crawler for application dependency discovery, reporting, and management tool | |
US12079668B2 (en) | Dependency analyzer in application dependency discovery, reporting, and management tool | |
EP3340535B1 (en) | Failure recovery method and device | |
US10581756B2 (en) | Nonintrusive dynamically-scalable network load generation | |
US11093378B2 (en) | Testing agent for application dependency discovery, reporting, and management tool | |
US7669087B1 (en) | Method and apparatus for managing workload across multiple resources | |
JP4792047B2 (en) | How system availability is calculated | |
JP2020027615A (en) | Server hardware fault analysis and recovery | |
CN110399260B (en) | System and method for predictively servicing and supporting solutions | |
CN107003926B (en) | Fault information providing server and fault information providing method | |
US20150032888A1 (en) | Network event management | |
US9992069B2 (en) | Network management based on assessment of topological robustness and criticality of assets | |
JP2014241536A (en) | Monitoring device, and monitoring method | |
US20110122761A1 (en) | KPI Driven High Availability Method and apparatus for UMTS radio access networks | |
WO2016107425A1 (en) | Data center based fault analysis method and device | |
JP5949785B2 (en) | Information processing method, apparatus and program | |
CN112703485A (en) | Supporting experimental assessment of modifications to computing environments within a distributed system using machine learning methods | |
JP6326383B2 (en) | Network evaluation system, network evaluation method, and network evaluation program | |
JP5133941B2 (en) | Network management system, network management method, and program therefor | |
CN109271270A (en) | The troubleshooting methodology, system and relevant apparatus of bottom hardware in storage system | |
Zhu | Reliability and availability analysis for large networking system | |
JP5653322B2 (en) | Failure detection device, network configuration estimation device, and failure detection method | |
JP2012150699A (en) | Failure detection device, failure detection method and failure detection program | |
JP2017117063A (en) | Radio base station maintenance device, radio base station maintenance system, radio base station maintenance method, and radio base station maintenance program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170228 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180112 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180123 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180314 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180410 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180416 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6326383 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |