JP2018170675A - Failure recovery procedure optimization system and failure recovery procedure optimization method - Google Patents
Failure recovery procedure optimization system and failure recovery procedure optimization method Download PDFInfo
- Publication number
- JP2018170675A JP2018170675A JP2017067334A JP2017067334A JP2018170675A JP 2018170675 A JP2018170675 A JP 2018170675A JP 2017067334 A JP2017067334 A JP 2017067334A JP 2017067334 A JP2017067334 A JP 2017067334A JP 2018170675 A JP2018170675 A JP 2018170675A
- Authority
- JP
- Japan
- Prior art keywords
- procedure
- feature amount
- network
- recovery procedure
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 204
- 238000011084 recovery Methods 0.000 title claims abstract description 108
- 238000005457 optimization Methods 0.000 title claims abstract description 20
- 238000001914 filtration Methods 0.000 claims abstract description 45
- 238000010801 machine learning Methods 0.000 claims abstract description 10
- 238000004364 calculation method Methods 0.000 claims abstract description 9
- 238000012937 correction Methods 0.000 claims description 22
- 230000001174 ascending effect Effects 0.000 claims 1
- 238000012544 monitoring process Methods 0.000 description 6
- 238000012790 confirmation Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000007717 exclusion Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
Description
本発明は、機械学習により、ネットワークの障害を復旧させる運用手順を作成しまたは作成した運用手順を修正する技術に関する。 The present invention relates to a technique for creating an operation procedure for recovering a network failure by machine learning or correcting the created operation procedure.
従来から、機械学習を行なう場合、古い情報と新しい情報を同じ重みで学習させていた。学習に用いる情報において、時点を考慮して学習させることにより、時間変化に対応した学習を行なっている(特許文献1)。 Conventionally, when machine learning is performed, old information and new information are learned with the same weight. In the information used for learning, learning corresponding to time changes is performed by learning in consideration of the time point (Patent Document 1).
しかしながら、特許文献1では、時間に対する状況変化に対応できる一方で、状態が変化したことをトリガーとして修正を行なう等の処理はなされておらず、状態が変化した場合に即座に学習内容を修正したい場合に対応ができていない。
However, in
本発明は、このような事情に鑑みてなされたものであり、学習した内容の修正が必要となった場合に、ネットワークの状態の変化があったかどうかを測定し、そのネットワークの状態に対する最適な解を再作成させ、また、ネットワークの状態の変化がなかった場合においても、不要情報としてフィルタリングすることによって、復旧手順に修正内容を即時に反映する障害復旧手順最適化システムを提供することを目的とする。 The present invention has been made in view of such circumstances, and when correction of learned content is required, it is measured whether there is a change in the state of the network, and an optimal solution for the state of the network is measured. The purpose is to provide a failure recovery procedure optimization system that immediately reflects the correction contents in the recovery procedure by filtering as unnecessary information even when there is no change in the network status. To do.
(1)上記の目的を達成するために、本発明は、以下のような手段を講じた。すなわち、本発明の障害復旧手順最適化システムは、機械学習により、ネットワークの障害を復旧させる運用手順を作成しまたは作成した運用手順を修正し、作成または修正した運用手順を最適化する障害復旧手順最適化システムであって、各ネットワーク構成情報を取得し、前記取得したネットワーク構成情報を数値化および標準化し、特徴量を算出する特徴量算出部と、前記算出した特徴量と前記特徴量を有するネットワークで発生した障害アラーム種別の組合せ情報を取得し、前記取得した組合せ情報に対応する復旧手順を作成または更新する手順学習・作成部と、前記作成または更新した復旧手順を確からしい順に保管する手順情報保管部と、前記保管された復旧手順のうち、使用対象から除外する復旧手順を保管するフィルタリング保管部と、を備え、前記復旧手順に対し、修正が必要であると判断された場合、ネットワーク構成情報を再度取得し、特徴量を算出した結果、前記ネットワークにおいて、前記算出した特徴量が、既存のいずれの特徴量とも異なる新しい特徴量であった場合、前記算出した新しい特徴量と障害アラーム種別の組合せ情報および前記組合せ情報に対する復旧手順を前記フィルタリング保管部に保管することを特徴とする。 (1) In order to achieve the above object, the present invention takes the following measures. That is, the failure recovery procedure optimizing system of the present invention creates an operation procedure for recovering a network failure by machine learning, corrects the created operation procedure, and optimizes the created or corrected operation procedure. An optimization system that acquires each network configuration information, quantifies and standardizes the acquired network configuration information, calculates a feature amount, and includes the calculated feature amount and the feature amount A procedure learning / creating unit that acquires combination information of failure alarm types that have occurred in the network, creates or updates a recovery procedure corresponding to the acquired combination information, and stores the created or updated recovery procedure in a probable order An information storage unit and a filter for storing a recovery procedure to be excluded from the use target among the stored recovery procedures; A storage unit, and when it is determined that the restoration procedure needs to be corrected, the network configuration information is acquired again, and the feature amount is calculated. When the new feature value is different from any existing feature value, the calculated combination information of the new feature value and the failure alarm type and the restoration procedure for the combination information are stored in the filtering storage unit.
このように、各ネットワーク構成情報を取得し、取得したネットワーク構成情報を数値化および標準化し、特徴量を算出し、算出した特徴量と特徴量を有するネットワークで発生した障害アラーム種別の組合せ情報を取得し、取得した組合せ情報に対応する復旧手順を作成または更新し、作成または更新した復旧手順を確からしい順に保管し、保管された復旧手順のうち、使用対象から除外する復旧手順を保管し、復旧手順に対し、修正が必要であると判断された場合、ネットワーク構成情報を再度取得し、特徴量を算出した結果、ネットワークにおいて、算出した特徴量が、既存のいずれの特徴量とも異なる新しい特徴量であった場合、算出した新しい特徴量と障害アラーム種別の組合せ情報および組合せ情報に対する復旧手順をフィルタリング保管部に保管するので、ネットワークの状況に応じた障害の復旧手順を即時に反映させることが可能となる。 In this way, each network configuration information is acquired, the acquired network configuration information is quantified and standardized, the feature amount is calculated, and the combination information of the calculated feature amount and the failure alarm type generated in the network having the feature amount is obtained. Acquire and create or update the recovery procedure corresponding to the acquired combination information, store the created or updated recovery procedure in the most probable order, store the recovery procedures to be excluded from the use among the stored recovery procedures, If it is determined that the restoration procedure needs to be corrected, the network configuration information is obtained again and the feature values are calculated. As a result, the calculated feature values in the network are different from any existing feature values. If it is an amount, filter the combination information of the calculated new feature amount and failure alarm type and the recovery procedure for the combination information Since stored in ring storage portion, it becomes possible to reflect the recovery procedure failure in accordance with the status of the network immediately.
(2)また、本発明の障害復旧手順最適化システムは、前記復旧手順に対し、修正が必要であると判断された場合、ネットワーク構成情報を再度取得し、特徴量を算出した結果、前記ネットワークにおいて、前記算出した特徴量が変化しなかった場合は、前記復旧手順を前記フィルタリング保管部に保管することを特徴とする。 (2) In addition, the failure recovery procedure optimization system of the present invention obtains network configuration information again when it is determined that correction is necessary for the recovery procedure, and calculates the feature value. When the calculated feature value does not change, the restoration procedure is stored in the filtering storage unit.
このように、復旧手順に対し、修正が必要であると判断された場合、ネットワーク構成情報を再度取得し、特徴量を算出した結果、ネットワークにおいて、算出した特徴量が変化しなかった場合は、復旧手順を前記フィルタリング保管部に保管するので、次回に同様の障害が起きた時には、今回修正が必要であると判断された復旧手順をフィルタリングすることで除外することが可能となる。 As described above, when it is determined that the restoration procedure needs to be corrected, the network configuration information is obtained again and the feature amount is calculated. As a result, if the calculated feature amount does not change in the network, Since the recovery procedure is stored in the filtering storage unit, when the same failure occurs next time, it is possible to exclude the recovery procedure that is determined to be corrected this time by filtering.
(3)また、本発明の障害復旧手順最適化システムにおいて、前記復旧手順に対し、修正が必要であると判断された場合、ネットワーク構成情報を再度取得し、特徴量を算出した結果、前記ネットワークにおいて、前記算出した特徴量が変化し、既存のいずれかの特徴量と同一であった場合は、前記復旧手順を前記フィルタリング保管部に保管することを特徴とする。 (3) Also, in the failure recovery procedure optimization system of the present invention, when it is determined that correction is necessary for the recovery procedure, the network configuration information is acquired again and the feature amount is calculated. When the calculated feature value changes and is the same as any of the existing feature values, the restoration procedure is stored in the filtering storage unit.
このように、復旧手順に対し、修正が必要であると判断された場合、ネットワーク構成情報を再度取得し、特徴量を算出した結果、ネットワークにおいて、算出した特徴量が変化し、既存のいずれかの特徴量と同一であった場合は、復旧手順をフィルタリング保管部に保管するので、次回に同様の障害が起きた時には、今回修正が必要であると判断された復旧手順をフィルタリングすることで除外することが可能となる。 As described above, when it is determined that the restoration procedure needs to be corrected, the network configuration information is obtained again and the feature amount is calculated. As a result, the calculated feature amount changes in the network, and any existing If it is the same as the feature amount, the recovery procedure is stored in the filtering storage unit, so when the same failure occurs next time, it is excluded by filtering the recovery procedure that is determined to require correction this time It becomes possible to do.
(4)また、本発明の障害復旧手順最適化システムにおいて、前記算出した新しい特徴量と障害アラーム種別の組合せ情報および前記組合せ情報に対する復旧手順を前記フィルタリング保管部に保管した後、前記フィルタリング保管部に保管されていた従前の復旧手順を削除することを特徴とする。 (4) Also, in the failure recovery procedure optimization system of the present invention, after the combination information of the calculated new feature quantity and failure alarm type and the recovery procedure for the combination information are stored in the filtering storage unit, the filtering storage unit It is characterized by deleting the previous recovery procedure stored in
このように、算出した新しい特徴量と障害アラーム種別の組合せ情報および組合せ情報に対する復旧手順をフィルタリング保管部に保管した後、フィルタリング保管部に保管されていた従前の復旧手順を削除するので、一度除外された復旧手順をその後のネットワークの状況変化に応じて、再度を実行対象とすることが可能となる。 In this way, the combination information of the calculated new feature quantity and failure alarm type and the recovery procedure for the combination information are stored in the filtering storage unit, and then the previous recovery procedure stored in the filtering storage unit is deleted. The restored procedure can be executed again according to the subsequent change in the network status.
(5)また、本発明の障害復旧手順最適化方法は、機械学習により、ネットワークの障害を復旧させる運用手順を作成しまたは作成した運用手順を修正し、作成または修正した運用手順を最適化する障害復旧手順最適化方法であって、特徴量算出部において、各ネットワーク構成情報を取得し、前記取得したネットワーク構成情報を数値化および標準化し、特徴量を算出するステップと、手順学習・作成部において、前記算出した特徴量と前記特徴量を有するネットワークで発生した障害アラーム種別の組合せ情報を取得し、前記取得した組合せ情報に対応する復旧手順を作成または更新するステップと、手順情報保管部において、前記作成または更新した復旧手順を確からしい順に保管するステップと、フィルタリング保管部において、前記保管された復旧手順のうち、使用対象から除外する復旧手順を保管するステップと、を少なくとも含み、前記復旧手順に対し、修正が必要であると判断された場合、ネットワーク構成情報を再度取得し、特徴量を算出した結果、前記ネットワークにおいて、前記算出した特徴量が、既存のいずれの特徴量とも異なる新しい特徴量であった場合、前記算出した新しい特徴量と障害アラーム種別の組合せ情報および前記組合せ情報に対する復旧手順を前記フィルタリング保管部に保管することを特徴とする。 (5) Also, the failure recovery procedure optimization method of the present invention creates an operation procedure for recovering a network failure by machine learning or modifies the created operation procedure, and optimizes the created or modified operation procedure. A method for optimizing a failure recovery procedure, wherein each of the network configuration information is acquired in a feature amount calculation unit, the obtained network configuration information is digitized and standardized, and a feature amount is calculated, and a procedure learning / creation unit A step of acquiring combination information of the calculated feature amount and a failure alarm type generated in the network having the feature amount, and creating or updating a recovery procedure corresponding to the acquired combination information; and a procedure information storage unit A step of storing the created or updated recovery procedures in a probable order and a filtering storage unit; Storing at least a recovery procedure to be excluded from use among the stored recovery procedures, and when it is determined that correction is necessary for the recovery procedure, obtain network configuration information again, If the calculated feature value is a new feature value different from any existing feature value in the network as a result of calculating the feature value, the combination information of the calculated new feature value and the fault alarm type and the combination A recovery procedure for information is stored in the filtering storage unit.
このように、特徴量算出部において、各ネットワーク構成情報を取得し、取得したネットワーク構成情報を数値化および標準化し、特徴量を算出し、手順学習・作成部において、算出した特徴量と特徴量を有するネットワークで発生した障害アラーム種別の組合せ情報を取得し、取得した組合せ情報に対応する復旧手順を作成または更新し、手順情報保管部において、作成または更新した復旧手順を確からしい順に保管し、フィルタリング保管部において、保管された復旧手順のうち、使用対象から除外する復旧手順を保管し、復旧手順に対し、修正が必要であると判断された場合、ネットワーク構成情報を再度取得し、特徴量を算出した結果、ネットワークにおいて、算出した特徴量が、既存のいずれの特徴量とも異なる新しい特徴量であった場合、算出した新しい特徴量と障害アラーム種別の組合せ情報および組合せ情報に対する復旧手順をフィルタリング保管部に保管するので、ネットワークの状況に応じた障害の復旧手順を即時に反映させることが可能となる。 In this way, the feature amount calculation unit acquires each network configuration information, the acquired network configuration information is quantified and standardized, the feature amount is calculated, and the procedure learning / creation unit calculates the calculated feature amount and the feature amount. The combination information of the failure alarm type that occurred in the network that has, the recovery procedure corresponding to the acquired combination information is created or updated, and in the procedure information storage unit, the created or updated recovery procedure is stored in order of probability, The filtering storage unit stores the recovery procedures that are excluded from the use from the stored recovery procedures, and if it is determined that the recovery procedures need to be corrected, the network configuration information is acquired again, and the feature quantity As a result, the calculated feature value in the network is a new feature value that is different from any existing feature value. In this case, the combination information of the calculated new feature quantity and failure alarm type and the recovery procedure for the combination information are stored in the filtering storage unit, so that the failure recovery procedure according to the network status can be reflected immediately. .
本発明によれば、学習した内容の修正が必要なった場合に、ネットワークの状態に変化があったか否かを測定し、そのネットワークの状態に対する最適な解を再作成させ、また、ネットワークの状態に変化がなかった場合においても、修正が必要となった復旧手順を不要情報としてフィルタリングすることによって、復旧手順に修正内容を即時に反映することができ、その結果、ネットワークの障害の内容に応じて、適切な復旧手順を提供することが可能となる。 According to the present invention, when the learned content needs to be corrected, it is measured whether or not the state of the network has changed, and an optimal solution for the state of the network is recreated. Even if there is no change, by filtering the recovery procedure that required correction as unnecessary information, the correction contents can be immediately reflected in the recovery procedure. As a result, depending on the details of the network failure It is possible to provide an appropriate recovery procedure.
本発明者らは、ネットワーク障害における復旧手順において、ネットワークのリソース等の状態が変化したことによる復旧手順の修正が即座に反映されないことに着目し、学習した内容の修正が必要なった場合に、ネットワークの状態の変化があったかどうかを測定し、そのネットワークの状態に対する最適な解を再作成させ、また、ネットワークの状態の変化がなかった場合においても、不要情報としてフィルタリングすることによって、復旧手順に修正内容を即時に反映することができ、その結果、ネットワークの障害の内容に応じて、適切な復旧手順を提供することができることを見出し、本発明に至った。 In the recovery procedure in a network failure, the present inventors pay attention to the fact that the correction of the recovery procedure due to a change in the state of the network resource or the like is not immediately reflected, and when it is necessary to correct the learned content, Measure whether there has been a change in the network status, re-create the optimal solution for the network status, and even if there is no change in the network status, filter it as unnecessary information, so that the recovery procedure As a result, it was found that the correction contents can be reflected immediately, and as a result, an appropriate recovery procedure can be provided according to the contents of the failure of the network.
すなわち、本発明の障害復旧手順最適化システムは、機械学習により、ネットワークの障害を復旧させる運用手順を作成しまたは作成した運用手順を修正し、作成または修正した運用手順を最適化する障害復旧手順最適化システムであって、各ネットワーク構成情報を取得し、前記取得したネットワーク構成情報を数値化および標準化し、特徴量を算出する特徴量算出部と、前記算出した特徴量と前記特徴量を有するネットワークで発生した障害アラーム種別の組合せ情報を取得し、前記取得した組合せ情報に対応する復旧手順を作成または更新する手順学習・作成部と、前記作成または更新した復旧手順を確からしい順に保管する手順情報保管部と、前記保管された復旧手順のうち、使用対象から除外する復旧手順を保管するフィルタリング保管部と、を備え、前記復旧手順に対し、修正が必要であると判断された場合、ネットワーク構成情報を再度取得し、特徴量を算出した結果、前記ネットワークにおいて、前記算出した特徴量が、既存のいずれの特徴量とも異なる新しい特徴量であった場合、前記算出した新しい特徴量と障害アラーム種別の組合せ情報および前記組合せ情報に対する復旧手順を前記フィルタリング保管部に保管することを特徴とする。 That is, the failure recovery procedure optimizing system of the present invention creates an operation procedure for recovering a network failure by machine learning, corrects the created operation procedure, and optimizes the created or corrected operation procedure. An optimization system that acquires each network configuration information, quantifies and standardizes the acquired network configuration information, calculates a feature amount, and includes the calculated feature amount and the feature amount A procedure learning / creating unit that acquires combination information of failure alarm types that have occurred in the network, creates or updates a recovery procedure corresponding to the acquired combination information, and stores the created or updated recovery procedure in a probable order An information storage unit and a filter for storing a recovery procedure to be excluded from the use target among the stored recovery procedures; A storage unit, and when it is determined that the restoration procedure needs to be corrected, the network configuration information is acquired again, and the feature amount is calculated. When the new feature value is different from any existing feature value, the calculated combination information of the new feature value and the failure alarm type and the restoration procedure for the combination information are stored in the filtering storage unit.
これにより、本発明者らは、ネットワークの状況に応じた障害の復旧手順を即時に反映させることが可能とした。以下、本発明の実施形態について、図面を参照しながら具体的に説明する。 As a result, the present inventors have made it possible to immediately reflect the failure recovery procedure according to the network status. Embodiments of the present invention will be specifically described below with reference to the drawings.
図1は、本実施形態に係る障害復旧手順最適化システムの概略構成を示す図である。障害復旧手順最適化システム1は、ネットワーク情報保管部11、監視部13、特徴量算出部15、特徴量保管部17、入力値作成部21、手順情報保管部23、結果出力部25、フィルタリング保管部27、手順学習・作成部29、手順結果確認部31、を備えている。本実施形態に係る障害復旧手順最適化システム1の利用形態は、事前学習、障害復旧、手順学習・修正、およびフィルタ修正の4つのフェーズから成る。以下に、これら4つの利用形態について、順を追って説明しながら、各機能についても説明する。
FIG. 1 is a diagram showing a schematic configuration of a failure recovery procedure optimization system according to the present embodiment. The failure recovery
[1.事前学習]
まず、ユーザは、ネットワーク名とネットワークに関連するIPアドレス情報を入力する。入力されたネットワーク名とネットワークに関連するIPアドレス情報は、ネットワーク情報保管部11に保管される。図2は、ネットワーク情報保管部11に保管された情報の一例を示す図である。
[1. Prior learning]
First, the user inputs a network name and IP address information related to the network. The input network name and IP address information related to the network are stored in the network information storage unit 11. FIG. 2 is a diagram illustrating an example of information stored in the network information storage unit 11.
次に、監視部13は、ネットワーク情報保管部11に保管されたIPアドレス情報を参照し、各ネットワーク機器のリソース情報(CPU使用率、メモリ使用率、トラフィック情報等)を取得し、特徴量算出部15へ送信する。
Next, the
次に、特徴量算出部15は、ネットワークの状態を特徴量として算出する。ここでは、例えば、機械学習等を用いて、各ネットワークの特徴量を算出することを想定しており、SOM(Self Organizing Map)やAuto encoder等の機械学習を利用すること等が考えられる。各ネットワークの特徴量を算出した後、特徴量保管部17に各ネットワークおよび各ネットワークの特徴量に関する情報を保管する。図3は、特徴量保管部17に保管された情報の一例を示す図である。
Next, the feature
次に、入力値作成部21は、各ネットワークの特徴量と各ネットワークで発生した障害のアラーム種別を組合せ、それを入力値として取得する。そして、入力値作成部21は、その障害で用いた復旧手順を出力値、つまり入力値である特徴量とアラーム種別に対する解として、手順学習・作成部29へ送信する。手順学習・作成部29は、取得した入力値である特徴量とアラーム種別、および出力値である復旧手順をもとに、学習を実施(教師あり学習)し、その情報を手順情報保管部23へ保管する。図4は、手順情報保管部23に保管された情報の一例を示す図である。手順情報保管部23は、ネットワークの特徴量およびアラーム種別の組合せ毎に、復旧手順を、確からしい順番で保管する。
Next, the input
[2.障害復旧]
図6は、障害復旧フェーズの動作を示すフローチャートである。ネットワークで障害が発生すると、障害が発生したネットワークから入力値作成部21へ向かって障害アラームが発出され、障害を検知する(ステップS101)。入力値作成部21は、手順情報保管部23の情報を参照し、障害が発生したネットワークおよびネットワークの特徴量を確認する(ステップS102、S103)。確認の結果、これまでに発生したことがある障害か否かを判定する(ステップS104)。
[2. Disaster recovery]
FIG. 6 is a flowchart showing the operation of the failure recovery phase. When a failure occurs in the network, a failure alarm is issued from the network in which the failure has occurred to the input
ステップS104において、入力値作成部21が、発生した障害は既に起きたことがある障害で、かつ復旧手順情報が存在する場合は、その旨を結果出力部25へ通知する。結果出力部25は、フィルタリング保管部27と手順情報保管部23の情報を参照し(ステップS107)、手順情報保管部23に保管されている情報のうち、フィルタリング保管部27に保管されている情報以外の該当する復旧手順を、ユーザへ出力する(ステップS108)。
In step S104, if the failure that has occurred is a failure that has already occurred and recovery procedure information exists, the input
一方、ステップS104において、入力値作成部21が、発生した障害は初めて発生した障害であると判定した場合は、当該ネットワークの特徴量とアラームの組合せを入力値として手順学習・作成部29へ送信する(ステップS105)。
On the other hand, if the input
次に、手順学習・作成部29は、入力値作成部21から取得した入力値から復旧手順を算出し、算出した復旧手順を入力値に対する出力値として、特徴量、ネットワーク名、アラーム種別等の情報とともに、手順情報保管部23へ保管する(ステップS106)。その後、結果出力部25を経由して、算出した復旧手順をユーザへ出力する(ステップS108)。
Next, the procedure learning / creating
[3.手順学習・修正]
図7は、手順学習・修正フェーズの動作を示すフローチャートである。まず、ユーザは、結果出力部25から出力された復旧手順を実行した後、その復旧手順を修正する必要があるか否かを確認し(ステップS201)、復旧手順を修正する必要があるか否かの判定を行なう(ステップS202)。ユーザは、判定結果を手順結果確認部31へ入力する。
[3. Procedure learning / correction]
FIG. 7 is a flowchart showing the operation of the procedure learning / correction phase. First, after executing the recovery procedure output from the
復旧手順に修正の必要がない場合は、手順学習・作成部29に対し、ネットワークの特徴量とアラーム情報を入力値として、また実行した手順情報を出力値として、ネットワークの特徴量、アラーム情報および手順情報を送信し、学習を行なわせる(ステップS209)。学習結果を、手順情報保管部23へ保管(更新)して終了する(ステップS210)。
If there is no need to modify the restoration procedure, the procedure learning / creating
ステップS202において、手順修正が必要であると判定した場合は、手順結果確認部31は、監視部13に再監視を行なうよう依頼する(ステップS203)。これは、ネットワークの状況が変化し、これまでの手順が利用できない可能性を探ることを目的としている。
If it is determined in step S202 that the procedure needs to be corrected, the procedure
監視部13は、ネットワーク情報保管部11を参照し、該当ネットワーク上に存在しているネットワーク機器のリソース情報を取得し、取得したリソース情報を特徴量算出部15へ送信する。
The
次に、特徴量算出部15は、取得したリソース情報をもとに特徴量を算出する(ステップS204)。特徴量を算出した結果、特徴量が変化しなかった場合(ステップS205)は、障害が起きたネットワークの特徴量におけるフィルタリングとして、今回実行した復旧手順をフィルタリング保管部27へ保管(更新)し、次回は利用しないようにする(ステップS208)。
Next, the feature
また、ステップS205において、特徴量を算出した結果、特徴量は変化したが、既に存在している特徴量になった場合(ステップS206)は、その特徴量におけるフィルタリングとして、今回利用した復旧手順をフィルタリング保管部27へ新たに入力(更新)し、次回は利用しないようにする(ステップS208)。 In addition, if the feature quantity has changed as a result of calculating the feature quantity in step S205, but has already existed (step S206), the restoration procedure used this time is used as filtering for the feature quantity. A new input (update) is made to the filtering storage unit 27 so that it will not be used next time (step S208).
また、ステップS206において、特徴量が変化し、さらにそれが初めての特徴量であった場合は、特徴量保管部17にその情報を保管し、その特徴量におけるフィルタリングとして、今回利用した復旧手順とともに、フィルタリング保管部27へ新たに入力(更新)し、次回は利用しないようにする(ステップS207)。
In step S206, if the feature value changes and is the first feature value, the information is stored in the feature
ステップS205〜S208の処理完了後、手順学習・作成部に対し、特徴量とアラーム情報を入力値として、また利用した復旧手順のうち手順修正の必要がない復旧手順または新たに作成した復旧手順を出力値として、学習させ(ステップS209)、手順情報保管部23にその情報を保管(更新)する(ステップS210)。 After the processing in steps S205 to S208 is completed, the procedure learning / creating unit receives the feature value and the alarm information as input values, and uses a restoration procedure that does not require procedure correction or a newly created restoration procedure. The output value is learned (step S209), and the information is stored (updated) in the procedure information storage unit 23 (step S210).
[4.フィルタ修正]
手順学習・修正フェーズにおいて、学習が進み、フィルタリング保管部に保管されている手順が最も不要と判断された手順情報ではないと判断された場合には、その手順情報をフィルタリング保管部から削除する。例えば、図5において、特徴量「1」、アラーム種別「error」のように、2つの手順情報にフィルタリング(除外)対象としてフィルタリング保管部に保管されているが、復旧手順[4->5->6]がフィルタリング(除外)対象の復旧手順のうち1位ではなくなった場合、復旧手順[4->5->6]をフィルタリング保管部から削除する。ある復旧手順がフィルタリング保管部に保管されると、その復旧手順が使われることはなくなる。しかし、状況によっては除外対象第1位でない復旧手順が有効となる場合もあり得る。そこで、復旧手順がフィルタリング(除外)対象の復旧手順のうち1位ではなくなった場合、その復旧手順を削除することとした。
[4. Filter correction]
In the procedure learning / correction phase, when learning progresses and it is determined that the procedure stored in the filtering storage unit is not the procedure information determined to be the most unnecessary, the procedure information is deleted from the filtering storage unit. For example, in FIG. 5, two procedure information items such as a feature value “1” and an alarm type “error” are stored in the filtering storage unit as filtering (exclusion) targets. > 6] is no longer the first recovery procedure to be filtered (excluded), the recovery procedure [4->5-> 6] is deleted from the filtering storage unit. When a recovery procedure is stored in the filtering storage unit, the recovery procedure is no longer used. However, depending on the situation, a recovery procedure that is not first in the exclusion target may be effective. Therefore, when the recovery procedure is not ranked first among the recovery procedures to be filtered (excluded), the recovery procedure is deleted.
以上説明したように、本実施形態によれば、学習した内容の修正が必要となった場合に、ネットワークの状態に変化があったか否かを測定し、そのネットワークの状態に対する最適な解を再作成させ、また、ネットワークの状態に変化がなかった場合においても、修正が必要となった復旧手順を不要情報としてフィルタリングすることによって、復旧手順に修正内容を即時に反映することができ、その結果、ネットワークの障害の内容に応じて、適切な復旧手順を提供することが可能となる。 As described above, according to the present embodiment, when the learned content needs to be corrected, it is measured whether the network state has changed, and an optimal solution for the network state is recreated. In addition, even when there is no change in the network status, by filtering the recovery procedure that required correction as unnecessary information, the correction contents can be immediately reflected in the recovery procedure. An appropriate recovery procedure can be provided according to the content of the network failure.
1 障害復旧手順最適化システム
11 ネットワーク情報保管部
13 監視部
15 特徴量算出部
17 特徴量保管部
21 入力値作成部
23 手順情報保管部
25 結果出力部
27 フィルタリング保管部
29 手順学習・作成部
31 手順結果確認部
DESCRIPTION OF
Claims (5)
各ネットワーク構成情報を取得し、前記取得したネットワーク構成情報を数値化および標準化し、特徴量を算出する特徴量算出部と、
前記算出した特徴量と前記特徴量を有するネットワークで発生した障害アラーム種別の組合せ情報を取得し、前記取得した組合せ情報に対応する復旧手順を作成または更新する手順学習・作成部と、
前記作成または更新した復旧手順を確からしい順に保管する手順情報保管部と、
前記保管された復旧手順のうち、使用対象から除外する復旧手順を保管するフィルタリング保管部と、を備え、
前記復旧手順に対し、修正が必要であると判断された場合、ネットワーク構成情報を再度取得し、特徴量を算出した結果、前記ネットワークにおいて、前記算出した特徴量が、既存のいずれの特徴量とも異なる新しい特徴量であった場合、前記算出した新しい特徴量と障害アラーム種別の組合せ情報および前記組合せ情報に対する復旧手順を前記フィルタリング保管部に保管することを特徴とする障害復旧手順最適化システム。 A failure recovery procedure optimization system that creates an operation procedure that recovers a network failure by machine learning, modifies the created operation procedure, and optimizes the created or modified operation procedure,
A feature amount calculation unit that acquires each network configuration information, digitizes and standardizes the acquired network configuration information, and calculates a feature amount;
A procedure learning / creating unit that acquires combination information of the calculated feature value and a failure alarm type that has occurred in the network having the feature value, and creates or updates a recovery procedure corresponding to the acquired combination information;
A procedure information storage unit for storing the created or updated recovery procedures in an ascending order;
Among the stored recovery procedures, a filtering storage unit that stores recovery procedures excluded from use, and
When it is determined that the restoration procedure needs to be corrected, the network configuration information is acquired again, and the feature amount is calculated. As a result, the calculated feature amount is the same as any existing feature amount in the network. A failure recovery procedure optimizing system that stores the combination information of the calculated new feature amount and failure alarm type and the recovery procedure for the combination information in the filtering storage unit when they are different new feature amounts.
特徴量算出部において、各ネットワーク構成情報を取得し、前記取得したネットワーク構成情報を数値化および標準化し、特徴量を算出するステップと、
手順学習・作成部において、前記算出した特徴量と前記特徴量を有するネットワークで発生した障害アラーム種別の組合せ情報を取得し、前記取得した組合せ情報に対応する復旧手順を作成または更新するステップと、
手順情報保管部において、前記作成または更新した復旧手順を確からしい順に保管するステップと、
フィルタリング保管部において、前記保管された復旧手順のうち、使用対象から除外する復旧手順を保管するステップと、を少なくとも含み、
前記復旧手順に対し、修正が必要であると判断された場合、ネットワーク構成情報を再度取得し、特徴量を算出した結果、前記ネットワークにおいて、前記算出した特徴量が、既存のいずれの特徴量とも異なる新しい特徴量であった場合、前記算出した新しい特徴量と障害アラーム種別の組合せ情報および前記組合せ情報に対する復旧手順を前記フィルタリング保管部に保管することを特徴とする障害復旧手順最適化方法。 A failure recovery procedure optimization method that creates an operation procedure that recovers a network failure by machine learning or modifies the created operation procedure and optimizes the created or modified operation procedure,
In the feature amount calculating unit, acquiring each network configuration information, quantifying and standardizing the acquired network configuration information, and calculating a feature amount;
In the procedure learning / creating unit, acquiring the combination information of the calculated feature amount and the failure alarm type generated in the network having the feature amount, and creating or updating a recovery procedure corresponding to the acquired combination information;
In the procedure information storage unit, storing the created or updated recovery procedure in the most likely order;
The filtering storage unit includes at least a step of storing a recovery procedure to be excluded from the use target among the stored recovery procedures,
When it is determined that the restoration procedure needs to be corrected, the network configuration information is acquired again, and the feature amount is calculated. As a result, the calculated feature amount is the same as any existing feature amount in the network. A failure recovery procedure optimizing method comprising: storing the combination information of the calculated new feature amount and failure alarm type and the recovery procedure for the combination information in the filtering storage unit when the feature values are different new feature amounts.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017067334A JP6684243B2 (en) | 2017-03-30 | 2017-03-30 | Failure recovery procedure optimization system and failure recovery procedure optimization method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017067334A JP6684243B2 (en) | 2017-03-30 | 2017-03-30 | Failure recovery procedure optimization system and failure recovery procedure optimization method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018170675A true JP2018170675A (en) | 2018-11-01 |
JP6684243B2 JP6684243B2 (en) | 2020-04-22 |
Family
ID=64020650
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017067334A Active JP6684243B2 (en) | 2017-03-30 | 2017-03-30 | Failure recovery procedure optimization system and failure recovery procedure optimization method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6684243B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543743A (en) * | 2018-11-19 | 2019-03-29 | 天津大学 | A kind of refrigeration unit multiple sensor faults diagnosis method based on reconstruction prediction residual |
KR20200088622A (en) * | 2019-01-15 | 2020-07-23 | 삼성전자주식회사 | A method and apparatus for analyzing performance degradation of a cell in a wireless communication system |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11461200B2 (en) | 2020-11-19 | 2022-10-04 | Kyndryl, Inc. | Disaster recovery failback advisor |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000013391A (en) * | 1998-06-24 | 2000-01-14 | Toshiba Corp | Flow control method and device |
JP2007267352A (en) * | 2006-03-02 | 2007-10-11 | Alaxala Networks Corp | Failure recovery system and server |
JP2008244902A (en) * | 2007-03-28 | 2008-10-09 | Kyocera Corp | Failure recovery apparatus, failure recovery method, and failure recovery system |
CN101567807A (en) * | 2008-04-21 | 2009-10-28 | 日本电气株式会社 | Knowledge-based failure recovery support system |
US8024611B1 (en) * | 2010-02-26 | 2011-09-20 | Microsoft Corporation | Automated learning of failure recovery policies |
JP2013121008A (en) * | 2011-12-06 | 2013-06-17 | Kddi R & D Laboratories Inc | Attack countermeasure device, attack countermeasure method, and attack countermeasure program |
JP2015118440A (en) * | 2013-12-17 | 2015-06-25 | 株式会社日立製作所 | Monitoring device, and method for updating failure recovery procedure |
-
2017
- 2017-03-30 JP JP2017067334A patent/JP6684243B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000013391A (en) * | 1998-06-24 | 2000-01-14 | Toshiba Corp | Flow control method and device |
JP2007267352A (en) * | 2006-03-02 | 2007-10-11 | Alaxala Networks Corp | Failure recovery system and server |
JP2008244902A (en) * | 2007-03-28 | 2008-10-09 | Kyocera Corp | Failure recovery apparatus, failure recovery method, and failure recovery system |
CN101567807A (en) * | 2008-04-21 | 2009-10-28 | 日本电气株式会社 | Knowledge-based failure recovery support system |
US8024611B1 (en) * | 2010-02-26 | 2011-09-20 | Microsoft Corporation | Automated learning of failure recovery policies |
JP2013121008A (en) * | 2011-12-06 | 2013-06-17 | Kddi R & D Laboratories Inc | Attack countermeasure device, attack countermeasure method, and attack countermeasure program |
JP2015118440A (en) * | 2013-12-17 | 2015-06-25 | 株式会社日立製作所 | Monitoring device, and method for updating failure recovery procedure |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543743A (en) * | 2018-11-19 | 2019-03-29 | 天津大学 | A kind of refrigeration unit multiple sensor faults diagnosis method based on reconstruction prediction residual |
CN109543743B (en) * | 2018-11-19 | 2023-04-07 | 天津大学 | Multi-sensor fault diagnosis method for refrigerating unit based on reconstructed prediction residual error |
KR20200088622A (en) * | 2019-01-15 | 2020-07-23 | 삼성전자주식회사 | A method and apparatus for analyzing performance degradation of a cell in a wireless communication system |
US11888543B2 (en) | 2019-01-15 | 2024-01-30 | Samsung Electronics Co., Ltd. | Method and device for analyzing performance degradation of cell in wireless communication system |
KR102634000B1 (en) * | 2019-01-15 | 2024-02-06 | 삼성전자 주식회사 | A method and apparatus for analyzing performance degradation of a cell in a wireless communication system |
Also Published As
Publication number | Publication date |
---|---|
JP6684243B2 (en) | 2020-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6684243B2 (en) | Failure recovery procedure optimization system and failure recovery procedure optimization method | |
US9829865B2 (en) | Adaptive maintenance support and control of a process control system via device specification and actual condition information | |
TW201730789A (en) | Information processing method, device and system | |
US20200382365A1 (en) | Updating software in cloud gateways | |
CN106528071B (en) | The choosing method and device of object code | |
CN106790131B (en) | Parameter modification method and device and distributed platform | |
WO2015037118A1 (en) | Task-directing system and task-directing method | |
JP4882498B2 (en) | Operation management apparatus, operation management method, and program | |
CN109462507B (en) | Configuration updating method, device and system and electronic equipment | |
US20170091252A1 (en) | Reconciling sensor data in a database | |
JP2009199321A (en) | Relevancy inspection apparatus, relevancy inspection method, and relevancy inspection program | |
JP5083591B2 (en) | Process control system | |
JP6541177B2 (en) | Computer terminal and program therefor, computer system | |
US9880855B2 (en) | Start-up control program, device, and method | |
CN110851556A (en) | Mobile robot mapping method, device, equipment and storage medium | |
CN110955443A (en) | Method, device, equipment and medium for updating cluster crontab in batch | |
JP5670935B2 (en) | Distributed data management system and operation method thereof | |
JP2020024568A (en) | Notification device, notification method and program | |
JP2015207798A (en) | Video data management method, monitoring camera device, and monitoring camera system | |
JP5533466B2 (en) | Parameter management apparatus, parameter management method, and parameter management program | |
US20130007514A1 (en) | Redundant system | |
JP5605370B2 (en) | System model management support system, system model management support method and program | |
CN112035064A (en) | Distributed migration method for object storage | |
JP2007257156A (en) | Restore system and restore method | |
WO2024169467A1 (en) | Fault location method for distributed network, network device, and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190311 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190418 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191218 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191224 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200221 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200310 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200327 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6684243 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |