JP7034014B2 - Fault response training equipment, fault response training methods and fault response training programs - Google Patents

Fault response training equipment, fault response training methods and fault response training programs Download PDF

Info

Publication number
JP7034014B2
JP7034014B2 JP2018115809A JP2018115809A JP7034014B2 JP 7034014 B2 JP7034014 B2 JP 7034014B2 JP 2018115809 A JP2018115809 A JP 2018115809A JP 2018115809 A JP2018115809 A JP 2018115809A JP 7034014 B2 JP7034014 B2 JP 7034014B2
Authority
JP
Japan
Prior art keywords
failure
training
operator
response
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018115809A
Other languages
Japanese (ja)
Other versions
JP2019219473A (en
Inventor
香織 伊藤
篤史 原田
義則 内海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Mitsubishi Electric Information Network Corp
Original Assignee
Mitsubishi Electric Corp
Mitsubishi Electric Information Network Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp, Mitsubishi Electric Information Network Corp filed Critical Mitsubishi Electric Corp
Priority to JP2018115809A priority Critical patent/JP7034014B2/en
Publication of JP2019219473A publication Critical patent/JP2019219473A/en
Application granted granted Critical
Publication of JP7034014B2 publication Critical patent/JP7034014B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、障害対応訓練装置、障害対応訓練方法および障害対応訓練プログラムに関する。 The present invention relates to a failure response training device, a failure response training method, and a failure response training program.

システム運用における障害対応訓練は、通常、運用開始前に実施される。多くのシステムでは、運用開始後の本番環境において、幅広い障害への定期訓練は実施されていない。そのため、人員の異動などにより、新たな運用者が配属される場合は、試験環境などで事前訓練を行うこととなる。実際の運用開始後には、試験環境と本番環境を同じに保つことは容易ではない。そのため、障害対応経験が少ない運用者が、本番環境における実際の障害に確実に対応できるとは限らない。よって、本番環境における障害対応の確実性を向上させるための技術が重要である。 Failure response training in system operation is usually conducted before the start of operation. In many systems, regular training for a wide range of disabilities is not carried out in the production environment after the start of operation. Therefore, if a new operator is assigned due to a change in personnel, etc., prior training will be conducted in a test environment or the like. After the actual operation starts, it is not easy to keep the test environment and the production environment the same. Therefore, an operator who has little experience in dealing with failures may not always be able to reliably deal with actual failures in the production environment. Therefore, technology for improving the certainty of troubleshooting in the production environment is important.

運用中のシステムに対して故意に障害を発生させて、障害復旧能力を自動試験するソフトウェアが開発されている。具体例には、Netflix社のChaos Monkeyがある。このソフトウェアは、クラウドサービス上の仮想マシンを無作為に選択して強制的に停止させる動作を繰り返して、対象サービスの障害からの復旧能力を試験する。
特許文献1では、システム利用者とのサービスレベル合意、すなわちSLA(Service Level Agreement)を下回らないことを確認してから、障害試験を行う方法が開示されている。SLAは、故意に障害を発生させる前に、ネットワークの性能あるいは使用状況といったシステムの状況を考慮して、品質への影響を算出することにより確認される。また、同様の観点から、システム状況に応じて障害発生を制御するソフトウェア、具体的にはNetflix社のChAPが発表されている。
Software has been developed that automatically tests the failure recovery capability by intentionally causing a failure in an operating system. A specific example is Chaos Monkey from Netflix. This software tests the ability of the target service to recover from a failure by repeating the operation of randomly selecting virtual machines on the cloud service and forcibly stopping them.
Patent Document 1 discloses a method of performing a failure test after confirming that the service level agreement with the system user, that is, SLA (Service Level Agreement) is not exceeded. SLA is confirmed by calculating the impact on quality, taking into account system conditions such as network performance or usage, before deliberately causing a failure. From the same point of view, software that controls the occurrence of failures according to the system status, specifically, ChAP of Netflix Co., Ltd. has been announced.

特開2017-135563号公報Japanese Unexamined Patent Publication No. 2017-135563

従来の技術は、実際に障害に対応する運用者および運用者の体制について考慮していない。このため、経験の浅い運用者しかいない時間帯に障害発生ソフトウェアが難易度の高い障害を発生させてしまった場合に、復旧に多くの時間を要してしまうといった理由でSLAを満たせなくなる。また、SLAを満たせなくなるような事態を避けるため、冗長化といった対策によってシステムが自動復旧できる障害に発生対象が限られてしまうと、運用者のスキルアップにつながらない。 The conventional technology does not consider the operator and the operator's system that actually responds to the failure. For this reason, if the failure-generating software causes a failure with a high degree of difficulty during a time period when only an inexperienced operator is available, the SLA cannot be satisfied because it takes a lot of time to recover. In addition, in order to avoid a situation where the SLA cannot be satisfied, if the target of occurrence is limited to the failure that the system can automatically recover by measures such as redundancy, it will not lead to the skill improvement of the operator.

この発明は、本番環境において、SLAを満たせなくなる危険性を低減し、かつ、運用者の障害対応スキルレベルに応じた効率のよい障害対応訓練を実現することを目的とする。 An object of the present invention is to reduce the risk of not being able to meet the SLA in a production environment, and to realize efficient failure response training according to the operator's failure response skill level.

本発明に係る障害対応訓練装置では、運用者が運用する運用システムに障害を発生させることにより、前記運用者の障害対応訓練を行う障害対応訓練装置において、
前記運用者が対応可能な障害の難易度を含む運用者情報と、障害一覧と前記障害一覧に含まれる各障害の難易度とを含む障害情報とに基づいて、前記運用者の障害対応訓練として発生させる障害を訓練用障害として前記障害一覧から選択する選択部と、
前記運用システムの状況を表すシステム情報に基づいて、前記運用システムに前記訓練用障害を発生させた場合の前記運用システムへの影響が許容範囲以内か否かを判定する影響予測部と、
前記運用システムへの影響が許容範囲以内の場合に、前記運用システムに前記訓練用障害を発生させる訓練実行部と
を備えた。
In the failure response training device according to the present invention, in the failure response training device that performs failure response training for the operator by causing a failure in the operation system operated by the operator.
As the operator's failure response training, based on the operator information including the difficulty level of the failure that the operator can handle and the failure information including the failure list and the difficulty level of each failure included in the failure list. A selection unit that selects the failure to be generated as a training failure from the failure list, and
An impact prediction unit that determines whether or not the impact on the operational system when a training failure occurs in the operational system is within an allowable range based on the system information indicating the status of the operational system.
The operation system is provided with a training execution unit that causes the training failure when the influence on the operation system is within an allowable range.

本発明に係る障害対応訓練装置によれば、運用システムへの影響を抑制しつつ、運用者のスキルアップにつながる適切な障害対応訓練を実行することができる。 According to the failure response training device according to the present invention, it is possible to execute appropriate failure response training that leads to improvement of the operator's skill while suppressing the influence on the operation system.

実施の形態1に係る障害対応訓練システムの構成例を示す図。The figure which shows the configuration example of the trouble response training system which concerns on Embodiment 1. 実施の形態1に係る訓練装置と情報保存装置の詳細な構成例を示す図。The figure which shows the detailed configuration example of the training apparatus and the information storage apparatus which concerns on Embodiment 1. FIG. 実施の形態1に係る障害対応訓練装置の動作を示すフロー図。The flow diagram which shows the operation of the trouble response training apparatus which concerns on Embodiment 1. 実施の形態1に係る運用者情報の一部を示す図。The figure which shows a part of the operator information which concerns on Embodiment 1. 実施の形態1に係る訓練履歴の一部を示す図。The figure which shows a part of the training history which concerns on Embodiment 1. 実施の形態1に係る障害情報の一部を示す図。The figure which shows a part of the trouble information which concerns on Embodiment 1. 実施の形態1に係る候補リストの例を示す図。The figure which shows the example of the candidate list which concerns on Embodiment 1. 実施の形態1に係る運用者情報における障害対応スキルの部分を示す図。The figure which shows the part of the trouble response skill in the operator information which concerns on Embodiment 1. 実施の形態1に係る障害情報における障害対応に必要なスキルの部分を示す図。The figure which shows the part of the skill necessary for the failure response in the failure information which concerns on Embodiment 1. FIG. 実施の形態1に係る運用者端末に表示された訓練通知の例を示す図。The figure which shows the example of the training notice displayed on the operator terminal which concerns on Embodiment 1. 実施の形態1に係る障害対応情報入力画面の一例を示す図。The figure which shows an example of the trouble correspondence information input screen which concerns on Embodiment 1. 実施の形態1に係る障害対応情報入力画面の正解表の例を示す図。The figure which shows the example of the correct answer table of the trouble correspondence information input screen which concerns on Embodiment 1. 実施の形態1に係る障害対応情報入力画面の別例を示す図。The figure which shows another example of the trouble correspondence information input screen which concerns on Embodiment 1. 実施の形態1に係る重要ポイント一覧の例を示す図。The figure which shows the example of the important point list which concerns on Embodiment 1. 実施の形態1に係る障害対応基準時間と障害対応時間との対応例を示す図。The figure which shows the correspondence example of the trouble correspondence reference time and the trouble correspondence time which concerns on Embodiment 1. 実施の形態1に係る訓練フォロー要否判定の基準表を示す図。The figure which shows the standard table of the training follow-up necessity determination which concerns on Embodiment 1. 実施の形態1に係る登録対応方法の例を示す図。The figure which shows the example of the registration correspondence method which concerns on Embodiment 1. 実施の形態1に係るコマンド実行のログの例を示す図。The figure which shows the example of the log of the command execution which concerns on Embodiment 1. 実施の形態1に係る訓練履歴に保存した今回の障害対応方法の一例を示す図。The figure which shows an example of this trouble correspondence method saved in the training history which concerns on Embodiment 1. 実施の形態1に係る訓練履歴に保存した今回の障害対応方法の他例を示す図。The figure which shows the other example of this trouble correspondence method saved in the training history which concerns on Embodiment 1. 実施の形態1に係る障害情報において障害対応方法を新規登録した例。An example in which a failure handling method is newly registered in the failure information according to the first embodiment. 実施の形態1に係る運用者判定基準表の例を示す図。The figure which shows the example of the operator judgment standard table which concerns on Embodiment 1. 実施の形態1に係る障害対応訓練装置のハードウェア構成の一例。An example of the hardware configuration of the failure response training device according to the first embodiment.

以下、本発明の実施の形態について、図を用いて説明する。なお、各図中、同一または相当する部分には、同一符号を付している。実施の形態の説明において、同一または相当する部分については、説明を適宜省略または簡略化する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. In each figure, the same or corresponding parts are designated by the same reference numerals. In the description of the embodiment, the description will be omitted or simplified as appropriate for the same or corresponding parts.

実施の形態1.
***構成の説明***
図1を用いて、本実施の形態に係る障害対応訓練システム500の構成について説明する。
障害対応訓練システム500は、運用システム10と、障害対応訓練装置20と、運用監視装置50と、運用者端末60とを有する。
運用システム10は、運用者61が運用対象とするシステムである。
障害対応訓練装置20は、運用者61が運用する運用システム10に訓練用障害71を発生させることにより、運用者の障害対応訓練を行う。障害対応訓練装置20は、訓練装置30と情報保存装置40とを有する。訓練装置30は、訓練用の障害、すなわち訓練用障害71の発生可否を判定し、判定結果に基づいて訓練用障害71を発生させる。情報保存装置40は、システム情報、訓練履歴、障害情報、および運用者情報といった情報を保存する。
運用監視装置50は、運用システム10に対して、監視といった運用処理を実行する。運用監視装置50は、常に運用システム10を監視しており、障害あるいは問題を検知した場合は、運用者端末60にメッセージを表示させる。
運用者端末60は、運用者61により用いられる端末である。運用者61は、運用者端末60を用いて、運用システム10の運用に関する情報の取得、あるいは運用システム10の運用のための操作を行う。また、運用者端末60は、運用監視装置50あるいは訓練装置30から得た情報を運用者61に表示する。
Embodiment 1.
*** Explanation of configuration ***
The configuration of the failure response training system 500 according to the present embodiment will be described with reference to FIG. 1.
The failure response training system 500 includes an operation system 10, a failure response training device 20, an operation monitoring device 50, and an operator terminal 60.
The operation system 10 is a system to be operated by the operator 61.
The failure response training device 20 performs failure response training for the operator by generating a training failure 71 in the operation system 10 operated by the operator 61. The fault handling training device 20 includes a training device 30 and an information storage device 40. The training device 30 determines whether or not a training obstacle, that is, a training obstacle 71, can occur, and generates the training obstacle 71 based on the determination result. The information storage device 40 stores information such as system information, training history, failure information, and operator information.
The operation monitoring device 50 executes an operation process such as monitoring on the operation system 10. The operation monitoring device 50 constantly monitors the operation system 10, and when a failure or a problem is detected, the operation monitoring device 50 displays a message on the operator terminal 60.
The operator terminal 60 is a terminal used by the operator 61. The operator 61 uses the operator terminal 60 to acquire information on the operation of the operation system 10 or perform an operation for the operation of the operation system 10. Further, the operator terminal 60 displays the information obtained from the operation monitoring device 50 or the training device 30 to the operator 61.

図2を用いて、本実施の形態に係る訓練装置30と情報保存装置40の詳細な構成について説明する。
訓練装置30は、訓練内容選択部31、対応可否判定部32、影響予測部33、訓練実行部34、訓練内容記録部35、原因取得部36、原因評価取得部37、訓練結果評価部38、障害情報更新部39、および運用者情報更新部391を備える。訓練内容選択部31と対応可否判定部32とを合わせて選択部301とする。障害情報更新部39と運用者情報更新部391とを合わせて更新部309とする。
情報保存装置40は、システム情報41、障害情報42、運用者情報43、および訓練履歴44を備える。
A detailed configuration of the training device 30 and the information storage device 40 according to the present embodiment will be described with reference to FIG. 2.
The training device 30 includes a training content selection unit 31, a response availability determination unit 32, an impact prediction unit 33, a training execution unit 34, a training content recording unit 35, a cause acquisition unit 36, a cause evaluation acquisition unit 37, and a training result evaluation unit 38. It includes a failure information update unit 39 and an operator information update unit 391. The training content selection unit 31 and the correspondence availability determination unit 32 are combined to form the selection unit 301. The failure information update unit 39 and the operator information update unit 391 are collectively referred to as an update unit 309.
The information storage device 40 includes system information 41, failure information 42, operator information 43, and training history 44.

選択部301は、運用者情報43と障害情報42とに基づいて、運用者の障害対応訓練として発生させる障害を訓練用障害71として障害一覧から選択する。
運用者情報43には、運用者が対応可能な障害の難易度が含まれる。また、運用者情報43には、運用者が有する障害対応スキルの種類が含まれる。
障害情報42には、障害一覧と障害一覧に含まれる各障害の難易度とが含まれる。また、障害情報42には、障害一覧に含まれる各障害の対応に必要なスキルの種類が含まれる。また、障害情報42には、障害一覧に含まれる各障害への対応方法が登録対応方法として含まれる。
Based on the operator information 43 and the failure information 42, the selection unit 301 selects a failure to be generated as the operator's failure response training as a training failure 71 from the failure list.
The operator information 43 includes the difficulty level of the failure that the operator can handle. Further, the operator information 43 includes the types of failure handling skills possessed by the operator.
The failure information 42 includes a failure list and the difficulty level of each failure included in the failure list. Further, the failure information 42 includes the types of skills required for dealing with each failure included in the failure list. Further, the failure information 42 includes a method for dealing with each failure included in the failure list as a registration handling method.

訓練内容選択部31は、運用者情報43から、現在在席している運用者を把握する。そして、訓練内容選択部31は、訓練履歴44から、運用者の過去の障害対応履歴を参照し、在席中の運用者に適切な訓練用障害を選択する。
対応可否判定部32は、在席中の運用者の障害対応スキルを、運用者情報43から取得する。対応可否判定部32は、訓練内容選択部31により選択された訓練用障害71について、障害対応に必要なスキルを障害情報42から取得する。対応可否判定部32は、在席中の運用者の障害対応スキルと、訓練用障害71の障害対応に必要なスキルとを照合し、訓練用障害71に運用者が対応可能かを判定する。
The training content selection unit 31 grasps the currently present operator from the operator information 43. Then, the training content selection unit 31 refers to the past failure response history of the operator from the training history 44, and selects an appropriate training failure for the operator who is present.
The response availability determination unit 32 acquires the failure response skill of the operator who is present from the operator information 43. The response availability determination unit 32 acquires the skills necessary for disability response from the disability information 42 for the training disability 71 selected by the training content selection unit 31. The response availability determination unit 32 collates the disability response skill of the operator who is present with the skill required for disability response of the training disability 71, and determines whether the operator can respond to the training disability 71.

影響予測部33は、運用システム10の状況を表すシステム情報41に基づいて、運用システム10に訓練用障害71を発生させた場合の運用システム10への影響が許容範囲以内か否かを判定する。
運用システム10では、運用システム10の利用者に対して提供されるサービスのレベルがサービスレベル合意、すなわちSLAとして設定されている。影響予測部33は、運用システム10に訓練用障害71を発生させた場合に、利用者に対して提供されるサービスがSLAを満たす場合に、運用システム10への影響が許容範囲以内であると判定する。SLAに影響があると判定された場合、影響予測部33は、訓練を実施せず、訓練内容選択部31による訓練内容の選択に処理を戻す。SLAに影響がないと判定された場合、影響予測部33は、訓練実施可能と判定し、訓練実行部34に実行を指示する。
The impact prediction unit 33 determines whether or not the impact on the operation system 10 when the training failure 71 is generated in the operation system 10 is within the allowable range based on the system information 41 indicating the status of the operation system 10. ..
In the operation system 10, the level of service provided to the user of the operation system 10 is set as a service level agreement, that is, SLA. The impact prediction unit 33 determines that the impact on the operation system 10 is within the permissible range when the service provided to the user satisfies the SLA when the training failure 71 is generated in the operation system 10. judge. If it is determined that the SLA is affected, the impact prediction unit 33 does not perform the training and returns the process to the selection of the training content by the training content selection unit 31. When it is determined that the SLA is not affected, the impact prediction unit 33 determines that the training can be performed, and instructs the training execution unit 34 to execute the training.

訓練実行部34は、運用システム10への影響が許容範囲以内の場合に、運用システム10に訓練用障害71を発生させる。その際の実施例として、訓練を受ける対象の運用者が、本番同様の緊張感で障害対応できるように訓練であることを伏せて実行してもよい。また、訓練実行部34は、運用システム10に訓練用障害71を発生させる際に、運用者に対して訓練であることを通知する訓練通知を送信してもよい。また、本物の障害を発生させてもよいし、擬似的な障害警告のみを発生させてもよい。規定の基準時間を過ぎても障害対応がなされない場合は、強制的に訓練を終了し、運用者に通知してもよい。
訓練内容記録部35は、訓練用障害71への対応方法を障害対応方法として障害対応情報に設定し、障害対応情報を訓練履歴44に保存する。具体的には、訓練内容記録部35は、障害対応方法、障害対応時間、および運用者による訓練用障害71への見解といった情報を含む障害対応情報を訓練履歴44に記録する。
The training execution unit 34 causes a training failure 71 in the operation system 10 when the influence on the operation system 10 is within the allowable range. As an example at that time, the operator to be trained may perform the training while hiding the training so that he / she can deal with the trouble with the same tension as the actual one. Further, the training execution unit 34 may transmit a training notification notifying the operator that the training is being performed when the training failure 71 is generated in the operation system 10. In addition, a real failure may be generated, or only a pseudo failure warning may be generated. If the failure is not dealt with after the specified reference time, the training may be forcibly terminated and the operator may be notified.
The training content recording unit 35 sets the method for dealing with the training failure 71 in the failure response information as the failure response method, and stores the failure response information in the training history 44. Specifically, the training content recording unit 35 records the failure response information including information such as the failure response method, the failure response time, and the operator's opinion on the training failure 71 in the training history 44.

原因取得部36は、運用者から、訓練用障害71の原因と障害対応における重要ポイントとを含む障害対応情報を取得する。原因取得部36は、訓練用障害71の原因と障害対応における重要ポイントとについて、運用者の判定結果および障害対応内容といった障害対応情報を取得し、訓練履歴44に保存する。原因取得部36による取得内容は、訓練結果評価部38において、障害対応に関する運用者の理解度を評価するために利用される。なお、原因取得部36による障害対応情報の取得は、具体例として、運用者により入力された障害対応情報を取得する構成でもよいし、あるいは外部のインシデント管理システムなどに記録された運用記録から取得する構成でもよい。
原因評価取得部37は、原因取得部36により取得された障害対応情報に基づいて、運用者による障害対応の妥当性の評価を運用者から取得する。すなわち、原因評価取得部37は、原因取得部36により取得された障害対応情報が正しいかを人手で評価を行う際に、人手で評価された内容を取得する。原因評価取得部37は、人手で評価された内容を訓練結果評価部38に出力する。訓練結果評価部38が人手を介さず自動で障害対応情報を評価する場合は、原因評価取得部37は省略することもできる。
The cause acquisition unit 36 acquires failure response information including the cause of the training failure 71 and important points in failure response from the operator. The cause acquisition unit 36 acquires failure response information such as an operator's determination result and failure response details regarding the cause of the training failure 71 and important points in the failure response, and stores it in the training history 44. The content acquired by the cause acquisition unit 36 is used by the training result evaluation unit 38 to evaluate the degree of understanding of the operator regarding troubleshooting. As a specific example, the cause acquisition unit 36 may acquire the failure response information by acquiring the failure response information input by the operator, or by acquiring from the operation record recorded in an external incident management system or the like. It may be configured to be used.
The cause evaluation acquisition unit 37 acquires an evaluation of the validity of the failure response by the operator from the operator based on the failure response information acquired by the cause acquisition unit 36. That is, the cause evaluation acquisition unit 37 acquires the content evaluated manually when manually evaluating whether the failure response information acquired by the cause acquisition unit 36 is correct. The cause evaluation acquisition unit 37 outputs the contents evaluated manually to the training result evaluation unit 38. When the training result evaluation unit 38 automatically evaluates the failure response information without human intervention, the cause evaluation acquisition unit 37 may be omitted.

訓練結果評価部38は、運用者による訓練用障害71への障害対応が完了すると、障害対応を評価する評価結果74を出力する。訓練結果評価部38は、訓練用障害71への障害対応に関する情報を、訓練履歴44あるいは原因評価取得部37より取得し、総合的に評価する。 When the training result evaluation unit 38 completes the failure response to the training failure 71 by the operator, the training result evaluation unit 38 outputs the evaluation result 74 for evaluating the failure response. The training result evaluation unit 38 acquires information on the disability response to the training disability 71 from the training history 44 or the cause evaluation acquisition unit 37, and comprehensively evaluates it.

更新部309は、障害対応の内容を表す障害対応情報と評価結果74とに基づいて、運用者情報43について運用者が対応可能な障害の難易度を更新する。また、更新部309は、障害対応情報と評価結果74とに基づいて、障害情報42に含まれる登録対応方法を更新する。
障害情報更新部39は、訓練結果評価部38の評価結果74、および訓練履歴44に保存された障害対応情報に基づいて、障害情報42を更新する。具体的には、訓練結果評価部38において障害復旧が問題なく行われたと評価された場合に、障害情報42の登録対応方法と、訓練履歴44の今回の訓練での障害対応方法とを比較する。これらの対応方法が不一致の場合は、障害情報更新部39は、新しい障害対応方法が見つかったと見なし、障害情報42に障害対応方法を新規登録する。あるいは、障害情報更新部39は、訓練履歴44の今回の障害対応にかかった時間をもとに、障害情報42の障害の難易度あるいはその他の情報を更新してもよい。
運用者情報更新部391は、訓練結果評価部38の評価結果74、訓練履歴44に保存された障害対応情報、および今回発生させた障害に関する障害情報42に基づいて、運用者情報43のスキル情報を更新する。
The update unit 309 updates the difficulty level of the failure that the operator can handle for the operator information 43 based on the failure response information indicating the content of the failure response and the evaluation result 74. Further, the update unit 309 updates the registration response method included in the failure information 42 based on the failure response information and the evaluation result 74.
The failure information updating unit 39 updates the failure information 42 based on the evaluation result 74 of the training result evaluation unit 38 and the failure response information stored in the training history 44. Specifically, when it is evaluated by the training result evaluation unit 38 that the failure recovery has been performed without any problem, the registration response method of the failure information 42 and the failure response method in the current training of the training history 44 are compared. .. If these response methods do not match, the failure information updating unit 39 considers that a new failure response method has been found, and newly registers the failure response method in the failure information 42. Alternatively, the failure information updating unit 39 may update the difficulty level of the failure or other information of the failure information 42 based on the time taken for the current failure response in the training history 44.
The operator information update unit 391 has skill information of the operator information 43 based on the evaluation result 74 of the training result evaluation unit 38, the failure response information stored in the training history 44, and the failure information 42 related to the failure generated this time. To update.

システム情報41は、運用システム10のシステム状態情報、システム構成情報、およびシステム性能情報といった情報を保持するデータストアである。システム状態情報は、運用監視装置50から取得する。システム構成情報およびシステム性能情報は、人手により入力されても良いし、運用監視装置50から取得しても良い。
障害情報42は、訓練で発生させる障害に関する情報を保持するデータストアである。具体的には、障害情報42には、障害ID(Identifier)、障害内容、障害原因、登録対応方法、障害対応に必要なスキル、障害の難易度、障害対応基準時間、および訓練評価内容といった情報が保持される。障害の難易度とは、当該障害が発生した場合の障害対応の難易度である。ここで障害対応基準時間は、障害対応が行われていてもSLAに支障をきたさない範囲の時間を指す。訓練評価内容は、訓練結果の評価方法を示すものである。具体的には、訓練評価内容には、障害毎に障害対応ステップにおける重要ポイントと、当該重要ポイントにおける正しい対応に関する情報とが含まれる。
The system information 41 is a data store that holds information such as system status information, system configuration information, and system performance information of the operation system 10. The system status information is acquired from the operation monitoring device 50. The system configuration information and the system performance information may be manually input or may be acquired from the operation monitoring device 50.
The failure information 42 is a data store that holds information about failures that occur during training. Specifically, the failure information 42 includes information such as a failure ID (Identifier), failure content, failure cause, registration response method, skill required for failure response, difficulty level of failure, failure response reference time, and training evaluation content. Is retained. The difficulty level of a disability is the difficulty level of dealing with a disability when the disability occurs. Here, the failure response reference time refers to a time within a range that does not interfere with the SLA even if the failure response is performed. The training evaluation content shows the evaluation method of the training result. Specifically, the training evaluation content includes important points in the failure response step for each failure and information on correct response at the important points.

運用者情報43は、運用者に関する情報を保持するデータストアである。具体的には、運用者情報43には、運用者ID、氏名、運用者の有する障害対応スキル、在席状況といった情報が含まれる。運用者の在席状況は、具体例としては、運用者端末60の稼働状況から取得しても良いし、外部のスケジュール管理システムあるいは在席管理システムといったシステムから取得しても良い。運用者の保有するスキルは、具体例としては、初期段階では運用者の自己申告で登録しておく方法でも良い。当該スキル情報は、当該運用者を対象とする訓練実施毎に更新され得る。
訓練履歴44は、訓練時の運用者の障害対応方法および障害対応時間といった訓練で記録される情報を保持するデータストアである。
The operator information 43 is a data store that holds information about the operator. Specifically, the operator information 43 includes information such as an operator ID, a name, a trouble handling skill possessed by the operator, and an attendance status. As a specific example, the presence status of the operator may be acquired from the operating status of the operator terminal 60, or may be acquired from a system such as an external schedule management system or an attendance management system. As a specific example, the skill possessed by the operator may be registered by the operator's self-report at the initial stage. The skill information may be updated every time the training is conducted for the operator.
The training history 44 is a data store that holds information recorded in the training such as the operator's failure response method and failure response time at the time of training.

***動作の説明***
図3を用いて、本実施の形態に係る障害対応訓練装置20の動作について説明する。
*** Explanation of operation ***
The operation of the failure response training device 20 according to the present embodiment will be described with reference to FIG.

<ステップS101:運用者の選択>
ステップS101において、訓練内容選択部31は、運用者を選択する。訓練内容選択部31は、運用者情報43および訓練履歴44から、運用者の在席状況、運用者の有する障害対応スキル、および運用者の障害対応履歴を取得する。訓練内容選択部31は、現在在席している運用者の中で一人または複数の運用者を訓練対象として選択する。具体的には、訓練内容選択部31は、対応可能な障害の難易度が低い、あるいは、最近訓練を実施していないといった選択基準で、運用者を選択する。
<Step S101: Operator selection>
In step S101, the training content selection unit 31 selects an operator. The training content selection unit 31 acquires the presence status of the operator, the failure handling skill of the operator, and the failure handling history of the operator from the operator information 43 and the training history 44. The training content selection unit 31 selects one or a plurality of operators currently present as training targets. Specifically, the training content selection unit 31 selects an operator based on a selection criterion such as the difficulty level of the obstacles that can be dealt with is low or the training has not been carried out recently.

図4は、本実施の形態に係る運用者情報43の一部を示す図である。
また、図5は、本実施の形態に係る訓練履歴44の一部を示す図である。
図4の例では、在席している運用者10010と10012のうち、対応可能障害難易度の最も低いことを選択基準として、運用者10010を選択する。また、図5の例では、現在日が2018年3月10日だった場合に、過去1か月訓練を実施していないことを選択基準として、運用者10010を選択する。また、これら複数の選択基準の両方を満たすというように、条件を組み合わせて選択基準としてもよい。
FIG. 4 is a diagram showing a part of the operator information 43 according to the present embodiment.
Further, FIG. 5 is a diagram showing a part of the training history 44 according to the present embodiment.
In the example of FIG. 4, the operator 10010 is selected based on the lowest possible obstacle difficulty level among the operators 10010 and 10012 that are present. Further, in the example of FIG. 5, when the current date is March 10, 2018, the operator 10010 is selected based on the fact that the training has not been carried out for the past one month. Further, the selection criteria may be combined with the conditions such that both of these plurality of selection criteria are satisfied.

<ステップS102:訓練で発生させる障害の選択>
ステップS102において、訓練内容選択部31は、ステップS101で選択された運用者に発生させる障害の候補を選択する。訓練内容選択部31は、運用者情報43と障害情報42から情報を取得し、それらを比較することで、運用者が訓練すべき障害の候補リストを作成する。訓練すべき障害とは、運用者が未経験の障害であること、経験したが一度対応に失敗している障害であること、あるいは前回の障害の訓練から所定の時間が経過していることが選択基準として挙げられる。しかし、その他の選択基準でも構わない。障害の候補リストに載せる障害がない場合は、訓練は実施せず終了とする、あるいは、選択基準を変えて運用者の選択からやり直しても良い。
<Step S102: Selection of obstacles caused by training>
In step S102, the training content selection unit 31 selects a candidate for a failure to be generated in the operator selected in step S101. The training content selection unit 31 acquires information from the operator information 43 and the failure information 42, and compares them to create a list of failure candidates to be trained by the operator. The obstacles to be trained are those that the operator has not experienced, those that have been experienced but have failed to respond once, or those that have passed a predetermined time since the last training of the obstacle. It is mentioned as a standard. However, other selection criteria may be used. If there are no obstacles to be listed in the obstacle candidate list, the training may be terminated without implementation, or the selection criteria may be changed and the operator's selection may be restarted.

図6は、本実施の形態に係る障害情報42の一部を示す図である。
図7は、本実施の形態に係る候補リスト51の例である。
図5の訓練履歴44における過去の障害対応履歴から、運用者10010は障害ID「1」以外未経験であると分かる。そこで、訓練内容選択部31は、図6の障害情報42における障害一覧を参照し、運用者10010が未経験の障害を選択基準として、障害ID「2,3,4」を、訓練すべき障害の候補リスト51に追加する。
FIG. 6 is a diagram showing a part of the failure information 42 according to the present embodiment.
FIG. 7 is an example of the candidate list 51 according to the present embodiment.
From the past failure response history in the training history 44 of FIG. 5, it can be seen that the operator 10010 is inexperienced except for the failure ID “1”. Therefore, the training content selection unit 31 refers to the failure list in the failure information 42 of FIG. 6, and uses the failure that the operator 10010 has not experienced as a selection criterion to train the failure ID “2, 3, 4”. Add to candidate list 51.

<ステップS103:運用者の対応可否判定>
ステップS103において、対応可否判定部32は、必要なスキルの種類を運用者がすべて有している障害を訓練用障害71として障害一覧から選択する。具体的には、対応可否判定部32は、ステップS102で作成した障害の候補リスト51から、運用者により対応可能な障害を訓練用障害71として選定する。対応可否判定部32は、ステップS101で選択した運用者の有する障害対応スキルと、障害対応に必要なスキルを比較することにより、運用者が対応可能な障害を訓練用障害71として選定する。対応可否は、障害対応に必要なスキルに対して、運用者の有するスキルが所定の基準を満たしているかで判定する。対応可能な障害がない場合は、訓練は実施せず終了とするか、選択基準を変えて運用者の選択からやり直す。
<Step S103: Judgment of availability of operator>
In step S103, the response availability determination unit 32 selects from the failure list a failure in which the operator has all the necessary skill types as a training failure 71. Specifically, the response availability determination unit 32 selects a failure that can be handled by the operator as a training failure 71 from the failure candidate list 51 created in step S102. The response availability determination unit 32 selects the obstacle that the operator can handle as the training obstacle 71 by comparing the obstacle response skill possessed by the operator selected in step S101 with the skill required for the fault response. Whether or not to respond is determined by checking whether the skill possessed by the operator meets a predetermined standard for the skill required for troubleshooting. If there are no obstacles that can be dealt with, the training should be terminated without implementation, or the selection criteria should be changed and the operator should start over.

図8は、本実施の形態に係る運用者情報43における障害対応スキルの部分を示す図である。また、図9は、本実施の形態に係る障害情報42における障害対応に必要なスキルの部分を示す図である。
対応可否判定部32は、図8の運用者情報43により運用者10010の有する障害対応スキルを確認し、図9の障害情報42における障害ごとに障害対応に必要なスキルと比較する。対応可否判定部32は、運用者10010が障害ID「4」に対応可能と判定できる。よって、対応可否判定部32は、障害ID「4」を訓練用障害71として選定する。ここでは、2つの判定基準により、運用者10010が障害ID「4」に対応可能と判定される。1つめは、「障害ID「4」への対応に必要なスキルはWindows(登録商標)およびネットワーク知識の2つだが、運用者10010はいずれのスキルも持っていること」である。2つめは、「運用者10010の対応可能障害が中であり、障害ID「4」の障害難易度の中以上であること」である。
FIG. 8 is a diagram showing a portion of the failure handling skill in the operator information 43 according to the present embodiment. Further, FIG. 9 is a diagram showing a part of the skill necessary for dealing with a failure in the failure information 42 according to the present embodiment.
The response availability determination unit 32 confirms the failure response skill possessed by the operator 10010 by the operator information 43 in FIG. 8, and compares it with the skill required for failure response for each failure in the failure information 42 in FIG. The response availability determination unit 32 can determine that the operator 10010 can respond to the failure ID "4". Therefore, the response availability determination unit 32 selects the failure ID “4” as the training failure 71. Here, it is determined that the operator 10010 can deal with the failure ID "4" based on the two determination criteria. The first is that "the two skills required to deal with the failure ID" 4 "are Windows (registered trademark) and network knowledge, but the operator 10010 has both skills." The second is that "there is a problem that can be handled by the operator 10010, and the problem ID is" 4 "or the difficulty level of the problem or higher."

<ステップS104:システムへの影響判定>
ステップS104において、影響予測部33は、運用システム10の状況を表すシステム情報41に基づいて、運用システム10に訓練用障害71を発生させた場合の運用システム10への影響が許容範囲以内か否かを判定する。言い換えると、影響予測部33は、システム情報41から、運用システム10の状況を取得し、訓練用障害71を発生させても問題ないかを判定する。具体的には、エラーの有無を影響度とし、影響度により本物の障害が発生しているか否かを確認し、発生していれば影響度が許容範囲外であるとして訓練を中止するといった処理を行う。運用システム10の状況は、運用監視装置50から情報を取得し、情報保存装置40のシステム情報41に保持されている。運用システム10への影響があると判定された場合は、訓練を実施せず終了とする。運用システム10への影響がないと判定された場合は、ステップS105に移行する。また、例えば、影響予測部33が、運用システム10のCPU使用率情報を影響度として取得し、CPU使用率が90%となっていたとする。この状況で、障害を発生させると全体のシステムがダウンしてしまう恐れがあるため、システムへの影響があると判定し、訓練を実施せず終了とする。すなわち、この場合の許容範囲は、CPU使用率90%未満となる。
<Step S104: Impact determination on the system>
In step S104, the impact prediction unit 33 determines whether or not the influence on the operation system 10 when the training failure 71 is generated in the operation system 10 is within the allowable range based on the system information 41 indicating the status of the operation system 10. Is determined. In other words, the impact prediction unit 33 acquires the status of the operation system 10 from the system information 41, and determines whether or not there is no problem even if the training failure 71 is generated. Specifically, the presence or absence of an error is used as the degree of impact, and whether or not a real failure has occurred is confirmed by the degree of impact, and if so, the training is stopped because the degree of impact is out of the permissible range. I do. The status of the operation system 10 acquires information from the operation monitoring device 50 and is held in the system information 41 of the information storage device 40. If it is determined that there is an impact on the operation system 10, the training will be terminated without implementation. If it is determined that there is no influence on the operation system 10, the process proceeds to step S105. Further, for example, it is assumed that the influence prediction unit 33 acquires the CPU usage rate information of the operation system 10 as the influence degree, and the CPU usage rate is 90%. In this situation, if a failure occurs, the entire system may go down, so it is judged that there is an impact on the system, and the training is terminated without implementation. That is, the permissible range in this case is less than 90% of the CPU usage rate.

<ステップS105:障害発生>
ステップS105において、訓練実行部34は、ステップS101で選択した運用者に対して、ステップS102からステップS103で選択した訓練用障害71を発生させる。この際、訓練実行部34は、ステップS101で選択した運用者の運用者端末60に、訓練であることを通知する訓練通知72を表示しても良い。
図10は、本実施の形態に係る運用者端末60に表示された訓練通知72の例である。
運用者は、所定の運用マニュアルに従って、本当の障害と同様の障害対応を行う。この際、訓練内容記録部35は、運用者の作業内容と障害対応時間といった情報を収集し、訓練履歴44に保存する。
<Step S105: Failure occurred>
In step S105, the training execution unit 34 causes the operator selected in step S101 to generate the training failure 71 selected in step S102 to step S103. At this time, the training execution unit 34 may display the training notification 72 notifying that the training is being performed on the operator terminal 60 of the operator selected in step S101.
FIG. 10 is an example of the training notification 72 displayed on the operator terminal 60 according to the present embodiment.
The operator handles the same failure as a real failure according to the prescribed operation manual. At this time, the training content recording unit 35 collects information such as the work content of the operator and the trouble response time, and stores it in the training history 44.

<ステップS106:障害対応基準時間判定>
訓練実行部34は、ステップS105の障害発生から、障害対応基準時間を超過しているかを判定する。超過している場合は、ステップS112の訓練フォローに移行する。障害対応基準時間内の場合は、ステップS107の完了判定に移行する。
<Step S106: Failure response reference time determination>
The training execution unit 34 determines whether or not the failure response reference time has been exceeded from the occurrence of the failure in step S105. If the amount is exceeded, the process proceeds to the training follow-up in step S112. If it is within the failure response reference time, the process proceeds to the completion determination in step S107.

<ステップS107:完了判定>
訓練実行部34は、運用者の障害対応が完了したかを判定する。判定方法の具体例は、以下のとおりである。訓練実行部34は、運用者端末60に完了ボタンを表示し、運用者が完了ボタンを押したら完了と判定する。あるいは、訓練実行部34は、運用監視装置50のインシデント管理チケットが完了されたら障害対応が完了と判定する。あるいは、訓練実行部34は、システム情報41から運用システム10の状況を取得し、エラーがなければ完了と判定する。なお、訓練実行部34による完了判定の方法は、上述した方法以外でもよい。
<Step S107: Completion determination>
The training execution unit 34 determines whether or not the operator's failure response has been completed. Specific examples of the determination method are as follows. The training execution unit 34 displays a completion button on the operator terminal 60, and determines that the training is completed when the operator presses the completion button. Alternatively, the training execution unit 34 determines that the failure response is completed when the incident management ticket of the operation monitoring device 50 is completed. Alternatively, the training execution unit 34 acquires the status of the operation system 10 from the system information 41, and if there is no error, determines that the training is completed. The method of completion determination by the training execution unit 34 may be other than the method described above.

<ステップS108:対応妥当性の評価>
原因取得部36は、運用者から、訓練用障害71の原因と障害対応における重要ポイントとを含む障害対応情報を取得する。訓練結果評価部38は、原因取得部36により取得された障害対応情報に基づいて、運用者の障害対応の妥当性の評価を含む評価結果74を出力する。運用者の障害対応の妥当性が人手により評価された場合、訓練結果評価部38は、原因評価取得部37により取得された妥当性の評価を含む評価結果74を出力する。
<Step S108: Evaluation of correspondence validity>
The cause acquisition unit 36 acquires failure response information including the cause of the training failure 71 and important points in failure response from the operator. The training result evaluation unit 38 outputs an evaluation result 74 including an evaluation of the validity of the operator's failure response based on the failure response information acquired by the cause acquisition unit 36. When the validity of the operator's troubleshooting is manually evaluated, the training result evaluation unit 38 outputs the evaluation result 74 including the validity evaluation acquired by the cause evaluation acquisition unit 37.

図11は、本実施の形態に係る障害対応情報入力画面52の例を示す図である。
図11に示すように、原因取得部36は、運用者に障害対応情報入力画面52を提示する。運用者は、訓練用障害71の原因と障害対応における重要ポイントへの見解といった障害対応情報73を入力して完了ボタンを押す。原因取得部36は、障害対応情報入力画面52により取得した障害対応情報73を訓練結果評価部38に渡す。また、原因取得部36は、障害対応情報73を訓練履歴44に保存する。
FIG. 11 is a diagram showing an example of the failure response information input screen 52 according to the present embodiment.
As shown in FIG. 11, the cause acquisition unit 36 presents the failure response information input screen 52 to the operator. The operator inputs the failure response information 73 such as the cause of the training failure 71 and the opinion on the important points in the failure response, and presses the completion button. The cause acquisition unit 36 passes the failure response information 73 acquired by the failure response information input screen 52 to the training result evaluation unit 38. Further, the cause acquisition unit 36 stores the failure response information 73 in the training history 44.

続いて、訓練結果評価部38は、障害情報42に登録されている障害原因といった重要ポイントと、原因取得部36が収集した運用者の判定による障害対応情報73とを比較し、正否を評価する。訓練結果評価部38は、障害対応情報の正否の評価を、対応妥当性の評価として訓練履歴44に保存する。
図12は、本実施の形態に係る障害対応情報入力画面52の正解表53の例を示す図である。
図11に示すように、障害対応情報入力画面52では、原因入力欄および重要ポイント入力欄のように回答を選択式にする。訓練結果評価部38は、選択された回答と予め登録しておいた正解表53とを比較して一致しているか判定する。全てが一致している場合は、正とし、1つでも一致していない場合は、否と評価する。図11の障害対応情報入力画面52に入力された障害対応情報73では、回答が全て正解しているので正と判定される。
Subsequently, the training result evaluation unit 38 compares important points such as the cause of the failure registered in the failure information 42 with the failure response information 73 based on the judgment of the operator collected by the cause acquisition unit 36, and evaluates the correctness. .. The training result evaluation unit 38 stores the evaluation of the correctness of the failure response information in the training history 44 as an evaluation of the response validity.
FIG. 12 is a diagram showing an example of a correct answer table 53 of the failure response information input screen 52 according to the present embodiment.
As shown in FIG. 11, on the failure response information input screen 52, the answer is selected as in the cause input field and the important point input field. The training result evaluation unit 38 compares the selected answer with the pre-registered correct answer table 53 and determines whether they match. If all match, it is evaluated as positive, and if even one does not match, it is evaluated as negative. In the failure response information 73 input to the failure response information input screen 52 of FIG. 11, since all the answers are correct, it is determined to be correct.

図13は、本実施の形態に係る障害対応情報入力画面52aの例を示す図である。
図14は、本実施の形態に係る重要ポイント一覧54の例を示す図である。
なお、このステップS108の処理を人手で行う例では、図13に示すように、障害対応情報入力画面52aを自由記述式にしておく。そして、判定者に対して、障害対応情報73を表示し、判定者が原因評価取得部37を介して障害対応情報73の正否を評価する。具体的には、判定者は、障害対応情報入力画面52aに記述された回答を見て、図14の重要ポイント一覧54と比較して、記述の意味が合っているかを評価する。今回は、全て内容が一致しているので正と評価する。
FIG. 13 is a diagram showing an example of the failure response information input screen 52a according to the present embodiment.
FIG. 14 is a diagram showing an example of a list of important points 54 according to the present embodiment.
In the example in which the process of step S108 is manually performed, the failure handling information input screen 52a is set to a free description type as shown in FIG. Then, the failure response information 73 is displayed to the determiner, and the determiner evaluates the correctness of the failure response information 73 via the cause evaluation acquisition unit 37. Specifically, the determiner looks at the answer described in the failure response information input screen 52a, compares it with the important point list 54 in FIG. 14, and evaluates whether the meaning of the description is correct. This time, all the contents are the same, so it is evaluated as positive.

<ステップS109:障害復旧の成否評価>
訓練結果評価部38は、運用システム10の復旧の成否の評価を行い、運用システム10の復旧の成否の評価を評価結果74に含める。具体的には、訓練結果評価部38は、システム情報41からシステム状態の情報を取得し、障害復旧できたかを評価する。訓練結果評価部38は、障害復旧の成否の評価を訓練履歴44に保存する。障害復旧の成否評価判定の方法は、エラーの有無を確認する方法、特定のコマンドを実行して結果を正常状態と比較する方法、あるいはその他の方法でもよい。その他の方法の具体例として、ネットワークが不通である場合、通信先のマシンにpingコマンドを実行し、応答が返ってくることが確認できたら、障害復旧の成否を「成」として、訓練履歴44に記録する。
<Step S109: Success / failure evaluation of failure recovery>
The training result evaluation unit 38 evaluates the success or failure of the restoration of the operation system 10, and includes the evaluation of the success or failure of the restoration of the operation system 10 in the evaluation result 74. Specifically, the training result evaluation unit 38 acquires system status information from the system information 41 and evaluates whether or not the failure has been recovered. The training result evaluation unit 38 stores the evaluation of the success or failure of the failure recovery in the training history 44. The method of determining the success or failure of the failure recovery may be a method of confirming the presence or absence of an error, a method of executing a specific command and comparing the result with the normal state, or another method. As a specific example of another method, when the network is interrupted, execute the ping command to the communication destination machine, and if it is confirmed that a response is returned, the success or failure of the failure recovery is set as "success" and the training history 44. Record in.

<ステップS110:障害対応時間の評価>
訓練結果評価部38は、障害対応にかけた障害対応時間の評価を行い、障害対応時間の評価を評価結果74に含める。具体的には、訓練結果評価部38は、訓練履歴44に保存した今回の障害対応時間と、障害情報42に保存されている障害対応基準時間とを比較し、障害対応時間の評価を行う。評価基準は、具体的には、障害対応基準時間の1/2以内と設定しておき、基準よりも短ければ◎、基準よりも長ければ○と評価を行う。訓練結果評価部38は、障害対応時間の評価を訓練履歴44に保存する。
図15は、本実施の形態に係る障害対応基準時間と障害対応時間との対応例を示す図である。図15の例では、障害対応時間が障害対応基準時間の1/2以内のため、障害対応時間の評価は◎とし、訓練履歴44に保存する。
<Step S110: Evaluation of failure response time>
The training result evaluation unit 38 evaluates the failure response time for troubleshooting, and includes the evaluation of the failure response time in the evaluation result 74. Specifically, the training result evaluation unit 38 compares the current failure response time stored in the training history 44 with the failure response reference time stored in the failure information 42, and evaluates the failure response time. Specifically, the evaluation standard is set to be within 1/2 of the failure response standard time, and if it is shorter than the standard, it is evaluated as ◎, and if it is longer than the standard, it is evaluated as ○. The training result evaluation unit 38 stores the evaluation of the failure response time in the training history 44.
FIG. 15 is a diagram showing an example of correspondence between the failure response reference time and the failure response time according to the present embodiment. In the example of FIG. 15, since the failure response time is within 1/2 of the failure response reference time, the evaluation of the failure response time is set to ⊚ and stored in the training history 44.

<ステップS111:訓練フォロー要否判定>
訓練結果評価部38は、訓練履歴44に保存した評価結果74から、訓練フォローの要否を判定する。訓練履歴44に保存した評価結果は、ステップS108で保存した対応妥当性の評価、ステップS109で保存した障害復旧の成否評価、およびステップS110で保存した障害対応時間の評価の結果である。
図16は、本実施の形態に係る訓練フォロー基準表55を示す図である。
訓練フォロー基準表55では、評価結果74と、運用者に対する訓練フォローの要否と、訓練フォローの内容とが対応付けられている。
訓練結果評価部38は、訓練フォロー基準表55にしたがって訓練フォローの要否を判定する。判定の結果、要と判定された場合は、ステップS112の訓練フォローに移行する。否と判定された場合は、ステップS113の対応方法一致度判定に移行する。具体的には、図16では、対応妥当性の評価が正で、障害復旧の成否評価が成で、対応時間の評価が◎の場合、訓練フォローの要否は否と判定される。
<Step S111: Judgment of necessity of training follow>
The training result evaluation unit 38 determines the necessity of training follow-up from the evaluation result 74 stored in the training history 44. The evaluation results stored in the training history 44 are the results of the evaluation of the response validity saved in step S108, the success / failure evaluation of the failure recovery saved in step S109, and the evaluation of the failure response time saved in step S110.
FIG. 16 is a diagram showing a training follow-up standard table 55 according to the present embodiment.
In the training follow-up standard table 55, the evaluation result 74, the necessity of training follow-up for the operator, and the content of the training follow-up are associated with each other.
The training result evaluation unit 38 determines the necessity of training follow according to the training follow standard table 55. If it is determined as necessary as a result of the determination, the process proceeds to the training follow-up in step S112. If it is determined to be negative, the process proceeds to the corresponding method matching degree determination in step S113. Specifically, in FIG. 16, when the evaluation of the response validity is positive, the success / failure evaluation of the failure recovery is successful, and the evaluation of the response time is ⊚, it is determined whether or not the training follow-up is necessary.

<ステップS112:訓練フォロー>
訓練結果評価部38は、訓練フォロー基準表55を用いて、運用者に対する訓練フォローが必要か否かを判定し、運用者に対する訓練フォローが必要と判定されると、訓練フォローの内容に従って訓練フォローを行う。具体的には、訓練結果評価部38は、ステップS106で障害対応基準時間を超過した場合と、ステップS111で訓練フォロー要と判定された場合に、運用者に必要な情報を提示する。提示する情報の内容は、図16の訓練フォローの内容に示すとおりである。
図16の例では、対応妥当性の評価が否で、障害復旧の成否評価が否の場合、訓練フォローの内容として「障害復旧アシスト」が抽出される。このケースは、重要ポイントは理解しているが障害復旧できていないという状態である。「障害復旧アシスト」が抽出されたので、訓練結果評価部38は、障害復旧させるための支援情報を運用者に提示する。障害復旧させるための支援情報として、発生させた障害の内容と、対応の重要ポイントと正しい対応方法を提示する。また、訓練結果評価部38は、運用システム10の装置側で自動復旧させるといった所定のアシスト処理を実行し、運用者が速やかに障害復旧を行えるようにする。
<Step S112: Training follow>
The training result evaluation unit 38 determines whether or not the training follow-up for the operator is necessary by using the training follow-up standard table 55, and when it is determined that the training follow-up for the operator is necessary, the training follow-up is performed according to the contents of the training follow-up. I do. Specifically, the training result evaluation unit 38 presents necessary information to the operator when the failure response reference time is exceeded in step S106 and when it is determined in step S111 that training follow-up is required. The content of the information to be presented is as shown in the content of the training follow-up in FIG.
In the example of FIG. 16, when the evaluation of the response validity is negative and the success / failure evaluation of the failure recovery is negative, “failure recovery assist” is extracted as the content of the training follow-up. In this case, we understand the important points, but we have not been able to recover from the disaster. Since the "disaster recovery assist" has been extracted, the training result evaluation unit 38 presents the support information for disaster recovery to the operator. As support information for recovery from the failure, the details of the failure that occurred, the important points of the response, and the correct response method are presented. Further, the training result evaluation unit 38 executes a predetermined assist process such as automatic recovery on the device side of the operation system 10 so that the operator can quickly recover from the failure.

<ステップS113:対応方法一致度判定>
訓練結果評価部38は、障害対応方法と登録対応方法とが一致するか否かを判定する。更新部309は、障害対応方法と登録対応方法とが一致しない場合に、障害対応方法を登録対応方法として障害情報42に登録する。具体的には、訓練結果評価部38は、障害情報42に保存されている登録対応方法と、訓練履歴44に保存した今回の障害対応方法とを比較し、一致度を判定する。
図17は、本実施の形態に係る障害情報42の登録対応方法56の例を示す図である。
登録対応方法56では、障害への対応パターンがコマンドの実行順序と実行内容で定義されている。
訓練結果評価部38は、登録対応方法56に定義されたコマンドの実行順序と実行内容と、訓練履歴44に保存した今回の障害対応方法とを比較判定する。
<Step S113: Correspondence method Matching degree determination>
The training result evaluation unit 38 determines whether or not the failure handling method and the registration handling method match. When the failure response method and the registration response method do not match, the update unit 309 registers the failure response method in the failure information 42 as the registration response method. Specifically, the training result evaluation unit 38 compares the registration response method stored in the failure information 42 with the current failure response method stored in the training history 44, and determines the degree of agreement.
FIG. 17 is a diagram showing an example of the registration handling method 56 of the failure information 42 according to the present embodiment.
In the registration response method 56, the failure response pattern is defined by the command execution order and the execution content.
The training result evaluation unit 38 compares and determines the execution order and execution contents of the commands defined in the registration response method 56 with the current failure response method stored in the training history 44.

図18は、本実施の形態に係るコマンド実行のログの例を示す図である。
図19は、本実施の形態に係る訓練履歴44に保存した今回の障害対応方法58の一例を示す図である。
図20は、本実施の形態に係る訓練履歴44に保存した今回の障害対応方法58aの他例を示す図である。
訓練結果評価部38は、図18に示すようなコマンド実行のログを取得しておく。そして、訓練結果評価部38は、実行されたコマンドを図19に示すように訓練履歴44に記録する。訓練結果評価部38は、図17と図19を比較することで、対応方法の一致度を判定する。図17と図19の例では、実行順序と実行内容が全て一致している。一方、訓練履歴44に保存した今回の障害対応方法が図20の場合、図17と図20とを比較すると、実行順序が一部異なる。この場合は、訓練結果評価部38は、一部不一致と判定する。また、実行順序と実行内容が全く異なる場合は、訓練結果評価部38は、完全不一致と判定する。全て一致していると判定した場合は、ステップS115に移行する。一部不一致、あるいは、完全不一致と判定した場合は、原因特定も障害復旧も障害対応基準時間内で正しくできた上で障害に対する新しい対応方法が見つかったことを意味し、ステップS114に移行する。
FIG. 18 is a diagram showing an example of a command execution log according to the present embodiment.
FIG. 19 is a diagram showing an example of the current failure handling method 58 stored in the training history 44 according to the present embodiment.
FIG. 20 is a diagram showing another example of the current failure handling method 58a stored in the training history 44 according to the present embodiment.
The training result evaluation unit 38 acquires a log of command execution as shown in FIG. Then, the training result evaluation unit 38 records the executed command in the training history 44 as shown in FIG. The training result evaluation unit 38 determines the degree of agreement between the corresponding methods by comparing FIGS. 17 and 19. In the examples of FIGS. 17 and 19, the execution order and the execution contents are all the same. On the other hand, when the failure handling method of this time stored in the training history 44 is FIG. 20, when FIG. 17 and FIG. 20 are compared, the execution order is partially different. In this case, the training result evaluation unit 38 determines that there is a partial disagreement. If the execution order and the execution contents are completely different, the training result evaluation unit 38 determines that they are completely inconsistent. If it is determined that all of them match, the process proceeds to step S115. If it is determined that there is a partial disagreement or a complete disagreement, it means that the cause can be identified and the failure recovery can be performed correctly within the failure response reference time, and then a new response method for the failure has been found, and the process proceeds to step S114.

<ステップS114:対応方法新規登録>
障害情報更新部39は、訓練履歴44に保存した今回の障害対応方法を取得し、障害情報42の登録対応方法として新規で追加登録する。
図21は、本実施の形態に係る障害情報42において今回の障害対応方法を対応パターン2として新規登録した例を示す図である。
<Step S114: Correspondence method new registration>
The failure information update unit 39 acquires the current failure response method saved in the training history 44, and newly additionally registers the failure information 42 as a registration response method.
FIG. 21 is a diagram showing an example in which the current failure handling method is newly registered as the handling pattern 2 in the failure information 42 according to the present embodiment.

<ステップS115:運用者スキル更新>
運用者情報更新部391は、ステップS108、ステップS109、ステップS110、およびステップS111の結果から運用者のスキルを判定し、運用者情報43を更新する。
図22は、本実施の形態に係る運用判定基準表57を示す図である。
運用者情報更新部391は、運用判定基準表57に従って、運用者情報43を更新する。
図22では、運用者10015が対応妥当性の評価が正、障害復旧の成否評価が成、および訓練フォローの要否が否であった場合、運用者10015の対応可能障害難易度をレベルアップすると設定されている。よって、運用者10015の現在の対応可能障害難易度が図8に示すように低の場合は、現在の低からレベルアップして中となる。このように、運用者情報更新部391は、運用者情報43の運用者スキル一覧の対応可能障害難易度を更新する。
<Step S115: Operator skill update>
The operator information update unit 391 determines the skill of the operator from the results of steps S108, S109, S110, and S111, and updates the operator information 43.
FIG. 22 is a diagram showing an operation determination standard table 57 according to the present embodiment.
The operator information update unit 391 updates the operator information 43 according to the operation determination standard table 57.
In FIG. 22, when the operator 10015 evaluates the response validity as correct, the failure recovery success / failure evaluation is successful, and the necessity of training follow-up is negative, the operator 10015 can raise the level of the responseable failure difficulty level. It has been set. Therefore, when the current manageable obstacle difficulty level of the operator 10015 is low as shown in FIG. 8, the level is raised from the current low level to the middle level. In this way, the operator information update unit 391 updates the available failure difficulty level of the operator skill list of the operator information 43.

なお、ステップS101からステップS104の一連の動作、およびステップS106からステップS115の一連の動作に関する実行内容および実行順序はあくまで一例であり、必ずしも上述の実施例に限るものではない。 It should be noted that the execution contents and the execution order regarding the series of operations from step S101 to step S104 and the series of operations from step S106 to step S115 are merely examples, and are not necessarily limited to the above-described embodiment.

***ハードウェア構成の説明***
図23は、本実施の形態に係る障害対応訓練装置20のハードウェア構成を示す図である。
障害対応訓練装置20は、コンピュータである。障害対応訓練装置20は、プロセッサ910を備えるとともに、メモリ921、補助記憶装置922、入力インタフェース930、出力インタフェース940、および通信装置950といった他のハードウェアを備える。プロセッサ910は、信号線を介して他のハードウェアと接続され、これら他のハードウェアを制御する。
*** Explanation of hardware configuration ***
FIG. 23 is a diagram showing a hardware configuration of the failure response training device 20 according to the present embodiment.
The fault handling training device 20 is a computer. The fault handling training device 20 includes a processor 910 and other hardware such as a memory 921, an auxiliary storage device 922, an input interface 930, an output interface 940, and a communication device 950. The processor 910 is connected to other hardware via a signal line and controls these other hardware.

障害対応訓練装置20は、機能要素として、選択部301、影響予測部33、訓練実行部34、訓練内容記録部35、原因取得部36、原因評価取得部37、訓練結果評価部38、および更新部309を備える。選択部301、影響予測部33、訓練実行部34、訓練内容記録部35、原因取得部36、原因評価取得部37、訓練結果評価部38、および更新部309の機能を訓練装置30の機能という。また、システム情報41、障害情報42、運用者情報43、および訓練履歴44は、メモリ921に備えられる。システム情報41、障害情報42、運用者情報43、および訓練履歴44の機能を情報保存装置40の機能という。 The failure response training device 20 has, as functional elements, a selection unit 301, an impact prediction unit 33, a training execution unit 34, a training content recording unit 35, a cause acquisition unit 36, a cause evaluation acquisition unit 37, a training result evaluation unit 38, and an update. A unit 309 is provided. The functions of the selection unit 301, the impact prediction unit 33, the training execution unit 34, the training content recording unit 35, the cause acquisition unit 36, the cause evaluation acquisition unit 37, the training result evaluation unit 38, and the update unit 309 are referred to as the functions of the training device 30. .. Further, the system information 41, the failure information 42, the operator information 43, and the training history 44 are provided in the memory 921. The functions of the system information 41, the failure information 42, the operator information 43, and the training history 44 are referred to as the functions of the information storage device 40.

訓練装置30の機能は、ソフトウェアにより実現される。情報保存装置40は、メモリ921に備えられる。 The function of the training device 30 is realized by software. The information storage device 40 is provided in the memory 921.

プロセッサ910は、障害対応訓練プログラムを実行する装置である。障害対応訓練プログラムは、訓練装置30の機能を実現するプログラムである。
プロセッサ910は、演算処理を行うIC(Integrated Circuit)である。プロセッサ910の具体例は、CPU、DSP(Digital Signal Processor)、GPU(Graphics Processing Unit)である。
The processor 910 is a device that executes a failure response training program. The failure response training program is a program that realizes the functions of the training device 30.
The processor 910 is an IC (Integrated Circuit) that performs arithmetic processing. Specific examples of the processor 910 are a CPU, a DSP (Digital Signal Processor), and a GPU (Graphics Processing Unit).

メモリ921は、データを一時的に記憶する記憶装置である。メモリ921の具体例は、SRAM(Static Random Access Memory)、あるいはDRAM(Dynamic Random Access Memory)である。
補助記憶装置922は、データを保管する記憶装置である。補助記憶装置922の具体例は、HDDである。また、補助記憶装置922は、SD(登録商標)メモリカード、CF、NANDフラッシュ、フレキシブルディスク、光ディスク、コンパクトディスク、ブルーレイ(登録商標)ディスク、DVDといった可搬記憶媒体であってもよい。なお、HDDは、Hard Disk Driveの略語である。SD(登録商標)は、Secure Digitalの略語である。CFは、CompactFlash(登録商標)の略語である。DVDは、Digital Versatile Diskの略語である。
The memory 921 is a storage device that temporarily stores data. A specific example of the memory 921 is a SRAM (Static Random Access Memory) or a DRAM (Dynamic Random Access Memory).
The auxiliary storage device 922 is a storage device for storing data. A specific example of the auxiliary storage device 922 is an HDD. Further, the auxiliary storage device 922 may be a portable storage medium such as an SD (registered trademark) memory card, CF, NAND flash, flexible disk, optical disk, compact disc, Blu-ray (registered trademark) disk, or DVD. HDD is an abbreviation for Hard Disk Drive. SD (registered trademark) is an abbreviation for Secure Digital. CF is an abbreviation for CompactFlash®. DVD is an abbreviation for Digital Versaille Disk.

入力インタフェース930は、マウス、キーボード、あるいはタッチパネルといった入力装置と接続されるポートである。入力インタフェース930は、具体的には、USB(Universal Serial Bus)端子である。なお、入力インタフェース930は、LAN(Local Area Network)と接続されるポートであってもよい。
出力インタフェース940は、ディスプレイといった出力機器のケーブルが接続されるポートである。出力インタフェース940は、具体的には、USB端子またはHDMI(登録商標)(High Definition Multimedia Interface)端子である。ディスプレイは、具体的には、LCD(Liquid Crystal Display)である。
The input interface 930 is a port connected to an input device such as a mouse, a keyboard, or a touch panel. Specifically, the input interface 930 is a USB (Universal Serial Bus) terminal. The input interface 930 may be a port connected to a LAN (Local Area Network).
The output interface 940 is a port to which a cable of an output device such as a display is connected. Specifically, the output interface 940 is a USB terminal or an HDMI (registered trademark) (High Definition Multimedia Interface) terminal. Specifically, the display is an LCD (Liquid Crystal Display).

通信装置950は、レシーバとトランスミッタを有する。通信装置950は、LAN、インターネット、あるいは電話回線といった通信網に接続している。通信装置950は、具体的には、通信チップまたはNIC(Network Interface Card)である。 The communication device 950 has a receiver and a transmitter. The communication device 950 is connected to a communication network such as a LAN, the Internet, or a telephone line. Specifically, the communication device 950 is a communication chip or a NIC (Network Interface Card).

障害対応訓練プログラムは、プロセッサ910に読み込まれ、プロセッサ910によって実行される。メモリ921には、障害対応訓練プログラムだけでなく、OS(Operating System)も記憶されている。プロセッサ910は、OSを実行しながら、障害対応訓練プログラムを実行する。障害対応訓練プログラムおよびOSは、補助記憶装置922に記憶されていてもよい。補助記憶装置922に記憶されている障害対応訓練プログラムおよびOSは、メモリ921にロードされ、プロセッサ910によって実行される。なお、障害対応訓練プログラムの一部または全部がOSに組み込まれていてもよい。 The fault handling training program is read into the processor 910 and executed by the processor 910. In the memory 921, not only the failure response training program but also the OS (Operating System) is stored. The processor 910 executes a failure response training program while executing the OS. The fault response training program and the OS may be stored in the auxiliary storage device 922. The fault handling training program and the OS stored in the auxiliary storage device 922 are loaded into the memory 921 and executed by the processor 910. In addition, a part or all of the trouble response training program may be incorporated in the OS.

障害対応訓練装置20は、プロセッサ910を代替する複数のプロセッサを備えていてもよい。これら複数のプロセッサは、障害対応訓練プログラムの実行を分担する。それぞれのプロセッサは、プロセッサ910と同じように、障害対応訓練プログラムを実行する装置である。 The fault handling training device 20 may include a plurality of processors that replace the processor 910. These multiple processors share the execution of the fault response training program. Each processor, like the processor 910, is a device that executes a fault handling training program.

障害対応訓練プログラムにより利用、処理または出力されるデータ、情報、信号値および変数値は、メモリ921、補助記憶装置922、または、プロセッサ910内のレジスタあるいはキャッシュメモリに記憶される。 The data, information, signal values and variable values used, processed or output by the fault handling training program are stored in the memory 921, the auxiliary storage device 922, or the register or cache memory in the processor 910.

訓練装置30の各部の「部」を「処理」、「手順」あるいは「工程」に読み替えてもよい。また訓練装置30の各部の「処理」を「プログラム」、「プログラムプロダクト」または「プログラムを記録したコンピュータ読取可能な記憶媒体」に読み替えてもよい。
障害対応訓練プログラムは、上述の各部の「部」を「処理」、「手順」あるいは「工程」に読み替えた各処理、各手順あるいは各工程を、コンピュータに実行させる。また、障害対応訓練方法は、障害対応訓練装置20が障害対応訓練プログラムを実行することにより行われる方法である。
障害対応訓練プログラムは、コンピュータ読取可能な記録媒体に格納されて提供されてもよい。また、障害対応訓練プログラムは、プログラムプロダクトとして提供されてもよい。
The "part" of each part of the training device 30 may be read as "processing", "procedure" or "process". Further, the "processing" of each part of the training device 30 may be read as "program", "program product", or "computer-readable storage medium on which the program is recorded".
In the trouble response training program, the computer is made to execute each process, each procedure or each process in which the "part" of each of the above-mentioned parts is read as "process", "procedure" or "process". Further, the failure response training method is a method performed by the failure response training device 20 executing a failure response training program.
The fault handling training program may be stored and provided on a computer-readable recording medium. The disability response training program may also be provided as a program product.

***他の構成***
本実施の形態では、訓練装置30の機能がソフトウェアで実現される。変形例として、訓練装置30の機能がハードウェアで実現されてもよい。
訓練装置30の機能がハードウェアで実現される場合、障害対応訓練装置20は、プロセッサに替えて電子回路を備える。
*** Other configurations ***
In this embodiment, the function of the training device 30 is realized by software. As a modification, the function of the training device 30 may be realized by hardware.
When the function of the training device 30 is realized by hardware, the failure handling training device 20 includes an electronic circuit instead of the processor.

電子回路は、訓練装置30の機能を実現する専用の電子回路である。
電子回路は、具体的には、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ロジックIC、GA、ASIC、または、FPGAである。GAは、Gate Arrayの略語である。ASICは、Application Specific Integrated Circuitの略語である。FPGAは、Field-Programmable Gate Arrayの略語である。
訓練装置30の機能は、1つの電子回路で実現されてもよいし、複数の電子回路に分散して実現されてもよい。
別の変形例として、訓練装置30の一部の機能が電子回路で実現され、残りの機能がソフトウェアで実現されてもよい。
The electronic circuit is a dedicated electronic circuit that realizes the function of the training device 30.
The electronic circuit is specifically a single circuit, a composite circuit, a programmed processor, a parallel programmed processor, a logic IC, a GA, an ASIC, or an FPGA. GA is an abbreviation for Gate Array. ASIC is an abbreviation for Application Specific Integrated Circuit. FPGA is an abbreviation for Field-Programmable Gate Array.
The function of the training device 30 may be realized by one electronic circuit, or may be distributed and realized by a plurality of electronic circuits.
As another modification, some functions of the training device 30 may be realized by an electronic circuit, and the remaining functions may be realized by software.

プロセッサと電子回路の各々は、プロセッシングサーキットリとも呼ばれる。つまり、障害対応訓練装置20において、訓練装置30の機能は、プロセッシングサーキットリにより実現される。 Each of the processor and the electronic circuit is also called a processing circuit. That is, in the fault handling training device 20, the function of the training device 30 is realized by the processing circuit.

***本実施の形態の効果の説明***
本実施の形態に係る障害対応訓練装置では、効率的な運用者の障害対応スキル向上が見込まれるという効果がある。近年のビジネススピードの向上に対応するため、短期間で効率的な運用者の障害対応スキル向上が必要となっている。本実施の形態に係る障害対応訓練装置によれば、運用者の障害対応スキルに合わせて障害を選び、また本番環境という実際の障害対応に近い状態で訓練を実施するため、効率的に運用者の訓練を行うことができる。
*** Explanation of the effect of this embodiment ***
The failure response training device according to the present embodiment has an effect that an efficient operator's failure response skill improvement is expected. In order to respond to the recent improvement in business speed, it is necessary to improve the trouble handling skills of operators efficiently in a short period of time. According to the failure response training device according to the present embodiment, the failure is selected according to the failure response skill of the operator, and the training is carried out in a state close to the actual failure response in the production environment, so that the operator is efficient. Can be trained.

また、本実施の形態に係る障害対応訓練装置によれば、障害対応方法のノウハウを蓄積することができる。本実施の形態に係る障害対応訓練装置によれば、障害と障害対応方法の対応パターンを蓄積できる。このような情報を、本物の障害発生時に提示することで、迅速な解決に活用可能である。 Further, according to the failure response training device according to the present embodiment, know-how of the failure response method can be accumulated. According to the failure response training device according to the present embodiment, it is possible to accumulate correspondence patterns between failures and failure response methods. By presenting such information when a real failure occurs, it can be utilized for prompt resolution.

また、本実施の形態に係る障害対応訓練装置によれば、運用者情報を運用シフトの最適化に利用できる。本実施の形態に係る運用者情報を障害対応スキルのデータを用いることで、最適な運用シフトを作成することに活用可能である。 Further, according to the failure response training device according to the present embodiment, the operator information can be used for optimizing the operation shift. By using the operator information related to this embodiment using the data of the failure response skill, it is possible to utilize it for creating the optimum operation shift.

以上のように、本実施の形態に係る障害対応訓練装置では、運用者情報および障害情報を保存し、これらの情報を随時更新することで、運用者の障害対応スキルを適切に評価することができる。本実施の形態に係る障害対応訓練装置では、定型作業という決められた方法で実施する作業に対して評価するだけでなく、障害対応に対する非定型作業を評価することができる。非定型作業である障害対応方法は1つとは限らないため、新しい障害対応方法が訓練時に見つかるケースもある。
本実施の形態に係る障害対応訓練装置によれば、障害復旧できたか、および、原因特定が正しくできたかといった重要ポイントの評価と、障害対応方法の評価を組み合わせて評価することができる。また新しく見つかった障害対応方法を、随時、新規登録パターンとして更新していくことができる。
As described above, in the failure response training device according to the present embodiment, the operator's failure response skill can be appropriately evaluated by storing the operator information and the failure information and updating these information as needed. can. In the failure response training device according to the present embodiment, it is possible to evaluate not only the work performed by the predetermined method of routine work but also the atypical work for failure response. Since there is not always one troubleshooting method that is an atypical work, there are cases where a new troubleshooting method is found during training.
According to the failure response training device according to the present embodiment, it is possible to evaluate by combining the evaluation of important points such as whether the failure was recovered and whether the cause was correctly identified and the evaluation of the failure response method. In addition, the newly found troubleshooting method can be updated as a new registration pattern at any time.

以上の実施の形態1では、障害対応訓練装置の各部を独立した機能ブロックとして説明した。しかし、障害対応訓練装置の構成は、上述した実施の形態のような構成でなくてもよい。障害対応訓練装置の機能ブロックは、上述した実施の形態で説明した機能を実現することができれば、どのような構成でもよい。また、障害対応訓練装置は、1つの装置でなく、複数の装置から構成されたシステムでもよい。
また、実施の形態1のうち、複数の部分を組み合わせて実施しても構わない。あるいは、この実施の形態のうち、1つの部分を実施しても構わない。その他、この実施の形態を、全体としてあるいは部分的に、どのように組み合わせて実施しても構わない。
すなわち、実施の形態1では、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
In the above-described first embodiment, each part of the failure response training device has been described as an independent functional block. However, the configuration of the failure response training device does not have to be the configuration as in the above-described embodiment. The functional block of the failure response training device may have any configuration as long as it can realize the functions described in the above-described embodiment. Further, the failure response training device may be a system composed of a plurality of devices instead of one device.
Further, in the first embodiment, a plurality of parts may be combined and carried out. Alternatively, one part of this embodiment may be implemented. In addition, this embodiment may be implemented in any combination as a whole or partially.
That is, in the first embodiment, it is possible to freely combine each embodiment, modify any component of each embodiment, or omit any component in each embodiment.

なお、上述した実施の形態は、本質的に好ましい例示であって、本発明の範囲、本発明の適用物の範囲、および本発明の用途の範囲を制限することを意図するものではない。上述した実施の形態は、必要に応じて種々の変更が可能である。 It should be noted that the embodiments described above are essentially preferred examples and are not intended to limit the scope of the invention, the scope of application of the invention, and the scope of use of the invention. The above-described embodiment can be variously modified as needed.

10 運用システム、20 障害対応訓練装置、30 訓練装置、301 選択部、31 訓練内容選択部、32 対応可否判定部、33 影響予測部、34 訓練実行部、35 訓練内容記録部、36 原因取得部、37 原因評価取得部、38 訓練結果評価部、39 障害情報更新部、391 運用者情報更新部、309 更新部、41 システム情報、42 障害情報、43 運用者情報、44 訓練履歴、40 情報保存装置、50 運用監視装置、51 候補リスト、52,52a 障害対応情報入力画面、53 正解表、54 重要ポイント一覧、55 訓練フォロー基準表、56 登録対応方法、57 運用判定基準表、58,58a 障害対応方法、60 運用者端末、61 運用者、71 訓練用障害、72 訓練通知、73 障害対応情報、74 評価結果、500 障害対応訓練システム、910 プロセッサ、921 メモリ、922 補助記憶装置、930 入力インタフェース、940 出力インタフェース、950 通信装置。 10 Operation system, 20 Failure response training device, 30 Training device, 301 Selection section, 31 Training content selection section, 32 Response availability judgment section, 33 Impact prediction section, 34 Training execution section, 35 Training content recording section, 36 Cause acquisition section , 37 Cause evaluation acquisition department, 38 Training result evaluation department, 39 Failure information update department, 391 Operator information update department, 309 update department, 41 System information, 42 Failure information, 43 Operator information, 44 Training history, 40 Information storage Equipment, 50 Operation monitoring device, 51 Candidate list, 52, 52a Failure response information input screen, 53 Correct answer table, 54 Important point list, 55 Training follow-up standard table, 56 Registration response method, 57 Operation judgment standard table, 58, 58a Failure Response method, 60 Operator terminal, 61 Operator, 71 Training failure, 72 Training notification, 73 Failure response information, 74 Evaluation result, 500 Failure response training system, 910 processor, 921 memory, 922 auxiliary storage device, 930 input interface , 940 output interface, 950 communication device.

Claims (14)

運用者が運用する運用システムに障害を発生させることにより、前記運用者の障害対応訓練を行う障害対応訓練装置において、
前記運用者が対応可能な障害の難易度を含む運用者情報と、障害一覧と前記障害一覧に含まれる各障害の難易度とを含む障害情報とに基づいて、前記運用者の障害対応訓練として発生させる障害を訓練用障害として前記障害一覧から選択する選択部と、
前記運用システムの状況を表すシステム情報に基づいて、前記運用システムに前記訓練用障害を発生させた場合の前記運用システムへの影響が許容範囲以内か否かを判定する影響予測部と、
前記運用システムへの影響が許容範囲以内の場合に、前記運用システムに前記訓練用障害を発生させる訓練実行部と
を備えた障害対応訓練装置。
In the failure response training device that performs failure response training for the operator by causing a failure in the operation system operated by the operator.
As the operator's failure response training, based on the operator information including the difficulty level of the failure that the operator can handle and the failure information including the failure list and the difficulty level of each failure included in the failure list. A selection unit that selects the failure to be generated as a training failure from the failure list, and
An impact prediction unit that determines whether or not the impact on the operational system when a training failure occurs in the operational system is within an allowable range based on the system information indicating the status of the operational system.
A failure response training device provided with a training execution unit that causes the training failure in the operation system when the influence on the operation system is within an allowable range.
前記運用者情報は、前記運用者が有する障害対応スキルの種類を含み、
前記障害情報は、前記障害一覧に含まれる各障害の対応に必要なスキルの種類を含み、
前記選択部は、
前記必要なスキルの種類を前記運用者がすべて有している障害を前記訓練用障害として前記障害一覧から選択する請求項1に記載の障害対応訓練装置。
The operator information includes the types of failure handling skills possessed by the operator.
The failure information includes the types of skills required to deal with each failure included in the failure list.
The selection unit is
The failure response training device according to claim 1, wherein a failure in which the operator has all the necessary skill types is selected as the training failure from the failure list.
前記運用システムでは、前記運用システムの利用者に対して提供されるサービスのレベルがサービスレベル合意として設定されており、
前記影響予測部は、
前記運用システムに前記訓練用障害を発生させた場合に、前記利用者に対して提供されるサービスが前記サービスレベル合意を満たす場合に前記運用システムへの影響が許容範囲以内であると判定する請求項1または請求項2に記載の障害対応訓練装置。
In the operation system, the level of service provided to the user of the operation system is set as a service level agreement.
The impact prediction unit
A claim for determining that the influence on the operation system is within an allowable range when the service provided to the user satisfies the service level agreement when the training failure occurs in the operation system. The fault handling training device according to claim 1 or 2.
前記障害対応訓練装置は、
前記運用者による前記訓練用障害への障害対応が完了すると、前記障害対応を評価する評価結果を出力する訓練結果評価部と、
前記障害対応の内容を表す障害対応情報と前記評価結果とに基づいて、前記運用者情報について前記運用者が対応可能な障害の難易度を更新する更新部と
を備えた請求項1から請求項3のいずれか1項に記載の障害対応訓練装置。
The failure response training device is
When the operator completes the failure response to the training failure, the training result evaluation unit that outputs the evaluation result for evaluating the failure response, and the training result evaluation unit.
Claims 1 to claim 1 include a failure response information representing the content of the failure response and an update unit for updating the difficulty level of the failure that the operator can handle for the operator information based on the evaluation result. The fault handling training device according to any one of 3.
前記障害情報は、前記障害一覧に含まれる各障害への対応方法を登録対応方法として含み、
前記更新部は、
前記障害対応情報と前記評価結果とに基づいて、前記障害情報に含まれる前記登録対応方法を更新する請求項4に記載の障害対応訓練装置。
The failure information includes a method for dealing with each failure included in the list of failures as a registration response method.
The update part
The failure response training device according to claim 4, wherein the registration response method included in the failure information is updated based on the failure response information and the evaluation result.
前記障害対応訓練装置は、
前記訓練用障害への対応方法を障害対応方法として前記障害対応情報に設定し、前記障害対応情報を訓練履歴に保存する訓練内容記録部を備え、
前記訓練結果評価部は、
前記障害対応方法と前記登録対応方法とが一致するか否かを判定し、
前記更新部は、
前記障害対応方法と前記登録対応方法とが一致しない場合に、前記障害対応方法を前記登録対応方法として前記障害情報に登録する請求項5に記載の障害対応訓練装置。
The failure response training device is
The training content recording unit is provided, in which the method for dealing with a training failure is set in the failure response information as the failure response method, and the failure response information is stored in the training history.
The training result evaluation unit
It is determined whether or not the failure handling method and the registration handling method match.
The update part
The failure response training device according to claim 5, wherein when the failure response method and the registration response method do not match, the failure response method is registered in the failure information as the registration response method.
前記障害対応訓練装置は、
前記運用者から、前記訓練用障害の原因と前記障害対応における重要ポイントとを含む前記障害対応情報を取得する原因取得部を備え、
前記訓練結果評価部は、
前記原因取得部により取得された前記障害対応情報に基づいて、前記運用者の前記障害対応の妥当性の評価を含む前記評価結果を出力する請求項4から請求項6のいずれか1項に記載の障害対応訓練装置。
The failure response training device is
A cause acquisition unit for acquiring the failure response information including the cause of the training failure and important points in the failure response from the operator is provided.
The training result evaluation unit
The item according to any one of claims 4 to 6, which outputs the evaluation result including the evaluation of the validity of the failure response of the operator based on the failure response information acquired by the cause acquisition unit. Failure response training device.
前記障害対応訓練装置は、
前記運用者から、前記訓練用障害の原因と前記障害対応における重要ポイントとを含む前記障害対応情報を取得する原因取得部と、
前記原因取得部により取得された前記障害対応情報に基づいて、前記運用者による前記障害対応の妥当性の評価を前記運用者から取得する原因評価取得部と
を備え、
前記訓練結果評価部は、
前記原因評価取得部により取得された前記妥当性の評価を含む前記評価結果を出力する請求項4から請求項6のいずれか1項に記載の障害対応訓練装置。
The failure response training device is
A cause acquisition unit for acquiring the failure response information including the cause of the training failure and important points in the failure response from the operator.
A cause evaluation acquisition unit for acquiring the validity evaluation of the failure response by the operator based on the failure response information acquired by the cause acquisition unit is provided.
The training result evaluation unit
The failure response training device according to any one of claims 4 to 6, which outputs the evaluation result including the validity evaluation acquired by the cause evaluation acquisition unit.
前記訓練結果評価部は、
前記運用システムの復旧の成否の評価を行い、前記運用システムの復旧の成否の評価を前記評価結果に含める請求項4から請求項8のいずれか1項に記載の障害対応訓練装置。
The training result evaluation unit
The failure response training device according to any one of claims 4 to 8, which evaluates the success or failure of the restoration of the operation system and includes the evaluation of the success or failure of the restoration of the operation system in the evaluation result.
前記訓練結果評価部は、
前記障害対応にかけた障害対応時間の評価を行い、前記障害対応時間の評価を前記評価結果に含める請求項4から請求項9のいずれか1項に記載の障害対応訓練装置。
The training result evaluation unit
The failure response training device according to any one of claims 4 to 9, wherein the failure response time applied to the failure response is evaluated and the evaluation of the failure response time is included in the evaluation result.
前記障害対応訓練装置は、
前記評価結果と、前記運用者に対する訓練フォローの要否と、前記訓練フォローの内容とを対応付けた訓練フォロー基準表を備え、
前記訓練結果評価部は、
前記訓練フォロー基準表を用いて、前記運用者に対する訓練フォローが必要か否かを判定し、前記運用者に対する訓練フォローが必要と判定されると、前記訓練フォローの内容に従って前記訓練フォローを行う請求項4から請求項10のいずれか1項に記載の障害対応訓練装置。
The failure response training device is
A training follow-up standard table is provided in which the evaluation result, the necessity of training follow-up for the operator, and the content of the training follow-up are associated with each other.
The training result evaluation unit
Using the training follow-up standard table, it is determined whether or not the training follow-up for the operator is necessary, and if it is determined that the training follow-up for the operator is necessary, the request for performing the training follow-up according to the content of the training follow-up. The fault handling training device according to any one of claims 4 to 10.
前記訓練実行部は、
前記運用システムに前記訓練用障害を発生させる際に、前記運用者に対して訓練であることを通知する訓練通知を送信する請求項1から請求項11のいずれか1項に記載の障害対応訓練装置。
The training execution unit
The failure handling training according to any one of claims 1 to 11, wherein a training notification is transmitted to notify the operator that the training is to be performed when the training failure is generated in the operation system. Device.
運用者が運用する運用システムに障害を発生させることにより、前記運用者の障害対応訓練を行う障害対応訓練装置の障害対応訓練方法において、
選択部が、前記運用者が対応可能な障害の難易度を含む運用者情報と、障害一覧と前記障害一覧に含まれる各障害の難易度とを含む障害情報とに基づいて、前記運用者の障害対応訓練として発生させる障害を訓練用障害として前記障害一覧から選択し、
影響予測部が、前記運用システムの状況を表すシステム情報に基づいて、前記運用システムに前記訓練用障害を発生させた場合の前記運用システムへの影響が許容範囲以内か否かを判定し、
訓練実行部が、前記運用システムへの影響が許容範囲以内の場合に、前記運用システムに前記訓練用障害を発生させる障害対応訓練方法。
In the failure response training method of the failure response training device that performs failure response training for the operator by causing a failure in the operation system operated by the operator.
The selection unit of the operator is based on the operator information including the difficulty level of the failure that the operator can handle and the failure information including the failure list and the difficulty level of each failure included in the failure list. Select the disability to be generated as a disability response training as a training disability from the above disability list, and select it.
The impact prediction unit determines whether or not the impact on the operational system when the training failure occurs in the operational system is within the allowable range based on the system information indicating the status of the operational system.
A failure response training method in which the training execution unit causes the training failure in the operation system when the influence on the operation system is within an allowable range.
運用者が運用する運用システムに障害を発生させることにより、前記運用者の障害対応訓練を行う障害対応訓練装置の障害対応訓練プログラムにおいて、
前記運用者が対応可能な障害の難易度を含む運用者情報と、障害一覧と前記障害一覧に含まれる各障害の難易度とを含む障害情報とに基づいて、前記運用者の障害対応訓練として発生させる障害を訓練用障害として前記障害一覧から選択する選択処理と、
前記運用システムの状況を表すシステム情報に基づいて、前記運用システムに前記訓練用障害を発生させた場合の前記運用システムへの影響が許容範囲以内か否かを判定する影響予測処理と、
前記運用システムへの影響が許容範囲以内の場合に、前記運用システムに前記訓練用障害を発生させる訓練実行処理と
をコンピュータである前記障害対応訓練装置に実行させる障害対応訓練プログラム。
In the failure response training program of the failure response training device that performs failure response training for the operator by causing a failure in the operation system operated by the operator.
As the operator's failure response training, based on the operator information including the difficulty level of the failure that the operator can handle and the failure information including the failure list and the difficulty level of each failure included in the failure list. A selection process that selects the failure to be generated as a training failure from the failure list, and
Based on the system information indicating the status of the operational system, the impact prediction process for determining whether or not the impact on the operational system when the training failure occurs in the operational system is within the allowable range, and
A failure response training program that causes the failure response training device, which is a computer, to execute a training execution process for causing the training failure in the operation system when the influence on the operation system is within an allowable range.
JP2018115809A 2018-06-19 2018-06-19 Fault response training equipment, fault response training methods and fault response training programs Active JP7034014B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018115809A JP7034014B2 (en) 2018-06-19 2018-06-19 Fault response training equipment, fault response training methods and fault response training programs

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018115809A JP7034014B2 (en) 2018-06-19 2018-06-19 Fault response training equipment, fault response training methods and fault response training programs

Publications (2)

Publication Number Publication Date
JP2019219473A JP2019219473A (en) 2019-12-26
JP7034014B2 true JP7034014B2 (en) 2022-03-11

Family

ID=69096541

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018115809A Active JP7034014B2 (en) 2018-06-19 2018-06-19 Fault response training equipment, fault response training methods and fault response training programs

Country Status (1)

Country Link
JP (1) JP7034014B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020123043A (en) * 2019-01-29 2020-08-13 日本電信電話株式会社 Estimation method and estimation device and estimation program
CN115064042A (en) * 2022-06-29 2022-09-16 河南赛伦交通科技有限公司 Intelligent circuit fault setting system and method based on railway electric signal principle

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004333550A (en) 2003-04-30 2004-11-25 Tokyo Electric Power Co Inc:The Training support system
JP2014149450A (en) 2013-02-01 2014-08-21 Chugoku Electric Power Co Inc:The Fault corresponding training system and fault corresponding training method
US8910294B1 (en) 2013-12-18 2014-12-09 State Farm Mutual Automobile Insurance Company System and method for application failure testing in a cloud computing environment
JP2017135563A (en) 2016-01-27 2017-08-03 富士通株式会社 Test device, network system, and test method
US9824000B1 (en) 2015-10-21 2017-11-21 Amazon Technologies, Inc. Testing calling code dynamically with random error injection based on user-specified configuration

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007094210A (en) * 2005-09-29 2007-04-12 Chugoku Electric Power Co Inc:The Education system, method and program

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004333550A (en) 2003-04-30 2004-11-25 Tokyo Electric Power Co Inc:The Training support system
JP2014149450A (en) 2013-02-01 2014-08-21 Chugoku Electric Power Co Inc:The Fault corresponding training system and fault corresponding training method
US8910294B1 (en) 2013-12-18 2014-12-09 State Farm Mutual Automobile Insurance Company System and method for application failure testing in a cloud computing environment
US9824000B1 (en) 2015-10-21 2017-11-21 Amazon Technologies, Inc. Testing calling code dynamically with random error injection based on user-specified configuration
JP2017135563A (en) 2016-01-27 2017-08-03 富士通株式会社 Test device, network system, and test method

Also Published As

Publication number Publication date
JP2019219473A (en) 2019-12-26

Similar Documents

Publication Publication Date Title
US9940227B2 (en) Identifying severity of test execution failures by analyzing test execution logs
US9049105B1 (en) Systems and methods for tracking and managing event records associated with network incidents
US8201019B2 (en) Data storage device in-situ self test, repair, and recovery
JP7034014B2 (en) Fault response training equipment, fault response training methods and fault response training programs
US11106524B1 (en) Resolving technology issues
CN114675791B (en) Disk processing method and system and electronic equipment
CN110704228A (en) Solid state disk exception handling method and system
US9940211B2 (en) Resource system management
JP2006119848A (en) Software update program, software update device and software update method
CN111130856A (en) Server configuration method, system, equipment and computer readable storage medium
Chan et al. Debugging incidents in Google's distributed systems
US20220035691A1 (en) Techniques for utilizing disruptions to enterprise systems
US20140101309A1 (en) Dynamic and selective management of integration points using performance metrics
JP2007068090A (en) Network device monitor system and monitoring method, and program therefor
JP2017138863A (en) Information processing device and information processing program
JP2018169920A (en) Management device, management method and management program
JP4530645B2 (en) Computer system monitoring apparatus and monitoring method
US11704164B1 (en) Intelligent and automatic load balancing of workloads on replication appliances based on appliance load scores
WO2024135322A1 (en) Failure handling device, system, method, and program
JP2009211605A (en) Cause analysis operation assisting system and cause analysis operation assisting method in fault cause analysis operation, and program for the same
Chan et al. Debugging Incidents in Google’s Distributed Systems: How experts debug production issues in complex distributed systems
WO2014038109A1 (en) Notification information display processing device, notification information display method, and program
JP5788120B1 (en) Project success diagnosis device
CN115827289A (en) Fault handling method, electronic device and program product
JP5788119B1 (en) Project success diagnosis device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210311

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220126

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220301

R150 Certificate of patent or registration of utility model

Ref document number: 7034014

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150