JP7034014B2 - Fault response training equipment, fault response training methods and fault response training programs - Google Patents
Fault response training equipment, fault response training methods and fault response training programs Download PDFInfo
- Publication number
- JP7034014B2 JP7034014B2 JP2018115809A JP2018115809A JP7034014B2 JP 7034014 B2 JP7034014 B2 JP 7034014B2 JP 2018115809 A JP2018115809 A JP 2018115809A JP 2018115809 A JP2018115809 A JP 2018115809A JP 7034014 B2 JP7034014 B2 JP 7034014B2
- Authority
- JP
- Japan
- Prior art keywords
- failure
- training
- operator
- response
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明は、障害対応訓練装置、障害対応訓練方法および障害対応訓練プログラムに関する。 The present invention relates to a failure response training device, a failure response training method, and a failure response training program.
システム運用における障害対応訓練は、通常、運用開始前に実施される。多くのシステムでは、運用開始後の本番環境において、幅広い障害への定期訓練は実施されていない。そのため、人員の異動などにより、新たな運用者が配属される場合は、試験環境などで事前訓練を行うこととなる。実際の運用開始後には、試験環境と本番環境を同じに保つことは容易ではない。そのため、障害対応経験が少ない運用者が、本番環境における実際の障害に確実に対応できるとは限らない。よって、本番環境における障害対応の確実性を向上させるための技術が重要である。 Failure response training in system operation is usually conducted before the start of operation. In many systems, regular training for a wide range of disabilities is not carried out in the production environment after the start of operation. Therefore, if a new operator is assigned due to a change in personnel, etc., prior training will be conducted in a test environment or the like. After the actual operation starts, it is not easy to keep the test environment and the production environment the same. Therefore, an operator who has little experience in dealing with failures may not always be able to reliably deal with actual failures in the production environment. Therefore, technology for improving the certainty of troubleshooting in the production environment is important.
運用中のシステムに対して故意に障害を発生させて、障害復旧能力を自動試験するソフトウェアが開発されている。具体例には、Netflix社のChaos Monkeyがある。このソフトウェアは、クラウドサービス上の仮想マシンを無作為に選択して強制的に停止させる動作を繰り返して、対象サービスの障害からの復旧能力を試験する。
特許文献1では、システム利用者とのサービスレベル合意、すなわちSLA(Service Level Agreement)を下回らないことを確認してから、障害試験を行う方法が開示されている。SLAは、故意に障害を発生させる前に、ネットワークの性能あるいは使用状況といったシステムの状況を考慮して、品質への影響を算出することにより確認される。また、同様の観点から、システム状況に応じて障害発生を制御するソフトウェア、具体的にはNetflix社のChAPが発表されている。
Software has been developed that automatically tests the failure recovery capability by intentionally causing a failure in an operating system. A specific example is Chaos Monkey from Netflix. This software tests the ability of the target service to recover from a failure by repeating the operation of randomly selecting virtual machines on the cloud service and forcibly stopping them.
従来の技術は、実際に障害に対応する運用者および運用者の体制について考慮していない。このため、経験の浅い運用者しかいない時間帯に障害発生ソフトウェアが難易度の高い障害を発生させてしまった場合に、復旧に多くの時間を要してしまうといった理由でSLAを満たせなくなる。また、SLAを満たせなくなるような事態を避けるため、冗長化といった対策によってシステムが自動復旧できる障害に発生対象が限られてしまうと、運用者のスキルアップにつながらない。 The conventional technology does not consider the operator and the operator's system that actually responds to the failure. For this reason, if the failure-generating software causes a failure with a high degree of difficulty during a time period when only an inexperienced operator is available, the SLA cannot be satisfied because it takes a lot of time to recover. In addition, in order to avoid a situation where the SLA cannot be satisfied, if the target of occurrence is limited to the failure that the system can automatically recover by measures such as redundancy, it will not lead to the skill improvement of the operator.
この発明は、本番環境において、SLAを満たせなくなる危険性を低減し、かつ、運用者の障害対応スキルレベルに応じた効率のよい障害対応訓練を実現することを目的とする。 An object of the present invention is to reduce the risk of not being able to meet the SLA in a production environment, and to realize efficient failure response training according to the operator's failure response skill level.
本発明に係る障害対応訓練装置では、運用者が運用する運用システムに障害を発生させることにより、前記運用者の障害対応訓練を行う障害対応訓練装置において、
前記運用者が対応可能な障害の難易度を含む運用者情報と、障害一覧と前記障害一覧に含まれる各障害の難易度とを含む障害情報とに基づいて、前記運用者の障害対応訓練として発生させる障害を訓練用障害として前記障害一覧から選択する選択部と、
前記運用システムの状況を表すシステム情報に基づいて、前記運用システムに前記訓練用障害を発生させた場合の前記運用システムへの影響が許容範囲以内か否かを判定する影響予測部と、
前記運用システムへの影響が許容範囲以内の場合に、前記運用システムに前記訓練用障害を発生させる訓練実行部と
を備えた。
In the failure response training device according to the present invention, in the failure response training device that performs failure response training for the operator by causing a failure in the operation system operated by the operator.
As the operator's failure response training, based on the operator information including the difficulty level of the failure that the operator can handle and the failure information including the failure list and the difficulty level of each failure included in the failure list. A selection unit that selects the failure to be generated as a training failure from the failure list, and
An impact prediction unit that determines whether or not the impact on the operational system when a training failure occurs in the operational system is within an allowable range based on the system information indicating the status of the operational system.
The operation system is provided with a training execution unit that causes the training failure when the influence on the operation system is within an allowable range.
本発明に係る障害対応訓練装置によれば、運用システムへの影響を抑制しつつ、運用者のスキルアップにつながる適切な障害対応訓練を実行することができる。 According to the failure response training device according to the present invention, it is possible to execute appropriate failure response training that leads to improvement of the operator's skill while suppressing the influence on the operation system.
以下、本発明の実施の形態について、図を用いて説明する。なお、各図中、同一または相当する部分には、同一符号を付している。実施の形態の説明において、同一または相当する部分については、説明を適宜省略または簡略化する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. In each figure, the same or corresponding parts are designated by the same reference numerals. In the description of the embodiment, the description will be omitted or simplified as appropriate for the same or corresponding parts.
実施の形態1.
***構成の説明***
図1を用いて、本実施の形態に係る障害対応訓練システム500の構成について説明する。
障害対応訓練システム500は、運用システム10と、障害対応訓練装置20と、運用監視装置50と、運用者端末60とを有する。
運用システム10は、運用者61が運用対象とするシステムである。
障害対応訓練装置20は、運用者61が運用する運用システム10に訓練用障害71を発生させることにより、運用者の障害対応訓練を行う。障害対応訓練装置20は、訓練装置30と情報保存装置40とを有する。訓練装置30は、訓練用の障害、すなわち訓練用障害71の発生可否を判定し、判定結果に基づいて訓練用障害71を発生させる。情報保存装置40は、システム情報、訓練履歴、障害情報、および運用者情報といった情報を保存する。
運用監視装置50は、運用システム10に対して、監視といった運用処理を実行する。運用監視装置50は、常に運用システム10を監視しており、障害あるいは問題を検知した場合は、運用者端末60にメッセージを表示させる。
運用者端末60は、運用者61により用いられる端末である。運用者61は、運用者端末60を用いて、運用システム10の運用に関する情報の取得、あるいは運用システム10の運用のための操作を行う。また、運用者端末60は、運用監視装置50あるいは訓練装置30から得た情報を運用者61に表示する。
*** Explanation of configuration ***
The configuration of the failure response training system 500 according to the present embodiment will be described with reference to FIG. 1.
The failure response training system 500 includes an
The
The failure response training device 20 performs failure response training for the operator by generating a training failure 71 in the
The
The
図2を用いて、本実施の形態に係る訓練装置30と情報保存装置40の詳細な構成について説明する。
訓練装置30は、訓練内容選択部31、対応可否判定部32、影響予測部33、訓練実行部34、訓練内容記録部35、原因取得部36、原因評価取得部37、訓練結果評価部38、障害情報更新部39、および運用者情報更新部391を備える。訓練内容選択部31と対応可否判定部32とを合わせて選択部301とする。障害情報更新部39と運用者情報更新部391とを合わせて更新部309とする。
情報保存装置40は、システム情報41、障害情報42、運用者情報43、および訓練履歴44を備える。
A detailed configuration of the
The
The
選択部301は、運用者情報43と障害情報42とに基づいて、運用者の障害対応訓練として発生させる障害を訓練用障害71として障害一覧から選択する。
運用者情報43には、運用者が対応可能な障害の難易度が含まれる。また、運用者情報43には、運用者が有する障害対応スキルの種類が含まれる。
障害情報42には、障害一覧と障害一覧に含まれる各障害の難易度とが含まれる。また、障害情報42には、障害一覧に含まれる各障害の対応に必要なスキルの種類が含まれる。また、障害情報42には、障害一覧に含まれる各障害への対応方法が登録対応方法として含まれる。
Based on the
The
The
訓練内容選択部31は、運用者情報43から、現在在席している運用者を把握する。そして、訓練内容選択部31は、訓練履歴44から、運用者の過去の障害対応履歴を参照し、在席中の運用者に適切な訓練用障害を選択する。
対応可否判定部32は、在席中の運用者の障害対応スキルを、運用者情報43から取得する。対応可否判定部32は、訓練内容選択部31により選択された訓練用障害71について、障害対応に必要なスキルを障害情報42から取得する。対応可否判定部32は、在席中の運用者の障害対応スキルと、訓練用障害71の障害対応に必要なスキルとを照合し、訓練用障害71に運用者が対応可能かを判定する。
The training
The response
影響予測部33は、運用システム10の状況を表すシステム情報41に基づいて、運用システム10に訓練用障害71を発生させた場合の運用システム10への影響が許容範囲以内か否かを判定する。
運用システム10では、運用システム10の利用者に対して提供されるサービスのレベルがサービスレベル合意、すなわちSLAとして設定されている。影響予測部33は、運用システム10に訓練用障害71を発生させた場合に、利用者に対して提供されるサービスがSLAを満たす場合に、運用システム10への影響が許容範囲以内であると判定する。SLAに影響があると判定された場合、影響予測部33は、訓練を実施せず、訓練内容選択部31による訓練内容の選択に処理を戻す。SLAに影響がないと判定された場合、影響予測部33は、訓練実施可能と判定し、訓練実行部34に実行を指示する。
The
In the
訓練実行部34は、運用システム10への影響が許容範囲以内の場合に、運用システム10に訓練用障害71を発生させる。その際の実施例として、訓練を受ける対象の運用者が、本番同様の緊張感で障害対応できるように訓練であることを伏せて実行してもよい。また、訓練実行部34は、運用システム10に訓練用障害71を発生させる際に、運用者に対して訓練であることを通知する訓練通知を送信してもよい。また、本物の障害を発生させてもよいし、擬似的な障害警告のみを発生させてもよい。規定の基準時間を過ぎても障害対応がなされない場合は、強制的に訓練を終了し、運用者に通知してもよい。
訓練内容記録部35は、訓練用障害71への対応方法を障害対応方法として障害対応情報に設定し、障害対応情報を訓練履歴44に保存する。具体的には、訓練内容記録部35は、障害対応方法、障害対応時間、および運用者による訓練用障害71への見解といった情報を含む障害対応情報を訓練履歴44に記録する。
The
The training
原因取得部36は、運用者から、訓練用障害71の原因と障害対応における重要ポイントとを含む障害対応情報を取得する。原因取得部36は、訓練用障害71の原因と障害対応における重要ポイントとについて、運用者の判定結果および障害対応内容といった障害対応情報を取得し、訓練履歴44に保存する。原因取得部36による取得内容は、訓練結果評価部38において、障害対応に関する運用者の理解度を評価するために利用される。なお、原因取得部36による障害対応情報の取得は、具体例として、運用者により入力された障害対応情報を取得する構成でもよいし、あるいは外部のインシデント管理システムなどに記録された運用記録から取得する構成でもよい。
原因評価取得部37は、原因取得部36により取得された障害対応情報に基づいて、運用者による障害対応の妥当性の評価を運用者から取得する。すなわち、原因評価取得部37は、原因取得部36により取得された障害対応情報が正しいかを人手で評価を行う際に、人手で評価された内容を取得する。原因評価取得部37は、人手で評価された内容を訓練結果評価部38に出力する。訓練結果評価部38が人手を介さず自動で障害対応情報を評価する場合は、原因評価取得部37は省略することもできる。
The
The cause
訓練結果評価部38は、運用者による訓練用障害71への障害対応が完了すると、障害対応を評価する評価結果74を出力する。訓練結果評価部38は、訓練用障害71への障害対応に関する情報を、訓練履歴44あるいは原因評価取得部37より取得し、総合的に評価する。
When the training
更新部309は、障害対応の内容を表す障害対応情報と評価結果74とに基づいて、運用者情報43について運用者が対応可能な障害の難易度を更新する。また、更新部309は、障害対応情報と評価結果74とに基づいて、障害情報42に含まれる登録対応方法を更新する。
障害情報更新部39は、訓練結果評価部38の評価結果74、および訓練履歴44に保存された障害対応情報に基づいて、障害情報42を更新する。具体的には、訓練結果評価部38において障害復旧が問題なく行われたと評価された場合に、障害情報42の登録対応方法と、訓練履歴44の今回の訓練での障害対応方法とを比較する。これらの対応方法が不一致の場合は、障害情報更新部39は、新しい障害対応方法が見つかったと見なし、障害情報42に障害対応方法を新規登録する。あるいは、障害情報更新部39は、訓練履歴44の今回の障害対応にかかった時間をもとに、障害情報42の障害の難易度あるいはその他の情報を更新してもよい。
運用者情報更新部391は、訓練結果評価部38の評価結果74、訓練履歴44に保存された障害対応情報、および今回発生させた障害に関する障害情報42に基づいて、運用者情報43のスキル情報を更新する。
The update unit 309 updates the difficulty level of the failure that the operator can handle for the
The failure
The operator
システム情報41は、運用システム10のシステム状態情報、システム構成情報、およびシステム性能情報といった情報を保持するデータストアである。システム状態情報は、運用監視装置50から取得する。システム構成情報およびシステム性能情報は、人手により入力されても良いし、運用監視装置50から取得しても良い。
障害情報42は、訓練で発生させる障害に関する情報を保持するデータストアである。具体的には、障害情報42には、障害ID(Identifier)、障害内容、障害原因、登録対応方法、障害対応に必要なスキル、障害の難易度、障害対応基準時間、および訓練評価内容といった情報が保持される。障害の難易度とは、当該障害が発生した場合の障害対応の難易度である。ここで障害対応基準時間は、障害対応が行われていてもSLAに支障をきたさない範囲の時間を指す。訓練評価内容は、訓練結果の評価方法を示すものである。具体的には、訓練評価内容には、障害毎に障害対応ステップにおける重要ポイントと、当該重要ポイントにおける正しい対応に関する情報とが含まれる。
The
The
運用者情報43は、運用者に関する情報を保持するデータストアである。具体的には、運用者情報43には、運用者ID、氏名、運用者の有する障害対応スキル、在席状況といった情報が含まれる。運用者の在席状況は、具体例としては、運用者端末60の稼働状況から取得しても良いし、外部のスケジュール管理システムあるいは在席管理システムといったシステムから取得しても良い。運用者の保有するスキルは、具体例としては、初期段階では運用者の自己申告で登録しておく方法でも良い。当該スキル情報は、当該運用者を対象とする訓練実施毎に更新され得る。
訓練履歴44は、訓練時の運用者の障害対応方法および障害対応時間といった訓練で記録される情報を保持するデータストアである。
The
The
***動作の説明***
図3を用いて、本実施の形態に係る障害対応訓練装置20の動作について説明する。
*** Explanation of operation ***
The operation of the failure response training device 20 according to the present embodiment will be described with reference to FIG.
<ステップS101:運用者の選択>
ステップS101において、訓練内容選択部31は、運用者を選択する。訓練内容選択部31は、運用者情報43および訓練履歴44から、運用者の在席状況、運用者の有する障害対応スキル、および運用者の障害対応履歴を取得する。訓練内容選択部31は、現在在席している運用者の中で一人または複数の運用者を訓練対象として選択する。具体的には、訓練内容選択部31は、対応可能な障害の難易度が低い、あるいは、最近訓練を実施していないといった選択基準で、運用者を選択する。
<Step S101: Operator selection>
In step S101, the training
図4は、本実施の形態に係る運用者情報43の一部を示す図である。
また、図5は、本実施の形態に係る訓練履歴44の一部を示す図である。
図4の例では、在席している運用者10010と10012のうち、対応可能障害難易度の最も低いことを選択基準として、運用者10010を選択する。また、図5の例では、現在日が2018年3月10日だった場合に、過去1か月訓練を実施していないことを選択基準として、運用者10010を選択する。また、これら複数の選択基準の両方を満たすというように、条件を組み合わせて選択基準としてもよい。
FIG. 4 is a diagram showing a part of the
Further, FIG. 5 is a diagram showing a part of the
In the example of FIG. 4, the
<ステップS102:訓練で発生させる障害の選択>
ステップS102において、訓練内容選択部31は、ステップS101で選択された運用者に発生させる障害の候補を選択する。訓練内容選択部31は、運用者情報43と障害情報42から情報を取得し、それらを比較することで、運用者が訓練すべき障害の候補リストを作成する。訓練すべき障害とは、運用者が未経験の障害であること、経験したが一度対応に失敗している障害であること、あるいは前回の障害の訓練から所定の時間が経過していることが選択基準として挙げられる。しかし、その他の選択基準でも構わない。障害の候補リストに載せる障害がない場合は、訓練は実施せず終了とする、あるいは、選択基準を変えて運用者の選択からやり直しても良い。
<Step S102: Selection of obstacles caused by training>
In step S102, the training
図6は、本実施の形態に係る障害情報42の一部を示す図である。
図7は、本実施の形態に係る候補リスト51の例である。
図5の訓練履歴44における過去の障害対応履歴から、運用者10010は障害ID「1」以外未経験であると分かる。そこで、訓練内容選択部31は、図6の障害情報42における障害一覧を参照し、運用者10010が未経験の障害を選択基準として、障害ID「2,3,4」を、訓練すべき障害の候補リスト51に追加する。
FIG. 6 is a diagram showing a part of the
FIG. 7 is an example of the candidate list 51 according to the present embodiment.
From the past failure response history in the
<ステップS103:運用者の対応可否判定>
ステップS103において、対応可否判定部32は、必要なスキルの種類を運用者がすべて有している障害を訓練用障害71として障害一覧から選択する。具体的には、対応可否判定部32は、ステップS102で作成した障害の候補リスト51から、運用者により対応可能な障害を訓練用障害71として選定する。対応可否判定部32は、ステップS101で選択した運用者の有する障害対応スキルと、障害対応に必要なスキルを比較することにより、運用者が対応可能な障害を訓練用障害71として選定する。対応可否は、障害対応に必要なスキルに対して、運用者の有するスキルが所定の基準を満たしているかで判定する。対応可能な障害がない場合は、訓練は実施せず終了とするか、選択基準を変えて運用者の選択からやり直す。
<Step S103: Judgment of availability of operator>
In step S103, the response
図8は、本実施の形態に係る運用者情報43における障害対応スキルの部分を示す図である。また、図9は、本実施の形態に係る障害情報42における障害対応に必要なスキルの部分を示す図である。
対応可否判定部32は、図8の運用者情報43により運用者10010の有する障害対応スキルを確認し、図9の障害情報42における障害ごとに障害対応に必要なスキルと比較する。対応可否判定部32は、運用者10010が障害ID「4」に対応可能と判定できる。よって、対応可否判定部32は、障害ID「4」を訓練用障害71として選定する。ここでは、2つの判定基準により、運用者10010が障害ID「4」に対応可能と判定される。1つめは、「障害ID「4」への対応に必要なスキルはWindows(登録商標)およびネットワーク知識の2つだが、運用者10010はいずれのスキルも持っていること」である。2つめは、「運用者10010の対応可能障害が中であり、障害ID「4」の障害難易度の中以上であること」である。
FIG. 8 is a diagram showing a portion of the failure handling skill in the
The response
<ステップS104:システムへの影響判定>
ステップS104において、影響予測部33は、運用システム10の状況を表すシステム情報41に基づいて、運用システム10に訓練用障害71を発生させた場合の運用システム10への影響が許容範囲以内か否かを判定する。言い換えると、影響予測部33は、システム情報41から、運用システム10の状況を取得し、訓練用障害71を発生させても問題ないかを判定する。具体的には、エラーの有無を影響度とし、影響度により本物の障害が発生しているか否かを確認し、発生していれば影響度が許容範囲外であるとして訓練を中止するといった処理を行う。運用システム10の状況は、運用監視装置50から情報を取得し、情報保存装置40のシステム情報41に保持されている。運用システム10への影響があると判定された場合は、訓練を実施せず終了とする。運用システム10への影響がないと判定された場合は、ステップS105に移行する。また、例えば、影響予測部33が、運用システム10のCPU使用率情報を影響度として取得し、CPU使用率が90%となっていたとする。この状況で、障害を発生させると全体のシステムがダウンしてしまう恐れがあるため、システムへの影響があると判定し、訓練を実施せず終了とする。すなわち、この場合の許容範囲は、CPU使用率90%未満となる。
<Step S104: Impact determination on the system>
In step S104, the
<ステップS105:障害発生>
ステップS105において、訓練実行部34は、ステップS101で選択した運用者に対して、ステップS102からステップS103で選択した訓練用障害71を発生させる。この際、訓練実行部34は、ステップS101で選択した運用者の運用者端末60に、訓練であることを通知する訓練通知72を表示しても良い。
図10は、本実施の形態に係る運用者端末60に表示された訓練通知72の例である。
運用者は、所定の運用マニュアルに従って、本当の障害と同様の障害対応を行う。この際、訓練内容記録部35は、運用者の作業内容と障害対応時間といった情報を収集し、訓練履歴44に保存する。
<Step S105: Failure occurred>
In step S105, the
FIG. 10 is an example of the training notification 72 displayed on the
The operator handles the same failure as a real failure according to the prescribed operation manual. At this time, the training
<ステップS106:障害対応基準時間判定>
訓練実行部34は、ステップS105の障害発生から、障害対応基準時間を超過しているかを判定する。超過している場合は、ステップS112の訓練フォローに移行する。障害対応基準時間内の場合は、ステップS107の完了判定に移行する。
<Step S106: Failure response reference time determination>
The
<ステップS107:完了判定>
訓練実行部34は、運用者の障害対応が完了したかを判定する。判定方法の具体例は、以下のとおりである。訓練実行部34は、運用者端末60に完了ボタンを表示し、運用者が完了ボタンを押したら完了と判定する。あるいは、訓練実行部34は、運用監視装置50のインシデント管理チケットが完了されたら障害対応が完了と判定する。あるいは、訓練実行部34は、システム情報41から運用システム10の状況を取得し、エラーがなければ完了と判定する。なお、訓練実行部34による完了判定の方法は、上述した方法以外でもよい。
<Step S107: Completion determination>
The
<ステップS108:対応妥当性の評価>
原因取得部36は、運用者から、訓練用障害71の原因と障害対応における重要ポイントとを含む障害対応情報を取得する。訓練結果評価部38は、原因取得部36により取得された障害対応情報に基づいて、運用者の障害対応の妥当性の評価を含む評価結果74を出力する。運用者の障害対応の妥当性が人手により評価された場合、訓練結果評価部38は、原因評価取得部37により取得された妥当性の評価を含む評価結果74を出力する。
<Step S108: Evaluation of correspondence validity>
The
図11は、本実施の形態に係る障害対応情報入力画面52の例を示す図である。
図11に示すように、原因取得部36は、運用者に障害対応情報入力画面52を提示する。運用者は、訓練用障害71の原因と障害対応における重要ポイントへの見解といった障害対応情報73を入力して完了ボタンを押す。原因取得部36は、障害対応情報入力画面52により取得した障害対応情報73を訓練結果評価部38に渡す。また、原因取得部36は、障害対応情報73を訓練履歴44に保存する。
FIG. 11 is a diagram showing an example of the failure response information input screen 52 according to the present embodiment.
As shown in FIG. 11, the
続いて、訓練結果評価部38は、障害情報42に登録されている障害原因といった重要ポイントと、原因取得部36が収集した運用者の判定による障害対応情報73とを比較し、正否を評価する。訓練結果評価部38は、障害対応情報の正否の評価を、対応妥当性の評価として訓練履歴44に保存する。
図12は、本実施の形態に係る障害対応情報入力画面52の正解表53の例を示す図である。
図11に示すように、障害対応情報入力画面52では、原因入力欄および重要ポイント入力欄のように回答を選択式にする。訓練結果評価部38は、選択された回答と予め登録しておいた正解表53とを比較して一致しているか判定する。全てが一致している場合は、正とし、1つでも一致していない場合は、否と評価する。図11の障害対応情報入力画面52に入力された障害対応情報73では、回答が全て正解しているので正と判定される。
Subsequently, the training
FIG. 12 is a diagram showing an example of a correct answer table 53 of the failure response information input screen 52 according to the present embodiment.
As shown in FIG. 11, on the failure response information input screen 52, the answer is selected as in the cause input field and the important point input field. The training
図13は、本実施の形態に係る障害対応情報入力画面52aの例を示す図である。
図14は、本実施の形態に係る重要ポイント一覧54の例を示す図である。
なお、このステップS108の処理を人手で行う例では、図13に示すように、障害対応情報入力画面52aを自由記述式にしておく。そして、判定者に対して、障害対応情報73を表示し、判定者が原因評価取得部37を介して障害対応情報73の正否を評価する。具体的には、判定者は、障害対応情報入力画面52aに記述された回答を見て、図14の重要ポイント一覧54と比較して、記述の意味が合っているかを評価する。今回は、全て内容が一致しているので正と評価する。
FIG. 13 is a diagram showing an example of the failure response information input screen 52a according to the present embodiment.
FIG. 14 is a diagram showing an example of a list of important points 54 according to the present embodiment.
In the example in which the process of step S108 is manually performed, the failure handling information input screen 52a is set to a free description type as shown in FIG. Then, the failure response information 73 is displayed to the determiner, and the determiner evaluates the correctness of the failure response information 73 via the cause
<ステップS109:障害復旧の成否評価>
訓練結果評価部38は、運用システム10の復旧の成否の評価を行い、運用システム10の復旧の成否の評価を評価結果74に含める。具体的には、訓練結果評価部38は、システム情報41からシステム状態の情報を取得し、障害復旧できたかを評価する。訓練結果評価部38は、障害復旧の成否の評価を訓練履歴44に保存する。障害復旧の成否評価判定の方法は、エラーの有無を確認する方法、特定のコマンドを実行して結果を正常状態と比較する方法、あるいはその他の方法でもよい。その他の方法の具体例として、ネットワークが不通である場合、通信先のマシンにpingコマンドを実行し、応答が返ってくることが確認できたら、障害復旧の成否を「成」として、訓練履歴44に記録する。
<Step S109: Success / failure evaluation of failure recovery>
The training
<ステップS110:障害対応時間の評価>
訓練結果評価部38は、障害対応にかけた障害対応時間の評価を行い、障害対応時間の評価を評価結果74に含める。具体的には、訓練結果評価部38は、訓練履歴44に保存した今回の障害対応時間と、障害情報42に保存されている障害対応基準時間とを比較し、障害対応時間の評価を行う。評価基準は、具体的には、障害対応基準時間の1/2以内と設定しておき、基準よりも短ければ◎、基準よりも長ければ○と評価を行う。訓練結果評価部38は、障害対応時間の評価を訓練履歴44に保存する。
図15は、本実施の形態に係る障害対応基準時間と障害対応時間との対応例を示す図である。図15の例では、障害対応時間が障害対応基準時間の1/2以内のため、障害対応時間の評価は◎とし、訓練履歴44に保存する。
<Step S110: Evaluation of failure response time>
The training
FIG. 15 is a diagram showing an example of correspondence between the failure response reference time and the failure response time according to the present embodiment. In the example of FIG. 15, since the failure response time is within 1/2 of the failure response reference time, the evaluation of the failure response time is set to ⊚ and stored in the
<ステップS111:訓練フォロー要否判定>
訓練結果評価部38は、訓練履歴44に保存した評価結果74から、訓練フォローの要否を判定する。訓練履歴44に保存した評価結果は、ステップS108で保存した対応妥当性の評価、ステップS109で保存した障害復旧の成否評価、およびステップS110で保存した障害対応時間の評価の結果である。
図16は、本実施の形態に係る訓練フォロー基準表55を示す図である。
訓練フォロー基準表55では、評価結果74と、運用者に対する訓練フォローの要否と、訓練フォローの内容とが対応付けられている。
訓練結果評価部38は、訓練フォロー基準表55にしたがって訓練フォローの要否を判定する。判定の結果、要と判定された場合は、ステップS112の訓練フォローに移行する。否と判定された場合は、ステップS113の対応方法一致度判定に移行する。具体的には、図16では、対応妥当性の評価が正で、障害復旧の成否評価が成で、対応時間の評価が◎の場合、訓練フォローの要否は否と判定される。
<Step S111: Judgment of necessity of training follow>
The training
FIG. 16 is a diagram showing a training follow-up standard table 55 according to the present embodiment.
In the training follow-up standard table 55, the evaluation result 74, the necessity of training follow-up for the operator, and the content of the training follow-up are associated with each other.
The training
<ステップS112:訓練フォロー>
訓練結果評価部38は、訓練フォロー基準表55を用いて、運用者に対する訓練フォローが必要か否かを判定し、運用者に対する訓練フォローが必要と判定されると、訓練フォローの内容に従って訓練フォローを行う。具体的には、訓練結果評価部38は、ステップS106で障害対応基準時間を超過した場合と、ステップS111で訓練フォロー要と判定された場合に、運用者に必要な情報を提示する。提示する情報の内容は、図16の訓練フォローの内容に示すとおりである。
図16の例では、対応妥当性の評価が否で、障害復旧の成否評価が否の場合、訓練フォローの内容として「障害復旧アシスト」が抽出される。このケースは、重要ポイントは理解しているが障害復旧できていないという状態である。「障害復旧アシスト」が抽出されたので、訓練結果評価部38は、障害復旧させるための支援情報を運用者に提示する。障害復旧させるための支援情報として、発生させた障害の内容と、対応の重要ポイントと正しい対応方法を提示する。また、訓練結果評価部38は、運用システム10の装置側で自動復旧させるといった所定のアシスト処理を実行し、運用者が速やかに障害復旧を行えるようにする。
<Step S112: Training follow>
The training
In the example of FIG. 16, when the evaluation of the response validity is negative and the success / failure evaluation of the failure recovery is negative, “failure recovery assist” is extracted as the content of the training follow-up. In this case, we understand the important points, but we have not been able to recover from the disaster. Since the "disaster recovery assist" has been extracted, the training
<ステップS113:対応方法一致度判定>
訓練結果評価部38は、障害対応方法と登録対応方法とが一致するか否かを判定する。更新部309は、障害対応方法と登録対応方法とが一致しない場合に、障害対応方法を登録対応方法として障害情報42に登録する。具体的には、訓練結果評価部38は、障害情報42に保存されている登録対応方法と、訓練履歴44に保存した今回の障害対応方法とを比較し、一致度を判定する。
図17は、本実施の形態に係る障害情報42の登録対応方法56の例を示す図である。
登録対応方法56では、障害への対応パターンがコマンドの実行順序と実行内容で定義されている。
訓練結果評価部38は、登録対応方法56に定義されたコマンドの実行順序と実行内容と、訓練履歴44に保存した今回の障害対応方法とを比較判定する。
<Step S113: Correspondence method Matching degree determination>
The training
FIG. 17 is a diagram showing an example of the registration handling method 56 of the
In the registration response method 56, the failure response pattern is defined by the command execution order and the execution content.
The training
図18は、本実施の形態に係るコマンド実行のログの例を示す図である。
図19は、本実施の形態に係る訓練履歴44に保存した今回の障害対応方法58の一例を示す図である。
図20は、本実施の形態に係る訓練履歴44に保存した今回の障害対応方法58aの他例を示す図である。
訓練結果評価部38は、図18に示すようなコマンド実行のログを取得しておく。そして、訓練結果評価部38は、実行されたコマンドを図19に示すように訓練履歴44に記録する。訓練結果評価部38は、図17と図19を比較することで、対応方法の一致度を判定する。図17と図19の例では、実行順序と実行内容が全て一致している。一方、訓練履歴44に保存した今回の障害対応方法が図20の場合、図17と図20とを比較すると、実行順序が一部異なる。この場合は、訓練結果評価部38は、一部不一致と判定する。また、実行順序と実行内容が全く異なる場合は、訓練結果評価部38は、完全不一致と判定する。全て一致していると判定した場合は、ステップS115に移行する。一部不一致、あるいは、完全不一致と判定した場合は、原因特定も障害復旧も障害対応基準時間内で正しくできた上で障害に対する新しい対応方法が見つかったことを意味し、ステップS114に移行する。
FIG. 18 is a diagram showing an example of a command execution log according to the present embodiment.
FIG. 19 is a diagram showing an example of the current failure handling method 58 stored in the
FIG. 20 is a diagram showing another example of the current failure handling method 58a stored in the
The training
<ステップS114:対応方法新規登録>
障害情報更新部39は、訓練履歴44に保存した今回の障害対応方法を取得し、障害情報42の登録対応方法として新規で追加登録する。
図21は、本実施の形態に係る障害情報42において今回の障害対応方法を対応パターン2として新規登録した例を示す図である。
<Step S114: Correspondence method new registration>
The failure
FIG. 21 is a diagram showing an example in which the current failure handling method is newly registered as the
<ステップS115:運用者スキル更新>
運用者情報更新部391は、ステップS108、ステップS109、ステップS110、およびステップS111の結果から運用者のスキルを判定し、運用者情報43を更新する。
図22は、本実施の形態に係る運用判定基準表57を示す図である。
運用者情報更新部391は、運用判定基準表57に従って、運用者情報43を更新する。
図22では、運用者10015が対応妥当性の評価が正、障害復旧の成否評価が成、および訓練フォローの要否が否であった場合、運用者10015の対応可能障害難易度をレベルアップすると設定されている。よって、運用者10015の現在の対応可能障害難易度が図8に示すように低の場合は、現在の低からレベルアップして中となる。このように、運用者情報更新部391は、運用者情報43の運用者スキル一覧の対応可能障害難易度を更新する。
<Step S115: Operator skill update>
The operator
FIG. 22 is a diagram showing an operation determination standard table 57 according to the present embodiment.
The operator
In FIG. 22, when the
なお、ステップS101からステップS104の一連の動作、およびステップS106からステップS115の一連の動作に関する実行内容および実行順序はあくまで一例であり、必ずしも上述の実施例に限るものではない。 It should be noted that the execution contents and the execution order regarding the series of operations from step S101 to step S104 and the series of operations from step S106 to step S115 are merely examples, and are not necessarily limited to the above-described embodiment.
***ハードウェア構成の説明***
図23は、本実施の形態に係る障害対応訓練装置20のハードウェア構成を示す図である。
障害対応訓練装置20は、コンピュータである。障害対応訓練装置20は、プロセッサ910を備えるとともに、メモリ921、補助記憶装置922、入力インタフェース930、出力インタフェース940、および通信装置950といった他のハードウェアを備える。プロセッサ910は、信号線を介して他のハードウェアと接続され、これら他のハードウェアを制御する。
*** Explanation of hardware configuration ***
FIG. 23 is a diagram showing a hardware configuration of the failure response training device 20 according to the present embodiment.
The fault handling training device 20 is a computer. The fault handling training device 20 includes a
障害対応訓練装置20は、機能要素として、選択部301、影響予測部33、訓練実行部34、訓練内容記録部35、原因取得部36、原因評価取得部37、訓練結果評価部38、および更新部309を備える。選択部301、影響予測部33、訓練実行部34、訓練内容記録部35、原因取得部36、原因評価取得部37、訓練結果評価部38、および更新部309の機能を訓練装置30の機能という。また、システム情報41、障害情報42、運用者情報43、および訓練履歴44は、メモリ921に備えられる。システム情報41、障害情報42、運用者情報43、および訓練履歴44の機能を情報保存装置40の機能という。
The failure response training device 20 has, as functional elements, a selection unit 301, an
訓練装置30の機能は、ソフトウェアにより実現される。情報保存装置40は、メモリ921に備えられる。
The function of the
プロセッサ910は、障害対応訓練プログラムを実行する装置である。障害対応訓練プログラムは、訓練装置30の機能を実現するプログラムである。
プロセッサ910は、演算処理を行うIC(Integrated Circuit)である。プロセッサ910の具体例は、CPU、DSP(Digital Signal Processor)、GPU(Graphics Processing Unit)である。
The
The
メモリ921は、データを一時的に記憶する記憶装置である。メモリ921の具体例は、SRAM(Static Random Access Memory)、あるいはDRAM(Dynamic Random Access Memory)である。
補助記憶装置922は、データを保管する記憶装置である。補助記憶装置922の具体例は、HDDである。また、補助記憶装置922は、SD(登録商標)メモリカード、CF、NANDフラッシュ、フレキシブルディスク、光ディスク、コンパクトディスク、ブルーレイ(登録商標)ディスク、DVDといった可搬記憶媒体であってもよい。なお、HDDは、Hard Disk Driveの略語である。SD(登録商標)は、Secure Digitalの略語である。CFは、CompactFlash(登録商標)の略語である。DVDは、Digital Versatile Diskの略語である。
The
The
入力インタフェース930は、マウス、キーボード、あるいはタッチパネルといった入力装置と接続されるポートである。入力インタフェース930は、具体的には、USB(Universal Serial Bus)端子である。なお、入力インタフェース930は、LAN(Local Area Network)と接続されるポートであってもよい。
出力インタフェース940は、ディスプレイといった出力機器のケーブルが接続されるポートである。出力インタフェース940は、具体的には、USB端子またはHDMI(登録商標)(High Definition Multimedia Interface)端子である。ディスプレイは、具体的には、LCD(Liquid Crystal Display)である。
The
The
通信装置950は、レシーバとトランスミッタを有する。通信装置950は、LAN、インターネット、あるいは電話回線といった通信網に接続している。通信装置950は、具体的には、通信チップまたはNIC(Network Interface Card)である。
The
障害対応訓練プログラムは、プロセッサ910に読み込まれ、プロセッサ910によって実行される。メモリ921には、障害対応訓練プログラムだけでなく、OS(Operating System)も記憶されている。プロセッサ910は、OSを実行しながら、障害対応訓練プログラムを実行する。障害対応訓練プログラムおよびOSは、補助記憶装置922に記憶されていてもよい。補助記憶装置922に記憶されている障害対応訓練プログラムおよびOSは、メモリ921にロードされ、プロセッサ910によって実行される。なお、障害対応訓練プログラムの一部または全部がOSに組み込まれていてもよい。
The fault handling training program is read into the
障害対応訓練装置20は、プロセッサ910を代替する複数のプロセッサを備えていてもよい。これら複数のプロセッサは、障害対応訓練プログラムの実行を分担する。それぞれのプロセッサは、プロセッサ910と同じように、障害対応訓練プログラムを実行する装置である。
The fault handling training device 20 may include a plurality of processors that replace the
障害対応訓練プログラムにより利用、処理または出力されるデータ、情報、信号値および変数値は、メモリ921、補助記憶装置922、または、プロセッサ910内のレジスタあるいはキャッシュメモリに記憶される。
The data, information, signal values and variable values used, processed or output by the fault handling training program are stored in the
訓練装置30の各部の「部」を「処理」、「手順」あるいは「工程」に読み替えてもよい。また訓練装置30の各部の「処理」を「プログラム」、「プログラムプロダクト」または「プログラムを記録したコンピュータ読取可能な記憶媒体」に読み替えてもよい。
障害対応訓練プログラムは、上述の各部の「部」を「処理」、「手順」あるいは「工程」に読み替えた各処理、各手順あるいは各工程を、コンピュータに実行させる。また、障害対応訓練方法は、障害対応訓練装置20が障害対応訓練プログラムを実行することにより行われる方法である。
障害対応訓練プログラムは、コンピュータ読取可能な記録媒体に格納されて提供されてもよい。また、障害対応訓練プログラムは、プログラムプロダクトとして提供されてもよい。
The "part" of each part of the
In the trouble response training program, the computer is made to execute each process, each procedure or each process in which the "part" of each of the above-mentioned parts is read as "process", "procedure" or "process". Further, the failure response training method is a method performed by the failure response training device 20 executing a failure response training program.
The fault handling training program may be stored and provided on a computer-readable recording medium. The disability response training program may also be provided as a program product.
***他の構成***
本実施の形態では、訓練装置30の機能がソフトウェアで実現される。変形例として、訓練装置30の機能がハードウェアで実現されてもよい。
訓練装置30の機能がハードウェアで実現される場合、障害対応訓練装置20は、プロセッサに替えて電子回路を備える。
*** Other configurations ***
In this embodiment, the function of the
When the function of the
電子回路は、訓練装置30の機能を実現する専用の電子回路である。
電子回路は、具体的には、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ロジックIC、GA、ASIC、または、FPGAである。GAは、Gate Arrayの略語である。ASICは、Application Specific Integrated Circuitの略語である。FPGAは、Field-Programmable Gate Arrayの略語である。
訓練装置30の機能は、1つの電子回路で実現されてもよいし、複数の電子回路に分散して実現されてもよい。
別の変形例として、訓練装置30の一部の機能が電子回路で実現され、残りの機能がソフトウェアで実現されてもよい。
The electronic circuit is a dedicated electronic circuit that realizes the function of the
The electronic circuit is specifically a single circuit, a composite circuit, a programmed processor, a parallel programmed processor, a logic IC, a GA, an ASIC, or an FPGA. GA is an abbreviation for Gate Array. ASIC is an abbreviation for Application Specific Integrated Circuit. FPGA is an abbreviation for Field-Programmable Gate Array.
The function of the
As another modification, some functions of the
プロセッサと電子回路の各々は、プロセッシングサーキットリとも呼ばれる。つまり、障害対応訓練装置20において、訓練装置30の機能は、プロセッシングサーキットリにより実現される。
Each of the processor and the electronic circuit is also called a processing circuit. That is, in the fault handling training device 20, the function of the
***本実施の形態の効果の説明***
本実施の形態に係る障害対応訓練装置では、効率的な運用者の障害対応スキル向上が見込まれるという効果がある。近年のビジネススピードの向上に対応するため、短期間で効率的な運用者の障害対応スキル向上が必要となっている。本実施の形態に係る障害対応訓練装置によれば、運用者の障害対応スキルに合わせて障害を選び、また本番環境という実際の障害対応に近い状態で訓練を実施するため、効率的に運用者の訓練を行うことができる。
*** Explanation of the effect of this embodiment ***
The failure response training device according to the present embodiment has an effect that an efficient operator's failure response skill improvement is expected. In order to respond to the recent improvement in business speed, it is necessary to improve the trouble handling skills of operators efficiently in a short period of time. According to the failure response training device according to the present embodiment, the failure is selected according to the failure response skill of the operator, and the training is carried out in a state close to the actual failure response in the production environment, so that the operator is efficient. Can be trained.
また、本実施の形態に係る障害対応訓練装置によれば、障害対応方法のノウハウを蓄積することができる。本実施の形態に係る障害対応訓練装置によれば、障害と障害対応方法の対応パターンを蓄積できる。このような情報を、本物の障害発生時に提示することで、迅速な解決に活用可能である。 Further, according to the failure response training device according to the present embodiment, know-how of the failure response method can be accumulated. According to the failure response training device according to the present embodiment, it is possible to accumulate correspondence patterns between failures and failure response methods. By presenting such information when a real failure occurs, it can be utilized for prompt resolution.
また、本実施の形態に係る障害対応訓練装置によれば、運用者情報を運用シフトの最適化に利用できる。本実施の形態に係る運用者情報を障害対応スキルのデータを用いることで、最適な運用シフトを作成することに活用可能である。 Further, according to the failure response training device according to the present embodiment, the operator information can be used for optimizing the operation shift. By using the operator information related to this embodiment using the data of the failure response skill, it is possible to utilize it for creating the optimum operation shift.
以上のように、本実施の形態に係る障害対応訓練装置では、運用者情報および障害情報を保存し、これらの情報を随時更新することで、運用者の障害対応スキルを適切に評価することができる。本実施の形態に係る障害対応訓練装置では、定型作業という決められた方法で実施する作業に対して評価するだけでなく、障害対応に対する非定型作業を評価することができる。非定型作業である障害対応方法は1つとは限らないため、新しい障害対応方法が訓練時に見つかるケースもある。
本実施の形態に係る障害対応訓練装置によれば、障害復旧できたか、および、原因特定が正しくできたかといった重要ポイントの評価と、障害対応方法の評価を組み合わせて評価することができる。また新しく見つかった障害対応方法を、随時、新規登録パターンとして更新していくことができる。
As described above, in the failure response training device according to the present embodiment, the operator's failure response skill can be appropriately evaluated by storing the operator information and the failure information and updating these information as needed. can. In the failure response training device according to the present embodiment, it is possible to evaluate not only the work performed by the predetermined method of routine work but also the atypical work for failure response. Since there is not always one troubleshooting method that is an atypical work, there are cases where a new troubleshooting method is found during training.
According to the failure response training device according to the present embodiment, it is possible to evaluate by combining the evaluation of important points such as whether the failure was recovered and whether the cause was correctly identified and the evaluation of the failure response method. In addition, the newly found troubleshooting method can be updated as a new registration pattern at any time.
以上の実施の形態1では、障害対応訓練装置の各部を独立した機能ブロックとして説明した。しかし、障害対応訓練装置の構成は、上述した実施の形態のような構成でなくてもよい。障害対応訓練装置の機能ブロックは、上述した実施の形態で説明した機能を実現することができれば、どのような構成でもよい。また、障害対応訓練装置は、1つの装置でなく、複数の装置から構成されたシステムでもよい。
また、実施の形態1のうち、複数の部分を組み合わせて実施しても構わない。あるいは、この実施の形態のうち、1つの部分を実施しても構わない。その他、この実施の形態を、全体としてあるいは部分的に、どのように組み合わせて実施しても構わない。
すなわち、実施の形態1では、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
In the above-described first embodiment, each part of the failure response training device has been described as an independent functional block. However, the configuration of the failure response training device does not have to be the configuration as in the above-described embodiment. The functional block of the failure response training device may have any configuration as long as it can realize the functions described in the above-described embodiment. Further, the failure response training device may be a system composed of a plurality of devices instead of one device.
Further, in the first embodiment, a plurality of parts may be combined and carried out. Alternatively, one part of this embodiment may be implemented. In addition, this embodiment may be implemented in any combination as a whole or partially.
That is, in the first embodiment, it is possible to freely combine each embodiment, modify any component of each embodiment, or omit any component in each embodiment.
なお、上述した実施の形態は、本質的に好ましい例示であって、本発明の範囲、本発明の適用物の範囲、および本発明の用途の範囲を制限することを意図するものではない。上述した実施の形態は、必要に応じて種々の変更が可能である。 It should be noted that the embodiments described above are essentially preferred examples and are not intended to limit the scope of the invention, the scope of application of the invention, and the scope of use of the invention. The above-described embodiment can be variously modified as needed.
10 運用システム、20 障害対応訓練装置、30 訓練装置、301 選択部、31 訓練内容選択部、32 対応可否判定部、33 影響予測部、34 訓練実行部、35 訓練内容記録部、36 原因取得部、37 原因評価取得部、38 訓練結果評価部、39 障害情報更新部、391 運用者情報更新部、309 更新部、41 システム情報、42 障害情報、43 運用者情報、44 訓練履歴、40 情報保存装置、50 運用監視装置、51 候補リスト、52,52a 障害対応情報入力画面、53 正解表、54 重要ポイント一覧、55 訓練フォロー基準表、56 登録対応方法、57 運用判定基準表、58,58a 障害対応方法、60 運用者端末、61 運用者、71 訓練用障害、72 訓練通知、73 障害対応情報、74 評価結果、500 障害対応訓練システム、910 プロセッサ、921 メモリ、922 補助記憶装置、930 入力インタフェース、940 出力インタフェース、950 通信装置。 10 Operation system, 20 Failure response training device, 30 Training device, 301 Selection section, 31 Training content selection section, 32 Response availability judgment section, 33 Impact prediction section, 34 Training execution section, 35 Training content recording section, 36 Cause acquisition section , 37 Cause evaluation acquisition department, 38 Training result evaluation department, 39 Failure information update department, 391 Operator information update department, 309 update department, 41 System information, 42 Failure information, 43 Operator information, 44 Training history, 40 Information storage Equipment, 50 Operation monitoring device, 51 Candidate list, 52, 52a Failure response information input screen, 53 Correct answer table, 54 Important point list, 55 Training follow-up standard table, 56 Registration response method, 57 Operation judgment standard table, 58, 58a Failure Response method, 60 Operator terminal, 61 Operator, 71 Training failure, 72 Training notification, 73 Failure response information, 74 Evaluation result, 500 Failure response training system, 910 processor, 921 memory, 922 auxiliary storage device, 930 input interface , 940 output interface, 950 communication device.
Claims (14)
前記運用者が対応可能な障害の難易度を含む運用者情報と、障害一覧と前記障害一覧に含まれる各障害の難易度とを含む障害情報とに基づいて、前記運用者の障害対応訓練として発生させる障害を訓練用障害として前記障害一覧から選択する選択部と、
前記運用システムの状況を表すシステム情報に基づいて、前記運用システムに前記訓練用障害を発生させた場合の前記運用システムへの影響が許容範囲以内か否かを判定する影響予測部と、
前記運用システムへの影響が許容範囲以内の場合に、前記運用システムに前記訓練用障害を発生させる訓練実行部と
を備えた障害対応訓練装置。 In the failure response training device that performs failure response training for the operator by causing a failure in the operation system operated by the operator.
As the operator's failure response training, based on the operator information including the difficulty level of the failure that the operator can handle and the failure information including the failure list and the difficulty level of each failure included in the failure list. A selection unit that selects the failure to be generated as a training failure from the failure list, and
An impact prediction unit that determines whether or not the impact on the operational system when a training failure occurs in the operational system is within an allowable range based on the system information indicating the status of the operational system.
A failure response training device provided with a training execution unit that causes the training failure in the operation system when the influence on the operation system is within an allowable range.
前記障害情報は、前記障害一覧に含まれる各障害の対応に必要なスキルの種類を含み、
前記選択部は、
前記必要なスキルの種類を前記運用者がすべて有している障害を前記訓練用障害として前記障害一覧から選択する請求項1に記載の障害対応訓練装置。 The operator information includes the types of failure handling skills possessed by the operator.
The failure information includes the types of skills required to deal with each failure included in the failure list.
The selection unit is
The failure response training device according to claim 1, wherein a failure in which the operator has all the necessary skill types is selected as the training failure from the failure list.
前記影響予測部は、
前記運用システムに前記訓練用障害を発生させた場合に、前記利用者に対して提供されるサービスが前記サービスレベル合意を満たす場合に前記運用システムへの影響が許容範囲以内であると判定する請求項1または請求項2に記載の障害対応訓練装置。 In the operation system, the level of service provided to the user of the operation system is set as a service level agreement.
The impact prediction unit
A claim for determining that the influence on the operation system is within an allowable range when the service provided to the user satisfies the service level agreement when the training failure occurs in the operation system. The fault handling training device according to claim 1 or 2.
前記運用者による前記訓練用障害への障害対応が完了すると、前記障害対応を評価する評価結果を出力する訓練結果評価部と、
前記障害対応の内容を表す障害対応情報と前記評価結果とに基づいて、前記運用者情報について前記運用者が対応可能な障害の難易度を更新する更新部と
を備えた請求項1から請求項3のいずれか1項に記載の障害対応訓練装置。 The failure response training device is
When the operator completes the failure response to the training failure, the training result evaluation unit that outputs the evaluation result for evaluating the failure response, and the training result evaluation unit.
Claims 1 to claim 1 include a failure response information representing the content of the failure response and an update unit for updating the difficulty level of the failure that the operator can handle for the operator information based on the evaluation result. The fault handling training device according to any one of 3.
前記更新部は、
前記障害対応情報と前記評価結果とに基づいて、前記障害情報に含まれる前記登録対応方法を更新する請求項4に記載の障害対応訓練装置。 The failure information includes a method for dealing with each failure included in the list of failures as a registration response method.
The update part
The failure response training device according to claim 4, wherein the registration response method included in the failure information is updated based on the failure response information and the evaluation result.
前記訓練用障害への対応方法を障害対応方法として前記障害対応情報に設定し、前記障害対応情報を訓練履歴に保存する訓練内容記録部を備え、
前記訓練結果評価部は、
前記障害対応方法と前記登録対応方法とが一致するか否かを判定し、
前記更新部は、
前記障害対応方法と前記登録対応方法とが一致しない場合に、前記障害対応方法を前記登録対応方法として前記障害情報に登録する請求項5に記載の障害対応訓練装置。 The failure response training device is
The training content recording unit is provided, in which the method for dealing with a training failure is set in the failure response information as the failure response method, and the failure response information is stored in the training history.
The training result evaluation unit
It is determined whether or not the failure handling method and the registration handling method match.
The update part
The failure response training device according to claim 5, wherein when the failure response method and the registration response method do not match, the failure response method is registered in the failure information as the registration response method.
前記運用者から、前記訓練用障害の原因と前記障害対応における重要ポイントとを含む前記障害対応情報を取得する原因取得部を備え、
前記訓練結果評価部は、
前記原因取得部により取得された前記障害対応情報に基づいて、前記運用者の前記障害対応の妥当性の評価を含む前記評価結果を出力する請求項4から請求項6のいずれか1項に記載の障害対応訓練装置。 The failure response training device is
A cause acquisition unit for acquiring the failure response information including the cause of the training failure and important points in the failure response from the operator is provided.
The training result evaluation unit
The item according to any one of claims 4 to 6, which outputs the evaluation result including the evaluation of the validity of the failure response of the operator based on the failure response information acquired by the cause acquisition unit. Failure response training device.
前記運用者から、前記訓練用障害の原因と前記障害対応における重要ポイントとを含む前記障害対応情報を取得する原因取得部と、
前記原因取得部により取得された前記障害対応情報に基づいて、前記運用者による前記障害対応の妥当性の評価を前記運用者から取得する原因評価取得部と
を備え、
前記訓練結果評価部は、
前記原因評価取得部により取得された前記妥当性の評価を含む前記評価結果を出力する請求項4から請求項6のいずれか1項に記載の障害対応訓練装置。 The failure response training device is
A cause acquisition unit for acquiring the failure response information including the cause of the training failure and important points in the failure response from the operator.
A cause evaluation acquisition unit for acquiring the validity evaluation of the failure response by the operator based on the failure response information acquired by the cause acquisition unit is provided.
The training result evaluation unit
The failure response training device according to any one of claims 4 to 6, which outputs the evaluation result including the validity evaluation acquired by the cause evaluation acquisition unit.
前記運用システムの復旧の成否の評価を行い、前記運用システムの復旧の成否の評価を前記評価結果に含める請求項4から請求項8のいずれか1項に記載の障害対応訓練装置。 The training result evaluation unit
The failure response training device according to any one of claims 4 to 8, which evaluates the success or failure of the restoration of the operation system and includes the evaluation of the success or failure of the restoration of the operation system in the evaluation result.
前記障害対応にかけた障害対応時間の評価を行い、前記障害対応時間の評価を前記評価結果に含める請求項4から請求項9のいずれか1項に記載の障害対応訓練装置。 The training result evaluation unit
The failure response training device according to any one of claims 4 to 9, wherein the failure response time applied to the failure response is evaluated and the evaluation of the failure response time is included in the evaluation result.
前記評価結果と、前記運用者に対する訓練フォローの要否と、前記訓練フォローの内容とを対応付けた訓練フォロー基準表を備え、
前記訓練結果評価部は、
前記訓練フォロー基準表を用いて、前記運用者に対する訓練フォローが必要か否かを判定し、前記運用者に対する訓練フォローが必要と判定されると、前記訓練フォローの内容に従って前記訓練フォローを行う請求項4から請求項10のいずれか1項に記載の障害対応訓練装置。 The failure response training device is
A training follow-up standard table is provided in which the evaluation result, the necessity of training follow-up for the operator, and the content of the training follow-up are associated with each other.
The training result evaluation unit
Using the training follow-up standard table, it is determined whether or not the training follow-up for the operator is necessary, and if it is determined that the training follow-up for the operator is necessary, the request for performing the training follow-up according to the content of the training follow-up. The fault handling training device according to any one of claims 4 to 10.
前記運用システムに前記訓練用障害を発生させる際に、前記運用者に対して訓練であることを通知する訓練通知を送信する請求項1から請求項11のいずれか1項に記載の障害対応訓練装置。 The training execution unit
The failure handling training according to any one of claims 1 to 11, wherein a training notification is transmitted to notify the operator that the training is to be performed when the training failure is generated in the operation system. Device.
選択部が、前記運用者が対応可能な障害の難易度を含む運用者情報と、障害一覧と前記障害一覧に含まれる各障害の難易度とを含む障害情報とに基づいて、前記運用者の障害対応訓練として発生させる障害を訓練用障害として前記障害一覧から選択し、
影響予測部が、前記運用システムの状況を表すシステム情報に基づいて、前記運用システムに前記訓練用障害を発生させた場合の前記運用システムへの影響が許容範囲以内か否かを判定し、
訓練実行部が、前記運用システムへの影響が許容範囲以内の場合に、前記運用システムに前記訓練用障害を発生させる障害対応訓練方法。 In the failure response training method of the failure response training device that performs failure response training for the operator by causing a failure in the operation system operated by the operator.
The selection unit of the operator is based on the operator information including the difficulty level of the failure that the operator can handle and the failure information including the failure list and the difficulty level of each failure included in the failure list. Select the disability to be generated as a disability response training as a training disability from the above disability list, and select it.
The impact prediction unit determines whether or not the impact on the operational system when the training failure occurs in the operational system is within the allowable range based on the system information indicating the status of the operational system.
A failure response training method in which the training execution unit causes the training failure in the operation system when the influence on the operation system is within an allowable range.
前記運用者が対応可能な障害の難易度を含む運用者情報と、障害一覧と前記障害一覧に含まれる各障害の難易度とを含む障害情報とに基づいて、前記運用者の障害対応訓練として発生させる障害を訓練用障害として前記障害一覧から選択する選択処理と、
前記運用システムの状況を表すシステム情報に基づいて、前記運用システムに前記訓練用障害を発生させた場合の前記運用システムへの影響が許容範囲以内か否かを判定する影響予測処理と、
前記運用システムへの影響が許容範囲以内の場合に、前記運用システムに前記訓練用障害を発生させる訓練実行処理と
をコンピュータである前記障害対応訓練装置に実行させる障害対応訓練プログラム。 In the failure response training program of the failure response training device that performs failure response training for the operator by causing a failure in the operation system operated by the operator.
As the operator's failure response training, based on the operator information including the difficulty level of the failure that the operator can handle and the failure information including the failure list and the difficulty level of each failure included in the failure list. A selection process that selects the failure to be generated as a training failure from the failure list, and
Based on the system information indicating the status of the operational system, the impact prediction process for determining whether or not the impact on the operational system when the training failure occurs in the operational system is within the allowable range, and
A failure response training program that causes the failure response training device, which is a computer, to execute a training execution process for causing the training failure in the operation system when the influence on the operation system is within an allowable range.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018115809A JP7034014B2 (en) | 2018-06-19 | 2018-06-19 | Fault response training equipment, fault response training methods and fault response training programs |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018115809A JP7034014B2 (en) | 2018-06-19 | 2018-06-19 | Fault response training equipment, fault response training methods and fault response training programs |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019219473A JP2019219473A (en) | 2019-12-26 |
JP7034014B2 true JP7034014B2 (en) | 2022-03-11 |
Family
ID=69096541
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018115809A Active JP7034014B2 (en) | 2018-06-19 | 2018-06-19 | Fault response training equipment, fault response training methods and fault response training programs |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7034014B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020123043A (en) * | 2019-01-29 | 2020-08-13 | 日本電信電話株式会社 | Estimation method and estimation device and estimation program |
CN115064042A (en) * | 2022-06-29 | 2022-09-16 | 河南赛伦交通科技有限公司 | Intelligent circuit fault setting system and method based on railway electric signal principle |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004333550A (en) | 2003-04-30 | 2004-11-25 | Tokyo Electric Power Co Inc:The | Training support system |
JP2014149450A (en) | 2013-02-01 | 2014-08-21 | Chugoku Electric Power Co Inc:The | Fault corresponding training system and fault corresponding training method |
US8910294B1 (en) | 2013-12-18 | 2014-12-09 | State Farm Mutual Automobile Insurance Company | System and method for application failure testing in a cloud computing environment |
JP2017135563A (en) | 2016-01-27 | 2017-08-03 | 富士通株式会社 | Test device, network system, and test method |
US9824000B1 (en) | 2015-10-21 | 2017-11-21 | Amazon Technologies, Inc. | Testing calling code dynamically with random error injection based on user-specified configuration |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007094210A (en) * | 2005-09-29 | 2007-04-12 | Chugoku Electric Power Co Inc:The | Education system, method and program |
-
2018
- 2018-06-19 JP JP2018115809A patent/JP7034014B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004333550A (en) | 2003-04-30 | 2004-11-25 | Tokyo Electric Power Co Inc:The | Training support system |
JP2014149450A (en) | 2013-02-01 | 2014-08-21 | Chugoku Electric Power Co Inc:The | Fault corresponding training system and fault corresponding training method |
US8910294B1 (en) | 2013-12-18 | 2014-12-09 | State Farm Mutual Automobile Insurance Company | System and method for application failure testing in a cloud computing environment |
US9824000B1 (en) | 2015-10-21 | 2017-11-21 | Amazon Technologies, Inc. | Testing calling code dynamically with random error injection based on user-specified configuration |
JP2017135563A (en) | 2016-01-27 | 2017-08-03 | 富士通株式会社 | Test device, network system, and test method |
Also Published As
Publication number | Publication date |
---|---|
JP2019219473A (en) | 2019-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9940227B2 (en) | Identifying severity of test execution failures by analyzing test execution logs | |
US9049105B1 (en) | Systems and methods for tracking and managing event records associated with network incidents | |
US8201019B2 (en) | Data storage device in-situ self test, repair, and recovery | |
JP7034014B2 (en) | Fault response training equipment, fault response training methods and fault response training programs | |
US11106524B1 (en) | Resolving technology issues | |
CN114675791B (en) | Disk processing method and system and electronic equipment | |
CN110704228A (en) | Solid state disk exception handling method and system | |
US9940211B2 (en) | Resource system management | |
JP2006119848A (en) | Software update program, software update device and software update method | |
CN111130856A (en) | Server configuration method, system, equipment and computer readable storage medium | |
Chan et al. | Debugging incidents in Google's distributed systems | |
US20220035691A1 (en) | Techniques for utilizing disruptions to enterprise systems | |
US20140101309A1 (en) | Dynamic and selective management of integration points using performance metrics | |
JP2007068090A (en) | Network device monitor system and monitoring method, and program therefor | |
JP2017138863A (en) | Information processing device and information processing program | |
JP2018169920A (en) | Management device, management method and management program | |
JP4530645B2 (en) | Computer system monitoring apparatus and monitoring method | |
US11704164B1 (en) | Intelligent and automatic load balancing of workloads on replication appliances based on appliance load scores | |
WO2024135322A1 (en) | Failure handling device, system, method, and program | |
JP2009211605A (en) | Cause analysis operation assisting system and cause analysis operation assisting method in fault cause analysis operation, and program for the same | |
Chan et al. | Debugging Incidents in Google’s Distributed Systems: How experts debug production issues in complex distributed systems | |
WO2014038109A1 (en) | Notification information display processing device, notification information display method, and program | |
JP5788120B1 (en) | Project success diagnosis device | |
CN115827289A (en) | Fault handling method, electronic device and program product | |
JP5788119B1 (en) | Project success diagnosis device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210311 |
|
TRDD | Decision of grant or rejection written | ||
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220126 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220201 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220301 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7034014 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |