JP2019219473A - 障害対応訓練装置、障害対応訓練方法および障害対応訓練プログラム - Google Patents
障害対応訓練装置、障害対応訓練方法および障害対応訓練プログラム Download PDFInfo
- Publication number
- JP2019219473A JP2019219473A JP2018115809A JP2018115809A JP2019219473A JP 2019219473 A JP2019219473 A JP 2019219473A JP 2018115809 A JP2018115809 A JP 2018115809A JP 2018115809 A JP2018115809 A JP 2018115809A JP 2019219473 A JP2019219473 A JP 2019219473A
- Authority
- JP
- Japan
- Prior art keywords
- failure
- training
- operator
- response
- fault
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
特許文献1では、システム利用者とのサービスレベル合意、すなわちSLA(Service Level Agreement)を下回らないことを確認してから、障害試験を行う方法が開示されている。SLAは、故意に障害を発生させる前に、ネットワークの性能あるいは使用状況といったシステムの状況を考慮して、品質への影響を算出することにより確認される。また、同様の観点から、システム状況に応じて障害発生を制御するソフトウェア、具体的にはNetflix社のChAPが発表されている。
前記運用者が対応可能な障害の難易度を含む運用者情報と、障害一覧と前記障害一覧に含まれる各障害の難易度とを含む障害情報とに基づいて、前記運用者の障害対応訓練として発生させる障害を訓練用障害として前記障害一覧から選択する選択部と、
前記運用システムの状況を表すシステム情報に基づいて、前記運用システムに前記訓練用障害を発生させた場合の前記運用システムへの影響が許容範囲以内か否かを判定する影響予測部と、
前記運用システムへの影響が許容範囲以内の場合に、前記運用システムに前記訓練用障害を発生させる訓練実行部と
を備えた。
***構成の説明***
図1を用いて、本実施の形態に係る障害対応訓練システム500の構成について説明する。
障害対応訓練システム500は、運用システム10と、障害対応訓練装置20と、運用監視装置50と、運用者端末60とを有する。
運用システム10は、運用者61が運用対象とするシステムである。
障害対応訓練装置20は、運用者61が運用する運用システム10に訓練用障害71を発生させることにより、運用者の障害対応訓練を行う。障害対応訓練装置20は、訓練装置30と情報保存装置40とを有する。訓練装置30は、訓練用の障害、すなわち訓練用障害71の発生可否を判定し、判定結果に基づいて訓練用障害71を発生させる。情報保存装置40は、システム情報、訓練履歴、障害情報、および運用者情報といった情報を保存する。
運用監視装置50は、運用システム10に対して、監視といった運用処理を実行する。運用監視装置50は、常に運用システム10を監視しており、障害あるいは問題を検知した場合は、運用者端末60にメッセージを表示させる。
運用者端末60は、運用者61により用いられる端末である。運用者61は、運用者端末60を用いて、運用システム10の運用に関する情報の取得、あるいは運用システム10の運用のための操作を行う。また、運用者端末60は、運用監視装置50あるいは訓練装置30から得た情報を運用者61に表示する。
訓練装置30は、訓練内容選択部31、対応可否判定部32、影響予測部33、訓練実行部34、訓練内容記録部35、原因取得部36、原因評価取得部37、訓練結果評価部38、障害情報更新部39、および運用者情報更新部391を備える。訓練内容選択部31と対応可否判定部32とを合わせて選択部301とする。障害情報更新部39と運用者情報更新部391とを合わせて更新部309とする。
情報保存装置40は、システム情報41、障害情報42、運用者情報43、および訓練履歴44を備える。
運用者情報43には、運用者が対応可能な障害の難易度が含まれる。また、運用者情報43には、運用者が有する障害対応スキルの種類が含まれる。
障害情報42には、障害一覧と障害一覧に含まれる各障害の難易度とが含まれる。また、障害情報42には、障害一覧に含まれる各障害の対応に必要なスキルの種類が含まれる。また、障害情報42には、障害一覧に含まれる各障害への対応方法が登録対応方法として含まれる。
対応可否判定部32は、在席中の運用者の障害対応スキルを、運用者情報43から取得する。対応可否判定部32は、訓練内容選択部31により選択された訓練用障害71について、障害対応に必要なスキルを障害情報42から取得する。対応可否判定部32は、在席中の運用者の障害対応スキルと、訓練用障害71の障害対応に必要なスキルとを照合し、訓練用障害71に運用者が対応可能かを判定する。
運用システム10では、運用システム10の利用者に対して提供されるサービスのレベルがサービスレベル合意、すなわちSLAとして設定されている。影響予測部33は、運用システム10に訓練用障害71を発生させた場合に、利用者に対して提供されるサービスがSLAを満たす場合に、運用システム10への影響が許容範囲以内であると判定する。SLAに影響があると判定された場合、影響予測部33は、訓練を実施せず、訓練内容選択部31による訓練内容の選択に処理を戻す。SLAに影響がないと判定された場合、影響予測部33は、訓練実施可能と判定し、訓練実行部34に実行を指示する。
訓練内容記録部35は、訓練用障害71への対応方法を障害対応方法として障害対応情報に設定し、障害対応情報を訓練履歴44に保存する。具体的には、訓練内容記録部35は、障害対応方法、障害対応時間、および運用者による訓練用障害71への見解といった情報を含む障害対応情報を訓練履歴44に記録する。
原因評価取得部37は、原因取得部36により取得された障害対応情報に基づいて、運用者による障害対応の妥当性の評価を運用者から取得する。すなわち、原因評価取得部37は、原因取得部36により取得された障害対応情報が正しいかを人手で評価を行う際に、人手で評価された内容を取得する。原因評価取得部37は、人手で評価された内容を訓練結果評価部38に出力する。訓練結果評価部38が人手を介さず自動で障害対応情報を評価する場合は、原因評価取得部37は省略することもできる。
障害情報更新部39は、訓練結果評価部38の評価結果74、および訓練履歴44に保存された障害対応情報に基づいて、障害情報42を更新する。具体的には、訓練結果評価部38において障害復旧が問題なく行われたと評価された場合に、障害情報42の登録対応方法と、訓練履歴44の今回の訓練での障害対応方法とを比較する。これらの対応方法が不一致の場合は、障害情報更新部39は、新しい障害対応方法が見つかったと見なし、障害情報42に障害対応方法を新規登録する。あるいは、障害情報更新部39は、訓練履歴44の今回の障害対応にかかった時間をもとに、障害情報42の障害の難易度あるいはその他の情報を更新してもよい。
運用者情報更新部391は、訓練結果評価部38の評価結果74、訓練履歴44に保存された障害対応情報、および今回発生させた障害に関する障害情報42に基づいて、運用者情報43のスキル情報を更新する。
障害情報42は、訓練で発生させる障害に関する情報を保持するデータストアである。具体的には、障害情報42には、障害ID(Identifier)、障害内容、障害原因、登録対応方法、障害対応に必要なスキル、障害の難易度、障害対応基準時間、および訓練評価内容といった情報が保持される。障害の難易度とは、当該障害が発生した場合の障害対応の難易度である。ここで障害対応基準時間は、障害対応が行われていてもSLAに支障をきたさない範囲の時間を指す。訓練評価内容は、訓練結果の評価方法を示すものである。具体的には、訓練評価内容には、障害毎に障害対応ステップにおける重要ポイントと、当該重要ポイントにおける正しい対応に関する情報とが含まれる。
訓練履歴44は、訓練時の運用者の障害対応方法および障害対応時間といった訓練で記録される情報を保持するデータストアである。
図3を用いて、本実施の形態に係る障害対応訓練装置20の動作について説明する。
ステップS101において、訓練内容選択部31は、運用者を選択する。訓練内容選択部31は、運用者情報43および訓練履歴44から、運用者の在席状況、運用者の有する障害対応スキル、および運用者の障害対応履歴を取得する。訓練内容選択部31は、現在在席している運用者の中で一人または複数の運用者を訓練対象として選択する。具体的には、訓練内容選択部31は、対応可能な障害の難易度が低い、あるいは、最近訓練を実施していないといった選択基準で、運用者を選択する。
また、図5は、本実施の形態に係る訓練履歴44の一部を示す図である。
図4の例では、在席している運用者10010と10012のうち、対応可能障害難易度の最も低いことを選択基準として、運用者10010を選択する。また、図5の例では、現在日が2018年3月10日だった場合に、過去1か月訓練を実施していないことを選択基準として、運用者10010を選択する。また、これら複数の選択基準の両方を満たすというように、条件を組み合わせて選択基準としてもよい。
ステップS102において、訓練内容選択部31は、ステップS101で選択された運用者に発生させる障害の候補を選択する。訓練内容選択部31は、運用者情報43と障害情報42から情報を取得し、それらを比較することで、運用者が訓練すべき障害の候補リストを作成する。訓練すべき障害とは、運用者が未経験の障害であること、経験したが一度対応に失敗している障害であること、あるいは前回の障害の訓練から所定の時間が経過していることが選択基準として挙げられる。しかし、その他の選択基準でも構わない。障害の候補リストに載せる障害がない場合は、訓練は実施せず終了とする、あるいは、選択基準を変えて運用者の選択からやり直しても良い。
図7は、本実施の形態に係る候補リスト51の例である。
図5の訓練履歴44における過去の障害対応履歴から、運用者10010は障害ID「1」以外未経験であると分かる。そこで、訓練内容選択部31は、図6の障害情報42における障害一覧を参照し、運用者10010が未経験の障害を選択基準として、障害ID「2,3,4」を、訓練すべき障害の候補リスト51に追加する。
ステップS103において、対応可否判定部32は、必要なスキルの種類を運用者がすべて有している障害を訓練用障害71として障害一覧から選択する。具体的には、対応可否判定部32は、ステップS102で作成した障害の候補リスト51から、運用者により対応可能な障害を訓練用障害71として選定する。対応可否判定部32は、ステップS101で選択した運用者の有する障害対応スキルと、障害対応に必要なスキルを比較することにより、運用者が対応可能な障害を訓練用障害71として選定する。対応可否は、障害対応に必要なスキルに対して、運用者の有するスキルが所定の基準を満たしているかで判定する。対応可能な障害がない場合は、訓練は実施せず終了とするか、選択基準を変えて運用者の選択からやり直す。
対応可否判定部32は、図8の運用者情報43により運用者10010の有する障害対応スキルを確認し、図9の障害情報42における障害ごとに障害対応に必要なスキルと比較する。対応可否判定部32は、運用者10010が障害ID「4」に対応可能と判定できる。よって、対応可否判定部32は、障害ID「4」を訓練用障害71として選定する。ここでは、2つの判定基準により、運用者10010が障害ID「4」に対応可能と判定される。1つめは、「障害ID「4」への対応に必要なスキルはWindows(登録商標)およびネットワーク知識の2つだが、運用者10010はいずれのスキルも持っていること」である。2つめは、「運用者10010の対応可能障害が中であり、障害ID「4」の障害難易度の中以上であること」である。
ステップS104において、影響予測部33は、運用システム10の状況を表すシステム情報41に基づいて、運用システム10に訓練用障害71を発生させた場合の運用システム10への影響が許容範囲以内か否かを判定する。言い換えると、影響予測部33は、システム情報41から、運用システム10の状況を取得し、訓練用障害71を発生させても問題ないかを判定する。具体的には、エラーの有無を影響度とし、影響度により本物の障害が発生しているか否かを確認し、発生していれば影響度が許容範囲外であるとして訓練を中止するといった処理を行う。運用システム10の状況は、運用監視装置50から情報を取得し、情報保存装置40のシステム情報41に保持されている。運用システム10への影響があると判定された場合は、訓練を実施せず終了とする。運用システム10への影響がないと判定された場合は、ステップS105に移行する。また、例えば、影響予測部33が、運用システム10のCPU使用率情報を影響度として取得し、CPU使用率が90%となっていたとする。この状況で、障害を発生させると全体のシステムがダウンしてしまう恐れがあるため、システムへの影響があると判定し、訓練を実施せず終了とする。すなわち、この場合の許容範囲は、CPU使用率90%未満となる。
ステップS105において、訓練実行部34は、ステップS101で選択した運用者に対して、ステップS102からステップS103で選択した訓練用障害71を発生させる。この際、訓練実行部34は、ステップS101で選択した運用者の運用者端末60に、訓練であることを通知する訓練通知72を表示しても良い。
図10は、本実施の形態に係る運用者端末60に表示された訓練通知72の例である。
運用者は、所定の運用マニュアルに従って、本当の障害と同様の障害対応を行う。この際、訓練内容記録部35は、運用者の作業内容と障害対応時間といった情報を収集し、訓練履歴44に保存する。
訓練実行部34は、ステップS105の障害発生から、障害対応基準時間を超過しているかを判定する。超過している場合は、ステップS112の訓練フォローに移行する。障害対応基準時間内の場合は、ステップS107の完了判定に移行する。
訓練実行部34は、運用者の障害対応が完了したかを判定する。判定方法の具体例は、以下のとおりである。訓練実行部34は、運用者端末60に完了ボタンを表示し、運用者が完了ボタンを押したら完了と判定する。あるいは、訓練実行部34は、運用監視装置50のインシデント管理チケットが完了されたら障害対応が完了と判定する。あるいは、訓練実行部34は、システム情報41から運用システム10の状況を取得し、エラーがなければ完了と判定する。なお、訓練実行部34による完了判定の方法は、上述した方法以外でもよい。
原因取得部36は、運用者から、訓練用障害71の原因と障害対応における重要ポイントとを含む障害対応情報を取得する。訓練結果評価部38は、原因取得部36により取得された障害対応情報に基づいて、運用者の障害対応の妥当性の評価を含む評価結果74を出力する。運用者の障害対応の妥当性が人手により評価された場合、訓練結果評価部38は、原因評価取得部37により取得された妥当性の評価を含む評価結果74を出力する。
図11に示すように、原因取得部36は、運用者に障害対応情報入力画面52を提示する。運用者は、訓練用障害71の原因と障害対応における重要ポイントへの見解といった障害対応情報73を入力して完了ボタンを押す。原因取得部36は、障害対応情報入力画面52により取得した障害対応情報73を訓練結果評価部38に渡す。また、原因取得部36は、障害対応情報73を訓練履歴44に保存する。
図12は、本実施の形態に係る障害対応情報入力画面52の正解表53の例を示す図である。
図11に示すように、障害対応情報入力画面52では、原因入力欄および重要ポイント入力欄のように回答を選択式にする。訓練結果評価部38は、選択された回答と予め登録しておいた正解表53とを比較して一致しているか判定する。全てが一致している場合は、正とし、1つでも一致していない場合は、否と評価する。図11の障害対応情報入力画面52に入力された障害対応情報73では、回答が全て正解しているので正と判定される。
図14は、本実施の形態に係る重要ポイント一覧54の例を示す図である。
なお、このステップS108の処理を人手で行う例では、図13に示すように、障害対応情報入力画面52aを自由記述式にしておく。そして、判定者に対して、障害対応情報73を表示し、判定者が原因評価取得部37を介して障害対応情報73の正否を評価する。具体的には、判定者は、障害対応情報入力画面52aに記述された回答を見て、図14の重要ポイント一覧54と比較して、記述の意味が合っているかを評価する。今回は、全て内容が一致しているので正と評価する。
訓練結果評価部38は、運用システム10の復旧の成否の評価を行い、運用システム10の復旧の成否の評価を評価結果74に含める。具体的には、訓練結果評価部38は、システム情報41からシステム状態の情報を取得し、障害復旧できたかを評価する。訓練結果評価部38は、障害復旧の成否の評価を訓練履歴44に保存する。障害復旧の成否評価判定の方法は、エラーの有無を確認する方法、特定のコマンドを実行して結果を正常状態と比較する方法、あるいはその他の方法でもよい。その他の方法の具体例として、ネットワークが不通である場合、通信先のマシンにpingコマンドを実行し、応答が返ってくることが確認できたら、障害復旧の成否を「成」として、訓練履歴44に記録する。
訓練結果評価部38は、障害対応にかけた障害対応時間の評価を行い、障害対応時間の評価を評価結果74に含める。具体的には、訓練結果評価部38は、訓練履歴44に保存した今回の障害対応時間と、障害情報42に保存されている障害対応基準時間とを比較し、障害対応時間の評価を行う。評価基準は、具体的には、障害対応基準時間の1/2以内と設定しておき、基準よりも短ければ◎、基準よりも長ければ○と評価を行う。訓練結果評価部38は、障害対応時間の評価を訓練履歴44に保存する。
図15は、本実施の形態に係る障害対応基準時間と障害対応時間との対応例を示す図である。図15の例では、障害対応時間が障害対応基準時間の1/2以内のため、障害対応時間の評価は◎とし、訓練履歴44に保存する。
訓練結果評価部38は、訓練履歴44に保存した評価結果74から、訓練フォローの要否を判定する。訓練履歴44に保存した評価結果は、ステップS108で保存した対応妥当性の評価、ステップS109で保存した障害復旧の成否評価、およびステップS110で保存した障害対応時間の評価の結果である。
図16は、本実施の形態に係る訓練フォロー基準表55を示す図である。
訓練フォロー基準表55では、評価結果74と、運用者に対する訓練フォローの要否と、訓練フォローの内容とが対応付けられている。
訓練結果評価部38は、訓練フォロー基準表55にしたがって訓練フォローの要否を判定する。判定の結果、要と判定された場合は、ステップS112の訓練フォローに移行する。否と判定された場合は、ステップS113の対応方法一致度判定に移行する。具体的には、図16では、対応妥当性の評価が正で、障害復旧の成否評価が成で、対応時間の評価が◎の場合、訓練フォローの要否は否と判定される。
訓練結果評価部38は、訓練フォロー基準表55を用いて、運用者に対する訓練フォローが必要か否かを判定し、運用者に対する訓練フォローが必要と判定されると、訓練フォローの内容に従って訓練フォローを行う。具体的には、訓練結果評価部38は、ステップS106で障害対応基準時間を超過した場合と、ステップS111で訓練フォロー要と判定された場合に、運用者に必要な情報を提示する。提示する情報の内容は、図16の訓練フォローの内容に示すとおりである。
図16の例では、対応妥当性の評価が否で、障害復旧の成否評価が否の場合、訓練フォローの内容として「障害復旧アシスト」が抽出される。このケースは、重要ポイントは理解しているが障害復旧できていないという状態である。「障害復旧アシスト」が抽出されたので、訓練結果評価部38は、障害復旧させるための支援情報を運用者に提示する。障害復旧させるための支援情報として、発生させた障害の内容と、対応の重要ポイントと正しい対応方法を提示する。また、訓練結果評価部38は、運用システム10の装置側で自動復旧させるといった所定のアシスト処理を実行し、運用者が速やかに障害復旧を行えるようにする。
訓練結果評価部38は、障害対応方法と登録対応方法とが一致するか否かを判定する。更新部309は、障害対応方法と登録対応方法とが一致しない場合に、障害対応方法を登録対応方法として障害情報42に登録する。具体的には、訓練結果評価部38は、障害情報42に保存されている登録対応方法と、訓練履歴44に保存した今回の障害対応方法とを比較し、一致度を判定する。
図17は、本実施の形態に係る障害情報42の登録対応方法56の例を示す図である。
登録対応方法56では、障害への対応パターンがコマンドの実行順序と実行内容で定義されている。
訓練結果評価部38は、登録対応方法56に定義されたコマンドの実行順序と実行内容と、訓練履歴44に保存した今回の障害対応方法とを比較判定する。
図19は、本実施の形態に係る訓練履歴44に保存した今回の障害対応方法58の一例を示す図である。
図20は、本実施の形態に係る訓練履歴44に保存した今回の障害対応方法58aの他例を示す図である。
訓練結果評価部38は、図18に示すようなコマンド実行のログを取得しておく。そして、訓練結果評価部38は、実行されたコマンドを図19に示すように訓練履歴44に記録する。訓練結果評価部38は、図17と図19を比較することで、対応方法の一致度を判定する。図17と図19の例では、実行順序と実行内容が全て一致している。一方、訓練履歴44に保存した今回の障害対応方法が図20の場合、図17と図20とを比較すると、実行順序が一部異なる。この場合は、訓練結果評価部38は、一部不一致と判定する。また、実行順序と実行内容が全く異なる場合は、訓練結果評価部38は、完全不一致と判定する。全て一致していると判定した場合は、ステップS115に移行する。一部不一致、あるいは、完全不一致と判定した場合は、原因特定も障害復旧も障害対応基準時間内で正しくできた上で障害に対する新しい対応方法が見つかったことを意味し、ステップS114に移行する。
障害情報更新部39は、訓練履歴44に保存した今回の障害対応方法を取得し、障害情報42の登録対応方法として新規で追加登録する。
図21は、本実施の形態に係る障害情報42において今回の障害対応方法を対応パターン2として新規登録した例を示す図である。
運用者情報更新部391は、ステップS108、ステップS109、ステップS110、およびステップS111の結果から運用者のスキルを判定し、運用者情報43を更新する。
図22は、本実施の形態に係る運用判定基準表57を示す図である。
運用者情報更新部391は、運用判定基準表57に従って、運用者情報43を更新する。
図22では、運用者10015が対応妥当性の評価が正、障害復旧の成否評価が成、および訓練フォローの要否が否であった場合、運用者10015の対応可能障害難易度をレベルアップすると設定されている。よって、運用者10015の現在の対応可能障害難易度が図8に示すように低の場合は、現在の低からレベルアップして中となる。このように、運用者情報更新部391は、運用者情報43の運用者スキル一覧の対応可能障害難易度を更新する。
図23は、本実施の形態に係る障害対応訓練装置20のハードウェア構成を示す図である。
障害対応訓練装置20は、コンピュータである。障害対応訓練装置20は、プロセッサ910を備えるとともに、メモリ921、補助記憶装置922、入力インタフェース930、出力インタフェース940、および通信装置950といった他のハードウェアを備える。プロセッサ910は、信号線を介して他のハードウェアと接続され、これら他のハードウェアを制御する。
プロセッサ910は、演算処理を行うIC(Integrated Circuit)である。プロセッサ910の具体例は、CPU、DSP(Digital Signal Processor)、GPU(Graphics Processing Unit)である。
補助記憶装置922は、データを保管する記憶装置である。補助記憶装置922の具体例は、HDDである。また、補助記憶装置922は、SD(登録商標)メモリカード、CF、NANDフラッシュ、フレキシブルディスク、光ディスク、コンパクトディスク、ブルーレイ(登録商標)ディスク、DVDといった可搬記憶媒体であってもよい。なお、HDDは、Hard Disk Driveの略語である。SD(登録商標)は、Secure Digitalの略語である。CFは、CompactFlash(登録商標)の略語である。DVDは、Digital Versatile Diskの略語である。
出力インタフェース940は、ディスプレイといった出力機器のケーブルが接続されるポートである。出力インタフェース940は、具体的には、USB端子またはHDMI(登録商標)(High Definition Multimedia Interface)端子である。ディスプレイは、具体的には、LCD(Liquid Crystal Display)である。
障害対応訓練プログラムは、上述の各部の「部」を「処理」、「手順」あるいは「工程」に読み替えた各処理、各手順あるいは各工程を、コンピュータに実行させる。また、障害対応訓練方法は、障害対応訓練装置20が障害対応訓練プログラムを実行することにより行われる方法である。
障害対応訓練プログラムは、コンピュータ読取可能な記録媒体に格納されて提供されてもよい。また、障害対応訓練プログラムは、プログラムプロダクトとして提供されてもよい。
本実施の形態では、訓練装置30の機能がソフトウェアで実現される。変形例として、訓練装置30の機能がハードウェアで実現されてもよい。
訓練装置30の機能がハードウェアで実現される場合、障害対応訓練装置20は、プロセッサに替えて電子回路を備える。
電子回路は、具体的には、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ロジックIC、GA、ASIC、または、FPGAである。GAは、Gate Arrayの略語である。ASICは、Application Specific Integrated Circuitの略語である。FPGAは、Field−Programmable Gate Arrayの略語である。
訓練装置30の機能は、1つの電子回路で実現されてもよいし、複数の電子回路に分散して実現されてもよい。
別の変形例として、訓練装置30の一部の機能が電子回路で実現され、残りの機能がソフトウェアで実現されてもよい。
本実施の形態に係る障害対応訓練装置では、効率的な運用者の障害対応スキル向上が見込まれるという効果がある。近年のビジネススピードの向上に対応するため、短期間で効率的な運用者の障害対応スキル向上が必要となっている。本実施の形態に係る障害対応訓練装置によれば、運用者の障害対応スキルに合わせて障害を選び、また本番環境という実際の障害対応に近い状態で訓練を実施するため、効率的に運用者の訓練を行うことができる。
本実施の形態に係る障害対応訓練装置によれば、障害復旧できたか、および、原因特定が正しくできたかといった重要ポイントの評価と、障害対応方法の評価を組み合わせて評価することができる。また新しく見つかった障害対応方法を、随時、新規登録パターンとして更新していくことができる。
また、実施の形態1のうち、複数の部分を組み合わせて実施しても構わない。あるいは、この実施の形態のうち、1つの部分を実施しても構わない。その他、この実施の形態を、全体としてあるいは部分的に、どのように組み合わせて実施しても構わない。
すなわち、実施の形態1では、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
Claims (14)
- 運用者が運用する運用システムに障害を発生させることにより、前記運用者の障害対応訓練を行う障害対応訓練装置において、
前記運用者が対応可能な障害の難易度を含む運用者情報と、障害一覧と前記障害一覧に含まれる各障害の難易度とを含む障害情報とに基づいて、前記運用者の障害対応訓練として発生させる障害を訓練用障害として前記障害一覧から選択する選択部と、
前記運用システムの状況を表すシステム情報に基づいて、前記運用システムに前記訓練用障害を発生させた場合の前記運用システムへの影響が許容範囲以内か否かを判定する影響予測部と、
前記運用システムへの影響が許容範囲以内の場合に、前記運用システムに前記訓練用障害を発生させる訓練実行部と
を備えた障害対応訓練装置。 - 前記運用者情報は、前記運用者が有する障害対応スキルの種類を含み、
前記障害情報は、前記障害一覧に含まれる各障害の対応に必要なスキルの種類を含み、
前記選択部は、
前記必要なスキルの種類を前記運用者がすべて有している障害を前記訓練用障害として前記障害一覧から選択する請求項1に記載の障害対応訓練装置。 - 前記運用システムでは、前記運用システムの利用者に対して提供されるサービスのレベルがサービスレベル合意として設定されており、
前記影響予測部は、
前記運用システムに前記訓練用障害を発生させた場合に、前記利用者に対して提供されるサービスが前記サービスレベル合意を満たす場合に前記運用システムへの影響が許容範囲以内であると判定する請求項1または請求項2に記載の障害対応訓練装置。 - 前記障害対応訓練装置は、
前記運用者による前記訓練用障害への障害対応が完了すると、前記障害対応を評価する評価結果を出力する訓練結果評価部と、
前記障害対応の内容を表す障害対応情報と前記評価結果とに基づいて、前記運用者情報について前記運用者が対応可能な障害の難易度を更新する更新部と
を備えた請求項1から請求項3のいずれか1項に記載の障害対応訓練装置。 - 前記障害情報は、前記障害一覧に含まれる各障害への対応方法を登録対応方法として含み、
前記更新部は、
前記障害対応情報と前記評価結果とに基づいて、前記障害情報に含まれる前記登録対応方法を更新する請求項4に記載の障害対応訓練装置。 - 前記障害対応訓練装置は、
前記訓練用障害への対応方法を障害対応方法として前記障害対応情報に設定し、前記障害対応情報を訓練履歴に保存する訓練内容記録部を備え、
前記訓練結果評価部は、
前記障害対応方法と前記登録対応方法とが一致するか否かを判定し、
前記更新部は、
前記障害対応方法と前記登録対応方法とが一致しない場合に、前記障害対応方法を前記登録対応方法として前記障害情報に登録する請求項5に記載の障害対応訓練装置。 - 前記障害対応訓練装置は、
前記運用者から、前記訓練用障害の原因と前記障害対応における重要ポイントとを含む前記障害対応情報を取得する原因取得部を備え、
前記訓練結果評価部は、
前記原因取得部により取得された前記障害対応情報に基づいて、前記運用者の前記障害対応の妥当性の評価を含む前記評価結果を出力する請求項4から請求項6のいずれか1項に記載の障害対応訓練装置。 - 前記障害対応訓練装置は、
前記運用者から、前記訓練用障害の原因と前記障害対応における重要ポイントとを含む前記障害対応情報を取得する原因取得部と、
前記原因取得部により取得された前記障害対応情報に基づいて、前記運用者による前記障害対応の妥当性の評価を前記運用者から取得する原因評価取得部と
を備え、
前記訓練結果評価部は、
前記原因評価取得部により取得された前記妥当性の評価を含む前記評価結果を出力する請求項4から請求項6のいずれか1項に記載の障害対応訓練装置。 - 前記訓練結果評価部は、
前記運用システムの復旧の成否の評価を行い、前記運用システムの復旧の成否の評価を前記評価結果に含める請求項4から請求項8のいずれか1項に記載の障害対応訓練装置。 - 前記訓練結果評価部は、
前記障害対応にかけた障害対応時間の評価を行い、前記障害対応時間の評価を前記評価結果に含める請求項4から請求項9のいずれか1項に記載の障害対応訓練装置。 - 前記障害対応訓練装置は、
前記評価結果と、前記運用者に対する訓練フォローの要否と、前記訓練フォローの内容とを対応付けた訓練フォロー基準表を備え、
前記訓練結果評価部は、
前記訓練フォロー基準表を用いて、前記運用者に対する訓練フォローが必要か否かを判定し、前記運用者に対する訓練フォローが必要と判定されると、前記訓練フォローの内容に従って前記訓練フォローを行う請求項4から請求項10のいずれか1項に記載の障害対応訓練装置。 - 前記訓練実行部は、
前記運用システムに前記訓練用障害を発生させる際に、前記運用者に対して訓練であることを通知する訓練通知を送信する請求項1から請求項11のいずれか1項に記載の障害対応訓練装置。 - 運用者が運用する運用システムに障害を発生させることにより、前記運用者の障害対応訓練を行う障害対応訓練装置の障害対応訓練方法において、
選択部が、前記運用者が対応可能な障害の難易度を含む運用者情報と、障害一覧と前記障害一覧に含まれる各障害の難易度とを含む障害情報とに基づいて、前記運用者の障害対応訓練として発生させる障害を訓練用障害として前記障害一覧から選択し、
影響予測部が、前記運用システムの状況を表すシステム情報に基づいて、前記運用システムに前記訓練用障害を発生させた場合の前記運用システムへの影響が許容範囲以内か否かを判定し、
訓練実行部が、前記運用システムへの影響が許容範囲以内の場合に、前記運用システムに前記訓練用障害を発生させる障害対応訓練方法。 - 運用者が運用する運用システムに障害を発生させることにより、前記運用者の障害対応訓練を行う障害対応訓練装置の障害対応訓練プログラムにおいて、
前記運用者が対応可能な障害の難易度を含む運用者情報と、障害一覧と前記障害一覧に含まれる各障害の難易度とを含む障害情報とに基づいて、前記運用者の障害対応訓練として発生させる障害を訓練用障害として前記障害一覧から選択する選択処理と、
前記運用システムの状況を表すシステム情報に基づいて、前記運用システムに前記訓練用障害を発生させた場合の前記運用システムへの影響が許容範囲以内か否かを判定する影響予測処理と、
前記運用システムへの影響が許容範囲以内の場合に、前記運用システムに前記訓練用障害を発生させる訓練実行処理と
をコンピュータである前記障害対応訓練装置に実行させる障害対応訓練プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018115809A JP7034014B2 (ja) | 2018-06-19 | 2018-06-19 | 障害対応訓練装置、障害対応訓練方法および障害対応訓練プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018115809A JP7034014B2 (ja) | 2018-06-19 | 2018-06-19 | 障害対応訓練装置、障害対応訓練方法および障害対応訓練プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019219473A true JP2019219473A (ja) | 2019-12-26 |
JP7034014B2 JP7034014B2 (ja) | 2022-03-11 |
Family
ID=69096541
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018115809A Active JP7034014B2 (ja) | 2018-06-19 | 2018-06-19 | 障害対応訓練装置、障害対応訓練方法および障害対応訓練プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7034014B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220076181A1 (en) * | 2019-01-29 | 2022-03-10 | Nippon Telegraph And Telephone Corporation | Estimation method, estimation device, and estimation program |
CN115064042A (zh) * | 2022-06-29 | 2022-09-16 | 河南赛伦交通科技有限公司 | 一种铁路电务信号原理电路故障智能设置系统及方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004333550A (ja) * | 2003-04-30 | 2004-11-25 | Tokyo Electric Power Co Inc:The | 訓練支援システム |
JP2007094210A (ja) * | 2005-09-29 | 2007-04-12 | Chugoku Electric Power Co Inc:The | 教育システム、方法およびプログラム |
JP2014149450A (ja) * | 2013-02-01 | 2014-08-21 | Chugoku Electric Power Co Inc:The | 障害対応訓練システム及び障害対応訓練方法 |
US8910294B1 (en) * | 2013-12-18 | 2014-12-09 | State Farm Mutual Automobile Insurance Company | System and method for application failure testing in a cloud computing environment |
JP2017135563A (ja) * | 2016-01-27 | 2017-08-03 | 富士通株式会社 | 試験装置、ネットワークシステム、及び試験方法 |
US9824000B1 (en) * | 2015-10-21 | 2017-11-21 | Amazon Technologies, Inc. | Testing calling code dynamically with random error injection based on user-specified configuration |
-
2018
- 2018-06-19 JP JP2018115809A patent/JP7034014B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004333550A (ja) * | 2003-04-30 | 2004-11-25 | Tokyo Electric Power Co Inc:The | 訓練支援システム |
JP2007094210A (ja) * | 2005-09-29 | 2007-04-12 | Chugoku Electric Power Co Inc:The | 教育システム、方法およびプログラム |
JP2014149450A (ja) * | 2013-02-01 | 2014-08-21 | Chugoku Electric Power Co Inc:The | 障害対応訓練システム及び障害対応訓練方法 |
US8910294B1 (en) * | 2013-12-18 | 2014-12-09 | State Farm Mutual Automobile Insurance Company | System and method for application failure testing in a cloud computing environment |
US9824000B1 (en) * | 2015-10-21 | 2017-11-21 | Amazon Technologies, Inc. | Testing calling code dynamically with random error injection based on user-specified configuration |
JP2017135563A (ja) * | 2016-01-27 | 2017-08-03 | 富士通株式会社 | 試験装置、ネットワークシステム、及び試験方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220076181A1 (en) * | 2019-01-29 | 2022-03-10 | Nippon Telegraph And Telephone Corporation | Estimation method, estimation device, and estimation program |
CN115064042A (zh) * | 2022-06-29 | 2022-09-16 | 河南赛伦交通科技有限公司 | 一种铁路电务信号原理电路故障智能设置系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
JP7034014B2 (ja) | 2022-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9940227B2 (en) | Identifying severity of test execution failures by analyzing test execution logs | |
CN102567180B (zh) | 用于分布式处理系统中的相关警报传送的方法和系统 | |
US8201019B2 (en) | Data storage device in-situ self test, repair, and recovery | |
US8286034B2 (en) | Accurate fault status tracking of variable access sensors | |
US10552242B2 (en) | Runtime failure detection and correction | |
JP7034014B2 (ja) | 障害対応訓練装置、障害対応訓練方法および障害対応訓練プログラム | |
CN114675791B (zh) | 一种磁盘处理方法、系统及电子设备 | |
CN110275992B (zh) | 应急处理方法、装置、服务器及计算机可读存储介质 | |
JP5949785B2 (ja) | 情報処理方法、装置及びプログラム | |
CN112817883A (zh) | 接口平台的适配方法、设备、系统及计算机可读存储介质 | |
CN110928782A (zh) | 应用安全管理方法、装置、电子设备及存储介质 | |
CN110968456A (zh) | 分布式存储系统中故障磁盘的处理方法及装置 | |
JP6547649B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP2018169920A (ja) | 管理装置、管理方法及び管理プログラム | |
JP2021015321A (ja) | 手順特定装置、計算モデル生成装置、手順特定方法、手順特定プログラム、計算モデル生成方法、計算モデル生成プログラム、学習データ生成装置及び計算プログラム | |
WO2016078224A1 (zh) | 一种信息处理方法、装置及计算机存储介质 | |
JP4530645B2 (ja) | コンピュータシステムの監視装置および監視方法 | |
JP2015032068A (ja) | 情報処理画面出力装置、情報処理画面出力プログラム、および情報処理画面出力システム | |
JP2011159234A (ja) | 障害対応システム及び障害対応方法 | |
WO2022264332A1 (ja) | 登録装置、登録方法、及びプログラム | |
CN113656208B (zh) | 分布式存储系统数据处理方法、装置、设备及存储介质 | |
US11695617B2 (en) | Alarm monitoring system, alarm monitoring method, and program | |
US11606260B1 (en) | Consensus-based node retirement process in a mesh | |
JP2009026052A (ja) | 障害監視システム、マネージャ装置、障害監視方法及びプログラム | |
WO2023281688A1 (ja) | 登録装置、登録方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210311 |
|
TRDD | Decision of grant or rejection written | ||
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220126 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220201 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220301 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7034014 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |