JP7384063B2

JP7384063B2 - 障害要因推定装置及び障害要因推定方法

Info

Publication number: JP7384063B2
Application number: JP2020022674A
Authority: JP
Inventors: 光希池内; 洋一松尾; 敬志郎渡辺; 嘉文葛
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2020-02-13
Filing date: 2020-02-13
Publication date: 2023-11-21
Anticipated expiration: 2040-02-13
Also published as: JP2021128538A

Description

本発明は、障害要因推定装置及び障害要因推定方法に関する。

大規模化及び複雑化が進むＩＣＴシステムにおいて、発生する障害の種類や件数は増大しており、監視すべきデータの量も膨大である。こうした状況の中で、障害の切り分け業務や要因特定業務は極めて困難であり、機械学習などを用いた自動化、高精度化が求められている。

観測データに基づく機械学習を用いた障害要因特定の技術として非特許文献１に開示された技術がある。この技術では、正常状態（障害が発生していない状態）における観測データの相関が事前に学習される。その後、運用中に得られる観測データの相関が崩れた際に、それが異常として検知され、さらにどの入力データが異常に大きく寄与したかが提示される。異常に寄与したデータが分かることで障害要因も大まかに分かるため、要因特定技術の一種と考えることができる。この技術は、学習時に異常データを明示的に与える必要のないことから、機械学習の文脈では教師なし学習の一種である。

一方、非特許文献２には、異常データを用いて要因特定を行う、教師あり学習に基づいた技術が開示されている。この技術は、運用中に実際に得られる障害時の観測データをナレッジとして蓄積しておくことで、再度類似の障害が発生した際にナレッジに基づいてその障害の要因を特定する技術である。

Ikeda, Yasuhiro, et al. "Estimation of Dimensions Contributing to Detected Anomalies with Variational Autoencoders." arXiv preprint arXiv:1811.04576 (2018). C. Yuan, N. Lao, J.-r. Wen, J. Li, Z. Zhang, Y.-m. Wang, and W.-y. Ma, "Automated known problem diagnosis with event traces," in Proc. of the 1st European Conference on Computer Systems (EuroSys), pp. 375-388, 2006.

しかしながら、非特許文献１の手法では、異常に寄与するデータまでは特定できるものの、異常が発生した機器やその障害の種類までは必ずしも明示的に知ることができないという課題がある。例えば、異常に寄与したデータが、「装置Ａ・装置Ｂ間を流れるトラヒック量」だと分かったとする。このとき、装置Ａ及び装置Ｂの周辺で何かしらの異常が起こったと推測できるものの、装置Ａ及び装置Ｂのうちどちらに異常があるのか、双方に異常があるのか、また、ハードウェア障害なのか、ソフトウェア障害なのか、装置に異常はなく単にトラヒックが集中しているのか、など、障害要因（障害箇所と障害種類の組み合わせ）までは特定しきれない。

また、非特許文献２の手法では、障害要因と障害の際の観測データをセットでナレッジに蓄えておくことで、明示的に障害要因まで特定することが可能である。一方で、当該手法は、異常データに依存する手法であるため、過去に起こったことのある障害にしか対応できず、低頻度障害や未知障害に対しては正しく要因特定を行うことができないという課題がある。

本発明は、上記の点に鑑みてなされたものであって、障害要因の推定精度を向上させることを目的とする。

そこで上記課題を解決するため、障害要因推定装置は、複数の障害要因をランダムに選択して人工的にシステムへ入力することで前記システムに複数回の第１の障害を発生させる第１の入力部と、前記第１の障害が発生するたびに前記システムにおいて観測されるデータを取得する第１の取得部と、前記第１の障害ごとの障害要因と前記データとの組を含む複数の学習データを用いて前記障害要因と前記データとの関係性を分類器に学習させる第１の学習部と、前記第１の学習部が用いた又は前記第１の学習部が用いていない複数の前記学習データごとに前記データを学習済みの前記分類器に入力することで障害の要因を推定し、推定結果が誤っていた障害要因又は推定の確度が閾値以下であった障害要因を記録する推定部と、前記推定部が記録した障害要因を人工的にシステムへ入力することで前記システムに第２の障害を発生させる第２の入力部と、前記第２の障害が発生している前記システムにおいて観測される前記データを取得する第２の取得部と、前記第２の障害の障害要因と前記データとの組を含む学習データを用いて前記障害要因と前記データとの関係性を前記分類器に学習させる第２の学習部と、を有する。

障害要因の推定精度を向上させることができる。

本発明の実施の形態における障害要因推定装置１０のハードウェア構成例を示す図である。本発明の実施の形態における障害要因推定装置１０の機能構成例を示す図である。学習フェーズにおける障害要因推定装置１０の機能構成例を示す図である。学習フェーズにおいて障害要因推定装置１０が実行する処理手順の一例を説明するためのフローチャートである。推定フェーズにおける障害要因推定装置１０の機能構成例を示す図である。推定フェーズにおいて障害要因推定装置１０が実行する処理手順の一例を説明するためのフローチャートである。実験の評価結果を示す図である。

本実施の形態で開示される技術は、ＩＣＴシステムの障害要因を推定するための分類器（分類モデル）を学習する学習フェーズと、学習済みの分類器を用いて運用中の観測データから障害要因の推定を行う推定フェーズからなる。なお、分類器とは、例えば、サポートベクタマシン、決定木、勾配ブースティング、ランダムフォレスト、ニューラルネットワーク等のソフトウェアのモデルである。

学習フェーズについて説明する。学習フェーズでは、まず、検証環境又は運用前の本番環境のＩＣＴシステム（以下、「学習用システム」という。）において、障害要因挿入ツールを用いて、人工的又は人為的（以下、「人工的」で統一する）に障害を発生させる。障害要因挿入ツールとしては、考えうる障害を再現するために技術者が作成したスクリプトが用いられてもよいし、既存の負荷試験ツール、障害要因挿入ツール等が用いられてもよい。

続いて、人工的な障害が発生した際に得られる各種の観測データ、すなわち対象とするシステムを構成している各機器から得られるログデータや、ＣＰＵ使用率、メモリ使用量などのメトリクス、機器間を流れるトラヒックなどが取得される。本実施の形態では、挿入した障害要因をＹ、得られた観測データをＸとする。但し、観測データＸは、何らかの方法で数値ベクトルに変換する必要があり、このようにして得られた数値ベクトルを特徴ベクトルと呼び、これもＸで表すこととする。特徴ベクトルは、例えば、得られた数値データやログのカウント数などを単純に並べることで作成されてもよい。なお、障害要因Ｙは、障害の箇所と種類とを示す情報であれば、どのような形式のデータでもよい。例えば、障害要因Ｙは、障害の箇所を示す数値と、障害の種類を示す数値との組でもよい。障害の箇所とは、例えば、障害の発生している特定の装置等である。

人工的に学習用システムに挿入された障害は、その要因が分かっているため原状復旧も簡単である。そこで、観測データの取得後は、学習用システムを正常状態に復旧し、その後に新たに別の障害要因を挿入して上記のようなステップを繰り返す。なお、挿入する障害要因だけでなく、背景トラヒック等の対象システムの状態が変更されて観測データの取得が行われてもよい。

以上によりデータセット｛Ｘ_ｉ、Ｙ_ｉ｝_ｉ＝１ ^Ｎが取得される。ここで、添え字のｉは、上記のステップを表すインデックスであり、Ｎは全ステップ数である。このようにして得られた学習データを、任意の教師あり学習の分類器に入力して、当該分類器の学習を行う。以上が、学習フェーズである。

推定フェーズでは、運用中（実環境）のシステムが利用される。当該システムで障害が発生し観測データＸ'が得られたとき、Ｘ'が学習済の分類器に入力される。Ｘ'の入力に応じて分類器から得られる出力Ｙ'が求める障害要因である。以上が学習フェーズ及び推定フェーズの全体像である。

以下、図面に基づいて上記の学習フェーズ及び推定フェーズを実行する障害要因推定装置１０（コンピュータ）について具体的に説明する。

図１は、本発明の実施の形態における障害要因推定装置１０のハードウェア構成例を示す図である。図１の障害要因推定装置１０は、それぞれバスＢで相互に接続されているドライブ装置１００、補助記憶装置１０２、メモリ装置１０３、ＣＰＵ１０４、及びインタフェース装置１０５等を有する。

障害要因推定装置１０での処理を実現するプログラムは、ＣＤ－ＲＯＭ等の記録媒体１０１によって提供される。プログラムを記憶した記録媒体１０１がドライブ装置１００にセットされると、プログラムが記録媒体１０１からドライブ装置１００を介して補助記憶装置１０２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１０１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１０２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

メモリ装置１０３は、プログラムの起動指示があった場合に、補助記憶装置１０２からプログラムを読み出して格納する。ＣＰＵ１０４は、メモリ装置１０３に格納されたプログラムに従って障害要因推定装置１０に係る機能を実行する。インタフェース装置１０５は、ネットワークに接続するためのインタフェースとして用いられる。

図２は、本発明の実施の形態における障害要因推定装置１０の機能構成例を示す図である。図２において、障害要因推定装置１０は、障害要因挿入部１１、復旧部１２、前処理部１３、分類器学習部１４、障害要因推定部１５及び出力部１６を有する。これら各部は、障害要因推定装置１０にインストールされた１以上のプログラムが、ＣＰＵ１０４に実行させる処理により実現される。但し、これら各部は同一のコンピュータに含まれなくてもよく、複数のコンピュータに分散されて配置されてもよい。すなわち、障害要因推定装置１０は、複数のコンピュータによって実現されてもよい。例えば、学習フェーズと推定フェーズとにおいて異なるコンピュータが利用されてもよい。

障害要因推定装置１０は、また、観測値ＤＢ１７等のデータベース（記憶部）を利用する。観測値ＤＢ１７は、例えば、補助記憶装置１０２、又は障害要因推定装置１０にネットワークを介して接続可能な記憶装置等を用いて実現可能である。

障害要因挿入部１１は、学習フェーズにおいて、対象システムに対して障害要因を挿入することで対象システムに障害を発生させる。対象システムとは、学習フェーズにおいては、検証環境又は運用前の本番環境のシステム（学習用システム）であり、推定フェーズでは、運用中の実システムである。

復旧部１２は、障害要因挿入部１１が発生させた障害から対象システムを復旧させる。

前処理部１３は、障害発生時において対象システムから取得されるメトリクスやログなどの観測データを特徴ベクトルへ変換する。当該特徴ベクトルは、観測値ＤＢ１７に蓄積される。

分類器学習部１４は、障害要因挿入部１１が挿入した障害要因と、当該障害時における観測データ（の数値ベクトル）との関係性を、障害要因推定部１５が含む分類器に学習させる。

障害要因推定部１５は、運用中の対象システムの障害時に得られる観測データ（障害データ）を入力として、学習済みの分類器を用いて障害要因を推定する。

出力部１６は、障害要因推定部１５による推定結果を出力する。

上述した通り、本実施の形態は、人工生成した障害要因と、当該障害要因が挿入された対象システムにおいて観測される観測データとの関係性を分類器に学習させる学習フェーズと、運用中に得られる障害データを障害要因分類器に入れ障害要因を推定する推定フェーズからなる。まず、学習フェーズにおける障害要因推定装置１０について説明する。

図３は、学習フェーズにおける障害要因推定装置１０の機能構成例を示す図である。図３中、図２と同一部分には同一符号を付し、その説明は省略する。図３には、図２に示した機能構成のうち、学習フェーズにおいて機能する部分のみが示されている。

図４は、学習フェーズにおいて障害要因推定装置１０が実行する処理手順の一例を説明するためのフローチャートである。

ステップＳ１０１において、障害要因挿入部１１は、ランダム又は所定の手順に従って、対象システムに対して障害要因Ｙ_ｉを挿入（入力）することで、対象システムに障害を発生させる。

続いて、前処理部１３は、障害要因Ｙ_ｉの挿入に応じて障害が発生している状態の対象システムから得られる観測データを取得する（Ｓ１０２）。続いて、前処理部１３は、当該観測データを特徴ベクトルＸ_ｉに変換し、特徴ベクトルＸ_ｉと障害要因Ｙ_ｉと対応付けたデータセット｛Ｘ_ｉ、Ｙ_ｉ｝_ｉを観測値ＤＢ１７に保存する（Ｓ１０３）。続いて、復旧部１２は、対象システムを障害から復旧させる（Ｓ１０４）。

続いて、障害要因挿入部１１は、データ収集の終了条件が充足したか否かを判定する（Ｓ１０５）。当該終了条件は、例えば、ステップＳ１０１～Ｓ１０４の実行回数が所定数に達したことでもよいし、学習フェーズの開始時からの経過時間が所定時間に達したことでもよい。分類器の学習に十分な特徴ベクトルが観測値ＤＢ１７に蓄積された状況であることを推定できる条件であれば、他の条件が終了条件であってもよい。

終了条件が満たされていない場合（Ｓ１０５でＮｏ）、ステップＳ１０１以降が繰り返される。終了条件が満たされた場合（Ｓ１０５でＹｅｓ）、ステップＳ１０６へ進む。なお、終了条件が満たされた時点において、Ｎ個のデータセットが観測値ＤＢ１７に保存された場合、観測値ＤＢ１７には、データセット｛Ｘ_ｉ、Ｙ_ｉ｝_ｉ＝１ ^Ｎが蓄積されることになる。

ステップＳ１０６において、分類器学習部１４は、データセット｛Ｘ_ｉ、Ｙ_ｉ｝_ｉ＝１ ^Ｎを用いて、分類器を学習させる。例えば、分類器学習部１４は、分類器にＸ_ｉを入力し、分類器からの出力とＹ_ｉとの誤差に基づいて、分類器の学習パラメータを更新する。当該誤差が収束すると、分類器学習部１４は、その時点の学習パラメータを障害要因推定部１５に設定する。

次に、推定フェーズにおける障害要因推定装置１０について説明する。図５は、推定フェーズにおける障害要因推定装置１０の機能構成例を示す図である。図５中、図２と同一部分には同一符号を付し、その説明は省略する。図５には、図２に示した機能構成のうち、推定フェーズにおいて機能する部分のみが示されている。

図６は、推定フェーズにおいて障害要因推定装置１０が実行する処理手順の一例を説明するためのフローチャートである。

対象システムにおいて障害が発生すると（Ｓ２０１でＹｅｓ）、前処理部１３は、当該障害が発生している状態の対象システムから観測データを取得する（Ｓ２０２）。続いて、前処理部１３は、当該観測データを特徴ベクトルに変換する（Ｓ２０３）。

続いて、障害要因推定部１５は、学習済みの分類器を用いて当該障害の要因を推定する（Ｓ２０４）。すなわち、障害要因推定部１５は、当該特徴ベクトルを分類器に入力することで分類器から出力される結果を、障害要因として推定する。続いて、出力部１６は、障害要因推定部１５によって推定された障害要因を示す情報を出力する（Ｓ２０５）。当該情報の出力形態は所定のものに限定されない。例えば、表示装置への当該情報の表示であってもよいし、障害要因推定装置１０にネットワークを介して接続される端末への当該情報の送信であってもよいし、補助記憶装置１０２への当該情報の保存であってもよい。対象システムの運用者は、当該情報を参照することで、対象システムにおいて発生している障害の要因を確認することができる。

続いて、上記の学習フェーズ及び推定フェーズを実施する上で生じうるいくつかの課題とその解決策について述べる。

［課題１］
本実施の形態の学習フェーズでは、障害要因の挿入後に観測データの収集を行い原状復旧するというステップを何度も繰り返すことになる。対象システムによってはこの１ステップに時間を要したり、１ステップの実施が技術的に困難であったりする可能性が有る。例えば、サーバに何らかの障害要因を挿入した後、再起動やバックアップにより原状復旧しようとした場合、数分のオーダーで時間がかかる場合が有る。完全に同じ状態に復旧できているかを確認するのも困難である場合が有る。また、障害要因の挿入の方法も難しい場合がある。

［課題１の解決策］
本実施の形態では、観測データについて、機械学習を行える程度のデータ量が必要であるため、１ステップに要する時間及び困難性ができるだけ小さいのが望ましい。そこで、上記のような課題がある場合、対象システムをコンテナ基盤などの仮想環境で模擬し、当該仮想環境においてデータの収集を実施するという解決策がある。コンテナであれば、再起動に要する時間は数秒程度であり、Ｋｕｂｅｒｎｅｔｅｓなどのようなオーケストレータも利用することができるため、複数台のコンテナに関する操作も容易である。また、コンテナは、イメージファイルで管理されるため、完全に同じ状態に復旧することができる。さらに、近年カオスエンジニアリングの取組の中で様々な障害要因挿入ツールが開発されているため（例えば、「Rosenthal, Casey, et al. Chaos Engineering. O'Reilly Media, Incorporated, 2017」参照）、多種多様な障害を容易に挿入することができる。

この場合、学習フェーズ（図４）における対象システムは、仮想環境のコンテナとされる。すなわち、障害要因挿入部１１は、コンテナに対して障害要因を挿入し、前処理部１３は、コンテナから観測データを取得する。また、復旧部１２は、Ｋｕｂｅｒｎｅｔｅｓなどのようなオーケストレータ等を用いて短時間で対象システム（コンテナ）を障害から復旧させる。

［課題２］
本実施の形態では、様々な障害要因を挿入して観測データを取得するが、挿入する障害要因の選択をランダムに、又は均等にすることは必ずしも得策ではない。同じ障害を複数回挿入した場合、ほとんど同じ観測データしか得られない障害もあれば、観測データが大きく揺らぐような障害もある。このような場合、後者のような障害について多数の障害要因挿入を行ってデータを取得するのが望ましい。また、他の障害と比べて全く異なる特徴的な観測データが得られる障害もあれば、他の障害に非常に類似した観測データが得られる障害もある。このような場合も、後者のような障害について多数の障害要因挿入を行うことで、観測データが類似する障害を区別できるようにするのが望ましい。このように、挿入する障害要因の選択方法は、分類器の精度や、学習に十分なデータを取得するまでの時間に大きな影響を与える。

［課題２の解決策］
そこで、次のような挿入障害の選択方法を採用することで、効果的に観測データを取得することが考えられる。まず、或る程度ランダムに障害要因を挿入して観測データを取得し、取得された観測データを用いて分類器を学習する。その後、改めて障害要因を挿入することで取得される観測データを分類器に入力することで、誤った結果を出力する障害や、推定の確度（確率、尤度）が低い障害を特定し、当該障害に関して、再度重点的に障害要因を挿入して観測データを取得する。このようにすることで、効率よく観測データを収集することができる。

この場合、まず、学習フェーズ（図４）のステップＳ１０１において、障害要因挿入部１１は、対象システムに挿入する障害要因をランダムに選択する。当該学習フェーズが終了すると、障害要因推定装置１０は、擬似的な推定フェーズを実行する。擬似的な推定フェーズとは、図６のステップＳ２０１において発生する障害が、学習データ群に基づく障害要因挿入部１１による障害要因の挿入によって人工的に発生する障害である推定フェーズをいい、複数回（例えば、学習データの数だけ）繰り返される。但し、擬似的な推定フェーズにおいて利用される学習データと、学習フェーズにおいて利用される学習データとは、異なっていてもよい。この際、ステップＳ２０４において、障害要因推定部１５は、自らの推定結果と、学習データにおける障害要因とを比較することで、推定結果について正誤を判定する。又は、障害要因推定部１５は、学習データにおける障害要因に対する自らの推定の確度（確率、尤度）が閾値以下であるか否かを判定する。障害要因推定部１５は、推定結果が誤っていた障害要因又は推定の確度が閾値以下であった障害要因を、例えば、補助記憶装置１０２に記録する。擬似的な推定フェーズが終了すると、障害要因推定装置１０は、再度学習フェーズ（図４）を実行する。この際、障害要因挿入部１１は、ステップＳ１０１において、擬似的な推定フェーズにおいて記録された障害要因（すなわち、推定結果が正しくなかった障害要因又は推定の確度が低かった障害要因）を挿入する。その結果、障害要因挿入部１１は、障害要因の推定結果（推定精度）に応じて、特定の種類の障害について障害要因の挿入回数（入力回数）を変更（増加）し、前処理部１３は、障害要因の種別によって、観測データの取得回数を変更（増加）することになる。

［課題３］
学習フェーズにおいて観測データを取得する際、その種類（特徴ベクトルの次元数）や容量が多く、観測データの収集期間が長時間化したり、分類器の学習が長時間化したりする可能性がある。このような場合は、出来るだけ障害要因の推定精度を高く保ったまま、取得する観測データを制限するような方法が必要となる。

［課題３の解決策］
初めはできるだけ制限せずに多くの種類の観測データ（多くの種類の特徴量）を収集し、当該観測データを用いて分類器を学習する。その後、改めて障害要因の挿入を行うことで取得される観測データを分類器に入力し、障害要因の推定を行わせる。このとき障害要因の推定を行う上で、どの特徴量（どの種類の観測データ）が重要となったかを知るために、各特徴量（観測データの各要素）の寄与度を算出する。例えば、分類器としてニューラルネットワークを用いる場合、例えば、「Shrikumar, Avanti, Peyton Greenside, and Anshul Kundaje. "Learning important features through propagating activation differences." Proceedings of the 34th International Conference on Machine Learning-Volume 70. JMLR. org, 2017.」に開示された手法を用いることで寄与度を算出できる。このようにして得られた寄与度が大きい特徴量のみ（例えば、ある閾値以上の寄与度を持つ特徴量のみ、又は寄与度が上位Ｍ位（Ｍは適当に与える）の特徴量のみ）を、今後の収集対象として、障害要因の挿入、観測データの取得を繰り返せばよい。

この場合、最初の学習フェーズ（図４）のステップＳ１０２において、前処理部１３は、特段の制限無しに、多くの種類の観測データを取得する。学習フェーズが終了すると、障害要因推定装置１０は、擬似的な推定フェーズを実行する。擬似的な推定フェーズの意味は上記と同じである。但し、ここでは、ステップＳ２０４において、障害要因推定部１５は、特徴量ごと（すなわち、数値ベクトルの要素ごと）に寄与度を算出し、各特徴量の寄与度を補助記憶装置１０２に記録する。したがって、擬似的な推定フェーズの学習データの数だけ各特徴量の寄与度が補助記憶装置１０２に記録される。擬似的な推定フェーズが終了した後の学習フェーズ（図４）のステップＳ１０２において、前処理部１３は、補助記憶装置１０２に記録されている寄与度の平均が閾値以上の特徴量のみ、又は寄与度の平均が上位Ｍ番目までの特徴量のみを観測データとして取得する。

次に、本実施の形態について実際に行った実験の結果について説明する。

コンテナ型仮想環境のオーケストレータであるＫｕｂｅｒｎｅｔｅｓを用いてＫｕｂｅｒｎｅｔｅｓクラスタを作成し、その中にｗｅｂ３層環境を構築した。実験では、コンテナで実現されたｗｅｂ３層環境を、本実施の形態における検証環境及び実環境とみなす。Ｗｅｂ３層環境はＮｇｉｎｘ、Ｒａｉｌｓ、ＭｙＳＱＬの３コンテナから構成されたものが２セットあり、全６コンテナからなる環境である。背景トラヒックとして、負荷試験ツールによりｈｔｔｐリクエストをランダムに発生させた。また、障害として、６個中のいずれか１個のコンテナに８０％のパケットロス又は１００００±１０００ｍｓの遅延のいずれかを障害要因として挿入した。すなわち、特定すべき障害要因としては、全部で１３種類（障害箇所６×障害の種類２＋正常状態１）である。各コンテナにおける流入出トラヒックやＣＰＵ使用率／メモリ使用量等のメトリクスを収集し観測データとした。特徴ベクトルとしては、生データをスケーリングしたもの（ｒａｗ：入力次元２６）、各ログのカウント数を加えたもの（ｗ／ｌｏｇ：入力次元４２）、ｔｒａｎｓｍｉｔ／ｒｅｃｅｉｖｅ比を加えたもの（ｗ／ｒａｔｉｏ：入力次元３４）、ログとｔｒａｎｓｍｉｔ／ｒｅｃｅｉｖｅ比の双方を加えたもの（ｗ／ｌｏｇ＋ｒａｔｉｏ：入力次元５０）の４種類を作成した。学習データ数は４６０９組、推定フェーズで用いるテストデータ数は１１５３組となった。分類器としては、サポートベクタマシン、決定木、勾配ブースティング、ランダムフォレスト、ニューラルネットワークを用いた。

図７は、実験の評価結果を示す図である。評価指標としてはＰｒｅｃｉｓｉｏｎ、Ｒｅｃａｌｌ、Ｆ１スコアを用いている。いずれの分類器の場合も、適切に学習を行えば、８割程度の高精度で障害要因を特定できていることが分かり、本実施の形態の有効性を示している。

上述したように、本実施の形態では、ＩＣＴシステムに対して様々な障害要因を人工的に挿入（入力）し、当該障害要因に起因して障害が発生している状態のＩＣＴシステムにおいて観測されるデータを取得し、当該障害要因と当該データとの組を用いて教師あり学習の枠組みで分類器を学習させる。運用中には、障害が発生している状態のＩＣＴシステムにおいて観測される障害データを当該学習器に入力することで、当該障害の要因が推定される。

したがって、運用中に起こったことのない、又は起きる頻度の少ない障害（すなわち、運用中に十分な観測データが集まらない（十分な知見が得られない）ような障害）であってもその要因と観測データとの関係性を分類器に学習させることができ、当該分類器を用いて、明示的に障害要因を突き止めることができるようになる。その結果、障害要因の推定精度を向上させることができ、システム運用の大幅な負担削減を期待することができる。

なお、本実施の形態において、障害要因挿入部１１は、入力部の一例である。前処理部１３は、第１の取得部及び第２の取得部の一例である。分類器学習部１４は、学習部の一例である。障害要因推定部１５は、推定部の一例である。学習用システムは、第１のシステムの一例である。実システムは、第２のシステムの一例である。

以上、本発明の実施の形態について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

１０障害要因推定装置
１１障害要因挿入部
１２復旧部
１３前処理部
１４分類器学習部
１５障害要因推定部
１６出力部
１７観測値ＤＢ
１００ドライブ装置
１０１記録媒体
１０２補助記憶装置
１０３メモリ装置
１０４ＣＰＵ
１０５インタフェース装置
Ｂバス

Claims

複数の障害要因をランダムに選択して人工的にシステムへ入力することで前記システムに複数回の第１の障害を発生させる第１の入力部と、
前記第１の障害が発生するたびに前記システムにおいて観測されるデータを取得する第１の取得部と、
前記第１の障害ごとの障害要因と前記データとの組を含む複数の学習データを用いて前記障害要因と前記データとの関係性を分類器に学習させる第１の学習部と、
前記第１の学習部が用いた又は前記第１の学習部が用いていない複数の前記学習データごとに前記データを学習済みの前記分類器に入力することで障害の要因を推定し、推定結果が誤っていた障害要因又は推定の確度が閾値以下であった障害要因を記録する推定部と、
前記推定部が記録した障害要因を人工的にシステムへ入力することで前記システムに第２の障害を発生させる第２の入力部と、
前記第２の障害が発生している前記システムにおいて観測される前記データを取得する第２の取得部と、
前記第２の障害の障害要因と前記データとの組を含む学習データを用いて前記障害要因と前記データとの関係性を前記分類器に学習させる第２の学習部と、
を有することを特徴とする障害要因推定装置。
複数の障害要因を人工的にシステムへ入力することで前記システムに複数回の第１の障害を発生させる第１の入力部と、
前記第１の障害が発生するたびに前記システムにおいて観測される複数の種類のデータを取得する第１の取得部と、
前記第１の障害ごとの障害要因と前記複数の種類のデータとの組を含む複数の学習データを用いて前記障害要因と前記複数の種類のデータとの関係性を分類器に学習させる第１の学習部と、
前記第１の学習部が用いた又は前記第１の学習部が用いていない複数の前記学習データごとに前記複数の種類のデータを学習済みの前記分類器に入力することで障害の要因を推定すると共に、前記種類ごとに算出した寄与度を記録する推定部と、
前記推定部が推定した障害要因を人工的にシステムへ入力することで前記システムに第２の障害を発生させる第２の入力部と、
前記第２の障害が発生している前記システムにおいて観測される前記複数の種類のデータを取得する第２の取得部と、
前記第２の障害の障害要因と前記複数の種類のデータのうち前記寄与度の平均が閾値以上である種類のデータとの組を含む学習データを用いて前記障害要因と前記寄与度の平均が閾値以上である種類のデータとの関係性を前記分類器に学習させる第２の学習部と、
を有することを特徴とする障害要因推定装置。
複数の障害要因をランダムに選択して人工的にシステムへ入力することで前記システムに複数回の第１の障害を発生させる第１の入力手順と、
前記第１の障害が発生するたびに前記システムにおいて観測されるデータを取得する第１の取得手順と、
前記第１の障害ごとの障害要因と前記データとの組を含む複数の学習データを用いて前記障害要因と前記データとの関係性を分類器に学習させる第１の学習手順と、
前記第１の学習手順が用いた又は前記第１の学習手順が用いていない複数の前記学習データごとに前記データを学習済みの前記分類器に入力することで障害の要因を推定し、推定結果が誤っていた障害要因又は推定の確度が閾値以下であった障害要因を記録する推定手順と、
前記推定手順が記録した障害要因を人工的にシステムへ入力することで前記システムに第２の障害を発生させる第２の入力手順と、
前記第２の障害が発生している前記システムにおいて観測される前記データを取得する第２の取得手順と、
前記第２の障害の障害要因と前記データとの組を含む学習データを用いて前記障害要因と前記データとの関係性を前記分類器に学習させる第２の学習手順と、
をコンピュータが実行することを特徴とする障害要因推定方法。
複数の障害要因を人工的にシステムへ入力することで前記システムに複数回の第１の障害を発生させる第１の入力手順と、
前記第１の障害が発生するたびに前記システムにおいて観測される複数の種類のデータを取得する第１の取得手順と、
前記第１の障害ごとの障害要因と前記複数の種類のデータとの組を含む複数の学習データを用いて前記障害要因と前記複数の種類のデータとの関係性を分類器に学習させる第１の学習手順と、
前記第１の学習手順が用いた又は前記第１の学習手順が用いていない複数の前記学習データごとに前記複数の種類のデータを学習済みの前記分類器に入力することで障害の要因を推定すると共に、前記種類ごとに算出した寄与度を記録する推定手順と、
前記推定手順が推定した障害要因を人工的にシステムへ入力することで前記システムに第２の障害を発生させる第２の入力手順と、
前記第２の障害が発生している前記システムにおいて観測される前記複数の種類のデータを取得する第２の取得手順と、
前記第２の障害の障害要因と前記複数の種類のデータのうち前記寄与度の平均が閾値以上である種類のデータとの組を含む学習データを用いて前記障害要因と前記寄与度の平均が閾値以上である種類のデータとの関係性を前記分類器に学習させる第２の学習手順と、
をコンピュータが実行することを特徴とする障害要因推定方法。