JP7384063B2 - 障害要因推定装置及び障害要因推定方法 - Google Patents

障害要因推定装置及び障害要因推定方法 Download PDF

Info

Publication number
JP7384063B2
JP7384063B2 JP2020022674A JP2020022674A JP7384063B2 JP 7384063 B2 JP7384063 B2 JP 7384063B2 JP 2020022674 A JP2020022674 A JP 2020022674A JP 2020022674 A JP2020022674 A JP 2020022674A JP 7384063 B2 JP7384063 B2 JP 7384063B2
Authority
JP
Japan
Prior art keywords
failure
data
learning
failure factor
estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020022674A
Other languages
English (en)
Other versions
JP2021128538A (ja
Inventor
光希 池内
洋一 松尾
敬志郎 渡辺
嘉文 葛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2020022674A priority Critical patent/JP7384063B2/ja
Publication of JP2021128538A publication Critical patent/JP2021128538A/ja
Application granted granted Critical
Publication of JP7384063B2 publication Critical patent/JP7384063B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、障害要因推定装置及び障害要因推定方法に関する。
大規模化及び複雑化が進むICTシステムにおいて、発生する障害の種類や件数は増大しており、監視すべきデータの量も膨大である。こうした状況の中で、障害の切り分け業務や要因特定業務は極めて困難であり、機械学習などを用いた自動化、高精度化が求められている。
観測データに基づく機械学習を用いた障害要因特定の技術として非特許文献1に開示された技術がある。この技術では、正常状態(障害が発生していない状態)における観測データの相関が事前に学習される。その後、運用中に得られる観測データの相関が崩れた際に、それが異常として検知され、さらにどの入力データが異常に大きく寄与したかが提示される。異常に寄与したデータが分かることで障害要因も大まかに分かるため、要因特定技術の一種と考えることができる。この技術は、学習時に異常データを明示的に与える必要のないことから、機械学習の文脈では教師なし学習の一種である。
一方、非特許文献2には、異常データを用いて要因特定を行う、教師あり学習に基づいた技術が開示されている。この技術は、運用中に実際に得られる障害時の観測データをナレッジとして蓄積しておくことで、再度類似の障害が発生した際にナレッジに基づいてその障害の要因を特定する技術である。
Ikeda, Yasuhiro, et al. "Estimation of Dimensions Contributing to Detected Anomalies with Variational Autoencoders." arXiv preprint arXiv:1811.04576 (2018). C. Yuan, N. Lao, J.-r. Wen, J. Li, Z. Zhang, Y.-m. Wang, and W.-y. Ma, "Automated known problem diagnosis with event traces," in Proc. of the 1st European Conference on Computer Systems (EuroSys), pp. 375-388, 2006.
しかしながら、非特許文献1の手法では、異常に寄与するデータまでは特定できるものの、異常が発生した機器やその障害の種類までは必ずしも明示的に知ることができないという課題がある。例えば、異常に寄与したデータが、「装置A・装置B間を流れるトラヒック量」だと分かったとする。このとき、装置A及び装置Bの周辺で何かしらの異常が起こったと推測できるものの、装置A及び装置Bのうちどちらに異常があるのか、双方に異常があるのか、また、ハードウェア障害なのか、ソフトウェア障害なのか、装置に異常はなく単にトラヒックが集中しているのか、など、障害要因(障害箇所と障害種類の組み合わせ)までは特定しきれない。
また、非特許文献2の手法では、障害要因と障害の際の観測データをセットでナレッジに蓄えておくことで、明示的に障害要因まで特定することが可能である。一方で、当該手法は、異常データに依存する手法であるため、過去に起こったことのある障害にしか対応できず、低頻度障害や未知障害に対しては正しく要因特定を行うことができないという課題がある。
本発明は、上記の点に鑑みてなされたものであって、障害要因の推定精度を向上させることを目的とする。
そこで上記課題を解決するため、障害要因推定装置は、複数の障害要因をランダムに選択して人工的にステムへ入力することで前記ステムに複数回の第1の障害を発生させる第1の入力部と、前記第1の障害が発生するたびに記システムにおいて観測されるデータを取得する第1の取得部と、前記第1の障害ごとの障害要因と前記データとの組を含む複数の学習データを用いて前記障害要因と前記データとの関係性を分類器に学習させる第1の学習部と、前記第1の学習部が用いた又は前記第1の学習部が用いていない複数の前記学習データごとに前記データを学習済みの前記分類器に入力することで障害の要因を推定し、推定結果が誤っていた障害要因又は推定の確度が閾値以下であった障害要因を記録する推定部と、前記推定部が記録した障害要因を人工的にシステムへ入力することで前記システムに第2の障害を発生させる第2の入力部と、前記第2の障害が発生している前記システムにおいて観測される前記データを取得する第2の取得部と、前記第2の障害の障害要因と前記データとの組を含む学習データを用いて前記障害要因と前記データとの関係性を前記分類器に学習させる第2の学習部と、を有する。
障害要因の推定精度を向上させることができる。
本発明の実施の形態における障害要因推定装置10のハードウェア構成例を示す図である。 本発明の実施の形態における障害要因推定装置10の機能構成例を示す図である。 学習フェーズにおける障害要因推定装置10の機能構成例を示す図である。 学習フェーズにおいて障害要因推定装置10が実行する処理手順の一例を説明するためのフローチャートである。 推定フェーズにおける障害要因推定装置10の機能構成例を示す図である。 推定フェーズにおいて障害要因推定装置10が実行する処理手順の一例を説明するためのフローチャートである。 実験の評価結果を示す図である。
本実施の形態で開示される技術は、ICTシステムの障害要因を推定するための分類器(分類モデル)を学習する学習フェーズと、学習済みの分類器を用いて運用中の観測データから障害要因の推定を行う推定フェーズからなる。なお、分類器とは、例えば、サポートベクタマシン、決定木、勾配ブースティング、ランダムフォレスト、ニューラルネットワーク等のソフトウェアのモデルである。
学習フェーズについて説明する。学習フェーズでは、まず、検証環境又は運用前の本番環境のICTシステム(以下、「学習用システム」という。)において、障害要因挿入ツールを用いて、人工的又は人為的(以下、「人工的」で統一する)に障害を発生させる。障害要因挿入ツールとしては、考えうる障害を再現するために技術者が作成したスクリプトが用いられてもよいし、既存の負荷試験ツール、障害要因挿入ツール等が用いられてもよい。
続いて、人工的な障害が発生した際に得られる各種の観測データ、すなわち対象とするシステムを構成している各機器から得られるログデータや、CPU使用率、メモリ使用量などのメトリクス、機器間を流れるトラヒックなどが取得される。本実施の形態では、挿入した障害要因をY、得られた観測データをXとする。但し、観測データXは、何らかの方法で数値ベクトルに変換する必要があり、このようにして得られた数値ベクトルを特徴ベクトルと呼び、これもXで表すこととする。特徴ベクトルは、例えば、得られた数値データやログのカウント数などを単純に並べることで作成されてもよい。なお、障害要因Yは、障害の箇所と種類とを示す情報であれば、どのような形式のデータでもよい。例えば、障害要因Yは、障害の箇所を示す数値と、障害の種類を示す数値との組でもよい。障害の箇所とは、例えば、障害の発生している特定の装置等である。
人工的に学習用システムに挿入された障害は、その要因が分かっているため原状復旧も簡単である。そこで、観測データの取得後は、学習用システムを正常状態に復旧し、その後に新たに別の障害要因を挿入して上記のようなステップを繰り返す。なお、挿入する障害要因だけでなく、背景トラヒック等の対象システムの状態が変更されて観測データの取得が行われてもよい。
以上によりデータセット{X、Yi=1 が取得される。ここで、添え字のiは、上記のステップを表すインデックスであり、Nは全ステップ数である。このようにして得られた学習データを、任意の教師あり学習の分類器に入力して、当該分類器の学習を行う。以上が、学習フェーズである。
推定フェーズでは、運用中(実環境)のシステムが利用される。当該システムで障害が発生し観測データX'が得られたとき、X'が学習済の分類器に入力される。X'の入力に応じて分類器から得られる出力Y'が求める障害要因である。以上が学習フェーズ及び推定フェーズの全体像である。
以下、図面に基づいて上記の学習フェーズ及び推定フェーズを実行する障害要因推定装置10(コンピュータ)について具体的に説明する。
図1は、本発明の実施の形態における障害要因推定装置10のハードウェア構成例を示す図である。図1の障害要因推定装置10は、それぞれバスBで相互に接続されているドライブ装置100、補助記憶装置102、メモリ装置103、CPU104、及びインタフェース装置105等を有する。
障害要因推定装置10での処理を実現するプログラムは、CD-ROM等の記録媒体101によって提供される。プログラムを記憶した記録媒体101がドライブ装置100にセットされると、プログラムが記録媒体101からドライブ装置100を介して補助記憶装置102にインストールされる。但し、プログラムのインストールは必ずしも記録媒体101より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置102は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムを読み出して格納する。CPU104は、メモリ装置103に格納されたプログラムに従って障害要因推定装置10に係る機能を実行する。インタフェース装置105は、ネットワークに接続するためのインタフェースとして用いられる。
図2は、本発明の実施の形態における障害要因推定装置10の機能構成例を示す図である。図2において、障害要因推定装置10は、障害要因挿入部11、復旧部12、前処理部13、分類器学習部14、障害要因推定部15及び出力部16を有する。これら各部は、障害要因推定装置10にインストールされた1以上のプログラムが、CPU104に実行させる処理により実現される。但し、これら各部は同一のコンピュータに含まれなくてもよく、複数のコンピュータに分散されて配置されてもよい。すなわち、障害要因推定装置10は、複数のコンピュータによって実現されてもよい。例えば、学習フェーズと推定フェーズとにおいて異なるコンピュータが利用されてもよい。
障害要因推定装置10は、また、観測値DB17等のデータベース(記憶部)を利用する。観測値DB17は、例えば、補助記憶装置102、又は障害要因推定装置10にネットワークを介して接続可能な記憶装置等を用いて実現可能である。
障害要因挿入部11は、学習フェーズにおいて、対象システムに対して障害要因を挿入することで対象システムに障害を発生させる。対象システムとは、学習フェーズにおいては、検証環境又は運用前の本番環境のシステム(学習用システム)であり、推定フェーズでは、運用中の実システムである。
復旧部12は、障害要因挿入部11が発生させた障害から対象システムを復旧させる。
前処理部13は、障害発生時において対象システムから取得されるメトリクスやログなどの観測データを特徴ベクトルへ変換する。当該特徴ベクトルは、観測値DB17に蓄積される。
分類器学習部14は、障害要因挿入部11が挿入した障害要因と、当該障害時における観測データ(の数値ベクトル)との関係性を、障害要因推定部15が含む分類器に学習させる。
障害要因推定部15は、運用中の対象システムの障害時に得られる観測データ(障害データ)を入力として、学習済みの分類器を用いて障害要因を推定する。
出力部16は、障害要因推定部15による推定結果を出力する。
上述した通り、本実施の形態は、人工生成した障害要因と、当該障害要因が挿入された対象システムにおいて観測される観測データとの関係性を分類器に学習させる学習フェーズと、運用中に得られる障害データを障害要因分類器に入れ障害要因を推定する推定フェーズからなる。まず、学習フェーズにおける障害要因推定装置10について説明する。
図3は、学習フェーズにおける障害要因推定装置10の機能構成例を示す図である。図3中、図2と同一部分には同一符号を付し、その説明は省略する。図3には、図2に示した機能構成のうち、学習フェーズにおいて機能する部分のみが示されている。
図4は、学習フェーズにおいて障害要因推定装置10が実行する処理手順の一例を説明するためのフローチャートである。
ステップS101において、障害要因挿入部11は、ランダム又は所定の手順に従って、対象システムに対して障害要因Yを挿入(入力)することで、対象システムに障害を発生させる。
続いて、前処理部13は、障害要因Yの挿入に応じて障害が発生している状態の対象システムから得られる観測データを取得する(S102)。続いて、前処理部13は、当該観測データを特徴ベクトルXに変換し、特徴ベクトルXと障害要因Yと対応付けたデータセット{X、Yを観測値DB17に保存する(S103)。続いて、復旧部12は、対象システムを障害から復旧させる(S104)。
続いて、障害要因挿入部11は、データ収集の終了条件が充足したか否かを判定する(S105)。当該終了条件は、例えば、ステップS101~S104の実行回数が所定数に達したことでもよいし、学習フェーズの開始時からの経過時間が所定時間に達したことでもよい。分類器の学習に十分な特徴ベクトルが観測値DB17に蓄積された状況であることを推定できる条件であれば、他の条件が終了条件であってもよい。
終了条件が満たされていない場合(S105でNo)、ステップS101以降が繰り返される。終了条件が満たされた場合(S105でYes)、ステップS106へ進む。なお、終了条件が満たされた時点において、N個のデータセットが観測値DB17に保存された場合、観測値DB17には、データセット{X、Yi=1 が蓄積されることになる。
ステップS106において、分類器学習部14は、データセット{X、Yi=1 を用いて、分類器を学習させる。例えば、分類器学習部14は、分類器にXを入力し、分類器からの出力とYとの誤差に基づいて、分類器の学習パラメータを更新する。当該誤差が収束すると、分類器学習部14は、その時点の学習パラメータを障害要因推定部15に設定する。
次に、推定フェーズにおける障害要因推定装置10について説明する。図5は、推定フェーズにおける障害要因推定装置10の機能構成例を示す図である。図5中、図2と同一部分には同一符号を付し、その説明は省略する。図5には、図2に示した機能構成のうち、推定フェーズにおいて機能する部分のみが示されている。
図6は、推定フェーズにおいて障害要因推定装置10が実行する処理手順の一例を説明するためのフローチャートである。
対象システムにおいて障害が発生すると(S201でYes)、前処理部13は、当該障害が発生している状態の対象システムから観測データを取得する(S202)。続いて、前処理部13は、当該観測データを特徴ベクトルに変換する(S203)。
続いて、障害要因推定部15は、学習済みの分類器を用いて当該障害の要因を推定する(S204)。すなわち、障害要因推定部15は、当該特徴ベクトルを分類器に入力することで分類器から出力される結果を、障害要因として推定する。続いて、出力部16は、障害要因推定部15によって推定された障害要因を示す情報を出力する(S205)。当該情報の出力形態は所定のものに限定されない。例えば、表示装置への当該情報の表示であってもよいし、障害要因推定装置10にネットワークを介して接続される端末への当該情報の送信であってもよいし、補助記憶装置102への当該情報の保存であってもよい。対象システムの運用者は、当該情報を参照することで、対象システムにおいて発生している障害の要因を確認することができる。
続いて、上記の学習フェーズ及び推定フェーズを実施する上で生じうるいくつかの課題とその解決策について述べる。
[課題1]
本実施の形態の学習フェーズでは、障害要因の挿入後に観測データの収集を行い原状復旧するというステップを何度も繰り返すことになる。対象システムによってはこの1ステップに時間を要したり、1ステップの実施が技術的に困難であったりする可能性が有る。例えば、サーバに何らかの障害要因を挿入した後、再起動やバックアップにより原状復旧しようとした場合、数分のオーダーで時間がかかる場合が有る。完全に同じ状態に復旧できているかを確認するのも困難である場合が有る。また、障害要因の挿入の方法も難しい場合がある。
[課題1の解決策]
本実施の形態では、観測データについて、機械学習を行える程度のデータ量が必要であるため、1ステップに要する時間及び困難性ができるだけ小さいのが望ましい。そこで、上記のような課題がある場合、対象システムをコンテナ基盤などの仮想環境で模擬し、当該仮想環境においてデータの収集を実施するという解決策がある。コンテナであれば、再起動に要する時間は数秒程度であり、Kubernetesなどのようなオーケストレータも利用することができるため、複数台のコンテナに関する操作も容易である。また、コンテナは、イメージファイルで管理されるため、完全に同じ状態に復旧することができる。さらに、近年カオスエンジニアリングの取組の中で様々な障害要因挿入ツールが開発されているため(例えば、「Rosenthal, Casey, et al. Chaos Engineering. O'Reilly Media, Incorporated, 2017」参照)、多種多様な障害を容易に挿入することができる。
この場合、学習フェーズ(図4)における対象システムは、仮想環境のコンテナとされる。すなわち、障害要因挿入部11は、コンテナに対して障害要因を挿入し、前処理部13は、コンテナから観測データを取得する。また、復旧部12は、Kubernetesなどのようなオーケストレータ等を用いて短時間で対象システム(コンテナ)を障害から復旧させる。
[課題2]
本実施の形態では、様々な障害要因を挿入して観測データを取得するが、挿入する障害要因の選択をランダムに、又は均等にすることは必ずしも得策ではない。同じ障害を複数回挿入した場合、ほとんど同じ観測データしか得られない障害もあれば、観測データが大きく揺らぐような障害もある。このような場合、後者のような障害について多数の障害要因挿入を行ってデータを取得するのが望ましい。また、他の障害と比べて全く異なる特徴的な観測データが得られる障害もあれば、他の障害に非常に類似した観測データが得られる障害もある。このような場合も、後者のような障害について多数の障害要因挿入を行うことで、観測データが類似する障害を区別できるようにするのが望ましい。このように、挿入する障害要因の選択方法は、分類器の精度や、学習に十分なデータを取得するまでの時間に大きな影響を与える。
[課題2の解決策]
そこで、次のような挿入障害の選択方法を採用することで、効果的に観測データを取得することが考えられる。まず、或る程度ランダムに障害要因を挿入して観測データを取得し、取得された観測データを用いて分類器を学習する。その後、改めて障害要因を挿入することで取得される観測データを分類器に入力することで、誤った結果を出力する障害や、推定の確度(確率、尤度)が低い障害を特定し、当該障害に関して、再度重点的に障害要因を挿入して観測データを取得する。このようにすることで、効率よく観測データを収集することができる。
この場合、まず、学習フェーズ(図4)のステップS101において、障害要因挿入部11は、対象システムに挿入する障害要因をランダムに選択する。当該学習フェーズが終了すると、障害要因推定装置10は、擬似的な推定フェーズを実行する。擬似的な推定フェーズとは、図6のステップS201において発生する障害が、学習データ群に基づく障害要因挿入部11による障害要因の挿入によって人工的に発生する障害である推定フェーズをいい、複数回(例えば、学習データの数だけ)繰り返される。但し、擬似的な推定フェーズにおいて利用される学習データと、学習フェーズにおいて利用される学習データとは、異なっていてもよい。この際、ステップS204において、障害要因推定部15は、自らの推定結果と、学習データにおける障害要因とを比較することで、推定結果について正誤を判定する。又は、障害要因推定部15は、学習データにおける障害要因に対する自らの推定の確度(確率、尤度)が閾値以下であるか否かを判定する。障害要因推定部15は、推定結果が誤っていた障害要因又は推定の確度が閾値以下であった障害要因を、例えば、補助記憶装置102に記録する。擬似的な推定フェーズが終了すると、障害要因推定装置10は、再度学習フェーズ(図4)を実行する。この際、障害要因挿入部11は、ステップS101において、擬似的な推定フェーズにおいて記録された障害要因(すなわち、推定結果が正しくなかった障害要因又は推定の確度が低かった障害要因)を挿入する。その結果、障害要因挿入部11は、障害要因の推定結果(推定精度)に応じて、特定の種類の障害について障害要因の挿入回数(入力回数)を変更(増加)し、前処理部13は、障害要因の種別によって、観測データの取得回数を変更(増加)することになる。
[課題3]
学習フェーズにおいて観測データを取得する際、その種類(特徴ベクトルの次元数)や容量が多く、観測データの収集期間が長時間化したり、分類器の学習が長時間化したりする可能性がある。このような場合は、出来るだけ障害要因の推定精度を高く保ったまま、取得する観測データを制限するような方法が必要となる。
[課題3の解決策]
初めはできるだけ制限せずに多くの種類の観測データ(多くの種類の特徴量)を収集し、当該観測データを用いて分類器を学習する。その後、改めて障害要因の挿入を行うことで取得される観測データを分類器に入力し、障害要因の推定を行わせる。このとき障害要因の推定を行う上で、どの特徴量(どの種類の観測データ)が重要となったかを知るために、各特徴量(観測データの各要素)の寄与度を算出する。例えば、分類器としてニューラルネットワークを用いる場合、例えば、「Shrikumar, Avanti, Peyton Greenside, and Anshul Kundaje. "Learning important features through propagating activation differences." Proceedings of the 34th International Conference on Machine Learning-Volume 70. JMLR. org, 2017.」に開示された手法を用いることで寄与度を算出できる。このようにして得られた寄与度が大きい特徴量のみ(例えば、ある閾値以上の寄与度を持つ特徴量のみ、又は寄与度が上位M位(Mは適当に与える)の特徴量のみ)を、今後の収集対象として、障害要因の挿入、観測データの取得を繰り返せばよい。
この場合、最初の学習フェーズ(図4)のステップS102において、前処理部13は、特段の制限無しに、多くの種類の観測データを取得する。学習フェーズが終了すると、障害要因推定装置10は、擬似的な推定フェーズを実行する。擬似的な推定フェーズの意味は上記と同じである。但し、ここでは、ステップS204において、障害要因推定部15は、特徴量ごと(すなわち、数値ベクトルの要素ごと)に寄与度を算出し、各特徴量の寄与度を補助記憶装置102に記録する。したがって、擬似的な推定フェーズの学習データの数だけ各特徴量の寄与度が補助記憶装置102に記録される。擬似的な推定フェーズが終了した後の学習フェーズ(図4)のステップS102において、前処理部13は、補助記憶装置102に記録されている寄与度の平均が閾値以上の特徴量のみ、又は寄与度の平均が上位M番目までの特徴量のみを観測データとして取得する。
次に、本実施の形態について実際に行った実験の結果について説明する。
コンテナ型仮想環境のオーケストレータであるKubernetesを用いてKubernetesクラスタを作成し、その中にweb3層環境を構築した。実験では、コンテナで実現されたweb3層環境を、本実施の形態における検証環境及び実環境とみなす。Web3層環境はNginx、Rails、MySQLの3コンテナから構成されたものが2セットあり、全6コンテナからなる環境である。背景トラヒックとして、負荷試験ツールによりhttpリクエストをランダムに発生させた。また、障害として、6個中のいずれか1個のコンテナに80%のパケットロス又は10000±1000msの遅延のいずれかを障害要因として挿入した。すなわち、特定すべき障害要因としては、全部で13種類(障害箇所6×障害の種類2+正常状態1)である。各コンテナにおける流入出トラヒックやCPU使用率/メモリ使用量等のメトリクスを収集し観測データとした。特徴ベクトルとしては、生データをスケーリングしたもの(raw:入力次元26)、各ログのカウント数を加えたもの(w/log:入力次元42)、transmit/receive比を加えたもの(w/ratio:入力次元34)、ログとtransmit/receive比の双方を加えたもの(w/log+ratio:入力次元50)の4種類を作成した。学習データ数は4609組、推定フェーズで用いるテストデータ数は1153組となった。分類器としては、サポートベクタマシン、決定木、勾配ブースティング、ランダムフォレスト、ニューラルネットワークを用いた。
図7は、実験の評価結果を示す図である。評価指標としてはPrecision、Recall、F1スコアを用いている。いずれの分類器の場合も、適切に学習を行えば、8割程度の高精度で障害要因を特定できていることが分かり、本実施の形態の有効性を示している。
上述したように、本実施の形態では、ICTシステムに対して様々な障害要因を人工的に挿入(入力)し、当該障害要因に起因して障害が発生している状態のICTシステムにおいて観測されるデータを取得し、当該障害要因と当該データとの組を用いて教師あり学習の枠組みで分類器を学習させる。運用中には、障害が発生している状態のICTシステムにおいて観測される障害データを当該学習器に入力することで、当該障害の要因が推定される。
したがって、運用中に起こったことのない、又は起きる頻度の少ない障害(すなわち、運用中に十分な観測データが集まらない(十分な知見が得られない)ような障害)であってもその要因と観測データとの関係性を分類器に学習させることができ、当該分類器を用いて、明示的に障害要因を突き止めることができるようになる。その結果、障害要因の推定精度を向上させることができ、システム運用の大幅な負担削減を期待することができる。
なお、本実施の形態において、障害要因挿入部11は、入力部の一例である。前処理部13は、第1の取得部及び第2の取得部の一例である。分類器学習部14は、学習部の一例である。障害要因推定部15は、推定部の一例である。学習用システムは、第1のシステムの一例である。実システムは、第2のシステムの一例である。
以上、本発明の実施の形態について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
10 障害要因推定装置
11 障害要因挿入部
12 復旧部
13 前処理部
14 分類器学習部
15 障害要因推定部
16 出力部
17 観測値DB
100 ドライブ装置
101 記録媒体
102 補助記憶装置
103 メモリ装置
104 CPU
105 インタフェース装置
B バス

Claims (4)

  1. 複数の障害要因をランダムに選択して人工的にステムへ入力することで前記ステムに複数回の第1の障害を発生させる第1の入力部と、
    前記第1の障害が発生するたびに記システムにおいて観測されるデータを取得する第1の取得部と、
    前記第1の障害ごとの障害要因と前記データとの組を含む複数の学習データを用いて前記障害要因と前記データとの関係性を分類器に学習させる第1の学習部と、
    前記第1の学習部が用いた又は前記第1の学習部が用いていない複数の前記学習データごとに前記データを学習済みの前記分類器に入力することで障害の要因を推定し、推定結果が誤っていた障害要因又は推定の確度が閾値以下であった障害要因を記録する推定部と、
    前記推定部が記録した障害要因を人工的にシステムへ入力することで前記システムに第2の障害を発生させる第2の入力部と、
    前記第2の障害が発生している前記システムにおいて観測される前記データを取得する第2の取得部と、
    前記第2の障害の障害要因と前記データとの組を含む学習データを用いて前記障害要因と前記データとの関係性を前記分類器に学習させる第2の学習部と、
    を有することを特徴とする障害要因推定装置。
  2. 複数の障害要因を人工的にステムへ入力することで前記ステムに複数回の第1の障害を発生させる第1の入力部と、
    前記第1の障害が発生するたびに記システムにおいて観測される複数の種類のデータを取得する第1の取得部と、
    前記第1の障害ごとの障害要因と前記複数の種類のデータとの組を含む複数の学習データを用いて前記障害要因と前記複数の種類のデータとの関係性を分類器に学習させる第1の学習部と、
    前記第1の学習部が用いた又は前記第1の学習部が用いていない複数の前記学習データごとに前記複数の種類のデータを学習済みの前記分類器に入力することで障害の要因を推定すると共に、前記種類ごとに算出した寄与度を記録する推定部と、
    前記推定部が推定した障害要因を人工的にシステムへ入力することで前記システムに第2の障害を発生させる第2の入力部と、
    前記第2の障害が発生している前記システムにおいて観測される前記複数の種類のデータを取得する第2の取得部と、
    前記第2の障害の障害要因と前記複数の種類のデータのうち前記寄与度の平均が閾値以上である種類のデータとの組を含む学習データを用いて前記障害要因と前記寄与度の平均が閾値以上である種類のデータとの関係性を前記分類器に学習させる第2の学習部と、
    を有することを特徴とする障害要因推定装置。
  3. 複数の障害要因をランダムに選択して人工的にステムへ入力することで前記ステムに複数回の第1の障害を発生させる第1の入力手順と、
    前記第1の障害が発生するたびに記システムにおいて観測されるデータを取得する第1の取得手順と、
    前記第1の障害ごとの障害要因と前記データとの組を含む複数の学習データを用いて前記障害要因と前記データとの関係性を分類器に学習させる第1の学習手順と、
    前記第1の学習手順が用いた又は前記第1の学習手順が用いていない複数の前記学習データごとに前記データを学習済みの前記分類器に入力することで障害の要因を推定し、推定結果が誤っていた障害要因又は推定の確度が閾値以下であった障害要因を記録する推定手順と、
    前記推定手順が記録した障害要因を人工的にシステムへ入力することで前記システムに第2の障害を発生させる第2の入力手順と、
    前記第2の障害が発生している前記システムにおいて観測される前記データを取得する第2の取得手順と、
    前記第2の障害の障害要因と前記データとの組を含む学習データを用いて前記障害要因と前記データとの関係性を前記分類器に学習させる第2の学習手順と、
    をコンピュータが実行することを特徴とする障害要因推定方法。
  4. 複数の障害要因を人工的にステムへ入力することで前記ステムに複数回の第1の障害を発生させる第1の入力手順と、
    前記第1の障害が発生するたびに記システムにおいて観測される複数の種類のデータを取得する第1の取得手順と、
    前記第1の障害ごとの障害要因と前記複数の種類のデータとの組を含む複数の学習データを用いて前記障害要因と前記複数の種類のデータとの関係性を分類器に学習させる第1の学習手順と、
    前記第1の学習手順が用いた又は前記第1の学習手順が用いていない複数の前記学習データごとに前記複数の種類のデータを学習済みの前記分類器に入力することで障害の要因を推定すると共に、前記種類ごとに算出した寄与度を記録する推定手順と、
    前記推定手順が推定した障害要因を人工的にシステムへ入力することで前記システムに第2の障害を発生させる第2の入力手順と、
    前記第2の障害が発生している前記システムにおいて観測される前記複数の種類のデータを取得する第2の取得手順と、
    前記第2の障害の障害要因と前記複数の種類のデータのうち前記寄与度の平均が閾値以上である種類のデータとの組を含む学習データを用いて前記障害要因と前記寄与度の平均が閾値以上である種類のデータとの関係性を前記分類器に学習させる第2の学習手順と、
    をコンピュータが実行することを特徴とする障害要因推定方法。
JP2020022674A 2020-02-13 2020-02-13 障害要因推定装置及び障害要因推定方法 Active JP7384063B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020022674A JP7384063B2 (ja) 2020-02-13 2020-02-13 障害要因推定装置及び障害要因推定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020022674A JP7384063B2 (ja) 2020-02-13 2020-02-13 障害要因推定装置及び障害要因推定方法

Publications (2)

Publication Number Publication Date
JP2021128538A JP2021128538A (ja) 2021-09-02
JP7384063B2 true JP7384063B2 (ja) 2023-11-21

Family

ID=77488623

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020022674A Active JP7384063B2 (ja) 2020-02-13 2020-02-13 障害要因推定装置及び障害要因推定方法

Country Status (1)

Country Link
JP (1) JP7384063B2 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006146668A (ja) 2004-11-22 2006-06-08 Ntt Data Corp 運用管理支援装置及び運用管理支援プログラム
JP2010205011A (ja) 2009-03-04 2010-09-16 Mitsubishi Electric Corp 障害再現システム、障害再現方法および通信再現装置
JP2018508847A (ja) 2015-01-05 2018-03-29 アンキ,インコーポレイテッド 適応データ解析サービス
JP2018156348A (ja) 2017-03-17 2018-10-04 株式会社リコー 障害監視装置、障害監視システムおよびプログラム
JP2019191957A (ja) 2018-04-25 2019-10-31 三菱電機株式会社 情報処理装置、機器、不具合解析システム、不具合解析方法およびプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006146668A (ja) 2004-11-22 2006-06-08 Ntt Data Corp 運用管理支援装置及び運用管理支援プログラム
JP2010205011A (ja) 2009-03-04 2010-09-16 Mitsubishi Electric Corp 障害再現システム、障害再現方法および通信再現装置
JP2018508847A (ja) 2015-01-05 2018-03-29 アンキ,インコーポレイテッド 適応データ解析サービス
JP2018156348A (ja) 2017-03-17 2018-10-04 株式会社リコー 障害監視装置、障害監視システムおよびプログラム
JP2019191957A (ja) 2018-04-25 2019-10-31 三菱電機株式会社 情報処理装置、機器、不具合解析システム、不具合解析方法およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
池内 光希ほか,ユーザ行動に起因するログを用いた障害要因推定技術の検討,電子情報通信学会2018年総合大会講演論文集 通信2 ,一般社団法人電子情報通信学会,2018年03月06日,p.108

Also Published As

Publication number Publication date
JP2021128538A (ja) 2021-09-02

Similar Documents

Publication Publication Date Title
US11294754B2 (en) System and method for contextual event sequence analysis
CN102713862B (zh) 故障原因提取装置、故障原因提取方法和程序记录介质
CN104796273A (zh) 一种网络故障根源诊断的方法和装置
JP5223413B2 (ja) Itシステムのトラブル対処装置、トラブル対処方法およびそのためのプログラム
CN102055604B (zh) 一种故障定位方法及其系统
CN104583968A (zh) 管理系统及管理程序
CN113657715A (zh) 一种基于核密度估计调用链的根因定位方法及系统
WO2024078339A1 (zh) 基于车辆历史数据的故障预测方法、系统和存储介质
US9417940B2 (en) Operations management system, operations management method and program thereof
JP2019057139A (ja) 運用管理システム、監視サーバ、方法およびプログラム
CN104794013B (zh) 定位系统运行状态、建立系统运行状态模型的方法及装置
CN109309594B (zh) 通信设备电源故障分析的方法、装置、设备及存储介质
JP7384063B2 (ja) 障害要因推定装置及び障害要因推定方法
CN107783879A (zh) 一种用于分析工作流执行路径的方法与设备
KR101955091B1 (ko) 이상 신호 복원 시스템 및 방법
EP3932012B1 (en) Mesh communication network provision
CN109889258B (zh) 一种光网络故障校验方法和设备
US20170139794A1 (en) Information processing device, analysis method, and recording medium
Soualhia et al. Automated traces-based anomaly detection and root cause analysis in cloud platforms
JP6666489B1 (ja) 障害予兆検知システム
JP6787873B2 (ja) 異常種別判定装置、異常種別判定方法及びプログラム
JP7327493B2 (ja) 異常対処支援装置、方法およびプログラム
JP7147495B2 (ja) 復旧支援装置、復旧支援方法及びプログラム
JP6896380B2 (ja) 故障予兆判定方法、故障予兆判定装置および故障予兆判定プログラム
JP7472628B2 (ja) 障害復旧装置、障害復旧方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220704

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230531

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230627

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230718

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231010

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231023

R150 Certificate of patent or registration of utility model

Ref document number: 7384063

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150