JP7384063B2 - 障害要因推定装置及び障害要因推定方法 - Google Patents
障害要因推定装置及び障害要因推定方法 Download PDFInfo
- Publication number
- JP7384063B2 JP7384063B2 JP2020022674A JP2020022674A JP7384063B2 JP 7384063 B2 JP7384063 B2 JP 7384063B2 JP 2020022674 A JP2020022674 A JP 2020022674A JP 2020022674 A JP2020022674 A JP 2020022674A JP 7384063 B2 JP7384063 B2 JP 7384063B2
- Authority
- JP
- Japan
- Prior art keywords
- failure
- data
- learning
- failure factor
- estimation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 46
- 238000003780 insertion Methods 0.000 description 19
- 230000037431 insertion Effects 0.000 description 19
- 239000013598 vector Substances 0.000 description 15
- 238000007781 pre-processing Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 7
- 230000005856 abnormality Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000011084 recovery Methods 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000013145 classification model Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Description
本実施の形態の学習フェーズでは、障害要因の挿入後に観測データの収集を行い原状復旧するというステップを何度も繰り返すことになる。対象システムによってはこの1ステップに時間を要したり、1ステップの実施が技術的に困難であったりする可能性が有る。例えば、サーバに何らかの障害要因を挿入した後、再起動やバックアップにより原状復旧しようとした場合、数分のオーダーで時間がかかる場合が有る。完全に同じ状態に復旧できているかを確認するのも困難である場合が有る。また、障害要因の挿入の方法も難しい場合がある。
本実施の形態では、観測データについて、機械学習を行える程度のデータ量が必要であるため、1ステップに要する時間及び困難性ができるだけ小さいのが望ましい。そこで、上記のような課題がある場合、対象システムをコンテナ基盤などの仮想環境で模擬し、当該仮想環境においてデータの収集を実施するという解決策がある。コンテナであれば、再起動に要する時間は数秒程度であり、Kubernetesなどのようなオーケストレータも利用することができるため、複数台のコンテナに関する操作も容易である。また、コンテナは、イメージファイルで管理されるため、完全に同じ状態に復旧することができる。さらに、近年カオスエンジニアリングの取組の中で様々な障害要因挿入ツールが開発されているため(例えば、「Rosenthal, Casey, et al. Chaos Engineering. O'Reilly Media, Incorporated, 2017」参照)、多種多様な障害を容易に挿入することができる。
本実施の形態では、様々な障害要因を挿入して観測データを取得するが、挿入する障害要因の選択をランダムに、又は均等にすることは必ずしも得策ではない。同じ障害を複数回挿入した場合、ほとんど同じ観測データしか得られない障害もあれば、観測データが大きく揺らぐような障害もある。このような場合、後者のような障害について多数の障害要因挿入を行ってデータを取得するのが望ましい。また、他の障害と比べて全く異なる特徴的な観測データが得られる障害もあれば、他の障害に非常に類似した観測データが得られる障害もある。このような場合も、後者のような障害について多数の障害要因挿入を行うことで、観測データが類似する障害を区別できるようにするのが望ましい。このように、挿入する障害要因の選択方法は、分類器の精度や、学習に十分なデータを取得するまでの時間に大きな影響を与える。
そこで、次のような挿入障害の選択方法を採用することで、効果的に観測データを取得することが考えられる。まず、或る程度ランダムに障害要因を挿入して観測データを取得し、取得された観測データを用いて分類器を学習する。その後、改めて障害要因を挿入することで取得される観測データを分類器に入力することで、誤った結果を出力する障害や、推定の確度(確率、尤度)が低い障害を特定し、当該障害に関して、再度重点的に障害要因を挿入して観測データを取得する。このようにすることで、効率よく観測データを収集することができる。
学習フェーズにおいて観測データを取得する際、その種類(特徴ベクトルの次元数)や容量が多く、観測データの収集期間が長時間化したり、分類器の学習が長時間化したりする可能性がある。このような場合は、出来るだけ障害要因の推定精度を高く保ったまま、取得する観測データを制限するような方法が必要となる。
初めはできるだけ制限せずに多くの種類の観測データ(多くの種類の特徴量)を収集し、当該観測データを用いて分類器を学習する。その後、改めて障害要因の挿入を行うことで取得される観測データを分類器に入力し、障害要因の推定を行わせる。このとき障害要因の推定を行う上で、どの特徴量(どの種類の観測データ)が重要となったかを知るために、各特徴量(観測データの各要素)の寄与度を算出する。例えば、分類器としてニューラルネットワークを用いる場合、例えば、「Shrikumar, Avanti, Peyton Greenside, and Anshul Kundaje. "Learning important features through propagating activation differences." Proceedings of the 34th International Conference on Machine Learning-Volume 70. JMLR. org, 2017.」に開示された手法を用いることで寄与度を算出できる。このようにして得られた寄与度が大きい特徴量のみ(例えば、ある閾値以上の寄与度を持つ特徴量のみ、又は寄与度が上位M位(Mは適当に与える)の特徴量のみ)を、今後の収集対象として、障害要因の挿入、観測データの取得を繰り返せばよい。
11 障害要因挿入部
12 復旧部
13 前処理部
14 分類器学習部
15 障害要因推定部
16 出力部
17 観測値DB
100 ドライブ装置
101 記録媒体
102 補助記憶装置
103 メモリ装置
104 CPU
105 インタフェース装置
B バス
Claims (4)
- 複数の障害要因をランダムに選択して人工的にシステムへ入力することで前記システムに複数回の第1の障害を発生させる第1の入力部と、
前記第1の障害が発生するたびに前記システムにおいて観測されるデータを取得する第1の取得部と、
前記第1の障害ごとの障害要因と前記データとの組を含む複数の学習データを用いて前記障害要因と前記データとの関係性を分類器に学習させる第1の学習部と、
前記第1の学習部が用いた又は前記第1の学習部が用いていない複数の前記学習データごとに前記データを学習済みの前記分類器に入力することで障害の要因を推定し、推定結果が誤っていた障害要因又は推定の確度が閾値以下であった障害要因を記録する推定部と、
前記推定部が記録した障害要因を人工的にシステムへ入力することで前記システムに第2の障害を発生させる第2の入力部と、
前記第2の障害が発生している前記システムにおいて観測される前記データを取得する第2の取得部と、
前記第2の障害の障害要因と前記データとの組を含む学習データを用いて前記障害要因と前記データとの関係性を前記分類器に学習させる第2の学習部と、
を有することを特徴とする障害要因推定装置。 - 複数の障害要因を人工的にシステムへ入力することで前記システムに複数回の第1の障害を発生させる第1の入力部と、
前記第1の障害が発生するたびに前記システムにおいて観測される複数の種類のデータを取得する第1の取得部と、
前記第1の障害ごとの障害要因と前記複数の種類のデータとの組を含む複数の学習データを用いて前記障害要因と前記複数の種類のデータとの関係性を分類器に学習させる第1の学習部と、
前記第1の学習部が用いた又は前記第1の学習部が用いていない複数の前記学習データごとに前記複数の種類のデータを学習済みの前記分類器に入力することで障害の要因を推定すると共に、前記種類ごとに算出した寄与度を記録する推定部と、
前記推定部が推定した障害要因を人工的にシステムへ入力することで前記システムに第2の障害を発生させる第2の入力部と、
前記第2の障害が発生している前記システムにおいて観測される前記複数の種類のデータを取得する第2の取得部と、
前記第2の障害の障害要因と前記複数の種類のデータのうち前記寄与度の平均が閾値以上である種類のデータとの組を含む学習データを用いて前記障害要因と前記寄与度の平均が閾値以上である種類のデータとの関係性を前記分類器に学習させる第2の学習部と、
を有することを特徴とする障害要因推定装置。 - 複数の障害要因をランダムに選択して人工的にシステムへ入力することで前記システムに複数回の第1の障害を発生させる第1の入力手順と、
前記第1の障害が発生するたびに前記システムにおいて観測されるデータを取得する第1の取得手順と、
前記第1の障害ごとの障害要因と前記データとの組を含む複数の学習データを用いて前記障害要因と前記データとの関係性を分類器に学習させる第1の学習手順と、
前記第1の学習手順が用いた又は前記第1の学習手順が用いていない複数の前記学習データごとに前記データを学習済みの前記分類器に入力することで障害の要因を推定し、推定結果が誤っていた障害要因又は推定の確度が閾値以下であった障害要因を記録する推定手順と、
前記推定手順が記録した障害要因を人工的にシステムへ入力することで前記システムに第2の障害を発生させる第2の入力手順と、
前記第2の障害が発生している前記システムにおいて観測される前記データを取得する第2の取得手順と、
前記第2の障害の障害要因と前記データとの組を含む学習データを用いて前記障害要因と前記データとの関係性を前記分類器に学習させる第2の学習手順と、
をコンピュータが実行することを特徴とする障害要因推定方法。 - 複数の障害要因を人工的にシステムへ入力することで前記システムに複数回の第1の障害を発生させる第1の入力手順と、
前記第1の障害が発生するたびに前記システムにおいて観測される複数の種類のデータを取得する第1の取得手順と、
前記第1の障害ごとの障害要因と前記複数の種類のデータとの組を含む複数の学習データを用いて前記障害要因と前記複数の種類のデータとの関係性を分類器に学習させる第1の学習手順と、
前記第1の学習手順が用いた又は前記第1の学習手順が用いていない複数の前記学習データごとに前記複数の種類のデータを学習済みの前記分類器に入力することで障害の要因を推定すると共に、前記種類ごとに算出した寄与度を記録する推定手順と、
前記推定手順が推定した障害要因を人工的にシステムへ入力することで前記システムに第2の障害を発生させる第2の入力手順と、
前記第2の障害が発生している前記システムにおいて観測される前記複数の種類のデータを取得する第2の取得手順と、
前記第2の障害の障害要因と前記複数の種類のデータのうち前記寄与度の平均が閾値以上である種類のデータとの組を含む学習データを用いて前記障害要因と前記寄与度の平均が閾値以上である種類のデータとの関係性を前記分類器に学習させる第2の学習手順と、
をコンピュータが実行することを特徴とする障害要因推定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020022674A JP7384063B2 (ja) | 2020-02-13 | 2020-02-13 | 障害要因推定装置及び障害要因推定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020022674A JP7384063B2 (ja) | 2020-02-13 | 2020-02-13 | 障害要因推定装置及び障害要因推定方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021128538A JP2021128538A (ja) | 2021-09-02 |
JP7384063B2 true JP7384063B2 (ja) | 2023-11-21 |
Family
ID=77488623
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020022674A Active JP7384063B2 (ja) | 2020-02-13 | 2020-02-13 | 障害要因推定装置及び障害要因推定方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7384063B2 (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006146668A (ja) | 2004-11-22 | 2006-06-08 | Ntt Data Corp | 運用管理支援装置及び運用管理支援プログラム |
JP2010205011A (ja) | 2009-03-04 | 2010-09-16 | Mitsubishi Electric Corp | 障害再現システム、障害再現方法および通信再現装置 |
JP2018508847A (ja) | 2015-01-05 | 2018-03-29 | アンキ,インコーポレイテッド | 適応データ解析サービス |
JP2018156348A (ja) | 2017-03-17 | 2018-10-04 | 株式会社リコー | 障害監視装置、障害監視システムおよびプログラム |
JP2019191957A (ja) | 2018-04-25 | 2019-10-31 | 三菱電機株式会社 | 情報処理装置、機器、不具合解析システム、不具合解析方法およびプログラム |
-
2020
- 2020-02-13 JP JP2020022674A patent/JP7384063B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006146668A (ja) | 2004-11-22 | 2006-06-08 | Ntt Data Corp | 運用管理支援装置及び運用管理支援プログラム |
JP2010205011A (ja) | 2009-03-04 | 2010-09-16 | Mitsubishi Electric Corp | 障害再現システム、障害再現方法および通信再現装置 |
JP2018508847A (ja) | 2015-01-05 | 2018-03-29 | アンキ,インコーポレイテッド | 適応データ解析サービス |
JP2018156348A (ja) | 2017-03-17 | 2018-10-04 | 株式会社リコー | 障害監視装置、障害監視システムおよびプログラム |
JP2019191957A (ja) | 2018-04-25 | 2019-10-31 | 三菱電機株式会社 | 情報処理装置、機器、不具合解析システム、不具合解析方法およびプログラム |
Non-Patent Citations (1)
Title |
---|
池内 光希ほか,ユーザ行動に起因するログを用いた障害要因推定技術の検討,電子情報通信学会2018年総合大会講演論文集 通信2 ,一般社団法人電子情報通信学会,2018年03月06日,p.108 |
Also Published As
Publication number | Publication date |
---|---|
JP2021128538A (ja) | 2021-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11294754B2 (en) | System and method for contextual event sequence analysis | |
CN102713862B (zh) | 故障原因提取装置、故障原因提取方法和程序记录介质 | |
CN104796273A (zh) | 一种网络故障根源诊断的方法和装置 | |
JP5223413B2 (ja) | Itシステムのトラブル対処装置、トラブル対処方法およびそのためのプログラム | |
CN102055604B (zh) | 一种故障定位方法及其系统 | |
CN104583968A (zh) | 管理系统及管理程序 | |
CN113657715A (zh) | 一种基于核密度估计调用链的根因定位方法及系统 | |
WO2024078339A1 (zh) | 基于车辆历史数据的故障预测方法、系统和存储介质 | |
US9417940B2 (en) | Operations management system, operations management method and program thereof | |
JP2019057139A (ja) | 運用管理システム、監視サーバ、方法およびプログラム | |
CN104794013B (zh) | 定位系统运行状态、建立系统运行状态模型的方法及装置 | |
CN109309594B (zh) | 通信设备电源故障分析的方法、装置、设备及存储介质 | |
JP7384063B2 (ja) | 障害要因推定装置及び障害要因推定方法 | |
CN107783879A (zh) | 一种用于分析工作流执行路径的方法与设备 | |
KR101955091B1 (ko) | 이상 신호 복원 시스템 및 방법 | |
EP3932012B1 (en) | Mesh communication network provision | |
CN109889258B (zh) | 一种光网络故障校验方法和设备 | |
US20170139794A1 (en) | Information processing device, analysis method, and recording medium | |
Soualhia et al. | Automated traces-based anomaly detection and root cause analysis in cloud platforms | |
JP6666489B1 (ja) | 障害予兆検知システム | |
JP6787873B2 (ja) | 異常種別判定装置、異常種別判定方法及びプログラム | |
JP7327493B2 (ja) | 異常対処支援装置、方法およびプログラム | |
JP7147495B2 (ja) | 復旧支援装置、復旧支援方法及びプログラム | |
JP6896380B2 (ja) | 故障予兆判定方法、故障予兆判定装置および故障予兆判定プログラム | |
JP7472628B2 (ja) | 障害復旧装置、障害復旧方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220704 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230531 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230627 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230718 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231010 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231023 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7384063 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |