JP2021128538A - 障害要因推定装置及び障害要因推定方法 - Google Patents
障害要因推定装置及び障害要因推定方法 Download PDFInfo
- Publication number
- JP2021128538A JP2021128538A JP2020022674A JP2020022674A JP2021128538A JP 2021128538 A JP2021128538 A JP 2021128538A JP 2020022674 A JP2020022674 A JP 2020022674A JP 2020022674 A JP2020022674 A JP 2020022674A JP 2021128538 A JP2021128538 A JP 2021128538A
- Authority
- JP
- Japan
- Prior art keywords
- failure
- factor
- estimation
- data
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 33
- 238000007781 pre-processing Methods 0.000 abstract description 13
- 238000003780 insertion Methods 0.000 description 22
- 230000037431 insertion Effects 0.000 description 21
- 239000013598 vector Substances 0.000 description 15
- 230000005856 abnormality Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000011084 recovery Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
Description
本実施の形態の学習フェーズでは、障害要因の挿入後に観測データの収集を行い原状復旧するというステップを何度も繰り返すことになる。対象システムによってはこの1ステップに時間を要したり、1ステップの実施が技術的に困難であったりする可能性が有る。例えば、サーバに何らかの障害要因を挿入した後、再起動やバックアップにより原状復旧しようとした場合、数分のオーダーで時間がかかる場合が有る。完全に同じ状態に復旧できているかを確認するのも困難である場合が有る。また、障害要因の挿入の方法も難しい場合がある。
本実施の形態では、観測データについて、機械学習を行える程度のデータ量が必要であるため、1ステップに要する時間及び困難性ができるだけ小さいのが望ましい。そこで、上記のような課題がある場合、対象システムをコンテナ基盤などの仮想環境で模擬し、当該仮想環境においてデータの収集を実施するという解決策がある。コンテナであれば、再起動に要する時間は数秒程度であり、Kubernetesなどのようなオーケストレータも利用することができるため、複数台のコンテナに関する操作も容易である。また、コンテナは、イメージファイルで管理されるため、完全に同じ状態に復旧することができる。さらに、近年カオスエンジニアリングの取組の中で様々な障害要因挿入ツールが開発されているため(例えば、「Rosenthal, Casey, et al. Chaos Engineering. O'Reilly Media, Incorporated, 2017」参照)、多種多様な障害を容易に挿入することができる。
本実施の形態では、様々な障害要因を挿入して観測データを取得するが、挿入する障害要因の選択をランダムに、又は均等にすることは必ずしも得策ではない。同じ障害を複数回挿入した場合、ほとんど同じ観測データしか得られない障害もあれば、観測データが大きく揺らぐような障害もある。このような場合、後者のような障害について多数の障害要因挿入を行ってデータを取得するのが望ましい。また、他の障害と比べて全く異なる特徴的な観測データが得られる障害もあれば、他の障害に非常に類似した観測データが得られる障害もある。このような場合も、後者のような障害について多数の障害要因挿入を行うことで、観測データが類似する障害を区別できるようにするのが望ましい。このように、挿入する障害要因の選択方法は、分類器の精度や、学習に十分なデータを取得するまでの時間に大きな影響を与える。
そこで、次のような挿入障害の選択方法を採用することで、効果的に観測データを取得することが考えられる。まず、或る程度ランダムに障害要因を挿入して観測データを取得し、取得された観測データを用いて分類器を学習する。その後、改めて障害要因を挿入することで取得される観測データを分類器に入力することで、誤った結果を出力する障害や、推定の確度(確率、尤度)が低い障害を特定し、当該障害に関して、再度重点的に障害要因を挿入して観測データを取得する。このようにすることで、効率よく観測データを収集することができる。
学習フェーズにおいて観測データを取得する際、その種類(特徴ベクトルの次元数)や容量が多く、観測データの収集期間が長時間化したり、分類器の学習が長時間化したりする可能性がある。このような場合は、出来るだけ障害要因の推定精度を高く保ったまま、取得する観測データを制限するような方法が必要となる。
初めはできるだけ制限せずに多くの種類の観測データ(多くの種類の特徴量)を収集し、当該観測データを用いて分類器を学習する。その後、改めて障害要因の挿入を行うことで取得される観測データを分類器に入力し、障害要因の推定を行わせる。このとき障害要因の推定を行う上で、どの特徴量(どの種類の観測データ)が重要となったかを知るために、各特徴量(観測データの各要素)の寄与度を算出する。例えば、分類器としてニューラルネットワークを用いる場合、例えば、「Shrikumar, Avanti, Peyton Greenside, and Anshul Kundaje. "Learning important features through propagating activation differences." Proceedings of the 34th International Conference on Machine Learning-Volume 70. JMLR. org, 2017.」に開示された手法を用いることで寄与度を算出できる。このようにして得られた寄与度が大きい特徴量のみ(例えば、ある閾値以上の寄与度を持つ特徴量のみ、又は寄与度が上位M位(Mは適当に与える)の特徴量のみ)を、今後の収集対象として、障害要因の挿入、観測データの取得を繰り返せばよい。
11 障害要因挿入部
12 復旧部
13 前処理部
14 分類器学習部
15 障害要因推定部
16 出力部
17 観測値DB
100 ドライブ装置
101 記録媒体
102 補助記憶装置
103 メモリ装置
104 CPU
105 インタフェース装置
B バス
Claims (7)
- 障害要因を人工的に第1のシステムへ入力することで前記第1のシステムに第1の障害を発生させる入力部と、
前記第1の障害が発生している状態の前記第1のシステムにおいて観測されるデータを取得する第1の取得部と、
前記障害要因と前記データとの関係性を分類器に学習させる学習部と、
を有することを特徴とする障害要因推定装置。 - 第2の障害が発生している状態の第2のシステムにおいて観測されるデータを取得する第2の取得部と、
学習済みの前記分類器に前記データを入力することで、前記第2の障害の要因を推定する推定部と、
を有することを特徴とする請求項1記載の障害要因推定装置。 - 前記入力部は、前記推定部による推定結果に応じて、特定の種類の障害について障害要因の入力回数を変更する、
ことを特徴とする請求項2記載の障害要因推定装置。 - 前記第1の取得部は、前記推定部による推定結果に応じて、取得するデータを変更する、
ことを特徴とする請求項2記載の障害要因推定装置。 - 前記第1のシステムは、仮想環境である、
ことを特徴とする請求項1乃至4いずれか一項記載の障害要因推定装置。 - 障害要因を人工的に第1のシステムへ入力することで前記第1のシステムに第1の障害を発生させる入力手順と、
前記第1の障害が発生している状態の前記第1のシステムにおいて観測されるデータを取得する第1の取得手順と、
前記障害要因と前記データとの関係性を分類器に学習させる学習手順と、
をコンピュータが実行することを特徴とする障害要因推定方法。 - 第2の障害が発生している状態の第2のシステムにおいて観測されるデータを取得する第2の取得手順と、
学習済みの前記分類器に前記データを入力することで、前記第2の障害の要因を推定する推定手順と、
をコンピュータが実行することを特徴とする請求項6記載の障害要因推定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020022674A JP7384063B2 (ja) | 2020-02-13 | 2020-02-13 | 障害要因推定装置及び障害要因推定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020022674A JP7384063B2 (ja) | 2020-02-13 | 2020-02-13 | 障害要因推定装置及び障害要因推定方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021128538A true JP2021128538A (ja) | 2021-09-02 |
JP7384063B2 JP7384063B2 (ja) | 2023-11-21 |
Family
ID=77488623
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020022674A Active JP7384063B2 (ja) | 2020-02-13 | 2020-02-13 | 障害要因推定装置及び障害要因推定方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7384063B2 (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006146668A (ja) * | 2004-11-22 | 2006-06-08 | Ntt Data Corp | 運用管理支援装置及び運用管理支援プログラム |
JP2010205011A (ja) * | 2009-03-04 | 2010-09-16 | Mitsubishi Electric Corp | 障害再現システム、障害再現方法および通信再現装置 |
JP2018508847A (ja) * | 2015-01-05 | 2018-03-29 | アンキ,インコーポレイテッド | 適応データ解析サービス |
JP2018156348A (ja) * | 2017-03-17 | 2018-10-04 | 株式会社リコー | 障害監視装置、障害監視システムおよびプログラム |
JP2019191957A (ja) * | 2018-04-25 | 2019-10-31 | 三菱電機株式会社 | 情報処理装置、機器、不具合解析システム、不具合解析方法およびプログラム |
-
2020
- 2020-02-13 JP JP2020022674A patent/JP7384063B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006146668A (ja) * | 2004-11-22 | 2006-06-08 | Ntt Data Corp | 運用管理支援装置及び運用管理支援プログラム |
JP2010205011A (ja) * | 2009-03-04 | 2010-09-16 | Mitsubishi Electric Corp | 障害再現システム、障害再現方法および通信再現装置 |
JP2018508847A (ja) * | 2015-01-05 | 2018-03-29 | アンキ,インコーポレイテッド | 適応データ解析サービス |
JP2018156348A (ja) * | 2017-03-17 | 2018-10-04 | 株式会社リコー | 障害監視装置、障害監視システムおよびプログラム |
JP2019191957A (ja) * | 2018-04-25 | 2019-10-31 | 三菱電機株式会社 | 情報処理装置、機器、不具合解析システム、不具合解析方法およびプログラム |
Non-Patent Citations (1)
Title |
---|
池内 光希ほか: "ユーザ行動に起因するログを用いた障害要因推定技術の検討", 電子情報通信学会2018年総合大会講演論文集 通信2, JPN6023025645, 6 March 2018 (2018-03-06), pages 108, ISSN: 0005091709 * |
Also Published As
Publication number | Publication date |
---|---|
JP7384063B2 (ja) | 2023-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11294754B2 (en) | System and method for contextual event sequence analysis | |
CN106685676B (zh) | 一种节点切换方法及装置 | |
CN113282461B (zh) | 传输网的告警识别方法和装置 | |
CN102055604B (zh) | 一种故障定位方法及其系统 | |
CN104583968A (zh) | 管理系统及管理程序 | |
CN110275992B (zh) | 应急处理方法、装置、服务器及计算机可读存储介质 | |
US20140067360A1 (en) | System And Method For On-Demand Simulation Based Learning For Automation Framework | |
CN104794013B (zh) | 定位系统运行状态、建立系统运行状态模型的方法及装置 | |
CN109309594B (zh) | 通信设备电源故障分析的方法、装置、设备及存储介质 | |
CN111078457A (zh) | 一种基于大数据的存储故障分析方法与装置 | |
CN116975938B (zh) | 一种产品制造过程中的传感器数据处理方法 | |
Jia et al. | Machine deserves better logging: a log enhancement approach for automatic fault diagnosis | |
EP3932012B1 (en) | Mesh communication network provision | |
CN109582504A (zh) | 一种用于苹果设备的数据恢复方法和装置 | |
CN112596934A (zh) | 一种故障测试方法及装置 | |
JP7384063B2 (ja) | 障害要因推定装置及び障害要因推定方法 | |
CN109889258B (zh) | 一种光网络故障校验方法和设备 | |
CN113626236B (zh) | 一种分布式文件系统的故障诊断方法、装置、设备及介质 | |
JP6896380B2 (ja) | 故障予兆判定方法、故障予兆判定装置および故障予兆判定プログラム | |
CN111935279B (zh) | 基于区块链和大数据的物联网络维护方法及计算节点 | |
JP6787873B2 (ja) | 異常種別判定装置、異常種別判定方法及びプログラム | |
CN112860527A (zh) | 应用服务器的故障监测方法及装置 | |
JP7472628B2 (ja) | 障害復旧装置、障害復旧方法及びプログラム | |
CN116628508B (zh) | 模型训练过程异常检测方法、装置、设备及存储介质 | |
WO2023100242A1 (ja) | 障害情報推定装置、障害情報推定方法、および障害情報推定プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220704 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230531 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230627 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230718 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231010 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231023 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7384063 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |