JP7505206B2 - 障害発生予測装置及び学習装置 - Google Patents
障害発生予測装置及び学習装置 Download PDFInfo
- Publication number
- JP7505206B2 JP7505206B2 JP2020035757A JP2020035757A JP7505206B2 JP 7505206 B2 JP7505206 B2 JP 7505206B2 JP 2020035757 A JP2020035757 A JP 2020035757A JP 2020035757 A JP2020035757 A JP 2020035757A JP 7505206 B2 JP7505206 B2 JP 7505206B2
- Authority
- JP
- Japan
- Prior art keywords
- company
- information
- data
- fault
- failure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010801 machine learning Methods 0.000 claims description 21
- 238000000034 method Methods 0.000 claims description 17
- 230000008859 change Effects 0.000 claims description 7
- 230000007423 decrease Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 description 37
- 238000013500 data storage Methods 0.000 description 27
- 238000012545 processing Methods 0.000 description 27
- 230000004044 response Effects 0.000 description 20
- 238000013527 convolutional neural network Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 12
- 238000012549 training Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 4
- 230000010354 integration Effects 0.000 description 4
- 238000013178 mathematical model Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 208000015181 infectious disease Diseases 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000000903 blocking effect Effects 0.000 description 2
- 230000007257 malfunction Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 208000035473 Communicable disease Diseases 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Debugging And Monitoring (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
まず、本実施形態の基本原理について説明する。
自社障害発生の有無=f(外部の反響情報)
である。自社障害発生の有無には、自社障害発生確率も含まれ得る。すなわち、
自社障害発生確率=f(外部の反響情報)
である。関数fは、学習済の数学モデルに相当する。
・反響情報の発生開始日時
・反響情報の発生開始から反響情報量が最大となるまでの時間
・反響情報量の最大値
・反響情報の発生開始から反響情報が一定量以下まで低減する時間
等のパラメータにより特定し得る。
図1は、本実施形態における障害発生予測装置の構成ブロック図を示す。障害発生予測装置は、反響データ取得部10、反響データ記憶部12、他社障害データ記憶部14、自社障害データ記憶部16、教師データ生成部18、学習処理部20、学習モデル記憶部22、及び障害予測部24を備える。
時刻t1:反響データa
時刻t2:反響データb1、b2
時刻t3:反響データc1、c2、c3、
等である。時刻は、当該反響データの送信時刻であるが、不明の場合には当該反響データの取得時刻に代えてもよい。反響データの種別、すなわちSNS上の口コミやツイートであるのか、あるいはWebページ上の情報であるのか等を併せて記憶してもよい。また、反響データの送信元がわかるのであれば、当該送信元を記憶してもよい。反響データには、過去の反響データと、現在の反響データのいずれも含まれる。過去の反響データは、他社の障害データと関連付けられている。過去の反響データに、その反響の原因となった他社障害を特定するIDが含まれていてもよい。
i0:障害発生日時
i1:反響データ30の発生開始日時
i2:反響データ30の発生開始から反響データ量が最大となるまでの時間
i3:反響データ量の最大値
i4:反響データ30の発生開始から反響データがなくなるまでの時間
の5つのパラメータにより特定され得る。
社名:AAA
サービス名:インフラA
機能名:ロードバランサ
自社障害機能:a基盤
障害発生日:4/10
等である。AAA社のインフラAというサービスの、ロードバランサ(負荷調整)機能に障害が発生したことを起因として、自社のa基盤に4/10に障害が発生したことを意味する。
社名:AAA
サービス名:インフラA
機能名:ロードバランサ
自社障害機能:a基盤
i0:4/10
i1:12:20
i2:30分
i3:320データ数
i4:640分
等である。AAA社のインフラAというサービスの、ロードバランサ(負荷調整)機能に障害が発生したことを起因として、自社のa基盤に4/10に障害が発生し、その日の時刻12:20に当該障害発生に起因して反響データの発生が開始され、その30分後に最大量320まで反響データが増大し、反響データ量が一定値以下となるまで640分が経過したことを意味する。
プロセッサ40は、学習プログラム記憶部42に記憶されている学習プログラムを読み出し実行することで学習部44を動作させる。
i1:12/21
i2:20分
i3:300データ量
等である。
「自社障害が発生します。」
「自社のa基盤の障害発生を予測しました。」
「自社のa基盤の障害発生の確率は70%です。」
等と出力する。自社障害発生の有無、自社障害発生の確率、自社障害機能は適宜、組み合わせて出力し得る。
「自社障害発生を予測しました。注意して下さい。」
と出力する等である。
従って、
「自社サービスの障害発生を予測しました。」
に代えて、
「他社サービスの障害発生を予測しました。
これに伴い、自社障害発生のおそれがあります。」
等と出力してもよい。関係部門は、出力された障害発生予測に基づいて、事前に必要な措置をとり得る。
実施形態では、図4に示す教師データを用いて機械学習しているが、図8に示すような教師データ60を用いて機械学習してもよい。
社名:AAA
サービス名:インフラA
機能名:ロードバランサ
自社障害機能:a基盤
検知時間:13:20
i0:4/10
i1:12:20
i2:30分
i3:320データ数
i4:640分
等である。AAA社のインフラAというサービスの、ロードバランサ(負荷調整)機能に障害が発生したことを起因として、自社のa基盤に4/10に障害が発生し、その日の時刻12:20に当該障害発生に起因して反響データの発生が開始され、その30分後に最大量320まで反響データが増大し、反響データ量が一定値以下となるまで640分が経過し、自社障害発生の検知時間は時刻13:20であったことを意味する。
「自社のa基盤の障害発生を予測しました。
障害発生予測時間:12:21」
等と出力する。障害予測部24は、出力結果を関係部門に出力する。この場合、関係部門は、自社障害発生の予測時間も考慮に入れた対応をとり得る。
実施形態において、自社障害データとして、自社障害に応じた対応方法と、そのときの対応完了時間を含め、図9に示すような教師データ62を用いて機械学習してもよい。
社名:AAA
サービス名:インフラA
機能名:ロードバランサ
自社障害機能:a基盤
検知時間:13:20
対応完了時間:13:20
対応方法:機能閉塞
i0:4/10
i1:12:20
i2:30分
i3:320データ数
i4:640分
等である。AAA社のインフラAというサービスの、ロードバランサ(負荷調整)機能に障害が発生したことを起因として、自社のa基盤に4/10に障害が発生し、その日の時刻12:20に当該障害発生に起因して反響データの発生が開始され、その30分後に最大量320まで反響データが増大し、反響データ量が一定値以下となるまで640分が経過し、自社障害発生の検知時間は時刻13:20であり、機能閉塞という対応により時刻13:20に対応を完了したことを意味する。
なお、対応方法は、可能な全ての対応方法を出力してもよいが、障害発生予測時間と当該対応方法の対応完了時間とを比較し、障害発生予測時間までに間に合う対応方法を出力してもよい。
「自社のa基盤の障害発生を予測しました。」
障害発生予測時間:12:21
対応方法:機能閉塞
等と出力する。
「自社障害を予測しました。」
とのメッセージとともに、自社障害の原因となり得る他社名、及びAPI名、自社障害発生予測時刻、復旧予測時刻が表示される。また、自社障害発生予測時刻までに間に合う対応方法の候補が表示される。対応候補が複数存在する場合、所定の順位、例えば対応完了時刻の早い順等で表示される。
「自社障害を予測しました。」
に代えて、
「他社障害を予測しました。」
とのメッセージでもよい。
本実施形態では、API連携により他社が提供するサービスを利用して自社サービスを提供する場合における、他社障害発生に起因する自社障害発生の有無を予測しているが、本実施形態の技術は、他の分野にも適用可能である。
Claims (11)
- 外部の反響情報の傾向を取得する取得部と、
プロセッサと、
を備え、前記プロセッサは、プログラムを実行することで、
過去の他社の障害情報を起因として生じた過去の自社の障害情報と、そのときの外部の反響情報の傾向との関係を推定するための機械学習を行った学習済みの学習モデルに、前記取得部で取得した外部の反響情報の傾向を入力し、
前記学習モデルを用いた演算処理を実行し、
前記学習モデルから自社の障害発生の予測情報を出力する、
障害発生予測装置。 - 前記プロセッサは、前記予測情報として、自社の障害発生の有無及び障害発生の予測時間を出力する、
請求項1に記載の障害発生予測装置。 - 前記プロセッサは、更に、前記予測情報として、予測される障害の対応方法を出力する、
請求項2に記載の障害発生予測装置。 - 前記取得部は、前記外部の反響情報の傾向として、反響情報の開始日時、及び反響情報の変化量を取得する、
請求項1~3のいずれかに記載の障害発生予測装置。 - 前記取得部は、更に、前記外部の反響情報の傾向として、反響情報の最大量、反響情報の開始から前記最大量になるまでの時間を取得する、
請求項4に記載の障害発生予測装置。 - 前記取得部は、更に、前記外部の反響情報の傾向として、反響情報の開始から反響情報が一定量以下に低減するまでの時間を取得する、
請求項5に記載の障害発生予測装置。 - 他社の障害情報、前記他社の障害情報に起因する自社の障害情報、及びそのときの外部の反響情報の傾向の組を学習データとして取得する学習データ取得部と、
プロセッサと、
を備え、前記プロセッサは、プログラムを実行することで、
前記学習データを用い、外部の反響情報の傾向を入力した場合に自社の障害発生の予測情報を出力するように学習モデルの機械学習を実行する、
学習装置。 - 前記学習データは、前記自社の障害情報として、障害発生日時、及び障害内容を含む、
請求項7に記載の学習装置。 - 前記学習データは、前記外部の反響情報の傾向として、反響情報の開始日時、及び反響情報の変化量を含む、
請求項7,8のいずれかに記載の学習装置。 - 前記学習データは、更に、前記外部の反響情報の傾向として、反響情報の最大量、反響情報の開始から前記最大量になるまでの時間を含む、
請求項9に記載の学習装置。 - 前記学習データは、更に、前記外部の反響情報の傾向として、反響情報の開始から反響情報が一定量以下に低減するまでの時間を含む、
請求項10に記載の学習装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020035757A JP7505206B2 (ja) | 2020-03-03 | 2020-03-03 | 障害発生予測装置及び学習装置 |
US17/030,353 US20210279609A1 (en) | 2020-03-03 | 2020-09-23 | Failure prediction apparatus and learning device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020035757A JP7505206B2 (ja) | 2020-03-03 | 2020-03-03 | 障害発生予測装置及び学習装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021140308A JP2021140308A (ja) | 2021-09-16 |
JP7505206B2 true JP7505206B2 (ja) | 2024-06-25 |
Family
ID=77555110
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020035757A Active JP7505206B2 (ja) | 2020-03-03 | 2020-03-03 | 障害発生予測装置及び学習装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20210279609A1 (ja) |
JP (1) | JP7505206B2 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018018224A (ja) | 2016-07-26 | 2018-02-01 | 富士ゼロックス株式会社 | プロモーション支援装置及びプログラム |
US20190361784A1 (en) | 2018-05-23 | 2019-11-28 | Seagate Technology Llc | Machine learning error prediction in storage arrays |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9297723B1 (en) * | 2013-11-15 | 2016-03-29 | American Public Power Association Inc. | Tracking and analyzing service outages |
US20180189399A1 (en) * | 2016-12-29 | 2018-07-05 | Google Inc. | Systems and methods for identifying and characterizing signals contained in a data stream |
US11429927B1 (en) * | 2018-10-22 | 2022-08-30 | Blue Yonder Group, Inc. | System and method to predict service level failure in supply chains |
EP4073653A4 (en) * | 2019-12-09 | 2022-12-14 | Visa International Service Association | FAILURE PREDICTION IN DISTRIBUTED SYSTEMS |
-
2020
- 2020-03-03 JP JP2020035757A patent/JP7505206B2/ja active Active
- 2020-09-23 US US17/030,353 patent/US20210279609A1/en not_active Abandoned
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018018224A (ja) | 2016-07-26 | 2018-02-01 | 富士ゼロックス株式会社 | プロモーション支援装置及びプログラム |
US20190361784A1 (en) | 2018-05-23 | 2019-11-28 | Seagate Technology Llc | Machine learning error prediction in storage arrays |
Non-Patent Citations (1)
Title |
---|
大木 基至 ほか,"Web上の複数のユーザ行動データを用いたモデルアンサンブル法に基づく故障イベント検知",電子情報通信学会技術研究報告,一般社団法人 電子情報通信学会,2017年,第117巻, 第212号,pp. 123-128,ISSN 0913-5685 |
Also Published As
Publication number | Publication date |
---|---|
US20210279609A1 (en) | 2021-09-09 |
JP2021140308A (ja) | 2021-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP4091110B1 (en) | Systems and methods for distributed incident classification and routing | |
Lechevalier et al. | Towards a domain-specific framework for predictive analytics in manufacturing | |
JP6875179B2 (ja) | システム分析装置、及びシステム分析方法 | |
EP3827387A1 (en) | Systematic prognostic analysis with dynamic causal model | |
Roshandel et al. | A Bayesian model for predicting reliability of software systems at the architectural level | |
JP2019502195A (ja) | 時間的因果グラフにおける異常フュージョン | |
CN110516971A (zh) | 异常检测的方法、装置、介质和计算设备 | |
Zhang et al. | Accountability monitoring and reasoning in service-oriented architectures | |
US9860109B2 (en) | Automatic alert generation | |
JP5413240B2 (ja) | イベント予測システムおよびイベント予測方法、ならびにコンピュータ・プログラム | |
JP2023547849A (ja) | ラベルなしセンサデータを用いた産業システム内の稀な障害の自動化されたリアルタイムの検出、予測、及び予防に関する、方法または非一時的コンピュータ可読媒体 | |
US11556871B2 (en) | Systems and methods for escalation policy activation | |
CN108170581A (zh) | 一种故障预警方法、装置及电子设备 | |
US11144930B2 (en) | System and method for managing service requests | |
US20230133541A1 (en) | Alert correlating using sequence model with topology reinforcement systems and methods | |
Jabeen et al. | An improved software reliability prediction model by using high precision error iterative analysis method | |
Malhotra et al. | Prioritization of classes for refactoring: A step towards improvement in software quality | |
Wu et al. | Sensor deployment based on fuzzy graph considering heterogeneity and multiple-objectives to diagnose manufacturing system | |
US20230105304A1 (en) | Proactive avoidance of performance issues in computing environments | |
Pai et al. | Quality and reliability studies in software defect management: a literature review | |
Ding et al. | TraceDiag: Adaptive, Interpretable, and Efficient Root Cause Analysis on Large-Scale Microservice Systems | |
KR102372958B1 (ko) | 멀티 클라우드 환경에서 애플리케이션 성능 모니터링 방법 및 장치 | |
JP7505206B2 (ja) | 障害発生予測装置及び学習装置 | |
JP2021140400A (ja) | 学習モデル作成システム及び学習モデル作成方法 | |
Lee et al. | Impacts of varying network parameters on the vulnerability and resilience of interdependent critical infrastructure systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230220 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240226 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240305 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240321 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240514 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240527 |