JP7327493B2 - 異常対処支援装置、方法およびプログラム - Google Patents
異常対処支援装置、方法およびプログラム Download PDFInfo
- Publication number
- JP7327493B2 JP7327493B2 JP2021548044A JP2021548044A JP7327493B2 JP 7327493 B2 JP7327493 B2 JP 7327493B2 JP 2021548044 A JP2021548044 A JP 2021548044A JP 2021548044 A JP2021548044 A JP 2021548044A JP 7327493 B2 JP7327493 B2 JP 7327493B2
- Authority
- JP
- Japan
- Prior art keywords
- abnormality
- cause
- failure
- coping
- devices
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0793—Remedial or corrective actions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0709—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Debugging And Monitoring (AREA)
Description
[一実施形態]
(構成例)
図1および図2は、それぞれこの発明の一実施形態に係る異常対処支援装置のソフトウェア構成およびハードウェア構成の一例を示すブロック図である。
次に、以上のように構成された異常対処支援装置1の動作を説明する。
図3は、異常対処支援装置1による異常対処支援動作の全体の処理手順と処理内容を示すフローチャートである。
異常対処支援装置1は、推定部11の制御の下、先ずステップS1において故障原因を特定する処理を以下のように実行する。図4はその処理手順と処理内容の一例を示すフローチャートである。
異常対処支援装置1は、上記ステップS2において故障原因が特定されたことが確認されると、続いて上記故障原因に対する対処方法を決定する処理を実行する。故障原因に対する対処方法を決定する処理は、ベイズ統計の手法を適用し、事前確率を考慮して対処方法ごとの復旧確率を計算し、計算された復旧確率をもとに対処方法に対し優先順位を設定して、この優先順位に従い対処方法を決定するもので、復旧確率の計算方法には第1のパターン(パターン1)と第2のパターン(パターン2)がある。
パターン1は、故障原因が特定された対象ノードだけでなく、当該故障原因と同一の故障原因への対処実績を有する他のすべてのノードを含む複数のノードを対象とし、同一の故障原因について対処方法ごとの復旧確率を計算し、優先順位を設定するものである。
対処方法決定部12は、先ずステップS31により上記推定部11から故障原因特定情報を取得する。この故障原因特定情報には、例えば、故障発生箇所に対応するノードの番号と、故障原因の識別情報(例えば番号)が含まれている。
Σ P(An |Xi )×100 …(1)
により計算することができる。なお、Σは対処方法An のn =1~4のそれぞれについて計算される。
(5+0)/(5+4+3+1+0+1+2+3)×100
=26%
となる。
パターン2は、故障原因が特定された対象ノードだけでなく、当該対象ノードと同種のすべてのノードを対象にし、同一の故障原因について対処方法ごとの復旧確率を計算し、優先順位を設定するものである。
対処方法決定部12は、先ずステップS41により推定部11から故障原因特定情報を取得する。この故障原因特定情報には、例えば、故障発生箇所に対応するノードの種類を表す情報と、故障原因の識別情報(例えば番号)が含まれている。
Σ P(An |Xi ,Sj )×100 …(2)
により計算することができる。なお、Σは対処方法An のn =1~4のそれぞれについて計算される。
(7+0)/(7+5+3+1+0+1+1+4)×100
=32%
と計算される。
上記対処方法決定処理が終了すると、異常対処支援装置1はステップS4において対処方法の選択の可否、つまり上記対処方法決定処理において対処方法が決定されたか否かを判定する。この判定の結果、対処方法が決定された場合には、ステップS5において対処方法提示情報ESが生成され、生成された対処方法の提示情報ESがGUI40から表示部8へ出力されて表示される。
以上述べたようにこの発明の一実施形態では、異常対処支援装置1において、ベイズ統計の手法により事前確率を使用し、パターン1で述べたように故障対処履歴データに記憶されている、同一の故障原因への対処実績を有するすべてのノードを対象として、上記故障原因に対する各対処方法の復旧確率をそれぞれ計算し、計算された復旧確率をもとに各対処方法に対し優先順位を設定して、この優先順位に従い提示する対処方法を決定するようにしている。
図10は、この発明の一実施形態における、ベイズ統計のパターン1およびパターン2を適用した対処方法決定処理と、既存の頻度統計を適用した処理との間の効果の対比例を示す図である。同図では、比較条件として、装置種別を1種類、ノード数を3台、故障原因を3種類、対処方法を5種類としている。
(1)前記一実施形態では、異常対処支援装置の処理機能を例えば保守端末に備える場合を例にとって説明したが、システムの上位に位置する管理サーバなどに備えるようにしてもよい。また、異常対処支援装置の処理機能を監視対象となる各ノードのいずれか一つまたは複数に備えるようにしてもよい。何れの場合も、異常対処支援装置の処理機能は、各ノードの属性情報、ノード間の接続状況を示す情報、および各ノードから発生されるアラーム情報を収集して管理する機能を有する。
2…制御部
3…プログラム記憶部
4…データ記憶部
5…通信インタフェース部(通信I/F)
6…入出力インタフェース部(入出力I/F)
7…入力部
8…表示部
9…バス
10…ルール生成・制御部
11…推定部
12…対処方法決定部
13…トポロジ・イベントデータ記憶部
20…ルールエンジン
30…データ変換部
40…入出力インタフェース部(GUI)
Claims (7)
- ネットワークに接続された複数の装置の各々に関する異常対処の実績情報を記憶する記憶部と、
前記複数の装置のうち異常が発生した装置に関する異常原因の特定結果を表す情報を取得する取得部と、
記憶された前記異常対処の実績情報に基づいて、事前確率を用いた統計手法をもとに、前記異常原因が特定された装置を含む所定の範囲の複数の装置を対象として、当該複数の装置の異常原因に対応する複数の対処方法の各々について前記異常原因の復旧確率を計算する計算部と、
計算された前記復旧確率に基づいて前記複数の対処方法に対し優先度を設定する優先度設定部と、
設定された前記優先度に基づいて、前記異常原因が特定された前記装置に対する対処方法を決定する決定部と、
決定された前記対処方法を表す情報を出力する出力部と
を具備する異常対処支援装置。 - 前記計算部は、記憶された前記異常対処の実績情報に基づいて、前記異常原因が特定された装置と、前記異常原因と同一の異常原因への対処実績を有する他の装置を含む複数の装置を対象として、対象とされた前記複数の装置の故障原因に対応する複数の対処方法の各々について前記故障原因の復旧確率を計算する第1の処理部を備える、請求項1に記載の異常対処支援装置。
- 前記計算部は、記憶された前記異常対処の実績情報に基づいて、前記異常原因が特定された装置と当該装置と同一種類の他の装置を含む複数の装置を対象として、対象となった前記複数の装置の故障原因に対応する複数の対処方法の各々について前記故障原因の復旧確率を計算する第2の処理部を備える、請求項1に記載の異常対処支援装置。
- 前記計算部は、前記第1の処理部による計算の結果、前記複数の対処方法の中に前記復旧確率が同一値となる対処方法が存在する場合に、少なくとも当該対処方法に対し、前記異常対処の実績情報に基づいて、前記異常原因が特定された装置と当該装置と同一種類の他の装置とを含む複数の装置を対象として、対象となった前記複数の装置の故障原因に対応する複数の対処方法の各々について前記故障原因の前記復旧確率を再計算する、請求項2に記載の異常対処支援装置。
- 前記計算部は、前記第2の処理部による計算の結果、前記複数の対処方法の中に前記復旧確率が同一値となる対処方法が存在する場合に、少なくとも当該対処方法に対し、前記異常対処の実績情報に基づいて、前記異常原因が特定された装置と前記異常原因と同一の異常原因への対処実績を有する他の装置とを含む複数の装置を対象として、対象とされた前記複数の装置の故障原因に対応する複数の対処方法の各々について前記故障原因の前記復旧確率を再計算する、請求項3に記載の異常対処支援装置。
- ハードウェアプロセッサおよびメモリを有する情報処理装置が実行する異常対処支援方法であって、
ネットワークに接続された複数の装置の各々に関する異常対処の実績情報を前記メモリに記憶する過程と、
前記複数の装置のうち異常が発生した装置に関する異常原因の特定結果を表す情報を取得する過程と、
記憶された前記異常対処の実績情報に基づいて、事前確率を用いた統計手法をもとに、前記異常原因が特定された装置を含む所定の範囲の複数の装置を対象として、当該複数の装置の異常原因に対応する複数の対処方法の各々について前記異常原因の復旧確率を計算する過程と、
計算された前記復旧確率に基づいて前記複数の対処方法に対し優先度を設定する過程と、
設定された前記優先度に基づいて、前記異常原因が特定された前記装置に対する対処方法を決定する過程と、
決定された前記対処方法を表す情報を出力する過程と
を具備する異常対処支援方法。 - 請求項1乃至5の何れかに記載の異常対処支援装置が具備する前記各部の処理を、前記異常対処支援装置が備えるプロセッサに実行させるプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/037577 WO2021059396A1 (ja) | 2019-09-25 | 2019-09-25 | 異常対処支援装置、方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2021059396A1 JPWO2021059396A1 (ja) | 2021-04-01 |
JP7327493B2 true JP7327493B2 (ja) | 2023-08-16 |
Family
ID=75164843
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021548044A Active JP7327493B2 (ja) | 2019-09-25 | 2019-09-25 | 異常対処支援装置、方法およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11681576B2 (ja) |
JP (1) | JP7327493B2 (ja) |
WO (1) | WO2021059396A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11994941B2 (en) * | 2021-09-23 | 2024-05-28 | Dell Products L.P. | Analysis and remediation of alerts |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005038223A (ja) | 2003-07-16 | 2005-02-10 | Nec Corp | 障害復旧装置および障害復旧方法ならびにプログラム |
JP2006085538A (ja) | 2004-09-17 | 2006-03-30 | Nec Fielding Ltd | 復旧支援方法及び復旧支援システム並びに復旧支援用プログラム |
JP2008210148A (ja) | 2007-02-26 | 2008-09-11 | Hitachi Information Systems Ltd | 障害対応システム及び障害対応方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8473107B2 (en) * | 2010-08-05 | 2013-06-25 | Sharp Laboratories Of America, Inc. | Offered actions for energy management based on anomalous conditions |
US8768795B2 (en) * | 2012-09-12 | 2014-07-01 | General Electric Company | Methods and systems for estimating recoverable utility revenue |
JP6637854B2 (ja) | 2016-08-17 | 2020-01-29 | 日本電信電話株式会社 | パターン抽出及びルール生成装置、及びその方法 |
-
2019
- 2019-09-25 WO PCT/JP2019/037577 patent/WO2021059396A1/ja active Application Filing
- 2019-09-25 US US17/760,681 patent/US11681576B2/en active Active
- 2019-09-25 JP JP2021548044A patent/JP7327493B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005038223A (ja) | 2003-07-16 | 2005-02-10 | Nec Corp | 障害復旧装置および障害復旧方法ならびにプログラム |
JP2006085538A (ja) | 2004-09-17 | 2006-03-30 | Nec Fielding Ltd | 復旧支援方法及び復旧支援システム並びに復旧支援用プログラム |
JP2008210148A (ja) | 2007-02-26 | 2008-09-11 | Hitachi Information Systems Ltd | 障害対応システム及び障害対応方法 |
Also Published As
Publication number | Publication date |
---|---|
US20220334914A1 (en) | 2022-10-20 |
JPWO2021059396A1 (ja) | 2021-04-01 |
WO2021059396A1 (ja) | 2021-04-01 |
US11681576B2 (en) | 2023-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11269718B1 (en) | Root cause detection and corrective action diagnosis system | |
US11599408B2 (en) | Technology system auto-recovery and optimality engine and techniques | |
US10462027B2 (en) | Cloud network stability | |
JP5223413B2 (ja) | Itシステムのトラブル対処装置、トラブル対処方法およびそのためのプログラム | |
JP6280862B2 (ja) | イベント分析システムおよび方法 | |
JP7435799B2 (ja) | ルール学習装置、ルールエンジン、ルール学習方法、及びルール学習プログラム | |
WO2015171860A1 (en) | Automatic alert generation | |
JP7327493B2 (ja) | 異常対処支援装置、方法およびプログラム | |
JP5217820B2 (ja) | 支援プログラム、支援装置および支援方法 | |
JP2018124829A (ja) | 状態判定装置、状態判定方法及びプログラム | |
Naksinehaboon et al. | Benefits of software rejuvenation on HPC systems | |
JP6722345B2 (ja) | 予兆検知装置及び予兆検知方法 | |
US20220342788A1 (en) | Anomaly location estimating apparatus, method, and program | |
JP2020024538A (ja) | 操作列生成装置、操作列生成方法及びプログラム | |
JP7268748B2 (ja) | 情報分析装置、方法およびプログラム | |
US12001271B2 (en) | Network monitoring apparatus, method, and program | |
WO2014024283A1 (ja) | 障害検出装置、障害検出プログラムおよび障害検出方法 | |
JP7331935B2 (ja) | 異常対処支援装置、方法及びプログラム | |
JP2022184521A (ja) | 設備異常原因推定装置、設備異常原因推定システム、および、設備異常原因推定方法 | |
JP6787873B2 (ja) | 異常種別判定装置、異常種別判定方法及びプログラム | |
JP5836316B2 (ja) | 障害監視システム、障害監視方法、及び障害監視プログラム | |
WO2023281595A1 (ja) | 障害推定装置、方法およびプログラム | |
JP2020086474A (ja) | 復旧支援装置、復旧支援方法及びプログラム | |
WO2023276150A1 (ja) | 情報適正化装置、方法およびプログラム | |
JP7296426B2 (ja) | 情報システムを管理する管理システム及び管理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220105 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20230104 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230124 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20230208 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230315 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230704 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230717 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7327493 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |