JP2014225124A - 障害監視システム、障害監視方法、及び障害監視プログラム - Google Patents
障害監視システム、障害監視方法、及び障害監視プログラム Download PDFInfo
- Publication number
- JP2014225124A JP2014225124A JP2013103976A JP2013103976A JP2014225124A JP 2014225124 A JP2014225124 A JP 2014225124A JP 2013103976 A JP2013103976 A JP 2013103976A JP 2013103976 A JP2013103976 A JP 2013103976A JP 2014225124 A JP2014225124 A JP 2014225124A
- Authority
- JP
- Japan
- Prior art keywords
- failure
- event
- failure event
- correlation
- events
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】障害監視システムは、ネットワークノードに生じた複数の障害イベント相互間のコリレーションを障害イベントの回復履歴に基づいて計算し直し(ステップ603)、複数の障害イベント間のコリレーションを計算の結果に基づいて更新する(ステップ604)。これにより、計算機ネットワーク構成を忠実に反映した障害解析が可能になる。
【選択図】図6
Description
図1は、本実施形態に関わるイベント・コリレーションの一例を示す説明図である。イベントとは、広義には、コンピュータに状態遷移をもたらす事象を意味し、とりわけ障害イベントと呼ばれるイベントは、コンピュータに障害をもたらす事象を意味する。本明細書では、ネットワークノードに生じた複数の障害イベント相互間のコリレーションを定量的に評価する指標として、一方の障害イベントの解消に起因して他方の障害イベントが解消する統計的な確率を用いる。例えば、図1に示す例では、障害イベントAの障害イベントBに対するコリレーションは、障害イベントAの解消に起因して障害イベントBが解消する確率95%であり、障害イベントBの障害イベントAに対するコリレーションは、障害イベントBの解消に起因して障害イベントAが解消する確率20%である。同様に、障害イベントBの障害イベントCに対するコリレーションは、障害イベントBの解消に起因して障害イベントCが解消する確率80%であり、障害イベントCの障害イベントBに対するコリレーションは、障害イベントCの解消に起因して障害イベントBが解消する確率10%である。また、障害イベントCの障害イベントAに対するコリレーションは、障害イベントCの解消に起因して障害イベントAが解消する確率20%であり、障害イベントAの障害イベントCに対するコリレーションは、障害イベントAの解消に起因して障害イベントCが解消する確率85%である。本明細書では、第一の障害イベントの第二の障害イベントに対するコリレーションが閾値(例えば、確率80%)以上であるときに、第一の障害イベントは第二の障害イベントの「原因」であり、第二の障害イベントは第一の障害イベントの「影響下にある」と定義する。図1に示す例では、障害イベントAの障害イベントBに対するコリレーションは、確率95%であるから、障害イベントAは障害イベントBの原因であり、障害イベントBは障害イベントAの影響下にある。なお、図1では、説明の便宜上、三つの障害イベント相互間のコリレーションについて説明したが、障害イベントの数が二つ或いは四つ以上の場合でも同様に障害イベント相互間のコリレーションを定義することができる。
ステップ401では、プロセッサ12は、ネットワークノード20から障害イベントの発生の通知を受信したか否かを判定する。
ステップ402では、プロセッサ12は、障害中リスト51にリストされている障害イベントを参照する。障害中リスト51には、ネットワークノード20から障害発生が通知された障害イベントがリストされている。
ステップ403では、プロセッサ12は、障害中リスト51に複数の障害イベントがリストされているか否かを判定する。
ステップ404では、プロセッサ12は、障害中リスト51にリストされている障害イベントを通知対象リスト53に追加し、通知対象リスト53に追加された障害イベントの発生を表示装置13にアラーム表示する。
ステップ405では、プロセッサ12は、障害中リスト51にリストされている複数の障害イベントの中から二つの障害イベントを選択する。
ステップ406では、プロセッサ12は、ステップ405で選択された二つの障害イベント(例えば、障害イベントA,B)のうち一方の障害イベント(例えば、障害イベントA)の他方の障害イベント(例えば、障害イベントB)に対する静的コリレーションと動的コリレーションのうち高い方が閾値(例えば、80%)以上であるか否かを判定する。但し、静的コリレーションは、無効化される場合もあるので(図7のステップ705参照)、静的コリレーションが無効化されている場合は、ステップ406では、動的コリレーションが閾値を超えているか否かが判定される。
ステップ407では、プロセッサ12は、ステップ405で選択された二つの障害イベント(例えば、障害イベントA,B)のうち一方の障害イベント(例えば、障害イベントA)を他方の障害イベント(例えば、障害イベントB)の「原因」であると判定する。
ステップ408では、プロセッサ12は、障害中リスト51にリストされている複数の障害イベントの中から二つの障害イベントの全ての組み合わせについて、ステップ405〜407の処理を実行したか否かを判定する。
ステップ409では、プロセッサ12は、障害中リスト51にリストされている複数の障害イベントのうちどの障害イベントの影響下にもない障害イベントを通知対象リスト53に追加し、通知対象リスト53に追加された障害イベントの発生を表示装置13にアラーム表示する。これにより、何れかの障害イベントの影響下にある障害イベントの通知を制限することができるため、オペレータの監視負担を軽減できる。但し、障害中リスト51にリストされている複数の障害イベントが互いに影響し合う場合には、どの障害イベントの影響下にもない障害イベントが存在しない。このような場合には、影響を受ける障害イベントの数が最も少ない障害イベントを通知対象リスト53に追加し、通知対象リスト53に追加された障害イベントの発生を表示装置13にアラーム表示すればよい。
ステップ501では、プロセッサ12は、ネットワークノード20から障害イベントの復旧通知を受信したか否かを判定する。
ステップ502では、プロセッサ12は、ステップ501で受信した復旧通知により復旧対象となる障害イベントを復旧中リスト52に追加する。
ステップ503では、プロセッサ12は、復旧中リスト52に追加された障害イベントの処理済みフラグをオフに設定する。
ステップ504では、プロセッサ12は、復旧中リスト52に追加されている障害イベントの中から処理済みフラグがオフに設定されている障害イベントを一つ選択し、選択した障害イベントに関する回復履歴をログファイル62に記録する。回復履歴は、例えば、ステップ504で選択した障害イベントの種別と、ステップ504で選択した障害イベントの解消に起因して解消する全ての障害イベントの種別と、ステップ504で選択した障害イベントが解消しても解消しない全ての障害イベントの種別と、ステップ504の処理を行った日時を含む。
ステップ505では、プロセッサ12は、ステップ504の処理が完了した障害イベントの処理済みフラグをオンに設定する。
ステップ506では、プロセッサ12は、復旧中リスト52にリストされている全ての障害イベントについてステップ504,505の処理を完了したか否かを判定する。
ステップ507では、プロセッサ12は、復旧中リスト52にリストされている全ての障害イベントを削除する。
ステップ601では、プロセッサ12は、過去一定期間内(例えば、過去数ヶ月以内)にログファイル62に記録されている回復履歴をリストアップする。
ステップ602では、プロセッサ12は、ステップ601でリストアップされた回復履歴の中から任意の二つの障害イベント(例えば、障害イベントA,B)を選択し、選択された二つの障害イベントのうち一方の障害イベント(例えば、障害イベントA)の解消に起因して他方の障害イベント(例えば、障害イベントB)が解消した回数N1と、一方の障害イベント(例えば、障害イベントA)の解消に起因して他方の障害イベント(例えば、障害イベントB)が解消しない回数N2とを計算する。
ステップ603では、プロセッサ12は、ステップ602で選択された二つの障害イベントのうち一方の障害イベント(例えば、障害イベントA)の他方の障害イベント(例えば、障害イベントB)に対する動的コリレーションをN1/(N1+N2)に基づいて計算し直す。
ステップ604では、プロセッサ12は、ステップ602で選択された二つの障害イベントのうち一方の障害イベント(例えば、障害イベントA)の他方の障害イベント(例えば、障害イベントB)に対する動的コリレーションの値が、ステップ603で計算し直された値に一致するように、コリレーションファイル61を更新する。
ステップ605では、プロセッサ12は、任意の二つの障害イベントの全ての組み合わせについて、ステップ602〜604の処理を実行したか否かを判定する。
なお、ステップ601〜605を実行するためのソフトウェアモジュールは、障害管理プログラム40の中で定期的に呼び出されて実行されるようにプログラムされており、これにより、動的コリレーションの値を定期的に最新の値に更新することができる。
ステップ701では、プロセッサ12は、任意の二つの障害イベント(例えば、障害イベントA,B)を選択し、選択した二つの障害イベントのうち一方の障害イベント(例えば、障害イベントA)の他方の障害イベント(例えば、障害イベントB)に対する静的コリレーションの初期値と、一定の周期間隔で初期値から減算される静的コリレーションの減算値とを設定する。静的コリレーションの初期値とその減算値は、オペレータ30が事前に指定することができる。減算値はゼロでもよい。
ステップ702では、プロセッサ12は、後述するステップ706の処理が完了してから一定の周期期間が経過したか否かを判定する。
ステップ703では、プロセッサ12は、ステップ701で選択された二つの障害イベントのうち一方の障害イベント(例えば、障害イベントA)の他方の障害イベント(例えば、障害イベントB)に対する静的コリレーションの値を、ステップ701で設定された減算値の分だけ減算する。
ステップ704では、プロセッサ12は、ステップ701で選択された二つの障害イベントのうち一方の障害イベント(例えば、障害イベントA)の他方の障害イベント(例えば、障害イベントB)に対する静的コリレーションの値が閾値(例えば、80%)を下回るか否かを判定する。
ステップ705では、プロセッサ12は、ステップ701で選択された二つの障害イベントのうち一方の障害イベント(例えば、障害イベントA)の他方の障害イベント(例えば、障害イベントB)に対する静的コリレーションを無効化し、その旨をオペレータ30に通知する。
ステップ706では、プロセッサ12は、任意の二つの障害イベントの全ての組み合わせについて、ステップ701〜705の処理を実行したか否かを判定する。
Claims (5)
- ネットワークノードに生じた複数の障害イベント間のコリレーションを障害イベントの回復履歴に基づいて計算し直す計算手段と、
前記複数の障害イベント間のコリレーションを前記計算の結果に基づいて更新する更新手段と、
を備える障害監視システム。 - 請求項1に記載の障害監視システムであって、
前記複数の障害イベントは、第一の障害イベント及び第二の障害イベントを含み、
前記第一の障害イベントの前記第二の障害イベントに対するコリレーションは、前記第一の障害イベントの解消に起因して前記第二の障害イベントが解消する確率である、障害監視システム。 - 請求項2に記載の障害監視システムであって、
前記複数の障害イベントのうち所定の障害イベントに対するコリレーションが閾値以上である何れかの障害イベントが存在することを条件として、前記所定の障害イベントの発生の通知を制限する制限手段を更に備える、障害監視システム。 - ネットワークノードに生じた複数の障害イベント間のコリレーションを障害イベントの回復履歴に基づいて計算し直すステップと、
前記複数の障害イベント間のコリレーションを前記計算の結果に基づいて更新するステップと、
を備える障害監視方法。 - 請求項4に記載の障害監視方法をコンピュータに実行させるための障害監視プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013103976A JP5836316B2 (ja) | 2013-05-16 | 2013-05-16 | 障害監視システム、障害監視方法、及び障害監視プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013103976A JP5836316B2 (ja) | 2013-05-16 | 2013-05-16 | 障害監視システム、障害監視方法、及び障害監視プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014225124A true JP2014225124A (ja) | 2014-12-04 |
JP5836316B2 JP5836316B2 (ja) | 2015-12-24 |
Family
ID=52123763
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013103976A Active JP5836316B2 (ja) | 2013-05-16 | 2013-05-16 | 障害監視システム、障害監視方法、及び障害監視プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5836316B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109218129A (zh) * | 2018-08-29 | 2019-01-15 | 郑州云海信息技术有限公司 | 一种基于日志的升级检测方法、装置、存储器及设备 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111381969B (zh) * | 2020-03-16 | 2021-10-26 | 北京康吉森技术有限公司 | 一种分布式软件的管理方法及其系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006004346A (ja) * | 2004-06-21 | 2006-01-05 | Fujitsu Ltd | パターン検出プログラム |
JP2007096796A (ja) * | 2005-09-29 | 2007-04-12 | Fujitsu Ltd | ネットワーク障害診断装置、ネットワーク障害診断方法およびネットワーク障害診断プログラム |
WO2010131746A1 (ja) * | 2009-05-15 | 2010-11-18 | 日本電気株式会社 | 障害原因推定システム、障害原因推定方法、及び障害原因推定プログラム |
JP2011109489A (ja) * | 2009-11-19 | 2011-06-02 | Fujitsu Telecom Networks Ltd | アラート管理装置およびアラート管理方法 |
-
2013
- 2013-05-16 JP JP2013103976A patent/JP5836316B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006004346A (ja) * | 2004-06-21 | 2006-01-05 | Fujitsu Ltd | パターン検出プログラム |
JP2007096796A (ja) * | 2005-09-29 | 2007-04-12 | Fujitsu Ltd | ネットワーク障害診断装置、ネットワーク障害診断方法およびネットワーク障害診断プログラム |
WO2010131746A1 (ja) * | 2009-05-15 | 2010-11-18 | 日本電気株式会社 | 障害原因推定システム、障害原因推定方法、及び障害原因推定プログラム |
JP2011109489A (ja) * | 2009-11-19 | 2011-06-02 | Fujitsu Telecom Networks Ltd | アラート管理装置およびアラート管理方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109218129A (zh) * | 2018-08-29 | 2019-01-15 | 郑州云海信息技术有限公司 | 一种基于日志的升级检测方法、装置、存储器及设备 |
Also Published As
Publication number | Publication date |
---|---|
JP5836316B2 (ja) | 2015-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110516971B (zh) | 异常检测的方法、装置、介质和计算设备 | |
US9971679B2 (en) | Identifying severity of test execution failures by analyzing test execution logs | |
US9122694B1 (en) | Systems and methods for highly scalable system log analysis, deduplication and management | |
JP6288244B2 (ja) | 情報処理装置、影響過程抽出方法およびプログラム | |
JP6307453B2 (ja) | リスク評価システムおよびリスク評価方法 | |
US9355005B2 (en) | Detection apparatus and detection method | |
JP2020520499A (ja) | ブロックチェーンにおけるスナップショットを管理する方法、コンピュータ・プログラム、スナップショット・ノード、オーディタ・ノードおよびシステム | |
JP6259522B2 (ja) | ソフトウェア障害の位置標定方法、装置及び設備 | |
US10769641B2 (en) | Service request management in cloud computing systems | |
JPWO2012101933A1 (ja) | 運用管理装置、運用管理方法、及びプログラム | |
US9658908B2 (en) | Failure symptom report device and method for detecting failure symptom | |
US10361905B2 (en) | Alert remediation automation | |
US11455223B2 (en) | Using system errors and manufacturer defects in system components causing the system errors to determine a quality assessment value for the components | |
JP5836316B2 (ja) | 障害監視システム、障害監視方法、及び障害監視プログラム | |
US20190129781A1 (en) | Event investigation assist method and event investigation assist device | |
US20150067139A1 (en) | Agentless monitoring of computer systems | |
JP2018124829A (ja) | 状態判定装置、状態判定方法及びプログラム | |
JPWO2020136859A1 (ja) | 推定装置、推定方法、及びプログラム | |
US20160050101A1 (en) | Real-Time Network Monitoring and Alerting | |
US9594622B2 (en) | Contacting remote support (call home) and reporting a catastrophic event with supporting documentation | |
US9674060B2 (en) | Dynamic and selective management of integration points using performance metrics | |
CN114679295B (zh) | 防火墙安全配置方法及装置 | |
US11681576B2 (en) | Anomaly coping support apparatus, method, and program | |
CN115840663A (zh) | 刷写元数据的方法、电子设备和计算机程序产品 | |
US20170161969A1 (en) | System and method for model-based optimization of subcomponent sensor communications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150318 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150408 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150501 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151028 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151102 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5836316 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |