JP5525225B2 - 障害原因解析システム及びプログラム - Google Patents
障害原因解析システム及びプログラム Download PDFInfo
- Publication number
- JP5525225B2 JP5525225B2 JP2009227772A JP2009227772A JP5525225B2 JP 5525225 B2 JP5525225 B2 JP 5525225B2 JP 2009227772 A JP2009227772 A JP 2009227772A JP 2009227772 A JP2009227772 A JP 2009227772A JP 5525225 B2 JP5525225 B2 JP 5525225B2
- Authority
- JP
- Japan
- Prior art keywords
- failure cause
- event
- failure
- rule
- cause determination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Test And Diagnosis Of Digital Computers (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Debugging And Monitoring (AREA)
Description
処理a:1対1に対応するサブルールとイベントのペアについては、当該サブルール以外のサブルールの成立状況を不成立とする。
処理b:処理aを実行した後、依然として複数のイベントが対応するサブルールがあるときには、任意のイベントを当該サブルールに対応させることにより、1対1の関係を構築する。
図1は、本発明の実施形態による障害原因解析システムの概略構成を示す図である。図1に示すように、本実施形態による障害原因解析システム101は、監視システム103が監視対象システム(例えば、DBサーバ)102をログ監視等することによって得たイベントを受信してイベントの内容を解釈するための接続アダプタ104と、ユーザがテンプレートに従って入力した障害原因判定ルール定義113から生成された障害原因判定ルール(格納部)105と、ルール実行エンジン114を用いてイベントと障害原因判定ルール105の一致状況に関する情報を生成する一致状況生成機構106と、生成された一致状況を蓄積するための一致状況キャッシュ107と、一致状況キャッシュ107の情報に基づいて障害原因を判定する障害原因判定機構108と、障害原因判定ルール定義113から障害判定ルールを生成する障害原因判定ルール生成機構109と、障害原因判定結果ダッシュボード生成機構110と、一致判定結果を集計するためのディシジョンテーブル111と、を備えている。なお、図1では、ルール実行エンジン114は障害原因解析システム101とは別の構成要素として示されているが、障害原因解析システム101の構成に含まれるものであっても良い。また、ルール実行エンジン114は、一致状況生成機構106の1つの機能として実現されるようにしても良い。
図2は、障害原因判定ルール定義テンプレートの例を示す図である。障害原因判定ルール定義テンプレート201は、障害原因判定ルール名称202(例えば、HDD障害やCPU障害といった障害の名称)と、障害原因判定条件リスト203と、当該障害原因を判定するためのイベントを取得する時間間隔を示す相関時間204と、障害発生と判断された場合に採るべきアクションを示す障害原因判定結果アクション205とから構成される。また、障害原因判定条件リスト203は、障害原因判定条件206の配列から構成される。各項目は、ユーザによってGUI等に表示されたフォーマットに従い入力されるものである。
図3は、障害原因判定ルールの例を示す図である。障害原因判定ルール301は、入力された障害原因判定ルール定義201に基づいて生成され、ルールID302と、障害原因判定ルール名称202に対応するルール名303と、相関時間204に対応する相関時間304と障害原因判定結果アクション205に対応するアクション305と、障害原因判定ルール定義テンプレート中に記述された障害原因条件判定リストの各障害原因判定条件に対応するサブルール306と、の配列から構成される。サブルール306は、1つの障害原因判定条件が成立したときに、対応するサブルールIDを出力するという内容となっている。つまり、ルール実行エンジン114において、受信したイベントの中の属性情報と各判定条件とが照合され、両者が一致する場合にサブルールIDが出力されるようになっている。従って、全てのサブルールを実行し終えた後に、出力を解析することにより、障害原因判定ルールの成立状況が把握できることになる。
図4は、障害原因判定ルール生成機構109が、入力された障害原因判定ルール定義テンプレート113に基づいて障害原因判定ルール105を生成する処理を説明するためのフローチャートである。処理の流れは、以下のようになる。
図5は、接続アダプタ104から受信したイベントと生成された障害原因判定ルールとの一致状況をイベント発生時間の昇順で蓄積する一致状況キャッシュのデータ構造の一例を示す図である。
図6は、一致状況生成機構106が、接続アダプタ104から受信したイベントと生成された障害原因判定ルール105の一致状況を生成する処理を説明するためのフローチャートである。処理の流れは、以下のようになる。
図7は、障害原因判定機構108が、一致状況キャッシュ107から、ある障害原因判定ルールに対して障害原因を解析するため、解析対象である一致状況を選出する場合の処理を説明するためのフローチャートである。処理の流れは、以下のようになる。
図8は、ある障害原因判定ルールに対して、障害原因を解析するための一致状況マトリクスの一例を示す図である。この解析用一致状況マトリクス801は、図7に示すフローチャートで抽出された解析対象一致状況リストから生成される。解析用一致状況マトリクス801の各行は指定された障害原因判定ルールのサブルールが各イベントで成立状況を示す情報802であり、各列は指定された障害原因判定ルールと相関するイベントが各サブルールとの一致状況803である。
図9は、障害原因判定機構108が、図8に示す解析用一致状況マトリクスを用いて、障害原因を解析し、ディシジョンテーブルを生成する処理を説明するためのフローチャートである。処理の流れは、以下のようになる。
図10は、障害原因部分一致判定機構108が障害原因判定ルール105とイベントの一致状況を解析し、障害原因判定ルールの成立状況を把握するために用いるディシジョンテーブル111のデータ構造の一例を示す図である。
図11は、障害原因部分一致判定機構108がディシジョンテーブル111に基づいて生成する障害原因解析結果一覧の表示画面の例を示す図である。障害原因解析結果一覧表示画面1101は、二次元表形式になっている。画面における各行は、障害の原因として可能性が高い順にソートして表示される。各行を構成する列は、障害原因判定ルールID1102と、障害原因判定ルール名称1103と、一致率1104(1008に対応)と、障害原因判定条件一致状況1105と、から構成される。
本発明では、障害原因発生の判定処理に相関時間(解析すべきイベントを取得するための期間であって、この期間中に発生したイベントが解析対象となる。)の概念を導入し、監視対象のシステムが発生した全イベントから関連あるイベントを解析対象とし、また、関連あるイベントに関してのみ障害原因判定ルールの照合処理を実行する。これにより、照合対象及び解析対象を絞り込むことができ、処理の負荷を軽減することができる。また、障害発生時の原因解析作業の属人化を低減することができ、かつ、障害発生時の原因解析作業時間の短縮を図ることが可能になる。なお、相関時間は、定義テンプレートによって設定可能であるので、ユーザは相関時間の長短を調節することが可能である。
Claims (6)
- 監視対象システムにおける障害原因を解析する障害原因解析システムであって、
前記監視対象システムにおいて発生したイベントを受信するイベント受信部と、
障害の名称と、前記監視対象システムからの受信したイベントのうち解析すべき対象を絞り込むための相対的な期間を示す相関時間と、前記障害原因があると判定するための複数の判定条件に対応する複数のサブルールと、を含む障害原因判定ルールの前記複数のサブルールと前記受信したイベントとを照合し、当該照合結果に基準時間を付与して一致状況情報群を生成する一致状況生成部と、
前記一致状況生成部によって前記照合結果に基づいて生成された前記一致状況情報群のうち、前記基準時間から前記相関時間内に発生したイベントに対応する照合結果を示す解析用一致状況情報を取り出し、当該取り出した解析用一致状況情報の中で前記サブルールと当該サブルールを成立させる前記イベントとの対応関係が1対1になるように前記サブルールと前記イベントとの多対多の成立状況を解析する障害原因解析部と、
前記解析結果を出力する結果出力部と、
を備えることを特徴とする障害原因解析システム。 - 請求項1において、
前記障害原因解析部は、前記解析用一致状況情報において、前記サブルールと当該サブルールを成立させるイベントとを1対1に対応させる処理を実行し、1つの障害原因判定ルールに含まれる全サブルール総数に対する、成立するイベントが発生したサブルールの数の割合を示す一致率を算出することにより、前記成立状況を解析することを特徴とする障害原因解析システム。 - 請求項2において、
前記結果出力部は、前記障害の名称に対応させて、前記一致率と何れの前記判定条件が成立したかを示す情報を画面表示することを特徴とする障害原因解析システム。 - 請求項2において、
前記障害原因解析部は、前記複数のサブルールと前記受信したイベントとのマトリクスを生成して前記サブルールと前記イベントとの対応関係を確認し、当該マトリクス上で1つのサブルールに対して複数のイベントが成立している場合には、
処理a:1対1に対応するサブルールとイベントのペアについては、当該サブルール以外のサブルールの成立状況を不成立とする;
処理部b:処理aを実行した後、依然として複数のイベントが対応するサブルールがあるときには、任意のイベントを当該サブルールに対応させることにより、1対1の関係を構築する;
を実行することを特徴とする障害原因解析システム。 - 請求項1において、
前記障害原因判定ルールは、障害原因を判定するために必要なイベントの組と、各イベントに対して障害原因を特定するための条件と、イベントの組を相関あるパターンとして認識するための前記相関時間と、障害があると判定された場合のアクションと、を記述し、入力された障害原因判定ルール定義テンプレートに基づいて、生成されることを特徴とする障害原因解析システム。 - コンピュータシステムを請求項1に記載の障害原因解析システムとして機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009227772A JP5525225B2 (ja) | 2009-09-30 | 2009-09-30 | 障害原因解析システム及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009227772A JP5525225B2 (ja) | 2009-09-30 | 2009-09-30 | 障害原因解析システム及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011076409A JP2011076409A (ja) | 2011-04-14 |
JP5525225B2 true JP5525225B2 (ja) | 2014-06-18 |
Family
ID=44020319
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009227772A Expired - Fee Related JP5525225B2 (ja) | 2009-09-30 | 2009-09-30 | 障害原因解析システム及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5525225B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014068705A1 (ja) * | 2012-10-31 | 2014-05-08 | 株式会社日立製作所 | 監視システム及び監視プログラム |
US10552746B2 (en) * | 2014-09-25 | 2020-02-04 | International Business Machines Corporation | Identification of time lagged indicators for events with a window period |
WO2019026171A1 (ja) * | 2017-08-01 | 2019-02-07 | 株式会社日立製作所 | ストレージシステムの管理システム |
JP6880241B2 (ja) * | 2018-01-15 | 2021-06-02 | 三菱電機株式会社 | 障害検知装置、監視制御システム、および障害検知方法 |
CN109828857B (zh) * | 2018-12-29 | 2022-07-05 | 百度在线网络技术(北京)有限公司 | 车辆故障原因定位方法、装置、设备和存储介质 |
JP7124783B2 (ja) * | 2019-04-03 | 2022-08-24 | 日本電信電話株式会社 | 分析装置、分析方法および分析プログラム |
-
2009
- 2009-09-30 JP JP2009227772A patent/JP5525225B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011076409A (ja) | 2011-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Singh et al. | Exs: Explainable search using local model agnostic interpretability | |
JP5525225B2 (ja) | 障害原因解析システム及びプログラム | |
JP5629239B2 (ja) | ソフトウェアの動作をテストする装置及び方法 | |
US8219548B2 (en) | Data processing method and data analysis apparatus | |
CN102257487B (zh) | 分析事件 | |
KR20200057903A (ko) | 인공지능 모델 플랫폼 및 인공지능 모델 플랫폼 운영 방법 | |
CN110764980A (zh) | 日志处理方法和装置 | |
US20170004026A1 (en) | Monitoring method | |
US20190129781A1 (en) | Event investigation assist method and event investigation assist device | |
WO2019142391A1 (ja) | データ分析支援システム及びデータ分析支援方法 | |
CN108287777A (zh) | 一种记录日志的方法及装置 | |
JP4792888B2 (ja) | 検査指示書生成システム、検査指示書生成装置、検査指示書生成方法、検査指示書生成プログラム、および記録媒体 | |
JP2013077124A (ja) | ソフトウェアテストケース生成装置 | |
CN109145609A (zh) | 一种数据处理方法和装置 | |
JP2011154491A (ja) | 情報管理プログラム、情報管理装置、および情報管理方法 | |
JP4848266B2 (ja) | ソフトウェア品質評価装置及び方法 | |
US8538995B2 (en) | Device and method for automatically detecting an unclear description | |
JP4893811B2 (ja) | 検証支援プログラム、および検証支援装置 | |
WO2014054233A1 (ja) | 情報システムの性能評価装置、方法およびプログラム | |
JP2011048785A (ja) | 多重イベント定義装置、多重イベント検証装置、多重イベント定義方法および多重イベント定義プログラム | |
Rebello et al. | Software system reliability and safety assessment: an extended FMEA approach | |
JP6547341B2 (ja) | 情報処理装置、方法及びプログラム | |
JP2016115112A (ja) | データ匿名化装置、プログラム、及び方法 | |
JP2005190270A (ja) | 因果関係推定プログラム及び因果関係推定方法 | |
JP2003228497A (ja) | 障害通知システムおよび障害通知プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120105 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130626 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130709 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130909 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131126 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140127 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140325 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140411 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5525225 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |