JP5514643B2 - Failure cause determination rule change detection device and program - Google Patents
Failure cause determination rule change detection device and program Download PDFInfo
- Publication number
- JP5514643B2 JP5514643B2 JP2010140846A JP2010140846A JP5514643B2 JP 5514643 B2 JP5514643 B2 JP 5514643B2 JP 2010140846 A JP2010140846 A JP 2010140846A JP 2010140846 A JP2010140846 A JP 2010140846A JP 5514643 B2 JP5514643 B2 JP 5514643B2
- Authority
- JP
- Japan
- Prior art keywords
- failure
- classification tree
- determination rule
- cause determination
- event
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000008859 change Effects 0.000 title claims description 108
- 238000001514 detection method Methods 0.000 title claims description 34
- 238000000034 method Methods 0.000 claims description 63
- 238000012544 monitoring process Methods 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 13
- 238000010276 construction Methods 0.000 claims 4
- 238000011156 evaluation Methods 0.000 claims 1
- 238000004458 analytical method Methods 0.000 description 28
- 238000011084 recovery Methods 0.000 description 26
- 238000004891 communication Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000008034 disappearance Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 241000221931 Hypomyces rosellus Species 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Description
本発明は、例えば過去のイベントログに基づいて、障害原因解析システムで利用される障害原因解析ルールの変化を検知できる装置及び当該装置をソフトウェア的に実現するプログラムに関する。 The present invention relates to a device that can detect a change in a failure cause analysis rule used in a failure cause analysis system, for example, based on a past event log, and a program that implements the device in software.
企業経営や社会に大きな影響を与えるシステム障害が多発している。この背景には、外部ITサービスとの連携の複雑化がある。その結果、システム障害の伝播到達範囲が広域化し、一箇所のシステム障害が社会全体に大きな影響を及ぼすようになっている。このようなシステム障害による被害の拡大を防止するには、迅速かつ適切な初動対応が重要となる。 There are many system failures that have a major impact on corporate management and society. This is due to the complexity of cooperation with external IT services. As a result, the propagation reach of system failures has been widened, and one system failure has a major impact on society as a whole. Prompt and appropriate initial response is important to prevent the spread of damage due to such system failures.
そこで、障害検知と適切な障害復旧手順書の提示により、初動対応を支援する障害原因解析システムが提案されている(特許文献1)。このシステムは、特定のシステム障害発生時に監視系が生成するイベントパターンとその障害に対する復旧手順書とを対応付けた障害原因判定ルールを事前に登録し、当該障害原因判定ルールと監視系が生成するイベントパターン(ストリーム)とのマッチングにより、障害検知と対応する適切な復旧手順書の提供を実現する。 In view of this, a failure cause analysis system that supports initial response by presenting failure detection and an appropriate failure recovery procedure has been proposed (Patent Document 1). This system registers in advance a failure cause determination rule that associates an event pattern generated by a monitoring system when a specific system failure occurs with a recovery procedure for the failure, and the failure cause determination rule and the monitoring system generate By matching with event patterns (streams), it is possible to provide appropriate recovery procedures corresponding to failure detection.
しかし、障害原因判定ルールをユーザが記述することは困難である。そこで、監視系の生成するイベントログから障害原因判定ルールを自動生成する方法が提案されている(特許文献2及び3)。これらの方法は、システム障害発生時に発生するイベントの中から特徴のあるイベントを特定し、その振る舞いを解析することによりルールを生成することを基本とする。なお、特許文献2には、特定イベントの発生頻度を利用する方法が開示されている。また、特許文献3には、イベントの生起パターンを利用する方法が記述されている。
However, it is difficult for the user to describe the failure cause determination rule. Therefore, a method for automatically generating a failure cause determination rule from an event log generated by a monitoring system has been proposed (
ところが、ITサービスの運用時には、一度作成した障害原因判定ルールが無効になる変化が生じ得る。この種の変化が発生した場合、なるべく関連する障害が発生する前に、障害原因判定ルールを修正することが求められる。この様な変化には次の場合がある。 However, during the operation of the IT service, there may be a change in which the fault cause determination rule once created becomes invalid. When this type of change occurs, it is required to correct the failure cause determination rule before a related failure occurs as much as possible. Such changes include the following cases.
(1)ITサービスの削除
不要となったITサービスを削除した場合、当該ITサービスに関連するシステム障害は、それ以降発生しなくなる。この場合、このシステム障害に関連した障害原因判定ルールは無効となる。
(1) Deletion of IT service When an unnecessary IT service is deleted, a system failure related to the IT service does not occur thereafter. In this case, the failure cause determination rule related to this system failure is invalid.
(2)IT基盤の構成変更
ネットワーク構成の変更、ハードウェアの変更その他のIT基盤の構成変更を行った場合、当該変更に関連するイベントの属性値をもつ障害原因判定ルールは無効になる。
(2) IT infrastructure configuration change When a network configuration change, hardware change, or other IT infrastructure configuration change is made, the failure cause determination rule having an attribute value of an event related to the change becomes invalid.
この様な変化は、繰り返し発生する障害に反映される。従って、その際のイベントを学習することで変更を検知することができる。しかし、この変化を検知するまでに要する時間は、障害の内容により異なる。頻出して発生する障害は短時間で検知することができるのに対し、発生頻度の低い障害は検知までに時間を要する。 Such changes are reflected in repeated failures. Therefore, a change can be detected by learning the event at that time. However, the time required to detect this change varies depending on the content of the failure. Failures that occur frequently can be detected in a short time, whereas failures that occur less frequently require time to be detected.
もし、頻出する障害によって検知された変化が発生頻度の低い障害に対する障害原因判定ルールにも影響する場合、理想的には、頻出する障害に対する障害原因判定ルールを修正するだけでなく、影響のある出現頻度の低い障害が発生する前にその障害原因判定ルールを修正することが求められる。 If changes detected due to frequent failures also affect failure cause determination rules for failures that occur less frequently, ideally it will not only correct the failure cause determination rules for frequent failures, but also affect It is required to correct the failure cause determination rule before a failure having a low appearance frequency occurs.
しかし、従来の障害原因判定ルールの自動生成技術は、前述した2つの変化を検知し、関連のある全ての障害原因判定ルールの修正を実現する方法を提供していない。 However, the conventional technology for automatically generating a failure cause determination rule does not provide a method for detecting the two changes described above and correcting all related failure cause determination rules.
そこで、本発明者は、障害原因判定ルールを運用状況に応じて更新するための仕組みを提供する。具体的には、システム障害の発生時に、監視対象サーバ群の状態に基づいて監視サーバが生成したイベントを取得してイベントブロックを作成し、作成したイベントログを訓練データに用いて一時障害分類木オブジェクトの集合を更新する処理と、当該集合のうちで重みが最も重い一時障害分類木オブジェクトを選択し、選択された一時障害分類木オブジェクトと登録障害分類木オブジェクトとを比較する処理と、両者が一致しない場合、双方の違いから変化を予測し、当該予測に基づいた一時障害分類木オブジェクトを作成し、作成された一時障害分類木オブジェクトを一時障害分類木オブジェクト集合に追加する処理と、選択した一時障害分類木オブジェクトによって登録障害分類木オブジェクトを置換する処理とを有する仕組みを提供する。 Therefore, the present inventor provides a mechanism for updating the failure cause determination rule according to the operation status. Specifically, when a system failure occurs, the event generated by the monitoring server based on the status of the monitored server group is acquired to create an event block, and the created event log is used as training data to create a temporary failure classification tree. A process for updating a set of objects, a process for selecting a temporary fault classification tree object having the highest weight in the set, and comparing the selected temporary fault classification tree object with a registered fault classification tree object, If they do not match, the change is predicted from the difference between the two, a temporary failure classification tree object based on the prediction is created, and the created temporary failure classification tree object is added to the temporary failure classification tree object set and selected. Providing a mechanism for replacing a registered fault classification tree object with a temporary fault classification tree object That.
本発明によれば、障害原因判定ルールに関わる変化を検知することができる。また、本発明によれば、まだ観測されていない障害に対応する障害原因判定ルールについても、関連性のある障害の発生に伴って予測的に更新することができる。 According to the present invention, it is possible to detect a change related to a failure cause determination rule. Further, according to the present invention, it is possible to predictively update a failure cause determination rule corresponding to a failure that has not been observed as a related failure occurs.
以下、図面に基づいて、本発明の実施の形態を説明する。なお、後述する装置構成や処理動作の内容は発明を説明するための一例である。本発明は、後述する装置構成同士や処理動作同士の任意の組み合わせ、後述する装置構成や処理動作に既知の技術を追加する組み合わせ、後述する装置構成や処理動作の一部を既知の技術で置換する組み合わせも包含する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. Note that the contents of the apparatus configuration and processing operation described later are examples for explaining the invention. The present invention provides an arbitrary combination of device configurations and processing operations described later, a combination of adding a known technology to the device configuration and processing operations described later, and replacing a part of the device configuration and processing operations described later with known technologies. Combinations to include are also included.
(障害原因解析システムのシステム構成)
図1に、障害原因判定ルール変化検知コンピュータ107を実装する障害原因解析システムの構成例を示す。図1に示す障害原因解析システムは、監視対象サーバ群101と、監視サーバ102と、ログデータベース(DB)103と、障害原因判定ルール生成コンピュータ104と、障害原因解析コンピュータ105と、障害原因判定ルールDB106と、障害原因判定ルール変化検知コンピュータ107と、復旧手順書データベース(DB)108と、復旧手順書閲覧コンピュータ109とを有している。
(System configuration of failure cause analysis system)
FIG. 1 shows a configuration example of a failure cause analysis system in which the failure cause determination rule
このうち、監視サーバ102は、監視対象サーバ群101の状態(死活など)を監視し、状態に応じたイベントを生成する機能を提供する。監視サーバ102が生成したイベントはログデータベース(DB)103に格納される。障害原因判定ルール生成コンピュータ104は、ログDB103からイベントログを読み出し、障害原因判定ルールを生成する機能を提供する。障害原因判定ルール生成コンピュータ104が生成した障害原因判定ルールは、障害原因判定ルールDB106に格納される。障害原因解析コンピュータ105は、障害原因判定ルールDB106が格納する障害原因判定ルールに基づいてイベントを解析し、障害に対する復旧手順書を特定する機能を提供する。
Among these, the
障害原因判定ルール変化検知コンピュータ107は、監視サーバ102が生成したイベントを解析し、障害原因判定ルールDB106に格納されている障害原因判定ルールに関わる変化を検知する機能を提供する。ここでの検知には、予測的な検知も含まれる。
The failure cause determination rule
復旧手順書データベース(DB)108は、障害時の復旧手順に関する文書を格納する。ここでの文書には、障害発生時のトラブルシューティングを記述したマニュアル(ハードウェアかソフトウェアかを問わない)だけでなく、過去の障害に対する保守担当者の対応記録、報告書その他の障害から復旧するための手順に関する文書も含まれる。復旧手順書閲覧コンピュータ109は、障害原因解析コンピュータ105によって特定された復旧手順書を画面上に表示する機能を提供する。
The recovery procedure database (DB) 108 stores documents relating to a recovery procedure at the time of failure. In this document, not only manuals (whether hardware or software) that describe troubleshooting in the event of a failure, but also a record of the maintenance staff's response to past failures, reports, and other failures are recovered. Documentation on the procedure for this is also included. The recovery procedure
(イベントテーブルの具体例)
図2に、ログDB103に格納されるイベントテーブル200の具体例を示す。イベントテーブル200は、イベントを一意に特定する識別子(ID)201、イベントが発生した日時を特定する発生日時202、個々のイベントの属性値の集合であるイベント203から構成される。この形態例の場合、イベント203の属性は、<種類>、<ソース>、<イベント番号>、<ユーザ>、<コンピュータ>で定義される。このうち、<種類>はイベントの重要度を示している。<ソース>はイベントを発生させたプロセスやアプリケーション等の発生源を示している。<イベント番号>はイベントの内容を特定する番号を示している。<ユーザ>はイベントの発生源となったプロセスやアプリケーションを実行していたユーザを示している。<コンピュータ>はイベントの発生源となった監視対象サーバ群101内のサーバを示している。
(Specific example of event table)
FIG. 2 shows a specific example of the event table 200 stored in the
(障害原因判定ルールDBの具体例)
図3−1〜図3−3に、障害原因判定ルールDB106の構成例を示す。障害原因判定ルールDB106は、障害原因解析コンピュータ105に登録されている障害原因判定ルールと、それに関連する情報を登録障害分類木オブジェクト300として格納しているDBである。登録障害分類木オブジェクト300は、図3−1に示すように、障害分類木310と、障害原因判定ルールテーブル320と、障害ノードテーブル330とから構成される。
(Specific example of failure cause determination rule DB)
3-1 to 3-3 show configuration examples of the failure cause
障害分類木310は、障害原因解析コンピュータ105に登録されている障害原因判定ルールの生成時に作成される。障害分類木310では、障害時に発生した単数又は複数のイベントの集合(以下、「イベントブロック」という)が共通に有する特徴に基づいて障害が分類され、分類木として表現される。障害分類木310のノードを障害ノードと呼ぶ。同じ障害ノードに分類された障害同士は、発生したイベント及び発生の仕方が類似しているので、同じ障害原因による障害であると考えられる。図3−2の(1)に、障害分類木310の構造例を示す。
The
障害原因判定ルールテーブル320は、障害原因解析コンピュータ105に登録されている障害原因判定ルールを格納するテーブルである。障害原因判定ルールテーブル320は、図3−2の(2)に示すように、障害分類木310の障害ノード321と、対象障害ノードに分類される障害に適用される障害原因判定ルール322から構成される。障害原因判定ルール322は、単数又は複数の判定イベント323と、判定時間324と、復旧手順書325とで構成される。判定イベント323は、対象障害ノードを特徴付けるイベントの属性の集合である。判定時間324は、判定イベント323で指定した全てのイベントが発生する時間間隔である。復旧手順書325は、判定時間324内に判定イベント322が発生したときに復旧手順書閲覧コンピュータ109に表示される文書である。
The failure cause determination rule table 320 is a table that stores failure cause determination rules registered in the failure
1つの障害ノード321に対して複数の判定イベント323が指定されている場合は、障害原因判定ルールテーブル320で指定された順番に判定イベントが出現するものとする。図3−2の(2)の場合、「障害ノード1−1」に対する障害原因判定ルール322として、(「警戒」、「process71」、「80」、「user2」、「server9」)の属性値を有する判定イベントの発生後に、(「*」、「process39」、「*」、「user4」、「server8」)の属性値を有する判定イベントが判定時間「2分9秒」以内に発生したら、「復旧手順A.doc」を復旧手順閲覧コンピュータ109に表示するというルールが設定されている。ここで属性値「*」は、値が不定であることを意味し、任意の値を採り得ることを示す。
When a plurality of
障害ノードテーブル330は、障害分類木310を構築する際に訓練データとして使用したイベントブロックを格納する。図3−3に、障害ノードテーブル330の一例を示す。障害ノードテーブル330は、障害ノード321と、当該障害ノードに分類されたイベントブロック331と、当該イベントブロック321内に含まれるイベント203から構成される。
The failure node table 330 stores event blocks used as training data when the
(障害原因判定ルール変化検知コンピュータの構成例)
図4に、障害原因判定ルール変化検知コンピュータ107の構成例を示す。障害原因判定ルール変化検知コンピュータ107は、コンピュータ本体400と、入力装置430と、表示装置431と、通信装置432とから構成される。なお、通信装置432は、監視サーバ102、ログDB103及び障害原因判定ルールDB106と通信する。
(Configuration example of failure cause determination rule change detection computer)
FIG. 4 shows a configuration example of the failure cause determination rule
コンピュータ本体400は、データ演算をするCPU401、ROM402、RAM410、ハードディスク駆動装置420、これらデバイス間のデータ転送を実現するCPUバス407、これらデバイスとCPUバス407とを結合するインターフェース403〜406で構成される。
The computer
RAM410には、CPU401に演算処理をさせる障害原因判定ルール変化検知プログラム411の実行領域と、検算時に一時的に生成させるデータを格納する作業領域412とが少なくとも確保される。また、ハードディスク駆動装置420の記憶領域には、障害原因判定ルール変化検知プログラムの格納領域としてのプログラム格納部421と、監視サーバ102及び障害原因判定ルールDB106から取得したデータを一時的に格納しておくデータ格納部422が少なくとも確保される。
The
図5に、障害原因判定ルール変化検知コンピュータ107に接続される表示装置431に表示されるGUI画面例を示す。障害原因判定ルール変化検知プログラム画面500は、障害原因判定ルール322(図3−2)が満たすべき最小のイベントブロックサポート率を入力する最小イベントブロックサポート率入力部501、障害原因判定ルール322の判定イベント323が満たすべき最小の有効な属性数を入力する最小有効属性数入力部502、変化を検知するために一時的に障害分類木作成する際に訓練データとして使用するイベントの時間範囲である時間窓幅入力部503と、障害原因判定ルール検知プロセスを開始させるための開始ボタン505から構成される。
FIG. 5 shows an example of a GUI screen displayed on the
ここで、最小イベントブロックサポート率は、検知対象の障害ノード毎に適用され、対象障害ノードに分類された全てのイベントブロックのうちで、生成した障害原因判定ルールを適用することができるイベントブロック数の割合を意味する。図5の例の場合、「障害原因判定ルール」として検出されるためには、少なくとも60%のイベントブロックに適用されなければならないことを表している。また、有効な属性とは、属性値が不定「*」以外の属性値を有する属性を意味する。図5の場合、有効な属性数の最小値は「5」である。 Here, the minimum event block support rate is applied to each failure node to be detected, and the number of event blocks to which the generated failure cause determination rule can be applied among all event blocks classified as the target failure node Means the percentage of In the case of the example of FIG. 5, this means that it must be applied to at least 60% of event blocks in order to be detected as the “failure cause determination rule”. In addition, an effective attribute means an attribute having an attribute value other than the undefined “*” attribute value. In the case of FIG. 5, the minimum value of the number of valid attributes is “5”.
(障害原因解析動作)
図6に、障害原因解析システム全体の障害原因解析プロセスの概略を示す。
(Failure cause analysis operation)
FIG. 6 shows an outline of the failure cause analysis process of the entire failure cause analysis system.
(ステップ601)
障害原因判定ルール生成コンピュータ104は、ログDB103からイベントログを取得して障害原因判定ルール322を生成し、障害原因判定ルールDB106に保存する。この処理内容の詳細は後述する。
(Step 601)
The failure cause determination
(ステップ602)
障害原因解析コンピュータ105は、障害原因判定ルール生成コンピュータ104による障害原因判定ルールDB106の更新を検知すると、障害原因判定ルールDB106から障害原因判定ルールテーブル320の更新後の障害原因判定ルール322を取得する。この際、取得された障害原因判定ルール322は、データ格納部422に登録される。
(Step 602)
When the failure
(ステップ603)
監視サーバ102は、監視対象サーバ群101を常に監視している。監視サーバ102は、監視対象サーバ群101内のあるサーバに障害に起因する異常を発見すると、当該サーバの状態からイベントを生成する。監視サーバ102は、生成したイベントをログDB103に保存すると共に、障害原因解析コンピュータ105及び障害原因判定ルール変化検知コンピュータ107にそのイベントを送信する。
(Step 603)
The
(ステップ604)
障害原因解析コンピュータ105は、受信したイベントと障害原因判定ルール322とをマッチングする。受信したイベントが障害原因判定ルール322とマッチした場合、障害原因解析コンピュータ105は、その障害原因判定ルール322の復旧手順書325を、復旧手順書DB108から取得し、復旧手順書閲覧コンピュータ109に送信する。一方、受信したイベントが障害原因判定ルール322とマッチしなかった場合、障害原因解析コンピュータ105は、何もしない。
(Step 604)
The failure
(ステップ605)
復旧手順書閲覧コンピュータ109は、障害原因解析コンピュータ105から受信した復旧手順書315を表示装置上に表示する。
(Step 605)
The recovery procedure
(ステップ606)
障害原因判定ルール変化検知コンピュータ107は、監視サーバ102からイベントを受信すると、設定された時間窓内に出現したイベント集合から一時的な障害分類木(以下、「一時障害分類木」という。)を作成し、障害原因判定ルールDB106に格納されている障害分類木と比較する。ここでの比較には、木構造の比較だけでなく、各イベントが割り当てられる障害ノードの比較も含まれる。変化が検出された場合、障害原因判定ルール変化検知コンピュータ107は、障害原因判定ルールに関わる変化が生じたものと判定し、障害原因判定ルールDB106の登録障害分類木オブジェクト300を更新する。この処理内容の詳細は後述する。
(Step 606)
When the failure cause determination rule
(ステップ607)
障害原因解析コンピュータ105は、障害原因判定ルール検証コンピュータ107により障害原因判定ルールDB106の更新を検知すると、障害原因判定ルールDB107から障害原因判定ルール312を取得し、現在利用している障害原因判定ルールと置換する。この置換処理により、障害原因解析コンピュータ105は、常に、最新の障害原因判定ルールに従ってイベントを解析することができる。
(Step 607)
When the failure cause determination
(障害原因判定ルール生成動作)
図7に、障害原因判定ルール生成コンピュータ104による障害原因判定ルールの生成プロセスの概略を示す。
(Error cause determination rule generation operation)
FIG. 7 shows an outline of a failure cause determination rule generation process performed by the failure cause determination
(ステップ701)
障害原因判定ルール生成コンピュータ104は、ログDB103のイベントテーブル203からイベントを取得する。
(Step 701)
The failure cause determination
(ステップ702)
障害原因判定ルール生成コンピュータ104は、ステップ701で取得したイベントを障害毎にまとめたイベントブロックのテーブルであるイベントブロックテーブル800(図8)を作成する。イベントブロックの作成には、例えば以下のルールを適用する。あるイベントの発生日時202と一つ前のイベントの発生日時202との時間差が与えられた閾値以内の場合、当該イベントは一つ前のイベントブロックに分類する。一方、当該時間差が閾値以上の場合、当該イベントを新規のイベントブロックに分類する。
(Step 702)
The failure cause determination
図8に、図2のイベントテーブル200に基づいて作成したイベントブロックテーブル800の具体例を示す。イベントブロックテーブル800は、イベントブロックを一意に特定するイベントブロックID801、各イベントブロックに含まれるイベントを特定するイベントID201、各イベントの発生した日時を特定する発生日時202、発生したイベントを構成する属性値の集合であるイベント203から構成される。
FIG. 8 shows a specific example of the event block table 800 created based on the event table 200 of FIG. The event block table 800 includes an
(ステップ703)
障害原因判定ルール生成コンピュータ104は、ステップ702で作成されたイベントブロックテーブル800に基づいて各イベントブロックの特徴を抽出し、イベントブロックの特徴テーブル900(図9)を作成する。ここでの特徴は、各イベントブロックに分類されたイベント集合に頻出する属性を意味する。
(Step 703)
The failure cause determination
図9に、図8のイベントブロックテーブル800から作成したイベントブロックの特徴テーブル900の具体例を示す。イベントブロックの特徴テーブル900は、イベントブロックを特定するイベントブロックID801、各イベントブロックに対する特徴である属性リスト901から構成される。この例において、属性リスト901は、イベント203の各属性に対してそのイベントブロック内で最も頻出する属性値と、次に頻出する属性値から構成される。例えば図9の場合、イベントブロックID「1」のイベントブロックに属するイベント集合では、属性「種類」について「エラー」が最も多く、「致命的」が2番目に多いことが分かる。
FIG. 9 shows a specific example of the event block feature table 900 created from the event block table 800 of FIG. The event block feature table 900 includes an
(ステップ704)
障害原因判定ルール生成コンピュータ104は、ステップ703で作成したイベントブロックの特徴テーブル900をクラスタリングする。クラスタリングでは、登録障害分類木オブジェクト300(図3−1)の障害分類木310の作成と、作成された障害分類木310の各障害ノードに対してイベントブロックテーブル800のイベントブロックを分類する障害ノードテーブル330(図3−3)の作成とが行われる。
(Step 704)
The failure cause determination
障害分類木310の同じ障害ノードに分類されたイベントブロックは、障害時のイベントの出現の仕方が類似している。従って、当該イベントブロックは、同じ障害原因により発生した障害とみなすことが出来る。クラスタリングのアルゴリズムには、例えば非特許文献1で説明されている概念クラスタリングCOBWEBを利用する。
The event blocks classified into the same failure node in the
(ステップ705)
障害原因判定ルール生成コンピュータ104は、ステップ704で作成した障害ノードテーブル330(図3−3)の各障害ノード321内に頻出するイベントを発見する。この頻出イベントは、全ての属性値が一致する必要は無く、一部の属性値は不定「*」でも良い。ただし、イベントを構成する属性のうち不定値「*」以外の属性値数の満たすべき最小値は、事前に最小有効属性数として与えておく(図5)。
(Step 705)
The failure cause determination
また、頻出イベントの頻度は、その頻出イベントが含まれるイベントブロック数で決まる。頻出イベントが満たすべき最小のイベントブロック数は、その障害ノード内の全イベントブロック数に対する最小サポートイベントブロック率として事前に与えておく(図5)。 The frequency of frequent events is determined by the number of event blocks that include the frequent events. The minimum number of event blocks to be satisfied by a frequent event is given in advance as the minimum support event block rate with respect to the total number of event blocks in the failed node (FIG. 5).
(ステップ706)
障害原因判定ルール生成コンピュータ104は、ステップ705で求めた頻出イベントがどのようなパターン(出現の順番)であるかを発見する。障害原因判定ルール生成コンピュータ104は、発見した頻出イベントをその出現順に障害原因判定ルールテーブル320の判定イベント323に格納する。発見された判定イベント323が複数の場合、障害原因判定ルール生成コンピュータ104は、当該複数のパターンが出現する時間間隔の最大値を障害原因判定ルールテーブル320の判定時間324に格納する。
(Step 706)
The failure cause determination
(ステップ707)
障害原因判定ルール生成コンピュータ104は、ステップ706で求めた障害原因判定ルール322の判定イベント323の属性値の一部を検索キーに用い、障害ノードに分類された障害に対応する障害復旧手順書を復旧手順書DB108から取得する。障害原因判定ルール生成コンピュータ104は、取得した障害復旧手順書のファイル名を、図3の障害原因判定ルールテーブル320の復旧手順書325に格納する。このステップで障害原因判定ルールテーブル320が完成する。以上のステップで、登録障害分類木オブジェクト300が完成する。
(Step 707)
The failure cause determination
(ステップ708)
障害原因判定ルール生成コンピュータ104は、ステップ707までに作成した登録障害分類木オブジェクト300を障害原因判定ルールDB106に登録する。
(Step 708)
The failure cause determination
(障害原因判定ルールの変化を検知する動作の詳細)
図10に、障害原因判定ルール変化検知プログラム411を通じて実行される障害原因判定ルールの変化検知プロセスの概要を示す。
(Details of operation for detecting changes in failure cause determination rules)
FIG. 10 shows an overview of a change detection process for a failure cause determination rule executed through the failure cause determination rule
(ステップ1000)
このプログラムは、表示装置431に表示される障害原因判定ルール変化検知プログラム画面500(図5)の最小イベントブロックサポート率入力部501にサポート率、最小有効属性数入力部502に有効属性数、時間窓幅入力部503に時間が入力された後、開始ボタン505に対するクリック操作が検出されることで開始される。ここでのクリック操作は、障害原因判定ルール変化検出コンピュータ107を構成する入力装置430に対するユーザ操作を通じて入力される。障害原因判定ルール変化検知プログラム411は、障害原因判定ルール変化検知コンピュータ107で実行される。
(Step 1000)
This program includes a support rate in the minimum event block support
(ステップ1001)
障害原因判定ルール変化検知プログラム411は、該当する操作入力を検出すると、最小イベントブロックサポート率入力部501、最小有効属性数入力部502、時間窓幅入力部503に入力された数値を読み取り、RAM410の作業領域412に格納する。更に、障害原因判定ルール変化検知プログラム411は、通信装置432を介して障害原因判定ルールDB106から登録障害分類木オブジェクト300を取得し、一時的にハードディスク駆動装置420のデータ格納部422に保存した後、RAM410の作業領域412に格納する。
(Step 1001)
When the failure cause determination rule
(ステップ1002)
障害原因判定ルール変化検知プログラム411は、一時障害分類木オブジェクト集合1100(図11)を作成する。一時障害分類木オブジェクト集合1100は、障害解析に使用中の障害原因判定ルールの変更を検出するため、一時的に作成されるオブジェクトの集合である。
(Step 1002)
The failure cause determination rule
障害原因判定ルール変化検知プログラム411は、ステップ1001で取得した登録障害分類木オブジェクト300を一時障害分類木オブジェクト1110(図11)に変換し、一時障害分類木オブジェクト集合1100に格納する。
The failure cause determination rule
登録障害分類木オブジェクト300から一時障害分類木オブジェクト1110への変換は、登録障害分類木オブジェクト300を構成する障害分類木310、障害原因判定ルールテーブル320及び障害ノードテーブル330のそれぞれを、一時障害分類木オブジェクト1110の障害分類木1120、障害原因判定ルールテーブル1140、障害ノードテーブル1150に代入する処理と、一時障害分類木オブジェクト1110の重み1130に値「1」を設定する処理とによって実現する。
The conversion from the registered failure
(ステップ1003)
障害原因判定ルール変化検知プログラム411は、監視サーバ102からイベントを受信すると、イベントブロックを作成してその特徴を抽出する。イベントブロックの作成処理及び特徴抽出処理の内容は、図7に示すステップ702及びステップ703の内容と同様である。なお、監視サーバ102からのイベントは、通信装置432を通じて取得される。
(Step 1003)
When the failure cause determination rule
(ステップ1004)
障害原因判定ルール変化検知プログラム411は、ステップ1003で抽出されたイベントブロックの特徴を訓練データとして、一時障害分類木オブジェクト集合1100内の全ての一時障害分類木オブジェクト1110を更新する。以下、一時障害分類木オブジェクト1110の更新方法を詳細に説明する。
(Step 1004)
The failure cause determination rule
(障害分類木、障害原因判定ルールテーブル、障害ノードテーブルの更新)
最初に、障害原因判定ルール変化検知プログラム411は、図5の障害原因判定ルール変化検知プログラム画面500の時間窓幅入力部503に入力された時間窓幅を取得する。次に、当該プログラムは、一時障害原因オブジェクト1110の障害ノードテーブル1150から現在の日時を起点として時間窓幅内に含まれるイベントを取得する。取得したイベントから図7のステップ702からステップ707の手順に従い、障害分類木1120、障害原因判定ルールテーブル1140、障害ノードテーブル1150を作成する。このとき、図5の障害原因判定ルール変化検知プログラム画面500で入力された最小イベントブロックサポート率、最小有効属性数を考慮する。
(Update of fault classification tree, fault cause determination rule table, fault node table)
First, the failure cause determination rule
(重みの更新)
次に、障害原因判定ルール変化検知プログラム411は、次の2つの指標を利用して、一時障害分類木オブジェクト選択用の重み1130を計算する。このとき、事前に与えられた閾値以下の重みをもつ一時障害分類木オブジェクト1110は削除する。
(Weight update)
Next, the failure cause determination rule
(1)カテゴリーユーティリティ
概念クラスタリングCOBWEBは、非特許文献1の147頁の「式3−3」で定義されたカテゴリーユーティリティ(Category Utility)が最大になるように、分類木である概念木を作成する。障害原因判定ルール変化検知プログラム411は、一時障害分類木オブジェクト1110の障害分類木1120に対して当該数値計算を適用し、算出された値を重みとする。
(1) Category Utility Concept Clustering COBWEB creates a concept tree that is a classification tree so that the category utility defined in “Equation 3-3” on page 147 of
(2)障害ノードへの適合度
ただし、カテゴリーユーティリティは一時障害分類木オブジェクト1110における障害分類木1120の全体を評価する指数であり、ステップ1003で作成した新しい変化を伴っている可能性のある最新のイベントブロックの影響が反映され難い。このため、カテゴリーユニットだけの指標では変化の検知が遅れてしまう。
(2) Degree of conformity to fault node However, the category utility is an index for evaluating the entire
そこで、最新のイベントブロックと、当該イベントブロックが分類された障害ノードとの適合度を計算する。最新のイベントブロックにおいて、i番目の属性のうち最も頻出する属性値をa1、次に頻出する属性値をa2とすると、適合度は(1)式によって計算することができる。 Therefore, the degree of conformity between the latest event block and the failure node into which the event block is classified is calculated. In the latest event block, if the attribute value that appears most frequently among the i-th attributes is a1, and the attribute value that appears next is a2, the fitness can be calculated by equation (1).
ここで、Nev は、障害ノード内に分類されるイベントブロック数の総数である。Nattはイベントの属性数である。本明細書の例の場合、図2に示すように(種類、ソース、イベント番号、ユーザ、コンピュータ)の5個である。また、Pa (i,j)(a1,a2)は、障害ノードに分類されるイベントブロック内において、イベントのj番目の属性のうち最も頻出する属性値がa1で、次に頻出する属性値がa2であるイベントブロックが出現する確率を意味している。 Here, Nev is the total number of event blocks classified in the failed node. Natt is the number of event attributes. In the case of the example of this specification, as shown in FIG. 2, there are five types (type, source, event number, user, computer). Also, P a (i, j) (a 1, a 2) , in the event the block that fall into disorder node, the attribute value of the most frequent among the j-th attribute of the event is at a 1, then frequent This means the probability that an event block whose attribute value is a 2 will appear.
例えば、障害ノード内に10個のイベントブロックがあり、属性「種類」に関して、イベントブロック内で最も頻出する属性値と次に頻出する属性値のペアが(「エラー」,「致命的」)が5個、(「エラー」,「警戒」)が3個、(「致命的」,「警戒」)が2個の場合、Pa (i,j)(a1,a2)は、
(ステップ1005)
障害原因判定ルール変化検知プログラム411は、一時障害分類木オブジェクト集合1100から最も重い重み1130を持つ一時障害分類木オブジェクト1110を選択し、それと登録障害分類木オブジェクト300と比較する。オブジェクト同士が一致する場合、障害原因判定ルール変化検知プログラム411は何もせず、ステップ1003に戻る。一方、オブジェクト同士が一致しない場合、障害原因判定ルール変化検知プログラム411は、ステップ1006を実行する。
(Step 1005)
The failure cause determination rule
なお、障害原因判定ルール変化検知プログラム411は、障害分類木オブジェクト同士を比較する際、まず最初に障害分類木同士を比較し、障害ノード間の対応関係の有無を判断する。次に、障害原因判定ルール変化検知プログラム411は、対応する障害ノードに設定された障害原因判定ルール同士を比較する。
The failure cause determination rule
この際、障害原因判定ルール変化検知プログラム411は、比較処理に先立って、登録障害分類木オブジェクト300の障害ノードテーブル330から各障害ノードに対するイベントブロックを取得し、これらを一時障害分類木オブジェクト1110の障害分類木1120に従って分類する。一時障害分類木オブジェクトは、最新のイベントブロックに基づいて作成されているが、分類対象のイベントブロックを登録障害分類木オブジェクト300と共通化することで障害ノード間の対応関係の変化の有無の比較を可能とする。
At this time, prior to the comparison process, the failure cause determination rule
(ステップ1006)
このステップは、ステップ1005で、登録障害分類木オブジェクト300と一時障害分類木オブジェクト1110が一致しない場合に実行される。
(Step 1006)
This step is executed when the registered failure
障害原因判定ルール変化検知プログラム411は、ステップ1005で選択された一時障害分類木オブジェクト1110と登録分類木オブジェクト300の間で生じた変化の原因の違いを検知する。変化の原因が障害ノードの消失と予測された場合、障害原因判定ルール変化検知プログラム411は、ステップ1008を実行する。一方、変化の原因が障害原因判定ルールの変化と予測された場合、障害原因判定ルール変化検知プログラム411は、ステップ1009を実行する。変化の原因がこれらのいずれでもない場合、障害原因判定ルール変化検知プログラム411は何もせず、ステップ1009に進む。
The failure cause determination rule
ここで、障害原因判定ルール変化検知プログラム411は、(1)障害ノードの消失及び(2)障害原因判定ルールの変化の検知を以下のように行う。
Here, the failure cause determination rule
(1)障害ノードの消失検知
図12−1に、障害ノードの消失検知の具体例を説明する図を示す。
図12−1の(1) は、2009年1月〜3月のイベントから作成された登録障害分類木オブジェクト300の障害分類木1200である。「障害ノード2」1201には、図12−2の(A-1) に示すように、障害原因判定ルール1220が設定されている。
(1) Failure Node Loss Detection FIG. 12-1 is a diagram illustrating a specific example of failure node loss detection.
(1) in FIG. 12A is a
図12−1の(2) は、2009年10月〜12月のイベントから作成された一時障害分類木オブジェクト1110の障害分類木1210である。この一時障害分類木オブジェクト1110は、ステップ1005で、登録分類木オブジェクト300との比較のために、一時障害分類木オブジェクト集合1100の中から選択されたものである。
(2) in FIG. 12A is a
まず、障害原因判定ルール変化検知プログラム411は、障害分類木1200の木構造と障害分類木1210の木構造を比較する。図12−1の場合、障害分類木1200には存在した「障害ノード2」1201が、障害分類木1210には存在していない。この場合、障害原因判定ルール変化検知プログラム411は、障害ノードが消失したと予測(判定)する。このことは、「障害ノード2」1201に属していたイベントオブジェクトが、一時障害分類木オブジェクト1110の障害分類木1210のいずれの障害ノードにも分類されないことを意味する。
First, the failure cause determination rule
(2)障害原因判定ルールの変化検知
図13−1に、障害原因判定ルールの変化検知の具体例を説明する図を示す。
図13−1の(1) は、2009年1月から3月のイベントから作成された登録障害分類木オブジェクト300の障害分類木1300である。「障害ノード1−1」1301には、図13−2の(A-1) に示すように、障害原因判定ルール1320が設定されている。
(2) Change Detection of Failure Cause Determination Rule FIG. 13-1 is a diagram for explaining a specific example of change detection of the failure cause determination rule.
(1) in FIG. 13A is a
図13−1の(2) は、2009年10月から12月のイベントから作成された一時障害分類木オブジェクト1110の障害分類木1310である。「障害ノード1−1’」1311には、図13−2の(B-1) に示すように、障害原因判定ルール1330が設定されている。この一時障害分類木オブジェクト1110は、ステップ1005で、登録分類木オブジェクト300との比較のために、一時障害分類木オブジェクト集合1100の中から選択されたものである。
(2) in FIG. 13A is a
まず、障害原因判定ルール変化検知プログラム411は、障害分類木1300と障害分類木1310を比較する。この例の場合、障害分類木1300の木構造と障害分類木1310の木構造は同じである。従って、障害原因判定ルール変化検知プログラム411は、障害ノード毎にそれぞれに属するイベントブロックを一時障害分類木オブジェクトの障害分類木1310の特徴に従って分類し、いずれの障害ノードに属するか判定する。ある障害ノードに属する全てのイベントブロックが割り当てられる障害ノードが、一時障害分類木オブジェクトの障害分類木1310のある障害ノードに分類された場合、障害原因判定ルール変化検知プログラム411は、分類元の障害ノードと分類先の障害ノードは対応関係にあると判定する。
First, the failure cause determination rule
図13−1の場合、登録障害分類木オブジェクト300の障害ノードテーブル330に格納されている「障害ノード1−1」1301と、一時障害分類木オブジェクト110の「障害ノード1−1’」1311とが対応関係にあると判定されたものとする。
In the case of FIG. 13A, “failure node 1-1” 1301 stored in the failure node table 330 of the registered failure
次に、障害原因判定ルール変化検知プログラム411は、「障害ノード1−1」1301の障害原因判定ルール1320と、「障害ノード1−1’」1311の障害原因判定ルール1330とを比較する。この比較により違いが検出された場合、障害原因判定ルール変化検知プログラム411は、障害原因判定ルールが変化したと判定する。
Next, the failure cause determination rule
図13−2の場合、障害原因判定ルール1320を構成する判定イベントの5番目のイベントの属性「コンピュータ」の属性値は「server8」1321である。一方、障害原因判定ルール1330を構成する判定イベントの5番目のイベントの属性「コンピュータ」の属性値は「server25」1331である。すなわち、属性値が変化している。この場合、障害原因判定ルール変化検知プログラム411は、障害原因判定ルールが変化したと判定する。
In the case of FIG. 13B, the attribute value of the attribute “computer” of the fifth event of the determination event constituting the failure
(ステップ1007)
このステップは、ステップ1006で、「障害ノードの消失」と判定された場合に実行される。
(Step 1007)
This step is executed when it is determined in
障害原因判定ルール変化検知プログラム411は、「障害ノードの消失」の原因を予測し、その予測に基づいて一時障害分類木オブジェクト1110を生成する。
The failure cause determination rule
予測に基づく一時障害分類木オブジェクト1110の生成方法を図12−1及び図12−2の具体例に基づいて説明する。図12−1の例では、登録障害分類木オブジェクト300の障害分類木1200に属する「障害ノード2」1201が一時障害分類木オブジェクト1101の障害分類木1210では消失している。これは、「障害ノード2」1201に関わるITサービスが削除されたためと予測できる。すなわち、「障害ノード2」1201に設定された障害原因判定ルール1220の属性「ソース」の属性値「process71」と「process39」による障害は、今後発生しないと考えられる。
A method of generating the temporary fault
この場合、障害原因判定ルール変化検知プログラム411は、ステップ1005で選択した一時障害分類木オブジェクト1110の障害ノードテーブル1150から、属性「ソース」の属性値が「process71」と「process39」以外のイベントを取得する。次に、これら取得されたイベントを対象とし、図7のステップ702からステップ707の手順に従って、障害分類木、障害原因判定ルール及び障害ノードテーブルを作成する。このとき、図5の障害原因判定ルール変化検知プログラム画面500で入力された最小イベントブロックサポート率と最小有効属性数を考慮する。
In this case, the failure cause determination rule
最後に、新規の一時障害分類木オブジェクト1110を作成し、障害分類木1120、障害原因判定ルールテーブル1140及び障害ノードテーブル1150のそれぞれに、作成した障害分類木、障害原因判定ルール、障害ノードテーブルを格納する。このとき、重み1130には「1」を設定する。作成した一時障害分類木オブジェクト1110は、一時障害分類木オブジェクト集合1100に追加する。
Finally, a new temporary failure
(ステップ1008)
このステップは、ステップ1006で、「障害原因判定ルールの変化」と判定された場合に実行される。
(Step 1008)
This step is executed when it is determined in
障害原因判定ルール変化検知プログラム411は、障害原因判定ルールの変化の原因を予測し、その予測に基づく一時障害分類木オブジェクト1110を生成する。
The failure cause determination rule
予測に基づく一時障害分類木オブジェクト1110の生成方法を図13−1及び図13−2の具体例に基づいて説明する。図13−1の例では、登録障害分類木オブジェクト300の障害分類木1300を構成する「障害ノード1−1」1301と、一時障害分類木オブジェクト1100の障害分類木1310を構成する「障害ノード1−1’」1311とが対応している。また、それぞれの障害ノードに対する障害原因判定ルール1320と1330とを比較すると、5番目の判定イベントの属性「コンピュータ」の属性値が「server8」1321から「server25」1331に変化している。これは、「server8」のコンピュータがハードウェア故障などの理由により、「server25」のコンピュータに置き換えられたためと予測できる。
A method of generating the temporary fault
この場合、障害原因判定ルール変化検知プログラム411は、ステップ1005で選択した一時障害分類木オブジェクト1110の障害ノードテーブル1150から全てのイベントを取得し、属性「コンピュータ」の属性値が「server8」である全てのイベントの属性「コンピュータ」に属性値「server25」を設定する。
In this case, the failure cause determination rule
次に、これら修正されたイベントを対象とし、図7のステップ702からステップ707の手順に従って、障害分類木、障害原因判定ルール及び障害ノードテーブルを作成する。このとき、図5の障害原因判定ルール変化検知プログラム画面500で入力された最小イベントブロックサポート率と最小有効属性数を考慮する。
Next, for these corrected events, a failure classification tree, a failure cause determination rule, and a failure node table are created according to the procedure from
最後に、新規の一時障害分類木オブジェクト1110を作成し、障害分類木1120、障害原因判定ルール1140及び障害ノードテーブル1150のそれぞれに、作成した障害分類木、障害原因判定ルール、障害ノードテーブルを格納する。このとき、重み1130には「1」を設定する。作成した一時障害分類木オブジェクト1110は、一時障害分類木オブジェクト集合1100に追加する。
Finally, a new temporary failure
(ステップ1009)
障害原因判定ルール変化検知プログラム411は、通信装置432を介して障害原因判定ルールDB106の登録障害分類木オブジェクト300を、ステップ1005で選択した一時障害分類木オブジェクト1110で置換する。置換方法は、一時障害分類木オブジェクト1110の障害分類木1120、障害原因判定ルールテーブル1140、障害ノートテーブル1150のそれぞれを、登録障害分類木オブジェクト300の障害分類木310、障害原因判定ルール320、障害ノードテーブル330に代入することで行う。
(Step 1009)
The failure cause determination rule
なお、ステップ1005で選択した一時障害分類木オブジェクト1110には、ステップ1007で作成された一時障害分類木オブジェクト、ステップ1008で作成された一時障害分類木オブジェクトも含まれる。
The temporary failure
(まとめ)
本実施形態の動作は以下の順番に進行する。
(1)システム障害を監視対象とする監視サーバが生成したイベントを逐次取得し、イベントを障害毎にまとめたイベントブロックを作成する(ステップ1003)。
(2)現処理時点から所定の時間窓幅内に取得したイベントブロックを訓練データとして取得し、当該イベントブロックに基づいて一時障害分類木オブジェクトの集合を更新する(ステップ1004)。
(3)更新された一時障害分類木オブジェクトの集合の中から選択用の重みが最も重い一時障害分類木オブジェクトを選択し、当該選択された一時障害分類木オブジェクトと現行の障害原因判定ルールに関連する登録障害分類木オブジェクトとの比較によりオブジェクト間の変化を検知する(ステップ1005)。
(4)ステップ1005で両オブジェクトが一致しないと検知された場合、両オブジェクト間の違いから変化の原因を予測し、予測に基づいた一時障害分類木オブジェクトを作成して一時障害分類木オブジェクトの集合に追加する(ステップ1006〜1008)。
(5)ステップ1005で両オブジェクトが一致しないと検知された場合、当該ステップ1005で選択された一時障害分類木オブジェクト又はステップ1007又は1008で作成された一時障害分類木オブジェクトによって登録障害分類木オブジェクトを置き換える(ステップ1009)。
(Summary)
The operation of this embodiment proceeds in the following order.
(1) The event generated by the monitoring server that monitors the system failure is sequentially acquired, and an event block in which the event is summarized for each failure is created (step 1003).
(2) An event block acquired within a predetermined time window width from the current processing time point is acquired as training data, and a set of temporary failure classification tree objects is updated based on the event block (step 1004).
(3) Select a temporary failure classification tree object having the heaviest selection weight from the set of updated temporary failure classification tree objects, and relate to the selected temporary failure classification tree object and the current failure cause determination rule. A change between the objects is detected by comparison with the registered failure classification tree object to be performed (step 1005).
(4) If it is detected in
(5) If it is detected in
このように、本実施形態の場合には、使用中の障害分類木と一時的に作成された障害分類木同士の比較及び使用中の障害原因判定ルールと一時的に作成された障害原因判定ルール同士の比較に基づいて変化の原因を予測し、原因が予測できた場合には当該原因の内容に従って判定イベントの特定の属性値を一斉に書き換える。なお、原因が予測できない場合には、現時点の一時障害分類木オブジェクトの内容に、登録分類木オブジェクトの内容を書き換える。 Thus, in the case of the present embodiment, the failure classification tree in use and the temporarily created failure classification tree are compared with each other, and the failure cause determination rule in use and the failure cause determination rule temporarily created Based on the comparison between them, the cause of the change is predicted, and when the cause can be predicted, specific attribute values of the determination event are rewritten all at once according to the content of the cause. If the cause cannot be predicted, the contents of the registered classification tree object are rewritten to the contents of the current temporary failure classification tree object.
結果的に、少なくとも障害分類木オブジェクトの変化が検知された時点において、登録分類木オブジェクトの内容を変更できる。しかも、障害分類木オブジェクトの変化の原因を予測できる場合には、予測された原因に応じて関連する全ての判定イベントの属性値を一斉に書き換えることができる。このことは、出現頻度の高い障害が出現頻度の低い障害と関連がある場合に、出現頻度の高い発生周期で出現頻度の低い障害に対応する障害原因判定ルールを事前に変更できることを意味する。 As a result, the content of the registered classification tree object can be changed at least when a change in the failure classification tree object is detected. In addition, when the cause of the change of the failure classification tree object can be predicted, the attribute values of all the determination events related to the predicted cause can be rewritten simultaneously. This means that when a failure with a high appearance frequency is related to a failure with a low appearance frequency, the failure cause determination rule corresponding to the failure with a low appearance frequency can be changed in advance in the occurrence cycle with a high appearance frequency.
101…監視対象サーバ群
102…監視サーバ
103…ログデータベース(DB)
104…障害原因判定ルール生成コンピュータ
105…障害原因解析コンピュータ
106…障害原因判定ルールDB
107…障害原因判定ルール変化検知コンピュータ
108…復旧手順書データベース(DB)
109…復旧手順書閲覧コンピュータ
101 ... Monitoring
104 ... Failure cause determination
107 ... Failure cause determination rule
109 ... Recovery procedure manual browsing computer
Claims (5)
現処理時点から所定の時間窓幅内に取得したイベントブロックを訓練データとして取得し、当該イベントブロックに基づいて一時的に生成される一時障害分類木オブジェクトの集合を更新する第二の処理部であり、前記一時障害分類木オブジェクトは、(1)特徴によって障害を分類した障害分類木と、(2)障害原因判定ルールを格納する障害原因判定ルールテーブルと、(3)前記障害分類木の構築に訓練データとして使用したイベントブロックを格納する障害ノードテーブルと、(4)オブジェクトの選択用の重みとで構成される、第二の処理部と、
更新された一時障害分類木オブジェクトの集合の中から選択用の重みが最も重い一時障害分類木オブジェクトを選択し、当該選択された一時障害分類木オブジェクトと現行の障害原因判定ルールに関連する登録障害分類木オブジェクトとの比較によりオブジェクト間の変化を検知する第三の処理部であり、前記登録障害分類木オブジェクトは、(1)特徴によって障害を分類した障害分類木と、(2)障害原因判定ルールを格納する障害原因判定ルールテーブルと、(3)前記障害分類木の構築に訓練データとして使用したイベントブロックを格納する障害ノードテーブルとで構成される、第三の処理部と、
前記第三の処理部において両オブジェクトが一致していない場合、両オブジェクト間の違いが発生した原因を予測し、予測に基づいて新たな一時障害分類木オブジェクトを作成して前記一時障害分類木オブジェクトの集合に追加する第四の処理部と、
前記第三の処理部において両オブジェクトが一致していない場合、当該第三の処理部で選択された一時障害分類木オブジェクト又は前記第四の処理部で作成された一時障害分類木オブジェクトによって前記登録障害分類木オブジェクトを置き換える第五の処理部と、
を有する障害原因判定ルール変化検知装置。 A first processing unit that sequentially acquires events generated by a monitoring server that monitors system failures and creates an event block that summarizes events for each failure;
Get event blocks acquired from the current processing time within a predetermined time window width as the training data, in the second processing unit for updating the set of the temporary fault classification tree objects that are temporarily generated based on the event block The temporary fault classification tree object includes (1) a fault classification tree in which faults are classified by characteristics, (2) a fault cause determination rule table storing fault cause determination rules, and (3) construction of the fault classification tree A second node that is configured with a failure node table that stores event blocks used as training data in (4) and an object selection weight ;
A temporary failure classification tree object having the highest selection weight is selected from the set of updated temporary failure classification tree objects, and the registered failure related to the selected temporary failure classification tree object and the current failure cause determination rule. A third processing unit that detects a change between objects by comparison with a classification tree object, and the registered failure classification tree object includes (1) a failure classification tree in which failures are classified according to characteristics; and (2) failure cause determination. A third processing unit composed of a failure cause determination rule table storing rules, and (3) a failure node table storing event blocks used as training data in the construction of the failure classification tree ;
If both objects do not match in the third processing unit, the cause of the difference between the two objects is predicted, a new temporary failure classification tree object is created based on the prediction, and the temporary failure classification tree object and a fourth processing unit to be added to the collection of,
If both objects do not match in the third processing unit, the registration is performed by the temporary fault classification tree object selected by the third processing unit or the temporary fault classification tree object created by the fourth processing unit. A fifth processing unit for replacing the fault classification tree object;
A failure cause determination rule change detection device having
ことを特徴とする請求項1に記載の障害原因判定ルール変化検知装置。 The second processing unit is configured to temporarily evaluate the classification tree based on the evaluation of the entire classification tree based on the category utility and the matching degree between the newly acquired event block and the failure node into which the event block is classified. The failure cause determination rule change detection device according to claim 1, wherein a weight for selecting an object is determined.
ことを特徴とする請求項1に記載の障害原因判定ルール変化検知装置。 When the failure node that existed in the failure classification tree that constitutes the registered failure classification tree object does not exist at the corresponding position of the failure classification tree that constitutes the temporary failure classification tree object, the fourth processing unit Is created, and a new temporary failure classification tree object is created based on an event set in which events related to the service are deleted from events that are training data of the temporary failure classification tree object. The failure cause determination rule change detection device according to claim 1.
ことを特徴とする請求項1に記載の障害原因判定ルール変化検知装置。 In the fourth processing unit, the content of the failure cause determination rule set for the failure node of the failure classification tree constituting the registered failure classification tree object is the content of the failure cause determination rule of the corresponding temporary failure classification tree object. If it is different from that, change the attribute of the event of the training data to the content after the change by predicting that the configuration of the system infrastructure has changed, and a new temporary failure based on the event block including the event after the change of the attribute The failure cause determination rule change detection device according to claim 1, wherein a classification tree object is created.
システム障害を監視対象とする監視サーバが生成したイベントを逐次取得し、イベントを障害毎にまとめたイベントブロックを作成する第一の処理と、
現処理時点から所定の時間窓幅内に取得したイベントブロックを訓練データとして取得し、当該イベントブロックに基づいて一時的に生成される一時障害分類木オブジェクトの集合を更新する第二の処理であり、前記一時障害分類木オブジェクトは、(1)特徴によって障害を分類した障害分類木と、(2)障害原因判定ルールを格納する障害原因判定ルールテーブルと、(3)前記障害分類木の構築に訓練データとして使用したイベントブロックを格納する障害ノードテーブルと、(4)オブジェクトの選択用の重みとで構成される、第二の処理と、
更新された一時障害分類木オブジェクトの集合の中から選択用の重みが最も重い一時障害分類木オブジェクトを選択し、当該選択された一時障害分類木オブジェクトと現行の障害原因判定ルールに関連する登録障害分類木オブジェクトとの比較によりオブジェクト間の変化を検知する第三の処理であり、前記登録障害分類木オブジェクトは、(1)特徴によって障害を分類した障害分類木と、(2)障害原因判定ルールを格納する障害原因判定ルールテーブルと、(3)前記障害分類木の構築に訓練データとして使用したイベントブロックを格納する障害ノードテーブルとで構成される、第三の処理と、
前記第三の処理において両オブジェクトが一致していない場合、両オブジェクト間の違いが発生した原因を予測し、予測に基づいて新たな一時障害分類木オブジェクトを作成して前記一時障害分類木オブジェクトの集合に追加する第四の処理と、
前記第三の処理において両オブジェクトが一致していない場合、当該第三の処理で選択された一時障害分類木オブジェクト又は前記第四の処理で作成された一時障害分類木オブジェクトによって前記登録障害分類木オブジェクトを置き換える第五の処理と、
を実行させるプログラム。 On the computer,
A first process for sequentially acquiring events generated by a monitoring server that monitors system failures and creating an event block that summarizes events for each failure;
This is a second process for acquiring an event block acquired within a predetermined time window width from the current processing time point as training data and updating a set of temporary failure classification tree objects that are temporarily generated based on the event block . The temporary fault classification tree object includes: (1) a fault classification tree that classifies faults according to features; (2) a fault cause determination rule table that stores fault cause determination rules; and (3) construction of the fault classification tree. A second process consisting of a failure node table storing event blocks used as training data, and (4) weights for object selection ;
A temporary failure classification tree object having the highest selection weight is selected from the set of updated temporary failure classification tree objects, and the registered failure related to the selected temporary failure classification tree object and the current failure cause determination rule. A third process of detecting a change between objects by comparison with a classification tree object , wherein the registered fault classification tree object includes (1) a fault classification tree in which faults are classified by characteristics, and (2) fault cause determination rules. A third process consisting of a failure cause determination rule table storing (3) and a failure node table storing event blocks used as training data in the construction of the failure classification tree ;
If the third Oite in processing both objects do not match, to predict the cause of the differences between the two objects is generated, the one o'clock fault classification to create a new temporary fault classification tree object based on a prediction A fourth process to add to the set of tree objects ;
If the third Oite in processing both objects do not match, by the third processing with the selected one o'clock fault classification tree object or the fourth temporary fault classification tree objects created by processing A fifth process for replacing the registered failure classification tree object ;
A program that executes
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010140846A JP5514643B2 (en) | 2010-06-21 | 2010-06-21 | Failure cause determination rule change detection device and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010140846A JP5514643B2 (en) | 2010-06-21 | 2010-06-21 | Failure cause determination rule change detection device and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012003713A JP2012003713A (en) | 2012-01-05 |
JP5514643B2 true JP5514643B2 (en) | 2014-06-04 |
Family
ID=45535574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010140846A Expired - Fee Related JP5514643B2 (en) | 2010-06-21 | 2010-06-21 | Failure cause determination rule change detection device and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5514643B2 (en) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6160064B2 (en) | 2012-11-19 | 2017-07-12 | 富士通株式会社 | Application determination program, failure detection apparatus, and application determination method |
JP6508202B2 (en) * | 2014-05-19 | 2019-05-08 | 日本電気株式会社 | INFORMATION PROCESSING APPARATUS, INFORMATION PROCESSING METHOD, AND PROGRAM |
JP6333410B2 (en) | 2014-06-24 | 2018-05-30 | 華為技術有限公司Huawei Technologies Co.,Ltd. | Fault processing method, related apparatus, and computer |
JP7173273B2 (en) * | 2017-12-11 | 2022-11-16 | 日本電気株式会社 | Failure analysis device, failure analysis method and failure analysis program |
US11586981B2 (en) | 2017-12-11 | 2023-02-21 | Nec Corporation | Failure analysis device, failure analysis method, and failure analysis program |
CN111274056B (en) * | 2018-11-20 | 2023-10-03 | 河南许继仪表有限公司 | Self-learning method and device for fault library of intelligent electric energy meter |
CN111144606B (en) * | 2019-05-17 | 2020-09-15 | 深圳市德塔防爆电动汽车有限公司 | Safety failure risk prediction method for electric vehicle and electric vehicle |
-
2010
- 2010-06-21 JP JP2010140846A patent/JP5514643B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012003713A (en) | 2012-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5514643B2 (en) | Failure cause determination rule change detection device and program | |
JP6538980B2 (en) | Automated anomaly detection service in heterogeneous mixed log streams | |
US9189319B2 (en) | Management system for outputting information denoting recovery method corresponding to root cause of failure | |
US10423647B2 (en) | Descriptive datacenter state comparison | |
US10439922B2 (en) | Service analyzer interface | |
CN107196780A (en) | Method and apparatus for the failure of management equipment | |
US9612898B2 (en) | Fault analysis apparatus, fault analysis method, and recording medium | |
US20180174062A1 (en) | Root cause analysis for sequences of datacenter states | |
JP5285084B2 (en) | System for supporting action execution according to detection event, method for supporting action execution according to detection event, support apparatus, and computer program | |
JP5946423B2 (en) | System log classification method, program and system | |
JP6875179B2 (en) | System analyzer and system analysis method | |
US20090106180A1 (en) | Health meter | |
US20170261403A1 (en) | Abnormality detection procedure development apparatus and abnormality detection procedure development method | |
JP5651381B2 (en) | Failure cause determination rule verification device and program | |
WO2011055436A1 (en) | Operation management device and operation management method | |
JP6280862B2 (en) | Event analysis system and method | |
JP2012208664A (en) | Integrated management system for software design/operation | |
JP5395719B2 (en) | Rule generation device and program for failure cause analysis system | |
EP3367241B1 (en) | Method, computer program and system for providing a control signal for a software development environment | |
JP6517677B2 (en) | Integrated operation monitoring system and calculation method of association degree of operation operation log | |
JP4810113B2 (en) | Database tuning apparatus, database tuning method, and program | |
Kim et al. | Risk prediction system based on risk prediction model with complex event processing: risk prediction in real time on complex event processing engine | |
CN111095868A (en) | Data traffic management in software defined networks | |
JP2011118575A (en) | Failure countermeasure information acquisition method and management server | |
JP2012212228A (en) | It failure detection/retrieval device and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130129 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131202 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131210 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140123 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140325 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140331 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5514643 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |