JP5651381B2 - Failure cause determination rule verification device and program - Google Patents

Failure cause determination rule verification device and program Download PDF

Info

Publication number
JP5651381B2
JP5651381B2 JP2010136300A JP2010136300A JP5651381B2 JP 5651381 B2 JP5651381 B2 JP 5651381B2 JP 2010136300 A JP2010136300 A JP 2010136300A JP 2010136300 A JP2010136300 A JP 2010136300A JP 5651381 B2 JP5651381 B2 JP 5651381B2
Authority
JP
Japan
Prior art keywords
failure
determination rule
cause determination
classification tree
failure cause
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010136300A
Other languages
Japanese (ja)
Other versions
JP2012003406A (en
Inventor
小林 宏至
宏至 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Solutions Ltd
Original Assignee
Hitachi Solutions Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Solutions Ltd filed Critical Hitachi Solutions Ltd
Priority to JP2010136300A priority Critical patent/JP5651381B2/en
Publication of JP2012003406A publication Critical patent/JP2012003406A/en
Application granted granted Critical
Publication of JP5651381B2 publication Critical patent/JP5651381B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、過去のイベントログに基づいて、障害原因解析システムにて利用される障害原因解析ルールを検証する装置及び当該装置をソフトウェア的に実現するプログラムに関する。   The present invention relates to a device for verifying a failure cause analysis rule used in a failure cause analysis system based on a past event log, and a program for realizing the device in software.

システム障害発生時における復旧作業の遅延は、企業の業績や社会インフラに大きな影響を与える。システム障害の迅速な復旧には、早期の障害原因の特定と復旧手順の決定が重要となる。   Delays in recovery work in the event of a system failure have a major impact on corporate performance and social infrastructure. To quickly recover from a system failure, it is important to identify the cause of the failure at an early stage and determine the recovery procedure.

そこで、障害の迅速な復旧を支援する障害原因解析システムが提案されている(特許文献1)。このシステムは、特定の障害時に発生するイベントと復旧手順とを対応付けた障害原因判定ルールを有し、当該ルールを用いて障害イベントを解析することにより適切な復旧手順を復旧担当者に提供する。   In view of this, a failure cause analysis system that supports rapid recovery of failures has been proposed (Patent Document 1). This system has a failure cause determination rule that correlates an event that occurs at the time of a specific failure with a recovery procedure, and provides an appropriate recovery procedure to a recovery person by analyzing the failure event using the rule .

しかし、人手による障害原因判定ルールの作成には困難を伴う。そこで、イベントログから障害原因判定ルールを自動的に生成する手法が提案されている(特許文献2及び3)。特許文献2には、特定イベントの発生頻度を利用する方法が記載されている。特許文献3には、イベントの生起パターンを利用する方法が記載されている。   However, it is difficult to manually create a failure cause determination rule. Therefore, a method for automatically generating a failure cause determination rule from an event log has been proposed (Patent Documents 2 and 3). Patent Document 2 describes a method of using the occurrence frequency of a specific event. Patent Document 3 describes a method of using an event occurrence pattern.

国際公開第2004/061681号International Publication No. 2004/061681 特開2008−41041号公報JP 2008-41041 A 特開2006−4346号公報JP 2006-4346 A

Fisher, Douglas H. “Knowledge acquisition via incremental clustering”, Machine Learning 2, 139-172, 1987Fisher, Douglas H. “Knowledge acquisition via incremental clustering”, Machine Learning 2, 139-172, 1987

ところが、一度作成して登録した障害原因判定ルールであっても、次のような理由により、登録内容の更新が必要となる。
(1)新規ITサービスの追加/既存ITサービスの廃止
新規のITサービスの運用が開始されると、当該サービスに関係するシステム障害が新たに発生するようになる。この場合、新規なシステム障害に対応する障害原因判定ルールを作成し、既存の障害原因判定ルールに追加する必要がある。反対に、既存のITサービスが廃止された場合、当該サービスに関係するシステム障害はそれ以降発生しなくなる。この場合、今後発生しなくなる障害に対応する障害原因判定ルールを、既存の障害原因判定ルールから削除する必要がある。
(2)IT基盤構成の変更
システムの運用過程では、提供されるITサービス自体に変更が存在しなくとも、IT基盤が変更されることがある。例えばハードウェアの交換やネットワーク構成の変更などが生じることがある。このようにシステム構成に変更が生じると、同じ原因に起因するシステム障害であったとしても、発生するイベントの属性値やイベントの出現の仕方が影響を受けることになる。すなわち、障害原因判定ルールへの変更が必要となる。
(3)システム障害に対する認識の変化
当然ながら、障害原因判定ルールの作成時には、その時点で利用可能な情報に基づいて障害原因判定ルールが作成される。しかし、システム障害に関する情報量の不足から誤った障害原因判定ルールが生成される可能性がある。例えば同じ原因に起因すると判定されていたシステム障害Aとシステム障害Bが、その後、異なる原因に起因するものであると判明することがある。反対に、当初は異なる原因に起因する障害として判定されていたものが、その後、同じ原因に起因する障害であると判明することがある。
However, even if the failure cause determination rule is once created and registered, the registration content needs to be updated for the following reason.
(1) Addition of new IT service / Abolition of existing IT service When the operation of a new IT service is started, a system failure related to the service is newly generated. In this case, it is necessary to create a failure cause determination rule corresponding to a new system failure and add it to the existing failure cause determination rule. On the other hand, when an existing IT service is abolished, a system failure related to the service will not occur thereafter. In this case, it is necessary to delete the failure cause determination rule corresponding to the failure that will not occur in the future from the existing failure cause determination rule.
(2) Change of IT infrastructure configuration In the operation process of the system, the IT infrastructure may be changed even if there is no change in the provided IT service itself. For example, hardware replacement or network configuration change may occur. When the system configuration is changed in this way, even if the system failure is caused by the same cause, the attribute value of the event that occurs and the appearance of the event are affected. That is, a change to the failure cause determination rule is required.
(3) Change in recognition of system failure Naturally, when creating a failure cause determination rule, a failure cause determination rule is created based on information available at that time. However, an erroneous failure cause determination rule may be generated due to a lack of information regarding system failure. For example, the system failure A and the system failure B that have been determined to be caused by the same cause may be subsequently found to be caused by different causes. On the other hand, what was initially determined as a failure due to a different cause may be later found to be a failure due to the same cause.

しかるに従来手法は、障害原因判定ルールを自動生成するものであっても、その後のメンテナンスを考慮していない。すなわち、障害原因判定ルールの作成後もその有効性を常に検証し、必要に応じてルールを更新することは何ら考慮されていない。   However, the conventional method does not consider the subsequent maintenance even if the failure cause determination rule is automatically generated. In other words, no consideration is given to constantly verifying the effectiveness of a failure cause determination rule after creation and updating the rule as necessary.

そこで、発明者は、障害原因判定ルールを運用状況に応じて自動的に更新するための仕組みを提供する。具体的には、障害原因判定ルールを見直すための時間間隔を与える時間窓を自動的に設定する処理と、直近の時間窓内に発生したイベントに基づいて一時障害分類木を作成する処理と、作成された一時障害分類木と運用中の障害原因判定ルールに対応する障害分類木(登録障害分類木)を比較し、比較結果に基づいて運用に使用する障害原因判定ルールを更新する処理とを有する仕組みを提供する。   Therefore, the inventor provides a mechanism for automatically updating the failure cause determination rule according to the operation status. Specifically, a process that automatically sets a time window that gives a time interval for reviewing the failure cause determination rule, a process that creates a temporary failure classification tree based on events that occurred within the most recent time window, Comparing the created temporary failure classification tree with a failure classification tree (registered failure classification tree) corresponding to the failure cause determination rule in operation, and updating the failure cause determination rule used for operation based on the comparison result Provide a mechanism to have.

本発明によれば、運用に使用する障害原因判定ルールを運用状況の変化に応じて自動的に最適化できる。   According to the present invention, a failure cause determination rule used for operation can be automatically optimized according to a change in operation status.

障害原因解析システムのシステム構成例を示す図。The figure which shows the system configuration example of a failure cause analysis system. ログDBが保持するイベントテーブルの具体例を説明する図。The figure explaining the specific example of the event table which log DB hold | maintains. 障害原因判定ルールDBが保持する障害分類木及び障害原因判定ルールテーブルを説明する図。The figure explaining the failure classification tree and failure cause determination rule table which failure cause determination rule DB holds. 障害原因判定ルールDBが保持する障害ノードテーブルを説明する図。The figure explaining the failure node table which failure cause determination rule DB hold | maintains. 障害原因判定ルール検証コンピュータのシステム構成例を示す図。The figure which shows the system configuration example of a failure cause determination rule verification computer. 障害原因解析プロセスの概要を示すフローチャート。The flowchart which shows the outline | summary of a failure cause analysis process. イベントブロックの特徴テーブル例を示す図。The figure which shows the example of a feature table of an event block. 障害原因判定ルールにおけるスケジューリングプロセスの実行手順例を示すフローチャート。The flowchart which shows the example of an execution procedure of the scheduling process in a failure cause determination rule. 障害原因判定ルールにおける検証・更新プロセスの実行手順例を示すフローチャート。The flowchart which shows the example of an execution procedure of the verification / update process in a failure cause determination rule. 障害原因判定ルールの更新処理の概念を説明する図。The figure explaining the concept of the update process of a failure cause determination rule. 更新処理の具体例を説明する図。The figure explaining the specific example of an update process. 障害原因判定ルールの追加処理の概念を説明する図。The figure explaining the concept of the addition process of a failure cause determination rule. 障害原因判定ルールの削除処理の概念を説明する図。The figure explaining the concept of the deletion process of a failure cause determination rule. 障害原因判定ルールの統合処理の概念を説明する図。The figure explaining the concept of the failure cause determination rule integration process. 統合処理の具体例を説明する図。The figure explaining the specific example of an integration process. 障害原因判定ルールの分割処理の概念を説明する図。The figure explaining the concept of the division | segmentation process of a failure cause determination rule. 分割処理の具体例を説明する図。The figure explaining the specific example of a division | segmentation process.

以下、図面に基づいて、本発明の実施の形態を説明する。なお、後述する装置構成や処理動作の内容は発明を説明するための一例である。本発明は、後述する装置構成同士の組み合わせ、後述する装置構成と既知の技術の組み合わせ、後述する装置構成の一部と既知の技術との組み合わせも包含する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings. Note that the contents of the apparatus configuration and processing operation described later are examples for explaining the invention. The present invention also includes combinations of device configurations described later, combinations of device configurations described below and known technologies, and combinations of a part of device configurations described below and known technologies.

(障害原因解析システムの全体構成)
図1に、障害原因判定ルール検証コンピュータ107を実装する障害原因解析システムの構成例を示す。図1に示す障害原因解析システムは、監視対象サーバ群101と、監視サーバ102と、ログデータベース(DB)103と、障害原因判定ルール生成コンピュータ104と、障害原因解析コンピュータ105と、障害原因判定ルールDB106と、障害原因判定ルール検証コンピュータ107と、復旧手順書データベース(DB)108と、復旧手順書閲覧コンピュータ109とを有している。
(Overall configuration of failure cause analysis system)
FIG. 1 shows a configuration example of a failure cause analysis system in which the failure cause determination rule verification computer 107 is installed. The failure cause analysis system shown in FIG. 1 includes a monitoring target server group 101, a monitoring server 102, a log database (DB) 103, a failure cause determination rule generation computer 104, a failure cause analysis computer 105, and a failure cause determination rule. It has a DB 106, a failure cause determination rule verification computer 107, a recovery procedure manual database (DB) 108, and a recovery procedure manual browsing computer 109.

このうち、監視サーバ102は、監視対象サーバ群101の状態(死活など)を監視し、状態に応じたイベントを生成する機能を提供する。監視サーバ102が生成したイベントはログデータベース(DB)103に格納される。障害原因判定ルール生成コンピュータ104は、ログDB103からイベントログを読み出し、障害原因判定ルールを生成する機能を提供する。障害原因判定ルール生成コンピュータ104が生成した障害原因判定ルールは、障害原因判定ルールDB106に格納される。障害原因解析コンピュータ105は、障害原因判定ルールDB106が格納する障害原因判定ルールに基づいてイベントを解析し、障害に対する復旧手順書を特定する機能を提供する。障害原因判定ルール検証コンピュータ107は、監視サーバ102が生成したイベントを解析し、障害原因判定ルールDB106が格納する障害原因判定ルールの有効性を検証する。復旧手順書データベース(DB)108は、障害時の復旧手順に関する文書を格納する。ここでの文書には、障害発生時のトラブルシューティングを記述したマニュアル(ハードウェアかソフトウェアかを問わない)だけでなく、過去の障害に対する保守担当者の対応記録、報告書その他の障害から復旧するための手順に関する文書も含まれる。復旧手順書閲覧コンピュータ109は、障害原因解析コンピュータ105によって特定された復旧手順書を画面上に表示する機能を提供する。   Among these, the monitoring server 102 provides a function of monitoring the state (life and death) of the monitoring target server group 101 and generating an event corresponding to the state. Events generated by the monitoring server 102 are stored in a log database (DB) 103. The failure cause determination rule generation computer 104 provides a function of reading an event log from the log DB 103 and generating a failure cause determination rule. The failure cause determination rule generated by the failure cause determination rule generation computer 104 is stored in the failure cause determination rule DB 106. The failure cause analysis computer 105 provides a function of analyzing an event based on the failure cause determination rule stored in the failure cause determination rule DB 106 and specifying a recovery procedure manual for the failure. The failure cause determination rule verification computer 107 analyzes the event generated by the monitoring server 102 and verifies the validity of the failure cause determination rule stored in the failure cause determination rule DB 106. The recovery procedure database (DB) 108 stores documents relating to a recovery procedure at the time of failure. In this document, not only manuals (whether hardware or software) that describe troubleshooting in the event of a failure, but also a record of the maintenance staff's response to past failures, reports, and other failures are recovered. Documentation on the procedure for this is also included. The recovery procedure manual browsing computer 109 provides a function of displaying the recovery procedure manual identified by the failure cause analysis computer 105 on the screen.

(イベントテーブルの具体例)
図2に、ログDB103に格納されるイベントテーブル200の具体例を示す。イベントテーブル200は、イベントを一意に特定する識別子(ID)201、イベントが発生した日時を特定する発生日時202、個々のイベントの属性値の集合であるイベント203から構成される。この形態例の場合、イベント203の属性は、<種類>、<ソース>、<イベント番号>、<ユーザ>、<コンピュータ>で定義される。このうち、<種類>はイベントの重要度を示している。<ソース>はイベントを発生させたプロセスやアプリケーション等の発生源を示している。<イベント番号>はイベントの内容を特定する番号を示している。<ユーザ>はイベントの発生源となったプロセスやアプリケーションを実行していたユーザを示している。<コンピュータ>はイベントの発生源となった監視対象サーバ群101内のサーバを示している。
(Specific example of event table)
FIG. 2 shows a specific example of the event table 200 stored in the log DB 103. The event table 200 includes an identifier (ID) 201 that uniquely identifies an event, an occurrence date and time 202 that specifies the date and time when the event occurred, and an event 203 that is a set of attribute values of individual events. In the case of this embodiment, the attributes of the event 203 are defined by <type>, <source>, <event number>, <user>, and <computer>. Of these, <Type> indicates the importance of the event. <Source> indicates the source of the process or application that generated the event. <Event number> indicates a number for identifying the content of the event. <User> indicates the user who is executing the process or application that is the source of the event. <Computer> indicates a server in the monitoring target server group 101 that is an event generation source.

(障害原因判定ルールDBの具体例)
図3−1及び図3−2に、障害原因判定ルールDB106の構成例を示す。障害原因判定ルールDB106は、障害原因解析コンピュータ105に登録されている障害原因判定ルールとそれに関連する情報を格納しているDBである。障害原因判定ルールDB106は、登録障害分類木300と、障害原因判定ルールテーブル310と、障害ノードテーブル320とから構成される。
(Specific example of failure cause determination rule DB)
FIGS. 3A and 3B show a configuration example of the failure cause determination rule DB 106. FIG. The failure cause determination rule DB 106 is a DB that stores a failure cause determination rule registered in the failure cause analysis computer 105 and information related thereto. The failure cause determination rule DB 106 includes a registered failure classification tree 300, a failure cause determination rule table 310, and a failure node table 320.

登録障害分類木300は、障害原因解析コンピュータ105に登録されている障害原因判定ルールの生成時に作成される。登録障害分類木300では、障害時に発生した単数又は複数のイベントの集合(以下、「イベントブロック」という。)が共通に有する特徴に基づいて障害が分類され、分類木として表現される。登録障害分類木300のノードを障害ノードと呼ぶ。同じ障害ノードに分類された障害同士は、発生したイベント及び発生の仕方が類似しているので、同じ障害原因による障害であると考えられる。   The registered failure classification tree 300 is created when a failure cause determination rule registered in the failure cause analysis computer 105 is generated. In the registered fault classification tree 300, faults are classified based on features that are commonly shared by a set of one or more events (hereinafter referred to as “event blocks”) that occurred at the time of the fault, and are represented as a classification tree. A node of the registered failure classification tree 300 is called a failure node. Faults classified into the same fault node are considered to be faults caused by the same fault cause because the generated events and the manner of occurrence are similar.

障害原因判定ルールテーブル310は、障害原因解析コンピュータ105に登録されている障害原因判定ルールを格納するデータテーブルである。障害原因判定ルールテーブル310は、登録障害分類木300の障害ノード311と、対象障害ノードに分類される障害に適用される障害原因判定ルール312から構成される。障害原因判定ルール312は、単数又は複数の判定イベント313と、判定時間314と、復旧手順書315とで構成される。判定イベント313は、対象障害ノードを特徴付けるイベントの属性の集合である。判定時間314は、判定イベント313を満たすイベントが発生する時間間隔である。復旧手順書315は、判定時間314内に判定イベント313を満たすイベントが発生した場合に復旧手順書閲覧コンピュータ109に表示される文書である。   The failure cause determination rule table 310 is a data table that stores failure cause determination rules registered in the failure cause analysis computer 105. The failure cause determination rule table 310 includes a failure node 311 of the registered failure classification tree 300 and a failure cause determination rule 312 that is applied to a failure classified as a target failure node. The failure cause determination rule 312 includes one or more determination events 313, a determination time 314, and a recovery procedure manual 315. The determination event 313 is a set of event attributes that characterize the target failure node. The determination time 314 is a time interval at which an event that satisfies the determination event 313 occurs. The recovery procedure manual 315 is a document displayed on the recovery procedure manual browsing computer 109 when an event that satisfies the determination event 313 occurs within the determination time 314.

1つの障害ノード311に複数の判定イベント313が指定されている場合は、障害原因判定ルールテーブル310に記述されている順番に判定イベント313が出現するものとする。図3−1の(2)の場合、「障害ノード1−1」に対する障害原因判定ルール312として、(「警戒」、「process71」、「80」、「user2」、「server9」)の属性値を有するイベントの発生後に、(「*」、「process39」、「*」、「user4」、「server8」)の属性値を有するイベントが判定時間「2分9秒」以内に発生したら、「復旧手順A.doc」を復旧手順閲覧コンピュータ109に表示するというルールが設定されている。ここで、属性値「*」は、値が不定であることを意味し、任意の値を取り得ることを示す。   When a plurality of determination events 313 are specified for one failure node 311, the determination events 313 appear in the order described in the failure cause determination rule table 310. In the case of (2) in FIG. 3A, as the failure cause determination rule 312 for the “failure node 1-1”, the attribute values of (“alert”, “process71”, “80”, “user2”, “server9”) If an event with an attribute value of ("*", "process39", "*", "user4", "server8") occurs within the determination time "2 minutes 9 seconds" after the occurrence of an event with A rule of displaying “procedure A.doc” on the recovery procedure browsing computer 109 is set. Here, the attribute value “*” means that the value is indefinite and indicates that an arbitrary value can be taken.

障害ノードテーブル320は、登録障害分類木300を構築する際に訓練データとして使用したイベントブロックを格納する。障害ノードテーブル320は、障害ノード311と、当該障害ノードに分類されたイベントブロック321と、当該イベントブロック321内に含まれるイベント203とから構成される。   The failure node table 320 stores event blocks used as training data when the registered failure classification tree 300 is constructed. The failure node table 320 includes a failure node 311, an event block 321 classified as the failure node, and an event 203 included in the event block 321.

(障害原因判定ルール検証コンピュータの構成例)
図4に、障害原因判定ルール検証コンピュータ107の構成例を示す。障害原因判定ルール検証コンピュータ107は、コンピュータ本体400と、入力装置430と、表示装置431と、通信装置432とから構成される。なお、通信装置432は、監視サーバ102、ログDB103及び障害原因判定ルールDB106と通信する。
(Configuration example of failure cause determination rule verification computer)
FIG. 4 shows a configuration example of the failure cause determination rule verification computer 107. The failure cause determination rule verification computer 107 includes a computer main body 400, an input device 430, a display device 431, and a communication device 432. The communication device 432 communicates with the monitoring server 102, the log DB 103, and the failure cause determination rule DB 106.

コンピュータ本体400は、データ演算をするCPU401、ROM402、RAM410、ハードディスク駆動装置420、これらデバイス間のデータ転送を実現するCPUバス407、これらデバイスとCPUバス407とを結合するインターフェース403〜406で構成される。   The computer main body 400 includes a CPU 401 that performs data calculation, a ROM 402, a RAM 410, a hard disk drive 420, a CPU bus 407 that realizes data transfer between these devices, and interfaces 403 to 406 that couple these devices to the CPU bus 407. The

RAM410には、CPU401に演算処理をさせる障害原因判定ルール検証プログラム411の実行領域と、検算時に一時的に生成させるデータを格納する作業領域412とが少なくとも確保される。また、ハードディスク駆動装置420の記憶領域には、障害原因判定ルール検証プログラムの格納領域としてのプログラム格納部421と、監視サーバ102及び障害原因判定ルールDB106から取得したデータを一時的に格納しておくデータ格納部422が少なくとも確保される。   The RAM 410 has at least an execution area for the failure cause determination rule verification program 411 for causing the CPU 401 to perform arithmetic processing and a work area 412 for storing data to be temporarily generated at the time of verification. The storage area of the hard disk drive 420 temporarily stores a program storage unit 421 as a storage area for the failure cause determination rule verification program and data acquired from the monitoring server 102 and the failure cause determination rule DB 106. At least the data storage unit 422 is secured.

(障害原因解析動作)
図5に、障害原因解析システム全体の障害原因解析プロセスの概略を示す。
(ステップ501)
障害原因判定ルール生成コンピュータ104は、ログDB103からイベントログを取得して障害原因判定ルールを生成し、障害原因判定ルールDB106に保存する。ここで、障害原因判定ルールの作成は、(1)障害分類木の作成、(2)頻出イベントパターンの発見、(3)復旧手順書検索の順番に行う。
(Failure cause analysis operation)
FIG. 5 shows an outline of the failure cause analysis process of the entire failure cause analysis system.
(Step 501)
The failure cause determination rule generation computer 104 acquires an event log from the log DB 103, generates a failure cause determination rule, and stores it in the failure cause determination rule DB. Here, the failure cause determination rule is created in the order of (1) creation of a failure classification tree, (2) discovery of frequent event patterns, and (3) recovery procedure manual search.

(1)障害分類木の作成
障害原因判定ルール生成コンピュータ104は、ログDB103から取得したイベントを障害別に分類する。障害別に分類された状態のイベントをイベントブロックという。次に、障害原因判定ルール生成コンピュータ104は、各イベントブロックから特徴を抽出し、抽出された特徴に基づいて教師なしのクラスタリングを行い、分類木を構築する。この分類木が、障害原因判定ルールDB106の登録障害分類木300に相当する。この場合のクラスタリング手法としては、非特許文献1に記載されている概念クラスタリングCOBWEBなどがある。
(1) Creation of Failure Classification Tree The failure cause determination rule generation computer 104 classifies events acquired from the log DB 103 by failure. Events that are classified by failure are called event blocks. Next, the failure cause determination rule generation computer 104 extracts features from each event block, performs unsupervised clustering based on the extracted features, and constructs a classification tree. This classification tree corresponds to the registered failure classification tree 300 of the failure cause determination rule DB 106. As a clustering method in this case, there is a concept clustering COBWEB described in Non-Patent Document 1.

(2)頻出イベントパターンの発見
障害原因判定ルール生成コンピュータ104は、指定された分類木の障害ノードに分類される複数のイベントブロックに単数又は複数の頻出するイベントを発見する。さらに、頻出イベントが複数ある場合には、頻出イベントが出現する順番と時間間隔を求める。これらが、障害原因判定ルールDB106の障害原因判定ルールテーブル310の障害原因判定ルール312における判定イベント313及び判定時間314に相当する。
(2) Discovery of frequent event patterns The failure cause determination rule generation computer 104 finds one or a plurality of frequent events in a plurality of event blocks classified as a failure node of a designated classification tree. Furthermore, when there are a plurality of frequent events, the order in which the frequent events appear and the time interval are obtained. These correspond to the determination event 313 and the determination time 314 in the failure cause determination rule 312 of the failure cause determination rule table 310 of the failure cause determination rule DB 106.

図6に、各イベントブロックの特徴を抽出することで作成したイベントブロックの特徴テーブル600の構成例を示す。特徴テーブル600は、イベントブロックを特定するイベントブロックID601、各イベントブロックに対する特徴である属性リスト602で構成される。属性リスト602は、イベント203を構成する属性毎にイベントブロック内で最も頻出する属性値と次に頻出する属性値で構成される。このため、「種類」、「ソース」、「イベント」、「ユーザ」、「コンピュータ」の各属性にそれぞれ2つの属性値が割り当てられている。   FIG. 6 shows a configuration example of a feature table 600 for event blocks created by extracting features of each event block. The feature table 600 includes an event block ID 601 that identifies an event block, and an attribute list 602 that is a feature for each event block. The attribute list 602 is configured with an attribute value that appears most frequently in the event block and an attribute value that appears next frequently for each attribute constituting the event 203. For this reason, two attribute values are assigned to each attribute of “type”, “source”, “event”, “user”, and “computer”.

(3)復旧手順書の検索
障害原因判定ルール生成コンピュータ104は、(2)で求めた頻出イベントの属性値に基づいて検索キーを生成する。例えば5つの属性、すなわち「種類」、「ソース」、「イベント」、「ユーザ」、「コンピュータ」のそれぞれについて最も頻出する属性値の組み合わせを検索キーに設定する。次に、障害原因判定ルール生成コンピュータ104は、生成された検索キーを用いて復旧手順書DB108を検索し、適切な復旧手順書を取得する。ここでの復旧手順書が、障害原因判定ルールテーブル310(図3−1)の障害原因判定ルール312における復旧手順書315に相当する。
(3) Recovery Procedure Manual Search The failure cause determination rule generation computer 104 generates a search key based on the attribute value of the frequent event obtained in (2). For example, a combination of attribute values that appears most frequently for each of five attributes, that is, “type”, “source”, “event”, “user”, and “computer” is set as a search key. Next, the failure cause determination rule generation computer 104 searches the recovery procedure manual DB 108 using the generated search key, and acquires an appropriate recovery procedure manual. The recovery procedure document here corresponds to the recovery procedure document 315 in the failure cause determination rule 312 of the failure cause determination rule table 310 (FIG. 3A).

(ステップ502)
障害原因解析コンピュータ105は、障害原因判定ルール生成コンピュータ104により障害原因判定ルールDB106が更新されたのを検知すると、障害原因判定ルールDB106から障害原因判定ルールテーブル310の障害原因判定ルール312(図3−1)を取得し、登録する。
(Step 502)
When the failure cause analysis computer 105 detects that the failure cause determination rule DB 106 has been updated by the failure cause determination rule generation computer 104, the failure cause determination rule DB 312 of the failure cause determination rule table 310 (FIG. 3) -1) is acquired and registered.

(ステップ503)
監視サーバ102は、監視対象サーバ群101を監視している。監視サーバ102は、監視対象サーバ群101内のサーバに障害に起因する異常を発見すると、該当するサーバの状態に応じたイベントを生成する。監視サーバ102は、生成したイベントをログDB103に保存すると共に、障害原因解析コンピュータ105及び障害原因判定ルール検証コンピュータ107にそのイベントを送信する。
(Step 503)
The monitoring server 102 monitors the monitoring target server group 101. When the monitoring server 102 finds an abnormality caused by a failure in the servers in the monitoring target server group 101, the monitoring server 102 generates an event corresponding to the state of the corresponding server. The monitoring server 102 stores the generated event in the log DB 103 and transmits the event to the failure cause analysis computer 105 and the failure cause determination rule verification computer 107.

(ステップ504)
障害原因解析コンピュータ105は、受信したイベントと、障害原因判定ルール312とのマッチング処理を実行する。障害原因判定ルール312に登録されたいずれかの障害ノードと受信したイベントが一致した場合、障害原因解析コンピュータ105は、一致が確認された傷害ノードについて登録されている復旧手順書315を復旧手順書DB108から取得し、復旧手順書閲覧コンピュータ109に送信する。
(Step 504)
The failure cause analysis computer 105 executes matching processing between the received event and the failure cause determination rule 312. If any of the failure nodes registered in the failure cause determination rule 312 matches the received event, the failure cause analysis computer 105 uses the recovery procedure manual 315 registered for the injured node whose match is confirmed. Obtained from the DB 108 and transmitted to the recovery procedure manual browsing computer 109.

(ステップ505)
復旧手順書閲覧コンピュータ109は、障害原因解析コンピュータ105から受信した復旧手順書315を表示装置上に表示する。
(Step 505)
The recovery procedure manual browsing computer 109 displays the recovery procedure manual 315 received from the failure cause analysis computer 105 on the display device.

(ステップ506)
障害原因判定ルール検証コンピュータ107は、監視サーバ102からイベントを受信すると、設定された時間窓内のイベント集合から障害原因判定ルールを作成し、障害原因判定ルールDB106を更新する。この処理内容の詳細は後述する。
(Step 506)
Upon receiving an event from the monitoring server 102, the failure cause determination rule verification computer 107 creates a failure cause determination rule from the set of events within the set time window, and updates the failure cause determination rule DB 106. Details of this processing will be described later.

(ステップ507)
障害原因解析コンピュータ105は、障害原因判定ルール検証コンピュータ107により障害原因判定ルールDB106が更新されたことを検知した場合、障害原因判定ルールDB107から障害原因判定ルール312を取得し、現在利用している障害原因判定ルールと置き換える。
(Step 507)
When the failure cause analysis computer 105 detects that the failure cause determination rule verification computer 107 has updated the failure cause determination rule DB 106, the failure cause analysis computer 105 acquires the failure cause determination rule 312 from the failure cause determination rule DB 107 and currently uses it. Replace with failure cause determination rule.

(障害原因判定ルール検証動作)
図7−1及び図7−2に、障害原因判定ルール検証プログラム411を通じて実行される障害原因判定ルールの検証・更新プロセスの概要を示す。まず、図7−1に、検証プロセスのスケジューリング処理の内容を示す。
(Failure cause determination rule verification operation)
7A and 7B show an overview of the failure cause determination rule verification / update process executed through the failure cause determination rule verification program 411. FIG. First, FIG. 7-1 shows the contents of the scheduling process of the verification process.

(スケジューリングの詳細動作)
(ステップ700)
障害原因判定ルール検証プログラム411の実行は、障害原因判定ルール生成コンピュータ104が、障害原因判定ルールDB106の更新を通信装置432経由で検知することにより開始される。
(Detailed operation of scheduling)
(Step 700)
Execution of the failure cause determination rule verification program 411 is started when the failure cause determination rule generation computer 104 detects an update of the failure cause determination rule DB 106 via the communication device 432.

(ステップ701)
障害原因判定ルール検証コンピュータ107は、障害の発生時間間隔の境界時間tbを計算する。境界時間tbとは、最後に障害が発生してから、時間間隔の境界時間tb以内に、同じ障害原因による障害が発生しなければ、以降も発生しないと考えられる時間間隔である。障害の発生時刻は、対応するイベントブロックの最初のイベントの発生日時とする。この境界時間tbは、次の(1)から(3)の手順で決める。
(Step 701)
The failure cause determination rule verification computer 107 calculates the boundary time tb of the failure occurrence time interval. The boundary time tb is a time interval that is considered not to occur if a failure due to the same failure does not occur within the boundary time tb of the time interval after the last failure. The occurrence time of the failure is the occurrence date and time of the first event of the corresponding event block. This boundary time tb is determined by the following procedures (1) to (3).

(1)登録障害分類木の取得
障害原因判定ルール検証コンピュータ107は、通信装置432を介して障害原因判定ルールDB106から登録障害分類木300、障害原因判定ルールテーブル310、障害ノードテーブル320を取得する。これらの情報に基づいて、障害原因判定ルール検証コンピュータ107は、登録障害分類木300を構築する際に訓練データとして使用した最初のイベントの発生日時t0と最後のイベントの発生日時との時間差を算出する。この時間差を、障害原因判定ルール検証コンピュータ107は、障害分類木を作成する際におけるイベントの時間範囲を与える分類木構築時間Δとする。
(1) Acquisition of registered failure classification tree The failure cause determination rule verification computer 107 acquires the registered failure classification tree 300, the failure cause determination rule table 310, and the failure node table 320 from the failure cause determination rule DB 106 via the communication device 432. . Based on these pieces of information, the failure cause determination rule verification computer 107 calculates the time difference between the occurrence date and time t0 of the first event and the occurrence date and time of the last event used as training data when the registered failure classification tree 300 is constructed. To do. The time difference is set as a classification tree construction time Δ that gives the time range of the event when the failure cause determination rule verification computer 107 creates the failure classification tree.

(2)検証障害ノードの障害発生時間間隔
障害原因判定ルール検証コンピュータ107は、障害原因判定ルールテーブル310のうち障害原因判定ルール312が設定されている障害ノード311を検証対象に設定する。この検証対象としての障害ノードを、以下、「検証障害ノード」という。この後、障害原因判定ルール検証コンピュータ107は障害ノードテーブル320にアクセスし、検証障害ノードに対応するイベントブロック321に関する障害の発生時間間隔を計算する。
(2) Failure occurrence time interval of verification failure node The failure cause determination rule verification computer 107 sets the failure node 311 in the failure cause determination rule table 310 in which the failure cause determination rule 312 is set as a verification target. The failure node as the verification target is hereinafter referred to as a “verification failure node”. Thereafter, the failure cause determination rule verification computer 107 accesses the failure node table 320 and calculates a failure occurrence time interval for the event block 321 corresponding to the verification failure node.

(3)境界時間tbの計算
障害原因判定ルール検証コンピュータ107は、(2)で求めた発生時間間隔の分布から、仮説「ある障害ノードに分類される障害が発生してからtb後に発生した障害がその障害ノードに分類される」が有意水準1%の確率で棄却されるような境界値である境界時間tbを、仮説検定を用いて求める。
(3) Calculation of the boundary time tb The failure cause determination rule verification computer 107 calculates the failure that occurred after tb from the occurrence of the failure classified as a certain failure node from the distribution of the occurrence time intervals obtained in (2). A hypothesis test is used to determine a boundary time tb that is a boundary value such that “is classified as a failure node” is rejected with a probability of 1% significance level.

(ステップ702)
障害原因判定ルール検証コンピュータ107は、通信装置432を介してログDB103から、日時(t0+tb)から日時(t0+Δ)までのイベントを取得する。
(Step 702)
The failure cause determination rule verification computer 107 acquires events from the date and time (t0 + tb) to the date and time (t0 + Δ) from the log DB 103 via the communication device 432.

(ステップ703)
障害原因判定ルール検証コンピュータ107は、ステップ702で取得したイベントを訓練データとして一時障害分類木を作成する。ここで、一時障害分類木は、障害原因判定ルール検証コンピュータ107で一時的に作成される障害分類木であり、登録障害分類木300と同様の方法で作成される。この一時障害分類木の場合も、障害原因判定ルールDB106と同様に、障害原因判定ルールテーブル、障害ノードテーブルが同時に作成される。作成された一時障害分類木、対応する障害原因判定ルールテーブル、障害ノードテーブルは、作業領域410に格納される。
(Step 703)
The failure cause determination rule verification computer 107 creates a temporary failure classification tree using the event acquired in step 702 as training data. Here, the temporary failure classification tree is a failure classification tree temporarily created by the failure cause determination rule verification computer 107, and is created by the same method as the registered failure classification tree 300. Also in the case of this temporary failure classification tree, a failure cause determination rule table and a failure node table are created at the same time as in the failure cause determination rule DB 106. The created temporary failure classification tree, corresponding failure cause determination rule table, and failure node table are stored in the work area 410.

(ステップ704)
障害原因判定ルール検証コンピュータ107は、検証開始日時tvsを計算する。検証開始日時tvsは、t0+Δ+tbとする。
(Step 704)
The failure cause determination rule verification computer 107 calculates the verification start date and time tvs. The verification start date and time tvs is t0 + Δ + tb.

(ステップ705)
障害原因判定ルール検証コンピュータ107は、監視対象サーバ群101内に障害を検知した監視サーバ102が送信したイベントを、通信装置432を介して受信する。
(Step 705)
The failure cause determination rule verification computer 107 receives an event transmitted from the monitoring server 102 that has detected a failure in the monitoring target server group 101 via the communication device 432.

(ステップ706)
障害原因判定ルール検証コンピュータ107は、受信したイベントの発生日時teと検証開始日時tvsとを比較する。イベントの発生日時teが検証開始日時tvs以下の場合、障害原因判定ルール検証コンピュータ107は、ステップ710を実行する。イベント発生日時teが検証開始日時tvsより大きい場合、障害原因判定ルール検証コンピュータ107は、ステップ707を実行する。
(Step 706)
The failure cause determination rule verification computer 107 compares the received event occurrence date te with the verification start date tvs. If the event occurrence date and time te is equal to or less than the verification start date and time tvs, the failure cause determination rule verification computer 107 executes step 710. If the event occurrence date and time te is greater than the verification start date and time tvs, the failure cause determination rule verification computer 107 executes step 707.

(ステップ707)
障害原因判定ルール検証コンピュータ107は、障害原因判定ルールDB106の障害原因判定ルールテーブル310内の検証対象である障害ノードに設定されている障害原因判定ルール312の有効性を検証し、必要があれば障害原因判定ルールDB106の内容を更新する。この処理内容の詳細は後述する。
(Step 707)
The failure cause determination rule verification computer 107 verifies the validity of the failure cause determination rule 312 set in the failure node to be verified in the failure cause determination rule table 310 of the failure cause determination rule DB 106, and if necessary, The contents of the failure cause determination rule DB 106 are updated. Details of this processing will be described later.

(ステップ708)
障害原因判定ルール検証コンピュータ107は、新しい検証開始日時tvsを設定する。新しい検証開始日時tvsは、次のように求める。まず、ステップ709で作成した一時障害分類木の検証障害ノードに対し、障害原因判定ルール検証コンピュータ107は、ステップ701の(2)及び(3)と同じ方法により、障害の発生時間間隔の境界時間tb’を計算する。次に、障害原因判定ルール検証コンピュータ107は、tvs+tb’を計算し、これを新しい検証開始日時tvsとする。
(Step 708)
The failure cause determination rule verification computer 107 sets a new verification start date and time tvs. The new verification start date and time tvs is obtained as follows. First, for the failure node of the temporary failure classification tree created in step 709, the failure cause determination rule verification computer 107 uses the same method as in steps 701 (2) and (3) to determine the boundary time of the failure occurrence time interval. tb 'is calculated. Next, the failure cause determination rule verification computer 107 calculates tvs + tb ′ and sets this as a new verification start date and time tvs.

(ステップ709)
障害原因判定ルール検証コンピュータ107は、作業領域412に格納されている現在の一時障害分類木の障害ノードテーブルから時間範囲(tvs−Δ〜te)に発生したイベントを取得する。次に、障害原因判定ルール検証コンピュータ107は、取得したイベントを訓練データとして新規の一時障害分類木、障害原因判定ルールテーブル及び障害ノードテーブルを作成し、作業領域412に格納する。その後、障害原因判定ルール検証コンピュータ107は、現在の一時障害分類木及び対応する障害原因判定ルールテーブル、障害ノードテーブルは削除する。
(Step 709)
The failure cause determination rule verification computer 107 acquires events that occurred in the time range (tvs−Δ to te) from the failure node table of the current temporary failure classification tree stored in the work area 412. Next, the failure cause determination rule verification computer 107 creates a new temporary failure classification tree, a failure cause determination rule table, and a failure node table using the acquired events as training data, and stores them in the work area 412. Thereafter, the failure cause determination rule verification computer 107 deletes the current temporary failure classification tree, the corresponding failure cause determination rule table, and the failure node table.

(ステップ710)
障害原因判定ルール検証コンピュータ107は、受信したイベントからイベントブロックを作成し又は更新し、一時障害分類木を更新する。同時に、障害原因判定ルール検証コンピュータ107は、この一時障害分類木に対応する障害原因判定ルールテーブル及び障害ノードテーブルも更新する。
(Step 710)
The failure cause determination rule verification computer 107 creates or updates an event block from the received event, and updates the temporary failure classification tree. At the same time, the failure cause determination rule verification computer 107 also updates the failure cause determination rule table and the failure node table corresponding to this temporary failure classification tree.

(検証プロセスの詳細動作)
次に、図7−2に示す検証・更新プロセスの詳細動作を説明する。
(ステップ750)
障害原因判定ルール検証コンピュータ107は、一時障害分類木と障害原因判定ルールDB106の登録障害分類木300とを比較する。すなわち、一時的に生成した分類木と運用中の分類木を比較する。両分類木の構成が一致している場合、障害原因判定ルール検証コンピュータ107はステップ760を実行する。一方、不一致の場合、障害原因判定ルール検証コンピュータ107はステップ770を実行する。登録障害分類木と一時障害分類木との対応づけは、次のように行う。登録障害分類木作成時に訓練データとして使用した障害のイベントブロックを、登録分類木と一時障害分類木の両方で分類する。同じイベントブロックが分類された登録分類木の障害ノードと一時障害分類木の障害ノードとを対応する障害ノードとする。これにより、登録障害分類木の障害ノードが、一時障害分類木のどの障害ノードに対応しているかを判断できる。
(Detailed operation of the verification process)
Next, the detailed operation of the verification / update process shown in FIG.
(Step 750)
The failure cause determination rule verification computer 107 compares the temporary failure classification tree with the registered failure classification tree 300 of the failure cause determination rule DB 106. That is, the temporarily generated classification tree is compared with the classification tree in operation. If the configurations of the two classification trees match, the failure cause determination rule verification computer 107 executes step 760. On the other hand, if they do not match, the failure cause determination rule verification computer 107 executes step 770. Correspondence between the registered fault classification tree and the temporary fault classification tree is performed as follows. The failure event blocks used as training data when creating the registered failure classification tree are classified by both the registered classification tree and the temporary failure classification tree. The failure node corresponding to the failure node in the registered classification tree and the temporary failure classification tree in which the same event block is classified is set as the corresponding failure node. As a result, it is possible to determine which fault node in the temporary fault classification tree corresponds to the fault node in the registered fault classification tree.

(ステップ760)
障害原因判定ルール検証コンピュータ107は、一時障害分類木の検証障害ノードに、登録障害分類木の対応する障害ノードにない新しい障害が分類されているか否か判定する。一時障害分類木のみに存在する障害が存在しない場合、障害原因判定ルール検証コンピュータ107はステップ761を実行する。一方、一時障害分類木にのみ存在する障害が存在する場合、障害原因判定ルール検証コンピュータ107はステップ762を実行する。
(Step 760)
The failure cause determination rule verification computer 107 determines whether or not a new failure that does not exist in the corresponding failure node of the registered failure classification tree is classified into the verification failure node of the temporary failure classification tree. If there is no failure that exists only in the temporary failure classification tree, the failure cause determination rule verification computer 107 executes step 761. On the other hand, if there is a fault that exists only in the temporary fault classification tree, the fault cause determination rule verification computer 107 executes step 762.

(ステップ761)
障害原因判定ルール検証コンピュータ107は、障害原因判定ルールDB106を更新する。すなわち、障害原因判定ルール検証コンピュータ107は、障害原因判定ルールテーブル310から検証障害ノードに対応する障害原因判定ルールを削除する。なお、ここでの一時障害分類木は、登録障害分類木が作成されてから時間間隔の境界時間tb以降に作成されたものである。従って、同じ障害ノードに分類される障害が発生しなければ、今後この障害ノードに分類される障害は発生しないと判断できる。このため、検証障害ノードに設定された障害原因判定ルールを削除しても問題ない。
(Step 761)
The failure cause determination rule verification computer 107 updates the failure cause determination rule DB 106. That is, the failure cause determination rule verification computer 107 deletes the failure cause determination rule corresponding to the verification failure node from the failure cause determination rule table 310. Note that the temporary failure classification tree here is created after the boundary time tb of the time interval after the registered failure classification tree is created. Therefore, if a failure classified into the same failure node does not occur, it can be determined that a failure classified as this failure node will not occur in the future. For this reason, there is no problem even if the failure cause determination rule set in the verification failure node is deleted.

(ステップ762)
障害原因判定ルール検証コンピュータ107は、一時障害分類木の検証障害ノードに対する障害原因判定ルールをステップ501の(2)及び(3)で記述した方法で生成する。障害原因判定ルール検証コンピュータ107は、生成した一時障害分類木の検証障害ノードの障害原因判定ルールと、障害原因判定ルールテーブル310の障害原因判定ルールを比較し、一致していない場合はステップ763を実行する。
(Step 762)
The failure cause determination rule verification computer 107 generates a failure cause determination rule for the verification failure node of the temporary failure classification tree by the method described in steps 501 (2) and (3). The failure cause determination rule verification computer 107 compares the generated failure cause verification rule of the temporary failure classification tree with the failure cause determination rule of the failure cause determination rule table 310. If they do not match, step 763 is performed. Run.

(ステップ763)
障害原因判定ルール検証コンピュータ107は、障害原因判定ルールDB106を更新する。すなわち、障害原因判定ルール検証コンピュータ107は、検証障害ノードに設定された障害原因判定ルールを、ステップ762で作成された障害原因判定ルールに置き換える。
(Step 763)
The failure cause determination rule verification computer 107 updates the failure cause determination rule DB 106. That is, the failure cause determination rule verification computer 107 replaces the failure cause determination rule set in the verification failure node with the failure cause determination rule created in step 762.

図8−1及び図8−2は、障害原因判定ルールの更新処理を説明した図である。図8−1の(1)は2009年1月から3月に発生したイベントから作成した登録障害分類木800であり、検証対象である「障害ノード1−1」801に対して、図8−2の(A−1)の障害原因判定ルール820が設定されている。図8−1の(2)は2009年10月から12月に発生したイベントから作成した一時分類木810であり、この「障害ノード1−1’」811に対して、図8−2の(B−1)の障害原因判定ルール830が生成された。このとき、登録分類木800と一時分類810の構成は一致している。さらに「障害ノード1−1」に分類される2009年1月から3月に発生したイベントから作成したイベントブロックは全て一時障害分類木810に分類され、「障害ノード1−1」811’と「障害ノード1−1’」811とが対応しているとする。   FIGS. 8A and 8B are diagrams illustrating the failure cause determination rule update process. (1) in FIG. 8A is a registered failure classification tree 800 created from events that occurred from January to March 2009. For the “failure node 1-1” 801 to be verified, FIG. 2 (A-1) failure cause determination rule 820 is set. (2) in FIG. 8A is a temporary classification tree 810 created from an event that occurred from October to December 2009. This “failure node 1-1 ′” 811 is shown in FIG. The failure cause determination rule 830 of B-1) is generated. At this time, the configurations of the registered classification tree 800 and the temporary classification 810 are the same. Further, all event blocks created from events generated from January to March 2009 classified as “failure node 1-1” are classified into temporary failure classification tree 810, “failure node 1-1” 811 ′ and “ It is assumed that the failure node 1-1 ′ ”811 corresponds.

このとき、「障害ノード1−1」801の障害原因判定ルール820と、「障害ノード1−1’」811の障害原因判定ルール830とを比較すると、2番目の判定イベントの属性「コンピュータ」の属性値が、「障害ノード1−1」では「server8」821であるのに対し、「障害ノード1−1’」では「server25」であり異なっている。以上の場合、障害原因判定ルールテーブル310に登録されている「障害ノード1−1」801の障害原因判定ルール820を、「障害ノード1−1’」811の障害原因判定ルール830で置換する。関連して障害ノードテーブル320も更新される。   At this time, when the failure cause determination rule 820 of the “failure node 1-1” 801 and the failure cause determination rule 830 of the “failure node 1-1 ′” 811 are compared, the attribute “computer” of the second determination event The attribute value is “server8” 821 for “failure node 1-1”, whereas “server25” is different for “failure node 1-1 ′”. In the above case, the failure cause determination rule 820 of “failure node 1-1” 801 registered in the failure cause determination rule table 310 is replaced with the failure cause determination rule 830 of “failure node 1-1 ′” 811. In association with this, the failure node table 320 is also updated.

(ステップ770)
障害原因判定ルール検証コンピュータ107は、一時障害分類木と登録障害分類木との差分を求める。一時障害分類木に登録障害分類木300にない障害ノードが存在する場合、障害原因判定ルール検証コンピュータ107は、ステップ771を実行する。登録障害分類木300に存在していた障害ノードが一時障害分類木には存在しない場合、障害原因判定ルール検証コンピュータ107は、ステップ772を実行する。登録障害分類木300に存在していた複数の障害ノードが一時障害分類木では一つの障害ノードにまとめられている場合、障害原因判定ルール検証コンピュータ107は、ステップ773を実行する。登録障害分類木300では一つの障害ノードが一時障害分類木では複数の障害ノードに分割された場合、障害原因判定ルール検証コンピュータ107は、ステップ774を実行する。
(Step 770)
The failure cause determination rule verification computer 107 obtains a difference between the temporary failure classification tree and the registered failure classification tree. If there is a failure node that is not in the registered failure classification tree 300 in the temporary failure classification tree, the failure cause determination rule verification computer 107 executes step 771. If the failure node that existed in the registered failure classification tree 300 does not exist in the temporary failure classification tree, the failure cause determination rule verification computer 107 executes Step 772. When a plurality of failure nodes existing in the registered failure classification tree 300 are grouped into one failure node in the temporary failure classification tree, the failure cause determination rule verification computer 107 executes step 773. When one failure node in the registered failure classification tree 300 is divided into a plurality of failure nodes in the temporary failure classification tree, the failure cause determination rule verification computer 107 executes step 774.

(ステップ771)
障害原因判定ルール検証コンピュータ107は、障害原因判定ルールDB106を更新する。すなわち、障害原因判定ルール検証コンピュータ107は、一時障害分類木に追加された新規の障害ノードに対してステップ501の(2)及び(3)の手順で障害原因判定ルールを作成し、作成された障害原因判定ルールを障害原因判定ルールテーブル310に追加する。
(Step 771)
The failure cause determination rule verification computer 107 updates the failure cause determination rule DB 106. That is, the failure cause determination rule verification computer 107 creates a failure cause determination rule for the new failure node added to the temporary failure classification tree according to the steps (2) and (3) of step 501. The failure cause determination rule is added to the failure cause determination rule table 310.

図9は、障害原因判定ルールの追加処理を説明した図である。図9の(1)は2009年1月から3月に発生したイベントから作成した登録障害分類木900であり、図9の(2)は2009年10月から12月に発生したイベントから作成した一時障害分類木910である。登録障害分類木900と一時障害分類木910とを比較すると、登録障害分類木900には存在しないが、一時障害分類木910には「障害ノード3’」911が存在することが分かる。   FIG. 9 is a diagram for explaining failure cause determination rule addition processing. (1) in FIG. 9 is a registered failure classification tree 900 created from events that occurred from January to March 2009, and (2) in FIG. 9 was created from events that occurred from October to December 2009. This is a temporary failure classification tree 910. Comparing the registered failure classification tree 900 and the temporary failure classification tree 910, it can be seen that the registered failure classification tree 900 does not exist, but the temporary failure classification tree 910 includes the “failure node 3 '” 911.

このとき、障害原因判定ルール検証コンピュータ107は、「障害ノード3’」911に対して障害原因判定ルールを作成し、障害原因判定ルールテーブル310に登録する。この登録に関連して、障害原因判定ルール検証コンピュータ107は、登録障害分類木300と障害ノードテーブル320も更新する。   At this time, the failure cause determination rule verification computer 107 creates a failure cause determination rule for the “failure node 3 ′” 911 and registers it in the failure cause determination rule table 310. In connection with this registration, the failure cause determination rule verification computer 107 also updates the registered failure classification tree 300 and the failure node table 320.

(ステップ772)
障害原因判定ルール検証コンピュータ107は、障害原因判定ルールDB106を更新する。すなわち、障害原因判定ルール検証コンピュータ107は、一時障害分類木には存在しないが、登録障害分類木300の検証障害ノード311には設定されている障害原因判定ルールテーブル310の障害原因判定ルール312を削除する。
(Step 772)
The failure cause determination rule verification computer 107 updates the failure cause determination rule DB 106. That is, the failure cause determination rule verification computer 107 does not exist in the temporary failure classification tree, but the failure cause determination rule 312 of the failure cause determination rule table 310 set in the verification failure node 311 of the registered failure classification tree 300 is displayed. delete.

図10は、障害原因判定ルールの削除処理を説明した図である。図10の(1)は2009年1月から3月に発生したイベントから作成した登録障害分類木1000であり、図10の(2)は2009年10月から12月に発生したイベントから作成した一時障害分類木1010である。登録障害分類木1000と一時障害分類木1010とを比較すると、登録障害分類木1000に存在した障害ノード1001は、一時障害分類木1010では無くなっていることが分かる。   FIG. 10 is a diagram for explaining a failure cause determination rule deletion process. (1) in FIG. 10 is a registered failure classification tree 1000 created from events that occurred from January to March 2009, and (2) in FIG. 10 was created from events that occurred from October to December 2009. This is a temporary failure classification tree 1010. Comparing the registered fault classification tree 1000 and the temporary fault classification tree 1010, it can be seen that the fault node 1001 existing in the registered fault classification tree 1000 is not the temporary fault classification tree 1010.

このとき、障害原因判定ルール検証コンピュータ107は、「障害ノード2」1001に設定されていた障害原因判定ルールを、障害原因判定ルールテーブル310から削除する。この削除に関連し、障害原因判定ルール検証コンピュータ107は、登録障害分類木300及び障害ノードテーブル320も更新する。   At this time, the failure cause determination rule verification computer 107 deletes the failure cause determination rule set in the “failure node 2” 1001 from the failure cause determination rule table 310. In connection with this deletion, the failure cause determination rule verification computer 107 also updates the registered failure classification tree 300 and the failure node table 320.

(ステップ773)
障害原因判定ルール検証コンピュータ107は、障害原因判定ルールDB106を更新する。すなわち、障害原因判定ルール検証コンピュータ107は、統合される登録障害分類木300の複数の障害ノードに設定されていた障害原因判定ルール312を、障害原因判定ルールテーブル310から削除する。さらに、障害原因判定ルール検証コンピュータ107は、一時障害分類木の統合された障害ノードに対してステップ501の(2)及び(3)の手順で障害原因判定ルールを作成し、障害原因判定ルールテーブル310に追加する。ただし、作成した一時障害分類木の障害ノードの障害原因判定ルールの復旧手順書は、実績のある登録障害分類木300の障害ノード311に設定されていた障害原因判定ルール312の復旧手順315を活用する。
(Step 773)
The failure cause determination rule verification computer 107 updates the failure cause determination rule DB 106. That is, the failure cause determination rule verification computer 107 deletes the failure cause determination rule 312 set in the plurality of failure nodes of the registered failure classification tree 300 to be integrated from the failure cause determination rule table 310. Further, the failure cause determination rule verification computer 107 creates a failure cause determination rule for the failure node integrated with the temporary failure classification tree by the steps (2) and (3) in step 501, and the failure cause determination rule table Add to 310. However, the recovery procedure manual for the failure cause determination rule of the failure node of the created temporary failure classification tree utilizes the recovery procedure 315 of the failure cause determination rule 312 set in the failure node 311 of the registered failure classification tree 300 with a proven record. To do.

図11−1及び図11−2は、障害原因判定ルールの統合処理を説明した図である。図11−1の(1)は2009年1月から3月に発生したイベントから作成した登録障害分類木1100であり、図11−1の(2)は2009年10月から12月に発生したイベントから作成した一時障害分類木1110である。2009年1月から3月に発生したイベントから作成したイベントブロックは、「障害ノード1−1」1101に10個、「障害ノード1−2」1102に5個分類されている。これら15個のイベントブロックを一時障害分類木1101で分類すると、15個全てのイベントブロックが「障害ノード1’」1101に分類されている。すなわち、「障害ノード1−1」と「障害ノード1−2」が統合されて「障害ノード1’」になっている。「障害ノード1−1」1101及び「障害ノード1−2」1102に設定されている障害原因判定ルールは、それぞれ図11−2の(A−1)の1120及び図11−2の(A−2)の1021に対応する。   FIGS. 11A and 11B are diagrams illustrating the failure cause determination rule integration processing. (1) in FIG. 11-1 is a registered failure classification tree 1100 created from an event that occurred from January to March 2009, and (2) in FIG. 11-1 occurred from October to December 2009. A temporary failure classification tree 1110 created from an event. The event blocks created from the events that occurred from January to March 2009 are classified into “failed node 1-1” 1101 and five “failed node 1-2” 1102. When these 15 event blocks are classified by the temporary failure classification tree 1101, all 15 event blocks are classified as “failure node 1 ′” 1101. That is, “failure node 1-1” and “failure node 1-2” are integrated into “failure node 1 ′”. The failure cause determination rules set in the “failure node 1-1” 1101 and the “failure node 1-2” 1102 are respectively 1120 in FIG. 11-2 (A-1) and (A- in FIG. 11-2). This corresponds to 1021 of 2).

また、障害原因判定ルール検証コンピュータ107は、2009年10月から12月に発生したイベントから「障害ノード1’」1111の障害原因判定ルール1130を作成する。ただし、障害原因判定ルール1030の復旧手順書1031には、より多くのイベントブロックが分類され、かつ、実績のあった「障害ノード1−1」に対応する障害原因判定ルール1020の復旧手順書1021を採用する。   Further, the failure cause determination rule verification computer 107 creates a failure cause determination rule 1130 of “failure node 1 ′” 1111 from events that occurred from October to December 2009. However, in the recovery procedure manual 1031 of the failure cause determination rule 1030, more event blocks are classified and the recovery procedure manual 1021 of the failure cause determination rule 1020 corresponding to the “failed node 1-1” that has been proven. Is adopted.

このとき、障害原因判定ルールテーブル310からは「障害ノード1−1」1101及び「障害ノード1−2」1102に対応する障害原因判定ルール1120及び1130を削除し、新たに作成された「障害ノード1’」の障害原因判定ルール1030を追加する。関連して登録障害分類木300及びイベントブロックテーブル320も更新する。   At this time, the failure cause determination rules 1120 and 1130 corresponding to the “failure node 1-1” 1101 and “failure node 1-2” 1102 are deleted from the failure cause determination rule table 310, and the newly created “failure node” 1 ′ ”failure cause determination rule 1030 is added. In association with this, the registered failure classification tree 300 and the event block table 320 are also updated.

(ステップ774)
障害原因判定ルール検証コンピュータ107は、障害原因判定ルールDB106を更新する。すなわち、障害原因判定ルール検証コンピュータ107は、分割される登録障害分類木300の障害ノードに設定されていた障害原因判定ルール312を、障害原因判定ルールテーブル310から削除する。さらに、障害原因判定ルール検証コンピュータ107は、一時障害原因分類木の分割された複数の障害ノードに対してステップ501の(2)及び(3)の手順で障害原因判定ルールを作成し、障害原因判定ルールテーブル310に追加する。ただし、作成した一時障害分類木の障害ノードの障害原因判定ルールの復旧手順書は、実績のある登録分類木300の障害ノード311について設定されていた障害原因判定ルール312の復旧手順書315を活用する。
(Step 774)
The failure cause determination rule verification computer 107 updates the failure cause determination rule DB 106. That is, the failure cause determination rule verification computer 107 deletes the failure cause determination rule 312 set in the failure node of the registered failure classification tree 300 to be divided from the failure cause determination rule table 310. Further, the failure cause determination rule verification computer 107 creates a failure cause determination rule for the plurality of failure nodes divided in the temporary failure cause classification tree by the steps (2) and (3) in step 501, and the failure cause It adds to the judgment rule table 310. However, the recovery procedure manual of the failure cause determination rule of the failure node of the created temporary failure classification tree utilizes the recovery procedure manual 315 of the failure cause determination rule 312 set for the failure node 311 of the registered classification tree 300 with a proven record. To do.

図12−1及び図12−2は、障害原因判定ルールの分割処理を説明した図である。図12−1の(1)は2009年1月から3月に発生したイベントから作成した登録障害分類木1200であり、図12−1の(2)は2009年10月から12月に発生したイベントから作成した一時障害分類木1210である。2009年1月から3月に発生したイベントから作成したイベントブロックのうち10個が「障害ノード1−1」1201に分類されている。一時障害分類木1210では、これら10個のイベントブロックのうちの6個が「障害ノード1−1−1’」1211に、4個が「障害ノード1−1−2’」1212に分類される。「障害ノード1−1」1201に設定されている障害原因判定ルールは、図12−2の(A−1)の1220であり、2009年10月から12月に発生したイベントから生成した「障害ノード1−1−1’」1211及び「障害ノード1−1−2’」1212の障害原因判定ルールは、それぞれ図12−2の(B−1)の1221及び図12−2の(B−2)の1231である。ただし、「障害ノード1−1」1201に分類されたイベントブロックがより多く分類された「障害ノード1−1−1’」1211の障害原因判定ルール1221の属性「復旧手順書」に「障害ノード1−1」1201の障害原因判定ルール1120の属性「復旧手順書」で指定された実績のある障害復旧手順書を割り当てる。   12A and 12B are diagrams for explaining the failure cause determination rule division processing. (1) in FIG. 12-1 is a registered failure classification tree 1200 created from an event that occurred from January to March 2009, and (2) in FIG. 12-1 occurred from October to December 2009. A temporary failure classification tree 1210 created from an event. Of the event blocks created from events that occurred from January to March 2009, 10 are classified as “failed node 1-1” 1201. In the temporary failure classification tree 1210, 6 of these 10 event blocks are classified as “failure node 1-1-1 ′” 1211 and 4 are classified as “failure node 1-1-2 ′” 1212. . The failure cause determination rule set in the “failure node 1-1” 1201 is 1220 of (A-1) in FIG. 12-2, and “failure generated from an event that occurred from October to December 2009”. The failure cause determination rules of the node 1-1-1 ′ ”1211 and the“ failure node 1-1-2 ′ ”1212 are respectively 1221 in FIG. 12-2 (B-1) and 12B in FIG. 2) of 1231. However, in the attribute “recovery procedure” of the failure cause determination rule 1221 of “failure node 1-1-1 ′” 1211 in which more event blocks classified as “failure node 1-1” 1201 are classified, “failure node” 1-1 "1201 failure cause determination rule 1120 is assigned a proven failure recovery procedure document specified by the attribute" recovery procedure document ".

このとき、障害原因判定ルール検証コンピュータ107は、障害原因判定ルールテーブル310から「障害ノード1−1」1201に対応する障害原因判定ルール1220を削除し、「障害ノード1−1−1’」1211及び「障害ノード1−1−2’」1212に対応する障害原因判定ルール1221と1231を追加する。関連して登録障害分類木300及びイベントブロックテーブル320も更新する。   At this time, the failure cause determination rule verification computer 107 deletes the failure cause determination rule 1220 corresponding to the “failure node 1-1” 1201 from the failure cause determination rule table 310, and “failure node 1-1-1 ′” 1211. And failure cause determination rules 1221 and 1231 corresponding to “failure node 1-1-2 ′” 1212 are added. In association with this, the registered failure classification tree 300 and the event block table 320 are also updated.

101…監視対象サーバ群
102…監視サーバ
103…ログデータベース(DB)
104…障害原因判定ルール生成コンピュータ
105…障害原因解析コンピュータ
106…障害原因判定ルールDB
107…障害原因判定ルール検証コンピュータ
108…復旧手順書データベース(DB)
109…復旧手順書閲覧コンピュータ
101 ... Monitoring target server group 102 ... Monitoring server 103 ... Log database (DB)
104 ... Failure cause determination rule generation computer 105 ... Failure cause analysis computer 106 ... Failure cause determination rule DB
107 ... Failure cause determination rule verification computer 108 ... Recovery procedure manual database (DB)
109 ... Recovery procedure manual browsing computer

Claims (10)

システム障害の発生時、監視対象であるサーバ群の状態に基づいて監視サーバが生成したイベントを取得する第一の処理部と、
予め設定しておいた時間窓内に発生したイベントを障害別に分類し、一時障害分類木を生成する第二の処理部と、
運用中の障害原因判定ルールに対応する登録障害分類木と一時障害分類木とを比較する第三の処理部と、
前記登録障害分類木と前記一時障害分類木の間の差分に基づいて、運用中の前記障害原因判定ルールを更新する第四の処理部と
を有する障害原因判定ルール検証装置。
A first processing unit that acquires an event generated by a monitoring server based on a status of a server group to be monitored when a system failure occurs;
A second processing unit that classifies events that occur within a preset time window by failure and generates a temporary failure classification tree;
A third processing unit that compares the registered failure classification tree corresponding to the failure cause determination rule in operation with the temporary failure classification tree;
A failure cause determination rule verification device comprising: a fourth processing unit that updates the failure cause determination rule in operation based on a difference between the registered failure classification tree and the temporary failure classification tree.
前記第二の処理部は、
一時障害分類木を作成する時間窓を、
登録障害分類木内の検証対象の障害ノードに分類されている障害の出現間隔時間の統計量に基づき、当該時間内に同じ障害ノードに分類される障害が発生しないならば、今後同様の障害が発生しないと判断できる時間間隔の境界時間として計算する
ことを特徴とする請求項1記載の障害原因判定ルール検証装置。
The second processing unit is
A time window for creating a temporary fault classification tree,
Based on the statistics of the appearance interval time of failures classified as failure nodes to be verified in the registered failure classification tree, if no failures classified into the same failure node occur within that time, similar failures will occur in the future. The failure cause determination rule verification device according to claim 1, wherein the failure cause determination rule verification device is calculated as a boundary time of a time interval in which it can be determined that no failure occurs.
前記第三の処理部は、
登録障害分類木の訓練データとして使用したイベントブロックを、登録障害分類木と一時障害分類木のそれぞれについて分類した場合における同一イベントブロックの各分類先に該当する登録障害分類木の障害ノードと一時障害分類木の障害ノードとの比較により、登録障害分類木と一時障害分類木との間の前記比較を実行する
ことを特徴とする請求項1に記載の障害原因判定ルール検証装置。
The third processing unit includes:
Failure node and temporary failure corresponding to each classification destination of the same event block when the event block used as training data for the registered failure classification tree is classified for each of the registered failure classification tree and the temporary failure classification tree The failure cause determination rule verification device according to claim 1, wherein the comparison between the registered failure classification tree and the temporary failure classification tree is performed by comparison with a failure node of the classification tree.
前記第四の処理部は、
前記一時障害分類木の障害ノードから生成される障害原因判定ルールと運用中の前記障害原因判定ルールの間の差分に基づいて、運用中の前記障害原因判定ルールを更新する機能を更に有し、
運用中の障害原因判定ルールを設定するのに用いた登録障害分類木の障害ノードに対応する一時障害分類木の障害ノードに対して障害原因判定ルールを作成した場合にあって、両ルール間に違いが検出されたとき、
運用中の前記障害原因判定ルールを、一時障害分類木の障害ノードに対して作成した障害原因判定ルールによって置換する
ことを特徴とする請求項1に記載の障害原因判定ルール検証装置。
The fourth processing unit includes:
Based on the difference between the failure cause determination rule generated from the failure node of the temporary failure classification tree and the failure cause determination rule in operation, further has a function of updating the failure cause determination rule in operation,
When a failure cause determination rule is created for a failure node in the temporary failure classification tree corresponding to the failure node in the registered failure classification tree used to set the failure cause determination rule in operation. When a difference is detected,
The failure cause determination rule verification apparatus according to claim 1, wherein the failure cause determination rule in operation is replaced with a failure cause determination rule created for a failure node in a temporary failure classification tree.
前記第四の処理部は、
運用中の障害原因判定ルールに対応する登録障害分類木に存在しない障害ノードが一時障害分類木には存在する場合、
当該一時障害分類木にのみ存在する障害ノードに対する障害原因判定ルールを作成し、運用中の障害原因判定ルールに追加登録する
ことを特徴とする請求項1に記載の障害原因判定ルール検証装置。
The fourth processing unit includes:
If there is a failure node in the temporary failure classification tree that does not exist in the registered failure classification tree corresponding to the failure cause determination rule in operation,
The failure cause determination rule verification apparatus according to claim 1, wherein a failure cause determination rule for a failure node existing only in the temporary failure classification tree is created and additionally registered in a failure cause determination rule in operation.
前記第四の処理部は、
登録障害分類木内の検証対象の障害ノードに分類されている障害の出現間隔時間の統計量に基づき、当該時間内に同じ障害ノードに分類される障害が発生しないならば、今後同様の障害が発生しないと判断できる時間間隔の境界時間を経過しても、検証対象の障害ノードに分類される障害が発生しない場合、
当該障害ノードに対して設定されている障害原因判定ルールを、運用中の障害原因判定ルールから削除する
ことを特徴とする請求項1に記載の障害原因判定ルール検証装置。
The fourth processing unit includes:
Based on the statistics of the appearance interval time of failures classified as failure nodes to be verified in the registered failure classification tree, if no failures classified into the same failure node occur within that time, similar failures will occur in the future. If a failure that is classified as a failed node to be verified does not occur even after the boundary time of the time interval that can be determined not to have passed,
The failure cause determination rule verification device according to claim 1, wherein the failure cause determination rule set for the failure node is deleted from the failure cause determination rule in operation.
前記第四の処理部は、
運用中の障害原因判定ルールに対応する登録障害分類木に存在した障害ノードが一時障害分類木には存在しない場合、
当該登録障害分類木にのみ存在する障害ノードに対して設定されている障害原因判定ルールを、運用中の障害原因判定ルールから削除する
ことを特徴とする請求項1に記載の障害原因判定ルール検証装置。
The fourth processing unit includes:
If the failure node that existed in the registered failure classification tree corresponding to the failure cause determination rule in operation does not exist in the temporary failure classification tree,
The failure cause determination rule verification according to claim 1, wherein the failure cause determination rule set for the failure node existing only in the registered failure classification tree is deleted from the failure cause determination rule in operation. apparatus.
前記第四の処理部は、
運用中の障害原因判定ルールに対応する登録障害分類木では複数の障害ノードに分類されていたものが、一時障害分類木では1つの障害ノードに分類されている場合、
登録障害分類木の複数の障害ノードに設定されていた障害原因判定ルールを運用中の障害原因判定ルールから削除すると共に、一時障害分類木の障害ノードに対して作成した障害原因判定ルールを運用中の障害原因判定ルールに追加登録する
ことを特徴とする請求項1に記載の障害原因判定ルール検証装置。
The fourth processing unit includes:
If the registered failure classification tree corresponding to the failure cause determination rule in operation is classified into a plurality of failure nodes, but is temporarily classified into one failure node in the temporary failure classification tree,
The failure cause determination rule set for multiple failure nodes in the registered failure classification tree is deleted from the failure cause determination rule in operation, and the failure cause determination rule created for the failure node in the temporary failure classification tree is in operation The failure cause determination rule verification device according to claim 1, wherein the failure cause determination rule is additionally registered.
前記第四の処理部は、
運用中の障害原因判定ルールに対応する登録障害分類木では一つの障害ノードに分類されていたものが、一時障害分類木では複数の障害ノードに分割されていた場合、
登録障害分類木の障害ノードに設定されていた障害原因判定ルールを運用中の障害原因判定ルールから削除すると共に、一時障害分類木で対応する複数の障害ノードのそれぞれについて作成さした各障害原因判定ルールを障害原因判定ルールに追加登録する
ことを特徴とする請求項1に記載の障害原因判定ルール検証装置。
The fourth processing unit includes:
If the registered failure classification tree corresponding to the failure cause determination rule in operation is divided into one failure node, but temporarily divided into multiple failure nodes in the temporary failure classification tree,
The failure cause determination rule set for the failure node in the registered failure classification tree is deleted from the operating failure cause determination rule, and each failure cause determination created for each of the corresponding failure nodes in the temporary failure classification tree The failure cause determination rule verification device according to claim 1, wherein the rule is additionally registered in a failure cause determination rule.
障害原因判定ルール検証装置として機能するコンピュータに、
システム障害の発生時、監視対象であるサーバ群の状態に基づいて監視サーバが生成したイベントを取得する第一の処理と、
予め設定しておいた時間窓内に発生したイベントを障害別に分類し、一時障害分類木を生成する第二の処理と、
運用中の障害原因判定ルールに対応する登録障害分類木と一時障害分類木とを比較する第三の処理と、
前記登録障害分類木と前記一時障害分類木の間の差分に基づいて、運用中の前記障害原因判定ルールを更新する第四の処理と
を実行させるコンピュータプログラム。
In the computer that functions as the failure cause determination rule verification device,
A first process for acquiring an event generated by a monitoring server based on a status of a server group to be monitored when a system failure occurs;
A second process for classifying events that occurred within a preset time window by fault and generating a temporary fault classification tree;
A third process for comparing the registered failure classification tree corresponding to the failure cause determination rule in operation and the temporary failure classification tree;
A computer program for executing a fourth process of updating the failure cause determination rule in operation based on a difference between the registered failure classification tree and the temporary failure classification tree.
JP2010136300A 2010-06-15 2010-06-15 Failure cause determination rule verification device and program Expired - Fee Related JP5651381B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010136300A JP5651381B2 (en) 2010-06-15 2010-06-15 Failure cause determination rule verification device and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010136300A JP5651381B2 (en) 2010-06-15 2010-06-15 Failure cause determination rule verification device and program

Publications (2)

Publication Number Publication Date
JP2012003406A JP2012003406A (en) 2012-01-05
JP5651381B2 true JP5651381B2 (en) 2015-01-14

Family

ID=45535332

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010136300A Expired - Fee Related JP5651381B2 (en) 2010-06-15 2010-06-15 Failure cause determination rule verification device and program

Country Status (1)

Country Link
JP (1) JP5651381B2 (en)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013121529A1 (en) * 2012-02-14 2013-08-22 株式会社日立製作所 Computer program and monitoring device
WO2014141460A1 (en) * 2013-03-15 2014-09-18 株式会社日立製作所 Management system
WO2016120989A1 (en) * 2015-01-27 2016-08-04 株式会社日立製作所 Management computer and rule test method
JP2017146810A (en) * 2016-02-18 2017-08-24 株式会社日立製作所 Action identification system and action identification method
WO2021250873A1 (en) * 2020-06-12 2021-12-16 日本電信電話株式会社 Rule generation device, rule generation method, and program
JP7369219B2 (en) * 2022-02-04 2023-10-25 株式会社日立製作所 Operation management device and method
CN115619292B (en) * 2022-12-19 2023-03-21 云账户技术(天津)有限公司 Method and device for problem management

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4924408A (en) * 1988-08-19 1990-05-08 International Business Machines Corporation Technique for compilation of knowledge bases
JPH03145846A (en) * 1989-11-01 1991-06-21 Hitachi Ltd Fault diagnostic method
JPH03269629A (en) * 1990-03-19 1991-12-02 Nippon Telegr & Teleph Corp <Ntt> Knowledge reflinement processing system using example
JPH06187158A (en) * 1992-12-21 1994-07-08 Mitsubishi Electric Corp Knowledge reflection type abnormality diagnostic device
JPH0973315A (en) * 1995-09-07 1997-03-18 Mitsubishi Electric Corp Equipment failure diagnostic device
JP3266126B2 (en) * 1999-01-14 2002-03-18 日本電気株式会社 Network fault information management system and storage medium
JP2003228485A (en) * 2002-02-06 2003-08-15 Kawasaki Heavy Ind Ltd Diagnosis rule structuring method based on failure mode analysis, diagnosis rule creating program, and failure diagnosis device
JP4746850B2 (en) * 2004-06-21 2011-08-10 富士通株式会社 Pattern generation program

Also Published As

Publication number Publication date
JP2012003406A (en) 2012-01-05

Similar Documents

Publication Publication Date Title
JP5651381B2 (en) Failure cause determination rule verification device and program
US20200097466A1 (en) Method and system for implementing target model configuration metadata for a log analytics system
JP6919569B2 (en) Log analysis systems, methods, and recording media
US9411673B2 (en) Management server, management system, and management method
US20160124792A1 (en) Fault analysis apparatus, fault analysis method, and recording medium
US11727025B2 (en) Method and system for implementing a log parser in a log analytics system
US7509539B1 (en) Method for determining correlation of synchronized event logs corresponding to abnormal program termination
CN106209405B (en) Method for diagnosing faults and device
WO2016161381A1 (en) Method and system for implementing a log parser in a log analytics system
JP5514643B2 (en) Failure cause determination rule change detection device and program
JP2014215883A (en) Classification method for system log, program and system
US20200241947A1 (en) Management system of storage system
JP2012094046A (en) Device fault analysis apparatus, device fault analysis method and device fault analysis program
JPWO2011055436A1 (en) Operation management apparatus and operation management method
US20170228265A1 (en) Log analysis apparatus, log analysis system, log analysis method and computer program
JP5798095B2 (en) Log generation rule creation device and method
JP5395719B2 (en) Rule generation device and program for failure cause analysis system
JP4928848B2 (en) Message converter in computer system integrated management environment.
JP5417264B2 (en) Method of providing analysis information
JP2003216457A (en) Error log collecting and analyzing agent system
JP5295062B2 (en) Automatic query generation device for complex event processing
JP2018081403A (en) Incident management system, incident management method and computer program
JP2011107742A (en) Operation management device, operation management method, and program
JP5735326B2 (en) IT failure detection / retrieval device and program
JP2011118575A (en) Failure countermeasure information acquisition method and management server

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140304

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140424

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141028

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141117

R150 Certificate of patent or registration of utility model

Ref document number: 5651381

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees