JP2011209908A - Rule creation device in failure cause analysis system and its program - Google Patents

Rule creation device in failure cause analysis system and its program Download PDF

Info

Publication number
JP2011209908A
JP2011209908A JP2010075802A JP2010075802A JP2011209908A JP 2011209908 A JP2011209908 A JP 2011209908A JP 2010075802 A JP2010075802 A JP 2010075802A JP 2010075802 A JP2010075802 A JP 2010075802A JP 2011209908 A JP2011209908 A JP 2011209908A
Authority
JP
Japan
Prior art keywords
event
failure
failure cause
frequent
determination rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010075802A
Other languages
Japanese (ja)
Other versions
JP5395719B2 (en
Inventor
Hiroyuki Kobayashi
宏至 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Solutions Ltd
Original Assignee
Hitachi Solutions Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Solutions Ltd filed Critical Hitachi Solutions Ltd
Priority to JP2010075802A priority Critical patent/JP5395719B2/en
Publication of JP2011209908A publication Critical patent/JP2011209908A/en
Application granted granted Critical
Publication of JP5395719B2 publication Critical patent/JP5395719B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a failure cause analysis system that creates a complete failure cause determination rule including an action phrase from an event log, which can be commonly applied to system failures having the same cause.SOLUTION: The rule creation device in a failure cause analysis system is configured to extract features from a plurality of events which have occurred in a system failure, to cluster the failures based on the features, to create a conditional phrase of a failure cause determination rule from the events when the failures occurred from the same cause included in the same failure cluster, to extract a retrieval keyword from the created conditional phrase, to retrieve a recovery procedure corresponding to the failure cluster, and to combine an action phrase defined as the retrieved recovery procedure with the created conditional phrase to create a complete failure cause determination rule.

Description

本発明は、障害原因解析システムに利用される障害原因判定ルールを、過去のイベントログに基づいて生成する装置及びそのプログラムに関する。   The present invention relates to a device for generating a failure cause determination rule used in a failure cause analysis system based on a past event log and a program thereof.

システム障害発生時における復旧作業の遅延は、企業の業績や社会インフラに大きな影響を与える。システム障害の迅速な復旧には、初動時の対応すなわち障害原因の早期特定と復旧手順の決定が重要である。   Delays in recovery work in the event of a system failure have a major impact on corporate performance and social infrastructure. In order to quickly recover from a system failure, it is important to respond to the initial action, that is, identify the cause of the failure early and determine the recovery procedure.

現在、障害発生時における迅速な復旧を支援する目的で、障害原因解析システムが提案されている(特許文献1)。この解析システムは、ユーザ自身が主に手作業で事前に作成・登録した障害原因判定ルールを使用する。障害発生時、この解析システムは、事前に作成された障害原因判定ルールに基づいて、サーバ等のIT基盤を監視している監視サーバが生成したイベントを自動的に解析し、解析結果に応じた適切な復旧手順を復旧担当者に自動的に提示する。なお、障害原因判定ルールは、特定の障害時に発生するイベントの発生パターンと復旧手順とを対応付けたデータ構造を有する。障害原因判定ルールのうち、障害を特定するイベントの発生パターンを定義する句を「条件句 (Condition)」といい、その障害に対する復旧手順を定義する句を「行為句(Action)」という。   At present, a failure cause analysis system has been proposed for the purpose of supporting quick recovery when a failure occurs (Patent Document 1). This analysis system uses a failure cause determination rule created and registered in advance by the user, mainly manually. When a failure occurs, this analysis system automatically analyzes the event generated by the monitoring server that monitors the IT infrastructure such as the server based on the failure cause determination rule created in advance, and responds to the analysis result. Appropriate recovery procedures are automatically presented to recovery personnel. The failure cause determination rule has a data structure in which an occurrence pattern of an event that occurs at the time of a specific failure is associated with a recovery procedure. Of the failure cause determination rules, a phrase that defines an occurrence pattern of an event that identifies a failure is called a “condition”, and a phrase that defines a recovery procedure for the failure is called an “action”.

その一方で、人手による障害原因判定ルールの作成には困難が伴う。このため、イベントログから障害原因判定ルールの条件句を自動生成する方法が提案されている(特許文献2〜4)。各特許文献は、障害発生時における個々のイベントの振る舞いを解析し、障害原因判定ルールの条件句を求める手法が開示されている。例えば特許文献2には、特定イベントの発生頻度を利用する方法が記載されている。また、特許文献3には、イベントの生起パターンを利用する方法が記載さている。また、特許文献4には、正常値と比較した属性値の異常度の利用により、発生した障害を特徴付けるイベントを定義し、その結果を判定ルールに反映させる手法が記載されている。   On the other hand, it is difficult to manually create a failure cause determination rule. For this reason, a method for automatically generating a condition phrase of a failure cause determination rule from an event log has been proposed (Patent Documents 2 to 4). Each patent document discloses a method for analyzing a behavior of an individual event when a failure occurs and obtaining a condition phrase of a failure cause determination rule. For example, Patent Literature 2 describes a method of using the occurrence frequency of a specific event. Further, Patent Document 3 describes a method of using an event occurrence pattern. Patent Document 4 describes a method of defining an event that characterizes a failure that has occurred by using the degree of abnormality of an attribute value compared with a normal value, and reflecting the result in a determination rule.

国際公開第2004/061681号International Publication No. 2004/061681 特開2008−41041号公報JP 2008-41041 A 特開2006−4346号公報JP 2006-4346 A 特開2009−217382号公報JP 2009-217382 A

Fisher, Douglas H. “Knowledge acquisition via incremental clustering”, Machine Learning 2, 139-172, 1987Fisher, Douglas H. “Knowledge acquisition via incremental clustering”, Machine Learning 2, 139-172, 1987

復旧時間の短縮には、障害原因が同じ障害には同じ適切な対応手順を定めることと、一旦定めた対応手順の見直しと改善とが必要となる。このため、自動生成技術によって生成される障害原因判定ルールは、障害原因が同じ障害に対して共通に適用でき、その障害に対して適切な対応手順を提示することが要求される。   In order to shorten the recovery time, it is necessary to determine the same appropriate response procedure for failures with the same cause of failure, and to review and improve the once determined response procedure. For this reason, the failure cause determination rule generated by the automatic generation technique can be commonly applied to failures with the same failure cause, and it is required to present an appropriate response procedure for the failure.

しかし、前述した障害原因判定ルールの自動生成技術には、次の2つの課題がある。
(1)障害原因が同じ障害への適用保障
特許文献2から4に係る条件句の自動生成技術では、障害発生時、発生した個々のイベントに基づいて、障害に対する条件句を作成している。しかし、これらの方法は、障害原因が同じ障害に対して同じ対応手順を適用できる保障がない。実際、障害原因は同じでも、個々の障害には、当該障害と無関係のイベントが何らかの理由により発生することがある。このため、個々の障害について発生するイベントから導出される条件句を、他の障害に対して適用できない場合がある。
(2)不完全な障害原因判定ルールの生成
特許文献2から4に係る自動生成技術は、障害発生時のイベントの振舞いを解析し、障害原因判定ルールの条件句のみを自動的に生成するものであり、行為句は生成しない。このため、従来システムでは、行為句についてはユーザ自身が作成する必要がある。しかし、作成される行為句の内容はユーザのスキルに依存し、適切な復旧手順が選択されない場合がある。
However, the above-described automatic generation technique of the failure cause determination rule has the following two problems.
(1) Guarantee of application to faults with the same cause of failure In the automatic technique for generating conditional phrases according to Patent Documents 2 to 4, when a fault occurs, a conditional phrase for the fault is created based on the individual events that occurred. However, these methods do not guarantee that the same response procedure can be applied to failures with the same cause of failure. In fact, even if the cause of the failure is the same, an event unrelated to the failure may occur for some reason in each failure. For this reason, a conditional phrase derived from an event that occurs for each failure may not be applicable to other failures.
(2) Generation of incomplete failure cause determination rule The automatic generation technology according to Patent Documents 2 to 4 analyzes the behavior of an event when a failure occurs and automatically generates only the condition phrase of the failure cause determination rule. No action phrase is generated. For this reason, in the conventional system, an action phrase needs to be created by the user himself / herself. However, the content of the created action phrase depends on the skill of the user, and an appropriate recovery procedure may not be selected.

そこで、本発明者は、(1) 障害に伴って発生する単数又は複数のイベント(イベントブロック)をその特徴に基づいてクラスタリングし(このとき、同じクラスタに属する障害はイベント及びイベントパターンが類似していることになるので、同じ原因による障害と判断できる)、(2) 同じクラスタに属するイベントブロックに頻出するイベントに基づいて障害原因判定ルールの条件句を生成し、(3) 生成された条件句で指定されたイベントの属性値に基づいて検索キーを生成し、(4) 生成された検索キーを用いて検索された復旧手順書を障害原因判定ルールの行為句とすることで、完全な障害原因判定ルールを自動生成することを特徴とする発明を提供する。   Therefore, the present inventor (1) clustered one or a plurality of events (event blocks) that occur due to a failure based on the characteristics (in this case, the failure and the event pattern of the failure belonging to the same cluster are similar). (2) Generate a condition clause for the failure cause determination rule based on events that frequently appear in event blocks belonging to the same cluster, and (3) Generated conditions A search key is generated based on the event attribute value specified in the phrase, and (4) the recovery procedure document searched using the generated search key is used as the action phrase of the failure cause determination rule. An invention characterized in that a failure cause determination rule is automatically generated.

本発明によれば、障害原因が同じ障害に対して共通に適用でき、しかも、障害原因判定ルールの条件句と行為句の両方で構成される障害原因判定ルールを自動的に生成することができる。   According to the present invention, a failure cause determination rule that can be applied in common to failures with the same cause of failure and that includes both a conditional phrase and an action phrase of the failure cause determination rule can be automatically generated. .

障害原因解析システムのシステム構成例を示す図。The figure which shows the system configuration example of a failure cause analysis system. ログDBが保持するイベントログの具体例を説明するテーブル図。The table figure explaining the specific example of the event log which log DB hold | maintains. 障害原因判定ルール生成コンピュータのシステム構成例を示す図。The figure which shows the system structural example of a failure cause determination rule production | generation computer. 障害原因解析プロセスの概要を示すフローチャート。The flowchart which shows the outline | summary of a failure cause analysis process. 障害原因判定ルールの具体例を説明する図。The figure explaining the specific example of a failure cause determination rule. 障害原因判定ルール生成プロセスの実行手順例を示すフローチャート。The flowchart which shows the example of an execution procedure of a failure cause determination rule production | generation process. 障害原因判定ルール生成コンピュータにおける初期状態のGUI例を示す図。The figure which shows the example of GUI of the initial state in a failure cause determination rule production | generation computer. 障害原因判定ルール生成コンピュータにおいて障害クラスタを表示したGUI例を示す図。The figure which shows the example of GUI which displayed the failure cluster in the failure cause determination rule production | generation computer. 障害原因判定ルール生成コンピュータにおいて頻出イベントを表示したGUI例を示す図。The figure which shows the GUI example which displayed the frequent event in the failure cause determination rule production | generation computer. 障害原因判定ルール生成コンピュータにおいて障害原因判定ルール作成のGUI例を示す図。The figure which shows the example of GUI of failure cause determination rule preparation in the failure cause determination rule production | generation computer. 障害クラスタリングプロセスの実行手順例を示すフローチャート。The flowchart which shows the example of an execution procedure of a failure clustering process. イベントブロックの具体例を説明する図。The figure explaining the specific example of an event block. イベントブロックの特徴の具体例を説明する図。The figure explaining the specific example of the feature of an event block. 復旧手順書の検索プロセスの実行手順例を示すフローチャート。The flowchart which shows the example of an execution procedure of the search process of a recovery procedure manual.

以下、図面に基づいて、本発明の実施の形態を説明する。なお、後述する装置構成や処理動作の内容は発明を説明するための一例であり、本発明は、後述する装置構成や処理動作に既知の技術を組み合わせた発明や後述する装置構成や処理動作の一部を既知の技術と置換した発明も包含する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings. It should be noted that the contents of the device configuration and processing operation described below are examples for explaining the invention, and the present invention relates to an invention in which a known technology is combined with the device configuration and processing operation described later, and the device configuration and processing operation described later. It also includes inventions that partially replace known techniques.

(障害原因解析システムのシステム構成)
図1に、障害原因判定ルール生成装置を実装する障害原因解析システムの構成例を示す。障害原因解析システムは、監視対象サーバ群101と、これらサーバの状態(死活など)を監視し、その状態に応じたイベントを生成する監視サーバ102、監視サーバ102が生成したイベントを格納するログデータベース(DB)103、監視サーバ102が生成したイベントを障害原因判定ルールに基づいて解析する障害原因解析コンピュータ104、障害発生時のトラブルシューティングが記述されたハードウェアやソフトウェアなどのマニュアルや保守担当者による過去の障害時の復旧作業に関する報告書などの障害時の復旧手順に関する文書が格納された復旧手順書データベース(DB)105、障害原因解析コンピュータ104が障害原因判定ルールに基づきイベントを解析して、復旧手順書を特定し、復旧手順書DB105から取得した復旧手順書を障害復旧担当者が閲覧するために表示する復旧手順書閲覧コンピュータ106と、ログDB103からイベントログを取得し障害原因判定ルールを生成する障害原因判定ルール生成コンピュータ107から構成される。
(System configuration of failure cause analysis system)
FIG. 1 shows a configuration example of a failure cause analysis system that implements a failure cause determination rule generation device. The failure cause analysis system monitors the monitoring target server group 101 and the status (life and death etc.) of these servers and generates an event according to the status, and a log database that stores events generated by the monitoring server 102 (DB) 103, a failure cause analysis computer 104 that analyzes an event generated by the monitoring server 102 based on a failure cause determination rule, a manual such as hardware and software that describes troubleshooting when a failure occurs, and a maintenance person A recovery procedure database (DB) 105 in which documents related to recovery procedures in the event of a failure such as reports on recovery operations in the past are stored, and a failure cause analysis computer 104 analyzes events based on failure cause determination rules, Specify the recovery procedure manual, and the recovery procedure manual DB 105 The recovery procedure manual browsing computer 106 displays the acquired recovery procedure manual for browsing by the person in charge of fault recovery, and the failure cause determination rule generation computer 107 that acquires an event log from the log DB 103 and generates a failure cause determination rule. The

図2に、ログDB103に格納されているイベントのテーブル例を示す。テーブルはイベントを一意に特定する識別子(ID)201、イベントが発生した時間を特定する発生日時202、個々のイベントの属性値の集合であるイベント203から構成される。この形態例において、イベント203の属性は次のように定義する。   FIG. 2 shows an example table of events stored in the log DB 103. The table includes an identifier (ID) 201 that uniquely identifies an event, an occurrence date and time 202 that identifies the time when the event occurred, and an event 203 that is a set of attribute values of individual events. In this embodiment, the attributes of the event 203 are defined as follows.

(<種類>, <ソース>, <イベント番号>, <ユーザ>, <コンピュータ>)
<種類>は、イベントの緊急度を意味する。<ソース>は、イベントを発生させたプロセス、アプリケーションなどの発生源を意味する。<イベント番号>は、イベントの内容を特定する番号を意味する。<ユーザ>は、イベントの発生源となったプロセスやアプリケーションを実行していたユーザを意味する。<コンピュータ>は、イベントの発生源となった監視対象サーバ群101内のサーバを意味する。
(<Type>, <Source>, <Event number>, <User>, <Computer>)
<Type> means the urgency of the event. <Source> means the source of the process, application, etc. that generated the event. <Event number> means a number that identifies the content of the event. <User> means a user who is executing the process or application that is the source of the event. <Computer> means a server in the monitoring target server group 101 that is an event generation source.

図5に、障害原因判定ルールの一例を示す。この例は、判定時間2分9秒以内に、属性値タプル(警戒, process71, 80, user2, server9)を持つイベントの後に属性値タプル(*, process39, *, user4, server8)を持つイベントが発生したならば、復旧手順書「○○システム復旧手順書.doc」を復旧担当者に提示することを意味している。ここで、属性値”*”は値が不定であることを示している。また、この障害原因判定ルールでは、イベントパターン501と判定時間502の項目を合わせたものがルールの条件句であり、復旧手順書503の項目がルールの行為句に相当する。   FIG. 5 shows an example of the failure cause determination rule. In this example, an event with an attribute value tuple (*, process39, *, user4, server8) is followed by an event with an attribute value tuple (alert, process71, 80, user2, server9) within the judgment time of 2 minutes and 9 seconds. If it occurs, this means that the restoration procedure “XX System restoration procedure. Doc” is presented to the person in charge of restoration. Here, the attribute value “*” indicates that the value is indefinite. Further, in this failure cause determination rule, a combination of the event pattern 501 and the determination time 502 items is a rule condition phrase, and an item of the recovery procedure manual 503 corresponds to a rule action phrase.

図3に、障害原因判定ルール生成コンピュータ107の構成例を示す。障害原因判定ルール生成コンピュータ107は、コンピュータ本体300と、入力装置330と、表示装置331と、通信装置332とから構成される。ここで、通信装置332は、ログDB103と復旧手順書DB105と障害原因解析コンピュータ104との通信を行う。コンピュータ本体300は、データ演算を実行するCPU301、ROM302、RAM310、ハードディスク駆動装置320、これらデバイス間のデータ転送を実現するCPUバス307、前述したデバイスとCPUバス307とを結合するインターフェース303〜306で構成される。   FIG. 3 shows a configuration example of the failure cause determination rule generation computer 107. The failure cause determination rule generation computer 107 includes a computer main body 300, an input device 330, a display device 331, and a communication device 332. Here, the communication device 332 communicates with the log DB 103, the recovery procedure manual DB 105, and the failure cause analysis computer 104. The computer main body 300 includes a CPU 301 that executes data operations, a ROM 302, a RAM 310, a hard disk drive 320, a CPU bus 307 that realizes data transfer between these devices, and interfaces 303 to 306 that couple the aforementioned devices and the CPU bus 307. Composed.

RAM310には、CPU301に演算処理を実行させる障害原因判定ルール生成プログラム311の実行領域と、検算時に一時的に生成させるデータを格納する作業領域312とが少なくとも確保される。以下、「障害原因判定ルール生成プログラム311」を、単に「プログラム311」ともいう。また、ハードディスク駆動装置320の記憶領域には、障害原因判定ルール生成プログラムの格納領域としてのプログラム格納部321と、ログDB103及び復旧手順書DB105から取得したデータを一時的に格納しておくデータ格納部322が少なくとも確保される。   The RAM 310 has at least an execution area for the failure cause determination rule generation program 311 for causing the CPU 301 to execute arithmetic processing and a work area 312 for storing data to be temporarily generated at the time of verification. Hereinafter, the “failure cause determination rule generation program 311” is also simply referred to as “program 311”. In addition, the storage area of the hard disk drive 320 stores a program storage unit 321 as a storage area for the failure cause determination rule generation program, and data storage for temporarily storing data acquired from the log DB 103 and the recovery procedure manual DB 105. The part 322 is at least secured.

図7及び図10に、障害原因判定ルール生成コンピュータ107に接続される表示装置331に表示される障害原因判定ルール生成プログラムの条件入力及び計算結果出力用のGUI画面例を示す。障害原因判定ルール生成プログラム画面700は、障害のクラスタリングの実行及び結果を表示する障害クラスタリングタブ701と、障害原因判定ルールを表示するルール作成タブ1001から構成される。これらの画面は、プログラム311を通じて表示装置331の画面上に表示される。   FIG. 7 and FIG. 10 show examples of GUI screens for condition input and calculation result output of the failure cause determination rule generation program displayed on the display device 331 connected to the failure cause determination rule generation computer 107. The failure cause determination rule generation program screen 700 includes a failure clustering tab 701 that displays the execution and results of failure clustering, and a rule creation tab 1001 that displays failure cause determination rules. These screens are displayed on the screen of the display device 331 through the program 311.

障害クラスタリングタブ701は、障害のクラスタリング処理に関連する情報要素をまとめて表示する領域(障害クラスタリング部710)と、個々の障害クラスタに関連する情報要素をまとめて表示する領域(障害クラスタ詳細部720)とから構成される。   The failure clustering tab 701 includes a region (failure clustering unit 710) that collectively displays information elements related to failure clustering processing, and a region (failure cluster detail unit 720) that collectively displays information elements related to individual failure clusters. ).

障害クラスタリング部710は、イベントブロックの分離基準を与える時間窓単位入力部711と、イベントブロックをクラスタリングする際に画面上のポインタを通じてクリック操作されるクラスタリング開始ボタン712と、障害をクラスタリングした結果得られた障害の分類木である障害分類木の表示部713とから構成される。ここで、イベントブロックとは、1つの障害時に発生する単数又は複数のイベントの集合を意味する。図7の例の場合、プログラム311は、障害によって発生したイベントを、その発生日時と一つ前のイベントの発生日時との差が10分以内であれば、一つ前のイベントと同じ障害によって発生したイベントを見なし、同じイベントブロックに分類する。逆に、発生日時の差が10分以上の場合、プログラム311は、発生したイベントを、一つ前のイベントとは異なる障害によって発生したイベントとみなし、新規のイベントブロックに分類する。   The fault clustering unit 710 is obtained as a result of clustering faults, a time window unit input unit 711 that provides event block separation criteria, a clustering start button 712 that is clicked through a pointer on the screen when clustering event blocks, and the like. A fault classification tree display section 713 which is a fault classification tree. Here, the event block means a set of one or a plurality of events that occur at the time of one failure. In the case of the example in FIG. 7, the program 311 determines that an event caused by a failure is caused by the same failure as the previous event if the difference between the occurrence date and time and the occurrence date and time of the previous event is within 10 minutes. We do not see the event that occurred and classify it into the same event block. On the other hand, when the difference in occurrence date and time is 10 minutes or more, the program 311 regards the generated event as an event generated by a failure different from the previous event, and classifies it as a new event block.

障害クラスタ詳細部720は、障害分類木表示部713に表示された障害分類木の中から選択されたノードに分類される複数の障害(以後、「障害クラスタ」という。)に含まれる頻出イベントを計算する条件を入力する最小有効属性数入力部721と、最小サポート イベントブロック数入力部722と、頻出イベントの計算を開始する際に画面上のポインタを通じてクリック操作される頻出イベント発見ボタン723と、障害分類木表示部713で選択された障害クラスタ内に含まれるイベントブロックの情報を表示するイベントブロックテーブル730と、頻出イベントの情報を表示する頻出イベントテーブル740から構成される。ここで、有効属性数は、頻出イベントの「*」以外の属性値の数であり、最小有効属性数は頻出イベントが満たすべき最小の有効属性数のことである。また、最小サポート イベントブロック数とは、頻出イベントが含まれているべき最小のイベントブロック数である。前述の通り、”*”は属性値が不定であることを示す。   The failure cluster detail unit 720 displays frequent events included in a plurality of failures (hereinafter referred to as “failure clusters”) classified into nodes selected from the failure classification tree displayed in the failure classification tree display unit 713. A minimum valid attribute number input unit 721 for inputting a condition for calculation, a minimum support event block number input unit 722, a frequent event discovery button 723 that is clicked through a pointer on the screen when calculation of a frequent event is started, The event block table 730 displays information about event blocks included in the failure cluster selected by the failure classification tree display unit 713, and the frequent event table 740 displays information about frequent events. Here, the number of valid attributes is the number of attribute values other than “*” in the frequent event, and the minimum number of valid attributes is the minimum number of valid attributes that the frequent event should satisfy. Further, the minimum number of supported event blocks is the minimum number of event blocks that should contain frequent events. As described above, “*” indicates that the attribute value is indefinite.

イベントブロックテーブル730は、指定された障害クラスタ内のイベントブロック名を表示する障害のイベントブロック731、イベントブロック内のイベントの属性値を表示するイベント732、各イベントに対応する頻出イベントのラベルを表示する頻出イベントラベル733から構成される。頻出イベントテーブル740は、頻出イベントを一意に特定するラベルを表示する頻出イベントラベル741、頻出イベントの属性値を表示するイベント742、イベントブロックテーブル730内のイベントブロックのうち頻出イベントが含まれるイベントブロック数を表示するサポートイベントブロック数743から構成される。   The event block table 730 displays a failure event block 731 for displaying the event block name in the designated failure cluster, an event 732 for displaying the attribute value of the event in the event block, and a label for the frequent event corresponding to each event. It is composed of frequent event labels 733. The frequent event table 740 includes a frequent event label 741 that displays a label that uniquely identifies a frequent event, an event 742 that displays an attribute value of the frequent event, and an event block that includes a frequent event among the event blocks in the event block table 730. This is composed of a number 743 of support event blocks for displaying the number.

ルール作成タブ1001は、最終的に障害原因解析コンピュータ104に登録する障害原因判定ルールに関連する要素をまとめた最終的な障害原因判定ルール部1010と、障害原因判定ルールの条件句の決定に関連する要素をまとめたイベントパターン候補部1030と、障害原因判定ルールの行為句の決定に関連する要素をまとめた復旧手順書検索部1050とから構成される。   The rule creation tab 1001 includes a final failure cause determination rule unit 1010 that summarizes elements related to a failure cause determination rule that is finally registered in the failure cause analysis computer 104, and a determination of a condition phrase of the failure cause determination rule. The event pattern candidate unit 1030 that collects the elements to be performed and the recovery procedure manual search unit 1050 that collects the elements related to the determination of the action phrase of the failure cause determination rule.

障害原因判定ルール部1010は、最終的な障害原因判定ルールの決定後、障害原因解析コンピュータ104に登録する際に画面上のポインタを通じてクリック操作される決定ボタン1011と、障害原因判定ルールの内容を表示する障害原因判定ルールテーブル1020から構成される。障害原因判定ルールテーブル1020は、イベントが出現するパターンを表示するイベントパターン1021と、そのパターンが出現する時間間隔である判定時間1022と、判定時間1022内にそのイベントパターンが出現したときに復旧手順書閲覧コンピュータ106に表示させる復旧手順書名を表示する復旧手順書1023から構成される。   After determining the final failure cause determination rule, the failure cause determination rule unit 1010 displays a determination button 1011 that is clicked through a pointer on the screen when registering in the failure cause analysis computer 104, and the content of the failure cause determination rule. The failure cause determination rule table 1020 is displayed. The failure cause determination rule table 1020 includes an event pattern 1021 that displays a pattern in which an event appears, a determination time 1022 that is a time interval in which the pattern appears, and a recovery procedure when the event pattern appears within the determination time 1022 The recovery procedure manual 1023 for displaying the name of the recovery procedure document to be displayed on the document browsing computer 106.

イベントパターン候補部1030は、障害原因判定ルールの条件句のイベントパターン1021及び判定時間1022の候補を表示するイベントパターンテーブル1040と、イベントパターンテーブル1040の中から選択された候補を障害原因判定ルールのイベントパターン1021及び判定時間1022として決定する際に画面上のポインタを通じてクリック操作される決定ボタン1031から構成される。イベントパターンテーブル1040は、イベントパターン候補を一意に識別する番号を表示する候補1041と、対応する頻出イベントのラベルを表示する頻出イベントラベル1042と、イベントパターンのイベントの属性値を表示するイベントパターン1043と、その判定時間を表示する判定時間1044と、このイベントパターンが含まれるイベントブロック数を表示するイベントブロックサポート数1045から構成される。   The event pattern candidate unit 1030 displays an event pattern table 1040 for displaying candidates for the event pattern 1021 and the determination time 1022 of the condition phrase of the failure cause determination rule, and selects a candidate selected from the event pattern table 1040 as the failure cause determination rule. When the event pattern 1021 and the determination time 1022 are determined, the determination button 1031 is clicked through a pointer on the screen. The event pattern table 1040 includes a candidate 1041 for displaying a number for uniquely identifying an event pattern candidate, a frequent event label 1042 for displaying a label of a corresponding frequent event, and an event pattern 1043 for displaying an event attribute value of the event pattern. And a determination time 1044 for displaying the determination time, and an event block support number 1045 for displaying the number of event blocks including the event pattern.

復旧手順書候補部1050は、検索キーワードを入力する検索キーワード入力部1052、復旧手順書DB105に対して復旧手順書を検索する際に画面上のポインタを通じてクリック操作される検索ボタン1053、検索された復旧手順書一覧を表示する復旧手順書テーブル1060と、復旧手順書テーブル1060の中から選択された復旧手順書を障害原因判定ルールの復旧手順書1063として決定する際に画面上のポインタを通じてクリック操作される決定ボタン1051から構成される。復旧手順書テーブル1060は、検索された復旧手順書名を表示する復旧順書1061と、検索された復旧手順書のスコアを表示するスコア1062から構成される。   The recovery procedure manual candidate unit 1050 includes a search keyword input unit 1052 that inputs a search keyword, a search button 1053 that is clicked through a pointer on the screen when searching the recovery procedure manual in the recovery procedure manual DB 105, Clicking through the pointer on the screen when determining the recovery procedure manual table 1060 for displaying the recovery procedure manual list and the recovery procedure manual selected from the recovery procedure manual table 1060 as the recovery procedure manual 1063 of the failure cause determination rule The determination button 1051 is configured. The recovery procedure manual table 1060 includes a recovery order document 1061 that displays the searched recovery procedure manual name and a score 1062 that displays the score of the searched recovery procedure manual.

(障害原因解析動作)
図4に、障害原因解析システムの全体で実行される障害原因解析プロセスの概要を示す。最初に、障害原因判定ルール生成コンピュータ107は、ログDB103からイベントログを取得して障害原因判定ルールを生成し、障害原因解析コンピュータ104に登録する(ステップ401)。図5に、障害原因判定ルール生成コンピュータ107によって生成された障害原因判定ルールの例を示す。
(Failure cause analysis operation)
FIG. 4 shows an outline of a failure cause analysis process executed in the entire failure cause analysis system. First, the failure cause determination rule generation computer 107 acquires an event log from the log DB 103, generates a failure cause determination rule, and registers it in the failure cause analysis computer 104 (step 401). FIG. 5 shows an example of the failure cause determination rule generated by the failure cause determination rule generation computer 107.

監視サーバ102は、監視対象サーバ群101を監視し、その状態に応じたイベントを生成する(ステップ402)。この後、監視サーバ102は、生成したイベントを障害原因解析コンピュータ104に送信し、同時に、生成したイベントをイベントログDB103に格納する。ここで、生成されるイベントは、図2に示すイベントログテーブルのイベント203を構成する属性値の集合である。   The monitoring server 102 monitors the monitoring target server group 101 and generates an event corresponding to the state (step 402). Thereafter, the monitoring server 102 transmits the generated event to the failure cause analysis computer 104, and simultaneously stores the generated event in the event log DB 103. Here, the generated event is a set of attribute values constituting the event 203 of the event log table shown in FIG.

障害原因解析コンピュータ104は、監視サーバ102が発生させたイベントを受信し(ステップ403)、登録されている障害原因判定ルールの条件句のパターンと、受信したイベントの出現パターンとのマッチング処理を実行する(ステップ404)。   The failure cause analysis computer 104 receives the event generated by the monitoring server 102 (step 403), and executes a matching process between the registered condition phrase pattern of the failure cause determination rule and the appearance pattern of the received event (Step 404).

イベントの出現パターンが障害原因判定ルールの条件句と一致している場合、障害原因解析コンピュータ104は、その障害原因判定ルールの復旧手順書を復旧手順書DB105から取得し(ステップ406)、復旧手順書閲覧コンピュータ106に送信する(ステップ407)。その後、復旧手順閲覧コンピュータ106は、受信した復旧手順書を表示する(ステップ408)。   If the event occurrence pattern matches the condition phrase of the failure cause determination rule, the failure cause analysis computer 104 acquires the recovery procedure manual for the failure cause determination rule from the recovery procedure manual DB 105 (step 406), and the recovery procedure. It is transmitted to the book browsing computer 106 (step 407). Thereafter, the recovery procedure browsing computer 106 displays the received recovery procedure manual (step 408).

なお、イベントの出現パターンが障害原因判定ルールの条件句と一致しない場合、障害原因解析コンピュータ104は、ステップ402に戻る。   If the event appearance pattern does not match the condition phrase of the failure cause determination rule, the failure cause analysis computer 104 returns to step 402.

(障害原因判定ルール生成動作)
(a)動作の概要
(ステップ600)
図6に、障害原因判定ルール生成プログラム311を通じて実行される障害原因判定ルール生成プロセスの概要を示す。このプログラム311は、表示装置331に表示される初期状態の障害原因判定ルール生成プログラム画面700(図7)の時間窓単位入力部711に単位時間が入力された後、クラスタリング開始ボタン712に対するクリック操作が検出されることで開始される。ここでのクリック操作は、障害原因判定ルール生成コンピュータ107を構成する入力装置330に対するユーザ操作を通じて入力される。プログラム311は、障害原因判定ルール生成コンピュータ107で実行される。
(Error cause determination rule generation operation)
(A) Outline of operation (step 600)
FIG. 6 shows an outline of the failure cause determination rule generation process executed through the failure cause determination rule generation program 311. The program 311 is a click operation on the clustering start button 712 after a unit time is input to the time window unit input unit 711 of the failure cause determination rule generation program screen 700 (FIG. 7) in the initial state displayed on the display device 331. It is started when is detected. The click operation here is input through a user operation on the input device 330 constituting the failure cause determination rule generation computer 107. The program 311 is executed by the failure cause determination rule generation computer 107.

(ステップ601)
障害原因判定ルール生成プログラム311は、該当する操作入力を検出すると、時間窓単位入力部711に入力された数値又は内容を読み取り、RAM310の作業領域312に格納する。さらに、障害原因判定ルール生成プログラム311は、障害原因判定ルール生成プログラム311に記述された障害クラスタリング処理の処理手順に従い、障害クラスタリング処理を実行する。この処理内容の詳細は後述する。
(Step 601)
When the failure cause determination rule generation program 311 detects a corresponding operation input, the failure cause determination rule generation program 311 reads the numerical value or content input to the time window unit input unit 711 and stores it in the work area 312 of the RAM 310. Further, the failure cause determination rule generation program 311 executes the failure clustering process according to the processing procedure of the failure clustering process described in the failure cause determination rule generation program 311. Details of this processing will be described later.

(ステップ602)
障害原因判定ルール生成プログラム311は、障害クラスタリングの実行結果を、表示装置331を通して障害原因判定ルール生成プログラム画面700上に表示する。図8は、障害クラスタリングの処理結果を障害原因判定ルール生成プログラム画面700に表示した様子の具体例を示している。障害クラスタ表示部713には、障害クラスタリングの実行結果が概念木で表示され、概念木のノードである選択された障害クラスタ714に含まれるイベントブロックの情報がイベントブロックテーブル730に表示される。図8の表示例の場合、ユーザにより選択された障害クラスタ714(障害クラスタ3)は、2008/10/11と、2008/10/25と、2008/12/02とに発生した障害から構成されること、各障害時に3個、2個、3個のイベントがそれぞれ発生したことが分かる。
(Step 602)
The failure cause determination rule generation program 311 displays the execution result of the failure clustering on the failure cause determination rule generation program screen 700 through the display device 331. FIG. 8 shows a specific example of a state in which the processing result of the failure clustering is displayed on the failure cause determination rule generation program screen 700. In the failure cluster display unit 713, the execution result of the failure clustering is displayed as a concept tree, and information on event blocks included in the selected failure cluster 714 that is a node of the concept tree is displayed in the event block table 730. In the case of the display example of FIG. 8, the failure cluster 714 (failure cluster 3) selected by the user is composed of failures that occurred on 2008/10/11, 2008/10/25, and 2008/12/02. It can be seen that three, two, and three events occurred at each failure.

(ステップ603)
障害原因判定ルール生成プログラム311は、次に頻出イベント発見処理を実行する。この頻出イベント発見処理は、表示装置331に表示された障害原因判定ルール生成プログラム画面700(図8)を構成する障害クラスタ表示部731において特定の障害クラスタ714がユーザによって選択され、かつ、当該選択された障害クラスタ714に関するイベントブロック情報がイベントブロックテーブル730に表示された状態で、入力部
(最小有効属性数入力部721と最小サポートイベントブロック数入力部722)に数値が入力された後、クラスタリング開始ボタン712に対するクリック操作が検出されることで開始される。ここでの選択、数値の入力及びクリック操作は、障害原因判定ルール生成コンピュータ107を構成する入力装置330に対するユーザ操作を通じて入力される。
(Step 603)
Next, the failure cause determination rule generation program 311 executes frequent event discovery processing. In this frequent event discovery process, a specific failure cluster 714 is selected by the user in the failure cluster display unit 731 constituting the failure cause determination rule generation program screen 700 (FIG. 8) displayed on the display device 331, and the selection is performed. Clustering is performed after numerical values are input to the input units (minimum valid attribute number input unit 721 and minimum supported event block number input unit 722) in a state where event block information regarding the failed cluster 714 is displayed in the event block table 730. The operation is started when a click operation on the start button 712 is detected. The selection, numerical input, and click operation here are input through a user operation on the input device 330 constituting the failure cause determination rule generation computer 107.

(ステップ604)
障害原因判定ルール生成プログラム311は、当該操作入力を検出すると、図8の障害原因判定ルール生成プログラム画面700内の入力部(最小有効属性数入力部721と最小サポートイベントブロック数入力部722)に入力された数値及びイベントブロックテーブル730に表示された内容を読み取り、RAM310の作業領域312に格納する。さらに、障害原因判定ルール生成プログラム311は、障害原因判定ルール生成プログラム311に記述された頻出イベント発見処理の処理手順に従い、作業領域312に格納されたイベントブロックテーブルのイベントから頻出イベントを発見する。
(Step 604)
When the failure cause determination rule generation program 311 detects the operation input, the failure cause determination rule generation program 311 inputs to the input units (the minimum valid attribute number input unit 721 and the minimum support event block number input unit 722) in the failure cause determination rule generation program screen 700 of FIG. The input numerical value and the content displayed in the event block table 730 are read and stored in the work area 312 of the RAM 310. Furthermore, the failure cause determination rule generation program 311 finds a frequent event from events in the event block table stored in the work area 312 according to the frequent event discovery process described in the failure cause determination rule generation program 311.

ここで、頻出イベントとは、イベントブロックテーブル730に含まれるイベントのうち、最小サポートイベントブロック数入力部722に入力されたイベントブロック数を満たす頻度で出現しているイベントである。ただし、頻出イベントは、イベントブロックテーブル730に含まれるイベントの属性値と完全一致する必要はなく、一部の属性は不定(*)としても良い。このとき、頻出イベントの有効属性数(*以外の属性値の数)は、最小有効属性数入力部721の最小有効属性数を満たす必要がある。   Here, a frequent event is an event that appears at a frequency that satisfies the number of event blocks input to the minimum supported event block number input unit 722 among events included in the event block table 730. However, the frequent event does not need to completely match the attribute value of the event included in the event block table 730, and some attributes may be indefinite (*). At this time, the number of effective attributes of frequent events (the number of attribute values other than *) needs to satisfy the minimum effective attribute number of the minimum effective attribute number input unit 721.

(ステップ605)
障害原因判定ルール生成プログラム311は、頻出イベント発見処理の実行結果を、表示装置331を通して障害原因判定ルール生成プログラム画面700に表示する。図9は、頻出イベント発見処理の実行結果を、障害原因判定ルール生成プログラム画面700を構成するイベントブロックテーブル730及び頻出イベントテーブル740に表示した具体例を示している。
(Step 605)
The failure cause determination rule generation program 311 displays the execution result of the frequent event discovery process on the failure cause determination rule generation program screen 700 through the display device 331. FIG. 9 shows a specific example in which the execution result of the frequent event discovery process is displayed in the event block table 730 and the frequent event table 740 constituting the failure cause determination rule generation program screen 700.

頻出イベントテーブル740には、頻出イベントを構成する属性値がイベント742に対し、各頻出イベントを一意に特定する色、模様及びラベル741等が付された状態で表示される。なお、図9の場合、頻出イベントテーブル740における頻出イベントは、各頻出イベントに対応するサポートイベントブロック数743の数値順(図9は降順)に表示される。さらに、イベントブロックテーブル730のイベント732には、頻出イベントテーブル740で頻出イベントに付されているのと同じ色や模様が付されると共に、対応する頻出イベントラベル733が割り当てられる。これにより、頻出イベントがイベントブロック内にどのように分布しているかを、画面表示からユーザが直感的かつ容易に理解できるようになる。もし、分布の仕方が不自然であれば、ユーザは条件入力部(最小有効属性数入力部721と最小サポートイベントブロック数入力部722)の値を変更して、頻出イベントを求め直しても良い。   In the frequent event table 740, the attribute values constituting the frequent event are displayed with the color, pattern, label 741 and the like uniquely identifying each frequent event with respect to the event 742. In the case of FIG. 9, the frequent events in the frequent event table 740 are displayed in numerical order of the number of support event blocks 743 corresponding to each frequent event (FIG. 9 is in descending order). Further, the event 732 of the event block table 730 is assigned the same color and pattern as those assigned to the frequent events in the frequent event table 740 and the corresponding frequent event label 733 is assigned. Thus, the user can intuitively and easily understand how the frequent events are distributed in the event block from the screen display. If the distribution method is unnatural, the user may change the values of the condition input parts (minimum valid attribute number input part 721 and minimum support event block number input part 722) to re-determine frequent events. .

(ステップ606)
障害原因判定ルール生成プログラム311における頻出イベントパターン発見処理は、入力装置330に対するユーザ操作を通じ、表示装置331に表示された図9に示す障害原因判定ルール生成プログラム画面700のルール作成タブ1001がクリックされることで開始される。
(Step 606)
In the frequent event pattern discovery process in the failure cause determination rule generation program 311, the rule creation tab 1001 of the failure cause determination rule generation program screen 700 shown in FIG. 9 displayed on the display device 331 is clicked through a user operation on the input device 330. To start.

(ステップ607)
障害原因判定ルール生成プログラム311は、当該操作入力を検出すると、図9に示す障害原因判定ルール生成プログラム画面700を構成するイベントブロックテーブル730と頻出イベントテーブル740に表示された内容を読み取り、RAM310の作業領域312に格納する。さらに、障害原因判定ルール生成プログラム311は、頻出イベントパターン発見処理の処理手順に従い、作業領域312に格納されたイベントブロックテーブルの頻出イベントラベル733から頻出イベントパターンを発見する。ここで、障害原因判定ルール生成プログラム311は、イベントブロックテーブル730に表示される各障害を構成する頻出イベントに割り当てられた頻出イベントラベルを、イベント732の属性”時刻”の順番に並べた頻出イベント列を作成することにより、頻出イベントパターンを発見する。すなわち、頻出イベントパターンは、頻出イベントラベルを出現時間順に並べたパターンとして特定される。図9の例の場合、頻出イベント列は”CAB”,”AB”,”ACB”である。次に、障害原因判定ルール生成プログラム311は、最小サポートイベントブロック数入力部722で指定されたイベントブロック数を満たすイベントラベルが頻出する出現パターンを求める。図9の例では”AB”,“CB”となる。このイベントラベルのパターンを、頻出イベントテーブル740の頻出イベント742で置換したものが、頻出イベントパターンとなる。
(Step 607)
When the failure cause determination rule generation program 311 detects the operation input, the failure cause determination rule generation program 311 reads the contents displayed in the event block table 730 and the frequent event table 740 constituting the failure cause determination rule generation program screen 700 shown in FIG. Store in the work area 312. Further, the failure cause determination rule generation program 311 finds a frequent event pattern from the frequent event label 733 of the event block table stored in the work area 312 according to the frequent event pattern discovery processing procedure. Here, the failure cause determination rule generation program 311 arranges the frequent event labels assigned to the frequent events constituting each failure displayed in the event block table 730 in the order of the attribute “time” of the event 732. Discover frequent event patterns by creating columns. That is, the frequent event pattern is specified as a pattern in which frequent event labels are arranged in order of appearance time. In the example of FIG. 9, the frequent event sequence is “CAB”, “AB”, “ACB”. Next, the failure cause determination rule generation program 311 obtains an appearance pattern in which event labels satisfying the number of event blocks specified by the minimum supported event block number input unit 722 appear frequently. In the example of FIG. 9, “AB” and “CB” are obtained. The event label pattern replaced with the frequent event 742 in the frequent event table 740 becomes the frequent event pattern.

(ステップ608)
障害原因判定ルール生成プログラム311は、頻出イベントパターン発見処理の実行結果を、表示装置331を通して障害原因判定ルール生成プログラム画面700上に表示する。図10は、頻出イベントパターン発見処理の実行結果を、障害原因判定ルール生成プログラム画面700を構成するイベントパターン候補テーブル1040に表示した具体例を示している。
(Step 608)
The failure cause determination rule generation program 311 displays the execution result of the frequent event pattern discovery process on the failure cause determination rule generation program screen 700 through the display device 331. FIG. 10 shows a specific example in which the execution result of the frequent event pattern discovery process is displayed in the event pattern candidate table 1040 constituting the failure cause determination rule generation program screen 700.

(ステップ609)
障害原因判定ルール生成コンピュータ107は、ユーザが入力装置330の操作を通じて、表示装置331に表示された図10の障害原因判定ルール生成プログラム画面700を構成するイベントパターンテーブル1040内のイベントパターン候補を選択した操作を検出すると、選択されたイベントパターン候補1046の内容を読み取り、RAM310の作業領域312に格納する。さらに、障害原因判定ルール生成プログラム311は、障害原因判定ルール生成プログラム311に記述された復旧手順書検索処理の処理手順に従い、作業領域312に格納されたイベントパターン候補の内容をもとに復旧手順書の検索処理を実行し、検索された復旧手順書を作業領域312に格納する。この処理内容の詳細は後述する。
(Step 609)
The failure cause determination rule generation computer 107 selects event pattern candidates in the event pattern table 1040 constituting the failure cause determination rule generation program screen 700 of FIG. 10 displayed on the display device 331 through the operation of the input device 330 by the user. When the detected operation is detected, the contents of the selected event pattern candidate 1046 are read and stored in the work area 312 of the RAM 310. Further, the failure cause determination rule generation program 311 follows the processing procedure of the recovery procedure document search process described in the failure cause determination rule generation program 311 and based on the contents of the event pattern candidates stored in the work area 312. The retrieval process of the document is executed, and the retrieved recovery procedure document is stored in the work area 312. Details of this processing will be described later.

(ステップ610)
障害原因判定ルール生成プログラム311は、作業領域312に格納されている復旧手順書検索の実行結果を、表示装置331を通して障害原因判定ルール生成プログラム画面700上に表示する。図10は、復旧手順書の検索結果を、障害原因判定ルール生成プログラム画面700を構成する復旧手順書テーブル1060に表示した具体例を示している。
(Step 610)
The failure cause determination rule generation program 311 displays the execution result of the recovery procedure manual search stored in the work area 312 on the failure cause determination rule generation program screen 700 through the display device 331. FIG. 10 shows a specific example in which the search result of the recovery procedure manual is displayed on the recovery procedure manual table 1060 constituting the failure cause determination rule generation program screen 700.

(ステップ611)
障害原因判定ルール生成プログラム311の障害原因判定ルール作成処理は、入力装置330に対するユーザの操作入力を通じ、表示装置331に表示される障害原因判定ルール生成プログラム画面700(図10)に対して以下の操作入力を通じて実行される。
(Step 611)
The failure cause determination rule creation program 311 of the failure cause determination rule generation program 311 performs the following on the failure cause determination rule generation program screen 700 (FIG. 10) displayed on the display device 331 through a user operation input to the input device 330. It is executed through operation input.

まず、イベントパターン候補部1030を構成するイベントパターン候補テーブル1040の中からイベントパターン候補が選択された後、決定ボタン1031がクリック操作される。この操作により、選択されたイベントパターン候補1046の内容が、障害原因判定テーブル1020のイベントパターン1021及び判定時間1022に表示される。   First, after an event pattern candidate is selected from the event pattern candidate table 1040 constituting the event pattern candidate unit 1030, the determination button 1031 is clicked. By this operation, the contents of the selected event pattern candidate 1046 are displayed in the event pattern 1021 and the determination time 1022 of the failure cause determination table 1020.

次に、復旧手順書候補部1050を構成する復旧手順書テーブル1060の中から対応付ける復旧手順書が選択された後、決定ボタン1051がクリック操作される。この操作により、選択した復旧手順書1063の内容が、障害原因判定テーブル1020の復旧手順書1023に表示される。   Next, after a recovery procedure manual to be associated is selected from the recovery procedure manual table 1060 constituting the recovery procedure manual candidate unit 1050, the determination button 1051 is clicked. By this operation, the content of the selected recovery procedure manual 1063 is displayed in the recovery procedure manual 1023 of the failure cause determination table 1020.

最後に、最終的な障害原因判定ルール部1010内の決定ボタン1011がクリック操作されると、障害原因判定ルール生成プログラム311は、作成された障害原因判定ルールの登録処理を開始する。なお、画面上での選択、クリック操作は、障害原因判定ルール生成コンピュータ107を構成する入力装置330に対するユーザ操作を通じて入力される。   Finally, when the determination button 1011 in the final failure cause determination rule unit 1010 is clicked, the failure cause determination rule generation program 311 starts registration processing of the created failure cause determination rule. Note that selection and click operations on the screen are input through a user operation on the input device 330 constituting the failure cause determination rule generation computer 107.

なお、本実施例の場合には、条件句の選択及び選択された条件句に対応付ける行為句の選択をユーザが行っているが、復旧手順書候補部1050の復旧手順書テーブル1060に表示される個別の復旧手順所のうちスコア1062が最も高いものを各条件句に自動的に対応付ければ、障害原因判定ルール作成処理を自動化できる。スコア1062は、検索キーワード1052と復旧手順書1061内の文書との統計的な一致度合いを表し、スコアが高いほど検索キーワードが復旧手順書1061の文書中に多く出現していることを意味する。   In this embodiment, the user selects a conditional phrase and selects an action phrase to be associated with the selected conditional phrase, but is displayed in the recovery procedure document table 1060 of the recovery procedure document candidate unit 1050. By automatically associating the individual recovery procedure place with the highest score 1062 with each conditional phrase, the failure cause determination rule creation process can be automated. The score 1062 represents the statistical degree of coincidence between the search keyword 1052 and the document in the recovery procedure manual 1061, and the higher the score, the more search keywords appear in the document of the recovery procedure manual 1061.

(ステップ612)
障害原因判定ルール生成プログラム311は、前述した一連の操作入力を検出すると、図10の障害原因判定ルール生成プログラム画面700内の障害原因判定ルールテーブルに表示された内容を読み取り、RAM310の作業領域312に格納する。さらに、障害原因判定ルール生成プログラム311は、障害原因判定ルール登録処理の処理手順に従い、作業領域312に格納された障害原因判定ルールテーブルの内容を、通信装置332を通して障害原因解析コンピュータ104に送信し、障害原因判定ルール(条件句と行為句を対応付けたルール)を障害原因解析コンピュータ104に登録する。
(Step 612)
When the failure cause determination rule generation program 311 detects the above-described series of operation inputs, the failure cause determination rule generation program 311 reads the content displayed in the failure cause determination rule table in the failure cause determination rule generation program screen 700 of FIG. To store. Further, the failure cause determination rule generation program 311 transmits the contents of the failure cause determination rule table stored in the work area 312 to the failure cause analysis computer 104 through the communication device 332 according to the processing procedure of the failure cause determination rule registration process. Then, a failure cause determination rule (a rule in which a condition phrase and an action phrase are associated) is registered in the failure cause analysis computer 104.

(b)詳細動作
(1)障害クラスタリング
ここでは、ステップ601で実行される障害クラスタリング処理の詳細動作を説明する。図11に、障害クラスタリング処理で実行される処理手順の概要を示す。
(b) Detailed Operation (1) Fault Clustering Here, the detailed operation of the fault clustering process executed in step 601 will be described. FIG. 11 shows an outline of a processing procedure executed in the failure clustering process.

(ステップ1101)
障害クラスタリング処理の開始後、障害原因判定ルール生成プログラム311は、通信装置332を介してログDB103にアクセスし、障害に関わるイベント(イベント203の属性「種類」が、「致命的」、「緊急」、「エラー」などの値をとるイベントで、「情報」のような障害とは関係ない値をとるイベントは含まない)を発生時刻順に取得する。この後、障害原因判定ルール生成プログラム311は、取得したイベントを、ハードディスク駆動装置320のデータ格納部322に一時的に保存し、続いて、RAM310の作業領域312に格納する。ここで、イベントとは、図2に表示されるイベントID201、イベントの発生日時202、イベントの属性値203から構成される。
(Step 1101)
After the failure clustering process is started, the failure cause determination rule generation program 311 accesses the log DB 103 via the communication device 332, and an event related to the failure (the attribute “type” of the event 203 is “fatal” or “emergency”). And events that take a value such as “error” and do not include an event that takes a value not related to a failure such as “information”). Thereafter, the failure cause determination rule generation program 311 temporarily stores the acquired event in the data storage unit 322 of the hard disk drive 320 and then stores it in the work area 312 of the RAM 310. Here, the event includes an event ID 201, an event occurrence date / time 202, and an event attribute value 203 displayed in FIG.

(ステップ1102)
障害原因判定ルール生成プログラム311は、作業領域312に格納されている最近取得したイベントの発生日時202と一つ前のイベントの発生日時202との差が、障害原因判定ルール生成プログラム画面700内の時間窓単位入力部711で指定された時間以内か否か判定する。時間以内の場合、障害原因判定ルール生成プログラム311はステップ1104を実行し、時間以内でない場合、障害原因判定ルール生成プログラム311はステップ1103を実行する。
(Step 1102)
The failure cause determination rule generation program 311 indicates that the difference between the recently acquired event occurrence date and time 202 stored in the work area 312 and the previous event occurrence date and time 202 is in the failure cause determination rule generation program screen 700. It is determined whether or not it is within the time specified by the time window unit input unit 711. If it is within the time, the failure cause determination rule generation program 311 executes Step 1104. If not within the time, the failure cause determination rule generation program 311 executes Step 1103.

(ステップ1103)
ステップ1103において、障害原因判定ルール生成プログラム311は、新規イベントブロックを作成し、最近取得したイベントを新規に作成したイベントブロックに分類する。例えば図2のイベントログの場合、イベントID201が“5”のイベントの発生日時202 「2009/05/23 12:23:35」と、直前のイベントID201が“4”のイベントの発生日時202 「2009/05/23 10:30:34」との時間差が、時間窓単位入力部711で指定された時間「10分」以上である。従って、障害原因判定ルール生成プログラム311は、イベントID201が“5”と“4”のイベントを別の障害によって発生したイベントと見なし、イベントID201が“5”のイベントを新規のイベントブロックに分類する。
(Step 1103)
In step 1103, the failure cause determination rule generation program 311 creates a new event block, and classifies recently acquired events into newly created event blocks. For example, in the case of the event log of FIG. 2, the event occurrence date 202 “2009/05/23 12:23:35” with the event ID 201 “5” and the event occurrence date 202 “2” immediately before the event ID 201 “ The time difference from “2009/05/23 10:30:34” is equal to or greater than the time “10 minutes” specified by the time window unit input unit 711. Therefore, the failure cause determination rule generation program 311 regards events with event IDs 201 “5” and “4” as events caused by different failures, and classifies events with event ID 201 “5” as new event blocks. .

(ステップ1104)
ステップ1104において、障害原因判定ルール生成プログラム311は、最近取得したイベントを一つ前のイベントと同じイベントブロックに追加する。例えば図2のイベントログの場合、イベントID201が“4”のイベントの発生日時202 「2009/05/23 10:30:34」と、直前のイベントID201が“3”のイベントの発生日時202 「2009/05/23 10:27:26」との時間差が、時間窓単位入力部711で指定された時間「10分」以内である。従って、障害原因判定ルール生成プログラム311は、イベントIDが“4”と“3”のイベントを一つの障害によって連続的に発生したイベントと見なし、同じイベントブロックに分類する。
(Step 1104)
In step 1104, the failure cause determination rule generation program 311 adds the recently acquired event to the same event block as the previous event. For example, in the event log of FIG. 2, the event occurrence date 202 “2009/05/23 10:30:34” with the event ID 201 “4” and the event occurrence date 202 “3” immediately before the event ID 201 “ The time difference from “2009/05/23 10:27:26” is within the time “10 minutes” specified by the time window unit input unit 711. Therefore, the failure cause determination rule generation program 311 regards events having event IDs “4” and “3” as events that have occurred continuously due to one failure, and classifies them into the same event block.

(ステップ1105)
障害原因判定ルール生成プログラム311は、イベントログDB103に未取得のイベントが残っているか確認する。残っている場合、障害原因判定ルール生成プログラム311はステップ1101を実行し、残っていない場合、ステップ1106を実行する。
(Step 1105)
The failure cause determination rule generation program 311 confirms whether an unacquired event remains in the event log DB 103. If it remains, the failure cause determination rule generation program 311 executes Step 1101, and if not, executes Step 1106.

図12は、図2のイベント(イベントID201が1から17)をステップ1101からステップ1105の手順に従ってイベントブロックごとに分類した後のイベントブロックテーブル1200である。イベントブロックテーブル1200は、イベントブロックを一意に識別するイベントブロックID1201、イベントID201、イベントの発生日時202、イベントの属性203から構成される。   FIG. 12 is an event block table 1200 after the events of FIG. 2 (event ID 201 is 1 to 17) are classified for each event block according to the procedure from step 1101 to step 1105. The event block table 1200 includes an event block ID 1201 that uniquely identifies an event block, an event ID 201, an event occurrence date 202, and an event attribute 203.

(ステップ1106)
障害原因判定ルール生成プログラム311は、作成したイベントブロックテーブル1200において、イベントブロック毎に特徴を抽出する。図13は、図12に示すイベントブロックテーブル1200から作成したイベントブロック特徴テーブル1300の一例である。イベントブロック特徴テーブル1300は、イベントブロックID1201、イベントブロック内のイベントの属性値の特徴である属性リスト1301、イベントブロック内に含まれるイベント数1302、イベントブロック内の最後のイベントと最初のイベントの発生日時202の差である時間幅1303から構成される。属性リスト1301は、イベントブロックに含まれるイベントの各属性203に対して最も頻出する属性値と2番目に頻出する属性値から構成される。
(Step 1106)
The failure cause determination rule generation program 311 extracts features for each event block in the created event block table 1200. FIG. 13 is an example of an event block feature table 1300 created from the event block table 1200 shown in FIG. The event block feature table 1300 includes an event block ID 1201, an attribute list 1301 that is a feature of the attribute value of the event in the event block, the number of events 1302 included in the event block, the last event in the event block, and the occurrence of the first event It consists of a time width 1303 that is the difference between the date and time 202. The attribute list 1301 includes attribute values that appear most frequently and attribute values that appear second most frequently for each attribute 203 of the event included in the event block.

(ステップ1107)
障害原因判定ルール生成プログラム311は、ステップ1106で求めたイベントブロック特徴テーブル1300に基づいてイベントブロックをクラスタリングする。クラスタリング手法には、例えば非特許文献1に記載された概念クラスタリングCOBWEB等を使用すると良い。クラスタリングを実行すると、障害の概念木が生成される。
(Step 1107)
The failure cause determination rule generation program 311 clusters event blocks based on the event block feature table 1300 obtained in step 1106. As the clustering method, for example, conceptual clustering COBWEB described in Non-Patent Document 1 may be used. When clustering is executed, a concept tree of failures is generated.

(2)復旧手順書検索
ここでは、ステップ609で実行される復旧手順書検索処理の詳細動作を説明する。図14に、復旧手順書検索処理で実行される処理手順の概要を示す。
(2) Recovery Procedure Manual Search Here, the detailed operation of the recovery procedure manual search process executed in step 609 will be described. FIG. 14 shows an outline of the processing procedure executed in the recovery procedure manual search processing.

(ステップ1401)
復旧手順書検索処理の開始後、障害原因判定ルール生成プログラム311は、RAM310の作業領域312に格納されているイベントパターン候補1046から属性値の特徴を抽出する。特徴を抽出する方法としては、検索に有効な属性に対して、属性“種類”の重要度がより高いイベントの属性値、イベントパターン候補の最初のイベントの属性値、頻出する属性値などから決める。イベントパターン候補1046では、検索に有効である属性”ソース”及び”イベント番号”に対して、属性”種類”の属性値が確定しており、最初に出現する頻出イベントラベルAのイベントの属性値から、(process71, 80)が特徴となる。
(Step 1401)
After starting the recovery procedure manual search process, the failure cause determination rule generation program 311 extracts the feature of the attribute value from the event pattern candidate 1046 stored in the work area 312 of the RAM 310. The method for extracting features is determined from the attribute value of the event with the higher importance of the attribute “type”, the attribute value of the first event of the event pattern candidate, the attribute value that appears frequently, etc. . In the event pattern candidate 1046, the attribute value of the attribute “type” is fixed for the attributes “source” and “event number” that are valid for the search, and the attribute value of the event of the frequent event label A that appears first. Therefore, (process71, 80) is a feature.

(ステップ1402)
障害原因判定ルール生成プログラム311は、ステップ1401で抽出した属性値の特徴とその属性名を組み合わせた検索キーワード”ソース process71 イベント番号 80”を生成する。このとき、組み合わせる属性名は、復旧手順書で良く使用される名前を利用して”プロセス名 prcess71 エラーコード 80”とすることもできる。また復旧手順書の言語を考慮して、”process name process71 error 80“とすることもできる。
(Step 1402)
The failure cause determination rule generation program 311 generates a search keyword “source process71 event number 80” that combines the attribute value feature extracted in step 1401 and its attribute name. At this time, the attribute name to be combined can be “process name prcess71 error code 80” by using a name often used in the recovery procedure manual. In addition, “process name process71 error 80” can be set in consideration of the language of the recovery procedure manual.

(ステップ1403)
障害原因判定ルール生成プログラム311は、通信装置332を介して復旧手順書DB105にアクセスし、ステップ1402で生成した検索キーワードを用いて復旧手順書DB105を検索する。さらに、障害原因判定ルール生成プログラム311は、通信装置332を介して実行された検索処理でヒットした復旧手順書を復旧手順書DB105から取得し、一時的にハードディスク駆動装置320のデータ格納部332に保存した後、RAM310の作業領域312に格納する。
(Step 1403)
The failure cause determination rule generation program 311 accesses the recovery procedure manual DB 105 via the communication device 332 and searches the recovery procedure manual DB 105 using the search keyword generated in step 1402. Further, the failure cause determination rule generation program 311 acquires the recovery procedure manual hit by the search process executed via the communication device 332 from the recovery procedure DB 105 and temporarily stores it in the data storage unit 332 of the hard disk drive 320. After saving, it is stored in the work area 312 of the RAM 310.

(効果)
以上説明したように、本実施形態に係る障害原因判定ルール生成装置(プログラム)を実装する障害原因解析システムにおいては、以下の処理動作が実行される。
(1)障害時に監視サーバ102が生成したイベントをログDB103から取得する。
(2)取得したイベントを障害毎のイベントブロックに分割し、そのイベントブロックの特徴に基づいて障害をクラスタリングし、障害クラスタを生成する。イベントブロックは、障害との関連性が高い1つ又は複数のイベントで構成される。障害クラスタは、同じ障害から発生した可能性の高いイベントブロックの集合である。
(3)障害クラスタ内のイベントブロックに頻出する頻出イベントを発見する。
(4)発見した頻出イベントを時系列で並べた頻出イベント列から頻出イベントパターンを発見する。
(5)発見した頻出イベントパターンの属性値に基づいて検索キーワードを作成し、復旧手順書のデータベースから対応する復旧手順書を検索する。
(6)得られた頻出イベントパターンと復旧手順書とを組み合わせて障害原因判定ルールを生成する。
(effect)
As described above, in the failure cause analysis system that implements the failure cause determination rule generation device (program) according to the present embodiment, the following processing operations are executed.
(1) The event generated by the monitoring server 102 at the time of failure is acquired from the log DB 103.
(2) The acquired event is divided into event blocks for each fault, and faults are clustered based on the characteristics of the event block to generate a fault cluster. The event block is composed of one or a plurality of events that are highly related to a failure. A failure cluster is a set of event blocks that are likely to have occurred from the same failure.
(3) Find frequent events that frequently appear in event blocks in the failure cluster.
(4) A frequent event pattern is found from a frequent event sequence in which the frequent events found are arranged in time series.
(5) A search keyword is created based on the attribute value of the found frequent event pattern, and the corresponding recovery procedure manual is searched from the recovery procedure database.
(6) A failure cause determination rule is generated by combining the obtained frequent event pattern and the recovery procedure manual.

すなわち、障害原因が同じ可能性が高い障害ブロックに基づいて障害判定ルール(頻出イベント)を発見することにより、障害に関連する可能性の高い障害原因判定ルールを条件句として作成することができる。また、作成された条件句に、統計的に高い行為句を組み合わせることにより、障害の復旧に適した障害原因判定ルールを自動的に生成することができる。   That is, by finding a failure determination rule (frequent event) based on a failure block that is likely to have the same failure cause, a failure cause determination rule that is highly likely to be related to a failure can be created as a conditional phrase. Further, a failure cause determination rule suitable for failure recovery can be automatically generated by combining a statistically high action phrase with the created conditional phrase.

Claims (8)

障害時に監視サーバが生成したイベントをイベントログデータベースから自動的に取得する第1の処理部と、
自動的に取得されたイベントを障害毎のイベントブロックに自動的に分割し、そのイベントブロックの特徴に基づいて障害を自動的にクラスタリングし、障害クラスタを生成する第2の処理部と、
障害クラスタ内のイベントブロックに頻出する頻出イベントを自動的に発見する第3の処理部と、
発見された頻出イベントを時系列で並べた頻出イベント列から頻出イベントパターンを自動的に発見する第4の処理部と、
発見された頻出イベントパターンの属性値に基づいて検索キーワードを自動的に作成し、復旧手順書のデータベースから対応する復旧手順書を自動的に検索する第5の処理部と、
得られた頻出イベントパターンと復旧手順書とを組み合わせて障害原因判定ルールを自動的に生成する第6の処理部と
を有する障害原因解析システム向けルール生成装置。
A first processing unit for automatically acquiring an event generated by the monitoring server at the time of failure from the event log database;
A second processing unit that automatically divides an automatically acquired event into event blocks for each failure, automatically clusters failures based on the characteristics of the event block, and generates a failure cluster;
A third processing unit that automatically finds frequent events that frequently appear in event blocks in the failure cluster;
A fourth processing unit for automatically finding a frequent event pattern from a frequent event sequence in which the frequent events found are arranged in time series;
A fifth processing unit that automatically creates a search keyword based on the attribute value of the frequently-occurring event pattern found, and automatically searches for a corresponding recovery procedure manual from a database of the recovery procedure manual;
A rule generation device for a failure cause analysis system, comprising: a sixth processing unit that automatically generates a failure cause determination rule by combining the obtained frequent event pattern and a recovery procedure manual.
前記第2の処理部は、一つ前のイベントの発生時刻との差が時間窓単位以内であるイベントを、一つ前のイベントが属するイベントブロックに分類する
ことを特徴とする請求項1に記載の障害原因解析システム向けルール生成装置。
The second processing unit categorizes an event whose difference from an occurrence time of the previous event is within a time window unit into an event block to which the previous event belongs. The rule generation device for the failure cause analysis system described.
前記第2の処理部は、イベントブロックに含まれるイベントに頻出する属性値、イベントブロックの時間幅(イベントブロック内の最初のイベントと最後のイベントの発生時間の差)、イベントブロック内のイベント数のいずれか一つ又は複数をイベントブロックの特徴とする
ことを特徴とする請求項1又は2に記載の障害原因システム向けルール生成装置。
The second processing unit includes an attribute value that frequently appears in an event included in the event block, a time width of the event block (difference between occurrence times of the first event and the last event in the event block), and the number of events in the event block The rule generation device for a failure cause system according to claim 1 or 2, wherein any one or a plurality of the event block is characterized by an event block.
前記第3の処理部は、値が不定の属性値を含まない最小有効属性数と、最小サポートイベントブロック数を満たす頻出イベントを発見する
ことを特徴とする請求項1〜3のいずれか一項に記載の障害原因解析システム向けルール生成装置。
The said 3rd process part discovers the frequent event which satisfy | fills the minimum number of effective attributes which do not contain an indefinite attribute value, and the minimum number of support event blocks. Rule generation device for failure cause analysis system described in 1.
前記第3の処理部は、発見した同一の頻出イベントに対応するイベントブロック内の複数のイベントを同色又は同じ記号で表現し、頻出イベントの障害クラスタ内での分布を視覚化する
ことを特徴とする請求項1〜4のいずれか一項に記載の障害原因解析システム向けルール生成装置。
The third processing unit represents a plurality of events in an event block corresponding to the same frequent event found with the same color or the same symbol, and visualizes the distribution of the frequent events in the failure cluster. The rule generation device for a failure cause analysis system according to any one of claims 1 to 4.
前記第4の処理部は、最小サポートイベントブロック数を満たす頻出イベントパターンを発見する
ことを特徴とする請求項1〜5のいずれか一項に記載の障害原因解析システム向けルール生成装置。
6. The rule generation device for a failure cause analysis system according to claim 1, wherein the fourth processing unit finds a frequent event pattern that satisfies a minimum number of support event blocks. 7.
前記第5の処理部は、頻出イベントパターンに含まれる高い重要度を持つイベントの属性値、頻出する属性値、最初のイベントの属性値のいずれか一つ又は複数の属性値と、対応する属性名とを組み合わせて検索キーワードを生成する
ことを特徴とする請求項1〜6のいずれか一項に記載の障害原因解析システム向けルール生成装置。
The fifth processing unit includes one or more attribute values of an attribute value of an event having a high importance included in a frequent event pattern, an attribute value that frequently appears, and an attribute value of the first event, and a corresponding attribute The rule generation device for a failure cause analysis system according to any one of claims 1 to 6, wherein a search keyword is generated in combination with a name.
コンピュータに、
イベントログデータベースから障害時に監視サーバが生成したイベントを取得する第1の処理と、
取得したイベントを障害毎のイベントブロックに分割し、そのイベントブロックの特徴を基に障害をクラスタリングし、障害クラスタを生成する第2の処理と、
障害クラスタ内のイベントブロックに頻出する頻出イベントを発見する第3の処理と、
発見した頻出イベントを時系列で並べた頻出イベント列から、頻出イベントパターンを発見する第4の処理と、
発見した頻出イベントパターンの属性値に基づいて検索キーワードを作成し、復旧手順書のデータベースから対応する復旧手順書を検索する第5の処理と、
得られた頻出イベントパターンと復旧手順書とを組み合わせて障害原因判定ルールを生成する第6の処理と
を実行させるプログラム。
On the computer,
A first process for acquiring an event generated by the monitoring server at the time of failure from the event log database;
A second process of dividing the acquired event into event blocks for each failure, clustering failures based on the characteristics of the event block, and generating a failure cluster;
A third process for finding a frequent event that frequently appears in the event block in the failure cluster;
A fourth process for finding a frequent event pattern from a frequent event sequence in which the frequent events found are arranged in time series;
A fifth process of creating a search keyword based on the attribute value of the found frequent event pattern and searching the corresponding recovery procedure manual from the recovery procedure database;
A program for executing a sixth process of generating a failure cause determination rule by combining the obtained frequent event pattern and the recovery procedure manual.
JP2010075802A 2010-03-29 2010-03-29 Rule generation device and program for failure cause analysis system Expired - Fee Related JP5395719B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010075802A JP5395719B2 (en) 2010-03-29 2010-03-29 Rule generation device and program for failure cause analysis system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010075802A JP5395719B2 (en) 2010-03-29 2010-03-29 Rule generation device and program for failure cause analysis system

Publications (2)

Publication Number Publication Date
JP2011209908A true JP2011209908A (en) 2011-10-20
JP5395719B2 JP5395719B2 (en) 2014-01-22

Family

ID=44940914

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010075802A Expired - Fee Related JP5395719B2 (en) 2010-03-29 2010-03-29 Rule generation device and program for failure cause analysis system

Country Status (1)

Country Link
JP (1) JP5395719B2 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013140608A1 (en) * 2012-03-23 2013-09-26 株式会社日立製作所 Method and system that assist analysis of event root cause
JP2015153078A (en) * 2014-02-13 2015-08-24 日本電信電話株式会社 Employment history analysis device, method and program
JP2018028760A (en) * 2016-08-16 2018-02-22 富士ゼロックス株式会社 Information processing apparatus and program
JP2018528529A (en) * 2015-08-05 2018-09-27 フェイスブック,インク. Connected device rules engine
CN111198924A (en) * 2018-11-19 2020-05-26 长鑫存储技术有限公司 Method for establishing product failure knowledge base, failure analysis method, device and medium

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11224214A (en) * 1998-02-05 1999-08-17 Fujitsu Ltd Event classifying device and its program record medium
JP2006190002A (en) * 2005-01-04 2006-07-20 Olympus Corp Failure monitoring device and method
JP2006236199A (en) * 2005-02-28 2006-09-07 Japan Research Institute Ltd Printing method and printing program of work instruction list
JP2007172131A (en) * 2005-12-20 2007-07-05 Nec Fielding Ltd Failure prediction system, failure prediction method and failure prediction program
JP2008198123A (en) * 2007-02-15 2008-08-28 Hitachi Information Systems Ltd Fault detection system and fault detection program
JP2010055305A (en) * 2008-08-27 2010-03-11 Oki Electric Ind Co Ltd System, method and program for registering diagnostic item

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11224214A (en) * 1998-02-05 1999-08-17 Fujitsu Ltd Event classifying device and its program record medium
JP2006190002A (en) * 2005-01-04 2006-07-20 Olympus Corp Failure monitoring device and method
JP2006236199A (en) * 2005-02-28 2006-09-07 Japan Research Institute Ltd Printing method and printing program of work instruction list
JP2007172131A (en) * 2005-12-20 2007-07-05 Nec Fielding Ltd Failure prediction system, failure prediction method and failure prediction program
JP2008198123A (en) * 2007-02-15 2008-08-28 Hitachi Information Systems Ltd Fault detection system and fault detection program
JP2010055305A (en) * 2008-08-27 2010-03-11 Oki Electric Ind Co Ltd System, method and program for registering diagnostic item

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013140608A1 (en) * 2012-03-23 2013-09-26 株式会社日立製作所 Method and system that assist analysis of event root cause
JP5684946B2 (en) * 2012-03-23 2015-03-18 株式会社日立製作所 Method and system for supporting analysis of root cause of event
US9354961B2 (en) 2012-03-23 2016-05-31 Hitachi, Ltd. Method and system for supporting event root cause analysis
JP2015153078A (en) * 2014-02-13 2015-08-24 日本電信電話株式会社 Employment history analysis device, method and program
JP2018528529A (en) * 2015-08-05 2018-09-27 フェイスブック,インク. Connected device rules engine
JP2018028760A (en) * 2016-08-16 2018-02-22 富士ゼロックス株式会社 Information processing apparatus and program
CN111198924A (en) * 2018-11-19 2020-05-26 长鑫存储技术有限公司 Method for establishing product failure knowledge base, failure analysis method, device and medium
CN111198924B (en) * 2018-11-19 2022-11-25 长鑫存储技术有限公司 Product failure knowledge base establishing method, failure analysis method, device and medium

Also Published As

Publication number Publication date
JP5395719B2 (en) 2014-01-22

Similar Documents

Publication Publication Date Title
US11100113B2 (en) Object score adjustment based on analyzing machine data
US11798209B1 (en) Systems and methods for rendering a third party visualization in response to events received from search queries
JP6538980B2 (en) Automated anomaly detection service in heterogeneous mixed log streams
US11698900B2 (en) Leveraging search query history in a search interface
US9983954B2 (en) High availability scheduler for scheduling searches of time stamped events
US9612898B2 (en) Fault analysis apparatus, fault analysis method, and recording medium
US11477263B2 (en) Identifying un-deployed features of an application
JP5395719B2 (en) Rule generation device and program for failure cause analysis system
JP5651381B2 (en) Failure cause determination rule verification device and program
US10216862B1 (en) Predictive estimation for ingestion, performance and utilization in a data indexing and query system
JP2014048673A (en) Workflow generation server and method
KR20090033274A (en) Information processing method and device for work process analysis
JP6885784B2 (en) Incident management equipment, incident management methods and computer programs
US20200012543A1 (en) Event Monitoring Apparatus and Event Monitoring Method
JP4928848B2 (en) Message converter in computer system integrated management environment.
JP2012003713A (en) Apparatus and program for detecting change in fault cause determination rule
JP5295062B2 (en) Automatic query generation device for complex event processing
US20070033178A1 (en) Quality of service feedback for technology-neutral data reporting
JP5417264B2 (en) Method of providing analysis information
JP5623950B2 (en) IT failure sign detection device and program
JP2018081403A (en) Incident management system, incident management method and computer program
JP5444071B2 (en) Fault information collection system, method and program
JP2012212228A (en) It failure detection/retrieval device and program
US11720591B1 (en) Virtual metrics
US20230143297A1 (en) Production knowledge management system, production knowledge management method, and production knowledge management program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120720

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130911

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130924

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131018

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees