JP2011209908A - Rule creation device in failure cause analysis system and its program - Google Patents
Rule creation device in failure cause analysis system and its program Download PDFInfo
- Publication number
- JP2011209908A JP2011209908A JP2010075802A JP2010075802A JP2011209908A JP 2011209908 A JP2011209908 A JP 2011209908A JP 2010075802 A JP2010075802 A JP 2010075802A JP 2010075802 A JP2010075802 A JP 2010075802A JP 2011209908 A JP2011209908 A JP 2011209908A
- Authority
- JP
- Japan
- Prior art keywords
- event
- failure
- failure cause
- frequent
- determination rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
- Test And Diagnosis Of Digital Computers (AREA)
Abstract
Description
本発明は、障害原因解析システムに利用される障害原因判定ルールを、過去のイベントログに基づいて生成する装置及びそのプログラムに関する。 The present invention relates to a device for generating a failure cause determination rule used in a failure cause analysis system based on a past event log and a program thereof.
システム障害発生時における復旧作業の遅延は、企業の業績や社会インフラに大きな影響を与える。システム障害の迅速な復旧には、初動時の対応すなわち障害原因の早期特定と復旧手順の決定が重要である。 Delays in recovery work in the event of a system failure have a major impact on corporate performance and social infrastructure. In order to quickly recover from a system failure, it is important to respond to the initial action, that is, identify the cause of the failure early and determine the recovery procedure.
現在、障害発生時における迅速な復旧を支援する目的で、障害原因解析システムが提案されている(特許文献1)。この解析システムは、ユーザ自身が主に手作業で事前に作成・登録した障害原因判定ルールを使用する。障害発生時、この解析システムは、事前に作成された障害原因判定ルールに基づいて、サーバ等のIT基盤を監視している監視サーバが生成したイベントを自動的に解析し、解析結果に応じた適切な復旧手順を復旧担当者に自動的に提示する。なお、障害原因判定ルールは、特定の障害時に発生するイベントの発生パターンと復旧手順とを対応付けたデータ構造を有する。障害原因判定ルールのうち、障害を特定するイベントの発生パターンを定義する句を「条件句 (Condition)」といい、その障害に対する復旧手順を定義する句を「行為句(Action)」という。 At present, a failure cause analysis system has been proposed for the purpose of supporting quick recovery when a failure occurs (Patent Document 1). This analysis system uses a failure cause determination rule created and registered in advance by the user, mainly manually. When a failure occurs, this analysis system automatically analyzes the event generated by the monitoring server that monitors the IT infrastructure such as the server based on the failure cause determination rule created in advance, and responds to the analysis result. Appropriate recovery procedures are automatically presented to recovery personnel. The failure cause determination rule has a data structure in which an occurrence pattern of an event that occurs at the time of a specific failure is associated with a recovery procedure. Of the failure cause determination rules, a phrase that defines an occurrence pattern of an event that identifies a failure is called a “condition”, and a phrase that defines a recovery procedure for the failure is called an “action”.
その一方で、人手による障害原因判定ルールの作成には困難が伴う。このため、イベントログから障害原因判定ルールの条件句を自動生成する方法が提案されている(特許文献2〜4)。各特許文献は、障害発生時における個々のイベントの振る舞いを解析し、障害原因判定ルールの条件句を求める手法が開示されている。例えば特許文献2には、特定イベントの発生頻度を利用する方法が記載されている。また、特許文献3には、イベントの生起パターンを利用する方法が記載さている。また、特許文献4には、正常値と比較した属性値の異常度の利用により、発生した障害を特徴付けるイベントを定義し、その結果を判定ルールに反映させる手法が記載されている。
On the other hand, it is difficult to manually create a failure cause determination rule. For this reason, a method for automatically generating a condition phrase of a failure cause determination rule from an event log has been proposed (
復旧時間の短縮には、障害原因が同じ障害には同じ適切な対応手順を定めることと、一旦定めた対応手順の見直しと改善とが必要となる。このため、自動生成技術によって生成される障害原因判定ルールは、障害原因が同じ障害に対して共通に適用でき、その障害に対して適切な対応手順を提示することが要求される。 In order to shorten the recovery time, it is necessary to determine the same appropriate response procedure for failures with the same cause of failure, and to review and improve the once determined response procedure. For this reason, the failure cause determination rule generated by the automatic generation technique can be commonly applied to failures with the same failure cause, and it is required to present an appropriate response procedure for the failure.
しかし、前述した障害原因判定ルールの自動生成技術には、次の2つの課題がある。
(1)障害原因が同じ障害への適用保障
特許文献2から4に係る条件句の自動生成技術では、障害発生時、発生した個々のイベントに基づいて、障害に対する条件句を作成している。しかし、これらの方法は、障害原因が同じ障害に対して同じ対応手順を適用できる保障がない。実際、障害原因は同じでも、個々の障害には、当該障害と無関係のイベントが何らかの理由により発生することがある。このため、個々の障害について発生するイベントから導出される条件句を、他の障害に対して適用できない場合がある。
(2)不完全な障害原因判定ルールの生成
特許文献2から4に係る自動生成技術は、障害発生時のイベントの振舞いを解析し、障害原因判定ルールの条件句のみを自動的に生成するものであり、行為句は生成しない。このため、従来システムでは、行為句についてはユーザ自身が作成する必要がある。しかし、作成される行為句の内容はユーザのスキルに依存し、適切な復旧手順が選択されない場合がある。
However, the above-described automatic generation technique of the failure cause determination rule has the following two problems.
(1) Guarantee of application to faults with the same cause of failure In the automatic technique for generating conditional phrases according to
(2) Generation of incomplete failure cause determination rule The automatic generation technology according to
そこで、本発明者は、(1) 障害に伴って発生する単数又は複数のイベント(イベントブロック)をその特徴に基づいてクラスタリングし(このとき、同じクラスタに属する障害はイベント及びイベントパターンが類似していることになるので、同じ原因による障害と判断できる)、(2) 同じクラスタに属するイベントブロックに頻出するイベントに基づいて障害原因判定ルールの条件句を生成し、(3) 生成された条件句で指定されたイベントの属性値に基づいて検索キーを生成し、(4) 生成された検索キーを用いて検索された復旧手順書を障害原因判定ルールの行為句とすることで、完全な障害原因判定ルールを自動生成することを特徴とする発明を提供する。 Therefore, the present inventor (1) clustered one or a plurality of events (event blocks) that occur due to a failure based on the characteristics (in this case, the failure and the event pattern of the failure belonging to the same cluster are similar). (2) Generate a condition clause for the failure cause determination rule based on events that frequently appear in event blocks belonging to the same cluster, and (3) Generated conditions A search key is generated based on the event attribute value specified in the phrase, and (4) the recovery procedure document searched using the generated search key is used as the action phrase of the failure cause determination rule. An invention characterized in that a failure cause determination rule is automatically generated.
本発明によれば、障害原因が同じ障害に対して共通に適用でき、しかも、障害原因判定ルールの条件句と行為句の両方で構成される障害原因判定ルールを自動的に生成することができる。 According to the present invention, a failure cause determination rule that can be applied in common to failures with the same cause of failure and that includes both a conditional phrase and an action phrase of the failure cause determination rule can be automatically generated. .
以下、図面に基づいて、本発明の実施の形態を説明する。なお、後述する装置構成や処理動作の内容は発明を説明するための一例であり、本発明は、後述する装置構成や処理動作に既知の技術を組み合わせた発明や後述する装置構成や処理動作の一部を既知の技術と置換した発明も包含する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. It should be noted that the contents of the device configuration and processing operation described below are examples for explaining the invention, and the present invention relates to an invention in which a known technology is combined with the device configuration and processing operation described later, and the device configuration and processing operation described later. It also includes inventions that partially replace known techniques.
(障害原因解析システムのシステム構成)
図1に、障害原因判定ルール生成装置を実装する障害原因解析システムの構成例を示す。障害原因解析システムは、監視対象サーバ群101と、これらサーバの状態(死活など)を監視し、その状態に応じたイベントを生成する監視サーバ102、監視サーバ102が生成したイベントを格納するログデータベース(DB)103、監視サーバ102が生成したイベントを障害原因判定ルールに基づいて解析する障害原因解析コンピュータ104、障害発生時のトラブルシューティングが記述されたハードウェアやソフトウェアなどのマニュアルや保守担当者による過去の障害時の復旧作業に関する報告書などの障害時の復旧手順に関する文書が格納された復旧手順書データベース(DB)105、障害原因解析コンピュータ104が障害原因判定ルールに基づきイベントを解析して、復旧手順書を特定し、復旧手順書DB105から取得した復旧手順書を障害復旧担当者が閲覧するために表示する復旧手順書閲覧コンピュータ106と、ログDB103からイベントログを取得し障害原因判定ルールを生成する障害原因判定ルール生成コンピュータ107から構成される。
(System configuration of failure cause analysis system)
FIG. 1 shows a configuration example of a failure cause analysis system that implements a failure cause determination rule generation device. The failure cause analysis system monitors the monitoring
図2に、ログDB103に格納されているイベントのテーブル例を示す。テーブルはイベントを一意に特定する識別子(ID)201、イベントが発生した時間を特定する発生日時202、個々のイベントの属性値の集合であるイベント203から構成される。この形態例において、イベント203の属性は次のように定義する。
FIG. 2 shows an example table of events stored in the
(<種類>, <ソース>, <イベント番号>, <ユーザ>, <コンピュータ>)
<種類>は、イベントの緊急度を意味する。<ソース>は、イベントを発生させたプロセス、アプリケーションなどの発生源を意味する。<イベント番号>は、イベントの内容を特定する番号を意味する。<ユーザ>は、イベントの発生源となったプロセスやアプリケーションを実行していたユーザを意味する。<コンピュータ>は、イベントの発生源となった監視対象サーバ群101内のサーバを意味する。
(<Type>, <Source>, <Event number>, <User>, <Computer>)
<Type> means the urgency of the event. <Source> means the source of the process, application, etc. that generated the event. <Event number> means a number that identifies the content of the event. <User> means a user who is executing the process or application that is the source of the event. <Computer> means a server in the monitoring
図5に、障害原因判定ルールの一例を示す。この例は、判定時間2分9秒以内に、属性値タプル(警戒, process71, 80, user2, server9)を持つイベントの後に属性値タプル(*, process39, *, user4, server8)を持つイベントが発生したならば、復旧手順書「○○システム復旧手順書.doc」を復旧担当者に提示することを意味している。ここで、属性値”*”は値が不定であることを示している。また、この障害原因判定ルールでは、イベントパターン501と判定時間502の項目を合わせたものがルールの条件句であり、復旧手順書503の項目がルールの行為句に相当する。
FIG. 5 shows an example of the failure cause determination rule. In this example, an event with an attribute value tuple (*, process39, *, user4, server8) is followed by an event with an attribute value tuple (alert, process71, 80, user2, server9) within the judgment time of 2 minutes and 9 seconds. If it occurs, this means that the restoration procedure “XX System restoration procedure. Doc” is presented to the person in charge of restoration. Here, the attribute value “*” indicates that the value is indefinite. Further, in this failure cause determination rule, a combination of the
図3に、障害原因判定ルール生成コンピュータ107の構成例を示す。障害原因判定ルール生成コンピュータ107は、コンピュータ本体300と、入力装置330と、表示装置331と、通信装置332とから構成される。ここで、通信装置332は、ログDB103と復旧手順書DB105と障害原因解析コンピュータ104との通信を行う。コンピュータ本体300は、データ演算を実行するCPU301、ROM302、RAM310、ハードディスク駆動装置320、これらデバイス間のデータ転送を実現するCPUバス307、前述したデバイスとCPUバス307とを結合するインターフェース303〜306で構成される。
FIG. 3 shows a configuration example of the failure cause determination
RAM310には、CPU301に演算処理を実行させる障害原因判定ルール生成プログラム311の実行領域と、検算時に一時的に生成させるデータを格納する作業領域312とが少なくとも確保される。以下、「障害原因判定ルール生成プログラム311」を、単に「プログラム311」ともいう。また、ハードディスク駆動装置320の記憶領域には、障害原因判定ルール生成プログラムの格納領域としてのプログラム格納部321と、ログDB103及び復旧手順書DB105から取得したデータを一時的に格納しておくデータ格納部322が少なくとも確保される。
The
図7及び図10に、障害原因判定ルール生成コンピュータ107に接続される表示装置331に表示される障害原因判定ルール生成プログラムの条件入力及び計算結果出力用のGUI画面例を示す。障害原因判定ルール生成プログラム画面700は、障害のクラスタリングの実行及び結果を表示する障害クラスタリングタブ701と、障害原因判定ルールを表示するルール作成タブ1001から構成される。これらの画面は、プログラム311を通じて表示装置331の画面上に表示される。
FIG. 7 and FIG. 10 show examples of GUI screens for condition input and calculation result output of the failure cause determination rule generation program displayed on the
障害クラスタリングタブ701は、障害のクラスタリング処理に関連する情報要素をまとめて表示する領域(障害クラスタリング部710)と、個々の障害クラスタに関連する情報要素をまとめて表示する領域(障害クラスタ詳細部720)とから構成される。
The
障害クラスタリング部710は、イベントブロックの分離基準を与える時間窓単位入力部711と、イベントブロックをクラスタリングする際に画面上のポインタを通じてクリック操作されるクラスタリング開始ボタン712と、障害をクラスタリングした結果得られた障害の分類木である障害分類木の表示部713とから構成される。ここで、イベントブロックとは、1つの障害時に発生する単数又は複数のイベントの集合を意味する。図7の例の場合、プログラム311は、障害によって発生したイベントを、その発生日時と一つ前のイベントの発生日時との差が10分以内であれば、一つ前のイベントと同じ障害によって発生したイベントを見なし、同じイベントブロックに分類する。逆に、発生日時の差が10分以上の場合、プログラム311は、発生したイベントを、一つ前のイベントとは異なる障害によって発生したイベントとみなし、新規のイベントブロックに分類する。
The
障害クラスタ詳細部720は、障害分類木表示部713に表示された障害分類木の中から選択されたノードに分類される複数の障害(以後、「障害クラスタ」という。)に含まれる頻出イベントを計算する条件を入力する最小有効属性数入力部721と、最小サポート イベントブロック数入力部722と、頻出イベントの計算を開始する際に画面上のポインタを通じてクリック操作される頻出イベント発見ボタン723と、障害分類木表示部713で選択された障害クラスタ内に含まれるイベントブロックの情報を表示するイベントブロックテーブル730と、頻出イベントの情報を表示する頻出イベントテーブル740から構成される。ここで、有効属性数は、頻出イベントの「*」以外の属性値の数であり、最小有効属性数は頻出イベントが満たすべき最小の有効属性数のことである。また、最小サポート イベントブロック数とは、頻出イベントが含まれているべき最小のイベントブロック数である。前述の通り、”*”は属性値が不定であることを示す。
The failure
イベントブロックテーブル730は、指定された障害クラスタ内のイベントブロック名を表示する障害のイベントブロック731、イベントブロック内のイベントの属性値を表示するイベント732、各イベントに対応する頻出イベントのラベルを表示する頻出イベントラベル733から構成される。頻出イベントテーブル740は、頻出イベントを一意に特定するラベルを表示する頻出イベントラベル741、頻出イベントの属性値を表示するイベント742、イベントブロックテーブル730内のイベントブロックのうち頻出イベントが含まれるイベントブロック数を表示するサポートイベントブロック数743から構成される。
The event block table 730 displays a
ルール作成タブ1001は、最終的に障害原因解析コンピュータ104に登録する障害原因判定ルールに関連する要素をまとめた最終的な障害原因判定ルール部1010と、障害原因判定ルールの条件句の決定に関連する要素をまとめたイベントパターン候補部1030と、障害原因判定ルールの行為句の決定に関連する要素をまとめた復旧手順書検索部1050とから構成される。
The
障害原因判定ルール部1010は、最終的な障害原因判定ルールの決定後、障害原因解析コンピュータ104に登録する際に画面上のポインタを通じてクリック操作される決定ボタン1011と、障害原因判定ルールの内容を表示する障害原因判定ルールテーブル1020から構成される。障害原因判定ルールテーブル1020は、イベントが出現するパターンを表示するイベントパターン1021と、そのパターンが出現する時間間隔である判定時間1022と、判定時間1022内にそのイベントパターンが出現したときに復旧手順書閲覧コンピュータ106に表示させる復旧手順書名を表示する復旧手順書1023から構成される。
After determining the final failure cause determination rule, the failure cause
イベントパターン候補部1030は、障害原因判定ルールの条件句のイベントパターン1021及び判定時間1022の候補を表示するイベントパターンテーブル1040と、イベントパターンテーブル1040の中から選択された候補を障害原因判定ルールのイベントパターン1021及び判定時間1022として決定する際に画面上のポインタを通じてクリック操作される決定ボタン1031から構成される。イベントパターンテーブル1040は、イベントパターン候補を一意に識別する番号を表示する候補1041と、対応する頻出イベントのラベルを表示する頻出イベントラベル1042と、イベントパターンのイベントの属性値を表示するイベントパターン1043と、その判定時間を表示する判定時間1044と、このイベントパターンが含まれるイベントブロック数を表示するイベントブロックサポート数1045から構成される。
The event
復旧手順書候補部1050は、検索キーワードを入力する検索キーワード入力部1052、復旧手順書DB105に対して復旧手順書を検索する際に画面上のポインタを通じてクリック操作される検索ボタン1053、検索された復旧手順書一覧を表示する復旧手順書テーブル1060と、復旧手順書テーブル1060の中から選択された復旧手順書を障害原因判定ルールの復旧手順書1063として決定する際に画面上のポインタを通じてクリック操作される決定ボタン1051から構成される。復旧手順書テーブル1060は、検索された復旧手順書名を表示する復旧順書1061と、検索された復旧手順書のスコアを表示するスコア1062から構成される。
The recovery procedure
(障害原因解析動作)
図4に、障害原因解析システムの全体で実行される障害原因解析プロセスの概要を示す。最初に、障害原因判定ルール生成コンピュータ107は、ログDB103からイベントログを取得して障害原因判定ルールを生成し、障害原因解析コンピュータ104に登録する(ステップ401)。図5に、障害原因判定ルール生成コンピュータ107によって生成された障害原因判定ルールの例を示す。
(Failure cause analysis operation)
FIG. 4 shows an outline of a failure cause analysis process executed in the entire failure cause analysis system. First, the failure cause determination
監視サーバ102は、監視対象サーバ群101を監視し、その状態に応じたイベントを生成する(ステップ402)。この後、監視サーバ102は、生成したイベントを障害原因解析コンピュータ104に送信し、同時に、生成したイベントをイベントログDB103に格納する。ここで、生成されるイベントは、図2に示すイベントログテーブルのイベント203を構成する属性値の集合である。
The
障害原因解析コンピュータ104は、監視サーバ102が発生させたイベントを受信し(ステップ403)、登録されている障害原因判定ルールの条件句のパターンと、受信したイベントの出現パターンとのマッチング処理を実行する(ステップ404)。
The failure
イベントの出現パターンが障害原因判定ルールの条件句と一致している場合、障害原因解析コンピュータ104は、その障害原因判定ルールの復旧手順書を復旧手順書DB105から取得し(ステップ406)、復旧手順書閲覧コンピュータ106に送信する(ステップ407)。その後、復旧手順閲覧コンピュータ106は、受信した復旧手順書を表示する(ステップ408)。
If the event occurrence pattern matches the condition phrase of the failure cause determination rule, the failure
なお、イベントの出現パターンが障害原因判定ルールの条件句と一致しない場合、障害原因解析コンピュータ104は、ステップ402に戻る。
If the event appearance pattern does not match the condition phrase of the failure cause determination rule, the failure
(障害原因判定ルール生成動作)
(a)動作の概要
(ステップ600)
図6に、障害原因判定ルール生成プログラム311を通じて実行される障害原因判定ルール生成プロセスの概要を示す。このプログラム311は、表示装置331に表示される初期状態の障害原因判定ルール生成プログラム画面700(図7)の時間窓単位入力部711に単位時間が入力された後、クラスタリング開始ボタン712に対するクリック操作が検出されることで開始される。ここでのクリック操作は、障害原因判定ルール生成コンピュータ107を構成する入力装置330に対するユーザ操作を通じて入力される。プログラム311は、障害原因判定ルール生成コンピュータ107で実行される。
(Error cause determination rule generation operation)
(A) Outline of operation (step 600)
FIG. 6 shows an outline of the failure cause determination rule generation process executed through the failure cause determination
(ステップ601)
障害原因判定ルール生成プログラム311は、該当する操作入力を検出すると、時間窓単位入力部711に入力された数値又は内容を読み取り、RAM310の作業領域312に格納する。さらに、障害原因判定ルール生成プログラム311は、障害原因判定ルール生成プログラム311に記述された障害クラスタリング処理の処理手順に従い、障害クラスタリング処理を実行する。この処理内容の詳細は後述する。
(Step 601)
When the failure cause determination
(ステップ602)
障害原因判定ルール生成プログラム311は、障害クラスタリングの実行結果を、表示装置331を通して障害原因判定ルール生成プログラム画面700上に表示する。図8は、障害クラスタリングの処理結果を障害原因判定ルール生成プログラム画面700に表示した様子の具体例を示している。障害クラスタ表示部713には、障害クラスタリングの実行結果が概念木で表示され、概念木のノードである選択された障害クラスタ714に含まれるイベントブロックの情報がイベントブロックテーブル730に表示される。図8の表示例の場合、ユーザにより選択された障害クラスタ714(障害クラスタ3)は、2008/10/11と、2008/10/25と、2008/12/02とに発生した障害から構成されること、各障害時に3個、2個、3個のイベントがそれぞれ発生したことが分かる。
(Step 602)
The failure cause determination
(ステップ603)
障害原因判定ルール生成プログラム311は、次に頻出イベント発見処理を実行する。この頻出イベント発見処理は、表示装置331に表示された障害原因判定ルール生成プログラム画面700(図8)を構成する障害クラスタ表示部731において特定の障害クラスタ714がユーザによって選択され、かつ、当該選択された障害クラスタ714に関するイベントブロック情報がイベントブロックテーブル730に表示された状態で、入力部
(最小有効属性数入力部721と最小サポートイベントブロック数入力部722)に数値が入力された後、クラスタリング開始ボタン712に対するクリック操作が検出されることで開始される。ここでの選択、数値の入力及びクリック操作は、障害原因判定ルール生成コンピュータ107を構成する入力装置330に対するユーザ操作を通じて入力される。
(Step 603)
Next, the failure cause determination
(ステップ604)
障害原因判定ルール生成プログラム311は、当該操作入力を検出すると、図8の障害原因判定ルール生成プログラム画面700内の入力部(最小有効属性数入力部721と最小サポートイベントブロック数入力部722)に入力された数値及びイベントブロックテーブル730に表示された内容を読み取り、RAM310の作業領域312に格納する。さらに、障害原因判定ルール生成プログラム311は、障害原因判定ルール生成プログラム311に記述された頻出イベント発見処理の処理手順に従い、作業領域312に格納されたイベントブロックテーブルのイベントから頻出イベントを発見する。
(Step 604)
When the failure cause determination
ここで、頻出イベントとは、イベントブロックテーブル730に含まれるイベントのうち、最小サポートイベントブロック数入力部722に入力されたイベントブロック数を満たす頻度で出現しているイベントである。ただし、頻出イベントは、イベントブロックテーブル730に含まれるイベントの属性値と完全一致する必要はなく、一部の属性は不定(*)としても良い。このとき、頻出イベントの有効属性数(*以外の属性値の数)は、最小有効属性数入力部721の最小有効属性数を満たす必要がある。
Here, a frequent event is an event that appears at a frequency that satisfies the number of event blocks input to the minimum supported event block
(ステップ605)
障害原因判定ルール生成プログラム311は、頻出イベント発見処理の実行結果を、表示装置331を通して障害原因判定ルール生成プログラム画面700に表示する。図9は、頻出イベント発見処理の実行結果を、障害原因判定ルール生成プログラム画面700を構成するイベントブロックテーブル730及び頻出イベントテーブル740に表示した具体例を示している。
(Step 605)
The failure cause determination
頻出イベントテーブル740には、頻出イベントを構成する属性値がイベント742に対し、各頻出イベントを一意に特定する色、模様及びラベル741等が付された状態で表示される。なお、図9の場合、頻出イベントテーブル740における頻出イベントは、各頻出イベントに対応するサポートイベントブロック数743の数値順(図9は降順)に表示される。さらに、イベントブロックテーブル730のイベント732には、頻出イベントテーブル740で頻出イベントに付されているのと同じ色や模様が付されると共に、対応する頻出イベントラベル733が割り当てられる。これにより、頻出イベントがイベントブロック内にどのように分布しているかを、画面表示からユーザが直感的かつ容易に理解できるようになる。もし、分布の仕方が不自然であれば、ユーザは条件入力部(最小有効属性数入力部721と最小サポートイベントブロック数入力部722)の値を変更して、頻出イベントを求め直しても良い。
In the frequent event table 740, the attribute values constituting the frequent event are displayed with the color, pattern,
(ステップ606)
障害原因判定ルール生成プログラム311における頻出イベントパターン発見処理は、入力装置330に対するユーザ操作を通じ、表示装置331に表示された図9に示す障害原因判定ルール生成プログラム画面700のルール作成タブ1001がクリックされることで開始される。
(Step 606)
In the frequent event pattern discovery process in the failure cause determination
(ステップ607)
障害原因判定ルール生成プログラム311は、当該操作入力を検出すると、図9に示す障害原因判定ルール生成プログラム画面700を構成するイベントブロックテーブル730と頻出イベントテーブル740に表示された内容を読み取り、RAM310の作業領域312に格納する。さらに、障害原因判定ルール生成プログラム311は、頻出イベントパターン発見処理の処理手順に従い、作業領域312に格納されたイベントブロックテーブルの頻出イベントラベル733から頻出イベントパターンを発見する。ここで、障害原因判定ルール生成プログラム311は、イベントブロックテーブル730に表示される各障害を構成する頻出イベントに割り当てられた頻出イベントラベルを、イベント732の属性”時刻”の順番に並べた頻出イベント列を作成することにより、頻出イベントパターンを発見する。すなわち、頻出イベントパターンは、頻出イベントラベルを出現時間順に並べたパターンとして特定される。図9の例の場合、頻出イベント列は”CAB”,”AB”,”ACB”である。次に、障害原因判定ルール生成プログラム311は、最小サポートイベントブロック数入力部722で指定されたイベントブロック数を満たすイベントラベルが頻出する出現パターンを求める。図9の例では”AB”,“CB”となる。このイベントラベルのパターンを、頻出イベントテーブル740の頻出イベント742で置換したものが、頻出イベントパターンとなる。
(Step 607)
When the failure cause determination
(ステップ608)
障害原因判定ルール生成プログラム311は、頻出イベントパターン発見処理の実行結果を、表示装置331を通して障害原因判定ルール生成プログラム画面700上に表示する。図10は、頻出イベントパターン発見処理の実行結果を、障害原因判定ルール生成プログラム画面700を構成するイベントパターン候補テーブル1040に表示した具体例を示している。
(Step 608)
The failure cause determination
(ステップ609)
障害原因判定ルール生成コンピュータ107は、ユーザが入力装置330の操作を通じて、表示装置331に表示された図10の障害原因判定ルール生成プログラム画面700を構成するイベントパターンテーブル1040内のイベントパターン候補を選択した操作を検出すると、選択されたイベントパターン候補1046の内容を読み取り、RAM310の作業領域312に格納する。さらに、障害原因判定ルール生成プログラム311は、障害原因判定ルール生成プログラム311に記述された復旧手順書検索処理の処理手順に従い、作業領域312に格納されたイベントパターン候補の内容をもとに復旧手順書の検索処理を実行し、検索された復旧手順書を作業領域312に格納する。この処理内容の詳細は後述する。
(Step 609)
The failure cause determination
(ステップ610)
障害原因判定ルール生成プログラム311は、作業領域312に格納されている復旧手順書検索の実行結果を、表示装置331を通して障害原因判定ルール生成プログラム画面700上に表示する。図10は、復旧手順書の検索結果を、障害原因判定ルール生成プログラム画面700を構成する復旧手順書テーブル1060に表示した具体例を示している。
(Step 610)
The failure cause determination
(ステップ611)
障害原因判定ルール生成プログラム311の障害原因判定ルール作成処理は、入力装置330に対するユーザの操作入力を通じ、表示装置331に表示される障害原因判定ルール生成プログラム画面700(図10)に対して以下の操作入力を通じて実行される。
(Step 611)
The failure cause determination
まず、イベントパターン候補部1030を構成するイベントパターン候補テーブル1040の中からイベントパターン候補が選択された後、決定ボタン1031がクリック操作される。この操作により、選択されたイベントパターン候補1046の内容が、障害原因判定テーブル1020のイベントパターン1021及び判定時間1022に表示される。
First, after an event pattern candidate is selected from the event pattern candidate table 1040 constituting the event
次に、復旧手順書候補部1050を構成する復旧手順書テーブル1060の中から対応付ける復旧手順書が選択された後、決定ボタン1051がクリック操作される。この操作により、選択した復旧手順書1063の内容が、障害原因判定テーブル1020の復旧手順書1023に表示される。
Next, after a recovery procedure manual to be associated is selected from the recovery procedure manual table 1060 constituting the recovery procedure
最後に、最終的な障害原因判定ルール部1010内の決定ボタン1011がクリック操作されると、障害原因判定ルール生成プログラム311は、作成された障害原因判定ルールの登録処理を開始する。なお、画面上での選択、クリック操作は、障害原因判定ルール生成コンピュータ107を構成する入力装置330に対するユーザ操作を通じて入力される。
Finally, when the
なお、本実施例の場合には、条件句の選択及び選択された条件句に対応付ける行為句の選択をユーザが行っているが、復旧手順書候補部1050の復旧手順書テーブル1060に表示される個別の復旧手順所のうちスコア1062が最も高いものを各条件句に自動的に対応付ければ、障害原因判定ルール作成処理を自動化できる。スコア1062は、検索キーワード1052と復旧手順書1061内の文書との統計的な一致度合いを表し、スコアが高いほど検索キーワードが復旧手順書1061の文書中に多く出現していることを意味する。
In this embodiment, the user selects a conditional phrase and selects an action phrase to be associated with the selected conditional phrase, but is displayed in the recovery procedure document table 1060 of the recovery procedure
(ステップ612)
障害原因判定ルール生成プログラム311は、前述した一連の操作入力を検出すると、図10の障害原因判定ルール生成プログラム画面700内の障害原因判定ルールテーブルに表示された内容を読み取り、RAM310の作業領域312に格納する。さらに、障害原因判定ルール生成プログラム311は、障害原因判定ルール登録処理の処理手順に従い、作業領域312に格納された障害原因判定ルールテーブルの内容を、通信装置332を通して障害原因解析コンピュータ104に送信し、障害原因判定ルール(条件句と行為句を対応付けたルール)を障害原因解析コンピュータ104に登録する。
(Step 612)
When the failure cause determination
(b)詳細動作
(1)障害クラスタリング
ここでは、ステップ601で実行される障害クラスタリング処理の詳細動作を説明する。図11に、障害クラスタリング処理で実行される処理手順の概要を示す。
(b) Detailed Operation (1) Fault Clustering Here, the detailed operation of the fault clustering process executed in
(ステップ1101)
障害クラスタリング処理の開始後、障害原因判定ルール生成プログラム311は、通信装置332を介してログDB103にアクセスし、障害に関わるイベント(イベント203の属性「種類」が、「致命的」、「緊急」、「エラー」などの値をとるイベントで、「情報」のような障害とは関係ない値をとるイベントは含まない)を発生時刻順に取得する。この後、障害原因判定ルール生成プログラム311は、取得したイベントを、ハードディスク駆動装置320のデータ格納部322に一時的に保存し、続いて、RAM310の作業領域312に格納する。ここで、イベントとは、図2に表示されるイベントID201、イベントの発生日時202、イベントの属性値203から構成される。
(Step 1101)
After the failure clustering process is started, the failure cause determination
(ステップ1102)
障害原因判定ルール生成プログラム311は、作業領域312に格納されている最近取得したイベントの発生日時202と一つ前のイベントの発生日時202との差が、障害原因判定ルール生成プログラム画面700内の時間窓単位入力部711で指定された時間以内か否か判定する。時間以内の場合、障害原因判定ルール生成プログラム311はステップ1104を実行し、時間以内でない場合、障害原因判定ルール生成プログラム311はステップ1103を実行する。
(Step 1102)
The failure cause determination
(ステップ1103)
ステップ1103において、障害原因判定ルール生成プログラム311は、新規イベントブロックを作成し、最近取得したイベントを新規に作成したイベントブロックに分類する。例えば図2のイベントログの場合、イベントID201が“5”のイベントの発生日時202 「2009/05/23 12:23:35」と、直前のイベントID201が“4”のイベントの発生日時202 「2009/05/23 10:30:34」との時間差が、時間窓単位入力部711で指定された時間「10分」以上である。従って、障害原因判定ルール生成プログラム311は、イベントID201が“5”と“4”のイベントを別の障害によって発生したイベントと見なし、イベントID201が“5”のイベントを新規のイベントブロックに分類する。
(Step 1103)
In
(ステップ1104)
ステップ1104において、障害原因判定ルール生成プログラム311は、最近取得したイベントを一つ前のイベントと同じイベントブロックに追加する。例えば図2のイベントログの場合、イベントID201が“4”のイベントの発生日時202 「2009/05/23 10:30:34」と、直前のイベントID201が“3”のイベントの発生日時202 「2009/05/23 10:27:26」との時間差が、時間窓単位入力部711で指定された時間「10分」以内である。従って、障害原因判定ルール生成プログラム311は、イベントIDが“4”と“3”のイベントを一つの障害によって連続的に発生したイベントと見なし、同じイベントブロックに分類する。
(Step 1104)
In
(ステップ1105)
障害原因判定ルール生成プログラム311は、イベントログDB103に未取得のイベントが残っているか確認する。残っている場合、障害原因判定ルール生成プログラム311はステップ1101を実行し、残っていない場合、ステップ1106を実行する。
(Step 1105)
The failure cause determination
図12は、図2のイベント(イベントID201が1から17)をステップ1101からステップ1105の手順に従ってイベントブロックごとに分類した後のイベントブロックテーブル1200である。イベントブロックテーブル1200は、イベントブロックを一意に識別するイベントブロックID1201、イベントID201、イベントの発生日時202、イベントの属性203から構成される。
FIG. 12 is an event block table 1200 after the events of FIG. 2 (
(ステップ1106)
障害原因判定ルール生成プログラム311は、作成したイベントブロックテーブル1200において、イベントブロック毎に特徴を抽出する。図13は、図12に示すイベントブロックテーブル1200から作成したイベントブロック特徴テーブル1300の一例である。イベントブロック特徴テーブル1300は、イベントブロックID1201、イベントブロック内のイベントの属性値の特徴である属性リスト1301、イベントブロック内に含まれるイベント数1302、イベントブロック内の最後のイベントと最初のイベントの発生日時202の差である時間幅1303から構成される。属性リスト1301は、イベントブロックに含まれるイベントの各属性203に対して最も頻出する属性値と2番目に頻出する属性値から構成される。
(Step 1106)
The failure cause determination
(ステップ1107)
障害原因判定ルール生成プログラム311は、ステップ1106で求めたイベントブロック特徴テーブル1300に基づいてイベントブロックをクラスタリングする。クラスタリング手法には、例えば非特許文献1に記載された概念クラスタリングCOBWEB等を使用すると良い。クラスタリングを実行すると、障害の概念木が生成される。
(Step 1107)
The failure cause determination
(2)復旧手順書検索
ここでは、ステップ609で実行される復旧手順書検索処理の詳細動作を説明する。図14に、復旧手順書検索処理で実行される処理手順の概要を示す。
(2) Recovery Procedure Manual Search Here, the detailed operation of the recovery procedure manual search process executed in
(ステップ1401)
復旧手順書検索処理の開始後、障害原因判定ルール生成プログラム311は、RAM310の作業領域312に格納されているイベントパターン候補1046から属性値の特徴を抽出する。特徴を抽出する方法としては、検索に有効な属性に対して、属性“種類”の重要度がより高いイベントの属性値、イベントパターン候補の最初のイベントの属性値、頻出する属性値などから決める。イベントパターン候補1046では、検索に有効である属性”ソース”及び”イベント番号”に対して、属性”種類”の属性値が確定しており、最初に出現する頻出イベントラベルAのイベントの属性値から、(process71, 80)が特徴となる。
(Step 1401)
After starting the recovery procedure manual search process, the failure cause determination
(ステップ1402)
障害原因判定ルール生成プログラム311は、ステップ1401で抽出した属性値の特徴とその属性名を組み合わせた検索キーワード”ソース process71 イベント番号 80”を生成する。このとき、組み合わせる属性名は、復旧手順書で良く使用される名前を利用して”プロセス名 prcess71 エラーコード 80”とすることもできる。また復旧手順書の言語を考慮して、”process name process71 error 80“とすることもできる。
(Step 1402)
The failure cause determination
(ステップ1403)
障害原因判定ルール生成プログラム311は、通信装置332を介して復旧手順書DB105にアクセスし、ステップ1402で生成した検索キーワードを用いて復旧手順書DB105を検索する。さらに、障害原因判定ルール生成プログラム311は、通信装置332を介して実行された検索処理でヒットした復旧手順書を復旧手順書DB105から取得し、一時的にハードディスク駆動装置320のデータ格納部332に保存した後、RAM310の作業領域312に格納する。
(Step 1403)
The failure cause determination
(効果)
以上説明したように、本実施形態に係る障害原因判定ルール生成装置(プログラム)を実装する障害原因解析システムにおいては、以下の処理動作が実行される。
(1)障害時に監視サーバ102が生成したイベントをログDB103から取得する。
(2)取得したイベントを障害毎のイベントブロックに分割し、そのイベントブロックの特徴に基づいて障害をクラスタリングし、障害クラスタを生成する。イベントブロックは、障害との関連性が高い1つ又は複数のイベントで構成される。障害クラスタは、同じ障害から発生した可能性の高いイベントブロックの集合である。
(3)障害クラスタ内のイベントブロックに頻出する頻出イベントを発見する。
(4)発見した頻出イベントを時系列で並べた頻出イベント列から頻出イベントパターンを発見する。
(5)発見した頻出イベントパターンの属性値に基づいて検索キーワードを作成し、復旧手順書のデータベースから対応する復旧手順書を検索する。
(6)得られた頻出イベントパターンと復旧手順書とを組み合わせて障害原因判定ルールを生成する。
(effect)
As described above, in the failure cause analysis system that implements the failure cause determination rule generation device (program) according to the present embodiment, the following processing operations are executed.
(1) The event generated by the
(2) The acquired event is divided into event blocks for each fault, and faults are clustered based on the characteristics of the event block to generate a fault cluster. The event block is composed of one or a plurality of events that are highly related to a failure. A failure cluster is a set of event blocks that are likely to have occurred from the same failure.
(3) Find frequent events that frequently appear in event blocks in the failure cluster.
(4) A frequent event pattern is found from a frequent event sequence in which the frequent events found are arranged in time series.
(5) A search keyword is created based on the attribute value of the found frequent event pattern, and the corresponding recovery procedure manual is searched from the recovery procedure database.
(6) A failure cause determination rule is generated by combining the obtained frequent event pattern and the recovery procedure manual.
すなわち、障害原因が同じ可能性が高い障害ブロックに基づいて障害判定ルール(頻出イベント)を発見することにより、障害に関連する可能性の高い障害原因判定ルールを条件句として作成することができる。また、作成された条件句に、統計的に高い行為句を組み合わせることにより、障害の復旧に適した障害原因判定ルールを自動的に生成することができる。 That is, by finding a failure determination rule (frequent event) based on a failure block that is likely to have the same failure cause, a failure cause determination rule that is highly likely to be related to a failure can be created as a conditional phrase. Further, a failure cause determination rule suitable for failure recovery can be automatically generated by combining a statistically high action phrase with the created conditional phrase.
Claims (8)
自動的に取得されたイベントを障害毎のイベントブロックに自動的に分割し、そのイベントブロックの特徴に基づいて障害を自動的にクラスタリングし、障害クラスタを生成する第2の処理部と、
障害クラスタ内のイベントブロックに頻出する頻出イベントを自動的に発見する第3の処理部と、
発見された頻出イベントを時系列で並べた頻出イベント列から頻出イベントパターンを自動的に発見する第4の処理部と、
発見された頻出イベントパターンの属性値に基づいて検索キーワードを自動的に作成し、復旧手順書のデータベースから対応する復旧手順書を自動的に検索する第5の処理部と、
得られた頻出イベントパターンと復旧手順書とを組み合わせて障害原因判定ルールを自動的に生成する第6の処理部と
を有する障害原因解析システム向けルール生成装置。 A first processing unit for automatically acquiring an event generated by the monitoring server at the time of failure from the event log database;
A second processing unit that automatically divides an automatically acquired event into event blocks for each failure, automatically clusters failures based on the characteristics of the event block, and generates a failure cluster;
A third processing unit that automatically finds frequent events that frequently appear in event blocks in the failure cluster;
A fourth processing unit for automatically finding a frequent event pattern from a frequent event sequence in which the frequent events found are arranged in time series;
A fifth processing unit that automatically creates a search keyword based on the attribute value of the frequently-occurring event pattern found, and automatically searches for a corresponding recovery procedure manual from a database of the recovery procedure manual;
A rule generation device for a failure cause analysis system, comprising: a sixth processing unit that automatically generates a failure cause determination rule by combining the obtained frequent event pattern and a recovery procedure manual.
ことを特徴とする請求項1に記載の障害原因解析システム向けルール生成装置。 The second processing unit categorizes an event whose difference from an occurrence time of the previous event is within a time window unit into an event block to which the previous event belongs. The rule generation device for the failure cause analysis system described.
ことを特徴とする請求項1又は2に記載の障害原因システム向けルール生成装置。 The second processing unit includes an attribute value that frequently appears in an event included in the event block, a time width of the event block (difference between occurrence times of the first event and the last event in the event block), and the number of events in the event block The rule generation device for a failure cause system according to claim 1 or 2, wherein any one or a plurality of the event block is characterized by an event block.
ことを特徴とする請求項1〜3のいずれか一項に記載の障害原因解析システム向けルール生成装置。 The said 3rd process part discovers the frequent event which satisfy | fills the minimum number of effective attributes which do not contain an indefinite attribute value, and the minimum number of support event blocks. Rule generation device for failure cause analysis system described in 1.
ことを特徴とする請求項1〜4のいずれか一項に記載の障害原因解析システム向けルール生成装置。 The third processing unit represents a plurality of events in an event block corresponding to the same frequent event found with the same color or the same symbol, and visualizes the distribution of the frequent events in the failure cluster. The rule generation device for a failure cause analysis system according to any one of claims 1 to 4.
ことを特徴とする請求項1〜5のいずれか一項に記載の障害原因解析システム向けルール生成装置。 6. The rule generation device for a failure cause analysis system according to claim 1, wherein the fourth processing unit finds a frequent event pattern that satisfies a minimum number of support event blocks. 7.
ことを特徴とする請求項1〜6のいずれか一項に記載の障害原因解析システム向けルール生成装置。 The fifth processing unit includes one or more attribute values of an attribute value of an event having a high importance included in a frequent event pattern, an attribute value that frequently appears, and an attribute value of the first event, and a corresponding attribute The rule generation device for a failure cause analysis system according to any one of claims 1 to 6, wherein a search keyword is generated in combination with a name.
イベントログデータベースから障害時に監視サーバが生成したイベントを取得する第1の処理と、
取得したイベントを障害毎のイベントブロックに分割し、そのイベントブロックの特徴を基に障害をクラスタリングし、障害クラスタを生成する第2の処理と、
障害クラスタ内のイベントブロックに頻出する頻出イベントを発見する第3の処理と、
発見した頻出イベントを時系列で並べた頻出イベント列から、頻出イベントパターンを発見する第4の処理と、
発見した頻出イベントパターンの属性値に基づいて検索キーワードを作成し、復旧手順書のデータベースから対応する復旧手順書を検索する第5の処理と、
得られた頻出イベントパターンと復旧手順書とを組み合わせて障害原因判定ルールを生成する第6の処理と
を実行させるプログラム。 On the computer,
A first process for acquiring an event generated by the monitoring server at the time of failure from the event log database;
A second process of dividing the acquired event into event blocks for each failure, clustering failures based on the characteristics of the event block, and generating a failure cluster;
A third process for finding a frequent event that frequently appears in the event block in the failure cluster;
A fourth process for finding a frequent event pattern from a frequent event sequence in which the frequent events found are arranged in time series;
A fifth process of creating a search keyword based on the attribute value of the found frequent event pattern and searching the corresponding recovery procedure manual from the recovery procedure database;
A program for executing a sixth process of generating a failure cause determination rule by combining the obtained frequent event pattern and the recovery procedure manual.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010075802A JP5395719B2 (en) | 2010-03-29 | 2010-03-29 | Rule generation device and program for failure cause analysis system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010075802A JP5395719B2 (en) | 2010-03-29 | 2010-03-29 | Rule generation device and program for failure cause analysis system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011209908A true JP2011209908A (en) | 2011-10-20 |
JP5395719B2 JP5395719B2 (en) | 2014-01-22 |
Family
ID=44940914
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010075802A Expired - Fee Related JP5395719B2 (en) | 2010-03-29 | 2010-03-29 | Rule generation device and program for failure cause analysis system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5395719B2 (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013140608A1 (en) * | 2012-03-23 | 2013-09-26 | 株式会社日立製作所 | Method and system that assist analysis of event root cause |
JP2015153078A (en) * | 2014-02-13 | 2015-08-24 | 日本電信電話株式会社 | Employment history analysis device, method and program |
JP2018028760A (en) * | 2016-08-16 | 2018-02-22 | 富士ゼロックス株式会社 | Information processing apparatus and program |
JP2018528529A (en) * | 2015-08-05 | 2018-09-27 | フェイスブック,インク. | Connected device rules engine |
CN111198924A (en) * | 2018-11-19 | 2020-05-26 | 长鑫存储技术有限公司 | Method for establishing product failure knowledge base, failure analysis method, device and medium |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11224214A (en) * | 1998-02-05 | 1999-08-17 | Fujitsu Ltd | Event classifying device and its program record medium |
JP2006190002A (en) * | 2005-01-04 | 2006-07-20 | Olympus Corp | Failure monitoring device and method |
JP2006236199A (en) * | 2005-02-28 | 2006-09-07 | Japan Research Institute Ltd | Printing method and printing program of work instruction list |
JP2007172131A (en) * | 2005-12-20 | 2007-07-05 | Nec Fielding Ltd | Failure prediction system, failure prediction method and failure prediction program |
JP2008198123A (en) * | 2007-02-15 | 2008-08-28 | Hitachi Information Systems Ltd | Fault detection system and fault detection program |
JP2010055305A (en) * | 2008-08-27 | 2010-03-11 | Oki Electric Ind Co Ltd | System, method and program for registering diagnostic item |
-
2010
- 2010-03-29 JP JP2010075802A patent/JP5395719B2/en not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11224214A (en) * | 1998-02-05 | 1999-08-17 | Fujitsu Ltd | Event classifying device and its program record medium |
JP2006190002A (en) * | 2005-01-04 | 2006-07-20 | Olympus Corp | Failure monitoring device and method |
JP2006236199A (en) * | 2005-02-28 | 2006-09-07 | Japan Research Institute Ltd | Printing method and printing program of work instruction list |
JP2007172131A (en) * | 2005-12-20 | 2007-07-05 | Nec Fielding Ltd | Failure prediction system, failure prediction method and failure prediction program |
JP2008198123A (en) * | 2007-02-15 | 2008-08-28 | Hitachi Information Systems Ltd | Fault detection system and fault detection program |
JP2010055305A (en) * | 2008-08-27 | 2010-03-11 | Oki Electric Ind Co Ltd | System, method and program for registering diagnostic item |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013140608A1 (en) * | 2012-03-23 | 2013-09-26 | 株式会社日立製作所 | Method and system that assist analysis of event root cause |
JP5684946B2 (en) * | 2012-03-23 | 2015-03-18 | 株式会社日立製作所 | Method and system for supporting analysis of root cause of event |
US9354961B2 (en) | 2012-03-23 | 2016-05-31 | Hitachi, Ltd. | Method and system for supporting event root cause analysis |
JP2015153078A (en) * | 2014-02-13 | 2015-08-24 | 日本電信電話株式会社 | Employment history analysis device, method and program |
JP2018528529A (en) * | 2015-08-05 | 2018-09-27 | フェイスブック,インク. | Connected device rules engine |
JP2018028760A (en) * | 2016-08-16 | 2018-02-22 | 富士ゼロックス株式会社 | Information processing apparatus and program |
CN111198924A (en) * | 2018-11-19 | 2020-05-26 | 长鑫存储技术有限公司 | Method for establishing product failure knowledge base, failure analysis method, device and medium |
CN111198924B (en) * | 2018-11-19 | 2022-11-25 | 长鑫存储技术有限公司 | Product failure knowledge base establishing method, failure analysis method, device and medium |
Also Published As
Publication number | Publication date |
---|---|
JP5395719B2 (en) | 2014-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11100113B2 (en) | Object score adjustment based on analyzing machine data | |
US11798209B1 (en) | Systems and methods for rendering a third party visualization in response to events received from search queries | |
JP6538980B2 (en) | Automated anomaly detection service in heterogeneous mixed log streams | |
US11698900B2 (en) | Leveraging search query history in a search interface | |
US9983954B2 (en) | High availability scheduler for scheduling searches of time stamped events | |
US9612898B2 (en) | Fault analysis apparatus, fault analysis method, and recording medium | |
US11477263B2 (en) | Identifying un-deployed features of an application | |
JP5395719B2 (en) | Rule generation device and program for failure cause analysis system | |
JP5651381B2 (en) | Failure cause determination rule verification device and program | |
US10216862B1 (en) | Predictive estimation for ingestion, performance and utilization in a data indexing and query system | |
JP2014048673A (en) | Workflow generation server and method | |
KR20090033274A (en) | Information processing method and device for work process analysis | |
JP6885784B2 (en) | Incident management equipment, incident management methods and computer programs | |
US20200012543A1 (en) | Event Monitoring Apparatus and Event Monitoring Method | |
JP4928848B2 (en) | Message converter in computer system integrated management environment. | |
JP2012003713A (en) | Apparatus and program for detecting change in fault cause determination rule | |
JP5295062B2 (en) | Automatic query generation device for complex event processing | |
US20070033178A1 (en) | Quality of service feedback for technology-neutral data reporting | |
JP5417264B2 (en) | Method of providing analysis information | |
JP5623950B2 (en) | IT failure sign detection device and program | |
JP2018081403A (en) | Incident management system, incident management method and computer program | |
JP5444071B2 (en) | Fault information collection system, method and program | |
JP2012212228A (en) | It failure detection/retrieval device and program | |
US11720591B1 (en) | Virtual metrics | |
US20230143297A1 (en) | Production knowledge management system, production knowledge management method, and production knowledge management program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120720 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130911 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130924 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131018 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |