JP5651381B2 - Failure cause determination rule verification device and program - Google Patents
Failure cause determination rule verification device and program Download PDFInfo
- Publication number
- JP5651381B2 JP5651381B2 JP2010136300A JP2010136300A JP5651381B2 JP 5651381 B2 JP5651381 B2 JP 5651381B2 JP 2010136300 A JP2010136300 A JP 2010136300A JP 2010136300 A JP2010136300 A JP 2010136300A JP 5651381 B2 JP5651381 B2 JP 5651381B2
- Authority
- JP
- Japan
- Prior art keywords
- failure
- determination rule
- cause determination
- classification tree
- failure cause
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
- Test And Diagnosis Of Digital Computers (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明は、過去のイベントログに基づいて、障害原因解析システムにて利用される障害原因解析ルールを検証する装置及び当該装置をソフトウェア的に実現するプログラムに関する。 The present invention relates to a device for verifying a failure cause analysis rule used in a failure cause analysis system based on a past event log, and a program for realizing the device in software.
システム障害発生時における復旧作業の遅延は、企業の業績や社会インフラに大きな影響を与える。システム障害の迅速な復旧には、早期の障害原因の特定と復旧手順の決定が重要となる。 Delays in recovery work in the event of a system failure have a major impact on corporate performance and social infrastructure. To quickly recover from a system failure, it is important to identify the cause of the failure at an early stage and determine the recovery procedure.
そこで、障害の迅速な復旧を支援する障害原因解析システムが提案されている(特許文献1)。このシステムは、特定の障害時に発生するイベントと復旧手順とを対応付けた障害原因判定ルールを有し、当該ルールを用いて障害イベントを解析することにより適切な復旧手順を復旧担当者に提供する。 In view of this, a failure cause analysis system that supports rapid recovery of failures has been proposed (Patent Document 1). This system has a failure cause determination rule that correlates an event that occurs at the time of a specific failure with a recovery procedure, and provides an appropriate recovery procedure to a recovery person by analyzing the failure event using the rule .
しかし、人手による障害原因判定ルールの作成には困難を伴う。そこで、イベントログから障害原因判定ルールを自動的に生成する手法が提案されている(特許文献2及び3)。特許文献2には、特定イベントの発生頻度を利用する方法が記載されている。特許文献3には、イベントの生起パターンを利用する方法が記載されている。
However, it is difficult to manually create a failure cause determination rule. Therefore, a method for automatically generating a failure cause determination rule from an event log has been proposed (
ところが、一度作成して登録した障害原因判定ルールであっても、次のような理由により、登録内容の更新が必要となる。
(1)新規ITサービスの追加/既存ITサービスの廃止
新規のITサービスの運用が開始されると、当該サービスに関係するシステム障害が新たに発生するようになる。この場合、新規なシステム障害に対応する障害原因判定ルールを作成し、既存の障害原因判定ルールに追加する必要がある。反対に、既存のITサービスが廃止された場合、当該サービスに関係するシステム障害はそれ以降発生しなくなる。この場合、今後発生しなくなる障害に対応する障害原因判定ルールを、既存の障害原因判定ルールから削除する必要がある。
(2)IT基盤構成の変更
システムの運用過程では、提供されるITサービス自体に変更が存在しなくとも、IT基盤が変更されることがある。例えばハードウェアの交換やネットワーク構成の変更などが生じることがある。このようにシステム構成に変更が生じると、同じ原因に起因するシステム障害であったとしても、発生するイベントの属性値やイベントの出現の仕方が影響を受けることになる。すなわち、障害原因判定ルールへの変更が必要となる。
(3)システム障害に対する認識の変化
当然ながら、障害原因判定ルールの作成時には、その時点で利用可能な情報に基づいて障害原因判定ルールが作成される。しかし、システム障害に関する情報量の不足から誤った障害原因判定ルールが生成される可能性がある。例えば同じ原因に起因すると判定されていたシステム障害Aとシステム障害Bが、その後、異なる原因に起因するものであると判明することがある。反対に、当初は異なる原因に起因する障害として判定されていたものが、その後、同じ原因に起因する障害であると判明することがある。
However, even if the failure cause determination rule is once created and registered, the registration content needs to be updated for the following reason.
(1) Addition of new IT service / Abolition of existing IT service When the operation of a new IT service is started, a system failure related to the service is newly generated. In this case, it is necessary to create a failure cause determination rule corresponding to a new system failure and add it to the existing failure cause determination rule. On the other hand, when an existing IT service is abolished, a system failure related to the service will not occur thereafter. In this case, it is necessary to delete the failure cause determination rule corresponding to the failure that will not occur in the future from the existing failure cause determination rule.
(2) Change of IT infrastructure configuration In the operation process of the system, the IT infrastructure may be changed even if there is no change in the provided IT service itself. For example, hardware replacement or network configuration change may occur. When the system configuration is changed in this way, even if the system failure is caused by the same cause, the attribute value of the event that occurs and the appearance of the event are affected. That is, a change to the failure cause determination rule is required.
(3) Change in recognition of system failure Naturally, when creating a failure cause determination rule, a failure cause determination rule is created based on information available at that time. However, an erroneous failure cause determination rule may be generated due to a lack of information regarding system failure. For example, the system failure A and the system failure B that have been determined to be caused by the same cause may be subsequently found to be caused by different causes. On the other hand, what was initially determined as a failure due to a different cause may be later found to be a failure due to the same cause.
しかるに従来手法は、障害原因判定ルールを自動生成するものであっても、その後のメンテナンスを考慮していない。すなわち、障害原因判定ルールの作成後もその有効性を常に検証し、必要に応じてルールを更新することは何ら考慮されていない。 However, the conventional method does not consider the subsequent maintenance even if the failure cause determination rule is automatically generated. In other words, no consideration is given to constantly verifying the effectiveness of a failure cause determination rule after creation and updating the rule as necessary.
そこで、発明者は、障害原因判定ルールを運用状況に応じて自動的に更新するための仕組みを提供する。具体的には、障害原因判定ルールを見直すための時間間隔を与える時間窓を自動的に設定する処理と、直近の時間窓内に発生したイベントに基づいて一時障害分類木を作成する処理と、作成された一時障害分類木と運用中の障害原因判定ルールに対応する障害分類木(登録障害分類木)を比較し、比較結果に基づいて運用に使用する障害原因判定ルールを更新する処理とを有する仕組みを提供する。 Therefore, the inventor provides a mechanism for automatically updating the failure cause determination rule according to the operation status. Specifically, a process that automatically sets a time window that gives a time interval for reviewing the failure cause determination rule, a process that creates a temporary failure classification tree based on events that occurred within the most recent time window, Comparing the created temporary failure classification tree with a failure classification tree (registered failure classification tree) corresponding to the failure cause determination rule in operation, and updating the failure cause determination rule used for operation based on the comparison result Provide a mechanism to have.
本発明によれば、運用に使用する障害原因判定ルールを運用状況の変化に応じて自動的に最適化できる。 According to the present invention, a failure cause determination rule used for operation can be automatically optimized according to a change in operation status.
以下、図面に基づいて、本発明の実施の形態を説明する。なお、後述する装置構成や処理動作の内容は発明を説明するための一例である。本発明は、後述する装置構成同士の組み合わせ、後述する装置構成と既知の技術の組み合わせ、後述する装置構成の一部と既知の技術との組み合わせも包含する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. Note that the contents of the apparatus configuration and processing operation described later are examples for explaining the invention. The present invention also includes combinations of device configurations described later, combinations of device configurations described below and known technologies, and combinations of a part of device configurations described below and known technologies.
(障害原因解析システムの全体構成)
図1に、障害原因判定ルール検証コンピュータ107を実装する障害原因解析システムの構成例を示す。図1に示す障害原因解析システムは、監視対象サーバ群101と、監視サーバ102と、ログデータベース(DB)103と、障害原因判定ルール生成コンピュータ104と、障害原因解析コンピュータ105と、障害原因判定ルールDB106と、障害原因判定ルール検証コンピュータ107と、復旧手順書データベース(DB)108と、復旧手順書閲覧コンピュータ109とを有している。
(Overall configuration of failure cause analysis system)
FIG. 1 shows a configuration example of a failure cause analysis system in which the failure cause determination
このうち、監視サーバ102は、監視対象サーバ群101の状態(死活など)を監視し、状態に応じたイベントを生成する機能を提供する。監視サーバ102が生成したイベントはログデータベース(DB)103に格納される。障害原因判定ルール生成コンピュータ104は、ログDB103からイベントログを読み出し、障害原因判定ルールを生成する機能を提供する。障害原因判定ルール生成コンピュータ104が生成した障害原因判定ルールは、障害原因判定ルールDB106に格納される。障害原因解析コンピュータ105は、障害原因判定ルールDB106が格納する障害原因判定ルールに基づいてイベントを解析し、障害に対する復旧手順書を特定する機能を提供する。障害原因判定ルール検証コンピュータ107は、監視サーバ102が生成したイベントを解析し、障害原因判定ルールDB106が格納する障害原因判定ルールの有効性を検証する。復旧手順書データベース(DB)108は、障害時の復旧手順に関する文書を格納する。ここでの文書には、障害発生時のトラブルシューティングを記述したマニュアル(ハードウェアかソフトウェアかを問わない)だけでなく、過去の障害に対する保守担当者の対応記録、報告書その他の障害から復旧するための手順に関する文書も含まれる。復旧手順書閲覧コンピュータ109は、障害原因解析コンピュータ105によって特定された復旧手順書を画面上に表示する機能を提供する。
Among these, the
(イベントテーブルの具体例)
図2に、ログDB103に格納されるイベントテーブル200の具体例を示す。イベントテーブル200は、イベントを一意に特定する識別子(ID)201、イベントが発生した日時を特定する発生日時202、個々のイベントの属性値の集合であるイベント203から構成される。この形態例の場合、イベント203の属性は、<種類>、<ソース>、<イベント番号>、<ユーザ>、<コンピュータ>で定義される。このうち、<種類>はイベントの重要度を示している。<ソース>はイベントを発生させたプロセスやアプリケーション等の発生源を示している。<イベント番号>はイベントの内容を特定する番号を示している。<ユーザ>はイベントの発生源となったプロセスやアプリケーションを実行していたユーザを示している。<コンピュータ>はイベントの発生源となった監視対象サーバ群101内のサーバを示している。
(Specific example of event table)
FIG. 2 shows a specific example of the event table 200 stored in the
(障害原因判定ルールDBの具体例)
図3−1及び図3−2に、障害原因判定ルールDB106の構成例を示す。障害原因判定ルールDB106は、障害原因解析コンピュータ105に登録されている障害原因判定ルールとそれに関連する情報を格納しているDBである。障害原因判定ルールDB106は、登録障害分類木300と、障害原因判定ルールテーブル310と、障害ノードテーブル320とから構成される。
(Specific example of failure cause determination rule DB)
FIGS. 3A and 3B show a configuration example of the failure cause
登録障害分類木300は、障害原因解析コンピュータ105に登録されている障害原因判定ルールの生成時に作成される。登録障害分類木300では、障害時に発生した単数又は複数のイベントの集合(以下、「イベントブロック」という。)が共通に有する特徴に基づいて障害が分類され、分類木として表現される。登録障害分類木300のノードを障害ノードと呼ぶ。同じ障害ノードに分類された障害同士は、発生したイベント及び発生の仕方が類似しているので、同じ障害原因による障害であると考えられる。
The registered
障害原因判定ルールテーブル310は、障害原因解析コンピュータ105に登録されている障害原因判定ルールを格納するデータテーブルである。障害原因判定ルールテーブル310は、登録障害分類木300の障害ノード311と、対象障害ノードに分類される障害に適用される障害原因判定ルール312から構成される。障害原因判定ルール312は、単数又は複数の判定イベント313と、判定時間314と、復旧手順書315とで構成される。判定イベント313は、対象障害ノードを特徴付けるイベントの属性の集合である。判定時間314は、判定イベント313を満たすイベントが発生する時間間隔である。復旧手順書315は、判定時間314内に判定イベント313を満たすイベントが発生した場合に復旧手順書閲覧コンピュータ109に表示される文書である。
The failure cause determination rule table 310 is a data table that stores failure cause determination rules registered in the failure
1つの障害ノード311に複数の判定イベント313が指定されている場合は、障害原因判定ルールテーブル310に記述されている順番に判定イベント313が出現するものとする。図3−1の(2)の場合、「障害ノード1−1」に対する障害原因判定ルール312として、(「警戒」、「process71」、「80」、「user2」、「server9」)の属性値を有するイベントの発生後に、(「*」、「process39」、「*」、「user4」、「server8」)の属性値を有するイベントが判定時間「2分9秒」以内に発生したら、「復旧手順A.doc」を復旧手順閲覧コンピュータ109に表示するというルールが設定されている。ここで、属性値「*」は、値が不定であることを意味し、任意の値を取り得ることを示す。
When a plurality of
障害ノードテーブル320は、登録障害分類木300を構築する際に訓練データとして使用したイベントブロックを格納する。障害ノードテーブル320は、障害ノード311と、当該障害ノードに分類されたイベントブロック321と、当該イベントブロック321内に含まれるイベント203とから構成される。
The failure node table 320 stores event blocks used as training data when the registered
(障害原因判定ルール検証コンピュータの構成例)
図4に、障害原因判定ルール検証コンピュータ107の構成例を示す。障害原因判定ルール検証コンピュータ107は、コンピュータ本体400と、入力装置430と、表示装置431と、通信装置432とから構成される。なお、通信装置432は、監視サーバ102、ログDB103及び障害原因判定ルールDB106と通信する。
(Configuration example of failure cause determination rule verification computer)
FIG. 4 shows a configuration example of the failure cause determination
コンピュータ本体400は、データ演算をするCPU401、ROM402、RAM410、ハードディスク駆動装置420、これらデバイス間のデータ転送を実現するCPUバス407、これらデバイスとCPUバス407とを結合するインターフェース403〜406で構成される。
The computer
RAM410には、CPU401に演算処理をさせる障害原因判定ルール検証プログラム411の実行領域と、検算時に一時的に生成させるデータを格納する作業領域412とが少なくとも確保される。また、ハードディスク駆動装置420の記憶領域には、障害原因判定ルール検証プログラムの格納領域としてのプログラム格納部421と、監視サーバ102及び障害原因判定ルールDB106から取得したデータを一時的に格納しておくデータ格納部422が少なくとも確保される。
The
(障害原因解析動作)
図5に、障害原因解析システム全体の障害原因解析プロセスの概略を示す。
(ステップ501)
障害原因判定ルール生成コンピュータ104は、ログDB103からイベントログを取得して障害原因判定ルールを生成し、障害原因判定ルールDB106に保存する。ここで、障害原因判定ルールの作成は、(1)障害分類木の作成、(2)頻出イベントパターンの発見、(3)復旧手順書検索の順番に行う。
(Failure cause analysis operation)
FIG. 5 shows an outline of the failure cause analysis process of the entire failure cause analysis system.
(Step 501)
The failure cause determination
(1)障害分類木の作成
障害原因判定ルール生成コンピュータ104は、ログDB103から取得したイベントを障害別に分類する。障害別に分類された状態のイベントをイベントブロックという。次に、障害原因判定ルール生成コンピュータ104は、各イベントブロックから特徴を抽出し、抽出された特徴に基づいて教師なしのクラスタリングを行い、分類木を構築する。この分類木が、障害原因判定ルールDB106の登録障害分類木300に相当する。この場合のクラスタリング手法としては、非特許文献1に記載されている概念クラスタリングCOBWEBなどがある。
(1) Creation of Failure Classification Tree The failure cause determination
(2)頻出イベントパターンの発見
障害原因判定ルール生成コンピュータ104は、指定された分類木の障害ノードに分類される複数のイベントブロックに単数又は複数の頻出するイベントを発見する。さらに、頻出イベントが複数ある場合には、頻出イベントが出現する順番と時間間隔を求める。これらが、障害原因判定ルールDB106の障害原因判定ルールテーブル310の障害原因判定ルール312における判定イベント313及び判定時間314に相当する。
(2) Discovery of frequent event patterns The failure cause determination
図6に、各イベントブロックの特徴を抽出することで作成したイベントブロックの特徴テーブル600の構成例を示す。特徴テーブル600は、イベントブロックを特定するイベントブロックID601、各イベントブロックに対する特徴である属性リスト602で構成される。属性リスト602は、イベント203を構成する属性毎にイベントブロック内で最も頻出する属性値と次に頻出する属性値で構成される。このため、「種類」、「ソース」、「イベント」、「ユーザ」、「コンピュータ」の各属性にそれぞれ2つの属性値が割り当てられている。
FIG. 6 shows a configuration example of a feature table 600 for event blocks created by extracting features of each event block. The feature table 600 includes an
(3)復旧手順書の検索
障害原因判定ルール生成コンピュータ104は、(2)で求めた頻出イベントの属性値に基づいて検索キーを生成する。例えば5つの属性、すなわち「種類」、「ソース」、「イベント」、「ユーザ」、「コンピュータ」のそれぞれについて最も頻出する属性値の組み合わせを検索キーに設定する。次に、障害原因判定ルール生成コンピュータ104は、生成された検索キーを用いて復旧手順書DB108を検索し、適切な復旧手順書を取得する。ここでの復旧手順書が、障害原因判定ルールテーブル310(図3−1)の障害原因判定ルール312における復旧手順書315に相当する。
(3) Recovery Procedure Manual Search The failure cause determination
(ステップ502)
障害原因解析コンピュータ105は、障害原因判定ルール生成コンピュータ104により障害原因判定ルールDB106が更新されたのを検知すると、障害原因判定ルールDB106から障害原因判定ルールテーブル310の障害原因判定ルール312(図3−1)を取得し、登録する。
(Step 502)
When the failure
(ステップ503)
監視サーバ102は、監視対象サーバ群101を監視している。監視サーバ102は、監視対象サーバ群101内のサーバに障害に起因する異常を発見すると、該当するサーバの状態に応じたイベントを生成する。監視サーバ102は、生成したイベントをログDB103に保存すると共に、障害原因解析コンピュータ105及び障害原因判定ルール検証コンピュータ107にそのイベントを送信する。
(Step 503)
The
(ステップ504)
障害原因解析コンピュータ105は、受信したイベントと、障害原因判定ルール312とのマッチング処理を実行する。障害原因判定ルール312に登録されたいずれかの障害ノードと受信したイベントが一致した場合、障害原因解析コンピュータ105は、一致が確認された傷害ノードについて登録されている復旧手順書315を復旧手順書DB108から取得し、復旧手順書閲覧コンピュータ109に送信する。
(Step 504)
The failure
(ステップ505)
復旧手順書閲覧コンピュータ109は、障害原因解析コンピュータ105から受信した復旧手順書315を表示装置上に表示する。
(Step 505)
The recovery procedure
(ステップ506)
障害原因判定ルール検証コンピュータ107は、監視サーバ102からイベントを受信すると、設定された時間窓内のイベント集合から障害原因判定ルールを作成し、障害原因判定ルールDB106を更新する。この処理内容の詳細は後述する。
(Step 506)
Upon receiving an event from the
(ステップ507)
障害原因解析コンピュータ105は、障害原因判定ルール検証コンピュータ107により障害原因判定ルールDB106が更新されたことを検知した場合、障害原因判定ルールDB107から障害原因判定ルール312を取得し、現在利用している障害原因判定ルールと置き換える。
(Step 507)
When the failure
(障害原因判定ルール検証動作)
図7−1及び図7−2に、障害原因判定ルール検証プログラム411を通じて実行される障害原因判定ルールの検証・更新プロセスの概要を示す。まず、図7−1に、検証プロセスのスケジューリング処理の内容を示す。
(Failure cause determination rule verification operation)
7A and 7B show an overview of the failure cause determination rule verification / update process executed through the failure cause determination
(スケジューリングの詳細動作)
(ステップ700)
障害原因判定ルール検証プログラム411の実行は、障害原因判定ルール生成コンピュータ104が、障害原因判定ルールDB106の更新を通信装置432経由で検知することにより開始される。
(Detailed operation of scheduling)
(Step 700)
Execution of the failure cause determination
(ステップ701)
障害原因判定ルール検証コンピュータ107は、障害の発生時間間隔の境界時間tbを計算する。境界時間tbとは、最後に障害が発生してから、時間間隔の境界時間tb以内に、同じ障害原因による障害が発生しなければ、以降も発生しないと考えられる時間間隔である。障害の発生時刻は、対応するイベントブロックの最初のイベントの発生日時とする。この境界時間tbは、次の(1)から(3)の手順で決める。
(Step 701)
The failure cause determination
(1)登録障害分類木の取得
障害原因判定ルール検証コンピュータ107は、通信装置432を介して障害原因判定ルールDB106から登録障害分類木300、障害原因判定ルールテーブル310、障害ノードテーブル320を取得する。これらの情報に基づいて、障害原因判定ルール検証コンピュータ107は、登録障害分類木300を構築する際に訓練データとして使用した最初のイベントの発生日時t0と最後のイベントの発生日時との時間差を算出する。この時間差を、障害原因判定ルール検証コンピュータ107は、障害分類木を作成する際におけるイベントの時間範囲を与える分類木構築時間Δとする。
(1) Acquisition of registered failure classification tree The failure cause determination
(2)検証障害ノードの障害発生時間間隔
障害原因判定ルール検証コンピュータ107は、障害原因判定ルールテーブル310のうち障害原因判定ルール312が設定されている障害ノード311を検証対象に設定する。この検証対象としての障害ノードを、以下、「検証障害ノード」という。この後、障害原因判定ルール検証コンピュータ107は障害ノードテーブル320にアクセスし、検証障害ノードに対応するイベントブロック321に関する障害の発生時間間隔を計算する。
(2) Failure occurrence time interval of verification failure node The failure cause determination
(3)境界時間tbの計算
障害原因判定ルール検証コンピュータ107は、(2)で求めた発生時間間隔の分布から、仮説「ある障害ノードに分類される障害が発生してからtb後に発生した障害がその障害ノードに分類される」が有意水準1%の確率で棄却されるような境界値である境界時間tbを、仮説検定を用いて求める。
(3) Calculation of the boundary time tb The failure cause determination
(ステップ702)
障害原因判定ルール検証コンピュータ107は、通信装置432を介してログDB103から、日時(t0+tb)から日時(t0+Δ)までのイベントを取得する。
(Step 702)
The failure cause determination
(ステップ703)
障害原因判定ルール検証コンピュータ107は、ステップ702で取得したイベントを訓練データとして一時障害分類木を作成する。ここで、一時障害分類木は、障害原因判定ルール検証コンピュータ107で一時的に作成される障害分類木であり、登録障害分類木300と同様の方法で作成される。この一時障害分類木の場合も、障害原因判定ルールDB106と同様に、障害原因判定ルールテーブル、障害ノードテーブルが同時に作成される。作成された一時障害分類木、対応する障害原因判定ルールテーブル、障害ノードテーブルは、作業領域410に格納される。
(Step 703)
The failure cause determination
(ステップ704)
障害原因判定ルール検証コンピュータ107は、検証開始日時tvsを計算する。検証開始日時tvsは、t0+Δ+tbとする。
(Step 704)
The failure cause determination
(ステップ705)
障害原因判定ルール検証コンピュータ107は、監視対象サーバ群101内に障害を検知した監視サーバ102が送信したイベントを、通信装置432を介して受信する。
(Step 705)
The failure cause determination
(ステップ706)
障害原因判定ルール検証コンピュータ107は、受信したイベントの発生日時teと検証開始日時tvsとを比較する。イベントの発生日時teが検証開始日時tvs以下の場合、障害原因判定ルール検証コンピュータ107は、ステップ710を実行する。イベント発生日時teが検証開始日時tvsより大きい場合、障害原因判定ルール検証コンピュータ107は、ステップ707を実行する。
(Step 706)
The failure cause determination
(ステップ707)
障害原因判定ルール検証コンピュータ107は、障害原因判定ルールDB106の障害原因判定ルールテーブル310内の検証対象である障害ノードに設定されている障害原因判定ルール312の有効性を検証し、必要があれば障害原因判定ルールDB106の内容を更新する。この処理内容の詳細は後述する。
(Step 707)
The failure cause determination
(ステップ708)
障害原因判定ルール検証コンピュータ107は、新しい検証開始日時tvsを設定する。新しい検証開始日時tvsは、次のように求める。まず、ステップ709で作成した一時障害分類木の検証障害ノードに対し、障害原因判定ルール検証コンピュータ107は、ステップ701の(2)及び(3)と同じ方法により、障害の発生時間間隔の境界時間tb’を計算する。次に、障害原因判定ルール検証コンピュータ107は、tvs+tb’を計算し、これを新しい検証開始日時tvsとする。
(Step 708)
The failure cause determination
(ステップ709)
障害原因判定ルール検証コンピュータ107は、作業領域412に格納されている現在の一時障害分類木の障害ノードテーブルから時間範囲(tvs−Δ〜te)に発生したイベントを取得する。次に、障害原因判定ルール検証コンピュータ107は、取得したイベントを訓練データとして新規の一時障害分類木、障害原因判定ルールテーブル及び障害ノードテーブルを作成し、作業領域412に格納する。その後、障害原因判定ルール検証コンピュータ107は、現在の一時障害分類木及び対応する障害原因判定ルールテーブル、障害ノードテーブルは削除する。
(Step 709)
The failure cause determination
(ステップ710)
障害原因判定ルール検証コンピュータ107は、受信したイベントからイベントブロックを作成し又は更新し、一時障害分類木を更新する。同時に、障害原因判定ルール検証コンピュータ107は、この一時障害分類木に対応する障害原因判定ルールテーブル及び障害ノードテーブルも更新する。
(Step 710)
The failure cause determination
(検証プロセスの詳細動作)
次に、図7−2に示す検証・更新プロセスの詳細動作を説明する。
(ステップ750)
障害原因判定ルール検証コンピュータ107は、一時障害分類木と障害原因判定ルールDB106の登録障害分類木300とを比較する。すなわち、一時的に生成した分類木と運用中の分類木を比較する。両分類木の構成が一致している場合、障害原因判定ルール検証コンピュータ107はステップ760を実行する。一方、不一致の場合、障害原因判定ルール検証コンピュータ107はステップ770を実行する。登録障害分類木と一時障害分類木との対応づけは、次のように行う。登録障害分類木作成時に訓練データとして使用した障害のイベントブロックを、登録分類木と一時障害分類木の両方で分類する。同じイベントブロックが分類された登録分類木の障害ノードと一時障害分類木の障害ノードとを対応する障害ノードとする。これにより、登録障害分類木の障害ノードが、一時障害分類木のどの障害ノードに対応しているかを判断できる。
(Detailed operation of the verification process)
Next, the detailed operation of the verification / update process shown in FIG.
(Step 750)
The failure cause determination
(ステップ760)
障害原因判定ルール検証コンピュータ107は、一時障害分類木の検証障害ノードに、登録障害分類木の対応する障害ノードにない新しい障害が分類されているか否か判定する。一時障害分類木のみに存在する障害が存在しない場合、障害原因判定ルール検証コンピュータ107はステップ761を実行する。一方、一時障害分類木にのみ存在する障害が存在する場合、障害原因判定ルール検証コンピュータ107はステップ762を実行する。
(Step 760)
The failure cause determination
(ステップ761)
障害原因判定ルール検証コンピュータ107は、障害原因判定ルールDB106を更新する。すなわち、障害原因判定ルール検証コンピュータ107は、障害原因判定ルールテーブル310から検証障害ノードに対応する障害原因判定ルールを削除する。なお、ここでの一時障害分類木は、登録障害分類木が作成されてから時間間隔の境界時間tb以降に作成されたものである。従って、同じ障害ノードに分類される障害が発生しなければ、今後この障害ノードに分類される障害は発生しないと判断できる。このため、検証障害ノードに設定された障害原因判定ルールを削除しても問題ない。
(Step 761)
The failure cause determination
(ステップ762)
障害原因判定ルール検証コンピュータ107は、一時障害分類木の検証障害ノードに対する障害原因判定ルールをステップ501の(2)及び(3)で記述した方法で生成する。障害原因判定ルール検証コンピュータ107は、生成した一時障害分類木の検証障害ノードの障害原因判定ルールと、障害原因判定ルールテーブル310の障害原因判定ルールを比較し、一致していない場合はステップ763を実行する。
(Step 762)
The failure cause determination
(ステップ763)
障害原因判定ルール検証コンピュータ107は、障害原因判定ルールDB106を更新する。すなわち、障害原因判定ルール検証コンピュータ107は、検証障害ノードに設定された障害原因判定ルールを、ステップ762で作成された障害原因判定ルールに置き換える。
(Step 763)
The failure cause determination
図8−1及び図8−2は、障害原因判定ルールの更新処理を説明した図である。図8−1の(1)は2009年1月から3月に発生したイベントから作成した登録障害分類木800であり、検証対象である「障害ノード1−1」801に対して、図8−2の(A−1)の障害原因判定ルール820が設定されている。図8−1の(2)は2009年10月から12月に発生したイベントから作成した一時分類木810であり、この「障害ノード1−1’」811に対して、図8−2の(B−1)の障害原因判定ルール830が生成された。このとき、登録分類木800と一時分類810の構成は一致している。さらに「障害ノード1−1」に分類される2009年1月から3月に発生したイベントから作成したイベントブロックは全て一時障害分類木810に分類され、「障害ノード1−1」811’と「障害ノード1−1’」811とが対応しているとする。
FIGS. 8A and 8B are diagrams illustrating the failure cause determination rule update process. (1) in FIG. 8A is a registered
このとき、「障害ノード1−1」801の障害原因判定ルール820と、「障害ノード1−1’」811の障害原因判定ルール830とを比較すると、2番目の判定イベントの属性「コンピュータ」の属性値が、「障害ノード1−1」では「server8」821であるのに対し、「障害ノード1−1’」では「server25」であり異なっている。以上の場合、障害原因判定ルールテーブル310に登録されている「障害ノード1−1」801の障害原因判定ルール820を、「障害ノード1−1’」811の障害原因判定ルール830で置換する。関連して障害ノードテーブル320も更新される。
At this time, when the failure
(ステップ770)
障害原因判定ルール検証コンピュータ107は、一時障害分類木と登録障害分類木との差分を求める。一時障害分類木に登録障害分類木300にない障害ノードが存在する場合、障害原因判定ルール検証コンピュータ107は、ステップ771を実行する。登録障害分類木300に存在していた障害ノードが一時障害分類木には存在しない場合、障害原因判定ルール検証コンピュータ107は、ステップ772を実行する。登録障害分類木300に存在していた複数の障害ノードが一時障害分類木では一つの障害ノードにまとめられている場合、障害原因判定ルール検証コンピュータ107は、ステップ773を実行する。登録障害分類木300では一つの障害ノードが一時障害分類木では複数の障害ノードに分割された場合、障害原因判定ルール検証コンピュータ107は、ステップ774を実行する。
(Step 770)
The failure cause determination
(ステップ771)
障害原因判定ルール検証コンピュータ107は、障害原因判定ルールDB106を更新する。すなわち、障害原因判定ルール検証コンピュータ107は、一時障害分類木に追加された新規の障害ノードに対してステップ501の(2)及び(3)の手順で障害原因判定ルールを作成し、作成された障害原因判定ルールを障害原因判定ルールテーブル310に追加する。
(Step 771)
The failure cause determination
図9は、障害原因判定ルールの追加処理を説明した図である。図9の(1)は2009年1月から3月に発生したイベントから作成した登録障害分類木900であり、図9の(2)は2009年10月から12月に発生したイベントから作成した一時障害分類木910である。登録障害分類木900と一時障害分類木910とを比較すると、登録障害分類木900には存在しないが、一時障害分類木910には「障害ノード3’」911が存在することが分かる。
FIG. 9 is a diagram for explaining failure cause determination rule addition processing. (1) in FIG. 9 is a registered
このとき、障害原因判定ルール検証コンピュータ107は、「障害ノード3’」911に対して障害原因判定ルールを作成し、障害原因判定ルールテーブル310に登録する。この登録に関連して、障害原因判定ルール検証コンピュータ107は、登録障害分類木300と障害ノードテーブル320も更新する。
At this time, the failure cause determination
(ステップ772)
障害原因判定ルール検証コンピュータ107は、障害原因判定ルールDB106を更新する。すなわち、障害原因判定ルール検証コンピュータ107は、一時障害分類木には存在しないが、登録障害分類木300の検証障害ノード311には設定されている障害原因判定ルールテーブル310の障害原因判定ルール312を削除する。
(Step 772)
The failure cause determination
図10は、障害原因判定ルールの削除処理を説明した図である。図10の(1)は2009年1月から3月に発生したイベントから作成した登録障害分類木1000であり、図10の(2)は2009年10月から12月に発生したイベントから作成した一時障害分類木1010である。登録障害分類木1000と一時障害分類木1010とを比較すると、登録障害分類木1000に存在した障害ノード1001は、一時障害分類木1010では無くなっていることが分かる。
FIG. 10 is a diagram for explaining a failure cause determination rule deletion process. (1) in FIG. 10 is a registered
このとき、障害原因判定ルール検証コンピュータ107は、「障害ノード2」1001に設定されていた障害原因判定ルールを、障害原因判定ルールテーブル310から削除する。この削除に関連し、障害原因判定ルール検証コンピュータ107は、登録障害分類木300及び障害ノードテーブル320も更新する。
At this time, the failure cause determination
(ステップ773)
障害原因判定ルール検証コンピュータ107は、障害原因判定ルールDB106を更新する。すなわち、障害原因判定ルール検証コンピュータ107は、統合される登録障害分類木300の複数の障害ノードに設定されていた障害原因判定ルール312を、障害原因判定ルールテーブル310から削除する。さらに、障害原因判定ルール検証コンピュータ107は、一時障害分類木の統合された障害ノードに対してステップ501の(2)及び(3)の手順で障害原因判定ルールを作成し、障害原因判定ルールテーブル310に追加する。ただし、作成した一時障害分類木の障害ノードの障害原因判定ルールの復旧手順書は、実績のある登録障害分類木300の障害ノード311に設定されていた障害原因判定ルール312の復旧手順315を活用する。
(Step 773)
The failure cause determination
図11−1及び図11−2は、障害原因判定ルールの統合処理を説明した図である。図11−1の(1)は2009年1月から3月に発生したイベントから作成した登録障害分類木1100であり、図11−1の(2)は2009年10月から12月に発生したイベントから作成した一時障害分類木1110である。2009年1月から3月に発生したイベントから作成したイベントブロックは、「障害ノード1−1」1101に10個、「障害ノード1−2」1102に5個分類されている。これら15個のイベントブロックを一時障害分類木1101で分類すると、15個全てのイベントブロックが「障害ノード1’」1101に分類されている。すなわち、「障害ノード1−1」と「障害ノード1−2」が統合されて「障害ノード1’」になっている。「障害ノード1−1」1101及び「障害ノード1−2」1102に設定されている障害原因判定ルールは、それぞれ図11−2の(A−1)の1120及び図11−2の(A−2)の1021に対応する。
FIGS. 11A and 11B are diagrams illustrating the failure cause determination rule integration processing. (1) in FIG. 11-1 is a registered
また、障害原因判定ルール検証コンピュータ107は、2009年10月から12月に発生したイベントから「障害ノード1’」1111の障害原因判定ルール1130を作成する。ただし、障害原因判定ルール1030の復旧手順書1031には、より多くのイベントブロックが分類され、かつ、実績のあった「障害ノード1−1」に対応する障害原因判定ルール1020の復旧手順書1021を採用する。
Further, the failure cause determination
このとき、障害原因判定ルールテーブル310からは「障害ノード1−1」1101及び「障害ノード1−2」1102に対応する障害原因判定ルール1120及び1130を削除し、新たに作成された「障害ノード1’」の障害原因判定ルール1030を追加する。関連して登録障害分類木300及びイベントブロックテーブル320も更新する。
At this time, the failure
(ステップ774)
障害原因判定ルール検証コンピュータ107は、障害原因判定ルールDB106を更新する。すなわち、障害原因判定ルール検証コンピュータ107は、分割される登録障害分類木300の障害ノードに設定されていた障害原因判定ルール312を、障害原因判定ルールテーブル310から削除する。さらに、障害原因判定ルール検証コンピュータ107は、一時障害原因分類木の分割された複数の障害ノードに対してステップ501の(2)及び(3)の手順で障害原因判定ルールを作成し、障害原因判定ルールテーブル310に追加する。ただし、作成した一時障害分類木の障害ノードの障害原因判定ルールの復旧手順書は、実績のある登録分類木300の障害ノード311について設定されていた障害原因判定ルール312の復旧手順書315を活用する。
(Step 774)
The failure cause determination
図12−1及び図12−2は、障害原因判定ルールの分割処理を説明した図である。図12−1の(1)は2009年1月から3月に発生したイベントから作成した登録障害分類木1200であり、図12−1の(2)は2009年10月から12月に発生したイベントから作成した一時障害分類木1210である。2009年1月から3月に発生したイベントから作成したイベントブロックのうち10個が「障害ノード1−1」1201に分類されている。一時障害分類木1210では、これら10個のイベントブロックのうちの6個が「障害ノード1−1−1’」1211に、4個が「障害ノード1−1−2’」1212に分類される。「障害ノード1−1」1201に設定されている障害原因判定ルールは、図12−2の(A−1)の1220であり、2009年10月から12月に発生したイベントから生成した「障害ノード1−1−1’」1211及び「障害ノード1−1−2’」1212の障害原因判定ルールは、それぞれ図12−2の(B−1)の1221及び図12−2の(B−2)の1231である。ただし、「障害ノード1−1」1201に分類されたイベントブロックがより多く分類された「障害ノード1−1−1’」1211の障害原因判定ルール1221の属性「復旧手順書」に「障害ノード1−1」1201の障害原因判定ルール1120の属性「復旧手順書」で指定された実績のある障害復旧手順書を割り当てる。
12A and 12B are diagrams for explaining the failure cause determination rule division processing. (1) in FIG. 12-1 is a registered
このとき、障害原因判定ルール検証コンピュータ107は、障害原因判定ルールテーブル310から「障害ノード1−1」1201に対応する障害原因判定ルール1220を削除し、「障害ノード1−1−1’」1211及び「障害ノード1−1−2’」1212に対応する障害原因判定ルール1221と1231を追加する。関連して登録障害分類木300及びイベントブロックテーブル320も更新する。
At this time, the failure cause determination
101…監視対象サーバ群
102…監視サーバ
103…ログデータベース(DB)
104…障害原因判定ルール生成コンピュータ
105…障害原因解析コンピュータ
106…障害原因判定ルールDB
107…障害原因判定ルール検証コンピュータ
108…復旧手順書データベース(DB)
109…復旧手順書閲覧コンピュータ
101 ... Monitoring
104 ... Failure cause determination
107 ... Failure cause determination
109 ... Recovery procedure manual browsing computer
Claims (10)
予め設定しておいた時間窓内に発生したイベントを障害別に分類し、一時障害分類木を生成する第二の処理部と、
運用中の障害原因判定ルールに対応する登録障害分類木と一時障害分類木とを比較する第三の処理部と、
前記登録障害分類木と前記一時障害分類木の間の差分に基づいて、運用中の前記障害原因判定ルールを更新する第四の処理部と
を有する障害原因判定ルール検証装置。 A first processing unit that acquires an event generated by a monitoring server based on a status of a server group to be monitored when a system failure occurs;
A second processing unit that classifies events that occur within a preset time window by failure and generates a temporary failure classification tree;
A third processing unit that compares the registered failure classification tree corresponding to the failure cause determination rule in operation with the temporary failure classification tree;
A failure cause determination rule verification device comprising: a fourth processing unit that updates the failure cause determination rule in operation based on a difference between the registered failure classification tree and the temporary failure classification tree.
一時障害分類木を作成する時間窓を、
登録障害分類木内の検証対象の障害ノードに分類されている障害の出現間隔時間の統計量に基づき、当該時間内に同じ障害ノードに分類される障害が発生しないならば、今後同様の障害が発生しないと判断できる時間間隔の境界時間として計算する
ことを特徴とする請求項1記載の障害原因判定ルール検証装置。 The second processing unit is
A time window for creating a temporary fault classification tree,
Based on the statistics of the appearance interval time of failures classified as failure nodes to be verified in the registered failure classification tree, if no failures classified into the same failure node occur within that time, similar failures will occur in the future. The failure cause determination rule verification device according to claim 1, wherein the failure cause determination rule verification device is calculated as a boundary time of a time interval in which it can be determined that no failure occurs.
登録障害分類木の訓練データとして使用したイベントブロックを、登録障害分類木と一時障害分類木のそれぞれについて分類した場合における同一イベントブロックの各分類先に該当する登録障害分類木の障害ノードと一時障害分類木の障害ノードとの比較により、登録障害分類木と一時障害分類木との間の前記比較を実行する
ことを特徴とする請求項1に記載の障害原因判定ルール検証装置。 The third processing unit includes:
Failure node and temporary failure corresponding to each classification destination of the same event block when the event block used as training data for the registered failure classification tree is classified for each of the registered failure classification tree and the temporary failure classification tree The failure cause determination rule verification device according to claim 1, wherein the comparison between the registered failure classification tree and the temporary failure classification tree is performed by comparison with a failure node of the classification tree.
前記一時障害分類木の障害ノードから生成される障害原因判定ルールと運用中の前記障害原因判定ルールの間の差分に基づいて、運用中の前記障害原因判定ルールを更新する機能を更に有し、
運用中の障害原因判定ルールを設定するのに用いた登録障害分類木の障害ノードに対応する一時障害分類木の障害ノードに対して障害原因判定ルールを作成した場合にあって、両ルール間に違いが検出されたとき、
運用中の前記障害原因判定ルールを、一時障害分類木の障害ノードに対して作成した障害原因判定ルールによって置換する
ことを特徴とする請求項1に記載の障害原因判定ルール検証装置。 The fourth processing unit includes:
Based on the difference between the failure cause determination rule generated from the failure node of the temporary failure classification tree and the failure cause determination rule in operation, further has a function of updating the failure cause determination rule in operation,
When a failure cause determination rule is created for a failure node in the temporary failure classification tree corresponding to the failure node in the registered failure classification tree used to set the failure cause determination rule in operation. When a difference is detected,
The failure cause determination rule verification apparatus according to claim 1, wherein the failure cause determination rule in operation is replaced with a failure cause determination rule created for a failure node in a temporary failure classification tree.
運用中の障害原因判定ルールに対応する登録障害分類木に存在しない障害ノードが一時障害分類木には存在する場合、
当該一時障害分類木にのみ存在する障害ノードに対する障害原因判定ルールを作成し、運用中の障害原因判定ルールに追加登録する
ことを特徴とする請求項1に記載の障害原因判定ルール検証装置。 The fourth processing unit includes:
If there is a failure node in the temporary failure classification tree that does not exist in the registered failure classification tree corresponding to the failure cause determination rule in operation,
The failure cause determination rule verification apparatus according to claim 1, wherein a failure cause determination rule for a failure node existing only in the temporary failure classification tree is created and additionally registered in a failure cause determination rule in operation.
登録障害分類木内の検証対象の障害ノードに分類されている障害の出現間隔時間の統計量に基づき、当該時間内に同じ障害ノードに分類される障害が発生しないならば、今後同様の障害が発生しないと判断できる時間間隔の境界時間を経過しても、検証対象の障害ノードに分類される障害が発生しない場合、
当該障害ノードに対して設定されている障害原因判定ルールを、運用中の障害原因判定ルールから削除する
ことを特徴とする請求項1に記載の障害原因判定ルール検証装置。 The fourth processing unit includes:
Based on the statistics of the appearance interval time of failures classified as failure nodes to be verified in the registered failure classification tree, if no failures classified into the same failure node occur within that time, similar failures will occur in the future. If a failure that is classified as a failed node to be verified does not occur even after the boundary time of the time interval that can be determined not to have passed,
The failure cause determination rule verification device according to claim 1, wherein the failure cause determination rule set for the failure node is deleted from the failure cause determination rule in operation.
運用中の障害原因判定ルールに対応する登録障害分類木に存在した障害ノードが一時障害分類木には存在しない場合、
当該登録障害分類木にのみ存在する障害ノードに対して設定されている障害原因判定ルールを、運用中の障害原因判定ルールから削除する
ことを特徴とする請求項1に記載の障害原因判定ルール検証装置。 The fourth processing unit includes:
If the failure node that existed in the registered failure classification tree corresponding to the failure cause determination rule in operation does not exist in the temporary failure classification tree,
The failure cause determination rule verification according to claim 1, wherein the failure cause determination rule set for the failure node existing only in the registered failure classification tree is deleted from the failure cause determination rule in operation. apparatus.
運用中の障害原因判定ルールに対応する登録障害分類木では複数の障害ノードに分類されていたものが、一時障害分類木では1つの障害ノードに分類されている場合、
登録障害分類木の複数の障害ノードに設定されていた障害原因判定ルールを運用中の障害原因判定ルールから削除すると共に、一時障害分類木の障害ノードに対して作成した障害原因判定ルールを運用中の障害原因判定ルールに追加登録する
ことを特徴とする請求項1に記載の障害原因判定ルール検証装置。 The fourth processing unit includes:
If the registered failure classification tree corresponding to the failure cause determination rule in operation is classified into a plurality of failure nodes, but is temporarily classified into one failure node in the temporary failure classification tree,
The failure cause determination rule set for multiple failure nodes in the registered failure classification tree is deleted from the failure cause determination rule in operation, and the failure cause determination rule created for the failure node in the temporary failure classification tree is in operation The failure cause determination rule verification device according to claim 1, wherein the failure cause determination rule is additionally registered.
運用中の障害原因判定ルールに対応する登録障害分類木では一つの障害ノードに分類されていたものが、一時障害分類木では複数の障害ノードに分割されていた場合、
登録障害分類木の障害ノードに設定されていた障害原因判定ルールを運用中の障害原因判定ルールから削除すると共に、一時障害分類木で対応する複数の障害ノードのそれぞれについて作成さした各障害原因判定ルールを障害原因判定ルールに追加登録する
ことを特徴とする請求項1に記載の障害原因判定ルール検証装置。 The fourth processing unit includes:
If the registered failure classification tree corresponding to the failure cause determination rule in operation is divided into one failure node, but temporarily divided into multiple failure nodes in the temporary failure classification tree,
The failure cause determination rule set for the failure node in the registered failure classification tree is deleted from the operating failure cause determination rule, and each failure cause determination created for each of the corresponding failure nodes in the temporary failure classification tree The failure cause determination rule verification device according to claim 1, wherein the rule is additionally registered in a failure cause determination rule.
システム障害の発生時、監視対象であるサーバ群の状態に基づいて監視サーバが生成したイベントを取得する第一の処理と、
予め設定しておいた時間窓内に発生したイベントを障害別に分類し、一時障害分類木を生成する第二の処理と、
運用中の障害原因判定ルールに対応する登録障害分類木と一時障害分類木とを比較する第三の処理と、
前記登録障害分類木と前記一時障害分類木の間の差分に基づいて、運用中の前記障害原因判定ルールを更新する第四の処理と
を実行させるコンピュータプログラム。 In the computer that functions as the failure cause determination rule verification device,
A first process for acquiring an event generated by a monitoring server based on a status of a server group to be monitored when a system failure occurs;
A second process for classifying events that occurred within a preset time window by fault and generating a temporary fault classification tree;
A third process for comparing the registered failure classification tree corresponding to the failure cause determination rule in operation and the temporary failure classification tree;
A computer program for executing a fourth process of updating the failure cause determination rule in operation based on a difference between the registered failure classification tree and the temporary failure classification tree.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010136300A JP5651381B2 (en) | 2010-06-15 | 2010-06-15 | Failure cause determination rule verification device and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010136300A JP5651381B2 (en) | 2010-06-15 | 2010-06-15 | Failure cause determination rule verification device and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012003406A JP2012003406A (en) | 2012-01-05 |
JP5651381B2 true JP5651381B2 (en) | 2015-01-14 |
Family
ID=45535332
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010136300A Expired - Fee Related JP5651381B2 (en) | 2010-06-15 | 2010-06-15 | Failure cause determination rule verification device and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5651381B2 (en) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013121529A1 (en) * | 2012-02-14 | 2013-08-22 | 株式会社日立製作所 | Computer program and monitoring device |
WO2014141460A1 (en) * | 2013-03-15 | 2014-09-18 | 株式会社日立製作所 | Management system |
WO2016120989A1 (en) * | 2015-01-27 | 2016-08-04 | 株式会社日立製作所 | Management computer and rule test method |
JP2017146810A (en) * | 2016-02-18 | 2017-08-24 | 株式会社日立製作所 | Action identification system and action identification method |
WO2021250873A1 (en) * | 2020-06-12 | 2021-12-16 | 日本電信電話株式会社 | Rule generation device, rule generation method, and program |
JP7369219B2 (en) * | 2022-02-04 | 2023-10-25 | 株式会社日立製作所 | Operation management device and method |
CN115619292B (en) * | 2022-12-19 | 2023-03-21 | 云账户技术(天津)有限公司 | Method and device for problem management |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4924408A (en) * | 1988-08-19 | 1990-05-08 | International Business Machines Corporation | Technique for compilation of knowledge bases |
JPH03145846A (en) * | 1989-11-01 | 1991-06-21 | Hitachi Ltd | Fault diagnostic method |
JPH03269629A (en) * | 1990-03-19 | 1991-12-02 | Nippon Telegr & Teleph Corp <Ntt> | Knowledge reflinement processing system using example |
JPH06187158A (en) * | 1992-12-21 | 1994-07-08 | Mitsubishi Electric Corp | Knowledge reflection type abnormality diagnostic device |
JPH0973315A (en) * | 1995-09-07 | 1997-03-18 | Mitsubishi Electric Corp | Equipment failure diagnostic device |
JP3266126B2 (en) * | 1999-01-14 | 2002-03-18 | 日本電気株式会社 | Network fault information management system and storage medium |
JP2003228485A (en) * | 2002-02-06 | 2003-08-15 | Kawasaki Heavy Ind Ltd | Diagnosis rule structuring method based on failure mode analysis, diagnosis rule creating program, and failure diagnosis device |
JP4746850B2 (en) * | 2004-06-21 | 2011-08-10 | 富士通株式会社 | Pattern generation program |
-
2010
- 2010-06-15 JP JP2010136300A patent/JP5651381B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012003406A (en) | 2012-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5651381B2 (en) | Failure cause determination rule verification device and program | |
US20200097466A1 (en) | Method and system for implementing target model configuration metadata for a log analytics system | |
JP6919569B2 (en) | Log analysis systems, methods, and recording media | |
US9411673B2 (en) | Management server, management system, and management method | |
US20160124792A1 (en) | Fault analysis apparatus, fault analysis method, and recording medium | |
US11727025B2 (en) | Method and system for implementing a log parser in a log analytics system | |
US7509539B1 (en) | Method for determining correlation of synchronized event logs corresponding to abnormal program termination | |
CN106209405B (en) | Method for diagnosing faults and device | |
WO2016161381A1 (en) | Method and system for implementing a log parser in a log analytics system | |
JP5514643B2 (en) | Failure cause determination rule change detection device and program | |
JP2014215883A (en) | Classification method for system log, program and system | |
US20200241947A1 (en) | Management system of storage system | |
JP2012094046A (en) | Device fault analysis apparatus, device fault analysis method and device fault analysis program | |
JPWO2011055436A1 (en) | Operation management apparatus and operation management method | |
US20170228265A1 (en) | Log analysis apparatus, log analysis system, log analysis method and computer program | |
JP5798095B2 (en) | Log generation rule creation device and method | |
JP5395719B2 (en) | Rule generation device and program for failure cause analysis system | |
JP4928848B2 (en) | Message converter in computer system integrated management environment. | |
JP5417264B2 (en) | Method of providing analysis information | |
JP2003216457A (en) | Error log collecting and analyzing agent system | |
JP5295062B2 (en) | Automatic query generation device for complex event processing | |
JP2018081403A (en) | Incident management system, incident management method and computer program | |
JP2011107742A (en) | Operation management device, operation management method, and program | |
JP5735326B2 (en) | IT failure detection / retrieval device and program | |
JP2011118575A (en) | Failure countermeasure information acquisition method and management server |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130129 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140304 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140424 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141028 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141117 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5651381 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |