JP5395719B2 - 障害原因解析システムにおけるルール生成装置及びそのプログラム - Google Patents

障害原因解析システムにおけるルール生成装置及びそのプログラム Download PDF

Info

Publication number
JP5395719B2
JP5395719B2 JP2010075802A JP2010075802A JP5395719B2 JP 5395719 B2 JP5395719 B2 JP 5395719B2 JP 2010075802 A JP2010075802 A JP 2010075802A JP 2010075802 A JP2010075802 A JP 2010075802A JP 5395719 B2 JP5395719 B2 JP 5395719B2
Authority
JP
Japan
Prior art keywords
event
failure
failure cause
frequent
determination rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010075802A
Other languages
English (en)
Other versions
JP2011209908A (ja
Inventor
宏至 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Solutions Ltd
Original Assignee
Hitachi Solutions Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Solutions Ltd filed Critical Hitachi Solutions Ltd
Priority to JP2010075802A priority Critical patent/JP5395719B2/ja
Publication of JP2011209908A publication Critical patent/JP2011209908A/ja
Application granted granted Critical
Publication of JP5395719B2 publication Critical patent/JP5395719B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Description

本発明は、障害原因解析システムに利用される障害原因判定ルールを、過去のイベントログに基づいて生成する装置及びそのプログラムに関する。
システム障害発生時における復旧作業の遅延は、企業の業績や社会インフラに大きな影響を与える。システム障害の迅速な復旧には、初動時の対応すなわち障害原因の早期特定と復旧手順の決定が重要である。
現在、障害発生時における迅速な復旧を支援する目的で、障害原因解析システムが提案されている(特許文献1)。この解析システムは、ユーザ自身が主に手作業で事前に作成・登録した障害原因判定ルールを使用する。障害発生時、この解析システムは、事前に作成された障害原因判定ルールに基づいて、サーバ等のIT基盤を監視している監視サーバが生成したイベントを自動的に解析し、解析結果に応じた適切な復旧手順を復旧担当者に自動的に提示する。なお、障害原因判定ルールは、特定の障害時に発生するイベントの発生パターンと復旧手順とを対応付けたデータ構造を有する。障害原因判定ルールのうち、障害を特定するイベントの発生パターンを定義する句を「条件句 (Condition)」といい、その障害に対する復旧手順を定義する句を「行為句(Action)」という。
その一方で、人手による障害原因判定ルールの作成には困難が伴う。このため、イベントログから障害原因判定ルールの条件句を自動生成する方法が提案されている(特許文献2〜4)。各特許文献は、障害発生時における個々のイベントの振る舞いを解析し、障害原因判定ルールの条件句を求める手法が開示されている。例えば特許文献2には、特定イベントの発生頻度を利用する方法が記載されている。また、特許文献3には、イベントの生起パターンを利用する方法が記載さている。また、特許文献4には、正常値と比較した属性値の異常度の利用により、発生した障害を特徴付けるイベントを定義し、その結果を判定ルールに反映させる手法が記載されている。
国際公開第2004/061681号 特開2008−41041号公報 特開2006−4346号公報 特開2009−217382号公報
Fisher, Douglas H. "Knowledge acquisition via incremental clustering", Machine Learning 2, 139-172, 1987
復旧時間の短縮には、障害原因が同じ障害には同じ適切な対応手順を定めることと、一旦定めた対応手順の見直しと改善とが必要となる。このため、自動生成技術によって生成される障害原因判定ルールは、障害原因が同じ障害に対して共通に適用でき、その障害に対して適切な対応手順を提示することが要求される。
しかし、前述した障害原因判定ルールの自動生成技術には、次の2つの課題がある。
(1)障害原因が同じ障害への適用保障
特許文献2から4に係る条件句の自動生成技術では、障害発生時、発生した個々のイベントに基づいて、障害に対する条件句を作成している。しかし、これらの方法は、障害原因が同じ障害に対して同じ対応手順を適用できる保障がない。実際、障害原因は同じでも、個々の障害には、当該障害と無関係のイベントが何らかの理由により発生することがある。このため、個々の障害について発生するイベントから導出される条件句を、他の障害に対して適用できない場合がある。
(2)不完全な障害原因判定ルールの生成
特許文献2から4に係る自動生成技術は、障害発生時のイベントの振舞いを解析し、障害原因判定ルールの条件句のみを自動的に生成するものであり、行為句は生成しない。このため、従来システムでは、行為句についてはユーザ自身が作成する必要がある。しかし、作成される行為句の内容はユーザのスキルに依存し、適切な復旧手順が選択されない場合がある。
そこで、本発明者は、(1) 障害に伴って発生する単数又は複数のイベント(イベントブロック)をその特徴に基づいてクラスタリングし(このとき、同じクラスタに属する障害はイベント及びイベントパターンが類似していることになるので、同じ原因による障害と判断できる)、(2) 同じクラスタに属するイベントブロックに頻出するイベントに基づいて障害原因判定ルールの条件句を生成し、(3) 生成された条件句で指定されたイベントの属性値に基づいて検索キーを生成し、(4) 生成された検索キーを用いて検索された復旧手順書を障害原因判定ルールの行為句とすることで、完全な障害原因判定ルールを自動生成することを特徴とする発明を提供する。
本発明によれば、障害原因が同じ障害に対して共通に適用でき、しかも、障害原因判定ルールの条件句と行為句の両方で構成される障害原因判定ルールを自動的に生成することができる。
障害原因解析システムのシステム構成例を示す図。 ログDBが保持するイベントログの具体例を説明するテーブル図。 障害原因判定ルール生成コンピュータのシステム構成例を示す図。 障害原因解析プロセスの概要を示すフローチャート。 障害原因判定ルールの具体例を説明する図。 障害原因判定ルール生成プロセスの実行手順例を示すフローチャート。 障害原因判定ルール生成コンピュータにおける初期状態のGUI例を示す図。 障害原因判定ルール生成コンピュータにおいて障害クラスタを表示したGUI例を示す図。 障害原因判定ルール生成コンピュータにおいて頻出イベントを表示したGUI例を示す図。 障害原因判定ルール生成コンピュータにおいて障害原因判定ルール作成のGUI例を示す図。 障害クラスタリングプロセスの実行手順例を示すフローチャート。 イベントブロックの具体例を説明する図。 イベントブロックの特徴の具体例を説明する図。 復旧手順書の検索プロセスの実行手順例を示すフローチャート。
以下、図面に基づいて、本発明の実施の形態を説明する。なお、後述する装置構成や処理動作の内容は発明を説明するための一例であり、本発明は、後述する装置構成や処理動作に既知の技術を組み合わせた発明や後述する装置構成や処理動作の一部を既知の技術と置換した発明も包含する。
(障害原因解析システムのシステム構成)
図1に、障害原因判定ルール生成装置を実装する障害原因解析システムの構成例を示す。障害原因解析システムは、監視対象サーバ群101と、これらサーバの状態(死活など)を監視し、その状態に応じたイベントを生成する監視サーバ102、監視サーバ102が生成したイベントを格納するログデータベース(DB)103、監視サーバ102が生成したイベントを障害原因判定ルールに基づいて解析する障害原因解析コンピュータ104、障害発生時のトラブルシューティングが記述されたハードウェアやソフトウェアなどのマニュアルや保守担当者による過去の障害時の復旧作業に関する報告書などの障害時の復旧手順に関する文書が格納された復旧手順書データベース(DB)105、障害原因解析コンピュータ104が障害原因判定ルールに基づきイベントを解析して、復旧手順書を特定し、復旧手順書DB105から取得した復旧手順書を障害復旧担当者が閲覧するために表示する復旧手順書閲覧コンピュータ106と、ログDB103からイベントログを取得し障害原因判定ルールを生成する障害原因判定ルール生成コンピュータ107から構成される。
図2に、ログDB103に格納されているイベントのテーブル例を示す。テーブルはイベントを一意に特定する識別子(ID)201、イベントが発生した時間を特定する発生日時202、個々のイベントの属性値の集合であるイベント203から構成される。この形態例において、イベント203の属性は次のように定義する。
(<種類>, <ソース>, <イベント番号>, <ユーザ>, <コンピュータ>)
<種類>は、イベントの緊急度を意味する。<ソース>は、イベントを発生させたプロセス、アプリケーションなどの発生源を意味する。<イベント番号>は、イベントの内容を特定する番号を意味する。<ユーザ>は、イベントの発生源となったプロセスやアプリケーションを実行していたユーザを意味する。<コンピュータ>は、イベントの発生源となった監視対象サーバ群101内のサーバを意味する。
図5に、障害原因判定ルールの一例を示す。この例は、判定時間2分9秒以内に、属性値タプル(警戒, process71, 80, user2, server9)を持つイベントの後に属性値タプル(*, process39, *, user4, server8)を持つイベントが発生したならば、復旧手順書「○○システム復旧手順書.doc」を復旧担当者に提示することを意味している。ここで、属性値”*”は値が不定であることを示している。また、この障害原因判定ルールでは、イベントパターン501と判定時間502の項目を合わせたものがルールの条件句であり、復旧手順書503の項目がルールの行為句に相当する。
図3に、障害原因判定ルール生成コンピュータ107の構成例を示す。障害原因判定ルール生成コンピュータ107は、コンピュータ本体300と、入力装置330と、表示装置331と、通信装置332とから構成される。ここで、通信装置332は、ログDB103と復旧手順書DB105と障害原因解析コンピュータ104との通信を行う。コンピュータ本体300は、データ演算を実行するCPU301、ROM302、RAM310、ハードディスク駆動装置320、これらデバイス間のデータ転送を実現するCPUバス307、前述したデバイスとCPUバス307とを結合するインターフェース303〜306で構成される。
RAM310には、CPU301に演算処理を実行させる障害原因判定ルール生成プログラム311の実行領域と、検算時に一時的に生成させるデータを格納する作業領域312とが少なくとも確保される。以下、「障害原因判定ルール生成プログラム311」を、単に「プログラム311」ともいう。また、ハードディスク駆動装置320の記憶領域には、障害原因判定ルール生成プログラムの格納領域としてのプログラム格納部321と、ログDB103及び復旧手順書DB105から取得したデータを一時的に格納しておくデータ格納部322が少なくとも確保される。
図7及び図10に、障害原因判定ルール生成コンピュータ107に接続される表示装置331に表示される障害原因判定ルール生成プログラムの条件入力及び計算結果出力用のGUI画面例を示す。障害原因判定ルール生成プログラム画面700は、障害のクラスタリングの実行及び結果を表示する障害クラスタリングタブ701と、障害原因判定ルールを表示するルール作成タブ1001から構成される。これらの画面は、プログラム311を通じて表示装置331の画面上に表示される。
障害クラスタリングタブ701は、障害のクラスタリング処理に関連する情報要素をまとめて表示する領域(障害クラスタリング部710)と、個々の障害クラスタに関連する情報要素をまとめて表示する領域(障害クラスタ詳細部720)とから構成される。
障害クラスタリング部710は、イベントブロックの分離基準を与える時間窓単位入力部711と、イベントブロックをクラスタリングする際に画面上のポインタを通じてクリック操作されるクラスタリング開始ボタン712と、障害をクラスタリングした結果得られた障害の分類木である障害分類木の表示部713とから構成される。ここで、イベントブロックとは、1つの障害時に発生する単数又は複数のイベントの集合を意味する。図7の例の場合、プログラム311は、障害によって発生したイベントを、その発生日時と一つ前のイベントの発生日時との差が10分以内であれば、一つ前のイベントと同じ障害によって発生したイベントを見なし、同じイベントブロックに分類する。逆に、発生日時の差が10分以上の場合、プログラム311は、発生したイベントを、一つ前のイベントとは異なる障害によって発生したイベントとみなし、新規のイベントブロックに分類する。
障害クラスタ詳細部720は、障害分類木表示部713に表示された障害分類木の中から選択されたノードに分類される複数の障害(以後、「障害クラスタ」という。)に含まれる頻出イベントを計算する条件を入力する最小有効属性数入力部721と、最小サポート イベントブロック数入力部722と、頻出イベントの計算を開始する際に画面上のポインタを通じてクリック操作される頻出イベント発見ボタン723と、障害分類木表示部713で選択された障害クラスタ内に含まれるイベントブロックの情報を表示するイベントブロックテーブル730と、頻出イベントの情報を表示する頻出イベントテーブル740から構成される。ここで、有効属性数は、頻出イベントの「*」以外の属性値の数であり、最小有効属性数は頻出イベントが満たすべき最小の有効属性数のことである。また、最小サポート イベントブロック数とは、頻出イベントが含まれているべき最小のイベントブロック数である。前述の通り、”*”は属性値が不定であることを示す。
イベントブロックテーブル730は、指定された障害クラスタ内のイベントブロック名を表示する障害のイベントブロック731、イベントブロック内のイベントの属性値を表示するイベント732、各イベントに対応する頻出イベントのラベルを表示する頻出イベントラベル733から構成される。頻出イベントテーブル740は、頻出イベントを一意に特定するラベルを表示する頻出イベントラベル741、頻出イベントの属性値を表示するイベント742、イベントブロックテーブル730内のイベントブロックのうち頻出イベントが含まれるイベントブロック数を表示するサポートイベントブロック数743から構成される。
ルール作成タブ1001は、最終的に障害原因解析コンピュータ104に登録する障害原因判定ルールに関連する要素をまとめた最終的な障害原因判定ルール部1010と、障害原因判定ルールの条件句の決定に関連する要素をまとめたイベントパターン候補部1030と、障害原因判定ルールの行為句の決定に関連する要素をまとめた復旧手順書検索部1050とから構成される。
障害原因判定ルール部1010は、最終的な障害原因判定ルールの決定後、障害原因解析コンピュータ104に登録する際に画面上のポインタを通じてクリック操作される決定ボタン1011と、障害原因判定ルールの内容を表示する障害原因判定ルールテーブル1020から構成される。障害原因判定ルールテーブル1020は、イベントが出現するパターンを表示するイベントパターン1021と、そのパターンが出現する時間間隔である判定時間1022と、判定時間1022内にそのイベントパターンが出現したときに復旧手順書閲覧コンピュータ106に表示させる復旧手順書名を表示する復旧手順書1023から構成される。
イベントパターン候補部1030は、障害原因判定ルールの条件句のイベントパターン1021及び判定時間1022の候補を表示するイベントパターンテーブル1040と、イベントパターンテーブル1040の中から選択された候補を障害原因判定ルールのイベントパターン1021及び判定時間1022として決定する際に画面上のポインタを通じてクリック操作される決定ボタン1031から構成される。イベントパターンテーブル1040は、イベントパターン候補を一意に識別する番号を表示する候補1041と、対応する頻出イベントのラベルを表示する頻出イベントラベル1042と、イベントパターンのイベントの属性値を表示するイベントパターン1043と、その判定時間を表示する判定時間1044と、このイベントパターンが含まれるイベントブロック数を表示するイベントブロックサポート数1045から構成される。
復旧手順書候補部1050は、検索キーワードを入力する検索キーワード入力部1052、復旧手順書DB105に対して復旧手順書を検索する際に画面上のポインタを通じてクリック操作される検索ボタン1053、検索された復旧手順書一覧を表示する復旧手順書テーブル1060と、復旧手順書テーブル1060の中から選択された復旧手順書を障害原因判定ルールの復旧手順書1063として決定する際に画面上のポインタを通じてクリック操作される決定ボタン1051から構成される。復旧手順書テーブル1060は、検索された復旧手順書名を表示する復旧順書1061と、検索された復旧手順書のスコアを表示するスコア1062から構成される。
(障害原因解析動作)
図4に、障害原因解析システムの全体で実行される障害原因解析プロセスの概要を示す。最初に、障害原因判定ルール生成コンピュータ107は、ログDB103からイベントログを取得して障害原因判定ルールを生成し、障害原因解析コンピュータ104に登録する(ステップ401)。図5に、障害原因判定ルール生成コンピュータ107によって生成された障害原因判定ルールの例を示す。
監視サーバ102は、監視対象サーバ群101を監視し、その状態に応じたイベントを生成する(ステップ402)。この後、監視サーバ102は、生成したイベントを障害原因解析コンピュータ104に送信し、同時に、生成したイベントをイベントログDB103に格納する。ここで、生成されるイベントは、図2に示すイベントログテーブルのイベント203を構成する属性値の集合である。
障害原因解析コンピュータ104は、監視サーバ102が発生させたイベントを受信し(ステップ403)、登録されている障害原因判定ルールの条件句のパターンと、受信したイベントの出現パターンとのマッチング処理を実行する(ステップ404)。
イベントの出現パターンが障害原因判定ルールの条件句と一致している場合、障害原因解析コンピュータ104は、その障害原因判定ルールの復旧手順書を復旧手順書DB105から取得し(ステップ406)、復旧手順書閲覧コンピュータ106に送信する(ステップ407)。その後、復旧手順閲覧コンピュータ106は、受信した復旧手順書を表示する(ステップ408)。
なお、イベントの出現パターンが障害原因判定ルールの条件句と一致しない場合、障害原因解析コンピュータ104は、ステップ402に戻る。
(障害原因判定ルール生成動作)
(a)動作の概要
(ステップ600)
図6に、障害原因判定ルール生成プログラム311を通じて実行される障害原因判定ルール生成プロセスの概要を示す。このプログラム311は、表示装置331に表示される初期状態の障害原因判定ルール生成プログラム画面700(図7)の時間窓単位入力部711に単位時間が入力された後、クラスタリング開始ボタン712に対するクリック操作が検出されることで開始される。ここでのクリック操作は、障害原因判定ルール生成コンピュータ107を構成する入力装置330に対するユーザ操作を通じて入力される。プログラム311は、障害原因判定ルール生成コンピュータ107で実行される。
(ステップ601)
障害原因判定ルール生成プログラム311は、該当する操作入力を検出すると、時間窓単位入力部711に入力された数値又は内容を読み取り、RAM310の作業領域312に格納する。さらに、障害原因判定ルール生成プログラム311は、障害原因判定ルール生成プログラム311に記述された障害クラスタリング処理の処理手順に従い、障害クラスタリング処理を実行する。この処理内容の詳細は後述する。
(ステップ602)
障害原因判定ルール生成プログラム311は、障害クラスタリングの実行結果を、表示装置331を通して障害原因判定ルール生成プログラム画面700上に表示する。図8は、障害クラスタリングの処理結果を障害原因判定ルール生成プログラム画面700に表示した様子の具体例を示している。障害クラスタ表示部713には、障害クラスタリングの実行結果が概念木で表示され、概念木のノードである選択された障害クラスタ714に含まれるイベントブロックの情報がイベントブロックテーブル730に表示される。図8の表示例の場合、ユーザにより選択された障害クラスタ714(障害クラスタ3)は、2008/10/11と、2008/10/25と、2008/12/02とに発生した障害から構成されること、各障害時に3個、2個、3個のイベントがそれぞれ発生したことが分かる。
(ステップ603)
障害原因判定ルール生成プログラム311は、次に頻出イベント発見処理を実行する。この頻出イベント発見処理は、表示装置331に表示された障害原因判定ルール生成プログラム画面700(図8)を構成する障害クラスタ表示部731において特定の障害クラスタ714がユーザによって選択され、かつ、当該選択された障害クラスタ714に関するイベントブロック情報がイベントブロックテーブル730に表示された状態で、入力部
(最小有効属性数入力部721と最小サポートイベントブロック数入力部722)に数値が入力された後、クラスタリング開始ボタン712に対するクリック操作が検出されることで開始される。ここでの選択、数値の入力及びクリック操作は、障害原因判定ルール生成コンピュータ107を構成する入力装置330に対するユーザ操作を通じて入力される。
(ステップ604)
障害原因判定ルール生成プログラム311は、当該操作入力を検出すると、図8の障害原因判定ルール生成プログラム画面700内の入力部(最小有効属性数入力部721と最小サポートイベントブロック数入力部722)に入力された数値及びイベントブロックテーブル730に表示された内容を読み取り、RAM310の作業領域312に格納する。さらに、障害原因判定ルール生成プログラム311は、障害原因判定ルール生成プログラム311に記述された頻出イベント発見処理の処理手順に従い、作業領域312に格納されたイベントブロックテーブルのイベントから頻出イベントを発見する。
ここで、頻出イベントとは、イベントブロックテーブル730に含まれるイベントのうち、最小サポートイベントブロック数入力部722に入力されたイベントブロック数を満たす頻度で出現しているイベントである。ただし、頻出イベントは、イベントブロックテーブル730に含まれるイベントの属性値と完全一致する必要はなく、一部の属性は不定(*)としても良い。このとき、頻出イベントの有効属性数(*以外の属性値の数)は、最小有効属性数入力部721の最小有効属性数を満たす必要がある。
(ステップ605)
障害原因判定ルール生成プログラム311は、頻出イベント発見処理の実行結果を、表示装置331を通して障害原因判定ルール生成プログラム画面700に表示する。図9は、頻出イベント発見処理の実行結果を、障害原因判定ルール生成プログラム画面700を構成するイベントブロックテーブル730及び頻出イベントテーブル740に表示した具体例を示している。
頻出イベントテーブル740には、頻出イベントを構成する属性値がイベント742に対し、各頻出イベントを一意に特定する色、模様及びラベル741等が付された状態で表示される。なお、図9の場合、頻出イベントテーブル740における頻出イベントは、各頻出イベントに対応するサポートイベントブロック数743の数値順(図9は降順)に表示される。さらに、イベントブロックテーブル730のイベント732には、頻出イベントテーブル740で頻出イベントに付されているのと同じ色や模様が付されると共に、対応する頻出イベントラベル733が割り当てられる。これにより、頻出イベントがイベントブロック内にどのように分布しているかを、画面表示からユーザが直感的かつ容易に理解できるようになる。もし、分布の仕方が不自然であれば、ユーザは条件入力部(最小有効属性数入力部721と最小サポートイベントブロック数入力部722)の値を変更して、頻出イベントを求め直しても良い。
(ステップ606)
障害原因判定ルール生成プログラム311における頻出イベントパターン発見処理は、入力装置330に対するユーザ操作を通じ、表示装置331に表示された図9に示す障害原因判定ルール生成プログラム画面700のルール作成タブ1001がクリックされることで開始される。
(ステップ607)
障害原因判定ルール生成プログラム311は、当該操作入力を検出すると、図9に示す障害原因判定ルール生成プログラム画面700を構成するイベントブロックテーブル730と頻出イベントテーブル740に表示された内容を読み取り、RAM310の作業領域312に格納する。さらに、障害原因判定ルール生成プログラム311は、頻出イベントパターン発見処理の処理手順に従い、作業領域312に格納されたイベントブロックテーブルの頻出イベントラベル733から頻出イベントパターンを発見する。ここで、障害原因判定ルール生成プログラム311は、イベントブロックテーブル730に表示される各障害を構成する頻出イベントに割り当てられた頻出イベントラベルを、イベント732の属性”時刻”の順番に並べた頻出イベント列を作成することにより、頻出イベントパターンを発見する。すなわち、頻出イベントパターンは、頻出イベントラベルを出現時間順に並べたパターンとして特定される。図9の例の場合、頻出イベント列は”CAB”,”AB”,”ACB”である。次に、障害原因判定ルール生成プログラム311は、最小サポートイベントブロック数入力部722で指定されたイベントブロック数を満たすイベントラベルが頻出する出現パターンを求める。図9の例では”AB”,“CB”となる。このイベントラベルのパターンを、頻出イベントテーブル740の頻出イベント742で置換したものが、頻出イベントパターンとなる。
(ステップ608)
障害原因判定ルール生成プログラム311は、頻出イベントパターン発見処理の実行結果を、表示装置331を通して障害原因判定ルール生成プログラム画面700上に表示する。図10は、頻出イベントパターン発見処理の実行結果を、障害原因判定ルール生成プログラム画面700を構成するイベントパターン候補テーブル1040に表示した具体例を示している。
(ステップ609)
障害原因判定ルール生成コンピュータ107は、ユーザが入力装置330の操作を通じて、表示装置331に表示された図10の障害原因判定ルール生成プログラム画面700を構成するイベントパターンテーブル1040内のイベントパターン候補を選択した操作を検出すると、選択されたイベントパターン候補1046の内容を読み取り、RAM310の作業領域312に格納する。さらに、障害原因判定ルール生成プログラム311は、障害原因判定ルール生成プログラム311に記述された復旧手順書検索処理の処理手順に従い、作業領域312に格納されたイベントパターン候補の内容をもとに復旧手順書の検索処理を実行し、検索された復旧手順書を作業領域312に格納する。この処理内容の詳細は後述する。
(ステップ610)
障害原因判定ルール生成プログラム311は、作業領域312に格納されている復旧手順書検索の実行結果を、表示装置331を通して障害原因判定ルール生成プログラム画面700上に表示する。図10は、復旧手順書の検索結果を、障害原因判定ルール生成プログラム画面700を構成する復旧手順書テーブル1060に表示した具体例を示している。
(ステップ611)
障害原因判定ルール生成プログラム311の障害原因判定ルール作成処理は、入力装置330に対するユーザの操作入力を通じ、表示装置331に表示される障害原因判定ルール生成プログラム画面700(図10)に対して以下の操作入力を通じて実行される。
まず、イベントパターン候補部1030を構成するイベントパターン候補テーブル1040の中からイベントパターン候補が選択された後、決定ボタン1031がクリック操作される。この操作により、選択されたイベントパターン候補1046の内容が、障害原因判定テーブル1020のイベントパターン1021及び判定時間1022に表示される。
次に、復旧手順書候補部1050を構成する復旧手順書テーブル1060の中から対応付ける復旧手順書が選択された後、決定ボタン1051がクリック操作される。この操作により、選択した復旧手順書1063の内容が、障害原因判定テーブル1020の復旧手順書1023に表示される。
最後に、最終的な障害原因判定ルール部1010内の決定ボタン1011がクリック操作されると、障害原因判定ルール生成プログラム311は、作成された障害原因判定ルールの登録処理を開始する。なお、画面上での選択、クリック操作は、障害原因判定ルール生成コンピュータ107を構成する入力装置330に対するユーザ操作を通じて入力される。
なお、本実施例の場合には、条件句の選択及び選択された条件句に対応付ける行為句の選択をユーザが行っているが、復旧手順書候補部1050の復旧手順書テーブル1060に表示される個別の復旧手順所のうちスコア1062が最も高いものを各条件句に自動的に対応付ければ、障害原因判定ルール作成処理を自動化できる。スコア1062は、検索キーワード1052と復旧手順書1061内の文書との統計的な一致度合いを表し、スコアが高いほど検索キーワードが復旧手順書1061の文書中に多く出現していることを意味する。
(ステップ612)
障害原因判定ルール生成プログラム311は、前述した一連の操作入力を検出すると、図10の障害原因判定ルール生成プログラム画面700内の障害原因判定ルールテーブルに表示された内容を読み取り、RAM310の作業領域312に格納する。さらに、障害原因判定ルール生成プログラム311は、障害原因判定ルール登録処理の処理手順に従い、作業領域312に格納された障害原因判定ルールテーブルの内容を、通信装置332を通して障害原因解析コンピュータ104に送信し、障害原因判定ルール(条件句と行為句を対応付けたルール)を障害原因解析コンピュータ104に登録する。
(b)詳細動作
(1)障害クラスタリング
ここでは、ステップ601で実行される障害クラスタリング処理の詳細動作を説明する。図11に、障害クラスタリング処理で実行される処理手順の概要を示す。
(ステップ1101)
障害クラスタリング処理の開始後、障害原因判定ルール生成プログラム311は、通信装置332を介してログDB103にアクセスし、障害に関わるイベント(イベント203の属性「種類」が、「致命的」、「緊急」、「エラー」などの値をとるイベントで、「情報」のような障害とは関係ない値をとるイベントは含まない)を発生時刻順に取得する。この後、障害原因判定ルール生成プログラム311は、取得したイベントを、ハードディスク駆動装置320のデータ格納部322に一時的に保存し、続いて、RAM310の作業領域312に格納する。ここで、イベントとは、図2に表示されるイベントID201、イベントの発生日時202、イベントの属性値203から構成される。
(ステップ1102)
障害原因判定ルール生成プログラム311は、作業領域312に格納されている最近取得したイベントの発生日時202と一つ前のイベントの発生日時202との差が、障害原因判定ルール生成プログラム画面700内の時間窓単位入力部711で指定された時間以内か否か判定する。時間以内の場合、障害原因判定ルール生成プログラム311はステップ1104を実行し、時間以内でない場合、障害原因判定ルール生成プログラム311はステップ1103を実行する。
(ステップ1103)
ステップ1103において、障害原因判定ルール生成プログラム311は、新規イベントブロックを作成し、最近取得したイベントを新規に作成したイベントブロックに分類する。例えば図2のイベントログの場合、イベントID201が“5”のイベントの発生日時202 「2009/05/23 12:23:35」と、直前のイベントID201が“4”のイベントの発生日時202 「2009/05/23 10:30:34」との時間差が、時間窓単位入力部711で指定された時間「10分」以上である。従って、障害原因判定ルール生成プログラム311は、イベントID201が“5”と“4”のイベントを別の障害によって発生したイベントと見なし、イベントID201が“5”のイベントを新規のイベントブロックに分類する。
(ステップ1104)
ステップ1104において、障害原因判定ルール生成プログラム311は、最近取得したイベントを一つ前のイベントと同じイベントブロックに追加する。例えば図2のイベントログの場合、イベントID201が“4”のイベントの発生日時202 「2009/05/23 10:30:34」と、直前のイベントID201が“3”のイベントの発生日時202 「2009/05/23 10:27:26」との時間差が、時間窓単位入力部711で指定された時間「10分」以内である。従って、障害原因判定ルール生成プログラム311は、イベントIDが“4”と“3”のイベントを一つの障害によって連続的に発生したイベントと見なし、同じイベントブロックに分類する。
(ステップ1105)
障害原因判定ルール生成プログラム311は、イベントログDB103に未取得のイベントが残っているか確認する。残っている場合、障害原因判定ルール生成プログラム311はステップ1101を実行し、残っていない場合、ステップ1106を実行する。
図12は、図2のイベント(イベントID201が1から17)をステップ1101からステップ1105の手順に従ってイベントブロックごとに分類した後のイベントブロックテーブル1200である。イベントブロックテーブル1200は、イベントブロックを一意に識別するイベントブロックID1201、イベントID201、イベントの発生日時202、イベントの属性203から構成される。
(ステップ1106)
障害原因判定ルール生成プログラム311は、作成したイベントブロックテーブル1200において、イベントブロック毎に特徴を抽出する。図13は、図12に示すイベントブロックテーブル1200から作成したイベントブロック特徴テーブル1300の一例である。イベントブロック特徴テーブル1300は、イベントブロックID1201、イベントブロック内のイベントの属性値の特徴である属性リスト1301、イベントブロック内に含まれるイベント数1302、イベントブロック内の最後のイベントと最初のイベントの発生日時202の差である時間幅1303から構成される。属性リスト1301は、イベントブロックに含まれるイベントの各属性203に対して最も頻出する属性値と2番目に頻出する属性値から構成される。
(ステップ1107)
障害原因判定ルール生成プログラム311は、ステップ1106で求めたイベントブロック特徴テーブル1300に基づいてイベントブロックをクラスタリングする。クラスタリング手法には、例えば非特許文献1に記載された概念クラスタリングCOBWEB等を使用すると良い。クラスタリングを実行すると、障害の概念木が生成される。
(2)復旧手順書検索
ここでは、ステップ609で実行される復旧手順書検索処理の詳細動作を説明する。図14に、復旧手順書検索処理で実行される処理手順の概要を示す。
(ステップ1401)
復旧手順書検索処理の開始後、障害原因判定ルール生成プログラム311は、RAM310の作業領域312に格納されているイベントパターン候補1046から属性値の特徴を抽出する。特徴を抽出する方法としては、検索に有効な属性に対して、属性“種類”の重要度がより高いイベントの属性値、イベントパターン候補の最初のイベントの属性値、頻出する属性値などから決める。イベントパターン候補1046では、検索に有効である属性”ソース”及び”イベント番号”に対して、属性”種類”の属性値が確定しており、最初に出現する頻出イベントラベルAのイベントの属性値から、(process71, 80)が特徴となる。
(ステップ1402)
障害原因判定ルール生成プログラム311は、ステップ1401で抽出した属性値の特徴とその属性名を組み合わせた検索キーワード”ソース process71 イベント番号 80”を生成する。このとき、組み合わせる属性名は、復旧手順書で良く使用される名前を利用して”プロセス名 prcess71 エラーコード 80”とすることもできる。また復旧手順書の言語を考慮して、”process name process71 error 80“とすることもできる。
(ステップ1403)
障害原因判定ルール生成プログラム311は、通信装置332を介して復旧手順書DB105にアクセスし、ステップ1402で生成した検索キーワードを用いて復旧手順書DB105を検索する。さらに、障害原因判定ルール生成プログラム311は、通信装置332を介して実行された検索処理でヒットした復旧手順書を復旧手順書DB105から取得し、一時的にハードディスク駆動装置320のデータ格納部332に保存した後、RAM310の作業領域312に格納する。
(効果)
以上説明したように、本実施形態に係る障害原因判定ルール生成装置(プログラム)を実装する障害原因解析システムにおいては、以下の処理動作が実行される。
(1)障害時に監視サーバ102が生成したイベントをログDB103から取得する。
(2)取得したイベントを障害毎のイベントブロックに分割し、そのイベントブロックの特徴に基づいて障害をクラスタリングし、障害クラスタを生成する。イベントブロックは、障害との関連性が高い1つ又は複数のイベントで構成される。障害クラスタは、同じ障害から発生した可能性の高いイベントブロックの集合である。
(3)障害クラスタ内のイベントブロックに頻出する頻出イベントを発見する。
(4)発見した頻出イベントを時系列で並べた頻出イベント列から頻出イベントパターンを発見する。
(5)発見した頻出イベントパターンの属性値に基づいて検索キーワードを作成し、復旧手順書のデータベースから対応する復旧手順書を検索する。
(6)得られた頻出イベントパターンと復旧手順書とを組み合わせて障害原因判定ルールを生成する。
すなわち、障害原因が同じ可能性が高い障害ブロックに基づいて障害判定ルール(頻出イベント)を発見することにより、障害に関連する可能性の高い障害原因判定ルールを条件句として作成することができる。また、作成された条件句に、統計的に高い行為句を組み合わせることにより、障害の復旧に適した障害原因判定ルールを自動的に生成することができる。

Claims (8)

  1. 障害時に監視サーバが生成したイベントをイベントログデータベースから自動的に取得する第1の処理部と、
    自動的に取得されたイベントを障害毎のイベントブロックに自動的に分割し、そのイベントブロックの特徴に基づいて障害を自動的にクラスタリングし、障害クラスタを生成する第2の処理部と、
    障害クラスタ内のイベントブロックに頻出する頻出イベントを自動的に発見する第3の処理部と、
    発見された頻出イベントを時系列で並べた頻出イベント列から頻出イベントパターンを自動的に発見する第4の処理部と、
    発見された頻出イベントパターンの属性値に基づいて検索キーワードを自動的に作成し、復旧手順書のデータベースから対応する復旧手順書を自動的に検索する第5の処理部と、
    得られた頻出イベントパターンと復旧手順書とを組み合わせて障害原因判定ルールを自動的に生成する第6の処理部と
    を有する障害原因解析システム向けルール生成装置。
  2. 前記第2の処理部は、一つ前のイベントの発生時刻との差が時間窓単位以内であるイベントを、一つ前のイベントが属するイベントブロックに分類する
    ことを特徴とする請求項1に記載の障害原因解析システム向けルール生成装置。
  3. 前記第2の処理部は、イベントブロックに含まれるイベントに頻出する属性値、イベントブロックの時間幅(イベントブロック内の最初のイベントと最後のイベントの発生時間の差)、イベントブロック内のイベント数のいずれか一つ又は複数をイベントブロックの特徴とする
    ことを特徴とする請求項1又は2に記載の障害原因システム向けルール生成装置。
  4. 前記第3の処理部は、値が不定の属性値を含まない最小有効属性数と、最小サポートイベントブロック数を満たす頻出イベントを発見する
    ことを特徴とする請求項1〜3のいずれか一項に記載の障害原因解析システム向けルール生成装置。
  5. 前記第3の処理部は、発見した同一の頻出イベントに対応するイベントブロック内の複数のイベントを同色又は同じ記号で表現し、頻出イベントの障害クラスタ内での分布を視覚化する
    ことを特徴とする請求項1〜4のいずれか一項に記載の障害原因解析システム向けルール生成装置。
  6. 前記第4の処理部は、最小サポートイベントブロック数を満たす頻出イベントパターンを発見する
    ことを特徴とする請求項1〜5のいずれか一項に記載の障害原因解析システム向けルール生成装置。
  7. 前記第5の処理部は、頻出イベントパターンに含まれる高い重要度を持つイベントの属性値、頻出する属性値、最初のイベントの属性値のいずれか一つ又は複数の属性値と、対応する属性名とを組み合わせて検索キーワードを生成する
    ことを特徴とする請求項1〜6のいずれか一項に記載の障害原因解析システム向けルール生成装置。
  8. コンピュータに、
    イベントログデータベースから障害時に監視サーバが生成したイベントを取得する第1の処理と、
    取得したイベントを障害毎のイベントブロックに分割し、そのイベントブロックの特徴を基に障害をクラスタリングし、障害クラスタを生成する第2の処理と、
    障害クラスタ内のイベントブロックに頻出する頻出イベントを発見する第3の処理と、
    発見した頻出イベントを時系列で並べた頻出イベント列から、頻出イベントパターンを発見する第4の処理と、
    発見した頻出イベントパターンの属性値に基づいて検索キーワードを作成し、復旧手順書のデータベースから対応する復旧手順書を検索する第5の処理と、
    得られた頻出イベントパターンと復旧手順書とを組み合わせて障害原因判定ルールを生成する第6の処理と
    を実行させるプログラム。
JP2010075802A 2010-03-29 2010-03-29 障害原因解析システムにおけるルール生成装置及びそのプログラム Expired - Fee Related JP5395719B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010075802A JP5395719B2 (ja) 2010-03-29 2010-03-29 障害原因解析システムにおけるルール生成装置及びそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010075802A JP5395719B2 (ja) 2010-03-29 2010-03-29 障害原因解析システムにおけるルール生成装置及びそのプログラム

Publications (2)

Publication Number Publication Date
JP2011209908A JP2011209908A (ja) 2011-10-20
JP5395719B2 true JP5395719B2 (ja) 2014-01-22

Family

ID=44940914

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010075802A Expired - Fee Related JP5395719B2 (ja) 2010-03-29 2010-03-29 障害原因解析システムにおけるルール生成装置及びそのプログラム

Country Status (1)

Country Link
JP (1) JP5395719B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5684946B2 (ja) * 2012-03-23 2015-03-18 株式会社日立製作所 イベントの根本原因の解析を支援する方法及びシステム
JP6078485B2 (ja) * 2014-02-13 2017-02-08 日本電信電話株式会社 運用履歴分析装置及び方法及びプログラム
US10348798B2 (en) * 2015-08-05 2019-07-09 Facebook, Inc. Rules engine for connected devices
JP6834242B2 (ja) * 2016-08-16 2021-02-24 富士ゼロックス株式会社 情報処理装置及びプログラム
CN111198924B (zh) * 2018-11-19 2022-11-25 长鑫存储技术有限公司 产品失效知识库建立方法与失效分析方法、装置、介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11224214A (ja) * 1998-02-05 1999-08-17 Fujitsu Ltd イベント分類装置およびそのプログラム記録媒体
JP4868204B2 (ja) * 2005-01-04 2012-02-01 オリンパス株式会社 障害監視装置および方法
JP4571521B2 (ja) * 2005-02-28 2010-10-27 株式会社日本総合研究所 作業指示リスト印刷方法、および、印刷プログラム
JP2007172131A (ja) * 2005-12-20 2007-07-05 Nec Fielding Ltd 障害予測システム、障害予測方法、障害予測プログラム
JP2008198123A (ja) * 2007-02-15 2008-08-28 Hitachi Information Systems Ltd 障害検知システム及び障害検知プログラム
JP2010055305A (ja) * 2008-08-27 2010-03-11 Oki Electric Ind Co Ltd 診断項目登録システム、方法及びプログラム

Also Published As

Publication number Publication date
JP2011209908A (ja) 2011-10-20

Similar Documents

Publication Publication Date Title
US11405301B1 (en) Service analyzer interface with composite machine scores
US11314733B2 (en) Identification of relevant data events by use of clustering
US10698777B2 (en) High availability scheduler for scheduling map-reduce searches based on a leader state
US11100113B2 (en) Object score adjustment based on analyzing machine data
US11042510B2 (en) Configuration file management in a search head cluster
US11698900B2 (en) Leveraging search query history in a search interface
US11348294B2 (en) Systems and methods for updating a third party visualization in response to a query
JP6538980B2 (ja) 異種混成ログストリームにおける自動化された異常検出サービス
US20150026167A1 (en) Discovering fields to filter data returned in response to a search
US9612898B2 (en) Fault analysis apparatus, fault analysis method, and recording medium
US10572811B2 (en) Methods and systems for determining probabilities of occurrence for events and determining anomalous events
US20200336532A1 (en) Identifying un-deployed features of an application
JP5395719B2 (ja) 障害原因解析システムにおけるルール生成装置及びそのプログラム
US11030254B2 (en) Storage estimation in a data indexing and query system
JP2014048673A (ja) ワークフロー生成サーバ、及び方法
JP2012003497A (ja) 障害原因推定装置、障害原因推定プログラム及び障害原因推定方法
JP6885784B2 (ja) インシデント管理装置、インシデント管理方法およびコンピュータプログラム
JP2012003406A (ja) 障害原因判定ルール検証装置及びプログラム
JP5514643B2 (ja) 障害原因判定ルール変化検知装置及びプログラム
JP4928848B2 (ja) 計算機システム統合管理環境におけるメッセージ変換装置
JP5295062B2 (ja) 複合イベント処理向けクエリ自動生成装置
JP5417264B2 (ja) 分析情報提供方法
US20070033178A1 (en) Quality of service feedback for technology-neutral data reporting
JP2018081403A (ja) インシデント管理システム、インシデント管理方法およびコンピュータプログラム
JP5623950B2 (ja) It障害予兆検知装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120720

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130911

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130924

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131018

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees