JP2009245154A - シンプトンを評価するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム - Google Patents

シンプトンを評価するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム Download PDF

Info

Publication number
JP2009245154A
JP2009245154A JP2008090854A JP2008090854A JP2009245154A JP 2009245154 A JP2009245154 A JP 2009245154A JP 2008090854 A JP2008090854 A JP 2008090854A JP 2008090854 A JP2008090854 A JP 2008090854A JP 2009245154 A JP2009245154 A JP 2009245154A
Authority
JP
Japan
Prior art keywords
symptom
events
rule
predetermined
computer system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008090854A
Other languages
English (en)
Other versions
JP5240709B2 (ja
Inventor
Kazuto Akiyama
一人 秋山
Yasuhiro Suzuki
康裕 鈴木
Yusuke Kaneyasu
祐介 兼安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2008090854A priority Critical patent/JP5240709B2/ja
Publication of JP2009245154A publication Critical patent/JP2009245154A/ja
Application granted granted Critical
Publication of JP5240709B2 publication Critical patent/JP5240709B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

【課題】保守コストを低減するため、オートノミック技術を使用するだけでなく、問題を未然に防ぐために使用する予兆を発見して、予防保守を行う。
【解決手段】シンプトン・データベースに接続されうるコンピュータ・システムは、第1のシンプトンに基づいて、所定のシンプトン作成ポリシーに従って、少なくとも1つの第2のシンプトンを作成するシンプトン作成部と、複数のイベントに関する情報を含むイベント・レコードに上記第1のシンプトンを適用して得られるデータおよび上記イベント・レコードに上記第2のシンプトンを適用して得られるデータに基づいて、所定の評価ポリシーに従って、上記第2のシンプトンを評価し、該評価に従い、上記第2のシンプトンが上記所定の問題に関連するイベントの集合を検出するために使用されうるかどうかを決定するシンプトン評価部とを含む。
【選択図】図6

Description

本発明は、シンプトン(symptom)を評価するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラムに関する。本発明は、特に、シンプトンを評価し、該シンプトンの精度を高めるためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラムに関する。
オートノミック・コンピューティング環境は、自らを管理し、ビジネス・ポリシー或いはビジネスの目標に併せて、変化に動的に適応することが可能なコンピューティング環境である。システムがオートノミックであるための条件は、システム自身が、1.環境をモニターすること(モニタリング、Monitoring)、2.モニター結果を分析すること(アナライジング、Analyzing)、3.問題があるならば、改善策を計画すること(プランニング、Planning)、4.それを実行すること(エグゼキューティング、Executing)の4段階からなるプロセスを実行可能であることである。該プロセスは、上記4段階の頭文字を取ってMAPEループと呼ばれる。オートノミック・コンピューティング環境は、IT環境において自らを監視し或いは検知することをベースにしてアクティビティーを実行することを可能にするので、ITプロフェッショナルがタスクを開始する必要がない。オートノミック・コンピューティング環境は、自己構成(環境の変化にダイナミックに適応すること)、自己修復(システムの中断を防止するために、不具合を発見・診断し、修正すること)、自己最適化(IT資源を最大限に利用するために、資源を調整し、負荷分散をすること)及び自己防御(予見ないしは検知、識別を行うことで危険に対処し、また攻撃に対する防御を行うこと)の機能を備えている。
オートノミック・コンピューティングのテクノロジーが普及しつつあり、発生するイベントをナレッジ(knowledge)によって解析し、問題の対処を導き出すオートノミック・コンピューティング・システムの概念が一般化しつつある。オートノミック・コンピューティングの取り組みとして、様々なイベントについて既存のナレッジによる解析を行い、システム又はネットワークに起きている問題を発見し、解決策を提示するソリューションが提案されている。
インターナショナル・ビジネス・マシーンズ・コーポレーション(商標、以下IBM)は、オートノミック・テクノロジーに関連し、オートノミック・コンピューティング・ツールキットを提供している。該ツールキットは、例えばIBM Build to Manage Toolkit for Problem Determination(以下、IBM BtM Toolkit for PD)である。該ツールキットを使用することで、今まで運用担当者が手作業で行っていたシステムの問題判別と解決の時間とを大幅に短縮することができる。さらに、該ツールキットを使用することで、シンプトン・カタログを作成できるようになり、経験知に基づいた問題解決、さらにシステムのクラッシュ或いはパフォーマンス上のボトルネックを事前に察知することも可能になる。IBM BtM Toolkit for PDは、シンプトンの蓄積を容易にするツールを含む。IT環境で発生する多くの問題には、解決方法が既に存在する。現在はその解決方法の大半を手作業で、時間と労力とをかけて解析している。しかし、該ツールキットで提供されるツールを利用することで、問題とその解決方法に関する情報を簡単に解析することができ、既知の情報をシンプトン・カタログとして公開することが可能になる。管理対象の製品が、導入ないしは運用の際にこのシンプトン・カタログに自動的にアクセスするので、問題の有効な解決方法の特定に必要な時間及び労力が大幅に削減される。
特開2001−007892(以下、特許文献1)は、軽度あるいは警告的なシンプトンが繰り返し発生していることを、システム管理者に効率良く通知することを課題とする(要約書)。詳細には、特許文献1の発明は、シンプトンの発生状態を、(A)シンプトンが規定頻度以上発生したシンプトン異常発生状態、(B)シンプトンが規定頻度未満で発生したシンプトン継続発生状態、及び(C)シンプトンが全く発生していないシンプトン未発生状態の3種に分類し、(A)と(B)を通知することを特徴とする。特許文献1のシンプトン(Symptom)は「症状イベント」と同じ意味であり、症状イベントとは、観測可能なイベントのことを言う(第0007段落)。特許文献1の症状イベントは、例えば、「ある宛先Aに対して通信に時間がかかり、再送信が必要となっている」、「ある宛先Bに対して文字化けが生じている」、「ある宛先Cに対して受信確認が返ってこない」などの状態を言う(第0007段落)。従って、特許文献1のシンプトンは、オートノミック・コンピューティング環境でいうシンプトンに対応せず、イベントに対応する。また、特許文献1は、シンプトンの発生状態、すなわち症状イベントの発生状態を、シンプトン異常発生状態及びシンプトン継続発生状態の2値で示しているにすぎない。
特開平10−135877(以下、特許文献2)は、通信システムにおける障害予知方法及び障害予知装置に係り、特に、的確な障害予知を可能とする障害予知方法及び障害予知装置を提供することを課題とする(要約書)。詳細には、特許文献2の発明は、回線のエラー回数を所定の標本化時間にわたって計数し、該標本化時間におけるトラフィックに対して許容できるエラー回数を求め、該計数したエラー回数と該許容できるエラー回数とを比較することを特徴とする。しかし、特許文献2は、オートノミック・コンピューティング環境でいうシンプトンについて何ら記載していない。
特開2001−007892 特開平10−135877
問題判別技法(Problem Determination Solution)の分野では、シンプトンによる問題判別システムが実運用され、多くのシンプトンが蓄積されてきている。しかし、現状のシンプトンのルールは、固定の問題に関連するイベント・パターンを検出するように定義されている。そのため、現状のシンプトンは、実行時の環境によって変化しうるイベント・パターンについての事象を誤検出したり又は検出できない。例えば、シンプトンのルールが緩い、すなわち精度が低いことによって関連のないシンプトンが抽出される(すなわち、誤検出がおきる)。或いは、シンプトンのルールが厳しいために、或るログ・ファイルについてシンプトンが抽出されない(すなわち、検出できない)。これら誤検出又は未検出に対応するために、管理者が実行環境ごとにシンプトンの調整を行うことは多大な作業となり、保守コストの増大を招きうる。保守コストを低減するためには、オートノミック技術を使用するだけでなく、問題を未然に防ぐために使用する予兆を発見して、予防保守をすることが重要になってきている。そのためには、予兆を発見しうるシンプトン(以下、予兆シンプトン)を事前に作成しておくことが好ましい。しかし、予兆シンプトンを事前に作成しておくことは現実的に困難である。なぜならば、予兆は実行環境によって異なる場合があり、また管理者が気付かない予兆のパターンがあるからである。しかも、不要な予兆シンプトンは、上記システムへのオーバーヘッドを生む原因ともなりうる。
本発明は、シンプトン(symptom)を評価するためのコンピュータ・システムを提供する。該コンピュータ・システムは、所定の問題に関連するイベントの集合を検出するための少なくとも1のルールを含む、データであるシンプトンを格納するためのシンプトン・データベースに接続されうる。該コンピュータ・システムは、
第1のシンプトンに基づいて、所定のシンプトン作成ポリシーに従って、少なくとも1つの第2のシンプトンを作成するシンプトン作成部と、
複数のイベントに関する情報を含むイベント・レコードに上記第1のシンプトンを適用して得られるデータおよび上記イベント・レコードに上記第2のシンプトンを適用して得られるデータに基づいて、所定の評価ポリシーに従って、上記第2のシンプトンを評価し、該評価に従い、上記第2のシンプトンが上記所定の問題に関連するイベントの集合を検出するために使用されうるかどうかを決定するシンプトン評価部と
を含む。
上記所定のシンプトン作成ポリシーは、シンプトンに含まれる少なくとも1つのルールの一部又は全部をどのように変更するかの定義を含む。上記シンプトン作成部は例えば、上記シンプトン作成ポリシーに含まれる定義に基づくアルゴリズムであって、上記第1のシンプトンに含まれる少なくとも1つのルールの一部又は全部を変更するアルゴリズムを実行することによって、上記第2のシンプトンを作成する。
上記シンプトン作成ポリシーは例えば、上記第1のシンプトンのどのルールを変更するか、所定のイベントの発生回数を変更するか、所定のイベント間における発生期間を変更するか、所定の複数のイベントにおける発生順序を変更するか、所定の複数のイベントのうちの一部と一致するように変更するか、ある期間内に所定のイベントが所定回数発生する閾値を変更するか、どれだけの数の第2のシンプトンを作成するか、の少なくとも1以上を定義する。
上記複数のイベントに関する情報を含むイベント・レコードは例えば、上記第1のシンプトンのルールにより検出されたレコード、上記第1のシンプトンのルールにより誤検出されたレコード、上記第1のシンプトンにより未検出であったレコードのいずれかである。
上記第2のシンプトンを適用して得られるデータは例えば、上記イベント・レコードに上記第1のシンプトンを適用して得られる検出率を100とした場合に、該イベント・レコードに上記第2のシンプトンを適用して得られる検出率である。
上記評価ポリシーの第1の態様は、シンプトンを評価するための1以上の指標の定義を含む。上記シンプトン評価部はまた、上記第1及び第2のシンプトンについて、該第1及び第2のシンプトンを評価するための1以上の指標を算出するアルゴリズムを実行することによって、上記第2のシンプトンを評価する。
上記評価ポリシーの第2の態様は、シンプトンを評価するための1以上の指標を算出するアルゴリズムの定義を含む。上記シンプトン評価部は、上記評価ポリシーに含まれる上記アルゴリズムを実行することによって上記第2のシンプトンを評価する。
上記シンプトンを評価するための1以上の指標は例えば、
(1)複数のイベントに関する情報を含むイベント・レコードについて、上記第2のシンプトンのルールにより検出されるイベントがある場合に、上記第1のシンプトンのルールにより検出される割合がいくらか、
(2)複数のイベントに関する情報を含むイベント・レコードについて、上記第2のシンプトンによる誤検出率が、上記第1のシンプトンによる誤検出率よりも低いか、
(3)複数のイベントに関する情報を含むイベント・レコードについて、上記第2のシンプトンによる未検出率が、上記第1のシンプトンによる未検出率よりも低いか、
の少なくとも1つを含む。
上記決定は例えば、上記第2のシンプトンのルールにより検出される割合が、上記第1のシンプトンのルールにより検出される割合よりも所定割合以上である場合又は該所定割合よりも大きい場合に行われる。
上記決定は例えば、上記第2のシンプトンによる誤検出率が、上記第1のシンプトンによる誤検出率よりも所定率以下である場合又は該所定率よりも小さい場合に行われる。
上記決定は例えば、上記第2のシンプトンによる未検出率が、上記第1のシンプトンによる未検出率よりも所定率以下である場合又は該所定率よりも小さい場合に行われる。
上記決定は例えば、複数のイベントに関する情報を含むイベント・レコードに上記第1のシンプトン及び上記第2のシンプトンをそれぞれ適用し、上記第2のシンプトンによる検出が上記第1のシンプトンによる検出の前に発生する場合に行われる。
上記第1のシンプトンは例えば、上記ルールに従いイベントの集合が検出された場合のアクションの記述、及び第2のシンプトンの評価を行うアクションの記述を含む。
さらに、本発明は、所定の問題に関連するイベントの集合を検出するための少なくとも1のルールを含む、データであるシンプトンを格納するためのシンプトン・データベースに接続されうるコンピュータ・システムにおいて、シンプトンを評価するための方法を提供する。該方法は、上記コンピュータ・システムに下記ステップを実行させる。該ステップは、
第1のシンプトンに基づいて、所定のシンプトン作成ポリシーに従って、少なくとも1つの第2のシンプトンを作成するステップと、
複数のイベントに関する情報を含むイベント・レコードに上記第1のシンプトンを適用して得られるデータおよび上記イベント・レコードに上記第2のシンプトンを適用して得られるデータに基づいて、所定の評価ポリシーに従って、上記第2のシンプトンを評価し、該評価に従い、上記第2のシンプトンが上記所定の問題に関連するイベントの集合を検出するために使用されうるかどうかを決定するステップと
を含む。
上記所定のシンプトン作成ポリシーは、シンプトンに含まれる少なくとも1つのルールの一部又は全部をどのように変更するかの定義を含む。上記作成するステップは例えば、上記シンプトン作成ポリシーに含まれる定義に基づくアルゴリズムであって、上記第1のシンプトンに含まれる少なくとも1つのルールの一部又は全部を変更するアルゴリズムを実行することによって、上記第2のシンプトンを作成するステップを含む。
上記シンプトン作成ポリシーは例えば、上記第1のシンプトンのどのルールを変更するか、所定のイベントの発生回数を変更するか、所定のイベント間における発生期間を変更するか、所定の複数のイベントにおける発生順序を変更するか、所定の複数のイベントのうちの一部と一致するように変更するか、ある期間内に所定のイベントが所定回数発生する閾値を変更するか、どれだけの数の第2のシンプトンを作成するか、の少なくとも1以上を定義する。
上記複数のイベントに関する情報を含むイベント・レコードは例えば、上記第1のシンプトンのルールにより検出されたレコード、上記第1のシンプトンのルールにより誤検出されたレコード、上記第1のシンプトンにより未検出であったレコードのいずれかである。
上記第2のシンプトンを適用して得られるデータは例えば、上記イベント・レコードに上記第1のシンプトンを適用して得られる検出率を100とした場合に、該イベント・レコードに上記第2のシンプトンを適用して得られる検出率である。
上記評価ポリシーの第1の態様は、シンプトンを評価するための1以上の指標の定義を含む。上記評価するステップはまた、上記第1及び第2のシンプトンについて、該第1及び第2のシンプトンを評価するための1以上の指標を算出するアルゴリズムを実行することによって、上記第2のシンプトンを評価するステップを含む。
上記評価ポリシーの第2の態様は、シンプトンを評価するための1以上の指標を算出するアルゴリズムの定義を含む。上記評価するステップは、上記評価ポリシーに含まれる上記アルゴリズムを実行することによって上記第2のシンプトンを評価するステップを含む。
上記シンプトンを評価するための1以上の指標は例えば、
(1)複数のイベントに関する情報を含むイベント・レコードについて、上記第2のシンプトンのルールにより検出されるイベントがある場合に、上記第1のシンプトンのルールにより検出される割合がいくらか、
(2)複数のイベントに関する情報を含むイベント・レコードについて、上記第2のシンプトンによる誤検出率が、上記第1のシンプトンによる誤検出率よりも低いか、
(3)複数のイベントに関する情報を含むイベント・レコードについて、上記第2のシンプトンによる未検出率が、上記第1のシンプトンによる未検出率よりも低いか、
の少なくとも1つを含む。
上記決定は例えば、上記第2のシンプトンのルールにより検出される割合が、上記第1のシンプトンのルールにより検出される割合よりも所定割合以上である場合又は該所定割合よりも大きい場合に行われる。
上記決定は例えば、上記第2のシンプトンによる誤検出率が、上記第1のシンプトンによる誤検出率よりも所定率以下である場合又は該所定率よりも小さい場合に行われる。
上記決定は例えば、上記第2のシンプトンによる未検出率が、上記第1のシンプトンによる未検出率よりも所定率以下である場合又は該所定率よりも小さい場合に行われる。
上記決定は例えば、複数のイベントに関する情報を含むイベント・レコードに上記第1のシンプトン及び上記第2のシンプトンをそれぞれ適用し、上記第2のシンプトンによる検出が上記第1のシンプトンによる検出の前に発生する場合に行われる。
上記第1のシンプトンは例えば、上記ルールに従いイベントの集合が検出された場合のアクションの記述、及び第2のシンプトンの評価を行うアクションの記述を含む。
該方法は、上記コンピュータ・システムにさらに下記ステップを実行させる。該ステップは、上記評価に従い、上記第2のシンプトンを修正するステップをさらに含む。代替的に、上記評価に従い、上記第2のシンプトンを削除するステップをさらに含む。
該方法は、上記コンピュータ・システムにさらに下記ステップを実行させる。該ステップは、上記イベント・レコードに上記修正した第2のシンプトンを適用して第3のデータを得るステップをさらに含む。
該方法は、上記コンピュータ・システムにさらに下記ステップを実行させる。該ステップは、上記第1のデータ又は上記第2のデータ、および上記イベント・レコードに上記第2のシンプトンを適用して得られるデータに基づいて、所定の評価ポリシーに従って、上記修正した第2のシンプトンを評価し、該評価に従い、上記修正した第2のシンプトンを上記所定の問題に関連するイベントの集合を検出するために使用するかどうかを決定するステップをさらに含む。
さらに、本発明は、所定の問題に関連するイベントの集合を検出するための少なくとも1のルールを含む、データであるシンプトンを格納するためのシンプトン・データベースに接続されうるコンピュータ・システムにおいて、シンプトンを評価するためのコンピュータ・プログラムを提供する。該コンピュータ・プログラムは、上記コンピュータ・システムに、上記各ステップを実行させる。該コンピュータ・プログラムは、磁気ディスク、光ディスク、半導体メモリ、そのほかの記録媒体に格納して配布され、或いはネットワークを介して提供されうる。
本発明に関する基本的な用語を下記に説明する。
・イベント
システム・リソース、ネットワーク・リソース又はネットワーク・アプリケーションなどの監視対象リソースの状態の変化である。イベントは、問題、問題の解決又はタスクの正常な完了によって発生することもある。具体的には、ハードウェア又はソフトウェアの故障、停止、性能のボトルネック、ネットワーク構成の不整合、設計不十分による意図せざる結果、コンピュータ・ウィルス等の悪意による被害などを含む。イベントの具体例の一つは、メモリ使用量が閾値を超えたことである。
・コモン・ベース・イベント(Common Base Event)
ある状態の結果として送られ、その後で企業管理アプリケーション又はビジネス・アプリケーションで使用されるイベントの構造を示す標準の形式及びコンテンツの仕様である。IBM(商標)は、共通ログ・フォーマットであるコモン・ベース・イベント(CBE)を策定し、CBEが、標準化団体であるOASIS(Organization for the Advancement ofStructured Information Standards)によってログ・フォーマットの標準として採択されている。コモン・ベース・イベントには、ロギング、トレース、管理、及びビジネスのイベントがある。CBEにおいて、データはXMLで表現されうる。
・ナレッジ(knowledge)
オートノミック・コンピューティング・システムでのナレッジは、プロセス、特に自動化が可能なプロセスを実行するために使用される構造化データ又は構造化情報であれば、ほとんどどんなものでも該当しうる。オートノミック・コンピューティング・システムではナレッジに関するスコープが広いため、ナレッジに含まれるものとして、ログ・ファイルに保存されるデータ、管理エンドポイント(タッチポイント)或いはプロセスに関する状態データ、又はシステムに変更を加えられる時期に関するスケジュール・データまである。ナレッジのタイプとして、例えばソリューション・トポロジー・ナレッジ(例えば、インストール可能ユニット記述子(installable unit descriptor))、ポリシー・ナレッジ、問題判別ナレッジ(例えば、監視対象のデータ又はシンプトン)がある。ナレッジの一般的な形式であるPrologプログラムは、ある主題に関する事実とルールの集合である。オートノミック・コンピューティング・システムにおいて、ナレッジは、オートノミック・マネージャーが使用できるように、ある標準の形式で表現されうる。
・シンプトン(symptom)
シンプトンは、ナレッジの形式の1つであり、1つ以上の管理対象リソースに関する、起こりうる問題又は診断状況を示すデータである。シンプトンは、大きくは3つの構成要素、すなわちシンプトン定義、シンプトン・ルール、シンプトン効果を含む。シンプトン定義は、シンプトンの一般情報(メタデータ)を定義する。シンプトンの一般情報は例えば、タイプ、カテゴリー、対象(scope)、事前条件(preconditions)を含む。シンプトン定義は、XPATH表現、正規表現、決定木、依存関係グラフ、Prolog述部、ACTパターン、TECルール、又はニューラル・ネットワークを利用して記述しうる。シンプトン・ルールは、所定の問題に関連するイベントの集合を検出するためのルールであり、このシンプトンを認識するために使用されるルールである。シンプトンのルールの一例であるIBM相関ルールの場合、7種類のルールがサポートされる。具体的には、IBM相関ルールは、ステートレス・ルールとして、フィルタールール、ステートフル・ルールとして、収集ルール、計算ルール、重複ルール、シークエンスルール、閾値ルール、タイマールールを含む。シンプトン・ルールは、XPATH表現などを利用して、或いはプログラムを利用して記述しうる。シンプトン効果は、問題が起こった際に取るべきアクション、必要に応じて該アクションの詳細な説明などを記述する。シンプトン効果には、対処するアクションが指定されずに問題に対する対処方法を単に記述しているだけの場合もある(Recommendation)。シンプトン効果のうち、実際に取るべきアクションを含むものをシンプトン・アクションという。
シンプトンを使用することによって、トリガーとなるイベントの集合、及びイベントの集合のパターンを検出できる。上記パターンの例は、イベントの1対1の突き合わせ、複数のイベント(マルチ・イベント)、イベントの出現回数、イベントの順序(イベント・シークエンス)、イベントのタイムフレーム、イベントが出現しないことの検出、及びそれらの組み合わせである。イベントの集合はまた、所定の問題に関連する。
シンプトンは、MAPEループのモニタリングに内部において識別され及びアナライジングで使用される。オートノミック・マネージャーは、シンプトン・カタログを利用して、モニタリング内部で、イベントとシンプトンの関連付けを行う。シンプトンは、監視機能、例えばオートノミック・マネージャーが、コモン・ベース・イベントなど監視対象のデータを相関させることによって作る。シンプトンは例えば、XMLで表現される。
イベントとシンプトンとの関係は以下の通りである。イベントは、監視対象リソースの状態の変化(例えば、メモリ使用量が512Mになった)である。シンプトンは、起こりうる問題又は診断状況を示すデータである。よって、イベントx(及びイベントy、(及びイベント...))が一定の条件の下で発生した場合の起こりうる問題又は診断状況は、例えばメモリ不足、又はメモリ使用量が設定したリミットを10分間に3回超えたことである。そして上記問題又は診断状況の際にとるべきアクションは、例えばバッファーサイズを増やすことである。
・オートノミック
オートノミックとは、問題、セキュリティ脅威、及びシステム障害に対して自律的なことをいう。
・オートノミック・コンピューティング
オートノミック・コンピューティングとは、自らを管理し、ビジネス・ポリシー或いはビジネスの目標に併せて、変化に動的に適応することが可能なコンピューティングをいう。
・オートノミック・コンピューティング・システム
オートノミック・コンピューティング・システムとは、オペレーティング環境を検知し、その環境での動作をモデル化し、その環境又は動作を変更するアクションを行うコンピューティング・システムである。オートノミック・コンピューティング・システムには、自己構成、自己修復、自己最適化、及び自己防御という特徴がある。
・オートノミック・マネージャー
オートノミック・マネージャーとは、オートノミック・コンピューティングにおいて、制御ループを使用して他のソフトウェア及びハードウェアを管理するコンポーネントである。オートノミック・マネージャーの制御ループは、モニタリング、アナライジング、プランニング及びエグゼキューティングの各機能から構成されている。
・アナライジング・プロセス
アナライジング・プロセスとは、監視対象から得られるイベントの集合(イベント群)について、シンプトンのルールに記述されているパターンにマッチするかどうかを判断するプロセスである。
以下、図面に従って、本発明の実施例を説明する。本実施例は、本発明の好適な態様を説明するためのものであり、本発明の範囲をここで示すものに限定する意図はないことを理解されたい。また、以下の図を通して、特に断らない限り、同一符号は、同一の対象を指す。
図1は、問題判別技法(Problem Determination Solution)の分野における問題判別システムの概念図を示す。該問題判別システムは、特にオートノミック・コンピューティングにおいて用いられる。
問題判別システムの管理者(101)は、過去の障害事例から、問題が起きた際のエラーメッセージを含むログ・ファイル又はダンプ・ファイルの特徴をナレッジとして抽出し、ナレッジ・データベース(102)に登録する。ナレッジ・データベースは、例えばDB2(商標)を使用して構築することができる。そして、ナレッジからシンプトンが生成される。該シンプトンは、シンプトン・データベース(103)に格納される。シンプトン・データベース(103)は、シンプトン・カタログともいう。一方、ユーザ又はヘルプ・デスク(104)は、ログ・ファイル又はダンプ・ファイル(105)をユーザによって操作されるコンピュータ、例えばクライアント・システムから問題判別システム、例えばサーバ・コンピュータ(100)に送信する。ログ・ファイル又はダンプ・ファイル(105)は、例えばアプリケーション、データベース、アプリケーション・サーバ、サーバ、ストレージ・デバイス、ネットワークのイベントを含む。ログ・ファイル及びダンプ・ファイル(105)のそれぞれの形式は、コンポーネント毎に異なる。そこで、ログ・ファイル及びダンプ・ファイル(105)の形式を統一化するために、サーバ・コンピュータ(100)において、ログ・ファイル及びダンプ・ファイル(105)は、コモン・ベース・イベント(106)(以下、CBE)に変換される。DB2(商標)及びWebSphere(商標)のようなIBM製品は、このCBEを直接出力する機能を既に備えている。また、IBMは、既存のログをCBEへ変換するためのツールを無償で提供している。該ツールは、ジェネリック・ログ・アダプター(GLA)と呼ばれる。該ツールは、Eclipseベースの開発ツールである。そして、該ツールは、シンプトン・データベース(103)に蓄積したシンプトンのルールにより上記CBE(106)を解析する。CBEの解析によって、該CBEに含まれるイベントの集合を検出するシンプトンを抽出し(107)、そして該抽出されたシンプトンのシンプトン効果に基づいて障害の内容ないしは解決策を判別する。そして、判別の結果が、ユーザのクライアント・システムに接続された表示装置上に診断結果(108)として提示される。診断結果は、シンプトン・データベース利用による問題解決のヒントを含む。診断結果は、ログ分析ツール、例えばIBM Log Trace Analyzer(LTA)を使用して提示される。このように、あるエラーメッセージとそのメッセージに対する解決方法をシンプトン・データベースとして蓄積することで、同じエラーメッセージが発生した場合に、管理者に対して蓄積された解決方法をアドバイスすることが可能になる。
図2は、ログ・ファイル(201)をCBE(202)に変換する一例を示す。ログ・ファイル(201)からCBE(202)への変換は、上述したDB2(商標)及びWebSphere(商標)といったソフトウェアが備える直接出力機能又は変換ツールを使用することによって行われうる。図2のログ・ファイル(201)は、メッセージID TCPC0003E、CHFW0029E及びTCPC001Iで特定されるイベント及びその内容を示す。メッセージID TCPC0003E、CHFW0029E及びTCPC001Iで特定されるイベント並びにその内容は、CBE(202)へ変換されることによってメッセージID毎に所定の形式に変換される。
図3は、シンプトン・データベース(302)に格納されたシンプトンによりCBE(301)を解析する(303)一例を示す。CBE(301)は、メッセージIDで特定される複数のイベントを含む。シンプトン・データベース(302)は、複数のシンプトンを有する。シンプトンによりCBE(301)を解析することによって、CBE(301)に含まれるイベントの集合を検出することが可能なシンプトンを抽出することができる。CBE(301)は、TCPC0003E、そしてCHFW0029Eの順で特定されるイベントの集合を含む。シンプトンの抽出によって問題が発見される(304)。そして、該抽出されたシンプトン内のシンプトン効果に対応するテクニカル・ノート(メッセージIDに対する補足、アドバイス情報)が、例えば管理者のための表示装置上に提示される(305)。
図4は、既存の問題判別システムの実施態様の一例である。
問題判別システムは、イベント処理モジュール(401)、解析モジュール(相関エンジン)(402)、シンプトン・データベース(403)、アクション実行モジュール(404)及びシンプトン評価入力モジュール(405)を含む。
問題判別システムは、例えばネットワークを介して又はユーザからの入力を介して、アプリケーションなどからのログ・ファイル又はダンプ・ファイルを受け取る。問題判別システムは、該ログ・ファイル又はダンプ・ファイルをイベント処理モジュール(401)に渡す。イベント処理モジュールは、該ログ・ファイル又はダンプ・ファイルの内容のうち、解析に必要な属性を含んだデータを抽出し、解析可能な標準フォーマット、例えばCBEに変換する。イベント処理モジュールは、該変換されたファイルを解析モジュール(402)に送る。解析モジュール(402)は、シンプトン・データベース(403)に格納された複数のシンプトンにより、該変換されたファイルを解析する。該変換されたファイルの解析によって或るシンプトンが検出されると、アクション実行モジュール(404)は、該抽出されたシンプトンのシンプトン効果に対応するアクションを実行する。問題判別システムの管理者(406)は、シンプトン評価入力モジュール(405)を用いて、シンプトンによる上記解析の結果を評価することができる。例えば、管理者は、上記解析の結果について、シンプトンが上記変換されたファイル内のイベントの集合を検出したことが適切であったか(すなわち、有効である)又は適切でなかったか(すなわち、無効である)を表示装置上の所定の欄に入力し又は有効であるか無効であるかを指示に従い選択する。該評価をユーザが入力することによって、シンプトンにより誤検出又は未検出が行われたことの判定が可能となる。上記評価を入力する画面の例を図5に示す。
図5は、評価を入力する画面の例を示す。
解析に使用するファイルは例えば、ログ・ファイル又はダンプ・ファイルである。図5において解析に使用したファイルは、ファイル名「javacore.txt」である。解析に使用したファイルは、解析後に記憶装置内に保存するようにしてもよく又は削除するようにしておいてもよい。図5では、解析に使用したファイルを削除している(“削除済み”)。
診断結果において、「カタログ名」は、シンプトン・カタログのうち、上記ファイルに含まれるイベントを検出したシンプトンの名前を示す。「エラー症状」(エラー内容である)は、エラーを識別するためのデータ、例えばエラーID又はエラー内容を示す。「該当ログ・ファイル」は、解析に使用したログ・ファイル名を示す。「時刻」は、ファイルをシンプトンで診断した日時を示す。「評価」は、シンプトンによる診断が有効であるか無効であるかを管理者が入力した結果を示す。「詳細」は例えば、シンプトン・カタログ名、シンプトンの説明、エラー症状の説明、症状に対する解決策、該当ログ・ファイルの説明、及び評価の仔細情報を含みうる。
図6は、本発明の実施態様であるコンピュータ・システムの一例である。該コンピュータ・システムは、オートノミック・コンピューティングを実現するサーバ・コンピュータそれ自体又は該サーバ・コンピュータに関連付けられたコンピュータであってよい。
イベント処理モジュール(601)、解析モジュール(相関エンジン)(602)、シンプトン・データベース(603)、アクション実行モジュール(604)及びシンプトン評価入力モジュール(605)は、図4に示したイベント処理モジュール(401)、解析モジュール(相関エンジン)(402)、シンプトン・データベース(403)、アクション実行モジュール(404)及びシンプトン評価入力モジュール(405)に夫々対応する。
シンプトン編集モジュール(607)は、管理者が、シンプトン・データベース(603)に格納されたシンプトンを編集可能にする。本発明の実施態様において、シンプトン・データベース(603)に格納されたシンプトンを親シンプトンという。親シンプトンの編集については、下記図7の説明においてさらに詳しく述べる。
派生シンプトン作成モジュール(608)は、親シンプトンに基づいて、派生ポリシー(609)に従って、新たにシンプトンを作成する。派生とは、親シンプトンから、それに準じた新たなシンプトンを作成することである。本発明の実施態様では、該作成されたシンプトンを派生シンプトンという。派生シンプトンは親シンプトンに基づいて作成されることから、親シンプトンのバリエーションである。
派生シンプトン作成モジュール(608)は、派生シンプトンを派生シンプトン・データベース(610)に格納する。なお、図6では、シンプトン・データベース(603)と派生シンプトン・データベース(610)とを別に記載しているが、両方のデータベース(603、610)は1つの記憶装置内に格納されていてもよい。記憶装置は例えば、ハードディスクなどの磁気記録媒体、シリコンディスクなどの半導体ディスク、またはそれらの組み合わせである。派生シンプトンの作成については、下記図8の説明においてさらに詳しく述べる。
派生シンプトン評価モジュール(611)は、親シンプトンのルールに記述された、派生シンプトン評価モジュールを実行するアクションに従い、派生シンプトンを評価せよ、とのアクション指示を受けとる。派生シンプトン評価モジュール(611)は、派生シンプトンの評価データ及び必要に応じて親シンプトンの評価データを求めることを解析モジュール(602)に要求する。派生シンプトン評価モジュール(611)は、派生シンプトンの評価データ及び必要に応じて親シンプトンの評価データを求める。派生シンプトンの評価データは例えば、複数のイベントに関する情報を含むイベント・レコードに親シンプトンを適用して得られるデータである。親シンプトンの評価データは例えば、上記イベント・レコードに派生シンプトンを適用して得られるデータである。派生シンプトンの評価データは、派生シンプトン評価結果データベース(612)に格納される。なお、図6では、各データベース(603、610、612)を別に記載しているが、全て又はその一部のデータベース(603、610、612)が1つの記憶装置内に格納されていてもよい。派生シンプトンの評価データ及び親シンプトンの評価データを求めることについては、下記図10の説明においてさらに詳しく述べる。
シンプトン最適化モジュール(614)は、複数のイベントに関する情報を含むイベント・レコードに親シンプトンを適用して得られるデータおよび上記イベント・レコードに派生シンプトンを適用して得られるデータに基づいて、所定の評価ポリシー(613)に従って、派生シンプトンを評価する。そして、シンプトン最適化モジュール(614)は、該評価することに従い、派生シンプトンが所定の問題に関連するイベントの集合を検出するために使用されうるかどうかを決定する。使用されうると決定されると、該派生シンプトンは、シンプトン・データベース(603)に追加されるか、又は該派生シンプトンに対応する親シンプトンが該派生シンプトンによって置き換えられる。該派生シンプトンの追加又は該派生シンプトンによる置換によって、シンプトンによるイベントの集合を検出する精度が高められる。また、本発明の実施態様において、シンプトン・データベース(603)に追加された派生シンプトンを予兆シンプトンという。上記シンプトンの最適化については、下記図11の説明においてさらに詳しく述べる。
図7は、シンプトン・データベース(603)に格納されたシンプトン(すなわち、親シンプトン)を編集することを示す。
管理者は、シンプトン・データベース(603)からシンプトン(以下、編集前のシンプトンという、親シンプトンと同義である)を開く。管理者は、シンプトン編集モジュール(607)を用いて編集前のシンプトン(701)を編集する。編集後のシンプトン(702)は、シンプトン・データベース(603)に再書き込みされる。
編集前のシンプトン(701)は、シンプトン・ルール及びシンプトン・アクションを記述している。シンプトン・ルールは、<SymptomRule>〜</SymptomRule>内に記述される。シンプトン・ルールは、該シンプトン・ルールにイベントの集合がマッチした場合に行うアクションを記述する。シンプトン・アクションは、<SymptomAction>〜</SymptomAction>内に記述される。シンプトン・アクションは、アクション実行モジュール(604)及び属性を記述する。属性は例えば、アクションの実行のために用いられるパラメータである。
編集後のシンプトン(702)は、シンプトン・ルール及びシンプトン・アクションを記述している点で、編集前のシンプトンと同じである。シンプトン・ルールは、該シンプトン・ルールにイベントの集合がマッチした場合に行うアクションに加えて、親シンプトンに基づいて作成された派生シンプトンについて評価データを得るために派生シンプトン評価モジュール(611)を実行するアクションを記述する。派生シンプトン評価モジュール(611)を実行するアクションの記述をシンプトン・アクションに加えることによって、派生シンプトン評価モジュール(611)は派生シンプトンを評価するアクション指示を受けとる。また、シンプトン・アクションは、派生シンプトン評価モジュール(611)及び属性を記述する。属性は例えば、シンプトン評価のための実行パラメータ、及びログ・ファイル名である。
以上で述べたように、編集後のシンプトン(702)には、管理者によって派生シンプトンを評価するためのシンプトン・ルール及びそのアクションが追加されている。
このように、編集前のシンプトンを編集することによって、派生シンプトンの評価がシンプトンのアクションとして自動実行される。
なお、上記では、管理者が編集前のシンプトン(701)を手動で編集する態様を述べたが、シンプトン編集モジュール(607)それ自体が、派生シンプトンを評価するためのシンプトン・ルール及びそのアクションを編集前のシンプトンに追記するようにしてもよい。
図8は、本発明の実施態様である、派生シンプトンの作成を示す。
派生シンプトンは、親シンプトンに基づいて、派生させる対象(すなわち親シンプトン)のマッチング・パターン(801)から選択される要素を含む派生ポリシー(609)に従い作成される。
シンプトンの生成条件は、IBM Active Correlation Technology(ACT)の基本ルールの組み合わせである。ACTに定義されている7つのパターンは、フィルター(Filter)、コレクション(Collection)、コンピューテーション(Computation)、デュプリケーション(Duplication)、シーケンス(Sequence)、タイマー(Timer)及び閾値(Threshold)である。
フィルターは、単一のマッチングルールである。コレクションは、設定された複数のイベントの発生を保持し、及び発生内容を用いたアクションを実行する。コンピューテーションは、設定されたレコード・カラムの数値を算出し、及び算出値を用いたアクションを実行する。デュプリケーションは、同一イベントの発生回数をカウントする。シーケンスは、順不同もしくは一定順序での複数種類のイベント発生を検出する。タイマーは、定期実行ルールである。閾値は、コレクション/コンピューテーションで保持された結果又は算出された結果に対して、閾値設定でアクションを実行するかを判断する。
フィルターは、ステートレス・タイプである。ステートレス・タイプとは、適用対象について、タイムフレームによる制限を設けないタイプである。コレクション、コンピューテーション、デュプリケーション、シーケンス、タイマー及び閾値は、ステートフル・タイプである。ステートフル・タイプとは、適用対象について、タイムフレームによる制限を設定可能なタイプである。
派生シンプトンの作成において、上記要素のうち、デュプリケーション、シーケンス及び閾値が派生ポリシーの対象でありうる。その内容を図8に示す。一方、フィルターは、ステートレス・タイプであるので、派生ポリシーの対象外でありうる。コレクション及びコンピューテーションは、ロギング及びイベント集約などの閾値を持たないアクションをおこなうものであると考えられるので、派生ポリシーの対象外でありうる。タイマーは、クリーンアップなど、イベントの発生とは無関係であるので、派生ポリシーの対象外でありうる。
図8はまた、派生ポリシーに含まれる要素である、デュプリケーション、シーケンス及び閾値を示す。
デュプリケーションについての派生ポリシーは例えば、イベントの発生回数を変化することである。例えば、親シンプトンで検出されるイベントが10回であれば、派生ポリシーでは発生回数を6、8、12又は14回に変更する。
シーケンスについての派生ポリシーの1つの例は、タイムフレームの長さを変化することである。すなわち、タイムフレームの許容範囲を広げたり、又は狭めたりする。例えば、親シンプトンで検出されるイベントが3秒以内に発生するのであれば、派生ポリシーは、タイムフレームを1、2、4又は5秒以内に変更する。シーケンスについての派生ポリシーの他の例は、順序の変化の許容範囲を広げることである。例えば、イベントが一定順序であるときは2つのイベントが入れ替わっているものまでを対象とする、又はイベントの一部が欠けているが、部分的に一致するものでまでを対象とする。例えば、親シンプトンで検出されるイベントの発生順序がA、BそしてCであれば、派生ポリシーは例えば、イベントA、B及びCの発生順序を問わない、又はA、Bが発生したことをルールにする、又はA、Cが発生したことをルールにする、に変更する。
閾値についての派生ポリシーの1つの例は、タイムフレームの長さを変化することである。すなわち、タイムフレームの許容範囲を広げたり、狭めたりする。例えば、親シンプトンで検出されるイベントが3秒以内に発生するのであれば、派生ポリシーは、タイムフレームを1、2、4又は5秒以内に変更する。閾値についての派生ポリシーの他の例は、閾値を変化することである。すなわち、閾値の許容範囲を広げたり、又は狭めたりする。
派生シンプトンのルールは、親シンプトンのルールよりも厳しい条件又は緩い条件でありうる。
図9は、本発明の実施態様である、派生ポリシー・カタログの例を示す。派生ポリシー・カタログは、派生ポリシーの集合体である。派生ポリシーは、シンプトンに含まれる少なくとも1つのルールの一部又は全部をどのように変更するかの定義を含む。該定義は、上記変更の条件及び方法を含む。派生ポリシーは例えば、親シンプトンのどのルールを変更するか、所定のイベントの発生回数を変更するか、所定のイベント間における発生期間を変更するか、所定の複数のイベントにおける発生順序を変更するか、所定の複数のイベントのうちの一部と一致するように変更するか、ある期間内に所定のイベントが所定回数発生する閾値を変更するか、どれだけの数の派生シンプトンを作成するか、の少なくとも1以上を定義する。派生ポリシーは、例えばXMLで記述されるがこれに限定されない。派生ポリシーは例えば、派生対象であるルール及び派生パターンの記述を含む。
図9において、<targetRule>〜</targetRule>内は、派生対象であるルールを記述する。派生対象となるルールは例えば、Category、Priority、Severity、Resourceである。図9において、派生対象であるルールは、<attribute>Priority</attribute>
に示すPriority、<attribute>Category</attribute>に示すCategoryである。
図9において、<targetPattern>〜</targetPattern>は、派生パターン、例えば派生する要素、どのように派生するか、幾つの派生パターンを派生するかを記述する。
デュプリケーション<name>Duplication</name>については、発生回数を1つずつ<absolute>1</absolute>、5%ずつ変えて<percent>5</percent>、両方向に<deriveDirection>Both</deriveDirection>、3つ<numOfChild>3</numOfChild>の派生シンプトンを作成することを記述する。
シーケンス<name>Sequence</name>については、タイムフレームを1秒ずつ<absolute>1s</absolute>、10%ずつ変えて<percent>10</percent>、両方向に<deriveDirection>Both</deriveDirection>3つ<numOfChild>3</numOfChild>の派生シンプトンを作成することを記述する。
シーケンス<name>Sequence</name>についてはまた、シーケンス順を指定する派生<order>Yes</order>、ランダム順を許す派生<random>Yes</random>を記述し、及び指定された複数のイベントの内、1つが指定されていない部分を派生する<missing>1</missing>ことを記述する。
閾値<name>Threshold</name>については、タイムフレームを1秒ずつ<absolute>1s</absolute>、10%ずつ変えて<percent>10</percent>、両方向に<deriveDirection>Both</deriveDirection>3つ<numOfChild>3</numOfChild>の派生シンプトンを作成することを記述する。
閾値<name>Threshold</name>についてはまた、閾値を10ずつ<absolute max=“100” min = “50”>10</absolute>、10%ずつ変えて<percent>10</percent>、両方向に3つ<numOfChild>3</numOfChild>の派生シンプトンを作成し、最大値は100であり且つ最小値は50であること<absolute max=“100” min = “50”>を記述する。
図10は、本発明の実施態様である、派生シンプトンの評価データを求める例を示す。
図10Aでは、親シンプトンのルールが或るログ・ファイル中のイベントとマッチしている場合に、解析モジュール(602)が、親シンプトンよりも前に検出されている派生シンプトンを該ログ・ファイルに適用して、評価データを得る。その結果、派生シンプトン Symptom001_1のルールは該ログ・ファイル中のイベントとマッチしている。しかし、派生シンプトン Symptom001_2及びSymptom001_3のルールは該ログ・ファイル中のイベントとマッチしない。従って、派生シンプトン Symptom001_1は、その他の派生シンプトン Symptom001_2及びSymptom001_3と比べてより精度の高い予兆シンプトンであると評価される。
図10Bでは、親シンプトンのルールが或るログ・ファイル中のイベントについて誤検出をしている場合に、解析モジュール(602)が、派生シンプトンを該誤検出のログ・ファイルに適用する。その結果、派生シンプトン Symptom001_1のルールは該ログ・ファイル中のイベントとマッチする。しかし、派生シンプトン Symptom001_2及びSymptom001_3のルールは該ログ・ファイル中のイベントとマッチしない。従って、派生シンプトン Symptom001_2及びSymptom001_3は、親シンプトンによって誤検出の上記ログ・ファイルを検出していないことから、その他の派生シンプトン Symptom001_1よりも精度の高いシンプトンであると評価される。
図10Cでは、親シンプトンのルールが或るログ・ファイル中のイベントについて未検出をしている場合に、解析モジュール(602)が、派生シンプトンを該未検出のログ・ファイルに適用する。その結果、派生シンプトン Symptom001_1のルールは該ログ・ファイル中のイベントとマッチしない。すなわち、派生シンプトン Symptom001_1は、該ログ・ファイルを検出しない。しかし、派生シンプトン Symptom001_2及びSymptom001_3のルールは該ログ・ファイル中のイベントとマッチしている。すなわち、派生シンプトン Symptom001_2及びSymptom001_3はそれぞれ、該ログ・ファイルを検出している。従って、派生シンプトン Symptom001_2及びSymptom001_3は、親シンプトンによって未検出の上記ログ・ファイルを検出していることから、その他の派生シンプトン Symptom001_1よりも精度の高いシンプトンであると評価される。
図11は、本発明の実施態様である、派生シンプトンの評価の例を示す。
派生シンプトンの評価は例えば、予兆シンプトンとして使用できるかの評価、シンプトンの最適化評価を含む。
派生シンプトンが予兆シンプトンとして使用できるかの評価の第1の態様は例えば、或るログ・ファイルのイベントについて親シンプトンが抽出されるたびに行う。派生シンプトン評価モジュール(611)は、該ログ・ファイルに派生シンプトンを適用して、派生シンプトンが抽出される確率を集計する。そして、例えば親シンプトンが抽出される前に抽出された派生シンプトンについて、予兆シンプトンとして使用できるかを評価する。
派生シンプトンが予兆シンプトンとして使用できるかの評価の第2の態様は例えば、派生シンプトンの或るログ・ファイルについてのマッチ状況を時系列で評価する。例えば、マッチした派生シンプトンの組み合わせについて評価する。組み合わせは、例えば派生シンプトンA、B及びCの順、派生シンプトンA、C及びBの順である。
シンプトンの最適化評価の第1の態様は例えば、親シンプトンが誤検出したログ・ファイル(レコード)について、抽出されなかった派生シンプトンの確率を集計する。該評価は、親シンプトンの誤検出が通知された後に行われる。
シンプトンの最適化評価の第2の態様は例えば、親シンプトンが未検出だったログ・ファイル(レコード)について、抽出された派生シンプトンの確率を集計する。
次に、派生シンプトンを、予兆シンプトンとして採用した場合の影響について評価する。評価は例えば、確率を算出して行う。
該評価は、蓄積されているログ・ファイルに対して新規に採用する派生シンプトンで解析を行うことによって行われる。シンプトン最適化モジュール(614)は例えば、親シンプトンが発生しないのに予兆シンプトンがマッチしないか、未検出を是正する(すなわち緩くする)ことにより実際に抽出されるべき親シンプトン以外の親シンプトンによる誤検出がおきないか、誤検出を是正する(すなわち厳しくする)ことにより実際に抽出されるべき親シンプトンにより未検出がおきないか?について、上記マッチする確率、上記誤検出の確率、及び上記未検出の確率を算出する。
上記評価は、所定の評価ポリシーに従って行われる。評価ポリシーは例えば、どの程度の確率で前もって検知すれば予兆シンプトンとして採用するか、親シンプトンに対して正しい検出率がどの程度向上すれば予兆シンプトンとして採用するか、未検出又は誤検出の確率がどの程度以下なら採用するかを含む。評価ポリシーの例については、下記図12の説明においてさらに詳しく述べる。
図12は、本発明の実施態様である、評価ポリシー・カタログの例を示す。評価ポリシー・カタログは、評価ポリシーの集合体である。評価ポリシーの第1の態様は、シンプトンを評価するための1以上の指標の定義を含む。評価ポリシーの第2の態様は、シンプトンを評価するための1以上の指標を算出するアルゴリズムの定義を含む。評価ポリシーは、例えばXMLで記述されるがこれに限定されない。
<incidence>80</incidence>及び<incidence>50</incidence>は、或るログ・ファイルに対して親シンプトンが検出される割合を記述する。<priority>50</priority>及び<priority>30</priority>は、親シンプトンが検出される割合に応じてアクションのプライオリティを変えることを記述する。<condition>〜</condition>内は、親シンプトンに比べて、誤検出率又は未検出率がどの程度向上していればよいかを記述する。<mismatch><operator>LT</operator><percent>5</percent></mismatch>は、派生シンプトンによる誤検出率が5%以下のときという条件を記述する。<nomatch><operator>LT</operator></nomatch>は、派生シンプトンによる未検出率が、少しでも改善されたことを条件とすることを記述する。
<validate>〜</validate>内は、派生シンプトンを予兆シンプトンとして採用するための絶対条件を記述する。<mismatch><operator>LT</operator><value>10</value></mismatch>は、派生シンプトンによる誤検出率が親シンプトンに比べて10%改善されていれば、派生シンプトンを予兆シンプトンとして或いは条件の厳しい派生シンプトンとして採用することを記述する。<nomatch><operator>LT</operator><value>10</value></nomatch>は、派生シンプトンの未検出率について、10%改善されていれば、派生シンプトンを予兆シンプトンとして或いは条件の緩い派生シンプトンとして採用することを記述する。
図13は、本発明の実施態様である、派生シンプトンの例(その1)を示す。
親シンプトン(1301)は、1、2、3、4及び5の順からなるイベント・パターンを検出する。派生シンプトン作成モジュール(608)は、親シンプトン(1301)に基づいて、派生ポリシー(609)に従い、上記イベント・パターンのシーケンスの一部分が一致するものを検出する派生シンプトンを作成する。派生シンプトンの例が、派生シンプトン1302、1303、1304及び1305である。
派生シンプトン(1302)のルールは、3、4及び5の順からなるイベント・パターンを検出する。派生シンプトン(1303)のルールは、2、3及び4の順からなるイベント・パターンを検出する。派生シンプトン(1304)のルールは、1、2及び3の順からなるイベント・パターンを検出する。派生シンプトン(1305)のルールは、2、3及び5の順からなるイベント・パターンを検出する。
親シンプトン(1301)が或るログ・レコードについてマッチした場合、解析モジュール(602)は、派生シンプトン(1302〜1305)が該ログ・レコードについてどの程度検出しうるのかを収集し、統計を取る。シンプトン最適化モジュール(614)は、該統計値によってどの派生シンプトンが親シンプトン(1301)の発生条件(確率)となるかを検出することが可能になる。そして、シンプトン最適化モジュール(614)は派生シンプトンを評価ポリシー(613)に従って評価し、該評価に従い、派生シンプトンを予兆シンプトンして使用するかどうかを決定する。そして、該予兆シンプトンをログ・レコードに適用して、該予兆シンプトンがログ・レコードについてマッチした場合、親シンプトンが該ログ・レコードについてマッチすると予測することが可能である。該予測に従い、コンピュータ・システムは、管理者に警告、通知をおこなう。
図14は、本発明の実施態様である、派生シンプトンの例(その2)を示す。
親シンプトン(1401)は、或るイベント間のタイムウィンドウが30秒以上であるイベント・パターンを検出する。派生シンプトン作成モジュール(608)は、親シンプトン(1101)に基づいて、派生ポリシー(609)に従い、タイムフレームの長さの異なるものを検出する派生シンプトンを作成する。派生シンプトンの例が、派生シンプトン1202、1203及び1204である。
派生シンプトン(1402)のルールは、或るイベント間のタイムウィンドウが15秒以上であるイベント・パターンを検出する。派生シンプトン(1403)のルールは、或るイベント間のタイムウィンドウが20秒以上であるイベント・パターンを検出する。派生シンプトン(1404)のルールは、或るイベント間のタイムウィンドウが25秒以上であるイベント・パターンを検出する。
解析モジュール(602)は、親シンプトン(1401)が或るログ・レコードについてマッチする状況と、派生シンプトン(1402〜1404)が該ログ・レコードについてマッチする状況との関連を収集する。そして、派生シンプトン(1402)、派生シンプトン(1403)、そして派生シンプトン(1404)の順で上記ログ・レコードにマッチする場合、シンプトン最適化モジュール(614)は、親シンプトンが高い確率で該ログ・レコードについてマッチすると予測することが可能である。そこで、シンプトン最適化モジュール(614)は、派生シンプトン(1402〜1404)を予兆シンプトンとする。
図15は、本発明の実施態様である、派生シンプトンの例(その3)を示す。
親シンプトンは、イベント・パターン[1...N]が、タイムウィンドウX以内に発生したことを検出する。タイムウィンドウXの値は、閾値として用いられる。派生シンプトン作成モジュール(608)は、親シンプトン(1301)に基づいて、派生ポリシー(609)に従い、イベント・パターン[1...N−1]を検出する派生シンプトンを作成する。
イベント・パターン(1501、1504、1505、1506)では、閾値Xまでに、イベントNは到来していない。よって、親シンプトンのルールは、イベント・パターン(1501、1504、1505、1506)を検出することができない。
イベント・パターン(1502、1503)では、閾値Xまでに、イベントNは到来している。よって、親シンプトンのルールは、イベント・パターン(1502、1503)を検出することができる。
ここで、イベント・パターン[1...N]が閾値X以内に発生していなくとも、問題が生じる場合がある。例えば、問題がシステムに由来するものであり、システムの動作環境、例えばCPUパワー、ユーザ操作などによって、検出したい問題の発生条件にばらつきがでる場合がある。そこで、イベント Nが来ない場合であっても、イベント・パターン[1...N−1]を検出できるように閾値Xを変更することで、上記問題を検出することが可能になりうる。そこで、親シンプトンに基づいて、閾値を変更した派生シンプトンを生成する。上記閾値の変更によって、イベント・パターン(1501)では、閾値Xまでに、イベントN−1が到来しているため、派生シンプトンのルールは、イベント・パターン(1501)を検出することができる。
図15では、閾値の例をのべたが、発生回数の変化、タイムフレームの長さの変化についても同様である。
図16は、本発明の実施態様である、親シンプトンの作成、初期定義、派生シンプトンの自動作成、派生シンプトンの評価データの収集、派生シンプトンの評価、更新されたシンプトンによる運用(派生シンプトンの最適化)、派生ポリシーの更新のフローを示す。
初期定義のステップは、親シンプトンを定義することを含む。また、初期定義のステップはさらに、本発明の実施態様である親シンプトンの編集を含む。親シンプトンの編集は、図7の説明において述べたとおりである。
派生シンプトンを自動生成するステップは、親シンプトンに基づいて、派生ポリシーに従って派生シンプトンを作成するステップを含む。派生シンプトンの自動作成は、図8の説明において述べたとおりである。派生ポリシーは、図9の説明において述べたとおりである。
派生シンプトンの評価データを収集するステップは、図10の説明において述べたとおりである。
派生シンプトンを評価するステップは、図11の説明において述べたとおりである。派生シンプトンのうち、予兆シンプトンとして採用された派生シンプトンは、親シンプトンとともに又は親シンプトンと置き換わって、所定の問題に関連するイベントの集合を検出するために使用されうる。また、派生シンプトンのうち、誤検出及び未検出のいずれかの精度を高めた派生シンプトンは、親シンプトンとともに又は親シンプトンと置き換わって、所定の問題に関連するイベントの集合を検出するために使用されうる。以上のようにして、問題判別システムは、更新されたシンプトンを用いて引き続き運用される。一方、派生シンプトンのうち、評価結果によっては、効果のない、すなわち精度の低い派生シンプトンが派生シンプトン・データベース(610)から削除される。
引き続き、シンプトン最適化モジュール(614)は、派生ポリシーが有効であるかどうかを判断する。評価結果に基づき、必要に応じて派生ポリシーが更新される。
図17は、本発明の実施態様である、評価結果により派生ポリシーの修正(その1)を示す。
図17は、派生ポリシーを予兆シンプトンとして使用できるかどうかを評価する例である。
適切な派生では、親シンプトンのルールが或るログ・ファイルのイベント・パターンを検出する割合(又は発生率)と、派生シンプトンのルールが該ログ・ファイルのイベント・パターンを検出する割合(又は発生率)とが、類似過ぎずかつ疎遠すぎない。図17に示すように、適切な派生では、上記派生シンプトンの上記割合(又は発生率)がほぼ一定に変化している。
適切でない派生では、親シンプトンのルールが或るログ・ファイルのイベント・パターンを検出する割合(又は発生率)と、派生シンプトンのルールが該ログ・ファイルのイベント・パターンを検出する割合(又は発生率)とが、類似過ぎるか、又は疎遠すぎる。類似過ぎるとは例えば、親シンプトンの上記割合(又は発生率)と派生シンプトンの上記割合(又は発生率)が、ほぼ変わらない場合である。疎遠過ぎるとは例えば、親シンプトンの上記割合(又は発生率)と派生シンプトンの上記割合(又は発生率)が大きく異なる場合である。
図18は、本発明の実施態様である、評価結果により派生ポリシーの修正(その2)を示す。
図18は、派生ポリシーをさらに評価する必要があるかを評価する例である。
親シンプトンのルールが或るログ・ファイルのイベント・パターンを正しく検出する割合(又は検出率)を基準として、左右に派生シンプトンが位置する場合を考える。親シンプトンに対して左側に派生シンプトンが位置する場合、該派生シンプトンは親シンプトンよりも上記割合(又は検出率)が高い。従って、シンプトン最適化モジュール(614)は、さらに上記割合(又は検出率)を有する派生シンプトンがないかどうかを確認するために、さらに派生シンプトンを評価する。一方、親シンプトンに対して右側に派生シンプトンが位置する場合、該派生シンプトンは親シンプトンよりも上記割合(又は検出率)が低い。従って、シンプトン最適化モジュール(614)は、さらに派生シンプトンを評価しない。
本発明の実施形態は特にオートノミック・コンピューティング分野に適用されるが、該分野に限定されるものではない。また、本発明の実施形態は例えば、サン・マイクロシステムズ株式会社のN1 Grid、ヒューレット・パッカード社のAdaptive Infrastructure、日本電気株式会社のVALUMO、株式会社日立製作所のHarmonious Computing、富士通株式会社のTRIOLEと称されるコンピュータ自体で自己管理させる環境に適用しうる。
本発明の実施態様によれば、コンピュータ・システムが、シンプトン・データベース内の既存のシンプトンに基づいて新たなシンプトンを動的に作成する。そして、該コンピュータ・システムは、該新たなシンプトンを評価する。その結果、該コンピュータ・システムは、精度の高いシンプトンをシンプトン・データベース内に動的に追加することが可能になる。
本発明の実施態様で使用するコンピュータ・システムは典型的には、CPU、メインメモリを有し、これらはバスに接続されている。該バスに、ディスプレイ・コントローラを介して、LCDモニターなどの表示装置が接続されている。また、該バスに、ディスプレイ・コントローラを介して、LCDモニターなどの表示装置が接続されている。また、該バスに、IDE、SATAまたはUSBコントローラを介して、記憶装置、例えばハードディスク、シリコンディスク、CD、DVD又はBDの各種ドライブが接続されている。
問題判別システムの概念図を示す。 ログ・ファイルをCBEに変換する例を示す。 シンプトンによりCBEを解析する例を示す。 既存の問題判別システムの実施態様の例を示す。 評価を入力する画面の例を示す。 本発明の実施態様であるコンピュータ・システムの例を示す。 シンプトン・データベースに格納されたシンプトンを編集することを示す。 本発明の実施態様である、派生シンプトンの作成を示す。 本発明の実施態様である、派生ポリシー・カタログの例を示す。 本発明の実施態様である、派生シンプトンの評価データを求める例を示す。 本発明の実施態様である、派生シンプトンの評価の例を示す。 本発明の実施態様である、評価ポリシー・カタログの例を示す。 本発明の実施態様である、派生シンプトンの例(その1)を示す。 本発明の実施態様である、派生シンプトンの例(その2)を示す。 本発明の実施態様である、派生シンプトンの例(その3)を示す。 本発明の実施態様である、派生シンプトンの作成、派生シンプトンの評価、派生シンプトンによるシンプトンの最適化、派生ポリシーの修正のフローを示す。 本発明の実施態様である、評価結果により派生ポリシーの修正(その1)を示す。 本発明の実施態様である、評価結果により派生ポリシーの修正(その2)を示す。

Claims (25)

  1. 所定の問題に関連するイベントの集合を検出するための少なくとも1のルールを含む、データであるシンプトンを格納するためのシンプトン・データベースに接続されうるコンピュータ・システムであって、
    第1のシンプトンに基づいて、所定のシンプトン作成ポリシーに従って、少なくとも1つの第2のシンプトンを作成するシンプトン作成部と、
    複数のイベントに関する情報を含むイベント・レコードに前記第1のシンプトンを適用して得られるデータおよび前記イベント・レコードに前記第2のシンプトンを適用して得られるデータに基づいて、所定の評価ポリシーに従って、前記第2のシンプトンを評価し、該評価に従い、前記第2のシンプトンが前記所定の問題に関連するイベントの集合を検出するために使用されうるかどうかを決定するシンプトン評価部と
    を含む、前記コンピュータ・システム。
  2. 前記所定のシンプトン作成ポリシーは、シンプトンに含まれる少なくとも1つのルールの一部又は全部をどのように変更するかの定義を含み、
    前記シンプトン作成部は、前記シンプトン作成ポリシーに含まれる定義に基づくアルゴリズムであって、前記第1のシンプトンに含まれる少なくとも1つのルールの一部又は全部を変更するアルゴリズムを実行することによって、前記第2のシンプトンを作成する、
    請求項1に記載のコンピュータ・システム。
  3. 前記シンプトン作成ポリシーが、前記第1のシンプトンのどのルールを変更するか、所定のイベントの発生回数を変更するか、所定のイベント間における発生期間を変更するか、所定の複数のイベントにおける発生順序を変更するか、所定の複数のイベントのうちの一部と一致するように変更するか、ある期間内に所定のイベントが所定回数発生する閾値を変更するか、どれだけの数の第2のシンプトンを作成するか、の少なくとも1以上を定義する、請求項2に記載のコンピュータ・システム。
  4. 前記複数のイベントに関する情報を含むイベント・レコードが、前記第1のシンプトンのルールにより検出されたレコード、前記第1のシンプトンのルールにより誤検出されたレコード、前記第1のシンプトンにより未検出であったレコードのいずれかである、請求項1に記載のコンピュータ・システム。
  5. 前記第2のシンプトンを適用して得られるデータが、前記イベント・レコードに前記第1のシンプトンを適用して得られる検出率を100とした場合に、該イベント・レコードに前記第2のシンプトンを適用して得られる検出率である、請求項1に記載のコンピュータ・システム。
  6. 前記評価ポリシーは、シンプトンを評価するための1以上の指標の定義を含み、
    前記シンプトン評価部は、前記第1及び第2のシンプトンについて、該第1及び第2のシンプトンを評価するための1以上の指標を算出するアルゴリズムを実行することによって、前記第2のシンプトンを評価する、
    請求項1に記載のコンピュータ・システム。
  7. 前記評価ポリシーは、シンプトンを評価するための1以上の指標を算出するアルゴリズムの定義を含み、
    前記シンプトン評価部は、前記評価ポリシーに含まれる前記アルゴリズムを実行することによって前記第2のシンプトンを評価する、
    請求項6に記載のコンピュータ・システム。
  8. 前記シンプトンを評価するための1以上の指標が、
    (1)複数のイベントに関する情報を含むイベント・レコードについて、前記第2のシンプトンのルールにより検出されるイベントがある場合に、前記第1のシンプトンのルールにより検出される割合がいくらか、
    (2)複数のイベントに関する情報を含むイベント・レコードについて、前記第2のシンプトンによる誤検出率が、前記第1のシンプトンによる誤検出率よりも低いか、
    (3)複数のイベントに関する情報を含むイベント・レコードについて、前記第2のシンプトンによる未検出率が、前記第1のシンプトンによる未検出率よりも低いか、
    の少なくとも1つを含む、請求項7に記載のコンピュータ・システム。
  9. 前記決定が、前記第2のシンプトンのルールにより検出される割合が、前記第1のシンプトンのルールにより検出される割合よりも所定割合以上である場合又は該所定割合よりも大きい場合に行われる、請求項8に記載のコンピュータ・システム。
  10. 前記決定が、前記第2のシンプトンによる誤検出率が、前記第1のシンプトンによる誤検出率よりも所定率以下である場合又は該所定率よりも小さい場合に行われる、請求項8に記載のコンピュータ・システム。
  11. 前記決定が、前記第2のシンプトンによる未検出率が、前記第1のシンプトンによる未検出率よりも所定率以下である場合又は該所定率よりも小さい場合に行われる、請求項8に記載のコンピュータ・システム。
  12. 前記決定が、複数のイベントに関する情報を含むイベント・レコードに前記第1のシンプトン及び前記第2のシンプトンをそれぞれ適用し、前記第2のシンプトンによる検出が前記第1のシンプトンによる検出の前に発生する場合に行われる、請求項1に記載のコンピュータ・システム。
  13. 前記第1のシンプトンが、前記ルールに従いイベントの集合が検出された場合のアクションの記述、及び第2のシンプトンの評価を行うアクションの記述を含む、請求項1に記載のコンピュータ・システム。
  14. 所定の問題に関連するイベントの集合を検出するための少なくとも1のルールを含む、データであるシンプトンを格納するためのシンプトン・データベースに接続されうるコンピュータ・システムにおいて、シンプトンを評価するための方法であって、
    第1のシンプトンに基づいて、所定のシンプトン作成ポリシーに従って、少なくとも1つの第2のシンプトンを作成するステップと、
    複数のイベントに関する情報を含むイベント・レコードに前記第1のシンプトンを適用して得られるデータおよび前記イベント・レコードに前記第2のシンプトンを適用して得られるデータに基づいて、所定の評価ポリシーに従って、前記第2のシンプトンを評価し、該評価に従い、前記第2のシンプトンが前記所定の問題に関連するイベントの集合を検出するために使用されうるかどうかを決定するステップと
    を含む、前記方法。
  15. 前記所定のシンプトン作成ポリシーは、シンプトンに含まれる少なくとも1つのルールの一部又は全部をどのように変更するかの定義を含み、
    前記作成するステップは、前記シンプトン作成ポリシーに含まれる定義に基づくアルゴリズムであって、前記第1のシンプトンに含まれる少なくとも1つのルールの一部又は全部を変更するアルゴリズムを実行することによって、前記第2のシンプトンを作成するステップを含む、
    請求項14に記載の方法。
  16. 前記シンプトン作成ポリシーが、前記第1のシンプトンのどのルールを変更するか、所定のイベントの発生回数を変更するか、所定のイベント間における発生期間を変更するか、所定の複数のイベントにおける発生順序を変更するか、所定の複数のイベントのうちの一部と一致するように変更するか、ある期間内に所定のイベントが所定回数発生する閾値を変更するか、どれだけの数の第2のシンプトンを作成するか、の少なくとも1以上を定義する、請求項15に記載の方法。
  17. 前記複数のイベントに関する情報を含むイベント・レコードが、前記第1のシンプトンのルールにより検出されたレコード、前記第1のシンプトンのルールにより誤検出されたレコード、前記第1のシンプトンにより未検出であったレコードのいずれかである、請求項14に記載の方法。
  18. 前記評価ポリシーは、シンプトンを評価するための1以上の指標の定義を含み、
    前記決定するステップは、前記第1及び第2のシンプトンについて、該第1及び第2のシンプトンを評価するための1以上の指標を算出するアルゴリズムを実行することによって、前記第2のシンプトンを評価するステップを含む、請求項14に記載の方法。
  19. 前記評価ポリシーは、シンプトンを評価するための1以上の指標を算出するアルゴリズムの定義を含み、
    前記決定するステップは、前記評価ポリシーに含まれる前記アルゴリズムを実行することによって前記第2のシンプトンを評価するステップを含む、
    請求項18に記載の方法。
  20. 前記第1のシンプトンが、前記ルールに従いイベントの集合が検出された場合のアクションの記述、及び前記第2のシンプトンの評価を行うアクションの記述を含む、請求項14に記載の方法。
  21. 前記評価に従い、前記第2のシンプトンを修正するステップをさらに含む、請求項14に記載の方法。
  22. 前記評価に従い、前記第2のシンプトンを削除するステップをさらに含む、請求項14に記載の方法。
  23. 前記イベント・レコードに前記修正した第2のシンプトンを適用して第3のデータを得るステップをさらに含む、請求項21に記載の方法。
  24. 前記第1のデータ又は前記第2のデータ、および前記イベント・レコードに前記第2のシンプトンを適用して得られるデータに基づいて、所定の評価ポリシーに従って、前記修正した第2のシンプトンを評価し、該評価に従い、前記修正した第2のシンプトンを前記所定の問題に関連するイベントの集合を検出するために使用するかどうかを決定するステップをさらに含む、請求項23に記載の方法。
  25. 所定の問題に関連するイベントの集合を検出するための少なくとも1のルールを含む、データであるシンプトンを格納するためのシンプトン・データベースに接続されうるコンピュータ・システムにおいて、シンプトンを評価するためのコンピュータ・プログラムであって、前記コンピュータ・システムに請求項11〜24のいずれか一項に記載の各ステップを実行させる、前記コンピュータ・プログラム。
JP2008090854A 2008-03-31 2008-03-31 シンプトンを評価するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム Expired - Fee Related JP5240709B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008090854A JP5240709B2 (ja) 2008-03-31 2008-03-31 シンプトンを評価するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008090854A JP5240709B2 (ja) 2008-03-31 2008-03-31 シンプトンを評価するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム

Publications (2)

Publication Number Publication Date
JP2009245154A true JP2009245154A (ja) 2009-10-22
JP5240709B2 JP5240709B2 (ja) 2013-07-17

Family

ID=41306963

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008090854A Expired - Fee Related JP5240709B2 (ja) 2008-03-31 2008-03-31 シンプトンを評価するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム

Country Status (1)

Country Link
JP (1) JP5240709B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011107742A (ja) * 2009-11-12 2011-06-02 Nec Corp 運用管理装置、運用管理方法、及びプログラム
JP2011113492A (ja) * 2009-11-30 2011-06-09 Nec Corp 運用情報管理システム、運用情報管理方法、運用情報管理プログラム
WO2011111599A1 (ja) * 2010-03-11 2011-09-15 日本電気株式会社 障害分析ルール抽出装置、障害分析ルール抽出方法、及び記憶媒体
JP2012128811A (ja) * 2010-12-17 2012-07-05 Fujitsu Ltd 管理装置、管理プログラム、および管理方法
CN113110981A (zh) * 2021-03-26 2021-07-13 北京中大科慧科技发展有限公司 一种用于数据中心的空调机房健康能效检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006011702A (ja) * 2004-06-24 2006-01-12 Hitachi Ltd ポリシの検証方法及びポリシ検証装置
JP2006053728A (ja) * 2004-08-11 2006-02-23 Nec Corp 障害対処ルール伝播方法、障害復旧装置およびプログラム
JP2007034739A (ja) * 2005-07-27 2007-02-08 Nec Corp 管理支援システム、管理支援方法、および管理支援プログラム
JP2007172131A (ja) * 2005-12-20 2007-07-05 Nec Fielding Ltd 障害予測システム、障害予測方法、障害予測プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006011702A (ja) * 2004-06-24 2006-01-12 Hitachi Ltd ポリシの検証方法及びポリシ検証装置
JP2006053728A (ja) * 2004-08-11 2006-02-23 Nec Corp 障害対処ルール伝播方法、障害復旧装置およびプログラム
JP2007034739A (ja) * 2005-07-27 2007-02-08 Nec Corp 管理支援システム、管理支援方法、および管理支援プログラム
JP2007172131A (ja) * 2005-12-20 2007-07-05 Nec Fielding Ltd 障害予測システム、障害予測方法、障害予測プログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011107742A (ja) * 2009-11-12 2011-06-02 Nec Corp 運用管理装置、運用管理方法、及びプログラム
JP2011113492A (ja) * 2009-11-30 2011-06-09 Nec Corp 運用情報管理システム、運用情報管理方法、運用情報管理プログラム
WO2011111599A1 (ja) * 2010-03-11 2011-09-15 日本電気株式会社 障害分析ルール抽出装置、障害分析ルール抽出方法、及び記憶媒体
US9021304B2 (en) 2010-03-11 2015-04-28 Nec Corporation Fault analysis rule extraction device, fault analysis rule extraction method and storage medium
JP2012128811A (ja) * 2010-12-17 2012-07-05 Fujitsu Ltd 管理装置、管理プログラム、および管理方法
CN113110981A (zh) * 2021-03-26 2021-07-13 北京中大科慧科技发展有限公司 一种用于数据中心的空调机房健康能效检测方法
CN113110981B (zh) * 2021-03-26 2024-04-09 北京中大科慧科技发展有限公司 一种用于数据中心的空调机房健康能效检测方法

Also Published As

Publication number Publication date
JP5240709B2 (ja) 2013-07-17

Similar Documents

Publication Publication Date Title
US20200233736A1 (en) Enabling symptom verification
US20190279098A1 (en) Behavior Analysis and Visualization for a Computer Infrastructure
US9652316B2 (en) Preventing and servicing system errors with event pattern correlation
US10489711B1 (en) Method and apparatus for predictive behavioral analytics for IT operations
US9069889B2 (en) Automated enablement of performance data collection
EP1650662B1 (en) Method and system for testing software program based upon states of program execution instability
US9798644B2 (en) Monitoring system performance with pattern event detection
Lin et al. Fast dimensional analysis for root cause investigation in a large-scale service environment
US20220138041A1 (en) Techniques for identifying and remediating operational vulnerabilities
KR20050037606A (ko) 컴퓨터 기반 방법, 컴퓨터 프로그램 제품 및 데이터 처리시스템
US10528456B2 (en) Determining idle testing periods
US9860109B2 (en) Automatic alert generation
US20120222009A1 (en) Defective code warning resolution analysis
Tang et al. Optimizing system monitoring configurations for non-actionable alerts
WO2021236278A1 (en) Automatic tuning of incident noise
JP5240709B2 (ja) シンプトンを評価するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
US20130232192A1 (en) Operations task management system and method
CN116895046B (zh) 基于虚拟化的异常运维数据处理方法
CN115495424A (zh) 数据处理的方法、电子设备和计算机程序产品
US10789119B2 (en) Determining root-cause of failures based on machine-generated textual data
Breitgand et al. Efficient control of false negative and false positive errors with separate adaptive thresholds
US10735246B2 (en) Monitoring an object to prevent an occurrence of an issue
CN113626288A (zh) 故障处理方法、系统、装置、存储介质和电子设备
US10467082B2 (en) Device driver verification
Kuang et al. Knowledge-aware Alert Aggregation in Large-scale Cloud Systems: a Hybrid Approach

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101124

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121017

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121024

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121024

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20121024

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130306

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20130306

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20130306

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130326

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160412

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees