JP5008006B2 - シンプトンの検証を可能にするためのコンピュータ・システム、方法及びコンピュータ・プログラム - Google Patents

シンプトンの検証を可能にするためのコンピュータ・システム、方法及びコンピュータ・プログラム Download PDF

Info

Publication number
JP5008006B2
JP5008006B2 JP2007338120A JP2007338120A JP5008006B2 JP 5008006 B2 JP5008006 B2 JP 5008006B2 JP 2007338120 A JP2007338120 A JP 2007338120A JP 2007338120 A JP2007338120 A JP 2007338120A JP 5008006 B2 JP5008006 B2 JP 5008006B2
Authority
JP
Japan
Prior art keywords
symptom
sample
new
database
events
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007338120A
Other languages
English (en)
Other versions
JP2009157830A (ja
Inventor
希 青山
直史 津村
俊道 有馬
幸浩 村上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2007338120A priority Critical patent/JP5008006B2/ja
Priority to US12/323,633 priority patent/US9471655B2/en
Publication of JP2009157830A publication Critical patent/JP2009157830A/ja
Application granted granted Critical
Publication of JP5008006B2 publication Critical patent/JP5008006B2/ja
Priority to US15/269,282 priority patent/US10592325B2/en
Priority to US15/366,870 priority patent/US10467081B2/en
Priority to US16/511,709 priority patent/US11061756B2/en
Priority to US16/750,701 priority patent/US11263071B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0775Content or structure details of the error report, e.g. specific table structure, specific error fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0787Storage of error reports, e.g. persistent data storage, storage using memory protection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/045Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Description

本発明は、シンプトン(symptom)の検証を可能にするためのコンピュータ・システム、方法及びコンピュータ・プログラムに関する。特に、本発明は、オートノミック(自律型)・コンピューティングにおけるシンプトンの検証に関する。
オートノミック・コンピューティング環境は、自らを管理し、ビジネス・ポリシー或いはビジネスの目標に併せて、変化に動的に適応することが可能なコンピューティング環境である(下記非特許文献1を参照)。システムがオートノミックであるための条件は、システム自身が、1.環境をモニターすること(モニタリング、Monitoring)、2.モニター結果を分析すること(アナライジング、Analyzing)、3.問題があるならば、改善策を計画すること(プランニング、Planning)、4.それを実行すること(エグゼキューティング、Executing)の4段階からなるプロセスを実行可能であることである。該プロセスは、上記4段階の頭文字を取ってMAPEループと呼ばれる。オートノミック・コンピューティング環境は、IT環境において自らを監視或いは検知することをベースにしてアクティビティーを実行することを可能にするので、ITプロフェッショナルがタスクを開始する必要がない。オートノミック・コンピューティング環境は、自己構成(環境の変化にダイナミックに適応すること)、自己修復(システムの中断を防止するために、不具合を発見・診断し、修正すること)、自己最適化(IT資源を最大限に利用するために、資源を調整し、負荷分散をすること)及び自己防御(予見ないしは検知、識別を行うことで危険に対処し、また攻撃に対する防御を行うこと)の機能を備えている。
オートノミック・コンピューティングのテクノロジーが普及しつつあり、発生するイベントをナレッジ(knowledge)によって解析し、問題の対処を導き出すオートノミック・コンピューティング・システムの概念が一般化しつつある。オートノミック・コンピューティングの取り組みとして、様々なイベントに対して既存のナレッジによる解析を行い、システムに起きている問題を発見し、解決策を提示するソリューションが提案されている。
インターナショナル・ビジネス・マシーンズ・コーポレーション(商標、以下IBM)は、オートノミック・テクノロジーに関連し、オートノミック・コンピューティング・ツールキットを提供している。該ツールキットは、例えばIBM Build to Manage Toolkit for Problem Determination(以下、IBM BtM Toolkit for PD)である(下記非特許文献2を参照)。該ツールキットを使用することで、今まで運用担当者が手作業で行っていたシステムの問題判別と解決の時間とを大幅に短縮することができる。さらにシンプトン・カタログを作成できるようになり、経験知に基づいた問題解決、さらにシステムのクラッシュ或いはパフォーマンス上のボトルネックを事前に察知することも可能になる。IBM BtM Toolkit for PDは、シンプトンの蓄積を容易にするツールを含む。IT環境で発生する多くの問題には、解決方法が既に存在する。現在はその解決方法の大半を手作業で、時間と労力とをかけて解析している。しかし、該ツールキットで提供されるツールを利用することで、問題とその解決方法に関する情報を簡単に追跡することができ、既知の情報をシンプトン・カタログとして公開することが可能になる(下記非特許文献3を参照)。管理対象の製品が、導入ないしは運用の際にこのシンプトン・カタログに自動的にアクセスするので、問題の有効な解決方法の特定に必要な時間及び労力が大幅に削減される。
An architectural blueprint for autonomic computing, third Edition、IBM、2005年6月、下記URLから入手可能<http://www-03.ibm.com/autonomic/pdfs/AC%20Blueprint%20White%20Paper%20V7.pdf>。 AC問題判別ツール概説、−Build to Manage Toolkit for Problem determinationのご紹介− 日本アイ・ビー・エム株式会社、2006年11月22日。 オートノミック・テクノロジー解説、−ACを支える最新テクノロジー(CBE、CEI、シンプトン)のご紹介− 日本アイ・ビー・エム株式会社、2006年11月22日。 Brent A. Miller、The autonomic computing edge: The role of knowledge in autonomic systems、2005年9月13日、下記URLから入手可能<http://www.ibm.com/developerworks/autonomic/library/ac-edge6/>、日本語訳(オートノミック・コンピューティングの最新動向: オートノミックシステムでのナレッジの役割)は、下記URLから入手可能<http://www.ibm.com/developerworks/jp/autonomic/library/ac-edge6/>。 J. Clerk and Steve DeRose、XMLPath Language (XPath), version 1.0、1996年11月16日、下記URLから入手可能<http://www.w3.org/TR/xpath>。 Symptoms Reference specification version 2.0、IBM、2006年、下記URLから入手可能<http://download.boulder.ibm.com/ibmdl/pub/software/dw/opensource/btm/SymptomSpec_v2.0.pdf>。 Marcelo Perazolo、Symptoms deep dive, Part 1: The autonomic computing symptoms format−Know thy symptoms, heal thyself、2005年10月18日、下記URLから入手可能<http://www.ibm.com/developerworks/autonomic/library/ac-symptom1/?S_TACT=105AGX90&S_CMP=content>、日本語訳(シンプトン(症状)の深層を探る、第1回:オートノミック・コンピューティングのシンプトン・フォーマット−シンプトンを知らば、自ずから治癒されん)は、下記URLから入手可能<http://www.ibm.com/developerworks/jp/autonomic/library/ac-symptom1/>。 Marcelo Perazolo、Symptoms deep dive, Part 2: Cool things you can do with symptoms−Use common scenarios and patterns for increased autonomic computing、2005年12月13日、下記URLから入手可能<http://www.ibm.com/developerworks/autonomic/library/ac-symptom2/?S_TACT=105AGX90&S_CMP=content>、日本語訳(シンプトン(症状)の深層を探る、第2回:シンプトンによって可能となる素敵なこと−オートノミック・コンピューティングを促進するために、一般的なシナリオとパターンを使う)は、下記URLから入手可能<http://www.ibm.com/developerworks/jp/autonomic/library/ac-symptom2/>。 Marcelo Perazolo、Symptoms deep dive, Part 3: Classify your symptoms−Introducing a standard taxonomy of autonomic computing symptoms to help identify situation categories、2006年3月2日、下記URLから入手可能<http://www.ibm.com/developerworks/autonomic/library/ac-symptom3/?S_TACT=105AGX90&S_CMP=content>、日本語訳(シンプトン(症状)の深層を探る、第3回:シンプトンを分類する−状況のカテゴリー分けに利用される、オートノミック・コンピューティングにおける標準的なシンプトン分類法を紹介する)は、下記URLから入手可能<http://www.ibm.com/developerworks/jp/autonomic/library/ac-symptom3/>。 Kalpana Doraisamy、Ajay G Rengasayee、Abdi Salahshour、Symptomatic event visualizer, Part 1: Challenges in data collection−How can a common event format and a symptom repository help address the complexity of business IT?、2007年6月19日、下記URLから入手可能<http://www.ibm.com/developerworks/autonomic/library/ac-ltavisual1/?S_TACT=105AGX90&S_CMP=content>、日本語訳(シンプトン・イベント・ビジュアライザー: データ収集における課題−共通イベント・フォーマットとシンプトン・リポジトリーでビジネス IT の複雑さに対処する)は、下記URLから入手可能<http://www.ibm.com/developerworks/jp/autonomic/library/ac-ltavisual1/>。 Jennifer Bloom、LTA for multievent software problem analysis−Using the Log and Trace Analyzer to help diagnose software problems when they span multiple systems、2007年2月20日、下記URLから入手可能<http://www.ibm.com/developerworks/library/ac-ltaanalyze/>、日本語訳(Log Trace Analyzer(LTA)によるマルチイベント・ソフトウェア問題の分析−ログ&トレース・アナライザーを利用して複数システムに及ぶソフトウェアの問題を診断する)は、下記URLから入手可能<http://www.ibm.com/developerworks/jp/autonomic/library/ac-ltaanalyze/>。
問題判別技法(Problem Determination Solution)の分野では、図1に示すようなシンプトンによる問題判別システムが実運用され、多くのシンプトンが蓄積されてきている。シンプトンは、所定の問題に関連するイベントの集合を検出するためのルールを含む。しかし、シンプトンを際限なく登録、追加していくことは、シンプトンを保管する記録媒体の容量の問題、或いはセキュリティないしはコンプライアンス上の問題から、現実的には困難である。さらに、シンプトンの増加に伴い、不正なシンプトンが多く混入してしまう事態が危惧されている。例えば、シンプトンが重複定義されているために、実際には一種類の問題しか起きていなくても複数のシンプトンが抽出される。或いは、シンプトンのルールが緩い、すなわち精度が低いことによって関連のないシンプトンが抽出される(すなわち、誤検知がおきる)。しかし、利用者は、シンプトンの重複定義ないしは誤検知を判別することができない。そこで、例えば、シンプトンの重複定義の排除或いは精度の低いシンプトンを排除するために、シンプトンを検証する仕組みが必要とされている。特に、新たに作成したシンプトン(以下、新規シンプトン)をデータベースに追加する際に、該シンプトンを検証する仕組みが必要である。
本発明は、所定の問題に関連するイベントの集合を検出するためのルールの記述を含むシンプトンの検証を可能にするためのコンピュータ・システムを提供する。該コンピュータ・システムは、オートノミック・コンピューティングを実現するサーバ・コンピュータそれ自体又は該サーバ・コンピュータに関連付けられたコンピュータであってよい。該コンピュータ・システムは、シンプトンを格納するシンプトン・データベースと、あるシンプトンのルールにより検出されるイベントの集合を含む標本を格納する標本データベースと、新規シンプトンを上記シンプトン・データベースに追加するかどうかを判断するために、該新規シンプトンにより上記標本データベースに格納された標本を解析する解析部とを含む。該解析の結果は、上記コンピュータ・システムに接続された表示装置上に提示される。
さらに、本発明は、所定の問題に関連するイベントの集合を検出するためのルールの記述を含むシンプトンの検証を可能にする方法を提供する。該方法は、コンピュータ・システムに、下記ステップを実行させる方法を含み、該コンピュータ・システムは、オートノミック・コンピューティングを実現するサーバ・コンピュータそれ自体又は該サーバ・コンピュータに関連付けられたコンピュータであってよい。上記ステップは、シンプトンを格納するシンプトン・データベースを用意するステップと、あるシンプトンのルールにより検出されるイベントの集合を含む標本を格納する標本データベースを用意するステップと、新規シンプトンを上記シンプトン・データベースに追加するかどうかを判断するために、該新規シンプトンにより上記標本データベースに格納された標本を解析するステップとを含む。上記ステップは好ましくは、上記解析の結果を提示するステップをさらに含む。
さらに、本発明は、所定の問題に関連するイベントの集合を検出するためのルールの記述を含むシンプトンの検証を可能にするコンピュータ・プログラムを提供する。該コンピュータ・プログラムは、上記コンピュータ・システムに、上記ステップを実行させる。該コンピュータ・プログラムは、磁気ディスク、光ディスク、半導体メモリ、そのほかの記録媒体に格納して配布され、或いはネットワークを介して提供されうる。
好ましくは、上記標本が、あるシンプトンのルールにより検出されるイベントの集合を含む第1の標本と、上記第1の標本をサブセットとして含む第2の標本とを含む。特に好ましくは、上記第1の標本が、あるシンプトンのルールにより検出されるイベントの集合のみからなる。
本発明は特にオートノミック・コンピューティング分野において用いられるが、該分野に限定されるものではない。また、本発明は例えば、サン・マイクロシステムズ株式会社のN1 Grid、ヒューレット・パッカード社のAdaptive Infrastructure、日本電気株式会社のVALUMO、株式会社日立製作所のHarmonious Computing、富士通株式会社のTRIOLEと称されるコンピュータ自体で自己管理させる環境においても用いられうる。
本発明によれば、シンプトンを検証すること、例えばシンプトンの重複定義を検証すること或いはシンプトンのルールの精度を高めることが可能となる。その結果、シンプトンによる問題判別システムの実効性が高められ、イベントに対する的確な診断結果をユーザに戻すことが可能になる。
本発明に関する基本的な用語を下記に説明する。
・イベント
システム・リソース、ネットワーク・リソース又はネットワーク・アプリケーションなどの監視対象リソースの状態の変化である。イベントは、問題、問題の解決又はタスクの正常な完了によって発生することもある。具体的には、ハードウェア又はソフトウェアの故障、停止、性能のボトルネック、ネットワーク構成の不整合、設計不十分による意図せざる結果、コンピュータ・ウィルス等の悪意による被害などを含む。イベントの具体例の一つは、メモリ使用量が閾値を超えたことである。
・コモン・ベース・イベント(Common Base Event)
ある状態の結果として送られ、その後で企業管理アプリケーション又はビジネス・アプリケーションで使用されるイベントの構造を示す標準の形式及びコンテンツの仕様である。IBM(商標)は、共通ログ・フォーマットであるコモン・ベース・イベント(CBE)を策定し、CBEが、標準化団体であるOASIS(Organization for the Advancement of Structured Information Standards)によってログ・フォーマットの標準として採択されている。コモン・ベース・イベントには、ロギング、トレース、管理、及びビジネスのイベントがある。CBEにおいて、データはXMLで表現されうる。
・ナレッジ(knowledge)
オートノミック・コンピューティング・システムでのナレッジは、プロセス、特に自動化が可能なプロセスを実行するために使用される構造化データ又は構造化情報であれば、ほとんどどんなものでも該当しうる。オートノミック・コンピューティング・システムではナレッジに関するスコープが広いため、ナレッジに含まれるものとして、ログ・ファイルに保存されるデータ、管理エンドポイント(タッチポイント)或いはプロセスに関する状態データ、システムに変更を加えられる時期に関するスケジュール・データまである。ナレッジのタイプとして、例えばソリューション・トポロジー・ナレッジ(例えば、インストール可能ユニット記述子(installable unit descriptor)、ポリシー・ナレッジ、問題判別ナレッジ(例えば、監視対象のデータ又はシンプトン)がある。ナレッジの一般的な形式であるPrologプログラムは、ある主題に関する事実とルールの集合である。オートノミック・コンピューティング・システムにおいて、ナレッジは、オートノミック・マネージャーが使用できるように、ある標準の形式で表現されうる。ナレッジの詳細は、Brent A. Miller、The autonomic computing edge: The role of knowledge in autonomic systems、2005年9月13日(上記非特許文献4)を参照されたい。
・シンプトン(symptom)
シンプトンは、ナレッジの形式の1つであり、1つ以上の管理対象リソースに関する、起こりうる問題又は診断状況を示すデータである。シンプトンは、大きくは3つの構成要素、すなわちシンプトン定義、シンプトン・ルール、シンプトン効果を含む。シンプトン定義は、シンプトンの一般情報(メタデータ)を定義する。シンプトン定義は、XPATH表現(J. Clerk and Steve DeRose、XML Path Language(XPath), version 1.0、1996年11月16日、上記非特許文献5)、正規表現、決定木、依存関係グラフ、Prolog述部、ACTパターン、TECルール、又はニューラル・ネットワークを利用して記述しうる。シンプトン・ルールは、所定の問題に関連するイベントの集合を検出するためのルールである。シンプトン・ルールは、XPATH表現(上記非特許文献5)などを利用して、或いはプログラム(例えば、Symptoms Reference Specification version 2.0、IBM、2006年、上記非特許文献6)を利用して記述しうる。シンプトン効果は、問題が起こった際に取るべきアクション、必要に応じて該アクションの詳細な説明などを記述する。シンプトンを使用することによって、トリガーとなるイベントの集合、及びイベントの集合のパターンを検出できる。該パターンの例は、イベントの1対1の突き合わせ、複数のイベント(マルチ・イベント)、イベントの出現回数、イベントの順序(イベント・シークエンス)、イベントのタイムフレーム、イベントが出現しないことを検出、及びそれらの組み合わせである。シンプトンは、MAPEループのモニタリングに内部において識別され及びアナライジングで使用される。オートノミック・マネージャーは、シンプトン・カタログを利用して、モニタリング内部で、イベントとシンプトンの関連付けを行う。シンプトンは、監視機能、例えばオートノミック・マネージャーが、コモン・ベース・イベントなど監視対象のデータを相関させることによって作る。シンプトンは好ましくは、XMLで表現される(例えば、上記非特許文献2、第37頁を参照)。シンプトンの詳細は、下記URLで特定される文書に記載されている。
1.Marcelo Perazolo、Symptoms deep dive, Part 1: The autonomic computing symptoms format−Know thy symptoms, heal thyself、2005年10月18日(上記非特許文献7)
2.Marcelo Perazolo、Symptoms deep dive, Part 2: Cool things you can do with symptoms−Use common scenarios and patterns for increased autonomic computing、2005年12月13日(上記非特許文献8)
3.Marcelo Perazolo、Symptoms deep dive, Part 3: Classify your symptoms−Introducing a standard taxonomy of autonomic computing symptoms to help identify situation categories、2006年3月2日(上記非特許文献9)
イベントとシンプトンとの関係は以下の通りである。イベントは、監視対象リソースの状態の変化(例えば、メモリ使用量が512Mになった)である。シンプトンは、起こりうる問題又は診断状況を示すデータである。よって、イベントx(及びイベントy、(及びイベント...))が一定の条件の下で発生した場合の起こりうる問題又は診断状況は、例えばメモリ不足、又はメモリ使用量が設定したリミットを10分間に3回超えたことである。そして上記その問題又は診断状況の際にとるべきアクションは、例えばバッファーサイズを増やすことである(上記非特許文献10を参照)。イベントとシンプトンとの関係については、Jennifer Bloom、LTA for multievent software problem analysis−Using the Log and Trace Analyzer to help diagnose software problems when they span multiple systems、2007年2月20日(上記非特許文献11)も参照されたい。
・オートノミック
オートノミックとは、問題、セキュリティ脅威、及びシステム障害に対して自律的なことをいう。
・オートノミック・コンピューティング
オートノミック・コンピューティングとは、自らを管理し、ビジネス・ポリシー或いはビジネスの目標に併せて、変化に動的に適応することが可能なコンピューティングをいう。
・オートノミック・コンピューティング・システム
オートノミック・コンピューティング・システムとは、オペレーティング環境を検知し、その環境での動作をモデル化し、その環境又は動作を変更するアクションを行うコンピューティング・システムである。オートノミック・コンピューティング・システムには、自己構成、自己修復、自己最適化、及び自己防御という特徴がある。
・オートノミック・マネージャー
オートノミック・マネージャーとは、オートノミック・コンピューティングにおいて、制御ループを使用して他のソフトウェア及びハードウェアを管理するコンポーネントである。オートノミック・マネージャーの制御ループは、モニタリング、アナライジング、プランニング及びエグゼキューティングの各機能から構成されている。
以下、図面に従って、本発明の実施例を説明する。本実施例は、本発明の好適な態様を説明するためのものであり、本発明の範囲をここで示すものに限定する意図はないことを理解されたい。また、以下の図を通して、特に断らない限り、同一符号は、同一の対象を指す。
図1は、オートノミック・コンピューティングにおける問題判別システムの概念図を示す。
問題判別システムの管理者(101)は、過去の障害事例から、問題が起きた際のエラーメッセージを含むログ・ファイル又はダンプ・ファイルの特徴をナレッジとして抽出し、ナレッジ・データベース(102)に登録する。ナレッジ・データベースは、例えばDB2(商標)を使用して構築することができる。そして、ナレッジからシンプトンが生成される。該シンプトンは、シンプトン・データベース(103)に格納される。シンプトン・データベースは、シンプトン・カタログともいう。一方、ユーザ又はヘルプ・デスク(104)は、ログ・ファイル又はダンプ・ファイル(105)をユーザによって操作されるコンピュータ、例えばクライアント・システムから問題判別システム、例えばサーバ・コンピュータ(100)に送信する。ログ・ファイル又はダンプ・ファイル(105)は、例えばアプリケーション、データベース、アプリケーション・サーバ、サーバ、ストレージ・デバイス、ネットワークのイベントを含む。ログ・ファイル及びダンプ・ファイル(105)の形式は、コンポーネント毎に異なる。そこで、ログ・ファイル又はダンプ・ファイル(105)の形式を統一化するために、サーバ・コンピュータ(100)において、ログ・ファイル又はダンプ・ファイル(105)は、コモン・ベース・イベント(106)(以下、CBE)に変換される。DB2(商標)及びWebSphere(商標)といった主要なIBM製品は、このCBEを直接出力する機能を既に備えている。また、IBMは、既存のログをCBEへ変換するためのツールを無償で提供している。該ツールは、ジェネリック・ログ・アダプター(GLA)と呼ばれる。該ツールは、Eclipseベースの開発ツールである。そして、シンプトン・データベース(103)に蓄積したシンプトンのルールにより上記CBE(106)を解析する。CBEの解析によって、該CBEに含まれるイベントの集合を検出するシンプトンを抽出し(107)、そして該抽出されたシンプトンのシンプトン効果に基づいて障害の内容ないしは解決策を判別する。そして、判別の結果が、ユーザのクライアント・システムに接続された表示装置上に診断結果(108)として提示される。診断結果は、シンプトン・データベース利用による問題解決のヒントを含む。診断結果は、ログ分析ツール、例えばIBM Log Trace Analyzer(LTA)を使用して提示される。このように、あるエラーメッセージとそのメッセージに対する解決方法をシンプトン・データベースとして蓄積することで、同じメッセージが発生した場合に、管理者に対して過去の解決方法をアドバイスすることが可能になる。
図2は、ログ・ファイル(201)をCBE(202)に変換する一例を示す。ログ・ファイル(201)からCBE(202)への変換は、上述したDB2(商標)及びWebSphere(商標)といったソフトウェアが備える直接出力機能又は変換ツールを使用することによって行われうる。図2のログ・ファイル(201)では、メッセージID TCPC0003E、CHFW0029E、及びTCPC001Iで特定されるイベント及びその内容が示されており、CBE(202)への変換によってメッセージID毎に所定の形式に変換されている。
図3は、シンプトン・データベース(302)に格納されたシンプトンによりCBE(301)を解析する(303)一例を示す。CBE(301)は、メッセージIDで特定される複数のイベントを含む。シンプトン・データベース(302)は、複数のシンプトンを有する。シンプトンによりCBE(301)を解析することによって、該CBEに含まれるイベントの集合を検出することが可能なシンプトンを抽出することができる。シンプトンのルールの一例であるIBM相関ルールの場合、7種類のルールがサポートされる。具体的には、IBM相関ルールは、ステートレス・ルールとして、フィルタールール、ステートフル・ルールとして、収集ルール、計算ルール、重複ルール、シークエンスルール、閾値ルール、タイマールールを含む。図3では、CBE(301)は、TCPC0003E、そしてCHFW0029Eの順で特定されるイベントの集合を含む。シンプトン・データベースに含まれる複数のシンプトンでCBEを解析することによって、該CBEを解析することに含まれる上記イベントの集合を検出するシンプトンが抽出される。該シンプトンの抽出によって問題が発見される(304)。そして、該抽出されたシンプトンのシンプトン効果に対応するテクニカル・ノート(メッセージIDに対する補足、アドバイス情報)が提示される(305)。
図4は、シンプトン及び本発明の実施例において使用する標本(specimen)を示す。
図4のシンプトンAは、TCPC0003E、そしてCHFW0029Eの順で特定されるイベントの集合を検出するルールを含む。シンプトンAのルールは例えば、以下の通りに記述できる。下記は、XPath形式のルール記述の例である。
<expression:xpathExpression>/CommonBaseEvent[contains*[msg,'TCPC0003E' and 'CHFW0029E'] or msgData Element/msgId= 'TCPC0003E' and 'CHFW0029E']</expression:xpathExpression>
標本は、あるシンプトンのルールにより検出されるイベントの集合を含む。標本は、イベントを特定するためのメッセージ識別子を含む。さらに、それぞれの標本について、対応するシンプトンのルールがリストに含まれるどのイベントを検出したのかが記録されている(図示せず)。
本発明の実施例では好ましくは、あるシンプトン(図4ではシンプトンA、401)ついて、下記2種類の用途の異なる標本を用意する。
1.第1の標本
第1の標本は、あるシンプトンのルールにより検出されるイベントの集合を含む標本である。好ましくは、第1の標本は、あるシンプトンのルールにより検出されるイベントの集合のみからなる。さらに好ましくは、第1の標本は、あるシンプトンのルールにより検出されるイベントの集合のみからなり且つ該検出されるイベントの順番が同一である。あるシンプトンのルールにより検出されるイベントの集合のみからなり且つ該検出されるイベントの順番が同一であることを、本明細書においてイベントの集合が合致するという。第1の標本は主として、シンプトンの重複定義の発見に使用される。第1の標本は、本明細書においてショート(short)標本ともいう。
2.第2の標本
第2の標本は、上記第1の標本をサブセットとして含む。すなわち、第2の標本は、あるシンプトンのルールにより検出されるイベントの集合と、その前、後又は前後のイベントの集合(すなわち、あるシンプトンの上記ルールにより検出されないイベントの集合)とを含む標本である。第2の標本は主として、シンプトンの精度を検証するために使用され、特に緩いルール、すなわち精度の低いシンプトンの発見に使用される。第2の標本は、本明細書においてロング(long)標本ともいう。
ショート標本であるかロング標本であるかの区別は例えば、標本内にフラグを設定することによって行われる。
標本は、管理者が新規シンプトンをシンプトン・データベースに追加するかどうかを判断するために使用される(図5〜図8を参照)。本発明の実施例では、標本として、新規標本(図5、503)と、標本データベース(図5、510)に格納された標本(以下、既存標本という場合がある)とを用意する。
新規標本は、新規シンプトンをシンプトン・データベース(図5、509)に追加するかどうかを判断するために、新規シンプトンの作成に応じて用意される。新規標本は好ましくは、ショート標本及びロング標本を含む。新規標本は、管理者によって作成される。或いは、新規標本を作成するためのプログラムを用意して、コンピュータ・システムに自動的に作成させてもよい。新規標本は、ログ・ファイル又はダンプ・ファイルを基に、対応する新規シンプトンのルールにより検出されるイベントの集合を含むように作成される。例えば、ショート標本であれば、対応する新規シンプトンに含まれるルールにより検出されるイベントの集合と合致するイベントの集合を含むように作成される。ロング標本であれば、対応する新規シンプトンに含まれるルールにより検出されるイベントの集合と合致するイベントの集合と、その前、後又は前後のイベントの集合とを含むように作成される。新規標本は、管理者によって標本データベース(図5、510)に格納される。
既存標本も、新規シンプトンをシンプトン・データベースに追加するかどうかを判断するために使用される。既存標本は好ましくは、ショート標本及びロング標本を含む。
図4では、TCPC0003E、そしてCHFW0029Eの順で特定されるイベントの集合のみを含むショート標本(403)、及びTCPC0003E、そしてCHFW0029Eの順で特定されるイベントの集合とその前後のイベントの集合とを含むロング標本(402)が示されている。シンプトンAを新たにシンプトン・データベースに追加するかどうかを判断するために、シンプトンAに対応するショート標本(403)及びロング標本(402)が用意される。
図5は、本発明の実施例のコンピュータ・システム(500)の全体図を示す。該コンピュータ・システム(500)は、オートノミック・コンピューティングを実現するサーバ・コンピュータそれ自体又は該サーバ・コンピュータに関連付けられたコンピュータでありうる。
該コンピュータ・システム(500)の管理者(501)が、新規シンプトン(502)を用意する。さらに、管理者(501)は、新規シンプトン(502)に対応する新規標本(503)を用意する。新規標本(503)は好ましくは、新規シンプトン(502)に対応するショート標本及びロング標本を含む。そして、管理者(501)は、新規シンプトン(502)をシンプトン・データベース(509)に追加するかどうかを判断するための作業を行う。
シンプトン重複検証部(504)は、新規シンプトン(502)がシンプトン・データベース(509)に格納されたシンプトンと重複して定義されていないかどうかを検証する。検証の詳細を図6に示す。
シンプトン・ルール検証部(505)は、新規シンプトン(502)のルールの精度を検証する。検証の詳細を図7に示す。さらに、シンプトン・ルール検証部(505)は、シンプトン・データベース(509)に格納されたシンプトン(以下、既存シンプトンという)のルールの精度を検証する。検証の詳細を図8に示す。なお、図5では、シンプトン重複検証部(504)とシンプトン・ルール検証部(505)が個別に記載されているが、シンプトン検証部として1つにまとまっていてもよい。
シンプトン及び標本蓄積部(506)は、新規シンプトン(502)及び新規シンプトン(502)に対応する新規標本(503)を一時的に記憶しておく記憶領域である。該蓄積部は、任意の構成である。
シンプトンによる標本の解析(507)は、シンプトンにより標本を解析することを示し、その詳細を図6〜図8に示す。シンプトンのルールにより検出されるイベントの集合が標本に含まれる場合、該標本はシンプトンによって抽出される。該標本の抽出を、本明細書において「標本がヒット」するいう。
記憶領域(508)は、シンプトン・データベース(509)及び標本データベース(510)を含む。記憶領域(508)は、ハードディスクなどの磁気記録媒体、シリコンディスクなどの半導体ディスクである。シンプトン・データベース(509)及び標本データベース(510)は、同一の記録媒体上に記録されていてもよく、又は異なる記録媒体上に別に若しくは分散して記録されていてもよい。
解析結果提示部(511)は、シンプトンによる標本の解析(507)の結果を管理者(501)のシステムに接続された表示装置上に表示するための情報を作成する。
管理者(501)は、シンプトンによる標本の解析(507)の結果に基づき、新規シンプトン(502)及び該新規シンプトン(502)に対応する新規標本(503)それぞれを、シンプトン・データベース(509)及び標本データベース(510)に格納するかどうかを検討する。或いは、管理者(501)は、新規シンプトン(502)のルールを修正したり(厳しくして精度を高めることを含む)、新規標本(503)の不要なイベントを削除したり、シンプトン・データベース(509)に格納された既存シンプトンのルールを厳しくしたりしうる。
図6は、シンプトンの重複定義の検証を示す。
シンプトンの重複定義の検証は、新規シンプトン(502)により標本データベース(510)に格納されたショート標本(既存標本である)を解析すること、及びシンプトン・データベース(509)に格納されたシンプトンにより新規標本(503)、好ましくは新規ショート標本を解析することによって行う。標本データベース(510)に格納されたショート標本の解析によって、新規シンプトン(502)のルールにより検出されるイベントの集合を含むショート標本がヒットし、及び新規標本(503)の解析によって、該新規標本が既存シンプトンのルールによりヒットし、並びにヒットしたショート標本のイベントの集合と該新規標本のイベントの集合が合致することに応じて、新規シンプトン(502)が、シンプトン・データベース(509)に格納されたシンプトンと重複していることが判る。従って、解析結果提示部(511)は、管理者(501)に対して、新規シンプトン(502)がシンプトン・データベース(509)に格納されたシンプトンと重複していることを提示する。管理者(501)は、該提示から、新規シンプトン(502)をシンプトン・データベース(509)に格納しないことを選択しうる。さらに、管理者(501)は、該新規シンプトン(502)に対応する新規標本(503)を標本データベース(510)に格納しないことを選択しうる。
図7は、新規シンプトンのルールの検証を示す。
新規シンプトンのルールの検証は、新規シンプトン(502)により標本データベース(510)に格納されたロング標本(既存標本である)を解析することによって行う。標本データベース(510)に格納されたロング標本の解析によって、新規シンプトンのルールにより検出されるイベントの集合を含むロング標本がヒットするかどうかが判定される。ロング標本がヒットすることに応じて、解析結果提示部(511)は、ヒットした既存のロング標本、又はどれだけの数のロング標本が新規シンプトン(502)のルールによりヒットしたかを提示する。さらに必要に応じて、解析結果提示部(511)は、既存標本に基づいて、新規シンプトン(502)の精度が低い可能性があることを提示する。管理者(501)は、該提示から、ヒットした既存のロング標本を検討し、シンプトンと関係のないロング標本がヒットしている場合、新規シンプトン(502)のルールを修正して、該ルールの精度を高くしうる。
図8は、既存シンプトンのルールの検証を示す。
既存シンプトンのルールの検証は、シンプトン・データベース(509)に格納されたシンプトン(既存シンプトンである)により、新規標本(503)、好ましくは新規ロング標本を解析することによって行う。新規標本(503)の解析によって、該新規標本が既存シンプトンのルールによりヒットするかどうかが判定される。該新規標本がヒットすることに応じて、解析結果提示部(511)は、該新規標本をヒットするルールを含む既存シンプトンを提示する。さらに、解析結果提示部(511)は、新規標本がどれだけの数の既存シンプトンによりヒットするかを提示する。さらに必要に応じて、解析結果提示部(511)は、新規標本に基づいて、既存シンプトンの精度が低い可能性があることを提示する。管理者(501)は、該提示から、既存シンプトンに記述された問題が起きているかどうかを調査する。実際にその問題が起きている場合に、管理者(501)は、新規標本(503)の不要なイベントの集合を削除し、ヒットしないようにしうる。一方、実際にその問題が起きていない場合に、管理者(501)は、既存シンプトンのルールを修正して、該ルールの精度を高くしうる。
そして、修正された既存シンプトンのルールの検証を行うために好ましくは、引き続き該修正された既存シンプトンにより、新規標本(503)、好ましくは新規ロング標本を解析する。
図9は、シンプトンの重複定義の検証及びシンプトンのルールの検証の流れを示す。図9(A)及び(B)では、シンプトンの重複定義の検証をおこない、引き続きシンプトンのルールの検証をおこなうことを示す。重複定義の検証を最初におこなう理由は、シンプトンの重複定義を排除することの優先度が高いためである。但し、シンプトンの重複定義の検証をシンプトンのルールの検証の後におこなうこと排除するものではない。次に、図9(A)は、シンプトンのルールの検証として、新規シンプトン(502)によるDB内の標本の解析が行われた後に、DB内のシンプトンによる新規標本の解析が行われることを示す。図9(B)は、シンプトンのルールの検証として、DB内のシンプトンによる新規標本の解析が行われ後に、新規シンプトン(502)によるDB内の標本の解析が行われること問題を示す。このようにして、シンプトンの重複定義、及びシンプトンのルールの精度を順次検証することが可能になる。
本発明の実施例で使用するコンピュータ・システムは典型的には、CPU、メインメモリを有し、これらはバスに接続されている。該バスに、ディスプレイ・コントローラを介して、LCDモニターなどの表示装置が接続されている。また、該バスに、IDE又はSATAコントローラを介して、記憶装置、例えばハードディスク、シリコンディスク、CD又はDVDの各種ドライブが接続されている。クライアント・コンピュータ及びサーバ・コンピュータのいずれの場合においても、上記コンピュータ・システムと同様の内部構成を有する。
問題判別システムの概念図を示す。 ログ・ファイルからCBEへの変換を示す。 シンプトンによりCBEを解析する例を示す。 シンプトン及び標本を示す。 本発明の実施例のコンピュータ・システムの全体図を示す。 シンプトンの重複定義の検証を示す。 シンプトンのルールの検証を示す。 シンプトンのルールの検証を示す。 シンプトンの重複定義の検証及びシンプトンのルールの検証の流れを示す。

Claims (23)

  1. 所定の問題に関連するイベントの集合を検出するためのルールを含むシンプトンの検証を可能にするためのコンピュータ・システムであって、
    シンプトンを格納するシンプトン・データベースと、
    あるシンプトンのルールにより検出されるイベントの集合を含む標本を格納する標本データベースと、
    新規シンプトンを前記シンプトン・データベースに追加するかどうかを判断するために、該新規シンプトンにより前記標本データベースに格納された標本を解析する解析部と
    を含む、前記コンピュータ・システム。
  2. 前記標本が、あるシンプトンのルールにより検出されるイベントの集合を含む第1の標本と、前記第1の標本をサブセットとして含む第2の標本とを含む、請求項1に記載のコンピュータ・システム。
  3. 前記第1の標本が、前記あるシンプトンのルールにより検出されるイベントの集合のみからなる、請求項2に記載のコンピュータ・システム。
  4. 前記解析部が、前記新規シンプトンにより前記標本データベースに格納された前記第1の標本を解析し、かつ前記シンプトン・データベースに格納された前記シンプトンにより前記新規シンプトンのルールにより検出されるイベントの集合を含む新規標本を解析する、請求項2に記載のコンピュータ・システム。
  5. 前記第1の標本の解析によって、前記新規シンプトンのルールにより検出されるイベントの集合を含む第1の標本がヒットし、及び前記新規標本の解析によって、該新規標本がヒットし、並びに前記ヒットした前記第1の標本のイベントの集合と前記新規標本のイベントの集合が合致することに応じて、前記新規シンプトンが前記シンプトン・データベースに格納された前記シンプトンと重複していることを提示する、請求項4に記載のコンピュータ・システム。
  6. 前記解析部が、前記新規シンプトンにより前記標本データベースに格納された前記第2の標本を解析することをさらに含む、請求項2に記載のコンピュータ・システム。
  7. 前記第2の標本の解析によって、前記新規シンプトンのルールにより検出されるイベントの集合を含む第2の標本を提示する、請求項6に記載のコンピュータ・システム。
  8. 前記解析部が、前記シンプトン・データベースに格納されたシンプトンにより前記新規標本を解析することをさらに含む、請求項2に記載のコンピュータ・システム。
  9. 前記新規標本の解析によって、前記新規標本をヒットするルールを含むシンプトンを提示する、請求項8に記載のコンピュータ・システム。
  10. 前記イベントがメッセージ識別子によって特定される、請求項1に記載のコンピュータ・システム。
  11. 前記解析の結果を提示する表示装置をさらに含む、請求項1に記載のコンピュータ・システム。
  12. 所定の問題に関連するイベントの集合を検出するためのルールを含むシンプトンの検証を可能にする方法において、コンピュータ・システムに、下記ステップを実行させる方法であって
    シンプトンを格納するシンプトン・データベースを用意するステップと、
    あるシンプトンのルールにより検出されるイベントの集合を含む標本を格納する標本データベースを用意するステップと、
    新規シンプトンを前記シンプトン・データベースに追加するかどうかを判断するために、該新規シンプトンにより前記標本データベースに格納された標本を解析するステップと
    を含む、前記方法。
  13. 前記標本が、あるシンプトンのルールにより検出されるイベントの集合を含む第1の標本と、前記第1の標本をサブセットとして含む第2の標本を含む、請求項12に記載の方法。
  14. 前記第1の標本が、前記あるシンプトンのルールにより検出されるイベントの集合のみからなる、請求項13に記載の方法。
  15. 前記解析するステップが、前記新規シンプトンにより前記標本データベースに格納された前記第1の標本を解析し、かつ前記シンプトン・データベースに格納された前記シンプトンにより前記新規シンプトンのルールにより検出されるイベントの集合を含む新規標本を解析するステップを含む、請求項13に記載の方法。
  16. 前記第1の標本の解析によって、前記新規シンプトンのルールにより検出されるイベントの集合を含む第1の標本がヒットし、及び前記新規標本の解析によって該新規標本がヒットし、並びに前記ヒットした前記第1の標本のイベントの集合と前記ヒットした前記新規標本のイベントの集合が合致することに応じて、前記新規シンプトンが前記シンプトン・データベースに格納された前記シンプトンと重複していることを提示するステップを含む、請求項15に記載の方法。
  17. 前記解析するステップが、前記新規シンプトンにより前記標本データベースに格納された前記第2の標本を解析するステップをさらに含む、請求項13に記載の方法。
  18. 前記第2の標本の解析によって、前記新規シンプトンのルールが前記第2の標本にどれだけヒットするかを提示するステップをさらに含む、請求項17に記載の方法。
  19. 前記解析するステップが、前記シンプトン・データベースに格納されたシンプトンにより前記新規標本を解析するステップをさらに含む、請求項13に記載の方法。
  20. 前記新規標本の解析によって、前記シンプトン・データベースに格納されたシンプトンのルールが前記新規標本にどれだけヒットするかを提示するステップをさらに含む、請求項19に記載の方法。
  21. 前記イベントがメッセージ識別子によって特定される、請求項12に記載の方法。
  22. 前記解析の結果を提示するステップをさらに含む、請求項12に記載の方法。
  23. 所定の問題に関連するイベントの集合を検出するためのルールを含むシンプトンの検証を可能にするコンピュータ・プログラムであって、コンピュータ・システムに、請求項12〜22のいずれか一項に記載のステップを実行させることを含む、前記コンピュータ・プログラム。
JP2007338120A 2007-12-27 2007-12-27 シンプトンの検証を可能にするためのコンピュータ・システム、方法及びコンピュータ・プログラム Active JP5008006B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2007338120A JP5008006B2 (ja) 2007-12-27 2007-12-27 シンプトンの検証を可能にするためのコンピュータ・システム、方法及びコンピュータ・プログラム
US12/323,633 US9471655B2 (en) 2007-12-27 2008-11-26 Enabling symptom verification
US15/269,282 US10592325B2 (en) 2007-12-27 2016-09-19 Enabling symptom verification
US15/366,870 US10467081B2 (en) 2007-12-27 2016-12-01 Enabling symptom verification
US16/511,709 US11061756B2 (en) 2007-12-27 2019-07-15 Enabling symptom verification
US16/750,701 US11263071B2 (en) 2007-12-27 2020-01-23 Enabling symptom verification

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007338120A JP5008006B2 (ja) 2007-12-27 2007-12-27 シンプトンの検証を可能にするためのコンピュータ・システム、方法及びコンピュータ・プログラム

Publications (2)

Publication Number Publication Date
JP2009157830A JP2009157830A (ja) 2009-07-16
JP5008006B2 true JP5008006B2 (ja) 2012-08-22

Family

ID=40799841

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007338120A Active JP5008006B2 (ja) 2007-12-27 2007-12-27 シンプトンの検証を可能にするためのコンピュータ・システム、方法及びコンピュータ・プログラム

Country Status (2)

Country Link
US (5) US9471655B2 (ja)
JP (1) JP5008006B2 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4367962B2 (ja) * 2007-06-19 2009-11-18 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報システムに発生したイベントのパターンを検出する技術
JP4400834B2 (ja) * 2007-06-20 2010-01-20 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報システムに発生したイベントのパターンを検出する技術
JP5008006B2 (ja) 2007-12-27 2012-08-22 インターナショナル・ビジネス・マシーンズ・コーポレーション シンプトンの検証を可能にするためのコンピュータ・システム、方法及びコンピュータ・プログラム
US20090210745A1 (en) * 2008-02-14 2009-08-20 Becker Sherilyn M Runtime Error Correlation Learning and Guided Automatic Recovery
CN102216908B (zh) * 2008-11-27 2015-10-14 国际商业机器公司 支援执行对应于检测事件的动作的系统、方法和装置
US8943364B2 (en) * 2010-04-30 2015-01-27 International Business Machines Corporation Appliance for storing, managing and analyzing problem determination artifacts
WO2013088565A1 (ja) 2011-12-15 2013-06-20 富士通株式会社 検知装置、検知プログラムおよび検知方法
JP6159545B2 (ja) * 2013-03-22 2017-07-05 株式会社日立システムズ 障害メッセージパターン定義支援システム及び障害メッセージパターン定義支援方法
US10169368B2 (en) * 2014-10-02 2019-01-01 International Business Machines Corporation Indexing of linked data
US10769006B2 (en) * 2018-07-31 2020-09-08 Cisco Technology, Inc. Ensemble risk assessment method for networked devices
CN110957031B (zh) * 2019-12-13 2023-09-22 重庆首厚智能科技研究院有限公司 一种疾病预防信息服务平台
US11487650B2 (en) * 2020-05-22 2022-11-01 International Business Machines Corporation Diagnosing anomalies detected by black-box machine learning models

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5528516A (en) 1994-05-25 1996-06-18 System Management Arts, Inc. Apparatus and method for event correlation and problem reporting
US6016546A (en) * 1997-07-10 2000-01-18 International Business Machines Corporation Efficient detection of computer viruses and other data traits
US7137041B2 (en) * 2003-06-20 2006-11-14 International Business Machines Corporation Methods, systems and computer program products for resolving problems in an application program utilizing a situational representation of component status
WO2006095506A1 (ja) * 2005-02-10 2006-09-14 Nec Corporation 情報システム管理装置
US7251584B1 (en) * 2006-03-14 2007-07-31 International Business Machines Corporation Incremental detection and visualization of problem patterns and symptoms based monitored events
US7757120B2 (en) * 2006-06-23 2010-07-13 International Business Machines Corporation Ignoring redundant symptoms in modular self-healing systems
US7793151B2 (en) * 2007-10-25 2010-09-07 International Business Machines Corporation Dynamic partitioning of event patterns for determining symptoms
JP5008006B2 (ja) 2007-12-27 2012-08-22 インターナショナル・ビジネス・マシーンズ・コーポレーション シンプトンの検証を可能にするためのコンピュータ・システム、方法及びコンピュータ・プログラム
US9215076B1 (en) 2012-03-27 2015-12-15 Amazon Technologies, Inc. Key generation for hierarchical data access

Also Published As

Publication number Publication date
US20170364403A1 (en) 2017-12-21
US20200233736A1 (en) 2020-07-23
US11263071B2 (en) 2022-03-01
US9471655B2 (en) 2016-10-18
US10467081B2 (en) 2019-11-05
US20200012550A1 (en) 2020-01-09
JP2009157830A (ja) 2009-07-16
US20170102983A1 (en) 2017-04-13
US20090172034A1 (en) 2009-07-02
US10592325B2 (en) 2020-03-17
US11061756B2 (en) 2021-07-13

Similar Documents

Publication Publication Date Title
JP5008006B2 (ja) シンプトンの検証を可能にするためのコンピュータ・システム、方法及びコンピュータ・プログラム
US9489135B2 (en) Systems and methods for highly scalable system log analysis, deduplication and management
US10592372B2 (en) Confidence-controlled sampling methods and systems to analyze high-frequency monitoring data and event messages of a distributed computing system
EP2240858B1 (en) Method for using dynamically scheduled synthetic transactions to monitor performance and availability of e-business systems
US20100319060A1 (en) Process and system for comprehensive it discovery without credentials
US8954311B2 (en) Arrangements for extending configuration management in large IT environments to track changes proactively
US11675682B2 (en) Agent profiler to monitor activities and performance of software agents
US20130346917A1 (en) Client application analytics
US20190236282A1 (en) Application component auditor
US20120222009A1 (en) Defective code warning resolution analysis
EP3200080B1 (en) Methods and systems for memory suspect detection
US9021484B2 (en) Migrated application performance comparisons using log mapping
JP6238221B2 (ja) ソフトウェアの実行を監視する装置、方法およびプログラム
US8850407B2 (en) Test script generation
JP5240709B2 (ja) シンプトンを評価するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
US20230421588A1 (en) Data inspection system and method
US20180287914A1 (en) System and method for management of services in a cloud environment
US20230259657A1 (en) Data inspection system and method
US9141460B2 (en) Identify failed components during data collection
EP3382555A1 (en) System and method for management of services in a cloud environment
Sbaraglia Automated detection of application performance bottlenecks

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100813

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120502

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120511

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20120514

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20120514

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120522

R150 Certificate of patent or registration of utility model

Ref document number: 5008006

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150608

Year of fee payment: 3