JP2006526842A - 兆候除外付きコードブック相関を使用するシステム管理のための方法および装置 - Google Patents

兆候除外付きコードブック相関を使用するシステム管理のための方法および装置 Download PDF

Info

Publication number
JP2006526842A
JP2006526842A JP2006509548A JP2006509548A JP2006526842A JP 2006526842 A JP2006526842 A JP 2006526842A JP 2006509548 A JP2006509548 A JP 2006509548A JP 2006509548 A JP2006509548 A JP 2006509548A JP 2006526842 A JP2006526842 A JP 2006526842A
Authority
JP
Japan
Prior art keywords
events
mapping
groups
indications
observable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006509548A
Other languages
English (en)
Inventor
オーシエ,デイビッド
デシモン,サルバトーレ
フェレイラ,ネルソン
ヤーデニ,エーヤル
Original Assignee
システム マネージメント アーツ,インク.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by システム マネージメント アーツ,インク. filed Critical システム マネージメント アーツ,インク.
Publication of JP2006526842A publication Critical patent/JP2006526842A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S40/00Systems for electrical power generation, transmission, distribution or end-user application management characterised by the use of communication or information technologies, or communication or information technology specific aspects supporting them

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

システム内のイベントを相関させるための方法と装置とが提供される。問題と他のイベントは例えば、兆候または観測し得るイベントを生成するシステム内で検出され得る。システム内の複数のグループの可能な兆候の各々と複数のありそうな例外的イベント(例えば問題)の一つとの間のマッピングを含むコンピュータアクセス可能なコードブックが提供される。システムは監視され、このシステムによって生成された一つ以上の既知の兆候が検出される。既知であると決定されなかった可能な兆候の複数のグループ内の兆候を無視しながら、コンピュータを使用してマッピング内の複数のグループの可能な兆候の各々と一つ以上の既知の兆候との間の不整合量が決定される。最小の不整合量を有する複数のグループの一つに対応する複数のありそうな問題の一つ以上が選択される。

Description

(関連出願)
本発明は、引例によってその全体がここに組み込まれている、2003年3月31日に出願された、特許文献1に基づいており、この出願からの優先権を主張する。
本出願は、一般的には例えば問題といったイベントを兆候といった観測し得るイベントに関連付けるためにコードブック相関手法を使用する複合システムにおけるイベント相関に関し、また特に一部の観測し得るイベントが不確定であるか、そうでなければ未知であるときにコードブック相関を使用して根本問題または他のイベントを決定することに関する。
コードブック相関は、システム内の問題または他のイベントの根本原因を識別するために使用される手法である。コードブック相関手法の例は、すべてがイェキアム・イェミニらに発行された特許文献2、特許文献3、特許文献4(ここでは「イェミニら特許」と呼ばれる)に記載されており、これらは引例によってここにその全体が組み込まれている。
コードブック相関は、イベントを生成する実質的に如何なるシステムにも適用可能である。このようなシステムは、企業管理システム、エンジニアリングシステム、通信システム、ネットワーク化情報技術(IT)システム、分散システム、アプリケーションサービス、アプリケーションサーバ、ユーティリティコンピューティングシステム、自動制御システム、グリッドコンピューティングシステム、衛星、業務処理システム、ユーティリティシステム、電力グリッド、生物学的システム、医療システム、気象システム、金融マーケットシステム、武器システム、宇宙船といった複雑な運搬手段、医療診断、および金融マーケット分析を含み得るが、これらに限定されない。
簡潔に言えばコードブック相関は、マッピングといった、例えば所定の列に表された特定のイベントを所定の行に表された他のイベントと関連付けるテーブルまたはグラフといったデータ構造を使用してイベントを関連付ける。決定論的または確率論的手法が使用できる。もし決定論的手法を使用するのであれば、各行と列との交差部は、例えばイベントが他のイベントを引き起こすならば「1」、そうでなければ「0」と示すことができる。代替としてもし確率論的手法を使用するのであれば、各行「E2」と列「E1」の交差部は、E1がE2を引き起こす確率がpであるとして、「p」と示すことができる。
一アプリケーションではコードブック相関は、問題または他の例外的なイベントといった特定のイベントを兆候といった観測し得るイベントに関連付けるために使用できる。更にまた例外的な、またはそうでない如何なるイベントも兆候に関連付けることができる。この場合、コードブックテーブルは、兆候に対応する各行「S」と、問題に対応する各列「P」とを持つことができる。決定論的手法を使用すると、各行と列の交差部は、例えば、もし問題が兆候を引き起こすならば「1」、そうでなければ「0」と示すことができる。代替として確率は、PがSを引き起こす確率がpであるとして、各行Sと列Pとの交差部は「p」と示すことができる。
こうして創作された各列は、問題の「署名」を指定する、すなわちこれは、問題が引き起こす1セットの兆候を識別する。動作システムの兆候の観測者は、それぞれの問題を迅速に識別するためにコードブックの列を使用できる。これらの相関手法の幾つかの拡張版と変形版は、イェミニら特許に記載されており、引例によってここに組み入れられている。
ある幾つかの場合には、観測された兆候は、コードブックの問題(または他のイベント)の署名のいずれとも正確には一致しない。このような場合、十分に近い一致を見出すために、観測された兆候と問題署名との間の距離が決定され得る。この距離を決定する幾つかの可能な方法が存在する。決定論的コードブック(各列に「1」と「0」を有する)の場合の一つの方法は、署名と観測された兆候との間の不整合の数をカウントすることである。不整合のこの数は、観測された兆候と署名との間のいわゆるハミング距離を定義する。コードブックの列が確率を有する場合は、観測された兆候に最も近い兆候を生成する問題の最もありそうな組合せを見出すことを含む。例えばこの場合に、観測された兆候と署名との間の距離の特定の定義が使用できる。デービッド・アラン・オーシーの非特許文献1(以後、「オーシー論文」)は、例えばセクション5.2で、このような距離の定義と、この定義された距離にしたがって、観測された兆候と署名がどれほど近いかを見出すことができる幾つかのアルゴリズム(その一部は経験則を使用している)とを与えている。
システムによって生成される兆候は通常、ここでは一般に計測手段と呼ばれるサブシステムによって検出される。このような計測手段は、イベントを検出して管理システムに中継するが、また例えばこのシステムの要素と関連するハードウエアコンポーネントと(エージェントといった)ソフトウエアコンポーネントとを含むことができる。
米国仮特許出願通番第60/459,072号「兆候除外付きコードブック相関を使用するシステム管理」 米国特許第5,528,516号 米国特許第5,661,668号 米国特許第6,249,755号 「イベント管理と相関とに関するモデル化された仮説的推論」(1998年)博士論文、コロンビア大学
兆候を検出するために計測手段によって使用される方式は時には、システム内の可能なイベントをすべてはポーリングしないかもしれない。この場合、兆候が発生したかどうか、または計測手段が兆候の検出に失敗したかどうかを知る簡単な方法は存在しない。したがってこの兆候は、「未知の」状態にあると言うことができ、すなわち兆候が発生したか否かは評価できない。これは、根本原因問題の誤った診断に導く可能性がある。「未知の」状態にない兆候は、「既知の」状態にあると言われる。
システム内のイベントを相関させるための方法と装置とが提供される。本発明の一つ以上の実施形態によれば、兆候または観測し得るイベントを生成するシステムにおいて、問題と他の例外的なイベントとが検出され得る。システム内の複数のグループの可能なイベント(例えば兆候)の各々と例外的イベント(例えば問題)を含むがこれらに限定されない複数のありそうな他のイベントの一つとの間のマッピングを含むコンピュータアクセス可能なコードブックが提供される。本システムは監視されており、本システムによって生成された一つ以上の既知の兆候は検出される。既知であると決定されなかった可能な兆候の複数のグループ内の兆候を無視しながら、コンピュータを使用してマッピング内の複数のグループの可能な兆候の各々と上記の一つ以上の既知の兆候との間の不整合量が決定される。最小の不整合量を有する複数のグループの一つに対応する複数のありそうな問題の一つ以上が選択される。
これらおよび他の特徴は、本発明の実施形態が実例として図示され説明される下記の詳細な説明から直ちに明らかになるであろう。理解されるように本発明は、すべて本発明から逸脱することなく、他のそして異なる実施形態も可能であり、その幾つかの細部は種々の態様において修正版を可能にしている。したがって図面と説明は、請求項に示されている出願の範囲にとって、制限的または限定的意味でなく、まったく例示的なものと考えるべきである。
本出願は概ね、未知の観測し得るイベントまたは兆候が存在するときでもシステム内のイベント(例えば問題といった)を識別するための正確な相関を可能にするコードブック相関を志向している。
イベントは、計測手段またはネットワークにおける紛失または誤動作に起因して失われることがある。失われたイベントのこのケースは、未知のイベントのケースとは区別され得る。イベントは、計測手段自体の障害よりもむしろ例えばイベントを検出すべき所定の期間に計測手段が動作していない可能性があるという理由から未知である可能性がある。例えば以下に説明されるように、ネットワーク例において計測手段は、成功したか失敗したかを決定され得る、クライアントからサーバへの問合せであるかもしれない。イベントはこの場合、クライアントが所定の期間中に如何なる問合せもしていないかもしれないので紛失している可能性がある。イェミニら特許は、失われたイベントを取り扱うプロセスを説明している。本発明の種々の実施形態は、紛失したイベントと未知のイベントの両者を取り扱うことができる。
ここに説明される種々の実施形態は、主として二つのタイプのイベント、すなわち、(1)観測し得るイベント、特に兆候と、(2)例外的なイベント、特に問題とに言及している。しかしながら本発明の実施形態が兆候と問題とに限定されない種々のタイプのイベントに適用可能であることは理解されるべきである。例えば例外的イベントは、システムの正常な動作を含む幅広い種々のイベントを含むことができる。
イェミニら特許に記述されているオリジナルのコードブック方式に戻って参照すると、各未知の兆候の存在は典型的には、問題署名と観測された兆候との間のハミング距離を増加させるであろう。この結果は、問題の不正確な診断になる可能性がある。例えば図1は、ウェブサーバに接続された数者のクライアントを有する例示的ウェブベースのアプリケーションの図形的表現を示す。これらのクライアントは、ウェブサーバへの問合せの試みが不成功であったときにシステム内に問題を検出する可能性がある。したがって各クライアント問合せは、兆候「クライアント問合せ失敗」を検出するための計測手段を兼ねている。
図2は、イェミニら特許に記載されたコードブック手法が図1のシステムに関する問題と兆候とを表すことができる可能な方法を示す。図2のテーブルの各行は、観測し得る兆候を識別するのに対して、各列は可能な根本問題を識別する。例えば「クライアント1問合せ失敗」兆候は、「ウェブアプリケーション・ダウン」問題または「クライアント1接続ダウン」問題に起因する可能性がある。これに対して問題「ウェブアプリケーション・ダウン」は、署名(1,1,1,1,1,1)を有する、すなわちこれは観測された兆候すべてが発生する(クライアント1〜6すべてからの問合せが失敗する)ときに診断される。
ウェブサーバがクラッシュしてウェブアプリケーションをダウンさせる状況を考える。クライアント1、2だけがウェブサーバにアクセスしていたと仮定する。このシステムによって見られる兆候は、図3に描かれている。図2のコードブックを使用すると、兆候のうちの4個は見失われているので、観測された兆候と問題の署名との間の距離は4である。一方では、署名と、クライアント1とウェブサーバ間の接続障害およびクライアント2とウェブサーバ間の接続障害という両障害の組み合わされた問題と、の間の距離は、単にゼロである。したがってこのシステムは、根本原因問題をクライアント1とウェブサーバ間の接続とクライアント2とウェブサーバ間の接続との両接続の障害として誤って診断するであろう。
この診断の誤りは、単にクライアントがウェブサーバにアクセスしていなかったので兆候の一部が現れなかったという理由で発生した。すなわちこの場合のコードブック相関方式は、計測手段が正確である、すなわちクライアントが絶えずサーバにアクセスしているという仮定に依存していた。この仮定は成り立たなかったので、このコードブック相関方式は、クライアント接続が実際には未知の状態にあったときにクライアント接続が機能していると誤って結論付けた。実際のところ、クライアント3〜6とウェブサーバとの間の接続は、サーバがダウンしていたので機能できなかったはずである。
本発明の一つ以上の実施形態による手法は、兆候の一部が未知であるときでも、根本問題を正しく識別できる。
本発明の一つ以上の実施形態によるコードブック相関の方法は概ね、図4を参照して説明される。分析されるシステムのモデルと、これに対応するコードブックとが与えられている。
ステップ100で、システムは兆候に関して監視され、一つ以上の兆候が検出され、例えば兆候が監視されつつあることを示すイベントが検出される。これらの兆候は検出され、したがって既知の兆候として示される。不確定、すなわち未知である兆候は、無視される。例えば図3のウェブサーバ/クライアントの例では、クライアント3〜6に関する兆候は、クライアント3〜6がウェブサーバにアクセスしていないので検出されないであろうが、またしたがってクライアント3〜6とウェブサーバとの間の通信の存在を示す兆候は、未知として示される。
ステップ110で既知の兆候は、未知の兆候に関連するコードブックへのエントリを無視しながらコードブックに適用される。未知の兆候は問題署名から除外されるので、本方法は、問題をより正確に診断するであろう。
本発明の一つ以上の更なる実施形態によるコードブック相関の代替方法は概ね、図5を参照して説明される。分析されるシステムのモデルと、これに対応するコードブックとが与えられている。システムコードブックモデル内のすべての兆候は、関連する状態属性を持っている。
ステップ200で、すべての状態属性に、すなわちある兆候に関連する状態に未知という初期値を割り当てる。
ステップ210で、その状態属性の値が未知であるときに、兆候に関する紛失確率を高い値に、すなわち100%に近いか等しい値にセットする。
ステップ220で、システムは兆候に関して監視され、一つ以上の兆候が検出され、例えば兆候が監視されつつあることを示すイベントが検出される。これらの兆候は検出され、したがって既知の兆候として示される。
ステップ230で、いったん兆候が監視されつつあることを示すイベントが検出されて属性が未知以外の値にセットされると、システムに関する紛失確率は低減される。紛失確率は、低い値に、例えば0%近くに、または0%に低減され得る。
ステップ240で、兆候は、これらそれぞれの紛失確率を考慮してコードブックに適用される。これは例えば次のように実行できる。前述のステップにしたがって兆候Sに関してセットされた紛失確率がxであるとしよう。問題Pを、確率pを有する兆候Sに関連付けるコードブック内の各セルに関して、セルにおける新しい確率はp×(1−x)になるであろう。未知の兆候が紛失確率x=1を有する場合、セルは0を有するであろうことに留意すること。コードブック相関手法が確率論的コードブックによって機能できる幾つかの方法は、オーシー論文第5章の特にセクション5.2から始まる箇所に記載されている。未知の兆候は一般に問題署名から除外されるので、本方法は問題をより正確に診断するであろう。
兆候Sを生成する問題Pの確率pは、観測されるまたはされないSの紛失確率を考慮して生成されている可能性があることに留意すること。これは、偽(spurious)兆候であるSの確率を考慮することもあり得る。オーシー論文は、特に第5章でこれらの確率がコードブック・セルにおける最終的確率を定義するために、どのように考慮され得るかを説明している。
本発明の一つ以上の更なる実施形態によれば、コードブックは、イベント活動に基づいて「自動チューニング」であり得る。クライアント3〜6に関して図3のクライアント−ウェブサーバ問合せといったイベントが発生しないと、これらの対応する兆候は、影響を受けた問題署名から除外される。しかしながらもしイベントが後で発生するならば、これらの対応する兆候は問題署名に復元され得る。
本発明の一つ以上の更なる実施形態によれば、兆候が各々ある確率を有する既知の関連状態を有する時間ウィンドウが指定できる。周期的にこのウィンドウの終わりで、すべての確率はそれらの不確定性を増加させることによって調整され得る、すなわちすべての兆候に関する紛失確率は、高い値に、たとえば100%に近い、または等しい値に上げられ得る。このプロセスは、兆候の検出時の如何なる誤りに関しても調整するために使用できる。
例えば図3の例において、システムにおける誤りは、観測された兆候という結果をもたらし得る、クライアント4とウェブサーバとの間の偽問合せを創生する可能性がある。時間ウィンドウ実施形態は最終的に、観測された兆候を知る確率を減らすことによってこのような偽イベントの重要性を低下させるであろう。
下記は、本発明の一つ以上の実施形態によるコードブック相関のアプリケーションの非限定的例である。
(ウェブアプリケーション障害)
図3を参照すると、クライアント3〜6から来る未知の兆候は、図2のコードブック署名から除去または無視されるであろう。この場合、根本原因は観測された兆候と調整されたコードブック内の署名との間の距離が0であるので、ウェブアプリケーション障害として正しく検出される。観測された署名とその他の候補問題に関する調整されたコードブック内の署名との間の距離は少なくとも1であることに留意すること。
(クライアント−サーバ接続障害)
図6の例は、図3の例に類似の、ウェブサーバにアクセスするクライアントを示す。しかしながら図6の例では、クライアント1、2に関する二つのトランザクションは不応答であるのに対して、この他のクライアント3〜6は正しい応答を与えている。
この場合には未知の状態は存在しないので、ウェブサーバ・ダウンに関する問題署名は、利用可能な兆候と一致しないであろう。システムは、根本問題をクライアント1、2との接続がダウンしていると正しく識別するであろう。
上述の例とアプリケーションは一般にネットワークに関係しているが、本発明の種々の実施形態は、企業管理システム、エンジニアリングシステム、通信システム、ネットワーク化情報技術(IT)システム、分散システム、アプリケーションサービス、アプリケーションサーバ、ユーティリティコンピューティングシステム、自動制御システム、グリッドコンピューティングシステム、衛星、業務処理システム、ユーティリティシステム、電力グリッド、生物学的システム、医療システム、気象システム、金融マーケットシステム、武器システム、宇宙船といった複雑な運搬手段、医療診断、金融マーケット分析を含むが、これらに限定されない幅広い種々のシステムに広く適用可能である。
ここに説明されたこれらのコードブック相関方法は好適には、一つ以上の汎用または他のコンピュータに実現される。代表的なコンピュータは、例えばIntel Pentium(登録商標)、PowerPC(登録商標)、またはRISCベースのものであり、またWindows(登録商標)、OS/2(登録商標)、Unix(登録商標)などといったオペレーティングシステムを含むパソコンまたはワークステーション・プラットフォームである。良く知られているように、このようなマシンは、表示インタフェース(グラフィカルユーザインタフェースまたは「GUI」)と、これに関連する入力装置(例えばキーボードまたはマウス)を含む。
本コードブック相関方法は好適には、ソフトウエアに実現され、したがって本発明の好適な実施形態の一つは、コンピュータのランダムアクセスメモリに常駐するコードモジュール内の1セットの命令(プログラムコード)として実現される。コンピュータによって要求されるまでこの1セットの命令は、もう一つのコンピュータメモリ内に、例えばハードディスク装置に、または光ディスク(CD−ROMでの最終的な使用のための)またはフロッピー(登録商標)ディスク(フロッピー(登録商標)ディスク装置での最終的使用のための)といった取外し可能メモリに記憶され、またはインターネットまたは何か他のコンピュータネットワークを介してダウンロードされ得る。更に、説明された種々の方法は好都合にも、ソフトウエアによって選択的に起動または再構成される汎用コンピュータに実現されるが、当業者は、このような方法が指定された方法ステップを実行するように構成されたハードウエアに、またはファームウエアに、または更に専用の装置において実施され得ることも認めるであろう。
本発明の好適な実施形態を説明してきたが、本発明の精神と範囲とから逸脱せずに修正がなされ得ることは明らかである。
付属の方法請求項における如何なる番号付きステップも、請求されているステップが実行される特定の順序を限定するものと考えるべきではない。
ウェブサーバに接続された複数のクライアントを有する例示的ウェブベースのアプリケーションの図形的説明図である。 図1に示すシステムに関する問題と兆候との可能なマッピングを示すコードブックの例示的テーブルである。 ウェブサーバ障害に関する図1のウェブアプリケーション例における可能な兆候の図形的説明図である。 本発明の一つ以上の実施形態によるコードブック相関のための方法を示す流れ図である。 本発明の一つ以上の更なる実施形態によるコードブック相関のための方法を示す流れ図である。 クライアント−サーバ接続障害に関する図1のウェブアプリケーション例における可能な兆候の図形的説明図である。

Claims (21)

  1. (a)システム内の複数のグループの可能な(possible)観測し得るイベントの各々と複数のありそうな(likely)対応するイベントの一つとの間のマッピング(mapping)を与えるステップと、
    (b)前記観測し得るイベントを監視して、前記システムによって生成された一つ以上の既知の観測し得るイベントを検出するステップと、
    (c)既知であると決定されなかった可能な観測し得るイベントの前記複数のグループのうちの観測し得るイベントを無視しながら、コンピュータを使用して前記マッピングにおける前記複数のグループの可能な観測し得るイベントの各々と前記一つ以上の既知の観測し得るイベントとの間の不整合量を決定するステップと、
    (d)最小の不整合量を有する前記複数のグループの一つに対応する前記複数のありそうなイベントの一つ以上を選択するステップと、を含むことを特徴とする、システム内のイベントを検出するための方法。
  2. 前記ありそうな対応するイベントは問題を含むことを特徴とする、請求項1に記載の方法。
  3. 前記コンピュータアクセス可能なマッピングはコードブックを含むことを特徴とする、請求項1に記載の方法。
  4. 前記マッピングは決定論的であることを特徴とする、請求項1に記載の方法。
  5. 前記マッピングは確率論的であることを特徴とする、請求項1に記載の方法。
  6. 前記不整合量はハミング距離を含むことを特徴とする、請求項1に記載の方法。
  7. 前記マッピングはコンピュータアクセス可能であることを特徴とする、請求項1に記載の方法。
  8. (a)システム内の複数のグループの可能な兆候の各々と複数のありそうなイベントの一つとの間のマッピングを与えるステップと、
    (b)前記マッピング内の前記可能な兆候のすべてに未知という値を割り当てるステップと、
    (c)前記兆候を監視して、前記システムによって生成された一つ以上の既知の兆候を検出するステップと、
    (d)前記一つ以上の既知の兆候に対応する前記マッピング内の前記可能な兆候に既知という値を割り当てるステップと、
    (e)未知という値を有する可能な兆候の前記複数のグループ内の兆候を無視しながら、コンピュータを使用して前記マッピング内の既知という値を有する前記複数のグループの可能な兆候の各々と前記一つ以上の既知の兆候との間の不整合量を決定するステップと、
    (f)最小の不整合量を有する前記複数のグループの一つに対応する前記複数のありそうなイベントの一つ以上を選択するステップと、を含むことを特徴とする、システム内のイベントを検出するための方法。
  9. ステップ(c)〜(f)を周期的に繰り返すステップを更に含むことを特徴とする、請求項8に記載の方法。
  10. ステップ(b)〜(f)を周期的に繰り返すステップを更に含むことを特徴とする、請求項8に記載の方法。
  11. ステップ(b)は、前記兆候に高い紛失確率値を割り当てるステップを含むことを特徴とする、請求項8に記載の方法。
  12. ステップ(d)は、前記兆候に低い紛失確率値を割り当てるステップを含むことを特徴とする、請求項8に記載の方法。
  13. 前記ありそうなイベントは問題を含むことを特徴とする、請求項8に記載の方法。
  14. 前記コンピュータアクセス可能なマッピングはコードブックを含むことを特徴とする、請求項8に記載の方法。
  15. 前記マッピングは決定論的であることを特徴とする、請求項8に記載の方法。
  16. 前記マッピングは確率論的であることを特徴とする、請求項8に記載の方法。
  17. 前記不整合量はハミング距離を含むことを特徴とする、請求項8に記載の方法。
  18. 前記マッピングはコンピュータアクセス可能であることを特徴とする、請求項8に記載の方法。
  19. (a)各々の値がシステム内の複数の可能な既知および未知の兆候の一つと複数のありそうなイベントの一つとの間のマッピングに対応する値のマトリックスを含むコンピュータアクセス可能なコードブックを備えるステップと、
    (b)ほぼ100%の紛失確率を前記コードブック内のすべての未知の兆候に関連付けるステップと、
    (c)前記システムによって生成された複数の既知の兆候を表す複数の兆候データ値を時間に亘って監視するステップと、
    (d)受信されたコードブック内の兆候に関する前記紛失確率を低下させるステップと、
    (e)コンピュータの使用を介して、前記コードブック内の複数のグループの前記値の各々と前記複数の既知の兆候データ値との間の不整合量であって兆候の紛失確率を考慮した不整合量を決定するステップと、
    (f)最小の不整合量を有する前記複数のグループの一つに対応する前記複数のありそうなイベントの一つを選択するステップと、を含むことを特徴とする、複数の兆候を生成するシステム内の問題を検出するための方法。
  20. システム内の複数のグループの可能な観測し得るイベントの各々と複数のありそうな対応するイベントの一つとの間のコンピュータアクセス可能なマッピングを記憶するための記憶装置と、
    前記観測し得るイベントを監視して、前記システムによって生成された一つ以上の既知の観測し得るイベントを検出するための手段と、
    既知であると決定されなかった可能な観測し得るイベントの前記複数のグループ内の観測し得るイベントを無視しながら、コンピュータを使用して前記マッピングにおける前記複数のグループの可能な観測し得るイベントの各々と前記一つ以上の既知の観測し得るイベントとの間の不整合量を決定するための手段と、
    最小の不整合量を有する前記複数のグループの一つに対応する前記複数のありそうなイベントの一つ以上を選択するための手段と、を含むことを特徴とする、システム内のイベントを検出するための装置。
  21. システム内の複数のグループの可能な観測し得るイベントの各々と複数のありそうな対応するイベントの一つとの間のコンピュータアクセス可能なマッピングを使用してシステム内のイベントを検出するための、コンピュータ可読媒体内のコンピュータプログラム製品であって、前記コンピュータプログラム製品は、
    前記観測し得るイベントを監視して、前記システムによって生成された一つ以上の既知の観測し得るイベントを検出することと、
    既知であると決定されなかった可能な観測し得るイベントの前記複数のグループ内の観測し得るイベントを無視しながら、コンピュータを使用して前記マッピングにおける前記複数のグループの可能な観測し得るイベントの各々と前記一つ以上の既知の観測し得るイベントとの間の不整合量を決定することと、
    最小の不整合量を有する前記複数のグループの一つに対応する前記複数のありそうなイベントの一つ以上を選択することと、をコンピュータにさせるための命令を含むことを特徴とするコンピュータプログラム製品。
JP2006509548A 2003-03-31 2004-03-31 兆候除外付きコードブック相関を使用するシステム管理のための方法および装置 Withdrawn JP2006526842A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US45907203P 2003-03-31 2003-03-31
PCT/US2004/009946 WO2004090691A2 (en) 2003-03-31 2004-03-31 Method and apparatus for system management using codebook correlation with symptom exclusion

Publications (1)

Publication Number Publication Date
JP2006526842A true JP2006526842A (ja) 2006-11-24

Family

ID=33159615

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006509548A Withdrawn JP2006526842A (ja) 2003-03-31 2004-03-31 兆候除外付きコードブック相関を使用するシステム管理のための方法および装置

Country Status (5)

Country Link
US (2) US6965845B2 (ja)
EP (1) EP1611414A4 (ja)
JP (1) JP2006526842A (ja)
CA (1) CA2520962A1 (ja)
WO (1) WO2004090691A2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009169609A (ja) * 2008-01-15 2009-07-30 Fujitsu Ltd 障害管理プログラム、障害管理装置および障害管理方法
WO2011007394A1 (ja) 2009-07-16 2011-01-20 株式会社日立製作所 障害の根本原因に対応した復旧方法を表す情報を出力する管理システム

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7860016B1 (en) * 2004-08-25 2010-12-28 Emc Corporation Method and apparatus for configuration and analysis of network routing protocols
US8868555B2 (en) * 2006-07-31 2014-10-21 Ricoh Co., Ltd. Computation of a recongnizability score (quality predictor) for image retrieval
DE102005019335A1 (de) * 2005-04-26 2006-11-02 Volkswagen Ag Verfahren und Vorrichtung zum Auswerten von Ereignissen aus dem Betrieb zumindest eines Fahrzeuges
DE102005019518A1 (de) * 2005-04-27 2006-11-02 Volkswagen Ag Verfahren und Anordnung zum Auswerten von Ereignissen, insbesondere aus dem Betrieb eines Straßen-Kraftfahrzeuges
US20080071714A1 (en) * 2006-08-21 2008-03-20 Motorola, Inc. Method and apparatus for controlling autonomic computing system processes using knowledge-based reasoning mechanisms
US7382244B1 (en) 2007-10-04 2008-06-03 Kd Secure Video surveillance, storage, and alerting system having network management, hierarchical data storage, video tip processing, and vehicle plate analysis
US8013738B2 (en) 2007-10-04 2011-09-06 Kd Secure, Llc Hierarchical storage manager (HSM) for intelligent storage of large volumes of data
US8074103B2 (en) * 2007-10-19 2011-12-06 Oracle International Corporation Data corruption diagnostic engine
US10229026B1 (en) * 2007-11-17 2019-03-12 EMC IP Holding Company LLC Method and apparatus for providing environmental management in distributed system data centers
US7813298B2 (en) * 2008-01-31 2010-10-12 Telefonaktiebolaget Lm Ericsson Root cause problem detection in network traffic information
US8527811B2 (en) 2010-09-13 2013-09-03 International Business Machines Corporation Problem record signature generation, classification and search in problem determination
US8812542B1 (en) 2012-03-30 2014-08-19 Emc Corporation On-the-fly determining of alert relationships in a distributed system
US8856257B1 (en) 2012-06-29 2014-10-07 Emc Corporation Sending alerts from cloud computing systems
US8832498B1 (en) 2012-07-30 2014-09-09 Emc Corporation Scalable codebook correlation for cloud scale topology
US9736046B1 (en) 2013-05-30 2017-08-15 EMC IP Holding Company LLC Path analytics using codebook correlation
CN103440174B (zh) * 2013-08-02 2016-05-25 杭州华为数字技术有限公司 一种错误信息处理方法、装置及应用该装置的电子设备
US9122605B2 (en) * 2013-09-23 2015-09-01 Honeywell International Inc. Methods for determining multiple simultaneous fault conditions
US9811588B1 (en) 2015-03-31 2017-11-07 EMC IP Holding Company LLC Methods and apparatus for generating causality matrix and impacts using graph processing
US10176071B1 (en) 2015-03-31 2019-01-08 EMC IP Holding Company LLC Methods and apparatus for systems determining a probable set of problems to explain symptoms
US9934326B1 (en) 2015-03-31 2018-04-03 EMC IP Holding Company LLC Methods and apparatus for systems providing distributed expression evaluation over streams
US10503413B1 (en) 2016-06-01 2019-12-10 EMC IP Holding Company LLC Methods and apparatus for SAN having local server storage including SSD block-based storage
US11892900B2 (en) * 2019-07-23 2024-02-06 VMware LLC Root cause analysis of non-deterministic performance anomalies
US11347576B2 (en) 2019-07-23 2022-05-31 Vmware, Inc. Root cause analysis of non-deterministic performance anomalies
US11621881B2 (en) * 2020-02-10 2023-04-04 International Business Machines Corporation Error detection and broadcasting using partner sensors

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5528516A (en) * 1994-05-25 1996-06-18 System Management Arts, Inc. Apparatus and method for event correlation and problem reporting
US6006016A (en) * 1994-11-10 1999-12-21 Bay Networks, Inc. Network fault correlation
US5845272A (en) * 1996-11-29 1998-12-01 General Electric Company System and method for isolating failures in a locomotive

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009169609A (ja) * 2008-01-15 2009-07-30 Fujitsu Ltd 障害管理プログラム、障害管理装置および障害管理方法
WO2011007394A1 (ja) 2009-07-16 2011-01-20 株式会社日立製作所 障害の根本原因に対応した復旧方法を表す情報を出力する管理システム
US8429453B2 (en) 2009-07-16 2013-04-23 Hitachi, Ltd. Management system for outputting information denoting recovery method corresponding to root cause of failure
US9189319B2 (en) 2009-07-16 2015-11-17 Hitachi, Ltd. Management system for outputting information denoting recovery method corresponding to root cause of failure

Also Published As

Publication number Publication date
EP1611414A2 (en) 2006-01-04
WO2004090691A2 (en) 2004-10-21
WO2004090691A3 (en) 2005-11-10
US6965845B2 (en) 2005-11-15
US7065467B1 (en) 2006-06-20
US20040249610A1 (en) 2004-12-09
CA2520962A1 (en) 2004-10-21
EP1611414A4 (en) 2010-01-13

Similar Documents

Publication Publication Date Title
US7065467B1 (en) Method and apparatus for system management using codebook correlation with symptom exclusion
US7664986B2 (en) System and method for determining fault isolation in an enterprise computing system
US8271417B2 (en) Health meter
US7475387B2 (en) Problem determination using system run-time behavior analysis
Di et al. Logaider: A tool for mining potential correlations of hpc log events
US20110154117A1 (en) Methods and apparatus to perform log file analyses
US9459947B2 (en) Error report processing using call stack similarity
US20090113248A1 (en) Collaborative troubleshooting computer systems using fault tree analysis
US20240020215A1 (en) Analyzing large-scale data processing jobs
CN107766353B (zh) 一种数据库统计信息迁移的方法和设备
US7398511B2 (en) System and method for providing a health model for software
CA3127100C (en) Anomaly detection for predictive maintenance and deriving outcomes and workflows based on data quality
CN100478905C (zh) 用于测量计算系统的自主能力的方法和系统
US7254515B1 (en) Method and apparatus for system management using codebook correlation with symptom exclusion
EP3470988A1 (en) Method for replicating production behaviours in a development environment
US9397921B2 (en) Method and system for signal categorization for monitoring and detecting health changes in a database system
US20100251029A1 (en) Implementing self-optimizing ipl diagnostic mode
US11953979B2 (en) Using workload data to train error classification model
US20200391885A1 (en) Methods and systems for identifying aircraft faults
JP2016042339A (ja) メッセージ表示方法、メッセージ表示装置、およびメッセージ表示プログラム
CN111176916B (zh) 数据存储故障诊断方法及系统
Babic Adaptive software fault prediction approach using object-oriented metrics
JP2023184059A (ja) 推定装置、推定方法、および推定プログラム
JPH11308221A (ja) ネットワーク管理システム

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20070605