JP2011521380A - 大規模装置内での問題の決定のための警報の重要性のランク付け - Google Patents

大規模装置内での問題の決定のための警報の重要性のランク付け Download PDF

Info

Publication number
JP2011521380A
JP2011521380A JP2011510528A JP2011510528A JP2011521380A JP 2011521380 A JP2011521380 A JP 2011521380A JP 2011510528 A JP2011510528 A JP 2011510528A JP 2011510528 A JP2011510528 A JP 2011510528A JP 2011521380 A JP2011521380 A JP 2011521380A
Authority
JP
Japan
Prior art keywords
alarms
threshold
values
equivalent
rules
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011510528A
Other languages
English (en)
Other versions
JP5380528B2 (ja
Inventor
グオフェイ ジアーン、
ハイフェン チェン、
健治 吉平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Laboratories America Inc
Original Assignee
NEC Laboratories America Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Laboratories America Inc filed Critical NEC Laboratories America Inc
Publication of JP2011521380A publication Critical patent/JP2011521380A/ja
Application granted granted Critical
Publication of JP5380528B2 publication Critical patent/JP5380528B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0781Error filtering or prioritizing based on a policy defined by the user or on a policy defined by a hardware/software module, e.g. according to a severity level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/552Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0681Configuration of triggering conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Quality & Reliability (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Debugging And Monitoring (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Alarm Systems (AREA)

Abstract

複数の警報の優先順位を設定する装置と方法とは、監視されている装置データ間の複数の関係を求めるためのモデルの安定した集合を求めるために複数の不変量を抽出することを有する。複数のルールの複数の等価しきい値は、複数の不変量を抽出することによって作られた不変量ネットワークを使用して計算される。所与の時間窓の間、監視されている装置から一式の警報が受信される。複数の警報の計測値が複数の等価しきい値のベクトルと比較され、一式の警報がランク付けされる。
【選択図】図1

Description

本出願は、本明細書に参照によって援用される2008年5月21日に出願された仮出願番号第61/054,824号に対する優先権を主張する。
本発明は、コンピュータ装置とネットワーク管理に関し、特に、問題決定のために計算装置の複数の警報の重要性を決定する装置と方法とに関する。
大規模な計算装置の複雑性は、装置管理について前例のない問題を引き起こしている。ルールベースの装置が、運用装置管理のために実際に広く使用されている。しかし、様々なルールからの警報は、通常、問題の通報の精度が異なり、その理由は、それらのしきい値が複数のオペレータの経験と直感とに基づいて手動で設定されることが多いためである。他方で、装置の依存性のために、大規模な装置において1つの問題が同時に多くの警報のきっかけになることがあり、以降の問題の判断処理においてどの警報を最初に分析すべきかが重要な問題である。
現在のルールベースの装置においては、これは2つの考え得る解決策によって対処されている。一方の解決策においては、各ルールはその独立した局所的なコンテキストにおいて動作し、オペレータは、複数の警報を一つずつ確認しなければならない。オペレータは、複数の警報の重要性を判断するために、何らかの限定された領域の知識を使用するであろう。例えば、DNSサーバーからの警報は、プリンタからの警報よりも重要である。そのようなアプローチはスケーラブルではなく、非常に複雑な大規模装置では現実的ではない。
第2の解決策では、一式の警報を特定の問題に関連させるために、つまり、一式の警報を使用して既知の問題の署名を定義するために、イベント相関機構が使用される。このアプローチは、さまざまな問題とそれらの署名との事前の知識を想定しなければならない。しかし、大規模で複雑なIT装置では、多くの問題は予期されていないし、十分に理解されていない。装置のダイナミックスと不確かさのせいで、同じ問題でさえ、それ自身が、非常に異なる道のりで現れることがある。そのため、複雑で動的な装置においては、問題の署名を正確に定義することは困難である。
課題を解決するめの手段
複数の警報の優先順位を設定する装置と方法とは、監視されている装置データ間の複数の関係を求めるためにモデルの安定した集合を求めるための複数の不変量を抽出することを有する。複数のルール用の複数の等価しきい値は、複数の不変量を抽出することによって作られた不変量ネットワークを使用して計算される。所与の時間窓の間に、監視されている装置から一式の警報が受信される。複数の警報の計測値が複数の等価しきい値のベクトルと比較され、一式の警報がランク付けされる。
警報の優先順位を設定する他の方法は、装置の1つまたは2つ以上の構成要素から監視履歴データを収集することと、装置の監視履歴データ間の関係を求めるためにモデルの安定した集合を求めるための複数の不変量を抽出することと、監視されている複数の装置の構成要素から複数の管理ルールを収集することと、不変量を抽出することによって作られた不変量ネットワークを使用して複数の管理ルール用の等価しきい値を計算することと、所与の時間窓の間に、監視されている装置から一式の警報を受信することと、しきい値違反の数(NTV)を計算するために、複数の警報の計測値を複数の等価しきい値のベクトルと比較することと、一式の警報をランク付けするために、NTVをソートすることと、を有する。
複数の警報の優先順位を設定する装置は、複数のノードとしての複数の計測値と、監視されている装置データ間の複数の不変な関係を表している複数のエッジと、を使用して構築された不変量ネットワークを保存するように構成されているプログラム保存媒体を有する。不変量ネットワークは、複数のルール用の複数の等価しきい値を計算するように構成されている。警報発生器は、監視されている装置用の所与の時間窓の間に、複数の警報を発生するように構成されている。同僚評価機構は、複数の警報の重要性を求めるために、計測値を、局所しきい値および他のルールからマッピングされている複数の等価しきい値と、比較するように構成されている。
これらの、そしてその他の特徴と利点とは、添付図面と共に読まれるそれらの具体的な実施形態の以下の詳細な説明から明らかになるであろう。
本開示は、以下の図面に関する好ましい実施形態の以下の説明において詳細を与える。
本原理に従っているコンピュータ装置および/またはネットワーク内で警報の優先順位を設定する装置/方法を示しているブロック/フロー図である。 本原理に従って採用されている不変量ネットワークの一例の図である。 監視されているデータと比較されるしきい値を得るための実例の障害モデルのグラフである。 複数のしきい値に対して比較される計測値を示しているグラフである。 様々なコンテキスト計測値に対する複数のしきい値を示しているグラフである。 実例の実施形態による複数の警報の優先順位を設定する警報のランク付け機構をより詳しく示しているブロック/フロー図である。 本原理に従って複数の警報の優先順位を設定する装置/方法とを示しているブロック/フロー図である。
同僚評価機構と方法とは、複数の警報の重要性をランク付けするために設けられており、最上位にランク付けされた複数の警報は、真の陽性である可能性が高い。メトリック値をそのしきい値と比較して複数の警報を発生した後、本原理は、複数の警報の重要性を求めるために、複数の値を、多くの他のルールからの複数の等価しきい値とも、比較する。本アプローチは、評価されその有効性が示されている。
複数の本実施形態は、同僚評価機構を有しており、同僚評価機構で、複数の警報の重要性を定めるために、計測値が、局所しきい値と比較されるだけでなく、他のルールからマッピングされている複数の等価しきい値とも比較される。最上位にランク付けされている複数の警報は、より重要であり、それは、それらが他の複数のルールからの同意を得ており、より真の陽性である可能性が高いためである。オペレータは、多くの誤った警報によって誤った方向に導かれないように問題決定処理の優先順位を設定するために、最上位にランク付けされている複数の警報を信頼できる証拠として使用することができる。
不変量技術は、複数の監視メトリックの間の不変な関係を見つけることができる。例えば、x、yが2つのマシンのCPU使用率である場合に、我々は、それらの関係、例えばy=f(x)を自動的に抽出することができる。そのような不変量方程式によって、我々は、1つのメトリック(例えばx)のしきい値を、他のメトリック(例えばy)のコンテキストにおける等価な値にマッピングすることができる。そのため、我々は、しきい値の「緊迫度」をランク付けし、さらに複数の警報の重要性をランク付けするために、様々なルールの複数のしきい値を、大局的なコンテキストにおけるそれらの等価しきい値にマッピングすることができる。計測値は、それ自体のルールによってのみチェックされるだけでなく、その同僚の他のルールによってもチェックされる。最上位にランク付けされている警報は、より重要であり、それは、より多くの同僚がそれら自身でそのような警報を発生するであろうためである。各しきい値は、正確には設定されていない場合があるが、本アプローチは、そのような共同同僚評価機構を導入することによって、問題を通報する精度を向上させることができる。ルールのグループからの同意は、しきい値が偏っている可能性がある個別のルールよりもより正確である。
本明細書に記載している複数の実施形態は、完全にハードウェアとしたり、完全にソフトウェアとしたり、ハードウェア要素とソフトウェア要素との両方を有するようにすることができる。好ましい実施形態では、本発明は、ファームウェア、常駐ソフトウェア、マイクロコード等を有するがこれらには限定されないソフトウェアで、実装されている。
実施形態は、コンピュータまたは任意の命令実行装置によってまたはそれらと共に使用されるプログラムコードを提供する、コンピュータが使用可能なまたはコンピュータが読み取り可能な媒体から、アクセス可能なコンピュータプログラム製品を有していてもよい。コンピュータが使用可能なまたはコンピュータが読み取り可能な媒体には、命令実行装置によってまたはそれと共に使用されるプログラムを保存し、通信し、伝搬させ、または、運搬する任意の装置が含まれる。媒体は、磁気、光学、電子、電磁、赤外線、または半導体のシステム(または機械または装置)または伝搬媒体とすることができる。媒体は、半導体または固体状態メモリ、磁気テープ、取り外し可能なコンピュータディスケット(登録商標)、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、非柔軟磁気ディスク、光学ディスク等のコンピュータが読み取り可能な媒体を有していてもよい。
同じ参照番号が同じまたは同様な構成要素を指している図面をここで参照し、また最初に図1を参照すると、ブロック/フロー図は、混成で複雑な装置のルールベース装置からの複数の警報の重要性をランク付けすることによって、複数の警報を評価する装置/方法を示している。さまざまな意味を備えているさまざまなメトリックを直接比較する方法がなく、それらの障害モデルが実際には未知であるため、真の陽性を通報する確率に基づいて複数の警報をランク付けするアプローチは有益である。
大規模な装置102は、1つまたは2つ以上のプロセッサとメモリ装置とを有する装置を有していてもよい。大規模な装置102は、1つまたは2つ以上のより小さい複数の装置を有していてもよい。より小さい複数の装置の各々は、装置またはソフトウェアプログラムの複数の警報を判断しランク付けする一式のルールを有していてもよい。
オンラインサービスの人気によって、何百万ものオンラインユーザに同時に対応するための重要なインフラとして、多くの大規模な分散装置とデータセンターとが構築されている。これらの巨大な装置の複雑さによって、それらを維持し管理するための作業は、前例のない問題も引き起こしている。これらの装置は、異なる複数の販売者によって通常供給されるサーバー、ルーター、記憶装置、ソフトウェアなどの数千の異種の構成要素を統合することによって、通常展開される。電話装置などの大規模なハードウェアベースの装置と比較すると、計算装置上で動作している多数のソフトウェア構成要素が、装置構成要素間の依存性と相互動作とをわかりにくくしている。オペレーティングシステムなどの個別の構成要素は、すでに十分に複雑である上に、ソフトウェアによってもたらされる多数の内在している要素の依存性は、今日の計算装置の複雑性を劇的に増加させている。一方、大規模な装置の多くは静的ではなく、セキュリティパッチのインストール、ソフトウェアまたはハードウェアのアップグレード、および、構成の修正などの多数の変更に伴って、常に発展している。そのため、装置の規模、不均一性、動的性質と、隠れた依存性と、のすべてが、複雑さの管理を難しくしている。
そのような大規模装置の多くは、本質的にミッションクリティカルな装置であって、数分のシステムダウンでさえ、業務における大きな収益の損失につながる可能性があり、さらに我々の正常な生活に影響する。例えば、2007年4月17日のBlackBerry(商標)電子メールサービスのシステム障害は、数百万人もの顧客に影響を与えた。そのため、サービスプロバイダは、そのインフラとサービスとを運用するために、大規模装置管理チームを通常設立している。実際には、オペレータが、インフラの状態を追跡するために、大量の監視データを装置の複数の構成要素から収集する。
大量のデータを手動で走査し解釈することは実時間では不可能なため、オペレータは、データをチェックし警報を発生させる多くのルールを通常設定している。たとえば、選択されたメトリック(例えばCPU使用率)が所与のしきい値を超えた場合、調査を行うこともあるオペレータに通知するために、警報が発生される。しかし、装置の複雑さのせいで、ルールにおいて適切なしきい値を設定することは困難であり、不適切なしきい値は、問題の通報において、偽の陽性または偽の陰性を導くことが多い。
様々なオペレータが、自分の個人的な管理の経験と直感とに基づいて、自分の装置において様々なルールとしきい値とを設定することがある。たとえば、新人と比較して経験のあるオペレータは、より良いルールとしきい値とを設定できるし、他のオペレータよりも高いしきい値を常に設定しがちなオペレータがいる可能性もある。その結果、様々なルールから発生する警報は、問題の通報についての精度がさまざまになる可能性があって、他の警報よりもより「重要な」警報が存在する可能性もある。ルール管理、特に、多くのオペレータによって管理されている大規模な装置のルール管理において、様々なルールとしきい値を正規化することは困難である。
装置の依存性のせいで、1つの障害や性能の問題が、多くの警報を同時に引き起こすことがある。すべての警報の分析には、時間がかかり過ぎて問題を解決できない可能性があり、また全ての警報が同じように重要ではないため、問題は、どの警報をまず分析すべきかということになる。ミッションクリティカルな装置については、装置の高い信頼性と可用性とを維持するように、MTTR(平均修復時間)を短縮することが非常に重要である。
ブロック103においては、大規模な装置の複数の装置構成要素から監視履歴データが収集される。ブロック104においては、以降でより詳細に説明される不変量が抽出される。さまざまな監視データの間には、多くの隠れた不変量の関係が存在し、それゆえに、監視データの強さは、外部の作業負荷の量に応答する。そのような不変量の関係によって、我々は、1つのメトリックのしきい値を他のメトリックのしきい値と比較することができる。現在のルールベースの装置においては、各ルールは、計測値を、そのしきい値と比較することによって、その隔離された局所的なコンテキストにおいて動作する。そのような計測値は、警報を大局的なコンテキストでランク付けするために、他の複数のルールからマッピングされている複数の等価しきい値と、さらに比較される。最上位にランクされた警報は、問題の判断において最初に調べるべきである真の陽性である可能性がより高い。
我々は、計測値が自身のルールだけではなく他のルールによってもチェックされるように、重要性のランク付けに協調同僚評価機構130を導入する。その結果、他の複数のルールから得られる同意がより多い場合、警報は、より重要であるとランク付けされる。
装置の不変量:装置の不変量は、複数の装置監視メトリックの間の隠れた不変の関係を特徴付ける。我々は、1つのメトリックのしきい値を他のメトリックの等価なしきい値にマッピングするために、そのような不変量の関係を使用し、それによって、さまざまなルールのしきい値をランク付けし、警報の重要性を判断することができる。
オペレータは、多数の監視データ(103)を、複雑な装置(102)から、その動作状態を追跡するために収集する。ログファイルとネットワークトラフィックの統計情報は、そのような監視データの典型的な例である。この監視データは、装置の内部状態の観測量と見なすことができる。オンラインサービスについては、大量のユーザ要求が、分散している装置を通して流れたときに、それに応じて、内部計測値の多くは、作業負荷の量に応答する。たとえば、ネットワークトラフィックの量とCPU使用率とは、作業負荷の強さによって、上昇したり下降したりする。流れの強さは、内部計測値が作業負荷の量に応答する強さを示している。たとえば、SQLクエリーの数と平均CPU使用率(サンプリング部ごと)とは、そのような流れの強さの計測値の例である。便宜上、我々は、xとyのような変数を、流れの強さの計測値を示すために使用する。
流れの強さの計測値は、同じ外部要因つまり作業負荷の強さによって主に変化するため、流れの強さの計測値は、時間tに沿って変化する曲線を有している。時系列として、多くの流れの強さの計測値は、強い相関を有しており、本明細書では、我々は、2つの計測とxとyとの関係を特徴付けるためにy=f(x)のような式を使用する。時間の経過に沿ってそのような関係が常に成立する場合、それらは、背景にある装置の不変量と考えられる。どのように作業負荷が変化しようと、そのような装置の不変量は同じままである。ただし、計測値xとyではなく式y=f(x)が不変量と考えられる。
大規模な装置全体にわたってさまざまな点において計測された流れの強さを使用して、我々は、それらの関係(ブロック104)をどのように抽出するか、つまり、我々がy=f(x)を得ることができるように、計測値xとyとを使用して関数fをどのようにして学習するかを決定する必要がある。我々は、それらの線形な関係を学習するために、実例として外部入力付き自己回帰モデル(ARX)を採用する。時刻tにおいて、我々は、2つの点において計測された流れの強さをx(t)とy(t)とそれぞれ表す。ARXモデルは、2つの流れの強さの間の以下の関係を記述する。
Figure 2011521380
ここで[n、m、k]はモデルの次数であって、この関係は、いくつか以前のステップが現在の出力に影響することを定めている。aiとbjとは、以前のステップが現在の出力にどれだけ強く影響しているかを表している係数パラメータである。便宜上、我々は、θを使用して一式の係数パラメータを表す、つまり
Figure 2011521380
とする。
監視データの窓
Figure 2011521380
が与えられたときに、学習されたモデルと所与の監視データとの間の誤差を最小化する最適なθを求めるために、最小自乗法(LSM)を採用することができる。θの計算の方法の詳細は、参照によって本明細書に援用される以前の業績、Jiang他、「Discovering Likely Invariants of Distributed Transaction Sysatems for Automatic System Management:自動システム管理のための分散処理システムの有望な不変量の発見」、The 3rd International Conference on Automatic Computing (ICAC2006)、199−208頁、ダブリン、アイルランド、2006年6月に記述されている。我々は、モデルの確認用の正規化適合度スコアを計算するために、以下の式を使用する。
Figure 2011521380
ここで
Figure 2011521380
は、実際の監視データy(t)の平均値である。監視データx(t)とθとが与えられると、
Figure 2011521380
は、式(1)に示されているモデルからの出力である。基本的に、式(2)は、学習されたモデルがどれだけ良好に実際のデータを近似できるかを評価するために、メトリックを導入する。2つの流れの強さが与えられると、我々は、モデルを常に学習することができるが、高い適合度スコアを有しているモデルだけが、実際の関係を特徴付けている。我々は、複数のモデルの候補の一覧を学習するために、固定された数ではなく次数[n、m、k]の範囲を設定することが可能で、それから、最も高い適合度スコアを有するモデルを選択する。
我々は、2つの流れの強さ用のモデルを学習した後、我々は、そのような関係が時間の経過と共に成立するかどうかを確認することが依然として必要である。監視データから不変量を抽出するには、我々は、まず、モデルを構成するために、2つの計測値のあらゆる組み合わせを試してみて、それから、このモデルが、新しい観測値に適合するかどうかを継続して確認する、つまり、我々は、力任せの検索を使用して、不変量の全ての仮定をまず構築し、それから、これらの仮定の妥当性を動作中に順次テストする。ただし、我々は、これらの仮定の妥当性を、時間を経過しながら確認するために、24時間、365日動作している装置から、十分な監視データを常に得ている。監視データの時間窓ごとに、我々は、適合性スコアF(θ)を計算するために式(2)を使用する。適合性スコアが低いモデルは、実際のデータの関係を特徴付けることがないため、我々は、これらのモデルを順次テストにおいて除外するために、しきい値
Figure 2011521380
を選択する。そのため、各時間窓において
Figure 2011521380
よりも適合度スコアが低いモデルは、以降のテスト過程から除外されることになる。いくつかの時間窓を使用した後、残った安定した一式のモデルが装置の不変量と考えられる。
これらの不変量は、大規模な分散装置内には広く存在し、装置の構成要素の物理的な性質やソフトウェアロジックの拘束条件によって支配されている。ウェブサーバー、アプリケーションサーバー、および、データベースサーバーを有している通常の3層ウェブ装置について、我々は、たとえば、111個の計測値を収集し、さらに、それらの間の975個の不変量を抽出した。
図2を参照して、不変量ネットワーク内での、値の伝搬を以降で説明する。図2は、流れの強さの計測値の間の関係の概略を表している不変量ネットワークの小規模な例を示している。各ノードi(ノード1〜8として示している)は、計測値Iiを表しているのに対して、各エッジは、2つの関連付けられている計測値の間の不変量の関係を表している。我々は、適合度スコアの低いモデルを除外するためにしきい値
Figure 2011521380
を使用しているため、計測値の各対が不変量の関係を有することはない。そのため、図2には、接続されていないサブネットワーク7と8も存在している。全てのエッジは双方向であり、その理由は、我々は、2つの計測値の間に(反対の入力と出力とを備えている)2つのモデルを常に構成するからである。
ここで、{I1、I2、I4}のような3つの計測値の間の三角形の関係を考える。我々は、I2=f(I1)およびI4=g(I2)と仮定し、ここでfとgとは、共に式(1)に示したような線形関数である。三角形の関係に基づくと、理論的に、我々は、I4=g(I2)=g(f(I1))と結論することができる。関数fとgとの線形の特性によって、関数g(f(.))も当然線形であって、これは、計測値I1とI4との間に不変量の関係が当然存在することを意味している。しかし、我々は、適合度スコアの低いモデルを除外するために、しきい値を使用しているため、そのような線形な関係は不変量であると見なすのに十分に頑強ではない場合もある。これが、I1とI4との間に直接のエッジが存在しない理由である。
各個別の不変量は、対応している複数の計測値の間の何らかの局所的な関係をモデル化しているのに対して、不変量のネットワークは、背景にある大規模な装置の多くの不変量の拘束条件を本質的に捕らえることができる。そのため、1つまたはいくつかのモデルを使用するのではなく、我々は、大規模な装置を特徴付けるように、多数の不変量を組み合わせてネットワークにして、さらに、このネットワークを、図1のブロック104内の複数の装置の管理業務用に使用する。値は、ネットワークをたどることによって、1つのノードから他の複数のノードにおけるその等価な値に伝搬させることができる。この機構は、後に、様々なルールの複数のしきい値の比較に使用される。
一般性を失うことなく、I1=xと仮定する。図2によれば、我々は、I1から2つのノード{I2、I3}に1ホップで到達することができる。I1=xの場合、他の計測値を推定するためにどのように不変量をたどるのかが問題になる。我々は、複数の計測値の間の複数の不変量を抽出するために、式(1)に示しているモデルを使用するので、全ての不変量がこのモデルテンプレートのインスタンスである。式(1)において、我々が、全ての時間ステップにおいて入力x(t)=xと設定すると、出力y(t)は一定値y(t)=yに収束し、これは以下の2つの式から導出することができる。
Figure 2011521380
便宜上、我々は、IiからIjへの伝搬関数、つまり
Figure 2011521380
を表すのにfijを使用する。ただし、不変量モデルの次数は非常に小さくn、m≦2である。式(3)によって、I1=xの場合、我々は、値I2とI3を導出することができる。これらの計測値は、他の不変量の入力であるため、同様に、我々は、それらの値を1ホップでI4とI5に、2ホップでI6にさらに伝搬することができる。我々は、値I7とI8を予測することはできないが、これはそれらがI1から到達できないからである。
図2において、I4、I5、およびI6のようないくつかのノードは、複数の経路を通って、I1から到達可能である。同じ2つのノード間で、複数の経路が異なる数のエッジを有しており、2つのノードの関係をモデル化する場合に、各不変量(エッジ)も、異なる精度を有していることがある。問題は、値を一方ノードから他方のノードへ伝搬させるための最適な経路をどのようにして見つけるかである。まず、我々は、2つのノード間で値を伝搬させるための最も短い経路(ホップ数が最小)を選択することになる。各不変量は、2つの計測値の間の関係を特徴付ける場合に、何らかのモデル化誤差を有している。これらのモデル化誤差は、経路に沿って蓄積することがあり、経路がより長いと、通常、予測誤差もより大きくなる。
適合度スコアを不変量の頑強性を計測するために導入することが可能で、より高い適合度スコアを備えている不変量は、値の伝搬において、より高い精度につながる。簡単のために、我々は、計測値IiとIjとの間の平均適合度スコアを表すために、ここではFijを使用する。IiとIjとの間に不変量が存在しない場合、我々は、Fij=0と設定する。2つのノードの間の所与の特定の経路sが与えられると、我々は、全体の経路の精度を評価するために、蓄積されたスコアqs=?Fijを常に導出することができる。2つのノードの間の同数のエッジを有する複数の経路について、我々は、最も高いスコアqsを有する経路を求めるために、動的プログラミングアルゴリズムを使用して、それから、この経路をたどって値を伝搬させることができる。そのため、1つのノードにおいて値が与えられると、我々は、この値を他の全ての到達可能なノードに伝搬させるために、不変量ネットワークを常にたどることができる。
図1を再度参照すると、ブロック106と108とは、警報ランク付け機構130を構成している。ブロック112において、管理ルールが装置から収集され、ブロック106において、全ての等価しきい値が、複数のルール(ブロック112)と複数の不変量(ブロック104)とに基づいて計算される。
時刻tにおいて、一式の警報が、ブロック110において、1つまたは2つ以上の装置から受信され、ブロック108において、各警報の実際の計測値が、しきい値違反の数(NTV)を計算するために、その等価しきい値のベクトルと比較される。NTVは、受信した一式の警報のランク付けのためにソートされる。プログラムの経路は、次の時間窓の処理のために、ブロック110に戻る。
ルールと障害モデル:オペレータは、監視エージェントを展開して、監視エージェントが担当する装置の動作状態を追跡するために、実時間監視データを収集する(ブロック103)。ルールベース装置は、問題の判断のために、データを走査し、警報を発生させるように、広く使用されている。しかし、複雑な装置において、適切なルールとしきい値とを設定することは困難である。実際に、オペレータは、自身の装置管理の経験と直感とに基づいて、ルールとしきい値とを設定することが多い。その結果、さまざまなルールからの警報が、多数の偽の陽性を有していることが多い。偽の陽性が多いと、現場のオペレータをいらいらさせることが多く、警報を無視したり、警報を除外するように、それらのしきい値を増加させることになり、それは、逆に偽の陰性の割合の増加につながることもある。
本装置においては、装置全体にわたって複数の等価しきい値を求めることを支援するために、複数のルールが、ブロック112において採用されている。大規模な複数の装置は、装置のさまざまな部分を担当している何百人ものオペレータによって監視され管理されることが多い。各オペレータは、複数の装置の自分が担当している局所的な部分におけるルールやしきい値の設定において、自身の好みを有していたり偏りを有している場合がある。実際に、装置の構成要素も、それらの製造元による管理ルールを有していることがある。これらのルールとしきい値が全て、異種の構成要素を有しているそれらの局所的なコンテキストで設定されているため、大規模な装置において、しきい値と管理ルールとを正規化することは困難である。装置の依存性のために、大規模な装置においては、1つの問題が多数の警報のきっかけとなることがある。警報の多くは、偏っているしきい値の設定のせいで、偽の陽性となることがある。
これらのルールは、複数の不均一な設定の下では、容易に比較することができないため、どの警報が重要であるかを判断することは困難である。小規模な装置においては、オペレータは、どのカテゴリの警報がより重要であるかを判断するための領域の知識を使用することができる。例えば、DNSサーバーからの警報は、プリンタからの警報よりも重要であるかもしれない。しかし、非常に複雑な大規模装置では、そのようなアプローチは明らかにスケーラブルではなく、また現実的ではない。多くの大規模な装置は、サービスプロバイダにとっては、オンラインサービスを実行し、収益を生み出す重大なインフラである。オペレータは、装置の高い信頼性と可用性とを維持するように、どのような問題でも解決しなければならない。そのため、一切のガイドラインなしに各警報を分析するには時間がかかり過ぎ、また、オペレータは、偽の陽性の分析に多くの時間を浪費することもある。そのため、本原理は、オペレータが自身の問題判断処理に優先順位を付けるためのガイドラインとして参考にできる警報の重要性をランク付けする新規のアプローチを提供する。
そのためには、装置についての複数のルール(112)は、どのような制限つまりパターンを有していてもよい。一例においては、ルールは、述語とアクションとを有している。例えば、計測値x(CPU使用率)が与えられると、もし(x>xT)ならば、generate_alert1が得られ、ここでxTはしきい値である。述語は、「x<xT」のような他の1つの論理条件または「x>xTおよびy>yT」のような数個の結合されている条件などを有していてもよい。警報は、それ自体を説明するための文字のメッセージを有してもよい。そのような定義は、商用装置において警報管理に採用されている。例えば、VMwareの警報管理においては、VMのCPUとメモリの使用率に加えて、そのHeartbeat数を管理するために、ユーザは、2つのトリガオプション「Is Above(<)」および「Is Below(<)」によって警報を発生するルールを定義することができる。仮想機械のheartbeatの既定のモニタは、「Is Below」に設定されているのに対して、他の全てのメトリックのモニタは「Is Above」に設定されている。便宜上、我々は、本実施形態の基本概念を説明するために、前述の例の数個のルールを使用する。
理論上、ルールの背景には、未知の障害モデルが存在している。図3を参照すると、そのようなモデルの2つの例を2つの曲線201と202でそれぞれ示している。x軸は計測値xの値であるのに対して、y軸は障害の発生の確率を表している。ルールは、述語x>xTによって設定されているため、障害発生の確率はxの増加と共に増加する(または少なくとも一定のままである)ことを意味している。そうでなければ、オペレータは、警報を発生するためにそのような述語を設定することはないであろう。逆に、述語がx<xTであった場合には、xの減少と共に障害発生の確率は増加すると予測される。オペレータは、xの特定の範囲でのみ障害が発生する場合は、x1 T<x<x2 Tのような述語を設定することもできる。結合された条件が記述されることになるが、これは、x1 T<x<x2 Tを、2つの基本的な論理式x>x1 Tとx<x2 Tによって置き換えることができるからである。
x<xTのような基本的な述語の背景にある障害モデルをここで説明する。曲線201(太い線)で示している障害モデルは、ルール設定の背景にある理想的な状態を表しており、障害発生の確率は、臨界値以降は1に等しい。この値がしきい値として設定されると、偽の陽性と偽の陰性が発生することはない。しかし、より現実的なモデルを曲線202(点線)で示しており、所与のしきい値は、問題を通報する場合に、常に擬の陽性および/または偽の陰性につながることになる。これらのさまざまな計測値の理論的な障害モデルは、実際には本質的に未知であるため、オペレータは、自分の経験と装置の知識とに基づいて、しきい値を選択しなければならない。たとえば、オペレータは、しきい値を定めるために、静的な履歴データを使用してもよい。
警報の重要性のランク付け:本明細書で説明している実施形態において、我々は、既存のルールベースの装置におけるルールとしきい値を修正しない、つまり、警報を発生する機構を変更しない。実際に、異種の複数の構成要素については、これらの構成要素を管理するオペレータは、ルールとしきい値を設定するための正しい装置の知識を有しているかもしれない。その代わりに、図1のブロック110でさまざまな装置の構成要素からの警報を受信した後、我々は、装置の運用では一般的な問題である偽の陽性の割合を減少させるように、同僚評価機構130によって警報の重要性を分析する。ここでの「重要性」は、真陽性通報確率(PRTP)と定義される。以下のコンテキストでは、我々は、計測値xについて真の陽性を通報する確率を示すために、Prob(true|x){これは条件付き確率}を使用する。一般性を失うことなく、図2の計測値に関連して、以下の一式のルールを仮定する。
1.もし(I1>x)ならば、alert1を発生;
2.もし(I2>x)ならば、alert2を発生;
3.もし(I6>z)ならば、alert3を発生;ここでx、y、zはしきい値。ここで、I1>xの場合、我々は、この値を伝搬させるように、図2に示している不変量ネットワークをたどって、その等価値I2 xをノード2で、I6 xをノード6でそれぞれ計算する。同様に、I2=yの場合、我々は、その等価値I1 yをノード1で、I6 yをノード6でそれぞれ計算することができる。さらに、I1 zとI2 zも同様に計算することができる。前述のルールに示している各計測値については、その局所的なしきい値と、他の2つのルールからマッピングされている2つのしきい値と、の3つのしきい値がある。たとえば、計測値I1については、その局所的なしきい値xと2つの等価しきい値I1 yとI1 z(これらは図1のブロック106で求められる)がある。
元のしきい値x、yおよびzは、異なる意味を有しているため、我々は、それらを直接比較することはできない。たとえば、xはCPU使用率に関し、yはネットワーク使用率に関すると仮定すると、異なるコンテキストにあるそれらを比較することには意味がない。他のしきい値yとzとは、xの局所的なコンテキストにマッピングされているので、我々は、警報の重要性をランク付けするために、これらの等価値をxと比較することができる。
図4を参照すると、計測値の複数のしきい値との比較が例示されている。図示のように
Figure 2011521380
を仮定すると、我々は、図3の障害モデルによって、以下のように結論づけることができる。
Figure 2011521380
前述のルールの述語論理は「>」であるため、PRTPは、計測値が増加しても減少することはない。この性質に基づいて、我々は、異なるしきい値における実際の値を知ることなく、PRTPの順番をランク付けすることができる。そのため、我々は、PRTPをランク付けするために、既知の障害モデルを知る必要はない。その代わりに、我々は、図1のブロック108においてPRTPのランク付けを導き出すためには、述語論理と複数のルールの複数の等価しきい値をランク付けすることだけが必要である。ルールの述語論理が「<」である場合、不等式(4)のPRTPの順序を逆にしなければならない。
図4では、我々は、I1のコンテキストにおいて、ルールの複数のしきい値とそれらのPRTPをランク付けしている。問題は、そのような順序が他の計測値のコンテキストにおいて変化するかどうかである。たとえば、I2のコンテキストにおけるy、I2 x、およびI2 zの順序である。
図5は、計測値の異なるコンテキストにおけるこれらのしきい値を示している。I1とI2とは線形の関係を有しているため、I1の軸についてx<I1 yである場合、I2の軸についてもy>I2 xとなる。そのため、計測値の異なるコンテキストに複数のしきい値をマッピングしても、複数のしきい値の順序は変化しない。その結果、複数のPRTPの順序も変化しない。様々な計測値の背景にある障害モデルは異なるため、様々な計測値のコンテキストで計算されたPRTPの実際の値も、非常に異なることがある。たとえば、ProbI1(true|x)(障害モデルI1を使用して計算)は、ProbI2(true|I2 x)(障害モデルI2を使用して計算)と異なるかもしれないが、それらのしきい値xとI2 xとは等価である。しかし、どの障害モデルが使用されても、PRTPの順序は変化しない、つまり、コンテキストI1においてProbI1(true|x)<ProbI1(true|I1 y)の場合、コンテキストI2においてもProbI2(true|I2 x)<ProbI2(true|y)である。
図1を参照すると、ある大規模な複数の装置(102)について、大量の実時間監視データを、データ解析のための中心点(たとえばネットワーク運用センター)に入力するには、リソースの消費が多い。その代わりに、監視データ(103)は、局所的なルールベースの複数のエージェントによって処理され、複数のエージェントは、データ自体ではなく、警報を、中心点に転送する、つまり、我々は、中心点で、監視データではなく、警報だけを目にすることになる。この場合(ケースIとする)、我々は、履歴監視データを(ブロック103で)収集し、オフラインで不変量を(ブロック104で)抽出し、それから、(ブロック112で)様々な装置の構成要素から複数のルールを収集する。我々は、抽出された不変量ネットワーク104をたどって、ブロック106において複数のルールの複数の等価しきい値を計算し、さらに、ブロック110からの複数の警報の重要性の順序を定めるために、ブロック108でそれらをランク付けする。たとえば、不等式(4)を使用して、我々は、重要性の降順:alert2、alert1、および、alert3、で複数の警報をランク付けする。最も低くランク付けされている複数の警報は、偽の陽性である可能性があるため、オペレータは、警報のこの部分に対して正しいしきい値を設定しているかどうか再確認したくなるかもしれない。
計測値のさまざまコンテキストにおいて警報の順序は変化することがないため、我々は、比較のために全てのしきい値を1つの計測値の同じコンテキストにマッピングすることができる。不変量ネットワーク内のn個のしきい値が与えられた場合、それらのしきい値を比較するには、我々は、n−1個のマッピングが必要なだけである。これらの全てのステップは、オフラインで実行することができる。任意の時刻tにブロック110において複数の警報の部分集合を受信した後、我々は、オフラインで計算された順序に従って、複数の警報のこの特定の部分集合をランク付けする。たとえば、alert2とalert3の両方を時刻tに受信した場合、我々は、全ての警報のランク付けに基づいて、alert2はalert3よりも重要であることがわかる。図1は、ケースIのオフラインの部分とオンラインの部分を示している。ただし、中心点では実時間データが利用できないため、我々は、複数の警報のランク付けのために、現在の複数の計測値ではなく、静的な複数のしきい値を基本的に使用する、つまり、Prob(true|I、I>x)=Prob(true|x)、Iは計測値でxはそのしきい値であると数学的に仮定する。これは、図3の曲線201によって表されている障害モデルに従っている。
前述のケースでは、我々は、現在の計測値Iがそのしきい値xからどれだけ離れているかは考慮しない。一般的に、図3の曲線202は、Iが増加するとProb(true|I、I>x)が増加することを図示している。複数の計測値と複数の警報とが中心点で使用可能な場合、我々は、複数の警報のランク付けには、それらの複数のしきい値ではなく、実際の複数の値を使用すべきである。この場合(ケースIIと表す)、図4に示しているように、我々は、しきい値違反の数(NTV)を求めるために、実際の計測値を全ての等価しきい値と比較する。ただし、警報を受信した後、つまり、実際の値が、少なくともその局所的なしきい値に違反し、そのNTVが少なくとも1の場合にだけ、NTVを計算するために、そのような比較を行う。たとえば、図4においてx<I1<I1 yの場合、I1はしきい値xとI1 zよりも大きいため、NTVは2である。I1>I1 yの場合、NTVは3である。ただし、複数の等価しきい値の順序は、計測値の様々なコンテキストで同じままである。これらの等価しきい値は、実際の複数の値を比較するために、さまざまなコンテキストにおける参照点として本質的に使用され、その後、複数の警報のランク付けのためにNTVを使用する。
実際の計測値が、より多くの等価しきい値を違反している場合、その警報のPRTPは、より高くなり、確認によって対応することがより重要である。その局所的なルールに加えて、NTVは、その警報に同意している他のルール(同僚)の数を本質的に表している。
ケースIIにおいて、我々は、監視データ(103)と複数のルール(112)とを収集するように、図1に示しているのと同じオフラインのステップに従って、複数の不変量(104)を抽出し、複数の等価しきい値(106)を計算する。しかし、不変量ネットワーク内の複数のしきい値を備えている所与のn個の計測値が与えられると、各しきい値は、他のn−1個のしきい値のコンテキストにマッピングされ、マッピングは、全部でn(n−1)個になる。その結果、各計測値は、その局所的なしきい値と他の複数のルールからマッピングされたn−1個の等価しきい値を含むn個のしきい値を有することになる。たとえば、I1は、局所的なしきい値xと、他の2つのルールからマッピングされている2つの等価しきい値I1 yとI1 zも有する。これら全てのステップはオフラインで実行され、各計測値には、計測値のコンテキストにおける複数の等価しきい値を保存するためのベクトルがある。ここで時刻tにおいて、我々が、一式の警報をオンラインで受信した後(110)、各警報に対応している実際の計測値が、そのNTVを求めるために、全ての等価しきい値と比較される。我々は、それから、警報の重要性をランク付けするために、それらのNTVをソートする。
ケースIとケースIIとの違いは、我々が、複数の警報のランク付けのために、実際の計測値を使用するかどうかである。ケースIIにおいては、中心の点が、複数の警報だけでなく実際の計測データも受信する。逆に、ケースIにおいては、複数の警報だけが中心点に転送される。しかし、2つのケースにおける2つのアプローチは、方法1に統合することができる。方法1:
1.複数の装置から履歴監視データを収集する
2.複数の不変量を抽出する
3.複数の装置から複数の管理ルールを収集する
4.すべての等価しきい値を計算する
5.時刻tにおいて、複数の装置から一式の警報を受信する
6.各警報のしきい値違反の数(NTV)を計算するために、各警報の実際の計測値を複数の等価しきい値のベクトルと比較する
7.受信した一式の複数の警報をランク付けするために、NTVをソートする
8.ステップ5に戻る
ステップ6において、我々が、実際の計測値をその局所しきい値に置き換えると、我々は、NTVを得るために、この局所しきい値を他の複数のルールの等価しきい値と比較することが基本的に可能である。我々が複数のNTVをソートした場合、我々は、ケースIから得られる順序と同じ警報の順序を得ることになる。動的なしきい値設定機構を有しているルールがあってもよい。新しい各しきい値について、ステップ4において、方法1は、その新しい値を他のn−1個のノードに、いったん再度伝搬させなければならない。
ケースIIでは、我々は、実際の計測値を同じコンテキストにマッピングし、複数の警報をランク付けするために、それらを直接比較することができる。しかし、様々装置の障害時に多くのルールの違反があった場合、それらの計測値は、もはや元の不変量の複数の関係に従わなくなることもある。そのため、値を1つのノードから他の複数のノードに伝搬させるために、我々は、同じ不変量ネットワークを使用することはできない。実際に、不変量ネットワークが依然として同じ場合、2つのノードで観測された実際の2つの値は、それらのマッピングの関係を正確に反映していなければならず、それらはすでに「等価である」、つまり、それらの値をマッピングするのではなく、実際に値を単に観測することができる。その代わりに、方法1においては、不変量ネットワークを通して伝搬するのはしきい値であって、これは、さまざまなルールの複数のしきい値が任意に設定され、それらの不変量の関係には従っていないからである。逆に、計測値は実際の装置から観測され、それらの背景にある装置の拘束条件に当然従う。
実際の複数の計測値は、他の複数のルールからマッピングされている複数の等価しきい値と局所的に比較される。ただし、これらの等価しきい値は数学的に導出されるが、実際の装置内には存在していない。これらは、オペレータのしきい値の選択の習慣の積極性または保守性を比較するための参照値として採用されている。実際には何らかの不変量が何らかのしきい値において成立しなくなっても、複数の「仮想的な」等価しきい値は同様に計算可能であって、さまざまなルールの「厳格さ」を比較するための参照値として使用することができる。さらに、わずかな差の複数の警報をランク付けする必要はない。たとえば、2つの警報の2つの実際の計測値が、全ての等価しきい値に違反している場合、それらの実際の値には何らかの差がある可能性があるが、それらは同様に重要である。そのため、方法1においては、警報のランク付けには、実際の計測値ではなくNTVを使用する。
図6を参照すると、警報ランク付け機構130をより詳細に示している。ブロック131において、様々なルールの複数の等価しきい値の計算に、不変量ネットワークが採用される。ブロック132では、実際の計測値が、しきい値違反の数(NTV)を計算するために、その等価しきい値のベクトルと比較される。ブロック133においては、各計測値の警報の重要性をランク付けするために、それらのNTVがソートされる。
本実施形態は、少なくとも以下の点について、既存の不変量技法の価値を高めることができる。1.オペレータが問題をはるかに速くより高い精度で解決するために自身の問題判断処理の優先順位を付けることができるように、複数の警報の重要性をランク付けする本アプローチを導入することによって、現在のルールベースの装置を即座に改良することができる。本アプローチは、偽の陽性の可能性がより高いこれらの警報を除外できるようにする。2.低くランク付けされている警報は偽の陽性である可能性が高いため、オペレータは、この情報を使用して警報のこれらの部分について正しいしきい値を設定しているかどうかを再確認して、問題通報の精度をさらに改善することができる。オペレータは、大量の偽の警報を受信することがなくなるので、これは装置管理のコストを大きく削減することができる。
拡張:本ルールベース装置において、各計測値は、警報を発生するためにそれ自体のしきい値と比較され、各ルールは、その隔離されている局所的なコンテキストで動作する。そのような計測値は、その警報の重要性を判断するために、他の複数のルールからマッピングされている複数の等価しきい値とさらに比較される。そのため、不変量ネットワークを使用して、複数の個別のしきい値を大局的なコンテキストに導入することが可能になる。計測値が自身のルールだけではなく他のルールによってもチェックされるように、協調同僚評価機構を導入する。警報は、局所的なしきい値に同意している同僚の数を表している複数のNTVに基づいてランク付けされる。より高いNTVを有している警報は、より重要であるとランク付けされるべきであり、これは、より多くの同僚が、そのような警報を、それら自体が発生することになるからである。オペレータは、自身の経験と直感とによって複数のルールとしきい値とを設定する。各しきい値は正確には設定されていないのに対して、本アプローチは、そのような共同同僚評価機構を導入することによって、問題を通報する精度を向上させることができる。ルールのグループからの同意は、そのしきい値が偏っている可能性がある個別のルールよりもより正確である。本概念を示すために「障害モデル」を使用するが、本アプローチは、性能やセキュリティの管理などの他の業務の警報の管理に使用することもできる。例えば、セキュリティ問題の警報管理のために、障害モデルを攻撃モデルまたは異常モデルに置き換えてもよい。
我々は、全てのルールの述語論理は、xが計測値でxTがそのしきい値であるときに、「x>xT」(「>」論理とする)であると仮定している。ルールの述語論理が「x<xT」(「<」論理とする)の場合、本アプローチと方法1とは同じままである。しかし、「<」論理の下では、計測値が小さくなると、そのNTVはより大きくなり、それは「>」論理の下では反転する。実際に、あるルールは「>」論理を有しているのに対して、他のルールは「<」論理を有していることがある。問題は、これらの混ざり合ったルールからの警報をどのようにランク付けするかである。さまざまな計測値の背景にある障害モデルは未知であるため、我々は、計測値の実際の値を知ることなく、警報のPRTPをランク付けする。しかし、様々な障害モデルのせいで、我々は、「>」論理の1つのしきい値を「<」論路の他のしきい値と比較することによって、複数のPRTPをランク付けすることはできない、つまり、複数のPRTPの順序をしきい値の順序から直接導き出すことはできない。例えば、「>」論理の下で、計測値が増加するとPRTPは増加する。逆に、「<」論理の下で、計測値が増加すると、PRTPは減少する。我々は、これらの警報を、実際には未知のそれらの実際のPRTP値を使用してのみランク付けすることができる。そのため、ルールの述語論理に基づいて、我々は、警報を2つのクラスタに分割し、それらを別個にランク付けしなければならない。
実際に、「>」または「<」を有するルールは、装置の過負荷または装置のダウンなど、異なる装置の状態を監視するように設置されている。特定の装置の状態においては、警報の多くは、一方のクラスタにだけに属している可能性がある。ただし、我々は、同じ時間ステップにおいて受信した一式の警報だけをランク付けする。
ルールによっては、述語は、「x1 T<x<x2 T」や「x>x1 Tおよびy<yT」などの結合条件を有していることもある。そのようなルールからの警報を他の警報に対してどのようにランク付けするかも同じ問題である。結合条件は、いくつかの基本的な「>」と「<」の論理から構成することができる。たとえば、「x1 T<x<x2 T」は、「x>x1 T」と「x<x2 T」のように書き換えることができる。「and」で結合されている条件内のすべての「>」論理に対して、最も高い等価しきい値を有している倫理を使用して、その警報をランク付けすることができ、それは、その論理が他の全ての「>」論理を包含しているからである。逆に、「and」で結合されている条件内のすべての「<」論理に対して、最も低い等価しきい値を有している倫理を使用して、その警報をランク付けすることができ、それは、その論理が同様に他の全ての「<」論理を包含しているからである。
「or」で結合されている条件内の複数の論理については、我々は、どの論理が満たされているかを判断するために、実際の複数の計測値を使用することが可能で、それから、この論理だけを使用して、この条件に対応している警報をランク付けすることができる。ただし、「or」で結合されている条件は、実際には一般的ではなく、これは、問題の通報において異なるシナリオを区別できないためである。そのため、我々は、結合条件中の複数の「>」論理(または「<」論理)を、1つの「>」論理(または「<」論理)に変換することができる。結合条件が「>」論理と「<」論理の両方を有している場合、我々は、1つの警報を、「>」の警報と「<」の警報の両方のクラスタ中でランク付けすることになる。結合条件を備えているルールは、1つの「>」論理および/または1つの「<」論理を備えているルールに変換可能であって、そのルールは、さらに他のルールと共にランク付けすることができる。
図2に示しているように、いくつかの離れている不変量ネットワークが存在することがあり、各計測値ノードが、必ず他の計測値ノードから到達できるわけではない。互いに到達できない計測値から発生した複数の警報をランク付けするのは困難である。我々が、等価しきい値を実質的に予測できるようにし、さらに、複数の警報の重要性をランク付けできるようにするのが、不変量ネットワークである。そのため、我々は、同じサブネットワーク内の複数の計測値からの複数の警報だけをランク付けすることはできるが、分離されているサブネットワークにわたってはランク付けすることはできない。しかし、実際には、ほとんどの計測値は、同じ不変量ネットワークに属しており、これは、同じ外部要因、つまり、作業負荷の量に応答するためである。各警報を独立して分析することに比べて、各不変量サブネットワーク内で複数の警報をランク付けして、さらに複数の警報の各クラスタをそれらの重要性の順番によって分析することは依然として意味がある。
図7を参照すると、複数の警報の優先順位を設定する装置/方法の実例を示している。ブロック402において、監視されている装置データ間の関係を求めるためのモデルの安定した集合を求めるために、複数の不変量が抽出される。これは、ブロック404で、所与の時間窓内で監視されている複数のデータモデルの適合度スコアを計算することと、ブロック405で、適合しきい値未満のデータモデルを除外することと、ブロック406で、複数の時間窓にわたって、残りの複数の監視されているデータモデルを不変量と見なすことと、を有していてもよい。
ブロック408において、複数の不変量を抽出することによって作られた不変量ネットワークを使用して、複数のルールの等価しきい値が計算される。不変量ネットワークは、複数の計測値を表している複数のノードを有している。ブロック410において、他の計測値を予測するために、複数の値を不変量ネットワークのノード間で伝搬させる。ブロック411において、複数の値を伝搬させることは、複数の等価しきい値を得るために、他のノードからの複数のしきい値をマッピングすることを有している。
ブロック412において、所与の時間窓の間に、監視されている装置から一式の警報が受信される。ブロック414において、複数の警報の計測値が、複数の等価しきい値のベクトルと比較される。等価しきい値のこの比較は、計測値に対応している警報の重要性を定めるために使用される。重要性は、真の陽性を通報している確率を有していてもよい。比較は、ブロック415のしきい値違反の数(NTV)に基づいていてもよい。
ブロック416において、一式の警報がランク付けされる。ランク付けすることは、ブロック418において、複数の警報を重要性の順に処理することを含む。ランク付けすることは、一式の警報をランク付けするために、複数のNTVをソートすることによって実現されてもよい。
大規模装置における問題判定のための複数の警報の重要性をランク付けする装置と方法の好ましい複数の実施形態(実例を示すことを目的とし、限定を意図していない)を説明したが、上記教えに鑑み、当業者は修正と変形を行うことができる。そのため、添付の特許請求の範囲で概説したような本発明の範囲と精神の範囲内で、開示されている特定の実施形態を変更することができる。本発明の態様を特許法が要求する詳細さと具体性とを備えて説明したが、請求し特許証による保護を要望する内容を添付の請求項に記述している。

Claims (21)

  1. 監視されている装置データ間の複数の関係を求めるためのモデルの安定した集合を求めるために複数の不変量を抽出し、
    前記複数の不変量を抽出することによって作られた不変量ネットワークを使用して複数のルールの等価しきい値を計算し、
    所与の時間窓の間に、監視されている装置から一式の警報を受信し、
    前記複数の警報の計測値を前記複数の等価しきい値のベクトルと比較し、
    前記一式の警報をランク付けすること、
    を有する、複数の警報の優先順位を設定する方法。
  2. 前記複数の不変量を抽出することは、
    所与の時間窓内で監視されている複数のデータモデルの適合度スコアを計算し、
    適合しきい値未満の監視されているデータモデルを除外し、
    複数の時間窓にわたって、残りの複数の監視されているデータモデルを不変量と見なすこと、を有する、請求項1に記載の方法。
  3. 前記不変量ネットワークは、計測値を表している複数のノードを有し、他の複数の計測値を推定するために前記不変量ネットワークの前記複数のノード間で複数の値を伝搬させることをさらに有する、請求項1に記載の方法。
  4. 前記複数の値を伝搬させることは、前記複数の等価しきい値を得るために、他のノードからの複数のしきい値をマッピングすることを有する、請求項1に記載の方法。
  5. 前記複数の警報の計測値を前記複数の等価しきい値のベクトルと比較することは、前記計測値に対応する警報の重要性を求めるために、前記複数の等価しきい値を比較することを有する、請求項1に記載の方法。
  6. 前記重要性は、真の陽性を通報する確率を有している、請求項1に記載の方法。
  7. 前記ランク付けすることは、前記複数の警報を重要性の順に処理することを有する、請求項1に記載の方法。
  8. 前記複数の警報の計測値を前記複数の等価しきい値のベクトルと比較することは、
    しきい値違反の数(NTV)を求め、
    前記一式の警報をランク付けするために、前記NTVをソートすること、を有する、請求項1に記載の方法。
  9. コンピュータ読み取り可能プログラムを有し、前記コンピュータ読み取り可能プログラムはコンピュータ上で実行されるときに、前記コンピュータに請求項1の前記複数のステップを実行させる、コンピュータ読み取り可能媒体。
  10. 装置の1つまたは2つ以上の構成要素から監視履歴データを収集し、
    前記装置の監視履歴データ間の複数の関係を求めるためのモデルの安定した集合を求めるために複数の不変量を抽出し、
    前記監視されている複数の装置の構成要素から複数の管理ルールを収集し、
    前記複数の不変量を抽出することによって作られた不変量ネットワークを使用して前記複数の管理ルールの等価しきい値を計算し、
    所与の時間窓の間に、前記監視されている装置から一式の警報を受信し、
    しきい値違反の数(NTV)を計算するために、前記複数の警報の計測値を前記複数の等価しきい値のベクトルと比較し、
    前記一式の警報をランク付けするために、前記NTVをソートすること、
    を有する、複数の警報の優先順位を設定する方法。
  11. 前記複数の不変量を抽出することは、
    所与の時間窓内で監視されている複数のデータモデルの適合度スコアを計算し、
    適合しきい値未満の監視されているデータモデルを除外し、
    複数の時間窓にわたって、残りの複数の監視されているデータモデルを不変量と見なすこと、を有する、請求項10に記載の方法。
  12. 前記不変量ネットワークは、計測値を表している複数のノードを有し、他の複数の計測値を推定するために前記不変量ネットワークの前記複数のノード間で複数の値を伝搬させることをさらに有する、請求項10に記載の方法。
  13. 前記複数の値を伝搬させることは、前記複数の等価しきい値を得るために、他のノードからの複数のしきい値をマッピングすることを有する、請求項12に記載の方法。
  14. 前記複数の警報の計測値を前記複数の等価しきい値のベクトルと比較することは、前記計測値に対応する警報の重要性を求めるために、前記複数の等価しきい値を比較することを有する、請求項10に記載の方法。
  15. 前記重要性は、真の陽性を通報している確率を有している、請求項10に記載の方法。
  16. 前記ソートすることは、前記複数の警報を重要性の順に処理することを有する、請求項10に記載の方法。
  17. コンピュータ読み取り可能プログラムを有し、前記コンピュータ読み取り可能プログラムはコンピュータ上で実行されるときに、前記コンピュータに請求項10の前記複数のステップを実行させる、コンピュータ読み取り可能媒体。
  18. 複数のノードとしての複数の計測値と、監視されている装置データ間の複数の不変な関係を表している複数のエッジと、を使用して構築され、かつ、複数のルールについての複数の等価しきい値を計算するように構成されている、不変量ネットワークを保存するように構成されているプログラム保存媒体と、
    監視されている装置についての所与の時間窓の間に、複数の警報を発生するように構成されている警報発生器と、
    前記複数の警報の重要性を求めるために、計測値を局所しきい値および他のルールからマッピングされている複数の等価しきい値と比較するように構成されている同僚評価機構と、
    を有する、複数の警報の優先順位を設定する装置。
  19. 前記不変量ネットワークは、計測値を表している複数のノードを有し、他の複数のしきい値または複数の計測値を推定するために、前記不変量ネットワークの前記複数のノード間で複数の値を伝搬させる、請求項18に記載の装置。
  20. 前記重要性は、真の陽性を通報している確率を有している、請求項18に記載の装置。
  21. 前記複数の警報の計測値は、しきい値違反の数(NTV)を有する複数の前記等価しきい値のベクトルを有する、請求項18に記載の装置。
JP2011510528A 2008-05-21 2009-04-06 大規模装置内での問題の決定のための警報の重要性のランク付け Active JP5380528B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US5482408P 2008-05-21 2008-05-21
US61/054,824 2008-05-21
US12/259,623 US8098585B2 (en) 2008-05-21 2008-10-28 Ranking the importance of alerts for problem determination in large systems
US12/259,623 2008-10-28
PCT/US2009/039606 WO2009142832A2 (en) 2008-05-21 2009-04-06 Ranking the importance of alerts for problem determination in large systems

Publications (2)

Publication Number Publication Date
JP2011521380A true JP2011521380A (ja) 2011-07-21
JP5380528B2 JP5380528B2 (ja) 2014-01-08

Family

ID=41340747

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011510528A Active JP5380528B2 (ja) 2008-05-21 2009-04-06 大規模装置内での問題の決定のための警報の重要性のランク付け

Country Status (4)

Country Link
US (1) US8098585B2 (ja)
EP (1) EP2286337A4 (ja)
JP (1) JP5380528B2 (ja)
WO (1) WO2009142832A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016081104A (ja) * 2014-10-10 2016-05-16 荏原環境プラント株式会社 プロセス診断支援装置

Families Citing this family (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8874477B2 (en) 2005-10-04 2014-10-28 Steven Mark Hoffberg Multifactorial optimization system and method
US8019584B2 (en) * 2006-07-31 2011-09-13 Nec Laboratories America, Inc. Method and system for modeling likely invariants in distributed systems
JP4990018B2 (ja) * 2007-04-25 2012-08-01 株式会社日立製作所 装置性能管理方法、装置性能管理システム、および管理プログラム
US8185781B2 (en) * 2009-04-09 2012-05-22 Nec Laboratories America, Inc. Invariants-based learning method and system for failure diagnosis in large scale computing systems
US20100293618A1 (en) * 2009-05-12 2010-11-18 Microsoft Corporation Runtime analysis of software privacy issues
US8392760B2 (en) * 2009-10-14 2013-03-05 Microsoft Corporation Diagnosing abnormalities without application-specific knowledge
CN102576328B (zh) * 2009-10-15 2015-09-09 日本电气株式会社 系统操作管理装置、系统操作管理方法和程序存储介质
US8327189B1 (en) * 2009-12-22 2012-12-04 Emc Corporation Diagnosing an incident on a computer system using a diagnostics analyzer database
US9331897B2 (en) * 2011-04-21 2016-05-03 Telefonaktiebolaget Lm Ericsson (Publ) Recovery from multiple faults in a communications network
JP5488622B2 (ja) * 2012-01-16 2014-05-14 コニカミノルタ株式会社 画像形成装置
CA2796506A1 (en) * 2012-11-23 2014-05-23 Ibm Canada Limited - Ibm Canada Limitee Personalized budgets for financial services
US10133741B2 (en) 2014-02-13 2018-11-20 Amazon Technologies, Inc. Log data service in a virtual environment
US10296844B2 (en) * 2014-09-24 2019-05-21 Nec Corporation Automatic discovery of message ordering invariants in heterogeneous logs
US9521035B2 (en) * 2014-12-05 2016-12-13 Microsoft Technology Licensing, Llc Filtering non-actionable alerts
US10664535B1 (en) 2015-02-02 2020-05-26 Amazon Technologies, Inc. Retrieving log data from metric data
US10505869B2 (en) 2015-08-04 2019-12-10 International Business Machines Corporation Mimicking a presence notification from an application executing on a virtual component to optimize computing resource allocation/utilization
US10204211B2 (en) 2016-02-03 2019-02-12 Extrahop Networks, Inc. Healthcare operations with passive network monitoring
US10289471B2 (en) * 2016-02-08 2019-05-14 Nec Corporation Ranking causal anomalies via temporal and dynamical analysis on vanishing correlations
US20170277997A1 (en) * 2016-03-23 2017-09-28 Nec Laboratories America, Inc. Invariants Modeling and Detection for Heterogeneous Logs
WO2017176676A1 (en) * 2016-04-04 2017-10-12 Nec Laboratories America, Inc Graph-based fusing of heterogeneous alerts
WO2017176673A1 (en) * 2016-04-04 2017-10-12 Nec Laboratories America, Inc. Blue print graphs for fusing of heterogeneous alerts
US9729416B1 (en) 2016-07-11 2017-08-08 Extrahop Networks, Inc. Anomaly detection using device relationship graphs
US10402289B2 (en) * 2016-09-07 2019-09-03 Nec Corporation Fine-grained causal anomaly inference for complex system fault diagnosis
US10476673B2 (en) 2017-03-22 2019-11-12 Extrahop Networks, Inc. Managing session secrets for continuous packet capture systems
US10423409B2 (en) 2017-04-21 2019-09-24 Semmle Limited Weighting static analysis alerts
US10678673B2 (en) * 2017-07-12 2020-06-09 Fujitsu Limited Software program fault localization
US10592372B2 (en) * 2017-07-18 2020-03-17 Vmware, Inc. Confidence-controlled sampling methods and systems to analyze high-frequency monitoring data and event messages of a distributed computing system
US10063434B1 (en) * 2017-08-29 2018-08-28 Extrahop Networks, Inc. Classifying applications or activities based on network behavior
US9967292B1 (en) 2017-10-25 2018-05-08 Extrahop Networks, Inc. Inline secret sharing
US10389574B1 (en) 2018-02-07 2019-08-20 Extrahop Networks, Inc. Ranking alerts based on network monitoring
US10264003B1 (en) 2018-02-07 2019-04-16 Extrahop Networks, Inc. Adaptive network monitoring with tuneable elastic granularity
US10038611B1 (en) 2018-02-08 2018-07-31 Extrahop Networks, Inc. Personalization of alerts based on network monitoring
US10270794B1 (en) 2018-02-09 2019-04-23 Extrahop Networks, Inc. Detection of denial of service attacks
CN108509979B (zh) * 2018-02-28 2022-03-11 努比亚技术有限公司 一种异常检测方法、服务器及计算机可读存储介质
US10116679B1 (en) 2018-05-18 2018-10-30 Extrahop Networks, Inc. Privilege inference and monitoring based on network behavior
US10411978B1 (en) 2018-08-09 2019-09-10 Extrahop Networks, Inc. Correlating causes and effects associated with network activity
US10594718B1 (en) 2018-08-21 2020-03-17 Extrahop Networks, Inc. Managing incident response operations based on monitored network activity
US10965702B2 (en) 2019-05-28 2021-03-30 Extrahop Networks, Inc. Detecting injection attacks using passive network monitoring
US11165814B2 (en) 2019-07-29 2021-11-02 Extrahop Networks, Inc. Modifying triage information based on network monitoring
US11388072B2 (en) 2019-08-05 2022-07-12 Extrahop Networks, Inc. Correlating network traffic that crosses opaque endpoints
US10742530B1 (en) 2019-08-05 2020-08-11 Extrahop Networks, Inc. Correlating network traffic that crosses opaque endpoints
US10742677B1 (en) 2019-09-04 2020-08-11 Extrahop Networks, Inc. Automatic determination of user roles and asset types based on network monitoring
US11165823B2 (en) 2019-12-17 2021-11-02 Extrahop Networks, Inc. Automated preemptive polymorphic deception
US11501222B2 (en) * 2020-03-20 2022-11-15 International Business Machines Corporation Training operators through co-assignment
US11956253B1 (en) * 2020-06-15 2024-04-09 Exabeam, Inc. Ranking cybersecurity alerts from multiple sources using machine learning
EP4218212A1 (en) 2020-09-23 2023-08-02 ExtraHop Networks, Inc. Monitoring encrypted network traffic
US11463466B2 (en) 2020-09-23 2022-10-04 Extrahop Networks, Inc. Monitoring encrypted network traffic
US11190421B1 (en) * 2021-03-01 2021-11-30 International Business Machines Corporation Alerts reduction based on severity level using metric template matching and normalization rule
US11349861B1 (en) 2021-06-18 2022-05-31 Extrahop Networks, Inc. Identifying network entities based on beaconing activity
US11816080B2 (en) 2021-06-29 2023-11-14 International Business Machines Corporation Severity computation of anomalies in information technology operations
US11296967B1 (en) 2021-09-23 2022-04-05 Extrahop Networks, Inc. Combining passive network analysis and active probing
US11329863B1 (en) 2021-10-18 2022-05-10 Amdocs Development Limited System, method, and computer program for dynamic prioritization of monitoring system related alerts
US11843606B2 (en) 2022-03-30 2023-12-12 Extrahop Networks, Inc. Detecting abnormal data access based on data similarity

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11177549A (ja) * 1997-12-09 1999-07-02 Fujitsu Ltd トラフィック監視装置及びトラフィック監視方法
JP2007199795A (ja) * 2006-01-24 2007-08-09 Yokogawa Electric Corp アラーム情報処理装置およびアラーム情報処理方法
WO2008045709A1 (en) * 2006-10-12 2008-04-17 Nec Laboratories America, Inc. Method and apparatus for performing capacity planning and resource optimization in a distributed system

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6192112B1 (en) * 1995-12-29 2001-02-20 Seymour A. Rapaport Medical information system including a medical information server having an interactive voice-response interface
US6405327B1 (en) * 1998-08-19 2002-06-11 Unisys Corporation Apparatus for and method of automatic monitoring of computer performance
US6321338B1 (en) * 1998-11-09 2001-11-20 Sri International Network surveillance
US7096074B2 (en) * 2002-05-30 2006-08-22 Insyst Ltd. Methods and apparatus for early fault detection and alert generation in a process
US7444263B2 (en) * 2002-07-01 2008-10-28 Opnet Technologies, Inc. Performance metric collection and automated analysis
US7409721B2 (en) * 2003-01-21 2008-08-05 Symantac Corporation Network risk analysis
US7693810B2 (en) * 2003-03-04 2010-04-06 Mantas, Inc. Method and system for advanced scenario based alert generation and processing
US7774842B2 (en) * 2003-05-15 2010-08-10 Verizon Business Global Llc Method and system for prioritizing cases for fraud detection
US7259666B1 (en) * 2004-04-30 2007-08-21 Sprint Communications Company L.P. Method and system for displaying status indications from communications network
US8041799B1 (en) * 2004-04-30 2011-10-18 Sprint Communications Company L.P. Method and system for managing alarms in a communications network
EP1784719A4 (en) * 2004-08-24 2011-04-13 Univ Washington METHODS AND SYSTEMS FOR DETECTING CONTENT IN RECONFIGURABLE EQUIPMENT
US7590589B2 (en) * 2004-09-10 2009-09-15 Hoffberg Steven M Game theoretic prioritization scheme for mobile ad hoc networks permitting hierarchal deference
US20070250427A1 (en) * 2005-01-05 2007-10-25 The Northwestern Mutual Life Insurance Company Retirement planning system and method
US8874477B2 (en) * 2005-10-04 2014-10-28 Steven Mark Hoffberg Multifactorial optimization system and method
US7590513B2 (en) 2006-01-30 2009-09-15 Nec Laboratories America, Inc. Automated modeling and tracking of transaction flow dynamics for fault detection in complex systems
US8019584B2 (en) 2006-07-31 2011-09-13 Nec Laboratories America, Inc. Method and system for modeling likely invariants in distributed systems
TWI333170B (en) * 2006-11-09 2010-11-11 Inst Information Industry Complex event evaluation systems and methods, and machine readable medium thereof

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11177549A (ja) * 1997-12-09 1999-07-02 Fujitsu Ltd トラフィック監視装置及びトラフィック監視方法
JP2007199795A (ja) * 2006-01-24 2007-08-09 Yokogawa Electric Corp アラーム情報処理装置およびアラーム情報処理方法
WO2008045709A1 (en) * 2006-10-12 2008-04-17 Nec Laboratories America, Inc. Method and apparatus for performing capacity planning and resource optimization in a distributed system

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200900158215; 西村 祥治: 'システムメトリックの相関関係を用いた自律制御ポリシ開発手法の提案' マルチメディア,分散,協調とモバイル(DICOMO2007)シンポジウム論文集 情報処理学会シンポジ 第2007巻,第1号, 20070704, p.1532-1537, 社団法人情報処理学会 *
JPN6013037581; 西村 祥治: 'システムメトリックの相関関係を用いた自律制御ポリシ開発手法の提案' マルチメディア,分散,協調とモバイル(DICOMO2007)シンポジウム論文集 情報処理学会シンポジ 第2007巻,第1号, 20070704, p.1532-1537, 社団法人情報処理学会 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016081104A (ja) * 2014-10-10 2016-05-16 荏原環境プラント株式会社 プロセス診断支援装置

Also Published As

Publication number Publication date
US20090292954A1 (en) 2009-11-26
EP2286337A4 (en) 2014-11-05
WO2009142832A2 (en) 2009-11-26
US8098585B2 (en) 2012-01-17
EP2286337A2 (en) 2011-02-23
WO2009142832A3 (en) 2010-01-14
JP5380528B2 (ja) 2014-01-08

Similar Documents

Publication Publication Date Title
JP5380528B2 (ja) 大規模装置内での問題の決定のための警報の重要性のランク付け
Soldani et al. Anomaly detection and failure root cause analysis in (micro) service-based cloud applications: A survey
US8635498B2 (en) Performance analysis of applications
Chen et al. Outage prediction and diagnosis for cloud service systems
US8015139B2 (en) Inferring candidates that are potentially responsible for user-perceptible network problems
Chen et al. CauseInfer: Automated end-to-end performance diagnosis with hierarchical causality graph in cloud environment
US7693982B2 (en) Automated diagnosis and forecasting of service level objective states
Jiang et al. Efficient fault detection and diagnosis in complex software systems with information-theoretic monitoring
US7890808B2 (en) Testing software applications based on multiple data sources
US20110087924A1 (en) Diagnosing Abnormalities Without Application-Specific Knowledge
US8204719B2 (en) Methods and systems for model-based management using abstract models
Zhang et al. Accountability monitoring and reasoning in service-oriented architectures
Ge et al. Ranking metric anomaly in invariant networks
Jiang et al. Ranking the importance of alerts for problem determination in large computer systems
Zeng et al. Traceark: Towards actionable performance anomaly alerting for online service systems
Chen et al. Automatic root cause analysis via large language models for cloud incidents
Wang et al. Aistar: an intelligent system for online it ticket automation recommendation
Hu et al. TS-InvarNet: Anomaly detection and localization based on tempo-spatial KPI invariants in distributed services
Gu et al. Performance issue identification in cloud systems with relational-temporal anomaly detection
Smit et al. Autonomic configuration adaptation based on simulation-generated state-transition models
Schoenfisch et al. Using abduction in markov logic networks for root cause analysis
Rouf et al. InstantOps: A Joint Approach to System Failure Prediction and Root Cause Identification in Microserivces Cloud-Native Applications
Natu et al. Automated debugging of SLO violations in enterprise systems
Piao et al. Problem localization using probabilistic dependency analysis for automated system management in ubiquitous computing
Inzinger et al. Identifying incompatible service implementations using pooled decision trees

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120402

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130717

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130806

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130821

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130924

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130930

R150 Certificate of patent or registration of utility model

Ref document number: 5380528

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350