JP2011521380A

JP2011521380A - 大規模装置内での問題の決定のための警報の重要性のランク付け

Info

Publication number: JP2011521380A
Application number: JP2011510528A
Authority: JP
Inventors: グオフェイジアーン、; ハイフェンチェン、; 健治吉平
Original assignee: NEC Laboratories America Inc
Current assignee: NEC Laboratories America Inc
Priority date: 2008-05-21
Filing date: 2009-04-06
Publication date: 2011-07-21
Anticipated expiration: 2029-04-06
Also published as: US20090292954A1; EP2286337A4; WO2009142832A2; US8098585B2; EP2286337A2; WO2009142832A3; JP5380528B2

Abstract

複数の警報の優先順位を設定する装置と方法とは、監視されている装置データ間の複数の関係を求めるためのモデルの安定した集合を求めるために複数の不変量を抽出することを有する。複数のルールの複数の等価しきい値は、複数の不変量を抽出することによって作られた不変量ネットワークを使用して計算される。所与の時間窓の間、監視されている装置から一式の警報が受信される。複数の警報の計測値が複数の等価しきい値のベクトルと比較され、一式の警報がランク付けされる。
【選択図】図１

Description

本出願は、本明細書に参照によって援用される２００８年５月２１日に出願された仮出願番号第６１／０５４，８２４号に対する優先権を主張する。

本発明は、コンピュータ装置とネットワーク管理に関し、特に、問題決定のために計算装置の複数の警報の重要性を決定する装置と方法とに関する。

大規模な計算装置の複雑性は、装置管理について前例のない問題を引き起こしている。ルールベースの装置が、運用装置管理のために実際に広く使用されている。しかし、様々なルールからの警報は、通常、問題の通報の精度が異なり、その理由は、それらのしきい値が複数のオペレータの経験と直感とに基づいて手動で設定されることが多いためである。他方で、装置の依存性のために、大規模な装置において１つの問題が同時に多くの警報のきっかけになることがあり、以降の問題の判断処理においてどの警報を最初に分析すべきかが重要な問題である。

現在のルールベースの装置においては、これは２つの考え得る解決策によって対処されている。一方の解決策においては、各ルールはその独立した局所的なコンテキストにおいて動作し、オペレータは、複数の警報を一つずつ確認しなければならない。オペレータは、複数の警報の重要性を判断するために、何らかの限定された領域の知識を使用するであろう。例えば、ＤＮＳサーバーからの警報は、プリンタからの警報よりも重要である。そのようなアプローチはスケーラブルではなく、非常に複雑な大規模装置では現実的ではない。

第２の解決策では、一式の警報を特定の問題に関連させるために、つまり、一式の警報を使用して既知の問題の署名を定義するために、イベント相関機構が使用される。このアプローチは、さまざまな問題とそれらの署名との事前の知識を想定しなければならない。しかし、大規模で複雑なＩＴ装置では、多くの問題は予期されていないし、十分に理解されていない。装置のダイナミックスと不確かさのせいで、同じ問題でさえ、それ自身が、非常に異なる道のりで現れることがある。そのため、複雑で動的な装置においては、問題の署名を正確に定義することは困難である。

課題を解決するめの手段

複数の警報の優先順位を設定する装置と方法とは、監視されている装置データ間の複数の関係を求めるためにモデルの安定した集合を求めるための複数の不変量を抽出することを有する。複数のルール用の複数の等価しきい値は、複数の不変量を抽出することによって作られた不変量ネットワークを使用して計算される。所与の時間窓の間に、監視されている装置から一式の警報が受信される。複数の警報の計測値が複数の等価しきい値のベクトルと比較され、一式の警報がランク付けされる。

警報の優先順位を設定する他の方法は、装置の１つまたは２つ以上の構成要素から監視履歴データを収集することと、装置の監視履歴データ間の関係を求めるためにモデルの安定した集合を求めるための複数の不変量を抽出することと、監視されている複数の装置の構成要素から複数の管理ルールを収集することと、不変量を抽出することによって作られた不変量ネットワークを使用して複数の管理ルール用の等価しきい値を計算することと、所与の時間窓の間に、監視されている装置から一式の警報を受信することと、しきい値違反の数（ＮＴＶ）を計算するために、複数の警報の計測値を複数の等価しきい値のベクトルと比較することと、一式の警報をランク付けするために、ＮＴＶをソートすることと、を有する。

複数の警報の優先順位を設定する装置は、複数のノードとしての複数の計測値と、監視されている装置データ間の複数の不変な関係を表している複数のエッジと、を使用して構築された不変量ネットワークを保存するように構成されているプログラム保存媒体を有する。不変量ネットワークは、複数のルール用の複数の等価しきい値を計算するように構成されている。警報発生器は、監視されている装置用の所与の時間窓の間に、複数の警報を発生するように構成されている。同僚評価機構は、複数の警報の重要性を求めるために、計測値を、局所しきい値および他のルールからマッピングされている複数の等価しきい値と、比較するように構成されている。

これらの、そしてその他の特徴と利点とは、添付図面と共に読まれるそれらの具体的な実施形態の以下の詳細な説明から明らかになるであろう。

本開示は、以下の図面に関する好ましい実施形態の以下の説明において詳細を与える。

本原理に従っているコンピュータ装置および／またはネットワーク内で警報の優先順位を設定する装置／方法を示しているブロック／フロー図である。本原理に従って採用されている不変量ネットワークの一例の図である。監視されているデータと比較されるしきい値を得るための実例の障害モデルのグラフである。複数のしきい値に対して比較される計測値を示しているグラフである。様々なコンテキスト計測値に対する複数のしきい値を示しているグラフである。実例の実施形態による複数の警報の優先順位を設定する警報のランク付け機構をより詳しく示しているブロック／フロー図である。本原理に従って複数の警報の優先順位を設定する装置／方法とを示しているブロック／フロー図である。

同僚評価機構と方法とは、複数の警報の重要性をランク付けするために設けられており、最上位にランク付けされた複数の警報は、真の陽性である可能性が高い。メトリック値をそのしきい値と比較して複数の警報を発生した後、本原理は、複数の警報の重要性を求めるために、複数の値を、多くの他のルールからの複数の等価しきい値とも、比較する。本アプローチは、評価されその有効性が示されている。

複数の本実施形態は、同僚評価機構を有しており、同僚評価機構で、複数の警報の重要性を定めるために、計測値が、局所しきい値と比較されるだけでなく、他のルールからマッピングされている複数の等価しきい値とも比較される。最上位にランク付けされている複数の警報は、より重要であり、それは、それらが他の複数のルールからの同意を得ており、より真の陽性である可能性が高いためである。オペレータは、多くの誤った警報によって誤った方向に導かれないように問題決定処理の優先順位を設定するために、最上位にランク付けされている複数の警報を信頼できる証拠として使用することができる。

不変量技術は、複数の監視メトリックの間の不変な関係を見つけることができる。例えば、ｘ、ｙが２つのマシンのＣＰＵ使用率である場合に、我々は、それらの関係、例えばｙ＝ｆ（ｘ）を自動的に抽出することができる。そのような不変量方程式によって、我々は、１つのメトリック（例えばｘ）のしきい値を、他のメトリック（例えばｙ）のコンテキストにおける等価な値にマッピングすることができる。そのため、我々は、しきい値の「緊迫度」をランク付けし、さらに複数の警報の重要性をランク付けするために、様々なルールの複数のしきい値を、大局的なコンテキストにおけるそれらの等価しきい値にマッピングすることができる。計測値は、それ自体のルールによってのみチェックされるだけでなく、その同僚の他のルールによってもチェックされる。最上位にランク付けされている警報は、より重要であり、それは、より多くの同僚がそれら自身でそのような警報を発生するであろうためである。各しきい値は、正確には設定されていない場合があるが、本アプローチは、そのような共同同僚評価機構を導入することによって、問題を通報する精度を向上させることができる。ルールのグループからの同意は、しきい値が偏っている可能性がある個別のルールよりもより正確である。

本明細書に記載している複数の実施形態は、完全にハードウェアとしたり、完全にソフトウェアとしたり、ハードウェア要素とソフトウェア要素との両方を有するようにすることができる。好ましい実施形態では、本発明は、ファームウェア、常駐ソフトウェア、マイクロコード等を有するがこれらには限定されないソフトウェアで、実装されている。

実施形態は、コンピュータまたは任意の命令実行装置によってまたはそれらと共に使用されるプログラムコードを提供する、コンピュータが使用可能なまたはコンピュータが読み取り可能な媒体から、アクセス可能なコンピュータプログラム製品を有していてもよい。コンピュータが使用可能なまたはコンピュータが読み取り可能な媒体には、命令実行装置によってまたはそれと共に使用されるプログラムを保存し、通信し、伝搬させ、または、運搬する任意の装置が含まれる。媒体は、磁気、光学、電子、電磁、赤外線、または半導体のシステム（または機械または装置）または伝搬媒体とすることができる。媒体は、半導体または固体状態メモリ、磁気テープ、取り外し可能なコンピュータディスケット（登録商標）、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、非柔軟磁気ディスク、光学ディスク等のコンピュータが読み取り可能な媒体を有していてもよい。

同じ参照番号が同じまたは同様な構成要素を指している図面をここで参照し、また最初に図１を参照すると、ブロック／フロー図は、混成で複雑な装置のルールベース装置からの複数の警報の重要性をランク付けすることによって、複数の警報を評価する装置／方法を示している。さまざまな意味を備えているさまざまなメトリックを直接比較する方法がなく、それらの障害モデルが実際には未知であるため、真の陽性を通報する確率に基づいて複数の警報をランク付けするアプローチは有益である。

大規模な装置１０２は、１つまたは２つ以上のプロセッサとメモリ装置とを有する装置を有していてもよい。大規模な装置１０２は、１つまたは２つ以上のより小さい複数の装置を有していてもよい。より小さい複数の装置の各々は、装置またはソフトウェアプログラムの複数の警報を判断しランク付けする一式のルールを有していてもよい。

オンラインサービスの人気によって、何百万ものオンラインユーザに同時に対応するための重要なインフラとして、多くの大規模な分散装置とデータセンターとが構築されている。これらの巨大な装置の複雑さによって、それらを維持し管理するための作業は、前例のない問題も引き起こしている。これらの装置は、異なる複数の販売者によって通常供給されるサーバー、ルーター、記憶装置、ソフトウェアなどの数千の異種の構成要素を統合することによって、通常展開される。電話装置などの大規模なハードウェアベースの装置と比較すると、計算装置上で動作している多数のソフトウェア構成要素が、装置構成要素間の依存性と相互動作とをわかりにくくしている。オペレーティングシステムなどの個別の構成要素は、すでに十分に複雑である上に、ソフトウェアによってもたらされる多数の内在している要素の依存性は、今日の計算装置の複雑性を劇的に増加させている。一方、大規模な装置の多くは静的ではなく、セキュリティパッチのインストール、ソフトウェアまたはハードウェアのアップグレード、および、構成の修正などの多数の変更に伴って、常に発展している。そのため、装置の規模、不均一性、動的性質と、隠れた依存性と、のすべてが、複雑さの管理を難しくしている。

そのような大規模装置の多くは、本質的にミッションクリティカルな装置であって、数分のシステムダウンでさえ、業務における大きな収益の損失につながる可能性があり、さらに我々の正常な生活に影響する。例えば、２００７年４月１７日のＢｌａｃｋＢｅｒｒｙ（商標）電子メールサービスのシステム障害は、数百万人もの顧客に影響を与えた。そのため、サービスプロバイダは、そのインフラとサービスとを運用するために、大規模装置管理チームを通常設立している。実際には、オペレータが、インフラの状態を追跡するために、大量の監視データを装置の複数の構成要素から収集する。

大量のデータを手動で走査し解釈することは実時間では不可能なため、オペレータは、データをチェックし警報を発生させる多くのルールを通常設定している。たとえば、選択されたメトリック（例えばＣＰＵ使用率）が所与のしきい値を超えた場合、調査を行うこともあるオペレータに通知するために、警報が発生される。しかし、装置の複雑さのせいで、ルールにおいて適切なしきい値を設定することは困難であり、不適切なしきい値は、問題の通報において、偽の陽性または偽の陰性を導くことが多い。

様々なオペレータが、自分の個人的な管理の経験と直感とに基づいて、自分の装置において様々なルールとしきい値とを設定することがある。たとえば、新人と比較して経験のあるオペレータは、より良いルールとしきい値とを設定できるし、他のオペレータよりも高いしきい値を常に設定しがちなオペレータがいる可能性もある。その結果、様々なルールから発生する警報は、問題の通報についての精度がさまざまになる可能性があって、他の警報よりもより「重要な」警報が存在する可能性もある。ルール管理、特に、多くのオペレータによって管理されている大規模な装置のルール管理において、様々なルールとしきい値を正規化することは困難である。

装置の依存性のせいで、１つの障害や性能の問題が、多くの警報を同時に引き起こすことがある。すべての警報の分析には、時間がかかり過ぎて問題を解決できない可能性があり、また全ての警報が同じように重要ではないため、問題は、どの警報をまず分析すべきかということになる。ミッションクリティカルな装置については、装置の高い信頼性と可用性とを維持するように、ＭＴＴＲ（平均修復時間）を短縮することが非常に重要である。

ブロック１０３においては、大規模な装置の複数の装置構成要素から監視履歴データが収集される。ブロック１０４においては、以降でより詳細に説明される不変量が抽出される。さまざまな監視データの間には、多くの隠れた不変量の関係が存在し、それゆえに、監視データの強さは、外部の作業負荷の量に応答する。そのような不変量の関係によって、我々は、１つのメトリックのしきい値を他のメトリックのしきい値と比較することができる。現在のルールベースの装置においては、各ルールは、計測値を、そのしきい値と比較することによって、その隔離された局所的なコンテキストにおいて動作する。そのような計測値は、警報を大局的なコンテキストでランク付けするために、他の複数のルールからマッピングされている複数の等価しきい値と、さらに比較される。最上位にランクされた警報は、問題の判断において最初に調べるべきである真の陽性である可能性がより高い。

我々は、計測値が自身のルールだけではなく他のルールによってもチェックされるように、重要性のランク付けに協調同僚評価機構１３０を導入する。その結果、他の複数のルールから得られる同意がより多い場合、警報は、より重要であるとランク付けされる。

装置の不変量：装置の不変量は、複数の装置監視メトリックの間の隠れた不変の関係を特徴付ける。我々は、１つのメトリックのしきい値を他のメトリックの等価なしきい値にマッピングするために、そのような不変量の関係を使用し、それによって、さまざまなルールのしきい値をランク付けし、警報の重要性を判断することができる。

オペレータは、多数の監視データ（１０３）を、複雑な装置（１０２）から、その動作状態を追跡するために収集する。ログファイルとネットワークトラフィックの統計情報は、そのような監視データの典型的な例である。この監視データは、装置の内部状態の観測量と見なすことができる。オンラインサービスについては、大量のユーザ要求が、分散している装置を通して流れたときに、それに応じて、内部計測値の多くは、作業負荷の量に応答する。たとえば、ネットワークトラフィックの量とＣＰＵ使用率とは、作業負荷の強さによって、上昇したり下降したりする。流れの強さは、内部計測値が作業負荷の量に応答する強さを示している。たとえば、ＳＱＬクエリーの数と平均ＣＰＵ使用率（サンプリング部ごと）とは、そのような流れの強さの計測値の例である。便宜上、我々は、ｘとｙのような変数を、流れの強さの計測値を示すために使用する。

流れの強さの計測値は、同じ外部要因つまり作業負荷の強さによって主に変化するため、流れの強さの計測値は、時間ｔに沿って変化する曲線を有している。時系列として、多くの流れの強さの計測値は、強い相関を有しており、本明細書では、我々は、２つの計測とｘとｙとの関係を特徴付けるためにｙ＝ｆ（ｘ）のような式を使用する。時間の経過に沿ってそのような関係が常に成立する場合、それらは、背景にある装置の不変量と考えられる。どのように作業負荷が変化しようと、そのような装置の不変量は同じままである。ただし、計測値ｘとｙではなく式ｙ＝ｆ（ｘ）が不変量と考えられる。

大規模な装置全体にわたってさまざまな点において計測された流れの強さを使用して、我々は、それらの関係（ブロック１０４）をどのように抽出するか、つまり、我々がｙ＝ｆ（ｘ）を得ることができるように、計測値ｘとｙとを使用して関数ｆをどのようにして学習するかを決定する必要がある。我々は、それらの線形な関係を学習するために、実例として外部入力付き自己回帰モデル（ＡＲＸ）を採用する。時刻ｔにおいて、我々は、２つの点において計測された流れの強さをｘ（ｔ）とｙ（ｔ）とそれぞれ表す。ＡＲＸモデルは、２つの流れの強さの間の以下の関係を記述する。

ここで［ｎ、ｍ、ｋ］はモデルの次数であって、この関係は、いくつか以前のステップが現在の出力に影響することを定めている。ａ_iとｂ_jとは、以前のステップが現在の出力にどれだけ強く影響しているかを表している係数パラメータである。便宜上、我々は、θを使用して一式の係数パラメータを表す、つまり

とする。

監視データの窓

が与えられたときに、学習されたモデルと所与の監視データとの間の誤差を最小化する最適なθを求めるために、最小自乗法（ＬＳＭ）を採用することができる。θの計算の方法の詳細は、参照によって本明細書に援用される以前の業績、Ｊｉａｎｇ他、「ＤｉｓｃｏｖｅｒｉｎｇＬｉｋｅｌｙＩｎｖａｒｉａｎｔｓｏｆＤｉｓｔｒｉｂｕｔｅｄＴｒａｎｓａｃｔｉｏｎＳｙｓａｔｅｍｓｆｏｒＡｕｔｏｍａｔｉｃＳｙｓｔｅｍＭａｎａｇｅｍｅｎｔ：自動システム管理のための分散処理システムの有望な不変量の発見」、Ｔｈｅ３ｒｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｕｔｏｍａｔｉｃＣｏｍｐｕｔｉｎｇ（ＩＣＡＣ２００６）、１９９−２０８頁、ダブリン、アイルランド、２００６年６月に記述されている。我々は、モデルの確認用の正規化適合度スコアを計算するために、以下の式を使用する。

ここで

は、実際の監視データｙ（ｔ）の平均値である。監視データｘ（ｔ）とθとが与えられると、

は、式（１）に示されているモデルからの出力である。基本的に、式（２）は、学習されたモデルがどれだけ良好に実際のデータを近似できるかを評価するために、メトリックを導入する。２つの流れの強さが与えられると、我々は、モデルを常に学習することができるが、高い適合度スコアを有しているモデルだけが、実際の関係を特徴付けている。我々は、複数のモデルの候補の一覧を学習するために、固定された数ではなく次数[ｎ、ｍ、ｋ]の範囲を設定することが可能で、それから、最も高い適合度スコアを有するモデルを選択する。

我々は、２つの流れの強さ用のモデルを学習した後、我々は、そのような関係が時間の経過と共に成立するかどうかを確認することが依然として必要である。監視データから不変量を抽出するには、我々は、まず、モデルを構成するために、２つの計測値のあらゆる組み合わせを試してみて、それから、このモデルが、新しい観測値に適合するかどうかを継続して確認する、つまり、我々は、力任せの検索を使用して、不変量の全ての仮定をまず構築し、それから、これらの仮定の妥当性を動作中に順次テストする。ただし、我々は、これらの仮定の妥当性を、時間を経過しながら確認するために、２４時間、３６５日動作している装置から、十分な監視データを常に得ている。監視データの時間窓ごとに、我々は、適合性スコアＦ（θ）を計算するために式（２）を使用する。適合性スコアが低いモデルは、実際のデータの関係を特徴付けることがないため、我々は、これらのモデルを順次テストにおいて除外するために、しきい値

を選択する。そのため、各時間窓において

よりも適合度スコアが低いモデルは、以降のテスト過程から除外されることになる。いくつかの時間窓を使用した後、残った安定した一式のモデルが装置の不変量と考えられる。

これらの不変量は、大規模な分散装置内には広く存在し、装置の構成要素の物理的な性質やソフトウェアロジックの拘束条件によって支配されている。ウェブサーバー、アプリケーションサーバー、および、データベースサーバーを有している通常の３層ウェブ装置について、我々は、たとえば、１１１個の計測値を収集し、さらに、それらの間の９７５個の不変量を抽出した。

図２を参照して、不変量ネットワーク内での、値の伝搬を以降で説明する。図２は、流れの強さの計測値の間の関係の概略を表している不変量ネットワークの小規模な例を示している。各ノードｉ（ノード１〜８として示している）は、計測値Ｉ_iを表しているのに対して、各エッジは、２つの関連付けられている計測値の間の不変量の関係を表している。我々は、適合度スコアの低いモデルを除外するためにしきい値

を使用しているため、計測値の各対が不変量の関係を有することはない。そのため、図２には、接続されていないサブネットワーク７と８も存在している。全てのエッジは双方向であり、その理由は、我々は、２つの計測値の間に（反対の入力と出力とを備えている）２つのモデルを常に構成するからである。

ここで、｛Ｉ₁、Ｉ₂、Ｉ₄｝のような３つの計測値の間の三角形の関係を考える。我々は、Ｉ₂＝ｆ（Ｉ₁）およびＩ₄＝ｇ（Ｉ₂）と仮定し、ここでｆとｇとは、共に式（１）に示したような線形関数である。三角形の関係に基づくと、理論的に、我々は、Ｉ₄＝ｇ（Ｉ₂）＝ｇ（ｆ（Ｉ₁））と結論することができる。関数ｆとｇとの線形の特性によって、関数ｇ（ｆ（．））も当然線形であって、これは、計測値Ｉ₁とＩ₄との間に不変量の関係が当然存在することを意味している。しかし、我々は、適合度スコアの低いモデルを除外するために、しきい値を使用しているため、そのような線形な関係は不変量であると見なすのに十分に頑強ではない場合もある。これが、Ｉ₁とＩ₄との間に直接のエッジが存在しない理由である。

各個別の不変量は、対応している複数の計測値の間の何らかの局所的な関係をモデル化しているのに対して、不変量のネットワークは、背景にある大規模な装置の多くの不変量の拘束条件を本質的に捕らえることができる。そのため、１つまたはいくつかのモデルを使用するのではなく、我々は、大規模な装置を特徴付けるように、多数の不変量を組み合わせてネットワークにして、さらに、このネットワークを、図１のブロック１０４内の複数の装置の管理業務用に使用する。値は、ネットワークをたどることによって、１つのノードから他の複数のノードにおけるその等価な値に伝搬させることができる。この機構は、後に、様々なルールの複数のしきい値の比較に使用される。

一般性を失うことなく、Ｉ₁＝ｘと仮定する。図２によれば、我々は、Ｉ₁から２つのノード｛Ｉ₂、Ｉ₃｝に１ホップで到達することができる。Ｉ₁＝ｘの場合、他の計測値を推定するためにどのように不変量をたどるのかが問題になる。我々は、複数の計測値の間の複数の不変量を抽出するために、式（１）に示しているモデルを使用するので、全ての不変量がこのモデルテンプレートのインスタンスである。式（１）において、我々が、全ての時間ステップにおいて入力ｘ（ｔ）＝ｘと設定すると、出力ｙ（ｔ）は一定値ｙ（ｔ）＝ｙに収束し、これは以下の２つの式から導出することができる。

便宜上、我々は、Ｉ_iからＩ_jへの伝搬関数、つまり

を表すのにｆ_ijを使用する。ただし、不変量モデルの次数は非常に小さくｎ、ｍ≦２である。式（３）によって、Ｉ₁＝ｘの場合、我々は、値Ｉ₂とＩ₃を導出することができる。これらの計測値は、他の不変量の入力であるため、同様に、我々は、それらの値を１ホップでＩ₄とＩ₅に、２ホップでＩ₆にさらに伝搬することができる。我々は、値Ｉ₇とＩ₈を予測することはできないが、これはそれらがＩ₁から到達できないからである。

図２において、Ｉ₄、Ｉ₅、およびＩ₆のようないくつかのノードは、複数の経路を通って、Ｉ₁から到達可能である。同じ２つのノード間で、複数の経路が異なる数のエッジを有しており、２つのノードの関係をモデル化する場合に、各不変量（エッジ）も、異なる精度を有していることがある。問題は、値を一方ノードから他方のノードへ伝搬させるための最適な経路をどのようにして見つけるかである。まず、我々は、２つのノード間で値を伝搬させるための最も短い経路（ホップ数が最小）を選択することになる。各不変量は、２つの計測値の間の関係を特徴付ける場合に、何らかのモデル化誤差を有している。これらのモデル化誤差は、経路に沿って蓄積することがあり、経路がより長いと、通常、予測誤差もより大きくなる。

適合度スコアを不変量の頑強性を計測するために導入することが可能で、より高い適合度スコアを備えている不変量は、値の伝搬において、より高い精度につながる。簡単のために、我々は、計測値Ｉ_iとＩ_jとの間の平均適合度スコアを表すために、ここではＦ_ijを使用する。Ｉ_iとＩ_jとの間に不変量が存在しない場合、我々は、Ｆ_ij＝０と設定する。２つのノードの間の所与の特定の経路ｓが与えられると、我々は、全体の経路の精度を評価するために、蓄積されたスコアｑ_s＝？Ｆ_ijを常に導出することができる。２つのノードの間の同数のエッジを有する複数の経路について、我々は、最も高いスコアｑ_sを有する経路を求めるために、動的プログラミングアルゴリズムを使用して、それから、この経路をたどって値を伝搬させることができる。そのため、１つのノードにおいて値が与えられると、我々は、この値を他の全ての到達可能なノードに伝搬させるために、不変量ネットワークを常にたどることができる。

図１を再度参照すると、ブロック１０６と１０８とは、警報ランク付け機構１３０を構成している。ブロック１１２において、管理ルールが装置から収集され、ブロック１０６において、全ての等価しきい値が、複数のルール（ブロック１１２）と複数の不変量（ブロック１０４）とに基づいて計算される。

時刻ｔにおいて、一式の警報が、ブロック１１０において、１つまたは２つ以上の装置から受信され、ブロック１０８において、各警報の実際の計測値が、しきい値違反の数（ＮＴＶ）を計算するために、その等価しきい値のベクトルと比較される。ＮＴＶは、受信した一式の警報のランク付けのためにソートされる。プログラムの経路は、次の時間窓の処理のために、ブロック１１０に戻る。

ルールと障害モデル：オペレータは、監視エージェントを展開して、監視エージェントが担当する装置の動作状態を追跡するために、実時間監視データを収集する（ブロック１０３）。ルールベース装置は、問題の判断のために、データを走査し、警報を発生させるように、広く使用されている。しかし、複雑な装置において、適切なルールとしきい値とを設定することは困難である。実際に、オペレータは、自身の装置管理の経験と直感とに基づいて、ルールとしきい値とを設定することが多い。その結果、さまざまなルールからの警報が、多数の偽の陽性を有していることが多い。偽の陽性が多いと、現場のオペレータをいらいらさせることが多く、警報を無視したり、警報を除外するように、それらのしきい値を増加させることになり、それは、逆に偽の陰性の割合の増加につながることもある。

本装置においては、装置全体にわたって複数の等価しきい値を求めることを支援するために、複数のルールが、ブロック１１２において採用されている。大規模な複数の装置は、装置のさまざまな部分を担当している何百人ものオペレータによって監視され管理されることが多い。各オペレータは、複数の装置の自分が担当している局所的な部分におけるルールやしきい値の設定において、自身の好みを有していたり偏りを有している場合がある。実際に、装置の構成要素も、それらの製造元による管理ルールを有していることがある。これらのルールとしきい値が全て、異種の構成要素を有しているそれらの局所的なコンテキストで設定されているため、大規模な装置において、しきい値と管理ルールとを正規化することは困難である。装置の依存性のために、大規模な装置においては、１つの問題が多数の警報のきっかけとなることがある。警報の多くは、偏っているしきい値の設定のせいで、偽の陽性となることがある。

これらのルールは、複数の不均一な設定の下では、容易に比較することができないため、どの警報が重要であるかを判断することは困難である。小規模な装置においては、オペレータは、どのカテゴリの警報がより重要であるかを判断するための領域の知識を使用することができる。例えば、ＤＮＳサーバーからの警報は、プリンタからの警報よりも重要であるかもしれない。しかし、非常に複雑な大規模装置では、そのようなアプローチは明らかにスケーラブルではなく、また現実的ではない。多くの大規模な装置は、サービスプロバイダにとっては、オンラインサービスを実行し、収益を生み出す重大なインフラである。オペレータは、装置の高い信頼性と可用性とを維持するように、どのような問題でも解決しなければならない。そのため、一切のガイドラインなしに各警報を分析するには時間がかかり過ぎ、また、オペレータは、偽の陽性の分析に多くの時間を浪費することもある。そのため、本原理は、オペレータが自身の問題判断処理に優先順位を付けるためのガイドラインとして参考にできる警報の重要性をランク付けする新規のアプローチを提供する。

そのためには、装置についての複数のルール（１１２）は、どのような制限つまりパターンを有していてもよい。一例においては、ルールは、述語とアクションとを有している。例えば、計測値ｘ（ＣＰＵ使用率）が与えられると、もし（ｘ＞ｘ^T）ならば、ｇｅｎｅｒａｔｅ＿ａｌｅｒｔ１が得られ、ここでｘ^Tはしきい値である。述語は、「ｘ＜ｘ^T」のような他の１つの論理条件または「ｘ＞ｘ^Tおよびｙ＞ｙ^T」のような数個の結合されている条件などを有していてもよい。警報は、それ自体を説明するための文字のメッセージを有してもよい。そのような定義は、商用装置において警報管理に採用されている。例えば、ＶＭｗａｒｅの警報管理においては、ＶＭのＣＰＵとメモリの使用率に加えて、そのＨｅａｒｔｂｅａｔ数を管理するために、ユーザは、２つのトリガオプション「ＩｓＡｂｏｖｅ（＜）」および「ＩｓＢｅｌｏｗ（＜）」によって警報を発生するルールを定義することができる。仮想機械のｈｅａｒｔｂｅａｔの既定のモニタは、「ＩｓＢｅｌｏｗ」に設定されているのに対して、他の全てのメトリックのモニタは「ＩｓＡｂｏｖｅ」に設定されている。便宜上、我々は、本実施形態の基本概念を説明するために、前述の例の数個のルールを使用する。

理論上、ルールの背景には、未知の障害モデルが存在している。図３を参照すると、そのようなモデルの２つの例を２つの曲線２０１と２０２でそれぞれ示している。ｘ軸は計測値ｘの値であるのに対して、ｙ軸は障害の発生の確率を表している。ルールは、述語ｘ＞ｘ^Tによって設定されているため、障害発生の確率はｘの増加と共に増加する（または少なくとも一定のままである）ことを意味している。そうでなければ、オペレータは、警報を発生するためにそのような述語を設定することはないであろう。逆に、述語がｘ＜ｘ^Tであった場合には、ｘの減少と共に障害発生の確率は増加すると予測される。オペレータは、ｘの特定の範囲でのみ障害が発生する場合は、ｘ₁ ^T＜ｘ＜ｘ₂ ^Tのような述語を設定することもできる。結合された条件が記述されることになるが、これは、ｘ₁ ^T＜ｘ＜ｘ₂ ^Tを、２つの基本的な論理式ｘ＞ｘ₁ ^Tとｘ＜ｘ₂ ^Tによって置き換えることができるからである。

ｘ＜ｘ^Tのような基本的な述語の背景にある障害モデルをここで説明する。曲線２０１（太い線）で示している障害モデルは、ルール設定の背景にある理想的な状態を表しており、障害発生の確率は、臨界値以降は１に等しい。この値がしきい値として設定されると、偽の陽性と偽の陰性が発生することはない。しかし、より現実的なモデルを曲線２０２（点線）で示しており、所与のしきい値は、問題を通報する場合に、常に擬の陽性および／または偽の陰性につながることになる。これらのさまざまな計測値の理論的な障害モデルは、実際には本質的に未知であるため、オペレータは、自分の経験と装置の知識とに基づいて、しきい値を選択しなければならない。たとえば、オペレータは、しきい値を定めるために、静的な履歴データを使用してもよい。

警報の重要性のランク付け：本明細書で説明している実施形態において、我々は、既存のルールベースの装置におけるルールとしきい値を修正しない、つまり、警報を発生する機構を変更しない。実際に、異種の複数の構成要素については、これらの構成要素を管理するオペレータは、ルールとしきい値を設定するための正しい装置の知識を有しているかもしれない。その代わりに、図１のブロック１１０でさまざまな装置の構成要素からの警報を受信した後、我々は、装置の運用では一般的な問題である偽の陽性の割合を減少させるように、同僚評価機構１３０によって警報の重要性を分析する。ここでの「重要性」は、真陽性通報確率（ＰＲＴＰ）と定義される。以下のコンテキストでは、我々は、計測値ｘについて真の陽性を通報する確率を示すために、Ｐｒｏｂ（ｔｒｕｅ｜ｘ）｛これは条件付き確率｝を使用する。一般性を失うことなく、図２の計測値に関連して、以下の一式のルールを仮定する。
１．もし（Ｉ₁＞ｘ）ならば、ａｌｅｒｔ１を発生；
２．もし（Ｉ₂＞ｘ）ならば、ａｌｅｒｔ２を発生；
３．もし（Ｉ₆＞ｚ）ならば、ａｌｅｒｔ３を発生；ここでｘ、ｙ、ｚはしきい値。ここで、Ｉ₁＞ｘの場合、我々は、この値を伝搬させるように、図２に示している不変量ネットワークをたどって、その等価値Ｉ₂ ^xをノード２で、Ｉ₆ ^xをノード６でそれぞれ計算する。同様に、Ｉ₂＝ｙの場合、我々は、その等価値Ｉ₁ ^yをノード１で、Ｉ₆ ^yをノード６でそれぞれ計算することができる。さらに、Ｉ₁ ^zとＩ₂ ^zも同様に計算することができる。前述のルールに示している各計測値については、その局所的なしきい値と、他の２つのルールからマッピングされている２つのしきい値と、の３つのしきい値がある。たとえば、計測値Ｉ₁については、その局所的なしきい値ｘと２つの等価しきい値Ｉ₁ ^yとＩ₁ ^z（これらは図１のブロック１０６で求められる）がある。

元のしきい値ｘ、ｙおよびｚは、異なる意味を有しているため、我々は、それらを直接比較することはできない。たとえば、ｘはＣＰＵ使用率に関し、ｙはネットワーク使用率に関すると仮定すると、異なるコンテキストにあるそれらを比較することには意味がない。他のしきい値ｙとｚとは、ｘの局所的なコンテキストにマッピングされているので、我々は、警報の重要性をランク付けするために、これらの等価値をｘと比較することができる。

図４を参照すると、計測値の複数のしきい値との比較が例示されている。図示のように

を仮定すると、我々は、図３の障害モデルによって、以下のように結論づけることができる。

前述のルールの述語論理は「＞」であるため、ＰＲＴＰは、計測値が増加しても減少することはない。この性質に基づいて、我々は、異なるしきい値における実際の値を知ることなく、ＰＲＴＰの順番をランク付けすることができる。そのため、我々は、ＰＲＴＰをランク付けするために、既知の障害モデルを知る必要はない。その代わりに、我々は、図１のブロック１０８においてＰＲＴＰのランク付けを導き出すためには、述語論理と複数のルールの複数の等価しきい値をランク付けすることだけが必要である。ルールの述語論理が「＜」である場合、不等式（４）のＰＲＴＰの順序を逆にしなければならない。

図４では、我々は、Ｉ₁のコンテキストにおいて、ルールの複数のしきい値とそれらのＰＲＴＰをランク付けしている。問題は、そのような順序が他の計測値のコンテキストにおいて変化するかどうかである。たとえば、Ｉ₂のコンテキストにおけるｙ、Ｉ₂ ^x、およびＩ₂ ^zの順序である。

図５は、計測値の異なるコンテキストにおけるこれらのしきい値を示している。Ｉ₁とＩ₂とは線形の関係を有しているため、Ｉ₁の軸についてｘ＜Ｉ₁ ^yである場合、Ｉ₂の軸についてもｙ＞Ｉ₂ ^xとなる。そのため、計測値の異なるコンテキストに複数のしきい値をマッピングしても、複数のしきい値の順序は変化しない。その結果、複数のＰＲＴＰの順序も変化しない。様々な計測値の背景にある障害モデルは異なるため、様々な計測値のコンテキストで計算されたＰＲＴＰの実際の値も、非常に異なることがある。たとえば、Ｐｒｏｂ_I1（ｔｒｕｅ｜ｘ）（障害モデルＩ₁を使用して計算）は、Ｐｒｏｂ_I2（ｔｒｕｅ｜Ｉ₂ ^x）（障害モデルＩ₂を使用して計算）と異なるかもしれないが、それらのしきい値ｘとＩ₂ ^xとは等価である。しかし、どの障害モデルが使用されても、ＰＲＴＰの順序は変化しない、つまり、コンテキストＩ₁においてＰｒｏｂ_I1（ｔｒｕｅ｜ｘ）＜Ｐｒｏｂ_I1（ｔｒｕｅ｜Ｉ₁ ^y）の場合、コンテキストＩ₂においてもＰｒｏｂ_I2（ｔｒｕｅ｜Ｉ₂ ^x）＜Ｐｒｏｂ_I2（ｔｒｕｅ｜ｙ）である。

図１を参照すると、ある大規模な複数の装置（１０２）について、大量の実時間監視データを、データ解析のための中心点（たとえばネットワーク運用センター）に入力するには、リソースの消費が多い。その代わりに、監視データ（１０３）は、局所的なルールベースの複数のエージェントによって処理され、複数のエージェントは、データ自体ではなく、警報を、中心点に転送する、つまり、我々は、中心点で、監視データではなく、警報だけを目にすることになる。この場合（ケースＩとする）、我々は、履歴監視データを（ブロック１０３で）収集し、オフラインで不変量を（ブロック１０４で）抽出し、それから、（ブロック１１２で）様々な装置の構成要素から複数のルールを収集する。我々は、抽出された不変量ネットワーク１０４をたどって、ブロック１０６において複数のルールの複数の等価しきい値を計算し、さらに、ブロック１１０からの複数の警報の重要性の順序を定めるために、ブロック１０８でそれらをランク付けする。たとえば、不等式（４）を使用して、我々は、重要性の降順：ａｌｅｒｔ２、ａｌｅｒｔ１、および、ａｌｅｒｔ３、で複数の警報をランク付けする。最も低くランク付けされている複数の警報は、偽の陽性である可能性があるため、オペレータは、警報のこの部分に対して正しいしきい値を設定しているかどうか再確認したくなるかもしれない。

計測値のさまざまコンテキストにおいて警報の順序は変化することがないため、我々は、比較のために全てのしきい値を１つの計測値の同じコンテキストにマッピングすることができる。不変量ネットワーク内のｎ個のしきい値が与えられた場合、それらのしきい値を比較するには、我々は、ｎ−１個のマッピングが必要なだけである。これらの全てのステップは、オフラインで実行することができる。任意の時刻ｔにブロック１１０において複数の警報の部分集合を受信した後、我々は、オフラインで計算された順序に従って、複数の警報のこの特定の部分集合をランク付けする。たとえば、ａｌｅｒｔ２とａｌｅｒｔ３の両方を時刻ｔに受信した場合、我々は、全ての警報のランク付けに基づいて、ａｌｅｒｔ２はａｌｅｒｔ３よりも重要であることがわかる。図１は、ケースＩのオフラインの部分とオンラインの部分を示している。ただし、中心点では実時間データが利用できないため、我々は、複数の警報のランク付けのために、現在の複数の計測値ではなく、静的な複数のしきい値を基本的に使用する、つまり、Ｐｒｏｂ（ｔｒｕｅ｜Ｉ、Ｉ＞ｘ）＝Ｐｒｏｂ（ｔｒｕｅ｜ｘ）、Ｉは計測値でｘはそのしきい値であると数学的に仮定する。これは、図３の曲線２０１によって表されている障害モデルに従っている。

前述のケースでは、我々は、現在の計測値Ｉがそのしきい値ｘからどれだけ離れているかは考慮しない。一般的に、図３の曲線２０２は、Ｉが増加するとＰｒｏｂ（ｔｒｕｅ｜Ｉ、Ｉ＞ｘ）が増加することを図示している。複数の計測値と複数の警報とが中心点で使用可能な場合、我々は、複数の警報のランク付けには、それらの複数のしきい値ではなく、実際の複数の値を使用すべきである。この場合（ケースＩＩと表す）、図４に示しているように、我々は、しきい値違反の数（ＮＴＶ）を求めるために、実際の計測値を全ての等価しきい値と比較する。ただし、警報を受信した後、つまり、実際の値が、少なくともその局所的なしきい値に違反し、そのＮＴＶが少なくとも１の場合にだけ、ＮＴＶを計算するために、そのような比較を行う。たとえば、図４においてｘ＜Ｉ₁＜Ｉ₁ ^yの場合、Ｉ₁はしきい値ｘとＩ₁ ^zよりも大きいため、ＮＴＶは２である。Ｉ₁＞Ｉ₁ ^yの場合、ＮＴＶは３である。ただし、複数の等価しきい値の順序は、計測値の様々なコンテキストで同じままである。これらの等価しきい値は、実際の複数の値を比較するために、さまざまなコンテキストにおける参照点として本質的に使用され、その後、複数の警報のランク付けのためにＮＴＶを使用する。

実際の計測値が、より多くの等価しきい値を違反している場合、その警報のＰＲＴＰは、より高くなり、確認によって対応することがより重要である。その局所的なルールに加えて、ＮＴＶは、その警報に同意している他のルール（同僚）の数を本質的に表している。

ケースＩＩにおいて、我々は、監視データ（１０３）と複数のルール（１１２）とを収集するように、図１に示しているのと同じオフラインのステップに従って、複数の不変量（１０４）を抽出し、複数の等価しきい値（１０６）を計算する。しかし、不変量ネットワーク内の複数のしきい値を備えている所与のｎ個の計測値が与えられると、各しきい値は、他のｎ−１個のしきい値のコンテキストにマッピングされ、マッピングは、全部でｎ（ｎ−１）個になる。その結果、各計測値は、その局所的なしきい値と他の複数のルールからマッピングされたｎ−１個の等価しきい値を含むｎ個のしきい値を有することになる。たとえば、Ｉ₁は、局所的なしきい値ｘと、他の２つのルールからマッピングされている２つの等価しきい値Ｉ₁ ^yとＩ₁ ^zも有する。これら全てのステップはオフラインで実行され、各計測値には、計測値のコンテキストにおける複数の等価しきい値を保存するためのベクトルがある。ここで時刻ｔにおいて、我々が、一式の警報をオンラインで受信した後（１１０）、各警報に対応している実際の計測値が、そのＮＴＶを求めるために、全ての等価しきい値と比較される。我々は、それから、警報の重要性をランク付けするために、それらのＮＴＶをソートする。

ケースＩとケースＩＩとの違いは、我々が、複数の警報のランク付けのために、実際の計測値を使用するかどうかである。ケースＩＩにおいては、中心の点が、複数の警報だけでなく実際の計測データも受信する。逆に、ケースＩにおいては、複数の警報だけが中心点に転送される。しかし、２つのケースにおける２つのアプローチは、方法１に統合することができる。方法１：
１．複数の装置から履歴監視データを収集する
２．複数の不変量を抽出する
３．複数の装置から複数の管理ルールを収集する
４．すべての等価しきい値を計算する
５．時刻ｔにおいて、複数の装置から一式の警報を受信する
６．各警報のしきい値違反の数（ＮＴＶ）を計算するために、各警報の実際の計測値を複数の等価しきい値のベクトルと比較する
７．受信した一式の複数の警報をランク付けするために、ＮＴＶをソートする
８．ステップ５に戻る
ステップ６において、我々が、実際の計測値をその局所しきい値に置き換えると、我々は、ＮＴＶを得るために、この局所しきい値を他の複数のルールの等価しきい値と比較することが基本的に可能である。我々が複数のＮＴＶをソートした場合、我々は、ケースＩから得られる順序と同じ警報の順序を得ることになる。動的なしきい値設定機構を有しているルールがあってもよい。新しい各しきい値について、ステップ４において、方法１は、その新しい値を他のｎ−１個のノードに、いったん再度伝搬させなければならない。

ケースＩＩでは、我々は、実際の計測値を同じコンテキストにマッピングし、複数の警報をランク付けするために、それらを直接比較することができる。しかし、様々装置の障害時に多くのルールの違反があった場合、それらの計測値は、もはや元の不変量の複数の関係に従わなくなることもある。そのため、値を１つのノードから他の複数のノードに伝搬させるために、我々は、同じ不変量ネットワークを使用することはできない。実際に、不変量ネットワークが依然として同じ場合、２つのノードで観測された実際の２つの値は、それらのマッピングの関係を正確に反映していなければならず、それらはすでに「等価である」、つまり、それらの値をマッピングするのではなく、実際に値を単に観測することができる。その代わりに、方法１においては、不変量ネットワークを通して伝搬するのはしきい値であって、これは、さまざまなルールの複数のしきい値が任意に設定され、それらの不変量の関係には従っていないからである。逆に、計測値は実際の装置から観測され、それらの背景にある装置の拘束条件に当然従う。

実際の複数の計測値は、他の複数のルールからマッピングされている複数の等価しきい値と局所的に比較される。ただし、これらの等価しきい値は数学的に導出されるが、実際の装置内には存在していない。これらは、オペレータのしきい値の選択の習慣の積極性または保守性を比較するための参照値として採用されている。実際には何らかの不変量が何らかのしきい値において成立しなくなっても、複数の「仮想的な」等価しきい値は同様に計算可能であって、さまざまなルールの「厳格さ」を比較するための参照値として使用することができる。さらに、わずかな差の複数の警報をランク付けする必要はない。たとえば、２つの警報の２つの実際の計測値が、全ての等価しきい値に違反している場合、それらの実際の値には何らかの差がある可能性があるが、それらは同様に重要である。そのため、方法１においては、警報のランク付けには、実際の計測値ではなくＮＴＶを使用する。

図６を参照すると、警報ランク付け機構１３０をより詳細に示している。ブロック１３１において、様々なルールの複数の等価しきい値の計算に、不変量ネットワークが採用される。ブロック１３２では、実際の計測値が、しきい値違反の数（ＮＴＶ）を計算するために、その等価しきい値のベクトルと比較される。ブロック１３３においては、各計測値の警報の重要性をランク付けするために、それらのＮＴＶがソートされる。

本実施形態は、少なくとも以下の点について、既存の不変量技法の価値を高めることができる。１．オペレータが問題をはるかに速くより高い精度で解決するために自身の問題判断処理の優先順位を付けることができるように、複数の警報の重要性をランク付けする本アプローチを導入することによって、現在のルールベースの装置を即座に改良することができる。本アプローチは、偽の陽性の可能性がより高いこれらの警報を除外できるようにする。２．低くランク付けされている警報は偽の陽性である可能性が高いため、オペレータは、この情報を使用して警報のこれらの部分について正しいしきい値を設定しているかどうかを再確認して、問題通報の精度をさらに改善することができる。オペレータは、大量の偽の警報を受信することがなくなるので、これは装置管理のコストを大きく削減することができる。

拡張：本ルールベース装置において、各計測値は、警報を発生するためにそれ自体のしきい値と比較され、各ルールは、その隔離されている局所的なコンテキストで動作する。そのような計測値は、その警報の重要性を判断するために、他の複数のルールからマッピングされている複数の等価しきい値とさらに比較される。そのため、不変量ネットワークを使用して、複数の個別のしきい値を大局的なコンテキストに導入することが可能になる。計測値が自身のルールだけではなく他のルールによってもチェックされるように、協調同僚評価機構を導入する。警報は、局所的なしきい値に同意している同僚の数を表している複数のＮＴＶに基づいてランク付けされる。より高いＮＴＶを有している警報は、より重要であるとランク付けされるべきであり、これは、より多くの同僚が、そのような警報を、それら自体が発生することになるからである。オペレータは、自身の経験と直感とによって複数のルールとしきい値とを設定する。各しきい値は正確には設定されていないのに対して、本アプローチは、そのような共同同僚評価機構を導入することによって、問題を通報する精度を向上させることができる。ルールのグループからの同意は、そのしきい値が偏っている可能性がある個別のルールよりもより正確である。本概念を示すために「障害モデル」を使用するが、本アプローチは、性能やセキュリティの管理などの他の業務の警報の管理に使用することもできる。例えば、セキュリティ問題の警報管理のために、障害モデルを攻撃モデルまたは異常モデルに置き換えてもよい。

我々は、全てのルールの述語論理は、ｘが計測値でｘ^Tがそのしきい値であるときに、「ｘ＞ｘ^T」（「＞」論理とする）であると仮定している。ルールの述語論理が「ｘ＜ｘ^T」（「＜」論理とする）の場合、本アプローチと方法１とは同じままである。しかし、「＜」論理の下では、計測値が小さくなると、そのＮＴＶはより大きくなり、それは「＞」論理の下では反転する。実際に、あるルールは「＞」論理を有しているのに対して、他のルールは「＜」論理を有していることがある。問題は、これらの混ざり合ったルールからの警報をどのようにランク付けするかである。さまざまな計測値の背景にある障害モデルは未知であるため、我々は、計測値の実際の値を知ることなく、警報のＰＲＴＰをランク付けする。しかし、様々な障害モデルのせいで、我々は、「＞」論理の１つのしきい値を「＜」論路の他のしきい値と比較することによって、複数のＰＲＴＰをランク付けすることはできない、つまり、複数のＰＲＴＰの順序をしきい値の順序から直接導き出すことはできない。例えば、「＞」論理の下で、計測値が増加するとＰＲＴＰは増加する。逆に、「＜」論理の下で、計測値が増加すると、ＰＲＴＰは減少する。我々は、これらの警報を、実際には未知のそれらの実際のＰＲＴＰ値を使用してのみランク付けすることができる。そのため、ルールの述語論理に基づいて、我々は、警報を２つのクラスタに分割し、それらを別個にランク付けしなければならない。

実際に、「＞」または「＜」を有するルールは、装置の過負荷または装置のダウンなど、異なる装置の状態を監視するように設置されている。特定の装置の状態においては、警報の多くは、一方のクラスタにだけに属している可能性がある。ただし、我々は、同じ時間ステップにおいて受信した一式の警報だけをランク付けする。

ルールによっては、述語は、「ｘ₁ ^T＜ｘ＜ｘ₂ ^T」や「ｘ＞ｘ₁ ^Tおよびｙ＜ｙ^T」などの結合条件を有していることもある。そのようなルールからの警報を他の警報に対してどのようにランク付けするかも同じ問題である。結合条件は、いくつかの基本的な「＞」と「＜」の論理から構成することができる。たとえば、「ｘ₁ ^T＜ｘ＜ｘ₂ ^T」は、「ｘ＞ｘ₁ ^T」と「ｘ＜ｘ₂ ^T」のように書き換えることができる。「ａｎｄ」で結合されている条件内のすべての「＞」論理に対して、最も高い等価しきい値を有している倫理を使用して、その警報をランク付けすることができ、それは、その論理が他の全ての「＞」論理を包含しているからである。逆に、「ａｎｄ」で結合されている条件内のすべての「＜」論理に対して、最も低い等価しきい値を有している倫理を使用して、その警報をランク付けすることができ、それは、その論理が同様に他の全ての「＜」論理を包含しているからである。

「ｏｒ」で結合されている条件内の複数の論理については、我々は、どの論理が満たされているかを判断するために、実際の複数の計測値を使用することが可能で、それから、この論理だけを使用して、この条件に対応している警報をランク付けすることができる。ただし、「ｏｒ」で結合されている条件は、実際には一般的ではなく、これは、問題の通報において異なるシナリオを区別できないためである。そのため、我々は、結合条件中の複数の「＞」論理（または「＜」論理）を、１つの「＞」論理（または「＜」論理）に変換することができる。結合条件が「＞」論理と「＜」論理の両方を有している場合、我々は、１つの警報を、「＞」の警報と「＜」の警報の両方のクラスタ中でランク付けすることになる。結合条件を備えているルールは、１つの「＞」論理および／または１つの「＜」論理を備えているルールに変換可能であって、そのルールは、さらに他のルールと共にランク付けすることができる。

図２に示しているように、いくつかの離れている不変量ネットワークが存在することがあり、各計測値ノードが、必ず他の計測値ノードから到達できるわけではない。互いに到達できない計測値から発生した複数の警報をランク付けするのは困難である。我々が、等価しきい値を実質的に予測できるようにし、さらに、複数の警報の重要性をランク付けできるようにするのが、不変量ネットワークである。そのため、我々は、同じサブネットワーク内の複数の計測値からの複数の警報だけをランク付けすることはできるが、分離されているサブネットワークにわたってはランク付けすることはできない。しかし、実際には、ほとんどの計測値は、同じ不変量ネットワークに属しており、これは、同じ外部要因、つまり、作業負荷の量に応答するためである。各警報を独立して分析することに比べて、各不変量サブネットワーク内で複数の警報をランク付けして、さらに複数の警報の各クラスタをそれらの重要性の順番によって分析することは依然として意味がある。

図７を参照すると、複数の警報の優先順位を設定する装置／方法の実例を示している。ブロック４０２において、監視されている装置データ間の関係を求めるためのモデルの安定した集合を求めるために、複数の不変量が抽出される。これは、ブロック４０４で、所与の時間窓内で監視されている複数のデータモデルの適合度スコアを計算することと、ブロック４０５で、適合しきい値未満のデータモデルを除外することと、ブロック４０６で、複数の時間窓にわたって、残りの複数の監視されているデータモデルを不変量と見なすことと、を有していてもよい。

ブロック４０８において、複数の不変量を抽出することによって作られた不変量ネットワークを使用して、複数のルールの等価しきい値が計算される。不変量ネットワークは、複数の計測値を表している複数のノードを有している。ブロック４１０において、他の計測値を予測するために、複数の値を不変量ネットワークのノード間で伝搬させる。ブロック４１１において、複数の値を伝搬させることは、複数の等価しきい値を得るために、他のノードからの複数のしきい値をマッピングすることを有している。

ブロック４１２において、所与の時間窓の間に、監視されている装置から一式の警報が受信される。ブロック４１４において、複数の警報の計測値が、複数の等価しきい値のベクトルと比較される。等価しきい値のこの比較は、計測値に対応している警報の重要性を定めるために使用される。重要性は、真の陽性を通報している確率を有していてもよい。比較は、ブロック４１５のしきい値違反の数（ＮＴＶ）に基づいていてもよい。

ブロック４１６において、一式の警報がランク付けされる。ランク付けすることは、ブロック４１８において、複数の警報を重要性の順に処理することを含む。ランク付けすることは、一式の警報をランク付けするために、複数のＮＴＶをソートすることによって実現されてもよい。

大規模装置における問題判定のための複数の警報の重要性をランク付けする装置と方法の好ましい複数の実施形態（実例を示すことを目的とし、限定を意図していない）を説明したが、上記教えに鑑み、当業者は修正と変形を行うことができる。そのため、添付の特許請求の範囲で概説したような本発明の範囲と精神の範囲内で、開示されている特定の実施形態を変更することができる。本発明の態様を特許法が要求する詳細さと具体性とを備えて説明したが、請求し特許証による保護を要望する内容を添付の請求項に記述している。

Claims

監視されている装置データ間の複数の関係を求めるためのモデルの安定した集合を求めるために複数の不変量を抽出し、
前記複数の不変量を抽出することによって作られた不変量ネットワークを使用して複数のルールの等価しきい値を計算し、
所与の時間窓の間に、監視されている装置から一式の警報を受信し、
前記複数の警報の計測値を前記複数の等価しきい値のベクトルと比較し、
前記一式の警報をランク付けすること、
を有する、複数の警報の優先順位を設定する方法。
前記複数の不変量を抽出することは、
所与の時間窓内で監視されている複数のデータモデルの適合度スコアを計算し、
適合しきい値未満の監視されているデータモデルを除外し、
複数の時間窓にわたって、残りの複数の監視されているデータモデルを不変量と見なすこと、を有する、請求項１に記載の方法。
前記不変量ネットワークは、計測値を表している複数のノードを有し、他の複数の計測値を推定するために前記不変量ネットワークの前記複数のノード間で複数の値を伝搬させることをさらに有する、請求項１に記載の方法。
前記複数の値を伝搬させることは、前記複数の等価しきい値を得るために、他のノードからの複数のしきい値をマッピングすることを有する、請求項１に記載の方法。
前記複数の警報の計測値を前記複数の等価しきい値のベクトルと比較することは、前記計測値に対応する警報の重要性を求めるために、前記複数の等価しきい値を比較することを有する、請求項１に記載の方法。
前記重要性は、真の陽性を通報する確率を有している、請求項１に記載の方法。
前記ランク付けすることは、前記複数の警報を重要性の順に処理することを有する、請求項１に記載の方法。
前記複数の警報の計測値を前記複数の等価しきい値のベクトルと比較することは、
しきい値違反の数（ＮＴＶ）を求め、
前記一式の警報をランク付けするために、前記ＮＴＶをソートすること、を有する、請求項１に記載の方法。
コンピュータ読み取り可能プログラムを有し、前記コンピュータ読み取り可能プログラムはコンピュータ上で実行されるときに、前記コンピュータに請求項１の前記複数のステップを実行させる、コンピュータ読み取り可能媒体。
装置の１つまたは２つ以上の構成要素から監視履歴データを収集し、
前記装置の監視履歴データ間の複数の関係を求めるためのモデルの安定した集合を求めるために複数の不変量を抽出し、
前記監視されている複数の装置の構成要素から複数の管理ルールを収集し、
前記複数の不変量を抽出することによって作られた不変量ネットワークを使用して前記複数の管理ルールの等価しきい値を計算し、
所与の時間窓の間に、前記監視されている装置から一式の警報を受信し、
しきい値違反の数（ＮＴＶ）を計算するために、前記複数の警報の計測値を前記複数の等価しきい値のベクトルと比較し、
前記一式の警報をランク付けするために、前記ＮＴＶをソートすること、
を有する、複数の警報の優先順位を設定する方法。
前記複数の不変量を抽出することは、
所与の時間窓内で監視されている複数のデータモデルの適合度スコアを計算し、
適合しきい値未満の監視されているデータモデルを除外し、
複数の時間窓にわたって、残りの複数の監視されているデータモデルを不変量と見なすこと、を有する、請求項１０に記載の方法。
前記不変量ネットワークは、計測値を表している複数のノードを有し、他の複数の計測値を推定するために前記不変量ネットワークの前記複数のノード間で複数の値を伝搬させることをさらに有する、請求項１０に記載の方法。
前記複数の値を伝搬させることは、前記複数の等価しきい値を得るために、他のノードからの複数のしきい値をマッピングすることを有する、請求項１２に記載の方法。
前記複数の警報の計測値を前記複数の等価しきい値のベクトルと比較することは、前記計測値に対応する警報の重要性を求めるために、前記複数の等価しきい値を比較することを有する、請求項１０に記載の方法。
前記重要性は、真の陽性を通報している確率を有している、請求項１０に記載の方法。
前記ソートすることは、前記複数の警報を重要性の順に処理することを有する、請求項１０に記載の方法。
コンピュータ読み取り可能プログラムを有し、前記コンピュータ読み取り可能プログラムはコンピュータ上で実行されるときに、前記コンピュータに請求項１０の前記複数のステップを実行させる、コンピュータ読み取り可能媒体。
複数のノードとしての複数の計測値と、監視されている装置データ間の複数の不変な関係を表している複数のエッジと、を使用して構築され、かつ、複数のルールについての複数の等価しきい値を計算するように構成されている、不変量ネットワークを保存するように構成されているプログラム保存媒体と、
監視されている装置についての所与の時間窓の間に、複数の警報を発生するように構成されている警報発生器と、
前記複数の警報の重要性を求めるために、計測値を局所しきい値および他のルールからマッピングされている複数の等価しきい値と比較するように構成されている同僚評価機構と、
を有する、複数の警報の優先順位を設定する装置。
前記不変量ネットワークは、計測値を表している複数のノードを有し、他の複数のしきい値または複数の計測値を推定するために、前記不変量ネットワークの前記複数のノード間で複数の値を伝搬させる、請求項１８に記載の装置。
前記重要性は、真の陽性を通報している確率を有している、請求項１８に記載の装置。
前記複数の警報の計測値は、しきい値違反の数（ＮＴＶ）を有する複数の前記等価しきい値のベクトルを有する、請求項１８に記載の装置。